首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >数据挖掘算法之决策树算法

数据挖掘算法之决策树算法

作者头像
赵腰静
发布于 2018-03-09 07:02:27
发布于 2018-03-09 07:02:27
8630
举报
文章被收录于专栏:程序猿程序猿

数据挖掘算法之

决策树算法

机器学习中,决策树是一个预测模型;它代表的是对象属性值与对象值之间的一种映射关系。树中每个节点表示某个对象,每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应具有上述属性值的子对象。决策树仅有单一输出;若需要多个输出,可以建立独立的决策树以处理不同输出。

从数据产生决策树的机器学习技术叫做决策树学习, 通俗说就是决策树。

决策树学习也是数据挖掘中一个普通的方法。在这里,每个决策树都表述了一种树型结构,它由它的分支来对该类型的对象依靠属性进行分类。每个决策树可以依靠对源数据库的分割进行数据测试。这个过程可以递归式的对树进行修剪。当不能再进行分割或一个单独的类可以被应用于某一分支时,递归过程就完成了。另外,随机森林分类器将许多决策树结合起来以提升分类的正确率。

决策树同时也可以依靠计算条件概率来构造。决策树如果依靠数学的计算方法可以取得更加理想的效果。

1.1 决策树的工作原理

决策树一般都是自上而下的来生成的。

选择分割的方法有多种,但是目的都是一致的,即对目标类尝试进行最佳的分割。

从根节点到叶子节点都有一条路径,这条路径就是一条“规则”。

决策树可以是二叉的,也可以是多叉的。

对每个节点的衡量:

1) 通过该节点的记录数;

2) 如果是叶子节点的话,分类的路径;

3) 对叶子节点正确分类的比例。

有些规则的效果可以比其他的一些规则要好。

1.2 ID3算法

1.2.1 概念提取算法CLS

1) 初始化参数C={E},E包括所有的例子,为根;

2) 如果C中的任一元素e同属于同一个决策类则创建一个叶子节点YES终止;否则依启发式标准,选择特征Fi={V1, V2, V3,……, Vn}并创建判定节点,划分C为互不相交的N个集合C1,C2,C3,……,Cn;

3) 对任一个Ci递归。

1.2.2 ID3算法

1) 随机选择C的一个子集W (窗口);

2) 调用CLS生成W的分类树DT(强调的启发式标准在后);

3) 顺序扫描C搜集DT的意外(即由DT无法确定的例子);

4) 组合W与已发现的意外,形成新的W;

5) 重复2)到4),直到无例外为止。

启发式标准:

只跟本身与其子树有关,采取信息理论用熵来量度。

熵是选择事件时选择自由度的量度,其计算方法为:P=freq(Cj,S)/|S|;INFO(S)=-SUM(P*LOG(P));SUM()函数是求j从1到n的和。Gain(X)=Info(X)-Infox(X);Infox(X)=SUM( (|Ti|/|T|)*Info(X);

为保证生成的决策树最小,ID3算法在生成子树时,选取使生成的子树的熵(即Gain(S))最小的特征来生成子树。

ID3算法对数据的要求:

1) 所有属性必须为离散量;

2) 所有的训练例的所有属性必须有一个明确的值;

3) 相同的因素必须得到相同的结论且训练例必须唯一。

1.3 C4.5算法

由于ID3算法在实际应用中存在一些问题,于是Quilan提出了C4.5算法,严格上说C4.5只能是ID3的一个改进算法。

C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:

1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;

2) 在树构造过程中进行剪枝;

3) 能够完成对连续属性的离散化处理;

4) 能够对不完整数据进行处理。

C4.5算法有如下优点:

产生的分类规则易于理解,准确率较高。

C4.5算法有如下缺点:

在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。

分类决策树算法:

C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法。

分类决策树算法是从大量事例中进行提取分类规则的自上而下的决策树。

决策树的各部分是:

根:学习的事例集;

枝:分类的判定条件;

叶:分好的各个类。

1.3.1 C4.5对ID3算法的改进:

1) 熵的改进,加上了子树的信息。

Split_Infox(X)= -SUM( (|T|/|Ti|)*LOG(|Ti|/|T|));

Gain ratio(X)= Gain(X)/Split_Infox(X);

2) 在输入数据上的改进

① 因素属性的值可以是连续量,C4.5对其排序并分成不同的集合后按照ID3算法当作离散量进行处理,但结论属性的值必须是离散值。

② 训练例的因素属性值可以是不确定的,以?表示,但结论必须是确定的。

3) 对已生成的决策树进行裁剪,减小生成树的规模。

后面还有贝叶斯、邻近算法、人工神经网络等等。未完待续

扫一下下方二维码关注“数据库SQL”

打造数据库爱好者的学习之地

我们在不断的探索新的模式

欢迎您的意见和建议

算法

编程

数据库

网络安全

数据结构和分析

一体的平台

不仅仅是数据库!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2016-07-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据库SQL 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
路由知识大全
假设上面的图例,R3后面还有一个网段,比如192.168.20.0,那么在R1上可以这样写:
玖柒的小窝
2021/09/18
5340
路由知识大全
【干货】你还不知道路由器工作原理吗,99%的人都看
路由器(router)是互联网的枢纽,是连接英特网中各局域网、广域网的设备,它会根据信道的情况自动选择和设定路由,以最佳路径,按前后顺序发送数据。
网络工程师笔记
2021/06/23
3.3K0
【干货】你还不知道路由器工作原理吗,99%的人都看
深入探索路由算法的核心原理与应用
网络路由不仅确保数据包从源头顺利到达目的地,还优化了数据传输路径,提高了网络效率和性能。路由算法,作为网络设计的核心,决定了数据的传输路线。本文将深入探讨路由算法的分类、工作原理及其在现代网络技术中的应用。
陆业聪
2024/11/04
3140
深入探索路由算法的核心原理与应用
路由知识 静态路由 rip eigrp ospf
第1章 路由选择原理 1.1 几个概念 1.1.1 被动路由协议 用来在路由之间传递用户信息 1.1.2 主动路由协议 用于维护路由器的路由表 R2#show ip route Codes: C -
惨绿少年
2017/12/27
1.9K0
路由器详细讲解
路由器是一种网络设备,它在计算机网络中扮演着至关重要的角色,主要用于连接不同的网络,并根据数据包的目的地址选择合适的路径进行转发。以下是对路由器的详细讲解:
久绊A
2025/05/05
4170
探秘路由表:网络世界的导航地图
在当今数字化时代,网络已经成为我们生活中不可或缺的一部分。无论是浏览网页、观看视频,还是进行在线办公、游戏娱乐,我们都在与网络进行着频繁的交互。而在这背后,网络中的数据传输就如同现实生活中的快递配送,每一个数据包都承载着我们的信息,在复杂的网络环境中穿梭,最终准确无误地到达目的地。
用户11396661
2025/02/24
3520
OSPF、EIGRP、RIPv2、IS-IS、BGP动态路由大家庭,网工收藏!
路由协议的目的是实现端点之间端到端的网络层连接,每个会话的端点之间总是有一个前向和反向路径选择。
网络技术联盟站
2023/03/01
1.4K0
OSPF、EIGRP、RIPv2、IS-IS、BGP动态路由大家庭,网工收藏!
路由器原理及常用的路由协议、路由算法
路由器工作在OSI模型中的第三层,即网络层。路由器利用网络层定义的“逻辑”上的网络地址(即IP地址)来区别不同的网络,实现网络的互连和隔离,保持各个网络的独立性。路由器不转发广播消息……
网络技术联盟站
2023/03/13
1.8K0
路由器原理及常用的路由协议、路由算法
18张图带你详解IP路由表七大要素:路由前缀、协议类型、优先级、开销、下一跳、出接口
上次有写过一篇《20张图深度详解MAC地址表、ARP表、路由表 》的文章,里面有提到路由表,那么什么是IP路由、什么又是IP路由表呢?
网络工程师笔记
2021/09/09
12.9K0
18张图带你详解IP路由表七大要素:路由前缀、协议类型、优先级、开销、下一跳、出接口
MAC地址表、ARP表、路由表和转发表的协助关系,通过快递的例子类比介绍,简单易懂
功能‌:记录局域网内设备MAC地址与交换机端口的对应关系,用于二层数据帧的精准转发‌。
ICT系统集成阿祥
2025/04/18
2340
MAC地址表、ARP表、路由表和转发表的协助关系,通过快递的例子类比介绍,简单易懂
TCP/IP 模型中,网络层对 IP 地址的分配与路由选择
TCP/IP 模型 是现代网络通信的基础架构,它由四个层次组成:应用层、传输层、网络层和数据链路层。在这个模型中,网络层 负责 IP 地址的分配、路由选择和数据包的转发。具体来说,网络层负责将数据包从源主机传递到目标主机,并且确定最佳的路径,这一切的核心便是 IP 地址的分配与路由选择。
神的孩子都在歌唱
2025/03/05
3650
TCP/IP 模型中,网络层对 IP 地址的分配与路由选择
linux之路由知识之ip route 命令中的疑惑[通俗易懂]
基于策略的路由比传统路由在功能上更强大,使用更灵活,它使网络管理员不仅能够根据目的地址而且能够根据报文大小、应用或IP源地址等属性来选择转发路径。
全栈程序员站长
2022/09/09
7.6K0
linux之路由知识之ip route 命令中的疑惑[通俗易懂]
配置静态路由,动态路由,默认路由模式_默认路由为网络和掩码
路由(routing)是指分组从源到目的地时,决定端到端路径的网络范围的进程 [1] 。路由工作在OSI参考模型第三层——网络层的数据包转发设备。路由器通过转发数据包来实现网络互连。虽然路由器可以支持多种协议(如TCP/IP、IPX/SPX、AppleTalk等协议),但是在我国绝大多数路由器运行TCP/IP协议。路由器通常连接两个或多个由IP子网或点到点协议标识的逻辑端口,至少拥有1个物理端口。路由器根据收到数据包中的网络层地址以及路由器内部维护的路由表决定输出端口以及下一跳地址,并且重写链路层数据包头实现转发数据包。路由器通过动态维护路由表来反映当前的网络拓扑,并通过网络上其他路由器交换路由和链路信息来维护路由表。\
全栈程序员站长
2022/10/01
4K0
配置静态路由,动态路由,默认路由模式_默认路由为网络和掩码
【精华】一个报文的路由器之旅(一)
‍‍‍‍‍‍‍‍‍‍‍‍‍‍如今,在互联网的各种级别的网络中都随处可见路由器,各种低、中、高端的,种类繁多,所具备的功能和内部实现不完全一样。为此,本文档将为您揭晓华为高端路由器(NE40E/80E/5000E)上的实现。‍‍‍‍‍‍‍‍‍‍‍‍‍‍
网络工程师笔记
2021/05/17
1.3K0
【精华】一个报文的路由器之旅(一)
网络工程师:一文带你入门BGP基础知识
BGP(边界网关协议,Border Gateway Protocol)是互联网的核心协议,负责在自治系统(AS)之间交换路由信息。
网络技术联盟站
2025/01/10
7710
网络工程师:一文带你入门BGP基础知识
Linux下路由配置梳理
在日常运维作业中,经常会碰到路由表的操作。下面就linux运维中的路由操作做一梳理: ------------------------------------------------------------------------------ 先说一些关于路由的基础知识: 1)路由概念 路由:   跨越从源主机到目标主机的一个互联网络来转发数据包的过程 路由器:能够将数据包转发到正确的目的地,并在转发过程中选择最佳路径的设备 路由表:在路由器中维护的路由条目,路由器根据路由表做路径选择 直连路由:当在路由器
洗尽了浮华
2018/01/23
7.5K0
Linux下路由配置梳理
华为、华三、思科高级网络工程师必经之路(7)我们的爱如同TCP连接,始终可靠,永不掉线——基于华为ENSP的MGRE通用路由封装、NHRP协议保姆级别详解
盛透侧视攻城狮
2024/12/29
3130
华为、华三、思科高级网络工程师必经之路(7)我们的爱如同TCP连接,始终可靠,永不掉线——基于华为ENSP的MGRE通用路由封装、NHRP协议保姆级别详解
路由表和FIB表到底有啥区别?网络工程师必知!
路由表(Routing Table)和FIB表(Forwarding Information Base)在网络数据包的传递过程中扮演了关键角色,它们分别用于确定数据包的路径和实际的数据包转发。
网络技术联盟站
2025/01/12
5170
路由表和FIB表到底有啥区别?网络工程师必知!
华为、华三、思科高级网络工程师必经之路(2)我们的爱如同TCP连接,始终可靠,永不掉线——DNS服务、路由器、TCP报文段、TCP 发送和接收缓存的机制保姆级别详解
盛透侧视攻城狮
2024/12/25
2010
华为、华三、思科高级网络工程师必经之路(2)我们的爱如同TCP连接,始终可靠,永不掉线——DNS服务、路由器、TCP报文段、TCP 发送和接收缓存的机制保姆级别详解
交换机与路由器详细比较
作为计算机网络中最重要的两种数据包转发设备,交换机和路由器在功能设计方面既存在本质差别,又包含诸多相似之处,本文从两种设备的工作原理出发,详细介绍了它们之间的种种区别与联系。
我是东东东
2018/08/01
3.5K0
交换机与路由器详细比较
推荐阅读
路由知识大全
5340
【干货】你还不知道路由器工作原理吗,99%的人都看
3.3K0
深入探索路由算法的核心原理与应用
3140
路由知识 静态路由 rip eigrp ospf
1.9K0
路由器详细讲解
4170
探秘路由表:网络世界的导航地图
3520
OSPF、EIGRP、RIPv2、IS-IS、BGP动态路由大家庭,网工收藏!
1.4K0
路由器原理及常用的路由协议、路由算法
1.8K0
18张图带你详解IP路由表七大要素:路由前缀、协议类型、优先级、开销、下一跳、出接口
12.9K0
MAC地址表、ARP表、路由表和转发表的协助关系,通过快递的例子类比介绍,简单易懂
2340
TCP/IP 模型中,网络层对 IP 地址的分配与路由选择
3650
linux之路由知识之ip route 命令中的疑惑[通俗易懂]
7.6K0
配置静态路由,动态路由,默认路由模式_默认路由为网络和掩码
4K0
【精华】一个报文的路由器之旅(一)
1.3K0
网络工程师:一文带你入门BGP基础知识
7710
Linux下路由配置梳理
7.5K0
华为、华三、思科高级网络工程师必经之路(7)我们的爱如同TCP连接,始终可靠,永不掉线——基于华为ENSP的MGRE通用路由封装、NHRP协议保姆级别详解
3130
路由表和FIB表到底有啥区别?网络工程师必知!
5170
华为、华三、思科高级网络工程师必经之路(2)我们的爱如同TCP连接,始终可靠,永不掉线——DNS服务、路由器、TCP报文段、TCP 发送和接收缓存的机制保姆级别详解
2010
交换机与路由器详细比较
3.5K0
相关推荐
路由知识大全
更多 >
交个朋友
加入腾讯云官网粉丝站
蹲全网底价单品 享第一手活动信息
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档