第七章决策树.ppt

上传人：努*** IP属地：江西上传时间：2019-12-28 格式：PPT 页数：36 大小：342.50KB 积分：9.6 举报 版权申诉

已阅读5页，还剩31页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第七章决策树和决策规则本章目标分析解决分类问题的基于逻辑的方法的特性描述决策树和决策规则在最终分类模型中的表述之间的区别介绍C4 5算法了解采用修剪方法降低决策树和决策规则的复杂度决策树和决策规则是解决实际应用中分类问题的数据挖掘方法一般来说分类是把数据项映射到其中一个事先定义的类中的这样一个学习函数的过程由一组输入的属性值向量也叫属性向量和相应的类用基于归纳学习算法得出分类学习的目标是构建一个分类模型通常也叫分类器它可以根据有效的属性输入值预测一些实体所给样本的类是一个在样本其他属性已知的情况下预测另外一个属性样本的类的模型分类的结果 7 1决策树从数据中生成分类器的一个特别有效的方法是生成一个决策树它是一种基于逻辑的方法通过一组输入输出样本构建决策树的有指导学习方法决策树包含属性已被检验的节点一个节点的输出分枝和该节点的所有可能的检验结果相对应图7 2是一个简单的决策树该问题有两个属性X Y 所有属性值X 1和Y B的样本属于类2 不论属性Y的值是多少值X 1的样本都属于类1 对于树中的非叶节点可以沿着分枝继续分区样本每一个节点得到它相应的样本子集生成决策树的一个著名的算法是Quinlan的ID3算法 C4 5是它改进版 ID3算法的基本思路从树的根节点处的所有训练样本开始选取一个属性来划分这些样本对属性的每一个值产生一分枝分枝属性值的相应样本子集被移到新生成的子节点上这个算法递归地应用于每个子节点直到一个节点上的所有样本都分区到某个类中到达决策树的叶节点的每条路径表示一个分类规则该算法的关键性决策是对节点属性值的选择 ID3和C4 5算法的属性选择的基础是基于使节点所含的信息熵最小化基于信息论的方法坚持对数据库中一个样本进行分类时所做检验的数量最小 ID3的属性选择是根据一个假设即决策树的复杂度和所给属性值表达的信息量是密切相关的基于信息的试探法选择的是可以给出最高信息的属性即这个属性是使样本分类的结果子树所需的信息最小 7 2C4 5算法生成一个决策树 C4 5算法最重要的部分是由一组训练样本生成一个初始决策树的过程决策树可以用来对一个新样本进行分类这种分类从该树的根节点开始然后移动样本直至达叶节点在每个非叶决策点处确定该节点的属性检验结果把注意力转移到所选择子树的根节点上例如如图7 3a为决策树分类模型待分类有样本如图7 3b所示由决策树分类模型可得出待分类样本为类2 节点A C F 叶节点 C4 5算法的构架是基于亨特的CLS方法其通过一组训练样本T构造一个决策树用 C1 C2 CK 来表示这些类集合T所含的内容信息有3种可能性 T包含一个或更多的样本全部属于单个的类Cj 那么T的决策树是由类Cj标识的一个叶节点 T不包含样本决策树也是一个叶但和该叶关联的类由不同于T的信息决定如T中的绝大多数类 3 T包含属于不同类的样本这种情况下是把T精化成朝向一个单类样本集的样本子集根据某一属性选择具有一个或更多互斥的输出 O1 O2 On 的合适检验 T被分区成子集T1 T2 Tn T的决策树包含标识检验的一个决策点和每个可能输出的一个分枝如图7 3a中的A B和C节点假设选择有n个输出所给属性的n个值的检验把训练样本集T分区成子集T1 T2 Tn 仅有的指导信息是在T和它的子集Ti中的类分布如果S是任意样本集设freq Ci S 代表S中属于Ci的样本数量 S 表示集合S中的样本数量 ID3算法的属性选择的检验方法采用增益标准它基于信息论中熵的概念集合S的期望信息熵如下 T被分区之后的一个相似度标准 T按照一个属性检验X的几个输出进行分区所需信息为子集的熵的加权和分区所对应的信息增益上式度量了按照检验X进行分区的T所得到的信息该增益标准选择了使Gain X 最大化的检验X 即此标准选择的具有最高增益的那个属性例如给定训练样本如表7 1 14个样本 3个属性分为两个类 9个样本属于类1 5个属于类2 因此分区前的熵为基于类的熵计算 info T 9 14log2 9 14 5 14log2 5 14 0 940按属性1分区可得子集的熵的加权和 infox1 T 5 14 2 5log2 2 5 3 5log2 3 5 4 14 4 4log2 4 4 0 4log2 0 4 5 14 3 5log2 3 5 2 5log2 2 5 0 694相应的增益 Gain x1 0 94 0 694 0 246 按属性3分区可得子集的熵的加权和 infox2 T 6 14 3 6log2 3 6 3 6log2 3 6 8 14 6 8log2 6 8 2 8log2 2 8 0 892相应的增益 Gain x2 0 94 0 892 0 048由于属性2是数值型的连续数据不能简单按上面方式计算下面先介绍一下C4 5算法中一般包含3种类型的检验结构 1 离散值的标准检验对属性的每个可能值有一个分枝和输出 2 如果属性Y有连续的数值通过将该值和阈值Z比较用输出Y Z和Y Z定义二元检验 3 基于离散值的更复杂的检验该检验中属性的每个可能值被分配到许多易变的组中每组都有一个输出和分枝数值型属性检验对于属性Y 按训练样本进行分类分类顺序用 v1 v2 vm 表示因此对Y仅有m 1个分区要系统在检查所有分区以求得最优分区通常选择区间的中点为阈值而C4 5算法选择 vi vi 1 的最小值vi为阈值这确保出现结果中阈值属于数据库的一个值对于上例属性2的值的集合是 65 70 75 78 80 85 90 95 96 可能的阈值Z的集合是 65 70 75 78 80 85 90 95 从这8个值里选择最优的阈值最高信息增益最优的Z 80 如果计算对应属性2的检验3 属性2 80和属性2 80 的信息增益计算 infox3 T 9 14 7 9log2 7 9 2 9log2 2 9 5 14 2 5log2 2 5 3 5log2 3 5 0 837相应的增益 Gain x3 0 94 0 837 0 103属性1的增益最高选择该属性进行首次分区每个属性值具有一个分枝产生3个分枝如图7 4所示对每个分枝重复上述步骤选择检验和最优化过程对于子节点T2子集 4个样本都是类1 该节点是叶节点对于余下的节点在T1中有5个样本最优检验有两个选择属性2 70和属性2 70的检验x4 info T1 2 5log2 2 5 3 5log2 3 5 0 940infox4 T1 2 5 2 2log2 2 2 0 2log2 0 2 3 5 0 3log2 0 3 3 3log2 3 3 0Gain x3 0 94 0 0 94产生两个分枝为最终叶节点分枝中的数据子集属于同一类对根节点下的T3子集进行同样的计算按属性3 真和属性3 假检验产生两个叶节点图7 5表示数据库T的最终决策树另外决策树可以用可执行代码或伪代码的形式表示图7 6用伪代码给出了上面例子的决策树增益标准对具有许多输出的检验有严重的偏差根据info S 的定义指定一个附加的参数这表示通过把集T分区成n个子集Ti而生成的潜在信息现在定义一个新的增益标准 Gain radio X gain X Split info X 7 3未知属性值 C4 5算法的前一版本是基于所有属性值都已确定这一假设但是在一个数据库经常会缺少某些样本的一些属性由于该属性值与某个样本是不相关的或搜集样本时没有对它进行记录或在数据录入时有人为的误差就可能出现属性值丢失的情况解决丢失值问题的两种方法 1 抛弃数据库中有丢失数据的样本 2 定义一个新的算法或改进现有算法来处理丢失的数据第一种解决方案很简单但当样本集中存在大量丢失值时不能采用这种方法在C4 5算法中有未知值的样本是按照已知值的相对频率随机分布的这是普遍使用的法则除了考虑到仅有的几个有已知属性值的样本 Info T 和Infox T 的计算和前面机相同然后可以用系数合理地修正增益参数该系数表示所给属性已知的概率数据库中一个给出的属性值具有已知值的样本的数量数据集中样本数量总和新的增益标准有以下形式 Gain x F Info T Infox T 同样通过把具有未知值的样本看作分区的一个附加组可以修改Split info x 如果检验x有n个输出 Split info x 按照检验把数据集分区成n 1个子集计算例如一个改进了的C4 5决策树的方法数据集见表7 2 该例有14个样本属性1有一个丢失值用表示只有13个样本数据完整分区前的熵是 Info T 8 13log2 8 13 5 13log2 5 13 0 961属性1检验的信息 infox1 T 5 13 2 5log2 2 5 3 5log2 3 5 3 13 3 3log2 3 3 0 3log2 0 3 5 13 3 5log2 3 5 2 5log2 2 5 0 747 该检验所获得的信息系数F F 13 14 修正 Gain x1 13 14 0 961 0 747 0 199该值比上个例子的值0 216小然后该分区信息仍是根据整个训练集来确定的而且更大因为对未知值有一个额外的类别 Split info xi 5 14log 5 14 3 14log 3 14 5 14log 5 14 1 14log 1 14 1 876 另外每个样本都有一个相关的新参数即概率显然当一个值已知的样本从T分配给Ti时它属于Ti的概率是1 属于其他所有子集的概率是0 当一值是未知时只能得出不稳定的概率描述因此C4 5和每个子集Ti中的每个样本是用权重w联系起来的它表示属于每个子集的样本概率为了使该解决方法更具一般性必须认为分区前样本的概率并不总是等于1 因此分区后丢失值的新参数wnew为 wnew wold P Ti 对于属性1的检验x1分区结果丢失值的记录将被表示在3个子集中如图7 7所示因为最初的旧的 w值等于1 新的权值wi等于概率5 13 3 13 和5 13 在C4 5中 Ti的算式如下 T1 5 5 13 T2 3 3 13 T3 5 5 13对属性2和属性3检验分区最终决策树如图7 8

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第七章决策树.ppt

文档简介

温馨提示

最新文档

评论

第七章决策树.ppt

文档简介

温馨提示

最新文档

评论

相关文档