大数据经典算法c4.5讲解幻灯片.ppt

上传人：油*** IP属地：浙江上传时间：2020-03-21 格式：PPT 页数：22 大小：303.51KB 积分：20 举报 版权申诉

已阅读5页，还剩17页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

决策树算法C4 5 组长赵庆杰报告人赵庆杰成员潘志舟朱鹏刘纯汪光炼漆学志提纲必备概念知识算法背景简介算法描述必备概念知识数据挖掘分类和聚类决策树ID3算法C4 5算法数据挖掘Dataminingisthecomputationalprocessofdiscoveringpatternsinlargedatasetsinvolvingmethodsattheintersectionofartificialintelligence machinelearning statistics anddatabasesystems Theoverallgoalofthedataminingprocessistoextractinformationfromadatasetandtransformitintoanunderstandablestructureforfurtheruse Wikipedia 数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程百度百科分类和聚类分类 Classification 就是按照某种标准给对象贴标签再根据标签来区分归类类别数不变聚类 clustering 是指根据物以类聚的原理将本身没有类别的样本聚集成不同的组这样的一组数据对象的集合叫做簇并且对每一个这样的簇进行描述的过程决策树决策树是一种典型的分类方法首先对数据进行处理利用归纳算法生成可读的规则和决策树然后使用决策对新数据进行分析本质上决策树是通过一系列规则对数据进行分类的过程由于这种决策分支画成图形很像一棵树的枝干故称决策树 ID3算法C4 5算法 ID3算法介绍样本的表示方法向量表示假设一个样本有n个变量特征 X1 X2 Xn T2 矩阵表示 N个样本 n个变量特征 ID3算法介绍 3几何表示4基元链码表示条件属性和决策属性 ID3算法介绍一个离散型属性样本实例 PlayTennis数据库片段 ID3算法介绍关于PlayTennis的决策树 ID3算法介绍 1986年 Quinlan提出了著名的ID3算法用ID3算法长树的基本思想分类能力最好的属性被测试并创建树的根结点测试属性每个可能的值产生一个分支训练样本划分到适当的分支形成儿子结点重复上面的过程直到所有的结点都是叶子结点两个问题什么属性最好什么结点才是叶子结点优先选择哪些属性测试什么时候结束树的增长信息增益 InformationGain 属性A划分样本集S的信息增益Gain S A 为 Gain S A E S E S A 其中 E S 为划分样本集S为c个类的熵 E S A 为属性A划分样本集S导致的期望熵所谓增益就是指在应用了某一测试之后其对应的可能性丰富程度下降不确定性减小这个减小的幅度就是增益其实质上对应着分类带来的好处熵 Entropy 划分样本集S为c个类的熵E S 为其中 pi ni n 为S中的样本属于第i类Ci的概率 n为S中样本的个数决策属性分为YES NO两类 S1 YES 9 S2 NO 5 S S1 S2 14E S 9 14 log2 9 14 5 14 log2 5 14 0 940 期望熵 ExpectedEntropy 属性A划分样本集S导致的期望熵E S A 为其中 Values A 为属性A取值的集合 Sv为S中A取值为v的样本子集 Sv s S A s v E Sv 为将Sv中的样本划分为c个类的信息熵 Sv S 为Sv和S中的样本个数之比条件属性outlook共有sunny overcast rain三个取值sunny的取值为5个其中YES和NO的比例是2 3 I sunny 2 5 log2 2 5 3 5 log2 3 5 0 976I overcast 4 4 log2 4 4 0 000I rain 3 5 log2 3 5 2 5 log2 2 5 0 976E S outlook 5 14 0 976 4 14 0 000 5 14 0 976 0 694E S windy 0 892 Gain Outlook 0 940 0 694 0 246 Gain Windy 0 940 0 892 0 048 回顾ID3算法 ID3算法每一步选择具有最大信息增益的属性作为测试属性来长树直到最大的信息增益为也零为止两个问题的解决 ID3算法存在的主要不足过度拟合问题 treeprunning 决策树算法增长树的每一个分支的深度直到恰好能对训练样例比较完美地分类实际应用中当数据中有噪声或训练样例的数量太少以至于不能产生目标函数的有代表性的采样时该策略可能会遇到困难处理连续属性值问题 discretization 处理缺少属性值问题 replacement 属性选择的度量标准问题 heuristicmeasure 针对这些不足 Quinlan做了一系列的改进并于1993年形成了C4 5算法 C4 5算法介绍一个含有连续型属性样本实例 PlayGolf数据库片段 C4 5算法应该解决的问题如何选择测试属性构造决策树对于连续变量决策树中的测试是怎样的如何选择处理连续变量阀值如何终止树的增长如何确定叶子节点的类决策树关于PlayGolf的决策树如何选择测试属性构造决策树用信息增益率来选择属性这个指标实际上就等于增益熵之所以采用这个指标是为了克服采用增益作为衡量标准的缺点采用增益作为衡量标准会导致分类树倾向于优先选择那些具有比较多的分支的测试也就是选择取值较多的属性这种倾向需要被抑制其中 S1到Sc是c个不同值的属性A分割S而形成的c个样本子集如按照属性A把S集含30个用例分成了10个用例和20个用例两个集合则SplitInfo S A 1 3 log 1 3 2 3 log 2 3 对于连续变量决策树中的测试是怎样的很明显我们看到这个例子中对于连续变量所有连续变量的测试分支都是2条因此在C4 5算法中连续变量的分支总是两条分支其测试分支分别对应着对应着分支阈值但是这个怎么确定呢很简单把需要处理的样本对应根节点或样本子集对应子树按照连续变量的大小从小到大进行排序假设该属性对应的不同的属性值一共有N个那么总共有N 1个可能的候选分割阈值点每个候选的分割阈值点的值为上述排序后的属性值链表中两两前后连续元素的中点那么我们的任务就是从这个N 1个候选分割阈值点中选出一个使得前面提到的信息论标准最大举个例子对于Golf数据集我们来处理温度属性来选择合适的阈值首先按照温度大小对对应样本进行排序如下那么可以看到有13个可能的候选阈值点比如middle 64 65 middle 65 68 middle 83 85 那么最优的阈值该选多少呢应该是middle 71 72 如上图中红线所示为什么呢如下计算通过上述计算方式 0 939是最大的因此测试的增益是最小的测试的增益和测试后的熵是成反比的这个从后面的公式可以很清楚的看到根据上面的描述我们需要对每个候选分割阈值进行增益或熵的计算才能得到最优的阈值我们需要算N 1次增益或熵对应温度这个变量而言就是13次计算能否有所改进呢少算几次加快速度答案是可以该进如何终止树的增长前面提到树的增长实际上是一个递归过程那么这个递归什么时候到达终止条件退出递归呢有两种方式第一种方式是如果某一节点的分支所覆盖的样本都属于同一类的时候那么递归就可以终止该分支就会产生一个叶子节点还有一种方式就是如果某一分支覆盖的样本的个数如果小于一个阈值那么也可产生叶子

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据经典算法c4.5讲解幻灯片.ppt

文档简介

温馨提示

最新文档

评论

大数据经典算法c4.5讲解幻灯片.ppt

文档简介

温馨提示

最新文档

评论

相关文档