决策树6 决策树_第1页
决策树6 决策树_第2页
决策树6 决策树_第3页
决策树6 决策树_第4页
决策树6 决策树_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

CDA数据分析师(严格的课程专业师资队伍质量服务经验,大数据分析学习CDA!)决策树Decision Tree CDA大数据分析师(严格的课程专业教员质量服务经验,大数据分析学习CDA!)python机器学习-pan pen决策树2更适合分析离散数据。对于连续数据,在分析之前,必须将其转换为离散数据。CDA数据分析师(严格的课程专业师资队伍质量服务经验,大数据分析学习CDA!)Python machine learning-janfone decision tree算法3从70年代末到80年代,Quinlan开发了ID3算法。Quinlan改进了称为C4.5算法的ID3算法。1984年,几个统计学家提出了CART算法。CDA数据分析师(严格的课程专业师资队伍质量服务经验,大数据分析学习CDA!)python机器学习-郑炳风示例4 CDA大数据分析师(严格的课程专业师资队伍质量服务经验,大数据分析学习CDA!)python机器学习-香屏风期待输出的结果CDA大数据分析师(严格的课程专业教员组质量服务经验,大数据分析学习CDA!)python机器学习-纯屏风熵概念6 1948年,Shannon提出了“信息熵”概念。一个信息的信息量大小及其不确定性是直接相关的。要想弄清非常不确定的事情或我们不知道的事情,需要知道很多信息。信息量的测量等于不确定性。CDA数据分析师(严格的课程专业师资队伍质量服务经验,大数据分析学习CDA!python机器学习-巡航风信息熵公式:如果有普通骰子a,1-6的概率是骰子b,6的概率是50%,1-5的概率是10%骰子c,6的概率是100%。CDA数据分析师(严格的课程专业师资队伍质量服务经验,大数据分析学习CDA!)python机器学习-净屏风信息熵计算骰子a:-1 6 log 2 1 6;2.585骰子b:-1 10 log 2 1 10 5 1 2 log 2 1 2;2.161骰子c:-1 log 21=0 CDA大数据分析师(严格的课程专业教员质量服务经验,大数据分析学习CDA!)Python machine learning-前屏风ID3算法决策树通过最大化信息增益来分割节点。信息增益计算:CDA数据分析师(严格的课程专业教员质量服务经验,大数据分析学习CDA!)Python machine learning-epi3算法信息增益选择(information gain):gain(a)=info(d)-infor _ a(d)相似)python机器学习-选择spython根节点-ID3算法11 CDA大数据分析师(严格的课程专业教员质量服务经验,大数据分析学习CDA!python机器学习-顺屏风连续变量处理12 age:10 12 14 23 26 32 36 42 48 49 50 CDA大数据分析师(严格的课程专业教员质量服务经验,大数据分析学习CDA!)python机器学习-顺屏风C4.5算法13信息增益方法倾向于先选择改善因素较多的变量信息增益:增益率CDA大数据分析师(严格课程专业教学人员质量服务经验,大数据分析学习CDA!)python机器学习-fan pen决策树-14 14 CDA大数据分析师(严格的课程系统专业师资队伍质量服务经验,大数据分析学习CDA!)python机器学习-顺屏风cart算法15 cart决策树生成是递归构建二进制决策树的过程。手推车使用最小化基尼系数的标准选取特征,并作为二进制树创建。Gini系数计算:CDA数据分析师(严格的课程专业教员质量服务经验,大数据分析学习CDA!)16(例如Python machine learning-16)分别计算Gini系数增益,并将Gini系数增量值最大的属性用作决策树的根节点属性。根节点的Gini系数:CDA大型数据分析师(严格的课程专业教员质量服务经验,大数据分析学习CDA!)Python machine learning-janbing feng CART示例17根据房间是否存在计算Gini系数增益: (左子节点表示yes,右子节点表示no,否)CDA大数据分析员(严格的课程专业教授小组质量服务经验,大数据分析学习CDA)python机器学习-示例18根据婚姻状态计算分割时的津系数增益:married | single,divorced分组时:single | married,divorced)Python machine learning-janbing feng CART除以年度销售额时的Gini系数增益计算:例如,如果年度销售额为60和70,则将其中一个计算为65。使用中值65作为分割点,可以通过CDA的大数据分析师(严格的课程专业师资队伍质量服务经验,大数据分析学习CDA!)Python machine learning-根据示例计算,三个属性分割根节点的最大好处是年销售额属性、婚姻状况和收益都是0.12。您可以任意选取一个做为根节点。如果我们选择婚姻状况作为根。下一步,使用相同的方法计算其馀每个属性。布线点Gini系数是关于是否存在房间属性,与以前的计算过程一样。对于年度收入属性,请参阅CDA大数据分析师(严格的培训课程专业教员质量服务经验,大数据分析学习CDA!)Python machine learning-最后构建的cart CDA大数据分析师(严格的课程专业教员级别服务经验,大数据分析学习CDA!)python机器学习-fan pen修剪22预修剪后修剪CDA大数据分析师(严格的课程专业师资队伍质量服务经验,大数据分析学习CDA!)Python机器学习-fan pen优点和缺点23优点:小数据集的有效缺点:连续变量处理不良类别较多,错误增加得更快,无法处理大量数据CDA大数据分析师(严格的课程专业教学小组质量服务经验,大数据分析学习CDA!)python机器学习-fan pen决策树24 24 CDA大数据分析师(严格的课程专业师资队伍质量服务经验,大数据分析学习CDA!)Python机器学习-fan pen决策树-线性2分类25CDA大数据分析师(严格的课程系统专业教授团队质量服务经验,大数据分析学习CDA!)Python机器学习-fan pen决策树-非线性2 26 26 CDA大数据分析师(严格的课程系统专业师资队伍质量服务经验,大数据分析学习CDA!)python机器学

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论