决策树很详细的算法介绍PPT学习教案_第1页
决策树很详细的算法介绍PPT学习教案_第2页
决策树很详细的算法介绍PPT学习教案_第3页
决策树很详细的算法介绍PPT学习教案_第4页
决策树很详细的算法介绍PPT学习教案_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、会计学1决策树很详细的算法介绍决策树很详细的算法介绍2数据库数据库了解类别属性了解类别属性与特征与特征预测预测分类模型决策树分类模型聚类2021-7-17第1页/共45页3数据库数据库分类标记分类标记性别性别年龄年龄婚姻婚姻否否是是否否是是FemaleFemaleMaleMale35353535未婚未婚已婚已婚2021-7-172、分类的技术(1)决策树第2页/共45页42021-7-17第3页/共45页52021-7-17第4页/共45页6数据库2021-7-17训练样本(training samples)建立模型测试样本(testing samples)评估模型第5页/共45页7资料训练样

2、本训练样本婚姻年龄 家庭 所得否是否是未婚已婚3535低高否小康1.建立模型测试样本2.模型评估错误率为66.67%修改模型3.使用模型2021-7-17第6页/共45页82021-7-17第7页/共45页2021-7-179第8页/共45页102021-7-17、等)。第9页/共45页11根部节点(root node)中间节点(non-leaf node)(代表测试的条件)分支(branches)(代表测试的结果)叶节点(leaf node)(代表分类后所获得的分类标记)2021-7-17第10页/共45页2021-7-1712第11页/共45页13n根部节点n中间节点n停止分支?2021-

3、7-17第12页/共45页142021-7-17第13页/共45页2021-7-1715第14页/共45页2021-7-1716第15页/共45页17 n=16 n1=4I(16,4)=(4/16)*log2(4/16)+(12/16)*log2(12/16)=0.8113E(年龄)=(6/16)*I(6,1)+(10/16)*I(10,3)=0.7946Gain(年龄)=I(16,4)-E(年龄)=0.0167nGain(年龄)=0.0167nMax:作为第一个分类依据2021-7-17nGain(性别)=0.0972nGain(家庭所得)=0.0177第16页/共45页18nGain(家庭

4、所得)=0.688I(7,3)=-(3/7)*log2(3/7)+(4/7)*log2(4/7)=0.9852nGain(年龄)=0.9852nGain(年龄)=0.2222I(9,1)=-(1/9)*log2(1/9)+(8/9)*log2(8/9)=0.5032nGain(家庭所得)=0.50322021-7-17第17页/共45页19分类规则:IF性别=Female AND家庭所得= 低所得THEN购买RV房车=否IF性别=Female AND家庭所得= 小康THEN购买RV房车=否IF性别=Female AND家庭所得= 高所得THEN购买RV房车=是IF性别=Male AND年龄35

5、 THEN购买RV房车=否IF性别=Male AND年龄35 THEN购买RV房车=是n资料nDecision Tree2021-7-17第18页/共45页202021-7-17第19页/共45页212021-7-17第20页/共45页222021-7-17第21页/共45页232021-7-17第22页/共45页2021-7-1724第23页/共45页2021-7-1725第24页/共45页2021-7-1726第25页/共45页2021-7-1727=(17/30)*LOG(17/30),2)+(10/30)*LOG(10/30),2)+(3/30)*LOG(3/30),2)第26页/共4

6、5页2021-7-1728第27页/共45页2021-7-1729第28页/共45页2021-7-1730第29页/共45页2021-7-1731第30页/共45页2021-7-1732数据仓库条件属性类别属性客户是否流失第31页/共45页2021-7-1733第32页/共45页2021-7-1734个人信用评级决策树第33页/共45页352021-7-17第34页/共45页362021-7-17类别属性的信息熵第35页/共45页372021-7-17第36页/共45页集合T包含N个类别的记录,那么其Gini指标就是如果集合T分成两部分N1 和 N2。则此分割的Gini就是提供最小Gini split就被选择作为分割的标准(对于每个属性都要经过所有可以的分割方法)。382( ) 11jNgini Tpjpjj 为类別出现的频率)()()(2211TginiNNTginiNNTginisplit2021-7-17第37页/共45页2021-7-1739第38页/共45页2021-7-1740第39页/共45页2021-7-1741NNYYY

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论