版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
例:构造决策树。
下表给出了取自AllElectronics顾客数据库元组训练集。编号年龄收入学生信用等级类别:购买电脑1<=30高否一般不会购买2<=30高否良好不会购买331…40高否一般会购买4>40中等否一般会购买5>40低是一般会购买6>40低是良好不会购买731…40低是良好会购买8<=30中等否一般不会购买9<=30低是一般会购买10>40中等是一般会购买11<=30中等是良好会购买1231…40中等否良好会购买1331…40高是一般会购买14>40中等否良好不会购买例:构造决策树。编号年龄收入学生信用等级类别:购买电脑1<=解:由题意可知:
s=14,类标号属性“购买电脑”有两个不同值(即{会购买,不会购买}),因此有两个不同的类(即m=2)。设类C1对应于“会购买”,类C2对应于“不会购买”。则s1=9,s2=5,p1=9/14,p2=5/14。①计算对给定样本分类所需的期望信息:②计算每个属性的熵。先计算属性“年龄”的熵。对于年龄=“<=30”:s11=2,s21=3,p11=2/5,p21=3/5,
对于年龄=“31…40”:s12=4,s22=0,p12=4/4=1,p22=0,
解:由题意可知:对于年龄=“>40”:s13=3,s23=2,p13=3/5,p23=2/5,如果样本按“年龄”划分,对一个给定的样本分类所需的期望信息为:因此,这种划分的信息增益是
Gain(年龄)=I(s1,s2)-E(年龄)=0.246。计算“收入”的熵。对于收入=“高”:s11=2,s21=2,p11=0.5,p21=0.5,对于收入=“中等”:s12=4,s22=2,p12=4/6,p22=2/4,对于年龄=“>40”:s13=3,s23=2,p13=3/5对于收入=“低”:s13=3,s23=1,p13=3/4,p23=1/4,如果样本按“收入”划分,对一个给定的样本分类所需的期望信息为:因此,这种划分的信息增益是
Gain(收入)=I(s1,s2)-E(收入)=0.940-0.911=0.029。计算“学生”的熵。对于学生=“是”:s11=6,s21=1,p11=6/7,p21=1/7,对于收入=“低”:s13=3,s23=1,p13=3/4,对于学生=“否”:s12=3,s22=4,p12=3/7,p22=4/7,如果样本按“学生”划分,对一个给定的样本分类所需的期望信息为:因此,这种划分的信息增益是
Gain(学生)=I(s1,s2)-E(学生)=0.940-0.789=0.151。计算“信用等级”的熵。对于信用等级=“一般”:s11=6,s21=2,p11=6/8,p21=2/8,对于信用等级=“良好”:s12=3,s22=3,p12=3/6,p22=3/6,对于学生=“否”:s12=3,s22=4,p12=3/7,如果样本按“信用等级”划分,对一个给定的样本分类所需的期望信息为:因此,这种划分的信息增益是
Gain(信用等级)=I(s1,s2)-E(信用等级)=0.940-0.892=0.048。由于“年龄”属性具有最高信息增益,它被选作测试属性。创建一个节点,用“年龄”标记,并对每个属性值引出一个分支。样本据此划分,如图所示。如果样本按“信用等级”划分,对一个给定的样本分类所需的期望信收入学生信用等级类高否一般会购买低是良好会购买中等否良好会购买高是一般会购买收入学生信用等级类高否一般不会购买高否良好不会购买中等否一般不会购买低是一般会购买中等是良好会购买收入学生信用等级类中等否一般会购买低是一般会购买低是良好不会购买中等是一般会购买中等否良好不会购买<=3031…40>40年龄收入学生信用等级类高否一般会购买低是良好会购买中等否良好会购收入学生信用等级类高否一般不会购买高否良好不会购买中等否一般不会购买低是一般会购买中等是良好会购买表1年龄<=30当年龄<=30时,对应于表1。S=5,设类C1对应于“会购买”,类C2对应于“不会购买”。则s1=2,s2=3,p1=2/5,p2=3/5。①计算对给定样本分类所需的期望信息:②计算每个属性的熵。先计算属性“收入”的熵。对于收入=“高”:s11=0,s21=2,p11=0,p21=1,收入学生信用等级类高否一般不会购买高否良好不会购买中等否一般对于收入=“中等”:s12=1,s22=1,p12=1/2,p22=1/2,
对于收入=“低”:s13=1,s23=0,p13=1,p23=0,如果样本按“收入”划分,对一个给定的样本分类所需的期望信息为:因此,这种划分的信息增益是
Gain(收入)=I(s1,s2)-E(收入)=0.971-0.0.4=0.571。对于收入=“中等”:s12=1,s22=1,p12=1/2计算“学生”的熵。对于学生=“是”:s11=2,s21=0,p11=1,p21=0,对于学生=“否”:s12=0,s22=3,p12=0,p22=1,如果样本按“学生”划分,对一个给定的样本分类所需的期望信息为:因此,这种划分的信息增益是
Gain(学生)=I(s1,s2)-E(学生)=0.971-0=0.971。计算“学生”的熵。计算“信用等级”的熵。对于信用等级=“一般”:s11=1,s21=2,p11=1/3,p21=2/3,对于信用等级=“良好”:s12=1,s22=1,p12=1/2,p22=1/2,如果样本按“信用等级”划分,对一个给定的样本分类所需的期望信息为:因此,这种划分的信息增益是
Gain(信用等级)=I(s1,s2)-E(信用等级)=0.971-0.951=0.02。计算“信用等级”的熵。由于“学生”属性具有最高信息增益,它被选作测试属性。创建一个节点,用“学生”标记,并对每个属性值引出一个分支。同理,对表2进行计算。得出属性“信用等级”具有最高信息增益,它被选作测试属性。创建一个节点,用“信用等级”标记,并对每个属性值引出一个分支。最终构造的决策树如下图所示。收入学生信用等级类中等否一般会购买低是一般会购买低是良好不会购买中等是一般会购买中等否良好不会购买表2年龄>40由于“学生”属性具有最高信息增益,它被选作测试属性。创建年龄?学生?信用等级?会购买不会购买会购买会购买不会购买<=3031…40>40一般良好是否“购买电脑”的决策树年龄?学生?信用等级?会购买不会购买会购买会购买不会购买由决策树产生分类规则
对上图进行分析,提取的关联规则是:IF年龄=“<=30”AND学生=“否”THEN购买电脑=“不会购买”IF年龄=“<=30”AND学生=“是”THEN购买电脑=“会购买”IF年龄=“31...40”THEN购买电脑=“会购买”IF年龄=“>40”AND信用等级=“良好”THEN购买电脑=“不会购买”IF年龄=“>40”AND信用等级=“一般”THEN购买电脑=“会购买”由决策树产生分类规则对上图进行分析,提取的论文中的应用题目:决策树算法的研究与应用作者:杨静1,张楠男2,李建1,刘延明1,梁美红1(1.西南石油大学,四川成都610500;2.西南油气田分公司信息中心,四川成都610500)发表期刊:计算机技术与发展第20卷.第2期2010年2月
摘要:主要研究了数据挖掘中决策树算法的基本思想和算法。针对目前钻井过程故障诊断的需求,结合决策树算法的特点,提出了一种基于决策树的钻井过程故障诊断专家系统模型。分析了钻井系统事故状态下的相关特征参数,并对基于决策树的钻井过程状态和知识获取进行了详细的论述。通过实例运用ID3算法实现了决策树的建立,为钻井过程故障诊断奠定了坚实的基础。最后提出了对算法的改进,综合对实际数据的处理结果表明,基于数据挖掘的决策树算法可以很好地识
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安全协议书的法律效力
- 真不想和大佬协议书离婚
- 失眠症预防与管理方案训练
- 宇宙知识科普简短
- 2026广东汕头大学医学院实验动物中心劳务派遣人员招聘4人备考题库及参考答案详解(巩固)
- 2026国家统计局兵团第十四师调查队招聘1人备考题库(新疆)及参考答案详解(综合卷)
- 2026上半年安徽黄山市休宁城乡建设投资集团有限公司及权属子公司招聘18人备考题库含答案详解ab卷
- 2026四川甘孜州泸定县人民医院编外招聘工作人员5人备考题库及答案详解【必刷】
- 麻醉术后监测流程
- 2026黑龙江齐齐哈尔市拜泉县乡镇卫生院招聘医学相关专业毕业生5人备考题库附参考答案详解(达标题)
- 2025四川成都未来医学城招聘8人考试参考题库及答案解析
- 人教版高中生物选择性必修3第1章发酵工程基础过关检测(含解析)
- 烘焙教学课件
- GB/T 46075.1-2025电子束焊机验收检验第1部分:原则与验收条件
- 中国工商银行2026年度校园招聘考试参考题库及答案解析
- 部队车辆维护与保养课件
- 七年级生物生物与环境试卷及答案
- 航空涡轮发动机润滑油性能测试方法 第1部分:高温轴承沉积性能编制说明
- 污水处理厂运营服务方案投标文件 技术方案
- 农村循环经济视域下能源工程与利用模式的多维探究与实践
- 工会活动摘草莓活动方案
评论
0/150
提交评论