决策树习题练习_第1页
决策树习题练习_第2页
决策树习题练习_第3页
决策树习题练习_第4页
决策树习题练习_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

决策树习题练习决策树作为一种直观且易于解释的监督学习算法,在分类与回归任务中均有广泛应用。掌握决策树的构建原理,离不开对核心概念的深刻理解和大量的实战练习。本文将通过一系列精心设计的习题,带你从信息熵、信息增益等基础概念入手,逐步深入到完整决策树的构建过程,旨在提升你对决策树算法的实际运用能力与问题分析能力。一、基础概念巩固与热身练习在深入复杂习题之前,我们首先回顾决策树构建中几个最核心的概念,并通过简单习题检验理解程度。1.1信息熵(Entropy)计算习题1:给定一个二分类问题的数据集,其中正例(类别A)有8个样本,反例(类别B)有2个样本。请计算该数据集的信息熵H(D)。解答与分析:信息熵用于衡量数据集的纯度。对于二分类问题,其计算公式为:H(D)=-p_A*log2(p_A)-p_B*log2(p_B)其中p_A为类别A的概率,p_B为类别B的概率。在本题中,总样本数为8+2=10。p_A=8/10=0.8,p_B=2/10=0.2。代入公式:H(D)=-0.8*log2(0.8)-0.2*log2(0.2)计算可得:log2(0.8)≈-0.3219,log2(0.2)≈-2.3219H(D)≈-0.8*(-0.3219)-0.2*(-2.3219)≈0.2575+0.4644≈0.7219(比特)结论:该数据集的信息熵约为0.72。此值越低,说明数据集纯度越高。习题2:假设我们有一个用于预测“是否购买电脑”的数据集(简化版),包含14个样本。目标属性“是否购买”(类别)的分布为:9个“是”,5个“否”。现有一个候选划分属性“年龄”,其取值有“青年”、“中年”、“老年”。划分后各子集的类别分布如下:*青年:2个“是”,3个“否”*中年:4个“是”,0个“否”*老年:3个“是”,2个“否”解答与分析:信息增益的计算公式为:其中H(D)是原始数据集的信息熵,H(D|a)是属性a划分后数据集的条件熵。步骤1:计算H(D)已知D中,正例(是)9,反例(否)5,总样本14。p_是=9/14,p_否=5/14。H(D)=-(9/14)log2(9/14)-(5/14)log2(5/14)计算log2(9/14)≈log2(0.6429)≈-0.636,log2(5/14)≈log2(0.3571)≈-1.485H(D)≈-(9/14)(-0.636)-(5/14)(-1.485)≈(5.724/14)+(7.425/14)≈13.149/14≈0.939(比特)步骤2:计算H(D|年龄)条件熵H(D|a)是所有子集信息熵的加权平均。“青年”子集:样本数5(2+3),权重5/14。H(青年)=-(2/5)log2(2/5)-(3/5)log2(3/5)log2(2/5)=log2(0.4)≈-1.3219,log2(3/5)=log2(0.6)≈-0.____H(青年)≈-0.4*(-1.3219)-0.6*(-0.____)≈0.____+0.____≈0.9709“中年”子集:样本数4(4+0),权重4/14。H(中年)=-(4/4)log2(4/4)-(0/4)log2(0/4)=-1*0-0*(任意值)=0(因为纯节点熵为0)“老年”子集:样本数5(3+2),权重5/14。H(老年)=-(3/5)log2(3/5)-(2/5)log2(2/5)=与“青年”子集计算类似,结果相同≈0.9709因此,H(D|年龄)=(5/14)*0.9709+(4/14)*0+(5/14)*0.9709=(10/14)*0.9709≈(5/7)*0.9709≈0.6935步骤3:计算信息增益结论:属性“年龄”的信息增益约为0.246比特。在选择根节点或当前最优划分属性时,信息增益越大的属性通常被优先选择。二、决策树构建综合习题掌握了基础概念后,我们来挑战一个完整的决策树构建过程。2.1数据集描述与问题定义习题3:下表是一个关于“是否进行户外活动”的数据集。请根据此数据集,使用ID3算法(以信息增益为准则选择划分属性)构建一棵决策树。样本序号天气温度湿度风力是否户外活动:-------:-----:-----:-----:-----:-----------1晴朗炎热高弱否2晴朗炎热高强否3多云炎热高弱是4下雨适中高弱是5下雨凉爽正常弱是6下雨凉爽正常强否7多云凉爽正常强是8晴朗适中高弱否9晴朗凉爽正常弱是10下雨适中正常弱是11晴朗适中正常强是12多云适中高强是13多云炎热正常弱是14下雨适中高强否目标:基于“天气”、“温度”、“湿度”、“风力”这四个属性,预测“是否户外活动”(是/否)。2.2决策树构建步骤详解步骤1:计算初始数据集D的信息熵H(D)“是否户外活动”为目标变量。在14个样本中:“是”:样本序号3,4,5,7,9,10,11,12,13→共9个“否”:样本序号1,2,8,6,14→共5个这与习题2中H(D)的计算完全相同,H(D)≈0.939比特。步骤2:计算每个候选属性的信息增益候选属性有:天气(取值:晴朗、多云、下雨)、温度(取值:炎热、适中、凉爽)、湿度(取值:高、正常)、风力(取值:弱、强)。我们需要分别计算它们的信息增益。(A)属性:天气(取值:晴朗、多云、下雨)首先,按“天气”划分数据集:*晴朗:样本1,2,8,9,11→共5个。其中“是”:9,11→2个;“否”:1,2,8→3个。权重5/14。*H(晴朗)=-(2/5)log2(2/5)-(3/5)log2(3/5)≈0.9709(同习题2中“青年”子集)*多云:样本3,7,12,13→共4个。其中“是”:3,7,12,13→4个;“否”:0个。权重4/14。*H(多云)=0(纯节点)*下雨:样本4,5,6,10,14→共5个。其中“是”:4,5,10→3个;“否”:6,14→2个。权重5/14。*H(下雨)=-(3/5)log2(3/5)-(2/5)log2(2/5)≈0.9709(同“晴朗”子集)条件熵H(D|天气)=(5/14)*0.9709+(4/14)*0+(5/14)*0.9709≈(10/14)*0.9709≈0.6935(B)属性:温度(取值:炎热、适中、凉爽)按“温度”划分:*炎热:样本1,2,3,13→4个。“是”:3,13→2个;“否”:1,2→2个。权重4/14。*H(炎热)=-(2/4)log2(2/4)-(2/4)log2(2/4)=-0.5*(-1)-0.5*(-1)=1.0*适中:样本4,8,10,11,12,14→6个。“是”:4,10,11,12→4个;“否”:8,14→2个。权重6/14。*H(适中)=-(4/6)log2(4/6)-(2/6)log2(2/6)*log2(4/6)=log2(2/3)≈-0.____,log2(2/6)=log2(1/3)≈-1.____*H(适中)≈-(2/3)(-0.____)-(1/3)(-1.____)≈(1.____+1.____)/3≈2.____/3≈0.9183*凉爽:样本5,6,7,9→4个。“是”:5,7,9→3个;“否”:6→1个。权重4/14。*H(凉爽)=-(3/4)log2(3/4)-(1/4)log2(1/4)*log2(3/4)≈-0.4150,log2(1/4)=-2*H(凉爽)≈-0.75*(-0.4150)-0.25*(-2)≈0.____+0.5=0.____条件熵H(D|温度)=(4/14)*1.0+(6/14)*0.9183+(4/14)*0.____≈(4*1.0+6*0.9183+4*0.____)/14≈(4+5.5098+3.245)/14≈12.7548/14≈0.9111(C)属性:湿度(取值:高、正常)按“湿度”划分:*高:样本1,2,3,4,8,12,14→7个。“是”:3,4,12→3个;“否”:1,2,8,14→4个。权重7/14=1/2。*H(高)=-(3/7)log2(3/7)-(4/7)log2(4/7)*log2(3/7)≈-1.222,log2(4/7)≈-0.807*H(高)≈-(3/7)(-1.222)-(4/7)(-0.807)≈(3.666+3.228)/7≈6.894/7≈0.9849*正常:样本5,6,7,9,10,11,13→7个。“是”:5,7,9,10,11,13→6个;“否”:6→1个。权重7/14=1/2。*H(正常)=-(6/7)log2(6/7)-(1/7)log2(1/7)*log2(6/7)≈-0.222,log2(1/7)≈-2.807*H(正常)≈-(6/7)(-0.222)-(1/7)(-2.807)≈(1.332+2.807)/7≈4.139/7≈0.5913条件熵H(D|湿度)=0.5*0.9849+0.5*0.5913≈(0.9849+0.5913)/2≈1.5762/2≈0.7881(D)属性:风力(取值:弱、强)按“风力”划分:*弱:样本1,3,4,5,8,9,10,13→8个。“是”:3,4,5,9

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论