第3章 分类与回归_第1页
第3章 分类与回归_第2页
第3章 分类与回归_第3页
第3章 分类与回归_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3章分类与回归3.1简述决策树分类的主要步骤。3.2给定决策树,选项有:(1)将决策树转换成规则,然后对结果规则剪枝,或2)对决策树剪枝,然后将剪枝后的树转换成规则。相对于(2),(1)的优点是什么?3.3计算决策树算法在最坏情况下的时间复杂度是重要的。给定数据集D,具有m个属性和IDI个训练记录,证明决策树生长的计算时间最多为mxDxlog(|D\)。3.4考虑表3-23所示二元分类问题的数据集。计算按照属性A和B划分时的信息增益。决策树归纳算法将会选择那个属性?计算按照属性A和B划分时Gini系数。决策树归纳算法将会选择那个属性?3.5证明:将结点划分为更小的后续结点之后,结点熵不会增加。3.6为什么朴素贝叶斯称为“朴素”?简述朴素贝叶斯分类的主要思想。3.7考虑表3-24数据集,请完成以下问题:表3-24习题3.7数据集记录号ABC类1000+2001-30114011-5001+6101+71018101-9111+10101+估计条件概率P(A|+),P(B|+),P(C|+),P(A|-),P(B|-),P(C|-)。(2"艮据(1)中的条件概率,使用朴素贝叶斯方法预测测试样本(A=0,B=1,C=0)的类标号;使用Laplace估计方法,其中p=1/2,1=4,估计条件概率P(A|+),P(B|+),P(C|+),P(A|-),P(B|-),P(C|-)。同(2),使用(3)中的条件概率比较估计概率的两种方法,哪一种更好,为什么?3.8考虑表3-25中的一维数据集。

表3-25习题3.8数据集X0.53.04.54.64.95.25.35.57.09.5Y--+++--+--根据1-最近邻、3-最近邻、5-最近邻、9-最近邻,对数据点x=5.0分类,使用多数表决。3.9表3-26的数据集包含两个属性X与Y,两个类标号“+”和“-”。每个属性取三个不同值策略:0,1或2。"+”类的概念是Y=1,"-”类的概念是X=0andX=2。表3-26习题3.9数据集XYXY0010201121021222实例数+-0100000100100101000100000100⑴建立该数据集的决策树。该决策树能捕捉到“+”和“-”的概念吗?决策树的准确率、精度、召回率和F1各是多少?(注意,精度、召回率和F1量均是对“+”类定义)使用下面的代价函数建立新的决策树,新决策树能捕捉到“+”的概念么?顷,""一-实例个数-实例个数+实例个数如果i=一,j=+(提示:只需改变原决策树的结点。)3.10什么是提升?陈述它为何能提高决策树归纳的准确性?3.11表3-27给出课程数据库中学生的期中和期末考试成绩。表3-27习题3.11数据集期中考试期末考试XY728450638177747894908675594983796577335288748190(1)绘制数据的散点图。X和Y看上去具有线性联系吗?使用最小二乘法,由学生课程中成绩预测学生的期末成绩的方程式。预测期中成绩为86分的学生的期末成绩。3.12通过

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论