



下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、精选优质文档-倾情为你奉上习题3(第三章 分类技术)1. 在决策树归纳中,选项有:(a)将决策树转化为规则,然后对结果规则剪枝,或(b)对决策树剪枝,然后将剪枝后的树转化为规则。相对于(b),(a)的优点是什么?解答:如果剪掉子树,我们可以用(b)将全部子树移除掉,但是用方法(a)的话,我们可以将子树的任何前提都移除掉。方法(a)约束更少。2. 在决策树归纳中,为什么树剪枝是有用的?使用分离的元组集评估剪枝有什么缺点?解答:决策树的建立可能过度拟合训练数据,这样就会产生过多分支,有些分支就是因为训练数据中的噪声或者离群点造成的。剪枝通过移除最不可能的分支(通过统计学方法),来排除这些过度拟合的
2、数据。这样得到的决策树就会变得更加简单跟可靠,用它来对未知数据分类时也会变得更快、更精确。使用分离的元组集评估剪枝的缺点是,它可能不能代表那些构建原始决策树的训练元组。如果分离的元组集不能很好地代表,用它们来评估剪枝树的分类精确度将不是一个很好的指示器。而且,用分离的元组集来评估剪枝意味着将使用更少的元组来构建和测试树。3. 画出包含4个布尔属性A,B,C,D的奇偶函数的决策树。该树有可能被简化吗?ABCDClassTTTTTTTTFFTTFTFTTFFTTFTTFTFTFTTFFTTTFFFFFTTTFFTTFTFTFTTFTFFFFFTTTFFTFFFFFTFFFFFT解答:决策树如下,该
3、树不可能被简化。4. X是一个具有期望Np、方差Np(1-p)的二项随机变量,证明X/N同样具有二项分布且期望为p方差为p(1-p)/N。解答:令r=X/N,因为是二项分布,同样具有二项分布。期望,Er = EX/N = EX/N = (Np)/N = p;方差,E = E= E/ = Np(1-p)/ = p(1-p)/N5. 当一个数据对象同时属于多个类时,很难评估分类的准确率。评述在这种情况下,你将使用何种标准比较对相同数据建立的不同分类器。解答:一个数据对象可能同时属于多个类,然而,该数据对象可能属于某个类的概率更高。因此,一个评估标准就是选择正确预测出该数据对象通常属于哪个类的分类器
4、。受此启发,一个分类预测如果满足第一或第二最可能的类,那么就被认为是正确的。其他的评估标准包括速度、鲁棒性、可伸缩性和可解释性。通常,我们选择的分类器一般趋向于含有这样的特征:最小化计算开销,即使给予噪声数据或不完整数据也能准确预测,在大规模数据下仍然有效工作,提供简明易懂的结果。6. 证明准确率是灵敏性和特效性的函数,即证明式accuracy = sensitivity+specificity解答:accuracy = = + = + = sensitivity+specificity7. 支持向量机是一种具有高准确率的分类方法。然而,在使用大型数据元组集进行训练时,该方法的处理速度很慢。讨
5、论如何克服这一困难,并未大型数据集有效的SVM分类开发一种可伸缩的SVM算法。解答:我们可以使用micro-clustering技术("Classifying large data sets using SVM with hierarchical clusters" by Yu, Yang, and Han, in Proc. 2003 ACM SIGKDD Int. Conf. Knowledge Discovery and Data Mining (KDD'03), pages 306-315, Aug. 2003 YYH03)来克服这一困难。一种基于簇的SVM
6、方法如下描述:(1) 使用CF树构建微簇;(2) 在微簇的中心训练SVM;(3) 打散边界附近的条目;(4) 用其他的条目重复SVM训练;(5) 重复上面的步骤直到收敛。8. 通过对预测器变量变换,有些非线性回归模型可以转化成线性模型。指出如何将非线性回归方程y=转换成可以用最小二乘方求解的线性回归方程。解答:运用替换:,=,,可以获得线性模型:。9. 什么是提升(Boosting)?陈述它为何能够提决策树归纳的准确性?解答:提升(Boosting)是一种用来提高分类准确度的技术。现有一个包含s个元组的元组集S,训练集(t=1,2,T),给中的元组赋予一定的权值。在中创建一个分类器。当创建好以后,更新中元组的权重,这样如果元组造成分类错误的话,在接下来的分类器创建时,容易被发现。这样就可以提高接下来的分类器的准确性。运用这种技术,就可以保证每一个分类器都比之前的分类器具有更高的准确度。最终的分类器组合每个个体分类器,其中每个分类器投票的权重是其准确率的函数。10. 下表汇总了具有三个属性A、B、C,以及两个分类标号+、-的数据集,请根据此建立一棵两层的决策树ABC实例数+-TTT50FTT020TFT200FFT05TTF00FTF250TFF00FFF025解答:ABCclass11000+1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025仓库物资抵押合同的范本
- 2025年海水淡化设备项目提案报告模板
- 品酒师证考试题库及答案
- 劳动合同股东激励协议书
- 系统分析师考试能力提升建议试题及答案
- 有效掌握Msoffice考试的关键策略试题及答案
- 2025年中国花园储物箱行业市场前景预测及投资价值评估分析报告
- 管理学转段考试题及答案
- 系统分析师考试综合学习计划试题及答案
- 2025年中国合金刨刀行业市场前景预测及投资价值评估分析报告
- 稀土买卖协议书
- 太原日用陶瓷项目商业计划书范文
- 2025年可再生能源在建筑能源供应中的占比提升策略研究报告
- 薪酬福利体系优化方案
- SA8000-社会责任程序文件(完整版)
- 浙江卷-2025届高考化学4月模拟预测卷
- 小学生石油科普课件视频
- 2025至2030中国隧道掘进机(TBM)行业发展状况与应用趋势研究报告
- 商业保理抵押合同协议
- 07FJ02防空地下室建筑构造
- MOOC 光学发展与人类文明-华南师范大学 中国大学慕课答案
评论
0/150
提交评论