下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、精选优质文档-倾情为你奉上习题3(第三章 分类技术)1. 在决策树归纳中,选项有:(a)将决策树转化为规则,然后对结果规则剪枝,或(b)对决策树剪枝,然后将剪枝后的树转化为规则。相对于(b),(a)的优点是什么?解答:如果剪掉子树,我们可以用(b)将全部子树移除掉,但是用方法(a)的话,我们可以将子树的任何前提都移除掉。方法(a)约束更少。2. 在决策树归纳中,为什么树剪枝是有用的?使用分离的元组集评估剪枝有什么缺点?解答:决策树的建立可能过度拟合训练数据,这样就会产生过多分支,有些分支就是因为训练数据中的噪声或者离群点造成的。剪枝通过移除最不可能的分支(通过统计学方法),来排除这些过度拟合的
2、数据。这样得到的决策树就会变得更加简单跟可靠,用它来对未知数据分类时也会变得更快、更精确。使用分离的元组集评估剪枝的缺点是,它可能不能代表那些构建原始决策树的训练元组。如果分离的元组集不能很好地代表,用它们来评估剪枝树的分类精确度将不是一个很好的指示器。而且,用分离的元组集来评估剪枝意味着将使用更少的元组来构建和测试树。3. 画出包含4个布尔属性A,B,C,D的奇偶函数的决策树。该树有可能被简化吗?ABCDClassTTTTTTTTFFTTFTFTTFFTTFTTFTFTFTTFFTTTFFFFFTTTFFTTFTFTFTTFTFFFFFTTTFFTFFFFFTFFFFFT解答:决策树如下,该
3、树不可能被简化。4. X是一个具有期望Np、方差Np(1-p)的二项随机变量,证明X/N同样具有二项分布且期望为p方差为p(1-p)/N。解答:令r=X/N,因为是二项分布,同样具有二项分布。期望,Er = EX/N = EX/N = (Np)/N = p;方差,E = E= E/ = Np(1-p)/ = p(1-p)/N5. 当一个数据对象同时属于多个类时,很难评估分类的准确率。评述在这种情况下,你将使用何种标准比较对相同数据建立的不同分类器。解答:一个数据对象可能同时属于多个类,然而,该数据对象可能属于某个类的概率更高。因此,一个评估标准就是选择正确预测出该数据对象通常属于哪个类的分类器
4、。受此启发,一个分类预测如果满足第一或第二最可能的类,那么就被认为是正确的。其他的评估标准包括速度、鲁棒性、可伸缩性和可解释性。通常,我们选择的分类器一般趋向于含有这样的特征:最小化计算开销,即使给予噪声数据或不完整数据也能准确预测,在大规模数据下仍然有效工作,提供简明易懂的结果。6. 证明准确率是灵敏性和特效性的函数,即证明式accuracy = sensitivity+specificity解答:accuracy = = + = + = sensitivity+specificity7. 支持向量机是一种具有高准确率的分类方法。然而,在使用大型数据元组集进行训练时,该方法的处理速度很慢。讨
5、论如何克服这一困难,并未大型数据集有效的SVM分类开发一种可伸缩的SVM算法。解答:我们可以使用micro-clustering技术("Classifying large data sets using SVM with hierarchical clusters" by Yu, Yang, and Han, in Proc. 2003 ACM SIGKDD Int. Conf. Knowledge Discovery and Data Mining (KDD'03), pages 306-315, Aug. 2003 YYH03)来克服这一困难。一种基于簇的SVM
6、方法如下描述:(1) 使用CF树构建微簇;(2) 在微簇的中心训练SVM;(3) 打散边界附近的条目;(4) 用其他的条目重复SVM训练;(5) 重复上面的步骤直到收敛。8. 通过对预测器变量变换,有些非线性回归模型可以转化成线性模型。指出如何将非线性回归方程y=转换成可以用最小二乘方求解的线性回归方程。解答:运用替换:,=,,可以获得线性模型:。9. 什么是提升(Boosting)?陈述它为何能够提决策树归纳的准确性?解答:提升(Boosting)是一种用来提高分类准确度的技术。现有一个包含s个元组的元组集S,训练集(t=1,2,T),给中的元组赋予一定的权值。在中创建一个分类器。当创建好以后,更新中元组的权重,这样如果元组造成分类错误的话,在接下来的分类器创建时,容易被发现。这样就可以提高接下来的分类器的准确性。运用这种技术,就可以保证每一个分类器都比之前的分类器具有更高的准确度。最终的分类器组合每个个体分类器,其中每个分类器投票的权重是其准确率的函数。10. 下表汇总了具有三个属性A、B、C,以及两个分类标号+、-的数据集,请根据此建立一棵两层的决策树ABC实例数+-TTT50FTT020TFT200FFT05TTF00FTF250TFF00FFF025解答:ABCclass11000+1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年新疆理工学院招聘编制外聘用人员备考题库(29人)及参考答案详解1套
- 2026贵州黔西南州兴义民族师范学院科研助理岗位招聘80人备考题库(一)及答案详解(名师系列)
- 2026云南昆明农副产品食品全产业链经营企业社会招聘9人备考题库附答案详解(满分必刷)
- 2026上海复旦大学马克思主义学院招聘青年教师1人备考题库参考答案详解
- 2026上半年江苏南京市六合区人民医院招聘编外卫技人员24人备考题库及完整答案详解
- 2026四川成都市民政精神卫生中心(成都市德康医院)招聘3人备考题库有完整答案详解
- 2026浙江丽水庆元县城投公司下属城发建设招聘工作人员6人备考题库及1套参考答案详解
- 2026云南红河州弥勒市紧密型市域医共体江边分院招聘合同制人员3人备考题库附答案详解(能力提升)
- 2026年5月广东深圳市宝安区西乡固腾幼儿园招聘幼儿园保育员1人备考题库附答案详解(综合卷)
- 2026江苏省粮食集团有限责任公司春季招聘备考题库及答案详解(名师系列)
- 建筑工地劳务合同(2025年钢筋作业)
- NY-T 4980-2025《土壤主要性状指标分级》
- 2026重庆新华书店有限公司招聘工作人员47名备考题库附答案详解(满分必刷)
- 浙江省知识产权保护中心招聘笔试真题2025
- 父母与子女协议书
- 2026年汕头市普通高考第二次模拟考试历史试题(含答案)
- 医疗废物管理培训制度
- 老年患者围术期血液保护共识2026
- 2026年危险化学品安全法理论考试试题
- 《数学连环画》课件2025-2026学年人教版二年级下册数学
- 结核病的诊断、治疗与预防
评论
0/150
提交评论