习题3(第三章 分类技术)_第1页
习题3(第三章 分类技术)_第2页
习题3(第三章 分类技术)_第3页
习题3(第三章 分类技术)_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

习题习题 3 第三章 第三章 分类技术 分类技术 1 在决策树归纳中 选项有 a 将决策树转化为规则 然后对结果规则剪枝 或 b 对决 策树剪枝 然后将剪枝后的树转化为规则 相对于 b a 的优点是什么 解答解答 如果剪掉子树 我们可以用 b 将全部子树移除掉 但是用方法 a 的话 我们可以将子 树的任何前提都移除掉 方法 a 约束更少 2 在决策树归纳中 为什么树剪枝是有用的 使用分离的元组集评估剪枝有什么缺点 解答解答 决策树的建立可能过度拟合训练数据 这样就会产生过多分支 有些分支就是因 为训练数据中的噪声或者离群点造成的 剪枝通过移除最不可能的分支 通过统计学方 法 来排除这些过度拟合的数据 这样得到的决策树就会变得更加简单跟可靠 用它 来对未知数据分类时也会变得更快 更精确 使用分离的元组集评估剪枝的缺点是 它可能不能代表那些构建原始决策树的训 练元组 如果分离的元组集不能很好地代表 用它们来评估剪枝树的分类精确度将不 是一个很好的指示器 而且 用分离的元组集来评估剪枝意味着将使用更少的元组来 构建和测试树 3 画出包含 4 个布尔属性 A B C D 的奇偶函数的决策树 该树有可能被简化吗 解答解答 决策树如下 该树不可能被简化 4 X 是一个具有期望 Np 方差 Np 1 p 的二项随机变量 证明 X N 同样具有二项分布且期望为 p 方差为 p 1 p N 解答解答 令 r X N 因为 是二项分布 同样具有二项分布 期望 E r E X N E X N Np N p 方差 E E E Np 1 p ABCDClass TTTTT TTTFF TTFTF TTFFT TFTTF TFTFT TFFTT TFFFF FTTTF FTTFT FTFTT FTFFF FFTTT FFTFF FFFTF FFFFT p 1 p N 5 当一个数据对象同时属于多个类时 很难评估分类的准确率 评述在这种情况下 你 将使用何种标准比较对相同数据建立的不同分类器 解答解答 一个数据对象可能同时属于多个类 然而 该数据对象可能属于某个类的概率更 高 因此 一个评估标准就是选择正确预测出该数据对象通常属于哪个类的分类器 受此启发 一个分类预测如果满足第一或第二最可能的类 那么就被认为是正确的 其他的评估标准包括速度 鲁棒性 可伸缩性和可解释性 通常 我们选择的分类器一般趋向于含有这样的特征 最小化计算开销 即使给予噪 声数据或不完整数据也能准确预测 在大规模数据下仍然有效工作 提供简明易懂的 结果 6 证明准确率是灵敏性和特效性的函数 即证明式 accuracy sensitivity specificity 解答解答 accuracy sensitivity specificity 7 支持向量机是一种具有高准确率的分类方法 然而 在使用大型数据元组集进行训练 时 该方法的处理速度很慢 讨论如何克服这一困难 并未大型数据集有效的 SVM 分类开发一种可伸缩的 SVM 算法 解答解答 我们可以使用 micro clustering 技术 Classifying large data sets using SVM with hierarchical clusters by Yu Yang and Han in Proc 2003 ACM SIGKDD Int Conf Knowledge Discovery and Data Mining KDD 03 pages 306 315 Aug 2003 YYH03 来 克服这一困难 一种基于簇的 SVM 方法如下描述 1 使用 CF 树构建微簇 2 在微簇的中心训练 SVM 3 打散边界附近的条目 4 用其他的条目重复 SVM 训练 5 重复上面的步骤直到收敛 8 通过对预测器变量变换 有些非线性回归模型可以转化成线性模型 指出如何将非线 性回归方程 y 转换成可以用最小二乘方求解的线性回归方程 解答解答 运用替换 可以获得线性 模型 9 什么是提升 Boosting 陈述它为何能够提决策树归纳的准确性 解答解答 提升 Boosting 是一种用来提高分类准确度的技术 现有一个包含 s 个元组的元组 集 S 训练集 t 1 2 T 给中的元组赋予一定的权值 在中创建一个分类 器 当创建好以后 更新中元组的权重 这样如果元组造成分类错误的话 在 接下来的分类器创建时 容易被发现 这样就可以提高接下来的分类器的准确性 运用这种技术 就可以保证每一个分类器都比之前的分类器具有更高的准确度 最终 的分类器组合每个个体分类器 其中每个分类器投票的权重是其准确率的函数 10 下表汇总了具有三个属性 A B C 以及两个分类标号 的数据集 请根据此建立 一棵两层的决策树 实例数 ABC TTT50 FTT020 TFT200 FFT05 TTF00 FTF250 TFF00 FFF025 解答解答 ABCcla

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论