数据挖掘试卷-题集_第1页
数据挖掘试卷-题集_第2页
数据挖掘试卷-题集_第3页
数据挖掘试卷-题集_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘复习题集 1 名词解释及简答 数据矩阵 闭频繁项集 极大频繁项集 四分位数极差 聚类分析 聚类算法 DBSCAN 中的密度可达与密度相连 简述数据清理的任务 简述 k means 聚类与 k 中心点聚类的相似与不同之处 2 填空题 1 计算 sin 45o 的 Matlab 命令是 2 假设 x 10 计算的 Matlab 命令是 0 5 21 x e 3 Matlab 中清除显示内容的命令是 4 Matlab 中清除变量 y 的命令是 5 Matlab 中有矩阵 a 1 2 3 4 5 6 7 8 9 执行 a 2 后 a 的值为 6 Matlab 中绘制曲线的基本命令是 7 数据质量涉及许多因素 包括 时效性 可信性和可解释性 8 属性的类型由该属性可能具有的值的集合决定 属性类型包括 序 数的或数值的 9 KDD 过程包括 数据集成 数据选择 数据变换 数据挖掘 模式评估 和 10 一个模式是有趣的 如果它是 在某种程度上在新的或测试数据上是有效的 新颖的 或验证了用户希望证实的某种假设 11 数据对象又称为样本 数据点 或 12 数值属性可以被分为 属性和 属性 13 常见的数据的可视化技术有基于 的技术 几何投影技术 基于 的技术 以及层次的和基于图形的技术 14 支持度和 是规则兴趣度的两种度量 3 选择题 1 Matlab 中 执行 a 4 4 b reshape a 3 3 后 b 的值是 A 4 3 2 1 0 1 2 3 4 B 4 1 2 3 0 3 2 1 4 C 4 4 4 4 4 4 4 4 4 D 报错 2 在 MATLAB 中 列出当前工作空间变量名的函数是 A who s B clc C path D draw 3 已知 则在 MATLAB 中调用命令 A 3 的结果为 46 28 37 A A 3 B 2 C 无结果 D 7 4 MATLAB 对图形窗口进行灵活分割的命令为 A plot B subplot C aplot D ploval 5 则 A B 3 6 3 A 2 1 1 B A 运算不执行 因有错 B 6 83 C 5 74 D 6 6 3 6 MATLAB 中保持图形窗口不关闭的命令为 A alter B hold on C hold off D cd 7 MATLAB 中 a 2 3 1 则 b a 2 的结果为 A b 4 6 1 B b 4 9 1 C b 4 6 2 D 执行出错 无结果 8 MATLAB 中给变量 w 赋空矩阵的语句为 A w zeros B w C w zeros 0 0 D clear w 9 某超市研究销售纪录数据后发现 买啤酒的人很大概率也会购买尿布 这种属于数据 挖掘的哪类问题 A 关联规则发现 B 聚类 C 分类 D 自然语言处理 10 假设 12 个销售价格记录组已经排序如下 5 10 11 13 15 35 50 55 72 92 204 215 使用如下每种方法将它们划分成四个箱 等频 等深 划分时 15 在第几个箱子内 A 第一个 B 第二个 C 第三个 D 第四个 11 上题中 等宽划分时 宽度为 50 15 又在哪个箱子里 12 下面哪个不属于数据的属性类型 A 标称 B 序数 C 区间 D 相异 13 在上题中 属于定量的属性类型是 14 只有非零值才重要的二元属性被称作 A 计数属性 B 离散属性 C 非对称的二元属性 D 对称属性 15 以下哪种方法不属于特征选择的标准方法 A 嵌入 B 过滤 C 包装 D 抽样 16 熵是为消除不确定性所需要获得的信息量 投掷均匀正六面体骰子的熵是 A 1 比特 B 2 6 比特 C 3 2 比特 D 3 8 比特 17 假设属性 income 的最大最小值分别是 12000 元和 98000 元 利用最大最小规范化的 方法将属性的值映射到 0 至 1 的范围内 对属性 income 的 73600 元将被转化为 A 0 821 B 1 224 C 1 458 D 0 716 18 假定用于分析的数据包含属性 age 数据元组中 age 的值如下 按递增序 13 15 16 16 19 20 20 21 22 22 25 25 25 30 33 33 35 35 36 40 45 46 52 70 问题 使用按箱平均值平滑方法对上述数据进行平滑 箱的 深度为 3 第二个箱子值为 A 18 3 B 22 6 C 26 8 D 27 9 19 考虑值集 12 24 33 2 4 55 68 26 其四分位数极差是 A 31 B 24 C 55 D 3 20 一所大学内的各年纪人数分别为 一年级 200 人 二年级 160 人 三年级 130 人 四 年级 110 人 则年级属性的众数是 A 一年级 B 二年级 C 三年级 D 四年级 21 下列哪个不是专门用于可视化时间空间数据的技术 A 等高线图 B 饼图 C 曲面图 D 矢量场图 22 在抽样方法中 当合适的样本容量很难确定时 可以使用的抽样方法是 A 有放回的简单随机抽样 B 无放回的简单随机抽样 C 分层抽样 D 渐进抽样 23 以下哪些算法是分类算法 A DBSCANB C4 5C K MeanD EM 24 以下哪些分类方法可以较好地避免样本的不平衡问题 A KNNB SVMC BayesD 神经网络 25 以下哪项关于决策树的说法是错误的 A 冗余属性不会对决策树的准确率造成不利的影响 B 子树可能在决策树中重复多次 C 决策树算法对于噪声的干扰非常敏感 D 寻找最佳决策树是 NP 完全问题 26 决策树分类方法中 ID3 算法使用的分裂准则是 A 信息增益 B 增益比率 C 基尼指数 D 分类错误率 27 决策树分类方法中 C4 5 算法使用的分裂准则是 A 信息增益 B 增益比率 C 基尼指数 D 分类错误率 28 决策树分类方法中 CART 算法使用的分裂准则是 A 信息增益 B 增益比率 C 基尼指数 D 分类错误率 4 判断题 1 Matlab 程序要编译后才能运行 2 Matlab 中变量名不区分大小写 3 Matlab 中对 2 维矩阵的下标与 C 语言一样 是行优先存储 4 Matlab 的执行效率比 C 语言低 但是 Matlab 的开发难度通常比 C 语言低 5 聚类算法运行的条件需要所有的训练样本都有类别标签 6 决策树中基于信息增益分裂准则的一个缺陷是它趋向于多值属性 7 分类算法中 随着分类模型的复杂度增加 训练集和测试集上的准确率通常都会提高 8 DBSCAN 是一种基于密度的聚类方法 9 分位数图是一种观察单变量数据分布的简单有效方法 10 分位数 分位数图可以观察从一个分布到另一个分布是否有漂移 11 k 中心点聚类算法比 k 均值算法对离群点更鲁棒 12 频繁项集的关联规则挖掘中 闭频繁项集和极大频繁项集都包含了频繁项集的完整支 持度信息 13 频繁模式增长 FP growth 是一种比 Aprior 算法更高效的关联规则挖掘算法 5 计算题 1 给定两个元组 10 20 30 10 和 20 0 36 8 表示的对象 求以下距离 1 计算这两个对象间的欧几里得距离 2 计算这两个对象间的曼哈顿距离 3 使用 q 3 计算这两个对象之间的闵可夫斯基距离 4 计算这两个对象之间的上确界距离 2 在决策树分类中 依据分裂规则的不同提出了不同决策树算法 信息增益准则在 ID3 分 类方法中采用 我们希望能够学习出一个贷款申请的决策树 当新的客户提出申请贷款时 根 据申请人的特征利用决策树决定是否批准申请贷款 请完成如下的计算 IDID 年龄年龄有工作有工作 有自己的有自己的 房子房子 信贷情况信贷情况 是否批准是否批准 贷款申请贷款申请 1 青年否否一般否 2 青年否否好否 3 青年是否好是 4 青年是是一般是 5 青年否否一般否 6 中年否否一般否 7 中年否否好否 8 中年是是好是 9 中年否是非常好是 10 中年否是非常好是 11 老年否是非常好是 12 老年否是好是 13 老年是否好是 14 老年是否非常好是 15 老年否否一般否 1 假设目前在根节点 包含所有 15 个样本点 请计算根节点分类所需的期望信息 2 计算年龄属性分裂的信息增益 3 计算用是否有工作属性分裂的信息增益 4 计算分别用是否有自己的房子和信贷情况属性分裂的信息增益 并说明基于信息增益准 则 应该选择什么属性作为分裂属性 3 朴素贝叶斯分类方法是一种简单但高效的分类方法 有如下关于顾客是否买计算机的训 练数据集 请依据朴素贝叶斯分类方法 写出计算过程 判断属性信息为 x 年龄 青年 收入中等 信用等级 良好 的顾客是否会购买计算机 RID年龄收入信用等级是否买计算机 1青年高良否 2青年高优否 3中年高良是 4老年中等良是 5老年低良是 6老年低优否 7中年低优是 8青年中等良否 9青年低良是 10老年中等良是 4 有如下混淆矩阵 请计算指标分类准确率 灵敏度 特效性 精度 召回率和 F1 度量 预测类别 Class YesClass No Class Yes90210 实际类别 Class No1409560 5 假设我们对购买计算机游戏和录像带的事务感兴趣 设 game 表示包含计算机游戏的事 务 而 video 表示包含录像的事务 在所分析的 1000 个事务中 数据显示有 600 个顾客事 务包含计算机游戏 750 个事务包含录像

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论