数据挖掘试题(150道)_第1页
数据挖掘试题(150道)_第2页
数据挖掘试题(150道)_第3页
数据挖掘试题(150道)_第4页
数据挖掘试题(150道)_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

单一主题选择1.在研究销售记录数据后,一家超市发现啤酒购买者购买尿布的可能性很高。这在数据挖掘中属于什么样的问题?(一)A.发现关联规则b .聚类C.d .自然语言处理2.以下两个描述分别对应哪两个分类算法评估标准?(一)警察抓小偷,描述警察抓了多少人是判断小偷的标准。描述被警方抓获的小偷的百分比。A.精确,召回A.精确度,中华民国召回,中华民国3.以下哪一个步骤是原始数据的整合、转换、降维和数字降维的任务?(三)A.频繁模式挖掘b .分类和预测c .数据预处理d .数据流挖掘4.当您不知道数据的标签时,可以使用哪种技术将具有相同标签的数据与具有其他标签的数据分开?(二)A.分类b .聚类c .相关分析d .隐马尔可夫链5.什么是KDD?(一)A.数据挖掘和知识发现b .领域知识发现C.文档知识发现d .动态知识发现6.数据挖掘是什么样的任务,使用交互式和可视化技术来探索数据?(一)A.探索性数据分析b .建模描述C.预测建模d .寻找模式和规则7.对数据的总体分布进行建模;数据挖掘是什么样的任务来将多维空间分成组?(二)A.探索性数据分析b .建模描述C.预测建模d .寻找模式和规则8.建立一个模型,通过该模型根据已知的变量值来预测挖掘其他变量值属于哪种任务数据。(三)A.根据内容搜索b .建模描述C.预测建模d .寻找模式和规则9.用户有兴趣的模式,并希望在数据集中找到相似的模式。数据挖掘是什么样的任务?(一)A.根据内容搜索b .建模描述C.预测建模d .寻找模式和规则11.以下哪种方法不属于数据预处理?(四)变量替换b离散化c聚集d估计缺失值12.假设12个销售价格记录组已按如下方式排序:5、10、11、13、15、35、50、55、72、92、204、215。用下列方法将它们分成四个盒子。当划分相等的频率(相等的深度)时,哪个方框是15?(二)a第一b第二c第三d第四13.在上面的问题中,当宽度等于50时,哪个盒子是15?(一)a第一b第二c第三d第四14.下列哪一项不属于数据的属性类型一个标称的b序数c间隔d是不同的15.在上述问题中,定量属性类型有:(c)一个标称的b序数c间隔d是不同的16.只有非零值才重要的二进制属性称为:(c)计数属性b离散属性c非对称二进制属性d对称属性17.以下哪种方法不属于标准的特征选择方法插入b过滤器c包装d样品18.以下方法与创建新属性无关:(b)特征提取、特征修改、将数据映射到新的空间三维特征构造19.考虑值集1,2,3,4,5,90,其截断均值(p=20%)为(c)A 2 B 3 C 3.5 D 520.以下哪一项属于将数据映射到新空间的方法?(一)傅立叶变换b特征加权c渐进采样d维约简21.熵是消除不确定性所需的信息量。投掷均匀立方体骰子的熵是:(b)1位字节2.6位C 3.2位D 3.8位22.假设属性收入的最大值和最小值分别为12000元和98000元。使用最大和最小规范化方法将属性值映射到0到1的范围。73,600元的属性收入将转换为:(d)A 0.821 B 1.224 C 1.458 D 0.71623.假设用于分析的数据包含属性年龄。数据元组中的年龄值如下(按升序):13、15、16、16、19、20、20、21、22、22、25、25、30、33、33、35、35、36、40、45、46、52、70。问题:用盒子平均平滑法平滑上述数据,盒子的深度是3。第二个框值是:(a)A 18.3 B 22.6 C 26.8 D 27.924.考虑值集12 24 33 2 4 55 68 26,其四分位数范围为:(a)A 31 B 24 C 55 D 325.一所大学一年级有200人,二年级有160人,三年级有130人,四年级有110人。等级属性的模式是:(一)一年级二年级三年级四年级26.以下哪一项不是专门用于可视化时空数据的技术等高线图饼图曲面图矢量场图27.在抽样方法中,当难以确定合适的样本量时,可以使用的抽样方法是:(d)有返回的简单随机抽样28.数据仓库随着时间而变化。以下描述不正确(c)A.数据仓库随着时间的变化不断增加新的数据内容;捕获的新数据将覆盖原始快照;C.随着事件的变化,数据仓库不断删除旧的数据内容;数据仓库包含大量的综合数据,这些数据将随着时间的变化不断地被重新整合。29.基础数据元数据参见: (D)与数据源、数据仓库、数据集市、应用程序和其他结构相关的基本元数据和信息;b .基本元数据包括管理数据和与企业有关的信息;基本元数据包括日志文件的时序调度信息和恢复执行处理;基本元数据包括关于加载和更新、分析和管理的信息。30.数据粒度的以下描述不正确: (C)粒度是指数据仓库中小数据单元的详细级别和层次;数据越详细,粒度越小,级别越高。数据集成程度越高,粒度越大,级别越高;粒度的具体划分将直接影响数据仓库中的数据量和查询质量。31.对数据仓库开发特征的错误描述是: (A)A.数据仓库的开发应该从数据开始;开发数据仓库时,应该明确数据仓库的使用需求;数据仓库的发展是一个连续的循环和启发式的发展。在数据仓库环境中,操作环境中没有固定和精确的处理流程。数据仓库中的数据分析和处理更加灵活,没有固定的模式。32.关于数据仓库测试,以下陈述是不正确的: (D)A.在实现数据仓库的过程中,有必要对数据仓库进行各种测试。测试应包括单元测试和系统测试。当数据仓库的每个单独的组件完成时,它们需要进行单元测试。系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试。测试前没有必要制定详细的测试计划。33.OLAP技术的核心是: (D)A.线性度;B.对用户的快速反应;C.互操作性。D.多维分析;34.关于OLAP的特点,以下是正确的: (D)(1)快速性(2)分析性(3)多维性(4)信息共享(5)A.(1) (2) (3)B.(2) (3) (4)C.(1) (2) (3) (4)D.(1) (2) (3) (4) (5)35.对OLAP和OLTP之间的差异的错误描述是:(摄氏度)A.OLAP主要是关于如何理解大量不同的汇总数据。它不同于OTAP申请。与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务。C.OLAP的特点是交易量大,但交易内容简单,重复率高。D.OLAP是基于数据仓库的,但是它的最终数据源与底层数据库系统的OLTP相同,并且都面向相同的用户。36.OLAM技术通常被称为“数据在线分析挖掘”。以下陈述是正确的: (D)A.OLAP和OLAM都是基于客户/服务器模式,只有后者有与用户的互动;因为OLAM的立方体本质上不同于OLAP的立方体。C.基于网络的OLAM是网络技术和OLAM技术的结合。D.OLAM服务器通过用户的图形借口接收用户的分析指令,并利用元数据的知识在超立方体上执行某些操作。37.关于OLAP和OLTP,以下内容不正确: (A)A.OLAP交易量大,但交易内容相对简单,重复率高。OLAP的最终数据来源不同于OLTP。C.OLTP面临着决策者和高级管理人员。D.OLTP是面向应用程序和应用程序驱动的。38.如果x=1,2,3是一个频繁项集,那么x可以生成_ _ _个关联规则。甲、4 B、5 C、6 D、7d40.概念层次图是。有向无环B,有向无环C,有向无环D,有向无环41.频繁项集、频繁闭项集和最大频繁项集之间的关系是:(c)A.频繁项集频繁闭项集=最大频繁项集频繁项集=频繁闭项集最大频繁项集频繁项集频繁闭项集最大频繁项集频繁项集=频繁闭项集=最大频繁项集42.考虑以下频繁3项集:1,2,3、1,2,4、1,2,5、1,3,4、1,3,5、2,3,4、2,3,5、3,4,5假设数据集中只有5项,候选项生成过程获得的4项集不包含使用合并策略的(c)a、1、2、3、4 B、1、2、3、5 C、1、2、4、5 D、1、3、4、543.在下面的选项中,T不是S的子序列,而是(C)a、s=2,4、3,5,6、8 t=2、3,6、8b、s=2,4,3,5,6,8 t=2,8c、s=1,2,3,4 t=1,2d、s=2,4,2,4 t=2,444.在图集中找到一组公共子结构。这样的任务叫做(b)频繁子集挖掘,频繁子图挖掘,频繁数据项挖掘,频繁模式挖掘45.以下指标是不可逆的系数b,概率c,科恩度量d,利息因子46.以下_(A)_不是向模式发现任务添加主观信息的方法。A.与同期其他数据的比较B.形象化C.基于模板的方法D.主观兴趣测量47.从下面(c)的购物篮中可以提取的3个物品集的最大数量是多少标识采购项目牛奶、啤酒、尿布面包、黄油、牛奶牛奶、尿布、饼干面包、黄油、饼干啤酒、饼干、尿布牛奶、尿布、面包、黄油面包、黄油、尿布啤酒,尿布牛奶、尿布、面包、黄油10啤酒,饼干甲、乙、丙、丁、丁48.下列哪种算法是分类算法,a,DBSCAN B,C4.5,K-均值D,EM (B)49.以下哪种分类方法能更好地避免样本的不平衡,A,KNN B,SVM C,贝叶斯D,神经网络(A)50.决策树不包括以下类型的节点:根节点、内部节点、外部节点和叶节点51.不纯测度的基尼系数公式是(其中C是阶级的数目)(A)甲、乙、丙、丁、(甲)53.下列关于决策树的陈述中哪一个是错误的(c)A.冗余属性不会对决策树的准确性产生负面影响子树在决策树中可以重复多次决策树算法对噪声干扰非常敏感D.寻找最佳决策树是NP完全的54.在基于规则的分类器中,根据规则质量的某种度量对规则进行排序,以确保每个测试记录都按照覆盖它的“最佳”规范进行分类。这个方案叫做(b)A.基于类的排序方案B.基于规则的排序方案C.基于度量的排名方案D.基于规格的排名方案。55.以下哪种算法是基于规则的分类器(一)A.公元前4.5年的KNN?贝叶斯人工神经网络

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论