


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章测试什么是KDD?()
A:文档知识发现
B:数据挖掘与知识发现
C:领域知识发现
D:动态知识发现
答案:B数据挖掘分析是指从海量的数据中抽取感兴趣的(有价值的、隐含的、以前没有用但是潜在有用信息的)模式和知识。()
A:对
B:错
答案:A数据挖掘分析的步骤包括()
A:创建数据集
B:模型评估
C:算法分析
D:数据预处理
答案:ABCD当今社会,数据挖掘分析被广泛应用。()
A:对
B:错
答案:A()是未来大数据分析的发展趋势。
A:实时性
B:非结构化数据
C:简单
D:可视化
答案:ABD第二章测试关于描述统计,包括()。
A:相关分析
B:集中趋势分析
C:其余选项都不是
D:离中趋势分析
答案:ABD以下属于推断统计的是()。
A:离中趋势分析
B:集中趋势分析
C:参数估计
D:其余选项都不是
答案:A在数据特征的测度中,描述分布的形状的值为()
A:偏态
B:峰态
C:中位数
D:众数
答案:AB测度集中趋势就是寻找数据水平的代表值或中心值()
A:错
B:对
答案:B四分位数可以用于顺序数据、数值数据和分类数据()
A:错
B:对
答案:A第三章测试下面哪个属于映射数据到新的空间的方法?()
A:特征加权
B:渐进抽样
C:维归约
D:傅立叶变换
答案:D将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?()
A:频繁模式挖掘
B:分类和预测
C:数据预处理
D:数据流挖掘
答案:C影响数据质量问题的因素有哪些()
A:可信性、可解释性
B:准确性、完整性、一致性
C:其余选项都对
D:相关性、时效性
答案:C数据预处理的常见方法有()
A:数据集成
B:其余选项都不对
C:数据清洗
D:数据变换
答案:ACD数据预处理是指在对数据进行挖掘分析以前,需要对原始数据进行清理、集合和变换等一系列处理工作()
A:错
B:对
答案:B第四章测试考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()
A:1,2,4,5
B:1,2,3,5
C:1,2,3,4
D:1,3,4,5
答案:A频繁项集、频繁闭项集、最大频繁项集之间的关系是:()
A:频繁项集频繁闭项集=最大频繁项集
B:频繁项集=频繁闭项集最大频繁项集
C:频繁项集=频繁闭项集=最大频繁项集
D:频繁项集频繁闭项集最大频繁项集
答案:D某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()
A:关联规则发现
B:分类
C:聚类
D:自然语言处理
答案:A下面购物篮能够提取的3-项集的最大数量是多少()ID购买项1牛奶,啤酒,尿布2面包,黄油,牛奶3牛奶,尿布,饼干4面包,黄油,饼干5啤酒,饼干,尿布6牛奶,尿布,面包,黄油7面包,黄油,尿布8啤酒,尿布9牛奶,尿布,面包,黄油10啤酒,饼干
A:3
B:2
C:1
D:4
答案:AApriori算法的计算复杂度受(
)影响。
A:事务数
B:项数(维度)
C:支持度阀值
D:事务平均宽度
答案:ABCD第五章测试以下哪些算法是分类算法,()
A:DBSCAN
B:K-Mean
C:EM
D:C4.5
答案:D决策树中不包含一下哪种结点,()
A:内部结点(internalnode)
B:根结点(rootnode)
C:外部结点(externalnode)
D:叶结点(leafnode)
答案:C以下哪项关于决策树的说法是错误的()
A:子树可能在决策树中重复多次
B:冗余属性不会对决策树的准确率造成不利的影响
C:寻找最佳决策树是NP完全问题
D:决策树算法对于噪声的干扰非常敏感
答案:D以下关于人工神经网络(ANN)的描述错误的有()
A:至少含有一个隐藏层的多层神经网络
B:神经网络对训练数据中的噪声非常鲁棒
C:可以处理冗余特征
D:训练ANN是一个很耗时的过程
答案:B贝叶斯信念网络(BBN)有如下哪些特点,()
A:网络结构确定后,添加变量相当麻烦
B:构造网络费时费力
C:对模型的过分问题非常鲁棒
D:贝叶斯网络不适合处理不完整的数据
答案:BC如下哪些不是最近邻分类器的特点,()
A:最近邻分类器基于全局信息进行预测
B:可以生产任意形状的决策边界
C:它使用具体的训练实例进行预测,不必维护源自数据的模型
D:分类一个测试样例开销很大
答案:A第六章测试()这些数据特性都是对聚类分析具有很强影响的。
A:规模
B:噪声和离群点
C:稀疏性
D:高维性
答案:ABCD考虑这么一种情况:一个对象碰巧与另一个对象相对接近,但属于不同的类,因为这两个对象一般不会共享许多近邻,所以应该选择()的相似度计算方法。
A:共享最近邻
B:平方欧几里德距离
C:直接相似度
D:余弦距离
答案:A在基本K均值算法里,当邻近度函数采用()的时候,合适的质心是簇中各点的中位数。
A:平方欧几里德距离
B:曼哈顿距离
C:余弦距离
D:Bregman散度
答案:B简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作()
A:模糊聚类
B:非互斥聚类
C:层次聚类
D:划分聚类
答案:DK均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。()
A:对
B:错
答案:B第七章测试可视化涉及到的学科包括()
A:人机交互
B:数据挖掘
C:统计分析
D:计算机图形学
答案:ABCD若有一个数据集,每个数据点有5个属性,以下哪种可视化技术最适用于表示其属性凉凉之间的相关性呢?()
A:像素图
B:坐标系
C:散
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年公路水运工程试验检测专业技术人员职业常考试题库及完整答案
- Python大模型基础与智能应用(微课版)课件第4章 机器学习模型与实现
- 护士2025年度考核个人总结5篇
- 社区网格员消防知识培训课件
- 江西省南昌市高新区2024-2025学年五年级下册期末考试语文试卷(有答案)
- 瓷砖铺贴合同范本
- 小区消防监控合同范本
- 办学资质租赁合同范本
- 美甲店工作安全合同范本
- 塘渣购销合同范本
- 二手车寄售合同
- 2025中国人寿招聘笔试参考题库完整答案详解
- 武汉市纳帕溪谷剩余产品价格策略及3月份销售策略报告
- 景区植物管理办法
- 市场推广活动场地租赁协议书
- 2025年卫生人才面试题目及答案
- 2025年医保政策解读与实务操作:考试题库(含答案)
- 禅绕画介绍课件
- 耻骨骨折健康宣教
- 游乐园安全生产责任制
- 新入职员工的心理健康培训
评论
0/150
提交评论