




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、海量数据挖掘技术及工程实践题目一、单选题(共80题)( D )的目目的缩小数据据的取值范围围,使其更适适合于数据挖挖掘算法的需需要,并且能能够得到和原原始数据相同同的分析结果果。A.数据清洗 B.数据集成成C.数据变换 D.数据归约约某超市研究销售售纪录数据后后发现,买啤啤酒的人很大大概率也会购购买尿布,这这种属于数据据挖掘的哪类类问题?(AA) AA. 关联规规则发现 B. 聚类类 C. 分类 D. 自然语言言处理以下两种描述分分别对应哪两两种对分类算算法的评价标标准? (AA) (aa)警察抓小小偷,描述警警察抓的人中中有多少个是是小偷的标准准。 (bb)描述有多多少比例的小小偷给警察抓抓
2、了的标准。 A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC将原始数据进行行集成、变换换、维度规约约、数值规约约是在以下哪哪个步骤的任任务?(C) A. 频繁模式挖挖掘 B. 分分类和预测 C. 数据预处处理 D. 数据据流挖掘当不知道数据所所带标签时,可可以使用哪种种技术促使带带同类标签的的数据与带其其他标签的数数据相分离?(B) A. 分类类 B. 聚类类 C. 关联分析析 D. 隐隐马尔可夫链链建立一个模型,通通过这个模型型根据已知的的变量值来预预测其他某个个变量值属于于数据挖掘的的哪一类任务务?
3、(C) A. 根根据内容检索索 B. 建模描述 C. 预预测建模 DD. 寻找模模式和规则下面哪种不属于于数据预处理理的方法? (D) A.变量代换 B.离散化 C.聚集 D.估计遗漏值值 假设12个销售售价格记录组组已经排序如如下:5, 10, 111, 133, 15, 35, 50, 555, 722, 92, 204, 215 使用如下每每种方法将它它们划分成四四个箱。等频频(等深)划划分时,155在第几个箱箱子内? (B) A.第一个 B.第二个 C.第三个 D.第四个 下面哪个不属于于数据的属性性类型:(DD) A.标称 B.序数 C.区间 D.相异 只有非零值才重重要的二元属属性
4、被称作:( C ) A.计数属性 B.离散属性 C.非对称的二二元属性 D.对称属性 以下哪种方法不不属于特征选选择的标准方方法: (D) A.嵌入 B.过滤 C.包装 D.抽样 下面不属于创建建新属性的相相关方法的是是: (B) A.特征提取 B.特征修改 C.映射数据到到新的空间 D.特征构造 下面哪个属于映映射数据到新新的空间的方方法? (AA) A.傅立叶变换换 B.特征加权 C.渐进抽样 D.维归约 假设属性inccome的最最大最小值分分别是120000元和998000元元。利用最大大最小规范化化的方法将属属性的值映射射到0至1的的范围内。对对属性inccome的773600元元将
5、被转化为为:(D) A.0.8211 B.1.2244 C.1.4588 D.0.7166 一所大学内的各各年纪人数分分别为:一年年级200人人,二年级1160人,三三年级1300人,四年级级110人。则则年级属性的的众数是: (A) A.一年级 B.二年级 C.三年级 D.四年级 下列哪个不是专专门用于可视视化时间空间间数据的技术术: (B) A.等高线图 B.饼图 C.曲面图 D.矢量场图 在抽样方法中,当当合适的样本本容量很难确确定时,可以以使用的抽样样方法是: (D) A.有放回的简简单随机抽样样 B.无放回的简简单随机抽样样 C.分层抽样 D 渐进抽样数据仓库是随着着时间变化的的,下
6、面的描描述不正确的的是 (C)A.数据仓仓库随时间的的变化不断增增加新的数据据内容B.捕捕捉到的新数数据会覆盖原原来的快照CC.数据仓库库随事件变化化不断删去旧旧的数据内容容D.数据仓仓库中包含大大量的综合数数据,这些综综合数据会随随着时间的变变化不断地进进行重新综合合下面关于数据粒粒度的描述不不正确的是: (C)AA.粒度是指指数据仓库小小数据单元的的详细程度和和级别B.数数据越详细,粒度就越小小,级别也就就越高C.数数据综合度越越高,粒度也也就越大,级级别也就越高高D.粒度的的具体划分将将直接影响数数据仓库中的的数据量以及及查询质量有关数据仓库的的开发特点,不正确的描描述是: (A)A.数
7、数据仓库开发发要从数据出出发B.数据据仓库使用的的需求在开发发出去就要明明确C.数据据仓库的开发发是一个不断断循环的过程程,是启发式式的开发D.在数据仓库库环境中,并并不存在操作作型环境中所所固定的和较较确切的处理理流,数据仓仓库中数据分分析和处理更更灵活,且没没有固定的模模式关于OLAP的的特性,下面面正确的是: (D)(1)快速性性 (2)可可分析性 (3)多维性性 (4)信信息性 (55)共享性AA.(1) (2) (3)B.(2) (33) (4)C.(1) (2) (3) (4)D.(1) (22) (3) (4) (5)关于OLAP和和OLTP的的区别描述,不正确的是是: (C)A
8、.OLAAP主要是关关于如何理解解聚集的大量量不同的数据据.它与OTTAP应用程程序不同B.与OLAPP应用程序不不同,OLTTP应用程序序包含大量相相对简单的事事务C.OLLAP的特点点在于事务量量大,但事务务内容比较简简单且重复率率高D.OLLAP是以数数据仓库为基基础的,但其其最终数据来来源与OLTTP一样均来来自底层的数数据库系统,两者面对的的用户是相同同的关于OLAP和和OLTP的的说法,下列列不正确的是是: (A)A.OLAAP事务量大大,但事务内内容比较简单单且重复率高高B.OLAAP的最终数数据来源与OOLTP不一一样C.OLLTP面对的的是决策人员员和高层管理理人员D.OOL
9、TP以应应用为核心,是应用驱动动的设X=1,22,3是频频繁项集,则则可由X产生生( C )个关联规规则。A.4 B.5 C.6 D.7 考虑下面的频繁繁3-项集的的集合:11,2,3,1,2,4,1,2,5,1,3,4,1,3,5,2,3,4,2,3,5,3,4,5假定数数据集中只有有5个项,采用 合并并策略,由候选产生生过程得到44-项集不包包含( C )A.1,2,3,4 B.1,2,3,5 C.1,2,44,5 D.1,3,4,5下面选项中t不不是s的子序序列的是 ( C )A.s= t=BB.s= t=C.s= t=D.s= t=在图集合中发现现一组公共子子结构,这样的任务务称为 (
10、 B )A.频繁子集挖挖掘 B.频繁子图挖挖掘 C.频繁数据项项挖掘 D.频繁模式挖挖掘下列度量不具有有反演性的是是 (D)AA.系数 B.几率 C.Cohenn度量 D.兴趣因子下列 ( A )不是将主观观信息加入到到模式发现任任务中的方法法。A.与同一时期期其他数据对对比B.可视化C.基于模板的的方法D.主观兴趣度度量下面购物蓝能够够提取的3-项集的最大大数量是多少少(C)TID项集1牛奶,啤酒,尿尿布2面包,黄油,牛牛奶3牛奶,尿布,饼饼干4面包,黄油,饼饼干5啤酒,饼干,尿尿布6牛奶,尿布,面面包,黄油7面包,黄油,尿尿布8啤酒,尿布9牛奶,尿布,面面包,黄油10啤酒,饼干A.1 B.
11、2 C.3 D.4以下哪些算法是是分类算法 (B)A.DBSCAAN B.C4.5 C.K-MMean D.EMM以下哪些分类方方法可以较好好地避免样本本的不平衡问问题(A)A.KNN B.SVVM C.Baayes D.神经经网络 决策树中不包含含一下哪种结结点 ( C )根结点(rooot nodde)内部结点(innternaal nodde) 外部结点(exxternaal nodde) 叶结点(leaaf nodde)以下哪项关于决决策树的说法法是错误的 (C)A. 冗余属性性不会对决策策树的准确率率造成不利的的影响 B. 子树可能能在决策树中中重复多次 C. 决决策树算法对对于噪声
12、的干干扰非常敏感感 D. 寻找最佳决决策树是NPP完全问题在基于规则分类类器的中,依据规则质质量的某种度度量对规则排排序,保证每一个个测试记录都都是由覆盖它它的“最好的的”规格来分分类,这种方案称称为 (B)A. 基于于类的排序方方案 B. 基于规则则的排序方案案 C. 基于度量的的排序方案 D. 基基于规格的排排序方案。 以下哪些算法是是基于规则的的分类器 (A) A. C4.5 B. KKNN C. Naivve Bayyes D. AANN可用作数据挖掘掘分析中的关关联规则算法法有(C)。A. 决策树、对对数回归、关关联模式 B. K均值法法、SOM神神经网络 C. Apriiori算法
13、法、FP-TTree算法法 D. RBF神神经网络、KK均值法、决决策树如果对属性值的的任一组合,R中都存在在一条规则加加以覆盖,则称规则集集R中的规则则为( B )A.无序规则 B.穷举规则 C.互斥规则 D.有序规则用于分类与回归归应用的主要要算法有: ( D )A.Aprioori算法、HHotSpoot算法 B.RBF神经经网络、K均均值法、决策策树 C.K均值法、SSOM神经网网络 D.决策树、BBP神经网络络、贝叶斯40)如果允许许一条记录触触发多条分类类规则,把每条被触触发规则的后后件看作是对对相应类的一一次投票,然后计票确确定测试记录录的类标号,称为(A) A.无序规则 B.穷
14、举规则 C.互斥规则 D.有序规则41)考虑两队队之间的足球球比赛:队00和队1。假假设65%的的比赛队0胜胜出,剩余的比赛赛队1获胜。队队0获胜的比比赛中只有330%是在队队1的主场,而队1取胜胜的比赛中775%是主场场获胜。如果果下一场比赛赛在队1的主主场进行队11获胜的概率率为 (C) A.0.75 B.0.35 C.0.46778 D.0.5733842)以下关于于人工神经网网络(ANNN)的描述错错误的有 (A)A.神经网络对对训练数据中中的噪声非常常鲁棒 B.可以处理冗冗余特征 C.训练ANNN是一个很耗耗时的过程 D.至少含有一一个隐藏层的的多层神经网网络43)通过聚集集多个分类
15、器器的预测来提提高分类准确确率的技术称称为 (A) A.组合(ennsemblle) B.聚集(agggregaate) C.合并(coombinaation) D.投票(vooting)44)简单地将将数据对象集集划分成不重重叠的子集,使得每个数数据对象恰在在一个子集中中,这种聚类类类型称作( B ) A.层次聚类类 B.划分聚类 C.非互斥聚聚类 D.模糊聚类45)在基本KK均值算法里里,当邻近度函函数采用( A )的时时候,合适的质心心是簇中各点点的中位数。 A.曼哈顿距离 B.平方欧几里德距离 C.余弦距离 D.Bregmman散度 46)( CC )是一个个观测值,它与其他观观测值的
16、差别别如此之大,以至于怀疑疑它是由不同同的机制产生生的。 A.边界点 B.质心 C.离群点 D.核心点47)BIRCHH是一种( B )。 A.分类器 B.聚类算法 C.关联分析算算法 D.特征选择算算法48)检测一一元正态分布布中的离群点点,属于异常检检测中的基于于( A )的的离群点检测测。 A.统计方方法 B.邻近度 C.密度 D.聚类技术499)( C )将两个簇簇的邻近度定定义为不同簇簇的所有点对对的平均逐对对邻近度,它是一种凝凝聚层次聚类类技术。 A.MIN(单单链) B.MAX(全全链) C.组平均 D.Ward方方法50)( DD )将两个个簇的邻近度度定义为两个个簇合并时导导
17、致的平方误误差的增量,它是一种凝凝聚层次聚类类技术。 A.MIN(单单链) B.MAX(全全链) C.组平均 D.Ward方方法51) 下列列算法中,不不属于外推法法的是( BB )。 A.移动平均法法 B.回归分析法法 C.指数平滑法法 D.季节指数法法52) 关联联规则的评价价指标是:( C )。 A. 均方误差差、均方根误误差 B. Kapppa统计、显显著性检验 C. 支持度、置置信度 D. 平均绝对对误差、相对对误差53)关于K均值值和DBSCCAN的比较较,以下说法不不正确的是( A )。 A.K均值丢弃弃被它识别为为噪声的对象象,而DBSCCAN一般聚聚类所有对象象。 BB.K均
18、值使用用簇的基于原原型的概念,而DBSCCAN使用基基于密度的概概念。 C.K均值很难难处理非球形形的簇和不同同大小的簇,DBSCAAN可以处理理不同大小和和不同形状的的簇。 D.K均值可以以发现不是明明显分离的簇簇,即便簇有重重叠也可以发发现,但是DBSSCAN会合合并有重叠的的簇。54)从研究现现状上看,下下面不属于云云计算特点的的是( C )A.超大规模 B.虚拟化化 C.私有化 D.高可可靠性55)考虑这么么一种情况:一个对象碰碰巧与另一个个对象相对接接近,但属于不同同的类,因为这两个个对象一般不不会共享许多多近邻,所以应该选选择( D )的相似度度计算方法。 A.平方欧几里德距离 B
19、.余弦距离 C.直接相似度度 D.共享最近邻邻56) 分析析顾客消费行行业,以便有有针对性的向向其推荐感兴兴趣的服务,属属于( A)问问题。A.关联规则挖挖掘 B.分类与回归归 C.聚类分析 D.时序预测577)以下哪个个聚类算法不不是属于基于于原型的聚类类( D )。 A.模糊C均值 B.EM算法 C.SOM D.CLIQUUE58)关于混混合模型聚类类算法的优缺缺点,下面说法正正确的是( B )。 A.当簇只包含含少量数据点点,或者数据点点近似协线性性时,混合模型也也能很好地处处理。 B.混合模型比比K均值或模模糊c均值更更一般,因为它可以以使用各种类类型的分布。 C.混合模型很难发现不同
20、大小和椭球形状的簇。 D.混合模型在有噪声和离群点时不会存在问题。59)以下哪个聚类算法不属于基于网格的聚类算法( D )。 A.STING B.WaveCluster C.MAFIAA D.BIRCHH60)一个对对象的离群点点得分是该对对象周围密度度的逆。这是是基于( CC )的离群群点定义。 A概率 B邻近度 C密度 D聚类舆情研判,信息息科学侧重( C ),社会和管理理科学侧重突突发群体事件件管理中的群群体心理行为为及舆论控制制研究,新闻传播学学侧重对舆论论的本体进行行规律性的探探索和研究。 A.舆论的本体体进行规律性性的探索和研研究B.舆论控制研研究C.互联网文本本挖掘和分析析技术D
21、.用户行为分分析MapReduuce的Maap函数产生生很多的( C )A.key BB.valuue C. D.HashhMapreduuce适用于于 ( DD )A.任意应用程程序 B. 任意可在在windoows seervet22008上运运行的程序C.可以串行处处理的应用程程序 D. 可以并行行处理的应用用程序PageRannk是一个函函数,它对Webb中的每个网网页赋予一个个实数值。它它的意图在于于网页的PaageRannk越高,那么它就( D )。 A.相关性越高高 B.越不重要 C.相关性越低低 D.越重要A.一对一 B.一对多 C. 多对多 D. 多对一协同过滤分析用用户兴趣
22、,在用户群中中找到指定用用户的相似(兴趣)用户户,综合这些用用户对某一信信息的评价,形成系统对对该指定用户户对此信息的的喜好程度( D ),并将这些用用户喜欢的项项推荐给有相相似兴趣的用用户。A. 相似 B.相相同 C.推荐 D. 预测大数据指的是所所涉及的资料料量规模巨大大到无法透过过目前主流软软件工具,在合理时间间内达到撷取取、管理、处处理、并( B )成成为帮助企业业经营决策更更积极目的的的信息。A.收集 B.整理 C.规划 D.聚集大数据科学关注注大数据网络络发展和运营营过程中( D )大大数据的规律律及其与自然然和社会活动动之间的关系系。A.大数据网络络发展和运营营过程 B.规划建设
23、设运营管理C.规律和验证证D.发现和验验证大数据的价值是是通过数据共共享、( D )后后获取最大的的数据价值A.算法共享 B.共享应用用 C. 数据交换换 D. 交叉复用社交网络产生了了海量用户以以及实时和完完整的数据,同时社交网网络也记录了了用户群体的的( CC ),通过深入挖挖掘这些数据据来了解用户户,然后将这些些分析后的数数据信息推给给需要的品牌牌商家或是微微博营销公司司。A.地址 B.行为 C.情绪 D.来源 通过数据收集和和展示数据背背后的( D ),运用丰富的的、具有互动动性的可视化化手段,数据新闻学学成为新闻学学作为一门新新的分支进入入主流媒体,即用数据报报道新闻。A.数据收集
24、B.数据挖掘 C.真相 D. 关联与与模式CRISP-DDM 模型中中Evaluuationn表示对建立立的模型进行行评估,重点具体考考虑得出的结结果是否符合合( CC )的的商业目的。A.第二步 B.第三步C.第一步 D.最后一步步发现关联规则的的算法通常要要经过以下三三个步骤:连连接数据,作数据准备备;给定最小小支持度和( D ),利用数据挖挖掘工具提供供的算法发现现关联规则;可视化显示示、理解、评评估关联规则则A. 最小兴趣趣度 B. 最小置置信度C. 最大支持持度D. 最小小可信度规则I-j,“有可能”,等于所有包包含I的购物物篮中同时包包含J的购物物篮的比例,为( B )。A. 置信
25、度 B.可信度 C. 兴趣度 D. 支持度度如果一个匹配中中,任何一个节节点都不同时时是两条或多多条边的端点点,也称作( C )A. 极大匹配配 B.二分匹配配 C完美匹配 D.极小匹配配只要具有适当的的政策推动,大数据的使使用将成为未未来提高竞争争力、生产力力、创新能力力以及( D )的的关键要素。A.提高消费 B.提高GDDP C.提高生活水水平 D. 创造消消费者盈余个性化推荐系统统是建立在海海量数据挖掘掘基础上的一一种高级商务务智能平台,以帮助( D )为其其顾客购物提提供完全个性性化的决策支支持和信息服服务。 A.公司 B.各单位 C.跨国企业 D. 电子商商务网站云计算是对( D
26、)技技术的发展与与运用A.并行计算 B.网格计算 C.分布式计算算 D.三个选项都都是( B )是是Googlle提出的用用于处理海量量数据的并行行编程模式和和大规模数据据集的并行运运算的软件架架构。A.GFS B.MapReeduce C.Chubbby D.BitTaable在Bigtabble中,( A )主要要用来存储子子表数据以及及一些日志文文件A. GFS B. Chhubby C.SSTabble D.MaapReduuce二、判断题(共共40题)分类是预测数据据对象的离散散类别,预测是用于于数据对象的的连续取值。 (对)时序预测回归预预测一样,也也是用已知的的数据预测未未来的值
27、,但但这些数据的的区别是变量量所处时间的的不同。(错)数据挖掘的主要要任务是从数数据中发现潜潜在的规则,从而能更好好的完成描述述数据、预测测数据等任务务。 (对)对遗漏数据的处处理方法主要要有:忽略该该条记录;手手工填补遗漏漏值;利用默默认值填补遗遗漏值;利用用均值填补遗遗漏值;利用用同类别均值值填补遗漏值值;利用最可可能的值填充充遗漏值。(对)神经网络对噪音音数据具有高高承受能力,并能对未经经过训练的数数据具有分类类能力,但其需要很很长的训练时时间,因而对于有有足够长训练练时间的应用用更合适。(对)数据分类由两步步过程组成:第一步,建立一个聚类类模型,描述指定的的数据类集或或概念集;第第二步
28、,使用模型进进行分类。(错)聚类是指将物理理或抽象对象象的集合分组组成为由类似似的对象组成成的多个类的的过程。 (对)决策树方法通常常用于关联规规则挖掘。 (错)数据规范化指将将数据按比例例缩放(如更更换大单位),使之落入入一个特定的的区域(如00-1)以提高高数据挖掘效效率的方法。规规范化的常用用方法有:最最大-最小规范化化、零-均值规范化化、小数定标标规范化。(对)原始业务数据来来自多个数据据库或数据仓仓库,它们的的结构和规则则可能是不同同的,这将导导致原始数据据非常的杂乱乱、不可用,即即使在同一个个数据库中,也也可能存在重重复的和不完完整的数据信信息,为了使使这些数据能能够符合数据据挖掘
29、的要求求,提高效率率和得到清晰晰的结果,必必须进行数据据的预处理。(对)数据取样时,除除了要求抽样样时严把质量量关外,还要要求抽样数据据必须在足够够范围内有代代表性。(对对)分类规则的挖掘掘方法通常有有:决策树法法、贝叶斯法法、人工神经经网络法、粗粗糙集法和遗遗传算法。(对)可信度是对关联联规则的准确确度的衡量。 (错)孤立点在数据挖挖掘时总是被被视为异常、无无用数据而丢丢弃。 (错)Apriorii算法是一种种典型的关联联规则挖掘算算法。 (对)用于分类的离散散化方法之间间的根本区别别在于是否使使用类信息。(对)特征提取技术并并不依赖于特特定的领域。(错)模型的具体化就就是预测公式式,公式可
30、以以产生与观察察值有相似结结构的输出,这这就是预测值值。(对)文本挖掘又称信信息检索,是从大量文文本数据中提提取以前未知知的、有用的的、可理解的的、可操作的的知识的过程程。 (错)定量属性可以是是整数值或者者是连续值。(对)可视化技术对于于分析的数据据类型通常不不是专用性的的。(错)OLAP技术侧侧重于把数据据库中的数据据进行分析、转转换成辅助决决策信息,是继数据库库技术发展之之后迅猛发展展起来的一种种新技术。 (对)Web数据挖掘掘是通过数据据库仲的一些些属性来预测测另一个属性性,它在验证用用户提出的假假设过程中提提取信息。 (错错)关联规则挖掘过过程是发现满满足最小支持持度的所有项项集代表
31、的规规则。 (错)利用先验原理可可以帮助减少少频繁项集产产生时需要探探查的候选项项个数。 (对)先验原理可以表表述为:如果果一个项集是是频繁的,那包含它的的所有项集也也是频繁的。(错错)回归分析通常用用于挖掘关联联规则。(错)具有较高的支持持度的项集具具有较高的置置信度。(错错)维归约可以去掉掉不重要的属属性,减少数数据立方体的的维数,从而而减少数据挖挖掘处理的数数据量,提高高挖掘效率。(对)聚类(clussterinng)是这样样的过程:它它找出描述并并区分数据类类或概念的模模型(或函数数),以便能够使使用模型预测测类标记未知知的对象类。 (错)对于SVM分类类算法,待分样本集集中的大部分分
32、样本不是支支持向量,移去或者减减少这些样本本对分类结果果没有影响。 (对)Bayes法是是一种在已知知后验概率与与类条件概率率的情况下的的模式分类方方法,待分样本的的分类结果取取决于各类域域中样本的全全体。 (错)在决策树中,随随着树中结点点数变得太大大,即使模型的的训练误差还还在继续减低低,但是检验误误差开始增大大,这是出现了了模型拟合不不足的问题。 (错)在聚类分析当中中,簇内的相似似性越大,簇间的差别别越大,聚类的效果果就越差。(错错)聚类分析可以看看作是一种非非监督的分类类。(对)K均值是一种产产生划分聚类类的基于密度度的聚类算法法,簇的个数由由算法自动地地确定。(错错基于邻近度的离离
33、群点检测方方法不能处理理具有不同密密度区域的数数据集。(对对)如果一个对象不不强属于任何何簇,那么该对象象是基于聚类类的离群点。(对对)大数据的4V特特点是Volumme、Vellocityy、Variiety、VVeraciity。(对对)聚类分析的相异异度矩阵是用用于存储所有有对象两两之之间相异度的的矩阵,为一一个nn维的的单模矩阵。(对)三、多选题(共共30题)噪声数据的产生生原因主要有有:(ABCCD)数据采集设备有有问题在数据录入过程程中发生了人人为或计算机机错误数据传输过程中中发生错误由于命名规则或或数据代码不不同而引起的的不一致寻找数据集中的的关系是为了了寻找精确、方方便并且有价
34、价值地总结出出数据的某一一特征的表示示,这个过程包包括了以下哪哪些步骤? (A B C D)A.选择一个算算法过程使评评分函数最优优B.决定如如何量化和比比较不同表示示拟合数据的的好坏C.决定要使使用的表示的的特征和结构构D.决定用什什么样的数据据管理原则以以高效地实现现算法数据挖掘的预测测建模任务主主要包括哪几几大类问题? (A BB)A. 分类 B. 回归 C. 聚类 D. 关联规则则挖掘4) 下列属于于不同的有序序数据的有:(A B C D)A.时序数据 B.序列数据 C.时间序列数数据D.事务数据E.空间数据 5) 下面属于于数据集的一一般特性的有有:( B C D)AA.连续性B.维
35、度 C.稀疏性D.分辨率E.相异性6)下面属于维维归约常用的的处理技术的有有: (A C)A.主成分分析析B.特征提取 C.奇异值分解解D.特征加权E.离散化噪声数据处理的的方法主要有有:( ABBD )A.分箱 B.聚类C.关联分析 D.回归数据挖掘的主要要功能包括概概念描述、趋趋势分析、孤孤立点分析及及( ABBCD )等方面。A.挖掘频繁模模式 B.分类和预测测 C.聚类分析 D.偏差分析以下各项均是针针对数据仓库库的不同说法法,你认为正确确的有(BCCD )。 A数据据仓库就是数数据库 B数据据仓库是一切切商业智能系系统的基础 C数据据仓库是面向向业务的,支持联机事事务处理(OOLTP
36、) D数据据仓库支持决决策而非事务务处理10)联机分析析处理包括( BCDD )基本本分析功能。A.聚类 B.切切片 C.转轴 D.切块块11)利用Appriorii算法计算频频繁项集可以以有效降低计计算频繁集的的时间复杂度度。在以下的的购物篮中产产生支持度不不小于3的候候选3-项集集,在候选2-项集中需要要剪枝的是( BD )TID项集1面包、牛奶2面包、尿布、啤啤酒、鸡蛋3牛奶、尿布、啤啤酒、可乐4面包、牛奶、尿尿布、啤酒5面包、牛奶、尿尿布、可乐A.啤酒、尿布布 B.啤酒、面包包C.面包、尿布布 D.啤酒、牛奶奶12)下表是一一个购物篮,假定支持度度阈值为400%,其中( AAD )是频
37、繁闭项项集。ID项集1面包、牛奶、尿尿布2面包、牛奶、尿尿布、啤酒3牛奶、尿布、鸡鸡蛋4面包、尿布、啤啤酒、鸡蛋5啤酒、鸡蛋A.面包、牛奶奶、尿布 B.面包、啤酒C.尿布、啤酒 D.啤酒、鸡蛋13)Apriiori算法法的计算复杂杂度受( ABCD )影响。A.支持度阀值值 B.项数(维度度)C.事务数 DD.事务平均宽宽度14)以下关于于非频繁模式式说法,正确的是( AD )A.其支持度小小于阈值 B.都是不让人人感兴趣的C.包含负模式式和负相关模模式 D.对异常数据据项敏感15)以下属于于分类器评价价或比较尺度度的有: ( ACDD )A.预测准确度度 B.召回率C.模型描述的的简洁度 D.计算复杂度度16)贝叶斯信信念网络(BBBN)有如如下哪些特点点。 (AB)A.构造网络费费时费力 B.对模型的过过分问题非常常鲁棒 C.贝叶斯网络络不适合处理理不完整的数数据 D.网络结构确确定后,添加变量相相当麻烦17)如下哪些些不是最近邻邻分类器的特特点。 (C)A.它使用具体体的训练实例例进行预测,不必维护源源自数据的模模型 B.分类一个测测试样例开销销很大 C.最近邻分类类器基于全局局信息进行预预测 D.可以生产任任意形状的决决策边界18)以下属于于聚类算法的的是( ABB )。 A.K-Meanns B.DBSCAAN C.Aprioori
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 审计实务中的选题技巧及答案
- 2025年建造师考试方式探讨试题及答案
- 掌握建设法规一级建造师试题及答案
- 2024高级会计考前模拟试题及答案
- 一级建造师竞争策略试题及答案详解
- 中级会计与初级审计的常见交叉考点试题及答案
- 无人机驾驶员考试介绍与试题及答案
- 安全生产管理外语知识的试题及答案
- 无人机驾驶员执照考试的法规理解试题及答案
- 2024年审计师考试考生分享试题及答案
- 人教版数学三年级(下册)面积 练习十三
- 孕妇学校活动策划方案
- GB/T 43824-2024村镇供水工程技术规范
- 雪铁龙DS 5LS说明书
- (2024版)小学六年级数学考试新题型与答题技巧解析
- 足球公园计划书
- 教育行业选址分析
- 2024年安徽国元农业保险滁州中心支公司招聘笔试参考题库含答案解析
- 2024年高等教育经济类自考-00100国际运输与保险笔试历年真题荟萃含答案
- 玻璃清洁机器人的研发-吸附机构设计
- 类风湿性关节炎的早期迹象与治疗方式
评论
0/150
提交评论