《大数据挖掘技术》易考易错高频考试题库（含答案）

上传人：缘*** IP属地：河北上传时间：2026-02-27 格式：PDF 页数：81 大小：12.68MB 积分：12 举报 版权申诉

已阅读5页，还剩76页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

(新版)《大数据挖掘技术》易考易错高频考试题库(含答案)

单选题

1.()是一种松散耦合的服务和应用之间标准的集成方式。

A^E.SB；

B、D.M

C、ODS

D、E.TL

参考答案：A

2.()是在贝叶斯算法的基础上进行了相应的简化，即假定给定

目标值时属性之间相互条件独立

A、贝叶斯定理

B、贝叶斯统计

C、朴素贝叶斯方法

D、贝叶斯分类器

参考答案：C

3.《数据安全法》发布执行时间()0

A、2021年9月1日；

B、2021年10月1日；

C、2021年11月1日

D、2021年12月1日

1st

参考答案：A

4.bootstrap数据是什么意思？()

A、有放回地从总共M个特征中抽样m个特征

B、无放回地从总共M个特征中抽样m个特征

C、有放回地从总共N个样本中抽样n个样本

D、无放回地从总共N个样本中抽样n个样本

参考答案：C

5.eSRVCC方案相对于SRVCC方案的增强在于减少了切换时长，6

SRVCC切换时长小于()

A、20ms

B、40ms

C、160ms

D、300ms

参考答案：D

6.Hbase是哪种数据库？

A、关系型数据库

B、Nosql数据库

C、网状数据库

D、层次数据库

参考答案：B

7.IP地址127.0.0.1表示什么

A、本地broadcast

2nd

B、直接multicast

C、本地network

D、本地loopback

参考答案：A

8.ISIS和OSPF路由协议的的相同点不包括

A、距离矢量协议

B、链路状态协议

C、建立邻居关系

D、运行SPF算法

参考答案：A

9.k均值聚类的目标是()o

A、最大化质心距离

B、最小化簇内距离的平方和

C、最大化簇间距离

D、簇的大小基本一致

参考答案：B

10.MME和HSS之间是什么接口()

A、SGs

B、S1-MME

C、Sgi

D、S6a

参考答案：D

3rd

1L0LAM技术一般简称为"数据联机分析挖掘”，下面说法正确

的是：

A、OLAP和OLAM都基于客户机/服务器模式，只有后者有与月户

的交互性；

B、由于OLAM的立方体和用于OLAP的立方体有本质的区别.

C、基于WEB的OLAM是WEB技术与OLAM技术的结合.

D、OLAM服务器通过用户图形借口接收用户的分析指令，在元数

据的知道下，对超级立方体作一定的操作.

参考答案：D

12.OLAP的基本操作不包括()o

A、上钻

B、下钻

C、切片

D、平移

参考答案：D

13.OnRetDW系统建模采用的是()。

A、星形模型

B、雪花模型

C、事实星座模型

D、关系数据库模型

参考答案：A

14.Python在调用efficient-apriori包中的apriori函数进行

4th

挖掘关联规则时，第二个返回值是OO

A、最小置信度

B、最小支持度

C、关联规则

D、频繁项集

参考答案：C

15.Python中Pandas的Series对象中查看数据集中有多少个观

察值，采用哪个命令

A、head

B、info

C、shape

D、columns

参考答案：B

16.sklearn库中提供()实现KNN算法

A、k-NearerNeighborClassificr

B、KNeighborsClassifier

C、KNeighborClassifier

D、k-NearestNeighborsClassifier

参考答案：B

17.TAU请求次数为统计一定的时间粒度及网元粒度下，Procedu

reType为()的S1-MME接口XDR的个数

A、2

5th

B、3

C、4

D、5

参考答案：D

18.TCP/IP协议按照从底层到高层的顺序，除了应用层之外，每

一层都有与其相对应的PDU（ProtocolDataUnit,协议数据单元）,

依次为（）

A、Bit、Segment、Packet、Frame

B、Bit、Frame、Packet、Segment

C、Packet>Bit>Frame、Segment

D、Bit>Packet、Frame>Segment

参考答案：B

19.Zookeeper是

A、集群协调服务

B、分布式应用

C、AB都不对

D、AB都对

参考答案：D

20.Zookeeper是Hadoop和（）的重要组件

A、Hive

B、HBASE

C、MapReduce

6th

D、HDFS

参考答案：B

21.把多维空间划分成组属于数据挖掘的哪一类任务

A、探索性数据分圻

B、建模描述

C、预测建模

D、寻找模式和规则

参考答案：B

22.大数据背景下，数据支撑业务的目的是()

A、建立数据科学

B、完成数据应用

C、配备数据硬件

D、吸纳数据人才

参考答案：B

23.当不知道数据所带标签时，可以使用哪种技术促使带同类标

签的数据与带其他标签的数据相分离？()

A、分类

B、聚类

C、关联分析

D、隐马尔可夫链

参考答案：B

24.当你输入hadoopfsck/造成uconnectionrefusedjavaexcept

7th

ion'''时，系统究竟发生了什么？

A、datanode出现故障

B、resoucemanger出现故障

C、nodemanger出现故障

D、Namenode出现故障

参考答案：D

25.当时间序列数据点的一阶差分近似为一常数，可配合以下哪

种预测模型()

A、直线

B、二次抛物线

C、三次抛物线

D、指数曲线

参考答案：A

26.东北人养了一只鸡和一头猪。一天鸡问猪："主人呢？"猪说：”

出去买蘑菇了。”鸡听了撒丫子就跑。猪说："你跑什么？"鸡叫道:

“有本事主人买粉条的时候你小子别跑！”以上对话体现了数据分

析方法中的()

A、关联

B、聚类

C、分类

D、自然语言处理

参考答案：A

8th

27.对于DBSCAN,参数Eps固定，当MinPts取值较大时，会导

致()

A、能很好的区分各类簇

B、只有高密度的点的聚集区划为簇，其余划为噪声

C、低密度的点的聚集区划为簇，其余的划为噪声

D、无影响

参考答案：B

28.对于开通4G业务的用户，如果需要使用VoLTE业务，是否需

要更换手机卡，是否需要更换VoLTE终端？

A、不需要更换手矶卡，需要使用VoLTE终端

B、不需要更换手矶卡，不需要使用VoLTE终端

C、需要更换手机卡，需要使用VoLTE终端

D、需要更换手机卡，不需要使用VoLTE终端

参考答案：A

29.对于任一个频繁项集X和它的一个非空真子集Y,S=X-Y,规

则S-Y成立的条件是()o

A、confidence(_*S)^minconf

B、confidence(-*Y)<ininconf

C、confidence—S)<minconf

D、confidence(S->Y)^minconf

参考答案：D

30.个人信息的收集、处理和利用应当遵循()的原则，不得违

9th

反法律、法规的规定和双方的约定收集、处理和利用个人信息。

()

A、正规、合法、必要

B、合法、正当、必要

C、合法、合规、上当

D、合法、合理、合规

参考答案：B

31.给定df是一个DataFrame对象，对df所有字段进行描述性

统计，可以利用的方法为()O

A、df.mean()

B、df.statistics()

C、df.summary()

D、df.describe()

参考答案：D

32.根据聚类形成的簇的特点，如果有交集的簇之间必然存在包

含关系，这种聚类称为()O

A、重叠聚类

B、层次型聚类

C、划分型聚类

D、以上均不是

参考答案：B

33.关于K均值和DBSCAN的比较，以下说法不正确的是()。

10th

A、K均值丢弃被它识别为噪声的对象，而DBSCAN一般聚类所有

对象。

B、K均值使用簇的基于原型的概念，而DBSCAN使用基于密度的

概念。

C、K均值很难处理非球形的簇和不同大小的簇，DBSCAN可以处

理不同大小和不同形状的簇。

D、K均值可以发现不是明显分离的簇，即便簇有重叠也可以发

现，但是DBSCAN会合并有重叠的簇。

参考答案：A

34.关于OLAP和OLTP的说法，下列不正确的是：

A、OLAP事务量大，但事务内容比较简单且重复率高.

B、OLAP的最终数据来源与OLTP不一样.

C、OLTP面对的是决策人员和高层管理人员.

D、OLTP以应用为核心，是应用驱动的.

参考答案：A

35.关于python说法错误的是()

A、python字典中的“健”可以是元组

B、python集合中元素不允许重复

C、python字典中的“值”不允许重复

D、python集合中的元素可以是列表

参考答案：D

36.关于Python字符串下列说法错误的是()

11th

A、字符应该视为长度为1的字符串

B、字符串以\0标志字符串的结束

C、既可以用单引号，也可以使用双引号创建字符串

D、在三引号字符串中可以包含换行回主等特殊字符

参考答案：B

37.关于性能度量不正确的是()

A、性能度量是衡量模型泛化能力的评价标准，反映了任务需求

B、在对比不同模型的能力时，使用不同的性能度量会导致不同

的评判结果，这就意味着模型的“好坏”是相对的

C、回归任务最常用的性能度量是“均方误差”

D、性能度量实用意义不大

参考答案：D

38.假设检验中，拒绝域的边界称为()

A、临界值

B、临界点

C、置信水平

D、边际值

参考答案：A

39.将原始数据进行集成、变换、维度规约、数据规约是在以下

哪个步骤的任务()

A、频繁模式挖掘

B、分类和预测

12th

C、数据预处理

D、数据流挖掘

参考答案：C

40.决策树分类方法中，ID3算法使用的分裂准则是：()

A、信息增益

B、增益比率

C、基尼指数

D、分类错误率

参考答案：A

41.考虑下面的频繁3-项集的集合：{1,2,3},{1,2,4},{1,

2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,

5}假定数据集中只有5个项，采用合并策略，由候选产生过程得

到4-项集不包含()

A、1,2,3,4

B、1,2,3,5

C、1,2,4,5

D、1,3,4,5

参考答案：C

42.考虑这么一种情况：一个对象碰巧与另一个对象相对接近，

但属于不同的类，因为这两个对象一般不会共享许多近邻，所以

应该选择()的相似度计算方法。

A、平方欧几里德走离

13th

B、余弦距离

C、直接相似度

D、共享最近邻

参考答案：D

43.考虑值集{12243324556826},其四分位数极差是：

A、31

B、24

C、55

D、3

参考答案：A

44.可以对按季度汇总的销售数据进行O,来观察按月汇总的

数据。

A、上卷

B、下钻

C、切片

D、切块

参考答案：B

45.模型把数据学习的太彻底，以至于把噪声数据的特征也学习

到了，这样就会导致在后期测试的时候不能够很好地识别数据，

模型泛化能力太差，这是()的原因

A、欠拟合

B、泛化误差

14th

C、过拟合

D、经验误差

参考答案：C

46.某超市研究销售纪录数据后发现，买啤酒的人很大概率也会

购买尿布，这种属于数据挖掘的哪类问题？（）

A、关联规则发现

B、聚类

C、分类

D、自然语言处理

参考答案：A

47.某项目预计运行5年后的净现值为4500万元，如折现率为1

6%,其终值应为（）万元（说明：结果保留两位小数）

A、8045.86

B、6996.21

C、9451.54

D、7000.02

参考答案：C

48.某牙膏厂原来生产两面针药物牙膏，现在又增加牙刷生产，

这属于（）

A、同心多元化

B、水平多元化

C、集团多元化

15th

D、相关多元化

参考答案：B

49.能够完全匹配字符串“back”和“back-end”的正则表达式

包括()

A、r<4\w{4}-\w{3}|\w{4}”

B、r“\w⑷|\w⑷-\w⑶”

C、r“\S土\S+|\S+”

D、r"\w*\b-\b\w*|\w*"

参考答案：B

50.频繁项集、频繁闭项集、最大频繁项集之间的关系是：()

A、频繁项集频繁闭项集二最大频繁项集

B、频繁项集二频繁闭项集最大频繁项集

C、频繁项集频繁闭项集最大频繁项集

D、频繁项集二频繁闭项集=最大频繁项集

参考答案：C

5L苹果的FacelD基于3D结构光技术，硬件上不需要()

A、点发射器

B、红外发射器

C、红外摄像头

D、数据线

参考答案：D

52.朴素贝叶斯算法是一种()数据挖掘算法。

16th

A、关联分析

B、预测

C、分类

D、聚类

参考答案：C

53.人工智能的目的是让机器能够()

A、具有完全的智能

B、完全和人脑一洋考虑问题

C、完全替代人

D、模拟、延伸和疔展人的智能

参考答案：D

54.嫡是为消除不确定性所需要获得的信息量，投掷均匀正六面

体骰子的病是：O

A、1

B、2.6

C、3.2

D、3.8

参考答案：B

55.使用交互式的和可视化的技术，对数据进行探索属于数据挖

掘的哪一类任务？

A、探索性数据分析

B、建模描述

17th

C、预测建模

D、寻找模式和规则

参考答案：A

56.视频业务流程可以分为播放准备阶段和播放阶段，其中属于

播放阶段KQI指标有()

A、停顿次数

B、视频播放等待时长

C、初始缓冲成功率

D、初始缓冲时长

参考答案：A

57.数据挖掘技术包括三个主要的部分()

A、数据、模型、技术

B、算法、技术、领域知识

C、数据、建模能力、算法与技术

D、建模能力、算法与技术、领域知识

参考答案：C

58.数据中心侧的数据流转方式未为()

A、D.XP；

B、E.SP

C、OGG

D、E.TL

参考答案：D

18th

59.通过代码"fromsklearn.clusterimportKMeans”引入Kmean

s模块,生成模型对象akmeans=KMeans(_clusters=2)”后,

对于数据X训练时要调用的方法是()O

A、kmaens.fit()

B、kmeans.fit()

C、kmaens.train()

D、kmeans.train()

参考答案：B

60.为支撑市场营销，除下述哪个用户终端特征识别外，均能用

于提高批开用户的VOLTE转化成功率

Z软件版本

B、软开关状态识别

C、VoLTE版本

D、芯片版本

参考答案：D

61.无线网性能劣化可能导致以下哪个指标出现问题？()

A、小区RTT下行时延

B、TCP一二次握手时延

C、服务器侧下行RTT

D、小区RTT上行时延

参考答案：A

62.下列不是智能的特征的是()

19th

A、具有储存空间

B、具有学习能力

C、具有记忆与思维的能力

D、具有自适应能力

参考答案：A

63.下列不属于分类方法的是()

A、决策树算法

B、贝叶斯算法

C、人工神经网络

D、K均值算法

参考答案：D

64.下列代码实现()功能X=list(range(20)Forindex,v

alueinenumerate(x)：ifvalue==3：x[index]=5

A、判断列表x中是否含3、5

B、输出列表中3、5

C、将列表x中值为3的元素修改为5

D、将列表x中任意3个值修改为5

参考答案：C

65.下列哪个描述是正确的？()

A、分类和聚类都是有监督的学习

B、分类和聚类都是无监督的学习

C、分类是有监督的学习，聚类是无监督的学习

20th

D、分类是无监督的学习，聚类是有监督的学习

参考答案：C

66.下列哪个协议可提供“ping”和“traceroute”这样的故障

诊断功能

A、ICMP

B、IGMP

C、ARP

D、RARP

参考答案：A

67.下列哪项不是物联网端到端业务质量关键性能指标()

A、业务传输速率

B、TCP重传率

C、TCP乱序率

D、http首包响应时延

参考答案：D

68,下列哪些数据不可以直接作为网络结构评估的数据源()

A、仿真栅格电平预测值

B、ATU数据

C、MR数据

D、话统

参考答案：D

69.下列哪种()算法不能从现有数据口挖掘类似群体

21st

A、指数平滑法

B、K-means算法

C、K-medoids算法

D、CLARANS算法

参考答案：A

70.下列请求报头中，可以记载用户信息实现模拟登录的是()o

A、User-Agent

B、Cookie

C、Connection

D、Host

参考答案：A

71.下列属于间接数据挖掘的是()

A、分类

B、估值

C、聚集

D、预言

参考答案：C

72.下面关于Jarvis—Patrick(JP)聚类算法的说法不正确的

是()。

A、JP聚类擅长处理噪声和离群点，并且能够处理不同大小、形

状和密度的簇。

B、JP算法对高维数据效果良好，尤其擅长发现强相关对象的紧

22nd

致簇。

C、JP聚类是基于SNN相似度的概念。

D、JP聚类的基本时间复杂度为0(m)。

参考答案：D

73.下面关于time库引用不正确的是()

A、from*importtime

B、importtime

C、fromtimeimport*

D、fromtimeimportstrftime

参考答案：A

74.下面关于构建模型树的说法中，错误的是()o

A、如果当前结点t所关联的数据集Dt中样本个数小于给定阈值

或者Dt中样本的目标属性取值的标准差小于给定阈值，则将该

结点标记为叶子节点

B、创建一个结点t,与结点t关联的数据集记为Dt

C、在选择分类属性时，应选择时SDR值最小的属性

D、SDR代表误差的期望减少

参考答案：C

75.下面关于数据粒度的描述不正确的是：

A、粒度是指数据仓库小数据单元的详细程度和级别；

B、数据越详细，粒度就越小，级别也就越高；

C、数据综合度越高，粒度也就越大，级别也就越高；

23rd

D、粒度的具体划分将直接影响数据仓库中的数据量以及查询质

量.

参考答案：C

76.下面哪个Python库不能用于提取网页信息?

A、BeautifulSoup

B、Ixml

C、requests

D、re

参考答案：C

77.下面哪项是集中性能管理面向终端专题()

A、2/3G高流量小区迁移

B、终端在网质量评估分析

C、客户投诉溯源分析

D、网络实时性能监控

参考答案：D

78.下面选项中t不是s的子序列的是()

A、S=<{2,4},：3,5,6},{8}>t=<{2},{3,6},{8}>

B、S=V{2,4},・：3,5,6},{8}>t=<{2},{8}>

C、S=<{1,2},：3,4}>t=<{l},{2}>

D、S=<{2,4},24}>t=<{2},{4}>

参考答案：C

79.下述哪个参数用于UE从GSM/UMTS网络重选到LTE网络过程

24th

中的位置更新请求

A、GUTI

B、OldGUTI

C、PTMSI/RAI

D、OldPTMSI/RAI

参考答案：A

80.先按课程号升序排列，再按成绩降序排列检索出选课表中的

所有信息，下面SQL语句正确的是()o

A、SELECT*FROM选课表ORDERBY课程号,成绩；

B、SELECT*FROM选课表GROUPBY课程号，成绩；

C、SELECT*FROM选课表ORDERBY课程号，成绩DESC；

D、SELECT*FROM选课表ORDERBY课程号DESC,成绩；

参考答案：C

81.向量x=[l,2,3,4,5,0]的L1范数是多少

A、5

B、15

C、6

D、55

参考答案：B

82.要求满足连接条件的记录，以及连接条件左侧表中的记录都

包含在结果中，应使用()。

A、左连接

25th

B、右连接

C、内部连接

D、完全连接

参考答案：A

83.一个对象的离群点得分是该对象周围密度的逆。这是基于()

的离群点定义。

A、概率

B、邻近度

C、密度

D、聚类

参考答案：C

84.一所大学内的各年纪人数分别为：一年级200人,二年级160

人，三年级130人，四年级110人。则年级属性的众数是：

A、一年级

B、二年级

C、三年级

D、四年级

参考答案：A

85.已知:D={123：'Tom','age'：18,'score'：[91,92,93]}Pr

int(d[123][1],d[*age'],d[rscore1][-1])输出的结果是：

A、T,18,91

B、o,18,91

26th

C、T,18,92

D、o,18,93

参考答案：D

86.已知x=[l,2,3],执行语句x.append(4)之后，x的值是

()

A、[1,2,3,4]

B、[4]

C、[1,2,3]

D、4

参考答案：A

87.以下()不是影响聚类算法结果的主要因素。

A、已知类别的样本的质量

B、聚类结束条件

C、描述属性的选取

D、对象的相似性度量

参考答案：A

88.以下关于大数据应用说法错误的是()。

A、大数据起源互联网，目前处于成熟期；

B、目前金融、电信、零售、公共服务等领域在积极的探索和应

用大数据；

C、互联网是大数据的发源地；

D、互联网上形成了多种相对成熟的应月模式。

27th

参考答案：A

89.以下关于列表操作的描述，错误的是：

A、通过append方法可以向列表添加元素

B、通过extend方法可以将另一个列表中的元素逐一添加到列表

中

C、通过insert(index,object)方法在指定位置index前插

入元素object

D、通过add方法可以向列表添加元素

参考答案：D

90.以下关于人工神经网络(ANN)的描述错误的有()

A、神经网络对训练数据中的噪声非常鲁棒

B、可以处理冗余特征

C、训练ANN是一个很耗时的过程

D、至少含有一个隐藏层的多层神经网络

参考答案：A

91.以下哪个指标不是手机上网感知指标

A、TCP一二次握手时延

B、TCP二三次握手时延

C、ARPU

D、ERAB建立成功率

参考答案：C

92.以下哪项关于决策树的说法是错误的()

28th

A、冗余属性不会对决策树的准确率造成不利的影响

B、子树可能在决策树中重复多次

C、决策树算法对于噪声的干扰非常敏感

D、寻找最佳决策树是

参考答案：C

93.以下哪项关于决策树的说法是错误的()

A、冗余属性不会对决策树的准确率造成不利的影响

B、子树可能在决策树中重复多次

C、决策树算法对于噪声的干扰非常敏感

D、寻找最佳决策树是NP完全问题

参考答案：C

94.用户使用小包传输的数据业务时，哪项指标对用户感知的影

响较明显？

A、首包时延

B、响应成功率

C、下载速率

D、登陆成功率

参考答案：A

95.用户有一种感兴趣的模式并且希望在数据集中找到相似的模

式，属于数据挖掘哪一类任务O

A、根据内容检索

B、建模描述

29th

C、预测建模

D、寻找模式和规则

参考答案：A

96.用于分类与回归应用的主要算法有（）o

A、RBF神经网络、K均值法、决策树

B、Apriori算法、HotSpot算法

C、K均值法、S0M神经网络

D、决策树、BP神经网络、贝叶斯

参考答案：D

97.用于将Python程序打包成可执行文件的工具是（）

A、Panda3D

B、cocos2d

C、pip

D、Pylnstaller

参考答案：D

98.有产品表，其结构为：产品（产品号，名称，规格说明，单价），

查询单价在600元以上主机板和硬盘的正确命令是（）o

A、SELECT*FROM产品WHERE单价>600AND（名称二'主机板'AND名

称二'硬盘,）;

B、SELECI*FROM产品WHERE单价>600AND（名称二'主机板'OR名

称二'硬盘,）;

C、SELECT*FROM产品0N单价〉600AND（名称二'主机板'AND名称二

30th

‘硬盘’);

D、SELECT*FROM产品ON单价＞600AND(名称二'主机板'OR名称二

‘硬盘');

参考答案：B

99.有关OnRetDw系统的叙述中正确的是()

A、OnRetDW系统是一个实现在线交易的系统

B、OnRetDW系统是一个可以完成任意商品信息分析的系统

C、OnRetDW系统是一个面向特定主题的数据仓库系统

D、以上都不对

参考答案：C

100.有关朴素贝叶斯分类算法的叙述中正确的是()

A、朴素贝叶斯分类算法是一种精确的分类算法

B、采用朴素贝叶斯分类算法将一个样本分到某个类别中，表示

它100%属于该类别

C、朴素贝叶斯分类算法是一种基于概宓的分类算法

D、以上都不对

参考答案：C

101.运行以下代石马”importmatplotlib.pyplotasplt”引入pit

后，要绘制饼状图，需要利用的函数为()O

A、pit.hist()

B、pit.pie()

C、pit.plot()

31st

D、pit.bar()

参考答案：B

102.运行以下代码Fromsklearn.datasetsimportload_irislris

data=loadiris()Irisdata.data,shape输出结果为(150,

4)o则表不iris数据集包括样本特征数为()o

A、600

B、150

C、4

D、154

参考答案：C

103.在CBD商圈，以下哪款手机的渗透率最高

A、华为

B、小米

C、三星

D、苹果

参考答案：D

104.在CBD商圈，以下哪类APP流量占比最高

A、即时通信

B、音乐

C、下载

D、视频

参考答案：A

32nd

105.在Scikit-learn模块下，不同分类模型在预测时，调月的

方法名称()O

A、相同

B、视情况而定

C、不知道

D、不同

参考答案：A

106.在sklearn中构建复合评估器时，如果想对所有特征进行不

同的变换，然后将多种变换的所得的结果组合成新的特征数据，

可以使用哪个转换器()

A、Co1umnTransformer

B、FeatureUnion

C、Pipeline

D、Impute

参考答案：B

107.在SQL语句中，可使用的通配符"%(百分号)”表示()o

A、一个字符

B、纯数字

C、计算百分数

D、0到多个字符

参考答案：D

108.在SQL中，创建数据库用的命令是()

33rd

A、CREATESCIIEMA

B、CREATETABLE

C、CREATEVTEW

D、CREATEDATABASE

参考答案：D

109.在抽样方法中，当合适的样本容量很难确定时，可以使月的

抽样方法是：

A、有放回的简单随机抽样

B、无放回的简单随机抽样

C、分层抽样

D、渐进抽样

参考答案：D

110.在基于规则分类器的中，依据规则质量的某种度量对规则排

序，保证每一个测试记录都是由覆盖它的“最好的”规格来分类,

这种方案称为

A、基于类的排序方案

B、基于规则的排序方案

C、基于度量的排序方案

D、基于规格的排序方案。

参考答案：B

111.在基于图的簇评估度量表里面，如果簇度量为proximity(C

i,C),簇权值为mi,那么它的类型是()o

34th

A、基于图的凝聚度

B、基于原型的凝聚度

C、基于原型的分离度

D、基于图的凝聚度和分离度

参考答案：C

112.在建立线性叵归(LinearRegression)之前我们可以利月何

种方法挑选重要属性，以降低模型的复杂度？

A、皮尔森相关系数

B、卡方检定

C、T-检定

D、Z-Score

参考答案：A

113.在上题中，属于定量的属性类型是：

A、标称

B、序数

C、区间

D、相异

参考答案：C

114.在一元回归分析中，用r表示因变量对自变量的相关系数，

当口接近1时，说明因变量与自变量之间的线性关系就好。

A、F

B、T

35th

参考答案：B

115.在有指导的数据挖掘中，有关测试集的说法错误的是()

A、测试集和训练集是相互联系的

B、测试集是用以测试模型的数据集

C、通常测试集大约占总样本的三分之一

D、K-次交叉验证中，测试集只有1个，训练集有KT个

参考答案：A

116.支持向量机是一种二分类模型，其基本模型定义为特征空间

上的间隔最大的(),其学习策略便是间隔最大化，最终可转化

为一个凸二次规划问题的求解。

A、环形分类器

B、线性分类器

C、回归分类器

D、非线性分类器

参考答案：B

117.只有非零值才重要的二元属性被称作

A、计数属性

B、离散属性

C、非对称的二元属性

D、对称属性

参考答案：C

118.最小最大规范化方法MinMaxScaler属于python中的哪个包

36th

()o

A、numpy

B、scipy

C、pandas

D、sklearn

参考答案：D

多选题

1.O这些数据特性都是对聚类分析具有很强影响的。

限高维性

B、规模

C、稀疏性

D、噪声和离群点

参考答案：ABCD

2.《实时业务质量监控保障》落地手册中提出的实时数据处理架

构，给出了哪些参考架构

A、基于开源框架的流数据处理架构

B、基于自主研发的精简XDR架构

C、基于MPP数据库架构

D、基于Spark框架架构

参考答案：AB

3.Attach成功率的指标来源可能是

37th

A、网管系统

B、网优平台

C、集中性能平台

D、大数据平台

参考答案：ABCD

4.DBSCAN根据点的密度将点分为三类：()

A、稠密区域内部的点

B、各样本归于最近的类中心点

C、稠密区域边缘上的点

D、稀疏区域中的点

参考答案：ACD

5.GPRS/EDGE网络的QoS包括哪几项

A、优先等级Serviceprecedence(priority)

B、可靠性等级Reliability

C、延时等级delay

D、峰值吞吐量等级PeakThroughput

E、平均吞吐量等级AverageThroughput

参考答案:ABCDE

6.Hadoop集群可以运行的3个模式？

A、单机(本地)模式

B、伪分布式模式

C、全分布式模式

38th

D、安全模式

参考答案：ABC

7.TD-LTE室内覆盖面临的挑战()

A、覆盖场景复杂多样

B、信号频段较高，覆盖能力差

C、双流模式对室分系统工程改造要求较高

D、与WLAN系统存在复杂的互干扰问题

参考答案：ABCD

8.TD-LTE异系统切换步骤

A、测量

B、切换判决

C、切换准备

D、切换执行

参考答案：ABCD

9.Weka是著名的开源机器学习和数据挖掘软件，高级用户可以

通过哪些方式调用其分析组件

A、Java编程

B、命令行

C、智能客服

D、远程接口

参考答案：AB

10.XDR共享审核记录中，至少包括以下哪些共享信息

39th

A、系统名称

B、使用数据用途

C、共享数据类型

D、共享数据范围

参考答案：ABCD

n.按照性质，预测方法大致可分为oo

A、定性预测

B、情景预测

C、时间序列预测

D、回归预测

参考答案：ACD

12.贝叶斯信念网络(BBN)有如下哪些特点,

A、构造网络费时费力

B、正确模型的过分问题非常鲁棒

C、贝叶斯网络不适合处理不完整的数据

D、网络结构确定后，添加变量相当麻烦

参考答案：AB

13.层次聚类的聚类方式有()

A、凝聚方式聚类

B、分解方式聚类

C、Q型聚类

D、R型聚类

40th

参考答案：AB

14.层次聚类主要有()类型

A、凝集层次聚类

B、凝聚层次聚类

C、分散层次聚类

D、分裂层次聚类

参考答案：BD

15.常见的特征选择方式包括()

A、过滤法

B、嵌入法

C、包装法

D、主成分分析

参考答案：ABC

16.从复杂度及价值高低两个维度，可以将数据分析分为()

A、描述性分析(DescriptiveAnalytics)

B、诊断性分析(DiagnosticAnalytics)

C、预测性分析(PredictiveAnalytics)

D、规范性分析(PrescriptiveAnalytics)

参考答案：ABCD

17.打点模型把视频业务分为接入阶段与播放阶段。其中接入阶

段又被细分为O

A、初始缓冲准备阶段

41st

B、初始缓冲阶段

C、播放阶段

D、播放准备阶段

参考答案：AB

18.大数据四大特征：

A、速度快

B、数据量大

C、价值密度低

D、类型多

参考答案：ABCD

19.电子元器件：

A、电子管

B、晶体管

C、小规模中规模集成电路

D、大规模或超大规模集成电路

参考答案：ABCD

20.对于一个二分类问题，现在已经建立好了模型，该模型通过

设置概率估计的阈值输出0或葭初始时设概率估计阈值为0.5,

超过0.5判别为1,否则就判别为0；如果现在用另一个大于0.5

的阈值，那么模型评估指标将发生什么变化()

A、模型分类的召回率会降低或不变

B、模型分类的召回率会升高

42nd

C、模型分类精确率(Precision)会升高或不变

D、模型分类精确率(Precision)会发生变化，但不能确定是升

高还是降低

参考答案：AD

21.概率分析中，应计算出()表明该风险因素的风险程度。

A、变异系数

B、期望值

C、方差

D、标准差

参考答案：ABCD

22.根据《中国移动大数据安全管控分类分级实施指南》，以下

哪些数据属于B类数据

A、短信、彩信、话音等通信内容

B、用户通讯录、好友列表、群组列表等用户资料数据

C、用户上网访问内容

D、即时通信内容

参考答案：ABCD

23.关联规则的评侨指标

A、均方误差

B、均方根误差

C、支持度

D、置信度

43rd

参考答案：CD

24.关于CHAID算法，以下正确的是

A、CHAID算法是一种决策树算法

B、CHAID的输入变量和输出变量只能是分类型变量

C、CHA1D只能建立二叉树

D.CHAID算法从统计显著性检验角度确定了当前最佳分组变量

和分割点。

参考答案：AD

25.关于DPI采集的xDRID,下面说法不正确的是？()

A、一个信令流程或业务传输过程生成一个XDR」D

B、不同接口的xDRID不同

C、一个XDR1D可能对应同一信令流程中的多条原始消息记录

D、同一用户的XDRID永远相同

参考答案：BD

26.关于Python内存管理，下列说法正确的是()

A、变量不必事先声明

B、变量无须先创建和赋值而直接使用

C、变量无须指定类型

D、可以使用del释放资源

参考答案：ACD

27.关于数据范式描述准确的是：

A、经验科学是第一范式，主要研究模型是科学实验；

44th

B、理论科学是第二范式，主要研究模型是数学模型；

C、计算科学是第三范式，主要研究模型是计算机仿真和模拟，

第三范式是“人脑+电脑”，人脑是主角；

D、数据密集型科学是第四范式，的主要研究模型是数据挖掘和

机器学习，特别是机器学习，第四范式是'‘电脑+人脑”，电脑

是主角。

参考答案：ABCD

28.货币时间价值用相对值来表示时，在数量上应当理解为扣除

()后的社会平均利润率。

A、时间因素

B、通货膨胀因素

C、纯粹利率

D、风险因素

参考答案：BD

29.集中性能“四轮驱动”包含以下业务()

A、家宽业务

B、集客业务

C、新业务

D、移动业务

参考答案：ABCD

30.检索所有姓"张”、姓"田”的学生信息，可以使用的SQL

语句有OO

45th

A、SELECT*FROMstudentWHEREstudent_nameLIKE('张％'00田％

');

B、SELECWROMstudentWHERESUBSTRTNG(student_name,1,1)

in('张'田')；

C、SELECWROMstudentWHERESUBSTRING(student^name,1,1)

='张'ORSUBSTRING(student_name,1,1)='田S

D、SELECT*FROMstudentWHEREstudent_nameLIKE'张％'ORstuden

t_nameLIKE,田％'；

参考答案：BCD

31.聚类分析的应用有()

A、聚类分析可以作为其它算法的预处理步骤

B、可以作为一个独立的工具来获得数据的分布情况，聚类分析

是获得数据分布情况的有效方法

C、聚类分析可以完成孤立点挖掘

D、客户价值分析

参考答案：ABCD

32.决策树算法很容易出现过拟合，我们通常会使用一些剪枝手

段来改善这一现象u对于sklearn.tree.DecisionTreeClassifi

er模型，下面这些参数哪些能起到剪枝的作用()

A、criterion

B、max_depth

C、min_samp1es_sp1it

46th

D、min_impurity_split

参考答案：BCD

33.利用中文文本绘制词云时，需要在anaoncda的基础上安装哪

些工具包()O

A、Matplotlib

B、Wordcloud

C、Scikit-learn

D、Jieba

参考答案：BD

34.联机分析处理包括()基本分析功能。

A、聚类

B、切片

C、转轴

D、切块

参考答案：BCD

35.确定一个投资方案可行的必要条件是()o

A、净现值大于零

B、现值指数大于1

C、投资回收期小于1年

D、内部报酬率较高

参考答案：AB

36.视频播放准备阶段的KQI指标包含()

47th

A、视频播放成功率

B、视频首帧显示时长

C、初始缓冲成功率

D、视频首次卡顿时长

参考答案：ABCD

37.属于分裂的层次聚类算法有

A、二分K均值

B、MST

C、Chameleon

D、组平均

参考答案：AB

38.数据挖掘算法的组件包括：

A、模型或模型结阂

B、评分函数

C、优化和搜索方法

D、数据管理策略

参考答案：ABCD

39.数据预处理方法主要有()?

A、数据清洗

B、数据集成

C、数据变换

D、数据归约

48th

参考答案：ABCD

40.随机对比实验的调查方法的优点是()

A、能够测算实验误差

B、可以提高实验结果的可靠性

C、可以节省分析过程和时间

D、费用开支小

参考答案：AB

41.天猫分析人员希望通过聚类方法定位代商家刷信用级别的违

规者，以下那种操作不应该进行()

A、对变量进行标准化

B、对变量进行百分位秩或Turkey正态性转换

C、对变量进行因子分析或聚类分析

D、对变量进行分箱处理

参考答案：BD

42.完全竞争性的市场具有()等特点。

A、任一企业无法操纵市场

B、少数企业可以影响交易数量

C、多个竞争企业同时存在

D、企业必须采取随行就市定价法

参考答案：ACD

43•伪分布模式中的注意点？

A、伪分布式适用于开发和测试环境

49th

B、所有守护进程都在同一台机器上运行

C、守护进程在不同的机器上运行

D、伪分布模式不能用于开发分布式代码

参考答案：AB

44.文本挖掘的工具有()

A、SPPTextMining

B、IBMDB2intelligentMiner

C、SASTextMiner

D、SPSSTextMining

参考答案：BCD

45.我们可以用哪种方式来避免决策树过度拟合的问题？()

A、利用修剪法来限制树的深度

B、利用盆栽法规定每个节点下的最小的记录数

C、利用逐步回归法来删除部分数据

D、目前并无适合的方法来处理这问题

参考答案：AB

46.下边属于数据基本类型的是：

A、数值

B、字符串

C、字典

D、集合

参考答案：AB

50th

47.下列对ID3算法的描述，正确的是()

A、每个节点的分支度都不相同

B、使用InformationGain作为节点分割的依据

C、可以处理数值型态的字段

D、方法处理空值的字段

参考答案:ABD

48.下列对学生的描述属性中，标称属性的属性是：

A、婚姻状况

B、头发颜色

C、身高

D、学号

参考答案：ABD

49.下列对于IP地址的描述正确的是

A、主机部分全为“1”的IP址址称为有限广播

B、0.x.y.z表示本网络的指定主机

C、一个A类网的IP址址x.0.0.0表示x这个网络

D、IP地址172.16地.0~172.31・255.255属于保留地址

参考答案：BCD

50.下列关于QOS的描述正确的是()

A、EPS是在HSS和PCRF中签约QOS

B、HSS里可以签约用户建立的所有承载的QOS

C、在GPRS系统中，Qos签约在HLR中，对于每个PDP上下文,

51st

都要分配各自相应的Qos

D、如果默认承载的Qos不能满足某种业务的需求，UE需要为其

请求建立一个专有承载，由PGW基于PCRF授予的Qos参数来决

定分配给专有承载的Qos,所以没有必要在HSS里签约专有承载

的Qos

参考答案：ACD

51.下列哪些指标用于评估分类模型()

A、Accuracy

B、Precision

C、MSE

D、Recall

参考答案：ABD

52.下列属于互联网普惠金融会造成的现象的是()

A、消费数据加持人工智能，解决了个人征信问题

B、互联网金融彻底改变了消费习惯，用户使用支付宝和微信就

能完成99%的支持场景，中国进入无现金社会

C、支付宝旗下的天宏基金成为最大的货币基金

D、用户的零钱自动转余额宝，银行短期存款消失，揽储压力山

大

参考答案：ABCD

53.下面给出的t检验的结果，()表明接受原假设，显著性水

平为0.05o

52nd

A、0.000

B、0.039

C、0.092

D、0.124

参考答案：CD

54.下面哪些属于可视化高维数据技术()

A、矩阵

B、平行坐标系

C、星形坐标D散布图

D、Chernoff脸

参考答案:ABCD

55.下面哪些属于可视化高维数据技术？

A、矩阵

B、平行坐标系

C、星形坐标

D、散布图

E、Chernoff脸

参考答案：ABCE

56.下面那个TCP/IP传输层协议提供了端到端面向事务的高效

连接服务

A、IP

B、TCP

53rd

C、UDP

D、ICMP

参考答案：ABD

57.移动网信令XDR包括以下哪些内容

A、移动网通用信息

B、公共信息

C、信令信息

D、通用业务信息

参考答案：BC

58.以下sklearn中的模型，哪些是解决回归分析的？()

A、LinearRegression

B、SVR

C^LogisticRegression

D、Ridge

参考答案：ABD

59.以下各项均是针对数据仓库的不同说法，你认为正确的有()

A、数据仓库就是数据库

B、数据仓库是一切商业智能系统的基础

C、数据仓库是面向业务的，支持联机事务处理(OLTP)

D、数据仓库支持决策而非事务处理

E、数据仓库的主要目标就是帮助分析，做长期性的战略制定

参考答案：BCDE

54th

60.以下关于CART和C5.0的说法，错误的是：

AXART中的输入变量和输出变量可以是分类型也可以是数值型,

而C5.0中的输出变量只能是分类型

B、CART能建立多叉树，而C5.0只能建立二叉树。

C、CART以Gini系数和方差为基础选择最佳分组变量和分割点,

而C5.0则以信息嫡为基础计算信息增益率。

D、CART只依据训练样本集通过近似正态分布进行剪枝，而C5.

0依据检验样本集进行剪枝

参考答案：BD

61.以下关于非频繁模式说法，正确的是()

A、其支持度小于阈值

B、都是不让人感兴趣的

C、包含负模式和奂相关模式

D、对异常数据项敏感

参考答案：AD

62.以下哪个分布是右偏分布()

A、均匀分布

B、卡方分布

C、F分布

D、对数正态分布

参考答案：BCD

63.以下哪个用户上网流程不属于业务面

55th

A、网络附着

B、TCP握手

C、承载建立

D、TAU更新

参考答案：ACD

64.以下哪些数据挖掘工具是开源的()

A、KNIME

B、SPSS

C、WEKA

D、Orange

参考答案：ACD

65.以下哪些学科和数据挖掘有密切联系？()

A、统计

B、计算机组成原理

C、矿产挖掘

D、人工智能

参考答案：AD

66.以下属于聚类算法的是()0

A、K均值

B、DBSCAN

C、Apriori

D、Jarvis-Patrick(JP)

56th

参考答案:ABD

67.以下算法中对缺失值敏感的有()

A、Logistic回归

B、SVM算法

C、CART决策树

D、朴素贝叶斯

参考答案：AB

68.以下选项能成为子查询返回结果的是()o

A、一个表

B、一个值

C、一列数据

D、一个表达式#

参考答案：ABC

69.营销观念是营绡过程中如何处理()利益关系。

A、企业

B、员工

C、顾客

D、社会

参考答案：ACD

70.用于分类与回归应用的主要算法有

A、决策树

B、BP神经网络

57th

C、贝叶斯

D、K均值

参考答案：ABC

71.在《中国移动集中性能管理应用落地手册-居民区4G&宽带

网络能力全景分析》中，居民区常驻用户识别模型是

A、基于信令识别用户常驻居民区

B、基于MR打点法识别用户常驻居民区

C、基于语音话单识别用户常驻居民区

D、基于用户宽带开户信息识别

参考答案：ABCD

72.在PTN构建的承载网络中，经常会用到链路聚合技术来实现

对端口的保护和扩大链路带宽。使用L2000网管进行监控工作

时，经常会发现有LAG_MEMBER_DOWN告警上报，则触发该告警上

报的原因有

A、端口的物理连接不可用

B、聚合组端口运行了LACP,但LACP报文收发不正常

C、端口误码越限

D、聚合组端口有环回设置

参考答案：ABCD

73.在集团公司四维十轮网络质量评估体系中，评估共享单车业

务感知的主要指标包括：

A、共享单车业务响应成功率(%)

58th

B、共享单车业务响应时延(ms)

C、共享单车业务下载速率(kbps)

D、共享单车业务解锁时延(ms)

参考答案：AB

74.在聚类分析当中，可以处理任意形状的簇的方法包括：

A、MIN(单链)

B、Chameleon

C、MAX(全链)

D、组平均

参考答案：AB

75.在有关数据仓库测试，下列说法中正确的是()

A、在完成数据仓库的实施过程中，需要对数据仓库进行各种测

试.测试工作中要包括单元测试和系统测试

B、当数据仓库的每个单独组件完成后，就需要对他们进行单元

测试

C、系统的集成测减需要对数据仓库的所有组件进行大量的功能

测试和回归测试

D、在测试之前可以不制定详细的测试计划，测试过程中实时调

整。

参考答案：ABC

76.在作逻辑回归时，如果区域这个变量，当Region=A时Y取值

均为1,无法确定是否出现的是哪个问题？

59th

A、共线性

B、异常值

C、拟完全分离(Quasi-comp1eteseparation)

D、缺失值

参考答案：ABD

77.针对咪咕游戏业务提供市场营销支撑，可以从哪些维度入手

分析

A、游戏用户识别

B、热点游戏识别

C、质差用户识别

D、价值区域识别

参考答案：ABD

78.针对涉及多张表的取数需求，SQL查询中至少因包含的关键

字为

A、select

B、join

C、create

D、format

参考答案：AB

79.智能翻译可以实现的功能为()

A、多种语言翻译

B、语音翻译

60th

C、方言翻译

D、拍照翻译

参考答案：ABCD

判断题

1.“大数据”是指规模超过1000TB的数据集。

A、正确

B、错误

参考答案：B

2.Bayes法是一种在已知后验概率与类条件概率的情况下的模式

分类方法，待分样本的分类结果取决于各类域中样本的全体。

A、正确

B、错误

参考答案：B

3.DBSCAN是相对抗噪声的，并且能够处理任意形状和大小的簇。

A、正确

B、错误

参考答案：A

4.GET请求是指向指定资源提交数据进行处理请求，数据被包含

在请求体中。

A、正确

B、错误

61st

参考答案：A

5.k-means聚类算法无论对离散型属性，还是对连续型属性具有

较好的聚类效果。

A、正确

B、错误

参考答案：B

6.K均值聚类算法，簇的个数由算法自动地确定。

A、正确

B、错误

参考答案：B

7.K-均值聚类算法是一种基于原型的、根据距离划分组的算法。

A、正确

B、错误

参考答案：A

8.LF、RF算法分别为逻辑回归算法、随机森林算法的简称。

A、正确

B、错误

参考答案：A

9.OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决

策信息，是继数捱库技术发展之后迅猛发展起来的一种新技术。

A、正确

B、错误

62nd

参考答案：A

10.Python变量使用前必须先声明，并且一旦声明就不能在当前

作用域内改变其类型了。

A、正确

B、错误

参考答案：B

11.Python集合支持双向索引o

A、正确

B、错误

参考答案：B

12.Python字典和集合支持双向索引。

A、正确

B、错误

参考答案：B

13.rc模块中的match方法是从字符串的开头对输入的正则表达

式进行匹配。

A、正确

B、错误

参考答案：A

14.SELECT语句是SQL的核心语句，它完成查询功能。

A、正确

B、错误

63rd

参考答案：A

15.SELECT语句中，实现排序的子句是GROUPBY。

A、正确

B、错误

参考答案：B

16.SQL中删除表的命令是“DELETETABLE”。

A、正确

B、错误

参考答案：B

17.SVM是这样一个分类器，他寻找具有最小边壕的超平面，因

此它也经常被称为最小边缘分类器(minimalmarginclassifier)

A、正确

B、错误

参考答案：B

18.边际收入是指每增加1单位销量所带来的总收入的增加额

度。

A、正确

B、错误

参考答案：A

19.表达式(i**2foriinrange(100))的结果是个元组。

A、正确

B、错误

64th

参考答案：B

20.不同的算法可能用不同的时间、空间或效率来完成同样的任

务。

A、正确

B、错误

参考答案：A

21.从点作为个体簇开始，每一步合并两个最接近的簇，这是一

种分裂的层次聚类方法。

A、正确

B、错误

参考答案：B

22.大项目集的任一非空子集也一定是穴的

A、正确

B、错误

参考答案：A

23.当以指定“键”为下标给字典对象赋值时，若该“键”存在

则表示修改该“键”对应的“值"若不存在则表示为字典对象

添加一个新的“键-值对"°

A、正确

B、错误

参考答案：A

24.对于带有else子句的循环语句，如果是因为循环条件表达式

65th

不成立而自然结束循环，则执行else子句中的代码。

A、正确

B、错误

参考答案：A

25.对于非对称的二元属性，两个都取值1的情况(正匹配)被

认为比两个都取值0的情况(负匹配)更有意义，其中负匹配数

t被认为是不重要的，因此在计算时可以忽略。

A、正确

B、错误

参考答案：A

26.对于生成器对象x二(3foriinrange(5)),连续两次执行1

ist(x)的结果是一样的。

A、正确

B、错误

参考答案：B

27.多种属性相似度的综合度量，可以先对单个属性进行相似度

度量，然后求所有属性相似度的均值作为整个对象相似度。

A、正确

B、错误

参考答案：A

28.二进制文件不能使用记事本程序打开。

A、正确

66th

B、错误

参考答案：B

29.二进制文件也可以使用记事本或其他文本编辑器打开，但是

一般来说无法正常查看其中的内容。

A、正确

B、错误

参考答案：A

30.反爬虫主要有以下几种方式：通过UA判断、通过单IP频繁

访问判断、通过Cookie判断、动态页面加载、采用验证码。

A、正确

B、错误

参考答案：A

3L分类和回归都可用于预测，分类的输出是离散的类别值，而

回归的输出是连续数值。

A、正确

B、错误

参考答案：A

32.分类是总结已有类别对象的特点，并根据这些特点，进行未

知类别对象的类别预测的过程。又可称为无监督学习。

A、正确

B、错误

参考答案：B

67th

33.服务器可以根据请求报头中的Accept进行判断，以返回适当

的文件格式给浏览器。

A、正确

B、错误

参考答案：A

34.给定由两次运行K均值产生的两个不同的簇集，误差的平方

和最大的那个应该被视为较优。

A、正确

B、错误

参考答案：B

35.关联规则挖掘过程是发现满足最小支持度的所有项集代表的

规则。

A、正确

B、错误

参考答案：B

36.归纳法是一种从个别到一般的推理方法。

A、正确

B、错误

参考答案：A

37.基于邻近度的离群点检测方法不能处理具有不同密度区域的

数据集。

A、正确

68th

B、错误

参考答案：A

38.聚类(clustering)是这样的过程：它找出描述并区分数据

类或概念的模型(或函数)，以便能够使用模型预测类标记天知

的对象类。

A、正确

B、错误

参考答案：B

39.聚类分析的过程中，聚类效果较好时属于同一个簇的对象相

似度很高，而属于不同簇的对象相似度很低。

A、正确

B、错误

参考答案：A

40.聚类分析可以看作是一种非监督的分类。

A、正确

B、错误

参考答案：A

41.聚类是指将物理或抽象对象的集合分组成为由类似的对象组

成的多个类的过程。

A、正确

B、错误

参考答案：A

69th

42.决策树的后剪枝是通过在完全生长的树上剪去分枝实现的，

通过删除节点的分支来剪去树节点。

A、正确

B、错误

参考答案：A

43.可视化技术对于分析的数据类型通常不是专用性的。

A、正确

B、错误

参考答案：B

44.利用先验原理可以帮助减少频繁项集产生时需要探查的候选

项个数。

A、正确

B、错误

参考答案：A

45.连接查询中，使用ON指定两个表之间的连接条件。

A、正确

B、错误

参考答案：A

46.两个不等长的数组不能相加

A、正确

B、错误

参考答案：B

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《大数据挖掘技术》易考易错高频考试题库（含答案）

文档简介

温馨提示

最新文档

评论

《大数据挖掘技术》易考易错高频考试题库（含答案）

文档简介

温馨提示

最新文档

评论

相关文档