大数据开发基础练习题及答案10-2023背题版

上传人：唯*** IP属地：河北上传时间：2024-04-17 格式：PDF 页数：96 大小：12.09MB 积分：12 举报 版权申诉

已阅读5页，还剩91页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

试题说明

本套试题共包括1套试卷

每题均显示答案和解析

大数据开发基础练习题及答案10（500题）

大数据开发基础练习题及答案10

L［单选题］Hadoop作者

A）MartinFowler

B）KentBeck

C）Dougcutting

答案：C

解析：a.MartinFowler【敏捷开发方法论-软件开发教父】

b.KentBeCk【极限编程，测试驱动开发，实现模式】

c.Dougcutting√【Hadoop作者，道格•卡廷】

2.［单选题］假设有n组数据集，每组数据集中，x的平均值都是9,X的方差都是11,y的平均值都是

7.50,X与y的相关系数都是O816,拟合的线性回归方程都是y=3.00+0.500xo那么这n组数据集（）。

A）一样

B）不一样

C）无法确定是否一样

答案：c

解析：只比较平均值、方差、相关系数和回归方程，无法确定数据集是否相同，还需比较Anscombe1S

quarteto

3.［单选题］关于MaXConlPUte类型之间的类型转化，说法不正确的是：（）。

A）隐式类型转换是MaXCOmPUte依据上下文使用环境自动进行的类型转换

B）部分类型之间不可以通过显式的类型转换，但可以通过SQL的隐式转换完成

C）不支持的隐式类型转换会导致异常

D）MaXCOmPUte支持的隐式类型转换规则与显式转换相同

答案:B

解析：

4.［单选题］下列关于分布式数据库的说法中，错误的是

A）分布式数据库系统通常使用较小的计算机系统

B）分布式数据库是物理上分散的数据库

C）分布式数据库是逻辑上统一的数据库

D）每台计算机中都一定有DBMS的一份完整拷贝副本

答案：D

解析：

5.[单选题]通常会单独购买独立设备组为其服务的行业是？O

A)电商行业

B)金融行业

C)视频行业

D)新闻网站

答案:B

解析：

6.[单选题]运行下面代码的输出结果为()。

Importnumpyasnp

A=np.array([[3,7,5],[8,4,3],[2,4,9]])print(np.ptp(a))

A)[[3,7,5],[8,4,3],[2,4,9]]

B)7

C)[4,5,7]

D)[6,3,6]

答案:B

解析:ptp是峰峰值，即最大值减最小值，不指定axis默认展平。

7.[单选题]分类模型评估指标不包括O

A)Fl-SCOre

B)平均绝对误差

C)准确率

D)AUC

答案：B

解析：

8.[单选题]下列语句的输出结果为()a=5b=4c=a+bprint("a+b=",c)

A)a=5

B)b=4

C)5+4=9

D)a+b=9

答案:D

解析：

9.[单选题]当上传本地文件到QUiCkBl中做展现时，数据被保存到了()。

A)QuickB自带的探索空间

B)QuickBI自带的MaXComPUte

C)AnalyticDB

D)客户端本地缓存

答案:A

解析：

10.［单选题］HDFS配置数据文件存储路径(dfs.datanode.data.dir)的文件是哪一个？

A)hadoop-env.sh

B)core-site,xml

C)hdfs^site.xml

D)yarn-site,xml

答案：C

解析：

IL［单选题］下列关于数据标准化的说法中，不正确的是()

A)Z-SCore标准化适用于特征最大值和最小值未知，数据较分散的情况

B)聚类算法要求数据集无量纲化

C)LogiStiC标准化函数。(x)满足。(0)=1

D)Min-Max标准化易受离群值影响

答案：C

解析：

12.［单选题］推动多元化新兴产业发展，重点发挥公司()企业优势，聚集产业各方，构建多方参与、

共商共建共赢的多元产业生态。

A)聚集型

B)共享型

C)枢纽型

D)计划型

答案：C

解析：

13.［单选题］下列函数中，用于沿着轴方向堆叠PandaS对象的是()。

A)concat()

B)join()

Omerge()

D)combine_first()

答案:A

解析：

14.［单选题］平均值很容易受()影响

A)平均值

B)定变值

C)极值

D)以上说法都不对

答案：C

解析：

15.［单选题］在PythOn中，变量的取名要遵循一定的规则，下列规则不正确的是（）。

A）变量名要以字母、数字、下划线命名，且不能以数字开头；

B）变量名不区分大小写

C）变量名不能有空格；

D）变量名能与Python中的内置命令重复，如if、while、for等不可以作为变量名；

答案:B

解析：

16.［单选题］数据转换器中日期类型的使用用途正确的是（）

A）DateDiff对应用途是将时间类型转换为字符类型

B）DateFOmat对应用途是把一个日期值格式化为DateShire系统内部统一格式

OStringToDateTime对应用途是将字符串转换为日期时间

D）FOrmatDate对应用途为计算两个日期之间的差

答案：C

解析:DateFonIat对应用途是将时间类型转换为字符类型。

17.［单选题］以下关于知识图谱，描述错误的是：（）

A）又称为科学知识图谱

B）在图书情报界称为知识域可视化或知识领域映射地图

C）知识图谱属于密码学研究范畴

D）知识图谱可用于反欺诈、不一致性验证、组团欺诈等公共安全保障领域

答案：C

解析：

18.［单选题］大数据计算服务的开发人员创建了日志表，并且导入了历史数据后发现表的一个字段命

名拼写有错误，可以采用（）更正此问题成本最低。

A）将原表重命名，然后建张正确的表，再导入历史数据

B）在表的末尾新添加一个字段

C）删除表后重建，然后重新导入历史数据

D）通过alter命令重新命令该字段

答案:D

解析：

19.［单选题］在MaPRedUCe的应用程序开发中，下列（）JAVA类负责管理和运行一个计算任务。

A）lob

B）Context

C）FiIeSystem

D）Configuration

答案:A

解析：

20.［单选题］下列关于聚类挖掘技术的说法中，错误的是（）。

A）不预先设定数据归类类目，完全根据数据本身性质将数据聚合成不同类别

B）要求同类数据的内容相似度尽可能小

C）要求不同类数据的内容相仪度尽可能小

D）与分类挖据技术相似的是，都是要对数据进行分类处理

答案:B

解析：

21.［单选题］下列关于Logistic回归和SVM的描述不正确的是（）。

A）Logistic回归本质上是一种根据样本对权值进行极大似然估计的方法，用先验概率的乘积代替后

验概率

B）Logistic回归的输出就是样本属于正类别的概率

OSVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面，属于结构风险最小化

D）SVM可以通过正则化系数控制模型的复杂度，避免过拟合

答案:A

解析:LOgiStiC回归目标函数是最小化后验概率，Logistic回归可以用于预测事件发生概率的大小

,SVM目标是结构风险最小化，SVM可以有效避免模型过拟合。

22.［单选题］以下哪项是SParkQ2x程序统一入口？0

A)StreamingContext

B)SaContext

C)HiveContext

D)SparkSession

答案:D

解析：

23.［单选题］下面哪种不属于池化操作0。

A）、连接池化

B）、一般池化

C）、重叠池化

D）、金字塔池化

答案:A

解析：

24.［单选题］下列关于不确定性知识描述错误的是（）。

A）不确定性知识是不可以精确表示的

B）专家知识通常属于不确定性知识

C）不确定性知识是经过处理过的知识

D）不确定性知识的事实与结论的关系不是简单的“是”或“不是”。

答案：C

解析：

25.［单选题］数据科学基本原则中，"基于数据的智能"的主要特点是（）。

A）数据简单、但算法简单

B）数据复杂、但算法简单

C）数据简单、但算法复杂

D）数据复奈、但算法复杂

答案:B

解析：

26.［单选题］下列说法错误的是（）。

A）大数据是一种思维

B）大数据不仅仅是数的体量大

C）大数据的英文Iargedata

D）大数据会带来机器智能

答案：C

解析：

27.［单选题］作为技术人员，小王被MaXComPUte强大的数据处理能力吸引，想去体验一下。他快速注

册了一个阿里云帐号，进入官网后试图创建一个名字为test_project的MaXConIPUtePrOjeCt,结果

没有成功。分析，小王出错的最有可能的原因是：（）。

A）帐号未充值，余额不足导致出错

B）帐号未开通MaXCOmPUte的使用权限

C）未创建合适的accesSlD和accesSKey

D）项目名字和现有的其他帐户的名字重复

答案:D

解析：

28.［单选题］在MaPRedUCe中，哪个组件是用户不指定也不会有默认的（）。

A）Combiner

B）OutputFormat

C）Partitioner

D）InputFormat

答案:A

解析：

29.［单选题］关系数据库所谓的关系是指（）

A）各记录中的数据彼此有一定关联

B）数据模型符合满足一定条件的二维表格式

C）某两个数据库之间有一定的关系

D）表中两个字段有一定的关系

答案:B

解析：

30.［单选题］下面（）子句专用于GroUPBy操作中的条件过滤功能。

A)WHERE子句

B)HAVlNG子句

C)LlMlT子句

D)ORDERBY子句

答案:B

解析：

3L［单选题］根据《大数据风控平台项目操作手册》，系统在【客户信息管理】一级菜单下增加【征

信报告查询管理】二级菜单，用户可在此菜单下的【审批中的征信报告】节点中点击O按钮，完

成查看/下载征信查询授权书动作。

A)新增查询

B)B.查看/下载授权书

OC.取消申请

D)D.提交

答案:B

解析：

32.［单选题］下列符号中，表示PythOn中单行注释的是()。

A)#

B)//

C)D)”

答案:A

解析：

33.［单选题］己知一组数据的协方差矩阵P,下面关于主分量说法错误的是()

A)主分量分析的最佳准则是对一组数据进行接一纽正交基分解，在只取相同数量分量的条件下，以

均方误差计算截尾误差最小

B)在经主分量分解后，协方差矩阵成为对角矩阵

C)主分量分析就是K-L变换

D)主分量是通过求协方差矩阵的特征值得到

答案：C

解析：

34.［单选题］哪个不是StrUCtUredStreaming中OUtPUt可以定义的存储方式？

A)UpdateMode

B)JDBCMode

C)CompleteMode

D)AppendMode

答案:B

解析：

35.［单选题］GaussDB200在创建表时,需要注意以下哪些事项O?

A)创建列存表之后，后续可以修改为行存表。

B)创建列存表时压缩级别默认为HIGH.

C)如果指定表空间为普通表空间，创建表时默认是行式存储。

D)创建行存表之后，后续可以修改为列存表。

答案：C

解析：

36.［单选题］在HiVe的查询语句中，表示A和B按位取或的是()

A)A∣B

B)A&B

OA-B

D)A~B

答案:A

解析：

37.［单选题］(一)是SPark中用来进行图计算的库函数。

A)GraphX

B)SparkSQL

C)SparkStreaming

D)MlIib

答案:A

解析：

38.［单选题］若用如下的SQL语句创建了一个表SC：()CREATETABLESC(S#CHAR(6)NOT

NULL,C#CHAR(3)NOTNULL,SCOREINTEGER,NOTECHΛR(20))；向SC表插入如下行时，(

)行可以被插入。

A)(NULL,,103,,80,'选修')

B)('200823,,,101,,NULL,NULL)

C)('201132,,NULL,86,'')

D)('201009,,'111,,60,必修)

答案:B

解析：

39.［单选题］依据国网公司数据管理办法，()是用来描述公司核心业务实体的数据，是各业务应用

和各系统之间进行信息交互的基础。

A)基础数据

B)数据标准

C)参考数据

D)主数据

答案：D

解析：

40.［单选题］大数据最显著的特征是：

A）数据规模大

B）数据类型多

C）数据分布广

D）数据处理快

答案：A

解析：

41.［单选题］有一个关系，课程目录（课程号，授课教师,所述专业），规定授课教师不能取空值，这一规

则属于（）

A）实体完整性约束

B）参照完整性约束

C）用户自定义完整性约束

D）关键字完整性约束

答案：C

解析：

42.［单选题］解决多重共线性的方法包括（）

A）岭回归

B）主成分回归

C）偏最小二乘回归

D）以上都是

答案:D

解析：

43.［单选题］下列哪项方法不属于图像分割方法Oo

A）边缘检测法

B）阈值分割法

C）区域分割法

D）特征提取法

答案:D

解析：

44.［单选题］图像的形态学处理方法包括Oo

A）图像增强

B）图像锐化

C）图像分割

D）腐蚀

答案:D

解析：

45.［单选题］HDFS数据写入流程描述错误的是？

A）业务应用调用HDFSCIient提供的API,请求写入文件。

B）业务调用CloSe,flush后HDFSClient联系NameNode,确认数据写完成，DataNOde持久化元数据。

OHDFSClient收到业务数据后，从NameNOde获取到数据块编号.位置信息后，联系DataNOde,并将需

要写入数据的DataNode建立起流水线。完成后，客户端再通过自有协议写入数据到DataNOdeL再由

DataNode1复制到DataNOdeQ2DataNOde3。

D）HDFSClient联系NameNOde,NameNode在元数据中创建文件节点。

答案:B

解析：

46.［单选题］条件“IN（20,30,40）”表示（）

A）年龄在20到40之间

B）年龄在20到30之间

C）年龄是20或30或40

D）年龄在30到40之间

答案：C

解析：

47.［单选题］下列关于SCala特性的描述，错误的是哪一项？

A）SCaIa语法复杂，但是能提供优雅的APl计算

B）SCaIa具备强大的并发性，支持函数式编程，可以更好地支持分布式系统

C）SCaIa兼容Java,运行速度快，且能融合到HadoOP生态圈中

D）SCala是SPark的主要编程语言

答案:A

解析：

48.［单选题］hadoop能可靠地存储和处理。字节数据。

A）TB

B）PB

OYB

D）ZB

答案:B

解析：

49.［单选题］数据产品开发的关键环节是（）

A）数据收集

B）数据预处理

C）数据学习

D）数据加工

答案:D

解析：

50.［单选题］以下关于降维的表述，错误的是（）

A）降维过程中可以保留原始数据的所有信息

B）多维缩放的目标是要保证降维后样本之间的距离不变

C）线性降维方法目标是要保证降维到的起平面能更好地表示原始数据

D）核线性降维方法目标是通过按函数和核方法来避免采样空间投影到高维空间再降维之后的低维结

构丢失

答案:A

解析：

51.［单选题］关于bagging下列说法错误的是（）

A）各基分类器之间有较强依赖，不可以进行并行训练

B）嘈最著名的算法之一是基于决策树基分类器的随机森林

C）当训练样本数量较少时，子集之间可能有重叠

D）为了让基分类器之间互相独立，需要将训练集分为若干子集

答案:A

解析：

52.［单选题］下列Python文件模式中，（…）表示创建一个新文件。如果文件已经存在，则操作失

败。

A)“r”

B)“W”

C)“x”

D)“+”

答案：C

解析：

53.［单选题］语句np.random,randn（5,4）的运算结果是（）。

A）生成一个5行4列的随机矩阵

B）将矩阵的第5行第4列改成一个随机值

C）将矩阵的第4行第3列改成一个随机值

D）将矩阵的第5列和第4列都用随机值代替

答案:A

解析:rand。和randn（）是简化的随机函数，传递形状参数不需要元组，传入的所有参数构成数

组的形状元组，此题中就用（5,4）作为数组的形状参数。

54.［单选题］如果LA,SSO模型中的惩罚项变大，下列说法正确的是（）

A）、部分回归系数会变为0

B）、部分回归系数会趋近于0,但不会取值为0

C）、A和B的表述都正确

D）、以上说法都不正确

答案:A

解析：

55.［单选题］()不是最近邻分类器的特点。

A)它使用具体的训练实例进行预测，不必维护源自数据的模型

B)分类一个测试样例开销很大

C)最近邻分类器基于全局信息进行预测

D)可以生产任意形状的决策边界

答案：C

解析：k近邻中的近邻指的是距离待预测数据的数据点，而k近邻指的是取距k近的前几个数据点，并

非基于全局信息进行预测。

56.［单选题］下列关于线性回归分析中的残差说法正确的是()。

A)残差均值总是为零

B)残差均值总是约等于零

C)残差均值总是大于零

D)以上答案都不正确

答案:A

解析：线性回归分析中，目标是残差最小化。残差平方和是关于参数的函数，为了求残差极小值，令残

差关于参数的偏导数为零，会得到残差和为零，即残差均值为零。

57.［单选题］x=Idefchange(a)：X+=1printXehange(X)代码执行结果是(_)。

A)l

B)2

D)报错

答案：D

解析：

58.［单选题］下面关于TimetoaSt的描述，哪个是错误的？()

A)TimetoaSt是在线创作基于时间轴事件记载服务的网站

B)提供个性化的时间线服务

C)TimetoaSt基于flash平台，并基于flash时间轴上任意加入事件

D)TimetOaSt是一个提供复杂统计图表的工具

答案:D

解析：

59.［单选题］下列方法中，能够让所有单词的首字母变成大写的方法是()。

A)capitalize

B)title

C)upper

D)Ijust

答案:B

解析：

60.［单选题］核矩阵是（）的。

A）没有规律

B）半正定

C）正定

D）样本矩阵

答案:B

解析:只要一个对称函数所对应的核矩阵半正定，它就能作为核函数使用。

61.［单选题］下列不属于scikit-learn中用于标准化的函数是（）。

A）StandardScaler

B）MinMaxScaler

OMeanScaler

D）以上都对

答案：C

解析：StandardSCaler和MinMaxScaler是标准化的函数。

62.［单选题IMaxComputeSQL中，使用关系运算符对两个操作数进行比较，如果进行比较的两个类型

间不能进行隐式类型转换，则：（）O

A）则该关系运算不能完成，但并不会报错

B）则该关系运算可以完成，健艮错退出

C）则该关系运算不能完成，报错退出

D）提示用户需要使用CaSt进行显示的类型转换

答案：C

解析：

63.［单选题］表达式Print（"{：.2f}".format（20-2**3+10∕3**2*5））的结果是：

A）55

B）56

022

D）56

答案：D

解析：

64.［单选题］数据科学是一门以（）为主要研究任务的独立学科。

A）数据驱动、数据业务化、数据洞见、数据产品研发和（或）数据生态系统的建设

B）数据研发

C）数据处理

D）数据洞见

答案:A

解析:数据科学是一门以实现从数据到信息、从数据到知识和（或）从数据到智慧的转化为主要研究

目的，以数据驱动、数据业务化、数据洞见、数据产品研发和（或）数据生态系统的建设为主要研

究任务的独立学科。

65.［单选题］Insert事务使用的锁模式是：（）。

A）AccessShareLock

B）RowExcIusiveLock

C）ShareupdateExclusiveLock

D）ExclusiveLock

答案:B

解析：

66.［单选题］假设一个线性回归模型完美适合训练数据（训练误差为时，下面那个说法是正确的（）

A）测试集误差一直为0

B）测试集误差可能为0

C）测试集误差不会为0

D）以上都不对

答案:B

解析：

67.［单选题］Flume数据采集过程中，下列选项中能对数据进行过滤和修饰的是：（）。

A）Sink

B）Channel

C）ChannelSelector

D）Interceptor

答案:D

解析：

68.［单选题］下面哪个不是SPark的组件（）

A）SparkStreaming

B）SparkMlib

OSparkSQL

D）SparkR

答案:D

解析：

69.［单选题］建立在相关关系分析法基础上的预测是大数据的（）。

A）基础

B）前提

C）核心

D）条件

答案：C

解析：

70.［单选题］（）不是HDFS的守护进程。

A）SecondaryNameNode

B）DataNode

C）MRAppMasterZYarnChiId

D）NameNode

答案：C

解析：

71.［单选题］DataFrame和RDD最大的区别（）

A）科学统计支持

B）多了schema

C）存储方式不一样

D）外部数据源支持

答案：B

解析：

72.［单选题］Spark生态系统组件SParkStreaming的应用场景是？

A）基于历史数据的数据挖掘

B）图结构数据的处理

C）基于历史数据的交互式查询

D）基于实时数据流的数据处理

答案:D

解析：

73.［单选题］长短时记忆神经网络被设计用来解决的问题是（）。

A）传统RNN存在的梯度消失/爆炸问题

B）传统RNN计算量大的问题

C）传统RNN速度较慢的问题

D）传统RNN容易过过拟合的问题

答案:A

解析：长短时记忆神经网络增加一个用来保存长期状态的单元来解决梯度消失问题。

74.［单选题］以下说法错的是哪项

A）大数据是一种思维方式

B）大数据不仅仅是讲数据的体量大

C）大数据会带来机器智能

D）大数据的英文名称是Iargedata

答案:D

解析：

75.［单选题］启用日志聚集功能，需要配置哪个参数？

A)Λyarn,nodemanager,local-dirs

B)Byarn,nodemanager,log-dirs

C)Cyarn.acl.enable

D)Dyarn,log-aggregation-enable

答案:D

解析：

76.［单选题］HadoopStreaming支持脚本语言编写简单MaPRedUCe程序，以下是一个例子:

bin/hadoopjarcontrib/streaming/hadoop-O.20-Streaming.jar

-inputinput/fiIename

-outputoutput

-mapperMosth.py5,

-filedosth.py

-Dmapred.reduce,tasks=l

以下说法不正确的是：

A)HadoopStreanIing使用UniX中的流与程序交互

B)HadoopStreaming允许我们使用任何可执行脚本语言处理数据流

C)采用脚本语言时必须遵从UNlX的标准输入STDlN,并输出到STDoUT

D)RedUCe没有设定，上述命令运行会出现问题

答案:D

解析：没有设定特殊的reducer,默认使用IdentityReducer

77.［单选题］在数据生命周期管理实践中，()是执行方法。

A)数据存储和备份规范

B)数据管理和维护

C)数据价值发觉和利用

D)数据应用开发和管理

答案:B

解析：

78.［单选题］更新列表时可以使用以下哪几种方法来添加列表项(一)。

A)append(),next(),pop()

B)index(),clear(),extend()

C)append(),extend(),insert()

D)remove(),super(),pop()

答案：C

解析：

79.［单选题］以下可表示变长度字符串的数据类型是()

A)TEXT

B)CHAR

OVARCHAR

D)EMUM

答案：c

解析:

80.［单选题］下列哪些操作可以设置一个监听器WatCher()

A)getData

B)getChiIdren

C)exists

D)setData

答案：D

解析：

81.［单选题］以下SQL语句编写正确的是()。-

A)SELECT*FROMsh_goodsWHERE0；

B)SELECT*FROMsh_goodsGROUPBYCategory_iD、WHEREprice>5；

C)SELECT*FROMsh_goodsLIMIT3ORDERBYprice；

D)以上选项都不正确

答案:A

解析：

82.［单选题］以下可以创建外键约束的表是()。-

A)MyISAM表

B)InnODB表

C)MEMORY表

D)以上答案全部正确

答案:B

解析：

83.［单选题］Storage模块负责了SPark计算过程中所有的(—)。

A)运算

B)存储

C)编程

D)编译

答案:B

解析：

84.［单选题］以下选项中，不是Python对文件的打开模式的是

A)w'

B)+'

Oc'

D)r'

答案：C

解析：

85.［单选题］函数使用哪个关键字（一）。

A）fun

B）define

Odef

D）function

答案：C

解析：

86.［单选题］下列哪一个不属于云数据库产品？（）

A）本地安装MySQL

B）阿里云RDS

C）Oracle

D）百度云数据库

答案:A

解析：

87.［单选题］以下C类继承A类和B类的格式中，正确的是Oo

A）classCA,B：

B）classC（A：B）：

C）classC（A,B）：

D）classCAandB：

答案：C

解析：

88.［单选题］在HDFS中，默认一个块多大？

A）64MB

B）32KB

C）128KB

D）16KB

答案:A

解析：

89.［单选题］当前社会中，最为突出的大数据环境是

A）互联网

B）物联网

C）综合国力

D）自然资源

答案:A

解析：

90.［单选题］在进行回归模型运行操作前，需要进行哪一步转换操作？（）

A）数值组装

B)数值预测

C)模型训练

D)求绝对值

答案:A

解析：

91.［单选题］np.SWaPaXeS()函数，需要传入的参数是(—.)□

A)数组维度

B)数组大小

C)一对轴编号

D)一个轴编号

答案：C

解析：

92.［单选题］将从源数据源获取的数据按照业务需求，转换成目的数据源要求的形式，并对错误、不

一致的数据进行清洗和加工这一过程称为(—)。

A)数据抽取

B)数据转换

C)数据加载

D)数据存储

答案:B

解析：

93.［单选题］HBase依靠()存储底层数据。

A)HDFS

B)Hadoop

C)Memory

D)MapReduce

答案:A

解析:HBaSe位于结构化存储层,HDFS为HBaSe提供了高可靠性的底层存储支持。

94.［单选题］阅读下面PythOn代码，选择正确输出结果：。deffun(x,y,z=10)：

print("{}：{}：{}".format(x,y,z))fun(y=20,x=30)

A)20：30：10

B)0.43090277777778

C)30：20：10

D)报错，缺少参数

答案：C

解析：

95.［单选题］聚类算法的性能度量可称为()。

A)密度估计

B）异常检测

C）有效性指标

D）分布结构

答案：C

解析：

96.［单选题］面向用户提供大数据一站式部署方案，包括数据中心和服务器等硬件.数据分析应用软

件及技术运维支持等多方面内容的大数据商业模式是（）

A）大数据解决方案模式

B）大数据信息分类模式

C）大数据处理服务模式

D）大数据资源提供模式

答案:A

解析：

97.［单选题］下面关于深度学习相关描述不正确的有（_）。

A）深度学习是一种特征学习方法

B）深度学习通过足够多的简单转换函数及其组合方式来学习一个复杂的目标函数

C）深度学习的关键在于计算观测书记的分层特征及其表示

D）ANN不是深度学习

答案:D

解析：

98.［单选题］使用numpy.arange（O,11,2）表示的结果为?

A）［0,2,4,6,8］

B）［2,4,6,8,10］

O［0,2,4,6,8,10］

D）［0,2,4,6,8,10,12］

答案：C

解析：

99.［单选题］执行以下代码段X=5x-=2x+=3**XPrint（X）时，输出为（）。

A）12

B）20

C）30

D）86

答案：C

解析：

100.［单选题］在一些算法中，为了进行属性之间的比较或运算，需要把不同属性的不同变量取值范围

变换成同一范围，以免使得结果发生扭曲，偏向取值范围大的变量。这一过程称为（）。

A）合并

B）数据聚合

C）归一化

D）数据处理

答案：C

解析：归一化是一种无量纲处理手段,使物理系统数值的绝对值变成某种相对值关系，是简化计算、缩

小量值的有效办法。

IOl.［单选题］客户端首次查询HBaSe数据库时，首先需要从哪个表开始查找（）

A）METΛ

B）R00T

C）用户表

D）信息表

答案：B

解析：

102.［单选题］敏感信息核验中不包含以下哪类信息的核验：（）

A）用户实名制验证

B）联系人验证

C）用户上网行为验证

D）通话交叉验证

答案：C

解析：

103.［单选题］（。是将HadooP生态系统云化的一个组件。

A）Avro

B）HttPFSB

C）Mahout

D）Whirr

答案:D

解析：

104.［单选题］专家系统的正向推理是以O作为出发点，按照一定的策略，应用知识库中的知识

,推断出结论的过程。

A）需要解决的问题

B）已知事实

C）证明结论

D）表示目标的谓词或命题

答案:B

解析：

105.［单选题］下面组件哪个是负布式资源调度与管理的：O

A）YARN

B）Flume

C）Zookeeper

D）Kafka

答案:A

解析：

106.［单选题］下列哪个不属于常用的文本分类的特征选择算法？

A）卡方检验值

B）互信息

C）信息增益

D）主成分分析

答案:D

解析：

107.［单选题］在多元线性回归模型中，若某个解释变量对其余解释变量的判定系数接近于1,则表

明模型中存在（）。

A）异方差

B）序列相关

C）多重共线性

D）高拟合优度

答案：C

解析：

108.［单选题］以下哪个不属于数据治理内容的是（）。

A）理解自己的数据

B）行为规范的制定

C）岗位职责的定义

D）获得更多的数据

答案:D

解析：获得更多的数据不属于数据治理。

109.［单选题］数据变换的策略包括（）。

A）乎滑处理、特征构造、聚集、标准化、离散化中

B）平滑处理、特征构造、聚集、审计、离散化

C）乎滑处理、聚集、标准化、审计、离散化

D）特征构造、聚集、标准化、审计、离散化

答案:A

解析：

110.［单选题］以下哪个不是HDFS的进程（）

A）SecondaryNode

B）NameNode

C）ResourceManager

D）DataNode

答案：C

解析：

IlL［单选题］关于SeCondaryNameNOde哪项是正确?（）

A）它是

B）它对内存没有要求

C）它的目的是帮助

D）SecondaryNameNode

答案：C

解析：

112.［单选题］基于Bagging的集成学习代表算法有（）。

A）Adaboost

B）GBDT

C）XGB00ST

D）随机森林

答案:D

解析：基于Boosting的集成学习算法的集成学习代表算法包含AdaboOst、GBDT.XGBOOST,随机森

林是基于Baggingo

113.［单选题］下面哪项是HadooP的作者？O

A）Martin

B）Doug

C）Mark

D）Kent

答案:B

解析：

114.［单选题］数据销毁环节的安全技术措施有通过软件或物理方式保障磁盘中存储数据的（｝,不可

恢复，如数据销毁软件、硬盘消磁机、硬盘粉碎机等。

A）暂时隔离

B）暂时删除

C）永久删除

D）不做处理

答案：C

解析：

115.［单选题］表示数据分布是否为对称性的统计量是（）。

A）方差

B）中位数

C）偏态

D）峰态

答案：C

解析：偏态（Skewness）描述数据分布的对称性，当偏态系数等于O时，对应数据的分布为对称

;否则分布为非对称。峰态（Kurtosis）描述数据分布的平峰或尖峰程度，当峰态系数等于0时

,数据分布为标准正态分布；否则比正态分布更平或更尖。

116.［单选题］执行以下代码段X=12deffl（a,b=x）：print（a,b）x=15fl（4）时，输出为

（一）o

A）154

B）415

C）412

D）124

答案：C

解析：

117.［单选题］大数据时代的一大特征是万物互联与融合，下列说法错误的是Oo

A）人均入网设备增加

B）融入各个领域行业

C）个人信息安全问题凸显

D）信息安全领域影响不大

答案:D

解析：

118.［单选题］以下关于人机交互，描述错误的是：（）

A）人机交互是一门研究系统与用户之间的交互关系的学科

B）人机交互界面通常是指用户不可见的部分

C）系统可以是各种各样的机器，也可以是计算机化的系统和软件

D）用户通过人机交互界面与系统交流，并进行操作

答案:B

解析：

119.［单选题］下列关于智能物流的描述错误的是Oo

A）是利用智能化技术，使物流技术能模仿人的智能，具有思维、感知、学习、推理判断和自行解决

物流中某些问题的能力

B）实现物流资源优化配置和有效调度，并且提示物流系统效率

C）智能物流概念源于2010年IBM发布的研究报告《智慧的未来供应链》

D）提高了物流活动的一体化，增加了物流的复杂性

答案:D

解析：

120.［单选题］在训练集上每学到一条规则，就将该规则覆盖的训练样例去除，然后以剩下的训练样

例组成训练集重复上述步骤。这个过程称为（_）。

A）规则学习

B）直推学习

C）强化学习

D）序贯覆盖

答案：D

解析：

121.［单选题］（）不是专门用于可视化时间空间数据的技术

A）等高线图

B）饼圈

C）曲面图

D）矢量场圈

答案:B

解析：

122.［单选题］下列不是hadoop核心组件的是Oo

A）JobTracker

B）TaskTracker

C）HDFS

D）Hbase

答案：D

解析：

123.［单选题］如果使用RediS统计topN元素，可以使用哪些数据类型？

A）Set

B）List

C）Storedset

D）Hash

答案：C

解析：

124.［单选题］HDFS中的block默认保存几个备份。（）

A）3份

B）2份

C）I份

D）不确定

答案:A

解析：

125.［单选题］以下关于同步赋值语句描述错误的选项是：

A）同步赋值能够使得赋值过程变得更简洁

B）判断多个单一赋值语句是否相关的方法是看其功能上是否相关或相同

C）设X,y表示一个点的坐标，则x=a；y=b两条语句可以用x,y=a,b一条语句来赋值

D）多个无关的单一赋值语句组合成同步赋值语句，会提高程序可读性

答案:D

解析：

126.［单选题］下列关于HadOoPAPl的说法错误的是O

A）Hadoop的文件APl不是通用的，只用于HDFS文件系统

B）COnfigUration类的默认实例化方法是以HDFS系统的资源配置为基础的

C）FileStatUS对象存储文件和目录的元数据

D）FSDataInPUtStream是java.io.DatalnPUtStream的子类

答案:A

解析：

127.［单选题］2015年，美国2150万个社保账号被黑客盗取。该事件反映出的问题是（）。

A）大数据时代个人信息安全成为关注热点

B）美国政府的信息安全技术水平低

C）黑客只对个人社保账号感兴趣

D）美国公民的信息安全意识普遍不高

答案:A

解析：

128.［单选题］下面关于自定义视图列的说法错误的是（）。-

A）自定义列名称的顺序与AS后SELECT字段列表的顺序一致

B）自定义列名称的数量必须与SELECT字段列表的数量一致

C）自定义列名称的视图在操作数据时只能使用自定义的列名称

D）以上说法都不正确

答案:D

解析：

129.［单选题］BASE原则的含义不包括（）

A）基本可用

B）柔性状态

C）最终一致

D）基础条件

答案:D

解析：

130.［单选题］在深度学习中，我们经常会遇到收敛到localminimum,下列不属于解决

localminimum

问题的方法是（）。

A）随机梯度下降

B）设置Momentum

C）设置不同初始值

D）增大batchsize

答案:D

解析：增大batchsize无法解决IOCalminimUm问题。

131.［单选题］有N个样本，一半用于训练，一半用于测试。若增大N值，则训练误差和测试误差之间

的差距会（）

A）增大

B）减小

C）不确定

D）无变化

答案：B

解析：

132.［单选题］下列哪个不是情感分析的应用场景？

A）数据挖掘

B）信息检索

C）文本分词

D）市场营销

答案：C

解析：

133.［单选题］下列关于键值数据库的描述，哪一项是错误的：（D）

A）扩展性好，灵活性好

B）大量写操作时性能高

C）无法存储结构化信息

D）条件查询效率高

答案:D

解析：

134.［单选题］下列能体现大数据思维的是（）

A）大数据思维是要追求数据的精确性

B）大数据思维是要抓住样本数据

C）大数据思维是要通过少量数据观察数据间关系

D）大数据思维是要从自然思维转变为智能思维

答案:D

解析：

135.［单选题］根据《大数据风控平台项目操作手册》，贷后预警处置，是基于O维度对目标客户

的同一批次贷后预警信号一并处置，并非是基于信号维度，逐一对信号进行处置。

A）客户

B)B.信号

C)C.支行

D)D.分行

答案:A

解析：

136.［单选题］执行以下代码段defgreet_user(username)：print("Hello,"+username,title()

+"!")greet_user('jesse')时，输出为(___)。

A)Hello!

B)jesse!

C)Hello,jesse!

D)Hello,Jesse!

答案:D

解析：

137.［单选题］下列选项中优先级级别最高的是()。-

A)~(按位取反)

B)^

O&&

D)&

答案:A

解析：

138.［单选题］下列选项中无法通过大数据技术实现的是？

A)商业模式发现

B)信用评估

C)商品推荐

D)运营分析

答案:A

解析：

139.［单选题］以下关于HiVeSQL基本操作描述正确的是？

A)创建外部表必须要指定IoCatiOn信息

B)创建外部表使用external关键字，创建普通表需要指定internal关键字

C)加载数据到HiVe时源数据必须是HDFS的一个路径

D)创建表时可以指定列分割符

答案:D

解析：

140.［单选题］留出法直接将数据集划分为()个互斥的集合。

A)一

B)二

C）三

D）四

答案：B

解析：留出法（hold-out）直接将数据集D划分为两个互斥的集合，其中一个集合作为训练集，另

一个作为测试集To

141.［单选题］（）是表示数据分布是否为对称性的统计量。

A）方差

B）中位数

C）偏态

D）峰态

答案：C

解析：偏态（SkeWneSS）描述数据分布的对称性。当"偏态系数"等于0时，对应数据的分布为对称，否则

分布为非对称；峰态（KUrtoSiS）描述数据分布的平峰或尖峰程度。当"峰态系数"等于0时,数据分布为

标准正态分布，否则比正态分布更平或更尖。

142.［单选题］数据可视化的方法论基础是（）。

A）统计图表

B）视觉编码

C）图论

D）图形符号学

答案:B

解析:数据可视化方法体系的方法论基础主要是指视觉编码。视觉编码为其他数据可视化方法提供了

方法论基础，奠定了数据可视化方法体系的根基。

143.［单选题］RDD中的数据被（）在集群中，使得任务可以并行执行。

A）顺序存储

B）连续存储

C）分块存储

D）分区存储

答案:D

解析:RDD为分区存储。

144.［单选题］硬件故障被认为是常态，为了解决这个问题，HDFS设计了副本机制，默认情况下，一

份文件，HDFS会存放（）份。

A）3

B）5

D）l

答案:A

解析：

145.［单选题］泛在电力物联网系统建设必须严格遵循公司统一的O数据模型和数据、采集、定义

、编码、应用等标准，确保数据共享。

A)E-R模型

B)SG-CIM模型

C)IMS模型

D)DBTG模型

答案：B

解析：

146.［单选题］下面描述错误的是：()

A)“探针盒子”就是一款自动收集用户隐私的产品

B)许多顾客在使用WiFi之后会收到大量的广告信息，甚至自己的手机号码也会被当做信息进行多次

买卖

C)在免费上网的背后，其实也存在着不小的信息安全风险，或许一不小心，就落入了电脑黑客们设

计的WiFi陷阱之中

D)免费WIFl都是安全的，可以放心使用

答案:D

解析：

147.［单选题］配置HadoOP时，JAVAJ40ME包含在()配置文件中

ʌ)hadoop-default.xml

B)hadoop-env.sh

C)hadoop-site.xml

D)configuration,xs

答案:B

解析：

148.［单选题］下述O不是人工智能中常用的知识格式化表示方法。

A)框架表示法

B)状态空间表示法

C)语义网络表示法

D)形象描写表示法

答案：D

解析：

149.［单选题］当用户选择的列是集合数据类型时，HiVe会使用()格式应用于输出

A)string

B)map

C)json

D)list

答案：C

解析：

150.［单选题］部署HiVe时元数据信息通常存在哪个数据库中

A）SqlServer

B）HBase

OMySql

D）OracleRAC

答案：C

解析：

151.［单选题］（）是从总体N个单位中随机地抽取n个单位作为样本的抽样方法。每个单位被抽中的概

率是相等的，属于“等概率抽样”。

A）方便抽样

B）分层抽样

C）整群抽样

D）简单随机抽样

答案:D

解析：

152.［单选题］下列哪些不是HBase的特点O

A）高可靠性

B）高性能

C）面向列

D）紧密性

答案:D

解析：

153.［单选题］以下哪个选项不能做为Kafka的COnSUmer?

A）Hadoop

B）Real-timeMonitoring

C）FrontEnd

D）DataWarehouse

答案：C

解析：

154.［单选题］下面回归模型中的哪个步骤/假设最能影响过拟合和欠拟合之间的平衡因素（）

A）多项式的阶数

B）是否通过矩阵求逆或梯度下降学习权重

C）使用常数项

D）使用正则化

答案:A

解析：

155.［单选题］根据《承德银行大数据贷后风险预警信号管理办法（试行）》，承德辖区支行的红色

级信号，支行管户客户经理应在接收到系统所推送信号当日立即联系客户开展预警信号风险核实工

作，限期O个工作日内制定出针对性的处置措施

A）l

B）B.3

OC.5

D）D.10

答案:B

解析：

156.［单选题］下面不属于数据科学家的主要职责有（_）。

A）制定“数据战略”

B）研发“数据产品”

C）模拟“数据学习”

D）构建“数据生态系统”

答案：C

解析：

157.［单选题］一切以数据作为驱动或者核心的产品叫做O

A）创新性产品

B）数据产品

C）风控产品

D）核心产品

答案:B

解析：

158.［单选题］查找条件为：姓名为NULL的记录（）

A）WHERENAMENULL

B）∖WHERENAMEISNULL

OWHERENAME=NULL

D）∖WHERENAME==NULL

答案:B

解析：

159.［单选题］大数据的O体现在大数据是基于互联网的实时动态数据，而不是历史的或严格控制

环境下产生的内容

A）社会性

B）广泛性

C）公开性

D）动态性

答案：D

解析：

160.［单选题］感知机只有（_）神经元进行激活函数处理，即只拥有一层功能神经元。

A）输入层

B）输出层

C）第一层

D）第二层

答案:B

解析：

161.［单选题］大数据元年是指OO

A）2012年

B）2011年

C）2013年

D）2010年

答案：C

解析：

162.［单选题］关于批量数据处理组件的描述不正确的是？

A）HiVe:传统SQL批处理引擎，用于处理SQL类批处理作业，使用广泛海量数据下表现稳定，但是处理

速度较慢。

B）SParkSQL:新型SSQL批处理引擎，用于处理SQL类批处理作业，适合海量数据，处理速度高效。

OSpark:新型批处理引擎，可以用于处理非SQL类，尤其是数据挖掘和机器学习类批处理作业，适

合海量数据，处理速度高效。

D）MaPRedUCer传统批处理引整用于处理非SOL类，尤其是数据挖掘和机器学习类批处理作业，使用广

泛，海量数据下表现不稳定，但是处理速度较快。

答案:D

解析：

163.［单选题］以下对于离线批处理的概念理解错误的是哪一项？

A）离线批处理针对的数据量较大

B）离线批处理占用的内存资源较多。

C）斋线批收处理对数据处理的时延要求不高。

D）离线批处理通常MR作业，SPark作业或者HQL作业实现。

答案:B

解析：

164.［单选题］多分类图像识别任务一般采用什么编码方式作为输出。O

A）二进制编码

B）One-hot编码

C）霍夫曼编码

D）曼切斯特编码

答案:B

解析:

165.［单选题］Flume传输数据过程中，为了防止数据不丢失，使用的Channel类型是？

A）MemoryChannel

B）FileChanne

C）JDBCChanne

D）HDESChannel

答案:B

解析：

166.［单选题］以下描述中不正确的是（—）。

A）若欲预测的是离散值，则此学习任务称为分类

B）若预测的是连续值，则此类学习任务称为回归

C）学得的模型适用于新样本的能力，称训练能力

D）从数据中学得模型的过程称为学习

答案：C

解析：

167.［单选题］对于ElaStiCSearch描述不正确的是？

A）对LUCene进行了扩展

B）不支持结构化数据存储

C）能够水平扩展

D）基于LUCene的全文检素服务

答案:B

解析：

168.［单选题］下面不属于词袋模型的缺点的是？

A）词汇表的词汇需要经过精心设计

B）表示具有稀疏性

C）丢失词序忽略了上下文

D）模型复杂，不利于实施

答案:D

解析：

169.［单选题］大数据计算服务（MaxConipute,原ODPS）图计算框架再计算过程中通过对图进行编辑

、演化最终求解出结果，在计算过程中用户可以对图进行（）编辑操作。

A）增加边

B）删除点

C）修改边的权值

D）增加点

答案：C

解析：

170.［单选题］sciPy中模块StatS的作用是什么?

A)统计

B)差值计算

C)程序输入输出

D)稀疏矩阵

答案:A

解析：

171.［单选题］数据仓库的最终目的是()

A)收集业务需求

B)建立数据仓库逻辑模型

C)开发数据的应用分析

D)为用户和业务部门提供决策支持

答案:D

解析：

172.［单选题］运营人员为了搞促销，需要找出目标客户名单，这批客户的信息存储在大数据计算服

务(MaxCompute,原ODPS)的USer表中，并且用户名字段USername中包含‘'vip"字样，通过执行

SQL语句()可以找出这批客户。

A)select*fromuserwhereusernamecontains('vip')

B)select*fromuserwhereusername='vip,

C)select*fromuserwhereusernamelike'*vip*'

D)select*fromuserwhereusernamelike,%vip%,

答案：D

解析：

173.［单选题］Apriori算法的核心思想是()

A)通过频繁项集生成和情节的向下封闭检测两个阶段来挖掘候选集

B)通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集

C)数据集中包含该项集的数据所占数据集的比例，度量一个集合在原始数据中出现的频率

D)若某条规则不满足最小置信度要求，则该规则的所有子集也不满足最小置信皮要求

答案:B

解析：

174.［单选题］下列选项中，用于删除缺失值的方法是()

A)isnull()

B)delete()

C)dropna()

D)fillna()

答案：C

解析：

175.［单选题］以下PythOn代码运行结果为(___)0$；$defSum(a,b=3,c=5)：$；$returnsum(［a,

b,c］)$；Sprint(Sum(a=8,c=2))$；$print(Sum(8))$；$print(Sum(8,2))

A)13,16,15

B)10,8,10

C)13,8,10

D)10,16,10

答案:A

解析：

176.［单选题］F1参数的大小反映了模型的(_)。

A)准确度

B)误差

C)稳定性

D)偏差

答案：C

解析：

177.［单选题］下列说法错误的是()

A)大数据，不仅是以此技术革命，同时也是以此思想革命。

B)舍恩伯格指出大数据时代最大的转变就是思维方式的转变。

C)并非所有的规律都可以用简单的原理来描述。

D)世界的一切都是可知的，都可以用简单的原理、公式描述出来。

答案：D

解析：

178.［单选题］将基础设施作为服务的云计算服务类型是()

A)IaaS

B)SaaS

C)PaaS

D)三个选项都是

答案:A

解析：

179.［单选题］()是二维随机变量的分布。

A)正态分布

B)二项分布

C)边缘分布

D)指数分布

答案：C

解析：二维随机变量的分布有边缘分布和条件分布。

180.［单选题］大数据的基本特征不包括()。

A)数据量大

B)据类型繁多

C)处理速度快

D)价值密度高

答案:D

解析：

181.［单选题］以下不属于大数据重要意义的是()。

A)大数据成为推动经济转型发展的新动力

B)大数据成为重塑国家竞争优势的新机遇

C)大数据成为提升政府治理能力的新途径

D)大数据会增加经济发展的成本

答案:D

解析:大数据可以促进经济的发展,催生新的业态，在辅助商业决策、降低运营成本、精准市场的营销

方面都能发挥作用，进一步提升企业竞争力。

182.［单选题］根据泛在电力物联网建设战略安排，第一个阶段是到O年，初步建成泛在电力物联

网。

A)2020

B)2021

02024

D)2025

答案:B

解析：

183.［单选题］长短时记忆神经网络通过什么来缓解梯度消失问题？

A)增加网络深度

B)减少网络神经元

C)使用双向的网络结构

D)增加一个用来保存长期状态的单元

答案:D

解析：

184.［单选题］下列关于常见的动作(Action)和转换(Transformation)操作的APl解释错误的是(

)

A)filter(func)：筛选出满足函数func的元素，并返回一个新的数据集

B)map(func)：将每个元素传递到函数func中，并将结果返回为一个新的数据集

OcountO:返回数据集中的元素个数

D)take(n)：返回数据集中的第n个元素

答案：D

解析：

185.［单选题］假设在庞大的数据集上使用LOgiStiC回归模型，可能遇到一个问题,Logistic回归需

要很长时间才能训练，如果对相同的数据进行逻辑回归，则花费更少的时间，并给出比较相似的精度的

方法是()。

A)降低学习率，减少选代次数

B)降低学习率，增加迭代次数

C)提高学习率，增加迭代次数

D)增加学习率，减少迭代次数

答案：D

解析：如果在训练时减少选代次数,就能花费更少的时间获得相同的精度，但需要增加学习率。

186.［单选题］Spark的默认存储级别()

A)MEMoRYj)NLY

B)MEMORY_ONLYSER

C)MEMoRY_AND_DlSK

D)MEMORY_ANDJ)ISKSER

答案:A

解析：

187.［单选题］下列选项中那些是HadooP2.X版本独有的进程()

A)JobTracker

B)TaskTracker

C)NodeManager

D)NameNode

答案：C

解析：

188.［单选题］HadoopL0中,HadOOP内核的主要组成是()

A)HDFS和MaPRedUCe

B)HDFS和Yarn

C)Yarn

D)MaPRedUCe和Yarn

答案:A

解析：HadoOPL0中，HadoOP内核的主要是由HDFS和MaPRedUCe两个系统组成

189.［单选题］下列关于文本分类的说法不正确的是()o

A)文本分类是指按照预先定义的主题类别，由计算机自动地为文档集合中的每个文档确定一个类别

B)文本分类系统大致可分为基于知识工程的分类系统和基于机器学习的分类革统

C)文本的向量形式一般基于祠袋模型构建，该模型考虑了文本词语的行文顺序

D)构建立本的向量形式可以归结为文本的特征选择与特征权重计算两个步骤

答案：C

解析：

190.［单选题］下列关于网络用户行为的说法中，错误的是（）

A）网络公司能够捕捉到用户在其网站上的所有行为

B）用户离散的交互痕迹能够为企业提升服务质量提供参考

C）数字轨迹用完即自动删除

D）用户的隐私安全很难得以规范保护

答案：C

解析：

191.［单选题］Hadoop生态系统中，（—）主要解决的是日志类数据的收集和处理问题。

A）Mahout

B）Flume

C）Sqoop

D）HBase

答案：B

解析：

192.［单选题］专家系统的推理机的最基本的方式是Oo

A）直接推理与间接推理

B）正向推理与反向推理

C）逻辑推理与非逻辑推理

D）准确推理与模糊推理

答案：B

解析：

193.［单选题］O是大数据审计技术发展的最强大动力

A）人才培养

B）科技发展

C）制度建设

D）审计方式转变

答案:A

解析：

194.［单选题］数据管理成熟度模型--DMM将一个机构的数据管理工作抽象成6个关键过程域，即

数据战略、（）、数据质量、平台与架构、数据操作以及辅助性过程。

A）数据管理

B）数据治理

C）数据策略

D）数据安全

答案:B

解析：

195.［单选题］（）先对数据集进行特征选择，然后再训练学习器

A）过滤式选择

B）包裹式选择

C）稀疏表示

D）嵌入式选择

答案：A

解析：

196.［单选题］美国海军军官莫里通过对前人航海日志的分析，绘制了新的航海路线图，标明了大风

与洋流可能发生的地点。这体现了大数据分析理念中的（）

A）在数据基础上倾向于全体数据而不是抽样数据

B）在分析方法上更注重相关分析而不是因果分析

C）在分析效果上更追究效率而不是绝对精确

D）在数据规模上强调相对数据而不是绝对数据

答案:B

解析：

197.［单选题］创建Loader作业中，可以在以下哪个步骤中设置过滤器类型？

A）输入设置

B）转换

C）基本信息

D）输出

答案:A

解析：

198.［单选题］HDFS默认的一个块大小是（）。

A）64MB

B）8KB

C）32KB

D）16KB

答案:A

解析：

199.［单选题］下列关于MaPRedUCe工作流程，哪个描述是正确的？

A）所有的数据交换都是通过MaPRedUCe框架自身去实现的

B）不同的MaP任务之间会进行通信

C）不同的RedUCe任务之间可以发生信息交换

D）用户可以显式地从一台机器向另一台机器发送消息

答案:A

解析：

200.［单选题］（）是指通过训练而得到一种识别规则，通过此识别规则可以得到一种特征分类，使

图像识别技术能够得到高识别率。

A）预处理

B）特征抽取和选择

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据开发基础练习题及答案10-2023背题版

文档简介

温馨提示

最新文档

评论

大数据开发基础练习题及答案10-2023背题版

文档简介

温馨提示

最新文档

评论

相关文档