2022年大数据应用知识考试题库（含答案）

上传人：奔*** IP属地：河北上传时间：2023-05-18 格式：PDF 页数：210 大小：20.15MB 积分：12 举报 版权申诉

已阅读5页，还剩205页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2022年大数据应用知识考试题库(含答案)

一'单选题

1.图像平滑会造成()。

A、图像边缘模糊化

B、图像边缘清晰化

C、无影响

D、以上答案都不正确

答案：A

解析：为了抑制噪声，使图像亮度趋于平缓的处理方法就是图像平滑。图像平滑

实际上是低通滤波,平滑过程会导致图像边缘模糊化。

2.关于Spark的说法中，()是错误的。

A、采用内存计算模式

B、可利用多种语言编程

C、主要用于批处理

D、可进行map()操作

答案：C

解析：HadoopMapReduce主要用于批处理，与Hadoop不同的是,Spark更为通用一

些，可以很好地支持流计算、交互式处理、图计算等多种计算模式。

3.以下关于代码规范描述,哪些是错误的()。

A、类总是使用驼峰格式命名，即所有单词首字母大写其余字母小写。

B、除特殊模块_init_之外,模块名称都使用不带下划线的小写字母。

C、不要滥用*args和**kwargs

D、建议把所有方法都放在一个类中

答案：D

解析：以下关于代码规范描述,把所有方法都放在一个类中是错误的。

4.下面关于词袋模型说法错误的是()。

A、词袋模型使用一个多重集对文本中出现的单词进行编码

B、词袋模型不考虑词语原本在句子中的顺序

C、词袋模型可以应用于文档分类和检索,同时受到编码信息的限制

D、词袋模型产生的灵感来源于包含类似单词的文档经常有相似的含义

答案：C

解析：文本处理基础知识。

5.对数值型输出，最常见的结合策略是()。

A、投票法

B、平均法

C、学习法

D、排序法

答案：B

解析：对数值型输出，最常见的结合策略是平均法。

6.以下有关计算机编程语言说法错误的是()。

A、编程语言是用于书写计算机程序的语言；

B、计算机语言可分为机器语言、汇编语言、高级语言；

C、计算机能识别和执行所有编程语言写的程序;

D、C/C++、pascalxjavpython都属于高级编程语言;

答案：C

解析：只有机器语言才能被计算机直接识别,Python等高级语言源程序,不能直

接运行,必须翻译成机器语言才能执行。

7.Python中StatsmodeI库和()库关系密切。

A、Numpy

B、Scipy

Cvjieba

D、Pandas

答案：D

解析：StatsmodeIs建立在pandas之上。

8.以下属于考虑词语位置关系的模型有()。

A、词向量模型

B、词袋模型

C、词的分布式表示

D、TF-IDF

答案：A

解析：词向量模型考虑通过中间词预测邻近词,需要考虑词语顺序位置。

9.建立一个词典[AIex,wants,to,go,pIay,footbaII,shopping],下面的句子:AI

exwantstogotopIayfootbaII可以用向量表示为()。

A、[1,1,2,1,1,1,0]

B、［1,1,2,1,1,11

C、[1,1,1,1,1,1,0]

D、[1,1,1,1,1,1,1]

答案：A

解析：向量中每个元素代表该词在句中出现的次数，比如to在句中出现两次,所

以第3个元素应为2。

10.()是指给目标用户产生的错误或不准确的视觉感知,而这种感知与数据可视

化者的意图或数据本身的真实情况不一致。

A、视觉假象

B、视觉认知

C、视觉感知

D、数据可视

答案：A

解析：视觉假象(VisualIIlusion)是数据可视化工作中不可忽略的特殊问题。视

觉假象是指给目标用户产生的错误或不准确的视觉感知，而这种感知与数据可视

化者的意图或数据本身的真实情况不一致。视

11.以下滤波器对图像中的椒盐噪声滤波效果最好的是()。

A、中值滤波

B、均值滤波

C、最大值滤波

D、最小值滤波

答案:A

解析：中值滤波对图像椒盐噪声的滤波效果最好。

12.以下哪种方法不能成功创建一个数组()。

A、a=np.array([1,2,3,4])

B、b=np.zeros((3,4))

Gc=np.ones(1,2,3,4)

D、d=np.arange(10,30,5)

答案：c

解析：onesO函数必须传入一个数组类型的维度参数所表示的序列,如列表或元

组,所以C无法成功创建数组,改为np.ones((1,2,3,4))就可以。

13.MapReduce中，Shuffle操作的作用是()。

A、合并

B、排序

C、降维

D、分区

答案：B

解析：Shuffle—确保每个reduce0函数的输入都按键排序。

14.一个MapReduce程序中的MapTask的个数由什么决定0

A、输入的总文件数

B、客户端程序设置的mapTask的个数

C、FiIeInputFormat.getSpIits(JobContextjob)计算出的逻辑切片的数量

D、输入的总文件大小/数据块大小

答案：C

解析：MapReduce编程模型中的mapTask的并行度决定机制是由FilelnputForm

at.getSpIits(JobContextjob)决定的。该方法的返回值是List<InputSpIit>sp

Iits,这个结果集合中的每个InputSpIit就是一个逻辑输入切片,每个逻辑输入

切片在默认情况下是会要启动一个MapTask任务进行计算的，因此C对。

15.对于SVM分类算法,待分样本集中的大部分样本不是支持向量,下列说法正确

的是()。

A、需要将这些样本全部强制转换为支持向量

B、需要将这些样本中可以转化的样本转换为支持向量,不能转换的直接删除

C、移去或者减少这些样本对分类结果没有影响

D、以上都不对

答案：C

解析：支持向量机的一个重要性质:训练完成后,大部分的训练样本都不需保留，

最终模型仅与支持向量有关。

16.下列对于sigmoid函数的说法,错误的是()

A、存在梯度爆炸的问题

B、不是关于原点对称

G计算exp比较耗时

D、存在梯度消失的问题

答案：A

解析：对于sigmoid函数,S型函数图像向两边的斜率逼近0,因此随着网络层增

加,梯度消失比梯度爆炸更容易发生的多。

17.决策树模型的规模应当是()。

A、越复杂越好

B、越简单越好

C、适当限制其复杂程度

D、尽可能利用所有特征

答案：C

解析：决策树模型的规模复杂可能产生过拟合，因此并非越复杂做好,应适当限制

其复杂程度。

18.在Windows系统中，关闭Python终端会话常用快捷键是()。

A、CtrI+C

B、Ctrl+D

C、Ctrl+E

D、Ctrl+Z

答案：D

解析：在Windows系统中，关闭Python终端会话常用快捷键是CtrI+Z。

19.数据可视化的本质是()。

A、将数据转换为知识

B、将知识转换为数据

C、将数据转换为信息

D、将信息转换为智慧

答案：A

解析：可视化分析学模型认为，数据可视化的本质是将数据转换为知识,而不能仅

仅停留在数据的可视化呈现层次之上,并提出从数据到知识的转换途径有两个：

一是可视化分析,另一个是自动化建模。

20.在HDFS中()是文件系统的工作节点。

A、DataNode

B、Client

C、NameNode

DvFlume

答案：A

解析：数据节点(DataNode)是分布式文件系统HDFS的工作节点,负责数据的存储

和读取,会根据客户端或者是名称节点的调度来进行数据的存储和检索,并且向

名称节点定期发送自己所存储的块的列表。每个数据节点中的数据会被保存在各

自节点本地Linux文件系统中。

21.图像中虚假轮廓的出现就其本质而言是()。

A、图像的灰度级数不够多而造成的

B、图像的空间分辨率不够高而造成的

C、图像的灰度级数过多而造成的

D、图像的空间分辨率过高而造成的

答案：A

解析：图像中的虚假轮廓最易在平滑区域内产生。平滑区域内灰度应缓慢变化，

但当图像的灰度级数不够多时会产生阶跃。所以图像中虚假轮廓的出现就其本质

而言是图像的灰度级数不够多而造成的,选Ao

22.对于数据3,3,2,3,6,3,10,3,6,3,2.①这组数据的众数是3;②这组数据的众

数与中位数的数值不相等;③这组数据的中位数与平均数的数值不相等;④这组

数据的平均数与众数的数值相等.其中正确结论的个数为()。

A、1

B、2

C、3

D、4

答案：B

解析：众数是指一组中出现次数最多的数，中位数是按顺序排列的一组数据中居

于中间位置的数,平均值是各数值加总求和再除以总的个数。此题中众数为3,中

位数为3,平均值为4,故①和③正确。

23.文本信息往往包含客观事实和主观情感,对于文本的情感分析主要是识别文

章中的主观类词语,其中()不适用于情感分析。

A、表达观点的关键词

B、表达程度的关键词

C、表达情绪的关键词

D、表达客观事实的关键词

答案：D

解析：D中表达客观事实的关键词是对事物的客观性描述,不带有感情色彩和情

感倾向,即为客观性文本,不适用于情感分析。而主观性文本则是作者对各种事物

的看法或想法,带有作者的喜好厌恶等情感倾向,如ABC中表观点、程度和情绪的

关键词都是带有情感倾向的主观性文本,适用于情感分析。

24.scipy.stats,moment函数的作用是()。

A、随机变量的概率密度函数

B、随机变量的累积分布函数

C、随机变量的生存函数

D、计算分布的非中心矩

答案：D

25.以下哪些算法是基于规则的分类器()。

A、C4.5

B、KNN

C、NaiveBayes

DvANN

答案：A

解析：基于规则的分类器有决策树、随机森林、Aprior。

26.scipy.stats模块中对随机变量进行随机取值的函数是()。

A、rvs

B、pdf

Gcdf

D、sf

答案：A

解析：stats模块中每个分布都rvs函数,对随机变量取值。

27.以下不属于大数据重要意义的是()。

A、大数据成为推动经济转型发展的新动力

B、大数据成为重塑国家竞争优势的新机遇

C、大数据成为提升政府治理能力的新途径

D、大数据会增加经济发展的成本

答案：D

解析：大数据可以促进经济的发展，催生新的业态,在辅助商业的决策'降低运营

成本、精准市场的营销方面都能发挥作用，进一步提升企业竞争力。

28.Spark那个组件用于支持实时计算需求()。

AxSparkSQL

B、SparkStreaming

C、SparkGraphX

D、SparkMLLib

答案：B

解析：SparkStreaming用于实时处理。

29.Mapreduce适用于()

A、任意应用程序

B、任意可在windowsservet2008上运行的程序

C、可以串行处理的应用程序

D、可以并行处理的应用程序

答案：D

解析：Mapreduce适用于并行处理的应用程序

30.使用Numpy读取csv文件应使用以下哪个函数()。

A、save()

B、read_csv()

CxIoadtxt()

D、open()

答案：C

解析：Numpy中设有读取csv文件的函数，使用np.loadtxt可读取csv文件。

31.读代码,请写出程序正确的答案()。

#!/usr/bin/envpython3

N=100

Sum=0

Counter=1

WhiIecounter<=n:

Sum+counter

Counter+=1

Print("1到％(1之和为:%d"%(n,sum))

A、结果：1到100之和为:5000

B、结果：1到100之和为:0

G结果:1到100之和为:2050

D、结果：1到100之和为:5020

答案：B

解析：循环中没有给sum赋值,故sum=0

32.以下哪个参数可以使数组计算沿指定轴进行应用操作()。

Axaxis

B、inplace

Cxdata

D、dtype

答案：A

解析：通过指定axis参数,可以沿数组的指定轴应用操作。

33.PageRank是一^t'函数，它对Web中的每个网页赋予一个实数值。它的意图在

于网页的PageRank越高，那么它就()。

Av相关性越异］

B、越不重要

C、相关性越低

D、越重要

答案：D

解析：PageRank认为,如果A页面有一个链接指向B页面,那就可以看作是A页

面对B页面的一种信任或推荐。所以，如果一个页面的反向链接越多,再根据这些

链接的价值加权越高，那搜索引擎就会判断这样的页面更为重要。

34.机器学习中L1正则化和L2正则化的区别是()。

A、使用L1可以得到稀疏的权值，使用L2可以得到平滑的权值

B、使用L1可以得到平滑的权值，使用L2可以得到平滑的权值

C、使用L1可以得到平滑的权值，使用L2可以得到稀疏的权值

D、使用L1可以得到稀疏的权值，使用L2可以得到稀疏的权值

答案:A

解析：使用L1可以得到稀疏的权值，使用L2可以得到平滑的权值。

35.下面哪个操作是窄依赖()

A、join

B、filter

C、group

Dxsort

答案：B

解析：spark中常见的窄依赖操作包括map,filer,union,sample等,宽依赖的操

作包括reducebykey,groupbykey,joinWo

36.数据科学中，人们开始注意到传统数据处理方式中普遍存在的“信息丢失”现

象,进而数据处理范式从()转向()。

A、产品在先，数据在后范式;数据在先，产品在后范式或无模式

B、模式在先，产品在后范式;产品在先，模式在后范式或无模式

C、数据在先，模式在后范式或无模式;模式在先,数据在后范式

D、模式在先，数据在后范式;数据在先，模式在后范式或无模式

答案:D

解析：传统关系数据库中，先定义模式,然后严格按照模式要求存储数据;当需要

调整模式时,不仅需要数据结构,而且还需要修改上层应用程序。然而,NoSQL技

术则采用了非常简单的Key-VaIue等模式在后(SchemaLater)和无模式(SchemaI

ess)的方式提升了数据管理系统的自适应能力。当然,模式在后(SchemaLater)

和无模式(Schemaless)也会带来新问题,如降低了数据管理系统的数据处理能力。

37.假如我们使用非线性可分的SVM目标函数作为最优化对象,我们怎么保证模

型线性可分()。

A、设C=1

B、设C=0

C\设c=无穷大

D、以上答案都不正确

答案：c

解析：C无穷大保证了所有的线性不可分都是可以忍受的。

38.假定你现在训练了一个线性SVM并推断出这个模型出现了欠拟合现象,在下

一次训练时,应该采取下列什么措施()

A、增加数据点

B、减少数据点

C、增加特征

D、减少特征

答案：C

解析：欠拟合是指模型拟合程度不高，数据距离拟合曲线较远,或指模型没有很好

地捕捉到数据特征,不能够很好地拟合数据。可通过增加特征解决。

39.两个变量相关，它们的相关系数r可能为0„这句话是否正确()

A、正确

B、错误

答案：A

解析：Pearson相关系数r=0,这表示两个变量间不存在线性相关关系。

40.一幅数字图像是()。

A、一个观测系统

B、一个由许多像素排列而成的实体

C、一个2-D数组中的元素

D、一个3-D空间中的场景

答案：C

解析：数字图像,又称数码图像或数位图像，是二维图像用有限数字数值像素的表

7J\o

41.执行以下代码段

Print(booI('False'))

Print(booI())

时输出为0。

A、TrueTrue

B、TrueFaIse

CxFaIseTrue

DxFaIseFaIse

答案:B

解析：这里'False'只是字符串

42.以下说法正确的是：()。1.一个机器学习模型,如果有较高准确率，总是说明这

个分类器是好的2.如果增加模型复杂度,那么模型的测试错误率总是会降低3.

如果增加模型复杂度,那么模型的训练错误率总是会降低

A、1

B、2

C、3

D、1and3

答案：C

解析：如果增加模型复杂度,那么模型的测试错误率总是会降低，训练错误率可能

降低,也可能增高。

43.从网络的原理上来看,结构最复杂的神经网络是()。

A、卷积神经网络

B、长短时记忆神经网络

C、GRU

D、BP神经网络

答案：B

解析：从网络的原理上来看,结构最复杂的神经网络是LSTMo

44.txt=open(fiIename)返回的是()。

A、变量

B、常数

C、文件内容

D、文件对象

答案：D

解析：txt=open(fiIename)返回的是文件对象。

45.pipinstaIIscipy==1.7与pipinstaIIscipy两者的区别是()。

A、两者作用一样

B、前者安装指定版本的包，后者安装最新版本的包

C、前者安装指定版本的包,后者安装随机版本的包

D、以上答案都不正确

答案：B

解析：pipinstallscipy=1.7与pipinstalIscipy两者的区别是前者安装指定

版本的包,后者安装最新版本的包。

46.若arr=np.array([[1,2,3,],[4,5,6,],[7,8,9,]]),则arr[:2,1:]的输出为

()o

Av([[2,3],[5,6]])

B、([⑴[6]])

Cv([[5,6],[8,9]])

D、([[1,2],[4,5]])

答案：A

解析：索引时如果不指定冒号旁边的数值,则默认从开头开始或至结尾结束。

47.以下不能创建一个字典的语句是()。

A、dict1={}

B、dict2={3:5}

Gdict3={[1,2,3]:"uestc”}

D、dict4={(1,2,3):"uestc”}

答案：c

解析：字典key不可以是可变类型

48.LSTM中，(_)的作用是确定哪些新的信息留在细胞状态中，并更新细胞状态。

A、输入门

B、遗忘门

G输出门

D、更新门

答案：A

解析：LSTM中，输入门的作用是确定哪些新的信息留在细胞状态中，并更新细胞

状态;遗忘门决定我们会从细胞状态中丢弃什么信息；输出门确定输出。

49.Matplotiib的核心是面向()。

A、过程

B、对象

C、结果

D、服务

答案：B

解析：Matplotlib的核心是面向对象的。如果需要更多控制和自定义图，我们建

议直接使用对象。

50.正确导入日期模块的语句()。

A、importdate

B、importdatetime

C、importtime

D、importdate_time

答案：B

解析：导入日期模块的语句是importdatetime

51.诊断性分析主要采取的分析方法是()和()。

A、关联分析和因果分析法

B、关联分析和分类分析法

C、关联分析和运筹学

D、因果分析和分类分析法

答案：A

解析：诊断性分析主要关注过去，回答为什么发生,主要采用关联分析法和因果分

析法。

52.为了降低MapReduce两个阶段之间的数据传递量,一般采用()函数对map阶段

的输出进行处理。

A、sort()

B、biner()

C、join()

D、gather()

答案：B

解析：为了降低数据传递量,采用binerO函数对map()函数的数据结果进行合并

处理。

53.IDLE环境的退出命令是()。

A、exit()

B、回车键

C、cIose()

D、esc()

答案:A

解析：IDLE使用exit。退出环境。

54.反转二维数组arr的行arr=np.arange(9).reshape(3,3)

Avarr[:：-1]

B、arr[:：-2]

C、arr[::1]

D、arr[::0]

答案：A

解析：：：-1进行反转。

55.要弥补缺失值,可以使用均值，中位数，众数等等,preprocessing模块中那个

方法可以实现()。

Axpreprocessing.ImputerO

B、preprocessing.PoIynomiaIFeatures()

C、preprocessing.FunctionTransformer()

D、preprocessing.Binarizer()

答案：A

解析：要弥补缺失值,可以使用均值，中位数，众数等等,preprocessing中Imput

er方法可以实现。

56.在当前图形上添加一个子图需要用到哪个方法0。

A、pypIot.stackpIot()

B、pyplot.suptitIe()

Cxpyplot.subpIot()

D、pyplot.imshowO

答案：c

解析：matplotIib.pyplot.subplot()的作用是在当前图形上添加一个子图。

57.下面哪个是满足期望输出的代码()。

Arr=np.array([0,1,2,3,4,5,6,7,8,9])

期望输出：array([1,3,5,7,9])

A、arr%2~1

B、arr[arr%2-1]

C、arr[arr/2-1]

D、arr[arr//2==1]

答案：B

解析：题中的结果是选取了原数组的奇数,先使用数组进行逻辑判断得到一个逻

辑数组,然后以其作为索引选取数据。

58.A=np.array([[1,1],[0,1]]),B=np.array([[2,0],[3,4]]),A*B的结果是()。

A、[[2,0],[0,4]]

B、[[5,4].[3,4]]

C、[[3,4],[5,4]]

D、无法计算

答案：A

解析：Numpy数组的乘法计算分为两种:一种是矩阵正常相乘，代码实现为AB或A.

dot(B),一种是每个元素对应相乘,表现方式为A*B,本题所问的是后一种。

59.下列哪种算法可以用神经网络构建？(_)1.K-NN最近邻算法2.线性回归3.逻

辑回归

A、1and2

B、2and3

Cx1,2and3

D、Noneoftheabove

答案：B

解析：KNN是关于距离的学习算法,没有任何参数,所以无法用神经网络构建。

60.matplotlib中的调用堆积折线图的函数是什么()。

A、step()

B、stackpIot0

C、pIuspIot()

D、hist()

答案：B

解析：stackplot用于绘制堆叠折线图。

61.信息增益对可取值数目()的属性有所偏好,增益率对可取值数目()的属性有

所偏好。

A、较高，较高

B、较高，较低

G较低，较高

D、较低，较低

答案：B

解析：信息增益准则对可取值数目较多的属性有所偏好,增益率对可取值数目较

少的属性有所偏好。

62.数组分割使用以下哪个函数()。

A、vstack()

B、hstack()

C、split()

D、view()

答案：c

解析：np.split()的作用是把一个数组从左到右按顺序切分。

63.关于基本数据的元数据是指()。

A、基本元数据与数据源，数据仓库,数据集市和应用程序等结构相关的信息

B、基本元数据包括与企业相关的管理方面的数据和信息

C、基本元数据包括日志文件和简历执行处理的时序调度信息

D、基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息

答案：D

解析：元数据(Metadata),又称中介数据、中继数据，为描述数据的数据(dataab

outdata)。

64.标准BP算法的目标是使训练集上的()为最小。

A、累积方差

B、累积误差

C、累积协方差

D、累积偏差

答案：B

解析：标准BP算法的目标是使训练集上的累积误差最小。

65.假负率是指()。

A、正样本预测结果数/正样本实际数

B、被预测为负的正样本结果数/正样本实际数

C、被预测为正的负样本结果数/负样本实际数

D、负样本预测结果数/负样本实际数

答案：B

解析：假负率是指被预测为负的正样本结果数/正样本实际数。

66.bootstrap数据是什么意思()。

A、有放回地从总共M个特征中抽样m个特征

B、无放回地从总共M个特征中抽样m个特征

C、有放回地从总共N个样本中抽样n个样本

D、无放回地从总共N个样本中抽样n个样本

答案：C

解析：自助来样法(bootstrapsampling),给定包含N个样本的数据集，我们先随

机取出一个样本放入采样集中,再把该样本放回初始数据集，使得下次采样时该

样本仍有可能被选中，这样经过n次随机采样操作,我们得到含n个样本的采样集。

67.在编写程序时经常要对某一个条件进行判断，“条件”只有“成立”或“不成

立”两种结果。成立用“True”表示，不成立用“False”表示。下列关系表达式

中，结果为“True”的是()。

A、2>5

B、3>=3

C、1!=1

D、6==5

答案：B

解析：>=可表示为>或=。

68.划分聚类算法是一种简单的较为基本的重要聚类方法。它的主要思想是通过

将数据点集分为()个划分,并使用重复的控制策略使某个准则最优化,以达到最

终的结果

A、D

B、K

C、E

D、F

答案：B

解析：划分聚类算法K-Means将数据点集分为K个子集。

69.以下代码的输出结果为()。

Importnumpyasnp

A=np.array([0.25,1.33,1,100])

Print(np.reciprocaI(a))

A、[-10.-9.-8.]

B、[-7.-6.-5.]

G[0.251.331.100.]

D、[4.0.75187971.0.01]

答案：D

解析：np.reciprocal。取倒数。

70.有N个样本,一般用于训练,一般用于测试。若增大N值,则训练误差和测试误

差之间的差距会如何变化()。

A、增大

B、减小

C、无法确定

D、无明显变化

答案:B

解析：增加数据,能够有效减小过拟合,减小训I练样本误差和测试样本误差之间的

差距。

71.Numpy简单介绍,不正确的是()。

A、Numpy(NumericaIPython)是Python语言的一个扩展程序库

B、支持大量的维度数组与矩阵运算

C、针对数组运算提供大量的数学函数库

D、Numpy不开放源代码

答案:D

解析：Numpy是开源代码库。

72.当相关系数r=0时，说明()。

A、现象之间相关程度较小

B、现象之间完全相关

C、现象之间无直线相关

D、现象之间完全无关

答案：C

解析：相关系数r刻画了两个变量之间的相关程度，|r|小于等于1,|r|越接近1,

则表示两个变量相关度越高,反之相关度越低。相关系数片0只能说明线性无关,

不能说明完全无关。

73.获取两个PythonNumpy数组之间的公共项()。

A=np.array([1,2,3,2,3,4,3,4,5,6])

B=np.array([7,2,10,2,7,4,9,4,9,8])

期望输出：array([2,4])

A、intersectld(a,b)

B、ersectld(a,b)

C、erset(a,b)

D、ersectld(a)

答案：B

解析：intersect1d()返回二者的交集并排序。

74.大数据中的小数据可能缺失、冗余、存在垃圾数据不影响大数据的可信数据,

体现大数据“涌现”的()表现形式。

A、价值涌现

B、隐私涌现

C、质量涌现

D、安全涌现

答案：C

解析：大数据的“质量涌现”是指大数据中的成员小数据可能有质量问题(不可

信的数据),如缺失、冗余、垃圾数据的存在，但不影响大数据的质量(可信的数据)。

75.以下不属于Python内置模块的是()。

Axsys

B、json

C、os

Dximage

答案：D

解析：image属于第三方库。

76.Nu即y的数组中Ndarray对象属性描述错误的是()。

A、Ndarray.dtypeNdarray对象中每个元素的大小，以字节为单位

B、Ndarray.fIagsNdarray对象的内存信息

GNdarray.realNdarray元素的实部

D、Ndarray.imagNdarray元素的虚部

答案:A

解析：dtype是数组元素的类型。

77.当图像通过信道传输时，噪声一般与()无关。

A、信道传输的质量

B、出现的图像信号

C、是否有中转信道的过程

D、图像在信道前后的处理

答案：B

解析：当图像通过信道传输时,噪声一般与出现的图像信号无关,这种独立于信号

的退化被称为加性噪声。信道传输质量'中转信道都会影响图像质量，而图像在

信道前后的预处理和后处理也会产生噪声。

78.在留出法、交叉验证法和自助法三种评估方法中，（）更适用于数据集较小、难

以划分训练集和测试集的情况。

A、留出法

B、交叉验证法

C、自助法

D、留一法

答案：C

解析：自助法更适用于数据集较小、难以划分训练集和测试集的情况。

79.在数据科学中，通常可以采用（）方法有效避免数据加工和数据备份的偏见。

A、A/B测试

B、训练集和测试集的划分

C、测试集和验证集的划分

D、图灵测试

答案：A

解析：A/B测试是一种对比试验，准确说是一种分离式组间试验,在试验过程中，

我们从总体中随机抽取一些样本进行数据统计,进而得出对总体参数的多个评估。

A/B测试有效避免数据加工和准备偏见以及算法/模型选择偏见具有重要借鉴意

义。

80.下列不属于深度学习内容的是（_）。

A、深度置信网络

B、受限玻尔兹曼机

C、卷积神经网络

D、贝叶斯学习

答案：D

解析：贝叶斯学习属于传统的机器学习算法。

81.关于数据分析,下列说法正确的是()。

A、描述性分析和预测性分析是对诊断性分析的基础

B、断性分析分析是对规范性分析的进一步理解

C、预测性分析是规范性分析的基础

D、规范性分析是数据分析的最高阶段,可以直接产生产业价值

答案：C

解析:在数据分析中，流程分为以下方式:描述性分析、诊断性分析、预测性分析'

规范性分析。

82.增加卷积核的大小对于改进卷积神经网络的效果是必要的吗()

A、是的,增加卷积核尺寸一定能提高性能

B、不是，增加核函数的大小不一定会提高性能

答案：B

解析：增加核函数的大小不一定会提高性能。这个问题在很大程度上取决于数据

集。

83.关于Python包,以下说法正确的是()。

A、利用pip包管理器更新已安装包的代码是:pipupdate包名

B、单独导入包名即可导入包中所包含的所有子模块

C、下载安装、更新、查看、移除包等行为可以在命令行中进行，但不可以在Jup

yternotebook中进行

D、下载安装'更新、查看、移除包等行为既可以用pip工具，也可以用conda

工具

答案：D

解析：pip更新包指令为pipinstalI—upgradePackage;单独导入包之后访问子

模块需要用“模块.子模块”方式;在Jupyter中也可以通过指令管理包。

84.三维以上数组是以()的形式输出的。

A、按行输出

B、按矩阵输出

C、按矩阵列表输出

D、按字符串输出

答案：C

解析：一维数组输出为行,二维数组输出为矩阵,三维数组输出位矩阵列表。

85.从连续图像到数字图像需要()。

A、图像灰度级设定

B、图像分辨率设定

C、确定图像的存储空间

D、采样和量化

答案：D

解析：数字图像又称离散图像,连续图像到数字图像需要离散化,离散化是通过采

样和量化实现的。

86.有数组arr=Numpy.array([1,2,3,4]),执行arr.dtype后输出结果为()。

A、int32

B、int64

CxfIoat32

D、fIoat64

答案：A

解析：从列表中创建时,Numpy会自动判断元素的类型从而确定数组的类型,此处

都为整数则确定为int32,如果将元素1改为1.0,则会确定为float64o

87.以下分割方法中不属于区域算法的是()。

A、分裂合并

B、阈值分割

C、区域生长

D、边缘检测

答案：D

解析：边缘检测算法是标识数字图像中亮度变化明显的点,不属于区域算法发范

畴。

88.假设我们已经在ImageNet数据集(物体识别)上训练好了一个卷积神经网络。

然后给这张卷积神经网络输入一张全白的图片。对于这个输入的输出结果为任何

种类的物体的可能性都是一样的,对吗()。

A、对的

B、不知道

C、看情况

D、不对

答案：D

解析：不对,神经网络对于未知的数据不是均匀预测的,会对莫一种或多种类别存

在偏向。

89.以下哪个不属于数据治理的内容。

A、理解自己的数据

B、行为规范的制定

C、岗位职责的定义

D、获得更多的数据

答案：D

解析：获得更多的数据不属于数据治理。

90.Python安装扩展库常用的是()工具。

A、pyinstaII

B、pip

C、pop

Dxpost

答案：B

91.数据故事话的“情景'不包括0。

A、还原情景

B、统计情景

C、移植情景

D、虚构情景

答案：B

解析：“数据的故事化描述（Storytelling）”是指为了提升数据的可理解性、可

记忆性及可体验性，将“数据”还原成关联至特定的“情景”的过程。可见，数据

故事化也是数据转换的表现形式之一,其本质是以“故事讲述”的方式展现“数

据的内容”。数据故事化中的“情景”，可以是：1）还原情景:还原数据所计量和

记录信息时的“原始情景”；2）移植情景:并非对应信息的原始情景，而是将数据

移植到另一个真实发生的情景（如目标用户比较熟悉的情景）之中。3）虚构情景：

数据的故事化描述中所选择的情景并非为真实存在的情景,而是根据讲述人的想

象力设计出来的“虚构情景”。

92.Hadoop生态系统中，HBase是一种0。

A、分布式文件系统

B、数据仓库

C、实时分布式数据库

D、分布式计算系统

答案：C

解析：HBase是一个面向列的实时分布式数据库。

93.以下代码的输出结果为（）。

Importnumpyasnp

A二np.arange(9)

B=np.split(a,3)

Print(b)

A、[012345678]

B、[array([0,1,2]),array([3,4,5]),array([6,7,8])]

G[array([0,1,2,3]),array([4,5,6]),array([7,8])]

D、没有正确答案

答案:B

解析：split将原数组等分成三个数组。

94.为了观察测试Y与X之间的线性关系,X是连续变量，使用下列()比较适合。

A、散点图

B、柱形图

G直方图

D、以上答案都不正确

答案：A

解析：散点图反映了两个变量之间的相互关系,在测试Y与X之间的线性关系时,

使用散点图最为直观。

95.下列哪个用于说明在RDD上执行何种计算()。

A、分区；

B、算子；

C、日志；

D、数据块；

答案：B

解析:算子是Spark中定义的函数,用于对RDD中的数据进行操作、转换和计算。

96.情感信息归纳常见的存在形式是()。

A、语料库

B、情感文摘

C、情感评论

D、情感倾向

答案:B

解析：文本处理基础知识

97.平滑图像()处理可以采用RGB彩色模型。

A、直方图均衡化

B、直方图均衡化

C、加权均值滤波

D、中值滤波

答案：C

解析：平滑图像处理可以采用RGB彩色加权均值滤波模型。

98.()计算框架源自一种分布式计算模型,其输入和输出值均为“键-值对”结构。

AxMahout

B、MapReduce

C、Spark

D、Sqoop

答案：B

解析：MapReduce定义

99.下列关于HDFS的描述正确的是()

A、如果NameNode宕机,SecondaryNameNode会接替它使集群继续工作

B、HDFS集群支持数据的随机读写

C、NameNode磁盘元数据不保存Block的位置信息

D、DataNode通过长连接与NameNode保持通信

答案：C

解析：SecondaryNameNode并不是namenode节点的备份。所以A错。；存储在H

DFS集群上的数据是不支持随机修改和删除的，只支持追加，所以B错;namenode

和datanode之间的通信是基于一种心跳机制。该机制不是长连接。是短连接形

式。每次发送一个数据包(自身状态信息+数据块信息)即可,所以D错。

100.以下选项中，输出结果是FaIse的是()。

A、»>5isnot4

B、>>>5!=4

G»>False!=0

D、»>5is5

答案：c

解析：False在内置表达式中为0。

101.在抽样估计中，随着样本容量的增大,样本统计量接近总体参数的概率就越

大,这一性质称为()

A、无偏性

B、有效性

G及时性

D、一致性

答案：D

解析：一致性是指随着样本容量的增大,样本统计量接近总体参数的概率就越大，

对于给定的偏差控制水平,两者间偏差高于此控制水平,两者间偏差高于此控制

水平的可能性越小。

102.Seikit-Learn中()可以实现评估回归模型。

A、accuracy_score

B、mean_squared_error

C、f1_score

Dxauc

答案：B

解析：mean_squared_error均方误差是用来评估回归模型的指标，其他三个都是

评估分类模型的指标。

103.下列场景中最有可能应用人工智能的是()。

A、刷脸办电

B、舆情分析

C、信通巡检机器人

D、以上答案都正确

答案：D

解析：人工智能应用的范围很广,包括:计算机科学,金融贸易，医药,诊断,重工业,

运输,远程通讯,在线和电话服务,法律,科学发现,玩具和游戏,音乐等诸多方面，

刷脸办电、舆情分析、信通巡检机器人当然都能很好的应用到人工智能，选D。

104.过滤式特征选择与学习器(),包裹式特征选择与学习器()。

A、相关相关

B、相关不相关

C、不相关相关

D、不相关不相关

答案：C

解析：过滤式方法先对数据集进行特征选择,然后再训练学习器,特征选择过程与

后续学习器无关。包裹式特征选择把最终将要使用的学习器的性能作为特征于集

的评价准则。

105.()是数据库管理系统运行的基本工作单位。

A、事务

B、数据仓库

C、数据单元

D、数据分析

答案:A

解析：在关系数据库中，事务(Transaction)是保证数据一致性的重要手段,可以

帮助用户维护数据的一致性。事务是用户定义的一个数据库操作序列,这些操作

要么全做,要么全不做,是一个不可分割的工作单位。

106.以下输出的结果正确的是()。

Importnumpyasnp

X=np.arange(32).reshape((8,4))

Print(x[[-4,-2,-1,-7]])

A、[[16171819][24252627][28293031][4567]]

B、[[16171819][891011][4567][28293031]

G[[891011][4567]]

D、error

答案:A

解析：二维数组只传入一个列表进行索弓I时,是对行进行选取。

107.DAGScheduler的作用是什么()

A、负责分配任务；

B、负责调度Worker的运行;

C、负责创建执行计划；

D、负责清理执行完毕的任务；

答案：C

解析：Scheduler模块分为两个部分DAGScheduler和TaskScheduler。DAGSche

duIer负责创建执行计划；TaskScheduler负责分配任务并调度Worker的运行。

108.HBase使用一个()节点协调管理一个或多个regionserver从属机。

A、namenode;

B、datanode;

C、jobtracker;

D、master;

答案：D

解析：Hbase中由一个Master节点负责协调管理一个或多个RegionServer从属

机

109.数据安全不只是技术问题,还涉及到()o

A、人员问题

B、管理问题

C、行政问题

D、领导问题

答案：B

解析：数据安全不只是技术问题,还涉及到管理问题。

110.关于表述数据可视化在数据科学中重要地位说法中，下列不正确的是()。

A、视觉是人类获得信息的最主要途径

B、数据可视化处理可以洞察统计分析无法发现的结构和细节

C、数据可视化处理结果的解读对用户知识水平的要求较高

D、可视化能够帮助人们提高理解与处理数据的效率

答案：C

解析：视觉是人类获得信息的最主要途径,超过50%的人脑功能用于视觉信息的

处理。数据可视化处理可以洞察统计分析无法发现的结构和细节。数据可视化处

理结果的解读对用户知识水平的要求较低。可视化能够帮助人们提高理解与处理

数据的效率。

111.以下算法中不属于基于深度学习的图像分割算法是()。

A、FCN

B、deepIab

C、Mask-RCNN

D、kNN

答案：D

解析：KNN为传统机器学习方法并非深度学习方法。

112.下列关于文本分类的说法不正确的是()

A、文本分类是指按照预先定义的主题类别，由计算机自动地为文档集合中的每个

文档确定一个类别

B、文本分类大致可分为基于知识工程的分类系统和基于机器学习的分类系统

C、文本的向量形式一般基于词袋模型构建,该模型考虑了文本词语的行文顺序

D、构建文本的向量形式可以归结为文本的特征选择与特征权重计算两个步骤

答案：C

解析：词袋模型是指将所有词语装进一个袋子里,不考虑其词法和语序的问题，

即每个词语都是独立的,所以该模型没有考虑文本词语的行文顺序,C错误,选Co

113.关于函数的关键字参数使用限制，以下选项中描述错误的是()。

A、关键字参数必须位于位置参数之前

B、不得重复提供实际参数

C、关键字参数必须位于位置参数之后

D、关键字参数顺序无限制

答案：A

解析：关键字参数必须位于位置参数之后。

114.Apriori算法的核心思想是()。

A、通过频繁项集生成和情节的向下封闭检测两个阶段来挖掘候选集

B、通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集

C、数据集中包含该项集的数据所占数据集的比例,度量一个集合在原始数据中出

现的频率

D、若某条规则不满足最小置信度要求,则该规则的所有子集也不满足最小置信度

要求

答案：B

解析：Apriori算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候

选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。

115.与生成方法、半监督SVM、图半监督学习等基于单学习机器利用未标记数据

不同，基于分歧的方法(disagreement-basedmethods)使用多学习器，而学习器之

间的分歧(disagreement)对未标记数据的利用至关重要。()是此类方法的重要代

表。

A、协同训练

B、组合训练

G配合训练

D、陪同训练

答案：A

解析：与生成方法'半监督SVM、图半监督学习等基于单学习机器利用未标记数

据不同，基于分歧的方法(disagreement-basedmethods)使用多学习器，而学习器

之间的分歧(disagreement)对未标记数据的利用至关重要。协同是此类方法的重

要代表,它很好地利用了多视图的相容互补性。

116.kNN最近邻算法在什么情况下效果较好()。

A、样本较多但典型性不好

B、样本较少但典型性好

C、样本呈团状分布

D、样本呈链状分布

答案：B

解析：K近邻算法主要依靠的是周围的点,因此如果样本过多,则难以区分,典型

性好的容易区分。

117.数据销毁环节的安全技术措施有通过软件或物理方式保障磁盘中存储数据

的()、不可恢复，如数据销毁软件、硬盘消磁机、硬盘粉碎机等。

A、暂时隔离

B、暂时删除

C、永久删除

D、不作处理

答案：C

解析：数据销毁环节的安全技术措施有通过软件或物理方式保障磁盘中存储数据

的永久删除'不可恢复，如数据销毁软件、硬盘消磁机、硬盘粉碎机等。

118.以下代码的输出结果为()。

Importnumpyasnp

A=np.array([[1,2,3],[4,5,6]])

Print(np.append(a,[7,8,9]))

Av[[123][456H

B、[123456789]

G[[123][456][789]]

D、[[123555][4567891]

答案：B

解析：append()函数在没有指定轴进行操作时,默认展平数组。

119.对于一个分类任务,如果开始时神经网络的权重不是随机赋值的,而是都设

成0,下面哪个叙述是正确的()

A、其他选项都不对

B、没啥问题，神经网络会正常开始训练

C、神经网络可以训练,但是所有的神经元最后都会变成识别同样的东西

D、神经网络不会开始训练,因为没有梯度改变

答案：C

解析：神经网络可以训练，但是所有的神经元最后都会变成识别同样的东西。

120.time库的time.mktime(t)函数的作用是0。

A、将当前程序挂起secs秒，挂起即暂停执行

B、将struct」ime对象变量t转换为时间戳

C、返回一个代表时间的精确浮点数,两次或多次调用，其差值用来计时

D、根据format格式定义，解析字符串t,返回struct_time类型时间变量

答案：B

解析：mktime(t)函数的作用是将结构化时间变量t转换为时间戳。

121.以下()不是NoSQL数据库。

A、MongoDB

B\BigTabIe

C、HBase

D、Access

答案：D

解析：NoSQL是指那些非关系型的、分布式的、不保证遵循ACID原则的数据存

储系统。典型的NoSQL产品有DangaInteractive的Memcached、10gen的Mongo

DB\Facebook的Cassandra、Google的BigTable及其开源系统HBase、Amazon

的Dynamo、Apache的TokyoCabinet、CouchDB和Redis等。

122.关于层次聚类算法：⑴不断重复直达达到预设的聚类簇数⑵不断合并距离

最近的聚类簇⑶对初始聚类簇和相应的距离矩阵初始化⑷对合并得到的聚类

簇进行更新。正确的执行顺序为()。

A、1234

B、1324

C、3241

D、3412

答案：C

解析：层次聚类算法的过程是：

对初始聚类簇和相应的距离矩阵初始化;不断合并距离最近的聚类簇;对合并得

到的聚类簇进行更新;不断重复直达达到预设的聚类簇数。

123.执行以下代码段

MotorcycIes=['honda','yamaha','suzuki']

MotorcycIes.append('ducati')

MotorcycIes.pop(1)

Print(motorcycIes)

时输出为0。

A、['honda','yamaha','suzuki']

B、['yamaha*,suzuki','ducati']

Cx['honda',yamaha1,suzuki','ducati1]

D、['honda','suzuki',1ducati']

答案：D

解析：pop出第一位置的元素

124.Windows系统下安装Matplotiib的命令是()。

AxpythonpipinstaIImatpIotIib

B、python-mpipinstaIImatpIotIib

C、sudoapt-getinstaIIpython-matpIotIib

D、sudopython-mpipinstaIImatplotIib

答案：B

解析：A选项缺少参数'-m',C选项是Linux系统下安装命令,D选项是MacOSX

系统下安装命令。

125.以下()属于DMM(数据管理成熟度模型)中的关键过程域“数据战略”。

A、数据战略制定

B、业务术语表

C、数据质量评估

D、过程质量保障

答案：A

解析：数据战略制定属于DMM(数据管理成熟度模型)中的关键过程域“数据战略”o

126.深度学习是当前很热门的机器学习算法,在深度学习中,涉及到大量的矩阵

相乘,现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为

m*n,n*p,p*q,且m<n<p<q,以下计算顺序效率最高的是(_)。

A、(AB)C

B、AC(B)

C、A(BC)

D、所有效率都相同

答案：A

解析：B选项中A的列数与C的行数不相等，无法相乘,B选项排除。A选项需要

的乘法次数为m*n*p+m*p*q,C选项需要的乘法次数为n*p*q+m*n*q,由于m<n<p<

q,显然A运算次数更少。

127.ordinalencoder将属性转化为()。

A、独热编码

B、附带特性的数字

C、二进制编码

D、ASCII码

答案：B

解析：ordinalencoder的作用是数值化，但是不增加列数。

128.下列关于大数据的分析理念的说法中，错误的是0。

A、在数据基础上倾向于全体数据而不是抽样数据

B、在分析方法上更注重相关分析而不是因果分析

C、在分析效果上更追求效率而不是绝对精确

D、在数据规模上强调相对数据而不是绝对数据

答案：D

解析：在大数据的分析理念中，数据规模上强调绝对数据而不是相对数据。

129.以下哪个是正确的运行结果()。

Importnumpyasnpa=np.logspace(0,9,10,base=2)

Print(a)

A、[1357]

B、[.28.256.512.]

G[0123456789]

D、[010]

答案：B

解析：np.logspace()计算时可以先求相同参数的Iinspace结果,然后对每个元

素做以base参数为底的悬运算。此处为以2为底,依此做0-9的塞运算。

130.np.exp(x).round⑸的结果是2.71828,x的值是()。

A、0

B、1

C、2

D、2.71828

答案：B

解析：e的1次方。

131.以下关于图像的平滑处理错误的说法是()。

A、图像的平滑处理是指在尽量保留原有信息的情况下,过滤掉图像内部的噪音

B、图像平滑处理会对图像中与周围像素点的像素值差异较大的像素点进行处理,

将其值调整为周围像素点像素值的近似值

C、讲过平滑处理后图像质量会下降

D、以上答案都正确

答案：C

解析：图像的平滑处理不会损坏图像的轮廓及边缘等重要信息，使得图像清晰视

觉效果好。

132.在抽样方法中，当合适的样本容量很难确定时,可以使用的抽样方法是：Oo

A、有放回的简单随机抽样

B、无放回的简单随机抽样

C、分层抽样

D、渐进抽样

答案：D

解析：在抽样方法中，当合适的样本容量很难确定时,可以使用的抽样方法是渐进

抽样。

133.数据安全技术保护与信息系统“三同步”原则不包括以下哪项()。

A、同步规划

B\同步建设

C、同步使用

D、同步运维

答案：D

解析：数据安全技术保护与信息系统包含同步规则、同步建设、同步适用三项原

则。

134.如果要将读写位置移动到文件开头,需要使用的命令是()。

A、close

B、seek(0)

Cxtruncate

D、write('stuff')

答案：B

解析：seek(0)指移动指针到0位置即开头。

135.以下代码的输出结果为()。

Importnumpyasnp

A=np.array([[10,7,4],[3,2,1]])

Print(np.percentiIe(a,50))

A、[[1074][321]]

B、3.5

C、[]

D、[7.2.]

答案：B

解析：percentiIe是百分位数，此处是50%,即中位数，因为数组个数为偶数个，

因此中位数为3和4的均值。

136.a=np.array([[0,0,0],[10,10,10],[20,20,20],[30,30,30]])

B=np.array([1,2,3]),a+b的输出结果为0。

A、[[123][101010][202020][303030]]

B、[[123][000][101010][202020][303030]]

G[[123][111213][212223][313233]]

D、无法计算

答案：c

解析:在Numpy中两个维度不同的数组进行计算时会自动触发Numpy的广播机制,

原公式会转换为[[1,2,3],[1,2,3],[1,2,3],[1,2,3]]+[[0,0,0],[10,10,10],

[20,20,20],[30,30,30]]0

137.()将观测值分为相同数目的两部分,当统计结果为非对称分布时,经常使用

它。

A、众数

B、标准差

C、中位数

D、均值

答案:C

解析：中位数是指一组数据排序后处于中间位置的变量值。

138.关于0LAP的特性,下面正确的是：(1)快速性⑵可分析性⑶多维性(4)信息

性⑸共享性()

A、(1)(2)(3)

B、(2)(3)(4)

C、(1)(2)(3)(4)

Dv(1)(2)(3)(4)(5)

答案：D

解析：OLAP具有快速性、可分析性、多维性、信息性、共享性等特征。

139.()是指针对用户非常明确的数据查询和处理任务，以高性能和高吞吐量的方

式实现大众化的服务,是数据价值最重要也是最直接的发现方式。

A、数据服务

B、数据分析

C、数据治理

D、数据应用

答案：A

解析：数据服务指针对用户非常明确的数据查询和处理任务,以高性能和高吞吐

量的方式实现大众化的服务,是数据价值最重要也是最直接的发现方式。

140.数据斐产维护是指为保证数据质量,对数据进行()等处理的过程。

A、更正

B、删除

C、补充录入

D、以上答案都正确

答案：D

解析：数据资产维护是指为保证数据质量，对数据进行更正、删除、补充录入等

处理的过程。

141.SparkJob默认的调度模式是()。

A、FIFO

B、FAIR

G无

D、运行时指定

答案：A

解析：Spark中的调度模式主要有两种FIFO和FAIR。默认情况下Spark的调度

模式是FIFO(先进先出)。

142.以下可以应用关键词提取的是()。

A、文献检索

B、自动文摘

C、文本聚类/分类

D、以上答案都正确

答案：D

解析：在自然语言处理领域,处理海量的文本文件最关键的是要把用户最关心的

问题提取出来。

143.()是实现数据战略的重要保障。

A、数据管理

B、数据分析

C、数据治理

D、数据规划

答案：C

解析：从DMM模型可以看出，数据治理是实现数据战略的重要保障。数据管理的

是指通过管理“数据”实现组织机构的某种业务目的。然而，数据治理则指如何

确保“数据管理”的顺利、有效'科学地完成。

144.ggpIot2的核心理念是()o

A、绘图与数据分离

B、结构与数据分离

C、绘图与结构分离

D、绘图与数据和结构分离

答案：A

解析：ggplot2的核心理念是将绘图与数据分离，数据相关的绘图与数据无关的

绘图分离。

145.最早被提出的循环神经网络门控算法是什么()

A、长短期记忆网络

B、门控循环单元网络

C、堆叠循环神经网络

D、双向循环神经网络

答案：A

解析：LSTM是最早被提出的循环神经网络门控算法。长短期记忆网络(Long-Sho

rtTermMemory,LSTM)论文首次发表于1997年11月15日。门控循环单元网络(G

RU)论文发表于2014年。堆叠循环神经网络(SRNN)论文发表于2017年。双向循

环神经网络(BidirectionaIrecurrentneuraInetworks)发表于1997年11月。

146.在其他条件不变的前提下，以下哪种做法容易引起机器学习中的过拟合问题

()o

A、增加训练集量

B、减少神经网络隐藏层节点数

C、删除稀疏的特征

D、SVM算法中使用高斯核/RBF核代替线性核

答案：D

解析：神经网络减少隐藏层节点,就是在减少参数,只会将训练误差变高,不会导

致过拟合。D选项中SVM高斯核函数比线性核函数模型更复杂,容易过拟合。

147.下列的哪种方法可以用来降低深度学习模型的过拟合问题()。

1增加更多的数据

2使用数据扩增技术(dataaugmentation)

3使用归纳性更好的架构

4正规化数据

5降低架构的复杂度

A、145

B、123

C、1345

D、所有项目都有用

答案：D

解析：增多数据、数据扩增'正规化数据'选择归纳性更好、复杂度更低的架构

均可以用来降低深度学习模型的过拟合问题。

148.神经网络感知机只有(_)神经元进行激活函数处理,即只拥有一层功能神经

兀。

A、输出层

B、输入层

G感知层

D、网络层

答案：A

解析：神经网络感知机只有输入层神经元进行激活函数处理,即只拥有一层功能

神经元。

149.下列不属于transform操作的是()

Axmap

BvfiIter

CxsampIe

Dxcount

答案：D

解析：Transformation常用函数为map、filter、fIatMapxsample、union、j

oin寺。

150.下列方法中，用于获取当前目录的是()。

A、open

Bvwrite

GGetpwd

D、read

答案：C

解析：用于获取当前目录的方法是Getcwd。

151.Scipy中计算偏度的函数是哪个()。

Axscipy.stats,skewtest()

B、scipy.stats,norm,rvs()

C、scipy.stats,kurtosis()

D、scipy.stats,poisson.rvs0

答案：A

解析：利用stats.skewtest()计算偏度,有两个返回值,第二个为p-value,即数

据集服从正态分布的概率(0~1)o

152.相对于HadoopMapReduc

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2022年大数据应用知识考试题库（含答案）

文档简介

温馨提示

最新文档

评论

相关文档