大数据HCIE试题题库

上传人：招*** IP属地：河北上传时间：2025-12-24 格式：PDF 页数：53 大小：9.50MB 积分：12 举报 版权申诉

已阅读5页，还剩48页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

［单选题］

1.以下关于Python中函数定义的描述不正确的是哪一项？

A.函数内容以目号起始.并且缩进.

B.在python中只能用关键字def创建函数.

C.Return用于返回•个函数执行的结果，

D,用del声明函数，后面跟函数名和小括号，括号内可以放置所需参数,

答案：B

2.HDFS的副本放置策略中，同一机架不同服务器之间的距离是？

B.2

C.3

D.4

冬案，B

3.在数据抽取、转换和加载过程中，以下哪种不是数据抽取的方式？

A,全量抽取

B.更新抽取

「不：抽取

D.倒置抽取

普案:I)

4.•股而言，若数据类别比例超过。，即认为数据集中存在不均衡数据的现象.

A.3

B.4

C.2

答案：B

5.以下哪个选项是异常值处理的方法？

A.删除界常值

B,将异常fff视为缺失依，按照缺失ff(处理方法来处理异常ff(

C估算异常值

D.以上全都正确

答案：D

5.以下关于有监督连续变量的离散化分析错误的是哪一项？

A.IR方法贴分箱法的有监帑版本，每个区间至少包含6个变戢(最后一个区间除外)

B.基于卡方检监的方法，运用卡方检黑的策略,自顶向下合并数值进行有监督/故化，核心掾作是Herge.

C有监督的连续变收的离放化相对T无监督的方法来说，可以戏少在离放化的过程中异常值的影响，

D,蔚丁信息蟒的方法运用了决算树的理念进行变最离散化，是一种白顶向卜的分裂技术，

答案：B

7.以下关于特征选择方法中哪个不属于特征减少的方法？

A.wrapper伸力

B.Filtei•(过法)

C.Embedded()

D.交叉骁证方法

答案：D

3.下列哪个不属于常用的文本分类的特征选择算法？

A.主成分分析

B.信息增益

C.互侑息法

D.卡方检验

答案：A

J.以卜哪种方法不属于Embedded(嵌入法)？

A.特征犷增

B,基于1.1的正则化方法

C,平均不纯煽减少0kMDtfuxuobvImpuiily)

D.平均精度下降(MeanDecreaseAccuracy)

笆案，A

10.以下哪些方法不可以用来做分类？

A.卜Means

B.支持向量机

C.KNN

D.决策树

答案：A

11.决策树是一种树形结构，其中每个内部节点表示一个。上的测试，每个分支代表•个测试0,每个叶节点代表一

种0

A.类别、输出、属性

B.属性、输出、类别

C.输出、类别、属性

D.展性、类别、输出

答案：B

12.以下哪一项不是KN算法的三要素？

A.距离度址的方式

B.特征的顺序

C.分类决策规则

D.K值的选取

答案：B

13.朴素贝叶斯分类方法(NaiveBayes)是一种特殊的Bayes分类器,特征变量是x,类别标签是c,它的一个假定是

下列选项中的腿一项？

A.特征变破X的各个屈性之间互相独立

B.以。为均值，sqr(2)/2为标准差的正态分布

C.p(xc)是向斯分布

D,各类别的先概率P(C)是相等的

答案rA

14.在LogisticRegression中,如果同时加入L1和L2范数，不会产生什么效果?

A.以做特征选择,并在一定程度上防止过拟合

B.可以获得更准确的结果

C.能解.决维度灾雄问避

D,能加快计算速度

答案：D

15.对于随机森林和GradientBoostingTrees,下面说法正确的是哪一项？

A.GradienlBoostingTreesi11练模型的表现总是比随机森林好

B.在随机您林的单个处中,树和树之间是钉依敕的,而GradientBoostingTrees中的单个树之间是没有依赖的

C.这两个模型都使用随机特征子集.来生成许多单个的树

D.可以并行地生成GradientHonstingTrees弟个树，囚为它们之间是没有依辙的

答案：C

16.下列哪个选项不是常用的聚类比法？

A.SVM

B.DBSCAN算法

C.Hierarchicalclustering算法、BIRCH算法

D.K-means算法

咨案：A

17.在有监督学习中,我们如何使用聚类方法：1.我们可以先创建聚类类别，然后在卷个类别上用监督学习分别进行学

习2,我们可以使用聚类“类别id”作为一个新的特征项，然后再用监督学习分别进行学习3.在进行监督学习之前,

我们不能新建聚类类别4,我们不可以使用聚类“类别id”作为一个新的特征项，然后再用监督学习分别进行学习下

列选型中正确的是哪一项？

1H13

1M12

B.C

1M14

甘J4

D.泞3

.B1

jK.

18.以下哪一项不属于抽样的类别?

A.系统抽样

B.整群抽样

C.分层抽样

D.循环抽样

E.简单随机抽样

答案：D

19.以下关于模型超参数的特征描述不正确的是哪•项？

A.模里的超卷数可以通过数据II接得到，也可以通过人的羟验来设定

B,模型超参数通常可以使用启发式方法来设置

C,模型总参数通常由实践者口接指定

D.模型超参数,用应用于估计模型参数的过程中

£・模型超参数通常根据给定的预测建模问时而调整

答案：A

20.以卜.关于逻辑回归算法的损失函数描述不正确的是哪一项？

A.在逻牺回归的报号中，它假设样本版从俏努利I0-D分布，然后求得满足该分布的似然困散，孩有用对敌求极低。

B.龙卷网“I算法一定要计算G大似然函数

C.造辑回归算法的损失函数可以使用对数函数.

D.逻辑回犷并没有求对数W然函数的最大值.而是把极大化当侬一个思想.进而推导出它的风险函数为以小D化的似然函数.

答案：B

21.在Python中，关于Pandas模块中的数据读取函数read-csv与read-table.以下说法不正确的是哪一项？

A.seq/delimiter:用来制定数据之间的分隔符,readtahle默认为逗号，read_csv默认为制表符.

B.usecols:通过usecols参数来设河需要使用於列，

C.indexcol:可以将数据集中的某一列（某几列）设置为行索引,通过indexcol来进行指定，

D.header:用来制定标题行，如果数据集中没有标题行，则制定为None.

E.names:读1R数据时,可以通过names侬件设为列索引.

答案：A

22.关于实时流处理整体架构中数据缓存和消息中间件描述错误的是0.

A.Redis:提供高速kev/value存储查询能力，比于流处理结果数据的高速缓存.

B.Kafka:消息中间件可对实时数据进行缓存，支持高吞吐量的消息订阅和发布。

CHBase:用于行键性询（Key-Ya】ue）检索，爽询条件熨杂且多样。

D.Kufka:分布式消息系统，支持消息的生产和发布,以及多构形式的消电腹存,满足高效可绑的消息生产和消费.

答案：C

23.SparkMLlib汇总统计主要是对RDD数据集进行整体的统计性描述,主要通过调用colStats函数，该函数中获取

数据每列的L1范数的参数是下列选项中的哪一项？

A.nornll.l

B.numNonzeros

C.nornl.2

D.variance

答案：A

24.关于FusionlnsighiMiner的功能描述不准确的是哪一项？

A.业务场景包括极大团分析.

B.工作枇落不支/自定义妹法.

C.支持R语言.

D.支持Python2和Pyihon3语言.

答案；B

25.建设一个完整的数据治理平台，作为数据平台的管控系统，从制度、标准、（）、流程几个方面提升数据信息管理

能力，解决目前所面临的数据标准问题.数据质量问题、元数据管理问题和数据服务问题.

实时

分

A,化

B.C管

理

监

D.控

冬

案

：

26.以下关于数据挖掘描述不准确的是哪一项？

A.大数据的挖掘是从海依、不完全的、有噪声的、模相的、曲机的大型数据库中发现陷含在K中有价值的、潜在有用的信息和知识的过程，

H.大的据沙拥*呼基于人T智能.机器学习.林H学习.统计学等.通过就大的据总网口动化地分析.做由R归幽性的推理.从中沙棚出潸在

的模式，

C.日前.在很多领域尤其是在商业领域如很行、电信、电商等，数据沱址可以解次很多问题,包括市场昔优策略制定、背景分析、企业风险规

能等.

D.通.数据论摘可以建立起企业整体而不是某个业务过程局部的不同类型的模型.

答案：D

27.关于模型部署的描述不正确的是哪一项？

A.模型一经部罟,就可以永久的固化下来.

B.蟆型部为可以借助的工具越来越多，

。在生产环境下部署模型也存在许多挑战，如:S何进行性能调优，安全性,如何支持AB测试等，

D.模型部署就是把训练好的机器学习的模型都罟到生产环境.

答案：A

28.Streaming主要通过ZooKeeper提供的以下哪项服务实现事件侦听？

A.ACK

B.watcher

C.checkpoint

D.分布式锁机恻

答案：D

29.设X、XI、X2、Y是四个随机变量，a,b是常数，以下关于协方差的性质描述错误的是哪一项？

A.如果Cov(X,¥)=0.则随机变贵X,Y相互独立

B.CovfaX,bY)=abCov(X.V)

C.Cov(Xl+X2,Y)=COY(X1,¥)+€OV(X2,Y)

D.如果的机变fitX,Y相互独立，则CoNX,Y)=0

答案；A

30.以下哪个选项不是矩阵乘法对向最的变换？

曲

化

线

授

A,形

B,C仲

缩

旋

D.转

冬

基A

：

31.以卜哪个选项是求解等式约束最优化的常用方法？

A.牛顿法

B.梯度下降法

C.KKT条件

D.拉格明日恋法子

答案：D

32.“点击率问题”是这样一个预测问题.9洲的人不会点击，而1%的人会点击，所以这是一个非常不平衡的数据集。

假设，现在我们已经建了一个模型来分类，而且有了99%的预测准确率，我们彳以下的结论是哪一选项？

A.模中预测准确率已经很高了，我们不能要做什么了.

B.模型预测准确率不高，我们需要做点什么改进模里。

。无法下结论

D.以上都不对

答案：C

33.下列方法中，不可以用于特征降维的方法包括哪一选项？

A.同部线性嵌入1.I.E

B.主成分分析PCA

C.嫌小二乘法I.eastSquares

D.战性判别分析LDA

E.矩阵奇异值分解SYD

答案：C

34.以下关于特征选择定义的理解说法错误的是哪一项？

A.特征选择是指从原始特征中挑选出一组最有代表性、分类性能好的特征.

B.特征选择不像算法和模理是确定的步歌，更多处工程上的羟验和权衡，一般备要耗费较多的时间和精力.

C.对于不同的数据挖掘任务，所需要的特征组合那是相同的.

D.特征选择(featureselection)也被称为受累迭界、同性遗杼或变盘子集选择.它是为了构建槿型而选择相关特征子集的过程。

答案：C

35.下列哪些方法不适合用来对高维数抠进行降维？

A.线性判别分析LUA

B.小波分析法

C.聚类分析

D.主成分分析法

答案：C

36.当决策树出现过拟合后，需要使用()技术来缩小树的结构和规模。

和

调

A.归

|>>]

B.剪

C枝

小

波

D.案

答:C

37.以下关于Apriori算法的描述不正确的是哪一项？

A.Apriori算法是一个非常经典的频能项集的物序©法.很多算法都是基于Apriori算法而产生的.包括FP-Tree.GSP.CBA等.

B.Apriori第法适用于菸重复顶集数元素较多的案例.

C.python的工具麻mlxtend目前提供实践Apriori究法的方法.

D,使用先皖原理，大大提尚J-频索项架逐层产生的效率.

答案：B

38.以下哪一项不是最优化问题的三个基本要素？

A.目标函数:用来衡量结果的好坏。

B.参数值:未知的因子且需要通过数据耒确定.

C.数据规模.

D.约束条件:布要满足的限制条件，

答案；C

39.以下哪种场毋比较适用于在保证召I可率的前提下，尽量提升精确率的情况？

A.金融欺诈

B.搜索

C.地露检测

D.癌症检测

答案：B

10.以♦关于SparkMLlib中FP-Growth的超以下描述不正确的是哪一项？

A.minConfidence:生成关联规期的最小议悟度，罚信度表明关联规则被发现的出卖程度。

B.numPartitions:用于分发工作的分区数,

C.minSupporI:对项H集的最小支持被识别为频繁.

D.transform:以高于minConfidence的置倍度生成的关联规则.

答案：D

11.在LLS中，“决策树分类”节点的参数设置描述不准确的是哪一项？

A.城大分箱数:对连续的值进行范围划分，不能小于各分类特征的最大取值数目，

B.燃大树深度:模型训练的最大迭代次数。取值区间为【1,30].

。处理异常假选项中可以选择："null值代替”。

D.不纯度：树。点标签的混杂度计算标准,选值仅有‘Gini".

答案：D

42.假设现在要做一个可以根据线索指导运维人员进行排障的功能，你建议选择下列哪个工具实现该功能？

A.I.ucene

B.ElasticSearch

C.HBase

D.GES

答案:D

43.Gremlin中查询单个点的信息该用什么命令？

A.gV().hasLabel(*test*).values(*age*)

B.g\'().hasLabel(,1631*).vnluelap(*String_list*,"age")

C.gV(13464736).valueHap(»

D.gV().hasl.abel("tesl")

答案：C

44.在案例“银行客户精准画像”中，美于其数据挖掘不同阶段的操作描述，属于数据建模阶段的是哪一项？

A.对呆近三个月的原始交易数据进行说算获得变量,并整合在客户的实际交易情况上定义客户的行为,铝个客户作为一条观测,从中随机抽取

2B67个客户作为研究实例的代表性样本

B.结果分析,并提供参看策略

C,在客户分类问题中采用的士支是数糊花幅中分类和录类的算法，儒变结令需求规划出适用模型。

D.将来自数捌仓库中多个数据表.经过了数据采桀、清理和集成,生成一个针对数据物榭H标确定与交易行为有关的数据项集合.

答案：A

45.SparkVLlib中的BasicStatistic是专门用于进行大数据集群上的统计分圻工具,以下哪个不属于Basic

Slalislis发持的功能？

A.假设检脸

B.特征抽取

C.汇总统计

D.生成随机数

答案：B

16.（单选）购买与登录专属版MS的描述不正确的有？

A.确认集群信息无误后.依次单击”立即购买二"提交二

B.在购买专属版S实例之前需要先购买"MapReduce服务

C.在购买界面上，依次配置所#;参数，其中，Kerberos认证:关闭或者开启均可

D.一旦提交，集群会立刻创建完成.

答案；D

17.（单选）假设A,B.C是三个矩阵，A是2X2,B是2X2阶，（:是3x2阶，以下哪一个矩阵的运算是有意义的？

A.A+B

B.AC

C.AB+AC

D.B+C

冬案：A

18.（单选）如一个原始数据为3行4列的数据框需要降维至两维，利用SparkLIb的实现思路卜述不正确的是？。

A.在PCA中，可以选取伪/小的2个待征值对应的特征向量，并由该两个特征向量组成矩阵C

B.求矫方差矩阵B的方特征向量

C.求取矩阵R的协方差矩B

D.将像始3行4列的数据转换得到一个3乘4的矩阵R

答案，B

19.（的选）若随机变量X服从正态分布N（u,o-2）,则随机变量Y=aX+b股从以下哪个正态分布？

A.N（a>2u+h,a*2o2）

B.N（au+b,a*2o*2）

C.N（au+b,a*2o-2+b）

D.N（au,a'2o'2）

答案，B

50.（单选）我们可以使用Python中scikilTearn库的（）函数,来对样本集进featureselection（特征选择）和

dimensionalilyreduction（降维）？

A.sk1earn,neighbors

B.skiearn,featureselection

C.skiearn,linearmodel

D.sklearn.cluster

答案：B

51.（单选）现实中大数据挖掘任务往社特征属性过多，而一个普遍存在的事实是，大数据集带来的关键信息只聚集在

部分甚至少数特征上，因此我们需要进厅以下哪种操作？

A.特征标准化

氏特征选择

C.特征归一化

D.特征清洗

答案；B

52.（单选）-•个典型的大数据平台系统架构不包括以下哪个层次？

A,数据平台层

B.数据服务层

C.数据应用层

D.数据可视化层

冬案：D

33.（单选）以下关于PCA算法（主成分分析）说法不正确的是。W）

A,必须在使用PC*前规范他数宗

B,使数据降低到低维度上做数据可视化

C应该选择使得模型有最小variance的主成分

I）.应该选择使得模型有域大variance的主成分

答案：C

5（（单选）以下关于Python正则表达式描述不正确的是？

A.rei正则表达式可以处理字符申数据，也能处理数值数据，

B.reiF则表达式模块使Python语拥有部分正则表是式功能。

C.rei正则表达式站用于处理字符串的强大工其

答案：A

55.（单选）以下关于Trapper（包装法）和FiLler（过滤法）的描述不正确的是？

A.）Wrapper方法由于每次对子集的评价都要进行分类器的调练和测试.所以算法计经狂杂度很高.

B.Trapper方法选出的特征通用性较强.当改变学习算法时.也不得要针对该学习完法乘新进行特征选择.

C.相对于Filter（过消法），Wrapper方法找到的特征了集分类性能通常更

好。

D,对「大规模数据集来说，Wrapper律法的执行时间很长。

答案：B

56.（单选）以下关于聚类算法的理华确的是？

A.簇内的相似性越大.族间的差别越小,聚类的牧果就越好.

B.簇内的相似性越大•簇间的差别越小,聚类的效果就越差.

C.簌内的相似性越大.族间的差别越大，聚类的效果就越好，

D.簇内的相似性越大，族间的差别越大，聚类的效果就越差，

答案：C

57.（单选）以下关「模型评估描述不止房的是？

A.在分类何甥中，AUC越小,分类的质量越好。

B.在聚类何题中,常用的性能度量参数包括Silh）nette轮救系数、兰德系数（AdjustedRandindex）.

C.在回归问题中，最常用的性能度量参数是均方误差（Mse）、均方根误差（f«se）、平均绝对误差（Mae））,

D.在分类问题中,常见的评估指标包括混清矩阵（ConfusionMatrix）、精确率（Precision）、召回本（Recall）、Fl值（（Fl-Measure）、AUC.KOC

由由（ReceiveroperatingCharacteristic）,PR曲戏（PrecisionandRecall）

答案：A

58.（单选）以下哪个措施屈于反爬措施？

A.字体

B.滑块验证眄

C.数据收费

D.以上全部正确

答案：D

59.（单选）以卜哪个选项不属于直接删除包含缺失值的元组（或记录）产生的影响？

A,降低模型准确性

B,可能会引入噪音节点

C.数据缺失占比较多时.直接州除可能会改变原始数据的分布情况

D.破坏数据的历史完整性

50.（单选）以下哪项不是KNN算法的三要素？

A.Kfft的选取

B,分类决策规则

C,距离度量的方式

D.特征的顺序

答案：D

51.（单选）以下哪些选项不属于数值特征离散化的必要性？

A.数值高侬化实际是一个数据简化机制,通过数也恩故化过程，一个完整的数据埃变成一个个按照某种规则分类的了噪.增强了模型的和定性.

B.离故化数值在提高建帙速度和提岛模型精度上可显著作用，

C自敢化过程并没有带来信息丢失

D.离散化后的特征对异常数据有很强的铃棒性，能减少噪音节点对数据的影响,

答案，C

32.（单选）在案例"银行客户将在画像”中，数据阶段可以做的质量核杳不包括？

A..数据的有效性校验

B..数据的可杼换性校吩

c..数据的块失性校的

D.数据的连续性校船

答案：B

53."ab"+"c"*2结果是

A.ab<2

B.abcabc

C.abcc

D.ababcc

答窠KC

54.ALCRISPDM（跨行业数据挖掘标准流程）模型中的数据准备环节除了包括数据选择，数据清洁，数据创建，数据

合并外，还包含以下哪个步骤？

A.确定业务目标

B.选择隹模技术

C.数据变换

D.模型结果评估

答案;C

55.df.tail。这个函数是用来

A.用来创建数据

B.用来展现数据

C.用来分析数据

D.用来测试数据

答案；B

66.ElasticSearch进行全文检索•般需要哪几个步骤？

A.清洗、分词、建立素•引

B.清洗、分词

C.清洗、建立索引

D.清洗.建立索引.分词

答案：A

57.Flink的窗口，按窗口行为划分不包含以卜哪种？

A.容量曲口

B,滑动窗

C滚动窗口

D.会话窗口

答案：A

58.Flume的高级组件不包含以下哪个？

A.SinkProcessor

B.ChannelInterceptor

C.ChannelSelector

D.SourceInterceptor

答案：B

59.Flume中一个ChannelSelector的作用是什么？

A.设置多个channel发往多个sink的策略

B.设置一个source发往多个channel的策略

C.设国名个source发往多个channel的第略

D,设附一个channel发往多个sink的策略由

答案:B

70.GaussDB200支持什么格式的数据存储？

A.行存储

B.列存他

C.行列混存

D.以上都对

答案：D

71.Numpy中创建全为0的矩阵使用

A.ones

B.empty

C.2CF03

D.arange

答案：c

72.Numpy中向量转换成矩阵使用

A.reshape

B.reval

C.arange

D.random

答案rA

73.Pandas中的DataFrame的df.iloc[l:3j

A.查询的是1,2行

B.查询的是2,3列

C.gf询的是2,3行

D.住询的是1,2列

答案；C

74.Python中列表数据类型元素的切片非常强大,对于列表mylist=[l,2,3,4,5,67,8.9]，下面操作正确的是

A.mylistd：9：0]

B.mylist[l:9:2]

C.mylist(6:9:2)

D.mylist[10:]

答案：B

75.Rcdis不适用于以卜哪个应用场景？

A.获取PB级Value数据

B,获取TORN操作

C.获取手机脸证码

D.获取最新、个数据的操作

答案：A

76.从数据库架构校计来看，土要有以下哪些设计思路？

A.Shared-Disk

B.Shared-Everying

C.Shared-Nothing

D.以上全正确

答案：D

77.打开文件的不正确写法为

A.f=open(#test.txt*r*)

B.withopen(*test,txt*,*r')asf

C.f=open。C:\Apps\tesl.ixl''r')

D.f=open(r*C:\Apps\test.txt*r9)

答案KC

78.大数据的4M不包含哪一个？

A.数据脓人

B.种类多

C.价值密度低

D.分布式

E.处理速度快

答案:D

79.大数据计克任务中，关于10密集型任务的描述不正确的是哪一项？

A.10密集型任务执行期间,大部分时间都花在1(，处里上

B.通过提升网络传输效率和读写效率可大帼度提升性能

C.CPV消能制

D.任务越多，CPI,效率越高

答案；C

S0.当不知道数据所带标签时，可以使用哪种技术促使相似的数据与其他不相似的数据相分高？0

A.分类

B.关联分析

C.聚类

D.哈马尔科夫过科

答案：C

31.关于GaussDB200的数据导入导出下列说法正确的是（？

A.使用gsql元命令和COPY命令在使用和用法I：是一样的.

B.COS在数据导入时可以做预处理,比如非法字符替换、容错处理、依据聚合：•，

C.COPY方式使用简通，一般用在大垃数据的导入导出中.

D.INSERT数据写入近令数据量不大，并发度不昌的场景.

答案:B

32.关于GaussDB200的发展史，下列说法错误的是（?

A.GaussDB200已经在华为云发布了云化产品.

B.GuussDB200专注国内业务.不涉及海外.

C.GaussDB200从一开始就支持ARM架构的部署.

D.GaussDB200前身闾GaussDB,是GaussDB的子项目.

答案：B

33.关于GaussDB200的逻辑架构，卜列说法正确的是

A.DN是实际数据节点，所以只负费存储数据。

B.C\是物调节点，例助CM管理整个集群。

C.CM是集群的管理梗块,那么负责集群的日常管理和运维，

D.GTM是全局事务控制器，负责生成和维护全局用务ID等全局唯一侑息.

答案：D

M.关于各种分类算法的特点，以下说法正确的是？

A.给定n个数据点，如果其中•半用于训练，•车用户测试，则训练误差和测试误差之间的差别会随潦n的增加而M少

B.bazging改进了预测腐确率，但损失了解新性

C,在adaboosi算法中，所有被分错样本的权重更新比例相同

答案：B

35.机器学习中做特征选择时，以下哪种技术属于Filler（过渡法）

A方差选择法

B.互伯息法

C.卡方检验

D.相关系数法

E,以上全都正确

答案：E

36.假设现在要做一个可以根据线索指导运维人员进行排障的功能，你建议选择下列哪个工具实现该功能？

A.Lucent?

B.Illiase

C.ElasticSearch

D.GraphBase

答案：D

S7.决策树中不包含以下哪种节点？。

A.内部节点（internalnode）

B.外部,点（externalnode

C.根节点（rootnode）

D.叶节点

答案：B

38.离线批处理方案的应用场景不包括？

A,占用计算存储资源多

B.快速高效,实时的数据处理

C.数据处理格式多样

D.处理大配模数据

冬案：B

39.某开发小组计划利用GraphBase实现一些功能，以下哪些功能可以实现？

A.物流最优跖径规划

B.社交分析

C.金融反欺诈

D.以卜.全都正确

答案：D

30.企业数据分析平台在根据不同的业务场景需求，搭建不同的大数据分析平台，如适应离线批处理的IkHkMjp平台,

适应实时处理的流计算等，这种架构属子哪种类型的架构？

A.融合架构

B.分离架构

C.单一架构

D.多维架构

答案；A

31.设x、Y是两个随机变量，C是常数，以下关于数学期望的性质描述正确的是？

A.E(X*Y)=E(X>+(Y)

B.E(CX)=CE(X>

C.E(C)=€

答案：A

32.设XY是两个随机变贷,C是常数，以下关于方差的性质描述错误的是？0

A.D(C)=0

B.D(0}=0的充要条件是X以软率取常数E(X3即P{X=E(X»=1

C.D(X+Y)=D(X)+D(Y)

D.D(CX)=CD(X)

答案:D

33.我们想在大数据集上训练决策树，为了使用较少时间，我们可以0

A.M少树的数量

B.增加树的深度

C,减少树的深度

D.增加学习率(learningrate)

答案：C

94.下列关于存储过程的特点说法正确的是0

A.编写的SQL存储在数据库中，因此执行速度快.

B.创建时编译,执行时调用，因此开发效率高。

C.用户创隹的存储过程或自定义函数可以，Rli调用，因此数据传输做少。

D.通过指定存储过程的访问权限，因此安全系数高。

答案：D

35.下面这条GaussDB200语句"calldbmsjob.interval(1,'sysdate+1.0/24');"的意思是

A.修改Jobl的Interva为每》j24小时执行一次.

B.修改Jobl的Interval为待隔1小时执行一次.

C.修改Jobl的Interval为每隔1/24小时执行次，

D.修改Jobl的Interval为保扁24分钟执行一次.

答案：B

36.协同过滤推荐莫法，是最经典，展常用的推荐算法。要实现协同过泄，以下哪个步骤不需要？

A,计算推荐

B.找到楣似的用户和物品

C收集用户偏好

D.收娱用户来淅

答案：D

".一般情况下，若要提高ElasticScarch检索效率，可以采取什么操作？

A.调整索引分片数

B,使用Hive做底层存储

C.压缩素引

D.正价EsMaster节点

冬案：A

28.以下关于DataNode的描述不正确的走？

A..DataNode管理数据块元数据

B..DataNode执行数据块的读/写操作.

C.DuluMde的数量受数据规模影响.

D..DataNode是用来存储数据库.

答案：B

39.以下关于Python函数的描述中，错谀的是

A,函数是一段"JtR用的语句组

B,每次使用函数需要提供相同的参数作为输入

C..函数通过函数Z进行调用

D..函数是一段具有特定功能的谱句组

答案：B

100.以下关于Python全局变量和局部变量的描述中，错误的是

A.局部变量在函数内部创建和使用，函数退出精变量被锋放

B,全局变量一般指定义在函数之外的变疑

C.使用global保用字声明后，变地可以作为全局变量使用

D.当函数退出时，局部变量依然存在，下次南物调用可以维续使用

隹案：D

101.以下关于SparkMLlib中决策树模型超参数描述不正确的是？()

A.impurity:用于在候选分割之间进行选择的杂财度星

B-subsamplingRater用于学习决策树的训练数据的分数,但对于训绦决策树，该参数不太有用

CmaxBins:树的ftt大深女。

D.maxMemoryInMB用于收集足弱统计信息的内存

答案：C

102.以下关于SparkNLlib中K-Means优化参数描述不正确的是？(0

A..initializationMode指定随机初始化.

B.Runs:运行Kmeans算法的次数.

C.maxiterations:要运行的被大迭代次数.

D.Epsilon:确定K-Means收敛的距离阅值

答案：A

103.以下关于Spark的说法不正确的是？0

A.可以扩展MapReduce计算模型，高效支持多种计算模式,包括交互式兖询和流处理.

B.擅长处理大规模数据集.速度快。

C.Spark贴实现快速而通用的集群计。的平台.

D.Spark的shuffle过程必须要写破盘.

答案；D

104.以下关于数据分析与数据挖掘的描述错误的是？()

A,数据分析更例小丁•统计学上面的一些方法，姓过人的推理演评得到结论。数据挖掘更侧成于他日由机器进行自学习，直换得到结论.

B.数据挖搦是从大盘的数据中，挖掘出未知的、月有价值的信息和知识的过程,重点是从数据中发现“知识规则”

C.数据分析和数据挖掘的界限是非常清晰的.

0.数据分析会用到成熟的分析工具，比如EXCEL.S^SS.SAS等,数据拘把则需空有编程基的

密案:C

105.•以卜关王特征缩放的外理方法，最小值一最大值归•化和标准化的应用场署描述错误的是？

A.在实际应用中，特征缩放的标准化悚作更常用

B,标准化方法在分、聚类算法中需要使用PCA技术进行降维

C.最小值一报人值归一化的数据不符合正态分布,

D.最小值最大值归•化和标准化都需要使用即高来度量相似性.

隹案：D

106.银行进行客户购买力分析，首先获取客户历史账单，确定其中各项商品的计算权重，得出每位客户的购买力评分

并存储记录。最后将结图表显示,请的该讨程对应于以下哪个项目数据流程设计。

A.数据源-＞数据处理-＞数据落地-＞数据可视化

B.数据可视化-〉数据海-＞数据落地-〉数据处理

C.数据可视化-〉数据源-＞数据处理-〉数据落地

D.数据源-〉数据落地-＞数据处理-〉数据可视化

答案：A

107.在DGC平台架构下提供提供企业级的元数据管理。数据资产管理可视支持估取、溯源等。通过数据地图，实现数

据资产的数据血缘和数据全景可视，提供数据利能搜索和运营监控的模块是哪个？

A.数据开发

B.数据资产管理

C.短池设计

D.数据集成

答本：B

108.在华为MLS中，“线性回归”节点的参数设置描述错误的是？0

A.增大迭代次数，模型训练的以大送代次数.

B,正则化函数.正则化方法,可选参数仅包括Aut。、None,LkL2

C.正则化参数:用于调节正则化项的权重

D.弹性网络参数,L1和1.2正则化的分配权重

答案：B

109.在“提升信用卡安全案例”中，其商业理解的阶段可以选择建立各类信用评分模型，其中不包括哪个类型？0

A.行为信用评分卡

B.模式信用评分卡

C.申请信用卡评分K

D.催收信用评分卡

隹案：B

llO.DUGP(UniliedDataGovernancePlatform)华为大数据统一数据治理平台，为运营商提供全面高效的数据资产管控

环境，实现了数据集中,统一和其享，包括统的数据采集和整合，统一的安全、标准、生命周期和质量管理.以及多维

变数提云图功能。提供开箱即用的可以实现全生命周期的主数据管理.包括主数据的集中存储、0、主数据清洗、主数

据监管和主数据的共享满足集团对于企业级别主数据的管埋平台的要求。0

A.主数据合并

B.主数据关联

C主数据标记

D,主数据迁移

答案：A

111,下列代码的作用是?Stxingvertexld=

GetVertex1dByProperty(api,graphName,“person","name","mark。")；api.queryVertex(vertexId,graphName);

A.查询点

B.查询属性

C.杳询边

D.以上全不正确

答案:B

”2.癌症检杏数据样本有1000个，其中10个数据样本是有癌症，其它是无痛症。假设分类模型在无疫症数据9990

中预测正确了9980个,在10个癌症数据中预测正确了9个，此时真阳=9,真阴=9980,假阳=10,假阴=1.则该预测

馍型的召回率为多少?

A.m

B.76.27%

C.47.36%

D.99.89%

答案：A

113.Oracle?数据治理产品包括0raclcDatabascl2c、0、Oracle大数据SOL、和大数据连接器开始入手。

A,oracle大数据共享系统

B.Oracle大数据清洗系统

C.Oracle大数据存储系统

D.Oracle大数据管理系统

答案：D

114.在其它条件不变的前提下，以下哪一方法容易引起模型的过拟合问题？

A.增加训练集数吊

B.减少神姓网络的藏层节点数

。删除稀疏的特征

D.SYM算法中使用高斯核/RBF核样代

答案：A

115.以下关于Pylhon函数的描述中，错误的是

A.函数是一段可兔:用的谱句组

B.每次使用函数需要提供相同的参数作为输入

C函数通过函数名进行调用

D.函数是一段具有特定功能的语句缎

答案：B

116.以下哪个选项不属于数据清洗的范畴？

A•跳失值处理

B.不均衡数据处理

C,异常值处理

D.数据加载处理

答案：D

117.以下哪一个架构是数据全程以流的形式处理，适用于侦警、监控，对数据有实时处理要求的？

A.大数据流式架构

B.大数据Kappa架构

C.大数据统•架构

D.大数据菸础架构

答窠：A

118.属丁•聚类问题常用的评估方法是哪一项？

A.均方误差

B.Silhonette轮席系数

C.F-score

D.ROC曲税

否案;B

119.可以通过以下哪个命令创建节点数据？

A.Is/nodc

B.get./node

C.set/nodedata

D.create/node

答案：I）

120.请问以卜关于ID3算法中说法错误的是哪一项？

A.选取信息增益公大的特征，作为树的根节点

B.节点分裂依据为信息墙益

C,以信息增益度贵属性选择,选择分裂后信息增荏最小的属性进行分裂

D.以法是建立在奥卡姆剃刀的基础I：

答案：C

121.请问在Pandas中，DataFrame刈象可以使用以下哪个力法直看的n条数据？

A.read

B.tail

C.describe

D.head

答案：D

122.在DGC平台架构下提供企业级的元数据管理。数据资产管理可视支持钻取、溯源等。通过数据地图实现数据资产

的数据血缘和数据全景可视提供数据智能搜索和运营监控的模块是哪个？

A.数据开发

B.数据交产管理

C规范设计

D.数据集成

答案：B

123.以下关于SparkMLlib中k-Means优化参数描述不正确的是?

A.initinlizationXode指定的机初始化.

B.runs:运行Kacans算法的次数.

C.maxHeraticns:要运行的最大迭代次数.

D.Epsilon:确定k-Means收敛的距离阈（ft,

答案；A

124.通过聚类的簇是否紧密相连来判断样本点是否屈f•一个簌的聚类算法是以二哪一项？

A.层次聚类

B.原型聚类

C.原点聚类

D.密度聚类

答案：I）

125.以卜关于离散特征编码的表述错误的是哪一项？单

A.禹放特征的取俏之间没有大小的意义，使用on『hol编码，

B,因为机器学习算法接收的足数字型变量.所以需要对属性进行编码.

C.离散特征的取值有大小的直义，直接使用映射，

D.恐要方法pundua.xvldummic»()的作用等同于onchot涮码的效果,只需要设置其参数dropfir»t_Truv

答案：D

126.请问对FCRISP-DM模型基本步骤的描述以下哪项是正确的？

A.1商业理解2数据理解3数据准备4建立模型5模型评估6模型实施

B.1数据理解2商业理解3数据准备4建立模型：模M评估6模型实施

C.I数掘理解2商业理解3数据准备,I建立模型5模型实族6模型评估

D.I商业理解2数据理解3数据准备.I建立模型5模型实族6模型评估

答案：A

127.我们可以使用Python中scikit-learn库的()函数，来对样本集进行featureselection(特征选择)和

dimensionalityReduction(降维)?

A.sklearn,neighbors

B.sklearn.featureselection

C.sklearn.1inearmodel

D.skiearn,cluster

答案：B

128.以卜关于SparkMLlib中降维算法的相关描述，表述错误的是哪一-项？

A.奇异值分解(SVD)通常不需要完全因式分解，只需要顶部奇异位及其相关的奇异向量，这可以节省存的，降噪并恢发矩阵的低秩结囱。

B.spark®1ib为RowMaIrix类的降维提供支持。

C.奇异值分耨(SYD)将矩阵分解为三个矩阵，分别是左奇异矩阵.对角矩阵和一个右奇异上三角丰正交矩阵.

D.PCA通常用于高维数据集的探索与可视化还可以用于数据压络.

答案：C

129.以下关于K-折交叉验证法描述错误的是？

A.K折交叉验证取K:k处常用的取的是10,此时称为10折交叉验证。其他常用的Kfft还有5、20等。

B.交叉裟证的思想是，姆次用k个子集的并集作为训练集，余下的那个子集作为测试集，这样就有K种训练集/测试集划分的情况，从而可进

行K次训练和测试，最终返回k次测试结果的均假。

C.如果训练票相对较小,则如果K值.

D.如果训练集相对较大.则减小K值.

答案，B

130.请问主成分分析PCA对数据进行中心化后，使得每一维度上的均值是多少？

B.0

C.1

D,以上都不正确

答案：B

131.访间最小值最大值归一化的结果不会受到以下哪种数据点影响？

离群

点

极

点

A.值

B.升

C点

后

平

点

D.均

答

案D

：

132.关于SparkMLlib中SVD算法的使用说法错误的是?

A.必须先通过已有数据创建出相应矩即类型的对歌.然后调用该类的成员方法来进行SVD分解.

B.如果需要获得U成员，可以在进行SYD分解时.指定computeU参数.令其等于False即可在分解后的svd对象中拿到U成员.

C.SparkMLlib中SVD方法位于org.apache,spark,mllib.Linalg包卜,的KowMatrix和IndexedRovUatrix类中

D.将数班转换成RowMatrix后,可调用RowMatrix自带的compuleSVD方法计算分解结果,

答案：B

133.我们可以使用Python中skiearn库的0函数，来解决无序分类变量的离散化问题？

A.cut。两数

B.map()FfiiS

C.OnellotEncoderO函数

D.KMeansO函数

答案：C

134.设XY是两个随机变量，C是常数，以卜.关于方差的性质描述错误的是？

A.D(C)=O

B.D(0>=0的充要条件如X以概率1取常数E00,即P(X=E(X))=I

C.DOX^'=D*DO

D.D<CX-€2D

冬案；C

135.以下关于SparkMLlib中集成算法的相关描述表述错误的是哪一项？

A.,va1boostingStrategy=BoostingStrategy.defaultParams

(Classification*)boostingStrategy.numiterations

ASlxiostingStrategy.treeStrategy.numc1asses=2boostingStratfigy.treeStrategy.maxl)epth=5valiiodel=GradientBoostedlrees.train(trai

nng%ta,poostingStrategy)衣示训练悌度提升分类树模型设置类别数缅度为2,树的最大深度为5,

B..SparkMLlib包含两种算法RandomForesi和GradieniBoosiEDecisionlree&BDT),二者都是用决策树算法作为她学习器。

C..valnodcI=RandonForcst.trainRcKressor(trfeiningData,catCRoricalFcaturcsInfo,numlrecs=2,"auto",'variance*,naxDepth=4,32)该语

句枭用随机森林算法进行分类模型训练并且指定属性选择的方式为基尼系数度矍，

D..valBodel=newLogisticRegressionWithl^FGS0.setlumClassesUO).run(training)表示创建逻辑回打l.BFGS的模型进行分类问胆的求解.

同时采用训练数据进行预测.样本类别数是10.

答案:C

136.请问在Python中以F哪项描述是正确的?

A,定义一个空集合的命令为：x=R・

B.t=(42,)4111=(42)都可以用于定义tuple.

C.aninuils.removelfish')可以把animals这个丸表中所有,fish，元素都刮除。

D.unimals.inserl(l.fish)是往animals:这个列衣中索引为1.也就是第二个位置添加fish'元点.

答案：D

137.请问以下关于随机森林说法错误的是哪一项？

A.劫机森林是bagging框架下的方法.

B.子学习器一般是单颗决策树。

C随机森林引入一次随机性。

D.随机森林支持并行操作。

答案：C

138.Flume中一个ChannelSeleclorl的作用是什么？

A.设过多个channel发往多个sink的策略

B.设置一个source发往算个channell的旅略

C.设置笫个source.发往多个channell的策珞

D.设置一个channel发往多个sink的策略

答案：B

139.以下选项中屈于需要模型通过训练荻得的参数是哪些？

A.随机森林中的树的个数.

B.神经网络中的学习速率.

C.线性网归或逻辑网归中的系数.

D..SYM算法中的核函数.

答案；C

140.以下对聚类算法KMeans的缺点描述正确的是哪些项？

A.该算法对噪音和异常点比较的敏感.

B.如果各隐含类别的数据不平衡,比如各图含类别的数据量严重失衡,或者各隐含类别的方差不同.则聚类效果不佳.

C.聚类结果可能具有一定的随机性.

D.慎足超参数,它的选取不好把握.

答案：D

141.请问在Python中以卜哪个选项正确?

A..Python中的类对象无法实现多成堆承，

B..Python面向对题编程的封装性只体现在不允许私有化变量被访间，

C.变量是对象,但函数不是对象，

D..Python的多态性表现在「类可以置盅父类的属性或方法.

答案：D

142.以下关于KMeans对比K-Mediods的描述，表述错误的是哪一项？

A..K-Mediods质心可能是计算产生的，不属于数甥集中的点.

B..如果数据集本身不存在特别多的异常值，也不需要使用K-Mediods替代K-Means.

C..K-Mcdiods比K-Mcans效果更秘定。

D..K-Mediods律法对比K-Means算法.质心的计尊更杂度更高。

答案：A

143.请问以下关于特征选择方法的一些表述，不正确的是哪一项？

A,,f：•方值描述了自变量与因变量之间的相大程段,£•方位越小，相关程度也越大，所以很自然的可以刊用f：•方值来做特征选杼，保留相关程

度大的变量，

B..递归消除特征法使用一个基模型来进行多轮训炼,每轮训练后，移除若干权值系数的特征，目基于新的特征集进行下一轮训练。它解决思

路没有过谑法直接,它是在确认后埃的算法模型后，把模型本身的性能作为评价准则：选择一个目标函数来一步步的筛选特征.

C.基于树的嵌入方法能够用来计算特征的更要程度•因此能用来去就小机关的特征.

D..保留大的方差的实际意义，就是该列特征的始据分散情况比较大，对结果的划分的影响力度就大，反过来，如果方差很小，比如•列数据

侑值全部•样,方差为。，确实对结果的分类来说意义不大，有没有这列特征都不能影响分类目市产生不同的姑果，这个也是方差选择法的原

理。

答案:A

144.若要修改HBase表，下列API哪个最先被调用？

A..createConnectionO

B..getTableO

C..getConnectO

D..getAd«in()

答案：A

145.以下关于特征缩放的处理方法，最小值-最大值归一化和标准化的应用场景描述错误的是？

A..在实际应用中，特征缩放的标准化操作更常用.

B..标准化方法在分、求类算法中需要使用PCA技术进行降维

C..最小位-以大值妇-化的数据不符合正态分布.

D..最小伯最大(ft归一化和标准化都需要使用距出来度小相似性.

答案：D

146.以下哪个选项不是连续变量的数值特征离散化方法？

A..OneR

B..独热编码

C.分箱

D..基于信息烧的方法

答案：B

147.以下关于大数据Lambda架构描述不正确的是哪一选项？

A..Lambda架构是大数据系统里面举足轻田的架构，大多数架构战本都是Lambda架构或者提于其变种的架构。

B..Lambda架构很好的流颐了实时处理和阳线处理，几乎覆蔽了大多数的数据分析对需求处理，W以很好地满足同时存在实时和底战需求的场

C.lumbdH架构将数据通道分为两个分支：实时沆和离线,实时流类似流式架构.保障了其实时4.而离线则以批处理方式为主.保障了最终

一致性.

D..Lambda架构的映点：离线层与实时流内部处理的逻辑是不相同的,因此有大量冗余和重复的芟块存在.

答案：D

148.现实中大数据挖掘任务往往特征属性过多，而个普遍存在的事实是，大数据集带来的关键信息只聚集在部分甚

至少数特征上，因此我们需要进行以下哪种操作？

A..特征标准化

B..特征选择

C..特征归一化

D..特征清洗

答案；B

149.请问在机器学习中，我们通常将原始数据按照比例分割为“测试集”和“训练集”，从

Sklearn.modelselection中调用traintestsplit函数，以卜哪项对该函数的描述不正确?

A..参数random_state：是随机数的种子.使用不同的附机数也可以保证每次拆分的数据集•致.

B..对数据%进行切分:训练集和测试集的语句可以是：Xtrain.X_test,y_train,y_test=train_test_split<X,y,test_size=O.3)

C.该函数的一般写法是：traintestsplit(traindata,traintarget.lestsize=0-1,raulomstate=O.stratify=ytrain).其中

test_size参数表示样本占比。

D..导入该函数所在模块的谱句是：fromsk1earn.mode1selectionittporttrain_test_spliI

答案：C

150.请问以下哪些算法最适合配合线性判别分析LDA使用？

A..聚类匏法

B..非战性回归算法

C..多元线性回归算法

D..一元线性回归算法

答窠：B

151,以下不属于大数据治理的目的的是哪一项？

A,.保障企业或组织用■以明确定位到共桢心数据伍总，加客户、供应商、产品等信息格逑。

B..梢助企业等组织建立其现有数据的清单，就修建立物理资产的清单一样。

C..兼顾开放性，如多分析引擎统一管理，满足多样化的数据分析场景和物掘能力。

［）.・防御其财务、企业资源规划和人力资源应用杵序中的关雄业务数据受到未授权更改.

答案：C

152.以下关于SparkMLlib中协同过滤算法参数描述不正确的是哪一项？

A..Iterations：模型中潜在因子的数量。

B..nunBlocks：用于并行计算的块数，如设置为T则为自动配行。

C..Lambda：ALS

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据HCIE试题题库

文档简介

温馨提示

最新文档

评论

大数据HCIE试题题库

文档简介

温馨提示

最新文档

评论

相关文档