大数据HCIA练习题库与答案

上传人：文*** IP属地：河北上传时间：2026-05-19 格式：PDF 页数：21 大小：4.57MB 积分：7.19 举报 版权申诉

已阅读5页，还剩16页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大数据HCIA练习题库与答案

一、单选题(共41题，每题1分，共41分)

1.HBase的最小处理单元是Region,UserRegion和RegionServer

之间的路由信息是保存在哪里的？

A、Zookeeper

B、HDFS

C、Master

D、meta表

正确答案：A

2.Spark自带的资源管理框架是？

A、Standalone

B、Mesos

C、YARN

D、Docker

正确答案：B

3.在Fusioninsight集群规划部署时，建议管理节点最好部署()

个，控制节点最少需要部署()数据节点最少需要部署()个。

A、1,3,2

B、2,3,1

C、1,2,2

D、2,3,3

正确答案：D

4.FusionlnsightHD中Loader实例必须与哪个实例部署在一起？

A、DataNode

B、RegionServer

C、ResourceManager

D、NodeManagcr

正确答案：D

5.Hive是基于hadoop的数据仓库软件，可以查询和管理PB级别的

分布式数据。以下关于Hive特性的描述不正确的是？()

A、仅支持MapReduce计算引擎

B、易用易编程

C、可直接访问HDFS文件以及HBase

D、灵活方便的ETL（extract/transform/load）

正确答案：A

6.在很多小文件场景下，Spark会起很多Tasko当SQL逻辑中存在

Shuffle操作时，会大大增加hash分桶数，严重影响性能。

Fusioninsight中，针对小文件的场景通常采用（）算子，来对

Table中的小文件生成的partition进行合并，减少partition数,

从而避免再shuffle的时候，生成过多的hash分桶，提高性能。

A、groupby

B、join

C、connect

D、coalesce

正确答案：D

7.加载数据到Hive表,哪种方式不正确？

A、直接将本地路径的文件load到Hive表中

B、将HDFS上的额文件load到Hive表中

C、Hive支持insertinto单条记录的方法，所以可以直接在命令行

插入单条记录

D、将其他表的结果集insertinto到Hive表中

正确答案：C

8.Hadoop中MapReduce组件擅长处理哪种场景的计算任务？

A、流式计算

B、离线计算

C、实时交互计算

D、迭代计算

正确答案：B

9.RDD有Transformation和Action算子，下列属于Action算子的

是？（）

A、reduceByKey

B、filter

C、map

D、saveAsTextFile

正确答案：D

10.Fusioninsight系统中，Flume数据流在节点内不需要经过哪个

component?

A、source

B、sink

C、channel

D、topic

正确答案：D

11.下面关于Zookeeper特性的描述错误的是？()

A、消息更新只能成功或者失败，没有中间状态。

B、Zookeeper节点数必须为奇数个。

C、客户端所发送的更新会按照它们被发送的顺序进行应用。

D、一条消息要被超过半数的Server接收，它将可以成功写入磁盘

正确答案：B

12.FusionlnsightHD系统中，下面哪个方法不能查看到Loader作

业执行的结果？

A、逋过Yarn任务管理查看

B、通过LoaderUI界面查看

C、通过Manager的告警查看

D、通过NodeManager查看

正确答案：D

13.HDFS的副本放置策略中，同一机架不同的服务器之间的距离是？

()

A、1

B、3

C、2

D、4

正确答案：C

14.在Fusioninsight产品中,关于创建Kafka的Topic,以下哪些

描述是正确的？

A、在创建Kafka的Topic时，必须设置Partition个数

B、在创建Kafka的Topic时，必须设置Partition副本个数

C、设置多副本可以增强Kafka服务的容灾能力

D、以上全都正确

正确答案：C

15.Kafka集群中,Kafka服务端的角色是?

A、Producer

B、Consumer

C、Zookeeper

D、Broker

正确答案：A

16.在YARN的任务调度流程中，下列哪个是ApplicationMaster负

责的任务？

A、申请和领取资源

B、为任务设置好运行环境

C、分配Container

D、启动Map或Reduce任务

正确答案：A

17.FusionlnsightHD产品中，关于Kafka组件部署说法不正确的是？

A、Kafka强依赖于ZooKeeper,安装Kafka必须安装ZooKeeper

B、Kafka部署的实例个数不得小于2

C、Kafka的服务端可以产生消息

D、Consumer作为Kafka的客户端角色专门进行消息的消费

正确答案：C

18.关于Hive与Hadoop其他组件的关系，以下描述错误的是？

A.Hive最终将数据存储在I1DFS中

B、HiveSQL其本质是执行MapReduce任务

C、Hive是Hadoop平台的数据仓库工具

D、Hive对HBase有强依赖

正确答案：D

19.在Fusioninsight产品中,关于kafka的topic,以下描述不正

确的有？

A、每条发布到kafka的消息都有一个类别，这个类别被称为topic,

也可以理解为一个存储消息的队列

B、每个topic只能分成一个partition(区)

C、topic的partition的数量可以在创建时配置

D、每个partition在存储层面对应一个log文件，log文件中记录

了所有的消息数据。

正确答案：B

20.FusionTnsightHD中HBase默认使用什么组件作为其底层文件存

储系统？()

A、kafka

B、HDFS

C、Memory

D、File

正确答案：B

21.关于Hive与Hadoop其他组件的关系。以下描述错误的是？

A、Hive最终将数据存储在HDFS中

B、Hive是Hadoop平台的数据仓库工具

C、HQL可以通过MapReduce执行任务

D、Hive对HBase有强依赖

正确答案：D

22.关于FusionlnsightManager中的Controller和NodeAgent,说

法正确的是？

A、Controller每陪3秒向NodeAgent发送心跳

B、NodeAgent接受Contcolleir下发的命令，执行具体的动作

C、每个节点都必须部署Controller

D、NodeAgent是开源增强的

正确答案：B

23.硬件故障被认为是常态，为了解决这个问题，HDFS设计了副本

机制。默认情况下，一份文件，HDFS会存()份？

A、2

B、4

C、3

D、5

正确答案：C

24.以下关于kafkapartition偏移量的描述不正确的是？()

A、offset是一个String型字符串

B、消费者通过(offset、partition,topic)跟踪记录

C、每条消息在文件中的位置称为offset(偏移量)

D、唯一标记一条消息

正确答案：A

25.Streaming主要通过Zookeeper提供的以下哪项服务实现事件侦

听？

A、watcher

B、分布式锁机制

C、checkpoint

D、ACK

正确答案：A

26.FusionlnsightHDManager界面Hive日志收集，那个选项不正确?

A、可指定实例进行日志收集，比如指定单独收集Met志tore的日志

B、可指定时间段进行日志收集，比如只收集2016-1-1到2016-1-

10的日志

C、可指定节点IP进行日志收集，例如仅下载某个IP的曰志

D、可指定特定用户进行日志收集，例如仅下载userA用户产生的曰

志

正确答案：D

27.FusionlnsightHD系统中,LDAP数据同步方式是哪个？

A、单向同步

B、双向同步

C、隔离不同步

D、数据交叉同步

正确答案：A

28.下面关于ZooKeaper描述错误的是（）

A、一条消息被一半以上的server接收，他将写入磁盘

B、ZooKeeper的节点数必须是奇数个

C、消息更新只有成功和失败，没有中间状态

D、客户端发送的更新会按照他们发送的顺序被应用

正确答案：B

29.Flink是流计算处理和批处理平台，（）是数据批处理和流处理

的核心引擎。（）

A、Runtime

B、DataStream

C、DataSet

D、FlinkCore

正确答案：A

30.Hive不适用于以下哪个场景

A、数据汇总，例如每天，每用户点击数，点击排行

B、非实时分析，例如日志分析，统计分析

C、数据挖掘，例如用户行为分析，兴趣分析，区域展示

D、实时在线数据分析

正确答案：D

31.FusionlnsightllDLoader作业运行前后,需要哪些节点与外部数

据源通讯？

A、Loader服务主节点

B、运行Yarn服务作业的节点

C、前面两个都需要

D、前面两个都不需要

正确答案：C

32.关于FusionlnsightHD中Loader作业描述正确的是?

A、Loader将作业提交到Yarn执行后，如果此时Loader服务出现

异常，则此作业执行失败。

Loader将作业提交到Yarn执行后，如果某个Mapper任务执行

失败，能够自动进行重试。

C、Loader作业执行失败后将会产生垃圾数据，需要用户手动清除。

D、Loader将一个作业提交至Yarn执行后，该作业执行完成前，不

能再提交其他作业。

正确答案：B

33.华为FusionTnsightHD系统中关于HDFS的DataNode的说法正确

的是？

A、不会检查数据的有效性

B、周期性地将本节点的Block相关信息发送给NameNode

C、不同的DataNode存储的Block一定是不同的

D、一个DataNode上的Block可以是相同的

正确答案：B

34.下列选项中，关于Zookeeper可靠性含义说法正确的是？

A、可靠性通过主备部署模式实现

B、可靠性是指一条消息被一个server接收，它将被所有server接

受

C、可靠性是指无论哪个server,对外展示的均是同一个视图

D、可靠性是指更新只能成功或者失败，没有中间状态

正确答案：B

35.FusionlnsightManager对服务的管理操作，下面说法错误的是？

A、可设置不常用的服务隐藏或显示

B、可以添加和卸载服务

C、可对服务进行启停重启操作

D、可查看服务的当前状态

正确答案：A

36.关于RDD,下列说法错误的是？

A、RDD具有血统机制(Lineage)

B、RDD默认存储在磁盘

C、RDD是一个只读的，可分区的分布式数据集

D、RDD是Spark对基础数据的抽象

正确答案：B

37.下列选项中适合MapReduce的场景有？()

Z离线计算

B、流式计算

C、实时交互计算

D、迭代计算

正确答案：A

38.下列哪个命令是从HDFS下载目录/文件到本地的？()

A、dfs-cat

B、dfs-mkdir

C、dfs-get

D、dfs-put

正确答案：C

39.FusionlnsightHadoop集群中，在某节点上通过df-hT查询,看

到的分区包含以下几

个：/var/log/srv/BigData/srv/BigData/hadoop/data5/srv/BigDat

a/solr/solrserver3/srv/BigData/dbdataom这些分区所对应磁盘

最佳Raid级别的规划组合是？

A、RaidORaidlRaidONon-Raidl

B.RaidlRaidINon-RaidNon-RaidRaidl

C、RaidORaidORaidORaidORaidO

D、Non-RaidNon-RaidNon-RaidNon-RaidRaidl

正确答案：B

40.RDD有Transformation和Action算子，下列属于Action算子

的是？

A、saveAsTextFile

B、reduceByKey

C、map

D、filter

正确答案：A

41.spark的核心模块是？

A、sparkcore

B、sparkstreaming

C、mapreduce

D、sparksql

正确答案：A

二、多选题（共30题，每题1分，共30分）

1.以下关于KafkaPartition说法正确的有

A、每个Partition在存储层面对应一个log文件

B、引入Partition机制，保证了Kafka的高吞吐能力

C、每个Partition都是有序且不可变的消息队列

D、Partition数量决定了每个consumergroup中并发消费者的最大

数量

正确答案：ABCD

2.华为大数据产品FusionlnsightHD中的Streaming具有哪些关键

特性？

A、可伸缩性

B、容错能力

C、消息可靠性

D、灵活性

正确答案：ABCD

3.FusionlnsightHD集群中包含了多种服务，每种服务又由若干角

色组成，下面哪些是服务的角色？

A、HDFS

B、NameNode

C、DataNode

D、HBase

正确答案：BC

4.根据数据流如何在两个Transformation之间传输数据，数据流可

以分为哪些类型？

A、一对多流

B、redistributing流

C、distributing流

D、一对一流

正确答案：AD

5.以下哪些是Sparx服务的常驻进程？

A、Jobllistory

B、JDBCServer

C、SparkResource

D、NodeManaaer

正确答案：AB

6.以下属于Streaming特点的是？

A、延迟低

B、属于事件驱动

C、数据先存储再计算

D、可做连续查询

正确答案：ABD

7.下面关于Flink窗口的描述错误的是()?

A、滚动窗口在时间上是不重叠的。

B、滑动窗口之间时间点存在重叠。

C、滚动窗口在时间上是重叠的。

D、滑动窗口之间时间点不存在重登。

正确答案：CD

8.传统数据处理的性能瓶颈有？

A、扩展能力有限

B、数据存储成本高

C、批量数据处理缺失

D、流式数据处理性能不足

正确答案：AB

9.下列选项中，哪些是Spark的重要角色()

A、DateNode

B、Nodemanager

C、Driver

D、ResourcoManager

正确答案：BCD

10.FusionlnsightHDManager界面显示Hive服务状态为Bad时,可

能的原因有哪些？

A、DBServioe服务不可用

B、HDFS服务不可用

C、Metastore实例不可用

D、HBase服务不可用

正确答案：ABC

11.下面那些组件依赖ZooKeeper?

A、Streaming

B、HDFS

C、YARN

D、HBase

正确答案：ABCD

12.在loader历史作业记录中，可以查看乂下哪些内容？()

A、作业开始/运行时间

B、脏数据链接

C、作业状态

D、错误行/文件数量

正确答案：ABCD

13.Zookeeper的关键特性包括以下哪些选项？()

A、可靠性

B、最终一致性

C、等待无关性

D、原子性

正确答案：ABCD

14.以下哪些数据源可以通过Loader实现与FusionlnghtHD的数据

交换？

A、SFTPServer

B、MySQL

C、NoSQL

D、FTPServer

正确答案：ABD

15.以下关于HBase中HMaster的功能描述哪些是正确的？

A、Region负载均衡,Region分裂以及分裂后的Region分配

B、负责建表/修改表/删除表

C、负责RegionServer的负载均衡

D、RegionServer失效后的Region迁移

正确答案：ABCD

16.下列哪些组件必须依赖于Zookeeper才能运行？

A、HDFS

B、HBase

C、Spark

D、YARN

正确答案：ABD

17.华为FusionlnsightHD行业成功案例都有哪些?

A、数字政府

B、智慧园区

C、智慧交通

D、金融

正确答案：ABCD

18.HBase的数据文件HFile中一个KeyValue格式包含哪些信息?

A、Key

B、Value

C、TimeStamp

D、KeyType

正确答案：ABCD

19.HBase集群定时执行Compaction的目的是什么？(ACD)

A^减少同一个Region同一个ColumnFamily下的文件数目

B、减少同一个Region的文件数目

C、提升数据读取性能

D、提升数据写入能力

正确答案：ACD

20.kafka消息传输保障通常有以下哪几种？()

A、最多三次(AtMostThreeTimes)

B、仅有一次(ExactlyOnce)

C、最少一次(AtLeaseonce)

D、最多一次(AtMostonce)

正确答案：BCD

21.Flume适用于以下哪些场景的数据收集？

A、Thrift,Avro,Syslog,Kafka等数据源上收集数据

B、本地文件数据采集

C、应用系统产生的日志采集

D、大量数据的实时数据采集

正确答案：ABC

22.以下哪些是Hive适用的场景？

A、数据汇总(每天/每周用户点击数，点击排行)

B、实时的在线数据分析

C、数据挖掘(用户行为分析，兴趣分区，区域展示)

D、非实时分析(日志分析，统计分析)

正确答案：ACD

23.在Fusioninsight集群中，Spark主要与以下哪些组件进行交互？

()

A、Hive

B、YARN

C、HDFS

D、Zookeeper

正确答案：BCD

24.下面哪些是MapReduce的特点？

A、高容错性

B、良好的扩展性

C、实时计算

D、易于编程

正确答案：ABD

25.以下关于lladoop分布式文件系统HDFS联邦描述正确的有？

A、一个Namespace使用一个blockpool管理数据块

B、—个Namespace可使用多个blockpool管理数据块

C、每个blockpool的磁盘空间是物理共享的，逻辑空间是隔离的

D、支持NameNode/Namespace水平扩展

正确答案：ACD

26.HBase集群定时执行Compaction的目的是什么？

A、减少同一个Region,同一个ColumnFamily下的文件数目

B、提升数据读取性能

C、减少同一个Col」nmFamily的文件数据

D、减少同一个Region的文件数目

正确答案：AB

27.Loader可以实现以下哪些转换规则?()多选

A、拼接转换

B、空值转换

C、增量转换

D、长整形时间转换

正确答案：ABD

28.以下关于HBase中HMaster的功能描述哪些是正确的？

A、负责建表/修改表/删除表

B、负责RegionServer的负载均衡

C>RegionServer失效后的Region迁移

D、Region负载均衡，Region分裂以及分裂后的Region分配

正确答案：ABCD

29.以下关于KafkaPartition说法正确的有？

A、每个Partition都是有序且不可变的消息队列

B、每个Partition在存储层面对应一个log文件

C、Partition数量决定了每个Consumergroup中并发消费者的最大

数量

D、引入Partition机制,保证了Kafka的高吞吐能力

正确答案：ABCD

30.FusionlnsightHD的Loader在创建作业时,连接器有什么作用？

A、确定有哪些转换步骤

B、提供优化参数，提供数据导入导出性能

C、配置作业如何与外部数据源进行连接

D、配置作业如何与内部数据源进行连接

正确答案：ABCD

三、判断题(共32题，每题1分，共32分)

L对高价值高度聚合的信息和知识的批次处理是大数据行业主要商

业诉求

A、正确

B、错误

正确答案：A

2.Yarn-client和Yarn-cluster主要区别是ApplicationMaster进

程的区别

A、正确

B、错误

正确答案：A

3.Spark根据RDD的依赖关系来划分Stage,调度器从DAG图末端出

发，逆向遍历整个依赖关系链，遇到窄依赖就断开，遇到宽依赖就

将其加入当前Stageo

A、正确

B、错误

正确答案：B

4.kafka是一个高吞吐、分布式、基于发布订阅的消息系统，利用

kafka技术可在廉价PCServer上搭建起大规模消息系统。()

A、正确

B、错误

正确答案：A

5.FusionlnsightHD系统中一个集群可以管理多个服务，每个服务

可以管理多个角色，每个角色只能管理一个实例。

A、正确

B、错误

正确答案：B

6.FusionlnsightHD管理节点提供双机HA机制，主节点故障后,主

备节点需要手动实现Failovero

A、正确

B、错误

正确答案：B

7.Flink是一个批处理和流处理结合的计算框架，其核心是一个数

据分类以及并行化计算的流数据处理引擎。()

A、正确

B、错误

正确答案：A

8.Hive是一种数据仓库处理工具，使用类SQL的HiveQL语言实现

数据查询功能，所有Hive的数据都存储在HDFS中()

A、正确

B、错误

正确答案：A

9.Spark是基于内存的计算引擎，所有Spark程序运行过程中的数

据只能存储在内存中

A、正确

B、错误

正确答案：B

10.华为FusionlnsightHD系统中，对存储副本为3个的数据块，当

有一个节点上该数据块丢失时，需要手动复制一个副本到该节点。

(B)

A、正确

B、错误

正确答案：B

11.Kafka作为一个分布式消息系统，支持在线和离线消息处理，并

提供了javaAPI以便其他组件对接使用，在Fusioninsight解决方

案中，Kafka属于FusionlnsightHD模块。

A、正确

B、错误

正确答案：A

12.FusionlnsightHD系统中，HBase支持动态扩展列。()

A、正确

B、错误

正确答案：A

13.SparkonYARN模式下，没有NodeManager的节点不能启动

executor执行task。

A、正确

B、错误

正确答案：A

14.大数据需要传统行业思维方式的转变，要把数据收集、分析作为

业务流程的重要组成部分，数据驱动业务流程优化，实现智能化和

自动化，并依托数据资产实现跨界拓展。

A、正确

B、错误

正确答案：A

15.假设HDFS在写入数据时只存2份，那么在写入过程中，

HDl?SClient先将数据写入DataNodel,再将数据写入DataNode2.

A、正确

B、错误

正确答案：B

16.FusionlnsightHD集群中的节点只安装了一块网卡，也可以采用

双平面隔离组网方案。

A、正确

B、错误

正确答案：B

17.kafkaConsumer写数据总体流程是，Consumer连接指定

TopicPartition所在的LeaderBroker,用于主动获取方式从kafka

中获取消息。()

A、正确

B、错误

正确答案：A

18.Kafka中Partitionreplication之间同步数

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据HCIA练习题库与答案

文档简介

温馨提示

最新文档

评论

大数据HCIA练习题库与答案

文档简介

温馨提示

最新文档

评论

相关文档