大数据HCIA习题库及参考答案_第1页
大数据HCIA习题库及参考答案_第2页
大数据HCIA习题库及参考答案_第3页
大数据HCIA习题库及参考答案_第4页
大数据HCIA习题库及参考答案_第5页
已阅读5页,还剩10页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据HCIA习题库及参考答案

一、单选题(共41题,每题1分,共41分)

1.FusioninsightHD的HBase中保存一张用户信息表meg_tabIe,

Rowkey为用户id,其中一列为用户呢称,现在按先后顺序往这列写

入三个KeyVaIue:001:Li,001:Mary,001:LiIy,请问

scan'川6812讨6',0/£[^10加>2)会返回哪几条数据?O

A、001:Lily

B、001:Li

C、001:Mary,001:Lily

D、001:Li,001:Mary,001:Lily

正确答案:A

2.传统数J居处理的数据规模的单位是?

A、TB

B、EB

C、PB

D、GB

正确答案:D

3.YARN是•主从架构,其中”从“是指下列选项中的那个?

A、NodeManager

B、NameNode

C、AppMaster

D、ResourceManager

正确答案:A

4.关于FusionInsightHDStreaming的Supervisor描述正确的是?

A、Supervisor负责资源的分配和任务的调度

B、Supervisor负责接受Nimbus分配的任务,启动停止属于自己管

理的Worker进程

C、Supervisor是运行具体处理逻辑的进程

D、Supervisor是在Topology中接收数据然后执行处理的组件

正确答案:B

5.Zookeeper的scheme认证方式不包括以下哪项?()

A、sasl

B、world

C、digest

D、auth

正确答案•A

6.Hadoop的HBase不适合哪些数据类型的应用场景?

A、大文件应用场景

B,海量数据应用场景

C、高吞吐率应用场景

D、半结构化数据应用场景

正确答案:A

7.关于Hi.ve建表的基本操作,描述正确的是?

A、一旦表创建好,不可再增加新列

B、创建外部表的时需要指定external关键字

C、一旦表创建好,不可再修改列名

D、一旦表创建好,不可再修改表名

正确答案:B

8.FusioninsightHD的Loader在创建作业时,连接器(Connector)

有什么作用?

A、确定有哪些转换步骤

B、提供优化参数,提高数据导入导出性能

C、配置作业如何与外部数据源进行连接

D、配置作业如何与内部数据源进行连接

正确答案:C

9.Flume用于收集数据,其传揄的数据基本单位是?

A、Split

B、Block

C、Event

D、Packet

正确答案:c

10.FusionInsightHadoop集群中,在某节点上通过df-hT查询,看

到的分区包含以下几

个:/var/1og/srv/RigData/srv/RigData/hadoop/data5/srv/BigDat

a/solr/solrserver3/srv/BigData/dbdataom这些分区所对应磁盘

最佳Raid级别的规划组合是?

A、RaidORaid1RaidONon-Raid1

B、RaidlRaidlNon-RaidNon-RaidRaid1

C、RaidORaidORaidORaidORaidO

D、Non-RaidNon-RaidNon-RaidNon-RaidRaid1

正确案:B

W.hbase的底层数据以()的形式存在的?

A、列存储

B、实时存储

C、keyvalue

D、行存储

正确答案:C

12.HBase的主HMaster是如何选举的?

A、通过ZooKeeper进行裁决

B、由RegionServer上行裁决

C、HMaster为双主模式,不需要进行裁决

D、随机选取

正确答案:A

13.哪一频不属于FusionInsightHD中Hive的流控特性的描述?

A、支持对已经建立的总连接数做阈值控制

B、支持对每个用户已经建立的连接数做阈值控制

C、支持对某个特定用户已经建立的连接数做阈值控制

D、支持对单位时间内所建立的连接数做阈值控制

正确答案:C

14.HBase中数据存储的文件格式是什么?

A、HFile

B、SequenceFile

C、Log

D、TXTfile

正确答案:A

15.FusionlnsightHD系统中HDFS默认BlockSize是多少?

A、32MB

B、64MB

C、128MB

D、256MB

正确答案:C

16.Kafka集群中,Kafka服务端部署的角色是?

A、Producer

B、Consumer

C、ZooKeeper

D、Broker

正确答案:D

17.HBase的底层数据以O的形式存在的?

A、KeyValue

B、行存储

C、实时存储

D、列存储

正确答案:A

18.在很:小文件场景下,Spark会起很多Task。当SQL逻辑中存在

Shuffle操作时,会大大增加hash分桶数,严重影响性能。

FusionInsight针对小文件的场景通常采用。算子,来对

Table中的小文件生成的partition进行合并,减少partition数,

从而避免再shuffle的时候,生成过多的hash分桶,提高性能。

A、groupby

B、join

C>connect

D、coalesce

正确答案:D

19.下面关于Zookeeper特性的描述错误的是?()

A、Zookeeper节点数必须为奇数个。

B、消息更新只能成功或者失败,没有中间状态。

C、一条消息要被超过半数的Server接收,它将可以成功写入磁盘

D、客户端所发送的更新会按照它们被发送的顺序进行应用。

正确案:A

20.Zookeeper在分布式应用场景中主要不包括以下哪些选项()

A、保证各节点上数据一致性

B、选举Master节点

C、分配集群资源

D、存储集群中服务器信息

iF:C

21.FusionInsightHDLoader作业前后,需要哪些节点与外部数据源

通讯?

A、Loadeir服务主节点

B、运行Yarn月R务作业的节点

C、前面两个都需要

D、前面两个都不需要

正确答案:c

22.Loader中用于管理LoaderServer进程主备状态的模块是?

A、JobManager

B、ResourceManager

C、JobScheduler

D.HAManager

正确答案:D

23.当ZooKeeper集群的节点数为5节点时,请问集群的容灾能力和

多少节点是等价的?(:'

A、3

B、4

C、6

D、以上说法都不对

正确答案:C

24.查看Kafka的某Topic的partition详细信息时,使用如下哪个

命令?

A、bin/kafka-topic.sh-delete

B、bin/kafka-topic.sh-create

C、bin/kafka-topish-describe

D、bin/kafka-topic.sh-list

正确答案:Q

25.FusionInsightHD的HBase中的一张表包含以下几个Region[10,

20),[20,30),[30,+oo],分别编号为①,②,③,那么,11,

20,222分别属于哪个Region?

A、①①③

B、①②③

C、①②②

D、①①②

正确答案:c

26.FusionInsightHDLoader作业运行前后,需要哪些节点与外部数

据源通讯?

A、Loader服务主节点

B、运行Yarn服务作业的节点

C、前面两个都需要

D、前面两个都不需要

正确答案:C

27.FusionInsightHD中,如果需要查看当前登录HBase的用户和权

限组,可以在HBaseshelI中执行什么命令?

A、use_permission

B、whoami

C、who

D、get_user

正确答案:B

28.以下哪一项不属于创建Loader作业时必选项?

A、名称

B、类型

C、连接

D、优先级

正确答案:D

29.如果需要由数据生产者决定数据发送给目标Bolt的某一个确定

的Task,应选择以下哪种消息发布策略

A、局部字段分组

B、广播分组

C、直接分组

D、全局分组

正确答案:C

30.FusionInsightManager用户权限管理不支持哪个配置?

A、给用户组配置角色

B、给用户配置权限

C、给用户配置角色

D、给用户组配置权限

正确案:D

31.FusionlnsightHD中Loader从SFTP服务器导入文件,如果不需

要做编码转换和数据转换且速度最快,选择下面哪个文件类型?

A、text_file

B、sequence_file

C、binary_file

D、graphfile

正确答案:c

32.FusionInsightHD中Loader实例必须与哪个实例部署在一起?

A、DataNode

B、RegionServer

C、ResourceManager

D、NodeManager

正确答案:D

33.关于FusionInsightHDStreaming的Supervisor描述正确的是?

A、Supervisor负责资源分配和任务调度

B、Supervisor负贡接受Nimbus分配的任务,启动和停止属于自己

管理而worker进程

C、Supervisor是运行具体处理逻辑的进程

D、Supervisor是一个Topology中接收数据然后执行处理的组件

正确答案•B

34.Hive中的这条命令uALTERTABLEempIoyeeIADDcoIumns

(columnstring):“是什么含义?

A、修改文件格式

B、删除表

C、创建表

D、添加列

正确答案:D

35.YARN调度器分配资源的顺序,下面哪一个描述是正确的?

A、任意机器->同机架->本地资源

B、任意机器-)本地资源-〉同机架

C、本地资源->同机架->任意机器

D、同机架->任意机器-〉本地资源

正确答案:C

36.FIume数据采集过程中,下列选项中能对数据进行过滤和修饰的

是()

A、Channel

B、ChannelSelector

C、Interceptor

D、Sink

正确答案:C

37.FusionInsight系统中,FIume数据流在节点内不需要经过哪个

component?

A、sink

B、source

C、channel

D、topic

D

38.spark'的核心模块是?

A、sparkcore

B、mapreduce

C、sparksql

D、sparkstreaming

正确答案:A

39.Hadoop平台中,要查看YARN服务中一个appIication的信息,

通常需要使用什么命令?

A、container

B、jar

C、application-attempt

I)、Application

正确答案:D

40.关于Hive建表基本操作,描述正确的是?

A、一旦表创建好,不可再增加新列

B、一旦表创建好,不可再修改表名

C、一旦表创建好,不可再修改列名

D、创建外部表时需要指定external关键字

正确答案:D

41.以下关于Zookeeper的Leader节点在收到数据变更请求后的读

写流程说法正确的是?

A、先写磁盘再写内存

B、先写内存再写磁盘

C、同时写入磁盘和内存

D、仅写入内存

正确答案:A

二、多速题(共30题,每题1分,共30分)

1.华为大数据解决方案中平台架构包括以下哪些组成部分?()

A、Hadoop层

B、GaussDB200

C、Datafarm层

D、FusioInghtManager

正确答案:ACD

2.传统数据处理的性能瓶颈有?

A、流式数据处理性能不足

B、扩展能力有限

C、数据存储成本高

D、批量数据处理缺失

正确答案:BC

3.Zookeeper的关键特性包括以下哪些选项?()

A、原子性

B、最终一致性

C、等待无关性

D、可靠性

正确答案:ABCD

4.以下关于Hadoop分布式文件系统HDFS联邦描述正确的有?

A、一个Namespace横用一个blockpool管理数据块

B、一个Namespace可使用多个blockpool管理数据块

C、每个blockpool的磁盘空间是物理共享的,逻辑空间是隔离的

D、支持NameNode/Namespace水平扩展

正确答案:ACD

5.下面关于Flink窗口的描述错误的是()?

A、滑动窗口之间时间点不存在重叠。

B、滑动窗口之间时间点存在重叠。

C、滚动窗口在时间上是不重叠的。

D、滚动窗口在时间上是重叠的。

正确答案:AD

6.fusininsightHD平台中,那些组件支持对列表加密?

A、HDFS

B、Flink

C、hbase

D、hive

正确答案:CD

7.关于SparkSQL&Hive区别与联系,下列说法正确的是?()

A、SparkSQL的执行引擎为Sparkcore,Hive默认执行引擎为

MapReduce

B、SparkSQL不可以使用Hive的自定义函数

C、SparkSQL兼容绝大部分Hive的语法和函数

D、SparkSQL依赖Hive的元数据

正确答案:ACD

8.Hadoop的HDFS是一种分布式文件系统,适合以下哪种场景的数

据存储和管理?

A、大量小文件存储

B、高容错、高吞吐量

C、低延迟读取

D、流式数据访问

正确答案:BD

9.FusionInsightManager会定时备份哪些数据?

A、NameNode

B、LDAP

C、OMS

D、DBService

正确答案:BC

10.下列加些措施为了保障数据的完整性?

A、集群数据均衡

B、元数据可靠性保证

C、安全模式

D、重建失效数据盘的副本数据

正确答案:ABCD

11.下面哪些数据以非结构化数据为主

A、CRM管理系统

B、地震监测数据

C、淘宝网支付数据

D、银行影像明细

正确答案:ABCD

12.FusionInsightHD系统中使用Streaming客户端sheII命令提交

了拓扑之后,使用StromUI查看发现该拓扑长时间没有处理数据,

可能原因有?()

A、Supervisor是在topology中接收数据然后执行处理的组件

B、拓扑业务存在逻辑错误,提交之后无法正常运行

C、拓扑过手度.杂或者并发太大,耳薮worker启制时间太长,超过

Supervisor的等待时间

D、Supervisor的slots资源被耗尽,拓扑提交上去之后分不到

slot去启东worker进程

正确答案:BCD

13.HBase集群定时执行Compaction的目的是什么?

A、减少同一个Region,同一个ColumnFamily下的文件数目

B、提升数据读取性能

C、减少同一个ColumnFamily的文件数据

D、减少同一个Kegion的文件数目

正确答案:AB

14.FIink可以基于以下哪些窗口进行统计?

A、滑动窗口

B、会话窗口

C、countWindow

D、时间窗口

正确答案:ABCD

15.YARN中,“从”节点负责以下哪些工作?

A、集群中所有资源的统一管理和分配

B、监控每个Container的资源使用(内存、CPU等)情况

C、监督Container的生命周期管理

D、管理日志和不同应用程序用到的附属服务

正确答案:BCD

16.FIink流式处理的数据源类型包括?

A、Files

B、Collections

C、JDBC

D、Socketstreams

正确答案>ABD

17.关于大数据的主要特征理解和描述正确的有?

A、数据的价值密度较低

B、来源多,格式多

C、存储量大,计算量大

D、增长速度快,处理速度快

正确答案:ABCD

18.在Loader历史作业记录中,可以查看以下哪些内容?

A、脏数据连接

B、作业开始/运行时间

C、作业状态

D、错误行/文件数量

正确答案:ABCD

19.Hadoop系统中YARN支持哪些资源类型的管理?

A、内存

B、CPU

C、网络

D、磁盘空间

正确答案:AB

20.ZKFC进程部署在HDFS中的以下哪个节点上?

A、ActiveNameNode

B、StandbyNameNode

C、DataNode

D、以上全不正确

正确答案:AB

21.Hadoop集群规模很大时,数据的分布情况会非常关键,用户需

要根据数据分布情况,决定集群是否扩容,数据是否需要做均衡等。

以下关于FusionInsight资源分布监控说亲正确的有?()

A、帮助用户迅速找到资源消耗最高的节点,采取适当的措施

B、通过每个服务主业的资源分布查看页面,查看到关键的资源分布

情况

C、可以帮助用户快速聚焦在最关键的资源消耗上

D、通过DashBoard界面,可以查看到主机资源分布情况,例如内存

占有率在50喧70%的主机列表,并提供连接跳转。

正确答案:ABCD

22.以下哪些是Spark,报务的常驻进程?

A、Jobllistory

B、JDBCServer

C、SparkResource

D、NodeManaaer

正确答案:AB

23.在华为大数据解决方案中,Hadoop层包含以下哪些组件。

A、Hive

B、Flink

C、Miner

D、Spark

正确答案:ABD

24.以下哪些选项属于Fusionlnsight数据安全性?

A、操作系统安全加固

B、用户权限认证管理

C、组件数据加密

D、数据完整性校验

正确答案:CD

25.大数或分析相关技术主要特征有哪些?

A、数据背后事件关联性分析

B、机器学习,全量特征

C、以精确样本为基础

D、以海量数据为基础

正确答案:ABD

26.基于Hadoop开源大数据平台主要提供了针对数据分布式计算和

存储能力,如下属于分布式存储组件的有?

A、MR

B、Spark

C、HDFS

D、HBase

正确答案:CD

27.在华为大数据解决方案中,hadoop底层包含以下那些组件?

A、miner

B、hive

C、spark

D、fink

正确答案:BCD

28.YARN通过ResourceManager对集群资源进行管理,它的主要功

能有?

A、集群资源调度

B、应用程序管理

C、日志管理

D、以上说法都不对

正确案:AB

29.以下受于HBase中HMaster的功能描述哪些是正确的?

A、Region负载均衡,Region分裂以及分裂后的Region分配

B、负责建表/修改表/删除表

C、负责RegionServer的负载均衡

D、RegionServer失效后的Region迁移

正确答案:ABCD

30.

SP轻

A快

B、巧

C、灵

D、

正确答案:ABCD

三、判断题(共32题,每题1分,共32分)

1.假设HDFS在写入数据时只存2份,那么在写入过程中,

HDFSCIient先将数据写入DataNodeI,再将数据写入DataNode2.

A、正确

B、错误

正确答案:B

2.FusionInsightHD系统中,在创建Kafka的Topic时必须设置

Partition个数和副本个数,设置多副本可以增强Kafka服务的容

灾能力。

A、正确

B、错误

正确答案:A

3.coIocation(同分右)文件级的同分布实现文件的快速访问,避

免了因数据搬迁带来的大量网络开销。()

A、正确

B、错误

正确答案:A

4.FusionlnsightManager对外支持REST接口、SNMP接口、SYSL0G

接口。

A、正确

B、错误

正确答案:A

5.Flume彳专输数据过程中,Sink取走数据并写入目的地后,会将

event从channeI中删除。

A、正确

B、错误

正确答案:A

6.FusionlnsightTooI是为技术支持工程师和维护工程师提供的一

套健康检查工具,能够检查集群相关节点,服务的健康状态,提前

发现集群中潜在的问题,并生成健康检查报告。方便技术支持工程

师和维护工程师快速了解系统的健康状况。

A、正确

B、错误

正确答案:A

7.FusionlnsightManager支持大规模集群的安装部署、监控、告警、

用户管理、权限管理、审计、服务管理、健康检查、问题定位、升

级和补丁。

A、正确

B、错误

正确答案:A

8.用户权,管理基于角色的访问控制(RBAC),提供可视化的多组统一

的集群中用户权限管理。

A、正确

B、错误

正确答案^A

9.Spark泉据RDD的依赖关系来划分Stage,调度器从DAG图末端出

发,逆向遍历整个依赖关系链,遇到窄依赖就断开,遇到宽依赖就

将其加入当前Stageo

A、正确

B、错误

7F确答案:B

10.FusionlnsightHD中使用HBase进行数据读写服务时需要连接

HMastero

A、正确

B、错误

正确答案:B

11.容量调度器在进行资源分配时,现有同级的2个列队Q1和Q2,

它们的容量均为30,其中Q1已使用8,Q2已使用14,则会优先将

资源分配给Q10

A、正确

B、错误

正确答案:A

12.华为Fusionlnsight中,Hbase的表设计工具、连接池管理和增

强的SDK,可以简化复杂表的业务开发。

A、正确

B、错误

正确答案:A

13.Channel的作用类似队列,用于临时缓存进来的数据,当Sink

成功地将数据发送到下一跳的Channel或最终目的,数据会从

ChanneI移除

A、正确

B、错误

正确答案:A

14.FIink'是一个批处理和流处理结合的统一计算框架,其核心是一

个数据分发以及并行化计算的流数据处理引擎

A、正确

B、错误

正确答案:A

15.FusionInisghtHD集群安装成功后,不允许修改服务、角色和实

例的配置。

A、正确

B、错误

正确答案:B

16.kafkaIogssegment文件命名规则是partion全局的第一^个

segment从0开始,后续每个segment文件名为上一个全局partion

的最大offset(偏移message数)。()

A、正确

B、错误

正确答案:A

17.ROD可以从Hadoop兼容的文件系统生成,生成之后可以通过调

用RDD的算子对RDD的数据进行部分更新。

A、正确

B、错误

正确答案:A

18.SparkonYARN模式下,没有NodeManager的节点不能启动

executor执行task。

A、正确

B、错误

正确答案:A

19.FusionInsightHD集群三层组网时,管理节点、控制节点、数据

节点建议安装在不同的网段内,可以提高可靠性。

A、正确

B、错误

正确答案:A

20.容量前度器在尽行资源分配,现有同级的2个队列Q1和Q2,他

们的容量均为30,其中Q1已使用8,Q2已使用14,则会优先将资

源分配Q1。

A、正确

B、错误

正案:A

21.FusionInsightHDLoader进行数据导入和导出,必须经过Reduce

阶段进行数据处理。

A、正确

B、错误

正确答案:B

22.导入数据到Hive表时,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论