大数据HCIA练习题库(附答案)_第1页
大数据HCIA练习题库(附答案)_第2页
大数据HCIA练习题库(附答案)_第3页
大数据HCIA练习题库(附答案)_第4页
大数据HCIA练习题库(附答案)_第5页
已阅读5页,还剩13页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据HCIA练习题库(附答案)

一、单选题(共40题,每题1分,共40分)

1、哪一项不属于FusionlnsightHD中Hive的流控特性的描述?

A、支持对已经建立的总连接数做阈值控制

B、支持对每个用户已经建立的连接数做阈值控制

C、支持对某个特定月户已经建立的连接数做阈值控制

D、支持对单位时间内所建立的连接数做阈值控制

正确答案:C

2、KafkaClusterMirroring工具可以实现以下哪些功能?

A、Kafka跨集群数据同步方案

B、Kafka单集群内数据备份

C、Kafka但集群内数据恢夏

D、以上全不正确

正确答案:A

3、HDfS的NameNode节点主备状态管理及元数据文件合并分别由哪两个

模块负责?

A、Zkfc和备NameNode

主NameNode和备NameNode

C、Zkfc和主NameNode

主NameNode和JournalNode

正确答案:A

4、下列选项中,关于Zookeeper可靠性含义说法正确的是?

A、可靠性是指更新只能成功或者失败,没有中间状态

B、可靠性是指无论哪个server,对外展示的均是同一个视图

C、可靠性通过主备部署模式实现

D、可靠性是指一条消息被一个server接收,它将被所有server接受

正确答案:A

5^KafkaClusterMirroring工具可以实现以下哪项功能?

A、Kafka跨集群数据同步方式

B、Kafka单集群内数据备份

C、Kafka单集群内数据恢复

D、以上全不正确

正确答案:A

EusioninsightManager用户权限管理不支持哪个配置?

A、给用户配置角色

B、给角色配置权限

C、给用户组配置角色

D、给用户组配置权限

正确答案:D

7、当Zookeeper集群的节点数为5节点时,请问集群的容灾能力和多少

节点是等价的?

A、3

B、4

C、6

D、以上都不是

正确答案:C

8、Streaming主要通过Zookeeper提供的以下哪项服务实现事件侦听?

A、watcher

B、分布式锁机制

C、checkpoint

D、ACK

正确答案:A

9、部署FusionlnsightHD时,同一集群内的FlumeServer节点建议至少

部署几个?

A、1

B、2

C、3

D、4

正确答案:B

10、HDFS中NameNode的主备仲裁,是有那个组件控制的?

A、HDESClient

B、ResourceManager

C^ZooKeeperFailoverController

D^NodeManager

正确答案:C

11>华为FusionlnsightHD系统中关于HDFS的DataNode的说法正确的

是?

A、不会检查数据的有效性

B、周期性地将本节点的Block相关信息发送给NameNode

C、不同的DataNode存储的Block一定是不同的

D、一个DataNode上的Block可以是相同的

正确答案:B

12>IIBase元数据MetaRegion路由信息保存在哪里?

A、Root表

B、Zookeeper

C、HMaster

D>Meta表

正确答案:B

13、Spark自带的资源管理框架是?

A^Docker

B、Mesos

C、YARN

D、Standalone

正确答案:D

14、FusionlnsightHD使用HBase客户端批量写入10条数据,某个

RegionServer节点上包含该表的2个Regior,分别A和B,10条数据中

有2条属于A,4条属于B,请问写入这10条数据需要向该

RegionServer发送几次RPC请求?

A、1

B、2

C、6

I)、10

正确答案:A

15、Streaming主要通过Zookeeper提供的以下哪项服务实现事件侦听?

()

A、分布式锁机制

B、ACK

CxWatcher

D、Checkpoint

正确答案:C

16、关于Hive在FusionlnsightHD中的架构描述错误的是?

A、只要有一个HiveServer不可用,整个Hive集群便不可用

Asspark

B、主机OS

C、yarn

D、HDFS

正确答案:B

22、Zookeeper在分布式应用场景中主要不包括以下哪些选项()

A、存储集群中服务器信息

B、选举Master节点

C、保证各节点上数据一致性

D、分配集群资源

正确答案:D

23、关于RDD,下列说法错误的是

A、RDD只是一个只读的,可分区的分布式数据集

B、RDD是Spark对基础数据的抽象

C、RDD具有血统机制(Lineage)

D、RDD默认存储在磁盘

正确答案:D

24、在很多小文件场景下,Spark会起很多Task,当SQL逻辑中存在

Shuffle操作时,会大大增加hash分桶数,严重影响性能。

Fusioninsight中,针对小文件的场景通常采用()算子,来对Table中

的小文件生成的partition进行合并,减少partition数,从而避免在

shuffle的时候,生成过多的hash分桶,提升性能?

A、join

connect

C、groupby

D、coalosce

正确答案:A

25、Kafka集群在运行期间,直接依赖于下面哪些组件?()

A、HDFS

B、Zookeeper

C、HBase

D、Spark

正确答案:B

26、以下关于FusionlnsightCTBase的描述不正确的是?()

A、CTBase的javaAFI提供一套Hbase连接池管理的接口,内部进行连接

共享,减少客户端应用开发难度

B、CTBase提供了一套WebUI进行元数据定义,提供了直观易用的表设计

工具,降低表设计的难度。

C、CTBase的读写数据接口,统一封装了行定义的接口,自动进行冷字段

合并和解析,不需要在应用程序中进行合并和解析。

D、CTBase,是基于HBase的聚簇表开发框架。

正确答案:C

27、以下关于HiveSQl基本操作描述正确的是?

A、创建外部表使用external关键字,创建普通表需要指定internal关

键字

B、创建外部表必须要指定location信息

C、加载数据到Hive时源数据必须是HDFS的一个路径

D、创建表时可以指定列分隔符

正确答案:D

28、Hadoop的HBase不适合哪些数据类型的应用场景?

A、大文件应用场景

B、海量数据应用场景

C、高吞吐率应用场景

D、半结构化数据应月场景

正确答案:A

29、关于Hive在FusionlnsightHD中的架构描述错误的是?(A)

只要有一个Hiveserver不可用,整个Hive集群便不可用

B.HiveServer负责接受客户端请求、解析、执行HQL命令并返回查询结

C^MetaStore用于提供元数据服务,依赖于BBService

D、在同一时间点HiveSever只有一个处于Active状态,另一个则处于

Standby状态

正确答案:A

30、如果需要由数据生产者决定数据发送给目标Bolt的某一个确定的

Task,应选择以下哪种消息发布策略

A、局部字段分组

B、广播分组

C、直接分组

D、全局分组

正确答案:C

31、以下关于Zookeeper的Leader节点在收到数据变更请求后的读写流

程说法正确的是?

A、仅写入内存

B、同时写入磁盘和内存

C、先写内存再写磁盘

D、先写磁盘再写内存

正确答案:D

32、FusionlnsightHD的IIBase中保存一张用户信息表meg_table,

Rowkey为用户id,其中一列为用户昵称,现在按先后顺序往这列写入三

个KeyValue:001:Li,001:Mary,001:Lily,请问

scan,meg_table',(VERSION=>2)会返回哪几条数据?()

A、001:Lily

B、001:Li

C、001:Mary,001:Lily

D、001:Li,001:Mary,001:Lily

正确答案:A

33、Spark是以下哪种编程语言实现的?

A、C

B、Ci।

C、JAVA

Scala

正确答案:D

34、硬件故障被认为是常态,为了解决这个问题,HDFS设计了副本机制。

默认情况下,一份文件,HDFS会存()份?

A、2

B、4

C、3

D、5

正确答案:C

35、FusioninsightManager不能够管理哪个对象?

A、Spark

B、主机OS

C、YARN

D、HDFS

正确答案:B

36>FusionlnsightHD系统中,下面哪个方法不能查看到Loader作业执

行的结果?

A、通过Yarn任务管理查看

B、通过LoadurUI界面查看

C、通过Mangaer的自警查看

D、通过XodeManager查看

正确答案:D

37、关于Hive与Hadoop其他组件的关系。以下描述错误的是?

A、Hive最终将数据存储在HDFS中

B、Hive是Hadoop平台的数据仓库工具

C、HQL可以通过MapRoducc执行任务

D、Hive对HBase有强依赖

正确答案:D

38、下列哪个不是HBase读取数据流程中涉及的角色或服务?()

A、HDFS

Zookeeper

C、HMaster

D、IIRegionServer

正确答案:C

39、关于Hive建表基本操作,描述正确的是?

A^一旦表创建好,不可再修改表名

B、一旦表创建好,不可再修改列名

C、一旦表创建好,不可再增加新列

D、创建外部表时需要指定external关键字

正确答案:D

40、查看Kafka某Topic的Partition详细信息时,使用如下哪个命令?

A、bin/kafka-topics.sh-create

B、bin/kafka-topics.sh-describe

C、bin/kafka-topics.sh-delete

D、bin/kafka-topics.sh-list

正确答案:B

二、多选题(共30题,每题1分,共30分)

1FusioninsightHDManager界面显示Hive服务状态为Bad时,可能的

原因有哪些?

A^DBScrvioc服务不可用

B、HDFS服务不可用

C^Metastore实例不可用

D、HBase服务不可用

正确答案:ABC

2、MapReduce过程中,以下属于Shuffle机制的是?

A、Combine

B、Sort/Merge

C、Partition

D、Copy

正确答案:BD

3、以卜.哪些选项属于FusionlnsightSparkSQL的优点。

A、以上全都正确

B、稳定和高性能

C、SQL兼容性

D、长稳测试

E、支持数据插入,更新和删除

正确答案:ABCDE

4、若在消息处理过程中允许部分信息丢失,关闭消息可靠性处理机制的

方式有以下哪些?

A^Bolt发送消息时使用Unanchor方式发送

B、将参数Config.Topology_ACKERS设置为错

C、将参数Config.Topology_ACKERS设置为0

D、Spout发送消息时,使用不指定消息messagclD的接口进行发送

正确答案:ACD

5、以下属于hiveSQL中DDL(数据定义语言)的是?()

A、修改表

B、删除表

C、建表

D、数据导入

正确答案:ABC

6^Spark适用于以下哪些场景?()

A、实时流处理

B、批处理

C、图计算

D、交互式查询

正确答案:ABCD

7、Fusioninsight系统中Hive支持的存储格式包括?

A、HFile

B、TextFile

C、SequenceFile

D、RCFile

正确答案:BCD

8、HDFS联邦环境下,NameSpace(命名空间)包含以下哪些内容()

A、目录

B、文件

C、块

D>以上全不正确

正确答案:ABC

9、在Fusioninsight集群中,Spark主要与以下哪些组件进行交互?()

A、Hive

B、YARN

C、HDFS

D、Zookeeper

正确答案:BCD

10、ZKFC进程部署在hdfs中的以下那个节点上?

A、activenamenode

B、standbynamenode

C、datanode

D、以上全部不对

正确答案:AB

11>下面那些组件依赖ZooKeeper?

A、Streaming

B、HDFS

C、YARN

D、HBase

正确答案:ABCD

12、大数据分析相关技术主要特征有哪些?

A、以海量数据为基础

B、机器学习,全量特征

C、以精确样本为基础

D、数据背后事件关联性分析

正确答案:ABD

13、下列关于worker(工作进程)、Executor(线程)、task(任务)说

法正确的是?()

A、每个Executor(线程)可以运行多个tas《(任务)

每个worker可以运行多个Executor(线程)

C、每个Executor(线程)可以运行不同组件(spout或bolt)的task

(任务)

D、每个worker只能为一个拓扑运行Executor(线程)

正确答案:ABCD

14、FusionlnsightHD的Loader在创建作业时,连接器有什么作用?

A、确定有哪些转换步骤

B、提供优化参数,提供数据导入导出性能

C、配置作业如何与外部数据源进行连接

D、配置作业如何与内部数据源进行连接

正确答案:ABCD

15、以下哪些是Kafka实际的应用场景

A、网站活性跟踪

B、日志收集

C、资源管理

D、聚合统计系统运营数据

正确答案:AD

16、若在消息处理过程中允许部分信息丢失,关闭消息可靠性处理机制

的方式有以下哪些?

A、将参数Config.Topology_ACKKRS设置为0

B、将参数Config.Topology.ACKKRS设置为False

C、Spout发送消息时,使用不指定消息messagelD的接口进行发送

D、Bolt发送消息时使用Unanchor方式发送

正确答案:ACD

17、调用Zookeeper客户端命令中包含哪些信息?

A、端口号

B、用户名

C、服务器名称

D、ip地址

正确答案:AD

18、下列选项中,哪些是MapReduce一定会有的过程?

A^Combine

B、Map

C、Reduce

Partition

正确答案:BCD

19、下列关于ZooKocpor的描述正确的是()

ZookKeeper基于开源ApacheZookper主要用于解决分布式应用中经常

遇到的一些数据管理问题

B、ZooKeeper作为底层组件被其他组件依赖,而不依赖于其他组件

C、华为FusionlnsightUD中要求必须部署ZooKeeper

D、ZooKeeper节点个数要求越多越好

正确答案:AC

20、在Streaming的处理节点Bolt中,可以完成以下哪些操作()

A、连接运算

B、连接数据库

C^过滤(filter)

D、业务处理

正确答案:ABCD

21、以下哪些是Hive适用的场景?

A、实时的在线数据分析

B、数据挖掘(用户行为分析,兴趣分区,区域展示)

C、数据汇总(每天/每周用户点击数,点击排行)

D、非实时分析(日志分析,统计分析)

正确答案:BCD

22、以下哪些数据源可以通过Loader实现与FusionlnghtUD的数据交换?

A、SFTPServer

B、MySQL

C、NoSQL

D、FTPServer

正确答案:ABD

23、下列哪些措施是为了保障数据的完整性

A、元数据可靠性保证

B、重建失效数据盘的副本数据

C、安全模式

D、集群数据均衡

正确答案:ABCD

24、FusionTnsightManager的主要功能有以下哪些?

A、数据集成

B、安全管理

C、系统管理

D、服务治理

正确答案:BCD

25、FusionlnsightHD在安装集群成功后,有哪些项需要检查?

A、Service组件健康状态

B、系统是否有告警

C、服务的配置状态是否为已同步

D、主机健康状态

正确答案:ABCD

26、以下关于Zookeeper的leader选举说法正确的是

A、当实例数n为奇数时,假定n=2x+l,则成为leader节点需要x票

B、当实例数为8时,则成为leader节点需要5票,容灾能力为4

C^Zookeeper选举leader时,需要半数以上的票数

D、当实例数n为奇数时,假定n=2x+l,则成为leader节点需要x+1票

正确答案:CD

27、以下关于KafkaPartition副本的特性描述正确的是?

A、消费者和生产者都是从Leader中读写数据,也可直接与Follower交

B、副本以分区为单位。每个分区都有各自的主副本的从副本

C、主副本叫做Leader,从副本叫做Follower

D、Follower通过拉取的方式从Leader中同步数据

正确答案:BCD

28、以下关于FusionlnsightHBase可视化建模说法正确的有?()

A、可视化建模帮助DBA进行建模设计,降低HBase的使用门槛

B、QualifierHBase列:每一列代表业务数据某一属性

C、实现人员分工:DBA关注数据表建模,开发人员关注用户表明和用到的

D、Column用户表列:每一列代表一个KeyValue

正确答案:ABC

29、以下关于FusionlnsightHBase可视化建模说法正确的是?

A、Column用户表列,每一列代表一个KeyValue

B、QualifierHBase列,每一列代表业务数据某一,个属性

C、实现人员分工,DBA关注数据表建模,开发人员关注用户表名和用到

的列

D、可视化建模帮助DBA进行建模设计,降低HBas。的使用门槛

正确答案:ABCD

30>与开源Sqoop相比,Loader具有哪些增强特性?()多选

A、高可靠

B、安全性

C、图形化

D、高性能

正确答案:ABCD

三、判断题(共30题,每题1分,共30分)

1、SparkonYARN模式下,没有NodeManager的节点不能启动executor执

行task。

A、正确

B、错误

正确答案:A

2、如果某些Containers的物理内存利用率超过了配置的内存阈值,但

所有Containers的总内存利用率并没有超过设置的NodeManager内存阈

值,那么内存使用过多的Containers仍可以继续运行。

A、正确

B、错误

正确答案:A

3、FusionlnsightHD部署过程中,执行precheck检查每一个节点时必须

调用checkNodes.Configd配置文件。

A、正确

B、错误

正确答案:A

4、在Streaming中,消息可靠性级别中的精确一次时通过ACK机制来实

现的。

A、正确

B、错误

正确答案:B

5、FusionlnsightUD的Loader中,一个连接器(Connector)只可以分

配给一个作业使用

A、正确

B、错误

正确答案:B

Spark和Hadoop都不适用于迭代计算的场景。

A、正确

B、错误

正确答案:B

7、HDFS支持大文件存储,同时支持多个用户对同一个文件的写操作,以

及在文件任意位置进行修改。

A、正确

B、错误

正确答案:B

8、在FusionlnsightHD系统,Loader作业运行过程中,如果产生脏数据,

Loader作业执行结果的状态一定是失败。

A、正确

B、错误

正确答案:B

9、FusionlnsightHD中Loader作业提交到YARN后,作业不能手动停止。

A、正确

B、错误

正确答案:B

10、Hive中的“Groupby”指的是通过一定规则将一个数据集划分成若干

个小的数据集,然后针对若干个小的数据集进行数据分组处理。

A、正确

B、错误

正确答案:A

11>ResourceManager采用高可用方案,当Activeresourcemanager发现

故障时,只能通过内置的zookeeper来启动standby的resourcemanager,

将其状态切换为activeo

A、正确

B、错误

正确答案:B

12、FusionlnsightllD部署Solr时,如果选择索引存放在本地磁盘,建

议给每个SolrServer实例(题目不全)

A、正确

B、错误

正确答案:A

13、Kerberos只能走集群内的服务提供安全认证。

A、正确

B、错误

正确答案:B

14、Hive不支持超时重试机制。

A、正确

B、错误

正确答案:B

15、Flink中的checkpoint机制不断绘制流应用的快照,流应用的状态

快照只能保存在HDFS文件系统。()

A、正确

B、错误

正确答案:B

16、Kafka所有消息都会被持久化到硬盘中,同时Kafka通过对

TopicPartition设置Replication来保障数据可靠。

A、正确

B、错误

正确答案:A

17、SparkSOL表中,经常会存在很多小文件(大小远小于DFS块大小),

在这种情况下,Spark会启动更多的Task来处理这些小文件,当SQL逻

辑中存在Shuffle操作时,会大大增加hash分桶数,从而严重影响性能。

()

A、正确

B、错误

正确答案:A

18、YARN上有两个同级队列Q1与Q2,容量都是50%,Q1上已经有19个

任务共占用了40的容量,Q2上有两个任务共占用了30的容量,那么由

于Q1的任务数多,调度器会优

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论