版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2024年6月大数据HCIA模拟习题一、单选题(共10题,每题1分,共10分)1.试题:下面关于zookeeper特性的描述错误的是()选项A.客户端所发送的更新会按照他们被发送的顺序进行应用选项B.zookeeper节点数必须为奇数个选项C.一条消息要被超过半数的Server接受,它将可以成功写入磁盘选项D.消息更新只能成功或者失败,没有中间状态2.试题:Hadoop系统中YARN资源的抽象是用什么表示?选项A.内存选项B.磁盘空间选项C.CPU选项D.Container3.试题:在FusionInsight集群规划部署时,建议管理节点最好部署()个,控制节点最少需要部署()数据节点最少需要部署()个。选项A.1,2,2选项B.1,3,2选项C.2,3,1选项D.2,3,34.试题:在Fusionlnsight集群规划部署时,建议管理节点最好部署()个,控制节点最少需要部署()数据节点最少需要部署()个。选项A.1,2,2选项B.2,3,3选项C.1,3,2选项D.2,3,15.试题:以下关于Kafka的描述错误的有()选项A.使用Scala、Java语言实现选项B.由ApacheHadoop开发,并于2011年开源选项C.用作活动流和运营数据处理管道的基础选项D.具有信息持久化、高吞吐、实时等特性6.试题:FusionInsightHD中loader从SFTP服务器导入文件时,不需要做编码转换和数据转换且速度最快的文件类型是以下哪项?()选项A.sequence_file选项B.binary_file选项C.text_file选项D.graph_file7.试题:下列哪条HDFS命令可用于检测数据块的完整性?选项A.hdfsfsck–delete选项B.hdfsfsck/选项C.hdfsdfsadmin–report选项D.hdfsbalancer–threshold18.试题:在Flink技术架构中,()是流处理和批处理的计算引擎选项A.DataStream选项B.FlinkCore选项C.Standalone选项D.Runtime9.试题:查看Kafka的某Topic的partition详细信息时,使用如下哪个命令?选项A.bin/kafka-topic.sh--list选项B.bin/kafka-topic.sh–create选项C.bin/kafka-topish--describe选项D.bin/kafka-topic.sh--delete10.试题:在规划FusionIsightHD集群时,如果客户用于功能测试,对性能没有要求,节约成本的情况下可以采用管理节点、控制节点、数据节点合一部署,最少需要多少节点?选项A.2选项B.3选项C.6选项D.8二、多选题(共20题,每题1分,共20分)1.试题:以下选项中,属于HDFS架构关键特性的是?选项A.元数据持久化机制选项B.多方式访问机制选项C.HA高可靠性选项D.健壮机制2.试题:以下关于HBase中HMaster的功能描述哪些是正确的?选项A.Region负载均衡,Region分裂以及分裂后的Region分配选项B.负责RegionServer的负载均衡选项C.RegionServer失效后的Region迁移选项D.负责建表/修改表/删除表3.试题:大数据时代的到来,依赖于以下哪些技术的提升?选项A.网络选项B.云计算选项C.硬件设备制造选项D.人工智能4.试题:Kafka消息传输保障通常有以下哪几种?()选项A.最多三次(AtMostThreeTimes)选项B.最多一次(AtMostOnce)选项C.最少一次(AtLeaseOnce)选项D.仅有一次(ExactlyOnce)5.试题:FusionInsightHD数据高可靠性体现在以下哪些方面?()选项A.关键数据掉电保护选项B.第三方备份系统集成选项C.硬盘热插拔选项D.跨数据中心容灾6.试题:下列关于Flink中Transformation的说法正确的是?选项A.keyBy是将源头数据按照key进行分组,以保证同一个key的元数据分到同样的组中选项B.flatMap可以对文本进行切分选项C.可以通过window设定时间窗口选项D.Filtor操作是对每个元素执行boolean函数7.试题:以下关于HBase存储模型的描述正确的是?()选项A.每一个KeyValue都拥有一个Qualifier标识选项B.即使是key值相同,Qualifier也相同的多个KeyValue,也可能有多个,此时使用时间戳来区分选项C.同一个key值key关联多个value选项D.KeyValue中拥有时间戳、类型等关键信息8.试题:FusionInsightHD系统中Hive支持的存储格式包括?选项A.RCFile选项B.HFile选项C.TextFile选项D.SequenceFile9.试题:在FusionInsight集群规划时,以下哪些集群命名是系统允许的?选项A.FusionInsight123选项B.FusionInsight-123选项C.FusionInsigh_123选项D.123FusionInsight10.试题:以下属于HiveSQL中DDL(数据定义语言)的是?选项A.删除表选项B.修改表选项C.建表选项D.数据导入11.试题:关于Flume,下列说话错误的是?()多选选项A.Flume级联节点之间的数据传输不支持压缩选项B.Source到Channel到Sink等进程内部有加密的必要选项C.Flume支持多级级联和多路复制选项D.Flume级联节点之间的数据传输支持加密12.试题:FusionInsightManager可以对哪些项目进行健康检查?选项A.实例选项B.服务选项C.角色选项D.主机13.试题:FusionInsightHD平台中,哪些组件支持对表、列加密?选项A.HDFS选项B.HBase选项C.Flink选项D.Hive14.试题:MapReduce过程中,以下属于shuffle机制的是?()选项A.copy选项B.partition选项C.sort/merge选项D.combine15.试题:以下哪些是Kafka实际的应用场景?选项A.资源管理选项B.聚合统计系统运营数据(监控数据)选项C.网站活性跟踪选项D.日志收集16.试题:华为FusionInsightHD行业成功案例都有哪些?()选项A.数字政府选项B.智慧园区选项C.金融选项D.智慧交通17.试题:以下关于华为大数据解决方案说法正确的是()选项A.GaussDB是一款开源数据库产品选项B.Farmer是数据服务框架选项C.FusionInsightHD是基于开源大数据软件Hadoop的增强版本选项D.FusionInsightManager是一个分布式系统管理框架,管理员可以通过多接入点操控分布式集群18.试题:以下关于HBase的文件存储模块(HBaseFileStream,简称HFS)描述正确的有?选项A.为上层应用提供文件的存储.读取.删除等功能选项B.HFS是HBase的独立模块选项C.HFS封装了HBase与HDFS的接口选项D.应用在FusionInsightHD的上层应用19.试题:以下关于HBase中HMaster的功能描述哪些是正确的?选项A.负责RegionServer的负载均衡选项B.负责建表/修改表/删除表选项C.RegionServer失效后的Region迁移选项D.Region负载均衡,Region分裂以及分裂后的Region分配20.试题:华为大数据产品FusionInsightHD中的Streaming具有哪些关键特性?选项A.灵活性选项B.可伸缩性选项C.消息可靠性选项D.容错能力三、判断题(共40题,每题1分,共40分)1.试题:FusioninsightHD产品中,一个典型的kafka集群包含若干个producer若干个Consummer和一个zookeeper集群?选项A.正确选项B.错误2.试题:Loader的作业执行失败,则此作业运行过程中导入的数据不会被删除,必须手动删除。选项A.正确选项B.错误3.试题:假设HDFS在写入数据时只存2份,那么在写入过程中,HDFSClient先将数据写入DataNode1,再将数据写入DataNode2。()选项A.正确选项B.错误4.试题:Flume传输数据的过程中,Sink取走数据并写入目的地后,会将events从channel中删除。选项A.正确选项B.错误5.试题:FusionInsightHD产品中,zookeeper服务不可用会导致kafka服务不可用。选项A.正确选项B.错误6.试题:Hive在load时是不检查数据是否符合schema的,hive遵循的是schemaonread(读时模式),只有在读的时候hive才检查,解析具体的数据字段schema。选项A.正确选项B.错误7.试题:Colocation(同分布)文件级的同分布实现文件的快速访问,避免了因数据搬迁带来的大量网络开销选项A.正确选项B.错误8.试题:FusionInsight中Hive包含2个角色,HiveServer和MetaStore。选项A.正确选项B.错误9.试题:FusionInsightHD的Loader中,一个连接器(Connector)只可以分配给一个作业使用选项A.正确选项B.错误10.试题:Hive是一种数据仓库处理工具,使用类SQL的HiveQL语言实现数据查询功能,所有Hive的数据都存储在HDFS中选项A.正确选项B.错误11.试题:Kafka中partitionreplication之间同步数据,从partition的leader复制数据到follower需要线程(replicationFetcherThread),Follower(一个follower相当于consumer)主动从leader批量拉取消息的,这极大提高了吞吐量。选项A.正确选项B.错误12.试题:flume架构中,一个Source可以连接多个channel。()选项A.正确选项B.错误13.试题:Spark根据RDD的依赖关系来划分Stage,调度器从DAG图末端出发,逆向遍历整个依赖关系链,遇到窄依赖就断开,遇到宽依赖就将其加入当前Stage。选项A.正确选项B.错误14.试题:flume传输数据的可靠性是指flume在传输数据过程中,当下一跳的flume节点故障或者数据接收异常时,可以自动切换到另外一路上继续传输。()选项A.正确选项B.错误15.试题:Zookeeper的增强特性包括在审计日志中添加ephemeralnode被删除的审计日志。()选项A.正确选项B.错误16.试题:如果FusionInsightHD集群节点数不足以使数据节点单独部署的情况下,可以采用管理节点&控制节点&数据节点合一部署方案,但性能会受限制。选项A.正确选项B.错误17.试题:FusionInsightHD系统中,HBase支持动态扩展列。()选项A.正确选项B.错误18.试题:Zookeeper所有节点都可以处理请求选项A.正确选项B.错误19.试题:Hbase的最小处理单元是Region,UserRegion和RegionServer之间的路由信息是保存在ZooKeeper中。()选项A.正确选项B.错误20.试题:Loader的作业执行失败,则此作业运行过程中导入的数据不会被自动删除,必须手动删除。选项A.正确选项B.错误21.试题:HBase的BloomFilter是用来过滤数据的选项A.正确选项B.错误22.试题:KafkaProducer读数据总体流程是,Producer连接任意存活的Broker,请求指定Topic,Partition的Leader元数据信息,然后直接与对应的Broker直接连接,发布数据。选项A.正确选项B.错误23.试题:Flink适用于高并发处理数据、毫秒级时延的应用选项A.正确选项B.错误24.试题:Hbase的最小处理单元是Region。选项A.正确选项B.错误25.试题:Spark任务的每个stage可划分为job,划分的标记是shuffle。选项A.正确选项B.错误26.试题:FusionInsight集群组网设计中,二层组网指集群内二层交换,集群节点在一个子网里,适用节点数小于200的集群场景。选项A.正确选项B.错误27.试题:Spark是基于内存的计算,所有Spark程序运行过程中的数据只能存储在内存中。选项A.正确选项B.错误28.试题:FusionInsightHD系统中,在创建Kafka的Topic时必须设置Partition个数和副本个数,设置多副本可以增强Kafka服务的容灾能力。选项A.正确选项B.错误29.试题:二级索引为HBase提供了按照某些列的值进行索引的能力。二级索引先查索引表,再定位到数据表中的位置,不用全表扫描,时延小。选项A.正确选项B.错误30.试题:YARN上有两个同级队列Q1与Q2,容量都是50%,Q1上已经有10个任务共占用了40的容量,Q2上有两个任务共占用了30的容量,那么由于Q1的任务数多,调度器会优先将资源分配给Q1。选项A.正确选项B.错误31.试题:FusionInsightHD中Loader作业提交到YARN后,作业不能手动停止。选项A.正确选项B.错误32.试题:容量调度器在尽行资源分配,现有同级的2个队列Q1和Q2,他们的容量均为30,其中Q1已使用8,Q2已使用14,则会优先将资源分配Q1。选项A.正确选项B.错误33.试题:Spark的中间数据放在内存中,对于迭代运算/批处理计算的效率更高,延迟更高。选项A.正确选项B.错误34.试题:Channel的作用类似队列,用于临时缓存进来的数据,当Sink成功地将数据发送到下一跳的Channel或最终目的,数据会从Channel移除选项A.正确选项B.错误35.试题:YARN上有两个同级队列Q1与Q2,容量都是50,Q1上已经有10个任务共占用了40的容量,Q2上有2个任务共占用了30的容量,那么由于Q1的任务数多,调度器会优先将资源分配给Q选项A.正确选项B.错误36.试题:容量调度器在进行资源分配时,现有同级的2个列队Q1和Q2,它们的容量均为30,其中Q1已使用8,Q2已使用14,则会优先将资源分配给Q1。选项A.正确选项B.错误37.试题:FusionInsightHD产品中,一个典型的Kafka集群包含若干Producer,若干Broker,若Consumer和一个Zookeeper集群。选项A.正确选项B.错误38.试题:如果某些Container的物理内存利用超过了配置的内存阈值,但所有Container的总内存利用率并没有超过设置的NodeManager内存阈值,那么内存使用过多的Container仍可以继续运行。()选项A.正确选项B.错误39.试题:FusionInsightHD中使用HBase进行数据读取服务时需要连接HMaster选项A.正确选项B.错误40.试题:FusionInsightHD集群中的节点只安装了一块网卡,也可以采用双平面隔离组网方案。选项A.正确选项B.错误答案与解析一、单选题答案1.答案:B答案说明:Zookeeper集群节点数通常为奇数个,但不是必须为奇数个,偶数个节点也能正常工作,只是奇数个节点能提供更好的容错和选举机制等。选项A描述的是原子性,消息更新只能成功或失败,没有中间状态,是正确的;选项B描述的是顺序性,客户端发送的更新会按发送顺序应用,是正确的;选项D描述的是持久性,一条消息要被超过半数的Server接受才能成功写入磁盘,是正确的。2.答案:D答案说明:YARN资源的抽象是用Container表示。Container是YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU等,从而使得YARN能够以统一的方式管理和分配这些资源。3.答案:D4.答案:B5.答案:B答案说明:Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。它最初由LinkedIn公司开发,并于2011年开源。Kafka被设计为一个分布式系统,用于处理大量的实时数据流。它具有高吞吐量、可持久化、低延迟、可扩展性等特点,被广泛应用于活动流和运营数据处理管道等场景。所以选项B中说由ApacheHadoop开发是错误的。6.答案:B答案说明:loader从SFTP服务器导入文件时,对于不需要做编码转换和数据转换且速度最快的文件类型是binary_file。binary_file是二进制文件,直接传输,无需进行编码等转换,速度通常最快。而sequence_file是序列文件,text_file是文本文件,graph_file是图文件,在导入时通常需要更多处理,速度相对较慢。7.答案:B答案说明:hdfsfsck/命令用于检测HDFS文件系统中指定路径下的文件和目录的完整性,包括检查数据块的完整性等。选项B的hdfsfsck–delete用于在检测到损坏文件时删除它们;选项C的hdfsdfsadmin–report用于获取HDFS集群的报告信息;选项D的hdfsbalancer–threshold1用于启动HDFS均衡器,设置均衡的阈值为1。所以用于检测数据块完整性的是A选项。8.答案:D答案说明:Runtime是Flink流处理和批处理的计算引擎,负责执行作业的具体计算逻辑。Standalone是Flink的一种部署模式;DataStream是Flink用于处理流数据的编程模型;FlinkCore并不是Flink技术架构中的特定组件名称。9.答案:C答案说明:选项[C]的命令`bin/kafka-topic.sh--describe`用于查看Kafka中某Topic的详细信息,包括partition的相关信息,如分区数、副本数、首领副本等。选项[A]的`bin/kafka-topic.sh–create`用于创建Topic;选项[B]的`bin/kafka-topic.sh--list`用于列出所有的Topic;选项[D]的`bin/kafka-topic.sh--delete`用于删除Topic。10.答案:B二、多选题答案1.答案:ABCD2.答案:ABCD答案说明:HMaster的功能包括:1.Region负载均衡,Region分裂以及分裂后的Region分配:HMaster会监控各个RegionServer上的Region负载情况,当某个RegionServer负载过高时,会将部分Region迁移到其他负载较低的RegionServer上,同时负责Region的分裂以及分裂后Region的分配。2.负责建表/修改表/删除表:HMaster管理元数据,包括表的创建、修改和删除操作。3.负责RegionServer的负载均衡:通过监控RegionServer的负载,进行Region的迁移等操作来实现负载均衡。4.RegionServer失效后的Region迁移:当RegionServer失效时,HMaster会将其上的Region迁移到其他正常的RegionServer上,保证数据的可用性。3.答案:ABCD答案说明:云计算为大数据提供了强大的计算能力和存储支持,能够高效处理海量数据;网络的发展使得数据能够快速传输和共享,是大数据时代数据流通的基础;硬件设备制造技术的进步,让计算机等设备具备更强的性能来应对大数据处理需求;人工智能中的机器学习算法等可用于大数据的分析和挖掘,帮助从海量数据中提取有价值的信息,所以大数据时代的到来依赖于这些技术的提升。4.答案:BCD答案说明:Kafka消息传输保障通常有以下三种:1.最多一次(AtMostOnce):消息可能会丢失,但不会被重复处理。2.最少一次(AtLeastOnce):消息不会丢失,但可能会被重复处理。3.仅有一次(ExactlyOnce):消息既不会丢失,也不会被重复处理。没有最多三次(AtMostThreeTimes)这种保障级别。5.答案:ABCD6.答案:ACD7.答案:ABCD8.答案:ACD答案说明:Hive支持多种存储格式,其中包括TextFile、SequenceFile和RCFile。TextFile是Hive默认的存储格式,数据以文本形式存储,每行一个记录,易于阅读和处理,但存储效率较低。SequenceFile是一种二进制格式,它将数据按行存储,并对每一行进行压缩,适合存储大量的二进制数据或需要高效存储的场景。RCFile是一种列式存储格式,它将数据按列存储,相比于行式存储,在查询时可以只读取需要的列,从而提高查询效率,尤其适用于OLAP场景。而HFile是HBase的存储格式,不是Hive支持的存储格式。9.答案:ACD10.答案:ABC答案说明:DDL(数据定义语言)主要用于定义数据库对象,包括创建表(建表)、修改表结构、删除表等操作。数据导入通常属于DML(数据操作语言)的范畴,所以不属于DDL。11.答案:AB12.答案:ABCD答案说明:FusionInsightManager可以对主机、服务、角色和实例进行健康检查。通过对这些项目的检查,能够全面了解系统的运行状况,及时发现潜在问题并采取相应措施,保障系统的稳定运行。13.答案:BD14.答案:AC15.答案:BCD答案说明:1.**网站活性跟踪**:Kafka可以用于收集网站的各种活动数据,比如用户的点击行为、页面访问记录等,通过对这些数据的实时分析,能够及时了
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 聚乙烯评定报告
- 山西伞形水塔滑模施工方案
- 芜湖市公开遴选公务员笔试试题及答案解析(综合类)
- 2026年安宁疗护中的护理心理健康考核试卷(附答案)
- 2026年工程竞聘试题及答案
- 2026年甘肃省武威第二十中学七年级英语下册新人教版期末练习题(含答案)
- 【黑吉辽蒙】2026年普通高等学校招生选择性考试临考预测卷 思想政治试卷(含答案)
- 工业废水治理技术实施方案
- 紧固件行业市场趋势分析报告
- 线上教学组织与实施方案模板
- 压力仪表培训课件
- 卒中绿色通道与团队快速反应流程优化
- 吉林省吉林市2025-2026学年度上学期期末质量检测 八年级物理试卷(含答案)
- 人教版七年级下册语文诗歌鉴赏及答案
- 内蒙古自治区安全生产管理条例
- DB1406∕T 4∕-2024 市场监管领域信用监管标准体系 总体框架
- 支气管哮喘知识讲座
- 2025年生地会考试卷题及答案
- 2025至2030中国电镀系统行业深度研究及发展前景投资评估分析
- 慢性阻塞性肺疾病诊断、管理和预防全球倡议2026更新解读
- 能量石疗愈中心创新创业项目商业计划书
评论
0/150
提交评论