2025年11月大数据HCIA题库与参考答案_第1页
2025年11月大数据HCIA题库与参考答案_第2页
2025年11月大数据HCIA题库与参考答案_第3页
2025年11月大数据HCIA题库与参考答案_第4页
2025年11月大数据HCIA题库与参考答案_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年11月大数据HCIA题库与参考答案一、单项选择题(每题2分,共40分)1.在Hadoop3.x分布式文件系统中,NameNode元数据存储的核心文件不包括以下哪项?A.fsimageB.editlogC.seen_txidD.blocksMap答案:D解析:NameNode元数据存储的核心文件包括fsimage(文件系统镜像)、editlog(操作日志)和seen_txid(最新事务ID),blocksMap是内存中维护的块与数据节点映射表,非持久化存储文件。2.关于Hive的元数据存储,以下描述错误的是?A.默认使用Derby数据库存储元数据B.生产环境推荐使用MySQL作为元数据存储C.元数据包含表结构、分区信息、存储路径等D.元数据不记录数据文件的具体内容答案:A解析:Hive默认元数据存储为Derby,但Derby仅支持单用户,生产环境必须使用MySQL、PostgreSQL等关系型数据库,因此“默认使用Derby”的描述在生产环境场景下错误。3.SparkRDD的“窄依赖”特性指的是?A.父RDD的一个分区只被一个子RDD分区使用B.父RDD的多个分区被一个子RDD分区使用C.子RDD的分区数一定小于父RDDD.依赖关系中需要进行shuffle操作答案:A解析:窄依赖的定义是父RDD的每个分区最多被一个子RDD分区使用,宽依赖则是父RDD的一个分区被多个子RDD分区使用(需shuffle)。4.以下哪项不是YARN中ApplicationMaster的核心职责?A.向ResourceManager申请资源B.监控任务运行状态C.处理数据本地性优化D.管理HDFS的块复制答案:D解析:HDFS块复制由DataNode和NameNode协调完成,与YARN的ApplicationMaster无关。5.在数据清洗过程中,处理“年龄”字段时发现存在“-5”和“200”的异常值,最合理的处理方式是?A.直接删除包含异常值的整条记录B.将“-5”修正为“5”,“200”修正为“100”C.统计异常值占比,结合业务规则决定修正或删除D.保留异常值,后续分析时标注答案:C解析:数据清洗需结合业务场景,异常值可能是记录错误(如负数)或特殊情况(如高寿老人),需统计占比后决定处理方式,避免盲目删除或修正。6.关于Kafka的消费者组(ConsumerGroup),以下说法正确的是?A.一个消费者组内的消费者只能订阅一个主题B.同一分区的数据只能被消费者组中的一个消费者消费C.消费者组的offset信息默认存储在ZooKeeper中D.消费者组的分区分配策略不影响消费效率答案:B解析:Kafka通过消费者组实现负载均衡,同一分区数据只能被组内一个消费者消费(避免重复消费);消费者组可订阅多个主题;offset自Kafka0.9起存储在__consumer_offsets主题中;分区分配策略(如Range、RoundRobin)会影响消费负载均衡。7.以下哪项不属于HBase的核心组件?A.RegionServerB.HMasterC.ZookeeperD.NameNode答案:D解析:NameNode是HDFS组件,HBase核心组件包括HMaster(管理RegionServer)、RegionServer(处理数据读写)、Zookeeper(存储元数据位置)。8.在SparkSQL中,以下哪个函数用于将字符串按指定分隔符分割为数组?A.split()B.explode()C.collect_list()D.concat_ws()答案:A解析:split(str,delimiter)返回数组;explode将数组拆分为多行;collect_list聚合数组;concat_ws用分隔符合并字符串。9.关于分布式系统的CAP理论,以下描述正确的是?A.一致性(Consistency)指所有节点同时看到相同的数据B.可用性(Availability)要求系统在部分节点故障时仍能快速响应C.分区容错性(PartitionTolerance)指系统可容忍网络分区但无法自动恢复D.实际系统中必须完全满足CAP中的两个特性答案:B解析:一致性指所有节点在同一时间看到相同数据;可用性要求非故障节点能在合理时间内响应请求;分区容错性指系统在网络分区时仍能继续运行;实际系统需权衡CAP,无法完全满足两个(如CP或AP)。10.以下哪项是Hive中“外部表”(ExternalTable)的典型应用场景?A.存储临时计算结果,删除表时保留数据文件B.存储核心业务数据,删除表时同时删除数据文件C.优化查询性能,强制使用ORC存储格式D.限制用户对数据的修改权限答案:A解析:外部表通过LOCATION指定数据路径,删除表时仅删除元数据,保留HDFS数据文件,适合共享数据源场景(如多个Hive实例共用同一批数据)。11.在HDFS中,客户端读取文件时,优先选择的DataNode是?A.距离NameNode最近的节点B.文件块的第一个副本所在节点(本地节点)C.负载最低的DataNodeD.与客户端处于同一机架的节点答案:B解析:HDFS数据读取遵循本地性原则,客户端优先访问同一节点上的副本(若存在),其次同一机架,最后跨机架,以减少网络开销。12.关于MapReduce的Shuffle阶段,以下描述错误的是?A.Map任务输出结果会先写入本地磁盘B.Reduce任务通过HTTP拉取Map输出数据C.Shuffle阶段包含分区(Partition)和排序(Sort)操作D.Shuffle阶段的性能与Map任务数量无关答案:D解析:Shuffle性能受Map任务数量影响(更多Map任务产生更多中间文件,增加网络传输和磁盘IO),需合理设置Map数量(通常与HDFS块数相关)。13.以下哪项不是SparkRDD的持久化级别?A.MEMORY_ONLYB.MEMORY_AND_DISK_SERC.DISK_ONLY_2D.MEMORY_ONLY_SER_3答案:D解析:持久化级别格式为“存储位置(MEMORY/DISK)+是否序列化(SER)+副本数(数字)”,副本数默认2,不支持自定义3副本,因此MEMORY_ONLY_SER_3不存在。14.在数据仓库建模中,“星座模型”指的是?A.多个事实表共享同一组维度表B.单个事实表关联多个维度表C.维度表包含大量细节属性D.事实表仅存储度量值答案:A解析:星座模型是数据仓库中多个事实表共享相同维度表的结构(如销售事实表和库存事实表共享时间、地区维度),区别于雪花模型(维度表进一步分层)。15.以下哪个工具通常用于大数据场景下的实时流计算?A.HiveB.SparkSQLC.FlinkD.Sqoop答案:C解析:Flink是专门的流计算框架,支持毫秒级延迟;Hive是批处理;SparkSQL侧重批处理(SparkStreaming为微批);Sqoop用于关系型数据库与Hadoop的数据迁移。16.关于Linux系统中Hadoop进程的启动,以下命令正确的是?A.start-hadoop.shB.start-dfs.sh&&start-yarn.shC.hadoop-daemon.shstartnamenodeD.以上均正确答案:D解析:Hadoop3.x支持通过start-dfs.sh(启动HDFS)和start-yarn.sh(启动YARN)分别启动,也可使用start-hadoop.sh(集成脚本),或单独使用hadoop-daemon.sh启动单个进程(如NameNode)。17.在HBase中,RowKey的设计原则不包括?A.散列性:避免热点写B.长度:越短越好(减少存储和网络开销)C.有序性:支持范围查询D.复杂性:包含大量业务属性答案:D解析:RowKey需简洁(减少存储)、散列(避免Region热点)、有序(支持scan范围查询),但不应过度复杂(影响查询效率)。18.以下哪项是Kafka中“生产者分区策略”的默认实现?A.RoundRobin(轮询)B.Hash(按Key哈希)C.Random(随机)D.粘性分区(StickyPartition)答案:D解析:Kafka2.4+默认生产者分区策略为粘性分区(优先选择同一分区发送数据,减少网络连接开销),早期版本默认是轮询或哈希(取决于是否有Key)。19.关于数据湖(DataLake)与数据仓库(DataWarehouse)的区别,以下描述错误的是?A.数据湖存储原始数据(结构化、非结构化),数据仓库存储经过清洗的结构化数据B.数据湖支持多种分析场景(BI、AI、机器学习),数据仓库侧重OLAPC.数据湖的元数据管理比数据仓库更简单D.数据湖通常使用对象存储(如S3、HDFS),数据仓库使用关系型数据库答案:C解析:数据湖因存储多类型数据,元数据管理(如Schema-on-Read)比数据仓库(Schema-on-Write)更复杂,需处理更多元数据关联和版本控制。20.在Spark中,以下哪项操作会触发行动(Action)?A.map()B.filter()C.reduce()D.flatMap()答案:C解析:Action操作(如reduce、collect、count)会触发作业执行并返回结果,Transformation(如map、filter、flatMap)仅构建RDD血缘关系。二、多项选择题(每题3分,共30分,错选、漏选不得分)1.HDFS的高可用(HA)方案中,以下哪些组件是必需的?A.ActiveNameNodeB.StandbyNameNodeC.JournalNode集群D.Zookeeper答案:ABCD解析:HDFSHA需要Active和StandbyNameNode同步元数据(通过JournalNode集群),Zookeeper用于选举Active节点和监控状态。2.以下哪些是Hive的内置排序方式?A.ORDERBY(全局排序)B.SORTBY(分区内排序)C.DISTRIBUTEBY(按字段分区)D.CLUSTERBY(DISTRIBUTEBY+SORTBY)答案:ABCD解析:Hive支持ORDERBY(全排序,仅一个Reducer)、SORTBY(每个Reducer内排序)、DISTRIBUTEBY(控制数据分发到Reducer)、CLUSTERBY(分发和排序字段相同,等价于DISTRIBUTEBY+SORTBY)。3.Spark的广播变量(BroadcastVariable)适用场景包括?A.大表与小表的JOIN操作(小表广播)B.频繁访问的配置参数C.实时更新的业务规则D.大规模数据集的分布式计算答案:AB解析:广播变量用于高效分发只读的小数据(如小表、配置)到所有Executor,避免重复传输;实时更新数据(需可变)和大规模数据不适合广播。4.以下哪些指标属于大数据系统的性能评估范畴?A.吞吐量(Throughput):单位时间处理的数据量B.延迟(Latency):数据从输入到输出的时间C.容错性(FaultTolerance):节点故障时的恢复能力D.可扩展性(Scalability):集群扩容后的性能提升比答案:ABCD解析:大数据系统评估需考虑吞吐量、延迟、容错性(如HDFS副本机制、SparkRDD容错)、可扩展性(横向扩容能力)等。5.关于数据清洗中的“缺失值处理”,常用方法有?A.删除缺失值所在记录(当缺失率低时)B.用字段均值/中位数填充(数值型)C.用众数填充(分类型)D.构建模型预测缺失值答案:ABCD解析:缺失值处理方法包括删除(适用小比例缺失)、统计值填充(均值/中位数/众数)、模型预测(如回归模型填充)等。6.YARN的ResourceManager核心功能包括?A.资源调度(通过调度器如FIFO、Capacity、Fair)B.应用程序生命周期管理(启动/终止AM)C.监控NodeManager状态D.存储HDFS数据块答案:ABC解析:ResourceManager负责全局资源调度、AM管理、NM监控;HDFS数据块存储由DataNode负责。7.以下哪些是HBase的RowKey设计最佳实践?A.避免单调递增的RowKey(如时间戳)B.包含常用查询条件(如用户ID、时间范围)C.长度控制在16字节以内(减少存储开销)D.使用哈希散列(如MD5)处理RowKey前缀答案:ABCD解析:单调递增RowKey会导致Region热点;包含查询条件支持快速定位;短RowKey减少存储;哈希处理分散数据分布。8.在Kafka中,影响消息可靠性的配置包括?A.acks=all(所有ISR副本确认)B.min.insync.replicas=2(最小同步副本数)C.retries=3(发送失败重试次数)D.enable.idempotence=true(启用幂等性)答案:ABCD解析:acks控制确认机制(all需所有ISR确认);min.insync.replicas确保至少N个副本同步;retries避免网络抖动导致的消息丢失;幂等性防止生产者重复发送导致的消息重复。9.以下哪些是Spark的优化策略?A.减少shuffle操作(如使用广播JOIN代替普通JOIN)B.增加RDD持久化(选择合适的存储级别)C.调整并行度(合理设置分区数)D.避免使用foreachPartition代替foreach(减少连接开销)答案:ABCD解析:减少shuffle可降低网络IO;持久化避免重复计算;合理并行度提升资源利用率;foreachPartition减少任务内连接创建次数。10.关于Linux系统中Hadoop日志的查看,以下命令正确的是?A.tail-f/var/log/hadoop-hdfs/hadoop-hdfs-namenode-node1.log(实时查看NameNode日志)B.grep"ERROR"/var/log/hadoop-yarn/yarn-yarn-resourcemanager-node2.log(查找ResourceManager日志中的错误)C.cat/tmp/hsperfdata_hadoop/.log(查看所有Hadoop进程的性能日志)D.less/var/log/hive/hive-server2.log(分页查看HiveServer2日志)答案:ABD解析:Hadoop日志通常存储在/var/log目录下对应组件的子目录中;hsperfdata是JVM性能数据,非Hadoop业务日志;less和tail命令可用于日志查看。三、判断题(每题1分,共10分,正确填“√”,错误填“×”)1.HDFS的默认副本数是3,可通过dfs.replication参数修改。(√)解析:HDFS默认副本数为3,可在hdfs-site.xml中配置dfs.replication调整。2.Hive的分区(Partition)和分桶(Bucket)都是为了优化查询性能,分区适合大范围过滤,分桶适合精确查询和JOIN。(√)解析:分区按字段将数据存储在不同目录,适合按分区字段过滤;分桶按哈希将数据分散到多个文件,适合JOIN时提升效率。3.Spark的RDD是不可变的,所有转换操作都会提供新的RDD。(√)解析:RDD的不可变性是其核心特性,转换操作通过血缘关系提供新RDD,确保容错性。4.YARN的NodeManager负责管理单个节点的资源(CPU、内存),并监控容器(Container)的运行状态。(√)解析:NodeManager是节点代理,管理资源并向RM汇报,监控Container的生命周期。5.数据清洗中的“去重”操作仅需删除完全重复的记录,无需处理“语义重复”(如同一用户不同ID)。(×)解析:去重需处理完全重复和语义重复(如“用户A”和“userA”),需结合业务规则识别。6.Kafka的主题(Topic)可以设置多个分区(Partition),分区数越多,消费者组的并行度越高。(√)解析:分区是Kafka并行消费的最小单位,分区数决定了消费者组中消费者的最大并行数(不超过分区数)。7.HBase的列族(ColumnFamily)在表创建后可以动态添加,但修改列族属性需要重启RegionServer。(×)解析:HBase支持动态添加列族(通过alter命令),修改列族属性(如TTL、压缩)无需重启RS,配置会被自动应用。8.SparkSQL的DataFrame比RDD更高效,因为DataFrame有Schema信息,可优化执行计划。(√)解析:DataFrame/Dataset包含Schema,SparkCatalyst优化器可进行逻辑和物理计划优化(如谓词下推、列裁剪),比无Schema的RDD更高效。9.分布式系统中,Zookeeper可以完全替代HDFS的高可用功能。(×)解析:Zookeeper在HDFSHA中用于选举和状态监控,但元数据同步依赖JournalNode集群,无法完全替代。10.数据湖的核心特点是“存算分离”,即存储和计算资源独立扩展。(√)解析:数据湖通常基于对象存储(如S3、HDFS),计算资源(如Spark、Flink)可独立扩容,实现存算分离。四、简答题(每题6分,共30分)1.简述HDFS的写数据流程(需包含客户端、NameNode、DataNode的交互步骤)。答案:(1)客户端调用create()方法请求创建文件,NameNode检查权限和文件是否存在,返回可写响应。(2)客户端将文件分块(默认128MB),向NameNode申请第一个块的DataNode列表(根据机架感知策略选择3个副本节点,如节点1、节点2、节点3)。(3)客户端与第一个DataNode(节点1)建立Pipeline,节点1通知节点2,节点2通知节点3,建立传输链路。(4)客户端将数据以Packet(64KB)为单位发送到节点1,节点1接收后写入本地磁盘,同时转发到节点2;节点2写入后转发到节点3;所有节点确认接收后,向客户端返回ACK。(5)当一个块传输完成,客户端向NameNode汇报块位置,申请下一个块的DataNode列表,重复步骤(2)-(4)。(6)文件写入完成,客户端调用close()方法,NameNode提交元数据变更(此时文件才可见)。2.说明Hive中内部表(ManagedTable)与外部表(ExternalTable)的区别,以及各自适用场景。答案:区别:(1)数据管理:内部表删除时,元数据和HDFS数据文件均被删除;外部表删除时仅删除元数据,保留数据文件。(2)元数据控制:内部表数据由Hive完全管理;外部表数据可能被其他系统(如Spark、Flume)修改。适用场景:(1)内部表:存储临时计算结果、中间数据(无需长期保留),或需要Hive完全控制生命周期的数据。(2)外部表:存储共享数据源(如多个团队共用同一批原始数据)、日志文件(由日志收集系统定期写入),避免误删数据。3.解释Spark中“RDD持久化”与“检查点(Checkpoint)”的区别,并说明各自适用场景。答案:区别:(1)存储位置:持久化默认存储在内存/磁盘(Executor节点);检查点存储在HDFS(分布式存储)。(2)容错机制:持久化通过血缘关系恢复(丢失时重算);检查点切断血缘,直接从HDFS恢复。(3)开销:持久化仅存储计算结果,开销较小;检查点需写入HDFS,开销较大。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论