2025年7月大数据HCIA复习题+参考答案_第1页
2025年7月大数据HCIA复习题+参考答案_第2页
2025年7月大数据HCIA复习题+参考答案_第3页
2025年7月大数据HCIA复习题+参考答案_第4页
2025年7月大数据HCIA复习题+参考答案_第5页
已阅读5页,还剩11页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年7月大数据HCIA复习题+参考答案一、单项选择题(每题2分,共30分)1.以下关于HDFS默认块大小的描述,正确的是?A.32MBB.64MBC.128MBD.256MB答案:C2.YARN中负责资源管理和调度的核心组件是?A.NodeManagerB.ApplicationMasterC.ResourceManagerD.Container答案:C3.Hive中用于存储元数据(如表结构、分区信息)的默认数据库是?A.MySQLB.PostgreSQLC.DerbyD.Oracle答案:C4.SparkRDD的“持久化”操作默认使用的存储级别是?A.MEMORY_ONLYB.MEMORY_AND_DISKC.DISK_ONLYD.MEMORY_ONLY_SER答案:A5.以下哪个工具是Hadoop生态中用于实时日志收集的组件?A.FlumeB.SqoopC.OozieD.Zookeeper答案:A6.HBase的RowKey在存储时的排序方式是?A.字典序升序B.数值序升序C.字典序降序D.随机排序答案:A7.Kafka中消费者组(ConsumerGroup)的主要作用是?A.提高消息发送吞吐量B.实现消息的负载均衡与故障转移C.保证消息的顺序性D.存储消息的元数据答案:B8.以下不属于数据清洗范畴的操作是?A.处理缺失值B.去除重复数据C.转换数据格式D.对数据进行分组统计答案:D9.MapReduce中,Combiner的执行阶段是?A.Map任务输出后,Reduce任务输入前B.Reduce任务输出后C.Map任务执行前D.Reduce任务执行中答案:A10.以下关于HDFS高可用(HA)的描述,错误的是?A.需要ZooKeeper协调Active和StandbyNameNodeB.两个NameNode需共享存储(如QJM)C.故障切换时会导致短暂服务中断D.仅需部署一个JournalNode即可实现HA答案:D11.用HiveQL查询“2023年1月注册且地区为‘广东’的用户”,正确的WHERE子句是?A.reg_timeLIKE'2023-01%'ANDregion='广东'B.reg_timeBETWEEN'2023-01-01'AND'2023-01-31'ORregion='广东'C.reg_timeIN('2023-01')ANDregion='广东'D.reg_time>='2023-01-01'ORregion='广东'答案:A12.Spark中,以下哪个操作属于转换(Transformation)操作?A.collect()B.count()C.reduce()D.map()答案:D13.数据倾斜(DataSkew)在MapReduce中最可能导致的问题是?A.部分Reduce任务运行超时B.Map任务数量减少C.HDFS存储压力增大D.YARN资源申请失败答案:A14.以下关于HBase表结构的描述,错误的是?A.表由行和列族组成B.列族需要在创建表时定义C.同一列族的列可以动态添加D.所有列族的数据必须存储在同一个HFile中答案:D15.用Sqoop从MySQL导入数据到HDFS时,若要指定并行度为4,需使用的参数是?A.--num-mappers4B.--split-byidC.--parallel4D.--mappers4答案:A二、多项选择题(每题3分,共30分)1.以下属于Hadoop生态核心组件的有?A.HDFSB.YARNC.HiveD.TensorFlow答案:ABC2.HBase的适用场景包括?A.实时读写海量数据B.离线批量处理C.高并发的点查询D.复杂的多表关联分析答案:AC3.Spark的部署模式包括?A.Local模式B.Standalone模式C.YARN模式D.Kubernetes模式答案:ABCD4.数据清洗的常见方法包括?A.缺失值填充(如均值、中位数)B.异常值检测(如Z-score法)C.数据标准化(如Min-Max归一化)D.数据抽样(如随机抽样)答案:ABC5.以下关于Kafka的描述,正确的有?A.消息按Topic分类存储B.每个分区内的消息是有序的C.消费者组中的消费者数量应小于等于分区数D.生产者发送消息时必须指定分区答案:ABC6.MapReduce的Shuffle阶段包括哪些关键步骤?A.Map任务输出数据分区B.数据在网络中传输到Reduce节点C.数据在Reduce节点排序合并D.Reduce任务执行计算逻辑答案:ABC7.以下哪些操作会触发Spark的行动(Action)操作?A.saveAsTextFile()B.foreach()C.groupByKey()D.take(10)答案:ABD8.Hive的存储格式中,支持列式存储的有?A.TextFileB.ORCC.ParquetD.SequenceFile答案:BC9.集群运维中,监控的关键指标包括?A.节点CPU/内存使用率B.HDFS的NN负载与副本率C.YARN的容器(Container)利用率D.数据库的连接数答案:ABCD10.数据倾斜的解决方法包括?A.增加Reduce任务数量B.对倾斜键添加随机前缀C.预聚合倾斜数据D.关闭Combiner答案:ABC三、判断题(每题2分,共20分)1.HDFS不支持对已写入文件的随机写操作,仅支持追加写。()答案:√2.Hive是一个实时计算框架,适合处理秒级响应的查询需求。()答案:×(Hive基于MapReduce,适合离线批处理)3.SparkRDD的持久化(persist)操作会立即触发计算。()答案:×(持久化是惰性操作,需行动操作触发)4.Kafka的消息一旦被消费者消费,就会从Broker中删除。()答案:×(消息保留时间由配置决定,默认保留7天)5.HBase的RowKey设计应尽量短,以减少存储和查询开销。()答案:√6.Sqoop仅支持从关系型数据库导入数据到Hadoop,不支持导出。()答案:×(Sqoop支持导入和导出)7.YARN的Container是资源分配的基本单位,包含内存、CPU等资源。()答案:√8.数据仓库(DataWarehouse)通常面向事务处理(OLTP),而数据库面向分析(OLAP)。()答案:×(数据仓库面向OLAP,数据库面向OLTP)9.Flume的Channel用于临时存储事件(Event),常见类型有MemoryChannel和FileChannel。()答案:√10.在Spark中,使用join操作时,若其中一个RDD较小,可优先使用广播变量(Broadcast)优化性能。()答案:√四、简答题(每题6分,共30分)1.简述HDFS的读文件流程。答案:客户端通过FileSystem接口调用open()方法请求读取文件;NameNode返回文件块的位置信息(包括块所在的DataNode节点);客户端直接与DataNode建立连接,并行读取多个块(就近原则);读取完成后校验块的校验和,若失败则从其他副本读取。2.说明MapReduce中Map和Reduce任务的分工。答案:Map任务负责将输入数据解析为键值对(Key-Value),并对数据进行分区(Partition)和排序;Reduce任务接收Map输出的同一分区数据,对相同键的值进行合并、计算(如求和、计数),最终输出结果到HDFS。3.对比Hive和HBase的适用场景。答案:Hive基于HDFS,使用类SQL语法(HiveQL),适合离线批处理、复杂的多表关联和统计分析(如每日用户活跃数);HBase是列式存储的NoSQL数据库,支持实时读写和随机访问(如根据用户ID快速查询详细信息),但不适合复杂的多表关联。4.简述SparkRDD的五大特性。答案:(1)分区(Partition):数据可划分为多个分区并行处理;(2)依赖关系(Dependency):RDD间存在宽依赖(Shuffle)和窄依赖;(3)计算函数(Compute):每个分区有对应的计算函数;(4)优先位置(PreferredLocations):数据本地性优化;(5)分区器(Partitioner):控制键的分区方式(仅键值对RDD)。5.列举Kafka中保证消息不丢失的关键措施。答案:(1)生产者设置acks=all(等待所有副本确认);(2)Broker设置min.insync.replicas≥2(最少同步副本数);(3)消费者提交偏移量(Offset)时采用手动提交(mit=false),确保处理完成后再提交;(4)Broker开启日志压缩(paction)或延长消息保留时间。五、应用题(每题10分,共30分)1.某电商用户行为表(user_behavior)包含字段:user_id(用户ID)、behavior_type(行为类型,1=点击,2=收藏,3=加购,4=购买)、log_time(日志时间,格式'yyyy-MM-ddHH:mm:ss')、item_id(商品ID)。要求用HiveQL统计“2025年6月每个用户的购买次数”。答案:SELECTuser_id,COUNT()ASbuy_countFROMuser_behaviorWHEREbehavior_type=4ANDlog_timeBETWEEN'2025-06-0100:00:00'AND'2025-06-3023:59:59'GROUPBYuser_id;2.现有一个日志文件(每行格式:IP地址时间访问URL状态码),需用SparkRDD统计“状态码为404的URL的访问次数”。写出关键代码逻辑。答案:vallogRDD=sc.textFile("hdfs:///logs/access.log")valerrorRDD=logRDD.map(line=>{valfields=line.split("")(fields(2),fields(3))//(URL,状态码)}).filter(tuple=>tuple._2=="404").map(tuple=>(tuple._1,1))//(URL,1)valresultRDD=errorRDD.reduceByKey(_+_)resultRDD.collect().foreach(println)3.某企业Hadoop集群出现数据倾斜,表现为部分Reduc

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论