5月大数据HCIA模拟考试题+参考答案

上传人：1*** IP属地：四川上传时间：2026-03-07 格式：DOCX 页数：17 大小：25.42KB 积分：12 举报 版权申诉

已阅读5页，还剩12页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

5月大数据HCIA模拟考试题+参考答案一、单项选择题（每题2分，共30分）1.以下关于HDFS默认块大小的描述，正确的是（）。A.64MBB.128MBC.256MBD.512MB2.NameNode在HDFS中的核心职责是（）。A.存储数据块副本B.管理文件系统元数据C.执行数据块的读写操作D.处理客户端的所有数据请求3.MapReduce计算框架中，Shuffle阶段的主要任务是（）。A.将Map输出结果按键分区并传输到Reduce端B.对输入数据进行切片C.合并Reduce输出的最终结果D.对Map输入数据进行格式转换4.Hive中默认存储元数据的数据库是（）。A.MySQLB.DerbyC.HBaseD.PostgreSQL5.Spark中，以下属于行动（Action）操作的是（）。A.map()B.filter()C.reduce()D.flatMap()6.数据清洗过程中，处理“年龄”字段中“-1”“999”等异常值的常用方法是（）。A.直接删除整条记录B.用字段均值填充C.标记为缺失值后统一处理D.保留原值不做处理7.Linux系统中，查看当前运行进程的命令是（）。A.ps-efB.top-nC.kill-9D.ls-l8.HBase的RowKey设计原则中，最关键的是（）。A.长度尽可能长B.保证散列分布C.与列族名称一致D.包含时间戳信息9.以下不属于大数据特征的是（）。A.高速（Velocity）B.多样（Variety）C.价值（Value）D.安全（Security）10.YARN中，负责为应用程序分配资源的组件是（）。A.NodeManagerB.ApplicationMasterC.ResourceManagerD.Container11.Hive中，若需将表数据存储为列式格式以提升查询效率，应选择（）。A.TextFileB.SequenceFileC.ParquetD.RCFile12.SparkRDD的“惰性计算”特性指的是（）。A.转换操作立即执行，行动操作延迟执行B.转换操作延迟执行，行动操作触发计算C.所有操作均延迟执行D.所有操作均立即执行13.以下关于Kafka的描述，错误的是（）。A.基于发布-订阅模式B.适合处理实时数据流C.消息默认永久存储D.支持消费者组14.数据仓库（DataWarehouse）的核心特点是（）。A.支持事务处理（OLTP）B.面向主题、集成、稳定、随时间变化C.实时更新数据D.存储原始未加工数据15.某数据集包含100万条记录，字段包括“用户ID”“登录时间”“登录IP”，需统计每日独立登录用户数，最适合的工具是（）。A.HDFSB.MapReduceC.HiveD.HBase二、判断题（每题1分，共10分）1.HDFS支持对已写入文件的随机修改操作。（）2.MapReduce的Combiner函数可以在Map端对输出结果进行局部聚合，减少网络传输量。（）3.Hive的本质是将SQL查询转换为MapReduce任务执行。（）4.Spark的RDD是不可变的分布式数据集，支持基于内存的计算。（）5.Linux中，“chmod755file.txt”表示文件所有者拥有读、写、执行权限，其他用户拥有读、执行权限。（）6.HBase是关系型数据库，支持SQL查询。（）7.Kafka的Topic可以划分为多个Partition，以提高并行处理能力。（）8.数据清洗的主要目的是去除重复数据，无需处理格式不一致问题。（）9.YARN中，每个ApplicationMaster负责管理一个应用程序的生命周期，并与ResourceManager通信获取资源。（）10.大数据分析中，数据量越大，分析结果一定越准确。（）三、简答题（每题8分，共40分）1.简述HDFS的写数据流程（需包含客户端、NameNode、DataNode的交互步骤）。2.说明MapReduce中Shuffle阶段的具体过程（从Map输出到Reduce输入）。3.对比Hive与传统关系型数据库（如MySQL）的主要区别（至少列出4点）。4.解释Spark中RDD的五大特性，并说明“宽依赖”与“窄依赖”的区别。5.列举数据清洗的常见方法（至少5种），并简要说明每种方法的适用场景。四、综合题（每题10分，共20分）1.某电商平台需分析用户行为日志（字段：用户ID、行为类型（点击/下单/支付）、时间戳、商品ID），要求用HiveQL实现以下需求：（1）统计2024年5月1日各商品的点击次数；（2）计算该日支付成功的用户中，每个用户的支付订单数（支付成功定义为行为类型=‘支付’且状态=‘成功’）。2.设计一个MapReduce作业，用于统计某网站日志中“404错误”的URL出现次数（日志格式：时间戳客户端IP状态码URL）。要求：（1）写出Mapper的输入键值对、输出键值对及核心逻辑；（2）写出Reducer的输入键值对、输出键值对及核心逻辑；（3）说明是否需要使用Combiner并简述原因。参考答案-一、单项选择题1.B（HDFS默认块大小为128MB，早期版本为64MB）2.B（NameNode管理元数据，包括文件目录、块位置等；数据块存储由DataNode负责）3.A（Shuffle阶段将Map输出按键分区，通过网络传输至Reduce端，是Map到Reduce的桥梁）4.B（Hive默认使用内嵌的Derby存储元数据，生产环境常用MySQL）5.C（reduce()触发计算并返回结果，属于行动操作；map/filter/flatMap是转换操作）6.C（异常值需先标记，避免直接删除导致数据丢失，均值填充可能破坏分布）7.A（ps-ef查看所有进程；top实时监控，kill用于终止进程，ls查看文件）8.B（RowKey需散列分布以避免热点问题，过长会增加存储开销）9.D（大数据特征为4V：Volume、Velocity、Variety、Value）10.C（ResourceManager负责全局资源分配，NodeManager管理节点资源，ApplicationMaster管理单个应用）11.C（Parquet是列式存储格式，适合Hive的复杂查询；TextFile是行式）12.B（转换操作（如map）仅记录计算逻辑，行动操作（如reduce）触发实际计算）13.C（Kafka消息默认保留一定时间（如7天），非永久存储）14.B（数据仓库面向主题，支持OLAP；OLTP是数据库的特点）15.C（Hive适合基于SQL的离线统计，每日独立用户数可用GROUPBY和COUNT(DISTINCT)实现）二、判断题1.×（HDFS不支持随机修改，仅支持追加写入或覆盖）2.√（Combiner在Map端聚合，减少传输到Reduce的数据量）3.√（Hive将HiveQL转换为MapReduce、Spark等任务执行）4.√（RDD不可变，支持内存计算以提高速度）5.√（755表示所有者rwx（7），用户组rx（5），其他用户rx（5））6.×（HBase是NoSQL，非关系型数据库，不支持SQL（需Phoenix扩展））7.√（Partition支持并行消费，提高吞吐量）8.×（数据清洗需处理缺失值、异常值、格式不一致、重复数据等）9.√（ApplicationMaster是应用程序的管理者，协调资源和任务）10.×（数据量需结合质量，低质量的大数据可能导致错误结论）三、简答题1.HDFS写数据流程：（1）客户端调用create()向NameNode请求创建文件；（2）NameNode检查权限及路径有效性，确认无误后返回可写入的DataNode列表（通常3个副本）；（3）客户端将数据分块（默认128MB），通过Pipeline模式依次向第一个DataNode写入，第一个DataNode复制到第二个，第二个复制到第三个；（4）每个DataNode写入完成后向客户端返回确认，客户端收到所有副本确认后，向NameNode提交完成；（5）NameNode记录文件元数据（如块位置、副本数），完成写入。2.MapReduce的Shuffle过程：（1）Map端：Map任务输出结果先写入内存缓冲区（默认100MB），当缓冲区满至80%时，触发溢写（Spill）；溢写前按Key分区（Partitioner）并排序（Sort），相同Key的Value合并（可选Combiner）；（2）网络传输：溢写文件最终合并为一个大的分区排序文件，通过HTTP协议传输到对应Reduce节点；（3）Reduce端：Reduce任务拉取所有Map输出中属于自己分区的数据，合并溢写文件（归并排序），最终按Key分组后输入Reduce函数处理。3.Hive与传统关系型数据库的区别：（1）数据存储：Hive基于HDFS，适合海量数据；数据库基于本地磁盘，适合小容量。（2）查询性能：Hive基于MapReduce，延迟高（离线）；数据库支持OLTP，延迟低（实时）。（3）事务支持：Hive早期不支持事务（3.0+支持ACID）；数据库支持强事务。（4）数据更新：Hive不支持行级更新（仅追加/覆盖）；数据库支持增删改查。（5）使用场景：Hive用于数据分析（OLAP）；数据库用于业务交易（OLTP）。4.RDD的五大特性：（1）分区列表：数据被划分为多个分区，分布式存储；（2）依赖关系：RDD间有窄依赖（父RDD一个分区对应子RDD一个分区）或宽依赖（父RDD多个分区对应子RDD一个分区）；（3）计算函数：每个分区有计算函数，用于提供数据；（4）首选位置：数据本地化（如HDFS块的位置）；（5）分区器：键值对RDD使用分区器（如HashPartitioner）。宽依赖与窄依赖的区别：宽依赖涉及跨节点数据传输（如groupByKey），会产生Shuffle；窄依赖无需Shuffle（如map），计算效率更高。5.数据清洗的常见方法及场景：（1）缺失值处理：用均值/中位数填充（数值型字段）、众数填充（分类型字段）、删除少量缺失记录（缺失率<5%）。（2）异常值处理：基于3σ原则或IQR（四分位距）识别并修正（如年龄“200”修正为“20”）。（3）重复值处理：通过唯一键（如用户ID+时间戳）去重，保留最新或最完整记录。（4）格式不一致：统一日期格式（如“2024/5/1”转为“2024-05-01”）、大小写（如“GOOD”转为“good”）。（5）无效数据过滤：删除测试账号（如用户ID以“test_”开头）、状态为“无效”的记录。四、综合题1.HiveQL实现：（1）统计5月1日各商品点击次数：```sqlSELECT商品ID,COUNT()AS点击次数FROM用户行为日志WHERE时间戳>='2024-05-0100:00:00'AND时间戳<'2024-05-0200:00:00'AND行为类型='点击'GROUPBY商品ID;```（2）计算支付成功用户的支付订单数：```sqlSELECT用户ID,COUNT()AS支付订单数FROM用户行为日志WHERE时间戳>='2024-05-0100:00:00'AND时间戳<'2024-05-0200:00:00'AND行为类型='支付'AND状态='成功'GROUPBY用户ID;```2.MapReduce作业设计：（1）Mapper：输入键值对：<LongWritable（行偏移量）,Text（日志行）>输出键值对：<Text（URL）,IntWritable（1）>核心逻辑：解析日志行

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

5月大数据HCIA模拟考试题+参考答案

文档简介

温馨提示

最新文档

评论

5月大数据HCIA模拟考试题+参考答案

文档简介

温馨提示

最新文档

评论

相关文档