大数据HCIA试题（附答案）

上传人：D*** IP属地：四川上传时间：2026-04-09 格式：DOCX 页数：22 大小：31.64KB 积分：10.8 举报 版权申诉

已阅读5页，还剩17页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大数据HCIA试题（附答案）一、单项选择题（每题2分，共30分）1.以下关于Hadoop核心组件的描述中，错误的是？A.HDFS负责分布式存储B.YARN负责资源管理和任务调度C.MapReduce负责分布式计算D.ZooKeeper负责数据清洗答案：D（ZooKeeper是分布式协调服务，数据清洗通常由Sqoop或Flume等工具处理）2.HDFS默认的块大小是？A.32MBB.64MBC.128MBD.256MB答案：C（Hadoop2.x及以上版本默认块大小为128MB，用于减少NameNode内存压力）3.YARN中负责管理单个节点资源的组件是？A.ResourceManagerB.NodeManagerC.ApplicationMasterD.Container答案：B（NodeManager是每个节点的代理，监控节点资源并向ResourceManager汇报）4.以下不属于Hive存储格式的是？A.TextFileB.SequenceFileC.ParquetD.Redis答案：D（Redis是内存数据库，Hive支持的存储格式包括TextFile、SequenceFile、Parquet、ORC等）5.关于HBase的描述，正确的是？A.基于行存储的NoSQL数据库B.适用于实时读写超大规模数据C.不支持版本控制D.数据模型与关系型数据库完全一致答案：B（HBase是基于列存储的NoSQL数据库，支持版本控制，适合实时读写海量数据）6.数据清洗中处理“年龄字段出现-5”的问题，属于？A.缺失值处理B.异常值处理C.重复值处理D.格式不一致处理答案：B（年龄为负数属于逻辑异常，需通过阈值过滤等方法处理）7.Flume中用于缓存事件的组件是？A.SourceB.SinkC.ChannelD.Interceptor答案：C（Channel是事件传输的缓冲区，常见类型有MemoryChannel、FileChannel）8.Spark中RDD的“分区”特性主要用于？A.减少数据存储量B.实现分布式计算C.提升单节点计算速度D.简化数据序列化答案：B（RDD的分区使计算任务可以并行分布在集群各节点执行）9.以下哪个工具常用于离线数据同步？A.FlumeB.SqoopC.KafkaD.Storm答案：B（Sqoop用于关系型数据库与Hadoop之间的离线数据迁移，Flume侧重日志实时采集）10.Hive中创建外部表时，若删除表结构，原始数据会？A.同步删除B.保留在原路径C.转移到Hive默认仓库D.压缩存储答案：B（外部表删除表结构不影响HDFS上的原始数据，内部表会同时删除数据）11.关于Kafka的Partition（分区），错误的是？A.提高消息并行处理能力B.每个Partition是有序的日志文件C.消费者组中的每个消费者只能消费一个PartitionD.Partition数量可动态调整答案：C（消费者组中的消费者与Partition是多对多关系，一个消费者可消费多个Partition）12.以下不属于实时计算框架的是？A.SparkStreamingB.FlinkC.StormD.Hive答案：D（Hive基于MapReduce，属于离线计算框架）13.数据仓库的主要特性不包括？A.面向主题B.实时性高C.集成性D.时变性答案：B（数据仓库侧重分析，支持历史数据存储，实时性要求低于OLTP系统）14.以下哪项是HDFS的设计目标？A.支持大量小文件存储B.运行在低配置硬件上C.提供强一致性D.支持随机读写答案：B（HDFS设计目标包括兼容廉价硬件、处理大文件、流式数据访问，不适合小文件或随机读写）15.关于MapReduce的Shuffle阶段，正确的是？A.仅发生在Map任务结束后B.负责将Map输出传输到Reduce节点C.不需要排序D.由NodeManager直接管理答案：B（Shuffle阶段包括Map输出的分区、排序、网络传输和Reduce端的合并，是Map到Reduce的关键环节）二、多项选择题（每题3分，共30分，多选、少选、错选均不得分）1.Hadoop的核心优势包括？A.高可靠性（自动容错）B.高扩展性（横向扩展）C.高实时性（毫秒级响应）D.低成本（普通硬件）答案：ABD（Hadoop基于批处理，实时性弱于SparkStreaming或Flink）2.以下属于HBase核心组件的是？A.HMasterB.RegionServerC.HLogD.NameNode答案：ABC（NameNode是HDFS组件，HBase的HMaster管理RegionServer，RegionServer管理Region，HLog是预写日志）3.数据清洗的常见操作包括？A.填充缺失值（如用均值填补）B.标准化（如Z-score标准化）C.去除重复记录D.转换日期格式（如“2023/10/1”转“2023-10-01”）答案：ABCD（数据清洗涵盖缺失值、异常值、重复值、格式不一致等问题的处理）4.SparkRDD的持久化级别包括？A.MEMORY_ONLYB.MEMORY_AND_DISKC.DISK_ONLYD.MEMORY_ONLY_SER答案：ABCD（Spark支持多种持久化策略，如仅内存、内存+磁盘、仅磁盘、序列化内存等）5.以下关于Kafka的描述正确的是？A.适用于高吞吐量的实时日志处理B.消息默认持久化存储C.消费者通过偏移量（Offset）记录消费位置D.生产者必须指定Partition才能发送消息答案：ABC（生产者可通过分区器自动分配Partition，无需手动指定）6.Hive的元数据（Metadata）可以存储在？A.Derby（内嵌数据库）B.MySQLC.HBaseD.Redis答案：AB（Hive元数据默认存储在Derby，生产环境常用MySQL等关系型数据库）7.以下哪些场景适合使用HDFS？A.存储TB级别的日志文件B.支持高频随机修改操作C.备份历史业务数据D.实时查询单条用户记录答案：AC（HDFS适合大文件存储和批量读写，不支持随机修改或实时单条查询）8.YARN的资源调度器类型包括？A.FIFOSchedulerB.CapacitySchedulerC.FairSchedulerD.MapReduceScheduler答案：ABC（YARN支持FIFO、容量调度器、公平调度器，MapReduce是计算框架）9.以下属于NoSQL数据库的是？A.HBaseB.MongoDBC.MySQLD.Cassandra答案：ABD（MySQL是关系型数据库，其他选项为NoSQL）10.数据采集工具的选择需考虑的因素有？A.数据实时性要求（实时/离线）B.数据格式（文本、JSON、二进制）C.数据源类型（日志文件、关系型数据库）D.数据量大小（GB级/TB级）答案：ABCD（需综合考虑实时性、格式、数据源和数据量选择工具，如Flume用于实时日志，Sqoop用于离线数据库迁移）三、判断题（每题1分，共10分，正确填“√”，错误填“×”）1.HDFS的NameNode存储文件元数据（如文件名、块位置），通常采用多副本机制保证高可用。（）答案：√（NameNode元数据可通过JournalNode实现多副本，避免单点故障）2.MapReduce的Reduce任务数量由输入数据大小自动决定，用户无法设置。（）答案：×（用户可通过mapreduce.job.reduces参数手动设置Reduce任务数量）3.Hive是数据仓库工具，本质是将SQL语句转换为MapReduce任务执行。（）答案：√（Hive通过HiveQL解析器将SQL转换为MapReduce、Spark等任务）4.数据倾斜指数据在各节点分布不均，可能导致部分节点计算超时。（）答案：√（数据倾斜会导致某些Reduce任务处理大量数据，成为性能瓶颈）5.Spark的DAGScheduler负责将任务划分为Stage，TaskScheduler负责具体任务分配。（）答案：√（DAGScheduler基于RDD依赖关系划分Stage，TaskScheduler将Task分配到Executor）6.HBase的RowKey是全局有序的，因此适合基于RowKey的范围查询。（）答案：√（HBase按RowKey字典序存储，范围查询效率高）7.Flume的Source可以是文件、网络端口或Kafka主题。（）答案：√（Flume支持多种Source类型，如ExecSource（监控文件）、NetcatSource（网络端口）、KafkaSource）8.Kafka的消息一旦被消费者消费，就会从Broker中删除。（）答案：×（Kafka消息根据保留策略（如7天）自动删除，与是否被消费无关）9.数据湖（DataLake）通常存储原始格式数据（如JSON、CSV），数据仓库（DataWarehouse）存储结构化数据。（）答案：√（数据湖侧重存储原始数据，数据仓库需经过ETL处理为结构化数据）10.实时计算要求秒级或毫秒级处理，离线计算通常以小时或天为单位。（）答案：√（实时计算如Flink处理实时流数据，离线计算如Hive处理历史批量数据）四、简答题（每题6分，共30分）1.简述HDFS的读写流程（各列举3个关键步骤）。答案：读流程：①客户端向NameNode请求读取文件；②NameNode返回文件块的位置（存储块的DataNode列表）；③客户端直接与DataNode建立连接，并行读取多个块（通过短连接）；④读取完成后校验数据完整性（通过Checksum）。写流程：①客户端向NameNode请求创建文件；②NameNode检查文件是否存在、权限是否合法，返回可写入的DataNode列表；③客户端将数据分块（默认128MB），通过Pipeline（数据节点链）流式写入第一个DataNode，依次复制到其他副本节点；④所有副本写入成功后，NameNode更新元数据（记录块位置）。2.对比Hive与传统关系型数据库（如MySQL）的主要区别（至少4点）。答案：①应用场景：Hive用于离线数据分析（OLAP），MySQL用于在线事务处理（OLTP）；②数据存储：Hive数据存储在HDFS（分布式文件系统），MySQL存储在本地磁盘；③执行方式：Hive将SQL转换为MapReduce/Spark任务（批处理），MySQL通过SQL引擎直接执行（实时查询）；④事务支持：Hive（2.0+）仅支持有限事务（如ACID），MySQL支持完整事务；⑤数据更新：Hive不支持行级更新（主要追加写），MySQL支持高频增删改。3.什么是数据倾斜？列举2种常见的解决方法。答案：数据倾斜指分布式计算中，部分任务处理的数据量远大于其他任务，导致整体任务延迟。解决方法：①加盐哈希：对倾斜的Key添加随机前缀（如ID_1、ID_2），分散到多个Reduce任务；②两阶段聚合：先局部聚合（每个节点计算部分结果），再全局聚合；③过滤异常值：识别并清洗导致倾斜的异常Key（如空值、重复值）；④调整并行度：增加Reduce任务数量，分散数据量（需结合具体场景）。4.简述SparkRDD的五大特性。答案：①分区（Partition）：RDD数据被划分为多个分区，分布在集群不同节点；②依赖关系（Dependency）：RDD之间存在窄依赖（父RDD一个分区对应子RDD一个分区）和宽依赖（父RDD多个分区对应子RDD一个分区）；③计算函数（Compute）：每个分区有对应的计算函数，用于生成数据；④优先位置（PreferedLocations）：数据本地性优化，计算任务优先在数据所在节点执行；⑤分区器（Partitioner）：仅Key-Value类型的RDD有，用于决定数据在分区中的分布（如HashPartitioner）。5.设计一个电商用户行为数据（如点击、下单、支付）的采集-存储-分析流程，需说明各阶段使用的工具及原因。答案：①数据采集：使用Flume+Kafka组合。Flume采集服务器日志（如Nginx访问日志），通过TaildirSource监控日志文件，经Channel缓存后，通过KafkaSink写入Kafka；Kafka作为消息队列缓冲高并发数据，解耦采集与处理系统。②数据存储：实时数据存储到HBase（支持实时读写，适合用户行为的实时查询）；离线数据通过SparkStreaming消费Kafka数据，清洗后写入HDFS（存储原始日志）和Hive（结构化存储，用于离线分析）。③数据分析：离线分析使用HiveSQL或SparkSQL，计算用户点击率、转化率等指标；实时分析使用Flink处理Kafka实时流数据，计算实时在线人数、热门商品排行等；结果可视化通过Superset或Tableau展示。五、综合题（每题10分，共20分）1.某电商企业需分析“双11”期间用户下单数据，数据包含字段：用户ID、商品ID、下单时间、支付金额、地区、设备类型（手机/PC）。请设计一个基于Hadoop生态的数据分析方案，要求包含以下步骤：（1）数据来源与采集方式；（2）数据存储方案（存储工具及格式）；（3）数据清洗的具体操作（至少3项）；（4）分析指标示例（至少2个）及实现工具。答案：（1）数据来源与采集：数据来源：电商APP/网站的下单日志（埋点数据）、数据库（如MySQL的订单表）。采集方式：日志数据通过Flume（TaildirSource监控日志文件）→Kafka（缓冲高并发）；数据库数据通过Sqoop（全量/增量导入）→HDFS。（2）数据存储方案：①原始数据：HDFS存储原始日志（TextFile格式，保留原始信息）；②结构化数据：Hive外部表（存储路径指向HDFS，格式为Parquet，压缩节省空间且支持高效查询）；③实时数据：HBase存储最近7天的订单数据（RowKey设计为用户ID+下单时间，支持快速查询用户近期订单）。（3）数据清洗操作：①缺失值处理：支付金额为空的记录，若用户ID和商品ID有效，用同商品的平均支付金额填补；②异常值处理：支付金额为负数（如-999），标记为无效记录并单独存储；③格式转换：下单时间从“202311112030”转换为“yyyy-MM-ddHH:mm:ss”格式；④去重：根据用户ID、商品ID、下单时间，删除完全重复的记录。（4）分析指标及工具：①地区订单分布：按地区统计下单量，使用HiveSQL（SELECTregion,COUNT()FROMordersGROUPBYregion）；②设备类型转化率（下单→支付）：计算手机端和PC端的支付成功率，使用SparkSQL（支付订单数/下单订单数）；③热门商品排行：按商品ID统计支付金额总和，使用MapReduce（Map阶段输出商品ID和金额，Reduce阶段累加）。2.某企业计划搭建大数据平台，需处理日均500GB的日志数据（格式为JSON），要求支持实时监控（如5分钟内发现异常访问）和离线分析（如每周用户行为报告）。请设计平台架构，说明各组件的作用及选择原因。答案：平台架构分层及组件：（1）数据采集层：组件：Flume+Kafka作用：Flume通过多个Agent（部署在各日志服务器）的ExecSource或TaildirSource实时采集JSON日志，经MemoryChannel缓存后，通过KafkaSink写入Kafka集群。Kafka作为消息中间件，缓冲高吞吐数据（500GB/天≈5.8GB/小时），支持多消费者（实时处理和离线处理）。（2）实时处理层：组件：Flink作用：Flink

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据HCIA试题（附答案）

文档简介

温馨提示

最新文档

评论

大数据HCIA试题（附答案）

文档简介

温馨提示

最新文档

评论

相关文档