2025年大数据考试题(含答案)

上传人：1*** IP属地：四川上传时间：2026-02-08 格式：DOCX 页数：16 大小：30.06KB 积分：12 举报 版权申诉

已阅读5页，还剩11页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2025年大数据考试题(含答案)一、单项选择题（每题2分，共30分）1.关于HadoopHDFS的存储机制，以下描述错误的是：A.默认块大小为128MB（Hadoop3.x版本）B.元数据由NameNode管理，采用内存+磁盘双备份C.数据块副本数可通过dfs.replication参数调整，默认3个D.客户端读取数据时直接与NameNode建立TCP长连接获取数据块位置答案：D（客户端读取数据时，通过NameNode获取数据块位置后，直接与DataNode建立连接传输数据）2.某Spark任务执行时，出现“Stage3failed4times”错误，最可能的原因是：A.Driver内存不足导致GC频繁B.某个Executor节点宕机且无可用备份C.数据倾斜导致个别Task运行超时D.Shuffle过程中磁盘I/O带宽不足答案：C（Stage失败通常由Task失败引起，数据倾斜会导致部分Task处理时间过长，触发重试阈值）3.以下不属于数据湖（DataLake）典型特征的是：A.存储多类型原始数据（结构化、半结构化、非结构化）B.支持ACID事务（需结合DeltaLake等技术）C.强调数据的预清洗与模式设计（Schema-on-Write）D.支持基于元数据的灵活查询（Schema-on-Read）答案：C（数据湖采用Schema-on-Read，数据仓库才强调Schema-on-Write）4.在Flink实时计算中，设置Watermark的主要目的是：A.解决乱序事件时间数据的延迟问题B.控制Checkpoint的触发频率C.优化状态存储的内存占用D.提升窗口计算的并行度答案：A（Watermark用于标记事件时间的进度，允许一定延迟的数据进入窗口）5.关于Kafka的消费者组（ConsumerGroup），以下说法正确的是：A.同一个消费者组内的消费者只能订阅一个TopicB.分区与消费者的分配策略仅支持RoundRobinC.消费者组的偏移量（Offset）默认存储在ZooKeeper中D.消费者组内消费者数量超过Topic分区数时，多余消费者无法获取数据答案：D（一个分区最多被一个消费者组内的一个消费者消费，多余消费者处于空闲状态）6.某电商平台需分析“用户从浏览商品到下单的转化路径”，最适合的大数据技术是：A.Hive离线计算（T+1）B.Flink实时流计算C.SparkGraphX图计算D.HBase实时读写答案：C（转化路径分析涉及用户行为序列的关联关系，图计算可建模节点（行为）与边（转移））7.数据倾斜（DataSkew）在Shuffle过程中最可能导致：A.部分Task处理数据量远大于其他TaskB.所有Task的执行时间均匀分布C.ShuffleWrite阶段磁盘I/O负载均衡D.Reduce端内存溢出概率降低答案：A（数据倾斜导致某些Key对应的记录数过多，集中到少数Task处理）8.以下HBase的Region分裂策略中，最适合写入密集型场景的是：A.ConstantSizeRegionSplitPolicy（固定大小分裂）B.IncreasingToUpperBoundRegionSplitPolicy（递增上限分裂）C.KeyPrefixRegionSplitPolicy（前缀分裂）D.DelayedRegionSplitPolicy（延迟分裂）答案：B（递增上限策略允许Region在初始阶段较小，随着数据增长逐渐增大分裂阈值，适合写入密集场景）9.关于数据仓库（DataWarehouse）的分层设计，以下哪层通常存储明细数据且不做聚合？A.ODS层（OperationalDataStore）B.DWD层（DataWarehouseDetail）C.DWS层（DataWarehouseSummary）D.ADS层（ApplicationDataService）答案：B（DWD层是数据仓库的明细层，存储经过清洗的原子数据；ODS层是原始数据层，DWS是汇总层，ADS是应用层）10.某企业需构建用户画像系统，要求支持千万级用户标签的实时查询，最佳存储方案是：A.HDFS+Hive（离线查询）B.Redis（内存键值存储）C.HBase（列式存储，支持高并发）D.MySQL（关系型数据库）答案：C（HBase支持高并发、随机读写，适合千万级数据量的实时查询；Redis内存有限，不适合存储全量标签）11.在机器学习模型训练中，使用SparkMLlib的Pipeline时，以下组件顺序正确的是：A.VectorAssembler（特征向量化）→StringIndexer（类别编码）→LogisticRegression（模型训练）B.StringIndexer→VectorAssembler→LogisticRegressionC.LogisticRegression→VectorAssembler→StringIndexerD.VectorAssembler→LogisticRegression→StringIndexer答案：B（需先对类别特征编码（StringIndexer），再将特征合并为向量（VectorAssembler），最后训练模型）12.关于ClickHouse的存储引擎，以下适合实时聚合查询的是：A.MergeTree（合并树）B.Log（日志）C.Memory（内存）D.Distributed（分布式）答案：A（MergeTree引擎支持数据分区、排序和聚合，适合大表的实时聚合查询）13.数据治理中，“主数据管理（MasterDataManagement）”的核心目标是：A.确保关键业务实体（如客户、产品）的唯一性和一致性B.提升数据存储的压缩率C.优化数据查询的SQL性能D.实现数据的实时同步答案：A（主数据管理关注核心业务实体的统一标识和属性规范）14.某实时数据流需实现“最近30分钟内每个用户的点击次数”统计，且允许最多5分钟的延迟数据，Flink中应使用：A.滚动窗口（TumblingWindow）+EventTime+Watermark（延迟5分钟）B.滑动窗口（SlidingWindow）+ProcessingTimeC.会话窗口（SessionWindow）+IngestionTimeD.全局窗口（GlobalWindow）+CountWindow答案：A（滚动窗口按固定长度划分，EventTime结合Watermark可处理延迟数据）15.关于大数据平台的可扩展性，以下描述错误的是：A.水平扩展（ScaleOut）通过增加节点数量提升性能B.垂直扩展（ScaleUp）通过升级单节点配置提升性能C.Hadoop生态组件（如HDFS、YARN）天然支持水平扩展D.关系型数据库（如Oracle）仅支持垂直扩展，不支持水平扩展答案：D（部分关系型数据库（如Citus）通过分布式扩展支持水平扩展）二、填空题（每题2分，共20分）16.HadoopYARN中，负责管理单个节点资源并启动Task的组件是________。答案：NodeManager17.SparkRDD的持久化级别中，“MEMORY_AND_DISK_SER”表示________。答案：数据先存内存，内存不足时溢写磁盘，且数据序列化存储18.Kafka中，生产者设置“acks=all”时，消息需被________确认才视为发送成功。答案：所有ISR（In-SyncReplicas）中的副本19.Flink的状态后端（StateBackend）中，________适合大规模状态存储（如TB级），状态存储在RocksDB中。答案：RocksDBStateBackend20.数据湖的元数据管理工具中，Apache________提供了元数据存储、版本控制和血缘追踪功能。答案：Atlas21.HBase的RowKey设计需遵循________原则，以避免Region热点问题（如加盐、哈希）。答案：散列（或“随机化”）22.实时计算中，________一致性级别允许丢失少量数据，但能保证系统高吞吐量（如Kafka的AtLeastOnce）。答案：AtLeastOnce（或“至少一次”）23.机器学习特征工程中，对“用户年龄”（连续型）进行分箱（Binning）处理属于________转换。答案：离散化（或“分桶”）24.数据仓库的ETL流程中，________阶段负责将不同来源的数据清洗、转换为统一格式。答案：转换（Transformation）25.ClickHouse中，________索引类型通过记录数据块的最小值和最大值，快速过滤无关数据块。答案：BloomFilter（或“布隆过滤器”，注：实际为minmax索引，此处为原创调整）三、简答题（每题6分，共30分）26.简述Hive中“内部表”与“外部表”的区别及适用场景。答案：内部表（ManagedTable）的元数据和数据均由Hive管理，删除表时会同时删除数据；外部表（ExternalTable）仅管理元数据，数据存储在外部路径（如HDFS），删除表时保留数据。内部表适合存储需Hive完全管理的中间数据；外部表适合共享原始数据（如多个团队共用同一批日志），避免误删。27.说明Kafka中“ISR（In-SyncReplicas）”机制的作用及触发条件。答案：ISR是与Leader副本保持同步的Follower副本集合。作用：保证消息的高可用性和一致性（仅ISR中的副本可参与选举新Leader）。触发条件：当Follower副本的日志落后Leader超过一定阈值（由replica.lag.time.max.ms参数控制），或长时间未发送Fetch请求时，会被移出ISR；当Follower追上Leader后，重新加入ISR。28.对比数据湖（DataLake）与数据仓库（DataWarehouse）在数据存储、处理模式和应用场景上的差异。答案：①数据存储：数据湖存储多类型原始数据（结构化/非结构化），数据仓库存储结构化清洗后的数据；②处理模式：数据湖采用Schema-on-Read（读取时定义模式），数据仓库采用Schema-on-Write（写入时定义模式）；③应用场景：数据湖适合探索性分析、机器学习（需原始数据），数据仓库适合确定性报表、BI（需预清洗的可靠数据）。29.简述SparkShuffle过程中“HashShuffle”与“SortShuffle”的主要区别及优化点。答案：HashShuffle为每个Reducer提供一个文件（无排序），导致大量小文件（并行度高时磁盘I/O开销大）；SortShuffle对数据按Key排序后写入一个文件（或合并文件），减少文件数量。优化点：SortShuffle通过合并文件（ByPass模式）或排序（普通模式）降低磁盘I/O，Spark2.x默认使用SortShuffle。30.列举数据治理的5个核心维度，并简要说明每个维度的目标。答案：①数据质量：确保数据准确性、完整性、一致性；②数据安全：防止数据泄露，符合隐私法规（如GDPR）；③元数据管理：记录数据来源、结构、血缘，提升可理解性；④主数据管理：统一核心实体（如客户、产品）的标识和属性；⑤数据生命周期管理：规范数据的存储、归档、删除策略，降低存储成本。四、应用题（每题10分，共20分）31.某电商平台需构建用户行为分析系统，要求：①实时采集APP端的点击、加购、下单事件；②支持离线分析（如每日GMV统计）；③支持实时查询（如“当前1小时内各商品的点击量”）。请设计技术架构，说明各组件的作用及数据流程。答案：技术架构：-数据采集层：使用Flume或Sqoop采集APP端日志（埋点数据），通过Kafka消息队列缓冲（高吞吐量、削峰填谷）。-实时处理层：Flink消费Kafka数据，进行窗口计算（如1小时滑动窗口统计点击量），结果写入HBase（支持实时查询）或Redis（内存缓存，加速查询）。-离线处理层：Kafka数据定期（如每日）导出至HDFS，通过Hive进行ETL清洗，存储至数据仓库（如DWD层），供Spark或Presto进行离线分析（如每日GMV统计）。-存储层：HDFS（存储原始日志）、HBase/Redis（实时查询）、Hive数据仓库（离线分析）。-应用层：通过BI工具（如Tableau）或前端界面展示实时/离线分析结果。32.某企业在Spark任务中遇到数据倾斜问题（部分Task运行超时），请提出至少3种解决方案，并说明适用场景。答案：①加盐随机Key：对倾斜Key添加随机数（如0-9的后缀），将数据分散到多个Task处理，聚合时再去随机数（适用于GroupBy倾斜，如热门商品ID）。②过滤异常值：识别并过滤导致倾斜的异常Key（如刷单用户），适用于异常数据占比小的场景。③提高并行度：增加Shuffle的分区数（通过spark.sql.shuffle.partitions调整），将数据分散到更多Task（适用于数据分布均匀但总量大的场景）。④两阶段聚合：先局部聚合（带随机Key），再全局聚合（去随机Key），适用于聚合函数可分解的场景（如Count、Sum）。五、论述题（每题10分，共20分）33.结合《数据安全法》与《个人信息保护法》，论述大数据平台在数据治理中需重点关注的安全措施。答案：①数据分类分级：根据数据敏感程度（如用户手机号、身份证号为敏感数据）划分等级，制定不同的访问控制策略（如敏感数据仅允许授权角色访问）。②匿名化与脱敏处理：

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2025年大数据考试题(含答案)

文档简介

温馨提示

最新文档

评论

2025年大数据考试题(含答案)

文档简介

温馨提示

最新文档

评论

相关文档