(2025年)大数据技术题库试题及答案大学大数据期末

上传人：1*** IP属地：四川上传时间：2026-03-27 格式：DOCX 页数：21 大小：29.37KB 积分：12 举报 版权申诉

已阅读5页，还剩16页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

(2025年)大数据技术题库试题及答案大学大数据期末一、单项选择题（每题2分，共30分）1.以下关于Hadoop生态组件的描述中，错误的是（）。A.HDFS负责分布式存储，默认块大小为128MBB.YARN负责资源管理，包含ResourceManager和NodeManagerC.MapReduce是离线计算框架，仅支持Java语言开发D.Hive基于Hadoop实现数据仓库功能，通过HQL操作数据答案：C（MapReduce支持多种语言，如Python可通过Streaming接口实现）2.数据倾斜问题通常出现在分布式计算的（）阶段。A.MapB.ShuffleC.ReduceD.Output答案：B（Shuffle阶段数据分区不均会导致部分Reduce任务处理过量数据）3.以下实时计算框架中，基于事件时间（EventTime）且支持精确一次（Exactly-Once）语义的是（）。A.SparkStreaming（微批处理）B.Flink（流处理）C.Storm（实时流）D.Samza（分布式流处理）答案：B（Flink通过检查点和状态后端实现精确一次语义，支持事件时间窗口）4.NoSQL数据库中，HBase的典型数据模型是（）。A.键值对（Key-Value）B.列族（ColumnFamily）C.文档型（Document）D.图结构（Graph）答案：B（HBase基于列族存储，每个列族包含多个列，适合高写入、高并发场景）5.数据湖（DataLake）与数据仓库（DataWarehouse）的核心区别在于（）。A.数据湖存储结构化数据，数据仓库存储非结构化数据B.数据湖采用“读时模式”（Schema-on-Read），数据仓库采用“写时模式”（Schema-on-Write）C.数据湖仅支持离线分析，数据仓库支持实时查询D.数据湖成本更高，数据仓库扩展性更强答案：B（数据湖存储原始数据，模式在读取时定义；数据仓库需提前定义严格模式）6.以下数据脱敏技术中，属于“不可逆脱敏”的是（）。A.替换（如将“1381234”替换手机号）B.加密（如AES加密）C.哈希（如SHA-256哈希）D.掩码（如隐藏部分身份证号）答案：C（哈希算法无法还原原始数据，属于不可逆脱敏；加密可通过密钥还原）7.分布式系统中，CAP理论指的是（）。A.一致性（Consistency）、可用性（Availability）、分区容错性（PartitionTolerance）B.正确性（Correctness）、可扩展性（Scalability）、持久性（Persistence）C.完整性（Integrity）、隔离性（Isolation）、原子性（Atomicity）D.可靠性（Reliability）、高效性（Efficiency）、可维护性（Maintainability）答案：A（CAP理论指出分布式系统无法同时满足一致性、可用性和分区容错性）8.特征工程中，用于降低特征维度的常用方法是（）。A.标准化（Z-Score）B.主成分分析（PCA）C.独热编码（One-HotEncoding）D.分箱（Binning）答案：B（PCA通过线性变换将高维数据投影到低维空间，降低维度；其他选项不直接降维）9.Kafka中，消费者组（ConsumerGroup）的作用是（）。A.保证消息按顺序消费B.实现消息的负载均衡C.提高生产者的吞吐量D.管理Broker的元数据答案：B（同一消费者组内的消费者实例可分配不同分区，实现并行消费，负载均衡）10.数据清洗过程中，处理“年龄”字段时发现“-5”和“200”两个值，这属于（）问题。A.缺失值B.异常值C.重复值D.不一致值答案：B（年龄为负数或超过合理范围属于异常值，需通过分箱、截断等方法处理）11.以下关于SparkRDD的描述中，错误的是（）。A.RDD是不可变的分布式数据集B.RDD支持惰性计算（LazyEvaluation）C.RDD的容错机制基于检查点（Checkpoint）和血统（Lineage）D.RDD的转换操作（Transformations）会立即触发计算答案：D（转换操作（如map、filter）是惰性的，行动操作（如count、collect）才触发计算）12.分布式文件系统中，HDFS的SecondaryNameNode的主要功能是（）。A.作为NameNode的热备，实现高可用B.定期合并EditLog和FsImage，减轻NameNode负担C.管理数据块的复制和故障恢复D.处理客户端的读/写请求答案：B（SecondaryNameNode负责元数据日志的合并，并非主备节点；HDFSHA通过JournalNode和ZKFC实现）13.数据挖掘任务中，“根据用户历史购买记录预测其下一次购买的商品”属于（）。A.分类（Classification）B.聚类（Clustering）C.关联规则（AssociationRules）D.回归（Regression）答案：A（预测离散的商品类别属于分类任务；回归预测连续值，聚类无标签）14.以下不属于Flink状态（State）类型的是（）。A.键值状态（KeyedState）B.操作符状态（OperatorState）C.广播状态（BroadcastState）D.批处理状态（BatchState）答案：D（Flink状态包括键值状态、操作符状态、广播状态，无批处理状态）15.数据仓库的分层架构中，DWS层（DataWarehouseServiceLayer）的主要作用是（）。A.存储原始数据（如日志、业务库备份）B.存储清洗、去重后的明细数据C.存储基于主题的聚合数据（如用户、商品宽表）D.存储面向业务的统计报表数据答案：C（DWS层为服务层，基于DWD明细层做轻度聚合，支持快速查询）二、填空题（每题2分，共20分）1.HDFS默认数据块大小为______MB，该设计是为了减少NameNode的内存占用并提升大文件读写效率。答案：1282.MapReduce计算框架中，Shuffle阶段包含两个关键步骤：______和归并排序（MergeSort）。答案：分区排序（Partition&Sort）3.Flink支持三种时间类型：事件时间（EventTime）、处理时间（ProcessingTime）和______（IngestionTime）。答案：摄入时间4.HBase的RowKey设计需要遵循三个核心原则：散列化（避免热点）、______（建议不超过16字节）、排序性（支持范围查询）。答案：长度适宜5.Kafka的消息传递语义中，“恰好一次”（Exactly-Once）需要结合生产者幂等性、______和消费者的偏移量精确提交实现。答案：事务（Transactions）6.数据仓库的典型分层架构包括ODS（操作数据层）、DWD（明细数据层）、DWS（服务数据层）和______（应用数据层）。答案：ADS7.特征工程中，将“年龄”字段从连续值转换为“0-18”“19-30”等区间的过程称为______。答案：分箱（Binning）8.分布式存储系统的一致性模型中，“最终一致性”（EventualConsistency）属于______一致性（强/弱）。答案：弱9.数据挖掘的常见任务包括分类、聚类、关联规则挖掘和______（如预测销售额）。答案：预测（或回归）10.SparkRDD的两个核心特性是不可变性和______（支持分布式并行计算）。答案：分区性三、简答题（每题5分，共40分）1.简述HDFS的高可用性（HA）实现机制。答案：HDFSHA通过主备NameNode（Active/Standby）实现。主NameNode处理客户端请求并写入EditLog到JournalNode集群；备NameNode从JournalNode同步EditLog，保持元数据同步。ZKFC（ZooKeeperFailoverController）监控NameNode状态，当主节点故障时，通过ZooKeeper选举备节点为新主节点，确保服务不间断。2.数据倾斜的常见原因有哪些？请列举至少3种解决方法。答案：原因：数据分布不均（如某Key出现次数极多）、JOIN操作中小表与大表关联、Reduce任务并行度不足。解决方法：①对倾斜Key加盐（如添加随机前缀），分散到多个Reduce；②拆分JOIN操作（先处理倾斜Key，再与普通数据合并）；③增加Reduce并行度，减少单节点压力；④使用随机数前缀+二次聚合（如先局部聚合，再全局聚合）。3.对比Flink和SparkStreaming的流处理模型，说明主要差异。答案：①模型差异：Flink是真正的流处理（基于事件驱动），SparkStreaming是微批处理（将流拆分为小批量数据）；②延迟：Flink延迟更低（毫秒级），SparkStreaming延迟较高（秒级，取决于批处理间隔）；③状态管理：Flink支持更灵活的状态存储（如键值状态、时间窗口），SparkStreaming依赖RDD的持久化；④时间语义：Flink原生支持事件时间（EventTime）和水印（Watermark），SparkStreaming需额外处理。4.HBase与传统关系型数据库（如MySQL）在数据模型上的主要区别是什么？答案：①数据模型：HBase是列族模型（RowKey+列族+时间戳），支持动态列；MySQL是二维表模型（行+固定列）；②扩展性：HBase基于分布式集群，横向扩展能力强；MySQL受限于单机或主从架构，扩展性较弱；③事务支持：HBase仅支持单行事务；MySQL支持ACID事务（如多表JOIN、跨行操作）；④适用场景：HBase适合高写入、高并发、大数量级的非结构化/半结构化数据；MySQL适合结构化数据的复杂查询。5.简述Kafka的消息持久化机制。答案：Kafka将消息存储为日志文件（Log），每个主题（Topic）的分区（Partition）对应一个日志目录。日志文件按大小或时间分段（Segment），每个Segment包含数据文件（.log）、偏移量索引（.index）和时间戳索引（.timeindex）。过期日志通过保留策略（如按时间/大小删除）自动清理，确保磁盘空间有效利用。6.数据湖与数据仓库的核心区别体现在哪些方面？答案：①数据类型：数据湖存储结构化、半结构化、非结构化数据（如文本、图片）；数据仓库仅存储结构化数据；②模式设计：数据湖采用“读时模式”（Schema-on-Read），数据入湖时不定义模式；数据仓库采用“写时模式”（Schema-on-Write），需提前定义严格模式；③使用场景：数据湖支持探索性分析、机器学习等复杂需求；数据仓库支持固定业务的报表、OLAP查询；④数据质量：数据湖包含原始数据（可能存在冗余、错误）；数据仓库经过清洗、转换，质量较高。7.特征工程的主要步骤包括哪些？请简要说明。答案：主要步骤：①特征提取：从原始数据中抽取有效特征（如从时间戳提取“小时”“星期”）；②特征清洗：处理缺失值（填充、删除）、异常值（截断、分箱）、重复值（去重）；③特征选择：通过统计方法（如卡方检验）或模型（如随机森林重要性）筛选关键特征；④特征构造：组合现有特征提供新特征（如“消费金额/购买次数”）；⑤特征缩放：对数值特征进行归一化（Min-Max）或标准化（Z-Score），消除量纲影响。8.解释分布式系统中CAP理论的含义，并说明实际应用中如何权衡。答案：CAP理论指分布式系统无法同时满足一致性（C，所有节点数据一致）、可用性（A，每次请求都能得到响应）、分区容错性（P，网络分区时系统仍可用）。实际中，由于网络不可靠，P是必须的，因此需在C和A之间权衡：①选择CP（一致性+分区容错）：如HBase、ZooKeeper，优先保证数据一致，分区时可能牺牲可用性；②选择AP（可用性+分区容错）：如Kafka、Cassandra，优先保证服务可用，分区时允许数据最终一致。四、应用题（每题6分，共30分）1.设计一个电商用户行为分析的Hive数仓分层方案，要求包含各层的命名规则、存储内容及处理逻辑。答案：分层方案：①ODS层（操作数据层）：命名规则ods_业务域_表名（如ods_ecom_user_log）；存储原始日志（如用户点击、下单日志），格式为JSON/CSV，保留全量数据，处理逻辑为ETL工具（如Sqoop）从业务库或日志服务器实时同步，无清洗。②DWD层（明细数据层）：命名规则dwd_业务域_表名（如dwd_ecom_user_action）；存储清洗后的明细数据（去重、过滤无效记录、补充缺失字段），格式为Parquet，处理逻辑为HiveSQL清洗（如WHEREis_valid=1）。③DWS层（服务数据层）：命名规则dws_主题_周期（如dws_user_daily_behavior）；存储按用户、商品等主题聚合的宽表（如每日访问次数、下单金额），格式为ORC，处理逻辑为按天分区，通过GROUPBY聚合（如COUNT(click)、SUM(amount)）。④ADS层（应用数据层）：命名规则ads_业务场景_指标（如ads_user_uv_daily）；存储面向业务的统计报表（如日活用户、转化率），格式为列式存储，处理逻辑为从DWS层取数，通过JOIN提供最终指标，供BI工具（如Tableau）使用。2.用MapReduce框架实现“统计某电商平台订单表中金额前10的订单”，请描述Map和Reduce阶段的逻辑。答案：Map阶段：①输入：订单表（每行格式：order_id,user_id,amount）；②Mapper读取每行数据，提取amount和order_id作为键值对（Key=amount，Value=order_id）；③由于需要降序排序，可将amount取负数（Key=-amount），利用MapReduce默认的升序排序，实现实际金额的降序。Reduce阶段：①输入：按Key（-amount）排序后的键值对（如-1000→order_1,-900→order_2）；②Reducer维护一个大小为10的小根堆，遍历所有键值对，将amount（取绝对值）与堆顶比较，若更大则替换堆顶；③最终输出堆中10个最大的订单金额及对应的order_id。3.某视频平台需要实时计算“每分钟各页面UV（独立访客数）”，请用Flink设计实现步骤（需包含时间窗口、去重方法及状态管理）。答案：实现步骤：①数据源：Kafka主题（topic_video_page_log），消息格式为{user_id:String,page_id:String,timestamp:Long}。②时间语义：设置事件时间（EventTime），提取消息中的timestamp作为事件时间，提供水印（Watermark）处理延迟数据（如允许10秒延迟）。③数据处理：按page_id分组（keyBy("page_id")）；定义滑动窗口（SlidingEventTimeWindows.of(Time.minutes(1),Time.seconds(30))）或滚动窗口（TumblingEventTimeWindows.of(Time.minutes(1))）；使用状态（State）存储已访问的user_id，避免重复计数。推荐用MapState（key=user_id,value=Boolean）记录用户是否已访问当前窗口。④去重逻辑：每条消息进入窗口时，检查MapState中是否存在user_id：若不存在则计数+1，并将user_id存入状态；若存在则忽略。⑤输出：窗口触发时，输出page_id和对应的UV数到Kafka或数据库。4.设计一个HBase表用于存储用户信息（包括用户ID、姓名、手机号、注册时间、最近登录时间、历史登录IP），要求说明RowKey设计、列族划分及原因。答案：表设计：①表名：user_info②RowKey设计：采用“哈希值+用户ID”（如MD5(user_id).substring(0,4)+use

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

(2025年)大数据技术题库试题及答案大学大数据期末

文档简介

温馨提示

最新文档

评论

(2025年)大数据技术题库试题及答案大学大数据期末

文档简介

温馨提示

最新文档

评论

相关文档