2025年大数据试题及答案_第1页
2025年大数据试题及答案_第2页
2025年大数据试题及答案_第3页
2025年大数据试题及答案_第4页
2025年大数据试题及答案_第5页
已阅读5页,还剩10页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年大数据试题及答案一、单项选择题(每题2分,共20分)1.以下关于HDFS副本机制的描述中,错误的是()A.默认副本数为3B.第一个副本存储在客户端所在节点(若客户端不在集群中则随机选择)C.第二个副本存储在与第一个副本不同的机架D.第三个副本存储在与第二个副本相同的机架2.Spark中,RDD的transformation操作是()A.立即执行并提供结果B.延迟执行,构建计算血缘C.直接触发Shuffle过程D.仅支持窄依赖操作3.数据倾斜(DataSkew)的典型表现是()A.任务执行时间差异大,部分任务超时B.所有任务均快速完成C.内存使用量均匀分布D.Shuffle阶段网络传输量稳定4.关于数据湖(DataLake)与数据仓库(DataWarehouse)的对比,正确的是()A.数据湖存储结构化数据,数据仓库存储非结构化数据B.数据湖支持多类型数据存储,数据仓库以结构化数据为主C.数据湖的元数据管理严格,数据仓库的元数据灵活D.数据湖主要用于OLTP场景,数据仓库用于OLAP场景5.Kafka中,消费者组(ConsumerGroup)的作用是()A.保证消息被多个消费者重复消费B.实现消息的负载均衡,同一分区的消息仅由组内一个消费者处理C.提高生产者的发送吞吐量D.强制消费者按顺序消费所有分区消息6.Flink中,Watermark的主要作用是()A.标记数据流中的事件时间进度,处理延迟数据B.控制内存中的状态大小C.优化Shuffle阶段的网络传输D.实现任务的故障恢复7.以下不属于数据脱敏(DataMasking)技术的是()A.哈希替换(Hashing)B.随机偏移(RandomOffset)C.数据抽样(Sampling)D.字符替换(CharacterSubstitution)8.ClickHouse中,适用于高基数维度列的索引类型是()A.一级索引(PrimaryIndex)B.二级索引(SecondaryIndex)C.跳表索引(SkipIndex)D.哈希索引(HashIndex)9.机器学习中,处理类别不平衡数据时,以下方法效果最差的是()A.过采样(Oversampling)少数类B.欠采样(Undersampling)多数类C.调整分类器的类别权重(ClassWeight)D.直接使用准确率(Accuracy)作为评估指标10.数据治理(DataGovernance)的核心目标是()A.提高数据存储容量B.确保数据的准确性、完整性和可用性C.优化数据处理速度D.降低数据存储成本二、填空题(每题2分,共20分)1.HBase的底层存储引擎是__________,其数据按__________排序存储。2.SparkSQL中,用于将DataFrame注册为临时视图的方法是__________。3.Flink的时间类型包括事件时间(EventTime)、处理时间(ProcessingTime)和__________。4.Kafka的消息传递语义(DeliverySemantics)中,“至少一次”(AtLeastOnce)需要结合__________机制实现。5.数据湖的典型分层架构包括原始层(RawLayer)、清洗层(CleanedLayer)、__________和应用层(ApplicationLayer)。6.分布式计算中,CAP定理指的是一致性(Consistency)、可用性(Availability)和__________三者只能取其二。7.数据仓库的ETL流程中,T指的是__________(英文全称)。8.机器学习中,梯度下降(GradientDescent)的优化方向是__________的负梯度方向。9.实时数仓的典型架构模式包括Lambda架构和__________架构。10.数据脱敏的常见策略包括匿名化(Anonymization)、去标识化(De-identification)和__________。三、简答题(每题8分,共40分)1.简述HDFS机架感知(RackAwareness)机制的原理及作用。2.Spark中Shuffle操作为何容易成为性能瓶颈?请列举3种优化策略。3.数据湖与传统数据仓库在元数据管理上有何差异?请结合具体场景说明。4.如何检测数据倾斜?针对MapReduce和Spark两种框架,分别给出一种处理数据倾斜的方法。5.Flink的状态管理(StateManagement)包括哪些类型?简述其在实时计算中的作用。四、综合应用题(每题10分,共20分)1.某电商平台需分析用户行为数据(包括点击、加购、下单、支付),要求支持实时和离线分析。请设计技术方案,包括数据采集、存储、处理、分析及可视化的全流程,并说明各环节的技术选型及原因。2.某金融机构需构建客户风险评估模型,数据包括用户基本信息(年龄、职业)、交易记录(金额、频次)、征信数据(逾期次数、负债比)。请设计数据预处理流程(包括缺失值处理、特征工程、标准化/归一化),并说明选择的机器学习算法及评估指标。参考答案一、单项选择题1.D(第三个副本存储在与第一个副本相同的机架,以提高跨机架读取的容错性)2.B(transformation是延迟执行的,action触发计算)3.A(数据倾斜导致部分任务处理大量数据,执行时间长)4.B(数据湖支持结构化、半结构化、非结构化数据;数据仓库以结构化为主)5.B(消费者组内消费者通过分区分配实现负载均衡,避免重复消费)6.A(Watermark用于标记事件时间进度,触发窗口计算并处理延迟数据)7.C(数据抽样是减少数据量的方法,不属于脱敏)8.D(哈希索引适用于高基数列,如用户ID)9.D(类别不平衡时,准确率无法反映模型真实性能)10.B(数据治理核心是保障数据质量与合规性)二、填空题1.HFile;行键(RowKey)2.createOrReplaceTempView()3.摄入时间(IngestionTime)4.幂等生产者(IdempotentProducer)或事务(Transactions)5.聚合层(CuratedLayer)/业务层(BusinessLayer)6.分区容错性(PartitionTolerance)7.Transformation(转换)8.损失函数(LossFunction)9.Kappa10.泛化(Generalization)/脱敏(Masking,需与题干区分)三、简答题1.原理:HDFS通过节点的机架信息(如通过脚本或配置文件定义),将副本分布在不同机架以提高容错性。第一个副本存本地节点(或随机),第二个副本存不同机架,第三个副本存与第一个同机架的其他节点。作用:降低机架故障导致数据丢失的风险(跨机架副本冗余),同时优化读取性能(优先读取同机架副本,减少跨网络开销)。2.性能瓶颈原因:Shuffle涉及数据跨节点传输、磁盘IO(写入/读取)、内存排序/合并,资源消耗大;数据分布不均可能导致长尾任务。优化策略:增加并行度(提高分区数,分散数据量);启用压缩(如Snappy压缩Shuffle数据,减少网络传输量);使用广播变量(BroadcastVariable)替代大表JOIN中的Shuffle(适用于小表JOIN大表场景);开启SparkSQL的自动优化(如AQE,自适应查询执行,动态调整分区数)。3.元数据管理差异:数据湖:元数据管理更灵活,支持多类型数据(如JSON、Parquet、CSV)的元信息记录(如文件路径、格式、schema版本),通常结合HiveMetastore或ApacheAtlas实现,允许schema-on-read(读时模式);数据仓库:元数据管理严格,强调schema-on-write(写时模式),需提前定义表结构、字段类型、约束(如主键、外键),元数据与数据强绑定,支持复杂的关联关系管理(如维度表、事实表的关联)。场景示例:数据湖可存储原始日志(无固定schema),通过元数据记录日志时间、来源设备,分析时动态解析;数据仓库需将日志清洗为结构化表(如用户行为表),元数据包含字段类型(如event_time为TIMESTAMP)、分区信息(如dt=2024-10-01)。4.检测方法:观察任务监控指标(如Spark的Stage执行时间分布,MapReduce的Reduce任务时长);统计Key的分布(如通过countByKey()查看高频Key的数量);日志分析(任务日志中出现“Straggler”或“Timeout”提示)。处理方法:MapReduce:在Map阶段对Key添加随机前缀(如Key_1、Key_2),分散数据到多个Reduce;在Reduce阶段去除前缀,重新聚合。Spark:对倾斜Key单独处理(如过滤高频Key,单独JOIN后与其他数据合并);或使用两阶段聚合(先局部聚合,再全局聚合)。5.状态类型:算子状态(OperatorState):与算子实例绑定(如Kafka消费者的偏移量);键值状态(KeyedState):按Key分组(如用户ID对应的累计点击数),包括值状态(ValueState)、列表状态(ListState)、映射状态(MapState)等。作用:在实时计算中,状态用于存储中间结果(如窗口内的聚合值),支持基于历史数据的计算(如用户7天内的复购次数);结合检查点(Checkpoint)机制,可实现故障恢复时的状态一致性。四、综合应用题1.技术方案设计:数据采集:用户行为日志通过埋点SDK发送至Kafka(高吞吐、低延迟,支持实时数据流);离线日志(如批量导出的历史数据)通过Flume采集至HDFS。存储:实时数据:Kafka作为消息队列缓存(保留7天),原始数据落盘至对象存储(如AWSS3、阿里云OSS,低成本、高扩展性);离线数据:HDFS存储原始日志(支持大规模数据存储),清洗后的数据存入Hive数据仓库(结构化存储,支持SQL分析);实时数仓层:使用DeltaLake(支持ACID事务,统一实时与离线存储)存储清洗后的用户行为表(如dwd_user_action)。处理:实时处理:Flink消费Kafka数据,进行过滤(去重、过滤无效事件)、窗口聚合(如5分钟内的点击量),结果写入ClickHouse(实时OLAP查询)或Redis(缓存热点数据);离线处理:Spark读取HDFS日志,执行ETL(清洗、关联用户信息),写入Hive分区表(按天分区),支持T+1报表。分析:实时分析:通过ClickHouse查询用户实时活跃趋势、转化漏斗;离线分析:HiveSQL计算用户留存率、复购率,或使用SparkMLlib训练用户分群模型(如RFM模型)。可视化:Superset(开源、易扩展)或Tableau(商业、交互性强)连接ClickHouse和Hive,制作实时看板(如GMV实时大屏)和离线报表(如周度用户增长分析)。2.数据预处理流程:缺失值处理:用户基本信息(年龄、职业):缺失率<5%时用中位数/众数填充;缺失率>30%时作为独立类别(如“未知”);交易记录(金额、频次):使用随机森林(RandomForest)预测填充(利用其他特征作为输入);征信数据(逾期次数):缺失可能暗示用户无逾期记录,填充0(需结合业务验证)。特征工程:衍生特征:交易金额的月均/日均值、最大单笔金额;负债比=总负债/总资产(需计算);分箱处理:年龄分箱(如18-25岁、26-35岁),交易频次分箱(低/中/高频);类别编码:职业(类别变量)使用目标编码(TargetEncoding,考虑风险标签的均值

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论