版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年考研大数据试题及答案一、单项选择题(每题2分,共20分)1.下列选项中,不属于大数据“5V”特征的是()A.Volume(规模大)B.Variety(多样性)C.Velocity(高速率)D.Validity(有效性)2.Hadoop3.x版本中,HDFS默认的块大小是()A.32MBB.64MBC.128MBD.256MB3.以下关于SparkRDD的描述,错误的是()A.RDD是不可变的分布式数据集B.RDD支持基于内存的计算C.RDD的容错机制依赖CheckpointD.RDD可通过转换操作提供新的RDD4.在Kafka中,消费者组(ConsumerGroup)的主要作用是()A.保证消息的顺序性B.实现消息的负载均衡C.提高生产者的吞吐量D.限制消费者的连接数5.处理数据倾斜问题时,以下方法中不适用的是()A.增加Reduce任务数量B.对倾斜键进行加盐处理C.过滤异常高频值D.减少Shuffle阶段的数据量6.分布式数据库中,CAP定理指的是()A.一致性、可用性、分区容错性B.一致性、原子性、持久性C.并发、可用、性能D.容量、可扩展性、持久性7.机器学习中,以下哪项操作最可能导致过拟合()A.增加训练数据量B.降低模型复杂度C.对特征进行L2正则化D.减少训练迭代次数8.在MapReduce中,Shuffle阶段的核心操作是()A.输入数据分片B.数据分区与排序C.结果合并输出D.任务资源调度9.以下不属于实时数据处理框架的是()A.ApacheFlinkB.ApacheSparkStreamingC.ApacheStormD.ApacheHive10.关于HBase的描述,正确的是()A.支持SQL语法查询B.基于列存储的NoSQL数据库C.适用于高并发事务场景D.数据模型为关系型表结构二、填空题(每空2分,共20分)1.大数据处理的典型分层架构包括数据采集层、__________、存储层、计算层和应用层。2.HadoopYARN的核心组件包括ResourceManager和__________。3.Spark中,将RDD持久化到内存的操作是调用__________方法。4.Kafka的消息存储基于__________机制,消息按偏移量有序保存。5.决策树算法中,常用的分裂指标有信息增益、增益率和__________。6.分布式系统中,Paxos算法主要用于解决__________问题。7.数据清洗的常见任务包括缺失值处理、__________和异常值检测。8.机器学习中,将连续特征离散化的主要目的是__________。9.Flink的时间类型包括事件时间(EventTime)、处理时间(ProcessingTime)和__________。10.分布式文件系统(如HDFS)的副本机制主要用于保证数据的__________。三、简答题(每题8分,共40分)1.简述Hadoop2.0相比1.0的主要改进,并说明YARN的核心作用。2.数据倾斜的主要表现是什么?请列举3种检测数据倾斜的方法,并给出一种具体的处理策略。3.对比SparkRDD与DataFrame的区别,说明DataFrame在性能上的优势。4.解释分布式系统中“最终一致性”的含义,并举例说明其应用场景。5.机器学习中,为什么需要对特征进行标准化(Standardization)或归一化(Normalization)?请简述两种方法的区别。四、计算题(每题10分,共30分)1.某数据集包含两类样本,其中正类样本30个,负类样本70个。计算该数据集的信息熵(熵的计算公式:H(2.一个MapReduce任务处理100GB数据,HDFS块大小为128MB,每个Map任务处理1个块。若每个节点最多同时运行10个Map任务,集群共有20个节点,计算Map阶段的总并行度和完成Map任务的最短时间(假设每个Map任务处理时间为5分钟,不考虑任务启动延迟)。3.某K-means聚类任务中,初始选择两个质心:C1=(2,4),C五、综合题(20分)某电商平台需构建用户行为分析系统,目标是实时分析用户点击、加购、下单等行为,预测用户购买意向并推送个性化推荐。请设计该系统的大数据处理方案,要求涵盖以下内容:(1)数据采集:说明使用的工具及采集方式;(2)数据存储:选择适合的存储方案(至少2种)并说明理由;(3)实时处理:设计处理流程,选择合适的计算框架并说明原因;(4)模型应用:简述如何利用机器学习模型实现购买意向预测;(5)可视化:推荐可视化工具并说明其核心功能。参考答案一、单项选择题1.D2.C3.C4.B5.A6.A7.D8.B9.D10.B二、填空题1.数据清洗/预处理层2.NodeManager3.persist(StorageLevel.MEMORY_ONLY)4.日志(或日志文件)5.基尼系数6.分布式一致性7.重复值处理8.降低模型复杂度(或提高模型鲁棒性、减少计算量)9.摄入时间(IngestionTime)10.可靠性/容错性三、简答题1.Hadoop2.0改进:Hadoop1.0的核心是HDFS和MapReduce,但MapReduce同时承担资源管理和任务调度,导致扩展性差。2.0引入YARN(YetAnotherResourceNegotiator),将资源管理(ResourceManager)与任务调度(ApplicationMaster)分离,支持多计算框架(如Spark、Flink)运行在YARN上,提升了集群资源利用率和扩展性。YARN核心作用:统一管理集群资源(CPU、内存),为不同计算框架分配资源,并监控任务运行状态。2.数据倾斜表现:部分Reduce任务运行时间远长于其他任务,或任务日志中出现“数据量过大”异常。检测方法:①观察任务监控页面,查看各Reduce任务输入数据量;②查看任务日志,统计各Key的出现频率;③使用抽样统计,对数据预处理阶段的Key分布进行分析。处理策略:对高频Key进行“加盐”(如添加随机数前缀),将其分散到多个Reduce任务,处理完成后再去盐合并结果。3.RDD与DataFrame区别:RDD是低层次的抽象,仅记录数据的分布式存储和操作逻辑,无结构信息;DataFrame是带Schema的RDD,记录列名、数据类型等元信息。性能优势:DataFrame利用Catalyst优化器对查询计划进行逻辑和物理优化(如谓词下推、列裁剪),减少数据传输和计算量,相比RDD更高效。4.最终一致性:分布式系统中,当更新操作完成后,所有节点最终会看到相同的数据,允许在短时间内存在不一致。应用场景:如电商库存系统,用户下单后,各服务器库存数据可能短暂不一致,但经过同步后最终一致,避免强一致性带来的性能开销。5.必要性:特征的量纲(如身高cm与体重kg)或取值范围差异大,可能导致模型对大数值特征更敏感,影响参数优化。区别:标准化(Z-score)将特征转换为均值0、标准差1,公式为(x−μ四、计算题1.正类概率=30/100信息熵H(2.总并行度:数据总块数=100GB/128MB=100×1024MB/128MB=800块,即800个Map任务。最短时间:每个节点同时运行10个Map任务,20个节点总并发数=20×10=200。完成时间=800/200×5分钟=20分钟。3.样本归属:A(3,5)B(5,7)C(7,9)新质心:C1簇样本:A(3,5),质心=(3,5);C2簇样本:B(5,7)、C(7,9),质心=((5+7)/2,(7+9)/2)=(6,8)(与原C2相同,迭代结束)。五、综合题(1)数据采集:使用Flume采集服务器日志(如Nginx访问日志),通过Kafka实时接收用户客户端行为数据(点击、加购等)。Flume支持日志文件监控和定时拉取,Kafka通过客户端SDK(如KafkaProducer)接收埋点数据,保证高吞吐量和低延迟。(2)数据存储:实时数据:Kafka消息队列暂存(保留7天),用于实时处理;历史数据:HDFS存储全量行为数据(低成本、高可靠),HBase存储用户行为明细(支持快速随机查询,如按用户ID检索近期行为)。(3)实时处理流程:Kafka数据→Flink实时计算框架→处理逻辑(过滤无效行为、统计用户近期点击频率、加购转化率)→结果输出至HBase(存储用户特征)和Redis(缓存实时特征供推荐系统调用)。选择Flink的原因:支持事件时间处理、精确一次语义,适合高并发低延迟的实时场景。(4)模型应用:从HDFS和HBase提取用户历史行为数据(如点击次数、加购商品类别、下单转化率)、商品特征(价格、类别)作为训练集,使用XGBoost或LightGBM训练分类模型(预测购买概率)。模型通过Flin
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年浙江省江山市高二生物下册期末考试考试卷含完整答案【夺冠】
- 2026年吉林省双辽市高二生物下册期末考试测试卷含完整答案【有一套】
- 2025年辽宁省凤城市高二生物下册期末考试模拟卷及完整答案【有一套】
- 2025年江西省樟树市高二生物下册期末考试模拟卷附参考答案【夺分金卷】
- 2026年四川省峨眉山市高二生物下册期末考试试卷及参考答案【综合卷】
- 2026年山东省莱州市高二生物下册期末考试模拟卷(轻巧夺冠)附答案
- 2025年云南省楚雄市高二生物下册期末考试测试卷附答案【研优卷】
- 2026年江苏省江阴市高二生物下册期末考试测试卷(模拟题)附答案
- 2025年青海省德令哈市高二生物下册期末考试试卷重点附答案
- 2026年河北省霸州市高二生物下册期末考试试卷附完整答案(夺冠系列)
- 2026春小学信息技术四年级下册期末练习卷(清华版贵州)含参考答案
- 2026年高考全国1卷语文高考真题含答案
- 2025年东南大学强基计划招生数学试卷试题真题(含答案详解)
- 《如何建立客户信任》课件
- 《策略九问》决定复杂销售成败的九大思考
- 《妊娠剧吐》课件
- 《中级财务会计(一)》期末机考资料
- 北京人朝初一分班考英语试题及答案
- JG∕T 197-2018 预应力混凝土空心方桩
- 2024年中考语文复习课件:作文专题
- 用电简单版的协议书
评论
0/150
提交评论