(2025年)大数据分析与应用题库及答案_第1页
(2025年)大数据分析与应用题库及答案_第2页
(2025年)大数据分析与应用题库及答案_第3页
(2025年)大数据分析与应用题库及答案_第4页
(2025年)大数据分析与应用题库及答案_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(2025年)大数据分析与应用题库及答案一、单项选择题(每题2分,共20分)1.以下哪项不属于大数据的“5V”特征?()A.Volume(大量)B.Velocity(高速)C.Variety(多样)D.Validity(有效)答案:D(解析:大数据的5V特征为Volume、Velocity、Variety、Value、Veracity,有效性(Validity)并非标准特征。)2.在Hadoop生态中,负责资源管理和任务调度的组件是()A.HDFSB.YARNC.MapReduceD.HBase答案:B(解析:YARN(YetAnotherResourceNegotiator)是Hadoop的资源管理系统,负责集群资源的分配和任务调度;HDFS是分布式文件系统,MapReduce是计算框架,HBase是列式数据库。)3.以下哪种数据清洗方法适用于处理“年龄”字段中出现的“200岁”异常值?()A.直接删除记录B.用均值填充C.视为缺失值并插值D.检查数据来源并修正答案:D(解析:异常值需先确认是否为记录错误,若为数据采集失误,应优先修正原始数据;直接删除或填充可能丢失关键信息。)4.Spark中RDD(弹性分布式数据集)的核心特性是()A.不可变且可分区B.实时计算C.内存持久化D.自动容错答案:A(解析:RDD是Spark的核心抽象,具有不可变性(一旦创建不可修改)、可分区(分布式存储)、容错性(通过血统Lineage重建)等特性;内存持久化是优化手段,非核心特性。)5.以下哪项属于非结构化数据?()A.关系型数据库表B.传感器日志文件C.Excel表格D.客户信息表单答案:B(解析:非结构化数据无预定义格式,如文本、日志、图片等;结构化数据通常存储于关系型数据库或表格中。)6.数据湖(DataLake)与数据仓库(DataWarehouse)的主要区别在于()A.数据湖仅存储结构化数据,数据仓库存储多类型数据B.数据湖面向业务分析,数据仓库面向数据探索C.数据湖存储原始数据,数据仓库存储经过清洗和建模的数据D.数据湖使用SQL查询,数据仓库使用NoSQL答案:C(解析:数据湖存储原始、多类型数据(结构化/非结构化),支持灵活分析;数据仓库存储经过ETL处理的结构化数据,面向业务报表。)7.在机器学习中,若模型在训练集上表现很好但在测试集上表现差,可能的原因是()A.欠拟合B.过拟合C.数据不平衡D.特征选择不当答案:B(解析:过拟合指模型过度学习训练数据的细节,导致泛化能力差;欠拟合则是模型无法捕捉数据规律。)8.以下哪种工具适用于实时流数据处理?()A.HiveB.FlinkC.HBaseD.Pig答案:B(解析:Flink是流处理框架,支持低延迟、高吞吐的实时数据处理;Hive是数据仓库工具,HBase是数据库,Pig是脚本语言。)9.数据可视化中,用于展示多个变量间相关性的图表是()A.柱状图B.散点图矩阵C.折线图D.热力图答案:B(解析:散点图矩阵可同时展示多变量两两之间的相关性;热力图通常用于展示二维数据的密度或频率。)10.联邦学习(FederatedLearning)的核心目标是()A.提升模型训练速度B.保护数据隐私C.降低计算成本D.整合多源数据答案:B(解析:联邦学习通过在本地训练模型并仅传输模型参数(而非原始数据),解决数据隐私与共享的矛盾。)二、填空题(每空2分,共20分)1.大数据处理的典型流程包括数据采集、________、数据存储、________、数据可视化。答案:数据清洗;数据分析2.Hadoop分布式文件系统(HDFS)的默认块大小是________MB。答案:1283.Spark的计算模型基于________(填英文缩写),其核心操作包括转换(Transformation)和________(填英文)。答案:RDD;Action4.数据仓库的四大特性是面向主题、________、________、随时间变化。答案:集成的;稳定的5.常用的非关系型数据库(NoSQL)类型包括键值存储、________、列式存储、________。答案:文档存储;图存储6.机器学习中,监督学习的典型任务包括________和回归,无监督学习的典型任务包括聚类和________。答案:分类;降维三、简答题(每题8分,共40分)1.简述数据清洗的主要步骤及常见方法。答案:数据清洗的核心目标是提高数据质量,步骤包括:(1)识别数据问题:通过统计分析(如缺失值比例、异常值分布)或可视化(如箱线图)定位缺失值、异常值、重复值;(2)处理缺失值:可选择删除(缺失率>70%且无替代信息)、填充(均值/中位数填充、插值法、模型预测填充);(3)纠正异常值:检查数据来源(如“年龄200岁”可能是输入错误),修正或转换(如将“200”修正为“20”);(4)处理重复值:通过唯一标识(如ID)去重;(5)标准化格式:统一日期格式(如“2023/10/1”改为“2023-10-01”)、单位(如“kg”与“公斤”统一)。2.对比HadoopMapReduce与Spark在计算模型上的差异,并说明各自适用场景。答案:差异:(1)计算方式:MapReduce基于“磁盘-计算-磁盘”模式,中间结果写入磁盘;Spark基于内存计算(RDD可缓存至内存),仅在需要时落盘,减少I/O开销。(2)延迟:MapReduce适合批处理(分钟级到小时级),Spark适合实时/近实时处理(秒级到分钟级)。(3)编程模型:MapReduce仅支持Map和Reduce两个阶段,逻辑复杂;Spark支持丰富的转换(如filter、join)和动作(如count、collect),代码更简洁。(4)容错机制:MapReduce通过重新执行任务容错;Spark通过RDD的血统(Lineage)重建丢失分区,效率更高。适用场景:MapReduce适合大规模离线批处理(如日志归档);Spark适合需要多次迭代计算的场景(如机器学习、图计算)或实时流处理(结合SparkStreaming)。3.解释数据湖(DataLake)与数据仓库(DataWarehouse)在存储结构、用户群体和处理阶段上的区别。答案:(1)存储结构:数据湖存储原始、多类型数据(结构化如CSV、非结构化如文本/图片),保留原始格式;数据仓库存储经过ETL处理的结构化数据(如关系型表),遵循严格的模式(Schema-on-Write)。(2)用户群体:数据湖主要服务数据科学家、工程师(支持探索性分析);数据仓库主要服务业务分析师、决策者(支持固定报表查询)。(3)处理阶段:数据湖在“读时模式”(Schema-on-Read)下处理,即分析时定义结构;数据仓库在“写时模式”下处理,入库前完成清洗和建模。4.什么是特征工程?列举至少3种特征工程的常用方法,并说明其作用。答案:特征工程是从原始数据中提取、转换、筛选特征,以提升模型性能的过程。常用方法:(1)特征提取:将非结构化数据转换为结构化特征(如文本的词袋模型、TF-IDF),解决模型无法直接处理非结构化数据的问题;(2)特征缩放:对数值特征进行标准化(Z-score)或归一化(Min-Max),避免模型对大尺度特征过度敏感;(3)特征分箱:将连续变量离散化(如年龄分为“0-18”“19-30”),减少噪声影响并提升模型鲁棒性;(4)特征组合:将多个特征交叉(如“月收入×工作年限”),捕捉变量间的交互效应;(5)特征选择:通过统计方法(如卡方检验)或模型(如随机森林的特征重要性)筛选关键特征,降低维度和计算成本。5.说明Kafka在大数据流处理中的作用,并描述其核心组件。答案:Kafka是高吞吐、低延迟的分布式消息队列,主要用于实时数据流的发布与订阅,解决系统间数据传输的“流量削峰”和“异步解耦”问题。核心组件:(1)生产者(Producer):向Kafka主题(Topic)发送消息;(2)消费者(Consumer):从主题订阅消息并处理;(3)消费者组(ConsumerGroup):多个消费者组成组,实现消息的负载均衡(每个消息仅被组内一个消费者处理);(4)代理(Broker):Kafka集群中的节点,负责存储消息并管理分区(Partition);(5)主题(Topic):消息的逻辑分类,每个主题可划分为多个分区,支持并行处理;(6)分区(Partition):主题的物理存储单元,消息按顺序写入,支持分布式存储和消费。四、应用题(每题10分,共20分)1.某电商平台需分析用户购物车放弃行为(用户将商品加入购物车但未下单),请设计大数据分析方案,包括数据来源、关键指标和分析步骤。答案:(1)数据来源:用户行为日志(页面浏览、加购、下单时间戳)、商品属性(价格、品类)、用户信息(注册时间、历史购买频次)、会话信息(设备类型、访问渠道)。(2)关键指标:-购物车放弃率=(加购用户数-下单用户数)/加购用户数×100%;-平均放弃时间:从加购到离开的时间差;-高放弃品类:按品类统计放弃率;-设备/渠道差异:不同设备(PC/手机)、渠道(APP/网页)的放弃率对比。(3)分析步骤:①数据采集:通过埋点工具(如GoogleAnalytics)收集用户行为日志,存储至HDFS或数据湖;②数据清洗:过滤无效会话(如停留时间<10秒),处理缺失的时间戳(插值填充);③特征构建:计算用户加购到放弃的时间间隔、历史购买转化率、商品折扣力度等;④模型训练:使用逻辑回归或随机森林预测用户是否会放弃购物车,识别关键影响因素(如商品价格、页面加载速度);⑤策略优化:针对高放弃品类推出限时折扣,优化手机端购物车页面加载速度,向高风险用户推送提醒消息。2.给定以下Python代码片段,实现用Pandas处理缺失值的任务:-读取CSV文件“sales.csv”(包含字段:日期、产品ID、销售额、地区);-检测“销售额”字段的缺失值;-对缺失值进行填充(要求:按“地区”分组,用各组销售额的中位数填充);-输出处理后的数据前5行。答案:```pythonimportpandasaspd读取数据df=pd.read_csv('sales.csv')检测缺失值(返回布尔型DataFrame)missing_sales=df['销售额'].isnull()print("缺失值数量:",missing_sales.sum())按地区分组,用中位数填充缺失值df['销售额']=df.groupby('地区')['销售额'].transform(lambdax:x.fillna(x.median()))输出前5行print(df.head())```3.某视频平台需评估用户推荐模型的效果,模型输出为用户对视频的“点击”(1)或“不点击”(0)预测。已知测试集中实际点击用户100人,未点击用户900人;模型预测点击用户150人(其中实际点击80人),预测未点击用户850人(其中实际未点击820人)。计算准确率、精确率、召回率和F1-score,并说明模型在该场景下的表现。答案:混淆矩阵:-真阳性(TP)=80(预测点击且实际点击)-假阳性(FP)=150-80=70(预测点击但实际未点击)-真阴性(TN)=820(预测未点击且实际未点击)-假阴性(FN)=100-80=20(预测未点击但实际点击)计算指标:-准确率(Accuracy)=(TP+TN)/(TP+TN+FP+FN)=(80+820)/(100+900)=900/1000=90%;-精确率(Precision)=TP/(TP+FP)=80/(80+70)=80/150≈53.33%;-召回率(Re

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论