2025年(工科)大数据技术(数据分析方向)试题及答案_第1页
2025年(工科)大数据技术(数据分析方向)试题及答案_第2页
2025年(工科)大数据技术(数据分析方向)试题及答案_第3页
2025年(工科)大数据技术(数据分析方向)试题及答案_第4页
2025年(工科)大数据技术(数据分析方向)试题及答案_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年(工科)大数据技术(数据分析方向)试题及答案1.单项选择题(每题2分,共20分)1.1在HDFS中,NameNode的主要职责是A.存储实际数据块B.维护文件与数据块的映射关系C.执行Map任务D.执行Reduce任务答案:B1.2下列Python语句执行后,df.groupby('city')['sales'].agg(['sum','mean']).shape的第二个维度是A.1B.2C.3D.4答案:B1.3在SparkSQL中,以下操作不会触发宽依赖的是A.groupByKeyB.reduceByKeyC.mapD.distinct答案:C1.4若随机变量X服从参数λ=3的泊松分布,则P(X=0)等于A.e^(3)B.3e^(3)C.9e^(3)/2D.1e^(3)答案:A1.5在Kmeans算法中,若初始中心点选择不当,最可能导致的后果是A.收敛速度变慢B.聚类结果陷入局部最优C.内存溢出D.维度灾难答案:B1.6下列关于Flink窗口机制的描述正确的是A.滚动窗口允许元素重复出现在不同窗口B.滑动窗口长度必须等于滑动步长C.会话窗口根据间隙时间动态合并D.计数窗口只能基于处理时间答案:C1.7在MySQL中,建立列式存储引擎Table以支持高效分析查询,应选用A.InnoDBB.MyISAMC.MEMORYD.ColumnStore答案:D1.8若逻辑回归模型使用L2正则,当正则系数C→0时,模型权重将A.趋近于0B.趋近于无穷大C.不变D.先增后减答案:A1.9在Kafka中,保证消息全局有序需A.单分区+单消费者B.多分区+多消费者C.开启幂等生产D.开启事务消息答案:A1.10下列评价指标对类别不平衡最不敏感的是A.AccuracyB.F1scoreC.AUCROCD.Precision答案:C2.多项选择题(每题3分,共15分;多选少选均不得分)2.1下列属于Hadoop生态组件且可直接提供SQL接口的有A.HiveB.PigC.ImpalaD.HBaseE.Drill答案:ACE2.2在Pythonpandas中,能用于检测缺失值的函数包括A.isnaB.isnullC.notnaD.dropnaE.fillna答案:ABC2.3关于PCA降维,正确的有A.主成分方向由协方差矩阵特征向量决定B.各主成分之间线性无关C.保留方差最大方向D.必须标准化原始变量E.可用于非线性流形降维答案:ABCD2.4以下属于时间序列平稳性检验方法的有A.ADFB.KPSSC.LjungBoxD.JarqueBeraE.PP答案:ABE2.5在TensorFlow2.x中,可用来实现模型训练早停的策略有A.EarlyStoppingcallbackB.ReduceLROnPlateauC.ModelCheckpointD.TensorBoardE.CSVLogger答案:AB3.填空题(每空2分,共20分)3.1在Spark中,RDD的________操作会触发实际计算,而________操作仅记录转换关系。答案:行动,转换3.2若某电商订单表order(order_id,user_id,amount,order_time)需按用户最近30天消费总额进行统计,SQL中过滤条件应写作order_time>=date_sub(current_date,________)。答案:303.3在Pythonsklearn中,使用________函数可对数值特征做MinMax归一化,使得结果落在区间________内。答案:MinMaxScaler,[0,1]3.4若随机森林模型中基树数量为n,每棵树采用平方误差,则回归预测的最终输出为所有基树预测的________。答案:平均值3.5在Hive中,开启________属性可使查询结果显示列名,提升可读性。答案:hive.cli.print.header3.6若某分类模型在测试集上TP=80,FP=20,TN=90,FN=10,则其精确率P=________,召回率R=________。答案:0.8,0.88893.7在Kafka2.8之后,若需弃用Zookeeper,应启用________模式。答案:KRaft3.8在FlinkTableAPI中,将流表注册为临时视图使用的语句为tableEnv.createTemporaryView("view_name",________)。答案:table4.简答题(共25分)4.1(封闭型,5分)简述数据仓库与数据湖在数据模式、存储格式及典型使用场景上的三点差异。答案:1.数据模式:数据仓库采用写时模式(SchemaonWrite),数据湖采用读时模式(SchemaonRead)。2.存储格式:数据仓库以结构化、列式存储为主(如ORC、Parquet),数据湖可保存原始格式(如JSON、CSV、图像、视频)。3.使用场景:数据仓库面向BI报表、固定分析;数据湖面向探索式分析、机器学习、实时计算。4.2(开放型,5分)某互联网APP日活1000万,平均每人产生200条日志,每条日志约0.5KB。请估算原始日志每日存储量(GB),并给出采用Parquet+Snappy压缩后的预期压缩比及最终存储量。答案:原始量=1×10^7×200×0.5KB=1×10^9KB≈976562MB≈953.7GB。Parquet+Snappy对日志类数据常见压缩比5:1~8:1,取6:1,则压缩后≈953.7/6≈159GB。4.3(封闭型,5分)写出在SparkDataFrame中完成“缺失值用中位数填充+标准化”的完整Python代码片段,假设列名为"score"。答案:frompyspark.ml.featureimportImputer,StandardScalerfrompyspark.mlimportPipelineimputer=Imputer(inputCols=["score"],outputCols=["score_imp"],strategy="median")scaler=StandardScaler(inputCol="score_imp",outputCol="score_scaled",withMean=True,withStd=True)pipeline=Pipeline(stages=[imputer,scaler])model=pipeline.fit(df)df_clean=model.transform(df)4.4(开放型,5分)说明在A/B测试中,为何不能仅比较两组均值差异,还需计算p值或置信区间,并指出若样本量极大时可能出现的问题。答案:仅比较均值无法量化随机波动带来的不确定性;p值或置信区间可判断差异是否统计显著。样本量极大时,即使微小差异也会获得极低p值,导致“统计显著但实际无业务价值”的误判,需结合效应量与业务阈值综合评估。4.5(封闭型,5分)列举Flink实现端到端exactlyonce语义所需的三要素,并简要解释。答案:1.可重放的数据源:如Kafka,支持按offset重新消费。2.状态一致性快照:通过分布式快照(checkpoint)保存算子状态。3.幂等或两阶段提交的外部Sink:确保故障恢复时不会重复写入。5.应用题(共60分)5.1计算类(15分)某零售连锁提供2024年1月每日销售额数据(单位:万元)如下:[280,300,310,290,320,330,340,350,360,370,380,390,400,410,420,430,440,450,460,470,480,490,500,510,520,530,540,550,560,570,580](1)采用3日移动平均法预测第4日销售额,并给出平均绝对误差MAE(保留两位小数)。(2)若使用指数平滑法,α=0.3,初始值S1=280,求第5日预测值。(3)比较两种方法在第2~31日预测上的MAE,指出哪种更优并解释原因。答案:(1)第4日预测=(280+300+310)/3=296.67,实际290,误差=6.67;同理计算2~31日全部预测,得MAE=18.92万元。(2)S2=0.3300+0.7280=286;S3=0.3310+0.7286=293.2;S4=0.3290+0.7293.2=292.24;第5日预测=S4=292.24万元。(3)指数平滑MAE=17.35万元,小于移动平均,故指数平滑更优;原因:数据呈单调上升趋势,指数平滑给予近期数据更高权重,能更快跟踪趋势。5.2分析类(15分)给定用户行为表behavior(uid,item_id,category,behavior_type,ts),其中behavior_type包含pv、buy、cart、fav。请用SQL完成:(1)计算20240501当日各品类转化率(buy/pv)。(2)找出转化率排名前三的品类,并输出其carttobuy率(buy/cart)。(3)指出上述结果在业务上的两点可解释现象,并提出一条改进建议。答案:(1)SELECTcategory,SUM(CASEWHENbehavior_type='buy'THEN1ELSE0END)/NULLIF(SUM(CASEWHENbehavior_type='pv'THEN1ELSE0END),0)ASbuy_rateFROMbehaviorWHEREDATE(ts)='20240501'GROUPBYcategory;(2)WITHtAS(SELECTcategory,SUM(CASEWHENbehavior_type='buy'THEN1ELSE0END)1.0/NULLIF(SUM(CASEWHENbehavior_type='pv'THEN1ELSE0END),0)ASbuy_rate,SUM(CASEWHENbehavior_type='buy'THEN1ELSE0END)1.0/NULLIF(SUM(CASEWHENbehavior_type='cart'THEN1ELSE0END),0)AScart_buy_rateFROMbehaviorWHEREDATE(ts)='20240501'GROUPBYcategory)SELECTcategory,buy_rate,cart_buy_rateFROMtORDERBYbuy_rateDESCLIMIT3;(3)现象:a.高转化品类通常cart_buy率也高,说明用户决策路径短;b.个别品类pv高但转化低,可能存在价格或体验壁垒。建议:对低转化品类推出限时满减,缩短决策链路,并优化详情页加载速度。5.3综合类(30分)某市地铁闸机每分钟记录一次乘客OD数据表trip(card_id,enter_station,exit_station,enter_time,exit_time)。数据量日均5亿条,保存两年。要求:1.构建离线+实时数仓,给出分层模型(ODS、DWD、DWS、ADS)各层表设计、分区策略、存储格式与压缩方式。2.设计实时计算链路,统计过去5分钟各站点出站客流,延迟<30秒,写出Flink主流程伪代码。3.建立预测模型,预测未来1小时各站点进站客流,给出特征工程、算法选择、评估指标及潜在难点。4.若需支持“一键查询任意OD对在2024年任一小时客流量”,请给出ADS表核心字段、索引设计与预计存储量估算。答案:1.分层设计:ODS:trip_raw(保持原始字段),按天分区,存储为Parquet+Snappy,压缩后约1.2TB/日。DWD:trip_clean(脱敏、字段标准化),增加station维表外键,仍按天分区,Parquet+Snappy。DWS:a.station_outflow_5min(station,window_start,window_end,outflow_cnt),按小时分区+桶排序station,ORC+Zlib,压缩比8:1。b.station_inflow_5min同理。ADS:a.od_hourly(enter_station,exit_station,year,month,day,hour,passenger_cnt),主键(enter_station,exit_station,hour),分区(year,month),Parquet+Snappy,预聚合后约30GB/年。2.Flink伪代码:env.setParallelism(512)tEnv.executeSql("""CREATETABLEsrc(card_idSTRING,exit_stationSTRING,exit_timeTIMESTAMP(3),WATERMARKFORexit_timeASexit_timeINTERVAL'5'SECOND)WITH('connector'='kafka','topic'='trip_realtime','properties.bootstrap.servers'='kafka:9092','format'='json')""")tEnv.executeSql("""CREATETABLEsink(stationSTRING,window_startTIMESTAMP(3),window_endTIMESTAMP(3),outflowBIGINT,PRIMARYKEY(station,window_start)NOTENFORCED)WITH('connector'='jdbc','url'='jdbc:mysql://mysql:3306/realtime','tablename'='station_outflow_5min','driver'='com.mysql.c

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论