2025年数据科学与大数据分析考试试卷及答案_第1页
2025年数据科学与大数据分析考试试卷及答案_第2页
2025年数据科学与大数据分析考试试卷及答案_第3页
2025年数据科学与大数据分析考试试卷及答案_第4页
2025年数据科学与大数据分析考试试卷及答案_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年数据科学与大数据分析考试试卷及答案一、单项选择题(每题2分,共20分)1.以下哪种场景最可能导致数据倾斜(DataSkew)?A.对均匀分布的用户ID进行分组统计B.对长尾分布的商品ID进行JOIN操作C.对时间戳字段进行范围过滤D.对数值型特征进行标准化处理答案:B2.特征选择中,卡方检验(Chi-squareTest)主要用于评估:A.连续特征与连续目标的相关性B.类别特征与类别目标的相关性C.连续特征与类别目标的相关性D.类别特征与连续目标的相关性答案:B3.若某分类模型在训练集上准确率为98%,验证集上准确率为65%,最可能的原因是:A.数据存在严重缺失值B.模型欠拟合C.模型过拟合D.特征维度不足答案:C4.Spark中,以下哪项操作属于宽依赖(WideDependency)?A.map()B.filter()C.groupByKey()D.flatMap()答案:C5.混淆矩阵中,TruePositiveRate(TPR)的计算公式是:A.TP/(TP+FN)B.TP/(TP+FP)C.TN/(TN+FP)D.TN/(TN+FN)答案:A6.L2正则化(岭回归)的主要作用是:A.缓解特征多重共线性B.提高模型计算效率C.增加模型复杂度D.处理类别不平衡问题答案:A7.数据标准化(Z-score)与归一化(Min-Max)的主要区别在于:A.标准化保持数据分布形态,归一化改变分布B.标准化将数据缩放到[0,1],归一化转换为均值0、方差1C.标准化适用于有极值的数据,归一化适用于均匀分布数据D.标准化对异常值更敏感,归一化不敏感答案:A8.时间序列分析中,ARIMA模型的“MA”代表:A.自回归(AutoRegressive)B.移动平均(MovingAverage)C.差分(Integrated)D.季节性(Seasonal)答案:B9.K-means聚类算法的主要缺点是:A.无法处理高维数据B.对初始聚类中心敏感C.只能识别凸形状簇D.计算复杂度为O(n²)答案:B10.Hadoop生态中,HBase的核心特性是:A.高吞吐量批量数据处理B.实时SQL查询C.列式存储与随机读写D.分布式文件存储答案:C二、填空题(每题2分,共20分)1.数据清洗中,处理缺失值的常用方法包括删除记录、插补(如均值/中位数填充)和__________(如使用模型预测缺失值)。答案:模型填充2.特征工程中,将“2025-03-1514:30:00”转换为“小时”(14)和“是否周末”(0/1)的过程属于__________。答案:特征提取3.逻辑回归的损失函数通常使用__________,其核心是最大化似然函数。答案:交叉熵损失4.Spark的核心抽象是RDD(弹性分布式数据集),而DataFrame是带有__________的RDD。答案:模式信息(Schema)5.假设检验中,当原假设为真时拒绝原假设的错误称为__________(TypeIError)。答案:第一类错误6.大数据存储层常用技术中,HDFS适合存储__________,而HBase适合存储实时读写的稀疏数据。答案:大文件(或批量非结构化数据)7.分类模型评估中,F1分数是精确率(Precision)和__________的调和平均。答案:召回率(Recall)8.主成分分析(PCA)的核心是通过__________将高维数据投影到低维空间,保留最大方差。答案:正交变换(或协方差矩阵特征分解)9.时间序列的经典分解模型包括趋势(Trend)、季节(Seasonal)、周期(Cyclical)和__________成分。答案:随机(或残差)10.分布式计算框架中,Flink的核心特性是__________,适合实时流数据处理。答案:事件时间(EventTime)处理与状态管理三、简答题(每题8分,共40分)1.简述数据清洗的主要步骤及各步骤的常用方法。答案:数据清洗主要包括四步:(1)缺失值处理:方法有删除小比例缺失的记录、用均值/中位数/众数填充、模型预测填充(如KNN插值);(2)异常值检测:基于统计(Z-score、IQR)、基于模型(孤立森林)、基于距离(KNN);(3)重复值处理:通过唯一标识(如用户ID)去重;(4)不一致值处理:统一格式(如日期“2025/3/15”与“2025-03-15”)、修正错误(如年龄“200”修正为“20”)。2.说明特征工程在机器学习中的作用,并列举3种关键技术及其应用场景。答案:特征工程通过转换原始数据为模型可理解的特征,直接影响模型性能。关键技术:(1)特征编码:对类别特征(如“性别”)使用独热编码(One-Hot)或目标编码(TargetEncoding),解决模型无法处理文本的问题;(2)特征分箱:对连续特征(如“年龄”)离散化为“0-18”“19-30”等区间,缓解噪声影响并提升模型鲁棒性;(3)特征交互:构造交叉特征(如“月收入×消费频次”),捕捉变量间的非线性关系,适用于广告点击率预测等场景。3.比较随机森林(RandomForest)与XGBoost的异同。答案:相同点:均为集成学习方法,基于决策树构建;通过多棵树的投票(分类)或平均(回归)提升性能;可处理分类与回归问题。不同点:(1)集成方式:随机森林是Bagging(并行训练多棵树),XGBoost是Boosting(串行训练,每棵树修正前序错误);(2)正则化:XGBoost显式加入正则项(树复杂度、L1/L2)防止过拟合,随机森林依赖子采样;(3)计算效率:XGBoost支持并行化(树的列采样)和近似分裂算法,大规模数据下更快;(4)缺失值处理:XGBoost自动学习缺失值的分裂方向,随机森林需手动填充。4.简述SparkRDD与DataFrame的区别及适用场景。答案:区别:(1)结构:RDD是无模式的分布式对象集合,DataFrame是带Schema的结构化数据(类似关系表);(2)操作:RDD通过转换(map、filter)操作,DataFrame支持SQL-like操作(select、groupBy)和优化(Catalyst优化器);(3)内存效率:DataFrame使用列存储(如Tungsten引擎),内存占用更低。适用场景:RDD适合需要细粒度控制数据的场景(如复杂迭代算法);DataFrame适合结构化数据处理(如日志分析、报表提供),性能更优。5.说明模型过拟合与欠拟合的表现,并列举至少3种解决方法。答案:表现:过拟合时训练集误差小、验证集误差大(模型记住噪声);欠拟合时训练集和验证集误差均大(模型复杂度不足)。解决方法:(1)过拟合:增加数据量、正则化(L1/L2)、早停(EarlyStopping)、特征选择(减少冗余特征)、Dropout(神经网络);(2)欠拟合:增加模型复杂度(如增加树的深度、神经网络层数)、特征工程(构造高阶特征)、更换更复杂模型(如用GBDT替代线性回归)。四、应用题(每题15分,共30分)1.某电商平台提供用户行为数据(字段:用户ID、访问时间、页面类型、停留时长、是否下单),需构建模型预测用户是否下单。请设计从数据清洗到模型构建的完整流程,说明每一步的关键技术。答案:流程如下:(1)数据清洗:①缺失值处理:对“停留时长”缺失的记录,若比例<5%则删除,否则用同页面类型的均值填充;②异常值检测:用IQR法识别“停留时长”的异常值(如>Q3+1.5IQR),修正为Q3+1.5IQR或标记为单独类别;③重复值处理:按“用户ID+访问时间”去重,避免同一行为重复记录。(2)特征工程:①时间特征:从“访问时间”提取小时、星期几、是否节假日;②页面特征:统计用户近7天访问各页面的次数/时长(如“商品详情页访问次数”);③用户画像:计算用户历史下单率、平均停留时长;④类别编码:对“页面类型”使用目标编码(避免高基数独热编码的维度爆炸);⑤特征选择:用信息增益(InfoGain)或LASSO回归筛选重要特征。(3)数据划分:按时间分层抽样(7:2:1)划分为训练集、验证集、测试集,避免数据穿越。(4)模型训练:选择XGBoost(处理非线性关系和类别不平衡),调整参数(如max_depth=5、learning_rate=0.1、scale_pos_weight=负样本/正样本比例);用5折交叉验证优化超参数。(5)模型评估:用AUC(区分正负样本能力)、F1分数(平衡精确率与召回率)、KS值(风控场景常用,衡量正负样本分布差异)评估,若AUC<0.7则重新检查特征或更换模型(如LightGBM)。2.用Spark处理某网站日志数据(格式:时间戳、IP、请求URL、状态码),需统计“过去7天内访问次数Top10的IP”。要求写出关键代码逻辑(伪代码),并说明如何处理数据倾斜问题。答案:关键代码逻辑:(1)读取日志数据:vallogs=spark.read.textFile("hdfs://log_path")(2)解析数据并过滤过去7天记录:valsevenDaysAgo=System.currentTimeMillis()72436001000valfilteredLogs=logs.map(line=>{valparts=line.split("")valtimestamp=parts(0).toLongvalip=parts(1)(timestamp,ip)}).filter{case(ts,ip)=>ts>=sevenDaysAgo}(3)统计IP访问次数:valipCounts=filteredLogs.map{case(ts,ip)=>(ip,1)}.reduceByKey(_+_)(4)取Top10:valtop10IPs=ipCounts.sortBy(-_._2).take(10)(5)输出结果:top10IPs.foreach(println)数据倾斜处理:若存在某个IP访问次数极多(如攻击IP),导致该分区计算缓慢:①随机前缀:对IP添加0-9的随机数作为前缀(如“192.168.1.1_3”),先按前缀分组统计,再按原IP聚合;②调整分区数:增加reduce任务数(如set("spark.sql.shuffle.partitions","200")),分散数据;③过滤异常IP:在统计前通过黑IP库过滤已知攻击IP,减少倾斜影响。五、综合题(20分)某金融风控模型上线3个月后,发现AUC从0.85下降至0.72,KS值从0.45下降至0.30,业务方反馈误拒率(将好用户判断为坏用户)显著增加。请从数据层面、模型层面、工程层面分析可能原因,并给出优化建议(需结合具体指标说明效果评估方法)。答案:(1)数据层面:可能原因:①数据漂移(DataDrift):用户行为变化(如疫情后消费习惯改变)导致特征分布偏移(如“月消费金额”均值下降),可通过PSI(PopulationStabilityIndex)检测,若PSI>0.25说明分布显著变化;②标签漂移(LabelDrift):坏用户定义更新(如逾期30天变为逾期60天),导致训练标签与实际标签不一致;③特征时效性:部分特征(如“近30天查询次数”)未及时更新,模型依赖过时信息。优化建议:①定期计算特征PSI(如每月),对PSI>0.1的特征重新训练模型;②核对标签定义,确保线上线下一致;③增加实时特征(如通过Flink实时计算“近1小时登录次数”),提升特征时效性。(2)模型层面:可能原因:①模型过拟合历史数据,未捕捉新模式;②未动态更新模型(如3个月未重新训练),无法适应新数据分布;③类别不平衡加剧(如坏用户占比从5%降至2%),模型倾向于预测“好用户”,导致召回率下降。优化建议:①改为增量训练(IncrementalLearning),每周用新数据微调模型;②引入自适应学习率(如XGBoost的learning_rate_decay),降低旧数据权重;③调整类别权重(scale_pos_weight=坏用户/好用户比例),或使用SMOTE过采样提供合成坏样本,提升对坏用户的识别能力。评估时关注召回率(Recall,降低误拒)和F2分数(更关注召回)。(3)工程层面:可能原因:①特征计算逻辑线上线下不一致(如“近7天”线上用自然日,线下用滑动窗口);②模型部署时版本错误(如测试用XGBoost1.7,线上用1.6,参数解析差异);③实时数据延迟(如日志写入HDFS延迟2小时),模型使用滞后数据。优化建议:①通过

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论