版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年数据挖掘实操案例练习题及答案1.单选题(每题2分,共20分)1.1在Python中使用pandas读取CSV文件时,若文件编码为GBK,应使用的参数是A.encoding='utf8'B.encoding='gbk'C.encoding='ascii'D.encoding='latin1'答案:B1.2下列指标中,对类别不平衡最不敏感的是A.AccuracyB.F1scoreC.AUCROCD.Precision答案:C1.3在Kmeans聚类中,若初始质心随机选择导致结果不稳定,可采取的改进算法是A.DBSCANB.GaussianMixtureC.Kmeans++D.Agglomerative答案:C1.4使用Apriori算法时,若最小支持度阈值设置过高,最可能出现的后果是A.频繁项集数量爆炸B.无法生成任何频繁项集C.规则置信度降低D.计算时间指数增长答案:B1.5在XGBoost中控制过拟合的核心参数是A.subsampleB.colsample_bytreeC.max_depthD.eta答案:C1.6对高基数类别变量进行目标编码时,为降低过拟合风险,应使用A.留一法编码B.均值编码C.贝叶斯目标编码D.独热编码答案:C1.7在SparkMLlib中,用于特征标准化的类是A.StandardScalerB.MinMaxScalerC.MaxAbsScalerD.Normalizer答案:A1.8若时间序列呈现线性增长且季节性周期为7,应选用的baseline模型是A.简单指数平滑B.HoltWinters加法模型C.ARIMA(0,1,0)D.Prophet线性增长+年度季节答案:B1.9在深度召回模型中,YouTubeDNN召回网络最后一层激活函数通常选用A.ReLUB.SigmoidC.SoftmaxD.Tanh答案:C1.10使用孤立森林检测异常时,异常样本的平均路径长度A.远高于正常样本B.远低于正常样本C.与正常样本相等D.与样本维度无关答案:B2.多选题(每题3分,共15分,每题至少有两个正确答案,多选少选均不得分)2.1下列属于特征选择过滤法的是A.方差选择B.卡方检验C.递归特征消除D.互信息答案:ABD2.2关于LightGBM的直方图算法,以下说法正确的是A.将连续特征离散化为k个桶B.显著降低内存占用C.支持类别特征直接输入D.桶数量越多训练越快答案:ABC2.3在文本分类任务中,使用BERT微调时需注意A.学习率预热B.最大序列长度不宜过长C.冻结全部底层参数D.使用AdamW优化器答案:ABD2.4下列可用于评估聚类算法稳定性的指标有A.AdjustedRandIndexB.NormalizedMutualInformationC.SilhouetteCoefficientD.JaccardDistance答案:ABC2.5在构建实时特征平台时,为做到端到端exactlyonce,需依赖A.Kafka幂等生产者B.FlinkcheckpointC.Redis事务D.SparkStreamingWAL答案:AB3.填空题(每空2分,共20分)3.1在Python中,使用sklearn的Pipeline时,若需对数值和类别列分别处理,应采用的复合转换器类名为________。答案:ColumnTransformer3.2假设某电商用户行为表结构为(user_id,item_id,behavior,ts),计算用户最近7天点击去重商品数目的SQL语句中,过滤条件应写ts≥________。答案:current_timestampinterval7day3.3在XGBoost中,若设置scale_pos_weight=10,则正样本权重被放大为原来的________倍。答案:103.4使用TensorFlow2.x保存SavedModel时,模型签名默认方法名为________。答案:serving_default3.5在Prophet模型中,若节假日效应窗口设为±3天,则每个节假日将额外引入________个回归变量。答案:73.6在Spark中,DataFrame的repartition(200)操作会导致数据产生________个分区。答案:2003.7使用孤立森林时,若树数量为t,每棵树采样样本数为s,则总时间复杂度为________。答案:O(t·s·logs)3.8在协同过滤中,若用户物品矩阵为R∈ℝ^{m×n},采用隐语义模型分解为P∈ℝ^{m×k}与Q∈ℝ^{n×k},则预测矩阵R̂=________。答案:PQ^T3.9在深度CTR模型DeepFM中,FM部分与Deep部分共享的输入是________。答案:embedding向量3.10使用pandas的merge函数时,若需保留左表全部记录,参数how应设为________。答案:left4.简答题(共25分)4.1(封闭型,6分)简述GBDT与随机森林在偏差方差权衡上的差异。答案:GBDT通过boosting串行降低偏差,每棵树拟合残差,模型复杂度高,方差较低;随机森林通过bagging并行降低方差,每棵树为强分类器,偏差较高,方差低。因此GBDT更关注降低偏差,随机森林更关注降低方差。4.2(开放型,9分)某视频平台拟构建“下一个视频推荐”实时召回系统,日活1亿,平均每人刷新30次,每次需返回200候选。请给出技术方案,包括特征、模型、线上服务及冷启动策略,并估算资源。答案:特征:用户侧近200条行为序列(视频id、时长、完播率)、上下文(时间、网络、设备)、视频侧(标签、作者、热度、freshness)。模型:双塔DNN,用户塔输入行为序列经SelfAttention池化后接3层MLP,视频塔输入多模态特征经3层MLP,输出64维embedding,内积得分。负采样采用batch内负样本+随机负样本1:5。训练:TensorFlow2.x,GPUA100×8,分布式参数服务器,每日增量训练,学习率0.001,batch=8192,训练3小时。线上:FaissIVF1024,PQ64索引,内存≈200万视频×64×4B≈512MB,复制32副本,每台64GB内存可存128副本,需256台。召回链路:用户请求→Redis取用户embedding→Faiss检索→粗排200→精排模型→返回。冷启动:新用户采用热门+地域+人群embedding平均;新视频采用作者历史均值+内容语义embedding。QPS:1亿×30/86400≈35000,单副本Faiss可扛2000QPS,需18副本,远小于32,冗余充足。4.3(封闭型,5分)给定二分类问题,正负样本比1:99,若采用逻辑回归,写出代价敏感损失函数并解释权重设置。答案:L=−∑_{i=1}^N[w_1y_ilogp_i+w_0(1−y_i)log(1−p_i)]设w_1=99,w_0=1,使正样本权重放大99倍,等价于在损失层面将正样本复制99次,从而抵消类别不平衡导致的梯度偏置。4.4(开放型,5分)解释在联邦学习场景下,FedAvg算法为何在NonIID数据上收敛变慢,并提出两种改进思路。答案:NonIID导致本地更新方向与全局最优方向差异大,局部模型偏离全局,平均后产生“权重漂移”。改进:1)FedProx,在本地目标加入近端项μ‖w−w^t‖²,限制本地更新幅度;2)客户端层级动量矫正,如FedNova,将本地更新量按样本数归一化后再聚合,消除异质性带来的尺度差异。5.应用题(共40分)5.1计算类(12分)某电商促销期间,用户转化率从2%提升到5%,日均流量100万,客单价200元,毛利率20%。若促销补贴为每单10元,计算单日净利润变化,并给出盈亏平衡所需最低转化率。答案:原利润:100万×2%×200×20%=80万元新利润:100万×5%×(200×20%−10)=100万×5%×30=150万元净利润变化:150−80=+70万元盈亏平衡:设转化率为x,100万×x×(40−10)≥80万→x≥80/30/100=2.67%5.2分析类(14分)给定用户会话序列数据(已脱敏),字段:user_id,session_id,ts,page,action。要求:1)统计每小时跳出率(仅1次action的会话占比);2)找出连续3页访问间隔均<30秒的会话;3)输出Top20%用户按总会话时长排名的平均跳出率。请写出完整PySpark脚本并解释关键步骤。答案:```pythonfrompyspark.sqlimportWindowfrompyspark.sql.functionsimportcol,count,lag,unix_timestamp,sumas_sumdf=spark.read.parquet("sessions.parquet")1)每小时跳出率hourly=df.groupBy(df.ts.substr(12,2).alias("hr"),"session_id")\.agg(count("").alias("acts"))\.groupBy("hr")\.agg((count(col("acts")==1)/count("")).alias("bounce_rate"))\.orderBy("hr")hourly.show()2)连续3页间隔<30秒w=Window.partitionBy("session_id").orderBy("ts")df2=df.withColumn("prev_ts",lag("ts",1).over(w))\.withColumn("diff",unix_timestamp("ts")unix_timestamp("prev_ts"))\.filter(col("diff")<30)连续3行满足w2=Window.partitionBy("session_id").orderBy("ts")df3=df2.withColumn("grp",sum(when(col("diff")<30,1).otherwise(0)).over(w2))valid=df3.groupBy("session_id")\.agg(max("grp").alias("max_grp"))\.filter(col("max_grp")>=3)\.select("session_id").distinct()valid.show()3)Top20%用户按总会话时长排名的平均跳出率session_dur=df.groupBy("session_id")\.agg((max(unix_timestamp("ts"))min(unix_timestamp("ts"))).alias("dur"))user_dur=session_dur.join(df.select("session_id","user_id").distinct(),"session_id")\.groupBy("user_id")\.agg(_sum("dur").alias("total_dur"))top20=user_dur.orderBy(col("total_dur").desc())\.limit(int(user_dur.count()0.2))\.select("user_id")df_top=df.join(top20,"user_id")bounce_top=df_top.groupBy("session_id").agg(count("").alias("acts"))\.agg((count(col("acts")==1)/count("")).alias("avg_bounce"))bounce_top.show()```5.3综合类(14分)某城城市出租车GPS数据字段:vehicle_id,longitude,lat
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 标准化厂房地质勘察方案
- 设备自动化控制系统验收方案
- 建材供应商绩效跟踪方案
- 2026年软件工程师职称评审考试题库及答案
- 电子病历管理与使用手册
- 2026年美团技术团队面试笔试题目及答案
- 2026年初入职场者财务基础知识笔试题
- 营销策略执行方案及效果分析表
- 消防设施日常运行维护方案
- 2026年系统集成项目管理中风险管理实践试题
- 尼帕病毒病的预防控制专题学习课件
- 2026年锂电池项目投资计划书
- 春节出行交通安全培训课件
- 2025ACCP实践指南:危重患者血浆与血小板输注指南解读
- 【语文】辽宁省沈阳市沈河区文化路小学小学一年级下册期末试卷(含答案)
- 新生儿红臀PDCA课件
- 2025年XX社区卫生服务中心工作总结及2026年工作计划
- 企业风险预警指标体系设计与应用
- 2025-2026学年江苏省连云港市部分学校高三上学期10月月考历史试题(解析版)
- 道路交通安全警示教育培训
- 兽药使用法律法规学习材料
评论
0/150
提交评论