版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年DM面试测试题及答案
一、单项选择题,(总共10题,每题2分)1.在数据挖掘流程中,将原始日志转化为可供建模的宽表,该阶段最贴切的CRISP-DM子阶段是A.业务理解B.数据理解C.数据准备D.建模2.某电商用户行为序列长度差异极大,采用滑窗截断并填充0的方式统一长度,这种处理属于A.特征缩放B.特征离散化C.序列预处理D.缺失值填补3.在Apriori算法中,若频繁3-项集L3={abc,abd,acd,bcd},则候选4-项集C4的元素个数为A.0B.1C.2D.44.使用CART回归树预测房价时,节点分裂指标是A.信息增益B.基尼系数C.均方误差D.卡方统计量5.在SparkMLlib中,下列参数最能直接控制GBDT过拟合的是A.maxIterB.stepSizeC.maxDepthD.numTrees6.对高稀疏文本进行TF-IDF后,再使用TruncatedSVD降维,其主要目的是A.去噪B.特征压缩C.稀疏保持D.线性可分7.在异常检测中,若样本服从高维高斯且协方差矩阵奇异,最稳健的估计策略是A.删除共线特征B.对角化协方差C.引入正则D.降维后建模8.联邦学习场景下,参与方上传梯度而非原始数据,主要防范的风险是A.模型投毒B.成员推理C.数据泄露D.通信延迟9.在A/B测试的多重比较校正方法中,控制FDR的是A.BonferroniB.HolmC.Benjamini-HochbergD.TukeyHSD10.若某二分类模型在验证集上TPR=0.8,FPR=0.2,则该点与ROC曲线对角线之间的垂直距离为A.0.1B.0.2C.0.4D.0.6二、填空题,(总共10题,每题2分)11.在SQL中使用________函数可将连续年龄字段按10岁宽度分箱。12.若变量X与Y的互信息I(X;Y)=0,则X与Y________。13.在K-means++初始化中,下一个中心被选中的概率与距最近中心的________成正比。14.LightGBM采用________直方图算法减少分裂点搜索复杂度。15.对类别不平衡问题,SMOTE通过在________样本间插值生成新样本。16.在深度协同过滤中,NeuMF将GMF与________分支的输出拼接后送入全连接层。17.使用LSTM进行时间序列预测时,遗忘门的激活函数通常为________。18.在Prophet模型中,节假日效应通过________回归方式加入。19.若某规则置信度为0.7,提升度为1.0,则该规则________关联性。20.在模型解释框架SHAP中,每个特征的Shapley值之和等于模型对该样本的________。三、判断题,(总共10题,每题2分)21.在PCA中,主成分方向对应协方差矩阵的最大特征值所对应的特征向量。22.随机森林的OOB误差是训练集的无偏估计,因此可直接代替验证集误差。23.当学习率为0时,梯度下降算法仍可能因动量项而继续更新参数。24.在关联规则中,若支持度阈值降低,则频繁项集数量一定不减。25.使用Dropout时,测试阶段需对权重按保留概率p进行缩放。26.在生存分析中,Cox模型假设基线风险函数随时间恒定。27.若两个模型AUC相同,则它们的PR曲线必然重合。28.在GraphSAGE中,邻居采样顺序对聚合结果无影响。29.对高基数类别变量,目标编码比One-Hot更易导致过拟合。30.在AutoML框架中,元学习通过历史任务信息加速新任务超参搜索。四、简答题,(总共4题,每题5分)31.简述使用XGBoost处理缺失值时的默认分裂策略,并说明其优点。32.说明在深度推荐系统中引入注意力机制相比平均池化的两点改进。33.列举两种评估聚类稳定性的内部指标,并给出其计算思想。34.解释联邦学习中的“模型异构”问题,并提出一种解决思路。五、讨论题,(总共4题,每题5分)35.某短视频平台拟基于用户停留时长预测广告转化率,讨论如何构建训练样本以避免标签泄漏。36.对比批量梯度下降与随机梯度下降在分布式环境下的通信开销与收敛行为,指出何时选用小批量梯度下降。37.在医疗影像AI辅助诊断场景下,讨论如何在保证模型性能的同时满足GDPR的“可遗忘权”。38.某银行信用卡反欺诈模型上线后,欺诈率反而上升,请从数据分布、模型反馈、业务策略三方面分析可能原因。答案与解析一、单项选择题1.C2.C3.B4.C5.C6.B7.C8.C9.C10.D二、填空题11.width_bucket12.相互独立13.距离平方14.直方图15.少数类16.MLP17.sigmoid18.指示变量19.无20.预测值与基准值之差三、判断题21.√22.×23.√24.√25.√26.×27.×28.×29.√30.√四、简答题31.XGBoost在节点分裂时将缺失值样本分别划到左、右子节点,计算两种划分的增益,选增益大的方向作为默认方向;该策略无需预填补,利用结构自动学习最优方向,减少人为偏差并提升对稀疏特征的鲁棒性。32.注意力机制为不同行为赋予可学习的权重,使关键交互获得高权重,抑制噪声行为;同时实现自适应聚合,无需人工设定窗口,提升模型对多样用户兴趣的刻画能力。33.1.AdjustedRandIndex:比较聚类结果与随机划分的吻合度,剔除偶然一致;2.NormalizedMutualInformation:度量聚类簇与真实簇的互信息并归一化,值域0~1,越高越稳定。二者均通过重采样或扰动数据多次运行,观察指标方差评估稳定性。34.模型异构指各参与方因任务或资源差异使用不同网络结构,导致参数无法直接聚合;解决方案是采用知识蒸馏,各方将本地模型输出logits上传服务器,服务器训练公共小模型拟合聚合软标签,实现异构模型协同更新。五、讨论题35.以广告曝光前7天且不含广告时段的停留时长作为特征,标签取曝光后24小时内是否转化;剔除曝光后行为,避免使用含广告交互的时长,确保样本在特征时间窗内无标签信息泄漏。36.批量梯度下降需汇总全量梯度,通信量大但方向准确;随机梯度下降每样本通信一次,开销低但噪声大;当数据量大且节点多时,选用小批量梯度下降,折中通信频率与梯度方差,通过调节batchsize使收敛速度与带宽匹配。37.采用差分隐私训练,权重加噪降低记忆;定期训练新模型并丢弃旧权重,实现参数遗忘;对请求删除的样本,在重训练前
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中药生物制剂生产线项目节能评估报告
- 幼儿园消防系统施工方案
- 石灰石粉改良海工混凝土性能方案
- 有机特种色浆生产线项目技术方案
- 消防救援站机电安装方案
- 天然气输配工程施工方案
- 基于BIM的建筑曲面墙板装配方案
- 供热地下管网建设项目可行性研究报告
- 工程施工变更管理方案
- 抽水蓄能电站压力钢管临时支撑方案
- 2026年八年级地理生物会考试题题库(答案+解析)
- 2026 年贝壳融合训(《预见未来 贝 + 精彩》)试题及答案
- 工程项目施工安全管理指导手册
- 2026年水利三类人员安全员b证考试题库及答案(完整版)
- 延长石油招聘真题及答案
- 儿科患者引流管护理实践指南(2025年版)
- 深度解析(2026)《HGT 6029-2022煤化工企业节能诊断技术规范》
- 护理师资培训课件
- 2026年保安员证考试题库及1套完整答案
- 施工用电应急预案方案
- 2025年高考物理试题(浙江卷) 含答案
评论
0/150
提交评论