版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年机器学习与人工智能项目实战教程与面试题第一章从需求到上线的完整闭环1.1需求澄清产品经理抛出一句“我们要用AI提升转化率”。第一步不是跑模型,而是把“转化率”拆成可观测指标:曝光→点击→加购→支付。用SQL拉出近90天数据,发现加购→支付流失62%,确定为优化靶点。1.2数据契约与后端约定埋点字段:goods_id、user_id、timestamp、ab_bucket、scene_type。数据团队承诺T+0提供Kafka流,延迟P99≤200ms。1.3基线模型先上线规则桶:若加购≥3件且客单价≥300元,则发20元券。线上运行7天,支付转化率11.2%,作为baseline。1.4特征工程用户侧:近30天订单数、近7天加购未购数、优惠券敏感度(历史用券订单占比)。商品侧:近7天被加购未购次数、类目促销频次。交叉侧:用户-商品2阶笛卡尔,再降维到128维Embedding,用SparkMLlibWord2Vec训练,窗口5,最小词频3。1.5模型选型数据规模1.2亿样本,高稀疏。对比Wide&Deep、DeepFM、xDeepFM、DCN,最终DCN在验证集AUC0.813胜出,提升2.4个百分点。1.6训练细节学习率Warm-up:前1000步线性增至3e-3,再Cosine衰减至1e-5。L2正则1e-5,BatchSize4096,采用TFRecord+Multi-thread加速,单机8×A100训练6小时。1.7校准线上CTR预估需对齐真实概率,用PlattScaling,校准后BrierScore从0.127降到0.082。1.8灰度按user_id%100取桶,实验桶5%→15%→50%→100%,每阶段观察24小时,核心指标支付转化率提升4.7%,GMV提升3.9%,无显著下降。1.9监控构建四维监控:1.数据漂移PSI>0.2报警;2.特征覆盖率<98%报警;3.预测均值漂移>5%报警;4.业务指标30min环比下跌>3%电话告警。1.10回滚策略若连续两个5min切片预测均值漂移>10%,自动切换到备用LightGBM模型,切换耗时30s。第二章深度学习硬核面试题【题型说明】共25题,含10道选择、8道简答、4道计算、3道编程。卷后附答案与解析。一、单项选择(每题4分,共40分)1.在Transformer中,ScaledDot-ProductAttention的缩放因子是A.2dk B.dk C.2.使用Adam优化器时,下列超参对初期梯度方差影响最大的是A.beta1 B.beta2 C.eps D.lr3.在联邦学习场景下,客户端上传梯度而非原始数据,主要为了防止A.梯度消失 B.数据泄露 C.过拟合 D.通信压缩4.对类别极度不平衡的二分类任务,优先选择哪种评价指标A.Accuracy B.F1-score C.AUC D.Precision@K5.BatchNorm在推理阶段使用A.当前batch统计量 B.滑动平均统计量 C.固定常数 D.随机采样6.下列哪种方法可直接获得模型不确定度A.Dropout B.BatchNorm C.ReLU D.MaxPool7.在推荐冷启动场景,最适合的迁移学习策略是A.Fine-tune全网络 B.冻结底层,只训顶层 C.矩阵分解 D.Meta-learning8.强化学习中,Q-learning与SARSA的最大区别是A.是否使用ε-greedy B.是否off-policy C.是否用TD D.是否用神经网络9.若将GPT的Decoder-only结构改为Encoder-only,最直接的影响是A.无法做生成任务 B.参数减少 C.训练速度翻倍 D.需要标注数据10.在CV目标检测里,YOLOv8相对YOLOv5的主要改进是A.引入TransformerEncoder B.使用Anchor-Free C.采用Mosaic+MixUp D.损失改为CIOU二、简答题(每题8分,共64分)11.解释梯度爆炸与梯度消失的本质差异,并给出各自一种工程缓解方案。12.写出AUC的物理意义,并说明为何AUC对正负样本比例不敏感。13.描述联邦学习FedAvg算法流程,并指出其通信瓶颈。14.对比L1与L2正则化对神经网络权重分布的影响,画图示意。15.解释Self-Attention的“自”体现在何处,并说明为何能捕捉长距离依赖。16.列举三种模型可解释性方法,并分别给出适用场景。17.在推荐系统里,为何“曝光偏差”会导致模型高估热门商品CTR?18.给出一种在GPU显存不足时训练10亿参数模型的混合并行策略。三、计算题(共64分)19.(16分)已知某二分类数据集,正例100条,负例10000条。若模型将阈值0.5调至0.9,Precision从0.2升至0.9,Recall从0.9降至0.1。求(1)新阈值下的TP、FP、FN;(2)F1-score;(3)若业务要求Recall≥0.8,应如何调整采样策略,给出公式。20.(16分)给定3×3特征图[123456789]1&2&34&5&67&8&9$$用2×2MaxPool、stride=1、padding=0,求输出;再计算反向传播时输入梯度,已知输出梯度全为1。21.(16分)Transformer中Multi-HeadAttention输入Q=K=V∈ℝ^{4×64},头数h=8,输出维度64。求参数量,并写出FLOPs公式。22.(16分)强化学习MDP,状态数|S|=3,动作数|A|=2,折扣因子γ=0.9。给定转移矩阵P与奖励R如下:P(s=1|s=0,a=0)=0.8,R=+1;P(s=2|s=0,a=0)=0.2,R=0。用值迭代求状态0的最优值函数V(0),迭代三次即可。用值迭代求状态0的最优值函数V四、编程题(共32分)23.(10分)用NumPy实现Softmax及其反向函数,要求支持二维矩阵axis=1,禁止调用库内置softmax。24.(12分)实现一个最小堆优先经验回放(SumTree),支持添加、采样、更新优先级,接口:add(td_error)、sample(batch_size)、update(idx,td_error)。25.(10分)用PyTorch写一个自定义nn.Module,实现带门控的线性层:y=(要求权重初始化使用Kaiming正态分布,并写出前向与参数打印示例。第三章答案与解析1.A 解析:防止点积值过大,进入softmax饱和区。2.D 解析:lr直接缩放梯度,对初期方差影响最大。3.B 解析:原始数据留在本地,梯度上传减少隐私泄露。4.C AUC只关心排序,对正负比例不敏感。5.B 滑动平均保证推理稳定。6.A MC-Dropout通过多次前向获得不确定度。7.D Meta-learning快速适应新用户或新商品。8.B Q-learning用maxQ更新,off-policy;SARSA用实际动作,on-policy。9.A Encoder-only无自回归,不能生成。10.B YOLOv8全面Anchor-Free,减少超参。11.梯度爆炸:链式求导导致范数指数级增大;缓解:梯度裁剪。梯度消失:导数连乘趋0;缓解:残差连接。12.AUC是随机取一对正负样本,正样本得分高于负的概率,仅与排序有关,与比例无关。13.FedAvg:1.客户端本地训练E轮;2.上传梯度;3.服务器加权平均;4.下发新模型。通信瓶颈:深度模型参数量大,上行流量高。14.L1使权重稀疏,拉普拉斯分布;L2使权重小且连续,高斯分布。图略。15.“自”指Query=Key=Value,来自同一序列;通过点积可直接计算任意位置依赖,无需卷积或循环。16.SHAP:全局解释;LIME:局部解释;Grad-CAM:视觉显著图。17.热门商品曝光多,模型训练样本多,CTR被高估;冷门商品曝光少,训练不足,CTR被低估。18.采用ZeRO-3+TensorParallel+GradientCheckpointing,显存占用从36GB降至4GB。19.解析:(1)Precision=TP/(TP+FP)=0.9,Recall=TP/(TP+FN)=0.1,正例100⇒TP=10,FN=90;FP=TP/0.9−TP=1.11≈1。(2)F1=2×0.9×0.1/(0.9+0.1)=0.18。(3)需Recall≥0.8⇒需TP≥80,若保持Precision=0.2,则FP=320,负样本需欠采样到320/0.2−320=1280,采样率α=1280/10000=0.128。20.输出:[5689]5&68&9$$反向时,仅最大值位置得梯度1,其余0,故输入梯度:[000011011]0&0&00&1&10&1&1$$21.参数量:4×64×64×8=131072。FLOPs=2×seq_len×d_model×d_k×h=2×4×64×64×8=262144。22.值迭代:VVVV23.参考代码:```pythondefsoftmax(x):x_max=x.max(axis=1,keepdims=True)exp_x=np.exp(xx_max)returnexp_x/exp_x.sum(axis=1,keepdims=True)defsoftmax_backward(dout,cache):s=cacheds=sdoutds=sdoutds_sum=ds.sum(axis=1,keepdims=True)dx=dssds_sumdx=dssds_sumreturndx```24.SumTree实现:```pythonclassSumTree:def__init__(self,capacity):self.capacity=capacityself.tree=np.zeros(2capacity)self.tree=np.zeros(2capacity)self.data=np.zeros(capacity,dtype=object)self.n=0self.ptr=0defadd(self,priority,data):idx=self.ptr+self.capacityself.data[self.ptr]=dataself.update(idx,priority)self.ptr=(self.ptr+1)%self.capacityself.n=min(self.n+1,self.capacity)defupdate(self,idx,priority):delta=priorityself.tree[idx]self.tree[idx]=prioritywhileidx>1:idx//=2self.tree[idx]+=deltadefsample(self,batch_size):segment=self.tree[1]/batch_sizebatch=[]foriinrange(batch_size):s=np.random.uniform(isegment,(i+1)segment)s=np.random.uniform(isegment,(i+1)segment)idx=self._retrieve(1,s)batch.append((idx,self.tree[idx],self.data[idxself.capacity]))returnbatchdef_retrieve(self,idx,s):left=2idxleft=2idxifleft>=len(self.tree):returnidxifs<=self.tree[left]:returnself._retrieve(left,s)else:returnself._retrieve(left+1,sself.tree[left])```25.门控线性层:```pythonclassGatedLinear(nn.Module):def__init__(self,in_f,out_f):super().__init__()self.w1=nn.Linear(in_f,out_f)self.w2=nn.Linear(in_f,out_f)nn.init.kaiming_normal_(self.w1.weight,nonlinearity='relu')nn.init.kaiming_normal_(self.w2.weight,nonlinearity='sigmoid')defforward(se
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人教版生物学七年级下册同步练习:第一章人的由来阶段复习含答案
- 2026年二级建造师考试工程管理与实务单套冲刺试卷
- 全球国家公园体系建设现状与发展趋势
- 村容村貌提升要执行施工安全安全防范措施
- 研发管理流程规范
- 基础法律面试试题及答案
- 人工智能在法学领域的应用与挑战
- 学校教务工作台账-课件
- 胃气上逆的神经调节机制
- 知识图谱构建与应用-第18篇
- 12《古诗三首》课件-2025-2026学年统编版语文三年级下册
- 团队精神与忠诚度培训讲义
- 2026河南新乡南太行旅游有限公司招聘16岗49人考试参考试题及答案解析
- 2026年辽宁点石联考高三年级3月学情调研语文试卷及答案
- 短剧网络播出要求与规范手册
- 2026年春季西师大版(2024)小学数学三年级下册教学计划含进度表
- 江苏苏锡常镇四市2026届高三下学期教学情况调研(一)数学试题(含答案)
- 2026年3月15日九江市五类人员面试真题及答案解析
- 高顿教育内部考核制度
- 2026年山西工程职业学院单招职业技能考试题库及答案解析
- (2025年)上海专升本普通心理学模拟试题真题试卷及答案
评论
0/150
提交评论