2025人工智能考试题及答案_第1页
2025人工智能考试题及答案_第2页
2025人工智能考试题及答案_第3页
2025人工智能考试题及答案_第4页
2025人工智能考试题及答案_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025人工智能考试题及答案一、单项选择题(每题2分,共20分)1.在Transformer架构中,用于捕捉序列中任意两个位置之间依赖关系的核心机制是A.卷积窗口滑动B.自注意力(SelfAttention)C.池化降维D.残差连接答案:B解析:自注意力通过Query、Key、Value计算任意位置间的权重,实现全局依赖建模;卷积与池化均为局部操作,残差连接仅缓解梯度消失,不直接建模依赖。2.联邦学习场景下,客户端上传的“模型更新”通常指A.原始训练数据B.梯度或权重差分C.完整模型参数D.损失函数值答案:B解析:为保护隐私,客户端只上传梯度或权重变化量,服务器聚合后再下发,避免原始数据泄露。3.下列关于StableDiffusion的描述,正确的是A.扩散过程在像素空间完成B.采用潜空间(LatentSpace)扩散以降低计算量C.只能生成256×256图像D.无需文本编码器答案:B解析:StableDiffusion先将图像压缩到潜空间,再进行扩散与去噪,显著减少内存;像素空间扩散计算量巨大,生成分辨率可高达1024×1024,且依赖CLIP文本编码器。4.在深度强化学习中,造成“过度估计”现象的主要原因是A.策略熵过低B.使用目标网络C.最大化操作引起的正偏差D.经验回放答案:C解析:DQN在计算目标Q时取max,导致对动作值系统性地高估;DoubleDQN通过解耦选择与评估缓解该问题。5.下列激活函数中,二阶导数在x=0处不连续的是A.GELUB.SwishC.ReLUD.Mish答案:C解析:ReLU在0处一阶导数跳跃,二阶导数为狄拉克δ函数,严格说不连续;其余函数在0处高阶可导。6.在VisionTransformer中,位置编码通常采用A.可学习1D向量B.固定2D正弦曲线C.相对位置偏置D.无需位置编码答案:A解析:ViT默认使用可学习的一维位置嵌入,简单有效;2D正弦或相对偏置为后续改进方案。7.关于混合专家模型(MoE)的稀疏门控,以下说法错误的是A.门控网络输出为概率分布B.仅激活Topk专家C.专家容量因子可动态调整D.所有专家必须共享参数答案:D解析:MoE核心即参数分离,各专家独立;共享参数会丧失稀疏扩展意义。8.在LLM推理加速中,“投机解码”(SpeculativeDecoding)利用A.大模型并行生成多个候选B.小模型草稿+大模型并行验证C.降低浮点精度D.动态批处理答案:B解析:小模型快速生成草稿序列,大模型一次前向验证,接受匹配部分,实现无损加速。9.下列评价指标中,对类别不平衡最不敏感的是A.准确率(Accuracy)B.MacroF1C.微平均F1D.平衡准确率(BACC)答案:A解析:Accuracy受多数类主导,极不平衡时失真;MacroF1、BACC均考虑各类别权重。10.在DiffusionModel训练阶段,对噪声调度系数的常见设计原则是A.线性递增βtB.线性递减βtC.余弦递增αtD.固定βt=0.5答案:A解析:线性递增βt(0.0001→0.02)为DDPM原始设计,使噪声逐步增强;余弦调度针对αt,非βt。二、多项选择题(每题3分,共15分,多选少选均不得分)11.以下技术可直接用于缓解LLM“幻觉”(Hallucination)A.检索增强生成(RAG)B.强化学习人类反馈(RLHF)C.增加模型层数D.事实一致性奖励模型答案:A、B、D解析:RAG引入外部知识,RLHF与奖励模型对齐人类偏好;单纯加深模型反而可能放大幻觉。12.关于自监督学习中的“对比学习”,正确的是A.需要人工标注B.InfoNCE损失降低互信息下界C.负样本数量越多越优D.增强策略影响表征质量答案:B、D解析:InfoNCE最大化正样本互信息下界;负样本过多引入假负例,增强策略是关键。13.在模型压缩领域,属于“结构化剪枝”的是A.通道剪枝B.神经元剪枝C.权重矩阵低秩分解D.注意力头剪枝答案:A、B、D解析:结构化剪枝移除规则单元,保持硬件友好;低秩分解属于矩阵分解,非剪枝。14.下列操作会改变Transformer残差流统计特性的是A.PreNorm改为PostNormB.使用RMSNorm替代LayerNormC.添加深度缩放因子D.使用ALiBi位置编码答案:A、B、C解析:Pre/PostNorm影响梯度与激活分布;RMSNorm去除均值,缩放因子改变方差;ALiBi仅修改注意力偏置,不改变残差流统计。15.关于NeRF(神经辐射场)的加速版本,正确的是A.InstantNGP采用多分辨率哈希编码B.MipNeRF解决抗锯齿C.Plenoxels用稀疏体素+球谐函数D.NeRF无需体积渲染答案:A、B、C解析:NeRF核心即体积渲染,D错误;其余均为经典加速或改进方案。三、填空题(每空2分,共20分)16.在PyTorch2.x中,编译动态图的核心技术是________,其通过捕获________图实现算子融合。答案:TorchDynamo;FXGraph解析:TorchDynamo将Python字节码转为FX中间表示,供后端优化与融合。17.扩散模型中,若前向过程满足q(xt|x0)=N(xt;√αtx0,(1−αt)I),则去噪网络通常预测________,损失函数为________。答案:噪声ε;MSE(εθ(xt,t)−ε)解析:预测噪声简化网络输出,损失直接回归真实噪声。18.LLM推理时,KVCache的显存复杂度与________、________成正比。答案:序列长度;层数×隐藏维度×头数×2(Key+Value)解析:每token每层需存储Key、Value向量,显存随长度线性增长。19.在联邦学习中,若服务器采用FedAvg,客户端本地训练3轮,学习率η,则全局更新等价于对本地梯度进行________平均,其等效学习率为________。答案:加权;ηK/N,其中K=3,N为客户端总数解析:FedAvg等价于对本地梯度加权平均,等效学习率随本地步数线性放大。20.VisionTransformer若将图像切分为14×14补丁,输入224×224,则补丁大小为________,序列长度为________。答案:16×16;196解析:224/14=16,序列长度14×14=196。四、判断题(每题1分,共10分,正确打“√”,错误打“×”)21.使用混合精度训练时,损失缩放(LossScaling)是为了防止梯度下溢。答案:√解析:FP16下溢阈值约6×10−8,放大损失可提升梯度有效位。22.Transformer的注意力权重矩阵一定为方阵。答案:×解析:交叉注意力中Q来自解码器,K、V来自编码器,维度可不同。23.DiffusionModel的反向过程可以视为逐步去噪的马尔可夫链。答案:√解析:DDPM反向链pθ(xt−1|xt)为马尔可夫,逐步恢复数据。24.在DPO(DirectPreferenceOptimization)中,需要训练额外的奖励模型。答案:×解析:DPO直接利用偏好数据优化策略,无需显式奖励模型,简化RLHF流程。25.LoRA微调时,秩r越大,引入可训练参数量越少。答案:×解析:秩r越大,低秩矩阵尺寸增大,参数量增加。26.使用GroupNorm时,批量大小可以设置为1。答案:√解析:GroupNorm按通道分组归一化,与批量无关,适用于小批量或在线学习。27.在自监督学习中,BYOL无需负样本。答案:√解析:BYOL通过预测器与停止梯度避免崩溃,无需负样本或队列。28.NeRF的体积渲染公式中,透明度Ti与累积透射率呈指数衰减关系。答案:√解析:Ti=exp(−∫t0σ(s)ds),呈指数衰减。29.对于多模态模型CLIP,图像与文本编码器输出向量维度必须相同。答案:√解析:CLIP使用对比学习,需在同一嵌入空间计算余弦相似度。30.使用FlashAttention时,显存复杂度从O(n²)降至O(n)。答案:√解析:FlashAttention通过分块与重计算,将显存降为线性。五、简答题(每题8分,共24分)31.描述“检索增强生成”(RAG)在LLM中的工作流程,并指出其缓解幻觉的核心原因。答案:流程:1)离线阶段:将知识库文档切分、向量化,存入向量数据库;2)在线阶段:用户查询q经Embedding模型编码为向量eq;3)检索器用eq在向量库中召回Topk文档片段{d1,…,dk};4)拼接“q+d1+…+dk”作为上下文输入LLM;5)LLM生成带引用的回答。核心原因:提供实时、可验证的外部知识,使生成基于检索到的真实片段,降低模型依赖内部参数记忆,从而抑制幻觉。32.解释“梯度累积”如何在有限显存下实现大batch训练,并给出PyTorch代码片段。答案:原理:将大批次拆分为N个小步,每步计算损失并反向传播,但暂不更新权重,而是累积梯度;N步后统一执行优化器更新,等效batchsize扩大N倍。代码:```pythonaccum_steps=4model.zero_grad()fori,(x,y)inenumerate(dataloader):loss=model(x,y)/accum_stepsloss.backward()if(i+1)%accum_steps==0:optimizer.step()model.zero_grad()```解析:通过延迟更新,显存仅保存单步图,等效扩大批次,提升收敛稳定性。33.对比“PostNorm”与“PreNorm”在Transformer中的差异,并说明PreNorm为何能缓解训练深度模型时的梯度消失。答案:差异:PostNorm:子层→残差加→LayerNorm,即LayerNorm在残差之后;PreNorm:LayerNorm→子层→残差加,即LayerNorm在子层输入前。梯度缓解:PreNorm将主干路径变为“恒等映射”,梯度可直接沿残差路径回传,不受LayerNorm缩放影响;深度堆叠时,梯度尺度保持稳定,避免逐层衰减,从而支持训练百层以上模型。六、计算与推导题(共31分)34.(10分)给定一个两类别线性分类问题,训练集线性可分,支持向量机(硬间隔)得到决策边界w∗x+b=0。若对正类样本x+进行x′=x++δ,其中δ=−ρw∗(ρ>0),求x′到边界的带符号距离,并判断其类别。答案:距离公式:d=(w∗·x′+b)/‖w∗‖代入x′:w∗·x′+b=w∗·(x+−ρw∗)+b=(w∗·x++b)−ρ‖w∗‖²因x+为正类支持向量,w∗·x++b=1(函数间隔)故d=(1−ρ‖w∗‖²)/‖w∗‖=1/‖w∗‖−ρ‖w∗‖带符号距离为负,且|d|随ρ增大而增大,因此x′位于负类区域,类别判为负。35.(10分)在DDPM中,已知αt=1−βt,βt线性从0.0001到0.02,T=1000。推导采样阶段xt的分布q(xt|x0)的均值μt与方差σt²,并计算x0=0、ε~N(0,I)时xt的期望与方差。答案:重参数:xt=√αtx0+√(1−αt)ε,其中αt=∏i=1t(1−βi)均值μt=√αtx0方差σt²=1−αt代入x0=0:E[xt]=0,Var[xt]=1−αt当t=1000,αt≈0.0064,Var[xt]≈0.9936,接近标准高斯,验证前向扩散有效性。36.(11分)考虑一个注意力头,维度dk=64,输入Q∈Rn×dk,K∈Rn×dk,V∈Rn×dv,n=2048。计算标准点积注意力的FLOPs,并分析FlashAttention如何将HBMIO复杂度从O(n²)降至O(n)。答案:FLOPs:1)QK^T:n×dk×n=2048²×64≈2.68×10⁸2)Softmax:exp+reduce≈3n²=1.26×10⁷3)Attention×V:n×n×dv,设dv=64,同2.68×10⁸总计≈5.4×10⁸FLOPsHBMIO:标准实现需写入n×n注意力矩阵≈16M元素,FP16即32MB,随n²增长。FlashAttention:分块大小Bc=Br=256,将QKV加载到SRAM,计算块内注意力,立即输出O的块,无需存储完整注意力矩阵;IO复杂度变为O(n×d×Bc),线性于n,显著减少显存带宽需求。七、综合应用题(共20分)37.某电商公司需构建多模态商品检索系统,输入为用户拍摄的商品图,输出为Top10相似商品ID。技术栈:ViTB/16图像编码器、BERTbase文本编码器、Faiss向量检索。现有问题:1)图像与文本特征维度不同(768vs768),但需统一度量空间;2)商品图存在背景干扰;3)库存商品图均为白底,用户图复杂。请给出完整技术方案,包括数据预处理、模型训练、损失函数、推理优化、评估指标,并解释每一步如何解决问题。答案:方案:1)数据预处理:用户图:使

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论