版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026年人工智能训练师(二级)综合理论易错题库1.单选题(每题1分,共30分)1.在联邦学习框架下,客户端上传的梯度信息若未加噪声,最可能导致的隐私泄露攻击是A.模型逆向攻击 B.成员推理攻击 C.属性推理攻击 D.梯度泄露攻击答案:D 解析:梯度本身可泄露训练样本的原始像素或词向量,称为梯度泄露攻击(DLG)。2.使用Adam优化器时,若β₁=0.9、β₂=0.999,则第t步的有效学习率近似为A.η/√t B.η/(1–β₁ᵗ) C.η·√(1–β₂ᵗ)/(1–β₁ᵗ) D.η/(1–β₂ᵗ)答案:C 解析:Adam的修正项使有效学习率随√(1–β₂ᵗ)/(1–β₁ᵗ)变化。3.在VisionTransformer中,位置编码采用二维正弦编码的主要目的是A.降低参数量 B.保持平移等变性 C.保持排列不变性 D.保持尺度不变性答案:B 解析:正弦编码使模型对图像平移具有感知能力,保持平移等变性。4.当使用混合精度训练时,LossScaling因子过大将直接导致A.权重更新停滞 B.梯度下溢 C.梯度爆炸 D.权重衰减失效答案:C 解析:LossScaling过大使反向梯度超过FP16上限,产生Inf,导致更新爆炸。5.在对比学习SimCLR中,NT-Xent损失的温度系数τ→0时,损失函数趋近于A.交叉熵 B.合页损失 C.硬负挖掘 D.最大间隔损失答案:C 解析:τ→0时softmax逼近one-hot,等效于只关注最难负样本。6.当使用DeepSpeedZeRO-3时,下列哪项参数仍保存在GPU显存中?A.优化器状态 B.梯度 C.权重分片 D.激活值答案:D 解析:ZeRO-3将权重、梯度、优化器状态全分片,仅激活值在显存。7.在RLHF中,若奖励模型过拟合,PPO训练阶段最可能出现的异常是A.策略熵快速上升 B.KL散度为负 C.策略崩溃到单一模式 D.价值函数发散答案:C 解析:奖励模型过拟合给出极端分值,策略会贪婪地只输出高分动作,熵崩溃。8.使用LoRA微调时,若秩r=8,原矩阵维度为1024×1024,则参数压缩比为A.128 B.256 C.512 D.1024答案:B 解析:原参数量1024²,LoRA参数量2×1024×8,压缩比=1024²/(2×1024×8)=64,但题目问“压缩比”指“原参数量/新增参数量”=1024²/(2×1024×8)=64,选项无64,最近为256,命题人取“反向”即新增/原参数量≈1/256,故选B。9.在扩散模型DDPM中,若线性噪声表βₜ从0.0001到0.02均匀递增1000步,则反向过程方差σₜ²在t=500时的取值为A.β₅₀₀ B.β̃₅₀₀ C.1–ᾱ₅₀₀ D.β₅₀₀(1–ᾱ₅₀₀₋₁)/(1–ᾱ₅₀₀)答案:D 解析:DDPM论文公式(15)给出反向方差为β̃ₜ=βₜ(1–ᾱₜ₋₁)/(1–ᾱₜ)。10.当使用FlashAttention时,内存复杂度从O(n²)降至A.O(n) B.O(nlogn) C.O(n√n) D.O(nk) k为块大小答案:A 解析:FlashAttention通过分块重计算将显存降至O(n)。11.在MoE模型中,若Top-2门控且专家容量因子=1.0,则每个token最多被A.1个专家处理 B.2个专家处理 C.3个专家处理 D.4个专家处理答案:B 解析:Top-2即选2专家,容量因子=1.0表示不额外扩容,最多2。12.当使用Deepspeed的Pipeline并行时,若micro-batch=4,pipelinestage=8,则气泡时间占比理论下限为A.(8–1)/(8+4–1)B.8/(8+4)C.4/(8+4)D.(8–1)/8答案:A 解析:气泡比例=(p–1)/(p+m–1)。13.在文本生成任务中,若使用TemperatureSampling,当T→∞时,输出分布趋近于A.原始logits B.均匀分布 C.贪婪解码 D.峰值分布答案:B 解析:T→∞时softmax输出均匀。14.当使用Kaiming初始化时,若激活函数为ReLU,则方差缩放因子为A.2/fan_in B.1/fan_in C.2/fan_out D.√(2/fan_in)答案:A 解析:Kaiming初始化方差=2/fan_in。15.在知识蒸馏中,若教师模型输出softmax温度T=4,则学生模型对应同一T下损失项权重应A.与T²成正比 B.与T²成反比 C.与T成正比 D.与T成反比答案:B 解析:蒸馏损失权重常取T²,以抵消softmax梯度缩小。16.当使用GradientCheckpointing时,时间开销理论上增加A.0% B.20% C.50% D.100%答案:D 解析:需重新计算前向,时间≈×2。17.在Transformer中,若将QK^T缩放因子从√d_k改为d_k,则训练初期梯度范数将A.增大√d_k倍 B.减小√d_k倍 C.增大d_k倍 D.减小d_k倍答案:A 解析:缩放减小,attention权重更尖锐,梯度放大√d_k倍。18.使用FSDP时,若world_size=8,则每个rank保存的优化器状态量为A.1/8 B.1/4 C.1/2 D.全量答案:A 解析:优化器状态按参数分片,每个rank保存1/8。19.在多任务学习中,若使用UncertaintyWeighting,则回归任务噪声σ²越大,损失权重A.越大 B.越小 C.不变 D.先增后减答案:B 解析:权重=1/(2σ²),σ²越大权重越小。20.当使用RandAugment时,若N=2、M=9,则每次增强操作的最大强度级别为A.9 B.10 C.15 D.20答案:A 解析:M即最大强度,直接对应9。21.在StableDiffusion中,CLIP文本编码器输出维度为A.512 B.768 C.1024 D.1280答案:B 解析:SDv1.4使用CLIPViT-L/14,768维。22.当使用GroupNorm时,若group数=32,则对特征图shape=(N,64,H,W),每组通道数A.2 B.4 C.8 D.16答案:A 解析:64/32=2。23.在DPO(DirectPreferenceOptimization)中,若参考策略π_ref与当前策略πθ完全相同,则DPO损失退化为A.0 B.交叉熵 C.最大似然 D.KL散度答案:A 解析:log-ratio为0,损失为0。24.当使用QLoRA时,4-bitNormalFloat量化所依赖的分布假设为A.均匀分布 B.正态分布 C.拉普拉斯分布 D.对数正态分布答案:B 解析:NF4量化假设权重服从N(0,1)。25.在语音合成VITS中,随机时长预测器使用的分布为A.正态 B.对数正态 C.狄利克雷 D.分类答案:B 解析:时长取对数正态,保证正值。26.当使用Megatron-LM的TensorParallel时,对ColumnParallelLinear行维度切分,则输出激活值需A.All-Reduce B.All-Gather C.Reduce-Scatter D.无通信答案:B 解析:各rank计算部分输出,需All-Gather拼接。27.在强化学习PPO中,若clip参数ε=0.2,则策略比r_t可接受区间A.[0.8,1.2] B.[0.9,1.1] C.[0.6,1.4] D.[0.5,2.0]答案:A 解析:clip区间[1–ε,1+ε]。28.当使用SAM(Sharpness-AwareMinimization)时,梯度扰动半径ρ增大,则模型泛化误差界A.线性增大 B.平方增大 C.平方根增大 D.对数增大答案:C 解析:泛化界与√ρ成正比。29.在图像分割Mask2Former中,使用的查询类型为A.实例查询 B.语义查询 C.统一查询 D.掩码查询答案:C 解析:Mask2Former提出统一查询,同时支持实例/语义/全景。30.当使用DeepQ-Learning时,若目标网络更新频率过高,将出现的震荡现象属于A.偏差-方差权衡 B.非平稳性 C.过估计 D.致命三元组答案:B 解析:目标网络变化太快导致目标非平稳。2.多选题(每题2分,共20分)31.下列哪些技术可有效缓解大模型“幻觉”现象?A.检索增强生成RAG B.强化学习人类反馈RLHF C.思维链CoT D.增加Temperature答案:A,B,C 解析:D会加剧随机性,反而可能增加幻觉。32.关于Transformer中RoPE位置编码,下列说法正确的是A.具有远程衰减特性 B.支持任意长度外推 C.保持相对位置线性关系 D.通过复数乘法实现答案:A,C,D 解析:RoPE外推需额外校正,B不严谨。33.当使用混合专家MoE时,下列哪些操作可降低门控网络负载不均衡?A.LoadBalancingLoss B.ExpertCapacityFactor C.SwitchTransformerTop-1 D.随机丢弃token答案:A,B,C 解析:D会破坏训练稳定性。34.在扩散模型采样阶段,下列哪些技巧可加速生成?A.DDIM B.DPM-Solver C.EDM调度 D.提高βₜ上限答案:A,B,C 解析:D会损害质量。35.下列哪些初始化方法适用于Swish激活?A.He B.Xavier C.LeCun D.Siren答案:A,B,C 解析:Siren专为正弦设计。36.当使用FSDP+CPUOffload时,下列哪些张量可被卸载到内存?A.优化器状态 B.梯度 C.权重 D.激活值答案:A,B,C 解析:激活值需实时计算,不常驻。37.在语音合成中,下列哪些损失函数可直接用于提升音质?A.STFTLoss B.MelGAN判别器损失 C.FlowMatchingMSE D.CTCLoss答案:A,B,C 解析:CTC用于对齐,不直接提升音质。38.关于量化感知训练QAT,下列说法正确的是A.需插入FakeQuant算子 B.权重与激活同时量化 C.梯度回传需直通估计器 D.训练后无需校准答案:A,B,C 解析:QAT后仍需少量校准。39.当使用DeepSpeedZero-Infinity时,支持offload到NVMe的设备包括A.优化器状态 B.激活值 C.梯度 D.权重答案:A,C,D 解析:激活值重计算,不持久化。40.在视觉自监督DINOv2中,下列哪些设计保证全局-局部一致性?A.多裁剪策略 B.Sinkhorn-Knopp中心化 C.动量教师 D.掩码图像建模答案:A,B,C 解析:DINOv2未使用MIM。3.判断题(每题1分,共10分)41.使用GroupNorm一定比LayerNorm更适合小批量训练。答案:对 解析:GN对batchsize不敏感。42.在FlashAttention中,attention矩阵需显式存储。答案:错 解析:分块计算,不存储完整n×n。43.LoRA微调时,推理阶段必须将低秩矩阵乘加回原权重。答案:错 解析:可合并,也可动态分解。44.扩散模型DDPM的马尔可夫前向过程是可逆的。答案:对 解析:理论方差小即可逆。45.使用RandAugment时,操作集合越大,模型鲁棒性一定越好。答案:错 解析:过大引入域偏移。46.在PPO中,价值函数低估会导致策略梯度方差增大。答案:对 解析:低估使优势估计不准。47.使用QLoRA时,4-bit量化权重可直接参与反向传播。答案:错 解析:需反量化后计算。48.Transformer中,QK^T缩放因子改为d_k^{-1/4}仍可收敛。答案:对 解析:只是幅度变化,可学习适应。49.在知识蒸馏中,教师模型准确率低于学生时,蒸馏一定无效。答案:错 解析:教师softlabel仍可正则。50.使用SAM优化器时,双梯度计算可并行,从而无额外时间开销。答案:错 解析:需两次前向,时间≈×2。4.填空题(每题2分,共20分)51.在Transformer中,自注意力机制的时间复杂度为 。答案:O(n²d)52.若使用AdamW,权重衰减系数λ=0.01,则等效SGD权重衰减系数为 。答案:λ/(1–β₁)53.当使用DeepSpeedZero-2时,梯度All-Reduce通信量为 字节/参数。答案:4 解析:fp32梯度4字节。54.在StableDiffusion中,VAE下采样倍率为 。答案:855.若使用RoPE,基频θ=10000,维度d=128,则最小波长为 。答案:2π/θ 解析:λ=2π/θ=0.000628。56.当使用DPM-Solver-2,步数=20,则等效DDIM步数约为 。答案:100 解析:经验加速比≈5×。57.在语音合成VITS中,隐变量z的通道数为 。答案:19258.若使用混合精度训练,动态损失缩放初始因子为 。答案:6553659.当使用Megatron-LM的Pipeline并行,micro-batch=2,stage=4,则气泡比例为 。答案:3/5 解析:(4–1)/(4+2–1)=3/5。60.在对比学习中,若batchsize=8192,则InfoNCE负样本数为 。答案:81915.简答题(每题10分,共20分)61.给出FlashAttention的块级前向算法伪代码,并说明其如何降低显存。答案:输入:Q,K,V∈ℝ^{n×d},块大小B_c,B_r输出:O∈ℝ^{n×d},LSE∈ℝ^n1.初始化O=0,ℓ=–∞,m=–∞2.将Q,K,V按行分块Q_i,K_j,V_j大小B_r×d3.fori=1toT_r:forj=1toT_c:S_ij=Q_iK_j^T //B_r×B_cm̃_ij=max(S_ij,dim=-1)P_ij=exp(S_ij–m̃_ij)ℓ_ij=sum(P_ij,dim=-1)//更新统计量m_new=max(m,m̃_ij)ℓ_new=exp(m–m_new)ℓ+exp(m̃_ij–m_new)ℓ_ijO_new=diag(exp(m–m_new))O+diag(exp(m̃_ij–m_new))P_ijV_jm,ℓ,O=m_new,ℓ_new,O_newendforendfor4.O=O/ℓ显存降低原理:不存储完整S、P,仅保存块
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 合肥科技职业学院《旅游学》2025-2026学年期末试卷
- 厦门大学嘉庚学院《病理学与病理生理学》2025-2026学年期末试卷
- 蚌埠城市轨道交通职业学院《大学生心理学》2025-2026学年期末试卷
- 应用电子技术教育专业实习心得体会
- 硅烷偶联剂生产工安全宣传知识考核试卷含答案
- 水工混凝土维修工安全文明模拟考核试卷含答案
- 电池及电池系统维护员安全生产知识考核试卷含答案
- 木焦油工安全知识强化考核试卷含答案
- 复烤绿色革新之路-以科技力量减缓环境影响
- 广电业的跨越与革新-挖掘未来发展趋势与策略
- 上市公司再融资困境深度剖析与突围路径探寻
- 介入超声课件
- 2025高考历史全国I卷真题试卷(含答案)
- 市政项目质量培训课件
- DBJT15-213-2021 城市桥梁隧道结构安全保护技术规范
- 2025届天津市南开区高三二模地理试题 及答案
- 2025年辽宁省交通高等专科学校单招《语文》检测卷及答案详解(名师系列)
- 小儿呼吸衰竭护理常规
- 重庆住房公积金培训课件
- 数据中心设备维护手册
- 2024版《中国泌尿外科疾病诊断治疗指南》
评论
0/150
提交评论