2025年高级人工智能训练师职业技能鉴定理论考试题库(含答案)_第1页
2025年高级人工智能训练师职业技能鉴定理论考试题库(含答案)_第2页
2025年高级人工智能训练师职业技能鉴定理论考试题库(含答案)_第3页
2025年高级人工智能训练师职业技能鉴定理论考试题库(含答案)_第4页
2025年高级人工智能训练师职业技能鉴定理论考试题库(含答案)_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年高级人工智能训练师职业技能鉴定理论考试题库(含答案)一、单项选择题(每题1分,共30分。每题只有一个正确答案,请将正确选项的字母填在括号内)1.在Transformer架构中,用于捕捉序列中任意两个位置之间依赖关系的核心机制是()A.卷积核B.循环层C.自注意力D.池化层答案:C解析:自注意力通过计算Query、Key、Value的加权和,使任意位置直接交互,突破RNN的远距离依赖瓶颈。2.当使用Adam优化器时,下列超参数对初始学习率缩放影响最大的是()A.β₁B.β₂C.εD.α答案:D解析:α即初始学习率,直接决定更新步长;β₁、β₂为动量系数,ε为数值稳定项。3.在联邦学习场景下,为防止模型更新泄露用户隐私,通常会对梯度采取的防护手段是()A.批量归一化B.差分隐私加噪C.权重衰减D.早停答案:B解析:差分隐私在梯度上传前加入calibratednoise,提供可量化的隐私保证。4.当训练数据呈现长尾分布时,以下哪种重采样策略最易导致少数类过拟合()A.随机欠采样多数类B.SMOTE过采样少数类C.类平衡采样D.动态采样答案:B解析:SMOTE合成样本可能出现在原始特征空间稀疏区域,造成决策边界过度包裹。5.在混合精度训练中,LossScaling的主要作用是()A.加速显存访问B.避免梯度下溢C.提高批大小D.减少通信量答案:B解析:fp16表示范围小,乘以scale因子可把梯度抬升到可表示区间,反向传播后再降回。6.下列关于模型蒸馏的说法正确的是()A.学生模型必须比教师模型更深B.蒸馏温度τ越高,软标签越接近硬标签C.蒸馏损失通常与硬标签损失加权求和D.只能在相同结构之间进行答案:C解析:L_distill=α·CE(p_hard,y)+(1-α)·τ²·KL(p_soft/T,q_soft/T)。7.在强化学习对齐人类反馈(RLHF)阶段,用于衡量策略πθ与参考策略πref差异的正则项通常采用()A.L2范数B.KL散度C.JS散度D.Wasserstein距离答案:B解析:PPO约束项(|8.当使用DeepSpeedZeRO-3时,下列状态被切分到所有GPU的是()A.优化器状态B.梯度C.模型参数D.以上全部答案:D解析:ZeRO-3对参数、梯度、优化器状态均做分片,实现千亿级模型训练。9.在视觉Transformer中,位置编码不可学习时,仍能保证平移等变性的编码方式是()A.绝对正弦编码B.相对二维编码C.深度可分离卷积D.去掉位置编码答案:B解析:相对编码只依赖token间偏移量,不受全局平移影响。10.当使用A10080GB训练7B模型,张量并行度=2,流水线并行度=1,激活检查点开启,理论上最大batchsize受限于()A.显存占用与参数+激活+临时缓冲之和B.仅参数C.仅激活D.仅优化器状态答案:A解析:显存=参数分片+激活重计算+梯度+优化器+通信缓冲,需整体估算。11.在文本生成任务中,重复惩罚(repetitionpenalty)施加在()A.Embedding层B.Softmax前logitsC.Attention权重D.损失函数答案:B解析:对已经出现过的token的logits除以惩罚系数,降低再次采样概率。12.下列关于MoE(MixtureofExperts)的描述错误的是()A.专家网络可共享底层嵌入B.门控网络通常使用Top-K稀疏激活C.总参数量等于激活参数量D.负载均衡损失用于缓解专家崩溃答案:C解析:MoE总参数量>>激活参数量,稀疏激活仅触发少数专家。13.在扩散模型DDPM中,逆过程(|A.伯努利分布B.高斯分布C.狄拉克δ分布D.类别分布答案:B解析:逆过程参数化高斯均值与方差,通过神经网络预测噪声。14.当使用FSDP(FullyShardedDataParallel)时,以下哪种通信操作会在反向传播后发生()A.All-Reduce参数B.Reduce-Scatter梯度C.Broadcast参数D.All-Gather激活答案:B解析:梯度做Reduce-Scatter后各rank只保留对应分片,再更新本地参数。15.在指令微调阶段,为提升模型对复杂指令的泛化,常用的数据增强方式是()A.随机删词B.指令反向翻译C.词性标注dropoutD.图像旋转答案:B解析:反向翻译可生成语义一致、表述多样的新指令,扩充分布。16.当使用LoRA微调时,若秩r=16,原矩阵维度4096×4096,则可训练参数量占比约为()A.0.2%B.0.39%C.1.6%D.3.1%答案:B解析:占比==≈17.在RLHF奖励模型训练中,若采用pairwiseranking损失,其形式为()A.MSEB.Cross-EntropyC.HingeLossD.Log-sigmoid答案:D解析:L=18.当使用FlashAttention时,内存复杂度从O(n²)降至()A.O(n)B.O(nlogn)C.O(n√n)D.不变答案:A解析:通过分块与重计算,将Attention显存降为O(n)与d相关。19.在模型压缩中,INT8量化后,若采用per-channel对称量化,权重零点Z的取值通常为()A.0B.127C.128D.255答案:A解析:对称量化零点固定为0,简化计算。20.当使用梯度累积模拟大batch时,下列说法正确的是()A.学习率需等比例放大B.BatchNorm统计量与真实大batch完全一致C.更新频率降低D.显存占用线性增加答案:C解析:累积步数内不更新权重,等效batch变大,但显存不增加。21.在多模态CLIP训练中,对比学习损失InfoNCE的负样本来自()A.同一batch内其他图文对B.记忆库C.生成对抗样本D.上一epoch答案:A解析:batch内负样本已能提供足够梯度,且实现简单。22.当使用DPO(DirectPreferenceOptimization)时,无需显式训练()A.策略网络B.奖励模型C.参考策略D.价值网络答案:B解析:DPO把奖励函数隐式表达为策略比值,直接优化偏好数据。23.在模型服务阶段,为降低首token延迟,可采用的推理优化是()A.静态批处理B.连续批处理C.模型并行D.增加温度答案:B解析:连续批处理动态插入新请求,减少排队。24.当使用KV-Cache时,其内存占用与下列哪项成正比()A.层数×隐藏维度×序列长度×精度B.仅批大小C.仅词汇表D.仅注意力头数答案:A解析:每层都要缓存Key、Value,维度为(batch,head,seq,dim_per_head)。25.在数据并行训练时,若采用All-Reduce环形算法,通信量与GPU数n的关系为()A.O(n)B.O(logn)C.O(1)D.O(n²)答案:A解析:环All-Reduce通信量恒为2×数据量,与n无关,但延迟与n线性相关。26.当使用GroupNorm替代BatchNorm时,主要解决的问题是()A.卷积核退化B.小batch估计不准C.过拟合D.梯度消失答案:B解析:GroupNorm归一化维度与batch无关,适合大模型小batch。27.在扩散模型采样阶段,DDIM相对于DDPM的主要优势是()A.训练更快B.确定性采样C.需要更多步数D.高斯噪声更大答案:B解析:DDIM通过非马尔可夫调度,可用更少步数确定性生成。28.当使用张量并行时,对Embedding层通常采用的切分方式是()A.按词汇维度切分B.按隐藏维度切分C.按batch切分D.不切分答案:A解析:词表巨大,按vocab分片可减少显存,且易于与CrossEntropy对接。29.在自动混合精度中,下列操作必须在fp32下完成的是()A.卷积前向B.矩阵乘C.损失缩放更新D.BatchNorm统计答案:C解析:LossScale需fp32防止下溢,其余可在fp16。30.当使用RLHF的PPO阶段时,若KL散度约束过紧,最可能出现的现象是()A.模型崩溃输出空文本B.生成多样性下降C.训练速度翻倍D.奖励值飙升答案:B解析:策略被束缚在参考模型附近,探索不足,多样性降低。二、多项选择题(每题2分,共20分。每题有两个或两个以上正确答案,多选、少选、错选均不得分)31.以下哪些技术可有效缓解大模型微调中的灾难性遗忘()A.冻结底层B.添加AdapterC.使用回放机制D.增大学习率答案:ABC解析:冻结、Adapter、回放均保留旧知识;增大学习率反而加剧遗忘。32.在数据并行训练中,以下哪些因素可能导致不同GPU产生梯度不一致()A.随机种子不同B.非确定性算子C.浮点结合顺序D.批大小不同答案:ABCD解析:以上都会引入数值差异,需同步种子与确定性算法。33.关于MoE负载均衡损失,下列说法正确的是()A.鼓励所有专家被均匀使用B.通常加入门控分布的熵正则C.与模型性能无关D.可采用辅助损失α答案:ABD解析:辅助损失强制均匀路由,提升计算效率。34.在RLHF奖励模型评估中,以下哪些指标可直接反映模型对偏好排序的准确性()A.ACC@1B.Elo评分C.Spearman系数D.KL散度答案:AC解析:ACC@1与Spearman直接衡量排序一致性;Elo用于对局评分;KL衡量分布差异。35.以下哪些操作会引入梯度爆炸风险()A.使用LayerNorm前放大残差分支B.初始化权重方差过大C.使用ReLU激活D.使用梯度裁剪答案:AB解析:放大残差与大方差均使梯度指数增长;ReLU有死亡风险但不易爆炸;裁剪是缓解手段。36.在扩散模型中,以下哪些采样技巧可加速生成()A.DDIMB.DPM-SolverC.高阶ODE求解D.提高噪声方差答案:ABC解析:更高阶求解器减少步数;盲目提高噪声方差反而失真。37.当使用INT8量化感知训练时,以下哪些做法可提升精度()A.使用per-channel缩放B.在BN后量化C.引入量化尺度可学习D.使用对称量化答案:AC解析:per-channel与可学习scale提升精度;BN后量化可能放大动态范围;对称量化更简单但未必最优。38.以下哪些情况适合使用流水线并行而非张量并行()A.模型层数远大于单层参数量B.集群网络带宽低C.单卡可完整放下一层D.需要极低延迟推理答案:ABC解析:层数多、带宽低、单层可放下时,流水线通信量小;极低延迟需张量并行减少bubble。39.在文本生成评估中,以下哪些指标与多样性正相关()A.Self-BLEUB.Distinct-2C.EntropyD.Repetition答案:BC解析:Distinct-2与Entropy越高越多样;Self-BLEU与Repetition越低越好。40.当使用LoRA进行多任务微调时,以下哪些做法可提升任务间共享()A.共享LoRA矩阵B.各任务独立LoRA但共享基底C.使用MOELoRAD.提高秩r答案:BC解析:共享基底+独立低秩或MOE路由,实现共享与特异平衡;共享矩阵则无法区分任务。三、判断题(每题1分,共10分。正确打“√”,错误打“×”)41.使用ReLU激活的深层网络一定比使用GeLU的网络训练速度快。()答案:×解析:速度取决于硬件优化与实现,GeLU在TPUs有加速。42.在混合精度训练中,LossScale值越大越安全,不会导致梯度溢出。()答案:×解析:过大导致上溢,需动态调整。43.KV-Cache可以在推理阶段被压缩以减少内存。()答案:√解析:如滑动窗口、稀疏KV均属于压缩策略。44.扩散模型的前向加噪过程是可逆的。()答案:√解析:若已知噪声schedule,可解析推导↔。45.使用INT4量化一定会比INT8带来更大的精度损失。()答案:×解析:配合QAT与精细缩放,INT4也可接近fp16精度。46.在联邦学习中,模型参数聚合采用FedAvg时,各客户端必须本地训练相同epoch数。()答案:×解析:可自适应本地步数,仅需加权平均。47.当使用GroupNorm时,分组数等于1等价于LayerNorm。()答案:√解析:GroupNorm退化为LayerNorm。48.梯度累积步数越大,等效batch越大,因此学习率应线性放大。()答案:√解析:线性缩放规则适用于SGD,Adam系列常配合sqrt缩放。49.在RLHF中,奖励模型越大,PPO阶段策略提升一定越大。()答案:×解析:过大奖励模型可能过拟合偏好数据,反而降低泛化。50.使用FlashAttention的模型在训练阶段无法使用梯度检查点。()答案:×解析:FlashAttention与重计算兼容。四、填空题(每空2分,共20分)51.在Transformer中,自注意力计算的时间复杂度为________。答案:O(n²d)52.若使用cosine学习率调度,初始lr=1e-4,warmup步数1000,总步数10000,则第5000步的学习率为________(保留四位小数)。答案:7.071e-5解析:cosine衰减到0,5000步位于40%周期,cos(0.4π)=0.7071。53.当使用DeepSpeedMoE训练时,若专家数=64,Top-2路由,则每个token实际激活参数量占总参数量的比例为________。答案:1/32解析:2/64=1/32。54.扩散模型DDPM的逆过程方差schedule通常设置为________(选填“可学习”或“固定”)。答案:固定55.在INT8量化中,若权重最大绝对值为2.0,则量化比例scale为________。答案:2/127解析:对称量化scale=。56.使用LoRA时,若秩r=8,原矩阵1024×1024,则压缩比为________:1。答案:64解析:=6457.在PPO中,若clip参数ε=0.2,则策略比值rt超出区间________时会被裁剪。答案:[0.8,1.2]58.当使用KV-Cache时,每新增1个token,显存增加量与头数h、维度d的关系为________。答案:2hd×精度字节数59.若使用梯度累积模拟globalbatch=1024,单卡物理batch=16,8卡训练,则累积步数应为________。答案:8解析:1024/(16×8)=8。60.在RLHF奖励模型训练中,若pairwise数据正负标签反转,则损失符号会________(填“反向”或“不变”)。答案:反向五、简答题(每题10分,共30分)61.描述混合精度训练中动态LossScaling的完整流程,并说明如何判断上溢与下溢。答案与解析:1)前向:输入fp16,主权重fp32,计算损失后乘以scale得fp16损失;2)反向:损失缩放,梯度fp16,若检测到inf/nan说明上溢,scale减半重算;3)若无inf/nan,且连续N步无溢出,则scale翻倍防下溢;4)优化器:梯度转fp32后除以scale,更新fp32主权重,再转fp16用于下一轮前向。上溢判断:梯度含inf/nan;下溢判断:连续多次scale达到最大值仍无溢出。62.解释为什么MoE模型在推理阶段会出现“专家崩溃”,并给出至少两种缓解策略。答案与解析:原因:门控网络受初始值与数据分布影响,少数专家获得高权重,其余专家梯度消失,导致路由路径固化。缓解:1)加辅助负载均衡损失α∑63.对比DDPM与DDIM在采样步数、随机性、生成质量三方面的差异,并说明DDIM如何支持确定性采样。答案与解析:DDPM需1000步马尔可夫采样,每步注入随机噪声,生成质量高但速度慢;DDIM通过非马尔可夫推导,将逆过程方差设为0,即可用常微分方程确定性积分,步数可减至20–50,质量相当,支持确定性采样,便于编辑与插值。六、计算题(共30分)64.(10分)已知某7B模型,隐藏维度d=4096,层数L=32,注意力头数h=32,词汇表V=64000。(1)计算总参数量(忽略bias与LayerNorm);(2)若使用INT8量化权重,计算显存节省比例(保留两位小数)。答案与解析:(1)参数量=Embedding+Transformer+OutputEmbedding=V×d=64000×4096=262.14M每层:Attention4hd²=4×32×4096²=2.15G,FFN8hd²=8×32×4096²=4.30G总计=262.14M+32×(2.15+4.30)G=262.14M+207.36G≈207.62G输出层=d×V=262.14M总≈207.62G+0.26G=207.88G≈7.0B(与公开一致)(2)INT8节省:原fp32占4字节,INT8占1字节,节省=75.0065.(10分)使用LoRA微调,原矩阵W∈R^{2048×8192},秩r=16,学习率lr=3e-4,训练1000步,单步耗时0.2s。(1)计算可训练参数总量;(2)若改用全量微调,计算额外耗时(假设计算量与参数量成正比)。答案与解析:(1)可训练=2×2048×16=65536(2)全量参数量=2048×8192=16.78M,额外参数=16.78M−0.065M≈16.71M比例=16.71/0.065≈257.1额外耗时≈0.2×257.1×1000=51420s≈14.3h。66.(10分)在RLHF的PPO阶段,批大小B=512,序列长度T=1024,模型7B,使用fp16,激活检查点开启,估算一次前向+反向所需的激活显存(单位GB,保留两位小数)。提示:激活≈2BTd+10BTd/√n,n为checkpoint层数分组,取n=4。答案与解析:d=4096,代入:激活≈2×512×1024×4096×2+1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论