2025年人工智能(AI)训练师专业知识考试题(附答案)_第1页
2025年人工智能(AI)训练师专业知识考试题(附答案)_第2页
2025年人工智能(AI)训练师专业知识考试题(附答案)_第3页
2025年人工智能(AI)训练师专业知识考试题(附答案)_第4页
2025年人工智能(AI)训练师专业知识考试题(附答案)_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年人工智能(AI)训练师专业知识考试题(附答案)一、单项选择题(每题1分,共30分。每题只有一个正确答案,错选、多选均不得分)1.在Transformer架构中,用于捕捉序列位置信息的核心组件是A.卷积核B.位置编码(PositionalEncoding)C.残差连接D.批归一化答案:B解析:Transformer完全摒弃RNN与CNN,依靠位置编码将词序信息注入词向量,使模型感知token在序列中的绝对或相对位置。2.当训练数据极度不平衡时,下列指标中最容易“虚高”的是A.F1scoreB.精确率(Precision)C.召回率(Recall)D.准确率(Accuracy)答案:D解析:负样本占比极高时,模型全判负即可获得高Accuracy,但无法反映少数类的真实性能。3.在联邦学习场景下,为防止中央服务器直接获取用户梯度,常用的隐私保护技术是A.知识蒸馏B.同态加密C.梯度裁剪D.动量加速答案:B解析:同态加密允许在密文状态下完成聚合运算,服务器只能看到加密后的聚合梯度,无法反推出个体更新。4.当使用Adam优化器时,下列超参数对初期学习率缩放影响最大的是A.β₁B.β₂C.εD.α(初始学习率)答案:D解析:α直接决定步长,β₁、β₂控制动量衰减,ε仅为数值稳定项。5.在DiffusionModel训练阶段,网络通常被要求预测A.原始图像x₀B.噪声εₜC.条件向量cD.对数似然logp(x)答案:B解析:去噪过程等价于逐步减去高斯噪声,网络学习目标即预测当前步添加的噪声εₜ。6.当使用混合精度训练时,下列哪项操作最可能引发梯度下溢(underflow)A.float16参数更新B.float32主权重拷贝C.LossscalingD.动态精度切换答案:A解析:float16动态范围有限,当梯度接近其最小表示时易下溢;Lossscaling通过放大梯度缓解该问题。7.在强化学习中,当策略梯度方差过大时,最常用的基线(baseline)选择是A.平均动作值B.状态值函数V(s)C.最大动作值D.策略熵答案:B解析:V(s)与动作无关,可大幅降低方差且保持无偏性。8.在LoRA微调中,可训练参数集中在A.注意力矩阵WQ、WK、WVB.LayerNorm权重C.嵌入层D.低秩旁路矩阵A、B答案:D解析:LoRA冻结原权重,仅引入低秩分解矩阵A、B,显著减少显存与通信开销。9.当使用DPO(DirectPreferenceOptimization)对齐大模型时,其损失函数直接优化A.策略与参考策略的KL散度B.人类偏好排序的似然比C.奖励模型的绝对值D.交叉熵答案:B解析:DPO将RLHF中的奖励模型与强化学习步骤合并,通过偏好对比损失直接更新策略。10.在VisionTransformer中,PatchEmbedding的卷积核步长通常设置为A.1B.3C.等于kernelsizeD.等于图像高宽答案:C解析:步长=核大小可实现不重叠切分,保持计算效率。11.当使用DeepSpeedZeRO3时,优化器状态、梯度和参数分别被A.全复制到每张卡B.按层切分到不同卡C.按参数切分到不同卡D.卸载到CPU答案:C解析:ZeRO3将三者全部按参数维度切片,实现极致显存节省。12.在文本生成任务中,重复惩罚(repetitionpenalty)>1时,下列说法正确的是A.降低已生成token的logitsB.提高已生成token的logitsC.对所有tokenlogits加常数D.仅影响eos_token答案:A解析:重复惩罚通过缩放已出现token的logits抑制循环输出。13.当使用RAG(RetrievalAugmentedGeneration)时,检索器通常采用A.BM25B.双编码器稠密向量C.单塔交叉编码器D.TFIDF答案:B解析:双编码器可离线建库、在线快速近似搜索,兼顾效率与精度。14.在模型蒸馏中,若学生网络仅学习教师网络的logits而非真实标签,该策略称为A.数据增强蒸馏B.特征层蒸馏C.无标签蒸馏(logits蒸馏)D.自蒸馏答案:C解析:仅匹配softlogits,无需groundtruth,适用于无标签场景。15.当使用FlashAttention时,内存复杂度从O(n²)降至A.O(n)B.O(nlogn)C.O(n^(3/2))D.不变答案:A解析:通过分块与重计算,FlashAttention将显存与序列长度呈线性关系。16.在RLHF中,奖励模型通常采用A.回归头输出标量B.多分类softmaxC.孪生网络对比D.生成式解码答案:A解析:奖励模型为BradleyTerry模型服务,输出单值奖励。17.当使用GroupNorm时,其统计量计算维度为A.(N,C,H,W)全部B.(N,C)C.(C,H,W)D.(H,W)答案:C解析:GroupNorm在通道分组内计算均值方差,与Batch无关。18.在混合专家模型(MoE)中,门控网络Top2路由会导致A.显存线性增长B.计算量指数增长C.稀疏激活D.梯度消失答案:C解析:Top2仅激活两个专家,保持计算稀疏,显存随专家数线性增加。19.当使用Amdahl定律评估分布式训练加速比时,若串行部分占5%,理论上128卡最大加速比为A.20B.21.3C.64D.128答案:B解析:S=1/(0.05+0.95/128)≈21.3。20.在PyTorch2.x中,pile默认后端为A.TorchScriptB.ONNXRuntimeC.InductorD.TensorRT答案:C解析:Inductor使用Triton生成GPU内核,融合效率更高。21.当使用QLoRA时,模型权重被量化为A.int8B.int4C.float16D.bfloat16答案:B解析:QLoRA在NF4(4bitNormalFloat)上存储权重,训练时反量化回bfloat16。22.在扩散模型采样阶段,DDIM与DDPM的主要差异在于A.网络结构B.噪声调度C.是否随机D.损失函数答案:C解析:DDIM通过调整方差项可实现确定采样,DDPM为随机采样。23.当使用MegatronLM张量并行时,对LayerNorm层通常A.复制到所有卡B.按行切分C.按列切分D.不做并行答案:A解析:LayerNorm参数极少,复制开销低,避免额外通信。24.在对比学习InfoNCE损失中,温度系数τ越小,梯度A.越平缓B.越集中在正样本对C.越稀疏D.不变答案:B解析:τ→0使softmax逼近onehot,负样本梯度被抑制,正样本梯度放大。25.当使用GradientCheckpointing时,时间换空间的比例约为A.1:1B.1:2C.1:3D.2:1答案:D解析:重计算激活需额外一次前向,时间增加约一倍,显存显著下降。26.在AutoML领域,ZeroshotNAS指A.无需搜索B.无需训练C.无需验证集D.无需超参答案:B解析:ZeroshotNAS通过性能代理(如梯度/参数尺度)评估架构,无需训练即可排序。27.当使用DeepspeedMoE+ExpertParallel时,AlltoAll通信发生在A.前向门控后B.反向梯度后C.优化器更新后D.数据加载后答案:A解析:门控决策后需将token路由到对应专家卡,触发AlltoAll。28.在StableDiffusion中,文本条件通过A.CrossAttention注入UNetB.拼接通道C.替换卷积核D.控制噪声方差答案:A解析:文本编码向量通过CrossAttention与UNet中间特征交互。29.当使用Perparameteradaptivelearningrate(如AdaGrad)时,累积平方梯度会导致A.学习率单调递增B.学习率单调递减C.学习率恒定D.梯度爆炸答案:B解析:分母累加平方梯度,学习率随时间不断衰减,可能过早停止。30.在RLHF的PPO阶段,若KL惩罚系数β设置过大,会导致A.策略更新过快B.策略逼近参考模型,多样性下降C.奖励模型过拟合D.价值网络发散答案:B解析:KL项限制策略偏离参考模型,β过大则生成结果趋同,创造性降低。二、多项选择题(每题2分,共20分。每题有两个或两个以上正确答案,多选、少选、错选均不得分)31.以下哪些技术可有效缓解大模型“幻觉”(hallucination)A.检索增强生成(RAG)B.思维链提示(CoT)C.强化学习从人类反馈(RLHF)D.提高温度系数τ答案:A、B、C解析:RAG引入外部知识,CoT增强推理,RLHF对齐人类偏好;高温反而加剧随机幻觉。32.关于混合精度训练,下列说法正确的是A.主权重使用float32B.激活值使用bfloat16可扩大动态范围C.Lossscaling可防止梯度下溢D.所有算子必须支持fp16答案:A、B、C解析:部分算子(如LayerNorm)仍用fp32,无需全部fp16。33.在DiffusionModel中,下列属于加速采样算法的是A.DDIMB.DPMSolverC.PLMSD.Repaint答案:A、B、C解析:Repaint用于图像修复,非加速采样。34.当使用MegatronLM流水线并行时,可能引入的额外开销包括A.气泡时间(bubble)B.显存碎片C.交叉熵计算冗余D.参数同步答案:A、B解析:气泡由batch切分导致,显存碎片因microbatch交替;交叉熵仅一次,参数同步由DP完成。35.以下属于参数高效微调(PEFT)方法的是A.LoRAB.AdaLoRAC.BitFitD.ModelParallel答案:A、B、C解析:ModelParallel属于并行策略,非微调方法。36.在对比学习中,批量大小(batchsize)增大通常带来A.更多负样本B.梯度方差降低C.GPU显存线性增加D.温度系数需同步增大答案:A、B、C解析:温度系数为超参,无需随batch线性增大。37.当使用TorchScript导出模型时,下列语法可能导致追踪失败的是A.条件控制流ifelse依赖张量值B.动态shape输出C.for循环长度依赖张量D.torch.matmul答案:A、B、C解析:matmul为静态算子,无问题;前三个引入动态图。38.在Zeroshot推理中,下列技巧可提升prompt稳定性A.多数投票(majorityvoting)B.校准输出概率C.增加微调D.使用思维链模板答案:A、B、D解析:Zeroshot定义即无微调。39.关于KL散度,下列成立的是A.KL(P||Q)≥0B.KL(P||Q)=KL(Q||P)C.当P=Q时取零D.可用于衡量策略差异答案:A、C、D解析:KL非对称,故B错误。40.在AutoEncoder中,添加下列正则项可得到稀疏表示A.L1正则B.KL散度(针对隐变量分布)C.DropoutD.SpectralNorm答案:A、B解析:L1直接稀疏;KL散度约束隐变量接近稀疏先验;Dropout与谱范数非直接稀疏。三、判断题(每题1分,共10分。正确打“√”,错误打“×”)41.使用GroupNorm时,batchsize可以设为1。答案:√解析:GroupNorm统计量与Batch维度无关。42.FlashAttention支持任意长度的序列,无需分块。答案:×解析:受SRAM容量限制,仍需分块。43.LoRA微调后推理阶段必须保留额外旁路矩阵。答案:×解析:可将旁路权重合并回原矩阵,推理无额外开销。44.在RLHF中,奖励模型越大,PPO阶段策略提升一定越大。答案:×解析:过大奖励模型可能过拟合,反而导致策略偏移。45.使用int8权重量化时,zeropoint通常用于对称量化。答案:×解析:zeropoint为非对称量化引入,对称量化无需。46.扩散模型的ELBO目标与VAE的ELBO数学形式等价。答案:×解析:两者均用变分下界,但先验与近似后验构造不同,不等价。47.在VisionTransformer中,增大patchsize会降低计算量但可能降低精度。答案:√解析:序列变短,计算减少,但丢失细粒度特征。48.使用DeepspeedMoE时,专家数量增加不会增加激活参数量。答案:√解析:激活专家数固定(如Top2),总激活参数不变。49.梯度裁剪(clipbynorm)可解决梯度爆炸但无法缓解梯度消失。答案:√解析:裁剪仅设上限,不解决下限。50.知识蒸馏中,温度升高会使softlabel分布更尖锐。答案:×解析:温度越高分布越平滑。四、填空题(每空2分,共20分)51.Transformer中,自注意力计算复杂度为________,而FlashAttention通过________将显存降至线性。答案:O(n²),分块+重计算解析:标准Attention需存储n×n注意力矩阵;FlashAttention按块计算并丢弃中间结果。52.在RLHF的PPO损失中,clip项的上下界分别为________。答案:1ε、1+ε解析:ε通常取0.1或0.2,限制策略更新幅度。53.使用AdamW时,权重衰减等价于在参数更新时对参数乘以________系数。答案:(1λη)解析:AdamW将权重衰减从梯度中解耦,每步直接衰减参数。54.在StableDiffusion中,UNet输入的timestept通过________编码后与特征相加。答案:SinusoidalPositionEmbedding解析:正余弦位置编码将离散t映射为向量,与图像特征同维。55.若某FP16模型权重大小为7GB,则使用QLoRA的NF4量化后,权重占用约________GB。答案:1.75解析:NF4为4bit,压缩比8:1,7/8≈0.875,实际加量化常数后约1.75GB。56.在对比学习中,InfoNCE损失的温度系数τ越小,正样本对的梯度权重越________。答案:大解析:τ→0使softmax趋近狄拉克,正样本梯度主导。57.使用TorchScript导出模型时,需调用torch.jit.________方法进行追踪。答案:trace解析:trace通过示例输入记录算子流,生成静态图。58.在MegatronLM中,张量并行对ColumnParallelLinear的输出按________维度切分,对RowParallelLinear的输入按________维度切分。答案:列,行解析:Column切输出特征维,Row切输入特征维,保证无需额外通信完成矩阵乘。59.若某训练任务峰值显存为40GB,开启gradientcheckpointing后,理论上显存可降至约________GB,但时间增加约________%。答案:20,50解析:重计算以时间换空间,显存减半,时间增加一次前向,约50%。60.在扩散模型中,DDPM的反向过程方差βₜ采用________调度,而DDIM可将其设为________以实现确定采样。答案:线性或余弦,0解析:DDIM通过方差为0的隐式采样实现确定输出。五、简答题(每题10分,共30分)61.描述LoRA的低秩分解原理,并说明为何在推理阶段可将旁路权重合并到原矩阵而不引入误差。答案:LoRA将增量权重ΔW分解为两个低秩矩阵A、B,其中ΔW=BA,秩r≪d。训练时冻结原矩阵W₀,仅优化A、B,减少参数量。推理阶段计算h=(W₀+ΔW)x=W₀x+BAx,由于矩阵乘满足分配律,可预计算W'=W₀+BA并存储,后续只需一次矩阵乘,数值等价,无精度损失。62.解释FlashAttention如何通过分块与重计算降低显存,并给出其GPU内存复杂度公式。答案:FlashAttention将输入Q、K、V按行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论