2026年人工智能训练师（二级）职业技能真题题库

上传人：1*** IP属地：四川上传时间：2026-04-11 格式：DOCX 页数：26 大小：45.77KB 积分：12 举报 版权申诉

已阅读5页，还剩21页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2026年人工智能训练师（二级）职业技能真题题库一、单项选择题（每题1分，共30分）1.在PyTorch中，若希望冻结某一层参数不参与反向传播，应使用下列哪条语句？A.layer.requires_grad=FalseB.layer.trainable=FalseC.layer.freeze()D.torch.no_grad(layer)答案：A解析：requires_grad是PyTorch中控制张量是否参与梯度计算的核心属性。2.当训练数据类别极度不平衡时，以下哪种损失函数最适合直接优化F1-score的近似？A.CrossEntropyLossB.FocalLossC.DiceLossD.MSELoss答案：C解析：DiceLoss直接基于重叠度，天然对前景/背景不平衡鲁棒。3.在Transformer中，位置编码使用正弦/余弦函数而非可学习向量的主要优点是：A.减少显存占用B.支持任意长度外推C.提升训练速度D.增强非线性答案：B解析：正弦位置编码具有周期性，可泛化到训练时未见过的更长序列。4.使用混合精度训练时，lossscaling的主要目的是：A.加速梯度下降B.防止梯度下溢C.减少通信量D.提高权重量化精度答案：B解析：FP16表示范围小，乘以scale可防止梯度下溢到零。5.在联邦学习场景下，FedAvg算法的服务器端更新规则为：A.加权平均客户端模型参数B.加权平均客户端梯度C.加权平均客户端损失D.加权平均客户端准确率答案：A解析：FedAvg将各客户端本地训练后的参数按数据量加权平均。6.若某卷积层输入通道为64，输出通道128，卷积核3×3，groups=32，则该层参数量为：A.128×64×3×3B.128×32×3×3C.128×2×3×3D.128×64×3×3/32答案：C解析：分组卷积每组输入通道2，输出通道4，共32组，参数量128×2×3×3。7.在强化学习中，DDPG算法使用以下哪种技巧实现策略探索？A.ε-greedyB.Ornstein-Uhlenbeck噪声C.熵正则D.重要性采样答案：B解析：DDPG在连续控制任务中采用OU噪声进行相关噪声探索。8.当使用知识蒸馏时，温度系数T增大将导致：A.教师模型softmax输出更尖锐B.学生模型梯度更小C.蒸馏损失权重自动降低D.教师模型准确率下降答案：B解析：温度升高，softmax分布更平滑，梯度幅值减小。9.在ONNX模型优化中，常量折叠(constantfolding)的作用是：A.合并BatchNorm与ConvB.将静态计算提前到编译期C.量化权重到INT8D.剪枝冗余节点答案：B解析：常量折叠在图优化阶段提前执行可静态求值的算子。10.当使用DeepSpeedZeRO-3时，下列哪项仍保存在单个GPU显存中？A.模型参数B.优化器状态C.梯度D.均分片到所有GPU，无单GPU保存答案：D解析：ZeRO-3将参数、梯度、优化器状态全分片，无单GPU完整保存。11.在图像分割任务中，若评价指标为mIoU，则其计算时对各类别IoU采取：A.算术平均B.几何平均C.调和平均D.加权平均（按像素数）答案：A解析：mIoU为各类别IoU算术平均，无视类别大小。12.当使用梯度累积模拟大batch时，学习率应：A.同比增大B.同比减小C.保持不变D.按平方根缩放答案：C解析：梯度累积不改变有效batch大小，故学习率无需调整。13.在NLP数据增强中，Back-translation主要提升模型：A.语法纠错能力B.鲁棒性与泛化C.推理速度D.显存利用率答案：B解析：回译生成语义一致、表达多样的伪数据，增强泛化。14.若某模型在验证集上损失持续下降而准确率不再提升，最可能的原因是：A.过拟合B.学习率过高C.标签噪声增大D.梯度爆炸答案：C解析：损失下降但准确率停滞，通常因标签噪声导致预测概率未对齐硬标签。15.在模型蒸馏中，若学生模型容量远小于教师，下列哪种策略最有助于提升学生上限？A.中间层特征蒸馏B.提高温度TC.增加数据增强D.使用更大的batch答案：A解析：中间层提示可弥补容量差距，提供额外监督信号。16.当使用RandAugment时，控制幅度的超参数为：A.n,mB.p,rC.alpha,betaD.k,theta答案：A解析：n为变换个数，m为幅度，由GridSearch搜索。17.在目标检测中，YOLOv5的anchor分配策略为：A.IoU阈值静态分配B.基于中心点偏移动态分配C.完全无anchorD.基于宽高比聚类答案：B解析：YOLOv5采用基于中心偏移的跨网格动态分配。18.若使用A100GPU训练，开启TF32后，单精度矩阵乘法的峰值算力约为：A.19.5TFLOPSB.156TFLOPSC.312TFLOPSD.624TFLOPS答案：B解析：A100TF32峰值约156TFLOPS，为FP16一半。19.在推荐系统冷启动场景，以下哪种方法最充分利用文本模态？A.MatrixFactorizationB.Wide&DeepC.DIND.BERT4Rec答案：D解析：BERT4Rec基于文本内容编码，适合冷启动。20.当使用EarlyStopping时，若监控指标为“验证损失”，则模式应设为：A.minB.maxC.autoD.off答案：A解析：损失越小越好，模式取min。21.在PyTorchLightning中，若希望每训练epoch结束后执行验证，应重写：A.training_stepB.validation_stepC.training_epoch_endD.validation_epoch_end答案：C解析：training_epoch_end可在训练epoch末触发验证。22.当使用混合专家模型(MoE)时，门控网络输出通常经过：A.SoftmaxB.SigmoidC.ReLUD.LayerNorm答案：A解析：门控需概率化，使用Softmax。23.在语音合成中，若使用HiFi-GAN作为声码器，其生成器采用的卷积为：A.1DConvB.2DConvC.Transposed1DD.Transposed2D答案：C解析：HiFi-GAN生成器为反卷积1D上采样。24.当使用DeeplabV3+时，ASPP模块中不同并行的膨胀率设计为：A.[1,2,3,4]B.[6,12,18,24]C.[1,6,12,18]D.[3,6,9,12]答案：C解析：DeeplabV3+采用1,6,12,18。25.在模型部署阶段，若使用TensorRTINT8校准，校准集大小一般取：A.10B.100C.500D.1000答案：C解析：500张图片可覆盖激活分布，兼顾速度与精度。26.当使用Swish激活函数时，其导数在x=0处的值为：A.0B.0.5C.1D.未定义答案：B解析：Swish(x)=xσ(x)，导数σ(0)+0·σ′(0)=0.5。27.在DiffusionModels中，DDPM的反向过程噪声预测网络通常采用：A.U-NetB.ResNet50C.TransformerD.RNN答案：A解析：DDPM使用U-Net预测噪声。28.当使用Megatron-LM训练GPT时，张量并行对下列哪一层无效？A.EmbeddingB.Self-AttentionC.FFND.LayerNorm答案：D解析：LayerNorm参数极少，无需张量并行。29.在CTR预估中，DCN的“交叉层”参数复杂度为：A.O(d)B.O(d^2)C.O(kd)D.O(kd^2)答案：C解析：每层交叉引入向量w，共k层，复杂度O(kd)。30.当使用K-FAC优化器时，其近似Fisher信息矩阵为：A.对角块B.全矩阵C.克罗内克积D.单位矩阵答案：C解析：K-FAC用Kronecker积近似层内Fisher。二、多项选择题（每题2分，共20分）31.以下哪些操作可有效缓解模型训练中的“梯度消失”？A.使用残差连接B.使用LayerNormC.使用ReLUD.增大学习率答案：A,B,C解析：残差、LayerNorm、ReLU均缓解梯度消失；过大学习率反而导致爆炸。32.在联邦学习中，下列哪些攻击可推断客户端私有数据？A.模型逆向攻击B.成员推理攻击C.梯度泄露攻击D.后门攻击答案：A,B,C解析：后门攻击旨在操控预测，不直接推断数据。33.当使用PyTorchDistributedDataParallel时，以下哪些环境变量必须正确设置？A.MASTER_ADDRB.MASTER_PORTC.WORLD_SIZED.CUDA_VISIBLE_DEVICES答案：A,B,C解析：CUDA_VISIBLE_DEVICES可选，前三者必须。34.在目标检测中，以下哪些方法属于anchor-free？A.FCOSB.CenterNetC.RetinaNetD.YOLOX答案：A,B,D解析：RetinaNet使用anchor。35.当使用知识蒸馏训练TinyBERT时，其蒸馏目标包括：A.预测层logitsB.注意力矩阵C.隐藏状态D.嵌入层答案：A,B,C解析：TinyBERT蒸馏预测、注意力、隐藏状态。36.以下哪些技术可降低Transformer推理延迟？A.KV-CacheB.BeamSearchC.DynamicAxialPos.Enc.D.SparseAttention答案：A,D解析：BeamSearch增加延迟；DynamicAxialPos.Enc.用于图像。37.在模型压缩中，下列哪些方法属于“量化感知训练”？A.LSQB.QATC.PTQD.LLM.int8()答案：A,B解析：PTQ与LLM.int8()为后训练量化。38.当使用Detectron2训练MaskR-CNN时，以下哪些数据增强默认开启？A.RandomFlipB.RandomCropC.ResizeShortestEdgeD.ColorJitter答案：A,C解析：Detectron2默认翻转与缩放，不默认裁剪与色彩抖动。39.在推荐系统多任务学习中，MMoE结构相比Shared-Bottom的优点有：A.缓解任务冲突B.参数量更少C.可扩展更多任务D.训练速度更快答案：A,C解析：MMoE参数量更大，训练略慢。40.当使用DeepSpeedMoE时，下列哪些策略可降低显存？A.ZeRO-OffloadB.ExpertParallelC.ActivationCheckpointingD.GradientAccumulation答案：A,B,C解析：GradientAccumulation不改变显存峰值。三、判断题（每题1分，共10分）41.使用LayerNorm的模型在batchsize=1时仍可稳定训练。答案：正确解析：LayerNorm与batch无关。42.在PyTorch中，inplaceReLU可节省显存但会破坏梯度检查点。答案：正确解析：inplace操作与checkpoint反向重计算冲突。43.当使用Adam优化器时，β1=0.9,β2=0.999为固定最优值，无需调参。答案：错误解析：不同任务需微调。44.INT8量化后，模型推理速度一定快于FP16。答案：错误解析：若硬件无INT8单元，反而慢。45.在DiffusionModels中，DDIM采样过程可加速但牺牲一定质量。答案：正确解析：DDIM为确定性采样，步数少时可降质。46.使用TorchScript追踪(Trace)比脚本(Script)更支持动态控制流。答案：错误解析：Trace仅记录静态路径，不支持动态。47.当使用Horovod训练时，梯度压缩算法PowerSGD可保证无损收敛。答案：错误解析：PowerSGD为有损压缩。48.在VisionTransformer中，去除位置编码后模型仍能保持平移等变。答案：错误解析：Self-Attention本身平移等变，但图像切块后失去绝对位置，性能下降。49.当使用Kaiming初始化时，ReLU网络方差在前向保持1。答案：正确解析：Kaiming针对ReLU设计。50.在联邦学习中，SecureAggregation可防止服务器看到单个客户端梯度。答案：正确解析：通过同态加密或秘密共享实现。四、填空题（每空2分，共20分）51.若某卷积层输入特征图尺寸为112×112，kernel=5×5，stride=2，padding=1，则输出尺寸为________。答案：55解析：⌊52.当使用RoPE（旋转位置编码）时，其旋转矩阵维度为________。答案：d/2解析：RoPE在二维子空间旋转，维度为d/2。53.在PyTorch中，若模型已加载至GPU，欲查看显存占用，可调用torch.cuda.memory________()。答案：allocated54.当使用FSDP(FullyShardedDataParallel)时，其分片单位是________。答案：参数层/模块解析：FSDP按层分片参数。55.若某Transformer模型隐藏维度为1024，注意力头数为16，则每个头的维度为________。答案：6456.在推荐系统冷启动中，使用BERT编码物品标题，其输出通常取________标记对应的向量。答案：[CLS]57.当使用混合专家模型时，若Top-2gating，则每个token激活________个专家。答案：258.若使用cosineannealing学习率调度，周期设为T_max，则最小学习率为________。答案：eta_min59.在图像分类中，MixUp超参数α=0.2，则混合系数λ服从________分布。答案：Beta(0.2,0.2)60.当使用ONNXRuntime推理时，设置会话选项graph_optimization_level为________可开启最激进优化。答案：ORT_ENABLE_ALL五、简答题（每题10分，共30分）61.描述如何使用梯度累积在单卡上模拟batchsize=2048，并给出PyTorch代码片段。答案：设物理batch=32，累积步数=64。```pythonmodel.zero_grad()fori,(x,y)inenumerate(loader):loss=model(x,y)/64loss.backward()if(i+1)%64==0:optimizer.step()model.zero_grad()```解析：每步loss除以累积步数，梯度累加64次后更新，等效batch=32×64=2048。62.说明LayerNorm与BatchNorm在RNN训练中的差异，并指出为何LayerNorm更适合。答案：BatchNorm依赖batch统计量，RNN变长序列导致batch统计量不稳定；推理时需保存移动平均，对序列长度敏感。LayerNorm沿特征维度归一化，与batch无关，且对序列内部分布变化鲁棒，更适合RNN。63.给出KL散度公式，并解释其在知识蒸馏中的作用。答案：蒸馏中P为教师softmax输出，Q为学生，最小化KL使学生分布逼近教师，传递暗知识。六、计算题（共20分）64.某Transformer模型参数量如下：词嵌入矩阵：vocab_size=50000，d_model=1024位置编码：可学习，max_len=2048层数L=24，每层：Self-Attention：QKV合并权重kv∈FFN：∈LayerNorm：每层2个，每个可训练参数=2×1024（weight+bias）输出层共享词嵌入参数求总参数量（单位：百万），并

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2026年人工智能训练师（二级）职业技能真题题库

文档简介

温馨提示

最新文档

评论

2026年人工智能训练师（二级）职业技能真题题库

文档简介

温馨提示

最新文档

评论

相关文档