2026年人工智能训练师（三级）实操技能考前冲刺试题

上传人：1*** IP属地：四川上传时间：2026-04-10 格式：DOCX 页数：18 大小：43.37KB 积分：12 举报 版权申诉

已阅读5页，还剩13页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2026年人工智能训练师（三级）实操技能考前冲刺试题一、单项选择题（每题1分，共20分。每题只有一个正确答案，请将正确选项的字母填在括号内）1.在PyTorch中，若需将模型参数全部冻结，以下代码正确的是（）A.forpinmodel.parameters():p.requires_grad=FalseB.model.eval()C.torch.no_grad()D.model.zero_grad()2.使用Keras构建文本分类模型时，若词汇表大小为20000，嵌入维度为128，则Embedding层参数量为（）A.20000×128B.20000×128+128C.20000×128×2D.1283.在YOLOv5训练过程中，若mAP@0.5持续上升而mAP@0.5:0.95下降，最可能的原因是（）A.学习率过高B.数据增强过度C.锚框尺寸不合适D.批大小过大4.对不平衡样本进行加权时，若正类样本权重为w⁺，负类样本权重为w⁻，则以下说法正确的是（）A.w⁺/w⁻=N⁻/N⁺B.w⁺/w⁻=N⁺/N⁻C.w⁺+w⁻=1D.w⁺=w⁻5.在Transformer中，位置编码使用正弦函数的主要原因是（）A.可学习参数更少B.支持任意长度序列外推C.加速注意力计算D.降低显存占用6.使用混合精度训练时，LossScaling的作用是（）A.防止梯度下溢B.加快收敛C.减少显存D.提高精度7.在联邦学习场景下，采用FedAvg算法，若本地epoch过大，可能导致（）A.客户端漂移B.通信开销下降C.全局模型发散D.隐私泄露8.对BERT进行下游任务微调时，通常冻结前6层的原因是（）A.低层特征通用性强B.加速训练C.防止过拟合D.以上皆是9.在强化学习PPO算法中，clip参数ε通常取值范围是（）A.0.01~0.2B.0.5~1.0C.1.0~2.0D.2.0~5.010.使用TensorRT加速推理时，若网络中含DynamicShuffle，应优先选择（）A.ExplicitBatchB.ImplicitBatchC.ONNX解析D.FP16模式11.在图像分割任务中，DiceLoss与交叉熵联合训练时，最佳权重比例经验值为（）A.1:1B.1:3C.3:1D.10:112.对LSTM进行剪枝时，最易稀疏化的门控单元是（）A.输入门B.遗忘门C.输出门D.细胞状态13.在AutoML中，若搜索空间为连续值，最优搜索策略为（）A.GridSearchB.RandomSearchC.BayesianOptimizationD.手动调参14.使用Horovod进行多机训练时，若出现梯度累积错误，应首先检查（）A.hvd.allreduceB.hvd.broadcastC.hvd.local_rankD.hvd.size15.在语音合成Tacotron2中，停止token预测使用Sigmoid阈值通常设为（）A.0.1B.0.5C.0.8D.0.9516.对ResNet50进行知识蒸馏时，若教师模型为EfficientNet-B7，温度T最佳初始值是（）A.1B.3C.7D.2017.在MLOps流水线中，模型漂移监控指标PSI>0.2表示（）A.轻微漂移B.中等漂移C.显著漂移D.无漂移18.使用ONNXRuntime部署时，若线程数设为1，推理延迟反而增大，最可能原因是（）A.内存池未预热B.图优化关闭C.动态维度D.CPU降频19.在GPT-3微调中，若样本长度差异大，最佳采样策略为（）A.随机采样B.桶采样C.逆频率采样D.贪心采样20.对VisionTransformer进行线性探测时，通常冻结的模块是（）A.PatchEmbeddingB.TransformerEncoderC.MLPHeadD.LayerNorm二、多项选择题（每题2分，共20分。每题有两个或两个以上正确答案，请将所有正确选项的字母填在括号内，漏选、错选均不得分）21.以下哪些操作可有效缓解GAN训练不稳定（）A.对判别器使用谱归一化B.生成器使用WassersteinLossC.采用历史平均生成器D.增大批大小至204822.在PyTorchLightning中，以下哪些钩子函数可用于自定义验证循环（）A.validation_stepB.validation_epoch_endC.on_validation_epoch_startD.on_train_batch_start23.使用DeepSpeedZero-3优化器时，可节省显存的原因包括（）A.参数分片B.梯度分片C.优化器状态分片D.激活检查点24.在目标检测任务中，以下哪些数据增强可能改变标签（）A.RandomCropB.MosaicC.HSV扰动D.Rotation25.对BERT进行量化时，以下哪些层适合进行INT8量化（）A.EmbeddingB.QKV线性层C.LayerNormD.Pooler26.在推荐系统Wide&Deep中，Wide部分可使用的特征有（）A.交叉特征B.连续特征C.ID类特征哈希D.文本CNN特征27.使用Optuna进行超参搜索时，以下哪些采样器支持多目标优化（）A.NSGAIIB.MOTPEC.RandomD.CmaEs28.在DiffusionModel训练过程中，以下哪些技巧可加速收敛（）A.余弦噪声调度B.重要性采样C.自适应组归一化D.EMA模型29.对CNN进行通道剪枝时，以下哪些指标可衡量通道重要性（）A.L1范数B.梯度幅值C.BN缩放因子D.特征图熵30.在强化学习多智能体场景下，以下哪些算法属于中心化训练去中心化执行（）A.MADDPGB.QMIXC.COMAD.IQL三、判断题（每题1分，共10分。正确打“√”，错误打“×”）31.使用混合精度训练时，FP16梯度累加可完全避免精度损失。（）32.在Transformer中，注意力矩阵的稀疏化可直接降低推理延迟。（）33.对GPT进行LoRA微调时，秩r越大，可训练参数量越少。（）34.在图像分类任务中，CutMix增强一定会增加训练时长。（）35.使用TensorBoard的EmbeddingProjector可直接可视化高维权重。（）36.联邦学习场景下，SecureAggregation可防止服务器看到客户端明文梯度。（）37.在ONNX中，DynamicAxes与FixedAxes可在同一模型中共存。（）38.对VAE进行β退火时，β>1会导致生成样本模糊。（）39.使用Horovod时，梯度压缩比率越大，模型精度一定越高。（）40.在DPO（DirectPreferenceOptimization）中，无需训练奖励模型。（）四、填空题（每空2分，共20分）41.在PyTorch中，若需将模型保存为TorchScript，应调用______方法。42.使用K-fold交叉验证时，若k=N（样本数），则称为______交叉验证。43.在YOLOv5中，计算CIoU时，需引入框的______与______两项几何因子。44.对BERT进行继续预训练时，若采用RoBERTa风格动态掩码，则掩码模式在______时重新生成。45.在强化学习PPO中，优势函数A^π(s,a)的GAE参数λ=0时，等价于______估计。46.使用DeepSpeed时，配置文件中的"zero_optimization.stage"设为3，表示启用______优化。47.在VisionTransformer中，若图像分辨率为224×224，Patch大小为16，则序列长度为______。48.对卷积核进行Winograd变换时，F(2×2,3×3)算法的乘法次数为______。49.在推荐系统DIN中，注意力单元使用______激活函数。50.对GPT进行INT8量化时，若采用SmoothQuant，需先对______进行缩放。五、简答题（每题10分，共30分）51.描述如何在单机八卡环境下使用PyTorchDDP训练ViT-Base，并说明如何设置SyncBN与GradientAccumulation，使得全局批大小达到4096，单卡批大小为32。52.给定一个二分类任务，训练集正负样本比例为1:99，给出一种结合FocalLoss与LDAM的加权方案，并推导其损失函数表达式。53.在模型蒸馏场景下，教师为RegNet-Y-16GF，学生为ResNet50，请设计一种基于特征图注意力迁移的损失，并给出PyTorch伪代码。六、计算题（共30分）54.（15分）某目标检测模型使用CIoU损失，预测框为(x,y,w,h)=(0.4,0.5,0.6,0.8)，真实框为(0.5,0.5,1.0,1.0)，请计算CIoU损失值。要求写出完整公式与步骤。55.（15分）在Transformer中，自注意力计算Q∈ℝ^{n×d_k},K∈ℝ^{n×d_k},V∈ℝ^{n×d_v}，其中n=1024，d_k=64，d_v=64，若采用FlashAttention算法，显存复杂度从O(n²)降至O(n)，请推导其内存峰值公式，并计算节省显存百分比。七、实操综合题（共40分）56.请阅读下列需求，完成代码实现并回答后续问题。需求：基于HuggingFaceTransformers，使用LoRA技术在GLUE/SST-2任务上微调DeBERTa-v3-base，要求：1.仅训练注意力查询投影层与值投影层；2.秩r=8，alpha=32；3.训练3个epoch，最大长度128，批大小32；4.使用EarlyStopping(patience=2)与SaveTopK(k=1)；5.输出验证集准确率和F1。请给出完整可运行Python脚本（含数据加载、模型构建、训练、评估），并回答：（1）LoRA可训练参数量占总参数百分比；（2）若将秩r提升至16，预计显存增加多少MB（给出估算公式与结果）。八、答案与解析一、单选1.A2.A3.B4.A5.B6.A7.A8.D9.A10.A11.B12.B13.C14.A15.B16.B17.C18.A19.B20.B二、多选21.ABCD22.ABC23.ABCD24.ABD25.AB26.AC27.AB28.ABCD29.ABCD30.ABC三、判断31.×32.√33.×34.√35.√36.√37.√38.√39.×40.√四、填空41.torch.jit.trace/torch.jit.script42.留一法（Leave-One-Out）43.中心点距离、长宽比44.每个序列（或每个epoch）45.单步（TD(0)）46.ZeRO-347.19748.1649.PReLU50.激活（或输入）五、简答51.关键步骤：初始化进程组：torch.distributed.init_process_group(backend="nccl")构建DDP模型：torch.nn.parallel.DistributedDataParallel(model,device_ids=[local_rank],output_device=local_rank,find_unused_parameters=False)设置SyncBN：将BN层替换为torch.nn.SyncBatchNorm，需在DDP封装前执行GradientAccumulation：每卡batch=32，8卡共256，累积步数=4096/256=16，每16步执行一次optimizer.step()DataLoader使用DistributedSampler，设置shuffle=True，drop_last=True52.方案：定义联合损失L=αL_{focal}+βL_{ldam}其中L_{focal}=−(1−p)^γlogpL_{ldam}=−\frac{Δ}{π}\arctan(\lambda(1−p))logp权重α=N⁻/(N⁺+N⁻),β=N⁺/(N⁺+N⁻)，Δ与λ为LDAM超参，通常Δ=0.5,λ=1.053.注意力迁移损失：L_{AT}=∑_{l}∥\mathcal{A}(F_T^{l})−\mathcal{A}(F_S^{l})∥_2^2其中\mathcal{A}(F)=\text{softmax}(\text{vec}(F)⋅\text{vec}(F)^T)伪代码：forlinlayers:A_T=torch.einsum('bchw,bdhw->bcd',F_T[l],F_T[l])A_S=torch.einsum('bchw,bdhw->bcd',F_S[l],F_S[l])loss+=F.mse_loss(A_S,A_T.detach())六、计算54.CIoU公式：\text{CIoU}=1−\text{IoU}+\frac{ρ^2(b,b^{gt})}{c^2}+αv其中IoU=0.6×0.8/(1×1)=0.48中心点距离ρ=0.1对角线c=√(1^2+1^2)=1.414v=\f

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2026年人工智能训练师（三级）实操技能考前冲刺试题

文档简介

温馨提示

最新文档

评论

2026年人工智能训练师（三级）实操技能考前冲刺试题

文档简介

温馨提示

最新文档

评论

相关文档