2026年人工智能训练师（三级）全国统考理论题库

上传人：1*** IP属地：四川上传时间：2026-04-10 格式：DOCX 页数：19 大小：43.97KB 积分：12 举报 版权申诉

已阅读5页，还剩14页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2026年人工智能训练师（三级）全国统考理论题库1.单项选择题（每题1分，共30分）1.在PyTorch中，若希望冻结ResNet-50除最后一层外的全部参数，下列代码片段正确的是A.forpinmodel.parameters():p.requires_grad=FalseB.forname,pind_parameters():if'fc'notinname:p.requires_grad=FalseC.model.eval()D.torch.no_grad()答案：B2.使用Adam优化器时，若β₁=0.9，β₂=0.999，则第t步的梯度二阶矩估计vₜ的更新公式为A.=B.=C.=D.=答案：A3.在联邦学习场景下，为防止模型更新泄露用户隐私，最常用的保护机制是A.同态加密B.差分隐私C.梯度压缩D.知识蒸馏答案：B4.当训练数据呈现长尾分布时，以下哪种损失函数对尾部类别最友好A.Cross-EntropyB.FocalLossC.MSED.HingeLoss答案：B5.在VisionTransformer中，位置编码通常采用A.可学习1D向量B.固定2D正弦余弦C.相对位置偏置D.以上皆可答案：D6.若某卷积层输入通道为64，输出通道为128，卷积核3×3，groups=32，则该层参数量为A.128×3×3×64B.128×3×3×2C.128×3×3×32D.32×3×3×4答案：B7.在强化学习中，DDPG算法属于A.基于策略梯度B.基于值函数C.Actor-CriticD.Model-based答案：C8.当使用混合精度训练时，LossScaling的主要目的是A.减少显存占用B.避免梯度下溢C.加速通信D.提高数值精度答案：B9.在NLP任务中，若词汇表大小为50000，嵌入维度为512，采用ALiBi位置编码，则额外增加的参数量为A.0B.512C.50000×512D.50000×512×2答案：A10.下列关于GradientAccumulation的描述，错误的是A.可模拟大batch训练B.会增加显存峰值C.需对梯度求平均D.可与混合精度共用答案：B11.在目标检测中，若将YOLOv5的IoU阈值从0.5提高到0.7，则mAP@0.5通常会A.上升B.下降C.不变D.先升后降答案：B12.使用TensorRT加速时，若网络中包含PyTorch的`torch.nonzero`算子，最可能的结果是A.自动转换为ONNXB.生成CustomPluginC.编译失败D.无影响答案：C13.在数据并行训练中，All-Reduce操作发生在A.前向传播后B.反向传播后C.参数更新后D.数据加载后答案：B14.若某模型在单卡batch=32时显存占用为8GB，则使用DeepSpeedZeRO-3在8卡上理论上可运行的最大batch为A.256B.512C.1024D.2048答案：C15.在图像分类任务中，MixUp增强的数学形式为A.

答案：A16.当使用EarlyStopping时，若patience=5且monitor='val_loss'，则训练将在A.验证损失连续5轮下降后停止B.验证损失连续5轮不下降后停止C.训练损失连续5轮不下降后停止D.验证准确率连续5轮不上升后停止答案：B17.在Transformer中，缩放点积注意力的缩放因子为A.B.C.D.答案：B18.若某模型参数量为1.2B，使用FP16+Adam，则显存占用约为A.4.8GBB.7.2GBC.9.6GBD.14.4GB答案：C19.在推荐系统冷启动场景中，最适合的建模方式是A.矩阵分解B.深度FMC.Meta-LearningD.Wide&Deep答案：C20.当使用Kaiming初始化时，若激活函数为ReLU，则方差缩放系数为A.B.C.D.答案：A21.在语音合成中，若使用HiFi-GAN作为声码器，其生成器采用的卷积类型为A.因果卷积B.转置卷积C.深度可分离卷积D.分组卷积答案：B22.在自监督学习中，SimSiam停止梯度操作的作用是A.防止崩溃解B.加速收敛C.降低显存D.提高精度答案：A23.若某数据集类别极度不平衡，正负样本比为1:99，则最合适的评价指标为A.AccuracyB.PrecisionC.F1-scoreD.AUC-ROC答案：D24.在模型蒸馏中，当学生模型容量远小于教师时，通常会增加A.温度系数B.中间层损失C.数据增强D.dropout答案：B25.使用Horovod进行分布式训练时，默认的通信后端是A.GlooB.NCCLC.MPID.RDMA答案：C26.在图像分割任务中，若采用DiceLoss，其公式为A.1B.∑C.D.1答案：A27.当使用学习率预热时，若warmup_epochs=5，初始lr=0.0001，最大lr=0.001，则第3个epoch的lr为A.0.0001B.0.00052C.0.00064D.0.001答案：B28.在GPT-3训练中，采用的最大序列长度为A.512B.1024C.2048D.4096答案：C29.若某模型在INT8量化后精度下降明显，最可能的原因是A.权重分布偏移B.激活值分布偏移C.量化粒度为per-tensorD.未使用校准集答案：B30.在AutoML中，DARTS算法搜索的是A.模型深度B.模型宽度C.操作与连接拓扑D.学习率策略答案：C2.多项选择题（每题2分，共20分）31.下列哪些操作可以有效缓解模型过拟合A.LabelSmoothingB.DropBlockC.增加batchsizeD.StochasticDepth答案：A,B,D32.关于Transformer中的LayerNorm，以下说法正确的是A.沿特征维度计算均值方差B.可替换为RMSNormC.预LayerNorm有助于训练稳定性D.后LayerNorm可减少参数量答案：A,B,C33.在模型部署阶段，以下哪些技术可降低推理延迟A.OperatorFusionB.WeightPruningC.DynamicQuantizationD.GradientCheckpointing答案：A,B,C34.下列属于自监督视觉预训练方法的有A.MoCov3B.BYOLC.SwAVD.BERT答案：A,B,C35.当使用ApexO2级别混合精度时，下列哪些张量会被保持为FP32A.主权重B.激活C.梯度D.优化器状态答案：A,D36.在推荐系统中，下列哪些做法可缓解“马太效应”A.反事实学习D.探索利用均衡C.位置偏差建模D.多任务学习答案：A,B,C37.关于GPT的Decoder-only架构，以下说法正确的是A.使用因果掩码B.可执行双向注意力C.预训练目标为语言模型D.微调时可添加任务特定前缀答案：A,C,D38.在目标检测中，以下哪些组件属于YOLOv8的HeadA.Anchor-Free分支B.IoU回归分支C.分类分支D.掩码分支答案：A,B,C39.下列哪些损失函数可直接用于多标签分类A.BCEWithLogitsLossB.FocalLossC.AsymmetricLossD.CTCLoss答案：A,B,C40.在联邦学习中，以下哪些攻击方式可推断用户隐私A.模型逆向攻击B.属性推理攻击C.成员推理攻击D.梯度泄露攻击答案：A,B,C,D3.判断题（每题1分，共10分）41.使用Layer-wiseLearningRateDecay时，越靠近输入层学习率应越大。答案：错误42.在PyTorch中，`torch.cuda.amp.autocast`与`torch.cuda.amp.GradScaler`必须成对使用。答案：错误43.对于二分类任务，AUC=0.5等价于随机猜测。答案：正确44.知识蒸馏中，教师模型在训练阶段也必须保持FP32精度。答案：错误45.在VisionTransformer中，去掉PositionEmbedding后模型仍能保持100%精度。答案：错误46.使用GroupNormalization时，batchsize大小对性能影响较小。答案：正确47.在强化学习中，PolicyGradient定理仅适用于离散动作空间。答案：错误48.模型剪枝后若稀疏结构不规则，需使用专用推理库才能加速。答案：正确49.在语音增强中，STFT的窗长越长，时域分辨率越高。答案：错误50.使用DeepSpeed时，ZeRO-3会自动将优化器状态分片到各GPU。答案：正确4.填空题（每题2分，共20分）51.在PyTorch中，若需将模型参数以________格式保存，应使用`torch.save(model.state_dict(),path)`。答案：state_dict52.若某卷积层输出尺寸公式为O=答案：11253.在Transformer中，若隐藏维度d=768，注意力头数h=12，则每个头的维度为________。答案：6454.若使用cosineannealing学习率调度，初始lr=0.1，最小lr=0.001，周期T=10，则第5个epoch的lr为________。答案：0.050555.当使用INT8量化时，若量化比例系数为s，零点为z，则反量化公式为________。答案：=56.在推荐系统FM模型中，二阶交互项的计算复杂度经优化后为________。答案：O(kn)57.若某LSTM单元输入维度为512，隐藏维度为512，则其权重矩阵参数量为________。答案：4×(512×512+512×512+512)58.在图像增强中，RandAugment的搜索空间包含________种变换。答案：1459.当使用GradientClipping时，若范数阈值为1.0，梯度范数为2.0，则缩放系数为________。答案：0.560.在GPT-2中，词汇表大小为50257，嵌入维度为768，则嵌入层参数量为________。答案：38,600,5765.简答题（每题10分，共20分）61.给定一个文本分类任务，训练数据极度不平衡，且标注成本高昂。请设计一套完整的训练流程，包括数据策略、模型结构、损失函数及评估指标，并说明每一步的合理性。答案与解析：1)数据策略：采用自监督预训练+半监督学习。首先在大规模无标注语料上进行掩码语言模型预训练，得到上下文表示；然后使用UDA（UnsupervisedDataAugmentation）对未标注数据进行回译、同义词替换等增强，生成伪标签，扩充训练集。2)模型结构：采用预训练Encoder（如RoBERTa-base）+分类头。冻结底层6层参数，仅微调上层6层，减少过拟合。3)损失函数：主损失为asymmetricloss（聚焦尾部类别），辅以对比学习损失，使尾部类别特征更紧凑。4)评估指标：采用macro-F1与AUC-ROC综合评估，既关注整体亦关注尾部表现。合理性：自监督+半监督缓解标注不足；冻结底层降低过拟合；asymmetricloss抑制头部类别主导；macro-F1确保尾部性能不被稀释。62.某目标检测模型在边缘设备上推理延迟为200ms，需求为50ms。请给出系统级优化方案，涵盖模型压缩、框架加速、硬件适配三个层面，并估算各阶段可带来的延迟收

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2026年人工智能训练师（三级）全国统考理论题库

文档简介

温馨提示

最新文档

评论

2026年人工智能训练师（三级）全国统考理论题库

文档简介

温馨提示

最新文档

评论

相关文档