2026年人工智能(AI)训练师专业知识考试题(附答案)

上传人：1*** IP属地：四川上传时间：2026-05-31 格式：DOCX 页数：20 大小：46.77KB 积分：9.6 举报 版权申诉

已阅读5页，还剩15页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2026年人工智能(AI)训练师专业知识考试题(附答案)一、单项选择题（每题1分，共20分。每题只有一个正确答案，请将正确选项字母填入括号内）1.在深度学习中，若使用ReLU激活函数，下列关于其导数的描述正确的是（）A.在x=0处导数为0B.在x<0时导数为1C.在x>0时导数为1D.在整个定义域内导数恒为0答案：C2.给定一个二分类任务，训练集正负样本比例严重失衡（正:负=1:99），下列方法中最直接有效的是（）A.增加网络层数B.采用FocalLossC.提高学习率D.减小BatchSize答案：B3.在Transformer架构中，ScaledDot-ProductAttention的计算公式为（）A.AB.AC.AD.A答案：B4.在联邦学习场景下，为防止模型更新泄露用户隐私，常用的安全聚合协议是（）A.DP-SGDB.SecureAggregationC.FedAvgD.HomomorphicEncryption答案：B5.若某卷积层输入特征图尺寸为112×112×64，采用128个3×3卷积核，stride=2，padding=1，则输出特征图尺寸为（）A.56×56×128B.55×55×128C.112×112×128D.224×224×128答案：A6.在强化学习中，TRPO算法使用下列哪一项来衡量新旧策略的差异（）A.KL散度B.JS散度C.Wasserstein距离D.TotalVariation距离答案：A7.若使用Adam优化器，其默认超参数中的取值为（）A.0.5B.0.9C.0.99D.0.999答案：B8.在PyTorch中，下列代码片段执行后，张量x的requires_grad属性为True的是（）A.x=torch.randn(3,4)B.x=torch.randn(3,4,requires_grad=True)C.x=torch.randn(3,4).detach()D.x=torch.randn(3,4).numpy()答案：B9.在目标检测任务中，YOLOv5使用的正样本匹配策略是（）A.MaxIoUAssignmentB.ATSSC.静态anchor与GT中心点偏移阈值D.HungarianAlgorithm答案：C10.若某模型在ImageNet上Top-1准确率为76.3%，使用知识蒸馏后，学生模型Top-1准确率提升至78.1%，其主要原因是（）A.学生模型参数量更大B.教师模型提供软标签正则化C.蒸馏温度T<1D.学生模型使用更深的网络答案：B11.在GPT-3训练语料过滤中，OpenAI使用下列哪项指标来评估文档质量（）A.BLEUB.perplexityC.ROUGE-LD.F1答案：B12.在模型压缩技术中，若采用通道剪枝，其敏感度分析通常基于（）A.权重L2范数B.梯度L1范数C.批归一化层的γ系数D.激活值的熵答案：C13.在自监督视觉预训练MoCov3中，为防止训练崩溃，引入的额外损失项是（）A.InfoNCEB.SwAVC.Sinkhorn-KnoppD.SymmetrizedKL答案：D14.在NLP任务中，若使用ALBERT替代BERT，其参数共享策略主要目的是（）A.提高推理速度B.减少参数量C.增加模型深度D.提高最大序列长度答案：B15.在模型服务阶段，若采用TensorRT进行INT8量化，其校准数据集通常需要（）A.与训练集同分布的未标注数据500–1000张B.训练集全部数据C.验证集全部数据D.随机生成的高斯噪声答案：A16.在DiffusionModel训练过程中，DDPM前向加噪过程q(A.线性增长B.余弦退火C.指数衰减D.常数答案：A17.在多任务学习中，若使用UncertaintyWeighting方法，其损失函数形式为（）A.+B.C./D.+答案：A18.在推荐系统冷启动场景下，使用Meta-Learning方法MAML的核心思想是（）A.预训练大模型B.学习良好初始化，使少量梯度步即可适应新任务C.增加embedding维度D.使用深度交叉网络答案：B19.在模型可解释性方法中，IntegratedGradients需要设置的基线输入通常为（）A.全零向量B.随机高斯噪声C.训练集均值D.对抗样本答案：A20.在AutoML框架中，若使用DARTS搜索最优网络结构，其搜索空间松弛方式为（）A.连续松弛=B.离散枚举C.强化策略梯度D.进化算法答案：A二、多项选择题（每题2分，共20分。每题有两个或两个以上正确答案，请将所有正确选项字母填入括号内，漏选、错选均不得分）21.下列关于BatchNormalization的描述正确的有（）A.可加速模型收敛B.允许使用更大学习率C.在卷积层中沿(N,H,W)维度计算均值方差D.测试阶段使用滑动平均的均值方差答案：ABCD22.在PyTorchLightning中，以下哪些回调函数可用于控制训练流程（）A.on_train_epoch_endB.on_before_zero_gradC.on_validation_batch_startD.on_hpc_save答案：ABCD23.下列属于无监督域适应（UDA）方法的有（）A.DANNB.CDANC.MMDD.FixMatch答案：ABC24.在模型量化中，下列哪些技术可缓解精度损失（）A.QAT（QuantizationAwareTraining）B.LSQ（LearnedStep-sizeQuantization）C.知识蒸馏D.权重剪枝答案：ABC25.在强化学习策略梯度定理中，下列哪些方差缩减技术被广泛应用（）A.BaselineB.AdvantageActor-CriticC.GAE(λ)D.PrioritizedExperienceReplay答案：ABC26.下列关于VisionTransformer(ViT)的描述正确的有（）A.将图像分块后线性投影为patchembeddingB.使用可学习的positionembeddingC.分类头使用CLStokenD.在小数据集上无需预训练即可超越CNN答案：ABC27.在GPT系列模型中，下列哪些位置编码方案被采用过（）A.绝对正弦位置编码B.可学习绝对位置编码C.RoPE（旋转位置编码）D.RelativePositionBias答案：BC28.下列关于AUC-ROC的说法正确的有（）A.随机分类器期望AUC=0.5B.对正负样本分布变化不敏感C.可评估多分类任务宏平均D.当正负样本极度失衡时，AUC仍可能接近1答案：ABCD29.在数据并行分布式训练中，以下哪些技术可减少通信开销（）A.GradientCompressionB.1-bitAdamC.LocalSGDD.ZeRO-Offload答案：ABC30.下列关于自监督对比学习SimCLR的关键组件有（）A.数据增强组合B.可学习的非线性投影头C.InfoNCE损失D.动量编码器答案：ABC三、填空题（每空2分，共20分。请将答案填入横线处，需给出具体数值或表达式）31.若某卷积层权重张量形状为(64,3,7,7)，采用组卷积groups=32，则该层实际参数量为________。答案：6432.在Transformer中，若隐藏维度d=512，注意力头数答案：6433.使用余弦退火学习率调度，初始学习率=0.1，最小学习率=0.001，总迭代答案：0.00134.在DDPM中，若扩散步数T=答案：100035.若某模型FP32大小为200MB，采用INT8量化后，理论上模型大小为________MB。答案：5036.在推荐系统Wide&Deep模型中，Wide部分通常采用________特征交叉方式。答案：线性模型+人工交叉特征（或显式交叉）37.在PyTorch中，若需将模型搬移至GPU并设置数据并行，代码应为model=________。答案：`torch.nn.DataParallel(model.cuda())`38.在强化学习PPO中，剪切概率比的范围常设为________。答案：[1−39.若使用F1-score评估二分类，precision=0.9，recall=0.8，则F1=________。（保留三位小数）答案：240.在VisionTransformer中，输入图像224×224，patchsize=16，则patch数量为________。答案：(四、简答题（每题8分，共40分。请给出关键公式与必要推导）41.简述梯度消失与梯度爆炸的产生机理，并列举两种以上缓解方法。答案：（1）机理：在深层网络反向传播时，链式法则导致梯度逐层相乘。若激活函数导数或权重初始化较小，梯度呈指数级缩小（消失）；若大于1，则指数级放大（爆炸）。（2）缓解：①使用ReLU、LeakyReLU等分段线性激活，导数恒为1区域大；②采用Xavier/He初始化，使每层方差保持1；③批归一化将输出标准化，阻断梯度尺度累积；④残差连接提供恒等路径，梯度可直接回传；⑤梯度裁剪限制最大范数，抑制爆炸。42.描述MaskedLanguageModeling(MLM)与CausalLanguageModeling(CLM)的区别，并说明各自适用场景。答案：MLM：随机遮盖输入序列部分token，利用双向上下文预测被遮token，如BERT。适用于理解任务，如分类、序列标注。CLM：仅利用左侧上下文自回归预测下一token，如GPT。适用于生成任务，如文本续写、对话。关键差异：MLM允许双向依赖，训练目标为去噪；CLM保持单向因果，训练目标为最大化似然。43.给出知识蒸馏中温度缩放softmax公式，并解释高温与低温对软标签的影响。答案：=，T为温度。高温（T≫低温（T→44.简述A3C相比DQN的两点主要改进，并写出A3C损失函数。答案：改进：①异步并行actor-learner，无需经验回放，降低相关性与内存占用；②采用策略梯度+值函数混合，可处理连续动作。损失：ℒ==−=(ℋ(45.解释VisionTransformer中ClassToken的作用，并说明为何在平均池化替代实验中性能下降。答案：ClassToken为可学习向量，与patchtokens一起输入Transformer，通过自注意力聚合全局信息，最终经MLP分类。其不受空间位置限制，可动态关注关键patch。平均池化对所有patchtoken等权平均，缺乏可学习聚合权重，且无法引入额外参数，导致表征能力弱，精度下降约1–2%。五、应用题（共50分）46.计算与分析（15分）某ResNet50模型在ImageNet上Top-1准确率76.1%，现采用通道剪枝+微调策略，剪枝率50%。剪枝后模型在验证集上Top-1准确率74.3%。已知：原始模型参数量25.6M，FLOPs4.1G；剪枝后参数量13.0M，FLOPs2.1G；微调5epoch，学习率0.01，BatchSize256，耗时1.5小时；线上推理GPU为TeslaT4，原始延迟76ms，剪枝后42ms。（1）计算剪枝带来的参数与FLOPs减少比例；（4分）（2）计算精度损失绝对值与相对值；（2分）（3）若线上日请求1000万次，剪枝后每日可节省GPU小时数；（3分）（4）从精度-效率权衡角度，给出是否上线建议并说明理由。（6分）答案：（1）参数减少：(25.6−13（2）绝对损失：76.1−74.3=（3）单次节省延迟76−42=（4）建议上线：精度损失仅1.8%，低于常见2%容忍阈值；延迟下降45%，节省成本显著；可通过微调更久或蒸馏进一步回升精度。47.综合设计（20分）设计一个面向边缘设备的低功耗关键词唤醒系统，要求：模型<500KB；功耗<5mW；误唤醒<1次/24小时，召回>95%；麦克风采样16kHz，16bit。请给出：（1）数据增强策略；（3分）（2）模型架构与参数量计算；（5分）（3）量化与蒸馏方案；（4分）（4）部署推理框架与优化；（3分）（5）评估指标与测试方案。（5分）答案：（1）数据增强：加性噪声（SNR0–20dB）、RIR卷积模拟房间冲激响应、SpeedPerturbation（0.9×–1.1×）、SpecAugment（时间warp、频率掩蔽F=27，时间掩蔽T=100）。（2）采用1DDepthwiseSeparableCNN+GRU+Attention，输入40维log-mel，帧长25ms，hop10m

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2026年人工智能(AI)训练师专业知识考试题(附答案)

文档简介

温馨提示

最新文档

评论

2026年人工智能(AI)训练师专业知识考试题(附答案)

文档简介

温馨提示

最新文档

评论

相关文档