2026年二级人工智能训练师(技师)职业技能等级认定考试题及答案

上传人：1*** IP属地：四川上传时间：2026-03-25 格式：DOCX 页数：25 大小：45KB 积分：12 举报 版权申诉

已阅读5页，还剩20页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2026年二级人工智能训练师(技师)职业技能等级认定考试题及答案一、单项选择题（每题1分，共30分）1.在深度学习模型训练中，若验证集损失持续上升而训练集损失持续下降，最可能的原因是A.学习率过低B.模型欠拟合C.模型过拟合D.批尺寸过大答案：C解析：训练集损失下降但验证集损失上升，表明模型对训练数据记忆过度，泛化能力下降，典型过拟合现象。2.使用Adam优化器时，若β₁=0.9，β₂=0.999，则第t步的一阶矩估计mₜ更新公式为A.mₜ=β₁mₜ₋₁+(1−β₁)gₜB.mₜ=(1−β₁)gₜ+β₁mₜ₋₁C.mₜ=β₁gₜ+(1−β₁)mₜ₋₁D.mₜ=mₜ₋₁+(1−β₁)gₜ答案：A解析：Adam的一阶矩估计采用指数移动平均，mₜ=β₁mₜ₋₁+(1−β₁)gₜ。3.在联邦学习场景下，为防止梯度泄露用户隐私，通常采用的最轻量级防御手段是A.同态加密B.差分隐私C.安全多方计算D.模型剪枝答案：B解析：差分隐私通过添加校准噪声即可实现隐私保护，计算与通信开销远低于同态加密与安全多方计算。4.当使用Transformer训练中文文本生成模型时，若出现“重复尾句”现象，优先调节的参数是A.temperatureB.top-kC.repetition_penaltyD.beam_size答案：C解析：repetition_penalty直接对重复token进行惩罚，可显著抑制循环生成。5.在模型蒸馏中，若教师模型输出为软标签z_T，学生模型输出为z_S，蒸馏损失通常采用A.KL(z_S||z_T)B.MSE(z_S,z_T)C.CrossEntropy(z_S,z_T)D.KL(z_T||z_S)答案：A解析：蒸馏损失用学生分布逼近教师分布，故KL(z_S||z_T)。6.当数据集中正负样本比例为1:99时，最适合的评估指标是A.AccuracyB.PrecisionC.F1-scoreD.AUC-ROC答案：D解析：类别极度不平衡时，Accuracy失效，AUC-ROC对阈值不敏感，最能反映排序能力。7.在PyTorch中，若需冻结除最后一层外的全部参数，应使用A.requires_grad=FalseB.torch.no_grad()C.detach()D.eval()答案：A解析：将对应层参数的requires_grad设为False即可停止梯度计算。8.使用混合精度训练时，LossScaling的主要目的是A.加速收敛B.防止梯度下溢C.减少显存占用D.提高精度答案：B解析：float16动态范围小，乘以Scale因子可防止梯度下溢。9.在强化学习PPO算法中，clip参数ε的典型取值范围是A.0.01~0.05B.0.1~0.3C.0.5~0.8D.1.0~2.0答案：B解析：实验表明ε∈[0.1,0.3]可在方差与偏差间取得平衡。10.当使用知识图谱嵌入模型RotatE时，关系r的嵌入维度为d，则复数旋转的参数量为A.dB.2dC.d/2D.d²答案：A解析：RotatE将关系表示为复数相位，每个维度仅需一个角度参数，共d个。11.在ONNX模型转换过程中，若出现“Unsupportedoperator”错误，最优先的解决路径是A.升级CUDAB.升级onnxruntimeC.注册自定义算子D.降低batch_size答案：C解析：自定义算子需通过注册映射到目标框架，升级runtime未必覆盖新算子。12.当使用DeepSpeedZeRO-3时，优化器状态、梯度、参数均被分区，其最大显存节省理论倍数为A.NB.N²C.√ND.logN答案：A解析：N张GPU下，显存线性扩展，理论节省N倍。13.在图像分割任务中，若Dice系数为0.9，则像素级Accuracy一定A.≥0.9B.≤0.9C.无法确定D.=0.9答案：C解析：Dice与Accuracy定义不同，前者侧重前景重叠，后者全局像素，无确定大小关系。14.当使用BERT进行文本分类时，若max_len=512，batch_size=8，则单卡显存占用主要与A.词汇表大小B.隐藏层维度C.层数D.以上全部答案：D解析：显存与词汇表嵌入、隐藏维度、层数均呈线性或平方关系。15.在AutoML框架中，用于搜索模型结构的算法是A.BayesianOptimizationB.HyperbandC.NASD.GridSearch答案：C解析：NAS（NeuralArchitectureSearch）专用于结构搜索。16.当使用Mosaic数据增强训练YOLOv5时，随机拼接四张图像的主要收益是A.提升小目标检出B.降低显存C.减少过拟合D.加速推理答案：A解析：四图拼接增加小目标数量，提升小目标训练样本密度。17.在联邦学习聚合阶段，若采用FedAvg，则服务器端更新公式为A.w=∑ₖ(nₖ/n)wₖB.w=mean(wₖ)C.w=∑ₖwₖ/|K|D.w=median(wₖ)答案：A解析：FedAvg按客户端数据量加权平均。18.当使用余弦退火学习率调度时，若T_max=100，则第50个epoch的lr为A.lr_min+(lr_max−lr_min)(1+cos(π·50/100))/2B.lr_max/2C.lr_minD.lr_max答案：A解析：余弦退火公式即A选项。19.在模型部署阶段，若TensorRT报告“Dimensionmismatch”，最可能原因是A.输入尺寸动态但未标记B.精度为INT8C.batch_size=1D.使用CUDA11答案：A解析：动态尺寸需显式标记，否则引擎构建失败。20.当使用K-fold交叉验证时，若K=数据集大小，则称为A.留一法B.留P法C.BootstrapD.Holdout答案：A解析：K=N即留一交叉验证。21.在PyTorchLightning中，用于自动调整学习率的回调是A.LearningRateMonitorB.EarlyStoppingC.ModelCheckpointD.GradientAccumulationScheduler答案：A解析：LearningRateMonitor可记录并自动调整LR。22.当使用混合专家模型MoE时，若Top-2门控，则每次激活的专家数为A.1B.2C.全体D.随机答案：B解析：Top-2即选2个专家。23.在图像分类数据增强中，RandAugment相比AutoAugment的主要优势是A.无需搜索B.精度更高C.速度更慢D.参数更多答案：A解析：RandAugment采用固定策略，无需强化学习搜索。24.当使用EarlyStopping时，若patience=10，则连续10次未提升即停止训练，该回调监控的默认模式是A.minB.maxC.autoD.off答案：C解析：Lightning根据监控指标自动判断min/max。25.在模型压缩中，若采用权重共享，则压缩率主要与A.码本大小B.剪枝率C.量化位宽D.稀疏度答案：A解析：权重共享通过聚类中心码本实现，码本越小压缩率越高。26.当使用Swish激活函数时，其导数在x=0处的值为A.0B.0.5C.1D.σ(0)答案：B解析：Swish(x)=x·σ(x)，导数σ(x)+x·σ(x)(1−σ(x))，x=0时σ(0)=0.5，故导数=0.5。27.在目标检测评价中，若mAP@0.5:0.95=0.6，则意味着A.IoU阈值0.5时AP=0.6B.在IoU∈[0.5,0.95]步长0.05的10个阈值下AP均值为0.6C.AP@0.5=0.6且AP@0.95=0.6D.最大AP为0.6答案：B解析：COCO指标定义即B。28.当使用GradientCheckpointing时，显存占用由O(L)降为A.O(√L)B.O(logL)C.O(1)D.O(L²)答案：B解析：以时间换空间，显存与logL成正比。29.在联邦学习后门攻击中，攻击者主要篡改A.模型参数B.数据标签C.梯度更新D.学习率答案：C解析：上传恶意梯度即可植入后门。30.当使用A100GPU训练时，若打开TF32，则矩阵乘法的精度位宽为A.16B.19C.32D.64答案：B解析：TF32采用19位精度。二、多项选择题（每题2分，共20分）31.以下哪些技术可有效缓解模型训练中的梯度消失问题A.残差连接B.LayerNormC.ReLUD.权重衰减答案：A,B,C解析：残差、归一化、激活函数均可缓解，权重衰减仅正则化。32.在Transformer中，以下哪些操作具有O(n²)复杂度A.Self-attentionB.FeedForwardC.LayerNormD.解码器Cross-attention答案：A,D解析：Self-attention与Cross-attention均计算n×n矩阵。33.当使用TensorRTINT8量化时，需要A.校准数据集B.动态范围统计C.再训练D.反量化节点答案：A,B,D解析：PTQ无需再训练。34.以下哪些属于无监督数据增强策略A.AutoAugmentB.MixUpC.Back-translationD.CutMix答案：C解析：Back-translation无需标签，其余需标签或混合。35.在模型蒸馏中，若教师为集成模型，学生可获得的收益包括A.提升鲁棒性B.降低参数量C.提高训练速度D.降低推理延迟答案：A,B,D解析：集成教师鲁棒性可迁移，学生模型小，推理快，但训练需额外开销。36.当使用DeepSpeed时，ZeRO-2与ZeRO-1的区别包括A.梯度分区B.优化器状态分区C.参数分区D.通信量答案：A,D解析：ZeRO-2新增梯度分区，通信量不同。37.以下哪些指标可用于评估生成模型多样性A.Self-BLEUB.MS-JaccardC.FréchetInceptionDistanceD.n-gram重复率答案：A,B,D解析：FID评估质量，非多样性。38.在联邦学习中，以下哪些攻击属于拜占庭攻击A.Label-flippingB.Sign-randomC.Gaussian-deltaD.Back-gradient答案：B,C,D解析：随机符号、高斯扰动、反向梯度均属拜占庭。39.当使用混合专家模型时，以下哪些技术可降低门控网络计算开销A.Top-K稀疏门控B.共享专家C.路由正则化D.专家并行答案：A,C解析：Top-K与正则化减少计算，共享与并行属架构策略。40.以下哪些方法可用于模型可解释性A.IntegratedGradientsB.LIMEC.Grad-CAMD.Dropout答案：A,B,C解析：Dropout仅正则化，非解释性方法。三、判断题（每题1分，共10分）41.使用LayerNorm的模型在推理阶段必须保存运行均值与方差。答案：错解析：LayerNorm无运行统计，BatchNorm才需。42.在PyTorch中，torch.cuda.amp.autocast默认使用float16。答案：对解析：AMP默认float16。43.当使用Kaiming初始化时，若激活函数为ReLU，则方差缩放因子为2/fan_in。答案：对解析：Kaiming公式即2/fan_in。44.在目标检测中，YOLOv5的anchor-free版本称为YOLOv5x。答案：错解析：YOLOv5x为深度宽度放大，非anchor-free。45.使用知识蒸馏时，温度τ越大，软标签分布越尖锐。答案：错解析：τ越大分布越平滑。46.在联邦学习中，SecureAggregation可防止服务器看到单个用户梯度。答案：对解析：同态加密或秘密共享实现。47.当使用SwiGLU激活时，参数量是普通ReLUFFN的1.5倍。答案：对解析：SwiGLU引入门控投影。48.INT8量化后，模型推理速度一定提升。答案：错解析：若硬件不支持INT8，可能反而下降。49.在Transformer中，位置编码可完全替代Self-attention。答案：错解析：位置编码仅提供顺序信息，无法替代注意力。50.使用GradientAccumulation时，等效batch_size=accumulation_steps×micro_batch_size。答案：对解析：梯度累加即等价扩大batch。四、填空题（每空2分，共20分）51.在Transformer中，若隐藏维度d_model=768，注意力头数h=12，则每个头的维度为______。答案：64解析：768/12=64。52.若使用cosineannealing学习率调度，初始lr=0.1，最小lr=0.001，则周期T_max=100时，第50个epoch的lr=______（保留四位小数）。答案：0.0505解析：0.001+(0.1−0.001)(1+cos(π·50/100))/2=0.0505。53.当使用FocalLoss时，若γ=2，则易分类样本的权重衰减因子为______。答案：(1−p)²解析：Focal权重=(1−p)^γ。54.在YOLOv5中，若输入图像尺寸为640×640，下采样倍数为32，则特征图尺寸为______。答案：20×20解析：640/32=20。55.若模型参数量为1.2×10⁹，采用float16存储，则显存占用约为______GB。答案：2.4解析：1.2×10⁹×2Byte=2.4×10⁹Byte≈2.4GB。56.当使用RandAugment时，默认策略为N=______，M=______。答案：2,10解析：论文默认2种变换，幅度10。57.在联邦学习中，若总客户端1000，每轮参与比例C=0.1，则每轮采样______个客户端。答案：100解析：1000×0.1=100。58.当使用DeepSpeedZeRO-3时，若GPU数量为8，则理论显存节省倍数为______。答案：8解析：线性扩展。59.若使用KL散度作为蒸馏损失，温度τ=4，则软标签概率计算公式为______。答案：exp(z_i/τ)/∑_jexp(z_j/τ)60.在图像分类中，若Top-1误差为5%，则Top-1准确率为______%。答案：95解析：100−5=95。五、计算题（共20分）61.（10分）某Transformer模型，d_model=1024，序列长度n=2048，词汇表V=32000，层数L=24，注意力头h=16。(1)计算Self-attention的QK^T矩阵元素数量。(2)若采用混合精度float16，计算单样本前向激活显存（仅Self-attention部分）。(3)若使用GradientCheckpointing，显存降低多少倍（理论值）。答案与解析：(1)QK^T为n×n矩阵，元素数=n²=2048²=4,194,304。(2)显存=n²×2Byte=4,194,304×2≈8.39MB。(3)由O(n²L)降为O(n²logL)，理论倍数为L/logL≈24/log₂24≈24/4.58≈5.24倍。62.（10分）某联邦学习场景，100客户端，数据量均等，模型参数量d=1×10⁸，上传带宽10Mbps，下载带宽100Mbps，每轮参与比例C=0.1。(1)计算每轮上传总数据量（float32）。(2)计算上传耗时（秒）。(3)若采用INT8量化，上传耗时降低多少倍。答案与

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2026年二级人工智能训练师(技师)职业技能等级认定考试题及答案

文档简介

温馨提示

最新文档

评论

2026年二级人工智能训练师(技师)职业技能等级认定考试题及答案

文档简介

温馨提示

最新文档

评论

相关文档