2026年人工智能训练师(四级)理论考试重点试题_第1页
2026年人工智能训练师(四级)理论考试重点试题_第2页
2026年人工智能训练师(四级)理论考试重点试题_第3页
2026年人工智能训练师(四级)理论考试重点试题_第4页
2026年人工智能训练师(四级)理论考试重点试题_第5页
已阅读5页,还剩17页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年人工智能训练师(四级)理论考试重点试题一、单项选择题(每题1分,共30分。每题只有一个正确答案,请将正确选项字母填在括号内)1.在监督学习框架下,若训练集标签存在5%的随机噪声,下列哪种损失函数对噪声最不敏感?A.0-1损失B.交叉熵损失C.Huber损失D.平方误差损失( )2.使用Adam优化器时,若一阶矩估计系数β₁=0.9,二阶矩估计系数β₂=0.999,则经过1000步迭代后,偏差修正项对一阶矩的修正因子最接近:A.0.001B.0.01C.0.1D.1.0( )3.在PyTorch中,以下代码片段执行后,张量x的requires_grad属性值为:```pythonx=torch.tensor([1.0,2.0],requires_grad=False)x=x+1```A.TrueB.FalseC.报错D.取决于运行设备( )4.当使用BERT-base模型进行中文文本分类时,若最大序列长度设为128,则一条样本在GPU上的显存占用主要与下列哪项无关?A.批大小B.隐藏层维度C.词汇表大小D.注意力头数( )5.在联邦学习场景下,采用FedAvg算法,若客户端本地epoch数过大,可能导致:A.通信开销线性下降B.全局模型收敛速度加快C.客户端漂移加剧D.梯度稀疏性提高( )6.对不平衡二分类数据,若正类占比仅0.5%,下列哪种评价指标最能反映模型对少数类的识别能力?A.AccuracyB.Macro-F1C.AUC-ROCD.AUC-PR( )7.在卷积神经网络中,若输入特征图尺寸为112×112,采用3×3卷积,步长为2,填充为1,则输出特征图尺寸为:A.55×55B.56×56C.57×57D.58×58( )8.使用学习率预热(warm-up)策略的主要目的是:A.抑制过拟合B.加速后期收敛C.避免早期不稳定更新D.减少内存占用( )9.在强化学习中,若采用ε-greedy策略,ε随时间线性衰减至0,则智能体最终策略为:A.随机策略B.最优确定性策略C.玻尔兹曼策略D.无法确定( )10.当Transformer解码器在训练阶段使用teacherforcing时,主要好处是:A.减少曝光偏差B.提高推理速度C.降低内存占用D.增加序列多样性( )11.在混合精度训练(FP16+FP32)中,LossScaling的取值过大可能导致:A.梯度下溢B.梯度上溢C.权重更新停滞D.激活值饱和( )12.若采用K-fold交叉验证,K值越大,则:A.训练时间越短B.方差估计偏差越大C.模型方差估计越准确D.计算开销越小( )13.在知识蒸馏中,温度参数T→∞时,软标签分布趋近于:A.均匀分布B.狄拉克分布C.正态分布D.伯努利分布( )14.使用EarlyStopping时,若patience=5,监控指标为验证损失,则训练可能提前终止的轮次最早为:A.第5轮B.第6轮C.第7轮D.第8轮( )15.在目标检测任务中,若采用YOLOv5,输入分辨率从640提升至1280,则anchor数量将:A.翻倍B.不变C.减半D.随机变化( )16.当使用梯度裁剪(clip_grad_norm_)时,若全局范数阈值为1.0,而实际梯度范数为0.5,则梯度将被:A.放大2倍B.缩小一半C.保持不变D.置零( )17.在PyTorchLightning中,若定义了training_step与validation_step,则trainer.fit()会自动调用:A.training_step→backward→optimizer.step→validation_stepB.training_step→optimizer.step→backward→validation_stepC.training_step→backward→validation_step→optimizer.stepD.取决于手动调用顺序( )18.若采用余弦退火学习率调度,初始学习率为0.1,最小学习率为0,则第T/2轮的学习率为:A.0.05B.0.1×cos(π/2)C.0.1×(1+cos(π))/2D.0.1×(1+cos(π/2))/2( )19.在图神经网络中,GCN层数过深可能引发:A.节点特征过平滑B.节点特征过稀疏C.邻接矩阵秩升高D.计算图消失( )20.当使用混合专家模型(MoE)时,门控网络输出经Softmax后,若top-k=2,则每次激活的专家数量为:A.1B.2C.全体专家D.随机( )21.在自动机器学习(AutoML)中,采用贝叶斯优化搜索超参,其核心代理模型通常为:A.高斯过程B.随机森林C.XGBoostD.线性回归( )22.若采用LoRA(Low-RankAdaptation)微调LLM,秩r=8,则可训练参数量约为原模型参数的:A.0.1%B.1%C.10%D.50%( )23.在扩散模型训练阶段,若噪声调度为线性,则时间步t=0时的噪声强度为:A.0B.1e-4C.0.5D.1.0( )24.当使用DeepSpeedZeRO-3时,优化器状态、梯度与参数均被分区,则最大显存节省理论倍数为:A.1×B.2×C.Nd×D.Nd²×( )25.在语音合成中,若采用FastSpeech2,时长预测器输出的是:A.梅尔频谱B.音素时长帧数C.基频F0D.能量( )26.若采用对比学习SimCLR,温度参数τ=0.1,则InfoNCE损失对负样本的惩罚力度:A.减弱B.不变C.增强D.随机( )27.在推荐系统冷启动场景下,引入知识图谱的主要作用是:A.降低计算复杂度B.提供额外语义关联C.增加稀疏性D.减少参数量( )28.当使用ONNX导出动态轴模型时,需指定的动态维度为:A.批大小与序列长度B.隐藏层维度C.注意力头数D.词汇表大小( )29.在模型压缩中,采用权重共享(WeightSharing)后,模型体积减小倍数理论上等于:A.共享桶数量/总参数量B.总参数量/共享桶数量C.桶内方差D.哈希函数数量( )30.若采用RMSNorm代替LayerNorm,则省略的参数为:A.缩放参数B.偏移参数C.均值D.方差( )二、多项选择题(每题2分,共20分。每题有两个或两个以上正确答案,多选、少选、错选均不得分)31.下列哪些操作可有效缓解Transformer模型中的长度外推问题?A.RoPE位置编码B.ALiBi偏置C.绝对正弦位置编码D.线性注意力( )32.在数据并行训练时,以下哪些技术可显著降低通信量?A.梯度压缩B.本地梯度累积C.ZeRO-OffloadD.1-bitAdam( )33.关于A/B测试,下列说法正确的是:A.需保证实验组与对照组用户互斥B.指标提升显著即可全量上线,无需长期观察C.需进行功效分析确定样本量D.多重检验需校正p值( )34.在模型可解释性方法中,属于局部解释的有:A.SHAPB.LIMEC.Grad-CAMD.PermutationImportance( )35.下列哪些损失函数可直接用于多标签分类?A.BinaryCrossEntropyB.CategoricalCrossEntropyC.FocalLossD.KL散度( )36.在生成对抗网络中,模式崩塌(ModeCollapse)的常见缓解策略包括:A.历史缓冲区B.Wasserstein损失C.UnrollingGAND.增加批大小( )37.关于TorchScript,下列说法正确的是:A.支持动态控制流B.需通过torch.jit.trace或script转换C.可在C++环境运行D.支持所有Python语法( )38.在超参搜索中,属于基于种群优化的方法有:A.遗传算法B.TPEC.CMA-ESD.PSO( )39.下列哪些技术可用于提升小样本学习性能?A.原型网络B.模型无关元学习MAMLC.迁移学习D.Mixup数据增强( )40.在模型服务部署阶段,以下哪些做法可降低P99延迟?A.动态批处理B.模型分片C.预热推理实例D.使用TF32精度( )三、判断题(每题1分,共10分。正确打“√”,错误打“×”)41.使用LayerNorm时,将特征维度放缩到单位方差会削弱ReLU的稀疏激活特性。( )42.在PyTorch中,nn.DataParallel与DistributedDataParallel在多卡环境下性能差异可忽略。( )43.当采用知识蒸馏时,学生模型容量越小,温度参数应设置越大。( )44.在扩散模型中,DDIM采样过程可视为确定性的常微分方程求解。( )45.使用混合专家模型时,门控网络可完全由随机函数替代而不影响性能。( )46.在联邦学习中,SecureAggregation协议可防止中央服务器看到单个客户端梯度。( )47.对于BERT模型,移除所有位置编码后,下游分类任务准确率将降至随机水平。( )48.在目标检测中,CIoU损失同时考虑中心点距离、重叠面积与长宽比。( )49.使用FlashAttention可在不改变注意力数学定义的前提下降低显存复杂度至线性。( )50.在推荐系统训练中,采样修正权重(SampledSoftmax)可提高稀有item的打分准确性。( )四、填空题(每空2分,共20分)51.若使用Adam优化器,初始学习率α=0.001,β₁=0.9,则在第t步时,一阶矩偏差修正项为__________。52.在Transformer中,自注意力机制的点积结果需除以__________以防止梯度消失。53.若采用FocalLoss解决类别不平衡,当γ=2时,易分类样本的权重衰减因子为__________。54.在混合精度训练中,FP16可表示的最大正值为__________。55.当使用DeepSpeedZeRO-2,若GPU数量为N,则优化器状态显存降低__________倍。56.若卷积输出尺寸公式为O=(I−K+2P)/S+1,当I=224,K=7,S=4,P=2时,O=__________。57.在对比学习中,若批大小为B,则InfoNCE损失中负样本数量为__________。58.若采用线性预热学习率,预热步数为W,则第t步(t≤W)的学习率为__________。59.在LoRA微调中,若原矩阵W∈ℝ^{d×k},秩为r,则新增可训练参数量为__________。60.若使用GroupNorm,组数G=32,则每组的通道数为__________(用符号表示即可)。五、简答题(每题10分,共30分)61.简述Transformer中RoPE位置编码与绝对正弦位置编码在长度外推上的差异,并给出RoPE的复数形式表达式。62.说明在联邦学习场景下,如何通过局部梯度裁剪与噪声添加实现(ε,δ)-差分隐私,并给出高斯机制的标准差计算公式。63.对比知识蒸馏中Logits蒸馏与Feature蒸馏的优缺点,并说明如何在大模型蒸馏中平衡二者权重。六、计算题(每题10分,共20分)64.已知某模型参数量M=1.2×10⁹,使用Adam优化器,参数以FP16存储,优化器状态以FP32存储。若采用DeepSpeedZeRO-3,GPU数量N=64,求:(1)原始显存占用(单位GB);(2)ZeRO-3后每卡显存占用(单位GB,保留两位小数)。(提示:1字节=8位,Adam状态含m与v,各FP32)65.给定一个二分类任务,正类占比p=0.3%,若采用FocalLoss,α=0.25,γ=2,对于某正样本模型输出概率p̂=0.97,计算该样本的FocalLoss值(给出LaTex公式与数值结果,保留四位小数)。七、综合应用题(20分)66.某电商场景需训练一个10亿参数的多语言商品标题生成模型,数据包含中、英、日三种语言共500亿token,训练预算为32张A100-80G,要求在三周内完成训练,且模型需支持低资源语种零样本推理。请设计一套完整训练方案,涵盖数据采样、模型结构、并行策略、显存优化、评估指标与推理部署,并说明如何验证零样本效果。卷后答案与解析一、单选1.C 2.C 3.B 4.C 5.C 6.D 7.B 8.C 9.B 10.A 11.B 12.C 13.A 14.B 15.B 16.C 17.A 18.D 19.A 20.B 21.A 22.A 23.A 24.C 25.B 26.C 27.B 28.A 29.B 30.B解析示例:第1题:Huber损失对异常点(噪声)线性惩罚,介于平方与绝对损失之间,鲁棒性最好。第18题:余弦退火公式η_t=η_min+(η_max−η_min)(1+cos(tπ/T))/2,t=T/2时代入得η=0.1×(1+cos(π/2))/2=0.05。二、多选31.ABD 32.ABD 33.ACD 34.ABC 35.AC 36.ABC 37.BC 38.ACD 39.ABC 40.ABC解析示例:第31题:RoPE与ALiBi均支持长度外推,线性注意力降低复杂度同时保持长程依赖,绝对正弦外推性差。第40题:动态批处理合并请求降低延迟,模型分片并行减少单卡负载,预热避免冷启动,TF32降低精度反而可能增延迟。三、判断41.√ 42.× 43.× 44.√ 45.× 46.√ 47.× 48.√ 49.√ 50.√解析示例:第42题:DistributedDataParallel采用多进程、梯度通信与计算重叠,性能显著优于DataParallel。第49题:FlashAttention通过分块计算将显存复杂度从O(N²)降至O(N

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论