2026年人工智能训练师(五级)综合理论易错试题_第1页
2026年人工智能训练师(五级)综合理论易错试题_第2页
2026年人工智能训练师(五级)综合理论易错试题_第3页
2026年人工智能训练师(五级)综合理论易错试题_第4页
2026年人工智能训练师(五级)综合理论易错试题_第5页
已阅读5页,还剩13页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2026年人工智能训练师(五级)综合理论易错试题1.单项选择题(每题1分,共30分)1.1在监督学习中,若训练集标签存在5%的随机错误,下列哪种策略对最终模型泛化误差的影响最小?A.直接训练一个深度为20层的ResNetB.先使用标签平滑(labelsmoothing)再训练ResNetC.先对错误标签做人工逐一修正再训练D.将损失函数从交叉熵换成均方误差1.2某图像分类任务采用EfficientNet-B0做主干网络,输入分辨率224×224,批大小32,混合精度训练。若将分辨率提升至384×384,同时保持显存占用不变,下列调整中最合理的是:A.批大小改为16,开启梯度累积步长2B.批大小改为8,关闭混合精度C.批大小保持32,将主干换为EfficientNet-B3D.批大小保持32,将优化器从AdamW换为SGD1.3在联邦学习场景下,客户端本地数据Non-IID且极度倾斜。下列哪项技术最能缓解模型发散?A.FedAvgB.FedProxC.FedSGDD.中心差分隐私1.4使用PyTorchLightning时,下列哪段代码会在每次验证epoch结束后自动清空GPU缓存?A.`torch.cuda.empty_cache()`写在`training_step`末尾B.重写`on_validation_epoch_end`并调用`torch.cuda.empty_cache()`C.在`Trainer`中设置`flush_logs_every_n_steps=1`D.在`configure_optimizers`中返回`torch.optim.lr_scheduler.CosineAnnealingLR`1.5当目标检测模型在COCO上AP@0.5很高但AP@0.75很低,最可能的问题是:A.学习率过大B.NMS阈值过高C.回归分支权重过低D.数据增强中马赛克(Mosaic)概率过高1.6在Transformer中,若将注意力头数从8减为4,而模型总参数量保持不变,则下列说法正确的是:A.单头维度d_head减半,计算量FLOPs不变B.单头维度d_head加倍,计算量FLOPs减半C.单头维度d_head加倍,计算量FLOPs不变D.单头维度d_head减半,计算量FLOPs加倍1.7使用混合专家模型(MoE)时,若专家容量因子(capacityfactor)从1.0提到2.0,则:A.训练速度提升,显存下降B.训练速度下降,显存上升C.训练速度不变,显存上升D.训练速度下降,显存下降1.8在强化学习PPO算法中,若clip参数ε从0.2调到0.5,则:A.策略更新更保守,样本效率降低B.策略更新更激进,样本效率提高C.策略更新更保守,样本效率提高D.策略更新更激进,样本效率降低1.9对BERT-base做INT8量化后,若发现下游任务F1下降3%,首选的补救手段是:A.直接回退到FP16B.做QAT(量化感知训练)1个epochC.将量化粒度从per-tensor改为per-channelD.把学习率提高10倍再微调1.10在DeepspeedZero-3优化中,若将`allgather_bucket_size`从5e7减到5e6,则:A.显存峰值下降,通信次数增加B.显存峰值上升,通信次数减少C.显存峰值下降,通信次数减少D.显存峰值上升,通信次数增加1.11使用RandAugment时,若图像为灰度医学图,下列哪种策略最合理?A.保持默认14种变换B.删除颜色扭曲类变换,保留几何变换C.删除几何变换,保留颜色扭曲D.将n设为2,m设为最大1.12在语音合成Tacotron2中,若出现“漏词”现象,优先检查:A.注意力对齐单调性B.停止token阈值C.梅尔窗长度D.Post-net层数1.13对图神经网络GCN做邻居采样时,若采样邻居数从16降到4,则:A.内存占用下降,收敛速度加快B.内存占用下降,收敛速度变慢C.内存占用上升,收敛速度加快D.内存占用上升,收敛速度变慢1.14在知识蒸馏中,若学生模型容量远大于教师,则:A.蒸馏温度T应降低,alpha应提高B.蒸馏温度T应提高,alpha应降低C.蒸馏温度T应提高,alpha应提高D.蒸馏温度T应降低,alpha应降低1.15使用Optuna做超参搜索时,若采用TPESampler并设置`n_startup_trials=30`,则:A.前30次试验完全随机,后续启用TPEB.前30次试验用TPE,后续随机C.30次试验后停止搜索D.30次试验后改用Grid1.16在CTR预估中,DeepFM相对于Wide&Deep的主要改进是:A.用FM替代Wide部分,实现低阶特征自动交叉B.用DCN替代Deep部分C.用FTRL替代AdamD.用残差网络替代DNN1.17若将ReLU换成GELU,Transformer训练速度通常:A.提升10%B.下降5%C.不变D.提升30%1.18在MMSegmentation框架中,若`config`里`optimizer.lr=0.01`,但使用了4卡DDP且`imgs_per_gpu=2`,则实际单卡LR为:A.0.01B.0.02C.0.0025D.0.041.19对ViT做微调时,若冻结patchembedding层,则:A.显存下降,收敛变慢B.显存下降,收敛加快C.显存上升,收敛变慢D.显存上升,收敛加快1.20在AutoML中,若搜索空间包含“是否使用SE模块”,该维度属于:A.连续超参B.离散条件超参C.无序类别超参D.有序类别超参1.21使用Horovod做分布式训练时,若`hvd.size()=8`,`tensor`元素个数为1024,则`hvd.allreduce`通信量为:A.1024×4字节B.1024×8×4字节C.1024×4×2字节D.1024×4×8×2字节1.22在OCR识别中,若CTCloss出现“梯度爆炸”,首要检查:A.学习率B.空白标签权重C.最大文本长度D.卷积核大小1.23对StableDiffusion做FP16推理时,若生成图片出现“NaN”,最可能原因是:A.VAE解码器溢出B.UNetattentionsoftmax溢出C.CLIPtextencoder溢出D.调度器(scheduler)beta序列过大1.24在推荐系统多任务学习中,若“视频完播率”任务与“点赞率”任务出现负迁移,首选:A.增加共享层宽度B.引入MMoE门控C.提高点赞任务权重D.降低视频任务权重1.25使用ONNXRuntime时,若`session_options.graph_optimization_level=ORT_ENABLE_ALL`,则:A.仅做常量折叠B.仅做算子融合C.开启所有静态图优化D.关闭所有优化1.26在模型压缩中,若采用剪枝后稀疏度90%,但推理框架不支持稀疏矩阵,则:A.存储减少90%,速度提升B.存储减少90%,速度不变C.存储减少10%,速度下降D.存储减少90%,速度下降1.27对GPT做继续预训练(CPT)时,若新语料为法律文本,下列最合理的是:A.将学习率设为预训练的1/10,训练1个epochB.将学习率设为预训练的10倍,训练10个epochC.冻结embedding层D.使用原始词汇表不做任何调整1.28在图像分割中,若使用DiceLoss+CELoss联合,权重分别0.8/0.2,则:A.Dice主导,适合样本均衡B.Dice主导,适合样本不均衡C.CE主导,适合样本均衡D.CE主导,适合样本不均衡1.29使用FairScale的`FullyShardedDataParallel`时,若`reshard_after_forward=True`,则:A.前向后立即释放完整参数,显存下降B.前向后保留参数,显存上升C.反向后释放参数D.永不释放参数1.30在AI训练平台中,若节点间使用RoCEv2网络,下列最能提升多机训练效率的是:A.将NCCL_SOCKET_IFNAME设为eth0B.将NCCL_IB_GID_INDEX设为3C.关闭GDRD.将NCCL_TREE_THRESHOLD设为02.多项选择题(每题2分,共20分;每题至少有两个正确答案,多选少选均不得分)2.1下列哪些操作会改变Transformer模型参数量?A.将绝对位置编码改为旋转位置编码(RoPE)B.将注意力机制从Self-Attention换成Cross-AttentionC.将FFN激活从ReLU换成SwiGLUD.将LayerNorm换成RMSNorm2.2关于混合精度训练,下列说法正确的是:A.PyTorch自动混合精度需要同时维护FP32主权重B.使用`torch.cuda.amp.GradScaler`时,若连续出现NaN梯度,scaler会无限下调C.BF16比FP16有更宽的动态范围D.在A100上,TF32默认开启,精度低于FP322.3以下哪些方法可缓解GAN训练崩溃?A.对生成器与判别器使用不同的学习率B.使用Wasserstein梯度惩罚C.每步更新生成器两次,判别器一次D.使用谱归一化2.4在推荐系统冷启动阶段,可采用的策略有:A.利用物品侧文本信息做内容召回B.使用元学习(MAML)快速适应新用户C.提高探索率ε-greedyD.直接删除无交互样本2.5下列哪些指标可直接用于多分类任务评估?A.Macro-F1B.Cohen’sKappaC.AUC-ROCD.Top-3Accuracy2.6关于DeepspeedZero-Infinity,下列正确的是:A.支持把优化器状态卸载到NVMeB.需要修改模型代码C.支持无限大模型训练D.通信量随模型大小线性增加2.7以下哪些做法会引入数据泄露(dataleakage)?A.用整个语料做TF-IDF后再划分训练/测试B.交叉验证前做标准化C.用未来特征训练时序模型D.用5折交叉验证调参后用全量数据重新训练2.8在目标检测中,下列哪些损失函数可直接用于回归框?A.IoULossB.GIoULossC.FocalLossD.DIoULoss2.9使用Kubernetes调度AI训练任务时,下列哪些资源限制可防止“noisyneighbor”?A.`limits.cpu`B.`requests.memory`C.`nvidia/gpu`D.`ephemeral-storage`2.10以下哪些技术可将ViT推理延迟降低50%以上?A.使用FasterTransformer融合AttentionB.动态轴(dynamicaxes)导出ONNXC.使用INT8量化D.使用CUDAGraph3.判断题(每题1分,共10分;正确打“√”,错误打“×”)3.1使用Layer-wiseLearningRateDecay时,越靠近输入层,学习率应越大。3.2在PyTorch中,`nn.DataParallel`与`DistributedDataParallel`使用相同NCCL通信后端时,多卡加速比基本一致。3.3对于类别极度不平衡的二分类问题,使用Accuracy作为早停指标比AUC-ROC更稳定。3.4使用梯度累积时,学习率应与累积步长成反比调整。3.5在Transformer中,使用Pre-Norm结构比Post-Norm更利于极深模型收敛。3.6对BERT做INT4量化时,必须引入量化感知训练,否则性能会崩溃。3.7在推荐系统里,使用LR做召回比使用双塔DSSM更容易引入“信息茧房”。3.8使用Mixup增强时,标签也需要做线性插值。3.9在语音增强中,若损失函数仅使用STFT幅度谱,模型一定会忽略相位信息。3.10使用TensorBoard的`hparams`接口时,若同一组超参重复运行,会自动取平均并显示方差。4.填空题(每空2分,共20分)4.1若某卷积层输入特征图尺寸为112×112,通道64,卷积核3×3,padding=1,stride=2,输出通道128,则该层理论FLOPs为__________。4.2在PyTorch中,若需将模型参数初始化为正交矩阵,应使用`torch.nn.init.orthogonal_`,其默认增益(gain)为__________。4.3使用Adam优化器时,若β1=0.9,β2=0.999,则二阶矩估计的偏差修正系数在t=1步时为__________。4.4在Transformer中,若d_model=512,head=8,则单头维度d_head=__________。4.5若学习率调度器为CosineAnnealingLR,初始LR=0.1,T_max=100,则第50步的LR为__________。4.6使用CTC解码时,若空白标签编号为0,则路径“a–ab”经去重去空后得到__________。4.7在图像分割中,若输入为256×256,经2×2最大池化3次后,特征图尺寸为__________。4.8若使用FocalLoss,γ=2,当pt=0.1时,权重因子(1-pt)^γ=__________。4.9在知识蒸馏中,温度T→∞时,softmax输出趋近于__________分布。4.10若模型参数量为1.2B,使用Adam+FP32,则仅存储参数与一阶二阶矩所需显存约__________GB。5.简答题(每题10分,共20分)5.1说明在超大模型训练场景下,DeepspeedZero-3与FairScaleFSDP在通信与显存策略上的核心差异,并给出当模型大到单卡无法放下时,两种框架各至少两条调优建议。5.2某视频推荐系统上线后发现“完播率”预测校准度差(平均预测0.7,实际0.5),请从数据、模型、训练策略三个角度各给出两条可落地的诊断与改进方案,并说明如何在线验证效果。卷后答案与解析1.单项选择1.1B1.2A1.3B1.4B1.5C1.6C1.7B1.8B1.9B1.10A1.11B1.12A1.13B1.14C1.15A1.16A1.17B1.18A1.19A1.20C1.21A1.22A1.23B1.24B1.25C1.26B1.27A1.28B1.29A1.30B2.多项选择2.1AC2.2ACD2.3ABD2.4ABC2.5ABD2.6AC2.7A

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论