2026年人工智能训练师理论考试真题题库完整版

上传人：1*** IP属地：四川上传时间：2026-04-10 格式：DOCX 页数：13 大小：42.92KB 积分：12 举报 版权申诉

已阅读5页，还剩8页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2026年人工智能训练师理论考试真题题库完整版一、单项选择题（每题1分，共30分）1.在深度学习中，若某卷积层输出特征图尺寸为64×64，通道数为128，则该层参数总量（含偏置）为多少？已知卷积核尺寸3×3，输入通道数96。A.110720 B.111104 C.221184 D.3328002.联邦学习框架下，客户端上传的梯度若被恶意放大100倍，服务器端最鲁棒的聚合策略是：A.FedAvg B.FedProx C.Trimmed-mean D.SGD3.在Transformer中，若将多头注意力头数从8改为16，而隐层维度保持512不变，则每个头的维度变为：A.64 B.32 C.16 D.1284.使用混合精度训练时，LossScaling的主要目的是：A.加速收敛 B.防止梯度下溢 C.减少显存占用 D.提高批大小5.在强化学习PPO算法中，clip参数ε通常取0.2，若将其调为0.8，最可能出现的副作用是：A.策略更新过慢 B.策略崩溃 C.样本效率降低 D.熵增过大6.对类别极度不平衡的文本分类任务，下列评价指标最不适合作为早停依据的是：A.F1-macro B.AUC-ROC C.准确率 D.平均精度AP7.在ONNXRuntime中开启TensorRT后端时，若出现“CUDAerror700”，首要排查：A.显存超限 B.算子不支持 C.驱动版本 D.batchsize非8倍数8.若某模型在INT8量化后精度下降3%，使用QAT恢复精度，首次试跑应优先调整：A.学习率 B.量化位宽 C.校准样本数 D.权重衰减9.在DiffusionModel采样阶段，DDIM与DDPM相比，主要优势是：A.采样步数可少 B.似然更高 C.训练更快 D.噪声方差更大10.当使用DeepSpeedZeRO-3训练百亿参数模型时，optimizerstate被划分到：A.GPU0 B.CPU C.所有数据并行rank D.NVMe11.在推荐系统多任务学习中，MMoE与Shared-Bottom相比，核心改进是：A.参数量减少 B.缓解任务冲突 C.加速推理 D.降低过拟合12.若BERT-base模型在MLM预训练时mask比例从15%提到30%，则模型收敛后Maskedtoken预测准确率约：A.上升 B.下降 C.不变 D.先升后降13.在图像分割任务中，若DiceLoss出现负值，说明：A.预测全黑 B.预测全白 C.交集大于并集 D.学习率过高14.使用Horovod进行分布式训练时，若广播阶段挂死，最可能原因是：A.NCCL版本不一致 B.数据路径不同 C.随机种子不同 D.梯度累积15.在AutoMLNAS中，DARTS算法将架构搜索转化为：A.强化学习 B.进化算法 C.连续松弛 D.贝叶斯优化16.当使用知识蒸馏，教师为Ensembleof5大型模型，学生为小型CNN，若温度T→∞，则软标签趋近：A.one-hot B.均匀分布 C.教师平均logits D.高斯分布17.在图神经网络中，GCN与GraphSAGE最大差异在于：A.聚合方式是否固定 B.是否使用注意力 C.是否转导 D.是否采样邻居18.若某次训练出现NaN，首先应检查：A.学习率 B.批归一化momentum C.权重初始化 D.数据增强19.在语音合成Tacotron2中，StopToken预测使用：A.MSE B.BCE C.CrossEntropy D.MAE20.当使用梯度累积模拟全局batch=2048，而单卡batch=8，需累积：A.256 B.128 C.512 D.6421.在VisionTransformer中，若输入图像224×224，patchsize16，则序列长度为：A.196 B.256 C.128 D.22422.若将ReLU替换为GELU，模型参数量：A.增加 B.减少 C.不变 D.先减后增23.在模型剪枝中，magnitude-based方法对下列哪层权重最不敏感：A.第一层卷积 B.最后一层全连接 C.残差分支 D.批归一化gamma24.使用FairScale的FSDP训练时，full_shard与shard_grad_op相比，显存占用：A.更高 B.更低 C.相同 D.取决于模型大小25.在NLP数据清洗中，若出现“锟斤拷”乱码，最可能原始编码为：A.UTF-8 B.GBK C.ISO-8859-1 D.ASCII26.当使用混合专家模型MoE，专家数为64，top-k=2，则每次激活参数量占总比：A.1/32 B.1/64 C.2/64 D.64/227.在目标检测YOLOv8中，若输入分辨率从640提到1280，mAP通常：A.下降 B.上升 C.不变 D.先升后降28.若使用LoRA微调LLM，rank=8，则可训练参数量约为原模型：A.0.1% B.1% C.10% D.50%29.在模型部署TritonInferenceServer中，dynamicbatching的主要收益是：A.降低延迟 B.提高吞吐 C.减少显存 D.提高精度30.当使用A10080GB训练，模型占用70GB，若想开启checkpointing，需牺牲：A.计算时间 B.通信带宽 C.数据加载 D.精度二、多项选择题（每题2分，共20分，多选少选均不得分）31.下列哪些操作可有效缓解LLM推理时OOM：A.使用8-bit量化 B.开启gradientcheckpointing C.降低beamsize D.使用KV-cache E.增加TPdegree32.在StableDiffusion中，Classifier-FreeGuidance(CFG)的关键要素包括：A.无条件预测 B.引导系数 C.双前向 D.温度采样 E.VAE解码33.关于Adam与AdamW，下列说法正确的是：A.AdamW权重衰减与梯度无关 B.AdamL2正则等价于AdamW C.AdamW泛化更好 D.二者β1,β2默认相同 E.AdamW需修改权重衰减位置34.在数据并行DDP中，以下可能导致通信量增大的因素：A.模型参数量大 B.使用FP16 C.桶大小bucket太小 D.梯度累积 E.使用NCCL35.下列属于自监督视觉预训练方法：A.MoCov3 B.SimCLR C.BYOL D.SwAV E.MaskedAutoencoder36.在推荐系统冷启动场景，可采用的策略：A.Meta-learning B.内容特征 C.探索利用 D.迁移学习 E.强化学习37.关于GPT与BERT，下列正确：A.GPT使用双向注意力 B.BERT使用MLM C.GPT解码用自回归 D.BERT参数量大于GPT-3 E.GPT-3可零样本推理38.在模型安全测评中，以下属于对抗攻击方法：A.FGSM B.PGD C.CW D.Backdoor E.Dropout39.下列可用于可解释AI的技术：A.SHAP B.LIME C.Grad-CAM D.Attention可视化 E.混淆矩阵40.在边缘设备部署时，可考虑：A.知识蒸馏 B.剪枝 C.量化 D.算子融合 E.动态推理三、判断题（每题1分，共10分，正确打“√”，错误打“×”）41.使用ReZero后，网络深度可无限增加而不出现梯度消失。42.在DiffusionModel中，加噪过程是可学习的。43.当使用LabelSmoothing=0.1时，交叉熵损失下限大于0。44.在Transformer中，位置编码去掉后，模型仍能保持序列顺序感知。45.使用混合专家模型MoE时，专家路由决策可视为离散随机变量。46.在目标检测中，mAP@0.5一定大于mAP@0.5:0.95。47.使用梯度裁剪clip=1.0后，模型梯度范数一定≤1.0。48.在GPT推理时，KV-cache可随序列增长而线性增加显存。49.使用RandAugment时，增强策略与数据集无关。50.在联邦学习中，SecureAggregation可防止服务器看到单个用户梯度。四、填空题（每空2分，共20分）51.若某卷积层输入尺寸为112×112，输出56×56，步长为2，padding为1，则卷积核边长为________。52.在Transformer中，若Q、K、V维度均为64，头数为8，则Multi-Head输出拼接后维度为________。53.使用cosinescheduler，初始学习率1e-3，训练总步数T=1000，warmup=100，则第50步学习率为________。（保留6位小数）54.若某模型参数量为1.2B，使用FP16+Adam，则显存理论占用约为________GB。（不计激活与缓存）55.在YOLOv8中，若输入640×640，下采样倍数为32，则特征图尺寸为________×________。56.若使用BeamSearch，beam=4，词表大小为50000，则每步候选数为________。57.在StableDiffusion中，VAE编码下采样倍数为________。58.若使用DeepSpeedZeRO-2，optimizerstate分区后，显存节省比例为________。（单卡视角）59.在LLM评估中，若模型输出长度超过max_new_tokens，则采用________策略截断。60.使用混合精度时，LossScaling若出现梯度溢出，应________缩放因子。五、计算与推导题（共20分）61.（10分）某Transformer模型隐层维度d=512，序列长度n=1024，batch=32，头数h=8，计算一次Self-Attention的浮点运算量（FLOPs），需写出推导过程。62.（10分）在强化学习PPO中，给定旧策略π_θ_old(a|s)=0.3，新策略π_θ(a|s)=0.6，优势函数A(s,a)=2.5，clip参数ε=0.2，计算clip后的概率比与最终目标函数值L^CLIP，需写出公式与代入过程。六、简答题（共20分）63.（10分）阐述LoRA低秩适应为何能降低大模型微调显存，并说明rank选择对性能与显存的权衡。64.（10分）列举三种缓解LLM幻觉（hallucination）的技术路线，并对比其优缺点。七、案例分析题（共20分）65.（20分）某电商场景需训练10万亿参数推荐模型，数据日增量10TB，用户侧特征高维稀疏，商品侧特征多模态。请设计一套完整训练与推理方案，涵盖数据并行、模型并行、流水并行、存储、通信、量化、推理优化、在线学习、灾备、合规十个维度，需给出技术选型、资源估算、潜在风险与回退策略。卷后答案与解析一、单选1.B 2.C 3.B 4.B 5.B 6.C 7.A 8.C 9.A 10.C 11.B 12.B 13.C 14.A 15.C 16.B 17.D 18.A 19.B 20.A 21.A 22.C 23.D 24.B 25.B 26.C 27.B 28.A 29.B 30.A解析示例：1.参数量=(3×3×96×128+128)=110720，含偏置再加128→111104。9.DDIM通过确定性采样可在少步数下保持质量。二、多选31.ACDE 32.ABC 33.ACDE 34.AC 35.ABCDE 36.ABCDE 37.BCE 38.ABCD 39.ABCD 40.ABCD三、判断41.× 42.× 43.√ 44.× 45.√ 46.√ 47.√ 48.√ 49.× 50.√四、填空51.4 52.512 53.5.000000e-4 54.7.2 55.20×20 56.200000 57.8 58.75% 59.截断 60.减半五、计算61.解：Self-AttentionFLOPs=4nd^2+2n^2d代入n=1024，d=512：4×1024×512²+2×1024²×512=4×1024×262144+2×1048576×512=1073741824+1073741824=2.15×10^9FLOPs62.解：概率比r=π_θ/π_θ_old=0.6/0.3=2clip(r,1-ε,1+ε)=clip(2,0.8,1.2)=1.2L^CLIP=min(rA,clip(r,1-ε,1+ε)A)=min(2×2.5,1.2×2.5)=min(5,3)=3六、简答63.LoRA将权重更新ΔW分解为低秩矩阵BA，显存仅存储B、A与少量激活，秩r越小显存越小，但表达能力下降，需网格搜索权衡。64.1.检索增强：外挂知识库，实时检索，优点可解释，缺点延迟高；2.强化学习人类反馈(RLHF)：对齐人类偏好，优点质量

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2026年人工智能训练师理论考试真题题库完整版

文档简介

温馨提示

最新文档

评论

2026年人工智能训练师理论考试真题题库完整版

文档简介

温馨提示

最新文档

评论

相关文档