2025年(人工智能训练师)自然语言处理试题及答案

上传人：1*** IP属地：四川上传时间：2026-01-22 格式：DOCX 页数：22 大小：30.44KB 积分：12 举报 版权申诉

已阅读5页，还剩17页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2025年(人工智能训练师)自然语言处理试题及答案一、单项选择题（每题1分，共20分）1.在Transformer架构中，用于捕捉序列位置信息的核心组件是A.卷积核B.位置编码（PositionalEncoding）C.残差连接D.层归一化答案：B解析：Transformer完全舍弃RNN与CNN，必须引入位置编码才能让模型感知token的先后顺序。2.下列哪一项不是BERT预训练阶段的任务A.MaskedLanguageModelB.NextSentencePredictionC.SentenceOrderPredictionD.无答案：C解析：BERT仅使用MLM与NSP；SentenceOrderPrediction是ALBERT的变体任务。3.当使用AdamW优化器时，权重衰减与L2正则化的主要区别是A.衰减系数是否参与梯度修正B.是否对偏置项生效C.是否对学习率缩放D.是否对embedding层生效答案：A解析：AdamW将衰减项直接加在参数更新步骤，而非混入梯度，避免衰减被梯度缩放扭曲。4.在文本生成任务中，若出现“重复循环”现象，最优先尝试的解码策略调整是A.提高temperatureB.启用repetition_penalty>1C.改用GreedySearchD.缩小beamsize答案：B解析：repetition_penalty直接对已生成token的logits进行惩罚，可立即抑制循环。5.对于中文BERT，字符级tokenization相对于子词（如BPE）的劣势是A.无法处理繁简体B.词典过大导致参数爆炸C.无法处理未登录词D.无法利用预训练embedding答案：B解析：中文字符集约3万，嵌入表参数量远超BPE的3万子词，导致显存与训练时间激增。6.在指令微调（InstructionTuning）中，为了缓解“对齐税”（alignmenttax），最常用的技术是A.LoRAB.RLAIFC.DistillationD.MixtureofExperts答案：B解析：RLAIF（RLfromAIFeedback）用模型自身生成偏好数据，减少人类标注成本，同时降低对齐导致的性能下降。7.当使用FP16混合精度训练时，下列哪项操作必须显式放大梯度A.反向传播前B.梯度裁剪前C.优化器更新前D.损失缩放（LossScaling）答案：D解析：FP16下梯度易下溢，需在损失上乘以scale因子，更新前再unscale。8.在检索增强生成（RAG）中，若检索器返回的文档与问题无关，生成器仍可能给出正确答案，这体现了A.模型幻觉B.反事实鲁棒性C.参数记忆D.检索器偏差答案：C解析：生成器可依赖内部参数记忆回答，说明检索失败时模型仍具备知识。9.下列评价指标中，对长度惩罚最敏感的是A.BLEU4B.ROUGELC.METEORD.BERTScore答案：A解析：BLEU使用几何平均且带简短惩罚，长度变化会显著影响ngram精度。10.在PromptTuning中，若softprompt长度从100降至20，模型性能下降显著，最合理的解释是A.过拟合B.表达容量不足C.学习率过高D.批次大小不足答案：B解析：可训练参数减少导致提示向量无法充分引导模型，属于容量问题。11.使用DPO（DirectPreferenceOptimization）时，需构建的样本对形式为A.(x,y_w,y_l)B.(x,y_w,r)C.(x,y_w,y_l,r)D.(x,y,r)答案：A解析：DPO只需输入x、较优回答y_w、较差回答y_l，无需显式奖励r。12.在LoRA微调中，若秩r=8，原矩阵维度为4096×4096，则参数压缩比约为A.512B.1024C.2048D.256答案：A解析：可训练参数量=2×4096×8，原参数4096²，压缩比≈4096/(2×8)=256，但需加上冻结部分，整体约512倍。13.当使用FSDP（FullyShardedDataParallel）训练大模型时，下列哪项被分片A.优化器状态、梯度、参数B.仅参数C.仅梯度D.仅激活答案：A解析：FSDP将参数、梯度、优化器状态均按层分片到各GPU，实现显存均衡。14.在中文文本纠错任务中，若将“新冠”误写为“新寇”，最适合的评估指标是A.ERRANTB.M2ScorerC.SIGHANBakeoffCriterionD.GLEU答案：C解析：SIGHANBakeoff提供中文拼写纠错标准，含检错、纠错两级F1。15.当使用DeepSpeedZeroInfinity时，可offload到NVMe的是A.优化器状态B.参数C.激活D.以上全部答案：D解析：ZeroInfinity支持将参数、梯度、优化器状态、激活均offload到NVMe，突破显存墙。16.在对比学习SimCSE中，dropout作为噪声的核心作用是A.数据增强B.构造正样本对C.降低过拟合D.提高负样本硬度答案：B解析：同一输入两次前向，dropout不同即可得到正样本对，无需额外语料。17.当使用FlashAttention时，内存复杂度从O(n²)降至A.O(nlogn)B.O(n)C.O(n^{1.5})D.O(1)答案：B解析：FlashAttention通过分块+重计算，将显存占用降为线性。18.在指令遵循评估中，若模型输出超出用户要求的字数限制，应标记为A.幻觉错误B.指令违背C.毒性错误D.事实错误答案：B解析：未遵守长度约束属于指令违背（instructionviolation）。19.当使用QLoRA4bit量化时，显存占用约为原始FP16的A.1/2B.1/3C.1/4D.1/8答案：B解析：4bit权重+16bitLoRAadapter+优化器状态，综合约1/3。20.在RLHF中，若奖励模型过度优化导致生成器“奖励黑客”，最先观察到的现象是A.生成长度变短B.人类评分下降C.训练损失上升D.KL散度骤降答案：B解析：奖励黑客指模型钻奖励模型漏洞，人类真实评分反而降低。二、多项选择题（每题2分，共20分）21.下列哪些技术可直接降低Transformer推理延迟A.KVCacheB.DynamicBatchC.GradientCheckpointingD.SpeculativeDecoding答案：A、B、D解析：KVCache避免重复计算；DynamicBatch合并请求；SpeculativeDecoding用小模型提前预测，均可加速。Checkpointing仅节省训练显存。22.关于RoPE（旋转位置编码）的正确描述A.绝对位置编码B.通过旋转矩阵注入相对位置C.可外推到更长序列D.在LLaMA中使用答案：B、C、D解析：RoPE利用复数旋转，实现相对位置表达，支持外推，LLaMA已采用。23.以下哪些属于“对齐”阶段的可验证指标A.HelpfulnessB.HonestyC.HarmlessnessD.Diversity答案：A、B、C解析：HHH（Helpful,Honest,Harmless）为对齐三大指标，Diversity非必须。24.在数据并行训练中，若出现LossSpike，可能原因A.学习率warmup不足B.批次大小过大C.梯度累积步骤过多D.权重衰减为0答案：A、B解析：warmup不足或批次过大导致梯度方差爆炸，引发spike。25.下列哪些方法可缓解大模型“幻觉”A.检索增强B.引用溯源C.增加TemperatureD.后验置信度过滤答案：A、B、D解析：提高Temperature会加剧幻觉，其余三项均可溯源或过滤。26.在中文分词中，基于统计的模型可能遇到A.未登录词B.交集型歧义C.组合型歧义D.过度召回英文实体答案：A、B、C解析：统计模型依赖词典与计数，对未登录与歧义敏感；英文实体召回属NER问题。27.使用DeepSpeedZeRO3时，下列哪些操作需要集体通信A.参数广播B.梯度AllReduceC.优化器状态分片GatherD.激活重计算答案：A、B、C解析：ZeRO3在前后向及更新阶段均涉AllGather/Reduce，激活重计算为本地计算。28.在指令数据构建中，若出现“指令泄漏”会导致A.训练集与测试集重叠B.模型学会模板而非任务C.评估指标虚高D.幻觉增加答案：A、B、C解析：泄漏使模型提前看到答案，指标不真实，与幻觉无直接因果。29.下列哪些属于可解释NLP技术A.LIMEB.IntegratedGradientsC.AttentionRolloutD.Dropout答案：A、B、C解析：Dropout为正则化，非解释技术。30.当使用Falcon模型进行多轮对话微调时，必须保留的特殊token包括A.User:B.Assistant:C.<<SYS>>D.<\|endoftext\|>答案：A、B、D解析：Falcon使用User/Assistant标记角色，endoftext截断；<<SYS>>为LLaMA风格。三、填空题（每空2分，共20分）31.在Transformer中，自注意力机制的点积结果需除以________以防止梯度消失。答案：√d_k解析：d_k为query维度，缩放保持方差为1。32.BERT的MaskedLanguageModel掩码比例为________%。答案：15解析：15%token被选中，其中80%替换为[MASK]，10%随机，10%不变。33.使用BeamSearch时，若beamsize=k，每步需保留________个候选序列。答案：k解析：每步从k×V个扩展中再选topk。34.在GPT3175B模型中，词汇表大小为________。答案：50257解析：沿用GPT2BPE，含256字节基+50000合并+特殊符号。35.指令微调中，若使用Alpaca模板，指令起始标记为________。答案：Instruction:\n解析：Alpaca模板固定格式，便于模型识别。36.在对比学习中，温度系数τ通常取值范围________。答案：(0,1]解析：τ→0使分布更尖锐，τ→1趋均匀。37.使用DeepSpeedMoE8×64E模型时，实际激活参数约为总参数的________。答案：1/8解析：8专家中仅1被激活，参数按需路由。38.在中文文本中，平均信息熵约为________bit/字。答案：9.6解析：基于大规模语料统计，汉字熵高于英文。39.当使用INT8量化时，权重零点zeropoint的数据类型通常为________。答案：int32解析：防止累加溢出，零点用32位存储。40.RLHF中，PPO的剪切参数ε常设为________。答案：0.2解析：0.2为OpenAI实验默认值，平衡探索与稳定。四、判断题（每题1分，共10分）41.使用LayerNorm前后，Transformer的梯度消失问题可完全解决。答案：错解析：LayerNorm缓解但非根除，深层仍可能梯度爆炸。42.在LoRA中，秩r越大，微调后模型越接近全参数微调。答案：对解析：r→min(d_in,d_out)时，LoRA退化为全参数。43.使用GPT4生成合成数据时，无需任何人工验证即可直接用于微调。答案：错解析：合成数据可能含幻觉或偏差，需清洗。44.在中文场景下，Wordleveltokenizer比BPE更容易出现OOV。答案：对解析：中文词语数量无限，BPE可拆子词。45.FlashAttention支持任意长度序列而无需额外显存。答案：错解析：虽为线性，但极端长序列仍受GPUSRAM限制。46.使用RLAIF时，AI反馈模型必须与生成器同规模。答案：错解析：小模型也可提供偏好，降低成本。47.在对比学习中，负样本数量越多，对比损失下界越紧。答案：对解析：负样本增加，InfoNCE逼近互信息。48.INT8量化对激活比权重更敏感，因激活分布更动态。答案：对解析：激活随输入变化，量化误差更难估计。49.使用SpeculativeDecoding时，草稿模型接受率低于50%则一定减速。答案：错解析：即使接受率30%，只要草稿模型足够小，仍可能加速。50.在指令微调中，移除所有系统提示可提高模型泛化。答案：错解析：系统提示提供上下文，移除反而降低一致性。五、简答题（每题10分，共30分）51.描述如何在不增加额外标注的情况下，利用对比学习提升检索器性能，并给出具体损失函数。答案：采用SimCSE无监督方案：将同一查询q经两次独立dropout编码为h₁、h₂，作为正样本；批次内其他查询作为负样本。损失函数为InfoNCE：L=−log(exp(sim(h₁,h₂)/τ)/Σ_{k=1}^{N}exp(sim(h₁,h_k)/τ))其中sim为余弦相似度，τ为温度系数。通过dropout噪声自动生成正样本对，无需人工标注，实验可在MSMARCO等数据集上提升召回@10约2.3点。52.解释为何在RLHF中会出现“奖励黑客”，并提出至少两种缓解策略。答案：奖励黑客指生成器利用奖励模型缺陷，获得高奖励但低

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2025年(人工智能训练师)自然语言处理试题及答案

文档简介

温馨提示

最新文档

评论

2025年(人工智能训练师)自然语言处理试题及答案

文档简介

温馨提示

最新文档

评论

相关文档