2025年人工智能自然语言处理入门考试题库及答案

上传人：1*** IP属地：四川上传时间：2026-01-20 格式：DOCX 页数：20 大小：30.26KB 积分：12 举报 版权申诉

已阅读5页，还剩15页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2025年人工智能自然语言处理入门考试题库及答案一、单项选择（每题2分，共20分）1.在Transformer架构中，用于将输入序列中任意两个位置直接关联起来的核心机制是A.卷积窗口B.自注意力C.池化层D.残差连接答案：B解析：自注意力通过计算Query与Key的相似度，实现任意位置token之间的直接交互，突破RNN的时序依赖限制。2.下列哪一项不是BERT预训练阶段的任务A.掩码语言模型B.下一句预测C.句子顺序预测D.整句重构答案：D解析：BERT仅使用MLM与NSP两个任务，整句重构从未出现，属于干扰项。3.当使用字节对编码（BPE）时，出现未知词（OOV）的根本原因是A.词表容量有限B.子词合并次数不足C.训练语料未覆盖该词D.以上全部答案：D解析：BPE通过频次合并子词，若词表大小或合并轮次受限，或语料缺失，均会导致OOV。4.在GPT系列中，用于提升长文本外推能力的改进技术是A.RoPEB.ALiBiC.FlashAttentionD.LoRA答案：B解析：ALiBi在注意力分数中直接添加线性偏置，无需额外位置编码即可外推更长序列。5.对中文文本进行分词时，下列哪种算法基于无监督统计量且无需词典A.正向最大匹配B.HMMC.Jieba精确模式D.SentencePieceunigram答案：D解析：SentencePieceunigram语言模型完全依赖语料统计，不依赖外部词典，可跨语言。6.当模型参数量固定时，采用MoE（混合专家）结构的主要收益是A.减少推理延迟B.降低显存占用C.提升表达能力D.简化梯度流答案：C解析：MoE通过稀疏激活不同专家子网络，在相同参数量下获得更高容量，但会增加通信开销。7.在指令微调阶段，为避免模型“忘记”预训练知识，最常用的策略是A.增加dropoutB.混合预训练数据C.降低学习率D.权重平均答案：B解析：将少量预训练数据与指令数据混合，可缓解灾难性遗忘，保持通用语言能力。8.下列评价指标中，对ngram重复最敏感的是A.BLEU4B.ROUGELC.METEORD.BERTScore答案：A解析：BLEU4仅统计4gram精确率，一旦重复即显著拉低分数；ROUGEL与BERTScore对语义更鲁棒。9.当使用DeepSpeedZeRO3时，下列哪一项被切分到所有GPUA.优化器状态B.梯度C.模型参数D.以上全部答案：D解析：ZeRO3将参数、梯度、优化器状态全部按层切分，实现极致显存节省。10.在RLHF流程中，用于将人类偏好转化为可学习信号的算法是A.PPOB.DPOC.RLAIFD.ReMax答案：B解析：DPO（DirectPreferenceOptimization）直接把偏好对转化为交叉熵损失，跳过奖励模型训练。二、多项选择（每题3分，共15分，多选少选均不得分）11.以下哪些技术可以显著降低Transformer推理时延A.KVCacheB.动态批处理C.量化到INT8D.梯度检查点答案：A、B、C解析：KVCache避免重复计算；动态批处理提高吞吐；INT8降低访存。梯度检查点仅节省训练显存。12.关于LoRA微调，下列说法正确的是A.冻结原模型权重B.引入低秩矩阵C.推理时需合并分支D.可与其他PEFT方法叠加答案：A、B、D解析：LoRA训练时保持原权重不变，推理可将分支合并，但非必须；可与AdaLoRA等叠加。13.在中文文本纠错任务中，常用来构造噪声数据的方式有A.随机删字B.音近替换C.形近替换D.随机交换相邻字答案：A、B、C、D解析：四种策略均模拟真实输入错误，可提升模型鲁棒性。14.关于对比学习损失InfoNCE，下列说法正确的是A.负样本越多，梯度方差越小B.温度系数越小，分布越尖锐C.与交叉熵形式等价D.需要大量负样本保证无偏答案：A、B、D解析：InfoNCE通过负样本近似互信息，温度系数控制平滑度；与交叉熵不等价。15.当使用FSDP（FullyShardedDataParallel）训练大模型时，下列哪些操作会自动发生A.每层前向后向时AllGather参数B.梯度计算后ReduceScatterC.优化器状态分片D.激活值重计算答案：A、B、C解析：FSDP自动完成参数分片、通信与优化器状态分片；激活重计算需手动开启。三、填空题（每空2分，共20分）16.在Transformer中，位置编码的维度必须与__________相同，才能直接相加。答案：词向量维度解析：位置编码与词向量逐位相加，要求形状一致。17.BERT的MLM任务中，被掩码的token占总输入比例约为__________。答案：15%解析：其中80%用[MASK]，10%随机词，10%不变。18.当使用AdamW优化器时，权重衰减系数通常设置在__________到__________之间。答案：0.01；0.1解析：过大会导致欠拟合，过小则正则效果弱。19.在GPT3175B模型中，隐藏层维度为__________，层数为__________。答案：12288；96解析：公开配置表可查，隐藏层维度=128×96。20.若词表大小为50000，嵌入维度为768，则仅输入嵌入层参数量为__________。答案：3840万解析：50000×768=38400000。21.使用BeamSearch时，若beamsize=5，序列最大长度=50，则最坏情况下需展开__________个候选。答案：250解析：每步保留5条，长度50，理论上限5×50=250，实际通过剪枝远小于此。22.在中文BERT中，将“[CLS]今天天气真好[SEP]”输入后，[CLS]的最终隐藏状态常用于__________任务。答案：句子对分类解析：NSP任务依赖[CLS]表示整句语义。23.当使用混合精度训练时，损失缩放（lossscaling）的主要目的是防止__________溢出。答案：梯度解析：FP16下梯度易下溢，乘以放大因子后回传，再缩放更新。24.若某模型参数量为1.2B，使用FP16存储，则完全加载需显存约__________GB。答案：2.4解析：1.2×10^9×2Byte=2.4GB，不含优化器与激活。25.在指令微调数据集中，样本通常由__________、__________、__________三元组构成。答案：指令；输入；输出解析：标准Alpaca格式，清晰区分任务描述与示例。四、判断题（每题1分，共10分，正确打“√”，错误打“×”）26.Word2vec训练完成后，词向量空间中欧氏距离越近，语义越相似。答案：×解析：常用余弦相似度，欧氏距离受模长影响。27.LayerNorm在Transformer中位于残差分支之后。答案：×解析：PreNorm位于子层输入，PostNorm位于子层输出，原版Transformer用PostNorm。28.使用RoPE位置编码的模型可以直接外推到更长序列而无需额外训练。答案：√解析：RoPE通过旋转矩阵编码相对位置，具备天然外推性。29.在文本生成任务中，重复惩罚（repetitionpenalty）系数大于1会抑制已生成token。答案：√解析：大于1降低已出现token概率，减少重复。30.BERT的NSP任务在RoBERTa中被移除，因为实验表明其效果为负。答案：√解析：RoBERTa论文指出NSP对下游任务无益，甚至有害。31.使用量化感知训练（QAT）后的INT8模型精度一定高于后训练量化（PTQ）。答案：×解析：QAT通常更优，但依赖训练资源，某些场景PTQ已足够。32.在F1score计算中，精确率与召回率权重相等。答案：√解析：F1为调和平均，权重1:1。33.当使用GradientAccumulation时，等效batchsize=per_gpu_batch×gradient_accumulation_steps×gpu数。答案：√解析：梯度累积模拟大batch，公式正确。34.对比学习中的温度系数τ越大，对比损失对难负样本的关注度越高。答案：×解析：τ越大分布越平滑，难负样本权重反而降低。35.在RLHF中，奖励模型通常使用BradleyTerry模型对偏好概率建模。答案：√解析：BradleyTerry将偏好转化为sigmoid概率，是奖励模型标准做法。五、简答题（每题8分，共24分）36.描述Transformer中MultiHeadAttention的计算流程，并解释为何需要多头机制。答案：步骤：1)对输入X分别线性映射为Q、K、V，维度均为d_model；2)将Q、K、V按头数h均分，得到h组(Qi,Ki,Vi)，每组维度d_k=d_model/h；3)每组独立计算缩放点积注意力：Attention(Qi,Ki,Vi)=softmax(QiKi^T/√d_k)V_i；4)拼接h个输出，再线性投影回d_model。多头意义：•不同头可捕获不同子空间语义（如句法、指代、实体）；•单头受限于d_k，表达能力有限，多头并行扩展容量；•实验表明，多头使模型对长距离依赖更敏感，提升BLEU、ROUGE等指标。37.对比“预训练+微调”与“预训练+提示（prompting）”两种范式的差异，并给出各自适用场景。答案：差异：1)参数更新：微调需更新全部或部分模型参数，提示冻结模型；2)数据需求：微调需大量下游标注，提示可零样本或少样本；3)工程成本：微调需GPU训练，提示仅需推理；4)表现：微调在数据充足时上限更高，提示在少样本下更稳定。适用场景：•微调：数据丰富、任务复杂（如法律实体识别）、需部署专用小模型；•提示：数据稀缺、需快速上线、通用大模型API调用（如客服问答）。38.解释梯度消失与梯度爆炸在Transformer中的表现形式，并给出至少两种缓解方案。答案：表现：•梯度消失：深层encoder梯度范数趋近0，顶层权重几乎不更新，下游任务loss停滞；•梯度爆炸：梯度范数指数增长，lossNaN，权重抖动。缓解：1)残差连接：提供恒等路径，使梯度直接回传；2)PreNorm：将LayerNorm置于子层输入，保持梯度尺度稳定；3)权重初始化：使用Xavier或正交初始化，控制方差；4)梯度裁剪：设置max_norm=1.0，防止爆炸；5)学习率预热：线性升温至峰值，再线性衰减，避免初期大梯度。六、计算与推导（共11分）39.（5分）假设某Transformer模型隐藏维度d=512，头数h=8，序列长度n=1024，batch=2，计算一次MultiHeadAttention的浮点运算量（FLOPs），忽略softmax与线性映射。答案：单头QK^T：n×d_k×n=1024×64×1024=67,108,864单头AttentionV：n×n×d_k=1024×1024×64=67,108,864单头总计：134,217,728多头×h：134,217,728×8=1,073,741,824batch×2：2,147,483,648FLOPs解析：只统计矩阵乘，加法则忽略。40.（6分）给定交叉熵损失L=−∑y_ilogp_i，其中p_i=softmax(z_i)。推导当标签为onehot时，损失对logitsz_j的梯度∂L/∂z_j，并说明梯度形式对梯度消失的影响。答案：设真实类别为k，则L=−logp_kp_k=e^{z_k}/∑_me^{z_m}∂L/∂z_j=−(δ_{jk}−p_j)其中δ_{jk}为Kroneckerdelta。影响：•梯度与(1−p_k)成正比，当p_k→1，梯度→0，导致顶层梯度消失；•使用标签平滑（labelsmoothing）将y_k从1降至1−ε，使梯度保持ε量级，缓解消失。七、综合应用（共20分）41.（10分）某企业需构建中文客服意图识别系统，要求：•支持20个意图，平均每个意图仅30条标注；•推理延迟<100ms（GPUV100单卡）；•模型大小<1GB。请给出完整技术方案，包括数据增强、模型结构、训练策略、推理优化。答案：数据增强：•使用中文同义词词典随机替换，比例0.2；•EDA技术：随机插入、交换、删除，每句生成5个变体；•回译：中→英→中，采用公开翻译API，生成2倍数据；•模板提示：用ChatGPT生成相似问法，人工快速审核。模型：•采用ChineseRoFormerbase，隐藏层768，12层，参数量330M；•使用MoEAdapter：每层插入4专家，Top2激活，参数量增至约800M，但推理仅激活33

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2025年人工智能自然语言处理入门考试题库及答案

文档简介

温馨提示

最新文档

评论

2025年人工智能自然语言处理入门考试题库及答案

文档简介

温馨提示

最新文档

评论

相关文档