2025年自然语言处理技术培训试卷(含答案)_第1页
2025年自然语言处理技术培训试卷(含答案)_第2页
2025年自然语言处理技术培训试卷(含答案)_第3页
2025年自然语言处理技术培训试卷(含答案)_第4页
2025年自然语言处理技术培训试卷(含答案)_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年自然语言处理技术培训试卷(含答案)一、单项选择题(每题2分,共20分)1.在Transformer架构中,用于捕捉序列位置信息的核心组件是A.卷积核B.位置编码C.层归一化D.残差连接答案:B解析:Transformer本身不具备循环或卷积结构,位置编码(PositionalEncoding)显式注入token的相对或绝对位置信息,使模型感知顺序。2.下列哪项技术最直接缓解了BERT预训练时的“预训练微调不一致”问题A.WholeWordMaskingB.NextSentencePredictionC.SpanBERT的spanboundaryobjectiveD.RoBERTa移除NSP任务答案:D解析:RoBERTa通过实验发现NSP对下游任务无增益甚至有害,直接移除后仅使用MLM,减小了预训练与微调阶段的目标差异。3.当使用混合精度训练(FP16+FP32)时,下列哪项操作最能防止梯度下溢A.LossScalingB.GradientAccumulationC.DynamicPaddingD.WeightAveraging答案:A解析:FP16表示范围小,梯度容易下溢。LossScaling在反向传播前将loss乘以一个较大常数,反向结束后再缩放回去,从而保护微小梯度。4.在文本风格迁移任务中,若采用“无平行语料”的对抗训练框架,判别器通常用于判别A.句子情感极性B.句子风格类别C.句子是否通顺D.句子是否来自真实数据分布答案:B解析:生成器负责在保留内容的前提下改变风格;判别器仅判断风格标签,从而迫使生成器产生目标风格文本。5.对于超长文本(>8ktokens),下列哪种位置编码在理论上可外推到更长序列而无需微调A.绝对正弦编码B.可学习绝对编码C.T5的相对偏置D.ALiBi(AttentionwithLinearBiases)答案:D解析:ALiBi将线性偏置直接加在attentionscore上,偏置值与距离成比例,不依赖任何可学习位置参数,因此具备长度外推能力。6.在PromptTuning中,若softprompt长度从20增加到100,模型参数量A.线性增加B.指数增加C.不变D.仅embedding层参数量线性增加答案:D解析:softprompt对应一组可学习的embedding向量,长度增加意味着更多可训练向量,其余模型参数冻结,因此仅embedding层新增参数线性增长。7.使用BLEU评估机器翻译时,若候选译文与任一参考译文完全重复,但参考译文有4条,则BLEU4的惩罚因子BrevityPenaltyA.恒为1B.恒为0C.与候选长度/最短参考长度有关D.与最长参考长度有关答案:C解析:BP=exp(1−r/c)当c≤r,其中r为最接近候选长度的参考长度,因此BP与相对长度有关。8.在知识蒸馏中,若教师模型输出为softmax(logits/τ),τ>1的主要作用是A.加速收敛B.放大暗知识C.降低计算量D.防止过拟合答案:B解析:提高温度τ使分布更平滑,突出次要类别的相对关系,这些“暗知识”有助于学生模型泛化。9.下列哪项不是GPT3175B模型在fewshot推理阶段显存占用过大的主要原因A.键值缓存(KVCache)B.参数本身C.动态计算图D.注意力计算复杂度O(n²d)答案:C解析:推理阶段图静态,显存大头来自参数、KVCache与注意力激活,动态图主要影响训练期。10.在中文文本纠错任务中,若采用“检测纠正”两阶段流水线,检测阶段最常用的序列标注方案是A.BIOB.BIESC.BMESD.0/1标签答案:B解析:BIES将每个字符标注为{B,I,E,S},可精确定位错误边界,兼顾连续错误与单字错误。二、多项选择题(每题3分,共15分)11.关于对比学习在句子表示中的应用,下列说法正确的是A.SimCSE使用dropout作为最小数据增广B.ConSERT通过对抗扰动生成正例C.DiffCSE利用ELECTRstyle采样获得负例D.SNCSE引入软负例加权答案:A、B、D解析:C项错误,DiffCSE采用“替换检测”任务,而非ELECTRstyle采样;其余均正确。12.下列哪些操作可有效缓解生成式摘要中的重复解码问题A.CoverageMechanismB.RepetitionPenaltyC.BeamSearchBlockTrigramD.强制增加长度惩罚答案:A、B、C解析:D项仅控制长度,无法直接抑制重复;Coverage显式追踪已关注状态,RepetitionPenalty与BlockTrigram直接抑制重复片段。13.关于instructiontuning与prompttuning的区别,正确的是A.前者更新全部参数,后者仅更新promptB.前者需要instruction数据集,后者不需要C.前者通常采用seq2seq损失,后者采用CLM损失D.前者对未见任务泛化更强答案:A、D解析:B项错误,prompttuning仍需任务数据;C项错误,两者损失形式均可互换;A、D为本质区别。14.在构建中文医疗NER数据集时,以下哪些策略有助于提升标注一致性A.双盲标注+仲裁B.预定义统一标注指南C.采用字符级BMES标签D.定期计算Krippendorffα答案:A、B、D解析:C项是标签体系选择,与一致性无直接因果关系;其余均为质量控制手段。15.当使用LoRA(LowRankAdaptation)微调大模型时,下列说法正确的是A.冻结原权重W,引入∆W=BA,其中B,A为低秩矩阵B.推理阶段可将∆W合并到W,不引入额外延迟C.秩r通常取1或2即可达到全参数95%效果D.LoRA仅适用于注意力权重,不适用于FFN答案:A、B、C解析:D项错误,LoRA可插入任何权重矩阵,包括FFN;A、B、C均与原文实验一致。三、填空题(每空2分,共20分)16.在Transformer的自注意力机制中,QK^T除以√d_k的目的是______。答案:防止点积值过大导致softmax梯度饱和解析:√d_k缩放使点积方差保持为1,softmax输入分布更平滑,梯度稳定。17.BERT的MaskedLM掩码策略中,被选中掩码的token有80%用[MASK]替换,10%用______,10%保持不变。答案:随机token解析:随机替换迫使模型不依赖表层[MASK]符号,提升鲁棒性。18.在RougeL评估指标中,LCS表示______。答案:最长公共子序列解析:RougeL基于候选与参考之间的LCS长度计算召回与F1。19.采用Adafactor优化器时,若梯度二阶矩估计被分解为行均值与列均值相乘,则参数更新复杂度从O(nm)降至______。答案:O(n+m)解析:分解后仅需存储两个向量,显著节省内存。20.在DiffusionModel用于文本生成时,前向过程通常采用______噪声调度,使x_T近似标准高斯。答案:线性或余弦解析:线性简单,余弦可减缓中期噪声速度,改善样本质量。21.使用FSDP(FullyShardedDataParallel)训练时,每层前向计算前需执行______操作,保证参数完整。答案:allgather解析:参数被分片到各GPU,计算前需收集完整权重。22.在检索增强生成(RAG)中,若采用DPR作为检索器,其双编码器分别编码______与______。答案:query、passage解析:双塔结构使离线passage可预计算,在线仅算query,提速。23.当使用ChatGLM6B进行int8量化推理时,需引入______缩放因子,减少精度损失。解析:逐通道(perchannel)缩放答案:逐通道缩放解析:perchannel比pertensor更细粒度,保持输出方差。24.在指令微调阶段,若采用“自指令”(SelfInstruct)策略,初始种子指令通常不少于______条。答案:175解析:原始论文使用175条手工指令启动生成,保证多样性。25.对于多模态模型BLIP2,QFormer的查询向量数量设为______,用于桥接视觉与语言。答案:32解析:32个可学习query在论文实验中平衡效果与效率。四、判断改错题(每题2分,共10分)26.ELMo使用双向LSTM拼接,因此其上下文表示在两层LSTM间是同时可见的。答案:错误解析:ELMo是“浅层双向”,每层LSTM仍按左→右、右→左分别训练,上下文仅在拼接时融合,并非同时可见。27.在GPT系列中,GPT3首次引入RLHF(ReinforcementLearningfromHumanFeedback)。答案:错误解析:RLHF首次应用于InstructGPT(GPT3.5),非原始GPT3。28.使用混合专家(MoE)结构时,门控网络总是选择Top1专家进行激活。答案:错误解析:Top2或TopK选择更常见,保证梯度多样性并提升容量。29.在文本对抗样本生成中,将“good”替换为“g00d”属于字符级注入攻击,可绕过基于子词的分词器。答案:正确解析:字符扰动在子词前完成,可能映射为不同token,导致模型误判。30.对于UniLM,其双向、单向、seq2seq三种注意力掩码通过修改attentionmask矩阵实现,无需改变模型参数。答案:正确解析:UniLM统一使用BERT骨架,仅通过不同的掩码矩阵控制上下文可见性。五、简答题(每题8分,共24分)31.描述如何在不增加额外推理延迟的前提下,将LoRA权重合并到原始LLM,并给出伪代码。答案:设原线性权重W∈R^{m×n},LoRA低秩分解∆W=BA,B∈R^{m×r},A∈R^{r×n},训练后只需计算W'=W+BA。伪代码:```pythonimporttorchdefmerge_lora(W,B,A,alpha=1.0):W:nn.Parameter,B,A:nn.Parameterwithtorch.no_grad():W.addmm_(B,A,alpha=alpha)inplace更新delB,A释放LoRA内存```解析:推理前执行一次合并,后续计算与原始模型完全一致,零额外延迟。32.对比“课程学习”(CurriculumLearning)与“自步学习”(SelfPacedLearning)在预训练语言模型继续训练阶段的差异,并给出适用场景。答案:课程学习由人工或启发式规则按难度递增排序数据,模型被动跟随;自步学习由模型自身选择损失小的样本,主动决定“简单”样本,逐步增加难度。适用场景:1.课程学习适合已有明确难度度量,如文本长度、词汇复杂度;2.自步学习适合噪声较多、难度难以先验定义的领域,如社交媒体文本。解析:前者控制流固定,后者动态调整,对噪声鲁棒性更强。33.解释为何在检索增强生成(RAG)中,使用“检索结果重排”(rerank)能提升最终答案准确率,并给出一种轻量级重排模型结构。答案:初始检索采用双编码器,效率优先但交互有限;重排阶段使用交叉编码器,同时编码query与passage,捕获细粒度交互,提升排序精度,进而减少生成器输入噪声。轻量级结构:MiniLMcrossencoder,6层Transformer,hidden384,参数仅23M,推理延迟<5ms/passage(V100)。解析:交叉注意力提供richermatchingsignal,尤其利于消歧。六、计算与推导题(共21分)34.(11分)给定单头注意力机制,输入序列长度n=4,d_k=8,Q,K,V∈R^{4×8}。设QK^T结果矩阵为[[10,8,6,4],[12,14,10,8],[8,10,12,6],[4,6,8,10]](1)计算缩放后softmax(A)矩阵(保留两位小数);(2)若V矩阵全为1,求输出矩阵O第一行元素和;(3)分析当n→∞时,softmax(QK^T/√d_k)的稀疏度趋势。答案:(1)缩放后矩阵M=QK^T/√8,√8≈2.828,得M=[[3.54,2.83,2.12,1.41],[4.24,4.95,3.54,2.83],[2.83,3.54,4.24,2.12],[1.41,2.12,2.83,3.54]]对每行做softmax,例如第一行:exp值=[34.8,16.9,8.3,4.1],行和=64.1,归一化后[0.54,0.26,0.13,0.06]同理得完整矩阵:[[0.54,0.26,0.13,0.06],[0.24,0.44,0.20,0.12],[0.17,0.24,0.40,0.19],[0.06,0.13,0.26,0.54]](2)V全1,O=softmax(QK^T/√d_k)V,每行权重和为1,故O第一行元素和=1×8=8(d_v=8,每列相同)。(3)当n→∞,√d_k固定,点积方差随n线性增加,导致最大值与均值差趋于∞,softmax输出趋向onehot,稀疏度→1。解析:理论上方差O(n)增长,softmax浓度增高,注意力稀疏。35.(10分)假设使用INT8量化感知训练(QAT)对Transformer的矩阵乘法Y=XW进行量化,权重组大小为128,采用对称perchannel量化。(1)写出量化公式与反量化公式;(2)若某通道权重最大绝对值|W_max|=2.0,求缩放因子s;(3)推导量化后该通道的舍入噪声方差,并说明如何插入伪量化节点实现梯度回传。答案:(1)对称量化:W_q=round(W/s),s=|W_max|/127反量化:Ŵ=W_q×s(2)s=2.0/127≈0.01575(3)舍入噪声e=Ŵ−W,均匀分布在[−s/2,s/2],方差σ²=s²/12≈2.07×10⁻⁴伪量化节点前向:W_q=round(W/s)×s,反向直通估计器(STE):∂W_q/∂W=1解析:STE使梯度直接穿过round,简化实现,训练时模拟量化误差。七、综合应用题(共30分)36.某企业需构建“可控多风格营销文案生成”系统,要求:a.支持“正式/幽默/激励”三种风格,且可通过自然语言指令即时切换;b.输出需包含一个产品关键词,长度50~

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论