版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年自然语言处理题库及答案一、单项选择题(每题2分,共20分)1.在Transformer架构中,ScaledDotProductAttention的缩放因子为A.√d_kB.d_kC.1/√d_kD.d_v答案:A解析:为防止点积结果过大导致softmax梯度消失,QK^T需除以√d_k,d_k为Query向量的维度。2.下列哪项技术最早将预训练+微调范式引入NLP?A.Word2VecB.ELMoC.GPT1D.BERT答案:C解析:GPT12018年提出“GenerativePretraining”,首次在NLP中系统验证预训练+微调的迁移效果,早于BERT。3.在中文BERT中,为了适配繁简混合语料,最常采用的字符级分词策略是A.SentencePieceunigramB.jieba精确模式C.字+词混合粒度D.纯词粒度答案:A解析:SentencePieceunigram模型无需预分词,可直接输出繁简兼容的子词,避免OOV。4.当使用ALBERT替代BERT时,以下哪项操作直接降低了参数量?A.跨层参数共享B.FactorizedembeddingC.SOP任务D.以上全部答案:D解析:ALBERT通过共享层、分解Embedding、替换NSP为SOP,综合减少参数量与训练时间。5.在文本风格迁移任务中,若采用“无平行语料”设置,最常用的训练信号是A.重构损失+对抗损失B.最大似然估计C.最小风险训练D.交叉熵+CTC答案:A解析:无平行数据时,模型通过自重构保证内容保留,通过判别器对抗损失保证风格迁移。6.使用RougeL评价摘要时,匹配单元基于A.ngram共现B.最长公共子序列C.编辑距离D.依存路径答案:B解析:RougeL以最长公共子序列(LCS)长度计算召回与F1,兼顾顺序信息。7.在对话系统安全回复检测中,以下哪种数据增强方式对“隐性歧视”检出率提升最大?A.同义词替换B.回译C.模板对抗生成D.随机丢弃答案:C解析:模板对抗可定向生成含隐性歧视的句子,扩充难负例,提升模型鲁棒性。8.若将RoBERTalarge用于长文本(>2048token),需最先考虑的改进是A.增大学习率B.使用Longformer稀疏注意力C.增加warmup步数D.改用AdamWβ2=0.9答案:B解析:RoBERTa采用全连接注意力,长文本显存平方增长;Longformer滑动窗口+全局注意力可线性扩展。9.在知识图谱嵌入中,ComplEx模型可捕获的关系模式是A.对称/反对称B.组合C.逆D.以上全部答案:D解析:ComplEx使用复数嵌入,通过共轭操作天然支持对称、反对称、逆与组合模式。10.当使用混合精度训练FP16时,下列哪项操作最可能防止梯度下溢?A.LossscalingB.GradientclippingC.权重衰减D.EMA答案:A解析:FP16下梯度<2^24会归零;Lossscaling先放大loss再反向,避免下溢。二、多项选择题(每题3分,共15分)11.以下哪些方法可直接缓解BERT在中文命名实体识别上的“边界切分”错误?A.引入词汇增强(LexiconAugmented)B.使用CRF输出层C.采用spanbasedNERD.预训练阶段加入WWM策略答案:A、C、D解析:CRF仅优化标签转移,不直接改善边界;词汇增强与spanbased显式利用词边界;WWM让模型学习完整词掩码,提升边界感知。12.关于PromptTuning,下列说法正确的是A.离散模板搜索属于PromptTuningB.Ptuningv2在输入层插入可训练伪tokenC.PromptTuning参数量一定小于AdapterTuningD.零样本推理时PromptTuning无需任何梯度更新答案:A、B、D解析:Adapter需插入额外模块,参数量常高于纯PromptEmbedding;C错误。13.在机器翻译中,使用BLEURT作为指标的优势包括A.基于多语言预训练,跨语对稳定B.可捕获语义相似度而非字面重合C.与人工相关度高于BLEU4D.无需参考译文即可计算答案:A、B、C解析:BLEURT仍需参考译文,D错误。14.下列哪些技术可降低文本生成中的“重复解码”现象?A.重复惩罚(repetitionpenalty)B.采样时设置no_repeat_ngram_sizeC.使用ContrastiveSearchD.增大beamsize答案:A、B、C解析:beamsize过大易复制高频片段,反而加剧重复。15.关于对比学习在句子表示中的应用,正确的有A.SimCSE使用dropout作为正样本对B.温度参数τ越小,分布越尖锐C.批内负样本越多,效果一定越好D.梯度累积可模拟大批次答案:A、B、D解析:负样本过多引入假负例,效果可能下降,C错误。三、填空题(每空2分,共20分)16.在Transformer中,位置编码的维度与________相同,以保证相加兼容。答案:词向量维度d_model解析:位置编码需逐元素加到词向量,故维度一致。17.BERT的掩码语言模型在15%被选中token中,有________%被替换为随机token,________%保持不变。答案:10;10解析:80%替换为[MASK],10%随机,10%原token。18.当使用FocalLoss解决NER类别不平衡时,调制因子γ>0会________易分样本的权重。答案:降低解析:FocalLoss通过(1p)^γ抑制高置信度样本,聚焦难例。19.在对话状态跟踪中,槽值若采用“跨域可迁移”表示,通常将槽名与槽值编码进________空间。答案:共享语义(或共享embedding)解析:共享空间使新域槽值无需重新训练即可匹配。20.使用ReZero初始化Transformer时,残差分支乘的可学习参数初始值为________。答案:0解析:ReZero将残差乘以α,初始α=0,保证训练初期恒等映射,稳定深层梯度。21.在文本对抗训练FGM中,扰动范数约束通常选择________范数。答案:L2解析:FGM沿梯度方向加扰动,约束L2范数防止扰动过大。22.若将GPT3175B模型量化为INT8,权重元素从32bit压缩到8bit,理论上存储减少________倍。答案:4解析:32/8=4,实际因零点和缩放还需额外空间,略小于4。23.在RAG模型中,检索器与生成器联合训练时,为离散检索段可导,常采用________技巧。答案:REINFORCE/SCST(策略梯度)解析:检索不可导,通过强化学习将检索视为动作,用奖励信号回传梯度。24.使用ALBERT对中文文本进行预训练,若词汇表大小为30000,嵌入维度128,因式分解后投影维度为768,则嵌入层参数量减少________倍。答案:64解析:原参数量30000×768,分解后30000×128+128×768,比值≈64。25.在零样本跨语言迁移中,将英文模板“TranslatetoChinese:X”直接用于德文,性能下降主因是________。答案:模板语言与输入语言不一致导致分布外解析:提示语言与输入语言错配,使预训练多语言对齐失效。四、判断题(每题1分,共10分)26.使用LayerNorm前后,Transformer中同一token的表示范数保持不变。答案:错误解析:LayerNorm重新缩放平移,范数通常改变。27.ELECTRA采用生成器判别器框架,其判别器任务为区分“真实token”与“生成器替换token”。答案:正确解析:ELECTRA用替换token检测(RTD)替代MLM,提高效率。28.在中文分词中,使用BIO标注比BMES标注更节省标签空间。答案:正确解析:BIO仅B、I、O三标签,BMES四标签。29.将ReLU替换为GELU一定会提升BERT在下游任务的表现。答案:错误解析:激活函数影响非线性,但任务差异大,未必“一定”提升。30.对比学习损失InfoNCE是交叉熵的特例。答案:正确解析:InfoNCE可视为(K+1)类分类的交叉熵,正样本为1类,负样本为其余K类。31.在文本分类中,使用Mixup数据增强需保证混合比例λ与标签y的线性插值一致。答案:正确解析:Mixup对onehot标签同样线性插值,保持一致性。32.使用beamsearch解码时,beamsize=1等价于贪心解码。答案:正确解析:beam=1仅保留最高分1条路径,即贪心。33.将GPT的causalmask替换为双向mask,即可直接用于BERT式预训练。答案:错误解析:还需更换训练目标为MLM,并去掉下句预测或替换为NSP/SOP。34.在Transformer中,QK^T的数值范围随d_k增大而减小。答案:错误解析:方差随d_k线性增大,故需缩放。35.使用梯度累积时,等效批次大小=accumulationsteps×GPU批次大小。答案:正确解析:梯度累积将多步梯度求平均再更新,等效大批次。五、简答题(每题8分,共40分)36.描述如何在不改变模型结构的前提下,仅通过修改注意力掩码,使BERT支持任意长度文档的片段级训练,并说明训练与推理阶段的掩码差异。答案:训练阶段:将长文档切分为固定长度片段(如512token),每个片段独立添加[CLS]与[SEP],注意力掩码为全1方阵;跨片段不共享信息。为让模型感知片段顺序,在片段间添加可学习“段落嵌入”加到tokenembedding。推理阶段:采用滑动窗口,窗口间重叠一半长度,掩码仍为局部方阵;对需整篇表示的任务,将各窗口[CLS]输出做均值池化。解析:仅改掩码与位置嵌入,无需稀疏注意力即可扩展长度,但窗口间无全局交互,性能略降。37.解释“温度采样”中温度系数T→0与T→∞时的采样行为,并给出T对生成多样性与质量的影响曲线示意。答案:T→0:分布趋近onehot,采样退化为贪心解码,多样性最低。T→∞:分布趋近均匀,采样完全随机,质量最低。曲线:横轴T从0到2,纵轴为BLEU与SelfBLEU;BLEU随T增大单调降,SelfBLEU单调升,交点处为质量多样性平衡点。解析:温度通过softmax缩放logits,调节峰值锐度,实现质量与多样性权衡。38.对比“细粒度情感分析”与“属性级情感分析”在标注体系、建模目标与评价指标上的差异。答案:标注体系:细粒度需标注情感持有者、情感表达、情感原因;属性级仅需标注(属性,情感极性)。建模目标:前者输出三元组(持有者,情感,原因),后者输出(属性,极性)。评价指标:前者采用三元组F1,后者采用属性级准确率/宏F1。解析:细粒度更复杂,需联合抽取多个元素;属性级聚焦“属性情感”对,任务粒度不同。39.说明如何使用“控制码”方法在GPT2中实现多风格生成,并给出训练数据构造与损失修改细节。答案:训练数据:每段文本前插入风格控制码token,如<romantic>、<news>,再跟原文。损失:仅计算原文token交叉熵,控制码token参与attention但不计损失,防止模型学会复制控制码。推理:输入指定控制码即可采样对应风格。解析:控制码作为条件上下文,无需修改模型结构,实现零样本风格切换。40.阐述“课程对比学习”在句子表示训练中的实施步骤,并解释为何能缓解早期训练崩溃。答案:步骤:1)按句子长度或难度排序,构建课程;2)训练初期仅使用简单正样本对(短句、高频句);3)随训练逐步加入难负样本与长句;4)对比损失温度τ随课程递增,防止初期梯度爆炸。原因:早期模型表示随机,难负样本易引入假负例导致崩溃;课程策略让模型先学习粗略分布,再细化边界,稳定训练。解析:课程学习由易到难,与对比学习渐进扩大负样本空间契合,提升收敛稳定性。六、综合应用题(共35分)41.(15分)某企业需构建“中文合同条款抽取”模型,数据含1000份标注合同,每份平均3k字,条款类型15类,存在严重长尾(最多类占35%,最少0.8%)。(1)给出数据预处理与负样本构造方案;(2)设计模型架构,需利用预训练模型并解决长文本与类别不平衡;(3)给出评价指标与实验对比基线。答案:(1)预处理:将合同按段落切分,滑动窗口512token,重叠128;负样本:随机抽取不含任何条款的窗口作为“O”类,比例与正样本1:1;使用标签平滑ε=0.1缓解过拟。(2)模型:Longformerbase+CRF;为每类条款引入可学习“类别提示”token,拼接到[CLS]后,作为辅助任务预测类别先验;损失采用FocalLossγ=2,α=0.25;长文本采用梯度检查点节省显存。(3)指标:宏F1、微F1、每类F1;绘制PR曲线计算AUC;基线:BERTbase+CRF、RoBERTawwmext+CRF、BiLSTMCRF;实验显示Longformer+Focal宏F1提升4.7%,长尾类召回提升9.2%。解析:滑动窗口保证长文本覆盖;Focal+CRF联合优化序列与不平衡;类别提示提供先验,提升少样本表现。42.(20分)阅读下列代码片段,指出三处隐藏错误并给出修正方案,使其能在单机四卡训练千亿级模型时激活checkpoint+ZeRO3并行。(代码略,以下为文字描述关键行)错误1:model=torch.nn.DataParallel(model)错误2:deepspeed.initialize(model,optimizer,config_params={"zero_optimization":{"stage":2}})错误3:loss.backward()后未执行model.step()答案:错误1:DataParallel与ZeRO冲突,应改用DistributedDataParallel;修正:初始化进程组后torch.nn.parallel.DistributedDataParallel(model,device_ids=[local_rank])。错误2:ZeRO3需设置stage=3,并开启parampartitioning;修正:config中"stage":3,"offload_param":{"device":"cpu"}。错误3:DeepSpeed引擎封装step,应使用engine.backward(loss)与engine.step();修正:移除原始loss.backward()与optimizer.step(),统一由engine管理。解析:ZeRO3需DDP收集梯度并分区参数,DataParallel无法支持;stage=2仅优化器状态分区,不足以训练千亿模型;DeepSpeed引擎接管梯度累积与更新,避免冲突。七、计算与推导题(共30分)43.(10分)给定Transformer单头注意力,d_k=64,输入Q、K、V∈R^{n×d_k},n=1024,batch=8,计算标准
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论