2025年自然语言处理技术培训试卷及答案_第1页
2025年自然语言处理技术培训试卷及答案_第2页
2025年自然语言处理技术培训试卷及答案_第3页
2025年自然语言处理技术培训试卷及答案_第4页
2025年自然语言处理技术培训试卷及答案_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年自然语言处理技术培训试卷及答案一、单项选择题(每题2分,共20分)1.在Transformer架构中,用于捕捉序列位置信息的核心组件是A.卷积核B.位置编码(PositionalEncoding)C.层归一化D.残差连接答案:B解析:Transformer完全舍弃RNN与CNN,必须借助位置编码将token的绝对或相对位置信息注入词向量,否则模型无法区分“猫追狗”与“狗追猫”。2.下列哪一项最准确地描述了BERT中MaskedLanguageModeling(MLM)的采样策略?A.对全句所有token以90%概率进行maskB.对15%的token进行mask,其中80%用[MASK]、10%用随机词、10%保持不变C.对30%的token进行mask,全部用[MASK]D.对5%的token进行mask,其中50%用[MASK]、50%用随机词答案:B解析:BERT原始论文采用15%采样,再细分80%10%10%的混合策略,缓解预训练与微调阶段[MASK]分布不一致的问题。3.在文本生成任务中,使用topp(nucleus)采样相较于topk采样的主要优势是A.固定候选词数量,计算更快B.动态调整候选空间,避免概率质量分散C.强制使用概率最高的词D.完全消除重复生成答案:B解析:topp根据累积概率动态截断,当概率分布陡峭时候选少,平坦时候选多,兼顾多样性与连贯性;topk则固定k值,容易在分布陡峭时引入低概率噪声,或在平坦时过度截断。4.当使用LoRA(LowRankAdaptation)微调GPT3175B模型时,可训练参数量通常占原模型的A.0.1%以下B.5%左右C.20%左右D.50%以上答案:A解析:LoRA通过插入低秩矩阵(秩常取4~16),仅训练这些增量矩阵。以GPT3175B为例,LoRA可训练参数量约为数百万至千万级别,占比<0.1%,显存与通信开销大幅下降。5.在中文文本中,若采用“字符级”与“子词级”混合切分,最可能带来的负面影响是A.词表大小骤减B.同音字混淆减少C.未登录词比例升高D.序列长度显著增加答案:D解析:字符级切分使单句token数翻倍,导致Transformer计算复杂度O(n²)上升;虽然词表减小,但序列变长,显存与延迟压力更大。6.当使用F1score评估命名实体识别(NER)时,若预测结果出现实体边界错位但类型正确,例如将“北京市海淀区”整体标为LOC,而金标拆成“北京市”与“海淀区”两个LOC,则A.精确率下降,召回率不变B.精确率与召回率均下降C.精确率不变,召回率下降D.精确率与召回率均不变答案:B解析:严格匹配下,该预测为假阳性(FP)与假阴性(FN)各一次,导致P与R同时降低,F1随之下降。7.在RLHF(ReinforcementLearningfromHumanFeedback)阶段,PPO算法中的优势函数A_t通常采用A.蒙特卡洛回报减去基线B.时序差分误差δ_tC.GAE(λ)估计D.纯策略梯度不加基线答案:C解析:OpenAIInstructGPT使用GAE(λ)平衡方差与偏差,λ∈[0.95,0.98],使优势估计更稳定。8.当模型蒸馏温度T→∞时,softmax分布趋近于A.均匀分布B.狄拉克δ分布C.正态分布D.伯努利分布答案:A解析:温度升高,logits差异被抹平,概率趋于1/V的均匀分布,提供最大暗知识。9.在中文拼写纠错任务中,将“因该”纠正为“应该”属于A.音近错误B.形近错误C.语法错误D.语义错误答案:A解析:“因”与“应”拼音相近(yin/ying),属音近别字;二者字形差异大,排除形近。10.下列关于“指令微调”(InstructionTuning)的描述,错误的是A.可提升模型对未见任务的零样本泛化B.需要大量人工撰写指令答案对C.通常与强化学习无关D.会显著降低模型在预训练领域上的困惑度答案:D解析:指令微调可能轻微抬高预训练领域PPL,因为优化目标从语言建模转向指令遵循,产生“对齐税”(alignmenttax)。二、多项选择题(每题3分,共15分)11.以下哪些技术可直接缓解Transformer长文本O(n²)显存瓶颈?A.FlashAttentionB.ALiBi位置编码C.GradientCheckpointingD.SparseAttentionPatterns(如Longformerslidingwindow)答案:ACD解析:FlashAttention通过分块+重计算将显存从O(n²)降至O(n);GradientCheckpointing用时间换空间;SparseAttention减少实际计算量;ALiBi仅改变位置偏差,不降低显存复杂度。12.在构建中文医疗NER数据集时,为降低标注者歧义,可采取A.制定细粒度实体类型与边界规范B.采用双人标注+第三人仲裁C.使用主动学习优先挑选高置信样本D.定期举行标注者一致性培训答案:ABD解析:主动学习挑选的是“模型不确定”样本,与降低标注者歧义无直接因果关系;其余三项均能提高一致性。13.下列关于对比学习(ContrastiveLearning)在句子表示中的说法,正确的有A.SimCSE使用Dropout作为正样本对B.温度参数τ越小,对比损失对难负例越敏感C.批内负样本越多,表示质量一定越好D.统一长度归一化可缓解表示坍缩答案:ABD解析:批内负样本过多可能引入假负例(falsenegative),反而损害质量;其余三项均符合理论与实验结论。14.在FewShotNER场景下,使用原型网络(PrototypicalNetwork)时,若出现类别原型重叠,可尝试A.引入对比损失增大类间距离B.采用更高的Shot数C.在Episode训练时进行类内特征增强D.将欧氏距离替换为余弦距离答案:ABCD解析:四项均为常用策略:对比损失拉远类间;更多Shot可稳定原型;类内增强如Gaussiannoise提升鲁棒性;余弦距离在高维更敏感。15.以下哪些做法会显著增加大模型预训练时的碳排放?A.使用混合精度训练B.将批量大小从4k提到32kC.在PUE=1.2的数据中心训练D.采用DeepSpeedZeRO3优化器状态分区答案:BC解析:批量增大需更多GPU并行,能耗上升;PUE高意味着冷却开销大;混合精度与ZeRO3均降低能耗。三、判断题(每题2分,共10分)16.在Transformer中,QueryKey点积结果除以√d_k是为了防止softmax梯度消失。答案:√解析:防止点积绝对值过大进入softmax饱和区,梯度趋零。17.BERTlarge的参数量是BERTbase的3倍。答案:×解析:base110M,large340M,约为3.1倍,但官方常简称“3倍”可接受;严格数学意义上不精确,故判错。18.使用字节对编码(BPE)时,中文“囍”这种生僻字一定会被拆成UTF8字节序列。答案:×解析:若“囍”在预训练语料出现频率高于合并阈值,则保留为独立token,不一定拆字节。19.在RLHF中,奖励模型(RM)过拟合会导致策略模型生成“阿谀奉承”式回答。答案:√解析:RM对偏好数据过拟合会放大某些浅层模式(如过度礼貌),策略为获得高奖励会复制该模式。20.将ReLU替换为GeLU会显著增加Transformer推理延迟。答案:×解析:GeLU有近似公式0.5x(1+tanh(√(2/π)(x+0.044715x³))),现代框架已高度优化,延迟差异<1%,可忽略。四、填空题(每空2分,共20分)21.在Transformer中,若隐藏维度d_model=1024,注意力头数h=16,则每个头的维度d_k=________。答案:64解析:d_k=d_model/h=1024/16=64。22.若使用ALiBi位置编码,当序列长度从2048扩展到4096时,最大相对距离对应的斜率m将________(填“增大”“减小”或“不变”)。答案:不变解析:ALiBi斜率m仅与头索引相关,与序列长度无关。23.在GPT3的175B版本中,若词表大小V=50257,嵌入层参数量为________亿。答案:0.128解析:50257×12288(d_model)≈6.17×10⁸,约0.617亿;但题目问的是“嵌入层”包含输入+输出权重共享,故为0.617×2≈1.23亿,四舍五入0.12亿保留两位,填0.12亦可接受;标准答案取0.128。24.使用DeepSpeedZeRO3时,若GPU数=64,优化器状态被分区,则每个GPU保存的Adam动量参数量是总动量的________。答案:1/64解析:ZeRO3将参数、梯度、优化器状态全部均匀分区。25.在中文文本分类任务中,若采用MacBERT做backbone,其MLM策略将15%的token中的________%用同音字替换。答案:10解析:MacBERT为缓解[MASK]泄露,采用同音词替换策略,占10%。26.若F1score=0.8,精确率P=0.9,则召回率R=________(保留两位小数)。答案:0.72解析:F1=2PR/(P+R)⇒0.8=2×0.9×R/(0.9+R)⇒R=0.72。27.在指令微调中,若使用LLaMA270B模型,学习率通常设置为________×10⁻⁵(填整数)。答案:2解析:官方实验采用2×10⁻⁵,过大导致发散。28.当使用4bit量化加载模型时,相比于16bit,显存占用理论上减少________倍。答案:4解析:16bit→4bit为4倍压缩,实际因kerneloverhead略小。29.在句子相似度任务中,将“今天天气真好”与“今日天氣很好”进行余弦相似度计算,若未经过归一化,则最大可能值________(填“>1”“=1”或“<1”)。答案:=1解析:归一化后上限为1;未归一化时,若两向量共线且同向,余弦值仍为1。30.若使用Deepspeed的pipeline并行,将模型均匀切为8段,则前向传播时共产生________次设备间通信。答案:14解析:8段需7次发送,反向再7次,共14次;但题目仅问“前向”,故填7;严格审题,填7。五、简答题(每题8分,共24分)31.描述“知识蒸馏”中大模型(Teacher)与小模型(Student)在logits层面蒸馏的完整损失函数,并解释温度参数T的作用。答案与解析:损失函数为L=α·T²·CE(p_T^T,p_S^T)+(1−α)·CE(y,p_S^1)其中p_T^T=softmax(z_T/T),p_S^T=softmax(z_S/T),CE为交叉熵,y为真实标签,α为平衡系数。温度T>1时,softmax分布更平滑,暴露Teacher暗知识——即小概率类别的相对关系;T²系数用于抵消softmax梯度尺度变化,使不同T下蒸馏损失梯度量级一致。当T→1,退化为常规硬标签损失。32.解释为什么“梯度累积”能够等效扩大批量大小,并给出在混合精度训练下实现梯度累积的伪代码(PyTorch风格)。答案与解析:梯度累积通过将大批量的梯度拆分为若干小步,在内存受限时实现大batch效果。核心思想:loss.backward()不立即optimizer.step(),而是多次累加梯度后再更新。伪代码:```pythonmodel.zero_grad()fori,batchinenumerate(dataloader):loss=model(batch)/accum_stepswithamp.scale_loss(loss,optimizer)asscaled_loss:scaled_loss.backward()if(i+1)%accum_steps==0:optimizer.step()model.zero_grad()```通过除以accum_steps,保证梯度尺度等价于大batch;amp.scale_loss处理梯度缩放,防止FP16下underflow。33.对比“前缀微调”(PrefixTuning)与“LoRA”在参数效率、推理延迟、实现复杂度三方面的差异。答案与解析:参数效率:PrefixTuning仅训练前缀向量,参数量≈prefix_length×d_model×layer×2(k,v),长度较长时仍可达原模型0.1%~1%;LoRA通过低秩矩阵,参数量≈2×r×d_model×layer,秩r常取4~16,占比<0.1%,略优于Prefix。推理延迟:Prefix需拼接额外向量,增加序列长度n,导致Attention计算量O((n+prefix)²)上升;LoRA仅需对激活乘低秩矩阵,无序列膨胀,延迟几乎零增加。实现复杂度:Prefix需修改模型输入层与每层的past_key_values缓存,推理框架需支持可变前缀;LoRA仅需在qkv投影后插入可插拔模块,实现更简洁,社区支持更广泛。六、计算与推导题(共31分)34.(10分)假设某Transformer模型采用旋转位置编码(RoPE),隐藏维度d=512,头数h=8,序列位置m=100,n=101,求位置100与101之间的RoPE旋转角θ的差值Δθ(以弧度表示),并给出query向量q∈ℝ⁶⁴在位置100经过RoPE后的第一维表达式。答案:RoPE将每对维度(d_{2i},d_{2i+1})旋转,角度θ_i=10000^{2i/d},i=0,1,…,31。Δθ_i=θ_i×(101−100)=θ_i第一维对应i=0,θ_0=1弧度(近似)。q′₀=q₀cosθ₀−q₁sinθ₀解析:RoPE通过复数乘法将位置信息嵌入,角度与相对位置成正比;第一维仅与自身及下一维组成复数旋转。35.(10分)某企业使用GPT3175B生成广告文案,平均输入400tokens,输出200tokens。已知AzureOpenAIAPI定价:输入0.03美元/1ktokens,输出0.06美元/1ktokens。若每日调用10万次,求月度(30天)成本;若采用4bit量化自托管,GPU为A10080G,功耗400W,PUE=1.25,电价0.8元/kWh,推理延迟每样本3s,求月度电费,并对比云API与自托管电费差异。答案:云API:输入成本=100000×400/1000×0.03×30=36000美元输出成本=100000×200/1000×0.06×30=36000美元总计72000美元自托管:每样本能耗=(400W×3s)×1.25=1500J=0.000417kWh日电耗=100000×0.000417=41.7kWh月电费=41.7×30×0.8=1000.8元≈144美元(汇率7)差异:72000−144=71856美元,自托管电费仅为云API0.2%。36.(11分)给定一个长度为n的序列,采用稀疏注意力Longformer的slidingwindow大小为w=64,globaltoken数量为g=4,请推导:(1)单头注意力计算复杂度O(?);(2)若n=8192,w=64,g=4,计算相比标准自注意力的理论加速比(仅考虑乘法次数)。答案:(1)复杂度:每个普通token关注w个局部+g个全局,共(w+g)n;每个globaltoken关注全部n,额外gn;总O((w+2g)n)。(2)标准乘法次数:n²dLongformer:((64+8)×8192)d=72×8192d加速比:n²/(72n)=n/72=8192/72≈11

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论