2025自然语言处理工程师秋招试题及答案_第1页
2025自然语言处理工程师秋招试题及答案_第2页
2025自然语言处理工程师秋招试题及答案_第3页
2025自然语言处理工程师秋招试题及答案_第4页
2025自然语言处理工程师秋招试题及答案_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025自然语言处理工程师秋招试题及答案一、单项选择题(每题2分,共20分)1.在Transformer架构中,以下哪一项操作最直接地引入了位置信息?A.多头自注意力B.层归一化C.正弦位置编码D.前馈全连接层答案:C解析:Transformer本身对序列顺序无感知,正弦位置编码通过显式加入位置向量使模型感知token顺序;其余选项均不直接编码位置。2.使用BERTbase进行中文文本分类时,若将最大序列长度从128扩展到512,显存占用大约增加多少倍?(假设batchsize、head数等不变)A.1.0B.1.4C.2.0D.4.0答案:C解析:注意力机制显存复杂度O(n²),长度扩大4倍,显存理论增加16倍,但激活值占比并非全部;实际profiling显示约2倍,因嵌入层与参数显存不变。3.在训练GPTstyle自回归模型时,若将学习率warmup步数从4k降到1k,其余超参不变,最可能出现的训练现象是:A.训练loss收敛更快,验证ppl更低B.训练loss震荡,验证ppl升高C.训练loss下降变慢,验证ppl不变D.梯度爆炸导致NaN答案:B解析:warmup过短使早期更新步长过大,破坏预训练权重,导致震荡;验证指标变差。4.对于中文拼写纠错任务,以下哪种解码方式最适合直接输出纠错后完整句子?A.CTCgreedydecodeB.序列标注+BIOtaggingC.指针网络复制+生成混合D.纯编辑距离后处理答案:C解析:中文纠错需同时处理“多字、少字、替换”,指针生成混合可拷贝正确字或生成新字,灵活度最高。5.在LoRA参数高效微调中,若原矩阵W∈ℝ^{d×k},秩r=8,则新增可训练参数量占比约为:A.8/(d+k)B.16/(d+k)C.8r/(dk)D.2r(d+k)/(dk)答案:D解析:LoRA引入两个低秩矩阵B,A,总参数量2rk;原参数量dk;占比=2r(d+k)/(dk)。6.使用F1score评估命名实体识别时,若预测结果将“北京天安门”整体识别为LOC,而标注为“北京/LOC天安门/LOC”两个实体,则:A.精确率分母+1,召回率分母+2B.精确率分母+1,召回率分母+1C.精确率分母+2,召回率分母+1D.精确率分母+2,召回率分母+2答案:A解析:预测1个实体,精确率分母+1;标注2个实体,召回率分母+2;无真正例,故分子不变。7.在对比学习SimCSE中,dropout作为噪声生成正样本对,若将dropout率从0.1调至0.5,则InfoNCEloss温度系数τ=0.05时,梯度方差会:A.增大B.减小C.不变D.先增后减答案:A解析:dropout增大使正样本对距离期望变大,梯度估计方差上升,需减小τ补偿,但题设τ固定,故方差增大。8.将BERT蒸馏到BiLSTM轻量模型时,若使用隐态MSE作为中间层损失,则对[CLS]向量最好的处理策略是:A.直接对齐B.舍弃不参与C.乘以0.1权重再对齐D.先PCA降维再对齐答案:B解析:BiLSTM无[CLS]概念,强行对齐引入噪声;通常仅对齐各token隐态或平均池化后向量。9.在RLHF阶段使用PPO训练对话模型时,若KL惩罚系数β=0,最可能出现的风险是:A.模型崩溃输出空串B.训练不稳定,策略快速偏离参考模型C.奖励模型过拟合D.显存溢出答案:B解析:无KL约束,策略可迅速利用奖励模型缺陷,输出高奖励但无意义文本,导致分布外坍缩。10.将30B参数模型在A10080G单卡上做8bit量化推理,理论上峰值显存约为:A.30GBB.36GBC.45GBD.60GB答案:B解析:8bit权重30B×1Byte=30GB;激活与KVcache约6GB;合计≈36GB。二、多项选择题(每题3分,共15分;多选少选均不得分)11.以下哪些技术可直接缓解文本生成中的“重复解码”问题?A.重复惩罚(repetitionpenalty)B.对比度搜索(contrastivesearch)C.温度采样(temperaturesampling)D.后处理ngramblocking答案:A,B,D解析:温度采样仅调节随机性,不直接惩罚重复;其余三项均显式抑制重复token。12.关于RoPE位置编码,下列说法正确的是:A.显式添加绝对位置向量B.通过旋转矩阵注入相对位置C.可外推到比训练更长的序列D.在attention计算前注入答案:B,C解析:RoPE利用复数旋转矩阵编码相对位置,具备外推能力;非绝对位置向量,也不提前加在embedding。13.在中文文本匹配任务中,以下哪些数据增强方法可能引入伪标签错误?A.同音字替换B.EDA随机词替换C.回译(zh→en→zh)D.同义句生成(SGPT)答案:A,B,C解析:同音/回译可能改变句意;SGPT基于大模型生成,通常人工校验,但理论上仍可能出错,故全选。14.使用DeepSpeedZeRO3训练大模型时,以下哪些组件状态会被切分到所有GPU?A.优化器状态B.梯度C.参数D.激活值答案:A,B,C解析:ZeRO3对参数、梯度、优化器状态均做分片;激活值仍按activationcheckpointing策略保存,不切片。15.在构建领域大模型继续预训练语料时,以下哪些指标可用于自动评估语料质量?A.困惑度(perplexity)B.重复ngram比例C.语言识别置信度D.文档长度方差答案:A,B,C解析:PPL可反映与参考模型的契合度;重复、语言混杂均降低质量;长度方差仅反映分布,非直接质量指标。三、填空题(每空2分,共20分)16.在Transformer注意力计算中,若Q,K,V维度均为64,序列长度n=256,则一次注意力头的理论乘法次数为________。答案:2×256²×64=8,388,608解析:QK^T为256×256×64,再乘V为256×256×64,合计2n²d。17.将SentenceBERT用于语义检索时,常用________距离度量保证向量可比,其公式为________。答案:余弦;cos(u,v)=u·v/(‖u‖‖v‖)18.若使用ALBERT参数共享方案,将12层Transformer共享为1层循环,则模型文件大小约缩小为原来的________。答案:1/12解析:仅存储一层参数,其余层共享;embedding与pooler不变,占比小,可忽略。19.在中文分词任务中,采用BMES标注法,句子“我爱自然语言处理”应标注为________。答案:BEBBEBEBE20.若将GPT2的词汇表从50257扩展到60000,embedding层新增参数量为________。答案:(60000−50257)×768=7,488,384解析:embedding维度768;新增9743个token。21.使用FSDP(FullyShardedDataParallel)时,设置`reshard_after_forward=True`的作用是________。答案:在反向传播前将完整参数重新分片,节省峰值显存。22.在指令微调中,若采用“用户助手脚本”模板,特殊token<|im_start|>应加入模型的________部分,以保证推理时正确识别角色。答案:词汇表与tokenizer.json23.将float32模型权重转换为bfloat16后,模型大小减半,但动态范围与________相同。答案:float32解析:bfloat16指数位8位,与fp32一致,动态范围相同;精度降低。24.在知识蒸馏中,若教师模型输出概率为q,学生为p,温度τ=4,则软标签损失为________。答案:τ²·KL(p_τ‖q_τ)25.使用DeepspeedMiCS加速训练时,通信压缩算法采用________,可将梯度通信量压缩至原来的1/2。答案:PowerSGD四、判断题(每题1分,共10分;正确打“√”,错误打“×”)26.ELECTRA的生成器与判别器共享所有参数。答案:×解析:仅embedding共享;生成器与判别器参数独立。27.在BeamSearch中,beam宽度越大,生成结果多样性越高。答案:×解析:beam宽增大倾向于搜索高概率共性路径,多样性反而下降。28.使用ReLU激活的Transformer在梯度回传时比GELU更易出现神经元死亡。答案:√29.在LoRA微调时,将秩r设为0等价于冻结原模型。答案:√解析:r=0时低秩矩阵退化为0,无更新。30.对比学习损失InfoNCE在batchsize增大时,梯度方差一定减小。答案:×解析:负样本增多可降低方差,但温度τ固定时,极端大batch可能因梯度冲突导致方差回升。31.将RMSNorm替换LayerNorm可略微降低推理延迟,因为省去了均值计算。答案:√32.在中文文本中,全角标点与半角标点语义等价,可直接映射到同一token。答案:×解析:模型分词后可能不同,直接映射会引入歧义。33.使用8bit量化时,outlier通道若直接裁剪为±127,会显著降低生成质量。答案:√34.在指令数据集中,若每条样本均包含“答案长度≤256token”的约束,可显著缓解RLHF阶段的rewardhacking。答案:×解析:长度约束与hacking无直接因果,需结合KL正则。35.将Adam优化器β2从0.999降至0.95,可略微提升大模型预训练后期稳定性。答案:√解析:降低β2使二阶矩更新更快,适应后期梯度变小场景。五、简答题(每题8分,共24分)36.描述如何在不修改模型结构的前提下,仅通过数据侧方法提升中文拼写纠错模型的召回率,并给出实验验证方案。答案与解析:1)构造伪纠错预训练数据:利用OCR引擎对3500万干净中文维基句加噪声(同音、形近、删字、加字),生成“脏净”平行对。2)动态样本加权:训练时若模型对某脏句预测完全正确,则降低其采样权重,聚焦难例。3)迭代回注:用初版模型在1亿网页语料上预测高置信纠错句,经规则过滤后回炉训练。实验:基线F1=68.2,召回62.1;加入伪数据后召回升至71.4,F1=73.8;再经回注召回74.6,F1=75.9,验证有效。37.解释为何在超长文本(>8ktokens)场景下,FlashAttention仍比标准Attention节省显存,并给出复杂度对比。答案与解析:标准Attention需物化n×n注意力矩阵,显存O(n²);FlashAttention采用分块softmax与在线归一化,将大矩阵拆为SRAM可放下的块,每块计算完即写回输出,无需存储中间S、P矩阵,显存降为O(n)。复杂度仍为O(n²)FLOPs,但显存瓶颈解除,故可处理超长序列。38.对比“继续预训练+指令微调”与“直接指令微调”在领域大模型落地时的成本与效果差异,给出量化数据。答案与解析:以法律领域40万条指令数据为例:A)直接指令微调:在LLaMA7B上训练3epoch,耗时8h,GPU×8A100,最终法律选择题acc=58.3%。B)先继续预训练200Btoken法律语料,再指令微调:预训练40h,微调同8h,acc=71.2%。成本:A≈64GPU·h,B≈384GPU·h;效果提升+12.9acc,ROI需结合业务阈值权衡。六、编程与计算题(共31分)39.(10分)手写PyTorch实现带相对位置偏置的MultiHeadAttention,要求:输入:Q,K,V∈ℝ^{b×n×d},偏置B∈ℝ^{n×n}输出:O∈ℝ^{b×n×d}禁止调用torch.nn.MultiheadAttention。答案:```pythonimporttorch,mathdefrel_multi_head_attn(Q,K,V,B,h):b,n,d=Q.shaped_h=d//hQ=Q.view(b,n,h,d_h).transpose(1,2)(b,h,n,d_h)K=K.view(b,n,h,d_h).transpose(1,2)V=V.view(b,n,h,d_h).transpose(1,2)scores=torch.matmul(Q,K.transpose(2,1))/math.sqrt(d_h)(b,h,n,n)scores=scores+B.unsqueeze(0)broadcastattn=torch.softmax(scores,dim=1)O=torch.matmul(attn,V)(b,h,n,d_h)O=O.transpose(1,2).contiguous().view(b,n,d)returnO```解析:手动分头、缩放点积、加偏置、softmax、加权求和,再合并头。40.(10分)给定一个batch对数its=(logits_pos,logits_neg),其中logits_pos∈ℝ^B为positive得分,logits_neg∈ℝ^{B×K}为K负样本得分,请用一行代码实现InfoNCEloss(温度τ=0.05),并计算当B=2,K=4时的数值示例。答案:```pythonloss=torch.log(torch.softmax(torch.cat([logits_pos[:,None],logits_neg],dim=1)/0.05,dim=1)[:,0]).mean()```示例:logits_pos=[1.2,0.8],logits_neg=[[0.9,0.5,0.3,0.1],[0.7,0.6,0.2,0.0]]计算得loss≈0.61541.(11分)假设需将7B参数模型权重按通道量化到INT4(groupsize=64),请计算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论