2025年自然语言处理语言模型训练测试卷及答案_第1页
2025年自然语言处理语言模型训练测试卷及答案_第2页
2025年自然语言处理语言模型训练测试卷及答案_第3页
2025年自然语言处理语言模型训练测试卷及答案_第4页
2025年自然语言处理语言模型训练测试卷及答案_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年自然语言处理语言模型训练测试卷及答案一、单项选择题(每题2分,共20分)1.在Transformer架构中,下列哪一项操作最直接地实现了“序列中任意位置两两token之间的信息交换”?A.位置编码(PositionalEncoding)B.多头自注意力(MultiHeadSelfAttention)C.前馈全连接子层(PositionwiseFeedForward)D.LayerNorm答案:B解析:多头自注意力通过QK^T计算任意两位置的相关权重,实现全局信息交换;其余模块不具备直接跨位置交互能力。2.当使用AdamW优化器训练大模型时,权重衰减系数λ的正确施加位置是:A.在梯度更新前对原始参数直接减λθB.在梯度更新后对原始参数直接减λθC.在梯度计算时对损失函数加λ‖θ‖²D.在梯度更新前对梯度本身减λθ答案:A解析:AdamW将权重衰减从梯度中解耦,在每一步更新前执行θ←θ−ηλθ,避免Adam自适应梯度对衰减的缩放。3.下列关于RoPE(旋转位置编码)的描述,错误的是:A.通过复数旋转矩阵注入相对位置信息B.在Attention的Q、K向量上逐维应用C.可天然外推到训练时未见过的更长序列D.需要额外可学习参数答案:D解析:RoPE完全基于三角函数式旋转,无新增可学习参数,故D错误。4.在混合精度训练(FP16+FP32)中,LossScaling的主要目的是:A.减少GPU显存占用B.防止梯度下溢到0C.加速矩阵乘法D.提高半精度表示范围答案:B解析:FP16动态范围小,梯度易下溢;放大loss等价放大梯度,使其落在FP16有效区间。5.当使用DeepSpeedZeRO3时,下列哪类参数被切分到所有数据并行进程?A.优化器状态B.模型参数C.梯度D.以上全部答案:D解析:ZeRO3对参数、梯度、优化器状态全部按层切分,实现极致显存节省。6.在指令微调(InstructionTuning)阶段,若采用“仅对答案部分计算损失”的策略,主要考虑是:A.提高模型对指令格式的鲁棒性B.减少训练时间C.防止过拟合到指令模板D.降低显存峰值答案:C解析:若对整句计算损失,模型易死记指令前缀;仅对答案部分回传梯度,可强化生成能力而非模板记忆。7.下列哪种方法最适用于“在8张A10080GB上训练175B参数模型”?A.张量并行(TP=8)+流水线并行(PP=1)B.ZeRO3offload+数据并行(DP=8)C.PP=16+TP=1+DP=1D.纯数据并行(DP=8)答案:B解析:175B权重+优化器状态≈700GB,单卡80GB无法放下;ZeRO3+CPUoffload可切分参数并卸载,适配8卡。8.在RLHF阶段使用PPO算法时,下列哪项不是Critic网络的必要输出?A.状态值V(s)B.动作对数概率logπ(a|s)C.优势估计A(s,a)D.回报R(t)答案:D答案:回报由环境给出,非Critic输出。9.当使用FlashAttention时,其内存复杂度从O(n²)降至:A.O(nlogn)B.O(n)C.O(nk)(k为常数)D.仍为O(n²)答案:B解析:FlashAttention通过分块softmax重计算,将显存占用从序列长度平方降为线性。10.在LLM评估中,若观察到“MMLU分数随模型规模提升呈loglinear增长”,最合理的解释是:A.任务需记忆事实,参数量即记忆容量B.任务需复杂推理,大模型泛化更好C.评估指标饱和D.数据泄露答案:A解析:MMLU以知识型问答为主,loglinear趋势符合“参数量↔记忆容量”假设。二、多项选择题(每题3分,共15分;多选少选均不得分)11.下列技术可直接提升Transformer推理吞吐的有:A.KVCacheB.DynamicBatchPaddingC.ContinuousBatchingD.GradientCheckpointing答案:A、C解析:KVCache避免重复计算;ContinuousBatching动态拼接不同长度请求;GradientCheckpointing仅节省训练显存。12.关于LoRA微调,正确的有:A.冻结原模型参数B.引入低秩矩阵BAC.推理时可合并BA至原权重,实现零引入延迟D.秩r越大,显存占用越小答案:A、B、C解析:r越大可训练参数量越大,显存占用上升,D错误。13.在构建中文对话大模型时,以下哪些做法可有效减少“安全幻觉”(SafetyHallucination)?A.人工标注安全对齐数据B.在RLHF阶段引入“拒绝回答”奖励C.预训练阶段过滤高风险网页D.提高Temperature采样答案:A、B、C解析:提高Temperature会加剧随机性,反而可能增加幻觉。14.下列关于“数据并行vs模型并行”的描述,正确的有:A.DP需同步梯度,通信量与参数规模成正比B.TP将单层矩阵切分,通信量随序列长度线性增加C.PP气泡(bubble)比例与microbatch数量负相关D.ZeRO属于DP的一种改进答案:A、C、D解析:TP通信量与序列长度无关,B错误。15.在评估生成式摘要时,以下哪些自动指标对“事实一致性”敏感?A.BERTScoreB.FactCCC.QuestEvalD.ROUGE1答案:B、C解析:FactCC与QuestEval显式建模事实;BERTScore侧重语义相似;ROUGE1仅ngram重合。三、填空题(每空2分,共20分)16.在Transformer中,若隐藏维度d_model=4096,注意力头数h=32,则每个头的维度为____。答案:128解析:4096/32=128。17.使用GPT3175B模型做推理,若采用FP16权重,仅存储参数所需显存约为____GB(保留一位小数)。答案:350.0解析:175B×2Byte=350GB。18.在指令微调数据集中,若每条样本平均token数为800,全球训练token量为1.6B,则约对应____万条样本。答案:2000解析:1.6B/800=2×10⁶。19.若学习率调度采用“cosinedecayto10%withlinearwarmup3%steps”,总步数100k,则warmup步数为____。答案:3000解析:100k×3%=3000。20.当使用GroupQueryAttention(GQA)时,若原h=32,分组数g=4,则键头数压缩为____。答案:8解析:32/4=8。21.在PPOclipping中,常用clip系数ε的默认值为____。答案:0.2解析:OpenAI原始PPO论文推荐。22.若训练batchsize=4Mtoken,序列长度=4k,则实际样本条数为____。答案:1000解析:4M/4k=1000。23.当使用FlashAttention2时,其矩阵乘计算顺序由“行×列”改为“列×行”,主要目的是提高____利用率。答案:GPUSRAM解析:减少SRAM读写,提升occupancy。24.在中文文本归一化中,全角字符“A”对应的Unicode码位为____(十六进制)。答案:FF21解析:全角A位于FF21。25.若模型参数量为54B,使用8bit量化加载,则内存占用约为____GB。答案:54解析:54B×1Byte=54GB。四、判断题(每题1分,共10分;正确打“√”,错误打“×”)26.使用ReLU激活的Transformer在梯度回传时比使用GELU更容易出现“死神经元”。答案:√解析:ReLU负半轴梯度为零,易不可逆死亡。27.在BeamSearch中,beamwidth越大,生成结果的事实一致性一定越好。答案:×解析:宽beam可能降低多样性,反而易复制常见错误模式。28.使用RMSNorm替代LayerNorm可以减少约7%训练时间。答案:√解析:RMSNorm去掉均值计算,融合kernel更快。29.在RLHF中,若KL惩罚系数β=0,则策略可能崩溃到生成高奖励但无意义的重复序列。答案:√解析:缺乏KL约束,策略会过度优化奖励模型漏洞。30.ChatGLM系列在位置编码上采用混合方式:前20%序列用绝对,后80%用旋转。答案:×解析:ChatGLM全程RoPE,无混合。31.使用INT8量化后,模型在MMLU上的平均下降幅度通常小于0.5个百分点。答案:√解析:实践表明LLM.INT8()方法对下游指标影响极小。32.在数据并行中,梯度累积步数越大,等效batchsize越大,但通信次数不变。答案:√解析:梯度累积只在本地累加,跨卡通信次数仍每step一次。33.使用Alibi位置编码时,AttentionBias与头索引无关。答案:×解析:Alibi斜率与头索引成正比,头索引越大斜率越大。34.在T5架构中,Encoder与Decoder的Embedding层共享参数。答案:√解析:T5原论文明确共享tokenembedding。35.当使用MegatronLM的TP时,Embedding层按vocab维度切分,需额外同步。答案:√解析:词表切分导致各卡仅持部分词向量,前向需allgather。五、简答题(每题8分,共24分)36.描述FlashAttention的分块softmax计算流程,并说明其如何保持数值稳定性。答案:1)将输入QK^T矩阵按行块(block)大小Bc切分,SRAM一次加载Q_i、K_j、V_j;2)对每块在线计算局部softmax:先求局部最大值m_ij,减max后求指数得数值稳定;3)累积全局最大值m与归一化因子ℓ,更新输出O;4)使用“在线softmax”公式:m_new=max(m_old,m_local)ℓ_new=exp(m_old−m_new)ℓ_old+exp(m_local−m_new)ℓ_localO_new=exp(m_old−m_new)O_old+exp(m_local−m_new)PV5)无需存储整个n×nAttention矩阵,显存降至O(n);6)反向重计算时再次分块,保证梯度正确性。解析:通过分块+统计量复用,FlashAttention在SRAM内完成Attention,避免HBM读写,同时用max减除技巧防止指数溢出。37.解释“梯度累积”与“微步(microbatch)”在流水线并行中的区别与联系,并给出减少流水线气泡的两种策略。答案:区别:1)梯度累积是数据并行概念,指在多个小batch上前向→反向→累加梯度,最后一次性更新权重;2)微步是流水线并行概念,指将一个batch拆成更小的microbatch,依次注入不同设备,形成流水线。联系:在PP中,每个microbatch前向后立即反向,梯度先累积,等全部microbatch完成再统一参数同步,因此PP天然使用梯度累积。减少气泡策略:a)增加microbatch数量m,使气泡比例≈(p−1)/m下降;b)采用“1F1B”(OneForwardOneBackward)调度,让前向与反向交替,提前释放显存并压缩空闲时间。38.说明“旋转位置编码(RoPE)”在长文本外推时的局限性,并给出两种改进方案。答案:局限性:RoPE的旋转角频率固定,当测试长度L远超训练长度L₀时,高频分量周期远小于L,导致注意力分数震荡,模型无法聚焦局部。改进方案:1)位置插值(PositionInterpolation,PI):预训练后将旋转角频率统一缩放α=L₀/L,使新位置落在原周期内,再微调少量步数;2)NTKRoPE:非均匀缩放,对高频分量缩小比例、低频放大,保持周期相对长度不变,无需微调即可外推。六、计算与推导题(共31分)39.(10分)给定单头Attention:Q=XW_Q,K=XW_K,V=XW_V,其中X∈ℝ^{n×d},W_Q,W_K,W_V∈ℝ^{d×d_k}。假设n=2048,d=1024,d_k=64,计算标准Attention的显存峰值(FP16),并给出FlashAttention的显存峰值。答案:标准:需存储QK^T∈ℝ^{n×n},显存=n²×2Byte=2048²×2≈8.4MB;FlashAttention:仅需SRAM块,假设块大小Bc=Br=128,则峰值=128×d_k×3×2Byte≈0.094MB。解析:FlashAttention分块后显存与n无关,仅与块大小成正比。40.(10分)使用ZeRO3训练一个参数为Φ=100B的模型,优化器采用Adam(m+v两倍参数),若GPU显存限制为40GB,求最小所需GPU数N。答案:总显存=参数+梯度+优化器状态=Φ+Φ+2Φ=4Φ=400GB;ZeRO3切分后每卡需400/N≤40⇒N≥10;取整N=10。解析:ZeRO3将三类全部均摊,每卡显存与N成反比。41.(11分)设某LLM在MMLU上acc=0.712,现用自洽性(SelfConsistency)投票,采样路径k=16,单条路径正确概率p=0.712。假设各路径独立,求多数投票后期望准确率(精确到小数点后3位)。答案:令X~B(k=16,p=0.712),求P(X≥9)=1−P(X≤8);用正态近似:μ=kp=11.392,σ²=kp(1−p)=3.285;Z=(8.5−μ)/σ=−1.60,查表得Φ(−1.60)=0.0548;故P(X≥9)=1−0.0548=0.945;期望准确率≈0.945。解析:多数投票显著高于单路径,体现自洽性增益。七、综合应用题(共30分)42.(15分)阅读场景:某企业需在离线手机端(RAM8GB)部署10B参数对话模型,要求首token延迟<500ms,单句生成长度≤512token。请给出完整压缩与推理方案,含:1)量化方案与比特数;2)推理框架与内核优化;3)缓存策略;4)评估指标与测试结论。答案:1)量化:采用LLM.INT8()权重+KVCacheFP16混合方案,权重压缩至10GB,Cache峰值512×40×2B×40层≈1.6GB,总<12GB,满足8GB需再压缩。改用4bitGPTQgroup128,权重5GB,Cache仍1.6GB,运行峰值≈6.5GB,留1.5GB系统缓冲。2)框架:使用llama.cpp+ARMNEON加速,启

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论