版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年AI自然语言处理技术深度培训试题及答案一、单项选择题(每题2分,共20分)1.在Transformer架构中,用于捕捉序列位置信息的核心组件是A.词嵌入矩阵B.注意力权重C.正弦位置编码D.LayerNorm参数答案:C解析:正弦位置编码通过不同频率的正弦、余弦函数为每个位置生成唯一向量,使模型感知token顺序,且不受序列长度限制。2.当使用混合精度训练FP16时,下列哪项操作最可能引发梯度下溢(underflow)?A.权重初始化过大B.Loss缩放(lossscaling)系数过高C.梯度裁剪阈值过小D.梯度值量级远小于FP16最小可表示正数答案:D解析:FP16最小正数为6.1×10⁻⁸,若梯度绝对值小于该值即被flush为零,导致参数停止更新;lossscaling正是为缓解此问题。3.在对比学习框架SimCSE中,“dropout作为噪声”的核心作用是A.增加batch大小B.构造正样本对C.降低内存占用D.替换掩码语言模型任务答案:B解析:同一文本两次前向经过不同dropoutmask,得到略有差异的表示,作为正样本对,无需额外语料即可训练。4.关于RLHF(ReinforcementLearningfromHumanFeedback)的奖励模型训练,下列说法正确的是A.使用交叉熵损失比较同一提示下两条生成结果的绝对分数B.使用BradleyTerry模型将成对比较转化为最大似然估计C.奖励模型输出softmax概率D.必须采用策略梯度更新语言模型答案:B解析:BradleyTerry模型将人类偏好建模为σ(r₁−r₂),用成对排序损失训练奖励模型,输出标量奖励值而非概率。5.在8bit量化推理中,为避免异常值(outlier)通道引起误差,最佳实践是A.直接对权重做pertensor对称量化B.将异常值通道置零C.采用混合精度保留异常值通道为FP16D.使用INT4权重答案:C解析:LLM.int8()发现异常值仅占0.1%通道却贡献大部分误差,将其保留为FP16可几乎无损恢复精度。6.下列哪种位置编码可天然外推到>2×训练长度而无需额外训练?A.可学习绝对位置嵌入B.RoPE(旋转位置编码)C.相对位置偏置(T5bias)D.ALiBi线性偏置答案:D解析:ALiBi在注意力分数上直接添加与距离成线性比例的负偏置,无需新增参数,长度外推时斜率固定,性能衰减最小。7.在扩散模型用于文本生成时,ClassifierFreeGuidance的引导强度α=3,表示A.条件对数概率与无条件对数概率之差放大3倍B.条件与无条件分布直接相加C.噪声估计网络深度为3D.采样步数缩减为1/3答案:A解析:ClassifierFreeGuidance采样公式:ε_θ(x_t|c)←ε_θ(x_t|c)+α·[ε_θ(x_t|c)−ε_θ(x_t|∅)],放大条件信号。8.当使用DeepSpeedZeRO3训练千亿模型时,优化器状态被分割到A.仅rank0B.所有数据并行rankC.流水线并行stage0D.张量并行组内答案:B解析:ZeRO3将参数、梯度、优化器状态全部按层切分并分布到所有数据并行rank,实现内存线性扩展。9.在检索增强生成(RAG)中,使用最大内积搜索(MIPS)时,通常需要A.将查询与文档向量做L2归一化B.向量维度降至32维以下C.采用乘积量化(PQ)+粗量化D.禁用近似搜索答案:C解析:MIPS等价于在归一化后做最近邻搜索;乘积量化将高维向量分段压缩,可在1000万级语料上毫秒级召回。10.对于多模态大模型,将视觉token与文本token拼接时,为避免视觉信息淹没文本,常采用A.视觉token乘以0.1系数B.在注意力softmax前对视觉key加−∞maskC.使用模态特定位置编码D.随机丢弃50%视觉token答案:C解析:模态特定位置编码(如T5style2D编码)使模型区分“第i张图像第j块”与“第k个词”,防止位置冲突。二、多项选择题(每题3分,共15分)11.以下哪些技术可同时降低GPU内存占用并加速训练?A.GradientCheckpointingB.FlashAttentionC.FP16混合精度D.模型并行答案:ABC解析:GradientCheckpointing以时间换空间;FlashAttention通过分块减少内存读写;FP16减半显存并提升TensorCore利用率;模型并行仅拆分模型,不必然加速。12.关于稀疏注意力(SparseAttention),下列说法正确的是A.Longformer滑动窗口+全局注意力可覆盖线性复杂度B.BigBird随机注意力需固定种子保证可重复C.稀疏模式必须在训练前静态确定D.稀疏注意力可结合FlashAttention实现IO优化答案:ABD解析:BigBird随机注意力种子固定保证相同掩码;部分工作(如PTAC)支持动态稀疏,但主流实现仍静态;FlashAttention可适配任意稀疏掩码。13.在指令微调(InstructionTuning)阶段,以下做法有助于抑制“幻觉”生成A.在prompt末尾追加“请基于提供的上下文回答,若无法回答则输出‘无法确定’”B.使用思维链(CoT)模板强制模型逐步推理C.提高采样温度至1.5D.对无支持答案样本进行负样本训练答案:ABD解析:高温增加随机性反而加剧幻觉;负样本训练让模型学会拒绝超范围问题。14.关于模型压缩中的知识蒸馏,下列描述正确的是A.MiniLM通过深度自注意力蒸馏实现学生模型更深B.DistilBERT使用教师softmax输出作为软目标C.TinyBERT嵌入层蒸馏需对齐隐藏维度D.在线蒸馏(onlinedistillation)无需预训练教师答案:BCD解析:MiniLM蒸馏的是自注意力分布而非深度;TinyBERT采用投影矩阵对齐维度;在线蒸馏中学生与教师同步更新。15.在构建中文医疗大模型时,以下数据合规措施符合《生成式AI管理办法》A.去除18种个人敏感标识符并采用差分隐私B.在官网公示训练数据规模与来源摘要C.使用患者完整病历并仅做脱敏D.由第三方律所出具数据合规评估报告答案:ABD解析:完整病历即使脱敏仍可能重识别,需严格匿名化或合成数据;公示与第三方评估为监管明确要求。三、填空题(每空2分,共20分)16.在Transformer中,自注意力机制的时间复杂度为________,空间复杂度为________。答案:O(n²d),O(n²)解析:n为序列长度,d为隐藏维度;计算注意力矩阵需n²次乘加并存储n²权重。17.RoPE的外推性能可通过引入________修正因子,将基频从10000改为________量级,实现2M长度外推。答案:线性插值,500000解析:线性插值降低旋转角速度,使模型“看到”的位置编码周期变长,缓解长程衰减。18.使用AdamW时,若weightdecay设为0.1,则参数更新公式为θ←θ−lr·(m/√v+________)。答案:0.1·θ解析:AdamW将weightdecay从梯度中解耦,直接对参数做L2正则。19.在对比学习中,InfoNCE损失的温度参数τ越小,则负样本的梯度权重越________。答案:大解析:τ→0时softmax逼近onehot,负样本梯度接近1/τ,放大区分度。20.当使用GroupQueryAttention(GQA)时,若num_heads=32,num_kv_heads=8,则每组query共享________个key/valuehead。答案:4解析:32/8=4,即每4个queryhead共享1组kvhead,减少KVcache显存。21.在量化感知训练(QAT)中,模拟INT8乘加时需引入________算子,其前向执行整数运算,反向传播使用________估计梯度。答案:StraightThroughEstimator(STE)解析:STE将量化梯度近似为1,使梯度可传回浮点权重。22.扩散模型DDPM的反向过程方差schedule通常采用________schedule,其表达式为β_t=β_min+t/T·(β_max−β_min)。答案:线性解析:线性schedule简单有效,后续工作提出余弦schedule改善小步长噪声。23.在RLHF的PPO阶段,若clip_ratio=0.2,则策略更新被限制在________范围内。答案:[1−0.2,1+0.2]即[0.8,1.2]解析:PPO通过裁剪概率比防止策略突变,保证稳定。24.使用FlashAttention时,分块大小B受________内存容量限制,通常取________KB量级。答案:共享内存(SRAM),64–128解析:GPU共享内存仅数十KB,FlashAttention将QK^T切块放入SRAM避免HBM读写。25.在构建检索器时,使用ANN索引HNSW的efConstruction参数越大,则召回率越________,构建时间越________。答案:高,长解析:efConstruction控制构建阶段候选队列大小,越大图质量越高,耗时线性增加。四、判断改错题(每题2分,共10分)26.使用LoRA微调时,秩r越大则可训练参数量越少。答案:错改为:秩r越大则可训练参数量越多。解析:LoRA参数量=2×r×d,与r成正比。27.ALiBi位置编码需要额外可学习参数。答案:错改为:ALiBi不需要额外可学习参数,斜率固定。解析:ALiBi直接在注意力分数加线性偏置,斜率仅与headindex相关,无需训练。28.在扩散模型采样中,DDIM采样步数越少则生成速度越慢。答案:错改为:DDIM采样步数越少则生成速度越快。解析:DDIM为确定性采样,步数减半则迭代次数减半,速度提升。29.使用ZeROOffload时,优化器状态可卸载到CPU内存,计算时自动回拷。答案:对解析:ZeROOffload利用CPU内存容纳优化器状态,通过异步拷贝隐藏延迟。30.检索增强生成中,文档排序器(reranker)通常采用双编码器架构以降低延迟。答案:错改为:文档排序器通常采用交叉编码器(crossencoder)架构以提升精度,但延迟更高。解析:交叉编码器将查询与文档拼接送入Transformer,精度高但需在线推理,无法预先缓存。五、简答题(每题8分,共24分)31.描述FlashAttention的内存访问优化原理,并给出其与传统自注意力的复杂度对比。答案:FlashAttention将输入Q、K、V按行分块,利用GPU共享内存(SRAM)计算局部注意力矩阵P与输出O,避免一次性实例化n×n矩阵。具体步骤:1.将Q、K、V按块大小B切块;2.在SRAM内计算S=Q_iK_j^T,立即应用softmax得到P_ij;3.用P_ij更新输出块O_i与行归一化因子ℓ_i;4.通过统计量ℓ_i实现数值稳定的在线softmax。时间复杂度仍为O(n²d),但内存复杂度从O(n²)降至O(n+B²),B常取64–128。与传统注意力相比,HBM访问次数由Θ(n²)降至Θ(n²d²/B),在A100上实测带来2–4×加速并支持更长序列。32.解释“梯度累积”与“微批次”在超大batch训练中的协同作用,并给出DeepSpeed中的配置示例。答案:梯度累积通过将大batch拆分为若干microbatch,依次前向反向并累积梯度,再统一更新参数,实现在显存受限时使用逻辑大batch。DeepSpeed中配置:{"gradient_accumulation_steps":64,"train_micro_batch_size_per_gpu":4,"gradient_clipping":1.0}表示每张卡每次处理4样本,累积64步后更新,等效batchsize=4×64×GPU数。结合ZeRO3可训练千亿模型,同时保持线性扩展。33.说明检索增强生成(RAG)中“检索器–生成器协同微调”步骤,并给出负采样策略。答案:步骤:1.冻结生成器,用对比学习微调检索器:对同一查询q,将人类标注的正文档d+与随机负样本d−构成正负对,优化InfoNCE;2.联合微调:解冻生成器,使用检索结果作为上下文,最小化生成损失;3.迭代强化:用当前生成器对难负例(生成答案虽高概率但不符合事实)进行采样,构造更难负样本,再微调检索器。负采样策略:•随机负采样:从语料库随机抽取;•BM25负采样:用BM25得分接近但非正例的文档;•生成器难负采样:用生成器beamsearch输出高概率但错误的文档;•对抗负采样:训练轻量排序器,对检索器topk重新打分,选择得分高但非正例的文档。实验表明,协同微调可提升Ragel数据集ExactMatch4.3–6.1分。六、计算与推导题(共31分)34.(10分)给定Transformer自注意力分数矩阵S=QK^T/√d,其中Q,K∈ℝ^{n×d},n=2048,d=128。假设采用FlashAttention分块大小B=128,计算:(1)传统注意力需多少字节存储S?(2)FlashAttention峰值SRAM占用?(3)若A100共享内存164KB,是否满足?答案:(1)S元素数2048×2048=4M,FP16占2字节,共8MB。(2)FlashAttention只需存储两块B×B矩阵(P与O块),峰值2×128×128×2B=64KB。(3)64KB<164KB,满足。35.(10分)设使用LoRA微调LLaMA65B,隐藏维度d=8192,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- SSM软件框架开发技术任务式教程 习题及答案 第8章练习题
- 少先队员申请书给谁写
- 信号维修员转正申请书
- 私立高中贫困补助申请书
- 2025年化妆品销售与咨询服务手册
- 2025年水利行业工程管理与维护手册
- 2026年房地产政策导向与市场趋势解读
- 2025年互联网数据中心(IDC)运维规范
- 取消公众号申请书
- 医院租赁停车场申请书
- 建筑结构荷载规范DBJ-T 15-101-2022
- 中国痤疮治疗指南
- 继电保护装置调试作业指导书
- 老同学聚会群主的讲话发言稿
- 天然气输气管线阴极保护施工方案
- 高血压问卷调查表
- QC成果提高花岗岩砖铺装质量
- GB/T 25156-2010橡胶塑料注射成型机通用技术条件
- GB/T 20878-2007不锈钢和耐热钢牌号及化学成分
- 第六章 亚洲 第一节 概述
- 第六单元作文素材:批判与观察 高一语文作文 (统编版必修下册)
评论
0/150
提交评论