版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年AI自然语言处理原理与算法培训试题库及答案一、单选题(每题2分,共20分)1.在Transformer架构中,ScaledDotProductAttention的缩放因子为A.√d_kB.d_kC.1/√d_kD.d_k²答案:A解析:为防止点积结果过大进入softmax饱和区,需除以√d_k,保持梯度稳定。2.下列哪一项不是BERT预训练任务之一A.MaskedLanguageModelB.NextSentencePredictionC.SentenceOrderPredictionD.TokenTypeEmbedding答案:C解析:SentenceOrderPrediction为ALBERT引入的变体任务,原始BERT仅使用MLM与NSP。3.当使用AdamW优化器时,权重衰减系数λ的正确施加位置是A.梯度更新之后B.梯度更新之前C.一阶动量之后D.二阶动量之后答案:B解析:AdamW将权重衰减从梯度中解耦,在梯度更新前直接对参数进行衰减,避免Adam的bias校正干扰。4.在GPT3的175B参数版本中,采用的最大学习率约为A.6×10⁻⁵B.2×10⁻⁴C.1×10⁻³D.6×10⁻⁴答案:A解析:OpenAI技术报告披露,175B模型在3.6×10¹²token上采用cosineschedule,峰值6×10⁻⁵。5.若将ReLU替换为GELU,模型参数量A.增加≈12.5%B.不变C.减少≈7%D.增加≈0.1%答案:B解析:激活函数无参数,仅计算方式改变,参数量不变。6.在混合精度训练中,LossScaling的主要目的是A.减小显存占用B.防止梯度下溢C.加速通信D.提高数值精度答案:B解析:fp16下梯度易下溢,乘以scale因子后回传,更新前再unscale。7.对于中文文本,WordPiece与BPE相比,最显著差异在于A.子词粒度B.编码速度C.是否基于词频D.是否使用贪心合并答案:A解析:WordPiece按最大似然增量合并,BPE按最高频合并,导致子词切分粒度不同。8.在指令微调(InstructionTuning)阶段,FlanT5采用的最大指令模板数为A.5B.10C.15D.20答案:C解析:FlanT5论文指出使用15类人工模板+3类反转模板增强泛化。9.当使用DeepSpeedZeRO3时,优化器状态被划分到A.数据并行rankB.模型并行rankC.流水线并行stageD.CPUoffload答案:A解析:ZeRO3将参数、梯度、优化器状态均按数据并行rank切片。10.在RLHF中,PPO的KL惩罚系数β若设为0,最可能导致的后果是A.模型崩溃B.训练发散C.策略与参考模型偏离过大D.奖励模型过拟合答案:C解析:KL约束消失,生成策略会快速偏离SFT模型,输出高奖励但不可读文本。二、多选题(每题3分,共15分)11.下列技术可有效缓解长文本外推时的位置编码失效A.ALiBiB.RoPEC.T5BiasD.XPOS答案:ABD解析:ALiBi、RoPE、XPOS均通过相对位置偏置或旋转编码实现长度外推,T5Bias为固定桶编码,外推能力弱。12.关于FlashAttention,以下说法正确的是A.将Attention计算从O(N²)降至O(N)B.无需近似C.减少HBM读写D.支持任意attentionmask答案:BCD解析:FlashAttention保持精确注意力,仅通过分块tiling减少内存读写,复杂度仍为O(N²),但常数大幅减小。13.在对比学习损失InfoNCE中,温度系数τ的作用包括A.控制分布平滑度B.影响负样本梯度权重C.改变正样本距离D.等价于batchsize缩放答案:AB解析:τ越小,分布越尖锐,负样本梯度越大;正样本距离不受τ直接改变。14.以下属于“涌现能力”(EmergentAbility)的观测指标A.少样本CoT准确率突增B.参数量达10B后指令遵循率跃升C.训练loss持续下降D.多步推理F1突然超过0.8答案:ABD解析:涌现能力指随规模非线性突现,训练loss单调下降不属于涌现。15.在构建中文医疗大模型时,必须考虑的合规要求有A.数据去隐私化B.生成内容可追溯C.模型开源许可证D.医疗器械备案答案:ABD解析:医疗场景需满足《医疗器械监督管理条例》,开源许可证非强制。三、填空题(每空2分,共20分)16.在Transformer中,若隐藏维度d_model=4096,注意力头数h=32,则每个头的维度d_k=____。答案:128解析:d_k=d_model/h=4096/32=128。17.使用BF16格式时,动态范围与FP16相同,但有效精度从____位提升至____位。答案:10,11解析:BF16保留8位指数,尾数7位;FP16尾数10位,但BF16指数范围与FP32一致,实际训练更稳定。18.在LoRA微调中,若秩r=16,原矩阵W∈R^(4096×4096),则引入参数量为____。答案:2×4096×16=131072解析:LoRA仅训练BA,参数量为(d×r+r×d)=2dr。19.若训练语料含3×10¹¹token,batchsize=4Mtoken,训练1epoch所需步数为____。答案:75000解析:3×10¹¹/4×10⁶=7.5×10⁴。20.在GPT4技术报告中,报告人评估的“幻觉”率(hallucination)相较于GPT3.5下降____个百分点。答案:19解析:OpenAI公布在内部对抗性事实测试集上幻觉率从41%降至22%。21.使用SentencePiece训练分词器时,若期望词表大小为32000,应设置参数____为32000。答案:vocab_size解析:SentencePiece的vocab_size直接控制合并操作上限。22.在DeepspeedMoE中,Top2门控的负载均衡损失系数默认值为____。答案:0.01解析:DeepSpeed示例配置中balance_loss_weight=1e2。23.若使用8×A10080GB训练175B模型,采用ZeRO3+CPUoffload,最大可设batchsize约为____token。答案:2M解析:实测显存占用约75GB,留5GB余量,单卡250Mtoken,8卡2M。24.在RoPE编码中,旋转角θ_i的底数常取____。答案:10000解析:Suetal.2021设定θ_i=10000^(2i/d)。25.当使用PPO时,若clip_ratio=0.2,则策略更新被限制在____倍范围内。答案:1.2/0.8解析:clip在[1ε,1+ε]即[0.8,1.2]。四、判断题(每题1分,共10分)26.使用RMSNorm相比LayerNorm可减少7%训练时间。答案:√解析:RMSNorm去掉均值计算,实测在GPU上加速约7%。27.BERTbase的参数量大于RoBERTabase。答案:×解析:二者架构一致,参数量相同,约110M。28.在自回归生成中,使用Temperature=0等价于GreedySearch。答案:√解析:温度趋于0,分布趋于onehot,即取最大概率。29.使用QLoRA时,NF4量化对Zeroshot性能影响可忽略。答案:√解析:Dettmersetal.2023实验显示NF4平均下降<0.5%。30.指令微调阶段引入RLHF会显著增加训练算力。答案:√解析:需额外训练奖励模型及PPOrollout,算力约为预训练10%。31.在中文场景下,MacBERT将NSP任务替换为SOP。答案:×解析:MacBERT将NSP替换为“句子顺序预测”(SOP),但中文与英文均如此。32.使用DeepSpeed时,开启activationcheckpoint会增大显存占用。答案:×解析:activationcheckpoint以时间换空间,显存下降约30%50%。33.在T5架构中,Encoder与Decoder共享所有参数。答案:×解析:仅共享Embedding与EncoderDecoder注意力权重,层参数独立。34.使用GQA(GroupedQueryAttention)可减少KVcache显存。答案:√解析:GQA将多头KV分组,cache量下降为原1/g。35.在LoRA推理阶段,必须将BA矩阵合并至原权重。答案:×解析:可合并也可动态相加,合并可减少延迟。五、简答题(每题8分,共24分)36.描述RoPE位置编码如何实现长度外推,并给出旋转矩阵形式。答案:RoPE将query、vector按维度两两分组,每组乘以二维旋转矩阵R_θ=[[cosmθ,sinm],[sinmθ,cosmθ]]其中m为位置差,θ=10000^(2i/d)。通过相对位置直接编码至内积,无需训练绝对位置嵌入,故可外推。解析:旋转不改变模长,仅依赖相对距离,注意力值随距离衰减平滑,长度外推时注意力分布保持稳定。37.解释FlashAttention的tiling策略如何减少HBM读写,并给出内存复杂度。答案:FlashAttention将N×N注意力矩阵按块大小Bc×Br分块,tile加载至SRAM,在片上完成softmax归一化与输出累加,避免写回中间S、P矩阵。内存复杂度从O(N²)降至O(N),HBM访问量由10N²降为5N+O(N²/Bc)。解析:通过在线softmax更新统计量,无需存储大型中间矩阵,实现精确注意力加速。38.对比PPO与RRHF(RankResponsefromHumanFeedback)在训练目标与实现复杂度上的差异。答案:PPO引入重要性采样clip与KL约束,需维护价值网络,超参多,实现复杂;RRHF将偏好转为排序损失,直接对数概率排序,无需价值网络,训练稳定但依赖成对偏好数据量。解析:PPO适合连续奖励场景,RRHF适合离散排序标注,二者可互补。六、计算与推导题(共31分)39.(10分)给定单头注意力输入Q∈R^(n×d_k),K∈R^(n×d_k),V∈R^(n×d_v),maskM∈{0,∞}^(n×n),推导带掩码的注意力输出O,并证明其复杂度。答案:S=QK^T/√d_k+MA=softmax(S)O=AV每步矩阵乘均为O(n²d)运算,softmax逐行O(n),总复杂度O(n²d)。解析:mask在softmax前加入,∞使对应权重归零,保持因果或填充屏蔽。40.(10分)假设使用LoRA微调,原矩阵W∈R^(d×d),秩r=16,训练数据量|D|=1×10⁸token,batchsizeB=1024,训练步数T=1×10⁴,学习率η=3×10⁻⁴,求参数更新总量(以浮点运算数计)。答案:参数量=2dr=2×4096×16=131072每步更新=2×参数量=262144(乘+加)总更新=262144×1×10⁴=2.62×10⁹FLOPs解析:LoRA仅计算BA梯度,反向需两倍参数量FLOPs。41.(11分)在RLHF阶段,奖励模型为BradleyTerry模型,给定偏好对(x,y_w,y_l),证明其负对数似然损失L与sigmoid形式一致,并推导梯度。答案:令r_θ(x,y)为奖励模型输出,则P(y_w≻y_l|x)=σ(r_θ(x,y_w)r_θ(x,y_l))负对数似然L=logσ(Δr)梯度∇_θL=(1σ(Δr))∇_θ[r_θ(x,y_w)r_θ(x,y_l)]解析:Δr=r_wr_l,利用σ′=σ(1σ)即得。七、综合设计题(共30分)42.设计一个面向中文古籍的生成式大模型方案,要求:(1)数据清洗与去重流程(6分)(2)分词与位置编码选择理由(6分)(3)预训练目标与损失函数(6分)(4)下游文言文翻译微调策略(6分)(5)幻觉缓解机制(6分)答案:(1)采用ExactHash+MinHashLSH去重,OCR后纠错用TrOCRlarge,繁简转换用OpenCC,构建版本树保留异文。(2)采用Senten
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年安阳幼儿师范高等专科学校单招职业技能考试参考题库带答案解析
- 2026年华夏银行兰州分行招聘笔试参考题库及答案解析
- 2025年中职第一学年(园林技术)园林植物种植试题及答案
- 2026年黄山市人民政府外事办公室招聘派遣工作人员1名笔试参考题库及答案解析
- 2026湖南师大附中雨花学校春季合同制教师招聘笔试备考试题及答案解析
- 2026中规院直属企业招聘度高校毕业生21人笔试参考题库及答案解析
- 四川省监狱管理局公开遴选公务员笔试备考题库及答案解析
- 2026年井冈山市第二人民医院面向社会公开招聘工作人员笔试备考试题及答案解析
- 2026上海市临床检验中心招聘1人笔试模拟试题及答案解析
- 2026年华中农业大学科学技术发展研究院劳动聘用制人员招聘备考题库及答案详解一套
- DB3502-Z 5026-2017代建工作规程
- 广东省大湾区2023-2024学年高一上学期期末生物试题【含答案解析】
- 第四单元地理信息技术的应用课件 【高效课堂+精研精讲】高中地理鲁教版(2019)必修第一册
- 鲁科版高中化学必修一教案全册
- 提高隧道初支平整度合格率
- 2023年版测量结果的计量溯源性要求
- 建筑能耗与碳排放研究报告
- GB 29415-2013耐火电缆槽盒
- 中国古代经济试题
- 软件定义汽车:产业生态创新白皮书
- 磷石膏抹灰专项施工方案
评论
0/150
提交评论