2025年AI自然语言处理技术培训专项练习试题及答案_第1页
2025年AI自然语言处理技术培训专项练习试题及答案_第2页
2025年AI自然语言处理技术培训专项练习试题及答案_第3页
2025年AI自然语言处理技术培训专项练习试题及答案_第4页
2025年AI自然语言处理技术培训专项练习试题及答案_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025年AI自然语言处理技术培训专项练习试题及答案一、单项选择题(每题仅有一个正确答案,错选、多选均不得分)1.在Transformer架构中,用于将输入序列中任意两个位置直接关联起来的核心机制是A.卷积窗口滑动B.自注意力权重矩阵C.门控循环单元D.池化下采样答案:B解析:自注意力通过Q、K、V向量计算任意位置间的权重,实现全局依赖建模,卷积与池化仅捕捉局部特征,GRU为RNN变体,不具备一步全局连接能力。2.当使用RoPE(RotaryPositionEmbedding)时,位置编码的旋转角度θ与维度索引i的关系为A.θ=10000^(2i/d)B.θ=1/(10000^(2i/d))C.θ=1/(10000^(i/d))D.θ=10000^(i/2d)答案:B解析:RoPE的旋转角θ_i=1/(10000^(2i/d)),可保持高频与低频分量在不同维度的稳定性,符合苏剑林2021年论文原始设定。3.在混合精度训练(FP16+FP32)中,为防止梯度下溢而引入的常数因子称为A.Warmup系数B.LossScaling因子C.ClipNorm阈值D.EMA衰减率答案:B解析:LossScaling将损失乘以较大常数(如2^15),反向传播后再缩放,避免FP16下梯度归零,Warmup用于学习率调度,ClipNorm用于梯度裁剪,EMA用于参数平滑。4.以下哪种采样策略在文本生成时能保证输出序列与前缀的语义连贯性且可证明最优A.Topk随机采样B.Nucleus(Topp)采样C.BeamSearchD.对比式解码(ContrastiveSearch)答案:D解析:对比式解码通过最大化模型概率与退化惩罚项的差值,在理论上兼顾相关性与多样性,BeamSearch易重复,Topk/p无法保证全局最优。5.在LLaMA270B的预训练语料中,占比最高的数据来源是A.CommonCrawlB.GitHub代码C.arXiv论文D.Wikipedia答案:A解析:Meta公开的技术文档显示,CommonCrawl经去重过滤后约占LLaMA2语料的60%,其余为C4、GitHub、arXiv、Wiki等。6.当使用LoRA进行参数高效微调时,若原矩阵W∈R^(d×k),秩为r,则新增参数量为A.r×(d+k)B.d×k×rC.(d+k)×r^2D.r×d×k/(d+k)答案:A解析:LoRA引入可训练矩阵A∈R^(r×k)、B∈R^(d×r),总参数量为r×(d+k),远小于原矩阵的d×k。7.在RLHF阶段,InstructGPT用于奖励模型训练的损失函数形式为A.MSEB.CrossEntropyC.RankingLoss(Pairwise)D.FocalLoss答案:C解析:奖励模型输出标量分数,使用PairwiseRankingLoss:max(0,1−r_w+r_l),其中r_w、r_l分别为好/差回答的分数,MSE用于回归,CrossEntropy用于分类。8.当输入长度超过训练时的最大位置时,保持RoPE外推性能的最佳实践是A.直接截断B.线性插值位置索引C.删除位置编码D.随机初始化新位置答案:B解析:线性插值(PositionInterpolation)将原始位置m映射到m×L'/L,使旋转角落在训练范围内,显著降低perplexity,截断会丢失信息,删除或随机初始化均导致分布外问题。9.在BERT的MLM任务中,若遮盖比例从15%提升到30%,模型在下游分类任务上的效果通常A.显著提升B.轻微提升C.轻微下降D.显著下降答案:D解析:过高遮盖比例破坏上下文完整性,导致预训练与微调分布不一致,实验表明30%遮盖率会使F1下降2~4个百分点。10.使用FlashAttention2时,内存复杂度从O(n²)降至A.O(nlogn)B.O(n)C.O(n^(3/2))D.不变答案:B解析:FlashAttention通过分块softmax重计算,将注意力矩阵显存占用从O(n²)降至O(n),仍保持精确注意力输出。11.在中文文本纠错任务中,将“以经”纠正为“已经”属于A.音近错误B.形近错误C.语法错误D.知识错误答案:A解析:“以经”与“已经”拼音相同(yǐjīng),属于音近替换型错误,形近指字形相似如“未/末”。12.当使用DeepspeedZeRO3时,优化器状态、梯度、参数均被分割到不同GPU,其通信量相比ZeRO2A.增加约50%B.减少约30%C.不变D.增加一倍答案:A解析:ZeRO3在反向时需额外收集参数分片,产生allgather通信,整体通信量上升约50%,但显存节省更大。13.在指令微调阶段,为缓解“对齐税”(alignmenttax),最常用的正则化手段是A.Dropout增大B.混合预训练数据C.权重衰减D.梯度裁剪答案:B解析:混合少量预训练数据可维持模型通用能力,降低对齐税,单纯增大Dropout或权重衰减会损害指令遵循能力。14.当使用ChatGLM6B进行INT8量化后,模型体积从12GB降至约A.8GBB.6GBC.4.5GBD.3GB答案:C解析:INT8将FP16参数量减半,6B×2Byte→6B×1Byte≈6GB,但需保留零点和缩放,实际约4.5GB。15.在文本摘要任务中,衡量事实一致性的指标“FactCC”基于A.字符串匹配B.蕴含分类模型C.BLEUD.实体重叠率答案:B解析:FactCC训练BERT型模型判断摘要是否被原文蕴含,属于语义级一致性评估,BLEU为ngram重叠,实体重叠仅覆盖部分事实。16.当使用MoE(MixtureofExperts)时,若Top2门控被激活,则每次前向实际计算的参数量占总参数A.100%B.约50%C.约2/k(k为专家数)D.与专家数无关答案:C解析:Top2门控仅激活2个专家,计算量占比≈2/k,总参数量不变,但计算稀疏。17.在DiffusionLM中,将离散token映射到连续潜空间常用的嵌入方式是A.Word2VecB.VQVAEC.GloVeD.Onehot答案:B解析:VQVAE通过可学习码本将离散词映射为连续向量,支持扩散过程加噪,Onehot维度高且不可导。18.当使用FSDP(FullyShardedDataParallel)训练时,与DPP(DistributedDataParallel)相比,显存占用A.更高B.相同C.更低D.取决于batchsize答案:C解析:FSDP将参数、梯度、优化器状态分片到所有GPU,显存随GPU数量线性下降,DPP每卡保存完整副本。19.在RLHF的PPO阶段,若KL惩罚系数β设为0,可能出现A.模型快速收敛B.奖励模型失效C.模式崩溃D.生成文本与参考模型偏离过大答案:D解析:KL惩罚项约束策略π_θ与参考模型π_ref距离,β=0导致π_θ过度优化奖励模型,输出极端高奖励但不可读文本。20.当使用LongLoRA进行长文本微调时,其核心改进是A.稀疏注意力B.移位短注意力+LoRAC.旋转位置编码D.滑动窗口答案:B解析:LongLoRA在训练阶段将全局注意力替换为移位短注意力(ShiftedSparseAttention),仅局部窗口计算,推理可恢复全局,同时结合LoRA降参。二、多项选择题(每题至少有两个正确答案,多选、漏选、错选均不得分)21.以下哪些技术可直接用于降低Transformer解码延迟A.KVCacheB.SpeculativeDecodingC.FlashAttentionD.BeamSearch答案:A、B解析:KVCache避免重复计算Key/Value,SpeculativeDecoding用小模型并行生成草稿再验证,FlashAttention降低训练显存,BeamSearch增加延迟。22.关于RMSNorm相比LayerNorm的优势,描述正确的有A.去除均值计算,减少一次归约B.在FP16下更不易溢出C.参数量减少一半D.在LLaMA实验上取得轻微BLEU提升答案:A、B、D解析:RMSNorm仅按均方根缩放,无偏置,减少通信,FP16下数值更稳,参数量不变,LLaMA报告0.2BLEU提升。23.以下哪些指标可用于评估生成文本的多样性A.SelfBLEUB.Distinct1/2C.MAUVED.RepetitionRate答案:A、B、D解析:SelfBLEU越低越多样,Distinct1/2衡量ngram独特性,RepetitionRate统计重复片段,MAUVE衡量人与模型分布一致性,非直接多样性。24.在构建中文医疗大模型时,以下数据清洗策略合理的包括A.去除医患隐私姓名B.统一药品名称为通用名C.删除所有数字D.使用医学NER过滤无关网页答案:A、B、D解析:数字如剂量、指标不可删除,其余均为标准清洗步骤。25.当使用QLoRA进行4bit微调时,涉及的技术有A.DoubleQuantizationB.NF4数据类型C.pagedoptimizersD.GradientCheckpointing答案:A、B、C解析:QLoRA采用NF4量化、双重量化进一步压缩缓存,分页优化器降低显存峰值,GradientCheckpointing减少激活,非QLoRA特有。三、填空题(答案需精确,大小写敏感)26.在Transformer中,若隐藏维度d_model=4096,注意力头数h=32,则每个头的维度d_k=________。答案:128解析:d_k=d_model/h=4096/32=128。27.使用BPE算法时,若词表大小设为32000,则中文语料中最先合并的两个子词通常出现在频率最高的________对。答案:字符解析:BPE从字符级开始,统计共现,最高频字符对优先合并。28.在GPT3的论文中,175B参数模型训练使用的batchsizetoken数为________。答案:3.2×10^6解析:OpenAI报告训练batch=3.2Mtoken,对应2048×1536序列。29.当使用GroupQueryAttention时,若原有多头数为32,分组数为4,则键值头数缩减为________。答案:8解析:32/4=8,查询头保持32,键值共享。30.在SentencePiece中,若字符集包含6500个符号,期望词表大小为8000,则剩余________个符号由子词填充。答案:1500解析:8000−6500=1500,通过BPE/SentencePiece学习子词。四、判断题(正确打“√”,错误打“×”)31.使用ReAct提示策略时,模型在生成“Thought”后必须调用外部API。答案:×解析:ReAct允许Thought后选择是否行动,也可直接给出答案。32.在LoRA微调时,将秩r设为大于原矩阵维度不会带来额外收益且可能过拟合。答案:√解析:r超过min(d,k)后矩阵已满秩,无压缩效果,反而增加参数量。33.对于相同参数规模,MoE模型推理延迟一定低于Dense模型。答案:×解析:MoE需动态路由并加载专家参数,若专家分布在不同显存,延迟可能更高。34.使用INT4量化时,模型精度损失一定大于INT8。答案:√解析:位宽越低,量化误差越大,INT4平均perplexity上升更显著。35.在Diffusion模型中,加噪过程的前向核q(x_t|x_0)为高斯分布。答案:√解析:DDPM定义q(x_t|x_0)=N(√ᾱ_tx_0,(1−ᾱ_t)I),确为高斯。五、简答题(给出关键要点,条理清晰)36.描述FlashAttention如何通过分块softmax实现内存高效,并给出块大小选择依据。答案:FlashAttention将输入序列按行块大小B_c、列块大小B_r切分,在SRAM中完成局部softmax计算,避免实例化n×n注意力矩阵。具体步骤:1)初始化行和rowmax、rowsum为0;2)外循环加载K、V块,内循环加载Q块;3)计算局部S=QK^T,更新rowmax、rowsum,采用数值稳定softmax:m_new=max(m_old,S),输出乘exp(m_old−m_new);4)累积输出O,用rowsum归一化。块大小选择依据:SRAM容量,通常取B_c=B_r≈128,使块矩阵QK^T大小为128×128×4Byte≈64KB,适配A100的192KB共享内存,同时保持GPU计算单元高占用。37.解释RLHF中奖励模型过优化(overoptimization)现象,并给出两种缓解方法。答案:现象:当策略π_θ过度优化奖励模型r_φ时,生成文本虽获得高奖励分数,但人类评估质量下降,出现重复、矛盾或不可读内容。缓解方法:1)引入KL惩罚:在PPO目标中加入βKL[π_θ||π_ref],限制策略偏离参考模型;2)迭代式RLHF:定期用最新策略样本重新标注,更新奖励模型,防止策略利用r_φ的分布外缺陷;3)奖励模型集成:取多个r_φ的均值或最小值,降低单模型偏差;4)早停策略:监控KL散度或人类胜率,当指标恶化时终止训练。38.对比PrefixLM与CausalLM在下游摘要任务上的优劣。答案:PrefixLM在编码阶段可见全部输入,解码阶段自回归,优势:1)编码双向上下文,对输入理解更充分,摘要事实一致性高;2)可复用编码器表示,解码速度略快。劣势:1)架构复杂,需修改注意力掩码;2)预训练数据构造复杂,需随机分割PrefixSuffix。CausalLM全程自回归,优势:1)架构统一,训练推理一致;2)可通过提示工程直接生成摘要。劣势:1)输入侧仅单向依赖,可能遗漏关键信息;2)长文本需滑动窗口,增加延迟。实验表明,在相同数据规模下,PrefixLM在CNN/DM上ROUGE1高1.2分,但参数量增加10%。39.说明在中文大模型中引入“字词混合Tokenizer”的动机与实现方式。答案:动机:纯字符Tokenizer导致序列过长,计算量二次增长;纯子词对多音字、未登录词不友好。混合Tokenizer兼顾粒度与效率。实现:1)预训练阶段:先构建基础词表,包含7000常用字+30000高频词,采用SentencePieceunigram模型,对剩余文本继续训练子词;2)编码策略:最长匹配优先,若命中词典词则整词编码,否则退回到字符;3)解码策略:维护字词边界表,防止子词跨字截断;4)特殊处理:对数字、英文保持字符级,避免混合词表爆炸。实验显示,相同模型大小下,混合Tokenizer在CLUE分类任务平均提升0.8分,推理速度提升15%。40.阐述如何使用对比学习提升检索增强生成(RAG)中的段落召回率,并给出损失函数。答案:方法:将查询q与候选段落p编码为相同维度向量,采用双向对比学习,使相关(q,p+)的内积远大于不相关(q,p−)。损失函数:InfoNCEL=−log(exp(sim(q,p+)/τ)/(Σ_{i=1}^kexp(sim(q,p_i)/τ)))其中τ为温度系数,k为负样本数,sim为点积或余弦。训练技巧:1)难负样本挖掘:选择topk高分但无答案段落作为负例;2)跨批次负样本:利用分布式训练扩大负样本规模;3)段落截断:限制长度256,减少噪声;4)联合微调:同时更新查询与段落编码器,保持表示一致。在MSMARCO上,对比学习召回@10从58.7%提升至68.3%。六、计算与推导题(需给出关键步骤与数值结果)41.假设使用标准Transformer,序列长度n=2048,隐藏维度d=4096,注意力头数h=32,batchsizeb=8,计算一次自注意力层的理论显存占用(FP16),并说明FlashAttention如何降低该值。答案:1)存储Q、K、V:3×b×n×d×2Byte=3×8×2048×4096×2≈0.4GB;2)存储注意力矩阵S:b×h×n×n×2Byte=8×32×2048×2048×2≈2GB;3)存储输出O:b×n×d×2Byte≈0.13GB;4)总计≈2.53GB。FlashAttention不显存S,仅保存分块输出,峰值显存降至O(b×n×d)=0.13GB,降低约95%。42.给定一个BPE词表合并操作序列:[(e,t),(et,a),(eta,l)],初始词为{"eta":7,"l":3},请写出合并后的子词及词频。答案:1)合并e、t→et,新词{"et":7,"a":7,"l":3};2)合并et、a→eta,新词{"eta":7,"l":3};3)合并eta、l→etal,最终词表:{"etal":7}。词频:etal出现7次。43.在LoRA微调中,设原矩阵W∈R^(1024×4096),秩r=16,学习率lr=3e4,训练步数T=1000,采用余弦退火至0,请计算第500步的LoRA矩阵更新

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论