版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年(人工智能)自然语言处理基础试题及答案一、单项选择题(每题2分,共20分)1.在Transformer架构中,用于将输入序列中不同位置的信息进行关联的核心机制是A.卷积核滑动B.自注意力C.池化降维D.残差连接答案:B解析:自注意力通过Query、Key、Value的缩放点积计算,使任意两个位置直接交互,摆脱了RNN的时序依赖,是Transformer的基石。2.下列关于BERT预训练任务“NSP”的描述,正确的是A.预测被遮盖的词B.判断两个句子是否相邻C.判断句子情感极性D.预测下一个句子出现的概率分布答案:B解析:NextSentencePrediction让模型学习句子级关系,提升下游句对任务表现;MaskedLM则负责词级表示。3.在文本分类任务中,若正负样本比例高达1:99,且数据量极大,最合理的首要处理策略是A.直接随机降采样负例B.采用FocalLoss并保留全量数据C.先无监督聚类再分类D.将问题转化为异常检测答案:B解析:FocalLoss通过调制因子降低易分样本权重,使模型聚焦难例,适合极度不平衡且大数据场景;随机降采样会丢失大量信息。4.对于中文“南京市长江大桥”进行最大前向匹配(词典最长词5字),切分结果是A.南京市/长江/大桥B.南京/市长/江/大桥C.南京市/长江大桥D.南京/市/长/江/大/桥答案:A解析:最大前向匹配从左侧取最长可能词,“南京市”在5字窗口内存在,切出后继续扫描剩余串“长江大桥”。5.在Seq2Seq+Attention的翻译模型中,若解码器第t步的上下文向量c_t与编码器所有隐状态h_i有关,则c_t的计算本质是A.对h_i做均值池化B.对h_i做加权平均,权重由注意力分数决定C.取h_t作为c_tD.对h_i做max池化答案:B解析:注意力权重α_ti=softmax(score(s_t,h_i)),上下文向量c_t=Σα_tih_i,实现动态加权。6.使用GPT3做零样本情感分类时,提示模板“Review:{text}.Sentiment:”属于A.离散提示B.连续提示C.前缀微调D.适配器微调答案:A解析:离散提示用自然语言文本引导,无需更新参数;连续提示用可训练向量,前缀微调则针对前缀参数训练。7.在Word2Vec的Skipgram模型中,若负采样个数k=5,目标词为“apple”,则一个训练样本对应的输出层实际参与参数更新的节点数为A.1B.5C.6D.词表大小答案:C解析:负采样仅保留正例“apple”与5个负例,共6个输出节点参与计算与梯度更新。8.下列评价指标中,对机器翻译输出“thecatsatonthemat”与参考译文“acatsatonthemat”最不敏感的是A.BLEU1B.BLEU2C.METEORD.chrF++答案:D解析:chrF++基于字符ngram,对冠词“the/a”差异不敏感;BLEU1会因“the”未匹配而扣分明显。9.在中文拼写纠错任务中,若将“机器学习”误写为“机器学系”,最可行的检错阶段特征是A.字音相似度B.字形编辑距离C.语义困惑度突增D.词性标注冲突答案:C解析:语言模型对“机器学系”赋予极低概率,困惑度飙升,可触发纠错;字形距离“习↔系”为1,但音不近,故字形或字音单特征均不足。10.当使用LoRA微调LLaMA7B时,若rank=8,插入矩阵为W+ΔW,其中ΔW=BA,则新增可训练参数量约为A.7B×8B.2×7B×8C.2×hidden×rankD.2×vocab×rank答案:C解析:LoRA对Attention和MLP的权重矩阵注入低秩分解,新增参数量≈2×dim×rank×层数,与hiddensize直接相关。二、多项选择题(每题3分,共15分)11.下列技术可直接用于缓解Transformer在推理阶段O(n²)复杂度问题的是A.LinformerB.PerformerC.ALiBiD.SparseTransformer答案:A、B、D解析:Linformer将Key/Value投影到低维;Performer使用FAVOR+核近似;SparseTransformer限制注意力模式;ALiBi仅替换位置编码,不改变复杂度。12.关于对比学习在句子表示中的应用,正确的有A.SimCSE使用Dropout作为正例增强B.温度参数τ越小,对比损失对难负例越敏感C.批量内负例越多,表示空间越均匀D.必须依赖人工标注的相似度标签答案:A、B、C解析:SimCSE无需额外标注,仅通过Dropout生成正例;τ减小使softmax峰值更尖锐,难负例权重上升;大批次负例可缓解崩溃;D错误。13.在构建领域BERT时,以下策略可能提升下游任务效果的是A.继续预训练(DAPT)B.调整Tokenizer新增领域词C.采用WholeWordMaskingD.将NSP任务替换为句子顺序预测(SOP)答案:A、B、C、D解析:DAPT注入领域知识;新词切分减少OOV;WholeWordMasking提升词级表示;SOP比NSP更鲁棒,已被RoBERTa验证。14.关于PromptTuning与Ptuningv2的区别,正确的有A.前者仅在输入层插入连续向量,后者在每一层插入B.前者需为每个任务保存完整模型副本,后者只需保存prompt参数C.后者在小型模型上表现更稳定D.两者均不更新预训练模型参数答案:A、C、D解析:Ptuningv2借鉴深度提示,层间插入可训练向量,提升小模型效果;两者均冻结主干;PromptTuning只需保存轻量prompt,B错误。15.下列关于大模型“涌现能力”的描述,经验上被观测到的有A.参数量超阈值后,ChainofThought推理准确率突增B.指令微调后,模型在未见过的语言上也能完成翻译C.缩放定律表明loss随参数指数下降D.参数量超过10B后,无需微调即可做复杂算术答案:A、B解析:涌现能力指性能随规模突跃,A、B已被GPT3/PaLM验证;C描述平滑下降,非突跃;D算术能力仍不稳定,非普遍涌现。三、填空题(每空2分,共20分)16.在Transformer中,若隐状态维度d=512,多头注意力head=8,则每个头的维度为______。答案:64解析:512/8=64。17.若使用1gram、2gram、3gram、4gram计算BLEU,各阶权重均匀,则BLEU公式中几何平均后需乘以简短惩罚项BP,当候选译文长度______参考长度时,BP<1。答案:小于解析:BP=exp(1−ref/cand)若cand<ref,指数项为正,BP<1。18.将句子“AI产品落地难”进行字级别复制增强,若采用RandomInsertion策略,随机插入2次,可能得到的一个结果为______(示例即可)。答案:AI产品落地难难或AI产产品品落地难解析:RandomInsertion随机重复选择字或词,答案不唯一。19.在ELECTRA的替换Token检测任务中,生成器采用______训练目标,判别器采用______训练目标。答案:MaskedLanguageModeling;ReplacedTokenDetection解析:生成器MLM预测被遮盖词,判别器判断每个Token是否被替换。20.若中文文本含繁体字“機器學習”,需将其转为简体“机器学习”,所使用的最常用开源库是______。答案:OpenCC解析:OpenCC支持繁简、地术语转换,GitHub开源。21.当使用ALBERT对参数进行跨层共享时,为保持表达能力,引入的投影矩阵分解将原本V×V的嵌入矩阵分解为______与______两个矩阵。答案:V×E;E×V解析:ALBERT将词嵌入大小E与隐层大小H解耦,分解为V×E和E×V,减少参数量。22.在UniLM同时完成三种语言模型任务时,通过改变______矩阵实现双向、单向、seq2seq的不同注意力模式。答案:AttentionMask解析:UniLM不改动结构,仅调整mask实现不同语言模型。23.若使用FP16混合精度训练,为防止梯度下溢,通常需启用______技术。答案:LossScaling解析:LossScaling将损失乘以系数,反向传播后缩放梯度,避免极小梯度归零。24.当构建检索增强生成(RAG)系统时,检索器通常采用______编码器将查询与文档映射到同一语义空间。答案:DensePassageRetriever(或DPR)解析:DPR用双塔BERT编码,将查询与段落映射为向量,做最大内积搜索。25.在指令微调阶段,为提升模型对“角色扮演”任务的稳定性,可在提示中加入______语句,明确模型身份。答案:SystemPrompt(或系统提示)解析:如“你是知识渊博的助手”,系统提示在对话开始即固定,增强一致性。四、判断题(每题1分,共10分)26.BERT的PositionEmbedding采用可学习的绝对位置编码,最大长度512,超出后需截断。答案:√解析:BERT原始实现即如此,超出512需滑动窗口或截断。27.在GPT系列中,LayerNorm位于Attention/MLP之后,即PostNorm结构。答案:×解析:GPT1/2/3均用PreNorm,即Norm→Attention/MLP→残差。28.使用ROUGEL评价摘要时,L指最长公共子序列,考虑了词序但不去重。答案:√解析:ROUGEL基于LCS,保留顺序,允许重复词出现。29.在中文分词中,若词典无“新冠”,则“新冠肺炎”可能被切为“新/冠/肺/炎”,此现象称为OOV。答案:√解析:OOV即OutofVocabulary,词典未登录导致过度切分。30.将ReLU替换为GELU后,Transformer训练速度一定提升,因为GELU非饱和区梯度更大。答案:×解析:GELU计算量高于ReLU,速度未必提升;梯度特性改善收敛,但非绝对。31.使用AdaFactor优化器可显著降低显存占用,因其不保存一阶动量。答案:×解析:AdaFactor不保存二阶动量的平方梯度矩阵,仅保存低秩分解,节省显存;一阶动量仍保留。32.在对话系统安全过滤中,若采用规则黑名单“杀|死|毒”,则句子“病毒杀死了进程”会被误伤。答案:√解析:关键词匹配无上下文,导致正常技术术语被误屏蔽。33.将预训练模型从FP32转为INT8量化后,模型体积理论上缩小为原来1/4。答案:×解析:体积缩小1/4仅当全部INT8且embedding也量化;实际需存缩放参数,约1/3~1/4。34.使用梯度累积可在单卡上模拟大batch训练,但学习率需等比例放大。答案:×解析:梯度累积不改变有效batch大小下的优化器行为,学习率无需等比放大,除非同时调整scheduler。35.在对比学习中,若负例出现与正例语义相同的样本,称为假负例(FalseNegative),会拉低性能。答案:√解析:假负例被错误推远,导致表示空间塌陷,需通过难负例挖掘或清洗缓解。五、简答题(每题8分,共24分)36.描述Transformer自注意力计算流程,并给出缩放点积的数学表达式,说明缩放因子的作用。答案:1)对输入X分别线性映射为Q、K、V,维度均为d;2)计算注意力分数S=QK^T/√d_k;3)对S按行进行softmax得权重矩阵A;4)输出O=AV。缩放点积:Attention(Q,K,V)=softmax(QK^T/√d_k)V。缩放因子√d_k防止d_k较大时点积绝对值过大,导致softmax梯度饱和,梯度消失。37.解释“知识蒸馏”在小型学生模型模仿大型教师模型时的损失函数设计,并给出温度参数τ的影响。答案:损失通常由两部分加权:L=α·CE(y_true,y_student)+(1−α)·τ²·KL(p_t^τ||p_s^τ)其中p^τ=softmax(z/τ)。温度τ>1使softmax分布更平滑,放大负标签信息,帮助学生学到教师暗知识;τ→∞分布趋均匀,τ→0趋onehot。实验表明τ=3~5效果佳,τ过大则信号噪声比下降。38.列举三种缓解大模型推理时显存峰值的方法,并比较其优缺点。答案:1)梯度检查点(Checkpoint):重计算前向激活,显存降至O(√n),时间增加约20%;2)8bit量化(LLM.int8()):权重与激活INT8,显存减半,精度损失<1%,但需硬件支持矩阵乘累加INT32;3)模型并行(TensorParallel):将单层权重拆分到多卡,单卡显存线性下降,通信量上升,需高速互联。比较:Checkpoint无精度损,耗时;量化实现简单,极端层可能溢出;模型并行扩展性好,实现复杂。六、计算与推导题(共21分)39.(10分)假设某Transformer编码层hidden=768,head=12,序列长度n=128,batch=32,计算标准自注意力机制在该层的理论浮点运算量(FLOPs),并给出推导。答案:1)Q、K、V线性映射:3×(n×d×d)=3×128×768×768=226M;2)QK^T:n×d_head×n×head=128×64×128×12=12.5M;3)加权求和AV:n×n×d_head×head=128×128×64×12=12.5M;4)输出投影:n×d×d=128×768×768=75.5M;总FLOPs=226+12.5+12.5+75.5≈326.5MFLOPs。注:乘法与加法各算1FLOP,已合并。40.(11分)给定真实标签序列“BPERIPEROOBLOCILOCO”与模型预测“BPERIPERBPEROBLOCOO”,计算实体级精确率、召回率、F1,需给出实体边界与类型完全匹配才计TP。答案:真实实体:PER(01)、LOC(45)预测实体:PER(01)、PER(2)、LOC(4)TP:PER(01)匹配,1个;FP:PER(2)、LOC(4)类型或边界错误,2个;FN:LOC(45)未完全匹配,1个。精确率P=1/(1+2)=1/3≈0.333;召回率R=1/(1+1)=0.5;F1=2PR/(P+R)=0.4。七、综合应用题(共30分)41.(15分)某电商评论情感分析项目需部署在边缘ARM设备,内存<1GB,现拥有BERTbase(440MBFP32)及10万条领域标注数据。请设计一套“训练压缩部署”完整方案,含模型选择、微调策略、压缩流程、推理框架,并说明如何保障精度损失<3%。答案:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 员工安全培训强化讲解
- 活动节目征集话术
- 医药行业职业规划
- 切花保鲜技术
- 分集技术教学
- 产品生命周期管理模板全流程指导
- 中国火箭公司2026校园招聘备考题库及一套参考答案详解
- 眼表疾病科工作制度岗位职责及诊疗规范
- 胃肠减压的护理知识更新
- 软装物料培训课件下载
- 汉服文化介绍(精选)课件
- 妇产科学(第9版)第三章 女性生殖系统生理
- GB/T 17626.4-1998电磁兼容试验和测量技术电快速瞬变脉冲群抗扰度试验
- 苏教版语文《唐诗宋词选读》选修(教材上全部诗歌,已全部校对无误)
- 深圳大学图书城管理中心大楼项目标底及投标报价测算分析报告4200字
- 提高输液执行单签字规范率品管圈汇报书模板课件
- 新生儿家庭访视课件
- 振动试验报告模板
- 厂家授权委托书(2篇)
- 发散性思维与写作讲解课件
- 压力表检定记录
评论
0/150
提交评论