版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年人工智能自然语言处理基础测试题库及答案一、单项选择题(每题2分,共20分)1.在Transformer架构中,用于捕捉序列位置信息而不引入额外参数的结构是A.绝对位置编码表B.相对位置偏置C.正弦位置编码D.可学习位置向量答案:C解析:正弦位置编码由Vaswani等人提出,使用固定函数生成,不引入额外可训练参数,同时支持外推更长序列。2.下列哪一项不是BERT预训练阶段的任务A.下一句预测(NSP)B.掩码语言模型(MLM)C.句子顺序预测(SOP)D.整句重构(SR)答案:D解析:整句重构并非BERT原始预训练任务;NSP与MLM为原始任务,RoBERTa用SOP替代NSP。3.当使用ALBERT对词嵌入矩阵进行因式分解时,主要目的是A.提升推理速度B.减少参数量C.增强长文本建模D.改善跨语言迁移答案:B解析:ALBERT将V×H矩阵拆成V×E与E×H两步,E≪H,显著压缩嵌入参数。4.在GPT3的175B参数版本中,采用的最大学习率调度策略是A.线性预热+余弦衰减B.线性预热+逆平方根衰减C.常数学习率D.循环余弦重启答案:B解析:OpenAI技术报告披露,GPT3使用线性预热后接逆平方根衰减,保证大batch稳定收敛。5.对于中文文本,使用WordPiece与BPE相比,最显著差异在于A.子词粒度B.是否基于频率合并C.是否保留单字边界D.是否支持跨词编码答案:C解析:WordPiece以最大似然增益合并,常保留单字作为基础符号;BPE可跨字合并,易丢失单字边界。6.在训练文本生成模型时,若出现“重复塌陷”现象,优先尝试的解码策略是A.贪心搜索B.温度采样C.Topk采样D.重复惩罚(repetitionpenalty)答案:D解析:重复塌陷指模型不断输出相同片段,重复惩罚直接降低已生成token的logit,效果立竿见影。7.下列评价指标中,对长度惩罚最敏感的是A.BLEU4B.ROUGELC.METEORD.BERTScore答案:A解析:BLEU使用短句惩罚因子BP,长度越短惩罚越大;ROUGEL与BERTScore对长度相对鲁棒。8.在PromptTuning中,为提升小样本效果,通常将softprompt长度设为A.1B.5–20C.100D.512答案:B解析:实证研究表明5–20个可学习token可在参数效率与性能间取得最佳平衡。9.使用混合精度训练时,下列哪项操作必须保留FP32副本A.激活值B.权重主副本(masterweights)C.梯度D.优化器动量答案:B解析:为避免梯度下溢,权重主副本维持FP32,更新后再转换为FP16。10.在RLHF(人类反馈强化学习)中,用于拟合奖励模型的损失函数通常是A.MSEB.交叉熵C.排序损失(pairwiserankingloss)D.负对数似然答案:C解析:奖励模型输出标量,训练目标为最大化人类偏好排序的margin,常用pairwiserankingloss。二、多项选择题(每题3分,共15分)11.关于LayerNorm与BatchNorm,下列说法正确的是A.LayerNorm在RNN中表现更稳定B.BatchNorm依赖batchsizeC.LayerNorm可应用于可变长序列D.BatchNorm对推理时长度外推更友好答案:A、B、C解析:LayerNorm沿特征维度归一化,与batch无关,适合动态长度;BatchNorm需维护runningstats,batchsize过小噪声大。12.以下哪些技术可直接降低Transformer自注意力计算复杂度A.LinformerB.PerformerC.SparseTransformerD.GradientCheckpointing答案:A、B、C解析:Linformer投影维度,Performer使用FAVOR+,Sparse限制注意力稀疏模式;GradientCheckpointing仅节省显存,不降低复杂度。13.在构建中文医疗NER数据集时,需重点解决的难点包括A.嵌套实体B.英文缩写对齐C.隐私脱敏D.口语化表达答案:A、B、C、D解析:医疗文本常出现“疾病/症状/检查”嵌套,英文缩写如MRI,需对齐原文;隐私与口语化均影响标注一致性。14.关于对比学习在句子表示中的应用,下列做法有效的是A.使用反向翻译做正样本B.批量内负采样C.添加对抗扰动D.温度缩放答案:A、B、D解析:反向翻译生成语义等效句;批量负采样与温度缩放提升对比信号;对抗扰动易破坏语义,一般不用。15.在部署端侧语言模型时,可采用的加速手段有A.权重量化至INT8B.知识蒸馏至小模型C.动态组卷积D.投机解码(speculativedecoding)答案:A、B、D解析:量化与蒸馏直接压缩;投机解码利用小模型草稿+大模型验证,提升2–3×吞吐;组卷积对Transformer加速有限。三、填空题(每空2分,共20分)16.在Transformer中,若隐藏维度d_model=512,注意力头数h=8,则每个头的维度为______。答案:64解析:512/8=64,保证多头并行后拼接还原。17.BERTbase模型总层数L=______,参数量约为______亿。答案:12,0.11解析:12层,768隐藏,12头,约110M参数。18.当使用F1score评估二分类时,若precision=0.8,recall=0.5,则F1=______。答案:0.615解析:F1=2PR/(P+R)=2×0.8×0.5/1.3≈0.615。19.在GPT自回归训练中,若序列长度1024,vocabsize=50257,则输出层每个位置分类交叉熵损失的维度为______。答案:50257解析:语言模型头对每个位置预测vocab分布。20.使用LoRA微调时,若原矩阵W∈R^(768×768),秩r=16,则新增可训练参数量为______。答案:24576解析:2×768×16=24576(A与B两个低秩矩阵)。21.在中文文本中,若字符级字典大小为15000,采用BPE继续合并3000步,最终子词词表大小约为______。答案:18000解析:初始15000,每步新增一个合并符号,共约18000。22.若使用beamsearch,beamsize=5,序列长度=10,则最坏情况需维护______条候选。答案:5解析:每步仅保留top5,长度10仍为5条。23.当温度系数τ→0时,softmax分布趋近于______分布。答案:onehot(硬最大)解析:τ→0放大差异,概率质量集中于最大值。24.在ELECTRA中,生成器与判别器参数共享比例通常为______%。答案:100解析:ELECTRAsmall全共享,ELECTRAbase亦默认全共享,提升训练效率。25.若模型参数量1B,使用AdamW优化器,则存储一阶与二阶动量所需显存约为______GB。答案:8解析:1B参数×4字节×2状态≈8GB(FP32)。四、判断题(每题1分,共10分)26.使用更大batchsize一定需要线性放大学习率。答案:错解析:仅当同步更新步数不变时适用,需配合warmup与梯度累积策略。27.在Transformer解码端,交叉注意力层的Query来自解码器隐状态,Key/Value来自编码器输出。答案:对解析:交叉注意力机制定义如此。28.BERT的[CLS]向量在微调阶段一定优于平均池化句向量。答案:错解析:部分任务平均池化或池化+whitening效果更佳。29.使用混合专家(MoE)层后,模型总参数量增加但推理激活参数量不变。答案:对解析:MoE仅激活topk专家,推理计算量可控。30.在RLHF中,PPOclip的ε通常设为0.2。答案:对解析:OpenAI与DeepMind均报告0.2为鲁棒缺省值。31.中文文本无需子词切分,字符级已足够。答案:错解析:未登录词、罕见词、专业词需子词缓解OOV。32.使用DeepSpeedZeRO3可在数千张GPU上训练万亿参数模型。答案:对解析:ZeRO3将参数、梯度、优化器状态全分片,理论支持万亿级。33.在FewRel数据集上,原型网络(PrototypicalNetworks)效果一定优于微调BERT。答案:错解析:若基线BERT已充分预训练并微调,可能反超原型网络。34.梯度爆炸时,优先降低学习率而非裁剪梯度。答案:错解析:应先裁剪梯度保证稳定,再调学习率。35.使用RMSNorm替代LayerNorm可去除均值计算,从而加速。答案:对解析:RMSNorm省掉去均值步骤,约减少5–10%计算。五、简答题(每题8分,共24分)36.描述Transformer自注意力的时间复杂度,并说明Linformer如何将其降至O(n)。答案与解析:自注意力计算QK^T∈R^(n×n),后续softmax与V相乘,时间复杂度O(n²d)。Linformer假设注意力矩阵低秩,将K、V投影至k≪n维度得K'=K·E,V'=V·E,E∈R^(n×k),则注意力变为(QK'^T)V',复杂度O(nkd)。当k为常数,整体O(n)。实验表明k=256即可在n=8192时保持性能。37.解释“梯度累积”与“梯度检查点”在显存优化中的差异,并给出适用场景。答案与解析:梯度累积将batch拆成m个小microbatch,前向+反向后不清零梯度,累加m次再更新,等价大batch,显存峰值未减少,仅解决batchsize受限。梯度检查点在前向时丢弃中间激活,反向时重新计算,显存降至O(√n),但计算量增加约1/3,适用于显存极缺、可接受额外计算的场景,如训练大模型长序列。38.对比“提示学习”(PromptLearning)与“微调”(Finetuning)在少样本场景下的优缺点。答案与解析:提示学习冻结大模型,仅优化软提示或模板,参数少,过拟合风险低,适合<100样本;但提示设计敏感,性能常低于微调。微调更新全模型,可充分拟合任务,样本>500时优势明显,然参数量大,易过拟合。折中方案为LoRA+PromptHybrid,前6层LoRA,后6层加软提示,在FewNERP数据集上F1提升2.3。六、计算与推导题(共21分)39.(10分)给定单头注意力分数矩阵A=softmax(QK^T/√d),其中Q,K∈R^(n×d),n=4,d=2,Q=[[1,0],[0,1],[1,1],[0,0]],K=[[1,1],[0,1],[1,0],[0,0]]。(1)计算QK^T;(2)计算A;(3)验证A行和为1。答案:(1)QK^T=[[1,1,1,0],[0,1,0,0],[1,2,1,0],[0,0,0,0]](2)除以√d=√2后softmax:A=[[0.3925,0.3925,0.3925,0.1478],[0.25,0.5,0.25,0.0979],[0.1959,0.5224,0.1959,0.0858],[0.25,0.25,0.25,0.25]](3)每行求和≈1,数值误差<1e4,验证完毕。40.(11分)假设使用AdamW优化,学习率η=1e4,权重衰减λ=0.01,β1=0.9,β2=0.999,ε=1e8。第t步梯度g_t=0.1,历史m_(t1)=0.2,v_(t1)=0.015。(1)更新m_t、v_t;(2)计算偏差修正m̂、v̂;(3)求参数更新量Δθ。答案:(1)m_t=0.9×0.2+0.1×0.1=0.19v_t=
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 燃气作业人员资质管理方案
- 工厂生产计划排程优化
- 天津市蓟州等部分区2026届高一生物第一学期期末学业水平测试模拟试题含解析
- 黑龙江齐齐哈尔市2026届高三英语第一学期期末检测模拟试题含解析
- 2025年东方市安康医院公开考核招聘编外人员备考题库(1号)及答案详解参考
- 2026年上海中远海运航空货运代理有限公司招聘备考题库及一套答案详解
- 2026年中国太平洋财产保险股份有限公司河北雄安分公司招聘备考题库及答案详解1套
- 2026年北部湾职业技术学校关于招聘历史、地理、物理和化学类教师5人的备考题库附答案详解
- 2026年宁波分行跨境金融部客户经理(国际业务方向)备考题库及参考答案详解一套
- 2026年中国冶金地质总局中南局(公司)专业技术人才社会招聘备考题库及1套参考答案详解
- GB/T 43795-2024磁性氧化物制成的磁心机械强度测试方法
- 【川教版】《生命 生态 安全》三年级上册 第18课《学会垃圾分类》课件
- 叔叔在侄子订婚宴致辞
- 自信自卑主题班会
- YY/T 1718-2020人类体外辅助生殖技术用医疗器械胚胎移植导管
- GB/T 3853-2017容积式压缩机验收试验
- GB/T 28837-2012木质包装检疫处理服务质量要求
- GA/T 1380-2018法庭科学DNA数据库人员样本采集规范
- 铜盐加速醋酸盐雾试验标准
- 刑法总论全套课件
- 信息技术七年级下册活动2 IP地址与域名市公开课一等奖省名师优质课赛课一等奖课件
评论
0/150
提交评论