版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年高职人工智能技术应用(自然语言处理基础)试题及答案一、单项选择题(每题2分,共20分。每题只有一个正确答案,请将正确选项填入括号内)1.在中文分词任务中,下列哪种算法最适合处理未登录词(OOV)问题?A.正向最大匹配法B.逆向最大匹配法C.基于HMM的序列标注D.Ngram语言模型【答案】C【解析】HMM将分词视为序列标注问题,可通过字符级状态转移捕捉未登录词的边界特征,而基于词典的匹配法无法识别词典外新词。2.当使用BERT进行文本分类时,若下游任务数据极少,最合理的优化策略是:A.直接微调全部参数B.冻结所有Transformer层,仅训练分类头C.采用分层学习率,顶层学习率最大D.先在无标注语料继续预训练,再微调【答案】D【解析】领域自适应预训练(DAPT)可在小样本场景下注入领域知识,显著降低微调过拟合风险,优于单纯调整学习率或冻结策略。3.在Transformer中,ScaledDotProductAttention除以√d_k的主要作用是:A.加快计算速度B.防止softmax梯度消失C.减少内存占用D.增强位置编码【答案】B【解析】当d_k较大时点积方差增大,softmax输入可能落入饱和区,梯度趋零;缩放可保持方差为1,维持梯度稳定。4.使用TextRank提取关键词时,节点权重迭代收敛的停止条件通常设置为:A.迭代次数达100B.两次迭代L2范数差<1e5C.图直径不再变化D.边权重和为1【答案】B【解析】TextRank沿用PageRank的幂迭代法,当连续两次迭代向量差小于阈值即认为收敛,避免无谓计算。5.在中文医疗命名实体识别中,若标签采用BIOES方案,下列序列哪一组存在非法转移?A.BDISEIDISEEDISEB.BDISEIDISEIDISEC.SDISEBDISEIDISED.OBDISEEDISE【答案】B【解析】BIOES规定I必须出现在B之后,连续I缺少E属于非法转移,模型需加入约束层(CRF)进行修正。6.对于基于LSTM的Seq2Seq模型,在推理阶段使用BeamSearch时,若beamwidth=3,则每一步需要保留的候选序列数为:A.1B.3C.词汇表大小D.3×词汇表大小【答案】B【解析】BeamSearch每步仅扩展并保留得分最高的beamwidth条路径,避免指数爆炸。7.在FewRel数据集上评估关系抽取模型时,官方采用的评价指标是:A.MacroF1B.MicroF1C.Accuracy@KD.AUCROC【答案】A【解析】FewRel为5way1shot任务,每类样本量相等,MacroF1对类别取平均更能反映稀有关系性能。8.使用ALBERT替代BERT时,以下哪项技术最直接降低了参数量?A.FactorizedembeddingparameterizationB.CrosslayerparametersharingC.SentenceorderpredictionD.Gradientcheckpointing【答案】B【解析】ALBERT共享所有层Transformer权重,使深度网络参数量随层数线性增长变为常数,压缩比最大。9.在文本对抗样本生成中,若使用遗传算法对中文进行字符级扰动,下列哪种变异操作最易保持语义?A.随机插入繁体字B.同音字替换C.随机删除标点D.Unicode视觉混淆【答案】B【解析】同音字在听觉层面保持一致,读者可自动纠错,语义损失最小,视觉混淆虽肉眼难辨,但可被防御工具检测。10.当使用知识蒸馏将12层BERT压缩为3层TinyBERT时,下列哪一层损失对下游任务精度影响最大?A.Embedding层输出B.隐藏层注意力矩阵C.预测层logitsD.池化层输出【答案】C【解析】logits蒸馏直接对齐教师与学生最终概率分布,任务相关信号最强;注意力矩阵损失主要提升中间表征稳定性。二、多项选择题(每题3分,共15分。每题有两个或两个以上正确答案,漏选、错选均不得分)11.关于GPT系列模型的特点,下列说法正确的有:A.采用单向Transformer解码器B.预训练目标为语言模型C.使用LayerNorm在注意力之后D.位置编码为可学习绝对位置【答案】ABD【解析】GPT在注意力之前做LayerNorm,C错误;其余三项均与官方论文一致。12.在构建中文拼写纠错系统时,可用于生成候选集的策略包括:A.基于混淆集的音近替换B.基于编辑距离的候选召回C.基于语言模型的候选排序D.基于字形相似度的笔画编辑【答案】ABD【解析】C属于排序阶段,非候选生成;其余三项均可扩大召回。13.使用CRF层增强BiLSTMCRF模型时,CRF提供的功能有:A.学习标签转移分数B.保证输出标签序列合法C.加速训练收敛D.提升解码全局最优性【答案】ABD【解析】CRF通过动态规划解码全局最优路径,但训练速度略慢于Softmax,C错误。14.在文本摘要任务中,属于抽取式摘要方法的有:A.TextRankB.BertSumExtC.PointerGeneratorD.PacSum【答案】ABD【解析】PointerGenerator为生成式模型,其余三项均从原文抽取句子或片段。15.当使用HuggingFaceTransformers加载模型时,以下做法可防止任意代码执行漏洞:A.设置trust_remote_code=FalseB.审查modeling_.py文件C.使用离线缓存权重D.启用torch.jit.script【答案】ABC【解析】D与安全性无关;A可禁止远程自定义脚本,B、C确保权重与代码可信。三、判断题(每题1分,共10分。正确打“√”,错误打“×”)16.Word2Vec的Skipgram模型中,使用负采样时噪声词数量k越大,词向量维度必须越大。【答案】×【解析】k与维度无必然联系,k增大仅增加负样本量,维度由嵌入层设定。17.在Transformer中,MultiHeadAttention的head数必须能被d_model整除。【答案】√【解析】官方实现中d_k=d_model/h,必须整除以保证维度一致。18.使用CRF时,若标签序列出现非法转移,训练阶段会直接报错终止。【答案】×【解析】CRF训练阶段通过转移矩阵自动赋予非法转移极低权重,不会报错。19.在中文文本分类中,将繁体转为简体属于数据清洗环节。【答案】√【解析】繁简转换可消除字符变体,减少词汇碎片化,提升泛化。20.BERT的NSP任务对短文本匹配任务始终带来正向收益。【答案】×【解析】后续研究(如RoBERTa)表明NSP对多数任务无增益甚至负向。21.使用ALBERT时,因参数共享,层数增加不会带来推理延迟增加。【答案】×【解析】共享权重仅节省内存,计算量仍随层数线性增加,延迟上升。22.在Seq2Seq中,TeacherForcing比例为1时,推理阶段不会出现曝光偏差。【答案】×【解析】TeacherForcing仅在训练使用,推理仍依赖上一时刻预测,曝光偏差仍存在。23.使用F1score评估NER时,实体级与字符级计算结果可能相差较大。【答案】√【解析】字符级将部分匹配视为FP/FN,实体级要求边界完全正确,结果差异显著。24.在GPT3的Fewshot推理中,示例顺序对输出结果无影响。【答案】×【解析】研究表明示例顺序会显著改变概率分布,导致输出不稳定。25.对BERT进行INT8量化后,必须重新微调以恢复精度。【答案】×【解析】使用PostTrainingQuantization(PTQ)配合校准数据,无需重新微调即可恢复99%+精度。四、填空题(每空2分,共20分)26.在BERT的预训练阶段,MaskLM的掩码比例为________。【答案】15%【解析】其中80%用[MASK]、10%随机词、10%不变。27.当使用BiLSTMCRF进行NER时,若标签数为7,则CRF转移矩阵维度为________。【答案】7×7【解析】包含START与STOP标签时维度为(7+2)×(7+2),但题目已含START/STOP在内,故7×7。28.Transformer的位置编码采用________与________两种模式。【答案】绝对位置编码;相对位置编码【解析】原始论文为绝对sinusoidal,后续T5、DeBERTa引入相对位置。29.使用TextCNN时,若卷积核尺寸为[2,3,4],每种尺寸100个核,则卷积层输出特征图为________维。【答案】300【解析】3种尺寸×100=300,后接最大池化拼接。30.在GPT2中,LayerNorm的epsilon默认值为________。【答案】1e5【解析】与TensorFlow默认一致,防止除零。31.使用ALBERT时,因参数共享,其每层Transformer的________与________完全一致。【答案】权重矩阵;偏置【解析】共享包括Attention与FFN全部参数。32.在中文分词评测中,SIGHANBakeoff采用的评价指标为________与________。【答案】Precision;Recall;F1(任填两项即可)【解析】官方以F1为主,需先算P、R。33.使用BeamSearch时,若长度惩罚系数α=0.6,则得分公式为________。【答案】logP/(T^α)【解析】T为序列长度,用于惩罚长序列。34.在知识蒸馏中,温度系数τ越大,则softmax输出分布越________。【答案】平滑【解析】高温放大微小差异,分布更均匀。35.使用RoBERTa时,移除了NSP任务并采用________训练方式。【答案】FULLSENTENCES【解析】连续从同一文档采样多句,跨越文档边界才加[SEP]。五、简答题(每题8分,共24分)36.简述BERT与GPT在预训练目标、模型结构及适用场景上的三点核心差异。【答案与解析】(1)预训练目标:BERT采用双向MaskedLM+NSP,GPT采用单向LefttoRightLM;双向使BERT擅长理解任务,单向使GPT更适生成。(2)模型结构:BERT使用双向TransformerEncoder,GPT使用单向MaskedMultiHeadAttention的Decoder;GPT在注意力层引入下三角掩码屏蔽未来信息。(3)适用场景:BERT在句子级分类、序列标注、阅读理解表现突出;GPT在文本续写、对话生成、少样本提示推理更具优势;二者分别代表“编码器”与“解码器”范式的巅峰。37.解释为何在中文拼写纠错pipeline中,语言模型排序阶段常采用结合字级与词级特征的混合分数,并给出公式。【答案与解析】中文错误常表现为“字错但词对”或“词碎但字对”,单一粒度易误判。混合分数公式:Score(s)=λ·logP_char(s)+(1−λ)·logP_word(s)−α·EditDistance(s,original)其中P_char与P_word分别为字符级与词级语言模型概率,λ∈[0,1]通过验证集调优,α控制惩罚强度。实验表明λ=0.6时F1提升2.3%,兼顾字词一致性。38.描述如何使用对抗训练(FGM)提升BERT在文本分类中的鲁棒性,并给出PyTorch伪代码。【答案与解析】FGM在embedding层添加扰动,最大化损失后反向更新,提升鲁棒。伪代码:```forbatchinloader:input_ids,labels=batchembeds=model.bert.embeddings(input_ids)正常前向loss=model(input_ids,labels=labels)loss.backward()计算扰动grad=embeds.grad.datanorm=torch.norm(grad)r=epsilongrad/(norm+1e8)embeds.data+=r对抗前向loss_adv=model(inputs_embeds=embeds,labels=labels)loss_adv.backward()optimizer.step()embeds.data=r恢复```实验显示AGNews数据集准确率提升1.1%,对抗样本错误率下降18%。六、计算与推导题(共11分)39.给定一个长度为4的输入序列,d_model=512,h=8,计算ScaledDotProductAttention中QK^T的维度,并推导其内存占用(float32)。若采用FlashAttention融合算法,内存峰值可降低多少倍?(假设无batch维度,忽略偏置与掩码)【答案与解析】(1)QK^T维度:序列长度×序列长度=4×4(2)内存:4×4×4字节=64字节;若含h个头,则单样本总内存=64×8=512字节(3)标准实现需存储中间Attention矩阵(4×4×8×4B)=512B;FlashAttention通过分块重计算,无需显存存储整个矩阵,峰值仅保留分块,实验测得峰值降低约7.8倍(以序列长度1024测得,短序列理论峰值趋近O(1))。七、综合应用题(共30分)40.某医院需构建中文电子病历命名实体识别系统,数据含“疾病”“症状”“药品”“部位”四类实体,共标注1.2万句,平均句长82字。请回答:(1)选择基线模型并说明理由(4分)(2)设计一套数据增强方案,要求生成不少于3种策略并给出实现细节(6分)(3)若实体出现严重类别不平衡(药品占58%),给出一种动态加权损失函数并写出公式(4分)(4)评测指标除F1外,再选择一项更能反映临床可用性的指标并解释(3分)(5)给出模型轻量化方案,要求在精度下降≤1%前提下,推理速度提升3倍,参数≤50MB(8分)(6)描述如何融入外部医学词典,并给出匹配与校正流程(5分)【答案与解析】(1)基
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中职烹饪(传统菜肴制作)试题及答案
- 2025年高职(老年服务与管理)老年人康复护理试题及答案
- 2025年高职(环境工程技术)环境监理基础试题及答案
- 2025年高职美发与形象设计(形象设计创意)试题及答案
- 2025年高职新材料(高分子应用实操)试题及答案
- 2025年大学安全教育(食品安全知识)试题及答案
- 2025年高职移动应用技术与服务(用户体验设计)试题及答案
- 2025年大学心理学(人格心理学实验)试题及答案
- 2026年税务实务(税务登记)试题及答案
- 2026年行政管理(公文流转效率)试题及答案
- 重庆水利安全员c证考试题库和及答案解析
- 城市更新能源高效利用方案
- 2025秋期版国开电大本科《理工英语4》一平台综合测试形考任务在线形考试题及答案
- 2025 精神护理人员职业倦怠预防课件
- 简易混凝土地坪施工方案
- 介绍数字孪生技术
- 春播行动中药贴敷培训
- 水泵维修安全知识培训课件
- 部队装修合同(标准版)
- DBJT15-147-2018 建筑智能工程施工、检测与验收规范
- 《智能制造技术基础》课件
评论
0/150
提交评论