2025年(人工智能与机器学习)自然语言处理试题及答案

上传人：1*** IP属地：四川上传时间：2026-01-20 格式：DOCX 页数：19 大小：30.31KB 积分：12 举报 版权申诉

已阅读5页，还剩14页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2025年(人工智能与机器学习)自然语言处理试题及答案一、单项选择题（每题2分，共20分）1.在Transformer架构中，ScaledDotProductAttention的计算公式为A.softmax(QK^T)VB.softmax(QK^T/√d_k)VC.softmax(QK^T/√d_v)VD.softmax(QK^T/√d_model)V答案：B解析：除以√d_k是为了防止点积值过大导致梯度消失，d_k为Query与Key的维度。2.下列哪一项不是BERT预训练任务之一A.MaskedLanguageModelB.NextSentencePredictionC.SentenceOrderPredictionD.TokenTypePrediction答案：C解析：BERT仅使用MLM与NSP，SentenceOrderPrediction为ALBERT引入的变体任务。3.在序列标注任务中，若采用BIO标注法，出现连续实体“北京天安门”应标注为A.BLOCILOCILOCB.BLOCILOCBLOCC.BLOCBLOCILOCD.ILOCILOCILOC答案：A解析：B表示实体开始，I表示实体内部，同一实体内部不得再出现B。4.使用Word2Vec训练时，若负采样个数k=5，则SkipGram模型对每个正样本需优化的sigmoid单元总数为A.1B.5C.6D.11答案：C解析：1个正样本+5个负样本，共6个二分类sigmoid。5.在Transformer解码阶段，自注意力层中用于屏蔽未来信息的矩阵是A.单位矩阵B.下三角全零矩阵C.上三角负无穷矩阵D.下三角负无穷矩阵答案：D解析：将上三角设为−∞，softmax后变为0，实现“看不到未来”。6.下列哪种方法最适合解决文本风格迁移中“内容保留度低”的问题A.增加判别器损失权重B.引入cycleconsistency损失C.降低生成器学习率D.使用更大批次答案：B解析：cycleconsistency强制往返重构，约束内容不变。7.在GPT3175B参数模型中，采用的最大位置编码长度为A.512B.1024C.2048D.4096答案：C解析：GPT3技术论文明确说明最大上下文长度2048。8.对中文文本进行子词分割时，下列哪种算法对“新冠疫苗”最可能切分为“新/冠/疫/苗”A.BPEB.WordPieceC.UnigramLMD.基于字的基线答案：D解析：基于字的基线直接按字符切分，其他算法可能合并为“新冠”“疫苗”。9.在多任务学习中，若共享底层编码器，任务梯度冲突严重，可优先尝试A.增加dropoutB.引入GradientSurgeryC.降低学习率D.使用更大batch答案：B解析：GradientSurgery通过投影消除冲突分量，缓解任务竞争。10.下列评价指标中，对机器翻译长句欠译现象最敏感的是A.BLEU4B.ROUGELC.METEORD.chrF++答案：A解析：BLEU4严重依赖4gram精确率，一旦漏译，4gram骤降。二、多项选择题（每题3分，共15分，多选少选均不得分）11.关于LayerNormalization，以下说法正确的是A.在Transformer中位于残差分支之后B.可缓解内部协变量偏移C.在RNN中通常作用于时间步维度D.与BatchNorm相比对batch大小不敏感答案：B、D解析：A错，PreNorm结构在残差前；C错，RNN的LayerNorm作用于特征维度而非时间步。12.下列技术可直接用于零样本文本分类的有A.BARTlargemnliB.GPT3promptC.TexttoTextT5+labelconditioningD.CNN+随机初始化softmax答案：A、B、C解析：D无预训练知识，无法零样本。13.在对话系统评估中，人工评价维度通常包括A.流畅性B.一致性C.信息丰富度D.响应时间答案：A、B、C解析：响应时间属于系统指标，非人工语义维度。14.以下做法可有效缓解文本生成重复问题A.重复惩罚（repetitionpenalty）B.使用ngram阻塞C.增加温度采样温度D.引入Coverage机制答案：A、B、D解析：C提高温度只会增加随机性，不直接惩罚重复。15.关于知识蒸馏，下列说法正确的是A.教师模型参数在蒸馏过程中会被更新B.学生模型可学习教师输出的软分布C.中间层特征匹配属于logit蒸馏D.温度系数T越大分布越平滑答案：B、D解析：A错，教师固定；C错，特征匹配属于hint蒸馏，非logit。三、填空题（每空2分，共20分）16.Transformer中MultiHeadAttention的头数h=16，若d_model=1024，则每个头的维度d_k=____。答案：64解析：1024/16=64。17.在CRF损失函数中，前向算法计算的是____。答案：配分函数（归一化因子）Z(x)解析：CRF损失为logP=Score_path−logZ(x)。18.若使用ALBERT参数共享机制，层间共享的是____与____参数。答案：Transformer权重；前馈网络解析：ALBERT共享所有层自注意力与FFN参数，仅保留嵌入独立。19.在GPT自回归生成中，若采用topp（nucleus）采样，p取值越____，候选词表越____。答案：小；窄解析：p减小则累积概率阈值提前，候选词减少。20.使用BPE训练时，若语料出现“机器学”，其中为罕见符号，合并优先级取决于____。答案：符号对的频率解析：BPE每次合并频率最高的相邻对。21.在中文分词任务中，若采用BiLSTM+CRF，CRF层的作用是建模____。答案：标签转移约束解析：CRF通过转移矩阵学习合法标签序列，如BPerson后不能接IOrg。22.ELECTRA的生成器与判别器参数比例约为____。答案：1:4解析：论文建议生成器隐层为判别器1/4，参数量约1:4。23.若使用RoBERTa训练，移除NSP任务后，输入不再使用____段嵌入。答案：token_type解析：RoBERTa取消NSP，也去掉segmentembedding。24.在文本对抗训练FGSM中，扰动方向由____决定。答案：损失对输入嵌入的梯度符号解析：δ=ε·sign(∇_xL)。25.若使用F1评价命名实体识别，实体级F1计算时，预测边界与标签均正确才算____。答案：TP解析：严格匹配，边界或类别错均视为FP或FN。四、判断题（每题1分，共10分，正确打“√”，错误打“×”）26.LSTM中使用peephole连接会让门层忽略细胞状态。答案：×解析：peephole让门层“看见”细胞状态，并非忽略。27.Transformer的位置编码采用可学习的绝对位置向量后，模型不再支持长度外推。答案：√解析：可学习位置超出训练长度时无对应参数。28.在BERT微调阶段，学习率预热（warmup）有助于避免灾难性遗忘。答案：√解析：预热让模型缓慢离开预训练参数空间。29.BLEU指标中，短句惩罚因子brevitypenalty可能使短翻译得分高于长翻译。答案：×解析：短句惩罚≤1，只会拉低短翻译得分。30.使用ELMo时，不同层的加权系数在下游任务中通过训练自动学习。答案：√解析：ELMo提供三层向量，权重softmax可训练。31.在Seq2Seq中，使用coverage机制会显著增加推理延迟。答案：×解析：coverage仅增加向量累加，延迟可忽略。32.对于多语种BERT，mBERT的词汇表大小与单语BERT相同。答案：×解析：mBERT共享110k词表，远大于单语。33.使用GloVe时，词向量维度一旦训练完成即固定，不可再扩展。答案：√解析：静态向量，无法动态增维。34.在对话状态跟踪DST中，采用span抽取方式无需预定义所有槽值。答案：√解析：span抽取直接定位片段，适合开放值。35.对于文本风格迁移，总变分自编码器（VAE）比标准自编码器更容易出现KL塌陷。答案：√解析：VAE的KL项易趋于零，导致潜变量失效。五、简答题（每题8分，共24分）36.描述Transformer解码器中CrossAttention的输入来源及掩码使用方式，并说明为何不需要因果掩码。答案：CrossAttention的Query来自解码器当前层自注意力输出，Key与Value来自编码器最终隐藏层。该层不使用因果掩码，因为编码器已获取完整源句信息，允许每个解码位置“一次性”关注源句任意位置；仅自注意力需因果掩码防止窥视未来。解析：若对编码器输出再做因果掩码，将丢失源句全局信息，导致翻译漏译。37.对比BPE与UnigramLM子词算法在训练目标、颗粒度控制、处理未登录词三方面的差异。答案：训练目标：BPE基于频率贪心合并，最大化压缩长度；UnigramLM基于概率，通过最大化似然减去正则项，迭代剪枝低概率子词。颗粒度控制：BPE需预设合并次数；Unigram预设最终词表大小，控制更直接。未登录词：BPE回退到字符级，保证可解码；Unigram采用字符片段或<unk>，但训练阶段已显式保留单字符，故几乎无<unk>。解析：Unigram的似然框架更灵活，可结合语言模型先验，适合形态丰富语言。38.解释“提示学习”（promptlearning）中“离散提示”与“连续提示”的差异，并给出连续提示在反向传播时的梯度更新对象。答案：离散提示：人工设计或搜索自然语言片段，如“这部电影是[MASK]”，梯度无法穿透离散词。连续提示：将提示转为可训练向量（softprompt），直接拼接到输入嵌入，如prefixtuning在每一层前添加可训练矩阵。梯度更新对象：连续提示的嵌入矩阵或前缀网络参数，与模型主体可分离或联合训练。解析：连续提示避免大规模人工尝试，且可在小样本场景下微调极少参数即可达到全模型微调效果。六、计算与推导题（共31分）39.（10分）已知单层自注意力，Q=K=V=X∈R^(n×d)，d=64，n=4。忽略softmax的缩放，计算注意力矩阵行和为1时，trace(AA^T)的最大值与最小值。答案：A=softmax(XX^T/8)，行和恒为1。trace(AA^T)=∑_{i,j}a_{ij}^2。当A为单位阵时，trace=4，为最大值；当所有元素为0.25，trace=4×4×0.25^2=4×0.25=1，为最小值。解析：行和固定，元素越分散平方和越小，极端均匀分布取最小。40.（11分）给定CRF转移矩阵T∈R^(k+2)×(k+2)，k为标签数，START与END为额外状态。推导单条路径score对转移参数T_{ij}的梯度，并说明为何只需对路径上实际转移计数。答案：路径score=∑_{t=1}^{n+1}T_{y_{t1},y_t}。对T_{ij}求导：若路径存在转移i→j，则梯度为1，否则0。因此梯度向量仅路径经过的T_{ij}非零，其余为零，实现稀疏更新。解析：CRF为线性模型，特征指示函数可视为计数器，梯度即特征出现次数。41.（10分）假设使用负采样训练SkipGram，词汇量V=10000，嵌入维度d=300，负采样数k=5，批次大小b=16。计算每步参数更新所需的浮点运算量（乘加次数），并给出简化表达式。答案：正样本：每个中心词平均预测2×窗口=2×5=10个上下文，共16×10=160次正样本。每次正样本需d次乘加计算点积，160×300=48k。负样本：160×5=800次，每次300乘加，800×300=240k。总乘加=48k+240k=288k。解析：忽略sigmoid的少量运算，复杂度O(b×(2w+1)×(k+1)×d)。七、综合应用题（共30分）42.（15分）阅读材料：某医疗问答系统需从患者描述中提取症状、药物、检查三类实体，并判断是否存在“药物症状”关联。现有5万条弱标注数据（仅含实体，无关联），1千条人工精标关联数据。请设计一套两阶段训练方案，包括：（1）预训练策略与模型选择；（2）如何结合弱标注与精标数据；（3）关联判断的损失函数与评测指标；（4）推理加速方案。答案：（1）采用中文RoBERTawwmext做实体级继续预训练：掩码策略改为wholeword+实体边界掩码，训练10万步。（2）第一阶段用5万弱标注数据做实体抽取多标签训练，损失为BCE；第二阶段冻结底层，用1千精标数据微调关联分类头，采用双向注意力池化捕捉实体对交互。（3）关联判断损失：对实体对候选做二分类，使用focalloss缓解类别不平衡；评测采用microF1与AUCPR，兼顾罕见关联。（4）推理加速：采用ONNX导出，实体抽取与关联判断共享编码器，批量32下GPUlatency<60ms；对高频query做缓存，LR

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2025年(人工智能与机器学习)自然语言处理试题及答案

文档简介

温馨提示

最新文档

评论

2025年(人工智能与机器学习)自然语言处理试题及答案

文档简介

温馨提示

最新文档

评论

相关文档