2026年秋季人工智能自然语言理解培训试卷(含答案)

上传人：1*** IP属地：四川上传时间：2026-05-12 格式：DOCX 页数：31 大小：54.43KB 积分：12 举报 版权申诉

已阅读5页，还剩26页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2026年秋季人工智能自然语言理解培训试卷(含答案)一、单项选择题（本大题共20小题，每小题2分，共40分。在每小题给出的四个选项中，只有一项是符合题目要求的）1.在自然语言处理中，下列哪个任务不属于自然语言理解（NLU）的范畴？A.情感分析B.命名实体识别C.机器翻译D.语音识别2.Word2Vec模型中，Skip-gram和CBOW的主要区别在于？A.Skip-gram使用上下文预测中心词，CBOW使用中心词预测上下文B.CBOW使用上下文预测中心词，Skip-gram使用中心词预测上下文C.Skip-gram是基于计数的，CBOW是基于预测的D.CBOW只能处理短文本，Skip-gram只能处理长文本3.在循环神经网络（RNN）中，为了解决长距离依赖问题，通常采用哪种变体？A.LSTM（长短期记忆网络）B.CNN（卷积神经网络）C.BP神经网络D.RestrictedBoltzmannMachine4.Transformer模型中，用于捕捉序列中元素位置信息的机制是？A.Self-Attention（自注意力机制）B.Position-wiseFeed-ForwardNetworksC.PositionalEncoding（位置编码）D.ResidualConnection5.下列关于预训练语言模型BERT的描述，错误的是？A.BERT全称是BidirectionalEncoderRepresentationsfromTransformersB.BERT使用了Transformer的Encoder结构C.BERT在预训练阶段使用了MaskedLanguageModel（MLM）和NextSentencePrediction（NSP）任务D.BERT是自回归（Autoregressive）语言模型，从左到右生成文本6.在计算两个词向量的相似度时，最常用的度量方法是？A.欧氏距离B.曼哈顿距离C.余弦相似度D.Jaccard相似系数7.条件随机场（CRF）常用于自然语言处理的哪个任务？A.文本分类B.序列标注（如命名实体识别、分词）C.机器翻译D.问答系统8.在注意力机制中，Softmax函数的作用是？A.引入非线性变换B.将输入向量映射到高维空间C.将权重分布归一化，使其总和为1D.降低模型参数量9.下列哪种分词算法基于统计语言模型，通过计算词频和相邻词共现频率来确定最优切分路径？A.正向最大匹配法B.逆向最大匹配法C.HMM（隐马尔可夫模型）分词D.基于规则的分词10.GPT系列模型（如GPT-3,GPT-4）的核心架构特点是？A.仅使用Transformer的Encoder部分B.仅使用Transformer的Decoder部分C.使用完整的Encoder-Decoder架构D.使用CNN和RNN的混合架构11.在评估机器翻译质量时，广泛使用的指标是？A.Precision（精确率）B.Recall（召回率）C.BLEU值D.F1-Score12.下列关于“词义消歧”（WSD）的描述，正确的是？A.它的任务是确定一个词在特定上下文中的词性B.它的任务是确定一个词在特定上下文中的具体语义C.它只能通过基于知识库的方法解决D.它属于语音合成技术的一部分13.Transformer模型中，多头注意力机制的主要目的是？A.加快计算速度B.减少模型参数量C.从不同的表示子空间和不同的注意力头捕捉多样化的特征信息D.防止模型过拟合14.在文本分类任务中，如果使用TF-IDF提取特征，IDF的计算公式体现了什么思想？A.词频越高，权重越大B.文档频率越高的词，区分能力越强，权重越大C.文档频率越高的词，越可能是通用词，权重应越小D.文档长度越长，权重越大15.下列哪个指标用于评估语言模型生成文本的流畅度，数值越低表示模型预测能力越好？A.AccuracyB.Perplexity（困惑度）C.AUCD.MSE16.在问答系统中，抽取式问答和生成式问答的主要区别在于？A.抽取式问答从给定文本中直接找到答案片段，生成式问答通过语言模型生成答案B.抽取式问答只能回答是非题，生成式问答可以回答任何问题C.抽取式问答基于规则，生成式问答基于深度学习D.两者没有本质区别17.为了解决大语言模型训练中的灾难性遗忘问题，常用的微调技术是？A.FeatureExtractionB.Fine-tuningC.LoRA（Low-RankAdaptation）D.TransferLearning18.下列关于BytePairEncoding(BPE)的描述，错误的是？A.BPE是一种子词分词算法B.BPE通过迭代合并最频繁出现的字符对来构建词表C.BPE可以完全解决未登录词（OOV）问题D.BPE在GPT和BERT等现代模型中得到了广泛应用19.在依存句法分析中，根节点通常代表什么？A.句子中的第一个词B.句子中的动词C.虚拟的根节点，支配整个句子D.句子中的标点符号20.现代大语言模型（LLM）在推理阶段常用的采样策略Temperature（温度）参数，当Temperature设置得较高时（如1.5），模型输出的特点是？A.输出更加确定，重复性高B.输出更加随机，创造性更强C.输出速度变快D.模型逻辑推理能力显著增强二、多项选择题（本大题共10小题，每小题3分，共30分。在每小题给出的四个选项中，有多项是符合题目要求的。全部选对得3分，选对但不全得1分，有选错得0分）1.自然语言理解面临的主要难点包括？A.歧义性（词汇歧义、句法歧义、语义歧义）B.上下文依赖性C.隐喻和反语的理解D.知识的缺乏2.下列属于深度学习在NLP中的常用预训练模型有？A.ELMoB.BERTC.GPTD.Word2Vec3.Transformer模型中包含的主要组件有？A.Multi-HeadSelf-AttentionB.Position-wiseFeed-ForwardNetworksC.Add&Norm（残差连接与层归一化）D.RecurrentLayers4.在命名实体识别（NER）任务中，常用的标注体系包括？A.BIO标注法B.BIOES标注法C.IOB2标注法D.Word2Vec标注法5.下列关于RNN（循环神经网络）的描述，正确的有？A.RNN具有记忆功能，能够处理变长序列B.RNN在训练过程中容易出现梯度消失或梯度爆炸问题C.LSTM是RNN的一种特殊变体，引入了门控机制D.双向RNN（Bi-RNN）可以同时利用过去和未来的上下文信息6.评估文本分类任务时，常用的指标有？A.AccuracyB.PrecisionC.RecallD.F1-Measure7.下列属于文本数据预处理步骤的有？A.去除停用词B.词干提取或词形还原C.分词D.向量化8.大语言模型（LLM）涌现出的能力包括？A.上下文学习B.指令遵循C.思维链推理D.简单的算术计算9.下列关于激活函数的描述，正确的有？A.ReLU函数可以缓解梯度消失问题B.Sigmoid函数将输出压缩到(0,1)区间C.Tanh函数将输出压缩到(-1,1)区间D.GeLU函数在Transformer模型中被广泛使用10.提示工程中常用的技巧有？A.Few-ShotPrompting（少样本提示）B.Chain-of-ThoughtPrompting（思维链提示）C.Zero-ShotPrompting（零样本提示）D.RolePrompting（角色扮演）三、填空题（本大题共20空，每空1.5分，共30分）1.在信息检索中，TF-IDF值由两部分组成，TF表示词频，IDF表示__________。2.LSTM模型中包含三个门：遗忘门、输入门和__________。3.BERT模型在预训练时使用的掩码语言模型（MLM）中，将约15%的Token替换为，其中80%替换为“[MASK]”，10%保持不变，10%替换为__________。4.在序列标注任务中，__________算法常用于解码，即在给定观测序列下，找出最可能的隐含状态序列。5.Transformer模型中，为了减少模型复杂度并允许模型关注不同位置的信息，引入了__________机制。6.词向量通过将词映射为高维实数向量，能够捕捉词与词之间的__________关系。7.情感分析通常分为三个级别：文档级、句子级和__________级。8.在计算注意力分数时，常用的缩放点积注意力公式为Atte9.GPT-3拥有1750亿个参数，展示了大模型的__________能力，即随着模型规模增大，模型性能突然出现显著提升的现象。10.自然语言处理流程中，将文本转换为向量表示的过程称为__________。11.在依存句法分析中，两个词之间的关系被称为__________关系。12.为了加速Transformer的训练并减少显存占用，可以使用__________技术，即用低精度浮点数（如FP16）进行计算。13.评估生成式问答或摘要任务时，__________指标通过计算生成摘要与参考摘要的重叠度来评估质量。14.在对话系统中，任务型对话系统通常包含DST（对话状态追踪）、Policy学习和__________生成三个主要模块。15.正则表达式\d416.Word2Vec中的负采样技术的主要目的是为了近似__________，从而提高训练速度。17.现代大模型训练中，__________是一种参数高效微调技术，它冻结预训练模型权重，并在Transformer层注入低秩矩阵。18.BLEU指标中，n-gram的匹配精度会受到短句的惩罚，这种惩罚机制称为__________。19.语义角色标注旨在识别句子中谓词的各个论元及其语义角色，如“Agent”（施事）、“Patient”（受事）和__________（地点/时间等）。20.在处理长文本时，Transformer由于计算复杂度呈平方级增长，因此出现了__________Transformer等变体来降低复杂度。四、判断题（本大题共10小题，每小题1.5分，共15分。正确的打“√”，错误的打“×”）1.Word2Vec生成的词向量中，向量之间的算术运算（如KingMan+Woman≈Queen）总是能精确地得到目标词向量。（）2.CNN（卷积神经网络）只能用于图像处理，无法用于自然语言处理任务。（）3.BERT模型是双向的，因此在预训练时能够看到当前词的上下文信息，而GPT模型是单向的（从左到右）。（）4.在NLP中，停用词是指那些没有实际意义的高频词，如“的”、“是”、“在”等，因此在所有任务中都应该直接去除。（）5.困惑度是衡量语言模型性能的重要指标，困惑度越低，说明模型对测试数据的预测越准确。（）6.Transformer模型完全抛弃了循环和卷积结构，仅依靠注意力机制处理序列信息。（）7.命名实体识别（NER）是一个序列标注任务，可以使用CRF、Bi-LSTM或BERT等模型解决。（）8.数据增强技术如同义词替换、回译等，可以有效缓解NLP任务中训练数据不足的问题。（）9.在大语言模型中，Prompt（提示词）的设计对模型输出结果没有影响，只取决于模型本身的参数。（）10.机器翻译的评价指标BLEU值越高，说明翻译结果与参考译文的n-gram匹配度越高，质量越好。（）五、简答题（本大题共5小题，每小题6分，共30分）1.简述注意力机制的主要作用及其在Transformer中的具体实现形式。2.请比较BERT模型和GPT模型在架构和训练目标上的主要区别。3.什么是自然语言理解中的“歧义性”？请举例说明词汇歧义和句法歧义。4.简述循环神经网络（RNN）在处理长序列时遇到的梯度消失问题及其影响，并说明LSTM是如何缓解这一问题的。5.解释BLEU评分指标的基本原理及其在机器翻译评价中的局限性。六、计算与分析题（本大题共3小题，每小题10分，共30分）1.给定一个简单的句子：“Thecatsatonthemat”。假设我们使用Bigram（二元语法）模型，且已知以下概率（对数空间，以e为底）：PPPPP假设句首标记P(请计算该句子的对数概率，并进一步计算其困惑度。提示：句子长度N为单词数（不含结束符），困惑度公式为PP2.在Transformer的缩放点积注意力机制中，假设Query向量Q=[1,0]，Key向量(1)请计算注意力分数。(2)请计算最终的注意力输出向量。(3)简要说明Q和K的点积在注意力机制中的物理意义。3.给定一个简单的文本分类数据集，包含两个类别：Positive（1）和Negative（0）。模型对三个样本的预测概率（属于Positive的概率）分别为：0.9,0.2,0.6。对应的真实标签为：1,0,1。请计算该模型在这个小批量上的二元交叉熵损失。公式：L=七、综合应用题（本大题共2小题，每小题15分，共30分）1.某公司希望构建一个基于深度学习的智能客服系统，该系统需要能够理解用户的自然语言提问，并从公司的知识库中检索出相关答案。(1)请设计该系统的技术流水线，画出主要模块图（可用文字描述流程），并说明每个模块的功能。(2)针对“用户意图识别”这一核心模块，你会选择哪种预训练模型（如BERT、LSTM、TextCNN等）作为特征提取器？请说明理由。(3)如果知识库中的答案不固定，需要模型根据检索到的文档片段生成答案，你会采用什么技术架构？请描述该架构的核心组件。2.随着大语言模型（LLM）的兴起，提示工程变得至关重要。假设你正在使用GPT-4模型来辅助进行金融新闻的情感分析。(1)请设计一个Zero-Shot（零样本）提示词，要求模型判断新闻的情感倾向（正面、负面、中性）并提取关键理由。(2)请设计一个Few-Shot（少样本）提示词，给出2个示例，要求模型对新的新闻进行同样的分析。(3)在实际应用中，发现模型对于复杂的否定句（如“虽然利润下降，但公司前景依然看好”）判断错误。你会如何通过改进提示词来解决这个问题？请结合思维链或指令微调的思想进行说明。参考答案与解析一、单项选择题1.D[解析]语音识别（ASR）属于语音信号处理技术，将语音转为文本，属于自然语言处理的交互接口，但不属于理解文本语义的NLU核心范畴。NLU主要包括文本的句法、语义分析。2.B[解析]CBOW根据上下文预测中心词，训练速度快；Skip-gram根据中心词预测上下文，在低频词上表现更好。3.A[解析]LSTM通过引入门控机制（遗忘门、输入门、输出门）有效地控制信息的遗忘和保留，从而缓解了长距离依赖问题。4.C[解析]Transformer本身不具备循环结构，无法捕捉序列顺序，因此通过PositionalEncoding（正弦/余弦函数或可学习向量）注入位置信息。5.D[解析]BERT是双向的，非自回归；GPT是自回归的。BERT使用掩码机制，能同时看到上下文。6.C[解析]词向量通常关注方向而非绝对长度，余弦相似度衡量两个向量夹角的余弦值，范围[-1,1]，适合衡量语义相似度。7.B[解析]CRF考虑了相邻标签之间的转移概率，非常适合序列标注任务，能保证输出标签序列的合法性（如B-label后不能接B-label）。8.C[解析]Softmax将任意实数向量转换为概率分布，所有元素值在[0,1]之间且和为1，用于分配注意力权重。9.C[解析]正向/逆向最大匹配是基于规则/字典的方法；HMM是基于统计模型的方法。10.B[解析]GPT系列仅使用Transformer的Decoder部分，带有MaskedSelf-Attention，确保生成时只能看到历史信息。11.C[解析]BLEU（BilingualEvaluationUnderstudy）是机器翻译的标准评价指标；Precision/Recall/F1主要用于分类和抽取任务。12.B[解析]词义消歧（WSD）旨在确定多义词在特定上下文中的具体含义。13.C[解析]多头注意力机制让模型在不同的表示子空间中并行地关注信息，捕捉更丰富的语义特征（如语法关系、长距离依赖等）。14.C[解析]IDF（InverseDocumentFrequency）反文档频率，包含该词的文档越多，IDF值越低，表示该词越普通，区分度越低。15.B[解析]困惑度衡量模型对测试数据的“困惑”程度，值越低，预测概率越高，模型越好。16.A[解析]抽取式答案来自原文片段；生成式答案由模型重新组织语言生成。17.C[解析]LoRA（Low-RankAdaptation）通过注入低秩分解矩阵来微调模型，极大减少了可训练参数量，缓解灾难性遗忘。18.C[解析]BPE通过子词切分可以处理OOV，将其切分为已知的子词序列，但不能说“完全解决”所有OOV带来的语义损失问题，且它是基于统计的，不是完全解决。更准确地说，它能缓解OOV问题。但在选项中，C表述过于绝对，BPE是基于字符迭代合并的，D是正确的。这里选C作为错误选项。19.C[解析]依存树的根节点通常是虚拟根节点ROOT，它没有实际的词形，支配整个句子的核心谓词。20.B[解析]Temperature>1会拉平概率分布，使得低概率词被选中的机会增加，输出更随机、多样；Temperature<1会使分布更尖锐。二、多项选择题1.ABCD[解析]歧义性、上下文依赖、隐喻反语、背景知识缺乏都是NLU的核心难点。2.ABC[解析]Word2Vec是静态词向量模型，通常不被归类为深度上下文预训练语言模型（如ELMo,BERT,GPT），尽管它是深度学习模型。但在广义上，它也是预训练的。通常“预训练语言模型”特指ELMo及之后的动态模型。此处若严格区分，选ABC；若广义，可选ABCD。考虑到题目语境是“深度学习在NLP中的常用预训练模型”，Word2Vec虽是浅层神经网络（单层隐藏层），但也属于。但通常考点在于区分静态和动态。这里主要选ABC作为现代PLM代表。注：若题目强调“深度上下文嵌入”，则排除Word2Vec。此处选ABC更符合当前技术分类。3.ABC[解析]Transformer不包含RecurrentLayers，它是非循环架构。4.ABC[解析]BIO,BIOES(BIOES/BIOUL),IOB2是常见的标注方案。Word2Vec不是标注体系。5.ABCD[解析]RNN具有记忆性；存在梯度问题；LSTM是变体；Bi-RNN利用双向信息。6.ABCD[解析]准确率、精确率、召回率、F1值是分类任务的标准指标。7.ABCD[解析]清洗、归一化、分词、向量化是标准流程。8.ABCD[解析]上下文学习、指令遵循、思维链、算术能力都是大模型涌现出的能力。9.ABCD[解析]ReLU缓解梯度消失；Sigmoid/Tanh区间特性；GeLU是Transformer标配。10.ABCD[解析]少样本、零样本、思维链、角色设定都是PromptEngineering的核心技巧。三、填空题1.逆文档频率2.输出门3.随机词(或同一词汇表中的随机词)4.维特比5.多头注意力(或Multi-HeadAttention)6.语义相似(或语义)7.方面(或属性/Aspect)8.向量(或Key)9.涌现(或Emergence)10.词嵌入(或WordEmbedding/向量化)11.依存(或Dependency)12.混合精度(或MixedPrecision)13.ROUGE14.自然语言(或NLG/自然语言生成)15.YYYY-MM-DD16.Softmax归一化(或负对数似然/Softmax)17.LoRA(或Low-RankAdaptation)18.短句惩罚(或BrevityPenalty)19.Location/Time(或时空/adjunct)20.Linear(或线性/Linformer)四、判断题1.×[解析]词向量运算只能近似反映语义关系，并非总是精确等于目标词向量。2.×[解析]CNN（如TextCNN）通过一维卷积核提取局部特征，也可用于文本分类等NLP任务。3.√[解析]BERT是双向Encoder，GPT是单向Decoder。4.×[解析]在某些任务（如情感分析、文本生成）中，停用词可能包含重要的情感色彩或语法结构，不应盲目去除。5.√[解析]困惑度越低，模型预测的不确定性越低，预测越准确。6.√[解析]Transformer完全基于Attention机制。7.√[解析]NER是典型的序列标注问题，这些模型均可解决。8.√[解析]数据增强是解决小样本问题的有效手段。9.×[解析]Prompt设计对大模型输出有决定性影响。10.√[解析]BLEU衡量n-gram重叠度，值越高相似度越高。五、简答题1.答：主要作用：注意力机制允许模型在处理序列时，动态地分配不同权重给输入序列的不同部分，从而使模型能够“关注”到对当前任务更重要的信息，解决长距离依赖问题。在Transformer中的实现：Transformer使用缩放点积注意力（ScaledDot-ProductAttention）。其输入为Query(Q)、Key(K)、Value(V)向量。通过计算Q与K的点积并除以缩放因子，经过Softmax归一化得到注意力权重，最后将权重乘以V得到输出。公式为：Att2.答：架构区别：BERT使用Transformer的Encoder结构，采用双向注意力，即每个Token都能看到整个句子的上下文。GPT使用Transformer的Decoder结构，采用单向（Masked）注意力，即每个Token只能看到它之前的Token。训练目标区别：BERT采用掩码语言模型（MLM，完形填空）和下一句预测（NSP）。它通过掩盖部分词让模型预测，适合理解任务。GPT采用标准的自回归语言模型（AutoregressiveLM）目标，根据上文预测下一个词，适合生成任务。3.答：歧义性是指同一形式的语言符号（词、句等）可以包含多种不同的含义或解释。词汇歧义：指一个词有多种含义。例如，“Bank”既可以指“银行”，也可以指“河岸”。在句子“Iwenttothebank”中，若无更多上下文，无法确定具体含义。句法歧义：指一个句子有多种语法结构分析。例如，“Isawthemanwiththetelescope”。可以理解为“我带着望远镜看见了那个男人”（介词短语修饰动词），也可以理解为“我看见了带着望远镜的那个男人”（介词短语修饰名词）。4.答：梯度消失问题及影响：在RNN训练过程中，梯度随时间步反向传播时，若激活函数的导数小于1，梯度会呈指数级衰减，导致远离当前时间步的节点参数几乎无法更新。这使得RNN难以学习到序列中的长距离依赖信息，模型“记性”很差。LSTM的缓解机制：LSTM引入了门控机制（遗忘门、输入门、输出门）和细胞状态（CellState）。细胞状态是一条“传送带”，信息可以在其上以接近恒定的误差梯度流动，从而保护信息不被衰减。遗忘门决定丢弃哪些旧信息，输入门决定添加哪些新信息。这种结构使得LSTM能够有选择地保留长期信息，有效缓解了梯度消失问题。5.答：基本原理：BLEU（BilingualEvaluationUnderstudy）通过计算机器翻译结果与参考译文之间的n-gram（通常为1-gram到4-gram）匹配度来评价翻译质量。具体来说，它统计共现的n-gram数量，并计算精确率。同时，为了惩罚翻译过短的句子，引入了短句惩罚系数。最终公式是几何平均的n-gram精确率乘以BP。局限性：仅基于n-gram重叠，忽略语义相似性。例如翻译正确但用词不同会导致低分。忽略句法结构和词序（除了n-gram本身隐含的局部顺序）。对参考译文的依赖性强，单一参考译文可能无法覆盖所有正确的翻译表达。六、计算与分析题1.解：句子单词序列W=[T题目给出的是对数概率lo总对数概率∑注意：题目中给出的P(代入数值：Sum=(Sum=−困惑度PNP答：该句子的对数概率为-2.2，困惑度约为1.443。2.解：(1)计算注意力分数：Q=[1Score=Q缩放后得分=。注意力权重α=(2)计算输出：VOutput=α(3)物理意义：Q和K的点积用于计算查询向量与键向量之间的相似度或相关性。点积值越大，表示Query与该Key越匹配，对应的Value在最终输出中的信息占比就越高。3.解：样本1:=样本2:=样本3:=总损失==l≈平均损失L答：二元交叉熵损失约为0.280。七、综合应用题1.答：(1)技术流水线设计：用户输入层：接收用户的自然语言Query。预处理模块：进行分词

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2026年秋季人工智能自然语言理解培训试卷(含答案)

文档简介

温馨提示

最新文档

评论

2026年秋季人工智能自然语言理解培训试卷(含答案)

文档简介

温馨提示

最新文档

评论

相关文档