自然语言处理（微课版）课件全套第1-9章预备知识 -对话系统

上传人：y*** IP属地：山东上传时间：2026-06-01 格式：PPTX 页数：490 大小：31.43MB 积分：70 举报 版权申诉

已阅读5页，还剩485页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

预备知识概率论/信息论/图论/机器学习/自然语言处理2026/6/11自然语言处理1.预备知识概率论/信息论/图论/机器学习/自然语言处理2.深度神经网络线性神经网络/训练/前馈神经网络/CNN/RNN3.语言模型预训练预训练/BERT/GPT/模型优化与压缩4.生成式文本摘要基本架构/长期依赖问题/长文本编码/LSTM/预训练方法5.情感分析注意力机制/图神经网络/预训练情绪分析2026/6/12自然语言处理6.信息抽取命名实体识别/实体链接/关系抽取/事件抽取/小样本任务7.机器阅读理解基本架构/双向注意力/R-Net/阅读验证/回溯阅读模型8.机器翻译基本架构/神经翻译模型/搜索问题/领域适应/翻译预训练9.对话系统基本架构/封闭域系统/开放域系统/ChatGPT2026/6/13第一章：预备知识概率论基本要素、随机变量、分布函数信息论自信息、信息熵、交叉熵、相对熵、互信息图论连通性、遍历算法、最短路径问题机器学习常规方法、基本步骤、拟合状态、评估指标自然语言处理任务、挑战、应用2026/6/141.1概率论基本概念

2026/6/151.1概率论基本概念概率的基本要素事件空间F：事件空间描述了随机试验中所有可能发生的事件的集合。抛一枚硬币，事件空间：{{正面},{反面},{正面,反面},{}}对于掷骰子的例子，事件空间会包括所有由1,2,3,4,5,6中的一个或多个数字组成的集合以及空集元素A∈F的集合（称为事件）是Ω的子集（即每个A⊆Ω是一个实验所有可能结果的集合）2026/6/161.1概率论基本概念

2026/6/171.1概率论基本概念

2026/6/181.1概率论基本概念

2026/6/191.1概率论基本概念概率的基本要素P(A∩B)=P(A)P(B)时（或等价地，P(A|B)=P(A))，两个事件被称为独立事件。与互斥事件的区别：2026/6/1101.1概率论基本概念

2026/6/1111.1概率论基本概念随机变量与分布函数PMF与PDF2026/6/1121.1概率论基本概念

2026/6/1131.1概率论基本概念

2026/6/1141.1概率论基本概念随机变量与分布函数方差：方差是用来衡量随机变量分布偏离其期望值的程度的一种指标方差可以帮助我们理解随机变量的分布形态及其变异程度。在概率论、统计学和金融学等领域被广泛应用2026/6/1151.1概率论基本概念

2026/6/1161.1概率论基本概念

2026/6/1171.2信息论基本概念

2026/6/1181.2信息论基本概念

2026/6/1191.2信息论基本概念

2026/6/1201.2信息论基本概念

2026/6/1211.2信息论基本概念

2026/6/1221.2信息论基本概念

2026/6/1231.2信息论基本概念

2026/6/1241.3图论基本概念图与路径图：一个图由节点集合N和边集合E构成有向图：两个节点间有指向关系无向图：两节点的边仅代表这两个节点存在联系存储方式：邻接矩阵/邻接表2026/6/1251.3图论基本概念图与路径路径：由一些节点构成的序列，序列中任意两个相邻节点间都有一条边相连简单路径：不包含重复节点的路径连通图：任两点间有路相通包含三个连通分量的图：2026/6/1261.3图论基本概念图遍历算法深度优先搜索：一条路径走到底后返回上一步，搜索第二条路径路径为a

g广度优先搜索：先访问完当前顶点的所有邻接点，然后再访问下一层的所有节点路径为a

g2026/6/1271.3图论基本概念单起点最短路径Dijkstra算法：首先，求出从起点到最接近起点的节点之间的最短路径，然后求出第二近的，以此类推。2026/6/1281.3图论基本概念单起点最短路径Dijkstra算法：首先，求出从起点到最接近起点的节点之间的最短路径，然后求出第二近的，以此类推。2026/6/1291.3图论基本概念单起点最短路径Dijkstra算法：首先，求出从起点到最接近起点的节点之间的最短路径，然后求出第二近的，以此类推。2026/6/1301.4机器学习基本概念机器学习方法分类监督学习：训练数据集中包含输入和对应的输出，算法通过学习输入与输出之间的映射关系来预测新的输出2026/6/1311.4机器学习基本概念机器学习方法分类无监督学习：训练数据集中只包含输入，算法通过发现数据中的内在结构来进行聚类、降维等任务常用的无监督学习方法：聚类2026/6/1321.4机器学习基本概念机器学习方法分类强化学习：算法通过与环境的交互来学习最优的行动策略，通过奖励和惩罚来调整策略2026/6/1331.4机器学习基本概念机器学习方法分类半监督学习：训练数据集中包含一部分带标签的数据和大量无标签数据2026/6/1341.4机器学习基本概念机器学习方法分类迁移学习：算法通过利用一个领域的知识来帮助解决另一个领域的问题2026/6/1351.4机器学习基本概念机器学习方法分类增强学习：通过向输入数据中添加噪声或进行其他变换来增加数据集的大小和多样性，从而提高算法的鲁棒性和泛化能力几何变换：包括旋转、平移、缩放、剪切等，适用于图像数据。颜色空间变换：如亮度、对比度、饱和度的变化，同样适用于图像数据。时间扭曲：在音频信号处理中，通过轻微的时间拉伸或压缩来模拟速度变化。噪声注入：在输入数据中加入高斯噪声或其他类型噪声，帮助模型学会忽略无关的细节。2026/6/1361.4机器学习基本概念机器学习方法分类具身智能：智能体通过与环境产生交互后，通过自身的学习，产生对于客观世界的理解和改造能力重庆鲁班研究院研发的具身智能机器人，具备自主规划、决策、行动的能力，实现了对复杂场景的快速识别和精准定位2026/6/1371.4机器学习基本概念机器学习方法分类元学习：在多个学习阶段改进学习算法的过程，分为元训练过程和元测试过程，对学习本身现象的认识和理解，而不是学科知识2026/6/1381.4机器学习基本概念

2026/6/1391.4机器学习基本概念机器学习基本步骤模型的训练与优化：模型在训练的过程中需要对模型参数更新，使得模型预测结果能够更接近真实结果模型评估：通常使用不同于训练数据的数据用于评估模型应用：将最终训练好的模型用于实际生产应用中2026/6/1401.4机器学习基本概念欠拟合与过拟合欠拟合：欠拟合指模型无法很好地拟合数据，无法捕捉到数据中的规律，表现为模型的训练误差和测试误差都较高过拟合：过拟合指模型在训练集上表现非常好，但在测试集上表现不佳的现象，原因是模型过于复杂，在训练数据中学到了噪声和随机误差2026/6/1411.4机器学习基本概念模型评估与模型选择模型评估：模型评估是指通过一定的评价指标，对训练好的模型进行性能评估二分类为例，分类指标常通过混淆矩阵进行定义：2026/6/1421.4机器学习基本概念

2026/6/1431.4机器学习基本概念

2026/6/1441.4机器学习基本概念

2026/6/1451.4机器学习基本概念模型评估与模型选择2026/6/1461.4机器学习基本概念模型评估与模型选择2026/6/1471.4机器学习基本概念模型评估与模型选择ROC曲线：以假正率FPR=FP/(TP+FN)为横轴，以真正率TPR=TP/(TP+FN)为纵轴AUC：ROC曲线下的面积2026/6/1481.5自然语言处理基本概念发展历程特征工程（FeatureEngineering）：提取出自然语言语料库中的一些特征，利用特定的规则或数学、统计学的模型来对特征进行匹配和利用，进而完成特定的NLP任务贝叶斯Viterbi算法隐马尔可夫模型2026/6/1491.5自然语言处理基本概念发展历程架构工程（ArchitectureEngineering）：这类方法不用手动设置特征和规则，节省了大量的人力资源，但仍然需要人工设计合适的神经网路架构来对数据集进行训练CNNRNNSeq2Seq2026/6/1501.5自然语言处理基本概念发展历程目标工程（ObjectiveEngineering）：以设计先在大的无监督数据集上进行预训练，学习到一些通用的语法和语义特征，然后利用预训练好的模型在下游任务的特定数据集上进行fine-tuningXLNetBert2026/6/1511.5自然语言处理基本概念发展历程提示工程（PromptEngineering）：将下游任务的建模方式重新定义：

通过合适的prompt（提示符、提示词）来实现直接在预训练模型上解决下游任务MaskedLMNextSentencePrediction2026/6/1521.5自然语言处理基本概念面临的挑战抽象性：自然语言是由符号构成的，每个符号对应着现实世界和人们头脑中的复杂概念。例如，“车”这个符号代表各种交通工具，包括汽车、火车等。组合性：虽然每种语言的基本符号单元都是有限的，如26个字母，但有限的符号却可以组合成无限的语义。歧义性：歧义性主要是由于语言的形式和语义之间存在多对多的对应关系导致的。如：“苹果”一词，既可以指水果，也可以指苹果公司。在句子层面，如“曹雪芹写了红楼梦”和“红楼梦的作者是曹雪芹”，虽然形式不同，但语义是相同的2026/6/1531.5自然语言处理基本概念面临的挑战进化性：任何一种“活着”的语言都是在不断发展变化的，即语言具有明显的进化性，也称创造性。新词汇层出不穷，如“新冠”；旧词也会被赋予新的含义，如“杯具”；语法等也会不断变化非规范性：在互联网上，用户产生的内容中经常有一些非规范文本。如音近词（“为什么”→“为森么”，“怎么了”→“肿么了”）、简写、错别字等主观性：自然语言处理问题往往具有一定的主观性。如在分词任务中，“打篮球”是一个词还是两个词呢？2026/6/1541.5自然语言处理基本概念面临的挑战知识性：理解语言通常需要背景知识以及基于这些知识的推理能力。例如，针对句子“张三打了李四，然后他倒了”，问其中的“他”指代的是“张三”还是“李四”？难移植性：由于自然语言处理涉及的任务和领域众多，并且不同任务和领域之间的差异较大，造成了难移植性的问题。2026/6/1551.5自然语言处理基本概念常规任务中文分词：英语中通常按照空格或前后缀，将词或子词作为一个语义单位作为模型输入，但中文句子除了标点符号以外没有显式的分隔符，所以必须先利用分词技术对句子中的词语预测边界，切块后再送入模型2026/6/1561.5自然语言处理基本概念常规任务词性标注：对文本中的词汇实现词性的划分，例如对名词、动词和形容词等，以帮助模型更好的理解上下文中的语义信息，去除不必要的歧义2026/6/1571.5自然语言处理基本概念常规任务命名实体识别：从文本中识别和分类具有特定名称的实体，例如人名、地名、组织机构名、时间、日期、货币、百分比等。2026/6/1581.5自然语言处理基本概念常规任务依存句法分析：分析句子中各个词汇间的语法依存关系，并以树形结构来表示这些关系2026/6/1591.5自然语言处理基本概念常规任务语义分析：与依存语法分析类似，但该方法不仅进行词法和句法等语法水平上的分析，而且还涉及单词、词组、句子、段落所包含的意义2026/6/1601.5自然语言处理基本概念常规任务句子分析：句子分析包括短句分类、简单情感分析与主谓宾分析等，从而便于计算机进一步处理和推理文本的含义2026/6/1611.5自然语言处理基本概念典型应用信息抽取：从非结构化或半结构化的自然语言文本中提取出特定的结构化信息。信息抽取注重自然语言中的实体、实体关系、事件等，在自动问答、情感分析、数据挖掘（文本挖掘）等广泛领域均有应用2026/6/1621.5自然语言处理基本概念典型应用自动摘要：捕获文档最重要部分（如新闻、书籍、文章等）并生成描述性的简短文本。2026/6/1631.5自然语言处理基本概念典型应用文本分类：将一篇文档归于预先给定的一个类别集合中的某一类或某几类。2026/6/1641.5自然语言处理基本概念典型应用情感分析：分析文章（评论）对某个对象（社会热点事件、产品或服务）的态度（正面或负面）。2026/6/165深度神经网络线性神经网络/神经网络训练/前馈神经网络/卷积神经网络/循环神经网络2026/6/166第二章：深度神经网络线性神经网络线性回归/逻辑回归/多类逻辑回归神经网络训练损失函数/优化算法前馈神经网络多层感知机/前向传播/反向传播卷积神经网络（CNN）卷积层/池化层循环神经网络（RNN）2026/6/167概述通过多层的神经元结构处理数据，模仿人类大脑的处理方式通过多个隐藏层连接输入和输出层，每层都包含多个神经元常见的深度神经网络如MLP、CNN、RNN2026/6/1682.1线性神经网络

2026/6/1692.1线性神经网络

2026/6/1702.1线性神经网络线性回归线性：两个变量之间的关系是一次函数关系的——图象是直线非线性：两个变量之间的关系不是一次函数关系的——图象不是直线2026/6/1712.1线性神经网络线性回归使用线性回归需遵循的假设：是一个回归问题要预测的变量y与自变量x的关系是线性的各项误差服从正太分布，均值为0，与x同方差变量x的分布要有变异性多元线性回归中不同特征之间应该相互独立，避免线性相关2026/6/1722.1线性神经网络线性回归最小二乘法：利用最小化误差的平方和以找到数据的最优函数匹配2026/6/1732.1线性神经网络逻辑回归逻辑回归：一个二分类线性模型，又称对数几率回归，模型需要根据输入变量预测类型“0”或“1”，一般描述为y∈{0,1}。2026/6/174逻辑回归训练后的模型是一条直线（p=2),或是平面（p=3)，超平面（p>3)2.1线性神经网络

2026/6/1752.1线性神经网络

2026/6/1762.1线性神经网络

2026/6/1772.1线性神经网络

2026/6/1782.1线性神经网络

2026/6/1792.1线性神经网络多类逻辑回归Softmax回归首先利用仿射变换给出样本属于每个类别的得分，再利用Softmax激活函数（又称归一化指数函数），将线性模型的值域从R映射到(0,1)，表示输入样本属于某一项的概率2026/6/1802.1线性神经网络

2026/6/1812.1线性神经网络

2026/6/1822.2神经网络训练深度神经网络的两个常见任务分类任务：将输入映射到离散的类别空间如：手写数字识别2026/6/1832.2神经网络训练深度神经网络的两个常见任务回归任务：将输入映射到连续空间如：预测天气温度2026/6/1842.2神经网络训练损失函数损失函数：用来衡量模型输出与真值之间相似度差距的函数2026/6/1852.2神经网络训练

2026/6/1862.2神经网络训练

2026/6/1872.2神经网络训练回归任务损失函数平均绝对误差损失：梯度基本恒定，不会随着预测误差的变化而变化，但避免了梯度爆炸问题2026/6/1882.2神经网络训练

2026/6/1892.2神经网络训练回归任务损失函数平方差损失：梯度随误差的变化而变化，但更容易受到数据中噪音的影响并可能发生梯度爆炸的问题2026/6/1902.2神经网络训练优化算法梯度下降：通过求目标函数的导数来寻找目标函数最小化的方法直观理解：2026/6/1912.2神经网络训练优化算法学习率：学习率决定了在每步参数更新中，模型参数有多大程度（或多快、多大步长）的调整2026/6/1922.2神经网络训练

2026/6/1932.2神经网络训练优化算法批量梯度下降：2026/6/1942.2神经网络训练优化算法随机梯度下降：每次只计算训练集中一个样本的梯度进行参数更新，通过不断的从训练集中随机选择样本迭代得到最优参数优点：加快迭代速度，减小训练时间缺点：与整体数据集的损失值存在偏差，不保证能够优化到最小值2026/6/1952.2神经网络训练优化算法随机梯度下降：2026/6/1962.2神经网络训练优化算法小批量梯度下降：每次参数更新时，从训练集中随机选取N个训练样本进行损失值与梯度的计算2026/6/1972.2神经网络训练优化算法小批量梯度下降：2026/6/1982.3前馈神经网络前馈神经网络每一层的神经元可以接收前一层神经元的信号，并产生信号输出到下一层信号从输入层向输出层单向传播，可用一个有向无环图表示2026/6/1992.3前馈神经网络

2026/6/11002.3前馈神经网络

2026/6/11012.3前馈神经网络

2026/6/11022.3前馈神经网络多层感知机：前向传播2026/6/11032.3前馈神经网络多层感知机：前向传播2026/6/11042.3前馈神经网络多层感知机：前向传播2026/6/11052.3前馈神经网络多层感知机反向传播：从损失函数中反向传递信息，通过神经网络向后传递，以计算每个层次的梯度两个环节：反向传播权重更新2026/6/11062.3前馈神经网络多层感知机：反向传播2026/6/11072.3前馈神经网络多层感知机：反向传播2026/6/11082.3前馈神经网络多层感知机：反向传播2026/6/11092.3前馈神经网络多层感知机：更新参数2026/6/11102.3前馈神经网络多层感知机：更新参数2026/6/11112.3前馈神经网络多层感知机：更新参数2026/6/11122.4卷积神经网络卷积神经网络基本结构：输入层、卷积层、池化层、全连接层及输出层卷积层：通过多个不同的卷积核对其进行卷积特征提取2026/6/11132.4卷积神经网络卷积神经网络池化层：通过多个不同的卷积核对其进行卷积特征提取常见的池化函数：最大值池化，均值池化，随机池化，中值池化，组合池化等2026/6/11142.4卷积神经网络经典卷积神经网络LeNet-5：早期模型，卷积层和池化层交替，应用于手写数字识别2026/6/11152.4卷积神经网络经典卷积神经网络AlexNet：多层卷积和池化，并引入了ReLU激活函数和Dropout2026/6/11162.4卷积神经网络经典卷积神经网络VGG：重复堆叠的小卷积核和池化层，构建了16或19层的深度网络结构2026/6/11172.4卷积神经网络经典卷积神经网络ResNet：引入跳跃连接和残差学习的思想解决了深层网络训练过程中的梯度消失和网络退化问题，简单而有效2026/6/11182.5循环神经网络

2026/6/11192.5循环神经网络循环神经网络特点：对具有序列特性的数据非常有效序列特性：如自然语言、音频、时间序列RNN引入“记忆”的概念，也就是输出需要依赖之前的输入序列，并把关键输入记住每次都会将前一次的输出结果，带到下一次的隐藏层中，一起训练2026/6/11202.5循环神经网络

2026/6/11212.5循环神经网络循环神经网络应用应用：机器翻译、语言识别、股票预测等2026/6/1122语言模型预训练简介/BERT/GPT/预训练语言模型优化2026/6/1123第三章：语言模型预训练预训练简介任务/基本结构/应用实例BERT：掩码预训练模型网络结构/输入表示/训练GPT：生成式预训练模型GPT1/GPT2/GPT3模型优化与压缩模型压缩/微调适配/CANN2026/6/11243.1简介语言模型预训练目的：学习通用的文本嵌入表达，提升下游任务的性能学习语言特征：语义特征、句法特征等学习语言现象：一词多义、指代等2026/6/11253.1简介

2026/6/11263.1简介语言模型预训练具体任务带掩码机制的语言模型：将文本中的部分token进行遮盖，通过使用其余的token预测被遮盖的token进行模型训练2026/6/11273.1简介

2026/6/11283.1简介预训练模型基础结构自注意模块2026/6/11293.1简介预训练模型基础结构编解码器模块2026/6/11303.2华为全栈全场景解决方案介绍2026/6/11313.2华为全栈全场景解决方案介绍组成部分昇腾系列AI处理器MindStudio一站式开发环境和工具集MindX软件开发套件(SDK)开源自研AI框架MindSpore2026/6/11323.2掩码预训练模型BERTBERT网络结构Bert：基于Transformer的双向表示编码器2026/6/11333.2掩码预训练模型BERTBERT网络结构[CLS]是句子的开始标记，通常用于分类任务[SEP]是句子结束标记，用于分割不同的句子或句子片段注意力机制是双向的，这意味着每个词不仅关注其左侧的词，还关注其右侧的词顶部不同的注意力头关注句子中不同的部分2026/6/11343.2掩码预训练模型BERTBERT网络输入词向量：每个词都有一个对应的词向量，用于捕捉词的语义信息段向量：段向量用于区分不同的句子片段位置向量：位置向量用于捕捉词在句子中的位置信息2026/6/11353.2掩码预训练模型BERTBERT网络输入2026/6/11363.2掩码预训练模型BERTBERT网络输入：词向量词向量：基于深度神经网络的自然语言处理模型通常会将文本中的字和词用一个一维向量进行表示目标：具有相似语义的字或词所对应的嵌入表达，在特征空间上的距离也比较接近2026/6/11373.2掩码预训练模型BERTBERT网络输入：段向量与位置向量段向量：在NLP相关任务例如下一句预测中，模型的输入可能涉及两个句子，段向量的作用就是对这两个句子进行区分位置向量：描述每个词在句子中的相对位置2026/6/11383.2掩码预训练模型BERTBERT网络输入2026/6/11393.2掩码预训练模型BERTBERT网络训练掩码大语言模型：将输入序列的部分token随机遮挡起来，然后预测这些被遮挡起来的token替换方法80%被选中的token使用[Mask]代替：mydogis[Mask]10%被选中的token使用随机token代替：mydogisapple10%被选中的token保持不变：mydogiscute2026/6/11403.2掩码预训练模型BERTBERT网络训练2026/6/11413.2掩码预训练模型BERTBERT网络训练后续句预测：随机选择一对目标语句A和B，在这对目标语句中，A和B有50%的概率组成真实的前后句关系，模型需要将句子B分为IsNext或NotNext两类输入=[CLS]我喜欢玩[Mask]联盟[SEP]我最擅长的[Mask]是亚索[SEP]输出：IsNext输入=[CLS]我喜欢玩[Mask]联盟[SEP]今天天气很[Mask][SEP]输出：NotNext2026/6/11423.2掩码预训练模型BERTBERT网络训练2026/6/11433.2掩码预训练模型BERTBERT网络训练微调训练下游任务2026/6/11443.2掩码预训练模型BERTBERT网络训练句子对分类任务示例QNLI：用于判断文本是否包含问题的答案STS-B：预测两个句子的相似性，包括5个级别MRPC：也是判断两个句子是否是等价的单句分类任务示例SST-2：电影评价的情感分析CoLA：句子语义判断，是否是可接受的（Acceptable）2026/6/11453.2掩码预训练模型BERTBERT网络训练微调训练下游任务2026/6/11463.2掩码预训练模型BERTBERT网络训练问答任务示例SQuADv1.1：给定一个句子（通常是一个问题）和一段描述文本，输出这个问题的答案序列标注任务示例CoNLL-2003NER：判断一个句子中的单词是不是Person，Organization，Location，Miscellaneous或者other（无命名实体）2026/6/11473.3生成式预训练模型GPTGPT网络架构2026/6/11483.3生成式预训练模型GPTGPT系列2026/6/11493.3生成式预训练模型GPTGPT-1网络架构：特征抽取器采用12层Transformer解码器只使用了Transformer的Decoder结构2026/6/11503.3生成式预训练模型GPT

2026/6/11513.3生成式预训练模型GPTGPT-1有监督微调2026/6/11523.3生成式预训练模型GPTGPT-2网络架构：将其中的层归一化提前至各子模块之前，并在最后一个自注意力计算层后再增加了一次归一化2026/6/11533.3生成式预训练模型GPTGPT-2网络架构：解码器层数增加2026/6/11543.3生成式预训练模型GPTGPT-2多任务与零提示：不定义模型的具体任务，而是希望模型自动识别出来需要做什么任务2026/6/11553.3生成式预训练模型GPTGPT-3模型结构：更宽的表示向量、更多的网络层数、更大的语料库等2026/6/11563.3生成式预训练模型GPTGPT-3少样本与提示：通过对模型进行“提示”完成任务2026/6/11573.3生成式预训练模型GPTGPT-3学习范式转变：2026/6/11583.4预训练语言模型优化模型压缩知识蒸馏：用一个小模型去拟合一个庞大模型的输出分布2026/6/11593.4预训练语言模型优化模型压缩：知识蒸馏2026/6/11603.4预训练语言模型优化模型压缩剪枝：在保证模型性能不会受过大影响的同时，剪掉网络中不重要的链接参数或神经元2026/6/11613.4预训练语言模型优化模型压缩量化：尽可能不影响模型精度的同时减少参数的储存位数2026/6/11623.4预训练语言模型优化大语言模型的微调适配指令微调：指令设计通过语义解析器设计指令：使用语义解析将指令转换为形式语言(逻辑公式)根据已有的指令对模型进行微调：直接将自然语言指令编码到模型的词向量中基于超网络的方法：将任务指令和任务输入分开编码，将指令转换为特定于任务的模型参数2026/6/11633.4预训练语言模型优化大语言模型的微调适配指令微调2026/6/11643.4预训练语言模型优化大语言模型的微调适配对齐微调：与指令微调的标准不同，对齐微调更侧重于模型的实用性、诚实性和无害性有用性：模型能简明扼要且高效的回答或解决用户所提出的问题或者任务诚实性：模型能向用户提供准确的内容而不是由参数凭空捏造虚假信息无害性：模型不会生成具有歧视性或者具有冒犯性的回复2026/6/11653.4预训练语言模型优化大语言模型的微调适配提示微调：不是让大模型去适应下游任务，而是让下游任务的输入输出去适配大模型2026/6/11663.4预训练语言模型优化2026/6/11673.4预训练语言模型优化CANN介绍CANN是昇腾针对AI场景推出的异构计算架构2026/6/11683.4预训练语言模型优化CANN介绍CANN：最大化昇腾系列AI处理器的性能统一编程接口：AscendCL，一套用于在昇腾平台上开发深度神经网络推理应用的C语言API库AscendC算子：构建深度学习模型的基本构件2026/6/11693.4预训练语言模型优化CANN开放生态：社区与样例2026/6/11703.4预训练语言模型优化CANN开放生态：社区与样例2026/6/1171生成式文本摘要引言/长期依赖问题/长文本编码/基于双向LSTM/基于预训练语言模型2026/6/1172第四章生成式文本摘要引言文本摘要任务、抽取式摘要、生成式摘要、Seq2seq架构文本输入的长期依赖问题长期依赖问题、LSTM架构、GRU架构、梯度裁剪与正则化复杂的长文本编码方案双向RNN、层级式RNN基于双向RNN的文本摘要基于预训练语言模型的文本摘要2026/6/11734.1引言文本摘要任务任务目标：将长文本或文本集合转换为包含关键信息的简短摘要分类：按输入类型分类：单文档摘要、多文档摘要按输出类型分类：抽取式摘要、生成式摘要2026/6/11744.1引言

抽取式摘要：从原文中选取关键词句组成摘要。2026/6/11754.1引言抽取式摘要方法使用图、聚类等无监督方法提取词、句特征（例如句子的长度、位置等），然后利用机器学习算法抽取关键句子基于神经网络。这种方法将问题建模为序列标注或句子排序任务2026/6/11764.1引言抽取式摘要在语法、句法上有一定的保证，但存在一些问题，如：内容选择错误、连贯性差、灵活性差等生成式摘要允许摘要中包含新的词语或短语，灵活性更高2026/6/11774.1引言生成式摘要特点：允许摘要中包含新的词语或短语，灵活性高主要方法：Seq2Seq模型——encoder-decoder架构Encoder（编码器）：将输入的文本编码成一个向量C（context）Decoder（解码器）：从向量C提取重要信息、加工，生成文本摘要2026/6/11784.1引言Sequence-To-Sequence（Seq2seq）架构2026/6/11794.1引言Seq2seq→基于RNN的架构2026/6/11804.1引言

2026/6/11814.1引言

2026/6/11824.2文本输入的长期依赖问题长期依赖问题当计算图变得极深时，变深的结构使模型丧失了学习到先前信息的能力，也让优化变得非常困难。循环网络要在长时间序列的各个时刻重复应用相同操作来构建非常深的计算图，并且模型参数共享，这使问题更加凸显。2026/6/11834.2文本输入的长期依赖问题

2026/6/11844.2文本输入的长期依赖问题传统RNN改进：长短期记忆网络(LongShort-TermMemory，LSTM)特点：引入记忆元(memorycell)来记录和维护附加的信息，有效地保留过去重要的信息，忽略不再需要的信息，解决长期依赖问题2026/6/11854.2文本输入的长期依赖问题LSTM架构：2026/6/1186

4.2文本输入的长期依赖问题LSTM架构：2026/6/1187

4.2文本输入的长期依赖问题LSTM架构：2026/6/1188

4.2文本输入的长期依赖问题LSTM架构：2026/6/1189

4.2文本输入的长期依赖问题LSTM架构：2026/6/1190

4.2文本输入的长期依赖问题LSTM架构：2026/6/1191

4.2文本输入的长期依赖问题LSTM架构：2026/6/1192

4.2文本输入的长期依赖问题长短期记忆网络(LSTM)2026/6/11934.2文本输入的长期依赖问题传统RNN改进：门控循环单元(GatedRecurrentUnit，GRU)特点：GRU引入了门控机制选择性地保留或丢弃过去的信息，能有效解决梯度消失问题。2026/6/11944.2文本输入的长期依赖问题GRU架构2026/6/1195

4.2文本输入的长期依赖问题GRU架构2026/6/1196

4.2文本输入的长期依赖问题GRU架构：2026/6/1197

4.2文本输入的长期依赖问题GRU架构：2026/6/1198

4.2文本输入的长期依赖问题GRU架构：2026/6/1199

4.2文本输入的长期依赖问题梯度裁剪与正则化梯度裁剪：神经网络一般通过梯度下降法学习，当网络太深时会造成梯度爆炸或者梯度消失的问题。梯度裁剪能一定程度上缓解以上问题。2026/6/12004.2文本输入的长期依赖问题梯度裁剪与正则化梯度裁剪解决梯度爆炸：对每个参数的梯度值进行限制，使其不超过一个预先设定的最大值解决梯度消失：也可以通过梯度裁剪一定程度缓解梯度消失问题，但还需要其他的技术，例如使用更合适的激活函数、残差连接、归一化等2026/6/12014.2文本输入的长期依赖问题梯度裁剪与正则化正则化：正则化是一种为了减小测试误差（注意：是针对于测试误差，对于训练误差可能是增加）的行为，当使用复杂的模型拟合数据时，很容易出现过拟合现象，从而导致模型的泛化能力下降。此时我们就需要使用正则化来降低模型的复杂度，从而防止过拟合。2026/6/12024.2文本输入的长期依赖问题

2026/6/12034.3复杂的长文本编码方案

2026/6/12044.3复杂的长文本编码方案双向卷积神经网络（RNN）在许多应用场景中，要输出的预测结果可能依赖于整个输入序列。例如，在语音识别中，由于存在协同发音，当前语音信号的正确解释可能需要考虑之前出现的词以及未来可能出现的词，因为单词之间存在语义上的依赖关系。2026/6/12054.3复杂的长文本编码方案双向卷积神经网络（RNN）双向RNN：由一个从时间序列起点开始移动的RNN和另一个从时间序列末尾开始移动的RNN组成。这种结构允许输出单元的计算同时依赖过去和未来时刻的输入信息。2026/6/12064.3复杂的长文本编码方案双向卷积神经网络（RNN）2026/6/12074.3复杂的长文本编码方案双向卷积神经网络（RNN）优点：对于预测结果依赖于整个输入序列的任务表现良好，同时能综合考虑所有输入信息，从而缓解遗忘早期的输入信息。任务场景：手写识别、语音识别2026/6/12084.3复杂的长文本编码方案层级式卷积神经网络(RNN)特点：类似于将多层全连接神经网络叠在一起形成多层感知机（MLP），同样也可以将多个循环神经网络（RNN）层堆叠在一起，形成一个多层RNN网络。2026/6/12094.3复杂的长文本编码方案层级式卷积神经网络(RNN)架构：第一层RNN输出的T个状态向量作为第二层RNN的输入第二层RNN拥有独立的参数，依次读取T个来自第一层RNN的输出向量，产生T个新的输出第二层RNN的输出又作为第三层RNN的输入，以此类推到第n层2026/6/12104.3复杂的长文本编码方案层级式卷积神经网络(RNN)2026/6/12114.4基于双向RNN的文本摘要案例：Words-lvt2k（AbstractiveTextSummarizationusingSequence-to-sequenceRNNsandBeyond,ACL2016）该模型以一个包含双向GRU-RNN的编码器和单向GRU-RNN的解码器的模型作为基准模型，并将注意力模型应用在编码器的hiddenstate上，将一个softmax分类器应用在解码器的生成器上。2026/6/12124.4基于双向RNN的文本摘要案例：Words-lvt2k(ACL2016)Feature-richEncoder：融合wordfeature包括单词的词性标注（part-of-speech），命名实体标签（named-entitytags）以及TF（词频）和IDF（逆文本频率），对Encoder的输入构建了具有多个维度的词嵌入（wordembedding），这些维度上的意义对于摘要的生成至关重要。2026/6/12134.4基于双向RNN的文本摘要案例：Words-lvt2k(ACL2016)SwitchGenerator/Pointer：文摘中会遇到一些低频但很重要或者OOV（Outofvocabulary）的词，这个开关解决了这类问题。根据上下文计算开关打开Generator的概率，然后根据概率改变开关状态，如果是Generator就产生一个单词，如果是Pointer就生成一个指向原文单词位置的指针，然后复制到摘要中。2026/6/12144.4基于双向RNN的文本摘要案例：Words-lvt2k(ACL2016)Hierarchicalencoderwithhierarchicalattention：这里实际上是对Attention机制的改进，分了两个等级：word-level和sentence-level，既考虑了Encoder中每个单词对于Decoder的重要性，又考虑了这个单词所在句子对Decoder的重要性，从而在两个等级层次上重新定义Attention机制中的权重。2026/6/12154.5基于预训练语言模型的文本摘要2026/6/1216目前，基于Transformer的预训练语言模型在各种下游任务上取得了良好的结果。预训练的上下文语言模型，比如BERT，在众多自然语言处理任务中表现出了卓越的性能，包括文本摘要任务本节以一种基于BERT的文本摘要模型为例，探讨如何充分利用这些强大的预训练模型来改进文本摘要的质量4.5基于预训练语言模型的文本摘要2026/6/1217两阶段解码器：草稿生成+摘要精炼草稿生成：由基于BERT的编码器提取输入文档的上下文表示嵌入(Documentembedding)。再将文档的嵌入表示输入一个单向的N层Transformer解码器，解码生成文档的“草稿摘要”(SummaryDraft)草稿生成摘要精炼4.5基于预训练语言模型的文本摘要2026/6/1218两阶段解码器：草稿生成+摘要精炼摘要精炼：该阶段接受上一阶段输出的草稿摘要，通过BERT编码，获取草稿摘要的上下文嵌入；同时，该解码器还接受原始的文档上下文嵌入。草稿生成摘要精炼4.5基于预训练语言模型的文本摘要2026/6/1219预训练模型与长文本摘要挑战：信息处理量大：包括长句子、大量段落、详细的内容需要模型具有较高的信息压缩能力更丰富的领域知识需求模型输入长度限制以及时间复杂度4.5基于预训练语言模型的文本摘要2026/6/1220处理方法简化encoder注意力：旨在高效利用注意力机制。与全注意力机制相比，这极大地减少了计算复杂度和内存消耗，但不可避免地带来性能损失简化encoder端注意力LongFormerLongT5层次化模型HAT-BARTTop

Down

Transformer重要词句建模GRETEL4.5基于预训练语言模型的文本摘要2026/6/1221处理方法层次化模型：一个文档通常可以划分为多个层级，不同层级之间存在不同级别的信息，例如一个段落中的句子的主题通常比较相近。因此，考虑使用层次化模型，通常有利于捕获多个层级的语义信息简化encoder端注意力LongFormerLongT5层次化模型HAT-BARTTop

Down

Transformer重要词句建模GRETEL4.5基于预训练语言模型的文本摘要2026/6/1222处理方法重要词句建模：首先从文本中检索出重要的句子或词汇，在此基础上进行进一步的生成。这种方法融合了抽取式和生成式方法的优点，有助于生成既具体详实又简明扼要的总结文本简化encoder端注意力LongFormerLongT5层次化模型HAT-BARTTop

Down

Transformer重要词句建模GRETEL情感分析引言/基于注意力机制/基于图神经网络/预训练情感分析模型2026/6/1223第五章情感分析引言常见子任务（情感分类、方面抽取、观点摘要）基于注意力机制的情绪分析通用注意力机制框架、注意力机制分类基于图神经网络的情绪分析图神经网络概念、图神经网络分类预训练情绪分析模型SentiWSP模型、SpanASTE模型、DualGCN模型案例：基于MindSpore实现的情绪分析2026/6/12245.1引言情感分析：也称观点挖掘（opinionmining）,旨在分析文本中表达的观点、情感等文档级别情感分析句子级别情感分析方面级别情感分析：捕获文本中对于某个确切的观点评价对象的情感“这家餐馆的服务很好，但环境有些差”餐馆的服务：正向情感餐馆的环境：负向情感2026/6/12255.1引言方面级别情感分析：目标实体：如商品、服务、主题、人、事件等方面（aspect）：目标实体的一个具体属性，如商品的质量、人的人品情绪：目标实体当前方面所包含的情感——如正向、中立、负向2026/6/12265.1引言情感分析常见子任务：情感分类方面抽取观点摘要2026/6/12275.1引言

2026/6/12285.1引言

2026/6/12295.1引言

2026/6/12305.1引言情感分类：任务方法基于情感词典的无监督学习：情感词典包含情感词和情感短语的情感倾向性和情感强度。此外，还可结合情感加强词（“非常”，“很”等）、情感反转词（如，“但是”，“非”等）等。基本方式：将文本中的正面情感文本表述赋予正值，负面情感文本表述赋予负值，并考虑情感加强/反转词对于情感的影响，对文档中所有的情感表达的值进行求和。2026/6/12315.1引言情感分类：任务方法基于监督学习的分类方法：传统机器学习：朴素贝叶斯、支持向量机等深度学习2026/6/12325.1引言方面抽取情感文本中通常存在一个或多个评价的对象或目标，方面抽取就是对给定的情感文本进行分析，抽取出其中涉及的情感对象“这家餐馆的服务很好，但环境有些差”

→餐馆的服务、环境2026/6/12335.1引言方面抽取传统机器学习方法：基于出现频率及词语属性的方法该类方法通常假设语料库中谈及某一对象时用的词语相同或类似，难以识别低频的方面词2026/6/12345.1引言方面抽取传统机器学习方法：基于句法关系的方法情感词和观点对象之间存在句法关系，表征两者之间的评价或修饰关系例如：“这家餐厅有着优越的地理位置”，情感词是“优越”，用于修饰方面词“地理位置”较依赖于句法解析结果的准确性，容易产生级联误差；且现在社交媒体等文本中，存在大量非正式文本，使得句法解析的正确性大大降低2026/6/12355.1引言方面抽取传统机器学习方法基于传统监督学习的方法：隐马尔可夫模型2026/6/12365.1引言

2026/6/12375.1引言观点摘要：情感信息挖掘结构化的关键任务，旨在对多个观点的结构化表示，以短文本形式输出2026/6/12385.1引言观点摘要子任务属性（方面）抽取：定位所有观点中的方面词，以及具有这些方面的句子情绪分类：对属性（方面）抽取中抽取的方面词进行情感极性预测观点生成：提取或生成非结构化文本中的重要观点摘要可视化：将提取到的结构化信息进行可视化2026/6/12395.1引言观点摘要有监督方法两阶段的方法：先抽取突出的观点子集，再基于抽取的观点子集进行摘要生成总结模型：抽取步骤容易导致信息损失，且不利于用户的定制化观点摘要生成。总结模型首先将所有输入评论压缩为稠密向量，直接用于摘要生成2026/6/12405.1引言观点摘要无监督方法知识驱动的弱监督框架：结合两个弱监督组件识别突出的观点，并从多评论中生成抽取式摘要，其中一个组件为在多任务目标下训练的方面提取器，另一个基于多实例学习进行情感预测个性化的观点摘要方案：使用户可以定制摘要的属性，如摘要长度，感兴趣的具体方面等2026/6/12415.2基于注意力机制的情绪分析注意力机制（Attentionmechanism）由于信息处理的能力限制，人类会有选择地关注一部分信息，而忽略其他信息。这种机制通常称为注意力机制注意力机制主要涉及两个方面：决定需要关注的信息的哪些部分，以及将有限的资源分配给重要的信息2026/6/12425.2基于注意力机制的情绪分析通用注意力机制框架2026/6/12435.2基于注意力机制的情绪分析

2026/6/12445.2基于注意力机制的情绪分析

2026/6/12455.2基于注意力机制的情绪分析注意力机制分类强注意力机制经典的注意力机制通常采用了软注意力的实现方式（通过注意力分布给不同的输入向量加权求和，从而将这些向量融合）相比之下，强注意力（HardAttention）则根据注意力分布从输入向量中选择一个作为输出2026/6/12465.2基于注意力机制的情绪分析注意力机制分类强注意力机制：两种输出选择方式选择分数最大的那一项对应的输入向量作为Attention机制的输出根据注意力分布进行随机采样，采样结果作为Attention机制的输出2026/6/12475.2基于注意力机制的情绪分析注意力机制分类强注意力机制：选择方式根据注意力分布从输入向量中选择一个作为输出会导致损失函数与注意力分布之间的函数关系不可导，从而无法使用反向传播算法来优化模型因此，通常需要使用强化学习算法进行训练，这种方法更加复杂且不稳定2026/6/12485.2基于注意力机制的情绪分析

2026/6/12495.2基于注意力机制的情绪分析

2026/6/12505.3基于图神经网络的情绪分析简介图：表示实体（顶点）的信息以及它们之间的连接关系（边）的数据结构。图的节点所包含的信息、边表达的信息、以及整个图表达的信息都可以用向量来表示2026/6/12515.3基于图神经网络的情绪分析图片：将每个像素点看成一个顶点，邻接的关系看成图中的边的，就可以用邻接矩阵来表示这个图片2026/6/12525.3基于图神经网络的情绪分析文本：将每个单词看成一个顶点，相邻的单词可以看成存在有向边连接2026/6/12535.3基于图神经网络的情绪分析其它：分子结构2026/6/12545.3基于图神经网络的情绪分析其它：人物关系2026/6/12555.3基于图神经网络的情绪分析简介图神经网络：在一个图结构中，每个节点都由自身的特征以及与其相连的节点特征来定义。图神经网络（GraphNeuralNetwork,GNN）是用于处理图结构数据的方法2026/6/12565.3基于图神经网络的情绪分析

2026/6/12575.3基于图神经网络的情绪分析

2026/6/12585.3基于图神经网络的情绪分析

2026/6/12595.3基于图神经网络的情绪分析

2026/6/12605.3基于图神经网络的情绪分析

2026/6/12615.4预训练情绪分析模型SentiWSP模型(Sentiment-AwareWordandSentenceLevelPre-training)从词级别学习更加丰富的情感信息在句子级别构造更加有效的预训练任务，提升模型对文本整体情感信息的学习2026/6/12625.4预训练情绪分析模型SentiWSP模型2026/6/12635.4预训练情绪分析模型SentiWSP模型词级别预训练随机掩盖15%的单词，基于SentiWordNet对句子中出现的情感词进行标记，再继续对这些情感词经行掩盖生成器会对遮盖的词生成概率分布，模型将在这些概率分布中做采样进行替换，然后将替换之后的句子再输入到判别器，判断每一个词是否被替换了2026/6/12645.4预训练情绪分析模型SentiWSP模型句子级别预训练目的：学习更加高效的表征正例构造：对原始序列的情感词进行遮掩后形成query，而原始的序列即作为其正例负例构造：同一个batch内的非正例作为负例、基于近似最近邻居检索的困难负例挖掘2026/6/12655.4预训练情绪分析模型SpanASTE模型该模型面向情感三元组抽取(AspectSentimentTripletExtraction,ASTE)任务，希望输出方面项(目标项)、情感极性和意见项提出一种基于跨度的方法，从而更好地学习目标项和观点项之间的关系，同时，基于跨度的方法可以确保抽取出的结果有更好的情感一致性，且这种端到端的方法可以避免现有的Pipeline方法中的误差传播问。2026/6/12665.4预训练情绪分析模型SpanASTE模型该模型面向情感三元组抽取(AspectSentimentTripletExtraction,ASTE)任务，希望输出方面项(目标项)、情感极性和意见项2026/6/12675.4预训练情绪分析模型SpanASTE模型2026/6/12685.4预训练情绪分析模型SpanASTE模型模型主要由三个模块构成——句子编码模块(SentenceEncoding)、提及模块(MentionModule)和三元组模块(TripletModule)句子首先输入到句子编码模块，获得token级别的表示后，再从中得到每个枚举跨度的跨度级别表示，然后用方面项抽取和观点项抽取任务来监督双通道跨度修剪策略，得到修剪后的候选目标和候选观点，再对它们进行耦合，作为特征进行分类2026/6/12695.4预训练情绪分析模型DualGCN模型利用依赖树的图神经网络已被用于显式地建模方面和观点词之间的联系，但由于依赖解析结果具有不确定性，且一些数据集收集的在线评论的非正式表达和复杂性，都会影响这种方法的性能该模型利用双重图卷积网络（DualGCN），同时考虑句法知识和语义相关性，并设计了两个正则化器来增强性能2026/6/12705.4预训练情绪分析模型DualGCN模型这个例子展示了一个句子中包含两个方面项，且对应的情感极性时不同的2026/6/12715.4预训练情绪分析模型DualGCN模型2026/6/12725.4预训练情绪分析模型DualGCN模型模型主要分为四个部分——基于句法的GCN(SynGCN)、基于语义的GCN(SemGCN)，双仿射模块和正则化器首先利用BiLSTM或BERT作为句子编码器获得隐藏的上下文表示，然后将句子的隐藏表示分别输入SynGCN和SemGCN模块，接着用双仿射模块进行有效的信息交流，最后通过池化和连接聚合得到最终的方面表示2026/6/12735.5案例：基于MindSpore实现的情绪分析本小节以IMDB影评情感分类为例来体验MindSpore在自然语言处理中情感分类任务上的应用参数配置模型搭建模型训练模型评估2026/6/12745.5案例：基于MindSpore实现的情绪分析2026/6/1275#加载库、mindspore框架importargparsefrommindsporeimportcontextfromeasydictimportEasyDictasedict

#LSTM网络设置lstm_cfg=edict({

'num_classes':2,'learning_rate':0.1,'momentum':0.9,'num_epochs':10,

'batch_size':64,'embed_size':300,'num_hiddens':100,'num_layers':2,

'bidirectional':True,'save_checkpoint_steps':390,'keep_checkpoint_max':10})

cfg=lstm_cfg5.5案例：基于MindSpore实现的情绪分析2026/6/1276#参数设置parser=argparse.ArgumentParser(description='MindSporeLSTMExample')parser.add_argument('--preprocess',type=str,default='false',choices=['true','false'])parser.add_argument('--aclimdb_path',type=str,default="./datasets/aclImdb")parser.add_argument('--glove_path',type=str,default="./datasets/glove")parser.add_argument('--preprocess_path',type=str,default="./preprocess")parser.add_argument('--ckpt_path',type=str,default="./models/ckpt/nlp_application")parser.add_argument('--pre_trained',type=str,default=None)parser.add_argument('--device_target',type=str,default="GPU",choices=['GPU','CPU'])args=parser.parse_args(['--device_target','GPU','--preprocess','true'])

#配置训练所需相关参数context.set_context(mode=context.GRAPH_MODE,save_graphs=False,device_target=args.device_target)5.5案例：基于MindSpore实现的情绪分析2026/6/1277参数含义：preprocess：是否预处理数据集，默认为否aclimdb_path：数据集存放路径glove_path：GloVe文件存放路径preprocess_path：预处理数据集的结果文件夹ckpt_path：CheckPoint文件路径pre_trained：预加载CheckPoint文件device_target：指定GPU或CPU环境以下以LSTM网络为例，搭建模型5.5案例：基于MindSpore实现的情绪分析2026/6/1278以下以LSTM网络为例，搭建模型#导入初始化网络所需模块frommindsporeimportnnimportmindspore.opsasopsimportnumpyasnpfrommindsporeimportTensor5.5案例：基于MindSpore实现的情绪分析2026/6/1279classSentimentNet(nn.Cell):

def__init__(self,vocab_size,embed_size,num_hiddens,num_layers,bidirectional,num_classes,weight,batch_size):

super(SentimentNet,self).__init__()

#词嵌入

self.embedding=nn.Embedding(vocab_size,embed_size,embedding_table=weight)

self.embedding.embedding_table.requires_grad=False

self.trans=ops.Transpose()

self.perm=(1,0,2)

self.encoder=nn.LSTM(input_size=embed_size,hidden_size=num_hiddens,num_layers=num_layers,

has_bias=True,bidirectional=bidirectional,dropout=0.0)

self.concat=ops.Concat(1)

self.squeeze=ops.Squeeze(axis=0)

ifbidirectional:

self.decoder=nn.Dense(num_hiddens*4,num_classes)

else:

self.decoder=nn.Dense(num_hiddens*2,num_classes)5.5案例：基于MindSpore实现的情绪分析2026/6/1280classSentimentNet(nn.Cell):

def__init__(self,vocab_size,embed_size,num_hiddens,num_layers,bidirectional,num_classes,weight,batch_size):

#（参考上页）

defconstruct(self,inputs):

#input：(64,500,300)

embeddings=self.embedding(inputs)

embeddings=self.trans(embeddings,self.perm)

output,_=self.encoder(embeddings)

#states[i]size(64,200)

->encoding.size(64,400)

encoding=self.concat((self.squeeze(output[0:1:1]),self.squeeze(output[499:500:1])))

outputs=self.decoder(encoding)

returnoutputs5.5案例：基于MindSpore实现的情绪分析2026/6/1281embedding_table=np.loadtxt(os.path.join(args.preprocess_path,"weight.txt")).astype(np.float32)network=SentimentNet(vocab_size=embedding_table.shape[0],embed_size=cfg.embed_size,

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

自然语言处理（微课版）课件全套 第1-9章 预备知识 -对话系统

文档简介

温馨提示

最新文档

评论

相关文档

自然语言处理（微课版）课件全套第1-9章预备知识 -对话系统