CN112487182A 文本处理模型的训练方法、文本处理方法及装置（华为技术有限公司）

上传人：1*** IP属地：山西上传时间：2026-05-07 格式：DOCX 页数：88 大小：2.26MB 积分：9.6 举报 版权申诉

CN112487182A 文本处理模型的训练方法、文本处理方法及装置（华为技术有限公司）_第2页

CN112487182A 文本处理模型的训练方法、文本处理方法及装置（华为技术有限公司）_第3页

CN112487182A 文本处理模型的训练方法、文本处理方法及装置（华为技术有限公司）_第4页

CN112487182A 文本处理模型的训练方法、文本处理方法及装置（华为技术有限公司）_第5页

已阅读5页，还剩83页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

本申请公开了人工智能领域中自然语言处师模型输出的样本数据与该学生模型输出的预样本数据包括该老师模型的中间层输出的样本据包括该学生模型的中间层输出的预测语义特2将所述训练文本分别输入老师模型与学生模型，得到所述老基于所述样本数据以及所述预测数据训练所述学生模型3.如权利要求1或2所述的训练方法，其特从所述老师模型包含的N个Transformer层中选择M个Transformer层，所述M个Transformer层中每一个Transformer层包含注意力机制模基于所述老师模型中M个Transformer层的第i个Transformer层输出的样本语义特征以及所述老师模型的第i个Transformer层包含的所述注意力机制模块中的注意力分数矩4.如权利要求1至3中任一项所述的训练方法，其特征在每一个训练文本包含标签信息，所述标签信息包括指示所述训练文本的分类结果的信息，3将所述掩盖文本输入预先训练的语言模型，通过贪婪算法和/或集束搜索算法得到所7.如权利要求1至6中任一项所述的训练方法，其将所述初始训练文本分别输入所述初始老师模型与初模型的中间层输出的初始样本语义特征与所述初始学生模型的中间层输出的初始预测语基于所述初始样本语义特征与所述初始预测语义特征训练所述初始学生模型的模型从所述初始老师模型包含的N个Transformer层中选择M个Transformer层，所述M个Transformer层中每一个Transformer层包含注意力机制模基于所述初始老师模型中M个Transformer层的第i个Transformer层输出的样本语义特征以及所述初始老师模型的第i个Transformer层包含的所述注意力机制模块中的注意其中，所述目标学生模型是基于样本数据与预测数据述样本数据包括所述老师模型的中间层输出的样本语义特征以及所述老师模型的输出层型的中间层包含M个Transformer层，所述M个Transformer层中每一个Transformer层包含师模型中M个Transformer层的第i个Transformer层输出的样本语义特征以及所述老师模4师模型中M个Transformer层是从所述老师模型的N个Transformer层中选择得到的，N为大所述分类结果包括所述训练文本的情感分类结果，或者所述训练文本的语义意图分类结将所述掩盖文本输入至所述预先训练的语言模型通过贪婪算法和/或集束搜索算法得到义特征是指将所述初始训练文本输入至所述初始老师模型得到的所述初始老师模型中间学生模型的中间层包含M个Transformer层，所述M个Transformer层中每一个Transformer所述初始老师模型中M个Transformer层的第i个Transformer层输出的样本语义特征以及所述初始老师模型的第i个Transformer层包含的所述注意力机制模块中的注意力分数矩所述待处理文本的情感分类结果、所述待处理文处理器，用于执行所述存储器存储的程序，当所述5处理器，用于执行所述存储器存储的程序，当所述6[0002]人工智能(artificialintelligence,AI)是利用数字计算机或者数字计算机控7的输出数据，从而避免了学生模型只学习老师模型输出层的输出数据导致的迁移效率较的输出数据，使得学生模型更加准确的学习老师模型的语义表征能力实现有效的知识迁层中选择M个Transformer层，所述M个Transformer层中每一个Transformer层包含注意力输出的样本语义特征以及所述老师模型的第i个Transformer层包含的所述注意力机制模[0016]在一种可能的实现方式中，老师模型包含的Transformer层数可以大于或等于学8师模型的语义表征能力实现有效的知识迁移，从而提高学生模型的文本处理结果的准确[0024]在本申请的实施例中，通过贪婪算法和/或集束搜索算法得到的替换文本是结合[0026]在本申请的实施例中，可以先采用一般性蒸馏过程基于大规模文本语料和9测语义特征训练所述初始学生模型的参数，包括：从所述初始老师模型包含的N个包含注意力机制模块和前向网络模块；基于所述初始老师模型中M个Transformer层的第i个Transformer层输出的样本语义特征以及所述初始老师模型的第i个Transformer层包含的所述注意力机制模块中的注意力分数矩阵训练所述初始学生模型的第i个Transformer层输出的样本语义特征与学生模型中间层输出的预测语义特征不断训练学生模型得到的；目标学生模型的输出层的模型参数可以是根据基于老师模型输出层输出的样本标签与学层包括M个Transformer层，所述M个Transformer层中每一个Transformer层包含注意力机老师模型中M个Transformer层的第i个Transformer层输出的样本语义特征以及所述老师老师模型中M个Transformer层是从所述老师模型的N个Transformer层中选择得到的，N为师模型的语义表征能力实现有效的知识迁移，从而提高学生模型的文本处理结果的准确述掩盖文本输入至所述预先训练的语言模型通过[0046]在本申请的实施例中，通过贪婪算法和/或集束搜索算法得到的替换文本是结合测语义特征是指将所述初始训练文本输入至所述初始学生模型得到的所述初始学生模型[0048]在本申请的实施例中，可以先采用一般性蒸馏过程基于大规模文本语料和生模型的中间层包含M个Transformer层，所述M个Transformer层中每一个Transformer层数是通过所述初始老师模型中第i个Transformer层输出的样本语义特征以及所述初始老师模型的第i个Transformer层包含的所述注意力机制模块中的注意力分数矩阵训练得到包括所述学生模型的中间层输出的预测语义特征以及所述学生模型的输出层输出的预测层中选择M个Transformer层，所述M个Transformer层中每一个Transformer层包含注意力输出的样本语义特征以及所述老师模型的第i个Transformer层包含的所述注意力机制模输入预先训练的语言模型，通过贪婪算法和/或集束搜索算法得到所述第一文本的替换文型的中间层输出的初始样本语义特征与所述初始学生模型的中间层输出的初始预测语义样本语义特征与所述初始预测语义特征训练所述初始学生模型的参数，得到所述学生模中包含的N个Transformer层选择M个Transformer层，所述M个Transformer层中每一个Transformer层包含注意力机制模块和前向网络模块；基于所述初始老师模型中M个Transformer层的第i个Transformer层输出的样本语义特征以及所述初始老师模型的第i个Transformer层包含的所述注意力机制模块中的注意力分数矩阵训练所述初始学生模型述样本数据包括所述老师模型的中间层输出的样本语义特征以及所述老师模型的输出层层包含M个Transformer层，所述M个Transformer层中每一个Transformer层包含注意力机老师模型中中M个Transformer层的第i个Transformer层输出的样本语义特征以及所述老述老师模型中M个Transformer层是从所述老师模型的N个Transformer层中选择得到的，N述掩盖文本输入至所述预先训练的语言模型通过本语义特征是指将初始训练文本输入至初始老师模型得到的所述初始老师模型中间层的始学生模型的中间层包含M个Transformer层，所述M个Transformer层中每一个Transformer层包含注意力机制模块和前向网络模块，所述初始学生模型的第i个Transformer层的模型参数是通过所述初始老师模型中中M个Transformer层的第i个Transformer层输出的样本语义特征以及所述初始老师模型的第i个Transformer层包含的[0079]需要说明的是，上述计算机程序代码可以全部或者部分存储执行第二方面或者第二方面中的任意一种实现[0105]图1示出了一种自然语言处理系统，该自然语言处理系统包括用户设备以及数据[0115]上述图1和图2中的用户设备具体可以是图3中的本地设备130或者本地设备120，[0116]图1和图2中的处理器可以通过神经网络模型或者其它模型进行数据训练/机器学[0119]神经网络可以是由神经单元组成的，神经单元可以是指以xs和截距1为输入的运第2个神经元的线性系数定义为上标3代表系数W所在的层数，而下标对应的是输出的间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过续有其它任务可以在该模型的基础上进行特征抽取以提供包含丰富语义信息的token以及句子级的特征供下游任务使用，或者直接在预训练模块可以对得到的词表征做进一步的变换得到Transformer层最终的输出；除了两个重要设备220基于数据库230中维护的训练数据训练得到目标模型/规则201(即本申请实施例中数据与样本数据之间的差值满足预设条件(例如，学生模型输出的预测数据与老师模型输详细地描述训练设备220如何基于训练数将待处理文本通过相关预处理(可以采用预处理模块213和/或预处理模块214进行处理)后[0149]在本申请提供的实施例中，该目标模型/规则201是通过训练原始处理模型得到中的至少部分数据也可以用于执行设210对待处[0151]根据训练设备220训练得到的目标模型/规则201可以应用于不同的系统或设备[0153]预处理模块213和/或预处理模块214用于根据I/O接口212接收到的输入数据进行练好的。计算模块211可以用于根据上述目标模型/规则201对来自预处理模块213或者I/O[0155]在执行设备210对输入数据进行预处理，或者在执行设备210的计算模块211执行对不同的下游系统对应的目标模型/规则201生成对应的预处理模型，例如预处理模块213240也可以作为数据采集端，采集如图所示输入I/O接口212的输入数据及输出I/O接口212[0161]如图5所示，Transformer模型可以是由一个或者多个Transformer层堆叠构建的计算词与词之间的相关性获得相应的权重值，最终得到上下文相关的词表征，是Transformer结构中的核心部分；前向网络模块可以对得到的词表征做进一步的变换得到Transformer层最终的输出；除了两个重要模块外，还可以包括残差层和线性归一化[0162]示例性地，在本申请实施例中目标学生模型可以是采用Transformer结构的变换的双向编码器表示模型(bidirectionalencoderrepresentationfromtransformers，BERT)、一般化自回归预训练语言理解模型(generalizedautoregressivepretraining[0163]图6为本申请实施例提供的一种芯片的硬件结构，该芯片包括神经网络处理器该芯片也可以被设置在如图4所示的训练设备220中，用以完成训练设备220的训练工作并输出目标模型/规则201。如图5所示的Transformer模型中各层的算法均可在如图6所示的[0164]神经网络处理器NPU300作为协处理器挂载到主中央处理器(centralprocessing304控制运算电路303提取存储器(权重存储器或输入存储器)中的(localresponsenormaliza[0168]在一些实现种，向量计算单元能307将经处理的输出的向量存储到统一存储器[0171]统一存储器306用于存放输入数据以及输出数据。权重数据直接通过存储单元访至输入存储器301和/或统一存储器306、将外部存储器中的权重数据存入权重存储器302，[0173]与控制器304连接的取指存储器309(instructionfetchbuffer)用于存储控制率同步动态随机存储器(doubledataratesynchronousdynamicrandomaccess[0175]其中，图5所示的Transformer模型中各层的运算可以由运算电路303或向量计算[0176]上文中介绍的图4中的执行设备210能够执行本申请实施例文本处理模型的训练[0178]有鉴于此，在本申请的实施例提供了一种文本处理模型的训练方法(即文本处理模型的知识蒸馏方法)，可以通过使学生模型不断学习老师模型的中间层与输出层的输出习老师模型的语义表征实现有效的知识迁移，从而提高学生模型的文本处理结果的准确第二个saw是名词，所以需要文本序列标注模型学习整个输入文本的含义才能得到正确的能电视、笔记本电脑(laptopcomputer，LC)、个人数字助理(personaldigital本处理模型的训练方法可以由训练装置执行，该训练装置具体可以是图1中的数据处理设[0192]应理解，图8所示的文本处理模型的训练方法可以是用于预训练语言模型的知识中间输出数据，输出层输出的样本标签或者预测标签可以是指处理文本时输出的处理结[0202]需要说明的是，老师模型是指通过大量训练文本训练得到的预先训练的语言模[0203]上述老师模型的中间层可以是指老师模型中除了输入层与输出层之外的任意一语义特征，训练学生模型的中间层可以是指通过样本语义特征与预测语义特征之间的差包括：从所述老师模型包含的N个Transformer层中选择M个Transformer层，所述M个师模型中第i个Transformer层输出的样本语义特征以及所述第i个Transformer层包含的所述注意力机制模块中的注意力分数矩阵训练所述学生模型的第i个Transformer层，i为馏)的示意图。如图9所示，老师模型可以包含N个Transformer层，学生模型可以包含M个对老师模型的任意一层Transformer层进行拟合时可型中的每一个Transformer层拟合老师模型中[0214]在一种可能的实现方式中，可以通过一个映射函数f(*)从老师模型中选取M个则学生模型中的第一个Transformer层可以对老师模型中的第一个Transformer层进行输出数据的拟合；学生模型中的第二个Transformer层可以对老师模型中的第五个中的第九个Transformer层进行输出数据的拟合，即学生模型可以通过等间隔从老师模型[0218]其中，基于Transformer层的知识蒸馏可以包括注意力分数矩阵拟合和输出表征Transformer层的注意力分数矩阵，表示老师模型中第f(Si)个Transformer层的注意对模型输出的预测值进行拟合学习：选择在验证文本集上表现最好或者文本翻译标签信息中的任意一项，所述分类结果包括所述训练文本的情感分类结果，[0252]示例性地，将掩盖文本输入至预训练语言模型可以采用贪婪算法和/或集束搜索[0268]在本申请的实施例中，通过采用不同分类应用的训练文本以及Transformer层的型中Transformer层针对特定任务的注意力分数矩阵与该层的输出表征，由于注意力分数效地迁移大模型的语义知识以此提升学生模型针对特定任务[0274]基于所述初始样本语义特征与所述初始预测语义特征训练所述初始学生模型的[0275]示例性地，所述初始老师模型与所述初始学生模型可以为转换器Transformer模型，所述初始老师模型的中间层包含N个Transformer层，所述初始学生模型包含M个Transformer层，所述基于所述初始样本语义特征与所述初始预测语义特征训练所述初始[0276]从所述初始老师模型包含的N个Transformer层中选择M个Transformer层，所述M个Transformer层中每一个Transformer层包含注意力[0277]基于所述初始老师模型中M个Transformer层的第i个Transformer层输出的样本语义特征以及所述第i个Transformer层包含的所述注意力机制模块中的注意力分数矩阵[0282]需要说明的是，一般性蒸馏算法和特定任务蒸馏算法可以具法可以使得初始学生模型进一步集中学习老师模型针对特定任务的大规模文本语料和Transformer层的蒸馏算法，进行一般性知识蒸馏得到小型化预训练语中的用户设备，也可以是图3中的执行设备110或者本地设备，也可以是图4中的执行设备[0287]步骤820、将所述待处理文本输入目标学生模型，得到所述待处理文本的处理结样本数据包括所述老师模型的中间层输出的样本语义特征以及所述老师模型的输出层输[0292]需要说明的是，本申请实施例提供的目标学生模型同样适用于上述图8至图14中型，所述老师模型的中间层包含N个Transformer层，所述学生模型的中间层包含M个M个Transformer层的第i个Transformer层输出的样本语义特征以及所述老师模型的第i个个Transformer层是从所述老师模型的N个Transformer层中选择得到的，N为大于或等于M标签或者文本翻译的标签中的任意一项，所述分类结果包括所述训练文本的情感分类结测语义特征是指将所述初始训练文本输入至所述初始学生模型得到的所述初始学生模型[0301]可选地，在一个实施例中，所述初始老师模型与所述初始学生模型为转换器的中间层包含M个Transformer层，所述M个Transformer层中每一个Transformer层包含注过所述初始老师模型中M个Transformer层的第i个Transformer层输出的样本语义特征以及所述初始老师模型的第i个Transformer层包含的所述注意力机制模块中的注意力分数[0304]上文结合图1至图15，详细描述了本申请实施例文本处理模型的训练方法以及文例中的文本处理模型的训练装置可以执行前述本申请实施例中的文本处理模型的训练方型，所述老师模型的中间层包含N个Transformer层，所述学生模型的中间层包含M个[0310]从所述老师模型包含的N个Transformer层中选择M个Transformer层，所述M个Transformer层中每一个Transformer层包含注意力机制模[0311]基于所述老师模型中M个Transformer层的第i个Transformer层输出的样本语义特征以及所述老师模型的第i个Transformer层包含的所述注意力机制模块中的注意力分[0321]将所述掩盖文本输入预先训练的语言模型，通过贪婪算法和/或集束搜索算法得[0323]所述处理单元920，还用于将所述初始训练文本分别输入至初始老师模型与初始[0324]可选地，作为一个实施例，所述初始老师模型与所述初始学生模型为转换器N个Transformer层中选择M个Transformer层，所述M个Transformer层中每一个Transformer层包含注意力机制模块和前向网[0325]基于所述初始老师模型中M个Transformer层的第i个Transformer层输出的样本语义特征以及所述初始老师模型的第i个Transformer层包含的所述注意力机制模块中的注意力分数矩阵训练所述初始学生模型的第i个Transformer层，i为小于或等于M的正整数据包括所述学生模型的中间层输出的预测语义特征以及所述学生模型的输出层输出的型，所述老师模型的中间层包含N个Transformer层，所述学生模型的中间层包含M个向网络模块，所述目标学生模型的第i个Transformer层是基于所述老师模型中M个Transformer层的第i个Transformer层输出的样本语义特征以及所述老师模型的第i个个Transformer层是从所述老师模型的N个Transformer层中选

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN112487182A 文本处理模型的训练方法、文本处理方法及装置（华为技术有限公司）

文档简介

温馨提示

最新文档

评论

CN112487182A 文本处理模型的训练方法、文本处理方法及装置 （华为技术有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN112487182A 文本处理模型的训练方法、文本处理方法及装置（华为技术有限公司）