CN111401081B 神经网络机器翻译方法、模型及模型形成方法 (波音公司)_第1页
CN111401081B 神经网络机器翻译方法、模型及模型形成方法 (波音公司)_第2页
CN111401081B 神经网络机器翻译方法、模型及模型形成方法 (波音公司)_第3页
CN111401081B 神经网络机器翻译方法、模型及模型形成方法 (波音公司)_第4页
CN111401081B 神经网络机器翻译方法、模型及模型形成方法 (波音公司)_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(19)国家知识产权局(12)发明专利(10)授权公告号CN111401081B(21)申请号201811534845.3(22)申请日2018.12.14(65)同一申请的已公布的文献号申请公布号CN111401081A(43)申请公布日2020.07.10专利权人中国科学院自动化研究所杨里(74)专利代理机构北京康信知识产权代理有限责任公司11240专利代理师梁丽超王红艳(56)对比文件审查员曹俊杰权利要求书3页说明书18页附图8页(54)发明名称神经网络机器翻译方法、模型及模型形成方法(57)摘要本发明涉及神经网络机器翻译方法、模型及模型形成方法。形成神经网络机器翻译模型的方法包括:形成编码器,其包括第一多头注意力模型;形成解码器,其包括第二多头注意力模型和未来信息模型,未来信息模型表示当前预测单词表示的融合;通过编码器和解码器形成第一机器翻译模型;以及对第一机器翻译模型进行对源语言序列从左至右和从右至左的解码训练,以形成神经网络机器翻译模型,其中,第一多头注意力模型和未来信息模型为第二多头注意力模型提HhiscoryVHfuiure2形成解码器,所述解码器包括第二多头注意力模型和未来信息模型,所述未来信息模型表示当前预测单词和已经生成单词的第一注意力隐层表示和当前预测单词和未来可能对所述第一机器翻译模型进行对源语言序列从左至右和从右至其中,所述第一多头注意力模型和所述未来信息模型为所述第二多头注意力模型提供利用点积注意力机制计算当前预测单词和已经生成单词的第一注意力隐层表示:r=Attention◎,K,,其中,m⁰0>表示第一注意力隐层表示,豆表示当前时刻的利用点积注意力机制计算所述当前预测单词和未来可能的单词的第二注意力隐层表示:=Attention◎,K,V,其中,表示第二注意力隐层表示,K表示未来的隐将所述第一注意力隐层表示和所述第二注意力隐层表示融合以形成融合注意力隐层对所述点积注意力模型设置线性变换模型,以通过线性变换将所述点积注意力模型的对所述点积注意力模型设置连接模型,以将所述向量经由所述通过所述点积注意力模型、所述线性变换模型和所述连接模型形成所述未来信息模对所述点积注意力模型设置线性变换模型,以通过线性变换将所述点积注意力模型的对所述点积注意力模型设置连接模型,以将所述向量经由所述通过所述点积注意力模型、所述线性变换模型和所述连接模型形成所述第一多头注意3利用门限机制,将所述第一注意力隐层表示和所述第二注解码器,所述解码器包括第二多头注意力模型和未来信息模型示当前预测单词和已经生成单词的第一注意力隐层表示和当前预测单词和未来可能的单其中,所述第一多头注意力模型和所述未来信息模型为所述第二多头注意力模型提供线性变换模型,连接至所述点积注意力模型且被配置为通过线性变换将所述点积注意连接模型,连接至所述点积注意力模型且被配置为将所述向量经由所述点积注意力模利用点积注意力机制计算当前预测单词和已经生成单词的第一注意力隐层表示:Ho=Attention(@,K,7),其中,Q表示当前时刻的隐层状态查询值,K表示历层状态键值(key),V表示历史的隐层状态实值,Attention()为点积注意力机制的数学函利用点积注意力机制计算所述当前预测单词和未来可能的单词的第二注意力隐层表将所述第一注意力隐层表示和所述第二注意力隐层表示融合以形成融合注意力隐层线性变换模型,连接至所述点积注意力模型且被配置为通过线性变换将所述点积注意4力模型的输入映射为多组预定维度的向量;以及连接模型,连接至所述点积注意力模型且被配置为将所述向量经由所述点积注意力模型处理后所得的向量进行连接。6.根据权利要求4所述的神经网络机器翻译模型,其特征在于,将所述第一注意力隐层表示和所述第二注意力隐层表示融合以形成融合注意力隐层表示包括:利用门限机制,将所述第一注意力隐层表示和所述第二注意力隐层表示融合为融合注意力隐层表示:接收源语言序列,由第一多头注意力模型利用多头注意力机制对所述源语言序列进行处理,以获得所述源语言序列的隐层向量表示;对所述源语言序列的隐层向量表示进行矩阵变换,以获得所述源语言序列的相应键K将所述键K和所述值V输入至第二多头注意力模型;通过未来信息模型获取当前预测单词和已经生成单词的第一注意力隐层表示和当前预测单词和未来可能的单词的第二注意力隐层表示的融合注意力隐层向量表示,所述未来信息模型表示当前预测单词和已经生成单词的第一注意力隐层表示和当前预测单词和未来可能的单词的第二注意力隐层表示的融合;根据所述融合注意力隐层向量表示获取目标语言序列的查询Q;将所述查询Q输入至所述第二多头注意力模型;由所述第二多头注意力模型根据所述键K、所述值V和所述查询Q确定目标语言单词为生成各单词概率最高的文本序列作为翻译结果的目标语言序列。8.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制包括所述存储介质的设备执行权利要求1至3中任意一项所述的方法。5神经网络机器翻译方法、模型及模型形成方法[0002]机器翻译是指利用计算机将一种自然语言翻译成另一种具有相同语义的自然语例的机器翻译(ExamplebasedMachineTranslation,EBMT)、基于统计的机器翻译(StatisticalbasedMachineTranslation,SMT)以及近年流行的利用深度学习模型所构建的神经网络机器翻译(NeuralMachineTranslation,NMT)。[0003]神经网络机器翻译是指直接采用神经网络以端到端(End-to-End)方式进行翻译[0005]神经网络机器翻译的基本思想是通过神经网络直接实现自然语言之间的自动翻网络。例如编码器可以是卷积神经网络(ConvolutionalNeuralNetwork),解码器可以是Short-TermMemory)引入端到端神经机器翻译。[0006]图1是相关技术中神经网络机器翻译“编码器-解码器”框架的示意图。以图1为经网络将源语言句子向量反向解码成目标语言英文句子“Thisisthesecretof将目标语言端所使用的循环神经网络称为解码器。[0007]相比于传统的统计机器翻译,基于编码器-解码器框架的神经机器翻译具有直接6对实现准确的编码提出了极大的挑战。[0009]针对编码器生成定长向量的问题,人们提出了基于注意力机制(Attention以为每个目标语言词动态生成源语言端的相关上下文向量,而不是采用表示整个源语言[0010]图2是相关技术中基于注意力机制的神经网络机器翻译的框架的示意图。如图2句子X={x₁,x₂,...,x},双向循环神经网络编码器将句子X编码为一个源语言隐式状态序列H={h₁,h₂,...,h},其中前向循环神经网络顺序读入句子X后产生源语言正向隐式状态序列H={h₁,h₂,…,hn}。正向和逆向隐式状态序列中位置对应的状态序列拼接形成[0011]在解码时刻t,解码器分别产生该时刻的目标语言隐式状态和目标语言单词。言单词yt-1和t时刻上下文向量c所决定:[0015]这里注意力模型的权重a,;由t-1时刻目标语言隐式状态s和源语言隐式状态序[0018]其中f为非线性函数,通常采用前馈神经网络或点积。权重a,可以理解为源语言[0019]在取得目标语言隐式状态st后,模型通过softmax函数估计t时刻目标语言单词7[0021]神经网络机器翻译模型的训练目标函数为平行语料上翻译句对的对数似然函数[0023]D表示平行句对的集合,模型参数θ可通过随机梯度下降法(SGD)、Adam或列信息,而无法获得未翻译单词序列的信息。即现有神经网络机器翻译中的未来信息[0026]根据本发明实施例的一个方面,提供了一种形成神经网络机器翻译模型的方法意力模型和未来信息模型,未来信息模型表示当前预测单词和已经生成单词的第一注意力隐层表示和当前预测单词和未来可能的单词的第二注意力隐层表示的融合;通过编码[0027]通过在神经网络机器翻译模型的解码器中设置表示当前预测单词和已经生成单词的第一注意力隐层表示和当前预测单词和未来可能的单词的第二注意力隐层表示的融合的未来信息模型,并对机器翻译模型进行源语言序列从左至右和从右至左的解码训练,使得所得的神经网络机器翻译模型不仅能够利用当前预测单词之前的已生成单词的历史[0028]在形成神经网络机器翻译模型的方法的一个示意性的实施方式中,形成编码器意力模型的输入映射为多组预定维度的向量;对点[0029]通过形成多头注意力模型,神经网络机器翻译模型可以学习到不同子空间中的[0030]在形成神经网络机器翻译模型的方法的一个示意性的实施方式中,形成解码器8表示第一注意力隐层表示,Q表示当前时刻的隐层状态查询值,K表示历史的隐层状态键值,表示历史的隐层状态实值,Attention()为点积注意力机制的数学函数表示;利用点积注意力机制计算当前预测单词和未来可能的单词的第二注意力隐层表示:,其中,Hru表示第二注意力隐层表示,K表示未来的隐层意力模型设置线性变换模型,以通过线性变换将点积注意力模型的输入映射为多组预定[0031]在形成神经网络机器翻译模型的方法的一个示意性的实施方式中,将第一注意力隐层表示和第二注意力隐层表示融合以形成融合注意力隐层表示包括:利用门限机制,将第一注意力隐层表示和第二注意力隐层表示融合为融合注意力隐层表示:其中,H表示融合注意[0032]通过将表示当前预测单词和已经生成单词的第一注意力隐层表示和当前预测单词和未来可能的单词的第二注意力隐层表示融合来形成未来信息模型,神经网络机器翻译模型可以获取当前预测单词之前的已生成单词的历史信息和当前预测单词之后的未来模型和未来信息模型,未来信息模型表示当前预测单词和已经生成单词的第一注意力隐注意力模型和未来信息模型为所述第二多头注意力模型提供输入,神经网络机器翻译模[0034]通过在神经网络机器翻译模型的解码器中设置表示当前预测单词和已经生成单词的第一注意力隐层表示和当前预测单词和未来可能的单词的第二注意力隐层表示的融合的未来信息模型,并对机器翻译模型进行了对源语言序列从左至右和从右至左的解码训练,使得神经网络机器翻译模型不仅能够利用当前预测单词之前的已生成单词的历史9模型且被配置为通过线性变换将点积注意力模型的输入映射为多组预定维度的向量;以及连接模型,连接至点积注意力模型且被配置为将向量经由所述点积注意力模型处理后[0036]通过多头注意力模型,神经网络机器翻译模型可以学习到不同子空间中的相关下步骤形成:利用点积注意力机制计算当前预测单词和已经生成单词的第一注意力隐层史的隐层状态键值(key),V表示历史的隐层状态实值,Attention()为点积注意力机制的数学函数表示;利用点积注意力机制计算当前预测单词和未来可能的单词的第二注意的隐层状态实值;将第一注意力隐层表示和第二注意力隐层表示融合以形成融合注意力[0038]在神经网络机器翻译模型的一个示例性实施方式中,将第一注意力隐层表示和隐层表示和第二注意力隐层表示融合为融合注意力隐层表示:[0039]通过将表示当前预测单词和已经生成单词的第一注意力隐层表示和当前预测单词和未来可能的单词的第二注意力隐层表示融合来形成未来信息模型,神经网络机器翻译模型可以获取当前预测单词之前的已生成单词的历史信息和当前预测单词之后的未来测单词和已经生成单词的第一注意力隐层表示和当前预测单词和未来可能的单词的第二注意力隐层表示的融合注意力隐层向量表示,未来信息模型表示当前预测单词和已经生成单词的第一注意力隐层表示和当前预测单词和未来可能的单词的第二注意力隐层表示的融合;根据融合注意力隐层向量表示获取目标语言序列的查询Q;将查询Q输入至第二多测单词的概率;以及生成各单词概率最高的文本序列作为为翻译结果的目标语言序列。[0041]通过将当前预测单词和已经生成单词的第一注意力隐层表示和当前预测单词和未来可能的单词的第二注意力隐层表示的融合,可以获取当前预测单词之前的已生成单词的历史信息和当前预测单词之后的未来可能单词的未来信息,利用通过利用所得的历史信息和未来信息,可以使得机器翻译的结果更准确。另外,由于利用了当前预测单词之后的未来可能单词的未来信息,可以有效改善机器翻译的漏译现象。[0042]根据本发明实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制包括存储介质的设备执行上述形成神经网络机器翻译模型的方法。附图说明[0043]此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:[0044]图1是相关技术中神经网络机器翻译“编码器-解码器”框架的示意图;[0045]图2是相关技术中基于注意力机制的神经网络机器翻译的框架的示意图;[0046]图3示出了点积注意力机制的示意图;[0047]图4示出了多头注意力机制的示意图;[0048]图5示出了根据本发明实施例的形成神经网络机器翻译模型的方法的流程图;[0049]图6示出了根据本发明实施例的形成融合注意力隐层表示的示意图;[0050]图7示出了根据本发明实施例的神经网络机器翻译模型的框图;[0051]图8示出了根据本发明实施例的神经网络机器翻译模型的内部构架图;[0052]图9为根据本发明实施例的以时间顺序示出的解码器的输入示例和输出示例。具体实施方式[0053]为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。[0054]需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块或单[0055]为便于下文对本发明技术方案的描述,首先对几个基本的概念进行描述。[0056]点积注意力机制(ScaledDot-ProductAttention)[0057]Attention函数的作用是将查询(query)以及一个键-值(key-value)对的集合映射到输出(output)上。这里的查询(query)、键(key)、值(value)和输出(output)都是向量。最终的输出(output)则是值(value)的加权和,而这些权重是查询(query)和对应键[0058]图3示出了点积注意力机制的示意图。如图3所示,点积注意力机制的操作步骤为:首先计算query(Q)和所有key(K)的内积,然后除以√dk,(dk为键的维度),并使用[0062]图4示出了多头注意力机制的示意图。如图4所示,首先使用线性变换将查询(query),键(key)和值(value)分别映射为h组维度为dk,dk,d的向量。在这h组查询(query)、键(key)、值(value)向量上,分别执行点积注意力机制(ScaledDot-Product[0064]其中,headi=Attention(Qw°,KWK,VW)[0065]其中W⁰,w,W为模型参数,h等于8,d=d,=512/8=64。[0067]根据本发明实施例,提供了一种形成神经网络机器翻译模型的方法。图5示出了根据本发明实施例的形成神经网络机器翻译模型的方法的流程图。参见图5,根据本发明[0070]利用如图3所示的点积注意力机制形成点积注意力模型,然后对点积注意力模型力机制的头数h为8,隐层表示的维度为512,则可以通过线性变换模型对点积注意力模型[0072]对点积注意力模型设置连接模型,通过连接模型可以对上述通过点积注意力机[0073]上述点积注意力模型、线性变换模型以及连接模型即构成了第一多头注意力模[0074]作为一个实例,可以对上述第一多头注意力模型进一步设置另一线性变换模[0075]第一多头注意力模型具体可以通过图4所示的多头注意力机制实现,其可以是通过多头注意力机制实现的多头内部注意力(multi-head[0077]作为一个实例,可以对第一多头注意力模型和前馈神经网络进行残差连接和层级规范化处理。[0079]S504:形成解码器,解码器包括第二多头注意力模型和未来信息模型,未来信息模型表示当前预测单词和已经生成单词的第一注意力隐层表示和当前预测单词和未来可[0083]如图6的左半部分所示,利用点积注意力机制计算当前预测单词和已经生成单词表示历史的隐层状态键值,V表示历史的隐层状[0088]如图6的右半部分所示,利用点积注意力机制计算当前预测单词和未来可能的单[0091]如图6所示,利用门限机制将上面两个注意力隐层表示进行融合,该步骤的作用是将当前预测单词之前单词的历史信息和当前预测单词之后的未来信息进行融合,所得[0094]其中,H₁表示所述融合注意力隐层表示,r表示重置门,z表示更新门,W⁸为模型将公式(1)到公式(5)统称为FutureAtt函数。[0095]需要注意的是,这里的正向箭头表示源语言序列从左到右解码(left-to-rightdecoding)的序列隐层状态,反向箭头表示源语言序列从右到左解码(right-to-leftdecoding)的序列隐层状态。对于左到右解码(left-to-rightdecoding)来说,当前时刻之前产生的单词序列即历史信息,从右到左解码产生的序列即未来信息。[0096](2)利用融合注意力隐层表示的机制形成点积注意力模型。[0097](3)对在步骤(2)中获得的点积注意力模型设置线性变换模型,可以通过线性变换将点积注意力模型的输入映射为多组预定维度的向量。[0098](4)对在步骤(2)中获得的点积注意力模型设置连接模型,可以通过连接模型将经过线性变换之后的向量经由点积注意力模型处理后所得的向量进行连接。[0099]未来信息模型可以具体地通过以下机制来实现:[0103]上述利用融合注意力隐层表示形成的点积注意力模型、线性变换模型以及连接模型即构成了未来信息模型。[0104]可选地,可以对上述未来信息模型进一步设置另一线性变换模型,以对经由连接处理所得的向量进行线性变换。[0105]形成解码器还包括形成第二多头注意力模型,该第二多头注意力模型的结构和第一多头注意力模型的结构相同,这里不再赘述其形成过程。第二多头注意力模型可以是通过多头注意力机制实现的多头外部注意力(multi-head-inter-attention)模型。其中,第一多头注意力模型和未来信息模型为第二多头注意力模型提供输入。[0106]形成解码器还包括形成前馈神经网络,前馈神经网络与第二多头注意力模型进行全连接。[0107]可选地,可以对第二多头注意力模型、未来信息模型和前馈神经网络进行残差连接和层级规范化处理。[0108]S506:通过编码器和解码器形成第一机器翻译模型。[0109]第一机器翻译模型包括通过上述步骤形成的编码器和解码器。[0110]S508:对第一机器翻译模型进行对源语言序列从左至右和从右至左的解码训练,以形成神经网络机器翻译模型。[0111]具体地,采用极大似然目标函数,使用梯度下降法对第一机器翻译模型进行参数训练。对第一机器翻译模型进行训练的训练目标函数为平行语料上翻译句对的对数似然[0113]D表示平行句对的集合,模型参数θ可通过随机梯度下降法(SGD)、Adam或向的"Thisisthesecretofsuccess”,另一种为反向的“successofthethis”,在训练模型时,在语料中加入从左至右(12r)引导模型可以对例如中文源语言序列“这是成功的秘诀”进行“Thisisthesecretof[0115]作为一个实例,形成神经网络机器翻译模型的方法还可以包括在编码器的输入[0116]作为一个实例,形成神经网络机器翻译模型的方法还可以包括在解码器中未来的目标语言序列转换成对应的词语向量,位置编码层用于对目标语言序列中的各个词语向量被输入到未来信息模型中。[0117]作为一个实例,形成神经网络机器翻译模型的方法还可以包括在解码器的输出侧设置线性变换层和归一化层,其中,线性变换层用于对解码器的输出结果进行线性变一多头注意力模型的第一子层、包含前馈神经网络的第二子层以及包含未来信息模型的[0119]根据本发明的实施例,还提供了一种神经网络机器翻译模型。图7示出了根据本发明实施例的神经网络机器翻译模型的框图。图8示出了根据本发明实施例的神经网络机其他数量。下面结合图7和图8对根据本发明实施例的神经网络机器翻译模型进行描述。[0121]编码器702包括:第一多头注意力模型7022机制实现;以及与第一多头注意力模型7022连接的前馈神经网络7024,其由图8左侧编码[0122]解码器704包括:未来信息模型7042,其由图8右侧解码层中的未来信息模型实型的步骤而形成,该未来信息模型7042接收当前预测单词之前的已经生成单词的历史信形成处理结果;与未来信息模型7042和编码器702中的前馈神经网络7024连接的第二多头注意力模型7044,其由图8右侧解码层中的多头注意力机制实现,该第二多头注意力模型7044从前馈神经网络7024和未来信息模型7042接收输入;以及与第二多头注意力模型头注意力模型可以是通过多头注意力机制实现的多头外部注意力(multi-head-inter-明的实施例的神经网络机器翻译模型中的第一多头注意力模型7022、未来信息模型7042和第二多头注意力模型7044可通过图5所示的根据本发明实施例的形成神经网络机器翻[0124]如图7所示,根据本发明实施例的神经网络机器翻译模型7还可以包括设置在编码器的输入端的嵌入模型706和位置编码模型708,其分别由图8左侧编码层输入端处的嵌[0125]根据本发明实施例的神经网络机器翻译模型7还可以包括设置在解码器的输入端的嵌入模型710和位置编码模型712,其分别由图8右侧解码层输入端处的嵌入层和位置[0126]根据本发明实施例的神经网络机器翻译模型7还可以包括设置在解码器的输出侧处的线性变换模型714和归一化模型716,其分别由图8右侧解码层输出处的线性变化层一多头注意力模型7022的第一子层和包含前馈神经网络7024的第二子层。作为一个实例,二多头注意力模型7044的第一子层、包含前馈神经网络7046的第二子层以及包含未来信合图8,对根据发明实施例的神经网络机器翻译方法进行具体描述。[0130]如图8所示,在编码器的输入侧接收源语言序列的输入,利用嵌入层(图8中为输入嵌入)将源语言序列中的各词语通过矩阵变换形成对应的词语向量,利用位置编码层对源语言序列中的各词语的位置进行编码以形成相应的位置向量,将上述所得位置向量加[0131]将所获取的源语言序列的第一隐层向量表示进行矩阵变换,得到源语言序列相头注意力模型利用多头注意力机制对Q、K和V进行处理后,得到源语言序列的第二隐层向示和第二隐层向量相加做归一化处理,以对模型进行优化。[0133]利用前馈神经网络对经过残差连接和层级规范化处理的第二隐层向量表示进行非线性变换,得到第三隐层向量表示。[0134]对第三隐层向量表示进行残差连接和层级规范化处理,例如,将经过残差连接和层级规范化处理的第二隐层向量表示和第三隐层向量表示相加做归一化处理,以进一步对模型进行优化。[0135]对经过残差连接和层级规范化处理的第三隐层向量进行矩阵变换,以获得源语言序列的经过上述处理之后的处理的K和V。[0136]将上述处理的K和V输入至第二多头注意力模型。[0137]在解码器的输入侧接收相对于从解码器的输出侧输出的目标语言序列进行了移位的目标语言序列的输入,这里的目标语言序列包括与源语言序列对应的正向目标语言序列和反相目标语言序列。[0138]图9为根据本发明实施例的以时间顺序示出的解码器的输入示例和输出示例,其表示为全零,<12r>和<r21>分别用来引导翻译方向从左至右(left-to-rightdecoding)和从右至左(right-to-rightdecoding),<eos>表示句子结束标志。[0140]以第三时刻为例,在解码器的输入侧输入的单词为“I”和“.”,在解码器的输出侧序列的在该解码单词的前一时刻正向和反向解码输出的目标语言单词。[0141]将在解码器输入侧接收的目标语言序列利用嵌入层(图8中为输出嵌入)通过矩阵变换形成对应的词语向量,利用位置编码器对所接收的目标语言序列中的各词语的位置进行编码以形成相应的位置向量,将所得的位置向量加入到词语向量中,使得词语向量具有位置信息,从具有位置信息的该词语向量获取目标语言序列的第一隐层表示。[0142]将所获取的目标语言序列的第一隐层表示进行矩阵变换,得到目标语言序列相应的原始查询(Q)、键(K)和值(V),将原始Q、K和V输入到未来信息模型中。未来信息模型在前文中已有介绍,这里将不再赘述。[0143]未来信息模型对输入的Q、K和V进行处理,得到目标语言序列的第二隐层向量表[0144]对目标语言序列的第二隐层向量表示进行残差连接和层级规范化处理,例如,将目标语言序列的第一隐层向量表示和第二隐层向量表示相加做归一化处理,以对模型进行优化。[0145]对经过残差连接和层级规范化处理的目标语言序列的第二隐层向量进行矩阵变换,以获得目标语言序列的经过上述处理之后的处理的Q。[0146]将上述处理的Q输入至第二多头注意力模型。[0147]第二多头注意力模型利用多头注意力机制对从解码器输入的源语言序列的K、V和从未来信息模型输入的目标语言序列的Q进行处理,得到第四隐层向量表示。[0148]对第四隐层向量表示进行残差连接和层级规范化处理,例如,将来自未来信息模型的经过残差连接和层级规范化处理的第二隐层向量表示与第四隐层向量表示相加做归一化处理,以进一步对模型进行优化。[0149]利用前馈神经网络对经过残差连接和层级规范化处理的第四隐层向量表示进行非线性变换,得到第五隐层向量表示。[0150]对第五隐层向量表示进行残差连接和层级规范化处理,例如,将经过残差连接和层级规范化处理的第四隐层向量表示和第五隐层向量表示相加做归一化处理,以进一步对模型进行优化。[0151]将经过残差连接和层级规范化处理的第五隐层向量表示进行线性处理,并利用Softmax函数计算得到当前单词的预测概率。[0152]生成各单词概率最高的文本序列作为为翻译结果的目标语言序列。[0153]在本文中,前馈神经网络的作用是对模型隐层向量表示进行非线性变换,其计算方式如下:[0155]这里W₁,W₂,b₁,b₂为模型参数。[0156]在根据本发明实施例的神经网络机器翻译方法中,以三种方式使用多头注意力机制:(i)编码器-解码器注意力层,即图7中的第二多头注意力模型,其中,输入至第二多头注意力模型的查询Q来自于解码器中利用融合多头注意力机制形成的未来信息模型,输入至第二多头注意力模型的键K和值V来自于编码器的输出;(2)编码器层单独使用第一多头注意力模型,输入至第一多头注意力模型的查询Q、键K和值V都来自于编码器上一层的输入;(3)解码器层使用未来信息模型,输入至未来信息模型查询Q、键K和值V都来自于解码器上一层的输入。[0158]发明人对根据本发明实施方式的神经网络机器翻译模型进行了实验,在实验中,从语言数据联盟(LinguisticDataConsortium)发布的中-英训练数据中抽取200万对齐句对作为中英训练语料,使用机器翻译评测(NISTMTEvaluation)中从2003年至2006年的所有测试集MT03-MT06作为开发集和测试集。其中,MT03作为开发集。在对比实验中,使用大小写不敏感的BLEU-4作为评测指标。[0159]表1给出了本发明与标准深层神经机器翻译系统和统计机器翻译系统在4组测试方法[0162]可以看到,融入未来信息后,本发明在机器自动给出的评价指标(BLEU)上相比于了人工评测,结果显示融入未来信息后,模型的漏翻错误率降低了30.6%,极大地改善了在程序运行时控制包括存储介质的设备执行上述形成神经网络机器翻译模型的方法或执行时执行上述形成神经网络机器翻译模型的方法或执行神经网络机器翻译方法。置为由一个或多个处理器执行,以使电子设备执行上述形成神经网络机器翻译模型的方法或执行神经网络机器翻译方法。息模型表示当前预测单词和已经生成单词的第一注意力隐层表示和当前预测单词和未来[0171]对所述第一机器翻译模型进行对源语言序列从左至右和从右至左的解码训练,[0172]其中,所述第一多头注意力模型和所述未来信息模型为所述第二多头注意力模型提供输入。[0173]项2.根项1所述的方法,其特征在于,形成所述编码器包括形成所述第一多头注[0175]对所述点积注意力模型设置线性变换模型,以通过线性变换将所述点积注意力[0176]对所述点积注意力模型设置连接模型,以将所述向量经由所述点积注意力模型[0177]通过所述点积注意力模型、所述线性变换模型和所述连接模型形成所述第一多[0178]项3.根据项1所述的方法,其特征在于,形成所述解码器包括形成所述未来信息[0179]利用点积注意力机制计算当前预测单词和已经生成单词的第一注意力隐层表刻的隐层状态查询值,K表示历史的隐层状态键值,表示历史的隐层状态实值,Attention()为点积注意力机制的数学函数表示;[0180]利用点积注意力机制计算所述当前预测单词和未来可能的单词的第二注意力隐[0181]将所述第一注意力隐层表示和所述第二注意力隐层表示融合以形成融合注意力隐层表示;[0183]对所述点积注意力模型设置线性变换模型,以通过线性变换将所述点积注意力[0184]对所述点积注意力模型设置连接模型,以将所述向量经由所述点积注意力模型[0185]通过所述点积注意力模型、所述线性变换模型和所述连接模型形成所述未来信[0186]项4.根据项3所述的方法,其特征在于,将所述第一注意力隐层表示和所述第二[0187]利用门限机制,将所述第一注意力隐层表示和所述第二注意力隐层表示融合为所述第一多头注意力模型的多个编码层,所述解码器包括每层均包含所述第二多头注意[0193]项7.根据项6所述的方法,其特征在于,所述编码器和所述解码器的每层还包括型表示当前预测单词和已经生成单词的第一注意力隐层表示和当前预测单词和未来可能[0197]其中,所述第一多头注意力模型和所述未来信息模型为所述第二多头注意力模型提供输入,所述神经网络机器翻译模型经过了对源语言序列从左至右和从右至左的解[0198]项9.根据项8所述的神经网络机器翻译模型,其特征在于,所述第一多头注意力[0200]线性变换模型,连接至所述点积注意力模型且被配置为通过线性变换将所述点[0201]连接模型,连接至所述点积注意力模型且被配置为将所述向量经由所述点积注[0204]线性变换模型,连接至所述点积注意力模型且被配置为通过线性变换将所述点[0205]连接模型,连接至所述点积注意力模型且被配置为将所述向量经由所述点积注[0207]利用点积注意力机制计算当前预测单词和已经生成单词的第一注意力隐层表的隐层状态键值(key),V表示历史的隐层状态实值,Attention()为点积注意力机制的[0208]利用点积注意力机制计算所述当前预测单词和未来可能的单词的第二注意力隐[0209]将所述第一注意力隐层表示和所述第二注意力隐层表示融合以形成融合注意力[0211]项11.根据项10所述的神经网络机器翻译模型,其特征在于,将所述第一注意力隐层表示和所述第二注意力隐层表示融合以形成融合注意力隐层表示包括:[0212]利用门限机制,将所述第一注意力隐层表示和所述第二注意力隐层表示融合为码器包括每层均包含所述第一多头注意力模型的多个层,所述解码器包括每层均包含所述第二多头注意力模型和所述未来信息模型的多个层。[0218]项14根据项13所述的神经网络机器翻译模型,其特征在于,所述编码器和所述解码器的每层还包括前馈神经网络。[0220]接收源语言序列,由第一多头注意力模型利用多头注意力机制对所述源语言序列进行处理,以获得所述源语言序列的隐层向量表示;[0221]对所述源语言序列的隐层向量表示进行矩阵变换,以获得所述源语言序列的相[0222]将所述键K和所述值V输入至第二多头注意力模型;[0223]通过未来信息模型获取当前预测单词和已经生成单词的第一注意力隐层表示和当前预测单词和未来可能的单词的第二注意力隐层表示的融合注意力隐层向量表示,所述未来信息模型表示当前预测单词和已经生成单词的第一注意力隐层表示和当前预测单词和未来可能的单词的第二注意力隐层表示的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论