融入句法信息的机器翻译研究_第1页
融入句法信息的机器翻译研究_第2页
融入句法信息的机器翻译研究_第3页
融入句法信息的机器翻译研究_第4页
融入句法信息的机器翻译研究_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、苏州大学本科生毕业设计(论文)目 录摘 要1Abstract2前 言4第1章绪 论6第1.1节研究背景及意义6第1.2节神经机器翻译系统概述7第1.3节句法信息概述8第1.4节本文的主要工作及创新点8第1.5节本文的组织结构9第2章神经机器翻译概述11第2.1节编码器-解码器模型11第2.2节基于RNN的神经机器翻译模型122.2.1循环神经网络(Recurrent Neural Networks,RNN)122.2.2基于RNN的神经机器翻译模型14第2.3节融入Attention机制的神经机器翻译模型14第2.4节机器翻译模型的评估标准16第3章融入句法信息的神经机器翻译模型17第3.1节

2、句法信息的处理173.1.1句法依存树的建立173.1.2依存信息的处理18第3.2节Transformer模型193.2.1模型方法193.2.1模型实现20第3.3节结合源端句法信息的Transformer模型22第4章实验评估26第4.1节评估标准26第4.2节实验背景26第4.3节实验结果26第5章总结与展望28第5.1节本文总结28第5.2节后续工作展望28参考文献29致 谢31II摘 要作为自然语言处理研究的重要领域之一,机器翻译尤其是神经机器翻译有着诱人的研究前景。神经机器翻译(Neural machine translation,NMT)是最近几年提出的一种新的机器翻译方法,它

3、使得使用简单的端到端的体系结构就能实现机器翻译成为可能。在神经机器翻译中,编码器-解码器(Encoder-Decoder)是最基础的框架模型,在机器翻译领域有着广阔的应用。在编码器-解码器模型中,编码器将输入的句子通过编码表示成固定长度的中间语义向量,解码器根据该中间语义向量和已经生成的句子信息来生成后续的翻译。近年来,为了提高翻译的性能,学术界提出了各式各样的编码器-解码器结构,融入注意力机制的机器翻译模型是其中最引人入胜的一种。注意力机制是对经典编码器-解码器框架的完善,该机制允许在不考虑输入和输出序列中的距离的情况下对依赖关系进行建模。加入注意力机制后的模型在解码时只关注源语言句子中的一

4、部分区域,从而增强长句子的表示能力,并通过动态地生成源语言信息,极大地提高了翻译性能,在神经机器翻译中有着举足轻重的地位。在基于注意力机制的神经机器翻译模型中,Transformer1是将注意力机制应用到极致的模型,Transformer模型通过自注意力机制捕获同一序列中任意两个词之间的语义依赖关系,极大的提高了神经机器翻译的性能。虽然Transformer模型的出现使得神经机器翻译的效果得到了飞跃,其模型中仍有很多方面有待改进,句法信息的缺失就是其中的一个方面。本文重点研究了在Transformer模型中融入源端的依存句法信息,并设计实验评估句法信息对其翻译效果的影响,实验结果显示改进后的模

5、型在nist数据集上平均提高了0.67 BLEU,表明源端句法依存信息的融入极大的提高了Transformer模型的翻译性能。关键词:机器翻译;依存树;句法信息;神经机器翻译;注意力机制AbstractAs one of the important fields of natural language processing, machine translation, especially neural machine translation, has an attractive prospect. Neural machine translation is a new method of ma

6、chine translation proposed in recent years, which makes it possible to realize machine translation by using simple end-to-end architecture. In neural machine translation, encoder - decoder is the most basic framework model and has a wide application in machine translation field. In the encoder-decod

7、er model, the encoder expresses the input sentence as a fixed-length intermediate semantic vector by coding, and the decoder generates a subsequent translation based on the intermediate semantic vector and the generated sentence information.In recent years, in order to improve the performance of the

8、 translation academia put forward a wide variety of encoder and decoder structure, integrated into the attention mechanism of machine translation model is one of the most spectacular one. The attention mechanism is a refinement of the classical encoder - decoder framework, which allows the modeling

9、of dependencies without considering the distance in the input and output sequences. Join focus after mechanism model in decoding the source language sentence, part of the area to enhance the capacity of long sentence said, and through dynamically generate the source language information, greatly imp

10、rove the performance of translation, has a pivotal position in the machine translation. In the neural machine translation model based on attention mechanism, the Transformer is applied to the attention mechanism model to the extreme, Transformer model through the attention mechanism to capture the s

11、ame sequence of semantic dependency between any two words, greatly improve the effect of the nerve of machine translation. Although the emergence of Transformer model makes the effect of neural machine translation leap, there are still many aspects to be improved in the model, and the lack of syntac

12、tic information is one of them. This paper mainly studied the into the source of the syntactic information in the Transformer model, and designs the experimental evaluation of syntactic information on its translation effect, the experimental results show that the improved model on the nist data set

13、average increased 0.67 BLEU, indicates that the source side of syntactic information into greatly improve the effect of the translation of the Transformer model.Keywords: Machine Translation; Dependency Tree; Syntax Information; Neural machine translation; Attention Mechanism;前 言神经机器翻译(Neural machin

14、e translation,NMT)是最近几年提出的一种新的机器翻译方法,它使得通过使用简单的端到端的体系结构就能实现机器翻译,相比于先前的机器翻译方法,神经机器翻译得到了更好的结果,虽然现在的机器翻译的译文质量与专业翻译人员翻译的译文相比仍有较大差距,还不能满足人们的实际应用需求,但是在一些对译文质量要求不太高的情况下机器翻译有其明显的优势,比如机器翻译的速度之快是翻译人员所不能及的。神经机器翻译是当前自然语言处理和人工智能领域研究的热点之一。编码器-解码器(Encoder-Decoder)模型是神经机器翻译的经典框架,并且已经有很多种用于提高翻译性能的不同的方法被提出,它是一种较为通用的框

15、架,可以由不同的神经网络实现,如循环神经网络(Recurrent Neural Network,RNN),门限循环单元(Gated Recurrent Unit , GRU)、长短时记忆神经网络(Long Short-Term Memory Neural Network, LSTM)等。基于编码器-解码器框架的神经机器翻译模型的结构较为简单,仅能够捕获句子级的词语信息,尤其是对于长句子其限制更加明显,Attention机制是对经典神经机器翻译框架的完善,它允许在不考虑输入和输出序列中的距离的情况下对依赖关系进行建模,在解码时只关注源语言句子中的一部分区域,通过动态地生成源语言信息,极大地提高了

16、翻译译文的质量,尤其是针对长句子的翻译其效果提高更为明显,现已成为神经机器翻译中不可或缺的一部分,Transformer是当前最有发展前景的模型之一,它可以利用自注意力机制捕获一个句子中任意两个词之间的语义依赖关系,获得了较好的翻译效果。本文主要研究将句法信息融入到机器翻译模型中的方法,以Transformer模型为基础,通过对源语言构建依存树获取源语言句子中的句法依存关系,在Transformer模型基础上结合源端的依存关系指导,进行翻译训练。在相同的LDC语料库中文-英文训练数据集上的实验结果表明,基础的Transformer模型平均得到了42.00 的BLEU分数,融入源端依存句法相关信

17、息之后的Transformer模型获得了平均为42.67 BLEU 分数,高出基础的Transformer模型0.67 BLEU,获得了很好的翻译结果。第1章绪 论本章首先介绍了机器翻译的研究背景和研究意义,简单介绍了一些已经存在的神经机器翻译经典模型和句法信息的内容,其次简要概括了本文所做的主要研究工作,最后介绍了论文的组织形式和结构。第1.1节研究背景及意义当今世界计算机信息技术日新月异,自然语言处理是计算机计科学研究的重要领域之一,机器翻译(Machine Translation,MT)是自然语言处理研究的重要内容之一,所谓的机器翻译就是研究如何利用计算机来完成将源语言所表达的语义自动映

18、射到目标语言相同语义的过程,即是计算机对人类翻译过程的仿真。在人工智能飞速发展的今天,机器翻译这个概念已经为人们所熟知。机器翻译的发展总体上可分为:基于规则的机器翻译,基于实例的机器翻译,基于统计的机器翻译和神经机器翻译四个阶段。神经机器翻译(Neural machine translation,NMT)是最近几年提出的一种新的基于序列到序列模型的机器翻译方法1,该方法完全采用神经网络完成源语言到目标语言的翻译过程,与传统的统计机器翻译不同,神经机器翻译只需要语句级的平行语料对模型进行训练,神经机器翻译的目标是构造一种单一的能够达到最高翻译性能的神经网络,它使得机器翻译通过使用简单的端到端的体

19、系结构就能实现翻译成为可能。本文重点研究神经机器翻译,编码器-解码器2(Encoder-decoder)是神经机器翻译的经典框架,Encoder将输入的句子通过非线性变换编码成固定长度的中间语义表示向量,Decoder根据该中间语义表示向量和先前已经生成的历史信息结合来生成对应的翻译。基于编码器-解码器的神经机器翻译在架构上较为简单,仅能够捕获语句级的词语信息,可能会丢失很多细节信息,尤其是对于长句子其限制更加明显。Attention机制是对经典的神经机器翻译编码器-解码器框架的完善,是当前神经机器翻译领域的热点。Cho等人第一次将Attention机制(称作全局Attention,Globa

20、l Attention)应用于机器翻译领域中8,该方法通过在每一步的解码过程中动态地获取源语言句子的上下文向量,相比于之前没有使用Attention机制的模型翻译性能得到了很大的提升,Luong等人进一步改进了全局Attention提出了局部Attention9(Local Attention)它在每一步解码过程中动态地选择性地关注固定窗口大小的源语句上下文,很大程度地减少了计算量,谷歌在2017年提出的Transformer模型,该模型完全基于Attention机制,是当前最有发展前景的模型之一,它可以利用self-attention机制捕获任意两个词之间的语义依赖关系,得到了较好的翻译结果

21、,但是Transformer模型没有很好地利用语言的句法信息,本文尝试将源端句子的依存句法信息融入到Transformer模型中,并对此想法进行了实验验证,分析实验结果得知,将源端依存句法信息融入到Transformer模型中可以进一步提高的翻译质量。网络开启了当今世界的一个大连接时代,将世界联通成为一个地球村,人类之间的相互交流的需求急剧增长,而语言正是人类进行交流沟通的工具,语言不通严重阻碍了人们之间的交流,如今人工智能的浪潮一波接着一波,机器翻译是人工智能研究的重要领域之一,机器翻译的研究能够消除不同语言之间的交流障碍,打破人类交流的屏障,是信息大数据时代的需求之一,也是互联网提供的基础

22、服务之一。第1.2节神经机器翻译系统概述神经机器翻译系统基于编码器-解码器模型2,是一种端到端的机器翻译结构,相对与统计机器翻译来说,神经机器翻译能够取得更好的翻译效果,因此是目前机器翻译系统的研究热点之一。编码器-解码器模型是神经机器翻译界的常用模型,基于编码器-解码器结构的翻译模型不断推陈出新,基于各式各样的神经网络的编码器-解码器翻译结构不一而足。基于循环神经网络的机器翻译系统是目前应用最广的模型之一,但是目前的基于循环神经网络的神经机器翻译模型结构较为简单,仅能捕获句子级别的词语之间的联系信息,在长句子中这种限制尤为明显。为了改善这种情形,学者们提出了Attention机制。Atten

23、tion机制是对经典神经机器翻译框架的完善,基于Attention机制的神经机器翻译模型允许在不考虑输入和输出序列中的距离的情况下对依赖关系进行建模,使得在解码时只关注源语言句子中的重要区域的信息,极大地提高了翻译译文的质量,尤其是针对长句子的翻译效果更为明显,现已成为神经机器翻译不可或缺的一部分。在基于Attention机制的神经机器翻译模型中,Transformer模型是当前最有发展前景的模型之一,Transformer模型中只利用注意力机制就超越了现有翻译系统的最佳翻译效果,对于机器翻译的研究学者来说有着其他模型无法比拟的吸引力。但是在Transformer模型中没有很好地利用到源语言端

24、句子中的词之间的依存信息,使得其并不能直接根据句法信息进行翻译,因此尝试在Transformer中融入句法信息从而提高其翻译效果有着广阔的研究场景。第1.3节句法信息概述语言是一个有组织有规则的体系,语言中的词汇是不能随心所欲地进行组合的,词汇不仅有名词,动词,副词,形容词等词性的区别,它们之间的组合也要遵循一定的规则。句法信息是语言的重要特征之一,它包含了语言中的词和词之间是根据怎样的规则组合成有意义的短语和句子,句法信息中包含着深层结构的语言规律。机器翻译是利用计算机来完成从源语言所表达的语义到目标语言的相同语义的映射,计算机不是人脑,它还不能完全像人脑一样去思考语言的上下文语境信息,计算

25、机对人类语言的理解必须把句法信息,语义信息和其他相关的语境信息结合在一起进行全面分析,否则很难做出准确率很高的翻译。由此可见,句法信息对于翻译来说非常重要,充分利用句法信息,对于提升机器翻译质量有很大的价值,至目前为止有不少的神经机器翻译模型都通过句法信息的融入使的机器翻译的效果有了极大的提升10,1112,因此句法信息和Transformer结合的研究有着深远的意义。第1.4节本文的主要工作及创新点本文主要研究将句法信息融入到机器翻译模型中的方法,以Transformer模型5为主要研究对象,实现了通过先为源语言句子构建依存树,得到源句子中的依存句法信息再与Transformer模型相结合实

26、现翻译,学习了编码器-解码器(Encoder-Decoder)框架和Attention机制(Attention mechanism,AM)的原理,了解了由不同的神经网络与其与Attention机制相结合实现的编码器-解码器模型,掌握了自注意力机制,在深入分析Transformer的源码的基础上,提出了通过使用依存树获取源端句子的依存句法信息,再与Transformer模型相结合,实现了融入句法信息的Transformer模型,通过进行实验验证得到了较好的翻译结果。本文的主要工作及创新点如下:(1). 对编码器-解码器框架的学习研究。(2). 深入研究句法信息,将句法信息依存树表达为矩阵的形式。

27、(3). 深入探讨并改进Transformer模型。通过在Transformer模型中的编码器端融入句法信息,改进Transformer模型。(4). 设计实验验证含有句法信息的Transformer模型的效果,结果表明相对于原始模型,融入句法信息后的Transformer模型的平均翻译效果提高了0.67 BLEU,获得了较好的翻译效果。第1.5节本文的组织结构本文共分为五个章节,各章节的内容安排如下:第1章:绪论。介绍课题的研究背景及其意义,机器翻译和句法信息的概述,简单介绍了句法信息对机器翻译的重要性,本文的主要工作和创新点,最后介绍了本文的组织结构。第2章,神经机器翻译的相关原理和模型介

28、绍。此章节详细介绍了基于RNN的编码器-解码器神经机器翻译模型和引入Attention机制的神经机器翻译模型。其中2.1节详细介绍了神经机器翻译的经典模型框架。2.2节首先阐述了循环神经网络RNN的基本原理,结合其原理介绍了由RNN实现的编码器-解码器模型,由于RNN的局限性,机器翻译引入了Attention机制。2.3节详细介绍了Attention机制的基本原理和引入Attention机制的神经机器翻译模型。第3章,融入句法信息的神经机器翻译模型介绍。本课题在基于现有的神经机器翻译模型的基础上探究了融入源端依存句法信息指导后的Transformer翻译系统。此章节对句法信息以及如何利用源端句

29、法依存信息与自注意力机制相结合来提高翻译译文的质量进行具体的说明。第4章,实验评估。通过实验对第三章的相关知识进行了验证,实验以基础的Transformer模型为基准系统,在同样的数据集上分别对两个模型进行训练得到了相应的实验结果,并对实验结果进行了对比分析。第5章,总结与展望。本章节主要对本文所做工作进行了总结并结合现状对机器翻译的未来进行了展望。第2章神经机器翻译概述神经机器翻译是近期提出的一种新的机器翻译方法,常用的神经机器翻译模型为编码器-解码器模型,本章首先简介编码器-解码器模型,然后介绍基于RNN网络实现的神经机器翻译模型,最后介绍了神经机器翻译中的Attention机制。第2.1

30、节编码器-解码器模型编码器-解码器模型是一种应用十分广泛的模型,在自然语言处理中,编码器-解码器模型被广泛地运用在问答系统,文本摘要,神经机器翻译系统等问题中。在机器翻译系统中的编码器-解码器模型有两部分组成,一部分叫做编码器,负责把一个变长的输入句子编码为一个固定长度的中间语义向量表示,另一部分叫做解码器,负责根据该中间语义向量表示来生成对应的翻译。常见的编码器-解码器模型如下图所示:图2-1在上图中的编码器-解码器模型中,x=x1,x2,xn代表输入序列,编码器对输入序列进行编码,得到对应输入的中间语义表示c=f(x1,x2,xn),f是一个非线性函数代表着不同的神经网络。解码器根据该中间

31、语义向量和先前已经生成的历史信息生成对应的翻译py=t=1Tp(yt|y1,y2,yt-1,c),其中y=(y1,y2,yTy),编码器-解码器是一个通用的框架,即通过学习到的模型最大化该条件概率,并且已经有很多种用于提高翻译性能的不同结构的编码器-解码器结构被提出。比如Sutskever 等人采用LSTM实现的RNN实现了编码器-解码器结构7,并且取得了不错的效果。第2.2节基于RNN的神经机器翻译模型RNN模型是机器翻译领域应用十分广泛的模型之一,本节结合编码器-解码器结构,介绍一般的基于RNN的神经机器翻译模型。2.2.1循环神经网络(Recurrent Neural Networks,

32、RNN)RNN是一种循环结构的神经网络34,善于处理序列结构的信息,在自然语言处理领域中有着广泛的应用,在语音识别,手写体识别以及机器翻译等领域更是屡见不鲜。常见的RNN结构如下图所示:图2-2从图2-2中可以看出,循环神经网络有隐藏层h,输入层x以及输出层y三部分组成。在RNN的运行过程中,隐藏层的装态是以递归的形式得到的,如下面的公式所示:ht=fht-1,xt (1)在上面的公式中f代表一个非线性激活函数,比如f可以是一个简单的tanh函数或者一个复杂的LSTM13等,xt是t时刻的输入,ht-1代表上一个时刻的隐藏状态。整个RNN网络的更新方式如下所示:x=x1,x2,xn (2)ht

33、=tanh(Wxhxt+Whhht-1) (3)yt=softmax(Whyht) (4)在上面的公式中,Wxh 是输入层到隐藏层的权重矩阵,Whh 是隐藏层到隐藏层的权重矩阵,Why 是隐藏层到输出层的权重矩阵。2.2.2基于RNN的神经机器翻译模型根据上述介绍的循环神经网络RNN,这里介绍基于循环神经网络的编码器-解码器模型,这种模型是最基本的序列到序列模型,在编码器端由一个RNN负责读取输入序列并对其进行编码,解码器端由另一个RNN负责对编码后的输入序列生成的中间向量进行解码生成目标序列。给定一个输入序列x=x1,x2,xn,编码器将其编码为中间语义向量c,解码器根据中间语义向量c和先前

34、已经生成的目标序列y1,yt-1来生成当前目标词yt,整个过程可概括如下:x=x1,x2,xn (5) ht=f(xt,ht-1) (6)c=q(h1,hI) (7)pyty1,yt-1,c=g(yt-1,ht,c) (8)其中q,f和g均是非线性函数(比如:q可以是LSTM,f是tanh函数,是一个softmax函数),用来计算当前目标词yt的概率。第2.3节融入Attention机制的神经机器翻译模型没有添加Attention机制的神经网络机器翻译模型在编码时是把源输入句子编码为一个固定长度的中间语义向量,在每一时刻的解码中都使用同样的中间语义向量c。Attention机制8是对普通的神经

35、机器翻模型的改进,该机制中,将源端的构成元素看作一系列的Key和Value数据对构成,Attention机制可以看作是在目标端元素Query对源端的元素Key和Value之间进行的操作,通过计算目标端的Query和源端的每个Key的相似性来得到源端句子中每个Key所对应的Value的权重,它在对源输入进行编码时不是将输入的源语言句子编码为一个固定长度的向量,而是一系列的向量,在解码时,目标句子中的每个单词都应该学会其对应的源语句子中单词的注意力分配概率信息,在生成目标单词yt时,使用不同的中间向量ct和已经生成的目标端的词结合来生成当前目标词,向量ct的生成与每一个隐藏状态hj=1j=n有关,

36、n为输入句子长度,只是每一个hj对当前词的贡献不同。添加Attention机制的神经机器翻译模型如下图所示:图2-3比如把中文“我吃苹果”翻译为英文“I eat apples”时,当翻译到yt=apples时,源句子中的每个词“我 / 吃 / 苹果”对yt贡献可能分别是0.2,0.3,0.5,而不是都一样的权重。很显然融入了Attention机制的Encoder-Decoder模型能够得到更好的翻译效果。引入注意力机制后的模型的过程可概括如下:pyiy1,yi-1,x=gyi-1,si,ci (9)其中yi为要生成的目标词,x为输入,g是一个计算yi概率的非线性函数(比如softmax函数),

37、si为目标端的隐藏状态,ci为中间向量,各个计算方法如下: si=fsi-1,yi-1,ci (10) ci=j=1Txijhj (11)其中hj是源端的隐藏状态,ij为源句子中每一个词对当前要生成的目标词yi的重要程度,其计算方法如下:ij=exp(eij)k=1Txexp(eik) (12)eij=asi-1, hj (13) hj=fxj,hj-1 (14)x=x1,x2,xn (15)eij是一个对齐模型,表示i时刻输出位置i处的生成的词与输入位置j处的词的匹配度,a是一个神经网络比如RNN,FNN等。第2.4节机器翻译模型的评估标准BLEU14是一种国际通用的评估机器翻译译文质量的算

38、法,一种基于精确度的相似性度量方法,它利用语句中的n元词组的精确度和句子长度的惩罚因子将机器翻译产生的译文和专业翻译人员的翻译译文进行比较,计算出BLEU值,得到的BLEU值是一个0到100之间的数字,数值越高则表明机器翻译的效果越好。为了更客观地评估改进后的系统的性能,本实验采用对文本大小写不敏感的BLEU-4作为系统翻译质量的测评指标。第3章融入句法信息的神经机器翻译模型第3.1节句法信息的处理句法信息是语言的重要特征之一,它描述了语言中的词与词之间是根据怎样的规则组合成有意义的短语和句子。这一节主要介绍如何获取源语言的句法信息以及如何处理获得的句法信息。3.1.1句法依存树的建立句法依存

39、树是最简单的表达句法信息的结构,它主要描述的是句子中各个元素之间的依存关系,依存树中的每个节点代表句子中的一个词,树形结构较为简单清晰,可扩展性强。汉语是一种重意合的语言,有“形散而神聚”之称,通常对词序的要求不是很高,这种情况下,选择依存句法则更为合适,依存句法旨在分析出已知句子中词与词之间的依存关系,并形成一个树形结构,比如对于句子“我 / 要 / 毕业 / 了”对应的依存结构中,“我”是“毕业”的主语,两者构成主谓关系,因此在该依存结构中,存在一条由“毕业”指向“我”的有向弧,如下图所示。本文采用Stanford Parser为源语言(汉语)的输入句子建立依存树,从而获取源端句子的依存关

40、系。图3-13.1.2依存信息的处理为了便于依存树与Transformer模型的结合,本文首先将依存树转化为依存矩阵,本节主要描述依存矩阵的建立过程。为了为一个源于言的输入句子建立依存矩阵,首先使用3.1.1中的方法为其建立对应的依存树,然后通过下面的公式建立依存矩阵M:mij=1,i与j存在依存关系0, else M=m1,m2,mn 在依存矩阵的建立过程中,首先为每一个词附加一个依存关系向量mi,该向量记录了当前词xi与输入句子中剩余的其他词xj之间的关联性,其中mij=1代表xi和xj之间存在依存关系,mij=0代表xi和xj之间没有存关系。然后将所有的依存向量组合成为一个矩阵就完成了依

41、存矩阵的建立。为一个词xi建立依存向量的具体方法为首先把依存向量mi的所有初始化为0向量,然后根据依存树中的信息将所有与其有依存关系的词对应的位置1。整个句子遍历结束后得到一系列的依存关系向量m1,m2,mn,把所有的向量组合在一起就形成了依存关系矩阵M。第3.2节Transformer模型主流的序列到序列的转换模型都是基于复杂的循环或卷积神经网络的编码器-解码器模型,或者是神经网络与注意力机制相结合的编码器-解码器模型,注意力机制是神经机器翻的一大改进,在神经机器翻译中扮演者重要的角色,Transformer是一个仅基于注意力机制的模型5。3.2.1模型方法自注意力机制是指在序列内部执行注意

42、力操作,对于一个输入句子,其中的每个词都要和该句子中的所有词进行注意力计算,这样做使得自注意力机制更容易捕获句子中长距离的依赖特征,在计算注意力分数时可以直接把句子中任意两个元素之间的关联程度通过一个计算步骤连接起来,可以更有效地利用这些序列内部的句法特征,在一个句子中使用自注意力机制可以捕获到句子中的词与词之间的依赖关系。Scaled Dot-Product注意力机制与普通的Dot-Product注意力机制相同,只是为了防止在计算点积过程中得到的点积数值过大影响softmax函数的结果,通过乘以一个缩放因子1dk实现了Scaled Dot-Product注意力机制,如下式:Attention

43、Q,K,V=softmaxQKTdkV (16)3.2.1模型实现Transformer是一个仅基于注意力机制的模型。该模型整体上也是采用编码器-解码器架构,如图3-2所示,模型中编码器端是由六个相同的层组成,每一层包含两个子层,分别是多头自注意力机制和一个全连接前馈网络,在每一个子层后面都使用了一个残差连接,然后进行层归一化。解码器也是由六个相同的层组成,每一层有三个子层,除了和编码器相似的两个子层外,还有一个对编码器的输出和解码器的屏蔽多头自注意力机制的输出执行多头注意力的子层,同编码器相似,在每一个子层之后进行层正则化。 图3-2鉴于每层的计算的复杂度和并行计算量以及网络中长距离依赖问题

44、等原因,Transformer模型中采用Scaled Dot-Product注意力机制,由于没有使用卷积和循环结构,为了充分利用句子中的时序信息,该模型在对源端输入的句子进行embedding之后,为了保留句子中词的前后时序信息,将位置进行同样地embedding得到维度相同的位置向量,之后将两者相加得到嵌入位置信息的词向量,具体的位置编码方法如下:PE(pos,2i)=sin(pos/100002idmodel) (17)PE(pos,2i+1)=cos(pos/100002idmodel) (18)其中pos是词所在的位置,i是维度。Transformer模型的核心部分是多头注意力机制,多

45、头注意力机制是基于Scaled Dot-Product的注意力机制,首先将所有的query,key和value分别包装成一个矩阵Q,K和V,采用不同的权重参数对Q,K和V先进行线性变换,然后并行执行h个不同的Scaled Dot-Product注意力映射,得到h个不同的表示,分别对每一个映射之后得到的queries,keys以及values执行注意力函数,产生h个dv维数的输出,最后将所有的结果进行拼接并进行一次线性变换,得到最终输出。多头注意力机制可以使模型从不同的角度来获取输入句子的不同的子空间表示,同时对每一个头的维度都做了缩减,使得多头注意力的总的计算量与单头注意力的计算量一致,整个过

46、程可概括如下:MultiHeadQ,K,V=Concathead1,headhWO (19)headiQ,K,V=AttentionQWiQ,KWiK,VWiV (20)AttentionQ,K,V=softmaxQKTdkV (21)其中h是单头的数量,headi代表每一个单头的输出, dk是query的维度,WORhdvdmodel,WiQRdmodeldk,WiKRdmodeldk,WiVRdmodeldv是参数矩阵一般情况下dk=dq,实验验证发现头数过多和过少都会导致模型的性能下降,故此模型中取h=8,dk=dq=dmodelh=5128=64。图3-2中,模型中的每一层有三处使用多

47、头注意力机制分别是:编码器端的自注意力机制,这里的自注意力机制的输入Q,K和V是前一个编码层的输出,其中Q=K=V维数均为dk,在编码器端句子中的每一个位置信息都是可利用的。解码器端的自注意力机制,同编码器端类似,此处的注意力机制的Q,K和V是前一解码层的输出,其中Q=K=V维度均为dk,此处的位置信息通过设置屏蔽信息使得生成当前词时只能利用已经生成的目标词的位置信息,而不能使用将来待生成的词的位置信息。解码器端每层的第二子层是编码-解码注意力机制,其输入Q是维数为dk的解码器上一层的输出,K和V是同层编码器的输出维度均为dk,并且K=V。多头注意力机制之后是一个全连接的前馈网络,该网络同样地

48、应用于每一个位置向量,同层之间使用相同的参数,不同层之间使用不同的参数,可以提高模型的特征抽取能力,它由两个线性变换函数分别包含一个非线性变换RELU激活函数组成,如下式:FFNx= max0, xW1 + b1W2+ b2 (22)其中W1和W2是权重参数,b1和b2是偏差参数。在每一个子层计算结束后都进行一个残差连接和正则化操作。第3.3节结合源端句法信息的Transformer模型依存句法是通过解析语言内部各个成分之间的依存关系来表达语言的句法结构信息的,本文主要是通过源端的依存关系来指导编码器端的注意力层的权重分布,使得该分布能够更着重于与当前词存在依存关联的源端单词,使用斯坦福句法分

49、析器做依存句法分析可以输出句子的依存关系,下图是句子“我喜欢吃苹果。”通过Stanford Parser构建依存树解析的结果:图3-3从上面的依存关系中,我们可以看出源端句子中单词“吃”与“苹果”和“喜欢”更具有依存相关性,而“我”和“吃”则没有依存关系,所以在编码词“吃”的时侯应该使用“喜欢”和“苹果”作为注意力集中的几个词,为了达到这个目的,本文改进了Transformer模型中的编码器中的注意力层,通过使用一个依存矩阵将源端句子中与当前词没有依存关系的词的权重进行屏蔽,再使用一个依存关联性损失函数来指导依存关联损失使得源端的依存关联性更丰富,改进后的Attention机制如下所示:att

50、entionQ,K,V=softmaxQKT/dkV (23)Mask=softmaxQKT/dkM (24)Lossdep=-i=1Txlogj=1TxMaskj (25)Loss=-logP(Y|X)+Lossdep (26)在上面的公式中Lossdep是依存关联性损失,Loss是网络的整体损失,-logP(Y|X)是训练过程中的损失,M为依存矩阵,其中M矩阵是通过如下方式构建的:首先通过Stanford Parser为源端句子构建依存树,根据依存树的解析结果然后通过下面的公式建立依存矩阵M:mij=1,i与j存在依存关系0, else (27)M=m1,m2,mn (28)在依存矩阵的建

51、立过程中,首先为每一个词附加一个依存关系向量mi,该向量记录了当前词xi与输入句子中剩余的其他词xj之间的关联性,其中mi=1代表xi和xj之间存在依存关系,mi=0代表xi和xj之间没有存关系。然后将所有的依存向量作为一个矩阵就完成了依存矩阵的建立。为一个词xi建立依存向量的具体方法为首先把依存向量mi的所有初始化为0向量,然后根据依存树中的信息将所有与其有依存关系的词对应的位置1。整个句子遍历结束后得到一系列的依存关系向量m1,m2,mn,把所有的向量合在一起作为依存关系矩阵M。在依存矩阵中没有使用主对角线,是因为如果利用了主对角线信息,在训练模型过程中编码每一个词时其注意力分布会只关注当

52、前词本身,导致其本身的权重接近于1,而其他词则几乎没有权重分布。例如下图中为句子“我喜欢吃苹果。”根据其依存树得到的依存矩阵,蓝色部分表示1,白色部分表示0。图3-4通过的公式(24)计算之后,屏蔽了源句子中不相关的词对注意力机制的影响,挑选出了与当前词有句法依存关系的词,能够使其更加的关注有依存关系的词之间的关联性,增强了Attention机制的注意力,从而使Transformer模型取得了更好的效果。第4章实验评估第4.1节评估标准在实验的评估中,本文采用BLEU-4作为翻译系统的评价指标,在对实验模型的评估结果中BLEU值越高代表翻译系统的翻译效果越好。第4.2节实验背景本文的实验中以当

53、前最有发展前景的模型Transformer模型作为对比标准,在实验过程中限制源语言和目标语言的词表大小均为30K,最大句子长度为256,词向量的维度为512,隐藏层的维度也是512,使用Adam作为模型的优化方法。在改进的Transformer模型中,使用Stanford Parser构建源语言句子的依存树。在模型的训练过程中,采用的训练集为含有125万中-英平行双语句对的LDC(Linguistic Data Consortium)中文-英文翻译数据集,开发集为美国国家标准与技术研究院2002年的数据NIST06,测试集为NIST02,NIST03,NIST04,NIST05和NIST08。

54、第4.3节实验结果按照4.2节所述进行实验,在训练过程中,通过每次选取最后5个模型,保存其训练参数及其结果,然后进行参数平均,得到模型平均。实验的结果如表1所示:表1中-英nist02nist03nist04nist05nist08AvgTransformer_base44.5642.9045.4542.9434.0942.00Transformer_src_dep45.7743.4445.6843.8934.5542.67从上表的实验结果可以看出,改进后的模型相对与原始的Transformer模型在所有的测试集上的翻译效果都得到了一定程度的提高,其中提高最多的为NIST02数据集,得到了1.

55、21 BLEU得分的提高,在提高最少的数据集NIST04上也有0.33 BLEU的提高,平均的提高达到了0.67 BLEU,说明源端依存句法信息的融入对Attention机制的翻译效果的提升有着不容忽视的效果。第5章总结与展望第5.1节本文总结本文主要研究了将句法信息融入到机器翻译模型中的方法,以Transformer模型为研究对象,深入分析了Transformer模型的源码,在此基础上通过先为源语言句子建立依存树获取源端的依存信息,根据源端的依存信息指导来获得更丰富的源端句子中与词之间的关联性信息,通过对源端权重矩阵进行损失函数计算,使得存在依存关系的词获得的权重逐渐增加直至接近于1,没有依

56、存关系的词得到的权重逐渐减小接近于0,这样就选择出了与当前词关联性最大的词的作为注意力集中分布的词,通过这样的方式就实现了融入句法依存信息的Transformer模型的改进并且实验证明,改进后的系统翻译性能更好,可以进一步提高翻译译文的质量。第5.2节后续工作展望人工智能的浪潮一波接着一波,机器翻译作为自然语言处理和人工智能研究的一个重点和难点,经过近些年的发展,取得了丰硕的成果,尤其是近几年新提出的神经机器翻译,它只需要句子级的平行语料对模型进行训练就能实现端到端的翻译,并且其翻译译文质量相比于之前的系统有很大的提升,但是不可否认的是现在的机器翻译译文的准确度和质量与专业的翻译人员的译文相比仍有较大的差距,还不能满足人们的实际应用需要,但是机器翻译在速度之快是专业翻译人员所不能及的,并且在一些对译文质量要求不太高的情况下机器翻译有其明显的优势,不可否认机器翻译的提升空间还有很大,比如现有的翻译模型所需的训练强度较大以及如何进一步降低训练的复杂性节省训练成本和进一步提高翻译质量等方面仍有待进行更加深入的探索。参考文献1. Kalchbrenner N, Blunsom P. Recurrent continuous translation models

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论