2026年课件-融入预训练语言模型的中-越神经机器翻译方法研究-新版_第1页
2026年课件-融入预训练语言模型的中-越神经机器翻译方法研究-新版_第2页
2026年课件-融入预训练语言模型的中-越神经机器翻译方法研究-新版_第3页
2026年课件-融入预训练语言模型的中-越神经机器翻译方法研究-新版_第4页
2026年课件-融入预训练语言模型的中-越神经机器翻译方法研究-新版_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

学研论起学研论起昆明理工大学专业学位硕士学位论文融入预训练语言模型的中一越神经机器翻译方法研究指导教师姓名、职称科科究文止作期_ 神经机器翻译是一种依靠数据驱动的机器翻译方语的双语平行语料不足,导致中文-越南语的机器翻译有限的数据中挖掘出更多的语言信息来提升机器翻译模型性能是针对低资源机器翻译的热门研究方向。当下各研究机构针对单语大(1)基于多重注意力机制约束的中越平行句对抽取方法:对于神经机器翻译这一任务,主流做法仍是基于大量双语平行句对的监督学习,从篇章中抽取出可用于神经机器翻译模型训练的双语平行语料是训练神经机器翻译前重前置任务。利用中文预训练语言模型以及越种语言文本分别进行编码后获得两种语言的语义信息表征向量,利用注意力机制将两种语言的表征向量进行融合后得到该句对的表征向量,对该表征向量进(2)融入BERT与词嵌入双重表征的中越机器翻译方法:针对中越神经机器翻译对源语言的编码表征能力不足问题,本文提出一种融合源语言BERT预训练语言模型与词嵌入双重表征的低资源神经模型和词嵌入分别对源语言序列进行表示学习,通过注意力机制建立两种表征之间的联系后进行拼接操作得到双重表征向量,再经过线性变换和自注意力机制,使词嵌入表征和预训练语言模型表征完全自适应融合在一起,得到对输入(3)基于预训练指导推敲生成的中越神经机器翻译方法:针对中越神经机器翻译解码译文质量不佳问题,本文提出一种基于预神经机器翻译方法。由于目标端文本在训练期间无法译文,使用预训练语言模型约束指导第二段解码器对粗略译文的推敲优化过Ⅱ(4)中越神经机器翻译原型系统:本文设计并实现了一个基于神经机器翻框架搭建,服务器端采用Python语言Flask框架搭建,数据存储于Sqlite轻量级数据库,模型训练基于Python语言Fairseq框架。系统实现在线平行句对判推敲网络 ⅢcontextoftheBeltanddrivenmachinetranslationmethod,itperformswellinlanguageswithsufficientbilingualparallelcorpora,butVietnameseisalow-resourcelanguage,andthebilingualinotherlanguagesandTheperformanceofneuralmachinetranslationforVietnameseisnotideal.However,atpresent,variousresearchinstitutionshavedesignedpre-trainedlanguagemodelsformonolinguallarge-scalecorpora.Thepre-trainedcanfullylearnthelanguageinfortraining.Howtousethelanguordertoimprovetheperformanceoflow-resVietnamese,ithasthevalueofin-depthresearch.Howtousepre-modelstoimprovetheperformanceofChinese-Vietnamesemachinetranslation,(1)ChineseVietnamesepaattentionmechanismconstraints:forthetaskofneuralmachinetranslatimainstreamapproachisstillsupervisparallelsentencepairs.Extractingbilingualparallelcorpusfromtextsthatcanbeusedforneuralmachinetranslneuralmachinetranslation.Tpretraininglanguagemodelareusedtoencodethetwpairrespectivelytoobtainthesemanticinformationlanguages.Therepresentationvectrepresentationvectorsofthetwolanguagesusingtheattentionmechanism.The(2)Chinese-VietnamesemachinetransrepresentationofBertandwordembeddirepresentationabilityofSinoVilanguage,thispaperproposesalowresourceneuralmachinetranslationmethodintegratingthedualrepresentatioembeddingtorepresentandlearnthesourcelanguagesequenconnectionbetweenthetworepresentatThen,throughthelineartransformationandselfatteembeddingrepresentationandthepretraininglanguagemodelrepresentationarefadaptivelyintegratedtoobtimprovetheperformanceoftheneuralmachinetranslationmodel.(3)Chinese-Vietnameseneuralmachineguidanceanddeliberation:AimingatthepoorqualityofSinoVietnameseneuralmachinetranslationdecodingtranslation,thispaperproposmachinetranslationmethodbthetargettextcannotbeknowndurimachinetranslationmodelinthewayofdeliberativenetwork,whichisadualstructure.Thefirstdecodergeneratesaprocessoftheroughtranslation,soastoimprovethequalityofthefinaltranslation.(4)Chinese-Vietnameseneuralmachinetrdesignsandimplementsaprototypesystembasedonneuralmachitechnology.ThesystemisbasedonB/Sarchitecture.ThewebclJavaScriptlanguageVueframework,andtheserverisbuiltwithPysentencepairjudgmentfunctionandonlinemachinetranslationfunction.Keywords:neuralmachinetranslation;pretrainedlanguageVietnamese;attentionmechanism;deliberationnetw I V 1 11.2国内外研究现状 1 1 4 7 8 2.1引言 2.2相关研究 2.3数据收集 2.4基于多重注意力机制约束的中越双语平行句对抽取方法 2.4.1文本预训练模型特征提取 2.4.2文本表征交叉注意力机制约束 2.4.3文本表征自注意力机制约束 2.4.4分类 2.5.2实验设置 2.5.3实验评价标准 2.5.4中越平行句对抽取对比实验 2.5.5表征融合消融实验 2.5.6实例展示 2.6本章小结 3.1引言 213.2相关研究 23.3融合BERT与词嵌入双重表征的中越南语神经机器翻译方法 23.3.1词嵌入模块 3.3.4编码器模块 3.3.5解码器模块 3.4实验结果与分析 3.4.1实验数据 3.4.2实验设置 3.4.3评价标准 3.4.4中越神经机器翻译对比实验 3.4.5不同数据量对比实验 3.4.6编码多层融入预训练语言模型消融实验 3.4.7解码阶段融入预训练语言模型消融实验 3.4.8英越神经机器翻译对比实验 3.4.9实例展示 3.5本章小结 4.1引言 334.2相关研究 34.3推敲网络 344.4基于预训练指导推敲生成的中越神经机器翻译方法 354.4.1编码器 4.4.2第一段解码器 4.4.4损失计算 4.5实验结果与分析 4.5.2实验设置 4.5.3评价标准 目录4.5.4中越神经机器翻译对比实验 4.5.5融入预训练语言模型消融实验 4.5.6英越神经机器翻译对比实验 4.5.7实例展示 4.6本章小结 415.1引言 42 5.4系统功能实现 5.4.1线上双语句对平行判别模块 5.4.2双语句对存储模块 5.4.3数据预处理模块 5.5功能测试 455.6系统展示 5.7本章小结 6.1论文总结 6.2展望 51 59附录B攻读硕士学位期间发表专利 61附录C攻读硕士学位期间参与项目 1第一章绪论机器翻译的训练依靠于大量的双语平行句对数据,在双语平行语料充足的语种间表现优异,但越南语属于低资源语言,中文等语言与越南语的双语平行语料不足,导致其中文-越南语的神经机器翻译的性能并不理想,因此,如何提升中文-越南语这类低资源语言的神经机器翻译性能是当今的研究热点问题且具有较高的应用价值。在机器翻译研究领域,近年来推出了许多优秀的模型设计,在中文-英语、英语-德语这类常见翻译语言方向已经达到较为优秀的程度,谷歌公司推出的神经机器翻译系统在中文-英文的测评中已经达到大学生六级水准,足以满足日常领域的使用,但在低资源翻译方向的翻译系统效果却还存在较大提升空间,这是由于神经机器翻译模型需通过大量双语数据训练学习到翻译知识,但在中文-越南语这类翻译任务中,现有的双语数据与中文-英文这类翻译数据存在量级上的差距,这极大限制了机器翻译的性能,在中越机器翻译研究中,为了克服由于双语句对语料不足这一缺陷,许多学者们在将外部知识融入中越机器翻译方向开展研究,且取得了一定程度的提升,之前的工作主要融入的知识为实体信息、语法结构这类显式可观察的语言信息。预训练语言模型在多项NLP任务中取得了成绩证明其对于语言理解的能力有着较大潜力,但如何将预训练语言模型作为外部知识融入中越神机器翻译模型中暂未有相关工作。预训练语言模型中的语言信息表示在其对文本的表征向量中,这和之前可观察的显式语法信息不同,如何对机器翻译模型建模将包含语言信息表征向量利用到机器翻译中,已达到提升翻译性能的目的,该研究对提升中越机器翻译性能具有较大意义。随着深度神经网络的出现以及发展,深度神经网络技术逐渐在机器翻2译领域普及而开,2013年Kalchbrenner等人↓提出了神经机器翻译这一概念,机器翻译逐渐从基于统计的方法[2-9过渡到基于神经网络的方法。神经机器翻译(NeuralMachineTranslation,NMT)主要目标为使用神经网络对整个翻译过程进行建模,使用一种语言文本生成另外一种语言文本。2014年Sutskeve等人10]提出了基于循环神经网络(RecurrentNeuralNetwork,RNN)的机器翻译模型,设计了一种自回归的编码器-解码器模型架构,通过编码器对源语言文本进行编码表征,得到该文本在语义空间中的词嵌入向量作为语言信息的表示,之后将该表征输入到设计好的编码器网络,编码器接收到该表征后利用编码器信息进行迭代生成的过程,逐字生成出目标文本,当解码到终止符号时停止,该模型架构至今仍是神经机器翻译主流架构。为使神经机器翻译性能进一步得到提升,Bahdanau等人11在2015年提出将注意力机制(attention)[12-16加入到编码器-解码器架构中,通过注意力机制,解码器部分获得了对编码信息挑选过滤的能力,在解码过程中,对编码信息各部分进行了区别处理,提升了神经机器翻译模型性能,使得基于神经网络的机器翻译方法彻底超以及卷积神经网络(ConvolutionalNeuralNetworks,CNN)[20-24]设计了多种神经机器翻译模型来对机器翻译进行建模,使得神经机器翻译方法的性能不断提升,神经机器翻译的热度也逐步提高。2017年Vaswani等人该模型编码时采用并行编码的机制,一次性编码整个文本序列,同时为了使得模型能够感知序列中各词的位置信息引入了位置嵌入(PositionEmbedding)这一机制来表示序列中的位置信息,在一定程度上解决在循环神经网络中长距离信息丢失问题,依靠自注意力机制(Self-Attention)极大增强了编码器对上下文信息的捕获能力,这一机制的诞生使得神经机器翻译模型有能力关注到编码特征中的重要信息,其性能得到了极大的提升。除在机器翻译任务中,Transformer模型在文本分类、文本抽取等NLP任务中也取得了优异的成绩,说明该模型相较于早期的循环神经网络、卷积神经网络在编码时能够更好的获取到语言信息,具有更加优秀的语言理解能力,该模型当前仍是神经机器翻译、摘要生成等序列生成任务的主要基线模型。3以上为近年来神经机器翻译的相关研究进展,针对低资源的神经机器翻译任务,国内外学者主要从以下方面开展研究工作:(1)平行句对资源获取:限制低资源神经机器翻译的主要问题为双语平行句对资源不足,平行句对抽取任务是一个扩充训练资源的有效方方法,但该方法存在大量噪声影响最终抽取数据质量难以直接用于机器端连续性的判断,极大提升了抽取数据的质量。除句对抽取外,伪平行将大量单语数据通过机器翻译技术翻译为源语言,生成大量伪平行数据,但该方法使用的翻译模型性能交叉,伪平行数据中存在大量的错误,可能对机器翻译模型造成负面影响。Imankulov想进行回忆,极大提高了回译语料的质量。对源数据进行一定的替换,得到新的数据也为解决数据不足的一项有效方法,其中Fadaee等人[30]针对数据中的稀有词进行替换扩充了数据规模,Gao等人31提出基于软上下文的数据增强方法,基于相近词之间的线性关系进行替换。(2)迁移学习:相较于低资源机器翻译任务而言,存在中英、中德这类数据规模较大的机器翻译任务,研究者们考虑到是否能够利用到这类大规模数据的翻译任务中学习到的知识来提升低资源翻译的性能,即将资源丰富的翻译任务中的语言知识迁移到低资源翻译中。具体做法为将资源丰富的翻译任务模型作为父模型,该模型训练完成后得到的模型参数作为低资源翻译任务的初始化模型,低资源翻译模型基于该父模型参数进行训练,得到新的翻译模型。在该方向,由Zoph等人首次尝试将迁移学习的思想用于机器翻译,在多个低资源的翻译任务中领先于基线(3)先验知识增强:为弥补神经网络学习语言知识的缺陷,许多学者致力于将人工翻译中的相关经验引入到神经机器翻译模型中,在模型器的解码过程中添加约束信息,实现外部信息的融入。Tang等人[33提出神经网络进行设计的Tree-LSTM模型实现利用语法信息来指导机器翻译4过程。任务中,语料规模是限制性能的重要因素。随着机器翻译方法相关研究的发展,国内与国际上相关领域研究机构组织了许多机器翻译领域的评测比赛,发布了许多大规模的双语平行句对数据集用以测评神经机器翻译的性能,较为著名的有国际口语机器翻译测评(IWSLT)、国际机器翻译比赛(WMT)和全国机器翻译大会(CCMT),其中国际口语机器翻译测评与国际机器翻译比赛主要针对的是英语、德语及中文等语种,其中也包括部分欧洲小语种数据,当前国内与国际上机器翻译研究方向主要是针对以上语种进行研究,对神经机器翻译模型的性能判定也主要基于在以上语种数据上的表现。而全国机器翻译大会则主要针对的是中文、英语及国内各少数民族语言,国内许多学者也在以上语种方向发表了许多不错的研究成果。但是对于东南亚区域内的越南、缅甸、柬埔寨、老挝及泰国等国家的机器翻译数据集暂无大规模的可用数据。并且越南语属于澳亚语系越孟语族,与中文差距较大,导致当下中越神经机器翻译的性能表现远不如英中、英法、英德等机器翻译系统。针对资源稀缺的中文-越南语机器翻译,机器翻译领域的学者们发表了许多优秀的研究成果。在基础数据获取方面,Trinh等人341为解决中文-越南题,提出了在中文-越南语双语网站提取双语对齐文本的方法,通过该方法在中文-越南语网站中可以获取到用于训练翻译模型的双语平行句对,为中文-越南语神经机器翻译方法的研究提供了数据基础。在语言信息融合方面,近年来有相关研究工作将外部语言信息融入神经机器翻译系统开展了中-越双语分词方法额研究,加强了中借助中文与越南语两种语言之间拼音的相似性,提出融合发音特征的中以拼音的粒度来进行中-越机器翻译模型的训练,并在解码结果中进行还原操作,从而使译文获得更好的效果;在词级别的翻充分使用了统计规则,分析了字符级翻译和词级翻译的优点,在一定程5关系的命名实体的翻译方法来解决中文-越南语机器翻译中的未登录词性提出了一种融合词根位置特征的中-越机器翻译方法,该方法通过定语位置、状语位置和修饰语排序信息定义排序块,使用排序块对译文重新进行排序,得到越南语语法结构表现更加优异的译文。EncoderRepresentationfromTransformers),该模型发布后再11项NLP任务上取得了SOTA的结果,该模型通过大量单语数据进行自监督学习训练,从大量单语语料中学习语言知识。目前,BERT预训练语言模型在句法分析、文本分类等NLP任务中取得优异成绩,证明该语言模型的文本表征可充分表示出文本中的语言信息,这些语言信息包含在编码后得fused算法实现BERT语言模型编码输出的隐状态随机融入Transformer模型编码器和解码器结构中,将BERT预训练语言模型输出的隐状态向量和词嵌入层输出隐状态向量通过一个随机权重相乘之后相加,以此生成包含预训练语言模型内语言信息和词嵌入层语言信息的隐状态,实现将BERT预训练语言模型中包含的语言信息用于神经机器翻译,该方法在多项公开数据集的翻译任务上相较于Transformer模型取得了较大的提升,证明BERT预训练语言模型作为外部知识库融入神经机器翻译模型的可行性。但这种加权融合的方式在低资源中越神经机器翻译任务中,所带来的性能提升有限。以上针对中越神经机器翻译的研究工作在一定程度上提升了中越神经机器翻译方法的性能,但还存在较大可提升的空间。由于双语平行语料规模依旧稀缺,翻译模型对文本的理解能力不足,最终表现结果差强人意。因此,在有限的数据规模下,设计神经网络模型充分理解文本信息尤为重要。为扩充训练语料的规模,利用深度神经网络技术在可比语料库中筛选出双语平行句对,然后将预训练语言模型分别融入编码器和解码器中,在编码阶段和解码阶段提升翻译模型的文本理解能力,达到提升中越神经机器翻译性能的效果。61.3面临的关键问题如何对解码过程进行建模,达到提升中越机器翻译模型性能的目的尚需深入研究。翻译数据获取训练翻译模型需要一定量的双语平行如何对解码过程进行建模,达到提升中越机器翻译模型性能的目的尚需深入研究。翻译数据获取解码质量优化问题源语言理解解码质量优化问题由于数据规模不足,源语言编码存在数据稀疏与学习不充分的问题。由于当前可获得的中越双语平行句对语料数量有限,难以构建大规模平行语料库,导致当前中越神经机器翻译性能不足。国内外许多学者为提升中越神经机器翻译性能提出了许多优秀的研究成果,极大推进了汉越神经机器翻译的发展,但相较于资源丰富的机器翻译任务而言,中越神经机器翻译还存在较大的发展空间。针对当下研究工作的调研,当前中越神经机器翻译方法还存在着以下几个重要问题亟待解决:(1)翻译基础数据获取问题:训练翻译模型仍需要一定量的双语平行语料,在互联网中存在大量的中越双语维基百科文本以及双语新闻页面,对这些数据如何进行获取以及解析提取出可供神经机器翻译使用的中越双语平行语料是研究难点,如何计算跨语言文本相似度,存在双语语法差异、语言理解及相关事件分析等方面的难点问题,目前没有成熟的解决方案,尚需深入开展研究;(2)源语言理解能力不足问题:小规模语料训练神经机器翻译由于数据规模不足,存在数据稀疏与学习不充分的问题,神经机器翻译模型对源语言的理解能力不足,编码得到的表征向量对语言信息没有一个很好的体现,融入预训练语言模型作为外部知识来提升模型对源语言的理解能力是一个很好的解决思路。如何有效将预训练语言模型融入到编码过程中来提升中越机器翻译模型性能尚需深入研究;(3)解码质量优化问题:在当下编码器-解码器架构下的神经机器翻译模型中,当下研究往往在编码端添加各类约束条件以提升编码器的语言理解能力,对于如何优化解码端来生成更加优质的译文研究工作较少。采用推敲网络这种两段解码器的序列生成模型架构并在添加预训练语言模型来指导解码过程是一个很好的解决思路。如何对该过程进行建模,达到提升中越机器翻译模型性能的目的尚需深入研究。基于多重注意力机制约束的中越平行特征融合机制基于多重注意力机制约柬的中越平行融合预训练语言模型的中越神经机路翻译原型系统基于多重注意力机制约束的中越平行句对抽取方法双语句对数据如图1.2所示,本文围绕中越双语平行句规模的扩充、提升中越神经机器翻译模型源语言理解表征能力、提升中越神经机器翻译模型译文生成质量以及开发搭建中越神经机器翻译原型系统等方向开展了深入研究,具体研究内容如下:(1)基于多重注意力机制约束的中越双语平行句对抽取方法:由于当下还没有大量开放且有用的中越双语平行句对数据集用来培训机器翻8译模型,而网络中有着大量的中文和越南语单语言数据。因此利用以上的单语言数据可以训练出完全涵盖单语言信息的单语预训练言模型,同时利用预训练语言模型中强大的语义表征能力,可以在中越双语句对抽取任务中较为精确的测算出双语句对相似概率,以提高中越双语句对抽取任务效果,从而扩充出更多优质的机器翻译中越双语句对数据,解决低资源翻译数据不足的问题。(2)融合BERT与词嵌入双重表征的中越神经机器翻译方法:当下低资源的机器翻译任务中,由于数据规模过小而对语言的理解能力不足,而预训练语言模型经过大量数据进行训练,具有很强的文本表征能力,将源语言预训练语言模型的语言表征能力融入机器翻译模型的编码器中,提升机器翻译模型编码器的编码能力,达到提升机器翻译模型性能的目(3)基于预训练指导推敲生成的中越神经机器翻译方法:在编码端融入外部知识能够提升低资源机器翻译的性能,但在解码部分融入外部知识则相关研究工作较少,由于解码端信息在预测训练时未知,所以在解码端融入相关外部知识的机器翻译建模较为困难。而推敲网络这一两段解码的架构中,在最终解码前可得知一个粗略的上下文信息,在对该粗略译文进行推敲过程中,引入预训练语言模型对该过程进行指导约束,提升译文质量,达到提升机器翻译模型性能的目的。(4)中越神经机器翻译原型系统:基于多重注意力机制约束的中越双语平行句对抽取方法、融合BERT与词嵌入双重表征的中越神经机器翻译方法和基于预训练指导推敲生成的中越神经机器翻译方法,设计并实现一个中越神经机器翻译原型系统,该系统为B/S架构,其中Web前端部分基于Javascript语言Vue框架进行开发,服务端采用Python语言Flask框架开发服务器,神经机器翻译模型基于Python语言Fairseq框架下进行训练调整,为用户提供在线中越神经机器翻译服务。本文一共有六章内容,每一章的内容介绍如下:9第一章:首先介绍了中越机器翻译的研究背景及意义;然后总结了中越机器翻译的国内外研究现状;最后介绍了当下中越机器翻译领域面临的关键问题、论文的研究内容以及论文的组织结构。第二章:首先介绍了引言和句对抽取工作相关技术部分;然后介绍了篇章级中越对齐数据的获取方法;最后介绍了基于多重注意力机制约束的中越双语平行句对抽取方法以及本章小节部分。第三章:首先介绍了引言部分以及之前在中越机器翻译外部知识融入的相关研究;然后介绍了融合BERT与词嵌入双重表征的中越神经机器翻译方法,最后介绍了实验与分析和本章小节部分。第四章:首先介绍了引言部分以及之前在解码端进行建模研究的相关工作;然后介绍了基于预训练指导推敲生成的中越神经机器翻译方法,包括特征融合、推敲网络等部分;最后介绍了实验与分析和本章小节部分。第五章:首先介绍了引言和机器翻译系统架构设计部分;然后介绍了系统功能实现部分,包括线上句对判别功能、线上翻译功能和数据预处理等;最后介绍了本章小结部分。第六章:介绍了论文总结和工作展望部分,总结了本文的研究成果,分析了本文的不足之处,对今后的研究工作进行了展望。 第二章基于多重注意力机制约束的中越双语平行句对抽取方法第二章基于多重注意力机制约束的中越双语平行句对抽取方法神经机器翻译模型经过训练后,在双语平行句对中学习到两种语言之间的的语法及语义信息。在中越神经机器翻译这类低资源的翻译任规模不足,极大限制了翻译表现。中越双语平行句对语料在互联网中获取难度较大,通过平行句对抽取模型将网络爬虫在互联网中选抽取,是解决当下低资源机器翻译任务数据不足问题的有效方法。因此,可构建可比语料库,再通过神经网络技术在可比语料库中抽取可用的双语对齐语料对训练数据进行扩充,通过该方法能够构建出一定规模的高质量中越双语平因此,为增强中越平行句对抽取模型的性能,考虑到预训练模型的强大表征能力且当下网络中存在可用的开源中语预训模型,将预训练语言模型的强大语言表征能力融入到中越双语平行句对抽取任务中可能能够提中越双语平行句对抽取模型性能语言模型与越南语预训练语言模型对双语句对编码,使两种语言的表征相互约束,建立句对表征间联系,再使用自注意力机制计算提升融合后表征内部联系,通过此种多注意力融合针对平行句对抽取这一任务,研究者们主要聚焦于统计规则的方法或基于神经网络的方法对出通过使用信号激励处理的方法对双语句对进行分析判断双语句对的相似性,实现对双语平行句对的筛选。基于统计规则的方法主要依赖于人工设置的统计规则,虽然可筛选出一定的数据,但最终性能表现较较于使用统计规则的方法,通过基于神经网络的方法不依赖于人工制定统计规则,神经网络模型能够自主的在训练数据中学习网络模型对句对进行编码学习,得到句对的词嵌入表征向量,利用该表征计算在语义空间句对的相似性来对双语句对进行筛选,获得可用的双语平行句对。在2017年,Gregoire等人44首次提出使用神经网采用Bi-LSTM模型对句对进行编码,得到句对在语义空间中的词嵌入表征向量,,在英法双语平行句对抽取任务中取得较好的效果。而Grover等人45]在2017年提出双语词嵌入的方法,使得词嵌入语义空间包含两种语言的语言信息,获得双语词嵌入表征,以此计算双语平行句对的相似度,实现对双语平行句对的筛选抽取。上述方法都是基于自训练的词嵌入表征来计算句对的相似度,然而词嵌入的训练依赖于数据规模,当数据规模不表征能力存在欠缺。因此,引入BERT对文本进行表征;同时在双语信息融合的部分,引入注意力机制,使得融合之后的双语表征能够自适应做出调整,提平行句对抽取任务能够从可比语料库中抽取出可用首先需要构建一个包含中越双语数据得可比模的双语数据,除此之外可利用网络爬虫技术数据爬取在互联网中的中越可比篇章数据,主要工作为使用Python语言官方库Requests开模拟HTTP/HTTPSLanguage,HTML)。使用第三方BeautifulSoup库对HTML文本进行解析,得到树形结构BeautifulSoup类实例,通过BeautufulSoup类中标签选择方法获得到包含目标文本标签,从该标签中提取出目标文本,处理为JSON格式数据进够被计算机很好的理解,任何编程语言都可将JSON文本序列化后得到该编程语言键值对的数据结构,例如在Python中可将标准的JSON文本转换为字典结构,从HTML中获取到的键值对结构后再由数据处理脚本对提取出的文本进行 第二章基于多重注意力机制约束的中越双语平行句对抽取方法该爬虫主要针对越南《人民报》、越南《青年报》、越南快三个媒体网站进行爬取,以上三个网站均由专业人员量的中文越南语双语版本页面。通过分析,双语页面语页面的HTML的结构极为类似,使用Python爬虫并行爬取双语页面,能够得到双语对应的HTML结构,由于两种语言的网页中相同内容标签的Class名等HTML属性相近,通过相同的Class选择器能够得到对应的双语可比数据,本洗步骤后能够得到双语可比语料,处理后的标准数据存入Sqlite数据库中,该数2.4基于多重注意力机制约束的中越双语平行句对抽取方法通过交叉注意力机制与自注意力机制使得两种语言体结构如图2.2所示。包含语言信息的词嵌入向量。该模型中文编码器部分选用谷歌发布的Evi-ben。2.4.2文本表征交叉注意力机制约束Ezh-ben=softmax(Ewi-benEzh-ben1√dzh-ber)Ezh-ben(2.1)Evi-ben=sofmax(Ezh-benEi-ben1√di-ben)Ewi分类层分类层拼接交叉注意力机制图2.2基于多重注意力机制约束的中越双语平行句对抽取模型结构图2.4.3文本表征自注意力机制约束交叉注意力之后进行拼接得到包含双语相互约束的表征E₂h,但拼接操作并不能使得两种语言表征之间获得联系,因此采用自注意力机制使该拼接得到的表征建立内部联系得到表征向量Eh-。在自注意力机制后添加全连接前馈网络层。该部分为线性网络、激活函数、线性网络组成,最终得到进行分类的最Ezh-vi=sofmax(Ezh-viEzh-i1√dzh-vi)Ezh-viX=FNN(Ew)X'=GLUE(X)通过表征融合部分,双语句对信息已经映射到同一语义空间,能够得到包含双语信息的表征向量,针对该表征向量做二分类任务,得到分类结果,具体计算2.5实验结果与分析2.5.1实验数据由于中越的开源数据集较少。我们从中越双语新闻网站中收集了大量语料,在该语料数据中进行筛选,并进行人工进行标注,为增强抽取模型的鲁棒性,防止模型出现过拟合,标注正负样本比例为1:5,正样本标签为1,负样本标签为0,最终数据格式为三元组格式,每条数据存在中文、越南语、标签这三种元素,最终用于训练的数据规模为80k。为便于训练时观察模型收敛情况,选取1k数据作为实验验证集。为判断最终模型性能,选取1k数据作为测试集。最终实验数据规模如表2.1所示:表2.1中越平行语料规模数据类型数据量(k)112.5.2实验设置本章方法使用单张Nvidia2080Ti显卡进行实验,实验数据批次大小为32,初始学习率为2e-5,Droupout设置为0.2,隐状态向量大小为256,输出词向量大小为512,当指标连续5轮无增长时停止训练。2.5.3实验评价标准为判断抽取模型的性能,采用精确率(Precision)、召回率(Recall)以及F1值作为评价指标,通过测试集中的数据结果构建混淆矩阵计算以上三个指标,通过三个指标对各个模型的性能进行评判。精确率如式所示,表示抽取标签为1的数据N占所有是数据N中的百分比。召回率如式所示,表示真正抽取的平行句子对与数据集中所有平行句子对的比例,F值是精确度和召回率的调和平均值。具体如以下公式所示:2.5.4中越平行句对抽取对比实验为验证文章提出的抽取方法在中越数据上的有效性,进行了如下几个方法的对比实验:(1)SVM:基于SVM的中越平行句对抽取方法(2)BiLSTM:基于BiLSTM的中越平行句对抽取方法(3)Multi-BERT:基于多语言预训练语言模型平行句对抽取方法(4)Ours:本章方法以上方法在实验中均使用相同的训练集、测试集以及验证集,实验结果见表2.2所示:表2.2对比实验结果表召回率从该实验结果可见,基于深度神经网络的平行句对抽取方法性能远高于传统 第二章基于多重注意力机制约束的中越双语平行句对抽取方法一个进行平行句判别的语义空间进行分类判别能够有效的判断句对是否为平行句对,且在其他NLP任务中表现更优异的深度神经网络模型在句对抽取任务中较于使用Transformer性能提升幅度并不明显,但本章方法中使用各自语言的预为验证本章提出方法的表征融合方式的有效(1)BiLSTM:基于BiLSTM的中越平行句对抽取方法(2)Only-BERT:基于预训练语言模型表征拼接的平行句对抽取方法(3)Multi-BERT:基于多语言预训练语言模型平行句对抽取方法(4)Ours:本章方法表2.3消融实验结果表召回率从该实验结果可见,在各个指标上均体现出统的LSTM模型,且使用多语言预训练语言模型能够在一定程度上消除两种语交叉注意力机制使得两种语言之间的表征相互进行约束自适应的找到两种语言能够更好的包括句对内的语言信息。对可比语料库中的数据进行计算,将计算结果和双语文本共同存储到Sqlite库中作为后期机器翻译模型训练的基础数据,其中部分实例结果展示如表2.4中文结果中华人民共和国越南社会主义共和国ViệtNam经过广泛的研究和测试,如橡胶,我意识到它太厚了,不适合在脚的底部戴着,我决定打印一个具有导电性的压敏油墨颗粒的薄膜传感当人们在正确的环境下工作时,群体模型比个体模型要好得多。议的创始成员。所以细胞是生命最基本的果。想象一下,如果这是你收到 第二章基于多重注意力机制约束的中越双语平行句对抽取方法本章针对中越双语平行句对规模不足的问题,提方法取得了一定性能的提升。共构建出130k训练集、2k验证集以及2k测试集 第三章融合BERT与词嵌入双重表征的中越神经机器翻译方法第三章融合BERT与词嵌入双重表征的中越神经机器翻译3.1引言由于神经机器翻译是一种依靠数据驱动的机器翻译方法,在双语平行语料充足的语种间表现优异,但越南语属于低资源语言,中文等语言与越南语的双语平行语料不足,导致中文-越南语这类低资源语言的神经机器翻译的性能不足,因此,如何提升中文-越南语这类低资源语言的神经机器翻译性能是当今的研究热目前主流的机器翻译方法是神经机器翻译,主要为编码器-解码器架构,编码器将源语言序列的词表id向量进行编码,生成包含源语言信息的隐状态向量表征,解码器接收该隐状态向量,在该向量传递过程中通常会使用到注意力机制(AttentionMechanism)加强解码器对编码器输出隐状态向量的理解,再将处理后的隐状态向量解码成目标语言序列。目前神经机器翻译模型主要有基于循环神经网络(RecurrentNeuralNetwork,RNN)、基于卷积神经网络(ConvolutionalNeuralNetwork,CNN)以及基于Transformer的神经机器翻译模型。针对低资源神经机器翻译任务,目前主要方法有数据增强(DataAugmentation)⁴6-501、元学习(MetaLearning)[51-52、迁移学习(TransferLearning)[2-58以及基于枢轴的方法(Pivot-神经机器翻译模型依赖大量平行语料内的语义信息对模型参数进行优化,在双语平行语料规模较小的情况下,神经机器翻译模型缺乏足够数据进行训练,对语言信息理解能力有限,影响神经机器翻译最终效果。针对这个问题,我们考虑到单语语料相对于双语平行语料更容易获得,如果使用BERT预训练语言模型对大量单语数据进行训练,将BERT在单语数据重学习到的语言信息融入低资源神经机器翻译模型中,提升模型对源语言表示学习能力,提高翻译模型的性能,因此提出了融合BERT与词嵌入双重表征的中越神经机器翻译方法。该方法将BERT预训练模型作为额外编码器对源语言序列进行特征提取,得到输入文本的BERT表征向量,BERT表征向量与经过词嵌入层得到的词嵌入表征向量通过注意力机制自适应相融合得到一个包含词嵌入层和预训练语言模型内语言信息的表征向量,输入翻译模型进行训练,实现融合BERT与词嵌入双重表征的中越神经机器翻译方法。实验表明,通过将源语言文本序列进行双重表征并融合,增强模型的质量。在中-越语言对上的翻译实验表明,相比基准系统,在127k规模的中-越训练数据中该方法获得了1.99个BLEU值的提升,在70k规模的中-越训练数据中该方法获得了4.34个BLEU值的提升,证明融合BERT预训练语言模的表征向量中,无法进行直接观察,因此Zhu等人[6BERT语言模型编码输出的隐状态随机融入Tran构中,将BERT预训练语言模型输出的隐状态向量和词嵌入层输出隐状态向量入层语言信息的隐状态,实现将BERT预训练语言模型中包含的语言信息用于神经机器翻译,该方法在多项公开数据集的翻译任务上相较于Transformer模型取得了较大的提升,证明BERT预训练语言模型作为外部知识库融入神经机器因此,针对如何在低资源神经机器翻译中有效融入BERT预训练语言模型内语言信息方向开展研究工作,提出融合BERT与词嵌入双重表征的中越神经机模型结构更为简单,且Zhu等人的方法依赖于预训练的机器翻译模型做参3.3融合BERT与词嵌入双重表征的中越南语神经机器翻译方法融合BERT与词嵌入双重表征的中越南语神经机器翻译方法,基于Transformer,为编码器-解码器架构。模型对源语言序列分别进行BERT预训练 第三章融合BERT与词嵌入双重表征的中越神经机器翻译方法种表征之间简单的动态融合,得到包含两部分信息的新表征向量做为编码器的输入,经过编码器内自注意力机制模块后,中两种来源的信息进行深层动态融合,最后利用BERT与词嵌入双重表征进行神经机器翻译模型的训练。该方法整体模型结构如图3.1所示。SelfSelf编码器解码器词嵌入模块使用Transformer模型词嵌入部分,该部分不做额外设计,将输入文本根据词嵌入词典分词后输入词嵌入模块,得到输入文本的词嵌入表征Eembedding。BERT是一个通过大量语料进行自监督学习方法训练得到的语言模型,通过大量语料学习后能够给词一个较好的特征表示,使用该特征表示向量参与训练能够实现将大量语料中学习到的语言信息迁移到指定任务中。该语言模型使用的网络架构为多层Transformer结构,相较于RNN和CNN网络在编码过程中能够基于左右两侧所有上下文信息进行表征。由于BERT预训练语言模型的训练需要大量的单语语料以及大量的计算资源,因此本章方法使用谷歌公开的中文BERT预训练语言模型,该预训练语言模型多项中文NLP任务中取得优异表现,证明该模型对中文序列有较强的编码能力。将输入文本根据BERT词典分词后得到输入序列x=(x,K,xn),将输入序列输入到BERT预训练模型后,在该模型的每一层都将输出一个隐状态向量,本章方法使用Eben-ou和词嵌入表征Eembeding进行交叉注意力机制计算,将词嵌入部分输出Eembeding做为Query、Eben-ou作为Key计算注意力权重,将Ebert-ou做为Value和注意力权重相乘,使BERT预训练模型表征受到词嵌入表征建立起联受到Eembeding约束后,得到新的表征的Eben-ou。Ebert-ou=Attention(Query,Ke进行自注意力机制计算进行表征加强,计算过程如式(3.5)(3.6)所示。将Eben-ou和Eembeding进行拼接后经过线性变换维度后得到新的文本序列3.3.4编码器模块BERT与词嵌入表征融合模块得到包含Eben-ou和Eembeding信息的表征向量行一次自注意力机制计算,使得两部分原本独立的部分建立起联系,得到Eber-embeding计算过程如式(3.9)(3.10)所示。融合,Ebert-embeding经过前馈神经网络得到编码器第一层的输出H₁,再经过多层编码层后最终得到编码器最终输出,计算过程如式(3.11)(3.12)(3.13)所示。3.3.5解码器模块解码器接受编码器输出的隐状态向量H作为输入,我们尝试了使用本章提出的表征融合方法在解码器端将Ebert-ou和H进行动态融合的结构设计,最终翻译性能出现了下降,该结果可见于表3.5,因此本章方法在模型解码器不做额外设3.4.1实验数据为验证融合BERT与词嵌入双重表征的中越神经机器翻译方法在低资源情况下有效性,运用爬虫技术在互联网收集了大量中越平行句以及通过平行句对抽取技术获取句对数据,将得到的数据进行了清洗以及Tokenize处理后构建了中越双语平行句对数据集作为实验训练、测试、验证数据,中越神经机器翻译实验语料具体如表3.1所示。数据类型平行句对(k)223.4.2实验设置训练语言模型为Google公司发布的BERT-Base(Chinese)模型。(1)在RNNsearch实验中,网络结构为6层编码器以及6层解码器结构,所使用的词嵌入表征维度为512,隐状态向量维度为256,dropout参数值为0.2。(2)在基于卷积神经网络的实验中,隐状态向量维度设置为768维。编码器为15层卷积神经网络卷积核大小为5,解码器为LSTM网络结构。Dropout参数值为0.1。(3)在Transformer实验中,模型使用6层编码器与解码器网络,每层注意力头数为4,每层单元数量为512,批次大小采用动态调整机制,序列最大长度设置为4096,dropout值为0.3,优化算法为Adam算法,超参数betal为0.9,beta2为0.98。(4)在BERT-fused实验中,在Transformer实验中,模型使用6解码器网络,每层注意力头数为4,每层单元数量为512,批次大小采用动态调整机制,序列最大长度设置为4096,dropout值为0.3,BERT表征维度为768,优化算法为Adam算法,超参数betal为0.9,beta2为0.98。。(5)在本章方法实验中使用参数与BERT-fused参数一致。3.4.3评价标准在机器翻译中,我们对翻译结果通过特有的评价指标我们对BLEU进行简单说明。语言翻译成另外一种语言的质量的分数。如果翻译结果与人工翻译结果相近,则BLEU值就会高。衡量这种接近的程度称为精确度(Precision)。首先通过翻译结果和参考译文的n元语法匹配的计算其个数。计算如公式(3.14)所示:然后对精确度进行计算如公式(3.15)所示:其中C表示翻译结果,Count(n-gram)表示翻译系统译文中n-gram出现的总次数。同时需要长度惩罚因子(brevitypenaltyfactor)对句长控制如公式其中c表示得到的翻译结果的长度,r表示与之对应的参考译文有效长度。最终的BLEU值计算公式如公式(3.17)所示:3.4.4中越神经机器翻译对比实验为验证融合BERT与词嵌入双重表征的中越神经机器翻译的有效性,我们在相同训练集及测试集数据下,进行如下5个中越神经机器翻译方法在翻译性能上的比较实验:(1)RNNSearch:基于循环神经网络结构的神经机器翻译方法(2)CNN:基于卷积神经网络结构的神经机器翻译方法(3)Transformer:基于Transformer网络结构的神经机器翻译方法(4)BERT-fused:在Transformer编码器以及解码器融入BERT的神经机器翻译方法(5)Ours:融合BERT与词嵌入双重表征的神经机器翻译方法 实验结果见表3.2。表3.2中越神经机器翻译对比实验结果从表3.2实验结果中可见,本章提出的方法将源语言序列进行BERT与词嵌入双重表征融合后相较于Transformer模型在中越数据上获得了1.98个BLEU方法相较于BERT-fused方法有在中越数据集上获得了1.26个BLEU值的提升,说明本章方法在低资源的中越神经机器翻译任务中相较于BERT-fused方法能够更加有效的利用到BERT预训练语言模3.4.5不同数据量对比实验为验证本章方法在不同数据量低资源神经机器翻译的效果,我们设计了3组不同数据量下ours方法相对于Transformer方法的BLEU值提升幅度的对比实(1)127.4k中越数据作为训练数据,对比两种方法间的BLEU值变化幅度(2)随机抽取100k中越数据作为训练数据,对比两种方法BLEU值变化(3)随机抽取70k中越数据作为训练数据,对比两种方法BLEU值变化训练语言模型,实验结果见表3.3。表3.3中越不同数据量对比实验结果中越平行句对提升幅度从表3.3实验结果中可见,在70k、100k、127.4k中越数据实验中,本章方 第三章融合BERT与词嵌入双重表征的中越神经机器翻译方法法相对于Transformer的BLEU值提升幅度分别为4.34、2.12、1.99,呈现逐步下降趋势。该变化趋势说明本章方法相对于Transformer模型在BLEU值上的提升随着训练数据的增大提升幅度不断下降。证明本章方法在训练数据越少时BERT预训练语言模型对神经机器翻译模型为探究在使用本章提出的表征融合方式在编码器中引入预训练语言模型对翻译模型的影响,我们设计了以下3组消融实验:(1)仅融合BERT与词嵌入双重表征做为编码器第一层的输入(2)在编码器前三层的输入中融入BERT(3)在编码器全部层的输入中融入BERT三组实验中使用相同的127.4k中越数据做为训练集,使用的验证集、测试集、模型超参数以及中文BERT预训练语言模型相同,实验结果见表3.4。有着较好的补充能力,说明本章提出的表征融合方法在Transformer编为探究使用本章方法在解码阶段融入预训练语言模型信息对翻译模型性能(1)BERT仅与编码器输出隐状态向量融合做为解码器输入(2)BERT仅与词嵌入融合做为编码器输入输出的隐状态向量融合做为解码器输入三组实验中使用相同的127.4k中越数据做为训练集,使用的验证集、测试集、模型超参数以及中文BERT预训练语言模型相同,实验结果见表3.5。表3.5解码阶段融入预训练语言模型消融实验结果从表3.5实验结果中可见,使用本章方法在解码阶段融入BERT对神经机器翻译模型性能造成了负影响。仅在解码阶段融入BERT,导致神经机器翻译性能低于基准模型Transformer,在编码阶段和解码阶段同时融入BERT表现也低于仅在编码阶段融入BERT,说明在解码阶段使用本章提出的表征融合方法融入3.4.8英越神经机器翻译对比实验据集上进行了实验,该数据集数据规模如表3.6所示。数据类型平行句对(k)方法的对比实验,实验结果见表3.7。从表3.7实验结果中可见,本章提出的融合BERT与词嵌入双重表征的中越神经机器翻译方法相较于Transformer模型在英越数据上获得了1.56个BLEU值的性能提升,相较于BERT-fused方法获得了0.41个BLEU值的提升,说明该 第三章融合BERT与词嵌入双重表征的中越神经机器翻译方法方法不仅适用于中越神经机器翻译,在其他低资源神经机器翻译任务中使用源语言的预训练语言模型和词嵌入进行双重表征能够提升神经机器翻译模型性能。本章提出的中越神经机器翻译翻译模型在中越翻译任务中实例结果展示如表3.8所示:中文越南文中华人民共和国nướccộngh越南社会主义共和国越南境内在远古时代已有人类活动的痕迹。西、云南接壤,中越陆地边界线长1347公里;西与老挝、柬埔寨交界;东和东南濒临南中国海。陆地面积32.9万平方公里。越南属东7时区。首都河内时间比北京时间晚1个小时。越南国旗旗地为红色,旗中心为一枚五角金星。红色象征革命和胜利,五角金星象征越南共产党对国家的领导,五星的五个角分别代表工人、农民、士兵、知识分子和青年。越南民间把莲花作为国花,以它作为力量、吉祥、平安、光明的象征,还把莲花比喻英雄和神佛。总之,一切美好的越南国体为马克思列宁主义社会主义共和制人民共和国。越南是发展中国家,1986年开始实行革练模型表征与词嵌入表征的自适应动态融合,能够有效将BERT内语言信息融入神经机器翻译模型,有效提升了中文-越南语神 第四章基于预训练指导推敲生成的中越神经机器翻译方法中证明能够有效提升神经机器翻译性能。由于源语言作为模型的输入是已知的,能够对源语言进行分析得到语言信息,将该语言信息加入神经机器翻译模型中,步骤,设计第二个解码器,利用其对第一个生成器中生成的序列进行推敲打磨,该思路方法,在基于Transformer模型的神经机器翻译模型中设计添加推敲网络2014年Sutskever等人提出了基于循环神经网络(RNN)的机器翻译模型,使得编码器-解码器这一架构广泛应用于序列生成任务中,该架构在解码部分,依的编码器-解码器架构模型在生成的时候是不符合人类行为习惯的,为让序列生成过程更加贴近人类行为,在2017年提出了推敲网络,用于序列生成任务,推2019年,Li等人[63将推敲网络应用于基于文档的对话生成这一任务中,利用利用推敲网络两段解码结构,在第二段解码部分姜文档结构信息融入模型,实验证明在第二段解码部分融入外部信息知识能够提升模型性能。考虑到在人类阅读翻译过程中,存在结合上下文进行打磨这一过程,但仅仅使用两段解码并不能完全模拟实现该过程,人类阅读翻译过程中,存在先验知识的指导,当结合上下文理解猜测未知词的意思时往往是结合过往学习的语言知识,如果先验知识不充分时,也难以正确理解猜测出未知词的意思,使得打磨过程出现错误。因此提出利用目标语言预训练语言模型内的语言知识作为外部先验知识对推敲过程进行指导。在中-越语言对上的翻译实验表明,相比基准系统,在100k规模的中一越训练数据中该方法获得了0.87个BLEU值的提升,在70k规模的中一越训练数据中该方法获得了1.13个BLEU值的提升,证明利用推敲网络将目标语言预训练语言模型作为先验知识融入神经机器翻译模型能够提升翻译性推敲网络是Xia等人于2017年提出的一种序列生成任务模型,基于Sutskever等人提出的编码器-解码器架构,目的是模拟人类阅读翻译及书写草稿后优化行为来设计深度神经网络模型来完成序列生成这一任务。推敲网络在传统编码器-解码器架构上添加第二段解码器,在第一段解码后可得到较为粗糙的译文,引入第二段解码器针对前一次解码的粗糙译文结合源语言编码信息对译文再次进行解码,得到更为流程的高质量译文,其架构如图4.1所示。Encoder 第四章基于预训练指导推敲生成的中越神经机器翻译方法推敲网络基于人类的感知行为,但人类的感知行为二段解码过程进行指导,当下序列生成任务的主流模该方法整体模型结构如图4.2所示。输出输出dVi-Embeddingd图4.2基于预训练指导推敲生成的中越神经机器翻译方法模型结构图4.4.1编码器本章提出的基于预训练指导推敲生成的中越神经机器翻译方法主要工作为在解码端开展设计,编码段使用Transformer模型编码器,该编码器为六层结构,每一层由多头自注意力(MultiHead)机制模块、DropOut模块、层归一化模块、前馈网络组成,输入为源语言序列的词嵌入表征E,输出文本序列隐状态表征向量H,该表征向量作为第一段解码器和第二段解码4.4.2第一段解码器第一段解码器仅需生成粗略的译文,采用标准的自过编码器编码后的隐状态表征向量H,输出目标语言在词典中的概率Pfirs,通过该概率可获得粗略的译文文本sfins。4.4.3第二段解码器将第一段解码器生成的粗略译文sis输入预训练语言模型进行编码得到表征量E1e,使用交叉注意力机制使得Ere受到Einr-ber的约束得到表征向量4.4.4损失计算4.5.1实验数据为验证本章提出的基于预训练推敲指导生成的中越神经机器翻译方法有效选取了以下规模的数据进行实验,中越神经机器翻译实验数据集如表4.1所示。 第四章基于预训练指导推敲生成的中越神经机器翻译方法数据类型平行句对(k)224.5.2实验设置置为4096,dropout值为0.3,优化算法为Adam算法,超参数betal为0.9,beta2为0.98。(4)基于Transformer的推敲网络实验中,模型参数与Transformer的方法一致。4.5.3评价标准4.5.4中越神经机器翻译对比实验(3)Ours:基于预训练指导推敲生成的中越神经机器翻译方法以上方法在实验中使用相同的训练集、测试集以及验证集,实验结果见表4.2。从表4.2实验结果中可见,推敲网络相对于基线模型能够对翻译结果做出优于Transformer模型在中越数据上获得了0.87个BLEU值的性能提升,说明使为探究预训练语言模型在推敲网络的推敲过计了以下3组消融实验:(1)RNN-Deliberation:基于RNN的推敲网络神(2)Transformer-Deliberation:基于Transformer的推敲网络神经机器翻译方法(3)Ours:基于预训练指导推敲生成的中越神经机器翻译方法模型超参数,实验结果见表4.3。从该实验结果中可见,引入目标语言预训练0.36个BLEU值的提升,表明在推敲网络中引入目标语言预训练语言模型作为为验证本张方法在其它语种翻译任务上有效性,我们还在IWSLT15英越翻译数据集上进行了实验,从该数据集中抽取了100K数据作为实验数据,该数据集数据规模如表4.4所示。 数据类型平行句对(k)Deliberation方法和Ours方法的对比实验,实验结果见表4.5。表4.5英越神经机器翻译对比实验结果从表4.5实验结果中可见,本章提出的神经机器翻译方法相较于Transformer模型在英越数据上获得了1.28个BLEU值的性能提升,相较于Transformer-Deliberation方法获得了0.52个BLEU值的提升,说明该方法不仅适用于中越神经机器翻译,在其他语言方向神经机器翻译任务中利用推敲网络引入目标语言预训练语言模型同样能够提升神经机器翻译模型性能。本章提出的中越神经机器翻译翻译模型在中越翻译任务中实例结果展示如表4.6所示:中文越南文越南社会主义共和国和主要民族语言。地之前一直是官方文字。本章针对中越机器翻译中译文质量不足的问题,使得模型参数相较于Transformer有了成倍的增长,计算资源消耗较大,未来的 第五章融合预训练语言模型的中越神经机器翻译原型系统中越机器翻译能够在一定程度上消除中越两国间语言不同的问题,极大推动中越两国在政经、文化各方向的深度交流合作。尤其在文化输出方面,包括越南在内的东南亚各国人民对于中国的文学、影视及音乐等抱有极大兴趣,但中文是一门历史悠久的语言,东南亚各国人民学习中文成本过高,这使得中文文化输出受到限制,但机器翻译系统能够实现自动将中文翻译至越南文,译文经过简单的调整后便可让受众们流畅的理解,所以搭建一个有效的中越神经机器翻译系统具有极高的实用价值。本章对之前的工作进行整合,构建了融合预训练语言模型的中越机器翻译模型,该系统主要包含平行句对判别及中越机器翻译这两大功能。平行句对判别功能主要实现收集双语平行中越句对,用户根据系统给出的判别结果加上自身判断理解决定是否将该句对纳入训练库,给后期机器翻译模型训练提供基础语料数据。中越机器翻译功能则根据收集到的双语平行句对进行训练,模型收敛后保存模型参数,最终将模型参数部署到线上服务中,系统提供HTTP接口,在模型参数部署后,用户根据接口规范提交相应参数,系统即可对参数中文本进行翻译,返回翻译接口。融合预训练语言模型的中越神经机器翻译原型系统整体架构如图5.1所示。融合预训练语言模型的中越神经机器翻译原型系统融合预训练语言模型的中越神经机器翻译原型系统融合预训练语言模型的中越神经机器翻译原型系统主要由双语句对平行判别模块、双语句对存储模块、数据预处理模块、翻译模型训练模块、线上翻译服5.3.1基础开源工具针对机器翻译这一任务,有许多学者和工程师开发训练语言模型的中越神经机器翻译原型系统主要涉及到的基础开源工具如下所(1)Pytorch框架,该框架由FaceBook公司开发,基于Python

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论