[硕士论文精品]统计机器翻译领域自适应问题研究_第1页
[硕士论文精品]统计机器翻译领域自适应问题研究_第2页
[硕士论文精品]统计机器翻译领域自适应问题研究_第3页
[硕士论文精品]统计机器翻译领域自适应问题研究_第4页
[硕士论文精品]统计机器翻译领域自适应问题研究_第5页
已阅读5页,还剩60页未读 继续免费阅读

[硕士论文精品]统计机器翻译领域自适应问题研究.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要I摘要统计机器翻译系统的构建中,训练语料的领域成为影响翻译质量的一个重要问题。当待翻译文本与训练语料来自同一领域时,译文质量一般较好,否则译文质量较差。本文针对统计机器翻译中的领域自适应问题进行研究,按照是否知道翻译的目标领域分为两种情况一种是明确知道待翻译的目标领域,但缺乏足够的该领域双语语料库;另一种是并不明确将要翻译的目标领域。按照这两种情况的不同,本文将自适应研究分为离线自适应和在线自适应。离线自适应主要用于解决翻译目标已知的情况,允许利用领域语料重新训练翻译系统,耗时较长。在线自适应主要用于解决翻译目标未知的情况,主要根据待翻译句子的领域类别动态调整翻译模型、语言模型或者参数等,以达到比使用单个模型更好的翻译效果。针对这两情况,本文提出了三种自适应策略1基于扩大数据集规模的离线自适应领域数据的规模对翻译质量有很大影响,本文介绍了从混杂语料库中寻找与某个领域相似数据的方法,以及自适应模型与原模型共同使用的策略。在专利文献三个领域上的实验表明,基于扩大数据集的离线自适应在评测指标BLEU值上提高的绝对值分别为526、871、1499。2基于单语上下文的离线自适应领域单语的获取要比双语容易得多,有效利用源语言单语也会提高翻译质量。本文研究了利用单语上下文获取领域特征的方法,并将领域特征融入对数线性模型中,以提高译文选择的正确率。在IWSLT05、IWSLT06、IWSLT07上的实验表明,引入领域特征都带来翻译质量的改善,BLEU值提高分别为069、016、137。实验还表明,以词性作为上下文要比以词作为上下文效果好。3基于相似度的在线自适应基于相似度的在线自适应认为,对数线性模型中的每个特征都是从子领域模型中根据相似度加权计算得到的。权重的计算依赖于待翻译句子与各个领域的相似度。本文比较了夹角余弦和语言模型句子概率两种相似度的计算方法。实验效果表明,基于相似度的在线自适应能综合利用各个子模型的候选译文,有效提高翻译质量,两种相似度计算方法效果接近。关键词统计机器翻译、领域自适应、离线自适应、在线自适应、相似度、线性插值、信息检索、分类模型ABSTRACTIIRESEARCHONDOMAINADAPTATIONINSTATISTICALMACHINETRANSLATIONCAOJIECOMPUTERAPPLICATIONTECHNOLOGYDIRECTEDBYLIUQUNWHENBUILDINGSTATISTICALMACHINETRANSLATIONSMTSYSTEMS,THEDOMAINOFTRAININGDATAOFTENINFLUENCESTRANSLATIONQUALITYIFTHEDOCUMENTSTOBETRANSLATEDCOMEFROMTHESAMEDOMAINASTHETRAININGDATA,THESMTSYSTEMPERFORMSWELLOTHERWISE,THETRANSLATIONQUALITYWILLBEDEGRADEDTHEDISSERTATIONFOCUSESONTHEPROBLEMOFDOMAINADAPTATIONINSMTWEDIFFERENTIATETHEPROBLEMINTWOCASESINONECASE,WEKNOWTHETARGETDOMAINBUTLACKOFLARGEAMOUNTOFDOMAINSPECIFICBILINGUALCORPORAINTHEOTHERCASE,WEDONTKNOWTHETARGETDOMAIN,WHICHMEANSTHESMTSYSTEMMAYBEUSEDFORTRANSLATINGSENTENCESFROMANYDOMAINTHISDISSERTATIONSTUDYOFFLINEANDONLINEDOMAINADAPTIONINTHETWOCASES“OFFLINEDOMAINADAPTATION”FOCUSESONHOWTOIMPROVETHETRANSLATIONQUALITYWHENWEKNOWTHETARGETDOMAINITALLOWSRETRAININGTHESMTSYSTEMWITHNEWDATAANDOFTENTAKESALONGTIME“ONLINEDOMAINADAPTATION”FOCUSESONHOWTOIMPROVETHETRANSLATIONQUALITYWHENWEDONTKNOWTHETARGETDOMAINITWILLDYNAMICALLYADJUSTTHETRANSLATIONMODEL,LANGUAGEMODELANDPARAMETERSACCORDINGTOTHESIMILARITYBETWEENSOURCETEXTANDDOMAININTHISDISSERTATION,THREEMETHODSAREPROPOSEDTOSOLVETHEDOMAINPROBLEM1OFFLINEDOMAINADAPTIONBASEDONENLARGINGDOMAINSPECIFICTRAININGDATAQUANTITYOFDOMAINTRAININGDATAHASIMPORTANTEFFECTSONQUALITYOFSMTSYSTEMTHISDISSERTATIONPROPOSESDIFFERENTWAYSTOFINDDOMAINSIMILARDATAFROMDOMAINMIXEDCORPORAADAPTEDMODELSARETRAINEDONTHEDOMAINSIMILARDATAANDCOMBINEDWITHORIGINALMODELSINDIFFERENTWAYSTHEEXPERIMENTSSHOWSTHATOFFLINEDOMAINADAPTATIONBASEDONENLARGINGDOMAINTRAININGDATACANIMPROVETRANSLATIONQUALITYDRAMATICALLYINTHREEPATENTDOMAINS,THEABSOLUTEIMPROVEMENTOFTHREEDOMAINSONEVALUATIONMETRICBLEUARE526,871AND14992OFFLINEDOMAINADAPTATIONBASEDONMONOLINGUALCONTEXTGENERALLY,DOMAINSPECIFICMONOLINGUALCORPORAAREEASIERTOOBTAINTHANBILINGUALONESTHEDISSERTATIONINTRODUCESDOMAINFEATUREINTHELOGLINEARMODELTHECALCULATIONOFDOMAINFEATUREINVOLVESTHECONTEXTOFDOMAINSPECIFICMONOLINGUALCORPORAOUREXPERIMENTRESULTSSHOWTHATDOMAINFEATUREPLAYSAPOSITIVEROLEINTRANSLATIONTHEABSOLUTEIMPROVEMENTSONIWSLT05,IWSLT06ANDABSTRACTIIIIWSLT07ARE069,016AND137FURTHERMORE,USINGPOSPARTOFSPEECHASCONTEXTRECEIVESHIGHERBLEUTHANWORDS3ONLINEDOMAINADAPTATIONBASEDONSIMILARITYINONLINEDOMAINADAPTATION,EACHFEATUREANDPARAMETERINLOGLINEARMODELISCALCULATEDATTRANSLATINGTIMEBUTNOTATTRAININGTIMETHESIMILARITYBETWEENINPUTTEXTANDDOMAINISTRANSFORMEDINTOWEIGHTSTOGETTHEFINALFEATUREVALUEANDPARAMETERSFROMSUBMODELSTRAINEDBEFOREHANDTHEDISSERTATIONCOMPARESTWODIFFERENTWAYSTOCALCULATESIMILARITYEXPERIMENTRESULTSSHOWTHATONLINEDOMAINADAPTATIONBASEDONSIMILARITYCANUTILIZETRANSLATIONOPTIONSFROMALLDOMAINSANDGETBETTERTRANSLATIONRESULTKEYWORDSSTATISTICALMACHINETRANSLATIONDOMAINADAPTATIONOFFLINEADAPTATIONONLINEADAPTATIONSIMILARITYLINEARINTERPOLATEINFORMATIONRETRIEVALCLASSIFICATIONMODEL目录IV目录摘要I目录IV图目录VI表目录VIII第一章引言111研究背景及意义112研究现状分析2121离线自适应3122在线自适应613研究目标与内容714论文的组织结构8第二章基于扩大数据集的离线自适应921引言922相似数据选择策略9221基于信息检索模型的数据选择10222基于分类模型的数据选择11223两种数据选择策略的比较1123相似数据集的使用12231线形插值使用多个模型12232判别式方法使用多个模型1324实验与分析13241实验设置14242基于扩大数据集的离线自适应实验1525本章小结18第三章基于单语上下文的离线自适应1931引言1932基本思想介绍1933基于单语上下文的领域自适应方法21331对数线性模型21332领域特征介绍2234相关工作2535实验与分析27目录V351实验设置27352实验结果28353词特征与词性特征的比较31354单语规模的影响3536本章小结36第四章基于相似度的在线自适应3841引言3842在线自适应模型介绍38421在线自适应中特征值的计算39422在线自适应中参数的计算39423相似度的计算4043在线自适应流程与算法4144实验与分析44441实验设置44442实验结果与分析4645本章小结50第五章全文总结与展望5151总结5152展望52参考文献53致谢I作者简历II图目录VI图目录图11使用源语言单语进行半监督学习4图12XU2007多领域自适应策略6图21线性插值系数的计算13图22基于扩大数据集的离线自适应实验步骤14图31经济领域例句对齐结果20图32单语规模与BLEU值关系36图41在线自适应方法流程图41图42多领域候选翻译列表融合示意图43图43在线自适应参数计算过程43VIIVIII表目录表21扩大数据集规模的训练语料14表22各领域开发测试集数据15表23分类器的性能指标15表24离线自适应方法在专利混杂语料上的实验结果16表25与BLEU值的关系17表26离线自适应方法在新闻语料上的实验结果17表31包含“中国”一词的平行句对和单语句子20表32样例中的翻译概率23表33经济领域双语中“中国”下文词的统计信息23表34功夫电影领域“中国”下文词的统计信息24表35领域特征的计算24表36基于单语上下文领域自适应实验语料情况28表37CONTEXT取值含义29表38IWSLT上的实验结果30表39采用不同上下文特征对自适应效果的影响31表310使用词和词性特征被赋予领域特征的短语对数目比较32表311在POS1影响下被赋予领域概率的短语对样例33表312译文质量改善的例句34表41在线自适应语料描述44表42在线自适应测试集构成45表43在线自适应实验结果46表44短语“我的照相机”的部分候选译文48表45在线自适应翻译例句49IX第一章引言1第一章引言11研究背景及意义互联网的不断发展产生了海量的文本,人们渴望获得母语之外的其他语言文本中所包含的信息,对自动翻译的需求变得越来越强烈。在这种背景下,统计机器翻译成为近年来自然语言处理NLP研究领域的热点问题,其主要思想是用数学的方法对翻译过程建模,从双语平行语料库中自动学习翻译知识,利用这些翻译知识建立数学模型来进行翻译。统计机器翻译具有知识获取方便、领域移植性好、语言无关性好、开发周期短等特点,在专利文献翻译、网页翻译、跨语言检索等方面发挥越来越重要的作用。统计翻译思想最早提出是在上世纪四五十年代,但受限于当时的计算能力和语言资源,并没有很大发展。九十年代初期,IBM公司的BROWN等人提出基于噪声信道思想的翻译模型BROWN1993,统计机器翻译重新兴起。此后,经过近二十年的研究,统计机器翻译取得了长足发展。近年来,因其重要的学术价值和广阔的应用前景,以及语言资源的不断丰富和计算能力的不断攀升,统计机器翻译的研究出现一个高潮。在此期间,很多新模型和方法被提出并取得良好的效果。在应用方面,已经有一些实用系统被陆续开发出来。“谷歌GOOGLE”公司风靡全球的在线翻译服务1就是一个统计机器翻译系统。到目前为止,依靠强大的计算能力和海量的WEB资源,它能提供五十多种语言的翻译服务。统计机器翻译系统的构建一般分为训练和翻译两个主要步骤。训练步骤是从双语句子对齐的资源中学习统计知识并进行参数训练。典型的基于短语的统计机器翻译系统的训练包含翻译模型训练、语言模型训练、参数训练三个主要部分。训练过程结束后会得到以下统计知识短语翻译模型、语言模型、参数值等。翻译步骤是利用训练得到的统计知识对待翻译的句子按短语切分后进行解码得到最优译文。如果抛开翻译模型的好坏而纯从训练资源的角度来看,统计机器翻译系统的质量与以下两个因素有重要关系一是双语对齐资源的规模和质量,二是训练资源与待翻译文本的领域相似性。用于构建统计机器翻译系统的双语资源一般来自于同一个领域,主题、句式上接近。同领域的双语资源规模越大、质量越高,训练学习的统计知识就越准确。当待翻译文本与训练文本在主题、句式上越接近时,1HTTP/TRANSLATEGOOGLECN/第一章引言2译文质量也越高,反之则越差。比如用面向新闻领域的翻译系统翻译口语显然不能得到理想效果,反之亦然。这也是通用的机器翻译软件一般对专利文献等领域性较强的文本翻译质量不尽人意的重要原因。由此可见,领域问题是统计机器翻译系统中的一个重要问题。几个著名的机器翻译评测也是分领域进行的,比如面向新闻领域的NIST2评测、面向旅游领域的IWSLT3评测。09年国内的机器翻译评测CWMT20094也区分了新闻和科技两个领域。在构建实用的统计机器翻译系统时,待翻译句子的领域是未知的,用不同领域语料构建的翻译系统效果可能差别很大,因此领域问题带来的影响尤为重要。因此,面向统计机器翻译的领域自适应问题研究成为一个重要的研究课题。12研究现状分析领域自适应问题在分类问题和语音识别领域已有较好的研究,但由于机器翻译问题的复杂性,在翻译模型尚不完善的阶段,其引起的关注较少。近几年,随着统计机器翻译模型的不断完善,越来越多的学者注意到领域自适应问题在机器翻译中的重要性,相关的研究工作开始增多。目前,按照翻译的目标领域是否已知,领域自适应的研究可以分为已知翻译领域下的自适应和未知翻译领域下的自适应。已知翻译领域的自适应是指待翻译文本所属的领域是已知的,主要研究在这种情况下如何通过扩大双语资源的规模和改善双语质量来提高翻译系统质量。比如在进行NIST、IWSLT等各种评测中已知翻译领域,所采用的自适应策略都属于这一种。以欧洲语言对之间的翻译为主的WMTWORKSHOP20075专门设置了领域自适应任务。未知翻译领域下的自适应是指待翻译文本所属的领域是未知的,主要研究在这种情况下,如何充分利用已有的各个领域的双语资源完成翻译任务。在开发实用系统尤其是在线翻译系统时,这个问题比较常见。为方便起见,我们将已知翻译领域下的自适应称为“离线自适应”,将未知翻译领域下的自适应称为“在线自适应”。离线自适应允许利用新的双语资源重新进行训练步骤得到新的翻译模型、语言模型和参数等,耗时较长。而在线自适应不允许重新进行训练,利用已有的多个领域的子翻译系统到自适应效果,适用2NIST评测HTTP/WWWNISTGOV/SPEECH/TESTS/MT3IWSLT评测HTTP/MASTARPJNICTGOJP/IWSLT2009/4CWMT2009评测HTTP/NLPICTACCN/DEMO/CWMT/5WMT2007HTTP/WWWSTATMTORG/WMT07/第一章引言3于互联网上的在线即时翻译。下面我们分别介绍离线自适应和在线自适应的相关工作。121离线自适应在离线自适应范畴内,按照翻译对象和模型的不同又可以分为语言模型自适应和翻译模型自适应。1211语言模型自适应语言模型自适应先是被应用于语音识别领域,并取得良好的效果DEMORI1999JANISZEK2001。ECH2004和ZHAO2004等人将这一思想引入统计机器翻译领域。基本思想是从首次翻译得到的结果中构造查询,从海量的单语语料库中检索相似数据,用相似数据训练得到一个自适应语言模型,将该语言模型与原有的语言模型联合使用。ECK2004使用TFIDF模型,以初次翻译得到的1BEST译文作为查询文档,在XINHUANEWS19912001英语单语语料库约2亿词中进行检索。将XINHUANEWS语料库中的每个句子视为一个文档,从检索结果中返回TOPNN100K,150K,200K个文档,即排名靠前的N个句子。将N个英文句子重新训练一个自适应语言模型,用自适应的语言模型替换原来的通用语言模型,重新对测试集进行翻译。他的实验结果表明,在阿拉伯语到英语的翻译中,语言模型自适应在NIST值上提高了029个点。他们尝试了在检索中使用词根还原STEM、过滤停用词等技术,但对翻译结果帮助不大。此外,他们还尝试使用了OKAPI检索模型和SIMPLEKL检索模型,但同IFIDF模型相比,并无明显改善。ZHAO2004进行语言模型自适应的方法要比ECK复杂。查询的构造不再直接使用1BEST译文,而是采用了NGRAM来构造查询。NGRAM的获得采用了三种方法进行比较1是从1BEST译文中抽取NGRAM;2是从NBEST译文中构造NGRAM;3是从翻译模型中直接读取源语言每个单词的所有NGRAM翻译。方法3得到的NGRAM是最多的,其次是方法2,最少的是1。在查询模型上,他们使用了结构化查询模型,将NGRAM词序考虑进来,检索得到的单语质量更高。最后,用检索的单语构造自适应语言模型,并将该自适应语言模型与原有的语言模型插值使用。他们的方法在NIST02汉英测试集上有明显提高,语言模型自适应使NIST值从78提高到812,BLEU值从01952提高到02068。ZHAO2004的方法与ECK2004的方法比较,在以下三个方面有所改进1查询构造上不再限于仅使用1BEST译文,而是采用多种方法2信息检索模型使用了结构化查询模型,考虑来了词序,比基于词频的TFIDF模型要好。第一章引言43自适应的语言模型与源语言模型插值使用,比单独使用一个模型要好。BULYKO2007比较了使用自适应语言模型的不同策略。他们将使用自适应语言模型的方法分为两种,称为UNSUPERVISEDADAPTATION和DISCRIMINATIVEADAPTATION。UNSUPERVISEDADAPTATION的做法是用一个通用语言模型参与解码,产生NBEST译文。在1BEST译文上最优化语言模型插值的参数,使得1BEST译文的困惑度最小。最后使用确定好的语言模型参数对NBEST重新打分和排序。DISCRIMINATIVEADAPTATION的做法是直接以机器翻译的指标BLEU值或者TER值作为最优化对象,将语言模型插值系数的确定与机器翻译的参数训练一起进行。BULYKO2007在不同的数据集上比较了这两种语言模型自适应方法,他们的实验结果表明DISCRIMINATIVEADAPTATION要优于UNSUPERVISEDADAPTATION。总结起来,目前对语言模型自适应的研究思路基本上都是采取扩大训练数据规模的方法。一般都使用信息检索模型,从单语语料库中检索与待翻译领域相似的句子,用这些句子构建自适应的语言模型以提高翻译效果。1212翻译模型自适应翻译模型自适应研究相关工作较多,比较典型的有以下工作。HILDEBRAND2005提出一种翻译模型自适应方法,从大规模的双语平行语料库中检索与测试集句子领域类似的语料,在这些语料上重新训练一个自适应翻译模型,将自适应翻译模型与原模型联合使用,提高了翻译质量。HILDEBRAND所采用的翻译模型自适应的方法与语言模型自适应的方法非常相似。他与语言模型自适应的两个研究者ECK、ZHAO都是CMU大学STEPHANVOGEL组里的研究人员。UEFFING2007UEFFING2008提出一种在机器翻译中使用半监督学习的自适应算法。他们的自适应方法如图11所示。双语语料解码器训练统计机器翻译翻译模型、语言模型、参数按一定规则,选择好的译文组成人工双语NBEST译文INDOMAIN单语合并到双语图11使用源语言单语进行半监督学习第一章引言5他们的方法中,首先利用双语语料库训练一个初始的翻译系统,然后对INDOMAIN的源语言单语进行翻译并对翻译结果进行打分,选择分数较高的译文与源语言单语构成人工构造的双语语料库,然后将构造出来的双语语料库与原有的平行语料库合并进行训练。重复该过程,直到到达一定的轮数。这时候得到的增强的模型翻译效果比初始翻译系统要好。WU2008研究在缺乏INDOMAIN的双语资源情况下,如何有效利用INDOMAIN的词典和单语来提高翻译质。对INDOMAIN单语的使用方法是训练一个INDOMAIN的语言模型与OUTDOMAIN单语的语言模型插值使用。对INDOMAIN词典的使用方法是由对每个词条赋予一定的概率,改造成INDOMAIN翻译模型,与原有的OUTDOMAIN双语资源训练得到的翻译模型联合使用。此外,类似UEFFING等人的工作,他们还尝试将初次翻译得到的1BEST译文与源文合并构造双语资源,将构造出的双语资源加入训练语料,反复迭代直到在开发集上BLEU值不再提高。WU2008的工作综合利用INDOMAIN的源语言单语、目标语言单语、词典进行自适应,取得了非常不错的效果。在很多统计机器翻译自适应研究工作中,并没有明显区分语言模型自适应与翻译模型自适应,很多情况下两者都是一起进行的。WU2008的工作也不限于翻译模型的自适应,他们对INDOMAIN单语的使用就属于语言模型的自适应。以欧洲语言之间翻译为主的WMTWORKSHOP2007专门设置了领域自适应的子任务。KOEHN2007综合使用了语言模型和翻译模型的自适应参加该项评测,取得不错的效果。他们比较了只使用INDOMAIN语料、只使用OUTDOMAIN语料、合并INDOMAIN与OUTDOMAIN语料、分别用INDOMAIN和OUTDOMAIN训练两个翻译模型的译文质量。发现使用两个模型的方法要比前三种效果都好。对于多个模型的融合,采用了判别式的方法将其作为不同的特征融入对数线性模型中,这种融合方法我们将在23节进行介绍。总结起来,翻译模型自适应的方法主要有以下途径1通过相似性检索办法,利用该领域单语构造查询从大规模双语资源中检索相似语料,扩大该领域的训练数据集规模。2利用源语言的单语进行半监督学习,从初始翻译结果中选择较好的译文构造人工双语,将人工双语加入训练集重新训练,迭代直到开发集上BLEU不再提高。3对领域词典、多词表达及翻译等资源通过赋予概率的办法直接变成翻译模型使用。第一章引言6122在线自适应在线自适应是在已经训练好数个领域的模型情况下,根据待翻译的句子的领域特征动态调整翻译模型、语言模型或者参数等,以达到比使用单个模型更好的翻译效果。在线自适应不需要重新进行训练步骤,耗时较短。XU2007提出一种解决多领域MULTIDOMAIN自适应问题的策略,多领域是指待翻译的文本来自于各个不同的领域,本质上是一种在线自适应策略。图12展示了他们的做法。图12XU2007多领域自适应策略如图12所示,他们的做法是用所有的双语资源(多个领域混合)训练一个通用的模型,然后在不同领域的开发集上训练参数。对待翻译的句子,根据各个领域源语言的语言模型困惑度将句子分类到不同的领域,然后利用该领域已训练好的参数进行翻译。FOSTER2007按是否有少量的INDOMAIN语料区分两种情况下的自适应CROSSDOMAINADAPTATION和DYNAMICADAPTATION。首先将训练语料按照主题分类或者自动聚类到不同的数据集,在每一个数据集上分别训练语言模型和翻译模型。CROSSDOMAINADAPTATION是在有部分目标领域的双语语料情况下,用该领域的数据作为开发集来调参;DYNAMICADAPTATION是在缺乏目标领域双语的情况下,从各个领域中抽取出部分语料合并后作为开发集调参。当翻译某个领域的文本时,首先计算该文本其与分类或聚类好的不同数据集之间的距离,然后将距离转第一章引言7换为权重,来加权各个子模型,最后得到自适应后的模型。用该自适应后的模型来翻译文本,将比不使用自适应策略模型在BLEU值上高出大约1个点。L2007对离线自适应和在线自适应都做了研究,提出通过离线的数据选择和在线的模型优化的策略进行自适应。离线的数据选择是根据测试集从双语语料库中检索相似句子,训练得到新的翻译模型。在线的数据优化是预先训练好几个领域的子模型和一个通用模型,对待翻译的每个句子,分别在原语料库中进行检索,根据检索结果中各个模型的句子所占的比重,提出了4种使用子模型的策略。模型优化实际上是对多个短语表的插值使用,插值的系数由检索到的隶属子模型的句子在整个检索结果集中的比例决定。在线自适应的主要思想是根据待翻译文本或者句子与已知领域的相似性分数动态调整翻译模型、语言模型或者参数,翻译效果要比单独使用单个领域模型的效果强。13研究目标与内容理论上讲,统计机器翻译与传统基于规则的翻译方法相比,本身具有良好的移植特性,只要获得某个领域的足够多的双语语料库,通过重新训练就可以获得该领域的翻译模型,但实际应用中达不到这么理想的状况。一般来说,领域分类明确的大量双语语料是难以获取的。在统计机器翻译的观点来看,大部分领域的双语资源都是贫乏的。另一方面,我们所获取的大量双语语料库通常是领域混杂的,并没有明确的领域划分。比如,从互联网上获取的双语常常是各个领域的混杂在一起的,并没有明确的领域信息。总结起来,在构建统计机器翻译系统时存在以下两种情况。一种情况下,我们明确知道翻译系统的目标领域,但对于该领域我们并没有足够的领域语料库。有时候,我们甚至根本没有目标领域的双语平行语料库,但我们可能有大规模的单语语料库、领域混杂语料库。如何在没有充足的领域双语语料库的情况下,有效利用领域混杂的语料库、单语语料库提高翻译系统质量是我们希望研究的问题。另一种情况下,我们在建立机器翻译系统时并不十分清楚这个系统将来会用于哪个领域翻译。仅仅将各个领域的训练数据混合起来训练一个通用模型显然并非最佳方案。如何根据用户输入的文本或者句子自适应的调整模型参数或者选择不同的翻译模型进行翻译也是我们希望研究的问题。对于以上两个问题,本课题分别研究了离线自适应与在线自适应的方法。离线自适应主要解决已知领域下语料缺乏的问题。主要有两条研究内容一是努力寻求扩大领域数据集规模的方法,二是充分利用容易获取到的领域单语数第一章引言8据,从大规模的领域单语中获得一些有用的上下文信息,在进行短语译文的选择时起作用。在线自适应研究主要解决未知领域的翻译问题。主要研究内容是将待翻译句子与已知领域的相似度转化为权重,线性加权统计机器翻译模型主要特征包括翻译模型特征、语言模型特征等,对于各个领域训练得到的参数也采用线性回归的方法。总结起来,本文的主要研究目标是解决已知待翻译数据领域情况下的训练数据不足和未知待翻译数据领域情况下如何改善翻译质量的问题。本文的主要研究内容包含以下三个方面1基于扩大数据集规模的离线自适应2基于单语上下文信息的离线自适应3基于领域相似度的在线自适应14论文的组织结构第一章主要介绍课题的研究背景和意义,介绍了国内外关于统计机器翻译领域自适应的研究现状,阐述了论文的研究目标和内容。第二章研究了基于扩大数据集规模的离线自适应方法。介绍了扩大数据集的方法和相似数据集的使用策略;介绍了使用多个翻译模型和语言的方法,最后给出了实验结果和分析。第三章研究了基于单语上下文特征的离线自适应方法。介绍了使用单语上下文特征的模型,介绍了使用到的领域特征,最后给出实验结果和分析。第四章研究了基于领域相似度的在线自适应方法。介绍了相似度计算的原则、方法,提出了综合使用多个领域模型的策略,最后给出实验结果和分析。第五章对完全文进行总结,给出了下一步工作的设想。第二章基于扩大数据集的离线自适应9第二章基于扩大数据集的离线自适应21引言在统计机器翻译系统中,训练数据的规模在很大程度上影响统计机器翻译的质量。利用某一领域的语料库训练得到的翻译模型在该领域可以得到很好的翻译结果,而将该模型应用于其它领域翻译时翻译质量会下降。即统计机器翻译系统对于训练语料和翻译文本的领域非常敏感。离线自适应是在已知翻译领域,但缺乏该领域的双语资源情况下进行的自适应方法,最直接的思路是扩大该领域的双语资源。如果能获得该领域的大量高质量双语,翻译系统的性能将得到很大提高。ECK2004、ZHAO2004、HILDEBRAND2005、L2007、WU2008等人的工作都表明,同领域训练数据规模的扩大对翻译系统的性能有关键影响。离线自适应的相关研究工作中,多利用信息检索模型从大规模的领域混合的双语资源中检索出某个领域的双语数据,或者从大规模单语中检索领域目标单语数据。然后将检索得到的相似数据与原有训练数据合并或者单独训练一个自适应模型,将自适应模型与原模型联合使用提高翻译效果。总结起来,主要有两个问题需要解决1是利用何种策略寻找相似数据。2是如何利用相似数据才能达到最好的效果。本章主要追踪了前人的研究工作,在大规模真实数据集上对已有的研究方法进行研究和改进。基于扩大数据集的离线自适应的研究是以存在领域混杂的双语语料为基础的。在实际系统开发中,这种领域混杂的语料可能由用户提供,也可能来自互联网。相比领域分类明确的双语资源来说,领域混杂的双语资源更容易获取。本章剩余部分按以下方式组织,22节介绍了相似数据选择方法,分别介绍了信息检索模型和分类模型,23节介绍多模型融合策略,介绍线性插值和判别式两种方法,24节在大规模真实数据集上进行实验和分析,25节进行小结。22相似数据选择策略进行翻译模型的自适应和语言模型的自适应都需要从海量的语料库中选择与某个领域在主题、词汇等方面相似的数据,以此数据为基础训练翻译模型和语言模型。在ECK2004、ZHAO2004、HILDEBRAND2005、L2007的工作中,数据选择策略主要使用信息检索模型,对每个待翻译句子都检索出若干语料,将每个句子对应的相似语料合并(可能包含重复),从中取前N个句子得到自适应的第二章基于扩大数据集的离线自适应10训练语料。221基于信息检索模型的数据选择信息检索INFORMATIONRETRIEVAL是一个从文档集中返回满足用户需求的相关新的过程。信息检索模型主要关注如何表示用户查询QUERY和现有文档DOCUMENT并对它们进行相似度计算。具有代表性的信息检索模型主要有布尔模型BOOLEANMODEL、向量空间模型VECTORSPACEMODEL,简称VSM、概率模型PROBABILISTICMODEL、语言模型LANGUAGEMODEL等,这些模型从不同角度使用不同的方法对查询和文档之间的相似度进行建模。在ECK2004、ZHAO2004、HILDEBRAND2005、L2007的工作中,都采用向量空间模型进行检索。向量空间模型将用户输入和系统中的文档都是用向量表示,假设共有N个TERM一般为单词,则每篇文档(或查询)DI都可以表示为一个N维向量WI1,WI2,WI3,WIN,WIJ代表文档DI中的第J个TERM的权值,计算方法如下LOGIJIJJWTFIDF公式21其中,TFIJ是指TERMJ在文档I中出现的频次,TFIJ的值越大,表示TERMJ对于文档越重要;IDFJ称为“逆文本频率指数”,代表包含有TERMJ的文档数目的倒数,计算时一般使用文档总数除以含有TERMJ的文档数。IDFJ越小,包含TERMJ的文档数目越多,表示TERMJ在衡量文档相似性方面的作用越低。当用户输入查询条件时,检索系统通过计算查询与所有文档向量之间的相似度评价结果并进行排序,计算时常采用向量之间的夹角余弦或者内积来表示相似度的大小。翻译模型自适应中,将已有的双语平行语料库的源语言部分视为待查询文档集,将每个源语言句子都视为一个文档并建立索引,将待翻译文本的句子视为查询,通过计算查询条件与文档之间的相似度,获得一个排序的与待翻译文本汉语部分相似的数据子集。一般步骤如下从以上步骤可以看出,N值的选择是一个不确定的因素,受语料的规模、领域、句子对齐质量好坏的影响较大。在相关工作中,也没有一个很好的给N赋值的办法。通常所采用的办法是给N一系列离散的值,对应不同的N训练出一系列模型,然后选择在开发集上译文质量最高的模型所对应的值作为N值。1对双语平行语料库中的汉语部分建索引2对待翻的每个汉语句子,利用IR模型在上述语料库中进行检索3选取每个句子检索结果中的TOPN及其译文合并组成新平行语料第二章基于扩大数据集的离线自适应11222基于分类模型的数据选择文本分类问题是有监督学习的一种,根据事先给定好的分类体系和训练样例(标注好类别信息的文本),将文本分到某个或者某几个类别中。在这里,我们介绍基于中心向量的文本分类模型EHHAN2000,并将其应用到相似数据选择中。基于中心向量的分类模型中,所有的文本被表示为向量形式,向量的表示可以参考221节中的TFIDF表示方法。对于某个类别,假设有S个训练样本,定义中心向量C为1|DSCDS公式22C即为所有该类别所有训练文本的平均向量。对于待分类文本D,计算其与所有类别中心向量的距离(以向量之间的夹角余弦表示)COS,|DCDCDCI公式23文档D所属的类别即为距离最大的那个中心向量所代表的类别1,ARGMAXCOS,JJKCLASSDXC公式24我们将已有的领域视为类别,将该领域现有的源语言句子视为若干个已标注好类别的文档,训练一个基于中心向量的分类器。对于领域混杂的海量双语资源,将其源语言每个句子视为一个文档,计算该文档与每个领域中心向量的距离,取最大距离所代表的类别作为该句子所属的类别,步骤如下223两种数据选择策略的比较两种数据选择策略各有自己的优缺点。基于信息检索模型的数据选择策略存在以下缺陷一是受开发集的影响较大,不同的开发集可能对应不同的N值;二是需要训练很多个模型尝试N值,耗时太长;三是受待翻译句子规模影响较大,如果待翻译的句子规模很小,则检索结果集规模较小,自适应效果将很不明显。基于信息检索模型的数据选择,其优点是不需要具备领域分类的资源,只要1以各领域源语言单语为标注语料,训练分类器2将领域混杂语料库中的每个句子视为文档进行分类3选择与待翻译文本类别相同的语料作为相似语料第二章基于扩大数据集的离线自适应12有测试集和领域混杂的双语语料就能进行自适应。基于分类模型的数据选择策略克服了基于信息检索模型的数据选择策略的三个缺陷。因为不存在N值不确定的问题,所以不受开发集影响,不需要训练多个模型尝试N值,耗时大大减小。同时,不受待翻译句子规模的影响,只要知道待翻译句子的领域即可。分类模型用于数据选择也存在其自身的缺点。首先,分类器的训练需要有标注好的语料,有些情况下不具备这样的语料,无法训练分类器。其次,领域混杂的语料库中可能包含某些不属于分类器已知的任一类别的语料,而分类器也会根据某种准则将其分类到某个领域。这些掺杂语料的加入一方面加大了训练过程的计算量和训练时间,另一方面对该领域文本的翻译可能起到干扰作用。在我们的实验中,具备了已分好类的语料,所以采用了基于中心向量的分类模型的数据选择策略。23相似数据集的使用当得到某个领域的相似语料资源后,如何使用这些语料才能达到最好的效果呢目前相关工作中主要有两种使用相似语料的策略。一种策略是将这些语料与原有的训练语料合并,重新训练一个翻译模型。但这么做的缺点有两个一是训练周期较长,二是当检索的语料规模较小时,所起的作用有可能会被原有的大规模训练数据覆盖掉。当然我们也可以才用加权语料的方式解决第二个缺点,但这种方式训练周期较长却是不可避免的。另一种策略是用检索的语料训练一个“自适应”的模型,与原来的模型一起融合使用。目前,效果比较好的主要有两种融合策略,一是采用线性插值的方式得到一个新的模型使用,另一种方式是在对数线性模型中扩展新的特征,将新模型直接当作新特征使用。下面分别介绍这两种方法。231线形插值使用多个模型利用检索得到的语料训练得到INDOMAIN的翻译模型和语言模型,对于多个模型中的相同特征,使用线形插值融合的策略如下,以特征PE|C为代表。|1|IOPECPECPEC公式25其中,PIE|C代表使用检索到的语料训练得到的正向翻译概率特征,POE|C代表使用原语料OUTDOMAIN训练得到的正向翻译概率特征。代表插值系数,取值范围是0,1,一般插值系数的确定可以在开发集上进行实验。插值系数的计算过程如图21所示,首先给赋值,根据公式25计算插值第二章基于扩大数据集的离线自适应13后的新特征值;根据新特征值进行最小错误率训练确定统计机器翻译中各个特征的参数,并记录开发集上的BLEU值;按一定步长递增,重新进行最小错误率训练,并记录新的开发集上的BLEU值,直到1为止。找出在开发集上BLEU最高值所对应的。图21线性插值系数的计算232判别式方法使用多个模型基于对数线性模型的统计机器翻译的基本公式如下1ARGMAX|ARGMAX,MBESTEEMMMEPFHEF公式27其中,特征H一般采用对数形式。采用判别式方法使用多个模型的思想是在对数线性模型中增加新特征,新特征的值由新模型给出。自适应翻译模型和自适应语言模型都可以使用判别式方法融合进来。新特征的权重可以交给统计机器翻译的参数训练过程。权重计算上比线性插值的方法要方便。从KOHEN2007等的实验效果看,线性插值与判别式方法的效果接近,为了计算的方便起见,本文的实验中采用了判别式方法融合多个模型。24实验与分析我们以基于中心向量的分类方法作为相似数据集的选取策略,用选取到的新语料训练得到自适应模型,将自适应模型用判别式方法融合到机器翻译系统中。专利文献包含许多区分比较明显的领域,自适应方法比较适合用于专利文献的翻译任务,本文的许多方法都是在面向专利文献的翻译任务中进行实验验证的。基于扩大数据集的离线实验中,实验步骤如图22所示第二章基于扩大数据集的离线自适应14训练基于中心向量的分类器各领域数据的源语言领域混杂语料库在混杂语料库上进行分类使用相似语料训练自适应模型作为新特征融入对数线性模型中,重新训练参数,比较BLEU值图22基于扩大数据集的离线自适应实验步骤首先,我们设计基于中心向量的分类器,以已有领域的源语言单语作为标注文档。其次,对海量领域混杂语料库中的每个句子视为文档进行分类,选择与待翻译文本类别相同的语料作为相似语料。然后,用相似语料训练自适应的模型,这里既包含翻译模型也包含语言模型。最后,将自适应模型作为新特征融入到对数线性模型中,重新训练参数并比较BLEU值。241实验设置我们在专利文献汉到英翻译任务上进行离线自适应实验,训练语料情况如表1所示。表21扩大数据集规模的训练语料领域类型领域规模(句对数)传统医药1,000,000化学化工1,000,000领域分类数据物理电子1,000,000专利各领域混杂9,683,583领域混杂数据新闻语料5,570,525训练语料分两部分,一部分是已经存在的3个领域的双语资源,各有100万句对,各领域内的训练数据不重复。另一部分是多个领域混杂的双语资源,包括两部分专利文献各领域混杂语料968万句对,新闻领域语料557万句对。领域混杂语料中可能包含重复数据。专利各领域混杂数据既包含传统医药、化学化工、物理电子领域的语料,此外还包含机械、硅材料、医药等其他领域的语料。新闻领域是一个比较综合的领域,内容涉及政治、经济、金融、科技等各个领域,我们也将其作为各领域混合的语料。第二章基于扩大数据集的离线自适应15领域分类的数据和专利各领域混杂数据由某专利公司提供,经过人工校对。新闻领域数据来自LDC6语料库,由编号为LDC2002E18、LDC2003E07、LDC2003E14、LDC2004E12、LDC2004T07、LDC2004T08、LDC2005T10、LDC2005T06的语料库合并得到。三个领域的双语资源中除去100万训练数据外还有剩余,从剩余语料中各抽取4000句开发集,4000句测试集,去掉重复并过滤掉长度太短(小于10)的句子,得到最终的开发集和测试集。各领域的开发测试集规模如表2所示。表22各领域开发测试集数据领域名称开发集规模(句对)测试集规模(句对)传统医药15451550化学化工23302310物理电子21522157本实验使用的统计机器翻译系统是基于短语的开源解码器MOSES7。首先,在汉英、英汉两个方向上运行词语对齐工具GIZAOCH2000,并使用“GROWDIAGFINAL”方法KOHEN2003进行对齐优化,从对齐结果抽取短语表。使用SRI语言模型工具STOLCKE2002在英文部分训练3元语言模型。使用最小错误率训练方法OCH2003调节LOGLINEAR模型的参数,以开发集上BLEUPAPINENI2002最大对应的参数对测试集进行翻译,记录翻译结果的BLEU值,评测工具使用MTEVALV11BPL8。242基于扩大数据集的离线自适应实验在进行扩大数据集的规模实验之前,我们首先进行了分类器效果实验。从每个领域的双语资源的源语言端抽取90万句子做训练集,剩余10万个句子做测试集。分类器的准确率、召回率、F值如表3所示。表23分类器的性能指标领域传统医药化学化工物理电子准确率060660781705307召回率069890370407291F值064950502606143这里,我们使用基于中心向量的分类模型设计分类器,受分类模型和训练语料的影响,分类器的性能并不高,但本实验对分类器性能要求并不高。6LDCHTTP/WWWLDCUPENNEDU/CATALOG/7MOSESHTTP/WWWSTATMTORG/MOSES/8MTEVALV11BPLHTTP/WWWNISTGOV/SPEECH/TESTS/MT/RESOURCES/SCORINGHTM第二章基于扩大数据集的离线自适应16在专利各领域混杂语料上的实验结果以各领域已有语料为基础构建的翻译系统作BASELINE,与使用离线自适应方法构建的系统作对比,在专利领域混杂语料上的BLEU值对比情况如表4所示。表24离线自适应方法在专利混杂语料上的实验结果传统医药BLEU4化学化工BLEU4物理电子BLEU4BASELINE376330883

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论