BLEU一种机器翻译自动评价方法_第1页
BLEU一种机器翻译自动评价方法_第2页
BLEU一种机器翻译自动评价方法_第3页
BLEU一种机器翻译自动评价方法_第4页
BLEU一种机器翻译自动评价方法_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、BLEU:一种机器翻译自动评价方法BLEU:aMethodfbrAutomaticEvaluationofMacliiiieTranslation1KishorePapineiii,SalimRoukos,ToddWard,andWei-JingZliu编译:洪洁文章来源:多语工程技术研究中心云翻译技术第12期摘要:这篇论文是关于BLEU方法的最原始的文字,由IBM公司的研究人员发表。论文从机器翻译评价的研究背景开始,详细介绍了BLEU方法的基本原理,基本要素,和基本测量指标的选取、指标的修正,以及最终获取BLEU值的计算公式。论文中还对BLEU值的可信性的进行了考察。研究者们作了一系列的翻译

2、评价测试,观测基本测量指标值和最终的BLEU值能否区分人工翻译结果和机器翻译结果,不同的机器翻译结果和不同的人工翻译结果。最后,研究者们还对BLEU值评分和人工评分作了一个相关性分析。1. 研究背景论文首先提到为什么要进行这个研究。对机器翻译作人工评价时会考量到翻译的许多方面:如翻译的充分性、忠实度、和流畅度。通常这些人工评价工作非常费时也非常昂贵。对于机器翻译的研发人员来说这种人工评价方式非常不方便,因为他们需要对机器翻译系统作口常的监测和评估,以了解每个小改变,从而甄选出好的想法。在这篇论文中,研究者们提出一种快速、费用低廉、不受语言种类限制,而且同人工评价高度相关的机器翻译自动评价方法。

3、他们是如何评价翻译的好坏呢?研究者们的评价方法所依据的论点是:机器翻译同专业人工翻译越接近越好。为了评价机器翻译质量,他们还需要使用某种“数值型度量指标”来衡量机器译文同人工翻译的参考译文的相近程度。因此这个新的自动评价系统包括两个要素:数值型度量指标,用来计量待测翻译结果同参考译文的相近程度:高质量的人工翻译参考译文。其中数值型度量指标参考了语音识别工作中使用的“单词出错率”这个指标,并作了一些调整:如使用多个参考译文,允许选用不同的单词(同义词)和不同的词语顺序。2. BLEU方法使用的基本度量指标和概念3. 1"n单位片段“(n-gram)由于语言的多样性和复杂性,在通常情况下

4、,一句话会有多个“正确”的翻译方式,对应着多个正确的译文。这些译文中可能选用不同的词语,或者是选用的词语相同而语言顺序不同,而人类总是能够清楚地分辨出哪个是更好的译文。比如例1中对同一句汉语的两种译法:例1:待评价译文1:Itisaguidetoactionwliichensiuesthattliemilitaryalwaysobeysthecommandsoftheparty.待评价译文2:Itistoinsurethetioopsforeverhearingtlieactivityguidebooktliatpartydirect.两个译文质量差别明显,待评价译文1的质量明显好于待评价译文

5、2。为了比较,我们为这句话提供了三个参考译文:参考译文1:ItisaguidetoactionthatensuresthatthemilitaiywillforeverheedPartyconunaiids.参考译文2:ItistheguidingprinciplewliichguaranteestliemilitaiyforcesalwaysbeingunderthecommandoftheParty.参考译文3:Itistliepracticalguidefortheannyalwaystoheedthedirectionsoftlieparty.可以看到待评价译文1同三个参考译文有着较多

6、的相同字词和短语,而待评价译文2则没有。待评价译文1同参考译文1相同的部分有4Itisaguidetoaction94ensuresthatthemilitary,Commands1,同参考译文2相同的部分有4winch'4always'4oftheparty同参考译文3相同的部分有4always,0相比之下,待评价译文2同三个参考译文的相似处极少。BLEU方法便是对待评价译文和参考译文的“n-单位片段(ngram)”进行比较,并计算出匹配片段的个数。这些匹配片段与它们在文字中存在的位置无关。匹配片段数越多,则待评价译文质量越好。作者从最简单的情况,”1单位片段(uiiigia

7、m)”匹配情况开始介绍。2.2精确度(Precision)和“修正的n-单位精确度”(modifiedn-gramprecision)论文中研究者们使用的“数值型度量指标”基础是精确度(precision)的测量。先来看”1单位片段"(unigram)的情况。在例1中,将待评价译文和三个参考译文进行比较,待评价译文中单词出现在三个参考译文中的个数除以待评价译文中总单词个数,便得到原始的精确度(precision)计算结果。然而,由于一些特殊情况,研究者们对这个原始的精确度作了一些修正。来看一种特例情况:例2:待评价译文:thethethethethethethe参考译文1:Theca

8、tisonthemat.参考译文2:Tliereisacatonthemat.问题很明显,当某个参考译文中的某个单词匹配完以后,这个单词就不应该再继续计数匹配了。论文中对数值型指标精确度采取的这一修正方式称为“剪切”(clipping)o得到的精确度称为“修正过的n单位片段精确度”(modifedngraniprecision)o在例2中待评价译文得到的“修正过的1单位片段精确度值”=2/7.在例1中,待评价译文1得到的“修正过的1单位片段精确度值”=17/18,待评价译文2得到的“修正过的1单位片段精确度值”=8/14。这种剪切方式同样适用于n=2,3,4等任意数值的情况。如在例1中,待评价

9、译文1的“修正过的2单位片段精确度值"(modifiedbigramprecision)=10/17,待评价译文2得到的“修正过的2单位片段精确度值”=1/13。这种“修正过的n单位片段精确度”(modifiedn-graniprecision)强调了翻译的两个方面:充分性和流畅度。待评价译文同参考译文使用相同的n单位片段(n-gram)反映翻译的充分性,其中匹配片段的长度则反映了翻译的流畅度。在机器翻译评价中通常使用的是整篇文章和大段文字,此BLEU方法也是如此,使用大文字量进行翻译评价。使用大文字量可以减少偶然性的影响,从而生成更高质量的评价。在BLEU方法中,首先逐个句子计算“

10、n-单位片段”的匹配个数,然后将经过剪切的“n-单位片段”匹配记数加起来求和,再除以待评价译文中“n-单位片段”个数,得到一个“经修正的厂单位片段精确度值"(modifiedngramprecisionscore),记作R】。为了证明指标K能够将质量不同的翻译结果区分开来,作者选取了一段高质量的人工译文和一段标准的机器译文(代表比较差的翻译结果),分别包括127个句子,使用4个参考译文,来分别计算它们的K值。当n-gram的n取值1,2,3,4时,一共得到四个及值。结果显小随着n值增大,当值的绝对值减小,而两个译文的左值差别增大:而且当n刁时,Pn值已经明显显示出两组的差别。如原文图

11、1.Figure1:DistinguishingHumanfiomMacliinePhrase(ngram)Lengh研究者们进一步检测了在译文质量相差不是非常明显的情况下,如比较几个不同的机器翻译结果,或者是比较几个不同的人工翻译结果,均值这个指标能否对这些译文加以区分。为了考察这一点,研究者们使用了三个机器翻译系统给出的译文,和两个人工翻译给出的译文,在n-gram取值不同的情况下,各自计算了它们的左值。结果发现,在n为某一固定值时,各个译文得到的此值大小都有差别,而且在不同n取值情况下,五个译文得到的&值大小排列顺序是完全一致的。如原文图2.123Phrase(wgram)Len

12、gth|bH2OHlBS3HS2OS1Figure2:MachineandHumanIranslations2.3.BP值(BrevityPenalty)和BLEU值的计算公式K值可以反映出译文的质量,那么不同n取值的匕值是如何结合起来的呢?研究者们使用了R】值加权后的对数值之和的形式。最终BLEU值是如何得到的呢?研究者们还考虑到一种情况,就是待测译文翻译不完全不完整的情况,这个问题在机器翻译中是不能忽略的,而简单的此值不能反映这个问题。因此研究者们在最后的BLEU值中引入了BP(BrevityPenalty)这个指标。作者指定当待评价译文同任意一个参考译文长度相等或超过参考译文长度时,BP

13、值为1,当待评价译文的长度较短时,则用一个算法得出BP值。以c来表示待评价译文的长度,r来表示参考译文的文字长度,则BP=1ifc>reM)ifcVr最后得到BLEU值计算公式NBLEU=BP-WWnlogPnn=l3、对BLEU值指标评价效果的验证BLEU值的取值范围是从0到1的数值。只有译文同参考译文完全一致的时候才会有评分为1的情况。值得注意的一点是,使用越多的参考译文,BLEU评分值就越高。因此在参考译文数量不同的情况下,对不同BLEU值的译文结果要慎重判断。为了评价BLEU值指标的性能,作者使用了一份包含500个句子的文档进行翻译评价,选取了五种译文结果:三个为机器翻译系统给出

14、的译文结果,用SI,S2,S3表示,两个为非专业人工翻译译文结果,用Hl,H2表示。评价中使用了两份参考译文。结果如表1所示。表1.500个句子大小文字得到的BLUE值S1S2S3S4S50.05270.08290.09300.19340.2571其中三个机器翻译译文SI,S2,S3的BLEU值非常接近。作者还希望能回答以下三个问题:1 .各个译文结果的BLEU值差异是否可信?2 .BLEU值的方差是多少?3 .如果我们选用另外一个500句子的文档,能得到相同的结果吗?为了回答这些问题,500个句子的文字被划分成20个部分,每个部分包含25个句子,然后分别使用这20个部分来计算译文的BLEU值

15、。这样五组译文(三个机器翻译结果,两个非专业人工翻译结果)各得到20个BLEU值。然后对这五组BLEU值数据进行分析:计算均值,标准差,并对这五组数据每相邻两组(按照均值大小从左至右排列)进行比较,作配对T检验。结果发现每个BLEU值同其左侧BLEU值比较,差别均具有显著性。如表2所示。表2.配对t检验(每组包括20个BLEU值)S1S2S3H1H2均值0.0510.08100.0900.1920.256标准差0.0170.02500.0200.0300.039paired-t值63.42411最后研究者们还进行了了将BLEU评分结果同人工评分结果进行比较的研究。同样是上面研究使用的机器译文,

16、选取了两组人员进行人工评分,每组10人。一组评分员只通晓英语一种语言(Monolingual),那么他们的评分侧重翻译的流畅度。一组评分员则通晓英语和汉语两种语言(Bilingual),他们的评分则反映了翻译的更多方面,除了流畅度外还考量到翻译的充分性和忠实度。研究者们对人工评分结果和BLEU值结果进行了相关性研究,发现通晓英语一种语言的评分组,其评分结果同BLEU值的相关系数为0.99;通晓汉英两种语言的组,其评分结果同BLEU值的相关系数为0.96(见原文图5,图6)。COE3bpm-enbu-oUOIAIFigure6:BLEUpredictsI3ilingualJudgmentsw(D

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论