基于译文加权的BLEU改进方法.ppt_第1页
基于译文加权的BLEU改进方法.ppt_第2页
基于译文加权的BLEU改进方法.ppt_第3页
基于译文加权的BLEU改进方法.ppt_第4页
基于译文加权的BLEU改进方法.ppt_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于译文加权的BLEU改进方法,杨沐昀 哈尔滨工业大学 计算机学院 机器智能与翻译研究室 ,内容提要,引言 BLEU用于汉语译文性能的实证分析 基于线性回归的BLEU改进 实验与分析,一、引言,BLEU:机器翻译自动评价方法 基于N-gram精确率 2002年IBM提出 目前采用最广泛 忽略译文的个性信息 词性、连续正确译文长度 基于译文加权BLEU改进,二、BLEU方法及分析,二、BLEU方法及分析,1、传统的BLEU方法 基本n-gram精确率公式:,count clip(N-gram)是 匹配的N元短语数;count(N-gram)是译文中N元短语总数。,针对短译文的简短惩罚因子:,c为

2、译文的长度和;r为与每个译文长度最接近的参考译文的长度和,二、BLEU方法及分析,1、传统的BLEU方法 引入惩罚因子后,最终的BLEU计算公式如下所示: 其中Wn是n元短语的权重,这里通常取Wn =1/N;N是取得最大的n元短语的元数,这里通常取 N=4 。 这样的BLEU的得分是一个0-1之间的数,较高的得分表示译文质量越高。接近1的得分表示候选译文和参考译文就已经非常接近了。,二、BLEU方法及分析,2、BLEU方法用于汉语译文性能分析 数据: 某英语水平考试英汉翻译试题 1段英文、3个句子 1个标准译文+3个手工译文 152篇翻译,阅卷点正式评分 满分:12分,各分数段的文件数,二、B

3、LEU方法及分析,2、BLEU方法性能分析 各种匹配条件下BLEU-4得分与人工评价得分相关系数,二、BLEU方法及分析,2、BLEU方法性能分析 4个参考译文时与人工评价的相关性较好; 按字计算时与人工评价的相关性较好; 无论是按字匹配,按词匹配,按词性匹配,还是按词与词性同时匹配的, BLEU的相关性都仅在0.6-07之间,二、BLEU方法及分析,2、BLEU方法性能分析 平均对待任何译文不符合人工翻译评价的直觉 不区分译文的种类:实词、虚词、还是标点符号 一个正确的名词译文 vs 一个正确介词译文 不区分一个正确译文译出和连续多个正确译文 获得连续正确译文的难度要比获得一个正确译文的难度

4、要大 对于手工评价,连续正确译文给人重要的正面印象。,三、基于线性回归的BLEU方法改进,三、基于线性回归的BLEU方法改进,1、基于词类的译文权重 首先引入词性信息 考察不同词性的正确译文和人工翻译评价结果之间的关系 各种词性正确译文与人工评价的相关系数(Pearson),三、基于线性回归的BLEU方法改进,1、基于词类的译文权重 回归分析每种词性的权重: 引入权重前后BLEU-1得分和人工评分的相关性:,三、基于线性回归的BLEU方法改进,1、基于词类的译文权重 对词性加权后,各种情况与人工评价的相关性都相对于BLEU有了很大的提升 8种词性计算得分与人的评价得分的相关系数最高:0.77,

5、8种词性的各种组合一元BLEU得分与人工评价得分相关系数,三、基于线性回归的BLEU方法改进,2、N-gram译文分值的计算 将词性权重赋予不同长度的N-gram? 在N1时, N-gram会发生2种情况: 词与词性完全匹配 不完全匹配:词匹配但词性未得到匹配 初步分析: 仅考虑词与词性完全匹配二元(bigram) 的实验,三、基于线性回归的BLEU方法改进,2、N-gram译文分值的计算,BLEU1元和2元是否加权的结果和人工评分的相关性比较,三、基于线性回归的BLEU方法改进,2、N-gram译文分值的计算 在计算N-gram权重应该对所匹配上的词乘以一个权值,考虑到可能由于词性标注误差而

6、造成的不完全匹配对,我们这里做一个近似的处理,将词形匹配而词性不匹配的词的权重乘以一个惩罚因子0.5。3元以及3元以上情况计算方法与此类似。 采用这种方法计算的N-gram得分和传统的BLEU得分与人工评价的相关性见下表:,三、基于线性回归的BLEU方法改进,2、N-gram译文分值的计算,增加词性权重进的N-gram得分vs传统BLEU得分,三、基于线性回归的BLEU方法改进,3、N-gram译文分值权重 对BLEU1BLEU4分值的权重再次回归分析; 根据回归纷纷的权重再计算BLEU-4: 加权N-gram得分和人工评分的相关系数:0.780 原始BLUE-4:0.620 (词和词性) 原始BLEU-4最高:0.68 (字),四、实验结果与分析,四、实验结果与分析,基于词性和n-gram长度的BLEU方法性能分析 10重交叉交验结果 最高:0.934 最低:0.635 平均值:0.782,四、实验结果与分析,机器翻译自动评价性能实验 利用互联网上的机器翻译服务,获得12个不同翻译; 请同一翻译专家对这12系统译文进行评分; 并采用上文152篇数据得到的词性和N-gram的权重;

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论