




已阅读5页,还剩64页未读, 继续免费阅读
(计算机应用技术专业论文)基于n元共现的机器翻译自动评价的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京工商大学硕士学位论文 摘要 机器翻译评价与机器翻译是相辅相成的,机器翻译的发展决定了机译评价的进展,反 之机译评价又促进机器翻译的发展。然而由于译文质量的人工评价价格不菲,评价过程非 常耗时而且不可重用,因此人工机器翻译评价一直很难对机器翻译系统开发提供切实的帮 助。找出一种有效、可行的机器翻译自动评价方法将对机器翻译的发展产生极大的推动作 用。 本课题的研究目的就在于探索、实现机器翻译译文质量的自动评价,论文首先阐述了 机译自动评价的概念原理,介绍分析了几种现有的评价方法,在此基础上提出新的自动评 价方法r b l e u ,希望通过本项目的研究,能够对机器翻译自动评价的深入发展起到积极的 作用。 本文提出了一种新的评价方法r b l e u ,采用了基于n 元共现的思想并使用了调和平均 数作为评价的主要指标。系统实现t b l e u 平n 新方法r b l e u 两种评价标准,针对三个商用 机器翻译系统的译文质量进行了客观的自动评价。论文对实验结果进行了比较和分析,证 明了该方法能够在译文质量方面对机器翻译系统做出比较客观的评价。 本实验中的2 0 旬汉语源文是从1 9 9 8 年8 6 3 汉英机器翻译测试题库中抽样取得的。其参 考译文分别是由英语水平优秀、良好和一般的,母语为汉语的大学生提供,存放在a c c e s s 数据库中。应用程序采用了面向对象的思想设计和开发,使用了j a v a 语言技术,利用了开 放的集成开发环境e c l i p s e 作为工具平台,使用了j f c 实现应用程序的用户界面,使用j d b c 实现了程序和a c c e s s 数据库的通信。 关键词 机器翻译;自动评价;n 元共现;b l e u ;r b l e u 基于n 元共现的机器翻译自动评价的研究 a b s t r a c t t h ee v a l u a t i o no f m tc o l l i e sa l o n gw i t ht h em ta n d t h e ym o v ef o r w a r d w i t h e a c ho t h e r b u tf o rt h ei n t e n s i v el a b o rc o s t , t i m ed e l a ya n di r r e s u a b i l i t yo f t h em a n u a le v a l u a t i o ni tc a n r a r e l yh e l pt h ed e v e l o p m e n to f n i ts y s t e m s t h e r e f o r ei t i ib eah u g ei m p e t u st ot h e i m p r o v e m e n to f m tb yi n v e n t i n g8 0 m ee f f e c t i v ea n dp r a c t i c a le v a l u a t i o nm e t h o d so f m t t h ep u r p o s eo f t h i sp a p e rl i e si n t h ee x p l o r a t i o na n dr e a l i z a t i o no f t h ea u t o m a t i ce v a l u a t i o n o f m t8 0t h a to n e c a na n a l y z et h et h e o r ya n dm e t h o do f m t f i r s t l yt h ep a p e re x p l a i n st h e c o n c e p ta n dt h e o r yo f a u t o m a t i ce v a l u a t i o no f m t s e c o n d l y i ti n t r o d u c e ss e v e r a lc u r r e n t e v a l u a t i o nm e t h o d s n e x ti tb r i n g sf o r w a r dan e wm e m cr b l e ua n da i m st op l a c eap o s i t i v e i n f l u e n c eu p o nt h ei m p r o v e m e n to f n i t t h i sp a p e rp r o p o s e san e we v a l u a t i o nm e t r i cb a s e d0 nn - g r a mc o o c c u r r e n c ea n da d o p t s h a r m o n i cm e a na st h ek e yf a c t o ro f t h ee v a l u a t i o n t h ee v a l u a t i o ns y s t e mr e a l i z e st w om e t r i c s b l e ua n dr b l e ut or e n d e ra l la u t o m a t i cj u d g m e n to f t h ec a n d i d a t et r a n s l a t i o n sb yt h r e e c o m m e r c i a l i z e dm t s y s t e m s t h ep a p e rc o m p a r e sa n da n a l y z e st h ee x p e r i m e n t r e s u l t st op r o v e r b l e uc a nb ea ne f f e c t i v ew a yf o re v a l u a t i o no f n i t t h e2 0s o u r c es a m p l e sa r et a k e nf r o mt h e8 6 3c h i n e s e e n g l i s ht e s tc o r p u so f y e a r1 9 9 8 t h e i rr e f e r e n c e ss t o r e di na c c e s sd a t a b a s ea l eo f f e r e db ye o h e g es t u d e n t s ,w h oa r en a t i v e c h i n e s es p e a k e r sa n dw h o s ee n g l i s hl e v e l sa r ee x c e l l e n t , g o o da n do r d i n a r y t h ea u t h o ra d o p t s o b j e c to r i e n t e dc o n c e p t i o nt od e s i g na n dd e v e l o pt h ea p p l i c a t i o n , j a v al a n g u a g et oc o d e ,o p e n s o n r c ei d ee c l i p s ea st h ep l a t f o r m , j f cf o rt h eg u i ,a n dj d b ct oc o n n e c ta n dc o m m u n i c a t e w i t ht h ed a m b u s ef i l e k e y w o r d s m a c h i n et r a n s l a t i o n ;a u t o m a t i ce v a l u a t i o n ;n - g r a mc o o c c u r r e n c e ;b l e u ; r b l e u 北京工商大学学位论文原创性声明 本人郑重声明:所呈交的学位论文是本人在导师指导下进行的研究工作所 取得的研究成果。除了文中已经注明引用的内容外,论文中不包含其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体, 均已在文中以明确方式标明。本声明的法律后果完全由本人承担。 、) 学位论文作者签名:史塑些d 蛀日期:御7 年【厂月 7 日 北京工商大学学位论文授权使用声明 本人完全了解北京工商大学有关保留和使用学位论文的规定,即:研究生 在校攻读学位期间论文工作的知识产权单位属北京工商大学。学校有权保留并 向国家有关部门或机构送交论文的复印件和电子版,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以采用影印、缩印或其它复 制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 学位论文电子版同意提交后,可于巨舀年口年口二年后在学校图 书馆网站上发布,供校内师生浏览。 学位论文作者张幽师繇且监吼1 年r 月节 学位论文作者签名:毫之蚺师签名:一i 益一殓日期:y ? 年r 月歹芦 北京工商大学硕士学位论文 1 1 概述 第1 章绪论 1 1 1 机器翻译自动评价的研究 2 0 世纪9 0 年代以来,伴随着i n t e m e t 的飞速发展、经济全球化的到来和国际合作的广泛 开展,人们迫切需要打破语言障碍进行交流和获取信息,这种需求引发了世界范围内的又 一次研究和开发机器翻译( m a c h i n et r a n s l a t i o n ,可简称m d 系统的热潮。国内外许多研究 机构和公司加入到了研究和开发机器翻译产品的队伍中,实用化的双语或多语机器翻译系 统不断涌现。机器翻译评价与机器翻译是相辅相成的,机器翻译的发展决定了机译评价的 进展,反之机译评价又促进机器翻译的发展。 对于机器翻译系统的开发者来说,他们渴望尽快地发现潜在的问题和不足,以改进其 系统本身;同时,通过反复的测试和调整,可以保证系统得到增量式的进化。但是由于译 文质量的人工评价价格不菲,评价过程非常耗时而且不可重用,于是产生了机器翻译自动 评价的需求。与人工翻译译文质量评价不同的是,机器翻译的评价除了评价译文质量外, 还要评价机器翻译系统的其它性能。然而,这些评价指标涵盖广泛,而且由于现代电子技 术的飞速发展,其差别已经变得不再明显,因此译文质量目前是机器翻译系统评价的核心 问题。因此,一个标准、快捷而且高度接近自然语言表达的自动翻译评价系统将高效地促 进广大机器翻译领域开发人员的工作效率,从而也为机器翻译系统本身的发展,提供一个 巨大的促进。 1 1 2 机器翻译评价的研究意义 有机器翻译,就有对机器翻译的评价。机器翻译评价与机器翻译是相辅相成的,机器 翻译的发展决定了机译评价的进展,反之机译评价又促进机器翻译的发展。有评价才会有 鉴别。评判一种方法优劣的唯一标准是相互可比的评价,而不是设计人员自己设计的“自 评”,更不是人们的直觉或某个人的“远见”。近年来,在语言信息处理领域,通过评价 来推动科学技术进步的范例很多。国家“8 6 3 计划”智能计算机专家组曾对语音识别、汉 字( 印刷体和手写体) 识别、文本自动分词、词性自动标注、自动文摘和机器翻译译文质 量等课题进行过多次有统一测试数据和统一计分方法的全国性评价,对促进这些领域的技 术进步发挥了非常积极的作用。 基于n 元共现的机器翻译自动评价的研究 1 2 机器翻译评价的研究历史、现状及成果 1 2 1 机器翻译评价的研究历史 上个世纪五十年代机器翻译研究蓬勃兴起,机译评价也随之诞生。1 9 5 9 年,美国著名 的机器翻译研究专家巴希莱尔发表了“美国与英国机器翻译现状的报告( r c p o r to nt h es t a t e o f m a c h i n e t r a n s l a t i o n i n t h e u m t e d s t a t e s a n d g r e a t b r i t a i n ) ”,翌年他又发表了著名的“自 动翻译语言研究的现状( t h ep r e s e n ts t a t u so f a u t o m a t i ct r a n s l a t i o no f l a n g u a g e s ) ”,在这些报 告中,他评价了美国、英国、前苏联、意大利以及以色列机器翻译研究的情况,最后得出 一个悲观的结论,即“完全自动的高质量翻译是不可能实现的”1 。遗憾的是巴希莱尔 的报告中没有提到任何评价标准,也未提出任何评价体系,仅凭主观的感觉,而他的评价 仅仅是建立在译文的质量上,即仅仅从两种语言在转换过程中的等值、忠实、通顺的角度 上,所以真正有重大影响的机器翻译评价应该始于1 9 6 4 年,美国科学院成立了语言自动处 理咨询委员会( a u t o m a t i cl a n g u a g ep r o c e s s i n ga d v i s o r yc o m m i t t e e ,简称a l p a c ) ,对美国 在机器翻译上的投资、机器翻译的需求量、译文质量、机器翻译与人工翻译效率、翻译一 个词的单位费用、机器翻译的前景等进行了全面的评价,这是世界上第一次正式对机器翻 译进行全面、多方位的评价,它所采用的评价方法现在还具有很高的实用价值。 然而,a l p a c 报告得出结论,机器翻译速度慢、精确率低、比人工翻译贵一倍,机器 翻译无法克服语义障碍,并宣称:“在近期或可以预见的未来,开发出实用的机器翻译系 统是没有指望的”。历史上第一个机译评价报告就否定了机译研究,导致机器翻译停滞不 前。直到七十年代末机器翻译研究才有所恢复。所幸的是八十年代,m t 研究在世界范围 内重新形成热潮。对m t 评价的研究在深度与广度两方面也都有了新的进展。 近年来,机器翻译的评价越来越受到广泛的重视。在过去几年中,国际上进行了若干 次有影响的评价活动,如,信息理解评价( m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ,简称m u c ) 评价专有名词识别问题,文本检索评价( t e x t - r e t r i e v a lc o n f e n c e ,简称t r e c ) 评价信息检 索的发展,还有许多机器翻译和语音技术的评价活动,所有这些评价活动都对机器翻译的 发展影响很大。 1 2 2 机器翻译自动评价的研究现状 美国国家自然科学基金委员会和欧盟在9 0 年代初期资助的国际语言工程标准( t h e 张政计算机翻译研究清华大学出版社2 0 0 6 年1 2 月第一版p 9 9 - p 1 0 0 2 北京工商大学硕士学位论文 i n t e r n a t i o n a ls t a n d a r d so f l a n g u a g ee n g i n e e r i n g ,简称i s l e l 计划中就专门设立了机器翻译 测评工作组( e v a l u a t i o nw o r k i n gg r o u p ,简称e w g ) 。1 9 9 2 年至1 9 9 4 年之间,美国国防部 高级研究计划署( t h ed e f e n s ea d v a n c e dr e s e a r c hp r o j e c t sa g e n c y ,简称d a a r p a ) 专门组 织一批专家从翻译译文的忠实度、流利度和信息度三个方面对当时的法英、日英、西英的 机器翻译系统进行了大规模的测评。 1 9 9 9 年,美国国防部高级研究计划署开始了t i d e s ( t r a n s l i n g u a li n f o r m a t i o nd e t e c t i o n , e x t r a c t i o na n ds u m m a r i z a t i o n ) 项目,计划通过对高效算法的研究能够解决或者大幅度改进 信息的侦测、抽取、自动摘要和自动翻译技术。但不论是哪种技术,都是在跨语言的环境 中进行的,处理的对象都是多语言的形式,因此,翻译是这个项目的基础。t i d e s 项目中 的机器翻译评价是由美国国家标准和技术所( n a t i o n a li n s t i t u t eo f s t a n d a r d sa n d t e c h n o l o g y ,简称n i s t ) 负责协调管理工作。评价活动从2 0 0 2 年开始,每年进行一次,把 其他语言翻译成英语,采用人工和自动两种方式进行,评价人员从译文的忠实度和流利度 两个方面打分。由此看出,评价对机器翻译的发展产生很大的影响。 1 2 3 全自动评价与评分系统 目前世界上能够实现评价与评分过程全部自动化的只有两个系统2 :一个是t h o m p s o n 的实验系统( t h o m p s o n ,1 9 9 1 ) ;一个是北京大学计算语言学研究所在俞士汶教授领导下于 七五期间( 1 9 8 6 1 9 9 0 ) 开发的m t e ( m a c h i n et r a n s l a t i o ne v a l u a t i o n ) 系统,它被认为是世界上 第一个自动评价系统。 t h o m p s o n 的系统评价是以段落为单位的,评价过程中,系统首先确定源语言与目标语 言相对应的句子,系统为每一个源语言的句子提供了所有可能的译文,机器译文与各种可 能译文之间的平均距离为这一句子翻译的得分,段落翻译得分为各句子翻译得分的总和。 m t e 评价是以句子为单位的。m t e 属于分类性评价,它采用了一个测试集。为了实现 自动测试的目标,m t e 还借鉴了语言测试中分离式测试的方法,即对每一个句子,不是评 价整旬的翻译,而是每句侧重一个测试点,每个测试点代表一个语言点,只要机器译文与 任何一个所提供的译文相匹配,这一测试点即可得分。 2 罗爱荣段慧明机译评估方法评述及一个基于测试集的自动评估系统一m t e 的进展 a 】北京大学计算 语言学研究 论文与技术报告 论文集3 c ,o l , 地垭型堑h 盘啦垂【且四氇出堑里堕:堑吐丝苎吲l 幽驻臣吐出i 蛩努型艘n 鳇丛勉坌盟哑坐塾鲤, 1 9 9 6 3 基于n 元共现的机器翻译自动评价的研究 1 3 机器翻译评价的原理和方法 1 3 1 机器翻译评价的原理 机器翻译评价,简单地说,就是为了能够正确客观地反映机器翻译的成就和作用而对 机器翻译的各个方面进行的评价活动。其意义在于通过评价机器翻译的性能和发展水平, 为现有m t 系统的改进提供方向或为开发新型机译系统的技术路线的选择提供决策依据, 并引导用户恰当选择合适的m t 系统,促进m t 系统发挥社会效益和经济效益。不难看出, 机器翻译评价决不仅仅是对于m t 系统译文质量的评价,而是一种对于机器翻译水平的全 面探讨研究的技术或手段。 与人工翻译译文质量评价不同的是,机器翻译的评价除了评价译文质量外,还要评价 机器翻译系统的其它性能。目前,大家公认机器翻译系统评价中涉及的主要因素有以下7 种3 。 1 机器翻译译文的质量 译文质量是机器翻译评价最重要、最核心、最关键的指标。但译文质量很难量化,其 评价对人来说仍然是一项十分棘手的任务。两种语言的等价性是一个模糊的概念。同一源 语实际上可以有数量不受限制的不同的目标语译文,更何况源语本身也充满歧义。如t i m e f l i e sl i k ea i la t l o w 就有三种解释:( 1 ) 时间像箭一样飞;( 2 ) 像箭一样测量苍蝇的速度;( 3 ) 时 间苍蝇喜欢箭。此外,译文中必然会有各种语病,计算机分析病句的技术还不成熟。要进 行这样的分析,必然会涉及系统内的核心内容,这方面的资料难以获得。就译文本身的质 量而言,评价的标准也不尽相同。 2 应用效率 机器翻译能否提高工作效率是用户,特别是专业翻译公司所关注的另一个重要指标。 但是进行这种评价时应将机器翻译置于语言文字信息处理的全过程,如检索( r e t r i e v a l ) 、识 另l j ( r e c o g n i t i o n ) 、输入、前编辑( p r e e d i t i n g ) 、翻译、后编辑( p o s t - e d i t i n g ) 、输出、排版 ( t y p e s e t t i n g ) 、印刷、远程通 ;k ( d i s t a n c ec o m m u n i c a t i o n ) 等,检验机器代替人进行翻译是否 节省了大量的时间。 3 工作方式 安装和使用机器翻译系统必然造成工作方式的改变,特别是译者工作方式的改变,他 张政计算机翻译研究清华大学出版社2 0 0 6 年1 2 月第一版p 1 0 6 - - p 1 0 8 4 北京工商大学硕士学位论文 不必进行草稿翻译,而大部分时间用于对译文的修改。由于这些机器翻译自动生成的译文 必然含有大量不同于人工翻译的错误,就要求译者掌握与以往不同的修改技巧。另一方面, 机器翻译系统安装时,译者会接受不同的培i jr i ,但培训时间越短越好,系统越“友好”越 好。因此,工作方式也是机器翻译评价中要考虑的因素之一。 4 使用环境 使用环境包括机器翻译系统对硬件的要求,对其它软件的依赖,对输入文本的要求, 用户界面的质量以及兼容性等等。人机界面是决定机器翻译系统的一个主要因素,一般情 况下,用户愿选择译文质量稍差但便于译文修改的系统,而不愿选择译文质量稍好但不便 于修改的界面。 人机界面分为面向用户与面向开发维护人员( 包括语言学家) 两种。面向用户的界面 应具有方便的前编辑、后编辑、辞典扩充等功能。面向开发维护人员的界面应能方便地修 改词典、规则、语言模型,并能提供词频、句型、错误类型等统计数据。 5 维护性和扩展性 维护性是指一个机器翻译系统能否方便解决实际应用中出现的问题,或者弥补系统的 不足。而扩展性涉及该系统能否容易地扩展它的词汇或语言结构覆盖范围,它包括系统的 扩展能否在用户工作现场完成、完成扩展所需的语言学知识以及说明文档是否清楚地揭示 用户应该怎样做、有无词汇添加的用户接口、性能情况,是否可以引进其他语言资源等。 6 机器翻译系统性能价格比 机器翻译系统运行的速度、前后编辑时间、容量、外部配置等诸多因素,以求获得最 佳的性能价格比。 7 健壮性 健壮性指系统在处理系统认为是非法的( 包括处理范围以外的) 输入时的性能。健壮 性高的系统,遇到处理范围以外的内容不容易崩溃,但健壮性与质量存在一定反比关系。 除了这七个因素外,a r n o l d 还讨论了其它几个相对抽象的深层系统特性,这些因素“可 能无法让用户直接判断,但却相当重要,在有关的评价论述中容易被忽视”。列举如下: 1 模块性 系统的划分应与所涉及任务的逻辑和经验性的特点相统一,而且各个部分之间的接口 应该清晰,例如词法分析要与转换分开,数据与算法混合等。模块好的系统容易维护、便 于扩展。 基于n 元共现的机器翻译自动评价的研究 2 陈述性 数据和算法划分明确,算法处理的数据应以独立的解释而存在,即不依赖算法数据也 可以被理解,因而可以预测系统的变更或更新的效果。 3 单调性 系统升级后的每一个优点都不会使系统“退步”,即独立的升级可以成功地结合在一 起,彼此间能够避免冲突,“和谐共处”。 4 概念支持 一个系统是否实现了一些较清楚的理论原则,尤其是关于语言结构的一些理论。 由于计算机技术性能大幅度的提高和计算机技术的成熟,系统之间的运算速度、使用 环境、维护性和可扩展性差别不大,机器的价格性能比大同小异,译文质量的比重显得更 加重要,实际上很多机器系统的测评只关注译文质量,这也是近几年来机器翻译系统评价 发展的新趋势。 1 3 2 机器翻译质量评价类型 对于翻译,无论是机译还是人译,没有什么“是”或“不是”一类的绝对答案,只有 “很好”、“好”、“较差”、“差”的质量等级之分。而对于“好”与“差”的标准, 仁者见仁,智者见智,所以翻译评估往往难以摆脱主观性。其次,对于机器翻译,不同的 用户有不同的要求,一些人要求译文的质量要高,另一些人要求只要译文能读懂即可4 。 人们要求机译评价的原因也各自有所侧重,机器翻译用户急于知道个系统的费用以及工作 效率,希望机译评估帮助他们决定购买哪一个系统;系统开发者想要理解系统的不足之处: 研究人员则希望通过机译评估了解某种理论的应用情况以及有待改进的地方;各基金组织 则需要综合评测,以便决定支持哪一个项目。所以说,很难制定出一个统一的评价标准。 另外,机译评估的难点还在于它通常需要把体系结构完全不同的各种系统相提并论,进行 比较。现在的机译系统一般采用直接、转换、中间语言和基于实例的翻译这四种体系结构, 他们各有所长,各有所短,或者翻译质量高但速度慢,或者速度快却质量差,很难说哪种 方法更具优势。即使是体系结构相同的系统,有时为了满足用户的需要,可能会把系统局 限于不同的子语言,因此,比较各种机译系统常常有一定的困难。鉴于上述种种原因,目 前世界上机译评估林林总总。单就评价方法而言,机译评价大致可分为三类: 第一类为操作性评价( o p e r a t i o n a le v a l u a t i o n ) ,有时也称作经济评价( e c o n o m i c : 。丁华福,李毅,尚福华机器翻译质量自动评价的实践【a 】黑龙江工程学院学报第1 6 卷第3 期2 0 0 2 年9 月 6 北京工商大学硕士学位论文 e v a l u a t i o n ) 。这种评价所关心的是m t 系统的经济价值。其具体操作方法是比较机译与人译 每字或每页的花费以及所耗的时间。这种评价方法的优势在于它为用户提供直观的评价结 果,因此它是很好的购物指南。但遗憾的是这种评价方法没有涉及译文质量而且其针对性 太强,不适于比较不同的系统。 第二类为说明性评价( d e c l a r a t i v ee v a l u a t i o n ) ,又称质量评价( q u a l i t a t i v ee v a l u a t i o n ) 。 这种评价侧重通过对比译文质量评价各机译系统的性能。因此,说明性评价的关键在于制 定质量标准。目前,大家公认的标准包括译文的可理解性( i n t e l l i g i b i l i l y ) 与忠实度( f i d e l i t y ) , 有时也包括语体风格及语法。评价参与者同时拿到一份评分标准,评分标准通常是一个等 级量表,把翻译按忠实度与可理解性划分成几个等级,评价人按此标准为每一个机译的句 子评分。说明性评价有一个明显优势,它能直接表明译文质量。但是,说明性评价也有致 命的弱点,即评价过程带有强烈的主观性。首先,制定评分标准时就含有主观性,有的评 分标准把译文质量分成十个等级,有的分成四个等级。诚然,十个等级的等级量表对质量 划分更细致,但何时采用十个等级、何时采用四个等级都是由人主观决定的,而且即使对 同一评分标准,评价者各自理解也有所不同,因而常常是对同一个翻译,不同评价者把它 划入不同的等级。 第三种常用的评价方法为分类评价法( t y p o l o g i c a le v a l u a t i o n ) 。实现分类评价大致有 两种途径:第一种途径类似于语言教学中的“错误分析法”,即记录译后编辑中发现的错 误,并把错误归类,最后根据错误多少为系统评分,有时也根据错误类型进行加权评分; 第二种途径是预先制定覆盖面广的系统测试集,测试集中每一个测试项目代表机译系统可 能遇到或者它应该了解的语言现象,然后根据各机译系统对测试集中句子的翻译情况予以 评分。显然,分类评价不仅能评价系统的译文质量,而且能诊断出机译系统对哪些语言点 处理不好,也能测出系统的改进与提高之处,因此,这种评价方法深受系统开发者的欢迎。 利用测试集测试还很方便易行,一集在手,便可以为多个系统,多次测试,便于比较各系 统,同时又节省人力、物力。 有时,根据评价所采用的技术,机译评价可分为自动评价与非自动评价,是根据评价 的方法来划分的。自动评价方法就是利用计算机来评价译文的。在实际的评价当中,有些 系统已部分应用自动技术,比如说自动计算译后编辑中的错误率( m i n n i s ,1 9 9 1 ) ,自动生成 测试集( a r n o l d & m o f f a t ,1 9 9 3 ) 等。i b m 的b l e u ( b i l i n g u a le v a l u a t i o nu n d e r s t u d y ) 系统和北 京大学计算语言所研制的m t e 评价系统就属于自动评价系统,这些评价系统对机器翻译系 7 基于n 元共现的机器翻译自动评价的研究 统的质量能做出比较客观的评价。所谓非自动评价就是利用人工根据制定的评分标准对机 器翻译系统输出的译文进行评分,这种方法简单适用、前期投入少,不足之处是主观因素 大,而且不可重用。同一个译文,不同的参评人员的评分也不同。a l p a c 报告的评分就是 采用这种方法,欧洲一些国家和日本大多采用这种方法。 1 3 3 机器翻译自动评价的方法 机器翻译的自动评价越来越引起重视,“评价驱动”成为自然语言处理研究的一个主 要动力。同时,大规模语料库的出现、各种机器翻译算法的提出,使得开发过程中频繁的 评价成为必需。此外,开发过程中反复的评价过程采用自动评价方法加以实现,才更具有 实践意义。 目前应用的自动评价方法5 有: 1 完全匹配方法:与参考译文完全相同的译文才被认为是正确的。显然该标准过于 严格,不适用。 2 编辑距离方法:从候选译文到参考译文,所需要进行的插入、删除、替换操作的 次数。 3 基于测试点的方法:对于每一个句子,孤立测试点,简化测试目标( 模拟人类标 准化考试的办法) ,采用一种由测试描述语言t d l ( t e s t d e s c r i p t i o n l a n g u a g e ) 描述的“巴 克斯范式”b n f ( b a c k u sn o r m a lf o r m ) 。将b n f 与译文匹配,匹配成功则正确,否则错。 4 基于n 元共现的方法:用候选译文中出现的n 元组和参考译文中出现的n 元组相比, 计算匹配的n 元组个数与候选译文的n 元组总个数的比例;允许一个源文有多个参考译文, 综合评分。 因此,机器译文评价方法的种类可以总结如下表: 5 j e s u s t o m e sc i a l a q u a n t i t a t i v e m e t h o d f o r m a c h i n e t r a n s l a t i o n e v a l u a t i o n u n d e r t h e g r a n t t i c 2 0 0 0 - 1 5 9 9 - c 0 2 f u n d e d b y s p a n i s h c i c y t a n d u n d e r t h e g r a n t i s t - 2 0 0 1 3 2 0 9 1b y t h e i s t p r o g r a m o f t h c e u r o p e a n u n i o n 8 北京工商大学硕士学位论文 表1 1 机器译文评价的方法 ;缩写全称性测评单位参考译插述j 质文数量 绺, 一 w e rw o r de r r o rr a t e客 单词 l 为了得到参考译文而要添加、 观 删除或替换的单词比例 s e rs e n t e n c ee r r o rr a m句子 l 与参考译文不同的句子比例 m 拜7 i rm u l t ir e f e r e n c ew e r单词 可变与w e r 相同,但要比对若干参 考译文 b l e u b i l i n g u a le v a l u a t i o nu n d e r s t u d y 句子可变与参考集合匹配的单词集合数 目 s s e r s u b j e c - t i v es e n t n c ee r r o rr a t e 主句子 为每个句子评分0 - 1 0 ,然后转 观化为比例 i e ri n f o r m a t i o ni t e me r r o rr a t e 片断句子划分为信息片断,计算错 误翻译片段的比例 a w e ra i lr e f e r e n c ew e r 单词为了得到正确译文而要添加、 删除或替换的单词比例 a s e ra l lr e f e f e n c es e r 句子错误句子的比例 1 4 本课题的研究工作 本课题的研究目的就在于探索、实现机器翻译译文质量的自动评价,论文首先阐述了 机译自动评价的概念原理,在介绍分析几种现有的自动评价方法的基础上研究分析自动评 价的原理,然后提出新的自动评价方法r b l e u ,希望通过本项目的研究,能够对机器翻译 自动评价的深入发展进起到积极的作用。 本文提出一种新的评价方法r b l e u ,采用基于n 元共现的思想并使用调和平均数作为 评价的主要指标。系统实现了b l e u 和新方法r b l e u 两种评价标准,针对三个商用机器翻 译系统的译文质量进行了客观的自动评价。论文对实验结果进行了比较和分析,证明了该 方法能够在译文质量方面对机器翻译系统做出比较客观的评价。 本实验中的2 0 句汉语源文是从1 9 9 8 年8 6 3 汉英机器翻译测试题库中抽样取得的。其参 考译文分别是由英语水平优秀、良好和一般的,母语为汉语的大学生提供,存放在a c c e s s 9 基于n 元共现的机器翻译自动评价的研究 数据库中。选取多个参考译文的基本思想是翻译之间的匹配程度应当是可选择的,而不是 非此即彼,因此提供一个多选择匹配的参考集合可以满足这种多样性。 应用程序采用了面向对象的思想进行设计和开发,使用了j a v a i 吾言技术,利用了开放 的集成开发环境e c l i p s e 作为工具平台,使用了j f c 实现应用程序的用户界面,使用j d b c 实 现了程序和a c , e e s s 数据库的通信。 1 5 论文的组织 本文共分为以下几章: 第1 章:绪论。针对本文的研究背景、目的和意义进行简要的介绍。 第2 章:现有机器翻译自动评价方法。本章介绍了几种目前比较流行的机器翻译自动 评价方法,如孤立点测试方法,b l e u ,n i s t 以及g t m 方法,以及各种评价方法的性能分 析。 第3 章:机器翻译自动评价系统。介绍了本文中提出的测评方法r b l e u ,对实验的内 容和方法,以及系统的整体框架进行了描述,并对文中使用的评价标准和实验步骤进行了 详细的介绍,同时针对实验的结果和数据进行了比较和分析。 第4 章:开发环境及语言。对j a v a 语言,集成开发环境e c l i p s e 和j f c 、j d b c 等技术进 行了介绍,对于本文中运用到的技术和方法给予了详细的说明。 第5 章:程序设计及实现。针对框架的工作流程、各个模块功能、具体实现进行了介 绍,并列举了部分程序的代码编写。 第6 章:总结及展望。对本文完成的工作进行了总结,并对未来的工作进行了阐述, 同时整理了论文书写过程中遇到的问题和心得体会。 1 0 北京工商大学硕士学位论文 第2 章现有机器翻译自动评价方法 2 1 基于测试点的方法 1 9 9 3 年北京大学俞士汶教授提出的孤立点测试方法是机器翻译评价自动化方面最早的 工作6 。在评估机器翻译系统的时候,分别评估机器翻译系统在各个语法点的翻译质量,并 将各个语法点的评估结果加权平均后作为最终的机器翻译系统的评估结果该方法所测试 的语法点称为测试点,相应的方法称为孤立测试点法7 。测试点可以分为几个大类:单词测 试、词组测试、词法测试、初级句法测试、中级句法测试、高级句法测试、综合测试等8 。 每个大类里分几个中类,每个中类里再分几个小类。开发的系统只选取了几个代表性的测 试点。下面以词的多义性测试和语序调整测试为例介绍该方法的实现9 。 例1 词的多义性测试点规则描述 本例测试机器翻译系统在不同的语言环境中翻译多义词“s p r i n g ”的能力。 原文为:s p r i n gi st h ef i r s ts e a s o ni nay e a r i t i s as p r i n g b e d 译文为:春天是在一年内的第一个季节。 它是一张弹簧床。 则按如下规则描述该测试点: s 一( “) + $ a $ a 一春季春天 a 一弹簧 桦 说明:每一条产生式为b n f 范式表达式。”s ”表示测试开始:w ”表示该测试结束;“6 4 ” 为测试点编号;$ a ”为非终结符,即它要用其它终结符替代;矿表示或者;” 用于第二 个词义。当两种词义都翻译正确时,认为m t 系统答对该题,否则认为答错。 例2 语序调整测试点规则描述 汉语中时间状语应放在谓语动词之前,语序作为本例的测试点。 6s y u a u t o m a t i c e v a l u a t i o n o f q u a l i t y f o r m a c h i n e t r a n s l a t i o ns y s t e m s m a c h i n c t r a a s l a t i o n 1 9 9 3 ,8 :1 1 7 - 1 2 6 7 俞士汶等机译译文质量自动评价原理多语种机器翻译国际研讨会1 9 9 1 年:5 7 5 8 o 俞上汶等机译译文质量测试描述语言t d l 知识工程进展1 9 9 1 年;1 1 6 - 1 2 6 9 俞士汶等机器翻译译文质量自动评估系统中文信息学会年会论文集1 9 9 1 ;3 1 4 - 3 1 9 基于n 元共现的机器翻译自动评价的研究 原文为:ih a v es u p p e rn o w 译文为:现在我吃晚餐。 则按如下规则描述该测试点: s 一( 7 5 ) + s a + $ b + $ a 一现在 $ b 一吃佣 撑 说明:产生式“s ( 7 5 ) + $ a + $ b ”中有“s a ”和“$ b ”且“s a ”在前,“$ b ”在后, 所以测试译文与机器翻译译文如果顺序匹配上,则认为答对,否则认为答错。 2 2 b l e u 2 2 1b l e u 原型 b l e u ( b i l i n g u a le v a l u a t i o nu n d e r s t u d y ) 是f h r a m 于2 0 0 1 年九月份提出的一种机器翻 译自动评价的方法,其核心思想就是“一种机器翻译的结果与专业人工的翻译越接近,则 它的质量就越高 1 0 。因此它采用了基于n 元共现的思想,利用准确率来衡量一个机器翻译 结果与人工翻译的相似度。针对每个句子以单词作为比较和判断的单元,一个单词为一元 组,邻近的两个单词为一个二元组,依此类推。所有句子的各元组匹配情况反映了这个段 落或篇章的最终质量。 下面先通过一个直观的例子来说明这种方法。 例l 源文:党指挥枪是我党的行动指南。 候选译文: 1 i ti sag u i d et oa c t i o nw h i c he n s u r e st h a tt h em i l i t a r ya l w a y so b e y st h ec o m m a n do f t h e p a r t y 2 i ti st oi n s u r et h et r o o p sf o r e v e rh e a r i n gt h ea c t i v i t yg l l i d e b o o kt h a tp a r t yd i r e c t 参考译文; 1 i ti sag u i d et oa c t i o nt h a te n s u l f e $ t h a tt h em i l i t a r yw i l lf o m v e rh e e dp a r t yc o m m a n d s 2 i ti st h eg u i d i n gp r i n c i p l ew h i c hg u a r a n t e e st h em i l i t a r yf 0 r c c sa l w a y sb e i n gu n d e rt h e ”k i s h o r e p a p i n e n ie la 1 b l e u :a m e t h o d f o r a u t o m a t i c e v a l u a t i o n o f m a c h i n e t r a n s l a t i o n e v a l u a t i o n 【r 1 t e c h n i c a l r e p o r t r c 2 2 1 7 6 ( w 0 1 0 9 - - 0 2 2 ) ,m m r e s e a r c h d i v i s i o n ,t h o m a sj w a t s o n r e s e a r c h c e n t e r , y o r k t o w n h e i g h 峨n y s e p t e m b e r 1 7 鼍2 0 0 1 。 1 2 北京工商大学硕士学位论文 c o m m a n do f t h ep a r t y 3 i ti st h ep r a c t i c a lg u i d ef o r t h ea r m yt oh e e dt h ed i r d 2 t i o n so f t h ep a r t y 在本例中,候选译文1 的一元准确率( u n i g r a m p r e c i s i o n ) 是1 7 1 8 ,候选译文2 的一元准
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2021年高考真题重庆卷物理试题(解析版)
- 办公设备租赁合同
- 信息技术在农业种植上的推广应用协议
- 写观察日记习作400字(10篇)
- 企业风险管理控制表
- 环保法规培训教材及考核题库
- 公文写作格式规范与常见范文示例
- 建筑工地拆除安全专项方案范文
- 酒店客房服务流程优化方案与规范
- 企业间节能减排技术合作协议
- 药学知识与技能课件
- 主持人个人礼仪规范
- 2025年人教版《太阳》标准课件
- 老年患者的安全管理课件
- 教学课件:《公差配合与技术测量》
- 《天体和天体系统》课件
- 《生物制品连续制造指南》
- 2025年高压电工作业考试国家总局题库及答案(共280题)
- 给药错误的应急流程
- 交流电能表现场校验仪检定规程
- 复旦大学金融科技研究院发布-中国金融科技专利技术白皮书(2024年)
评论
0/150
提交评论