(计算机应用技术专业论文)基于短语的统计机器翻译系统的研究与应用.pdf_第1页
(计算机应用技术专业论文)基于短语的统计机器翻译系统的研究与应用.pdf_第2页
(计算机应用技术专业论文)基于短语的统计机器翻译系统的研究与应用.pdf_第3页
(计算机应用技术专业论文)基于短语的统计机器翻译系统的研究与应用.pdf_第4页
(计算机应用技术专业论文)基于短语的统计机器翻译系统的研究与应用.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(计算机应用技术专业论文)基于短语的统计机器翻译系统的研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

沈阳航空工业学院硕士学位论文 摘要 机器翻译是自然语言处理领域中的一个热点和难题,机器翻译的研究对国际间交流 合作、学术上和商业上都具有十分重要的理论和实践意义。本文在调研了国内外机器翻 译研究历史与现状的基础之上,分析了目前统计机器翻译的相关理论,实现了一个统计 机器翻译系统,并将其应用于航空领域标题的翻译,取得较好的翻译效果。 本文的创新点在于整合了国际上一些公开的工具,改进了翻译模型模块,搭建了一 个基于短语的统计机器翻译系统。从语科的预处理,模型参数的训练,翻译过程的执行, 到最后翻译结果的自动评测实现了一个完整的翻译流程。 主要的工作包括以下几个方面; 第一,语料的预处理。语料的加工程度直接影响翻译结果。统计机器翻译通常都采 用双语语料,本文分别对中英文两种语言的语料进行了预处理。 第二,在对统计机器翻译的相关理论进行了研究的基础之上,利用一些现有的资源 和工具。补充了短语翻译模型模块,实现了一个基于短语的统计机器翻译系统。并介绍 了系统工作的基本原理,系统实现,系统运行环境和参数设置。 第三,将系统应用于航空领域标题的翻译。结合航空领域标题的特点,进行有针对 性的翻译,取得了较好的翻译效果。 第四,机器翻译自动评测技术的研究。本文在研究自动评测技术的基础上,将航空 领域标题翻译的结果进行了自动评测。 本文的研究和实验证实了基于短语的统计机器翻译方法的有效性。目前,也有人在 探索基于语言深层结构的翻译模型,这已成为一个新的研究点,相信在这方面,统计机 器翻译还有较大的改进空间,这也是下一步研究的重点。 关键词:统计机器翻译;短语;语料;统计模型;自动评测 沈阳航空工业学院硕士学位论文 a b s t r a e t m a c h i n et r a n s l a t i o n 州di sr e g a r d e d af o c u sa n dd i f f i c u l tp r o b l e mi nt h ef i e l do f n a t u r a ll a n g u a g ep r o c e s s i n ga n d i th a sl a e o r e t i e a la n dp r a e l i e a ! s e n s ei n i n t e r n a t i o n a l c o m m u n i c a t i o na n dc o o p e r a t i o n b yr e v i e w i n gt h ed o m e s t i ca n da b o r dr e s e a r c hs t a t u so f m a c h i n et r a n s l a t i o n , w ea n a l y z et h et e e l m o l o g yr e l a t e dt os t a t i s t i c a lm a c h i n et r a n s l a t i o n ( s m t ) a n di m p l e m e n tam a c h i n et r n m l a t i o ns y s t e mi nt h i st h e s i s ,w l a i e l aw ca l r g l yt ot h et i t l e s w a m l a t i o n i n a v i a t i o n d o m a i n t h er e s u i t ss h o w t h a t w e h a v e d o n ea g o o d j o b t h ei n n o v a t i o no ft h i st h e s i sl i e si nc o m b i n i n gs o l l o p e nt o o l s ,w h i l ep u t t i n gu pa s t a t i s t i c a lm a c h i n et r a n s l a t i o ns y s t e mb a s e do up h r a s e t h ew h o l ep r o c e s si n c l u d e st h e p r e p r o e e s so f t h ec o r p u s ,t h ew a i n i n gf o rp a r a m e t e r so f t h em o d e l ,t h ee x e c t t t i o no f t r a n s l a t i n g c o i l r s i e ,a n dt h ea u t oe v a l u a t i o no f t r a n s l a t i o nr e s u l t s t h u sa ni n t a c tt r a n s l a t i o np r o c e d u r eh a s b e e ni m p l e m e n t e d w o r k si nt h i st h e s i sm a i n l yi n c l u d e : f i r s t t h ep r e p r o e e s so f t h cc o r p u s t h ep r o c e s s i n go f t h ee o r p l j sd i r e c t l yi n f l u e n c e st h e q u a l i t yo f t h et r a n s l a t i n gi e s l l l ta ss t a t i s t i c a lm a c h i n et r a n s l a t i o nu s u a l l y b a s e do nt h eb i l i n g u a l c o r p u st h i st h e s i sc a r r i e st h ep r e p r o e e s so nt h ec h i n e s e de n g l i s hc o r p u ss e p e r a t e l y s e c o n d b a s e d o i l d o i n gs o m er e s e a r c h e s o n t h e t h e o r i e s o f s m i ,t h e w o r k m a k e s u s e o f s o m l :涨n lr e s o s e sa n dt o o l sw h i c ha 赡a v a i l a b l e ,w ei m p l e m e n tas m ts y s t e mb y 咖t h e m e t h o do f p h r a s e - b a s e dm o d e la n di n t r o d u c eh o wt h es y s t e mr u n sa n dt h ep a r a m e t e r s e t t i n g s t h i r d , w ea p p l i e dt h es y s t e mt ot h et r a n s l a t i o n j o bi na v i a t i o nd o m a i nb yc o m b i n i n gt h e c h a r a c t e r i s t i co ft h et i t l ei na v i a t i o nd o m a i na n d ,m a d eb e t t e rt r a x a s l a t i o nr e s u l tt h a no t h e r c o u n t e r p a r t s 1 。o u r t h , w es t u d i e dt h ea u t oe v “! u a t i o nt e c h n o l o g yo fm z l a i n el r a n s l a t i o n i nn a t u r a l l a n g u a g ep r o c e s s i n g ,t h ea u t oe v a l u a t i o ng e t sm o l ea n dm o l ea t t e n l i o n s o ,t h i sw o r kh a s e v a l u a t e d t h e t a a n s l a t i o n m s u | t o f t h e t i t l e i na v i a t i o n d o m a i n0 1 1 t h eb a s i s o f s t u d y i n g t h ea u t o i i 鲨里堕窒三些堂堕堡主兰垡堡苎 e v a l u a t i o nt e c h n o l o g y o n t h eo t h e r h a n d ,t h er e s e a r c ha n de x p 嘶m e n t o f t h i s t h e s i s h a v e p m v e d t h e v a l i d i t y o f p h r a s e - b a s e 【ls m t m e t h o d a tp r e s e n t ,s o m l n ei se x p l o r i n gt h et r a n s l a t i o nm o d e lb a s e d0 n t h ec o m p l e xl e 】( i c a is t r u c t u r eo f n kl a n g u a g e , a n dt h ee x p l o r a t i o nh a sa l r e a d yb e c o m ean e w r e s e a x c h w eb e i k v et h a ti ti sp o s s i b l et oi m p r o v em a c h i n e 恤m s l a t i o np e f f o r m a n o ev i at h i s k i n do f e x p l o r a t i o n i ti sa l s oak e yp o i n to f o u xn e x tr e s e a r c h k e y w o r d s :s t a t i s t i c a lm a c h i n et r a n s l a t i o n ;p h r a s e ;c o r p u s ;s t a t i s t i c a lm o d e l ;a u t oe v a l u a t i o n 原创性声明 本人郑重声明:所呈交的学位论文是本人在导师的指导下独立完 成的。除文中已经注明引用的内容外,本论文不包含其他个人或集体 已经发表或撰写过的作品或成果,也不包含本人为获得其他学位而使 用过的成果。对本文研究做出重要贡献的个人或集体均已在论文中进 行了说明并表示谢意。本声明的法律后果由本人承担。 论文作者签名:苗避1 蓖 2 。o 年1 月7 日 版权授权说明 本人授权学校“有权保留送交学位论文的原件,允许学位论文被 查阅和借阅,学校可以公布学位论文的全部或部分内容,可以影印、 缩印或其他复制手段保存学位论文”;愿意将本人学位论文电子版提交 给研究生部指定授权单位收录和使用。学校必须严格按照授权对论文 进行处理,不得超越授权对毕业论文进行任意处置。 授权人:苗湛鼹 ) 司年f 月上7 e t 沈阳航空工业学院硕士学位论文 第1 章引言 l l 课题的提出 机器翻译( m a c h i n et r a n s l a t i o n ,h i t ) 是使用计算机实现从一种自然语言文本到 另一种自然语言文本的翻译【i 】。机器翻译涉及到语言学、计算机科学、数学等许多学科, 是非常典型的多边缘交叉学科。在语言学中,机器翻译是计算语言学的一个研究领域; 在计算机科学中,机器翻译是人工智能的一个研究领域;在数学中机器翻译是数理逻 辑和形式化方法的一个研究领域。机器翻译需要把这些不同的学科结合起来,综合地进 行研究。 随着信息时代的到来以及因特网的迅猛发展,各国间的交流f l 益广泛,如何消除人 们之间的语言文字障碍成为二十一世纪的热点问题。半个世纪以来,机器翻译研究一直 在曲折中前进。尽管经过了几十年的发展历史,形成了众多理论、方法和技术,但是现 有机器翻译系统的翻译质量仍然不能令人满意,仍有许多值得研究之处。 传统的机器翻译系统中翻译知识使用规则的形式表示,而规则是由语言学家手工编 写的。这种方法需要耗费大量的资金和人力进行词典和规则系统的开发,从研究的角度 说试验过于依赖语言规则开发者的知识和经验,研究周期过长,不同的研究工作之间 缺乏可比较性。从试验的角度说,在处理大规模真实语料的时候,效果也总是非常不理 想。随着机器翻译研究的发展,人们逐渐认识到这种人工的翻译规则获取方式已经成为 制约机器翻译研究发展的瓶颈。 2 0 世纪8 0 年代以来,语料库语言学的堀起和迅速发展令世人耳目一新。人们希望 通过对大规模真实语料的调查来自动获取自然语言的各种语言事实及语法规律。通过对 语料库的深层次加工、统计和学习,自然语言处理领域取得了许多令人瞩目的成果。例 如,美国宾娴大学句法标注树库p e n nt r e e b e n k 的建立,为基于统计的句法分析模型的 研究提供了统一的训练和测试平台。大大地促进了英语句法分析技术的发展【2 】。语料库 方法的出现也为机器翻译的研究注入了新的生机和活力。 1 9 9 3 年在日本举行的m ts u n a n i t ti v 会议上,英国学者j o h nh u t c h i n s 在特邀报 告中指出,机器翻译已进入了一个新纪元,即进入了第三代机器翻译系统的研究,其主 沈阳航空工业学院硕士学位论文 要标志是语料库方法的引入【,】。与其它自然语言处理研究不同的是,用于机器翻译研究 的语料库一般为平行语料库( p a r a l l e lc o r p u s ) ,即包含多种语言互译文本的语料集合。 其中比较常见的是由两种语言组成的双语平行语料库,也称双语语料库( b i l i n g u a l c o r p u s ) 。由于双语语料库含有不同语言间的对照翻译信息,因此对自然语言处理领域 具有很高的研究和实用价值。 基于语料库的机器翻译方法可分为两种;基于统计的机器翻译方法( s t a t i s t i c a l m a c h i n et r a n s l a t i o n ,s m t ) 和基于实例的机器翻译方法( e x a m p l eb a s e dm a c h i n e t r a n s l a t i o n ,e b m t ) 1 4 i 。这两种方法都使用语料库作为翻译知识的来源,所以可咀统称 为基于语料库的机器翻译方法。它们的区别在于: 在基于统计的机器翻译方法中,知识的表示是统计数据,而不是语料库本身; 翻译知识的获取是在翻译之前完成,翻译的过程中不再使用语料库。 在基于实例的机器翻译方法中,双语语料库本身就是翻译知识的一神表现形式, 翻译知识的获取在翻译之前役有全部完成,在翻译过程中还要查询并利用语料库。 早在1 9 4 7 年,韦弗在他的以翻译为题的备忘录中。就提出了使用解读密码的 方法来进行机器翻译,这种所谓“解读密码”的方法实质上就是一种统计的方法,他是 想用基于统计的方法来解决机器翻译的问题。 但是,由于当时缺乏高性能的计算机和联机语料,采用基于统计的机器翻译方法在 技术上还不成熟,韦弗的这种方法是难以实现的。现在,这种局面已经大大改变了,计 算机在速度和容量上都有了大幅度的提高,也有了大量的联机语料可供统计使用,因此, 在2 0 世纪9 0 年代。基于统计的机器翻译又兴盛起来。 基于统计的机器翻译研究进行概率计算时,采用隐马尔可夫模型( h i d d e nm a r k o v m o d e l ,删) 。隐马尔可夫模型是马尔可夫模型的扩展口l 。马尔可夫模型描述的是一个随 机过程,而隐马尔可夫模型中有两个随机过程,一个随机过程描述观察值和状态之间的 概率关系,即观察值是状态的概率函数,另一个随机过程描述状态之问的转移关系。作 为外界的观察者来说,只能看到状态产生的观察值。而看不到状态之间的转移,状态之 间的转移是隐藏的,所以叫做隐马尔可夫模型。近年来,利用隐马尔可夫模型在词性标 注方面取得了较好的效果,从而推动了基于统计的机器翻译的研究。 在韦弗思想的基础上,i b m 公司的布朗( p e t e rb r o w n ) 等人提出了统计机器翻译的 2 沈阳航空工业学院硕士学位论文 数学模型噪声通道模型【6 。”( 将在第二章中详细讲解) ,并在噪声通道模型的基础上, 以英法双语对照加拿大议会辩论记录作为双语语料库,弄发了一个英法机器翻译系统 c a n d i d e 。 表1 1c a n d i d e 系统与s y s t r a u 系统比较 f l u e n c y d e q u a c y t i m er a t i o 1 9 9 2 1 9 9 31 9 9 21 9 9 31 9 9 21 9 9 3 s y s t r a n 4 6 6 5 4 06 8 67 4 3 c a n d i d e 5 1 1 5 8 05 7 56 7 0 t r a n s 日a d,8 1 9。8 3 88 3 78 5 0,6 8 86 2 5 m a n u a l$ 3 38 4 0 表1 1 是1 9 9 3 年d a r p a ( 美国国防部高级研究计划署) 对几个机器翻译系统的测试结 果,其中第一行是著名的s y s t r a n 系统( 基于规则) 的翻译结果,第二行是c a n d i d e 的 翻译结果。第三行是c a a d i d e 加入工校对的结果,第四行是纯人工翻译的结果。评价指 标有两个:f l u e n c y ( 流刺程度) 和a d e q u a c y ( 适当程度) 。t r a n s m a n 是i b m 研制的一 个译后编辑工具。t i m er a t i o 显示的是用c a n d i d e 加t r a n s m a n 人工校对所用的时间 和纯手工翻译所用的时间的比值。从指标上看,c a n d i d e 已经超越了采用传统的基于规 则方法的商用系统s y s t r a n 。 i b m 的这个统计机器翻译系统后来由于外部和内部的财政支持都撤走了,这个系统 的工作只坚持到1 9 9 5 年。i b m 的工作是建立在当时i b m 超级工作站集群的基础上的,需 要极大的计算能力,这种试验其他人当时难以模仿,因此很长一段时间,统计机器翻译 相关的工作进展不大。直到9 0 年代末,计算机的性能有了极大的提高,普通的个人计 算机的计算能力已经大大超过了当时的i b m 超级工作站,与此同时统计方法在语音识别 和自然语言处理的其他领域都获得了极大的成功,这就使得人们重新开始对统计机器翻 译燃起兴趣。 1 9 9 9 年的夏天,一批对统计机器翻译感兴趣的研究者聚集在约翰霍普金斯夏季讨论 班上,重复了i b m 当年的工作,并开发了一套开放源代码的统计机器翻译工具软件包 e g y p t 。这套软件中最主要的训练部件g j z a 及其后来的升级版g i z 8 + + 嗍,为统计机器翻 - 3 沈阳航空工业学院硕士学位论文 译的研究者提供了一个麸同的研究基础,大大降低了统计机器翻译研究的门槛。越来越 多的人开始投入到这个领域之中,促成了近年统计机器翻译的研究热潮。 在最近几年的a c l ( a i l n u a lm e e t i n go ft h ea s s o c i a z i o nf o rc o m p u t a t i o n a l l i n g u i s t i c s ) 会议上,统计机器翻译成为了一个越来越受人注目的话题,相关论文也迅 速增长。在a c l 2 0 0 6 上,研究的热点集中在以下几个方面1 9 一1 4 】; 词对齐对统计机器翻译的影响 基于短语的统计机器翻译 统计机器翻译与句法分析相结合 统计机器翻译由最初i b m 模型词对词的翻译到基于短语的翻译,再i 最新提出的与 句法分析相结合的统计机器翻译,正体现了机器翻译金字塔( 如图1 1 所示) 由低向高 发展的一个趋势陋。 率问语言 词 涿语言 词 目标浯畜 图1 1 机器翻译金字塔 近年来,统计机器翻译取得了长足的进步,理论方法不断创新,系统性能不断提高, 并且在国际评测中屡创佳绩,引起了人们广泛的关注,从最近两年的国际评测结果来看, 目前性能最好的系统是6 0 0 9 l e 公司的统计机器翻译系统。 相对来说,国内的统计机器翻译研究起步较晚,但进展很快。最近两年连续举办了 两届统计机器翻译研讨会。主要针对基于短语的统计机器翻译展开讨论,讨论自由热烈, 各研究单位劲头十足,共同期待机器翻译的重大突破。 4 沈阳航空工业学院硕士学位论文 本文在此研究背景下,就基于短语的统计机器方法展开研究,搭建了一个统计机器 翻译系统,并将其应用于航空领域标题的翻译。 1 2 课题的意义 统计机器翻译的研究与实用系统豹最终实现有着重要的实践意义和理论价值,可归 纳为如下几个方面: 实践上的意义。当今信息社会,国际闻的交流与合作日益广泛和深入,“地球村” 的概念正在为越来越多的人所接受。在这种过程中,语言的差异是一个非常严重的障碍。 各行各业的人们每天都要面对大量用他们所不熟悉的语言写成的文档资料,要与和他们 持不同语言的人进行交流。如果单纯依靠人工翻译,这些日益增加的待翻译材料无疑是 一种非常沉重的负担,而机器翻译系统的成功运行必将大幅度地减轻这种压力。其中统 计机器翻译系统以其开发周期短、便于处理大规模语料等优点而显出优势。 学术研究上的意义。机器翻译是人工智能中晟活跃的领域之一,处理的对象是自然 语言,自然语言的无限性和不确定性吸引了众多研究者。语料库语言学是一门与计算机 科学、语言学相关的新兴交叉学科,集中研究自然语言文本的采集、存储、加工和从语 料中获取知识的方法,凭借语料库所提供的客观详实的语言证据来进行自然语言处理和 语言学研究。基于语料库的统计机器翻译方法的研究,对于机器翻译和自然语言处理研 究具有重大的理论意义。 商业上的意义。机器翻译产品的广阔应用前景和高技术含量决定了它必将为机器翻 译系统的开发与销售带来可观的经济利益以及社会效益。 1 3 研究目标 本文的研究目标,分为以下几个主要方面: 第一,语料的预处理。基于统计的方法是从大量的真实语料中获取有用信息建立统 计模型,在模型基础上进行翻译,所以语料的加工程度直接影响翻译结果。机器翻译通 常都采用双语语料,本文分别对中英文两种语言的语辩进行了针对性的预处理。 第二,对统计机器翻译的相关理论进行系统的研究,充分利用了一些现有的资源和 工具,并补充实现一些模块,采用基于短语的方法实现一个统计机器翻译系统。 5 沈阳航空工业学院硕士学位论文 第三,将系统应用于航空领域标题的翻译。针对航空领域标题的特点进行有针对性 的翻译。 第四,对机器翻译自动评测技术进行研究。在自然语言处理中,评测的重要性越来 越得到人们普遍的重视。在对评测技术进行研究的基础之上,对本文实现的航空领域标 题的翻译结果进行评测。 1 4 论文的组织 论文主要包括六章内容: 第一章介绍了本文工作的提出、意义、目标等研究背景。 第二章介绍了统计机器翻译相关的理论研究。使用统计方法实现机器翻译,关键 是要建立统计模型,在这一章对机器翻译相关的模型进行了详细的阐述,包括框架模型 和特征模型。 第三章围绕基于短语的统计机器翻译系统的工作原理展开论述,介绍了短语翻译 候选项,并详细说明了在翻译过程中用到的一些概念,合并假设、堆栈搜索、未来代价 估计和n - _ b e s t 列表。 第四章从统计机器翻译系统实现的角度展开论述。充分利用了国际上已有的资源 和工具,补充了一些模块,将这些工具和模块整合起来搭建了一个基于短语的统计机器 翻译系统。并详细描述了各模型的训练和参数设置,能够完成从训练到翻译,结果评价 一整套完整的流程。 第五章介绍机器翻译自动评测技术。 第六章从应用的角度实现了翻译流程,翻译的对象是航空领域标题。 一6 沈阳航空工业学院硕士学位论文 第2 章统计机器翻译相关理论 统计机器翻译中涉及大量的统计模型【1 9 1 。简单地说。这些统计模型分为两类一类 是框架模型,另一类是特征模型。每一个特征模型都从一个侧面反映了机器翻译源语言 s 翻译到目标语言t 的概率,而框架模型决定了这些特征模型怎么组合得到总体的翻译 概率。 2 1 框架模型 主要的框架模型有两种一种是噪声通道模型。一种是对数线性模型脚】。 2 1 1 噪声通道模型 噪声通道模型是i b m 公司提出的模型。在这种模型中,把机器翻译看成是一个信息 传输的过程。假设说话者已经用目标语想好了一句话t ,但是说出的却是源语言的句子 s 。这个过程可视为编码过程。而统计的机器翻译就是要从s 回推t ,可视为解码过程。 可以认为,一种语言t 由于经过了一个噪音通道而发生了扭曲变形,从而在信道的另一 端呈现为另外一种语言s ,翻译问题实际上就是如何根据观察到的s ,恢复最为可能的t 的问题。 机器翻译过程就是解码过程,出发点就是贝叶斯公式: 尸( t d = 警 ( 2 ” 对于给定的源语言句子s 来说,p ( s ) 是一个非随机量,因此忽略不计。那么翻译 的过程转化为求蘩件概率最大值的问题 根据b a y e s 公式可推导得到: t = a t g m a x p ( t s ) = a r g m a x p ( t ) p ( s i 丁) ( 2 2 ) 这个公式被称为统计机器翻译的基本方程式( f u n d a m e n t a le q u a t i o no f 7 沈田1 航空工业学院硕士学位论文 s t a t i s t i c a lm a c h i n et r a n s l a t i o n ) 。在这个公式中,e ( w ) 是目标语言的文本t 出现的 概率,称为语言模型。p ( s i t ) 是由目标语言文本t 翻译成源语言文本s 的概率,称为翻 译模型。语言模型只与目标语言相关,与源语言无关,反映的是一个句子在目标语言中 出现的可能性,实际上就是该句子在句法语义等方面的合理程度:翻译模型与源语言和 目标语言都有关系,反映的是两个句子互为翻译的可能性。 为什么不直接使用p ( t 1 s ) ,而要使用p ( t ) p ( s i t ) 这样一个更加复杂的公式来估计 译文的概率呢? 其原因在于,如果直接使用p ( tj s ) 来选择合适的t ,那么得到的t 很可 能是不符合译文语法的,而语言模型p ( t ) 就可以保证得到的译文尽可能的符合语法。 在噪声通道模型下,统计机器翻译问题被分解为三个问题: 语言模型p ( t ) 的参数估计; 翻译模型p ( s t ) 的参数估计: 搜索问题;寻找最优的译文; 2 1 2 对数线性模型 对数线性模型( 早期也被称为最大熵模型) 是o c h 在a c l 2 0 0 2 会议上提出来的,该 论文被评为该次会议的最佳论文l 。o c h 在实验中发现,如果把噪声通道模型中的反向 翻译模型p ( s 1 t ) 换成正向翻译模型p ( t i s ) ,系统的性能并没有明显的变化,更进一步, 如果在语言模型p ( t ) 和正向翻译模型p ( tj s ) 之间加上一个加权参数,通过调整这个参 数,可以大大提高实验系统的性能。很明显,这种做法从噪声通道模型的思想来看是不 合理的。于是o c h 提出了一种新的统计机器翻译框架模型,就是对数线性模型。 基于最大熵的方法与基于噪声通道的方法不同,是一种直接翻译模型。 最大熵,又称最大熵原理,或者最大熵方法,是一种通用的统计建模的方法。下面 介绍一下最大熵方法的基本思想。 对于一个随机事件,假设已经有了一组样例那么接下来需要建立一个统计模型, 来模拟这个随机事件的分布。 为此,需要选择一组特征,使得得到的这个统计模型在这一组特征上,与样例中的 分布完全一致,同时又保证这个模型尽可能的“均匀”( 也就是使模型的熵值达到最大) , 以确保除了这一组特征之外,这个模型没有其他的任何偏好。依据这个原则的统计建模 沈阳航空工业学院硕士学位论文 方法就是最大熵方法。 假设t 、s 是机器翻译的目标语言和源语言句子,h 。( t ,s ) ,h m ,s ) 分别是t 、 s 上的m 个特征 , 。是与这些特征分别对应的m 个参数( 权值) ,那么直接翻 译概率可以用咀下公式模拟: h,村 p ( r l s ) * ( t i s ) = e x p 【厶心c - s ) 】唧【丸k 仃:s ) 】 ( 2 3 ) m ,1,f_i 而对于给定的s ,其最佳译文t 可以用以下公式表示: 肼 = a r g 攀 p ( ? 1 s ) = a 曜严 五k ( 瓦$ ( 2 4 ) 可以看到,如果将两个特征分别取为l o gp ( t ) 和l o gp ( s l t ) ,并取1i = 12 = 1 , 那么这个模型就等价于噪声通道模型。 在最大熵方法中最常用的做法是采用二值特征,可以用一种i i s ( i m p r o v e d i t e r a t i v es c a l i n g ) 算法进行参数训练i 丝】。而在基于最大熵的统计机器翻译中,由于 采用的特征是一种实数值特征,模型的参数不能使用通常的i i s 算法进行训练。为此采 用了一种区别性学习方法( d i s c r i m i n a t i v et r a i n i n g ) ,其训i 练的优化准则为1 2 3 - 2 s : rw、 铲= 舡g m 戥 i o g 即( t i s ) 2 5 ) l 扣- lj 0 c h 在2 0 0 2 年介绍了他们在基于最大熵的统计机器翻译方法上的一系列实验: 首先将噪声通道模型中的翻译模型换成反向的翻译模型,简化了搜索算法,但翻译 系统的性能并没有下降;调制参数 l 和 2 ,系统性能有了较大提高;再依次引入其 他一些特征,系统性能又有了更大的提高。 他们引入的其他特征包括: 句子长度特征;对于产生的每一个目标语言单词进行惩罚; 语言模型特征:一个基于类的语言模型特征; 词典特征:计算给定的输入输出句子中有多少词典中存在的共现词对。 采用基于最大熵的统计机器翻译方法,比简单地采用噪声通道模型可以较大地提高 系统的性能。在这种框架下,不管是语言模型还是翻译模型,都被理解为整体模型的一 沈阳航空工业学院硕士学位论文 个特征。整体的翻译概率,是各个特征( 指数) 加权后的乘积( 通常取其对数形式,表 现为加权和) 。可醣看到,在这种框架模型下,可以引入任何反映源语言和目标语言相 似性的特征,并通过调整各个特征之间的权重,来取得一个最佳的组合效果。而原来的 噪声通道模型可以看作是这种模型的一个特例。这种方法不仅从理论上大大扩展了统计 机器翻译的思路。而且实践中也取得了非常好的效果,目前己被统计机器翻译研究者普 遍采用。 2 2 特征模型 在特征模型中,语言模型和翻译模型依然是最重要的两个特征模型,其他一些模型 通常都比较简单。其重要性也不如这两个模型脚- 3 t 。 2 2 1 语言模型 个基于统计的语言模型以概率分布的形式描述了任意语句( 字符串) t 属于某种 语言集合的可能性。例如,p ( 她认真学习) o 0 2 。p ( 她认真读书) 一o 0 3 ,p ( 她认真坏) t o 等。这里并不要求语句t 在语法上是完备的,该模型需对任意的语 句t 都给出一个概率值。 假定诃是一个句子的最小结构单位,并假设一个语句t 由词”l ,眈,w n 组成,那么, 不失一般性,p ( t ) 可由式( 2 6 ) 计算: p ( t ) _ p ( w 1 ) p ( w 2 1 w j ) p ( w 3 1 w 1 w 2 ) p ( w j w l w 2 w 。,) = n p ( w ,1 wj w 2 w “) ( 2 6 ) g - i 可以认为在一个语句中第n 个词出现的概率只依赖于它前面的n 1 个词,即将一个 词的上下文定义为该词前面出现的n - 1 个词。这样,句子的概率计算转化为单词在其他 单词出现条件下的概率计算,即计算某种语言中每个词在t 中各个位簧出现的概率。这 样的语言模型也叫做n 元文法模型。 例如,对于二元模型而言,p ( w ,j w i w 2 w 1 ) = p ( w ij 心d ) ( 1 l 帕,式( 2 6 ) 为 p ( t ) = 兀p ( w h i ) ( 2 7 ) - 1 0 沈阳航空工业学院硕士学位论文 对于三元模型而言,p ( w 1 w 1 w 2 w “) = p ( w 1 w 心w l _ i x i i s ) 式( 2 6 ) 为 p ( t ) ol - i p ( w :1 w 。w 。) l ;i ( 2 8 ) 为保证式( 2 7 ) 和式( 2 f8 ) 的完备性,必须引进一个起始词_ o ,并且假定 p ( w 。1 w 。) = p ( w ) 。式( 2 7 ) 和式( 2 8 ) 满足p ( 丁) = l 。 概率p ( w i i i i ) 可以使用许多方法估算,一种被广泛采用的称为最大似然度估计 ( m a x i m u ml i k e l i h o o de s t i m a t i _ o n ,m l e ) 的方法用如下公式估算: 脚概卜嚣糅焉 他” 式( 2 9 ) 中,c o u n t ( w i i 坼) 为词对”l _ l ,w i 在训练语料库中出现的次数。用于 估算基于统计的语言模型中概率分布的训练语料文本称为训练数据( t r a i n i n gd a t a ) 。 根据训练数据估算p ( 毗lw i - i ) 这类概率分布的过程称为训练。 n 元模型的优点在于它包含了前n 1 个词所能提供的全部信息,这些信息对于当前 词的出现具有很强的约束力。且前在实际应用中表现最佳的是三元文法模型,在本文的 实验中采取的也是三元文法模型。 2 2 2 翻译模型 翻译模型是非常复杂的,因为它描述的是整个句子s 和t 的概率分布1 2 0 l 。为了减少 复杂性,使用词对齐a 的概念。它获取源语言和目标语言之间的对应,从句子对齐的语 料中获取词对齐信息。因为这种对应不是唯一的或确定的,它们也被插述为概率分布,得 到翻译概率。 对于翻译模型p ( sf ”,i 蹦公司提出了5 种复杂程度递增的数学模型,简称为i 删 m o d e l1 5 。 模型1 仅考虑词与词互译的概率t ( s j i ) ,如式( 2 1 0 ) 所示 9 ( s i t 卜南珥善p ( s j f i ) 1 0 ) 沈阳航空工业学院硕士学位论文 模型2 在模型l 的基础上考虑了单词在翻译过程中位置的变化,引入了变形概率 d ( a j | j ,m j l ) ,m 和1 分别是目标语和源语句子的长度,j 是目标语单词的位置,a j 是其 对应的源语言单词的位置。如式( 2 1 1 ) 所示 f p ( s r ) = g 兀p ( j i t 。,v ( aj ,。m ,) ( 2 1 1 ) - l t - - 0 模型3 在前两个模型的基础上考虑了一个单词翻译成多个单词的情形,引入了繁衍 概率士( n l t o j ) ,表示单词。翻译成n 个目标语单词的概率。所以模型3 考虑了直译概率、 繁衍概率和变形概率,如式( 2 1 2 ) 所示。 】m p ( s it ) w 兀n ( , l t o j ) 兀t ( s 1 ) 兀d ( a j b ,m ,1 ) ( 2 1 2 ) l i 卜lj o 模型4 和模型5 都是在模型3 基础上的改进。这里不再详细介绍。 下面以一个具体的例子来看一下在i b m 模型3 框架下,如何通过句子对齐来计算翻 译概率。首先需要知道什么情况属于变形,什么情况属于繁衍。如图2 1 所示,英语单 词“p u t ”在英语句子中的位置是2 ,其对应的“放”在中文句子中的位置不是2 ,而是 6 ,这种情况就把它称之为变形。英语单词“o i l ”对应着两个汉语词“在”和“上”,这 种情况把它称之为繁衍,繁衍率表示英语词对应汉语词的个数。在这里,o f t 的繁衍率为 2 。了解了变形和繁衍之后,就容易理解模型3 在计算直译概率、变形概率和繁衍概率 时需要考虑什么,如图2 3 所示。 图2 1 变形和繁衍 1 2 沈阳航空工业学院硕士学位论文 国2 2 源语言词和目标语言词的位置对应 p ( s i t ) : 伊( 1l e h e ) p o 擅i s h e ) c p ( 1l p u t ) p ( 放l p u t ) 口( 1 l b l m c h ) p ( 束l b t m c h ) p ( o l o f ) e p ( 1 i f l o w e r s ) p ( 花i f l o w e r s ) p ( 2 i o n ) p ( 在1c o ) p ( 上 【p ( 1j 1 ,9 ) p ( 2l q9 ) p ( 3 p ( 6 l2 j9 ) p ( 7 1 7 g ) p ( 89 ) 面确o “t s b l c “翻译为4 桌子”的概率i j ? 赘露蒡囊蓉2 鐾器藩器幂镝葛藕挈子中第7 个词 图2 3i 蹦模型3 的一个示倒 圈2 3 展示了直译概率、变形概率和繁衍概率的具体计算。 2 3 本章小结 本章从统计模型的角度介绍了统计机器翻译相关的理论。围绕框架模型和特征模型 两个角度分别加以介绍。噪声通道模型是早期统计机器翻译的代表而对数线性模型是 目前研究的主流,对数线性模型的可扩展性比较好,它可以将反映源语言和目标语言相 似性的特征都作为特征函数,当特征函数只取语言模型和翻译模型时,等价于噪声通道 模型。语言模型和翻译模型是两个最基本的特征模型。本章的内容介绍为后续工作奠定 了理论基础。 沈阳航空工业学院硕士学位论文 第3 章系统工作的基本原理 基于短语的统计机器翻译模型逐渐取代了基于词的模型,成为统计机器翻译方法的 主流。翻译的基本单元从词过渡到短语,可以更好地解决词在翻译时对上下文的依赖问 题。基于短语的方法,使得临近的词串在翻译时仍然作为一个整体进行处理,因此词之 间的重排序问题变成了短语内部的问题,不再需要翻译模型单独处理。所以,翻译质量 有了明显提高。 3 1 系统框架 本文实现了一个基于短语的统计机器翻译系统,在训练好的模型基础上,将经过预 处理的语料d 3 4 ,通过解码器进行翻译。翻译的核心工作是在解码器中完成的彤。q 。对 于输入端的英文句子,首先到翻译模型中寻找所有可能的翻译候选项,将它们全部读到 内存中,然后结合语言模型,进行搜索得到最佳翻译结果。整个翻译系统如图3 1 所示。 图3 1 荚汉统计机器翻译系统 3 2 基于短语的翻译 基于短语进行翻译时,源语言句子以短语为单位进行切分,每一个短语被翻译成相 1 4 沈阳航空工业学院硕士学位论文 对应的目标语言短语,目标语言短语经重排序后生成较符合语法的目标语言句子。不过 这里所提到的短语不是语法意义上的短语,只是相郐的词组p 9 1 ” 原文 短语划分 翻译 调整顺序: 图3 2 短语翻译示倒 给定一个源语言句子,对这个句子进行短语划分有很多种可能,这些不同的短语所 对应的目标语言短语也有很多种可能,把与源语言短语相对应的目标语言短语称之为翻 译候选项。 图3 3 展示了英文句子“s h e p u t a b u n c h o f f l o w e r so n t h e t a b l ey e s t e r d a y ”对应的翻 译候选项。 她 放 一串 花 在上桌子 昨天 摆 一束关于 。一 提出 一束花 在桌子上。 掷 圈3 2 1 翻译候选项 每一个英语词或每一组英语词所对应的翻译候选项在解码器开始翻译之前被收集 起来,而这些翻译候选项就作为解码器进行搜索的搜索空间。解码器只需要在这些翻译 候选项中找出一组符合语法的翻译候选项组合作为最终的翻译结果,这里的寻找符合语 1 5 曰中甲卤 沈阳航空工业学院硕士学位论文 法的实际上是寻找概率值较高的。 翻译候选项中携带的信息: 目标语言短语所对应的源语言短语的第一个词( 起始位置) 目标语言短语所对应的源语言短语的最后一个词( 结束位置) 目标语言短语 短语翻译概率 比如在图3 , 3 中翻译候选项“一束花”中携带的信息包括:a ,f l o w e r s ,一束花, p ( 一束花l ab u n c ho f f l o w e r s ) 。 3 3 搜索过程 基于短语的统计机器翻译解码器采用堆栈搜索算法,目标语言句子以状态扩展的形 式自左至右生成。每个状态中有源语言信息s ,有目标语言信息t ,还有翻译概率p 。 状态扩展如图3 4 所示。 圈3 4 状态扩展图 t 表示目标语言;s 表示源语言;p 表示短语翻译概率 初始状态是一个空状态,源语言串中的短语还没有被翻译,目标语言生成串为空, 翻译概率初始值为l 。从初始状态开始扩展,可以假设第一次状态扩展是源语言词“s h e ” 被翻译为“她”,翻译概率为o 5 3 4

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论