




已阅读5页,还剩70页未读, 继续免费阅读
(计算机应用技术专业论文)基于短语的统计机器翻译的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
苏州大学学位论文使用授权声明 删 本人完全了解苏州大学关于收集、保存和使用学位论文的规定, 即:学位论文著作权归属苏州大学。本学位论文电子文档的内容和纸 质论文的内容相一致。苏州大学有权向国家图书馆、中国社科院文献 信息情报中心、中国科学技术信息研究所( 含万方数据电子出版社) 、 中国学术期刊( 光盘版) 电子杂志社送交本学位论文的复印件和电子 文档,允许论文被查阅和借阅,可以采用影印、缩印或其他复制手段 保存和汇编学位论文,可以将学位论文的全部或部分内容编入有关数 据库进行检索。 涉密论文口 本学位论文属在年_ 月解密后适用本规定。 非涉密论文口 论文作者签名: 导师签名: 基于短语的统计机器翻译的研究摘要 基于短语的统计机器翻译的研究 摘要 随着计算机技术的高速发展,统计机器翻译展示了日益广阔的应用前景。基于短 语的统计机器翻译系统在抽取短语时往往将任意连续的单词看作短语,由于没有考虑 短语的合理性,因此会产生大量冗余的短语。这不仅扩大了系统的搜索空间,还严重 影响了翻译质量。针对以上问题,本文重点研究如何有效地提高短语的质量。 本文首先分析了统计机器翻译的相关原理和各种技术,并在此基础上构建了一个 基于短语的统计机器翻译基准系统。然后使用c 值和短语粘连度两种方法对短语的 合理性进行评分,再据此构建一个更有效的短语翻译概率表。实验结果显示,使用c 值方法将短语翻译概率表缩减至7 8 时,翻译结果的评价指标b l e u 值可以提高 0 0 2 :使用粘连度可以使短语翻译概率表最小缩减至4 7 5 ,翻译结果的b l e u 值可 以提高0 0 1 5 8 。 另外,本文还将主题模型应用于统计机器翻译系统。训练时为每个短语确定一 个主题分布,在翻译时再过滤掉与主题不相关的短语,从而提高翻译性能。实验结果 显示,跟基准系统相比,采用主题模型后可使b l e u 值提高0 0 1 3 6 。 最后,本文还将短语的主题模型和c 值方法结合起来,在保留短语有效性的同 时对短语翻译概率表进行进一步的缩减。实验表明,当短语翻译概率表缩减为原来的 5 7 时,最终的b l e u 值仍有一定的提高。 本文的研究和实验表明,使用这些方法可以有效地缩减并优化短语翻译概率表, 从而明显改善翻译质量。将主题模型应用于机器翻译是一个全新的尝试,今后我们将 进一步探讨如何在统计机器翻译中更好地发挥主题模型的优势。 关键词:统计机器翻译;短语翻译概率表;c 值;短语粘连度;主题模型 作者:狄萍 指导老师:周国栋 a b s t r a c t r e s e a r c ho np h r a s e b a s e ds t a t i s t i c a lm a c h i n et r a n s l a t i o n r e s e a r c ho np h r a s e b a s e ds t a t i s t i c a lm a c h i n et r a n s l a t i o n a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y , m a c h i n et r a n s l a t i o nt e c h n o l o g y d e m o n s t r a t e sg r e a t p o t e n t i a l f o rw i d e a p p l i c a t i o n p h r a s e - b a s e d s t a t i s t i c a lm a c h i n e t r a n s l a t i o ns y s t e m st r e a ta n yc o n s e c u t i v ew o r d sa sp h r a s e s ,r e g a r d l e s so ft h er a t i o n a l i t yo f t h ep h r a s e t h e r e f o r e ,m e yo f t e ng e n e r a t eal a r g en u m b e ro fr e d u n d a n tp h r a s e s ,w h i c hn o t o n l ye n l a r g e st h es y s t e m ss e a r c hs p a c e ,b u ta l s os e v e r e l yd e t e r i o r a t e st h eq u a l i t yo f t r a n s l a t i o n t oa d d r e s st h e s ep r o b l e m s ,w ef o c u so nh o wt oe f f e c t i v e l yi m p r o v et h eq u a l i t y f i r s t ,t h i sp a p e ra n a l y z e st h et h e o r ya n dt e c h n i q u e so fs t a t i s t i c a lm a c h i n et r a n s l a t i o n ,a n d b u i l d sap h r a s e - b a s e dm a c h i n et r a n s l a t i o ns y s t e ma sab a s e l i n e t h e n ,t w om e t h o d su s i n g c - v a l u ea n dp h r a s ec o h e s i o nv a l u ea r ep r o p o s e dt os c o r et h er a t i o n a l i t yo fp h r a s e s ,l e a d i n g t oam o r ee f f e c t i v ep h r a s et a b l e e x p e r i m e n t ss h o wt h a tt h ec v a l u em e t h o dc a nr e d u c et h e s i z eo ft h ep h r a s et a b l et o7 8 w i t ha ni n c r e a s eo f0 0 2u n i t si nt h eb l e us c o r e w h i l et h e p h r a s ec o h e s i o nd e c r e a s e st h es i z eo ft h ep h r a s et a b l et o4 7 5 w i t hab o o s to f0 0 15 8 u n i t si nt h eb l e us c o r e s e c o n d ,at o p i cm o d e li sa p p l i e dt ot h es t a t i s t i c a lt r a n s l a t i o ns y s t e m d u r i n gt r a i n i n ga t o p i cd i s t r i b u t i o ni sd e t e r m i n e df o re a c hp h r a s e ,w h i l ed u r i n gt e s t i n g ,p h r a s e su n r e l a t e dt o t h et o p i ca r ef i l t e r e dt ob o o s tt h ep e r f o r m a n c e e x p e r i m e n t ss h o wt h a t ,c o m p a r e dw i t ht h e b a s e l i n es y s t e m ,t h eb l e us c o r eu s i n gt h et o p i cm o d e lc a nb ei m p r o v e db y0 013 6u n i t s l a s t ,w ec o m b i n et h et o p i cm o d e la n dt h ec v a l u em e t h o dt of u r t h e rs h r i n kt h ep h r a s e t a b l ew h i l er e t a i n i n gi t se f f i c a c y e x p e r i m e n t ss h o wt h a tw h e nt h es i z eo ft h ep h r a s et a b l e i sr e d u c e dt o5 7 ,t h eb l e us c o r ec a na l s ob ei n c r e a s e di ns o m ed e g r e e t h er e s e a r c ha n de x p e r i m e n t si nt h i sp a p e rs h o wt h a to u rm e t h o d sc a ne f f e c t i v e l yr e d u c e t h es i z eo ft h ep h r a s et a b l ea n do p t i m i z ei t sr a t i o n a l i t y , t h e r e b ys i g n i f i c a n t l yi m p r o v et h e t r a n s l a t i o nq u a l i t y w h i l ei ti san e wa p p r o a c ht oi n c o r p o r a t eat o p i cm o d e li n t om a c h i n e r e s e a r c ho i lp h r a s e b a s e ds t a t i s t i c a lm a c h i n et r a n s l a t i o n a b s t r a c t t r a n s l a t i o ns y s t e m s ,i nt h ef u t u r ew ew i l lf u r t h e re x p l o r eh o wt oe x e r tt h ef u l la d v a n t a g e so f t h et o p i cm o d e li ns t a t i s t i c a lm a c h i n et r a n s l a t i o n k e y w o r d s :s t a t i s t i c a lm a c h i n et r a n s l a t i o n ;p h r a s et a b l e ;c v a l u e ;p h r a s ec o h e s i o nv a l u e ; t o p i cm o d e l w r i t t e nb yd ip i n g s u p e r v i s e db yz h o ug u o d o n g 目录 摘要i a b s t r a c t i i 第一章绪论1 1 1 研究背景1 1 2 统计机器翻译的研究现状2 1 3 研究意义7 1 4 本文的主要工作和贡献8 1 5 本文的组织结构8 第二章统计机器翻译的相关原理1 0 2 1 框架模型1o 2 1 1 噪声通道模型1 0 2 1 2 对数线性模型1 1 2 2 语言模型1 2 2 3 翻译模型1 4 2 3 1 词对齐1 4 2 3 2i b m 模型1 5 2 4 系统结构1 7 2 5 基于短语的统计机器翻译18 2 5 1 概述18 2 5 2 短语对抽取1 9 2 5 3 搜索方法2 4 2 5 3 1 合并假设2 5 2 5 3 2 未来代价估计2 8 2 5 3 4n b e s t 列表2 9 2 6 机器翻译的自动评测3 0 2 6 1b l e u 评澳4 3 0 2 6 2n i s t 评测31 2 7 本章小结3 2 第三章系统的构建3 3 3 1 系统框架3 3 3 2 系统运行环境3 4 3 3 训练模块3 4 3 3 1 词对齐模型训练3 4 3 3 1 1 数据预处理3 5 3 3 1 2 运行g i z a + + 3 7 3 3 2 短语对齐模型3 8 3 3 3 语言模型训练j 4 2 3 3 4 创建配置文件。4 4 3 4 解码模块4 5 3 5 模型参数的训练4 6 3 6 本章小结4 6 第四章对基准系统的改进4 7 4 1 短语翻译概率表的缩减4 7 4 1 1c 值4 7 4 1 2 短语粘连度4 9 4 2 主题模型4 9 4 2 1l d a 模型5 0 4 2 2 短语的主题评分5 2 4 3 本章小结5 3 第五章实验结果及分析5 4 5 1 根据c 值以及粘连度对短语翻译概率表进行缩减5 4 5 2 主题模型在翻译系统中的应用5 6 5 3c 值和主题模型的结合5 6 5 4 本章小结5 7 第六章总结与展望5 8 参考文献5 9 攻读硕士学位期间发表( 录用) 的论文6 3 致谢6 4 基于短语的统计机器翻译的研究第一章绪论 1 1 研究背景 第一章绪论 语言是反映人类思维的主要手段,也是人与人交流的重要媒介。随着信息时代的 到来和互联网的迅速发展,各个国家之间的交流日益频繁,每天都有大量的信息生成、 存储和传播,因此打破不同语言之间的沟通障碍,已经成为2 1 世纪越来越迫切的需 要。 机器翻译( m a c h i n et r a n s l a t i o n ,m t ) 是利用计算机把一种自然语言转换成另一种 自然语言的过程。早在上世纪3 0 年代初,法国科学家g b a r t s o u n i 就提出了利用机 器来进行语言翻译的想法。1 9 4 6 年电子计算机问世之后,美国工程师w w e a v e r 在 1 9 4 9 年发表了一份以翻译为题的备忘录,正式提出了机器翻译这一设想。1 9 5 4 年美国乔治敦大学在i b m 公司的协同下,进行了俄英机器翻译实验,这是世界上第 一次机器翻译试验。随后,前苏联、英国、日本、中国等国,也相继进行了机器翻译 试验。 传统的机器翻译系统从人工编写的规则中学习知识,从而对自然语言进行翻译, 称为基于规则的机器翻译系统。这种方法通过对源语言的词法、语法、语义和句法进 行分析,然后重新排列组合,生成等价的目标语言。而规则是语言学家编写的,因此 这种方法需要消耗大量的人力物力用于规则的开发,且研究周期长,实验的代价比较 大。虽然经过前人长期的努力,人们已经建立了含有成千上万个规则的规则库,然而 这种方法仍然具有局限性。在处理大规模真实语料的时候,效果依然很不理想。 2 0 世纪8 0 年代以来,随着语料库语言学的兴起,人们开始尝试让计算机从大规 模真实的双语语料中自动获取知识。语料库的出现大大降低了人工代价,基于语料库 的方法改变了机器翻译领域的困境,使其进入一个新纪元。基于语料库的方法包括基 于统计和基于实例的方法。两种方法都是将语料库作为翻译知识的来源,其区别在于: 基于统计的机器翻译在翻译之前通过统计的方法从语料库中学习知识,知识表示的是 统计数据,而不是语料库本身,知识的获取在翻译之前完成,在翻译的过程中不再使 用语料库;而基于实例的机器翻译中,语料库本身就是翻译知识的表现形式之一,翻 译知识的获取在翻译之前没有完全完成,翻译过程中仍然需要用到语料库。 第一章绪论基于短语的统计机器翻译的研究 统计机器翻译( s t a t i s t i c a lm a c h i n et r a n s l a t i o n ,s m t ) 3 l 称数据驱动的机器翻译,最 大优点就在于无需人工编写规则,利用语料库直接训练得到机器翻译系统。上世纪 9 0 年代初期,i b m 提出了基于信源信道思想的统计机器翻译模型,并在实验中获得 了初步的成功,引起了业界的广泛关注。然而这种方法对计算机的计算能力要求比较 高,m m 的工作是建立在当时的超级工作站集群的基础上的,普通的计算机很难达 到那样的性能,因而对其他人来说,这种实验很难实现。直到9 0 年代末,随着计算 机性能的飞速发展,普通的个人计算机已经可以超过当时的i b m 工作站集群,使得 越来越多的研究人员投入统计机器翻译的研究。统计机器翻译逐渐成为机器翻译领域 中的研究热点。 本文在此研究背景下,搭建了一个基于短语的统计机器翻译系统,并对系统做了 改进,有效地提高了翻译质量。 1 2 统计机器翻译的研究现状 除了在特定的领域内,基于规则的机器翻译取得了比较好的结果( 如i s a b e l l e 在 1 9 8 7 所做的天气预报翻译) ,大部分实验中,基于规则的机器翻译远远没有达到人们 的要求。随着语料库语言学的发展和统计学、信息论在自然语言处理领域的应用,越 来越多的学者尝试用统计方法进行机器翻译的研究。 i b m 的b r o w n 在19 9 0 年首次将最初应用于语音识别领域的噪声通道模型用于统 计机器翻译【l 】。其基本思想是用信道模型把机器翻译看作一种解码的过程。这种思想 认为,源语言句子到目标语言句子的翻译是一个概率问题,任何一个目标语言句子都 有可能是任何一个源语言句子的译文,只是概率不同,机器翻译的任务就是找到概率 最大的句子。因此统计机器翻译又可以分为以下几个问题:模型问题、训练问题、解 码问题。所谓模型问题,就是为机器翻译建立概率模型,也就是要定义源语言句子到 目标语言句子的翻译概率的计算方法。而训练问题,是要利用语料库来得到这个模型 的所有参数。所谓解码问题,则是在已知模型和参数的基础上,对于任何一个输入的 源语言句子,去查找概率最大的译文。基于统计的机器翻译可用图1 1 来表示。其中, 丁表示目标语言句子,s 表示源语言句子。 2 基于短语的统计机器翻译的研究第一章绪论 l l p ( 7 3p ( s l 乃以刁$ l 图l - l 基于统计的机器翻译示意图 基于统计的机器翻译进行概率计算时,采用隐马尔可夫模型( h i d d e nm a r k o v m o d e l ,简称h m m ) 。隐马尔可夫模型是马尔可夫模型的扩展。马尔可夫模型描述的 是一个随机过程,而隐马尔可夫模型中有两个随机过程,一个随机过程描述观察值( 例 如具体的单词) 和状态( 例如该单词可能标注的词类) 之间的概率关系,即观察值是 状态的概率函数,另一个随机过程描述状态之间( 例如词类标记与词类标记之间) 的 转移关系。作为外界的观察者来说,只能看到状态产生的观察值,而看不到状态之间 的转移,状态之间的转移是隐藏的,所以叫做隐马尔可夫模型。近年来,利用隐马尔 可夫模型在词性标注方面取得了较好的结果,从而推动了基于统计的机器翻译的研 究。 比较著名的基于统计的机器翻译系统是i b m 公司的c a n d i d e 系统 2 1 。1 9 9 4 年, 美国i b m 的a d a ml b e r g e r 等人,采用全统计的法英语料库对齐方法,经过五年的 努力,利用对齐了的法语和英语的2 2 0 5 7 3 3 个句子对,在i b m1 5 台5 3 0 hp o w e r 工 作站上,运行3 6 0 0 小时,开发了一个法语到英语的机器翻译系统c a n d i d e 。这个机器 翻译系统包括三个部分: 英语的三元语法模型; 法语的三元语法模型; 英语和法语的部分对齐句子的高质量的对应模型。 表1 。1 是a r p a ( 美国国防部高级研究计划署) 对几个机器翻译系统的测试结果, 其中第一行是著名的s y s t r a n 系统的翻译结果,第二行是c a n d i d e 的翻译结果,第三 行是c a n d i d e 加人工校对的结果,第四行是纯人工翻译的结果。评价指标有两个: f l u e n c y ( 流利程度) 和a d e q u a c y ( 适当程度) 。t r a n s m a n 是i b m 研制的一个译后编 辑工具。t i m er a t i o 显示的是用c a n d i d e 加t r a n s m a n 人工校对所用的时间和纯手工翻 译所用的时间的比例。从指标上看,c a n d i d e 已经超越了采用传统方法的商品系统 s y s t r a n 。 3 第一章绪论基于短语的统计机器翻译的研究 表1 - 1a r p a 对几个机器翻译系统的测试结果 f l u e n c ya d e q u a c y t i m er a t i o 1 9 9 21 9 9 31 9 9 21 9 9 3 1 9 9 21 9 9 3 s y s t r a n 0 4 6 60 5 4 00 6 8 60 7 4 3 c a n d i d eo 5 1 l0 5 8 00 5 7 50 6 7 0 t r a n s m a no 8 1 90 8 3 80 8 3 70 8 5 00 6 8 80 6 2 5 m a n u a l0 8 3 30 8 4 0 基于统计的机器翻译,除了基于噪声信道理论的系统之外,o c h 在a c l 2 0 0 2 会 议上提出对数线性模型3 1 。对数线性模型不使用噪声通道思想【l 】直接对概率p 0 q s ) 进行建模。将翻译模型、语言模型以及其他反应源语言和目标语言关系的模型都看作 整个系统模型的特征。目前大多数基于统计的机器翻译系统都是以对数线性模型为基 础的。本文将在第二章重点介绍该模型。 在框架模型的基础上,基于统计的机器翻译的关键首先是定义最适合的语言模型 和翻译模型。其次,从已经存在的语言资源中,对语言模型和翻译模型的参数进行估 计。 语言模型的参数估计需要大量的单语语料库。早期的语言模型一般采用二元、三 元模型,二元模型参数通过两个词的搭配频率来计算,三元模型参数则通过计算相邻 三元词的出现频率进行估计。近年来,基于统计的机器翻译翻译开始采用基于语法的 语言模型【4 j ,利用树库训练语言模型参数。 翻译模型需要计算源语言和目标语言之间的转换概率,因此翻译模型参数估计需 要大量对齐的双语语料库。b r o w n 介绍了五种翻译模型【5 】,并使用e m 算法对双语语 料进行训练,估计翻译模型参数。 尽管统计方法在机器翻译领域取得了一定的成功,但是它需要大量的双语语料, 而且存在着数据稀疏问题。因此,如何构建大规模的对齐双语语料库【6 ,7 j ,以及找到 比较好的平滑算法【8 】进行准确的参数估计,成为基于统计机器翻译系统中的关键问 题。除此之外,要找到最优的译文,也需要好的搜索算法【9 】。 统计机器翻译的质量很大程度上取决于语言模型和翻译模型,而最初的统计模型 很少考虑语言的特征信息,对一些特定语言所特有的语言特征分析得不够。例如,在 英语的词汇形态分析中,对单词“s e e ”和“s a w ,原型和过去型完全按照不同的词 4 基于短语的统计机器翻译的研究第一章绪论 汇进行参数估计,这就造成了对语言模型和翻译模型构建的不准确性。i b m 将一些 浅层的词汇信息结合到统计模型当中去【1 0 1 ,f r a n zj o s e f 在a c l 0 2 3 】上介绍的基于最 大熵的统计机器翻译方法中,训练模型中也充分考虑了源语言和目标语言的语言特 征。语言特征的引入,提高了基于统计的机器翻译的性能,同时也对语料库的标注提 出了更高的要求,这从某种意义上说也是基于规则的机器翻译方法和基于统计机器翻 译方法的融合,或者说是统计方法在处理语言学问题上的延伸。 统计机器翻译发展以来,研究者先后提出了基于词、基于短语、基于层次以及基 于句法等方法。 基于词的统计机器翻译的代表系统是e g y p t 1 1 】。它是在1 9 9 9 年的霍普金斯大学 ( j h u ) 的研讨会上,由一些研究人员共同合作开发的统计机器翻译工具包。系统重现 了i b m 的实验,使得i b m 模型被广泛研究和应用。随着技术的快速发展,e g y p t 中 使用的很多方法现在已经过时了,然而,其中用于训练词语对齐的模块g i z a 现在仍 然被广泛使用。 在机器翻译加入短语翻译的方法可以追溯到1 9 9 8 年o c h 的对齐模型【1 2 1 ,可以利 用该模型生成一个基于短语的翻译系统。随后其他研究者在各自的系统里加入了短语 翻译。基于短语的方法是将任意连续的字符串都看作短语,从词对齐的双语语料中自 动学习双语短语对,以短语为单位进行翻译。 第一个基于短语的统计机器翻译系统是p h a r a o h 1 3 】,它是由由美国南d n , j h 大学信 息科学实验室( i n f o r m a t i o ns c i e n c ei n s t i t u t e ) 的菲利普科恩( p h i l i p pk o e h n ) 在2 0 0 4 年做博士论文期间编写的。p h a r a o h 的出现对于推动统计机器翻译的发展起到了非常 大的作用,由于它原理简单,易于使用,很多研究者都在它的基础上进行试验,或者 把它作为基准系统( b a s e l i n e ) 进行比较。 m o s e s 1 4 】是p h a r a o h 的升级版,它是由英国爱丁堡大学、德国亚琛工业大学等8 家单位联合开发的一个基于短语的统计机器翻译系统。它在p h a r a o h 的基础上增加了 许多功能,包括要素翻译模型和混合网络解码。在要素翻译模型中,一个单词不仅仅 是一个符号( t o k e n ) ,而是一个包含多个要素的向量,例如词目、词性等。这些要素 共同作用来刻画一个单词。要素包括单词、词目、词性等。在翻译的过程中这些要素 被分别翻译,例如源语言的单词翻译为目标语言的单词,源语言单词的词性翻译为目 标语言的词性等。在翻译完成后,根据这些要素来产生最终的单词。要素翻译的过程 可用图1 2 来表示。而混合网络解码让输入不再局限于纯文本的形式,而可以是其它 第一章绪论基于短语的统计机器翻译的研究 模块的输出结果,例如命名实体识别的结果,或者语音识别的结果。 词 词目 词性 词形 输入输出 词 词目 词性 词形 图1 - 2 要素翻译不意图 此外,先后有研究者对基于短语的统计机器翻译的关键性问题进行了研究。周玉 ( 2 0 0 5 ) 、何中军( 2 0 0 7 ) 等在短语抽取方法上有所研究。 周玉实现了一种基于多层过滤的算法【l5 1 ,该算法从对齐的中英文句子中自动抽取 双语语块,根据不同语块具备的不同特性,采用不同的层次对其进行处理。该算法不 同于传统的算法,它不需要对句子进行标注、词法分析和句法分析,甚至不需要对中 文句子进行分词等操作。实验结果表明该算法性能较好,而且将此算法获得的对齐双 语语块用于统计机器翻译系统,跟基于词的系统做对比,明显提高了翻译水平。 何中军提出了一种短语切分方法【1 6 1 ,将句子的短语切分概率化,实验表明短语切 分模型的加入有助于提高翻译质量。 传统的基于短语的统计机器翻译不能很好地解决长距离调序问题。因此薛永增在 基于短语的统计翻译模型的基础上提出了句法调序模型,解决了长距离调序i l 。该模 型按照短语切分来分割句法树结构,从而能够避免短语和句法结构的不一致性。该模 型依据短语对齐和短语内词对齐确定句法树部分结构的调序顺序,依据各个节点上的 调序概率计算子结构的调序概率,作为对数线性模型的特征函数。该模型的实验结果 比经典的短语统计翻译模型的b l e u 值有明显提高。结果表明句法调序模型对于基于 短语的统计机器翻译是有效的,能够较好地将句法知识和短语翻译过程结合起来。 d a v i dc h i a n g 提出了一种基于层次的短语机器翻译【i 引,这种方法抽取的短语不仅 仅局限于连续的词串,而引入嵌套的层次短语,它使用上下文无关语法( s c f g ) 进行 6 基于短语的统计机器翻译的研究第一章绪论 建模,是基于形式化语法的翻译模型,与传统的短语模型相比,效果有很大提高。 近来基于句法的统计机器翻译开始逐渐受到研究者的青睐,基于句法的方法包括 基于短语结构树的方法和基于依存树的方法。 基于短语结构树的方法有三种主要模型:串到树模型,树到串模型,以及树到树 模型。南加州大学信息科学研究所( i s i u s c ) 提出的串到树的模型,充分利用了目标语 言的句法结构信息。而刘洋等人的树模板模型1 9 1 ,充分利用了源语言结构信息。 而相对于短语结构树,依存树体现的是一种语义上的关系,这种语义约束往往能 更直接地作用到相关的成分上,如动词在短语结构树中,往往离宾语较近,而离主语 较远,但是在依存树中,它和两者具有相同的距离。语义上的约束,有时候更利于选 词和调整语序,因为有很大一部分的译文选择和语序关系直接和语义相关。因而很多 学者对基于依存树的统计机器翻译开展了研究,l i n 提出了基于路径的转换模型2 0 1 , q u i r k 等人提出了基于依存稚树( t r e e l e t ) 的统计句法翻译模型【2 1 1 ,d i n g 等人提出了基 于同步依存插入语法的翻译模型2 2 1 。 迄今为止统计机器翻译经历了十几年的发展历史,逐渐形成了众多理论、方法和 技术。然而还存在着许多缺点和不足,仍有许多值得研究探索之处。基于统计的方法 需要大规模双语语料,其翻译模型、语言模型的参数的准确性直接依赖于语料的大小; 其翻译质量主要取决于概率模型的好坏以及语料库的覆盖能力。同时翻译模型和语言 模型在简化的过程中也带来一些缺陷,在简化和可行性之间存在一个权衡的问题。 1 3 研究意义 机器翻译有着重大的社会意义及经济价值。在当今世界,随着信息的急剧增加, 国际交流日趋频繁,尤其是国际互联网络的逐渐普及,各行各业的人每天都要面对大 量不熟悉的语言写成的文档资料,要与和他们持不同语言的人进行交流。如果单纯靠 人工翻译,大量的资料无疑是非常沉重的负担,因此机器翻译的需求越来越大。而统 计机器翻译以其开发周期短、便于处理大规模语料等优点显出优势,逐渐成为目前最 主流的方法。 在学术研究上,机器翻译是自然语言处理的一个重要组成部分。基于统计的机器 翻译需要大规模双语语料,机器翻译取得的重大成果促进了语料库语言学的发展。语 料库语言学是一门与计算机科学、语言学相关的新兴交叉学科,集中研究自然文本的 7 第一章绪论 基于短语的统计机器翻译的研究 采集、存储、加工和从语料库中获取知识的方法,凭借语料库所提供的知识来进行自 然语言处理和语言学的研究。基于语料库的统计机器翻译方法的研究,对自然语言处 理有着重大的研究意义。 1 4 本文的主要工作和贡献 本文对统计机器翻译的相关理论进行了系统的学习研究,结合国内外先进技术, 利用现有的一些资源和工具,搭建了一个基于短语的统计机器翻译系统,并对其做了 改进,提高了翻译质量。 本文的主要工作和贡献如下: ( 1 )搭建了一个基于短语的统计机器翻译系统,作为基准系统。该系统利用 g i z a + + 训练词对齐模型,利用s r i l m 训练语言模型,然后使用m o s e s 抽取短语,生成短语翻译概率表,并进行解码。 ( 2 )使用c 值以及粘连度两种方法对短语翻译概率表进行过滤,然后进行解码, 相比于基准系统,均取得很好的效果。实验证明这两种方法可以有效地过 滤多余的短语,并提高翻译质量。 ( 3 )将主题模型的思想应用于短语翻译概率表的构建。首先建立主题模型,并 对源语言句子进行主题评分。然后根据包含某个源语言短语的所有句子的 主题评分对该短语所属的主题进行评定。最后将带有主题信息的短语对用 于翻译某一特定主题领域的测试集,并将结果与基本系统比较。实验证明 对于特定领域的测试文件,这种方法能取得更好的评测结果。 ( 4 )结合c 值和主题模型,根据源语言短语所属的主题,对短语翻译概率表进 行分类,然后使用c 值对不同类别的短语对分别进行过滤,最后用过滤后 的短语翻译概率表进行解码,并将得出的结果并与基准系统进行比较。 1 5 本文的组织结构 本文一共包括六章内容: 第一章介绍了机器翻译的研究背景、研究现状、研究意义和本文的工作等。 第二章介绍了统计机器翻译的相关理论,包括两种框架模型、特征模型、系统结 构,以及基于短语的统计机器翻译的相关原理。 8 基于短语的统计机器翻译的研究第一章绪论 第三章介绍了系统的构建,包括系统框架、系统运行环境以及系统各个模块。 第四章介绍了本文对系统的改进,包括短语翻译概率表的缩减和主题模型的应 用。 第五章是通过实验数据,从短语翻译概率表的大小以及b l e u 评测出发,分析了 系统的性能。 第六章总结了本文的主要工作,并探讨以后的目标以及打算。 9 第二章统计机器翻译的相关原理 基于短语的统计机器翻译的研究 2 1 框架模型 第二章统计机器翻译的相关原理 每一个统计机器翻译系统都通过一个框架模型来计算从源语言s 翻译到目标语 言丁的概率。这些框架模型都是由若干特征模型组成的,每一个特征模型都从一个方 面反映了翻译概率。 统计机器翻译主流的框架模型是噪声通道模型和对数线性模型。 2 1 i 噪声通道模型 噪声通道模型又称信源信道模型,是i b m 公司提出的模型【l 】。它将机器翻译看成 是一种信息传输的过程。假设说话者已经用目标语言想好了一句话l 但是说出来的 却是源语言s ,这个过程可视为编码过程。因此,可以将机器翻译视为从s 推回丁的 一个解码过程。可以认为,目标语言通过一个噪声通道而产生了扭曲变形,因而在信 道的另一段呈现出来的是源语言s 。机器翻译问题则可描述为如何通过观察到的s , 推回最有可能的丁。 可以为每个句对 乃指定一个概率p ( 刁j s ) ,表示源语言s 通过解码进而生成目标 语言丁的概率,j p ( j r l 研越大,表示s 越能正确地转换成丁。 根据贝叶斯公式,可以得到: 即旧= 警 ( 2 1 ) 对于给定的源语言句子s 来说,p ( 固是个非随机量,可以忽略不计,那么最终的 翻译结果可以用这样一个式子来表示: t = a r g m a x p ( ts ) = a r g m a x p ( t ) p ( slt ) ( 2 2 ) r丁 在公式2 2 中,尸( 7 ) 是目标语言7 - 的概率,即语言模型。语言模型反映了一个句 子在目标语言出现的可能性,即该句子在目标语言规则上的合理性。语言模型只与目 标语言有关,与源语言无关。e ( s l t ) 是目标语言丁翻译成源语言s 的概率,即翻译模 1 0 基于短语的统计机器翻译的研究第二章统计机器翻译的相关原理 型。翻译模型与源语言和目标语言都有关,反映的是它们互相翻译的概率。可以这样 理解,翻译模型不考虑上下文,只考虑源语言单词与目标语言单词之间的翻译概率; 而语言模型则是根据目标语言单词之间的同现,来选择最好的译文。 在此模型的基础下,机器翻译系统对语言模型和翻译模型进行参数估计,以找出 最佳翻译结果。 2 1 2 对数线性模型 对数线性模型又称最大熵模型,是o c h 在a c l 2 0 0 2 会议上提出来的【3 】。通过实 验,o c h 发现把噪声模型中反向翻译模型删d 换成正向翻译模型e 6 q s ) ,并不会影 响系统的性能。于是o c h 提出了对数线性模型,对数线性模型不使用噪声通道思想, 直接对概率p o q s ) 进行建模,因此是一种直接翻译模型。 对数线性模型基于最大熵的基本思想。最大熵原理于1 9 5 7 年由e t j a y n e s 提出, 其主要思想是,在只掌握关于未知分布的部分知识时,应该选取符合这些知识并且熵 值最大的概率分布。对一些随机事件,由于并不了解其概率分布,所掌握的只是随机 事件的若干样本,因此需要建立一个模型来估计这个随机事件的分布。为此需要选择 一组特征,使得这个模型在这组特征上既能与样本的分布一致,又保证模型尽可能均 匀,即熵值达到最大。因为熵值表示的是随机变量的不确定性,熵最大的时候,说明 随机变量最不确定。 在此基础上,对于源语言句子s 和目标语言句子t ,h k t , s ) ,h m ( t , s ) 分别是丁 和s 上的m 个特征,五l ,一m 是与这些特征分别对应的m 个参数,那么根据最大熵 模型,直接翻译概率可以用下面这个公式表示: p ( tis ) 既 ,( 丁is ) = e x p m 九( 丁,s ) e x p m 厶吃( 丁,s ) 】 ( 2 固 m = l, 7 m = l 对于给定的s ,其最佳译文r 可以用以下公式表示: t=gm a x p ( t 1 a t is ) ) = gi6 丁 ( 2 4 ) 公式2 3 的分母部分趋向于一个常量,不影响分布,因此不需要考虑,可以将上 面两个式子优化为这样一个判定准则: 第二章统计机器翻译的相关原理基于短语的统计机器翻译的研究 t = a r g m a x p ( ts ) ) = a r g m ,a x y - :2 m h , ( t ,s ) ) ( 2 5 ) 11 r a = 1 可以看出,当只取以下两个特征和参数时,该模型等价与噪声通道模型: h l ( t , s ) = l o g p ( 乃 h 2 ( t , s ) = l o gp ( s n 五l = 2 2 = 1 ( 2 6 ) ( 2 - 7 ) ( 2 - 8 ) 由此可知,噪声通道模型是对数线性模型的一个特例。而对数线性模型更具通用 性,研究人员不需要改变模型,只要引入特征即可。在这种框架下,翻译模型和语言 模型都被视为框架模型的一个特征。除了这两个特征外,o c h 还引入了其他特征,使 系统性能有了很大的提高。这些特征包括: 句子长度特征:对于产生的每一个目标语言单词进行惩罚; 附加的语言模型特征:一个基于类的语言模型特征; 词典特征:计算给定的输入输出句子中有多少词典中存在的共现词对。 在对数线性模型中,整体的翻译概率是各个特征的自然对数的加权和。在这种模 型下,可以加入任何反应翻译概率的特征,并可以调整各个特征之间的权重,从而取 得最佳结果。这种模型比噪声通道模型更具通用性和可扩展性,目前统计机器翻译的 研究者普遍采用了这种模型。 2 2 语言模型 统
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年合肥肥西县桃花初级中学教师招聘考试试题(含答案)
- 法院考试面试题及答案
- 湘西中考试题及答案
- 2025年灌南县教育系统招聘教师考试笔试试题(含答案)
- 校保卫处消防知识培训课件
- 急救技能知识模拟试题库及答案
- 饭店服务与管理试题库含答案
- 医院突发事件应急处理培训考核试题及答案
- 急救药品考试题(含答案)
- 放射医学技术(士、师)考试题库含答案
- 2025-2026秋学期学校主题升旗仪式安排表+主题班会安排表
- 出租充电桩车位合同范本
- 2025年广元市中考数学试题卷
- 人工晶体创新创业项目商业计划书
- 开放性骨折感染预防的护理
- 特殊困难老年人家庭适老化改造项目方案投标文件(技术方案)
- 特殊药品管理知识讲课文档
- 2025至2030中国智能算力行业发展趋势分析与未来投资战略咨询研究报告
- 2025年小额贷款合同范本
- 混泥土计量管理办法
- 二级生物安全实验室备案材料
评论
0/150
提交评论