已阅读5页,还剩62页未读, 继续免费阅读
(计算机应用技术专业论文)非连续短语模板抽取及短语合并在统计机器翻译中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 机器翻译( m t ) 就是利用计算机将一种自然语言的文本或对话转换为另一种 自然语言的文本或对话,同时保持语意的一致性。在给定源语言的情况下,机器 翻译的过程就是寻找与源语言在语意上最为匹配的目标语言的决策过程。在各种 不同的机器翻译系统中,基于短语的统计机器翻译( p h r a s e d b a s e ds m t ) 无疑是最 为有效的方法。 基于短语的统计机器翻译方法允许源语言和目标语言词语之间存在多对多 的关联,从对齐矩阵中抽取出来的短语被放置在短语翻译表中。这样,词语的上 下文信息在翻译模型中就可以被考虑进来,并且在把源语言翻译成目标语言过程 中所发生的单词之间位置顺序的改变也可以显式的获得。在汉一英机器翻译系统 中,基于短语的统计翻译模型较之单纯基于单词的统计翻译模型,翻译效果有着 显著的提高。 但是,这种方法同时也存在着一些问题。由于短语长度的限制,一些在中文 中间隔较远的固定结构并不能被完整的抽取出来。这些结构在中文句子中不连 续,而其对应翻译却在英文句子中连续。并且,对短语各个部分分别进行翻译拼 凑起来的结果并不等价于将其做为一个整体翻译而获得的结果。 本文通过在短语翻译表中加入非连续短语模板和短语合并项来增强机器翻 译的效果。短语模板抽取和短语合并过程并不涉及任何的语法信息,仅仅只是从 双语对齐语料中获得。本文将简要的介绍抽取和合并的算法细节,并以b l e u 做 为翻译结果的评测标准,在2 0 0 2 年至2 0 0 5 年n i s t ( n a t i o n a li n s t i t u t eo f s t a n d a r d s a n dt e c h n o l o g y ) 标准测试语料集上进行对比实验。实验结果表明,加入短语模 板和短语合并项后,翻译质量与先前系统相比有了一定程度的提高。 关键词:基于短语的统计机器翻译非连续短语模板短语合并短语翻译表 a b s t r a c t m a c h i n et r a n s l a t i o n ( m t ) i st h eu s eo fa c o m p u t e rt ot r a n s l a t et e x t so ru l t e r a n c e s o fan a t u r a ll a n g u a g ei n t oa n o t h e rn a t u r a ll a n g u a g ew h i l em a i n t a i n i n gt h em e a n i n g s u n c h a n g e d t h ep r o c e s so fm ti sad e c i s i o np r o b l e mw h e r ew eh a v et od e c i d eo nt h e b e s to ft a r g e tl a n g u a g et e x tm a t c h i n gas o u r c el a n g u a g et e x t d u r i n gv a r i o u sk i n d so f d i f f e r e n tm ts y s t e m s ,p h r a s e b a s e ds t a t i s t i c a lm a c h i n et r a n s l a t i o n ( s m t ) i st h eb e s t o n eu n d o u b t f u l l y t h ep h r a s e - b a s e ds m ta p p r o a c ha l l o w sf o rg e n e r a lm a n y t o m a n yr e l a t i o n s b e t w e e nw o r d s p h r a s e sw h i c ha r ee x t r a c t e df r o ma l i g n m e n tm a t r i x sa r ei i s t e di n p h r a s et r a n s l a t i o nt a b l e t h e r e b y , t h ec o n t e x to fw o r d si st a k e ni n t oa c c o u n ti nt h e t r a n s l a t i o nm o d e l ,a n dl o c a lc h a n g e si nw o r d so r d e rf r o ms o u r c et ot a r g e tl a n g u a g e c a nb el e a r n e de x p l i c i t l y o nt h ec h i n e s e e n g l i s ht r a n s l a t i o nt a s k , t h ep h r a s e b a s e d s m to b t a i n ss i g n i f i c a n t l yb e r e rp e r f o r m a n c et h a nt h es i n g l e w o r d b a s e do n e 。 h o w e v e r , t h i sa p p r o a c ha l s oh a ss o m es h o r t c o m i n g sa tt h es a m et i m e d u et ot h e r e s t r i c t i o no ft h ea l l o w e dm a x i m u m l e n g t ho fac h i n e s ep h r a s e ,s o m ef i x e ds t r u c t u r e s w h i c ha r es e p a r a t e di nar e l a t i v el o n gd i s t a n c ec a r ln o tb ee x t r a c t e da saw h o l eu n i t t h e s es t r u c t u r e sd e v i d ei nc h i n e s eb u tt h e i rt r a n s l a t i o n sa r ec o n t i n u o u si ne n g l i s h w h a t sm o r e ,t h eu n i o no fe a c hp a r t st r a n s l a t i o ni su n e q u a lt h eo n ew h i c hi so b t a i n e d b yt r a n s l a t i n gt h es t r u c t u r ea saw h o l eu n i t w ea d dd i s c o n t i n u o u sp h r a s et e m p l a t e sa n dm e r g e dp h r a s e si np h r a s et r a n s l a t i o n t a b l et oe n h a n c et h eq u a l i t yo ft h ep h r a s e - b a s e ds m t e x t r a c t e dt e m p l a t e sa n d m e r g e dp h r a s e sa r el e a r n e df r o mab i t e x tw i t h o u ta n ys y n t a c t i ci n f o r m a t i o n i nt h i s p a p e lw ew i l li n t r o d u c et h ea l g o r i t h m so fe x t r a c t i o na n dc o m b i n a t i o ni nd e t a i l sa n d t a k eas e r i e so fc o m p a r a t i v ee x p e r i m e n t su s i n gb l e ua sam e t r i ci n2 0 0 2 2 0 0 5n i s t t e s td a t a t h ee v a l u a t i o nr e s u l t ss h o wt h a tt h eq u a l i t yo ft h et r a n s l a t i o n sa c h i e v e sa r e l a t i v ei m p r o v e m e n to v e rt h eb a s e l i n ep h r a s e b a s e ds m t k e yw o r d s :p h r a s e b a s e ds m t , d i s c o n t i n u o u sp h r a s e t e m p l a t e ,p h r a s e c o m b i n a t i o n 。p h r a s et r a n s l a t i o nt a b l e 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得苤鎏盘堂或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中 作了明确的说明并表示了谢意。 学位论文作者签名: 7 段棉 i 签字日期:2 口订年多月r 8 e t 学位论文版权使用授权书 本学位论文作者完全了解墨壅盘堂有关保留、使用学位论文的规定。 特授权苤鲞盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:导师签名: ) ,可盈蘑 签字日期:2 0 0 1 年彭月 字日 签字日期:如1 年g 月留日 第一章绪论 1 1 机器翻译简介 第一章绪论 机器翻译( m a c h i n et r a n s l a t i o n ,简写为m t ) ,就是利用计算机自动的将一种 自然语言的文本或对话转换为另一种自然语言的文本或对话,同时保持文本或对 话在语意上的一致性。这种思想其实并不新鲜,早在1 9 4 9 年,w a r r e nw e a v e r 在以翻译为题的备:忘录中就有提到:“当我在阅读一篇用俄语写的文章时, 我可以说,这篇文章实际上是用英语写的,只不过用另外一种符号进行了编码而 己。在阅读时,我是在进行解码。”这实际上就是机器翻译思想的萌芽。尽管很 多计算机科学研究人员在该领域都进行过长期且细致的研究,但是,机器翻译技 术在发展了5 0 年后的今天仍然存在着很多值得继续深入挖掘和思考的问题。 为什么机器翻译问题如此难于解决呢? 一个重要原因就是人类语言本身的 高度复杂性和不同语言间存在的巨大差异性。在自然语言中,很多词语有着多种 不同的意义,翻译过程中就可能根据语境被译为各种不同的目标语言序列。如何 根据具体上下文选取最为合适的翻译项就成了一个问题:不仅如此,在很多语言 里,一个具有独立意义的单词( t o k e n ) 在句中是没有边界的,这样还需要计算机 对句子进行自动切分,而分词问题至今仍是自然语言处理领域一个重要的研究问 题;与此同时,自然语言中还存在了大量的依存关系,这些关系往往都是模糊而 难于总结成规则的。以上诸多原因都给机器翻译的发展造成了困难,使之在半个 多世纪后,仍然是一个被世界各地的语言学家和计算机科学家广泛关注的科研课 题。 1 2 机器翻译的分类 根据对源语言( s o u r c el a n g u a g e ) 的不同处理,机器翻译方法主要分为以下三 类:直接翻译法( d i r e c tt r a n s l a t i o na p p r o a c h ) 、基于规则翻译法( r u l e b a s e d a p p r o a c h ) 和统计翻译法( s t a t i s t i c a la p p r o a c h ) 。直接翻译法就是将源语言逐一单词 的翻译为目标语言。由于这种方法只是词汇级别上的翻译,翻译的顺序与单词在 源语言句中的顺序完全相同,因此对于不同语言之间可能产生的句子结构变化无 能为力,翻译结果有着较大的缺陷;基于规则翻译法由人类专家总结出源语言和 第一章绪论 目标语言中语法规则的集合,并由此来描述和指导翻译过程。虽然在特定测试集 上能够得到比较理想的结果,但是,由于规则集的有限性,不可能做到对整个语 法现象的覆盖,而且对于不同源语言和目标语言还需要制定不同的规则集,这种 方法不具备较好的通用性和可扩展性。本文介绍的机器翻译系统主要采用第三种 方法,即统计机器翻译方法( s t a t i s t i c a lm a c h i n et r a n s l a t i o n ,简写为s m t ) ,下面 将着重介绍这种方法。 统计机器翻译大致以下述两类方法为主:第一类方法基于信源信道模型 ( s o u r c e c h a n n e lm o d e l ) ,由i b m 的p e t e reb r o w n 等人【l 】在九十年代初期提出。后 来很多人都在这种方法的基础上做过改进工作,并取得了很好的效果;第二类方 法基于最大熵模型( m a x i m u me n t r o p ym o d e l ) ,由德国的f r a n zj o s e f o c h 等人【l5 】提 出。该方法基于最大熵理论,将自然语言中很多重要的语言现象做为特征引入到 翻译系统中,更为准确的描述了源语言和日标语言之间的对应关系,比信源信道 模型更具一般化的特点,同时也是目前最有影响力、效果最好的机器翻译方法之 1 3 机器翻译存在的问题 统计机器翻译近几年的主要进展在于:采用基于短语的翻译模型取代了i b m 当年提出的基于词语的翻译模型。可以看到,基于短语的统计机器翻译系统对一 些短语片段的翻译把握得很好,翻译得非常地道。但对句子总体结构的把握,有 时候却不如基于规则的机器翻译系统;对于那些新近产生的词汇、训练语料中出 现次数较少的习惯用语、便于说明而使用的缩略用语以及一些长度较长的短语或 句子而言,翻译结果往往也不尽如人意。主要原因是人类语言的语法现象多变, 现有的翻译方法又都存在着各自的局限性:基于规则的方法难于对整个语言中蕴 含的规律进行总结覆盖;基于统计的方法只能保留局部小规模的语法信息,而对 较大范围的语言现象显得无能为力等等。这些都使得机器翻译系统尚不能得到广 泛应用。不过,目前统计机器翻译的研究热点也开始转向基于句法结构的方法, 希望能够从整体上把握句子的框架,而不再是简单地把句子分解成一个个独立的 短语片段。如何更为有效的将统计信息与语法信息结合在一起,就成为了机器翻 译发展的一种新趋势。 1 4 课题研究背景 本论文的课题背景是作者参加的微软亚洲研究院自然语言处理组针对“汉 第一章绪论 英统计机器翻译系统”的开发研究。在目前最为流行的基于短语的统计机器翻译 框架下,通过更为深入的挖掘文本中蕴含的语义信息和语法结构,来获得更高的 翻译质量。 作者的工作主要是通过对非连续短语模板的抽取和对长度较短的短语进行 合并,来修正和添加短语翻译表( t r a n s l a t i o nt a b l e ) ,进而使翻译结果得到一定水 平的提高。 1 5 论文结构 论文第二章主要介绍统计机器翻译的主要模型及基本数学、统计学原理;第 三章主要介绍基于短语的汉一英机器翻译系统各个模块及流程;第四章主要介绍 非连续短语模板抽取和短语合并的具体算法;第五章通过在不同年份的标准 n i s t 测试语料上进行对比评测实验,验证本文提出的方法确实对翻译结果的质 量有一定的帮助,最后对实验结果进行总结并对机器翻译的前景进行展望。 第二章统计机器翻译的主要模型及基本原理 第二章统计机器翻译的主要模型及基本原理 在各种不同的机器翻译系统中,统计的方法无疑取得了非常好的效果。本章 将主要介绍两种目前最为经典的统计机器翻译方法:基于信源信道模型的统计机 器翻译和基于最大熵模型的统计机器翻译,并从数学和统计学的角度对每种方法 的各个模块给予较为详细的说明,最后再对机器翻译现有的主流评测方法,b l e u 评测,进行介绍。由于作者参与开发的是汉英翻译系统,所以下文中提到的源 语言即为中文,目标语言即为英文。 2 1 基于信源信道模型的统计机器翻译 机器翻译的过程就是将源语言( 中文) 中句子= z ,乃,办翻译成目标语 言( 英文) 中旬子e j = p 1 ,e ,e ,的过程。在给定待翻译句子f 的情况下,根据 b a y e s 公式可以得到: p r ( 吖) = 警 公式( 2 1 ) 这样,由于p r ( f ) 与翻译结果无关,翻译的目标就变为生成一个英文句子e ,使 得p r ( ei ) 最大: e = a r g m a xp r ( e ) p r ( 厂f 力 p 公式( 2 2 ) 公式( 2 2 ) 在b r o w n 等人的文章中被称为是统计机器翻译的基本方程式 ( f u n d a m e n t a le q u a t i o no fs t a t i s t i c a lm a c h i n et r a n s l a t i o n ) t 1 | 。在这个公式中,p r ( e ) 是 目标语言( 英语) 句子在文本中出现的概率,称之为语言模型( l a n g u a g em o d e l ) ; p r ( 厂fe ) 是将目标语言句子e 翻译成源语言句子f 的概率,称之为翻译模型 ( t r a n s l a t i o nm o d e l ) 。语言模型只与目标语言有关,而与源语言无关,反映的是一 个句子在目标语言中出现的可能性,本质上就是描述该句子在句法、语义方面的 合理程度;翻译模型与源语言和目标语言都有关,反映了将目标语言句子翻译为 源语言句子的可能性。 据此,信源信道的统计机器翻译模型就被分解为下述三个子问题: 第二章统计机器翻译的主要模型及基本原理 对语言模型p r ( 曲的概率估计( e s t i m a t i a g t h e l a n g u a g e m o d e l p r o b a b i l i t y ) : 对翻译模型p r ( ,le ) 的概率估计( e s t i m a t i n gt h et r a n s l a t i o nm o d e l p r o b a b i l i t y ) : 找到一个可以获得c 的高效搜索算法。 写到这里,有人可能会问为什么不直接应用p r ( e ,) ,而是使用 p f ( p ) p h ,i e ) 这样一个更为复杂的模型呢? 其原因就在于,如果单纯使用 p r 扣,) 来选择翻译e ,那么得到的翻译很可能是不符台译文语法的( i l l - f o r m e d ) , 而语言模型l r ( e 1 的作用正是用来保证得到的译文尽可能的满足目标语言的文法 要求。 图2 - 1 为基于信源信道模璋 的统计机器翻译框榘: 甾2 一l 信源信道模型的韶泽拼l 程 下面的章节将分别介绍语言模翟d ( l a n g u a g em o d e l ) t d j 翻译模型( t r a n s l a t i o n m o d e l ) 篚j 具体内容。 2 1 1 统计语言模型和n 元语法模型 在涉及自然语言处理的领域中,很多时候都需要判断一段文字序列是否能构 成一个大家可以理解的句子。用s 表示这段文字序列,吡,州t 现在, 第二章统计机器翻译的主要模型及基本原理 计算机对s 合理性的判断,从某种意义上来说,就是想知道s 在真实文本环境中 出现的可能性大小,也就是统计学中所说的概率模型p ( s ) 。概率模型可以给出指 定字符串出现的可能性大小,无论是计算整个句子的概率,还是预测一个序列接 下来可能出现的单词,都需要用到概率模型。最简单的单词序列概率模型单纯的 假设语言中任何一个单词后面可以跟随该语言中的任意单词,很明显这是不合理 的,因为它没有考虑单词出现的频率信息。在稍微复杂一些的单词序列概率模型 中,一段文字序列后所跟随的单词要按照它正常的频率出现。因此可以根据这样 一个相对频数来对下面将要出现的单词指派一个概率分布估计值。但是,任何单 词的出现都不是孤立的,而是由特定的上下文产生。在判断一个单词出现在已有 序列后的概率时,还应该综合考虑“历史”信息,即该概率应该以已有序列的存 在为前提条件。利用条件概率公式,可以将p ( s ) 展开如下: p ( s ) = p ( w 1 ) 尸( w 2w 1 ) p ( w 3w i ) p ( w 。lw 1 ”1 ) 公式( 2 3 ) 其中p ( w ,1w f 一) 表示在己知w p w i 一。出现的的前提下,w ,出现的概率。从计算的 角度来说,随着序列长度的增长,各种单词加入的可能性太多,发生序列重复的 概率非常低,这样不便于利用统计的方法进行概率估算。为了解决这个问题,可 以假设任何一个词出现的概率仅和它前面的n 个词有关,这就是著名的“n 元语法模型”( n g r a mm o d e l ) 。 称一个单词的出现概率仅依赖于它前面已有若干单词的假设为“马尔可夫假 设”。马尔可夫模型是一种概率模型,这种模型不必查看很远的过去就可以预见 某个单位将来产生指定单词的概率。之前所说的n 元语法模型就是n 1 阶马尔 可夫模型。在一个序列中,n 元语法模型对下一个单词出现概率进行计算的通用 公式为: p ( iw 1 ”) 户( i n 一- + i i ) 公式( 2 4 ) 本文介绍的机器翻译系统采用五元语法模型,则整个序列的概率可以表示为: p ) = p ( w li ) 尸( 1w 1 ) p ( w 31w t ) p ( w 。i 订) p ( w slw i i ) p ( w 。l n 棚- i ) 公式( 2 5 ) 其中, 为句首的开始标志。可以看出,由于概率都小于1 ,相乘的项数越多, 乘积就会越小,所以习惯上采用对数空间进行计算,取l o g 以1 0 为底。 n 元语法模型通过在训练语料上利用最大似然估计( m l e ) 的方法获得。对 第二章统计机器翻译的主要模型及基本原理 于概率模型来说,还要利用归化的方法( n o m a l i z i n g ) 使最后得到的概率值介于 0 和1 之间,以保持概率的合法性,参数估计计算公式为: 驯味) = 制 娥2 - 6 ) 其中c ( w 2 + 。) 表示序列w n 一川,一小,在训练语料中出现的次数, c ( w :二j + 。) 表示序列一州,w 。一彩,w 川在训练语料中出现的次数。 但是,要注意到,标准的n 元语法模型仍存在着一个重要的问题:这个模型 必须通过在目前已知的某个语料上训练得到,而任何特定的语料都必定是有限 的。这就意味着,从任何语料训练得来的二元语法矩阵都是稀疏的( s p a r s e ) ,从 而导致大量的“零概率”现象发生,使得m l e 方法得到很多很糟糕的估计值。 这个问题是n 元语法模型所特有的,因为它们不能使用长距离的上下文,所 以总是倾向于过低的估计那些在训练语料中彼此不相临近出现的字符串概率。通 过平滑( s m o o t h i n g ) 的方法可以给这些零概率和低概率的n 元序列重新赋值并 指派非零概率。下面是几种常用的平滑算法,通过利用它们修改二元语法概率的 例子来说明平滑方法的作用: 首先定义一些基本的概念,v 是语言中单词“型”的个数,称为词汇容量 ( v o c a b u l a r ys i z e ) ;n 是语言中“例”的个数,就是语言中出现的全部单词总量。 加1 平滑:在归一化计算概率之前对所有的计数加一,平滑概率的计算公 式为: = c o u 矿n t ( w i ) + 1 公式( 2 7 ) c o u n t ( w , ) 为单词w ;在训练语料中出现的次数。加l 平滑是一种很糟糕的 算法,主要问题是加1 平滑在估算零计数情况的实际概率时,不加区别的 给每种情况都加了1 ,而实际上不同情况的出现概率是不同的。如果对各 种情况区别处理,可能会避免这个问题,但是这样一来还需要重新对每种 情况训练这些参数。 w i t t e n b e l l 打折法( w i t t e n b e l ld i s c o u n t i n g ) :使用先前“已经看到过一 次事物”的数量来帮助估计那些“从未看到过事物”的概率。这样,就可 以通过下面的公式来估计所有零n 元语法的全部概率和: 第二章统计机器翻译的主要模型及基本原理 ip南wi=o ,。i, 公式( 2 8 ) 设z 为具有零频数n 元语言的全部计数,则平滑概率的计算公式为: 只+ = 一,零频数的情况 1 ( + v ) z f f 式( 2 9 、 之c o u n t ( w i ) ,非零频数的情况 w - b 打折法在处理一元语法时很像加1 平滑,但如果把这个等式扩充到 二元语法就会产生很大的变化。主要是因为二元语法“类型”的计数是以 前面的历史为条件。为了计算从未见过的二元语法w i 一,w ,的概率,需要使 用以w 开头的新二元语法概率。这样一来,对那些倾向于以很小数值二 元语法出现的单词将提供一个较低的二元语法估计。 g o o d t t t r i n g 打折法( g o o d t u r i n gd i s c o u n t i n g ) :用观察计数较高的n 元语 法重新估计概率量的大小,并把它指派给那些具有零计数或较低计数的n 元语法。设n 为出现次数为c 的n 元语法数,g o o d t u r i n g 估计给出了一 个平滑计数c + : c + :( c + 1 ) 宰n 。+ 1 n 。f f ;- - ( 2 1 0 ) 除了应用上面讨论的打折法解决零频度n 元语法的问题之外,还可以用“回 退”( b a c k o f f ) 的方法使用n 1 元语法来构建n 元语法模型。在回退模型中,如果 有非零的n 元语法,则仅依赖这些n 元语法计数。仅当阶数较高的n 元语法中 存在零计数时才采用回退模型,把阶数较高的n 元语法降为阶数较低的n 元语 法。那3 元语法为例,机器翻译系统中用到的回退公式如下: p ( w 3w 1 w 2 ) = p ( w l w 2 w3 ) ,若3 元语法w l w 2 w3 存在; = p ( w3 w 2 ) 木b o w t 一2 ( w l w 2 ) ,若2 元语法w 1 w 2 存在; 公式( 2 1 1 ) = p ( w ,1w 2 ) ,其他情况 以譬b ow 以t 鹏l ( w l 蔷蒜善 蛐2 m , = 一一 ) 木p ( w 2 ) 其他情况 、 关于平滑和回退方法的具体证明和应用细节,这里不再做更多的介绍。平滑 和回退技术的引用,有效的增强了语言模型对现实语言状况的描述能力。 第二章统计机器翻译的主要模型及基本原理 2 1 2i b m 统计翻译模型 在信源信道模型中,通常都是按照下述步骤来计算公式( 2 - 2 ) 中所提到的逆 向翻译概率p “厂lp ) 的:首先,由给定的英文句子,选择对应中文翻译的可能长 度;然后根据英文句子及已经预测出的中文句子长度,选择中文句中第一个位置 的单词与英文句子中某个单词的对齐位置:之后再根据已有的信息确定中文句中 第一个位置的单词实体,再以相同方法遍历所有中文句中的位置并添加新的中文 单词,以获得最终的中文翻译结果。上述过程用公式表达如下: p r ( f ,口io = p r ( me ) 兀p r ( a ia , a j - i 朋,e ) p r ( f ji 口? ,f l j - im ,e )公式( 2 1 3 ) = l 其中e = e :三e l e :e ,为英文序列,长度为l ;f = z ”暑z 厶l 为中文序列,长 度为m ;a 7 = a ,a ,口。为对齐序列,有m 个值,每个值处于0 到1 之间,如果 中文中的第j 个单词与英文中的第i 个位置相连接,则用口:= i 表示,如果不与 任何英文单词连接,则a i = 0 ;p r ( mp ) 为给定英文句子e 后,对应中文句子长 度为m 的概率;p r ( a ,i 口? ,z 严1 ,m ,p ) 为给定英文句子e 、中文句子长度m 、前j 1 个中文单词的对齐位置和单词实体后,第i 个中文单词的在英文句子中的对齐位 置为a ,的概率;p “,i 口j ,z 卜1 ,m ,p ) 表示在上述条件基础上,第j 个位置的中文 单词实体为的概率。 p r ( 厂ie ) 等于在所有对齐情况下p r ( f ,口i 力概率的总和,用公式可表达为: p r ( fp ) = p u ,ap )公式( 2 1 4 ) i b m 的b r o w n 等人川提出了5 种复杂程度递增的数学模型,简称i b mm o d e l 1 5 ,用来计算条件概率p r ( 厂ie ) 。文章接下来将简单了解每个模型各自的特点: ( 1 ) m o d e l1 :作为最简单的翻译模型,m o d e l1 假设中文句子在所有长度 上都具有相同的可能性,则有占兰p r ( mje ) ;p r ( a ,i 口f ,z 卜1 ,m ,e ) 仅依赖于英文 句子的长度l ;p r ( f ji 口j ,z j - im ,p ) 仅依赖于源语言单词六和与之相连接的英文 单词p 。则公式( 2 1 3 ) 可以简化为: w ,口l p ) 2 寿冉,( f ju 公靴- 1 5 ) 其中,对齐信息a 指明每个目标语言单词与哪个源语言单词相连接,取值范围为 第二章统计机器翻译的主要模型及基本原理 0 到m 这样,翻译概率可以表示为: p r ( 川= 斋 i 毫密蜕h ) 公却啪) 所有翻译概率受归一化的约束,相加和应保证为1 。为了得到最大的翻译概率, 在概率归一化的约束下应用拉格朗日极值法: 雄,动= 寿毳。熹密,( 乃l ) 一;以( 莩,( 厂一1 ) 公式( 2 1 7 ) 极值情况在应用f 和五对h 求偏导均为0 的情况下出现: 丽o 丽h = 赤煮熹善圳瓣沙( 巾) - 1 杂弧_ 公式( 2 18 ) 其中,6 在等于:,、e 等于的情况下取l ,其余的情况均为0 。这样,单词 翻译概率即可表示为: u 叫寿轰毫善耵躲可) 垂u h ) 公式( 2 19 ) 表面上看起来,这个公式似乎是一个极大值的解,但事实上,由于公式右边仍然 包含,( 九ie 。) 项,还需要采用一种迭代的方法去进一步寻求这个最大解,这个 迭代的过程主要采用e m 算法实现。简单的说,e m 算法就是对公式右边的概率 给定一组初始值,应用这组初始值根据等式计算获得一个新的翻译概率,并做为 新的输入。重复这个过程直到函数值收敛到预先认为可以停止的程度为止。 根据公式( 2 1 5 ) ,改写公式( 2 1 9 ) 为: 盯吐1 寿莓w ,口| 唾町删眦刎) 公都- 2 0 ) 在给定的待翻译句对( f l e ) 中,称单词f 和e 相互连接的次数为给定e 产生f 的c o u n t 数,用c ( f l e ;e e ) 表示: 第二章统计机器翻译的主要模型及基本原理 c ( ip ;e e ) = p r ( ap ,厂) 万( 厂,f j ) 6 ( e ,)f f 式( 2 2 1 ) 口 歹= 】 这里,p r ( ap ,厂) = p r ( f ,aie ) p r ( fle ) ,如果将旯。换成旯。p “厂lp ) ,则公式( 2 2 0 ) 就可以化简成: t ( fe ) = 五1 c ( fje ;f ,e )公式( 2 - 2 2 ) 在实际训练过程中,训练数据包含了很多组翻译对的集合 ( ( 1 ip 1 ) ,( 厂2 l p 2 ) ,( 厂s le 5 ) ) ,所以公式( 2 2 2 ) 口- - j 改写为: s f ( 厂fo = 历1 c ( fie ;f r o , p )公式( 2 2 3 ) s = l 五。的意义仅仅在于提醒翻译概率必须进行归一化。 麒川沪布f 荟黔k 螂2 4 , 2 斋珥善奶l e i ) 用公式( 2 - 2 4 ) 替换公式( 2 1 6 ) 生成公式( 2 - 1 7 ) ,可以推导出: c ( 厂ip;厂,p)=ii了:i:手喜万(厂,j)万(p,p,)公式( 2 - 2 5 ) 到此,给定公式( 2 2 2 ) 至公式( 2 2 5 ) ,可以按照下面的步骤估计单词翻译概率参数 “司e ) : 选定t o e ) 的初始值; 对训练语料中的每个翻译句( 厂“,e ) ,利用公式( 2 2 5 ) 计算c ( fe ;f ,e ) 。 在这里,c ( fe ;f ,e ) 并不依赖于单词e 和f 在句对中的顺序,而只是和它 们在各自句子中出现的次数有关: 对每个在句子e d 中至少出现过次的单词e ,利用公式( 2 2 6 ) 计算名; s 五。= c ( f ie ;f ”,p 5 ) 公式( 2 2 6 ) l s = l 对每个在句子厂中至少出现过一次的单词f 利用公式( 2 - 2 3 ) 计算一个新 第二章统计机器翻译的主要模犁及基本原理 的翻译概率们e ) ; 重复步骤2 和步骤3 一直到稍e ) 收敛到一个可以接受的程度而停止。 其中,t ( f l e ) 初始值的选取并不是非常重要的,因为对于m o d e l1 来说,p r ( f ) e ) 有唯一的局部最大值。 ( 2 ) m o d e l2 :在与m o d e l1 所有假设保持一致的前提下,m o d e l2 假设 p r ( a ,i 口? ,_ 卜1 ,m ,e ) 依赖于j ,a i ,m 和l 。这里引入对齐概率( a l i g n m e n t p r o b a b i l i t y ) 的概念,a ( a ,i ,朋,f ) 三p r ( a ,l 口i ,一,z 一,r ,) ,这样,公式( 2 1 6 ) 就转 化为: , p r up ) = 占兀f 旧) 口( fj , m ,f )公式( 2 2 7 ) j = li - - o 关于a l i g n m e n t 的介绍在文章的后续会用单独的部分进行说明。 与m o d e l1 和m o d e l2 不同,m 0 d e l3 ,4 ,5 假定一个英文单词有可能产生多 于一个的中文单词,称一个英文单词产生的中文单词的数量为该英文单词的“生 产力”( f e r t i l i t y ) ,记为中,。接下来使用一种新的产生式方法来牛成一个英文句 子所对应的中文翻译:首先,对英文中的每一个单词产生一个,称之为一个 t a b l e t ,其中包含了若干的中文单词,称这些单词组成了一个t a b l e a u ,第i 个英 文单词产生的t a b l e t 用随机变量正表示,第i 个t a b l e t 中的第i 个中文单词,记为 瓦;然后,在选择好了t a b l e a u 之后,排列其中的中文单词从而形成了中文翻译 f o 这个排列过程是一个随机变量,记为n ,第i 个t a b l e t 中第k 个中文单词的位 置是另一个随机变量,记作”这样对于一个t a b l e a u 、f 和一个排列n ,可以 生成如公式( 2 2 9 ) 所示的组合概率,对应的p r ( f , ae ) 可表示为: p r ( f , ae ) = p r ( r ,i - i 已)公式( 2 2 8 ) ( r ,n ) e o ,用气巾来表示概念i 的 头部,则 p r ( n 【i 】。= i 兀p 1 ,f 。1 ,刷,p ) = d j ( j - o “ia ( e i h 】) ,b ( 乃) ) 公式( 2 - 3 2 ) 方程a 和方程b 分别将源语言和目标语言划分到5 0 个不同类中,每个类对 应一个不同的返回值。b r o w n 在其文章中提出过将一个词表划分为若干类的方 法,这里忽略具体细节不再介绍。称- 一 h 为概念i 头部的位移,举个例子来说 明,英语中的形容词往往位于名词之前,而在法语中情况正好相反,位于名词之 后,这样,d j ( 一la ( p ) ,b ( 厂) ) 的概率就会大于d 。( 1a ( p ) ,b ( 厂) ) 其中,a ( e v - u ) 依 第二章统计机器翻译的主要模型及基本原理 赖于前一个概念,b ( f ) 依赖于被放置的中文单词实体。 接下来放置剩余的单词,对于概念i 中的第k 个单词, i 】 o ,k l ,假设有: p r ( n 啡= i 兀爿,n l i - 1 ,1 ,刷,p ) = d ,。( - ,一y i f 】ib ( 乃) ) 公式( 2 3 3 ) 在这里,要求l n i 小大于n 一1 。 需要注意,尽管假定钉巾可以放在任何之前已经放置的单词前面或者后面, 死。接下来的单词则必须按照顺序放置。这并不是说接下来的单词必须连续放置, 而是说对于任意的f ,1 m 和兀【巾,i 1 i n ,则n 【订n 的位置必须在n f i 】。的右面,这样, 死。放置方法的数量只有,! 。 ( 5 ) m o d e l5 :对m o d e l4 进行了修正,消除了m o d e l4 中的缺陷( d e f i c i e n c y ) 避免对一些不可能出现的对齐给出非零的概率。由于m o d e l5 比较复杂,在本文 涉及的系统中也没有被用到,所以这里略去具体细节。 2 1 3 双语词对齐 在介绍i b mm o d e l1 5 的时候,曾经提到对齐( a l i g n m e n t ) 的概念,这个概 念在自然语言处理的很多领域都有非常重要的应用。双语词对齐是双语词典编 辑、机器翻译和术语获取等技术的基础和前提。近年来,基于知识和基于统计的 双语词对齐算法不断涌现,使得对齐从句子级别延伸至短语和词汇级别,为上述 应用技术的研究提供了有力的支持。 设= z ,工,办和e ? = e l ,e i ,e 1 分别是平行语料( p a r a l l e lt e x t ) 源语 言和目标语言中的句子。对齐则表明了这两个句子之间的一种单词对应关系,定 义为as ( ,f ) :j = 1 ,j ;i = l ,i 。举例说明,如下图2 2 所示: 这是一个对齐的例子 n i s函 豳 i s a n髭翔 e x a m p l e图 o f囵 a n a l i g r m a e n t圈 图2 2 双语词对齐示例 第二章统计机器翻译的主要模型及基本原理 计算生成双语对齐的方法主要划分为两大类:统计对齐模型( s t a t i s t i c a l a l i g n m e n tm o d e l ) 和启发式模型( h e u r i s t i cm o d e l ) 。 ( 1 ) 在统计对齐模型中,一个隐藏的对齐a = a j 被引入,用于描述源语言和 目标语言之问的对应关系。a :中可能包含a ;:0 的项,用来表示源语言中的单词 不与任何目标语言中的单词对应。统计模型中很多未知参数都是通过训练数据 ( t r a i n i n gd a t a ) 学习而来,下面的公式就表明了模型对这些未知参数的依赖性: p r ( f 1 3 ,a je l i ) = p 口( f l j ,a :ie l i )公式( 2 3 4 ) 给定一组包含s 对对齐句子的平行语料,每一对双语句对,对齐变量用a = a ; 表示。这样。未知参数伊通过最大化下述公式( 2 3 5 ) 获得: 臼= a r g m 。a x i 吲- l t x 。p 一( 六,口i p s ) 】) 公式( 2 - 3 5 ) 通常都是采用e m 或者类似的算法进行这种最大化的计算,但是,e m 算法 并不是统计方法所必须的,它只是一种可以有效解决该类参数估计问题的有效方 法而已。尽管对于一个给定的双语句对,可能产生很多种不同的对齐,但总是可 以找到最佳的一个,满足: 口? = a r g m a x p :( z j 口? je j ) 公式( 2 - 3 6 ) 口? 这个最好的对齐被称之为该双语句对的“v i t e r b i 对齐”。 ( 2 ) 启发式对齐模型采用相似度函数( s i m i l a r i t yf u n c t i o n ) 来判断两种语言中 单词对齐与否。d i c ec o e f f i c i e n t 是最常见的相似度函数。 d i c 咏舻黜 公式( 2 - 3 7 ) 其中c ( 乞,f ) 代表单词e 和单词f 在双语平行预料中的同现次数 ( c o o c c u r r e n c e ) ,c ( e ,) 和c ( 厂,) 分别代表单词e 和单词f 在目标语言和源语言中 的出现次数。 对于每一组双语对齐句对,相似度函数计算句对中每对单词的相关分数 ( a s s o c i a t i o ns c o r e ) ,从而决定单词之间的对齐关系。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年周口辅警协警招聘考试备考题库含答案详解(轻巧夺冠)
- 2024年宿州辅警协警招聘考试备考题库附答案详解(考试直接用)
- 2024年临夏州辅警招聘考试真题含答案详解(综合卷)
- 2024年丽江辅警协警招聘考试真题及参考答案详解1套
- 2024年呼伦贝尔辅警协警招聘考试真题及答案详解(易错题)
- 2023年阜阳辅警协警招聘考试真题附答案详解
- 2023年铜陵辅警协警招聘考试备考题库(含答案详解)
- 中国石墨浮阀塔项目投资可行性研究报告
- 2025中国建设银行深圳市分行春季校园招聘150人笔试历年难易错考点试卷带答案解析2套试卷
- 国务院办公厅‘办公’核心职能与行政效率的深度融合-职能解析与协同工作的效率优化策略
- 老年人运动系统
- 空调包工安装合同范本
- 2025北京语言大学出版社有限公司招聘5人笔试历年典型考点题库附带答案详解3套试卷
- 2025文山市卫生健康系统选调工作人员(10人)考试笔试备考试题及答案解析
- 2025 高中戏剧表演元素训练课件
- 2025年生石灰行业分析报告及未来发展趋势预测
- 司法局调节员考试题及答案
- 《文明礼仪伴我行》主题班会
- 2025年化肥销售区域代理协议
- 2025-2026学年上学期高一物理教科版期中必刷常考题之实验:用打点计时器测量小车的速度
- 2025新版生产安全事故应急预案参考模板
评论
0/150
提交评论