(计算机软件与理论专业论文)双语词典在统计机器翻译中的应用.pdf_第1页
(计算机软件与理论专业论文)双语词典在统计机器翻译中的应用.pdf_第2页
(计算机软件与理论专业论文)双语词典在统计机器翻译中的应用.pdf_第3页
(计算机软件与理论专业论文)双语词典在统计机器翻译中的应用.pdf_第4页
(计算机软件与理论专业论文)双语词典在统计机器翻译中的应用.pdf_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 中文摘要 在当前的基于统计的翻译方法中,双语语料库的规模、词对齐的准确率对于 翻译系统的性能有很大的影响。虽然大规模语料库可以改善词语对齐的准确度, 提高系统的性能,但同时会以增加系统的负载为代价,因此目前对于统计机器翻 译方法的研究不只局限在使用大规模语料库的基础上,同时会寻求其它可以提高 系统性能的方法。 针对以上问题,本文提出一种方法:在基于短语的统计机器翻译系统中应用 双语词典。即根据对数线性模型( l o g l i n e a r ) 的思想将双语词典作为统计机器翻 译系统的一个特征融合在系统中,利用双语词典对g i z a 抖双向训练所得的词语对 齐结果进行优化,能够在双语语料库有限的情况下提高词语对齐的准确度;而且 可以利用双语词典优化翻译结果,对未登录词进行处理,可在一定程度上解决数 据稀疏问题。为现在主流的基于短语的统计机器翻译提供帮助,同时推进现有语 言学资源在统计翻译中的应用。 关键词:统计机器翻译;双语词典;双语语料库;词语对齐 黑龙江大学硕士学位论文 a b s t r a c t b a s e do nt h ec u r r e n ts t a t i s t i c a lm a c h i n et r a n s l a t i o n ,t h es i z eo fc o r p u sa n dt h e a c c u r a c yo fw o r da l i g n m e n tm a i n l ya f f e c tt h ep e r f o r m a n c eo fs m ts y s t e m s t h o u g h l a r g eb i l i n g u a lc o r p u sc a ni m p r o v et h ea c c u r a c yo fw o r da l i g n m e n ta n dt h ep e r f o r m a n c e o ft h es y s t e m ,t h i si sa c h i e v e da tt h ec o s to fi n c r e a s i n gt h el o a do ft h es y s t e ma tt h e s a l n et i m e s on o w a d a y st h er e s e a r c ho ns t a t i s t i c a lm a c h i n et r a n s l a t i o ni sn o to n l y u s i n g l a r g eb i l i n g u a lc o r p u s ,b u ta l s os e e k so t h e rm e t h o d st oi m p r o v et h ep e r f o r m a n c eo ft h e s y s t e m t h i sp a p e rp r o p o s e sa t la p p r o a c h ,i nw h i c ht h eb i l i n g u a ld i c t i o n a r yi si n t e g r a t e di n t h es m ts y s t e m t h eb i l i n g u a ld i c t i o n a r yw i l lb ei n t e g r a t e di nt h es m ts y s t e ma sa f e a t u r ea c c o r d i n gt ot h et h i n k i n go fl o g - l i n e a rm o d e l w ec a nm a k eu s eo ft h eb i l i n g u a l d i c t i o n a r yt oo p t i m i z et h ew o r da l i g n m e n tr e s u l t sf r o mg i z a ho ft w o w a yt r a i n i n g i t c a ni m p r o v et h ea c c u r a c yo fw o r da l i g n m e n ti nt h ec a s eo ft h el i m i t e ds i z eo fc o r p u s a n dw ec a nm a k eu s eo ft h eb i l i n g u a ld i c t i o n a r yt oo p t i m i z et r a n s l a t i o nr e s u l t sa n dt o d e a l 、析t ht h eu n k n o w nw o r d i tc a nr e s o l v et h ei s s u eo fs p a r s ed a t ai ns o m ee x t e n t a l s o i tw i l li m p r o v et h ep h r a s e b a s e dm a i n s t r e a ms m t s y s t e m i ti se x p e c t e dt og i v ei m p e t u s t ot h ea p p l i c a t i o nf o r t h ee x i s t i n gl i n g u i s t i cr e s o u r c e si ns m t s y s t e m k e y w o r d s :s t a t i s t i c a lm a c h i n et r a n s l a t i o n ;b i l i n g u a ld i c t i o n a r y ;b i l i n g u a lc o r p u s ; w o r da l i g n m e n t i i 黑龙江大学硕士学位论文 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研 究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得墨蕉江太堂或其他教育机构的 学位或证书而使用过的材料。 学位论文作者签名: 土丹同 签字日期: 2 口口7 年么月日 学位论文版权使用授权书 本人完全了解墨蕉延态堂有关保留、使用学位论文的规定,同意学校保留并 向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本 人授权墨蕉江太堂可以将学位论文的全部或部分内容编入有关数据库进行检索, 可以采用影印、缩印或其他复制手段保存、汇编本学位论文。 学位论文作者签名: 王丽 签字日期:勃。乡年舌月i l 日 导师虢钐习式 签字日期钞。7 年乡月尼日 学位论文作者毕业后去向: 工作姚烧衫细蝌黼疏:孵。彦夕厂 通讯地址:邮编: 第1 章绪论 1 1 研究背景及意义 第l 章绪论 统计机器翻译方法在近些年来的国际翻译评测中表现逐年提高,因此基于统 计的机器翻译方法受到越来越多专家和学者的关注【l 】,而在统计机器翻译方法当 中,尤其以基于短语的统计机器翻译方法( p h r a s e b a s e ds m t ) 【2 】为主,因为在国际 口语翻译系统评测( i n t e r n a t i o n a lw o r k s h o po ns p o k e nl a n g u a g et r a n s l a t i o n ,i w s l t ) 【3 4 】和n i s t 最近两年的机器翻译评测中,基于短语的统计机器翻译系统的评测成 绩最好。 最早将统计方法用于机器翻译的研究的是i b mw a t s o n 研究中心的b r o w n 等人 【5 】的工作,该方法在当年的评测中表现不俗,从而引起了轰动。统计机器翻译方法 的基本思想是:以一定规模双语语料库为基础,通过建立适当的语言模型和翻译 模型,来计算双语词汇在双语语料库中的同现概率。基于短语的统计机器翻译方 法是把训练语料库中所有对齐的短语及其翻译概率存储起来,作为一部带概率的 短语词典,翻译的时候将输入的句子与短语词典进行匹配,选择最好的短语划分, 将得到的短语译文重新排序,得到最优的译文。由此可以看出双语语料库的规模、 词对齐的准确率对于统计机器翻译系统的性能影响很大,语料库的规模越大,词 对齐越准确,生成的短语翻译概率表的准确度就越高,翻译结果越精确,系统性 能越好。但是大规模的语料库会增加翻译系统的负载度,使得训练和解码的速度 降低,影响整个系统的效率。同时,即使双语语料库的规模足够大,也难以保证 实际翻译过程中出现的词汇都已完全被训练语料所涵盖,“未登录词”同样会出现, 即数据稀疏问题没有完全解决。所以在语料库规模有限的情况下,如何提高词对 齐以及短语翻译概率表的准确度成为很多学者研究的重点。对于双语语料库的规 模、词对齐准确率的研究是目前统计机器翻译领域重要的研究课题。 黑龙江大学硕士学位论文 1 2 统计机器翻译概述 1 2 1 统计机器翻译 自上世纪9 0 年代以来,机器翻译领域的方法基本上可以分为两大类,即基于 规贝j j ( r u l e b a s e d ) 的方法和基于语料库( c o r p u s b a s e d ) 的方法。基于规则的方法是传 统的方法,而基于语料库的方法是8 0 年代以后逐渐发展起来的方法。基于规则的 机器翻译m t ( m a c h i n et r a n s l a t i o n ) 又可以分为三类:直接翻译法、基于转换的方 法和基于中间语言( i n t e r l i n g u a b a s e d ) 的方法,而基于语料库的方法又可以分为基于 统计( s t a t i s t i c b a s e d ) 和基于实例( e x a m p l e - b a s e d ) 的方法。其中,统计机器翻译方法 由于其数学推导严密、模型一致性好、可以自动学习、鲁棒性强等优点,越来越 受到人们的重视。本文中提出的机器翻译方法就是统计机器翻译方法中的一种。 最早的统计方法认为:翻译问题可以看成是一个噪声信道问题,而i b m 的统 计机器翻译方法,即基于信源信道模型的统计机器翻译方法的基本思想是,把机 器翻译看成是一个信息传输的过程,用一种信源信道模型对机器翻译进行解释。 假设一段源语言文本s ,经过某一噪声信道后变成目标语言t ,也就是说,假设目 标语言文本t 是由一段源语言文本s 经过某种奇怪的编码得到的,那么翻译的目 标就是要将t 还原成s ,这也就是一个解码的过程 6 1 。 目前基于统计的机器翻译方法大体上分为以下三类: 第一类是基于平行概率语法的统计机器翻译方法。其基本思想是,用一个双 语平行的概率语法模型,同时生成两种语言的句子,在对源语言句子进行理解的 同时,就可以得到对应的目标语言句子。这一类方法有几个共同的特点:有明确 的规则形式;源语言规则和目标语言规则一一对应;源语言与目标语言共享一套 概率语法模型,对于两种语言的转换过程不使用概率模型进行描述。基于平行概 率语法的统计机器翻译方法的典型代表之一是由a t & t 实验室的a l s h a w i 等人【j 7 】 第1 章绪论 提出的基于加权中心词转录机( w e i g h t e dh e a dt r a n s d u c e r ) 的统计机器翻译方法, 用于a t & t 的语音机器翻译系统。该系统由语音识别、机器翻译、语音合成三部 分组成。其中机器翻译系统的总体工作流程如图l 一1 所示: 图1 1 机器翻译系统的总体工作流程 f i g u r e l - 1t h eo v e r a l lw o r k f l o wo f m a c h i n et r a n s l a t i o ns y s t e m 典型代表之二是吴德恺的i t g 模型。i t g ( i n v e r s i o nt r a n s d u c t i o na r a m m a r ) 是香港科 技大学吴德恺( d e k a iw u ) 提出的一种供机器翻译使用的语法【引。这种语法的特点 是源语言和目标语言共用一套规则系统。典型代表之三是t a k e d a l 9 的p a t t e r n - b a s e d c f gf o rm t ( 基于模式的机器翻译上下文无关语法) 。该模型对于翻译模板定义如 下: 每个翻译模板由一个源语言上下文无关规则和一个目标语言上下文无关规则 ( 这两个规则称为翻译模板的骨架) ,以及对这两个规则的中心词约束和链接约束 构成。 中心词约束:对于上下文无关语法规则中右部( 予结点) 的每个非终结符, 可以指定其中心词;对于规则左部( 父结点) 的非终结符,可以直接指定其中心 词,也可以通过使用相同的序号规定其中心词等于其右部的某个非终结符的中心 词: 黑龙江大学硕士学位论文 链接约束:源语言骨架和目标语言骨架的非终结符子结点通过使用相同的序 号建立对应关系,具有对应关系的非终结符互为翻译。 第二类是基于信源信道模型的统计机器翻译方法。这种方法是由i b m 公司的 p e t e rb r o w n i 5 】等人在1 9 9 0 年初提出的,后来很多人都在这种方法的基础上做了很 多改进工作,这也是目前最有影响的统计机器翻译方法,一般说的统计机器翻译 方法都是指的这一类方法。基于信源信道模型的统计机器翻译方法的基本思想是, 把机器翻译看成是一个信息传输的过程,用一种信道模型对机器翻译进行解释。 系统需要翻译的是一段源语言文本s ,该模型假设s 是由一段目标语言t 经过某 种形式的编码得到的,将s 翻译成t 的过程就是一个解码的过程。根据b a y e s 公 式可推导得到公示( 1 1 ) : s = a r gm a xp ( s ) p ( tls ) s ( 1 - 1 ) 这个公式在b r o w n 等人 5 1 的文章中称为统计机器翻译的基本方程式 ( f u n d a m e n t a le q u a t i o no fs t a t i s t i c a lm a c h i n et r a n s l a t i o n ) 。在这个公式中,p ( s ) 是 源语言的文本s 出现的概率,称为语言模型。p ( t i s ) 是由源语言文本s 翻译成目标 语言文本t 的概率,称为翻译模型。语言模型只与源语言相关,与目标语言无关, 反映的是一个句子在源语言中出现的可能性,实际上就是该句子在句法语义等方 面的合理程度;翻译模型与源语言和目标语言都有关系,反映的是两个句子互为 翻译的可能性。 第三类是德国o c h 等人【1 0 】最近提出基于最大熵的统计机器翻译方法,这种方 法是比信源信道模型更一般化的一种模型,基于信源信道的方法可以看做是基于 最大熵的方法的一个特例。基于最大熵的方法与基于信源信道的方法不同,没有 语言模型和翻译模型的划分( 虽然也可以将它们作为特征) ,因而是一种直接翻译 模型。最大熵方法的基本思想【1 1 】:对于一个随机事件,假设已经有了一组样例, 建立一个统计模型,来模拟这个随机事件的分布。为此,就需要选择一组特征, 使得到的这个统计模型在这一组特征上,与样例中的分布完全一致,同时又保证 这个模型尽可能的“均匀 ( 也就是使模型的熵值达到最大) ,以确保除了这一组 第1 覃绪论 特征之外,这个模型没有其他的任何偏好。依据这个原则的统计建模方法就是最 大熵方法。 统计机器翻译方法优缺点: 优点:无需人工干预,不需要复杂的语言学专家知识,是数据驱动的( d a t a d r i v e n ) ,利用语料库直接训练得到机器翻译系统,可以利用海量语料库;系统开 发周期短,能够以最小的代价快速的构建新语言对的翻译系统;由于采用语言模 型,译文质量机器味少,翻译质量随着训练数据的增加能逐渐提高;鲁棒性好; 缺点:时空开销相对大;对语料库依赖性强,需要较大的语料库,翻译结果 受语料库影响很大;对训练语料库中未出现的语言现象处理不好,所以数据稀疏 问题严重;缺乏深层次理解,解决深层或长距离相关性比较困难,算法研究还不 成剥1 2 1 。 1 2 2 基于短语的统计机器翻译 基于词的统计翻译模型只考虑了词与词的线性对位关系,没有考虑短语内部 词的关系和翻译,针对这个问题,很多学者提出了基于短语的统计翻译方法【1 3 。1 5 】。 基于短语的方法不是将每个源语言词单独的翻译为目标语言词,而是将源语言句 子f 切分为由1 个短语( 一个连续的单词序列,所以称之为短语) 组成的短语序列 一 。,然后将每个短语翻译为目标语言短语,从而生成目标语言句子。 在最大熵模型【1 0 l 下,给定的f ,其最佳译文e 可以用公式( 1 2 ) 表示: e1 1 = a rgm ,ax 名。h 。( pj , 1 。f ”。1(1-2) 选择翻译模型、语言模型和扭曲模型作为基本特征,则: m e = a r g m a x a r l o g g ( f le ) + a 埘1 0 9 + 乃l o g p o ( e , f ) 。 m=-i(1-3) 其中弓( 厂ip ) 代表短语的翻译概率,可以通过公式( 1 - 4 ) 计算,p ( f le ) 为每个 短语的翻译概率; 黑龙江大学硕士学位论文 ( 1 - 4 ) ( p ) 代表目标语言的语言模型概率,p d c e ,力代表扭曲模型概率( 位变概 率) ,用于调整目标语言短语的次序,每个短语的位变概率可以使用公式( 1 5 ) 计算: 尸d ( f 。) = 丌d ( 口,一b ) 扣1 ( 1 。5 ) d ( a f b i _ 1 ) = 口i 口f 一6 f l 一1 | ( 1 6 ) q 表示翻译为第i 个目标语言短语的源语言短语的起始位置,岛一t 表示翻译为 第i 1 个目标语言短语的源语言短语的结束位置。 1 3 国内外研究现状 1 3 1 统计机器翻译方法 近年来,统计机器翻译取得了长足的进步,理论方法不断创新,系统性能不 断提高,并且在国际评测中屡创佳绩,引起了人们广泛的关注。 众所周知,2 0 世纪8 0 年代以后,规则方法成了机器翻译研究的主流,但这种 方法需要耗费大量的资金和人力进行词典和规则系统的开发。从研究的角度说, 过于依赖语言规则开发的方法只适合实验,研究周期长,不同的研究工作之间缺 乏可比性。从实验角度说,在处理大规模真实语料的时候,效果也总是非常不理 想。这种状况导致机器翻译的研究很长时间一直没有取得明显的进展。 1 9 9 0 年,i b m 公司的p e t e rb r o w 等人【5 】首先提出了基于信源信道模型的统计 机器翻译思想,并且在美国d a r p a 举办的评测中取得了可以跟老牌的机器翻译系 统s y s t r a n 相媲美的结果,引起了轰动。不过在这之后,由于i b m 的工作是建立在 当时i b m 超级工作站集群的基础上的,需要极大的计算机能力,这种实验其他人 暂时难以模仿,别人无法重复,因此很长一段时间以来,相关的工作也一直进展 不大,包括i b m 公司自己也放弃了这方面的工作。直到9 0 年代末,计算机性能有 厂,- ,p ,丌 = 、 j l p , 】 厂弓 第1 章绪论 了极大的提高,个人计算机的计算能力已经大大超过了当时的m m 超级工作站, 而且与此同时统计方法在语音识别和自然语音处理的其他领域都获得了极大的成 功,这就使得人们重新开始对统计机器翻译燃起兴趣,越来越多的人开始投入到 这个领域之中,终于促成了近年来统计机器翻译的研究热潮。 这期间在1 9 9 9 年的夏天一批对统计机器翻译感兴趣的研究者聚集在约翰霍普 金斯夏季研讨班上,重复了i b m 当年的工作,并开发了一套开发源代码的统计机 器翻译工具软件e g p y t 。这套软件中最主要的训练部件g i z a 及其后来的升级版 g i z a + + ,为统计机器翻译者提供了一个共同的研究基础,大大降低了统计机器翻 译研究的门槛。该工具至今仍然是统计机器翻译研究的重要工具之一。 在这之后,国内外的学者们对于统计机器翻译的研究就没有间断过: 1 y a m a d a 和k n i g h t 的工作基于句法结构的统计翻译模型 南加州大学信息科学研究所0 s i 舢s c ) 的k e v i nk n i g h t 是统计机器翻译的主要 倡导者之一,在统计机器翻译方面做了一系列的研究和推广工作,他也是j h u 的 统计机器翻译夏季讨论班的主要组织者之一【1 6 1 。y a m a d a ,k n i g h t 等人在i b m 的统 计翻译模型的基础上,提出了一种基于句法结构的统计翻译模型【1 7 1 。 2 o c h 等人的工作 在德国主持开发的著名的语音机器翻译系统v e r b m o b i l 中,o c h 所在的研究组 承担了其中统计机器翻译模块隅1 9 1 。o c h 等人在进行统计机器翻译实验时发现,把 i b m 统计机器翻译基本方程式中的翻译模型换成反向的翻译模型,总体的翻译正 确率并没有降低,这用信源信道理论是无法解释的。于是,他们借鉴了统计自然 语言理解的一种思路口o 2 1 1 ,提出了基于最大熵的统计机器翻译方法【2 2 】。这是一个 比基于信源信道的统计机器翻译方法更为一般化的方法,基于信源信道的方法可 以看做是基于最大熵的方法的一个特例。 3 基于模板的统计翻译模型 国内统计机器翻译的领军人刘群研究员在他的博士论文【2 3 1 里采用基于最大熵 的统计机器翻译模型,提出了基于模板的统计翻译模型。模型综合了基于模板( 规 则) 的机器翻译方法和统计机器翻译方法的优点。基于模板的统计翻译算法是传 黑龙江大学硕士学位论文 统的基于转换的方法和统计机器翻译方法的有效结合,克服了现有的统计机器翻 译方法忽视语言结构的缺点,同时又继承了其数学推导严密、模型一致性好的优 点。 4 基于短语模板对齐的统计机器翻译系统 由中国科学院自动化研究所的杨振东,庞薇,魏玮等研究员在基于短语模 板对齐的机器翻译系统 2 4 1 文章中提出了一种基于短语模板对齐的机器翻译系统, 系统采用基于短语模板对齐的翻译模板替代原始基于词的模板,提出了计算短语 模板翻译概率的方法,改进了先前单纯基于短语的搜索算法和回溯方法,解码时 引入繁衍度为0 且出现频率高的词,使翻译结果更加合理。 5 统计机器翻译中短语切分的新方法 由中国科学院计算技术研究所的何中军、刘群等研究员在基于短语统计机 器翻译的短语切分新方法【2 5 1 文章中提出了一种基于短语统计机器翻译的短语切 分新方法,将句子的短语切分概率化。比原本单纯基于短语的统计机器翻译方法 的b l u e 值提高了0 5 个百分点。 6 对数线性模型( 1 0 9 l i n e a rm o d e l s ) 借鉴o c h 等提出的d i s c r i m i n a t i v e 模型,2 0 0 5 年有多个研究者几乎同时提出了 一种对数线性模型,对数线性模型方法中,所有特征和语言学信息可以被轻松地 加入到系统中来,能够提高词对齐的质量。 中国科学院的刘洋、刘群研究员在词语对齐的对数线性模型1 2 6 文章中提 出了词语对齐的对数线性模型,他们使用i b m 模型3 、词性信息和双语词典作为 特征,他们的试验表明对数线性模型要显著优于i b m 翻译模型。巢文涵、李周军、 陈火旺在基于l o g 1 i n e a r 模型的中英文词对齐系统 2 7 】文章中提出了一个基于 l o g l i n e a r 模型的中英文词对齐系统,有效利用i t g 的灵活和词序约束,把对数线 性模型作为一种特征来使用,提高了词对齐的准确率。 7 统计机器翻译中解码器的研究 在统计机器翻译方法中的典型的解码器包括:基于词对齐( 利用贪婪搜索的方 法) 的解码器,基于词对齐( 利用a 霉搜索的方法) 的解码器;基于短语的栈搜索解码 第1 章绪论 器;层次型短语利用c k y 进行句法分析的解码器。其中g e r m a n n t 2 8 】提出了基于词 对齐的快速解码算法,他利用贪婪搜索方法能够在o ( m 6 ) 的时间里找到近似的翻译 结果,并且利用更复杂的贪婪搜索方法将时间效率提高到了o ( i n 2 ) 。k o e h n l 2 9 首先 提出了基于短语的栈搜索解码器,这种方法利用对数线性模型对特征函数进行组 合,在翻译时调整每个特征的权重以得到最优的翻译结果。c h i a n 9 1 3 0 】在2 0 0 5 年首 先提出了基于层次型短语的方法,利用更长范围的短语来组织短语之间的关系, 这种方法实际上是同步上下文无关文法( s c g f ) 的一个特例,因此解码的过程和上 面两种方法不同。 对于基于短语的统计机器翻译中解码器的研究有:基于短语的法老解码器 ( p h a r a o h ,由k o e h n 开发) ;张大昆、李靖、孙乐在统计机器翻译中递归解码器的 研究【3 1 】一文中提出了递归方法在统计机器翻译系统中的应用;李玉缢、曲亚楠 在递归柱搜索解码算法及其应用【3 2 】一文中提出递归柱搜索解码算法,并将其 应用于英汉机器翻译中;s i l k r o a d 3 3 1 由中国的五家研究机构和高校( 中科院计算所、 中科院软件所、中科院自动化所、厦门大学、哈尔滨工业大学) 联合开发,并在 2 0 0 6 年中国第二届统计机器翻译研讨会上发布,供国内外研究者共享使用。 纵观以上列出的国内外机器翻译发展历程,可以看出统计机器翻译已经是学 者们的研究重点,而其中基于短语的统计机器翻译尤为突出。相对于基于词的方 法( w o r d b a s e d ) ,基于短语的方法能够较好的处理短距离依赖( 1 0 c a l c o n t e x t d e p e n d e n c y ) 以及常用搭配等问题。开发者不断研究,机器翻译模型的发展趋势从 原始的基于词的翻译模型发展到更复杂的模型,基于对齐模板和基于短语的翻译 模型及相应的搜索算法被提出,当前很多高效的翻译系统是基于短语的统计机器 翻译系统。 1 3 2 双语词典研究与应用 双语词典对于研究者同时在双语语义层面上进行研究是十分重要的工具,对 跨语言处理尤其具有很高的价值。双语词典在以往的研究中常被应用在基于规则 的机器翻译方法里,利用双语词典来构造更加完备的规则系统文献,很多学者 3 4 - 3 9 黑龙江大学硕士学位论文 提出了基于知识的双语语句对齐方法,这些方法均以词典和规则为基础,通过词 法标注和通过基于知识的推理,建立双语词对齐关系。这些方法通常不受语系的 限制,也不依赖大规模双语语料库,但是它们需要相当规模的双语词典和语言知 识。 1 3 3 优化词对齐方法 当前有基于统计和基于词典这两种方法来处理词汇级的对齐。统计方法是对 大规模的双语语料进行统计训练,来获得双语对译词的同现概率,以此作为对齐 的基础。b r o w n 首先提出了基于统计机器翻译模型的词对齐【3 8 】,d a g a n ,c h a n g 等对b r o w n 的模型进行了改进【4 1 , 4 2 1 。g a l e 和c h u r c h 等人使用一种类x 2 的概率分 布来统计双语对译词的同现概率【4 1 1 。v o g e l 等把h m m 模型引入词对齐 4 4 1 。p a s c a l f u n g 提出了一种在非对齐的双语语料中提取部分词汇对应方法【4 5 1 。近年来基于词 典和语言学知识的词对齐方法也逐渐得到了人们的重视。k e r 4 6 1 、王斌1 4 7 1 等利用语 义类进行词对齐。h u a n g 实现了基于语言学比较的汉朝双语词对齐1 4 引。另外,孙 乐等还利用c h u n k 分析进行汉英双语词汇对齐【4 9 】。 1 4 本文贡献 统计机器翻译方法是当前主流的机器翻译方法,近年来,统计机器翻译取得 了很大的进步,无论在系统性能方面还是在国际评测的成绩上都在不断提高并屡 创佳绩,收到学者们广泛的关注。基于噪声信道模型的统计翻译方法是基于语料 库的翻译方法的一种,这种方法要求在大规模语料库中进行参数训练,因此这种 翻译方法面临许多问题,一方面是语料规模的问题,由于翻译模型不具备语言知 识,需要大规模的双语语料来获得翻译所需要的知识,当语料库规模不够大的时 候,就会存在数据稀疏现象,产生“未登录词 ;另一方面,即使语料库规模足够 大,也难以保证实际翻译过程中出现的词汇都已完全被训练语料所覆盖。所以对 现有的统计机器翻译系统进行完善和改进具有很强的现实意义和价值。本文在当 前统计机器翻译平台上展开了深入的研究,主要的工作与创新如下: 第1 章绪论 第一:在基于短语的统计机器翻译系统中应用双语词典。即根据对数线性模 型( l o g l i n e a r ) 的思想【5 0 】将双语词典作为统计机器翻译系统的一个特征融合在系 统中,利用双语词典对g i z a + + 双向训练所得的词语对齐结果进行优化,能够在双 语语料库有限的情况下提高词语对齐的准确度;而且可以利用双语词典优化翻译 结果,对未登录词进行处理,可在一定程度上解决数据稀疏问题。 第二:为了在双语对齐语料库规模有限的情况下,双语词典的应用能够改善 g i z a + + 词对齐的准确度。问题是双语词典的覆盖面是否够大来保证其关键作用的 发挥。针对这样一个问题本文利用同义词词林和知网来扩充汉英双语词 典,使双语词典的覆盖面更广,足以保证其关键作用的发挥。 第三:本文将双语词典应用在“法老 f 5 l 】统计机器翻译系统中,因为首先法 老系统是基于短语的统计机器翻译系统,基于短语的统计机器翻译方法是现在统 计机器翻译主流的方法。其次法老系统的训练过程的步骤明确,易于把有用的信 息加入其中。具体应用双语词典的模块是:首先用双语词典优化词对齐结果,其 次用双语词典对翻译结果进行优化。 1 5 本文结构 本文共分为四个章节,内容安排如下: 第一章绪论首先介绍了本文的选题背景,阐述了本课题的研究目的及意义, 对统计机器翻译和基于短语的统计机器翻译做了详细的阐述,并结合统计机器翻 译方法、双语词典、优化词对齐方法的发展现状,提出了优化统计机器翻译系统 性能的重要性。 第二章通过说明应用双语词典的目的阐述了扩展双语词典的必要性,接着给 出扩展双语词典中的汉语词条以及添加新扩展词条的英文翻译这两个过程的理论 依据和扩展算法。 第三章是本文的重点,主要阐述如何应用扩展之后的双语词典。这一章首先 给出应用双语词典的基线系统“法老 系统的整体模型,接着说明应用双语词典 的理论依据,对数线性模型思想。对于在法老系统中具体如何应用双语词典,本 黑龙江大学硕士学位论文 章做了重点说明,给出应用流程图、优化算法、以及整体性能分析,最后指出该 算法的不足之处,有待改进的方面。 第四章是系统的实现结果及性能分析。首先阐述了本章所用的机器自动翻译 方法b l e u 和n i s t 。然后通过比较两组实验结果,分析加入了双语词典的系统和 基线系统的实验数据,可以看出应用双语词典可以提高系统的整体性能。 最后结论部分总结了本文的主要工作及主要贡献。 第2 章双语词典的扩展 第2 章双语词典的扩展 本文应用双语词典的目的是,在避免使用大规模语料库的情况下,不仅改善 了g i z a 抖词对齐的质量,而且提高了基于g i z a + + 的统计信息的准确率。双语词典 的覆盖面越完整,越能保证双语词典的作用被更好的发挥。因此对双语词典进行 扩展十分必要。对双语词典进行扩展,已经有很多学者进行了深入的研究,例如 在基于w o r d n e t 和h o w n e t 建设双语语义词典一文中,作者利用英语义类词 典w o r d n e t 和汉语概念词典h o w n e t ,为双语机读词典e c d i c 2k 的英语词条添 加概念和语义类的自动方法,以改善手工添加语义类带来的低效率和不一致性等 问题,改造后的双语语义词典为单语语义分析中的成熟技术用于跨语言研究提供 了方便,这在机器翻译和跨语言检索等自然语言处理领域里具有很高的实用价值。 与他们的研究不同的是,本文研究建立在同义词词林和汉语概念词典知 网h o w n e t 的基础之上,扩充汉英双语词典c e d i c ,增加了双语词典中词条的数 量,从而使得双语词典的覆盖面更广。具体扩展方法见第2 1 和2 2 小节。 本文所用的双语词典是哈尔滨工业大学机器翻译研究室手工开发的汉英双语 词典c e d i c t 5 2 1 ,该词典用于规则机器翻译的译文选择和跨语言检索等研究。c e d i e 对每个英语词汇标有词性和译文,部分词条还含有自行定义的语义类。鉴于本文 只用到双语词典中的汉语词条和英文译文项,所以把词典做了修改,去掉词典中 词性和语义类,只留下汉语词条和英文译文项,这样可以减少程序运行时双语词 典所占的内存。 2 1 扩展双语词典中的汉语词条 2 1 1 理论依据 同义词词林是梅家驹等人吲于1 9 8 3 年编纂而成,初衷是希望提供较多的 同义词语,对创作和翻译工作有所帮助。但是我们发现,这本词典中不仅包括了 一个词语的同义词,也包含了一定数量的同类词,即广义的相关词,可以参考表 黑龙江大学硕士学位论文 2 1 【5 句中的词条示例。经此分析之后,我们认为它完全可以作为语义词典用到自然 语言处理任务中。同时,同义词词林与w o r d n e t 的格式有若干相似之处,即 都是用一个同义词集合来表示一个意思,所以在以后的工作中可以引入w o r d n e t 中的各种语义度量方法,在同义词词林中比较这些方法的优劣。 表2 - 1 词典结构示例 t a b l e 2 - 1t h ee x a m p l eo f d i c t i o n a r ys t r u c t u r e a e 0 7 农民牧民渔民 农民农夫农人农庄稼人庄稼汉田父泥腿子农家耕夫 老乡 小农个体农民 佃农佃户 上中农富裕中农 事幸菜农棉农茶农烟农蔗农花农药农林农 雇农贫农下中农中农上中农富农 自耕农半自耕农集体农民人民公社社员 2 1 2 扩展过程描述 本文所用的同义词词林是哈工大信息检索研究室同义词词林扩展版 【5 5 1 ,利用同义词词林扩展双语词典中的汉语词条。举例说明:“老人老老者 老汉老翁翁长老长者遗老耆老叟父老头儿老头子老年人老头老记 中老年人白发人年长者”是同义词词林中的一组词条。下面用简要的算法 描述扩展双语词典的方法。 算法描述如下: 输入:同义词词林中每一组词条,双语词典 输出:扩展完汉语词条的双语词典 步骤: 1 对于任何包含在同义词词林中但不在双语词典中的词语,把它添加到 双语词典中 第2 覃双语词典的扩展 2 添加的位置是:该词的第一个字所在的双语词典中位置的下面一行 3 如果在双语词典中无法找到该词的第一个字,那么就把这个词放在双语词 典的最后一行 4 对于那些被添加到双语词典中的新词,如果有同义词词林中的同义词, 则把它们集中在一项,作为一组新的词条 以“老人老老者老汉老翁翁长老长者遗老耆老叟父老头儿老头 予老年人老头老记中老年人白发人年长者 这组词条为例说明扩展过程。 扫描这组词条的中词语,结果只有“年长者 这个词没有出现在双语词典中,在 双语词典中查找到了“年 的位置,最后把“年长者 放在“年”的下面一行。 年y e a r ;a g e ;n e wy e a r ;n i a n ; 年长者 年报a n n u a lr e p o r t ; 年辈s e n i o r i t ya c c o r d i n gt oa g e ; 年表c h r o n o l o g i c a lt a b l e ; 年菜n e wy e a rd i s h ; 年产p r o d u c ea n n u a l l y ; 年产量a n n u a lo u t p u t ;a n n u a ly i e l d ;y e a r l yo u t p u t ; 2 2 添加新扩展词条的英文翻译 2 2 1 理论依据 知网( 英文名称为h o w n e t ) 是一个以汉语和英语的词语所代表的概念为描述 对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常 识知识库。 知网作为一个知识系统,名副其实是一个网而不是树。它所着力要反映的是 黑龙江大学硕士学位论文 概念的共性和个性,例如:对于“医生”和“患者”,“人”是它们的共性。知网在主要 特性文件中描述了“人”所具有的共性,那么“医生”的个性是他是“医治”的施事,而 “患者”的个性是他是“患病”的经验者。对于“富翁”和“穷人”,“美女”和“丑八怪”而 言,“人”是它们的共性。而它们的个性,即:“贫”、“富”与“美”、“丑”等不同的属 性值,是它们的个性。同时知网还着力要反映概念之间和概念的属性之间的各种 关系。 知识词典是知网系统的基础文件。在这个文件中每一个词语的概念及其描述 形成一个记录。每一种语言的每一个记录都主要包含4 项内容。其中每一项都由 两部分组成,中间以”分隔。每一个b ”的左侧是数据的域名,右侧是数据的值。 它们排列如下: wx = 词语 ex = 词语例子 gx = 词语词性 d e f = 概念定义 例如, ”打”的两个义项,一个义项是”b u y l 买”,另一个是”w e a v e l 辫编”,在知识词 典里形成两条记录。 n o = 0 0 0 0 0 1 wc = 打 g 刚 ec = 一酱油,张票,饭,去瓶酒,醋来了 w _ e - b u y g 剖 e 净 d e f = b u y l 买 n o = 0 15 4 9 2 wc = 打 第2 章双语词典的扩展 g c = v ec 毛衣,毛裤,双毛袜子,草鞋,一条围巾,麻绳,条辫子 w e = k n i t g 剐 e e = d e f = w e a v e l 辫编 其中wc 和we 分别是汉语词和英文词,在本文当中,只用到这两项内容。 2 2 2 扩充步骤描述 利用知网( h o w n e t ) 来补充新扩充的汉语词汇的英语译文。本文所用的知 网是哈尔滨工业大学提供的1 0 试用版。 算法描述如下: 输入:知网,双语词典 输出:添加完新扩展词条英文译文的双语词典 步骤: 1 在知网中查找新扩展的汉语词的译文 2 把找到的译文添加到该词的后面 3 如果找不到,继续查找下一个汉语词,返回第1 步 仍然以“年长者 为例说明添加过程,在h o w n e t 中查找“年长者”的英文译 文,将“年长者 的英文译文“a g e dp e o p l e ”添加到“年长者 后面,添加的结果 是: 年y e a r ;a g e ;n e wy e a r ;n i a n ; 年长者a g e dp e p p l e 年报a n n u a lr e p o r t ; 年辈s e n i o r i t ya c c o r d i n gt oa g e ; 年表c h r o n o l o g i c a lt a b l e ; 年菜n e w y e a r d i s h ; 。 1 7 黑龙江大学硕士学位论文 年产p r o d u c ea n n u a l l y ; 年产量a n n u a lo u t p u t ;a n n u a ly i e l d ;y e a r l yo u t p u t ; 2 3 本章小结 本章首先说明应用双语词典的目的,表明双语词典在改善系统性能方面发挥 了十分重要的作用,然后阐述了双语词典的规模会影响到其关键作用的发挥,进 而表明扩展双语词典的必要性。对于扩展双语词典的理论依据即知网和同义词词 林,本章也做了适当的阐述,最后给出了扩展双语词典的算法描述。 第3 章双语词典的应用 第3 章双语词典的应用 在以往的研究中,双语词典常被应用在基于规则的机器翻译方法中,例如扩 展的基于双语词典的词语对齐方法【5 6 1 。基于双语词典的汉英词语对齐算法研究【5 7 】 主要研究了扩大双语词典规模对对齐结果的改善情况,介绍了利用双语词典进行 词语对齐的方法。它在k e r 的算法基础上,改进了k e r 的相对位置偏移的计算 方法,加入了对齐锚点并改进了k e r 的贪婪算法。本文将汉英双语词典应用在 基于短语的“法老”统计机器翻译系统中。 3 1 “法老刀统计机器翻译系统 本文所用的基线系统是基于短语的法老统计机器翻译系统,基于短语的统计 机器翻译方法是现在统计机器翻译主流的方法。其次法老系统的训练过程步骤明 确,易于把有用的信息加入其中。鉴于对数线性模型使统计对齐模型易于扩展新 特征,本文把双语词典作为一项特征加入到“法老 统计机器翻译的词语对齐模 块。具体应用双语词典的模块是:首先用双语词典优化词对齐结果,其次用双语 词典对翻译结果进行优化; “法老”是最经典的开源的基于短语的统计机器翻译系统,最早是由菲利 普科恩( p h i l i p pk o e h n ) 在2 0 0 4 年做博士论文期间编写的。“法老”包括两个部 分:训练和解码。训练过程是把训练语料库中所有对齐的短语及其翻译概率存储 起来,作为一部带概率的短语词典,也称作短语翻译概率表。训练过程利用了已 有的开源软件g i z a + + 和s r i l m ,g i z a + + 用来训练词语对齐,s r i l m 训练语言 模型。解码过程是把输入的句子与短语翻译概率表进行匹配,选择最好的短语划 分,然后将得到的短语译文重新排序,得到最优的译文。但解码部分没有公开源 代码。“法老”原理简单,易于使用,它的出现对于推动机器翻译研究起到了非常 大的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论