




已阅读5页,还剩70页未读, 继续免费阅读
(模式识别与智能系统专业论文)基于混淆网络的机器翻译系统融合研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 近年来,系统融合成为机器翻译领域的一个研究热点。系统融合研究如何充 分利用各种不同机器翻译系统的优势来提高翻译的性能。目前系统融合方法可以 分为句子级别和词级别两大类。句子级别系统融合主要是基于最小贝叶斯风险解 码,词级别系统融合则是以混淆网络的形式融合。词级别的系统融合因为能够稳 定、显著地提高翻译性能,已成为系统融合的主要方法。 基于最小贝叶斯风险解码的句子级别系统融合需要对最小贝叶斯风险定义 损失函数。损失函数对句子级别系统融合有影响。词级别系统融合需要先对多个 机器翻译结果进行词对齐,再依据词对齐结果构建混淆网络,最终从混淆网络中 解码输出融合结果。词对齐质量和混淆网络的解码直接关系到词级别系统融合的 效果。 本文对目前句子级别和词级别的系统融合方法进行了较为详细的分析与总 结。针对句子级别系统融合中的损失函数问题,分别设计了三种基于不同机器翻 译评测标准的损失函数。针对词级别系统融合中词对齐没有考虑语言信息、词对 齐方式单一的问题,提出了融入语言信息、融合一致性词对齐结果的两种改进词 对齐质量的方法,以通过改善词对齐质量来提高词级别系统融合的效果;针对单 个混淆网络系统融合过分依赖参考句子、调序能力有限的问题,提出了多个混淆 网络的重评分和最小贝叶斯风险的解码方法,以通过多个混淆网络搜索到更好的 融合结果。本文的主要工作表现如下: 1 、句子级别和词级别系统融合的研究与实现 句子级别系统融合基于最小贝叶斯风险解码。为了对最小贝叶斯风险解码 的有效性进行全面测试,本文设计了基于b l e u 、t e r ( 翻译错误率) 和w e r ( 词错误率) 的三种损失函数。经典的词级别系统融合方法主要是基于t e r 对 齐、g i z a h 对齐。将多个翻译结果对齐后,词级别系统融合构建出混淆网络, 以对数模型融合了语言模型、词后验概率、词惩罚因子等多个特征,最终以柱搜 索算法从混淆网络中找到最佳融合结果。实验证明了句子级别系统融合可以比融 合的系统提高o 5 个b l e u ,词级别系统融合可以提高1 个b l e u 。 2 、改进词对齐质量的系统融合研究 词对齐是词级别系统融合中非常关键的一步。为改进词对齐质量,本文在词 对齐过程中融入语言信息、融合致性词对齐结果。本文主要在词对齐过程中采 用了词干和同义词两种信息;通过一致性对齐方法获得一致性词对齐结果,并将 一致性词对齐与g i z a - h 词对齐以并集、交集的方式进行融合。语言信息的加入 可以缓解词对齐中的数据稀疏问题,一致性词对齐的加入可以提高词对齐的准确 摘要 率。实验证明改进词对齐质量的系统融合可以比经典的词级别系统融合提高 0 1 o 5 个b l e u 。 3 、改进混淆网络解码方法的系统融合研究 改进混淆网络解码方法对多个混淆网络进行解码,是针对目前的混淆网络解 码方法过分依赖参考句子、调序能力有限的改进。本文提出以重评分和最小贝叶 斯风险解码两种方法对多个混淆网络进行一致性解码。实验证明改进混淆网络解 码方法的系统融合可以比没有改进的融合方法提高0 5 个左右的b l e u 。 关键词:机器翻译、系统融合、词对齐、最小贝叶斯风险、混淆网络、重评分 a b s t r a c t a b s t r a c t r e c e n t l y ,s y s t e mc o m b i n a t i o nh a sb e c o m eo n eo ft h er e s e a r c hh o t s p o t i n m a c h i n et r a n s l a t i o n s y s t e mc o m b i n a t i o ni sak i n do ft e c h n o l o g yt om a k eu s eo f d i f f e r e n tk i n d so fm a c h i n et r a n s l a t i o ns y s t e m st oi m p r o v et r a n s l a t i o nq u a l i t y t h e p r e s e n ts y s t e mc o m b i n a t i o nm e t h o d sc a nb ec a t e g o r i z e di n t ot w om a j o rt y p e s : s e n t e n c el e v e ls y s t e mc o m b i n a t i o na n dw o r dl e v e ls y s t e mc o m b i n a t i o n s e n t e n c e l e v e ls y s t e mc o m b i n a t i o ni sb a s e do nm i n i m u mb a y e s r i s kd e c o d i n ga n dw o r dl e v e l s y s t e mc o m b i n a t i o ni s a c h i e y e di nf o r mo fc o n f u s i o nn e t w o r k s o w i n gt ot h e a d v a n t a g eo fi m p r o v i n gt r a n s l a t i o nq u a l i t ys t a b l ya n dr e m a r k a b l y , w o r dl e v e ls y s t e m c o m b i n a t i o nh a sb e c o m et h ep o p u l a rm e t h o di ns y s t e mc o m b i n a t i o n s e n t e n c el e v e ls y s t e mc o m b i n a t i o nb a s e do nm i n i m u mb a y e s - r i s kd e c o d i n gn e e d s t od e f i n et h el o s sf u n c t i o nw h i c hc a na f f e c tt h ec o m b i n a t i o np e r f o r m a n c e a n dw o r d l e v e ls y s t e mc o m b i n a t i o nf i r s tn e e d st oa l i g nm a n yd i f f e r e n tm a c h i n et r a n s l a t i o n s y s t e m so u t p u t sa n dt h e nb u i l d sac o n f u s i o nn e t w o r kb a s e do no u t p u t s w o r d a l i g n m e n t a tl a s tt h eb e s tc o m b i n a t i o nr e s u l ti se x t r a c t e df r o mt h ec o n f u s i o nn e t w o r k w o r da l i g n m e n tq u a l i t ya n dc o n f u s i o nn e t w o r kd e c o d i n ga r ev i t a lt ow o r dl e v e l s y s t e mc o m b i n a t i o n sp e r f o f i n a n c e t h ec u r r e n ts e n t e n c ea n dw o r dl e v e ls y s t e mc o m b i n a t i o nm e t h o d sa r ea n a l y z e d a n ds u m m a r i z e dc o m p r e h e n s i v e l yi nt h i st h e s i s t h r e ed i f f e r e n tk i n d so fl o s s f u n c t i o n sb a s e do nm a c h i n et r a n s l a t i o ne v a l u a t i o na r ed e f i n e di ns e n t e n c el e v e l s y s t e mc o m b i n a t i o nt ot e s tt h e i re f f e c to nc o m b i n a t i o nr e s u a c o n s i d e r i n gt h ew o r d a l i g n m e n to fc u r r e n tw o r dl e v e ls y s t e mc o m b i n a t i o nm e t h o d sd on o tt a k el a n g u a g e i n f o r m a t i o ni n t oa c c o u n t ,n e wm e t h o d sw h i c ha i mt oi m p r o v et h ew o r da l i g n m e n t q u a l i t ya r ep r o p o s e d a n di no r d e rt os o l v et h ep r o b l e mo fo v e r - r e l i a n c eo nr e f e r e n c e s e n t e n c e sa n dw e a kr e o r d e r i n ga b i l i t yo fs y s t e mc o m b i n a t i o nb a s e do nas i n g l e c o n f u s i o nn e t w o r k ,m u l t i p l ec o n f u s i o nn e t w o r k sd e c o d i n gi sp r o p o s e d r e s c o r ea n d m i n i m u mb a y e s r i s k d e c o d i n gm e t h o d sa r e u s e dt od e c o d em u l t i p l ec o n f u s i o n n e t w o r k s t h em a i nc o n t r i b u t i o n so ft h i st h e s i sa r el i s t e db e l o w : 1 r e s e a r c ha n dr e a l i z a t i o no fs e n t e n c el e v e la n dw o r dl e v e ls y s t e mc o m b i n a t i o n s e n t e n c el e v e ls y s t e mc o m b i n a t i o ni sb a s e do nm i n i m u mb a y e s r i s kd e c o d i n g a n dal o s sf u n c t i o ni sn e e d e dt ob ed e f i n e di nt h i sm e t h o d t h r e ek i n d so fl o s s f u n c t i o n sb a s e do nb l e u ,t e r ( t r a n s l a t i o ne r r o rr a t e ) a n dw e r ( w o r de r r o rr a t e ) r e s p e c t i v e l ya r ed e f i n e dt ot e s tt h ee f f e c to fs e n t e n c e l e v e ls y s t e mc o m b i n a t i o n m a b s t r a c t c l a s s i c a lw o r dl e v e ls y s t e mc o m b i n a t i o nu s e st e ro rg i z a + + t oa l i g nd i f f e r e n t m a c h i r 屺t r a n s l a t i o n s ac o n f u s i o nn e t w o r ki sb u i l tu s i n gt h ew o r da l i g n m e n to f d i f f e r e n tm a c h i n et r a n s l a t i o n s l a n g u a g em o d e l ,w o r dp o s t e r i o rp r o b a b i l i t ya n dw o r d p e n a l t ya r ei n t e g r a t e di nl o g - l i n e a rm o d e li n t oc o n f u s i o nn e t w o r kd e c o d i n g t h ef i n a l c o m b i n a t i o nr e s u l ti se x t r a c t e db yt h eb e a ms e a r c ha l g o r i t h mi nt h ec o n f u s i o nn e t w o r k e x p e r i m e n tr e s u l t sp r o v et h a t0 5 b l e ui m p r o v e m e n to ft r a n s l a t i o nq u a l i t yc a nb e a c h i e v e db ys e n t e n c el e v e ls y s t e mc o m b i n a t i o na n d1 0b l e ui m p r o v e m e n to f t r a n s l a t i o nq u a l i t yc a nb ea c h i e v e db yw o r dl e v e ls y s t e mc o m b i n a t i o no v e rt h e c o m b i n e ds y s t e m s , 2 r e s e a r c ha n dr e a l i z a t i o no fi m p r o v e dw o r dl e v e ls y s t e mc o m b i n a t i o n a sw o r da l i g n m e n tq u a l i t yi sc r i t i c a lt ow o r dl e v e ls y s t e mc o m b i n a t i o n ,t w o m e t h o d sa r eu s e dt oi m p r o v ew o r da l i g n m e n tq u a l i t y o n em e t h o da d d sl a n g u a g e i n f o r m a t i o ni n t ow o r da l i g r m a e n ta n dt h eo t h e rm e t h o di n t e g r a t e so t h e rs o u r c go fw o r d a l i g n m e n ti n f o r m a t i o n s t e ma n ds y n o n y ma r et h et w ol a n g u a g ei n f o r m a t i o nu s e d t h eo t h e rs o u r c eo fa l i g n m e n ti n f o r m a t i o ni sg o tt h r o u g ht h ea l i g n m e n tb ya g r e e m e n t m e t h o da n dt h ea l i g n m e n tr e s u l t so fa l i g n m e n tb ya g r e e m e n ta n dg i z a + + a l e i n t e g r a t e db yi n t e r s e c t i o no ru n i o n l a n g u a g ei n f o r m a t i o nc a n r e l i e v et h ed a t as p a r s e p r o b l e mo fw o r da l i g n m e n ta n di n t e g r a t i n go t h e rs o u r c eo fa l i g n m e n ti n f o r m a t i o n c a n i m p r o v ew o r da l i g n m e n tp r e c i s i o n e x p e r i m e n tr e s u l t s c o n f i r mt h a tb e t t e rw o r d a l i g n m e n tq u a l i t yl e a d st o b e t t e rs y s t e mc o m b i n a t i o nr e s u l t t h ew o r da l i g n m e n t q u a l i t yi m p r o v e dm e t h o d s c a l lg e to 1 0 5b l e uh i g h e rt h a nt h em e t h o d sn o t i m p r o v e d 3 。r e s e a r c ho ni m p r o v e dc o n f u s i o nn e t w o r kd e c o d i n g i m p r o v e dc o n f u s i o nn e t w o r kd e c o d i n g ,u s i n gm u l t i p l ec o n f u s i o nn e t w o r k s ,i s u s e dt os o l v et h es h o r t c o m i n g so fs i n g l ec o n f u s i o nn e t w o r kd e c o d i n go fo v e r - r e l i a n c e o nr e f e r e n c es e n t e n c e sa n dl i m i t e dw o r dr e o r d e r i n ga b i l i t y r e s c o r i n ga n dm i n i m u m b a y e s r i s kd e c o d i n gm e t h o d sa r eu s e dt o e x t r a c tb e s tr e s u l ti ni m p r o v e dc o n f u s i o n n e t w o r kd e c o d i n g e x p e r i m e n t ss h o wt h a ti m p r o v e dc o n f u s i o nn e t w o r kd e c o d i n gc a n i m p r o v et r a n s l a t i o nq u a l i t yo fa b o u t0 5 b l e ut h a nt h em e t h o d sw h i c ha r en o t i m p r o v e d k e yw o r d s :m a c h i n et r a n s l a t i o n ,s y s t e mc o m b i n a t i o n ,w o r da l i g n m e n t ,m i n i m u m b a y e s - r i s kd e c o d i n g ,c o n f u s i o nn e t w o r k ,r e s e o r i n g i v 中国科学技术大学学位论文原创性声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成 果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写 过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确 的说明。 作者签名:虫i 鱼 中国科学技术大学学位论文授权使用声明 作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥 有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交 论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人 提交的电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 日公开口保密( 年) 作者签名:毖主亟导师签名: 签字日期:2 1 丝: 第一章绪论 1 1 引言 第一章绪论 机器翻译通过机器自动将一种语言翻译为另外一种语言。机器翻译研究历史 悠久。早在1 9 4 9 年,w w e a v e r 在一份题为翻译的备忘录中正式提出以统 计方法进行机器翻译的想法【。自此机器翻译技术不断发展、进步。 机器翻译发展至今,已出现了多种基于不同原理的机器翻译系统。总体可以 将机器翻译系统从方法上大致分为二类:基于规则的机器翻译和基于统计的机器 翻译。不同的机器翻译系统各有所长:基于规则的机器翻译系统擅长于翻译符合 规则的句子,翻译的质量较高;基于统计的机器翻译系统具有通用性,自动从语 料库中学习语言知识。于是人们开始考虑能否对不同机器翻译系统的结果进行融 合,实现各取所长、优势互补以提高机器翻译质量。由此开始了对机器翻译系统 融合的研究。 机器翻译系统融合通过某种方式将多个不同机器翻译系统的结果融合,利用 不同系统的优势来提高机器翻译性能。因为充分利用了现有的多种机器翻译系统 并可以较为显著地提高翻译的效果,机器翻译系统融合已成为机器翻译领域的研 究热点之一。 1 2 机器翻译综述 机器翻译方法主要分为基于规则的方法和基于统计的方法两大类。基于规则 的机器翻译方法是机器翻译领域最初提出的研究方法。这种方法可以很好地处理 符合规则的句子翻译,但翻译质量受限于规则的数量。因为规则的建立由语言学 家来完成,不可能建立包含所有语言现象的规则库,所以基于规则的方法存在着 成本较高、不能适应于其它语言的缺点。基于统计的机器翻译方法是2 0 世纪9 0 年代兴起的一种方法。基于统计的方法自动从语料库中学习语言知识,再利用这 些知识对语言进行翻译。这种方法不需要人工编写规则并且对所有语言都适用, 但其翻译质量依赖于语料库的大小。当前机器翻译主要集中在基于统计的方法。 1 2 1 基于规则的机器翻译 基于规则的机器翻译系统从体系结构上可以分为:直接翻译系统、转换翻译 第一章绪论 系统和基于中间语言的翻译系统。 直接翻译系统基本上是根据源语言与目标语言间的词汇单元的对应关系进 行翻译,因此这种系统带有针对性过强的弊病。有些直接翻译系统也考虑目标语 言的一些句法特性和词序规律,添加一些规则来改善目标语言译文的可读性。 转换翻译系统中,源语言的分析独立于目标语言,源语言的分析一般只在句 法平面上进行。转换时需要一部双语对应词典,用目标语言单元替换源语言单元 时考虑上下文。同时转换时还要考虑到源语言与目标语言的结构差别,进行结构 转换。与直接翻译系统不同,转换翻译系统的建造需要进行双语对比,构造复杂 的映射规则。目前国际上比较好的基于规则的机器翻译系统大部分都是基于转换 的翻译系统,如德国西门子的m e t a l 系统、美国的s y s t r a n 系统及中国中软 公司的h y - 1 汉英系统等。 基于中间语的翻译系统:源语言与目标语言不直接接触。把源语言的文本用 人工设计的无歧义的中间语( i n t e r l i n g u a ) 来表示,然后再把中间语言所表达的 意义用目标语言的词汇和句法结构表示出来。中间语言系统不需要转换规则,因 为中间语表达式对源语言和目标语言都是一样的。但中间语言的设计非常困难, 即使设计出来其管理也很困难。 基于规则的机器翻译的优点在于:规则可以很准确地描述出一种语言的语法 构成并直观地表示出来。机器可以依照规则理解它所面对的自然语言。基于规则 的机器翻译系统的核心问题是构造完备的、适应性强的规则系统。但是规则库需 要人工来建立,规则的完备性也得不到保证,规则库很难覆盖所有的语言现象。 随着规则数量的增中,规则间的冲突难以避免。因此如何自动地获取语言规则、 如何更好地表示规则以及如何增强系统的适应性成为规则机器翻译的研究焦点。 1 2 2 基于统计的机器翻译 w e a v e r 在提出机器翻译问题的同时,提出了类似于基于信源信道模型的统计 机器翻译方法。基于统计的机器翻译方法可以看作一种基于语料库、数据驱动、 使用机器学习的方法。该方法需要大规模的语料并进行大量的计算。在机器翻译 发展的早期历程中,由于缺乏高性能的计算机和大规模的语料库,基于统计的机 器翻译方法还未成熟。2 0 世纪9 0 年代初期,计算机的运算速度与存储容量有了 大幅度的提高,同时也有大量的语料可供统计使用。i b m 的b r o w n 等人【2 l 此时 提出了基于信源信道的统计机器翻译模型,并在实验中取得了初步成功。由此引 起了统计机器的研究热潮。 在统计机器翻译中,将源语言句子j = 石正f j 翻译为目标语言句子 e := e l e 2 。七,( 其中f 表示源语言中的一个词,乞表示目标语言中的一个词) 看作 2 第一章绪论 是这样一个问题:在给定源语言句子衅的条件下求目标语言句子封,使得条件概 率p r ( 彳i ) 最大。即: = a r g m a xp r ( e )( 1 1 ) 右 统计机器翻译中翻译概率p r ( e 彳,) 是未知的,无法直接计算出来。因为不 可能枚举出所有的源语言和目标语言句子对。一般只能对p r ( 彳i ) 进行估计, 使用可以计算出来的概率对翻译概率进行估计。统计机器翻译的解码就是求解使 翻译概率最大的目标语言彳= a r g m a x p r ( e f ) 。不同统计机器翻译模型的区别 在于对翻译概率的估计不一样。目前可以将统计机器翻译模型分为基于词、短语 和句法的三种模型。 l 、基于词的机器翻译模型 图1 1 噪声信道模型 b r o w n 等将翻译视为一个噪声信道模型,如图1 1 所示。目标语言e 经过噪 声信道后发生变形,在信道另一端呈现为源语言厂。翻译问题即为根据观察到的 源语言将其恢复为最可能的目标语言e 的问题。 由贝叶斯公式,翻译概率p r ( 0l 彳,) 可以表示为: 嘲肋= 掣 ( 1 - 2 ) 于是: 爿= a r g m a x 。p r ( e if , ,) = 鹏m 觚爿p r ( e ( 品) p 7 r ( f f j e ) ( 1 3 ) 9 爿 p r ( ) u 叫 = a r g m a x 。p r ( e ) p r ( f ,l0 ) 式( 1 3 ) 中,p r ( 0 ) 称为语言模型,p r ( f ,lp j ) 称为翻译模型。语言模型在语 言识别领域进行过充分的研究。针对翻译模型,b r o w n 提出了5 个翻译模型,通 常称之为i b m 模型。因为i b m 翻译模型是基于词的,也称之为基于词的翻译模 型。 基于词的翻译模型是一种简单的翻译模型。该模型存在着不考虑上下文信 息、调序能力差的缺点。 第一章绪论 2 、基于短语的机器翻译模型 基于短语的机器翻译模型以短语为基本翻译单元。此处的短语是一中泛化的 概念,指的是一起连续的词串,与语言学上的短语有所区别。由于以短语为基本 翻译单位,基于短语的机器翻译模型能局部考虑上下文关系并具有一定的调序能 力。与基于词的机器翻译模型相比,这种模型的性能有了较大的提升。 基于短语的机器翻译模型最早起源子o c h ( 1 9 9 9 ) 1 3 】提出的对齐模板。这个 对齐模板用词类来替代短语中的词以提高模型的泛化能力。基于对齐模板的模型 不再将词语对齐作为隐含变量。由于模型本身无法对双语语料进行词对齐,所以 必须使用经过词对齐的双语语料。同时o c h 改进了模型的参数估计方法,用基 于相对频度的最大似然估计方法替代了复杂的e m 估计方法,降低了模型的复杂 度。 2 0 0 2 年o c h 将对数线性模型1 4 j 引入到统计机器翻译。这是对短语机器翻译 的一个重大改进,导致了短语机器翻译走向成熟。对数线性模型直接对翻译模型 进行建模,可以非常方便地将多种语言信息源当作特征融入到模型中。为了对多 个特征间的权重进行自动调整,o c h 提出了基于最小错误率的调参方法。对数线 性模型是对信源信道模型的泛化,对统计机器翻译影响重大。现在所有的短语机 器翻译系都是采用对数线性模型框架。 k o e h n 在o c h 的基础上提出了词汇化权重【5 】,丰富了短语机器翻译模型的参 数估计方式,提高了短语机器翻译系统的性能。k o e h n 开发的p h a r a o h 短语机器 翻译系统对统计机器翻译的发展起了很大的推动作用。随后k o e h n 在p h a r a o h 的 基础上开发了m o s e s l 6 1 。与p h a r a o h 相比m o s e s 最大的特色是使用了f a c t o r e d 翻 译模型1 7 1 ,可以非常方便地将语言的形态信息作为f a c t o r $ 1 e l 入到机器翻译模型中, 提高机器翻译的性能。m o s e s 是当前最为出名的开源短语机器翻译系统。 基于短语的机器翻译模型作为当前统计机器翻译中最为成熟的模型,应用非 常广泛,但依然存在缺点。基于短语的机器翻译模型采用类似i b m 模型的方法, 以短语在句子中的位置作为特征进行调序。基于距离的调序方法过于简单,无法 处理翻译中的长距离调序问题,效果不尽人意。同时,基于短语的翻译中对短语 有严格的限制,源语言端和目标语言端的短语必须连续,由此限制了短语翻译的 作用范围。 3 、基于句法的机器翻译模型 针对短语机器翻译无法处理长距离调序的缺陷,一些研究者开始引入源语言 端或目标语言端或同时两端的句法信息来解决这些问题。这就是基于句法的机器 翻译。按c h i a n g ( 2 0 0 5 ) 【8 】的分类方法,可以将基于句法的统计翻译模型分为两 类:形式上基于句法的统计翻译模型和语言学上基于句法的统计翻译模型。形式 4 第一章绪论 化基于句法的方法借用了形式化语法的结构,并没有利用语言学知识【8 】【9 】;语言 学上基于句法的方法利用句法分析器生成符合语言学理论的句法结构,并在机器 翻译中利用这种句法结构。语言学上基于句法的统计机器翻译模型可以分为三 类:一种是在源语言端进行句法分析,目标语言端不进行句法分析,这种模型称 为树到串模型1o 】【1 1 】【1 2 】;另一种是在目标语言端进行句法分析,在源语言端不进 行句法分析,这种模型称为串到树模型1 3 】【1 4 】【1 5 1 ;再有一种在源语言端和目标语 言端都进行句法分析,这类模型称为树到树模型【1 6 】【1 7 】。基于句法的机器翻译模 型利用句法信息进行长距离调序,具有很好的泛化能力。在近几年国际上组织的 机器翻译评测上,基于句法的机器翻译系统性能已经接近或者超过了基于短语的 机器翻译系统。 1 ) 、形式上基于句法的统计翻译模型 形式上基于句法的统计翻译模型以形式化语法为基础,使用不包含任何语言 学知语的形式化语法,如:同步上下文无关文法s c f g ( s y n c h r o n o u sc o n t e x t - f r e e g r a m m a r ) 。借助于形式化语法,与基于短语的翻译模型相比,该模型在一定程 度上可以处理长距离调序问题。c h i a n g ( 2 0 0 5 ) i s j 的层次短语翻译模型和x i o n g ( 2 0 0 8 ) 1 1 8 j 基于最大熵的b t g 模型都显著超越了基于短语的翻译模型。 吴德恺( 1 9 9 7 ) 【9 】提出了反向转录语法i t g ( i n v e r s i o nt r a n s d u c t i o ng r a m m a r ) , 将翻译过程作为同步语法对源语言和目标言句子进行双语句法分析。i t g 是第一 个引入到统计机器翻译的同步语法。但吴德恺的模型仅引入了顺序和逆序两个调 序规则,模型比较简单,调序能力有限。 c h i a n g ( 2 0 0 5 ) i s 】提出了层次短语翻译模型。这是对统计机器具有较大影响 的一个翻译模型。c h i a n g 的这篇论文也被评为a c l 2 0 0 5 的最佳论文。层次短语 翻译模型实际上是同步上下文无关语法。这个模型自动从双语语料中抽取包含了 调序信息的层次短语,通过引入非终结符提高层次短语的泛化能力。层次短语可 以兼容所有的短语。因此层次短语翻译模型可以解决短语翻译模型的长距离调问 题。c h i a n g 的层次短语翻译系统h i e r o 在2 0 0 5 年和2 0 0 6 年的n i s t 评测中都取 得了很好的成绩,超过了许多基于短语的翻译系统,成为目前最好的基于句法的 系统之一。 x i o n g 1 8 】提出了基于最大熵的括号转录语法模型m e b t g ( m a x i m u me n t r o p y b a s e db r a c k e t i n gt r a n s d u c t i o ng r a n :l i l l a r ) 。该模型是对b t g 的改进。b t g 简单地 将顺序、逆序规则赋予一个先验概率,m e b t g 则将预测相邻语块的顺序或逆序 问题作为一个最大熵分类问题。m e b t g 采用c k y 算法进行解码。实验证明该 模型优于基于短语的机器翻译系统。 2 ) 、语言学上基于句法的模型 5 第一章绪论 语言学上基于句法的模型主要利用了丰富的语言学知识,如句法分析树。该 模型自动从双语对齐的语料库及源或目标语言学知识中学习到翻译规则。这与不 使用任何语言学语法信息的形式上基于句法的模型不同。 y a m a d a ( 2 0 0 1 ) 1 3 】提出了第一个基于句法的串到树模型。该模型以噪声信 道模型对翻译过程进行建模。目标语言树经过噪声通道变成源语言串,翻译过程 就是如何将源语言串恢复成一棵目标语言句法树。 d i n g ( 2 0 0 5 ) 【1 6 j 提出了基于概率化同步依存插入语法p s d i g ( p r o b a b i l i s t i e s y n c h r o n o u sd e p e n d e n c yi n s e r t i o ng r a m m a r ) 。这是一个树到树的模型。该模型自 动从双语对齐依存树中抽取p s d i g 语法,解码时将源语言依存树转化为目标语 言依存树。 q u i r k ( 2 0 0 5 ) 【1 0 】提出了基于依存树到树的翻译模型。该模型只对源语言句 子进行句法分析,通过映射得到目标语言句子的依存树。解码时,通过将源语言 树转换成目标语言依存树,最终输出目标语言翻译串。 g a l l e y ( 2 0 0 4 ) ( 1 4 】形式化串到树规则抽取算法g h k m 。该算法从源语言串、 目标语言树对齐三元组中自动抽取最小规则。m a r c u ( 2 0 0 6 ) 【”】将对数线性模型 引入到串到树模型中,可以方便加入丰富的特征。这使得串到树模型有了很大的 提升。 刘洋( 2 0 0 6 ) 】提出了基于树到串的模型。该模型的翻译规则直接从源语言 句法树与目标语言串之问的对齐中自动抽取,与g a l l e y 的串到树规则正好相反。 米海涛( 2 0 0 8 ) 【1 9 1 【2 0 】提出了基于句法森林的模型。该模型使用句法森林代替 转统基于树的模型使用的1 - b e s t 句法分析树【2 ,很好地缓解了句法分析错误对翻 译规则集合质量以及最终翻译质量的影响。 统计机器翻译经历了由词到短语,再到句法机器翻译的历程。基于词的统计 机器翻译效果较差,基于短语的统计机器翻译是一种非常成熟的方法,基于句法 的统计机器翻译正在不断发展、完善。基于句法的统计机器翻译效果比基于短语 的好,是未来机器翻译的发展方向。 1 3 机器翻译系统融合综述 随着基于不同原理的机器翻译系统的增多,人们开始考虑能否利用多种系 统的优势提高机器翻译的性能。于是开始了对机器翻译系统融合的研究。机器翻 译系统融合( 以下简称系统融合) 研究如何将多个机器翻译系统的结果以某种形 式进行融合,进而提高机器翻译的性能。系统融合能较为显著地提高机器翻译性 能,近几年国际上的w m t 2 2 - i 、n i s t l 2 3 】和国内的机器翻译评测( c w v l t ) 1 2 4 1 都 将系统融合作为一个评测项目。系统融合已成为机器翻译领域的重要研究方向之 6 第一章绪论 o 系统融合的思想始于语音识别领域,最初出现在对语音识别系统进行融合的 r o v e r t 2 5 】中。r o v e r 将多个语音识别系统的输出通过对齐组成一个最小损失 的词转移网络( w t n ) ,再使用最小投票策略从w t n 中选择最佳输出。 b a n g a l o r e ( 2 0 0 1 ) 2 6 】研究了对多个机器翻译系统的结果进行融合的问题,、 提出先将多个翻译结果进行对齐组成词网格,再从中计算出融合结果的方法。 k u m a r ( 2 0 0 4 ) 【2 7 】等人在统计机器翻译中提出最小贝叶风险( m i n i m u m b a y e s r i s k ,m b r ) 解码。这种统计方法通过最小化翻译错误率来选择翻译输出。 m b r 方法随后被普遍用在词级别系统融合的参考句子选择上。 h e w a v i t h a r a n a ( 2 0 0 5 ) 1 2 s 等人在卡耐基梅隆大学于i w s l t 2 0 0 5 上提交的机 器翻译系统报告上,提出使用语言模型和其他特征的r o v e r 对机器翻译系统的 n b e s t 结果进行后处理,以提高机器翻译的性能。这种方法可以看作是系统融合 的思想在单个机器翻译系统上的应用。 m a t u s o v ( 2 0 0 6 ) 1 2 9 1 等人采用g i z a _ h 【3 0 1 对多个机器翻译结果进行相互对齐, 根据对齐结果构建多个混淆网络。系统融合结果从多个混淆网络中采用投票策略 解码输出。但m a t u s o v 的方法需要手动设置各个系统的参数,无法进行自动调参。 s i m ( 2 0 0 7 ) 3 1 】等人提出以混淆网络的形式对多个机器翻译系统的输出进行 融合。为获取混淆网络,先使用m b r 从多个翻译结果中选择对齐参考,再利用 t e r 将多个翻译结果与参考进行对齐。系统融合的结果从混淆网络中采用投票 策略计算出来。 r o s t i ( 2 0 0 7 ) 3 2 l 等人提出了句子、短语、词级别三个层面的系统融合并进 行了比较,发现词级别的系统融合效果比其它两个层面好且更加稳定。基于混淆 网络的系统融合都属于词级别的。r o s t i 在词级别的系统融合中采用p o w e l l 调参 法对参数进行了自动调整。系统融合开始成熟。 r o s t i ( 2 0 0 8 ) 3 3 】等人提出增量t e r 对齐方法将多个翻译结果进行对齐,以 提高系统融合性能。与基于t e r 的对齐方法相比,增量t e r 的对齐参考不再是 一条句子而是混淆网络。因此这种方法可以减少对齐错误进而提高系统融合性 能。 何晓东( 2 0 0 8 ) t 3 4 l 等在混淆网络系统融合中提出了间接马尔科夫模型 ( i h m m ) 对齐方法来对翻译结果进行对齐。i h m m 方法可以处理好同义词对齐 与词间调序的问题,因而可以获得高质量对齐结果。实验证明基于i h m m 的系 统融合效果比基于t e r 的系统融合效果要好。 c h i h ol i ( 2 0 0 9 ) 3 5 l 在何晓东的基础上提出了增量马尔科夫对齐方法。与 增量t e r 对方法类似,这种方法能减少i h m m 方法的对齐错误。所以基于增量 7 第一章绪论 马尔科夫对齐方法的系统融合效果比基于i h m m 的好。 由系统融合的发展历程,词级别的系统融合因为可以稳定、显著地提高机器 翻译性能,已成为这一领域的主流方法。对系统融合的改进也主要集中在词级别 上。 1 4 本文的研究内容与意义 由于词级别的系统融合可以稳定地提高机器翻译性能,当前系统融合的研究 都集中在这一层面。词级别系统融合中关键的部分就是对多个机器翻译系统的结 果进行对齐、调序以构建高质量的混淆网络,以及从混淆网络中解码输出融合结 果。本文在现有的系统融合方法基础上,从两个方面改进词级别系统融合:通过 引入语言信息、融合一致性对齐结果的方法来改进词对齐质量,进而改进混淆网 络的质量;
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 出纳资金安全培训课件
- 十八项核心制度试题及答案
- 出差公司安全培训记录课件
- 出国安全培训心得课件
- 电动汽产业链整合-洞察及研究
- 2025房屋租赁(出租)合同书(标准版本):租赁双方的权利与义务
- 2025农副产品购销合同 标准版模板大全
- 2025建筑扣件出租协议(合同版本)
- 2025年:从“京派、海派”之争审视民间委托合同的效力
- 2025物流服务委托合同模板
- 古诗词诵读《无衣》课件+2024-2025学年统编版高中语文选择性必修上册
- 实验室程序文件
- 北师大版数学三年级上册全册教案【完整版】
- 地锚抗拔力计算
- 智慧工厂F5G全光网应用技术白皮书
- 教科版四年级科学上册全册教学设计(表格式)
- 动静脉内瘘的物理学检查
- 中国食物成分表2018年(标准版)第6版
- 吊车吊装方案计算书
- 四川大学进修生基本情况登记表
- 热控专业培训课件
评论
0/150
提交评论