(计算机科学与技术专业论文)基于统计的汉英机器翻译技术的研究.pdf_第1页
(计算机科学与技术专业论文)基于统计的汉英机器翻译技术的研究.pdf_第2页
(计算机科学与技术专业论文)基于统计的汉英机器翻译技术的研究.pdf_第3页
(计算机科学与技术专业论文)基于统计的汉英机器翻译技术的研究.pdf_第4页
(计算机科学与技术专业论文)基于统计的汉英机器翻译技术的研究.pdf_第5页
已阅读5页,还剩82页未读 继续免费阅读

(计算机科学与技术专业论文)基于统计的汉英机器翻译技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国防科学技术大学研究生院工学硕士学位论文 摘要 随着i n t e r n e t 的迅速普及,机器翻译显示了日益广阔的应用前景。当前统计机 器翻译的研究主要针对英语、法语、德语或其他西方语言之间的翻译,本文研究 了统计机器翻译原理和技术,并在此基础上构建了一个基于统计的汉英机器翻译 系统原型。 我们的工作主要包括两部分:1 、研究了基于单词对齐模型的汉英统计机器翻 译,这部分的研究采用了基于信源信道模型的统计机器翻译方法,该方法是当前 统计机器翻译研究中应用最广的方法。2 ,基于短语对齐模型的汉英统计机器翻译 研究,这部分以第一部分工作为基础。 在基于单词对齐模型的汉英机器翻译研究中,我们采用了i b m 对齐模型。已 有的研究表明,i b m 的五个模型中,模型4 的对齐效果最好,所以我们的研究以 i b m 模型4 为基础。主要工作包括:构建汉英翻译模型、构建英语语言模型、实 现解码器。具体如下: 1 ) 构建汉英翻译模型。在构建翻译模型时引入了词性信息,实验显示,引入 词性信息后,提高了单词对齐的质量,参数更准确,在改进后的模型上进 行搜索得到的译文质量更优。 2 ) 实现了a 和b e a m 搜索算法。对a 搜索算法和b e a m 算法的实验数据进 行了对比,结果显示a + 搜索算法在汉英统计机器翻译中表现更好。 3 ) 对胁搜索算法进行改进。a 搜索算法只扩展分值最优的结点,而汉语和 英语是差别非常大的语言,在汉英机器翻译中,仅扩展最优结点会导致错 误的方向,漏掉质量更好的译文。因此我们对算法进行了改进,引入了宽 度搜索,为选择扩展结点制定了启发策略。实验结果显示,改进后的算法 生成译文的质量有了较明显提高。 4 ) 在汉英统计机器翻译中,空单词对某些翻译的影响是非常大的。所以针对 汉英翻译,对有关空单词的翻译模型进行了修改,通过实验显示,这种改 进缓解了空单词对汉荚翻译的不利影响。 5 ) 此外,我们通过实验对影响翻译的一些参数进行了分析,这些参数包括为 汉语词选择候选英语单词的范围、a 搜索算法中假设队列的长度等,并 通过实验对这些参数进行了设置。 因为单词对齐模型没有考虑上下文的意义,其缺陷很明显,所以当前基于短 语对齐模型的统计机器翻译成了研究的热点。我们在前面工作的基础上,进行了 基于短语对齐模型的汉英统计机器翻译的研究,主要有以下工作: 1 ) 设计了将基于i b m 模型训练得到的v i t e r b i 对齐与使用集中切分和短语对 齐算法( i s a ) 相结合的方法进行单词对齐,实验表明该方法进一步提高了 训练语料单词对齐的正确率 2 ) 我们在使用i s a 算法时,通过实验为单点互信息( m i ) 设定了计算公式,并 根据实验效果设置了m i 的阀值 3 ) 设计了使用词性信息构建对齐模板的方法。 4 ) 通过提高单词对齐的正确率,我们从训练语料中抽取了大量的短语实例, 这使得在翻译过程中可以使用基于翻译记忆的方法。 第l 页 国防科学技术大学研究生院工学硕士学位论文 5 ) 我们从训练语料中抽取了模板,翻译时先匹配模板,然后我们以i b m 模型 4 为基础评估译文的质量,衡量译文的优劣,选出最优的译文。 6 ) 通过实验表明:由于抽取的短语实例质量较高,所以引入了翻译记忆的方 法,提高了短语的翻译质量;并且通过采用对齐模板考虑了上下文的语义, 在一定程度上克服了单词对齐模型在这方面的缺陷,提高了翻译的效率和 正确率。 关键词:统计机器翻译汉英机器翻译翻译模型词性标注对齐模型语言模型 解码器搜索算法斛搜索算法动态规划法b e a m 搜索算法短语对齐模型i s am i 对齐模板翻译记忆 第1 i 页 国防科学技术大学研究生院工学硕士学位论文 a b s t r a c t i nt h el a s td e c a d e t 1 1 es t a t i s t i c a la p p r o a c hh a sf o u n dw i d e s p r e a du s ei nm a c h i n e t r a n s l a t i o nb o t hf o rw r i t t e na n ds p o k e nl a n g u a g ea n dh a sh a dam a j o ri m p a c to nt h e t r a n s l a t i o na c c u r a c y w eh a v es t u d i e dt h ep r i n c i p l e so f s t a t i s t i c a lm a c h i n et r a n s i t i o na n dt h e t e c h n o l o g ym a d es of a r , t h e nw ed e s i g n e da n di m p l e m e n t e dap r o t o t y p es y s t e mo f s t a t i s t i c a l b a s e dc h i n e s e e n g l i s hs t a t i s t i c a lt r a n s l a t i o n o u rw o r k si n c l u d e dt w op a r t s :o n ei st h er e s e a r c ho nt h es t a t i s t i c a lm a c h i n e t r a n s l a t i o nb a s e do nt h ew o r da l i g n m e n tm o d e l t h eo t h e ri st h er e s e a r c hb a s e do nt h e p h r a s ea l i g n m e n tm o d e l o l i t f i r s tw o r ki sb a s e do nt h es o u r c e - c h a u n e lm o d e lw h i c hi sm o s tw i d e l yu s e d a b o u ts t a t i s t i c a l b a s e dm a c h i n et r a n s l a t i o n t h e r ea r ef i v ei b mm o d e i s i th a sb e e n c o n f i r m e dt h a ti b mm o d e l4p r o d u c e sab e t t e ra l i g n m e n tq u a l i t yi nc o m p a r i s o nw i t h o t h e ri b ma l i g n m e n tm o d e l s s ow ed e v e l o p e dap r o t o t y p es y s t e mo fc h i n e s e e n g l i s h m a c h i n et r a n s l a t i o nb a s e do ni b mm o d e l4 ,w h i c hi n c l u d e st h ef 0 1 l o 嘶n gw o r k s : c o n s t r u c t i n g t h es t a t i s t i c a lt r a n s l a t i o nm o d e l b u i l d i n gt h e l a n g u a g em o d e l , a n d i m p l e m e n t i n gad e c o d e rt of i n dt h eb e s tt r a n s l a t i o n s t h e r ea r et h ef o l l o w i n gw o r k s : 1 1 岫e l lc o n s t r u c t i n gt h ec h i n e s e e n g l i s hs t a t i s t i c a lt r a n s l a t i o nm o d e l ,w e i n t e g r a t e dt h ep o s - t a gi n f o r m a t i o na n dh a v et e s t e dt h a tt h ei m p r o v e dm o d e lh a s ab e t t e ra l i g n m e n tq u a l i t ya n db e t t e rt r a n s l a t i o n st h a nt h em o d e lw i t h m o n o l i n g u a lw o r dc l u s t e r i n g 2 1o n eo f t h em o s ti m p o r t a n tt a s k si st oc o n s t r u c tad e c o d e r w eh a v es t u d i e dn l e e x i s t i n gs e a r c ha l g o r i t h m ss u c ha ss t a c ks c a r e hb e a ms c a r e l l g r e e d ys e a r c h a n da + s e a r c ha l g o r i t h mi nt h es t a t i s t i c a lm a c h i n et r a n s l a t i o n b yc o m p a r i s o n w ea d o p t e dt h ed p - b a s e db e a ms e a r c ha n da + s e a r c ha l g o r i t h m w eh a v e t e s t e dt h ea + s e a r c ha n db e a ms e a r c hi nc h i n e s e e n g l i s hm a c h i n et r a n s l a t i o n a n df o u n dt h a tt h ea + s e a r c ha l g o r i t h mp l a y sb e t t e r 3 1a + s e a r c ho n l ye x t e n d st h eb e s tn o d e 。w h i c hm a yl e a dt oav e r yw r o n g d i r e c t i o ni nt h ec h i n e s e e n g l i s ht r a n s l a t i o n , b e c a u s et h ed i s t i n c t i o n sb e t w e e n e n g l i s ha n dc h i n e s ea r ev e r yg r e a t s ow ei n t r o d u c e dt h ep a r t i a lb r e a d t h s e a r c ht oe n l a r g et h es e a r c hs c o p ca sw e l la sm a d et h eh e u r i s t i cs t r a t e g yf o rt h e s e l e c t i o no ft h ea d d e dn o d e s t h ee x p e r i m e n t a lr e s u l ts h o w st h a to u rm e t h o d c a l la c h i e v eab e t t e rq u a l i t ya n d e f f i c i e n c y 4 1i nc h i n e s e - e n g l i s hm a c h i n et r a n s l a t i o n , w eh a dt oc o n c e m i n gt h eb a di m p a c t s o ft h ee m p t yw o r d b e c a u s et h ee x i s t i n gf o r m u l ao ft h ec o m p u t i n gt h ee m p t y w o r di sn o ta d a p t a b l et oc h i n e s e e n g l i s hm a c h i n et r a n s l a t i o n , w eh a dt or e v i s e i t m o r e o v e r , w es e tt h ep a r a m e t e r sa f f e c t i n gt h et r a n s l a t i o n sb ye x p e r i m e n t s o u rs e c o n dw o r ki sb a s e do nt h ef i r s tw o r k b e c a u s et l l ew o r da l i g n m e n tm o d e l d o e sn o tt a k ei n t oa c c o u n tt h ec o n t e x ti nw h i c hb o t ht h es o u r c ea n dt h et a r g e tw o r d s a p p e a r a n di th a sm a n yd e f i c i e n c i e s ;m o s tr e s e a r c ho nt h es t a f f s t i c a lm a c h i n e t r a n s l a t i o ni sn o wt u r n i n gt ot h er e s e a r c ho f t h ep h r a s e - b a s e da l i g n m e n tm o d e l ,ch a v e d o n et h ef o l l o w i n gw o r k s : nw ec o m b i n e dt h ev i t e r b ia l i g r u n e n tt h r o u g ht r a i n i n gb a s e do nt h ei b mm o d e m w i t ht h ea l i g n m e n tt h r o u g hi s aa l g o r i t h m ;w eh a v ea c h i e v e dah i g h e ra c c u r a c y r a t ef o rt h ew o r da l i g n m e n to f t h e t r a i n i n gc o r p u sa r e rt h et e s t 2 ) w h e ni n t e g r a t i n gi s a 。w es e tt h ef o r m u l at oc o m p u t et h em i ( p o i n t - w i s em u t u a l i n f o r m a t i o n ) a sw e l la st h et h r e s h o l 正 第1 i i 页 国防科学技术大学研究生院工学硕士学位论文 3 1 。、p r e s e n tt oc o n s t r u c tt h ea l i g n m e n tt e m p l a t eu s i n gp o st a gi n f o r m a t i o ns oa s t ot a k ei n t oa c c o u n tt h ew o r dc o n t e x t , f o rt h ew o r da u g n m e n tm o d e l i c h o r e st h e w o r dc o n t e x t 4 ) b e c a u s eo ft h eh i g l la c c u r a c yr a t eo ft h ew o r da l i g n m e n t , w ee x t r a c t e dt h e p h r a s ep a i r sf r o mt h et r a i n i n gc o r p u s w eu s e dt r a n s l a t i o nm e m o r ym e t h o d w h e nd e c o d i n g t h r o u g he x p e r i m e n t sw eh a v ef o u n dt h a tt h ee 伍c i e n c ya n d a c c u r a c yo f t r a n s l a t i o nh a v ei n c r e a s e d 5 ) w eh a v eu s e dt h ea l i g n m e n tt e m p l a t e ,w h i c hc a nb ei n v o l v e dt h ec o n t e x to f t h e s e n t e n c e 6 1h o wt oe s t i m a t et h et r a n s l a t i o nq u a l i t y ? w eu s e dt h ei b mm o d e l 4f o r m u l at o c o m p u t et h es c o r eo f t h et r a n s l a t i o n s a b o v ea 1 1 w eh a v ea c h i e y e dam o r es o u n dt r a n s l a t i o nm o d e it h r o u g hi n t e g r a t i n g p h r a s ea l i g n m e n tm o d e l ,g e t t i n gab e t t e rt r a n s l a t i o nq u a l i t yi nc o n t r a s tt ot h es t a t i s t i c a l m a c h i n et r a n s l a t i o nb a s e do nt h ew o r da l i g n m e n tm o d e l k e yw o r d s :s t a t i s t i c a lm a c h i n et r a n s l a t i o n ,c h i n e s e e n g l i s hm a c h i n e t r a n s l a t i o n ,t r a n s l a t i o nm o d e l ,a l i g n m e n tm o d e l d e c o d e r 。s e a m h a l g o r i t h m ,a s e a r c ha l g o r i t h m ,d p - b a s e da l g o r i t h m ,b e a ms e a r c h a l g o r i t h m ,p o st a gp h r a s e - b a s e da l i g n m e n tm o d e l 。i s a ,a l i g n m e n t t e m p l a t e ,m i ,t r a n s l a t i o nm e m o r y , 第1 v 页 国防科学技术大学研究生院工学硕士学位论文 图目录 统计机器翻译的源一通道模型4 一个统计机器翻译系统1 2 】1 0 统计机器翻译系统体系结构 2 1 1 l 单词对齐1 3 王野翊双层统计翻译模型【2 5 1 1 5 基于直接最大熵模型的翻译方法体系结构【4 】1 8 开发统计机器翻译系统的过程【2 s j 2 2 基于统计的汉英机器翻译系统构成2 3 计算i b m 翻译模型的参数的过程2 8 计算模型1 的参数2 9 m k c l s 所划分的词类示例3 0 p ( e l 我) 的情况3 l i c t c l a s 对汉语文本进行标注结果示例。3l f n t b l 对英语文本进行标注的结果示例3 2 i b m 模型4 的扭曲模型1 3 2 i b m 模型4 的扭曲模型2 3 2 p 0 1 ( d ie = v b ,c ( 乃) :r ) ,p :k de = v b ,c ( 乃) = n ) 的分布情况3 3 p = l ( d l e = v b ,c ( f j ) - - t ) ,p = l ( d i e = v b ,c ( 乃) - p ) 的分布情况。3 3 g i z a + + 生成的v i t e r b i 对齐文件示例3 4 训练语料汉语语料句子长度分布情况3 6 训练语料英语语料句子长度分布情况3 6 构建翻译模型所使用的双语语料示例3 6 p ( 1l 力和p ( e l 我) 的分布情况3 7 繁殖率p ( 矿f e ) 的示例,3 8 扭曲率p - l q - y l c ( f j ) ,e ) 和k l ( ,1 c ( 力) ) 的分布示例3 8 卡耐基梅隆大学一剑桥大学语言模型工具结构图【3 3 1 3 9 一元模型p ( p ) 的示例3 9 二元模型p ( e 2 l e l ) 的示例4 0 三元模型p ( e 3 e l ,e 2 ) 的示例4 0 h e l da n d r , a r p 处理货郎担问题的算法。钔4 3 统计机器翻译中基于动态规划的柱解码算法口钉4 4 p ( c = 告诉j e ) 的分布p ( c - 他l e ) 的分布二4 8 关于“我”和“让”的分值的对比4 8 改进后的a 搜索算法4 9 p ( e l 是) 的分布情况5 0 将i b m 对齐模型改进为基于短语的对齐模型5 8 汉语 英语,使用g i z a + + 生成的v i t e r b i 对齐文件示例5 9 英语汉语,使用g 屹a + + 生成的v i t e r b i 对齐文件示例5 9 使用i s a 方法抽取的短语示例6 3 所有词对的m i 信息矩阵示例。6 4 第j i i 页 2 3 4 5 2 3 4 5 6 7 8 9 m u 屹n h坫擂侈加h笼乃2 3 4 5 6 2 3 4 5 l 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 5 5 5 5 5 图图图图图图图图图图图图图图图图图图图图图图图图图图图图图图图图匿图图图图图图图 国防科学技术大学研究生院工学硕士学位论文 图5 6 图5 7 图5 8 图5 9 图5 1 0 图5 1 1 图5 1 2 使用词性标注信息构建对齐模板举例6 5 使用i s a 和v i t e r b i 对齐获得的综合结果,单独使用i s a 得到的对齐和短语示 使用i s a 得到的对齐模板示例6 6 i s a 与v i t e r b i 对齐相结合获得的短语和对齐模板示例6 6 短语对的基于i b m 模型4 的分值示例 基于短语对齐模型的翻译过程的实现 6 7 6 8 p ( 可i ( run ) ) 的分布情况7 0 第i v 页 国防科学技术大学研究生院工学硕士学位论文 表目录 c a n d i d e 和s y s t r a n 的d a r p a 测试结果1 4 翻译模型的参数信息和规模3 7 语言模型的参数和规模3 9 a $ 搜索算法和b e a m 搜索算法的对比5 3 胁搜索算法和b e a m 搜索算法的对比( 使用了词性标注) 5 3 胁搜索算法中:n = 2 0 时,c 的大小对翻译的影响5 4 a 车搜索算法中:n = 1 0 时,c 的大小对翻译的影响5 4 a 车搜索中假设队列的大d , l 对翻译的影响5 4 胁搜索算法中扩展一个结点和6 个结点的翻译结果的对比5 5 a 牛搜索算法中:增加的扩展的结点数d 对翻译的影响。5 5 所有词对的m i 值可表示为一个矩阵。6 2 p ( e l 去) 的翻译率6 6 a 值对模板匹配的影响情况6 9 基于i b m 模型4 的a + 搜索算法与基于短语模型的搜索算法的结果对比7 l 第v 页 l l 2 1 2 3 4 5 6 7 1 2 3 4 2 3 3 4 4 4 4 4 4 4 5 5 5 5 表表表表表表表表表表表表表表 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的研 究成果尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已 经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它教育机构的学 位或证书而使用过的材料与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意 学位论文题目:基王统盐盟这芸扭墨塑竖盟珏究皇塞煎 学位论文作者签名:鳓哆日期:加石年乡月厂日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留,使用学位论文的规定本人授权国 防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档,允 许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库进行检索, , 可以采用影印、缩印或扫描等复制手段保存,汇编学位论文 ( 保密学位论文在解密后适用本授权书) 学位论文题目:基王统j 数这芸狃墨塑竖血匠究生塞理 学位论妊善磊:邋 : 日期: b 年弓月彳日 作者指导蝴獭:立挝一魄哪年3 月7 日 国防科学技术大学研究生院工学硕士学位论文 第一章绪论 1 1 机器翻译的发展历史 语言是反映人类思维的面镜子,也是人与人之间交流的最重要的媒介。在 当今信息时代,每天都有海量的数字信息生成、存储、传播和转换;不同语言问 的沟通障碍越来越成为一个严重的问题,因此打破语言障碍、相互沟通并相互了 解,成为一个越来越迫切的需要。 机器翻译( m a c h i n et r a n s l a t i o n ) 是利用计算机把一种自然语言转变成另一种 自然语言的过程,又称机译( m t ) ,现在己受到越来越多研究者及企业界人士的重 视。对其研究的不断深入不但会对自动化、人工智能、认知科学和思维科学等学 科产生重要的推动作用,而且机器翻译系统的应用还将带来巨大的经济和社会效 益。因此研究机器翻译系统具有重要的理论意义和实用价值。 世界上有许多国家很早就开始了机器翻译的研究。自上世纪4 0 年代电子计算 机诞生伊始,美国就开始了将计算机应用于语言翻译的探索。当时,由于美苏对 抗,美国需要把大量的俄文技术资料和情报译为英文,所以有很多大学和公司开 始从事机器翻译的研究和开发。计算机的出现和适量的需求,促成了机器翻译历 史上的第一次高潮。 到6 0 年代初,这次高潮逐步结束。从6 0 年代中期到8 0 年代初,机器翻译处于 一个低落期。1 9 6 6 年,美国一个专业机构发表了机译界无人不晓的a l p a c 报告,受 该报告影响,各国纷纷停止了对机器翻译研究的支持。a l p a c 报告主要内容是:经 过调查,机器翻译速度慢,准确率差,比人工翻译费用高得多,在近期或可以预 见的未来,开发出实用的机器翻译系统是没有指望的。虽然这个报告后来受到许 多严肃的批评,认为它是带有严重偏见的,但当时它还是对机器翻译研究造成了 很大的负面影响。 在这个时期,语言学特别是计算语言学,获得了长足的进展,人们对自然语 言理解有了更深的认识:同时,在利用计算机处理自然语言方面也取得了很大进 展。那些真正喜爱机器翻译的科学家一直在进行着不懈的探索,并于7 0 年代建造 出一些实用的机器翻译系统,如美国的s y s t r a n 系统,加拿大的t a u m - - - m e t e o 系统, 日本日立公司的a t l a s 系统,法国编织研究所的t i t u s - i v 系统等。这个时期在计算 语言学方面的理论积累和构造实用系统的经验积累,为下一个高潮的到来奠定了 基础 7 0 年代中期机器翻译开始在世界范围内复苏并日趋走向兴旺。8 0 年代初,人 们预感到信息时代的到来,智能信息处理的重要性日益凸显机器翻译是智能信 息处理的一个重要领域,再加上受到已建成的几个机器翻译系统的鼓舞,机器翻 译重新受到各国的重视,许多发达国家相继投入了巨额资金研究和开发机器翻译, 形成机器翻译的第二次高潮。欧共体的e u r o r a 计划和d l t 系统,日本的m u 系统和o d a 计划,以及美国c m u 的机器翻译研究等,都是这个时期著名的机器翻译研究项目。 广阔的应用前景和前一时期的理论及技术积累是促成这次机器翻译高潮的主要因 素 第1 页 里堕型兰垫查查堂堕壅竺堕王兰堡圭兰垡丝奎 在这个时期,计算语言学,特别是语言知识的表示机制,有了很大发展。另 外,人们开始重视对机器翻译策略的研究,除了传统的基于规则的翻译方法,还 产生了基于实例的机器翻译、基于统计的机器翻译等新方法。然而,主要还是由 于对自然语言理解的认识不够深入,到9 0 年代初,人们发现,花费了很多人力和 财力建造的机器翻译系统,其翻译结果仍然不能令人满意。于是,投资者失望, 用户失望,研究开发者失望,机器翻译又进入了一个低落期。 近些年来,基于语料库的机器翻译引起越来越多研究人员的兴趣,基于统计 的机器翻译和基于实例的机器翻译逐渐成为研究的热点 1 2 国内外的机器翻译研究 早在1 9 4 6 年,英国学者b o o t h 学者和美国学者v a o s w a l d 首先提出了机器翻 译的设想;1 9 4 5 年美国乔治教大学l d o s t e r t 和i b m 公司的s h e d d a n 进行了俄英机译实 验【1 1 ;1 9 5 9 年9 月,中国也完成了俄汉机译实验【4 l 】;1 9 7 0 年,美国的w a w o o d s 根 据c h o m s k y 的转换网络( a t n ) ,并于1 9 7 2 年完成了l u n a r 的模型;1 9 7 2 年,美国斯坦 福大学的tw i n o g r a d 根据h a l l i d a y 的系统文法( s y s t e m i co r a m m a r ) 发表了过程语义 理论( p r o c e d u r a ls e m a n t i c s ) ,并提出了著名的s c h i l u 模型;1 9 7 3 年,美国德州 大学的r f s i m o n 在w o o d s 的a t n 基础上采用了f i l l m o r e 的格语法( c a s eg r a m m a r ) , 建立了语义网络理论( s e m a n t i c s n e t w o r k s ) ;1 9 7 3 年,美国耶鲁大学的c s h a n k 提 出了概念依从理论( c o n c e p td e p e n d e n c y ) ,提出了m a g i e 系统;此外还有yw i l k s 的 语义模型( s e m a n t i cp a t t e r n ) ;地l m i n s g y 的语言知识框架表示( 1 1 1 e f r a m e f o r r e p r e s e n t i n go f l a n g u a g ek n o w l e d g e ) ;p h w i n s t o n 的概念图理论( c o n c e p t u a l g r a p h s ) i i j ;1 9 7 8 年,中国也成功完成了英汉冶金题录翻译实验;1 9 7 9 年,加章大 完成了w e i d n e r 交互式机器翻译系统;1 9 8 2 年,前欧洲共同体的六国合作完成了 e u r o t r a 多国语言翻译系统;1 9 8 3 年,北京大学马希文等设计了f i n l 通用句法分 析系统;1 9 8 4 年5 月,日本布拉维斯公司研制成功日英翻译机;同年7 月,美国a l p s 公司研制成功英法的西班牙文的翻译机:同年8 月日本富士通公司推出日英互译系 统:另外还有美国德州大学和德国s i m m e n s 公司合作研制的m e t a l 系统、日本日立 公司的a t l a s 系统”。 中国计算机软件技术总公司的“译星”荚汉翻译系统,台湾的a r c h i r a n 英 汉机译系统,9 0 年代,出现了知网( w o r d n e t ) ,l i n k - g r a m m a r 以及e b f i l l 提出了 基于规则的词性标注的方法,东北大学姚天顺教授等提出了“词汇语义驱动理论”, 并完成了c e t r a n 汉英双向机译系统,姚天顺教授等还提出了“基于汉语的扩展 主块的翻译理论”,并开发了基于e - c h u n k 的英汉翻译系统e c t 。 我校从8 0 年代末以来,开展了英汉和汉英机器翻译的研究,先后开发研制了 m a t r i x 英汉翻译系统和i c e n t 汉英翻译系统唧j 。 近些年来国际上比较引人注意的翻译系统有m i c r o s o f t 公司的多国语机器翻译 项目,该项目采用的是一种基于规则的方法;a t & t 公司开发的语音翻译系统由 语音识别、机器翻译、语音合成三部分组成,机器翻译部分采用的核心的数学工 具叫做“中心词转录机”( h e a dt r a n s d u c e r ,以下简称h t ) ;c m u 的p a n g l o s s 系统。 p a n g l o s s 系统是美国卡内基梅隆大学研制的一个西班牙语一英语的机器翻译系统, 该系统采用一种多引擎的策略,该系统采用三个翻译引擎,一个是基于知识( 规 则) 的翻译引擎,一个是基于实例的翻译引擎,一个是基于词语转换的翻译引擎 以及欧盟主持的v e r b m o b i l 系统,该系统的机器翻译部分采用了基于统计的方法。 第2 页 国防科学技术大学研究生院工学硕士学位论文 1 3 基于规则的机器翻译方法 基于规则的机器翻译方法是最成熟的,也是目前应用最广的机器翻译方法。 基于规则的机器翻译系统通过对语言语句的词法、语法、语义和句法进行分析、 判断和取舍,然后重新排列组合,生成等价的目标语言。 基于规则的机器翻译发展到今天,相对来说已比较成熟。虽然经过长期的努 力,人们已经建立了含有成千上万个规则的规则库,覆盖了相当大的语言现象, 但是从理论上讲,这种过程仍然很有限。因为语言是一个民族经过几千年的积累, 是约定俗成而又动态发展的。不仅语言现象纷繁复杂,而且随着社会的不断发展, 语言本身也处在不断发展和变化之中。现有的机器翻译系统的规则再多,也只是 特定语言现象的概括和总结,随着知识库越来越庞大,规则和知识获取已陷入了 瓶颈,促使人们寻求其它的方法。 1 9 8 9 年后,基于语料库( c o r p u s - b a s e d ) 的方法改变了机器翻译研究领域的困境, 标志着机器翻译研究工作又进入了一个新的时期。基于语料库的方法包括基于统 计和基于实例的方法基于统计的机器翻译方法和基于实例的机器翻译方法都是 使用语料库作为翻译知识的来源。二者的区别在于:在基于统计的机器翻译方法 中,知识的表示是统计数据,而不是语料库本身,翻译知识的获取是在翻译之前 完成,翻译的过程中不再使用语料库;而在基于实例的机器翻译方法中,双语语 料库本身就是翻译知识的一种表现形式( 不一定是惟一的) ,翻译知识的获取在 翻译之前没有全部完成,在翻译的过程中还要查询并利用语料库。 1 4 统计机器翻译 统计机器翻译,又称为数据驱动( d a t a - d r i v e n ) 的机器翻译。其思想其实并不新 鲜。早在1 9 4 9 年,w e a v e r 发表的以翻译为题的备忘录中就提出:“当我阅读 一篇用俄语写的文章的时候,我可以说,这篇文章实际上是用英语写的,只不过 它是用另外一种奇怪的符号编了码而已,当我在阅读时,我是在进行解码。”这 实际上就是基于信源信道思想的统计机器翻译方法的萌芽。实际上,早期的机器 翻译系统通常都建立在对词类和词序分析的基础之上,分析中经常使用统计方法, 只是后来以c h o m s k y 转换生成语法为代表的理性主义方法兴起后,统计机器翻译方 法几乎不再被入使用1 9 9 0 年代初期,m m 的b r o w n 等人提出了基于信源信道思想 的统计机器翻译模型,并且在实验中获得了初步的成功,引起了研究者广泛的关 注和争议。由于当时计算能力等多方面限制,真正开展统计机器翻译方法研究的 人并不多,统计机器翻译方法是否真正有效还受到人们的普遍怀疑。不过,近年 来,随着越来越多的研究人员投入到统计机器翻译的研究中并取得了成功,统计 方法已逐渐成为国际上机器翻译研究的主流方法之一。 基于统计的机器翻译方法大体上分为以下三类:第一类是基于平行概率语法 的统计机器翻译方法,其基本思想是,用一个双语平行的概率语法模型,同时生 成两种语言的句子,在对源语言句子进行理解的同时,就可以得到对应的目标语 言句子这种方法的主要代表有a l s h a w i 的h e a dt r a n s d u c e r 模型和吴德恺的i t g 模 型,由于这类方法影响较小,这里不对该方法进行介绍。第二类是基于信源信道 模型的统计机器翻译方法1 2 】,这种方法是由i b m 公司的p e t e r b r o w n 等人在1 9 9 0 年代 第3 页 里堕型堂垫查查兰竺壅生堕三兰堡主堂垡堡苎 初提出的,后来很多人都在这种方法的基础上做了很多改进工作,这也是目前最 有影响的统计机器翻译方法,一般说的统计机器翻译方法都是指的这一类方法。 第三类是德国o c h ( 2 0 0 2 ) 等人最近提出基于最大熵的统计机器翻译方法【4 】,这种 方法是比信源信道模型更一般化的一种模型。 基于信源信道模型的统计机器翻译方法的基本思想是,把机器翻译看成是一个 信息传输的过程,用一种信源信道模型对机器翻译进行解释。假设一段目标语言 文本t ,经过某一噪声信道后变成源语言s ,也就是说,假设源语言文本s 是由一段 目标语言文:s t 经过某种奇怪的编码得到的,那么翻译的目标就是要将s 还原成t , 这也就是一个解码的过程。 图1 1 统计机器翻译的源一通道模型 由贝叶斯公式可得: t = a r g m a x p ( t ) p ( sit ) ( 1 1 ) r 这个公式在b r o w n 等人的文章【2 j 中称为统计机器翻译的基本方程式 ( f u n d a m e n t a l e q u a t i o n o f s t a t i s t i c a l m a c h i n e t r a n s l a t i o n ) 。在这个公式中,p ( d 是目标语言的文本t 出现的概率,称为语言模型。p ( s l n 是由目标语言文:s t 翻译成 源语言文本s 的概率,称为翻译模型。语言模型只与目标语言相关,与源语言无关, 反映的是个句子在目标语言中出现的可能性,实际上就是该句子在句法语义等 方面的合理程度;翻译模型与源语言和目标语言都有关系,反映的是两个句子互 为翻译的可能性。 为什么不直接使用p ( t i s ) ,而要使用p ( t ) p ( s 1 1 ) 这样一个更加复杂的公式来估 计译文的概率呢? 有两个因素起作用,翻译模型概率对目标语言文本而言是比较 大的,不管是语法规范( w e l l f o r m e d ) 或者语法不规范( i 1 1 f o r m e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论