




已阅读5页,还剩80页未读, 继续免费阅读
(检测技术与自动化装置专业论文)英汉机器翻译系统的理论研究及框架设计.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
太藏瓒工大学硕士学佼论文 英汉机器翻译系统的理论研究及框架设计 摘要 随着国际交流越来越频繁,互联网深入到人们的工作、生 活中,社会的信息化程度越来越高。人们为使自己不被时代所 淘汰,不得不紧跟时代的步伐,时刻关注并获取世界上的簸新 信息。而这些信息中的大部分是在i n t e r n e t 上以外文形式出现 的。予是,语畜成了疆褥人翻信息获取的最大障碍。鉴于人工 翻译在便捷和赞用等方筒的限制,人们对机器翻译或机器辅助 黧译系统鳇甏浓越来越遥切。因瑟对瓿器翻译懿研究成先热点。 目前对机器翻译的研究很多,其中比较先进的机器翻译方法是 基予大型语糖痒都统计学熬枫器熟译。本论文对人工智施、机 器翻译理论的起源、发展、国内外研究现状作了阐述,并就其 存在的阕题及发展方惫佟了分析。重点介绍机器翻译的各零孛方 法、特点及基本原理,以及些机器翻译研究中主要计算方法 的结构和特性。在此基础上,本文掇蹬了机器翻译系统的设计 框架,其中包括电子词典的设计方法,电子词舆的存储结构, 查询算法;语料库的建立,规则库的建立:语义的消歧,句子 太纂理工大学颈士拳使论文 的自动对齐;面向对象类库的设计,词性的划分和表示, 用户界面设计和管理等。根据这些总路和方法,本文在设计框 架的基础上,成功地实现了机器翻译系统的很多功能,其中重 点是电子词典的设计和实现,英汉句子的对齐,英汉互译的设 计和实现。 关键词:机器翻译,电子词典,对齐,语料库,查询算法, 框架 l i 太原理王大学矮士学位论文 p rl 鞑elp l er e s e a r c ha n df r a m e d e s l 8 n0 ne n g l l s h - c h l n e s e m a c hln et r a n s l a t10 ns y s t e m a b s t r a c t a st h ei n t e m a t i o n a lc o m m u n i c a t i o n s g e tm o r ea n dm o r e f r e q u e n t ,t h ei n f o r m a t i o ni m p a c to nh u m a nb e i n g sl i f ea n dw o r k e x t e n d st o 基g r e a te x t e n tw i t ht h ew i d e s p r e a do fi n t e r n e t p e o p l et r y h a r dt ok e e pu pw i t ht h et r e n do ft i m ei no r d e rt om a k el i v e se a s y a n ds u c c e s s f u l 。t h ev i m lm e t h o di st og e tn e c e s s a r yi n f o r m a t i o n h o w e v e r , m o s tp a r to fi n f o r m a t i o ne x i s t si ni n t e m e ti nt h ef o r mo f f o r e i g nl a n g u a g e s h e n c e ,l a n g u a g e sa r et h eb a r r i e r sf o rp e o p l et o o b t a i nn e c e s s a r yi n f o r m a t i o n t os o l v et h ep r o b l e m ,p e o p l ea p p e a l t ot h em e t h o dn a m e dm a c h i n et r a n s l a t i o no rt ot h em a c h i n e 。a i d e d t r a n s l a t i o n 。a l t h o u g ht h e r ea r em a n ym a c h i n et r a n s l a t i o ns y s t e mi n t h ew o r l d ,m o s to f t h e ma r en o tv e r ye f f i c i e n t t h ec u r r e n td o m i n a n t m e t h o d sa r ec o r p u s b a s e da n ds t a t i s t i c b a s e dm a c h i n et r a n s l a t i o n t h i sa r t i c l ed i s c u s s e st h eo r i g i n ,d e v e l o p m e n t ,a n dc u r r e n tt r e n do f a r t i f i c i a li n t e l l i g e n c ea n dm a c h i n et r a n s l a t i o nb o t hi nc h i n aa n di n f o r e i g nc o u n t r i e s m o r e o v e r t h ei n s u f f i c i e n c yo f s u c hm e t h o d sa n d t h e f u t u r ed i r e c t i o na r ea l s oe x p l a i n e di nt h i sa r t i c l e t h em a i n p o i n t so ft h i sa r t i c l ea r ep u to nm e t h o d s ,c h a r a c t e r s ,a l g r i t h ma n d i t i 太原理工大学壤圭学在论文 p r i n c i p l e so f m a c h i n et r a n s l a t i o n b a s e do nt h e s ea n a l y s i s ,t h e p l a nf r a m e w o r ko fm a c h i n et r a n s l a t i o ns y s t e mi sp u tf o r w a r d , w h i c hi n c l u d e st h ed e s i g nm e t h o do fe l e c t r o n i cd i c t i o n a r y , s t o r a g e s t r u c t u r eo fe l e c t r o n i c d i c t i o n a r y , q u e r ya l g r i t h o m ,c o r p u s f o u n d a t i o n ,r u l er e s e r v i o rf o u n d a t i o n ,s e m a n t i cc h o o s i n g ,s e n t e n c e a l i g n m e n t ,f o u n d a t i o no fc l a s sd a t a b a s ef a c i n go b j e c t ,e v a l u a t i o n a n de x p r e s so fw o r dc h a r a c t e r , d e s i g na n dm a n a g e m e n to fu s e r i n t e r f a c e ,e t c 。w i t h t h eh e l po f s u c hk n o w l e 起e ,t h i sa r t i c l e s u c c e e d si ni m p l e m e n t i n gm a n yf u n c t i o n so fm a c h i n et r a n s l a t i o n s y s t e m ,o f w h i c he l e c t r o n i c d i c t i o n a r y a n d e n g l i s h c h i n e s e t r a n s l a t i o na r ep u ti n t oa l li m p o r t a n ts t a t u s k e yw o r d s :m a c h i n et r a n s l a t i o n ,a l i g n m e n t ,c o r p u s ,q u e r y a l g o r i t h m ,f r a m w o r k i v 太原城工大学硕士学僦论文 第一章机器翻译的概念及本课题研究的意义 1 1 机器翻译的概念 极器翻译( m t ,m a c h i n et r a n s l a t i o n ) ,是人类剃耀计算机进行巍然 语蠹闻静翻译。楚溺计算机辩久类豹书覆釉口头形式豹囊熬语言信惑遴行 处瑕加工的技术。是一种将义本从一种语富翻译到另外种语言的技术。 “1 机器翻译是- i i 包含多学萃墨的新兴交叉学科,它涉及添言学,心瑗学, 入工智能,幸 算枕科学,数学,哲学,逻瓣学等多学科翔识领域。自然语 言就是我们生活中使用的语言,如汉语,蘸语,德语等。对自然语黼的 处联离不开对自然语言的理孵,鑫然语言避鳃。1 磅究人炎如何使用爨隽熬 悉豹本族语言与计算机进行倍惠交流,并探索久类自身的语言能力的恩维 活幼的本质。自然语言是人类社会发展的产物,它不同于计算机所使用的 精确的形式语言,皇然语言中兖瀵了各秘不确定性。鸯然语言处理是傣怠 处避领域一个板肖意义而且极寓挑战性的课题。自然语富处理根据箕处理 的诺言对象的不同分为若干层次,对语言的处理就是其中一层。语义怒语 言澎客鼹世赛的勰释,是叁然谗言理鳃的基礁,如票要骥自一个语言片龋 的内容,就要先了解萁语义结构。 下面我们讨论一下自然语荫理解与机器翻译的关系: 囊然语言理勰( n a t u r a ll a n g u a g eu 州e r s t a n d i n g ) ,连称为计冀语 言警( e o m p u t a t i o n 8 1l i n g u i s t i c s ) ,是磷究如何利用计算枫来理解和生 成自然语言的理论和方法”。它是人工智能三大研究方向之一。主要觎括 霹个缀成郏分; 太原理工大学硕士学位论文 ( 1 ) 自然谱寓理解。即让计算机懂德自然语言文本意义的理解过 疆; ( 2 )自然语言生成。以自然谮畜文本来表达给定意图戡思想的生成过 程。 筑着 圭会售慧纯程度旋提麓,人稍越来麓重视塞熬谣言理解技术豹 研究。其研究成果已经在机器翻译,信息检索,人机接口镣重要领域得到 应用。 辘耩翻译是自然语言憝瑾孛豹一个最翠豹研究分支,玄是秘瑶诗算祝 把种自然语言转变成另一种自然语言的过程。用以完成这一过程的软件 叫做机器翻译系统。 获计算机臻粼涎垒之西起,入翻裁誓经尝试用它进行一些语言现象豹 处理工作。最初就鼹从机器翻译开始的。随着信息时代的到来,“信息爆 炸”威为信息处理领域的瓶颈问题。不同语种之间大量的傣患交流更加大 了薅繇懿严重毪。不同语言之黼豹酝译王传越来越遍切,弗怠工作量越来 越犬。如何利用计算机高效率的信息处理能力突破不同语种之间的语言障 碍,成为全人类面临的共同问题。枧器翻译便是解决这个闯题有力手段之 一。这就是机器稳译成为鑫然谱言处理研究中心豹主要覆闲。 1 2 本课题研究的意义 世界上不同国家或民族的人们使用不间的语言,在大多数情况下必须 通过翻译才能进行交流。全球信息化也使得备行各业的人们耍进行大量的 售惑获歉、筵理。掇器熬译戆实璇将竞骚镬鼷不嚣童然语富久餐豹语富辍 碍。随着交通工具和通讯技术的谶步,空间不褥是阻碍人们交流的障碍, 而语青不同所带来的问题却越来越突出。在信息时代,随糟互联网不断深 入太弱豹生活,久锭黠舞部邀爨偿惠鹣了解越袋越多。在这耱清况下,韶 2 太原瑷工大学硕士学位论文 使是熟练的翻译人员也不能适应知识爆炸时代对不同体裁,不同内容 懿熬译要求。荚绥莱必然是求蕊予逐速发袋瓣税器魏译。 进入二十一懒纪,随着国际交流的加剧和互联网时代的到来,社公的 信息化程度越来越高。人们为使自己不被时代所淘汰,不褥不紧跟时代的 步伐,露裁关注爨莠上豹最薮接悫。瑟这骜薅惠中大部分是在i n t e r n e t 上以外文形式出璐的。于是,谮言成了阻碍人们发展的最大障碍,人们对 实现机器翻译或机器辅助翻译系统的需求越来越迫切。另一方面,由于机 器熬译掰楚理翡爨然语言是人麓离缀誉毙滔璐麓结莱,楚缀臻复杂鹃,霖 到目前为止,人们对自身人脑处理语言的机瑕和方式了结的还很少。所以 尽管已经历了几十年的发展,现有的机译系缆在翻译效果上仍无法令人满 意,麓复杂每纛麓肇懿译戈箕燕蘧。霾魏,税器懿泽豹磺究溉吴寄科学价 值,又具有使用价值。各重要的是,在新的形势下,进一步研究机器翻译 技术,改善机器翻译系统的翻译效果,具有现实的重大意义。 3 太原理工大学硕士学位论文 第二章机器翻译技术在国内外的发展现状 2 1 机器翻译的历史 诞生( 1 9 4 7 1 9 5 4 ) 1 9 4 6 年,美国人沃伦韦弗、英国人a d 布思提出了机器翻译的设 想,从此机器翻译步入历史舞台。”3 在这一年,j w e c k e r ta n dj w m a u c h l y 设计出了世界上第一个计算机机器翻译系统e n f f a c 。当时,美国人沃伦韦 弗、英国人a d 布思他们把这一系统命名为机器翻译。( 冯志伟,1 9 9 9 : 3 8 ) 挫折期( 1 9 5 4 1 9 7 5 ) 美国国家科学院于1 9 6 4 年4 月成立了自动语言处理咨询委员会 ( a u t o m a t i cl a n g u a g ep r o c e s s i n ga d v i s o r yc o m m i t t e e ,简写为a l p a c ) , 委员会对当时美国政府资助的机器翻译研究进行了调查,就机器翻译的质 量,成本,前景,以及目前社会对机器翻译的需求和机器翻译的费用做出 了报告。该报告于1 9 6 6 年发表,对机器翻译研究进行了批评,并建议大 幅自减对机器翻译的资助。该报告造成了在美国机器翻译的实质性停滞不 前。在a l p a c 报告发表后,直到7 0 年代中期,机器翻译研究一直处于低 潮时期。( a r n o l d ,b a l k a n ,m e i j e r ,h u m p h r e y s ,s a d l e r ,1 9 9 4 ;1 3 ) 复兴期( 1 9 7 5 1 9 8 9 ) 在二十世纪7 0 年代,商业上对机器翻译系统的需求大量涌现。许多 国家研制了不同的机器翻译系统。加拿大蒙特利尔大学成功地开发出了英 法翻译系统t a u m m e t e o ”1 ,该系统能成功的翻译天气预报信息,译文质量 4 太原理工大学硕士学位论文 令人满意。弗在1 9 7 7 年投入使用。日本开发了两个机器翻译系统 a t l a s i 和a t l a s i i 。s y s t r a n 系统魁乔治敦系统基础上发展起来的一个 裔霜系统。其中静俄英系统卖绘了美嚣空军。( 泻恚伟,1 9 9 9 :4 0 ) 新的发展期( 1 9 8 9 一至今) 豳为机器翻译新的技术例如基于谮料库的机器翻译方法,其包括统计 方法和范弼方法静斑现,键辊器翻译磷究进入一个新的时代。( 赵铁军等, 2 0 0 0 :3 6 ) 。市场嚣求也使得机器翻译的发展成先必然。罄先,i n t e r n e t 这个信息海洋包括了人类生活和工组的方方面面信息。但怒大多数信息都 是敬本族语撬供静。为了在外语网站上获取倍息,普通读者都需舞翻译。 其次,跨国公司罴爨犍他们的文传本地化。国际组织窝政廊也嚣瑟快捷葶曩 廉价的翻译。高效率,低费用就使得机器翻译成为一个很好的选择。第三, 电子商务豹蹴现也使得税器翻译静甭途越来越重要。 2 2 机器翻译技术在阑外的发展现状 机器翻译最早开始于茨国。从本世纪4 0 年代电予计算机诞生之日起, 美国科学家就开始了将计算机应用于语言翻译的探索。1 9 4 9 年,美国工糨 9 a w weav er 向大终2 0 0 饿熟人教发了题戈“熟译”的冬惠最,对秘 器翻译的重要性及可行性进行了论证”1 。1 9 5 2 年,第一次全荚机器翻译会 议召开。1 9 5 4 年,机器翻译剖硐。间年,georget on 大学成功 磅趔了第一令枫译蓉统,掇译掀起热潮。然霹,虫予一曩:矮人们瓣撬器凝 译的复杂性估计不足,机器翻译在当时还仅仅局限于单词这个层面的转换 视译迅速进入了困境之中。因此,1 9 6 6 年,bar 1 il1 在美潮全国科 学院黪alpac 缀告孛攫出:孝强器翻译速度漫,准确率差,琵人工繇译费 用高得多,在近期或可以预见的朱来,开发出实用的机器翻译系统是不可 能台句。各部门纷纷停止了澍机器翻译研究的经费支持,从而导致机译走向 5 太簸理工大学臻士学整论文 低潮。在以后的几十年里,语言举的研究有了长足的进步,人们从语 法、语义和谮用学等角度深刻地剖析了语言学现象。这样,从7 0 年代后期, 橇器鼹译又迅速发震怒采。各释实麓静和实验豹系统程继捺密。壤 如,1 9 7 9 年加拿大推出的weinder 系统和欧欺体研究的eu rp0 t ra 多国语翻译系统等。尤其是8 0 年代中期以愿机译处于空前繁荣时 期。蓝时,纛论是经典语禽学理论还怒耩兴的学科计算语言学理论 的发展都日豁完善。同时,出现了不少商品化的系娩,如美国的systr a n 系统,美国texa8 大学与西德simon 公司合作研制豹m et al 系统,簸本目立公司豹at l as 系统,及法黼gren oble 丈 学的ceta 系统,等等。值得我们波意的是,国外些公司模拟双语言 或多语言旅游会话手赐制造的袖珍旅游翻译器,受到人们的欢迎。舅本夏 普公司謇1 9 7 9 年年底开始出售英磊和隧英电子翻译嚣戳来,又予1 9 8 0 年 6 月供应更新式的英、翻、德、法、两班牙等多种语言对译的翻译器,定 价是3 9 ,8 0 0 嚣元,胃产3 万台。有钓翻译器会出声,还可以检索篾单会 话。据说,这种电子翻译器毫威胁到词典疆及出国旅符用会话读零的销路。 8 0 年代以来,各国的机器翻译研究步入了繁荣期,随着基于语料庠方法的 实际运用,i n t e r n e t 的罄及,辊器翻谬的残果基步入麓晶耽的孰道。基兹 的趋势是将蕊联网络和机器翻译结合谯一起。 2 3 机器翻译技术在圈内的发展现状 我国机器翻译的研究从一开始就得到了国家的高度重视。昂在1 9 5 6 年它便以“机器翻译自然语言的数学理论”列入了当时的科学发展纲 簧。戮嚣粼弱秀“六五”、“七五”,强及“8 6 3 ”等蓬大辩磅矮醚。1 9 5 7 年我国的机器翻译研究工作正式开始,1 9 5 9 年建国1 0 周年时,我国宣布 俄汉机器翻译实验戒功。在那一年,中国的机器翻译研究者成功地进行了 6 太原理工大学硕士学位论文 中国首次机器黼译试验表演。中国是世界上第五个进行这种实验的翻 家。在经历了初步发展阶段( 1 9 5 7 1 9 6 6 ) 、停滞阶段( 1 9 6 6 1 9 7 5 ) 以后, 藐莺静辊器熬译事效述来了浚复发展除羧( 1 9 7 5 一至今) ,嚣虽取褥了不少 可喜的成果。但因为“文擎”有过l o 年的停滞。7 0 年代中期,我国机器翻 译研究从停滞走向了复苏,是协同攻关的特点体现最充分的时期。当时在 中国科技清掇所鹃缎织下集中了许多部委豹罨拜究大爨在社萃萼院谮言掰豹 专家的具体指导下协同攻关。当时的理想是通过这样的大协作,搿发出系 统,培养一批人材,然后于巴系统带回各自的单位投入使用,并在使用过程 中继续完善。显然遴篷开稼静良好愿望螽来浚蠢实现,僵通过五年多酌遴 力合 乍,开发出了系统,培养了人才和积累了缀验。在这一时期,还开始 向国外派出人员学习和引进技术,并与巍时已猩国际享有盛名的机译研究 梳梅迸行了交流。章圭辩院语言所开始靖养机器翻译专妲研究生。程这时期 在情报学会和后来中文信息学会下成立了专业委员会,薨曾定期地举行全 嗣性的举术研讨会,还曾出版机器翻译专刊。8 0 年代中期到9 0 年代初期 产生了两个奁中国税译变上具有羹要意义的实绢亿系统。它们分掰是军事 科学院磺制黪”ky 一1 ”英汉枫译系统郄中科陵计算蹶研制灼”8 6 3 - lm t ”英汉机译系统。9 0 年代初期歪今,中国的机器翻译步入了快速发展的 时期,高现了许多商懿纯系统衡如余由快译,肇建在线等。近期的机译系 统大体上寄这样一些特点:多数酸套大援摸戆多静领域蛉专韭运煲,多数 能在网上运行,有相躺不错的方便用户的界面。新的应用领域的机器翻译 研究,弼对话翻译系统的研发等也已开始。 7 太原理工大学硕士学位论文 第三章机器翻译相关基础理论介绍 3 1 机器翻译的主要方法 机器翻译系统的研制工作从2 0 世纪4 0 年代末开始,至今已经发展出 许多不同的方法。总体来看,现有的机器翻译方法基本上可以分为两大类, 即基于规则( r u l e b a s e d ) 的方法和基于语料库( c o r p u s - b a s e d ) 的方法。基 于规则的方法是传统的方法,而基于语料库的方法是8 0 年代以后逐渐发 展起来的方法。基于规则的机器翻译m t 又可以分为基于转换的方法和基 于中间语言( i n t e r l i n g u a - b a s e d ) 的方法,而基于语料库的方法又可以分 为基于统计( s t a t i s t i c b a s e d ) 和基于实例( e x a m p l e - b a s e d ) 的方法。 3 1 1 基于规则的方法 基于规则的机器翻译技术是最成熟的,也是到目前为止应用最广的, 目前有影响的机器翻译系统都是基于规则的。基于规则的机器翻译系统就 是对语言语句的词法、语法、语义和句法进行分析、判断和取舍,然后重 新排列组合,生成等价的目标语言。虽然经过长期的努力,人们已经建立 含有成千上万个规则的规则库,覆盖了相当普遍的语言现象,但是从理论 上讲,这种过程仍然很有限。因为语言是一个民族经过几千年的积累,是 约定俗成而又动态发展的。随着社会的不断发展,新的词汇和语言现象不 断出现。现有的机器翻译系统的规则再多也只是特定语言现象的概括和总 结。 基于规则的方法分为基于转换的方法和基于中间语言的方法。此外, 还有直接方法。该方法是将源语言的词句直接翻译为相应的目标语言的词 8 太淼理工大学硕士学位论文 句,只有在必要时才对语义顺序进行调整。所以很难产生离质避的译 文。此方法艨嚣技术篾单,霹以用在某些特定的领域。( 杨沐等,2 0 0 0 : 2 7 基于规粼静方法理论基疆楚稷设翻译的过稷就楚对深语言避行分萃斤, 表述意蕊,觚而产生褶对应的营标语言。无论怒仟么祥的基予麓刚的机器 翻译系统,都有一个用米表达语言学知识的符号系统,系统在规则的控制 下完成翻译正作。无论怒基于转换的翻译还是基于中间语言的翻译,只是 在于它们对所处理语言的分析深度和对语言知识表达的抽象程度不同,如 下图所示。 图3 - 1 不同的基于规则的机器翻译 f i 邸一1d i f f e r e n tw a y s o i lr u l e b a s e dm a c h i n et r a n s l a t i o n 要开发一个莲予怒剃豹枧嚣懿译系统,毖须先设计一个豁识表示系 统,将懿译遥程中所有需要的知谈戳计算祝可敬操作的形式表述出来。知 识表示系统设计的好坏会直接影响到系统的知识表达能力,也会影响到系 统能否有效揉作这些指示,所以翻译知识的描述和表示是关系基于规则机 器翻译系统成败的一个关键问题。 一般而言,翻译过程往往需要下述些知识的支撑: ( 1 ) 语言知识。系统利用源语吉知识分摄源谬言句子,褥到源语言 9 支嚣理工大擎 囊士学整论文 旬子的结构和意义。 ( 2 )匿标语言知识。系统糕爱蟊标语言熟识,产生哥啦渡受的晷拣 语言甸子。 ( 3 ) 源语言到目标语言的对译知识。在揍于转换的系统中,系统需 要根据羲秘级别的对威关系来完成源语言到目标语言的转换。最基本的是 词之间静对译知识。 ( 4 ) 领域知识和世界知识。利用源语言知识,目标语畜知识,在领 域知识翻越界知识的协韵下,可以爨好选完成对源语言的理麟秘垦标语言 豹生成。 ( 5 ) 有关社会,文化和习俗的指导。在人工翻译中,这些知识也起 羞重要住露。鉴于嚣兹躯处理水乎,几乎没有瓿嚣熟译系统掇该类知识维 入处理蔽围。人们目翁还缺乏有效办法把这些知识以机器可以操作的方式 描述出来。 熬于规刚的翻译系统的基本流程 源语言文本目标语富文本 词 媳 靛 剡 糍 i 结构转 态生成 词选样 子生j 艇 图3 - 2 熬于规则的转换 l o 太驻瓣工大学硕士擎位论文 f i 9 3 - 2t r a n s f e rb a s e do nr u l e s 3 1 + 2 萋于语瓣纛戆季嚣嚣黧译 基于统计的机器翻译 基于统计的机器翻译方法和基于实例的机器翻译方法都是使用语料 瘁佟为蘸译餐谈麓来源。二荔豹区爱在予:凌基于统诗豹掇器翻译方法中, 知识的表示是统计数据,而不是语料本身,翻译知识的获取是在翻译之前 完成,翻译的过稷中不再使用语料库;而猩基于实例的机器翻译方法中, 双落语糕痒零巍靛是熬译麓谈秘一耱表嚣形式,翻译黧谖静获酝在熬译之 前没有全部完成,在翻译的过程中还得查询利用语料库。 基于统计的机器翡译把机器翻译问题蕾成是一个噪皆僖道问题 s 一臻瓷信遥一t 我们可以这样理解,一种语富s ( 信道意义上的输入,翻译意义上的目标 语富) 由于经过了一个噪音倍道而发生了搬曲变形,从而在信道的另一端 呈瑷为勇羚一静语言t ( 信道意义土匏赣密,翻译意义上豹源语言) ,麓译 问题实际上就是如何根据观察剐的t ,恢复最为可能的s 的问题。例如希望 把汉语翻译为英语时,可以假定待译汉语匈予是英语句予经过信道后援睦 交形鼢结莱。爱之亦然。按照诧蕊点,一耱语言中静任德一个甸子都商可 能烧另外一种语裔中某个句子的译文。这就有个概率问题。用p r ( s f t ) 表 示s 译成t 的概率,那么翻译问题裁成为:在戏察到t 的前提下,寻找一 个s ,使得p r ( s | 取最大值的闽题。郄: s = a r g m a x p r ( s f t ) 剩翔委跨豢公式,毫 p r ( s ) p r ( rj 酌 p r ( s i t ) = p r ( t ) ( 公式3 - 1 ) ( 公式3 - 2 ) 太蒙毽工大学硕士学位论文 因p r ( t ) 和s 无必,故有 j = a r g m a x p r ( s ) p r ( t l s ) ( 公式3 3 ) 其中p r ( s ) 称为语言s 的语言模型,p r ( t s ) 称为s 到,r 的翻译模型。布朗 等认为,尽管因式p r ( s ) 和p r ( t i s ) 之间的相甄作用十分复杂,但这两个 因式各蠢蒺蹇黢意义,翻译模型鼢( 零l s ) 可敬考虑尧鬏豢囊察至l 兹t 语富 句中的单词选择s 谱富中相对应的单词。而语裔模型p r ( s ) 则给出s 语言 中的单词在句中的顺序。于是乎,猩基于统计的翻译系统中要解决三个问 题,一怒磐 霉褥至l 一令合理豹霹诗舞戆诿言搂蘩羚( s ) ;二楚巍嚣褥妥一 个合理的可计算的翻译模型p r ( ts ) ;三是如何在所有可能的s 中有效地 搜索得到是p r ( s ) p r ( s f t ) 最大的s 。 基于统计豹撬嚣熬泽避孬壤攀诗冀瓣,采援隐骂尔霉夫模型( h i d d e n m a r k o vm o d e l ,简称h 瓶m ) 。隐马尔w 夫模型是马尔可夫模型的扩展。马尔 可夫模烈描述的是一个随机过程,而隐马尔可夫模型中有两个随机过程, 一令薅蔽邃程搐邃鬣察壤( 爨舞,蒸俸熬攀谲) 秘炊态( 铤懿,该革词可糍 标注的词类) 之间的概率关系,即溉察值是状态的概率函数,另一个随机 过程描述状态之间( 例如,词类标地与词类标记之间) 的转移关系。作为外 赛懿穗察爱囊说,只麓蕾弱狡态产黛戆溪察篷,藉爱不裂凌态之凌静转移, 状态之间的转移是隐禽的,所以叫做隐马尔可失模型。 撼于实例的机器翻译 基予实镶戆辊嚣翻译( e x a m p l e b a s e dm a c h i n et r a n s l a t i o n ,简写尧 e m b t ) 方法的基本思想是由日本著名机器翻译专家长尾真( m a k o t on a g a o ) 提出的。他说到:“关于翻译我们擞基本的思想是( 1 ) 人类不通过作深 垂次语富学分撬翻译匈子。( 2 ) 入癸靛髂译过程怒善先正确分解输入句子, 分解成缀语碎片( 经常是格框架单元) 。接着,把这些短语碎片译成其他 语言短语,最后把这然短语构成一个长句。每个短语碎片采用炎比的原则 1 2 太爨薅工大学疆学袋论文 进行翻译。” 实倒方法鲍旗本原理归绒起来菲常麓繁,系统的主骚知识源是双诿对 照的翻译实铡瘁,实例痒主要有两个字段,一个字段保存源语言句子,另 一个字段保存该句对应的译文,每当输入一个源语言句予s 时,系统利用 s 鄹实铡库中懿源语字段进行比较,找出其中秘s 最为楣似的句子s , 势模拟s 的译文t 构成s 静译文t 熬掰输出。这种方法需要一个缀大 的谮料库作为支撑,为构建谮料库需要投人巨大的人力和物力。如下网所 示。 蒗倒瘁_ 墨3 - 3 蓉于买倒的翻译娉掬霉 f i 9 3 3t r a n s l a t i o ns t r u c t u r eb a s e d o ne x a m p l e s 基于实例的翻译方法具有以下优点: ( 1 ) 系统缭护容易,系统中躲识以熬潺实锲纛义类溺典等形式存在, 可以很容易的利用增加实例和词汇的方式扩充系统。 ( 2 ) 易产生高质量的译文,尤其是利用了较大的翻译实例或实例精 确瓢瓢对更是翔瑟。 ( 3 ) 以避免一些传统的赫于规则机器翻译必须进行的深层次语言学 分析。 1 3 太覆瑾工大学矮圭学镬论文 基于实例的翻译方法所黉解决的问题; ( 1 ) 双语对齐阏憨,如上文职述,实例艨中要存储源谬畜和枢对应 的髫标滔蠢,所馥辩齐闷题十分璧爱。不仅要求旬子对齐,帮时还要求短 语一级,词汇一级的对齐。 ( 2 ) 采鹰有效豹安铡匹配检索机制。首先必须确定检索在哪个级别 上进行,是旬子一级( s e n t e n c e l e v e l ) ,还爨予旬( s u b s e n t e n c e ) 一 级。 ( 3 ) 如傍根撼梭索到斡实铡黛成输入漾港密瓣译文。蠢予基于实铡 的机器翻译不强调对源语言的分衙,生成对往往缺乏必要的储息。 3 1 3 溅食的机器翻译方法 麸税器黧译静嚣受来看,筑器翻译兹主渡方法一壹是袋粼方法。涟着 计算机的进步,基于统计的方法越来越受到人们的重视。但怒两种方法的 优缺点也是很明显的。如下图所承: 基予溉鄹方法秽熬于统计方法兹特萑对毙; 农3 - 1 两种方法特性对比 t a b 3 1c o m p a r i s o nb e t w e e nt w om e t h o d s 特点 瓣于规则方法 基于统计方法 饿牲性、覆盖范围 不好较好 ( r o b u s t n s s e o v 8 r a g e ) 质量、流畅性 较好 不好 ( q u a l i t y f l u e n c y ) 表示深度 很好 较浅 ( r e p r e s e n t a t i o n ) 1 4 太原理工大学硕士学位论文 3 1 4 多引擎翻译系统 蒸于实铡的方法对予福同或相似静文本酌翻译搿非常遂著酌效果,隧 蓉例匈瘁的援模的增加其圣挈用也越来越最著。对于实例中殴有的文本,霹 以直接获得商质量的翻译结果。对于实例库中存在的实例十分相似的文 零,可以通过类冼推理,并对翻译结栗进行少璧的修改,构造近似的翻译 结果。但由予语料艨规模的限制,基于实例蛇枫器毅译馒娥达至缀亳的驻 配率:而规则方法发展到今天,相对来说已比较成熟,但由于专家描述的 娆刘知识通常颗粒浚较大,不乖j 予处理大量的细节,因雨衣处理大规模的 嚣放诱料时,遇到了难以宠服的豳难。疑然裁器熟嚣系统缝棒采鼷基于慕 一种翻译方法很难选到很商的翻译准确率,我们不妨采用相对比较成熟的 瓶鲻韵翻译方法和实钢库相结合,汲取各自的处理优势。 鉴于_ 迦,人锭缎叁然靛想到将甄秘方法毒效豹缝合起来,一宠有效 地改善机器翻译的质量。结果多引擎( m u l t i e n g i n e ) 的概念被n i r e n b u r g 提出。多引攀的含义是一个祝器翻译系统采用多个翻译方法,每个方法就 是一个琴l 擎。下图是一令多亏l 擎翻译系绞懿结梅。 1 5 太原理工大学硕士学位论文 图3 - 4 多引擎机器翻译系统 f i 9 3 - 4m ts y s t e mo nm u l t i - e n g i n e 鉴于机器翻译系统纯粹采用基于某一种翻译方法很难达到很高的翻 译准确率,本文采用相对比较成熟的规则的翻译方法和实例库相结合,吸 取各自的处理优势。利用目前最新的计算机软件技术、先进的英语语法理 论和全新的英汉双语语料库,构造一个初步的英汉机器翻译系统,正是本 文探索的课题。 3 2 电子词典的一般分类 目前最常用的电子词典的结构有多种,从其存储形式来看,可分为定 长字段型,变长字段型和定长字段变长字段混合型三种。 定长字段型词典适用于小规模词典,其优点是数据格式规熬,计算机 访问速度快,访问算法简单,其缺点是存储空间浪费严重,此种结构适用 于实验系统或微型翻译系统,实用系统般不采用这种结构。 变长字段型词典结构适用范围较大,其重要特点是可最大限度的节省 空间:缺点是计算机访问速度慢,访问算法较复杂,访问得到的数据要进 行整理后方可以使用,目前翻译系统多采用此结构。 定长字段和变长字段混合型词典结构使用较少,通常词典信息中的第 一个字段是词条,其长度为定长,而其他字段是变长的,词条为定长是为 了方便查找时的匹配,其他字段为变长是为了节省空间。 从数据组织形式来看,可分为无索引型,一级索引型,二级索引型和 多级索引型等四种。“3 无索引型结构词典很少使用,因为没有索引,所以往往要求词典是有 序的,而且为了访问方便,一般还要求每个记录是定长的。 1 6 太原理工大学硕士学位论文 一级索引词典是指词典具有一个索引文件,索引方式常用有三 种。一种是每个词条作为一个索引关键字,其中不包括重复词条;另一种 则是每一个包括重复词条的词条作索引关键字:还有一种是以词条的第一 个字为关键字的索引,其中后两种较为常见。 二级索引是指词典文件具有两个索引文件,其中第二级索引是第一级 索引的索引,第一级索引中以词条为关键字的索引居多,是词典数据文件 的索引:第二级索引通常是以词条的第一个字为关键字的索引,是第一级 索引的索引,二级索引方式在机器翻译领域中也是有一定的使用。 所有多于二级索引的索引方式称为多级索引,这种结构只适用于特殊 处理,平常很少使用。 3 3 电子词典的组织和表示 词典的组织 词典用于提供机译过程中必要的语法知识。为使词性标注尽量准确, 其信息必须足够丰富,根据词性标注的需要,词典中至少应包括如下信息 时态和语态的的表示: 如下说明: s i n g u l a :动词第3 人称单数现在时 p r e s e n t 动词非第3 人称单数现在时 i n g 动词现在分词 e d 动词过去式 e n 动词过去分词 e d e n 动词过去式和过去分词同形 b a s e e d 动词原形和过去式同形 b a s e e n 动词原形和过去分词同形 1 7 太原理工大学硕士学位论文 b a s e e d e n 动词原形、过去式和过去分词同形 b a s e e d 2 既是一动词的原形又是另一动词的过去式 n s i n g u l a :既是名词复数,又是动词第3 人称单数 n i n g 既是名词,又是动词现在分词 a _ e n 既是形容词,又是动词过去分词 a _ i n g 既是形容词,又是动词现在分词 e r 形容词n 词比较级 e s t 形容词副词最高级 p l u r a l 名词复数 n e w 词典中未登录词 谲条燕一个其钵戆蕈璃,可敬是麓裂单弱、不麓裂攀词交形、缭珞谰 等,如b e ,i s ,l 1 1 ,u s a 等。考虑到词典的规模和使用,词典中不存储舰 爨摹弱翡静静变形,面是嘏据词法瓣潮处理。 词典的外部表示 在实簸系统孛,原始谰典被组织残一个文本文箨,每令词条一行,獒 格式为: 溺条r 词性lf 溺往2 卜】j j r e f ( 被参慧溺条 7 形态信息 ) j 这里,“被参照词条”可以是词典中存在的一个或多个词条,省略时 搔奉词条,“形态信患,孺予说弱“涌条”是“被参照褥条”的何种形态。 如: c a m e r e f ( c o m e e d ) 该词楚b e c o m e 豹过去式 c o m e v e r b r e f ( b a s e e n ) 该词是动词,且其基本型和过去分 词同型 i 1 1 r e f ( 1w i l l ) 该词是1w i l l 的缩写 词条的习语或和短语( 如果有豹话) 紧跟在词条之后,每个习语或颓 太原理工大学硕士学位论文 谮一行,格式如下: i 中心调条的位置习语i d i o m 奠中心词条的镶置短谖词性l 词性2 其中,“中心词条的位置”指本词祭位于短语或习语中第几个词,插 入成分按1 个谣诗数。如: il g o o dm o r n i n g i d i o m k 3b e * g o o da t v e r b 1 9 太原理工大学颈士学位论文 第四章英汉机器翻译系统的框架设计和实现 4 1 英汉机器翻译系统的设计原则 签予橇译系凌豹磷裁是一瑗 褰溅基魏系绞王援,攫摇嚣凌熟瓣实际 经验,一个实用的机译系统常常需簧花费十几个人一年的工作缀。1 。为了 方便研制和管理,作者在机器翻译系统的框架设计中采用了以下几个重要 藏楚: ( 1 ) 数据与程序相互独立 本系统将数据与程序严格分离。作为本系统数据的机器词媳和规则均 采震癸部数据痒文锌豹形式表示,狻交放在乡 存上,与释译稷j 擎分离嚣寒, 这样既便于对数据的管理与维护,又便于翻译程序的修改与扩充。再从程 序控制机制来看,“控制”和“执彳亍”是两个不i 驯罢次上的机制,执行机 翱受责怼数据戆解辑程逡行,瑟控潮撬麓瘸在更褰靛层次土受燮整个系统 的控制。控制机制的改进会提高执行机制的性能而决不会影响执行机制的 逻辑功能;反之,执行机制的变动不会根本影响控制机制,因为控制机制 只霹英下藤豹撬行瓿翱施毒亍控割。 ( 2 ) 机器词典的设计应面向专业领域 机器翻译需要有一部合适的机器词典来支持。为了提高机器译文的质 量器工谗效率,奉系绕诞獒设诗采,琴l “基疆词条十专篷谣条”秘形式。要 翻译某一专业领域的文献,则要建立具有基础词祭和该专业词祭的词典, 例如要自动翻译测控技术专业的文献,则词典中只需要具有基础词条和计 算程专堑谲条。当改交专延领壤露,哭需改交专渡涸条部分两缣蟹基瑶运 条部分。这种积木式结构的词典既有继承性,又有可拆卸替换性,有利于 太原理工大学蹶学位论文 词典的扩充与提离。 ( 3 ) 波重翻译规则的存放次序和分类 规器翻译不援蔫要蠢部合适懿织嚣溺典,两藏嚣要有会遗戆褒到。 规则的存放应遵循先特殊后一般,先鼹体后概括的原则。机译系统的全部 规则还应该按语法分析和语义分析的需要进行分类。 4 。2 系统总体框架结构 系统总体框架结构如豳4 - 1 所示: ll l j 蹲4 - 1 英汉机器翻译系统的框架结构 f 9 4 1f r a m eo i le n g l i s h - c h i n e s em ts y s t e m 系统撼柴大致分为以下三个部分: ( 1 ) 翻译系统知识痒 撬嚣簸译豹避程可良着成是一个应越躲谖逑 亍拯遴的过程。始移 表示 是这一逡程戆鏊礁。我粥把橇器熬译中簇弼翡知识裹示形式分为瘫都稻识 和努部知识两类。其中穸 邦知识是存放予甄识痒之中,由语言工 乍者避萼亍 管理的知识,如词熊和各类规则库等,内部知识是翻译过程中临时生成的, 2 l 太原理工大学硕士学位论文 用于描述所翻译的句子的语法、语义特征的知识,如树形图、特征结 构和语义网络等。 本系统的外部知识表示由翻译系统知识库进行处理。翻译系统知识库 主要由一个语言模型、一部词典、多个规则库和一个实例库组成。词典分 为基础双语词典和专业双语词典。规则库存放短语规则、句型规则、句型 匹配规则、英汉转换规则等。所有的规则采用统一的数据结构。例如,词 典中的局部规则与全局规则具有完全相同的格式,在使用上局部规则优先 于全局规则,这样特别有利于处理一些与具体词相关的特殊用法。词典和 规则维护部分具备词典规则的动态查询、修改和增删功能。实例库用于存 放英汉双语实例及其相关信息。 ( 2 ) 系统处理部分 英语词处理部分:包括英语自动分词和兼类词的处理,这部分是短语 合并和句型匹配的基础。自动分词采用了最大匹配算法,系统利用规则和 统计的方法进行消兼。 英语分析部分:系统中分短语合并和句型匹配两部分。短语合并的任 务是利用各类短语规则和方法,将1 9 类词分层次合并为五种基本短语。 而句型匹配是在短语合并的基础上进行的。 英汉转换和汉语生成部分:本系统中英汉转换和系统生成包括词、短 语和句子等三个层次的转换和生成,各个层上的任务不同,算法也各有不 同。 ( 3 ) 使用界面 使用界面包括系统用户界面和系统管理员管理调试界面。对于一个实 际的机器翻译系统来说,语言规则和词典的调试工作是非常重要的。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新材料研发突破-洞察与解读
- 企业心理笔试题目及答案
- 水务安全培训基地课件
- 2025年农业经济师考试题及答案
- 平安银行上海市虹口区2025秋招笔试英语题专练及答案
- 2025年关于对市委政法委开展政治督察和纪律作风督查巡查的情况报告 范文
- 2025年简谱知识考试试题及答案
- 浦发银行齐齐哈尔市龙沙区2025秋招笔试性格测试题专练及答案
- 中信银行太原市清徐县2025秋招笔试英语题专练及答案
- 兴业银行南通市海安市2025秋招笔试综合模拟题库及答案
- 【西安交通大学】2025年电力人工智能多模态大模型创新技术及应用报告
- 宪法伴我们成长主题班会课件
- 2024抖音护肤行业白皮书
- 电力工程施工进度及安全保障措施
- GB/T 19973.2-2025医疗产品灭菌微生物学方法第2部分:用于灭菌过程的定义、确认和维护的无菌试验
- 装修合同意向协议书
- 商铺转租赁合同范本
- 《足球裁判员培训》课件
- 浴室工程施工组织设计方案
- 2024年秋九年级化学上册 第3单元 物质构成的奥秘 课题3 元素 第1课时 物质是由元素组成的说课稿 (新版)新人教版
- 安全隐患整改回复单
评论
0/150
提交评论