(计算机应用技术专业论文)关系词“是”和“be”的伪歧义分析及判别.pdf_第1页
(计算机应用技术专业论文)关系词“是”和“be”的伪歧义分析及判别.pdf_第2页
(计算机应用技术专业论文)关系词“是”和“be”的伪歧义分析及判别.pdf_第3页
(计算机应用技术专业论文)关系词“是”和“be”的伪歧义分析及判别.pdf_第4页
(计算机应用技术专业论文)关系词“是”和“be”的伪歧义分析及判别.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(计算机应用技术专业论文)关系词“是”和“be”的伪歧义分析及判别.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 本文的研究基于高庆狮院士等人提出的语义单元的理论。一个句子的语义,我们称 它为“句义”。在旬义中表达一个“意思”的单元被称为“语义单元”。句义由语义单 元构成。任何一个具体的自然语言中表达一个意思( 即语义单元) 的单元称为该语义单 元在陔具体自然语言中的“语义单元表示”。我们从语义单元的角度来探讨歧义问题, 可以把歧义分为两种,一种是“真歧义”,另- - s e e 是“伪歧义”。所谓“真歧义”,是 指对于不同的语义单元,其语义单元表示是相同的。而所谓“伪歧义”,就是指对于不 同的语义单元,其语义单元表示也是不同的,即那些我们通常认为是歧义,但事实上并 没有歧义的现象。 “是”和“b e ”各自在中英文中都有很广泛的用法,而它们最普遍的用法是在型如 “a 是b eb ”的关系句中表征a 和b 之间的某种关系。比如旬对“张先生是工程师。 m r z h a n g i s a l l e n g i n e e r ”中的“是b e ”表示一种职业关系。本文把“是”和“b e ”在 关系旬中的这种用法称为其作为关系词的用法。 本文通过研究大量语料发现,“是n ) e ”在中英文中作为关系词使用时,存在伪歧 义现象。能够识别出这些伪歧义,并找到它们之间准确的对应关系,不仅可以增强对语 义的理解,而且在提高汉英翻译的准确性、提高译文质量等方面也有很重要的实际意 义。本文全面列举了“是”和“b e ”所表示的关系义类型,详细分析了“是”和“b e ” 的伪歧义现象,概括总结了“是”和“b e ”的对应关系,并在此基础上提炼出了具体可 循的伪歧义判别准则。这些准则可以应用到实际的英汉翻译中,区别出不同的语义单元 表示,找到“是”和“b e ”在对应语言中恰当的对应形式,从而得到准确完整的译文。 本文设计并实现了一个伪歧义的识别检验系统,闭式测试的准确率和召回率达到 8 5 5 6 3 1 18 0 4 9 ,开式测试的准确率和召回率达到6 7 2 5 和6 4 3 8 。 关键词:自然语言处理;语义单元;伪歧义;是 关系词“是”和“b e ”的伪歧义分析与判别 t h e a n a l y s i s a n d j u d g e m e n t o ft h e p s e u d oa m b i g u i t y b e t w e e n “s h i ” a n d “t ob e a b s t r a c t t h er e s e a r c h e si nt h i sp a p e ra r eb a s e do nt h et h e o r yo fs e m a n t i ce l e m e n tw h i c hi sp u t f o r w a r d e db yg a o q i n g s h i e t c s e m a n t i co f as e n t e n c ei sc a l l e ds s a ne l e m e n tt oe x p r e s sa m e a n i n g i na ns si sc a l l e ds e m a n t i ce l e m e n t ( s e ) s sc o n s i s t so fs e s t h e r e p r e s e n t a t i o no f a n s ei nan a t u r a ll a n g u a g e i ,s u c ha sc h i n e s e ,e n g l i s h ,i sc a l l e dt h e r e p r e s e n t a t i o no f s e m a n t i c e l e m e n ti nl a n g u a g e i ( s e r i ) w ed i s c u s st h ea m b i g u i t yf r o mt h ep o i n to f v i e wo f s e ,t h e nw e c a n s e p a r a t ea m b i g u i t y i n t ot w o p a r t s :o n ei s g e n u i n ea m b i g u i t y ”,w h i c hm e a n s t h a tm o r et h a n o n es eh a st h es a m e r e p r e s e n t a t i o no fs ea n d t h eo t h e ri s p s e u d oa m b i g u i t y , w h i c hm e a n s t h a t t h er e p r e s e n t a t i o no f m o r et h a no n es eh a st h es a l t l et e r m i n a l s y m b o la n dd i f f e r e n tn o n t e m a i n a l s y m b o i s c h i n e s ev e r b “是”c o r r e s p o n d st oe n g l i s hw o r d s “t ob e ”a n d t h e yc a n u s ea sr e l a t i v ei nt h e s e n t e n c e so f “a 是,b eb ”t oe x p r e s sak i n do f r e l a t i o nb e t w e e n a a n d biw h e n t h e yu s e a s r e l a t i v e ,t h e r ee x i s t sp s e u d oa m b i g u i t i e s i f w e c a r li d e n t i f yt h e t y p e so f t h e s ea m b i g u i t i e s ,i tw i l l d oal o tf o re n h a n c i n gt h eu n d e r s t a n do f s e m a n t i c m e a n i n g a n d i m p r o v i n g t h ev e r a c i t yo f e n g l i s h - c h i n e s et r a n s l a t i o n t h i sp a p e re n m n e r a t e st h er e l a t i o n st h a t “是b e ”c a l le x p r e s s r o u n d l y ,a n a l y z e st h ep s e u d oa n l b i g u i t i e so f “是,b c ”d e t a i l e d l y s u n u n a r i z et h ec o r r e s p o n d i n g r e l a t i o n sb e t w e e n “是”a n d b f ,a n da b s t r a c tt h er u l e so f i d e n t i f y i n gt h e s ep s e u d oa m b i g u i t i e s f r o ma l la b o v e t h e s er u l e sc a r lb eu s e di n t ot h ea c t u a lt r a n s l a t i o nb e t w e e n e n g l i s ha n dc h i n e s e t h e y c a l ld i s t i n g u i s ht h ed i f f e r e n ts e ra n d c o r r e s p o n d “是”o r b e ”i n t ot h ec o r r e s p o n d i n g l a n g u a g e w i t ht h er i g h tf o r m t h e nw e c a r g e t t h ee x a c ta n di n t e 簪i t yt r a n s l a t i o n 。 w ea l s ed e s i g na n dr e a l i z ea ni d e n t i f i y - a n d - v e r i f ys y s t e m w eu s et h er e a lc o r p u st ot e s t a n dt h er e s u l ti sa g n e e a b l e :t h e p r e s i c i o n a n dr e c a l lr a t er e s p e c t i v e l yr e a c h e s8 5 5 6 a n d 8 0 4 9 b yc l o s e t e s ta n dt h ep r e s i c i o na n dr e c a l lr a t ea r e6 7 2 5 a n d 6 4 3 8 b yo p e n t e s t k e yw o r d s :n a t u r a ll a n g u a g ep r o c e s s i n g ;s e m a n t i ce l e m e n t ;p e s u d oa m b i g u i t y ;t ob e 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究 工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得 大连理工大学或其他单位的学位或证书所使用过的材料。与我一同工作 的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢 意。 作者签名: 强榴 日期:翌! ! 主! 生! ! ? 大连理工大学硕士学位论文 引言 目前世界上m t 领域的比较成型的主流研究方法基本上可以分为两大类,即基于规 则( r u l e - - b a s e d ) 和基于语料库( c o r p u s - - b a s e d ) 的方法。而本文的研究是使用基于 语义单元的研究方法。 早在8 0 年代,高庆狮院士等人就提出了语义单元的概念,并阐述了基于语义语言 和语义单元来进行机器翻译和自然语言处理的设想及其可行性。基于语义语言和语义单 元进行n 种自然语言的互译时,不是一般的n ( n 一1 ) 套,也不是通常基于中间语言 的2 n 套,而只需建立n 套翻译系统。每一套只需语义分析和展开两部分,翻译过程十 分简单,而且由于这种翻译需要严格的对应,因此准确率得到了保证,不会出现混乱的 现象,如果没有找到合适的语义单元,就会直接报错。可以说这是不同于传统的机器翻 译方法的一种全新的手段和方法,目前这种方法正处于一种由理论向实践过渡的探索和 实施阶段,本文就是这众多探索中的一个。 本文的研究内容就是作为关系词使用的“是”和“b e ”的伪歧义问题。之所以选择 这个研究内容,是因为“是”和“b e ”作为关系词使用时,用法十分广泛,可以表示多 种关系,而它们之间的对应又十分复杂,不是简单的一一对应关系,在实际的翻译过程 中很难得到十分准确的译文。上海交通大学的陆汝占和国家语委的靳光瑾曾在一篇名为 “是”的内涵逻辑语义解释的文章中,总结过“是”作为关系词使用时所表征的三 种关系,这给了我们启发,我们通过研究大量的语料发现“是b e ”所能表示的关系远 远不止三种,而且表示不同的关系“是b e ”之间存在伪歧义。( 从语义单元的角度来 看歧义问题,可以把歧义分为两种:真歧义和伪歧义。所谓伪歧义,即表面看起来有歧 义,而实际却不存在歧义。) 我们总结了“是,b e ”这一语义单元在表达不同的关系时的 规律,并研究了“是”和“b e ”的对应情况,争取把这一问题研究透彻,以便以后在涉 及到“是”与“b e ”的互译时,可以得到准确完整的译文。当然,这只是一种全新的探 索和尝试,其中也有很多需要改进和斟酌的地方,不过初步的实验证明本文所提出的方 法是基本可靠的。这也为多语言之间的互译开辟了一条崭新的道路和思路。 关系词“是”和“b e ”的伪歧义分析与笋4 别 1 机器翻译概述 1 1 机器翻译的含义及特点 翻译是从一种语言到另外一种语言或多种语言的变换过程。世界上不同国家或民族 的人们使用不同的语言,在大多数情况下必须通过翻译才能进行交流。如何克服由语言 不同而带来的不便? 能不能找到一种自动翻译的方式来满足人们的需要? 在计算技术飞 速发展的今天,人们很自然的会想到使用计算机来帮助我们,这就是机器翻译要研究的 内容。机器翻译( m a c h i n et r a n s l a t i o n ,m t ) 就是应用计算机实现从一种自然语言文本 到另一种自然语言文本的翻译品牌 1 。机器翻译是自然语言处理研究领域的一个分支, 它与计算语苦学,自然语言理解都是密不可分的。机器可以翻译,但是却不能象人一样 进行各种各样的翻译,至少在未来相当长的段时问内是这样的。人类的翻译能力是经 过长期学习和训练而培养出来的,而且,计算机的智能远远无法和人相比,因此,如果 要翻译好,必须请专门的翻译人员才行。按照英国学者h u t c h i n s 的分析,机器翻译的应 用可分为以下四类:第一,用于发行( d i s s e m i n a t i o n ) 。期待m t 的翻译结果达到人工 翻译的水平,可直接分发给阅读者。这是一种最传统的要求,但是m t 系统的输出必然 总是要经过人工修改才能达到其目标。或者把待翻译的文本及其语言格式限制在一个非 常狭窄的范围内,以便于m t 系统处理。第二,用于浏览( a s s i m i l a t i o n ) 。虽然m t 的 译文不能达到直接发行的质量,但是有一些低水平的翻译总比没有翻译要好。有些用户 在m t 输出的未经编辑的译文里发现了他们所需要的东西,因此第二种应用在某种意义 上是第一种应用的副产品。第三,用于交流( i n t e r c h a n g e ) 。随着国际交流的日益广 泛,特别是i n t e m e t 的普遍开通,产生即时翻译( i m m e d i a t et r a n s l a t i o n ) 的大量需求。 m t 应在这种需求当中找到其自然的角色。更进一步的,与语音识别和语音合成结合起 来,构成语音翻译系统,如电话翻译系统等,将给人们带来极大的便利。尽管语音翻译 实现起来还非常困难,但是已经得到了人们的注意,并开始了这方面的探索。第四,用 于信息获取( i n f o r m a t i o na c c e s s ) 2 】。m t 可作为各类信息获取系统的一部分,构成多 语言环境下信息检索、信息抽取、文摘、数据库查询等应用中不可缺少的部件。 机器翻译研究的特点是:第一,学科交叉性。m t 涉及计算机科学与语言学的交 叉。显然,如果不研究语言学规律,汇集语言使用的知识,m t 系统智能是无源之水: 反之,如果只有语言学研究成果而不能用计算机加以实现,m t 就是一句空话。因此, 需要计算机工程师与语言学者密切合作,才能推动m t 不断发展。第二,可计算性。既 然是m t 而不是人工翻译,所以,有关翻译的方法和知识都必须具有可计算的性质,即 一2 人连理l :大学硕士学位论文 能够用计算机程序实现,才能应用于m 1 0 第三,难解性。因为m t 的处理对象是自然 语言,而人类对于语言认知的过程仍然不清楚,所以计算机不可能达到人类对语言的驾 驭程度。因而要实现全自动、高质量的m t 至少在目前是极其困难的。因此,m t 被称 为是要在2 1 世纪解决的科技难题之一。主要困难就是自然语言在各个层次上的歧义 性,也称二义性或多义陛 3 - 4 1 。m t 的根本任务是要在处理过程中逐步消除这些歧义, 从而正确的理解并翻译一个句子或篇章。第四,实用性。此条似乎与上一条有矛盾,但 现实往往就是如此奇怪。尽管m t 研究存在着极大困难,还是面临着人们对它抱有过高 期望的巨大压力。各种各样的m t 技术研究的最终目标就是要建造一个实用的m t 系 统。倘若m t 研究不是朝着部分代替人类翻译的目标前进,那么它也就失去了存在的价 值。可以说这是m t 最重要的特点。正如国外专家所说,m t 研究者不得不扮演科学的 和商业的双重角色,以便随时在语言这个无底洞和它的使用者之间做出正确的妥协。 机器翻译的研究与实用系统的最终实现有着重要的实践意义和理论意义,可归纳为 如下几个方面:第一,实践上的意义。在当今信息社会,国际间的交流与合作同益广泛 和深入,“地球村”的概念正在为越来越多的人所接受。在这种过程中,语言的差异是 一个非常重要的障碍。各行各业的人们每天都要面对大量使用他们所不熟悉的语言写成 的文档资料,要与和他们持不同语言的人们进行交流。如果单纯依靠人工翻译,这些日 益增加的待翻译材料无疑是一种非常沉重的负担,而机议系统的成功运行必将大幅度的 减轻这种压力。第二,学术研究上的意义。m t 研究对于了解人类语言和思维的基本机 制,探索计算机及人工智能的潜力和极限都有着重要意义。第三,商业上的意义。m t 产品的广阔应用前景和很高的技术含量决定了它必将为m t 系统的开发与销售带来可观 的经济效益以及社会效益。 1 2 机器翻译的实现方法 9 0 年代以来,m t 领域的方法基本上可以分为两大类,即基于规则( r u l e b a s e d ) 的方法和基于语料库( c o r p u s - - b a s e d ) 的方法。基于规则的m t 是传统的方 法,而基于语料库的m t 则是8 0 年代末以后发展起来的方法。基于规则的m t 又可分 为基于转换的方法和基于中间语言( i n t e r l i n g u a - - b a s e d ) 的方法;基于语料库的m t 又 可分为基于统计( s t a t i s t i c s - - b a s e d ) 的方法和基于实例( e x a m p l e - - b a s e d ) 的方法。传 统的基于规则的方法称为理性主义( r a t i o n a l i s t ) 方法,与之相对,基于语料库的方法 称为经验主义( e m p i r i c i s t ) 方法。 。3 关系词“是”和“b e ”的伪歧义分析与判别 1 2 1 基于规则的m t 方法 基于规则的m t 方法的一个基本假设就是认为翻译的过程是一个需要对源语言的分 析和源语言意义的表示,然后再生成等价的目标语言的过程。基于规则的机器翻译方法 的基本特点可以概括为层次性和模块性。层次性是指m t 采取由词到句的不同层次的分 析过程,建立一种中间表示,然后完成由句到词的不同层次的转换和生成过程。 1 2 1 1 基于转换的m t 方法 基于转换的机器翻译系统( m ts y s t e m ,简称m t s ) 要经过三个处理阶段:分析, 转换,生成。这种方法被认为是模拟人类翻译活动的最恰当的机制。实际上在人的翻译 过程中,把一个源语言句子译为目标语言句子,涉及到三个基本操作:调序、删词、增 词。在m r s 的操作过程中也不例外。这就是m t 的从源语言到目标语言的转换过程, 称之为转换阶段( t r a n s f e rp h a s e ) 。而在这之前判断主谓宾的过程称之为分析阶段 ( a n a l y s i sp h a s e ) 。m t s 要生成合乎目标语言语法的句子,通常还要经过一个生成阶 段( g e n e r a t i o np h a s e ) 。基于转换的方法采用了一系列的分析和转换生成层次,使一个 源语言句子经过不同的中间表达形式,最终到达目标语言句子的表示。其目的是尽可能 的加深对源语言的理解,生成尽可能恰当的目标语言形式。基于转换方法的m t 处理过 程如图1 1 所示。 自然语言的机器翻译目前一般都是以句子为翻译单位的,句子又分为旬、短语、词 三个层次。翻译一个句子首先要理解源语言,即将源语言句子分析到一定程度,表示为 计算机的某种内部形式。这就是图l 中的左半部分,属于分析阶段。然后从内部形式经 过一系列变换,形成目标语言的词串,构成目标语言句子。这就是图1 的右半部分,属 于转换和生成阶段。整个机器翻译过程的输入是源语言句子,即源语言词汇串,输出是 目标语言句子,即目标语言词汇串。 分析阶段一般分为词法分析、句法分析、语义分析、语境分析等几个步骤,其中以 词法分析和句法分析为主。词法分析需要实现的功能可能是单词切分( 如汉语、目 语) ,也可能是单词形态切分( 如英语、德语、法语、俄语等) ,此外还有某些词组的 切分等。句法分析的任务是确定句子中每个词的词性( 或称词类) ,确定词与词之间的 关系以便构成短语,确定短语之间的关系以便构成更大的短语或者组成句子,是整个分 析过程的主要部分。确定词性的阶段称为词性标注。语义分析相对来说比较困难,涉及 的知识较多,既缺乏统一表示,也缺乏有效的机制。但是语义对于提高译文质量是非常 重要的,因而也受到研究者的普遍重视。m t 中的语义分析在很大程度上是和分析相联 系的,因为m t 不是强调理解一个句子,而是要在理解的基础上再转换成另一种语言的 4 大连理e 大学硕士学位论文 句子,丽且在句法形式上要相似。语境分析研究的是句子与句子之间的联系,也就是上 下文( c o n t e x t ) 关系,此时分析已经从句子扩展到段落或语篇。上下文关系可能对句子 内部的理解和翻译有影响,例如对某个代词指代哪一个名词的分析。句子经过分析阶段 以后,就得到了源语言句子的种计算机内部表示,其形式一般是树型结构或者网络结 构,树型机构称为句法树( s y s n t a xt r e e ) 。 k 1 句子输入 1 1 i 句子输出 图1 i 基于转换方法的m t 处理过程 f i g 1 1t r a n s i t i o n b a s e dm t p r o c e s s i n g 句子经过分析阶段之后,进入转换和生成阶段。这两者一般联系得比较紧密,无法 严格区分,因为转换到目标语言也就是要生成目标语言的词汇、短语、句子。 一5 一 关系词“是”和“b e ”的伪歧义分析与判别 1 2 1 2 基于中间语言的m t 方法 基于中间语言的方法是对源语言进行分析以后产生一种称为中间语言的表示形式, 然后直接由这种中间语言的表示形式生成目标语言。所谓中间语言就是自然语言的计算 机表示形式的系统化,它试图创造出一种独立于各种自然语言,同时又能表示各种自然 语言的人工语言。 基于中间语言的m t 方法主要有两个优点。首先,独立的中间表示形式为多语种之 问的互译的实现提供了一种经济有效的途径。假设要对n 种语言进行互译,则有n ( n 一1 ) 个语言对。不同方向的翻译是不同的语言对,如英译汉和汉译英不是同一语 言对。此时如果采用基于转换的方法,因为把每- l e e 语言翻译成另种语言都需要一个 不同的转换机制( 或模块) ,所以n ( n 一1 ) 个语言对共需要n ( n 一1 ) 个独立 的转换机制。而采用中间语言的方法,由于对每一种语言只需实现将该种语言翻译成中 间语言和把中间语言翻译成该种语言这样两个模块,所以总共只需要2 n 个模块。其 次,中间语言不仅仅是对基于中间语言的m t 这一特定目的有意义,同时,作为一种通 用的自然语言表示,也值得深入研究。 基于规则的方法在机器翻译界一直占有主导地位,直到今天仍发挥着重要作用,现 在有影响的机译系统也都是基于规则的。 1 2 2 基于语料库的m t 方法 基于规则的方法在m t 发展中起了极为重要的作用,但是,随着研究者对m t 系统 处理真实文本的不断测试,发现由人工确定的有限规则难以正确翻译大规模的现实语 句。因此,从8 0 年代以来,人们寻找新的方法,从而产生了基于语料库的方法。所谓 语料库( c o r p u s ) ,就是把各种在现实中使用的真实文本收集到一起,并不对原来的语 句进行修饰润色,这样构成的集合就称为语料库。显然,机器翻译只有对语料库中的真 实句子进行翻译研究,才有可能建立起满足现实要求的m t 方法和系统。 为m t 服务的语料库应该是源语言和目标语言双语对照的双语语料库,或者是多种 自然语言对照的语料库。要进行深入细致的研究,必须使用已经有了各种语法( 和语 义) 信息标注的双语语料库。一方面我们可以直接使用语料库进行机器翻译中的分析、 转换和生成,另一方面可以间接使用语料库,将其作为获取翻译知识和统计知识的依 据。 1 2 2 1 基于统计的m t 方法 基于统计的m t 方法最早是由i b m 的研究者提出来的。他们受到语音识别研究的 启发,应用了类似的方法。以大规模英汉双语语料库( 3 百万句对) 为基础,对源语言 6 人连理_ | 。入学硕士学位论文 和目标语言词汇的对应关系进行统计,根据统计规律输出译文。这种方法没有使用语言 知识,却也取得了4 8 的正确率。其主要特征是概率统计与随机过程的方法成为了分 析和生成过程中的唯一方法。这种方法的主要内容是双语句对的对齐( a l i g m n e n t ) 、通 过词汇同现的可能性来计算一种语言的一个词映射到另一种语言的一个词( 或两个、零 个词) 的概率。应该况,基于统计的m t 方法的出现改变了m t 研究的面貌,从而开始 了m t 研究的新阶段。不过,有些学者对纯统计方法提出了异议,认为必须引入高层语 言模型,认为这种方法不一定能很好的作用于另一对语言,也不能产生高质量的m t 。 1 2 2 2 基于实例的m t 方法 基于实例的的方法最先由同本学者长尾真在1 9 8 4 年提出的,在8 0 年代未得以实 现。该方法认为:翻译的过程一般就是查找和复现相似的例子,发现和记起特定的源语 言表达或其相似的表达在以前是如何翻译的。在翻译时把以前的翻译实例作为主要翻译 知识源。其基本思想很简单:对于输入的任何一个句子s ,通过一定的评分机制在语料 库中匹配一个最相近的句子s 。这样s 在语料库中的译文t 就可以作为s 的译 文。需要的话,可以对t 进行必要的修正,使之更接近或完全等同于s 的译文t 。与 s 相近的句子可能不止个,所以,选取最佳候选的算法是基于实例方法的关键技术之 一。o 】2 3 混合方法 尽管几十年来对m t 方法进行了多方探索,但许多m t 专家认为,m t 研究的真正 进展大多来自混合方法( h y b i r d a p p r o a c h e s ) 。因为不论采耿何种途径进行m t 研究, 实现m t 系统,单一方法都很难达到预期的效果。诚如有的m t 学者所指出“一个机器 翻译系统很少把它的理论贯彻到底”。所以将基于语料库的经验主义方法与基于规则的 理性主义方法结合起来,成为了国际上许多m t 研究者的共识,并在实践中加以应用。 把各种m t 方法结合起来,我们称之为混合策略,可以有多种方式。混合策略之一 是将多种m t 方法集成在同一个m t 环境之下,各个m t 引擎同时或分别工作,这就是 多引擎m t 体系。这种策略的目标是要改善系统的结果,可称为面向结果的策略。该体 系有两种工作方式,即译后判定和译前判定。译后判定方式工作过程是把同一篇输入送 给各个翻译引擎,待各翻译引擎输出译文后在其中挑选最佳的翻译结果进行组合,然后 生成最终的译文。译前判定方式工作过程是对同一篇输入先将其拆成合适的句子组,然 后判断哪一组适台哪个翻译引擎,随后发给相应引擎,最后再组合各个翻译引擎的译 文。 7 关系词“是”和“b e ”的伪歧义分析与判别 混合策略之二是面向机器翻译过程,即在翻译的不同阶段使用不同的方法,提高各 个处理阶段的正确率,从而提高整个系统的翻译质量。例如,用基于统计的方法消除词 性兼类,采用机器学习( m a c h i n el e a r n i n g ) 方法从语料库中学习语言规则然后用之于 句法分析等等。实际上,在m t 处理过程的不同阶段,哪种方法的正确率高就采用哪 种,这对于开发实用系统是非常可取的策略。 1 3 机器翻译的现状 如果狭义的理解机器翻译,将其视为一种多功能的系统的话,机器翻译还不能说已 经实现。但若摒弃已显过时的“机器”一词,将机器翻译看作包括多种翻译系统的技 术,那么,机器翻译实际上已经在运行。在这个意义上说,机器翻译是包括人与机器、 体力与智能,可迅速满足多种翻译需求的系统。当今不同形式的翻译工程的发展,正呈 聚合趋势,机器翻译和计算机辅助翻译之间的区别日趋模糊,机器翻译正以包容各种技 术的胸怀,为翻译自动化作出努力。这种聚合趋势的直接结果便是形成运用多种技术的 “翻译工具箱”,以加快翻译过程。这一目的性决定了人力介入亦属这一综合系统的一 部分。 目前,迅猛发展的网络技术,通过为需要翻译服务的客户提供理想的传递平台,在 各种翻译技术形成连续统一体方面起了重要作用。许多网站现在可为在线浏览和文件摘 要提供翻译服务。作为翻译提供者的网站或许很快会提出运用翻译储存技术来建立在线 翻译工厂,以满足上网顾客的翻译需求。从技术上来说,这种方法己为综合性语言服务 提供了可能性。 为使软件技术更适于广泛的网络应用,在翻译领域的相关技术研究也在蓬勃发展。 翻译程序的研究在欧洲和美国曾长期客观存在资金短缺的制约,而今这一研究热潮再度 兴起,无论在相关基础研究领域还是在应用研究领域都是如此。研究的焦点现集中在 e b m t ( e m a r n p l e b a s e d m a c h i n et r a n s l a t i o n - - 一以实例为基础的机器翻译) 。这种方法是 将翻译存储器中的逻辑真正大规模的应用于相应的译文资料库。使用特设软件,翻译系 统便可开动,通过统计分析从大量相匹配的双语资料中获取词、词组和句子的相应译 文。 同时,翻译自动化正被应用于电话技术。在这个迅速缩小的世界,当你需迅速给某 个与你语言不同的人发送讯息时,你可以要求使用话语全译电话技术系统,或电话翻译 机,或话语翻译机。这项研究在日本,德国,美国等国家已经进行了几十年,现形成融 话语、语言技术、电信、贮存器等为一体的工作原型。大多数话语翻译机研究组还取得 具有晕程碑意义的成果。 一8 一 大连理= 大学硕士学位论文 无论上述这些翻译技术项目能够给予人们多少承诺,旧式的翻译行业都将少有施展 余地,过去由翻译工作者制作的双语资料,正逐渐在全球范围内由翻译系统来承担。 经过5 0 余年的发展,机器翻译对于许多人来说已经不是很陌生的了。今天我们可 以在软件商店买到形形色色的p c 机译软件,有各种语占间的机器翻译软件,如英文到 中文的、中文到英文的,或者日文到中文的,甚至也有英文到日文的等等,还有家庭版 的、专业版的、配带各种不同专业词典可供选择的等等。据估计,世界上目前市场上有 1 0 0 0 多种不同的机器翻译软件在销售,我国具有一定规模的p c 机器翻译软件也有近 2 0 种。在世界范围内p c 机译软件的价格都不贵,而且价格还在不断地下降。现在我们 甚至可以在网上免费享用翻译系统的服务 5 。 总的来说,机器翻译的发展现状可概括为如下四点: ( - - ) 发展很快,实用化翻译软件产品逐渐增多: ( 二) 译文质量普遍很低,可读性较差; ( 三) 理想与现实之f 到差距很大:用户期望值很大,而翻译软件能力很低,极度 “弱智”; ( 四) 机器翻译的理论研究没有取得重大突破,但机器翻译的性能在逐渐提高。 9 。 关系词“是”和“b e ”的伪歧义分析与判别 2 语义单元、语义语言和基于语义语言的机器翻译方法 2 1 语义单元的提出 自然语言的机器翻译已经有半个世纪的研究历史,但是,其翻译质量至今仍然不能 令人满意。其原因不同的人有不同的看法,我们认为主要是语言学问题,语言知识尚不 能得到比较精确的表示。 使用不同语言的人们之所以能够沟通,他们使用的不同语言的句子之所以可以翻译 是因为这些句子之间有相同的句义,我们称这些句子之间有对应关系。般说,各种语 言的字、词、词组不一定有确定的对应关系。1 9 8 2 年中科院计算技术研究所提出了称 为语言模式的翻译单元( 即语义单元表示) 的概念,包括不带变量的和带变量的。例 如,( 主语句子 ( 旬一( 减) 主语 a s a s p o s s i b l e ,其中,( 主语句子 , , 都是变量,变量的值可以是满足一定条件的词、词 组、语义单元( 表示) 构成的集合中的一个元素。这里的定条件是指类型相同,这里 的类型是指具有某种语义特征的类。也就是说句子不是由语义单元表示线性排列所组 成,而是由语义单元表示交错所组成。显然,有些语义单元,不是所有的自然语言中都 有其对应的语义单元表示。 1 9 8 9 年高庆狮等人在计算机研究与发展上发表了一篇类人机译系统原理的文 章,首次提出并阐述了语义单元的概念,不过当时的叫法为“最小语言模式”。文章中 给出如下定义:词变量( 可变词) 是一个变量,它的值为词。定义域是一个由词构成的 集合。语变量( 可变语) 、子句变量( 可变子句) 、语言单位变量( 可变的语言单位) 的定义与词变量的定义相似,只需把词改成为对应的语和子句。语言模式是一个翻译单 位,它由一个语吉单位或由语言单位及语言单位变量组成。最小语言模式是最小翻译单 位,它是一个语言模式,它不可能分解成为两个以上的满足条件的语言模式,它的意义 等于各个语言模式意义的合成。这里的“最小语言模式”,后来逐步演化为“语义单 元”( 6 。 2 2 语义语言和具体自然语言 2 2 1 语义单元和语义语言的定义 任何一个“具体的自然语言”( 例如英语,汉语,) 的一个“句子”的“语 义”,我们称它为“旬义”。在句义中表达个“意思”的单元被称为“语义单元”。 旬义由语义单元构成。任何一个具体的自然语言中的一个表达一个意思( 即语义单元) 一1 0 , 大连理i 人学硕士学位论文 的单元称为该语义单元在该具体自然语言中的“语义单元表示”。一个具体的自然语言 的句子是一个句义在该具体的自然语言中的“句义表示”。不同的具体自然语言之间的 句子,之所以能彼此翻译,使用不同的具体自然语苦的人们之所以能够彼此交流,就是 因为不同的具体自然语言之间有对应于相同语义的句子,或者可以建立表达该语义的一 组句子。一个具体的自然语苦是由全部语义单元表示( 包括全部句子,即全部句义表 示) 组成。语义语苦是由全部语义单元( 包括全部旬义) 组成。一个具体的自然语言i 可以看成为语义语言的一种表示( 即在1 上的表示) 。 下面给出语义语言的形式化定义: 语义语言形式系统( a o ,# ,g o ,c ,】 a 0 :终结符字母表。 # :参数变量标志符。 e 0 :语义单元集。e ( j = s o u u 其中, s o = a i 仪( a o ) ; u 0 = v ( 墨v ) l v 6 ( a o ) $ $ ;_ x v := # c b v * i _ x v # c b v ; c b v * := c b v ic b v * c b v ;c b v e c v ,c v _ c c ) 。 c :类集,每个语义单元s e ( s e m a n t i ce l e m e n t ) 都对应于一个类型c e ,c e c 。 m :参数变量替换规则集。( x 替换成为y :x 寸y ) # c b v * - c t ,可替换的条件:仅( a 0 ) 十;t ( o l ) c v ; # c b v * - - - * v ( 堇v ) ,可替换的条件:t ( v ( 羔v ) ) c v 。 其中,( x ) + 字母表x 上的字,s o 为不带参数变量的语义单元集,u 0 为带参数 变量的语义单元集。v ( x ) 为带参数变量的语义单元,它由语义单元v ,参数变量表 ( 茎) 组成。参数变量表( 墨) 由左括号“( ”,参数变量向量整和右括号“) ”所组 成。参数变量向量翌由有穷有序的参数变量组成,参数变量是由参数标志符# 和类型表 c b v * 所组成。类型表c b v * 由有穷个( 无序) 类型c b 所组成,其中c b c 。t ( e ) 表 示语义单元e 的类型。这里的类型是指具有某种语义特征的类,而不是通常的语法类 型。 语义语言s l ( s e m a n t i cl a n g u a g e ) = e 0 。即,语义单元的全集 7 】。 2 2 2 具体自然语言的定义 具体自然语言的形式化定义如下: 具体自然语言( i 一语言) 的形式系统:( a 1 ,# ,r i ,c ,巾) a 、:终结符字母表。 关系词“是”和“b e ”的伪歧义分析与判别 # :虚量标志符。 r ,:语义单元表示集。r - - - - - s l u u ,u v ,其中, s i = ( 陋( a t ) 4 ; u = # c i , i , _ t ic ”:= c m ic n 。 c c n 。c v ,c 哐c ) ; v i = 7 i y e ( a i l g u i ) 女十 。 c :类集,每个语义单元表示s e r 都对应于一个而且只有一个类型c 。c ,c 。 m :虚量替换规则集。( x 替换成为y :x - y ) # g ,$ _ 理,可替换的条件;t ( o 【) c ,; # c h 。 j p ,可替换的条件:p u 1 ,t ( p ) c v : # c 吖,可替换的条件:t ( y ) c v 。 其中,( x ) t + 字母表x 上的字,s i 为不带虚量的语义单元表示集,v l :带虚量的 语义单元表示集。u 】:没有实量( 即只有虚量) 的语义单元表示集。语义单元表中的虚 量对应于语义单元中的( 参数) 变量。一个虚量可以有多个类型,它们之间是或的关 系,这里“”表示或。虚量由虚量标志符# 及类型表c i ,v 所组成。类型表c b 由有穷 个( 无序) 类型c b v 所组成,其中c b 。c v ,c 呕c 。t ( e ) 表示语义单元表示e 的类 型。这旱的类型是指具有某种语义特征的类,而不是通常的语法类型。 一个具体的自然语言_ 中的个句子是一个全部虚数都被不带变量的语义单元表示替 换了的语义单元表示。 具体自然语言( i 一语言) i l = r l 。即,i 一语言的语义单元表示全集。 这里有两点需要注意:第,替换规则不是产生式。s o 、u o 、s 1 、u l 、v 不是从某 个初始符出发,按某组产生式规则产生的字母表上的字的全集。第二,在语义语言中, 带参数变量的语义单元与纯参数变量的语义单元不需要加以区别,虽然它们在其体自然 语言中的表示是有区别的。显然,这个具体的自然语言的定义与通常的定义不同。通常 的定义是由终结符、非终结符、初始符和产生式产生的句子全集。在本定义中,没有产 生式,没有初始符。语言也不是由形式系统产生的。语言的多数成员是客观存在的,只 有部分内容可以通过带变量( 及虚量) 的成员,通过变量( 虚量) 替换构成。 2 2 _ 3 举例说明 比如汉语的句子:“张先生是工程师。” 其句义是张先生现在的职称是工程师。其旬义是语义单元,可以写成是秣( 先生 ( 张) ,工程师) 。其中,是嘛( x ,y ) ,先( x ) ,张,工程师是四个语义单元。 是( x ,y ) 的参数x 是属于与人有关的名词、代词集合,参数y 是属于职称集合。 一1 2 大连理工大学硕士学位论文 先( x ) 的参数x 是属于姓、名字、姓名的集合。句义及四个语义单元对应的汉语语 义单元表示分别为:张先生是工程师;x 是聃y ;x 先生;张;工程师。该旬义及四个 语义单元对应的英语语义单元表示分别为:m r z h a n g i sa l le n g i n e e r ;xi s t pay ;m r x ;z h a n g :e n g i n e e r 。该句义及四个语义单元还可以写成为:i sr i ,( m r ( z h a n g ) , e n g i n e e r ) ;i s h ,( x ,y ) ;m r ( x ) ;z h a n g ;e n g i n e e r 。其中,t p ( t h e t i t l eo f a t e c h n i c a lp o s t ) 表示职称。这五个语义单元的两种写法都是方便记忆的写法,在计算机 系统内部可以写成为1 ( 2 ( 3 ) ,4 ) ,1 ( x ,x 哺) ,2 ( x 蛀) ,3 ,4 。参见表2 1 和表2 2 。 表2 1 语义单元的计算机内部表示( 一) 1 是聃( x ,x 秣) 是端( x ,x 璐) = l s l p ( x ,x 哺) = 洼t 十( x ,x 猎) 4 工程j | g i = e n g i n e e r = - - 技邬 2 3 基于语义语言的多语言翻译方法 2 - 3 1 语义单元的提取 1 提取:各语言独立提取,而不是以某个语言为中心。这个重要的特点有助于多 语言并行高效的开发。 2 完备:完备是相对的。i 一语言的s e 在j 一语言中未必自然存在。例如,一般 说,汉语的“叶公好龙”这个语义单元在其他语种中是不存在的。 3 不完备的处理:( 1 ) 加补:( 2 ) 转换。 一1 3 芙系词“是”和“b e ”的伪歧义分析与半另0 4 在一个语言中加补其他语言提取出的语义单元的一般方法列举:( 1 ) 音译加 注解。例如,马达;( 2 ) 近义意译加注解。例如,汽艇;( 3 ) 近义词加区分 词。例如,洋葱等等。 5 ,转换:例如,汉语的“中午1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论