




已阅读5页,还剩67页未读, 继续免费阅读
(模式识别与智能系统专业论文)自动口语翻译系统中的译文生成方法的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 本论文介绍的是我们对基于中间转换格式( i f ) 的口语翻译系统中目标语 言生成方法的研究工作。论文方面介绍了我们针对特定领域的基于i f 汉语生 成的研究,另一方面介绍了我们对基于i f 的口语翻译中具有领域和语言可移植 性生成理论和方法的研究。归纳起来,论文主要完成以下几项工作: 论文第一项工作是对汉语口语特点进行了分析,并研究实现了一个面向特 定领域的中文句子生成器。该生成器没有采用通常的微观规划和表层生成的两 步结构,而是采用一体化的结构。生成器分为两层:句子规划层和短语规划层。 生成方法主要采用的是模板的方法。不同于一般意义上的模板,这里的模板既 含有变量,也含有需要进一步处理的函数。生成器与基于特征的流水线结构的 生成器相比有更高的效率。同时,该生成器比一般的模板生成器灵活性更强。 论文第二项工作是对生成策略的研究。在口语翻译系统中,效率、灵活性 和鲁棒性是三个非常重要的方面,针对这些要求,我们采用了基于模板与基于 特征相结合的混合生成策略。对于一些固定的表达方式,我们采用带有变量的 模板方法进行生成以提高效率:而对于其它比较灵活的表达方式,我们采用基 于特征的生成方法以满足系统灵活性的要求。模板方法具有高效的特点,但是 不够灵活,而且领域可移植性较差。而基于特征的方法恰恰相反。二者的结合 使生成器兼顾了效率与灵活性。针对鲁棒性的要求,我们在微观规划和表层生 成部分都采取了措施。由于汉语对句子参与成分并没有象英语等其它语言那样 高的要求在汉语句子生成中,我们取消对句子参与成分的约束,即允许生成 不完整的句子。对英文生成来说,我们同样尽可能放松对句子参与成分的限制。 此外,根据领域知识,我们还对某些句子成分设置了缺省值。这些措施都使得 生成的鲁棒性和效果大大改善。 第三个工作是对微观规划方法的研究。我们微观规划是根据i f 的特点设计 的,主要有三个子任务:句子规划、短语规划和词汇选择,最终规划的结果得 到一种适合于句子生成的语义句法特征结构。本方法具有较高的效率,词汇选 择的引入也改善了生成的准确性和自然度。句子规划根据i f 表达式和领域知识 确定句子类型、谓语动词和句子的谓词一论元框架,以及语气、时态、情态等 信息。短语规划的功能是根据i f 的参数列表获得句子的浅层短语结构信息。i f 在参数列表中对浅层信息具有很好的形式化描述,非常有利于短语的生成。我 们充分利用这一优势,在此引入依存语法的思想,以简化系统,提高生成效率。 词汇选择在微观规划中起着很重要的作用,其功能一是由i f 的领域行为确定谓 语动词,二是尽量消除歧义现象,三是根据内容词( 实词) 确定功能词( 虚词) 。 我们的词汇选择模块采用区分网络和结构映射系统相结合的方法分别对内容词 和功能词进行处理。 中科院自动化所硕卜论文自动口语翻译系统中的译文生成方法的研究 论文进行的第四项工作是对通用的表层生成理论及方法的研究。本文建立 了基于系统功能语法的中、英文表层生成的语法,并采用功能合一算法进行目 标语言表层形式的生成。语义句法功能信息采用复杂特征集表示。本方法是领 域无关的,同时具有一定的语言可移植性。在理论和算法研究的基础上,我们 实现了一个应用于口语对话翻译系统的中英文生成模块。 实验表明我们的方法对基于i f 的口语翻译系统中目标语言的生成是行之 有效的。 l i 摘要 a b s t r a c t t h is p a p e ri n v e s t i g a t e s t h em e t h o d so f t a r g e tl a n g u a g eg e n e r a t i o n i n i n t e r c h a n g e f o r m a t ( i f ) b a s e ds p o k e ni a n g u a g et r a n s l a t i o ns y s t e m o nt h e o n eb a n d ,t h ep a p e ri n t r o d u c e st h er e s e a r c h e so nc h i n e s eg e n e r a t i o ni n s p e c i f i cd o m a i n o nt h eo t h e rh a n d ,i tm a k e sr e s e a r c h e so nt h eg e n e r a t i o n t h e o r i e sa n dm e t h o d st h a ti m p r o v et h ep o r t a b i l i t ya n dd o m a i np o r t a b i l i t y o fal a n g u a g eg e n e r a t o r t h er e s e a r c hw o r kd e s c r i b e di n t h ist h e sis i n c u d e st h ef o l l o i n gp a r k s : f i r s t a n a l y s i so i lt h ec h a r a c t e r i s t i c so ft h es p o k e nc h i n e s ea n dr e s e a r c h o nt h em e t h o d so fd o m a i ns p e c i f i cc h i n e s eg e n e r a t i o n t h i sg e n e r a t i o n m e t h o da d o p t sa ni n t e g r a t i v ea r c h i t e c t u r e 。a n di sd i v i d e di n t ot w ol a y e r s s e n t e n c el a y e ra n dp h r a s el a y e r t h et e m p l a t e b a s e dm e t h o di se m p l o v e d i nt h ec h i n e s eg e n e r a t o r t h ev a r i a b i e sa n df a n c t i o n st h a tn e e df u r t h e r p r a t e s s a r ei m p o r t e d i n t ot h e t e m p l a t e s s u c hm e t h o d a c h i e v e sm o r e e f f i c i e n c yt h a nf e a t u r eb a s e dp i d e l i f i e s t r u c t u r eg e n e r a t o r i na d d i t i o n i ti sm o r ef l e x i b l et h a nc o o nt e m p i a t e b a s e dg e n e r a t i o n 。 s e c o n d ,i n v e s t i g a t i o no ft h eg e n e r a t i o ns t r a t e g i e s t h ef l e x i b i l i t y , e f f i c i e n c ya n dr o b u s t n e s sa r e t h r e ei m p o r t a n tf a c t o r si nt h es p o k e n 1 a n g u a g et r a n s l a t i o ns y s t e m s t o w a r d st h e s er e q u i r e m e n t s ,o u rg e n e r a t o r e m p l o y s a h y b r i da p p r o a c h i nc o m b i n a t i o no f t e m p l a t e b a s e d a n d f e a t u r e b a s e d g e n e r a t i o nm e t h o d s f o r t h o s ef i x e d e x p r e s s i o d s t h e t e m p l a t e sc o n t a i n i n gv a t i a b l e sa r eu s e dt oi m p r o v et h ee f f i c i e n c y f o r t h eo t h e rf l e x i b l ee x p r e s s i o n s ,t h ef e a t u r e b a s e dg e n e r a t i o r lm e t h o di s e m p l o y e dt of u l f i l lt h er e q u i r e m e n to ff l e x i b i l i t y t h et e m p i a t em e t h o d i se f f i c i e n t b u ti t i sl n f l e x i b i ea n dh a sp o o rd o m a i np o r t a b i i i t y t h e f e a t u r e b a s e dm e t h o diso ft h ea d v a n t a g e so fg e n e r a l i t ya n df 1e x i b i l i t y , b u ti tisi n e f f i c i e n t t h e r e f o r e t h ec o m b i n a t i o no ft h et w om e t h o d s m a k e st h eg e n e r a t o rh a v et h eb e t t e rt r a d e o f fb e t w e e nt h ee l f i c i e n c ya n d t h ef l e x i h i1it y r e g a r d in gt h e r e q u i r e m e n t o fr o b u s t h e s s ,w et a k e m e a s u r e sb o t hi n m i c r o p l a n n i n ga n ds u r f a c eg e n e r a t i o n s i n e e t h e c h i n e s ed o e s n lh a v em u c hr e q u i r e m e n tf o rt h ep a r t i c i p a n tm e m b e r so f as e n t e n c e ,t h er e s t r i c t i o n s0 1 7t h ep a r t i c i p a n tm e m b e r sa r ei g n o r e di n t h ec h i n e s es e n t e n c eg e n e r a t i o n f o re n g l i s hg e n e r a t i o n ,w ea l s ol o o s e t h el i m i t a t i o n so nt h ep a r t i c i p a n tm e m b e r so fas e n t e n c e f u r t h e r m o r e , d e f a u llv a lu e sa r eg iy e nf o rs o m ep a r t i c i p a n tm e m b e r su n d e rt h ep e r m i t s i n 中科院自动化所硕十论文自动口语翻译系统中的译文生成方法的研究 o jt h ed o m a l nk n o w l e d g e t h i r d p r o h i n g i n t ot h e a p p r o a c h t ot h e m i c r o p l a n n i n g r l h e m i c f o p l a n n i n gm o d u i ei sd e s i g n e da c c o r d i n gt o t h ec h a r a c t e r i s t i c sn f i f i no u rs y s t e m t h e r ea r et h r e es u b t a s k sf o rm i c r op 1 a n n i n g :s e n t e n c e p l a n n i n g p h r a s ep l a n n i n ga n dl e x i c a ls e l e a t i o n t h eu l t i m a t er e s u l tf o r m i c r o p 1 a n n i n g i sak i n do fs y n t a c t i ca n ds e m a n t i cs t r u c t u r et h a t i s s u i t a b l ef o rs e n t e n c eg e n e r a t i o n t h es e n t e n c et y p ei sd e t e r m i n e di nt h e s e n t e n c ep l a n n i n ga c c o r d i n gt oi fa n d t h ed o m a i nk n o w l e d g e ,a n dt h e p r e d i c a t e a r g u m e n tf r a m eo ft h es e n t e n c e ,i n c l u d jn gt h em a i nv e r b ,t h e m o o d ,t e n s e ,a n dm o d a li n f o r m a t i o ne t c ,a r ea l s of ix e di nt h i sp r o c e s s i nt h ep h r a s ep l a n n i n g ,t h a n k st ot h ei fw h i c hh a sw e l ld e s i g n e dt h e d e s c r i p t i o no fs h a l l o wi n f o r m a t i o nf o rp h a s eg e n e r a t i o n ,t h et h o u g h t s o fd e p e n d e n c yg r a m m a ra r ei n t r o d u c e dt o t h em i c r o p l a n n i n gm o d u l et o s i m p l i f yt h eg e n e r a t o r t h el e x i c a ls e l e c t i o na l s o t a k e sa ni m p o r t a n t r o l ei nm i c r op l a n n i n g t h e r ea r es e v e r a lr e a s o n s o n ei st h a tt h em o s t , i fe x p r e s s i o n so n l yp r o v i d et h ed o m a i na c t i o n si n s t e a do ft h ep r e d i c a t e s o fs e n t e n c e s t h eo t h e ri st h a tt h e r ea r es o m ea m b i g u i t i e s i ni f 1 n a d d i t i o n ,t h em o s tf u n c t i o n a lw o r d sa l s on e e dt o b ed e c i d e da c c o r d i n g t ot h ec o n t e n tw o r d s a p p r o a c ht ot h el e x i c a l i z a t i o ni sp r o p o s e di nt h e c o m b i n a t i o no fs t r u c t u r em a p p i n gs y s t e m sa n dd i s c r i m i n a t i o n n e t s f o u r t h ,r e s e a r c ho nt h et h e o r ya n dm e t h o dt o w a r d s s u r f a c er e a l l z a t l o n jnt h eg e n e r a ld o m a i n t h ec h i n e s ea n de n g l i s hg e n e r a t i o ng r a m m a r sh a v e b e e nd e v e l o p e db a s e do nt h es y s t e m a t i cf u n c t i o n a lg r a m m a ra n du s e df o r s e n t e n c eg e n e r a t i o ni ng e n e r a ld o m a i n t h ed a t a i so r g a n l z e db yt h e c o m p l e xf e a t u r es e t s t h ef u n c t i o n a lu n i f i c a t i o na l g o r i t h m1 s e m p l o y e d f o rg e n e r a t i n gt h es u r f a c ef o r mo ft h et a r g e t s e n t e n e e s t h e e x p e r i m e n t a l r e s u l t ss h o w t h a to u r p r a c t i c a l f o rt h e t a r g e tl a n g u a g e s p e e c h t o s p e e c h t r a n s l a t i o n a p p r o a c h e s a r ee f f e c t i v ea n d g e n e r a t i o n i nt h ei f b a s e d 独创性声明 本人声明所成交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知, 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果。与 我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确地说明并表示了谢意。 签名:! 堑主泣导师签名:燃日期 关于论文使用授权的说明 2 。乎= , 本人完全了解中国科学院自动化研究所有关保留、使用学位论文的规定,即:中国科学院自 动化研究所有权保留送交论文的复印件,允许论文被查阅和借阅;可以公布论文的全部或部分内 容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 繇堑童蓝导师魏纽整日期: 2 。,午f 第章绪论 第一章绪论 自然语言生成( n a t u r a ll a n g u a g eg e n e r a t i o n ,简称n i 。g ) 的过程就是构 建自然语言文本以满足特定的交流目标的过程( m c d o n a l d ,1 9 9 2 ) 。该领域研究 的范畴很宽,从探索人类如何产生文本和语音( 语言学、心理语言学) 的理论 研究,到建立自然语言生成应用系统的实践尝试都有涉及,而应用系统输出的 结果也是多样的:可以是文档、报告、说明或帮助信息等。常见的自然语言生 成应用系统有机器翻译的目标语言生成,咨询系统的自动信息提供,单个或多 个文档的自动抽取文摘,对话系统的自动问题对答。教学系统等等。其中,机 器翻译系统的目标语言生成就是自然语言生成技术最典型的应用之。 具体的讲,自然语占生成技术研究的是如何利用计算机把非自然语言表示 的语义形式转换成用某种自然语言的表示形式,从而产生人们可理解的,表达 确切、自然流畅的自然语言语句。自然语言生成技术的目的实际上就是让人们 能够用自己感到最为舒适方便的自然语言方式去表达各种语义信息。 自然语言理解和自然语言生成是自然语言处理( n l p ) 的两个分支,二者可 以看成是互逆的过程。n l u 主要的功能是用计算机分析自然语言,并把分析结 果用某种非自然语言的形式表示出来:丽n l 6 的作用则是把非语言表示( 可以 是表格、图形、数据等等) 转化为自然语言。从具体操作上看,n l u 和n l g 也 有很多共通点:如相一致的生成和理解规则,都要用到含有词类等信息的词典, 都要解决诸如指代、省略等语用问题等。但是,二者在具体应用时遇到的困难 以及处理方法的侧重点都是不同的。自然语言理解重点要解决的问题是结构的 分析和语义的排歧上,期望得到的结果是没有歧义、脉络清晰的文本结构及语 义。而自然语言生成往往不仅是把文本的结构和语义信息转化为自然语言,还 需要根据交际目标进行信息选择和寻找更好的表达方式。 作为自然语言处理的一个分支,要知道自然语言生成的基础,需要探讨自 然语言处理的理论及技术基础。 自然语言处理和计算语言学是人们在用计算机来模仿人类语言处理能力的 不懈努力中产生的计算机科学和语言学的专门分支。二者的本质基本上相同, 但是也有区别:自然语言处理更注重实践探索,而计算语言学则偏重于理论研 究。也可以说,计算语言学是建构自然语言处理系统的思想来源和理论基础。 语言是人类的一个重要特征,也是人类表达知识、传递知识和交流思想的 最重要工具,或者说语言是人类最明显的一种智能行为。自然语言处理实际上 就是利用计算机来模仿人类的语言处理能力,这属于人工智能的研究范畴。人 工智能是利用计算的思想和方法来研究智能的学科,换言之,人工智能是一种 利用计算机等工具对智能行为进行的仿真研究。自然语言处理作为人工智能领 域的一部分,是其最有意义、也是最困难的分支之一,而人工智能领域的发展 为自然语言处理提供了技术基础。 本文介绍的工作是基于国际语音翻译先进研究联盟( c - s t a r :c o n s o r t i u m f o rs p e e c ht r a n s l a t i o na d v a n c e dr e s e a r c h ) 框架下多语言口语翻译系统中 中科堕鱼i 狒所硕士论文自动口语翻译系统中的译文生成方法的研究 的中英文生成问题。 l ,1 自然语言生成系统的组成 自然语言生成系统的结构主要有两种:流水线型( p i p e l i n e ) 和一体化型 ( i n t e g r a t e d ) ( r d a l e ,1 9 9 2 ) 。流水线结构的生成系统由几个不同的模块组 成,每个模块之白 的交互仅限于输入输出,而模块之间是相互独立的,当一个 模块内部已作出决定,后面的模块无权干涉。一体化的生成系统的模块之间是 相互作用的,当一个模块内部不能作出决定时,后面的模块可以参与决策。一。 体化的生成系统比较符合人脑的思维过程,但实现起来比较困难。目前在自然 语言生成系统中多采用流水线型结构。 本文中主要采用流水线型的生成器,如下图所示。 图1 1 流水线型结构的自然语言生成系统结构图 如图1 一l 所示,一般的流水线型自然语言生成系统主要包括文本规划( 宏 观规划) 、句子规划( 微观规划) 和表层生成三部分( d a l e r e i t e r ) 。 文本规划主要处理待生成文本的内容选择和结构组织。句子规划解决句子 聚合( a g g r e g a t i o n ) 、词汇选择( l e x i c a l i s a t i o n ) 和指代生成( r e f e r r i n g e x p r e s s i o n g e n e r a t i o n ) 问题。表层生成包括句法实现和结构实现( 线性化) 。 第章绪论 i i i 文本规划 文本规划又称为宏观规划,在篇章生成中占据着非常重要的地位。一般来 说,文本规划有两个任务:其。是内容选择,即根据交际目标和用户需要来从 知识库中选择所要表达的内容,此过程通常是与领域相关的;其二是结构的组 织。即确定内容的组织形式,其目的是使内容的表达更为流畅,且使得生成的 篇章根据需要具有特定的结构。 实现文档组织的方法主要有两种:一种是m c k e o w n 的s c h e m a s 方法 ( k a t h l e e nr m c k e o w n ,1 9 8 5 ) ,另一种是基于修辞结构理论( r h e t o r i c a l s t r u c t u r et h e o r y ,r s t ) 的直接推理( e x p l i c i tr e a s o n i n g ) 的方法( e d u a r d i t h o v y 。1 9 9 3 ) 。 s c h e m a s 方法的思想基础是认为文章的结构通常具有我们有办法获得的约 定俗成的模式。这些模式能够帮助确定如何把小的s c h e m a s 和原子信息组织成 特定的文本规划,并且具有灵活性和可选择性。s c h e m a s 也是耳前的自然语言 生成系统所最为常用的文本规划方法。 r s t 基础之上的直接推理的方法认为一段文本之所以是连贯的,是由于文 本内部各部分之间存在着诸如顺序、说明、对比等修辞关系,所以可用表示这 些关系的规则组织待生成文本的各段信息,并利用推理推断出各部分信息在整 个文本中的地位和作用,进一步动态地生成文本。这种方法比s c h e m a s 方法灵 活,且具有更好的领域可移植性,但比较复杂。 i i 。2 微观规划 句子规划又叫微观规划,其目的是使句子更为连贯、通顺,并架起文本规 划和句法实现之间的桥梁( w a n n e r ,l a n de h h o v y ,1 9 9 6 ) 。 句子规划一般有三个任务:句子聚合、词汇化和指代的生成。 句子聚合就是把两个或更多的消息组合成一个句子。此步骤可看作是把以 一个个消息为叶子结点的文本攘划树作为输入,而输出以消息的组合为叶子结 点的文本规划树,这些消息组合最终被实现为句子。通常的句子聚合种类有简 单联结( a n d ) 、省略( 两个消息有一个共同的成分) 、编队( 两个消息只有一个 成分不同) 和嵌入等等。 词汇化和指代的生成之焦点问题是词汇选择,以及如何描述特定领域的概 念和实体。从目前的观点看,词汇选择是把领域概念和关系转化为词汇和语法 关系的过程,其目的一是为了增加文本的变化性,二是为了适应不同的上下文, 三是为了适应不同的文章风格;而指代生成可看作是一项描述性的工作,其目 标是在描述中提供足够的信息从而使昕者准确的识别出目标实体。 l 。1 。3 表层生成 表层生成是利用相应的语法和词典把句子规划的结果转换成语法和语义都 中科院自动化所硕十论文自动口语翻译系统中的译文生成方法的研究 正确的句子,使其满足交流的需要。 表层生成主要分两个步骤:第一步是句法实现,第二步是线性化。句法实 现主要是获得构成整个句子的各个句法成分,其输出是一个树状结构。线性化 实现的是把句法实现部分得到的树状结构转化成线性的句子。 句法实现主要涉及到的问题有时态和语态的问题,代词化问题,以及其它 和具体语言1 相关的问题等等。如对英文生成来说,要考虑因时态和语念不同而 造成的动词形态变化,主谓一致性等问题。对汉语生成来说,则要考虑不同的 时态、语态下助词、语气词等的添加问题。 句法实现最常用的语法是系统语法。韩礼德( h a l l i d a y ) 在1 9 8 5 年提出了系 统功能语法。系统功能语法强调语言的功能组织,把语言的表面形式看作是对 语言抽象的功能特征集进行选择的结果,而语言的各个要素则是许多功能聚合 的结果。语言的这些功能在句法层体现为句法结构,之后通过线性化即可得到 表层的自然语言语句。不难看出,系统功能语法是一个从功能到结构的过程, 这个过程和自然语言生成是相吻合的。 除系统功能语法外,句法实现常用的技术还有可以同时应用于解析和生成 的双向语法以及模板方法。 1 2 自然语言生成的发展 自然语言生成系统分为两类( d a n i e ls p a v i a ,1 9 9 8 ) :一是根据具体的 问题从相应的知识库中提取内容,并组织这些内容,生成语法和语义都正确、 并具有一定结构的篇章。这种系统涉及到生成的整个过程。二是用于机器翻译 中的一些生成系统,从某种已知的中间语言生成目标语言。这种生成系统一般 只涉及微观规划和句法实现部分。 本文中,我们的中英文生成方法的研究是以多语口语翻译中目标语言生成 为研究目标的。本节,笔者将介绍自然语占生成方法研究的进展,以及多语言 生成研究的现状。 1 2 1 自然语言生成方法研究的进展 最初的自然语言生成系统采用随机生成的方法,这是个生成英文的系统, 是在1 9 6 1 年由y n g v e 实现的。他用上下文无关文法随机生成符合语法的句子。 由于这种生成方法是随机的,不可避免地生成一些符合语法但语义上毫无意义 的句子。这种随机生成方法很难应用于实际的系统中。 后来出现了基于模板的生成方法。最简单的是一稿数用的文本系统( c a n n e d t e x ts y s t e m s ) ,系统只能给出没有任何变化的词串。显而易见,这种系统是非 常不经济的。之后,出现了一些比较复杂的模板生成系统,通过对模板中的变 量进行替换生成不同的句子。这种系统主要应用于多句生成,尤其用在具有非 常规范格式的文本生成,如某些业务报告。典型的例子有a n a ( k u k i c h ,1 9 8 3 ) 系统,可以生成股票市场报告;更复杂的还有t e x t ( m c k e o w n 。1 9 8 5 ) 的多句 第章绪论 生成模块,可以通过动态地套入四个称为s c h e m a s 的段落模板的实例来乍成j 碰 落。基于模板的方法应用在特定领域效果比较好,但不具有一般性。 与模扳技术相对应的,有基于短语的生成系统。这种系统可看作是 t jr j ,: 或篇章层为模板的系统。在这种系统中,首先选择一个短语模式与输入化息的 顶层相匹配:例如该短语模式为( 主语动词宾语) ;继而,把该模式的纯洲 分扩展成更具体的短语模式,以和输入信息的子部分相匹配:如把( 主讲 部 分扩展为( 冠词形容词中心名词) :如此往复直到各个短语模式都被词域训的 序列代替为止。典型的系统有m u m b l e 系统( m c d o n a l d ,1 9 8 0 :m e t e e r ,m c d o n ;1 1d , e ta 1 ,1 9 8 7 ) 。具体应用时,这种方法主要用于单句生成,其优点是鲁棒r i :惺, 但是如果不仔细地定义短语问的关系,往往会造成不恰当的短语扩展。 此外还有基于特征的生成系统。基于特征的生成系统把句子的每个可 能的最小表达单元都看作是一个特征,例如句子的语气、时态、语态、极t t ( 否 定与否) 等等:而每一个句子被认为是这些特征的一个集合。生成句子的过稃 也是这些特征依据输入信息逐步聚合的过程。这种方法的优点在于简化了概念: 任何语言上的差异都可以作为特征加入到系统中。其缺点是难于保持特征之涮 的关系以及控胄4 特征的选择。笔者从现有的文献中尚未查阅到基于特征的多句 生成系统,基于特征的单句生成器有基于系统语法的p e n m a n ( m a t t h i e s s e n , 1 9 8 3 :m a n n m a t t h i e s s e n ,1 9 8 5 ) 及其派生出的k p 札( b a t e m a n ,m a j e r ,e i a 1 ,1 9 9 1 ) ;基于系统语法的c o m m u n a l ( f a w c e t t ,1 9 9 2 ) ;基于功能台一文 法框架的f u f ( e l h a d a d ,1 9 9 2 ) :s u t r a ( y o nh a h n ,h s p p n e r ,e ta 1 ,1 9 8 0 ) : s e m t e x ( r s s n e r 1 9 8 6 ) 和p o p e l ( r e i t h i n g e r ,1 9 9 1 ) 。其中最为广泛传播、 研究和使用的是p e n m i a n k p m l 和f u f 系统。 随着生成和自然语言处理技术的发展,为了提高生成的鲁棒性和生成语句 的自然度,到九十年代人们开始把统计方法应用于自然语言生成。如k n i g 1l 的 n i t r o g e n 系统( k n i g h t ,v a s i l e i o sh a t z i v a s s il o g l o u ,1 9 9 5 ) 。此系统的输 入是一种中间语言利用词的b i g r a m 模型生成英语中的冠词、词形变换等表同 形式。l a n g k i l d e 的h a l o g e n 系统用森林结构表示多个候选( i r e n e l a n g k i l ( j ( j , 2 0 0 0 ) ,并设计了一种选择算法,采用动态规划选出最合适的句子。 为了更好地改善生成系统的性能,人们也在思考着如何把各种生成力缓结 合起来,于是出现了混合的生成策略,如x i g 系统。x l g 系统是一个日机语,卜 成系统( p i a n t a ,e a n dl u c i am t o v e n a ,1 9 9 9 ) ,主要应用于c s t a r 一1 】 语翻译系统中,该系统采用模板与规则相结合的混合方法生成目标语言。阿比 如中科院自动化所提出的基于中间语言口语自动翻译中的汉语生成系统( 殳4 仁, 2 0 0 0 ) ,主要采用基于模板与基于特征相结合的生成策略。该系统还首次把系统 功能语法应用到汉语生成系统当中,并取得了令人满意的效果。 1 2 2 多语言生成研究的现状 文献上能够查到的最早的多语言生成系统是在1 9 8 3 年的s u s y 系统,乍成 英语、法语和荷兰语三种语言。目前多语言生成技术的研究尚处在发展阶段 从8 3 年到现在,出现了一些多语言生成系统:如v m - g e c o i i ,是一个基于咿、 能够生成德语、英语、月语的生成系统;m u l t e x 系统,是一个生成英、叶之新 皇型堕旦动化所硕士论文白动口语翻译系统中的译文生成方法的研究 闻报道的系统;g i s t 系统,是个指导如何填写税表、能够生成英、德、意大 利三种语言的生成系统。 早在1 9 9 1 年,b a t e m a n ,m a t t h l e s s e n ,n a n r i 和z e n g 对英语、阿语和汉 语的一个简单话语功能( s p e e c hf u n c t i o n ) 分类提出了一个多语功能语法的描 述,这种描述是一种分层结构,试图把这几种语言之间的形式、结构上的差异 从几乎是同样的功能集中抽象出来。目前,人们希望通过类似的研究,能够建 立一个大规模的,不同语言、不同的生成研究都可以重用表层生成的语法资源 库和多语词典( 1 9 9 5 ) ,这对于支持多语言生成是非常有价值的,这也是自然语 言生成研究现阶段的发展方向之一。 人们在开发多语生成系统时,也开始研究能够让用户生成并且维护语法资 源的系统,最为典型的是k p m l 。k p m l 的开发始于1 9 9 3 年,目前仍在进行。这 是一个能够让用户根据现有的语法资源,生成并且维护大规模多语言的系统功 能语言描述,以供多语生成之用。现在,这个系统已经涉及到英语,德语,法 语,荷兰语,曰语,俄语等多种语言。 国内从事多语生成研究的还非常少见,查阅到的多语种生成系统只有上海 交大与德国人工智能研究中心d f k i 的合作项目多语种天气预报文本自动生成 系统( 中、英、德) 。该系统采用s c h e m a 方法进行文本规划,之后通过微观规 划得到各个句子的句法树,然后通过树连接语法( t a g ) 把句法树转换成汉语句 子。 通过调研发现,目前国内从事多语口语翻译中目标语言生成研究的还很少 见,且多是针对单语,采用的也多为基于模板的生成策略。这种生成策略虽然 简单高效,但是生成的灵活性和领域可移植性都很差,维护困难。口语是语言 现象最为丰富的领域之一,在这一领域的研究是充满挑战和值得期待的。 1 3 口语翻译中的目标语言生成 1 3 1 口语翻译的特点 口语翻译是一个难度极大的高技术研究领域,它涉及语言学、语音学、心 理学、模式识别、计算语言学等若干科学,而且集语音识别、机器翻译和语音 合成的难点于一体。要想了解口语翻译中自然语言生成的特点,首先需要了解 口语翻译的特点。从组成上讲,一个单向的语音翻译系统主要由语音识别、机 器翻译和语音合成三个模块组成。与文本机器翻译相比,口语自动翻译有很多 自身的特点,归纳起来,主要有以下四点:首先是口语的不规范性。在1 3 语中 存在大量的不规范现象,如长时问的停顿、省略、吞吐、修正和犹豫等现象: 其次,由于种种原因,比如不同说话者说话风格、语速等各有不同,再比如语 音录入过程中常常存在许多环境噪声( 如咳嗽、脚步声等) 等等1 3 语识别不 可避免的存在识别错误:第三,由于口语的不规范性,口语翻译更加强调意图 翻译,即说话者的意图,而不是逐字逐句的翻译;第四,口语翻译要求实时, 这对处理策略和系统软硬件提出了严格的要求。 第一章绪论 1 3 。2 几种自动口语翻译策略 针对口语翻译的特点人们主要采用了以下几种翻译策略:( 1 ) 基于规则 的翻译策略;( 2 ) 基于实例的翻译策略:( 3 ) 基于统计的翻译策略;( 4 ) 基于 中间语言的翻译策略;( 5 ) 混合翻译策略。 基于规则的翻译策略主要应用在早期的翻译系统中,代表系统有j a n u s l ( m w o s z c z y n a ,1 9 9 3 ) ,该方法的主要优点是译文质量高,但其鲁棒性比较差, 对于口语中不规范的句子缺乏灵活性,这也是这种方法很少单独应用在口语翻 译系统中的主要原因。 基于实例的翻译方法是8 0 年代初由n a g a o 首先提出来的,该方法的理论基 础是基于记忆的推理技术,其基本方法是建立一个实例库来存放翻译实例,将 待分析的句子与实例库中的句子比较,找出最相似的例句作为译文,其优点是 不需要对源语句子进行深层分析,不需要人工编辑规则;缺点是很难定义句子 之问的相似度。其代表系统有t d m t 系统( f u r u s e ,0 a n dh i t o s h ii i d a ,1 9 9 2 ) 。 基于统计的方法首先由i b m 提出了五种翻译模型( b r o w n ,p s t e p h e na , d e l l ap i e t r a ,1 9 9 3 ) ,其基本思想是在大量的语料中统计语言对的条件概率和 源语言的词之间的共现概率,通过b a g i a n s 方法找到概率最大的译文语句,这 种方法的主要优点是不需要任何语言知识,而且鲁棒性比较商;但是语言知识 的缺乏导致译文质量不高。 基于中间语言的翻译方法是建立在语义的基础上,任何源语言都可分析成 这种中间语言,并从这种中间语言生成目标语言。这种方法适合多语言生成, 而且采取语义提取的方法,适合于处理口语中不规范的语言现象,但很难把握 这种中间语言的设计,而且可能损失一些源语信息。最典型的代表系统是c - s t a r ( l e v i n 。1 9 9 8 ) 。 由于以上方法各有优缺点,故而出现了把多种方法混合起来的翻译方法, 如v e r b m o b i l 系统就采用三种并行的方法( w o l f g a n g w a h l s t e r ,1 9 9 9 ) :c h a r t 、 统计和h p s g 翻译方法,然后由选择模块从中选择最合适的译文。混合方法是一 种比较理想的翻译策略。 1 3 3 基于中间语言的多语口语翻译 口语翻译各种方法都有其优缺点,关键是如何根据具体问题选择适当的方 法。对于多语口语翻译系统而言,定义一种中间语言,是很有必要的。首先, 可以大大简化整个翻译系统。当一种新的语言加入系统,在没有中间语言的情 况下,需要增加这种新的语言到系统中已有的各个语言之间的互译模块;有了 中间语言,则只需增加该语言与中间语言之间的转换模块就可以了。其次,可 以很大程度上减轻翻译系统研发人员的负担。研究者不需要同时掌握系统涉及 的所有语言,而是只需掌握自己的语言与中间语言之间如何转换就可以了。 我们使用的中间语言称为中间转换格式( i n t e r c h a n g ef o r m a t ,简称1 f ) 。 基于中间转换格式的口语翻译系统框图如下所示:一 中科院自动化所硕七论文自动口语翻译系统中的译文生成方法的研究 源语语音c 令目标语音 图i 一2 基于中间转换格式的口语翻译系统基本组成 本文研究的对象就是基于中间语言的多语口语的生成方法,我们实现的是 从中间转换格式到汉语和英语的生成。 1 3 4 口语翻译系统中目标语言生成存在的问题 作为多语口语翻译系统的一个环节,我们的中、英文生成的研究面临着生 成系统本身、口语翻译
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年事业单位工勤技能-河南-河南农业技术员一级(高级技师)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-河南-河南不动产测绘员五级(初级工)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-河北-河北医技工三级(高级工)历年参考题库含答案解析
- 2025年事业单位工勤技能-江苏-江苏药剂员一级(高级技师)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-广西-广西计算机信息处理员五级初级历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-广西-广西信号工-机车信号设备维修三级(高级工)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-广东-广东汽车修理工(技师/高级技师)历年参考题库含答案解析
- 2025年事业单位工勤技能-广东-广东无损探伤工三级(高级工)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-广东-广东保健按摩师五级(初级工)历年参考题库含答案解析
- 2025年事业单位工勤技能-安徽-安徽地质勘查员五级(初级工)历年参考题库典型考点含答案解析
- 培训辅警纪律课件
- 医院总务科制度职责体系
- 2025年河北单招七类考试题库
- 2025年健身教练专业知识测评考核试卷及答案
- 2025年黑龙江省事业单位招聘考试教师化学学科专业试卷
- 2025四川成都农商银行招聘综合柜员岗4人模拟试卷带答案详解
- 2025年辅警考试公共基础知识真题库(含答案)
- 2022版《义务教育数学课程标准》测试卷(完整版含答案)
- 2025行政执法人员考试题库含答案
- 联通校招测评题库及答案
- 儿科护理进修
评论
0/150
提交评论