已阅读5页,还剩74页未读, 继续免费阅读
(计算机软件与理论专业论文)话级格排序方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 中文摘要 英语是世界公用语言,英汉机器翻译的研究也有近5 0 年的历史,但是译文 质量仍未达到忠实通顺的要求。目前英汉机器翻译技术遭遇瓶颈,其研究攻关 势在必行。 本文立足于自然语言理解规律的新理论英语生成法,以基于英语生成 法的英汉机器翻译为背景,在总结前人的研究成果的基础上,提出了基于语言 生成规律的话级格排序模型。 本文建立的系统以话的句法结构分析为基础,以m o o d 的抽取和格的抽取 为核心。采用句法树的形式表示话的基本逻辑关系,以词汇优先级的方式确定 介词结构的归属判定,建立了完整的话级格排序机制。 本文论述的话级格排序在基于语言生成规律的排序方法中处于基础地位, 对基于语言生成规律的其他排序方法有重大的推动作用。此外,本文论述的话 级格排序方法,在一定程度上解决了话的结构歧义的处理,有很大的应用前景。 关键字 序,英语生成法,m o o d ,话,格 a b s t r a c t a b s t r a c t - e n g l i s h i sac o m m o n l yu s e dl a n g u a g ei nt h ew o r l d t h er e s e a r c ho f c h i n e s e e n g l i s hm a c h i n et r a n s l a t i o nh a sa l s ob e e nd e v e l o p i n gf o rn e a r l y h a l fa c e n t u r y h o w e v e r , t h eq u a l i t yo ft r a n s l a t i o ns t i l lh a sn o tm e tt h ec r i t e r i ao fb e i n g f a i t h f u la n df l u e n t t h ec h i n e s e e n g l i s hm a c h i n et r a n s l a t i o nh a sr e a c h e di t s b o t t l e n e c ki nt e c h n o l o g y , w h i c hn e e d sa nu r g e n tr e s o l u t i o nt oa d d r e s st h o s ep r o b l e m s r o o t i n gi nan e wt h e o r yo fn a t u r a ll a n g u a g eu n d e r s t a n d i n g ,n a m e l ye n g l i s h f o r m a t i o nm e t h o d o l o g y , t h i sp a p e rp r o p o s e san e wm o d e lf o rb o xo r d e r i n gi nt h e l e v e lo fb a s i cs e n t e n c ep a a e m w i t ht h ep r e v i o u sw o r k s ,t h i sp a p e rc r e a t e sas y s t e mw h i c hc a ne x t r a c t “m o o d a n d b o x ”b a s i n go nt h es y n t a c t i c a la n a l y s i s t h el o g i c a lm l m i o n s h i pi sr e p r e s e n t e d b yas y n t a c t i ct r e e ,a n dt h ea t t a c h m e n to fp r e p o s i t i o n a lp h r a s ei sr e s o l v e db yl e x i c a l p r i o r i t y , t h u se s t a b l i s h i n gt h ec o m p l e t eb o xo r d e r i n gm e c h a n i s mi nt h el e v e lo fb a s i c s e n t e n c ep a r e m t h eb o xo r d e r i n gl i e sa tt h eb o t t o ml a y e ri nt h eo r d e r i n gm e t h o d sb a s e do n l a n g u a g eg e n e r a t i o nr u l e s ,w h i c hh a sat r e m e n d o u se f f e c to no t h e rm o d u l e s w h a ti s m o r e ,t h em e t h o dp r o p o s e di nt h i sp a p e rr e s o l v e dt h es t r u c t u r a la m b i g u i t yt os o m e e x t e n t ,w h i c hm a yf m di t sa p p l i c a t i o ni nt h ef u t u r e k e y w o r d a l i g n m e n t ,e n g l i s hf o r m a t i o nm e t h o d o l o g y ( e f m ) ,m o o d ,b a s i cs e n t e n c e p a t t e m ,b o x i i i 内容目录 图目录 图1 1c a n d i d e 系统翻译的执行步骤一5 图2 1 专用充当者的框式结构1 6 图2 2 框式结构举例1 6 图2 3 非话型a p r e b 举例1 6 图2 4 格内容举例1 7 图2 5 格排序内容1 9 图3 1 核心控制流程。2 5 图3 2e a r l e y 剖析算法3 3 图3 3 句法树构建流程3 5 图3 4m o o d 抽取控制流程3 8 图3 5m o o d c a n e x t r a c t 流程3 9 图3 6v p m o o d f i n d 流程4 1 图3 7p h r a s e 处理流程4 3 图3 8 介词处理流程j 4 5 图3 9 格抽取处理流程4 7 i v 内容目录 图附1 思维过程和英语生成法的语言单位6 0 v 内容目录 表目录 表2 1 传统机器翻译排序概念介绍8 表2 2 基于语言生成规律的排序概念定义1 1 表2 3 语法和英语生成法排序的对比1 2 表2 4 话的四格存放1 8 表2 5 话a 的句法树2 2 表2 6 话a 的m o o d 抽取结果和格排序结果2 3 表3 1 文法( g r a m m a r ) 的数据结构定义2 6 表3 2 剖析状态( e p s t a t e ) 的数据结构定义2 6 表3 3 线图( c h a d ) 的数据结构定义2 6 表3 4 剖析树( p a r s i n gt r e e ) 的数据结构定义2 6 表3 5 字( c h a r a c t e r ) 的数据结构定义2 7 表3 6m o o d 的数据结构定义。 表3 7 格( b o x ) 的数据结构定义2 7 表3 8 话的格( s e n t e n c ep a t t e r nb o x ) 的数据结构定义2 7 表3 9 上下文无关文法、合一文法和依存语法的比较。2 9 v i 内容目录 表3 1 0 句法剖析算法比较。3 0 表4 1 基于英语生成法的测试结果5 1 表4 2 基于介词归属范围的测试结果5 1 v i i 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供 本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名:每i k 岬年i f 月必日 经指导教师同意,本学位论文属于保密,在 年解密后适用本授权书。 指导教师签名:学位论文作者签名: 恤 解密时间:年 月 日 各密级的最长保密年限及书写格式规定如下; r 一”一一。9 内部5 年( 最长5 年,可少于 l 秘密l o 年( 最长1 0 年,可少 i 机密 k 2 0 年( 最长2 0 年,可少 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任 由本人承担。 学位论文作者签名:缶乜 1 等“月瑚日 第一章导论 第一章导论弟一早哥化 第一节机器翻译背景介绍和问题提出 1 1 1 机器翻译背景介绍 机器翻译( m a c h i n et r a n s l a t i o n ) ,又称机译( m t ) ,是使用电子计算机把一 种自然语言( 源语言,s o u r c el a n g u a g e ) 翻译成另外一种自然语言( 目标语言, t a r g e tl a n g u a g e ) 的过程【2 1 1 。它涉及到语言学、计算机科学、数学等许多学科, 是非常典型的多边缘交叉学科。作为自然语言处理( n a t u r f ll a n g u a g ep r o c e s s i n g ) 的一个重要领域,世界上许多国家长期以来一直在从事机器翻译的研究工作。 当前,机器翻译界掀起了基于实例( e b m t ) 方法的研究热潮。基于规则 ( r u l e b a s e d ,以下简称r b m t ) 的机器翻译方法也在不同程度上受到了s b m t 和e b m t 的影响。总的来说,目前的机器翻译研究有两大类四个方向f 2 5 3 3 】:一 类是以规则作为翻译的“引擎 ,即r b m t ,包括t b m t ( 传统的基于转换的方 法) 和k b m t ( 将语言的理解集成到机器翻译系统的研究,使用更多的外部世 界知识) 两个方向;一类以语料库作为翻译的基础,可称为基于语料库的( c b m t ) 方法,包括e b m t 和s b m t 两个方向。当然实际系统还有许多其他的工作方式, 但基本思路不超过这两大类。 进入2 l 世纪后,伴随着中国国际化的进程,中国与国际间信息交流剧增, 作为信息载体的语言文字间的翻译空前迫切。英语是作为一门公认的世界通用 语言,在各行各业间都起着重要的桥梁作用。为了了解实时地经济信息,掌握 国际同行的最新技术进展,学习国际先进技术和经验,英汉机器翻译的研究和 实现就显得更加迫切和重要。 1 1 2 问题提出 在1 9 9 3 年的机器翻译高层会议( m ts u m m i ti v ) 上,英国著名学者哈钦斯 ( j h u t c h i n s ) 在他的报告中指出,自1 9 8 9 年以来,机器翻译的发展进入了一 个新纪元,这个新纪元的标志是:在基于规则的技术中引入了语料库方法,其 第一苹导论 中包括统计方法,基于实例的方法,生成语言知识库的方法等等。同时,哈钦 斯也指出,近4 0 年来的机器翻译译文质量没有显著性提高,机器译文可读性依 然很差。 由于母语体系的不同,英语和汉语在句子结构上相差甚大,不能照搬国外 机器翻译研究成果。传统的英语语法中将英语句子的基本单位理解为字( w o r d ) , 并用字生成短语、句、段、文。由于字的多义性及使用的灵活性,使得句子的 句法分析甚为困难,分析出来的句子结构与用先验知识得到的结构经常偏差很 大【3 3 1 。用分析得到的错误的源语言句子结构来生成译文,其质量可想而知。 天津工业大学曹青老师积数十年专业翻译经验创立了英语生成法。这套理 论明确了句的基本单位是话,这样就在根本性的层面上降低了歧义发生的概率。 基于以上的事实,本文提出基于英语生成法的机器翻译系统的排序问题的 研究。 分析问题的必要性和重要性: ( 1 )由于传统r b m t 系统使用语法来描述句子,而语法中缺少对句子语 言单位的明确划分,使得机器翻译中得到的译文不能从最基础的语 言要素开始组织,生成的译文不够通顺,结构混乱,甚至无法理解。 ( 2 ) 生成法中明确了句子是由话复合而成,并给出了句子各个层级排序 的规则。这是该理论与语法理论的根本区别,也是本文之所以能解 决大部分话排序问题的原因,也是英语生成法在排序上优于语法的 地方。 ( 3 ) 机译文章可读性还很差。机器翻译系统翻译出来的文章质量,不能 满足人们的要求。基于英语生成法的机器翻译系统,以英语生成法 的翻译思想为基础,遵循语言的生成过程,给出了语言的生成序规 则,可以解决大部分情况下的机器译文序的问题,相信必能排解人 们长久以来的不满。 第二节机器翻译中的排序思想简介 机器翻译的排序( a l i g n m e n t ) ,指对源语言进行结构调整6 1 口7 1 口,建立源语 言与目标语言一一对应的过程。排序是语言学理论研究、应用研究和语言工程 不可缺少的重要组成部分。 2 第一章导论 排序的研究和实现方法根据其指导思想的不同,可以分为两大类: ( 1 ) r b m t 主导下的机器翻译系统中的排序,主要内容是对排序规则的 制定,使用语料库辅助排序的完成。 ( 2 ) c b m t 主导下的机器翻译系统中的排序,主要内容是根据语料库来 筛选词结构和句子结构,以完成句子的排序。 1 2 1 规则主导的机器翻译系统的排序 r b m t 系统以语言学规律为翻译知识源,面向句法、基于语言学规律,进 行语言之间的多次转换。其中,排序的过程主要是句法的分析,将语言以一种 先验知识拆解开来,然后重组,采用的规则主要是语法规则以及上下文相关的 语义分析。 此处,简要的分析几个已经出现比较有影响力的实用化的英汉r b m t 系统, 并简要其使用的排序方法: ( 1 ) 1 9 8 7 年,中国人民解放军军事科学院研制的“科译1 号 实用型全文 与题录兼容的英汉机器翻译系统。“科译1 号 系统的语言理论基础是董振东提 出的逻辑语义结构。“科译1 号 系统的基本原理是:由原语的线性结构出发, 经过多层次、多次数的扫描,按规则的顺序匹配,形成以动词为根节点,以逻 辑语义项为主节点的多结点、多标记的树形图,最后,从根节点逐次展开,形 成译语的线性结构,得到相应的译文。 3 0 1 3 1 】 该系统已于1 9 8 8 年由中国计算机软件与技术服务总公司实现了商品化,命 名为“译星l 号”。“译星l 号 在商品化的过程中,在语言词典和规则方面做 了进一步的改善,在软件硬件的开发环境方面作了进一步的优化。这是我国第 一个商品化的机器翻译系统,在此基础上发展起来的就是现在的“中软译星 系统。 从其翻译原理可以看出,在“译星l 号”系统中,排序的根本在于确定动 词在句中的逻辑地位,最后从最主要的动词开始展开逻辑语义树,将词的意思 串起来形成句子。 ( 2 ) 1 9 9 2 年1 月,通过技术鉴定并面向市场的由北京市高立电脑公司与中 国社会科学院语言研究所刘倬等合作研发的“高立英汉机器翻译系统 。这个机 器翻译系统以具有普遍意义的语言学公理理论和原则作为语言分析器的理论基 第一苹导论 础,以智能化的机器词典代替传统的信息参数词典,使句法规则与词的个性相 结合,使词义与词的参数和规则相结合,整个机器翻译系统实质上是一个词专 家系统。【2 7 1 1 2 9 1 3 0 】【3 l 】 该系统本质上是一个词专家系统,其翻译过程是利用翻译子系统,控制整 个翻译的流程,对翻译进行过程控制、加工方向控制、制导控制和追踪控制。【3 l 】 具体到排序就是对规则识别、匹配、推理和运算。【3 1 】高立机器翻译系统语法规 则库收规则8 0 0 条,背景知识库收规则1 5 0 条【3 1 】,其对词的词义的选择正确率 高达8 0 。 ( 3 ) 1 9 8 6 年开始研发,1 9 9 2 年投入市场的中国科学院计算技术研究所开 发的智能型英汉机器翻译系统8 6 3 i m t e c 系统。8 6 3 i m t e c 智能型机器翻译 系统研究的内容,包括语言学工程、翻译处理软件环境和知识处理环境三部分。 该系统由通用规则1 5 0 0 条,此外,还有大量的特殊规则和成语规则。【3 1 1 其翻译机制采用可控层次相融合机制、上下文相关处理机制、转换生成机 制、启发式回溯控制机制、基于不完备知识的推理机制、译文多档质量可调机 制等。这些机制都是独立模块化的,使软件独立于具体的文种,以适应多文种 的机器翻译要求。 8 6 3 i m t e c 系统的排序实现,主要借助于在语法规则中引入了上下文相关 条件测试,实现了数据与一体化处理技术,提出了子类语法( s u bc a t e g o r y g r a m m a r ,简称s c 语法) 。s c 语法通过采用分析与转换规则公用同一个头部和 同一个测试函数的方式,实现了分析与转换的集成化,简化了分析与转换的操 作过程,提高了译文的可读性。 2 7 1 2 9 】【3 0 1 1 3 1 】 比较出名的r b m t 系统还有国防科技大学于1 9 9 4 年研发投入使用的m a t r i x 系统和中国计算机软件与技术服务总公司开发的汉外机器翻译系统s i n ot r a n s , 也基本没有脱离语法规则的约束,这里不再详细介绍。 1 2 2 语料库主导的机器翻译系统的排序 c b m t 系统从经验主义出发,以大规模真实文本为依托进行翻译,有利于 处理海量、离散特性的自然语言的各类特殊现象,分为两个子方向,个是面 向实例的( e b m t ) 系统,一个是基于统计的( s b m t ) 系统。其对译文的排序 主要以匹配为主,以下简要一下i b m 公司的c a n d i d e 系统【2 】【3 1 1 4 1 ,该采用基于统 4 第一章导论 计的机器翻译思想。其翻译模型架构于五层队列匹配: w o r dt r a n s l a t i o n ,句子中独立于其他词的单独词的翻译。 l o c a la l i g n m e n t ,本地语言中处于某一句子类型位置的词的译文的概率。 f e r t i l i t i e s ,词的多义性的取舍。 c l a s s b a s e da l i g n m e n t ,将逻辑语义归类形成大约5 0 种类队列,以方便译文 的生成,、 n o n - d e f i c i e n ta l i g n m e n t ,完全的语言序列,即整个句子的翻译匹配。 具体的翻译过程如图1 1 示: 图1 1c a n d i d e 系统翻译的执行步骤 从c a n d i d e 的五层队列及其翻译执行步骤可以看出c a n d i d e 的排序以词义的 选择为基础,对句型进行匹配的过程。从中我们可以看出c a n d i d e 系统在排序上 的优势词模式匹配【5 1 ,但是c a n d i d e 系统相对的需要较大的人力、物力和财 力资源,而且面临根本的不可解决的问题词的狭义覆盖( n a l t o wc o v e r a g e ) 【l o 】【l l 】,相比之下r b m t 系统在这方面做的就相对较好f i l l 。 第三节本文的研究内容 1 3 1 本文研究的核心问题 提出基于英语生成法的话排序模型 以英语生成法的翻译思想为基础,遵循语言的生成过程,我们构建了一个 5 宁一 第一苹导论 基于英语生成法的话排序模型,这个话排序模型能够帮助我们抽取提取出话的 四格。再使用其它语言的生成法,我们同样能够构建其它语言的话的四格,这 样两种不同的语言便可一一对应起来,翻译起来也会得心应手。 m o o d 的抽取和格排序 格排序的基础是m o o d 的抽取,在正确抽取m o o d 的基础上,进行格排 序是一件相对容易的事。m o o d 的抽取,除依赖于得到的剖析树的正确性之外, 对p h r a s e 和p r e p 结构的处理也是其重点和难点。本文将在第三章详细讲述p h r a s e 的处理和p r e p 结构的处理。 将e a r l e ) 剖析算法应用于基于英语生成法的机器翻译系统 e a r l e y 算法是一个快速的剖析算法,将e a r l e y 算法应用于基于英语生成法的 机器翻译系统,可以提高我们系统的效率。使用e a r l e y 算法的剖析结果构建的 话的剖析树,也可以方便我们对话中m o o d 的抽取。 1 3 2 本文研究的目标 目前的基于规则的机器翻译系统普遍使用语法作为自然语言的描述机制。 语法是已经输出大脑的语言现象的规则集合,无法揭示人脑内部理解和生成语 言的真实过程。只有遵循语言的生成过程建立的机制,才能保证机器翻译过程 的准确性和译文的通顺。本文的研究目标如下: 1 ) 建立以“英语生成法”为指导的话排序的完整机制 英语生成法提出了8 级语言单位,每一级的语言单位都可以由它上一级的 语言单位生成,形成一种渐进式的结构,最终形成句子,这是由语法构建句子 所不具备的优势。以英语生成法作为指导思想来进行排序,可以将句子的各个 成分串起来,最大限度的降低歧义的出现,避免歧义问题的处理,提高句子翻 译的准确率。 2 ) 让句子“通顺”起来 “信、达、雅”是近代翻译先驱者严复提出的人脑翻译标准,也是我国翻 译界普遍采用的翻译标准。其中,“信指译文应忠实于原文,“达”指译文必 须通顺流畅,“雅”则要求译文优雅且具艺术表现力。 由于计算机无法具有人的逻辑思维能力和艺术美感,因此,要求机器翻译 系统的译文质量达到“雅”的程度有些强人所难。但是保证机器翻译译文结果 6 第一章导论 的忠实和通顺却是人们长期以来的期望。现在的翻译系统普遍讲的是词义的选 择正确,有些句子即使词义正确,翻译出来的译文结构上也是“张冠李戴”。人 脑不同于计算机,只要句子结构正确,在8 0 正确率正确词义的基础上,阅读 母语都不会出现阀题,往往可以猜测或预测以及校正错误的词汇的意思。 3 ) 提供机器翻译研究新视角,推动国内机器翻译理论和应用研究 将基于规则的机器翻译系统与语料库的技术相结合,是一个技术发展潮流。 但是,投入使用的基于规则的机器翻译系统,大都以语法作为自然语言的描述 方式,而投入使用的这些系统的翻译结果,也并不令人满意。 英语生成法实现了重大的理论创新,揭示了语言中尚未被人认识的规律, 给研究人员提供了新的视野。因此,基于英语生成法的翻译系统可以模拟人脑 对自然语言理解、转换和表达的处理过程,本文正是将英语生成法的理论应用 于具体实践,证明在排序上其相比于语法的优越性,从而推动机器翻译的理论 和应用研究。 第四节本文内容组织 本文对基于英语生成法的英汉机器翻译系统中的翻译知识表示进行描述。 在概述基于英语生成法的排序思想的基础上,提出了基于英语生成法的话级格 排序模型。 本文的组织结构如下: 第一章:导论综述机器翻译发展的历史和机器翻译研究的意义,对当前机 器翻译排序方法进行分析,提出了本文的研究目标以及研究的重点问题。 第二章:话级格排序的方法模型分析传统机器翻译中排序方法,提出话 级格排序的方法模型。 第三章:话级格排序的设计和实现介绍话级格排序的设计思想,给出重 点核心数据结构的定义,详细讲解了话级格排序的程序实现。 第四章:话级格排序方法测评论述了基于英语生成法的话级格排序模型 的可行性,并根据实验结果对这一方法进行了思考和讨论。 第五章:总结和展望对本文所作的工作进行总结,并对未来的发展进行 展望。 7 第二章话级格排序的方法模型 第二章话级格排序的方法模型 第一节传统机器翻译排序方法分析 在第一章中,我们简要介绍了目前的机器翻译的排序思想,这些排序思想 围绕着机器翻译中的词( w o r d ) 、短语( p h r a s e ) 和句子( s e n t e n c e ) 展开,显然 词、短语和句子的排序即排序的重点问题。以下我们将先给出排序中单词、短 语和句子的确切定义,然后分别从词、短语和句子三个方面展开分析。 2 1 1 排序的概念介绍 为了定义传统机器翻译中的词、短语和句子,。我们必须首先定义音素和音 节,详细的定义如下表示。 表2 1 传统机器翻译排序概念介绍 语言单位定义 音素 音素是发音器官通过一次姿势和动作而发出的没有思维内容的语音单位, 分为元音音素和辅音音素。文字形式为单个英文字母或英文字母组合。 音节 音节是若干音素按照约定俗成的排序规则构成的音素序列,其中必有一个 作为根音素的元音或成节辅音,其他是作为缀音素的辅音。文字形式为英 文字母序列。 ( 单) 词词是若干音节按照约定俗成的排序规则生成的音节序列,其中必有一个根 音节,其他为前、后缀音节。字分为单音节词、双音节词和多音节词。文 字形式为英文字母的序列,叫字母串。字母串由前缀音节、字根音节、后 缀音节等的字母及“”、们”或“”等符号一个字符空儿都不留地连接而 成。 短语短语由若干单词构成,在机器翻译系统中有两种不同的定义。狭义上,我 们定义为由多个单词复合而成的词,按词类可分为名词短语、动词短语, 形容词短语、副词短语、介词短语等。如:i 1 1 b o t t l eo f d r i n k ,t a k e f o r g r a n t e d 等。广义上的短语定义还包含语言中表达相对固定意思的词的序列。如:i t h i n k ,id on o tt h i n k 等。 8 第二章话级格排序的方法模型 ( 续表) 语言单位定义 句子句子是前后都有停顿,并且带着一定语调表示相对完整的意义的语言形式。 2 1 2 传统机器翻译排序方法分析 传统的机器翻译系统或以词序,或以短语的序,或以句子结构的序为排序 的主要方法,不一而同。这里将按自底向上的方式,对其一一进行分析: 2 1 2 1 词的排序 以词的排序作为系统的核心排序任务出现在比较早期的系统中。在第一章 中我们介绍的“高立英汉机器翻译系统 ,这个系统在本质上是一个词专家系统。 系统排序的核心任务也即建立源语言和目标语言的词的一一对应关系,单词的 歧义消解往往是此类系统的核心任务。i b m 的c a n d i d e 系统也可以说是一个建立 在词排序基础上的系统。只是两者建立的基础不一样,“高立英汉机器翻译系统 是一个以规则为基础进行单词的歧义消解的,c a n d i d e 系统是以统计的机器学习 的方法来进行词义排歧的。 事实上,极端地说,对“ip r o m i s et or e t u r nt h eb o o ko f t h el i b r a r y0 1 3f r i d a y 这句话,我们在说中文时习惯于以“我保证在周五归还图书馆的书”这种方式 来表达,而不是仅仅照字面翻译成“我保证归还书的图书馆在周五”。因为这样 的翻译,人是绝对看不懂的,所以字的排序只能作为机器翻译的基础,仅仅进 行字的排序是远远不够的,我们必须研究在字层面之上的短语和句子的排序。 2 1 2 2 短语的排序 短语的排序即是建立源语言和目标语言短语的一一对应关系,对短语的排 序的研究可以说是当今机器翻译界的热点。对于短语定义的不同,造成现今对 短语的排序的研究方法大致分为两类:一是基于规则的的方法( r u l eb a s e d m e t h o d ,r b m ) ,一是基于统计的方法( s t a t i s t i c a lb a s e dm e t h o d ,s b m ) 。 r b m 中定义的短语往往指前面定义的狭义短语,这种短语由n ( n = 2 ) 个 源语言组成的词串构成。其中有一部份表达着和它们以单个词的形式时大为不 同的意思,比如“o nt i m e ”,“i nt i m e 等,r b m 通常以短语词典的形式将这些 短语及其限制性规则存放在语料库中方便随时使用。另一部份名词短语、介词 9 第二章话级格排序的方法模型 短语等,如“o nt h eb o o k 、“ap i e c eo f c a k e 等则会存放在句法树中,根据其根 依照句子的逻辑关系排序。 s b m 中定义的短语的范围更广,一些常见的单词连用也会包含进来,也即 前面定义的广义短语。s b m 使用v i t e r b i 及其改进算法发现句子的最佳状态序列, 并返回最佳路径,构建源语言与目标语言的对应关系。关于这一方法的详细介 绍可以参考由g o o g l e 的f r a n zj o s e fo c h 和亚琛工业大学( r w t h a a c h e n u n i v e r s i t yo f t e c h n o l o g y ) 的h e r m a n nn e y 等人在2 0 0 4 年发表的文【引。 关于短语的排序,可以说r b m 处理的短语的相对较少,因为较少,所以其 正确率也相对较高,但是同时完成的排序任务也较少,这样r b m 方法的机器翻 译系统往往会构筑句子层级的排序。s b m 处理的短语较多,在一定程度上影响 了其正确率,另外,虽然使用了短语的排序在一定程度上减轻了句子结构判断 的压力,但是试图在这里解决句子的整体序的问题,往往不能取得预期的效果。 以g o o g l e 的在线翻译系统翻译上文的例句“ip r o m i s et or e t u r nt h eb o o ko ft h e l i b r a r yo nf r i d a y ,其结果如下:“我答应归还图书的图书馆周五。“可以说这样 的译文的可读性,与基于单词的排序的系统相比并没有什么显著的提高。 2 1 2 3 句子的排序 现实世界的句子复杂多变,使得s b m t 系统也要借助于规则才能进行句子 的排序。我们见到的机器翻译系统句子排序的方法,通常是使用r b m 来进行句 子的排序。 r b m 往往通过建立一种约束语言规范的文法,或上下文无关语言文法 ( c f g ) ,或合一文法,或依存语法等等,并依据该文法使用一些经典的句法剖 析算法,剖析出源语言的句法结构,得到源语言的句法树,然后采用规则主要 是语法规则以及上下文相关的语义分析,形成以动词为根节点,以逻辑语义项 为主节点的的树形图,最后,树的根最主要的动词开始展开逻辑语义树,将词 的意思串起来形成句子。 这样的排序过程,由于处理上的侧重性强调了源语言句子的分析弱化 了两者的差异性,即使句子结构完全分析正确,最后形成的句子的语序却不 定符合目标语言的表达规范,看起来仍会结构混乱。此外,这个排序过程只保 证了句子的逻辑意义上的译文生成,没有细化到具体的句子成分在这里指的是 语法中的字词。 1 0 第二章话级格排序的方法模型 总结上文的分析,要使句子及其内部的排序稳定化,就必须使用新的理论 方法来设计排序,而不能仅仅使用语法来描述句子的排序。语法只涉及到主语、 谓语、宾语、定语、状语和补语,并没有详细的描述各种语言成分的内部排序, 也没有描述语言是如何形成的,只是规范了语言的表述方式,这样在语法层面 上的排序就不能算是完整的句子排序。 第二节基于语言生成规律的多级排序思想分析 基于语言生成规律( 本文里指英语生成法) 的多级排序思想与传统机器翻 译的排序思想大为迥异,其排序建立的基础也和传统机器翻译方法差别甚大。 2 2 1 基于语言生成规律的排序概念介绍 在基于语言生成规律的排序方法中,我们以字、词、充当者、话和句这五 种概念为基础来进行排序。其中字即前面定义的( 单) 词,句在前面定义的基 础上又区分为脑内句和脑外句两种。如表2 2 示: 表2 2 基于语言生成规律的排序概念定义 语言单位定义。 词 词是若干字按照约定俗成的排序规则生成的字序列,相当于前面定义的狭 义短语。其中必有一个根字,其他为缀字。词分为单字词、双字词和多字 词。 充当者充当者是话中成分充当者的简称。能够充当话中成分的语言单位称为话中 成分充当者,分为专用充当者和通用充当者。包括p r o n 、n u m 、m o o d 、 n o u n 、d e g r e e 等类型,其文字形式为字母串的序列。 话话是由若干基本成分的充当者( 其中必有一个m o o d 类型的充当者) ,及 其从属成分的充当者排序生成的序列,其文字形式为字母串的序列。 脑内句即将从人脑内向外输出的句子和刚刚输入人脑内的句子叫做脑内句, 由标准形式的话排列生成或由句内话间逻辑联结词联接而成的合乎逻辑 的、其中或有段内句间逻辑联结词的序列,其文字形式为字母串的序列。 第二章话级格排序的方法模型 ( 续表) 语言单位 i定义 脑外旬 i 脑外句是最小的交际工具单位。按照相应隐含规则,言者笔者将脑内句中 某些标准形式的话和充当者的部分形式隐含后输出而生成脑外句。其文字 l 形式为字母串的序列。 2 2 2 基于语言生成规律的多级排序思想分析 在英语生成法中,排序指的是话内的话中成分充当者的排序和句内的话、 话的变形和逻辑联结词的排序。话内排序的结果有框式序和话中序。旬内排序 有陈述序、疑问序和、辞格序。这些种类的排序统称为句中序。这些种类的排 序规则统称为句中序规则。句中序规则是任何一个英语句子生成过程遵守的规 则体系的一部分。 英语生成法给出的语言单位序列中的字就是语法中的单词。从字到句还有 词、充当者和话这三个逐级生成的语言单位。它明确了话内及其格内的排序对 象是充当者,而句内的排序对象则是话和话的变形。 英语生成法的排序过程主要分为以下三级: 1 )第一级:格内排序,包括框式序,如:框前序、框内序、框后序。 2 )第二级:话内排序,即五种话的有序四格正装序。 3 ) 第三级:旬内话、话变形的排序。 以下,我们将通过表的方式来对比基于语法的排序和基于英语生成法的排 序的不同之处: 表2 3 语法和英语生成法排序的对比 比较内容语法英语生成法 相同处 不同之处 排序的根要素谓语 m o o d 都是构成句子不m o o d 的结构比 可缺少的部分,都较细化,其框式结 是由动词构成 构有助于旬序的 生成;谓语的结构 是单一的,在谓语 生成后,不能在谓 语内部排序 1 2 第二章话级格排序的方法模型 ( 续表) 比较内容 语法 英语生成法相同处不同之处 排序的对象1 单词1 充当者1 在英语生成法 2 句子成2 话中,w o r d 复合构成 分:主语、词,词复合构成充 谓语、宾语当者,充当者出现 等歧义的可能性比 w o r d 小。 2 充当者在生成 时有约定俗成的 序,在充当者生成 的过程中就降低 了排序的难度。 3 语法是人们为 规范语言使用而 找到的规则,主 语、谓语、宾语等 的区分是由人脑 学会语言后再由 语言中剥离出来 的;英语生成法是 语言的生成规则, 充当者和话是和 人脑中的思维过 程一一对应的,是 语言所固有的。 1 3 第二章话级格排序的方法模型 ( 续表) 比较内容语法英语生成法相同处不同之处 排序的方法1 基本句1 格内框式排序英语生成法对话语法关系复杂多 式2 话中基本成分充进行了类别区分,变,语法中经常有 2 语法关当者的有序四格存对话的内部进行例外发生,这使得 系放排序时借用了主排序时设计的规 3 句中的概念重现、语、谓语、宾语等则经常出现矛盾, 格内层次与逻辑联语法概念用以实为避免出现矛盾, 结三种结构的排序现话的有序四格常常要设计特殊 存放规则;英语生成法 ( 说明:话中成分的排序层次性比 是思维逻辑概念, 较清楚,可以在- 具有人类语言的定程度上减少矛 共性。)盾规则的出现。 通过以上对比,我们发现与传统基于语法的机器翻译的排序相比较,基于 英语生成法的排序有以下优势: 排序复杂性低 1 基于英语生成法的排序使用充当者和话来排序,与传统的基于语法 使用单词和句中成分来排序相比,句子的结构较为简约,排序的算 法实现也比较简洁。 2 语法是人类在长期使用语言的基础上总结出来的规则。语法为兼容 一些早期的或者新变化的句子做了一些特殊的规定( 如:普通规则: 宾语、主语补语和宾语补语往往不前置,但是“v e r ys t r a n g ei ts e e m e d 也不错) 。这些规定与常用规则是相互矛盾的,需要由人来界定,这 使得排序时设计的规则也经常出现矛盾,为避免出现矛盾,常常要 设计特殊规则;英语生成法的排序层次性就比较清楚,可以在一定 程度上减少矛盾规则的出现。 排序准确性高 1 基于英语生成法的排序对象是充当者和话,充当者和话是复合概念 语言单位,在生成充当者和话的过程中,就能消除排序面临的一部 分歧义问题。 1 4 第二章话级格排序的方法模型 2 英语生成法中定义的字、词、充当者、话和句是逐级生成的语言单 位。字向上生成词,词向上生成充当者,充当者向上生成话,话向 上生成句,每一种结构的生成都和人的思维过程中的各个阶段一一 对应。参与排序的充当者的结构有其固定的组成部分,生成的汉语 充当者也有标准序可以参考;话由充当者排序生成,对话内的排序 是将话的成分放在有序四格之中。每一步的实现,也都有迹可寻。 相比之下,语法中的主谓宾的切分,除谓语根词的确定以外,完全 是考验人类的知识水平。 通过以上的分析比较,我们发现英语生成法对解决机器翻译中的序的问题 是有一定帮助的。本文将通过对英语生成法的话的格排序即基本成分的有序四 格排序理论进行实验,以佐证上述观点。 第三节话级格排序思想分析 2 3 1 话级格排序的概念介绍 话级格排序又称话的有序四格排序。在介绍具体的排序内容之前,本文将 以自底向上的方式介绍以下几个重要概念:- 1 m o o d m o o d ,充当者的一种,是英语的话中谓语成分充当者,是话的根。 2 n o u n n o u n 指话中的主语、宾语和某一类表语的成分充当者。 3 d e g r e e 话中的描述性和修饰性成分充当者。其中描述人、事、物的性质或特征的 d e g r e e 为形容词。对名词以外的充当者起修饰作用的充当者为副词。 4 框式结构 除通用充当者外的专用充当者的结构为框式结构。框式结构分为双框结构 和三框结构,如图2 1 所示。双框由前、后两框组成。双框的前框也叫左框,后 框也叫右框。三框由前、中、后三框组成。三框的前框也叫左框,后框也 叫右框。为方便叙述,这里采取左框、中框和右框的提法。 第二章话级格排序的方法模型 敬撬缩构 l :鬈霉鳓掏 友_ 戢嚣椭庇曩葺l 弘麓熏霸糕 图2 1 专用充当者的框式结构 以m o o d 为例: “d og o 为双框结构。 “d or e g a r d a s 为三框结构。( 如图2 2 ) 双框结构 三框结构 d o g o 图2 2 框式结构举例 5 非话型a p r e b 结构 框式结构的一种,其基本形式为“充当者1 + p r e p + 充当者2 ,其中充 当者1 为左框,p r e p + 充当者2 为右框。 双框结构 am a ni nt h eh o u s e 图2 3 非话型a p r e b 举例 6 话与格 话是由若干基本成分及其从属成分的充当者,按一定的序排列生成的充当 者序列,其中必有一个谓语充当者m o o d 及其从属成分的充当者。按照在话中 的作用,基本成分可分为根成分和缀成分。谓语是话的根成分,其他基本成分 1 6 第二章话级格排序的方法模型 均为话的缀成分。 格,不同于菲尔默【3 3 】( f i l l m o r e ) 的格语法,定义为话的主语、谓语、宾语 和表语等在话中排序的位置。 第二格内的m o o d 及其修饰语是话的根。第一格内的主语及其修饰语是话 的前缀。第三格内的某种成分及其修饰语是话的后缀1 。第四格内的前提,及其 修饰语是话的后缀2 。 话的标准形式结构,为a p r e n b n + 前提,其通式如下: a 前缀n + 根m + 后缀一n d 话复宾变形】p r e nb n + 前提 a 由前缀n 、根m 、后缀瓜d 话复宾变形组成。n 指任何类型的名词性充 当者。m 指m o o d 。d 指任何类型的形容词或副词词性的充当者。 话的a p r e n b n 中只有一个a ,但有若干个p r e nb n ,之所以如
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 19842-2025轨道车辆空调机组
- GB/T 46530-2025营运船舶二氧化碳排放强度等级及评定方法
- GB/T 46441-2025影像材料彩色反射照片臭氧褪色稳定性的试验方法
- 胆囊结石嵌顿的护理
- 雨课堂学堂在线学堂云《财富管理(黑龙江财经学院 )》单元测试考核答案
- 高考化学“3+2”模拟练试卷含答案(七)
- 2026年投资项目管理师之投资建设项目决策考试题库200道含答案【轻巧夺冠】
- 2026航空工业未来机载武器技术协同创新中心校园招聘历年真题汇编附答案解析
- 浙江国企招聘-2025浙江湘旅控股集团有限公司招聘10人历年真题汇编带答案解析
- 2026年度中国石化毕业生招聘历年真题汇编带答案解析
- 河道疏浚沙石运输合同
- 路灯灯头改造施工组织设计(方案)
- GB 8903-2024电梯用钢丝绳
- 羽毛球比赛对阵表模板
- 房屋续租再签合同范本
- 青春健康懂营养智慧树知到期末考试答案章节答案2024年昆明医科大学
- 土壤固化剂对边坡加固
- 非公司企业改制登记(备案)申请书
- 《安装操作系统示范》课件
- 读书与书籍-课件
- 数据中心基础实施培训UPS
评论
0/150
提交评论