(计算机软件与理论专业论文)英汉机器翻译的语料库设计与实现.pdf_第1页
(计算机软件与理论专业论文)英汉机器翻译的语料库设计与实现.pdf_第2页
(计算机软件与理论专业论文)英汉机器翻译的语料库设计与实现.pdf_第3页
(计算机软件与理论专业论文)英汉机器翻译的语料库设计与实现.pdf_第4页
(计算机软件与理论专业论文)英汉机器翻译的语料库设计与实现.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 中文摘要 英语是世界公用语言。在中国国际化历程中,攻克英语语言理解难关是实珊 文化交流、经济交流乃至科技交流的必经之路。因而,在机器翻译研究领域, 突破英汉机器翻译的技术瓶颈问题、提高英汉机器翻译水平具有重大政治意义 和经济意义。 本文立足于自然语言理解规律的新理论语言生成法,以基于语言生成法 的英汉机器翻译研究为背景,提出了基于语言生成法的语料库模型基础语 料库。面向语言生成法的语言描述机制,对基础语料库的内容及结构体系进行 良好的设计,建立完整的基础语料库和基础语料库的控制访问机制。 本文论述了基础语料库在基于语言生成法英汉机器翻译系统中的多方面应 用,介绍了该系统中采用基于优先分析技术消除歧义的一些处理策略,讨论了 对于词义多义性歧义消解的算法。 关键字。 。 、 语言生成法英汉机器翻译系统基础语料库优先规则歧义消解 a b s t r a c t a b s ”a c t e n 鲥s hi st h ew o r l d sc o m m o nl a n g u a g e a sc h i n ab e c o m e sm o r ei n v o l v e di n i n t e m “o n a la f f 面r s ,i ti san e c e s s a r yt ob 佗a kd o w nt h el a n g u a g eb a e rf o rc h i n e 鹕 t oc o n d u c tc u l t u r a l ,e c o n o m i ca i l dt e c h n o l o g i c a le x 亡h 抽g e s t h e r e f o r e , t h e b r e a l ( t h m u g ho fe n 鲥s h c h i n e s em a c h i n et r a l l s l a t i o nt e c h n 0 1 0 9 yi so f b o 山p o c a l a n de c o n o i i l i c a li m p o r t a l l c e t h i sp a p e ri sb a s e do nan e wn a t u r a l l a n g u a g eu n d e r s t a l l d i n gt h e o r y l a n g u a g e f o r r n a t i o nm e t h o d o l o g y ( l f m ) t t l ep 印e rd i s c u s s e sh o wt od e s i g naf o u n d a t i o n l a n g u a g e c o r p u s w h i 曲 i n c o r p o r a t e s u m仃a t l s l a t i o n k n o w l e d g e i n a n e n g l i s h c h i n e s e m a c h i n et r a n s l a t i o ns y s t e m n i sp a p e rr e “z e s a c o m p l e t e f o u n d a t i o nl a n g u a g ec o r p u sw i t hr e l a t e da c c e s sm e c h a n i s mf o rt 1 1 ee n g l i s h c h i n e s e t r a n s l a t i o ns y s t e m t h i sp a p e rd i s c u s s e sv 撕0 u sa s p e c t so ft h ea p p l i c a t i o no ff o u n d a t i o nl a n g u a g e c o r p u si nm eu 聊_ b a s e de n 酉i s ht oc h i n e s em a c h i n et r a n s l a t i o ns y s t e m hp m s e m p h a s i so nt h ep r e f e r c n c ea 1 1 a l y s i st e c h n o l o g ya t i dp u t sf o n a r da na l g 硎t h mf o r m e a n i n gd i s a m b 培u a t i o n k e y w o r d , l a n g u a g ef 0 订n a t i o nm e t h o d o l o g y ( l f m ) u 7 m - b a s e de n 出i s h c h i n e s em a c h i n et m s l a t i o ns y s t e m c o r p u sd i s 锄b 培u a t i o n p r e f e r e n c ea 1 1 a l y s i s 1 1 ,;内容目录一一。 一, 图目录 图1 1 自然语言理解过程和当前机器翻译所处的水平; 图1 2b a y e s 公式推导。3 图2 1 语言生成法的内容层次图。1 0 图2 2 语言生成法的理解层次。1 l 图。2 3 语言描述机制“ 1 3 图2 4 基础语料库体系结构图1 4 图2 5 基本词条信息存储结构图1 6 图2 6 名词的语义分类2 0 图2 7 基础语料库体系结构及其发展2 2 图3 1 基础语料库的逻辑结构。2 9 图3 1 基础语料库控制接口设计图3 1 表4 1a m e a l l i n g 子库的部分内容3 5 表4 2 话的四格存放3 7 图4 1 一次歧义消解过程图3 9 一 内容目录 表目录 表2 1 语言生成法的语言单位定义1 2 表2 2 基础词库的逻辑内容o 1 5 表2 3 英语中的词类描述_ 1 5 表3 1m 明i n g 子库的逻辑结构:2 6 表3 2 讧眈n i n g 子库的逻辑结构2 6 表3 3n a 璐f o m 子库结构2 7 表3 4p h r 嬲e 子库逻辑结构。 表3 5p r e f i 】【e 子库逻辑结构2 8 表3 6a c t o r 子库逻辑结构 表3 7s e n t e n c e 子库逻辑结构。拶 表4 3 单词译文选择正确率比较( 针对1 5 个例句) 4 2 表4 4 句子译文翻译比较 v y9 6 8 6 8 3 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供 本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名:麸再 一 年歹月;闰 2 ,一 经指导教师同意,本学位论文属于保密,在年解密后适用本 授权书。 i 指导教师签 1 名:学位论文作者签 旅耳 i 毫: , 解密时年月 日 l 闯: 各密级的最长保密年限及书写格式规定如下: 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 。体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任 由本人承担。 。 学位论文作者签名:认斗 渤年。岁月引日 第一章导论 第一章导论 自从人类社会中第一次产生语言以来,人们就再也没有放弃通过语言进行交 流的努力。不管怎样,人们总是能遵循一定的交际规则体系,把一种陌生的语 言转化成为另外一种自己熟悉语言,从而加以领会。这样使得不同语言、不同 文化背景甚至不同种族之间的人们能够更好的相互沟通、理解。随着计算机技 术的飞速发展和日益成熟,人们开始不断尝试使用计算机替代人的知识学习, 进行各种语言之间的翻译和转换。利用计算机进行自动翻译逐渐成为当前世界 上热门的研究课题。 第一节机器翻译研究概述 机器翻译( m a c h i n ef i h n s l a t i o n ) ,又称机译( m r ) ,是利用计算机把一种自 然语言转化为另外一种自然语言的处理过程,用以完成这个处理过程的软件系 统称为机器翻译系统7 1 【9 】【h 】。机器翻译技术属于自然语言理解问题,处于语言学、 翻译学、人工智能、计算机软件技术等多个研究领域的交叉点。作为自然语言 处理的一个重要领域,世界上许多国家长期以来都一直在从事机器翻译的研究 工作。 机器翻译研究经历了长期的发展过程,自2 0 世纪4 0 年代电子计算机诞生之 日起,人类就开始了将计算机应用于语言翻译的探索。我国机器翻译的研究可 以追溯到2 0 世纪5 0 年代中期。半个世纪以来,世界范围和我国的机译研究都 经历了“繁荣兴盛的起步阶段沉寂缓慢的发展过程近期的重新兴起” 三个阶段,现在已开始步入大发展时期【9 】。 经过半个多世纪的发展,机器翻译技术已取得了很大的发展。很多机器翻译 系统软件已经面世并投入使用。然而,时至今日,机器翻译的译文质量仍然极 其低下,可读性很差。世界著名的机译评论家h u t c h i n s 在机器翻译峰会上的发 言中说,机译译文质量至今并没有取得实质性的进展,很多5 0 年前未解决的问 题如今依然存在。 :图1 1 描述了自然语言理解和机器翻译目前所处的水平。 由于英汉翻译跨越不同语系,完全属于不同的文化背景,在自动翻译过程中, 存在着英文语义理解困难、译文排序技术差、语言习惯差异无法体现等重大技 第1 页 一 t 第一章导论 术问题,面临更为严重的技术瓶颈。 l $回 羹章 俺两 面蜀 图l _ l 自然语言理解过程和当前机器翻译所处的水平 在国际化历程中,跨越语言障碍是实现文化交流、经济交流乃至科技交流的 必经之路。英语是公认的世界通用语言,从政府间外交事务到商贸往来,从教 育科研到各行业信息交流,英语都起到了重要的桥梁作用。随着中国国际地位 的提升和国际化进程的加快,汉语的地位也日益重要。国际范围内对“英汉互 译”的需求越来越广泛,有效的解决“英汉互译”问题,发展英汉机器翻译技 术,有着重大的社会、经济价值。 第二节机器翻译中的语料库思想 语料库佗】【( c o r p u s ) ,简单的说,是一个由大量在真实情况下使用的语言信 息集成的专供研究使用的资料库。它通常指为语言研究收集的、用电子形式保 存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定白皂 语言或语言变体。经过科学选材和标注、具有适当规模的语料库能够反映和记 录语言的实际使用情况。人们通过语料库观察和把握语言事实,分析和研究语 言系统的规律。语料库是语言学理论研究、应用研究和语言工程不可缺少的基 础资源。 第2 页 第一章导论 近年来,随着语料库语言学研究的深入发展,语料库对机器翻译研究领域也 产生了深刻影响,越来越多的机器翻译系统研究中引入了语料库及其相关技术。 语料库作为机器翻译系统获取翻译知识的来源,在机器翻译研究中发挥了重要 作用,主要表现为以下三种类型: ( 1 ) 统计机器翻译中的语料库 ( 2 ) 基于实例机器翻译中语料库 、 ( 3 ) 基于规则机器翻译中的语料库 1 2 1 统计机器翻译中的语料库 使用统计方法的机器翻译的基本原理是实现源语言词汇到对应目标语言词 汇的映射嗍【1 2 】【14 】。统计机器翻的一个典型是也m 公司p e t e rb r o w n 等研究人员开 发的英汉机器翻译系统。在该英汉机器翻译处理过程中,假定源语言和目标语 言之间存在着概率映射关系,其中,s 、t 表示源语言和目标语言句子,p r ( s ) 、 p “t ) 分别表示s 、t 在各自语言中出现的概率,p r ( s i t ) 表示在t 出现情况下,其 对应的语言句子为s 的概率。那么,机器翻译可视为:给定源语言句子s ,通过 计算来找到一个目标语言句子t ;使得p r ( t i s ) 为最大的过程。根据b a y e s 公式推 导,即: r = m 麟p f 州p r sir j r 图1 2 b a y e s 公式推导 这个统计计算中,b m w n 提出了两个模型:1 ) 语言模型p ( t ) ,其计算参数 来源于目标语言语料库;2 ) 翻译模型p “s l t ) ,其计算参数来自于源语目标语 双语语料库。 在统计机器翻译中,一般要求建立双语语料库,建立单词一级的对应,在统 计翻译过程中,为统计、概率计算提供依据。 1 2 2 语料库与基于实例机器翻译 基于实例机器翻译嘲n 2 3 基本思想是不通过深层的分析,仅通过已有的经验矩 识,通过类比原理进行翻译。 第3 页 第一章导论 基于实例机器翻译,一般要求建立句子一级对齐的双语语料库,主要存储 翻译实例和语义词典等形式的系统知识。翻译系统将对输入例句和语料库中的 翻译实例进行相似程度匹配,如果成功,即可直接得到输入例句的相应译文, 而不必进行深层次的语言学分析。也有人将语料库的这种应用称为基于语料的 辅助翻译叫10 】【1 4 】。 由于语料库规模的限制以及自动对齐技术尚未完全成熟等困难i 目前,使用 语料库存储句子实例的翻译一般都作为翻译系统中的一种辅助翻译方式。加拿 大的c m 为政府的翻译局开发了机助翻译系统t r a n s l a t i o nw o r i 【s t a t i 伽。该系统 为英法双语语料库建立了句子一级的对应。用户在翻译的过程中,遇到疑难的 单词、词组,可以通过对应关系,找出语料库中包含这些单词和词组的句子及 其译文,供用户参考1 0 】【14 】【估】。 1 2 3 规则机器翻译中的语料库 基于规则机器翻译2 1 】【2 7 】【2 8 】【卿以语言学规则为翻译知识源,语言之间的多次转 换为中心。在基于规则机器翻译中,如果单纯依靠规则知识,难以表示语言中 的不确定、小粒度知识,同时大量语言学规则的获取与表示、以及规则矛盾和 冲突问题是限制这一方法应用的瓶颈,而语料库在这些问题的处理上表现出一 定的优越性。因此,越来越多的研究者,采用了混合策略,即将语料库技术融 入基于规则的机器翻译中,以克服现有系统中存在的一些问题。语料库可以在 以下四个方面为基于规则的机器翻译提供支持: 。 1 ) 表示词典信息 机器翻译系统中的词典包含了机器翻译过程中所需要的词法、语法和语义信 息。这些信息对于消除歧义非常重要。使用语料库表示词典信息,不仅能够基 于大量的语料进行统计,同时,通过语料库的加工技术还可以统计提炼出词典 中词的固定搭配、语义特征、单词之间的约束关系等知识并加以标注。 2 ) 表示文法规则 大量的文法规则以及随之而来的扩充、修改和维护问题,一直是困扰基于瓶 则机器翻译的难题。如果,以大量的语料为基础,建立一套良好的工具,支持 人们从语料中抽取文法规则,由计算机辅助人们按照一定的方式来设计文法授 则,完成一致性维护,那么这个难题就稍微得到了解决。 第4 页 第一章导论 一个典型的例子是m i c r o s o f t 公司开发的多国语言机器翻译研究项目。在 该系统中,并没有专门的规则,转换规则的获取是利用双语语料库中全自动进 行的,从语料库中获取的翻译知识完全是动态的。 3 ) 目标语言的生成 通过在双语语料库中建立句子内部语法单位一级的对应关系,找出源语言和 目标语言的对应语法单位之间的位置变化关系,抽象出源语言到目标语言的生 成规则,这是非常有益。 4 ) 测试和评价 双语语料库可以为机器翻译系统的测试与评价提供平台。将机器翻译系统的 源语句子的分析结果及译文与语料库中的源语和目标语的对应关系进行比较, 可以得到一个大致的评价。 。 1 3 1 研究目标 第三节本文的研究内容 从统计机器翻译仅仅为统计概率计算提供依据,到基于实例机器翻译中作为 翻译系统的记忆库,再到基于规则机器翻译中表示词典、表示文法等多方面的 运用,语料库在机器翻译研究中发挥了越来与重要的作用,有效的解决当前机 器翻译研究中的一些难题。然而,目前,语料库在机器翻译中的应用并没有为 机器翻译系统的译文质量带来显著的提高,也没有从根本上解决当前机器翻译 技术所面临的瓶颈问题。 究其原因,在传统机器翻译中存在三个方面的问题: ( 1 ) 语言描述方面 统计机器翻译中仅对词汇一级的语言单位进行统计分析,零碎的单词和语块 分割了语言的整体特征。 基于实例的机器翻译存储语言中旬子一级的完整信息,深层次语言分析的欢 乏,扼杀了语言的灵活性和多样性表现能力。 基于规则的机器翻译,借助于语言中的语法描述单位,如单词、短语等,并 通过一定的语言规则对这些语言单位进行分析。然而,这些语言规则通常以传 统的语法规则为基础,知识粒度粗大,不能很好地反映自然语言中的某些复杂 第5 页 第一章导论 特性。 上述三种语言描述方法细腻程度一般,而且都不具有良好的层次性; ( 2 ) 语言分析方面 基于规则的方法眺1 0 m 卅使用剖析( p a r s i n g ) 技术完成语言的分析,以最终生 成一棵剖析树作为完成分析的标志,语法树结点是一个单词,保存的信息有限。 此外,大量语言的信息靠树的形状来表示,一旦分析错误,必须重新建树。 基于统计的分析7 【9 1 是抽取语块和碎片,这种方法比树形剖析的方法降低了 分析的难度,而且比较灵活。但其抽取的标准是基于统计数据,缺乏细粒度的 语言知识,有时甚至是错误的。, ( 3 ) 语言转换方面 基于规则的方法要完成源语分析树到译语分析树的转换,转换后树的结构发 生了变化。过程涉及复杂的树转换规则,规则编写复杂,维护困难。基于统计 的方法以碎片为单位进行一一对应转换,更为灵活,但是转换的规则是自动抽 取,正确性难以保证。 基于对以上问题的分析和认识,英汉机器翻译研究工作者立足于自然语言学 习规律的新认识语言生成法,提出了基于语言生成法的英汉机器翻译研究, 针对英汉机器翻译中的语义理解、分析、和转化问题寻求解决途径,从根本上 提高英汉机器翻译的质量。由此,也引入了本文的研究目标。 本文将集中研究基于语言生成法的英汉机器翻译中基于语言生成法的翻译 知识描述,提出基于语言生成法的语料库模型,论述基础语料库的系统架构耗 设计思想,建立集成语言生成法相关知识规则信息、具有良好结构层次和功能 服务的基础语料库。 1 - 3 2 研究的重点问题 基础语料库的内容是否完备决定了基于语言生成法英汉机器翻译系统的处 理性能;基础语料库结构与访问方式的设计决定了基于语言生成法的英汉机器 翻译系统的处理过程。因此,必须依靠采用新思路设计的基础语料库,处理好 以下两个重点题。 ( 1 ) 基础语料库的存储管理 为了实现基于语言生成法英汉机器翻译的研究目标,基础语料库除了包含传 第6 页 第一章导论 统机器翻译语料库中的通用内容知识之外,还需要包含了大量的语言生成信息 和生成规则,如语法结构信息、语义充当者属性信息、语义理解规则、译文排 序规则、“隐含一输出”处理规则等等。与传统机器翻译相比,基础语料库包含 更多智能化处理规则和更大的语言信息种类。 基于语言生成法的英汉机器翻译核心处理流程体现了自然语言使用过程中 “多级嵌套”的特点,语义单位“充当者”、“话”、“旬”之间均可进行嵌套。 这就要求基础语料库中必须体现对语法规则、语义规则、词法规则的多级描述 机制,记录规则之间的同级关联和不同级约束,以保证机器翻译过程的准确性。 这些处理规则和语言信息中,有些需要通过语言研究专家总结经验才能够得 到,而有些是在英汉机器翻译处理过程中自动生成,特别是一些语法、语义分 析规则。基础语料库应该能够区别这些知识的不同特征,并根据英汉机器翻译 系统的要求,对其进行不同的处理。因此,必须进行建立良好的基础语料库存 储和管理机制。 ( 2 ) 基础语料库的访问和使甩 基础语料库的访问和使用是本文研究的又一个重点问题。 基于语言生成法的英汉机器翻译系统中,基础语料库具有多方面的功能和应 用。除了象传统机器翻译语料库一样提供词典信息和相关的语法规则知识,基 础语料库还通过多种访问和使用机制提供英汉机器翻译系统所必须的相关知 识,如充当者属性、排序变形规则、隐含输出规则等语言生成规则。同时,通 过建立翻译记忆库,基础语料库也为英汉机器翻译系统集成翻译记忆技术提供 了支持。其中,基础语料库应用的一个重要体现就是歧义消解,尤其是针对词 义性多义现象的消解。一 自然语言中存在着大量的歧义,这意味着基本词条可有多种语义,语法规则 间存在重用、冲突的情况。为了更好的解决这些问题,基础语料库根据语义特 征对语料库信息进行分类,对基本词条的多义现象进行总结和整理,为正确选 择基本词条的语义、译文属性提供了丰富的、详细的规则,使英汉机器翻译系 统处理过程一开始就能够获得对基本词条语义信息的正确理解,保证英汉机器 翻译最终结果的正确。 综上,对基础语料库的进行良好的存储管理设计和对基础语料库的访问和使 用控制是并重的。只有二者良好的结合,基础语料库才能够更好地体现自然语 言的理解层次,为英汉机器翻译系统提供良好的功能服务。 第7 页 第一章导论 、第四节本文内容组织 本文对基于语言生成法的英汉机器翻译系统中的翻译知识表示进行描述。在 概述“基于语言生成法”的英汉机器翻译系统的基础上,提出了集成语言生成 法相关信息的基础语料库系统结构,论述基础语料库的设计思想,并对基于语 料库进行优先优先分析的单词歧义消解算法加以描述,形成了本文组织结构。 本文的组织结构如下:、 第一章:综述机器翻译发展的历史和机器翻译研究的意义,总结了机器翻译 研究中语料库的作用,并对当前机器翻译质量低下的原因进行分析,提出了本 文的研究目标以及研究的重点问题。 第二章:基于语言生成法的语料库思想简单介绍语言生成法的概念,集中 分析了基于语言生成法的理论体系和基于语言生成法的翻译知识的理解和表 示i 重点提出了基于语言生成法的语料库的系统结构。 第三章:基础语料库的设计论述了基础语料库的设计思想。介绍基础语料 库设计中的三个方面:基础语料库内容设计、基础语料库逻辑结构设计、基础 语料库控制接口设计。详细论述基础语料库的逻辑结构设计和控制接口设计。 第四章:基础语料库的应用论述了基于基础语料库的歧义消解思想。简单 介绍了基于优先分析技术的可行性,详细描述了词义消歧算法分析中,优先规 则的制定和算法的处理流程,并对这一方法进行了思考和讨论,通过比对同类 产品性能,对这一方法进行评价; 第五章:总结和展望对本文所作的工作进行总结,对基础语料库的设计和 应用进行总结,并对未来的发展进行展望。 第8 页 第二章基于语言生成法的语料库模型 第二章基于语言生成法的语料库模型 第一节相关概念介绍 基于语言生成法的英汉机器翻译项目研究,除了引用机器翻译领域的专业术 语以外,还使用了一些自己定义的概念。为了便于描述,在文章的开始我们给 出相关概念的描述。 语言生成法一语言生成法是关于自然语言认识规律的新理论。语言工作者 在大量的英语教学和学习研究中发现,任何一个英语句子都是在母语为英语的 人大脑内生成并输出的结果。在客观上存在着两套规则体系,一套是任何一个 英语句子在大脑内生成并输出的过程遵守的规则体系,另一套是已经输出了的 任何一个英语句子的现象遵守的规则体系。前者叫做英语语言生成法,后者是 对已说出英语句子的现象提供精确描述的英语语法。在本文中,英语生成法简 称为语言生成法。 , 基于语言生成法的英汉机器翻译系统基于英语语言生成法的英汉机器 翻译研究,采用了“以语言学知识为主、计算机软件技术为辅”的系统架构思 想,立足于英语语言生成法的新理论,通过总结英汉翻译的专家经验、抽象提 炼语言生成规则,建立对自然语言的理解机制,在此基础上实现对自然语言问 的转换( 翻译) 。我们将其称之为“基于语言生成法”的英汉机器翻译处理过程, 包含该核心处理过程的机器翻译系统称之为“基于语言生成法”的英汉机器翻 译系统。为了简化描述,我们也称之为“英汉机器翻译系统”。 基础语料库基础语料库,即基于语言生成法的语料库。是指在基于语言 生成法的英汉机器翻译系统中,保存了相关语言的字典、词典、语法规则、句 型模式的大型数据库。 第二节语言生成法的理论体系 2 2 1 语言生成法的内容层次 语言生成法采用逐级生成的六个语言单位:字、词、话中成分充当者、话、 第9 页 第二章基于语言生成法的语料库模型 内在句,外在句,即句子。语言生成法指出任何一个英语句子的生成规则体系 都包含以下几个过程: 1 ) 字约定俗成的词生成话中成分充当者; 2 ) 话中成分充当者排序生成话: 3 ) 话的变形: 4 ) 话、话的变形及表示其间逻辑关系的联结词排序生成内在句; 5 ) 内在句隐含输出成为外在句这5 个子过程的规则组成。 图2 1 语言生成法的内容层次图 为了能够更好的理解语言生成过程,语言生成法对其中的语言单位进行了分 类: 语言材料单位:字、词、话中成分充当者 思维工具单位:话、内在句 交际工具单位:外在句,即句子 同时,语言生成法给出英语句子排序的对象和规则,提出记忆暂留理论及其 规则建立起内在句与外在句( 句子) 间的显现隐含关系。 第1 0 页 第二章基于语言生成法的语料库模型 2 2 2 基于语言生成法的翻译知识分析 基于语言生成法的翻译知识分析包含两个方面: ( 1 ) 基于语言生成法的理解层次 ( 2 ) 基于语言生成法的翻译知识表示 2 - 2 2 1 基于语言生成法的理解层次 语言生成法在语言单位的逐级生成过程中完成了对英语句子的分析和理解 它包含了如图的理解层次: 图2 _ 2 语言生成法的理解层次 语义理解层次:在语言生成法中,字、词、话中成分充当者都是语言材料单 位,是语言生成过程中,进行思维和交际的基础。对字、词、话中充当者的分 析和理解形成了语言生成法中的语义理解层次。 句话理解层次:充当者中的目德分析和话的四格分析一起完成了对话的理 解,形成了语言生成法中句话级理解层次: 变化层次:句话中语言单位的变形和排序构成了语言生成法中的变化层次; 转化层次:句话的的语言单位逻辑排列并输出形成了语言生成法中的转换输 出层次。 第1 l 页 第二章基于语言生成法的语料库模型 2 2 2 2 基于语言生成法的语言描述 翻译知识是机器翻译系统对语言特征的基本定义和描述。对语言的不同认识 和理解将会导致不同的翻译知识表述。基于语言生成法的英汉机器翻译系统从 语言生成过程分析和理解语言,因此,语言生成法的特征将成为为该系统的翻 译知识的明显特征。 语言生成法使用逐级生成的1 5 级语言单位描述自然语言,从语言中的音素 音节到语言中的段、文、章、节、编、卷、集。本文研究的英汉机器翻译系统 主要是面向英语句子的处理,因此,无需全部使用这1 5 级语言单位。本文使用 的语言单位是从第3 级的字到第8 级的外在句,即上文所提到的6 个逐级生成 的语言单位。其定义如表2 1 所示。 表2 1 语言生成法的语言单位定义 语言单位描述性定义 字字是由若干音节生成的具有固定意思的、生成词的材料单位。字分为单 音节字、双音节字和多音节字。 词 词是由字约定俗成而生成的、具有固定意思的、生成充当者的材料单位。 词分为单字词、双字词和多字词。 充当者充当者是话中成分充当者的简称,充当者是生成话的材料单位。在语言 生成法中,我们把能够充当句话中成分的语法单位称为话中成分充当 者,又可分为话中成分专用充当者和话中成分通用充当者。具有m o o d 、 n o u n 、d e g r j 三e 等类型。 话 话是由若干基本成分的充当者( 其中必有一个目德类型的充当者j ,及 其从属成分的充当者按四格标准序排列而成的话中成分充当者序列。 内在句由标准形式的话和话的变形排列生成或由句内话间逻辑联结词联接而 成的合乎逻辑的、其中或有段内句间逻辑联结词的序列。 外在句外在句是最小的交际工具单位。按照相应隐含规则,言者,笔者将内在 句中某些标准形式的话和充当者的部分形式隐含后输出而生成外在句。 由字逐级生成出内在句、外在句,每一级的生成过程都具有有自己相对应的 语言生成规则和分析规则。这些语言单位和相应的语言生成规则、分析规则, 共同形成了基于语言生成法的语言描述机制。 图2 _ 3 描述了基于语言生成法的语言描述机制。为了清楚,每一级只描述第 第1 2 页 第二章基于语言生成法的语料库模型 _ _ _ - _ _ 。_ _ _ _ _ _ _ _ _ _ _ _ 。_ _ _ _ _ 。_ 。_ 。_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ 。_ _ _ _ _ _ _ _ _ 。_ _ _ _ 。_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ - _ _ 。_ _ - 。_ 。_ _ _ _ _ _ _ _ _ _ - _ _ _ - _ _ _ _ _ 。_ _ 。_ 。- _ _ _ _ _ _ 一 个语言单位的生成过程。其中“字l ”到“字n ”的序列生成了“词l ”,“词1 ” 到“词n ”的序列生成了“充当者l ”,“充当者1 ”到“充当者n ”的序列生成 了“话l ”,“话l ”到“话n ”的序列生成“句1 ”。依次类推,每一级的语言单 位都是由下一级的语言单位逐级生成的,高一级的语言单位是低一级语言单位 的序列。 图2 3 语言描述机制 充当前 第三节基础语料库的系统结构 通过对基于语言生成法的翻译知识的分析,我们确立了基于语言生成法的英 汉机器翻译系统所需要的语言学知识支持,这些知识可能来自于语言研究专家 的总结,也可以是系统在翻译处理过程中获取和学习得到的。由此,我们提出 了基础语料库的系统结构。 如图2 3 所示,基础语料库的系统结构主要几个部分构成: ( 1 ) 基础语料库的训练和生成 ( 2 ) 基础语料库的存储和管理 ( 3 ) 基础语料库的访问和使用 第1 3 页 第二章基于语言生成法的语料库模型 2 3 1 基础语料库的存储管理 基础语料库中存储丰富的语言学知识信息,包含了基本词条、语法结构等丰 富的基本语言信息和语义充当者属性信息、语义理解规则、译文排序规则、“隐 含一输出”处理规则等在内的大量智能化处理规则。对这些信息的存储和管理 直接影响着基础语料库的实用性能和良好的管理维护。 在基于语言生成法的英汉机器翻译系统中,基础语料库的存储和管理包含以 下几个方面: 静态的、先验性的知识的存储 人机交互中可动态扩展的知识的存储 后台处理的、完全动态的知识的存储 基础沿 料阵 基 础 语 料 侔 体 系 构 使用和访问 蕈础语料库提供的功 能服务 对雨义规则,句式、 i i ! ;寄生成规则的存储 存结和管理_ 卜 基本谰条信息的存储 存储到基础请科库 分析鹕理 耩础语料痒内窖收集 图2 4 基础语料库体系结构图 ( 1 ) 静态的、先验性的知识的存储 基础语料库的一些语言学知识是来自于语言研究专家的经验总结,这些知识在 基础语料库与英汉机器翻译系统的交互过程中,作为计算机进行智能化分析 : 处理的先验知识,能被英汉机器翻译系统获取并使用,比如,对于一些复杂的 语言现象,可以利用专家经验对其加以分析,并分析结果存储到基础语料库中, 第1 4 页 第二章基于语言生成法的语料库模型 为英汉机器翻译处理直接使用。 为了保证英汉机器翻译系统具备足够丰富的的知识经验,在基础语料库中包含 了大量的先验性知识,主要是基本词汇信息。 在基础语料库中的基本词条信息集词法、语义和目标生成语言信息于一体, 是贯穿机器翻译全过程的主要知识来源。基本词条信息不仅包含英文单词的基 本语料信息,如词性、词义等等,为了提供单词的正确中文译文,还存储与该 词性、词义相关的其他语料信息,比如名词的量化属性、常见词语搭配等。这 些相关信息不仅保证词性自动标注顺利完成,而且保证获得该单词正确的译文, 特别是对于单词的多义现象。基本词条信息的逻辑内容如表2 1 所示: 表2 2 基础词库的逻辑内容 信息类型信息内容 基本词条信息词条书写形式,是否词组,词性,词法属性等 语法信息形态特征,冠词添加方式等 语义信息语义特征、语义分类码等 一译文属性对应的中文译文,概念等 搭配信息语义搭配前搭配词语,后搭配词语等 其中搭配信息是为了更好地选择词语的正确译文而设计的。在基于语言生成 法的英汉机器翻翻译系统中,依据上下文词汇环境消除词性兼类歧义的语言规 则在基础词库中通过搭配信息来设计和实现。例如,对于单词“c a p i t a l ,我们设 计了如下的搭配信息:当译文为“资金”时,其搭配信息是“i n v e s t & ”;那么在 翻译英语句子“t h e y i n v e s t t l e i rc 印i t a l t o t h e b e s ta d v a l l t a g e ”时,尽管单词c a p i t a j 有多个意义,但是根据它和“i n v e s t ”的搭配关系,系统就能够选择出该英语句 子中“c a p i t a l ”的正确译文是“资金”。 由于基本词条数目众多,又涉及了大量的相关信息,如果把所有词条信息都 存放在一起,不仅显得基础语料库内容庞大而且结构复杂,不利于分析各类信 息的特征,不便于进行快速检索。因此,基础语料库中,对词条信息采用了分 类存储的策略:将基本词条根据词类特征划分为名词性、动词性、形容词性、 副词性、连词性、助词性等几个大类,并依据词义和使用语境建立多级分类的 词条存储体系。其划分细节在下文介绍,这里只做简单描述,如表2 3 所示。、 表2 3 英语中的词类描述 第1 5 页 第二章基于语言生成法的语料库模型 词类符号词类符号词类符号词类符号 名词n 形容词 a 连词 c 其它词类 o 动词 v 副词 d 助词 s 为了便于对这些词条信息进行检索,基础词库中还包含了一个索引表,其中 存储词条的词类特征和其他一些基本信息,相对结构简单,以便能够根据词类 属性尽快找到相应的词类子库,查询更详细的单词信息。 对基本词条信息进行存储的子类信息库主要有以下几个: 索引子库:用于索引,存储词条的基本信息; 名词子库:存储所有名词性词条的相关详细信息; 动词子库:存储所有动词性词条的相关详细信息; 形容词子库:- 存储所有形容词性词条的相关详细信息; 副词子库:存储所有副词性词条的相关详细信息; ,连词子库:存储所有连词性词条的相关详细信息; 等等,这里不再一一列出。其各子库的关系如图2 4 所示 图2 5 基本词条信息存储结构图 ( 2 ) 人机交互中可动态扩展的知识的存储 尽管在英汉翻译机器翻译系统的处理过程中已经包含了大量的语法语义分 析规则、充当者分析规则、句话的排序变形等语言生成处理规则,然而,机器 智能的灵活性语言低于人类智能的灵活,更远远低于人类对语言使用的多样性 第1 6 页 第二苹基于语言生成法的语料库模型 - 。_ _ _ _ _ _ _ _ _ 。 。_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ - 。- _ 。_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ - 。_ _ _ _ _ _ - _ 。_ _ _ _ _ _ _ _ _ _ _ - 。_ _ _ _ _ - _ _ _ _ _ _ _ _ _ _ - _ - _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ - _ - _ _ _ _ _ - 。一 和灵活性。对于一些灵活的语言现象,特别是一些习惯用语表达现象,如“o n l v s t a f f ”。仅仅依靠机器翻译系统中先验的、预设的规则对其进行分析和处理,机 器翻译可能得到“只有员工。”的翻译结果,实际上正确的翻译应该是“闲人止 步。”或“闲人免进。”等类似的描述。 针对这些情况,基于语言生成法的英汉机器翻译系统在在基础语料库的存储 管理中设计了可动态扩充的存储机制,通过建立良好的人机交互,对英汉机器 翻系统处理过程进行必要的人工干预和指导,为英汉机器翻译系统的一下个处 理环节提供必要的基本信息和规则分析知识。这种指导可能是修改系统分析过 程中一些生成规则、语义、语法信息等,也可能是添加原本没有的但是系统分 析又必需的规则知识、语义、语法信息等。例如,在英汉机器翻译系统处理中, 英语句子中出现了当前系统无法辨识的词汇,也即对系统来说,该词汇是个生 词,此时,系统的所有后续处理流程将无法进行,由用户手动在语料库中添加 该词汇的相关信息不但浪费时间而且是不切实际的。基础语料库的可扩充动态 存储机制有效的解决了这个问题,通过在英汉机器翻译系统中建立良好的人机 交互机制,系统能够把当前英语句子中出现的生词汇反馈给用户,由用户分析 这些生词汇,并把通过人机交互机制把相关信息的分析动态地存储到基础语料 库中。这样,英汉机器翻译系统就可以重新对该英语句子进行分析和翻译处理。 对于例句“o n l ys t 舭”,如果能在系统处理中通过人机交互和可扩展动态存储机 制,给出关于排序、隐含输出规则的指导,也将能够得到正确的翻译结果。 为了避免可扩展动态存储过程中,一般用户添加和修改的大量知识降低了基 础语料库使用的可信程度,基础语料库中还设计采用“优先级”区分用户定义 信息和先验信息的方法,充分保证基础语料库中专家经验知识的高可信程度和 基础语料库的整体使用可信程度。 一 ( 3 ) 后台处理的、完全动态的知识的存储 在基础语料库中,提供完全动态的知识的存储机制是集成翻译记忆技术的基 础。+ 翻译记忆技术3 0 】 3 1 】翻译记忆是一种新兴的机器翻译技术,它的工作原 理:用户利用已有的原文和译文,建立起一个或多个翻译记忆库( t r a n s l a t i o n m e m o r y ) ,在翻译过程中,系统将自动搜索翻译记忆库中相同或相似的翻译资 源( 如句子、段落) ,给出参考译文,使用户避免无谓的重复劳动,只需专注于 新内容的翻译。翻译记忆库同时在后台不断学习和自动存储新的译文,效率越 第1 7 页 第二章基于语言生成法的语料库模型 , 来越高。 通过基础语料库中的完全动态的知识存储机制,建立开放式的语料库存储结 构,英汉机器翻译系统可以集成翻译记忆技术,对处理过的英语句子及句中的 话内容、充当者内容等进行自动存储,在遇到相似例句或句中内容时,无须进 行重复的系统分析和翻译处理,直接给出相关的参考译文。 2 3 2 基础语料库的训练生成 基础语料库的训练生成,即是内容完整的基础语料库的建设,主要处理一些 先验性的语言知识,如词条信息。其包含了基础语料库相关内容的搜集和整理, 分析其语义、语法信息,根据已确定的存储方式存入基础语料库等过程。 在基础语料库的训练生成过程中,对基础语料库相关内容的整理、语义语法 信息分析过程以及存入语料库就无需一一赘述了。在基础语料库的训练和生成 中我们需要注意以下两点问题: 基础语料库中相关语料的来源 基础语料库对于词类的语义分类和编码 ( 1 ) 基础语料库中相关语料的来源 基础语料库的训练和生成不是一项复杂而繁琐的工作。因为有实际应用价值 的语料库不是一个任意文本的任意集合,它语料是精心选择并经过良好设计, 能够代表一种语言或者一种语言的某一部分。因此,基础语料库中语料的来源, 在很大程度上决定着对在语料库的训练和生成中所投入的工作是否是值得的, 也决定着基于语言生成法的英汉机器翻译项目的研究课题和研究结果是否具有 普遍意义。 基础语料库是面向语言生成法的语言描述机制,为基于语言生成法的英汉机 器翻译原型系统研究服务的。因此我们希望所选择的语料样本能够集中代表英 语语言现象,能够反映英语语言的实际情况,特别是跟语言生成法与英译汉蕊 译研究相关的一部分真实的语言材料,比如能够完整体现英语语言生成法的自 然文本,特别是书面文本。 基础语料库中相关语料来自于语言研究专家通过对英语语言现象的归纳穆 总结而精心选择的英语句子以及对这些英语句子生成过程的分析。这些英语包 子代表了英语中的语言现象,体现了语言生成法的理论的普遍意义。 第1 8 页 第二章基于语言生成法的语料库模型 ( 2 ) 基础语料库对于词类的语义分类和编码 一 在前文中,已经提到,词类是词汇的一个重要特征。在基本词条信息存储中 已经给出了基础语料库中关于词类的定义和描述,并指出基础语料库对基本词 条采用了多级分类的存储策略。因此在基础语料库的训练和生成中必须完成对 各词类的语义子类划分和编码。 在基础语料库中,为了更详细的划分各类语言知识的特征,依据词义和使用 语境建立了多级分类的词条存储体系。因此,为了更详细的标注出词汇的语义

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论