




已阅读5页,还剩63页未读, 继续免费阅读
(计算机软件与理论专业论文)英汉机器翻译模板自动抽取算法的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要摘要虽然机器翻译已经有了5 0 年左右的历史,但目前它的研究仍然没有取得实质性的突破。机器翻译的方法主要包括基于规则、基于例子和基于统计的三种方法,但它们都有各自的局限性,而基于模板的机器翻译( 简称t b m t ) 在某种程度上可以综合它们的优点,所以引起了国内外学术界一定的关注。但t b m t需要大规模的翻译模板才可以获得较高的正确率,因此如何解决构建大规模模板库的问题就显得非常重要,本文的目的就是对怎样从双语平行语料库中自动抽取翻译模板的算法进行研究。本文首先概括了机器翻译的历史、发展及主要的方法策略,同时对基于模板的机器翻译作了简单介绍。然后以t r a n s l a t i o nt e r n p i a t el e a m e r ( t t l ) 算法为原型,提出了一种改进的英汉翻译模板提取算法基于句子比较的翻译模板抽取( 简称a t t e b s c ) 算法。t t l 算法最初被应用于英语土耳其语模板自动抽取的研究,而这里a t t e b s c 算法主要被应用于自动抽取英汉翻译模板。a 1 v r e b s c 算法的基本思想是通过句子的比较来获取翻译模板,既不需要双语词典,也不需要进行句法分析,它的实质是先利用一种基于向量空间模型的方法对语料库中的句子进行聚类,把具有相同或相似结构的句子合成一类;再利用计算最长公共子序列( l c s ) 的方法把同一类中的句子按照设定的阈值进行过滤并把相应的句子对改写成t t l 算法所要求的格式,最后通过这种格式分析对应变量或常量实现模板的自动抽取。实验表明,a t t e b s c 算法能够学出许多有价值的模板、效果良好。虽然它也会生成大量的无用模板,但是它具有容易计算和资源需求少的优点,而且能够方便地通过人工干预进一步提高模板的准确率,不失为一种有效的翻译模板提取算法。此外,本文还实现了一个英汉翻译模板抽取系统,其核心是将与模板抽取相关的关键算法封装成可复用的组件,主要的算法包括:最大逆向匹配、最大概率法分词、句子聚类、l c s 计算和a t t e b s c 等。同时,该系统也集成了一些必要的相关辅助功能,以方便上述各种算法的使用。关键词机器翻译;模板;聚类:t t l :l c sa b s tr a c tm a c h i n et r a n s l a t i o n ( m 1 ) h a sb e e nd e v e l o p e df o rn e a r l y5 0y e a r s ,b u tt h e r ei sn os u b s t a l l t i a ib r e a k l h r o u 曲u pt on o w m tm e 也o d sc a nb em a i n i yc l a s s i 行e di n t o :n i l e _ b a s e d ,e x a m p l e - b a s e da n ds t a t i s t i c s _ b a s e d ,b u te a c ho ft h e mh a sn so w nl i m i t a t i o n w i t hac e n a i na 位e n “o np a i di m e r a t i o n a l l ya n dd e m o s t i c a l l y ,t e m p i a l eb a s e dm a c h i n e 仃a i l s l a t i o n ( t b m t ) h a v eb e e np m p o s e dt ot a k ea d v a r l 诅g e so f t h e s em e t h o d st os o m ee x t e n t i no r d e rt or e a c hah i g ha c c u r a c y ,h o w e v e r ,t b m tn e e d st ou s eai a 唱et e m p l a t el i b 删吼s oi t i sv e r yi m p o r t a n tt os 0 1 v et h ep r o b l e mo f h o w t oa u t o m a t i c a l l ye x 仃a c t t r a l l s l a t i o n t e m p l a t e s f 如m b i l i n g u a lc o r p u sc o m p o s e do fs e n t e n c ep a i r s ,w h i c h1 sl h em a i nt o p i co f m i sm e s i s t h i st h e s i s 矗r s t l ys 哪m a r i z e st h eh i s t 0 。y ,d e v e l o p m e n t ,m a i ns 廿a t e g i e sa r l dm e t h o d so fmt ,8 n di n t r o d u c e st b m tb r i e 玎ya tt h es a m et j m e t h e n ,a na l g o r i t h mf o ra u t o m a l i cn a l l s l “o nt e m p l a t e se x t r a c t i o nb a s e do ns e n t e n c e 3c o m p a r i s o n ( a t t e b s c ) i sp t e s e m e df o re x t r a c t i n ge n g i i s h - t o - c h i n e s et r a n s l a t i o nt e m p l a t e s ,w i l ht h e0 r i g i no f n a i l s l a t i o nt e m p l a l el e 啪e r ( t t l ) ,w h i c hi sa9 0 0 da l g o r i m mb e i n g 印p i i e dt 0e x l r a c tt r a l l s l a 廿o nt e m p l a t e sb e 铆e e ne n g l i s ha i l dt u r k 龇t h er n a i ni d e ao fa t t e b s ci st 0l e a n lt r a n s l a t i o n 劬m l a t e sb yc o m p a r i s o no fs e n t e n c ep a i r sw i t hn on e e d so f b i l i n g u a l l e x i c o nn o rs ”t a xa 1 1 a l y s i s i ne s s e n c e ,a 1 盯e b s ct a k e s 1 r e es t e p st oe x 仃a c tt e m p l a t e s :1 u s eac l u s t e r i n ga l g o r i t l l l l lb a s e do nv e c t o rs p a c em o d e lt oc l a s s i 母t h ec o r p u si n t oan u m b e ro fc i u s t e r sw “hs i h l i l a rs e n t e n c es t r u “u r e s ;2 u s ea 1 1a l 野i t 量1 i i lc o m p u t i n gl o n g c s tc o m m o ns e q u e n c e ( l c s ) t o 丘1 t e rs e n t e n c ep a i r sw 油af i x e dt h r e s h o l da n dc h 柚g et t l er e m a i n e ds e n t e n c ep a 弧i n t oas p e c 讯e df o m l a tw h i c ht t lr e q u i r e s ;3 u s et h i sf o h n a to f s e n t e n c ep a i r st oe x t r a c tt r a l l s l a t i o nt e m p i a t e sa u t o m a t i c a l l yb ya t l a l y z i n gv a r i a b l e sa 士l di n v 盯i a b l e si ns e n t e n c e s s o m ee x p e r i m e n t ss h o wt h a t 盯e b s cp e r f 0 h n sw e l lt op r o d u c em a n yv a l u a b l et e m p l a t e s t h o u 曲i tm a yp r o d u c eal o to fu s e l e s st e m p l a t e s ,t h ea l g o r 汕mi s9 0 0 de n o u g hf o re x t r a c t i n gt e m p l a t e sa u t o m a t i c a l ly ,f o ri tc a nb ee a s i l yc o m p u t e dw i t hl e s sn e e do fr e s o u r c e sa n dm a yr e a c hah i g h e ra c c u f a c yw i mt h ea i do f m a i l u a li n t e r v e n t i o n i na d d n i o n ,t 量l i sp 印e rh a sa l s od e v e l o p e dar e a ls y s t e mf o re x 仃a c t i n ge n g l i s h c h i n e s e廿a n s l a t i o nt e m p l a t e sa u t o m a 廿c a l l yo rm a n u a l ly t 1 1 ec o r eo fw h j c hi sac 0 1 l e c t i o no fr e u s a b l ei u j 隙工业大学工学硕士学位论文c o m p o n e n t si n c l u d i n gs e v e r a li m p o r t a n ta l g o r i t h m s :r e v e r s em a x i m u mm a t c h i n ga l g o r i t l l i l l ,m a x i m u mp r o b a b i l i t yw o r ds e g m e n t a t i o n ,s e n t e n c ec l u s t e r i n g ,l c sc o m p u t i n ga f l da n r e b s ce t c f u r t h e m l o r e ,t h es y s t e mh a ss o m ea u x i l i a r yf u n c t i o n sf o re a s eo f u s i n gt h ea b o v ea l g o t s k e y w o r d sm a c h i r l et r a n s l a t i o n ;t e m p l a t e ;c l a s s i n c a t i o n ;t t l ;l c si v 独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:鏖垒】日期2 一。6 关于论文使用授权的说明本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。( 保密的论文在解密后应遵循此规定)签名:廖垒j导师签名:盔重鬓髦日期2 0 d 石,石叶第1 章绪论1 1 研究背景第1 章绪论随着信息时代的到来,“信息爆炸”成为信息处理领域的瓶颈问题,不同语种之间大量的信息交流更加大了口j 题的严重性,同时人工翻译的代价是巨人的。如何利用计算机高效率的信息处理能力突破不同语种之间的语言障碍,成为全人类面临的共同问题。机器翻译便是解决这个问题的有力手段之一,这也是机器翻译长期成为自然语言处理研究中心的主要原因。同时,机器翻译孕育着巨火的商机和市场。科技文献、商务信函、产品说明书等文档的翻译,能使人们在最短的是时间内掌握科技动态,把握商机。口语翻译使得人们可以用不同的语言互通电话。面对复杂的文档,翻译家可以把机器翻译系统作为一种翻译辅助。同时,网页即时翻译,跨语言检索等己经成为i n i e r n e t用户迫剀的需求【”。现有的机器翻译系统有很多种,但总的来说,他们采用的机器翻译方法不外乎以下几种例【4 j :( 1 ) 基于规则的翻译方法州,这种算法依赖于形式化的知识表示。但由于自然语言本身的复杂性,导致语言的无限性和机器处理性能的有限性之间的矛盾突h 。( 2 ) 基于语料统计的翻译方法】,基于这种方法的系统一般翻译速度比较慢,并且事先需要积累大规模的双语对齐语料库对系统进行训练。( 3 )基于例子的翻译方法【1 2 。1 ”,这种方法虽然在知谈的欹取上是经验的、适用的、较大规模的,但由于翻译过程本身的理性化要求,导致在知识的使用和管理l 非常困难。幕于模板的机器翻译技术】n ”是一种较新颖的机器翻译方法,j m t 是将经验主义方法与传统的基于理性主义规则的方法结合起来的混合策略。其优点是:一方面,因为对源句并未作完整的句法、语义分析,而仅仅抽取最主要的骨架部分,所以提高了源旬的分析效率,降低了分析难度:另一方面,因为译文的主要框架已有译句模板保证,所以译文的生成比较准确。因此这种机器翻译算法的研究已经成为了目前机器翻译领域研究的热点。h 前的t b m t 算法主要偏向于句法及句子结构分析对于汉语和其他语言的目前的t b m t 算法主要偏向于句法及句子结构分析,对于汉语和其他语言的北景工业大学工学硕士学位论文t b m t 研究也很少。从9 0 年代初开始,语料库语言学和i n t e m e t 的发展使得双语平行语料的获得越来越容易,而句法规则过于复杂,且难于穷举。作者希望通过本课题,做一些偏向于实例驱动的t b m t 算法研究,并把我在t b m t 方面的经验和心得,进行系统的描述。希望这些能对今后机器翻译领域的研究者起到抛砖引玉的作用。1 2 机器翻译概述机器翻译就是利用计算机对人类自然语言进行自动翻译,它是自然语言处理中的一个最早的研究分支,是利用计算机把一种自然语言转变成另一种自然语言的过程,而且两种语言的文本在意义上应该是等价。用以完成这一过程的软件叫做机器翻译系统。1 2 1 机器翻译的历史及研究现状机器翻译的发展经历了兴起、低落和重新兴盛的曲折历程m 1 【1 “。同时,人们也在不断地反思,为重新发展积蓄力量。( 1 ) 萌芽期机器翻译最早开始于美国,1 9 4 6 年,世界上第一台电子计算机e n i a c 在美国诞生。同一年,英国工程师布斯( a d b o o t h ) 和美国洛克菲勒基金会副总裁韦弗( w w e a v e r ) 在讨论电子计算机的应用范围时。就提出了利用计算机进行语言自动翻译的想法。1 9 4 9 年,美国工程师w w e a v e r 向大约2 0 0 位熟人散发了题为“翻译”的备忘录,对机器翻译的重要性及可行性进行了论证。( 2 ) 机器翻译的第一个高潮1 9 5 2 年,第一次全美机器翻译会议召开。1 9 5 4 年,美国乔治敦大学在国际商用机器公司( i b m 公司) 的协同下,用l b m 7 0 1 计算机,进行了世界上第一次机器翻译试验,把几个简单的俄语句子翻译成英语。接着,苏联,英国,日本也进行了机器翻译试验,机器翻译出现热潮。这一时期的机译系统普遍采用直接翻译方法,一般都没有进行很好的源语言句法结构分析,而是主要以词典为驱动,利用词典中的语法和语义特征来实现翻译。其特点是:直接翻译,在源语言分析和目标语言综合( 即生成) 之间没有明确的区分。2 第l 章绪论( 3 ) 萧条期1 9 6 4 年,美国科学院成立语言自动处理咨询委员会( a u t o m a t i cl a l l g u a g ep r o c e s s i n ga d v i s o r yc o m m i t t e e ,简称a l p a c 委员会) ,调查机器翻译的研究情况,并于1 9 6 6 年1 1 月公布了一个题为语言与机器的报告,简称a l p a c 报告,对机器翻译采取否定的态度,报告宣称:“在目前给机器翻译以大力支持还没有多少理由”。报告还指出,机器翻译研究遇到了难以克服的“语义障碍”。在a l p a c 报告的影响下,在世界范同内,机器翻译的热潮突然消失了,出现了空前萧条的局面。( 4 ) 复苏期在以后的几十年里,语言学的研究有了长足的进步,人们从语法、语义和语用学等角度深刻地剖析了语言学现象。这样,从7 0 年代后期,机器翻译又迅速发展起来各种实用的和实验的系统相继推出。例如,1 9 7 9 年加拿大推出的w e i n d e r 系统和欧共体研究的e u r p o t r a 多国语翻译系统等,8 0 年代中期美国的s y s t r a n 系统、美国t e x a s 大学与西德s i m o n 公司合作研制的m e t a l 系统、日本日立公司的a t l a s 系统及法国g r e n o b l e 大学的c e t a 系统,等等。该时期的m t 系统以基于转换的方法为代表,普遍采用以句法分析为主、辅以语义的基本规则方法。( 5 ) 机器翻译的繁荣期1 9 8 9 年,一种称为语料库的m t 方法的出现了,这项新进展使得整个m t 研究的视野发生了改变,标志着m t 研究进入了一个新的时期。随着基于语料库的m t 方法的出现,机器翻译进入了它的繁荣期。繁荣期的最重要的特点,是机器翻译研究走向了实用化,出现了一大批实用化的机器翻译系统,机器翻译产品开始进入市场,变成了商品。我国机器翻译的研究从一开始就得到了国家的高度重视呻】。早在】9 5 6 年它便以“机器翻译自然语言的数学理论”列入了当时的科学发展纲要。8 0 年代中期到9 0 年代初期产生了两个在中国机译史上具有重要意义的实用化系统。它们分别是军事科学院研制的“k y 1 ”英汉机译系统和中科院计算所研制的”8 6 3 一i m t ”英汉机译系统。9 0 年代初期至今,中国的机器翻译走入了快速发展的时期,出现了许多商品化系统。北豪工业火学工学硕十学位论文1 2 2 机器翻译的主要方法机器翻译方法有很多种,每种机器翻译方法都有其适用性,大体上分为基于规则的方法、基于统计的方法、基于实例方法和新兴的基于模板的方法。每种方法各有千秋,但又都不能胜任一切【2 0 1 【2 1 】。( 1 ) 基于规则的机器翻译( r b m t ) 方法自从c h o m s k y 提出转换生成语法以来,基于规则的方法成了机器翻译研究的主流,其主要思想是通过人工或机器辅助,先构造供翻译用的词语信息库和句法语义规则库,通过知识表示、知识推理、分析生成等步骤来进行机器翻译。传统的规则方法在规则获取方面主要依靠语言学家总结规则进行调试,它将翻译的过程分为三个步骤:分析,转换,生成。其核心是规则知识的获取,规则知识的质量决定着系统对源语言文本分析的程度。基于规则的方法现在已有了很大的变化,现在更加注重从语料库中获取规则如采用错误驱动的学习算法,并呈现出“小规则库、大词典”的趋势,更加重视描述细粒度、局部化、小范围的语言学知识。( 2 ) 基于统计的机器翻译( s b m t ) 方法统计机器翻译的数学模型是i b m 公司的b r o w n 等人提出的,其基本思想是把机器翻译看成是一个信息传输的过程,用一种信道模型对机器翻译进行解码。假设一段源语言文本墨经过某一噪音信道变成目标语言r ,即假设目标语言r 是由一段源语言诺至过某种编码得到的,那么翻译的目标就是将z 还原成s 。这是一个解码的过程:s 一噪音信道一f 。基于这种思想,可以用基于概率的方法进行机器翻译,根据贝叶斯原理:尸( 7 1 s ) = 警( 1 1 )其中s 和r 表示源语言句子和目标语言句子,p 和p ( 乃分别表示句子&丁在各自语言中出现的概率,p ( 丁l 的解释是s 出现的前提下,r 出现的概率的大小,在这里就是当源语言句子是s 时,目标语言句子是r 的概率。那么s b m t 的翻译过程实际上就是对于给定的源语言句子墨寻找一个目标语言句子丁使得p 岱l 力最大,见公式( 卜2 ) 。d 第1 蕈绪论_ = 嘴严嘲耻昭严等斧( 1 _ z )rrr t oj统计机器翻译的问题被分解为三个问题,一是语言模型尸的参数估计,二是翻译模型p ( 列研的参数估计,三是匹配问题,即寻找最佳译文,统计方法的前提是建立一个翻译过程的数学模型,但目前尚没有一种理想的统计模型。( 3 ) 基于实例的机器翻译( e b m t ) 方法该方法的思想由日本著名机器翻译专家长尾真( m a k o t on a g a o ) 于1 9 8 5 年首次提出,其基本思想是不通过深层的分析,仅通过已有的经验知识,通过类比原理进行翻译,其特点是较少对源语言和目标语言进行分析,而是直接在词串上进行处理。先将句子分解为几个片断( 短语) ,然后,借助于已有片断的翻译。将分解的每个片断翻译成目标短语,最后再将这些短语组合起来形成一个长的句子。例如要将下面的汉语句子( a ) 翻译成英文:( a ) 她买了一本计算语言学入门书假定计算机内已经存储了如下的实例对:( b ) 她买了一件时髦的夹克衫s h cb o u g h tas h a r pj a c k e t( c ) 他正在读一本计算语言学入门书h eh a sb e e nr e a d i n gab o o ko ni n t r o d u c i n gt 0c o m p u t a t i o r l a ll i n g u i s t i c s例中( a ) 可以通过( b ) 中“他买了”对应的s h eb o u 曲t 和( c ) 中“一本计算语言学入门书”对应的ab o o ko ni n o d u c i n gt oc o m l ) u t a t i o n a ll i n g u i s t i c s 重组产生:s h eb o u g h tab o o ko ni 曲d u c i n gt oc o m p u t a t i o n a ll i n g u i s t i c s 由此可见,基于实例的方法的核心是实例库,实例库的内容决定了系统的翻译能力。其翻译过程非常简单,且可通过增加实例来提高扩充性。( 4 ) 基于模板的机器翻译( t b m t ) 方法模板实际上是一种词汇化的规则。一般单语模板是由常量和变量组成的序列。常量表示具体的词汇( 终结符) ,变量表示一类词和短语( 非终结符) 。从知识的粒度看,模板是介于规则和实例之间的一种表示,比规则更具体,而比实例更抽象。与e b m t 相比,一个明显的区别是基于模扳的方法在翻译中不直接使用翻译实例,从实例中获取的知识都存储在翻译模板中。基于模板的方法综合了规则和j 啸工业大学工学硕士学位论文实例两种方法的优点,但它的缺点是模板的通用化受限于某一领域,在跨领域或者大规模的应用中,很难做到模板的通用化,并且要得到较好的覆盖率也要求有很多模板。1 3 本课题的提出t b m t 作为一种较新的机器翻译算法,已经越来越大地显示出它的优越性。针对目前国际上机器翻译发展的潮流,作者提出了“英汉机器翻译模板自动抽取算法的研究与实现”的研究课题。t b m t 算法有很多种,但其基本策略无非是以下两种:( 1 ) 通过对语料的句法分析进行模板的提取【2 2 _ 2 ”( 2 ) 不通过深层的分析,仅通过已有的经验知识,通过类比原理来抽取模板【2 6 脚】。目前国内外t b m t 算法比较具代表性的翻译模板学习算法是:基于双语文本( b i l i n g u a lt e x t ) 的学习算法【2 8 1 和基于双语实例对( b i l i n g u a le x a m p l e s ) 的学习算法【2 9 】。目前的t b m t 算法主要偏向于句法及句子结构分析,但由于自然语言本身的复杂性,导致语言的无限性和机器处理性能的有限性之间的矛盾突出,使用这种方法进行翻译模板的抽取就又会陷入句法分析的泥潭。从9 0 年代初开始,随着语料库语言学和i n t e m e t 的发展,语料学及数据挖掘理论获得了突飞猛进的发展,双语平行语料的获得越来越容易。因此作者希望能够摆脱复杂的句法分析,通过类比从语料中提取翻译模板,并将得到的模板作为规则反过来为r b m t 方法服务。本文对机器翻译作了回顾和展望,对t b m t 进行了系统的介绍,并提出一种基于句子对比的翻译模板抽取算法模型,对模型中的具体技术如:分词、基本名词短语识别、相似实例聚类、翻译模板抽取等,分别进行了讨论并提出了自己的改进,其应用领域面向英汉机器翻译。1 4 本文的组织结构本文共分5 章,第一章是绪论,介绍了本课题提出的背景,并对机器翻译进行了回顾和展望,并列出本文的研究内容:第二章t b m t 及其主要技术,介绍了t b m t 理论,给出t b m t 框架,并对它所需的主要技术进行了分别的讨论:第三章基于比较的机器翻译模板抽取算法模型,并介绍了该模型涉及的各种算法及技术。第四章翻译模板抽取软件平台的设计实现,该平台是一个按照第三章提出的第1 章绪论模型设计和实现的,本章论述了它的设计和实现,并展示了它的界面和模板抽取效果。最后一章的结束语对我的工作进行了总结,并提出了将来的工作。1 5 本章小结本章概括了机器翻译的历史、发展及主要的方法策略,同时对基于模板的机器翻译、本课题的相关背景及研究现状等作了简单介绍。第2 章1 b m t 综述第2 章t 阴t 综述t b m t 是e i j m t 与r b m t 的一种结合与优化,有的t b m r 方法侧重于句法规则分析,这种方法比较接近于砌;m t 方法,而有的则侧重于对已有的语料进行知识挖掘生成翻译模板,而不进行复杂的句法分析,这种方法比较接近于砌j m t 方法。这两种方法各有千秋,前者由于进行了句法分析能够产生较精确的翻译模板,但是语法现象过于复杂难于归纳,容易陷于r b m t 的泥潭;后者计算简单,易于提取翻译模板,但对语料的要求比较高,相似度差的语料不能够产生好的模板。笔者认为,n m t 正是针对r b m t 的问题而发展起来的一种新颖的机器翻译方法,t b m t 生成的翻译模板可以作为翻译规则为r b m t 服务。而翻译模板正是e b m t 的一种泛化,即e b m t 与t b m t 存在交叉点。所以笔者倾向于利用e b m t来生成翻译模板。本文所构造的机器翻译模板抽取模型实际上可以说是基于实例思路的一种发展和演化,所以对e b m t 进行详细的介绍是很有必要的。本章将首先讨论一下e b m t 的基本原理,另外还将介绍e b m t 与t b m t 的交叉点,即t b m - r如何利用e b m t 来对实例进行泛化以生成翻译模板,这也是本文思路的来源。2 1 基于实例的机器翻译e b 耵2 1 1e b m t 原理与模型基于实例的机器翻译方法( e b m t ) 最早由同本的长尾真于1 9 8 1 年提出。基本思想是:利用过去已经翻译过的语料,采用模拟的方法来翻译待翻译的句子。它假设相同的源语言部分对应相同的翻译结果,当以前翻译过的部分再次出现的时候,相同的翻译结果很可能就是正确的。基本流程是:在已经收集的双语实例库中找出与待翻译部分最相似的翻译实例,这些实例通常是句子,再对实例的译文通过串替换、串删除以及串增加等一系列变形操作,实现翻译。长尾真认为:人们在翻译简单句子时并没有做语言的深层分析,而是先将句子分解为几个片断( 短语) ,然后,借助于已有片断的翻译,将分解的每个片断翻译成目标短语,最后再将这些短语组合起来形成一个长的句子。其基本模型可9 一北隶工业大学工学硕士学位论文以用图2 1 表示。翻译结果图2 1e b m t 模型f 培2 1髓m tm o d e l同基于规则的推理相比,e b m t 具有以下几个优势:( 1 ) 由于减少了句法、语义等的处理,e b m t 提高了解决问题的效率;( 2 ) 在特定领域范围内,翻译质量有明显的提高;解决了基于规则的推理中知识获取的难题。同时,基于范例的推理必须要解决好下面几个关键问题:( 1 ) 语料句子之间相似关系的确定:( 2 ) 如何对相似语料进行快速检索;( 3 ) 相似度的定义和计算;( 4 )如何有效分割和重组。2 1 2 印m t 基本流程e b m t 的翻译过程主要经过以下四个阶段( 1 ) 实例的获取我们可以从各种各样的资源中收集实例。实例的获取包括双语语料的收集,不同文件格式的统一,不同粒度的对齐处理( 包括篇章对齐、段落对齐、句子对齐、子句对齐和多词及词汇的对齐等) 及其标注集的制定和对齐单位的表示。目前语料的对齐方式经常是篇章级对齐甚至是段落对齐的,自动的文本对齐技术是机器翻译领域研究的热点问题。第2 章t b m 综述( 2 ) 相似实例的检索相似实例的检索就是在实例库中寻找跟输入片断最相近的实例,通常使用的是相似片段的匹配技术。匹配可以分为绝对匹配和相似匹配两种。绝对匹配要求找出跟输入一模一样的片断,而相似匹配要求找出和输入相似度最大的实例。与匹配相伴随的是输入句子的片段操作,通常,切分是按照某种语言学的知识进行的,例如标点符号,连接词,短语边界等;对于相似匹配,要定义句子的相似度模型,即进行相似测量。相似测量在文本中被用米作为一个指示:在双语语料库中什么文本对有可能成为一对。( 3 ) 识别对应的翻译片段该步骤的核心就是句子分解,并建立翻译的对应关系。通常,根据一个给定的己知的实例,有多于种方法来分解一个输入句子。在这些可能性中,为翻译的下一阶段合理地选择最好的分解。选择的标准可以使用概率:将句子s 分解为e ,p 。巳的d ( 5 ) 序列,则可以使用下面的公式选择:d ( s ) = d r gm 饿p ( e g 。- e 。)( 2 一1 )p 8 jp e j其中尸( ) 可阻根据某种语言模型计算得到。( 4 ) 翻译片段的重组翻译实例的重组和调整一般包括替换、插入和删除等操作,其目标是将翻译出来的片段在目的语言中组合成具有一种格式好的、可读性的句子。句子合成的一个较好的策略是计算一个给定语段集合的任何顺序的概率,并在所有可能的顺序中,选择概率最大的一个。给定一个已经翻译出来的语段集合 口,p ,e 。) ,在它们当中寻找最好的顺序,即使有下面的判断标准:s ( p ,8 一,p :) = 咄m mp ( 口j 82 p 。)( 2 2 )。j oj。h e 口( 8j 。:e )其中,o ( ) 表示一个给定语段集合的所有可能顺序。北京工业丈学工学硕士学位论文2 2 实例的泛化2 2 1 研究背景e b m t 虽然有很多优点,但是同时也存在诸如匹配率比较低,需要大规模的例旬库的支持等缺点,这使得e b m t 系统在非限定领域的机器翻译中效果不佳。针对这个问题,研究人员又提出了g e b m t ( g e n e r a l i z e de b m t ) 的方法,该方法利用双语语料库作为知识库,让计算机自动或半自动地获得有关翻译的各种知识得到一种可以用于翻译的一种框架和泛化的句子结构。泛化的e b m t 的基本思想就是通过对自然语句中的词语或者片段进行抽象和概括来降低输入维数,从而提高语句的匹配率。一方面,该方法提高了现有语料的利用率从而减少了对语料库规模的依赖;另一方面,由于被抽象和概括的词语或者是片段具有普遍性,般该部分的变化不会影响翻译的结构和框架,这样可以保证翻译译文的质量同泛化之前相当。2 2 2 前人的工作2 2 2 ,1k a j i 的实例泛化算法日本日立公司的k a j i 等人提出了一种从平行语料库中获取翻译模板的方法口”,算法的关键是在双语料文本的单元集( 单词、词组、短语等) 之间找出对应关系并建立联系,算法主要分以下几步:( 1 ) 分割语料( p a r a l l e ls e m e n c ea l i g 衄e n t ) ,主要指:划分语料,识别出语料的单元集( 单词、词组、短语等) ,即对语料进行结构分析。这一步依赖于双语词典和两种语言的句法规则、语法规则。主要是使用c k y 算法进行句子分析。( 2 ) 在双语料文本的单元集之间找出对应关系并建立联系。找到对应关系的所有单元都是可以替换为模板变量的候选解。( 3 ) 按某种粒度要求或一定的规则在上一步找到的候选解中选取一个子集用变量替换,并为该变量追加限制条件。( 4 ) 对生成的模板进行优化,改进低效的模板,删除无用的模板。第2 章7 r b m t 综述2 2 2 2c a r n e g i em e ii o nu n i v e r s i t y 采用的方法c m u 研究认为,一个e b m t 系统的最大的问题在于它需要个庞大的例旬库。为了能有效的利用已有的例句,他们提出了对例句进行了泛化1 3 0 儿”】。例如下面的例旬对:t o mr e a c h e dn e wy o r ka t8o c l o c k 汤姆在8 点整抵达纽约如果设法让系统知道t a m 、汤姆是一个人,n e wy o r k 、纽约是一个地名,而8o c l o c k 、8 点表示的是时间,那么就可以对这对实例进行如下泛化: r e a c h e d a t 在 抵达其中的 , 和 等代表了一组特殊的词语类。系统通过查找它的知识库来判断“t o m ”是一个人等。当例句输入到例句库的时候,系统通过一系列的查找和替换将类似的词语替换成为这些特殊的“符号”。被替换的词语和其对应的翻译仍然被保存,用于将来的翻译。该方法最大的缺点是在此基础上形成的泛化结果只能匹配一些具有相同形式的固定模式,灵活程度较低,并且系统需要首先识别标注,这需要大量的分析,对汉语而言此问题尤其困难。2 2 2 3t t l 算法由i l y a sc i c e k l i 等人提出,其主要思想就是通过将一对实例的某些部分替换为变量,并且在变量间建立起对应关系来形成模板【2 9 1 。该算法是模板算法的一种,是最近才发展起来的一种算法。t t l 算法分为s t t l ( 即通过比较语料的相似性得到模板的算法) 与d t t l ( 即通过比较语料的相异性得到模板的算法) 。( 1 ) s t t l 算法假设给出一对实例( e 。,既) ,将e 。,b 中所有不同的部分用变量代替生成的模板称为相似性翻译模板( s i m i l 撕t y 廿a n s l a t i o n t e m p l a t e ) ,当点。或玩中两边的变量数目不相等时,单靠这对实例,无法获得模板,因为无法获得对应关系因此,当1 ”= 肌时,新模板的获得依赖于以前”一1 次模板的获得:g 铲川,c 研切吒,c 研f _ _ l 得到如下模板信息:c 妒口f ,1 ,c i 妒口吐,c 铲d 峨。北京工业大学工学硕士学位论文( 2 ) d t t l 算法假设给出一对实例( 乜,瓯) ,将e 。,毛中所有相同的部分用变量代替生成的模板称为相异性翻译模板( d i f f e r e n c et r a n s l a t i o nt e m p l a t e ) ,与s t t l 类似,包含刀个变量的相异模板的获取需要知道以前学习的有伊1 个变量的相异模板的信息。2 3 基于模板的机器翻译t b m t2 3 1 翻译模板泛化的实例所谓翻译模板,就是一种泛化( g e n e r a l i z e d ) 的翻译实例对直观来讲,就是指整体框架保持不变,根据具体的语法、语言、语用的限制而改变框架中的内容,来识别和生成句子的一种规范。一般来说,翻译模板主要由以下几部分组成:源语言模板、目标语言模板、两种语言模板的槽的对应关系等。有的翻译模板提取算法还能得到其它一些附加信息,如词典信息,槽的约束信息等。例如:t :1w i l ld r i l l k 互h 我要喝xf :l k就是某种形式的翻译模板,t 是翻译模板框架,f 是槽的对应关系。对翻译模板的补充说明:( 1 ) 表达翻译知识的基本数据形式为模板。( 2 ) 模板实际上是一种词汇化的规则。一般单语模板是由常量和变量组成的序列。常量表示具体的词汇( 终结符) ,变量表示一类词和短语( 非终结符) 。从形式上看,这与一个短语结构规则没有本质上的区别,但从工程实践的角度,传统的基于规则的方法一般很少把具体的词语写进规则中去。( 3 ) 一个翻译模板由两个双语及其变量的映射关系组成。( 4 ) 从知识的粒度看,模板是介于规则和实例之间的一种表示,比规则更具体,而比实例更抽象。( 5 ) 与e b m t 相比,一个明显的区别是基于模板的方法在翻译中不直接使用翻译实例,从实例中获取的知识都存储在翻译模板中。基于模板的方法综合了规第2 章t b m t 综述则和实例两种方法的优点,但它的缺点是模板的通用化受限于某一领域,在跨领域或者大规模的应用中,很难做到模板的通用化,并且要得到较好的覆盖率也要求有很多模板。2 3 2t b m t 的系统结构顾名思义,基于模板的机器翻译系统就是通过翻译模板实现由源语言到目标语言的直接翻译。模板反映的是一类句子的骨架和样板,它介于句子和句型之间。t b m t 翻译系统得主要优点是:一方面因为对源旬未做完整的句法分析和语法分析,所以提高了源句的分析效率;另一方面因为译文的主要框架已经由译旬模板保证,所以提高了译文的精确度。图2 2 是t b m t 系统的一般系统结构:2 4 本文的思路图2 - 2t b m t 的系统结构f i g 2 - 2t h ef r a m e w o r ko f t b m r r开始,笔者尝试对翻译实例进行语法分析,并构建语法分析树来进行翻译模板的抽取。但是,困难是缺乏可靠的语法分析器,同时也缺乏有效的标注系统。重构这些工作需要巨大的时间和精力。北京工业大学工学硕士学位论文由上面的介绍可知,翻译模板的抽取过程本质上就是翻译实例的泛化过程。所以笔者转而使用一些成熟的g e b m t 方法来生成泛化的实例,从而得到翻译模板。本文的思路主要来自t t l 算法,该算法提供了一套对实例泛化的思路,同时避开了复杂的句法分析,这符合e b m t 的一贯思路。t t l 算法首先应用于英语土耳其语机器翻译系统,本文借鉴了该算法的思想并将其应有于英语一汉语翻译模板的抽取。同时,模扳的学习算法也有所不同,本文引入了l c s 算法对实例进行分析,同时设计了实例的聚类模型来筛选实例,以提高翻译模板的精确度。大致算法如下:( 1 ) 对语料进行预处理,主要是分词操作。( 2 ) 聚类模型的建立,相关句子和相似句子的聚类和筛选。( 3 ) 使用改进的模板提取算法提取模板。( 4 ) 模板的筛选。本文还开发了一个翻译英汉翻译模板提取软件平台,使从事机器翻译的专业技术工程人员、研究人员或相关单位可以轻松得通过该系统获取翻译模板,目标是建立一个开放的系统结构,支持建立基于客户一服务器方式的应用。具体的思路和实现方法,将在下面的章节中详细介绍。2 5 本章小结t b m t 正是针对r b m t 的问题而发展起来的一种新颖的机器翻译方法,t b m t 生成的翻译模板可以作为翻译规则为r b m r 服务。而翻译模板正是e b m t 的一种泛化,即e b m t 与t b m t 存在交叉点。本章对t b m t 及相关的实例泛化技术作了较详细的介绍,并提出了我们的思路。我们的思路主要来自t t l 算法,该算法提供了一套对实例泛化的思路,同时避开了复杂的句法分析,这符合e b m r 的一贯思路。叠3 章翻译模板自动抽取第3 章翻译模板自动抽取从大规模语料库中自动获取机器翻译模板是一门极具挑战性的课题。本文提出并实现了一种从英汉双语对齐句子库中自动抽取翻译模板的新策略,称之为a 兀、e b s c( a u t o m a t i ct r a n s l 砒i o n 1 1 e m p l a t c se x t r a c 石o nb a s e do ns e m e n c e sc o m p a r i s o n ,a r t e b s c ) 算法,其基本思想是通过句子的比较来获取翻译模板,既不需要双语词典,也不需要进行句法分析,它的实质是先利用一种基于向量审问模型的方法对语料库中的句子进行聚类,把具有相同或相似结构的句子合成一类;再利用计算最长公共子序列( l c s ) 的方法把同一类中的句子按照设定的闽值进行过滤并把相应的句子对改写成t t l 算法所要求的格式,最后通过这种格式分析对应变量或常量实现模板的自动抽取。a 1 盯e b s c 算法思想的雏形被称之为t r l ( 1 r a n s l 撕o nt e m p l 咖l e a r r l e r ) 算法,它最先被成功的应用于从“英语一土尔其语”旬对序中对翻译实例进行泛化,本文则将该算法及其改进用来从“英语汉语”句对库中自动抽取翻译模板。3 1 模板抽取流程a t t e b s c 算法的基本流程可以用图3 1 来说明,具体描述如下:( 1 ) 预处理过程包括对语料排版格式的检查、删除句了单词或词语间的空格、英语单词的识别、对英语句子标点符号的处理等。( 2 ) 使用了两种分词算法( 最大逆向匹配算法和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030工业自动化设备市场现状及未来发展前景报告
- 2025-2030工业级3D打印金属粉末质量标准建立指南
- 2025-2030工业物联网设备指纹识别安全标准与市场准入研究
- 2025-2030工业物联网安全防护架构设计
- 智能社交电商创业中心创新创业项目商业计划书
- 屠宰场消毒设备创新创业项目商业计划书
- 2025年甘肃中医药大学招聘急需紧缺专业硕士研究生模拟试卷及参考答案详解一套
- 工业冷却水循环计算实例
- 建筑安全技术规范培训材料
- 高三备考心理调适与辅导方案
- 脑血管介入围手术期护理
- 2025年江苏二级造价工程师考试《建设工程造价管理基础知识》真题(含答案)
- 数字人文视域下的文化圈重构-洞察阐释
- 爱心义卖班会课课件
- 化验员职业技能培训考试题库及答案(含各题型)
- 2025年广东省中考历史试题卷(含答案详解)
- 阴挺的中医护理
- 中药熏洗法试题及答案
- 施工现场环境保护管理标准化图册
- 2023梅毒螺旋体血清学试验生物学假阳性处理专家共识
- 医院装修项目中的安全措施与难点处理
评论
0/150
提交评论