(计算机应用技术专业论文)面向对日软件外包领域的计算机辅助文档翻译系统.pdf_第1页
(计算机应用技术专业论文)面向对日软件外包领域的计算机辅助文档翻译系统.pdf_第2页
(计算机应用技术专业论文)面向对日软件外包领域的计算机辅助文档翻译系统.pdf_第3页
(计算机应用技术专业论文)面向对日软件外包领域的计算机辅助文档翻译系统.pdf_第4页
(计算机应用技术专业论文)面向对日软件外包领域的计算机辅助文档翻译系统.pdf_第5页
已阅读5页,还剩76页未读 继续免费阅读

(计算机应用技术专业论文)面向对日软件外包领域的计算机辅助文档翻译系统.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

丕i ! 盘堂塑鲎垡熊塞抽盖 面向对日软件外包领域的计算机辅助文档翻译系统 摘要 经济全球化的发展带来了急速发展的软件外包业务。对日软件外包要求我国软件企 业具有鞍强n 勺日文文档写作能力,这个写作能力的限制成为对日软件外包发展的一个绊 脚石。 本文从对日软件外包的文档写作过程的分析入手,提出了以交互式翻译代替写作的 方式来解决对日软件外包文档写作难的问题。针对对日软件外包文档中旬式重复数量 大、专业词汇应用多、句式简单等特点,提出以基于实例翻译方法为核心的,以基于规 则方法作为的短语翻译技术的,以基于模板的句予生成技术为补充的,以友好的人机界 面作为交互手段的计算机辅助翻译理论。 在技术上,主要涉及中文分词、语料库收集技术、句子相似度计算、句子对齐技术、 短语的翻译、利用短语替换的译文合成技术、翻译记忆技术、交互式提示技术。 语料库收集技术中主要面对的语料来源有两个:原有的项目文档和i n t e r n e t 上的 语料。通过机器自动获取和人工校对的方式,得到了一个平行的曰汉双语语料库。 句子相似度计算中,采用改造的同义词词林作为比较词距离的知识库,采用编 辑距离的方式得到了句子之问的距离,再用其来描述相似度。 旬f 的平行技术中设计了中文句子间词汇级的对齐和中日句子间词汇级的对齐方 法。并往此基础上设计了以短语替换为手段的译文生成方法,实现了句子的翻译。 为了能让用户更容易更方便地参与翻译,也为了最大限度地使用例旬,本文还提出 一些具有个性的用户接口设计方案。 最后应用这些翻译理论,结合东软国际软件服务事业部的需求,开发了一个面向对 日软件外包的汉日计算机辅助翻译系统,并进行了一定规模的应用。 关键词:计算机辅助翻译;软件外包;相似度;翻译记忆;平行语料库 壅! 盘芏墅堂焦坌圭! ! ! ! ! ! ! ! a c o m p u t e r - a i d e d t r a n s l a t i o ns y s t e mf o r j a p a n e s es o f t w a r eo u t s o u r c i n g a b s t r a c t t h ed e v e l o p m e n to fe c o n o m i cg l o b a l i z a t i o nh a sb r o u g h tu ss o f t w a r eo u t s o u r c i n gw h i c h i sd e v e l o p i n gr a p i d l y j a p a n e s es o f t w a r eo u t s o u r c i n gr e q u e s t so u rs o f t w a r ee n t e r p r i s e st oh a v e s t r o n gc a p a b i l i t yo fw r i t i n gd o c u m e n t si nj a p a n e s e ,a n dl a c k i n gt h i sc a p a b i l i t yb e c o m e sa s t u m b l ! n go b s t a c l eo nt h ep a t ho f o u rc o m p a n y s d e v e l o p m e n t t h i st h e s i sp a p e rs t a r t sw i t ha n a l y z i n gt h ep r o c e s so f w r i t i n gd o c u m e n t su s e di nj a p a n e s e s o f t w a r eo u t s o u r e i n g w ef o u n dt h a tt h es e n t e n c e sa r es i m p l e ,s o m eo f t h e m ( o rp a r t so f t h e m ) a r eo f t e nr e p e a t e d ;a n dt h e r ea r ea l s om a n ys p e c i a lt e r m s s ow eu s ec o m p u t e r - a i d e d t r a n s l a t i o nt or e s o l v et h i sp r o b l e m b a s e do ne b m t ( e x a m p l e b a s e dm a c h i n et r a n s l a t i o n ) , t h i s s y s t e m u s e sr b m t ( r u l e - b a s e dm a c h i n et r a n s l a t i o n ) t ot r a n s l a t ep h r a s e s ,u s e s t e m p l a t e st ob et h es u p p l e m e n t ,a n dm a k e su s e r - f r i e n d l yi n t e r f a c et ob et h ea i d e d t 0 0 1 i nt e c h n o l o g y , t h i st h e s i sm a i n l yi n c l u d e sc h i n e s es e n t e n c es e g m e n t ,c o r p u sc o l l e c t i o n t e c h n o l o g y ,s e n t e n c e ss i m i l a r i t yc a l c u l a t i o n ,s e n t e n c e sa l i g n m e n t ,p h r a s et r a n s l a t i o n ,t h e t e c h n o l o g yo fs y n t h e s i z i n gt h ej a p a n e s es e n t e n c e sb a s e do np h r a s er e p l a c e m e n t ,t r a n s l a t i o n m e m o r y ,i n t e r a c t i v eh i n tt e c h n o l o g y , a n ds oo n t h e r ea r et w os o h r e e si nc o r p u sc o l l e c t i o nt e c h n o l o g y :t h ef i r s to n ei st h eo r i g i n a l d o c u m e n to ft h ej a p a n e s es o f t w a r eo u t s o u r c i n gp r o j e c t s ,t h es e c o n do n ei st h ei n t e m e t t r a n s l a t i o nw e bp a g e s w eg e tam a c h i n e g e n e r a t e dj a p a n e s e c h i n e s ep a r a l l e lb i l i n g u a l c o r p u sa u t o m a t i c a l l y , a n dv a l i d a t ei tm a n u a l l y i n c a l c u l a t i n gt h es e n t e n c es i m i l a r i t y , w e u s et h er e f o r m e d “t h e s a u r u s ”t ob et h e k n o w l e d g eb a s et oc o m p a r et h ed i s t a n c eb e t w e e nt h ew o r d s t h e nw eg e tt h ed i s t a n c e b e t w e e ns e n t e n c e sb yt h ee d i t i n gd i s t a n c ew a y , a n dt h e nt r a n s f o r md i s t a n c et os i m i l a r i t y w cd e s i g nb o t hc h i n e s e c h i n e s es e n t e n c e s p a r a l l e la r i t h m e t i ca n dc h i n e s e - j a p a n e s e s e n t e n c e s p a r a l l e la r i t h m e t i c w ea l s od e s i g nt h ea r i t h m e t i ct h a tt r a n s l a t e ss e n t e n e e sb y p h r a s er e p l a c e m e n tb a s e do nt h ef o r m e rt w oa r i t h m e t i c s i n 、j l - ( j ? it oi m p r o v et h es y s t e m a t i ca c c u r a c yr a t eo ft r a n s l a t i o n w ed e s i g ns o m eu s e f u l u s e r f f i c n d l yi n t e r l a c e s a tl a s t ,b ya p p l y i n gt h e s et r a n s l a t i o nt h e o r i e s ,w h i l et a k i n gi n t oc o n s i d e r a t i o no f t h en e e d i i i 叁a 盘生墅芏堡迨圭 丛! ! 韭 o ft h ei n t e r n a t i o n a ls o f t w a r e & s e r v i c e sd i v i s i o no ft h en e u s o f tg r o u pl t d ,w ed e v e l o p e da c o m p u t e r - a i d e dt r a n s l a t i o ns y s t e mf o rj a p a n e s es o f t w a r eo u t s o u r c i n g a n da p p l i e di ti na c e r t a i ns c a l e k e yw o r d s :c o m p u t e r - a i d e dt r a n s l a t i o n ;s o f t w a r eo u t s o u r c i n g ;s i m i l a r i t y ;t r a n s l a t i o n m e m o r y ;p a r a l l e lc o r p u s i v 独创性声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中取 得的研究成果除加以标注和致谢的地方外,不包含其他人已经发表或 撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。 与我一一同工作的同志对本研究所做的任何贡献均己在论文中作了明确 的说明并表示谢意。 学位论文作者签名:聿可哓寿、 日期: z d 口;2 z d 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学 位沦文的规定:即学校有权保留并向国家有关部门或机构送交论文的 复副件和磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学 位论文的全部或部分内容编入有关数据库进行检索、交流。 学位论文作者签名: 日期: 另外,如作者和导师不同意网上交流,请在下方签名;否则视为 同意。 学位论文作者签名: 签字目期: 导师签名: 签字日期: 盔a ! 垄芏塑主焦熊墨蔓= 主缝缝 第一章绪论 1 1 引言 软件外包是目前在i t 界很流行的一个词。软件外包是什么? 软件外包就是软件企 业选择合适的外包服务伙伴,将软件项目中的全部或部分工作发包给提供外包服务的企 业完成的软1 h 舌动【” 。软件项目之所以被外包出去,主要是要降低开发的成本,这样软 件发包方可以集中精力从事核心竞争力业务。软件外包的兴起和繁荣,是国际软件生产 要素的,匠纠干翔i k 转移的结果,是经济全球化推动软件产业的世界分工与协作的体现。 追求经济到盏的最大化是软件外包的最大动力。软件技术的进步,因特网技术的发展和 基础通譬改施的完善,为软件外包的发展提供了环境。 软件i 外包中存在语言不通,交流障碍的问题。许多软件外包项目失败,究其原因常 常是因为编码人员对设计意图的误解而产生的。语言能力被认为是影响软件外包项目质 量的一人因素。由于语言障碍导致的理解错误从而导致返工、误工的情况在外包项目开 发中比比皆是。如何解决软件外包过程的语言障碍。降低语言门槛,提高软件企业的竞 争力,是摆在机器翻译工作者面前的一个重要课题。 机器翻译( m a c h i n et r a n s l a t i o n ) ,又称机译( m t ) ,就是一种利用计算机技术来解 决上述问题的方法。机器翻译技术能够通过特定软件的算法,实现将种自然语言转变 为另种自然语言,从而使得不同国家使用不同语言的人,可以正常地进行信息的交流。 机器翻:羊是门研究如何利用计算机进行自然语言之间翻译的边缘科学,它是集合了语 义学、教学、心理学和计算机科学等多种科学的一门综合性科学【35 1 。它的有效性依赖于 人类剥。l 然漪吉的表达机制的总体认识和计算机实现语言翻译的可操作性。它的充分发 展将能够将人类最终带入一个没有语言障碍的世界。 本乏主要针对软件外包领域中的文档的书写和翻译问题做一些研究,希望能在一定 程度t 一解决软件外包的语言障碍问题。 1 2 机器翻译技术综述 1 2 1 机器翻译技术发展史 用机器来进行语音翻译的想法,远在古希腊时代就有人提出过。上个世纪三十年代 之初,法国工程师阿尔楚尼( g b a r t s o u n i ) 提出用机器来进行语音翻译的想法,并于 1 9 3 3 年7 月2 2 日获得一项“翻译机”的专利,叫做“机械脑”,用于翻译列车时刻和银 行账户,是最早的实用翻译机械。 1 9 4 6 + 1 - 美国宾夕法尼亚大学的埃克特和莫希莱设计并制造出世界上第一台计算机 1 一 e n i a c 。它的问世,极大地推动了机器翻译的发展。 1 9 5 4 年,美国乔治敦大学在国际商用机器公司( i b m ) 的协同下,用m m 。7 0 1 计 算机,进行了世界上第一次机器翻译试验,把几个简单的俄语句子翻译为英语,接着前 苏联、英国、日本也进行了机器翻译试验,机器翻译出现热潮。 1 9 6 4 年,美国科学院成立语言自动处理咨询委员会( a l p a c ) 。1 9 6 6 年a l p a c 发 表了机译界无人不晓的a l p a c 报告,他们认为:经过调查,机器翻译速度慢,准确率 差,比人工翻译费用高得多,在近期或可以预见的未来,开发出实用的机器翻译系统是 没有指望的。这个报告后来虽然受到许多严肃的批评,认为它是带有严重偏见的,但是 它还是对机器翻译的研究造成了很大的损害。在世界范围内,机器翻译出现了空前萧条 的局面【3 6 】。 上个世纪7 0 年代后,由于信息交流和需求的日益迫切,计算语言学在理论上有所 进展,处理自然语言的能力有所加强,机器翻译的研制出现转机,又重新兴旺起来。 上个i i i : 纪8 0 年代初,日本几乎所有的大计算机公司都在进行机器翻译系统的研究 和开发,如富士通、日立、日本电气、东芝、夏普等,日本在推动机器翻译研究方面的 贡献为| 1 _ :界所公认。在它的倡导下,于1 9 8 7 年在日本举行了第一届机器翻译峰会( m t s u m m i t ) ,并决定以后每两年轮流在亚、欧、美定期举行,还定期出版机器翻译通讯。 1 9 8 1 年日本的长尾真提出了利用已有的翻译实例( 通常是句子) ,通过构建语料库, 当要翻译新句子的时候,通过查找已有最匹配的例句,再通过对例句进行串替换,串删 除以及串添加等一系列变形操作,最终实现句子翻译( 1 。 1 9 8 8 年e b r o w n 在第二届t m i 会议上提出了隐马尔可夫模型( h i d d e n m a r k o v m o d e l ) 进行机器翻译的想法,这个想法震惊了与会者,并直接导致了基于统计的方法在自然语 言处理上的飞速应用。 进入9 0 年代后,由于计算机软硬件技术的飞速发展,计算机可操作的语料库越来 越大,基于语料库逐渐得到重视,建立了多种利用双语语料库,进行基于统计或基于实 例类比的机器翻译方法。建立了“知网”( w o r d n e t ) 【2 4 1 、l i n k - g r a m m a r 等多个知识库。 1 9 9 4 年i b m 的a b e r g e r 和p b r o w n 等人实现了国际上第一个较为著名的英语到法语的 统计机器酬译系统。该系统具有较高的翻译正确率,极大地推进了机器翻译的发展。 此j 厅机器翻译开始逐步从研究走向市场化,出现了一批成功的系统。例如日本日 立公司的a t l a s 系统,加拿大的t a u m - - m e t e o 系统,美国的p a h o 系统,美国 l o g o m e d i a 多语言互译系统,国内中国计算机软件技术总公司的“译星”英汉系统,国 内的r e a d w o r l d 英汉系统等。 2 盔i k 叁茎墅芏焦迨妻笠= 主缝迨 尔j 匕大学研究机器翻译已经有二十多年的研究历史,先后承担了三十多项国家重点 基础研究、高科技攻关科研项目和国际合作项目,多次获得国家8 6 3 计划专家组a 级评 价。研究成果也多次获得国家科技进步二等奖、辽宁省科技进步一等奖等国家、省部级 科技进步奖,在国内外计算语言学领域享有很高的声誉。东北大学的姚天顺教授提出了 “词汇语义驱动理论”,并完成了c e t r a n 汉英双向机译系统;他还提出过“基于汉语 的扩展主块的翻译理论”,并开发了基于e c h u n k 的英汉翻译系统e c t 。 1 2 2 机器翻译基本的研究方法 人类刘机器翻译系统的研究开发已经有了5 0 多年的历史了。机器翻译技术是不断 发展的。在其发展过程中主要有两种基本的研究方法:理性主义研究方法( r a t i o n a l i s m ) , 也常称为基于舰则的方法,以基于规则的翻译方法为代表;经验主义研究方法 ( e m p i j - i c l s m ) ,也常称为基于语料库的方法【3 7 】。 睦驯l 求,国际国内机器翻译研究中使用的主流方法是基于规则的方法( r u l e - b a s e d m a c h i n et i a n s l a t i o n ) 。理性主义研究方法认为,人的很大一部分语言知识都是与生俱 来的,天生具有一套有关语言的规则的处理方法。因此花了较多时间进行了自然语言规 则的提取和积累。从上个世纪6 0 年代到8 0 年代中期,这种想法主宰着自然语言处理以 及语言学和心理学的研究。在实际的处理中,表现为通过人工编写知识库和推理系统来 创建一个自然语言处理系统。这种想法指导下的基于规则的翻译方法大都对语言现象进 行了一定深度的认识和归纳,总结其规律,形成一个特定的语言文法体系。并在这个文 法体系的基础上,通过对输入语言进彳亍分析、理解和推理,形成对语言无歧义的内部表 示。最后根据这种表示,转换生成相应的目标语言结构,生成目标译文。还有一种基于 中间语言的方法,实际上是这种基于规则方法的扩展。基于中间语言的方法,将输入的 语,;经,分 打处理后,保存为一种内部规定的中间语言形式,然后再以这种中间语言转 换为h 怀融一i 。凶为中间语言的独立性,所以可以做到多种自然语言互相翻译。 到r 个世纪的9 0 年代,经验主义得到了复苏。以理性主义为基础的基于规则的 方法受到j 它强烈的质疑和挑战。经验主义试图证明它在某些方面做的比理性主义优 秀,例如词典的( 半) 自动获取等大大缩短了基于规则方法所需要的时间。与理性主义 研究的方法正好相反,感性主义方法认为人的知识只是通过感观输入,经过一些简单的 联想和通用化操作而得到的。人并非与生俱有一套有关语言的规则和处理方法。在实际 的自然语言处理中,经验主义的研究方法通常表现为从大量的实际语言数据中获取语言 的知识。而大量的语言数据常常以语料库的形式存在。 理一f ,1 :丰义方法和经验主义方法各有各的特点,他们的主要区别在于: 3 耋些盘芏塑芏焦丝墨蔓二主壁垒 尔北犬1 f :j f 究机器翻泽已经有一十多年的研究历史,先后承担了三十多项国家重点 基础研究、高科技攻关科研项目和国际合作项目,多次获得国家8 6 3 计划专家组a 级评 价。研究成果也多次获得国家科技进步二等奖、辽宁省科技进步一等奖等国家、省部级 科技进步奖,在国内外计算语言学领域享有很高的声誉。东北大学的姚天顺教授提出了 “词汇语义驱动理论”,并完成了c e t r a n 汉英双向机译系统;他还提出过“基于汉语 的扩展主块的翻译理论”,并开发了基于e - c h u a k 的英汉翻译系统e c t 。 1 2 2 机器翻译基本的研究方法 人炎刘机器翻译系统的研究开发已经有了5 0 多年的历史了。机器翻译技术是不断 发展的,n 其发展过程中主要有两种基本的研究方法:理性主义研究方法( r a t i o n a l i s m ) , 也常称为纂f 。规则的方法,以基于规则的翻译方法为代表;经验主义研究方法 f e m p i ti c i s mj ,也常称为基于语料库的方法口“。 k 埘祀【r - i 际国内机器翻译研究中使用的主流方法是基于规则的方法( r u l e b e d m a c h i n et i a n s l a t i o n ) 。理性主义研究方法认为,人的很大一部分语言知识都是与生俱 来的,天生具有一套有关语言的规则的处理方法。因此花了较多时间进行了自然语言规 则的提取和积累。从上个世纪6 0 年代到8 0 年代中期,这种想法主宰着自然语言处理以 及语言学和心理学的研究。在实际的处理中,表现为通过人工编写知识库和推理系统来 创建个自然语言处理系统。这种想法指导下的基于规则的翻译方法大都对语言现象进 行了一定深度的认识和归纳,总结其规律,形成一个特定的语言文法体系。并在这个文 法体系的丛础上,通过对输入语言进行分析、理解和推理,形成对语言无歧义的内部表 示。最后根据这种表示,转换生成相应的目标语言结构,生成目标泽文。还有一种基于 中间语i 的方法,实际上是这种基于规则方法的扩展。基于中间语言的方法,将输入的 语i 经- 分柑处理瓜,保存为一种内部规定的中间语言形式,然后再以这种中间语言转 换为1m j 。、l 。为中间语言的独立性,所以可以做到多种自然语言互相翻译。 剑r ,世纪的9 0 年代,经验主义得到了复苏。以理性主义为基础的基于规则的 一法受到它叫烈的质疑和挑战。经验主义试图证明它在某些方面做的比理性主义优 秀,例如词典的( 半) 自动获取等大大缩短了基于规则方法所需要的时间。与理性主义 研究的方法正好相反,感性主义方法认为人的知识只是通过感观输入,经过一些简单的 联想和通川化操作而得到的。人并非与生俱有一套有关语言的规则和处理方法。在实际 的自然语言处理中,经验主义的研究方法通常表现为从大量的实际语言数据中获取语言 的知识。而大黉的语言数据常常以语料库的形式存在。 理忭二j 二义法和经验主义方法各有各的特点,他们的主要区别在于; 珲| 咔丰义方法和绎验主义方法各有各的特点,他们的主要区别在于: 盔韭盘茔亟芏焦逢圭釜= 至缱迨 ( 1 ) 理性主义主要研究人的语言知识结构,实际的语言数据只提供这种知识结构 的间接证据:而经验主义将实际的语言数据作为直接的研究对象。 ( 2 ) 理性主义通过一系列语言原则来描述语言,满足这些原则的语句才是合法的; 而经验主义u ! | j 把语言事件赋予了概率,并无合法不合法之说,只有常见不常见的区别。 ( 3 ) 理性主义通过研究特殊的语言现象来得到关于人的语言能力的认识,而这样 的语言现象也许在实际中并不常见;经验主义则偏重于语言语料中实际应用的语言现象 的表述。 ( 4 ) 理性主义表示直观、深刻、易理解、概括性好,但是一致性和健壮性差;经 验主义反映客观,一致性和健壮性好,但表达肤浅,不易理解。 由此可见两种方法是各有所长、各有所短,在实际使用过程中,应该朝着将两种方 法混合使用的综合方向发展【3 ”。例如许多研究开始着重于从大规模语料库中抽取语言知 识规律,然后利用这些规律来指导自然语言处理的过程。 1 2 3 现有的翻译系统分析 随着汁算机技术的发展,目前国内国外已经有许多成形的翻译系统,他们为机器翻 泽技术的进步和语言障碍的解决做了不可忽视的贡献。但是,由于人脑和电脑有着本质 的区别,加h 自然语言表达的繁杂和不规范性,以及其他问题的限制,到目前为止,机 器翻洋系统的翻译质量以及翻译准确率仍然不尽如人意。 “东方快文”和“金山快译”是两个目前市面上比较流行的翻译系统。他们能够通 过交互技术进行译后编辑,能帮助人理解句子的大概意思,但是翻译结果的正确性和可 读性还是较低。其技术原理是根据语法规则和大量的句式套用来进行分析翻译,结果往 往是词语翻译的罗列。翻译的结果仅仅够浏览之用,更不满足不了企业、科研机构的需 求。 “译星”是中国计算机软件技术总公可的一个机器翻译系统。该软件以逻辑语义学 为理论基础,采用转换法实现语言问的翻译过程。译星翻译软件主要由词典( 知识库) 、 规则库和翻洋模块组成。翻译核心采用s c o m t 描述语言实现语言的句法分析、语义分 析和生成。采用有定子句文法( d c g ) 作为语法分析程序的基础,并结合功能合一文法、 词汇功能文法。他们的翻译结果有较高的可读性,但是翻译的准确性还有待提高。 法国塔多思( t r a d o s ) 公司的翻译工具和北京雅信c a t 翻译平台是辅助翻译系 统典型的代表。他们以人为实体,机器辅助人来进行翻译,已在某些领域的汉英互译中 取得了良好的应用效果。但是也存在着例旬库无法人工干预导致垃圾例句成堆,译文不 够完善,人机交互界面不够友好等问题。 d 查i 苤主堕蔓兰焦逾塞蔓= 至鳖熊 1 3 课题的背景、内容和意义 1 3 i 课题的来源和背景 近年承日本软件外包的规模不断扩大,日本国内的i t 企业及客户对中国软件外包 的需求日益提高,每年都会保持3 0 5 0 的高速增长。越来越多的日本制造业向中国 的转移,更加重了中国对日本软件外包比例的上升。 对日软件外包服务的各国中,中国确实占有很多优势:一是中国离日本特别近,语 言文化上也很接近。而像印度除了相距较对远外,语言上的劣势也比较明显。日本的一 家调育机j 川麓做过中、印软件之间的差别,发现如果有一个印度人达到日语大学一级水 平的话那么中国就有3 7 5 人。而日本对中国文化比较熟悉,这样日本把软件外包交给 中国来做要比给印度省心、省力。像一个外包项目交给印度必须把日文翻译成英文,印 度i = j 英文做宠项同再翻回日文,这样做不仅费时、费事,中间还会出现差错。而中国可 以就直接用川语。:是现在日本的经济还不景气,迫使日本企业降低成本,而中国企业 正好有成本优势一一大概是日本当地企业的5 0 到7 0 ,这样日本的软件外包项目流入 中国也是很l j 三常的【“】。 面对对日外包这种大的机遇的同时,还应该看到,我国软件企业日语人才是严重不 足的。这种不足既表现在会日语的软件人才不多,也表现在会日语那部分人才的日语能 力( 特别是写作能力) 不高上。因为缺少人才,导致我国的企业经常获得订单却又没有 人完成:因为日语写作能力不高,导致和对方交流有障碍,使得对方误解或者延迟得到 反馈信息。这些情况都严重影响了对日软件外包的发展。 考虑到以j 的各个因素,在导师的指导下,我选择了“面向对日外包的日文式样书 辅助生成系统”作为我的硕士论文的研究课题。力求借助计算机辅助翻译技术,降低书 写门文定档的难度,降低程序员的日语门槛,以期达到促进对日外包发展的目的。 1 3 2 课题的研究内容 软件外包的各种文档的汉日翻译是本课题研究的主要内容。要进行机器翻译,首先 必须耍i 套完整的、逻辑性强的、适用于计算机处理的翻译理论体系。然而,目前国 内人部分托器酬泽的研究是以英文为主,臼语作为小语种,其上的相关翻译,目前只有 比较少的几个研究机构在研究。就算在英文研究领域,目前国内还没有一套成熟有效的 汉英机器翻译理论,汉英机器翻译的准确率也比较低。回到日语上面来,目前市面上已 经有一些汉日的基于规则的翻译软件,但是其翻译的准确率也如汉英机器翻译一样,不 一5 查些盘鲎墅生焦熊童签= 至缱煎 是很高。1 要满足企业对文档的需要,提高翻译的准确率是本课题的一个技术重点,也是 一个技术难点。 从实现技术上,本课题采用经验主义和理性主义相结合的原则,用基于实例的机器 翻译方法_ : 乏翻译句子的大部分框架( 句型、结构) ,用基于规则的翻译方法来处理短语 和短句的翻译,同时用翻译记忆技术减少无谓的重复劳动。这是因为,在分析软件外包 的文档的时候( 词语、句型、结构) ,发现该领域使用的语句有着很高的重复率,其中 部分句子仅仅是个别词语的差别。这种环境正是利用基于实例的方法和翻译记忆方法的 理想场合。同时还应注意到,基于规则的翻译方法,在处理短语或者短句的时候,具有 极高的准确率,因此在处理短旬的时候,采用了基于规则的翻译方法。 基于实例的翻译方法是近期机器翻译研究中的一个趋势。这种新的基于实例的翻译 方法,不是试图形式化源语言和目标语言的语言能力,而是探索出存在于已有翻译双语 文本资源中可得的语言财富。它实际上是一种类比翻译,通过比较现有句子和例句的相 同和不同,保留相同部分,替换不同部分来实现翻译。它的整个理论基于这样的假设: 如果两个源语言的句子相似,那么它们的目标语言的句子也是相似的。翻译记忆,正如 字面上介绍的那样,就是一种翻译过程中能够自动记录某个特定句子的翻译结果,下次 再次遇到类似的句子,就可以将所给的译文自动修正到原来修改的结果。翻译记忆能够 有效地减少重复劳动,而将注意力放在对新的内容的翻译上。翻译记忆会使翻译系统变 得越来越聪明。在基于实例的翻译方法中,可以较为简单地实现翻译记忆技术:只要把 已有的翻洋结果加入例子库就可以,下次遇到类似的句子,将其作为例句来参照翻译新 句子。 为了能够实现基于实例的翻译方法,本课题对其涉及到的一些相关工作,例如:实 例句子对的采集、语料库的管理、句子相似度的测定、日文句子的重组方法等,都作了 不少的研究和探索。 基于规则的方法在处理短句在有优势,但是开发一个基于规则的机器翻译模块需要 非常多的人力物力,需要对成千上万的句子进行分析,进行规则的归纳和总结,同时还 要设计好无冲突的内部表示形式。这将是一个非常复杂的系统工程,是无法在短期内完 成的。因此,对于基于规则的翻译模块,本课题组采用的是可以获得的第三方的程序来 实现的。 为了能够最大限度地提高翻译的准确率,经过分析,本着实用的原则,不盲目追求 翻译的全自动,最后确定开发人机交互的翻译系统一计算机辅助翻译系统。当翻译系统 6 丕j i 盘空塑圭芏焦逢塞釜二主壁垒 在机器址浊解决或者出现歧义的时候,需要人工介入:当人在翻译时,计算机会自动提 供相天,内句j i 提示和词语提示。所以本课题定位的是受限领域的辅助翻译。 1 3 3 课题的意义 研究外包领域的计算机辅助翻译是一个尝试。在参考了许多国内外基于实例的机器 翻译系统、辅助翻译系统的基础上,结合软件外包领域,日文文本书写的具体情况,本 课题组设计了一个针对软件外包的文档的受限领域的,以基于实例机器翻译为主,多种 机器翻洋技术为辅的,具有友好的用户界面的,汉日辅助文档编写系统。该系统一定程 度上降低了日语文档的写作难度,提高了写作的效率。在机器翻译还不能广泛在企业中 应用的今天,用计算机辅助翻译来降低了软件企业对软件工程师日语能力的写作要求, 一定程度上降低了对曰软件外包行业的日语门槛。 虽然本课题是针对一个受限领域( 软件外包的文档) 的计算机辅助翻译的研究,但 是蕻研宄,戎煨也i 以直接或者经过改造后应用于其他领域,例如普通文档写作、书信写 作、文水翻译等等。并且对计算机辅助翻译的研究也有深远的现实意义。 1 4 本文的组织结构 本论文的各部分内容和安排如下: 第一章绪论。该章回顾机器翻译的历史,介绍机器翻译技术的分类,并对现有的 翻译系统进行了一些分析。接着介绍了本课题的来源和背景、研究内容和采用的技术, 以及本课题的意义。 第二章机器翻译的方法介绍。这章主要对机器翻译领域现有的各种方法进行介绍, 为下一章本课题方法的提出做个铺垫。 第三章对日软件外包领域文档辅助编撰的方法研究。这章先分析了对日软件外包 领域文档写作的重要性和特点,然后根据理论和实践提出了基于混合策略的辅助编写理 论,最雁介绍了本文采用的关键技术,为下文做了一个总起。 第四,管基于实例的辅助翻译相关技术研究。这章是本文的重点章节,介绍了基于 实例的辅助翻泽涉及到的各个关键技术。 第五章系统的实现和初步应用。主要从实现角度讲述本系统的各个模块的具体实 现情况。 第六章结束语。对基于实例的辅助翻译的工作进行总结,同时提出了系统的改进 方案。 7 圭a t 盘鲎题芏焦逢塞笠兰主垫墨麴堡壅造企塑 第二章机器翻译方法介绍 机器翻泽的研究方法从最初的开始阶段发展到现在,已经出现了不少的理论和方 法,这些删沦和方法各有其的优点和不足。本章先介绍一些已有的翻译方法,为后面的 对比分析以及本课题方法的提出做个铺垫。 2 基于规则的机器翻译方法 基于规则的机器翻译又称为基于转换的机器翻译。它是最成熟的,也是到目前为止 应用最广的。不管是在国内还是国外,基于规则的方法在机器翻译中,一直都占据主流 地位。基于转换的机器翻译系统就是对语言语句的词法、语法、语义和句法进行分析、 判断和取舍,然后重新排列组合,生成等价的目标语言。这一系列过程使用了许多人工 智能的理论来建立系统和推理机,模范人脑的翻译过程。转换方法采用两种内部表达式 并按三个阶段进行翻译:第一阶段把源语言转换为源语言的内部表达式,第二阶段把源 语言的内部表达式转换为目标语言的内部表达式,第三阶段再根据目标语言的内部表达 式生成目标语言。基于转换的机器翻译,每一步都不可避免遇到许多歧义,每一种歧义 都需要大量的知识来全面的消歧。下图是一个典型的基于规则的翻译方法的流程: 图2 1 一个基于规则盼机器翻译系统结构 f i g 2 1a r u l e b a s e m t s y s t e m a r c h i t e c t u r e 这种方法,相对来说已经是比较成熟的了。虽然经过长期的努力,人们已经建立含 有成千上万个规则的规则库,覆盖了相当大的语言现象,但是从理论上讲,这种过程仍 然很有限。凶为语言是一个民族经过几千年的积累,是约定俗成而又动态发展的。随着 社会的不断发展,新的词汇和语言现象不断出现。现有的机器翻译系统的规则再多,也 只是特定语言现象的概括和总结。因此这种方法的翻译效果有限,系统的鲁棒性也不高。 8 壅i i 盘生塑主焦堡盘整三芏垫盏塑堡壶盘金丝 但是也仃些八认为例外情况是另一类语法规律,只是。目前还没有找到该规律是什么而 已。 2 2 基于中间语言的机器翻译方法 所谓中间语言( i n t e r l i n g u a ) ,就是在源语言分析和e l 标语言生成中间建立一个独 立于任何自然语言的形式语言表达式,形成一个源语言一中间语言一目标语言的翻译过 程。中间语言通常采用人工智能研究中应用的形式语言( 例如框架,一阶逻辑) ,其实 质是一种知识的表示方式。在理想状态下,中间语言应该没有或者极少有歧义,结构严 谨,词汇单一,便于计算机处理,并且完全独立于源语言和目标语言。 中间语言的最大好处就是为多语言对译系统创造了良好的环境,将多种机器翻译的 语言转换关系的数量级,从n 的阶层个翻译对降为2 n 个翻译对,如果图2 2 所示。这样, 大大减少了多语机器翻译的难度,从而极大的节省了人力和物力。 l ,聊 图2 2 中问语言简化多语言对译示意图 f i g 2 2i n t e r l i n g u a 但是,中间语言方法也有很多难题。首先,能够表达各种不同意思的中间语言能否 完整地构造出来;其次,中间语言能否将各种语言的所有的意思都保留下来,再转为另 一种语毒;最后,中间语言是否真能做到没有歧义。该方法还需要各语种语言专家和程 序工作者共同努力来完善。 2 3 基于统计的机器翻译方法 统“翮详i n 数学模型是由i b m 公司的b r o w n 等人提出来的。统计机器翻译的基本 思想足, 咖l 器翻泽看成是一个信息传输的过程,用一种信道模型对机器翻译进行解释。 假设一段源语言文本s ,经过某一噪声信道后变成目标语言t ,也就是说,假设目标语 言文本t 是由一段源语言文本s 经过某种奇怪的编码得到的,那么翻译的目标就是要将 t 还原成s ,这也就是一个解码的过程【1 3 】。 基r 统计的翻泽方法认为,翻译问题实际上就是如何根据观察到的t ,恢复到最为 可能的s 的问题。这种观点认为,一种语言中任何一个句子都有可能是另外一种语言中 9 圄 围周v 一 腑 一硬 1 5 兰芦墙矾”; j 壅韭盘主墅生焦造圭基三主垫叠麴堡查鎏坌塑 某个句子的译文,只不过可能性有大有小。| 用p r 闼习表示r 译成s 的概率,那么翻译问 题就成为在观察到丁的前提下,寻找一个使得p r ( s 1 d 取最大值的问题即 s 。a r g 严x p r ( s i t ) ( 2 1 ) 利用 1 j 斯公式,有 p r ( s i t ) = 等 f 2 :) 凶p r ( 砷和s 无关,故有 s 。a r g s m a x p r ( s ) p r ( t i s ) ( 2 3 ) 其中p r ( 回称为语言s 的语言模型,e r ( :q s ) 称为s 到f 的翻译模型。数学符号a r g m a x 表示对不同的候选序列分别计算条件概率,同时取其中的最大值。在基于统计的翻译系 统中要解决三个问题:一是如何计算语言模型p r ( s ) ,二是如何计算翻译模型m 司回, 三是如何住所有可能的s 中有效的搜索使p r ( s ) p r ( ;q 研最大的s 。由s = 跚: ,得到 p r ( s 成岛) = p r o 一) p 吣z 忙) e r ( s 1 s , s z 品一一) ( 2 - 4 ) 在只考虑n ,个历史的前提下简化得到的模型称为n 元模型,一般情况下取n = 2 或 n = 3 分别得列:元模型和三元模型。尽管从语言学角度来讲,n 元模型过于简单化了, 但是从语音识别等领域的使用情况来看,它还是有效的。 同样,对 二翻译模型也需要一个可行的简化模型。由s = 跚z t = t i t 一厶,考 虑到s 和r 中单词的对齐关系。会发现它们之间既可能是一对应关系,也可能是多 对一、一对多关系,甚至是零对一、一对零关系。b r o w n 等对翻译模型做出如下的简化 。厂 一 、 州矸s ) = n iv r ( f i l s t ) n p r ( t j l s r ) l n p r ( i l j ,) 。1 ,。17 训 ( 2 - 5 ) 其中,p r 且) 表示s 中单词s ,翻译时对应,中,个单词的概率。模型要求针对任一 单词s 估计参数p r ( o i s ) ,p r ( 1 l s ) p r ( k i s ) ( k 为一个假设的上限) 。p r ( t j l s , ) 称为翻译概率,表示 单词泽成单词的概率。p r ( i 【_ j , ) 称为变形概率,用以描述翻译过程中造成的单词位置 上的变化,b r o w n 等假定p r ( i k ,f ) 仅依赖于丁的长度,s 中单词的位置,r 中单词的位 置i 。 在分剖得出两个简化模型后,接下来的工作就是利用实际语料进行参数估计,对于 语言模型而言( 以二元模型为例) ,需要利用s 语言的语料估计概率p r ( s t b t t ) ,一般采用 相对频率i 去( r e l a t i v ef r e q u e n c y ) 进行估计,统计实际语料中单词盛一叠相邻出现的次数除 以单词s 一,出现的次数,即 1 0 一 盔j 叁主题茔焦焦墨星三童垫墨塑至杰溘盆堡 p r 圆虹一净j f ( 且p 一 = 掣 ,姆一j ( 2 - 6 ) 其;代表* 在实际语料中的出现频率。 有了上述模型之后,翻译过程即为一个解码( d e c o d e ) 过程,对所有可能的s 计算 p “回p r ( ,找出其取值最大的j 作为r 的译文。 基r 统计的方法需要大规模双语语料,其翻译模型、语言模型参数的准确性直接依 赖于语料的多少,其翻译质量主要取决于概率模型的好坏和语料库的覆盖能力。同时, 翻译模型、语言模型在简化过程中也带来一些缺陷,在简化和可行之间存在一个权衡问 题。基j 二统叫的方法不需要对大量知识的依赖,直接靠统计结果进行歧义消解处理和译 文的选择,避开了语言理解的诸多难题。但是,语料的选择和处理不但工程量大,而且 需要同实际处理问题相似。因此,通用领域的机器翻译系统很少以统计方法为主。 2 4 基于实例的机器翻译方法 牲f 参、咧

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论