已阅读5页,还剩75页未读, 继续免费阅读
(机械电子工程专业论文)工艺语句汉英计算机辅助翻译系统关键技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
南京航空航天大学硕士学位论文 摘要 全球制造和敏捷制造模式要求工艺技术文件能被来自不同母语国家的工程技术 人员所理解,这就要求中文工艺文件翻译成英文工艺文件。但传统的人工翻译投入大, 周期长,而现有的汉英机器翻译软件又难以满足工艺文件翻译的需要,因此,对工艺文 件的机器翻译方法进行研究是十分必要的。 本文从航空制造工艺入手,对工艺语句的汉英计算机辅助翻译系统的关键技术进 行了研究。论文在分析和总结工艺语句特点的基础上,提出用翻译记忆技术作为工艺 翻译系统核心,并分别对分词算法、相似度计算、对齐方法、译文生成等关键技术进 行了研究,建立了双语词典库、例句库和子块库。最后应用这些翻译理论,结合成都 飞机工业公司的需求开发了一个工艺文件汉英翻译系统,并在该企业进行了初步应 用。 关键词:机器翻译制造工艺计算机辅助翻译翻译记忆相似度对齐技术计算机辅 助工艺设计 工艺语言汉英计算机辅助翻译系统关键技术研究 a b s t r a c t t e c h n o l o g yd o c u m e n ts h o u l db eu n d e r s t o o db yf o r e i g ne n g i n e e r sw i t ht h e d e v e l o p m e n to fg l o b a lm a n u f a c t u r i n ga n da g i l em a n u f a c t u r i n g ,s ot h e r ei sa d e m a n dt h a tt h ec h i n e s ev e r s i o no ft e c h n o l o g yd o c u m e n tm u s tb et r a n s l a t e di n t o e n g l i s hv e r s i o n t r a d i t i o n a lt r a n s l a t i o nb yh u m a nh a st h ed i s a d v a n t a g eo fl o n gp e r i o da n d h i g hc o s t ,a n dc h i n e s e e n g l i s hm a c h i n et r a n s l a t i o ns o f t w a r ec a n tm e e tt h e n e e do ft r a n s l a t i o nf o rt e c h n o l o g yd o c u m e n ta tt h ep r e s e n tt i m e ,s oi ti s n e c e s s a r yt or e s e a r c ht h et e c h n i q u eo fm a c h i n et r a n s l a t i o nf o rt e c h n o l o g y d o c u m e n t i nt h i sp a p e r ,t h ea u t h o rr e s e a r c h e st h ek e yt e c h n o l o g i e sc o n c e r n e dw i t h c h i n e s e e n g l i s hc o m p u t e r a i d e dt r a n s l a t i o ns y s t e mf o ra i r c r a f tm a n u f a c t u r i n g t e c h n o l o g y a f t e r a n a l y z i n g a n d s u m m a r i z i n g t h ec h a r a c t e r i s t i c so f t e c h n o l o g y s e n t e n c e ,t r a n s l a t i o nm e m o r yi ss e l e c t e da st h ec o r eo ft e c h n o l o g yt r a n s l a t i o n s y s t e mi n t h ep a p e r ,s o m ek e yt e c h n o l o g i e s ,i n c l u d i n gw o r ds e g m e n t a t i o n , s i m i l a r i t yc o m p u t a t i o n ,a l i g n m e n t ,e n g l i s hs e n t e n c ec o n s t r u c t i o na n dt h e d e s i g no fb i l i n g u a ld i c t i o n a r y ,e x a m p l ec o r p u s ,s u b t r u n kg a l l e r y a r ed e e p l y s t u d i e d a p p l y i n gt h e s et h e o r i e s ,c o m b i n e dw i t ht h er e q u i r e m e n to fc h e n g d u a i r c r a f tc o m p a n y ,t h ea u t h o rd e v e l o p e dac h i n e s e e n g l i s ht r a n s l a t i o ns y s t e m f o r t e c h n o l o g yd o c u m e n t ,a n d t h e s y s t e m w a s a p p l i e d i nt h e c o m p a n y s u c c e s s f u l l y k e y w o r d s :m a c h i n et r a n s l a t i o n ;m a n u f a c t u r et e c h n o l o g y :c o m p u t e r a i d e d t r a n s l a t i o n :t r a n s l a t i o nm e m o r y :s i m i l a r i t y :a l i g n m e n t :c o m p u t e r a i d e d p r o c e s sp l a n n i n g 南京航空航天大学硕士学位论文 第一章绪论 随着全球经济合作的日益增强,各个国家、民族之间的交流与曰俱增,相互之间 的竞争和合作都离不开彼此的信息交流。但是面对大批的文件,单纯靠手工翻译已经 不能解决问题,迫切需要翻译软件的帮助。本文针对机械制造领域工艺文件的计算机 翻译问题做了一定的研究,希望能对此有一些帮助。 1 1 引言 从第一次工业革命兴起到目前的2 0 0 多年期间,机械制造技术发生了很大的变 化。由于机械科学、计算机科学、电子科学、材料科学、系统科学和制造科学的发展, 机械制造在近几十年中已形成向精密化和自动化发展的趋势,其中柔性制造与集成制 造技术构成了其中最基本的要求。而在集成制造中,工艺规程设计( c o m p u t e r a i d e d p r o c e s sp l a n n i n g ,简称c a p p ) 是连接产品设计和产品制造的桥梁,是制造系统的 主要环节,对产品质量和制造成本具有重要影响。随着制造工业的全球化,以及敏捷 制造、并行工程的发展,不同国度的企业之间的生产合作日益增加,产品制造过程中 的交流也越来越多,异地设计、异地制造的现象十分普遍。其中产品设计采用的是全 世界通用的图形语言,而工艺文件采用的却是各不相同的文字语言,这就给工艺上的 沟通带来很大的不便,工艺文件的翻译成为一个急待解决的问题。 随着经济的全球化和各种新的制造模式的涌现,必然要求包括工艺文件在内的各 种技术文件能够被来自不同母语国家的工程技术人员所理解。而传统的工艺文件是由 有经验的工艺人员手工编制或者是利用计算机辅助工艺设计软件系统生成,所有的这 些工艺文件都是由单一语言编制的,必须经过专业的翻译人员翻译成对方语言才能被 对方了解。这不仅要耗费大量的人力物力,更为重要的是它延长了产品的设计制造周 期,阻碍了敏捷制造、异地设计与制造等各种先进制造模式的应用,削弱了制造企业 的竞争力。 由于机械制造中零件种类多、工艺复杂、并涉及多个专业化车间,造成工艺文件 中专业词汇量大且专业性强,语句错综复杂、样式繁多,传统的人工翻译必须投入大 量的人力、物力和财力,而且周期长,翻译结果难以保证一致性,远远满足不了规模 化生产的要求,这就必须在翻译技术上革新,制造工艺语言的计算机翻译应运而生。 机器翻译( m a c h i n et r a n s l a t i o n ,简称m t ) ,是利用计算机把一种自然语言转 变成另一种自然语言的过程。用以完成这一过程的软件叫做机器翻译系统。它是研究 如何利用计算机进行自然语言之间翻译的一门边缘学科,其有效性依赖于人类对自然 语言的表达机制的总体认识和计算机实现语言翻译的可操作性。 工艺语言汉英计算机辅助翻译系统关键技术研究 1 2 翻译技术综述 机器翻译是自然语言处理( n a t u r a ll a n g u a g ep r o c e s s i n g ,简称n l p ) 中一个 最早的研究课题。它是集语言学、数学、心理学和计算机科学等多种科学的门综合 性科学,其发展受到这些学科发展的限制,同时它也将影响这些学科,促进它们的发 展n “。 1 2 1 翻译技术发展史 机器翻译的研究自计算机诞生之初就被提出来了,在5 0 多年的发展历程中,经 历了曲折道路,有成功和兴奋,但是更多的是挫折和困惑。婀研究也如人工智能的 其它研究一样,困难重重,对研究者提出了无数的挑战。这正说明人类对智能、对语 言机制认识的长期性m 。 最早提出使用计算机来进行自然语言翻译的是在美国r o c k e f e l l e r 基金会工作 的w e a v e r 。b o o t h 和r i c h e n s 于1 9 4 7 年进行了机器查词典的实验,此时对于舭的认 识还仅仅局限于词对词的翻译。由于这些活动,1 9 4 7 年被认为是m t 的诞辰,但是产 生广泛影响的是w e a v e r 发表于1 9 4 9 年的备忘录,引起了人们对机器翻译这一新的、 令人激动的计算机应用的广泛注意,在随后的几年里,在美国和英国的一些大学和组 织里开展了对m t 的研究活动。 由g e o r g e t o w n 大学和i b m 公司合作,实现了世界上第一个m _ r 系统,掀起了m t 的研究高潮。由于当时人们对m t 的复杂性估计不足,m t 在当时还仅仅局限于词层之 间的转换,使m t 的研究和系统实现走向了困境。1 9 6 6 年美国科学院语言自动处理咨 询委员会发表了a l p a c 报告认为在短期内无法研制出实用化的机器翻译系统,它使得 机器翻译的研究从此陷入低谷叫。 c h o m s k y “3 提出的转换生成语法在语言学理论上取得了重大发展,机器翻译开始 以基于转换的语法规则为主,并且伴着人工智能的发展,不断在m t 研究中引入人工 智能技术,人工智能方法的主要应用时语义表示和分析、知识库应用等。之后由于计 算机软硬件的飞速发展,计算机可读的大规模语料库越来越容易获取,使得整个m t 研究的视野发生了改变,标志着m t 研究进入了一个新的时期0 3 。 中国是继美、英、苏之后世界上第四个开展机器翻译研究的国家”3 。从七十年代 末及至今天,已开发一系列机译系统。开发人员注重总结经验,深入研究探讨机器翻 译理论,汲取国外最新结果和经验,大胆创新,对自然语言的理解、语法和语义分析 等理论提出一系列颇有见地的观点和方法。 总之,在语言信息处理这一领域方兴未艾之际,机器翻译这一核心部分在国内外 已成为人们关注的焦点。 南京航空航天大学硕士学位论文 1 2 2 翻译的分类 m t 技术在不断发展中主要有两种基本的研究方法:理性主义研究方法,也常称 为基于规则的方法,以基于规则的机器翻译为代表;经验主义研究方法,也常称为基 于语料库的方法o “,以基于实例的机器翻译和基于统计的机器翻译为代表“。 长期以来,国际国内机器翻译研究中使用的主流方法是基于规则的方法。由于 c h o m s k y 的内在语言官能理论被广泛地接受,从6 0 年代到8 0 年代中期主宰了自然语 言处理以及语言学和心理学的研究。r b m t 大都通过对语言现象的认识和归纳,总结 其规律,形成一个特定的语言文法体系,并在这个文法体系的基础上,对输入语言进 行分析、理解和推理,形成对语言的无歧义的内部表示,最后根据由这种表示转换生 成的相应的目标语言结构生成目标译文。从推理机制上来说,r b m t 是一种理性主义 的机器翻译方法。 而到了9 0 年代随着经验主义的复苏,以理性主义为哲学基础的基于规则的方法 受到了质疑和挑战,它证明了自己在某些方面优于理性主义,如词典的( 半) 自动获 取等大大缩短了基于规则方法所需的时间“”。与理性主义研究方法正好相反,它认为 人的知识只是通过感官输入,经过一些简单的联想和通用化操作而得到的。人并非与 生俱有一套有关语言的规则和处理方法。在实际的自然语言处理中,经验主义的研究 方法通常表现为从大量的实际语言数据中获取语言的知识。而大量的语言数据常常以 语料库的形式存在。但是,相关研究也表明,目前的经验主义方法同样也难于使得机 器翻译技术获得突破性的进步。有人认为,二者都有各自的优点和缺点,并非对立, 从效果上看是互补的o ”“3 “1 。表现在自然语言处理中,可以简单地概括为:理性主义 方法表达直观、深刻、易理解、概括性好,但一致性和健壮性差;经验主义方法反映 客观,一致性和健壮性好,但表达肤浅,不易理解,并且需要维护大量地语言数据。 基于规则的机器翻译系统在国内有“译星”英汉系统、“高立”英汉系统、 8 6 3 一m t e c 英汉系统、m a t r i x 英汉系统、通译英汉一汉英系统、r e a d w o r l d 英汉系统、 s i n o t r a n s 汉英一汉日机译系统、中科院计算所与北京大学计算语言学研究所联合 研制的汉英机器翻译系统、东方快车、金山快译等;在国外有乔治敦大学的机译系统、 法国格勒诺布尔大学的俄法机译系统、加拿大的t a u m m e t e o 系统、日本的a t l a s 、 法国纺织研究所的t i t u s - i v 系统、美国的s y s t r a n 系统、美国的w e i d n e r 系统、d l t 系统等。基于统计的机器翻译系统主要有日本富士通公司的基于语料库的英日机器翻 译系统和i b m 公司的法英机器翻译系统等。基于实例的翻译系统主要有m b t i 和m b t 2 系统、e t o c 和e b m t 系统、p a n g l o s s 系统、清华大学计算机系的基于实例的日汉机器 翻译系统等。辅助翻译系统有t r a o d s 系统、雅信汉英系统等。 工艺语言汉英计算机辅助翻译系统关键技术研究 1 2 3 目前翻译系统分析 随着计算机软硬件技术以及人工智能和计算语言学的理论与技术的发展和进步, 机器翻译的方法与技术也得到了很大的提高与发展,各种机器翻译方法为解决语言障 碍做出了不可忽视的贡献。但由于电脑与人脑有着本质性的差别,加上自然语言表达 的繁杂和不规范性以及各种机器翻译方法本身都具有不同程度的局限,虽然语言学工 作者与计算机专家想出了许多方法,用电脑模拟人脑的功能与思维方式,但是始终无 法模拟出人类基于先验知识的那种“单刀直人”式的思维效果。所以,到目前为止, 机器翻译系统的翻译质量以及译准率仍然不尽人意,更无法达到“信、达、雅”的程 度。 基于规则的机器翻译系统需要庞大而复杂的规则库支撑,规则的来源是专家的知 识,获取和维护耗时费力,又无法避免冲突。规则的获取和维护瓶颈难以跨跃,导致 基于规则的机器翻译系统质量几十年没有本质性提高,在可以预见的将来靠获取全面 的规则仍然是不现实的。 目前,市场上流行的“东方快文”和“金山快译”等翻译软件虽能利用其交互技 术能进行译后编辑,但可读性与准确度较低。其技术原理是根据语法规则和大量的句 式套用进行分析翻译,结果往往是词语翻译的罗列。尽管这类翻译软件可以帮助非专 业翻译人员浏览大意,但难以满足专业翻译的要求,尤其是不能满足企业、科研等部 门专业化程度较高和翻译准确性要求高的文字翻译需求。 机器翻译的研究进入了反思的理性阶段后,使得以下三种概念有了区分:( a ) 机 器翻译:全部翻译由机器完成,但是其结果必须经人工修订:( b ) 辅助手段:翻译活 动由人工进行,机器翻译只是作为人们翻译时使用的辅助工具;( c ) 非翻译人员为获 取梗概大意偶尔使用的机器翻译系统。 法国塔多思( t r a d o s ) 公司的翻译工具和中国北京雅信c a t 翻译平台就是种计 算机辅助翻译系统。它以人作为主体,机器辅助人来进行翻译,已在某些领域取得了 良好的应用效果。但是对其用航空制造工艺语句进行汉英翻译测试,发现其难以满足 实际生产需要。问题主要表现在: ( 1 ) 相对于航空制造领域,收词方面不够专业,有些词语的分词单位也不符合 该领域的应用。很多在该领域没有应用到的词汇反而收录了进来,影响翻译质量; ( 2 ) 例句库的存储过程人工无法进行干预,导致存储了很多垃圾例句对,语料 库的无限膨胀不但降低了翻译效率而且也将加大知识维护的能力; ( 3 ) 译文生成不够完善,只是提供了简单的例句译文,没有合成待译句子的译 文; ( 4 ) 译后修改往往与特定的机器翻译引擎紧密结合,因此在知识可视化表示、 编辑效率等操作的人机交互友好性方面存在一定的困难。 南京航空航天大学硕士学位论文 ( 5 ) 难以和现有的c a p p 系统集成 1 3 课题来源与背景 在我国,航空企业的国内外合作十分频繁,异地设计、异地制造的现象非常普遍。 成都飞机工业公司( 以下简称成飞) 作为国内主要的飞机制造企业,与国外存在广泛 的合作关系,跨语种信息交流变得愈发重要。 1 3 i 课题来源和背景 航空制造过程中,零件种类繁多。一架飞机能成功飞上蓝天,需要多个企业工作 的配合,零件来自于不同的厂家,甚至不同的国度,相互之间的技术交流成了一个大 问题。据估计,超七飞机约有l 万多项自制零件,工艺文件约有2 0 万标准页。这不 仅需要大量的工艺文件的编制,还需要大量的对生产工艺文件的翻译工作。由于制造 工艺复杂,造成了飞机制造工艺语言复杂,样式繁多,专业词汇量大。目前,成飞公 司正与巴基斯坦合作研制超七飞机。根据合作协议,在飞机研制工作完成后,中方须 向巴方提交所有英文的技术资料,包括英文的制造工艺文件。其翻译和编制的工作量 非常大,从工艺文件翻译、校对、描制、晒蓝形成正式英文版的工艺文件需4 0 人将 近一年多的时间,人工翻译不仅速度慢、出错率高、难以保证翻译的一致性,导致质 量难以保证,因此采用传统的人工编制和翻译工艺文件的方法是很难满足实际需要 的。 为了缩短工艺文件准备周期,提高工艺文件编制水平和标准化、规范化程度,提 高工艺文件编制的速度和质量,成飞于1 9 9 7 年提出与南京航空航天大学( 南航) 合 作研究与开发“飞机制造工艺文件规范化编制与汉英翻译系统”。在此基础上,成飞 于2 0 0 1 年又与南航合作进行“工艺文件编制及翻译系统二次开发”。 本论文所研究的内容是该项目的一个子课题。 i 3 2 前期完成的工作 该项目在南航研究和开发的过程中,各个方面都有了一定的成果。在第一期系统 中采用对照式翻译和基于语法规则的自动翻译相结合的翻译方法。 i ) 对照式翻译 对照式的翻译系统主要针对一些短语和固定使用的短小句子而设计的,系统内部 采用对照式的翻译思想。对照式的翻译系统,先设计对照例句库,例旬库只存储中文 句子和英文句子,当碰到要翻译的中文句子的时候,到对照例句库中去提取相同的例 旬,找到后把中文句子替换成相应的英文句子,完成翻译的全过程。这种翻译方法功 工艺语言汉英计算机辅助翻译系统关键技术研究 能有限,和对照例句库中不同的句子根本无法处理,但是对热加工、表面处理方面的 短语处理基本上能满足要求,能翻译的语句正确率很高,可以达到9 5 以上。 2 ) 基于语法规则的自动翻译 基于语法规则的自动翻译系统的基本策略是转换法。基本原则是尽量发挥语法分 析的作用,辅以语义搭配判断。语法基础是汉语完全语法树和属性制约文法。本系统 由原语( 汉语) 的线性结构出发,经过多层次、多次数的扫描,按规则的有序匹配, 形成以动词为根结点,以逻辑语义项为主结点的多结点、多标记的树形结构,最后从 根结点逐层展开,形成目标语言( 英语) 的线性结构,得到相应的译文。根据独立分 析独立生成的方法,本系统的自动翻译过程分为六个阶段: ( 1 ) 原语形态分析 ( 2 ) 原语语法、语义分析 ( 3 ) 词汇转换 ( 4 ) 结构转换 ( 5 ) 目标语言语法生成 ( 6 ) 目标语言形态生成 通过这六个阶段,语言数据由输入的原语的链变为原语树形图,经过树形图的转 换,再由目标语言树形图变为目标语言的链输出。 基于语法规则的自动翻译系统的实现使得短小的句子可以自动翻译,但是相对复 杂的句子或者不符合语法规则的句子却无能为力。 3 ) 成功经验 以上两个系统的开发,留给了我们一些丰富的经验和相关材料: ( 1 ) 在进行对照翻译的过程中曾经建立了一定规模的双语例句库,这些例旬全 部来源于实际的工艺文件,对后续工作具有极大的利用价值。 ( 2 ) 在进行基于语法规则的自动翻译系统的开发过程中组建了双语词典,该双 语词典中的词汇来源于实际的工艺文件,为词语切分规范的建立和汉语词语与英文释 义提供了充分的准备,改造后可以重新利用其中部分内容。 4 ) 不足之处 一期所开发的系统经过投入使用,解决了一部分工艺文件的语句翻译问题,但是 由于有很多工艺语句不符合语法规范,这正和r b m t 的要求相冲突。由于r b 盯系统要 对所翻译的内容进行语法、语义分析,不符合规则的句子根本就无法翻译,另外语法 规则库的组建也是一个很大的问题,必须依靠语言专家来填充,在目前的机械制造领 域,很难搜集到现成的语法规则集。 6 南京航空航天大学硕士学位论文 1 4 本文的研究内容与组织结构 1 4 1 本文的研究内容 飞机制造工艺文件汉英翻译是本课题研究的主要内容。要进行计算机翻译,必须 要有一套完整的、逻辑性强的、适用于计算机处理的翻译理论体系。然而,目前国内 外还没有一套比较成熟而有效的汉英机器翻译理论、汉语的文法体系和语法理论,汉 英机器翻译的正确率也比较低。因此,如何提高工艺文件翻译的正确率是本课题的技 术关键,也是技术难点。 从一期所开发的系统可以看出,如果继续沿用传统的基于语法规则的自动翻译方 法,要大幅度提高工艺文件翻译的正确率是非常困难的,必须另辟蹊径。其实任何一 种翻译技术本身都有一个假设,比如:基于规则的翻译就假设所翻译的句子都符合语 法习惯,可以通过语义树分析得到译文句子;基于统计的机器翻译假设训练文本和待 译文本的相关参数是一致的,待译文本的参数可以通过训练文本得到;基于实例的翻 译假设意思一致的待译句子和例旬的译文也有相似之处。 经过分析,本着实用的原则,不盲目追求翻译的全自动化,我们最后确定开发人 机交互的翻译系统计算机辅助翻译,并且以翻译记忆为核心技术。 本文在分析飞机制造领域使用的词语、句型、结构等基础上,发现语句的重复率 高达8 0 ,其中部分句子仅是个别词语的差别,这正是需要发挥翻译记忆技术的领 域。以往的翻译记忆技术即是在比较例旬和待译句子意思是否一致的基础上,重复利 用例句去翻译待译句子。由于计算机根据句子的语义判断两个句子是否相似仍有一定 的困难,并且难于统一,本文对翻译记忆所涉及的相关技术进行了重新设计,基本假 设结构相似的句子,翻译成其它语言时,译文的结构也相似。 当翻译系统在机器无法解决和出现歧义的时候适当的需要人工介入,所以本论文 的定位为专业领域的计算机辅助翻译,本文正是就这一方案所涉及到的关键技术以及 实现进行分析研究。 1 4 2 本文的组织结构 本文共分七章,各章的主要内容如下: 第一章绪论,该章简单介绍了机器翻译的历史、现状,本课题的背景和来源, 根据课题的实际需要提出了本文所要研究的内容。 , 第二章工艺文件计算机辅助翻译方法研究,分析了工艺文件中语句的特点,在 分析比较各种翻译方法的优缺点基础上,决定采用计算机辅助翻译系统,核心技术依 靠翻译记忆的方法予以实现,从总体上讨论了该方法所涉及到的关键技术。 工艺语言汉英计算机辅助翻译系统关键技术研究 第三章相似度研究,首先介绍了一些和相似度有关的知识,然后详细介绍了本 文所采用的研究方法,分别从句子级别和词汇级别两个层次进行了相似度的设计。 第四章对齐与译文生成研究,首先介绍了对齐和译文生成的知识,继而按照问 题解决的顺序阐述了本文使用的具体方法。 第五章翻译记忆库的设计,该部分从实用的角度给出双语词典库、例旬库和子 块库的具体要求和设计。 第六章计算机辅助翻译系统开发与初步应用,该章从实用的角度讨论了计算机 辅助翻译系统的实现以及初步应用情况。 第七章结论与展望,总结了本文所做的工作和对以后工作的展望。 南京航空航天大学硕士学位论文 第二章工艺语句计算机辅助翻译方法研究 2 i 工艺文件中语句特点分析 成飞公司的机械制造主要以由以机加、钣金、装配为代表的近2 0 个专业化车间 来完成,它们的工艺语句错综复杂,样式繁多,各种加工方法没有一个规范化的表示 形式,从而也使生成的工艺规程缺乏同一性,工艺文件的标准化和规范化是成飞公司 所要解决的问题,通过工艺的规范化可使企业的工艺水平得到显著提高“”。 这些车间所使用的工艺语句虽然复杂,但是比起我们日常生活中使用的语句要简 单的多,主要表现在: ( 1 ) 首先涉及到的词语比较少,不象通常的翻译软件那样动辄需要几十万甚至 上百万的词汇,只需要1 万左右个汉语词汇基本上就能涵概整个车间的相关专业。 ( 2 ) 句型相对固定,筒单。不象日常交流那样,需要感叹句、疑问句等各种表 示语气的句子,也不存在文言文之类难于翻译的句子,基本上就是陈述旬和祈使句, 这为计算机翻译的处理减少了很多不必要的麻烦。 以上是工艺文件相对于普通语句易于计算机处理的优点,但是事实上使用的工艺 语句并非象上面提的那么简单。主要是因为车间的工艺卡片都是由车间工艺员去填写 的,车间工艺员一般都是在技术上可以达到工厂要求的中专生,在语言方面的造诣比 较薄弱,所以对同一个零件或装配件的汉语描述不尽相同,使用的词汇也差别较大, 而且句子结构的差别也比较大。在语法上来讲,有车间工艺员写的句子基本上正确的 句子,而有些车间工艺员写的句子却很不合格。 对于一个企业来说,工艺规程的规范化和标准化是一个关键环节,所使用的工艺 语句也是其中的重要组成部分。成飞集团有限公司曾经对这一方面做了一定的工作, 比如工艺词汇的标准化,工艺语句的标准化,规定车间工艺员必须按照规定的词汇和 句型去描述零件,但是经过一段时间的试行,证明这种标准化是无法实施下去的,不 是因为技术上的问题,而是人的因素影响太大。成飞希望通过开发该翻译系统促进工 艺语句的标准化。 总的来说很多工艺语句是符合语法规范的,比如: ( a ) 检查零件安装定位质量 ( b ) 按图j 1 0 一b 1 0 0 1 - 7 0 0 及电塔接技术条件j t - j 1 0 7 8 1 安装搭铁线 ( c ) 检查试验台、工艺转接电缆与垂尾各部位连接的正确性 但也有不少工艺语句就比较不符合语法规范,比如: ( a ) 按图d d j s 7 0 4 0 1 卜0 ,p 1 ,k 向,用 铆钉h b 6 2 9 8 4x8 = 8 个 0 工艺语言汉英计算机辅助翻译系统关键技术研究 铆钉h b 6 2 9 8 4x9 = 8 个 铆钉h b 6 2 9 8 4xl o = 1 0 个 铆接型材d d - j s 7 - 0 4 0 1 1 - 0 - 1 ,- 0 - 2 。 ( b ) 按图叩一j s 7 0 4 0 1 卜0 ,p 1 ,k 向,定位安装 型材d d - j s t - 0 4 0 1 i - 0 - i = 1 型材d d - j s 7 0 4 0 11 - 0 - 2 = l 并制出定位孔4 - 中3 1 ,用串芯夹固定。 要想把这样的中文句子完全翻译成英文,实现自动翻译是e b 较困难的,以上举例 的是一些语法方面的例子,下面给出一些专业词汇: 1 ) 大部分词语是符合分词规范的: ( a ) 图 ( b ) 连接 ( c ) 部位 ( d ) 余量 这些词语和我们日常生活中使用的词语是一致的,不需要做特殊考虑。 2 ) 下面的词汇和日常生活领域的词汇差别就比较大: ( a ) 机加零组件 ( b ) 安装座 ( c ) 合格证划线 ( d ) 局部允许偏差 ( e ) 测壁厚量具 ( f ) 压紧垫圈 这些词汇如果按照一般的翻译理论处理方法,很多本身就是一个句子,在这里却 是一个词汇。 3 ) 还有一些不符合常理的词汇出现: ( a ) t ( 1 ) 一艺典- 1 0 5 ( b ) j 1 0 1 3 一典型- 0 1 ( c ) j 1 0 1 2 一典- - 0 2 2 这些词语属于工厂里面的厂标或者比较随意的用法,根本无法翻译成英文。如果 是厂标的,就不需要翻译成英文,只需要原样放到译文中即可。 4 ) 有些词语全是由英文字母和连字符组成的: ( a ) j l o 一5 5 1 8 1 5 0 0 0 g ( b ) y x f 一8 0 ( c ) 5 1 q x a 这些词语和我们日常中使用的词语不一致,为了跟英语单词和一般的词语叫法相 区分,在本文中叫做英语字符串。 10 南京航空航天大学硕士学位论文 以上列举了词汇和语句等方面的一些现象和例子,也说明了机械工艺语句的特殊 性和专业性。 另外这些工艺语句也有简单旬和复杂句之分,比如机加、钣金( 制造大纲, f a b r i c a t i o no r d e r ,简称f o ) 等车间的句子就相对简单一些,句子比较短小、规范, 使用一期的翻译软件就可以翻译;各种装配( 装配大纲,a s s e m b l yo r d e r ,简称a o ) 所使用的工艺语句相对复杂、随意,翻译比较困难。 虽然很多句子和词汇使用不是很标准,但是从总体上统计,句子结构和句子种类 重复数量大,达到8 0 以上。 以下要做的就是针对工艺语句的特点,研究出适合于计算机解决的问题的翻译思 路,开发出高效、译文质量高的翻译系统。 2 2 相关翻译方法介绍 本文针对工艺语句的特点,提出整体的解决思路。本节先介绍一些已有的翻译方 法,为后文的相互对比分析做个铺垫。 2 2 1 基于规则的机器翻译方法 不管是在欧美,还是在中国,在机器馥译中一直占据主流地位的技术路线一直都 是基于规则的转化法。基于规则的机器翻译( r u l e b a s e dm a c h i n et r a n s l a t i o n ,简 称r b m t ) 是到目前为止最成熟的,应用最广的技术。r b m t 方法把翻译过程看作是一 个在语言学知识引导下的符号变换过程。这种方法要求把有关源语言和目标语言的知 识以计算机可以“看懂”的形式表示出来“。r b m t 系统就是对语言语句的词法、语 义、语法和句法进行分析并进行判断和取舍、然后熏新进行排列组合,最后生成目标 语言“。这一系列过程是使用人工智能的理论建立系统和推理机,模仿人脑翻译的过 程。它通常采取下面的手段:通过语言现象的综合和认识,不断总结其规律,形成自 己的语法和语义规则体系。系统利用这些规则来分折输入的语言,形成一种内部表示。 然后,根据这种内部表示转换成相应的目标语言结构,并形成译文。图卜1 是一个典 型的r b 岍流程: 工艺语言汉英计算机辅助翻译系统关键技术研究 源语言语句i 丁一 百蔟巯 t 一 受童乎皿 l 句法分析) 目标语言语句 t 一 3 向 i 目标语言词串 r 一 孺超矾 源语言结构卜一( r 结构转换 一目标语言结 图卜1 基于规则的机器翻译的一般流程 基于规则的方法在研发展中起了极为重要的作用,但是随着研究者对m t 系统处 理真实文本的不断测试,发现由人工确定的有限规则难以翻译大规模的现实语句例。 但是也有人认为例外情况是另一类语法规律,只是目前还没有找到该规律是什么而已 川 2 2 2 基于实例的机器翻译方法 通常称以类比为特征的的语料库机器翻译方法为基于实例的机器翻译。基于实例 的机器翻译( e x a m p l e b a s e dm a c h i n et r a n s l a t i o n ,简称e b m t ) 根据自然语言处理 中的相似性原理,模仿相似实例的翻译来实现源文的翻译咖1 。基于实例的机器翻译方 法其基本思想是由日本著名的机器翻译专家长尾真( m a k o t on a g a o ) 1 9 8 4 年在他的 论文“af r a m e w o r ko fm e c h a n i c a lt r a n s l a t i o nb ye x a m p l e g u i d e di n f e r e n c eo r m a c h i n et r a n s l a t i o nb ya n a l o g yp r i n c i p l e ”提出的。 长尾真在他的文中认为基于实例的机器翻译的一个基本思路是:人类不通过做深 层语言学分析翻译句子。人类的翻译过程是首先正确分解输入句子,分解成短语碎片, 接着把这些短语碎片译成其它语言短语,最后把这些短语合并成长句。每个短语碎片 采用类比的原则进行翻译。 他的这种观点充分考虑了人类初学外语的基本过程,利用计算机来模拟此过程进 行翻译。他从探讨英语初学者翻译句子的基本过程开始,认为日本人总是首先记忆最 基本的英语句子和对应的日语句子、英语单词及对应的日语词汇,教师并没有将翻译 理论告诉学生,学生靠自己的直觉获得翻译机理,通过记住不同的英语句子和对应的 日语句子,从大量的例子中猜测和对比句子的结构进而完成翻译任务。因而参考人的 翻译过程,计算机也可以运用类比的原则完成翻译,即给定机器翻译系统一些例旬及 对应的译文,系统一定能够根据一定的原则识别所给例旬的相似和差异之处,进而翻 译。具体而言就是。首先把待译的源句子分解成短语碎片,然后通过类比原则将之翻 译成目标语言短语,最后把这些短语合成一个句子,得到最终译文。即这一方法的基 南京航空航天大学硕士学位论文 本原理是:给定系统知识源即双语对照的翻译实例库和双语词典,每当输入一个源语 言句子s 时,系统利用s 和实例库中源语言进行比较,找出其中和s 最尾相似的句子 s ,并模拟s 的译文t 构造s 的译文t ,然后输出。 2 2 3 翻译记忆的方法 人的翻译是在过去经验的基础上进行的,面对新的翻译对象时总是先回忆是否己 经翻译过相同的语句,或者是曾经翻译过非常相似的语句o “。随后将原翻译的有关信 息和翻译知识应用到当前的翻译任务中。翻译记忆( t r a n s l a t i o nm e m o r y ,简称t m ) 技术就是以这个思想为出发点,利用以前的翻译经验为新的翻译任务提供思路和信 息。在实际的翻译过程中我们常常会发现,很多内容都和以前翻译过的相似甚至有相 当一部分是完全相同的。据统计。在翻译同类文章特别是某类文档的不同版本时,记 忆功能非常有用,最多可达到6 0 的内容不需翻译。 为了解决翻译质量的问题,有些人提出了使用译后编辑器编辑机器自动生成的译 文,最终得到准确译文。译后编辑器往往与特定的机器翻译引擎紧密结合,因此在知 识的可视化表示、编辑效率、知识自动获取等操作的人机交互友好性方面存在较大的 困难,译后修改效率比较低,因而实用性较差。随着语料库方法在机器翻泽技术中的 研究突破,人们提出了机助翻译的方法,即计算机辅助翻译方法,其技术核心是t m 技术。 从技术路线上看,t m 技术脱胎于基于实例的机器翻译方法0 1 ,它以双语( 或多语) 标注语料库为基础,通过人机交互实现翻译实例的记忆积累,再通过类比匹配的方法 建立基于记忆的目标译文。由于采用了基于实例的知识表示方法,t m 技术较好地解 决了知识获取的难题。同时t m 技术“并不试图取代翻译人员,而努力成为他们的友 好的助手,避免翻译中的重复劳动,维护翻译的一致性”。在实际应用中,t m 技术 确实在避免重复劳动和维护翻译一致性方面有很好的表现。 t m 技术通常通过三个阶段实现类比翻译处理;( i ) 实例检索,即通过翻译实例 检索机制,经过相似度计算,从翻译实例库里抽取与输入内容最优匹配的翻译实例; ( i i ) 类比映射,即建立输入语句同翻译实例在不同语言单位上的对应关系,这些语 言单位包括字符、单词、短语、子旬甚至句子;( i i i ) 类比转换,即通过译文构造 机制,利用检索得到的最优匹配翻译实例。构造输入语句的译文。 事实上,有些t m 应用提供的解诀方案只执行到第二阶段就不往下处理了,而只 将相似度和对应关系表示出来,从而明确表达出输入内容同翻译记忆源文的差异。并 将翻译记忆的译文直接推荐给用户,由用户进行第三阶段的类比转换处理。这种做法 回避了类比译文构造的困难,因而更容易实现,但也带来了一些不良的影响,例如, 对输入内容构造的译文,只有实现了完全匹配才基本不需要修改译后编辑,而在非完 全匹配的情况下,即使近似程度再高,翻译入员也要对译文进行译后编辑才能达到精 1 3 工艺语言汉英计算机辅助翻译系统关键技术研究 确的水平,这样就导致t m 在辅助翻译中过于机械,近似处理的智能化水平低下,同 t m 所承诺的“减少翻译人员的重复劳动”的原则相悖。 2 3 本文拟采用的翻译方法 通过以上介绍的各种机器翻译方法,结合2 1 节对工艺语句的介绍,我们知道要 想获得高质量的译文,依靠前人对以上几种翻译方法的既得研究成果去实现是很难达 到目的的。本文所研究的翻译理论用于机械制造领域,相对来说是个受限领域。 同一般的翻译系统不同的是,受限领域的翻译系统将自己的研究对象限制在一个 特殊领域内。受限领域的翻译不追求系统能在所有领域获得高质量译文,而只希望在 翻译某一狭窄的专业领域的文本时获得高质量的译文。虽然自然语言是一个无限集, 但是由于各个专业领域的限制,多义消歧和分析变的容易很多。找到一个为机器翻译 所胜任的严格约束的领域,同时其翻译内容和翻译量又是人类翻译者所不为的任务, 是比较理想的机器翻译应用目标。 考虑到目前机器翻译技术的发展,要想让机器翻译系统达到和人工翻译一样的效 果,还必须待以时日。目前的机器翻译对于大规模真实文本还不能实现高质量全自动 的翻译,有人提出了人助自动翻译的设想。人助自动翻译涉及译前编辑、翻译期间的 交互式解决问题以及译后编辑三方面内容。人助自动翻译往往与特定的机器翻译系统 密切相关,因而不仅要求参与人机交互的用户具有较高的语言素质,而且对机器翻译 系统有很好的理解。通过人助自动翻译获得高质量译文的尝试没有取得预期效果。 机助人译,就是以人为中心,计算机在一定程度上辅佐人进行翻译,又叫做计算 机辅助翻译( c o m n u t e r - - a i d e dt r a n s l a t i o n ,简称c a t ) ,它不依赖于计算机的自 动翻译,在具有一定翻译能力的人的参与下完成整个翻译过程。c a t 一般是把翻译记 忆技术作为核心,因为翻译记忆的宗旨和c a t 相一致,t m 技术是将用户所有的翻译 资料都存储在一个或多个翻译记忆库文件里,系统在翻译过程中会自动从翻译记忆库 中打出相同或相似的翻译资源( 如句子、段落) ,给出参考译文,译者只需专注于新内 容的翻译即可。 针对上面分析的这些原因,本文面对机械制造的专业领域决定采用计算机辅助翻 译方法予以解决,其核心为翻译记忆技术。 翻译记忆技术充分利用了人的主观能动性,把机器看成一个辅助翻译的软件,由 人来完成翻译任务。把人工翻译过的句子作为下次翻译的模板,不断的增加例句数量。 在机械制造这个相对受限的领域,目前还没有成功的翻译理论和系统可以帮助解 决问题。分析翻译记忆技术的主要特点,可以看出比较适合本领域的翻译需要,但是 翻译记忆技术有很多环节还需要进行深入的研究,尤其是有针对性的相对于机械制造 领域的研究,比如分词、相似度计算、对齐技术等方面。本文正是致力于翻译记忆的 关键技术研究。 f 4 南京航空航天大学硕士学位论文 2 4 基于翻译记忆的计算机辅助翻译的关键技术 翻译记忆技术可以帮助我们解决很多有针对性的现实问题,尤其是象机械制造领 域工艺文件中的语句,可以减少重复劳动量,统一术语,使翻译风格趋于一致。但是 在机械制造领域还从来没有实现过,而且翻译记忆所涉及的某些关键技术还有待于继 续研究。其实用计算机来处理知识,主要是三个问题。”:一是知识的获取;二是知识 的表示;三是知识的运用,接下来要讨论一些关键技术的研究,就是针对这三个问题, 提出解决办法,这些关键技术的解决将使翻译的全过程流畅,尽量减少瓶颈,提高翻 译的速度和译文质量。 基于翻译记忆的技术重要由如下一些关键技术组成: ( 1 ) 输入中文待翻译句子,根据双语词典进行分词,得到正确的词语切分形式: ( 2 ) 把待译句子的某些特征作为检索条件到例句库中检索出相似或者相同例句, 并且按照相似度的大小选择出最相似的例句,即相似度计算; ( 3 ) 根据一定的对齐理论,对齐待译句子和例句库中的句子,并且对齐例旬库 中文句子的词汇和英文句子的词语; ( 4 ) 利用一定的英语生成理论,生成符合要求的译文; ( 5 ) 根据翻译记忆全过程的需要,度身定做了翻译记忆的相关库。 从翻译记忆技术的理论和实践方式上考虑,本文把工作重点放在了相似度的计算 上,对齐和译文生成使用的方法尽量避免使用概率计算,减少了不准确因素所带来的 影响,针对本文所讨论翻译理论的需要,设计了翻译记忆相关库。 以下简要讨论相似例旬的提取、句子对齐、译文生成和翻译记忆库的设计等本文
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 长春信息技术职业学院《材料科学与工程基础》2025-2026学年期末试卷
- 马鞍山师范高等专科学校《旅游规划原理》2025-2026学年期末试卷
- 长春早期教育职业学院《资产评估》2025-2026学年期末试卷
- 阜阳科技职业学院《比较文学》2025-2026学年期末试卷
- ICU患者饮食护理
- 《龙的传人》教学设计
- 舟桥工岗前实操综合知识考核试卷含答案
- 学校学生行为管理制度
- 二手车经纪人持续改进考核试卷含答案
- 城市轨道交通行车值班员风险识别测试考核试卷含答案
- 南通市医疗机构主要运行指标定期公布工作实施方案
- 四川三江招商集团有限公司2026年3月公开招聘工作人员考试参考试题及答案解析
- 【励志教育】主题班会:《张雪机车夺冠》从山村少年到世界冠军的缔造者【课件】
- 2026重庆酉阳自治县城区学校选聘教职工91人笔试模拟试题及答案解析
- 2026湖北松滋金松投资控股集团有限公司招聘28人笔试备考试题及答案解析
- 2026江苏无锡惠高新运产业招商发展有限公司招聘6人笔试备考题库及答案解析
- T∕CEA 3030-2026 乘运质量等级 第2部分:自动扶梯和 自动人行道
- 医院清明假期安全课件
- 2026年国海证券行测笔试题库
- 湖北省武汉市2026高三下学期3月调研考试化学试题 含答案
- (新教材)2026年部编人教版三年级下册语文 语文园地三 课件
评论
0/150
提交评论