(机械电子工程专业论文)机械制造工艺汉英自动翻译系统的研究.pdf_第1页
(机械电子工程专业论文)机械制造工艺汉英自动翻译系统的研究.pdf_第2页
(机械电子工程专业论文)机械制造工艺汉英自动翻译系统的研究.pdf_第3页
(机械电子工程专业论文)机械制造工艺汉英自动翻译系统的研究.pdf_第4页
(机械电子工程专业论文)机械制造工艺汉英自动翻译系统的研究.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

、 塑皇堕:! 堕丕叁堂塑! :堂丝堕墨 摘要 y 3 7 2 7 3 2 , ( 机械制造_ i i 艺文什的e l 动翻译是制造工业全球化过程中迫切需要解决的删 、 4 题之一了珠文从制造:i :艺语言的特点入手,对工艺语言汉英自动翻泽系统丌发 的棚关问题进行了研究。首先分析和总结了t p 英文工艺语言的特点,深入研究 了,l 一文:i 艺语言语法、语义的分析方法、中英文工艺语言的转换方法和英文工 艺语言的生成方法,并建立了工艺语言描述和运算的数学模型;接着,提出了 一个实门】型:f :艺文件汉英自动翻译系统的功能、总体结构和丌发模式,并初步 探讨了系统的实现方法;最后,结合上述理论,剥成都飞机公司的工艺文件编 制及汉英f j 动翻译系统的结构和实现方法进行了研究。 关键词:全球制造机械制造工艺自动翻译计算语言学 第1 页 一 塑生竺! 塾墨查竺竺! ! 竺竺笙兰 a b s t r a c t a u t o m a t i ct j a 1 1 s l a t i o nf o rm e c l l a l l i c a l t e c h n o l o g y d o c u m e n ti so n eo ft 1 1 e 一【) h i e m st h a tm l l s tb es o l v e dd l i r i n gn l a l l l i f a c t u r i n go nag l o b a ls c a l e b a s e do nt h e c h a r a c t e s c j co fc e c l l n o i o g yl a n g u a g e ,c h ea u t h o rr e s e a r c hs o m ep r o b j e mc o n c e r n e d w i t l lc j 1 i 1 1 e s e 。e n g l 龇a u t o m a t i c1 l a l l s l a t i o ns y s t e mf o rt e c h n o l o g yl a n g u a g e t h i s p a p e ra n a 】y z e sa n d s u n l m ar j z e sl h ec j l a 】a c i e r j s t j co f t e c h n o 】o g yj a l l g u a g e ;j n v e s l j g a l e s t | 1 em e i l l o d so f a 1 1 a l y z i l l gc h i n e s eg r a m m a ra n ds e m a n t i c ,t r a n s f o r m i n gf r o mc h i n e s e i 1 1 t o e n g l i s ha n df o r m i n ge n g l i s h ;e s t a b l i s ht h em a t h e m a t i c sm o d e lo ft e c h n o l o g y l a l l g u a g e t 1 1 ef l l n c t i o n s 、o v e r a l ls t r u c t u r ea n dd e v e i o p i n g p a t t e mo fac h i n e s e e n g i i s l l al l t o m a i i ct r a l l s l a t i o n s y s t e n lf o rt e c h n o l o g yl a n g u a g ea r ea i s op u tf o l _ w a r d a n di f s p m l l a r yr e a j i z a t i o nm e t h o dj sd i s c u s s e d c o m b i n e dw i t ht 1 1 e o “e se i a b o r a t e d a b o v e ,圭h eb a s i cc o n s l r u c t 、f u n c t i o na n dr e a l i z a t i o no rt h ec a p p f c o m p u t e ra i d e d p r o c e s sp i a n n i n g ) a n dc h i n e s e e n g l i s ha u t o m a t i c1 1 a n s l a t i o ns y s t e mf o rc h e n g d u a i r c r ar lc o l l l p a l l ya r ei n t r o d u c e di 1 1t 1 1 ee n d k c y w o i f d :m a 删f a c t u r eo na g l o b a i s c a i e m a c i l i n e r yt e c h n 0 i o g y a u t o n l a t i ct r a n s i a t i o n c o m p u t i n gl i h g u i s t i cs c j e n c e 南京航守航天人学硕f 学位论文 一一一 1 1 引言 第一章绪论 从笫次工、眦声命兴起到口前的2 0 0 多年期i 训,机械制造技术发生了很大 的变化。于机械科学、计算机科学、l b 予科学、材料科学、系统科学和制造 科学的发展,机械制造在近儿i | 年巾已形成向精密化自动化、智能化、分散化 与网络化、敏捷化、全球化发展的趋势。随着制造工业的全球化,以及敏捷制 造、并行工程的发展,不同国度的企业之问的生产合作同益增加,产品制造过 程巾的交流也越来越多,异地设计、异地制造的现象十分普遍。其中产品设计 采用的是全世界通用的图形语言,而工艺文件采用的却是各不相同的文字语言, 这就给:c 艺上的沟通带来很大的不便,工艺文件的翻译成为一个急待解决的问 题。 山r 机械制造巾零件种类多、工艺复杂、并涉及多个专业化车间,造成工 艺文什r l ,词汇量火且专业性强,语句错综复杂、样式繁多,传统的人工翻泽必 须投入人量的人力、物力和则力,不仅投入大,而且周期长,翻泽结果难以保 证一致性,远远满足不了规模化生产的要求,这就必须在翻译技术上革新。制 造工艺谓言的自动翻译( a u t o m a t i ct r a n s l a t i o n ) 应运丽生。 自动翻泽,又叫机器翻译( m a c h i n et r a n s l a t i o n ) ,是指应用计算机进行 不同的语言之问的自动地翻泽。它是建立在语言学、数学和计算技术这三门学 利基础上的一门边缘学科。为了建立一个自动翻译系统,需要解决语言学、数 学和计算技术三方面的问题。 ( i ) 语言学方面的问题在选定的学科领域( 如制造工艺领域) 内,编制 机器词典,确定应该收进词典的各种语法信息:选择语法类型,决定语法分析 的策略并建立机器浯法;进行语义形式化: 作。 ( 2 ) 数学方面的l 题制定翻译过程中各个阶段的算法,制定记录语言 数据以及 己录算法的公式。 ( 3 ) 汁算技术方面的问题制定自动翻译算法的总体结构,建立自动翻 译程序系统,编制实现算法的程序,建立各种类型的服务程序以及人机联作程 序。 第j 页 一 塑窒堕! 些垄查竺竺! :兰些堕兰一 一- 一一 近年来,山7 计算机技术的进步,语言语义学理沧的发展以及人工智能研 究巾自然语言理解模型研究的进展,自动翻译以其速度快,一致性强,操作简 单丽成为当今国际上竟柑研究的热门课题,并被广泛用于各行业和领域。 1 2 自动翻译的国内外研究情况 现代自动翻译的概念起源于1 9 4 7 年。由美国人w a r r e n w e a v e r 首先提出, 然后他和英围人a d b o o t h 将此概念具体化。当时的想法是由计算机做非字 符巾处理,杏宁典和破醑密码。1 9 5 4 年,美国乔治敦大学在国际商用机器公司 ( m ) 的协i 司下,用jb m 一7 0 l 计算机进行世界上第一次自动翻译试验,首次将 俄语泽成英语。由此而来产生了十分乐观的态度。代表思想首推v i c t o r0 s w a l d ( 洛杉矶加州大学) 和s t u a r tlf l e t c h e r ( 美国国家标准局) 于t 9 5 1 年提出 的看法,即“浯法并不象早先想象的那样是自动翻译的克星“。 不过,在以后的十年里,人们真正体会了自动翻译的难度,1 9 6 4 年自动翻 泽的发展受到美国的国家科学委员会自动化语言处理咨淘委员会( a l ) a c ) 的报 告的扼制。话柄就是在自动翻泽界盛传的英俄互译结果“威斯基不错,但肉坏 了”( 原文为”- l h es p ir i t isw i l l i n gb u tt h ef r e s hi sw e a k ”中文为“心有 余而力不足”) 。 但好事与坏事常是相互转换的。自此,自动翻译的研究规模缩小了,但更 深入了,基 i j l 研究与实验相得益彰。美国、俄罗斯、欧共体、日本不断开发出 用趋完善的自动翻译系统,其翻泽的成功率普遍在翻译专业科技文献资料时较 高,而对文学作品的翻译效果不太好。近年来,伴随着i n t e r n e t 席卷全球,网 上社会同样存在语言障碍在阻碍蓿交流。因此,最近几年,面向i n t e r n e t 的自 动翻译格外引人瞩目。 迄今为止自动翻译系统的发展经历了三代: 第一代足以列汇为主的自动翻译系统: 第二代足以语法为主的自动翻泽系统; 第三代是以语义为主的自动翻译系统; 从乔治敦大学自动翻译系统试验到5 0 年代末的系统,基本上属于第一代自 动翻泽系统。这一代自动翻译系统的特点是: ( 1 ) 以词汇转换为巾心,着重研究词的形态,建立双语言词典,很少进行 语法的研究。翻瞬时,输入文句加工的日的在于立即确定原语中的各个词在译 第2 页 塑塞堕! 塾墨查兰堕:! :堂些笙兰 一一 语巾的棚应的等价物。因此,在这种系统中,只有形态分析是引测原语一种语 言的,其他的各利- 研究都是针列双语言的。这样一来,自动翻译过程就只包括 原语形态分析、双语言词汇转换、译语形态生成三个阶段。 ( 2 ) 存自动翻译,j | 如果原语的一个词对应于译语的若干个词,自动翻译 系统本身,i :不能决定应选择哪一个,而只把可能的选择全都输出来。 ( 3 ) 语言与程序不分,语法规则与程序的算法混在一起,算法就是规则。 语法规则通常以操作指令的形式来拙述剥翻译利料应做什么样的动作。这种以 操作指令n 0 形式把语法规则公式化的办法,显然不能把语法与算法分7 r 。 山 1 第一代自动翻泽系统的上述特点,它的泽文质量是极为低劣的,并且, 设计这样的系统是一种卜分繁琐的工作,往往使人望而生畏,系统设计成之后 没有扩展的余地,修改时牵一发而动全身,给系统改进造成极大的困难。英国 柏克培克学院利用 r e x c 计算机进行试验的法英自动翻译系统( 1 9 5 5 年) ;同本 东京i | = i r 实验室利用世界上第一台翻译专用机进行试验的英同自动翻译系统 ( 19 5 9 年) i | i 属j 二第一代自动翻泽系统。 因为原语和泽语两利,语言的差异,不仅只表现于词汇的不同上,看来还更 多地表现在语法结构的不同上,为了得到可读的译文,必须在语法分析方面多 f 功夫,丁j 是,出现了以语法分析为主的第二代自动翻译系统。 6 0 年代以来建立的自动翻泽系统绝大部分是第二代自动翻译系统。它们可 分为三个阶段来进行: ( 1 ) 用代码化的结构标志来表示原语文句的结构; ( 2 ) 把原语的结构标志转换为泽语的结构标志: ( 3 ) 构成泽语的输出文句。 第阶段只涉及原语,不受译语的影响,第三阶段只涉及译语,不受原语 的影响,只是在第二阶段才涉及到原语与译语二者。在第一阶段,除了作原语 形态分析之外,还要进行原语的语法分析,才能把原语文句的结构表示为代码 化的结构标志。在第二阶段,除了进行原语泽语的词汇转换之外,还要作原语 汗语的结构转换,才能把原语的结构标志变成译语的结构标志。在第三阶段, 除了作译语的形态生成外,还要作译语的语法生成,才能正确输出译语的文句。 可见,为了建立第二代自动翻译系统,必须把语法的研究放在第一位。为 此,学者们提出了不少语法分析方法,如结构格式分析法,树形图分析法等等, 在语言的e i 动语法分析方面取得不少的成绩。 第3 页 南京航守航天火学枷! 1 学位论文 在第二代自动翻泽系统中,对于多义词必须进行专门的处理,根据上下文 选择a 当的词义,不容许把若干个译文词一揽予列出来。第二代自动翻译系 统的另一个特点是语法与算法分丌,在一定的条件之下,使语法处于一定类别 的界限之内,使语法能由给定的算法来计算,并可由这种给定的算法描写为相 应的公式,从而不改变算法也能作语法的变换,这样,语法的编写和修改就可 以不考虑算法。 第二代闩动翻泽系统不论在译文的质量还是在使用的方便上,都比第一代 自动釉译系统大大地前进了一步。国际上著名的机器翻译系统s y s t r a n 系统和 m e t e o 系统部属于第二代自动翻译系统。美国的s y s t r a n 系统是p t o m a 在乔治 敦大学机器翻译系统的基础上进一步开发的大型商业化机器翻译系统,先后提 供给美国空军和欧洲原子能机构进行俄英机器翻译,提供给美国拉特塞克 ( 1 ,a t s e c ) 公司进行俄英、英俄、德英、英德、汉英机器翻译,是目前应用最 为广泛、所j 1 :发的语种最为丰富的一个实用化机器翻译系统;加拿大蒙特利尔 大学和加拿大联邦政府翻译局1 9 7 6 年联合研制的t a u m m e t e 0 英法自动翻译系 统能进行天气预报资料的自动翻译,是第二代自动翻译系统中一个成功的实用 系统。 近年来,自动翻译的研究者们认识到,自动翻译中必须保持原语和泽语在 语义上的一致。也就是说,一个好的自动翻泽系统应该把原语的语义准确无误 地在驿语小表现出来。因此,提出了以语义为主的自动翻译,这就是第三代自 动翻泽系统。 引入语义这个平面之后,就要求在语言描写方面作一些实质性的改变。因 为在以语法为主的自动翻译系统中,最小的翻译单位是词,最大的翻译单位是 单个的句予,自动翻泽的算法只考虑剥一个句子的自动加工,而不考虑分属不 同句予的涮与词之问的联系。第三代自动翻泽系统必须超出句子范围来考虑问 题,必须研究最小的语义单位一义素,建立起这些义素形成的更大的单位一词、 同组、句子、句段、文章所形成的层级体系。这样,自动翻译的研究范围也 就山“词一句予”扩大到“义素一文章”了。 美囤斯坦福大学y w i l k s 建立的英法自动翻译系统是以语义为主的,能 输出质量较高译文,并能解决歧义和代词所指等困难问题,是第三代自动翻译系 统的代表。大量采用人工智能技术处理语义和上下文信息的“面向人工智能的 自动翻泽”可能是今后自动翻泽的发展方向。 第4 页 一堕室竺宝堕墨查竺竺兰竺垡堡苎 _ h j - 一 我国作为世界上第四个丌展自动翻译研究工作的国家,自5 0 年代以来,在 外汉一汉外自动翻译的研究丌发上进行了大量的研究试验。这些试验大多采用 国外的自动翻译新理沦,并结合汉语实际特点进行创造性的研究,提出了一些 富有特色的自动语法、语义分析方法,取得了令人满意的成果。其中外汉自动 翻译系统,特别是英汉自动翻译系统的研制已经取得了较大的成功,达到了初 步实用的阶段。 我国外汉机器翻译系统中较成功的代表有中国软件技术公司于1 9 8 8 年研制 的“汗星号”英汉自动翻译系统,它是我国第个商品化的自动翻译系统; 中固科学院计算技术研究所于1 9 9 2 年研制成的智能型英汉机器翻译系统8 6 3 一 im r e c ,通过键盘输入英文,即可在计算机屏幕上显示中文译文,平均每旬翻 译时问为5 秒种;黑龙江大学机器翻译研究所1 9 9 6 年开发成功的“全译通俄汉 电脑翻译系统”,可对科技、经贸等俄文书刊、资料、文件逐句进行自动翻译, 翻译准确率达8 0 ,翻译速度达1 2 0 0 词小时:高立公司丁| 发的英汉自动翻译 系统,包括石化版、医学版、机械版、建筑版、计算机版和无线电子版,可以 进行自然科学多个领域的英汉自动翻译,其英汉翻译水平目前居世界领先水平。 然而汉外自动翻译的研究却由于汉语语法分析的特点与困难而进展缓慢, 离实用化还有相当的距离。1 9 8 1 年,我国学者冯志伟在法国格勒诺稻尔大学进 行的汉法英日俄德自动翻译试验,建立了f a j r a 系统,这是我国学者 设计的第一个汉译外的多语言自动翻译系统。该系统在进行汉语分析、汉语一 外语问多种浯言的转换、多种外语的生成时提出了多标记多叉树形图分析法。 目自口国内汉英自动翻译系统主要分为三大类:词典、汉化翻译集成环境、 专业翻译系统。词典占主导地位的是金山词霸,是多快好省的电子词典,它 可以迅速查询中文或英文单词或词组的词义,并提供单词的发音,解决了用户 了解单词或词组含义的问题;汉化翻译集成环境的典型代表是东方快车,为 不会英语或英语水平不高的人提供了全面解决方案,包括内码转换和电子词典, 比较好地解决了英文软件的汉化、西文网页内容的了解、屏幕英文信息的了解, 文章初步翻泽等,刺 二信息获取、了解原文大意已经达到实用的程度:面对专 业用户的专业翻泽软件,就是以译星为代表的专业翻译系统,这类软件目前主 要以传统语法舰则为基础,至今一直以自动翻泽效果为努力的方向。较成功的 有中国软件技术公司1 9 9 3 年开发的汉英一汉日自动翻译系统s j n o t r a n s ,具 有汉语译同的自动切分、当前词的词性确定、词组的自动生成、汉语语法树自 第5 页 塑塞堕! 堕奎查兰竺! :羔些堕兰 动t j ! 成、汉语和外语的转换和外语的自动生成等功能,汉英翻译速度1 7 6 词分, 可憎度为7 1 ,汉f i 翻译速度2 0 l 词分,可懂度7 0 5 。另外市面上流行的还 有朗威、雅信泽霸和通译涉及通信自动化、计算机、汽车、医学、建筑等自然 利学领域的汉英机器翻译系统,这些汉英翻译系统都是以语法树的生成和转换 为基础,普遍翻译效果不是很理想,离系统实用化还有一定距离。 1 3 论文研究目标与研究内容 1 3 1 论文研究目标和研究内容 在我国,航空企业的国内外合作十分频繁,异地设计、异地制造的现象非 常普遍。如美国波音公司与中国航空企业合作进行的项目,基本上是在美国设 计飞机,而在中国进行飞机部件的制造;南昌飞机公司和埃及航空企业的合作 项目等等。由于航空制造中零件种类多,制造工艺复杂,造成了飞机制造工艺 语言复杂,样式繁多,专业词汇量大,所以航空制造中的工艺文件的自动翻译 更是一个迫切需要解决的问题。而针对机械制造工艺语言的自动翻译在国内自 动翻泽领域尚属空白。 成都飞机工业公司作为国内主要的飞机制造企业,与国外存在广泛的合作关 系,这不仅需要大量的工艺文件的编制,还需要大量的对生产工艺文件的翻译 工作。目前,成飞公司正与巴基斯坦合作研制超七飞机。根据合作协议,在飞 机研制工作完成后,中方须向巴方提交所有英文的技术资料,包括英文的制造 工艺文件。据估计,工艺文件约有2 0 万张标准页,从翻译、校对、描制、晒蓝 到形成正式英文版的工艺文件须将近一年的时间。人工翻译不仅速度慢,对人 的要求较高,同时也难以保证翻译的一致性,难以满足进度要求。为此,开发 飞机 艺文件编制及汉英自动翻译系统。 本文拟就工艺文件的汉英自动翻译方法与系统进行研究,研究内容包括: ( 1 ) :l 艺微词典( m i c r o d i c t i o n a r y ) 的建立。由于中文工艺文件中的词 汇有限,单词的歧义较少,可编制局限于工艺文件中所用词汇的微词 典。 ( 2 ) 巾文工艺语言的语法和语义分析。在汉语分析过程中采用以语法分析 为主,以逻辑语义分析为辅的原则,并根据工艺语言的特点,选择合 适的语法和语义分析方法。 第6 页 渐康航牛航k 大学顺i 学位论义 一 ( 3 ) 建立工艺语言描述和运算的数学模型。 ( 4 ) 一个完整的工艺文件汉英自动翻译系统的功能和总体框架,以及该系 统各模块的组成和实现。 在进行理论研究的基础上,应用上述理论与算法,结合成飞公司的实际情 况,丌发了适用于成飞飞机制造工艺的翻泽系统,该系统生成零件工艺文件后, 进行工艺文件的自动翻译,并给出相应的英译文。系统是以语法分析为主并 辅以逻辑语义分析的介于第二代和第三代之问的自动翻泽系统,系统与工艺文 件编制系统( c a p p ) 实现了集成。 1 3 2 论文的结构 本论文共分七章,各章的主要内容如下: 第一章绪论。本章主要介绍了全球制造技术对工艺文件中英文自动翻译 的需求,以及自动翻译领域国内外的研究情况。阐明了本论文研究的目 的和研究的主要内容。 第二章工艺语言汉英自动翻译的特点。介绍了自动翻译的过程和汉英自 动翻泽的特点,总结提出了机械制造工艺语言的特点。 第三章工艺语言的语法分析。讨论了自动翻译中语法分析的各种理论和 方法,重点介绍了用于工艺语言的树形图分析法和对工艺语言的语法分 析过程。 第四章工艺语言的语义分析。研究了工艺语言的歧义现象,讨论了自动 翻译中的逻辑语义分析方法,重点介绍了工艺语言的逻辑语义分析。 第五章工艺语言描述和运算模型。建立了工艺语言描述和运算的数学模 型。 第六章工艺语言汉英自动翻译系统研究。讨论了一个用于工艺语言的实 用的汉英自动翻译系统总体结构及实现方法的研究。 第七章工艺文件编制及汉英自动翻译系统的研究与开发。结合以上的自 动翻译系统的理论和实践,讨论了成飞公司的超七飞机工艺文件编制及 汉英自动翻泽系统的实现方法。 第八章结沦。概括了本文中的新思想和取得的成果,并对论文进一步的 研究作了简要介绍。 第7 页 南京航空航天大学硕士学位论文 第二章工艺语言与汉英自动翻译的特点 2 1 自动翻译的过程 自动翻译是在模拟人的翻译过程的基础上进行的。人翻译书面文章的过程 大致可以分为五步:( 1 ) 阅读原文;( 2 ) 识别单词和分析句子:( 3 ) 找出原文 译文的对应关系:( 4 ) 确定恰当的译法;( 5 ) 写出译文。自动翻译的过程与人 翻译二扣面文章的过程相似,也可以分为五步: ( 1 ) 原文输入 ( 2 ) 原文分析当计算机“见”到一句话后,先查词典,得出词的意义、 词的形态特征等,然后,进行语法分析。 ( 3 ) 原文译文转换把原文词转换成译文词,并针对译文的特点,转换 原文的语法结构。 ( 4 ) 泽文生成根据译文的特殊要求安排词序,组成译文。 ( 5 ) 译文输出 这两中翻译过程的比较见表2 1 。 表2 1两种翻译过程比较 人翻泽| 5 面文章的过程自动翻译的过程 1 阅读原文原文输入 2 识别单词平分析句子原文分析 3 找出原文译文的对应原文译文转换 4 确定恰当的译法译文生成 5 写山译文译文输出 如果撇丌原文译文输入输出不淡,那么,整个自动翻译的过程就可分为原 文分析、原文译文转换和译文生成三个阶段。我们可以把原文分析、原文译文 转换与译文生成分别独立开来,建立独立分析独立生成系统。在这样的系统中, 在分析原语时不考虑译语的特点,在生成译语时也不考虑原语的特点,原语译 语的差异通过原文泽文转换来解决。根据这种独立分析独立生成的原则,一个 完整的自动硼泽过程可分为如下六个步骤: 第s 页 一一 塑窒苎! 竺至查竺竺= ! ! 竺竺堕兰 , _十_-_-_-_-_一 1 ) 原语形态分析; 2 ) 原语语法、语义分析; 3 ) 原浯译浯词汇转换; 4 ) 原语译语结构转换; 5 ) 泽语语法生成; 6 ) 译语形态生成。 2 2 汉英自动翻译的特点 汉英自动翻译的关键是汉语分析,但一直以来,汉语的语法分析只是在英 语的模式中换上汉语,因此,谈汉语的语法分析基本上等于谈英语的语法分析。 其实虽然汉语和英语同属分析型语言,然而在很多方面不同于英语。汉语语法 分析有其特点: ”汉语句了二的词和词之间没有空白间隔,所以语法分析的第一步必须进行词 语的自动切分。 2 ) 由丁 汉语没有形态变化,同形歧义现象很多。 3 ) 由于汉语动词没有性、数、格、日_ j 态的形态变化,所以当有多个动词同h - j 存在于一个甸子中时,需要确定哪一个是谓语动词( 主动词) 。 4 ) 由于汉语没有定冠词,所以当两个名词相邻时要判断它们是个名词词组, 还是两个不属于同一个语法功能成分的名词。 5 ) 山于上而的原因,一个词类序列( 语法形式) 可以有几种语法合理的结构, 所以不能简单地用语法规则归约。 因此,汉语的语法分析必须根据汉语的语法特点。曾经有人说过“世界上 形式变化最多的是法语,形式变化最少的是汉语。”可见汉语的语法分析比印欧 语系的语言要困难的多。处理以上问题我们采用了专门用于汉语语法分析的属 性制约文法和汉语完全语法树( i t r e e ) 。 在接下来的汉英转换过程中,因为不同类型的差别将导致与其相对应的不 同方式的转换,差别决定了转换方式。所以,首先要分析汉英书面语问的差别。 显然,汉英之问有二降写形式上的差别。英文是由字母组成的拼音文字,汉 语足山方块字组成的形、声、意相结合的文字。如:汉语的“零件”对应为英 第9 页 南京航空航天大学坝【学位论文 一一 语的p a r l ( 以下表示为零件p a n ) 。这一转换相对而言是容易实现的a 只需建立诸如零件p a r t 、机器m a c h i n e 这样的词典,即可通过查 词典完成词的转换。 在语法规则上,汉英之间在词法和语法方面均有不同。这类差别是汉英机 泽中的一个主要困难。在这点上,人和机器所面i 涵的情况是一致的。当然在 解决问题的能力上是大不相同的。 首先,这一差别表现为词序和结构的不同,如:按简图在7 l 口车削螺纹。 ,r u r n in gt h et h r e a do nt h ep o r t h o l ea c c o r d i n gt ot h es i m p l ed r a w i n g s ( 加工螺纹在孔口按简图。) 这种倒序现象在汉英翻泽中是很常见的。不解决词 序和结构的转换就会造成语法错误,甚至导致语义上的误解或歧义。除了词序 和结构纳不同外,汉语相对于英语还有一些多余的成分,如汉语中的结构助词 ( 的、地、得) 、动词后助词( 着,了,过) 、动词前助词( 把) 和时阃副词( 已 经,j f 在,将) 、量词等等,在翻译成英语时需要抹去。汉语、英语的语法树是 解决这两个问题的一个简便方法。语法树的i r 予由词类( 如:名词、动词、形 容词等) 组成,于是词序的转换与叶子顺序的转换是等价的,同时也可以摘掉 i l i 了:,即把i l | 予代表的汉语词抹去。结构的转换经过一定的处理出可转化为叶 了之间的转换,因此若用计算机将一句话的词正确地分类后填入相应的叶子中, 转换的过程就有法可依了。 其次,英语同一词在不同语境中有分辨词类、口_ j 态和单复数的形态变化。 在汉语巾,同一词虽常可以具有多种词类( 兼类) ,但无形态表现。即英语属形 态较发达的语言,而汉语是少形态变化的语言。这也是汉泽英中一大困难。如: 零件的加工( 名词) t h em a c h i n i n go ft h ep a r t 加工( 动词) 零件t om a c h i n et h ep a r t 正在车削( 现在时) t ob et u r n i n g 车削过( 现在完成时) t oh a v et u r n e d 不进行这样的转换就不能确切地表达原语言句子的含义,同时也会产生语 法错误。为了实现这一转换,自然地要求剥汉语句子中的词进行词的分类以产 生转换信息。 第1 0 页 堕壅堕窒堕丕叁:| ! 堡上兰笪堡苎。,一 2 3 工艺语言的特点 汉语1 :艺语言除了具有上面所提到的汉语语法分析的特点外,在词汇和句 型上有其自己的特点。 在词汇上,首先由于采用的是工艺微词典,词典中所记载的词汇都是用于 制造:i :艺的号业词汇,所以自动切词时基本不会产生歧义。其次,为了更好地 实现翻译自动化,词的合理分类是关键。在语言学上,通常把词分为实词、虚 嗣两大类,实词即意义比较具体的词,包括名词、动词、形容词、数词、量词 和代词:虚词即不能单独成句,意义比较抽象,有助于造句的词,包括副词、 介词、连词、助词、叹词、拟声词。根据工艺语言的特点,我们将词分为以下 儿类: 名词代表抽象的或具体的事物或概念的词,包括代词; 动词陈述人或事物的动作、情况或变化的词; 形容词修饰或限定名词的形状、性质或状态的词; 数量词表明人、事物或动作的数目和单位的词; 副词所有修饰或限定动词或形容词的范围、程度、时间、频率、语气、 情貌等的词。可以有实际意义,已不全属于虚词; 介词引出修饰或限定名词或短语的标志词; 搭配词标志介词的引出部分的结束的词; 时念助涮帮助标识动词的时态和句子的语气的词; 结构助词帮助造句的词,包括“的”、“得”等; 连词一一连接词与短语的词,包括“和”、“或”等。 如此定义的原因有以下六点: 1 ) 由于工艺文件中较少出现代词,加上名词和代词在汉英翻译过程中所遵从 的语法舰则基本上是一致的,因此将名词和代词合并为一类。 2 ) 表示单数概念的量词对可数名词而言是汉语所特有的,英文只表现为数词。 剥不可数名词,英文虽也有相当量词的概念,但实际上与汉语的联系甚微。 如:“一张图纸”和“一件夹具”中的“一张”和“一件”都对应为“ap i e c e o f ”。表示复数概念的量词,如:“打”、“堆”、“捆”等,一般可用于限定 多种名嗣。此类量词也要与数词复合后才能完成词的转换。由此可见,量 词和数嗣的分离剥下翻译帮助不大,反而会给词的分类带来不必要的麻烦, 第1 1 页 南京航窄航天人学坝i + 学位论文 一一 凶此将量词与数词合称为数量词。 3 ) 于我们仅研究工艺文件中简单陈述句的词的自动定类,叹词和拟声词一 般不会出现,所以在分类中略去。 4 ) 介宾结构在工艺文件中经常出现,它常由介词带上动词短语或含动词的名 词短语组成。这个短语被独立出来后常可成为一个完整的句子。如:“在加 : 零什的时候”中“加工零件”这个短语可以当作子句拿出来独立分析。 因此,定出介词“在”和其搭配词“h i j 候”有助于对工艺文件的分析。我 们将搭配词单列一类添加在词的分类中言,搭配词就是介宾短语的典型的 结尾用词,通常是名词中的方位词,然而不是每个介宾短语中都有搭配词。 5 ) 在: 艺文件的翻译过程中,对时态助词、结构助词的处理都有较大差别。 时态助词在翻译时直接与其后的动词结合。如:“可能完成一m a y f jn is h ”。结构助词“的”常用= j 二取消句子的独立性,在翻译是往往使其前 而的动词被当作分词或是句子来处理。因为,工艺规程中的句子大多为陈 述旬,所以可以不考虑语气助词。因此,将各种助词分为时态助词和结构 助词两类。 6 ) 在上述分类中对保留下来的词类名称的外延也做了若干变动,以便于转换。 其中,需要特别提出的是: a 在汉语中,副词的个数是有限的。有的形容词加“地”后虽可用来修 饰和限定动词,但认定词类不便。在英语中,没有“地”字,而通常 要采用不很规则的形态变化。所以,我们在分类时,就把这些形容词 的词类直接归为副词,以利转换。 b 在翻译复句时,当将连接句子的连词译成英文后,句中的其它部分即 被拆为两个独立的单句来处理。因此我们将连词定为连接词与短语的 词。 总之,我们在分类时,既根据汉语语言学的理论,又充分考虑到工艺语言 的特点。每利,类型的词还可以取子值,如: 1 ) 名词次类:一般名词、专用名词、人称代词、物主代词、关系代词 2 ) 动词次类:情态动词、连系动词、助动词、一般动词 3 ) 词组类型:名词词组、形容词词组、前置词词组、后置词词组、动词句、从 句、数屉词组 4 ) 数:单数、复数 第1 2 页 南京航卒航天人学顺i 。学位论文 5 ) 寸态:现在时、过去时、将来时 但足由于汉语没有形态变化的特点,即使将词合理分类后,在工艺文件中 还是会j 。 j 现同形歧义现象,如表2 2 所示。 表2 2同形歧义现象 序号同形词例句 1名词与动词同形零件的加工加工外圆 2 形容词和方位副词同形内螺纹在夹具内 3介词和连词同形和模具样板夕 圆和端面 为了解决这些同形歧义现象,需要制定相应的消除兼类的规则库。 在句型上,工艺文r f :中采用的语句基本为陈述句。而汉语中任何陈述句的 结构都是山六个成分依次组成的:( 定语) + 主语+ ( 状语) + 谓语+ ( 补语) + 宾 语,在一个句子中,这六个成分可能有所省略。通过对机械制造工艺文件中汉 语语句的分析,我们大概可以归纳出如表2 3 几种基本句型 表23工艺语句的基本句型 序号基本句型例句 l( 状语+ ) 谓语 按简图加工。 2 谓语+ 宾语磨削零件。 3( 状语+ ) 谓语十宾语 按兰图车削外圆和端面。 4塄语+ ( 定语+ ) 宾语 检查零件的合格检印。 5 ( 定语+ ) 主语+ 谓语+ 宾语对合处的间隙不小于0 5 。 6 主语+ 谓语+ ( 定语+ ) 宾语接头是特别重要的零件。 7 “把”( “将”) 字句把缝焊好的汕箱置于入置架上。 8 “被”字句出汕口被油塞堵上。 9 省略介词旬( 用) 虎钳夹紧零件。 l o 被动句在端头四个压紧器要压紧。 l l 兼语式保证尺寸不超过要求。 1 2 复合句先将链带与链带环节装好,而后用链 带环节组成链条,再装链条并收紧。 第1 3 页 塑皇竺! 竺墨查堂竺土兰些堡兰 一第三章工艺语言的语法分析 3 1 自动语法分析方法 3 1 1 树形图分析法 第二代自动翻泽系统c i ,提出了许多自动语法分析方法,如结构格式分析法、 预示分析法、树形图分析法、从属分析法、中介成分分析法、支点分析法等等。 其中以捌形图分析法应用最广。 语高t | 1 的任何一个句子都隐藏着一个树形图。例如,句子“接头是特别重 要的零件”q ,隐藏的树形图如图3 一l 。 ,s n i ,1 v r i n l ” ”陕 l i 接头 是 a 币p 3 l 特别 a p 图3 1 句子的树形图 a d j i 重要 p a r t l 的 n 2 f 零件 这个捌形图中,s 表示句子,n p 表示名词词组,v p 表示动词词组, p 表示 形容词词组,n 表示名词,v 表示动词,a d j 表示形容词,a d v 表示副词,p a r 1 、 表示助动嗣。它们都是标记。 j c ! i 形图l u 结和连接结的枝组成。每一个结有一个标记,其中,有的标记是 表示词组类型或词类的,如s 、n p 、v p 、v 、n 等,它们不出现在具体的句子巾, 第1 4 页 南京航守航天大学硕一i 学位沦义 称之为一 :终极标记:有的标记足表示语言叫1 具体的词的,如“接头”、“重要”、 “的”等,它们能山现在具体的句予中,称之为终极标记。 树形图小各个结点之间,有两种关系值得注意:一种是支配关系,一利t 是前 于关系。如果在树形图中从结x 到结y 有一系列的枝把它们连接起来,而且从 x 到y 的所有的枝有着同一方向,那么,我们就说结x 支配结y 。例如,图3 1 巾,标有n p l 的结支配标有n l 的结。当x 支配y 时,y 就叫做x 的后裔 ( d e s c e n d a n t s ) 。 如j 果结x 与结y 是相异的,x 支配y ,而且x 与y 之间没有另一个相异的结, 那么就说,x 直接支配y 。在图3 一l 中,标有v p 的结直接支配标有v 的结,但 不直接支配标有a d v 的结。当结x 直接支配结y 时,结y 就叫做x 的直接后裔 或儿子。被同一个结直接支配的相异的结,叫做兄弟。在图3 1 中,a l 和n 2 被同一个结n p 3 支配,结a p 和结n 2 是兄弟。支配关系中不被任何其它的结支 配的结,叫做根。在图中,标有s 的结就是根。被其他结支配而不支配其他结 的结,叫做叶。图中,标有终极标记“接头”、“是”等的那些都是叶。一般来 说,倒形图是从上到下画出的,所以,根总是在项部,叶总是在底部。 树形图t f ,的两个结,只有当它们之间没有支配关系的时候,才能在从左到 右的方向一l :排序。这时,这两个结之问,就存在前于关系,左边的结前于右边 的结。在图的倒形图中,结a d v 矛结n p 3 就是前于关系。也就是说,在树形图 中,如果两个结x 与y 之间存在前于关系,那么,x 与y 之间必定不能存在支 配关系。并日,如果x 前于y ,则山x 支配的所有的结都前于由y 支配的所有 结。 根据树形图的这些綦本性质,我们从树形图上可以看出,一个树形图可以 向我们提供如下三个方面的语法信息: 第一,句子巾各个词的顺序:我们从丰剥形图上可以看出,按从左到右的前 于关系排列起来,便得到了该树形图所表示的句子的词序。在图中,把树形图 的备个从左到右的前于关系排列起来,便得到了“铝是一种重要的金属”这样 的词序。显而易见,这些叶之间是不存在支配关系的。 第二,句子的层次:一个结的直接后裔,就构成了这个结的直接成分,这 样,在捌形图中,根据结之间的直接支配关系,便可以看出句子的层次关系。 例如,在图3l 的树形图中,s 的直接后裔是左边的结n p l 与结v p ,这样,左 边的结n p l 与结v l ,便构成了结s 的直接成分;结v ) 的直接后裔是结v 和右边 第1 5 页 的结n i ,2 ,则结v 与右边的结n f ) 2 边构成了结v p 的直接成分;等等。可见,树 形图形象地表示了句子在空间上的层次关系。 第三,词组信息和词类信息:在树形图中,每一个结有一个相应的标记, 结与标记之问的这种列应,可用标记函数l 来表示。函数l 可写为: l ( x ) = y 。 其巾,x 表示结,y 表示结x 相应的标记。显然,在图3 一l 的树形图中,标记函 数l 是一个单值函数,这利一树形图是一种单标记桕j 形图。由于这种单标记树形 图的每一个结点只有一个标记,它表示的语法信息是有限的。如果在有关结点 上标卜旬予成分( 主、谓、宾等) 的信息后,就不能再标上词类和词组类型的 情息,至于逻辑关系、语义关系等信息,就更不可能标示出来了。 可见,i 割3l - ”的这种单标记树形图,在表示句子的语法信息方面,有着 很大的局限性。为此我们采用多值标记函数的概念。 多值标i 己函数可定义如下: f ” i y 2 l l ( x ) = 1 1 i 1 l v : j 采用这样的函数,树形图中的一个结x ,不再仅仅对应于一个标记,而是 对应于若干个标记( y 1 ,y 2 ,y n ) 。在同一结点上采用多个标记,便大大提 高了树形图的标记功能,使得树形图各个结上,都能 己录尽可能多的语法信息。 例如,我们取y l 为词类信息和词组类型信息,如x 为单叉结点,即x 下 面没有分叉,则取词类信息,如x 为多叉结点,则取词组类型信息:y 2 为语法 功能信息,取句子成分为其值;y 3 为逻辑关系信息,如施事者、受事者、属于 关系、相等关系等;y 4 为语义关系信息,如原因、结果、工具、时间、空问等; y 5 为有关结点的其它语法信息。这样,我们就可以在一个结点上,标出与该结 点有关的若于个信息,提高了结点的标示功能。 在书目形图的几何形状方面,根据汉语的语法形式特点,我们采用多叉树。 采j h 多叉丰对比传统的二叉树可以更加合理地解释语言现象,更清楚地把句子的 格局届示来,以及可以在编制程序州减少程序量。 第1 6 页 南京航窄航天大学硕l 。学位论文 这样,舀! 运j j 树形图分析法来进行自动翻译的时候,我们采用多标记多叉 树形图分析法。采用多标记多叉树形图分析法来分析“接头是特别重要的零件” 这个句了,可以得到如图3 2 的多标记多叉树形图。 重要的 图3 2 多标记多叉树形图 荨 零件 在这个捌形图的标记中,有许多“ 号,我们还不能决定其值究竟应标记 为什么,这j f 是我们在语言研究中没有研究清楚的未知的东西。这说明了,这 种多标记多叉树形图不仅能表示我们已知的各种语法信息,而且,还为我们研 究l :多未知的语法信息提供了余地,这充分显示了这种多标记多叉树形图在汜 录语言信息方而有着巨大的潜力。 语言1 ,的甸子表面看来是山前后相续的词线性排列而成的,实际上,句子 并不是一个简肾的线性符号串,而是一个非线性的多层次的树形结构。因此, 第1 7 页 南京航宁航天大学坝i + 学位沦文 自动翻译过程也就足对原语的链生成树形图,将原语泽语句予结构的树形图进 行转换,最后根据泽语的树形图输出译语的链。见图3 3 。 原语形态分析i 一一。一 ,。一, 原语语法分析f 一_ 1 一。 ,一 、 结构转换 一f 一 泽语语法生成i l 节 一一 泽语形态生成| 图33树形图转换 3 2 2 其它语法分析方法 ( 1 ) 结构格式分析法 所谓结构格式分析法,就是首先根据词的分稍状态把词分成若干类别,然 后根捌所分出来的这些词的类别确定词组类型,把语言的各个词组类型构成一 份词组类型清单。在进行自动翻译时,首先借助于机器词

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论