




已阅读5页,还剩5页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
面向中文学术专著的机器辅助翻译研究第一章 引言1.1 课题的提出日本英文版的科技论著已占相当大的比重。可以说日本的科学技术发展较快,与出版界注意信息的国际性和利用英文出版物把日本的科学界直接推向了国际大舞台不无关系。我国有着一批世界级的优秀科学家,在许多科学领域在国际上有一定的地位,甚至是领先地位。我们多出一些优质的英文版专著,可以将中国的科学技术事业推向世界。同时英文版专著的增加乃至普及则可能使我国的科技人员进一步提高英语水平,全面进入世界科技信息前沿,充分吸收借鉴国际上先进的科技成果,从而促进我国的科学技术进步。同时又形成良性循环,进一步促进我国科技专著的英语化和走向国际市场,全面促进提高全民族的文化素质,使我们真正在科学上树立起我国应该有的国际威信。从一个较小的视角,探索机器辅助翻译的发展方向及相关研究工作的任务。本研究同时也是一个实例:在自然语言处理领域,把现实的需求和现有的技术有效的结合起来。专著的情况(期刊网专著),专著翻译的情况专著版本更新面向人的翻译过程是怎样的(相关研究)机器辅助的翻译过程又是怎样的(为什么有这个必要?)哪些东西是可以利用的?现有的技术;翻译策略限制领域 + 人机协作针对一个小范围的用户,但开发方法可以在较短时间内适应到一个新的应用范围。专著(Monograph),是指著作者针对某一问题进行深入研究后撰写的、具有较高学术水平和一定创造性的专门著作。本文的主要目标是针对中文科技专著的机器辅助翻译(Computer Aided Translation)这一过程,系统地研究其中的要素(即做什么和由谁来做)和行为(即按什么顺序做和怎么做),为其建立一个模型,从而使翻译人员和计算机的劳动在该过程中实现最优的结合,合理地安排翻译过程的每个环节,有效地利用各项翻译资源,以机助人译的方式提高翻译人员的工作效率和工作质量。围绕机器辅助翻译和科技专著的语言特点,本文的汉英对比研究拟从两种语言在被动表述问题上的差异着手,为机器辅助翻译系统中的翻译记忆模块提供支持。本文需要关注的要点分别是机器辅助翻译、科技专著、汉英对比。选题的定位主要出于以下考虑:一,随着我国科研水平的提高以及国际合作与交流的加强,中文专著的“出口”需求日益增大。这种工作量极大、质量要求又相当高的翻译任务亟需一种有效的解决方案。二,全自动高质量的机器翻译在可预见的将来尚不能实现,这已成为一个不争的事实。然而,自然语言处理技术仍在不断地向前发展,新成果层出不穷,对已有研究成果的合理利用是我们迈向全自动高质量机器翻译这一最终目标的必经之路。机器辅助翻译为现有的技术提供了一个很好的应用场景,它既能保证翻译质量又能提高工作效率。三,不同领域的专著在写作风格上的差异会对其翻译任务提出不同的要求。科技文献中,语言的语法结构较为固定、词汇歧义较少,相对于文学专著而言,科技专著的翻译更适于计算机处理。因此,作为面向专著的机器辅助翻译的一次初探,本文的研究将“专著”的范围限定为科学技术领域的著作。四,翻译记忆(Translation Memory)是机器辅助翻译系统的一项关键技术,其常用的算法在句子一级匹配的成功率较低。面向专著的汉英对比研究将为翻译记忆提供语言学知识,从而使机器辅助翻译系统的翻译记忆机制更为实用。本文的研究将以北大俞士汶教授等编著的现代汉语语法信息词典详解一书的导引部分(后简称详解)作为专著的蓝本,以该书的汉英翻译过程作为建模工作的参考实例,同时配合研究工作开发一个演示系统,作为面向专著的机器辅助翻译模型中的软件环境。1.2 语言翻译中人和机器的协作人们把一种劳动称为“机械性的”是因为已经掌握了其中的运作规律,而把另一种劳动称为“创造性的”是因为还无法把握其中的端倪。翻译被称为一门精细的艺术,一种创造性的劳动,因此很多人否定全自动高质量的机器翻译(FAHQT)。然而,科学研究仍在这方面做着不懈的努力,让计算机通过不同的途径去尝试这项尚无规律可循的任务。每一次失败都会指出我们的一个“无知”之处,每一次失败都是在向最终发现规律迈进。今天,当人们在说“翻译中也有机械、重复的劳动”的时候,机器辅助翻译系统就开始进入了我们的视线。1.2.1 前人的研究相关的翻译研究the place of man and machine in translation1.2.2 机器辅助翻译(CAT)综述1.3 本文研究工作的内容1.3.1 定位(目标)随着我国科研水平的提高以及国际合作与交流的加强,中文学术专著的“出口”需求日益增大。面向中文学术专著的机器辅助翻译将为这类工作量极大、质量要求极高的翻译任务提供一种实用的、人机交互式的解决方案。该方案侧重于:1)从计算的角度深入地考察专著的语言特点;2)用计算的方法有效地辅助专著的翻译。本课题将为现有的自然语言处理技术提供一个很好的应用场景;同时,机器辅助翻译研究也是迈向全自动高质量机器翻译这一最终目标的必经之路。从实际情况(学术专著翻译通常采用的模式,本研究考察的模式)着手,本文将研究的场景限定为:1) 翻译的对象为中文学术专著2) 翻译过程涉及两种语言:中文(原文),英文(译文)3) 参与翻译过程的人员包括:a) 原文作者:熟悉原文内容和专业知识;中文水平较高;英文水平一般,但熟悉专业英语;b) 译者:熟悉原文内容和专业知识;中文水平较高;英文水平较高c) 出版社审编1.3.2 工作基础本文选题过程中对专著翻译人员及专著翻译过程进行了调查,作为建模的依据。北大计算语言所在自然语言处理、尤其是中文信息处理方面的积累将为面向专著的机器辅助翻译系统的开发工作提供良好的技术支持和资源支持。目前已有的语言资源和软件基础包括:1) 汉英平行语料15万句对;2) 待整理的双语词典资源,预计将提供约10万汉英对照词条;3) 汉语切分标注软件;4) 双语语料处理工具集,支持语料预处理、标记、自动对齐、辅助校对、格式转换等功能;5) 双语相关集列工具,支持汉英两种语言的简单检索、复杂检索、模糊检索、按位排序、搭配统计、词频统计等功能;6) TM模糊匹配算法,基于动态规划的模糊匹配算法;7) 翻译等价对提取工具。1.4 本文的结构安排第二章 学术专著及其翻译过程的特点2.1 学术专著的特点2.1.1 术语及其相关问题2.1.2 语句的重复使用? 就语句的长度而言,专著与一般论文有无区别?? 就长句的数量而言,专著与一般论文有无区别?2.2 学术专著翻译过程的特点专著翻译过程模型(图)(过程建模)翻译过程中所需的帮助专业性和创新性是学术专著的突出特点,因此,学术专著的翻译应该要求翻译人员具有相同或相近的学科背景,以保证译文的质量。第三章 计算机辅助环境 (紧扣第二章的需求)3.1各种NLP技术的应用与改进为现有的自然语言处理技术提供一个很好的应用场景,同时充分考虑人和机器优势与劣势。以下内容均针对专著及其翻译过程的特点。3.1.1 术语的识别3.1.2 切分标注的改进3.1.3 语料库相关内容(语料收集,语料的利用concordance)3.1.4 相似度计算的改进本文工作对相似度计算的改进:能做什么、不能做什么注意!泛化会不会对翻译造成负面影响?两种用法:1)online;2)pre-translation自然语言处理技术中语言资源和语言知识有着至关重要的作用。(规则和统计的协作)自然语言处理技术就基础理论、技术算法来讲可以是通用的、普遍的。但将其放入具体应用中,就应该具体问题、具体分析。这中间有一个适应(adaptation)的过程,即根据具体应用的要求来改进或利用现有的基础理论、技术算法。附:规范专著的写作,便利计算机处理计算方法:基于字和基于词的加权可以满足需求方法简单,效率高,可扩充性强(主要指语言知识的扩充)不考虑词序:因为是辅助翻译,TM是给出参考,而并非自动翻译结果。同时,学术专著中词汇歧义较少,因词序不同引起的语义变化情况少。不考虑语义:专著中术语较多,根据术语建立的语义资源not available。但目前考虑到的语义知识足以对翻译起到很好的辅助效果(如术语及其并列结构,括号、引号等)。与原来的按字节算法的对比。(数据)泛化的目的:帮助翻译记忆的相似度计算模块更有效地利用记忆库中句子级对齐单位(句对)。自动泛化(综述):brown,张建用知识库支持泛化(根据token) 对语言知识的利用,对专著特点的利用通常意义上的EBMT泛化是为了减少实例的数量(或者说控制/减小实例库的规模);我们的研究是为了更好地利用已有的实例。两者的目的实质上是相同的。泛化的实质:模糊匹配(or partial exact matching)partial match: lexical equivalence class equivalence (equivalent class)泛化的定义:Brown:/*l 张建:泛化是指通过对实际例句中的部分词语或片段进行一定的概括、归纳,使结果能够适用于更多的情况,是提高EBMT的性能的有效方法。l 张建的做法:通过对句子一级对齐的双语语料库学习来抽取翻译模板;对获得的翻译模板进行训练;然后利用所获得的翻译模板进行翻译。(借鉴前人的三个系统)l 张建:以基于范例的推理(Case-Based Reasoning)的方法作比;*从翻译学的角度?l 根据前面的比较和分析,我们可以得知EBMT具有如下几个优点:产生的译文精确,翻译速度快,不需要人工收集和编辑翻译知识;但是也存在诸如匹配率比较低,需要大规模的例句库的支持等缺点。事实上,传统的EBMT系统的匹配率和其翻译质量是一对矛盾,当匹配率的限制严格的时候,一旦匹配成功则得到的译文质量非常高;反之,如果匹配率限制的不是很严格,则匹配成功时可能得到的译文质量一般。 l 泛化的EBMT的基本思想是通过对自然语句中的词语或者片段进行抽象和概括来降低输入维数,从而提高语句的匹配率。一方面,该方法减少了对语料库规模的依赖;另一方面,由于被抽象和概括的词语或者是片段具有普遍性,一般该部分的变化不会影响翻译的结构和框架,这样可以保证翻译译文的质量同泛化之前相当。l 我们采用翻译模板的方法来自于这样一个启发:当我们学习语言的时候首先学习一些简单的语句,然后通过句式的变换和词语的替换,词汇量的增加来逐步的掌握语言的。类比学习是人类学习中的一个很重要的方法,人们在学习过程中总是有意或无意地比较事物的相同点和不同点从而达到学习的目的。根据这样一种思路,我们提出了从语料库中提取翻译模板以及利用这些获得的翻译模板来指导翻译的方法。l 框架的作用 槽的作用 匹配的对象l 优点(p.36)l 一个完整的翻译模板由下面几个部分组成:源语言模板,目标语言模板,两种语言模板的槽的对应关系,翻译模板的ID、匹配率和翻译正确率等。 */槽对应中包含约束条件,由该槽允许的词性序列来表示。这种约束条件通过人机交互式的训练来获得。张建:/*获得一个语句片段的“语义类”将其也作为翻译模板槽的一个约束条件,对语句的泛化效果会更好,但这种“语义类”信息需要对语句做深层次的分析才能得到。*/我们的泛化规则可以突显出槽的语义约束。(如:术语、注释等)张建:/*不同种类的词语在决定整个语句的翻译结果的分量也是不同的,即应该对不同类型的词语区别对待,如动词和介词、虚词的地位应该比名词重要。*/在CAT中泛化的工作相对简单,不需要建立目标语言模板,更不需要在两种语言的模板间建立槽的对应关系。这可以说是泛化方法在CAT中应用的一个优势,绕开了目前尚不成熟的一些NLP技术(见张建论文),但也对泛化技术进行了封装,为今后技术的进步保留了一个插入点。此外,人(译者)的作用的能够发挥出来。 在现有技术水平前提下人机优势的有效结合。(知识的自动获取是一个趋势,但现阶段技术还不成熟。)本研究中TM的自学习能力:专著翻译的过程也是双语平行语料库实时更新的过程(并且是句对齐的)统计一下并列结构在专著中的平均长度。translation by analogy相似度计算模块的性能评测:1)coverage; 2)match length; 3) how much text is required to reach a certain coverage of unrestricted textsCAT TM EBMT 之间的关系A restricted form of example-based translation is available commercially , known as a translation memory.More advanced translation memory systems will also return close but inexact matches on the assumption that editing the translation of the close match will take less time than generating a translation from scratch.The biggest problem with the EBMT system described on the previous page is that it needs huge amounts of pre-translated text to make a reasonable general-purpose translator - several million words. What is needed is a way to get more bang for the buck from each pre-translated example, so that fewer examples suffice. To make the examples more effective, we can generalize them.specialized entries in its knowledge base相似度计算的基本公式:S = 2n / (m+n)加权平均:按字计算的相似度值 S字 按词计算的相似度值 S 词 xxxxxx语句相似度 S = aS字 + bS 词 其中a + b = 1流程:(1) 输入专著原文;(2) 若有术语表(包含专有名词),将术语表加入切分标注模块的词典中,转(6);否则,转(3);(3) 无术语表支持的切分标注;(4) 术语自动抽取,得到候选术语集;(5) 对候选术语集进行人工校对和补充,得到专著术语表(及其译文);(6) 有术语表支持的切分标注;(7) 断句处理:断句符号包括句号、问号、叹号、分号、冒号;括号、引号、书名号优先;(8) 泛化处理:泛化对象包括a)引号、括号、书名号及其所标内容;b)术语(含专名)及其并列结构;c)用户自定义的对象;(9) 读入语句;(10) 搜索原文和双语语料库,进行整句匹配,若找到相似度高于阈值X的语句,输出其译文,若找到多句,则按相似度从高到低选择前n句 用户可以自定义输出模式:有多句超过阈值时,可根据相似度的分值调整输出的句数,如,多句相似度分值同为95,输出其中一句;多句相似度分值分别为98、93、90时,输出三句。的译文输出,读入下一句,转(10),若无下一句,转(14);否则,转(11);(11) 搜索原文和双语语料库,进行分句匹配,分句以逗号结束,若找到相似度高于阈值Y的语句,输出其译文,若找到多句,则按相似度从高到低选择前n句的译文输出,转(9),若无下一句,转(14);否则,转(12);(12) 搜索原文和双语语料库,进行关键匹配 用户可以自定义关键匹配点。,缺省的关键匹配点包括a)高频动词、名词、形容词;b)特殊句式“进行”、“加以”和被动语态,若找到相似度高于阈值Z的语句,输出
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版清工公共场所卫生保洁合同
- 二零二五年度网络安全防护设备采购合同协议书
- 二零二五年度环保型车库销售合同范本
- 2025版情感破裂双方协议离婚合同样本
- 2025版钢结构工程云计算与物联网技术应用合同
- 2025版建筑结构健康监测技术咨询合同
- 二零二五版跨境电商进口合同
- 二零二五年跑步俱乐部年度活动策划协议范本
- 2025防火卷帘门防火安全性能评估与合同样本
- 二零二五年度水利项目承包合同样本
- TSG+81-2022+场(厂)内专用机动车辆安全技术规程
- 《DB51-T 2616-2019 机关会议服务规范》
- 新课标考纲词汇1600词背诵版
- 医疗数据共享
- 工贸行业可燃性粉尘作业场所工艺设施防爆技术指南(试行)
- 农业合作社线上线下营销方案
- 以诺书-中英对照
- 国家电网招投标培训
- 2024阿克苏拜城县招聘社区工作者(30人)笔试备考题库及答案解析
- 【正版授权】 ISO 1496-1:2013/Amd 2:2024 EN Series 1 freight containers - Specification and testing - Part 1: General cargo containers for general purposes - Amendment 2
- AQ 7014-2018 新型干法水泥生产安全规程
评论
0/150
提交评论