翻译记忆系统现状及对我国相关研究与应用的启示.pdf

上传人：a*** IP属地：河南上传时间：2020-03-14 格式：PDF 页数：11 大小：176.76KB 积分：16 举报 版权申诉

已阅读5页，还剩6页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

翻译记忆系统现状及对我国相关研究与应用的启示 State of Art in Translation Memory System and Its Enlightenment to Relevant Research and Application in China 苏明阳摘要摘要翻译记忆技术应用于计算机辅助翻译其思想可以追溯到二十世纪七十年代而翻译记忆系统的具体实现则是在二十世纪九十年代初经历了近二十年的发展当今业界出现的翻译记忆系统已有数十种本文从翻译记忆模型翻译记忆检索和翻译编辑环境三个角度对当前的翻译记忆系统进行了梳理和划分描述了翻译记忆系统的现状提出了当前翻译记忆及翻译记忆系统的局限性总结了其发展趋势并对我国翻译记忆研究与应用提出了建议 Abstract The idea of implementing translation memory TM in computer aided translation CAT can be traced back to the 1960s while translation memory software did not come into being until the beginning of 1990s After nearly 20 years of development dozens of translation memory systems are now competing in the arena of translation and localization industry In this paper the author first presents the overall state of the art in TM systems with categorization from the perspectives of TM architecture TM retrieval and translation environment then gives a brief summary on the limitation as well as its trend of development As the conclusion suggestions on TM research TM system development and CAT teaching are given to better the relevant research and application in China 关键词关键词计算机辅助翻译翻译记忆翻译记忆系统注本文发表于 2007 年第 5 期外语研究 1 翻译记忆与翻译记忆系统翻译记忆与翻译记忆系统翻译记忆 translation memory 是计算机辅助翻译 computer aided translation CAT 技术之一是译者工作站 translator s workstation 的重要组成部分 Bowker 将翻译记忆定义为一种用于储存原文本及其译文的语言数据库 Bowker 2002 93 其工作原理为用户利用已有的原文和译文建立起一个或多个翻译记忆库在翻译过程中系统将自动搜索翻译记忆库中相同或相似的翻译资源如句子段落给出参考译文使用户避免无谓的重复劳动只需专注于新内容的翻译翻译记忆库同时在后台不断学习和自动储存新的翻译译文扩大记忆量方梦之 2004 341 对于系统提供的参考译文译者可以完全照搬也可以修改后使用如果不满意可以弃之不用使用翻译记忆辅助译者进行翻译的系统目前常被笼统地称作计算机辅助翻译系统这种认识略嫌以偏概全广义的计算机辅助翻译工具还包括电子辞典对齐工具术语管理系统平行语料库等有时还将机器翻译包括在内因此将主要使用翻译记忆技术的计算机辅助翻译系统命名为翻译记忆系统更为合理根据 Hutchins 1998 287 307 翻译记忆的思想最早可以追溯到 1971 年当时供职于联邦德国国防部翻译服务处的 Krollman 提出了语言数据库 linguistic data banks 的设想其子库之一即为翻译档案 translation archive 七十年代后期到八十年代初 Peter Arthern Martin Kay 与 Alan Melby 等人分别研究和完善了翻译记忆的理论将其视为当时仍处于理论构想的译者工作站中的重要组件八十年代后期个人计算机技术的发展与普及为翻译记忆和译者工作站的实现提供了可能第一个具备翻译记忆功能的译者工作站 ALPS Automated Language Processing Systems 在此期间问世到了九十年代翻译记忆随译者工作站系统的市场化为业界所接受出现了包括 Trados IBM TM 2 以及 Transit 在内的多种翻译记忆系统应用于文本重复性强且对术语一致性和翻译效率要求较高的领域如欧盟文件翻译和软件本地化行业等 1990 年本地化行业标准组织 Localization Industry Standards Association LISA 成立于 1998 年基于可扩展标记语言 eXtensible Markup Language XML 制定了中立公开的翻译记忆交换标准 TMX Translation Memory eXchange 统一了翻译记忆的存储格式几次小幅度修订后 LISA 于 2007 年 3 月公布了 TMX 2 0 草案接受业界的评议如今翻译记忆技术对翻译的助益已经得到公认翻译记忆系统的使用也不再局限于专门的语言机构和语言服务商部分翻译公司开始要求译者用特定的翻译记忆系统进行翻译 2 翻译记忆系统的分类与现状翻译记忆系统的分类与现状根据 Hutchins 的统计 2007 126 截止到 2007 年 6 月市场上的翻译记忆系统在其文章中定义为 translation memory system component 如下 Across An Nakel El Arabi CATALYST D j Vu ESI Professional ESTeam Translator ForeignDesk Heartsome TMX Editor Heartsome XLIFF Translation Editor LogiTerm LogoVista X Pro m2T Memory Explorer MemorySphere MetaTexis Multilizer MultiTrans ProMemoria Sakhr Enterprise Translation SDL ContextTM Similis Trados GXT Trados TM Tr AID TraNew TranSmart Visual Localize WordAlign WordFast 此外还存在部分新出现或未被收录入上述列表的系统翻译记忆系统的分类目前尚无定论本文拟从记忆模型检索方式和编辑环境的角度对市场上的翻译系统进行梳理 2 1 翻译记忆模型翻译记忆模型翻译记忆模型即翻译记忆的储存方式根据国内研究者的分类王华伟崔启亮 2005 107 目前翻译记忆模型共有两种其一是数据库模型在数据库模型下翻译记忆以翻译单元 translation unit 的形式储存源语言句段与目标语言句段精确对应目前绝大多数翻译记忆系统使用的都是这一模型另一种是引用模型这种模型并不将源语言句段同目标语言句段成对保存为翻译单元而是利用双语文本字符串 Character string in bitext CSB 检索技术 Gow 2004 34 37 检索并引用其在文档中所出现的位置采用这种模型的翻译记忆系统有 MultiTrans LogiTrans 和 STAR Transit 等这两种模型各有优劣引用模型建立大型翻译记忆库时更为快捷用户检索的任何结果都附有上下文语境双语文本保持完整可作为译者背景阅读材料或培训资料而数据库模型中的数据更易于管理和维护翻译记忆为即时更新能够识别并处理同一文本中的重复性文本而不像引用模型中的翻译记忆必须在当前文本翻译全部完成后才能更新为翻译记忆此外目前的翻译记忆交换标准 TMX 是基于数据库模型的这使引用模型翻译记忆较难共享与交换 2 2 翻译记忆检索翻译记忆检索 Lagoudaki 认为翻译记忆系统之间最重要的区别在于匹配检索技术她将当前的翻译记忆匹配检索技术归结为两类基于字符串的匹配检索和语言学知识增强匹配检索 Lagoudaki 2006 4 基于字符串的搜索方式是翻译记忆检索的传统方式当前的翻译记忆系统中绝大多数都是基于字符串的检索借用自然语言处理领域中的编辑距离 edit distance 比较字符串之间的相似程度并用一个百分比表示匹配率这种检索方式仅考虑到语言的形式而不涉及语言的意义检索精确度不高曾有研究者在 Trados 中用以下三个句子进行了测试 Planas Furuse 1999 331 339 1 The wild child is destroying his new toy 2 The wild chief is destroying his new tool 3 The wild children are destroying their new toy 系统给出的结果是 2 与 1 的匹配率高于 3 与 1 的匹配率然而 1 与 3 之间仅仅是主语单复数的不同从意义上来说更为相近使用语言学知识增强检索技术是翻译记忆系统发展的新趋势但实际应用这种技术的系统为数不多其中 Similis 在句段切分后运用词频统计 N gram 模型将句段进一步切分为语块 chunk 借助于单语字典和语法范畴识别算法进行语法标注 Planas 2005 而一款名为 Masterin 的翻译记忆系统据称可以根据翻译记忆库知识库中的例子更为灵活地切分源文本的句段并对每个句段都进行语法信息标记构成一个翻译模式 translation pattern 供深层检索同时出现多个翻译记忆匹配时系统还会结合内置字典给出的语义使用频率和领域信息进行筛选比较若无匹配系统还会综合利用库中已有资源构建模糊匹配提供给译者 Gr nroos 2005 利用语言学知识增强的匹配检索技术目前也被非正式地称为第二代翻译记忆技术它在匹配检索能力和匹配精度上较基于字符串的匹配检索技术有所改善但第二代翻译记忆更依赖于特定语言的语言学知识与资源而建立一个能有效运用于翻译的语言学知识库并非易事 2 3 翻译编辑环境翻译编辑环境翻译编辑环境是指译者进行翻译工作的文字处理程序环境依翻译编辑环境不同目前所有的翻译记忆系统可分为嵌入式和独立式两类嵌入式系统需要借助与文字处理程序 Word 为工作界面安装后会创建一个新的 Word 模板借助于 Word 中的 VBA 功能增加用于翻译记忆操作的工具栏和宏命令译者仍然在 Word 中进行文档翻译简单的嵌入式系统如 Wordfast 可以仅仅是一个 Word 模板文件复杂的嵌入式系统如 Trados 还有外部程序 workbench 同内置的 Word 模板相连接提供更为高级的功能独立式系统的翻译过程不使用 Word 等外部文字处理程序作为编辑器全部翻译工作都在系统内进行翻译之前通过各种内置过滤器 filter 将相应格式的文档中的源语言导入在系统内部完成翻译后导出为原文档格式的译文一些独立式系统如 Catalyst 专门面向软件的本地化虽属翻译记忆系统范畴但已视为本地化工具 localization tool 两类系统虽能实现相同的功能但在操作方式工作流程等方面存在较大差别篇幅所限在此不做详述根据翻译编辑环境的不同将笔者实际操作过的翻译记忆系统分类如下嵌入式独立式纯 Word 模板 Word 模板加外部程序独立式文档翻译系统本地化工具 MetaTexis 2003 Tr Aid 2 0 Wordfisher 4 45 Wordfast 5 1 Trados 7 0 雅信 3 5 朗瑞 1 0 TransAssist 1 5 Across 3 5 Aidtrans 2 0 D j Vu 7 5 Heartsome TMX XLIFF Editor 6 2 IBM Translation Manager 6 0 MemoQ 1 0 SDLX 2004 Similis 2 6 Transit 3 0 Catalyst 6 0 Multilizer 6 2 Passolo 6 0 3 目前翻译记忆技术和翻译记忆系统的局限性目前翻译记忆技术和翻译记忆系统的局限性 3 1 翻译记忆技术本身的局限翻译记忆技术本身的局限首先翻译记忆基于以下假设已翻译过的源语与目标语对照的文本可再利用于翻译新的源语文本然而现实中的翻译活动大多缺乏重复性只有在某些限定的领域中文本的重复率才能达到一定的比率从而能够有效地利用翻译记忆由于语言的无限生成能力即使翻译记忆容量再大模糊搜索能力再强依然无法保证在新的翻译工作时总能提供翻译记忆其次两种翻译记忆的模型互不兼容且各有不足之处两种模型各自的缺点中有的存在互补性如原文和译文的完整性在数据库模型下被碎片化而在引用模型下可以得到很好的保留有的缺点则在两种模型下均没有好的解决方案如对语块 chunk 或亚句段单位 subsentential segment 的检索数据库模型下的翻译记忆以句段为单位检索无法深入到句段以下的层次而引用模型下检索虽不受翻译单元的限制产生的不相关结果却相对 noise 较多 Gow 2003 38 此外当前的翻译记忆大多不具备语言学标注作为翻译记忆储存交换标准的 TMX 也未针对语言学标注进行扩展或规定翻译记忆如同语料库中的生语料其中包含的翻译资源得不到充分挖掘限制了其深度应用 3 2 翻译记忆系统的局限翻译记忆系统的局限第一如前所述翻译记忆检索的算法基于语言形式而非意义检索深度和精度不高译者对于检索的控制性弱检索时可配置的选项较少同时匹配率的设置过于概括仅使用百分制比较句子相似度不甚合理第二由于商业原因翻译记忆系统之间差异较大在系统要求所支持的文件格式提供的功能价格和售后服务等方面均不相同专业译者有时不得不安装多个系统以解决翻译过程中出现的各种问题此外出于市场竞争考虑各类翻译记忆系统虽然均支持 TMX 格式但为增加用户粘性都在各自系统中添加对数据翻译记忆术语等更详细的描述与属性在数据转移或系统更换时有可能会造成数据流失第三使用翻译记忆系统进行翻译同译者所熟悉的传统翻译过程区别较大需要较长时间学习并掌握翻译记忆系统也会对翻译过程产生一些负面影响如译者可能会避免使用指代以迁就翻译记忆提高匹配率 Heyn 1998 135 而以句段为翻译单位让译者容易失去语篇观念等此外翻译记忆系统往往价格昂贵前期投入较高使不少有此需求的个人和小型单位用户望而却步虽有少数开源系统可供自由使用但均为纯 Word 模板类型的简单的嵌入式系统 4 翻译记忆技术和翻译记忆系统的发展趋势翻译记忆技术和翻译记忆系统的发展趋势自第一个翻译记忆系统问世至今已有近 20 年此间已存的翻译记忆系统升级换代新的翻译记忆系统层出不穷通过对可获及的翻译记忆系统进行历时与共时的研究笔者认为虽然现在的翻译记忆系统较过去增加了诸如对齐项目流程管理质量保证和术语提取等多种外围功能组件但其核心翻译记忆技术缺乏突破性进展检索能力没有质的飞跃展望将来翻译记忆技术与翻译记忆系统存在如下发展趋势集中化趋势将翻译记忆与术语等翻译资源集中储存在中央服务器的数据库中不同权限的工作站通过网络连接到中央服务器进行按需检索翻译资源的集中一方面可以使翻译记忆匹配和词语索引更全面可靠检索和维护更简单另一方面也可以更方便地实现对翻译资源知识产权的保护适应信息情报保密与安全的需要加拿大蒙特利尔大学 RALI 实验室的翻译记忆检索库 TransSearch 目前已实现商用其经验可供借鉴深加工翻译记忆的趋势翻译记忆从某种程度上而言就是对齐后的平行语料而目前翻译记忆所挖掘出的仅仅是译文中表层的很少一部分的知识与经验因此目前研究者们都在关注如何结合语料库的研究方法进一步利用并完善翻译记忆与机器翻译相结合的趋势翻译记忆属于计算机辅助翻译是研究机器翻译的过程中出现的一种折衷高质量的可作为双语语料库的翻译记忆可以应用于基于统计和基于实例的机器翻译系统 5 对我国相关研究与应用的思考与建议对我国相关研究与应用的思考与建议 5 1 翻译记忆技术研究翻译记忆技术研究我国学术界对国外计算机辅助翻译技术与工具的评介早已有之但大多局限在机器翻译和计算机辅助翻译比较上对计算机辅助翻译的介绍过于概括缺乏新意具体到翻译记忆技术和翻译记忆系统的应用研究更不多见然而在翻译服务行业中翻译记忆系统为大多数本地化从业者专职翻译以及兼职翻译所熟知并在部分从业者中得到了合理应用提高了工作效率与翻译质量这些实际使用者对当前国内外主流的翻译记忆系统乃至其他计算机辅助翻译工具有着丰富的使用经验但由于缺乏理论研究氛围或忙于本职工作无暇研究对翻译记忆系统的认识与评价往往注重于实际操作经验主要以技巧心得的形式在互联网上流传这就形成了整体上言者不尽知知者未尽言的局面一方面诚然是由于一般文科学者缺乏信息技术敏感性所致另一方面也是翻译理论研究与实践脱节的一种具体体现笔者认为为改变这种局面应当引介国外相关学术著作与文章追赶同国外翻译记忆技术乃至计算机辅助翻译技术研究之间并不巨大的差距值得注意的是香港和台湾在计算机辅助翻译的研究和应用上起步早应用广同国际联系紧密取得了不少成果大陆研究者应当与其加强交流相互借鉴此外随着翻译研究的跨学科性越来越鲜明计算机辅助翻译研究作为信息技术和翻译研究的结合需要所有相关领域研究者的合力协作具体到翻译记忆技术上除了翻译研究者之外还需要自然语言处理语料库软件工程学等诸多领域专家学者的共同努力重点在翻译记忆的语块识别翻译记忆与平行语料库建设翻译记忆标准扩展翻译记忆系统设计等方面加强研究与合作 2007 年 5 月北京大学软件与微电子学院北京大学计算语言研究所与香港中文大学电脑辅助翻译系启动了科研与教学合作在学术机构间交流和跨领域合作上迈出了第一步 5 2 翻译记忆系统开发翻译记忆系统开发目前我国自主开发的较为成熟的翻译记忆系统有雅信 CAT 系统华建机器翻译系统等其中笔者了解并实际使用过雅信 CAT 系统该系统采用数据库储存模型基于字符串检索编辑环境同 Trados 类似为嵌入式 Word 模板加外接程序雅信 CAT 系统的特色是针对国内译者实际需求内置了大容量的中英专业词库能够进行中文自动分词并在此二者基础上具备中英机器互译功能这是国外翻译记忆系统目前无法做到的当然作为国内翻译记忆系统的典型代表雅信尚非完美在很多方面仍需改进针对今后翻译记忆系统的研发笔者建议一优先采用数据库模型的翻译记忆支持 TMX 标准同国际接轨同时要对数据库模型的缺点有清醒的认识寻求克服其缺点的对策条件允许情况下可以对结合两种模型架构的系统进行探索性研究二顺应第二代翻译记忆的趋势结合中文自动处理技术建立适用于中文翻译记忆检索的算法标注体系和语言知识库只要字符集支持基于字符串检索的第一代检索方式可以应用于任何一种语言包括以中文为源语或目标语的翻译然而利用语言学知识增强翻译记忆检索的第二代翻译记忆技术则需要真正了解中文通晓中文自动处理的国内学者的研究才能实现三翻译编辑环境同翻译记忆系统使用者最为密切相关其友善性一向被用户注重却往往容易被系统开发者忽视据调查 Lagoudaki 2006 1 开发人员在系统设计之前很少向用户征询意见而往往是在系统已经基本定型开始测试时才给用户提出意见的机会而此时的反馈很少能使开发者对系统做出相应更改由于嵌入式系统和独立式系统差异较大因此在翻译编辑环境的设计时应当广泛听取使用者及潜在使用者的意见在此基础上针对用户需求选择形式进一步完善 5 3 翻译记忆系统的教学翻译记忆系统的教学在翻译教学的学历教育中增加计算机辅助翻译与翻译记忆系统应用课程国内已有学者对此进行专门的研究与探索通过网上检索香港中文大学可以发现其翻译专业目前的课程体系设置中列有 Computer Translation Project Information Technology and Computing Introduction to Computer aided Translation 等课程但据笔者粗略调查大陆的高等院校真正在翻译专业的本科和硕士阶段全面开始 CAT 课程的还基本没有例外的是北京大学的语言信息工程系提供计算机辅助翻译专业的硕士学位课程徐彬 2006 63 并且首度明确提出应将计算机辅助翻译课程纳入我国翻译专业课程体系设置非学历翻译培训方面据笔者所知国内目前有北京大学的计算机辅助翻译高级研修班已于 2007 年 4 月开课以及 SDL Trados 公司对其旗下产品的应用培训目前已举办两期和其他推广性培训活动通过将北大语言工程系计算机辅助翻译硕士专业培养方案和课程计划与香港中文大学翻译系电脑辅助翻译硕士课程简介相比较可以看出前者的培养目标是使学生成为具备超越其他翻译师的信息技术的应用能力掌握机器翻译和机器辅助翻译的原理和使用技巧可自由灵活地进行系统定制从而最大限度地提高翻译工作的效率或直接参与语言信息处理系统和多媒体内容信息处理系统的研发工作俞敬松 2006 1 后者在 2005 年称课程取向将加强翻译的训练和软件的理论和应用使课程更具实用性也就是从电脑翻译趋向电脑辅助翻译以适应世界潮流和社会的需要同时配合翻译系课程专业化的目标方梓勋 2005 2 香港中文大学的这一专业通过课程的组合提供了三种修读模式翻译实践电脑辅助翻译电脑科学并于 07 年除已有的两年兼读制之外又开设了一年全日制课程供学生更为灵活的学习可以看出同香港中文大学应用性的培养目标与课程设置相比北大开设的计算机辅助翻译硕士专业增加了对技术研究与系统开发的侧重意在培养高层次的同时拥有两个领域技能的宝贵人才然而仅凭一所或几所高校开设计算机辅助翻译专业并不能满足市场对通晓计算机辅助翻译工具能熟练使用翻译记忆系统进行实际工作的译员的需求况且高校计算机辅助翻译专业还要承担培养科研与开发人才的任务仅培养计算机辅助翻译工具的使用者未免大材小用计算机辅助翻译作为当今翻译实践中的一种重要手段应该定位为译者的常备技能进行培养 2007 年 3 月 30 日国务院学位委员会印发了翻译硕士专业学位设置方案以培养注重翻译实践能力的硕士人才笔者认为应该借此契机将计算机辅助翻译课程纳入翻译硕士专业课程设置并将翻译记忆系统的应用作为笔译课程的必修科目之一还可将计算机辅助翻译作为选修课引入本科翻译专业课程设置向学生做一般性介绍参考文献参考文献 1 Bowker Lynn 2002 Computer Aided Translation Technology A Practical Introduction M Ottawa University of Ottawa Press 2 Gow Francie 2003 Metrics for Evaluating Translation Memory Software D University of Ottawa 3 Gr nroos Mickel Ari Becks 2005 Bringing Intelligence to Translation Memory Technology C Proceedings of the International Conference Translating and the Computer 27 London Aslib 4 Heyn Ma

人人文库> 全部分类> 教育资料 > 外文翻译

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

翻译记忆系统现状及对我国相关研究与应用的启示.pdf

文档简介

温馨提示

最新文档

评论

翻译记忆系统现状及对我国相关研究与应用的启示.pdf

文档简介

温馨提示

最新文档

评论

相关文档