翻译记忆系统现状及对我国相关研究与应用的启示.pdf_第1页
翻译记忆系统现状及对我国相关研究与应用的启示.pdf_第2页
翻译记忆系统现状及对我国相关研究与应用的启示.pdf_第3页
翻译记忆系统现状及对我国相关研究与应用的启示.pdf_第4页
翻译记忆系统现状及对我国相关研究与应用的启示.pdf_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

翻译记忆系统现状及对我国相关研究与应用的启示 State of Art in Translation Memory System and Its Enlightenment to Relevant Research and Application in China 苏明阳 摘 要摘 要 翻译记忆技术应用于计算机辅助翻译 其思想可以追溯到二十世纪七 十年代 而翻译记忆系统的具体实现则是在二十世纪九十年代初 经历了 近二十年的发展 当今业界出现的翻译记忆系统已有数十种 本文从翻译 记忆模型 翻译记忆检索和翻译编辑环境三个角度 对当前的翻译记忆系 统进行了梳理和划分 描述了翻译记忆系统的现状 提出了当前翻译记忆 及翻译记忆系统的局限性 总结了其发展趋势 并对我国翻译记忆研究与 应用提出了建议 Abstract The idea of implementing translation memory TM in computer aided translation CAT can be traced back to the 1960s while translation memory software did not come into being until the beginning of 1990s After nearly 20 years of development dozens of translation memory systems are now competing in the arena of translation and localization industry In this paper the author first presents the overall state of the art in TM systems with categorization from the perspectives of TM architecture TM retrieval and translation environment then gives a brief summary on the limitation as well as its trend of development As the conclusion suggestions on TM research TM system development and CAT teaching are given to better the relevant research and application in China 关键词关键词 计算机辅助翻译 翻译记忆 翻译记忆系统 注 本文发表于 2007 年第 5 期 外语研究 1 翻译记忆与翻译记忆系统翻译记忆与翻译记忆系统 翻译记忆 translation memory 是计算机辅助翻译 computer aided translation CAT 技术之一 是译者工作站 translator s workstation 的重要组 成部分 Bowker 将翻译记忆定义为一种用于储存原文本及其译文的语言数据库 Bowker 2002 93 其工作原理为 用户利用已有的原文和译文 建立起一个 或多个翻译记忆库 在翻译过程中 系统将自动搜索翻译记忆库中相同或相似的 翻译资源 如句子 段落 给出参考译文 使用户避免无谓的重复劳动 只需 专注于新内容的翻译 翻译记忆库同时在后台不断学习和自动储存新的翻译译 文 扩大记忆量 方梦之 2004 341 对于系统提供的参考译文 译者可以完 全照搬 也可以修改后使用 如果不满意可以弃之不用 使用翻译记忆辅助译者进行翻译的系统 目前常被笼统地称作计算机辅助 翻译系统 这种认识略嫌以偏概全 广义的计算机辅助翻译工具还包括电子辞典 对齐工具 术语管理系统 平行语料库等 有时还将机器翻译包括在内 因此 将主要使用翻译记忆技术的计算机辅助翻译系统命名为翻译记忆系统更为合理 根据 Hutchins 1998 287 307 翻译记忆的思想最早可以追溯到 1971 年 当时供职于联邦德国国防部翻译服务处的 Krollman 提出了 语言数据库 linguistic data banks 的设想 其子库之一即为 翻译档案 translation archive 七十年代后期到八十年代初 Peter Arthern Martin Kay 与 Alan Melby 等人分别 研究和完善了翻译记忆的理论 将其视为当时仍处于理论构想的译者工作站中的 重要组件 八十年代后期 个人计算机技术的发展与普及为翻译记忆和译者工作 站的实现提供了可能 第一个具备翻译记忆功能的译者工作站 ALPS Automated Language Processing Systems 在此期间问世 到了九十年代 翻译记忆随译者 工作站系统的市场化为业界所接受 出现了包括 Trados IBM TM 2 以及 Transit 在内的多种翻译记忆系统 应用于文本重复性强且对术语一致性和翻译效率要求 较高的领域 如欧盟文件翻译和软件本地化行业等 1990 年 本地化行业标准 组织 Localization Industry Standards Association LISA 成立 于 1998 年基于 可扩展标记语言 eXtensible Markup Language XML 制定了中立 公开的翻 译记忆交换标准 TMX Translation Memory eXchange 统一了翻译记忆的存储 格式 几次小幅度修订后 LISA 于 2007 年 3 月公布了 TMX 2 0 草案接受业界 的评议 如今 翻译记忆技术对翻译的助益已经得到公认 翻译记忆系统的使用 也不再局限于专门的语言机构和语言服务商 部分翻译公司开始要求译者用特定 的翻译记忆系统进行翻译 2 翻译记忆系统的分类与现状翻译记忆系统的分类与现状 根据 Hutchins 的统计 2007 126 截止到 2007 年 6 月 市场上的翻译记 忆系统 在其文章中定义为 translation memory system component 如下 Across An Nakel El Arabi CATALYST D j Vu ESI Professional ESTeam Translator ForeignDesk Heartsome TMX Editor Heartsome XLIFF Translation Editor LogiTerm LogoVista X Pro m2T Memory Explorer MemorySphere MetaTexis Multilizer MultiTrans ProMemoria Sakhr Enterprise Translation SDL ContextTM Similis Trados GXT Trados TM Tr AID TraNew TranSmart Visual Localize WordAlign WordFast 此外 还存在部分新出现或未被收录入上述列 表的系统 翻译记忆系统的分类目前尚无定论 本文拟从记忆模型 检索方式和编辑 环境的角度 对市场上的翻译系统进行梳理 2 1 翻译记忆模型翻译记忆模型 翻译记忆模型即翻译记忆的储存方式 根据国内研究者的分类 王华伟 崔启亮 2005 107 目前翻译记忆模型共有两种 其一是数据库模型 在数据 库模型下 翻译记忆以 翻译单元 translation unit 的形式储存 源语言句段与 目标语言句段精确对应 目前绝大多数翻译记忆系统使用的都是这一模型 另一种是引用模型 这种模型并不将源语言句段同目标语言句段成对保存 为翻译单元 而是利用 双语文本字符串 Character string in bitext CSB 检索 技术 Gow 2004 34 37 检索并引用其在文档中所出现的位置 采用这种模型 的翻译记忆系统有 MultiTrans LogiTrans 和 STAR Transit 等 这两种模型各有优劣 引用模型建立大型翻译记忆库时更为快捷 用户检 索的任何结果都附有上下文语境 双语文本保持完整 可作为译者背景阅读材料 或培训资料 而数据库模型中的数据更易于管理和维护 翻译记忆为即时更新 能够识别并处理同一文本中的重复性文本 而不像引用模型中的翻译记忆必须在 当前文本翻译全部完成后才能更新为翻译记忆 此外 目前的翻译记忆交换标准 TMX 是基于数据库模型的 这使引用模型翻译记忆较难共享与交换 2 2 翻译记忆检索翻译记忆检索 Lagoudaki 认为 翻译记忆系统之间最重要的区别在于匹配检索技术 她将 当前的翻译记忆匹配检索技术归结为两类 基于字符串的匹配检索和语言学知识 增强匹配检索 Lagoudaki 2006 4 基于字符串的搜索方式是翻译记忆检索的传统方式 当前的翻译记忆系统 中绝大多数都是基于字符串的检索 借用自然语言处理领域中的 编辑距离 edit distance 比较字符串之间的相似程度 并用一个百分比表示匹配率 这种检索 方式仅考虑到语言的形式而不涉及语言的意义 检索精确度不高 曾有研究者在 Trados 中用以下三个句子进行了测试 Planas Furuse 1999 331 339 1 The wild child is destroying his new toy 2 The wild chief is destroying his new tool 3 The wild children are destroying their new toy 系统给出的结果是 2 与 1 的匹配率高于 3 与 1 的匹配率 然而 1 与 3 之间仅仅是主语单复数的不同 从意义上来说更为相近 使用语言学知识增强检索技术 是翻译记忆系统发展的新趋势 但实际应用 这种技术的系统为数不多 其中 Similis 在句段切分后运用词频统计 N gram 模型将句段进一步切分为语块 chunk 借助于单语字典和语法范畴识别算法进 行语法标注 Planas 2005 而一款名为 Masterin 的翻译记忆系统据称可以根据 翻译记忆库 知识库 中的例子更为灵活地切分源文本的句段 并对每个句段都 进行语法信息标记 构成一个 翻译模式 translation pattern 供深层检索 同 时出现多个翻译记忆匹配时 系统还会结合内置字典给出的语义 使用频率和领 域信息进行筛选比较 若无匹配 系统还会综合利用库中已有资源构建模糊匹配 提供给译者 Gr nroos 2005 利用语言学知识增强的匹配检索技术目前也被非正式地称为 第二代翻译记 忆技术 它在匹配检索能力和匹配精度上较基于字符串的匹配检索技术有所改 善 但 第二代翻译记忆 更依赖于特定语言的语言学知识与资源 而建立一个 能有效运用于翻译的语言学知识库并非易事 2 3 翻译编辑环境翻译编辑环境 翻译编辑环境是指译者进行翻译工作的文字处理程序环境 依翻译编辑环境 不同 目前所有的翻译记忆系统可分为嵌入式和独立式两类 嵌入式系统需要借 助与文字处理程序 Word 为工作界面 安装后会创建一个新的 Word 模板 借助 于 Word 中的 VBA 功能增加用于翻译记忆操作的工具栏和宏命令 译者仍然在 Word 中进行文档翻译 简单的嵌入式系统 如 Wordfast 可以仅仅是一个 Word 模板文件 复杂的嵌入式系统 如 Trados 还有外部程序 workbench 同内置 的 Word 模板相连接 提供更为高级的功能 独立式系统的翻译过程不使用 Word 等外部文字处理程序作为编辑器 全部 翻译工作都在系统内进行 翻译之前通过各种内置过滤器 filter 将相应格式的 文档中的源语言导入 在系统内部完成翻译后导出为原文档格式的译文 一些独 立式系统 如 Catalyst 专门面向软件的本地化 虽属翻译记忆系统范畴 但已 视为本地化工具 localization tool 两类系统虽能实现相同的功能 但在操作方式 工作流程等方面存在较大差 别 篇幅所限 在此不做详述 根据翻译编辑环境的不同 将笔者实际操作过的翻译记忆系统分类如下 嵌入式 独立式 纯 Word 模板 Word 模板加外部程序 独立式文档翻译系统 本地化工具 MetaTexis 2003 Tr Aid 2 0 Wordfisher 4 45 Wordfast 5 1 Trados 7 0 雅信 3 5 朗瑞 1 0 TransAssist 1 5 Across 3 5 Aidtrans 2 0 D j Vu 7 5 Heartsome TMX XLIFF Editor 6 2 IBM Translation Manager 6 0 MemoQ 1 0 SDLX 2004 Similis 2 6 Transit 3 0 Catalyst 6 0 Multilizer 6 2 Passolo 6 0 3 目前翻译记忆技术和翻译记忆系统的局限性目前翻译记忆技术和翻译记忆系统的局限性 3 1 翻译记忆技术本身的局限翻译记忆技术本身的局限 首先 翻译记忆基于以下假设 已翻译过的源语与目标语对照的文本可再利 用于翻译新的源语文本 然而现实中的翻译活动大多缺乏重复性 只有在某些限 定的领域中 文本的重复率才能达到一定的比率 从而能够有效地利用翻译记忆 由于语言的无限生成能力 即使翻译记忆容量再大 模糊搜索能力再强 依然无 法保证在新的翻译工作时总能提供翻译记忆 其次 两种翻译记忆的模型互不兼容且各有不足之处 两种模型各自的缺点 中 有的存在互补性 如原文和译文的完整性在数据库模型下被 碎片化 而 在引用模型下可以得到很好的保留 有的缺点则在两种模型下均没有好的解决方 案 如对语块 chunk 或亚句段单位 subsentential segment 的检索 数据库 模型下的翻译记忆以句段为单位 检索无法深入到句段以下的层次 而引用模型 下检索虽不受翻译单元的限制 产生的不相关结果却相对 noise 较多 Gow 2003 38 此外 当前的翻译记忆大多不具备语言学标注 作为翻译记忆储存交换标准 的 TMX 也未针对语言学标注进行扩展或规定 翻译记忆如同语料库中的 生 语料 其中包含的翻译资源得不到充分挖掘 限制了其深度应用 3 2 翻译记忆系统的局限翻译记忆系统的局限 第一 如前所述 翻译记忆检索的算法基于语言形式而非意义 检索深度和 精度不高 译者对于检索的控制性弱 检索时可配置的选项较少 同时匹配率的 设置过于概括 仅使用百分制比较句子相似度不甚合理 第二 由于商业原因 翻译记忆系统之间差异较大 在系统要求 所支持的 文件格式 提供的功能 价格和售后服务等方面均不相同 专业译者有时不得不 安装多个系统以解决翻译过程中出现的各种问题 此外 出于市场竞争考虑 各 类翻译记忆系统虽然均支持 TMX 格式 但为增加用户粘性 都在各自系统中添 加对数据 翻译记忆 术语等 更详细的描述与属性 在数据转移或系统更换时 有可能会造成数据流失 第三 使用翻译记忆系统进行翻译同译者所熟悉的传统翻译过程区别较大 需要较长时间学习并掌握 翻译记忆系统也会对翻译过程产生一些负面影响 如 译者可能会避免使用指代以迁就翻译记忆 提高匹配率 Heyn 1998 135 而 以句段为翻译单位让译者容易失去语篇观念等 此外 翻译记忆系统往往价格昂贵 前期投入较高 使不少有此需求的个人 和小型单位用户望而却步 虽有少数开源系统可供自由使用 但均为纯 Word 模 板类型的简单的嵌入式系统 4 翻译记忆技术和翻译记忆系统的发展趋势翻译记忆技术和翻译记忆系统的发展趋势 自第一个翻译记忆系统问世至今已有近 20 年 此间 已存的翻译记忆系统 升级换代 新的翻译记忆系统层出不穷 通过对可获及的翻译记忆系统进行历时 与共时的研究 笔者认为 虽然现在的翻译记忆系统较过去增加了诸如对齐 项 目 流程管理 质量保证和术语提取等多种外围功能组件 但其核心翻译记忆技 术缺乏突破性进展 检索能力没有质的飞跃 展望将来 翻译记忆技术与翻译记 忆系统存在如下发展趋势 集中化趋势 将翻译记忆与术语等翻译资源集中储存在中央服务器的数据库 中 不同权限的工作站通过网络连接到中央服务器进行按需检索 翻译资源的集 中一方面可以使翻译记忆匹配和词语索引更全面可靠 检索和维护更简单 另一 方面也可以更方便地实现对翻译资源知识产权的保护 适应信息情报保密与安全 的需要 加拿大蒙特利尔大学 RALI 实验室的翻译记忆检索库 TransSearch 目前 已实现商用 其经验可供借鉴 深加工翻译记忆的趋势 翻译记忆 从某种程度上而言就是对齐后的平行语 料 而目前翻译记忆所挖掘出的仅仅是译文中表层的很少一部分的知识与经验 因此 目前研究者们都在关注如何结合语料库的研究方法进一步利用并完善翻译 记忆 与机器翻译相结合的趋势 翻译记忆属于计算机辅助翻译 是研究机器翻译 的过程中出现的一种折衷 高质量的 可作为双语语料库的翻译记忆可以应用于 基于统计和基于实例的机器翻译系统 5 对我国相关研究与应用的思考与建议对我国相关研究与应用的思考与建议 5 1 翻译记忆技术研究翻译记忆技术研究 我国学术界对国外计算机辅助翻译技术与工具的评介早已有之 但大多局限 在机器翻译和计算机辅助翻译比较上 对计算机辅助翻译的介绍过于概括 缺乏 新意 具体到翻译记忆技术和翻译记忆系统的应用研究更不多见 然而 在翻译 服务行业中 翻译记忆系统为大多数本地化从业者 专职翻译以及兼职翻译所熟 知 并在部分从业者中得到了合理应用 提高了工作效率与翻译质量 这些实际 使用者对当前国内外主流的翻译记忆系统乃至其他计算机辅助翻译工具有着丰 富的使用经验 但由于缺乏理论研究氛围 或忙于本职工作无暇研究 对翻译记 忆系统的认识与评价往往注重于实际操作经验 主要以技巧心得的形式在互联网 上流传 这就形成了整体上 言者不尽知 知者未尽言 的局面 一方面诚然是 由于一般文科学者缺乏信息技术敏感性所致 另一方面也是翻译理论研究与实践 脱节的一种具体体现 笔者认为 为改变这种局面 应当引介国外相关学术著作与文章 追赶同国 外翻译记忆技术乃至计算机辅助翻译技术研究之间并不巨大的差距 值得注意的 是 香港和台湾在计算机辅助翻译的研究和应用上起步早 应用广 同国际联系 紧密 取得了不少成果 大陆研究者应当与其加强交流 相互借鉴 此外 随着 翻译研究的跨学科性越来越鲜明 计算机辅助翻译研究作为信息技术和翻译研究 的结合需要所有相关领域研究者的合力协作 具体到翻译记忆技术上 除了翻译 研究者之外 还需要自然语言处理 语料库 软件工程学等诸多领域专家学者的 共同努力 重点在翻译记忆的语块识别 翻译记忆与平行语料库建设 翻译记忆 标准扩展 翻译记忆系统设计等方面加强研究与合作 2007 年 5 月 北京大学 软件与微电子学院 北京大学计算语言研究所与香港中文大学电脑辅助翻译系启 动了科研与教学合作 在学术机构间交流和跨领域合作上迈出了第一步 5 2 翻译记忆系统开发翻译记忆系统开发 目前我国自主开发的较为成熟的翻译记忆系统有雅信 CAT 系统 华建机器 翻译系统等 其中 笔者了解并实际使用过雅信 CAT 系统 该系统采用数据库 储存模型 基于字符串检索 编辑环境同 Trados 类似 为嵌入式 Word 模板加外 接程序 雅信 CAT 系统的特色是针对国内译者实际需求 内置了大容量的中英 专业词库 能够进行中文自动分词 并在此二者基础上具备中英机器互译功能 这是国外翻译记忆系统目前无法做到的 当然 作为国内翻译记忆系统的典型代 表 雅信尚非完美 在很多方面仍需改进 针对今后翻译记忆系统的研发 笔者建议 一 优先采用数据库模型的翻译 记忆 支持 TMX 标准 同国际接轨 同时要对数据库模型的缺点有清醒的认识 寻求克服其缺点的对策 条件允许情况下可以对结合两种模型架构的系统进行探 索性研究 二 顺应 第二代翻译记忆 的趋势 结合中文自动处理技术建立适 用于中文翻译记忆检索的算法 标注体系和语言知识库 只要字符集支持 基于 字符串检索的第一代检索方式可以应用于任何一种语言 包括以中文为源语或目 标语的翻译 然而利用语言学知识增强翻译记忆检索的 第二代翻译记忆 技术 则需要真正了解中文 通晓中文自动处理的国内学者的研究才能实现 三 翻译 编辑环境同翻译记忆系统使用者最为密切相关 其友善性一向被用户注重 却往 往容易被系统开发者忽视 据调查 Lagoudaki 2006 1 开发人员在系统设计 之前很少向用户征询意见 而往往是在系统已经基本定型 开始测试时才给用户 提出意见的机会 而此时的反馈很少能使开发者对系统做出相应更改 由于嵌入 式系统和独立式系统差异较大 因此在翻译编辑环境的设计时 应当广泛听取使 用者及潜在使用者的意见 在此基础上针对用户需求选择形式进一步完善 5 3 翻译记忆系统的教学翻译记忆系统的教学 在翻译教学的学历教育中增加计算机辅助翻译与翻译记忆系统应用课程 国 内已有学者对此进行专门的研究与探索 通过网上检索香港中文大学可以发现 其翻译专业目前的课程体系设置中列有 Computer Translation Project Information Technology and Computing Introduction to Computer aided Translation 等课程 但 据笔者粗略调查 大陆的高等院校 真正在翻译专业的本科和硕士阶段全面开始 CAT 课程的还基本没有 例外的是北京大学的语言信息工程系 提供计算机辅 助翻译专业的硕士学位课程 徐彬 2006 63 并且首度明确提出应将计算机 辅助翻译课程纳入我国翻译专业课程体系设置 非学历翻译培训方面 据笔者所知 国内目前有北京大学的 计算机辅助翻 译高级研修班 已于 2007 年 4 月开课 以及 SDL Trados 公司对其旗下产品的 应用培训 目前已举办两期 和其他推广性培训活动 通过将北大语言工程系计算机辅助翻译硕士专业培养方案和课程计划与香 港中文大学翻译系电脑辅助翻译硕士课程简介相比较可以看出 前者的培养目标 是使学生成为 具备超越其他翻译师的信息技术的应用能力 掌握机器翻译和机 器辅助翻译的原理和使用技巧 可自由灵活地进行系统定制 从而最大限度地提 高翻译工作的效率 或直接参与语言信息处理系统和多媒体内容信息处理系统的 研发工作 俞敬松 2006 1 后者在 2005 年称 课程取向将加强翻译的训练 和软件的理论和应用 使课程更具实用性 也就是从 电脑翻译 趋向 电脑辅 助翻译 以适应世界潮流和社会的需要 同时配合翻译系课程专业化的目标 方梓勋 2005 2 香港中文大学的这一专业通过课程的组合提供了三种修读 模式 翻译实践 电脑辅助翻译 电脑科学 并于 07 年除已有的两年兼读制之 外又开设了一年全日制课程供学生更为灵活的学习 可以看出 同香港中文大学 应用性的培养目标与课程设置相比 北大开设的计算机辅助翻译硕士专业增加了 对技术研究与系统开发的侧重 意在培养高层次的 同时拥有两个领域技能的宝 贵人才 然而 仅凭一所或几所高校开设计算机辅助翻译专业并不能满足市场对通 晓计算机辅助翻译工具 能熟练使用翻译记忆系统进行实际工作的译员的需求 况且 高校计算机辅助翻译专业还要承担培养科研与开发人才的任务 仅培养计 算机辅助翻译工具的使用者未免大材小用 计算机辅助翻译作为当今翻译实践中 的一种重要手段 应该定位为译者的常备技能进行培养 2007 年 3 月 30 日 国 务院学位委员会印发了 翻译硕士专业学位设置方案 以培养注重翻译实践能 力的硕士人才 笔者认为 应该借此契机将计算机辅助翻译课程纳入翻译硕士专 业课程设置 并将翻译记忆系统的应用作为笔译课程的必修科目之一 还可将计 算机辅助翻译作为选修课引入本科翻译专业课程设置 向学生做一般性介绍 参考文献 参考文献 1 Bowker Lynn 2002 Computer Aided Translation Technology A Practical Introduction M Ottawa University of Ottawa Press 2 Gow Francie 2003 Metrics for Evaluating Translation Memory Software D University of Ottawa 3 Gr nroos Mickel Ari Becks 2005 Bringing Intelligence to Translation Memory Technology C Proceedings of the International Conference Translating and the Computer 27 London Aslib 4 Heyn Ma

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论