基于多引擎的 WEB 机器翻译系统 在专利文献中的应用.pdf_第1页
基于多引擎的 WEB 机器翻译系统 在专利文献中的应用.pdf_第2页
基于多引擎的 WEB 机器翻译系统 在专利文献中的应用.pdf_第3页
基于多引擎的 WEB 机器翻译系统 在专利文献中的应用.pdf_第4页
基于多引擎的 WEB 机器翻译系统 在专利文献中的应用.pdf_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2007年第年第3期期 专利文献研究专利文献研究 2007年年6月月 基于多引擎的基于多引擎的WEB机器翻译系统 机器翻译系统 在专利文献中的应用 在专利文献中的应用 中国专利信息中心 高立华 随着我国专利申请量的逐年增长 越来 越多的国外人士需要浏览我国的专利文献 对于母语是非汉语的人士来说 要在浩瀚的 专利文献中检索出有用的专利信息 这就需 要一个从中文到英文甚至到其它种类语言 的转换 基于多引擎的 WEB 机器翻译系统 以下简称多引擎翻译系统 基本可以满足 这种需求 本文仅对中文到英文的翻译作初 步的探讨 一 多引擎翻译系统的发展背景 一 多引擎翻译系统的发展背景 自 20 世纪 90 年代后期以来 机器翻译 的方法和技术从传统的基于规则的机器翻 译 RHAT 扩展到了诸如基于实例的机器 翻译 EHMD 基于模版的机器翻译 MT 基于知识的机器翻译 KHAT 统计机器翻 译 SIT 混合式机器翻译 HMD 机器 翻译所依据的语言学理论则从以句法描述 为特征的短语结构语法 发展到以语义描述 为特征的格语法 依存语法 配价语法 再 到以知识描述为特征的翻译系统以及本体 论 Ontclogy 机器翻译在走过了漫长的发 展历程后 其局限性仍然比较明显 究其原 因 是由于单一的机器翻译方法难以适应不 同领域的需求所造成的 基于多引擎的 WEB 机器翻译系统 经 过了艰辛的历程 其最终目标是 实现 70 80 的可读性和可理解性 实现母语为非 汉语的国内外专利人士及专利爱好者对专 利文献的阅读和快速浏览功能 并在一定程 度上对专利文献的翻译起到辅助和参考作 用 二 多引擎翻译针对专利文献的引擎分 配 二 多引擎翻译针对专利文献的引擎分 配 专利文献具有其特定的格式及特点 比 如 每篇专利文献基本是由标题 文摘 权 利要求 说明书和附图这五部分组成 虽然 专利文献囊括了各个实用技术领域 而且有 很强的专业术语 对它们的翻译工作看似是 一项巨大而艰难的工程 但其每部分的撰写 都有其固有的特性 这就使得专利文献具有 采用多引擎翻译引擎得天独厚的优势 本系统可集成多个翻译引擎 构建不同 级别的翻译服务 对不同目标 如速度和准 确性之间的折衷 采用不同的引擎 例如 对标题 文摘 权利要求 说明书和附图的 翻译需要不同的翻译机制 允许翻译服务的 请求者对翻译内容做出某种标记 1 对于标题可以调用基于规则的翻译 引擎 对于标题可以调用基于规则的翻译 引擎 标题是对全文的高度概括 它不像专利 文献中的句子 上下连贯 共同阐述某个问 题 它浓缩了文章的内容 简单 明了 因 此 标题一般可以翻译成名词短语 动名词 短语 介词短语 不定式短语 例如 中文 离合器装置和具有该装置的电动 检索与数据库检索与数据库 国家知识产权局专利局文献部国家知识产权局专利局文献部 1 2007年年6月月 专利文献研究 专利文献研究 2007年第年第3期 期 机设备 英文 Clutch device and motor apparatus having the same 中文 调整装置 生产加工系统和控 制调整装置的方法 英文 Adjusting apparatus production processing system and method of controlling adjusting apparatus 为避免标题中复合长句式太多 结构过 于复杂 所以广泛使用非谓语动词短语性长 句 应该说在叙述中大量 V ed 和 V ing 等非 谓语动词形式是专利标题翻译的主要特征 之一 这样 对于标题可以调用基于规则的 翻译引擎 2 权利要求可采用基于模板的翻译引 擎 权利要求可采用基于模板的翻译引 擎 权利要求书具有法律意义 这部分集中 体现了申请人对于自己的知识产权的范围 和应用的可能性进行有效保护 法律的语言 特色是模糊和清晰的统一 专利文件往往也 具有模糊性 其模糊性存在的原因是由于因 为专利持有人不可能完全列举专利技术的 应用潜力 而原文中的模糊说法 或许正是 原文作者有意留下的陷阱 翻译中没有责任 也没有必要清除这些模糊性 而是考虑如何 用汉语中的相应词汇保留这些模糊概念 因 此 这也是翻译过程中应该注意保留的原文 文体的特点之一 专利翻译不能像文学翻译 那样 深入理解 而只能以准确把握字面意 义为限 因此 其表达方式非常统一 可采 用基于模板的翻译引擎 翻译独立权利要求时 要特别注意技术 特征部分是否是开放式的还是闭合式的 正 确 使 用 comprise consist of contain essentially consist of substantially comprise 等等 1 例如 包含 包括 或 含有 基本具有固定的译法 comprising including containing 2 由 组成 应译为 consisting of 基本上由 组成 或 大体上 由 组成 应译为 consisting essentially of 这两个句式连接字词有着重大意义差 别 consisting of A and B 只包括 A 及 B 无其它 comprising A and B 除包括 A 及 B 外 尚可能包括 C D 等 所以 需要把这 些语句放入模板库形成固定的译法 3 其 特 征 在 于 可 译 为 characterized in that characterized by 3 专利说明书采用基于实例的翻译引 擎 专利说明书采用基于实例的翻译引 擎 在文摘中经常会出现一些对其功能和 效用的总结 这些句子 如果直接用机器翻 译 结果会令人很不满意 甚至出现啼笑皆 非的现象 例如 中文 该方法得到极好的结果 而且比 已知方法灵活而且也简便得多 英文 The method gives excellent results and is flexible and also much simpler than known methods 面向专利性说明文的汉英机器翻译模 板 需要抓住的是格式特点的规律性东西 或者说要把这些格式的常见表达方式尽可 能收集和穷尽 然后总结抽象成为翻译实 例 由于专利摘要属于典型的说明文 其表 达格式相对规范 遣词造句比较简单 因此 可以将常用的主要的表达方式收集完全 争 取做到穷尽 这样汉英机器实例翻译至少可 以把专利摘要的句子结构翻译得比较地道 和准确 例如 中文 在一个优选实施方案中 该非织 造织物具有弹性拉伸与回复性和类似于织 物的手感 英文 In a preferred embodiment the nonwoven fabrics have elastic stretch and 国家知识产权局专利局文献部国家知识产权局专利局文献部 2 2007年第年第3期期 专利文献研究专利文献研究 2007年年6月月 recovery properties with a textile like hand 上文中 在一个优选实施方案中 或 在一个较好的实施方案中 均可翻译成 In a preferred embodiment 再如 在此 设计方案中 可翻成 In this arrangement 这些均可制作为实例加入翻译引擎 三 多引擎翻译的优势 三 多引擎翻译的优势 在基于多引擎的机器翻译研究中 计算 机工作者和语言工作者的合作形成了一种 新的范式 语言工作者的工作主要是定义和 开发语料库 词典等语言学资源 而计算机 工作者主要是改进算法 这种范式比基于规 则的机器翻译系统研究中形成的开发范式 更加有效 语言数据和算法之间的区分更加 清楚 在系统开发阶段 语言工作者可随时与 计算机工作者进行交互 二者独自开发 语 言工作者开发的语言资源不是为特定的机 器翻译系统服务的 可以用于任何一个机器 翻译系统 这样从总体上大大减少了语言工 作者的重复劳动 形成了良好的积累效应 而且 计算机工作者可以不断地通过改进算 法来提高机器翻译系统的性能 而不像基于 规则的范式中 一旦算法确定 提高系统性 能的任务主要取决于语言工作者的词典编 辑 图1是以基于规则的翻译为例的翻译流 程图 其它的基于实例 基于模板的翻译流 程类似 成功 输入待处理句子 译文生成 搜索词料库 预处理 词典 规则处理 语料 规则 Y N 图 1 翻译流程图 四 四 多引擎翻译多引擎翻译的词典维护的词典维护 多引擎机器翻译需要有一套合适的机 器词典来支持 为了提高机器译文的质量和 工作效率 本系统词典设计采用 基础词典 专业词典 的形式 要翻译某一专业领域 的文献 则要建立具有基础词条和该专业词 条的词典 例如要自动翻译化工学专业的文 献 则词典中只需要具有基础词条和化工专 业词条 当改变专业领域时 只需选择相应 的专业词典即可 这种积木式结构的词典既 有继承性 又有可拆卸替换性 有利于词典 的扩充与提高 以往的翻译系统都是以单一翻译工作 人员或集中工作的翻译小组为服务对象 不 国家国家知识产权局知识产权局专利局文献专利局文献部部 3 2007年年6月月 专利文献研究 专利文献研究 2007年第年第3期 期 能或不便于在更大物理范围内使不同的翻 译人员协同工作并共享资源 这样的现状所 导致的结果是不同的翻译人员可能需要进 行重复劳动 翻译过程中互相等待 不同翻 译人员的翻译结果需要重新进行统一方能 输出 最终造成资源与时间的严重浪费 在 经济活动日益频繁的今天 翻译项目 尤其 是商业性的翻译项目 时间和准确率往往决 定着项目的成败 某个翻译工作者效率的提 高 不能显著提高处于分散工作状态的小组 效率 要解决这一问题 就需要将现有的单 机或局域网软件向互联网进行移植 并同时 提供一些实用的网络功能 从而更好地进行 跨地域的小组合作 实现小组成员间的资源 共享 提高小组整体工作效率 系统管理员 管理调试界面 查询 增删 修改 使用界面 英汉翻译 汉英翻译 词 实例 语 言 模 型 翻译子系统知识 用户 规则 图 2 如图 2 所示 此系统在对词库的维护过 程中 由系统管理员分配客户端用户名及密 码 客户端用户在登陆了词库维护工具界面 后 即可进行汉英 英汉的翻译工作 在对 翻译结构进行分析后 可对词库中已有的词 进行添加 删除 修改 对于普通用户 不 具有修改其它用户词的权限 经过一定时间 的协同作业 比如 以一周为一个周期 可 由精通此专业的用户来统一修改和去除重 复的词汇 当然 要在管理员给其设定了相 应的权限后方可进行 五 五 多引擎翻译的多引擎翻译的 Web 服务服务实现实现 采用 J2 EE Web 服务方式实现 Web 服 务 J2EE Web 服务规范定义的体系结构关 系是一种逻辑关系 添加到 J2EE 平台的内 容包括依赖于由 Web 容器和 EJB 容器提供 的端口组件以及 SOAP 传输 J2EE Web 服 务需要端口能够从客户机 Web 容器和 EJB 容器引用 J2EE Web 服务的特定角色可以 被映射到已有的 J2 EE 平台角色上 例如 J2 EE Web 服务产品提供者角色可以被映射 到 J2 EE 产品提供者角色上 Web 服务容器 提供者角色可以被映射到 J2 EE 规范中的容 国国家知识产家知识产权局专利局权局专利局文献部文献部 4 2007年第年第3期期 专利文献研究专利文献研究 2007年年6月月 器提供角色上 Web 服务的客户机可以是另一个 Web 服务 一个 J2EE 组件 包括 J2EE 应用程序 客户机 或任意的 Java 应用程序 Web 服 务客户机视图可以是远程的 它提供了本地 与远程间的透明性 1 Web 服务的特点服务的特点 1 以基于实例 辅以模式的混合策略 机器翻译方法为基础 2 将实例库和规则库进行分离 实例 库在服务器端存储 规则库则安装在客户 端 3 根据对实例库的客户端使用频率及 客户端硬件条件 可自主选择是否下载部分 常用实例库至客户端运行 以提高客户端工 作效率 4 实例库和规则库的自动及手动上传 和下载更新功能 5 为减轻服务器负载 使用 P2P 技术 对某些实例库进行分散存储 6 其他辅助性功能 如对 Word 与 PDF 文件的兼容 集成网络化双语或多语 电子词典 集成网络化术语库 Term Lib 功能 集成各大搜索引擎等 2 优点 实例库和规则库的分离存储与 管理 优点 实例库和规则库的分离存储与 管理 以多引擎机器翻译系统为基础的机器 翻译有两个关键模块 即实例库和规则库 其中实例库是翻译工作主要的参考源 也是 小组协作工作时需要共享的最重要的资源 随着翻译项目的展开其容量会不断增加 而 规则库基本上在软件开发时就已经形成 且 很少发生变化 这样的特点决定了在网络化 的机器翻译软件系统中 可以采用实例库和 规则库进行分离的存储技术 使用网络化的机器翻译系统 翻译小组 的成员在物理上可以分布在拥有互联网接 入的任何地点 由于实例库集中位于服务器 端存储 确保了所有的小组成员都可以共享 项目的实例资源 而每个成员完成的新的实 例 都可以即时更新到实例库 从而保证服 务器端实例库始终最新最全 为了确保实例 的有效性 项目管理人员可以给小组成员分 配不同权限 并在所有新的实例进入服务器 实例库之前进行审核和预处理 在服务器端 和客户端均有规则库 小组成员平时依靠本 地规则库工作 当规则库有更新时 可从服 务器端自动向所有小组成员进行发布 在这种结构下 根据小组成员的使用需 要 也可以自主选择是否将一部分实例库下 载到本地运行 以提高客户端的翻译效率 项目管理人员可以对小组成员设定权限 确 定每个成员可下载的范围 这对于整个项目 的管理和保密将至关重要 由于用户可以将 部分实例库下载到本地运行 为减轻主服务 器的负载 可以考虑使用 P2P 技术将数据 进行分流 翻译系统可以自动选择以最节省 网络资源的方式与其它用户共享实例资源 六 多引擎翻译的其他实用性功能 六 多引擎翻译的其他实用性功能 在上述基本结构基础之上 网络化的多 引擎翻译系统还提供如下一些实用性功能 从而使得整个系统更趋完善 这些功能是 1 文档兼容性文档兼容性 翻译工作中最常接触的两类文档格式 是 Word 和 PDF 文件 由于大部分翻译人员 都采用微软的 Word 作为字处理软件 以往 遇到 PDF 文件时 往往需要借助第三方软 件将 PDF 文件转换成 Word 文档格式才能 够进行工作 在此系统中 可集成对 PDF 文档的转换功能 从而为翻译人员提供一项 非常大的便利 2 网络双语或多语电子词典 网络双语或多语电子词典 在翻译人员的工作过程中 经常需要查 询各种专业词典 借助于传统的纸质词典或 其他第三方电子词典常需要打断现有的工 作进程 也要消耗一定的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论