词语对齐与机器翻译问题研究.pdf_第1页
词语对齐与机器翻译问题研究.pdf_第2页
词语对齐与机器翻译问题研究.pdf_第3页
词语对齐与机器翻译问题研究.pdf_第4页
词语对齐与机器翻译问题研究.pdf_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

民族翻译 2010 年第 1 期 总第 74 期 90 词语对齐与机器翻译问题研究 以汉蒙机器翻译为例 姜迎春 雪艳 中国民族语文翻译中心 中央民族大学 北京 100080 摘 要 目前基于实例的机器翻译方法和统计机器翻译方法被视为机器翻译界主流译法 本文试图结合以上两种 方法为例说明实现词语对齐 Word Alignment 对机器翻译等工作流程中的重要性和必要性问题 关键词 词语对齐 机器翻译 平行语料库 蒙古文信息处理 中图分类号 H212 59 文献标识码 A 文章编号 1674 280X 2010 01 0090 05 一 前 言 平行语料库 parallel corpora 是包含多个互译文本的语料库 1 2 4 6 9 它可以由一个源语言文本 及其相应的翻译文本构成 也可以是用多种语言同时创作并内容一致的文本 如联合国宪章 欧盟宪 章等 构成 最典型的平行语料库为包含两种语言互译文本的双语平行语料库 bilingual parallel corpora 相关文献中还经常以双语语料库 bilingual corpora 或者双语文本 bitext 等名称出现 由 于平行语料库在语言的多个层面 如词 短语 句子 段落 篇章等 上体现两种 多种 语言的互 译对照信息 因此能够为语言学习 人工翻译 语言对比研究以及自然语言处理的诸多应用领域提供 强有力的支持 受到国内外自然语言处理现状及其发展趋势的启发 我们认为开展有关平行语料库方面的研究对 于蒙古文信息处理具有十分重要的意义 2003 年内蒙古大学蒙古学学院与中国科学院计算技术研究 所 北京大学计算语言学研究所合作开发了一个面向非限定领域的基于实例的汉蒙机器辅助翻译系统 国家 十一五 863 计划课题 汉蒙机器翻译系统 课题编号2003AA115510 基于实例的机器 翻译 Example Based Machine Translation System EBMT 系统 要求以平行语料库作为数据源为翻 译引擎提供双语互译信息 由此 建立汉蒙平行语料库成为一项具体的任务而被提到议事日程上来 经过近5 年的努力 汉蒙平行语料库目前已达到包括日常用语语料 小说语料 政府文献语料和 混合语料四种类型在内的近6 万句对的规模 由于蒙古文网络资源相对匮乏 编码转换技术也不够成 熟 我们没有很多现成的蒙古文机器可读资源可以直接利用 因此 语料收集和整理的过程 不仅周 期长 人力和物力的消耗也很大 举个例子来说 我们可以相对轻松地在中文网站上收集到很多 日 常用语 而与之对应的蒙古语部分却要通过至少三个步骤才能完成 第一步由专业的汉蒙翻译工作者 进行翻译 第二步以蒙古文拉丁转写形式录入 第三步是人工校对 下面是汉蒙语料的一个样例 汉汉 语语 句句 子子 蒙蒙 古古 语语 句句 子子 爱情与战争 只要能取胜 方法都可用 DVRALAL DAYIN HOYAR TV ILADAG ARG A BOHON I HEREGLEJU BOLON A 尽管这些植物看起来很相似 实际上却 属于完全不同的种类 EDEGER VRGVMAL TOSTEI HARAGDABACV UNEN DEGEN OGER E OGER E TOROL UN HI YVM 民族翻译 2010 年第 1 期 总第 74 期 91 真正具备应用价值的平行语料库 并非只是互译文本的随意罗列或堆积 只有经过 对齐 Align 的平行语料库 才能够为各种自然语言处理系统所使用 所谓对齐 就是从互译的文本中找出其互译 片断 由于互译片段的粒度不尽相同 因此有篇章 Section 段落 Paragraph 句子 Sentence 短语 Phrase 单词 Word 等不同级别的对齐 篇章 段落 句子的对齐技术主要用于语料库的整 理 对于许多基于平行语料库的应用 如机器翻译词义消歧 Word Sense Disambiguation 和词典编纂 来说 仅有句子级别的对齐是不够的 必须进一步做到词汇级别的对齐 即找出源文和译文文本间词 一级的对应翻译关系 3 5 7 9 目前 汉蒙平行语料库的大部分数据是通过手工录入收集起来的 因此在语料整理之初就已经做 到了句子一级的对齐 至少在现阶段 汉蒙平行语料库的加工不涉及篇章 段落以及句子级别的对齐 任务 下面以两种机器翻译方法为例来说明实现词语对齐的重要性和必要性 二 词语对齐与基于实例的机器翻译 基于实例的机器翻译 Example Based Machine Translation EBMT 方法 其基本思想是由日本著 名机器翻译专家长尾真 Makoto Nagao 在1984年发表的论文 A Framework of a Mechanical Translation between Japanese and English by Analogy Principle 中首先提出的 EBMT 的基本原理很简单 系统的 知识源是双语平行实例库 实例库主要有两个字段 一个字段保存源语言句子 另一个字段保存对应 的译文句子 当输入一个待翻译的源语言句子S时 系统对S和实例库中的源语言字段进行比较 找 出与S最为相似的句子S 经过单词 片段的匹配 模拟S 的译文T 构造S的译文T 然后输出 如 下图1 图1 基于实例的机器翻译 假设系统已经在实例库中找到了与待翻译的源文句子S 最为相似的句子S 接下来的任务是根 据S 和S 的差异 构造与T 具有相应差异的译文T 那么 这差异是什么 又该如何将这种差异从 源文体现到译文呢 依靠目前的匹配技术 通常只能在词的层面上比较S 和S 的差异 例如 有一 个待翻译的句子S 这台机器坏了 通过在实例库中进行匹配操作 找到与该句最为相似的句子S 这台售票机坏了 这两个句子的差异在于实例源文 S 中的词 售票机 被 机器 这个词替换 了 要把这种差异加给实例译文T ENE BILET HVDALDV MASIN EBDEREJEI 并对它进行 改造 必须知道 S 和 T 之间的词语对应关系 只有这样才能完成词的插入 替换 删除等译文 T 民族翻译 2010 年第 1 期 总第 74 期 92 的构造任务 如下图2 图2 EBMT译文构造 通过模拟EBMT 系统的翻译过程可以看出 经过词语对齐的实例库能够为系统提供颗粒度更小 的 内容更细微的双语互译信息 三 词语对齐与统计机器翻译 统计机器翻译 Statistical Machine Translation SMT 方法 最早是由IBM 公司的Peter F Brown 等人于 20 世纪 90 年代初提出的 3 这种方法假设源语言中的每一句话都有可能翻译成目标语言中 的任意一句话 翻译的目标就是找出其中对应概率最大的映射 该方法需要大规模双语平行语料库 作为训练各种概率参数的基础 平行语料库的词语对齐结果是统计机器翻译的一个中间产物 也是 建立翻译模型的基础 无论是传统的基于词的翻译模型 还是现在较为流行的基于短语的翻译模型 都必须先建立源语言和目标语言的词语对应关系 才能完成翻译概率的计算 我们可以用如下比喻来理解基于噪音信道模型 the noisy channel model 的统计机器翻译方法 某人的脑子里原本存在一个字符串 句子 t 可当它现于纸上时 却因为受到 噪音 干扰 畸变 成了s 那么翻译的目标就是将s 还原为t 根据贝叶斯公式推导得到 P s t P t P t s P s 1 我们要得到一个t 使得P t s 值最大 可用argmaxt函数表达 记为t tt P s t P t targmax P t sargmax P s 2 P s 独立于t 对于所有可能的字符串t 来说 它都是一个常量 因此在最大化的过程中可以忽略P s 这样 就得到统计机器翻译的基本方程式 Fundamental Equation of SMT t targmax P s t P t 3 其中 P s t 称为翻译模型 P t 称为语言模型 基于该方程式 可将翻译过程理解为翻译模型 P s t 的参数估计 语言模型P t 的参数估计以及最优译文的搜索等三个问题 由于即便拥有超级规模的平行语料库 句子的重复出现几率非常低 且语料库所能覆盖的句子 又非常有限 翻译模型P s t 的训练无法直接在句子一级的语言单位 或者更高级别的语言单位 上 民族翻译 2010 年第 1 期 总第 74 期 93 实现 因此有必要对其进行分解 在重复出现几率较高 比句子小的语言单位 如 词 上进行参 数估计 分解的第一步是在翻译模型中引入另一个随机变量A a A P s tP s a t 4 a 是 t 和 s 上的一个词语对齐 代表 t 中每一个单词与 s 中的零个或者一个或者多个单词的对应 关系 A 是所有组合上可能的对齐的集合 词语对齐的过程就是一个求最大概率值的搜索过程 本文的重点不在于详细描述SMT 翻译模型的构造方法和过程 所以只用一个简单的流程图 如 下图3 从最外围的角度说明词语对齐在SMT 中的位置 图3 统计机器翻译 四 结 语 EBMT 和 SMT 被视为目前 MT 领域主流的机器翻译方法 而无论对于哪一种方法而言 词语对 齐在它们实现翻译的过程中都是一个非常重要的环节 事实上 除了机器翻译以外 双语词典编纂 词义消歧等很多与双语处理相关的应用领域也都需要双语词汇间的对应信息 因此 可以说 词语对 齐 是包括蒙古文信息处理工作在内的诸多文种信息处理工作的一项不容忽略的基础性工作 作者在内蒙古大学蒙古学学院就读期间曾作为主要成员参加该课题的研究 参考文献 1 Be ta Bandmann Megyesi Anna S vall Hein va Csat Johanson Building a Swedish Turkish parallel corpus http www mt archive info LREC 2006 Megyesi pdf 2 Harold Somers Bilingual parallel corpora and language engineering Anglo Indian Workshop Language Engineering for South Asian Languages LESAL 2001 3 J rg Tiedemann Recycling translations extraction of lexical data from parallel corpora and their application in natural language processing PhD thesis Uppsala University 2003 民族翻译 2010 年第 1 期 总第 74 期 94 4 McEnery A Z Xiao Parallel and comparable corpora What are they up to In M Rogers and G Anderman eds Incorporating Corpora The Linguist and the Translator Clevedon Multilingual Matters 2007 http eprints lancs ac uk 59 1 corpora and translation pdf 5 Pascale Fung Multilingual Language Processing 6 柏晓静 常宝宝 詹卫东 吴拥华 构建大规模的汉英双语平行语料库 7 邓丹 汉英词语对齐技术研究 J 2004年中国科学院研究生院硕士学位论文 8 王斌 汉英双语语料库自动对齐研究 J 1999年中国科学院博士学位论文 9 王克非 双语对应语料库研制与应用 M 北京 外语教学与研究出版社 2004 10 Peter F Brown Stephen A Della Pietra Vicent J Della Pietra and Robert L Mercer The mathematics of statistical machine translation Computational Linguistics 19 2 1993 11 Kevin Knight A statistical machine translation tutorial workbook unpublished prepared in connection with the JHU summer workshop August 1999 at http www clsp jhu edu ws99 projects mt wkbk rtf 作者简介 姜迎春 女 蒙古族 中国民族语文翻译中心蒙文翻译室翻译 主要研究方向 汉蒙翻译 口头诗学 雪 艳 女 蒙古族 中央民族大学蒙古语言文学系讲师 主要研究方向 蒙古文信息处理 汉蒙平行语料库 汉蒙机器翻译 中国译协六届一次常务会长会议在京召开 2010 年 1 月 20 日 中国

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论