




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一种基于实例的汉英机器翻译策略一种基于实例的汉英机器翻译策略1 胡国全 陈家骏 戴新宇 尹存燕 南京大学计算机软件新技术国家重点实验室 南京 210093 南京大学计算机科学与技术系 南京 210093 摘要 摘要 介绍了一种基于实例的汉英机器翻译策略 重点讨论汉英双语语料库的设计和 基于该语料库的汉语句子的匹配算法 在进行汉语句子的匹配时 根据汉语的特点直接采用 汉字的匹配 而没有进行汉语句子的分词 另外 匹配时确定匹配片断的边界也是基于实例 机器翻译的难点之一 在这方面也采取了相应的解决方法 没有对翻译句子的连接装配进行 更深入的研究 这是因为该翻译策略是用于多翻译引擎系统的 它要与其它翻译策略配合使 用 以提高翻译结果的正确率 基于实例的机器翻译需要大量的双语语料库作为翻译时的依 据 而人工建设大型语料库费时费力 所以尝试采用计算机进行汉英双语语料库的自动建立 包括篇章对齐和单词级的对齐 关键词 关键词 自然语言处理 机器翻译 基于实例 中图分类号中图分类号 TP391 2 A Example based Chinese English Machine Translation Strategy HU Guo quan CHEN Jia jun DAI Xin yu YI Cun yan Department of Computer Science and Technology Nanjing University State Key Laboratory for Novel Software Technology at Nanjing University Nanjing 210093 Abstract This paper presents a Chinese English machine translation strategy based on EBMT Example based machine translation technique EBMT systems have two main difficult issues determining fragment s boundary in matching process and establishing bilingual corpus When processing Chinese it doesn t analyze words Some statistical methods are used to align sentences and words for example using co occurrence frequency Considering the characteristics of Chinese when matching two Chinese sentences it matches them in terms of Chinese characters About boundary determination it uses an appropriate measure to solve it We have not studied deeply in assembling matching fragments This translation strategy is meant to be used as one of the engines in a multi engine translation system It is a very difficult task to construct a big bilingual corpus manually so this paper tries to use computer to process it automatically It includes automatic alignment of bilingual sentences and words Key Words natural language processing machine translation Example based 1 前言 前言 基于实例的机器翻译 Example Based Machine Translation 思想最早是由著名的日本机 器翻译专家长尾真 Nagao M 提出的 其基本思想是 利用过去已经翻译过的语料 采 用模拟的方法来翻译待翻译的句子 它假设相同的源语言部分对应相同的翻译结果 当以前 翻译过的部分再次出现的时候 相同的翻译结果很可能就是正确的 EBMT 技术从九十年代起越来越受到人们的关注 与基于规则的机器翻译相比有它自 己很多明显的优势 它翻译时所需要的主要信息是一个大型的双语语料库 也可以包含其它 1 本论文工作得到 863 项目 面向奥运的多语言信息服务系统 编号 2001AA117010 经费的资助 胡国全 1975 5 男 河南省郑州市人 硕士生 主要研究机器翻译 陈家骏 教授 博士生导师 主 要研究自然语言处理 软件工程 戴新宇 博士生 主要研究自然语言处理 尹存燕 助教 主要研究自然 语言处理 信息 如语义词典等 可以部分解决基于规则系统中翻译规则的不完备性问题 但 EBMT 也同样面临很多困难 其中有两个最主要的难题 一是在匹配时匹配片段的边界确定 二是 所需要的大型双语语料库的建立需要花费大量的人力物力 因此 本文中也介绍了我们尝试 用计算机来自动建立语料库 在匹配部分的边界确定方面 我们采用了连续型匹配和不连续 型匹配两种类型来加以识别 并定出最可能的边界 Jaime G Carbonell 和 Ralf D Brown 在他们的英德机器翻译系统中 1 1997 2001 中 使用了一种基于句子中片断准确对齐的方法 本文根据这种思想尝试一种基于实例的汉英机 器翻译方法 它的基本思想是先建立包含大量双语语料的汉英双语语料库 对于待翻译的汉 语句子 查找双语语料库 图 1 所示 中汉语一方 找到与待翻译句子准确对齐的部分 并 把相应的英语部分组织起来 我喜欢冬天的天气 他穿了一件黑色夹克 I prefer winter weather He wears a black jacket 图 1 语料库示意图 例如 有一个待翻译的句子 我喜欢黑色夹克 我喜欢黑色夹克 则可分别在语料库中找到对齐的汉语片断 我喜欢 黑色夹克 它们相应英语部分为 I prefer black jacket 把与这两个汉语片断对应的英语片断拼接起来就能得到汉语句子 我喜欢黑色夹克 的翻译结果 I prefer black jacket 本文所阐述的工作包括三个主要部分 一 翻译所基于的双语语料库设计 二 源语言语料库中找到与待翻译句子最佳匹配 三 计算机自动建立双语语料库 包括句子的对齐和单词的对齐 2 双语语料库结构 双语语料库结构 一个大型的双语语料库是一个 EBMT 系统进行翻译的基础 每一种具体的 EBMT 系统 利用语料库的信息和层次不尽相同 本文中介绍的翻译策略要用到的汉英双语语料库是一个 在句子级对齐基础上的词语 单词 或者短语 我们称之为一个语言片断 对齐语料库 语 言片断的定义如下 语言片断 在一对双语对齐的句子中 汉语 或者英语 句子中若干个词语 单词 短 语结合在一起所形成的结合体 这个结合体在句子中有相对独立的语义 并且在与其相对应 的语言 英语或者汉语 句子中也存在一个结合体与其相对应 语言片断是本翻译策略中可以进行翻译的最小单位 本文设计的语料库的整体逻辑结构如图 2 所示 1 z1z2 zi numa zi 1zi 2 zi j numb zi kzi k 1 zi l numc 2 3 1 e1 e2 ex 2 3 图 2 语料库的逻辑结构 在图 2 中 左边是汉语句子集合 右边是与其对应的英语句子集合 其中每一个汉语 句子都有唯一的一个英语句子与其对应 这是句子级的对齐 语料库在句子级对齐的基础上还含有词语 单词或短语 的对齐信息 每个汉语句子 都被 分成若干个长度不固定的片断 这些夹在两个 之间的长度不定的片断即为前 面所定义的语言片断 其中 zi为一个个的汉字 numi为数字 它表示与该语言片断相对应 的英语语言片断在英语句子中的位置 值得注意的是 因为汉英句子的词汇之间不是一一对 应的 有的汉语片断在英语相应句子中没有与其对应的片断 这样的片断不符合上面所定义 的语言片断的定义 也就不是真正的语言片断 但是为了研究和实现本翻译策略的方便 我 们也把它们作为语言片断来处理 这时我们赋予该语言片断的 numi值为零 同样 每个英语句子也被 所分开 形成一个个的语言片断 例如 对于语料库中下面的汉英句对 我喜欢冬天的天气 和 I prefer winter weather 在汉语句子中有如下的词汇对齐信息 我 1 喜欢 2 冬天的 3 天气 4 英语句子中所含有的词汇信息是 I prefer winter weather 其中每片断中的数字代表该语言片断所对应的译文片断在译文句子中的序号 位置 汉英双语句子中词语对齐的方式除了一对一之外 还有一对多 多对一和多对多的情 形 而本策略只使用于一对一的对齐方式 因此凡是出现一词对多词 多词对一词和多词对 多词的情行 我们都把这些多个词合并为一个语言片断 例如 对于下面一对汉英句对 汉语 顾客如能出示收据 我们才能予以退货 英语 We only take goods back if cumtomers can produce the receipt 汉语中的 退货 和英语中的 take goods back 对应 在英语中 take back 是 一个短语 goods 是一个单词 它们是两个相对独立的语义体 但是它们组合在一起才能 对应一个汉语词语 退货 这就是所说的一对多的对齐方式 这时我们把 退货 和 take goods back 作为一对对齐的语言片断 对于标点符号 在对句子对齐的过程 语料库建立 中要用到它们 但在词语对齐这 一步我们没有考虑它 由于在本论文所提出的翻译策略中没有用到双语语言中的词汇和语法信息 因此 在 语料库中没有包含词法 语法及句法信息 3 翻译策略 翻译策略 基于上面的对齐双语语料库 我们设计了下面的翻译策略 3 1 对齐类型 在语料库中存在两类不同的汉英片断对齐类型 连续型和不连续型 如图 3 所示 a 连续型 b 不连续型 图 3 语料库中两类不同的汉英片断对齐类型 a 连续型对齐是指一段连续的汉语部分对应一段连续的英语部分 b 不连续型对齐是指一段连续的汉语部分所对应的英语部分不连续 其中至少夹有 一段英语对应另外的汉语部分 3 2 汉语句子的匹配 一般来说 对汉语句子处理的第一步是分词 目前 最好的汉语分词系统的分词正确 率达到了 98 应该说已经很高了 即使是这么高的分词正确率 把它用于机器翻译上仍 会有一个缺陷 错误放大效应 由于翻译时是对一个句子进行翻译 一个句子中一个分词的 错误就会导致这个句子的翻译不正确 假设一个句子的平均长度是 6 个词 并且分词错误均 匀分布 不过分集中 的情况下 则 2 的分词错误率会导致 12 2 6 的句子翻译错 误率 也就是说翻译的最好情况是 88 的正确率 因此本文所设计的翻译策略对汉语句子 不进行分词 而是直接进行源语句的字串匹配 对于一个待翻译的汉语句子 S z1z2z3 zi zi为汉语中的字 在源语言语料库中进 行匹配 字对应 操作 在匹配操作中 采用最长匹配原则 即找到语料库中和待翻译部分从第一个汉字开始 连续对应的汉字个数最多的部分 匹配的具体步骤如下 对于待翻译的汉语句子 S 假如其前面的 z1z2 zi已经找到了最匹配的部分 现在要匹 配后面的 zi 1zi 2 zi kzi k 1 部分 如果语料库中有一个汉语句子 A zi 1zi 2 zi kzu 其 中 zu与 zi k 1不 是 同 一 个 汉 字 且 语 料 库 中 没 有 任 何 一 个 汉 语 句 子 B 汉语句子 英语句子 A B C D E F G 汉语句子 D 英语句子 G A B C E F H zi 1zi 2 zi kzi k 1 则 zi 1zi 2 zi k为可能被匹配的部分 之所以称为可能匹配 是因 为 zi 1zi 2 zi k这些字不一定能构成几个完整的语言片断 或 zi 1zi 2 zi k所对应的英语部分 可能不是一段连续的部分 这时 需要对他们进行进一步的分割 1 确定 zi 1zi 2 zi k是否由完整的片断构成 我们先来查看 zi 1zi 2 zi k是否可以组成几个完整的语言片断 我们这一步的目标是找 到一个字 zi j j k 对于前面的字串 zi 1zi 2 zi j可以组成若干个完整的语言片断 w1w2 wa 每个 wi都是一个语言片段 而后面的字串 zi j 1 zi k则不能组成一个完整的语言片断 也就是说 zi j 1 zi k只是语料库中句子 A 的一个语言片断的一部分 这可以很容易通过查 看句子 A 的分片信息来得到 因为在 A 中各个语言片断都是由 所隔开的 例如 我们要翻译下面的汉语句子 全体老少社员都收工回家了 假设在双语语料库中有下面的一对汉英双语对齐句子 汉语句子 全体 1 老 6 少 4 社员 3 都 0 收割 9 庄稼 11 去 7 了 0 英语句子 all the commune members young and old went out to harvest the crops 首先在语料库中进行汉语句子匹配操作 找到初始匹配结果为 全体老少社员都收 这些字能不能组成若干个连续的语言片断呢 那就要查看语料库中所匹配上的汉语句子的 分片信息 通过查看分片信息可以得到 全体 老 少 社员 都 可以分别组成 语言片断 而 收 字和后面的 割 组成一个语言片断 收割 所以要把 收 从匹配 串中去掉 这样就得到了可以组成若干个连续语言片断的最长字串 全体老少社员都 2 确定 zi 1zi 2 zi j所对应的英语部分是否构成连续片断 得到源语言语料库中与 S 中前面部分最大匹配的可以组成语言片断的字串 zi 1zi 2 zi j 后 我们还要考虑这些字串所组成的语言片断串 w1w2 wa能不能作为一个翻译片断来翻译 我们主要是根据汉语语言片断 w1w2 wa所对应的英语部分的语言片断 ex ey ez是否 连续来判定语言片断 w1w2 wa的紧密度 也就是它能不能作为一个翻译片断来翻译 由于 语言片断的对齐方式有上面所介绍的两种 连续型和不连续型 判断 ex ey ez是否连续的方法是 首先查看这些英语语言片断 ex ey ez是否连在一起 这可以通过查看 w1 w2 wa的 num 值是否连续来判断 有一点需要注意 就是有的 num 值为零 则这些值为零的 num 不予考虑在内 也就是说默认该 num 值为零的语言片断与其它语言片断是连续的 如果这些 num 值是连续的 则表明 ex ey ez是连续的 否则 表明在语料库中语 言片断 ex ey ez之间至少夹有一个语言片断 eu eu不属于 ex ey ez 但它在该 英语句子中的位置在 ex ey ez之间 这时需要查看有没有一个汉语语言片断 wb指向 该 eu 如果没有则认为 eu可以和 ex ey ez组合在一起 构成一个连续型对齐 如果存 在这样的 wb 则表明该 eu对应一个不属于 w1w2 wa的汉语语言片断 此时 ex ey ez 和 w1w2 wa的对齐类型就是不连续型对齐 对于连续型对齐 我们认为所得到的字串 zi 1zi 2 zi j即为最长匹配串 记录下其所对 应的英语部分 ev ew ev是 ex ey ez之中在该英语句子中位置最靠前的一个英语语言 片断 ew是 ex ey ez之中在该英语句子位置最靠后的一个英语语言片断 对于不连续型对齐 则寻找 w1w2 wa中从 w1开始的可以与 ex ey ez中若干个语 言片断组成连续型对齐的最长匹配串 该算法的具体实现本文不予介绍 并记下相应的汉 语和英语部分 例如 在上例中得到了可能匹配的最长字串 全体老少社员都 在语料库中查找到它 所对应的英语部分为 All the commune members young and old 在这一英语片段 中没有语言片断指向其它的汉语语言片断 它们的对齐类型为连续型 因此 全体老少社员 都 即为所得到的最长匹配串 记下它所对应的英语部分 如果有另一句需要翻译的汉语句子 S 队长最后决定 明天上午全体老少社员都收割 小麦去 经过前面几步的对齐后得到可能匹配的最长字串 全体老少社员都收割 语料 库中它所对应的英语部分为 All the commune members young and old went out to harvest 其中的斜体部分 went out to 除外 因为 went out 对应另外的汉语语言片断 去 因此可以认为 收割 和前面的 全体老少社员都 关系不够紧密 从字串中去掉 收割 而得到 全体老少社员都 为最长匹配串 另外 对于一句待翻译的汉语句子 在语料库中进行匹配时可能会和语料库中的多个句 子匹配出最长匹配串 例如在对要翻译的汉语句子 S 执行到某步匹配操作时 与语料库中 的 A B C 等多个句子匹配出最长匹配串 zi 1zi 2 zi j 如果在这些句子中 zi 1zi 2 zi j 所对应的英语部分是相同的 则记录下该英语部分即可 如果出现不同的情况 这时需要选 择其中一个最优的英语片断 选择优劣的标准应该是看它们所对应的英语部分哪一个最适合 于该翻译句子 这就需要考虑上下文信息 由于在本策略中没有考虑上下文的信息 并且考 虑到效率上的因素 我们选择第一个最长匹配串为匹配结果 基于实例机器翻译的最后一步是把上面所找到的相对应的英语部分按某种策略连接组 织起来 使其成为一个连贯的符合英语词法 语法和句法要求的正确的英语句子 这部分工 作是基于部分准确对齐的 EBMT 系统的弱势所在 我们没有找到比较好的方法来组织英语 句子 因为我们没有考虑时态 语态 语序 词性等信息 我们把相应的英语部分依次连接 起来就认为得到了翻译的结果了 本策略最适合的用处是和其它的机器翻译方法 如基于规 则的翻译技术 结合起来 即作为混合翻译策略中的一个引擎 提高翻译结果的质量 而不 是作为一个独立的翻译系统 4 汉英双语语料库的自动建立 汉英双语语料库的自动建立 由于基于实例的机器翻译方法需要有大规模的双语语料库 因此 双语语料库的建立 就要尽量用计算机自动处理 图 4 为计算机自动建立汉英双语语料库流程图 预处理 段落对齐 句子对齐 词对齐 短语库 词典 图 4 建立双语语料库流程图 1 预处理 预处理主要是包括双语语料的收集 这部分工作目前主要是有人工完成 2 段落对齐 人们容易获得的一般是篇章对齐的双语语料库 而段落一级的对齐工作则难度较大 一般需要人工加以标注 为了对人工标注有所帮助 我们可以用计算机程序先进行处理 程 序中先尝试以 回车换行 加两个空格符作为一个段落结束的标志 然后计算中英文篇章中 段落的数量是否一样多 如果段落数一样多 则认为它们是一一对应的 如果不一样多 可 采用 2 中提到的双语语料库段落重组对齐的一些技术尝试对齐 最后由人工加以校验 3 句子对齐 句子级的自动对齐比较复杂 首先要判断什么是一个句子和计算一个段落中句子的个 数 在汉语中 我们以 作为一个汉语句子的结束标志 在英语中 我们以 和其后的英语字母是否大写作为一个英语句子结束的标志 然后计算一个段落 中句子的个数 如果中英文相对应的段落含有句子的个数相等 则我们认为中英文句子依次 一一对应 如果不等 我们采用基于长度的算法 Length based methods 3 判断句子间的对 应关系 4 单词对齐 单词的对齐可以借助于双语词典 词典可以由人工整理得到 也可以采用基于统计的 方法在汉英双语语料库中统计得出 单词对齐前需要对语料库进行预处理 如汉语句子的分词 建立语料库时的汉语句子 分词错误可以由人工加以校正 和英语单词的词形还原等操作 关于这方面目前已经有了很 多比较成熟的技术 汉语句子的自动分词我们采用了我们教研组前期所做的一个分词系统 参见参考文献 6 单词对齐我们采用了 7 和 8 中的一些单词对齐技术 双语语料库经计算机上述自动处理后 并不能完全对齐双语语料 还需要人工加以校对 特别是为了本翻译策略的需要 要把若干个连续的耦合度较高的语言片断合并为一个语言片 断 这样可以提高翻译输出结果的质量 例如对前面一个汉英双语对齐例子 经人工整理后可以得到下面的语言片断对齐结果 汉语句子 全体 1 老 5 少 3 社员 2 都 0 收割 8 庄稼 9 去 6 了 0 英语句子 all the commune members young and old went out to harvest the crops 5 结束语 结束语 本文针对 EBMT 系统中通常存在的难点和汉语语言的特点 提出了一种基于实例的汉 英机器翻译策略 基于实例的机器翻译需要大量的双语语料库作基础 而这种合适的语料库 的建立如果仅靠人力来完成可以说是很困难的 因此 我们在计算机自动对齐我们所需要的 语料库方面进行了初步的研究和试验 并用一部分对齐的汉英篇章来测试其中一些技术的可 行性 但是要进行全面的开放性试验来测试翻译的正确率就需要有大规模的汉英双语语料 库 特别是经过人工整理后单词准确对齐的汉英语料库 以后我们的工作是不断扩大汉英语 料库 在语料库较小的情况下随着语料库规模的不断扩大 对齐的正确率会有相应提高 并 经人工整理后进行第二步汉语句子的匹配试验 而最终的目的是把它设计成一个多引擎机器 翻译系统中的一个 来提高翻译的正确率 另外 本翻译策略也有很多要改进的地方 第一 可
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 访问控制模型研究-洞察及研究
- 2025年性安全教育常识测试题及答案
- 就业政策区域差异研究-洞察及研究
- 出差行车安全知识培训课件
- 陕西省司法考试司法制度考试题(附答案)
- 出差安全培训交底课件
- 2025物业服务委托管理标准合同范本
- 出国企业安全培训课件
- 出入院流程课件
- 出入量记录课件
- 成都市新都区部分单位2025年8月公开招聘编外(聘用)人员(三)(20人)备考练习试题及答案解析
- 人教PEP版(一起)(2024)一年级上册英语全册教案
- (9月3日)铭记历史珍爱和平-纪念中国人民抗日战争暨世界反法西斯战争胜利80周年爱国主义主题教育班会课件
- 《大学生就业指导》课件第六章 就业权益与法律保障
- 2025年事业单位招聘工作人员考试笔试试题(含答案)
- 新版部编人教版二年级上册语文全册1-8单元教材分析
- 纪念中国人民抗日战争胜利80周年心得体会
- 2025~2026学年新人教版八年级英语上册教学计划
- 2025年律师培训试题(含答案)
- 2025年事业单位工勤技能-河南-河南农业技术员一级(高级技师)历年参考题库含答案解析(5卷套题【单选100题】)
- 2025年不动产登记业务知识试题及答案(司法考试资料)
评论
0/150
提交评论