




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第 2 1 卷第 4期 2 0 0 7年 7月 中文信 息学 报 J OURNAL OF CHI NES E I NF ORMATI ON PROC ES S I NG Vo I 2 1 No 4 J u 1 2 0 0 7 文章 编号 1 0 0 3 0 0 7 7 2 0 0 7 0 4 0 0 6 5 0 8 基于实例的汉蒙机器翻译 侯宏旭 刘 群 那顺 乌 日图 1 中国科学 院 计算技 术研 究所 智能信息处理重点实验室 北京 1 0 0 0 8 0 2 内蒙古大学 内蒙古 呼 和浩特 0 1 0 0 2 1 3 中 国科学院 研究生 院 北京 1 0 0 0 8 0 摘 要 本文通过对汉 蒙机 器翻译方法 的研 究 给 出了一种基于 实例的汉 蒙机 器翻译 方法 并加 以了实现 本文给 出了用于汉 蒙 E B MT机 器翻译 的实例搜 索以及短语片段划分 匹配 组合 的方法 本文给 出的方 法是基 于词语 对 齐的 利 用词语 对齐进 行词语的 匹配 并根据 匹配词数和 长度 计算相似 度 选取 最好 的 实例 通过 对 齐信 息 确 定 片段组合 的策略 生成翻译结果 通过对方法的 实现和 实验 完成 了一个基于 实例的汉 蒙机 器翻译 系统 关键词 人 工智能 机 器翻译 蒙古语 基 于实例 词语对 齐 中 图 分 类 号 TP 3 9 1 文 献 标 识 码 A Ex a mpl e Ba s e d Ch i n e s e M o ng o l i a n M a c hi n e Tr a n s l a t i o n H U Ho n g X U I I U Qu n Na s u n Ur t 1 I n s t i t u t e o f Co mp u t i n g Te c h n o l o g y Ch i n e s e Ac a d e my o f S c i e n c e s B e i j i n g 1 0 0 0 8 0 Ch i n a 2 I nn e r M o ng ol i a Un i ve r s i t y H u hh ot 01 0 021 I nne r M o ng ol i a AR Chi na 3 Gr a d u a t e d Un i v e r s i t y o f Ch i n e s e Ac a d e my o f s c i e n c e s B e ij i n g 1 0 0 0 8 0 Ch i n a Ab s t r a c t W e ha v e p r e s e nt e d a n e x a mpl e b a s e d Chi ne s c M on go l i a n ma c hi ne t r a ns l a t i on me t ho d a nd i mpl e me nt e d i t Th e me t ho d i s i ns i s t of s e ve r a l pa r t s i n c l u de s e x a m p l e s e a r c hi ng s e gme nt s pl i t t i ng mat c hi n g a nd r e c ombi ni n g The me t ho d i s b as e d on wor d a l i gn me nt I t i s u s i n g wo r d a l i g nme nt i n f or mat i o n f or s e gmen t ma t c hi n g a nd c ompu t i ng t he s i m i l ar i t y b y t he numb e r of ma t c hi ng wor ds a nd l e ngt h a nd s e l e c t s t h e b e s t e x a mpl e Us i ng wor d a l i gnme n t i nf or ma t i on d e t e r mi ne d t he me t h od of s e g me nt r e c o m b i ni ng a nd ge n e r a t e s t h e t r a ns l a t i on r e s u l t Ke y wo r ds a r t i f i c i a l i nt e l l i ge n c e ma c hi ne t r a ns l at i on mon go l i a n e x a mpl e b a s e d wor d a l i gn me nt l 引言 蒙古 语 是 我 国重 要 的 少数 民族 语 言 也 是 蒙 古 国的官方语言 在国际上具有很重要的地位 作为 我国蒙古族 自治地方的官方语言 使用 的范 围是非 常大 的 这 样 蒙 古 语 的信 息 处 理 就成 为 了语 言 信 息处理 的重要 研 究 方 面 其 中 汉 蒙 机 器 翻 译 是将 汉语资料翻译成蒙古语 的重要 工具 但是 由于蒙 古语 自身 的原 因 以及 研究 投人 不够 的问题 导致汉 蒙 机器 翻译 的研 究 进 展 相对 比较 缓 慢 目前 国 内 外汉英机器翻译的研究如火如荼 我们正好可以借 鉴这些 技术 加 快汉 蒙机 器 翻译 的研 究 目前 国 内的少数 民族 语 言机器 翻译 的研 究还处 在初级阶段 主要 的研究还是集中在基于规则的方 法 上 2 在 蒙古 语机 器 翻译 的研 究 上 国内 外 的研 究 和相关 文献 都 比较 少 目前 的研 究 还 主 要 集 中在 研究 的基 础 阶段 1 尤 其 是 在 基 于 语 料 库 的方 法 上 还没有 深入 的研究 而且 在 由 内蒙古 大学 和 中国 科学院计算技术研究所合作研究的基于规则的汉蒙 机器 翻译 是 目前 我们 能 够 了解 到 的真正 达 到 部 分 实 用 的汉 蒙 机 器 翻 译 技 术 但 是 其 方 法 上 能 够 取 得的进展也 依然 比较有 限 无 法达 到 比较 好 的实 用效 果 2 因此 基 于 语 料 库 的 汉 蒙 机 器 翻 译 方 收稿 日期 2 0 0 7 0 2 0 1 定 稿 日期 2 0 0 7 0 5 1 0 基金项 目 国家 自然基金资助项 目 6 0 5 7 3 1 8 8 国家 8 6 3计划资助项 目 2 0 0 3 A A1 1 5 5 1 0 作者简介 侯 宏旭 1 9 7 2 男 硕士 副教授 主要研究方向为 自然语言处理 刘群 1 9 6 6 男 博士 研究员 主要研究 方 向为 自然语言处理 那顺 乌 日图 1 9 5 9 一 男 博 士 教授 主要研究方向为蒙古文信息处理 计算 语言 学 维普资讯 6 6 中 文 信 息 学 报 法就 非 常值 得 研 究 国际 国 内在机 器 翻译 的研 究 方 面主 要 集 中在 R B MT E B MT和 S MT三 种基 本方 法 上 其 中 E B MT和 S MT 是 基 于语 料 库 的 RB MT 是 基 于 规 则 的 早 年 国 内外 的机 器 翻译 工作 都 是 集 中在 R B MT方 面的 但 是 R B MT具 有 扩 充 困难 等 问 题 所 以 目前 相关 研究 较少 E B MT和 S MT是 基 于语 料 库 的 其 中 E B MT是 8 O年代 长 尾 真 提 出 的一 种 方 法 它 具有 构造 容 易 容 易 生 成 高 质量 译 文 等 特 点 S MT则 是 由 B r o wn等提 出 的方 法 在 汉 蒙机 器 翻 译 方 面 由于蒙古 语 和 汉语 都 属 于语 法 比较 复 杂 的 语 言 所 以利 用基 于 语料 库 的方 法 可 以尽 量 减 少语 言知识 上面 的投 入 能够 尽 快 建 立 比较 好 的 翻译 系 统 作 为 今 后 S MT 研 究 的 基础 我 们 选 择 了 更 容 易实现 和看 到效果 的 E B MT作 为研究 的切 人点 相 对 于汉 英 机 器 翻译来 说 汉 蒙 机 器 翻译 的 特 点 和难 点主要 集 中在 以下几个 方 面 蒙古 语 的语序 蒙 古语具 有谓 语在 句子 的末 尾 的特 点 所 以在 以短语 为单 位进 行 翻译 的 时候 存 在 长距 离的调 序 而相 对来说 汉英 机器 翻译 中这样 的调序并 不多 这 样 就 给 汉 蒙机 器 翻译 的 调 序带 来相 对更 大 的困难 蒙古 语 的词形变 化l 8 蒙古 语 的词形 化非 常 复 杂 动词 名 词 都存 在时 态 数 格 等多 种 变 化 这 些 变 化是通 过添 加词缀 的方 法实 现 的 这些 变化 在使 用统 计 的机 器 翻译方 法 时就会 造成 比较 多的词 形错 误 相对来 说 汉英机 器 翻译 中主要考 虑 的 只是 单复 数等 比较 简单 的变化 而且 相对 数量 比较 少 很 多蒙古语 词 尤 其 是动词 存在 着纷 繁 的变化 形式 这些 变 化 构成 了复 杂 的词 干一 多词 缀 形 式 例如 一 个 动词 词 干 后 面可 以添加 格 数 人 称 时 态等 多种词 缀 例 如 在一个 2 O万词 的语料 中 动词 词干 I L A 可以衍 生 出来 的词 有 I L AB A I I AGAD I L AGD AB A等 1 O多 种 形 式 而 且 这 还 不 是 全 部 因此单 独 以词 包 含词 干词缀 的 词 为单 位来 进行 汉 蒙机 器翻译 是远远 不够 的 和 RB MT相 比 E B MT 具有 易 于 构造 的 优点 由于 蒙古语 的特殊 复杂 性 编 写 蒙 古语 的 翻译 规 则 是非 常复杂 的事 情 难 于 得 到好 的效 果 通 过 先前 基于规 则的汉 蒙机 器 翻译 的尝 试 我们 发现 虽然 基 于规则 的方法 也取 得 了比较好 的结 果 但 是 一方 面 规 则 的维护非 常 复杂 进 一 步 提 高 翻译 系 统 的效 果 需要 的工作量 非常 庞 大 另 一 方 面在 语 料 不 断 的积 累中 这 些语料 很难应 用 到系统 中 无 法从 语料 规模 的扩 大 中获益 和 S MT相 比 对 于相 似 度 比 较 高 的 句 子 E B MT具有 更好 的效果 由于 E B MT是 基 于实 例 的 因此 如果能 够选 择到 比较好 的实例 那么 经过 简单 的替换 就可 以生 成 非 常好 的 翻译 结 果 但 是 如 果 不 能找 到好 的实例 那 么 翻译 效 果就会 变差 因此 结合 E B MT和 S MT是比较好 的思路 这里 我们 给 出 的 E B MT实 现 的汉 蒙机 器 翻译 就 可 以为 今 后 的工作 打下基 础 本 文第 2节将 给 出这个 基于 实例 的汉 蒙机器 翻 译 系统 的总体 架构 第 3节 给出构 建实 例库 的方法 第 4节给出实例的匹配和搜索 的方法 第 5节给出 片段的匹配和组合的关键方法 第 6节给出候选翻 译结 果 的评 价 方法 第 7节 给 出系 统 的 实现 及 初 步 实验 的结 果 2 总体架构 我们 知道 E B MT具有 以下 的 主要优 点 不需要 编写 规则 系统维 护容 易 容 易产 生高 质量 的译 文 需 要 的相关 语言 知识 少 通过 以往 的尝试 我们 发现 由于汉语 和 蒙古语 分属 不 同的语 系 语言 的差 别相 对 比较大 编 写规则 相 对来 说 比较 困难 调 试起 来T 作量 比较 大 因此 选 择基 于语 料库 的机 器 翻译 方 法就 是 比较 合适 的 通过分析论证 考虑到我们 以前研究 的汉蒙双 语 对 齐 的技 术基 础 我们 采 用 了基 于 对齐 的 E B MT 系统 在 系统 的架构 中包 含几 个 主要 的处理 步骤 1 分 词和对 齐 将 待翻 译的句 子 切分成 以词 为单 位 的片段 在 本 系统 中 汉语 的分 词 采用 的是 中 国科 学 院 计算 技 术研 究所 研 发 的 I C TC L AS汉语 分 词 系统 在最 终 系统 中 蒙古语 按空 格 分词 不做 特殊 处理 将 双语 语料 库 中的汉 蒙句 对进 行词 对齐 这 里是 利用汉 蒙 双语词典及共现概率为基础的方法进行词对齐 经 过对 齐后 将 双语语 料库 转换 为实 例库 为机 器 翻译 提供 实例 2 实例搜索 从实例库中所有最接近的实例 这一步的主要 内容包含相似度的计算和搜索两个部分 3 片段 匹配 分割 和组 合 维普资讯 4 期 侯宏旭等 基于实例的汉蒙机器翻译 6 7 在待 翻译句 子 和实例 中查 找匹 配和 不 匹配 的片 段 根 据 匹配 和不 匹 配 的片 段 确 定 翻 译结 果 片段 将翻译结果片段组合成翻译结果 4 评 价 从 候选 的 翻译 结果 中选 择最 佳 的翻译 结 果 3实例 库 生成 获得 双语 语料 库后 需要 对语 料库 进行 处理 生 成实例库 3 1 原 始语料 库 采 用 拉 丁 转 写 的 原 始 语 料 库 的存 储 格 式 是 以 x ml 格 式 原 始 语料库 最初 是 由源语 言文 本文 件 和 目标语 言 文本文 件组成 的 它们 都是 每行 一个 句子 在 自动 对 齐时生 成 x ml 格 式 的语料 库 为 了蒙古语的处理方便 蒙古语 的存储方式为 拉丁转 写方 式 拉丁转 写是 采 用英 文 字 母 和数 字 0 作为蒙 古 语 的表 示 方 法 由 于采 用 了 AS C I I 表 示 蒙古语 在存储 和处理时就非常方便 了 在具体显 示 的 时候 再 转换 为蒙古 文 的显 现格式 3 2分 词 将待 翻译 的句子 切 分成 以词 为单位 的 片段 在 本 系统 中 汉语 的 分词 采 用 的 是 中 国科 学 院计 算 技 术研 究所 研发 的 I C T C I AS汉 语 分词 系统 在最 终 系统 中 蒙 古 语 按 空 格 分 词 不 做 特 殊 处 理 事 实 上 单从词的基础上进行蒙古语机器 翻译 的研究还 是不 够 的 我们 需要 在 词 根 词 干 后 缀 的层 次 上 才 能得 到蒙古语 更 深入 的研 究 这 也 是 我 们 将来 的研 究 目标 之一 其 中 汉语分词结果中包含每个词的词性 词性 的标记 集是 I C T CL AS的词 性 标记 集 蒙古 语 没有 标 注词 性 经 过 自动 对 齐 以后 的结 果 可 能存 在一 些 错 误 可 以通过 人工 对 齐工具 进行 校对 3 4建 立 索引 建立索引是语料库处理的关键步骤 通过索 引的建立为实例库的搜索提供基础 实际上 建立 的索引包括两个 一个是以句子排序的索引 另一个 是 按词 排序 的索 引 1 生 成 索引 生成索引即生成语料库的索引 索引的内容是 以句对 排序 的 2 生 成词 表 最 终 的实例 库不是 以文本形 式 存储 的 如 果 以 文本形式存储 那么查找需要 的时间代价是 比较高 的 因此 在建立索 引的时候 所有的词将被词 的序 号所 代替 这 个序 号存 储在 词表 中 倒查表 中存储词表 中所有的词在哪些双语语料 的 句子 中出现 即纪录某个词出现的所有句子 的序号 3 生成倒排索引 建立 了词表 以后 语 料 库 中 的句 子 将被 转 换 成 以序号表示的形式 这样在查找的时候速度会提高 很 多 在实例库索引中 包含实例的源句子 目标句子 和对 齐 信息 3 5 双 语词 典 对 于不 能 从 实例 库 中获 得 的 翻译 可 以利用 双 语词 典进 行 翻译 也 就 是 说 如 果 一 个待 翻译 的句 子无 法 找到接 近 的实 例 的 话 将 会 退 化 成基 于词 典 的翻译 双语词 典包 含 源语 言词 源语 言词性 目标语 言 词 目标语 言词 性 蒙古 语 的词 性 是 忽 略 的 以及 一 个 致 信度 3 3 词对齐 4 实例 搜索 本 系统 的词语 对齐 采用 了大 规模汉 蒙词 典 双 语词 典含有 大 量 的词语 互译 信 息 用 双 语 词 典 进 行 词语 对齐 往往 准 确率 很 高 由于 规 模 的 限 制 双 语 词典 的词 汇覆 盖面 往 往 不够 因此 用 双 语 词 典进 行 词语对齐有召 回率不高的缺点 在我们的方法 中 利用 双语词 典计 算 的词 语 相 似 度 位 置 等 信 息进 行 词语对 齐 并通 过对 齐 窗 口得 到 了多 对 多 的 词语 对 应 通 过这 样 的方法 得到 的较 好 的词语对 齐结 果 E B MT 的关 键 点 之 一 就 是 从 庞 大 的 实 例 库 中 搜 索到所 有相 似 的实 例 这 里 主 要 包 含两 个 指 标 正 确性 和完备 性 也 就 是 说 一 方 面 要 尽 量搜 得 所 有 相似 的实例 另 一方 面要更 准 确 的评 价 相似程 度 因此 在 实例 搜 索 中 就存 在 两个 主要 的 内容 相 似 度计算和搜索算法 相似度计算的方法很多 例如利用功能词 的相 似度 计 算 方 法 利 用 编 辑 距 离 的 相 似 度 计 算 方 法 维普资讯 6 8 中 文 信 息 学 报 2 0 0 7 在 等 在设 计算 法 的时 候 我 们 既要 考 虑 到计 算 的可靠性 又要 注 意 计 算 的速 度口 因 此 我 们 采 用 了下 面的方 法 4 1 相 似度计 算 在 本系 统 中 采 用 了 片 段 分 割与 组 合 的 方 法 即 将实 例划分 成几 个 片段 分 别得 到这 些片段 的翻 泽 然后 组合 成最终 的句 子 这样 相似 度 的主要评 价 指标就 是 如何 使得 匹 配上 的 片段 最 多 最 长 因 此 设计 的相 似度计 算公 式如 下 m一 w p o m a t f t L w 2 i 这 里 p o s i 是 相应 词 的词 性 w2是 行 程长度 在 评价 相似 度 的 三个 元 素 中 首 先 是词 性 举 例来说 一 个明显 的 结论 是 匹 配 上 的 动词 要 比匹 配 上 的名 词更 重要 例 如 两个实 例 我 有 一 支 笔 和 我 拿走 了 一 支 铅笔 对 于待 翻译 的句 子 我 有 一 支 铅 笔 来 说 显然动词匹配的第一个实例更符合要求 因此 在相似 度计 算 的第 一 个参数 就是词 性 的权重 通 过 实验 我 们 给 了各 个 词 性 的权 重 以下 是 几 个 典 型 的词 性权 重 表 1 几 个 典 型 词 性 的 权 重 V 动 词 P介 词 w 标 点 N 名 词 M 数 词 2 0 1 5 1 2 0 5 0 6 第二个既是匹配值 f 0 i f硼 i 一 P i 1 if 让 i e i l 1 让 e 其 中 让 是待 翻译 句 子 中的 词 i 是 实 例句 子 中的词 第 三个 是行 程 长 度 考虑 到 相 邻 匹 配 的越 多 那 么相 似程 度越高 所 以在计 算相 似度 时 还要 考 虑 连 续 匹配 的长度 举 例来说 实 例 我 有 一 支 笔 和 我 还 有 一 支 蓝色 的 铅 笔 对于待 翻译 的句 子 我 有 一 支 铅 笔 来说 虽 然后 一个 实 例 的 匹 配词 更 多 但 是 前 一 个 实例 的匹 配片段 要长 实际 上 还 是前 一个实 例 更 合 适 4 2 实例搜 索 由于 实例 空 间相 对 比较 大 所 以搜 索 时要 考 虑 搜 索 的效 率 通常的搜索方法就是顺序搜索 这样将计算所 有实例 的相 似度 这样 的方 法 最 准确 但 是 效 率 也 最低 我 们 采 用 的方 法 是 利用 词 的倒 排 索 引进 行 搜 索 其基本方法是 根据待翻译句子中出现的词 查 找所 有 出现这些 词 的 实例 句 子 然 后 只 计算 这 些 句 子 的相似 度 这样做有两个问题 一个是 即使是用这样的方 法 出现某 些词 例如 的 一 等的 句子非 常多 还 是不 能有效 地 减少 搜 索 量 另 一 个是 可 能漏 掉 匹 配 比较好 的句 子 例 如 实例 我 讨厌 狗 和 待 翻 译 句子 他 喜 欢 书 可以 采 用 一 一 替 换 的 方 式 进 行 翻译 可 能是 比较好 的例子 对 于第二 个 问题 我们 认 为 这 样 的匹配实 例无 法确 定其 真正 的结 构 相 似性 即 使获 得 了 相应 的实 例也 很难得 到 较好 的 翻译 结果 所 以 在 实 际处 理 中 这 种情 况不 考虑 也就 是说 只考虑有 多个 词匹 配 的情况 对 于第 一 个 问题 常 见词 由 于在很 多 实 例 中 出 现 对于 评价 句子 的匹配 程度 的贡献 是非 常小 的 因 此在 匹配 的 时候 这 些词 都被 过滤掉 了 目前 被 过 滤 掉 的 词性 包 含 C C u d e w n s n r 川现 次数 超过 一定 阂值 的也 被过滤 掉 5 片段 的匹配与组合 片段的匹配与组合是构成 翻译结果 的关键步 骤 首先 将 匹配 的实例进 行拆 分 拆分 成匹 配和不 能 匹配 的片段 然 后 将实 例 的翻译 结果 分割 成与 上 述 片段对 应 的翻 泽片段 最后 将这 些 片段 组 合成 翻 译结 果 5 1 片段 匹配 片段 匹配就 是 匹 配 实例 和 待 翻译 句 子 形 成一 段一 段 的匹配 和不 匹配 片段 匹配 片段 中 的词有 两 种情 况 一种是 词本 身完 全相 同 的 称 为完全 匹配 的 词 另一 种是词 虽然 不 同 但是 词性 相 同 的 称为词 性 匹配 的词 一般 来说 词 虽 然不 同 但 是词 性相 同 的词 可 以通过查 词典 的方 法直 接得 到 翻译 结 果 引 入词 性 匹配 的概念 可 以更 好地 利用 实例 经过 这样 的匹 配 相连 的匹配词 就构 成匹 配段 相连 的不 匹配 的词就 构成 了不 匹配 的段 5 2 片段 分 割 片段分割部分是整个翻译 过程 的核心 阶段 如何 维普资讯 4期 侯宏旭等 基于实例的汉蒙机器翻译 6 9 准确的确定片段的翻译是这部分要解决的主要 问题 本 系统采 用 了 基 于 词 语 对 齐 的 E B MT 方 法 片段 分割 的核心 就是对 齐信 息 图 1 是 一个 汉蒙机 器 翻译 的例 子 S 要 v提防 v 小偷 n S 要 v 提 防 v N r 1 图 1 片段 划分 令 J n 2 l S 要 V 提 V r q n l TI TER E HO M ON E C E H I C i Y E H U H E R E G T E I 删 图 2 对 齐 S是 待 翻译 的 句 子 S 是 一 个 实 例 根 据 前 面 的片段 匹配规 则 形 成 了两 个 片段 1 和 2 其 中 1 是 匹配片 断 2 是 不 匹配 的片段 图 2 是 实例 S 及其 翻译 T 连接 两 者 的线 就是 词语 对齐 信息 对 于不 匹配 的 片段 那 个 人 这 里 存 在 不 同 的 翻 译 片 段 的 可 能 其 中 T ER E HO MON 是 其 必 然 的 翻 译 因 为 它 们 之 仔 连 线 可后 面的蒙 古语 附加成 分 一E C E 是它 的 翻译 片段 的 组 成 部 分 吗 同样 提 防 的 必 然 翻 译 是 HI C I YE 那 么 附 加 成 分 HU 和 情 态 动 词 HE R E GTE I 是 不 是 提 防 的 翻译 呢 可 以 断 定 的一点 是 T E R E HO MON 不是 提 防 这 个 词 的 翻译 因 为 TE R E HOMON 和 那 个 人 是 对 齐 的 这样 我 们 就 可 以得 到 一 个 最 小 片 段 和 最 大 片 段 至 于哪种 分割更 合适 交 给评 价 阶段进行 处理 5 3 片段 组合 获得 片 段 的 翻译 后 下 一个 步 骤 就是 将 片 段组 合成一个翻译结果 由于在上一步片段分割的时候 保 留了片段 的位 置信 息 所 以只需要 将 片段 的翻译 置人 相对 的位置 就可 以 了 以下是 一个 翻译 片段组 合 的例子 S 要 v 提 防 v 小偷 n S l 要 v 提 防 v 那 r 个 q 人 n T1 TERE H M 0N ECE H I CI YE H U H EREGTEI c a T HVLAGA YI CI ECE HI CI YE H U HERE TFT 6生成结果的评价 从 上 面 的 例子 可 以看 出来 生 成 的 翻译结 果 包 含 了不 应该 加入 的词 其 原 因是 我们 仅 仅是把所 有 的最大翻译片段简单地 合在 了一起 而不管它是不 是真正的翻译的一部分 解决的方法是 对于未对齐的部分 生成若干保 留或者 不保 留 的两个 结 果 这 样 就 形 成 了一 个 翻 译 的候选集 然后 评价 哪个结 果更 适合作 为 翻译 的结 果 下 面 我 们用语 言模 型来 评价 我 f J 采 用 了 S R I L M S RI 口语 技 术 与 研究 实 验 室 S RI S p e e c h Te c h n o l o g y a n d Re s e a r c h La b o r a t o r y 发 布 的开源 的语 言模 型工具 包 在训 练 中选 用 了两个 参数 一 u n k保 留 u n k 和一 k n d i s c o u n t 采用 mo d i f i e d Kn e s e r Ne y平 滑算法 以下是 一个 汉蒙 机器 翻译 的例 子 9 0 41 Tl HV LAGAYI CI ECE H I CI YE H U H EREGTEI HEREGTEI 一 8 5 7 5 8 T2 HVI A GAYI CI ECE HI CI YE HU HEREGTEI 在 两个 候选结 果 中 T 和 T 分别利 用语 言模 型 进行 打分 其 中 T 的得 分要 好 于 T 因 此 T 更 适 合 于作 为翻译 结果 当然 从 语法 上来 说 上 面 的两个 句子 都不是 最 好 的结 果 事 实 上 T 中 有 明 显 的 语 法 错 误 即 HVL AGAYI C I 是 一 个 阳性 词 而 其 后 的 附 加 成 分 一E C E 却是 阴性 的 7 实 验 7 1蒙古 语 的表示 实例库 是 由原始 的汉 语 蒙古语 平行 语料转 换得 来 的 并 存储 为易 于表 示 和操 作的形 式 这就涉 及 到 蒙古语 的表 示 问题 蒙 古语 文本 的表 示是 近几 年来 研究 比较 多 的问 题 9 由于蒙 古语 是竖 写的 文字 书写 时从 上 到下 从 左到右 书写 蒙 古语 的词 并 非 是 用 空格 分 开 的 或者说用空格分开的串未必就是一个词 蒙古语的 词虽然是 由字母顺序组成 的 但是蒙古语的字母在 词首 词中 词尾会有不 同的形式变化 这也 给蒙古 维普资讯 7 0 巾 文 信 息 学 报 语的表 示造成 了 比较 大 的 困难 因此 蒙 古语 的表 示问题 一直 是蒙古 语计算 机 处理研 究 的重要 问题之 一 随着蒙古 文 Un i c o d e标 准 的 制定 这 一 问题 在 逐渐 的得 到 解 决 但 是 Un i c o d e的 表 示 同样 存 在 表示 的不便 而且 其 中存 在 的转 义 字符 也 对 机 器 翻 译 的处 理造成 额 外 的 问题 因此 在我 们 的系统 中 采用 的拉 丁转写作 为蒙 古语 文本 的表示 方式 拉 丁转 写是将 蒙古语 字 符利用 读音 转写成 拉 丁 字母 英 文 字母 的方 法 这 种 撰 写 方式 具 有 表 示容 易的优点 但是其缺点是表示不唯一 从蒙古文到 拉丁转写和从拉丁转写到蒙古文的转换都具会产生 一 定 的二 义性 这些 问题 还 需要 进 一 步 的 解决 但 是 这些 问题对 翻译效果 的影 响是 比较有 限 的 7 2语料 的规模 进 行汉 蒙机 器翻译 的研 究还要 遇 到的一 个问题 是语料规模的问题 由于蒙古语相关的信息处理发 展相对落后 在蒙古语语料 的积 累和汉蒙平行语料 的积 累上还 做得 比较差 l 目前 我 们 制作 了大 约 6万句对的汉蒙平行语料 基本可以完成一些基础 的研 究 这 些语 料还需 要进 一步 扩大 在 这次 实验 中 我们 采用 了 1 2 0 0 0个 汉语 蒙古 语 句 对的语 料库 这些 句对 是 已经完成 词语对 齐 的 7 3 实验 结果 由 于汉 蒙机 器 翻译 的测试 平 台相 对缺 乏 没有 汉英 机器 翻译 的 国际评 测 的便 利 我 们 自己设 计 了 一 个 汉蒙机 器 翻译 的测 试平 台 在这里 我 们给 出了 一个 具 有 1 0 0个 H常对 话 句子 的测试 集 并 由 以蒙 古语 为 母 语 的 人 翻译 成 蒙 古语 每个 句子 有 4 个 蒙古 语参 考答 案 我 想 参加 一 个 旅游 团 B1 N1 GE J 1 GVI CI I AI 一 VN B OI HOM DU 0 R0 I CAY A GE J U B O DO J V BAY1 N A B1 N1 GE J V ACI I 一 VN BOI H0M DU O RO L CAHV S ANAG A TA1 B1 N1 GE J I GVI CI I AI 一 VN B OI H0M DU 0 RO I CAY A GE J U S ANAJ V BAY1 N A B1 N1 GEN J VGAC1 I 一 VN B 0I H0M DU O RO I CAY A GEJ U B AY1 N A 有 这 个 吗 ENE BAY1 N A VV ENE YAGVM A TA1 VV ENE YAGVM A BAY1 HV VV ENE YAGVM A BAY1 N A VV 在 实验 中 我 们采用 了 1 2 0 0 0句对 的语 料 作 为 实例库 实验 结果 如下 表 2翻 译 系统 的 实 验 结 果 得 分 N 1 ST BI EU 1 0 0 个 句子的测试集 3 5 2 4 8 O 1 8 7 1 评测 工 具 采 用 的 是 NI S T 评 测 工 具 mt e v a l vl 1 b pl NI S T和 B I E U 是 目前最 常用 的机 器 翻译 自动 评测 的指标 它们都 是基 于 N g r a m 的 它 们 依 赖 于 翻译结 果和参 考答 案匹 配的 N g r a m 数 目E l a 从得 分 上可 以看 出 在 B I E U 得 分 上我 们 得 到 了基 本满 意的结果 但是 NI S T得分较汉英等机器翻译 的结 果 稍低 以 2 0 0 5年 的 8 6 3汉 英 对 话 机 器 翻译 评 测 结 果为 例 我们 的 系统和 汉英 系统相 比 得 分相 对 比 表 3和 汉 英 机 器 翻 译 评 测 结 果 的对 比 I D N1 ST B1 EU Sys t e m 1 7 13 9 2 O 25 O 6 Sys t e m2 5 92 1 6 O 1 8 1 4 Sys t e m3 6 2 O9 7 O 1 7 4 7 中 略 Sys t e m7 5 52 2 6 0 1 4 5 4 Sys t e m8 4 22 7 3 0 071 0 较 高 但是 NI S T 得 分 处 于 比较 低 的 位 置 其 原 因 是 由于实例 片 断的来 源不 一 而蒙古语 的词形变 化 很大 因 此 往 往 由 于 词 形 的 变 化 而 无 法 匹 配 而 NI S T是匹配 N g r a m的算术平均值 而词匹配的数 量 相 对 比 较 少 所 以得 分 相 对 比 较 低 相 对 来 说 B L E U得 分更 强 的反 应 了连 续 词 串 的 匹配 程 度 从 维普资讯 4 期 侯宏旭等 基 于实例的汉蒙机器翻译 7 1 这一 点可 以看 出这 些 连 续词 串正 确 的 比例 比较 高 验证 了 E B MT 词 串片断 匹配 的优势 当然 汉 蒙机 器翻译 和 汉英机 器 翻译 的得 分 直接 比较是 没 有意 义 的 这样 的 比 较 仅 为 说 明汉 蒙 机 器 翻 译 中存 在 的 问题 通 过对 翻 译结 果 的分 析我 们 可 以看 到 对 于具 有 比较接 近 的实例 的句子 在 翻译 的时 候 良好 的体 现了蒙古语 的特点 都能够保持蒙古语句子的正常 语序 仅仅是在一些小的词序及形态上存在问题 待 翻佯 句 于 我 想 费 透 明 胶 带 匹配 的实例 我 r 想 v 要 v 预 约 v w BI J AHI YAI AG A ABVY A GE J U B O DO J V BAYI N A 翻译结果 B I NA GAI T A Y I N G I I A G AR B O S E AB VY A GE J U B O D O J V B AY I N A 州 钾 钾神 参考答案 BI TVNGGAI AG NAGAI TA YI N BUSE ABVY A GE J U B O DO J V BAYI N A 钿巾 州 钾 BI TVNGGAI AG NAGAI TA YI N BUSE ABVY A GE J U B O DO J V BAYI N A 钿 州 钾 时 0 BI TVNGGAI AG NAGALTA YI N BUSE ABH V SANAG A TAI 钿巾 州 钾 州 BI TVNGGAI AG NAGAI TA YI N BUSE ABVY A GE J U S ANAJ V B AYI N A 钿巾 钾 州 虽 然 E B MT在 实 例 比较接 近 的取 得 相 对 比较 好 的结 果 但 是在 实例 匹配并 不很 好 的时候 仍然 会 出现 比较差 的结 果 通 过 对 翻译 结 果 的 分 析 我 们 发 现 在 这个 E B MT系 统 中存 在 比较严 重 的 片段 边 界 问题 对 于未 对齐 的词 是 否应 该 出现 在 片段 中 并 没有 一个 比较好 的方法 来处 理 如果 条件 比较 严 格 就会 出现 丢词 现象 反 过来 如 果条 件 比较宽松 就会出现大量的冗余词 比较好 的解决方法是通过 概率 化 的方 法来 处理 8 结 论 通 过 以上实 验 我 们 给 出 了一 个基 本 的基 于词 语对齐的汉蒙 E B MT系统 这是在蒙古语机器翻 译 方面 的一个 新 的尝试 通 过 这 次尝 试 我 们 把 蒙 古语 机 器翻译 的方 法从 规则 方法 转移 到基 于语料 库 的方 法 并为将 来 统计 的汉 蒙 机 器 翻译 方 法 的研 究 打 下 了基 础 通过 实验 结果 的分 析 我 们 可 以看 到 虽 然 E B MT可以部分解决汉蒙机器翻译的问题 但是其 中 两个 重要 的 内容 还有待 研 究 一是 蒙古语 词形 的变 化 问题 蒙 古语 的词形 因 词性 时态 等原 因会 产生较 大 的变化 这些 形态变 化 多是通 过增 加后 缀来 进行 经过 E B MT生成 的结 果在 词形 上 的错 误 很 多 需 要 进 一步处 理产 生词 形正 确 的结 果 如 果要 利用蒙 古 语的词形信息 我们需要对蒙古文 的词进行切分 并 在 这个基 础上 研究 蒙古 文 的语 言模 型 这些 相关 的 工作 还 在起步 阶 段 还 需 要 进 一 步 的研 究 二 是 评 价生 成结 果 的方法 过于 单一 还需 要进 一步 的研究 参考文献 1 HO U Ho n g x u e t c An E B MT S y s t e m B a s e d o n Wo r d Al i g n me n t A I n p r o c e e d i n g s o f t h e I WS I T c 2 00 3 47 4 9 2 那顺乌 日图 刘群 巴达玛 敖德斯 尔 汉蒙机 器辅助 翻 译系统 A AL T AI HAK P O J OUR NA I OF THE AI TAI SOCI ETY OF KOREA 2 0 01 1 1 r 3 S a t o s h i S h i r a i Fr a n c i s B o n d a n d Ya ma t o Ta k a h a s h i A H y br i d Rul e a nd Exa m p l e b a s e d M e t ho d f or M a c h i n e T r a n s l a t i o n A I n N a t u r a l L a n g u a g e P r o c e s s i n g P a c i c R i m S y mp o s i u m 9 7 NI P R S 9 7 c 4 9 5 4 11 E 4 L a mb r o s C r a n i a s H a r r i s P a p a g e o r g i o u S t e l i o s P i p e r i di s A M a t c hi n g Te c hn i que i n Ex amp l e Ba s e d M a c hi n e Tr a n s l a t i o n A I n P r o c e e d i n g s o f t h e F i f t e e n t h I n t e r na t i on al Con f e r e n c e on Co m p ut a t i on a l Li ngu i s t i c s E C Ky o t o 1 0 0 1 0 4 维普资讯 7 2 中 文 信 息 学 报 5 6 Yi n g Zha ng Ral f Br own Ro be r t E Fr e de r ki n g A d a pt i ng an Exa mpl e Ba s e d Tr an s l a t i on Sys t e m t o Chi n e s e A I n P r o c e e d i n g s o f HI T 2 0 0 1 F i r s t I n t e r n a t i o n a l C o n f e r e n c e o n Hu ma n I a n g u a g e Te c h n o l o g y R e s e a r c h c 7 i o S u e J Ke r a n d J a s o n S Ch a n g Al i g n mo r e wo r d s w i t h h i g h p r e c i s i o n f o r s ma l l b i l i n g u a l c o r p o r a J Compu t a t i on al I i ng ui s t i c s a nd Ch i n e s e I a ng u ag e Pr o c e s s i ng 1 9 97 2 2 6 3 9 6 7 那顺乌 日图 芙于现代蒙 古语定 格问题 J 蒙 古语 文 19 8 8 1 8 那顺乌 日图 计算机处理现代蒙古语 T AI TE I 形 式的 尝试 J 民族语文 1 9 9 1 3 9 那顺乌 日图 确精 扎布 关于蒙 古文编 码 A 中 国 民 族语言学会第六次年会 c 1 9 9 4 1 O 黄河燕 等 大规模句 子相似度 计算 方法 J 中文 信 息 学 报 2 0 0 6 增 刊 4 7 5 2 上接第 6 4页 参考文献 1 2 3 4 5 M i t r a M Ch a ud hur i B B I n f o r ma t i on Re t r i e v al f r om D o c u me n t s A s u r v e y I n f o r m a t i o n R e t r i e v a l J 2 00 0 2 2 1 4 卜 1 6 3 Ta n C I H u a ng W Yu Z e t a1 I ma g e d Doc u me nt Te xt Re t r i e va l wi t ho ut OCR I EEE Tr a n s Pa t t e r n A n a l y s i s a n d Ma c h i n e I n t e l l i g e n c e J 2 0 0 2 2 4 6 8 38 84 4 Do c r ma n n D S a u v o l a J Ka u n i s k a n g a s H e t a 1 Th e d e ve l op me nt o f a ge n e r a l f r a me wor k f or i nt e l l i ge n t d oc u me n t i ma g e r e t r i e v a l A I n T h e 3 i n t l w o r k s h o p o n D o c u me n t A n a l y s i s S y s t e ms c Ma l v e r n P e n n s y l va n i a USA 1 9 9 6 60 5 6 3 2 Doe r ma nn D Li H Ki a O The d e t e c t i on o f du pl i c a t e i n do c umen t i ma ge d a t a b as e I mag e a n d Vi
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025呼伦贝尔农垦那吉屯农牧场招聘笔试备考及答案详解(典优)
- 教师招聘之《小学教师招聘》练习题库(培优b卷)附答案详解
- 汽车行业峰会创新创业项目商业计划书
- 低温制粒饲料加工技术创新创业项目商业计划书
- 自动驾驶汽车路径算法部件创新创业项目商业计划书
- 2025年教师招聘之《幼儿教师招聘》通关试题库附参考答案详解(黄金题型)
- 教师招聘之《幼儿教师招聘》强化训练高能带答案详解(典型题)
- 教师招聘之《幼儿教师招聘》考前冲刺测试卷讲解含答案详解【达标题】
- 教师招聘之《小学教师招聘》复习提分资料附参考答案详解(a卷)
- 2025呼伦贝尔农垦集团有限公司社会招聘50人笔试有答案详解
- 重庆市南开中学高2026届高三第一次质量检测+数学答案
- GJB135B-2021合成航空发动机润滑油规范
- 商业航天行业深度报告:政策技术需求共振商业航天赛道加速
- 小学科学新教科版二年级上册第一单元 造房子教案(共6课)(2025秋)
- 《系统工程》课件 胡祥培 第1-3章 绪论、系统工程相关理论、系统工程方法论
- 《人工智能基础》课件-AI的前世今生:她从哪里来
- 四川普通高中会考英语试卷及答案
- 营造林技能竞赛试题及答案
- 平均站间距计算方法
- 信息技术ppt课件完整版
- 复旦大学大学物理热学课件Heat-Ch1-partI
评论
0/150
提交评论