




已阅读5页,还剩7页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文信息学报 第 1 5卷 第 1 期 J O U R N A LO FC H I N E S EI N F O R MA T I ON P R O C E S S I N G V o 1 1 5N 0 1 利 用 平 行 网 页 建 立中 英 文 统 计 翻 译 模 型 聂建 云陈江 蒙 特利 尔 大学 RA LI 实 验室魁北 克加 拿 大 摘 要 建 立翻译模 型的 目的是试 图从 平行 文本 或翻 译例 句 中 自动 抽 取翻 译 关 系 本 文 将描述我 们在建 立 中英 文统 计翻译 模型上 的尝试 我 们所 用的平行 文本是从 万维 网上 自动 获 得的半结构性平行文本 在训 练过程 中 我们尽量利用文本 中的 H T ML结构信 息 实验袁 明 所训练 的翻 译模型 能达到 鲫 的准 确率 对 于 象跨 语 言信 息检 索这样 的应 用 这样 的 准 确率 已经能大致满足需要 这一工作表明 对于检 索引擎上 的问句的翻译可以使 用比机器翻 译成本 更低 的 工具 关键 词 中英 问句翻 译 平行 网页 句对 齐 统计 翻 译模 型 跨 语 言信 息检 索 中图分类号 T P 3 9 1 2 Bui l di ng Eng l i s h Chi ne s e S t atis t i c a l Tr a ns l a t i o n M o dds f r o m S e m i s t r u c t ur e d Pa r a l l e l Te xt s NI E J i a n y u n CHEN J i a n g La b R A LI Un i v e r s i t y o f Mo n t r e a l C P 6 1 2 8 s u cou r s a l e C e n t r e v i l l e Mon t r e a l Qu e b e c H3 C 3 J 7 C a n a d a E ma i l h i e i r 0 u mo n t r e a 1 c a Ab s t r a c t A s t ai i c a l t r a ns l a t i o n mo d e 1 t rie s t o c a p t u r e t r a n s l a t i o n r e l a t i on s h i p s f r o m a s e t o f p a r a l l e l t e x t s o r t r a n s h fi o n e x a mp l e s Th i s p a p e r d e s c ri b e s O ur a t t e mp t t o t r a i n s u c h t r a n s l a t i on mod e l s f r o m a s e t o f s e mi s u c t ur e d p a r a l l e l t e x t s i n Ch i n e s e a n d En g l i s h Th e se t e x t s a r e g a t h e r e d f r o m t h e W e b b y a n a u t o ma t i c mi n i n g t o o l n i n e r Ou r wo r k t a k e s a d v a nt a g e o f t h e r rML s t r u c t u r e o f t h e t e x t s S o me s p e c i a l p r o c e s s i ng i s n e c e s s a r y 0 n Ch i n e s e Ou r e x pe r i me n t s s h o w t h a t we c a n o b t a i n a a n s l a t i on p r e c i s i on 0 f a b o u t 8 0 wi t h t h e t r a i n e d mod e 1 Th i s pe r o r ma r i s r e a s ona b l e f o r l s c rit i c a l t a s k s s u c h i t s c r o as l e m g u a g e i n f o r ma t i o n r e t rie v a 1 Th i s wo r k s h o ws t ha t i t i S p o s s i b l e t o c o n s t r u c t a me a l l s o f q u e r y t r a n s l a t i o n a t a mu c h l o we r C O S t t ha n a m a c h i n e t r a n s l a t i o n s y s t e m 收 藕 日期 2 0 0 0 0 5 2 2 作者聂t云 男 1 9 6 3 年生 博士 副教授 主要研究方向是信息检索 其中包括信息检索理论模型 使用 自然语言处 理 的信 息检 索厦 跨语 言信 息 检索 l 维普资讯 Ke y wo r fl s Ch i n e s e En gl i s h q u e r y t r a n s l a t i o n p a r a l l e l we b pa g e s S e r l t e n c e ali g n m e n t s t a t i s t i c al t r a n s l a t i o n mo d e l c r o s s l a n g u a g e i n f o r ma t i o n r e t r i e v a 1 一 引言 随着 因特 网 的发展 人们越 来越多 地面临怎 样有效地 查找 相关 外语 文件 的问题 例 如 一 个 中国用 户可能希望找 到英语文件 而他 的英语 水平 又不 足 以使 他能 用 英语 准 确地 表达 他 的 需求 跨语言 信息检索 正是为 了满 足这种需 要 它 的 目的是 通 过 自动 翻译 用户 的 问句来 帮助 用户克服语 言障碍 人们 一般 会认为机器 翻译系 统是跨语 言信息 检 索 中问句翻 译 的最 理想 系 统 但是 机器 翻译 到现在 已经 5 O年 了 而翻译 的结果却远 不能 令 人满意 特别是 对 于 中文 使 机器 翻译 质 量在近期 内有 重大突破 的可能性很 小 因此 我们 需要别 的手段 来替代 或补充机 器翻译系 统 利用 平行语料 进行机器 辅助 翻译是 现在计算语 言学上 一个很 强 的趋 势 这也 是可 以在一 些应 用 中取代 或辅助机器翻译 的一种 手段 通 常 使用 的方法 是训 练 l 3 里描 述 的 三种翻 译 模 型之 一 这一 类工作先是在 英语和法语 之间进行 的 因为英 法语 之 间有 大量 的平 行语料 加拿 大 Hm a s a r d Ha n s a r d包含加 拿大议 院七 年英 法 对应 的发 言稿 在 我们 以前 的试 验 中发 现 以 H a n s a r d训练出来的统计翻译模型对跨语言信息检索非常有用 它 的效果与使用最好 的机器 翻译 系统 相近 然而其 代价却要低 很多 本文 将介 绍我们 在 中英文之 间使用统计 翻译 模型 的尝 试 这一 工作与我 们 以前 的工作有 以下 两点 不同 1 中英文之 间的差别要 比英法文 之 间大很多 因此 语 言 的相似性 不 再适 用 如 对人名 2 所 用的平 行语料是 自动从 万维网上 获取的 它 们 的平行 性 显然要 比 Ha n s a r d差很 多 我们 这一工作的 目的是探索在 以上两个 差异下统 计翻 译模 型是 否仍然对 跨语言 信息检 索 有较 好 的效果 因为万维网 上的文件是半结 构性的 它们含有 HTML标 志 所 以我们 在语 料 自动 对齐 中尽 量利 用这一特性 另外对于 中文也要作 一些 特别 处理 如 切词 在本 文 中 我 们将顺序介 绍平行语 料的 自动 获取 和 预处理 以它 为基 础 的建模 以及 对翻 译模 型和 跨语 言信息检 索质量 的测 试 二 平行语料及预处理 一 般 统计 计算语 言学 的研究 都 是 以语 料 为基 础 的 统计 翻 译模 型 更是 建 立在 平 行 语料 上 但是 目前所 能得 到 的平 行语料库 却非常有 限 因此 统计 翻译 模型 的实际应用受 到很大 限制 但 是我们发现 随着 因特网 的发展 越 来越 多 的网站成为 双语 网站 这 为平行语 料提供 了一 个很 大的来源 如果我们 能 自动从 因特 网上得 到大 量 平行语 料 那么统 计翻 译模 型 就能 实际地 用于许 多语言 我们 正是 为达到 这 一 目的而 试 图从 万维 网上 自动 获取 平 行 网 页 所 用 的 系统 一 Mi n e r 是按 以下步骤运行 的 1 确 定候 选 网站 候选 网站是指可 能含有 平 行 网页 的网 站 确 定 候选 网站 的 目的是 将查 找 限制在 可能 的 网站上 我们 的假 设是 如果某 一 网站 有 一个 中文 网页 含有 像 En gl i s h v e t s i o n i n E n g l 之类 的锚文 a n c h o r t e x t 则这 一 网站就 有可 能含 有 平行 网 页 同样 如果 英语 网页 里有 中文版 这样的锚文 则该 网站 也是候 选 网站 在 万维 网上 已有 许 多大型 检 索 2 维普资讯 引擎 索 引了大 量 的网 站 通 过它们 我 们 可 以很快 确定 某 一 网站 是 否 可能 含有 平 行语 料 例 如 我们可 以向 A h a Vi s t a发 以下 问句 a n c h 0 r En g l i s h Ve r s i o n 而将语言设 为 中文 则 可得到含此锚 文的 中文网页 从 它们 的网址 可确 定候 选 网站 2 寻找 候选 网站上 的文本 从某一候选 网站 上 尽 量多地 找 到所 含 的文本 第一 步 仍是 通过 检索 引擎 如 Al t a Vi s t a No r t h e mLi g h t 找 到部 分文本 这只要 向它们发送 下 面的问句 h o s t 但 是检索 引擎 只索 引 了部分 网页 为 了找 到更多 的 网 页 我们 从 已知 的网 页 出发 顺 着它 们 的链 结搜索 网站上的其 它网页 3 确定平行 文本 如果 假设 每一 网页都是 另一 网页 可 能的平 行 网页 那 么这 一步 骤 的复 杂性是 O n 2 其 中 n是 网页数 如果 n很大 所需 的时 间会很 长 为 了缩 短这 一 时 间 我们 运用 以下 的观察 平行 网页通常都 有相 似的 文件名 如 fi l e e h t 玎 d和 f i l e C h t ml 这使 我 们 能通过文件名 的相似性快 速地 确定 哪些 文本 可能 是平行 的 4 平行文本 的过滤 在 上一 步确定 的文本 中可能有不平行 的文本 所以我们 使用别 的准 则进一 步过 滤 这 些准则包 括 文 本长 度 文本 的语 言 文本 内 HTML标志 的相 似性 其 中文 本的语 言 的确定是 由语言 自动检 测系统 1 l J 完成 的 最 后我 们得到 l 4 8 2 O被认为 平行 的 网页 通 过 对这些 网页 的抽 查 发现 其 中 9 0 是 真 正 平行的 这些网页就组成 了训练翻译模型的语料库 在训练之前还需要对 文本作一些预处 理 首先 H TML文本 要 被切 成 句 子 这 不但 要 用 到 标 点 符号 还 有 用 到 HT ML 符号 其 次 中英文句子要 对齐 a l i g n me n t 这 除 了用到 句子长度 以外也要 用 到 H TML符号 最 后 还 有 中文编 码统 一转换 和切 词 问题 预处理 的结果是 以下三 个文件 r c e j 亿 丑L c c 图 1 中英文句子 e a n d s r c c 及它们的对应关系 c a 1 在下面的几节中 我们将进一步描述预处理中几个关键问题 句子对齐 中文切词和英文组词 三 句子对齐 句子对齐对于 统计模型训 练是至关 重要 的一步 它 的 目的是使 中英 文词之 间 的对应 限制 在最小范围内 从而增加统计模型的准确率 当然我们希望这一范围越小越好 但 同时对齐 的准确率 也要相 当 的高 在句子 之 间作 对齐是综 合这 两个 因素的最 佳 选择 因为 我们 能很 容 易地确定句子 而句与句对 齐的几率 也很 大 3 卜卜卜卜 卜卜 维普资讯 即使在句 子这一层 上对应也 不是一 件容易 的事 首先 句与 句 之问 不 总是 一 一对 应 的关 系 一个句子 可能翻译 成几句 几句 可能被合 并起 来 有 时 一些 句 子还 被 删除 或添 加 这 给 确定 句子 的对应 关系增 加很多 困难 特 别是我们 的语料库是 自动建 立的 含有噪音 另外 对 中英 文句 子的对应困难 更大 因为 中文 的书写 习惯通 常将几句并 为一句 而在对 应过程 中叉 不 能用 到语 言的相 似性 在 西方语言之 问 的对 应 问题 上 有 几 个 常 用 的算 法 其 中包 括 基 于 长 度 和基 于 同 构词 c o g n a t e 的算 法 3 1 基 于长度 的算法 B t o w n e t a l 和 Ga l e ch I T 9 J 平分 别提 出了两个 基于长 度 的算法 其基 本思 想是 对应 的句子 的长度是相 似的 而 且它 们的顺序也 基本相 同 据此 两个算 法使用 动态规划 的方 法将 句 子对 应调 到最 佳 点 两个 算 法之 间 的差别 是 B r o wn e t a1 用词 数 来计 算句 子长 度 而 Ga l e C h u r c h用字符 数 3 2 基 于 同构词 的算 法 所谓同构词是 指词 形大 致相 同的词 这 在许 多 西方 语 言 中很 常见 如在 英 语 和 法语 中 信息 都是 i n f o r ma t i o n 而 对齐 是 ali g n me n t 和 a l i g n e me n t 如 果在 某 一对英 语 和法 语 句子 中有很 多 同构词 那么它 们对应 的可能性就 更高 S i ma r d e t a1 L 一 和 Ch e n L 6 1 正是运 用这 一 原理 对基 于 长度 的算 法 进行 改 进 试 验 表 明这 种方 法 比基于 长度的算法 要更准确 鲁棒 S i ma r d e t al 所 用 的方法是 将两种语 言 中前 4个字 d a j d 0 0 0 0 口 j 0 d f r d E D 寸 f r d D 3 TAl 玎 r P 日 c J z 坩 t Mb T A l r r T B右 a H斟 00NTEI 锻 价 ml e h a t i s o 髓 5 9 J 00M 芭 I I c b a e t b Ii 伽J 口 j 0 d n I E o u m o fP c i ma ry 卧 Km n J J m o fP c ma r yEd u c a t io n J VQ I 1 娩P P 1 9 丌I U三 Vo 1 Na p 啦 9 2 9 T nB m三 D HEAD I i O o 2 口 j 删Y 0 0 N 州b p r 姗YB 姗伽 暑 日 b P f 1 l O O D D o 口 日G00 R 阳T f 1 E 目 O o o BO0 D 村 匿1 日 T 盼 豫 砰 d 巾 2 时 仰 f 慷 L 执 n 坤 I 日 1 2 0 1 9 c h t m i d 0 0 0 3 椰竦 o i 弧 L 1 c H J c 4 J r l a l a fP c i ma u E d u c a t iQ dl I ER墨 oAL I N R 聍m 难 T 日b i d O 0 0 4 1 珉 Vo 1 me 6 H口 ZP P 1 9 2 Ma y 1 酊 B HR 口 1 d t 0 0 5 口 j oD 0 d舳斗 t c H b 如 如 口 j OD D r dI R 九九知 王J 口 i扛 晒 摹 一 t 二 囊 l s 圈 2 1 L e b a s e d a j 斟m t 维普资讯 I i 6 00 0 0 1 扛 0 0 o 旷 d 玎 HE D d f I ML d E D ME T H兀 P 日 几v c 弧 p 3i 6 00 01 I 士 0 l I j d 0 00 2 a i O c l 珉 V e 6 Hal P P 9 2 M df R 一九九 丰王J 卉 9 酊 B d R a j O O o 5 奉一 工囊I g 2 7 膏 mb s 翥 I t E d l c i 0 n 耠 I T0M C 曰 E C目 Ii o 6 Ii 惭 B b b l a n B E b B I I r B f b P c 图 2 2 Al i g r m e n t ms i d e r l n g c o g r a t t e s 母 相 同的词看作 同构词 这使 得基于 同构词的算 法适用于大部分 西方语 言 3 3基于翻 译词的方 法 除了使 用 同构词外 我们 还可 以使 用一 本翻译 词 典 如果两 个 句子 中的词相 互 有翻译 关 系 那么 它们之 间的对应也会很 高 所用 翻译 词典 可 以是 人工建 立 的 2 o J 也可 以是 以前训 练 的结果 6 1 2 如 w u 1 2 就是 迭代 的方法 把上一循 环所得 的结果 确 定为 可 能的翻 译 用在本 循 环 中作为翻译 词 在 Wu的试 验 中 他发现 纯基于长度 的方 法用 在 中英 文上效 果 比英 法 文差很 多 这是 可 以预料的 因为 中英 文之问有更 大的差异 而 同构 词的 概念又 不适 用于 中英文 因此 Wu使 用 了一本小翻译 词典 以此确 定 对 应信 号 1 e x i c a l C U e 他用 的 词典 只是 包 含一 些 常用 词 和 功能词 3 4 我 们的方法 以 HTML标志为 同构词 我们 的语料 质量 相对 于人 工建立 的语 料库差 很 多 所 确定 的对 应 网页并 不完 全 对应 翻 译质量 因网页而异 文 本与图形相混 台 这都 给句子对 齐增 加很 多困难 好 在我们 的 目的并 不 是希 望所建 的翻译模型 能 准确地 自动 翻译 全 文 而是 为 问句 确定 最 合适 的翻译 词 和相 关 词 因此它对 翻译模 型的容错 性也大 一些 因为我们 的平行语料 含有 HTML结构 相对于 纯文本 句子对 齐也多 了一些有用 的信 息 一 般 隋况 下 中英文版 网页的 HTML结构 应该 是 对应 的 如果 结 构对 应 那 么 句子对 应 的可 能性就 更高 这 和同构 诃的作用相 当 所 以 我们 可以将 网页里 的 HTML标志作 为一种 特殊 5 维普资讯 的 同构词 因而使用 已有的基于 同构 词 的算 法 相对 于 与长 度 为基 础 的算 法 这 种算 法确 实 能提 高对齐 的准确度 这可 以从 图 2显示 的例子观察 图 2 1 显示 的是 Ga l e C h u r c h的 基于长 度 的算法 的结果 图 2 2 是 使用 HTML标 志 的方 法 我 们 可 以看 到 第 二 种方 法能 纠正第一种方法的一些错误 如被 强制性地 相互对齐 四 中英文预 处理 中文切词和英语 组词 句子对齐 后 我 们要将句 子 内的词 对应起来 这就是 训练翻译 模型 的 目的 在此之 前 需 要确定 中英 文里 可以对应 的单元 词 或词组 中文就有 切词问题 而英语 也有将 词组 合成词 组 的 问 题 4 1中文 切 词 中文 切词 在过 去十几 年间 有 许多 研究 如基 于 词典 和 规则 的方法 1 J 和 基于 统计 的方 法 4 通常词 典只存 词形 不 变 的词 如一般 的常用 词 有 一 些词 不 适于 存在 词 典 里 如 数 目 这一类词 能更 方便 的用规则来 确定 因此 基于 词 典的 方法 通常 辅 以规则 最 常用 的方 法是最大 匹配法 统计 方法则是 通过计算 词 串的概率来 确定最佳切 分 的 这 通常需要 许多切 分好 的语 料以估算 字串成 词 的概 率 也要 一些方法 将上 两 种方 法综合 起来 将没 有 统计数 字 的词 以一 定 概 率 与统 计而来 的词相结合 在这 一工作 中 我们采 用 的是全 切分 的 方法 即如果 A B C 7 3 AB C D 都 是词 那 么这些 词 都将从 AB C 7 3 字 串中被切分 出来 这样 做是 从 信息 检索 的角度 考 虑 的 如果 我 们 只切 出最 长的词 训练出来的翻译模型对长词所包含的短词的翻译会乏力 另外在信息检索 中 对问句 的翻译 并不 要求只是翻译 词 我 们也 希望 在翻 译 中有相 关 的词 而含 AB的 问句 的翻译 也可 以包含 A B O3的翻译 词 因为 AB C D是与 AB相 关的 反之 亦然 因此 将所 用 的词都 切分 出 来能使所 训练 的翻译模 型找 到部 分相关词 在这种情况下 用统计 的方 法确定最佳 切分意 义就不 大 只要使 用词典和 规则 即可 我们 使用的词典含词量是 1 8 7 l 龆 其 中不乏词 组 另外还有一组规则以确定数 字串 数量词等 对于英语 情况则相反 英语 词 已经 分开 而我们 希望将词组组合起来 如 i no r d e r t o wb d d w d e we b c c a p u t e r s c l e n e e 等 而 同时我们也像对中文一样将构成 词 唧1 t 日 s c j e n 留下 五 翻译模型 的训练 我们 训练 的模型是 I B M 模 型 1 在 B r o w n 中共有三个模 型 在模 型 1的训 练中词 的顺 序和上下 文都 未被 考虑 在模型 2和 3中这些 因素 被考 虑 了 对 于机 器 翻译 而 言 词序 上 下文是 必须考虑 的 对于跨语 言信息检索 翻译 时词序不 重要 因为翻译好 的 问句 最终 要被信 息检索 系统看成是 没有顺序 的词 集 至 于上下文 它对于 翻译词 的确定很 重要 特 别是 在原语 言词歧义的情况下 但 同时 考虑上下无会对问句的翻译有一定限制 如果某一原语言词所 在的上下 文在训 练语料 中没 有遇 到过 那翻译 模型可能就不 能给 出它 的翻译 同时 在 信息检 索 中我们 也希望在 翻译 中不 光有 翻译词 而且 也有相 关 词 这样检 索 系统 可 以查 出更多相 关 文件 而这一 目的可以在一 定程 度上通过 使用模 型 1 来 实 现 因为它 允许 对应 句 中任意 一对 词相互 翻译 不 论它们 出现 在什 么上 下文 中 因此 作 为我 们尝 试 的第 一 步 我 们 只是训 练模 型 1 在 以后 的工作 中我们将 探讨 别的模型 的使 用 I B M 模型 1是根据 以下 原理 建立 的 给定 两 组 对应 的 句子 如果 一对 中英文 词 经常 在对 6 维普资讯 应句 子 中同时 出现 那么它们 之间 的相 互翻译 的概 率就 高 在 具 体 实现 时要 用到 动态 规划 方 法 使 用 E M 算法 将诃 与诃 之 问的翻 译 概率 调 到使 用 于训 练 的 句对 的 对应 概率 最 大 的 点 最终结果 是一组 概率 p t l s 对 于一 对语 言 如 中英 我们 可以从 同一 语 料 中训 练 出两个 有 方 向性 的翻译模 型 中英和英 中 由 P TMi n e r自动获得 的训 练语料 共有 l 1 7 2 M 中文和 1 3 6 5 M 英 文网页 表 l列 出了预 处理 包括 去 除 Hr ML标志 以后训 练语料 的数 据 在 这些 语 料 中共 有 1 0 4 8 1 5 6组 对 应 其 中一对一 的对应有 8 7 0 4 1 4 在 我们 的 训练 中只用 了一对一 的对应 因为 它们 通常要 比一 对多 的对 应准确 得多 表 1 训练 语料 的统 计数 据 f大小 词忙量 用词数 s r c e 7 4 1 M 7 6 9 6 9 9 8 1 6 8 5 9 s r c c 51 l M 4 8 5 2 8 9 9 1 6 41 6 六 测 试 和分 析 测试 统计 翻译 模型有不 同方式 Wu 2 2 J 的测试 方法将翻 译模型 看作是 一 个翻 译词典 以检 验翻 译词 的准确率 另 一种 方法是将 翻译模 型用于 某一 应 用 检 验应 用的效 果 我们 将使 用 这 两种 方法 我们 的应 用领 域是跨语 言信息检 索 6 1 翻译 模 型作 为词典 较为简单 的方法是对每 一个词选取 前几个概 率最 高的翻译 词看 它们 是否正 确 另一种 方 法是 检测使 用翻译模 型 的困惑 性 p e r p l e x i t y 我们 只是 使用 前一种 方 法 测试 第一 个 翻译 词 是否正确 为此 我们分别 从 中文和英 文 中随机 选取 2 0 0个 词 用于测 试 对 于正确 翻 译是 一 个 单词时 很容 易判断正确 与否 t 或 f 当正 确翻 译词是 词组 时 我 们 检验词 组 中的 词是 否 是翻译概率 最大 的词 如果在 这些词之 间加 了别 的词 我 们仍认 为翻译不 正确 以上测 试 的结果 表 明 在最好 的情况下 中英翻 译模型 的准确率是 7 7 而英 中为 8 1 5 这一质量对于跨语言信息检索可以认为是合理的 这在下面通过第二种试验可以反映出来 6 2无用 词表对反映模 型的影 响 无用诃是指在信息检索中对查询文件用处不大的诃 通常这是一种语言的功能词 它们 不代 表有用 的语 义 因而放在 无用词表 中不 作为索 引词 对 于在 跨 语言 信 息检 索 中使 用 的翻 译模 型来说 可 以有 两种选择 1 在 翻译 时保 留无 用词 然后 由信息检 索系统将它们 去除 2 在 建立翻 译模型 以前就将无 用词 去 除 使 用第一种 方法 的问题 是 无用 诃的出现频率 通常很 高 因此在 训练 的模 型 中它们 作为翻译 词的概率也 会很 高 如 在英 语 中 o f 等 词 在大 部分 句子 中 都有 它们 因此 而被 错误地认 为是许多词 的翻译词 同样 中文 中的确 的 也 一样 因 此 从直 观上看 将 无 用词 从 训 练语 料 中去 除 裹 2 无用词裹的影响 将有利 于提 高 有用词 翻 译 的质 量 这一 点 可 以从 试验结果 中看 出 在 表 2中 我们可 以看 到将无 用词从训 练语料 中去除后 中英和英 中 的 翻 译 质 量 分 别 由 7 2 5 和 6 3 提 高 到 7 5 和 7 9 5 这在英 中翻译 中效 果尤 其 明 显 英语 无 中文 无 用词 表 用词 表 英 中 中英 l 不 用 不 用 6 3 7 2 5 2 用 用 7 9 5 7 5 3 不用 用 8 1 5 n a 4 用 不用 n a 7 7 但提 高幅度上这样 明显 的差异显然 与无用词去 除的 干净程 度 与否 有关 中文无用 词表显 7 维普资讯 然要 比英语 更 不完整 在 中文 中 不 少词都有 时是无 用词 有时是 有用词 如 总 用作 总是 或 总和 所 用作 介词或作 为 场所 研究 所 词 的词性 不 如英 语 中那 样 固定 这 给 确定无 用词表增 加 了很多 困难 同时也 可 以肯定 中 文无 用词 的去 除不 如 英语 干净 但 以上 的结果 至少可 以肯定将无 用词去 除 比不去 除要好 是 否应 该 同时将无用词 从 目标语 和原语 言 中去 除 为 了测 试这 一 问题 只是 从 目标语 言 中去除无 用词而 在原语 中保 留无用 词 从表 2中可 以看到 这样 翻译模型 的质量反 而更好 怎样解 释这一 现象 一 种可能 的解释是 在去 除 目标语 言中 的无 用词 时总 会 有一 些被 遗 留下来 如 果从 原语 言 中把无用 词去 除 目标 语 中遗 留 的无 用词 可 能就 找不 到对 应 它们 被 迫 与有用词 对应 因而使 这些 有 用词作为有用 词翻译 的概率相对 减 弱 相反 如果在 原语言 中 保 留无用词 则 目标语 言 中遗 留 的无用词 就有 可能对应 到这些无 用词 从而使 有用词 之 间的对 应 关系相对 提高 这一解 释与我们观察 到 的翻 译 概率 相 吻台 在图 3 1 和 2 中 第 一列 是在 目标语 和原 语 言中 同时去除无用词 的结果 第 二列是 只在 目标语 中去除 我们可 以看到第 二列 的翻译 概 率要 比第 一列 高 对一些词 如 o e n s 第 二列 能纠正第 一列 的错误 当然 这 两种情 况 比完 全不 去除无用词 第 三列 明显要好 mo d e I 1 w b h s z o F J i s l 止佃 Ch i r u r x e O 一 l mo d e M wi h呻 o 一 tl t 上 O O l 4 7 2 t 十 O Z Q 4 7 I J r O 4 6 6I r 一 O m7l r 开 0 0 9 5 4 5 1 r O O m U O1 7 竹 t OI l 5 4 t U o 7 5 4 非屯 O 7 4 Om t 井屯i O 2 1 9 11 7 1 d 椎 O 2 l 63 7 一 O2 7I l l l J O 2 让 一 吐 O 2 0 9 5 4 l O1 6 9 7 11 3 一t n 钾 t Q 4 9 3 2 j o m 4 L t4 q i 0 3 7 2 5 4 7 a L t4 i f o m 订 OM l 甫 纠 订 O j 一 O I 3 4 3 9 O 5 9 9 4 I Ol 4 P y t n1 9 4 4 8 t t一 0 2 4 3 7 4 6 tA I Ol 6 7 1 6 一 O1 7 I 7 6 9 t 一 OI 7 f 7 2 t 一4 o S I tQ 6 J r a 0 I r oI 帅品 r 昔 O 4 6 6 7 t O4 6 7 6 4 6 t4 o JI 6 玎 t 十 一 o 4 3 0 7 6 S r 丹年 o 0 7 3 Q 4 r oI m o 1 7 7 4 r 置i o 5 0 3 9 r J 0 I 6 I r O 4 5 1 t O1 9 S 9 7 I a 2 7 4 7 9 r Ol 业I r r O0 4 0 4 4 r 昔 Ol I 6 I O 3 4 9 9 0 2 1 0 3 7 1 5 5 5 I b n 嚏 I 葺 0 3 2 5 J 2 i d lL 0 3 4 2 3 I Ol 7 l t i k rmj i I t置 oI o 4 t置 I l 2 r I 正 oI l j O J O 3 4 i l 0 Q 4 6 3 3 土4 1 I I 2 t哥 c a l i p h 7 一 Ol O I 9 2 4 i ol 1 5 7 6 3 r O 4 6 l 6 4 r O1 9 0 I 廿 01 r 昔 O 6 5 图 3 1 英 中翻 译 例 子 对 于只从原 语言 中去 除无用词 而在 目标语言 中保 留无 用词 的情 况 表 2中标 为 a n 我们 没有具体 测试 因为从 直观 上看 这明显是最坏 的情况 从图 4给 出一些词 的翻译 例子 我们 可 以看到这 种情 况远 不如 完全 不要 无用词表 这一 现 象很容 易 解释 将 原语 言 中的无用 词 去 除 以后 目标语言 中的无用词 只能 与有用词相对 应 因此 原语 言的 有用 词在许 多情况 下都被翻 译 成无用 词 因为它们 的高 8 维普资讯 舯 r 吐 I m o d e t l w b o l hmo 州 I 衅 n a o d ld3 h eF l h n雌 I 田 r r 州 c l f n h on0 P l 办事 t O t n I c o l i c c 0 t o n c 0j 1 p l I 响 n c of 0 3 m t H o 0 3 2 23 7 2 t 1 n I 2 t 唧 帅 0 钟 I 1 P 0 5 2 T p 1 0 l t P p 1 0 2 4 07 0 6 1 1 p 1 0 聃 5 4 4 囊 1 lo c n 2 I t I 0 7 43 1 l n3 7 3 5 6 9 1 r r dI o w n位 盱 r 缸I bw 0 1 3 41 0 7 1 m I n3 2 2 9 6 毫 1 螂 J I f d n劓 玎 c t 一 州 0 6 1 m n4 I 1 t r 曲 nO 柙 押 r 山 0 05 r or n们 2 3 5 5 车 工 t i c n M I 2 1 h咖岫 t 0 l 6 63 4 r Or 0循 6 T t p I r t 1 0 I 7 6 1 t 0 I c t 0 24 q 4 l 6 r 0 0 I 1 f l n I 盯 E f 0 6 7 I 事 E 悖I 1 0 O H2 n 9 2 c 曲 0 2 9 3 8 6 年 0 帅 9 9 7 n盯 3 9 c 1 0 4 年 惶h k 0 0 c k n4 7 2 4 2 c c k 1 4 5 2 t I 0 M5 i n 0I t i I n 1 0 帅 t 曩 c d E 1 n I 2 2 E l I dk 0 l 7 w 1 h n T o 上 c h n柚 I I c f h n 6 f h 1 0m I 丧 t 0舶 r 0 nI I t o r 1 0 o 5 E a如 1 0 4 4 5 5 t 1 m 柚 n棚 O t r O E r 0 I I 吐 一 t l h nl I 7 t l n2 7 4 2 c r 1 0I t n 岢 咖 bn n 2 1 h i n 2 I 3 2 E m 嘣 r I 啪 0 3 5 3 2 叠 柏 t 岫 i n I 1 姐l o I n扣 2 3 2 c n Q 2 7 5 5 十 1 m 0 I 1 t m n H c a 1 0 2 7 3 7 一 1 j j Q Q 7 2 7 6 i 雌 n o l I r o r 0 Q T S 6 7 土 1 阳 Fm 脏 0 由 t i n I 9 r o f n l 5 2 l 图 3 2 中英 翻译 例 子 6 3 错误分 析 模型 的翻 译错误 出于多种 因素 首先 训练语料 的质量对 翻译 模 型有很大影 响 除此之外 还有 以下几个 因素 1 有些原 语 言的词不 是翻译成 目标语 言中的一 个词 而是 几个词 或一个词 组 例 如 新 版一n e w v e r s i o n 由于我们测 试方法 的限定 如果 这一组 翻译词被其 它词分 开则被认 为不正确 但实 际上 翻译模 型所给 的翻译仍有 一部分 是 正确 的 这一 点没有在试 验数据 中反映 出来 对于 这一 问题 最好 的解决方 法是将词组 合在一起 考虑 如将 n e w V e r 1 o r l 看作是 一个 元 素 这一点我们 已经在 预处理 中通 过对 中英文词组 的组 合 在一 定 程度上 作 了一些 处理 但处 理 的词组很有 限 我们 今后 的工 作将对 这一 问题进一 步处理 2 有些词 的正确翻译 被放人 了无用 词表 如 我们将 年 作 为无 用 词 这样 y e a r 的翻 译 就成 为 今年 每年 等 3 翻 译模型受 训练语料 的领域限 制 在 我们 的语料 中有不 少 是香 港议 会 的发 言 因而 模型给出下列翻译 l T l r 口议员 mi s s 口议员 h o u s e 口内务 6 4用于跨 语言信息检 索 翻译模型可以与一个单语信息检索系统相结合实现跨语言信息检索 在这里的试验 中我 们 使 用稍 加改进 的 S MAR T 系统 这是一个 使用矢 量检索模 型的 系统 我们 将翻译模 型所 提供的前 N个翻译词输给 S MA R T以建立问句矢量 9 维普资讯 m d I 4 t h s lo p bt mo d e t wi t h Er L i i h u f 1 0 1 46 I 6 1 f 0 I 8 3I f 01 5 f 1 02 5 2 9 5 3 咖I I 口n 毫 01 7I 6 f 01 晒5 删 井屯 0 2 8 9 酊 I f 0t t a d o 一 O21 5 f 02 3 9 6 0 4 l i ar 01 6 7 B 3 f 02 2 弘 臼 j 舶 一 j 0 3 7 4 3 3 一t 02 3 1 6 i r m 靠 量4 O 3 0 9 5 5 t 量 棚 02 6 3 2 8 m 喇 m m 订 02 B 4 7 5 5 廿订 02 4 7 7 8 8 p m f 岛 0 l 4 6 4 4 I f 0t 9 6 8 F P t 一 01 6 7 E 5 6 f 02 3 4 6 8 3 剥 01 5 8 6 7 f 01 8 3 2 u d f f 0 1 4 6 1 6 7 f 01 8 冀 1 3 千 0 4 册 千 t 0 3 5 0 口 7 6 b aE o n 0I 8 7 7 2 4 f 02 7 o 6 6 b L a c L r f 矗 O I 4 S 鲥 f O2t 盯 5 t b m c I L f 0 1 4 6 3 2 8 f 0 I 0 6 1 b Il L i f 01 4 6 1 6 1 f 0 I B 蛇 b I1 越 h 啐 l 0 5 4 7 O 2 5 n9 8 b l a m e O I 7 I 7 S 5 f 0 I B 5 5 2 1 d i r e f O I 4 8 9 3 7 f 02 2 7 1 6 b q f m螂 f d 1 5 1 f 02 2 岱 c I L t 扦 OI S 7 2 f H O2 2 7 9 5 c a t 碍0 f O1 4 6 1 臼 f 0I 8 f 0 I 4 6 1 f 0 I 8 1 66 图 4 不 使 用 无用 词表 与只 在原语 言上 使用 无 用词 表 的 比较 为 了确定 N 我们做 了一组试验 发现 在 N 为原 问旬 词数 的 1 5倍 时效果 较 好 在 翻译 概率的使 用与否上 我们也观 测到一些 区别 不使 用 概率 时效果 稍好 另 外 翻译 模 型所 提供 的翻译词 也可 以和 某一翻译词典 提供 的词相 结合 以更好 地覆盖原词 的翻译 为 此 我们使用 了网上可 以得到 的一个 小词典 J 在下 面的表 3中列 出所 得到 的结 果 这 一 组结 果是 在 n疆CL 1 0 试 验 的英 语 和 中文测 试 集 上得到 的 表 4给 出一些 测试 集的统计数据 裹 3 踌语言信息检索结果 裹 4 测试集统计数据 中英 跨语 言 检 索 英 中跨 语 言检 索 单语 检 索 0 3 8 6 1 0 3 9 7 6 翻译模 型 0 1 O 4 3 9 0 0 1 8 4 l 4 6 3 词 典 0 1 5 3 0 3 9 6 0 1 4 2 7 3 5 9 翻译模 型 词 典 0 2 5 8 3 6 6 9 0 2 2 3 2 5 6 I 中 文测 试集 英 语铡 试 集 文 件 数 1 6 4 7 8 9 l 1 3 0 0 5 体 积 1 7 0 M 5 5 0M 问句 数 5 4 2 1 我 们所得到 的最好 的结 果是 中英 跨语 言检 索是 英语 单语检 索 的 6 6 9 而 英 中跨语 言检 索是 中文单语检 索 的 5 6 1 这 一结 果 比以前在 英 法跨 语 言 检索 上得 到 的结 果 l 差 很多 英法跨语言 检索 能达 到单语检 索 的 8 0 9 0 但这 一差别 主要是 语言 之 间的差 别造成 的 使用 中英机 器翻 译系统也 同样 与英法有很 大的差别 我们使 用了万雄 网上能得到 的一个机 器 翻译 系统L 1 7 J 所 得到的英 中跨语 言 检索 也 只有 单语 检 索 的 5 O 3 尽管 我 们 没有使 用 中英 机器翻译系统进行比较 在目前所能得到的报告中 使用机器翻译系统在同样的试验集上最高 1 O 维普资讯 也只能 达到单 语检 索的 7 O 这 些结 果基本 相对 于使 用翻译 模型 与翻 译词 典相 结 合 的方 法 因此找们仍然能说 以翻译模型为基础的方法能大致达到与机器翻译系统相当的水平 七 总 结 这篇文 章介 绍 了我们从 网上 自动获取平行 网 页 以此 为基 础训 练 统计 翻译 模型 及将 翻译 模型 用于跨语言信 息检索 的尝试 这 一尝试 表明 在现 有 的万维 网 中有大 量 的平行 语 料 可 以 通过 自动搜索获取 获取 的平行 网页可以用来 训练统计 翻译 模型 而我们 在跨 语 言信 息检索 上 的试验说 明这样 的模型是 非常有用 的 对于 一些 还 没有机 器 翻译 系统 的语 言 这 一结 果 尤 为重 要 我们可 以 由此实现有 效的 跨语 言信 息检索 系统 对 于 已有 机器 翻译 系 统的语 言 统 计翻译模 型仍可 以作为一种 补充 本文 中用到 的翻译模型是 I B M 模 型 1 在大部 分情况 下这 对跨 语言 信息检 索是 合 理 的 但在 翻译歧 义性很 大 的问句 时就有不足 在这 种情况 下 我们 希 望 翻译 模型所 给 的 翻译词 与 上下 文有 关 以此 在 以后 的工 作 中 我们将 尝试使用 I B M 模 型 2和 3 另外 在统计 模型 中加入语法 特征 也有 可 能对 翻 译质 量 有所 改进 如 p a r a l l e l 在 作为 形 容词和名词时可以分别翻译成 平行 和 平行线 如果翻译模型根据词性来确定她的翻译 有可能使 翻译 质量更好 对讨论 中提到 的一 些问题 如词组 的问题 也将进 一步加 以改进 值得 一提 的是 中英文之 间人 名地名等专 有名词 和未 登 陆词 的翻译 这 在 相似语 言 间不 是很 大 的问题 它们 的 翻译 很 多时候是它们本身 但在中英文这样不相似的语言之间这是一个重要的而且困难的问题 一 种可能 的方法是从 平行 语料 中识 别专有名 词 然后 通过统 计将 它 们 对应 但这 一 方法 只对被 训练 语料 充份覆盖 的专 有名词 有效 对
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年住院医师规培-青海-青海住院医师规培(康复医学)历年参考题库典型考点含答案解析
- 2025年住院医师规培-陕西-陕西住院医师规培(急诊科)历年参考题库典型考点含答案解析
- 县级企业面试题及答案:市场营销类
- 2025年住院医师规培-辽宁-辽宁住院医师规培(医学检验科)历年参考题库典型考点含答案解析
- 2025年住院医师规培-贵州-贵州住院医师规培(口腔内科)历年参考题库含答案解析
- 2025年住院医师规培-福建-福建住院医师规培(口腔科)历年参考题库含答案解析(5套)
- 2025年住院医师规培-海南-海南住院医师规培(耳鼻咽喉科)历年参考题库含答案解析
- 2025年住院医师规培-海南-海南住院医师规培(妇产科)历年参考题库典型考点含答案解析
- 2025年住院医师规培-河南-河南住院医师规培(中医妇科)历年参考题库含答案解析(5套)
- 2025年住院医师规培-河北-河北住院医师规培(儿外科)历年参考题库含答案解析(5套)
- 2025年燃气电厂笔试题库及答案
- 2025年道路运输两类人员安全员考试考核试题库答案
- 2025年学法减分试题及答案
- 《智能建造概论》高职完整全套教学课件
- 2025年教育综合理论知识试题及答案
- 超声科进修学习汇报
- 2024年甘肃省舟曲县邮政公开招聘工作人员试题带答案详解
- DB32T3795-2020企事业单位和工业园区突发环境事件应急预案编制导则
- 初中生简历模板
- 哈尔滨市城市规划管理技术规定
- 眼的生物化学课件
评论
0/150
提交评论