以机器翻译技术为核心的多语信息处理研究.pdf_第1页
以机器翻译技术为核心的多语信息处理研究.pdf_第2页
以机器翻译技术为核心的多语信息处理研究.pdf_第3页
以机器翻译技术为核心的多语信息处理研究.pdf_第4页
以机器翻译技术为核心的多语信息处理研究.pdf_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第 2 5卷第 6 期 2 0 1 1年 1 1月 中文信 息学 报 J OURNAL OF CHI NES E I NF ORMATI ON P ROCES S I NG Vo 1 25 NO 6 NO V 2 Ol 1 文章 编号 1 0 0 3 0 0 7 7 2 0 1 1 0 6 0 0 8 1 0 9 以机器翻译技术为核心 的多语信息处理研究 赵铁军 曹海龙 哈尔滨工业大学 教育部一微软语 言语音重点实 验室 黑龙江 哈尔滨 1 5 0 0 0 1 摘 要 该文介 绍 了哈 尔滨 工业 大学教 育部一微软语 言语 音重点 实验 室在 多语信 息处理 方面的研 究进展 和成果 首先综述 了国内外 的研 究现状 然后重点介 绍在 统计机 器翻译 机 器翻译应 用 机 器翻译评 价 跨语 言信 息检 索等 方 面 的研 究 工作 关 键 词 机 器 翻 译 多语 信 息 处 理 自然语 言 处理 中图 分 类 号 TP 3 9 1 文 献 标 识 码 A Re s e a r c h o n m u l t i l i n g u a l i n f o r m a t i o n p r o c e s s i n g b a s e d o n ma c hi ne t r a n s l a t i o n Z HAO Ti u n CAO Ha i l o n g M OE M S Ke y L a b o r a t o r y o f Na t u r a l La n g u a g e Pr o c e s s i n g a n d S p e e c h Ha r b i n I n s t i t u t e o f Te c h n o l o g y Ha r b i n He i l o n g j i a n g 1 5 0 0 0 1 Ch i n a Ab s t r a c t W e r e v i e we d t h e p r o g r e s s a n d a c h i e v e me n t o n mu l t i l i n g u a l i n f o r ma t i o n p r o c e s s i n g b y MI T La b o f HI T W e b r i e f l y s u r v e y e d t h e r e l a t e d r e s e a r c h a n d t h e n i n t r o d u c e d o u r wo r k s o n s t a t i s t i c a 1 ma c h i n e t r a n s l a t i o n ma c h i n e t r a r s l a t i o n a p p l i c a t i o n ma c h i n e t r a n s l a t i o n e v a l u a t i o n a n d c r o s s l a n g u a g e i n f o r ma t i o n r e t r i e v a 1 Ke y wo r d s ma c h i n e t r a n s l a t i o n mu l t i l i n g u a l i n f o r ma t i o n p r o c e s s i n g n a t u r a l l a n g u a g e p r o c e s s i n g 1 引言 随着 互 联 网 的 迅 速 发 展 和 国 际交 流 的 日益 频 繁 以机器翻译技术为核心的多语信 息处理 已成为 国际上的一个热点研究领域 中国 欧美 日本等国 的研究 机构 和企业 正 在这 个研 究方 向上 进行 着激 烈 竞 争 多语 信息 处 理研 究 主要 包 括 机 器 翻译 跨 语 言信息检索和跨语言学习等问题 本文首先介绍这 几个问题的研究现状 然后重点介绍本文研究者在 统计机器翻译与应用 机器翻译评价 跨语言信息检 索 等方 面 的研究 工作 1 1机器翻 译 研究 现状 统 计机 器 翻 译 领 域 早 期 的 代 表 性 方 法 是 I B M 公司的 P B r o wn等人提出的基于信源信道思想的 统 计 翻译 模 型u 这种方 法 以词作 为最 小单位 对 双 语 句子 的翻 译过 程 进 行 描述 然 而 基 于词 的翻译 模 型在 实用 中遭 遇到 了词 对齐 噪声 的影 响且 没有 考 虑句子的结构及上下文信息 在两种语言的语序相 差 比较大时翻译效果不好 为 了解决上述问题 基 于短 语 的机 器 翻 译模 型 被 提 出 3 基 于短 语 的模 型 以较 为稳定 的共 现 短语 对 作 为 翻译 的基 本 元 素 在 一 定程 度上 减弱 了词对 齐 噪声 对 翻 译 的不 利 影 响 并能够将翻译时需要的上下文信息 自然地融入翻译 模 型 之 中 基 于短语 的统 计机 器翻译 模 型在近几 年 的统计 机器 翻译 研究 中已经 占据 了主导地 位 除 了 基于信源信道的统计翻译模 型以外 更为一般化 的 对数线性模 型被提出 可 以较为方便地加入新 的 特征 收稿 日期 2 0 1 1 0 9 1 4定稿 日期 2 0 1 1 1 0 1 0 基金项 目 国 家 自然 科 学 基 金 重 点 项 目 6 0 7 3 6 0 1 4 6 0 7 3 6 0 4 4 国 家 自然 科 学 基 金 面上 项 目 6 0 7 7 3 0 6 6 6 0 7 7 3 0 6 9 6 1 1 7 3 0 7 3 国家 8 6 3计划重 点项 目 2 0 0 6 AA 0 1 0 1 0 8 国家 8 6 3 计划探索类项 目 2 0 0 6 AA 0 1 Z 1 5 0 作 者简介 赵铁军 1 9 6 2 一 男 教授 主要研究方 向为 自然语 言处理 与人工智 能应用 曹海龙 1 9 7 6 一 男 讲 师 主要研 究方 向为 自然语 言处理 8 2 中 文 信 息 学 报 基 于 短 语 的模 型 的规 则 为 平 坦 的 双语 对 应 词 串 其调 序能力 较 为有 限 而在实 际应用 中 源 和 目 标 两种语 言往 往 在语 序 上 存 在 着较 大 的差 异 为 了 更 好地 解决 翻译 中 的调 序 问题 机 器 翻译 的研 究 人 员 们提 出 了基于 句法 的统 计 翻 译模 型 从 而在 模 型 中引入用于指导调序 的结构化信息 近年来 研究 人员将完全句法树信息引入翻译模型 提出了大量 的基于语言学句法分析的翻译模型 但 是由于基 于句 法 的模 型搜索 空 间 十 分 庞大 翻译 系 统 的复 杂 性高 在 模 型 建 立 上 面 临 着 更 多 的挑 战 其 中 C h i a n g等人 提 出基于 形 式 文法 的 层次 短 语模 型 8 j 比起 以往 基 于短语 的翻译 系 统结果 又有 所提 高 1 2 跨语 言信 息检 索研 究现状 随着 互 联 网 和 国际交 流 的 发展 跨 语 言 信 息检 索 的重 要 性 日益 增 加 也 成 为 近 年 来 的 一 个 研 究 热点 在解决跨语言信息检索的核心问题方面 主要 有以下几种方法 1 基于机器翻译系统的方法 该方法主要有仅翻译用户查询以检索 目标语文档集 和对 目标语全文进行翻译两种方案 由于现有的大 多数机 器 翻译 系统 的正确率 还难 以达 到令 人满 意 的 程度 此方 法 尚未达 到实用 水平 2 基 于 中间语言 的方 法 基 本思 想是 把用 不 同语 言所 表示 的相 同概 念 的词语 都 映射 到一 个 与语 言 无 关 的 中 间语 言 上 然后检索操作在这个 中间语言 上进行 该 方 法 的不 足 之处是 一 词 多 义 现象 可 能 会更 严 重 3 基 于双语 语料 库 的方 法 基本 思 想是 通 过 平行 语料库中不同语种的相 同信息的对应关系 对用户 查询进行翻译并且过滤翻译后产生的非正常翻译结 果 1 然而 该 方 法受 到双语 平 行语 料 库 规模 的限 制 4 基 于潜 在 语 义标 引 的方 法 潜 在语 义标 引 是一 种基 于 内容 概 念 的 检索 技 术 文 档 和查 询 都 由 K维 的词语 向量 表述 文献 1 2 把这种方法引入 到跨语言信息检索 中 提供 了一种不需要翻译就能 对两 种语 言 的文本 片段 进行 匹配 的方法 该 方法 只 要有相应的双语语料作为训练文档 即可 不足之处 是计算量较大 5 基于双语词典 的方法 机器可 读双语词典具有简单 易用 处理速度快以及易于得 到和维护的特性 这种方法被普遍应用于跨语言信 息检 索 的研 究 通过 双 语 词 典选 择 用 户 查 询 的 目标 语言 的译 词l 1 3 跨 语言 学 习 研究人员们发现 利用双语信息 特别是双语对 齐语料 可以有效地提升单语 自然语言处理模 型的 性能 一些工作利用双语对应 的信息作为约束 在 标 注资 源 匮乏 的语 言 上 进 行 无 监 督 学 习 1 4 1 5 一 些 工作 希望利 用在 一种 语言 上发 展 出来 的具 有较高 性能的自然语言处理模型辅助另一种资源缺乏型语 言的自然语言处理任务 这些方法基于双语对齐语 料进行 自然语言 资源 和模 型的跨 语 言传递l I 另外一些研究表 明 即使在单语 已经存 在充分的训 练数据 利用双语语料仍然 可以进一步提高单语 自 然语言处理模型的性能 并在命名实体抽取和翻译 词法 的形 态学 分析 以及句 法分 析等 多个 自然语 言处 理任务上得到 了验证 此外 文献 2 4 在双语 的信息抽取任务 中 提出了利用 C o T r a i n i n g方法 同时提高两种语言信息抽取系统性能的方法 2 统计机器翻译 多语信 息处理研 究 2 1 面 向短语 翻译 的句 法调序 模型 基于短语的统计机器翻译模型 3 5 是 目前使用 最广泛的统计翻译模型 它以短语作为基本翻译单 元 从而 可 以捕捉 到一些 常见 的翻译 现象 如 习惯用 语等 但基于短语 的翻译模型没有任何结构信息 故 而缺 乏远 距离 全 局 的调 序能 力 我 们 尝 试将 句 法结构引入基于短语 的统计翻译模 型中 进而提高 短语 翻译模 型 的长距离 调序 能力E 2 6 2 7 2 1 1 基于伪句法结构的调序模型 在短 语 模 型上 引 入句 法 结构 需 要 克 服句 法 边 界 和短语 边界 的不 一致性 和句 法树上 不 同层次 的短 语具有的交叉性 为此 文献 2 6 提出了伪句法结构 的概念 并在 此基 础 上提 出 了一 个基 于句 法 的 短语 调序模型 伪句法结构的表示方法类似于短语句法 树 不同的是它引入标记 x来表示伪句法结构相对 于完整句法结构缺少的部分 紧接着 文献E 2 6 在 伪句 法结构 上定 义 了 一种 连 续 性 并 在 此基 础 上 给 出了一个 句法 树分解 为 多个伪 句法结 构 的一种 分解 方 式 在 定义 了伪 句 法 结构 和划 分 方 式之 后 就 可 以像基于短语 的统计翻译模型那样对句法分析树进 行分解 他借用对数线 性模型l 4 来构造翻译模 型 其 中特征函数和文献 3 的短语统计翻译模型采用 的特征函数类似 除此之外 他还定义了一种伪句法 调序特征 这种伪句法调序特征定义为其所包含 的 各个 节点 的调 序 概率 之 积 进 一 步 地说 它把 句 法 分析树中各个节点的调序分成两种情况 一种是所 6期 赵铁军等 以机器翻译技术为核心 的多语信 息处理 研究 8 3 有子节点都重新排序 称为完全调序 另一种是一部 分子节点重新排序 由于另一部分子节点顺序未定 因此称为部分调序 相应的概率分别称为完全调序 概率和部分调序概率 当一个节点的所有子节点都 在伪句法结构 中时 就可以推算完全调序概率 而当 只有一部分子节点在伪句法结构 中时 由当前的伪 句法结构就只能推算部分调序概率 完全调序概率 可以采用相对频率直接进行估计 而部分调序概率 可以通过完全调序概率来计算 为了在解码时获得 词对齐信息来确定调序顺序 需要在抽取 出来的短 语互 译对 中标 出 词对齐 对 于抽 取 出来 的每 一个 短 语互译对 采用 I B M 模型 1 l 2 胡在源语言到 目标语言 和 目标语言到源语 言两个方 向上进行词 对齐 然后 采用上 述的 d i a g a n d方法 得到 最终 的词对齐 结 果 翻译 过程 是 根 据抽 取到 的 短语 互 译对 中 的源 语 言短语对输入句子进行划分 首先 随机选择一 个伪句法结构 给 出该伪句法结构对应短语的译 文 作为译文句子 中的第一个短语 并计算相应的得分 然后从剩下的伪句法结构中再随机选取一个伪句法 结构 给出对应 的短语译文作为译文句子 中的后继 短语 并计算该伪句法结构 和前一个伪句法结构合 并后的相应得分 重复上述 过程直到整个句法树 的 伪句法结构都 翻译 出来为止 在伪句法结构内部 节点调序顺序通过短语互译对 内的词 对齐来确定 在伪句法结构之间 节点的调序顺序通过短语互译 对的先后顺序 以及各短语 内的词对齐来确定 2 1 2 融人头一修饰词级别调序模型 文献 2 7 3 通过引入源语言端依存句法树上词与 词 之 间 的头一 修 饰 关 系 提 出 了一个 面 向短 语 翻译 的词级别的调序模 型 源语言端 的词与词之 间的 头一修饰关系反映了语义上的依赖关系 因此 头词 和修饰词对应的 目标语言端的翻译词之间的调序能 够从语义上提高短语 翻译 中调序模型的表达能力 特别 地 头一 修饰 关 系可 以是长 距离 的依 赖 因此 这 个调序可以增强短语翻译调序模型的长距离全局调 序 能力 目前 的翻译模 型 都是 以短 语为 最小 的 翻译 单元 基 于显 式 句法 的翻译 规则 可 以看 成具 备语 言 学表现形式的短语 这些模型中的调序也通常以短 语作为最小的翻译单元 以词作为翻译调序的模型 目前并不多见 这 主要是 由于对齐情况 的复杂性造 成的 在 目前基于短语 的机器 翻译系统中 无指导 对齐算法产生的对齐质量不高 同时 语言之间的对 应关系有时候是很复杂 的 这些 无疑是词级别模 型所 面 对 的主要 问题 针 对 这 个 问题 本 文 首先 提 出 了一 个对 齐前 处 理 方法 该方 法 主 要 在本 文 中起 到两个作用 简化模 型 使本文的调序模型更为简 单 迎合解码算法 的需 求 简化后 的词对 齐满足 对 源语 言端 的每 个 词 在 目标语 言端 恰 有 一个 词 与 其对齐 基于经过简化 的对齐结构 文中定义 了翻 译过程 中的翻译序进而定义了翻译过程 中的两种调 序模型 这两种调序模型分别从不同角度描述了翻 译过程 中的调序现象 基于翻译序共现的定义和基 于相对翻译序 的定义 这两种调序模型需要为每一 个调序词指定一个参照词 文 中这个调序参照词定 义 为待 调序 词在 依 存 结 构 中 的头 词 另 外 文 中还 将这两种调序模型进一步拓展到了高维度的情形 这两种调序模型共 同构成了基于头一修饰关系的词 级别 的调序模型 文中采用极大似然的方法来估计 调序模型 其好处在于参数估计高效 可扩展性强 在参数估计过程中 为了降低噪声对调序模型的负 面影 响 文 中在 极 大 似 然 估 计 中融 入 W B平 滑 思 想 2 实 验表 明这 种 基 于 头一修 饰 词 的 调 序模 型 可以有效地提高短语翻译模型的性能 2 2基 于句 法 的翻译模 型 2 1 节提出的翻译模型对语言学现象进行 了建 模 但 并 没有改 变短语 翻译模 型 的框架 句法模 型 5 是 目前统计机器翻译中的一个研究热点 我 们也开展了句法模型的研究 大体上讲 目前的句 法模型 可 以分 为非 语 言学 形 式文 法 的句 法模 型 8 妇 和基于语言学句法结构的模型l 5 第一类 模型基于形式文法 文法规则 中的非终结符没有语 言学 上 的意 义 因此这类 模 型没有 利用语 言 学知识 也同样存在一些局限性 第二类模型基于语言学的 句法结构比如短语句法树或者依存句法树来建立翻 译模型 受句法限制的影响 对于结构差异较大的 语言之间的翻译 这类模型的表达能力不够 目前 对于纯句法的翻译模 型研究 尚不十分成熟 现有的 大 多数 句法模 型 仅仅考 虑 一端句 法树 结构 2 2 1 基 于 同 步 子 图 生 成 文 法 的 句 法 结 构 翻译 模 型 文 献 3 2 提 出 的 多 文 本 文 法 Mu l t i Te x t Gr a mma r MT G 是 以一系列形式化 的定 义刻画 了语言翻译的过程 这种文法以多语言单词组成终 结符向量 以互相对齐的句法标注组成非终结符矩 阵 并用向量记录结构对齐信息 但是 由于不 同语 言存在的异构问题 对于一些语言现象 MT G文法 不能生成 相应 的推导 过程 实际上 正如前 所 8 4 中 文 信 息 学 报 述 这 也 是所有 基 于 同步 文 法 的 翻译 模 型面 临 的 问 题 为 了弥补 广义 MT G 文法 难 以表达 的语 言 间 异 构现象 文献 3 3 提出了一种新的 MT G文法模型 其文法的操作符号是图的集合 基于该文法 的翻译 模 型 基 于 同步子 图生 成文法 的句 法结 构 翻译 模 型 可以充分利用短语语块 内的词对齐信息 它在一 定程 度上 可 以解 决 翻译现 象 中的结 构异构 问题 该 翻译模 型 的翻译 规 则 是 双语 句 法 树 中的 子 图对 子 图对 是在对 齐 的短 语 对基 础上 从 相 应 的双 语 句法 树中抽取而来的 在确定了短语对后 可 以根据单 语的短语边界信息和对应的句法分析树 抽取出短 语 在句 法树 中对应 的子 图 抽取 子 图的过程 中需 要 解决两个 问题 即确定子图的根节点与重标注集合 文献 3 3 也采用对数线性模型来构建 翻译模型 其 中使用 了如 下 特征 双 语 翻译 概 率 双 语 词 汇 化 特 征 语 言模 型特 征 惩 罚特 征 包 含词 短语 和规 则 的 粘贴惩罚特征 解码方式是 C KY方式 的柱搜索过 程 解 码 过程可 以看 作 是 利用 子 图 MTG 规 则 对 源 语言 进行 分析 2 2 2 基于 同步 树替换 文法 的 翻译 模 型 由于基 于 S C F G文 法 的模 型 只允许 处于 同层 次 中的兄弟节点之间进行调序 这也降低了模型的调 序 能力 因而此文 法 在 形式 上 就 要 求 两种 互 译 语 言 间存在结 构性 的 同构 关 系 而 在 一般 情 况 下 语 言 间特别 是不 同语 系 的语 言 间在结 构上 存在 大量 的非 同构对 应 现象 因 此 基 于 S C F G 文 法 的模 型无 法 模拟 复杂 的结构 对 应 问 题 故 而不 能 充 分 的 对语 言 翻译现象进行建模 3 基于上述问题 文献E 3 5 提 出了 一 种 基 于 同 步 树 替 换 文 法 S TS G 的 翻 译 模 型 基 于 S TS G 的 翻译 模 型 可 以有 效 地 处 理 非兄 弟 节点之 间 的调序 进 而可 以对 翻译 中非 同构 现 象 进行建模 同步树替换文法中产生式规则对应的是 一 个源语言句法树片段到 目标语言句法树片段的翻 译 规则 两端 的树 片段 严格 地说 是元 树 包 含多 层 所 以可以容易地对处在不同层次中的节点之间进行 重排序进行建模 翻译规则可以从双语对齐句对及 其完全句法分析树开始 自动获得 翻译规则需要满 足两方面的约束 词对齐约束和句法 限制 词对齐 的约束和短语翻译模型l 3 类似 文献 3 5 中提出的 句法限制保证了规则的两端均为句法树 中的一棵元 树 这样做的好处是可 以有效 的限制翻译规则的数 量 进而提高翻译解码的效率 规则抽取分为初始 规 则 的抽取 和规则 的 泛化两 个 阶段 文 中借 用对 数 线性 模 型 的框 架 来 构 造 基 于 S TS G 文 法 的翻 译 模 型 文 中为树 到树 的翻 译 规 则设 计 了如 下 的特 征 两个方 向的元树翻译概率 两个方向的词汇化翻译 概 率 短语 惩 罚 词 惩 罚 语 言模 型 解 码过 程 是 一 种 自底 向上 逐 步 进行 节 点 扩 张 的柱 搜 索 过 程 在 这个过程中 对每个后续编号为 i 的节点 均存在一 个翻 译选项 栈 Tr a n s O p t i o n i 和一 个 假 设 栈 Hy p o i 与 之对应 翻译 选项 栈 中存放 的是 翻译节 点 i 对 应的子树所有可用的翻译规则 假设栈 中存放 的是 以节 点 i 为 根 的子树 的翻译 候 选 为 了控 制 翻译 过 程的复杂度 设置了一个阈值来对假设栈中包含 的 翻译 选项 数量 进行 控制 2 2 3 基于 同步树 序列 替换 文法 的翻译 模型 利 用句法 结构 对语 言 翻译 进行 建模会 遭 遇句法 限制 的问题 句法 限制 是指 翻译 规则 的源语 言部分 和 目标语言部分都必须为句法树中的一个元树 正 如前 面提 到 的基 于 S TS G 文 法 中的 翻 译 规 则 的 限 制 元树是一棵子树 但其叶子节点可以说是非终 结符 在现有的一般句法模型 中 往往因严格 的句 法 限制 导致大量 不满 足句 法 限制的 翻译等 价对 不能 得到利用 从理论上讲 这些翻译等价对可以增加 模型的表达能力 那么对现有句法模型进行扩展和 泛化 使之可以利用不满足句法限制 的翻译等价对 这是提高句法翻译模型的一个重要的研究课题 文献 3 5 提 出 了基 于 同步树 序 列替 换 文法 s TS s G 的翻译模 型 这是上面提到的同步树替换 文法 的扩展 和泛 化 与基 于短语模 型 和基于 词模 型 之 间的关 系类似 这 个模 型 中把 翻译 单 元 的元 树泛 化为元树序列 这个模型具有两个优势 首先 带 有句法信息的 不满足句法限制 的翻译等价对也可 以被模型利用 其次 它可以继承并增强一般句法模 型 的全局 调序 能力 这个 的树 序列 为一 系列元 树 的 集 合 但 这些元 树 满 足 一些 限 制 例 如 它 们 的跨 度 互 相连续 且互 不相 交 从 句法 树 中抽取 一个跨 度 的 树序列的获取是一个重要问题 需要注意的是一个 跨度对应的树序列不是唯一的 树序列的抽取过程 是 一个 动态 规划 过程 通过 不 断 的 把子 跨 度 划 分 对 应的树序列集合进行合并来获得新的树序列集合 树序列到树序列的翻译规则抽取建立在树序列抽取 之上 与 S TS G 的翻译 规则 抽取 相似 S T S S G 翻译 规则 同样需要满足词对齐约束和句法 限制 S T S S G 翻译 规则 抽取 分为 初始 规则 的抽取 和规则 的泛 化两 个 阶段 不 同的是 S TS S G 翻译 规 则 抽取 需 要 获得 的是树序列而不是元树 由于每个跨度对应多个树 6期 赵铁军等 以机器翻译技术为核心 的多语信息处理研究 8 5 序列 这样导致翻译规则的数量爆炸式的增长 这个 增 长速 度远 大 于 S TS G 翻 译 规 则 的 增 长 速 度 同 时造成规则具有严重的冗余性 也引起在翻译过程 中效率低下 一个简单的解决方法是在整个抽取结 束 之后 对规 则去 重 但 这 个 方 法 在 实 际 的抽 取 过 程 中并不可行 因为在实际的算法实现 中 要求在限 定的时间和空间条件下 对长句子复杂句法结构进 行有效的规则抽取 因此会附加 一些 限制参数来进 行控制 通过对冗余规则的类型和产生原因进行分 析 提出了一个在在抽取过程中去掉那些冗余规则 的有效方法 在此不再赘述 基于 S T S S G 的翻译 模型也定义在对数线性模 型的基础之上 它选用的 特 征 和 S TS G相 同 S TS S G 翻译 的解 码 过 程 类 似 于 C KY句法分析过程 从实现上讲 它是一个基于 柱搜索的栈式解码过程 需要指 出的是 解码 中栈 的结构安排方式是每个跨度对应于一个栈 在搜索 过程 中 所有对应于 同一个 源语 言端跨度的中间翻 译结果被存放在同一个栈中 包含一个词的跨度最 先被处理 然后依次处理更大的跨度 当处理一个大 的跨度时 其子跨度的所有 已获得 的译文可以被利 用 当翻译完最大 的跨度时 算法终止 2 2 4 基于合成同步文法的翻译模型 不同的文法决定 了不 同模 型的表达能力 产生 能力 以及翻译系统 的计算效率 虽然每种 同步文法 都把翻译过程映射成 为一个文法推导来进行 但是 基于不同文法 的翻译模型有不 同的特性 例如 基 于同步上下文无关文法的层次短语翻译模型具有更 强的泛化能力 而基于语 言学上 的同步树序列替换 文法 的模 型处 理歧 义 的能 力 更 强 即具 有更 强 的表 达能 力 那 么能否 有一 种机 制 能将这 两种 不 同文法 的优点结合在一起 如果将基于不同同步文法 的翻 译模型看成独立的模块 一个常见 的思路就是系统 融合 系统融 合策 略基 于 单 个 系 统 的输 出进 行 单 个 系统之 间 的解 码 过 程 是 独 立 的 在 翻译 过 程 中没 有考虑彼此之间的相互影响 这种系统融合的策略 也称为 后解码 方式 为了克服 后解码 方式 的缺 点 文献E 3 5 采用一种 解码 中 的系统融合方法 并 提出了一种基 于合成 同步文法 S S G 的翻译模 型 和 以往 的基 于同 步 文法 的翻 译 模 型 一样 在 这 种模 型中 翻译过程仍然被看成是文法的推导过程 但 是 最 大 的不 同在 于 以往 的单 独 文 法 的推 导 只 涉及 本文法规则的应用 合成同步文法的文法推导还可 能是 由来 自不 同文 法 的规 则 的 应 用 组成 这 种 文 法 推导被称为异质文法推导 异质文法推导的潜在优 势就是能够扩大译 文的搜索空间 以便产生新的译 文候选 文献 3 5 提 出的基于 S S G 的翻译模 型融 合 了上面提到的两个模型的文法规则 层次短语 和 S Ts S G的规则 因此 这种文法规则 的获取就 是上两种规则的抽取 然后通过一种合适 的数据结 构将它们融合到一起 翻译模型同样是基于对数线 性模型 解码方式同 S TS S G相同 2 3机 器翻 译 中的 系统融 合技术 系统 融合 技术 是提 高机 器翻译 性 能的一个 重要 的方法 除 了上述 那些 在单 个翻译 模 型上提 出 的技 术外 在 系 统融 合方 面 本 实 验室 也开 展 了若干 研 究 文献 3 6 提出了增量式的基于词一级系统融合 中混淆网络 由于在 翻译错误率 T E R 增量对 齐 中 假 设 翻译 的顺 序影 响 了增量对 齐 的结果 而增 量式 的混 淆 网络有 效 的改进 了对齐 质量 通过 引入 取词 根 和基 于 Wo r d Ne t的词 义 消 歧 方法 来 进 行 候 选 翻译 和假设 翻译 中词 语 的对 齐 增 量 式 的 混淆 网 络可 以解决 T E R算法只匹配 同一词的缺点 在系 统融合的训练过程 中 混淆网络的骨架翻译的选择 决定 了假设翻译 的语序 传统的选择方法是选择具 有 MB R特性 的候选翻译作为对齐的骨架 这就造 成 了对 于混淆 网络 只考 虑到一 种语 序形式 由于融 合的翻译结果是来 自于多种不 同文法或是方法 每 种翻译结果有着不 同的语序 为了使得每种翻译结 果的语序都被考虑到 文献 3 6 3 构建 了一个超级混 淆 网络 通过 在超 级混淆 网络 中加 入 了基 于混 淆 网 络的特征 并且对多个混淆网络生成 的候选翻译进 行一致性重打分机制 他证实了超级混淆网络的有 效性 他还研究 了利用超图进行系统融合的训练和 解码 为了方便计算训练阶段 的量值 在系统融合 的训练过程引入了二阶半环框架来计算梯度 在解 码 阶段为 了使 得 原 有 C u b e P r u n i n g剪 枝 的框 架 被 保 留下来 使 用 C u b e Gr o wi n g并 采 用 了 三 个 阶段 的训练解码 其 中 第一个阶段是使用 C u b e G r o w i n g进行普通解码 第二个阶段使用 N g r a m特征来 解决 伪歧 义 和一致 性 解 码 的 问题 第 三个 阶 段对 于 两个系统融合模型进行融合 由于更大的搜索空间 和更好地整合了语言模型 三个阶段都取得 了一定 的效果 并得 到了 比较好 的结果 另外 正如前所 述 由于每种文法表现能力不同 为了使得每种文法 能够取长补短 同文献E 3 5 7 的方法类似 文献E 3 6 对 层次短语文法和括号转录文法在进行了 解码 中 融 8 6 中 文 信 息 学 报 合 不同于系统融合方法 解码中 的融合方法并 不是对于生成翻译结果进行重新训练和解码 因而 减少了整个过程的时间 而且 解码 中 的融合考虑 到 了解 码过 程生 成 的侯 选 翻 译 的互 相 影 响 因此 也 获得了比单个系统更好 的翻译结果 2 4 最小错 误 率训练 中的强制解 码 策略 目前主流的统计机器翻译 系统 都采用 l o g f i n e a r 模型融合多种特征 对 于给定的源语言句子 通 常根据翻译规则表对源语言 的句子进行覆盖 不 同 的覆盖过程形成不同的翻译结果 根据模型融合 的 特征 每一个 翻译结果都对应一个模型得分 这个得 分即为特征值组成的向量 与相应特征权重组成 向 量的内积 翻译系统 以模型得分最高 的翻译结果作 为输出 如果 翻译 系统融合 了 M 个 特征 分 别为 h h h M 对应 的权重 分 别为 M 则 系统输出的最佳翻译结果 的计算如式 1 所示 M 一a r g m a x X m h e f 1 e m l 翻译模型 中的特征值在模型训练完成的时候就 已经确定 这时需要对各个特征值的权重进行调节 其 目标是使得模型得分最高的翻译结果实际上也是 最好 的翻译结果 针对特征值权重 的调节 目前 主 流 的 方 法 称 为 最 小 错 误 率 训 练 Mi n i mu m E r r o r R a t e Tr a i n i n g ME RT 这 个 方 法 需 要 一 个 带 有 人工翻译作为参考答案的开发集合来支持 设 厂 厂 2 是 S个 源 语 言 的句 子 r r 分 别是这 S个句子的参考答案 则特征值权重调节 的 目标是找到一组权重 使得在这组权重下系统输出 的翻译结果6 百 和参考答案相 比有最小的 错误率 更形式化的表示如式 2 所示 S a r g mi n E r h 2 i l 如果 可 以穷 举 出 每个 源 语 言 句子 厂 所有 可 能 的翻译 结果 则利 用公 式 2 可 以直接计 算 出全局 最 优 的权 重 但 由于统 计机 器 翻译 系统 的翻译 规 则 规模 庞 大 大 多数 系统 连公式 1 的全局 最 优结果 也 不能保证得到 因此学者们尝试在每个句子 厂 的 K b e s t 翻 译 结 果 上 进 行 特 征 值 权 重 的 调 节 设 C 一 e e 是源语 言句 子 的 K b e s t 翻 译 结果 列表 在 这个 列 表 上 进行 最 小 错 误 率训 练 的 过 程 如式 3 所 示 S K 爻 一a r g m i n E r e e 龟 h 3 这里 不再 是 源 语 言句 子 厂 在 全 局 上 模 型 得 分最高的翻译 而是 C 中的 K b e s t 列表 中模型得 分最高的翻译 权重 向量 是一组 M 维的 向量 传 统的 ME R T算法对 的每一维进行线性搜索 通过 爬山的方法寻找 的最优解 每一轮迭代结束 都会 将 新产 生的 K b e s t 列表与 原有 的列 表 进行 融合 直 到最后两轮迭代产生 的 距离小于一定 的阈值算法 才 终止 但 翻译 系统本 身 只是根据模 型得分决 定 翻 译 结果 的优 劣 因此 有可 能 在 更 好 的 翻译 还 没 有被 加 入到 K b e s t 列 表 中 迭 代就 已经 终 止 为 了防 止 这 种情 况 发 生 我 们 提 出 f o r c e d d e c o d i n g的策 略 产 生更接 近参 考答 案 的翻 译结 果 提前 加 入 到 翻译 列 表 中 f o r c e d d e c o d i n g的基 本 思 想 是 在 解 码 器 中 加 入 一维 与参 考译文 相关 的特 征 式 4 r e g 其 中 P 为 当前 翻译 假 设 7 元 的精 确率 为 当 前 翻译 假设 的 n元召 回率 在 翻译假 设还 未覆 盖源 语言的全部单词前 翻译结果也只是部分结果 n元 的精确率可 以按照常规 的方法计算 但 n元 召回率 的分母 无法 确定 因此 这里 计 算 时 所 用 的分 母 为 当前 覆盖 的源 语 言 单 词 个 数 h 特 征 的权 重 默 认 为 1 在 ME R T训 练 中始 终不 变 因此加 入 了 特 征 的解码器 可 以产 生 更 接 近参 考 答 案 的 翻译 结 果 可以弥补传统 ME R T算法的不足 2 5 大规 模 中文机 构名 称和地 址 的 自动 英译 以上介绍了我们在统计翻译模型方面的探索 下 面介绍 一下 机器 翻译技 术 的实际运 用 在中国经济地位 日益提升的今天 我 国各类企 业信 息 的对 外 发布成 为越 来越 迫切 的需求 作 为 国 家权威的法人信息管理机构 全国组织机构代码管 理中心负责收集 存储 管理 国内近 1 0 0 0万各类企 业相关信息 这些信息 的主要字段包括企业名称 地 址等 如果 实现 中英 自动 翻译对 外发 布 将 对未 来 国际商贸起到积极推动作用 因此 这也是机器翻 译的一个 秒杀 级应用 k i l l e r a p p l i c a t i o n 这其 中 包含了不少技术挑战 例如 复杂的包含多个子结构 的名称和地址结构分析 名称 中大量专业术语识别 以及名称和地址相互嵌套的分析等 机构名 称 和地 址 的 翻译 包 括 命 名 实体 翻译 n a me d e n t i t y t r a n s l a t i o n 其中命名实体翻译的主 6期 赵铁军 等 以机器翻译技术为核心 的多语信 息处理研究 8 7 要 方法 有 2种 7 音译 法 t r a n s l i t e r a t i o n 音 译 法 与意译法的组合 显然 机构名称 和地址 的翻译要 采用后一种方法 不 同于流行 的基于统计的识别与 翻译方法 我们采取了基于规则和词典的翻译方法 这一方面是因为我们缺乏统计翻译方法所必需的双 语资源 另一方面也是 翻译高精度的要求 我们 的 方法面临的主要问题是 如何在大规模 的开放翻译 时保证术语和子结构识别的正确率 也就是如何保 证大规模翻译时所需要 的知识 规则 的覆盖率 我 们有针对性地提出了解决方案一翻译错误 的主动学 习和翻译知识库扩展的逐步求精策略 其主要步骤 是 1 翻译 知 识 库 初 始 构 造 主 要 包 括企 业 名 称 的分解 地址 的分解 分解 后各部分 的译 文知识构 建 如行政区划 的英译 常用单位词 如街 s t r e e t 公司 c o mp a n y 的英译等 2 翻译错误 的主动学习 根据中文分词后找不到对应译 文等情况 依据一定 频率不断输 出无译文 系统开发初始阶段 和译文错 误 系统开 发后 续 阶段 的数 据对 通 过 人工 扩 充 翻 译知识库 使得翻译结果越来越好 3 翻译知识库 扩 展逐 步求 精 由于翻译 系 统构造 之 初知识 库 规模 小 有 大量 翻译 错误 随着 实 验不 断进 行和 手工 翻译 知 识 的不 断 添 加 译 文 中的 常见 错 误 逐 步 被 消 除 随之而来 是 较 大 规 模 的整 体 测 试 和 翻 译 知 识 库 扩 充 此时我们根据可 能出现错误的候选项 出现次数 设定 阈值选择出待修正的译文集合 通过几次循环 来改善译文输出质量 我们采用 的方案可以用 图 1 表 示 人工修正 翻译 错误抽 取 系统逐步改进 翻译知识库 扩充 运 行 一 I l I H v 十 l 图 1 翻译 系统 主动学习和逐步求精 以提高翻译质量 的过 程 示 意 我们开发的大规模 中文机构名称 和地址的 自动 英译系统在 1 0 0 0多万条真实数据上进行 了翻译实 验 并对翻译结果进行抽样和人工评价 总规模超过 1 4万条 人工评价采用百分制 其 中没有 错误 可 接受 为 1 0 0分 包含 1个错误为 8 0分 包含 2个错 误为 6 O分 其他情况一律为 2 O分 其测试的平均 结果如表 1所示 由此 可 见 我们 设 计 实 现 的大 规模 中文机 构 名 称和地址英译系统能够对全 国组织机构法人信息数 据库中相关字段进行高精度 的翻译 基本上达到 了 实 用 表 1翻译系统测试结果 测试时间 抽样评价条数 翻译精 确率 第一次 机构名称 3 5 0 0 0 机构名 称 9 3 地 址 3 4 5 0 0 地 址 8 7 1 o个 月后 机构名称 3 0 0 o 0 机构名称 9 4 地 址 3 0 0 o 0 地 址 8 9 8个 后 机构名称 l O 0 o 0 机构名称 9 7 地 址 3 o 0 0 地 址 9 2 2 6机器 翻译 自动 评价 机器翻译 自动评价 旨在 自动测定机器翻译系统 输 出译文 的质 量 理 想 状 态 下 这种 自动 判定 结 果 应 与专 家 的结果 完全一 致 这一技 术可 直接 用于 翻译 模 型 的优 化 而 对其 的研发 过程 涉及 翻译标 准 翻译 认知等诸多悬而未决的理论难题 因而随着机器翻 译研究的深入 机器 翻译 自动评价本身也成 为一个 令人关注的研究 在这 一 领域 本 研 究 小组 首 先 分析 了人类 评 价 翻译质量时所使用的词汇 句法 语 义 篇章等方面 的译文特征 发现人工翻译评价并不完全依赖于现 有 可显 示说 明的各 种语 言学 特 征 甚 至某 些 特 定 翻 译错误的出现会标志着翻译评分 的提高 3 同时 人工译文和机器译文的评价本身并没有本质区别 现 有 自 动 评 价 模 型 在 两 种 数 据 上 的 性 能 基 本 相 当 在 上 述分 析 的基 础上 课 题 实现 了一种 基 于关 键 语言 学特 征 的翻 译 自动 评 价 方 法 采 用 S VM 模 型融合了 6 种关键语言学特征和各种现有基于字符 串相似度 的机器翻译 自动评价方法 构造 了高效的 翻译 自动评价模型 其性能在 NI S T提供的数据上 能优于国际上的多语言学特征方法 同时 针对 机 器 翻译 评 价 中的 多语 言 需 求 提 出了一 种 多 粒度 融 合 的语 言 独立 的 机器 翻译 自动评 价 模 型 采 用 字 母 字 词两种粒度计算多种主流基于字符 串相似 度的机器 翻译评价指标 进而采用 S VM 排序模 型 进行有效融合 4 上述研究成果在系列 化的国际 公开技术评测 中取得了优异的性能 课题小组分析 认为 引入语言学特征的 目的不仅在于提高现有机 8 8 中 文 信 息 学 报 器 翻译 自动评 价性 能 而 更 应 充分 发 挥 语 言 学 知识 的解释作用 为翻译结果 的改进提供语言理性 的指 导 为此 设计并提出了一种基于双语信息的翻译 自动诊 断评价 方法 通 过分 析 翻译 错 误类 型 和 成 因 提 供 了有 效 的翻译 模型 改进信 息 是 对 现有黑 箱 翻译 自动评 价技术 的一 种 突破性 尝试 目前 研究 小 组正致力于将上述技术集成构建 翻译 自动评 价平 台 将提供网上服务 供机器翻译研究和翻译学习者 试 用 3 跨语言信息检索研究 哈尔滨工业大学 于 2 0 0 1年开展跨语言信息检 索方面的研究 在国家 自然科学基金及 国家 8 6 3 计 划 的连续支持下 关键技术方面 以 用 户查询的译 词选择与信息检索一体化建模方法 为主线 以 语 言本体知识和统计模型相结合 为主要研究方法 在 领域本体 自动构建技术方面进行了深入探索 在此 基础上构造了一部 中英文双语等值本体 知识词典 提出一体化的跨语言信息检索模型 引 研究了基于 中英文双语等值本体知识词典的逐级过滤的多级用 户查询的译词选择方法 4 探索了利用上下文特征 的层次 隐马 尔科 夫 模 型 与基 于 TB L的后 处 理 技术 相结 合 的名实 体识 别方法 研 究 了利用 C R F模 型 与 基于 We b信息反馈技术 的未登录词识别与翻译方 法 探索了基于文摘的检索模型和基于统计机器翻 译 的查询扩展方法 实现 了基于 k me a n s 方法并结 合双语等值本体知识词典进行语义级相似性计算 验证了对检索结果进行 自动聚类 的有效性 同时 本研究主要针对本体 自动构建 中的一些关键技术 从两个 不 同的 角 度 进 行 了领 域 本 体 自动 构 建 的 研 究 一方面是面向半结构化文本的领域本体构建模 式 另一方面是基于 OWL的领域本体构建模式 并 将其应用于信息检索的扩展查询进行了验证 我们 使 用 了 NT C I R Wo r k S h o p 4 5 中 的 C L I R评 测语 料 测 试 本 课 题 的 实 际 性 能 其 中 文 档 集 包 括Ko r e a Ti me s K T 和Ma i n C h i D a i l y MC D NT C I R 4中文 档集 是 1 9 9 8 1 9 9 9年 份 的 N TC I R 5中文档集是 2 0 0 0 2 0 0 1年份的 课题组 依据会议主办方发布 的答案和测试工具 自行测试 结果显示 在两个测试 集上 T o p l 0 0 0的召 回率在 9 5 以上 T o p 1 0的 平 均 准 确 率 在 9 5 以上 T o p 5 0的平均 准确 率达 到 8 5 以上 To p 1 0 0 0的平 均准 确率达到 4 O 以上 与参加评测 的成绩相 当 其 中 在 NT C I R 5的 D ES C评测 任 务方 面 T o p 1 0 0 0的平 均准确率为 4 2 O 4 超过了当年参加评测的最好 成绩 4 结 语 我们处在地球村和信息爆炸的时代 以机器翻 译为核心的多语言信息处理具有广阔的应用前景和 巨大的经济价值 因此为工业界和研究者普遍重视 本文介绍了哈尔滨工业大学教育部一微软语言语音 重点实验室近年来在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论