单纯形算法在统计机器翻译Re-ranking中的应用.pdf_第1页
单纯形算法在统计机器翻译Re-ranking中的应用.pdf_第2页
单纯形算法在统计机器翻译Re-ranking中的应用.pdf_第3页
单纯形算法在统计机器翻译Re-ranking中的应用.pdf_第4页
单纯形算法在统计机器翻译Re-ranking中的应用.pdf_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第 2 1 卷第 3 期 2 0 0 7年 5月 中文信息学报 J OURNAL OF CHI NES E I NFORM ATI ON PROCES S I NG Vo l 2 1 No 3 M a y 20 07 文 章编 号 1 0 0 3 0 0 7 7 2 0 0 7 0 3 0 0 2 8 0 6 单纯形算法在统计机器翻译 R e r a n k i n g中的应 用 付 雷 刘 群 1 中国科学院 研究生 院 北京 1 0 0 0 4 9 2 中国科学院 计算技术研究所 多语 言交互 技术评测实验室 北 京 1 0 0 0 8 0 摘 要 近 年 来 d i s c r imi n a t i v e r e r a n k i n g技 术 已经被 应 用 到 很 多 自然 语 言 处 理 相 关 的 分 支 中 像 句 法 分 析 词 性 标注 机 器翻译等 并都取得 了比较好 的效果 在各 自相 应的 评估标 准 下都有 所提 高 本 文将 以统计机 器翻 译 为 例 详 细地讲解利用单纯形算 法 S i mp l e x Al g o r i t h m 对翻译结果进行 r e r a n k的原理和过程 算法的 实现和使 用方 法 以及 r e r a n k实验 中特征 选择 的方法 并给 出该 算法在 NI S T 一 2 0 0 2 开发集 和 NI S T 一 2 0 0 5 测试 集 中英 文机 器 翻译测试 集合 上的实验 结果 在开发集和测试集上 B L E U分值分 别获得 了 1 2 6 和 1 1 6 的提 高 关键 词 人工智能 机 器翻 译 d i s c r i mi n a t i v e r e r a n k i n g 单 纯形算法 统计机 器翻译 中图分类号 T P 3 9 1 文献标识码 A Re r a nk i ng f o r S t a t i s t i c a l M a c h i ne Tr a ns l a t i o n Us i n g S i m p l e x Al g o r i t h m FU Le i LI U Qu n 2 1 Gr a d u a t e S c h o o l o f Ch i n e s e Ac a d e my o f S c i e n c e s B e i j i n g 1 0 0 0 4 9 Ch i n a 2 M uhi l i ngu a l I nt e r a c t i on Te c hno l o gy La bo r a t o r y I ns t i t u t e o f Co m p ut i ng Te c h n o l o g y Ch i n e s e Ac a d e my o f S c i e n c e s Be i j i n g 1 0 0 0 8 0 C h i n a Ab s t r a c t Re c e n t l y d i s c r i mi n a t i v e r e r a n k i n g t e c h n i q u e h a s b e e n a p p l i e d i n ma n y f i e l d s r e l a t i v e t o NI P Na t u r a l La n gua ge Pr o c e s s i n g s uc h a s pa r s i n g p os t a g gi ng a n d mac hi ne t r a ns l a t i o n et c a nd p er f or ms ve r y we l 1 W e wi l l t a ke SM T a s a n ex a mpl e t O e xpl a i n ho w t O r e r a nk t he t r a ns l a t i on c a ndi d at e s us i ng Si m p l e x Al g or i t h m i n de t a i l a n d g i v e t h e e x p e r i me n t r e s u l t s o n NI S T一 2 0 0 2 d e v e l o p me n t s e t a n d NI S T 一2 0 0 5 t e s t s e t Ch i n e s e t O E n g l i s h t e s t s e t s Ou r e x pe r i m e nt s s h ow t h a t we c a n ga i n s i gn i f i c a n t i m p r o ve me nt s i n BLEU by r e r a nki n g I t c a n pr ovi d e 1 2 6 a b s ol u t e i nc r e a s e i n d e v e l o pme n t s e t a nd 1 1 6 a bs o l u t e i n cr e a s e i n t e s t s e t Ke y wo r d s a r t i f i c i a l i nt e l l i g e nc e ma c hi ne t r a ns l a t i on di s c r i mi n a t i v e r e r a nki n g s i mp l e x a l g or i t hm SM T 1 前言 所谓 d i s c r i mi n a t i v e r e r a n k i n g就 是 指 针 对 某 个评估标准对机器翻译程序输 出的多个结果进行重 新选 择 致 力 于从 中选 择 出使 该标 准达 到最 优 时 的 翻译 结果 以统 计 机 器 翻 译 为 例 实 现 d i s c r i mi n a t i v e r e r a n k i n g的基本 做 法 如 下 首先 由 机 器 翻译 系 统 对 开发集和测试集 中的每个句子都生成 N个候 选译 文 称之为 N b e s t l i s t 然后根据需要选取合适 的 译文特征 生成所有候选译文 的特征分数 接着 就 可 以利 用某 种 r e r a n k i n g算 法针 对机 器 翻译 相应 的 评 估标 准 如 B L E U NI S T 在 开发 集 上训 练 出各 特 征在相应评估标准达到最优值时的权重 最后 利用 开 发集 上训 练得 到 的各特 征 的权 重直接 从测 试集 的 N b e s t l i s t中选 出每个句 子 的最佳 译 文 d i s c r i mi n a t i v e r e r a n k i n g技 术 由 国外 的研 究 人 员 首先 提 出并 广泛应 用 于 句法 分 析 中 同 时取 得 了 很好的效果 机器翻译 的研究人员受其启发 将其应 用在机器翻译系统的后处理 阶段 以期获得翻译系 收稿 日期 2 0 0 6 0 9 0 4 定稿 日期 2 0 0 7 0 1 1 9 基金项 目 国家 自然科学基金资助项 目 6 0 5 7 3 1 8 8 作者简介 付雷 1 9 8 6 一 硕士生 主要研 究方 向是 自然语言处理 统计机器翻译 维普资讯 3期 付雷等 单纯形算法在统计机 器翻译 R e r a n k i n g中的应用 2 9 统在性能上的提高 这项技术之所以能够在统计机 器 翻译 后处 理 中得 到重 要应 用 还在 于 1 当前 的 统 计 机器 翻译 系统 很 多 是 基 于 对 数 线性模 型 L o g l i n e a r Mo d e 1 的 而该 模 型 建立 时 一 个很重要的问题就是模型特征的选 择 最好不要选 计算过于复杂的特征 那会使模型 的训练和解码的 复杂度 让人 不 可忍 受 有 了 r e r a n k i n g技 术 就 为 在 模型建立时采用相对 简单 的特征 而在 r e r a n k i n g 阶段使用 比较复杂 的特征提供 了条件 既可降低模 型的复 杂度 又 能取得 较 好 的整体 性 能 2 d i s c r i mi n a t i v e r e r a n k i n g技 术 使 得 为 模 型 添加一些有用的全局特征成 为可能 像候选译 文的 句 法结 构特 征 从 而 使 统 计 机 器 翻译 系统 也 可 以利 用一些句法信息来提高系统的性能 目前 国际 上 针对 d i s c r i mi n a t i v e r e r a n k i n g提 出了多种可行算法 这些算法大致上可以分为两类 一 类是将 r e r a n k i n g问题看作类 似于分 类问题 通 过改造现有的机器学习算法来进行 r e r a n k 具有代 表性 的算 法有感 知机 P e r c e p t r o n 算法l g 类 感知 机 P e r c e p t r o n L i k e 算 法l 7 支持向量机 S VM 算 法 等 另一类是将 r e r a n k i n g问题看作 是多维求 极值问题 具 有代表性 的算 法有鲍威 尔 P o we l 1 算 法 最小分类错误率算法 MC E l 3 单纯形算法l 2 等 在这些算法中 应用 比较广泛的是类感知机算 法 7 最小分类错误 率算 法 MC E l 3 和单纯形算 法 类感 知 机 算 法 又 叫 做 多 偏 差 感 知 机 算 法 Mu l t i B i a s P e r c e p t r o n Al g o r i t h m 是 S h e n针 对 机器翻译结果进行 r e r a n k这一特殊应用通过改造 传统的感知机算法提出来 的 由于对机器翻译系统 产生的结果 进行评估 时每个 句子都有多个 参考译 文 而不像句法分析可 以有一个唯一的最好的参考 结果 因此 对 于一个句子的多个候选译文很难明确 的区分出好与坏 因为可能某个候选译 文和某个参 考译文很接近 而另一个候选译文则 和另一个参考 译文很接近 但两个候选译文之间相差较大 这不能 说 明 哪个 译 文 质 量 更 好 于是 S h e n提 出 了一 种 解 决 的方法 他将 每 个 汉 语 句 子 的 N b e s t l i s t中 的候 选按照对 B L E U分值的影响大小重新排序 然后将 前 r 个看作好 的翻译 后 k个看作差的翻译来训练 分类 的超平面 最后每个汉语句子都有一个超平面 将好与差的候选译 文分开 并且要求这些超平面相 互平行 具有相 同的特征向量 w 感知机算法训练的 目的就是要 找 到这个 w 有 了 w 之 后就 可 以直 接从 测试 集 的 N b e s t l i s t 中重新 选择 一个 最好 的候 选译 文作 为最 终 翻译结 果 了 最小分类错误率算法 目前广泛应用于统计机 器翻译系统模型构建 的最小错误 率训练 中 其基本 思想和实现方法在文献 1 和 3 中有详尽的描述 对于单纯形算法 意大利的 I T C i r s t Th e C e n t e r f o r S c i e n t i f i c a n d Te c h n o l o g i c a l Re s e a r c h 在 参 加I WS L T一 2 0 0 5 t h e I n t e r n a t i o n a l Wo r k s h o p o n S p o k e n L a n g u a g e T r a n s l a t i o n 评 测 的 机 器 翻译 系 统 2 中曾采用过 用来对其统计机器翻译系统产生 的候 选 译 文 进 行 r e r a n k 并 取 得 了很 好 的效 果 但 其对应用该算法的基本原理 实现细节和特征选择 等关键部分都未详细讲解 本文将结合实验详 细地 介绍上述几方面 详细地介绍单纯形算法在机器 翻 译 系统 r e r a n k i n g中的应 用 下 面 我将 分 以下几 个 部分来 阐述 1 基于对 数 线 性模 型 的统 计 机 器 翻 译 系统 中 r e r a n k i n g的基 本原 理 2 如何利用单纯形算法进行 r e r a n k以及 r e r a n k中单纯形算法的实现 3 利用单纯形 算法进行 r e r a n k实验 中所选 特 征 的介 绍 以及 和 利 用 最 小 分 类 错 误 率 算 法 MC E 进行 r e r a n k的实验结果 比较 2基于对 数线 性模 型 的统 计机 器 翻译 系统 中 r e r a n k i n g的基本原理 根 据对数 线 性模 型 的原理 公式 0 X h 一 其中 为特征的权重 矗 e 厂 为特征分数 I EI 为候 选译 文 的个数 我们 要 找的译 文需 满 足 P a r g ma x 户 f 厂 2 因 为公式 1 中 的分 母 是一个 归一 化 的 因子 对 于每 个句 子 的所 有译 文 相 当于 是 一个 常数 所 以公 式 2 可 以等价 的表 示 为下 面 的这 种形 式 e ar g m ax e暑 3 亦 即 N g a r g m a x 0 h e 4 n一 1 从 公式 4 可 以看 出 每个 句 子 的最 佳译 文 即为 维普资讯 3 0 中 文 信 息 学 报 该 句子 的所有 候选译 文 中各特 征分 数乘 以相 应权 重 的和值中最大的那个 每一个候选译文 e都对应一 个特 征分 数乘 以权 重 的和值 即 N P 0 h P 厂 5 l 所 以 当我 们 调整 了某 个 或某 些 特 征 对 应 的 权 重时 则每个候选译文 e对应 的特征分数乘以相应 权重的和值就会发生改变 相应 的对每个句子的最 佳译 文 的选 择 也会 随 之发 生 变 化 而 对 最 佳译 文选 择 的变 化 反 映 到 机 器 翻 译 的 评 估 标 准 上 如 B L E U 将导致 B L E U分值在两次选择之间产生差 异 可能升 高也 可能降低 当然 我们做 r e r a n k i n g 的 目 的 就 是 要 让 这 种 差 异 向 好 的 方 向 发 展 即 B L E U值 升 高 的方 向 于是 我 们 假 定 评 估标 准 B L E U 和候选 译 文 e的选择 之 间潜在 的存 在 着某 种 函数 关系 N B L E U f 0 h P 厂 6 n l 我们要做的就是用算法来拟合这种关 系 从而 将 e的变化反 映到评估标准 B L E U上 选择那些能 够使 B L E U值达到最优的 P 基 于 上述 原 理 本 文将 利 用 单纯 形 算 法来 拟 合 这种函数关系 达到优化 B L E U值的 目的 由于单 纯形算法是用来求函数极小值的 而我们 的 目的是 要求使 B L E U值达到最大时的 e 所 以在算法实现 时 我们将对 B L E U值和特征值都取相反数 3 如 何 利 用单 纯 形 算 法 进行 r e r a n k以 及 r e r a n k中单纯形算 法的实现 单 纯 形 算 法 也 称 为 Ne l d e r Me a d S i mp l e x Al g o r i t h m 由 Ne l d e r Me a d最 先 提 出 用 来 求 函数 在无约束条件下的多维极小值问题 又叫多维下降 单纯形算法 不 同于其他求极值 的算法 单纯形算 法在迭代过程中不需要求导 求梯度下降方 向等 因 此 实 现起来 相对 简单 一 些 收 敛 的速度也 比较快 对 于维数不是太高的 3 0 求极小值的问题还是比较 适合的 另外 单纯形算法 不像其他 的算法 它不是 从一个点开始迭代 而是从 N 1 个点同时开始 每 次从 N 1 个点 中选出函数值最 大 次大和最小 的 三个点 然后 通过算法迭代 将 函数值最大的点拉 向最 小 点 接 着 再 重 新 选 择 三 个 这 样 的 点 反 复 迭 代 直到函数值达 到一个局部最优值或达到最 大迭 代次数为止L 1 3 1 如 何利 用 单纯形 算 法进行 r e r a n k 要利 用单 纯形 算法 对统 计机 器 翻译输 出的结果 进行 r e r a n k 首 先 要选 择一 些额 外 的特 征 这些 特 征不 同于解码 器 中所 用 到 的特 征 可 以把 它们 看 成 是对 解码 器特 征 的一 种 扩 充 这 些 特 征 将 和解 码 器 本身 的特 征一 同用 于对 解码 器输 出的 N b e s t l i s t 进 行重 新 选 择 在 统 计 机 器 翻译 r e r a n k i n g阶 段 特 征选择的自由度很大 你 可以选择解码器在训练和 解码时由于系统资源和算法复杂度等原因无法选择 的一 些特 征 如在 训练 和解 码 阶 段 采 用 低元 的语 言 模 型 而在 r e r a n k i n g阶段采 用 高元 的语 言模 型 另 外 由于每 个候 选译 文都 是一 个完 整 的英 文句子 而 不 像 在解 码 阶 段 是 一 个 个 的短 语 片 断 因此 在 r e r a n k i n g阶段也可以采用像候选译文的句法结构特 征这种全局性的特征 还可以利用词性信息 句子 长度信息 词语对 齐信息 外 部词典信息 等作 为特 征 尽可能多的利用一些语言学方面的特征 以对统 计机器翻译系统的输 出结果进行评估 把更符合语 法 和 句法 结 构 的相 对 好 一 些 的 句 子 从 每 个 句 子 的 N b e s t l i s t 中挑 选 出来 用 单纯 形算 法进 行 r e r a n k的流程 如下 匝 匦匦 匝 匪 该算法的终止条件为 B L E U分值的提高幅度 小于某个容差 值 如 1 0 或算法达 到人 为设定 的 最大迭代次数仍不收敛时停止 同时输 出达 到最优 值时的各特征权重 然后 直接用这组权重根据公式 维普资讯 3期 付雷等 单纯形 算法在统计机器 翻译 R e r a n k i n g中的应用 3 1 4 利用测试集 的 N b e s t l i s t的特征文件选 出每个 句子的最佳译 文 至此 完成 了 r e r a n k的整个 过程 3 2 r e r a n k中单 纯形 算法 的 实现 算 法实 现 的伪码 如下 I ni t i al i z a t i o n Ma x l t e r 5 0 0 M a x i mu m n u mb e r o f i t e r a t i o n F t o l 0 0 0 0 0 0 1 Fa u l t t o l e r a n c e f o r B I EU x N 1 E N I f y o u h a v e N f e a t u r e s y o u n e e d a m a t r i x o f N 1 N 一 2 l l i s E x p a n d f a c t o r fl 0 5 fl i s C o n t r a c t f a c t o r Al go r i t hm Compu t e BLE U N用 x 矩 阵 中 的 N 1组 权 重 计 算 出 N 1个 B I E U 值 Hi gh M i d L o w 从 N 1个 B L E U值 之中选出最大 次大和最 小的 3 个值 并 记录下它们对应的权重 f o r i一1 i 一 N 1 i f H g h f XH ig h 一ma x f 1 1 f M i a f XM d 一ma x f 1 1 Hi g h f L 0 W f X 0 W 一ma x f 1 n 1 利用单纯形算法进行 机器 翻译结果 r e r a n k的 主体迭代算法如下 S i mp l e x I t e r a t i o n d o 1 t o l一 2 f H i g h 一 2 i f t O l M a x I t e r 4 Co m p u t e B LE U 5 Hi gh M i d L o w 6 I t e r a t i o n N J 7 x F 一1 n X i H i g h i 一1 8 XT一2 XF XH ig h 9 i f f XT f XL o 1 O XE 一 1 a X T a XF 1 1 i f f XE fiXI XH g h XE f XH 蒈 h f XE 1 2 e l s e XH i g h XT f XH g h 一 f XT 1 3 e l s e 1 4 i f f XT f X h 1 8 XH g h XT f XH g h 一 f XT 1 9 Xc 一 8 XH ig h 十 1 8 XF 2 0 i f f X c f XH i 2 1 X 一 1 2 X XL 2 2 f 一f X 2 3 e l s e 2 4 XH ig h Xc f XH 一 f Xc 2 5 e l s e 2 6 XH ig h XI fiX g h 一 f XT wh i l e 1 该迭代算法的核心 目的就是在每次迭代过程中 都把单纯形中函数值达到最大的点替换掉 采取 的 方法是先求出函数值达到最大的单纯形顶点的对称 点 X 这个步骤称为反射 之后 将对单纯形在某个 方向上进行扩展以加大步长 当到达 谷底 时 单纯 形将作横向收缩 且 自行拉 向最低点附近 其中 需要说 明的是算法初 始化时 假设共有 N 个 特 征 其 中解 码 器 的 特 征 数 为 D 额 外 的 用 于 r e r a n k的特征 数 为 R 那 么 按 单 纯 形 算 法 的要 求 需要初始化一个 N 1 N 维矩 阵 每一维是 N 元向量 对应 N 个特征的权重 矩阵的第一行 的 个 值 应 按 这 样 设定 前 D 个 解 码 器 的特 征 权 重应设定为解码器在开发集上训练得 到的权重 即 产生开发集上 1 b e s t 时所使用的权重 后 R个对应 于 r e r a n k特征的权重都置为 0 矩阵的其余 N 行 按 下 面 的公 式口 从第 一行 中派 生得 到 P 一 P1 E E 为 N 元 单位 向量 为 对 特 征权 重 调 整 力 度 的估值 即如果你认 为该维特征较之其他维应该起 到更大的作用 就可以将该维的 设的大一些 反之 就小一些 每一维对应 的 可以相 同 也可以不同 之所以要这样来设置初始值 是 为了更好 的保证单 纯形算法有一个好的基点 第一行权重 的设置得 到 的结 果 B L E U 为解 码器 在 开发 集 上训 练 得 到 的最 好结果 以此为基点 单纯形算法调整后至少不会比 这个基点差 也就是说 保证 了算法迭代一定是在向 好 的方 向发展 4 利用单纯形算法进行 r e r a n k实验 中所选 特征 的介 绍 以及 利用 最小 分 类错 误 率算 法 MC E 进行 r e r a n k的实验结果 比较 实 验 中用 NI S T 一 2 0 0 2 8 7 8个 汉语 句子 做 开 NI S T Na t i o n a l I n s t i t u t e o f S t a n d a r d s a n d Te c h n o l o g y 美 国国家技术与标准研究所 每年举 办多语 种间的机器 自动翻译评测 维普资讯 3 2 中 文 信 息 学 报 发集 用 NI S T 一 2 0 0 5 1 0 8 2个 汉语 句 子 做 测试 集 解码 器采用 实验 室 开 发 的 孔夫 子 C o n f u c i u s 1 3 统 计机 器 翻译 系 统 该 系统 采用最 大熵 模 型 是 一个 基 于短 语l 1 P h r a s e b a s e d 的 统计 机 器 翻 译 系 统 实 验中对于开发集和测试集 中的每个汉语句子输 出 1 0 0 0个候选 英语 译 文 即生成 1 0 0 0 一 b e s t 进行 r e r a n k实验的单纯形算法按照文 中所述 的算法伪码实现 最小分类错误率算法 的原理和实 现请参见文献 1 和 3 下面介 绍一 下进 行 r e r a n k实 验 中用 到 的 特 征 及实 验结 果 比较 在 r e r a n k的 特 征 选 择 方 面 我 一 共 用 了以下 1 2个 特征 1 2 g r a m 英 语语 言模 型特 征 2 4 g r a m英 语语 言模 型特 征 3 5 g r a m英 语语 言模 型特 征 4 2 g r a m英 语词 性语 言模 型特 征 5 3 g r a m英 语词 性语 言模 型特 征 6 4 g r a m英 语词 性语 言模 型特 征 7 5 g r a m英 语词 性语 言模 型特征 8 I B M Mo d e l 训 练生 成 的词典 特征 9 C L A 训练 生成 的词典 特征 1 0 英汉 句子 长度 比例 的特征 1 1 局部 N g r a m 出现频率的特征 1 2 句首 标点 判断 特征 2 值 特征 其 中 英 语 词 性 的语 言模 型 同普 通语 言 模 型 的 训练 方法相 同 就是将 英语 语料 标注 词性后 将 词 性 序列 提取 出来 单 独 训 练 一 个 5元 词 性 语 言 模 型 I B M Mo d e l 的特 征 是 利 用 GI Z A 训 练 生 成 的 词 典 然后按照 I B M Mo d e l 一 1 l 1 计算翻译概率 的公式 算出概率值并取 对数 C L A C o mp e t i t i v e L i n k i n g Al g o r i t h m 的特征计算 同 I B M Mo d e l 特征 只是 利用的词典是由 C L A算法生成的 局部 N g r a m 出 现频率 的特 征是 指对 于每 个汉 语 句子 的 1 0 0 0个 英 语 候选 译 文 统计 每 个 候选 译 文 的 1 g r a m 2 g r a m 3 g r a m 和 4 g r a m在整个 1 0 0 0句中出现 的频率 然 后 按照一组权 重线性相加作 为一个 特征 句 首标 点判 断特征是指判 断英 语 译文 的句 首 是 否为 逗 号 句 号 叹号等明显不能作为句首的标点符号 为 2值特征 在这些特征 中 直观的来讲 英语语言模型的特 征 与 句子 的流利 度 相关 联 词性 的语 言 模 型 可 以 在 一 定程 度上 反 映句子 的局部 片段 搭 配是 否符合 语 言 习惯 I B M Mo d e l 1 就 是一 个词 的翻译 模 型 因此 可 以处理句子 的丢词现象 而 N g r a m 出现 的频率 特 征则使算法倾向于选择 出现频率高的 N g r a m 以期 在句子片段的选择时能够达到局部 的最优 选择所 有 句子 中出现 最频繁 的 片段来 组成 整句 实际实验中 需进行多次单纯形算法和最小分 类错误率算法的迭代 每一次迭代采用上一次迭代 生成的权重作为初始权重 直到 B L E U 分值不再升 高为止 实验以孔夫子解码器在开发集和测试集上 直 接输 出的译 文结果 作 为基线 分数 利用单纯形算法进行 r e r a n k在 NI S T一 2 0 0 2 开 发集 上的实验结果见下表 表中每一行为单独使用 每个特征时对 B L E U值提高的贡献 最后一行为使 用所有特征时对 B L E U值提高的总贡献 表 1 单 纯形算 法在开发集上的实验结果 Fe at u r e BLEU Cont r i b ut i on ba s e l i ne 2 6 76 2 g r a m 1 m 2 6 8 2 0 0 6十 4 g r a m 1 m 2 6 8 O 0 0 4十 5 g r a m 1 m 2 7 2 7 0 5 1十 2 g r a m p o s l m 2 6 9 1 0 1 5十 3 g r a m p o s l m 2 7 1 1 0 3 5十 4 g r a m p o s l m 2 7 2 4 0 4 8十 5 g r a m p o s l m 2 7 4 3 0 6 7十 I BM Mo d e l l 2 6 8 8 0 1 2十 CLA 2 7 O 7 0 3 1十 1 e n g t h r a t i o 2 6 7 9 0 0 3十 N g r a m f r e q u e n c y 2 6 9 2 0 1 6十 p u n c t u a t i o n 2 6 7 6 0十 a l 1 f e a t u r e s 2 8 O 2 1 2 6十 在 N I S T 一 2 0 0 5 测 试集 上 的实 验结 果如 下 表 2 单 纯形 算法在测试集上的实验结果 b a s e l i n e r e r a nki ng Co nt r i bu t i o n 2 5 3 8 2 6 5 4 1 1 6 十 利用最小 分类错误率算 法 MC E 在开发集 和 测 试集 上 的实验 结果 见下 表 表 3 MC E算法在开发集和测试集上 的实验结 果 BLE U Co n t r i b u t i o n Ba s e l i n e d e v s e t 2 6 7 6 De v S e t a l 1 f e a t u r e s 2 7 7 2 0 9 6十 Ba s e l i n e t e s t s e t 2 5 3 8 Te s t S e t a l 1 f e a t u r e s 2 6 3 1 0 9 3十 维普资讯 3 期 付 雷等 单纯形算 法在统计机器翻译 R e r a n k i n g中的应 用 3 3 在表 1中虽然有些特征单 独使 用时对 B L E U 值的提高不是很 明显甚至没有提高 但是如果 去掉 任何一个特征都没有使用所有特 征时的效果好 即 每个特 征 对最 终结 果 的 贡献 都 是 正 向的 另 外 从 表 1 也可以看出 高元 的语言模型特征对系统性 能 的提升很有效 而恰恰这个特征在解码阶段 由于计 算量太大致使多数翻译系统不会 去使用 而以低元 的语 言模型特征来代替 综合 表 1 2 3可 以看 出 对 机 器 翻译 系统 输 出 的 N b e s t 进行 r e r a n k之后 无 论 是 在 开 发 集 还 是 在 测 试 集 上 B L EU 值 都 有 比 较 明 显 的 提 高 r e r a n k过程对孔夫子翻译 系统 的整体性 能的确起到 了促进的作用 但 相 比之下 单 纯形算法要 比最小 分类错误率算法的效果好一些 而且从算法 的收敛 速 度上来 看 单纯 形算 法 的收敛 速度 也要 稍快 一 些 5 总结 文中结合实验详细地介绍了利用单纯形算法对 统计 机器 翻译 系统 产 生 的结果 进行 r e r a n k的 基 本 原理 算 法 的 实 现 细 节 以及 r e r a n k过 程 中特 征 的 选择 方法 弥补 了以 往文 章 中言 之 不 全 的 几 个关 键 方面 同 时给 出 了相 关 实 验 结果 实 验 结 果 表 明 r e r a n k过程对统计机器翻译 系统的性能 的确起 到了 明显的提升作用 单纯形算法在实际应用 中的确具 有一定 的优 势 目前 统计机器翻译系统的 B L E U值每提高一 个点都要付 出很大的努力 要么增加使用的资源 要 么寻 找 新 的特 征 或 改 进算 法 而 d i s c r i mi n a t i v e r e r a n k i n g技术作为机器翻译后处理 中的一个环节 思 想 简 明 算法 实现 比较 简单 又可 以在 一定程 度 上减 轻 系统 训练 和解 码 的 复 杂度 同 时 对 统计 机 器 翻译 系统的性能却有很好的提升作用 不失为在现有条 件下提高机器翻译系统性能的比较好的一条途径 参考 文献 1 As h i s h Ve n u g o p a l a n d S t e p h a n V o g e 1 C o n s i d e r a t i o n s i n M ax i m u m M u t ua l I nf o r ma t i on a nd M i ni mu m Cl a s s i f i c a t i on Er r or t r a i ni ng f o r St a t i s t i c al M a c hi n e Tr an s l a t i o n A I n E AMT 2 0 0 5 C o n f e r e n c e P r o c e e d i n g s E c 2 B C h e n R C a t t o n i N B e r t o l d i M C e t t o l o M Fe de r i c o The I TC i r s t SMT Sys t e m f o r I W SLT一 20 05 A 3 4 E 5 6 3 7 8 9 1 O 1 1 1 2 1 3 1 4 F r a n z J o s e f 0c h Mi n i mu m e r r o r r a t e t r a i n i n g i n s t a t i s t i c a l ma c h i n e t r a n s l a t i o n r A I n Pr o o f AC I 2 0 0 3 r C F r a n z J o s e f Oc h a n d He r ma n n Ne y Di s c r i mi n a t iv e Tr a i n gi ng a nd M a x i mu m Ent r op y Mod e l s f or St a t i s t i c a l Ma c h i n e T r a n s l a t i o n A I n P r o c e e d i n g s o f t h e 4 0 An n u a l Me e t i n g o f t h e A C L c P h i l a d e l p h i a J u l y 2 0 0 2 P P 2 9 5 3 0 2 I Da n M e l ame d A W or d t O W or d M od e l o f Tr a ns l a t i o n a l E q u i v a l e n c e A I n P r o o f 3 5 t h C o n f e r e n c e o f t h e As s o c i a t i o n f o r Co mp u t a t i o n a l Li n g u i s t i c s ACL 9 7 E c Ma d r i d 1 9 9 7 4 9 0 4 9 7 Li b i n S h e n a n d A K J o s h i An S VM b a s e d v o t i n g a l g o r i t h m wi t h a p p l i c a t i o n t O p a r s e r e r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论