




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京大学学报 自然科学版 第 5 1 卷第 2 期2 0 1 5年 3 月 Ac t a S c i e n t i a r u m Na t u r a l i u m Un i v e r s i t a t i s P e k i n e n s i s Vo 1 5 1 No 2 Ma r 2 0 1 5 d o i 1 0 1 3 2 0 9 j 0 4 7 9 8 0 2 3 2 0 1 5 0 3 2 使用源语言复述知识改善统计机器翻译性能 苏晨张玉洁t 郭振徐金 安 北京交通大学计算机学院 北京1 0 0 0 4 4 十 通信作者 E m a i l y j z h a n g b j t u e d u c n 摘要 为了缓解双语语料不足导致的翻译知识欠缺问题 提出基于复述技术的翻译框架 此框架利用第三种 语言获取带有概率的复述知识表 以 L a t t i c e表示输入句子的多种复述形式 扩展解码器使之可以对 L a t t i c e 形式的输入进行解码 将复述知识作为特征加入到对数线性模型的 目标函数中 在保持原始翻译知识表不变 的情况下 此框架不仅可以增大短语翻译表对源语言现象 的覆盖率 也能够增加候选译文表现形式的多样 性 在 3个不同规模训练集上的对比实验结果表明 在训练语料规模最小 的情况下 1 0 K句对1 系统性能有 明显提升 B L E U 1 4 在训练语料规模 最大 的情况 下 1 M 句对 系统性 能也取得一定 提升 B L E U 0 3 2 1 关键词 复述知识 短语翻译表 特征 解码器 中图分类号T P 3 9 1 I mpr o v e d S t a t i s t i c a l M a c h i n e Tr a n s l a t i o n wi t h S o u r c e La ng ua g e Pa r a phr a s e S U C h e n Z HA NG Y u j i e G UO Z h e n X U J i n a l l S c h o o l o f Co mp u t e r a n d I n f o r ma t i o n T e c h n o l o g y Be i j i n g J i a o t o n g Un i v e r s i t y B e i j i n g 1 0 0 0 4 4 十C o r r e s p o n d i n g a u t h o r E ma i l y j z h a n g b j t u e d u c n Ab s t r a c t T h e p e r f o r ma n c e o f s t a t i s t i c a 1 ma c h i n e t r a n s l a t i o n S MT s u f f e r s f r o m t h e i n s u ffic i e n c y o f p a r a l l e l c o r p u s T o s o l v e t h e p r o b l e m t h e a u t h o r s p r o p o s e a p a r a p h r a s e b a s e d S MT fr a me wo r k wi t h t h r e e s o l u t i o n s 1 a c q u i r i n g p a r a p h r a s e k n o wl e d g e b a s e d o n a t h i r d l a n g u a g e 2 e x p r e s s i n g mu l t i p l e p a r a p h r a s e s o f i n p u t s e n t e n c e i n a l a t t i c e a n d mo d i f y i n g d e c o d e r t o b e a b l e t o p r o c e s s i t 3 i n t e g r a t i n g p a r a p h r a s e k n o wl e d g e a s f e a t u r e s i n t o l o g l i n e a r mo d e 1 I n t h i s wa y n o t o n l y mo r e e x p r e s s i o ns i n s o u r c e l a n g u a g e c a n b e c o v e r e d b u t a l s o mo r e e x p r e s s i o n s i n t a r g e t l a n g u a g e c a n b e g e n e r a t e d a s c a n d i d a t e t r a n s l a t i o n s To v e r i f y p r o p o s e d m e t h o d e x p e r i m e n t s a r e c o n d u c t e d o n t h r e e t r a i n i n g d a t a s e t s wi t h d i f f e r e n t s i z e s a n d e v a l u a t e t h e i mp r o v e me n t o f t h e p e r f o r ma n c e o f S MT s y s t e m c o n t r i b u t e d b y p a r a p h r a s i n g Ex p e r i m e n t a l r e s u l t s s h o w t h a t t h e t r a n s l a t i o n p e r f o r m a n c e i s i mp r o v e d s i g n i f i c a n t l y B L E U 1 4 wh e n t h e p a r a l l e l c o rpu s i s s ma l l 1 0 K a n d a g o o d p e r f o r ma n c e B L E U 0 3 2 i s a l s o a c h i e v e d wh e n p a r a l l e l c o rpu s i s l a r g e e n o u g h 1 M Ke y wo r d s p a r a p h r a s e p h r a s e t r a n s l a t i o n t a b l e f e a t u r e s d e c o d e r 在统计机器翻译 S MT 中 系统性能往往受限 于平行语料的规模 对于训练语料中未出现的词汇 oo v S MT系统的通常做法是将其保 留在翻译结 果中 这样会严重影响译文的质量 同时 人工构 建大规模高质量平行语料 比较费时费力 而 自动构 建平行语料又难 以保证质量 为 了解决这一问题 34 2 研究人员开展 了利用复述技术 的机器翻译方法研 究 近年来成为研究的热点之一 1 复述是在同种语言内 表达与原始形式语义相 同而内容不同的表现形式 机器翻译系统无法翻译 的句子 可以通过复述处理得到不 同的表现形式 如果翻译系统可以翻译其 中的某种表现形式 那么 国家国际科技合作专项 2 0 1 4 D F A1 1 3 5 0 国家 自然科学基金 6 1 3 7 0 1 3 0 N1 京交通大学人才基金 2 0 1 1 R C 0 3 4 资助 收稿 E t 期 2 0 1 4 0 6 3 0 修回 日期 2 0 1 4 1 0 2 9 网络出版 日期 2 0 1 4 1 2 0 1 苏晨等 使用源语言复述知识改善统计机器翻译性能 输入句子就可以获取译文 复述技术可以在一定程 度上改善由于翻译知识不足导致无法翻译 的问题 复述知识可以从第三语种的平行语料或单语语料中 获取 相 比扩展训练数据 的平行语料 这些语言资 源 的获取更加容易 本文以英中翻译 英语 向中文翻译 为例 提出 基于复述技术的翻译框架 主要研究利用 日语作为 中间语言获取英语复述表 的方法以及利用复述特征 的解码算法 本文以 NT C I R 英 中翻译任 务为例 在 3个不同规模的训练集上设计对 比实验 分析在 短语翻译表的规模由小变大过程 中 复述处理对系 统 性 能提 升的 贡献程度 1 使用复述知识的翻译框架 对于统计机器翻译而言 短语翻译表是主要的 翻译知识 但是 由于平行语料规模的限制 所获取 的短语翻译表很难覆盖所有 的测试用例 对译文质 量 的影响 主要 表现在 以下 两方 面 1 OO V 当测试语料 中存在未知词汇时 S MT 系统通常不做任何处理 因此测试语料中的未知词 汇会影 响译文 质量 2 义项不全 短语翻译表难以覆盖某一词汇所 有语义的翻译知识 导致测试语料中的句子不能被 正确地 翻译 例如对 英文句 子 No w l e t me t a l k a b o u t A r t i c l e I I o n L a b o r L a w 使用翻译系统进行 翻译 时 虽然短语 表 中 A r t i c l e 有多条译 文选项 但是 由于缺少 Ar t i c l e 条 款 译 文也很 难令人 满意 针 对 以上 O O V 和义项 不全 的 问题 本 文提 出 基于复述技术的 S MT框架 如图 1所示 其中虚 线框中的内容是本文 的主要工作 相 比于传统的 S MT 框架 本文的框架增加了复述生成模块 对解 码器进行 了扩展 对于源语 言句子 首先利用复述 短语表生成复述 L a t t i c e 然后将其作为解码器的输 入进行解码 复述生成模块对源语言句子的任意长度的字符 串都将查询复述短语表 生成 由源语言句子和相应 复述构成的格图 L a t t i c e 如图 2所示 其 中 带有 图 1 基于复述 的翻译框架 F i g 1 F r a me wo r k o f p a r a p h r a s e b a s e d S M T 1 0 F 1 0 H 图 2 输入句子的复述 L a t t i c e F i g 2 Us i n g La t t i c e g r a p h t o d e n o t e i n p u t s e n t e n c e s d i f f e r e n t p a r a p h r a s e s 本 文实验采用 的数据来 自 NT C I R英 中机器翻译评测数据 h t t p n t c i r n i i a c j p a b o u t 3 4 3 北京大学学报 自然科学版 第 5 l 卷 第 2期 2 0 1 5 年 3月 标号 的节点表示词语 的分界 从节点 i指 向节点 1 i 0 的实线表示序号为 f l的单词 它的信息 包括原始短语和权重 复述概率 从节点 i指向节 点 i k 1 的虚线表示从单词 f 1到单词 i k组 成的短语 的复述 它的信 息包括 复述短语 和权 重 复述概率 复述 L a t t i c e保存 了输入句子的多种复 述形 式 有 助 于 在解 码 阶段得 到丰 富 的候 选译 文 依据复述的权重 解码算法对复述 的译文进行重新 评分 在 构 建L a t t i c e 过 程 中 权 重 的设 置 至 关 重 要 通过分析发现 1 权重惩罚过大会导致 由复述 知识获取的译文得分较低 难以被 S MT 系统选中 在翻译知识缺乏时无法显著改善翻译性能 2 权重 惩罚过小则导致 由复述知识产生的噪声影响变大 尤其对于翻译知识比较充足的 S MT 系统 复述知 识反而会降低其翻译性能 为了解决这个 问题 本 文提出将复述知识作为新的特征 加入到对数线性 模型中 通过在开发集参数训练 使复述知识的权 重 自动适 应 S MT系统 与本文采用 的复述知识 的翻译框架 相 比 文 献 2 只是将源语言句子 中的 O OV 替换为它的复 述 尽管能够改善翻译系统的性能 但是它只解决 O O V 问题 没有涉及义项不全问题 针对后者 文 献 1 使用复述 L a t t i c e进行解码 但是所用的复述 权重是 固定 的 无法 实现 自适 应 2 复述短语表 的获取 2 1 复述短语表的获取方法 本文 以 NT C I R 英中翻译任务为例 研究基于 复述 的统计 机器 翻译 复述 知识 的获取方 法 主要 分 为从单语语 料获取 的方法和从双语语 料获取 的方 法 4 在我们 的任 务 中 尽 管作 为训练语 料 的 N T C I R 英 中双语语料数量有限 1 M 但是相 同 领域上其他语 言与英语 的双语语料很 丰富 比如 N T C I R 英 日双语 语料有 3 M 的规模 本文利 用双 语语料获取复述知识 从 N T C I R 英 E t 平行语料获 取英语复述知识 在英 日平行语料中 我们通过 日语作为桥梁获 得英语短语之间的复述关系 如果不 同的英文短语 e 和 e 1 都翻译 成相 同 的 日语 短语 j p 那 么英 文短语 e 2 与 e 互为复述 复述概率可通过式 1 得到 3 44 p a r a e le p e z li p P j p le 1 1 J P 其 中 P j P I e 表示英语短语 g l 翻译为 日语短语 j P的 概率 p e 2 IJ P 是 日语短语 j p翻译为英文短语 e 2 的概 率 短语的翻译概率可以使用极大似然估计得到 IJ p j p I c o u n t j p e 2 3 c o u n t e j p 表示在平行语料中 英文短语 和 日文 短语 j P对齐的次数 复述权重的另外一种计算方法可采用式 4 We i g h t 1 i K 4 其中 k设定为 7 i 是 当前复述 e 依据 p a r a的排名 2 2复述短语表对短语翻译表的扩展 本文提 出的基 于复述 的翻译框架 可 以解 决 OO V 和义 项不 全两个 问题 对 于 O O V 问题 将 短 语翻译表无法翻译的短语复述成另外一种形式 获 得译文 提高短语 翻译表对语言现象的覆盖率 对 于主项不全问题 通过丰富输入短语 的表现形式 增加候选译文的多样性 提高短语翻译表对于正确 译 文 的覆盖率 下面通 过分析 在这 两方 面覆盖率 的 提升 展 示 复述 短语 表对短 语翻译 表 的扩 展效果 本文使用 NT C I R英 中平行语料 以 1 0 K 1 0 0 K 和 1 M 规模 的数据作为训练语料获取短语翻译 表 统计它们对 N T C I R 测试语料 2 K 的覆盖率 评测结果列于表 1中箭头 一 左侧 对 比覆盖率变 化发现 当训练数据规模较小时 增加训练语料 的 规模能有效提升短语翻译表的覆盖率 如1 0 K 一 1 0 0 K 1 元短语的覆盖率提升 1 3 8 8 从 7 7 1 9 增 加到 9 1 0 7 而当短语翻译表的规模达到一定程 度时 训练语料规模的增加对于翻译知识 的覆盖率 提升不明显 如 1 O 0 K 一 1 M 语料规模扩大了 1 0 倍 而 1 元短 语 的覆 盖 只增加 了 4 3 4 f 从 9 1 0 7 增加到 9 5 4 1 然后统计加入复述知识后 短语 翻译 表对 测试语料的覆盖率 结果 列于表 中箭头 一 右侧 通过对 比发现 在训练语料较小的情况 本文提及的语料规模 1 o K 1 0 0 K 1 M 单位是句对 如 1 0 K表示 1 0 0 0 0旬对的语 料 苏晨等 使用源语言复述知识改善统计机器翻译性能 表 1 不同规模训练语料上构建的短语翻译表对于测试语料的覆盖率以及加入复述知识后短语翻译表的覆盖率 Ta bl e 1 Te s t d a t a S c ov e r a ge f r o m p h r a s e t r a ns l a t i o n t a bl e b a s e d o n t r a i n i n g da t a wi t h d i f f e r e n t s c a l e s a nd i n t he c a s e of i n t r o d uc i n g t he pa r a p hr a s i n g kn o wl e dg e 下 加入复述知识对于提升翻译知识的覆盖率有极 大帮助 如在 1 0 K平行语料上构建的短语表 在加 入 复述 知识 后其 覆 盖率 提 升1 2 7 8 7 7 1 9 一 8 9 9 7 训练语料规模较大时 提升效果 不明显 如在1 M 平行语料上构建 的翻译表中加入复述知 识 覆盖率 只提升了 0 1 4 9 5 4 1 一9 5 5 5 根据第 1节对义项不全问题的描述可知 一些 短语尽管在短语表中存在 但义项不全 找不到合 适的译文 也会造成翻译质量下降 引入复述知识 后 这 个 问题 在一定 程 度上 会得 到 缓解 为 了探 究 复述知识对于该 问题的改善程度 即理想译文与参 考译 文的相似度变化 本文设计了另外一个实验 理想译文是候选译文中与参考译文相似度最高的译 文 本文采用 的相似度指译文与参考译文的最长公 共子序列长度与参考译文长度的比例 以汉字为单 f e ma x L e n g t h c c n 厂 C m C m 厂 l厂 f e m f e c m f e m 位 为了选取理想译文 使用 C K Y 算法模拟解码 过程 以相似度作为 目标 函数 根据式 5 和 6 计算 理想译文与参考译文 的相似度 式 5 中 f e c m 表示英文短语 的理想译文与参考译文 c 最长公 共子序列的长度 其中 i J k i k j 是英文句子 中 单词之间的分界点编号 g 表示英文句子中从第 i 个分界点到第 个分界点之 间的单词组成的短语 同理 m 是参考译文 C的汉字分界点 L e n g t h c m 是短语 c 的汉字数 目 式 6 中 表示 测试 语料 中句 子 的数 目 f e C s 表 示语 料 中第 个 英文句子的理想译文与它的参考译文最长公共子序 列的长度 本实验模拟解码过程 找到测试语料 的 理想译文 并计算它与参考译文 的相似度 结果见 表 2 如果 8 c 在翻译知 识中 单调调序 交换调序 如果 e i n u l l 在翻译 知识 中 如果 P J n u l l 在翻译知识 中 如果 c 1 n u l l 在翻译知识中 如果 c 1 n u l l 在翻 译知识中 表 2 不同规模训练语料构建 的短语翻译知识与加入 复述知识的情况下 理想译 文与参考译文的相似度 T a b l e 2 S i mi l a r i t i e s o f i d e a l t r a n s l a t i o n a n d r e f e r e n c e t r a n s l a t i o n i n t h e c a s e s o f p h r a s e t r a n s l a t i o n k n o wl e d g e b u i l t b y t r a i n i n g d a t a wi t h d i f f e r e n t s c a l e s a n d wi t h a d d i t i o n a l p a r a p h r a s e k n o wl e d g e 5 3 45 北京大学学报 自然科学版 第 5 1 卷 第 2期 2 0 1 5年 3 月 S i m i la r it y c c ce f L e n g th c 6 s i s l 由表 2可知 通过复述知识增加了原始短语翻 译表 的义项 在一定程度上解决了在短语翻译表 中 找不到合适译文的问题 尤其在翻译知识 比较匮乏 时 如在 1 0 K平行语料上构建短语翻译表 通过加 入复述知识 理想译文与参考译文 的相似度上升 9 6 4 8 2 8 2 一9 2 4 6 随着翻译知识逐渐 变得 丰富 复述知识对译文的改善变弱 在 1 M 平行语 料上构建的翻译知识在加入复述知识后 理想译文 与参考译文相似度提高 2 7 2 9 4 3 1 一9 7 0 3 由此可见 即使对于本实验的 1 M 训练语料的机器 翻译 系 统 通 过 引入 复述 知 识 译 文质 量 仍 有 2 7 2 的提升空 间 3 引入复述特征 的解 码算法 基于短语 的统计机器翻译系统采用对数线性模 型进行解码 如式 7 所示 r M 1 a r g m a x P r c le a r g m a x m h m C 7 C l J h 表 示不 同特征 的 目标 函数 在基 于短语 的机 器 翻译系统中 有 4个与短语翻译有关的特征 正向 短语翻译 h T r a n C e 1 反向短语翻译 h V e r T r a n C P 1 正 向词汇化 h L e C e 1 和反向词汇化 h V e r L e x C e 1 在解码阶段加入源语言复述知识 一e 2 首先 将源语言短语 e 复述成 e z 然后使用 e 查询短语 翻译表 本文将复述知识加入到 目标函数后 得到 新 的目标函数如式 8 1 1 所示 c e I lo g b le l o g p a r a e 2 p c e 2 8 Jiz v erT r an c e 1 l o g P e l Ic lo g p a r a e 1 le 2 p e 2 9 c e I l o g L e x c l o g p a r a e L e x c le 2 1 0 c lo g L e x e 1 Ic l o g p a r a e l le 2 L e x e 2 lc 1 1 其 中 p a r a e 2 le 1 表示 l 复述成 e 2 的概率 由式 1 计 3 4 6 h t t p w ww n l p l a b c o m Ni u P l a n Ni u T r a n s c h h t ml h t t p s c o d e g o o g l e c o m p g i z a P p h t t p w ww s t a t mt o r g mo s e s n F a c t o r e d T r a i n i n g Al i g n Wo r d s 算得到 式 8 和 1 0 合并得到式 1 2 式 9 和 1 I 合并得到式 1 3 c e 1 c e l o g p a r a e 2 1 e I a l p c l l o g p a r a e 2 l L e x c l l o g p c l l o g L e x c I a 3 l o g p a r a e 2 l e 1 c c 1 2 札 札 c r T l o g p a r a e l I e 2 p c r L e l o g p a r a e J L e x e 2 f c m n l o g P e 2 I c L l o g L e x e 2 c r T 姐 n 2 十 a 4 l o g p a r a e l I e r T r m a 盯 T c L 盯 L c e 2 e r P h v e r P a r a e l e 2 o 1 3 与传统模型相比 基于复述的模 型实际上引入 了两个新特征 正 向复述特征 h e a r a e 1 e 2 和逆向复 述特 征 h v e r P a r a e 1 e 2 6 c l 5 2 5 3 5 4 是不定 参 数 P a r a r r a 1 L e x 3 与 其 他 参 数 独 立 同 理 V e r P a r a V e r T r a n 5 2 V e r L e x 5 4 也 是独 立 的 由此可 见 复述知识作为两个新的特征加入到对数线性模 型 中 最优的特征权重可以依据式 1 4 使用最小错 误率训练 得到 r S 1 M a r g m a x lo g P r c 1 4 L s l j 分 析可 知 当 e 1与 e 2相 同时 p a r a e l l e 2 p a r a e 2 l e 1 1 0 此 时 P e 1 8 2 h v P e 1 e 2 0 而且与复述短语 e 相关的特征全部变为与原短语 e l 相关 的特征 例如 h T r a n C l e 2 一 T t i e 1 此时加 入复述特征的模型退化为传统模型 当 P a r 1 0 且 r P a 0 时 该系统与文献 1 的系统极为相似 4 评测 实验与结果分析 4 1 实验数据 为了对比系统的有效性 本文设计了 3个不同 翻译系统进行对 比 第一个 系统是传统 的短语模 型 记做 B a s e l i n e 第二个 系统是依照文献 1 的 方法实现的系统 记做 D u S y s t e m 最后一个系统 苏晨等 使用源语言复述知识改善统计机器 翻译性能 是将复述知识作为新特征加入到 S MT 的系统 记 做 Ou r S y s t e m 本文使用 Ni u T r a n s 1 3 0 搭建短语 模型 S MT 系统 单词对齐的结果 由 G I Z A 训 练得到 然后使用 g r o w d i a g a n d fi n a l 启发式算法 进行对称化 短语模型的最大长度设置为 7 对数 线性模型参数训练方法使用最小错误率 实验在英 中翻译系统上进行验证 为了详细 比 较不同规模数据上系统性能的差异 本文在 3个不 同规模 的训练集开发机器翻译系统 1 0 K 1 0 0 K和 l M 英中训练语料 1 M 规模的训练语料是 NT C I R 中英训练语料 1 0 0 K和 1 0 K语料分别在 1 M 的训 练语料中随机获取得到 由于 1 M 的训练语料的 内容分布不均匀 本文采用伪随机获取策略 将语 料平均分成很多组 每组中句子编号是连续的 每 组随机取一个句子组成新语料 NT C I R 的中英开发集和测试集语料各 2 0 0 0句 对 每个句子 只有一个参考译文 所有翻译的系统 共用这套开发集和训练集 译文 的评测指标采用 B L E U 值 引 本文使用式 1 获取复述知识 采用 NT C I R 英 日平行语料 规模是 3 M 首先 在训练语料上获 得相应 的英 日短语翻译表 然后依据短语翻译表 中 的 p c l e 和 p e I c 计算复述知识 e 一P 正向复述 概率 p a r a e 2 l e 1 和反向复述复述概率 p a r a e l l e 2 在 获取过程加人剪枝策略 以过滤可信度较低或者不 会被测试语料使用的复述知识 剪枝策略主要包括 以下 4方面 1 如 果在 开发集 和测 试集 中均未 出现 英文短语 e 则去掉复述短语知识 p e l e 2 如果 短语翻译表 中未 出现英文短语 e 2 则去掉复述短语 知识 p e 2 l e 1 3 式 1 中的 p c l e 1 和 p e z l c 必须 高于 阈值 0 0 1 4 对于每一个 e 1 只保 留得分最高的 5 0 条复 述知识 4 2实验结果与分析 本文在不同规模的数据集上进行 3组实验 对 比 B a s e l i n e系统 D u S y s t e m 和 O u r S y s t e m 的性 能 评测结果列于表 3 通过观察发现在 1 0 K 规 模 的训练数据集上 加入复述知识后 S MT 系统性 能得 到较 明显的提升 相对于 Ba s e l i n e系统 D u S y s t e m 的 B L E U 值提升 1 0 3 O u r S y s t e m 提升 1 4 当训练数据规模扩大到 1 0 0 K时 D u S y s t e m 和 O u r S y s t e m 的性能相对于 Ba s e l i n e系统分别提 高 0 2 9 和 0 0 3 当训练数据规模增加至 1 M D u S y s t e m相对于 B a s e l i n e系统 B L E U值 明显降低 表 3 Ta b l e 3 不 同规模训练语料上搭 建的 S MT系统性能 比较 Co mpa r i s on f o r t he pe r f o r ma n c e o f S M T s y s t e ms whi c h a r e b a s e d o n t r a i ni n g da t a wi t h di f f e r e n t s c a l e s 0 7 3 而 O u r S y s t e m 的 B L E U 值提升 0 3 2 相 对 于 D u S y s t e m 提升1 0 5 结果表 明 Ou r S y s t e m 的方法不仅能在训练语料最少的情况下改 善翻译系统性能 并且在训练语料充足的 S MT 系 统上表现了较好的性能 对不同翻译系统的译文进行详细对 比和分析发 现 当翻译知识 比较匮乏时 复述知识对翻译知识 的扩充效果很 明显 因而有利于改善 S MT 系统的 性能 以 1 0 K 规模数据集开发的 3个系统的 1 b e s t译 文 为例 当 翻译 源语 言 句子 P a r t i c u l a r l y s c r e w ba s e s o f t h e t y p e e l 4 e 2 6 o r e 2 7 a r e f r e q ue nt l y u s e d f o r l a m p s 时 P a r t i c u l a r l y 的参考译文是 尤 其是 而短语翻译表 中并未出现 P a n i c u 1 a r l v 一尤 其是 B a s e l i n e系统将其翻译为 具体地说 而通 过复述 关系 可以得到 翻译 知识 P a r t i c u l a r l y I n p a r t i c u l a r 尤其 是 D u S y s t e m 和 O u r S y s t e m 通 过复述知识都得到了正确 的译文 随着训练语料规 模的增加 短语翻译表变得更加完善 通过 2 2节 的统计结果可知 复述知识对短语翻译表的拓展效 果变弱 而 由复述知识带来的噪声对 S MT 翻译性 能的影响愈发明显 以 1 M 训练数据上 3个不 同 翻译 系统的 1 b e s t翻译结果为例 当翻译英文句子 Th e l i g h t i ng d e v i c e 1 f u r t h e r ha s a n o pt i c a l fibe r 5 i i 殳 Q 曼 t o t h e s o l i d s t a t e l i g h t s o u r c e 4 时 在参考译文中 wh i c h i s c o u p l e d 被翻译为 它被耦 合 但是在 D u S y s t e m 中 将复述知识 wh i c h i s c o u p l e d c o u p l e d 和 翻译知 识 c o u p l e d 耦 合 结 合 得到的译文相 比于 w h i c h i s c o u p l e d 它被耦 合 得分更 高 因此 D u S y s t e m 采用 耦合 作为 w h i c h i s c o u p l e d 的译文 在短语翻译表的规模较 大时 O u r S y s t e m 对复述特征惩罚力度较大 因而 w h i c h i s c o u p l e d 被正确翻译 通过对 比实验和结果分析 本文提 出的将复述 347 北京大学学报 自然科学版 第 5 1 卷 第 2期 2 0 1 5 年 3月 知识作为特征的方法不仅在训练语料较少时能够提 升系统性能 而且在训 练语料充足的情况下 避免 了由复述知识的噪声引起的 S MT 系统性能下降的 问题 5 结语 针 对 训练 语料 有 限 翻译 知 识不 足 的 问题 本 文提出基于复述技术的翻译框架 主要解决了 3个 问题 1 将 目光转向英语和其他语种的丰富的平行 语料 利用第 3种语言获取带有概率的英语复述知 识 2 以 L a t t i c e 形式保存输入句子的所有 的复述表 现形式 扩展解码器使之可以对 L a t t i c e形式 的输 入进行解码 3 将复述知识作为特征 加入到对数 线性模型的 目标函数中 在保持原始翻译知识表不 变的情况下 此框架提高了短语翻译表对源语言现 象的覆盖率 也增加 了更多的候选译文 以接近参考 译文 本文在 3个不 同规模训练集上设计对比实 验 分析翻译知识表由小到大过程 中 复述技术对 于系统性能的贡献程度 实验结果证 明 无论短语 翻译知识匮乏或丰富 本文的方法都取得了不错 的 效果 本文评测中所采 用的测试集 只有一个参考译 文 若在具有更多参考译文 的测试集上评测分析 或者增加 Me t e o r和 T E R进行评测 应该能够更全 面评 价 本文 的方 法 本文 报告 了在英 中翻译 上我们 方法的有效性 验证该方法在其他语言对翻译上的 效果将是今后的工作 此外 本文只针对源语言端 进行复述 目标端的复述处理也可 以改善 S MT 的 性能 将其作 为特征加入到对数线性模型中可以作 为下一步的研究工作 参考文献 1 D u J i n h u a J i a n g J i e Wa y A F a c i l i t a t i n g t r a n s l a t i o n 3 48 us i ng s ou r c e l a ng ua ge p a r a ph r a s e l a t t i c e s Pr oc e e d i n gs of t h e 20 1 0 Co nf e r e nc e o n Emp i r i c a l M t h ods i n Na t ur a l La ng ua g e Pr o c e s s i ng M a s s a c h us e t t s As s oc i at i o n f or Co mp ut a t i on a l Li ng ui s t i c s 20 1 0 4 20 4 29 2 Ca l l i s o n Bu r c h C Ko e h n Os b o r n e M I mp r o v e d s t a t i s t i ca l mac hi n e t r a ns l a t i o n us i ng pa r a p hr a s e s Pr oc e e d i n gs o f t he M a i n Con f e r e nc e o n Human La ng ua ge Te c hno
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五版购房合同:交房商品房不动产购买指南
- 2025版股权转让合同公证协议书
- 二零二五年度建筑工程劳务分包合同及配套设施建设协议
- 2025版新能源发电项目合伙合同范本
- 二零二五年出借咨询及风险管理合作协议正范本16
- 2025版标准型二手叉车买卖合同模板
- 2025版电子商务股份收购合同样本
- 2025版智慧家居系统技术服务合同样本
- 2025雕塑加工技术改造与升级合同范本
- 2025版历史文化名城保护工程设计合同示范文本GF
- 测绘项目投标技术文件范例
- 项目5 5.1 植物的光合作用(1)(课件)-《植物生产与环境》(高教版第4版)
- 《蒙牛乳业集团财务共享服务中心优化研究》
- 混凝土搅拌站实验室质量管理手册(正本)
- 消防应急灯安装工程安装方案
- 小儿便秘的中医护理
- 供货及时性保证措施
- 梨白粉病抗性鉴定技术规程
- 对2024年高考数学试题源于教材出处的分析暨对2025年复习备考的启示
- 医院污水处理运维服务投标方案(技术方案)
- 幼儿园环境创设色彩搭配指导
评论
0/150
提交评论