使用源语言复述知识改善统计机器翻译性能.pdf

上传人：s*** IP属地：河南上传时间：2020-01-13 格式：PDF 页数：7 大小：471.59KB 积分：20 举报 版权申诉

已阅读5页，还剩2页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

北京大学学报自然科学版第 5 1 卷第 2 期2 0 1 5年 3 月 Ac t a S c i e n t i a r u m Na t u r a l i u m Un i v e r s i t a t i s P e k i n e n s i s Vo 1 5 1 No 2 Ma r 2 0 1 5 d o i 1 0 1 3 2 0 9 j 0 4 7 9 8 0 2 3 2 0 1 5 0 3 2 使用源语言复述知识改善统计机器翻译性能苏晨张玉洁t 郭振徐金安北京交通大学计算机学院北京1 0 0 0 4 4 十通信作者 E m a i l y j z h a n g b j t u e d u c n 摘要为了缓解双语语料不足导致的翻译知识欠缺问题提出基于复述技术的翻译框架此框架利用第三种语言获取带有概率的复述知识表以 L a t t i c e表示输入句子的多种复述形式扩展解码器使之可以对 L a t t i c e 形式的输入进行解码将复述知识作为特征加入到对数线性模型的目标函数中在保持原始翻译知识表不变的情况下此框架不仅可以增大短语翻译表对源语言现象的覆盖率也能够增加候选译文表现形式的多样性在 3个不同规模训练集上的对比实验结果表明在训练语料规模最小的情况下 1 0 K句对1 系统性能有明显提升 B L E U 1 4 在训练语料规模最大的情况下 1 M 句对系统性能也取得一定提升 B L E U 0 3 2 1 关键词复述知识短语翻译表特征解码器中图分类号T P 3 9 1 I mpr o v e d S t a t i s t i c a l M a c h i n e Tr a n s l a t i o n wi t h S o u r c e La ng ua g e Pa r a phr a s e S U C h e n Z HA NG Y u j i e G UO Z h e n X U J i n a l l S c h o o l o f Co mp u t e r a n d I n f o r ma t i o n T e c h n o l o g y Be i j i n g J i a o t o n g Un i v e r s i t y B e i j i n g 1 0 0 0 4 4 十C o r r e s p o n d i n g a u t h o r E ma i l y j z h a n g b j t u e d u c n Ab s t r a c t T h e p e r f o r ma n c e o f s t a t i s t i c a 1 ma c h i n e t r a n s l a t i o n S MT s u f f e r s f r o m t h e i n s u ffic i e n c y o f p a r a l l e l c o r p u s T o s o l v e t h e p r o b l e m t h e a u t h o r s p r o p o s e a p a r a p h r a s e b a s e d S MT fr a me wo r k wi t h t h r e e s o l u t i o n s 1 a c q u i r i n g p a r a p h r a s e k n o wl e d g e b a s e d o n a t h i r d l a n g u a g e 2 e x p r e s s i n g mu l t i p l e p a r a p h r a s e s o f i n p u t s e n t e n c e i n a l a t t i c e a n d mo d i f y i n g d e c o d e r t o b e a b l e t o p r o c e s s i t 3 i n t e g r a t i n g p a r a p h r a s e k n o wl e d g e a s f e a t u r e s i n t o l o g l i n e a r mo d e 1 I n t h i s wa y n o t o n l y mo r e e x p r e s s i o ns i n s o u r c e l a n g u a g e c a n b e c o v e r e d b u t a l s o mo r e e x p r e s s i o n s i n t a r g e t l a n g u a g e c a n b e g e n e r a t e d a s c a n d i d a t e t r a n s l a t i o n s To v e r i f y p r o p o s e d m e t h o d e x p e r i m e n t s a r e c o n d u c t e d o n t h r e e t r a i n i n g d a t a s e t s wi t h d i f f e r e n t s i z e s a n d e v a l u a t e t h e i mp r o v e me n t o f t h e p e r f o r ma n c e o f S MT s y s t e m c o n t r i b u t e d b y p a r a p h r a s i n g Ex p e r i m e n t a l r e s u l t s s h o w t h a t t h e t r a n s l a t i o n p e r f o r m a n c e i s i mp r o v e d s i g n i f i c a n t l y B L E U 1 4 wh e n t h e p a r a l l e l c o rpu s i s s ma l l 1 0 K a n d a g o o d p e r f o r ma n c e B L E U 0 3 2 i s a l s o a c h i e v e d wh e n p a r a l l e l c o rpu s i s l a r g e e n o u g h 1 M Ke y wo r d s p a r a p h r a s e p h r a s e t r a n s l a t i o n t a b l e f e a t u r e s d e c o d e r 在统计机器翻译 S MT 中系统性能往往受限于平行语料的规模对于训练语料中未出现的词汇 oo v S MT系统的通常做法是将其保留在翻译结果中这样会严重影响译文的质量同时人工构建大规模高质量平行语料比较费时费力而自动构建平行语料又难以保证质量为了解决这一问题 34 2 研究人员开展了利用复述技术的机器翻译方法研究近年来成为研究的热点之一 1 复述是在同种语言内表达与原始形式语义相同而内容不同的表现形式机器翻译系统无法翻译的句子可以通过复述处理得到不同的表现形式如果翻译系统可以翻译其中的某种表现形式那么国家国际科技合作专项 2 0 1 4 D F A1 1 3 5 0 国家自然科学基金 6 1 3 7 0 1 3 0 N1 京交通大学人才基金 2 0 1 1 R C 0 3 4 资助收稿 E t 期 2 0 1 4 0 6 3 0 修回日期 2 0 1 4 1 0 2 9 网络出版日期 2 0 1 4 1 2 0 1 苏晨等使用源语言复述知识改善统计机器翻译性能输入句子就可以获取译文复述技术可以在一定程度上改善由于翻译知识不足导致无法翻译的问题复述知识可以从第三语种的平行语料或单语语料中获取相比扩展训练数据的平行语料这些语言资源的获取更加容易本文以英中翻译英语向中文翻译为例提出基于复述技术的翻译框架主要研究利用日语作为中间语言获取英语复述表的方法以及利用复述特征的解码算法本文以 NT C I R 英中翻译任务为例在 3个不同规模的训练集上设计对比实验分析在短语翻译表的规模由小变大过程中复述处理对系统性能提升的贡献程度 1 使用复述知识的翻译框架对于统计机器翻译而言短语翻译表是主要的翻译知识但是由于平行语料规模的限制所获取的短语翻译表很难覆盖所有的测试用例对译文质量的影响主要表现在以下两方面 1 OO V 当测试语料中存在未知词汇时 S MT 系统通常不做任何处理因此测试语料中的未知词汇会影响译文质量 2 义项不全短语翻译表难以覆盖某一词汇所有语义的翻译知识导致测试语料中的句子不能被正确地翻译例如对英文句子 No w l e t me t a l k a b o u t A r t i c l e I I o n L a b o r L a w 使用翻译系统进行翻译时虽然短语表中 A r t i c l e 有多条译文选项但是由于缺少 Ar t i c l e 条款译文也很难令人满意针对以上 O O V 和义项不全的问题本文提出基于复述技术的 S MT框架如图 1所示其中虚线框中的内容是本文的主要工作相比于传统的 S MT 框架本文的框架增加了复述生成模块对解码器进行了扩展对于源语言句子首先利用复述短语表生成复述 L a t t i c e 然后将其作为解码器的输入进行解码复述生成模块对源语言句子的任意长度的字符串都将查询复述短语表生成由源语言句子和相应复述构成的格图 L a t t i c e 如图 2所示其中带有图 1 基于复述的翻译框架 F i g 1 F r a me wo r k o f p a r a p h r a s e b a s e d S M T 1 0 F 1 0 H 图 2 输入句子的复述 L a t t i c e F i g 2 Us i n g La t t i c e g r a p h t o d e n o t e i n p u t s e n t e n c e s d i f f e r e n t p a r a p h r a s e s 本文实验采用的数据来自 NT C I R英中机器翻译评测数据 h t t p n t c i r n i i a c j p a b o u t 3 4 3 北京大学学报自然科学版第 5 l 卷第 2期 2 0 1 5 年 3月标号的节点表示词语的分界从节点 i指向节点 1 i 0 的实线表示序号为 f l的单词它的信息包括原始短语和权重复述概率从节点 i指向节点 i k 1 的虚线表示从单词 f 1到单词 i k组成的短语的复述它的信息包括复述短语和权重复述概率复述 L a t t i c e保存了输入句子的多种复述形式有助于在解码阶段得到丰富的候选译文依据复述的权重解码算法对复述的译文进行重新评分在构建L a t t i c e 过程中权重的设置至关重要通过分析发现 1 权重惩罚过大会导致由复述知识获取的译文得分较低难以被 S MT 系统选中在翻译知识缺乏时无法显著改善翻译性能 2 权重惩罚过小则导致由复述知识产生的噪声影响变大尤其对于翻译知识比较充足的 S MT 系统复述知识反而会降低其翻译性能为了解决这个问题本文提出将复述知识作为新的特征加入到对数线性模型中通过在开发集参数训练使复述知识的权重自动适应 S MT系统与本文采用的复述知识的翻译框架相比文献 2 只是将源语言句子中的 O OV 替换为它的复述尽管能够改善翻译系统的性能但是它只解决 O O V 问题没有涉及义项不全问题针对后者文献 1 使用复述 L a t t i c e进行解码但是所用的复述权重是固定的无法实现自适应 2 复述短语表的获取 2 1 复述短语表的获取方法本文以 NT C I R 英中翻译任务为例研究基于复述的统计机器翻译复述知识的获取方法主要分为从单语语料获取的方法和从双语语料获取的方法 4 在我们的任务中尽管作为训练语料的 N T C I R 英中双语语料数量有限 1 M 但是相同领域上其他语言与英语的双语语料很丰富比如 N T C I R 英日双语语料有 3 M 的规模本文利用双语语料获取复述知识从 N T C I R 英 E t 平行语料获取英语复述知识在英日平行语料中我们通过日语作为桥梁获得英语短语之间的复述关系如果不同的英文短语 e 和 e 1 都翻译成相同的日语短语 j p 那么英文短语 e 2 与 e 互为复述复述概率可通过式 1 得到 3 44 p a r a e le p e z li p P j p le 1 1 J P 其中 P j P I e 表示英语短语 g l 翻译为日语短语 j P的概率 p e 2 IJ P 是日语短语 j p翻译为英文短语 e 2 的概率短语的翻译概率可以使用极大似然估计得到 IJ p j p I c o u n t j p e 2 3 c o u n t e j p 表示在平行语料中英文短语和日文短语 j P对齐的次数复述权重的另外一种计算方法可采用式 4 We i g h t 1 i K 4 其中 k设定为 7 i 是当前复述 e 依据 p a r a的排名 2 2复述短语表对短语翻译表的扩展本文提出的基于复述的翻译框架可以解决 OO V 和义项不全两个问题对于 O O V 问题将短语翻译表无法翻译的短语复述成另外一种形式获得译文提高短语翻译表对语言现象的覆盖率对于主项不全问题通过丰富输入短语的表现形式增加候选译文的多样性提高短语翻译表对于正确译文的覆盖率下面通过分析在这两方面覆盖率的提升展示复述短语表对短语翻译表的扩展效果本文使用 NT C I R英中平行语料以 1 0 K 1 0 0 K 和 1 M 规模的数据作为训练语料获取短语翻译表统计它们对 N T C I R 测试语料 2 K 的覆盖率评测结果列于表 1中箭头一左侧对比覆盖率变化发现当训练数据规模较小时增加训练语料的规模能有效提升短语翻译表的覆盖率如1 0 K 一 1 0 0 K 1 元短语的覆盖率提升 1 3 8 8 从 7 7 1 9 增加到 9 1 0 7 而当短语翻译表的规模达到一定程度时训练语料规模的增加对于翻译知识的覆盖率提升不明显如 1 O 0 K 一 1 M 语料规模扩大了 1 0 倍而 1 元短语的覆盖只增加了 4 3 4 f 从 9 1 0 7 增加到 9 5 4 1 然后统计加入复述知识后短语翻译表对测试语料的覆盖率结果列于表中箭头一右侧通过对比发现在训练语料较小的情况本文提及的语料规模 1 o K 1 0 0 K 1 M 单位是句对如 1 0 K表示 1 0 0 0 0旬对的语料苏晨等使用源语言复述知识改善统计机器翻译性能表 1 不同规模训练语料上构建的短语翻译表对于测试语料的覆盖率以及加入复述知识后短语翻译表的覆盖率 Ta bl e 1 Te s t d a t a S c ov e r a ge f r o m p h r a s e t r a ns l a t i o n t a bl e b a s e d o n t r a i n i n g da t a wi t h d i f f e r e n t s c a l e s a nd i n t he c a s e of i n t r o d uc i n g t he pa r a p hr a s i n g kn o wl e dg e 下加入复述知识对于提升翻译知识的覆盖率有极大帮助如在 1 0 K平行语料上构建的短语表在加入复述知识后其覆盖率提升1 2 7 8 7 7 1 9 一 8 9 9 7 训练语料规模较大时提升效果不明显如在1 M 平行语料上构建的翻译表中加入复述知识覆盖率只提升了 0 1 4 9 5 4 1 一9 5 5 5 根据第 1节对义项不全问题的描述可知一些短语尽管在短语表中存在但义项不全找不到合适的译文也会造成翻译质量下降引入复述知识后这个问题在一定程度上会得到缓解为了探究复述知识对于该问题的改善程度即理想译文与参考译文的相似度变化本文设计了另外一个实验理想译文是候选译文中与参考译文相似度最高的译文本文采用的相似度指译文与参考译文的最长公共子序列长度与参考译文长度的比例以汉字为单 f e ma x L e n g t h c c n 厂 C m C m 厂 l厂 f e m f e c m f e m 位为了选取理想译文使用 C K Y 算法模拟解码过程以相似度作为目标函数根据式 5 和 6 计算理想译文与参考译文的相似度式 5 中 f e c m 表示英文短语的理想译文与参考译文 c 最长公共子序列的长度其中 i J k i k j 是英文句子中单词之间的分界点编号 g 表示英文句子中从第 i 个分界点到第个分界点之间的单词组成的短语同理 m 是参考译文 C的汉字分界点 L e n g t h c m 是短语 c 的汉字数目式 6 中表示测试语料中句子的数目 f e C s 表示语料中第个英文句子的理想译文与它的参考译文最长公共子序列的长度本实验模拟解码过程找到测试语料的理想译文并计算它与参考译文的相似度结果见表 2 如果 8 c 在翻译知识中单调调序交换调序如果 e i n u l l 在翻译知识中如果 P J n u l l 在翻译知识中如果 c 1 n u l l 在翻译知识中如果 c 1 n u l l 在翻译知识中表 2 不同规模训练语料构建的短语翻译知识与加入复述知识的情况下理想译文与参考译文的相似度 T a b l e 2 S i mi l a r i t i e s o f i d e a l t r a n s l a t i o n a n d r e f e r e n c e t r a n s l a t i o n i n t h e c a s e s o f p h r a s e t r a n s l a t i o n k n o wl e d g e b u i l t b y t r a i n i n g d a t a wi t h d i f f e r e n t s c a l e s a n d wi t h a d d i t i o n a l p a r a p h r a s e k n o wl e d g e 5 3 45 北京大学学报自然科学版第 5 1 卷第 2期 2 0 1 5年 3 月 S i m i la r it y c c ce f L e n g th c 6 s i s l 由表 2可知通过复述知识增加了原始短语翻译表的义项在一定程度上解决了在短语翻译表中找不到合适译文的问题尤其在翻译知识比较匮乏时如在 1 0 K平行语料上构建短语翻译表通过加入复述知识理想译文与参考译文的相似度上升 9 6 4 8 2 8 2 一9 2 4 6 随着翻译知识逐渐变得丰富复述知识对译文的改善变弱在 1 M 平行语料上构建的翻译知识在加入复述知识后理想译文与参考译文相似度提高 2 7 2 9 4 3 1 一9 7 0 3 由此可见即使对于本实验的 1 M 训练语料的机器翻译系统通过引入复述知识译文质量仍有 2 7 2 的提升空间 3 引入复述特征的解码算法基于短语的统计机器翻译系统采用对数线性模型进行解码如式 7 所示 r M 1 a r g m a x P r c le a r g m a x m h m C 7 C l J h 表示不同特征的目标函数在基于短语的机器翻译系统中有 4个与短语翻译有关的特征正向短语翻译 h T r a n C e 1 反向短语翻译 h V e r T r a n C P 1 正向词汇化 h L e C e 1 和反向词汇化 h V e r L e x C e 1 在解码阶段加入源语言复述知识一e 2 首先将源语言短语 e 复述成 e z 然后使用 e 查询短语翻译表本文将复述知识加入到目标函数后得到新的目标函数如式 8 1 1 所示 c e I lo g b le l o g p a r a e 2 p c e 2 8 Jiz v erT r an c e 1 l o g P e l Ic lo g p a r a e 1 le 2 p e 2 9 c e I l o g L e x c l o g p a r a e L e x c le 2 1 0 c lo g L e x e 1 Ic l o g p a r a e l le 2 L e x e 2 lc 1 1 其中 p a r a e 2 le 1 表示 l 复述成 e 2 的概率由式 1 计 3 4 6 h t t p w ww n l p l a b c o m Ni u P l a n Ni u T r a n s c h h t ml h t t p s c o d e g o o g l e c o m p g i z a P p h t t p w ww s t a t mt o r g mo s e s n F a c t o r e d T r a i n i n g Al i g n Wo r d s 算得到式 8 和 1 0 合并得到式 1 2 式 9 和 1 I 合并得到式 1 3 c e 1 c e l o g p a r a e 2 1 e I a l p c l l o g p a r a e 2 l L e x c l l o g p c l l o g L e x c I a 3 l o g p a r a e 2 l e 1 c c 1 2 札札 c r T l o g p a r a e l I e 2 p c r L e l o g p a r a e J L e x e 2 f c m n l o g P e 2 I c L l o g L e x e 2 c r T 姐 n 2 十 a 4 l o g p a r a e l I e r T r m a 盯 T c L 盯 L c e 2 e r P h v e r P a r a e l e 2 o 1 3 与传统模型相比基于复述的模型实际上引入了两个新特征正向复述特征 h e a r a e 1 e 2 和逆向复述特征 h v e r P a r a e 1 e 2 6 c l 5 2 5 3 5 4 是不定参数 P a r a r r a 1 L e x 3 与其他参数独立同理 V e r P a r a V e r T r a n 5 2 V e r L e x 5 4 也是独立的由此可见复述知识作为两个新的特征加入到对数线性模型中最优的特征权重可以依据式 1 4 使用最小错误率训练得到 r S 1 M a r g m a x lo g P r c 1 4 L s l j 分析可知当 e 1与 e 2相同时 p a r a e l l e 2 p a r a e 2 l e 1 1 0 此时 P e 1 8 2 h v P e 1 e 2 0 而且与复述短语 e 相关的特征全部变为与原短语 e l 相关的特征例如 h T r a n C l e 2 一 T t i e 1 此时加入复述特征的模型退化为传统模型当 P a r 1 0 且 r P a 0 时该系统与文献 1 的系统极为相似 4 评测实验与结果分析 4 1 实验数据为了对比系统的有效性本文设计了 3个不同翻译系统进行对比第一个系统是传统的短语模型记做 B a s e l i n e 第二个系统是依照文献 1 的方法实现的系统记做 D u S y s t e m 最后一个系统苏晨等使用源语言复述知识改善统计机器翻译性能是将复述知识作为新特征加入到 S MT 的系统记做 Ou r S y s t e m 本文使用 Ni u T r a n s 1 3 0 搭建短语模型 S MT 系统单词对齐的结果由 G I Z A 训练得到然后使用 g r o w d i a g a n d fi n a l 启发式算法进行对称化短语模型的最大长度设置为 7 对数线性模型参数训练方法使用最小错误率实验在英中翻译系统上进行验证为了详细比较不同规模数据上系统性能的差异本文在 3个不同规模的训练集开发机器翻译系统 1 0 K 1 0 0 K和 l M 英中训练语料 1 M 规模的训练语料是 NT C I R 中英训练语料 1 0 0 K和 1 0 K语料分别在 1 M 的训练语料中随机获取得到由于 1 M 的训练语料的内容分布不均匀本文采用伪随机获取策略将语料平均分成很多组每组中句子编号是连续的每组随机取一个句子组成新语料 NT C I R 的中英开发集和测试集语料各 2 0 0 0句对每个句子只有一个参考译文所有翻译的系统共用这套开发集和训练集译文的评测指标采用 B L E U 值引本文使用式 1 获取复述知识采用 NT C I R 英日平行语料规模是 3 M 首先在训练语料上获得相应的英日短语翻译表然后依据短语翻译表中的 p c l e 和 p e I c 计算复述知识 e 一P 正向复述概率 p a r a e 2 l e 1 和反向复述复述概率 p a r a e l l e 2 在获取过程加人剪枝策略以过滤可信度较低或者不会被测试语料使用的复述知识剪枝策略主要包括以下 4方面 1 如果在开发集和测试集中均未出现英文短语 e 则去掉复述短语知识 p e l e 2 如果短语翻译表中未出现英文短语 e 2 则去掉复述短语知识 p e 2 l e 1 3 式 1 中的 p c l e 1 和 p e z l c 必须高于阈值 0 0 1 4 对于每一个 e 1 只保留得分最高的 5 0 条复述知识 4 2实验结果与分析本文在不同规模的数据集上进行 3组实验对比 B a s e l i n e系统 D u S y s t e m 和 O u r S y s t e m 的性能评测结果列于表 3 通过观察发现在 1 0 K 规模的训练数据集上加入复述知识后 S MT 系统性能得到较明显的提升相对于 Ba s e l i n e系统 D u S y s t e m 的 B L E U 值提升 1 0 3 O u r S y s t e m 提升 1 4 当训练数据规模扩大到 1 0 0 K时 D u S y s t e m 和 O u r S y s t e m 的性能相对于 Ba s e l i n e系统分别提高 0 2 9 和 0 0 3 当训练数据规模增加至 1 M D u S y s t e m相对于 B a s e l i n e系统 B L E U值明显降低表 3 Ta b l e 3 不同规模训练语料上搭建的 S MT系统性能比较 Co mpa r i s on f o r t he pe r f o r ma n c e o f S M T s y s t e ms whi c h a r e b a s e d o n t r a i ni n g da t a wi t h di f f e r e n t s c a l e s 0 7 3 而 O u r S y s t e m 的 B L E U 值提升 0 3 2 相对于 D u S y s t e m 提升1 0 5 结果表明 Ou r S y s t e m 的方法不仅能在训练语料最少的情况下改善翻译系统性能并且在训练语料充足的 S MT 系统上表现了较好的性能对不同翻译系统的译文进行详细对比和分析发现当翻译知识比较匮乏时复述知识对翻译知识的扩充效果很明显因而有利于改善 S MT 系统的性能以 1 0 K 规模数据集开发的 3个系统的 1 b e s t译文为例当翻译源语言句子 P a r t i c u l a r l y s c r e w ba s e s o f t h e t y p e e l 4 e 2 6 o r e 2 7 a r e f r e q ue nt l y u s e d f o r l a m p s 时 P a r t i c u l a r l y 的参考译文是尤其是而短语翻译表中并未出现 P a n i c u 1 a r l v 一尤其是 B a s e l i n e系统将其翻译为具体地说而通过复述关系可以得到翻译知识 P a r t i c u l a r l y I n p a r t i c u l a r 尤其是 D u S y s t e m 和 O u r S y s t e m 通过复述知识都得到了正确的译文随着训练语料规模的增加短语翻译表变得更加完善通过 2 2节的统计结果可知复述知识对短语翻译表的拓展效果变弱而由复述知识带来的噪声对 S MT 翻译性能的影响愈发明显以 1 M 训练数据上 3个不同翻译系统的 1 b e s t翻译结果为例当翻译英文句子 Th e l i g h t i ng d e v i c e 1 f u r t h e r ha s a n o pt i c a l fibe r 5 i i 殳 Q 曼 t o t h e s o l i d s t a t e l i g h t s o u r c e 4 时在参考译文中 wh i c h i s c o u p l e d 被翻译为它被耦合但是在 D u S y s t e m 中将复述知识 wh i c h i s c o u p l e d c o u p l e d 和翻译知识 c o u p l e d 耦合结合得到的译文相比于 w h i c h i s c o u p l e d 它被耦合得分更高因此 D u S y s t e m 采用耦合作为 w h i c h i s c o u p l e d 的译文在短语翻译表的规模较大时 O u r S y s t e m 对复述特征惩罚力度较大因而 w h i c h i s c o u p l e d 被正确翻译通过对比实验和结果分析本文提出的将复述 347 北京大学学报自然科学版第 5 1 卷第 2期 2 0 1 5 年 3月知识作为特征的方法不仅在训练语料较少时能够提升系统性能而且在训练语料充足的情况下避免了由复述知识的噪声引起的 S MT 系统性能下降的问题 5 结语针对训练语料有限翻译知识不足的问题本文提出基于复述技术的翻译框架主要解决了 3个问题 1 将目光转向英语和其他语种的丰富的平行语料利用第 3种语言获取带有概率的英语复述知识 2 以 L a t t i c e 形式保存输入句子的所有的复述表现形式扩展解码器使之可以对 L a t t i c e形式的输入进行解码 3 将复述知识作为特征加入到对数线性模型的目标函数中在保持原始翻译知识表不变的情况下此框架提高了短语翻译表对源语言现象的覆盖率也增加了更多的候选译文以接近参考译文本文在 3个不同规模训练集上设计对比实验分析翻译知识表由小到大过程中复述技术对于系统性能的贡献程度实验结果证明无论短语翻译知识匮乏或丰富本文的方法都取得了不错的效果本文评测中所采用的测试集只有一个参考译文若在具有更多参考译文的测试集上评测分析或者增加 Me t e o r和 T E R进行评测应该能够更全面评价本文的方法本文报告了在英中翻译上我们方法的有效性验证该方法在其他语言对翻译上的效果将是今后的工作此外本文只针对源语言端进行复述目标端的复述处理也可以改善 S MT 的性能将其作为特征加入到对数线性模型中可以作为下一步的研究工作参考文献 1 D u J i n h u a J i a n g J i e Wa y A F a c i l i t a t i n g t r a n s l a t i o n 3 48 us i ng s ou r c e l a ng ua ge p a r a ph r a s e l a t t i c e s Pr oc e e d i n gs of t h e 20 1 0 Co nf e r e nc e o n Emp i r i c a l M t h ods i n Na t ur a l La ng ua g e Pr o c e s s i ng M a s s a c h us e t t s As s oc i at i o n f or Co mp ut a t i on a l Li ng ui s t i c s 20 1 0 4 20 4 29 2 Ca l l i s o n Bu r c h C Ko e h n Os b o r n e M I mp r o v e d s t a t i s t i ca l mac hi n e t r a ns l a t i o n us i ng pa r a p hr a s e s Pr oc e e d i n gs o f t he M a i n Con f e r e nc e o n Human La ng ua ge Te c hno

人人文库> 全部分类> 教育资料 > 课设设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

使用源语言复述知识改善统计机器翻译性能.pdf

文档简介

温馨提示

最新文档

评论

使用源语言复述知识改善统计机器翻译性能.pdf

文档简介

温馨提示

最新文档

评论

相关文档