基于短语的统计机器翻译模型若干关键技术研究.pdf_第1页
基于短语的统计机器翻译模型若干关键技术研究.pdf_第2页
基于短语的统计机器翻译模型若干关键技术研究.pdf_第3页
基于短语的统计机器翻译模型若干关键技术研究.pdf_第4页
基于短语的统计机器翻译模型若干关键技术研究.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

基于短语的统计机器翻译模型若干关键技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

厦门大学 博士学位论文 基于短语的统计机器翻译模型若干关键技术研究 姓名 陈毅东 申请学位级别 博士 专业 基础数学 指导教师 周昌乐 20080301 摘要 摘要 机器翻译是自然语言处理的核心课题 统计方法在机器翻译中的应用在近二 十年里得到复苏 各种统计机器翻译模型被提出并表现出巨大的潜力 在各种统 计机器翻译模型中 目前占主流地位的是基于短语的翻译模型 短语模型简单而 健壮并在各种测评中表现良好 引起了研究者的广泛关注 本文的工作建立在基于短语的翻译模型基础上 力图通过改善短语模型的某 些关键步骤或关键问题来提高短语翻译系统的性能 具体而言 论文围绕词语对 齐 词语调序和语言模型等三方面展开了深入的研究 并取得了一系列成果 针对词语对齐问题 论文提出了一种基于多目标进化算法的词语对齐模型 首次将词语对齐问题描述成多目标优化问题并选择了一种高效的多目标进化算 法叫s g a i i 来实现优化 该模型同时具有传统i b m 模型无监督性的优点和 基于区别性的模型易扩展性的优点 针对词语调序问题 论文提出了一种基于源语言组块调序的词语调序新模 型 该模型将词语调序问题的处理作为短语翻译的预处理阶段 因而能很好地和 短语模型配合使用 同时 该模型将词语调序问题的处理建立在源语言组块分析 的基础上 因而既能利用源语言句法层面上的信息来指导调序 又不依赖完整句 法分析 特别适合如汉英翻译这样源语言句法分析难度较大的情况 针对语言模型问题 论文在传统短语概念基础上提出了链接短语的概念并以 此为基础将基于链语法的语言模型结合到基于短语的统计机器翻译模型中 首次 实现将非句法的翻译模型与句法语言模型相结合 在保持短语模型总体框架不变 的前提下借助句法语言模型的长距离预测能力来指导译文的选择 关键词 统计机器翻译 短语翻译模型 词语对齐 词语调序 句法语言模型 a b s l r a c t a b s t r a c t m a c h i n et r a n s l a t i o n m t i sak e yp r o b l e mi nt h ea r e ao fn a t u r a ll a n g u a g e p r o c e s s i n g n l p i nt h ep a s tt w e n t yy e a r s t h ea p p l i c a t i o no fs t a t i s t i c a lm e t h o d si n m t g a i n sm o r ea n dm o r ea t t e n t i o n sa n dv a r i o u ss t a t i s t i c a l b a s e dt r a n s l a t i o nm o d e l s h a v e b e e np r o p o s e d r e c e n t l y p h r a s e b a s e dt r a n s l a t i o nm o d e l p b t m h a sb e c o m e o n eo ft h ed o m i n a t i n gs t a t i s t i c a l b a s e dt r a n s l a t i o nm o d e l s w i t ht h ea d v a n t a g e so f s i m p l i c i t ya n dr o b u s t n e s s p b t mh a sa c h i e v e de x c e l l e n tp e r f o r m a n c e si nm a n y e v a l u a t i o n so fm t s u c ha sn i s ta n di w s l t b a s e do np b t m o u ro b j e c t i v ei st oi m p r o v et h ep e r f o r m a n c eo fp h r a s e b a s e d t r a n s l a t i o n s y s t e m t h i s t h e s i sf o c u s e so nw o r da l i g n m e n t r e o r d e r i n g a n d s y n t a x b a s e dl a n g u a g em o d e l s t h ec o n t r i b u t i o n sa lea d d r e s s e da sf o l l o w s f i r s t l y w ep r o p o s e dan o v e lw o r da l i g n m e n tm o d e lb a s e do nm u l t i o b j e c t i v e e v o l u t i o n a r ya l g o r i t h m s m o e a i nt h i sm o d e l t h ew o r da l i g n m e n tp r o b l e mi s l o o k e do na sam u l t i o b j e c t i v eo p t i m i z a t i o np r o b l e ma n da ne f f i c i e n tm o e a i e n s g a i ii sc h o s e nt op e r f o r mt h eo p t i m i z a t i o n o u rm o d e li sa nu n s u p e r v i s e dm o d e l w h i c hc o u l db ee a s i l ye x t e n d e dt h r o u g hi n c o r p o r a t i n gm o r eo b j e c t i v ef u n c t i o n s s e c o n d l y w ep r o p o s e dan o v e lr e o r d e r i n gm o d e l sb a s e do nt h er e o r d e r i n go f s o u r c el a n g u a g ec h u n k s t h em o d e li su s e da sap r e p r o c e s s i n gs t e po fp h r a s e b a s e d t r a n s l a t i o nm o d e l sa n dc o u l db ew e l li n t e g r a t e dw i n ls u c hm o d e l s a tt h es a m et i m e a sac h u n k b a s e dm o d e l s y n t a xi n f o r m a t i o nc o u l db ec o n c e r n e di nt h ep r o c e s so f r e o r d e r i n gw h i l et h ee n t i r ep a r s i n go ft h es o u r c es e n t e n c ei sn o tr e q u i r e d f i n a l l y w ep r o p o s e dan o v e lc o n c e p to fl i n k e dp h r a s e s w h i c hi sa ne x t e n s i o no f t h ec o n c e p to ft r a d i t i o n a lp h r a s e s b a s e do nt h i sc o n c e p t w ep r o p o s e dam e t h o dt o i n c o r p o r a t et h el i n k g r a m m a r b a s e dl a n g u a g em o d e l si np h r a s e b a s e dt r a n s l a t i o n m o d e l sw i t h o u tc h a n g i n gt h e i rm a i nf r a m e w o r k s k e y w o r d s t a t i s t i c a lm a c h i n et r a n s l a t i o n p h r a s e b a s e dt r a n s l a t i o nm o d e l s w o r d a l i g n m e n t s r e o r d e r i n g s y n t a x b a s e dl a n g u a g em o d e l s i i i 厦门大学学位论文原创性声明 兹呈交的学位论文 是本人在导师指导下独立完成的研究成果 本人在论文写作中参考的其他个人或集体的研究成果 均在文中以明 确方式标明 本人依法享有和承担由此论文产生的权利和责任 声明人 签名 匿驭嚣 川年专月叩e l 厦门大学学位论文著作权使用声明 本人完全了解厦门大学有关保留 使用学位论文的规定 厦门大 学有权保留并向国家主管部门或其他指定机构送交论文的纸质版和 电子版 有权将学位论文用于非营利目的的少量复制并允许论文进入 学校图书馆被查阅 有权将学位论文的内容编入有关数据库进行检 索 有权将学位论文的标题和摘要汇编出版 保密的学位论文在解密 后适用本规定 本学位论文属于 1 保密 在年解密后适用本授权书 2 不保密 作者签名 导师签名 净姒0 少 撼陟 小一钐 腙r肜 第1 章绪论 第1 章绪论 本章总括全文 目的在于明确本论文的研究课题及其意义 首先 我们简述 了机器翻译的发展和统计机器翻译的兴起 然后 我们对当前的各种统计机器翻 译模型做了综述 之后 我们进一步考查基于短语的统计机器翻译模型并总结了 其成功的关键和存在的问题 最后 我们列出论文的主要工作和主要创新点 1 1 统计机器翻译的兴起 机器翻译 m a c h i n et r a n s l a t i o n 简称m t 是自然语言处理的核心课题 早 在1 9 4 6 年电子计算机刚一问世 人们在把计算机广泛用于数值运算的同时 也 想到了利用计算机把一种或多种语言翻译成另外一种语言或多种语言 从2 0 世 纪4 0 年代末期起 机器翻译系统的研制经历了草创期 复苏期和繁荣期三个时 期 1 机器翻译在理论和实践方面都取得了很大的进展 出现了不少完善的理 论体系 可行翻译方法和一些初步实用的翻译系统 随着国际交流的加剧 人们对实用机器翻译或机器辅助翻译系统的需求越来 越迫切 另一方面 由于机器翻译所处理的自然语言是人脑高级智能活动的结果 是极端复杂的 而到目前为止人们对自身人脑处理语言的机理和方式了解得还很 少 因此 尽管机器翻译已经历了几十年的发展 现有的机器翻译系统在翻译效 果上仍无法令人满意 对复杂句和篇章的翻译尤其如此 机器翻译领域所使用的方法一般可以分为两类 基于规则的 r u l e b a s e d 方法和基于语料库 c o r p u s b a s e d 的方法 上个世纪9 0 年代之前 基于规则 的方法占主导地位 其思路是由人工或机器辅助先构造供翻译用的词语信息库和 句法语义规则库 通过知识表示 知识推理 经由分析 生成等步骤来实现翻译 这种方法也称为理性主义 r a t i o n a l i s t 方法 优点是所使用的数据噪声小 而 且所构造出来的系统运行高效 缺点是构造规则库的过程需要耗费大量的人工劳 动 而且所得到的规则库既难以完备也无法反映语言的新变化还常常含有构造者 的主观因素 基于语料库的方法也称为经验主义 e m p i r i c i s t 方法 主要是通过对大规 厦门大学博士学位论文 基于短语的统计机器翻译模型若干关键技术研究 模的双语或多语语料库进行概率运算 根据各语言要素之间的相似程度来构造语 言模型 经验主义方法的优势是构建模型时不需要太多的人力参与 经验主义方 法又可分为基于统计的 s t a t i s t i c a l b a s e d 方法和基于实例的 e x a m p l e b a s e d 方法 目前较主流的是基于统计的方法 在机器翻译中使用统计方法的思想事实上可以追溯到2 0 世纪的5 0 年代 但 是 由于当时大规模双语语料数量不足 机器资源少等条件的限制 统计机器翻 译 s t a t i s t i c a lm a c h i n et r a n s l a t i o n 简称s m t 的研究并没有形成气候 反而遭 受当时很多语言学家的强烈批判 进入8 0 年代中后期 统计方法在机器翻译中 的应用被重新提起 m m 的b r o w n 等人提出了基于信源信道 s o u r c ec h a n n e l 思想的统计机器翻译模型 2 3 并且在实验中获得了初步的成功 统计方法在 机器翻译中的应用开始引起研究人员广泛的关注和争议 1 9 9 9 年夏天 许多相关的研究人员会聚在美国约翰霍普金斯大学 j h u 的 夏季研讨班上 大家共同合作 重复了i b m 的统计机器翻译实验 并开发了一 个开源的统计机器翻译工具包e g y p t l 其中包含了著名的统计机器翻译训练工 具g i z a g i z a 的主要开发者o c h 博士后来还其基础上修改并发布了增强版的 统计机器翻译训练工具g i z a 2 这些工作为此后统计机器翻译的发展奠定了坚 实的基础 2 0 0 0 年以来 统计机器翻译的研究进入了空前繁荣的时期 各种新的模型 不断涌现 统计机器翻译从理论到技术都取得了长足的进展 在翻译框架方面 从最早的信源信道模型 2 3 发展到最大熵模型 m a x i m u me n t r o p ym o d e l s 4 使构造出的系统更具可扩展性 在翻译模型方面 从最早的基于词的模型 2 3 发展到对齐模板模型 5 6 和其他基于短语的模型 7 8 9 及基于浅层句法结构 的模型 1 0 1 1 和基于句法结构的模型 1 2 1 3 1 4 1 5 1 6 1 7 统计机器翻译模型 考虑的语法因素越来越丰富 在参数调整方面 引进了基于最小错误率 m i n i m u m e r r o rr a t e 简称m e r 的区别性训练方法 1 8 参数训练过程中数据稀疏和模 型不完善的问题得到了较好的解决 这些方面的进展使统计机器翻译系统的实际 翻译效果有了很大的提升 使这类系统显现出了极大的竞争力 统计机器翻译逐 1 h t t p w w w c l s p j h u e d u w s 9 9 p r o i e e t s m t h t t p w w w f i o c h c o m g i z a h t m l 2 第1 章绪论 渐成为机器翻译研究领域的主流方向 在n i s t 3 等国际评测中 基于统计模型的 翻译系统显示出了极大的优势 g o o s e 等公司还推出了基于统计机器翻译引擎 的网页翻译系统4 1 2 统计机器翻译模型综述 如1 1 所述 统计机器翻译的研究目前已经成为主流的研究方向 本文的主 要工作也是在统计机器翻译的大框架下完成的 为了进一步明确本文工作的意 义 本节将对统计机器翻译模型做简要的综述 图1 1 是著名的机器翻译金字塔 总结了机器翻译模型中所用知识层次的深 度以及目前统计机器翻译模型的知识使用状态 理想的翻译应该能实现从源语言 的词语层次信息构造出中间语言结构然后再逐步转换为目标语言的词语序列 但 从图中可以看到 目前的统计机器翻译模型离开这一步还很远 事实上 现在基 于短语的模型依然还是效果最好统计机器翻译之一 尽管基于句法的模型在近几 年被广泛关注并逐渐成为研究热点 但从实际测试的结果看 所提出的句法模型 并没有取得突破性的进步 中间语言 语义层次 句法层次 短语层次 词语层次 基于词的翻译模型 基于短语的翻译模型 串 到 树的翻译模型 树 到 串的翻译模型 树 到 树的翻译模型 3 h t t p w w w n i s t g o v s p e e c h t c s t s m t 4 h l 血 w w w g o o g l c c o m t r a n s l a t et 图1 1 机器翻译金字塔 3 厦门大学博士学位论文 基于短语的统计机器翻译模型若干关键技术研究 从图中我们看到 现存的统计机器翻译模型大体上可以分为基于词的模型 基于短语的模型和基于句法的模型三类 其中 基于句法的模型根据源语言和目 标语言句法处理深度的差异又进一步被细分为串 到 树 s t r i n g t o t r e e 的模型 树 到 串 t r e e t o s t r i n g 的模型以及树一到 树 t r e e t o t r e e 的模型三种 本节余下的几个小节将简要概述各类翻译模型的进展情况 1 2 1 基于词的模型 1 1 中已经提及 最早的统计翻译模型由i b m 的b r o w n 等人在2 0 世纪9 0 年代提出 他们将翻译视作一个噪声信道问题 2 3 目标语言由于经过了一个 噪声信道而发生了扭曲变形 从而在信道的另一端呈现为源语言 图1 2 目标语言句子 二二至亘至三卜源语言句子 图1 2 噪声信道模型 这样 翻译问题实际上就是如何根据观察得到的源语言恢复最可能的目标语言的 问题 也就是说 翻译的任务是根据给定的源语言句子c 0 q 勺 句 搜 索相应的目标语言句子e 彳 p l 岛 畸 以使后验概率p 彳lc 达到极大值 根据贝叶斯公式 我们可将p 彳1 0 按公式1 1 进行改写 唰i c i 型茹产 1 1 注意到 p r 0 在给定0 的情况下只是一个归一化因子 不影响极值 因此 前 述的翻译任务就转成搜索使p r p r c fl 达到极大值的目标语言句子彳 如 公式1 2 所示 管 a r g m a x p r e p r 0i 彳 1 2 从公式1 2 可以看出 该模型包含两个部件 语言模型p r 彳 和翻译模型 4 第l 章绪论 e r c ji 彳 其中 语言模型在语音识别领域已经得到较为充分的研究 因此b r o w n 等人将研究重点放在翻译模型的设计上 提出了五个翻译模型 2 3 分别称为 i b m 模型1 到i b m 模型5 由于这些模型的基本翻译单位是词语 因此也称为 基于词的翻译模型 基于词的翻译模型是最早的翻译模型 其数学描述十分严密 为后继的统计 翻译模型奠定了良好的基础 但是 该模型也有明显的缺点 基于词的模型翻译 时使用的知识层次低 在翻译过程中以词为基本翻译单位 没有考虑上下文信息 因而在词义消歧 语序调整等方面都存在着先天的不足 1 2 2 基于短语的模型 在认识到基于词的模型最重要的缺陷是模型缺少利用上下文信息的能力之 后 许多研究者开始转入基于短语的统计机器翻译模型研究中 基于短语的翻译 模型的基本翻译单位是短语 值得注意的是 这里的短语并不是语言学意义上的 短语 而只是连续的词序列 最早的短语模型是由w a n g 等人在1 9 9 8 年提出的 7 该模型称为基于结构 的模型 首先对源语言和目标语言的短语进行粗对齐 然后对短语内部的单词进 行细对齐 粗对齐模型类似于i b m 模型2 细对齐模型类似于i b m 模型4 该 模型也采用期望最大化 e x p e c t a t i o n m a x i m i z a t i o n 简称e m 算法进行参数估 计 该模型相对较为复杂 参数估计和搜索的复杂度都很高 o c h 等人在1 9 9 9 年提出了对齐模板的模型 5 该模型也是基于短语的模型 只不过它可以将短语中的词用词类来代替以获得泛化能力 该模型对此后的统计 机器翻译模型有较大的影响 主要体现在如下两方面 该模型不使用传统的e m 算法来估计参数 模型训练依赖经过词语对齐 的双语语料库并使用基于相对频率的最大似然估计方法来估计参数 这 样做极大降低了参数估计的复杂度 该模型使用了柱状搜索 b e a ms e a r c h 算法 而不是传统的a 算法和 栈算法来实现解码 柱搜索算法的优点在于能够利用各种剪枝策略来在 效率和准确度之间达成某种平衡 以对齐模板模型为基础的统计机器翻译系统在历届n i s t 评测中取得了较好的成 绩 该模型的详细描述于2 0 0 4 年发表在c o m p u t a t i o n a ll i n g u i s t i c s 杂志上 6 5 厦门大学博士学位论文 基于短语的统计机器翻译模型若干关键技术研究 m a r c u 等人在2 0 0 2 年提出了一种基于短语联合概率的翻译模型 8 该模型 和现在常用的短语模型有较大的不同 但实际影响不大 由于对齐模板模型相对较复杂 k o e h n 等人在2 0 0 3 年发表的文章中又重新 返回到更为简化的基本短语模型 9 该文章最大的贡献之一是提出了词汇化权 重 l e x i c a lw e i g h t i n g 的概念 这一概念将类似i b m 模型1 的方法用在估计短 语翻译概率中 丰富了短语翻译模型的参数估计方式 2 0 0 3 年约翰霍普金斯大学夏季研讨班上 o c h 组织了一些研究人员在基于 对齐模板的翻译系统上尝试了大量的特征 包括一些句法特征 但实验显示这些 特征的引进对翻译效果的提高作用不大 1 9 在这一发展阶段中 许多学者为了进一步推动统计机器翻译的研究工作的发 展 纷纷将其工作公开甚至开源 由k o e h n 等人所开发的法老 p h a r a o h 5 是最 早公开的免费系统 也是影响最大的基于短语模型的翻译系统 该系统曾一度成 为多数研究论文中用作性能比较的基线 b a s e l i n e 系统 2 0 0 6 年由中科院计算 所 自动化所 软件所以及厦门大学和哈尔滨工业大学等单位联合开发并推出了 一套开源的名为 丝路 的短语翻译系统6 包含了构造完整短语翻译系统所需 要的模块 几乎在同时 作为2 0 0 6 年约翰霍普金斯大学夏季研讨班的成果之一 由k o e h n 领导开发的开源短语翻译系统摩西 m o s e s 7 被发布出来 该系统已经 成为目前的s t a r t o f a r t 系统 我们将在1 3 展开讨论基于短语的模型及其优缺点 1 2 3 基于句法的模型 基于句法的模型几乎是在基于短语的模型出现的同时就被提出来了 尽管完 整的基于句法的模型至今没有取得人们所预期的突破性进步 但由于这类模型倾 向于能利用语言更深层次的信息 具有巨大潜力 因而得到了广大研究人员的看 好和关注 本小节将简要综述基于句法的统计机器翻译模型的研究进展 其中也 将涉及基于浅层句法结构的翻译模型 w u 于1 9 9 7 年提出了反向转录语法 i n v e r s i o nt r a n s d u c t i o ng r a m m a r 简称 i t g 1 2 他将翻译过程视为利用同步语法对源语言和目标语言句子做双语句 h t t p w w w i s i e d u p u b l i c a t i o n s l i c e n s e d s w p h a r a o h h t t p w w w n l p o r g c n p r o i e c t j p r o i e c t p h p p r o i i d 1 4 h t t p w w w s t a t m t o r g m o s e s 6 第1 章绪论 法分析的过程 这是第一个将同步语法引入统计机器翻译的工作 y a m a d a 等人在2 0 0 1 年提出了第一个真正意义上的句法翻译模型 1 3 该模 型是一个串 到 树的模型8 可以被理解为一个噪声信道模型 输入是一棵目标语 言的句法树 输出是一个源语言的句子 该模型在实验中取得了比基于i b m 模 型4 的模型更好的效果 s c h a f e r 等人 l o 和w a t a n a b e 等人 1 1 于2 0 0 3 各独立提出了一个基于浅层句 法结构的模型 前者通过限制分析器生成的最大树深度为两层来获得浅层句法结 构 而后者则利用组块分析来获得浅层句法结构 基于浅层句法结构的模型后来 并没有得到很多关注 m e l a m e d 于2 0 0 3 年提出了比同步语法更为通用的多文本语法 m u l t i t e x t g r a m m a r 简称m t g 2 0 在2 0 0 5 年约翰霍普金斯大学夏季研讨班上 以 m e l a m e d 为首的研究人员试图将m t g 在机器翻译中的应用实用化 并推出了开 源的工具包c e n p a r 9 但该工作至今还未取得实质性的进展 c h i a n g 在2 0 0 5 年提出了基于层次化短语的 h i e r a r c h i c a lp h r a s e b a s e d 翻 译模型 1 4 该模型实际上是基于句法的模型 因为它使用了同步上下文无关语 法 该模型的特别之处之一是它不是基于语言学意义上的句法概念而是基于形式 句法的概念 相应的论文获得了2 0 0 5 年a c l 的最佳论文奖 以层次短语模型为 基础的统计机器翻译系统h i e r o 在最近几年的n i s t 评测中都取得了较好的成绩 超过了许多基于短语的系统 显示出句法模型的潜力 美国南加州大学的m a r c u 等人在2 0 0 6 年提出了更为完善的串 到 树翻译模 型 1 5 1 该模型使用g a l l e y 等人所提出的树 到 串转换规则抽取算法 2 1 1 并采 用对数线性模型框架融合了十几个特征函数 在实验效果上超越了o c h 的对齐 模板模型 l i u 等人在2 0 0 6 年提出了基于树 到 串对齐模板的翻译模型 1 6 与y a m a d a 等人的模型不同 此模型在翻译时需要对源语言进行分析 为了克服分析失败的 问题 l i u 等人又于2 0 0 7 年提出在其模型中融入森林 到 串的规贝1 j 1 7 以树对 齐模板模型为基础的系统l y n x 在2 0 0 6 年n i s t 评测中也取得了不错的成绩 8 按噪声信道模型的称呼方式 该模型应称为树 到 串的模型 本文采用目前更常用的称呼方式 其中 源 端和目标端分别指翻译的源语言和目标语言而不是噪声信道里的源端和目标端 两者刚好相反 9 h 蛆翟 纽l 珏 玉n 强 盟型q 如旦堑签姐 弛h 蛆l 7 厦门大学博士学位论文 基于短语的统计机器翻译模型若干关键技术研究 1 3 基于短语的模型及其优缺点 本节将展开讨论本文的工作基础 基于短语的统计机器翻译模型的基本 原理 并阐述该模型的优点和缺点 1 3 1 短语模型的形式化描述 给定源语言句子c 0 c l 0 勺和目标语言句子e 彳 岛 弓 呼 首 先假设存在一个隐变量曰将源语言句子和目标语言句子同时划分为k 个短语 如 公式1 3 和1 4 所示 0 斧 兹 钮 l l 1 3 彳 肇 瓦 气 气 则翻译概率的推导可如公式1 5 v r 41 0 p 彳 曰1 0 口 v r 曰14 p 叫i 刀 0 四 p r b 1 0 p r 甜l 斧 口 1 4 1 5 这里 概率p r b 1 0 称为短语划分模型 如果我们再引入隐变量群来表示源语 言短语序列斧和目标语言短语序列斧之间的对应关系 则p r 斧i 斧 可以进一 步按公式1 6 推导 p 斧l 举 p 斧 斧l 彳 2 荨p r 群i 斧 p r 芹l 硭 斧 1 6 2 善p 群i 斧 珥p 色i 备 其中 概率p 群i 斧 称为短语对齐模型或短语调序模型 而概率p r 乓 毛 则称 为短语翻译模犁 第1 章绪论 可见基于短语的模型由三个子模型构成 短语划分模型 短语调序模型和短 语翻译模型 图1 3 展示了基于短语的翻译模型的翻译过程 其中我们可以看到 上述各子模型在翻译过程所起的作用 图1 3 基于短语的翻译模型翻译过程示意 1 3 2 短语模型的优缺点 基于短语的翻译模型在基于词的翻译模型基础上仅做了少量的改进 将 翻译单位从词扩展为短语 连续的词串 但在实际的翻译效果上却获得了突破 性的提高 这使很多研究者对短语模型产生了浓厚的兴趣 除了力图对基于短语的模型做改进以进一步提高其性能外 不少学者还对短 语模型进行了总结以期探究短语模型成功的深层次原因和存在的问题 q u r i k 等 人在 2 2 里对基于短语的模型的优缺点做了较好的总结 要点如下 短语模型的优点 擅长翻译习惯用语等非组合性短语 擅长局部调序 l o c a lr e o r d e r i n g 包含一定的上下文信息 短语模型的缺点t 只允许完全子串匹配 不允许非连续短语 不擅长全局调序 g l o b a lr e o r d e r i n g 9 厦门大学博士学位论文 基于短语的统计机器翻译模型若干关键技术研究 概率估计存在缺陷 对短语划分的假设存在问题 1 4 本文的主要工作及创新点 通过1 1 到1 3 的讨论 我们看到 短语模型至今仍然是效果最好的翻译模 型之一 目前的句法的模型尽管在模型上比短语模型复杂得多 仍然从效果上看 仍然无法撼动短语模型的地位 我们认为 其中主要的原因是 短语模型是一个 十分健壮的模型 模型本身对训练 翻译过程中可能遭遇到的很多错误都不是很 敏感 因而在处理真实语料翻译时往往能有较好的表现 相反的 句法模型在增 强模型的同时常常也使模型变得更为脆弱 比如 模型可能变得对词语对齐的错 误或者句法分析的错误敏感等等 因此在实际翻译过程中模型本身的优势就无 法体现出来了 基于上述观察 我们将本文的工作建立在基于短语的翻译模型基础上 力图 通过改善短语模型的某些关键步骤或关键问题来提高其翻译性能 事实上 现在 很多基于句法的模型之所以能较短语模型有些许提高 其中一个很大原因是这些 模型经过某些变化后都可退化为短语模型 同时我们也注意到 短语模型的基本翻译单位是非句法的连续词串 在翻译 过程中 短语模型无法利用句法层面上的信息 因此 在处理诸如全局调序 译 文词汇选择等需要更多考虑句法信息的问题时短语模型往往表现出能力不足 如 果能在基于短语的模型中适当地引进句法甚至语义信息将有可能补充此模型的 局限性以改善这些问题的处理 因此 本文的主要工作都与如何在短语模型中融 合句法信息有关 具体而言 本论文围绕如下三个方面展开了深入的研究 词语对齐问题 词语对齐问题是统计机器翻译中的一个重要的基础问 题 无论是简单的词翻译模型或是复杂的句法翻译模型目前都使用词语 对齐信息作为其参数估计的基础 尽管短语模型对词语对齐的错误不太 敏感 但当在其中引入句法信息后词语对齐的质量将有可能影响系统的 翻译质量 语序调整问题 语序调整问题一直是机器翻译的重要问题 全局调序问 1 0 第1 章绪论 题更被认为是短语模型的瓶颈问题 研究如何利用句法层面的信息来指 导调序对于改善短语模型的翻译性能将是至关重要的 语言模型问题 语言模型是各种统计机器翻译模型的重要组成部件 对 模型翻译性能的影响巨大 传统的n 元语言模型简单 健壮 但不具有 长距离预测的能力 而句法语言模型则恰能补充1 1 元模型这一缺陷 如 果能将句法语言模型融入短语模型 将能进一步改善其性能 论文的主要创新点有 提出了一种基于多目标进化算法的词语对齐模型 首次将词语对齐问题 描述成多目标优化问题并选择了一种高效的多目标进化算法一一 n s g a i i 来实现优化 该模型同时具有传统i b m 模型无监督性的优点和 基于区别性的模型易扩展性的优点 提出了一种基于源语言组块调序的词语调序新模型 该模型将词语调序 问题的处理作为短语翻译的预处理阶段 因而能很好地和短语模型配合 使用 同时 该模型将词语调序问题的处理建立在源语言组块分析的基 础上 因而既能利用源语言句法层面上的信息来指导调序 又不依赖完 全句法分析 特别适合如汉英翻译这样源语言句法分析难度较大的情 况 在传统短语概念基础上提出了链接短语的概念并以此为基础将基于链 语法的语言模型结合到基于短语的统计机器翻译模型中 首次实现将非 句法的翻译模型与句法语言模型相结合 在保持短语模型总体框架不变 的前提下借助句法语言模型的长距离预测能力来指导译文的选择 第2 章基于多目标进化算法的词语对齐模型 第2 章基于多目标进化算法的词语对齐模型 本章介绍基于多目标进化算法的词语对齐模型 在描述了研究词语对齐问题 的意义并给出词语对齐问题的形式化定义之后 我们回顾了近年来的词语对齐相 关工作 然后我们详细的描述基于多目标进化算法的词语对齐模型的基本思想以 及模型和系统细节 最后是实验和结果的描述以及相关讨论 2 1概述 词语对齐问题是解决查找给定互译句对中词语对应关系的任务 是众多自然 语言处理应用的关键组件 在统计机器翻译 双语词典构建 b i l i n g u a ll e x i c o n c o n s t r u c t i o n 词义排歧 w o r ds e n s ed i s a m b i g u a t i o n 简称w s d 以及跨语言 信息检索 c r o s s l a n g u a g ei n f o r m a t i o nr e t r i e v a l 等领域中词语对齐问题都有重 要的应用 对于当前的统计机器翻译模型而言词语对齐的意义尤其重大 因为目 前主流的统计机器翻译模型 无论是短语模型 5 9 或句法模型 1 4 1 5 1 6 尽管 已经超越了基于词的翻译层次 但都需要依赖词一级对齐的双语文本以获得其翻 译所需的参数 从目前的实验结果看出 对于基于短语统计机器翻译模型 词语对齐的效果 影响似乎不大 主要的原因是短语模型目前所使用的短语抽取方式较为健壮因而 对于词语对齐错误不敏感 但引入句法信息后 则词语对齐的效果将较大的影响 模型的效果 2 3 2 2 问题描述 为使后文的讨论更方便 我们先给出词语对齐问题的形式化定义 已知源语 言句子c 0 c l c 勺和目标语言句子e q q 巳 如果勺和e i 互 为翻译 或者部分翻译 则我们说位置源语言位置 和目标语言位置i 之间存在 一个连线 连线的定义为 铲仉0 其中1s 厂且1 f i 这样 c 和e 之间 的词语对齐a 可以定义为所有连接所构成集合的子集 见公式2 1 而相应的词 语对齐问题则可看成是在幂集夕里寻找最佳词对齐的搜索问题 1 3 厦门大学博士学位论文 基于短语的统计机器翻译模型若干关键技术研究 a c a 红i 1 以i 1 毋 2 1 例如 图2 1 的词语对齐可以表示为 1 l o 2 7 3 3 4 4 5 1 6 2 图2 1 词语对齐例子 注意到 公式2 1 所给出的是一种通用的词语对齐定义 能够描述源语言句 子和目标语言句子之间的任何词对齐情况 目前已有的词语对齐模型往往通过增 加额外的限制来简化词语对齐问题的求解 例如 i b m 模型和h m m 模型 详 见2 3 相关工作 就限制每个源语言词汇必须对应恰好一个目标语言词汇 这样 从源语言句子c 0 到目标语言句子e 彳的对齐就可以看成一组映射 a 彳 伤 a j a s 其中 0 a 且1s 歹 这里 a y 0 表示留与目标 语言句子中的任何词汇都无连接 容易看出 简化后的词语对齐定义可以很自然 地转化为公式2 1 的形式 2 3 相关工作 由于词语对齐问题在诸多自然语言处理问题中举足轻重 许多研究人员对该 问题进行了深入的研究 并提出各种模型以期在平行语料中求取词语对齐 o c h 等人曾在 2 4 中对当时的各种统计词语对齐模型进行了系统比较 他们将对齐模 型分为两类 统计 s t a t i s t i c a l 模型和启发式 h e u r i s t i c 模型 2 0 0 5 年以来 基于区别性 d i s c r i m i n a t i v e 训练的方法被引入到词语对齐 并在很多实验中取 得了较好的结果 这些模型可归为新的一类 本节回顾词语对齐领域的主要工作 我们将依上述的分三类的方式对各模型进行简要介绍 1 4 第2 章基于多目标进化算法的词语对齐模型 2 3 1 统计模型 统计方法往往试图通过建立模型来描述平行文本之间的互译关系 模型参数 可以从训练语料库中自动学习 3 2 5 这些模型以词语对齐a a l j 作为一个隐变 量 通过e m 算法最大化句对的对齐概率 并使用v i t e r b i 算法获得每个旬对的 词语对齐 统计模型以i b m 模型 3 为代表 已经被证明能够对大规模双语语料库执行 准确度较高的词语对齐 b r o w n 等人提出的i b m 模型共有5 个 3 分别称为i b m 模型l 到i b m 模型5 由于m m 模型5 相当复杂 在实际使用中一般最多用到 i b m 模型4 本章中我们将进一步使用到i b m 模型2 和i b m 模型3 因此我们 将m m 模型1 到i b m 模型3 分别简述如下 m m 模型1 此模型只考虑了词语对译概率t 将对齐概率视为常量 p r o 口 i 彳 2 南 i 川 i f qi 2 2 m m 模型2 此模型引入了对齐概率口 p r 0 01 0 兀 a a jl 歹 j 歹 f 鸱l 乞 1 2 3 一i i b m 模型3 此模型引了繁殖概率疗 并将对齐概率a 改为扭曲概率d 州彳 曙 1 协 兀力 甩 谚l e x 2 4 兀 d h n t c jl 钆 除了i b m 模型以外 较著名的统计对齐模型还有v o g e l 提出的基于h m m 的对齐模型 2 5 其能力大约覆盖了i b m 模型2 上述这些统计模型统称为生成 g e n e r a t i v e 模型 它们最大的优点是模型 的无监督性 u n s u p e r v i s e d 即模型的训练不需要依赖词一级对齐的开发集 它 们的主要局限是模型的扩展性较差 在这些模型中加入新的子模型十分困难 1 5 厦门大学博士学位论文 基于短语的统计机器翻译模型若干关键技术研究 2 3 2 启发式模型 启发式方法比统计方法简单得多 这类方法一般通过依据相应语言对所设计 相似度函数来计算词语对齐 2 6 2 7 2 8 在这些方法中各种d i c e 系数 d i c e c o e 佑c i e n t 2 9 的变种被用来设计相似度函数 统计方法和启发式方法的主要区别在于统计方法是基于概率模型而启发式 方法则依赖于相似度函数 o c h 等人的研究表i 裴j 1 2 4 1 统计对齐模型从性能上要 优于这类简单的d i c e 系数的方法 2 3 3 基于区别性训练的模型 为解决统计词语对齐模型扩展性差的缺陷 研究人员开始考虑借助区别性训 练方法来处理词语对齐问题 因为基于区别性训练的方法已经被成功应用在统计 机器翻译领域 4 2 0 0 3 年 o e h 等人就提出了所谓的模型6 该模型实际上是i b m 模型和h m m 模型的对数线性组合 2 4 该模型在效果上已超过i b m 模型 但不具有更进一步 的扩展能力 l i u 等人在2 0 0 5 年提出了一种词语对齐的对数线性模型 3 0 是较早将区别 性训练方法引进词语对齐的工作之一 该模型在理论上支持融合任意特征 在 3 0 中他们使用m m 模型3 词性信息和双语言词典作为特征 m o o r e 在2 0 0 5 年也提出了一种词语对齐的区别性框架 3 1 对特征做线性组 合 并利用感知机算法来优化特征权重 同样是在2 0 0 5 年 t a s k a r 等人也提出了一个词语对齐的区别性模型 3 2 和 其他工作不同的是 此模型针对源语言和目标语言的词对设计特征 而不是针对 源语言和目标语言句对设计特征 b l u n s o m 等人于2 0 0 6 年提出将条件随机场引入词语对齐 对多对一的对齐 建模 此模型在多个语言对的数据集上取得了较好的效果 基于区别性训练的词语对齐模型最大的优势是模型的可扩展性强 我们可以 通过增加适当的特征函数很方便地对模型进行增强 它的主要问题是 需要人工 标注的数据来训练参数 因而 这类模型是有监督的 s u p e r v i s e d 模型 1 6 第2 章基于多目标进化算法的词语对齐模型 2 4 基于多目标优化的词对齐模型 从2 3 的介绍可以看出如下两点 第一 基于区别性训练的模型采用了融合多特征的思想能使模型具有更好的 可扩展性 已经成为目前的趋势 但是 这些模型都是有监督的模型 因而需要 人工词语对齐的语料库用于训练 第二 这些传统方法在处理词语对齐问题的方式都是 先定义一个其值大小 能反映对齐优劣的单一概率p r aic e 然后采用某种搜索策略去寻找使该概率 最大化的对齐a 见公式2 5 鑫 a r g m a x p r a l c e 2 5 从本节开始 我们将介绍一种全新的词语对齐模型 在该模型中 我们采用 基于目标的视角来看待词语对齐问题 即一个最佳的词语对齐应该是能使得多种 目标达到综合最优的词语对齐 采用这一思路主要是基于如下的观察 一个好的 词语对齐结果往往能同时使多个不同的相关方面达到较优 例如 源语言句子c 和目标语言句子e 之间的最佳对齐a 应该既能使正向翻译概率p r eic a 最大化 也能使反向翻译概率p r ele a 最大化 采用这一视角 词语对齐问题就转化为 一个多目标优化 m u l t i o b j e c t i v eo p t i m i z a t i o n 问题 见公式2 6 鑫 a r g m a x a r g m i n f 1 a c e a c a c e l a c e 1 2 6 其中 是需要被优化的目标的数量 颤a c e 代表第i 个目标函数 o i 1 我们所提出的基于多目标优化的词语对齐模型由于能通过任意添加需要的 目标函数来增强模型 因而和前述的基于区别性训练的模型一样具有良好的可扩 展性 在2 6 中我们将进一步看到 通过选择合适的优化算法 我们的模型完全 可以做到无监督 值得注意的是 尽管基于区别性训练的模型和我们的模型都能实现多特征的 融合 但他们之间还是有一点微妙的差别 在基于区别性训练的模型里 某个特 征函数被选择是因为该特征对于词语对齐有用 而在我们的模型里 某个目标函 数被选择则是因为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论