引入韵律结构信息层次短语模型改进探究_第1页
引入韵律结构信息层次短语模型改进探究_第2页
引入韵律结构信息层次短语模型改进探究_第3页
引入韵律结构信息层次短语模型改进探究_第4页
引入韵律结构信息层次短语模型改进探究_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、引入韵律结构信息层次短语模型改进探究摘要:随着自然语言处理研究的不断深入,人们不但迫 切需要挖掘文本更多的潜在语言学信息,而且还力图通过机 器学习预测这些潜在的语言学知识,以便更加有效地提高机 器翻译的性能,同时为计算语言学服务。韵律作为语音学方 面的知识,已经广泛用于到语音合成、文音转换、语音翻译 各个语音方面,对基于语音的自然语言处理起到不可替代的 作用。该文对韵律信息如何,并以何种方式改进机器翻译进 行了介绍,并通过实验验证韵律信息对层次短语模型有改 进。关键词:统计机器翻译;层次短语模型;韵律结构信 息;计算语言学;语音学中图分类号:tp393文献标识码:a文章编号: 1009-304

2、4 (2013) 12-2860-04随着统计机器翻译的不断发展,翻译模型经历了从最初 的基于词的翻译模型,到基于短语的翻译模型,一直到基于 句法甚至语义的翻译模型的演变。其中层次短语模型12 是当今最好的基于句法的模型之一。层次短语模型脱胎于传 统的短语模型3,继承了短语模型鲁棒的优点,同时又具 备较强的长距离重排序能力。然而,现有的层次短语模型存 在严重的规则冗余问题。例如,给定汉英句对如下:这星期它特价一百二十美元。it' s on sale this week for one hundred twenty dollars句对对齐结果由giza+从语料库训练得到。现给出平行 句对

3、的对齐矩阵,如图1所示:根据该对齐矩阵,我们可以得到初始短语(为简洁,此 处省略了对齐信息,下同),根据蒋伟的层次抽取算法,我 们可以进一步得到如下含变量的规则集:1. x->2. x->3. x-4. x-5. x->6. x->7x8. x-9. x-10. x->11. x->12. x->13. x-14. x->通过对上述规则集进行分析,我们发现规则集中存在大 量冗余。冗余规则的的形式如下:x_xxx-*为什么这些规则是不合理的?如果我们把原句的韵律 结构信息考虑近来就比较清楚了。假设现有句对源端的韵律 结构,如下所示:这y星期y它y特

4、价y n百n二n十y美 元y。y可以看到这些不合理的规则绝大多数其规则变量与两 边终结符的边界,并不是韵律切分边界。可见韵律结构信息 将可能对层次规则泛化通过指导性信息。为此,该文将研究利用韵律信息对层次短语模型的改 进。本章将从两个角度改进层次短语模型。首先利用韵律结 构边界信息约束层次短语模型的抽取。另一种角度,增加模 型的特征函数5,利用韵律信息,改进层次短语模型的翻 译模型,生成最优的译文。1层次短语模型在层次短语模型中,对任意给定的源语言句子f, 一般 会存在多个推导得到f,从而得到许多可能的翻译候选项e。 层次短语翻译模型通过计算推导过程的概率值确定最终的 翻译结果,使用对数线性模

5、型来进行推导,模型如下:p (d) ocj?i (d) x i (1)这里,?i是定义在推导的特征值,入订为这些特征 值的权重。除了 m元语言模型p (m),剩余的特征定义为上 下文无关文法的推导过程中使用的规则的特征上:?i (d) = (x-) £d?i (x) (2)进一步地,可以推导出p (d):p (d) ocplm (e) xlmilm (x-) £d?i (x-)入 i(3)除了语言模型,将其他因子放在一起表示,如下表示:w (d) = (x) £dw (x) (4)且定义:w (x-)二ihlm?i (x-) xi (5)由以上公式,可以得到模型的

6、最后表示:p (d) *plm (e) xlmxw (d) (6)而层次短语模型的规则集d是在训练过程中,从对齐的 平行句对中抽取出来的,规则形式如下:x- 其中,x是n集合中的某个非终结符;y, a 分别为源语言端、目标语言端的终结符与n中的非终结符组 成的串;为v , a中非终结符之间的对齐关系,在实际 规则中可以通过变量的下标表示;w为规则的权值。且短语规则利用了类似于pharaoh的默认特征集相似的 特征:目标语言与源语言之间的双向短语翻译概率、短语规 则中词相互翻译的贴切度、每个短语规则的惩罚、胶水规则 惩罚以及词惩罚。使用最小错误率对对数线性模型各特征的 权值调整,并通过对数线性模

7、型把上述特征组合起来。层次翻译模型的解码器是一个cky句法分析器,用cky 形式的算法使用学习得到的同步上下文无关文法的源端,对 目标端进行同步句法分析,同时生成译文。2基于韵律的层次翻译模型改进因改进需要用到韵律边界信息,因此本节首先介绍韵律 边界的预测。然后根据概述,分析有效的韵律约束。本节最 后一部分介绍韵律信息以特征的方式改进机器翻译模型。2. 1韵律边界预测韵律层次结构主要分为三个基本层级:韵律词、韵律短 语和语调短语。从形式句法来看,语调短语往往可以被认为 是由标点符号分开,比较容易识别。因此对韵律结构的预测 问题可以认为是对韵律词和韵律短语的预测。而韵律层次的 预测主要有两类6,

8、 类是基于规则的方法,另一类是基 于统计学习的方法。因此韵律边界的预测可以利用韵律层次 结构的预测方法。该文采用基于crf的方法7,预测韵律 边界。实验工具为crf+工具包8,实验的训练集和测试集来 自于th-coss9,其中随机抽取80%为训练集,剩余20%为 测试集。th-coss为清华的语音合成语料,th-coss包含韵 律标记。训练数据格式如下:其中第一列为语法词,第二列表示语法词的词长,第三 列其词性,最后一列为韵律边界标识。所采用的特征模板是 “4+1”的模板,即选取当前词的词性,当前词前面的两个 词和后面两个词作为特征。因此特征模板的个数有15个一 元特征和31个一元组合特征,共

9、46个特征,详细特征列表 请参考文献4。韵律边界预测为分类问题,对其评价,不仅仅考虑精确 率和召回率,还要考虑f值,通过crf+训练,得到预测模 型,再由测试集测试,测试结果为:准确率95.04%、召回率 94. 97%以及 f 值为 95. 00%。2. 2基于韵律边界的规则抽取约束与传统的短语模型相比,层次短语模型保留了传统的短 语模型优势,又克服了传统短语模型的调序问题。但是层次 短语模型带来了很大的计算代价,存在大量的冗余。对于解 决规则冗余,其主要方法是利用语言知识约束规则抽取,比 如利用浅层句法分析10的结果作为规则抽取的出发点、利 用高频词短语搭配11约束规则抽取等。由概述分析可

10、知,韵律层次结构会对规则抽取起到约束 作用,进而能解决层次短语模型的冗余问题。根据概述所发 现的、不好的规则,与其变量的位置、韵律边界存在一定的 关系。因此,利用变量的位置和韵律边界信息,制定如下约 束策略:1)规则含一个变量,考虑两边有终结符,若都不在韵 律边界处,过滤此规则。2)规则含一个变量,且位于末端,且变量前面的终结 符不在韵律边界处,则过滤规则。3)规则含一个变量,且位于首端,且变量后面终的结 符不在韵律边界处,则过滤规则。4)规则含两个变量,若变量位于规则的两端,过滤规 则。5)规则含两个变量,两个变量规则两边的非终结符都 不在韵律边界处,则过滤规则;其中约束2、3和4用于约束概

11、述所总结的规则;而约 束1和5,用于约束韵律切分比较严重的规则,因为这些规 则的概率比较低、泛化能力不强,但又有可能过滤掉好的规 则。通过对上述五种约束的分析,从理论上来讲,约束2、3, 和4会对规则过滤起到优化作用;而约束1和5需要通过实 验证明;2. 3基于韵律切分惩罚的机器翻译模型改进文章2. 2采用规则过滤的方式改进基于层次短语模型的 翻译系统,这种方式是存在一定的风险,因此本节考虑增加 特征函数的方式,将韵律信息添加到翻译模型中。现考虑对 每条规则增加特征,惩罚规则中韵律切分的程度。而基本的 层次短语模型使用了 pharaoh的默认特征集相似的特征。从 双语训练语料中抽取到的规则有如

12、下特征形式:1) p ( y i a )和卩(a | 丫)是目标语言到源语言 和源语言到目标语言的短语翻译概率。2 ) pw ( y | a )和卩可(a | y )这两个特征是估计y 和a 中词相互翻译的贴切度。3) 对每个抽取的短语规则的惩罚exp(t),与koehn' s 短语惩罚相似,可以使得模型学习到是长的推导还是短的 推导。4) 对胶水规则的惩罚exp (-1),使模型学习到使用是 使用传统的短语的顺序组合还是层次短语的顺序组合。5) 对每一个短语规则进行词惩罚exp (-#t (a),其中 #t (a)是对规则中的终结符的计数,这个特征来指导模型 选择短的翻译还是长的翻译

13、,控制翻译的长度。增加特征-韵律切分惩罚,特征函数形式如下:fp=#ts (x-) (7)函数#ts表示规则x-中的源端变量与其两边非终结 符之间的韵律切分次数,比如本文示例的规则表中的一条规 则:x-*因变量xi和x2抽取时,与“百”之间的分割不在韵律 边界处,因此规则的韵律切分次数为2o因增加特征方式引 入韵律信息,同样也可用于传统的短语模型,所以这里同时 给出基于韵律特征的短语模型改进。3实验与分析3.1实验设置 本节实验主要用到的语料来自 iwslt2006中的数据和2005年863评测任务的数据,其中 iwslt2006中的训练集和开发集(devi到dev3)来自于btec。 bte

14、c (the basic travel expression corpus)是多语言的 平行语料,并且是旅游领域的对话语料。其中训练集以iwslt2006的训练集和从2005年863 mt 评测中选取的100425句对作为实验的训练集,该数据共 140378句对;以iwslt2006中的测试集与开发集4分别为实 验的测试集和开发集。所有数据的汉语句子经厦大自然语言 处理实验室的分词工具分词,训练集的英语部分由moses自 带的工具进行tokenize,大小写转换,最后再过滤长句;开 发集合的英文部分需要tokenize,大小写转换;测试集英语 部分 tokenize。使用开源工具irstlm工

15、具训练5元的语言模型,使用 改进的kneser-ney平滑策略;使用开源工具giza卄工具训 练处双语的词对齐,并采用“grow-diag-final-and"的启 发式策略获得词对齐;翻译模型的权重参数使用moses自带 的工具进行自动调参;评测方法使用moses自带的评测工具 multi-bleu. perl 进行 blue 计算。3. 2实验结果与分析本节的实验主要是针对训练时加入韵律约束对规则规 模的影响和对翻译性能的影响。文章所涉及的翻译模型有基 本的短语翻译模型(pbtm)、层次短语翻译模型(hpbtm). 基于韵律约束策略2、3和4的层次翻译模型(hpbtm1)、基 于

16、韵律约束策略1、2、3、4和5的层次翻译模型(hpbtm2), 添加韵律切分惩罚的短语翻译模型(pbtm+ )和层次短语翻 译模型(hpbtm+)o其中基本的短语翻译系统和层次短语翻 译系统作为baseline。两个baseline系统即开源的moses 系统,其余系统是在开源的moses系统上的改进。表2给出加入韵律约束前后的短语表规模的对比;表3 给出各个模型系统对翻译的质量进行了对比。从表2、表3可以看出:加入限制2、3和4之后的层次 短语模型,抽取到的规则表规模降低了 40%多,但是blue值 相对于baseline2,降低了 0.36个点;加入限制1、2、3、 4和5之后,规则表规模

17、大幅度降低50%多,同时blue值相 对于basline2降低了 0. 59.然而,加入韵律切分惩罚的短语 模型和层次短语模型,相对于baselinel、baseline2, blue 值分别提高了 0. 23和0.19个点。由此可以得出:虽然采用韵律信息约束层次短语模型的 规则抽取,存在一定的风险,但是从运行代价上来讲,降低 了层次短语模型的冗余问题;若在翻译模型中引入韵律信息 特征,模型的翻译质量有一定的提高。因此从总体上来讲, 引入韵律信息是有助于提高系统的翻译性能。4总结本文针对韵律边界与句法边界之间的关系,通过理论和 实验分析讨论了韵律的结构与层次短语模型规则之间的关 系。实验证明,

18、该文在只对翻译质量做了稍微牺牲的情况下, 大幅度降低了层次短语模型的规则数,因此韵律信息有益于 解决层次短语模型的冗余问题;而且以韵律切分惩罚的方 式,增加规则的特征,模型的翻译质量得到了提升。该文最 为重要的意义是,在现有的比较有限的语言学知识下,利用 语言学知识,并且是语音学的韵律知识,改善翻译系统的性 能。因此本文的内容仅仅说明韵律对非语音领域的自然语 言处理有一定的作用,迈出了第一步,还有很多不足和探讨 的地方,比如韵律边界预测的准确率还有待改进;翻译模型 中的韵律特征函数考虑的比较粗糙,是否可以根据具体的韵 律层次结构类型,选择相应的特征函数;甚至研究利用韵律 结构信息来指导机器翻译

19、的解码过程。参考文献:1 chiang d. a hierarchical phrase-based model for statistic machine transla.tionj in proceedings of acl 2005:263-270.2 chiang d. hierarchical phrase-based translationj. computational linguistics, 2007, 33 (2): 201-228._3 koelhn p. statistical phrase-based translationc in proceedings of the human language technology conference of the north american chapter of the association for computationallinguistics(hlt/naacl), edmonton, canada, 2003: 127

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论