




已阅读5页,还剩79页未读, 继续免费阅读
(计算机软件与理论专业论文)使用多层对齐框架进行基于实例机器翻译研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 机器翻译是自然语言处理的一个重要课题,随着互联网的发展,社会越来越 需要找到一种快捷的方式沟通不同语言的人群。美国国家标准技术研究院( n i s t , n a t i o n a li n s t i t u t eo fs t a n d a r d sa n dt e c h n o l o g y ) 更是设立了每年一度的机器翻译竞 赛,包括我国在内的众多国家,也都有每年一度的专题学术会议。一大批公司的 研究院,以及世界著名大学的研究人员在这个领域的研究上不断推进,向着无障 碍多语交流前进,但是当前机器翻译仍然面临着诸多挑战,比如词语对齐、词序 调整、语义评价等,而具体到基于实例的机器翻译,如何获取翻译信息,进行有 效的类比翻译,也是一项重要的研究课题。本文的研究工作正是在这样的背景下 进行的。 本文研究的贡献在于,提出了一个可以更容易用于类比翻译的多层对齐框架, 这个框架包含三个不同层次的对齐、语法信息和相关性参数,并实现了这个框架; 提出了使用这个框架进行基于实例机器翻译的步骤和算法,而且也实现了使用这 个框架进行基于实例的机器翻译原型系统。多层对齐框架作为一个用于基于实例 机器翻译的对齐框架,同时也考虑了扩展性与完备性,我们同时给出在不同条件 下( 如缺少语法分析器) 的替代方案,和这个框架各个接口的定义与扩展方法。 初步实验结果表明,本文提出的多层对齐框架,具有较好的对齐率,尤其是可 用于进行类比的对齐强度和相关性系数的准确率达到了9 0 以上。使用这个多层对 齐框架实现的e b m t 翻译系统原型,在性能上接近国内优秀的机器翻译系统, b l e u ( b i l i n g u a le v a l u a t i o n u n d e r s t u d y ) 成绩达到0 2 9 6 6 。同时也证明了丰富的对齐 信息,有利于译文的生成。 关键词:机器翻译、多层对齐框架、基于实例机器翻译、b l e u i n a b s t r a c t a b s t r a c t m a c h i n et r a n s l a t i o ni so n eo ft h em o s ti m p o r t a n ts u b je c t si nn a t u r a ll a n g u a g e p r o c e s s i n g ,w i mt h ed e v e l o p m e n to fi n t e r n e t ,m o r ea n dm o r ep e o p l ew a n tt of i n daw a y t oc o m m u n i c a t ew i me a c ho t h e r n a t i o n a li n s t i t u t eo fs t a n d a r d sa n dt e c h n o l o g yo fu s p r o m o t e st h ec o m p e t i t i o no fm a c h i n et r a n s l a t i o nf r o m2 0 0 2 t h e r ea l ea l s om a n y p r o f e s s i o n a lc o n f e r e n c e si nd i f f e r e n tc o u n t r i e si n c l u d i n gc h i n a al o to f r e s e a r c hc e n t e r i nb i gc o m p a n i e sa n df a m o u su n i v e r s i t i e sj o i nt h ec o m p e t i t i o na n di m p r o v et h eq u a l i t y o fm a c h i n et r a n s l a t i o n b u tt h e r es t i l le x i s ts o m ep r o b l e m si nt h i sf i e l d ,f o re x a m p l e , p h r a s ea l i g n m e n t ,r e o r d e rw o r d s ,a u t o m a t i ce v a l u a t i o no fm a c h i n et r a n s l a t i o n u n d e r t h eb a c k g r o u n d ,w ed ot h i sr e s e a r c ho nm a c h i n et r a n s l a t i o n o u rc o n t r i b u t i o ni s p r o p o s i n gan o v e la l i g n m e n tf r a m e w o r k , w h i c hi sn a m e d m u l t i - l a y e ra l i g n m e n tf r a m e w o r ka n d c a l la p p l yt oe x a m p l e - b a s e dm a c h i n et r a n s l a t i o n ( e b m t ) e a s i e r i tc o n t a i n st h r e ed i f f e r e n tt y p e so fa l i g n m e n t s ,s y n t a xi n f o r m a t i o na n d r e l a t e d n e s sp a r a m e t e r w ei m p l e m e n t e dt h i sf r a m e w o r k , a n df i n i s h e dap r o t o t y p ee b m t s y s t e ma c c o r d i n gt o t h ef r a m e w o r k w ea l s oc o n s i d e r e dt h e e x p a n s i b i l i t ya n d c o m p l e t e n e s so ft h em u l t i l a y e ra l i g n m e n tf r a m e w o r k , a n dg i v es o m ea l t e r n a t i v e s c h e m e s ,d e f i n i t i o n sa n di n t e r f a c e sf o ri t t h ee x p e r i m e n t si n d i c a t et h a to u rf r a m e w o r kg o tag o o dq u a l i t yf o ra l i g n m e n t , e s p e c i a l l yi na l i g n m e n ti n t e n s i t ya n dr e l a t e d n e s sp a r a m e t e r , w eg o t9 0 a c c u r a c y 、7 v h e l lw eu s e do u re b m ts y s t e mt od on i s tt e s t , w eg o t0 2 9 6 6i nb l e u ( b i l i n g u a l e v a l u a t i o nu n d e r s t u d y ) e v a l u a t i o n i tp r o v e dt h a tm u l t i l a y e ra l i g n m e n ti sg o o df o r t r a n s l a t i o n k e y w o r d :m a c h i n et r a n s l a t i o n ,m u l t i l a y e ra l i g n m e n tf r a m e w o r k , e b m t , b l e u i v 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名: 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 獠 名一弦鹤一劝 师 期 导 日 第一章绪论 1 1 机器翻译概述 第一章绪论 1 1 1 自然语言处理与机器翻译 语言学的目的是为了能够描述和解释我们周围的语言现象,比如对话、写作和 其它媒体中的语言现象。我们把处理这些语言现象的计算技术科学叫做计算语言 学( c o m p u t a t i o n a ll i n g u i s t i c s ) ,把这个处理的过程叫做自然语言处理( n l p ,n a t u r a l l a n g u a g ep r o c e s s i n g ) 。 在计算语言学中,有很多的分支研究方向,包括语言形态学、语法解析器、信 息提取、问答、机器学习、情感分析和意见挖掘等,当然,这当中一个非常重要 的主题就是机器翻译( m a c h i n et r a n s l a t i o n ) 。从最近历年的全球顶级计算语言学会议 计算语言学学会年会( a c l , a n n u a lm e e t i n go fa s s o c i a t i o nf o rc o m p u t a t i o n a l l i n g u i s t i c s ) 所发表的论文来看,机器翻译一直是过去也是现在计算语言学中最热门 的研究方向之一。 1 1 2 基于规则的方法 机器翻译的传统方法是基于规则的机器翻译f r b m t , r u l e b a s e dm a c h i n e t r a n s l a t i o n ) ,基于规则的机器翻译方法是所谓“理性主义( r a t i o n a l ) 的方法,主 要是依靠语言学家总结归纳的语言翻译规则库,对源语言的句子进行语法、句法 和词法词性分析,然后按照相应的语法规则进行判断和推导,最后生成等价的目 标语言语句,得出翻译结果,该方法逻辑上分为查词典、简单的源语言分析、目标 语言生成以及目标语形态和词序调整等几个步骤,而实现过程中层次性和模块性 体现得很不明显。 传统的机器翻译方法从翻译模式上可以分为三类:( 1 ) 直接翻译法( m i r e a t r a n s l a t i o n ) ;( 2 ) 中间语言法( i n t e r - l i n g u a la p p r o a c h ) ;( 3 ) 转换法( t r a n s f e r a p p r o a c h ) , 其关系可用图1 1 表示: 电子科技大学硕士学位论文 直接翻译法从源语言的表层句子出发,通过词典将单词或固定词组直接置换成 目标语言的对应单词或词组。这种方法由于没有考虑句子的语法结构和语义规 图1 - 1 基于规则的机器翻译方法 则,得到的翻译结果显然不够准确,是最原始的试验性方法。2 0 世纪7 0 年代以后, 随着机器翻译技术的不断发展,研究者们已经普遍认识到,源语言和目标语言的 差异不仅只表现在词汇的不同上,还表现在句法结构的不同上,为了得到可读性 强的译文,必须引入自动句法分析的技术。 中间语言法是把源语言经过分析转换成一种通用的中间语言,从这种中间语 言再生成目标语言。这种方法在设计以多语言翻译为目标的机器翻译系统时,理 论上是非常方便的,但实际上试图创建一种独立于各种自然语言,又能正确表达 各种自然语言的通用中间语言是非常困难和复杂的。 转换法采用两种内部表达形式,按照三个阶段进行翻译,第一个阶段把源语 言转换成源语言的内部表达,第二阶段把源语言的内部表达转换成目标语言的内 部表达,第三阶段再根据目标语言的内部表达生成目标语言。三个阶段的转换均 是以规则库为基础进行的。这种方法是当今基于规则的方法的主流。 这三种方法的不同之处主要是对翻译时源语言所需要的分析和理解深度有所 不同。直接翻译法不考虑源语言的语法结构,不进行深层次的源语言分析;而转 换法则需要对源语言的语法结构进行分析并转换成相应的内部表达;中间语言法 则进行更为彻底的源语言分析并将其直接转换成一种通用的中间语言。事实上, 各种基于规则的机器翻译系统,其主要区别就在于对源语言的分析深度处理的不 2 第一章绪论 同,即使同样是使用转换法的系统,对源语言进行分析处理的深度也不尽相同。 基于规则的方法自机器翻译这门学科诞生至今,人们已经投入了大量的人力物 力研究了几十年,是相对发展得最为成熟的机器翻译方法,目前已经建立起了覆 盖大多数语言现象的大型规则库,并以此为基础建立起许多取语或多语的机器翻 译系统。现在世界上比较有影响的实用化的机器翻译系统多是使用基于规则的方 法的。 尤其值得一提的是,虽然这种方法是存在了几十年的老方法,但是它在某些方 面仍然有较好的表现。在2 0 0 8 年1 1 月末举行的第四届全国机器翻译研讨会 2 1 上, 组委会最后给出的c w m t 2 0 0 8 机器翻译评测总结报告显示,在英汉新闻领域, “介词”、“词典介词”、“成语”、“数词短语”四个测试点上,基于规则的系统占 国1 2 箭头指示的为基于规则的系统( 成语、数词短语、介词、词典舟词四个测试点) 电子科技大学硕士学位论文 优。也就是说,一个设计不精良的基于语料库的翻译系统,不一定能胜出一个基 于规则的翻译系统,图1 - 2 是四个领先点的测试情况。 1 1 3 基于语料库的方法 基于语料库的机器翻译,是“经验主义 为指导的翻译方法,与基于规则机器 翻译的一个根本区别是是否使用一个已经对齐的双语语料库( b i l i n g u a lc o r p u s ) 来 作为翻译的基础。大致可分为基于统计的机器翻译和基于实例的机器翻译两类, 但是近年来也开始出现了交叉使用各种方法的基于融合的机器翻译方法。 1 1 3 1 基于统计的方法 对语言现象用统计的方法进行研究,由来已久。从z i p f 法则啼1 、m a n d e l b r o t 法则口1 开始,研究人员一直对语言的概率分布问题有着相当的兴趣,只是后来以 c h o m s k y 转换生成语法为代表的理性主义方法兴起后,统计机器翻译方法几乎不 再被人使用。这种情况一直持续到9 0 年代初,i b m 的b r o w n h 3 等人提出了基于信 源信道思想的统计机器翻译模型,并且在实验中获得了初步的成功,引起了研究 者广泛的关注和争议。不过由于当时计算能力等多方面限制,真正开展统计机器 翻译方法研究的人并不多,统计机器翻译方法是否真正有效还受到人们普遍的怀 疑。不过,近年来,随着越来越多的研究人员投入到统计机器翻译的研究中并取 得了成功,统计方法已逐渐成为国际上机器翻译研究的主流方法之一。 统计机器翻译的基本思想嘲是,把机器翻译看成是一个信息传输的过程,用一 种信道模型对机器翻译进行解释。假设一段源语言文本s ,经过某一噪声信道后变 成目标语言t ,也就是说,假设目标语言文本t 是由一段源语言文本s 经过某种奇 怪的编码得到的,那么翻译的目标就是要将t 还原成s ,这也就是就是一个解码的 过程。( 在这种思想下,我们已知的是目标语言t ,未知的是源语言s 。这与我们 一般的说法不同,要注意不要混淆。) 广1s 广- t 广1 s i源语言模型卜l翻译模型卜- 叫解码器卜- l _ j l - - - - - - - j l - - - - - - 一j 图9 - 3 噪声信道模型 根据b a y e s 公式可推导得到: s a r g m a x 。p ( s ) p ( tjs ) ( 1 1 ) 这个公式被称为统计机器翻译的基本方程式( f u n d a m e n t a le q u a t i o no f s t a t i s t i c a l m a c h i n et r a n s l a t i o n ) 。在这个公式中,p ( s ) 是源语言的文本s 出现的概率,称为语 言模型。p ( t ls ) 是由源语言文本s 翻译成目标语言文本t 的概率,称为翻译模型。 4 第一章绪论 语言模型只与源语言相关,与目标语言无关,反映的是一个句子在源语言中出现 的可能性,实际上就是该句子在句法语义等方面的合理程度;翻译模型与源语言 和目标语言都有关系,反映的是两个句子互为翻译的可能性。 于是统计机器翻译问题被分解为三个问题: 1 语言模型p r ( s ) 的参数估计; 2 翻译模型p r ( t s ) 的参数估计; 3 搜索问题:寻找最优的译文; 对于语言模型p r ( s ) ,可以采用n 语法、链语法等语法模型。对于翻译模型p r ( t s ) , m m 的b r o w n 等人提出了5 种不同形式,复杂程度递增的数学模型,这些模型都 用到了很复杂数学推导。在模型1 和2 中,首先预测源语言句子长度,假设所有 长度都具有相同的可能性。然后,对于源语言句子中的每个位置,猜测其与目标 语言单词的对应关系,以及该位置上的源语言单词。在模型3 ,4 ,5 中,首先,对于 每个目标语言单词,我们选择对应的源语言单词个数,然后再确定这些单词,最 后,判断这些源语言单词的具体位置。注意,在翻译模型中,我们已知的是目标 语言句子,要求解源语言句子的概率,这与我们通常所说的翻译顺序刚好相反, 因此在理解时注意不要混淆。i b m 模型l : r p ( a ,f i e ) = 赤x 上i t ( f j | c a j ) ( 1 2 ) 1 1 1 , j = - i 这些模型的主要区别在于计算源语言单词和目标语言单词之间的连接 ( c o n n e c t i o n ) 的概率的方式不同。模型1 最简单,只考虑词与词之间互译的概率, 不考虑词的位置信息,也就是说,与词序无关。好在模型1 的参数估计具有全局 最优的特点,也就是说最后总可以收敛于一个与初始值无关的点。模型2 到5 都 只能收敛到局部最优,但在i b m 的实验中,每一种模型的参数估计都依次以上一 种模型得到的结果作为初始值,于是我们可以看到最后的结果实际上也是与初始 值无关的。 m m 提出的统计机器翻译基本方程式具有非常重要的意义。而i b m 的其他工 作只是对这个基本方程式的一种理解。从理论上说,璐m 的模型只考虑了词与词 之间的线性关系,没有考虑句子的结构。这在两种语言的语序相差比较大时效果 可能会不太好。如果在考虑语言模型和翻译模型时将句法结构或语义结构考虑进 来,应该会得到更好的结果。于是为了弥补i b m 模型的一些不足,近年来研究者 提出了诸如基于短语、基于因素或基于句法的统计翻译模型6 1 。 基于句法的统计机器翻译最早可以追溯到9 0 年代初,当时同步树粘接语法 5 电子科技大学硕士学位论文 ( s y n c h r o n o u st r e e a d j o i n i n gg r a m m a r ,简称s t a g ) 和反向转录语法( i n v e r s i o n t r a n s d u c t i o nc _ r f a i l l i i l a r ,简称s t a g ) 相继提出来并用到机器翻译上。从时间上说,与 m m 提出基于单词的统计翻译模型的时间很接近,但是基于句法的统计机器翻译 研究逐渐得到人们的关注和认可却是在2 0 0 0 年之后。即使是在这段时间,许多研 究者对基于句法的统计机器翻译仍然持观望态度,主要是因为基于短语的统计机翻 译仍然方兴未艾,最初的基于句法的统计机器翻译系统在性能上与基于短语的统计 机器翻译系统相差甚远,再加上2 0 0 3 年由o c h 等人组织的约翰霍普金斯大学( j h u ) 夏季研讨班“s y n t a xf o rs t a t i s t i c a lm a c h i n et r a n s l a t i o n ”经过6 个星期的努力之 后,发现引进诸多与句法结构相关的特征并不能显著改善翻译质量。这些使得人们 对基于句法的统计机器翻译产生了怀疑。 但是基于短语的统计机器翻译本身存在一些固有缺陷,如短语层次上的全局重 排序,短语非连续性和泛化能力问题,极大地束缚了该方法的进步发展。这使得人 们又不得不求助于句法,因为在理论上或者在人们的直觉上,引入句法结构知识有 助于解决这些问题。所以纵观统计机器翻译的发展历程,可以看到,基于句法的统计 机器翻译是继基于短语的统计机器翻译之后的一个新趋势。从目前的情况来看,有 些基于句法的统计机器翻译系统在性能上已经明显超过了基于短语的系统,如 2 0 0 5 年机器翻译评测中的c h i a n g 的h i e r o 系统,2 0 0 6 年n i s t 机器翻译评测中的 i s i 的系统和中科院计算所的系统,在性能上它们接近甚至超过了最好的短语系统。 将句法知识引入到统计机器翻译系统中,存在多种不同的方法,如在单词对齐模型 中引入句法知识,在翻译之前利用句法知识调整源语言语序,在翻译之后利用句法 知识做r e r a n k i n g 等,并称之为基于句法的统计机器翻译。根据c h i a n g 的分类思想, 根据翻译模型所依赖的语法是否包含语言学知识将基于句法的统计机器翻译粗略 分为以下两类: 1 ) 基于形式化语法的:该类翻译模型建立在形式化语法的基础上,但并不包含 人类语言学知识,如短语标记,词与词之间的依赖关系等; 2 ) 基于语言学语法的:该类模型建立在语言学语法基础上,将人类语言学知识 包含到模型中。根据所采用的结构树形式的不同,又可以将它分为以下两类: a ) 基于短语结构树的:该类模型通过短语结构树,将短语的句法标记及标记之 间的依赖关系等语言学知识引入到翻译过程中: b ) 基于依存树的:该类模型通过依存树,将词与词之间的依赖约束关系等语言 学知识引入到翻译过程中。 6 第一章绪论 1 1 3 2 基于实例的方法 基于实例的机器翻译方法,也是本文使用的机器翻译方法,由日本京都大学 m a k o t on a g a o 盯3 于1 9 8 4 年提出的。这种机器翻译的核心思想是类比,m a k o t on a g a o 认为建立这样翻译系统必须能够得到如下两方面的知识,才能进行类比和以为生 成: ( 1 ) 一个句子的结构信息; ( 2 ) 目标语言与源语言之间的对照关系。 通过这两方面的信息,系统不需要对句子作深层分析,通过内部和替代操作完 成一个源语言句子到目标语言句子的翻译。其过程可表示为图2 4 : 图2 _ 4 类比替换 事实上,e b m t 的前身t m ( t r a n s l a t i o nm e m o r y ) 翻译记忆系统正是为了 使翻译员不用进行大量重复劳动而发展出来的,e b m t 系统实际上是继承并发展了 t m 系统的思想。 翻译记忆的思想是由m a r t i nk a y 在1 9 8 0 年提出的呻1 认为,在翻译新语句时, 如果有相似的已经翻译好的文档,则可以从中提取相似的部分来帮助进行新的翻 译。t m 系统作为一种人机交互的翻译辅助工具,目前已为绝大多数翻译人员使用, t m 系统帮助翻译人员记忆翻译好的句对,避免了翻译人员翻译相同语句而进行重 复劳动,提高了翻译效率。而e b m t 和t m 的不同之处在于t m 系统辅助生成的双语 对照的句对库只是完整e b m t 系统的一部分,当输入新的待翻译语句时,t m 系统对 旬对句对库进行查找,如有相同或相似的匹配结果则t m 系统输出结果并交由人来 判断,因此t m 系统的用户本身需要懂得所翻译的语言,通常是专业的翻译人员; 而e b m t 系统则自动选取或生成最佳翻译结果。 要实现一个基于实例的翻译引擎,面临的主要问题是: 7 电子科技大学硕士学位论文 ( 1 ) 对齐:实例库表现为对齐的文本。要进行翻译,实例必须至少做到句子一 级对齐。从理论上说,对齐的单位越小( 如做到子句、短语、句子级对齐) ,语料 库的可重复利用价值就越高,匹配的准确率也越高;不过对齐的单位越小,意味 着加工的深度越深,加工的成本越高( 尤其是人工的成本) ,系统的可扩充性也越 差; ( 2 ) 查询:实例库规模很大,因此高效的查询算法也是一个系统实现中要考虑 的重要问题; ( 3 ) 组合:这是基于实例的翻译中的核心问题。其目的是用已有的实例片断组 合成被翻译文本的一个覆盖; ( 4 ) 词的选择:与所有其他机器翻译系统一样,基于实例的机器翻译也存在译 词选择问题,不过由于不作完整的句法分析,与基于规则的方法相比,这里译词 选择问题的解决策略可能略有不同; ( 5 ) 语料库规模:要达到较高的准确率,实例库的规模肯定不能太小。一般认 为,例句库的规模一般应达到几百万句对的数量级。 基于实例的翻译具有众多的优点,在具体实现上又是千差万别,很多地方还有 相当大的潜力,因此近年来一直是机器翻译的研究的热点之一,但由于语料库规模 的限制,目前很多基于实例的机器翻译很难达到很高的匹配率。 本论文的一个主要研究点就是通过多层对齐框架解决其中关于对齐、查询、组 合和词的选择这样几个问题。 1 1 3 3 基于融合的方法 随着机器翻译研究的越来越深入,研究人员开始认识到有必要将不同类型的翻 译系统的优点综合起来,于是出现了宏观和微观上的综合。 宏观上的融合比较简单,就是一个翻译系统由多个翻译引擎构成,几个引擎同 时对一个源语言进行翻译,然后将译文送入一个判别系统,这个判别系统对每个 译文进行打分,然后计算出分值最高的译文作为最终译文,这个方法的难点是, 判别系统的评分标准如何与人类的评判相吻合。 微观上的融合,就是一种翻译方法中仍然使用另一种翻译方法,比如统计与规 则的融合1 ;基于实例的机器翻译使用统计的方法产生译文n 们。甚至同一种机器翻 译在中的不同技术细节之间的融合1 。 尽管融合可以在一定程度上提供机器翻译的质量,但是必须要说的是,融合并 不是一种单纯的机器翻译方法,它的质量是建立在其它各种机器翻译质量上的, 第一章绪论 因此要提高机器翻译的水平和发展,关键还是要提高各种具体的翻译方法的水平。 1 2 机器翻译的发展与现状 机器翻译的发展,从2 0 世纪4 0 年代至今,大致可分为5 个阶段,我们之所以 这么分,是因为每个阶段都有鲜明的研究重点和学派,并且都一定程度的,取得 了机器翻译及其相关领域的突破性成就。 1 2 1 基础研究阶段 2 0 世纪4 0 年代到5 0 年代末期,出现了两项基础性的研究:一是自动机的研 究;另一个是概率和信息论模型的研究n 羽。机器翻译的思想也正是这个时期提出 的,1 9 4 9 年w a r r e nw e a v e r 发表翻译备忘录,正式提出机器翻译的思想。 自动机的理论来源于t u r i n g 的算法计算模型,这种模型被认为是现代计算模 型的基础。t u r i n g 的工作首先导致了m c c u u o c h p i t t s 的神经元( n e u r o n ) 理论。一个 简单的神经元模型就是一个计算的单元,它可以用命题逻辑来描述。接着,t u r i n g 的工作导致了i t l l e e n e 关于优先自动机和正则表达式的研究。s h a n n o n 把离散马尔 可夫过程的概率模型应用于描述语言的有限状态自动机。c h o m s k y 从s h a n n o n 的 工作中吸取了有限状态马尔可夫过程的思想,首先把有限状态自动机作为一种工 具来刻画语言的语法,并且把有限状态语言定义为由有限状态语法生成的语言。 这些早期的工作产生了形式语言理论。 s h a n n o n 在这一时期的另一个贡献是,用于自然语言处理的概率算法的研究。 s h a n n o n 把诸如通信信道或声学语音这样的媒介传输语言的行为比喻为噪声信道 或解码。s h a n n o n 还借用热力学的术语“熵,来作为衡量信道的通信能力或语言 的信息量的一种方法,并且他用概率技术首次测定了英语的熵。 1 2 2 两个阵营:1 9 5 6 1 9 7 0 2 0 世纪5 0 年代末到6 0 年代初,自然语言处理明显的分成两个阵营:一个是 符号派( s y m b o l i c ) ;一个是随机派( s t o c h a s t i c ) 。 符号派的工作分为两个方面。一方面是c h o m s k y 的形式语言理论和生成句法研 究,很多语言学家和计算机科学家的剖析算法研究,早期的自项向下和自底向上 算法研究已及后期的动态规划研究。另一方面是人工智能的学者,在1 9 5 6 聚集在 一起,组成了两个多月的研究组,讨论他们称为“人工智能( a i ,a r t i f i c i a l 9 电子科技大学硕士学位论文 i n t e l l i g e n c e ) ”的问题,这个名词,就是当时创建的。在6 0 年代末,学者们又研制 了更多的形式逻辑系统。 随机派主要是一些来自统计学专业和电子学专业的研究人员。在5 0 年代后期, 贝叶斯方法开始应用于解决最优字符的识别问题。 与此同时,出现了基于转换语法的第一个人类语言计算机处理的可严格检测的 心理模型,并且还出现了第一个联机语料库:著名的b r o w n 美国英语语料库,该 语料库包含1 0 0 万单词的语料,样本来自新闻、小说等多种题材。 遗憾的是,在1 9 6 6 年1 1 月,美国科学院成立的语言自动处理咨询委员会 ( a u t o m a t i cl a n g u a g ep r o c e s s i n ga d v i s o r yc o m m i t t e e ,简称a l p a c 委员会) 调查了 机器翻译的研究情况,并发布了著名的语言和机器报告,该报告称经过调查, 机器翻译准确率差,效率低下,而且比人工翻译的费用高得多,该报告还指出, 机器翻译研究遇到了难以克服的“语义障碍( s e m a n t i cb a r r i e r ) ”,因此继续发展机 器翻译得不偿失,“没有多少理由”对机器翻译研究给予大力支持。在a l p a c 报告 的影响下,以美国为首的许多国家的机器翻译研究走向另一个极端,开始陷入低 潮,在世界范围内,机器翻译的热潮消失了,出现了空前萧条的局面,机器翻译 研究受到了沉重的打击。 随着机器翻译研究的发展,这个报告的影响越来越小,在国际上,自然语言处 理使用非常广泛的两本教科书中【1 2 】【1 3 】,甚至对这份报告不屑一提。也有研究者认 为,“该报告错误地建议政府和企业不要再对m t 进行更多投资了【1 4 】,。 1 。2 3 四个范型:1 9 7 0 1 9 8 3 在这个时期,自然语言处理取得了令人瞩目的进展,一系列的研究堪称这一研 究领域的典范,我们称之为“范型”( p a r a d i g m ) 。这些范型的研究在自然语言处理 领域的研究中仍然处于支配地位。 随机范型( s t o c h a s t i c p a r a d i g m ) 在语音识别的算法中起着重要的作用,其中特 别重要的是隐马尔可夫模型和比喻为噪声信道与解码的模型。这些研究的主要贡 献来自,i b m 华生研究中心、卡内基梅隆大学和a t t 贝尔实验室。 基于逻辑的范型( 1 0 9 i c - b a s e dp a r a d i g m ) 起始于c o l m e r a u e r 和他的同事们关于q 系统和变形文法的工作。 基于自然语言理解的范型起始于t e r r yw i n o g r a d 的s h r d l u 系统,这个系统 能够模拟一个嵌入玩具积木的机器人的行为。w i n o g r a d 模型还清楚地说明,句法 剖析也应该重视语义和话语的模型。这个范型到研究,可以看作是对语言和机 1 0 第一章绪论 器报告中“语义障碍 的回应,来自耶鲁的研究团队还使用了基于网络的语义 理论,并且在他们的表达式中开始引进f i l l m o r e 关于格角色的概念。 话语模型范型( d i s c o u r s em o d e lp a r a d i g m ) 集中探讨了话语研究中的4 个关键领 域。g r o s z 和她的同事们研究了话语中的子结构和话语焦点;也有一些研究者开始 研究自动参照消解( a u t o m a t i cr e f e r e n c er e s o l u t i o n ) 。在基于逻辑的言语行为研究中, 建立“信念一愿望一意图”框架。 1 2 4 经验主义和有限状态模型的复苏:1 9 8 3 1 9 9 3 在这期间,自然语言处理又回到了5 0 年代末到6 0 年代初几乎被否定的有限状 态和经验主义这两种模型上。这两种模型之所以出现这种复苏,其部分原因是因 为过去c h o m s k y 对于s k i n n e r 的“语言行为 的非常有影响的评论在这时遭到了 理论上的反对。 特别值得一提的是第二种模型,即所谓“重新回到经验主义”,这种模型受到 了四个范型中的随即范型的强烈影响,并且把这种自然语言的处理方法还传播到 了词性标注、句法剖析、附着歧义的判定以及从语音识别到语义学的联接主义方 法的研究中去。 1 2 5 不同领域的合流:1 9 9 4 至今 从2 0 世纪的最后五年开始,自然语言处理这个领域发生了很大的变化。主要 表现在三个方面:首先概率和基于语料库的方法几乎成为自然语言处理的标准方 法,这各个分支研究课题的算法全都开始引入概率;其次,由于计算机硬件的摩 尔式发展,使得更为众多的研究人员,可以进行方便的实验和商品话的开发;最 后,互联网的发展使得进一步加强基于语言的信息检索和信息抽取的需求变得更 加突出。研究人员不拘于固定的某种范型,开始进行大量融合和开创性的研究。 从自然语言处理的全球顶级会议a c l 上近两年发表的论文我们可以看到这个 领域如今的活跃程度,2 0 0 7 年各领域论文分布如下【1 5 】: 表1 - 1a l l 0 7 论文情况 领域收到论文数量录用论文数量录用百分比 篇章、对话和语用 5 81 62 8 句法、句法分析和形式语法 6 3 1 52 4 词典、本体和资源建设 6 31 1 1 7 词法相关 6 01 32 2 自然语言处理中的机器学习 6 71 6 2 4 和算法 电子科技大学硕士学位论文 信息提取、信息检索和问答 7 0 1 52 1 机器翻译 6 51 52 3 语音、语言模型 4 192 2 语言生成和文摘 4 8 1 02 1 语义相关 5 4 1 22 2 总计 5 8 81 3 l2 2 3 2 0 0 8 年各领域论文分布如下【1 6 1 : 表1 - 2a c l 0 8 论文情况 领域收到论文数量录用论文数量 录用百分比 对话( d i a l o g u e ) 1 64 2 5 篇章( d i s c o u r s e ) 1 23 2 5 评、狈u ( e v a l ) 1 332 3 信息抽取( 正) 3 482 4 信息检索( r r ) 2 8 93 2 语言生成( l a n g u a g e g e n ) 1 33 2 3 语言资源( l a n g u a g e r e s ) 1 232 5 机器翻译( m t l 8 72 02 3 多模态( m u l t i m o d a l ) 5 24 0 音韵学形态学( p h o n m o r p h ) 3 2 82 5 自动问答( q a l 1 13 2 7 语义( s e m a n t i c s ) 6 31 82 9 情感( s e n t i m e n t ) 2 031 5 语音( s p e e c h ) 1 34 3 1 统计机器学( s t a t m l ) 4 292 2 文摘( s u m m a r i s a t i o n ) 2 152 4 句法( s y n t a x ) 5 4 1 42 6 总计 4 7 61 1 92 5 1 3 论文的研究内容与组织 1 3 1 课题的意义 机器翻译是自然语言处理的一个重要课题,随着互联网的发展,社会越来越需 要找到一种快捷的方式沟通不同语言的人群。美国国家标准技术研究院( n i s t , n a t i o n a li n s t i t u t eo f s t a n d a r d sa n dt e c h n o l o g y ) 更是设立了每年一度的机器翻译竞赛 m j ,包括我国在内的众多国家,也都有每年一度的专题学术会议。一大批公司的 研究院,以及世界著名大学的研究人员在这个领域不断推进,向着无障碍多语交 流前进,但是当前机器翻译仍然面临着诸多挑战,比如词语对齐、词序调整、语 义评价等,本文正是在这样的背景下产生的,提出并实现了一种更有效的对齐框 架来提高基于实例机器翻译的质量。 1 2 第一章绪论 1 3 2 本文的主要工作 本文提出了一种新的用于基于实例机器翻译的对齐框架,这个框架旨在解决从 语料库例句对中更方便和有效的获取例句库中的信息,然后类比。具体来说做了 如下几项工作: ( 1 ) 提出了多层对齐框架模型,丰富了例句对的信息,对于词和短语层次上的 对齐不再简单通过“是或“否来判断关系,而是给出了三个不同强度的采信 概率; ( 2 ) 给出了使用这个框架进行机器翻译的类比原则和生成译文的方法; ( 3 ) 实现了这个多层对齐框架; ( 4 ) 实现一个基于这个框架的e b m t 系统; ( 5 ) 在较大规模语料库的基础上,给出这个对齐框架模型的对齐准确率和召回 率,也给出了对齐强度和相关性系数的准确率; ( 6 ) 给出使用这个框架的基于实例机器翻译系统的评测试验并进行了数据的分 析。 1 3 3 论文的组织 第二章是本文的基础和重点,简要介绍了已经存在的对齐方法,然后阐述了多 层对齐框架的构成,各个子层次的算法。 第三章阐述了如何使用这个框架进行e b m t 。 第四章是这个系统的实现描述,说明了从语料库开始构建一个系统的过程,包 括系统架构,各部分的组成,程序的接口。 第五章是评测试验,分为两个大项,一是对齐的评测;二是生成译文的评测。 第六章总结了我们研究工作的优缺点,并对未来的研究工作提出设想。 电子科技大学硕士学位论文 2 1 双语对齐 第二章多层对齐框架 双语对齐是双语语料库研究的基础环节,也是基于语料库机器翻译研究的关键 步骤。其中段落对齐和句子对齐,比较简单,而且研究得也很成熟。但是词语对 齐技术尤其是非相同语系的词语或短语级别的对齐,还存在着非常大的难度,而 且这是一个无法跳过的基础性技术,许多自然语言处理任务如基于统计的机器翻 译,基于实例的机器翻译,词义消歧,词典编纂等都需要双语语料库做到词语一 级的对齐。因此,词对齐技术的研究相当重要。 双语对齐就是找出源语言和目标语言在语言单位上的对应关系。其中有对应关 系的语言单位称为翻译单元或对齐单元。对齐按对齐单元可分为五大类:段落对 齐、句子对齐、词汇对齐、语块对齐和短语对齐。段落对齐、句子对齐属于粗加 工,它为词汇对齐、语块对齐和短语对齐服务。而词汇对齐为语块对齐和短语对 齐服务,是它们的预处理环节。 双语对齐的研究开始于上世纪八十年代。主要的研究方法分为两大类:基于统 计的方法和基于规则的方法。基于规则的方法般以双语词典为基础,先进行词 汇上的对齐。同时再辅以某些对齐规则。如认为长度相近的两个句子对译可能性 大;同源词的对译可能性大;包含对译词对多的一对句子或短语对译可能性大, 等等。规则方法比较直观,但它的描述局限于定性而不能达到定量,不够准确客 观。 基于统计的方法的核心是翻译模型。翻译模型几乎不使用任何先验的语言知 识,也可以说是没有对基于理性的研究成果加以利用,描述一个源语言句翻译成 个目标语言句的概率。翻译知识以概率形式存在于翻译模型的概率矩阵中。概 率矩阵是可以通过语料库训练得到的。翻译模型描述的翻译过程一般分为两步: 先进行语言单位的对齐,然后完成语言单位的转换。所以,翻译模型中实际隐含 了一个对齐模型,概率矩阵既是翻译模型的概率矩阵,也是对齐模型的概率矩阵。 词语对齐是一个很难的问题。汉语和英语是两种差异性非常大的语言,汉英之 间的词语对齐比印欧语言对之间的词语对齐具有更大的困难。汉英词语对齐,主 要的困难是: 1 4 第二章多层对齐框架 1 基于词汇共现的统计方法,对低频词对齐的把握不大,有数据稀疏的题。 2 同源词信息不足。英语和汉语属于不同语系,不像欧洲语言之间有许同源词 可以利用。 3 利用双语词典的方法,双语词典覆盖面有限,无法应付真实文本中灵的翻译 现象。另外双语词典中的多个义项会造成跟译文句子中多个匹配的歧异。 4 未登录词在语料库中和词典中常常信息不足。 5 汉语是没有单词分界标记的语言,因此词语对齐之前往往要对汉语文进行切 分,词语切分会带来切分错误,为词语对齐制造了更多的困难 6 部分对齐的问题,汉英互译中常常出现一个词翻译成多个词,多个词译成多 个词的现象,如何找出所有的互译关
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 三只小猪课件
- 2025-2030中国对羟基苯乙醇行业发展方向与前景动态预测报告
- 难点解析-北师大版8年级数学上册期末测试卷【综合题】附答案详解
- 大班语言教案特别的我
- 大班春天来了教案设计
- 大学生暑期房地产销售实习报告
- 小儿脾胃课件
- 外语翻译的工作简历模板
- 难点详解人教版7年级数学上册期末测试卷附答案详解【研优卷】
- 2025年重庆市中考物理真题(附答案)
- 2025年食品安全培训考试试题及答案
- 2025年长江证券港股通开通测试题及答案
- 2025西安亮丽电力集团有限责任公司招聘10人笔试备考题库及1套完整答案详解
- 2025河北唐山某国有企业单位招聘劳务派遣工作人员44人笔试参考题库附带答案详解(10套)
- 成都银行总行招聘考试真题2024
- 基孔肯雅热培训测试题含答案
- 小额贷款公司贷款五级分类办法
- 2025公卫执业医师考试试题(附答案)
- 医院药品质量管理课件
- 2025年上海市中考招生考试数学真题试卷(真题+答案)
- 16J914-1 公用建筑卫生间
评论
0/150
提交评论