(计算机软件与理论专业论文)汉英词语对齐技术研究.pdf_第1页
(计算机软件与理论专业论文)汉英词语对齐技术研究.pdf_第2页
(计算机软件与理论专业论文)汉英词语对齐技术研究.pdf_第3页
(计算机软件与理论专业论文)汉英词语对齐技术研究.pdf_第4页
(计算机软件与理论专业论文)汉英词语对齐技术研究.pdf_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

汉英词语对齐技术研究 摘要 词语对齐是跨语言自然语言处理领域的一个基本问题,许多基于双语语料库 的应用( 如s b m t 、e b m t 、w s d 、词典编纂) 都需要词汇级别的对齐。 以往词语对齐方法对双语词典在对齐中的作用的研究都不够深入。本文重点 研究利用由多部人读双语词典扩充双语词典的规模来改善对齐质量。在k e r 的基 于类的词语对齐方法研究和实践的基础上,提出了一个利用大规模双语词典进行 汉英词语对齐的方法。该方法利用双语词典计算的词语相似度,位置和词性信息 进行词语对齐,并通过对齐窗口得到了多对多的词语对应。用该方法建造的汉英 词语对齐系统,最终在中文句子平均单词数是2 4 8 ,英语句子的平均单词数为 3 4 5 的6 5 0 对中英语句子的测试集下,取得了准确率8 4 0 下召回率6 2 9 的结 果。 在对齐算法上,本文在下面几点上对k e r 的词语对齐算法做了改进和创新: 1 对k e r 的算法中相对位置偏移量的计算方式做了改进,并在开始对齐前 通过词语相似度选择对齐锚点来改善对齐质量。 2 提出对齐窗口的概念,通过在对齐过程中设置对齐窗口,可以找到多对 多的词语对应。 关键字:词语对齐、对齐窗口、人读双语词典、机读双语词典 摘要 r e s e a r c ho n c h i n e s e - e n g l i s h w o r d a l i g n m e n t d e n g d a n ( c o m p u t e r s o f t w a r ea n d t h e o r y ) d i r e c t e d b y l i uq u n w o r d a l i g n m e n t i sab a s i c p r o b l e m o f c r o s s - l i n g u a l n a t u r a l l a n g u a g e p r o c e s s i n g m a n yn l p t a s k sb a s e do nb i l i n g u a lc o r p u ss u c ha ss b m t , e b m t , w s d , a u t o m a t e dd i c t i o n a r ye x t r a c t i o nn e e dt oa l i g nw o r d s p r e v i o u s l yp r o p o s e dw o r da l i g n m e n tm e t h o d sp a yn o te n o u g ha t t e n t i o n t o b i l i n g u a ld i c t i o n a r y h e r eal a r g es c a l eb i l i n g u a ld i c t i o n a r ye n l a r g e db yi n t e g r a t i n g s e v e r a lh u m a n r e a d a b l eb i l i n g u a ld i c i t o n a r i e si st h em a i nc a u s et oi m p r o v et h ew o r d a l i g n m e n tr e s u l t ac h i n e s e e n g l i s hw o r da l i g n m e n ta l g o r i t h mb a s e do nb i l i n g u a l d i c t i o n a r yi si n t r o d u c e d i ti si n s p i r e db yk e r sm e t h o d n l i sm e t h o dm a i n l yd e p e n d s o ns i m i l a r i t ym e a s u r e db yb i l i n g u a ld i c t i o n a r y , r e l a t i v ed i s t o r t i o ni n f o r m a t i o na n d p a r t o f - s p e e c hi n f o r m a t i o nt oa l i g nw o r d s b ys e t t i n ga l i g n m e n tw i n d o w i ta c q u i r e s m a n y - t o m a n yw o r da l i g n m e n t s o nat e s ts e to f6 5 0t r a n s l a t i o ns e n t e n c ep a i r so f c h i n e s ea n de n g l i s h i nw h i c hc h i n e s es e n t e n c eh a s2 4 8w o r d si na v e r a g ea n d e n g l i s h3 4 5 t h ew o r da l i g n m e n ts y s t e mg e t sa r e s u l to f r e c a l l6 2 9 a tt h ep r e c i s i o n o f 8 4 0 o u r a l g o r i t h m i si m p r o v e do nk e r si nt h e s ea s p e c t s : 1 t h ec o m p u t a t i o no fr e l a t i v er e s t o r t i o no fk e ri si m p r o v e d ,a n dt h ei n i t i a l a l i g m n e n ta n c h o r sc h o s e nb yd i c t i o n a r y b a s e dw o r ds i m i l a r ) , i sa d d e dt o i m p r o v ea l i g n m e n t 2 p r o p o s e d ac o n c e p t o f a l i g n m e n tw i n d o w b ys e t t i n ga l i g n m e n tw i n d o w i n t h ea l i g n i n g p r o c e s s ,m a n y - t o - m a n y w o r da l i g n m e n t sc a nb ef o u n d k e y w o r d s :w o r da l i g n m e n t ;a l i g n m e n tw i n d o w ;h u m a n - r e a d a b l eb i l i n g u a ld i c t i o n a r y ; m a c h i n e - r e a d a b l e b i l i n g u a ld i c t i o n a r y 声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作 及取得的研究成果。就我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写过的研究成果。与我一同工 作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并 表示了谢意。 作者签名:砷再 日期:7 o o q , 7 莎 关于论文使用授权的说明 中国科学院计算技术研究所有权处理、保留送交论文的复印件, 允许论文被查阅和借阅;并可以公布论文的全部或部分内容,可以采 用影印、缩印或其它复制手段保存该论文。 作者龆砧冉导师签名刊砰吼砒7 5 第一章引言 第一章引言 计算机出现以后,用计算机处理人类语言,一直是人们追求的目标。自然 语言处理是研究如何利用计算机来理解和生成自然语言的一门交叉学科,它的 发展取决于计算机科学、语言学、人工智能、认知科学和心理学等一系列学科 的发展。当前,计算机软硬件发展水平已经为自然语言处理提供了良好的条件。 随着互联网的发展,网上信息大量涌现,但网上的信息大部分是以英语的方式 呈现,因此对于非英语国家来说,研究各种语言及其相互转换的自然语言处理 技术就相当重要。 随着电子文本的积累,许多语料库出现了。语料库中含有大量的真实文本 信息,从中可以提取信息用于自然语言处理。自从基于语料库的自然语言处理 方法提出以来,对基于语料库的自然语言处理技术的研究就日趋兴旺。 词语对齐技术是基于语料库的自然语言处理技术的基础技术,许多自然语 言处理任务如基于统计的机器翻译,基于实例的机器翻译,词义排歧,词典编 纂等都需要双语语料库做到词语一级的对齐。因此,词语对齐技术的研究相当 重要。 1 1 自然语言处理技术简介 自然语言是人类发展过程中自然产生、约定俗成的用于人类社会交际的语 言,如汉语,英语,法语,日语等。按照语言学上的一般分析,语言可分为如 下的一 圈1 1 语言的层次结构 汉英词语对齐技术研究 早在计算机问世以前,人们就试图通过计算的或机械的方式来解决只有人 才能完成的某些语言处理功能,如语言的自动翻译。二十世纪四十年代计算机 作为扩展人类智力的工具问世之后,掀起了一个全世界范围内的利用计算机进 行语言翻译研究的热潮。通过计算机来模仿人类语言处理能力的努力,在计算 机科学和语言学中都产生了专门的分支。自然语言处理( n a t u r a ll a n g u a g e p r o c e s s i n g , n l p ) 和计算语言学( c o m p u t a t i o n a ll i n g u i s t i c s ) 。 自然语言处理研究如何利用计算机来理解和生成自然语言,计算语言学主 要研究通过建立形式化的计算模型来分析、理解和处理自然语言,二者的本质 是基本相同的,区别可能仅在于自然语言处理更注重实践,而计算语言学较重 视理论【刘海涛,2 0 0 1 】,因此自然语言处理和计算语言学常常通用,本文也不 作区分。 总的来说,自然语言处理主要研究的问题包括: 词汇形态分析( m o r p h o l o g i c a la n a l y s i s ) 语法分析( s y n t a c t i ca n a l y s i s ) 语义表达( s e m a n t i cd e s c d p f i o n ) 文本生成( t e x tg e n e r a t i o n ) 语言歧义研究( l a n g u a g ed i s a m b i g u a t i o n ) 语言的机器学 - ( l a n g u a g e m a c h i n et e a m i n g ) 等等。 随着计算机技术的发展,目前的计算机软硬件技术已经为自然语言处理提 供了良好的计算平台。互联网的广泛应用,网上信息的大量涌现,对自然语言 处理技术提出了更多需求和挑战,同时也为自然语言处理技术的研究提供了丰 富的资源。 目前自然语言处理技术主要应用于: 信息检索( i n f o r m a t i o nr e t r i e v a l ) 语音识别( s p e e c hr e c o g n i t i o n ) 机器翻译( m a c h i n et r a n s l a t i o n ) 自动标引、自动文摘、自动信息抽取等领域。 自然语言处理的研究经过了曲折的发展过程,但到目前为止,已经取得了 许多的理论和技术。自然语言处理有两种基本的研究方法:理性主义 ( r a n o n a l i s m ) 研究方法和经验主义( n p 试d s m ) 研究方法【翁富良,1 9 9 8 1 理性主义研究方法认为,语言人的很大一部分语言知识是生来具有的,由 遗传决定的。由于c h o m s k y 的内在语言官能理论( i n n e rl a n g u a g et a c u h y ) 被广 泛地接受,理性主义研究方法从6 0 年代到8 0 年代中期主宰了自然语言处理以 及语言学和心理学的研究。在实际的自然语言处理中,理性主义的观点表现为 通过人工编写知识库和推理系统来创建一个自然语言处理系统,即通常将自然 语言用一套符号系统来表达和分析。由于用于自然语言处理的符号系统通常表 2 第一章引言 现为规则的方式,因此理性主义研究方法在自然语言处理中又常常称为基于规 则的方法( r u l e b a s e dm e t h o d ) 。 经验主义研究方法与理性主义研究方法正好相反,它认为人的知识只是通 过感官输入,经过一些简单的联想( a s s o c i a t i o n ) 和通用化( g e n e r a l i z a t i o n ) 操作而 得到的。人并非与生俱有一套有关语言的规则和处理方法。在实际的自然语言 处理中,经验主义的研究方法通常表现为从大量的实际语言数据中获取语言的 知识。由于大量的语言数据常常以语料库( c o r p u s ) 的形式存在,因此经验主义 研究方法在自然语言处理中又常常称为基于语料库的方法( c o r p u s b a s e d m e t h o d ) 。经验主义的研究方法从2 0 年代到5 0 年代主宰了语言学、心理学以及 自然语言处理的研究,并在8 0 年代中期以后重新受到了重视。 理性主义研究方法与经验主义研究方法的主要区别在于以下几点: 第一,理性主义主要研究人的语言知识结构,实际的语言数据只提供了这 种知识结构的间接证据。而经验主义将实际的语言数据作为直接研 究的对象。 第二,理性主义通过一系列语言原则来描述语言,满足这些原则的语句才 是合法的。而在经验主义中,语言事件被赋予了概率,并无合法不 合法之说,只有常见不常见之分。 第三,理性主义是通过研究特殊的语言现象来得到关于人的语言能力的 认识,而这些语言现象在实际的应用中并不一定很常见。经验主义 则偏重于语言语料中实际应用的语言现象的表述。 理性主义方法和经验主义方法各有优缺点,表现在自然语言处理中,可以 简单地概括为:理性主义方法表达直观、深刻,易理解,概括性好,但一致性 和健壮性差;经验主义方法反映客观,一致性和健壮性好,但表达肤浅,不易 理解,并且需要大量的语言数据。 由于理性主义方法和经验主义方法可以互相取长补短,所以将理性主义和 经验主义相结合成了当前自然语言处理中的一种研究趋势,具体表现为,许多 研究开始着重于从大规模语料库中抽取语言知识的规律,然后利用这些规律来 指导自然语言处理的过程【刘颖,1 9 9 8 】。 1 2 语料库 语料库中包含大量语言文本信息,从语料库中获取的语言知识能够反映语 言的客观规律。 9 0 年代初i b mw a t s o nr e s e a r c hc e n t e r 的b r o w n 等人提出了统计机器翻 译模型,其数学推导严密,并且依赖从双语语料库中自动抽取翻译知识进行翻 译,这与以往靠人工编写规则的机器翻译方法完全不同。b r o w n 等人的基于语 汉英词语对齐技术研究 料库的统计机器翻译方法的研究引起了人们对语料库研究的广泛兴趣之后许 多自然语言处理领域的研究者对语料库的建设和利用进行了相当多的研究,到 目前为止,语料库在自然语言处理中已经占据了非常重要的地位。 按照所包含的语言的种类来分,语料库可分为单语语料库( m o n o l i n g u a l c o r p u s ) ,双语语料库( b i l i n g u a lc o r p u s ) 和多语语料库( m u l t i - l i n g u a lc o r p u s ) 。 单语语料库只含有一种语言的文本,因此在单语语料库上可以进行对该种 语言的词法、句法、语义、语用各层的研究。单语语料的建立相对来说是最容 易的,因为在历史的过程中,每种语言都积累了大量的文字资料,这些资料经 过整理和校对就可以成为语料库中的语料。目前许多国家已经有了规模很大的 单语语料库,例如英国牛津大学的b n c ( t h eb r i t i s hn a t i o n a lc o r p u s ) 是1 亿 词的广泛领域的既有口语又有书面语,代表现代英国英语的语科。清华大学 1 9 9 8 年建立了1 亿汉字的语料库【冯志伟,2 0 0 2 】。 双语语料库包含两种不同语言之间的互译对照信息,因此,它能够为双语 方面的自然语言研究提供强有力的支持。 双语语料库已经用在了这些领域: 语言教学( l a n g u a g ep e d a g o g y ) 语言学习( l a n g u a g el e a r n i n g ) 语言比较( l a n g u a g ec o m p a r i s o n ) 机器翻译( 包括s b 婀和髓m t ) 机器翻译系统的评估( e v a l u a t i o nt o o l sf o rm t ) 机助人译( m a c h i n e - a i d e dh u m a nt r a n s l a t i o n ) 双语词典和术语库的建立( l e x i c o g r a p h y ) 翻译知识的抽取( t r a n s l a t i o nk n o w l e d g ee x t r a c t i o n ) 词义排歧( w o r d s e n s ed i s a m b i g u a t i o n ) 等 许多国家和地区的众多研究机构都已经开始致力于双语库的建设,最著名 的双语语料库是加拿大的议会会议录( c a n a d i a nh a n s a r d s ) 。它是同时用英法两 种语言记录的会议记录,许多学者都是在它上面进行了双语语料的研究和实验。 c a n a d i a nh a n s a r d s 的i b m 选集( i b mc o l l e c t i o n ) 是2 8 7 万对句子对齐的英法 语料。汉英语料库相对于英法语料库来说,资源要少得多。目前已有的一些汉 英双语语料库包括:香港法律语料库( h o n gk o n gh a n s a r d ,用中英语同时记录 的香港立法委员会的议会记录,3 1 万旬对) ,中国科学院软件研究所的英汉双 语语料库:现有1 5 万对英汉双语对齐句子库【冯志伟,2 0 0 2 。中文语言资源联 盟中介绍中国科学院自动化所和计算技术研究所也分别收集了1 0 多万对句子 对齐的中英语料。 多语语料库含有3 种或三种以上语言互译对照信息,这类语料库比较少, 对它的研究也不多。 4 第一章引言 设在美国宾州大学的l d c 语言数据联合会( l i n g u i s t i cd a t ac o n s o r t i u m ) h t t p :w a v e 1 d c u p e n n e d u 致力于语言学数据的建设和收集,以及自然语言处理 工具的共享,已经收集了1 6 3 个语料库( 包括t e x t 的以及s p e e c h 的) ,共事 语言资源。中文语言资源联盟险;丛坠盟丛篮! 亟鱼q 踞丛y 戮地是致力于建设 和共享中文语言数据,目前已有多个语音库和单语,双语语料库。 i 3 词语对齐技术 双语语料库的建设和在自然语言处理的运用,所需要的最重要的技术是对 齐技术。所谓对齐,就是从互译的文本中找出其互译片断。根据要找的互译片 断的粒度不同,对齐分为篇章( s e c t i o n ) 、段落( p a r a g r a p h ) 、句子( s e n t e n c e ) 、 短语( p h r a s e ) 、单词( w o r d ) 、字节( b y t e ) 等不同的级别。不同的自然语言处理 应用需要不同级别的对齐。 篇章、段落、句子的对齐技术主要用于语料库的整理。目前整理好的双语 语料库,大部分是做到了句子级的对齐。对于许多基于双语语料库的应用( 如基 于统计的机器翻译( s b m t ) 、基于实例的机器翻译( e b m t ) 、词义排歧( w s d ) 、 词典编纂) 来说,仅有句子级别的对齐是不够的,必须进一步做到词汇级别的对 齐,即找出源文和译文文本间词汇级的对应翻译关系。 词语对齐按最终对齐结果可分为两类:一类是确定双语语料库中每个互译 片断( 如句子对) 内词与词的对应关系:另一类是从双语语料库中得到一部双 语词典。有人把第一类对齐叫做词语对齐,第二类对齐叫做翻译对获取。本文 要得到的对齐结果是第一类。这两类词语对齐虽然结果不同,但常常可以互相 利用:在双语语料库中确定了每一对互译片断中词语的对应关系,整个语料库 中就可以抽出所有的翻译对得到一部双语词典;从语料库中抽出的双语词典可 以用于对互译文本做词语对齐。 对于词语对齐,已有的方法有: 1 基于统计的方法,也称基于共现的方法。统计方法通过对大规模双语 语料库的统计训练,获得双语对译词的同现概率,以此作为对齐的基 础。b r o w n ,1 9 9 3 实现了基于统计机器翻译模型的词对齐,【d a g a n ,1 9 9 3 】 等对b r o w n 的模型进行了改进。【g a l e ,1 9 9 1 使用互信息和x 2 检验对齐 双语词汇。 f a n g ,19 9 4 1 采用k - v e t 方法进行词语对齐。 2 基于字符的方法。该方法以两种语言含有的同源词在词形上面的共同 之处进行词语对齐 c h u r c h ,1 9 9 3 1 。 3 基于语言学知识的方法。该方法以双语词典和同义词词典等语言学知 识作为词对齐的基础。盼r ,1 9 9 7 、【王斌,1 9 9 9 等根据语义类实现词 对齐。h u a n g 2 0 0 0 腑言学比较的方法进行词对齐。 汉英词语对齐技术研究 4 各种方法的综合。 t i e d e m a n n ,2 0 0 3 】基于线索的词语对齐方法。 k e r , 1 9 9 7 1 和 h u a n g ,2 0 0 0 虽然以语言学知识为词语对齐的着手点,但实际 上用了统计的方法,用了语言学知识, h u a n g ,2 0 0 0 】也用了基于字符 的方法。 词语对齐是一个很难的问题。汉语和英语是两种差异性非常大的语言,因 此汉英之间的词语对齐比印欧语言对之间的词语对齐具有更大的困难。 汉英词语对齐,主要的困难是: 1 基于词汇共现的统计方法,对低频词对齐的把握不大,有数据稀疏的闯 题。 2 同源词信息不足。英语和汉语属于不同语系,不像欧洲语言之间有许多 同源词可以利用。 3 ,利用双语词典的方法。双语词典覆盖面有限,无法应付真实文本中灵活 的翻译现象。另外双语词典中的多个义项会造成跟译文句子中多个词 匹配的歧异。 4 ,未登录词在语料库中和词典中常常信息不足。 5 汉语是没有单词分界标记的语言,因此词语对齐之前往往要对汉语文本 进行切分,词语切分会带来切分错误,为词语对齐制造了更多的困难。 6 部分对齐的问题。汉英互译中常常出现一个词翻译成多个词,多个词翻 译成多个词的现象,如何找出所有的互译关系是很难的问题。 目前,汉英或英汉词语对齐能达到的水平是: 表1 1 目前汉英或英汉词语对齐技木达到的水平 试验测试集准确率召回串或覆盖率 【趾1 9 9 7 】 4 1 6 对训练库之外的句子对9 0 o 8 8 2 旺斌一1 9 9 9 计算帆专业文献中抽取的2 0 0 对句子8 8 9 5 8 9 【吕雅娟,2 0 0 1 】 中学大学英语课本3 万旬对8 0 8 7 7 8 7 , 【w a n g , 2 0 0 h 通用领域的1 0 0 0 对句子 9 8 3 6 6 2 2 1 1 4 本文的研究背景及思路 本文的研究背景 i 英语是目前大部分文本信息存在的方式,对于汉语使用者来讲,针对 汉英的跨语言自然语言处理技术仍然是最为重要的研究课题。 6 第一章引言 2 单词对齐是基于语料库的机器翻译( s b m t , e b m t ) ,词义排歧( w s d ) , 词典编纂等的基础,因此对单词对齐技术的研究和系统的开发就相当 重要。 3 汉英词语对齐的难度比较大,目前的汉英词语对齐达到的效果还不够 好。 本文的研究工作期望达到以下目标: 1 建立一个汉英词语对齐系统,能够对句子对齐的汉英互译文本对进行 词语对齐,为基于双语库的n l p 任务如s 1 3 m t 和e b m t 服务。 2 研究词语对齐的方法,充分利用现有的资源进行汉英词语对齐,解决 词语对齐过程中出现的问题,提高词语对齐的准确率和召回率。 为达到上述目标,本文按下列步骤展开工作: 1 收集和整理能够用于词语对齐的工具和资源,如词性标注器、词典、 语料库等。 2 确定采用的工具、资源和方法。 3 手工建立一个词语对齐的语料库以评价词语对齐的结果。 4 根据采用的工具、资源和方法建立词语对齐系统。 5 根据词语对齐系统对齐结果的情况分析可以改进的地方并进行改进。 本文的组织如下: 第一章是引言部分,主要介绍自然语言处理技术、语料库技术、词语对齐 技术的基本情况以及本文的研究内容。 第二章对已有的各种词语对齐方法及其特点进行了介绍和分析。 第三章介绍基于双语词典的词语对齐方法及其扩展。 第四章是给出了试验和结果分析。 第五章是结论和展望。 汉英词语对齐技术研究 第二章词语对齐方法综述 词语对齐是在互译的文本上寻找以词为单位的翻译对应。词语是最小的语 法单位,许多基于双语语料库的自然语言处理任务如( s b m t ,e b m t ,w s d , 词典编纂) 都需要词语级的对齐。对词语对齐,不同的角度有不同的方法。人 们常常从对已有对齐方法的总结和归纳中得到新的词语对齐方法的灵感。本章 介绍已有各种词语对齐方法,以及这些方法的特点。 2 ,1 词语对齐的形式化定义 词语对齐就是在互为翻译的文本中寻找以词为单位的翻译对应。 形式地,假设汉语句子c = c l c 2 c 。和英语句子e = e l e 2 e i i 互为翻译, m ,n 是c 和e 的长度( 单词个数) 。 s e t c = , i c i ,i s 毗& e s e r e ) s e t a = l s e t & 和 在c 和e 中有互译 关系1 称作一个连接( c o n n e c t i o n ) 。s e t 是c ,e 词语对齐的结果。 一个汉荚词语对齐的例子: 其中, s e t c = , , , , , s e t e = , p r o v i n c e 。s , , , , , , , 词语对齐之前: s e t a = 巾 词语对齐以后: s e t a = , , , , , , , , ,) 8 第二章词语对齐方法概述 2 2b r o w n 的统计机器翻译模型 研究词语对齐的方法,就不得不首先提到i b m 的b r o w n 等人的用统计的 方法进行机器翻译( s m t ) 的研究 b r o w n ,1 9 9 0 。s m t 的方法,可以理解为一 个词到词( w o r d b y w o r d ) 的模型,该模型由两个子模型组成:语言模型和翻 译模型。翻译模型用于将源文和译文中的单词匹配起来,是一个词语对齐的模 型,后来的许多对双语语料库的研究包括词语对齐的研究都是源于b r o w n 等人 开始的基于双语语料库的统计机器翻译和词语对齐模型的研究。 b r o w n 等人的统计机器翻译模型把源文s 到译文t 的翻译看成是t 经过某 个噪声信道畸变成s ,然后通过s 恢复t 的过程。 图2 1 机器翻译的噪音信道模型 于是最可能的译文为: t = a r g m a x p “r i s ) = a r g m a x p r ( t ) p r ( s i t ) ( 2 1 ) rr 其中,p r o ) 粕f 为语言模型( l a n g u a g em o d e d ,p f f s i t ) 称为翻译模型 ( t r a n s l a t i o nm o d e l ) , 翻译模型p r ( s l v ) 能j 概率用词语对齐的方法计算: p r ( s i7 ) = p r ( s ,a l 丁)( 2 2 ) - 口a a 是t 和s 的一个词语对齐,它是t 中每一个单词翻译成s 中的零个、一 个或者多个词的对应关系。a 是所有组合上可能的对齐的集合。 用词语对齐的观点,对翻译模型p r o b ( s t ) ,b r o w n 提出了5 个复杂度递增 的计算模型,被称为i b m 模型或者b r o w n 模型。这几个模型可以总结为:翻 译模型p r o b ( s i t ) 实际上是t 中的一个词到s 中的零个、一个或者多个词的翻译 概率的联结过程,而这种词到词的翻译概率又取决于以下三种概率( 不同模型取 决于不同概率的组合) : 直译概蓦g ( t r a n s l a t i o np r o b a b i l i t y ) p r o b ( s j l t i ) :表示词t i 直接翻译成s j 的概 率。 繁殖概率( f e r t i l i t yp r o b a b i l i t y ) p r o b ( l ( s j ) i l ( t i ) ) :表示t i 中词的个数( l ( t ) ) 繁殖成s j 中的词的个数( l ( s j ) ) 的概率。在b r o w n 的模型中,只考虑t 中的一个 词的繁殖概率。 姗g ( d i s t o r t i o np r o b a b i l i t y ) p r o b ( i l j ,m ,1 ) :表示位置j 上的词翻译到位置 9 汉英词语对齐技术研究 i 上的概率。m ,l 为s ,t 的长度。 5 个模型中,模型1 和模型2 已经用在了词语对齐中。 模型1 仅考虑直译概率: p r ( s l 丁) = p r ( s ,口i r ) = g ,。n p r ( s ji i ) ( 2 3 ) a e ad e j = 1 c t , s 是一个常数。 模型2 在模型1 的基础上考虑了单词在翻译过程中位置的变化, 形概率。 p r ( s l 丁) = p r ( s ,aj 丁) = g ,。i - i p r ( s j l t ,) p r ( i i _ ,m ,) 引入了变 ( 2 ,4 ) 其中,c l s 是一个常数,由于s 中的每一个词仅翻译成t 中的一个或者零个词, 所以对于每个j ,有i 。p r ( i l m ,) = 1 。 这些概率是模型的参数,它们是通过对齐的双语语料库上训练得到的。 b r o w n 主要用了句子对齐的双语语料库训练翻译模型中各个参数值,训练这些 概率的方法用最大似然估计法。由于b r o w n 的翻译概率模型试图捕获语料库中 广泛的翻译现象,参数空间非常大,而且要反复迭代,因此被认为是在计算上 很昂贵的 m e l a m e d , 1 9 9 7 。概率参数得到后,词语对齐的过程就是一个求最大 概率值的搜索过程。 b r o w n 的统计机器翻译的研究为用统计的方法从双语语料库中提取翻译知 识进行机器翻译打开了思路和奠定了理论的基础。同时,引发了自然语言处理 领域的研究者们对双语语料库研究的热潮,催生了许多基于双语语料库的词语 对齐方法。 d a g a n 等人 d a g a n ,1 9 9 3 针对处理有更多噪声的文本进行词语对齐的目 标提出了一个词语对齐方法,该方法首先用c h u r c h 的基于字符串匹配的词语 对齐工具对语料库中的文本进行部分对齐,然后在部分对齐的基础上,采用了 一个基于b r o w n 模型2 的词语对齐模型进行英法词语对齐。他的模型主要对 b r o w n 模型2 进行了两点改动:( a ) 将整个语料库看作一个全局的对齐,取代了 句子级的对齐,( b ) 用一个小的偏移概率集合取代b r o w n 模型2 中跟位置有关 的变形概率。d a g a n 宣称该方法在对含有6 5 ,0 0 0 个词的英法噪声文本进行词语 对齐时,其中6 0 5 的词获得了正确的对齐,对于8 4 的词来说,它们到正确 匹配的偏移不超过3 。 第二章词语对齐方法概述 2 3 用统计工具计算双语词对关联强度的方法 g a l e g a l e ,1 9 9 1 分析认为b r o w n 等人的统计词语对齐方法参数估计要消耗 非常大的内存,而且对他们的最大似然估计( m l e ) 方法是否有充分的鲁棒性使 得其他人的试验也能可靠地重现估计出来的概率值有疑问。因此g a l e 等人提出 了替代的算法。他们通过对双语语料库中词对出现频度的联立表计算一种似于 x 2 统计量的m 2 量的方法,根据0 2 值判断词对之间互相关联的强度。 举例说明其具体的过程: 在n = 8 9 7 0 7 7 个法英互译的文本区域中,根据英语单词h o u s e 和法文单词 c h a m b r e 的出现频度,建立( h o u s e , c h a r n b r e ) 联立表: 表2 1 ( c h a m b r e ,h o u s e ) 出现频率的联立表 上表中,数字的意义是: a 2 f r e q ( h o u s e ,c h a m b r e ) = 3l ,9 5 0 b 2 f r e q o a o u s e ) f r c q o a o u s c , c h a m b r e ) = 1 2 ,0 0 4 c 2 f r e q ( c h a m b r e ) - f t e q ( h o u s e ,c h a m b r e ) = 4 ,7 9 3 d = n a - bc 8 4 8 ,3 3 0 于是,庐2 = 面丽( 习a d - 两b e ) 而2 丽= 。6 2 ( 2 5 ) 由于中2 值为o 6 2 ,是一个相当高的值,所以认为( h o u s e ,c h a m b r e ) 有很 强的关联度,是互译的词。 通过该方法,对8 0 0 个测试集句子中的6 1 的词,获得了9 5 的正确率。 f u n g 用k - v e c 的方法将要挑选的词对的在例旬中的出现投射到k 维的二进 制向量上去,然后根据两个向量建立词对之闻的联立表,通过计算互信息计判 断词对互译的可能性f l u n g ,1 9 9 4 。 例如,对于英语单词f i s h e r i e s 和法语单词p e c h e s 和l e c f i o n s ,要判断 ( f i s h e r i e s ,p c h e s ) 和( f i s h e r i e s ,l e c t i o n s ) 是否是互译的词。将语料库中的英语文本 和法语文本分别分成1 0 个片断,对f i s h e r i e s 建立一个l o 维的二进制向量v f , 向量的第i 维表示f i s h e r i e s 是否在英语文本的第i 个片断出现,同理对法语单词 p e c h e s 建立l o 维的二进制向量v 。,对法语l e c t i o n s 建立l o 维的二进制向量v i 于是得到: 汉英词语对齐技术研究 v f 。v d2 v l = 根据f i s h e r i e s 和p e c h e s 在1 0 个片断中的出现,建立联立表: 表2 2 f i s h e r i e s 与p f i c h c s 的联立表 根据l e c t i o n s 和f i s h e r i e s e 在1 0 个片断中的出现,建立联立表: 表2 3f i s h e r i e s 与h t i o n s 的联立表 计算向量之间的互信息 脚( _ ,巧) = l o g :爵夏p r 万o b 万( v 丙i , 磊v p 而) 其中 p r 0 6 ( _ ,_ ) = 再番而 p r d 6 ( _ ) = 羔 ( 2 6 ) ( 2 7 ) ( 2 8 ) p r 似o ) = 百蔫b ( 2 9 ) 咖,c , d 在联立表中的位置和( c l 擅m b 嘴,h o u 嘲联立表自q 位置一样。 于是,m i ( v f ,v p ) = l 0 9 2 5 :2 。3 2 b i t s , 意味着联合概率是随机的5 倍,而m l ( v f , v i 产l 0 9 2 0 ,意味着联合概率远小于随机的概率,所以( f i s h e r i e s ,妒c h e s ) 更有可能 互为翻译。 由上面g a l e 通过联立表计算中2 值和f u n g 通过k v e c 建立联立表计算互信 息来判断双语词对关联强度( g t r c n g l l io f8 s c i a t i o n ) 的过程我们可以看到,这种 基于语料库中共现( c o o c u f n c e ) 的词语对齐方法对词语在语料库中出现的频度 的依赖性很强,而语料库中存在着大量的出现频度很小的单词,因此词语对齐 的准确率可以达到很高( 9 5 ) ,而召回率不是很高6 1 g a l e ,1 9 9 1 。 第二章词语对齐方法概述 2 4 基于同源词的词语对齐方法 c h u r c h 在有噪音的文本上进行词语对齐,提出了一个基于字符的对齐方法 c h a ra l i g n c h u r c h ,1 9 9 3 1 。c h a r 主要工作在具有有同源词 )的_align(congnate 互译文本上,因为同源词的字符串有很多相似的字符组成,通过对互译文本进 行字符上的对齐路径搜索,就得到了匹配的词语。 由于基于同源词的词语对齐方法对汉语和英语这两种差别很大,没有同源 词的语言不适用,所以我们就不详细叙述了。 2 5 基于类的词语对齐方法 k e r k e r , 1 9 9 7 1 分析了b r o w n 以及b r o w n 之后的g a l e 等人提出的各种用统 计的方法从双语语料库中获取双语词对的方法之后,发现这些方法即使在大的 双语语料库上训练,也只能得到有限的词汇覆盖率( c o v e r a g e ) ,而对齐的语料 库对自然语言处理任务来说要有用的话,覆益率要在6 0 以上,为此即使牺牲 一点点准确率也是值得的。 相对于基于词的词语对齐方法,k e r 提出了一个基于类的词语对齐方法, 通过对两种语言的单词分别用两种同义词词典进行归类,在一个规模不大 ( 2 5 0 0 0 旬对) 的句子对齐的语料库上用贪婪学习的方法自动抽取同义词词类 的对应规则( 源语言的同义词类和译文语言的同义词类的对应关系) 然后把语 料库上统计的同义词词类对应规则的信息用于词语对齐。并且为了获得更高的 覆盖率,他们还引入了额外的知识资源双语词典。k e r 的方法据说是克服 了基于词的单词对齐方法覆盖率不高的阿题,在4 1 6 句训练库之外的测试集上, 取得了准确率9 0 0 下,覆盏率8 8 ,2 0 , 6 的英汉词语对齐结果。 基于类的词语对齐方法跟基于词的词语对齐方法的不同在于:从语料库中 统计的是同义诃词类的翻译知识,而同义诃词类的翻译知识可以用到同义词类 中包含的每一个词上。这样就克服了基于词语的统计方法得到的知识仅限于具 体的词到词的翻译而导致的词语覆盖面不足的问题。 k e r 的基于类的词语对齐研究虽然得到了好的对齐效果,但其方法能否推 广到其它语言之间的词语对齐以及能否很方便的用其它同义词词典替代而取得 好的结果则值得商榷。 h u a n g h u a n g , 2 0 0 0 根据k e r 的方法进行了基于类的中一朝词语对齐试验, 但试验结果远没有k e r 的好。他们认为主要原因是用d i c e 系数计算中一朝词语 的相似度时,噪声比在英一中词语对齐时严重。这主要涉及基于类的词语对齐 方法中双语词典的问题。 我们曾经用w o r d n e t 中抽出的英语同义词词类和同义词词林中的中文 汉英词语对齐技术研究 同义词词类配合进行基于类的英汉词语对齐的试验,发现我们不能取得k e r 那 样好的结果。 w o r d n e t 对英语同义词的分类更加准确,细致,收录的词也更加全面,但 太细,使得w o r d n e t 基本类( s y o s e t ) 的数量非常庞大( w o r d u e t l 7 1 光名词s y s n s e t 就有7 5 8 0 4 个) ,需要合并词类。由于w o r d n e t 对不同词性的英语单词的组织结 构不一样,所以合并词类时,对不同的词性合并采用的方法不同,总的来说自 动合并的词类不如k e r 用的同义词词典l l o c e 中的词类准确,粗细适度。因 而从语料库中抽取的同义词词类的对应规则由于规则中的英语词类太粗或者太 细而根本对英汉词语对齐起不到多大的作用。我们在1 0 0 对句子对齐英汉句子 对上试验( 日常生活用语,英语句子的平均长度是8 2 ,中文句子的平均长度是 7 4 ) ,在准确率8 6 3 时,召回率为7 5 9 ,召回率远远没有k e r 的高。 k e r 进行的基于类的英汉词语对齐试验选用的英语同义词词典l l o c e ( l o n g m a n l e x i c o n o f c o n t e m p o r a r y e n g l t s h ) ,与中文同义词词典同义词词林 虽然分类体系不一样,但都有3 层的结柯,而且每一层

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论