(计算机科学与技术专业论文)基于语料库的无词典英汉名词对齐.pdf_第1页
(计算机科学与技术专业论文)基于语料库的无词典英汉名词对齐.pdf_第2页
(计算机科学与技术专业论文)基于语料库的无词典英汉名词对齐.pdf_第3页
(计算机科学与技术专业论文)基于语料库的无词典英汉名词对齐.pdf_第4页
(计算机科学与技术专业论文)基于语料库的无词典英汉名词对齐.pdf_第5页
已阅读5页,还剩76页未读 继续免费阅读

(计算机科学与技术专业论文)基于语料库的无词典英汉名词对齐.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

j - 独创性声明及关于论文使用授权的说明 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人 已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构的 学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示了谢意。 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名避 导师签名:鲤日期:二尘幽 摘要 摘要 随着计算机和互联网的发展,在自然语言处理领域,以双语( 或多语) 平行 语料库为基础的应用日益增多。除机器翻译方面的应用之外,平行语料库的建 设对于双语词典编纂、词义消歧和跨语言信息检索也具有重要价值。 在平行语料库的加工中,研究不同级别的对齐技术是一个核心课题。平行 语料的对齐不仅是通过平行语料库获取一些语言知识的必要前提,也是基于实 例的机器翻译中实例库构建不可缺少的关键环节。 据统计有百分之五十的短语是现有词典资源上查不到的,其中大部分是名 词短语,包括一些专业术语,这部分短语更新也较快,因此名词短语的双语对应显 得更为重要。 本文提出了一种在汉英双语语料库句子对齐的基础上,基于语料库的无双 语词典的汉英名词短语划分和对应的方法。它把自然语言的句子形式化地表示 为集合,通过集合的交运算和差运算实现单词对齐,同时还考虑了词序和重复 词的影响。该模型不仅能对齐高频单词,而且能对齐低频单词,对未登录词和 汉语分词错误具有兼容能力。该模型几乎不需要任何语言学知识和语言学资源, 使语料库方法可独立应用。实验表明,同质语料规模越大,词对齐的正确率和 召回率越高;分词效果越好,正确率和召回率越高。 此外,由于分词效果会直接影响对齐效果,所以,本文也实现了一个n 一 最短路径分词方法。 关键词语料库;机器翻译;无双语词典;汉英名词对齐;n 最短路径分词 北京工业大学工学硕七学位论文 曼曼皇曼曼曼曼! ! 皇! ! 曼! 皇鼍曼曼曼! 皇曼曼曼皇曼! 皇! 曼曼曼曼毫苎! ! ! ! ! 曼曼! ! 皇曼鼍! ! ! ! ! ! ! 篡曼! ! i ;i i 皇! 皇! 皇曼鼍! 詈曼! 皇詈曼曼 a b s t r a c t a bs t r a c t w i t ht h ed e v e l o p m e n to fc o m p u t e ra n di n t e r n e tt e c h n o l o g y , a p p l i c a t i o n sb a s e d o nb i l i n g u a l ( o rm u l t i l i n g u a l ) p a r a l l e lc o r p u si si n c r e a s i n gi nn a t u r a ll a n g u a g e p r o c e s s i n g i na d d i t i o nt om a c h i n et r a n s l a t i o na p p l i c a t i o n s ,t h eb u i l d i n go ft h e p a r a l l e lc o r p u s i sa l s oo fg r e a tv a l u ei nb i l i n g u a ll e x i c o g r a p h y , w o r ds e n s e d i s a m b i g u a t i o na n dc r o s s l a n g u a g ei n f o r m a t i o nr e t r i e v a l t h es t u d yi na l i g n m e n tt e c h n o l o g yo fd i f f e r e n tl e v e l si sac o r ei s s u ei nt h e c o r p u sp a r a l l e lp r o c e s s i n g p a r a l l e lc o r p u sa l i g n e d i sn o to n l yt h ep r e m i s ef o r a c q u i r i n gs o m eo ft h ek n o w l e d g ea b o u tl a n g u a g e s ,b u ta l s oa l li n d i s p e n s a b l ep r o c e s s o ft h ec a s eb a s eb u i l d i n gi nc a s e b a s e dm a c h i n et r a n s l a t i o n a c c o r d i n gt os t a t i s t i c s ,h a l fo ft h ep h r a s em i g h tn o tb ef o u n di nt h ed i c t i o n a r y e x i s t e d m o s to fw h i c ha r en o b np h r a s e s ,i n c l u d i n gs o m et e c h n i c a lt e r m s ,u p d a t e di n t i m e s o ,t h eb i l i n g u a lc o r r e s p o n d i n go ft h e n o t l , np h r a s e sa r em o r ea n dm o r e i m p o r t a n t t h i st h e s i sa d v a n c e sam e t h o do fc h i n e s e e n g l i s hn o u np h r a s ec o r r e s p o n d e n c e a n d s e g m e n t a t i o n , w h i c hb a s e d o nc h i n e s e e n g l i s hs e n t e n c e a l i g n e d ,a n d c o r p u s - b a s e dn o n c h i n e s e e n g l i s hb i l i n g u a l d i c t i o n a r y i t f o r m a l i z e sn a t u r a l l a n g u a g e si n t os e t s ,a n dt h ei n t e r s e c t i o na n dd i f f e r e n c eo f t h es e t st oi m p l e m e n tt h e w o r da l i g n m e n t a tt h es a m et i m e ,t h ee f f e c to fw o r do r d e ra n dr e p e t i t i o ni s c o n s i d e r e d t h i sm e t h o dc a l lb eu s e df o ra l i g n m e n to fb o t hh i g h f r e q u e n c yw o r d s a n dl o w f i e q u e n c yw o r d s ,a n di st o l e r a n tw i t hc h i n e s ew o r ds e g m e n t a t i o ne r r o r s a n du n k n o w nw o r d s t h et y p i c a lc h a r a c t e r i s t i co ft h i sm o d e li st h a ti tn e e d sf e w l i n g u i s t i ck n o w l e d g ea n dr e s o u r c e e x p e r i m e n t a lr e s u l t ss h o w t h a tt h el a r g e ri st h e h o m o g e n e o u sc o r p u ss c a l e ,t h eh i g h e rp r e c i s i o na n dr e c a l lr a t ec a l lb eo b t a i n e d a n dt h eb e t t e ri st h er e s u l to ft h ew o r ds e g m e n t a t i o n ,t h eh i g h e rp r e c i s i o na n d r e c a l lr a t ec a nb eo b t a i n e d i i i 北京工业大学工学硕士学位论文 i na d d i t i o n ,t h er e s u l t so fw o r d - s e g m e n t a t i o nw i l ld i r e c t l ya f f e c tt h ea l i g n m e n t , t h e r e f o r e ,w ea l s oi m p l e m e n t e dam e t h o do fw o r d s e g m e n t a t i o nn a m e dn - s h o r t e s t p a t h k e y w o r d s :p a r a l l e lc o r p u s ;m a c h i n et r a n s l a t i o n ;n o n - c h i n e s e - e n g l i s hb i l i n g u a l d i c t i o n a r y ;c h i n e s e e n g l i s h 。n o u n sa l i g n m e n t ;n s h o r t e s tp a t hw o r d s e g m e n t a t i o n 目录 目录 摘要 i a b s t r a c t i i i 第1 章绪论1 1 1 研究背景1 1 2 研究意义2 1 3 相关研究综述3 1 3 1 语料库建设发展概况3 1 3 2 双语语料库的对齐技术5 1 4 平行语料库和短语对齐在机器翻译中的应用8 1 4 1 机器翻译简史8 1 4 2 机器翻译分类:9 1 4 3 平行语料库及短语对齐在e b m t 中的应用1o 1 4 4 本文结构1 4 第2 章汉英双语语料库词汇对齐研究1 5 2 1 引言- l5 2 2 词汇对齐研究概述15 2 2 1 词汇对齐的主要方法16 2 2 2 英汉双语词汇对齐需要解决的关键问题18 2 2 3 本章小结19 第3 章无双语词典的英汉名词对齐方法2 1 3 1 方法概述2 1 3 2 词对齐的形式化定义2 1 3 2 1 自然语言句子的形式化表示形式2 1 3 2 2 词对齐的相关概念2 3 3 3 词对齐的相关模型2 4 3 3 1 最小求交模型2 4 3 3 2 最小求差模型2 7 - 3 3 3 混合模型2 8 3 3 4 哑词表3 0 3 3 5 双向模型3 0 3 3 6 聚合模型3 0 3 3 7 词形转换31 3 4 分词应用3 2 3 4 1n :最短路径原理3 2 3 4 2n 最短路径分词方法3 6 3 4 3n 最短路径分词方法在名词对齐中的作用4 2 3 4 4 本章小结4 4 第4 章系统算法实现4 5 4 1 词对齐总体实现4 5 4 1 1 总体设计4 5 4 1 2 总体数据结构4 6 4 2 预处理4 7 4 3 单向词对齐算法4 7 4 4 本章小结4 8 第5 章实验结果讨论分析4 9 5 1 手动测试4 9 5 2 自动测试5 0 一 5 3 实验结论5 3 5 4 本章小结一5 3 一 结论5 5 一 参考文献一5 7 一 附录 攻读硕士学位期间所取得的研究成果6 9 致谢。 第1 章绪论 1 1 研究背景 第l 章绪论 近年来,随着全球经济一体化进程的加速,国家之间的相互依存程度不断加 强,不同国家、不同语种的人们之间的交流愿望也变得越来越迫切。然而在人们 的相互往来中,语言始终是一个大的障碍。同时,在二十一世纪的今天,信息技 术的发展也已经成为社会发展最重要的推动因素,而信息传播和交流的主要载体 是语言文字,尤其随着互联网的飞速发展,大量以不同语言表示的信息潮水般涌 来,语言屏障阻碍了人们对信息的高效利用。因此,突破语言障碍成为当今语言 信息处理研究领域最为紧迫的研究课题之一,而机器翻译技术正是解决上述问题 的有力助手。 机器翻译【l 】是二十世纪4 0 年代随着计算机技术的诞生而出现的新的研究领 域。它的主要目的是利用计算机实现一种自然语言翻译为另一种自然语言的过 程,从而把人类从繁琐的翻译任务中解放出来。随着信息技术的发展,机器翻译 逐渐成为信息科学研究的热点。近年来,随着计算语言学的研究突破,机器翻译 的研究也有了较大的发展。 传统的机器翻译系统中翻译知识使用规则的形式表示,而规则是由语言学家 手工编写的。虽然这种基于规则的应用系统在某些受限的领域中也曾获得过一定 程度的成功,但是由于自然语言的高度歧义性和海量特征,人们必须不断地添加 和修改规则来使用各种错综复杂的语言现象。这种手工编写规则的方式消耗大量 的人力、物力和财力,而当面对真实文本时,这些规则在描述语言的数量和精细 程度上却显得力不从心。随着机器翻译研究的发展,人们逐渐认识到这种人工的 翻译规则获取方式已经成为制约机器翻译研究发展的瓶颈。如何利用有效的手段 自动获取,表示和管理翻译知识引起国际学术界的广泛关注。 2 0 世纪8 0 年代以来,语料库语言学( c o r p u sl i n g u i s t i c ) 【2 】的崛起和迅速发展 令世人耳目一新。人们希望通过对大规模真实语料的调查来自动获取自然语言的 各种语言事实及语法规则。世界各国相继建立了数以百计的各种语料库,规模也 跃升到词次数以亿计,如八十年代2 0 0 0 万词次的英国c o b u i l d 语料库,九十年 代1 0 亿词次的美国计算语言学学会的a c l d c i 语料库和英国牛津文本档案库 o t a 等等。通过对这些语料库进行深层次的加工、统计和学习,自然语言处理领 北京工业大学丁学硕士学位论文 域取得了许多令人瞩目的成果。例如,英国兰卡斯特大学用基于语料库的方法实 现了非受限文本的词性标注系统c l a w s ,取得了极大的成功,向人们显示了语 料库方法的巨大潜力。美国宾州大学句法标注树库p e n nt r e e b a n k 的建立,为基 于统计的句法分析模型的研究提供了统一的训练和测试平台,大大促进了英语句 法分析技术的发展。语料库方法的出现也为机器翻译的研究注入了新的生机和活 力。1 9 9 3 年在日本举行的第四届机器翻译高层会议上,英国学者j o h nh u t c h i n s 在 特邀报告中提出,机器翻译已经进入了一个新的纪元。即进入了第三代机器翻译 系统的研究,其主要标志正是语料库方法的引入。其中包括基于统计的方法、基 于实例的方法以及从语料库中获取知识的间接使用语料库的方法等等。与其它自 然语言处理研究不同的是,用于机器翻译研究的语料库一般为平行语料库 ( p a r a l l e lc o r p u s ) ,即包含多种语言互译文本的语料集合。其中比较常见的是 由两种语言组成的双语平行语料库,也称双语语料库( b i l i n g u a lc o r p u s ) 。由于 双语语料库含有不同语言间的对照翻译信息,因此对自然语言处理领域具有很高 的研究和使用价值。 相对来说,国内在双语语料库建设及基于双语语料库的机器翻译研究方面起 步较晚。尽管近几年来,有些学者对英汉双语语料库句子和词汇对齐进行了一些 有益的探索,但是,相对国际同类研究来说仍有较大差距。特别是在利用双语语 料库进行翻译知识获取方面目前还缺乏系统研究。在平行语料库的加工中,研究 不同级别的对齐技术是一个重要的中心课题。对齐是进一步利用平行语料库获取 一些语言知识的必要前提。短语作为无歧义的语义单元,其形式和意义相对单词 来说更加固定。如果我们能够构造短语级别的双语实例库,语料库建设和机器翻 译非常有意义的。研究表明,在各种类别的短语中,名词短语无论从数量上还是 重要程度上都占据着首要位置。因此,名词短语对齐成为短语对齐的首要问题。 另外,双语名词短语对于跨语言信息检索的研究也具有重要意义。本文在英汉双 语语料库基础上,在已经对齐的汉英句子对的基础上,研究双语语料库的名词对 齐技术。本研究的开展有助于在翻译知识获取这个瓶颈问题上谋求突破,其研究 成果将为机器翻译、词典编撰、词义排歧、信息检索等多种跨语言自然语言研究 提供重要的支持。 1 2 研究意义 知识获取是人工智能研究中心一个至关重要又极难解决的问题,成为智能系 统向高层次发展的瓶颈。可以说,一个系统能否达到令人满意的水平,很大程度 上取决于它所采取的知识获取水平如何。机器翻译是人工智能中最活跃的领域之 第1 章绪论 一,处理的对象是自然语言。自然语言的无限性和不确定性使得语言知识自动获 取问题对于机器翻译研究尤为重要。研究基于语料库的翻译知识获取技术,对于 机器翻译和自然语言处理研究与有重大的理论意义和广泛的实用价值。 在理论方面,本研究的发展将有助于在语言知识获取这个瓶颈问题上谋求突 破。语料库语言学是一门与计算机科学、语言学相关的新兴交叉学科,集中研究 自然语言文本的采集、存储、加工和从语料中获取知识的方法,其目标是凭借语 料库所提供的客观翔实的语言证据来进行自然语言处理和语言学研究。基于语料 库的自然语言研究方法,是理性主义方法和经验主义方法的有机结合,对于机器 翻译、自然语言理解等许多相关领域研究都将产生重要影响和巨大的推动作用。 在应用方面,随着计算机的普及和信息化程度的日益提高,人们对自然语言 理解技术的需求也越来越大。对于双语语料库对齐技术的研究,可以大大加快双 语语料库的建设,推进基于语料库的自然语言对齐技术的研究,可以大大加快双 语语料库的建设,推进基于语料库的自然语言处理研究的开展。自动的翻译知识 获取技术研究对于提高翻译质量,促进机器翻译系统的实用化具有重要意义。这 些研究同时也将对信息抽取、文本校对、词义消歧、跨语言信息检索等自然语言 处理应用提供重要的资源和技术支持。 平行语料库作为一种特殊的语料库,对于基于语料库的机器翻译、人机互助 的翻译、机器翻译评价工具、跨语言信息检索、双语短语词典编纂和词义消歧等 研究具有重要意义。 1 3 相关研究综述 1 3 1 语料库建设发展概况 语料库是按照一定原则组织起来的真实自然语言数据的集合,主要用于研究 自然语言的规律,特别是统计语言模型的训练以及相关系统的评价和评测。语料 库语言学是以语料库为基础知识源来研究自然语言规律的学科,主要研究内容包 括语料库加工的理论、方法和工具以及基于语料库的知识获取。 1 3 1 1 语料库和双语语料库 语料库根据它所包含的语言种类的数目分为单语语料库【3 】( m o n o l i n g u a l c o r p u s ) 和多语语料库【4 1 ( m u l t i l i n g u a lc o r p u s ) 。 单语语料库是指只含有单一语言文本的语料库。二十世纪六、七十年代以来, 许多国家都建立了或正在建立大规模单语语料库。世界著名的英语语料库有:美 北京工业大学丁学硕士学位论文 国布朗大学的b r o w n 语料库( 1 0 0 万词的美国英语) :美国宾州大学为句法分析 而设计的树库( p e n nt r e e b a n k ) ;美国计算机语言协会的计算机语言学语料库( 1 亿词的美国英语) :英国伯明翰大学语料库( 2 千万词的书面英语) ;英国国家 语料库( 1 亿词的英语) :美匡 l o n g m a n l a n c a s t e r 语料库( 3 千万词的书面英语) 等等。汉语语料库的建设起步较晚,直n - - 十世纪九十年代,国内的一些研究机 构才开始根据不同用途建立了相关的语料库。如北京大学计算机语言学研究所已 经完成的带有分词性标注的人民日报语料库,国家语委和国内几家著名高校、 科研机构“8 6 3 ”项目支持下正在建设的1 5 亿字超大规模通用平衡语料库,清华大 学的5 0 0 0 万字的原始汉语语料库,北京语言文化大学的2 0 0 0 万字的粗语料库和 2 0 0 万字的精语料库,台湾中央研究院的2 0 0 万词次的带有词性标注的汉语平衡语 料库以及哈尔滨工业大学机器翻译研究室的树库等等。虽然汉语的语料库近年来 有了长足的发展,但同英语相比,在标注体系的标准化、系统化、加工深度以及 资源的开放性等方面还存在着明显的不足。 与单语语料库相对的是多语语料库,即包含互译的多种语言文本的语料库。 其中,最典型的多语语料库是包含两种互译语言文本的双语语料库。多语语料库 可以看成多个双语语料库的集合。由于双语语料库含有两种不同语言之间的对照 翻译信息,因此在自然语言处理的许多领域都具有重要的研究和使用价值。它可 以为语言学习、语言比较、机器翻译、机器翻译系统的评估、双语词典和术语库 的建立、翻译知识的抽取、词义排歧等多种自然语言应用提供更大程度的支持。 近年来,许多国家和地区的众多研究机构都开始致力于双语语料库的建设,并利 用这些语料库进行了比较广泛的研究。 最著名的双语语料库当属加拿大的议会会议录( c a n a d i a nh a n s a r d s ) 。该会 议录同时用英、法两种语言记录而成。许多最初的双语语料库研究都是在该语料 库基础上进行的。英国布莱顿大学语言中心从1 9 9 4 年开始双语语料库项目 i n t e r s e c t 的研究。i n t e r s e c t 的目标是建立一个英语和法语的书面语双语语 料库,并在此基础上进行英语和法语的对照分析和研究。b c d ( b i l i n g u a lc a n a d i a n d i c t i o n a r y ) 是加拿大的词典编纂项目,其基本思想是通过双语文本来进行双语 词典的编纂。e n p c 是挪威的一个基于挪威语和英语的双语语料库项目。其目的 是为了进行语言教学、词典编纂和机器翻译研究。t r i p t i c 是一个包含英语、法 语以及荷兰语的多语语料库,它包含y 2 0 0 多万个单词,所选材料中,一半是小 说,一半是其它载体的文本,所有材料均进行了段落一级的对齐。它最初建立的 目的是为了研究和比较这些语言中介词的用法。此外,目前正在建设中的圣经语 料库预计包括英、法、丹麦、希腊、拉丁、瑞典、西班牙和越南语等多种语言。 双语语料库的研究价值近几年来得到了国内学者的关注,许多大学和研究机 第1 章绪论 构开始着手进行汉外双语语料库的建设。比较著名的汉外双语语料库是香港科技 大学的英汉双语语料库h k u s t ( h o n gk o n gu n i v e r s i t yo f s c i e n c ea n d t e c h n o l o g y ) ,其主要内容是香港立法委员会的会议记录。此外,哈尔滨工业大 学、北京大学、中科院计算所、自动化所、台湾中央研究院等单位也开始进行双 语语料库的建设工作。但是这些双语语料库的规模一般在几万句左右,加工深度 也仅限于句子级对齐。并且目前尚没有公开的汉外双语语料库可以利用,这在一 定程度上制约了双语语料库) m - r 和知识获取技术的研究。为了加速我国跨语言自 然语言处理研究的发展,加强汉外双语语料库建设和研究力度势在必行。 1 3 1 2 语料库的多级加工 从语料库中获取语言知识可以概括为两步:首先建立合适的语料库,然后再 建立的语料库中获取所需的语言知识。其中建立语料库包括语料库的收集、整理 和加工。之所以要对语料库进行加工,道理是不言而喻的:因为一个语料库不管 规模多大,如果未经加工,就只是一些文本的积累,它的研究价值和使用价值都 是极其有限的。为了从语料库中获取有效的语言学知识,就必须对语料库进行必 要的加工。语料库的加工深度直接影响到语料库所能提供的知识的力度。一般来 讲,语料库的加工方式、) m - r 程度随语料的种类、应用要求的不同而有所不同。 对于单语料库的) j n - r 主要是进行不同层次的语言学分析和标注,如词性标 注、句法标注、语义标注和语用标注等,由于汉语书写的特殊性,汉语语料库的 加工还包括分词。目前大多数语料库加工集中在词性标注阶段,句法标注正处于 一个迅速发展时期,而其它层次的语料库加工,如语义、语用等还处于起步阶段。 经过加工的语料库能够为语言知识的自动获取和语言分析技术的研究提供更大 程度的支持,并有效地推动相关技术的发展。例如,在标注语料库的指导下,目 前英语的词性标注技术基本上已经成熟,句法分析分析技术也得到了长足的进 步。对于双语语料库,除了对两种语言分别进行以上语言学标注外,一个重要的 加工方法就是双语语料库的对齐。近些年来,双语语料库的自动对齐技术引起了 国内外学者的广泛关注。 1 3 2 双语语料库的对齐技术 建立一个具有实际应用价值的双语语料库,最重要也是最关键的技术之一就 是双语语料库的对齐加工。所谓对齐( a l i g n m e n t ) 【5 】,就是从互译的不同语言文 本中找出其互译片段的过程。一般来说,双语文本的对齐可分为段落( p a r a g r a p h ) 、 句子( s e n t e n c e ) 、短语( p h r a s e ) 、单词( w o r d ) 等不同级别。不同的自然语 言应用需要不同级别的对齐。目前所进行的双语语料库对齐工作主要围绕句子、 北京丁业大学工学硕士学位论文 单词和短语级别对齐展开的。 句子对齐研究最为广泛。这一方面是因为许多基于双语语料库的应用一般都 要求双语库至少要做到句子级的对齐,如基于统计的机器翻译和基于实例的机器 翻译;另一方面,句子对齐又常常是进行更细粒度的对齐( 如短语、词汇对齐) 的必要前提。句子对齐方法可以分为三类:基于长度的方法,基于词汇的方法和 混合方法。基于长度方法利用互为翻译的原文和译文句子长度的相关性实现句子 对齐。b r o w n 和c h u r c h 最先提出了基于长度句子对齐思想。不同的是前者以句子 中的单词个数作为句子的长度单位,而后者却以句子中的字节数作为句子的长度 单位。两者在英法双语语料库句子对齐实验中都获取了较好的结果。清华大学研 究者将长度的方法用于英汉双语的句子对齐,进行了有益的尝试。基于长度的句 子对齐方法主要优点是模型简单,无需双语词典等外部资源,具有语言独立性。 主要缺点是错误容易蔓延,对于译文缺失现象鲁棒性较差。基于词汇的句子对齐 方法以k a y 和c h e n 的工作为代表。他们的方法是先采用词汇分布规律和词汇翻译 模型计算双语语料库中的词汇对译关系,再利用这些初步的词汇对应信息来计算 句子对齐,而后利用刚得到的句子关系重新计算词汇对应,重复这一过程直到收 敛状态。这种方法一般可以得到比较可靠的结果,但是计算过程复杂,对齐时间 较长。此外,s i m a r d 等人利用英法句子中的同源词( c o g n a t e ) 实现了基于同源 词的句子对齐。随着机读双语词典的扩大以及众多的在线双语词典的出现,直接 利用现有的双语词典解决句子对齐问题成为了一个现实的选择,有人进行了基于 双语词典的英汉双语句子对齐研究,取得了令人满意的结果。综合以上两类方法 的优点,w u 、u t s u r o 提出了长度与词汇方法相结合句子对齐方法,分别进行了 汉英及日英句子的对齐实验,实验结果表明,混合方法好于单纯的长度方法和词 汇方法。不少学者认为对句子对齐的研究已经比较成熟,基本可以达到实用。 词汇对齐是近年来双语语料库对齐的一个热点问题。和句子对齐相比,词汇 对齐具有比较直接的应用价值,因此这方面的研究吸引力众多研究者的注意。目 前词汇对齐有两类主要方法:基于统计的方法和基于词典的方法。统计方法的思 想是通过对大规模双语语料的统计训练,获得双语对译词的同现概率,以此作为 对齐的基础。b r o w n 提出的基于统计机器翻译模型的词汇对齐和g a l e 提出的基于 词汇同现模型的词汇对齐是该类方法的代表。大多基于统计的词汇对齐研究都是 在此基础上进行的。统计方法的优点是不依赖于具体语言和特定的语言学资源, 因此具有较好的通用性。但是该方法需要极大规模的双语语料库作为训练基础, 对于很多语言对,包括英、汉等尚难获得较大规模双语语料库的语言对来说,统 计方法不可避免存在数据稀疏问题。近年来,基于词典和语言学知识的词对齐方 法也逐渐得到了人们的重视。k e r 使用一种基于语义类的方法对英汉句对进行词 第1 章绪论 汇对齐。我国中科院计算所的研究者也利用双语词典和双语同义词词典实现了基 于词典和语义相似度的英汉词汇对齐。此外,中科院软件所的研究者还提出了利 用上层的组块边界信息知道词汇对齐的方法。相对于句子对齐来说,词汇对齐更 复杂,难度也更大。目前的词汇对齐方法还存在着统计数据稀疏、词典覆盖率不 足,无法处理多次单元对齐等问题。尽管尚有很多难题有待解决,但词汇对齐无 疑是双语对齐中最有应用价值的研究。 短语对齐,通常也称结构对齐【6 】,就是要对双语句对进行深层次分析并给出 两个句子之间的句法结构对应关系。结构对齐常用的方法就是所谓的“分析分析 一匹配( p a r s e p a r s e m a t c h ) ”方法。即首先分别对两种语言进行单语句法分析, 然后根据一定的启发式过程实现双语的结构匹配。现有的结构对齐研究大多属于 该类方法,它们之间的主要不同是在单语分析时使用了不同的句法分析策略。但 是,由于自动句法分析问题远未解决,句法分析的精度不高,所以自动结构对齐 的结果还不能令人满意。与以上方法不同的是,有人提出一种基于反向转换文法 ( i n v e r s i o nt r a n s d u c t i o ng r a m m a r ,i t g ) 1 7 】的双语分析方法。该方法不需要原语 言和目标语言的单词句法分析知识,通过统计的反向转换文法同时对双语进行句 法结构分析,分析的结果直接得到了结构的对齐,因此它是一种双语的分析体系。 但是,该方法的难点在于需要预先获得一个双语语法,而这种双语语法是双语研 究中仍在探索的问题。这样看来,目前双语结构对齐研究的主要困难在于缺乏精 确、可靠的句法分析器,此外不同语言的结构差异也会造成双语句对的句法分析 结果中本身存在很多不匹配的结构,如何解决这些问题是结构对齐研究取得突破 的关键。由于从结构对齐结果中可以直接获取较细粒度的翻译实例,也可以进一 步获取翻译转换规则,因此结构对齐研究对于基于双语语料库的知识获取研究来 说,具有十分重要的地位。 不同级别的对齐,难点也不尽相同。但总的再说,双语语料库对齐存在以下 共同难点: 1 )人工翻译的复杂性。由于对齐所用到的语料大都来自人工翻译的结果, 所以人工翻译的一些特点,造成了双语语料库对齐的许多困难。比如对于句子 级的对齐,由于翻译中并非都是句到句的翻译,因此存在一对一之外的多种翻 译模式,这种翻译模式的复杂性加大了对齐的难度。特别对于更细粒度级别的 对齐,这种现象更普遍。另外,人工翻译过程中有意或无意的增删、文章次序 重组、自由式翻译以及个人的不同翻译喜好等都会影响对齐的困难程度 2 )不同语言之间的差异。由于对齐在不同语言之间进行,因此不同语言 之间不同的语法规则、文化传统、表达方式、习惯用法甚至字符编码方式都会 加大对齐的困难程度。这种差异对于英、汉这两种语言来说更为明显。比如, 北京t 业大学工学硕士学位论文 汉语的成语、谚语在英语中就很难找到固定的对应翻译。 3 )互为翻译的判断标准难以建立。两个对齐的单位之间到底满足怎样的 条件才能算是互为翻译? 对于人来说,大多数情况下,是能够通过语义的理解 来做出正确的判断的。而对于计算机,将这种语义的理解形式化在当前是不现 实的,要制定一个现实的可计算的判断标准却不容易。 4 )文本预处理工具的处理效果难以保证。对双语文本进行对齐,必须要 对文本进行预先的处理,比如把文本划分成句子、将汉语句子分词等等。这些 预处理并非相当容易的事情,它们处理的效果的好坏直接影响到后续对齐的困 难程度。 总的来说,双语语料库对齐技术的研究已经得到了国内外研究者的普遍重 视。句子丢弃研究得最为深入,对齐结果也得到了广泛的应用。词汇级对齐也 进行了大量研究,这些研究一般以大规模语料库统计为基础,对于小规模语料 库基础上的英汉双语词汇对齐方法,还有待进一步的探索。对于双语结构分析, 由于句法分析的难题尚未解决,这方面的研究一直进展缓慢,实验规模也都不 大。尽管如此,双语语料库的对齐研究还是为机器翻译带来了很大的发展【8 9 】, 其中最为突出的应用就是基于统计的机器翻译( s t a t i s t i c s b a s e dm a c h i n e t r a n s l a t i o n ,s b m t ) 和基于实例的机器翻译( e x a m p l e b a s e dm a c h i n e t r a n s l a t i o n , e b m t ) 。 1 4 平行语料库和短语对齐在机器翻译中的应用 在平行语料库的加工中,研究不同级别的对齐技术是一个重要的中心课题。 所谓对齐【l o 】指的是,将平行语料库中两种( 或多种) 语言之间的互译片断或单 元建立映射。按照对齐单元的粒度划分,对齐可以分为段落对齐、句子对齐、 短语对齐和单词对齐。对齐不仅是进一步利用平行语料库获取一些语言知识的 必要前提,也是机器翻译利用双语知识的重要前期处理。 本节将结合基于实例的机器翻译介绍平行语料库及短语对齐在机器翻译中 的应用。 1 4 1 机器翻译简史 自从1 9 4 7 年,美国洛克非勒基金会自然科学部主任华伦韦弗提出把现代 电子计算机用于自然语言翻译的设想以来,机器翻译【l l 】的研究已经进行了5 0 多年。 在最初十几年的开创期中,机器翻译取得了突飞猛进的发展。据不完全统 第1 章绪论 计,当时2 0 多个国家的7 0 多个机构从事机器翻译的研究。在1 9 5 0 年,英国研 制出第一台能做自动翻译的机器;然后在1 9 5 4 年,美国乔治城大学也研制成功 了第一个机器翻译系统一俄英机器翻译系统。我国的机器翻译研究工作从1 9 5 7 年正式开始,主要研究俄汉和英汉机器翻译。 这些早期的机器翻译系统所使用的翻译技术基本上都是基于双语字典而进 行的直接翻译,附加一些简单的语法分析。 限于当时的计算机技术,直接翻译方法的效果距离人们的要求相距甚远, 于是在1 9 6 6 年著名的a l p a c 名为语言和机器的报告公布以后,机器翻译 的研究陷入了低潮。 7 0 年代初期,计算语言学、人工智能和计算机技术取得了重大进展,给机 器翻译研究带来了希望的曙光。机器翻译领域也提出了一些新的功能较强的文 法理论,例如,短语结构文法、格语法等。这些突破性进展为后来机器翻译研 究的复兴奠定了坚实的基础。 于是,7 0 年代后期,机器翻译的研究开始复苏,相继出现了一些实用的机 器翻译系统,如美国的s y s t r a n 系统( 1 9 7 5 年) ,加拿大的t a u m m e t e d 系统( 1 9 7 6 年) ,日本日立公司的a t l a s 系统,法国编织研究所的t i t u s i v 系统( 翻译编织专业文摘) 等。1 9 7 5 年以后,我国的机器翻译研究也进入了恢 复和发展的新时期,被列入国家第五个五年计划。 此时,计算语言学的进展使得机器翻译的方法不仅仅局限于直接的翻译方 式,出现了更多的间接翻译方法,如基于中间语言的方法和基于转换的方法。 8 0 年代以来,机器翻译的研究受到各国的高度重视,许多发达国家相继投 入了巨额资金开展全国性和多国性的联合研究,如欧共体的e u r o t r a ,日本 的m u 和美国c m u 的机器翻译研究等。基于简介翻译的方法得到了更大的发 展,转换分析的层次从简单的语法层次发展到了语法和语义相结合的更深层次; 同时,还出现了其它基于实例和统计的机器翻译技术。 目前,随着信息技术特别是网络技术的发展,对机器翻译技术的需求越来 越大,这促进了机器翻译研究的发展和商业化应用。不但出现了各种自动的文 本翻译系统,还出现了应用于i n t e m e t 上的各种翻译软件和工具,同时机器辅 助翻译工具也层出不穷。 1 4 2 机器翻译分类 机器翻译技术的核心问题是翻译机制的设计,即源语言分析和目标语言生 成机制的设计。根据知识表示和处理机制的差异,可以将机器翻译技术划分为 两大类别:一类是基于知识的机器翻译技术,以r b m t 1 2 】( 基于规则的机器翻 北京工业大学工学硕士掌位论文 译) 为代表;另一类是基于语料库的机器翻译技术,以e b m t 1 2 】( 基于实例的 机器翻译) 和s b m t ( 基于统计的机器翻译) 为代表。r b m t 采用传统的基于 转换的方法实现语言翻译,而e b m t 和s b m t 则均以大规模双语( 或多语) 平 行语料库为基础,通过类比或者统计方法实现语言翻泽。在不同的应用条件和 不同的处理需求下,可以说两种方法各有所长。 当计算语言学和人工智能技术取得了革命性的进展并出现了一些新的功能 较强的文法理论后,出现了以文法理论为基础的基于规则的机器翻译系统,并 逐渐成为机器翻译的基本技术,取得了很大的成功。 基于知识的翻译系统【1 3 】的共同特点是:通过对语言现象的综合和认识,不 断总结其规律性,形成表达语言知识的语法结构规则和语义规则等。分析系统 利用这些规则对输入的语言进行分析和理解,形成一种没有歧义的、确定的内 部表达形式,然后根据这种表达形式转换成相应的目标语言的结构,并形成译 文。由于这种基于规则的方式在一定程度上理解了原文,比较接近入的翻译行 为,因此长期以来成为主流且成功的翻译技术。 但同时,基于规则的翻译系统需要大量的、能代表语言现象规律的规则知 识库和词典。这些知识大部分都是通过人工或以人机交互的方式来获取,而且 交互方式的智能性很低。因此,知识获取成为约束基于规则的机器翻译发展的 一个根本因素。为了避免这个问题,一些研究人员提出了基于语料库的机器翻 译方法。 根据对语料库应用方式的不同,基于语料库的机器翻译又分为基于实例的 机器翻译( e b m t

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论