




已阅读5页,还剩46页未读, 继续免费阅读
(计算机应用技术专业论文)面向生物医学领域的双语对齐技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工大学硕士学位论文 摘要 在自然语言处理和跨语言信息检索等诸多领域中,双语语料库的重要作用逐渐显现 出来。在不同的应用中,需要不同粒度的双语对齐语料库和相应的双语对齐技术。双语 语料库的对齐技术按粒度可以分为篇章级对齐、段落级对齐、句子级对齐、短语级对齐 和单词级对齐等。 对于实际应用来说,句子级和词汇级的双语对齐语料尤为有用。基于实例的机器翻 译、知识获取以及跨语言信息检索等技术的性能很大程度上依赖于双语语料库规模和质 量,而句子级的双语语料和单词级对齐的双语语料的质量和数量直接决定了双语语料库 的质量。所以句子级的双语对齐技术和词汇级的双语对齐技术在很大程度上影响以上应 用的最终性能。 本文以国家8 6 3 基金项目基于语义的跨语言信息检索平台为依托,以生物医学 领域跨语言信息检索的查询翻译为应用背景,以构建生物医学文献双语术语词典为目 的。主要工作分为双语句子对齐和双语术语抽取两个步骤。针对以上两个步骤,本文对 双语对齐技术进行了详尽的考察和研究,取得了以下研究成果: ( 1 ) 利用基于带权二部图的最大权重匹配模型为生物医学文献双语摘要建模。在无 双语词典的情况下,将基于长度的句子对齐方法和句子的位置信息相结合,充分利用医 学文献双语摘要语料中的锚信息,根据锚信息将生物医学摘要段落和句子进行分类计算 相似度,实现了生物医学文献双语摘要的句子对齐,取得了较好的对齐结果。 ( 2 ) 将迁移学习思想和分类思想用于汉英句子对齐任务中。将句子对齐任务看成一 个对齐模式的分类问题,充分利用生物医学领域双语摘要的锚信息,使得句子对齐准确 率得到了一定提高;同时,在模型训练过程中,我们引入了迁移学习的思想,对模型进 行协同训练,使得模型在测试语料上表现的性能更优。 ( 3 ) 通过对生物医学语料进行统计分析,使用迭代重估算法对生物医学句对进行基 于统计的双语术语抽取。根据领域特点,在有限的双语资源可利用的情况下,限定双语 术语对的长度得到了较高的召回率。 关键词:跨语言信息检索;双语语料;双语对齐;高斯混合模型;迁移学习;迭代 重估算法 大连理工大学硕士学位论文 r e s e a r c h0 1 1b i l i n g u a la l i g n m e n tf o rb i o m e d i c i n e a b s t ra c t i nv a r i o u sf i e l d so fr e s e a r c ho nn a t u r a ll a n g u a g ep r o c e s s i n g ,t h ei m p o r t a n c ef o rb i l i n g u a l c o r p u si sm o r ea n dm o r eo b v i o u s d i f f e r e n ta p p l i c a t i o n sc a l lf o ra l i g n e db i l i n g u a lc o r p u so f d i f f e r e n tg r a n u l a r i t i e s ,i n c l u d i n ga r t i c l el e v e l ,p a r a g r a p hl e v e l ,s e n t e n c el e v e l ,p h r a s el e v e la n d w o r dl e v e l f o rap r a c t i c a la p p l i c a t i o n , s e n t e n c el e v e la n dw o r dl e v e la l i g n e db i l i n g u a lc o r p u si s u s e f u l e x a m p l e - b a s e dm a c h i n et r a n s l a t i o n , a c k n o w l e d g ea c q u i s i t i o n a n dc r o s s l a n g u a g e i n f o r m a t i o nr e t r o v i r a la n ds oo nd e p e n do nb i l i n g u a lc o r p u s ,a n dt h eq u a l i t ya n dq u a n t i t yo f s e n t e n c el e v e la n dw o r dl e v e la l i g n e db i l i n g u a lc o r p u sd i r e c t l yd e t e r m i n e st h eq u a l i t yo f b i l i n g u a lc o r p u s s ot h eb i l i n g u a la l i g n m e n tm a k e sg r e a te f f e c t o nt h ep e r f o r m a n c eo f a p p l i c a t i o n sm e n t i o n e d a b o v e 。 瓢1 i sp a p e ri sap a r to ft h e8 6 3p r o j e c t “s e m a n t i c s b a s e dc r o s s - l a n g u a g ei n f o r m a t i o n r e t r i e v a lp l a t f o r m ”w ea i mt ob u i l dab i o - m e d i c a lb i l i n g u a ld i c t i o n a r yo ft e r m si no r d e rt o i m p r o v et h ep e r f o r m a n c eo fq u e r yt r a n s l a t i o nw h i c hi s t h ef i r s ts t e po fc r o s s l a n g u a g e i n f o r m a t i o nr e t r i e v a l t h em a i nw o r kc o n t a i n st w os t e p s :b i l i n g u a ls e n t e n c ea l i g n m e n ta n d t e r m i n o l o g ye x t r a c t i o n t h r o u g he x h a u s t i v er e v i e wa n dr e s e a r c ho nt h et e c h n i q u eo fb i l i n g u a l c o r p u sa l i g n m e n t , w eg e tf o l l o w i n gr e s u l t s : ( 1 ) t hs e c o n dc h a p t e rd e s c r i b e sas e n t e n c e sa l i g n m e n tm o d e lu s i l 玛m a x i m u mw e i g h t m a t c h i n go nb i p a r t i t eg r a p h 曩搀l e n g t h - b a s e dm e t h o dc o m b i n e dw i t hl o c a t i o ni n f o r m a t i o n a n da n c h o ri n f o r m a t i o nw h i c hc l a s s i f yt h ep r o g r a m sa n ds e n t e n c e si su s e dt oi m p r o v et h e f u n c t i o no fs k m i l a r i t y t h ee x p e r i m e n tg e t sab e t t e ra l i g n m e n tr e s u l t 。 ( 2 ) mt h i r dc h a p t e ra l i g n ss e n t e n c e su s i n gg m m a n dl e a r n i n gt r a n s f e r w ec o n s i d e r s e n t e n c ea l i g n m e n ta sac l a s s i f i c a t i o np r o b l e m , w h i c he a nb es o l v e db yu s i n gg a u s s i a n m i x t u r em o d e lc l a s s i f i e r sa n da n c h o ri n f o r m a t i o n t h i sm e t h o dc a ng e tab e t t e rr e s u l t a tt h e s a m et i m e ,w et r a i na l i g n m e n tm o d e l 潞吨t h em e t h o do ft r a n s f e rl e a r n i n gw h i c hm a k et h e a l i g n m e n tm o d e lr e p r e s e n t b e t t e r ( 3 ) t h r o u g ha n a l y z i n gb i o m e d i c i n ec o r p u su s i n gs t a t i s t i cm e t h o d ,w et a k eo u tb i l i n g u a l g l o s s a r yu s i n ga ni t e r a t i v er e - e v a l u a t i o na l g o r i t h m t a k i n gt h ec h a r a c t e ro fb i o m e d i c i n e c o r p u si n t oa c c o u n t ,w ee v a l u a t et h em a x i m a lw o r dn u m b e rt h r e ea n dw eg e tah i g h e rr e c a l l r a t e k e yw o r d s :c r o s sl a n g u a g ei n f o r m a t i o n ;b i t i n g u a tc o r p u s ;b i l i n g u a la l i g n m e n t ; g m m ;t r a n s f e rl e a r n i n g ;l t e r a t i v er e e v a l u a t i o na t g o r i t h m - i i i 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文题目: 蜀鱼丝塑匿堂筮_ 赶础瑙盗- 犯一 作者签名: 强捆 日期:兰堕年l 月卫日 大连理工大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间 论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有 权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印、或扫描等复制手段保存和汇编本学位论文。 学位论文题目: 商囱彪必垂竖筮楚鱼塾遮型叁丝苤塑丝 作者签名: 导师签名: , 知|和” 日期:竺1 2 年l 月三三- 日 日期:鲨z 年之月至l _ 日 大连理工大学硕士学位论文 1绪论 1 1 自然语言处理技术的发展及应用 自然语言处理( n a t u r a ll a n g u a g ep r o c e s s i n g ,n l p ) 是研究如何利用计算机对自然语 言的形、音、义等信息进行操作和加工的一门边缘学科,是人工智能和语言学领域的分 支科学。它是- - l q 融计算机科学、语言学、数学、统计学、推测学、脑科学等多门学科 于一体的学科。自然语言处理技术被广泛应用于信息搜索( i n f o r m a t i o nr e t r i e v a l ) 、语音 识别( s p e e c hr e c o g n i t i o n ) 、机器翻译( m a c h i n et r a n s l a t i o n ) 以及数据挖掘( d a t am i n i n g ) 等多个领域。当今社会,随着计算机的日益普及,信息化程度的日益提高,人类交流的 日趋频繁,对自然语言处理技术的需求也越来越大i l 】。 自然语言处理研究的问题主要包括形态分析( m o r p h o l o g i c a la n a l y s i s ) 、语法分析 ( s y n t a c t i ca n a l y s i s ) 、语义分析( s e m a n t i ca n a l y s i s ) 、文本生成( t e x tg e n e r a t i o n ) 、语言 歧义研究( l a n g u a g ed i s a m b i g u a t i o n ) 、机器学习( m a c h i n el e a m i n g ) 等方面。这些问题的 关键都是通过形式化的计算模型来分析、理解和处理自然语言。正因为如此,自然语言 处理这门学科也常常被称为计算语言学( c o m p u t a t i o n a ll i n g u i s t i c s ) 。 自然语言处理主要研究的问题包括【3 j : ( 1 ) 词汇形态分析( m o r p h o l o g i c a la n a l y s i s ) ( 2 ) 语法分析( s y n t a c t i ca n a l y s i s ) ( 3 ) 语义表达( s e m a n t i cd e s c r i p t i o n ) ( 4 ) 文本生成( t e x tg e n e r a t i o n ) ( 5 ) 语义歧义研究( l a n g u a g ed i s a m b i g u a t i o n ) ( 6 ) 语言的机器学习( l a n g u a g em a c h i n el e a r n i n g ) 等等。 随着计算机技术的高速发展,目前的计算机软硬件性能已经为自然语言处理提供了 良好的计算平台。而互联网的广泛应用,在给对自然语言处理技出了更多需求和挑战的 同时,也为自然语言处理技术的研究提供了丰富的可供利用的资源。 目前自然语言处理技术主要应用于: ( 1 ) 信息检索( i n f o r m a t i o nr e t r i e v a l ) ( 2 ) 语音识别( s p e e c hr e c o g n i t i o n ) ( 3 ) 机器翻译( m a c h i n et r a n s l a t i o n ) ( 4 ) 文本分类、问答系统、自动摘要、信息抽取等领域。 自然语言处理有两种基本的研究方法【2 】:基于规则的研究方法和基于统计的研究方 面向生物医学领域的双语对齐技术研究 法。基于规则的研究方法( r u l e b a s e dm e t h o d ) 又称为理性主义研究方法,他认为人的很 大一部分语言知识是生来俱有、由遗传决定的。由于c h o m s k y 的内在语言官能理论( i n n e r l a n g u a g ef a c u l t y ) 被广泛接受,基于规则的研究方法从6 0 年代到8 0 年代中期主宰了自 然语言处理以及语言学和心理学的研究。在实际的自然语言处理中,理性主义的观点表 现为通过人工编写知识库和推理系统来创建一个自然语言处理系统,即通常将自然语言 用一套符号系统来表达和分析。这也就是为什么基于规则的方法被称为理性主义方法的 原因。基于统计的研究方法和和基于规则的研究方法正好相反,他认为人的知识只是通 过感官输入,经过一些简单的联想和通用化操作而得到的。人并非与生俱有一套语言的 规则和处理方法。在实际的自然语言处理中,基于统计的研究方法通常通过对大量的实 际语言数据进行统计而获取语言知识。由于大量的语言数据通常以语料库( c o r p u s ) 的形 式存在,因此基于统计的研究方法在自然语言处理中也被称为基于语料库的方法 ( c o r p u s - b a s e dm e t h o d ) 。 基于规则的研究方法与基于统计的研究方法的主要区别在于以下几点: 第一,基于规则的方法主要研究人的语言知识结构,实际的语言数据只提供了这种 知识结构的间接证据。而基于统计的方法将实际的语言数据作为直接研究的对象。 第二,基于规则的方法通过一系列语言原则来描述语言,满足这些原则的语句才是 合法的。而在基于统计的方法中,语言事件被赋予了概率,并无合法不合法之说,只有 常见不常见之分。 第三,基于规则的方法是通过研究特殊的语言现象来得到关于人的语言能力的认 识,而这些语言现象在实际的应用中并不一定很常见。基于统计的方法则偏重于语言语 料中实际应用的语言现象的表述。 基于规则的方法和基于统计的方法各有优缺点,表现在自然语言处理中,可以简单 地概括为:基于规则的方法表达直观、深刻,易理解,概括性好,但一致性和健壮性差; 基于统计的方法反映客观,一致性和健壮性好,但表达肤浅,不易理解,并且需要大量 的语言数据。 由于基于规则的方法和基于统计的方法可以互相取长补短,所以将基于规则的方法 和基于统计的方法相结合使用成了当前自然语言处理中的一种研究趋势,具体表现为, 许多研究开始着重于从大规模语料库中抽取语言知识的规律,然后利用这些规律来指导 自然语言处理的过程【4 】。 1 2 双语语料库 语料库( c o r p u s 或c o r p o r a ) 是指按照一定的语言学原则,运用随机抽样方法,收集自 大连理工大学硕士学位论文 然出现的连续的语言应用文本或话语片段,而建成的具有一定容量的大型文库。从其本 质上讲,语料库实际上是通过对自然语言运用的随机抽样,以一定大小的语言样本代表 某一研究中所确定的语言运用总体d j 。 作为一种语言学研究方法,语料库及索引早在十八世纪就在欧洲得到了应用。当时 的语料库大部分是依靠手工方法收集,其索引和分析过程也是通过手工进行的,所以极 为耗时费力。到了十九世纪,语料库方法在语言学研究中得到运用,基于语料库的研究 主要集中在词典编纂和语法研究方面。许多研究者例如p o u t s m a 和k r u i s i n g a 等人,都 将他们的研究建立在手工收集的语料上面,这些语料都以引用卡片的形式手工收集、整 理、存放和利用。后来的一些被称作“语料库语言学家 的美国结构语言学家,例如 l e o n a r db l o o m f i e l d ,也使用手工收集和构造的口语语料集进行语言学的研究。 1 9 5 7 年,美国语言学家c h o m s k y 的句法结构一书出版,掀起了一场对传统的 描写语言学的革命,基于规则的研究方法逐渐在语言学研究中占据统治地位。作为一种 经验主义的研究方法,传统的基于统计的研究则开始进入低谷 6 1 。 八十年代中期是语料库研究的开始复兴,逐渐出现了真正意义上的现代语料库。真 正意义的现代语料库是指大型的以电子文档为主要构成的计算机语料库。最近三十年 中,随着计算机技术的飞速发展,基于现代语料库的研究也开始逐渐增多。计算机软硬 件技术以及因特网的高速发展等客观条件使得大容量的机器可读语料库的建设成为可 能。同时,一些新的、更好的统计语言模型也开始出现。而且,随着自然语言处理系统 的不断实用化,知识获取问题己经成为一个瓶颈,基于规则的自然语言处理系统在处理 大规模的非受限真实文本过程中遇到的种种困难,促使广大研究人员去探索和采用一种 新的研究思想。所有这些因素,推动了基于语料库的经验主义研究方法成为目前自然语 言处理研究中的一个热点。语料库越来越多地应用到信息检索、语音识别以及机器翻译 等自然语言处理相关的应用研究中去。在自然语言处理领域,语料库的建设和利用具有 越来越重要的意义【7 j 。 现代意义上的语料库的定义为:以机器可读形式存储的、可能含有多种形式的语言 学信息注解的、文本或者语音的真实语言实例的集合。这些语料库以电子计算机为载体, 通常为计算机中的电子文件。语料库中的语言实例必须是真实语言环境中出现过的语言 材料,可以是文本形式的书面语,也可以是语音形式的口语。另外,这些语料库可能经 过一定的分析、加工和处理,含有多种形式的语言学信息注解,比如词性标注等等。 世界上第一个现代语料库是始建于2 0 世纪6 0 年代初的美国b r o w n 大学当代美国英 语标准语料库( 简称b r o w n 语料库) ,由b r o w n 大学的f r a n c i sn e l s o n 和h e n r yk u e e r a 发 起建设。b r o w n 语料库的规模达到1 0 0 万词( 共1 , 0 1 4 ,2 3 2 词) ,选取美国1 9 6 1 年的一些 面向生物医学领域的双语对齐技术研究 出版物为语料。从此,大量的英语和欧洲语言的语料库开始出现。1 9 8 9 年l i t at a y l o r 对英语语料库的调查指出,当时全世界共有3 6 个语料库存在。 现代语料库发展至今,大致分为四个阶段: 第一代语料库( 1 9 7 卜8 0 年代) :百万词级;以语言研究为导向;如b r o w n 语料库 和l o b 语料库; 第二代语料库( 1 9 8 0 _ - 9 0 年代) :千万词级;以词典编纂为应用导向;如c o b u i l d 语料库和l o n g m a n 语料库: 第三代语料库( 9 0 年代- ) :超大规模( 上亿词级) ;标准编码体系;深度标注多语种; 以自然语言处理为导向;如a c l d c i 语料库和u p e n nt r e e b a n k ( 美国宾州大学树库) ; 第四代语料库( 9 0 年代末) :以互联网为语料库。 按照所包含的语言的种类来分,语料库可分为单语语料库( m o n o l i n g u a lc o r p u s ) ,双 语语料库( b i l i n g u a lc o r p u s ) 和多语语料库( m u l t i - l i n g u a lc o r p u s ) 。 单语语料库只含有一种语言的文本,因此在单语语料库上可以进行对该种语言的词 法、句法、语义、语用各层的研究。单语语料的建立相对来说是最容易的,只需要对单 一语言文本资料进行整理和校对就可以成为单语语料库中的语料。目前许多国家已经有 了规模很大的单语语料库,例如英国牛津大学的b n c ( t h eb r i t i s hn a t i o n a lc o r p u s ) 是词 的广泛领域的既有口语又有书面语,代表现代英国英语的语料。清华大学1 9 9 8 年建立 了1 亿汉字的语料库【引。 而双语语料库包含两种不同语言之间的互译对照信息,因此,它能够为各方面的自 然语言研究提供强有力的支持。 双语语料库的应用特别广泛,其是在自然语言处理领域起着基础研究的作用。如: ( 1 ) 语言教学( l a n g u a g ep e d a g o g y ) ( 2 ) 语言学习( l a n g u a g el e a r n i n g ) ( 3 ) 语言比较( l a n g u a g ec o m p a r i s o n ) ( 4 ) 机器翻译( 包括s b m t 和e b m t ) ( 5 ) 机器翻译系统的评估( e v a l u a t i o nt o o l sf o rm t ) ( 6 ) 机助人译( m a c h i n e - a i d e dh u m a nt r a n s i t i o n ) ( 7 ) 双语词典和术语库的建立( l e x i c o g r a p h y ) ( 8 ) 翻译知识的抽取( t r a n s l a t i 0 1 1k n o w l e d g ee x t r a c t i o n ) ( 9 ) 词义排歧( w o r d s e n s ed i s a m b i g u a f i o n ) 等 许多国家和地区的众多研究机构都已经开始致力于双语库的建设,最著名的双语语 料库是加拿大的议会会议录( c a n a d i a nh a n s a r d s ) 。它是同时用英法两种语言记录的会议 大连理工大学硕士学位论文 记录,许多学者都是在它上面进行了双语语料的研究和实验。c a n a d i a nh a n s a r d s 的i b m 选集( i b mc o l l e c t i o n ) 是2 8 7 万对句子对齐的英法语料。汉英语料库相对于英法语料库 来说,资源要少得多。目前已有的一些汉英双语语料库包括:香港法律语料库( h o n gk o n g h a n s a r d s ,用中英语同时的香港立法委员会的议会记录,3 1 万句对) ,中国科学院软件 研究所的英语语料库( 现有1 5 万对英汉双语对齐句子库【8 】) 。中文语言资源联盟中介绍中 国科学院自动化所和计算技术研究所也分别收集了1 0 多万对句子对齐的中英语料。 多语语料库含有3 种或三种以上语言互译对照信息,这类语料库比较少,对它的研 究也不多。 1 3 双语对齐技术 建立一个具有实际应用价值的双语语料库,最重要也是最关键的技术就是对齐 ( a l i g n ) 。所谓对齐,就是从互译的不同语言文本中找到其互译片段的过程。文本对齐技 术按粒度可分为篇章级、段落级、句子级、短语级和单词级【9 1 3 】。不同的自然语言处理 的应用需要不同级别的对齐。 一般来说,两个互译的文本在篇章和段落上总是一一对应的,因此篇章对齐和段落 对齐相对来说比较容易解决。双语语料库汇中对平行语料的对齐研究主要集中在句子 对齐和单词对齐上。这些研究方法主要可以分为两类:基于语言学的方法和基于统计的 方法。 1 3 1 语言学方法 语言学方法又称基于知识的方法,是指利用语言学资源进行对齐的方法。 文本对齐的目的是寻找源语的译文。语料库的单词级对齐( 也称为词对齐) 就是在互 为译文的双语句对中把每个单词和它的译文建立对应关系;旬子级对齐( 也称为句对齐) 就是在互为译文的双语文本中把每个句子和它的译句建立对应关系。而句子对齐过程中 也需要考虑单词级的信息。 通过以上分析,文本对齐的本质是双语单词的相似度计算问题。双语词典是获取双 语语义相似度【1 4 】最直接有效的工具。除此之外,也可以利用同源词和同义词词典等语言 学资源进行对齐。 ( 1 ) 基于同源词的方法 s i m a r d 提出了基于同源词的文本对齐方法【1 5 】。他认为如果两个单词的前四个字母相 同,那么他们就可以被看作同源词。m e l a m e d 提出了“更准确 的基于串匹配判断同源 词的标准【1 4 l 。他提出利用最长公共子串来判断两个单词之间的相似度。r i b e f i o 提出用 统计方法判断同源词【1 6 】。 面向生物医学领域的双语对齐技术研究 同源词是进行文本对齐的一种非常有效的知识。狭义的同源词指不同语言中在拼写 或者发音上高度相似的可能互译的词对。这种相似可能是因为有共同的起源,如英语的 “n i g h t 和德语的“n a c h t ”;也有可能来源于不同语言的借词,如英语的“k u n gf u 和汉语的“功夫 。广义的同源词除此之外还包括数字和标点符号等。可以说,各种双 语对齐语料中,都包含着这样那样的同源词。 有多种方法可以计算不同语言之间的单词的同源程度,如s i m a r d 准则、d i c e 系数 和l c s r 等。 s i m a r d l l 5 1 提出一种简单的判断法语和英语单词是否为同源词的方法:如果两个单词 都包含多余四个字母并且它们的前四个字母相同,那么认为它们是同源词。 d i c e 系数 3 9 】定义为两个单词相同部分的模与两个单词的模之和的比值( 这里的模是 以b i g r a m 为单位计算的) 。例如“c o l o u r 和“c o u l e u r ,他们相同的部分( 以b i g r a m 单位) 为“g o 、“o u 和“u r ”,这两个单词各包含5 个和6 个b i g r a m ,因此他们之 间的d i c e 系数为6 1 1 。 l c s r 定义为两个单词的最长公共子序列的长度与两个单词中较长的一个单词的长 度的比值。例如,对于“c o l o u r ”和“e o u l e u r ,它们最长公共子序列为“c o 1 u - r , 故l c s r ( c o l o u r ,c o u l e u r ) = 5 7 。 k o u n d r a k 的实验结果显示,引入同源词可以提高对齐的召回率和准确率,使错误率 降低1 0 左右。 基于同源词的词对齐方法特别适合在缺乏机器可读的双语字典时使用。但如果需要 进行对齐的两种语言不属于同一个语系的话,基于同源词的方法就难以发挥作用了。 ( 2 ) 基于双语词典的方法 h u a n g 1 7 1 指出即使对于属于不同语系的两种语言,它们的词汇在语义上仍然具有相 似性。描述两种语言相似性的最好的工具就是双语字典旧。 基于双语词典的对齐方法的指导思想是含有对译词的对齐片段的对译概率大。由于 双语词典的有限性和自然语言使用的灵活性,使得基于词典精确匹配方法的有效性非常 低。这样就提出了基于词典模糊匹配的对齐方法。例如下面的双语片段: t h ea m o u n to fo n eh u n d r e dy u a ni sw r i t t e ni nc h i n e s ec a p i t a ln u m e r a lc h a r a c t e r s 1 0 0 元人民币要用大写的中国数字填上。 其中,“c h i n e s e ”的词典译文有“中国人;中国的;中国话”,尽管译文中没有词 典译文,但是根据词典译文应该也能识别出对应。 汉语词c 1 和乞的模糊匹配相似度定义为【1 9 】: 大连理z 大学硕士学位论文 晰= ( 榭 t , 其中,l qn q l 为c 1 和乞所含的公共字的个数,h l 和| c 2 1 分别为c 1 和如所含字数。 英语词e 和汉语词。的匹配相似度为: d t s i m ( e , c ) 鬻舳m a 殆x s i m ( 、d , c ,) + 、c 蠢o 。强u n f ( s i m ( d , c ) j l z ) 一1 ) 0 1 ( 1 2 ) 其中,d t e 为e 的所有译文,h 为相似度的阈值,c o u n t o 为次数统计函数。 基予模糊匹配豹词典对齐在对齐精度下降不大的情况下可以有效地提高对齐的召 回率。 ( 3 ) 基于同义词信息的方法 k e r l 2 1 】提出了一种基于语义类的词对齐方法。k e r 在研究过程中,弓l 入了同义词词 林,扩大了对齐的召唤率,使得一些低频的词汇得到了对齐。 在英汉双语对齐中,同义调词林是现代汉语比较常用的一部语义类词典。周义词词 林以语义树的形式组织各个语义类,所以两个词义s 和& 之间的语义距离 s e n s e d i s t ( s 1 ,是) 可以定义为语义树中结点s 到结点是的最短潞径的长度。显然, s e n s e d i s t ( s 1 ,是) 越小,& 和是在语义上越相似。定义词义连和是的语义相似度为: s e n s e d i s t ( s ,是) = v & 凇p 。芝叹s 、;岛x 委二曼 ( 1 3 ) 则,定义两个汉语词岛和岛的语义相似皮为: c c c s i m ( g ,岛) = m 。a x 。s e n s e s i m ( s 1 ,最) ( 1 4 ) 定义英语单词e 和汉语单词矿的语义相似度为: e c c s i m ( e ,c ) 2 汹m a 孙x c c c s i m ( 、d ,p ) ( 1 5 ) 1 3 2 统计方法 统计方法又称为基于语料库的方法,指利用从语料库中获得的各种信息进行对齐的 方法,主要分为基于统计机器翻译模型的方法和启发式方法两个大类。 1 3 2 1 基于统计机器翻译模型的方法 b r o w n 2 1 】在统计机器翻译上的工作引领了基于统计机器翻译模型的方法研究的高 潮。统计机器翻译的基本思想是,把规器醺译看成是一个僖怠传输的过程,用种信道 模型对机器翻译进行解释。假设一段源语言文本s ,经过某一噪声信道后变成目标语言 面向生物医学领域的双语对齐技术研究 t ,也就是说,假设目标语言文本t 是由一段源语言文本s 经过某种奇怪的编码得到的, 那么翻译的目标就是要将t 还原成s ,这也就是一个解码的过程i z 2 】: s = a r g m a x p ( tls ) p ( s ) ( 1 6 ) j 公式( 1 6 ) 被称为统计机器翻译的基本方程式( f u n d a m e n t a le q u a t i o no fs t a t i s t i c a l m a c h i n et r a n s l a t i o n ) 。 在这个公式中,p ( s ) 是源语言的文本s 出现的概率,称为语言模型。p ( tij ) 是由 源语言文本s 翻译成目标语言文本f 的概率,称为翻译模型。语言模型只与源语言相关, 与目标语言无关,反映的是一个句子在源语言中出现的可能性,实际上就是该句子在句 法语义等方面的合理程度;翻译模型与源语言和目标语言都有关系,反映的是两个句子 互为翻译的可能性。在进行翻译模型的参数估计的过程中,可得出“副产品 词对齐。 1 3 2 2 启发式方法 基于统计机器翻译模型的方法比较复杂,时间和空间的消耗极大,不易理解、实现 和调试。而启发式的方法同样利用双语语料库的统计信息,却非常简单。在启发式方法 中,通过计算共现度来对齐单词。通常利用d i c e 系数、互信息、矽2 等来计算共现度【1 9 , 2 3 - 2 8 】。 计算时常用到下面的联立表。 表1 1 联立表 t a b 1 1 c o r e l a t i o n t a b l e 表1 1 中a 、b 、c 、d 的含义如下: a 为语料库中同时出现s 以及t 的旬对总数; b 为语料库中仅出现s 而没有出现t 的句对总数; c 为语料库中仅出现t 而没有出现s 的句对总数; d 为语料库中既没有出现s 也没有出现t 的句对总数; ( 1 ) d i c e 系数按照公式( 1 7 ) 计算: 嬲( s t ) 2 瓦而l a 可 ( 2 ) 互信息按照公式( 1 8 ) 计算: ( 1 7 ) 大连理工大学硕士学位论文 琊力札g :锱 ( 3 ) 矽2 按照公式( 1 9 ) 计算: ( 1 8 ) m ,) = 万而( 可a d - 丽b c ) 2 ( 1 9 ) 1 4 本文研究背景和组织结构 1 4 1研究背景 本文以国家8 6 3 基金项目基于语义的跨语言信息检索平台为依托,构建生物医 学文献双语术语词典。跨语言信息检索的第一步就是查询翻译,查询翻译效果的好坏就 直接影响着跨语言信息检索结果的准确率。在生物医学领域跨语言信息检索过程中,我 们需要一部生物医学领域的双语词典进行查询翻译,为了使查询翻译的结果更加接近实 际查询者的查询需求,双语词典应该在粒度和应用背景上与实际应用接近。 我们决定以近年来生物医学文献双语摘要为资源,从双语摘要段落中抽取双语术语 词对。 1 4 2 组织结构 本文内容主要分为四章,具体安排如下: 第一章是绪论,介绍论文的选题背景、重点介绍以生物医学领域为应用背景的双语 对齐及其研究意义;具体介绍了双语对齐技术的各种方法和研究现状;简要介绍论文的 主要研究内容和篇章结构。 第二章介绍了一种基于锚信息的生物医学文献双语摘要句子对齐技术。首先从句子 对齐的概念入手,介绍了句子对齐的概率模型以及句子对齐的方法( 基于长度的方法、 基于词汇的方法以及两种方法结合的方法) ;然后以实际应用的需求为前提,分析了真 实生物医学语料的特征,提出了基于锚信息的带权二部图最大权重匹配模型,考虑了实 际文本中双语句子的长度信息、位置信息以及锚信息( 英文单词及其缩写、指标信息、 阿拉伯数字以及格式化用语) ,并在上述分析的基础上介绍了具体的实验和实验结果, 并对实验结果进行了比较、分析和总结。 第三章介绍基于迁移学习理论和分类思想的句子对齐技术。本章从一个全新的角度 理解句子对齐,用分类的思想处理句子对齐任务。本章首先介绍了迁移学习理论的基本 概念、思想及其应用领域;然后介绍句子对齐的分类思想处理;介绍了高斯混合模型分 面向生物医学领域的双语对齐技术研究 类器及其参数估计的方法;最后介绍了具体的实验和实验结果,并对实验结果进行了比 较、分析和总结。 第四章是在第二章和第三章句子对齐的基础上,进一步进行双语词汇级对齐的研 究。首先介绍词对齐的概念和词对齐的方法,本章以实际应用为主要目的,在以上两章 基础上进一步处理,得到查询翻译所需的双语词典。 最后,总结整个论文的主要研究成果和创新点,并指出了存在的有待进一步解决的 问题以及今后的研究方向。 大连理工大学硕士学位论文 2 基于锚信息的句子对齐 相对于其他粒度的双语语料库对齐技术而言,对句子级别的对齐的研究是相对较多 的一个部分。一方面,因为许多基于双语库的应用般都要求双语语料库至少要做到句 子级的对齐,如双语词典的编纂( b i l i n g u a ll e x i c o g r a p h y ) 、机器翻译 2 9 训】( m a c h i n e t r a n s l a t i o n ) 、知识获取3 2 。3 3 】( a c k n o w l e d g ea c q u i s i t i o n ) ;另一方面,句子对齐又常常是 进行更细粒度的对齐( 如短语对齐和词对齐) 的必要前提。总而言之,句子对齐具有十分 重要的应用价值,进行句子对齐是双语语料库走向实用的重要步骤。本章针对生物医学 领域双语对齐的特点,在已有的基于长度的方法的基础上,提出了一种基于锚信息的生 物医学文献双语句子对齐技术。 2 1 句子对齐的概念 对双语文本进行句子级的对齐,就是要确定源语言文本中哪个( 些) 句子和目标语言 文本中哪个( 些) 句子互为译文。如果平行语料库中的源语言句子和目标语言句子是一一 对应而且顺序相同的话,那么句子对齐的问题将变得相当简单。但是,真实文本并不是 这样的理想情况。如图2 1 所示例子: h a t i 具有良好的生物相容 h a t ii s b i o c o m p a t i b l ea n d 性和生物力学性能,是值得进一 h a sb e t c e rb i o m e c h a n i e s 1 1 忙h a t i 步研究、并可望试用于临床的种 i sw o r t hf u r t h e ri n v e s t i g a t i n ga n d c o u l db er e c o m m e n d e df o rc l i n i c a l 植体。 a p p l i c a t i o n s 图2 1非一对一互译的例子 f i g 2 1 t h ee x a m p l eo f n o tm a t c h ( 1 :i ) 定义2 1 假设源文本文s 以及对应的译文文本t 的一个长度为l 的对齐 = 厶,厶,厶) ,厶= ( ,玛) ,( 汪1 ,2 ,z ) 。如果每个、码分别包含原文或者译 文零个、一个或者多个,则三称为s 、t 的一个句子对齐。瓯中包含的句子的个数a 和 儿,中包含的句子的个数b 之比称为句子对的对齐模式m a t c h ( l ,) ,记为 m a t c h ( l ,) = ( a :b ) 。 真实双语文本中,源语言和目标语言的句子的对齐模式可以分为一下九种情况: ( 1 ) ( 卜0 ) :源语言的句子在翻译成目标语言时被删除或者丢失; 面向生物医学领域的双语对齐技术研究 ( 2 ) ( 0 1 ) :翻译时出现了一个新的目标语言的句子; ( 3 ) ( 卜1 ) :一个源语言句子与一个目标语言句子互译; ( 4 ) ( 卜2 ) :一个源语言的句子与两个目标语言的句子互译; ( 5 ) ( 2 一1 ) :两个源语言的句子与一个目标语言的句子互译; ( 6 ) ( 2 2 ) :两个源语言的句子与两个目标语言的句子互译; ( 7 ) ( 卜3 ) :一个源语言的句子与三个目标语言的句子互译; ( 8 ) ( 3 1 ) :三个源语言的句子与一个目标语言的句子互译; ( 9 ) 其他。 g a l e 和c h u r c h 2 5 1 曾在u b s 语料库中对这六种配对模式的分布频度做过一次统计, 他们发现,在大约9 0 的情况下,源语言和目标
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 银行运营风险管理自查报告
- 游戏俱乐部合同模板5篇
- 完整文档版采购合同范本
- 【《网络经济环境下中国居民消费实现机理的微观分析》6000字】
- 【《员工工作压力的成因及其干预机制研究》开题报告(含提纲)2800字】
- 2025年浙江省医疗器械专业技术资格考试(医疗器械专业知识与技能)历年参考题库含答案详解
- 项目的咨询方案
- 现代大型网吧施工方案
- 2025年月b级真题答案
- 基于大数据分析的2025年校园安全风险预测与防范解决方案应用报告
- (2025)防溺水知识竞赛题库含答案(完整版)
- 2025 河北省一级建造师《港口与航道工程实务》试题 (押题) 带答案解析
- 2025年校招:财务岗试题及答案
- 项目工程审计整改方案(3篇)
- 2025年医院心理测试题范文(附答案)
- 2025年民政行业技能鉴定考试-墓地管理员考试历年参考题库含答案解析(5套典型题)
- 小学数学命题培训课件
- 新生一年级学生习惯培养课件
- 安全工作三管三必须是什么
- 中国手机美容市场深度调研分析及投资前景研究预测报告
- 2025年图书馆管理员考试试卷及答案
评论
0/150
提交评论