(计算机应用技术专业论文)基于最大熵模型的英文名词短语指代消解.pdf_第1页
(计算机应用技术专业论文)基于最大熵模型的英文名词短语指代消解.pdf_第2页
(计算机应用技术专业论文)基于最大熵模型的英文名词短语指代消解.pdf_第3页
(计算机应用技术专业论文)基于最大熵模型的英文名词短语指代消解.pdf_第4页
(计算机应用技术专业论文)基于最大熵模型的英文名词短语指代消解.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(计算机应用技术专业论文)基于最大熵模型的英文名词短语指代消解.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着信息呈爆炸式增长,人们对信息精确定位的需求促进了自然语言处理技 术的研究。指代消解是自然语者理解中的重点和难点之一。它一方面综合了多利 自然语言处理技术,如词性标注、名词短语识别、句法分析等;另一方面,在一 些自然语言处理的应用技术中,如文本摘要、问题回答等,它又是一个重要的组 成部分。 本文针对英文名词短语的指代消解问题,提出了一种基于最大熵模型的学习 算法: 1 我们利用少量的标注语料供最大熵模型训练,产生规则集,取代了传统 的手工构建规则集的做法。该模型具有较高的精度,试验结果证明其在指代 消解问题上是比较成功的。 2 本文采用的方法一一有指导的机器学习策略,在英文名词指代消解问题 上取得了与最优的非机器学习方法可比的成绩。本文设计的系统在m u c 7 的评测语料上达到的性能接近参评系统的最优成绩。 3 本文设计的指代消解系统,作为一个组成部分被引入到文本摘要系统 中,试验结果证明了其有效性。而该文本摘要系统在d u c 2 0 0 3 上取得了较 好成绩。 4 我们设计了一个演示系统,用以直观地显示文本中指代链的情况。 关键词:指代消解自然语言处理,最大熵模型机器学习 复旦大学硕士学位论文 牲十垃犬熵模型的英文名词氟i l 语指代消斛 a b s t r a c t w i t ht h ei n f o r m a t i o n i n c r e a s i n ge x p l o s i v e l y , t h e n e e df o r p r e c i s e l yl o c a t i n g i n f o r m a t i o ng i v eas t r o n gi m p e t u st ot h er e s e a r c hi nn a t u r a ll a n g u a g ep r o c e s s i n g m l p ) a so n eo ft h ef o c u s e si nn l p , c o r e f e r e n c er e s o l u t i o nc o m b i n e sm a n yn l p t e c h n i q u e s s u c ha s p a r t - o f - s p e e c ht a g g i n g ,a s w e l la ss e r v e sa sa l l i m p o r t a n t c o m p o n e n t i ns e v e r a ln l p a p p l i c a t i o n si n c l u d i n g t e x ts u m m a r i z a t i o n s y s t e m s t h i st h e s i si n t r o d u c e sal e a r n i n ga l g o r i t h mb a s e do nm a x i m u m e n t r o p ym o d e l i n g t or e s o l v et h ec o r e f e r e n c ei ne n g l i s hn o u n p h r a s e s 1 a f t e r t r a i n i n go n as m a l ls a m p l es e t ,t h i sa l g o r i t h mp r o d u c e sar u l es e t ,w h i l e t r a d i t i o n a la p p r o a c h e sc d n s t r u c ts u c hr u l es e tm a n u a l l y a n dt h er e s u l t so f t h e e x p e r i m e n t s s h o wt h a tt h i s p r o b a b i l i t ym o d e l i s s u c c e s s f u la n d d e m o n s t r a t ei t sh i g hp r e c i s i o n 2 t h e s u p e r v i s e dl e a r n i n ga p p r o a c ha d o p t e d i nt h i st h e s i sa c h i e v e st h e c o m p a r a b l ep e r f o r m a n c e w i t ht h eb e s t n o n - l e a r n i n ga p p r o a c h e s t h e e v a l u a t e dr e s u l t so fo u rs y s t e ma r ev e r yn e a rt h eb e s tr e s u l t so ft h eo t h e r s y s t e m sp a r t i c i p a t i n gi nm u c 一7 c o r e f e r e n c et a s k 3 t h i sc o r e f e r e n c er e s o l u t i o ns y s t e ma l s os e r v e sa sac o m p o n e n ti nat e x t s u m m a r i z a t i o ns y s t e m t h ee x p e r i m e n t sg i v ep r o o fo ni t su s e f u l n e s s a n d t h et e x ts u n u l l a r i z a t i o ns y s t e ma c h i e v e sag o o d p e r f o r m a n c e i nd u c 2 0 0 3 4 t oi l l u s t r a t et h ee o r e f e r e n c ec h a i n si nat e x t ,w ep r e s e n tad e m os y s t e m k e y w o r d s :c o r e f e r e n c er e s o l u t i o n ,n a t u r a ll a n g u a g ep r o c e s s i n g , m a x i m u m e n t r o p ym o d e l i n g ,m a c h i n el e a r n i n g 复旦大学硕士学位论文牡十最大熵模型的英文名例如语桁代消解 1 1 简介 第一章引言 随着信息时代的来临,各种信息呈爆炸式增长。人们在享受多样信息提供的 便利的同时,也面临着大海捞针的困境:如何从浩如烟海的信息中找到自己所需 要的内容。一些集成了自然语言处理( n a t u r a l l a n g u a g e p r o c e s s i n g ) 多方面成果 的技术,如搜索引擎【1 】、文本摘要( t e x ts u m m a r i z a t i o n ) 、问题回答( q u e s t i o n a n s w e r i n g ) 等系统,从不同角度来满足人们对精确定位信息的需求,大大方便 了为信息所累的用户。与此同时,人们发现这些系统仍然无法真正实现“所搜即 所求”,因此对它们的精度提出了更高要求。为了提高系统性能,必须从各个方 面提高自然语言处理技术的水平。 自然语言富有表现力,从而给予自然语言的使用者一一人:提供了表达上的 便利性。即使是描述同一个确定的事物,两个作者写出的作品也往往大相径庭。 而这样的便利对语言学家和计算语言学的研究者则提出了巨大挑战。挑战之一便 是如何处理指代一个实体可以有多种表述方式。例如在一篇有关约翰肯尼 迪( j o h nek e n n e 咖) 的英语文章中,我们可以看到对他的多种不同表述:名称 缩写( z e k ) 、总统( t h e p r e s i d e n t ) 、这个人( t h em a n ) 、他( h e h i m ) 等。事实 上,一篇引人入胜的文章必然采用多样的表达方式来讨论同一个实体,而对自然 语言处理系统来说,无疑是难度巨大的。 在文本中寻找有关同一个实体的多种表述的过程被称作指代消解 ( c o r e f e r e n c er e s o l u t i o n ) 。观察下面的句子: j e f f w a sa n g r y a lt h ew a yt h a tk e mw r o t et h ec o d e i na f i t o f f r u s t r a t i o n , h e s l a p p e d h i ma n ds t o r m e d a w a y 绝大多数的读者会认为这句话说的是j e f f 打了k e m ,即认定句子中的加指的是 j e f f , 而h i m 指的是k e m 。要理解句子读者就必须要分析这里出现的指代现象。 指代现象在文章中常贯彻始终,这种普遍性使得指代消解成为自然语言处 理中的难点之一。在很多自然语言处理的应用技术中,指代消解都属于关键的一 环:例如自然语言交互接1 2 ( n a t u r a ll a n g u a g ei n t e r f a c e ) 、机器翻译( m a o h i n e t r a n s l a t i o n ) 、文本摘要、信息抽取( i n f o r m a t i o ne x t r a c t i o n ) 、问题回答等等。 对指代消解重要性的认识程度,经历了一个发展过程,从2 0 世纪8 0 年代末 期到9 0 年代中期,美国政府举办了一系列对信息抽取技术进行评测的国际会议, 也就是著名的消息理解会议m u c ( m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ) f 2 】【3 。 复旦人学埘:l 学位论文基于最人熵模型的英文名蒯短语指代消删 m u c 的目的在于评估信息抽取系统的水平。指代消解是信息抽取中一个重要部 分。缺少了它,一个信息抽取系统可能从文本中找到很多看似无关的实体表述, 而事实上该系统应该识别出这些表述实质上是在描述同个实体。一个缺乏指代 消解模块的信息抽取系统,其结果将不能反映文章的内容,如果在此基础上建立 对文章的表达,对后续工作很可能是个误导。研究者日益认识到指代消解的重要 性,从m u c 6 开始,它成为一个被单独评测的任务 4 。 自1 9 9 2 年起,美国国家标准局( n i s t ) 组织召开了一年一度的文本检索评 测会议,即所谓的t e x tr e t r i v a lc o n f e r c n c e ( t r e c ) 【5 。近年来,问题回答子 任务成了其中的热点。作为集自然语言处理技术予大成的问题回答系统,同样需 要指代消解系统。下面的问题和答案摘自t r e c l 0 。 q 8 9 6 w h ow a s g a l i l e o ? “m o r et h a n4 5 0 y e a r sa f t e rt h ec h u r c ht r i e dg a l i l e og a l i l e i f o ,h e r e s y , p o p e j o h np a u l1 1c a m et ot h ea s t r o n o m e r sh o m e t o w n a n d p r o n o u n c e d t h ew o r d s m a n y p i s a n sh a v el o n g e d t oh e a r :g a l i l e ow a sr i g h ta n dt h ec h u r c hw a s w r o n g 如果没有指代消解系统的辅助,就很难找出这个问题的答案:a s t r o n o m e r 。 由于指代消解在自然语言理解中所处的特殊地位和重要作用,它受到了很多 研究者的关注。本文将阐述作者在这方面的研究情况。 1 2 本文的组织 本文的组织如下: 第二章通过一个实例来介绍指代消解的过程,分析了指代消解的特点和难 点,提出了我们的系统框架,并对现有的指代消解算法进行了回顾与总结。 第三章针对英文名词短语的特点,提出了一个基于最大熵模型来处理其指代 消解问题的算法。 第四章分析了算法的性能,并与其它一些可比算法进行了对比。另外介绍了 我们的算法在文本摘要系统中的应用,以及一个演示系统。 第五章总结了全文,并探讨了进一步研究的方向。 2 复旦大学硕士学位论文 摧于最大熵模型的英文名恻短语指代消斛 第二章背景及相关工作 2 。1 一些词汇的定义 在描述指代消解的过程以前,我们将对其中涉及到的一些词汇给出定义。首 先,让我们继续考察第一章中的例句: 0 瑚j w a s a n g r y a tt h ew a y t h a t k e m j k w r o t et h ec o d e i na f t to f f r u s t r a t i o n ? ( h e j j s l a p p e dc h i m y r a n ds t o r m e d a w a y 如第一章所述,我们认为句子中的加指的是j e f f , 而h i m 指的是k e m 。这里, h i m 被称作是指代词( a n a p h o r ) ,j e f f 被称作是祖先词( a n t e c e d e n t ) 。一个词是指 代词时,我们称其为指代性的( a r t a p h o r i c ) 。在本文中,如果不特别说明,一般 认为祖先词出现在指代词前面。 在第一章中,我们指出指代反映的是对一个实体的多种表述方式。这里的实 体未必是现实中真实存在的实体,例如现实中不存在神话人物,但是人们可能会 经常提到神话人物。所以本文中提到的实体指的是读者脑海中的一种认知表达。 当人们描述某个实体时,实际上建立了从其思想对某种事物的认知到对该事物表 述的一种链接。例如,在一篇文章中“a l a nt u r i n g ”,“t h e f a t h e ro f m o d e r nc o m p u t e r s c i e n c e ”,“h e ”都指的是同一个人。指代在交流上的作用正是将这些原本可能是 分散在各个句子、各篇文章中的关于同一个实体的描述信息关联起来。正如 6 中所指出的,指代在某种意义上说是自然( n a t u r e ) 本身的超链接( h y p e r l i n k ) 。 但是由指代所关联的这些表述之间可能存在着很复杂的关系,其中至少有下 列三种关系必须特别关注: 1 相等( i d e n t i t y ) :指代词与其祖先词表达完全相同的实体,反之亦然。 例如上述例句中的j e f f 和加。 2 部分一整体( p a n w h o l e ) :指代词表达的是祖先词的一部分。例如: t h em e a l w a s ad i s a s t e rb e c a u s e t h em a i nd i s h w a so v e r d o n e 句子中的t h em e a l 表述的是整体概念,t h em a i nd i s h 表示的是部分概念。 3 一般一特殊( g e n e r a l - - s p e c i f i c ) :指代词表达是比祖先词更一般的情况。 例如:口m c d o n a l d sr e s t a u r a n t w i l ls o o no p e ni n 胁打u n i v e r s i t y f a s t f o o d f r a n c h i s e s a r et a r g e t i n gu n i v e r s i t y f o o d s e r v i c e sa sn e w a v e n u e s y o ,e x p a n s i o n 本文将集中讨论第一种情况。它e e 较容易让人理解,而研究者对其概念也没有歧 义。 复咀_ 人学坝l “学化沦文l t e 干m 人埔校州的碴虻托洲撕i 卅代 | l i 脯 本文采用m u c 6 ( t h e6 “m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ) 中对于指代所 包含对象的规定 7 ,即认为指代关系存在于下列三类元素之间:名词( n o u n ) , 名词短语( n o u np h r a s e ) ,代词( p r o n o u n ) 。这三类元素被统称为待消解项 ( m a r k a b l e ) 。其中代词包括了指示代词和各种人身代词,而时间、货币量、百 分比都被视为名词,如下列两个例句所示: c h e 】s h o tf l l i n t f e l f w i t hf l l i s r e v o l v e r 句中的h e ,h i m s e t f , 缸指同一个人,它们互相指代。 g m a n n o u n c e d i t st h i r d q u a r t e r p r o f i t 1 i t 3w a sc $ o 0 2 句中i t st h i r d q u a r t e r p r o f i t ,i t ,s d 0 2 同指一个利润。 当两个待消解项代表的是同一个实体时,就认为它们之间存在指代关系。 指代有多种类型【8 】,其中最受计算语言学领域关注的三种类型是: 1 代词指代( p r o n o m i n a l a n a p h o r a ) :这是最广泛的一种指代关系,特指那 些涉及到代词的指代现象,如: h s i t o r s j f r o mm a n yd i f f e r e n tc o u n t r i e s a t t e n d e dt h i se x h i b i t i o n t h e y f o u n d i tw a s 舟l io f a m a z i n g t e c h n o l o g i e s 2 限定性名词短语指代( d e f i n i t en o u n p h r a s e a n a p h o m ) :一个祖先词被一 个限定性名词短语指代,如: v i s i t o r s f r o mm a n yd i f f e r e n tc o u n t r i e s a t t e n d e dt h i se x h i b i t i o n t h e p a r t i c i p a n 叼f o u n d i tw a s f u u o f a m a z i n gt e c h n o l o g i e s 3 单一指代( o n e a n a p h o r a ) :用一个含有”o n e ”的短语来指代前面描述 的对象,如: z y o uc a n 。ta t t e n d t h ee x h i b i t i o n t h i sm o r n i n g , y o uc a ng o 如r a na f t e r n o o n o n 盯 后续章节中将多次使用本节所介绍和定义的词汇。 2 2 指代消解的过程 为了说明指代消解的过程,考察下面一个例句: t h e n a t i o n a lt r a n s p o r t a t i o ns a f e t yb o a r d j ai sb o r r o w i n g ( 4b o e i n g7 3 7 8 f r o m s e a t t l e t sm u s e u mo ff i i g h t ca sp a r to f i t s j ai n v e s t i g a t i o nb t t ow h y 加s i m i l a r j e t l i n e r j oc r a s h e d n e a r p i t t s b u r g h 加1 9 9 4 t h e m u s e u m j c 台a i r c r a f t s , i r o n i c a l l y e n o u g h , w a sd o n a t e db yu s a i r , w h i c ho p e r a t e d t h e 口卸l a n et h a tc r a s h e d o , k i l l i n g 1 3 2 p e o p l e o nb o a r d 复h 人学烦产化论立j kj :卅凡蝴模,n j 越证乱i 州锄m 卅代消m v 例旬中表述同一实体的祖先词和指代词有同样的下标。我们需要设计一个系统自 动地找出指代词和祖先词之间的指代关系。首先必须找出哪些名词或短语是指代 性的,而哪些不是。例如上旬中的p i t t s b u r g h 就不是指代性的。其次,对特定的 指代词,我们从其可能的祖先词列表中找出正确的一个。一般观点可能认为第二 步难于前者,而事实上第一步所涉及的问题可能更复杂 9 。 当系统要处理上述的例句时,它首先必须判断出p i t t s b u r g h 不是指代性的, 而t h ea i r p l a n et h a tc r a s h e d 却是指代性的。系统可以通过大小写来判断出前者是 专有名词,后者不是。不少研究工作或应用系统将其处理对象限定于对代词作为 指代词时的情况。因为代词通常都是作为指代词使用,它们有明确的指代对象。 这样的做法就跳过了第一步,但是其应用性也打了折扣。事实上,一篇文章中名 词之间存在的指代关系非常重要。而上述例句中也反映出这样的问题:句子中只 有一个代词沁,更多的是名词与名词短语。要设计一个能处理多种指代现象的 系统,就不能忽视这个问题。 假设我们已经有办法来判断例旬中哪些名词是指代性的,于是得到了一个指 代性词袭:沁,r 托m u s e u m a i r c r a f t ,m u s e u m 和t h ea i r p l a n et h a tc r a s h e d 。接着 需要为它们一一找出其对应的祖先词。我们可以设定一系列的鉴定标准,如:一 致性( 单复数、性别) 、语义联系、词形相似性等,用此来判断一个指代词是否 指代出现在它前面的某个词。以t h ea i r p l a n e t h a tc r a s h e d 为例,我们可以分析出 p i t t s b u r g h 代表的是地点,与航空词汇a i r p l a n e 语义上没有联系( 这里假定我们 判断出t h ea i r p l a n et h a tc r a s h e d 中核心词为a i r p l a n e ) ,所以p i t t s b u r g h 不是珐e a i r p l a n e t h a tc r a s h e d 的祖先词。通过类似分析可以判断出t h en a t i o n a l t r a n s p o r t a t i o ns a f e t y b o a r d 和s e a t t l e sm u s e u m o f f l i g h t 也不会是它的祖先词。砌e a i r p l a n et h a tc r a s h e d 最可能指代的祖先词只能是ab o e i n g7 3 7 ,as i m i l a r j e t l i n e r 和t h em u s e u m sa i r c r a f t 。上面的分析可以归纳为下表 候选祖先词筛选理由 t h en a t i o n a lt r a n s p o r t a t i o ns a f e t yb o a r d 语义不一致 a b o e i n 9 7 3 7 可能的祖先词 s e a t t l e 。sm u s e u mo f f l i g h t 可能的祖先词 as i m i l a r j e t l i n e r语义不一致 t h em l l s e u l n sa i r c r a f t可能的祖先词 表2 1 :t h ea i r p l a n et h a tc r a s h e d 可能的祖先词筛选表 当我们需要对三个候选祖先词进行更细致的语义分析时,就会发现面临的困 境是这三个祖先词和t h ea i r p l a n et h a tc r a s h e d 都表示的是飞机,这使得我们难以 区分它们( 这里假定我们通过某种知识库知道ab o e i n g7 3 7 是一架飞机) 。可能 复且火学硕i 学位论文 。e 于埔人熵丰c lj n 晌砸芷能洲觚i 彳旨代订1 鲥 更好的一个做法是考虑旬式应用上的呼应关系。考察这样的对应: c r a s h e d 和 t h a tc r a s h e d ,可以发现它们之n 有紧密的语义关系,可以用这个来认定 和 同指一个实体,即例句中的as i m i l a rj e t l i n e r 是t h ea i r p l a n et h a t c r a s h e d 的祖先词。 2 3 指代消解的特点与难点 从2 2 节的例子可以看出指代消解过程的一些特点。 首先指代消解的处理对象不仅限于代词与名词之间的指代关系,还包含了名 词、名词短语之间的相互关系。这使得指代消解的难度大大增加了,特别是一般 的名词或名词短语之间的指代关系更复杂。考察下面的例旬: t h ea r c e b a t t a l i o nc o m m a n 刃h a sr e p o r t e dt h a ta b o u t5 0 p e a s a n t sh a v e b e e nk i d n a p p e d 砂t e r r o r i s t so ft h ef a r a b u n d om a r t in a t i o n a ll i b e r a t i o nf r o n t 加 s a am i g u e ld e p a r 砌e n t a c c o r d i n gt o t h a tg a r r i s o n , t h em a s sk i d n a p p i n gt o o k p a l c e o n3 0d e c e m b e r 要分析上述句子中的指代关系,必须进行语义分析,找出c o m m a n d 和g a r r i s o n 之间的语义联系。但这又涉及到自然语言处理中另一个难点:语义消歧( w o r d s e n s ed i s a m b i g u a t i o n ) 【1 0 。在2 2 节的例句中,如果不进行语义消歧,而简单 地以某词的第一个词义作为其在该旬中的语义,我们就可能得出一个错误的指代 关系:t h en a t i o n a lt r a n s p o r t a t i o ns a f e t yb o a r d 是旬子最后一个词b o a r d 的祖先 词。事实上t h en a t i o n a lt r a n s p o r t a t i o ns a f e t eb o a r d 中的b o a r d 意思是“管理委 员会”,而第二个b o a r d 仅仅表示“甲板”,引申为“在飞机上”。另外,为了正 确分析指代关系,对句子要进行句法分析,在目前句法分析技术仍不是非常完善 的情况下,这给指代消解带来了不少难度。可见,指代消解包括了多种自然语言 处理的基本技术,如词性标注、句法分析、语义消歧等,这使得其困难程度大增。 其次在一篇文章内,指代关系其实是一种传递关系。比如在一个句子中, a 和b 相互指代,b 和c 相互指代,那我们可以认为a 和c 相互指代。例如某 篇新闻中有这样的句子: f a m i l y m a r tc o o f s e i b u s a i s o ng r o u pw i l lo p e nac o n v e n i e n c es t o r ei n 五a i p e if r i d a yi n a j o i n tv e n t u r ew i t ht a i w a n 女l a r g e s tc a rd e a l e r , t h e c o m p a n y s a i dw e d n e s d a y 2 t h e j o i n tv e n t u r e , t a i w a nf a m u y m a r tc o 。i sc a p i t a l i z e da t1 0 0m i l l i o n n e wt a i w a nd o l l a r s h e l d5 1p c tb yc h i n e s ea u t o m o b i l ec o 4 0p c tb y f a m i l y m a r t a n d9p c tb yeb o ha n d c o ,aj a p a n e s et r a d i n gh o u s e 3 t a i w a nf a m u y m a r tp l a n st o o p e n s e v e nm o r es t o r e si n t a t p e i i n 6 复且大学硕l ? 学位论文,于艟人 j f 械! 靼的樊芷名词蛳 _ 指代消斛 d e c e m b e r , a n d h o p e s t oo p e n2 0 0s t o r e st h r o u g h o u tt a i w a ni n3 y e a r s 如果我们判断出第一句中的口j o i n tv e n t u r e 和第二句中的t h ej o i n tv e n t u r e , t a i w a n f a m i l y m a r tc o 相互指代,同时分析出后者与第三句中的t a i w a n f a m i l y m a r t 存在指代关系,则可以断定第一旬中的aj o i n tv e n t u r e 和第三旬中的 t a i w a nf a m i l y m a r t 也是互相指代的。事实上,如采没有第二旬,人们是很难分 析出a j o i n tv e n t u r e 和t a i w a nf a m i l y m a r t 之间的指代关系的。 因为指代关系具有传递性,我们可以发现:对一篇文章的指代关系的分析结 果将会是多条指代链。指代链上的每个节点代表的是对某个实体的表述,这些表 述之间就是指代关系。掌握这样的指代链,对自然语言理解无疑有着巨大帮助。 正是由予指代消解问题的复杂性,其算法的设计成为一个难题。有这样几个 难点必须考虑: 1 正如2 2 节中提到的,如何判断哪些名词或短语是指代性的将是指代消解 系统面临的第一个难题。特别是对于限定性名词短语( d e f i n i t en o u np h r a s e ) , 其中有很大一部分都不是指代性的,这给指代消解任务增加了难度。 2 在2 2 节中,我们用一些鉴定标准,或鉴定因素 1 1 1 来判断两个指代性短 语是否互相指代。然而这些鉴定因素有时并不可靠。例如在下面句子中,当我们 试图用单复数一致性来判断时就会导致错误: “f w b e l i e v et h a tt h ea i r c r a f ti sd o w n s o m e w h e r e nt h ev i c i n i t yo f t h ef l o r i d a e v e r g l a d e s , t h e f a a s p o k e s m a n , a n t h o n yy h l l e t t , s a i d 句子中的肫并不是指人,而是代表了f a a 这个机构,前者通常被认为是复数, 而后者却是单数。 3 当我们用一系列鉴定因素的组合来判断两个表述是否相互指代时,如何 恰当使用这些因素的组合( 全部或部分) ,以怎样的优先级来应用这些鉴定因素, 这些都是需要考虑的问题。 2 4 指代消解系统框架 现有的指代消解方法主要存在着以下的一些问题: 首先,缺乏一个能自动进行准确判断的系统。大部分的消解系统都需要不少 预先处理好的相关知识,例如名词短语的单复数形式,语义标志( 例如指代的类 别是人类还是动物等) 及语法结构等。而这些相关的知识往往被组织成为一套词 典。但是这些词典通常是需要大量的人工参与,这会是一个相对漫长和繁琐的过 程。 复且大学硕士学位论文 某于最犬熵模型的英文名词短语指代消肼 其次,上面提及的辞典往往是着重于某一个特定的领域,所以如果该系统被 移植至一个新的( 专业) 方面,基本上这一整套的辞典就需要重新的编写- 可重 用性不好。 再次,目前大部分的系统都过于依赖前端预处理的自然语言处理接口引擎, 一旦该引擎的性能不理想,相应地消解系统的处理输出结果眭能就会大大地下 降。所以需要算法有较强的容错性。 本文提出了一个基于最大熵模型的英文名词短语指代消解系统。目前,最大 熵模型已经被成功地应用于自然语言处理的许多方面,例如在英语句子切分。词 性标注和语法分析,语言模型,机器翻译和专有名词识别等领域。关于最大熵模 型的介绍,请参看3 - 2 节。整个系统的框架如下: 指代消解系统框架 系统分为模型学习过程和模型应用过程。在模型学习过程中,我们应用了多 种自然语言处理工具,如词性标注工具、名词短语识别器、句法分析器等来对标 注过的语料进行预处理。提取出特征向量供最大熵模型学习,进行特征选择。当 应用模型时,同样对语料进行预处理,然后根据学习出来的规则集进行特征匹配 过程,最后进行分类。第三章将对系统框架进行详细描述。 我们的方法和传统的指代消解方法以及其他基于语料的方法相比,具有以下 的优点: 首先,该算法能根据样本自动从特征向量中选择特征组合,并决定不同组合 的权重,避免了费时费力的人工规则构造和参数调试; 其次。扩展性好。它可根据实际情况增减使用领域有关的知识。在本试验中, 宁 甲占 日 日庐叫吟 呵卜 复r j 大学坝l j 学仲论文 o 十m 人= | | i 8 1 = c ! 州的诞殳躬i i i j * i n 7 i 指代订l i 脯 我们只使用了可免费获墩的丌放领域英文浏汇知识渊:w o r d n e t : 再次,抗噪声能力强。由于特征的扶墩都来源于自然语言处理工具的输出结 果,而当前的自然语言处理技术都还不完善,错误不可避免地混杂其中,它们的 累积对结果的影响绝不能忽略不计。因此,算法鲁棒性的好坏对自然语言处理任 务十分重要。试验表明,本方法的容错能力很强。 第四章将对本系统的性能做详细分析。 2 4 1 基于语料的自然语言处理和机器学习 我们的方法采用的是基于语料的机器学习 1 2 】策略。本节中我们将探讨基于 语料的自然语言处理与机器学习之间的联系。 语料指的是大量( 通常是经过挑选的) 的文档的集合,其中经常是加入了很 多关于语义或是语法的标记以用于训练。随着自然语言处理研究的发展,一大批 有用的语料出现,研究者开始关注如何从语料中获取大量的例子,从中抽取出有 用的模板或规则。而2 0 世纪8 0 、9 0 年代举办的一些国际会议,如m u c 、t r e c 等,它们不但提供了语料,而且提供了评价平台。这些为研究者从事基于语料的 自然语言处理方面的研究提供了便利与支持。 基于语料的自然语言处理方法有两方面的优势。首先,研究者可以引入类似 机器自动学习的技术来自动提取语料中的特征,从而尽可能地减少训练前期大量 而繁琐的人工劳动的介入:其次,语料的客观性使得公正而标准化的对自然语言 研究结果的测评成为了可能,对于不同的系统,只要在相同的语料中进行评估, 就可以保证比较的相对公正性。 正是由于各种用于评测自然语言处理系统的大规模语料出现,这使得机器学 习方法成为了自然语言处理中一个潮流。机器学习方法的一个重要应用是消歧 【1 3 】。自然语言本身充满歧义,2 2 节中描述的例句反映的就是一个消歧的问题。 当一个指代消解系统处理这样的句子时,它需要根据所能获得的上下文信息,为 那些指示性名词或短语找到祖先词。 消歧的问题可以看作是一种分类问题,人工智能和机器学习领域对分类问题 已经有了比较深入的研究,这使得机器学习方法在自然语言处理中有了用武之 地。其中应用到的领域有:语音识别中的单词选择,词性标注中的消歧( 例如区 分动词的过去式和过去分词) ,多义词的词义选择,机器翻译中的单词选择等等, 以及本文所要讨论的:指代消解。 复旦大学硼i 学位论文j l 【;j 。址人熵幔性f j 蜒艾乱i 川) :i f i f 撕代鲥 2 5 相关工作 指代消解方面的研究具有很长的历史。包括语言学、心理学、哲学、计算机 科学在内的多方面研究者都认为它是一个很重要的问题,但同时要获得完美解决 相当困难。本节所讨论的相关工作仅限于在计算语言学领域人们做出的研究。 2 5 1 研究历史 1 4 】是采用计算语言学策略来解决指代消解问题的最早的几个方法之一。它 利用一个完全的语法分析树来处理代词指代的问题。h o b b s 算法为很多研究者的 后续研究提供了一个起点。8 0 年代的大部分指代消解研究者的工作重点放在如 何使用领域知识和语言知识上 1 5 1 6 1 7 】。这些知识需要大量的人力来进行输 入,并且难以处理。 随着时代发展,一批自然语言处理系统开始面向实际应用领域。这就迫切需 要设计出健壮性好、开销低廉的解决方案。因此,很多研究者开始转而采取知识 稀少型( k n o w l e d g e p o o r ) 的策略。9 0 年代,一些研究工作者将其所依赖的领域 知识或语言知识限制在一个较小的范围里,取得了一些令人鼓舞的成果 1 8 1 9 2 0 2 1 2 2 。 自然语言研究的发展促使了研究者开发出一些小巧实用、性能良好的自然语 言处理工具,例如词性标注工具( p a r t o f - s p e e c ht a g g e r ) 、浅层语法分析器 ( s h a l l o wp a r s e r ) 等。同时研究者所能获得的语料和其他一些自然语言处理的资 源也大大增加了。所有这些都为面向知识稀少和健壮性好的研究策略提供了有力 支持。事实上,某些语料,特别是那些标注了指代链接的语料,对于指代消解研 究中的训练和评测都是强有力的推动。这些语料不但对机器学习很有价值,丽且 对评测现有的处理方法也有重要意义。不管是利用一些简单指代规则的方法 2 3 】,还是训练决策树来识别指代对象对( a n a p h o r - a n t e e e d e n tp a i r ) 的方法【2 4 】, 或是优化消解因素的算法c 2 5 ,越来越多的研究方法的良好表现理应归功于它们 所获得的语料。 在9 0 年代,知识稀少策略和基于语料的方法代表了这个时期的潮流。与此 同时,指代消解的研究在这个时期也有其它重要进展。例如,第6 届和第7 届消 息理解会议( m u c 6 ,m u c 一7 ) 中引入了指代消解任务,这为指代消解算法和系 统的研究工作提供了巨大的推动 2 6 2 7 】。这个时期也有一些研究者开始观察非 英语类语言中的指代消解问题,如法语、德语、日语和西班牙语等。随着研究者 的兴趣开始投向多语言自然语言处理( m u l t i l i n g u a ln l p ) ,在这样的环境背景下, l o 复旦大学坝? i :学位论文, 十城人:| 1 i 5 模型的荻文名刊蚍 ;开 旨代消斛 多语言的指代消解也在近几年获得很大推动 2 8 2 9 。近几年指代消解研究的重 要进展还包括: 1 概率模型和机器学习的应用 2 4 3 0 3 1 3 2 ; 2 对中心论的进一步研究 3 3 3 4 1 ; 3 跨文档的指代消解研究 3 5 1 1 3 6 1 ; 4 对指代消解评测方法方面的一些研究 3 7 3 8 1 等。 2 5 2 几种基于语料的方法 由于我们的系统采用的基于语料的学习策略,所以本节将介绍一些基于语料 的方法,而对其它类型的方法不多做讨论。 文献【3 9 】【4 0 】都使用了决策树来解决指代消解问题。这种方法需要定义一组 特征来描述由祖先词和指代词形成的词对。然后利用决策树学习出规则。 文献【3 9 】设计了一个利用决策树c 4 5 的指代消解模块,作为它们的信息抽取 系统一个组成部分,并在m u c 5 的语料上进行了测试。其测试结果为8 0 的召 回率,9 2 的精确率。而人工构建的规则只能达到6 8 的召回率和9 4 的精确率。 指代消解评价中召回率和精确率的算法将在4 1 节中给出。但【3 9 】只考虑了指代 消解中一种特殊的情况:其处理的对象仅限于组织名。因此,它所使用的8 种特 征都是非常特殊的,只能应用于特定领域。这种领域相关的特

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论