(计算机应用技术专业论文)统计与规则相结合的指代消解.pdf_第1页
(计算机应用技术专业论文)统计与规则相结合的指代消解.pdf_第2页
(计算机应用技术专业论文)统计与规则相结合的指代消解.pdf_第3页
(计算机应用技术专业论文)统计与规则相结合的指代消解.pdf_第4页
(计算机应用技术专业论文)统计与规则相结合的指代消解.pdf_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

武汉科技大学硕士学位论文第1 页 摘要 随着互联网信息的飞速发展,信息的增加在满足人们对信息需求的同时也给人们快 速、准确的查找所需要的信息带来了一定的难度。在这种情况下,自动文摘系统成为研究 的热点。 在现有的自动文摘中,主要以句子抽取式为主,基于事件的自动文摘就是其中的一种, 其主要思想是将语料中的事件项抽取出来,根据语义资源确定抽取出来的事件项之间的语 义关系,然后根据语义关系计算每个事件项的重要性,进而计算事件项所在句子的重要性 并进行排序,最后按序抽取句子组成摘要。根据自动文摘领域对事件项通用的定义,这里 所说的事件项是位于两个命名实体之间的动词或含有动词意义的名词。 在正常语料中,会出现很多的代词来指代前面已经表达过的名词或命名实体,根据事 件项的定义,在抽取事件项的时候,就会将位于代词之间或代词和名词之间的事件项忽略, 从而减少了抽取出来的事件项的数量,这样就会降低自动文摘的性能。所以对语料中的代 词进行消解成为自动文摘性能提高的关键。 本文利用基于规则和统计相结合的方法对自动文摘源语料中的代词进行消解,首先利 用单纯的规则方法对语料中指代命名实体的代词进行消解,通过对召回率和准确率以及消 解后的文章进行分析,可以看出其不足在于不能很好的确定哪些代词指代命名实体,针对 这一问题将统计中的最大熵的方法和规则相结合进行消解,利用最大熵的方法来弥补单纯 规则的方法所出现的不足,准确确定哪些代词需要消解,提高消解的准确率和召回率,增 加语料中命名实体的数量,从而尽可能多的抽取出语料中的事件项来提高自动文摘的性 能。实验结果表明利用消解后的语料生成的摘要比利用消解前的语料生成的摘要性能提高 了近8 5 ,并且文摘的可读性,信息量也有明显的提高。 关键词:指代消解;规则;最大熵;命名实体;语义关系;事件;自动文摘; 第1 i 页武汉科技大学 硕士学位论文 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e r n e t ,i ti sh a r dt os e a r c ht h en e c e s s a r yi n f o r m a t i o nf a s ta n da c c u r a t e l y w h i l et h ei n c r e a s i n gi n f o r m a t i o nm e e t st h er e q u i r e m e n t so fp e o p l e i nt h i sc a s e ,m o r ea n dm o r er e s e a r c h e r s b e g i nt ob ei n t e r e s t e di na u t o m a t i cs u m m a r y e x t r a t i v es u m a r i z a t i o n ,f o re x a m p l e ,e v e n ts e m a n t i cr e l a t i o nb a s e dm u l t i - d o c u m e n te x t r a c t i v e s u m m a r i z a t i o n ( e s r m d s ) i so n em e t h o do fe x i s t i n ga u t o m a t i cs u m m a r y t h em a i ni d e ao fe s r m d si s e x t r a c t i n gt h ee v e n tt e r m sf r o md o c u m e n ts e t s ,m a k i n gc e r t a i nt h es e m a n t i cr e l a t i o nb e t w e e ne v e n tt e r m s a c c o r d i n gt os e m a n t i cr e s o u r c ea n dc o m p u t i n gt h ei m p o r t a n c eo fe a c he v e n tt e r m ,c o n s e q u e n t l yg a i n i n gt h e w e i g h to fa l ls e n t e n c e sa n dr a n k i n gt h e m ,o r g a n i z i n gt h es u m m a r ys e n t e n c e sa c c o r d i n gt ot h et e x ta tl a s t a c c o r d i n gt ot h ed e f i n i t i o no fe v e n tt e r mi nt h ef i e l do fa u t o m a t i cs u m m a r y ,e v e n tt e l i ni st h ev e r bo rg e r u n d b e t w e e nt w on a m ee n t i t i e s t h e r ea r em a n yp r o n o u n st or e f e rt ot h en o l h io rg e r u n dt h a th a v ea l r e a d yb e e ne x p r e s s e di ng e n e r a l d o c u m e n t s w i t hr e g a r d i n gt ot h ed e f m i t i o no fe v e n tt e r m ,m a n ye v e n tt e r m sb e t w e e np r o n o u n so rb e t w e e n p r o n o u n sa n dn o u n sw i l lb ei g n o r e d , s ot h a tt h en u m b e ro fe v e n tt e r m sa n dt h ep e r f o r m a n c eo fa u t o m a t i c s u m m a r yw i l lb ed e c r e a s e d , 8 0a n a p h o r ar e s o l u t i o nb e c o m et h ek e yt oi m p r o v ep e r f o r m a n c eo fa u t o m a t i c s u m m a r y t h i sp a p e ru s e st h em e t h o do fc o m b i n a t i o no fr u l e - b a s e da n ds t a t i s t i c a l - b a s e da n a p h o r ar e s o l u t i o ni n d o c u m e n t s f i r s t l y , w eo n l yu s er u l e - b a s e dt od oa n a p h o r ar e s o l u t i o n ,t h es h o r t c o m i n go ft h i sm e t h o di st h a ti t c a l ln o tc o n f m uw h i c hp r o n o u n si n d i c a t en a m ee n t i t i e sa c c o r d i n gt oa n a l y z er e c a l l 、p r e c i s i o na n dt h eo u t p u t d o c u m e n t s s ow ep u tr u l e - b a s e da n dm a x i m u me n t r o p yt o g e t h e rt or e s o l u t ea b o v eq u e s t i o n sa n dc o n f i r m w h i c hp r o n o u n st or e p l a c ep r e c i s e l y ,i m p r o v ep r e c i s i o na n dr e c a l l ,i n c r e a s et h en u m b e ro fn a m ee n t i t i e s , e x t r a c te v e n tt e r m sa sm a n ya sp o s s i b l ef r o mi n p u ts e t s ,c o n s e q u e n t l ye n h a n c et h ep e r f o r m a n c eo fa u t o m a t i c s u m m a r y t h er e s u l to fe x p e r i m e n ti n d i c a t e st h a tt h i sm e t h o dm a k e st h ep e r f o r m a n c eo fs u m m a r yi m p r o v e 8 5 c o m p a r i n gw i t ht h em e t h o dw i t h o u ta n a p h o r ar e s o l u t i o n ,o nt h eo t h e rh a n d , t h er e a d a b i l i t ya n dt h e f l u e n c yo fs u m m a r yh a v ei m p r o v e d k e yw o r d s :a n a p h o r ar e s o l u t i o n ;r u l e ;m a x i m u me n t r o p y ;n a m ee n t i t y ; s e m a n t i cr e l a t i o n ;e v e n t ;a u t o m a t i cs u m m a r y 武汉科技大学 研究生学位论文创新性声明 本人郑重声明:所呈交的学位论文是本人在导师指导下,独立进行研 究所取得的成果。除了文中已经注明引用的内容或属合作研究共同完成的 工作外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。 对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 论文作者签名:垒习佳日期:生! 曼主? 研究生学位论文版权使用授权声明 本论文的研究成果归武汉科技大学所有,其研究内容不得以其它单位 的名义发表。本人完全了解武汉科技大学有关保留、使用学位论文的规定, 同意学校保留并向有关部门( 按照 武汉科技大学关于研究生学位论文收录 工作的规定执行) 送交论文的复印件和电子版本,允许论文被查阅和借阅, 同意学校将本论文的全部或部分内容编入学校认可的国家相关数据库进行 检索和对外服务。 论文作者签名: 指导教师签名: 日期: 金司佳 碰。! 趔 7 f o 武汉科技大学 硕士学位论文第l 页 1 1 课题背景及意义 1 1 1 自动文摘的研究背景及意义 第1 章绪论 在2 0 世纪9 0 年代,随着互联网信息的飞速发展,信息的爆炸式增加固然满足了人们 对信息的需求,但同时也给人们快速、准确地找到所需要的信息带来了一定的难度,当一 位读者面对大量没有经过整理、提取和分类的原始信息数据的时候,将会茫然不知所措, 甚至会被淹没在广阔的数据海洋之中。在这种情况下,自动文摘系统成为研究的热点,被 众多学者们列为当前要解决的重要课题之一,其研究的主要目的【l 】是: 首先,自动文摘是表明文章主题的一个内容摘要,当出现在文章的第一页或仅以摘要 形式被作为一个链接时,它可以明确的表达出文章撰写的主要目的。这样可以使读者很快 地肯定或否定这篇文章是否含有他们感兴趣的内容,然后决定是否需要继续阅读其中的详 细内容。 其次,当文摘被建立索引时,可以让读者很快找到自己真正需要的文章,而不必将时 间浪费在不相关文章的阅读上。 最后,当文摘被搜索引擎标记域信息后,可以使用户进行的搜索更加高效,能够在最 短的时间里找到与查询关键字相关的文档列表。 在现有的自动文摘系统中,主要以基于句子的抽取式自动文摘为主1 2 一,常见的句子抽 取方法是通过计算文章中旬子的重要性来抽取最为重要的句子组合成摘要【4 5 】。这种方法在 计算句子重要性时一般不考虑代词的指代问题,即指代同一实体的各个对象会分别计算其 重要性,这样就可能导致抽取得到的句子重要性出现偏差,另外这种方法在很多情况下会 使抽取出来的句子中含有代词,而这些代词所代指的名词所在的句子没有被抽取出来,这 样会使得最终生成的文摘出现许多前言不搭后语的现象,给读者理解文摘句以及整篇文章 的内容造成困难。这些问题的出现都是由于没有对自动文摘及其源语料进行指代消解【7 1 的原因,为了让抽取的信息具有更好的可读性,使自动文摘系统生成的文摘更加合理、流 畅,必须解决自动文摘中的指代消解问题。 1 1 2 指代消解的研究背景及意义 指代是自然语言处理领域的常见现象,它对于简化表达、衔接上下文、刻画文本的概 念关联度等方面起着重要作用。在语言学中,指代词称为照应语,所指的对象或内容称为 先行词。确定指代词先行语的过程称为指代消解【引。这种在自然语言中很常见的、人们通 过上下文能够很好理解的语言现象,对于计算机来说却是难于实现的,原因很简单,人类 第2 页武汉科技大学 硕士学位论文 的大脑中存在着与之有关的背景知识,可以通过上下文进行判断,但计算机不可以。这样, 指代消解就成为计算机在进行自然语言处理过程中的一个关键问题,它是自然语言处理中 的核心任务之一,不仅可以用于自动文摘,而且在信息抽取、文本总结、问答系统等众多 的自然语言处理中都起着关键的作用。 指代消解的过程实际上是建立概念关联的过程,是文本处理的核心问题之一,由于指 代关系在自然语言处理中具有重要的作用,在美国国防高级研究计划局组织召开的m u c 会议上,指代消解还被认为是信息抽取任务的关键技术之一,并从m u c 6 开始成立了专 门的指代消解评测机构。然而,进行指代消解的研究并不容易,从指代消解开始研究至今 已经有2 0 多年的历史了,在这2 0 多年里,学者们一直努力寻找合适的指代消解算法,虽 然取得了一定的成果,但还是达不到特别满意的水平,另外,将指代消解应用于自动文摘 中的研究更是很少有人问津。 指代消解就是针对这一问题而产生的,把指代消解应用到自动文摘中,主要意义是通 过找到好的指代消解方法,把文章中的代词用它所指的先行词进行替代,这样就减少了语 料中的代词数量,进而减少自动文摘中的代词数量,从而增加了文摘系统的可读性,提高 了自动文摘系统的性能。 基于事件抽取的自动摘要是从近几年开始研究,其主要思想是:把语料的句子中描述 的事件和子事件抽取出来,通过一定的工具得出这些事件项的关系图,再通过关系图判断 事件项的重要性,并按照重要性由高到低抽取出事件项所在的句子构成摘要。而这里所说 的事件项是位于两个命名实体之间的动词或含有动词意义的名词【2 9 】。如果可以把语料中的 代词消解为它所指代的命名实体,那么就可以增加语料中命名实体的数量,进而就可以从 语料中抽取更多的事件项出来,提高了事件项选择的范围,从而提高了自动文摘的准确性、 可读性以及信息量等性能指标,这也就是将指代消解应用于基于事件抽取的自动文摘的意 义所在。 1 2 国内外研究现状 最近二十年,指代消解受到了国内外自然语言处理领域专家的格外重视,1 9 9 9 年的 a c e ( a s s o c i a t i o nf o rc o m p u t a t i o n a ll i n g u i s t i c s ) 年会上设立了指代消解的专题会议,著名的 m u c 会议从m u c 6 开始成立了专门的指代消解的评测机构。r u s l a nm i t k o v 在1 9 9 9 年、 王厚峰在2 0 0 2 年都对各种指代消解的方法做过很好的综述。 与计算语言学的大多数问题一样,指代消解的主要实现技术分为规则方法和统计方法 两类。规则方法主要是从句法和语法层面提出的指代消解方法,统计方法主要是从语料库 方面进行统计消解的方法,包括最大熵【1 9 2 7 - 3 0 1 、决策树【2 2 2 4 五6 1 和聚类等方法。 1 2 1 规则方法消解现状 最早出现的指代消解方法是基于句法的,这种方法是利用句法、语法层面的知识对语 武汉科技大学 硕士学位论文第3 页 料中的指代现象进行分析,找到合适的指代消解方法。1 9 9 4 年l a p p i n 和l e a s s 提出的 r a p ( r e s o l u t i o no fa n a p h o r ap r o c e d u r e ) 算澍1 0 】就是基于句法知识的消解算法,该算法用于 识别第三人称代词和具有反身特征( 如:自己) 与互指特征( 如:彼此) 的先行语,通过槽文法 ( s l o tg r a m m a r ) 分析和句法知识进行指代消解。l a p p i n 和l e a s s 对算法进行测试,其准确 度( p r e c i s e ) 达到了8 6 。但他们事先通过人工方式对句子作过简化处理,同时,也只考虑 了第三人称形式,所以得到的准确率比较高。 1 9 9 6 年,k e n n e d y 和b o g u r a e v 】在l a p p i n 和l e a s s 算法的基础上,通过简化分析去 消解第三人称的指代( 包括反身代词和互指代词) 。他们的算法只作了浅层分析并用 l i n g s o f tt 具作预处理,产生必要的文法信息,再根据所得到的句法信息对各候选先行 语赋权值,最后根据各个单独的权值计算每个候选先行语的突显性( 总的权值) ,利用其突 显性的大小来确定先行语。他们算法测试的准确度达到7 5 。 1 9 9 7 年h o b b y 1 2 】提出了朴素的h o b b y 算法,这是一种完全基于句法的消解算法,但 只作为理论模型提出来,在实际系统中应用的很少。 1 9 9 8 年国内开始使用基于句法的方法进行指代消解。王能忠、许敏【l3 】等人提出了“主 题人物法 来进行指代消解,其主要思想就是:在谈话或文章中,谈话者或文章作者往往 是想表达一个主题,或是谈论一个人,或是围绕一件事,或是针对一个事物,所以文中若 出现指人的代词,那它很可能就是文章主要谈论的人物;若出现指物的代词,那他在很大 程度上是指文章主要谈论的事物或事情,所以代词有很大的可能是指代文章所谈论的中 心,这样就把指代消解转变成为找谈话的主题。该方法从一定程度上克服了“最近性原则” 的不足,它不仅用于智能拼音输入汉字,而且对篇章理解也具有一定意义。这种方法对于 不同的篇章内容,其正确率存在着很大的差别,另外,由于该方法中所用的规则是笔者从 词法层面和句法层面出发总结出来的,所以这些规则还不能完全解决所有的人称代词的指 代问题。 同年,郭志立【1 4 l 等人提出了应用人称代词本身的语法范畴、相关动词的语义分类和论 旨模式、人称主体的出现频率等信息来辨析人称代词指代的算法,并首次介绍了它在自动 摘要中的使用。但这种人称代词的辨析算法是针对固定的摘要自动提取系统设计的,其规 模很小,并且没有进行词性标注和句法分析等预处理工作,所以在动词论旨模式匹配时有 很大的盲目性。 2 0 0 0 年王厚峰、何婷婷【1 5 】根据“从概念相关的角度分析指代词与先行语之间的相互关 系,可以减少指代的错误定位率”这一思想,结合聚类的知识,从语义角度提出了人称代 词消解的排斥策略,并在优先性选择方面结合了局部焦点方法的思想来进行指代消解,对 人民日报上的第三人称代词进行测试,其j 下确率在8 3 1 到9 2 2 之间。2 0 0 2 年王厚 峰又从语义角度提出了人称代词消解策略,并结合局部焦点方法来进行消解。 1 2 2 统计方法消解现状 1 9 9 5 年,m c c a r t h y 和l e h n e r t t l 6 1 运用决策树的方法进行共指消解,设计了共指消解系 第4 页武汉科技大学 硕士学位论文 统一“r e s o l u t i o n ”,它的具体方法是:在原文档中利用c m i ( c o r e f e r e n c em a r k i n gi n t e r f a c e ) 来确定所有可能的互指对,利用这些互指对来创建一系列的“r e s o l u t i o n 所需要的特征向 量,在这些互指对中存在互指关系的定义为正例,不存在互指关系的叫做反例,“r e s o l u t i o n ” 在这些特征向量的不同部分,不断重复的培训和测试。在结构处理中的数据结构是存储标 记,它传达了从c i r c u s 句子分析器到更加独立的系统陈述的输出框架的情况,运用他们 的语料库,得到的召回率是8 0 1 ,正确率是9 2 4 ,而c c a r d i e 等人对该系统的测试报 告显示:其召回率是4 4 ,正确率是5 1 。s o o n 等人采用相同的方法,取1 0 个特征来建 立决策树,其测试报告显示:召回率是5 2 ,正确率是6 8 。从这三组数据中可以看出: m c c a r t h y 和l e h n e r t 所运用的决策树的方法并不是在所有的测试集中都能有很好的性能, 还有很大的改进空间。另外s o o n 取1 0 个特征来建立决策树就能使召回率和正确率在依照 同样方法的情况下有1 0 左右的提高,这说明可以从改进决策树的特征向量和改变特征向 量的个数入手,找到最佳的特征向量及其数量来提高指代消解的正确率和召回率。 1 9 9 8 年,n i y ug e 、j o h nh a l e 和e u g e n ec h a m i a k 1 7 1 建立的统计模型考虑了除文法角色 之外的很多因素,像代词与先行语的距离关系、性别、单复数、语义类别以及候选先行语 重复次数等,提出了概率模型 f ( p ) = a r g m a x 烈彳( p ) = 口lp ,h ,形,t ,z ,s p ,d ,j 讶) 其中等式的左边表示代词p 所对应的函数值,a ( p ) 为随机变量,表示代词p 的参照体, 这里,口代表假定先行语,h 表示p 的中心成份,向量形表示先行语候选集,f 是假定先 行语口的类型,是中心成份的类型,跏是p 所位于句子的句法结构, 句- m d 表示代词p 与他的各先行词间的距离,向量m 表示各先行词在p 前重复的次数。 1 9 9 9 年,c a r d i e 和w a n g a t a 一1 8 】提出通过聚类的方法进行名词短语的共指消解。这是 一种无指导的学习方法,而且完全独立于领域。其基本思想是:收集篇章中的名词短语, 并用聚类的方法把这些名词短语归类,然后根据距离的阈值,判断两个名词是否属于同一 类,这种方法的召回率为5 3 ,正确率为5 5 。 基于统计的消解方法在国内发展的比较晚,2 0 0 3 年钱伟【1 9 1 等人提出了利用最大熵的方 法进行指代消解,这种算法不仅解决了传统的代词和名词之间的指代问题,同时还能解决 名词短语间的指代问题,另外利用最大熵还可以有效的综合各种互不相关的特征,并且可 以根据样本自动从特征向量中选择组合,并决定不同组合的权值,从而避免了费时费力的 人工规则,利用最大熵的方法还有很好的抗噪声能力,容错能力好,这些优点对于自然语 言处理技术还不完善,错误不可避免的混在其中的阶段是很重要的。 2 0 0 4 山西大学的李国臣、罗云飞【2 1 】利用决策树的方法对候选对的频次和距离属性先进 行过滤,然后对候选互指对进行最优选择来实现指代消解。这种方法的优点是: 首先,这是一种机器自学习的方法,也是种不需要人干预或很少需要人干预的消解 武汉科技大学 硕士学位论文第5 页 方法。 其次,这个方法并不是直接把决策树的方法应用于指代消解的问题上,而是把它作为 一种降低噪音的工具,来去除语料中多余非互指的待消解对,这样能提高指代消解的效率 和准确率。 优先选择的方法综合考虑了语料库的频次和距离属性的相互作用,使消解效果更好。 用这种方法分别对封闭测试集和开放测试集进行了测试,应用于封闭测试数据的召回率为 7 8 2 ,准确率为8 8 3 ,而对于同样的开放数据,优先选择算法的召回率只有6 6 1 ,准 确率只有7 7 o ,而过滤算法对封闭数据的召回率和准确率分别是7 1 和8 0 8 ,同样对 于开放数据,其召回率和准确率也明显比前一种方法低,若两种方法结合起来则比每种方 法单独使用的召回率和精确率要高很多。 1 2 3 统计与规则相结合消解现状 目前将统计和规则结合在一起的研究较少,2 0 0 6 年北京邮电大学的王智强田】等人提出 了基于决策树的汉语代词共指消解的方法,其共指消解的主要过程包括预处理,构建特征 向量,基于规则的过滤,训练决策树和利用决策树分类器进行共指消解五个部分。这种基 于决策树的方法采用了规则和统计相结合的算法,利用规则的方法,先把单复数和性别不 一致的情况过滤掉,然后再利用决策树的方法,来确定共指关系,其准确率达到8 9 6 9 , 召回率达到9 6 3 1 ,f 指数9 2 8 8 ,成功率8 5 9 1 ,若不利用规则先进行过滤,直接应 用决策树的方法其准确率为8 8 0 4 ,召回率为9 6 3 1 ,f 指数9 1 9 9 ,成功率8 4 9 0 。相 比之下,先用规则的方法过滤使召回率等各种性能指数都有很大的提高。 庞宁和杨尔弘【2 0 】在2 0 0 7 年也提出了利用最大熵来训练模型的方法,所不同的是该方 法是将统计和规则的方法相结合,将候选共指对先用单复数一致和性别一致的规则进行过 滤,将那些很明显的不具有共指关系的共指对提前过滤掉,然后利用属性特征计算每个候 选共指对的特征值,并根据训练语料和最大熵模型给出这些候选共指对的共指概率来确定 候选共指对是否具有共指关系。得出准确率、召回率分别为6 3 6 、8 0 1 ,其f 值达到 7 0 9 。本算法的晟大优点是不需要人为调整大量初始设置,能有效地调和各特征的使用, 避免规则的冲突。 1 3 本文研究内容及组织结构 1 3 1 本文研究内容 从国内外研究方法中可以发现,基于统计与规则相结合的方法对于自然语言处理领域 中指代消解的研究有很大的帮助,既能从句法层面进行指代消解,又能利用统计方法来弥 补规则方法由于语料多样性而产生的不足。本文就是将单一规则的方法和基于统计与规则 相结合的方法进行指代消解来进行比较,从而找到合适的指代消解方法,并用d u c 2 0 0 1 第6 页武汉科技大学硕士学位论文 的语料对该方法进行测试,将消解后的语料作为基于事件抽取的自动文摘的源语料,然后 通过测试所生成的摘要的准确率和召回率来衡量指代消解算法的优劣,其具体步骤如图 1 1 : 图1 1 指代消解流程图 其中词性标注、句子分割、命名实体和代词标注是整个指代消解的预处理部分,主要 是将d u c 2 0 0 1 的语料中的每个文档划分为要处理的句子单元并利用g a t e t 2 3 】作为分词分 句的工具,根据g a t e l 中对于词性的标注将源语料中的动词、代词、命名实体等词的词性 进行标注,将标注了词性的源语料存在指定文档中。 基于统计和规则的指代消解过程是本文的核心,利用规则先进行过滤并将第一人称代 词和第三人称代词中明显能够确定指代关系得代词进行消解,然后利用统计方法将指示代 词和第三人称指物的代词通过计算概率来进行指代消解。这样就将代词转换为他所指的命 名实体。 实验评估阶段包括根据消解后语料计算准确率和召回率以及利用消解后的语料对基 于事件的自动文摘进行生成及评测,通过对比用消解后的语料生成的自动文摘和用消解前 的源语料生成的自动文摘的质量和用r o u g e 进行评价的参数来确定消解方法的优劣。 1 3 2 本文组织结构 本文共分六章。 第l 章:绪论 介绍了指代消解的研究背景和研究意义,并详细介绍了国内外对于指代消解的研究方 法,提出了本文研究的目标和研究的主要内容,最后给出本文的组织结构。 第2 章:指代消解流程概述 1 g a t e 免费下载地址:h t t p :g a t e 扯u l d d o w n l o a d 武汉科技大学 硕士学位论文第7 页 介绍了指代消解的流程,主要包括预处理、代词过滤、指代消解和实验评估四个阶段, 另外还介绍了所涉及的处理工具和处理内容,如分句、分词工具,以及代词,动词,命名 实体等词的标注方法以及v c 巾o c e a n 的使用。 第3 章:基于规则的指代消解 介绍了指代消解在自动文摘中应用的意义,详细阐述了从句法和语法的层面上确定了 规则集的内容。最后提出了单纯利用规则进行指代消解的优点和所存在的问题以及利用规 则进行消解后所得到的准确率、召回率和r o u g e 评测的结果,并对结果进行了分析。 第4 章:基于统计方法的指代消解 介绍了最大熵方法的原理,提出了本文最大熵方法的特征集,将最大熵方法和上一章 的规则方法有机的结合起来,从一定程度上弥补了单纯使用规则的方法的缺陷。另外,对 统计与规则相结合的方法进行了准确率和召回率的计算,并对消解后的语料进行了 r o u g e 评测和结果分析。 第5 章:总结和展望 这一章是全文的总结部分,对本文的研究进行了概述,并对后续的研究做了进一步的 展望。 第8 页武汉科技大学硕士学位论文 第2 章指代消解流程概述 2 1 指代消解在基于事件的自动文摘中的意义 前一章介绍了基于事件的自动文摘的抽取原理,可以知道利用这种方法的关键就是尽 可能多的从语料中抽取出来事件项,在自动文摘中所说的事件项是位于两个命名实体之间 的动词或含有动词意义的名词,而在源语料中的文档有很多动词或含有动词意义的名词是 位于代词和命名实体之间,或位于代词和代词之间,这样,就不可能把这些词作为语料中 的事件项将它们抽取出来,若要将上述词作为事件项抽取出来,只有将文中的代词尽可能 地消解为它们所指代的命名实体,所以,进行指代消解的目的是通过将语料中的代词消解 为它所指代的命名实体来增加语料中命名实体的数量,进而尽可能多的抽取出语料中位于 两个命名实体之间的事件项,最终将消解后的语料应用于基于事件的自动文摘来提高自动 文摘的性能。通过实验发现,在利用消解后的语料抽取出来的事件项要比利用消解前的语 料所抽取的事件项构成的语义关系图包括更多的语义信息,图2 1 和图2 2 分别为从消解 后的语料和消解前的语料中抽取的事件项并且利用v e r b o e e a n 构成的语义关系图。 图2 1 消解后语料中的事件项关系图 图2 2 消解前语料中的事件项关系图 武汉科技大学硕士学位论文第9 页 图2 1 中斜体字部分是消解后比消解前多抽取出来的事件项,通过比较这两个图,很 容易发现从消解后的语料中抽取的事件项比从消解f j 的语料中抽取的事件项的数量有明 显的增多,在消解后通过多抽取出来的事件项“i d e n t i f i ,“h e l p ”,“t e l l ”将消解前四个 独立的语义关系图( 用虚线框起的四个部分) 联结成个大的语义关系图。( 注:图中的动词 和动名词都是提取了词干后的形式。) 通过上面消解前的事件项和消解后的事件项构成的语义关系图的对比,可以看出:采 用通过指代消解对基于事件的自动文摘的源语料进行预处理来提高自动文摘的性能的想 法是可行的。 2 2 指代消解流程 本实验利用d u c 2 0 0 1 作为源语料进行实验,实验任务是对该语料中的代词进行消解。 在进行实验之前,对d u c 2 0 0 1 语料的特点进行了分析,然后利用g a t e 等相关的工具进行 了分句、词性标注等预处理工作。 本实验中的指代消解可以分为四个部分【3 1 3 3 】:预处理、代词过滤、统计与规则相结合 的指代消解和实验评估,具体的消解流程如图2 1 所示。 图2 3 指代消解流程图 从图2 3 中可以看出,预处理部分主要包括使用g a t e 对语料集中的内容进行句子分 割、词性标注和命名实体识别,具体内容将在2 3 中详述;代词过滤是通过对语料集的特 第l o 页武汉科技大学硕士学位论文 点进行分析来确定待消解的代词,具体内容将在2 4 中详述:该流程的主要部分是统计与 规则相结合的指代消解,将在第3 章和第4 章中分别介绍规则和统计的方法;整个消解流 程的最后一个部分是实验评估阶段,主要包括计算消解后的语料的准确率和召回率以及在 基于事件的自动文摘中的应用。 2 3 预处理 该算法实验使用d u c 2 0 0 1 作为源语料,在预处理阶段利用分词工具g a t e 对语料进 行句子分割、词性标注和命名实体识别三个部分的处理。 2 3 1 分词工具g a t e 本文所用的分词工具是g a t e ,它是一个包含了所有自然语言处理软件功能的系统软 件,它利用一些诸如词条分析器、生成器、翻译器或语言识别软件中的算法或程序,根据 词典或w o r d n a 这样的语言资源来完成对源语料句子的分割,词性的标注和命名实体的标 注等功能,并将最后标注的结果存为指定文件形式。 g a t e 系统主要包括三个部分:c r e o l e ( ac o l l e c t i o no f r e u s a b l eo b j e c t sf o rl a n g u a g e e n g i n e e r i n g ) 、a n n i e ( an e a r l y - n e wi es y s t e m ) 和j a p e ( aj a v aa n n o t a t i o np a t t e r n se n g i n e ) 。 源语料在进行标注之后会产生其起止位置,命名实体类型等相关信息,具体形式如下: g e n d e r m a l e 其含义是:开始位置为1 2 6 8 ,终止位置为1 2 7 5 的词条的类型是“p e r s o n ”,其性别是 “m a l e 。 2 3 2 句子分割 本文利用d u c 提供的分句工具g a t e 将源文档分割为句子的形式存储,在g a t e 中, 以句号作为一个句子结束的标志,每个句子单独存放一行,即每一行表示一个句子,把每 个文档分割成句子后存放在分割文件中,以供词性标注和命名实体识别之用。 2 3 3 词性标注 对于词性标注,本文用g a t e 工具对源语料中的所有词进行词性标注,记录了每个词 的开始位置和结束位置,并以标注文件形式存储,具体标注形式如下: 武汉科技大学 硕士学位论文第1 1 页 1 、 2 、 3 、 c a t e g o r y 4 v b 5 、 6 、 7 、 s t r i n g 8 、 c o s t 9 、 10 、 11 、 k i n d 1 2 、 w o r d 1 3 、 14 、 15 、 o r t h 16 、 l o w e r c a s e 1 7 、 1 8 、 1 9 、 l e n g t h 2 0 、 4 2 1 、 2 2 、 标注的第l 行表示所标识的单词的初始位置( s t a r t n o d e ) 是从第1 2 1 的字符开始,结束 位置( e n d n o d e ) 是第1 2 5 个字符,第2 行到第5 行表示所标识的单词特点之一是它的类型 ( c a t e g o r y ) 为“v b ( 动词) ;第6 行到第9 行表示所标识的单词特点之二是拼写形式( s t r i n g ) 是“c o s t ”;第1 0 行到第1 3 行表示所标识的单词特点之三是他的种类( k i n d ) 是“w o r d ( 单 词) 形式的;第1 4 行到第1 7 行表示所标识单词的特点之四是其首字母是小写的( 1 0 w e r c a s e ) : 第1 8 行到第2 1 行表示所标识单词的特点之五是其长度是4 ;最后一行表示一个单词标注 结束。 2 3 4 命名实体识别 由于本文的任务是将表示命名实体的代词用它所表示的命名实体进行替换,所以在消 解过程中需要对命名实体和代词进行标注,另外由于本文是将指代消解应用于基于事件的 自动文摘中,所以动词的标注也是至关重要的,根据本文特定的实验任务,只需要将源语 料中的动词( v b ) 、含有动词意义的名词( a n ) 、人称代词( p r p ) 、物主代词( p r p $ ) 、指示代 词( d t ) 和命名实体进行标注,所以利用上述g a t e 所标注出来的词性和p e r l 编写的程序将 分割文件中的动词、含有动词意义的名词、代词和命名实体都标注成了“ 单词 的形式,例如动词“c o s t 就标记成为“ c o s t 的形式存放于命名实体标 记文件中。 在命名实体识别中,将命名实体分为“p e r s o n ,“l o c a t i o n ,“o r g a n i z a t i o n 和 第1 2 页武汉科技大学硕士学位论文 “d a t e ”四种类型进行标识,分别表示“人物”、“地点”、“机构”和“r 期”其标注的方 式与上述动词的标注方式是一样的, i p m rc l i n t o n ,指代消解就是把指代 这类命名实体的代词进行消解。 2 4 代词过滤 在这一过程中,通过对测试语料集的分析来确定哪些代词可以消解,哪些代词不在消 解的范围内。 本次实验选用了d u c 2 0 0 1 中的3 0 个主题、共3 1 1 篇文章来进行实验,每个主题大约 1 0 篇文章。这些文章都是从各报纸,杂志或其他地方抽取的新闻报道,其中包含代词总数 1 0 0 4 9 个,第一人称代词有1 4 7 9 个,第二人称代词有3 1 5 个,第三人称代词有6 5 1 9 个, 其中指物代词i t有2 1 5 0 个,指示代词有1 5 8 3 个,具体每个文档集中的代词数量分 布如图2 2 所示: t _ = i i i 亍一 i 0从盖 图2 4 文档集中代词数量统计 由于指代消解的任务是消解那些代表命名实体的代词,对于那些指代一般名词的代词 不予以消解,所以进行指代消解之前确定消解对象起着尤其关键的作用,经过对d u c 语 料中各类代词数量以及指代内容的分析,得出利用规则的方法不需要消解的代词包括第二 人称代词、第三人称表示物的代词( 如i t ) 和指示代词,下面几个小节就详细介绍一下这些代 词的不消解理由。 2 4 1 第二人称代词 首先语料中太多数的第二人称代词都是表示读者或者没有实际所指对象。例如在 d u c 2 0 0 1 的一篇文章中,共有代词2 7 9 个,其中包含2 5 个第二人称代词且全部是指读 者或是没有所指对象,例如: ( 1 ) o n c e y o u g e t i n t oa g u n - c o n t r o l m t ,i f s t o u g h t og e t o u t o f t h a tr u t 武汉科技大学硕士学位论文第1 3 页 ( 2 ) ” y o u c o u l dd e f e n d y o u v f a r mo r y o u r r a n c hf a i r l yw e l l ,”h es a i d ( 1 ) 中“y o u 就没有所指对象,泛指有g u n c o n t r o l 习惯的人;( 2 ) 句中共有三个第二人 称代词,都是表示说话人对读者或撰稀记者所说。 其次,文中第二人称代词出现频率较少。在d u c 2 0 0 1 语料中,共出现了1 0 0 4 9 个代 词,其中3 1 5 个为第二人称代词,仅占代词总数的3 1 3 。 2 4 2 第三人称指物代词 首先,i t 或i t s 在文中多指该文所讲到的中心词或是文章中的一个句子,而大多数文章 的中心词和句子都不是命名实体,而是不在消解范围内的普通的名词,如下例所示: ( 3 ) “t h ee p i d e m i cc o n t i n u e st od e f yt h em i n i s t r yo fa g r i c u l t u r e sp r e d i c t i o n st h a t i t i sa b o u tt ow a , r l e ( 3 ) 中的“i t 指的是“e p i d e m i c ,而这个词并不属于命名实体的范围 其次,i t 在文中有一少部分是用于强调句或是英语中的固定用法,这部分代词不能够 进行消解。 最后,i t 有极少数指代文中的命名实体。这部分在文章中所占的比例极少,如果使用 规则的方法对其进行消解,会产生两个负面效果:首先,降低了算法的执行效率;其次, 可能会把很多不能消解的“i t 错误的消解成为命名实体而降低算法的准确率,起到得不 偿失的效果,所以在利用规则的方法中不予以消解。 2 4 3 指示代词 文中的指示代词都是指文中所叙述的一句话,或是一个观点,或是普通名词,并不存 在指代命名实体的情况,所以在利用规则的方法中不予以消解。( 4 ) 中指示代词“t h a t 是 指前面所叙述的现象。 ( 4 ) i n19 8 8 ,t h el a s ty e a rf o rw h i c hc o m p l e t es t a t i s t i c s a r ea v a i l a b l e ,2 2 ,4 3 6u s t u b e r c u l o s i sc a s e sw e r er e p o r t e a ,d o w n0 4p e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论