




已阅读5页,还剩62页未读, 继续免费阅读
(计算机应用技术专业论文)语义信息在指代消解中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
语义信息在指代消解中的应用研究中文摘要 语义信息在指代消解中的应用研究 中文摘要 随着计算机技术和互联网的迅速发展,各种信息呈爆炸式增长,人们对信息精 确定位的需求促进了自然语言处理技术的研究。指代消解是自然语言处理的重点和 难点之一,在文本摘要、机器翻译、多语言信息处理和信息提取等诸多应用中都涉 及到指代消解问题。而指代消解又综合了多种自然语言处理技术,它的解决依赖于 词性标注、命名实体识别、名词短语识别、句法分析等相关技术。 本文深入分析了现有的指代消解技术并进行了归类总结,并参考s o o n ( 2 0 0 1 ) 给 出的基于机器学习的指代消解框架,实现了一个指代消解的原型系统。在m u c 6 和a c e 2 0 0 3 上的实验结果表明,本文原型系统优于同类型的系统。 由于指代消解是基于篇章的,引入句子含义将有助于指代关系的确定。本文主 要针对与指代消解关系密切的语义信息展开,将语义类别、语义角色和语义相似度 信息引入指代消解过程,并对每一种语义信息的作用都进行了详细的实验和分析。 实验表明,在原型系统中分别加入上述三种语义信息后系统的性能均有所提高,三 种语义信息结合后加入原型系统中达到了最好的效果,在a c e 2 0 0 3n w i r e 语料上 的f 值可以达到5 8 8 ,比原型系统提高4 6 个百分点。说明这三种语义信息有利于 指代消解问题的解决,且具有一定的互补性。 最后本文给出了在其它语料中加入上述三种语义信息前后的实验结果,实验表 明相关语义信息同样有助于其它语料中指代关系的确定,具有相当的普遍意义。 关键词:指代消解;语义信息;特征向量;语义类别:语义角色;语义相似度 作者:李艳翠 指导教师:朱巧明 a b s t r a e tr e s e a r c ho f c o r c f c r c n c cr e s o l u t i o nw i t hs e m a n t i ci n f o n n a t i o n r e s e a r c ho f c o r e f e r e n c er e s o l u t i o nw i t h se m a n t i ci n f o r m a t i o n a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e m e ta n dc o m p u t e rt e c h n o l o g y ,v a r i o u sk i n d so f i n f o r m a t i o nh a v eb e e ni n c r e a s i n ge x p l o s i v e l ya n dt h ed e m a n df o rp r e c i s e l yl o c a t e d i n f o r m a t i o ng i v e sas t r o n gi m p e t u st ot h en l pr e s e a r c h a sac r i t i c a la n dh o tr e s e a r c h t o p i ci nn l p ,c o r e f e r e n c er e s o l u t i o np l a y sa ni m p o r t a n tr o l ei nm a n yn l pa p p l i c a t i o n s , s u c ha st e x ts u m m a r i z a t i o n ,m a c h i n et r a n s l a t i o na n dm u l t i l a n g u a g ei n f o r m a t i o n p r o c e s s i n gw h i l ei ta l s om u c hd e p e n d so nt h ea d v a n c eo fv a r i o u sn l pt e c h n i q u e s ,s u c h a sp a r t - o f - s p e e c ht a g g i n g ,n a m e de n t i t yr e c o g n i t i o na n ds y n t a c t i cp a r s i n g w h i l ep r e v i o u sr e s e a r c hf o c u s e so na p p l i c a t i o no fl e x i c a la n ds y n t a c t i ci n f o r m a t i o n i nc o r e f e r e n c er e s o l u t i o n , t h i sp a p e rs y s t e m a t i c a l l ye x p l o r e sv a r i o u sk i n d so fs e m a n t i c i n f o r m a t i o na n dt h e i ra p p l i c a t i o ni nc o r e f e r e n c er e s o l u t i o n f i r s t ,an o u np h r a s ec o r e f e r c n c er e s o l u t i o ns y s t e mi sb u i l tu s i n gs u p p o r tv e c t o r m a c h i n e ( s v m ) ,w h i c hi m p r o v e so v e rs o o n ( 2 0 01 ) t h ee x p e r i m e n t a lr e s u l t si nm u c - 6 a n da c e 2 0 0 3s h o wt h a to u rb a s e l i n es y s t e mo u t p e r f o r m sc o m p a r a b l es y s t e m s t h e n , v a r i o u sk i n d so fs e m a n t i ci n f o r m a t i o n , s u c ha ss e m a n t i cc l a s si n f o r m a t i o n , s e m a n t i cr o l ei n f o r m a t i o na n ds e m a n t i c s i m i l a r i t y ,a r es y s t e m a t i c a l l ys t u d i e da n d i n c o r p o r a t e di n t ot h eb a s e l i n es y s t e m e v a l u a t i o no nt h ea c e 2 0 0 3 一n w i r ec o r p u s s h o w st h a ts e m a n t i ci n f o r m a t i o nc a nl a r g e l yi m p r o v et h ep e r f o r m a n c eb ya b o u t4i n f m e a s u r ea n do u rs y s t e ma c h i e v e s5 8 8i nf - m e a s u r e sa f t e ra d d i n gv a r i o u sk i n d so f s e m a n t i ci n f o r m a t i o n i ta l s os h o w st h a tt h et h r e ek i n d so fs e m a n t i ci n f o r m a t i o na r eq u i t e c o m p l e m e n t a r y f i n a l l y ,t h i sp a p e ra l s oe v a l u a t e sa b o v es e m a n t i ci n f o r m a t i o no no t h e rc o r p o r at o j u s t i f yt h e i rr o b u s t n e s s k e yw o r d s :c o r e f e r e n c er e s o l u t i o n ;s e m a n t i ci n f o r m a t i o n ;f e a t u r ev e c t o r ;s e m a n t i c c l a s s ;s e m a n t i cr o l e ;s e m a n t i cs i m i l a r i t f l i w r i t t e nb yl iy a n c u i s u p e r v i s e db yz h uq i a o m i n g 苏州大学学位论文独创性声明及使用授权声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进 行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含 其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学 或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡 献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律 责任。 研究生签名:避日 学位论文使用授权声明 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文 合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本 人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文 外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分 内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。 研究生签名:耋整鏊日期:1 壁选:篁:p 导师签名;, 语义信息在指代消解中的应用研究 第1 章序言 1 1 研究背景 第1 章序言 ,随着计算机技术和互联网的迅速发展,人们步入了信息时代。社会的信息化程度 己经发展到一个全新的阶段,信息的传递与交流已成为现代社会生活运作的重要基 础,各种信息呈爆炸式增长。人们在享受海量信息提供的便利的同时,也面临着如何 从浩如烟海的信息中找到自己所需内容的困境。一些集成了自然语言处理成果的技 术,如信息检索( i n f o r m a t i o nr e t r i e v a l ) 、信息抽取( i n f o r m a t i o ne x t r a c t i o n ) 、文本分类 ( t e x tc a t e g o r i z a t i o n ) 、自动文摘( a u t o m a t i o na b s t r a c t ) 、机器翻译( m a c h i n et r a n s l a t i o n ) 和多语言信息处理( m u l t i l m g i l a li n f o r m a t i o np r o c e s s i n g ) 等系统,从不同角度满足了人 们对信息精确定位的需求,大大方便了为海量信息所累的用户。但是,人们发现这些 系统仍不能真正理解并满足用户的需求,因此系统精度的提高已迫在眉睫。而要提高 系统的性能,必须从各个方面提高自然语言处理技术的水平。 所谓自然语言处理( n a t u r a ll a n g u a g ep r o c e s s i n g ,n l p ) ,是指计算机通过可计算的 方法对自然语言的各级语言单位( 字、词、语句、篇章等) 进行转换、传输、存储、 分析等加工处理的科学,是- f q 与语言学、计算机科学、数学、心理学、信息论、声 学等相联系的交叉性学科【i 】。这里的自然语言是指人类日常交流所使用的语言,如汉 语、英语等,它是相对于人工语言( 如各种程序设计语言) 而言的。自然语言为人们提 供了丰富的表达思想的手段,不同的人有不同的表述习惯。如描述同一个确定的事物, 不同的人的表达方式各不相同,即使是相同的文章,不同的人对文章的理解也有所差 别。让计算机来处理人才能理解的自然语言是非常困难的,如何让机器理解自然语言, 这是对自然语言处理的研究者们提出的巨大挑战,挑战之一便是如何处理指代。 指代( a n a p h o r a ) 是自然语言中常见的语言现象,它是指文章中用不同的名词短语 指向同一个实体。例如下面是一篇关于乔治w 布什的英语文章片段: g e o r g ew b u s h i st h e4 3 r dp r e s i d e n to f t h eu n i t e ds t a t e s f o r m e r l yt h e4 6 t hg o v e r n o ro f t h es t a t e o f t e x a s ,b u s h h a se 孟矗ar e p u t a f t o n 矗ic o m p 笛s i o n a t e lt 。5 簟小文;电 一咀叫瓠嚼:一、 ” ” ,! j -u j 。,_ k ,一 g e o r g ew b u s hw a sb o r nj u l y6 ,1 9 4 6 ,a n dg r e wu pi nm i d l a n da n dh o u s t o tt e x a s :h er e c e i v e d 第1 章序言 语义信息在指代消解中的应用研究 ab a c h e l o r sd e g r e ef r o my a l eu n i v e r s i t ya n dam a s t e r so fb u s i n e s sa d m i n i s t r a t i o nf r o mh a r v a r d b u s i n e s ss c h 0 0 1 p r e s i d e n tb u s hi sm a r r i e dt ol a u r aw e l c hb u s h , af o r m e rt e a c h e ra n dl i b r a r i a n ,a n d t h e yh a v e18 - y e a r - o l dt w i nd a u g h t e r s ,b a r b a r aa n dj e n n a t h eb u s hf a m i l ya l s oi n c l u d e st h e i rd o g , s p o t , a n dt w oc a t s ,i n d i aa n de m i e ! ,。:。:。:。、 图1 - 1 英文指代实例 图1 1 中对布什有多种不同的表述:如名称g e o r g ew b u s h 、名称简称( b u s h ) 、 总统( p r e s i d e n tb u s h ) 、他,l l i m ) 等。 中文中指代现象也很普遍,如: 俄罗斯总统弗拉基米尔普京( v l a d i m i rp u t i n ) 在德国发表讲话时表示:“我们不排除中油集团 参与已拍卖的尤甘斯克( y u g a n s k n e t t e g a s ) l 约 产。”他表示,中油集团没有参加这次拍卖。 图1 2 中文指代实例 图1 2 对普京的描述中也用封了不同的表达:俄罗斯总统、弗拉基米尔普京、 他。 事实上,一篇引人入胜的文章必然采用多样的表达方式来表示同一个实体,但对 自然语言处理系统来说,这无疑大大增加了处理的难度,因此指代消解对自然语言处 理非常重要,随着自然语言其它相关工作的发展,指代消解已成为自然语言处理的瓶 颈。 在计算语言学领域,指代消解也显示出前所未有的重要性,指代消解是自然语言 处理中文本理解不可缺少的组成部分,在文本总结( t e x ts u m m a r i z a t i o n ) 、机器翻译 ( m a c h i n et r a n s l a t i o n ) 、多语言信息处理( m u l t i l i n g u a li n f o r m a t i o np r o c e s s i n g ) 和信息提 取( i n f o r m a t i o ne x t r a c t i o n ) 等诸多应用中都涉及到指代消解问题。1 9 9 7 年的e a c l 和 1 9 9 9 年的a c l 年会都设立了指代消解的专题会议【2 】,指代消解也是m u c ( m e s s a g e u n d e r s t a n d i n gc o n f e r e n c e ) 1 3 1 和a c e ( a u t o m a t i cc o n t e n te ) 渤c t i o n ) 【4 】信息抽取评测体系 中的一个主要任务,因此非常有必要加强指代消解方面的研究。 1 2 本文的研究内容 本文研究受国家自然基金项目“基于机器学习的高性能自适应信息抽取关键技术 研究一( 6 0 6 7 3 0 4 1 ) 和8 6 3 高技术项目“多语言跨文本信息抽取技术的研究 ( 2 0 0 6 a a 0 1 2 1 4 7 ) 资助,主要工作包括: 2 语义信息在指代消解中的应用研究第1 章序言 1 ) 实现了一个基于机器学习的指代消解原型系统,本系统采用的分类器是支持向量 机( s u p p o r tv e c t o rm a c h i n e 或s v m ) 1 5 j 。原型系统在m u c 6 和a c e 2 0 0 3n w i r e 上评测得到的f 值分别为6 7 9 和5 4 2 ,优于同类型的原型系统。 2 ) 语义信息的获得和表示。本文所用的语义信息主要有语义类别、语义角色和语义 相似度。语义类别通过命名实体识别程序和w o r d n e t 获得,表示成一组特征;语 义角色使用语义角色标注工具a s s e r t 获得,也表示为一组特征;语义相似度的 计算,中英文分别基于w o r d n e t 和h o w n e t ,表示为一个特征。 3 ) 实验分析语义信息在指代消解中的应用。将语义类别、语义角色和语义相似度分 别引入指代消解过程进行实验,结果表明分别加入这些信息有助于指代关系的确 定。原型系统加入语义信息结合后在各种语料中均达到最优,和其它系统相比具 有明显的优势。 1 3 本文的研究意义 指代大量出现在篇章或对话中,它使得句子更加简洁明了,主题更加鲜明突出, 但这也给计算机理解自然语言增加了难度。要使计算机理解自然语言,必须对自然语 言进行转换,将人能理解的自然语言转换成计算机能理解并能处理的形式语言。 指代消解的正确解决依赖于分词、词性标注、命名实体识别等工作,目前的研究 工作已走到了一个转折点,传统的可以用的浅层语法、句法特征己全部用到了指代消 解中,在此基础上进一步提高指代消解的难度非常大。由于指代消解是一个篇章级的 任务,如果能理解句子的含义,把语义信息引入指代消解,将有助于指代消解的进一 步研究。目前已有很多研究者在这方面进行了尝试,但仅仅加入一些简单的语义信息, 如语义的类别、语义模式( 一个固定的语义搭配) 等,结果虽有所提高,但都只是针 对某些具体类别的词,或经常出现某种句式的词起作用。本文的主要工作是通过各种 实验详细分析语义信息在指代消解中的作用,这种系统化的实验分析工作目前还没有 研究者尝试。 语义类别信息一直有研究者在使用,但没有说明其具体的作用。本文分m u c 和 a c e 两种不同的语义类别进行讨论,分析哪些具体的语义类别对指代消解有帮助, 哪些类别会起到干扰作用。加入有帮助类别,排除干扰类别,这将有助于指代消解性 能的提高。 第1 章序言 语义信息在指代消解中的应用研究 语义角色标注是a c e 评测的一个任务,其主要作用是分析句子的含义,语义角 色标注的结果有助于指代消解。目前还没有研究者将语义角色标注的结果引入指代消 解,本文首次将语义角色加入到指代消解中并详细分析其作用,供其他的研究者参考。 语义相似度是指两个名词短语可替换的相似程度,一般认为两个名词短语相似, 则它们具有指代关系的可能性较大。本文尝试将语义相似度引入指代消解,中英文语 义相似度的计算分别用到了h o w n e t 和w o r d n e t 。 最后,本文在分别实验分析了语义类别、语义角色和语义相似度的作用后,给出 了原型系统加入语义信息组合前后在不同语料上的实验结果。实验所用语料不仅包括 m u c 6 ,还包括a c e 2 0 0 3 、a c e 2 0 0 4 以及a c e 2 0 0 5 的中文,a c e 中部分语料的指 代消解结果目前还未有研究者公开说明,本文的实验结果可以为其他的研究者提供参 照。 1 4 本文结构 第一章,介绍了课题的背景、研究内容、研究意义以及本文的结构。 第二章,介绍了指代消解的相关知识,包括指代消解的相关概念、语料资源、评 测方法、国内外研究现状、目前的研究趋势以及本文用到的语义词典英文w o r d n e t 和中文h o w n e t 。 第三章,介绍了本文所用的基于机器学习的指代消解平台。包括s v m 分类方法、 语料预处理、特征向量的选择、训练实例和测试实例的产生方法以及原型系统的性能。 第四章,语义信息的获得和表示。简要介绍语义类别信息、语义角色信息的获得 和表示方法,以及通常语义相似度的计算方法和本文所用的计算方法。 第五章,语义信息在指代消解中的应用。详细分析语义类别、语义角色和语义相 似度分别加入原型系统后的实验结果,并给出原型系统加入语义信息前后在各种语料 中消解结果对比。 第六章,总结全文,探讨下一步的研究方向。 4 语义信息在指代消解中的应用研究第2 章指代消解相关知识 第2 章指代消解的相关知识 2 1 指代消解的相关概念 指代是自然语言中常见的语言现象,它是指在文章中不同的名词短语是否指向 同一个对象。在语言学中,指代词称为照应语( a n a p h o r ) ,所指的对象或内容称为先 行语( a n t e c e d e n t ) 。先行语在照应语的前面,它们之间的关系称为照应关系简称照应 ( a n a p h o r a ) ,先行语在照应语的后面称为逆照应( c a t a p h o r a ) 。指代消解,就是确定照 应语与先行语之间的相互关系,从而明确照应语所指代的是什么对象。本文研究的 指代消解问题只针对先行语在前即照应的情况。 英语中的指代有不同的类型,常见的有如下几种【6 】,其中每一例句中标有相同 标号的名词短语具有指代关系: 1 ) 人称代词( p r o n o u n ) 【c o m p u t a t i o n a ll i n g u i s t i c si 】f r o md i f f e r e n tc o u n t r i e sa t t e n d e dt h et u t o r i a l 【t h e yi 】 t o o ke x t e n s i v en o t e 2 ) 别名指代( n a m ea l i a s ) 【m i c r o s o f tc o r p i 】a n n o u n c e di t sn e wc e oy e s t e r d a y m i c r o s o f ti 】s a i d 3 ) 同位语指代( a p p o s i t i o n ) j u l i u sc a e s a rr j ,【t h ew e l l - k n o w ne m p e r o ri 】,w a sb o r ni n10 0b c 4 ) 有定名词短语指代( d e f i n i t en o u np h r a s e ) 【c o m p u t a t i o n a ll i n g u i s t i c si 】f r o md i f f e r e n tc o u n t r i e sa t t e n d e dt h et u t o r i a l t h e p a r t i c i p a n t si 】t o o ke x t e n s i v en o t e 5 ) 指示名词短语( d e m o n s t r a t i v en o u np h r a s e ) b o o r d aw a n t st ol i m i tt h et o t a ln u m b e ro fs a i l o r so n t h ea r s e n a ls h i pi 】t ob e t w e e n 5 0a n d6 0 c u r r e n t l y , t h i ss h i pi 】h a v ea b o u t9 0s a i l o r s 6 ) 谓词别名( p r e d i c a t en o m i n a l ) 【g e o r g ew b u s hi 】i s t h ep r e s i d e mo f t h eu n i t e ds t a t e si 】 7 ) 其它的名词短语( b a r en o u np h r a s e ) t h ep r i c eo f 【a l u m i n u mi 】s i d i n gh a ss t e a d i l yi n c r e a s e d ,勰t h em a r k e tf o r 【a l u m i n u m 第2 章指代消解相关知识 语义信息在指代消解中的应用研究 i 】r e a c t st ot h es t r i k ei nc h i l e 中文的指代主要有如下三种典型的形式【2 】: 1 ) 人称代词( p r o n o u n ) 【李明i 】怕【高妈妈j 】一人呆在家里寂寞,【他i 】便将家里的电视搬了过来。 2 ) 指示代词( d e m o n s t r a t i v e ) 【很多人都想创造一个美好的世界留给孩子i 】,【这i 】可以理解,但不完全正确。 3 ) 有定描述( d e f i n i t ed e s e r i p t i o n ) 【贸易制裁i 】仿佛成了【美国政府在对华关系中惯用的大棒i 】,然而,【这根 大棒i 】果真如美国政府所希望的那样灵验吗? 。 2 2 语料资源 与其它基于机器学习的自然语言处理技术相同,指代消解也需要标注好的语料 资源。目前,标有指代关系的较为常用的语料库有m u c 和a c e 。下面详细介绍本 文中用到的语料库及其标注格式。 2 2 1m u c 语料 1 9 9 6 的m u c 一6 和1 9 9 7 年的m u c 7 会议上,指代消解成为m u c 评测的重要 任务之一。本文用m u c 6 语料库进行训练和测试,取m u c 6 的3 0 篇d r y l l l n 文档 作为训练文档,测试时用m u c 6 的3 0 篇f o r m a l 标准测试文档。 m u c 中指代关系的标注引入两个标注对,采用s g m l 标注1 2 】: 1 ) 用( c o r e fi d = “i ) 表示实体的左边界,用( c o r e f ) 表示右边界。 2 ) 用( c o r e fi d = “j r e f = 样m ) 表示参照表达式左边界,同样用( c o r e f ) 表示右边界。其中i ,j 表示顺序号,在一个篇章内,序号由1 开始严格单调递 增,而m 表示j 的先行语的编号。如果m = i 则说明编号为j 的实体指向编号为 i 的名词短语。实体1 只有i d 无r e f ,说明此名词短语不指向别的名词短语, 而只被别的名词短语所指向。 图2 1 是m u c 6 标注的实例: 6 语义信息在指代消解中的应用研究 第2 章指代消解相关知识 。a m rc o r p s a m e r i c a na i r l i n e su n i t s a i d i t h a sc a l l e df o r f e d e r a lm e d i a t i o ni n i t s c o n t r a c tt a l k sw i t h ”n, : 。 _ u n i o n sr e p r e s e n t i n g : 二, : i t s 。 i 。j j 。一r p i l o t s a n d :- i j 疆i 之二纠 毒j j :5 j 档i :导, :0 ,: 图2 1m u c - 6 语料标注实例 由图2 1 可以看出“i t 的r e f = ”4 ”,n 耐c 锄a i r l i n e su n i t ”的i d = ”4 ”, 所以“i t ”指向“a 血e f i c a na i r l i n e su n i t 。而 u n i o n sr e p r e s e n t i n g i t s p i l o t s a n d f l i g h ta t t e n d a n t s 刮c o i 冱f 标注的是有嵌套关系的几个名词短语, 名词短语分别为u n i o n sr e p r e s e n t i n gi t sp i l o t sa n df l i g h ta t t e n d a n t s 、i t s 、i t sp i l o t s 和f l i g h t a t t e n d a n t s ,其中i t sp i l o t s 和f l i g h ta t t e n d a n t s 只标有d 无i 也f ,说明它们只被别的 名词短语指向,而不指向别的名词短语。 2 2 2 a c e 语料 a c e 语料根据年份,本文用到的有a c e 2 0 0 3 、a c e 2 0 0 4 和a c e 2 0 0 5 。a c e 语 料的标注方式与m u c 有所不同。下面介绍a c e 语料的文档数及其标注格式。 a c e 2 0 0 3 语料文件分为t r a i n 和t e s t 两部分,a c e 2 0 0 4 、a c e 2 0 0 5 语料中没有 区分。对于a c e 2 0 0 4 、a c e 2 0 0 5 语料,本文在实验中取其前4 5 文档训练,后1 5 测试。表2 1 是本文实验所用a c e 2 0 0 3 、a c e 2 0 0 4 和a c e 2 0 0 5 语料中测试和训练 文档的数目: 7 第2 章指代消解相关知识 语义信息在指代消解中的应用研究 表2 - 1a c e 语料中文档数 训练语料( 篇) 测试语料( 篇) b n e w sn p a p e rn w i i 乇eb n e w sn p a p e rn w i i 之e a c e 2 0 0 32 1 67 6 。 1 3 05 l 1 7 2 9 a c e 2 0 0 4 1 7 61 0 34 42 5 a c e 2 0 0 5 ( 英文) 1 7 3 4 3 a c e 2 0 0 5 ( 0 7 文) 2 3 71 9 16 14 7 a c e 中标注的是实体链,图2 2 和图2 - 3 是a c e 2 0 0 5 语料中中文的标注实例。 实例分为两部分,图2 2 为一个实体链,图2 3 为原始文本文件: 图2 2a c e 实体链标注实例 8 语义信息在指代消解中的应用研究第2 章指代消解相关知识 行政院长张俊雄今天在立法院参加跨党派大陆台商权益促进会成立大会时表示,他的理念 是以合作代替对抗,因为过去对抗、对立的政治文化让人们付出很多的代价;他也希望对敏感 的大陆政策能够找到共同点,两岸能够建构正常、和平的关系。 图2 3 a c e 源文件实例 图2 2 显示的是图2 3 中的一个实体链,该链包含三个名词短语:张俊雄、行 政院长和他。实体链的大类为“p e r ,子类为“i n d i v i d u a l ”,实体链中的每个实体 都标有中心词和位置信息等。 2 3 评测方法 和自然语言处理中的其它问题一样,需要对实验结果进行评测,评测方法是很 重要的一个方面,它既评价了指代消解系统性能的优劣,同时也决定了系统的改进 方向。指代消解常用的评测方法有m u c 和a c e 两种。 2 3 1m u c 评测方法 m u c 对指代消解结果的评测有三个重要标准:召回率r ( r e c a l l ) 、准确率 p ( p r e e i s i o n ) 和f 值。召回率r ,是指代消解结果中正确的对象数目占消解系统应消 解的对象总数,它反映的是指代消解系统的完备性。准确率p ,是指代消解结果中 正确的对象数目占实际消解的对象数目的百分比,它反映的是指代消解系统的准确 程度。在比较两个不同指代消解系统的性能时,常用这两个指标的综合值- f 值, 其定义如下( p 为准确率,r 为召回率,为召回率和准确率的相对权重,一般取1 ) : f 兰蹙! 童芝兰銎 f ,尸) + r 公式( 2 1 ) m u c 有标准的评测程序m u c s c o r e r ,它将原始文件( k e y s ) 与指代消解系统处 理后的结果文件( r e s p o n s e ) 对比计算得出召回率、准确率和f 值,并给出系统正 确识别、没有识别和错误识别的名词短语以便查找错误,改进系统。 9 第2 章指代消解相关知识语义信息在指代消解中的应用研究 2 3 2a c e 评测方法 a c e 对系统的性能评测是以与标准答案的匹配程度作为衡量结果的,主要是采 用基于漏报( 标准答案中有而系统输出中没有) 和误报( 标准答案中没有而系统输出中 有) 为基础的方法。由于在人工标注时,对于所有对象是以描述它的最长子串作为标 注对象的,因此每一个标注中,包含了关于对象的修饰信息,评测时,将会根据匹 配程度记录不同的分值。评价公式如下: v a l u e ( s y s 一o u t p u t , ,r e f e r e n c e = 审( f ) s y s t e m v a l u e = j = :一 7一 ;r e f e r e n c e m r e f e 伽一 公式 e l ( 2 - 2 ) ,l s y so u t p u ti 对应的抽取系统输出的第i 个输出项,r e f e r e n c em a p ( i ) 表示标准答案 中对应的匹配项,r e f e r e n c em 表示标准答案中实际标注的形式。 2 4 指代消解的研究现状 指代消解的研究历史悠久,早期的方法侧重于从理论上探索,运用大量手工构 建的语言甚至领域知识进行研究。近十年来,由于自然语言自动处理技术的发展和 对指代消解技术迫切的应用需求,人们转向了基于弱语言知识的方法,侧重于实用 的自动指代消解技术的研究开发,并取得了一定的进展。不过,由于受制于弱语言 自身的缺陷,自动指代消解技术近年来在性能的提高上遇到了不小的瓶颈,研究人 员把焦点转向了基于自动产生的浅层语言知识,特别是语义信息,希望取得性能上 的突破。 下面,分阶段依次介绍指代消解的研究状况: 2 4 1 早期的指代消解研究 指代消解的研究历史悠久。早期的方法侧重于从理论上探索,有代表性的工作 包括: 1 ) 基于完全解析树的遍历算法:h o b b s ( 1 9 7 6 ) 提出了一种不依赖任何语义知识 或语篇信息,只利用语法规则和完全解析树信息的指代消解算法【刀,实现了代词h e , l o 语义信息在指代消解中的应用研究 第2 章指代消解相关知识 s h e ,i t 和t h e y 的消解。该算法只利用语法规则和树图信息,为文档中的每个句子建 立完全语法解析树( f u l ls y n t a c t i cp a r s et r e e ) ,采用广度优先的方法搜索解析树,搜索 数量和性别一致的名词短语,然后根据语法结构中的语言支配关系( 1 i n g u i s t i c g o v e r n m e n t ) 和绑定原理( ( b i n d i n gp r i n c i p l e s ) 选择最佳的先行语。实验采用从三个来源 得到的文档作为测试数据,消解的准确率达到了9 2 ,h o b b s 算法对指代消解的发 展具有重要的意义,成为以后一些研究工作的基础,算法证明了采用计算方法可以 有效的解决指代问题,但该方法只解决了代词的消解问题,没有说明算法是否可以 扩展到非代词的情况。 2 ) 基于句法知识的方法:这种方法充分利用句法层面的知识,以启发式的方式 运用到指代消解中。例如l a p p i n 等( 1 9 9 4 ) 提出了一种r a p 算法,使用m e c o r d 提出的槽文法( s l o tg r a m m a r ) 获得文档的句法结构,并通过手工加权的各种语言 特征( 如主语和宾语) 计算各先行语候选的突显性,利用过滤规则确定先行语,实 现了句内和句间第三人称代词和反身代词的消解i s 。k e n n e d y 等( 1 9 9 6 ) 对r a p 算 法做了修改和扩展,避免了构建完整的解析树,而用自然语言处理工具预处理得到 词性标注和句法功能标注等浅层信息,在此基础上确定先行语【9 】。m i t k o v ( 1 9 9 8 ) 则在词性标注的基础上,对不同的语言特征进行量化,并使用计算权值的方法完成 对先行语候选的排序,从而选出先行语,解决代词的指代消解【lo 】。不过,上述工作 中的语言特征都是手工加权的,为了实现语言特征加权的自动化, l u o 等( 2 0 0 5 ) 对r a p 算法进行改进,探索了使用最大熵模型自动确定各种语言特征的权值。 早期的指代消解方法需要很多人工参与,降低了系统的可移植性和自动化程度。 2 4 2 近期的指代消解研究 随着标注语料库的不断出现和因特网的迅速发展,实验语料的获得越来越方便, 近期大多指代消解研究趋向于基于语料库的指代消解方法。具体的方法大致可以分 为如下三类: 1 ) 基于规则的方法:b r e n n a n 等( 1 9 8 7 ) 、s t r u b e ( 1 9 9 8 ) 和t e t r e a u l t ( 2 0 0 1 ) 利 用中心理论,首先根据前看( f o r w a r d - l o o k i n g ) 或后看( b a c k w a r d - l o o k i n g ) 中心的不同 对先行语候选进行分类,然后使用各种中心获取算法选出先行语。作为代表目前国 第2 章指代消解相关知识语义信息在指代消解中的应用研究 际先进水平的基于规则系统,z h o u 等( 2 0 0 4 ) 提出了一个基于限制规则的多代理策 略【取得了相当的成功,系统结果在m u c 6 测试语料中召回率6 5 8 ,准确率 8 4 7 ,f 值7 3 9 ;m u c 7 中召回率5 5 7 ,准确率8 2 8 ,f 值6 6 5 5 。 2 ) 基于统计的方法:d a g a n 等( 1 9 9 0 ) 优先考虑那些同现频率较高的先行语候 选作为代词的先行语,进行了代词“i t ”的消解研究。g e 等( 1 9 9 8 ) 提出了一种基 于贝叶斯概率统计模型的方法i 】,消解文本中的单数第三人称代词。c a r d i e 等( 1 9 9 9 ) 提出了通过聚类方法进行名诃短语的同指消解【1 t 其基本思想是收集篇章中的基本 名词短语,根据短语的特征对名词短语聚类,判断两个名词是否属于同一个类,系 统在m u c 6 中召回率5 5 ,准确率5 3 ,f 值为5 4 。 3 ) 基于分类的方法:m c c a r t h y ( 1 9 9 5 ) 把判断先行语的问题转换成分类问题, 通过分类器判断指代语与每个先行语候选之间是否存在指代关系【1 3 】。这一思想为日 后指代消解的研究开辟了一条全新的道路。s o o n 等( 2 0 0 1 ) 则首次给出了详尽完整 的实现步骤,设计并开发了一种基于机器学习的系统,用来消解非限制领域 ( u n r e s t r i c t e dt e x t ) 的名词短语【1 4 】。系统共分为5 个部分:l 、确定候选项2 、构建名 词短语特征向量3 、构建训练实例4 、训练分类器5 、识别测试文档,构建指代链。 s o o n 对其系统中的分类器性能、特征向量中各个属性的分类能力、出现错误的原因 等进行了详细的分析,系统最终在m u c 6 和m u c 7 语料上消解的f 值分别为6 2 6 和6 0 4 。近年来许多研究者在s o o n 的基础上作了不同程度的扩充,并取得了一定 的进展。典型的系统包括:n g 等( 2 0 0 2 ) 对s o o n 等( 2 0 0 1 ) 的研究进行了扩充, 抽取了5 3 个不同的词法、语法和语义特征1 1 5 】;y a n g 等( 2 0 0 3 ) 提出了一个双候选 模型,直接学习各先行语候选之间的竞争关系,以更好地确定先行语;y a n g 等( 2 0 0 4 ) 继续探索了先行语候选指代链中的语义信息在代词( 特别是中性代词) 指
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025私营企业股权转让合同协议书
- 2024年幼儿教师资格考试《综合素质(幼儿)》真题练习试卷D卷附答案
- 2025年综合类-中医临床三基(医院管理)-护理管理历年真题摘选带答案(5卷100道合辑-单选题)
- 部编人教版道德与法治六年级上册教学互动计划
- 2025年监理工程师-建设工程目标控制土建(官方)-质量-第八章设备采购和监造质量控制历年参考试题库答案解析(5卷100道集合-单选题)
- 2025年熔化焊接与热切割(焊工特种作业)-电子束焊与激光焊历年参考试题库答案解析(5卷100道集合-单选题)
- 2025年煤炭矿山职业技能鉴定考试-矿车修理工历年参考题库含答案解析(5卷100道集合-单选题)
- 五年级生命与健康教学阶段计划
- 果蔬脆片试题及答案
- 2025年火电电力职业技能鉴定考试-机电工考试历年参考题库含答案解析(5卷100道集合-单选题)
- GB/T 45920-2025铁铝酸盐水泥
- 宁夏卫生健康职业技术学院招聘考试真题2024
- 大健康行业发展趋势
- 2025年初中英语教师进城考试试卷及答案
- 铁路行车安全风险管理方法
- 2022-2023学年河南省郑州市中原领航实验学校小升初总复习数学测试卷含答案
- 建筑工程项目部各岗位职责
- 2023年龙岩市永定区区属国企招聘工作人员总考试试卷真题
- 儿童青少年生长迟缓食养指南(2023年版)
- 中国石油大学(北京)汇报答辩通用PPT模板-2
- 蒸压加气混凝土砌块抗压强度试验原始记录
评论
0/150
提交评论