(计算机应用技术专业论文)指代消解中待消解项识别研究.pdf_第1页
(计算机应用技术专业论文)指代消解中待消解项识别研究.pdf_第2页
(计算机应用技术专业论文)指代消解中待消解项识别研究.pdf_第3页
(计算机应用技术专业论文)指代消解中待消解项识别研究.pdf_第4页
(计算机应用技术专业论文)指代消解中待消解项识别研究.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

|r 苏州大学学位论文使用授权声明 本人完全了解苏州大学关于收集、保存和使用学位论文的规定, 即:学位论文著作权归属苏州大学。本学位论文电子文档的内容和纸 质论文的内容相一致。苏州大学有权向国家图书馆、中国社科院文献 信息情报中心、中国科学技术信息研究所( 含万方数据电子出版社) 、 中国学术期刊,( 光盘版) 电子杂志社送交本学位论文的复印件和电子 文档,允许论文被查阅和借阅,可以采用影印、缩印或其他复制手段 保存和汇编学位论文,可以将学位论文的全部或部分内容编入有关数 据库进行检索。 涉密论文口 本学位论文属在 年月解密后适用本规定。 非涉密论文口 论文作者签名: 导师签名: 期:2 止哆 期:丝 垒:壶:哆 、1 r 指代消解中待消解项识别研究 中文摘要 指代消解中待消解项识别研究 中文摘要 指代消解是自然语言处理的重点和难点之一,在信息抽取,文本摘要等应用中 都涉及到指代消解问题。待消解项识别是指代消解的一个子任务,是制约指代消解 性能的关键要素之一,也是目前指代消解研究的一个重要内容。 本文深入探讨了多种待消解项识别方法,如规则方法、特征方法、树核函数方 法等,并重点探索了依存关系理论驱动的待消解项识别,尝试使用复合核函数将特 征信息和结构化信息有机结合起来进行待消解项识别。 在规则方法研究中,分析各类别待消解项所具有的特点,从语法、句法等角度 归纳出较为有效的启发式规则。 在特征方法研究中,为每个类别的待消解项制定既符合自身特点又包含上下文 信息的特征集,使用机器学习方法构造待消解项识别分类器,将其作为过滤器加入 指代消解平台,使指代消解平台的f 值提高了o 8 2 2 。 在树核函数方法研究中,重点研究了结构化信息的获取问题,即句法树的裁剪, 提出了左右扩展策略、层次延伸策略和动态扩展策略。在a c e 2 0 0 3 英文语料上的实 验表明,动态扩展策略取得了较好的效果。基于动态扩展树的待消解项识别分类器 能将指代消解平台的f 值提高0 6 - , 1 7 。句法树的裁剪是基于树核函数的待消解项识 别方法的核心问题,本文提出了基于依存关系的句法树裁剪策略,与其他研究人员 的成果相比,它能够更好的获取识别待消解项所需的结构化信息,同时能有效滤去 噪音,因此基于依存关系的待消解项识别分类器取得了最佳的性能,将其作为过滤 器加入指代消解平台后,基准平台的f 值提高了2 4 3 6 。 本文还对基于树核函数的待消解项识别方法做了进一步研究,内容包括:尝试 将待消解项识别分类器的判断结果作为指代消解的一个特征、基于依存树的待消解 项识别研究、基于复合核函数的待消解项识别研究。 关键词:待消解项;指代消解:依存关系;复合核 作者:陈九昌 指导教师:朱巧明孔芳 i r e s e a r c ho na n a p h o f i c i t yd e t e r m i n a t i o ni nc o r e f e r e n c er e s o l u t i o n r e s e a r c ho n a n a p h o r i c i t yd e t e r m i n a t i o ni n c o r e f e r e n c er e s o l u t i o n a b s t r a c t c o r e f e r e n c er e s o l u t i o nh a sb e e nd r a w i n gm o r ea n dm o r ea t t e n t i o ni nr e c e n ty e a r s d u et oi t s i m p o r t a n c e i nn l pa p p l i c a t i o n s ,s u c ha si n f o r m a t i o ne x t r a c t i o n , t e x t s u m m a r i z a t i o n a sa ne s s e n t i a lp a r to fc o r e f e r e n c er e s o l u t i o n ,a n a p h o r i c i t yd e t e r m i n a t i o n r e s t r i c t st h ep e r f o r m a n c eo fc o r e f e r e n c er e s o l u t i o n t h i sp a p e re x t e n s i v e l ye x p l o r e sa n a p h o r i c i t yd e t e r m i n a t i o no fe n g l i s hb yv a r i o u s m e t h o d s ,i n c l u d i n gr u l e - b a s e d ,f e a t u r e - b a s e da n dk e r n e l b a s e dm e t h o d s i np a r t i c u l a r , t h i s p a p e rp r o p o s e sa n a p h o r i c i t yd e t e r m i n a t i o nb ye x p l o r i n gd e p e n d e n c yt h e o r y i ta l s o p r e s e n t sac o m p o s i t ek e r n e lt oc o m b i n eb o t hf l a tf e a t u r e sa n ds t r u c t u r a li n f o r m a t i o n i nr u l e - b a s e dm e t h o d ,h e u r i s t i cr u l e s g e t t i n g f r o mg r a m m a ra n ds y n t a c t i c p e r s p e c t i v ea l ep r o p o s e d i nf e a t u r e b a s e dm e t h o d ,w ef o c u so ne x p l o r i n gv a r i o u sk i n d s o ff l a tf e a t u r e sw h i c hc o n t a i nc h a r a c t e r i s t i ca n dc o n t e x t u a li n f o r m a t i o no fa n p h o r e x p e r i m e n t so nt h ea c e 2 0 0 3s h o wt h a to u rf e a t u r e b a s e da n a p h o r i c i t yd e t e r m i n a t i o n f i l t e rh e l p sc o r e f e r e n c er e s o l u t i o n 、撕t 1 1a l li m p r o v e m e n to f0 8 2 2i nf1m e a s u r e i nk e r n e l - b a s e dm e t h o d ,w ee x p l o r ean e wa p p r o a c ht od y n a m i c a l l yd e t e r m i n et h e t r e es p a nb yp r o p o s i n gt h r e ep r u n i n gs t r a t e g i e s e x p e r i m e n t ss h o wt h a td y n a m i c a l e x t e n s i o ns t r a t e g ya c h i e v e st h eb e s tp e r f o r m a n c e i ta l s os h o w st h a to u rk e m e l - b a s e d a n a p h o r i c i t yd e t e r m i n a t i o nf i l t e re n h a n c e sc o r e f e r e n c er e s o l u t i o n0 6 - 1 7i m p r o v e m e n ti n f 1m e a s u r e g i v e nt h ec o n v o l u t i o nt r e ek e r n e l ,t h ek e yi s s u ei sh o wt oe x t r a c tap a r et r e e s t r u c t u r ef r o mt h ep a r s et r e e c o m p a r e d 谢t l lo t h e rr e s e a r c h e r s r e s u l t s ,t h i sp a p e r p r o p o s e san e wa p p r o a c ht od y n a m i c a l l yd e t e r m i n et h et r e es p a nf o ra n a p h o r i c i t y d e t e r m i n a t i o nb ye x p l o i t i n gc o n s t i t u e n td e p e n d e n c i e st or e m o v et h en o i s yi n f o r m a t i o n ,a s w e l la sk e e pt h en e c e s s a r yi n f o r m a t i o ni nt h ep a r s et r e e o u ra p p r o a c ha c h i e v e sb e s t p e r f o r m a n c e 、析t l la ni m p r o v e m e n to f 2 4 3 6i nf 1m e a s u r ef o rc o r e f e r e n c er e s o l u t i o n r e s e a r c ho na n a p h o f i c i t yd e t e r m i n a t i o ni nc o r e f e r e n c er e s o l u t i o n a b s t r a c t f i n a l l y , t h i sp a p e rf u r t h e r st h er e s e a r c ho nk e r n e l - b a s e dm e t h o db yf o c u s i n g o n e m p l o y i n ga n a p h o r i c i t yd e t e r m i n a t i o nr e s u l t 舔af e a t u r e f o rc o r e f e r e n c er e s o l u t i o n , e x p l o r i n gd e p e n d e n c yt r e ep r u n i n gs t r a t e g ya n du s i n gc o m p o s i t ek e r n e l t oc o m b i n e s t r u c t u r a li n f o r m a t i o n 、析t hf l a tf e a t u r ei n f o r m a t i o n k e yw o r d s :a n a p h o r i c i t yd e t e r m i n a t i o n ;c o r e f e r e n c er e s o l u t i o n ;d e p e n d e n c y ; c o m p o s i t ek e r n e l w r i t t e nb yc h e nj i u c h a n g s u p e r v i s e db yz h uq i a o m i n g ,k o n gf a n g i i i 目录 第1 章绪论一1 1 1 研究背景1 1 2 研究意义一2 1 3 研究现状3 1 4 本文的研究内容4 1 5 论文组织结构4 第2 章相关知识6 2 1 指代消解6 2 2 待消解项7 2 3 实验语料8 2 4 评测方法9 2 4 1 指代消解性能评测1 0 2 4 2 待消解项识别性能评测1 0 2 5 指代消解平台一1 1 2 5 1 平台概述1 1 2 5 2 预处理模块一l2 2 5 3 特征向量抽取模块1 2 2 5 4 实例构建1 3 2 5 5 待消解项识别模块1 4 2 5 6 基准平台性能。16 2 6 本章小结1 6 第3 章基于规则的待消解项识别1 7 3 1 相关研究1 7 3 2 基于规则的待消解项识别分类器l8 3 2 1 启发式规则18 3 2 2 待消解项识别分类器性能评测1 9 3 3 指代消解性能评测及分析2 0 3 4 本章小结:2 0 第4 章基于特征的待消解项识别。一2 1 4 1 相关研究2 1 4 2 待消解项的特征选择2 2 4 2 1 代词特征集2 2 4 2 2 专有名词特征集2 3 4 2 3 有定名词特征集2 4 4 2 4 无定名词特征集2 5 4 2 5 其他类别特征集2 6 4 3 基于特征的待消解项识别分类器2 7 4 3 1 构造方法2 7 4 3 2 待消解项识别分类器性能评测2 7 4 4 指代消解性能评测及分析2 8 4 5 本章小结3 0 第5 章基于树核的待消解项识别3 1 5 1 树核和结构化信息3 1 5 2 相关研究3 2 5 3 依存关系相关知识3 4 5 3 1 依存语法3 4 5 3 2 依存关系分析工具3 5 5 4 卷积树核与复合核3 8 5 4 1 卷积树核3 8 5 4 2 复合核3 8 5 5 待消解项句法树裁剪3 9 5 5 1 基本裁剪策略3 9 5 5 2 动态扩展策略4 1 5 5 3 基于依存关系的裁剪策略4 2 5 6 基于树核的待消解项识别分类器4 4 5 6 1 构造方法4 4 5 6 2 待消解项识别分类器性能评测4 5 5 7 指代消解性能评测及分析4 7 5 8 关于树核方法的进一步研究一4 8 5 8 1 待消解项识别分类器的应用4 8 5 8 2 对句法分析器的依赖性分析4 9 5 8 3 基于依存树的待消解项识别5 0 5 8 4 基于复合函数的待消解项识别5 2 5 8 5 指代消解性能评测及分析5 3 5 9 本章小结5 4 第6 章总结与展望5 5 6 1 总结5 5 6 2 展望5 6 参考文献5 7 攻读学位期间公开发表的论文。6 0 攻读硕士学位期间参与的项目6 0 致谢一6 1 指代消解中待消解项识别研究 第l 章绪论 1 1 研究背景 第1 章绪论 随着计算机技术和互联网的迅速发展,人们步入了信息时代。社会的信息化程度 己经发展到一个全新的阶段,信息的传递与交流已成为现代社会生活运作的重要基 础,各种信息呈爆炸式增长。人们在享受海量信息提供的便利的同时,也面临着如何 从浩如烟海的信息中找到所需内容的困境。一些集成了自然语言处理技术的成果,如 信息检索、信息抽取、文本分类、自动文摘、机器翻译等系统,从不同角度满足了人 们对信息精确定位的需求。但是,人们发现这些系统仍不能真正理解并满足用户的需 求,提高系统精确度的要求已迫在眉睫。为解决这些问题,必须从各个方面提高自然 语言处理技术的水平。 指代消解是自然语言处理( n a t u r a ll a n g u a g ep r o c e s s i n g ,n l p ) 的关键问题之一, 它是自然语言处理中篇章理解不可缺少的内容,文本摘要、机器翻译、多语言信息处 理和信息抽取等诸多应用都涉及到指代消解问题【l 】。指代是指在篇章中用一个指代词 回指某个以前说过的语言单位。在语言学中,指代词称为照应语,所指的对象或内容 称为先行语,指代消解就是确定照应语和先行语之间相互关系的过程1 2 】。1 9 9 7 年的 e a c l 和1 9 9 9 年的a c l 年会都设立了指代消解的专题会议,指代消解也是m u c ( m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ) d 】和a c e ( a u t o m a t i cc o n t e n te x t r a c t i o n ) 1 4 1 信 息抽取评测体系中的一个主要任务。在近十年的发展过程中,指代消解研究从早期的 侧重于理论探索,运用大量手工构建的语言甚至领域知识逐渐转向基于有监督的机器 学习方法,并取得了突破性进展。然而最近几年,指代消解研究遇到了瓶颈,研究者 从各个方面寻找突破口,待消解项识别便是其中之一。 待消解项识别( a n a p h o r i c i t yd e t e r m i n a t i o n ) 是判断指代词是否指向某个语言单 位,决定其是否需要消解的过程。高效的待消解项识别技术可以减少消解时的错误信 息,加快消解速率,提高正确性,它是指代消解研究的重点问题之一。在指代消解研 究的早期就有研究者意识到待消解项识别的重要性,随着指代消解研究的不断进步, 待消解项识别已逐渐成为研究重点并取得了一定成果,进一步提高了指代消解性能。 i 第1 章绪论 指代消解中待消解项识别研究 1 2 研究意义 指代大量出现在篇章或对话中,它使句子更加简洁,主题更加鲜明突出,但这也 给计算机理解自然语言增加了难度。计算机处理自然语言的首要工作是对自然语言进 行转换,将人类易于理解的自然语言转换成计算机能处理的形式。指代消解消除了人 们用于简化表达所使用的指代形式,为计算机处理提供完整和正确的信息,避免上下 文理解错误。随着机器翻译等相关应用的日益广泛,指代消解显示出前所未有的重要 性,并成为自然语言处理领域的一个研究热点。因此,指代消解研究既有理论意义, 又有实际需求。 待消解识别作为指代消解的子任务、子模块,也具极其重要的研究意义。s t o y a n o v 等【5 】在2 0 0 9 年a c l ( a s s o c i a t i o nf o rc o m p u t a t i o n a ll i n g u i s t i c s ) 会议上发表了一篇关 于指代消解研究的难点及这些难点对指代消解性能影响的论文,该论文详细论述了影 响指代消解性能的三个因素,其中第三个因素就是待消解项识别,文章指出在指代消 解中加入高效的待消解项识别模块可以减少参加消解的错误消解元素( c o r e f e r e n c e e l e m e n t ) ,使需要消解的元素集更接近标注的消解元素集合,随后在m u c 、a c e 语 料上进行了理想实验( 即所有的消解元素被正确识别,消解时使用标注集中的待消解 项) ,实验表明指代消解的f 值可以提高6 1 0 。 通过上面的分析表明待消解识别是自然语言处理领域中一个值得研究的课题,同 时也是一个较难的问题。下面本文从三个方面讨论待消解项识别的难点以表明研究意 义: 指代现象广泛存在于自然语言中,类型多种多样,而且各种类型的指代间差异巨 大,相应的,不同类型的待消解项之间也存在较大的差别,很难采用统一的特征集或 策略进行所有类别的待消解项识别。 待消解项识别是一个需要知识资源支撑的任务,需要多级语言知识,包括句法知 识、语义知识、上下文知识甚至领域知识,只有充分得到指代词自身及所在语言环境 的信息,才能正确的判断它是否需要消解。在当前自然语言处理水平下,要有效的得 到所需知识仍然不是件容易的事情,它是一个长期积累的过程。 待消解项识别是指代消解中一个至关重要的模块,和指代消解平台的其他消解模 块关系密切。一方面,它依赖于预处理中的分词、词性标注、命名实体识别、短语识 2 指代消解中待消解项识别研究第l 章绪论 别;另一方面,待消解项识别的性能对指代消解性能的提升意义重大。 1 3 研究现状 在指代消解研究的早期就有研究者意识到待消解项识别的重要性,但当时指代消 解侧重于运用大量手工构建的语言知识甚至领域知识进行研究,所以待消解项的识别 基本采用规则的方法。近十几年来,随着大规模语料的出现和自然语言处理技术的发 展,出现了基于语料库统计的方法,并取得了一定成果,但受制于语料自身的缺陷以 及基于语料方法无法解决的自适应问题,研究者逐渐将目光转向了基于机器学习的方 法,结合浅层语言知识、语义信息、结构化信息等,进一步提高待消解识别的效率, 并最终达到提升指代消解性能的目的。 下面按时间分阶段介绍待消解项识别的研究现状: 1 基于规则的方法:h o b b s ( 1 9 7 6 ) 【6 】提出了一种不依赖任何语义知识或语篇信 息,只利用语法规则和完全解析树信息的指代消解算法,实现了代词的消解。在他提 出的算法中就没有考虑代词指向某一语句的情况,且当“i t 出现在表示时间或天气 的表达方式中时,算法认为“i t 是非待消解项。l a p p i n 等( 1 9 9 4 ) l 7 】提出了一种r a p 算法,使用m c c o r d 提出的槽文法( s l o tg r a m m a r ) 获得文档的句法结构,并通过手 工加权的各种语言特征( 如主语和宾语) 计算各先行语候选的突显性,实现了句内和 旬间第三人称代词和反身代词的消解。在其构建的指代消解平台中引入了用于识别 “i t 是否为待消解项的独立识别模块。在识别模块中,设定了一些模式,如:“i ti s c o g v 。e dt h a ts e n t e n c e ,其中c o g v 是像t l i n k 、b e l i e v e 、k n o w 这样的认知动词,识别 模块将可能的指代词所在的句式与设定的模式进行比较,若模式匹配,则认为遇到的 “i t 并是非待消解项。 2 基于统计的方法:b e a n 等( 1 9 9 9 ) 【8 】分析有定名词的类别及出现的现象,统 计篇章新闻( d i s c o u r s e n e w ) 出现的模式并动态产生一个为篇章新闻的有定名词列表, 结合启发式方法用于识别有定名词是待消解项还是篇章新闻( 即非待消解项) 。 b e r g s m a 等( 2 0 0 8 ) 【9 】利用代词的局部上下文句式进行待消解项识别。方法是对每一 个代词都按一定规则提取其所在上下文的句式,然后在大型语料库中对该句式出现频 度进行统计,再根据统计结果判断当前代词是否为待消解项。 第1 章绪论 指代消解中待消解项识别研究 3 基于机器学习的方法:n g 等( 2 0 0 2 a ) 0 0 l 给出了一种基于特征的待消解项识 别方法。方法是选取包括词法、语法、句式、语义、位置等多方面信息的3 7 个特征, 以m u c 6 和m u c 7 作为训练、测试语料;使用机器学习方法构造待消解项识别分 类器,最后将分类器加入指代消解系平台,通过实验证明了待消解项识别模块的引入, 能进一步提高指代消解性能。z h o u 等( 2 0 0 9 ) 【l l 】从特征方法和树核函数方法研究了 待消解项的识别,取得了很好的效果。在特征方法中,选取了1 7 个特征用于表示待 消解项的自身及上下文信息;在树核方法中,通过不同的裁剪策略,构造不同的句法 树,充分包含了待消解项的结构化信息。实验证明,使用两种方法构造的待消解项识 别模块具有较高的性能,将其加入到指代消解平台,平台的性能得到很大提高。 1 4 本文的研究内容 本文研究内容是英文指代消解中待消解项的识别,通过分析并借鉴在指代消解领 域的一些比较成熟的方法,结合待消解项识别任务的特点,在前人研究的基础上提出 了能准确判别当前消解元素是否是待消解项的多种方法,并进一步验证了待消解项识 别对指代消解的意义。本文将从以下几个方面展开研究: 1 规则方法:分析六类待消解项在语法、句法及使用等方面的特点,为每个类 别分别提出了相应的启发式规则集。 2 平面特征方法:为各种不同类别的待消解项选择合适的特征集,并借助机器 学习方法构建独立的待消解项识别分类器。 3 结构化特征方法:提出多种结构化特征捕获方案,在句法树中获取相应的结 构化特征,并利用卷积树核函数进行基于结构化特征的待消解项识别研究。 4 基于依存关系的待消解项识别研究:在依存理论的指导下研究更加合理的结 构化句法信息的获取方法,探索依存关系驱动的基于树核函数的待消解项识别方案。 1 5 论文组织结构 第一章,概述全文。首先介绍了课题的研究背景和意义,然后按时间顺序总结了 待消解项识别的研究现状,并列举了具有代表意义的研究成果,最后介绍了本文的研 究内容。 4 指代消解中待消解项识别研究第l 章绪论 第二章,相关知识。主要介绍了指代消解和待消解项的相关概念,本文使用的实 验语料和相关评测方法,详细介绍了指代消解基准平台。 第三章,介绍基于规则的待消解项识别方法。重点介绍了识别待消解项的启发式 规则及基于规则的待消解项识别方法对指代消解性能的影响。 第四章,介绍基于特征的待消解项识别方法。重点介绍用于识别各类别待消解项 的特征集,分析基于特征的待消解项识别分类器对指代消解性能的影响。 第五章,介绍基于树核函数的待消解项识别方法。首先介绍树核方法的优点,卷 积树核和复合核的相关概念,依存关系的相关知识,接着介绍多种结构化特征的捕获 方案,其中基于依存关系裁剪句法树策略为本文的创新点,最后评测了基于树核函数 的待消解项识别分类器对指代消解性能的影响。 第六章,总结全文并展望下一步的研究工作。 5 第2 章相关知识指代消解中待消解项识别研究 2 1 指代消解 第2 章相关知识 指代是一种常见的语言现象,广泛存在于自然语言的各种表达之中,起到了超 链接作用,是体现文章风格和实现篇章连贯的必要方法,图2 1 给出的是一篇关于 乔治w 布什的英语文章片段,其中对布什有多种不同的表述方式( g e o r g ew b u s h ,b u s h ,p r e s i d e n tb u s h ,h e 等) 。 g e o r g e 职b u s hi st h e4 3 r dp r e s i d e n to ft h eu n i t e ds t a t e s f o r m e r l yt h e4 6 t h g o v e r n o ro ft h es t a t eo ft e x a s ,b u s hh a se a r n e dar e p u t a t i o na sac o m p a s s i o n a t e g e o r g e 班b u s hw a sb o r nj u l y6 ,19 4 6 ,a n dg r e wu pi nm i d l a n da n dh o u s t o n , t e x a s h er e c e i v e dab a c h e l o r sd e g r e ef r o my a l eu n i v e r s i t ya n dam a s t e r so fb u s i n e s s a d m i n i s t r a t i o nf r o mh a r v a r db u s i n e s ss e h 0 0 1 p r e s i d e n tb u s hi sm a r r i e dt ol a u r a w e l c hb u s h ,af o r m e rt e a c h e ra n dl i b r a r i a n , a n dt h e yh a v e18 - y e a r - o l dt w i nd a u g h t e r s , b a r b a r aa n dj e n n a t h eb u s hf a m i l ya l s oi n c l u d e st h e i rd o g ,s p o t , a n dt w oc a t s ,i n d i a a n de m i e 图2 - 1 英文指代实例 在语言学中,指代词称为照应语( a n a p h o r ) ,所指的对象或内容称为先行语 ( a n t e c e d e n t ) 。一般情况下,指代分为两种:回指( a n a p h o r a ,也称为指示性指代) 和共指( c o r e f e r e n c e ,也称同指) 。回指是指当前的照应语与上文出现的词、短语或 句子( 句群) 存在密切的语义关联性,指代依存于上下文语义中,在不同的语言环 境中可能指代不同的实体,具有非对称性和非传递性;共指是指两个名词( 包括代 名词、名词短语) 指向真实世界中的同一参照体,这种指代脱离上下文仍然成立。 回指和共指存在很大的交集,但又不互相包含,目前指代消解研究主要侧重于等价 关系,即共指消解( c o r e f e r e n c er e s o l u t i o n ) ,只考虑两个词或短语是否指向现实世 界中同一实体的问题,本文主要讨论英文中的共指消解和待消解项识别。 英文中的指代有多种不同类型,常见的有如下几种【1 2 】: 人称代词指代( p r o n o u n ) c o m p u t a t i o n a ll i n g u i s t i c s 】f r o md i f f e r e n tc o u n t r i e sa t t e n d e dt h et u t o r i a l 【t h e y 】 6 指代消解中待消解项识别研究第2 章相关知识 t o o ke x t e n s i v en o t e 别名指代( n a m ea l i a s ) 【m i c r o s o f tc o r p 】a n n o u n c e di t sn e wc e oy e s t e r d a y 【m i c r o s o f t s a i d 同位语指代( a p p o s i t i o n ) 【j u l i u sc a e s a r ,【t h ew e l l k n o w ne m p e r o r ,w a sb o r ni n10 0b c 有定名词短语指代( d e f i n i t en o u np h r a s e ) c o m p u t a t i o n a ll i n g u i s t i c s 】f r o md i f f e r e n tc o u n t r i e sa t t e n d e dt h et u t o r i a l 【t h e p a r t i c i p a n t s 】t o o ke x t e n s i v en o t e 指示名词短语指代( d e m o n s t r a t i v en o u np h r a s e ) t o mw a n t st ol i m i tt h et o t a ln u m b e ro fs a i l o r so n 【t h ea r s e n a ls t r i p 】t ob e t w e e n5 0 a n d6 0 c u r r e n t l y , 【t h i ss h i p 】h a v ea b o u t9 0s a i l o r s 无定名词短语指代( i n d e f i n i t en o u np h r a s e ) g e o r g ew b u s h 】i s 【af a m o u sp r e s i d e n t 其它名词短语指代( b a r en o u np h r a s e ) t h ep r i c eo f 【a l u m i n u m 】s i d i n gh a ss t e a d i l yi n c r e a s e d ,a st h em a r k e tf o r a l u m i n u m 】 r e a c t st ot h es t r i k ei nc h i l e 2 2 待消解项 各种指代现象是由消解元素( c o r e f e r e n c ee l e m e n t ,c e ) 构成,这些消解元素 可划分为六类【1 l 】:代词、专有名词短语、有定名词短语、无定名词短语、指示性名 词短语、未知类别名词短语。任何一个消解元素可能是待消解项( a n a p h o r ) ,指向 某个语言对象;也可能是非待消解项( n o n a n a p h o r ) ,不指向任何内容。比如: 例l :【t h ed o g 】i ss oc u t e ,il i k e tv e r ym u c h 例2 :y o uc a nm a k e ti nh o l l y w o o d 例3 - y o uc a nm a k e 豇i na d v a n c e 例l 中的“i t 很明显是指向前一句的“t h ed o g ,是一个待消解项。例2 和例 3 在结构上非常相似,但例3 中的“i t ”是待消解项,指向某个事件,而例2 中的“i t 是非待消解项,它和“m a k e 构成一个固定搭配,表示“成功。因此,准确判断 7 第2 章相关知识 指代消解中待消解项识别研究 消解元素是否为待消解项是具有较大的难度。 很多指代消解研究都忽略了待消解项识别这一任务,认为所有的消解元素都是 待消解项,都必须为其寻找合适的先行语。而事实并非如此,例如英文中的“i t , 它大约占文本标记的1 ,占第三人称代词的比重超过1 4 ,是出现频度最高的单词 之一,统计表明约有2 5 至5 0 的“i t 是非待消解项【9 】。在有定名词中,以p e n n t r e e b a n k 的子语料w s j ( 华尔街日报) 为例,6 6 左右的有定名词是篇章新闻 ( d i s c o u r s e n e w ) ,为非待消解项【1 3 】。随着指代消解性能要求的不断提高,待消解 项识别任务的重要性也越来越突出,它已经成为制约指代消解性能的一个重要因素。 2 3 实验语料 本文使用的语料为英文指代消解常用语料a c ep h a s ei id a t as e t s l ( 以下简称 a c e 0 3 ) ,它分为三个类别的子语料:n e w s w i r e ( n w i r e ) ,n e w s p a p e r ( n p a p e r ) , b r o a d c a s tn e w s ( b n e w s ) ,训练和测试文档数见表2 1 : 表2 1a c e 0 3 语料篇章统计 n w i r en f a p e rb n e w s 训练文档( 篇) 1 3 07 62 1 6 测试文档( 篇) 2 91 7 5 1 三个语料虽同属于新闻领域,但标注的实体比例不一样,b n e w s 比较口语化, 代词居多;n p a p e r 比较正式,专有名词居多;n w i r e 介于两者之间。表2 - 2 给出 了三个子语料标注的实体个数以及指代消解平台识别的实体个数、平台正确识别已 标注的实体个数。表中的系统识全率是指消解平台能够正确识别出语料中已标注实 体的概率,概率越高说明丢失的标注实体越少,平台的可靠性越好,能为后续的待 消解项识别提供充足的实体。由表中数据看出,平台识别的非标注实体数量较多, 所以从提高系统性能的角度出发,需要在指代消解流程中加入待消解项识别模块来 过滤噪音实体。 1 h t t p :i t l n i s t g o v i a d 8 9 4 0 1 t e s t s a c e 8 指代消解中待消解项识别研究第2 章相关知识 表2 2a c e 语料标注实体及识别实体统计 n w j r en p i a p e rb 1n e w s t m i nt e s tt 1 a n1 e s tt r a i nt 色s t 语料标注实体个数 6 6 9 l1 8 9 38 7 4 9 1 9 2 5 6 6 9 22 0 2 0 系统识别实体个数 1 6 1 3 14 6 6 41 9 4 4 74 6 7 51 7 3 6 04 7 5 3 系统正确识别个数 6 1 9 41 7 4 48 2 0 81 8 2 76 2 5 21 8 4 7 系统识全率( ) 9 2 69 2 19 3 89 4 99 3 49 1 4 在a c e 语料标注的实体中,有些具有指代关系,有些则没有,主要是因为它不 仅仅用于指代消解研究,也用于实体关系抽取等研究。表2 3 给出了a c e 0 3 语料中 具有指代关系的实体( a n a p h o r ) 、已标注但不具有指代关系的实体( n o n a n a p h o r ) 的数量。n o n a n a p h o r 在各语料中的比率均高于2 0 ,从理论研究角度来看,需要 待消解项识别模块来判断实体是否是待消解项,提高指代消解性能。 表2 - 3a c e 0 3 语料中待消解项与非待消解项统计 n w i r en f ,a p e rb n e w s t r a i nt e s tt 1 a i nt e s tt r a i nt e s t a n a p h o r 4 7 7 01 3 2 66 6 9 21 4 6 04 7 3 91 3 9 2 n o n a n a p h o r 1 4 2 44 1 81 5 1 63 6 71 5 1 34 5 5 t o t a l6 1 9 41 7 4 4 8 2 0 8 1 8 2 7 6 2 6 5 1 8 4 7 n o n a n a p h o r sr a t e ( ) 2 9 93 1 52 2 72 5 13 1 93 2 7 2 4 评测方法 随着自

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论