




已阅读5页,还剩68页未读, 继续免费阅读
(计算机应用技术专业论文)基于树核的代词消解研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于树核的代词消解研究中文摘要 基于树核的代词消解研究 中文摘要 指代消解是自然语言处理的重点和难点之一,在文本摘要、机器翻译、多语言信 息处理和信息提取等诸多应用中都涉及到指代消解问题。核函数的研究和使用是当前 机器学习研究领域的热门课题。作为一种特殊的核函数,树核函数已被应用于自然语 言处理的各个领域,并取得了一定的成功。 本文深入分析了现有的指代消解技术并进行了归类总结。针对结构化信息在指代 消解中的重要作用,本文使用s v m 提供的卷积树核函数自动获取句法结构信息,并将 句法树作为一个特征,和其它基本特征相结合,从而训练得到一个分类器对代词进行 消解。 在基于卷积树核的英文代词消解研究中,本文首先考察了句法树的裁剪和扩展, 通过适当的裁剪策略选择一棵合适的子树。裁剪策略主要分为静态裁剪和动态裁剪, 在a c e2 0 0 4n w i r e 语料上的实验表明,在仅使用裁剪策略的情况下,动态裁剪树 、 要好于静态裁剪树,动态裁剪树的f 值达到了7 9 3 。由于很多句法树的区分能力不 足,所以本文考虑句法树的语义扩展,将一些语义节点挂到句法树上。实验表明,句 法树的语义扩展能显著提高系统的性能。 针对卷积树核和指代消解的特点,本文分别考虑了训练实例的过滤和系表i t 的过 滤,从而达到优化分类器的性能。训练实例的过滤主要过滤一些明显有指代关系的训 练实例,从而减少分类器的噪音;而系表i t 的过滤主要是过滤那些不需要消解的i t 。 本文还进一步分析了卷积树核对句法分析器的依赖以及跨句的指代的情况。 此外,针对中文的指代消解,本文单独实现了一个基于机器学习的指代消解平台, 由于预处理过程并不完善,所以在基于卷积树核的中文代词消解研究中只考虑句法树 的裁剪。 在a c e2 0 0 4n w i r e 英文语料和a c e2 0 0 5 中文语料上的实验结果表明,卷积树 核能有效的提高代词消解的性能,f 值分别达到了8 2 1 和5 0 3 。本文的指代消解 中文摘要基于树核的代词消解研究 系统对代词的消解性能较好,对机器学习算法兼容性较强,可以在一定程度上有效地 解决中英文的代词消解问题。 关键词:代词消解;特征向量:结构化信息;句法树;卷积树核 i i 作者:王海东 指导教师:周国栋孔芳 t r e ek e r n e l - b a s e dp r o n o u nr e s o l u t i o n a b s t r a c t t r e ek e r n e l b a s e dp r o n o u nr e s o l u t i o n a b s t r a c t a sac r i t i c a la n dh o tr e s e a r c ht o p i ci nn l p ,c o r e f e r e n c er e s o l u t i o np l a y sa ni m p o r t a n t r o l ei nm a n yn l pa p p l i c a t i o n s ,s u c ha st e x ts u m m a r i z a t i o n ,m a c h i n et r a n s l a t i o na n d m u l t i l a n g u a g ei n f o r m a t i o np r o c e s s i n g h a v i n gd r a w ng r e a ta t t e n t i o ni nt h em a c h i n e l e a r n i n gc o m m u n i t y ,t r e ek e r n e lm e t h o d sa r ee x p e c t e dt oh a v eb r o a da p p l i c a t i o np r o s p e c t s , a n dh a v e b e e ns u c c e s s f u l l ya p p l i e di nn l pt oac e r t a i ne x t e n t w h i l ep r e v i o u sr e s e a r c hf o c u s e so na p p l i c a t i o no fl e x i c a la n ds y n t a c t i ci n f o r m a t i o ni n c o r e f e r e n c er e s o l u t i o n ,t h i s p a p e rs y s t e m a t i c a l l ye x p l o r e sv a r i o u sk i n d so fs e m a n t i c i n f o r m a t i o nw h i c ha u t o m a t i c a l l ya c q u i r e df r o mc o n v o l u t i o nk e r n e l w i t hs y n t a xt r e e c o n s i d e r e da saf e a t u r e ,an u m b e ro fe f f e c t i v ef e a t u r e sa r ee x p l o r e dt or e s o l v ep r o n o m i n a l r e s o l u t i o nu s i n gt h es v mm o d e l i nt h er e s e a r c ho ft r e ek e r n e lb a s e de n g l i s hp r o n o u nr e s o l u t i o n , t h i sp a p e rf i r s t e x p l o r e st h es u bt r e et h r o u g has u i t a b l ee x p a n d i n ga n dp r u n i n gs t r a t e g yo fs y n t a c t i c p a r s i n gt r e e p r u n i n gs t r a t e g yc a nb ed i v i d e di n t os t a t i ca n dd y n a m i cp a r s et r e e e v a l u a t i o n o nt h ea c e2 0 0 4n w i r ec o r p u ss h o w st h a td y n a m i cp a r s et r e eo u t p e r f o r m st h a ns t a t i c p a r s et r e e 谢t hi t sf - m e a s u r e7 9 3 d u et ot h el a c ko fd i s t i n c t i o n ,t h i sp a p e rc o n s i d e r s s e m a n t i ce x p a n s i o no fp a r s et r e eb ya d d i n gs o m es e m a n t i cn o d e st ot h ep a r s et r e e t h e e x p e r i m e n t a lr e s u l t ss h o wt h a tt h es e m a n t i ce x p a n s i o no fp a r s et r e ec a l ls i g n i f i c a n t l y i m p r o v et h ep e r f o r m a n c eo ft h es y s t e m f u r t h e r m o r e ,t h ep a p e rt a k e si n t oa c c o u n tt h ef i l t e ro ft h et r a i n i n ge x a m p l e s 鹞w e l la s t h er e d u n d a n c yo f i t ,t oo p t i m i z et h ep e r f o r m a n c eo ft h ec l a s s i f i e r t h ef i l t e rt ot r a i n i n g e x a m p l e sr e f e r st oan u m b e ro fe x a m p l e so b v i o u s l yc o r e f e r e n t i a l ,w h i c hw i l lr e d u c et h e n o i s eo ft h ec l a s s i f i e rs i g n i f i c a n t l y ;w h i l et h ef i l t e ro f i t r e f e r st ot h o s et h a td on o tn e e d t or e s o l u t i o n t h e d e p e n d e n c eo fc o n v o l u t i o nt r e e k e r n e lo nt h ec l a s s i f i e ra n d c r o s s s e n t e n c ea n a p h o r aa r ea l s oa n a l y z e d m o r e o v e r , am a c h i n el e a r n i n gb a s e dc h i n e s ep r o n o u nr e s o l u t i o ns y s t e mi sa l s o d e v e l o p e d b e c a u s ei t sa na l p h as y s t e m ,s ow eo n l yc o n s i d e rt h ep r u n i n gi nt h ec h i n e s e i a b s t r a c t t r e ek e r n e l b a s e dp r o n o u nr e s o l u t i o n p r o n o m i n a lr e s o l u t i o n e x p e r i m e n t a lr e s u l t sb o t hi ne n g l i s ha n dc h i n e s ea c e 2 0 0 4 n w i r e c o r p u ss h o wt h a tt h ec o n v o l u t i o nk e r n e lc a ne f f e c t i v e l yi m p r o v et h er e s o l u t i o no f p r o n o u n s ,谢t l lf - m e a s u r e8 2 1 a n d5 0 3 r e s p e c t i v e l y e v a l u a t i o ns h o w st h a to u r s y s t e mp r o v i d e sag o o dp l a t f o r mf o rp r o n o m i n a lr e s o l u t i o nw i t hh i 曲c o m p a t i b i l i t yo f a l g o r i t h m k e yw o r d s :p r o n o u nr e s o l u t i o n ;f e a t u r ev e c t o r ;s y n t a c t i ci n f o r m a t i o n ;s y n t a c t i c p a r s i n gt r e e ;c o n v o l u t i o nk e r n e l ; w r i t t e nb yw a n gh a i d o n g s u p e r v i s e db yz h o ug u o d o n g ,k o n gf a n g i v 苏州大学学位论文独创性声明及使用授权的声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进 行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含 其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学 或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡 献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律 责任。 研究生签名:生j 羞! ! 垄日期:坦2 :兰:, 学位论文使用授权声明 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文 合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本 人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文 外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分 内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。 研究生签名: 导师签名: 日期: 基于树核的代词消解研究第1 章绪论 1 1 研究背景 第1 章绪论 随着计算机技术和互联网的迅速发展,社会的信息化程度己经发展到一个全新的 阶段,信息的传递与交流已成为现代社会生活运作的重要基础,各种信息呈爆炸式增 长。人们在享受海量信息提供的便利的同时,也面临着如何从浩如烟海的信息中找到 自己所需内容的困境。一些集成了自然语言处理成果的技术,如信息检索、信息抽取、 文本分类、自动文摘、机器翻译和多语言信息处理等系统,从不同角度满足了人们对 信息精确定位的需求,大大方便了为海量信息所累的用户。但是,人们发现这些系统 仍不能真正理解并满足用户的需求,因此必须从各个方面提高自然语言处理技术的水 平。 自然语言是- - i - j 交叉学科【1 】,涉及语言学、数学和计算机科学,横跨文科、理科 和工科三大知识领域,在信息化社会中,语言信息处理的知识水平和每年处理的信息 总量已经成为衡量一个国家现代化水平的重要标志之一。自然语言为人们提供了丰富 的表达思想的手段,不同的人有不同的表述习惯。如描述同一个确定的事物,不同的 人的表达方式各不相同,即使是相同的文章,不同的人对文章的理解也有所差别。让 计算机来处理人才能理解的自然文章是非常困难的,如何让机器理解自然语言,这是 对自然语言处理的研究者们提出的巨大挑战,挑战之一便是如何处理指代。 指代( a n a p h o r a ) 是自然语言中常见的语言现象,它是指在文章中用一个指代词回 指某个以前说到过的语言单位。指代通常的表现形式包括缩写、专有名词、代名词等 语言现象,这种现象在文章中常贯彻始终,广泛存在于自然语言的各种表达中。无论 从语言自身规律探讨,还是从应用的角度去看,指代消解都是语言学家和计算语言学 家不容忽视的问题。指代消解在n l p ( n a t u r el a n g u a g ep r o c e s s ) 的许多领域都起 着非常重要的作用。 事实上,一篇引人入胜的文章必然采用多样的表达方式来表示同一个实体,但对 自然语言处理系统来说,这无疑大大增加了处理的难度。随着自然语言其它相关工作 第1 章绪论基于树核的代词消解研究 的发展,指代消解已成为自然语言处理的瓶颈。 在计算语言学领域,指代消解也显示出前所未有的重要性。指代消解是自然语言 处理中文本理解不可缺少的组成部分,在文本总结、机器翻译( m a c h i n et r a n s l a t i o n ) 、 多语言信息处理和信息提取等诸多应用中都涉及到指代消解问题。1 9 9 7 年的e a c l 和1 9 9 9 年的a c l 年会都设立了指代消解的专题会议,指代消解也是m u c ( m e s s a g e u n d e r s t a n d i n gc o n f e r e n c e ) 【2 】和a c e ( a u t o m a t i cc o n t e n te x t r a c t i o n ) 1 3 1 信息抽取评测体 系中的一个主要任务。 1 2 指代消解的定义 指代是一种常见的语言现象,广泛的存在于自然语言的各种表达之中。在语言学 中,指代词称为照应语( a n a p h o l ) ,所指的对象或内容称为先行语( a n t e c e d e n t ) 。先行 语在照应语的前面,它们之间的关系称为照应关系简称照应( a n a p h o r a ) ,先行语在照 应语的后面称为逆照应( c a t a p h o r a ) 。指代消解,就是确定照应语与先行语之间的相互 关系,从而明确照应语所指代的是什么对象。 g e o r g e 联b u s hw a sb o r nj u l y6 ,19 4 6 ,a n dg r e wu pi nm i d l a n d a n dh o u s t o n ,t e x a s h e r e c e i v e db a c h e l o r sd e g r e ef r o my a l eu n i v e r s i t ya n dm a s t e r so fb u s i n e s sa d m i n i s t r a t i o n f r o mh a r v a r db u s i n e s ss c h 0 0 1 p r e s i d e n tb u s hi sm a r r i e dt ol a u r aw e l c hb u s h , af o r m e r t e a c h e ra n dl i b r a r i a n ,a n dt h e yh a v e18 - y e a r - o l dt w i nd a u g h t e r s ,b a r b a r aa n dj e r m a , t h e b u s hf a m i l ya l s oi n c l u d e st h e i rd o g ,s p o t , a n dt w oc a t s ,i n d i aa n de m i e 图1 - 1 英文指代实例 例如图1 - 1 ,在一篇关于布什的文章片段中,对其有多种不同的表述方式( g e o r g e w b u s h ,b u s h ,p r e s i d e n tb u s h ,h e 等) 。 方:致魔长缵缓够今天在立法院参加跨党派大陆台商权益促进会成立大会时表示,街 的理念是以合作代替对抗,因为过去对抗、对立的政治文化让人们付出很多的代价。 图1 2 中文指代实例 2 基于树核的代词消解研究 第1 章绪论 中文的指代现象也很普遍,而且表现出更为复杂的形式。在图1 2 中,代词“他” 指代“张俊雄。而“行政院长”和“张俊雄 也同指一个人。 照应语和先行语之间存在多种关系【4 】,如等价关系、上下位关系、整体和部分关 系等。如果照应语和先行语都指称“现实世界 的同一个对象( 或实体) ,即两者等 价则表明两者具有共指关系,此时的指代消解便称为共指消解,本文对指代和共指不 加以严格的区分。 英语中的指代有多种类型,常见的有如下几种5 】: 1 ) 代词指代( p r o n o u n ) 【c o m p u t a t i o n a ll i n g u i s t i c si 】f r o md i f f e r e n tc o u n t r i e sa t t e n d e dt h et u t o r i a l 【t h e yi 】 t o o ke x t e n s i v en o t e 2 ) 别名指代( n a m ea l i a s ) 【m i c r o s o f tc o r p i 】a n n o u n c e di t sn e wc e oy e s t e r d a y 【m i c r o s o f ti 】s a i d 3 ) 同位语指代( a p p o s i t i o n ) j u l i u sc a e s a ri 】,【t h ew e l l - k n o w ne m p e r o ri 】,w a sb o m i n10 0b c 4 ) 有定名词短语指代( d e f i n i t en o u np h r a s e ) 【c o m p u t a t i o n a ll i n g u i s t i c si 】f r o md i f f e r e n tc o u n t r i e sa t t e n d e dt h et u t o r i a l 【t h e p a r t i c i p a n t si 】t o o ke x t e n s i v en o t e 5 ) 指示名词短语( d e m o n s t r a t i v en o u np h r a s e ) b o o r d aw a n t st ol i m i tt h et o t a ln u m b e ro fs a i l o r so n 【t h ea r s e n a ls h i pi 】t ob e t w e e n5 0 a n d6 0 c u r r e m l y , t h i ss h i pi 】h a v ea b o u t9 0s m l o r s 6 ) 谓词别名( p r e d i c a t en o m i n a l ) 【g e o r g ew b u s hi 】i s 【t h ep r e s i d e n to f t h eu n i t e ds t a t e si 】 7 ) 其它的名词短语( b a r en o u np h r a s e ) t h e p r i c eo f 【a l u m i n u mi 】s i d i n gh a ss t e a d i l yi n c r e a s e d ,a st h em a r k e tf o r 【a l u m i n u mi 】 r e a c t st ot h es t r i k ei nc h i l e 中文的指代主要有如下四种典型的形式: 1 ) 人称代词( p r o n o u n ) 【李明i 】怕【高妈妈j 】一人呆在家里寂寞,【他i 】便将家里的电视搬了过来。 2 ) 指示代词( d e m o n s t r a t i v e ) 第l 章绪论基于树核的代词消解研究 很多人都想创造一个美好的世界留给孩子i 】,【这i 】可以理解,但不完全正确。 3 ) 有定描述( d e f i n i t ed e s c r i p t i o n ) 【贸易制裁i 】仿佛成了【美国政府在对华关系中惯用的大棒i 】,然而, 【这根大 棒i 】果真如美国政府所希望的那样灵验吗? 4 ) 零指代( z e r oc o r e f e r e n c e ) 【电子股i 】受美国高科技股重挫影响;【i i 】今日持续下跌。这里的i i 被省略了。 上面列出了中英文的各种指代情况,但本文并不对所有名词短语进行指代消解, 只对代词消解进行研究。 1 3 指代消解的研究意义 指代大量出现在篇章或对话中,它使得句子更加简洁明了,主题更加鲜明突出, 但这也给计算机理解自然语言增加了难度。要使计算机理解自然语言,必须对自然语 言进行转换,将人能理解的自然语言转换成计算机能理解并能处理的形式语言。 研究指代消解问题就是在应用系统( 如机器翻译、信息抽取等) 的需求下,尽可 能的消除人们为了简化语言而使用的指代形式,为计算机信息处理,提供完整和正确 的信息,避免上下文的理解错误。随着篇章处理的相关应用日益广泛,指代消解也显 示出前所未有的重要性,并成为自然语言处理领域的研究热点。 指代消解在自然语言处理的许多领域起着非常重要的作用。在进行文本摘要的过 程中,现行的一种做法就是先直接从文本中抽取句子,然后再将抽取的句子组织起来 作为文摘,但这种做法存在一个问题,由于抽取的句子可能会含有照应语,而其所对 应的先行语候选所在的句子却未被抽取,这就会导致无先行词的句子出现在最后的结 果中,从而使句子在逻辑上不衔接,使得结果难以理解,因而需要通过指代消解来确 定其先行词,以改善文本摘要的可读性;除了能解决上述问题外,指代消解还有助于 对句子的抽取,很多文摘系统在选择句子时,主要基于对象( 或内容) 出现的频度,如 果进行了指代消解,对频度的计算就更加准确,从而可以提高文摘的质量。在机器翻 译中,各语种中代词的用法各异,并不一一对应,因而在翻译前不进行代词消解就直 接进行翻译,将很难保证翻译的质量。例如:英文中的“t h e y 在汉语中可以翻译成 “他们 ,也可以翻译成“她们”还可以翻译成“它们 ,如果不进行适当的指代消解 处理,在翻译时就可能导致错误。 4 基于树核的代词消解研究第l 章绪论 作为m u c 和a c e 信息抽取评测体系的子任务,随着上个世纪8 0 年代信息抽取 技术的兴起,指代消解成为自然语言处理领域的一个研究热点。信息抽取系统的主要 功能是从文本中抽取出特定的事实信息( f a c t u a li n f o r m a t i o n ) 。比如,从新闻报道中抽 取出恐怖事件的详细情况;从经济新闻中抽取出公司发布新产品的情况:从病人的医 疗记录中抽取出症状、诊断记录、检验结果、处方等等。通常,被抽取出来的信息以 结构化的形式描述,可以直接存入数据库中,供用户查询以及迸一步分析利用。 从2 0 世纪8 0 年代末开始,信息抽取研究蓬勃开展起来,这主要得益于消息理解 系列会议( m u c ,m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ) 的召开。正是m u c 系列会议使信 息抽取发展成为自然语言处理领域一个重要分支,并一直推动这一领域的研究向前发 展。从1 9 8 7 年开始到1 9 9 8 年,m u c 会议共举行了七届,它由美国国防高级研究计 划委员会( d a r p a ,t h ed e f e n s ea d v a n c e dr e s e a r c ha r o j e c t sa g e n c y ) 资助。m u c 的显著 特点并不是会议本身,而在于对信息抽取系统的评测。m u c 的进行,也是评测任务 逐步规范化的过程。整个评测可以看作由三部分组成:由组织者给出评测任务的详细 描述及训练数据;参评单位按照任务定义对自己的系统进行移植;组织者按照评价指 标进行评测,公布结果、召开研讨会。 目前,正在推动信息抽取研究进一步发展的动力主要来自美国国家标准技术研究 所( n i s d 组织的自动内容抽取( a c e ,a u t o m a t i cc o n t e n te x t r a c t i o n ) 评测会议。这项评测 从1 9 9 9 年7 月开始酝酿,2 0 0 0 年1 2 月正式开始启动。迄今已经举办过六次评测( a c e p i l o t :2 0 0 0 年5 月,a c e p h a s e1 :2 0 0 2 年2 月,a c ep h a s e2 :2 0 0 2 年9 月,a c e 2 0 0 3 :2 0 0 3 年l o 月,a c ep h a s e 3 :2 0 0 4 年8 月,a c e 2 0 0 5 :2 0 0 5 年1 1 月) ,这项评测旨在开发自 动内容抽取技术以支持对三种不同来源( 普通文本、由自动语音识别a s r 得到的文本、 由光学字符识别o c r 得到的文本) 的语言文本的自动处理,研究的主要内容是自动抽 取新闻语料中出现的实体、关系、事件等内容,即对新闻语料中实体、关系、事件的 识别与描述,包括的语种为英语、汉语和阿拉伯语。 指代消解是a c e 评测中的一项重要任务。与m u c 相比,目前的a c e 评测不针 对某个具体的领域或场景,采用基于漏报( 标准答案中有而系统输出中没有) 和误报( 标 准答案中没有而系统输出中有) 为基础的套评价体系,还对系统跨文档处理 ( c r o s s d o c u m e n tp r o c e s s i n g ) 能力进行评测。 通过上面的分析表明指代消解是自然语言处理领域的一个热点问题,同时也是一 第l 章绪论基于树核的代词消解研究 个难点问题。下面本文从三个方面讨论指代消解的难点。 1 、从自然语言的角度来说,指代消解的难点主要表现在以下几个方面【6 】: 指代是一类非常复杂的语言现象,它不仅包含人称代词指代和指示代词 指代,还包括零指代和一般名词短语之间的指代,每种指代之间存在较 大差异,采用单一方法很难解决指代的各种情况,因此只有在对每一种 指代现象进行深入研究的基础上,才能够提出较好的解决方法。 指代消解是一个需要知识资源支撑的任务,需要多级语言知识,包括句 法知识、语义知识、上下文知识、甚至领域知识,在当前自然语言处理 水平下,要有效地得到所需的这些知识仍然不是件容易的事情,需要一 个长期的过程逐渐的积累。 指代消解的正确解决依赖于分词、词性标注、命名实体识别等工作,目 前的研究工作己走到了一个转折点,传统的可以使用的浅层语法、句法 特征已全部用到了指代消解中,在此基础上进一步提高指代消解的难度 非常大,上升空间也很有限。 2 、而相比与英文,中文的指代消解面临着更多的难点问题,主要表现在: 汉语指代消解研究的起步较晚,目前的研究还不够深入。虽然一些学者 对该问题进行了一定的研究,但与英语相比还存在较大差距。现有的研 究大体上分为两种,一种是局限在某个具体的领域中所出现的有限条件 下的代词处理,这难以从根本上解决真实语料中的指代问题;一种从理 论语言学方面探讨代词的若干规律,离计算语言学所要求的实用性和形 式化还有不小的距离。 汉语和英语两种语言之间的差异,使得直接借鉴英文指代消解的处理方 法存在一定的困难。如英语( 印欧语系) 中的单复数信息、人名的性别信息 等在汉语中都不明显,使得获取这些特征比较困难。 汉语和英语不同,汉语的词语间没有明确的界限,因此首先需要分词, 分词的好坏会直接严重影响指代消解的性能;同时汉语是通过语义来驱 动意义的表达,在汉语中存在很多的兼类词,这也给名词短语的识别和 组块分析带来了难点。 3 、代词消解的难点主要表现在下面的几个方面: 6 基于树核的代词消解研究 第l 章绪论 代词含有的语义信息非常的少,特别是一些非人称代词,比如英文中的 “i t ”,以及中文中“这 、“其等。 中文的代词和英文的代词相比,代词的表现形式更为多样化。中文的代 词非常多。比如第二人称代词,中文有几十个,有的常用,有的不常用。 在具体的语境下,还可以指代多种类型。 代词的指代形式非常复杂,有时代词指代的是某个具体的物体:有时代 词指代的是一句话或一个事件。而第二者不是本文的研究重点,但在实 际的文本中含有很多这样的指代。如何将其和其它的代词区别开,也是 代词消解的难点。 1 4 指代消解研究现状 指代消解的研究历史悠久,早期的方法侧重于从理论上探索,运用大量手工构建 的语言甚至领域知识进行研究。近十年来,由于自然语言自动处理技术的发展,人们 转向了基于弱语言知识的方法,侧重于实用的自动指代消解技术的研究开发,并取得 了一定的进展。不过,由于受制于弱语言自身的缺陷,自动指代消解技术近年来在性 能的提高上遇到了不小的瓶颈,研究人员把焦点转向了基于自动产生的浅层语言知识 和通过句法树所得结构化信息,希望取得性能上的突破。 下面,依据时间分阶段介绍指代消解的研究历史和目前状况: 1 4 1 早期的指代消解研究 指代消解的研究历史悠久。早期侧重于从理论上探索,有代表性的工作包括: 1 ) 基于完全解析树的遍历算法:h o b b s ( 1 9 7 6 ) 【7 】提出了一种不依赖任何语义知 识或语篇信息,只利用语法规则和完全解析树信息的指代消解算法,实现了代词的消 解。该算法利用语法规则和句法树信息,算法为文档中的每个句子建立完全语法解析 树( f u l ls y n t a c t i cp a r s et r e e ) ,采用广度优先的方法搜索解析树,搜索数量和性别一致的 名词短语,然后根据语法结构中的语言支配关系( 1 i n g u i s t i cg o v e r n m e n t ) 和绑定原理 ( ( b i n d i n gp r i n c i p l e s ) 选择最佳的先行语。实验采用从三个来源得到的文档作为测试数 据,消解的准确率达到了9 2 ,h o b b s 算法对指代消解的发展具有重要的意义,成为 7 第1 章绪论基于树核的代词消解研究 以后一些研究工作的基础,算法证明了采用计算方法可以有效的解决指代问题,但该 方法只解决了代词的消解问题,没有说明算法是否可以扩展到非代词的情况。 2 ) 基于句法知识的方法:这种方法充分利用句法层面的知识,以启发式的方式运 用到指代消解中。例如l a p p i n 等( 1 9 9 4 ) 【8 】提出了一种r a p 算法,使用m c c o r d 提 出的槽文法( s l o tg r a m m a r ) 获得文档的句法结构,并通过手工加权的各种语言特征 ( 如主语和宾语) 计算各先行语候选的突显性,利用过滤规则确定先行语,实现了句 内和句间第三人称代词和反身代词的消解。k e n n e d y 等( 1 9 9 6 ) 【9 】对r a p 算法做了修 改和扩展,避免了构建完整的解析树,而用自然语言处理工具预处理得到词性标注和 句法功能标注等浅层信息,在此基础上确定先行语。m i t k o v ( 1 9 9 8 ) 【1o j 则在词性标注 的基础上,对不同的语言特征进行量化,并使用计算权值的方法完成对可能候选的排 序,从而选出先行语,解决代词的指代消解。不过,上述工作中的语言特征都是手工 加权的,为了实现语言特征加权的自动化,l u o 等( 2 0 0 5 ) 对r a p 算法进行改进, 探索了使用最大熵模型自动确定各种语言特征的权值。 早期的指代消解方法需要很多人工参与,降低了系统的可移植性和自动化程度。 1 4 2 近期的指代消解研究 随着标注语料库的不断出现和因特网的迅速发展,实验语料的获得越来越方便, 近期大多指代消解研究趋向于基于语料库的指代消解方法。具体的方法大致可以分为 如下三类: 1 ) 基于规则的方法:b r e n n a n 等( 1 9 8 7 ) 【1 1 1 、s t r u b e ( 1 9 9 8 ) 和t e t r e a u l t ( 2 0 0 1 ) 利用中心理论( g r o s z 等1 9 8 6 ) 【1 2 】,首先根据前看( f o r w a r d 1 0 0 k i n g ) 或后看 ( b a c k w a r d 1 0 0 k i n g ) 中心的不同对先行语候选进行分类,然后使用各种中心获取算法选 出先行语。作为代表目前国际先进水平的基于规则系统,z h o u 等( 2 0 0 4 ) l l3 j 提出了 一个基于限制规则的多代理策略,取得了相当的成功,系统结果在m u c 6 测试语料 中召回率6 5 8 ,准确率8 4 7 ,f 值7 3 9 ;m u c 7 中召回率5 5 7 ,准确率8 2 8 , f 值6 6 5 。 2 ) 基于统计的方法:d a g a n 等( 1 9 9 0 ) 优先考虑那些同现频率较高的先行语候选 作为代词的先行语,进行了代词“i t ”的消解研究。g e 等( 1 9 9 8 ) 1 4 】提出了一种基于 贝叶斯概率统计模型的方法,消解文本中的第三人称单数代词。c a r d i e 等( 1 9 9 9 ) 1 5 】 8 基于树核的代词消解研究第l 章绪论 提出了通过聚类方法进行名词短语的同指消解,其基本思想是收集篇章中的基本名词 短语,根据短语的特征对名词短语聚类,判断两个名词是否属于同一个类,系统在 m u c 6 中召回率5 5 ,准确率5 3 ,f 值为5 4 。 3 ) 基于分类的方法:m c c a r t h y ( 1 9 9 5 ) 【1 6 】把判断先行语的问题转换成分类问题, 通过分类器判断指代语与每个先行语候选之间是否存在指代关系。这一思想为日后指 代消解的研究开辟了一条全新的道路。s o o n 等( 2 0 0 1 ) 1 1 7 坝l j 首次给出了详尽完整的 实现步骤,设计并开发了一种基于学习的系统,用来消解非限制领域( u n r e s t r i c t e dt e x t ) 名词短语。系统总共分成5 个部分:1 、确定候选项2 、构建名词短语特征向量3 、 构建训练实例4 、训练分类器5 、识别测试文档,构建指代链。s o o n 对其系统中的 分类器性能、特征向量中各个属性的分类能力、出现错误的原因等进行了详细的分析, 系统最终在m u c 6 和m u c 7 语料上消解的f 值分别为6 2 6 和6 0 4 。近年来许多研 究者在s o o n 的基础上作了不同程度的扩充,并取得了一定的进展。典型的系统包括: n g 等( 2 0 0 2 ) 0 8 1 对s o o n 等( 2 0 0 1 ) 的研究进行了扩充,抽取了5 3 个不同的词法、 语法和语义特征;y a n g 等( 2 0 0 3 ) 提出了一个双候选模型,直接学习各先行语候选 之间的竞争关系,以更好地确定先行语; y a n g 等( 2 0 0 4 ) 【1 9 】继续探索了先行语候选指 代链中的语义信息在代词( 特别是中性代词) 指代消解中的作用;在此基础上,y a n g 等( 2 0 0 5 ) 【2 0 】进一步使用上下文信息和网络挖掘技术自动判别代词的语义类别,从而 更好地解决了代词( 特别是中性代词) 的指代消解。 目前,大多指代消解系统都采用局部优化的方法,即对每个照应语,依据不同算 法,选择最佳的先行语。为了实现全局优化,l u o 等( 2 0 0 4 ) 2 1 】采用贝尔树来表示搜 索空间,以求最优化的指代消解方案。n g ( 2 0 0 5 ) 【2 2 】根据不同的系统各有优劣的特 点,从不同系统中选择最佳的分区方案。 1 4 3 中文指代消解的研究 与国际上指代消解的长期研究相比,在自然语言处理领域中,中文指代消解的研 究才刚刚起步,主要集中在人称代词的消解研究方面。相关的研究分为两类: 第一类是引用国际上流行的研究方案进行中文指代消解的研究。代表性研究有: 王凌飞等( 2 0 0 0 ) 2 3 1 提出了确定指代的9 个限制条件,探讨了基于中心理论的指代消 解在汉英机器翻译中的应用;王厚峰等( 2 0 0 1 ) f 2 4 1 根据中文人称代词的语义角色和对 9 第l 章绪论基于树核的代词消解研究 应的先行语可能的语义角色,给出了消解人称代词的基本规则;张威等( 2 0 0 2 ) 【2 5 】 实现了基于中心理论的元指代消解;孔祥勇等( 2 0 0 3 ) 结合了规则和统计方法,解决 代词和有定短语的指代问题;王晓斌等( 2 0 0 4 ) 【2 6 】进行了基于语篇表述理论的人称代 词的消解研究;王厚峰等( 2 0 0 5 ) 2 7 1 采用了近似m i t k o v ( 1 9 9 8 ) 的基于弱化语言知 识的方法,解决人称代词的消解;杨佳等( 2 0 0 5 ) 使用遗传算法消解人称代词;李国 臣等( 2 0 0 5 ) 【2 8 1 使用决策树机器学习算法,结合优先选择策略,进行指代消解的研究。 第二类是根据中文的特点提出的具有中文特色的研究方案。相关的研究有:许敏 等( 1 9 9 9 ) 【2 9 】利用格框架,提出了在上下文相关语义环境中进行指代分类解决的思想, 并给出了相应的算法。王厚峰( 2 0 0 0 ) 1 3 0 1 提出了基于h n c 的指代消解方法,利用 各种语义块的类型特点和语义块之间的结构特点,在语义块内部和语义块之间使用排 除规则,并使用局部焦点优先的原则( 与中心理论类似) 进行优先选择,实现语句序 列之间人称代词的消解。 1 5 目前的研究趋势 随着指代消解研究的不断深入,自动指代消解技术近年来在性能的继续提高上 遇到了不小的瓶颈,人们已经很难抽取出更为有效的特征加入到指代消解中去。于是 研究人员把焦点转向了基于自动产生的深层语言知识,特别是结构化信息,希望取得 性能上的突破。 结构化的句法信息在许多较高层次的自然语言处理研究( 如句法分析、语义角 色标注、语义关系抽取和指代消解等) 中起着关键作用。传统的研究主要集中在如何 把结构化信息转化为一般的信息,一种是通过中心理论【3 1 】【3 2 】将部分句法信息提取出 来,一种是使用特征的方法选择和定义一系列可以从渐层或深层解析树中获取的平面 特征( 如主语和宾语的语义角色特征) 来表示特定的结构化信息。其中前一种在指代 消解中已经有了很多的研究,从前面的指代研究现状可以看出;后一种方法已被大量 使用在句法解析( c o l l i n s1 9 9 9 3 3 】;c h a m i a k2 0 0 1 ) 、语义作用标注( p r a d h a ne ta 12 0 0 5 ) 、 语义关系抽取( z h o ue ta l2 0 0 5 ) 和指代消解( b e r g s m a 等2 0 0 6 ) 3 4 】等领域。但是这 种方法受制于手工提取的规则,不能充分的挖掘句法信息。 一直有学者研究如何更加有效的引入结构化特征
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 计算机软件应用课件考核试卷
- 橡胶在建筑领域的使用考核试卷
- 锌锰电池失效分析与预防措施考核试卷
- 零售门店顾客引流策略考核试卷
- 传感器在智能交通信号系统中的应用考核试卷
- 毕业设计动员大会
- 呼吸机结构与原理
- HDAC6-IN-53-生命科学试剂-MCE
- 暴雨橙色预警防御指南(27P)
- 2025年下半年钢铁行业成本压力缓解行业格局改善
- 2025年 内蒙古能源集团所属单位招聘考试笔试试题(含答案)
- 期末试卷(试题)(含答案)-2024-2025学年一年级下册数学北师大版
- 2025年江西省高考物理真题
- 2024年地理中考模拟考试地理(贵州贵阳卷)(A4考试版)
- 上海浦东新区公办学校储备教师教辅招聘笔试真题2022
- 国开(甘肃)2024年春《地域文化(专)》形考任务1-4终考答案
- 安全生产月“一把手”讲安全课件
- 高等数学(下册)资料期末复习试题与答案
- 监理人员廉洁自律制度管理办法
- 四冲程内燃机 机械原理课程设计说明书
- BS EN 10222-5-2000用于压力目的的钢锻件—第5部分:马口铁钢奥氏体钢和奥氏体-铁素体不锈钢
评论
0/150
提交评论