(信号与信息处理专业论文)汉语指代消解及相关技术研究.pdf_第1页
(信号与信息处理专业论文)汉语指代消解及相关技术研究.pdf_第2页
(信号与信息处理专业论文)汉语指代消解及相关技术研究.pdf_第3页
(信号与信息处理专业论文)汉语指代消解及相关技术研究.pdf_第4页
(信号与信息处理专业论文)汉语指代消解及相关技术研究.pdf_第5页
已阅读5页,还剩99页未读 继续免费阅读

(信号与信息处理专业论文)汉语指代消解及相关技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京邮电大学博士学位论文 汉语指代消解及相关技术研究 摘要 大量出现在篇章或者对话中的指代,是自然语言中常见的语言现象, 它使得句子更加简明,主题更加鲜明突出,但这也给计算机理解自然语 言增加了难度。指代消解就是为解决这一问题而形成的文本信息处理中 的一个重要任务分支。随着篇章处理的相关应用日益广泛,指代消解也 显示出前所未有的重要性,并成为自然语言处理领域的研究热点。它在 信息抽取、机器翻译、自动文摘、问答系统等许多自然语言处理应用领 域中发挥着重要作用。 本文针对汉语指代消解及相关技术,包括汉语基本名词短语识别、 机器学习等进行了深入系统的分析和研究,主要取得的成果如下: 1 、提出了一种基于规则的汉语基本名词短语识别算法基于扩展 词性模板算法。该方法通过对基本名词短语上下文环境中词汇的统计和 分析,将词性模板和上下文环境信息构成扩展词性模板,用扩展词性模 板对标注结果进行修正。由于采用的扩展模板较为合理和准确,使得识 别的正确率达到9 4 4 8 。 2 、提出了一种基于规则和统计相结合的汉语基本名词短语识别算法。 规则方法和统计方法存在一定的互补性。本文将两种方法进行融合,先 利用统计方法标注,再利用扩展词性模板纠正。实验结果表明,该方法 在一定程度上弥补了规则方法和统计方法的不足,识别的f 指数达到 8 9 5 1 ,均高于单纯一种方法得到的结果。 3 、在借鉴英语指代消解算法的基础上,结合汉语自身特点,提出了 基于机器学习算法的汉语人称代词指代消解方法。现今指代消解技术正 在由单一的基于规则的技术向采用机器学习方向发展。基于机器学习方 法将指代消解问题转化为分类问题,通过分类器判断照应语与每个候选 项之间是否存在指代关系,实现指代消解。该方法具有实现简单、扩展 性好、抗噪声能力强的特点。本文分别将决策树、最大熵、条件随机场 三种机器学习模型应用于该方法,均收到了良好的效果,通过对结果的 分析比较,条件随机场模型在性能上优于其它两种模型。 北京邮电大学博士学位论文 摘要 4 、提出了一种基于统计和规则相结合的汉语人称代词指代消解算法。 基于机器学习的方法实质上属于统计的方法,统计方法在某些情况下的 结果并不理想。针对这一问题,新算法将过滤规则引入指代消解,先利 用规则过滤掉属性冲突的实例,去除掉实例中的“噪音”,再采用统计方 法消解指代。实验结果显示,新算法消解的消解成功率为8 1 1 4 ,与单 纯采用统计方法相比,成功率提高了2 0 3 。 5 、提出一种基于双候选模型的汉语人称代词指代消解算法。现有的 基于机器学习的指代消解算法都属于单候选模型,单候选模型割裂了各 个候选项之间的联系,因此这种模型并不完善。针对这一问题,本文提 出了双候选模型算法,该算法每次从候选项集合中取出两个候选项与照 应语构成实例,通过分类器判断这两个候选项哪个“获胜”,将获胜次数 最多的候选项判定为先行语。实验结果显示,双候选模型的消解的成功 率为8 3 4 2 ,优于单候选模型算法。 关键词:指代消解基本名词短语条件随机场最大熵双候选模型 i i 北京邮电大学博士学位论文 a b s n t r e s e a r c ho nc h d 4 e s ec o r e f e r e n c er e s o l u t l 0 n a n di t sr e l a t e dt e c h n o l o g i e s a b s t r a c t c o r e f b r e n c el 鹕e l ye x j s t si nd i s c o u r s ea n dd i a l o g u ei nn a 咖1l a n g u a g e s f o rh u m a nu n d e r s t a n d m g ,i tm a k e s8 e n t e n c em o r ec o n c i s ea n dm 出。e st o p i c m o r eb r i l l i a | 1 t h o w e v e r ,f o rc o m p u t e r s ,i tm a i ,e sl a n g u a g e sm o r ed i m c u ht o p r o c e s sc o m p u t a t i o n a l l y d u e t ot h i sp r o b l e m ,c o r e f e r e n c er e s 0 1 u t i o ni s f o 衄e da sas u b d i v i s i o n 抽n a t u r a ll a l l g u a g ep r o c e s s b g w i t hm ei n c r e a s i n g d e m a n do fd i s c o u r s ep r o c e s s i n g ,i tp l a y sm o r ea n dm o r ei l t l p o r t a n tr o l ei i l d i 饪b r e r l tf i e l d ss u c ha s ,i n f o n n a t i o ne x 廿a c t i o n ,m a c h i n et r a n s l a :t i o n ,a l n o m a t i c s u m m a r i z a t i o n ,q u e s t i o na n da n s w e rs y s t e m s t h i sd j s s e r t a t i o nr e s e a r c h e so na l i n e s ec o r e f e r e n c er e s o l u t i o na r l d c h i i l e s eb a s en o u np h r a s e ( b a s e n p ) r e c o g n i t i o n t h em a i n 蜘i t sa r el i s t e da s f o l l o w : 1 w 色p r o p o s ea k i n do fr u l e b a s e dc h i n e s eb a s e n pr e c o g n i t i o na l g o r i t h m , a 1 1e x t e n s i o no fp 积o fs p e e c hp 0 s ) t e m p l a t ea l g o r i t l l m f r o n ls t a t i s t i c sa n d a n a l y s i so fw o r d si nb a s 舯sc o m e x t ,n l i sa l g o r i 岫l ,b a l s e do np o st e m p l a t e a n dc o n t e 】( ti n f o n l l a t i o n ,c o n s t m c t se x t c n d e dp o st e m p l a t e ,w 1 1 i c hi su s e dt o c o r r e c tm et a gr e s u l t s i ) u et 0 也er e a s o n a b i l i 妙a n dc o r r e c 缸1 e s so ft 1 1 e s e t e m p l a t e s ,m ep r e c i s i o nr a t ea c 址e v e s9 4 4 8 2 w bp r o p o s eak i n do fc o m b i n a t i o no fs t a t i s t i c a ia n dm l e - b a s e d a l g o r i t h mf b rc h i n e s eb a s e t q pr e c o g n i t i o n m o t i v a t e db y 1 ec o m p l e r n e n t a r y r o l eo f s t a t i s t i c a la n dr u l e - b a s e da l g o r i m m s ,o u ra l g o r i 蛾m 五r s tt a g s1 a b e l sa 1 1 d t h e nc o r r e c t st h er e s u h su s m ge x 馏叫e dp o st e m p l a t e s t h ef m e a s l l r eo f e x p e r i n l e n t sa c h i e v e s8 9 5 1 ,w h i c hi sh i 曲e rm a n t l l a to fa n yi n d 印e n d e m m e m o d i ts h o w s 山a tm i sc o m b i n a t i o nc o u l d ,t os o m ee x t e n d ,c o m p e n s a t e s l e me a c h ( ) t h e r 3 w 色p r o p o s em a c h i n el e 锄i n gm e t h o d sf o rc h i n e s ep e r s o n a lp r o n o u n c o r e f e r e c n er e s o l u t i o nb a s e do nt 1 1 0 s ef o re n g l i s ha n dt :屺c h a r a c t e r i s t i co f c h i n e s el a n g u a g e n o w a d a y s ,m e s em e m o d sf o rc o r e f b r e n c er e s 0 1 u t i o na r e i i i 北京邮电大学博士学位论文 a b s t 乳a ( 叮 d e v e l o p i n g 矗o mm l e b a s e dt om a c h i n e1 e a n l i n gb a s e d t h eb a s i c i d e ao f m a c h i n el e 锄i l l gm e m o d si sc o n v e n i n g c o r e f 宅r e n c er e s o l u t i o nt oa c l a s s i f i c a t i o np r o b l e m ,m r o u g hj u d g i n gm ec o r e f e r e n c er e l a t i o n s h i pb e t w e e n a 1 1 叩h o r a n di t sc a l l d i d a t e sb yc l a s s i f i e r s t h o s em e m o d sa r es i m p l y i m p l e m e n t e d ,f l e ) 【i b l e ,a n dr o b u s tt or l o i s e s w eu s ed e c i s i o nt r e e ( d t ) , m a ) 【i m u me d t r o p y ( m ) ,a n dc o n d i t i o nr a n d o mf i e l d ( c r f ) t os o l v e c o r e f e r e n c er e s o l u t i o n t h ee x d e r i m e m ss h o wt h a tc 王u 7i sb e t e r 也a nt l l e o 血e r t w o 叩p r o a c h e s 4 w bp r o p o s eac o m b i n a t i o no fs t a 廿s t i c a la n di u l e b a s e da l g o r i m mt o s o l v ec h i n e s ep e r s o n a lp r o n o u nc o r e f e r e n c er e s o l u t i o n m a c h 抽el e a n l _ i i 】g m e t l l o d s e s s e n t i a l l yb e l o n g t os t l t i s t i c so n e s b yi n 仃o d u c i n g m l e st o c o r e f e r e n c er e s o l u t i o n ,o u ra l g o m h 瑚f i l t e r ss o m ei n s t a n c e sw i t l lc o n n i c t i v e a t t r i b u t e s ,r e m o v i n g n o i s y ”i n s t a n c e s ,a 1 1 dm e nu s e ss t a t i s t i c a lm e t 王l o d st o d e a lw i t hi t t h es u c c e s sr a t eo fr e s o l u t i o n 洫o u re x p e r i m e n t si s81 14 , ,h i c hi sh i g h 盯m a nu s i n gs t a t i s t i c ss o l e l yb y2 0 3 5 w ep r o p o s et 、) l r i n c a n d i d a t em o d e lf o rc h i n e s ep e r s o n a lp r o n o u n i n o f i g i n a lm a c h i n el e a m i i l gm e t l l o d s ,m em e m o dw i 也o i l l yo n ec a l l d i d a t em a y s e p a r a t e 也ec o r u l e c t i o n 锄o n gc a n d i d a l t e s m o t i v a t e db yt 1 1 i sl i m i t a t i o n ,w e p r o p o s e st w i l l c a n d i d a t em o d e l t h i sa p p m a c hc o n s t m c t sa ni n s t a n c e 丘o m o n ea l l a p h o ra n dt 、v oc o r r e s p o n d i n gc 距d i d a t e smc a r l d i d a t es e t ,a n dt l l e n j u d g e sn l e w i r u l e r o ft | 1 0 s et 、7 l r oc a n d i d a t e st l l r o u 曲c l a s s i 丘e r s ,t h eo n ew i m m o r ew i 衄i n gt i m e sj u d g e da sa n t e c e d e n t t h es u c c e s sr a t eo fr e s o l u t i o nw i 也 t w i l l c a n d i d a t em o i l e li no u re x p e f i m e n t si s8 3 4 2 ,w h i c hi sh i g h e rm a nt 1 1 a t o fo n e c a n d i d a t em o d e l k e yw o r d s :c o r e f e r e n c er e s o l u t i o n , c h 协e s eb a s en o u n p 1 1 r a s e s , c o n d i t i o n a lr a n d o mf i e l d s ,m a ) c i m u me n 仃o p y ,r i w i n - c a n d i d a t em o d e l 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人 已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位 或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名绅鞋隰型型 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国 家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以 公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇 编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论文注 释:本学位论文不属于保密范围,适用本授权书。 本人签名: 导师签名: 确强 日期 日期 2 0 0 毛 邀:厶 北京邮电大学博士学位论文 第一章绪论 第一章绪论 随着计算机技术和互联网的飞速发展,社会的信息化进程已经发展到一个全新的 阶段,信息的传递与交流已经成为整个现代社会生活运作的重要基础,电子可读文本 大量涌现并成为网络时代主要的信息载体和人们生活中不可或缺的一部分。信息化时 代的来临正在推动一场“自然语言信息技术革命”,涉及的内容非常丰富,但是最具 本质意义的核心内容是“自然语言理解”。自然语言理解是人工智能的重要研究方向, 目的是使机器能够在一定程度上理解人类的自然语言,它是语言学、认知学、信息学 的交叉领域,是一个具有广阔前景同时又存在众多困难的领域【1 。信息检索、信息 抽取、数据挖掘、知识发现、文本分类、内容分析、信息监控、自动文摘、机器学习、 机器翻译、人机自然语言对话、基于自然语言的人机合作等,都是自然语言理解的具 体应用。 1 1 自然语言处理 人们一般把人工设计的语言,像b a s i c 语言、f o r t & a n 语言等统称为人工语言, 而自然语言所指的是我们日常使用的语言。要使机器能够理解自然语言是一个非常困 难的问题,要使机器理解自然语言的程度达到像人一样的水平就更加困难,更进一步 来说,如果要使无生命的机器系统拥有智慧,像人类一样理解和应用自然语言,那就 更是一个遥不可及的目标。因此,人们在研究时经常回避“自然语言理解”这一说法, 退而求其次,希望利用一定的方法和技术对自然语言进行某些“处理”。于是在科学 技术文献中就把这一研究领域称为“自然语言处理( n l p ,n 删l 8 l l g u a g e p r o c e s s i i l g ) ”。 自然语言处理是一门交叉性交叉学科,涉及语言学、数学和计算机科学,横跨文 科、理科和工科三大知识领域,既起源于应用语言学,又是人工智能的主要内容之一。 在信息化社会中,语言信息处理的技术水平和每年所处理的信息总量已成为衡量一个 国家现代化水平的重要标志之一。般而言,科学意义上的“自然语言处理”泛指对 于人类自然语言所进行的一切有意义的操作和分析,包括自然语言的切词、词性标注、 语义标注、搭配关系标注、语法分析、语义分析、语用分析、段落解析、篇章分析、 以及与此相应的各种语言学统计,如字频统计、词频统计、特征提取、关键词识别、 专用名词识别、语言模型的统计和提取、虚词的识别、语句的表示、语句的相关性计 北京邮电大学博士学位论文 第一章绪论 算,以及从大规模语料库的语料中提取各种典型的语句样本和语言学规则等等,这些 都是自然语言处理领域研究人员熟悉的内容。依据应用目标的不同,不同场合进行的 自然语言处理的具体内容当然也会各不相同。 在自然语言处理领域长期的研究过程中形成了两种基本的方法:基于规则的方法 和基于统计的方法。由于乔姆斯基的理论【3 被广泛接受,基于规则的方法从上个世 纪6 0 年代到8 0 年代主宰了自然语言处理领域,该方法从语言学和认知学的观念出发, 希望建立一组语言学规则,使机器可以按照这组规则来正确理解它面对的自然语言; 基于统计的方法从统计学和计算科学的观念出发,希望通过对大规模语料库的统计处 理,使机器可以正确理解所给定的自然语言,由于h 慨m e t 技术、计算技术和统计技术 的迅速发展,近年来基于统计的方法正在取得越来越明显的发展优势。 无论是基于规则还是基于统计的方法都可以在一定程度上解决自然语言处理领域 的问题,但都存在一定的局限性: 对于基于规则的方法,首先,由于对客观世界的认识不断向深度和广度发展,表 达这种认识的语言规则体系也必然不断扩展,从而使规则系统的“有限性和封闭性” 受到质疑,而显示世界的语言现象更是无限多样和层出不穷,这就使得规则方法只能 在有限的语言现象中发挥作用,面对丰富多彩的自然语言,规则很难全部覆盖语言现 象。其次,即使可以不断增加新的规则来覆盖新的语言现象,但是随着规则数量的增 加,推理的难度和计算复杂度也随之急剧增加,而且,随着新规则的引入,可能导致 规则之间出现互相矛盾。最后,由于规则数量不断增多,规则的手工获取需要很大的 工作量,而机器获取规则的质量又不能得到足够的保证。 同样,基于统计的方法也面临着类似的问题。首先,统计方法的“符号统计独立” 等统计假设在实际语言现象中很难成立,语言符号之间原则上不可能真正独立,也不 可能是“阶数固定”的m a d v 概率模型,这使统计方法的前提受到很大的质疑,成 为“先天不足”的方法。其次,语料规模的有限性可能导致统计的非遍历性,即使规 模巨大的语料库,在更为庞大的自然语言现象面前,也会经常出现数据稀疏问题。最 后,统计方法本身的“统计平均性质”,只能保证统计平均意义上的正确,不能保证 每一个具体事件结果的实际正确性:概率小的事件不一定不发生,概率大的事件不一 定必然发生。 两种方法有各自的依据和特点,语言学家、心理学家、传统人工智能专家偏向于 规则的方法;而计算机专家、统计学家、信息学家则往往侧重统计的方法。在理想的 条件下( 规则完备且具有全覆盖能力;语料绝对丰富且遍历) ,两种方法分别都可以 解决自然语言理解的问题。但是在实际情况下,两种方法都难以独立解决问题。通过 2 北京邮电大学博士学位论文 第一章绪论 仔细的分析可咀发现,这两种方法存在非对立性和互补性:基于规则的方法本质上是 演绎,基于统计的方法在本质上是归纳;基于规则的方法属于逻辑思维方式,基于统 计的方法属于经验思维方式。两种方法相结合是自然语言处理真正有希望的出路。 在实现基于规则的方法和基于统计的方法相互结合方面,存在一些不同的结合方 式,从所占重要程度来分:一种是以规则方法为基础的综合;另一种是以统计方法为 基础的综合;再一种是同时发挥两者优势的综合。从结合顺序上来分:一种是先统计 后规则;另一种是先规则后统计。在实际的应用中,规则方法和统计方法相互渗透, 也必然会成为自然语言处理方法的一个特征。 1 2 指代消解的定义 指代作为一种常见的语言现象,广泛的存在于自然语言的各种表达中: 例;李鹏总理同吉尔吉斯政府总理朱马古洛夫就发展双边经贸关系进行了广泛而 深入的会谈。【朱马古洛夫i 说,吉中两国有着传统的 友好关系j 】,【这j 】种关系正在 日益充实和不断发展。 他i 】说,吉尔吉斯当前正处于经济改革阶段,十分重视同中 国加强经济联系,借鉴中国的经验,包括中国农业改革的经验。 在例子中,指示代词“这”指代“友好关系”,人称代词“他”指代“朱马古洛夫”。 指代也称照应,英文单词是a i 帅h o r a ,这一词的形成可以追溯到古希腊时期,是 希腊语中两个分离词a 眦和伊印口的复合构成( 口似仍p 口) 演化而来的,前者表示返回 或者逆向,后者表示载体。指代是指篇章中的一个语言单位( 通常是词或短语) 与之前 出现的语言单位存在的特殊语义关联,其语义解释依赖于前者( 本文不讨论逆向指 代) 。用于指向的语言单位,称为照应语( 或称指代语a n 印h o r ) ,被指向的语言单位称 为先行语f 或先行词a n t e c e d e n t ) 。在上例中“这”和“他”是照应语,“友好关系” 和“朱马古洛夫”是先行语。确定照应语所指的先行语的过程称为指代消解( 加m p h o m r e s o l u t i o n ) 。当照应语被消解后,指称意义也是明确的,该照应语又可以作为后面新 的照应语的先行语。 照应语和先行语的之间存在多种关系,如:等价关系、上下位关系,整体和部分 关系等。如果照应语与先行语都指称“现实世界”的同一对象( 或实体e 面t y ) ,即两 者等价则表明两者具有共指关系,此时的指代消解便称为共指消解( 或同指消解 c o r e f e r e n c er e s o i u t i o n ) 4 】,本文对指代和共指并不加以严格的区分。 北京邮电大学博士学位论文第一章绪论 1 3 指代消解的研究意义 大量出现在篇章或者对话中的指代,是自然语言中常见的语言现象,它使得句子 更加简明,主题更加鲜明突出,但这也给计算机理解自然语言增加了难度。研究指代 消解问题就是在应用系统( 如:机器翻译、信息抽取等) 的需求下,尽可能的消除人 们为了简化语言而使用的指代形式,为计算机信息处理,提供完整和正确的信息,避 免上下文的理解错误。随着篇章处理的相关应用日益广泛,指代消解也显示出前所未 有的重要性,并成为自然语言处理领域的研究热点。 指代消解在自然语言处理的许多领域起着非常重要的作用。在进行文本摘要 5 6 】【7 】的过程中,现行的一种做法就是先直接从文本中抽取句子,然后再将抽取的 句子组织起来作为文摘,但这种做法存在一个问题,由于抽取的句子可能会含有照应 语,而其所对应的先行语所在的句子却未被抽取,这就会导致无先行词的句子出现在 最后的结果中,从而使句子在逻辑上不衔接( c o h e s i o n ) ,使得结果难以理解,因而需 要通过指代消解来确定其先行词,以改善文本摘要的可读性;除了能解决上述问题外, 指代消解还有助于对句子的抽取,很多文摘系统在选择句子时,主要基于对象( 或内 容) 出现的频度,如果进行了指代消解,对频度的计算就更加准确,从而可以提高文 摘的质量。 在机器翻译 8 9 】 1 0 中,各语种中代词的用法各异,并不一一对应,因而在翻译 前不进行代词消解就直接进行翻译,将很难保证翻译的质量。例如:英文中的“1 1 1 e y ” 在汉语中可以翻译成“他们”,也可以翻译成“她们”还可以翻译成“它们”,如果不 进行适当的指代消解处理,在翻译是就可能导致错误。 作为m u c 和a c e 信息抽取评测体系的子任务,随着上个世纪8 0 年代信息抽取 技术的兴起,指代消解成为自然语言处理领域的一个研究热点【1 1 】 1 2 】 1 3 1 1 4 1 1 5 1 1 6 1 7 】。信息抽取系统的主要功能是从文本中抽取出特定的事实信息( f a c m a l i r 面n n a t i o n ) 。比如,从新闻报道中抽取出恐怖事件的详细情况;从经济新闻中抽取 出公司发布新产品的情况;从病人的医疗记录中抽取出症状、诊断记录、检验结果、 处方等等。通常,被抽取出来的信息以结构化的形式描述,可以直接存入数据库中, 供用户查询以及进一步分析利用。 从2 0 世纪8 0 年代末开始,信息抽取研究蓬勃开展起来,这主要得益于消息理解 系列会议( m u c ,m e s s a g eu d e r s t a l l d i n gc o n f e r e n c e ) 的召开【1 8 】 1 9 】【2 0 】 2 1 】。正是 m u c 系列会议使信息抽取发展成为自然语言处理领域一个重要分支,并一直推动这 一领域的研究向前发展。从1 9 8 7 年开始到1 9 9 8 年,m u c 会议共举行了七届,它由 北京邮电大学博士学位论文 第一章绪论 美国国防高级研究计划委员会( d a a ,m ed e 矗m s ea d v a i l c e dr e s e a r c hp 删e c t s a g e n c y ) 资助。m u c 的显著特点并不是会议本身,而在于对信息抽取系统的评测【2 2 】。 m u c 的进行,也是评测任务逐步规范化的过程。整个评测可以看作由三部分组 成:由组织者给出评测任务的详细描述及训练数据;参评单位按照任务定义对自己的 系统进行移植;组织者按照评价指标进行评测,公布结果、召开研讨会。 m u c 定义的评测任务包括以下六个方面: 命名实体任务( n e ,n 锄e de n t 时t a s k ) 在理解m u c 评测中,所识别的命名实体的种类包括:人名、组织机构名、地名、 日期、时间、货币名称、数字。 多语言实体任务( m e t ,m u m 1 i n g l l a le 蚯t y 协k ) 对应于汉语和日语的命名实体任务。 共指( c o ,c o - r e f e 嘲c et 嬲k ) 该任务仅限于对命名实体任务和模板元素任务中规定对象的共指识别。同个实 体,在篇章中可以有多种指代方法,该任务就是将不同的指代都连接到同一实体上。 模板元素任务汀e ,t e m p l a t ee l 锄e n tt a s k ) 该任务限定从一个文本中找到所有关于规定的实体的基本信息,包括一些描述性 的信息,从而形成实体的完整的描述。 模板关系任务( 1 r ,t e m p l a c er e l a t i o nt 勰k ) 在m u c 评测中,只规定了三种关系:人物和任职关系( e m p l o y c eo f ) 、产品的制 造厂商关系( p r o d u c to f ) 、机构所在地点关系( 1 a c a t i o no o 。 场景任务( s t ,s c e n a r i ot e m p l a t e k ) 该任务是建立在n e 、t e 、t r 任务之上的,是信息抽取系统输出的原型,要将实 体,及其关系按照事先规定的事件信息有机的组织在一起。 从m u c 的评测任务可以看到,共指评测是信息抽取中一项重要的子任务,这里 的共指( c o ) 任务就是指代消解任务。 目前。正在推动信息抽取研究进一步发展的动力主要来自美国国家标准技术研究 所( n i s t ) 组织的自动内容抽取( a c e ,a u t o m a t i cc o n t c n te x 脚t i o n ) 评测会议。这项 评测从1 9 9 9 年7 月开始酝酿,2 0 0 0 年1 2 月正式开始启动。迄今已经举办过六次评 测( a c ep i l o t :2 0 0 0 年5 月,a c e p h a s e1 :2 0 0 2 年2 月,a c ep h a s e2 :2 0 0 2 年9 月, a c e 2 0 0 3 :2 0 0 3 年l o 月,a c ep h a s e 3 :2 0 0 4 年8 月,a c e 2 0 0 5 :2 0 0 5 年1 1 月) , 这项评测旨在开发自动内容抽取技术以支持对三种不同来源( 普通文本、由自动语音 识别a s r 得到的文本、由光学字符识别o c r 得到的文本) 的语言文本的自动处理, 北京邮电大学博士学位论文 第一章绪论 研究的主要内容是自动抽取新闻语料中出现的实体、关系、事件等内容,即对新闻语 料中实体、关系、事件的识别与描述,包括的语种为英语、汉语和阿拉伯语。 目前a c e 评测的主要标注任务有四个:实体识别与跟踪( e d t ,e n t i t yd e t e c t i o n a 1 1 dt r a c l ( i n 曲、关系识别与描述( r d c ,i k l a d o nd e t e c t i o na n dc h 撇c t e r i z 砒i o n ) 和实体 识别与描述( e d c ,e v e n td c t c c t i o na n dc h a r a c t e r i z a t i o n ) ,第四个标注任务是实体链 接( l n k ,e n t 时l i n h n g ) ,该任务将文章中出现的各种表述( m e 埘o n ) 指向不同的实体 ( c n t i t y ) ,从而给出一个实体全面的描述,这项任务标注的就是指代关系,可见,指代 消解是a c e 评测中的一项重要任务。 与m u c 相比,目前的a c e 评测不针对某个具体的领域或场景,采用基于漏报 ( 标准答案中有而系统输出中没有) 和误报( 标准答案中没有而系统输出中有) 为基 础的一套评价体系,还对系统跨文档处理( c r o s s d o c u m e n tp r o o e s 血g ) 能力进行评测。 通过上面的分析可以看出指代消解是自然语言处理领域的一个热点问题。同时也 是一个难点问题,主要表现在: 指代是一类非常复杂的语言现象,它不仅包含人称代词指代和指示代词指代,还 包括零指代和一般名词短语之间的指代,每种指代之间存在较大差异,采用单一方法 很难解决指代的各种情况,因此只有对每一种指代现象进行深入研究的基础上,才能 够提出较好的解决方法。 指代消解是一个需要知识资源支撑的任务,需要多级语言知识,包括句法知识、 语义知识、上下文知识、甚至领域知识,在当前自然语言处理水平下,要有效地得到 所需的这些知识仍然不是件容易的事情,需要一个长期的过程逐渐的积累。 汉语指代消解研究的起步较晚,目前的研究还不够深入。虽然一些学者对该问题 进行了一定的研究,但与其它语种特别是英语相比还存在较大差距。现有的研究大体 上分为两种,或是局限在某个具体的自然语言处理系统中所出现的有限条件下的代词 的处理,这难以从根本上解决真实语料中的指代问题;或是从理论语言学方面探讨代 词的若干规律,离计算语言学所要求的实用性和形式化还有不小的距离。 汉语和英语两种语言之间的差异,使得直接借鉴英文指代消解的处理方法存在一 定的困难。如英语( 印欧语系) 中的单复数信息、人名的性别信息等在汉语中都不明 显,使得获取这些特征比较困难。 1 4 指代消解研究现状 针对指代消解这一问题,不少研究者一直在努力寻求指代消解的计算方法,并取 北京邮电大学博士学位论文 第一章绪论 得了鼓舞人心的成果。本文将这些方法大体归为三类:早期的研究方法,基于学习的 方法和汉语指代消解方法。 1 4 1 早期的指代消解算法 早期的算法是采用手工建立的逻辑规则进行指代消解,处理的对象主要是代词, 所采用的语料没有现在这么规范和标准,语料中的指代关系并没有标注。绝大多数算 法应用语法信息相关的逻辑规则进行消解,很少使用语义信息。由于当时可以用来区 分先行语和照应语的知识较少,只能应用较少的规则从大量的候选项中筛选,因此实 验结果并不十分理想,但这些方法为以后的研究奠定了基础。 h o b b s 算法 h o b b s 2 3 】算法是最早采用计算方法实现指代消解的算法之一,由h o b b s 在1 9 7 8 年提出,实现了代词h e ,s h e ,i t 和也e y 的消解。该算法的消解过程不依赖任何语义 知识或语篇信息,只利用语法规则和树图信息。算法为文档中的每个句子建立完全语 法解析树( 向l ls y l l t a c t i cp a r s e 廿e e ) ,采用广度优先的方法搜索解析树,搜索数量和性别 一致的名词短语,然后根据语法结构中的语言支配关系( i i l l g i l i s t i cg o v e m m e n t ) 和绑定 原理( b m d i n gp 咖c i p l e s ) 选择最佳的先行语。实验采用从三个来源得到的文档作为测试 数据,消解的准确率达到了9 2 ,h o b b s 算法对指代消解的发展具有重要的意义,成 为以后一些研究工作的基础,算法证明了采用计算方法可以有效的解决指代问题,但 该方法只用来解决了代词的消解问题,没有说明算法是否可以扩展到非代词的情况。 r a p 算法 l 8 p p i l l 和l e a s s 提出了一种具有广泛影响力的指代消解算法垤( r e s o l 谢o no f a n a p h o r ap r o c e d u r e ) 2 4 ,实现句内和句间的第三人称代词和反身代词的指代消解。 该算法先利用m c c o r d s 提出的槽文法解析( s o hg r a n 皿a rp a r s e r ) 【2 5 】 2 6 】【2 7 】获得文档 的语法结构,再通过计算先行词的突显性( s a j i e n c e ) 和过滤规则实现消解,算法中并没 有使用语义信息和真实世界知识来评估候选项。 r a p 算法的主要模块包括:旬内过滤,依据句法特征排除不可能是先行词的候选 项 2 8 ;过滤人称、性别和数量不一致的候选项;判断冗余( p l e o n a s t i c ) 代词,如作为 形式主语的“i t ”;根据约束关系识别同一句内可能的先行语,主要是识别反身代词和 互指代词的先行语【2 9 】:对候选项依据文法角色、出现频率、距离等进行的突显性 ( s a l i e n c e ) 赋值;将回指的结点作为等价类,构建指代链;在候选项中选择最优的作为 先行词。 实验使用计算机使用手册类文档作为语料,在所测试的3 6 0 个代词中消解的成功 北京邮电大学博士学位论文第一章绪论 率达到了8 6 。i t a p 算法的缺点:事先通过人工的方法对语料做了简化处理,只考 虑了第三人称形式,需要对文档构建完整的、深层的解析树。 融廿改进算法 1 9 9 6 年,k e l l l l e d y & b o g u r a e v 针对l 印p i n & l e a s s 的算法对r a p 算法作了修改和 扩展 3 0 ,避免了构建完整的、深层的解析树。算法只对文档作浅层分析,用 l i n g s o f t 【3 l 】工具预处理后,得到必要的文法信息,主要有两类:词性标注和句法 功能标识( g r a m m a t i c a lf u n c t i o ni n f o l l i l a t i o n ) ( 如,主语、直接宾语等) 。再根据所得到的 句法信息对候选项赋权值( 如在当前句权值赋1 0 0 ,主语再赋8 0 ,直接宾语5 0 ) ,并 计算权值的总和( 突显性) ,最后,利用突显性确定先行语。 实验采用随机选取的2 7 篇各种类型的文档,包括出版物、新闻故事、杂志文章和 产品公告,对其中的3 0 6 个第三人称代词进行消解,准确率( a c c u r a c yr a t ) 为7 5 。因 为系统只对文档进行有限的解析并且照应语中不含有冗余代词,因此比r a p 算法的 性能有所下降。 中心理论 中心理论( c e n t e ri h e o 啪是一种关于语篇连贯的理论,是由g r o s z 和s i 血e r 等人 1 9 8 3 年前后提出,1 9 9 5 年扩展完善并正式发表。2 0 世纪8 0 年代中后期以来,该理 论一直受到了广泛的关注【3 2 】 3 3 】 3 4 】 3 5 】。 一个语句中提及的某一实体的地位较另一( 些) 语句的实体更显著,由此对指称 词尤其是代词的用法就有一定的限制和规定。在该模型中语篇由语段组成( d i s c o u r s e s e g m e n t ) 组成,语段由一系列的语句( u t t e r a n c e ) u i u 。构成,中心理论认为,语篇中 的语句应该是连贯的,而连贯性可以通过中心来刻画,所谓中心,就是一种语义实体 ( s e m a r l t i ce m i t i e s ) 。 模型中使用了两个数据结构来处理一个语句u 。的中心: a 、前向中心列表( 1 i s to f f o n a r d - l o o k i n ge m e r ) ,记为c 删。) ,c 烈j j ) 只与当前语句 u i 中的实体相关,这些实体根据语法角色、文本位置和词汇语义进行排序,一般采用 采用如下标准: 主语( s u b j e c t ) 宾语( o b j e c t ) 其它( o t h e r ) c n j i ) 中重要性程度最高的元素定义为优选中心( p r c f b r r e dc e n t e r ) ,记为c 。( u i ) ,它表 示的是该句中最有可能成为c b ( u ) 。 b 、唯一后向中心( s i n g l eb a c k w a r d - l o o h n gc e n l e r ) ,记为c b ( u n ) ,c b ( u i ) 既是出现在 u i 中也出现在c n j 卜1 ) 中的实体,并且c u j _ 1 ) 排序中最靠前的一个。 在该模型中两个相邻的语句,它们的中心存在三种关系:连续,不变和转变。 北京邮电大学博士学位论文第一章绪论 依据中心理论b r e 衄a n 等提出b f p 算法 3 6 ,该算法在指代消解研究文献里广为 引用,并经常当作基准程序用于比较评估研究。算法的基本思想:如果在u i 中出现 人称代词,则从左到右顺序检测c u i 1 ) 中的实体,直至找到同时满足词汇句法 ( 埘日咄o s y l l t a c t i c ) 、约束( b

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论