已阅读5页,还剩77页未读, 继续免费阅读
(计算机应用技术专业论文)基于主题的中文事件抽取技术研究及应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于主题的中文事件抽取技术研究及应用 中文摘要 随着社会的发展,人们被包围在信息的汪洋大海之中。准确有效的从大量无序、 杂乱、无结构的信息中提取感兴趣的事件信息,这正是事件抽取要解决的问题。现有 的事件抽取的研究还主要局限在句子范围,然而,一个主题事件通常由多个状态和动 作组成,其描述信息通常分散在一个或多个文档中,现有的事件抽取方法显然无法满 足主题事件抽取的需要。 本文在研究上述问题时,提出了将主题事件的抽取戈0 分为三个层次,并将其应用 到访问主题事件的抽取中。第一,句子范围的元事件抽取,主要抽取一些相关的动作 和状态。第二,篇章范围内的事件信息抽取,根据主题事件的框架结构,在句子范围 的元事件抽取的基础上,通过篇章范围的语义信息将这些元事件进行串联,形成主题 事件片段。第三,跨篇章的事件信息归并,首先本文使用聚类的方法确定事件归并的 范围;其次按照一定的归并条件,将满足条件的主题事件片段进行归并。通过这三个 层次的信息抽取和归并,就可以得到一个主题事件的完整信息描述。 本文首先介绍了事件抽取的基本概念,研究现状和当前面临的主要困难。其次提 出了一种定义在论元结构层次的事件抽取模式,并提出了一种机器学习方法来获取事 件抽取规则;该方法的特点是将语义角色标注技术应用于事件抽取,通过将触发动词 支配的语义角色与待抽取的事件元素相对应,实现了句子范围内面向动词的事件信息 的抽取。接着,本文介绍了一种基于元事件的事件知识表示框架,将主题事件看作是 元事件的集合;抽取出框架中定义的元事件后,对其中的人物、地点、时间进行规格 化处理,再利用指代关系、时间、地点这些重要的语义载体,在篇章范围内进行了初 步的信息串联,从而获取了主题事件片段信息。然后,本文提出一种基于摘要的聚类 方法将语料集合按照主题进行聚类,以此来确定跨篇章事件信息归并的范围。最后提 出了一种简单的归并条件,用于对分散在不同文档的主题片段信息进行归并。 对访问主题事件的抽取实验结果表明,本文提出的基于元事件的框架定义对事件 知识的表达是有效的,指代关系、时间、地点等语义载体的规格化处理,有效的进行 中文摘要 基于主题的中文事件抽取技术研究及应用 了篇章范围内事件信息的串联,排除了干扰信息。在主题事件聚类实验中,本文提出 的基于摘要的主题事件聚类方法和相似度计算方法的改进,相比常规的聚类方法,其 效果得到了明显提升。 关键词:事件抽取,信息抽取,事件聚类,语义角色标注,自然语言处理 i i 作者:吴刚 指导老师:钱培德 r e s e a r c ha n da p p l i c a t i o no nc h i n e s et o p i ce v e n te x t r a c t i o n a b s t r a c t r e s e a r c ha n d a p p l i c a t i o no nc h i n e s et o p i ce v e n t e x t r ac t i o n a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fs o c i e t y , p r o p l ea r es u r r o u n d e db yt h ei n f o r m a t i o n o c e a n e x t r a c t i n ge v e n ti n f o r m a t i o na c c u r a t e l ya n de f f e c t i v e l yf r o mal a r g ea m o u n to f d i s o r d e r l y , m e s s y , u n s t r u c t u r e dd a t ai s t h eg o a lo fe v e n te x t r a c t i o n c u r r e n t l y ,m o s t r e s e a r c h e se x t r a c te v e n ti n f o r m a t i o n ( s t a t eo ra c t i o n ) i ns e n t e n c es c o p e h o w e v e r , t h e i n f o r m a t i o no fat o p i ce v e n ti sc o m p r i s e do fs e v e r a ls t a t e sa n da c t i o n s ,a n dd i s t r i b u t e di n m u l t i p l ed o c u m e n t s c u r r e n te v e n te x t r a c t i o nm e t h o di nt h es c o p e o fs e n t e n c ec a nn o tm e e t t h er e q u i s i t i o no ft o p i ce v e n t t h i sp a p e rd i v i d e st h et o p i ce v e n te x t r a c t i o ni n t ot h r e es c o p e s f i r s t l y , i te x t r a c t s m e t a - e v e n t ( s t a t eo ra c t i o n ) i ns e n t e n c es c o p e s e c o n d l y , i te x t r a c t st o p i ce v e n ts e g m e n t i n f o r m a t i o ni ne v e r yd o c u m e n ta c c o r d i n gt oc o r e f e r e n c ea n dt h ef r a m eo ft o p i ce v e n t ,a t l a s t ,i tc a ng e tac o m p l e t ed e s c r i p t i o no ft o p i ce v e n t ,b yc o m b i n i n gt h et o p i ce v e n t s e g m e n t sf r o ms e v e r a ld o c u m e n t s t h i sp a p e rf i r s t l yi n t r o d u c e st h eb a s i cc o n c e p t so fe v e n te x t r a c t i o n ,t h ec u r r e n t r e s e a r c hs t a t u sa n dt h em a i nd i f f i c u l t i e si ne v e n te x t r a c t i o n s e c o n d l y , i tb r i n g sf o r w a r da e x t r a c t i o nm e t h o d ,w h i c hm a ps e m a n t i cr o l eo ft h et r i g g e r e dv e r bt ot h ec o r r e s p o n d i n g e v e n te l e m e n tt or e a l i z et h ee x t r a c t i o ni nt h es c o p eo fs e n t e n c eb yt h es e m a n t i cr o t e t a g g i n gt e c h n o l o g y t h i r d l y , i tp r o p o s e sa n e v e n ts e m a n t i c d e s c r i p t i o nf r a m e b a s e d m e t a - e v e n tt od e s c r i b ef r a m e w o r ko fat o p i ce v e n t i ts t a n d a r d i z e st h ei m p o r t a n te v e n t a r g u m e n t si n c l u d i n gp e r s o n ,t i m ea n dp l a c ea f t e re x t r a c t i n ga l lm e t a - e v e n t s a n dt h e ni t u s e st h er e l a t i o n sb e t w e e ns o m ei m p o r t a n ts e m a n t i cv e c t o r ( p e r s o n ,t i m ea n dp l a c e ) t o c o m b i n et h em e t a - e v e n t st oat o p i ce v e n ts e g m e n f o u r t h l y , i tp r o p o s e sac r o s sd o c u m e n t t o p i ce v e n tc l u s t e r i n gm e t h o dw h i c hi sb a s e do nd o c u m e n ts u m m a r y a f t e rc l u s t e r i n g ,a i l l a b s t r a c tr e s e a r c ha n da p p l i c a t i o no nc h i n e s et o p i ce v e n te x t r a c t i o n c l u s t e ri sas e to fd o c u m e n t sa b o u tt h es a m et o p i ce v e n t a tl a s t ,i tg e t sc o m p l e t e i n f o r m a t i o no fat o p i ce v e n tb yi n t e g r a t i n gt h et o p i ce v e n ts e g m e n t sf r o mt h ec l u s t e r t h ee x p e r i m e n t a lr e s u l t si nt h ev i s i tt o p i ce v e n te x t r a c t i o ns h o wt h a tt h et o p i ce v e n t s e m a n t i c d e s c r i p t i o nf r a m e w o r kb a s e d o nm e t a - e v e n ti sv a l i dt oe x p l a i nt h e k e y i n f o r m a t i o no fat o p i ce v e n t ,a n dt h en o r m a l i z a t i o na n du s i n gs e m a n t i ci n f o r m a t i o na l ea l s o v e r yi m p o r t a n tf o rt h ee x t r a c t i o n i nt h ee x p e r i m e n to ft o p i ce v e n tc l u s t e r i n g ,o u rc l u s t e r i n g m e t h o db a s e do nd o c u m e n ts u m m a r ya n dt h ei m p r o v e ds i m i l a r i t yc a l c u l a t i o ni sm o t i v a t e d b ye x p e r i m e n t k e yw o r d s :e v e n te x t r a c t i o n ,i n f o r m a t i o ne x t r a c t i o n ,e v e n tc l u s t e r i n g ,s e m a n t i cr o l e l a b e l i n g ,n a t u r a ll a n g u a g ep r o c e s s i n g i v w r i t t e nb yw ug a n g s u p e r v i s e db yq i a np e i d e 苏州大学学位论文独创性声明及使用授权声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研究工 作所取得的成果。除文中已经注明引用的内容外,本论文不含其他个人或集 体已经发表或撰写过的研究成果,也不含为获得苏州大学或其它教育机构的 学位证书而使用过的材料。对本文的研究作出重要贡献的个人和集体,均已 在文中以明确方式标明。本人承担本声明的法律责任。 研究生签名: 日期:堂j f 学位论文使用授权声明 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文合作部、 中国社科院文献信息情报中心有权保留本人所送交学位论文的复印件和电 子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内 容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅 和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括 刊登) 授权苏州大学学位办办理。 研究生签名: 导师签名: 日 期: 期: 基于主题的中文事件抽取技术研究及应用 第一章引言 1 1 课题背景与意义 第一章引言 随着社会的飞速发展,特别是计算机的广泛应用以及互联网的迅猛发展,信息总 量呈指数级增长。据统计,在这些海量信息中,有6 0 7 0 是以电子文档的形式存 在的。这些信息具有冗余度高、结构松散、数据量大等特点。人们迫切需要一些自动 化的技术来获取自己想要的信息,信息抽取( i e ,i n f o r m a t i o ne x t r a c t i o n ) 正是在这 样的背景下出现的一种处理技术【l j 。 目前信息抽取的主要研究方向包括命名实体识别、指代消解、实体语义关系抽取、 事件抽取等领域。很多认知科学家们认为,人们是以“事件”为单位来体验和认识世 界的,事件符合人们的正常认知规律【2 1 。人们面临一组信息时,首先关心的是这些信 息中发生了什么,有什么状态的变化,有没有自己感兴趣的事情发生。对于一个关注 股市的投资者,他可能最关心的是股票的涨跌事件;而对于一个关注房地产行业的人, 他可能最关心的是发布了哪些政策,最近的房价涨跌等。 对于事件,还没有统一的定义。一般而言,事件是指在某个特定的时间片断和地 域范围内发生,由一个或多个角色参与,由一个或多个动作组成的一件事情。 如何快速准确地从海量自由文本中抽取出自己感兴趣的事件成为当前急需解决 的一个问题。事件抽取主要研究如何从含有事件信息的非结构化文本中抽取出用户感 兴趣的事件信息,并以结构化的信息呈现出来。当前,事件抽取是领域相关的。对于 “事件”,虽然还没有统一的定义,但主要有两种观察角度: 第一,表示一个动作或者状态的变化【3 】。该类事件的抽取通常是面向动词进行的, 其任务为获取一个动词及其参与该动作的相关实体,其抽取范围在句子级别。当前的 事件抽取研究主要是针对这类事件。 第二,面向主题的事件抽取。由多个状态和动作组成,包含多个侧面的信息。在 现实生活中,伴随着一个事件的发生,来自多个不同信息源的报道会相继出现,其视 角和报道方式往往也不尽相同;而且随着时间的迁移和事件的发展,还会有持续的跟 第一章引言基于主题的中文事件抽取技术研究及应用 踪报道出现。例如对于一个访问主题,新闻报道首先会报道访问入何时去何地访问, 随后会跟踪报道其具体行程和参加的活动,接着会出现各方对此的评论和影响等。对 于这类信息分散、内容连续、结构复杂的事件,还有很多关键性的问题需要解决。特 别是缺乏篇章范围内及跨篇章的语义理解技术,现有的事件抽取方法显然无法满足这 类事件抽取的需要。 为区别上述两类事件,本文将第一类事件称为元事件( m e t ae v e n t ) ,第二类称 为主题事件( t o p i ce v e n t ) 。 另外,事件的概念被引入自然语言处理领域,大量的学者对事件为单位的处理技 术进行了研究。在文本摘要【4 】【5 1 ,信息检索【6 】【7 1 ,话题跟踪【8 1 等研究领域,事件抽取技 术是其中的一个基本问题,有着广泛的应用背景。因此如何进一步的提升事件抽取系 统的性能,如何挖掘和利用更多的语义信息,成为当前事件抽取研究中急需解决的问 题。 1 2 研究现状 从2 0 世纪8 0 年代末开始,信息抽取研究蓬勃开展起来。这主要得益于消息理解 系列会议( m u c ,m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ) 的召开。正是m u c 系列会议 使信息抽取发展成为自然语言处理领域一个重要分支,并一直推动这一领域的研究向 前发展。 从1 9 8 7 年到1 9 9 8 年,m u c 会议共举行了七届,它由美国国防高级研究计划委 员会( d a r p a ,t h ed e f e n s ea d v a n c e dr e s e a r c hp r o j e c t sa g e n c y ) 资助。m u c 的显著 特点并不是会议本身,而在于对信息抽取系统的评测。m u c 6 t 9 1 制定了四项评测任务: 场景模板( s c e n a r i ot e m p l a t e s ) 填充、命名实体( n a m e de n t i t y ) 识别、共指( c o n f e r e n c e ) 关系确定、模板元素( t e m p l a t ee l e m e n t ) 填充等。场景模板填充任务规定了模板以 及槽的填充规则,然后将信息分别填充到模板或者槽中,该任务抽取指定的事件,包 括参与这些事件中的各个实体、属性或关系,例如航天器发射事件的运载时间、场地、 负载等。 m u c 会议停办以后,美国国家标准技术研究院( n i s t ) 组织了自动内容抽取 1 0 i ( a c e ,a u t o m a t i cc o n t e n te x t r a c t i o n ) 评测。a c e 评测1 9 9 9 年7 月开始酝酿,2 0 0 0 2 基于主题的中文事件抽取技术研究及应用 第一章引言 年1 2 月正式开始启动,迄今己经举办过九次评测。其研究的主要内容是自动抽取新 闻语料中出现的实体、关系、事件等内容。目前a c e 评测主要有几大任务:实体识 别与跟踪( e d t ,e m i t yd e t e c t i o na n dt r a c k i n g ) 、关系识别与描述( r d c ,r e l a t i o n d e t e c t i o na n dc h a r a c t e r i z a t i o n ) 、事件探测和识另1 ( e v e n td e t e c t i o na n dr e c o g n i t i o n ) 。 a c e 2 0 0 4 首次引入了对事件抽取的评测。a c e 2 0 0 5 1 1 】中开始引入对中文事件抽取的 评测,抽取任务中将要抽取的事件分为8 大类( t y p e ) 和3 3 子类( s u b t y p e ) 。 对于元事件的抽取,主要有机器学习方法【1 2 】【1 3 1 和模式匹副1 4 】【1 5 1 方法。机器学习 方法则把事件元素的识别当成是分类问题,其关键是分类器的构建和特征的选择;模 式匹配方法则关注事件模式的定义,用抽取模式来指导事件的抽取。如r o m a n y a n g a r b e r 在他的博士论文中【1 6 j ,用正则表达式来表示抽取模式,用模式匹配的方法 实现了事件抽取系统e x d i s c o 。机器学习方法虽然移植性好,但是需要大量的标注语 料,这在实际的事件抽取中是不现实的;模式匹配方法依然是元事件抽取的主流,然 而现有的方法其语义程度还不高,还停留在句法配置一级的层次上,其语义程度还可 以进一步提高。 对于面向主题的事件抽取,由于其事件信息比较分散,一般都是用知识库的方法 来进行相关事件的抽取。其关键是需要描述各个事件参与成份之间的联系,以及通过 篇章内及跨篇章的理解技术,将事件的分散信息收集合并。通常的方法用事件框架【l 7 j 和本体【1 8 】【1 9 】来表示主题事件的基本组成和各个成份之间的联系。然而,篇章范围内 语义理解技术的缺乏,一直困扰着事件信息在篇章范围内的串联和归并;跨篇章的事 件信息抽取和归并更是鲜有研究。 中文事件抽取方面的研究起步较晚,但是也取得不少有意义的成果。其中,哈尔 滨工业大学的赵妍妍等在事件类别识别阶段,采用了一种基于触发词扩展和二元分类 相结合的方法,在事件元素识别阶段,采用了基于最大熵的多元分类的方法,这些方 法较好的解决了事件抽取中训练实例正反例不平衡以及数据稀疏问题,在a c e 的中 文语料上取得较好的效果【l3 1 。清华大学的梁晗,陈群秀等提出一种基于框架的信息抽 取模式并建立了统一的灾难性事件框架,利用框架的继承归纳特性简化系统实现过 程,概括事件信息,并提出按时间流顺序的线索性文件抽取的输出方式【2 们。姜吉发提 出了种中文的事件抽取模式获取方法【2 l j ,用于对飞行事件的抽取。 第一章引言基于主题的中文事件抽取技术研究及应用 1 3 课题主要研究内容 鉴于主题事件信息分散复杂的特点,本文针对主题事件抽取的研究定位是:将事 件抽取的范围确定为多个描述同一主题事件的文档,通过句子级别,篇章级别,以及 跨篇章级别不同程度的信息抽取和归并,从而获取完整的主题事件信息。 从事件信息抽取的阶段来看,可以将主题事件信息抽取分为三个阶段: ( 1 ) 确定主题事件抽取的范围,即确定获取某个主题事件信息的文档集合。 ( 2 ) 在第一步工作的基础上,针对每个文档:首先进行句子范围的事件抽取,即 抽取出事件相关的动作和状态;在句子范围内的事件抽取的基础上,在篇章 范围内,将动作和状态初步串联,形成一个主题事件片段。 ( 3 ) 在第二步处理的基础上,将这些事件片段进行串联和归并,使之成为一个完 整的事件信息。 从事件信息的获取范围来看,可以将主题事件信息抽取分为三个范围,不同范围 的事件信息获取将得到不同完整程度的事件信息描述: ( 1 ) 句子范围的事件信息抽取,即获取动作和状态,其抽取的结果是元事件。本 ,文的第三章将介绍这部分工作。 ( 2 ) 篇章内的事件信息抽取,串联和归并,将篇章内的动作和状态进行串联,其 抽取的结果是主题事件片段信息。本文的第四章将介绍这部分工作。 ( 3 ) 多个篇章的事件信息归并,将多个篇章的主题事件片段信息进行归并,最终 获取一个完整的主题事件信息描述。本文第五章将介绍通过聚类方法来确定 事件信息的归并范围,以及事件信息的归并方法。 目前句子范围内的元事件抽取主要采用模式匹配的方法。本文探讨了一种基于角 色匹配的元事件抽取方法,将事件抽取模式定义在动词的论元结构层次。如果能够将 要抽取的事件元素映射到相应的语义角色,这样只要分析出动词相应的角色成份,就 能得到相应的事件元素。由于动词所支配的论元结构相对固定,从而可以让用户从纷 繁的句法配置中解放出来。为减轻模式定义的代价,本文还提出了一种机器学习方法 来获取事件抽取模式。 一个文档可以看成是元事件的集合,有时简单的元事件本身并没有什么意义,只 4 基于主题的中文事件抽取技术研究及应用第一章引言 有将元事件进行串联起来,才能较为完整的描述文档的主题。提出了一种基于元事件 的知识框架,用于表达主题事件的结构,将主题事件的侧面看成是若干元事件的集合, 用框架来指导特定类型元事件的抽取。在针对访问主题事件的抽取中,在元事件抽取 的基础上,根据人物在访问事件中的串联作用,将有关的元事件串联起来,从而实现 了篇章范围内相关信息的归并。 然而,一个主题事件往往由多个文档来进行描述,单个文档中的事件描述只是一 个主题事件片段。如何确定描述同一个主题事件的文档集合,以及如何将这些集合中 分散的主题事件片段进行归并,这是要解决跨文档事件信息抽取的两个关键问题。就 第一个问题,本文提出了一种基于摘要聚类的方法来确定描述同个主题事件的文档 集,进而确定了主题事件抽取的范围;对于第二个问题,本文根据事件关键属性制定 事件的归并条件,将满足归并条件的事件信息进行简单归并。 1 4 本文组织结构 本文共分六个章节,论文结构和各个章节的主要内容如下: 第一章为引言。这一章对本课题从总体上进行了介绍,包括课题的提出、研究现 状、意义和应用背景,并据此引出本文的选题与研究内容。 第二章为事件抽取的相关工作。这一章总结了目前自然语言处理的研究热点和相 关技术,介绍了事件抽取的相关技术和研究现状,并从总体上介绍了文本的事件抽取 方法,并对本文的实验语料和预处理平台做了介绍。 第三章为基于角色匹配的事件抽取方法。这一章针对句子范围内的元事件抽取, 提出了一种基于角色匹配的事件抽取方法,将语义角色标注技术用于面向动词的事件 抽取中,提出了一种定义在论元结构层次的事件抽取模式,并介绍了一种机器学习方 法,用于自动获取抽取规则,该方法只需要少量的人工干预。并对此在实验语料进行 了实验,实验结果表明该方法针对动词触发的一类事件的抽取是高效的。 第四章为基于知识框架的主题事件信息抽取。这一章提出了一种基于元事件的事 件知识框架,用于表达主题事件的整体结构。详细介绍了时间、地点、人物等事件元 素的规格化处理;介绍了访问主题事件的框架定义和其中元事件的抽取规则;根据人 物在访问事件的串联作用,利用人物的指代信息,获取了访问事件的主体信息,以及 5 第一章引言基于主题的中文事件抽取技术研究及应用 行程与活动侧面信息;使用人物,时间等语义信息,针对复杂的篇章结构,在篇章范 围内进行事件的切割,实现了篇章范围内主题事件片段信息的获取。在实验语料上进 行了抽取实验,实验结果表明,本文的方法能有效的排除复杂文档结构中的干扰事件 信息,在篇章范围内有效地进行了事件信息的串联。 第五章为主题事件聚类与跨文档事件信息归并研究。这一章提出了一种基于摘要 聚类的主题事件聚类方法,并在文档相似度计算中引入了与时间相关的加权因子,以 此来确定描述同一主题事件的文档集合,确定了主题事件信息获取的范围;提出了一 种简单的事件片段信息的归并方法,用以对事件信息进行归并。在本文的实验语料上, 对不同的聚类方案进行了对比实验,实验结果表明本文使用的聚类策略明显好于其它 聚类方案。 第六章为总结与展望。这一章是对本文工作的总结以及后续工作的展望。 6 基于主题的中文事件抽取技术研究及应用第二章事件抽取的相关工作 2 1 术语介绍 第二章事件抽取的相关工作 为了表述方便,首先介绍文中经常用到的一些术语。 ( 1 ) 元事件( m e t a e v e n t ) :表示一个动作的发生或状态的变化。往往由动词驱动, 也可以由能表示动作的名词等其它词性的词来触发,它包括参与该动作( 行为) 的主要 成份( 如人物、地点、时间等) ,本文将元事件看成是主题事件的基本组成单位。 ( 2 ) 事件元素( e v e n te l e m e n t ) :是事件中的各个参与成份的统称,也可称为 事件槽( s l o t ) 或者事件角色( e v e n tr o l e ) ,比如人物、时间等。 ( 3 ) 元事件描述( e v e n tm e m i o n ) :是指用自然语言对一个客观发生的具体元 事件所进行的描述,通常是一个句子或者是句群。同一个元事件可以有多个不同的事 件描述,可能分布在文档的不同位置,或在不同的文档中。 ( 4 ) 主题事件( t o p i ce v e n t ) :包括一类核心事件或活动,以及所有与之直接 相关的事件和活动。可以由多个主题事件片段组成。 ( 5 ) 主题事件片段( t o p i ce v e n ts e g m e n t ) :一个主题事件通常由多个动作和 状态( 元事件) 组成,本文将其中部份元事件或活动的集合统称为主题事件片段,由 多个主题事件片段可以完整地表示一个主题事件。 ( 6 ) 主题事件描述( t o p i ce v e n tm e m i o n ) :一个主题事件通常由多个文档进 行描述,本文将其中在某个文档中的信息描述统称为主题事件描述,一个主题事件描 述通常对应为一个主题事件片段。 ( 7 ) 实体( e n t i t y ) :指客观世界中的一个对象或对象集合。这些对象是信息 抽取中感兴趣的处理内容。实体在文本中可以通过他们的名字,一个普通名词,一个 名词短语或代词来指称。 ( 8 ) 命名实体( n a m e de m i t y ) :具有固定名称,在文中使用专有名称表达的 对象。比如人名,地名,组织机构名等。本文在表述实体类别时采用a c e 的实体类 别定义,常见的实体类别有人物实体( p e r ,p e r s o n ) 、机构类实体( o r g ,o r g a n i z a t i o n ) 、 第二章事件抽取的相关工作基于主题的中文事件抽取技术研究及应用 地理社会政治类实体( g p e ,g e o g r a p h i c a l s o c i a l p o l i t i c a l ) 等。 2 2 信息抽取概述 信息抽取系统的主要功能是从文本中抽取出特定的事实信息( f a c t u a l i n f o r m a t i o n ) 。比如,从新闻报道中抽取出恐怖事件的详细情况:时间、地点、作案 者、受害者、袭击目标、使用的武器等;从人物的简历记录中抽取出姓名、学历、特 长、性别、年龄等等。通常,将抽取出来的信息转化为结构化信息,并存入数据库等 介质中,供用户查询以及进一步分析利用。 信息抽取与其它信息处理技术( 如信息检索、数据挖掘) 存在着紧密的联系,同 时也存在一些实质的差异。信息抽取与信息检索是相互联系在一起的,若结合起来可 以为文本处理提供强大的工具。信息抽取与信息检索的差异在于他们的目的以及技术 路线。就目的而言,信息检索只是找出满足一定检索条件的整篇文档或段落;信息抽 取不仅查找信息,而且替用户理解信息,同时按照用户指定格式输出信息。就技术路 线而言,多数信息抽取的研究是从以规则为基础的计算语言学和自然语言处理技术发 源的;而信息检索则更多地受到信息论、概率论和统计学的影响。 数据挖掘可以对数据库中的结构化数据进行分析和提炼,而信息抽取处理的对象 是非结构化的自然语言文本。信息抽取的任务就是将非结构化数据转变为结构化数据 并存入到介质中,因此信息抽取可以作为进一步数据挖掘的基础。 2 2 1 信息抽取的历史和现状 信息抽取的研究在上世纪6 0 年代正式出现,已经取得了长足的发展。特别是从 2 0 世纪8 0 年代末开始,信息抽取研究蓬勃发展起来,这主要得益于消息理解系列 会议( m u c ) 的召开。m u c 定义的信息抽取任务的各种规范以及确立的评价体系已成 为信息抽取研究事实上的标准。目前,除了强烈的应用需求外,正在推动信息抽取进 一步的动力主要来自美国标准技术研究所( n i s t ) 组织的自动内容抽取a c e 评测会 议。根据a c e 对目前信息抽取定义的任务来看,信息抽取主要解决实体识别和跟踪 e d t 、关系识别和描述r d c ,以及事件识别和描述e d c 等问题。e d c 主要负责事件 基于主题的中文事件抽取技术研究及应用第二章事件抽取的相关工作 的识别和相关事件参照( e v e n tm e n t i o n ) 以及解决它们之间的指代问题。 2 2 2 信息抽取系统的体系结构 图2 1 一个典型的信息抽取系统体系结构 一般信息抽取系统的主要流程有: ( 1 ) 定义抽取任务模板。即定义任务框架和相关槽值的语义约束; ( 2 ) 用一组信息模式来表达领域相关的感兴趣的知识; ( 3 ) 进行适度的预处理工作。一般包括分块、分词、适度的句法分析、语义分析 脑 守; ( 4 ) 利用一定的启发性原则去识别出候选的信息,用模式去匹配候选信息; ( 5 ) 进行上下文关联、指代关系等分析和推理,确定信息的最终结构; ( 6 ) 按照一定的方式输出抽取的结构化信息。 图2 1 给出了美国纽约大学p r o t e u s 信息抽取系统的体系结构,它是个典型的信 息抽取系统瀑布模型。其中,任务分步执行,包括语言的分析处理,模式匹配,篇章 范围和篇章之间的分析处理和信息融合等几个方面。 9 第二章事件抽取的相关工作基于主题的中文事件抽取技术研究及应用 2 2 3 信息抽取系统的评测 在m u c 中,衡量信息抽取系统的性能主要根据两个评价指标:召回率和准确率。 召回率等于系统正确抽取的结果占所有可能正确结果的比例;准确率等于系统正确抽 取的结果占所有抽取结果的比例。准确率p ( p r e c i s i o n ) 和召回率r ( r e c a l l ) 的定义 为: p r e c t s o 忱:一c 丁 r e c a l l :c n ( 公式2 1 ) ( 公式2 2 ) c 为某类被正确分类的实例个数,为测试数据中某类实例总数,丁为分类器预 测的某类实例总数。为了综合评价系统的性能,通常还计算召回率( r ) 和准确率( p ) 的 加权几何平均值,即f 指数,计算方法如公式2 3 所示: p ,p x r 0 + 2 ) m f 1 一e a s u r e = 一 p + r x f l 2 ( 公式2 3 ) 其中,是召回率和准确率的相对权重。等于1 时,二者同样重要;大于l 时,准确率更重要一些;矽小于1 时,召回率更重要一些。在m u c 系列会议中,卢 的值一般为1 、1 2 、2 。本文实验中口取1 ,这时f 指数成为f 1 指数。 2 2 4 信息抽取中的关键技术 本节介绍了当前信息抽取领域的一些关键技术。在信息抽取系统的构建中,这些 关键技术通常出现在预处理环节,往往决定着整个抽取系统的性能。 1 、中文分词 与英语等语言不同,汉语中的词基本上没有形态变化,一个汉语句子由一串前后 连续的汉字组成,词与词之间没有明显的分界标志。汉语的书面表达方式是以汉字为 最小单位,但在自然语言理解中,词是最小的、能独立活动的、有意义的语言成分。 中文分词就是把没有分割标志的汉字串( 没有词的边界) 转换为符合语言实际的词串, 即在书面汉语中建立词的边界。中文分词是中文信息处理的基础,在汉语文本分类、 文献标引、智能检索、自然语言理解与处理等应用中,首先都要对中文文本进行分词 l o 基于主题的中文事件抽取技术研究及应用 第二章事件抽取的相关工作 处理。 分词处理的主要难点有未登录词的识别,切分歧义的消解和处理【2 2 】。分词一直是 中文信息处理的基础,受到国内外学者的关注。我国在上世纪9 0 年代多次组织了中 文自动分词的评测,通过多年的努力,中文分词的研究取得了很多可喜的进展,现在 分词技术的准确率已经达到9 0 以上,基本达到实用的程度。 2 、命名实体识别 命名实体是文本中基本的信息元素,因此命名实体识别是信息抽取中十分重要的 一步,也是正确理解文本的基础。狭义地讲,命名实体是指现实世界中具体或抽象的 实体,如人、组织、地点等。命名实体通常用一个专有名词表示,如姓名、组织名、 地名等。广义地讲,命名实体还可以包含时间、数量等。至于命名实体的确切含义, 通常只能根据具体应用来确定。如在具体应用中,可能需要把地址、电话号码、产品 名称等作为命名实体。命名实体识别任务就是要找出文本中代表命名实体的词或词 串,并加以归类。在信息抽取研究中,命名实体识别相对简单,取得的研究成效也最 为显著。在m u c 6 和m u c 7 基准数据上,英文命名实体识别任务的f 指数达到了 9 4 9 7 。 命名实体识别【2 2 】【2 3 】的方法主要有基于规则的方法和基于统计的方法。一般来说, 基于规则的方法性能要优于基于统计的方法,但是这些规则往往依赖于具体语言、领 域、文本格式,编制过程耗时且容易产生错误,并且需要富有经验的语言学家才能完 成。基于统计的方法利用人工标注的语料进行训练,但需要大量标注好的语料,对语 料的要求较高,但移植性比规则方法好。 3 、句法分析 通过句法分析得到输入的某种结构表示,如完整的分析树或分析树片段集合,是 计算机理解自然语言的基础。在信息抽取领域一个比较明显的趋势是越来越多的系统 采用部分分析技术,这主要是由于以下三方面原因造成的。 首先是信息抽取任务自身的特殊性,即需要抽取的信息通常只是某一领域中数量 有限的事件或关系。这样,文本中可能只有- - d , 部分与抽取任务有关。并且,对每一 个句子,并不需要得到它的完整的结构表示,只要识别出部分片段问的某些特定关系 就行了,得到的只是完整分析树的部分子图。 第二章事件抽取的相关工作基于主题的中文事件抽取技术研究及应用 其次是部分分析技术在m u c 系列评测中的成功。s r i 公司在其参加m u c 4 评测 的f a s t u s 2 5 】系统中开始采用层级的有限状态自动机( c a s c a d e df i n i t e s t a t e a u t o m a t a ) 分析方法。该方法使f a s t u s 系统具有概念简单、运行速度快、开发周 期短等优点,在多次m u c 评测中都居于领先地位。 最后,部分分析方法盛行也是因为目前尚没有其他更好的选择。现在,完全分析 技术的鲁棒性以及时空开销都难以满足信息抽取系统的需要。但是,另一方面,部分 分析技术目前的水平还较低( f 指数小于6 0 ) ,要想使其性能有大的飞跃,必须探 索更有效的分析技术。 4 、指代消解 指代( a n a p h o r a ) 是自然语言中广泛存在的一种现象。文本的概念关联性往往 通过指代关系来刻画。语言学中,我们把指代语( a n a p h o r ) 所指的对象和内容称为 先行语( a n t e c e d e n t ) ,并把确定指代语的先行语的过程称为指代消解( a n a p h o r a r e s o l u t i o n ) 【2 6 1 。指代语对先行语的依赖存在多种关系,如等价关系、上下位关系和 整体部分关系等。指代消解是自然语言处理的关键问题之一,它不但在信息抽取中起 着重要的作用,而且在自然语言接口、机器翻译、文本摘要和问答系统等应用中也极 为关键。例如,现有的许多文本摘要系统采取从文本中直接抽取句子的做法,使得结 果可能会含有某些无先行语的指代语( 如代词) ,从而使理解变得非常困难。由于指 代关系的重要性,第6 届和第7 届消息理解会议( m u c 61 9 9 5 ;m u c 71 9 9 8 ) 单独 对指代消解进行了评测。目前的指代消解研究主要侧重于等价关系,即同指消解 ( c o r e f e r e n c er e s o l u t i o n ) 2 7 】,如人称代词的消解。同指消解只考虑两个词或短语是 否指称现实世界中同一实体的问题。 与国际上指代消解的长期研究相比,在自然语言处理领域中,中文指代消解的研 究才刚刚起步,主要集中在人称代词的消解研究方面。从某种角度而言,这也是受制 于中文命名实体识别主要集中于姓名识别的研究,两者可谓一脉相承。 5 、模式自动获取 模式匹配方法中的一个重要问题是抽取模式的获取,人工定义规则往往需要很大 的工作量。为了进行i e 模式的学习,人们先后设计过各种i e 模式获取系统。对这些 系统的综合分析发现,这些系统不论其自动化的程度有多高,都或多或少的需要人工 1 2 基于主题的中文事件抽取技术研究及应用 第二章事件抽取的相关工作 的辅助。其主要可以分为以下几类: ( 1 )基于人工语料标注的i e 模式学习 该类方法的基本思想是:首先设计一种i e 模式表示方式,由人工对训练语料进 行标注,使用一种机器学习方法从中学出相应的i e 模式。 a u t o s l o g 2 s 】是这类方法的一个典型系统。a u t s o l o g 的核心是一个单槽的模式学习 算法。针对一个特定的i e 领域,该算法的输入除了标引后的案例语句外,还有一个 基本上领域无关的小的语言模式集合和一个领域相关的语义词典。对于学出的i e 模 式,由人工进行浏览并决定取舍。 ( 2 )基于人工分类的i e 模式学习 其主要思路是,由人工将训练语料分为相关与不相关两类。根据人工定义的启发 性规则,从训练语料中获取候选的模式集合,然后用领域性相关度评价公式对该模式 进行评价,选择评价分数高的模式实例。 a u t o s l o g t s 2 9 1 就是该类系统的代表,是a u t o s l o g 的后续系统,旨在进一步减少 用户的工作量。其处理思路是,首先按照a u t o s l o g 的方法获取候选模式集合,在后 续模式的选择时,不再由人工进行选择,而是由一个评价函数获取,对候选模式集合 中的每一个模式p ,定义h p ) 为模式p 在相关文本中被激活的次数,f ( p ) 为在所有文 档中出现的次数。模式p 的评价函数的计算方法如公式2 4 : 溉( 胪器l o g 舢) 通过计算s c o r e ( p ) ,以此来选择合适的模式。 ( 3 )基于种子模式的i e 模式学习 ( 公式2 4 ) 为了进步减少人的干预,y a n g a r b e r 开发了e x d i s c o t l 5 j 系统,它是一个自适应策 略的信息抽取系统,其处理的过程是一个迭代的过程: 第一步,首先定义一定数量的种子模式,根据种子模式将含有种子模式的文档 标记为领域相关文档;
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 自动化测试在多层架构中的应用
- 深圳文化产业集聚体:发展、挑战与突破路径研究
- 液态金属与磁性介质协同构筑吸波超材料:设计、机理与性能突破
- 公关策划活动方案-手机(3篇)
- 合肥毕业活动方案策划(3篇)
- 婚庆年底活动方案策划(3篇)
- 广告活动策划后期方案(3篇)
- 旗袍扎染活动方案策划(3篇)
- 洗浴足浴营销方案(3篇)
- 电厂新年活动策划方案(3篇)
- 2026广西华盛集团有限责任公司招聘7人农业考试备考试题及答案解析
- 2026山东济南新旧动能转换起步区招聘40人备考题库附答案详解(满分必刷)
- 2026山东济清控股集团有限公司招聘23人农业笔试备考试题及答案解析
- 煤矿供电及供电安课件
- 年产10000吨燃料乙醇工厂设计
- 结直肠与肛管疾病
- 弘扬中华民族精神主题班会
- 道路运输企业安全生产管理制度文本
- 河北热电厂建筑装饰装修工程监理细则
- GIS地理信息系统-GIS-地理信息系统-课件
- 警犬行为理论考试题库(含答案)
评论
0/150
提交评论