(计算机应用技术专业论文)面向话题的事件信息融合研究与实现.pdf_第1页
(计算机应用技术专业论文)面向话题的事件信息融合研究与实现.pdf_第2页
(计算机应用技术专业论文)面向话题的事件信息融合研究与实现.pdf_第3页
(计算机应用技术专业论文)面向话题的事件信息融合研究与实现.pdf_第4页
(计算机应用技术专业论文)面向话题的事件信息融合研究与实现.pdf_第5页
已阅读5页,还剩73页未读 继续免费阅读

(计算机应用技术专业论文)面向话题的事件信息融合研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

面向话题的事件信息融合的研究与实现中文摘要 面向话题的事件信息融合的研究与实现 中文摘要 事件信息抽取( e v e n t si n f o r m a t i o ne x t r a c t i o n :e v e n t si e ) 目前是信息抽取 ( i n f o r m a t i o ne x t r a c t i o n :r e ) 中的一个重要领域。本文提出了一种跨文本事件信息融合 方法,该方法在事件i e 的基础上引入了多源信息融合理论,并结合命名实体识别、 指代消解等其它信息抽取技术,对多源、多文本同话题事件进行信息融合。本文的主 要内容包括元事件融合和话题事件融合两部分,具体内容如下: 1 在元事件融合中,考虑到自然语言表述的多样性,对事件描述中的事件元素进 行规格化处理,并针对事件元素中的时间信息、命名实体和数字信息的不同表述特点, 采用不同的规格化方法; 2 在共指元事件聚类过程中,由于事件描述中常出现事件元素的缺失,为了提高 共指元事件聚类的召回率,提出了关键元素集合的概念。并针对事件信息的特点,利 用事件中的语义和语用信息提出一种适用于事件信息的相似度算法; 3 在事件元素融合时,在元素的基本可信度上,针对各类事件元素的不同表述特 点,根据元素的精度和准度不同调整元素的可信度,提高精度高的元素值被选中的概 率。在元素选择时,在可信度计算的基础上,采用了投票策略,增加了最后结果的可 信度; 4 在话题事件融合中,为了能更好地表示话题型事件,本文定义了一种基于元事 件的话题事件表示模型( e v e n t - b a s e dt o p i cd e s c r i p t i o nm o d e l :e t d m ) 。该模型可有效 地将话题事件进行结构化和层次化表示,接近人类的认知模式,同时可根据不同需要 进行信息定制。最后给出了话题事件的融合方法。 实验表明,本文元事件融合可以有效合并事件信息,大大降低了信息系统的冗余 度,完善了单个事件信息,通过对多源信息的冗余性和互补性进行融合,达到增加目 标特征矢量的维数,降低信息的不确定性,改善信息的置信度等目的。对话题事件的 融合不仅能有效地将相关事件联系起来,并能将整个话题以层次化、结构的形式表示。 关键词:事件信息抽取;事件融合;事件表示模型;指代消解 作者:许荣华 指导老师:钱培德 r e s e a r c ha n di m p l e m e n t a t i o no fc h i n e s ec r o s s d o c u m e n tt o p i ce v e n tf u s i o n r e s e a r c ha n d i m p l e m e n t a t i o no fc h i n e s e c r o s s - d o c u m e n tt o p i ce v e n tf u s i o n a b s t r a c t e v e n ti n f o r m a t i o ne x t r a c t i o n ( e v e n ti e ) i sa l li m p o r t a n tp o i n ti nt h ea r e ao f i n f o r m a t i o ne x t r a c t i o n ( i e ) i nt h i sd i s s e r t a t i o n ,w ep r o v i d eam e t h o dt oa c h i e v ec r o s s d o c u m e n te v e n ti n f o r m a t i o nf u s i o n t m sm e t h o di sa tt h eb a s i so fe v e n ti ea n d c o m b i n a t i o no fi n f o r m a t i o nf u s i o nb a s i ct h e o r ya n do t h e ri n f o r m a t i o ne x t r a c t i o n t e c h n o l o g i e s ,s u c ha sn a m e de n t i t yr e c o g n i t i o na n dc o r e f e r e n c er e s o l u t i o n ,e t c t h i s d i s s e r t a t i o ni n c l u d e st w om a i np a r t s ,b a s i ce v e n ti n f o r m a t i o nf u s i o na n dt o p i ce v e n t i n f o r m a t i o nf u s i o n 1 b e f o r et h ee v e n tf u s i o np r o c e s s ,w em u s ts t a n d a r d i z et h ee v e n tr o l e s ,s u c ha st i m e m e n t i o n ,n a m e de n t i t ym e n t i o na n ds oo n ,b e c a u s et h en a t u r a ll a n g u a g e s r e p r e s e n t a t i o ni s d i v e r s i t y s ow es t a n d a r d i z ee a c ht y p e o fe n t i t yi ns a m ef o r m a tb a s e do ni t so w n 2 e v e n tm e n t i o n sa l w a y so m i ts o m ee v e n tr o l e s ,s ow ed e f i n e dt h ek e yr o l e ss e tt o i m p r o v et h er e c a l lo ft h ec o r e f e r e n c eb a s i ce v e n tc l u s t e r i n g a n dt h e nb a s e do nt h e c h a r a c t e r i s t i c so fe v e n t s ,t h i sd i s s e r t a t i o np r o p o s e sa na p p r o a c ht oc a l c u l a t et h es i m i l a r i t y o ft w od i f f e r e n te v e n t sb yu s i n gt h ep r a g m a t i c sa n ds e m a n t i c si n f o r m a t i o no ft h ee v e n t t a g g i n g 3 i nt h e p r o c e s s o ft h ee v e n tr o l ef u s i o n , t h i sd i s s e r t a t i o ni n t r o d u c e st h e t r u s t w o r t h i n e s st oi m p r o v et h ep e r f o r m a n c e i ta d j u s t e dt h et r u s t w o r t h i n e s sb yt h e p r e c i s i o no ft h ec a n d i d a t et oi m p r o v et h ep r o b a b i l i t yo ft h er o l e sw i t hh i g hp r e c i s i o n f u r t h e r m o r e ,i ta d o p t st h ef r e q u e n c yv o t i n gm e t h o dt os e l e c tt h ee v e n tr o l e sa n dt h e nt o i n c r e a s et h et r u s t w o r t h i n e s s 4 i nt h ep r o c e s so ft o p i ce v e n tf u s i o n ,w ed e f m ea ne v e n t - b a s e dt o p i cd e s c r i p t i o n m o d e lf e t d m ) ,w h i c hc a nh i e r a r c h i z ea n ds t r u c t u r et h et o p i ca n dt h a tb e h a v i o ri ss i m i l a r r e s e a r c ha n di m p l e m e n t a t i o no f c h i n e s ec r o s s - d o c u m e n tt o p i ce v e n tf u s i o na b s t r a c t 、析t ht h ec o g n i t i v em o d e lo fh u m a n i ta l s op r o v i d e saf u s i o na p p r o a c ht of u s et o p i ce v e n t s t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h ee v e n tf u s i o nm e t h o di su s e f u lt of u s et h ee v e n t m e n t i o n sa n do r g a n i z et h er e l a t i v ee v e n t s i tc a nr e d u c et h ei n f o r m a t i o nr e d u n d a n ts h a r p l y a n dt h e nc o n s u m m a t et h ee v e n ti n f o r m a t i o n t h et o p i cf u s i o nm e t h o di sa l s ou s e f u lt o c o n t a c tr e l a t i v ee v e n t s ,a n do r g a n i z et h et o p i c si nh i e r a r c h ya n ds t r u c t u r ef o r m k e yw o r d s :e v e n ti n f o r m a t i o ne x t r a c t i o n ;e v e n tf u s i o n ;e v e n td e s c r i p t i o nm o d e l ; c o r e f e r e n c er e s o l u t i o n m w r i t t e nb yx u r o n g h u a s u p e r v i s e db yq i a np e i d e 苏州大学学位论文独创性声明及使用授权的声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进 行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含 其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学 或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡 献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律 责任。 研究生签名:日 学位论文使用授权声明 期:生:! ! :兰z期:生l ! ! :兰z 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文 合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本 人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文 外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分 内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。 研究生签名: 导师签名: 面向话题的事件信息融合的研究与实现第一章绪论 第一章绪论 随着计算机的广泛应用以及互联网的迅猛发展,大量的信息以电子文本的形式出 现在人们面前。由于这些信息都是以自然文本提供给用户的,因此如何从这些海量的 无结构化文本中提取出对于用户真正有用的信息,日益成为人们关注的问题。信息抽 取( i n f o r m a t i o ne x t r a c t i o n :i e ) 【l 】正是在这个背景下产生的。 信息抽取作为自然语言处理的一个研究领域,指从大量的文本中提取出特定的感 兴趣的信息,并以结构化的形式表现出来。具体来说,就是从文本中识别出指定的实 图1 - 1 文本片断 从该文本片段中可以提取出的信息如下表1 - 1 所示。 表1 - 1 文本片段中抽取的信息 事件类型访问事件 访问人国家主席胡锦涛 访问目的地沙特阿拉伯、马里、塞内加尔、坦桑尼亚、毛里求斯 访问时间2 月1 0 日至1 7 日 目的国事 以上是事件信息抽取的结果,这样的信息抽取在文本分类、信息检索、知识问答、 文本摘要、文本挖掘等其它信息处理领域得到广泛的应用,并在其中发挥了关键的作 用。然而互联网上的信息高度冗余,信息抽取可以在大量的信息源中有效定位、提取 特定信息,但不能解决信息的冗余问题,而且这些信息间的缺乏相互联系,使得信息 抽取的应用受到了限制。因此如果能对信息抽取获得的信息做进一步的处理,过滤掉 冗余信息,根据信息间的关系进行组织,将使得信息抽取更有理论和应用价值。 第一章绪论面向话题的事件信息融合的研究与实现 1 1 课题提出 认知科学家们认为事件是人们认识和理解世界的基础,因此事件信息抽取的研究 也成为了信息抽取方面的新热点。目前的事件信息抽取都是在一个语句或者句群中抽 取预先定义的事件。然而在现实中,一个热点事件一旦发生,就会有多个不同的信息 源,从不同的视角同时报道该事件,而且还会持续跟踪报道。比如国家领导人出访, 新闻报道不仅报道了哪个领导人何时去何地访问,而且会跟踪报道具体行程、会晤哪 个别国领导人、发表什么演讲或讲话、取得了什么样的成果等。因此单纯的事件信息 抽取不能满足这种需要,若能将这些相关信息收集在一起,并用结构化形式储存,那 将更有益的。 对于这些热点事件,虽然有些是瞬时性的,有些则是持续性的,但无论哪种类型 的事件,其造成的影响都具有持续性。因此,这些事件本身和其报道的信息源具有以 下性质: 1 从事件的角度来看,除了事件本身外,还有一些其它的相关事件会从各个方 面补充该事件。事件本身也可能随着时间的推移,发生着变化; 2 从报道事件的信息源来看,一个事件会有多个信息源同时报道,各个信息源 报道的侧重点不尽相同,对同一个信息的报道也会有不同; 3 从单个事件描述来看,由于事件描述往往是在一个上下文环境中,所以事件 描述中很多信息都蕴含在上下文中,而以一些代词来指示,或者直接缺省。 由此,对于这种信息来源丰富,叙述角度多,内容连续且复杂的事件,用目前的 信息抽取技术是无法完整提取的。事实上,这些热点事件是多个相关事件的有机组合。 此外,对于读者来说,每个读者所关心的内容也不同。因此需要利用事件间的相互关 系,对事件进行有机的整合,形成一个事件组合,并对这些事件描述的信息类型分成 不同的侧面来组织,这样不仅能更好地描述整个事件,而且还能根据用户的需求进行 定制。 为此,本文将研究在文本的信息处理技术的基础上,对众多报道中提取的相关信 息进行融合,形成结构化信息,使得对一些问题的表达更清晰。如何有效合并冗余的 事件信息,融合互补信息,并将相关事件信息组织起来,以层次化的方式表示,驱动 2 面向话题的事件信息融合的研究与实现第一章绪论 我们选定了以跨文本话题事件信息融合作为本文的研究内容。 通过对多文本的相关事件信息融合,将与同一话题相关的事件结合在一起,合并 冗余的事件信息,以结构化、层次化的方式表示。这不仅提高了信息的组织性,降低 了信息的冗余度;还能增加信息的维度,提高信息的置信度;事件信息的有效组织也 更有利于信息服务。因此这将是项非常有意义的工作。 1 2 一些基本术语 为了表达方便,在此给出文中用到的相关概念。 信息抽取( i n f o r m a t i o ne x t r a c t i o n :i e ) :从大量的文本中抽取出相关的信息,并以结 构化的形式表示。 实体( e n t i t y ) 指客观世界中的一个对象或对象集合,这些对象是信息抽取中感兴 趣的处理内容。实体在文本中可以通过他们的名字,一个普通名词,一个名词短语或 代词来指称。 命名实体( n a m e de n t i t y ) :具有固定名称,在文中使用专有名称表达的对象,比如 人名,地名,组织机构名等。 事实事件( e v e n t ) :通常有两种含义,一是元事件,是在某个特定的时间片段和地 域范围内发生的,由一个或多个角色参与的,事实发生的或者状态的变化。另一是话 题事件,是指由一个核心元事件或活动以及所有与之直接相关的元事件和活动的有机 组合。本文在不作特殊说明时,在表达上不区分事件和元事件。 事件描述( e v e n tm e n t i o n ) :是指用自然语言对一个客观发生的具体元事件所进行 的描述,通常是一个句子或者是句群。同一个事实事件可以有多种不同的事件描述。 事件元素( e v e n te l e m e n t ) :是事件中的各个角色的统称,也可称为事件槽( s l o t ) 或 者事件角色( e v e n tr o l e ) 。比如施事者、受事者、时间等。 共指( c o r e f e r e n c e ) :是指向同一对象所有表达形式。比如,实体、事件。共指元 事件就是指若干个事件描述指向同一个事实事件,则这些事件描述就是共指元事件。 实体关系( r e l a t i o n s h i po fe n t i t y ) :是指在文中识别出所定义的两个实体之间的关 系。 第一章绪论面向话题的事件信息融合的研究与实现 1 3 本文研究目标 目前的互联网上新闻报道呈现以下几种形式: 1 一个文本描述一个事件,文档与事件间是一一对应的关系; 2 一个文本描述多个事件,各个事件的参与者散布在整个文本中,事件间的描述 相互有交叉; 3 多个文本描述同一个事件,可以是连续的多角度、多侧面的描述,也可以是同 一时间产生的相同或相似的描述。这种情况下事件和文本之间的关系可以有如下两 种: 1 ) 一个事件通过若干个文本才完成描述。比如访问事件等一些持续性事件; 2 ) 多个文本描述的是同一个事件的共同的信息。比如同时出现的关于某个事件的 新闻报道。 本文的研究对象就是第三类事件报道,本文称为话题事件。这类事件由于报道的 多源性使得事件信息的表现形式具有冗余性,互补性和不一致性。具体表现为: 1 冗余性:同一个元事件有多个文本描述,这些事件描述中部分事件元素会被不 断重复,呈现冗余性; 2 互补性:多文本描述同一事件,由于角度不同,使得描述的侧重点不同,这些 不同的侧重点间呈现互补性; 3 不一致性:同一个事件在不同文本中的描述不完全一样。这种不一致性有三种 情况造成:一是描述用语不同;二是事件本身的进展;三是信息来源本身的准确性不 同。 这些特点形成了同一个话题事件的丰富信息的特点,这些信息有的是可以预期 的,有的是不可预期的。在这部分的研究目标定位在收集关于同一个话题事件的描述 信息,并将这些信息融合成一个完整的事件信息。 事件的多角度、多侧面性使得整个话题事件具有层次性和时序性的特点。当一个 事件发生后,会引发其它事件的发生,这些事件间具有层次性。另外由于事件发生的 前后关系或因果关系,使得事件间又有时序性。在这部分的研究目标定位在相关事件 的发现以及组织上。 4 面向话题的事件信息融合的研究与实现第一章绪论 综上所述,我们将目标确定为:针对多文本,多侧面的话题事件信息,研究将这 些事件信息在数据和特征层面上的融合技术,包括元事件融合和话题事件融合两个方 面。将话题事件中的重要信息,以低冗余、结构化、层次化的形式表示,以供信息服 务。 1 4 本文主要研究内容 在中文信息处理中,基于词一级的基础处理已经趋于比较成熟的技术状态,各种 信息抽取技术也有了较好的发展。本文将在命名实体识别、指代消解和元事件信息抽 取的基础上,通过对文本内容的分析,获取相关信息,并以此基础,结合信息融合理 论,利用信息的冗余性和互补性融合相关信息,降低信息的不确定性,改善信息的置 信度。根据话题事件的特点,研究内容分为元事件融合和话题事件融合两大部分,具 体包括以下内容: 1 同一元事件多文本描述的特点分析 同一元事件多文本描述即元事件的共指现象,根据这种共指元事件的特点,在这 部分的研究内容包括: 1 ) 事件元素的规格化。由于多源的特点,关于事件的某些信息的描述会被重复多 次,这些描述在用词用语上不尽相同。比如,同一个命名实体在不同的句子有不同的 表示方法,而且有时会结合上下文,以代词等形式出现。因此分析各事件元素类型的 特点,根据其特点采用相应的规格化方法,将事件中的各种信息统一以预先定义的形 式表示; 2 ) 共指元事件聚类。中文语句的语序灵活,语法规则捉摸不定,从句子的角度很 难满足事件聚类的需要,本文利用事件标注的语义和语用信息,提取适用于事件信息 聚类的特征,实现共指元事件的聚类; 3 ) 事件元素的可信度计算和融合。由于信息来源的准确性或者事件本身的变化使 得某些信息出现不一致的现象,对于这种现象,根据相应事件元素的特征,计算各元 素值的可信度,并采用不同的融合策略对信息进行取舍。 2 话题事件的多侧面性分析 一个话题事件除了描述概要信息的主体事件信息外,还包含很多相关的侧面事 第章绪论面向话题的事件信息融合的研究与实现 件,从其它方面补充主体事件的信息。这部分的研究内容主要包括以下两个方面: 1 ) 话题事件的表示方式。本文根据话题事件中主体事件和侧面事件间的关系定义 了话题事件表示框架,将话题事件中的各个元事件以层次化的形式组织; 2 ) 话题事件的整合。由于话题事件涵盖的内容丰富,各元事件间的关系复杂,本 文分析这些侧面事件的表述习惯,找到了一种侧面事件与话题的相关度计算的方法, 将于同一话题相关的事件整合在一起。 其中相关度计算的具体内容包括: ( 1 ) 主体事件信息的特征提取; ( 2 ) 侧面事件信息的特征提取; ( 3 ) 侧面事件与话题的相关度评价方法。 1 5 本文组织结构 本文组织结构如下: 第一章绪论,介绍了本文的研究目的和研究内容。 第二章相关研究,介绍信息抽取研究领域的有关概念,研究内容;简要介绍信息 融合的概念和常用算法;以及研究内容有类似之处的话题探测与跟踪、自动问答和自 动摘要的研究现状。 第三章事件融合系统结构,介绍了整个事件融合的系统结构;并详细介绍了实验 所采用语料的准备工作;以及实验中所采用的评价指标和方法。 第四章基于指代消解的元事件融合,详细介绍了一种基于指代消解的共指元事件 融合方法,其中包括事件元素规格化、共指事件聚类、事件元素的可信度计算和事件 元素的融合。 第五章基于事件框架的话题事件融合,定义一种适用于话题事件的事件表示模型 ( e v e n t b a s e dt o p i cd e t e c t i o nm o d e l :e t d m ) ,并介绍- ;俱j j 面事件与话题事件的相关度 评价算法。 第六章总结与展望,概括本文的结论,提出今后工作的展望。 6 面向话题的事件信息融合的研究与实现第二章事件信息融合的相关研究 第二章事件信息融合的相关研究 事件信息融合是项跨领域的研究,涉及信息抽取和信息融合两大领域。在信息抽 取方面包括了命名实体识别,指代消解和事件信息抽取等。同时,这项研究在某些方 面与话题的探测与跟踪,多文档自动文摘等信息处理技术也有相似之处。下文将简要 介绍信息抽取和信息融合的研究内容和现状,并介绍了多文档自动文摘等技术和本研 究的异同点。 2 1 信息抽取概述 目前信息抽取主要由m u c t 3 ( m e s s a g eu n d e r s t a n d i n gc o n f e r e n e e ) 和a c e t 4 ( a u t o m a t i cc o n t e n te x t r a c t i o n ) 两大会议推动。从2 0 世纪8 0 年代末开始,信息抽取研 究蓬勃发展起来。从1 9 8 7 年到1 9 9 8 年连续7 届m u c 会议,使得信息抽取发展成为 自然语言处理领域一个重要分支,m u c 定义的概念、模型和技术规范在国际上对整 个信息抽取领域起着主导的作用。围绕m u c 的展开,信息抽取的技术、内涵在不断 向前发展。 从1 9 9 9 年开始,在美国政府支持下开展的a c e 评测会议,将信息抽取的研究进 一步推向深入,在数据资源建设、技术规范、任务定义描述等方面都有深入的研究。 到目前为止,a c e 共举行了4 次,所处理的语言也由单一的英语,发展成为包括中 文、阿拉伯语等在内的多语种评测。 信息抽取任务需要多种类型知识的支持。包括关于词法、句法、语义、语用等语 言学知识,关于客体、概念、关系、行为等的百科知识。这些知识可以显式地以字典、 树库、常识性知识库等形式存在,也可以而且更多的是以文本或语料库的形式隐式地 存在,应用这些知识,从而将相关的信息抽取出来。对知识不同层次的发现和使用, 将会影响到信息的程度和准确度。 信息抽取的任务是多角度的。不同的任务对所要提取的信息会有不同的要求,从 提取的内容、表达的形式、结果的精度、应用的目的等都会不同,因而进行信息抽取 首先要界定提取的任务。从信息抽取出现至今,人们对信息抽取的研究也是多角度多 侧面的,其根本的宗旨是面向应用的,根据应用的目标,在效率与处理技术之间寻找 7 第二章事件信息融合相关研究面向话题的事件信息融合的研究与实现 平衡。 目前信息抽取的主要研究方向是命名实体识别、指代消解、实体语义关系抽取、 事件探测等几个领域,每个领域都有一些学者在努力探讨其实现的最佳手段。 信息抽取的主要功能是从无结构的文本中抽取特定的事实信息( f a c t u a l i n f o r m a t i o n ) 。例如,从新闻报道中抽取出有关恐怖事件发生的详细情况:时间、地点、 作案者、受害者、袭击目标、使用的武器等;从经济新闻中抽取出公司发布新产品的 情况:公司名、产品名、发布时间、产品性能等;从病人的医疗记录中抽取出症状、 诊断记录、检验结果、处方等等。通常,被抽取出来的信息以结构化的形式描述,可 以直接存入数据库中,供用户查询以及进一步分析利用。 从信息组成的角度来看,这些信息抽取任务包括了的不同层次的元素,如图2 1 所示。 图2 - 1 信息抽取的不同层次的元素 自上而下,表达信息的元素越来越复杂,而下一层信息的组成包括了上层的信息。 因此,信息抽取的过程是各层次元素抽取的有机的化学变化过程。这里面包含了知识 资源的支撑、文本本身信息的最大化挖掘、对特定内容抽取的算法和技术等内容。 2 1 1 命名实体识别 随着信息抽取的研究,与其他任务相比,命名实体的识别已经独立于话题领域, 是语言处理的基础任务,也是m 研究中最为成熟的一个任务,各种方法、语言模型 都已应用于该任务中。 8 面向话题的事件信息融合的研究与实现 第二章事件信息融合的相关研究 命名实体识别任务要完成两个任务:一是找到文本中表达命名实体的词语:二是 准确给出该命名实体的分类,其技术大多依赖于命名实体的类别。不同的类别所采用 的识别技术也不一样。研究较多的几种类别是人名、地名、组织机构名、时间、数字。 在汉语中表达命名实体的语言单位可以是一个词,也可以是一个短语,其长度范围可 以是一个汉字也可以是几十个汉字,同时由于相同词语可以表达不同类别的命名实 体,造成任何一类命名实体界定都存在着一定的歧义性,这也是导致汉语命名实体的 识别更加困难的主要原因。 命名实体识别依赖的基础资源是一个专名库,一般语言信息处理任务的积累而形 成,目前专名库的大小从几万条到儿十万条不等。命名实体识别的识别方法有基于规 则的、基于统计的、以及统计和规则相结合的方法。 2 1 2 实体关系抽取 实体关系抽取的基本任务是寻找并判定实体对之间存在的特定关系。不同的话题 表现出来的实体间的关系是不相同的。比如公司与其负责人关系、地理位置关系、雇 佣关系等。进行信息抽取时,通常是事先指定欲抽取的关系( a c er d c2 0 0 4 规定了7 大类和2 3 子类的实体间关系) 。 实体关系抽取的方法很多,具有代表性的方法包括: 基于知识库的抽取算法【5 】【6 】:这种方法需要专家构筑大规模的知识库,这不但需 要有专业技能的专家,也需要付出大量劳动,这种方法的代价很大。这种方法领域内 效果较好,但移植性差。 基于特征向量的机器学习算法:其基本思想是对关系样例进行特征提取并表示为 特征向量,然后通过机器学习的方法来学习训练关系实例。训练结束后就可以对测试 文档中的关系实例进行判别,从中找出属于预定义类别的关系实例,实现关系的自动 抽取。典型的基于特征向量的方法包括最大熵模型( m a x i m u me n t r o p y :m e ) t 7 和支持向 量机( s u p p o r tv e c t o rm a c h i n e :s v m ) t 8 】- 【1 0 1 。 基于核函数的机器学习算法:与基于特征向量的方法不同,基于核函数的方法不 需要构造固有的特征向量空间。在关系抽取中,基于核函数的方法直接以结构树为处 理对象,来计算他们之间的相似度。z e l e n k o 等【1 l 】在文本的浅层解析树的基础上定义 9 第二章事件信息融合相关研究面向话题的事件信息融合的研究与实现 了核函数。c u l o t t a 等进一步对此进行了扩充,提出了基于依存树的核函数,z h a n g 等【1 3 j 通过聚类算法,探讨了基于树核函数的非指导性关系抽取。 2 1 3 指代消解 指代的解决是信息抽取中较为困难的一个任务,由于受到资源的限制,现在的指 代解决多集中在人称代词的消解上。用于解决指代的方法包括: 规则法:人工总结出指代消解规则,按照这些规则来实现指代消解。l a p p i n 等【1 4 1 提出一种r a p 算法,利用过滤规则确定先行语,实现了句内和句间第三人称代词和反 身代词的消解。还有利用中心理论的方法,首先根据前看( f o r w a r d 1 0 0 k i n g ) 或后看 ( b a c k w a r d 1 0 0 k i n g ) 中心的不同对先行语候选进行分类,然后使用各种中心获取算法选 出先行语。作为代表目前国际先进水平的基于规则系统,z h o u 等【1 5 】提出了一个基于 限制规则的多代理策略,取得了相当的成功。 统计模型:利用统计特征,包括距离、是否人称代词、字符串匹配否、是否有限 名词、是否指示代词、单复数是否对应、语义类是否一致、是否别名、是否同位语等 构造统计模型。d a g a n 等优先考虑那些同现频率较高的先行语候选作为代词的先行 语,进行了代词“i t ”的消解研究。g e 等【1 6 】提出了一种基于贝叶斯概率统计模型的方 法,消解文本中的单数第三人称代词。 聚类法:其基本思想是收集篇章中的基本名词短语,根据短语的特征对名词短语 聚类,判断两个名词是否属于同一个类。比如c a r d i e 等【1 7 1 就是通过该方法实现名词 短语的同指消解。 分类法:把判断先行语的问题转换成分类问题,通过分类器判断指代语与每个先 行语候选之间是否存在指代关系。s o o n 等【1 8 】首次给出了详尽的实现步骤,并采用机 器学习方法来消解非限制领域的名词短语。近年来许多研究者在s o o n 的基础上作了 不同程度的扩充。n g 等【1 9 】对s o o n 等的研究进行了扩充,抽取了5 3 个不同的词法、 语法和语义特征。y a n g 等口0 1 使用上下文信息和网络挖掘技术自动判别代词的语义类 别,从而更好地解决了代词( 特别是中性代词) 的指代消解。 此外还有决策树的指代消解法【2 1 1 ,该方法对训练集采用c s 算法学习出决策树, 对新的指代进行判断。 1 0 面向话题的事件信息融合的研究与实现第二章事件信息融合的相关研究 所有这些方法对指代处理的效果差别不大,识别正确率在5 0 - 7 0 的范围之内。 2 1 4 事件信息抽取 事件信息抽取是目前信息抽取中一个新的研究热点。主要目的是从一个语句或句 群中提取预先设定的目标事件的各个语义角色的过程。所谓旬群是指一组由逗号或句 号等标点符号隔开的单句的有序集合。事件信息抽取在自动文摘、自动问答等研究领 域有着广泛的应用。 事件抽取一般可分为两步:一是确定事件的类别;二是确定事件中各个语义角色。 与实体和实体关系的抽取类似,事件抽取中的事件类型是预先定义的,比如a c e 将 事件定义为8 大类,3 3 子类。并且明确定义了各类事件中需要抽取的事件元素。如 表2 1 所示。 表2 1a c e2 0 0 5 定义的部分子类的事件元素 t y p e s u b t y p et e m p l a t e l i f - e b e b o r n p e r s o n - a r g ,t m a e - a r g ,p l a c e - a r g l i f e m a r r y p e r s o n - a r g ,t t m e - a r g ,p l a c e - a r g c o n t a c t m e e t i n ge n t i t y - a r g , t i m e - a r g ,d u r a t i o n - a r g ,p l a c e - a r g 在a c e 和m u c 两个评测会议的推动下,目前有很多组织和个人在从事事件信息 抽取的相关工作。一般说来,目前事件抽取主要有以下几种方法: 基于规则的方法:是根据特定领域内事件表述的规则,通过领域专家构筑大规模 的知识库,利用这些规则去提取事件信息,如r a l p hg r i s h m a n 等【2 2 】,这种方法不但 需要有专业技能的专家,也需要付出大量劳动。 基于模板的方法:和规则的方法类似,也具有很强的领域性。模板的方法是通过 定义抽取模板,再利用定义的模板来抽取事件信息。这种方法中的模板获取尤为重要, 因此很多这类方法研究都集中在模板的获取上。根据模板定义方法的不同,可分为知 识工程方法和机器学习方法。基于知识工程方法的抽取系统准确率较高,但是依赖与 具体领域,移植性差。机器学习方法则利用机器学习技术,通过训练文本来获得抽取 第二章事件信息融合相关研究面向话题的事件信息融合的研究与实现 模式,实现特定领域的模式获得,这种方法较为客观,不需要太多的领域知识和人工 干预。知识工程的方法通常根据与某类事件的句法配置来制定事件的抽取规则,需要 对该类事件的特征做细致和深入的研究;用机器学习的方法的获得事件抽取规则的研 究开展的还不多。 模板的方法是目前的比较常见方法之一。如:姜吉发【冽的g e n p a m 系统,该系统 通过定义三种模式:事件模式、事件触发模式和事件抽取模式。由这三个模式定义事 件框架,用来通过关键词定位事件的候选描述语句,抽取事件信息。h o n g w o o c h u n 2 4 1 2 5 】等在医药文献的事件抽取中,采用b o o t s t r a p p i n g 的方法获取事件抽取模板。 首先定义一些简单的模板,通过这些模板抽取出的事件信息,再泛化模板,利用泛化 后的模板再抽取事件,直到满足终止条件为止。杨尔引2 6 】在事件文档中对句子进行聚 类,在类向量中抽取事件特征词,结合各类的特征生成完整的事件框架体系。此外还 有e x d i s c o t 2 7 】等系统。 基于统计的方法:是通过自然语言处理和统计学的方法从大规模语料中统计出事 件的概率模型,在利用该模型进行事件抽取。f i l a t o v a 【2 8 1 等将文本看作事件的集合, 打破传统意义上将文本看作概念的集合的常规。从文本中提取元事件。于江德等口明 采用基于隐马尔科夫模型的事件信息抽取,该方法首先通过触发词探测从文本中发现 特定的候选事件语句,然后利用隐马尔科夫模型从这些语句中抽取每个候选事件的事 件要素,为每一类事件要素构建一个独立的隐马尔科夫模型用于该类事件要素的抽 取。 分类的方法:是将事件类识别和事件元素抽取都作为分类问题来处理,将事件类 识别作二元分类,事件元素抽取作为多元分类。这类研究主要把精力放在分类器的构 建和特征的发现、选择上。这种方法较为客观,不需要太多的人工干预和领域知识, 也是目前研究较多的方法之一。h a il e o n gc h i e u 和h w e et o un g 【3 0 】首次在事件抽取中 引入最大熵分类器,用于事件元素的识别;d a v i d a h n d l 结合m e g a m 和t i m b l 两种机 器学习方法分别实现了事件类别识别和事件元素的识别,并在a c e 的英文语料上取 得不错的效果。赵妍妍【3 2 】等又采用支持向量机和最大熵两种机器学习方法将a h n 的 事件抽取方法引入到中文事件抽取中。 1 2 面向话题的事件信息融合的研究与实现第二章事件信息融合的相关研究 2 2 信息融合概述 信息融合是现代信息技术与多学科交叉、综合、延拓产生的新的系统科学研究方 向,由于其在军事和民用领域已经展现出的有效与广阔的理论和应用前景,而备受国 内外学者和众多实际工程领域专家的高度关注。 2 2 1 信息融合的概念及定义 信息融合技术作为信息科学的一个新兴领域,起源于军事应用。2 0 世纪7 0 年代, 美国海军采用多个独立声纳探测跟踪某海域敌方潜艇时,首次提出数据融合概念。美 国国防部实验室联合领导机构j d l ( j o i n td i r e c t o r so fl a b o r a t o r i e s ) 从军事应用角度,将 信息融合定义为这样一个过程【3 3 】:把来自多传感器和信息源的数据以关联、相关、组 合,以获取精确的目标位置和完整的目标身份估计,以及对战场情况、威胁及其重要 程度进行适度的估计。近来,文献 3 4 】提出了一种对信息融合比较概括的描述:融合 是一种形式框架,其过程是用数学方法和技术工具综合多源信息,目的是得到高品质 的有用信息。 信息融合的功能可以概括为:扩大时空搜索范围,提高目标可探测性,改进探测 性能;提高时间或空间的分辨率,增加目标特征矢量的维数,降低信息的不确定性, 改善信息的置信度;增强系统的容错能力和自适应能力;随之而来的是降低推理的模 糊程度,提高了决策能力,从而使整个系统的性能大大提高。从根本上说来,上述结 果来源于信息的冗余性及互补性。因此,多源信息融合往往可以获得单源难以获得的 结果,其性能往往会有质的飞跃。 2 2 2 信息融合的基本步骤 信息融合是以多个信息源得到的信息为依据建立具有一定智能的决策系统。信息 融合各个信息源获取的信息进行分析处理,通常分为以下五步: 1 信息采集。根据应用需要,在多源中收集、提取和问题域相关的信息项,并 进行格式转换。 2 信息辨别。对提取出的信息进行识别,去伪存真,并确定可信度。 1 3 第二章事件信息融合相关研究面向话题的事件信息融合的研究与实现 3 相关处理。对多个信息源数据的相关性进行定量分析,按照一定的判别原则 将数据分为不同的集合,每个集合中的数据都和同一信息关联。 4 融合处理。决定从信息源获取的信息的取舍;参照其他信息源对每个信息项 进行验证修改;对不同信息源的信息进行印证分析、补充综合、协调修改及 估计;通过分析判断,生成综合信息。 5 建立工作信息库。生成工作信息库,供各领域专家进行模型分析和使用;建 立工作信息库和信息源链接关系。 2 2 3 信息融合常用算法 信息融合中数学工具的功能是最基本和多重的,它将所有的输入数据在一个公共 空间内得以有效描述,同时它对这些数据进行适当综合,最后以适当的形式输出和表 现这些数据。在信息融合的算法中,主要考虑针对实际应用系统如何选择合适而有效 的算法,期望使融合效果达到最优。不同的算法适用于不同的融合系统中,应该根据 实际问题,对算法的实时性、精确性和鲁棒性作合理的折衷选择,是算法选择的重要 准则。在信息融合领域使用的主要数学方法有概率论、推理网络、模糊理论和神经网 络等。其中使用较多的是概率论、模糊理论、推理网络。当然,除了这几种常用的方 法之外,还有其它很多解决途径。 1 概率论 在融合技术中最早应用的就是概率论【3 5 】。在一个公共空间根据概率或似然函数对 输入数据建模,在一定的先验概率情况下,根据贝叶斯规则合并这些概率以获得每个 输出假设的概率,这样可以处理不确定性问题。贝叶斯方法的主要难点在于对概率分 布的描述。另外,在进行计算的时候,常常简单地假定信息源是独立的,这个假设在 大多数情况下非常受限制。另外,概率论和模糊集理论的综合应用给解决多源数据的 融合问题提供了工具。 2 推理网络 推理网络的构建和应用有着很长的历史。近来,许多对于分析复杂推理网络的理 论往往基于贝叶斯规则的推论,并且都被归类于贝叶斯网络。目前,大多数贝叶斯网 络的研究都包括了对于概率有效传播的算法拓展,同时它在整个网络中也充当了新证 1 4 面向话题的事件信息融合的研究与实现第二章事件信息融合的相关研究 据的角色。同时贝叶斯网络在许多任务里都已作为对于不确定推理的标准化有效方 法。贝叶斯网络的优点是简洁、易于处理相关事件。缺点是不能区分不知道和不确定 事件,并且要求处理的对象具有相关性。 此外

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论