(计算机应用技术专业论文)中文事件模式自动生成方法的研究和实现.pdf_第1页
(计算机应用技术专业论文)中文事件模式自动生成方法的研究和实现.pdf_第2页
(计算机应用技术专业论文)中文事件模式自动生成方法的研究和实现.pdf_第3页
(计算机应用技术专业论文)中文事件模式自动生成方法的研究和实现.pdf_第4页
(计算机应用技术专业论文)中文事件模式自动生成方法的研究和实现.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(计算机应用技术专业论文)中文事件模式自动生成方法的研究和实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

苏州大学学位论文使用授权声明 本人完全了解苏州大学关于收集、保存和使用学位论文的规定, 即:学位论文著作权归属苏州大学。本学位论文电子文档的内容和纸 质论文的内容相一致。苏州大学有权向国家图书馆、中国社科院文献 信息情报中心、中国科学技术信息研究所( 含万方数据电子出版社) 、 中国学术期刊( 光盘版) 电子杂志社送交本学位论文的复印件和电子 文档,允许论文被查阅和借阅,可以采用影印、缩印或其他复制手段 保存和汇编学位论文,可以将学位论文的全部或部分内容编入有关数 据库进行检索。 涉密论文口 本学位论文属在l 月解密后适用本规定。 非涉密论文口 论文作者签名: 导师签名: 期纠山= 乳 期: 趁2 1 2 :左:哆 中文事件模式自动生成方法的研究和实现 中文摘要 中文事件模式自动生成方法的研究和实现 中文摘要 随着互联网的快速发展,网络上的信息呈爆炸式增长,如何快速而准确地获取用 户感兴趣的信息,这一需求推动了信息抽取的发展。信息抽取最常用的方法是模式匹 配法,为了减少自动抽取模式过程中的人工干预,本文设计并实现了一个基于句子聚 类的中文信息抽取模式自动生成系统,主要包括三个模块:网页关键词抽取、句子聚 类和模式自动生成。 在网页关键词抽取阶段,本文探索了如何获取网页关键词,在考虑中文文本结构 特征和中文词性特征的基础上,提出了一种改进的t f i d f 方法。实验结果表明该方 法明显优于传统方法,能够抽取到令人满意的结果。 在句子聚类阶段,本文对c u r e 算法进行了改进,用于句子聚类。通过对传统 c u r e 算法的分析,根据事件的特征,对代表点选取和小类合并机制进行了改进。解 决了c u r e 在代表点选取时容易把边缘孤立点作为代表点的问题,并且在小类合并 时考虑了簇的整体特征,使簇的合并更加合理。 本文最后阶段,从每一类中自动提取抽取模式,包括模式定义、特例模式生成和 模式泛化三个步骤。首先通过对聚类后的句子集合进行统计,预测事件所描述的对象 和主要内容,据此来确定待抽取项,并对句子集合中具有代表性的句子进行句法分析, 定义抽取模式;然后根据抽取模式从句子集合中迭代地选取特例模式;最后从语法和 语义两个方面对特例模式进行泛化。 实验结果表明,本系统减少了自动抽取模式过程中的人工干预,效果和性能基本 达到了设计目标。 关键词:关键词抽取,c u r e 聚类,事件聚类,模式自动生成,特例模式 作者:李静月 指导老师:朱巧明,李培峰 a b s t r a c t r e s e a r c ha n di m p l e m e n t a t i o no na u t o m a t i c a l l ye x t r a c tc h i n e s ee v e n ti ep a t t e r n r e s e a r c ha n di m p l e m e n t a t i o no n a u t o m a t i c a l l yg e n e r a t e c h i n e s ee v e n ti ep a t t e r n a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e r n e t ,t h ea m o u n to fi n f o r m a t i o ni n c r e a s e s i na n e x p l o s i v ew a y h o wt oq u i c k l ye x t r a c tw h a tu s e r sa r er e a l l yi n t e r e s t e di nf r o mav a s to f i n f o r m a t i o np r o m o t e st h ed e v e l o p m e n to fi n f o r m a t i o ne x t r a c t i o n p a t t e r n m a t c h i n gm e t h o d i sc o m m o n l yu s e di ni n f o r m a t i o ne x t r a c t i o n ,i no r d e rt or e d u c et h ei n t e r v e n t i o no fu s e r si n t h ep r o c e s so fa u t o m a t i c a l l yo b t a i n i n gt h ee x t r a c t i o np a t t e r n s t h ep a p e rd e s i g n sa n d i m p l e m e n t sa na u t o m a t i c a l l yg e n e r a t ec h i n e s ee v e n ti n f o r m a t i o ne x t r a c t i n gp a t t e r ns y s t e m b a s e do ns e n t e n c e c l u s t e r i n g ,i tc o n t a i n st h r e em o d u l e s :h t m lk e y w o r d se x t r a c t i o n , c l u s t e r i n ga n dp a t t e r na u t o m a t i c a l l yg e n e r a t i o n i nt h es t a g eo fk e yw o r de x t r a c t i n g ,i tf o c u so nh o wt og e tt h ek e yw o r d so fw e b p a g e sa n dp r o p o s ea l li m p r o v e dt f i d fm e t h o db a s e do nt h es t r u c t u r eo fc h i n e s et e x t sa n d t h ep a r t - o f - s p e e c ho fc h i n e s ew o r d s t h ee x p e r i m e n t a lr e s u l t ss h o wt h a to u rm e t h o dc a n s i g n i f i c a n t l yi m p r o v et h ep e r f o r m a n c et h a nt h a to ft h ec l a s s i c a lm e t h o d i nt h es t a g eo fs e n t e n c ec l u s t e r i n g ,a ni m p r o v e dc u r e a l g o r i t h mi sp r o p o s e di nt h i s p a p e r b ya n a l y z i n gt h ef e a t u r eo ft r a d i t i o n a lc u r ea l g o r i t h m ,a n dr e f e r e n c i n gt h ef e a t u r e s o ft h ee v e n t s i ti m p r o v e st h es e l e c t i n go fr e p r e s e n t a t i v ep o i n t sa n dc a t e g o r i e sc o m b i n e d m e c h a n i s m i ts o l v e st h ep r o b l e mt h a ti s o l a t e dp o i n t sa r eu s u a l l yr e g a r d e da sr e p r e s e n t a t i v e p o i n t s i na d d i t i o n ,i tc o n s i d e r st h eg e n e r a lf e a t u r e s i nt h ep r o c e s so fc a t e g o r i e s c o m b i n a t i o n ,a n dm a k ec l u s t e rc o m b i n a t i o nm o r er e a s o n a b l e i nt h ee n d ,w ee x t r a c ti n f o r m a t i o ne x t r a c t i n g p a t t e r nf r o mt h es e n t e n c ec l u s t e r i n c l u d i n gt h r e ep r o c e s s e s :p a t t e r nd e f m i t i o n 、s p e c i a lp a t t e r ng e n e r a t i n ga n dp a t t e r n g e n e r a l i z a t i o n f i r s t l y , i ts t a t i s t i c st h ec l u s t e r e ds e n t e n c e s ,w ec a l lf o r e c a s tt h eo b j e c t sa n d m a i nc o n t e n t sd e s c r i b e di nt h ee v e n ta n dd e f i n et h ee x t r a c t i n gp a t t e r n t h e ns p e c i a l i i d e s i g na n di m p l e m e n t a t i o no fw e b t e x tf i l t e r i n gs y s t e ma b s t r a c t p a t t e r n sa r ei t e r a t i v e l ys e l e c t e df r o mt h ec l u s t e r ;f i n a l l y , w eg e n e r a l i z ep a t t e mf r o mt h e g r a m m a ra n ds e m a n t i c s t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h em e t h o dp r o p o s e di nt h i sp a p e rc a nr e d u c et h e r e q u i r e m e n t s o fu s e r s ,a n dt h ee f f e c t sa n dp e r f o r m a n c ec a l la c h i e v et h ed e s i g n e d o b j e c t i v e s k e yw o r d s :k e y w o r de x t r a c t i n g ,c u r ec l u s t e r i n g ,e v e n tc l u s t e r i n g ,a u t o m a t i c a l l y g e n e r a t ep a a e m ,s p e c i a lp a r e m w r i t t e nb yl ij i n g y u e s u p e r v i s e db yz h uq i a o m i n g ,l ip e i f e n g i i i 目录 第一章引言。l 1 1 课题背景与意义1 1 2 国内外研究现状2 1 3 主要研究内容4 1 4 论文组织结构。5 第二章模式自动生成相关工作6 2 1 模式自动生成概述6 2 1 1 人工创建信息抽取模式的方法6 2 1 2 基于人工语料标注的信息抽取模式学习系统7 2 1 3 基于人工语料分类的信息抽取模式学习系统7 2 1 4 基于种子模式的信息抽取模式学习系统9 2 1 5 基于w o r d n e t 和语料标注的信息抽取模式学习系统9 2 1 6 本文的模式自动生成方法1 0 2 2 性能评测1 l 2 3 实验语料与预处理平台介绍12 2 4 本章小结1 2 第三章基于t f i d f 的网页关键词抽取。1 3 3 1 相关工作1 3 3 2 采用t f i d f 方式的原因1 4 3 3 基于t f i d f 的关键词抽取1 4 3 3 1 中文词语特征1 5 3 3 2 中文文章结构特征1 5 3 3 3 改进的t f i d f 统计方法1 6 3 4 系统整体设计1 7 3 5 实验结果与分析1 7 3 5 1 评价方法18 3 5 2 实验结果分析18 3 5 3 实验结论与方法改进展望19 3 5 本章小结1 9 第四章句子聚类2 1 4 1 句子聚类意义2 1 4 2 常用聚类算法介绍2 2 4 2 1 分割聚类算法2 2 4 2 2 层次聚类算法2 3 4 2 3 基于密度的聚类算法2 5 4 2 4 基于网格的方法2 5 4 3c u i 也层次凝聚算法分析2 5 4 4 改进的c u i 汪聚类方法2 7 4 4 1 分割聚类算法代表点的选取2 7 4 4 2 小簇的合并。2 8 4 4 3 基于c u r e 的句子聚类流程2 9 4 5 实验结果与分析3 0 4 5 1 实验结果3 0 4 5 2 实验结果分析。3 1 4 6 本章小结3 2 第五章基于句子聚类的模式自动生成3 3 5 1 引言3 3 5 2 国内j l - 现状3 4 5 3 本文的方法3 5 5 4 基于句子聚类的信息抽取模式自动生成3 6 5 4 1 实验结果分析相关概念3 6 5 4 2 定义模式的表示方式。3 7 5 4 2 1 选取句子3 7 5 4 2 2 定义抽取模式3 7 5 4 3 模式的自动生成3 9 5 5 实验结果与分析。4 1 5 5 1 评测方法4 1 5 5 2 实验结果4 2 5 5 3 结果分析4 2 5 6 本章小结4 3 第六章总结与展望4 5 6 1 总结4 5 6 2 展望。4 6 参考文献4 7 攻读学位期间公开发表的论文5 0 致谤l 51 中文事件模式自动生成方法的研究和实现第一章引言 1 1 课题背景与意义 第一章引言 随着社会的飞速发展,特别是计算机的广泛应用以及互联网的迅猛发展,网络上 的信息总量呈指数级增长,这些信息具有冗余度高、结构松散、数据量大等特点。如 何快捷准确地从大量电子文本中获取用户感兴趣的信息成为人们关注的问题之一,信 息抽取就是基于此目的发展起来的。信息抽取是指从一段文本中抽取指定的实体、关 系、事件等信息,形成结构化的数据并填入一个数据库中供用户查询、使用的过程。 事件信息抽取是信息抽取研究中最具挑战性的任务之一,旨在利用计算机从文本中自 动地抽取特定类型的事件及其事件要素。 事件信息抽取的方法概括起来有三类: ( 1 ) 基于触发词探测的文本事件抽取:其核心是触发词探测和事件要素及其角 色的确定。触发词是能够很好地表述出某类事件中心意义的词。 ( 2 ) 基于本体的事件信息抽取:本体( o n t o l o g y ) 是知识工程和人工智能研究 的一个重要问题,其目标是捕获相关领域的知识,提供对该领域知识的共同理解,从 不同层次的形式化模式上给出这些词汇( 术语) 和词汇之间的相互关系。基于本体的 信息抽取技术是一种把本体和信息处理技术结合起来实现信息抽取的方法,它根据本 体描述的概念、关系、层次结构、概念关系间的约束等生成抽取规则,然后再根据规 则对输入的文档进行抽取。y e a j u a nc h e n 等介绍了一种基于本体的事件抽取系统 o f e e l 。 ( 3 ) 基于模板的事件抽取【2 】:信息抽取模式是指可以传递特定领域中关系或事 件信息的语言表达式。基于模板的事件抽取的一般方法是:针对要抽取的特定类型的 事件,构建相应的抽取模式库;然后再用这些抽取模式去新的文档中匹配可能的事件, 并将匹配的结果填入信息抽取模板的槽中,从而获取特定的信息。 模式匹配( p a t t e r nm a t c h i n g ) 是信息抽取系统中普遍采用的方法,目前,大多数 采用的信息抽取方法都能适应各种领域的不同信息抽取任务,唯独信息抽取模式是针 对特定任务的,当已有的信息抽取系统移植到一个新的场景时,就必须重新创建一套 第一章引言中文事件模式自动生成方法的研究和实现 抽取模式。但是模式的人工创建不仅耗时费力,而且需要既熟悉信息抽取模式又精通 应用领域的专家,因此,如何快速地获取抽取模式对提高信息抽取系统的移植性至关 重要。 具体事件是指在某个特定的时间和地点发生的、由一个或多个角色参与的、由一 个或多个动作组成的一件事情;具体事件的语言描述是指用自然语言对一件客观发生 的具体事件的参与者、发展过程和结果等所进行的描述。同一具体事件可以有多种不 同的自然语言描述,这些不同的自然语言描述是由于作者描述该具体事件时所用的语 言、描述的详略或顺序等不同而造成的。事件信息抽取中的信息抽取源总是一个或多 个具体事件的自然语言描述,由于一个具体事件可以有许多种不同的自然语言描述, 描述的多样性给事件信息抽取带来了困难,并且获取这些事件抽取模式并不容易。 实现信息抽取模式的自动生成,将在很大程度上克服上述两个障碍。一方面,在 转向新的信息抽取任务时,系统可以完全自动或只在少量人工干预下,快速创建信息 抽取系统所需的模式;另一方面,通过提供给系统更多的训练语料,可以获得尽可能 多的抽取模式,从而尽可能覆盖更多语言现象,提高信息抽取系统的性能。 1 2 国内外研究现状 信息抽取的研究在上世纪6 0 年代正式出现,至今已取得了长足的发展。特别是 从2 0 世纪8 0 年代末开始,信息抽取的研究蓬勃发展起来,这主要得益于消息理解 系列会议( m u c ,m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ) 的召开。m u c 是美国政府支 持的一个信息抽取的例会,正是m u c 系列会议使信息抽取发展成为自然语言处理领 域的一个重要分支,并一直推动这一领域的研究向前发展。 从1 9 8 7 年开始到1 9 9 8 年,m u c 会议共举行了七届,它由美国国防高级研究计 划委员会( d a r p a ,t h ed e f e n s ea d v a n c e dr e s e a r c ha r o j e c t sa g e n c y ) 资助,会议除 了进行学术论文交流外,还负责组织对参与者提交的抽取系统进行评测。m u c 6 制 定了四项评测任务:场景模板( s c e n a r i ot e m p l a t e s ) 填充、命名实体( n a m e de n t i t y ) 识别、共指( c o n f e r e n c e ) 关系确定、模板元素( t e m p l a t ee l e m e n t ) 填充等。场景模 板填充任务规定了模板以及槽的填充规则,然后将信息分别填充到模板或者槽中,该 任务抽取指定的事件包括参与这些事件中的各个实体、属性或关系,例如航天器发射 2 中文事件模式自动生成方法的研究和实现 第一章引言 事件的运载时间、场地、负载等。m u c 定义的信息抽取任务的各种规范以及确立的 评价体系已成为信息抽取研究事实上的标准。 m u c 会议停办以后,美国国家标准技术研究院( n i s t ) 组织了自动内容抽取 ( a c e ,a u t o m a t i cc o m e n te x t r a c t i o n ) 评测。a c e 评测从1 9 9 9 年7 月开始酝酿,2 0 0 0 年1 2 月正式开始启动,迄今己经举办过九次评测。其研究的主要内容是自动抽取新 闻语料中出现的实体、关系、事件等内容。目前a c e 评测主要有几大任务:实体识 别与跟踪( e d t ,e n t i t yd e t e c t i o na n dt r a c k i n g ) 、关系识别与描述( r d c ,r e l a t i o n d e t e c t i o na n dc h a r a c t e r i z a t i o n ) 、事件探测和识别( e v e n td e t e c t i o na n dr e c o g n i t i o n ) 。 a c e2 0 0 4 首次引入了对事件抽取的评测。a c e2 0 0 5 t 3 】中开始引入对中文事件抽取的 评测,抽取任务中将要抽取的事件分为8 大类( t y p e ) 和3 3 个子类( s u b t y p e ) 。 事件信息抽取是信息抽取中最具挑战性的工作,其目标是利用计算机从文本中自 动地抽取特定类型的事件及其事件要素。模式匹配是事件信息抽取最常用的方法,为 了自动获取信息抽取模式,人们先后在不同的信息抽取系统中采用过各种抽取模式获 取方法,按照这些抽取模式获取系统所需要的用户辅助工作的不同和对用户工作量大 小和技能要求高低的不同,可分为以下五类: ( 1 ) 手工创建抽取模式的系统:主要出现在m u c 评测会议的早期,它们的共 同特点是采用手工的方式定制抽取模式或模式结构,系统的移植性最差。典型的有 p r o t e u s l 4 等。 ( 2 ) 基于人工语料标注的抽取模式学习系统:这类系统需要人工对语料进行标 注,其代表系统有a u t o s l o g l 5 1 、p a l k a 6 1 等。 ( 3 ) 基于人工语料分类的抽取模式学习系统:为了减少对用户的要求,提出了 在用户对语料进行分类的基础上自动生成抽取模式的方法,典型的系统为 a u t o s l o g t s 【7 】,该系统是对a u t o s l o g 的扩展。 ( 4 ) 基于种子模式的自扩展抽取模式获取系统,这种信息抽取模式学习系统的 典型代表是e x d i s c o t 8 1 、s n o w b a l l p 等。 ( 5 ) 基于w o r d n e t h o w n e t 和语料标注的抽取模式学习系统:该类信息抽取模 式学习系统的典型代表是t i m e s 。 中文事件抽取方面的研究起步较晚,但是也取得不少有意义的成果。清华大学的 梁晗,陈群秀等提出一种基于框架的信息抽取模式并建立了统的灾难性事件框架, 第一章引言中文事件模式自动生成方法的研究和实现 利用框架的继承归纳特性简化系统实现过程,概括事件信息,并提出按时间流顺序的 线索性文件抽取的输出方式【l o l 。姜吉发提出了一种中文的事件抽取模式获取方法,用 于对飞行事件的抽取。 1 3 主要研究内容 本文以同一主题的多个相关文本为研究对象。实验语料有以下特点:文本相关性 大,同一句式出现较为频繁;句子与事件某一方面的对应关系较为明确。如果能采用 合理的聚类方法把相似句子归为一类,便可找到事件某一侧面与某一类的对应关系, 进而找到事件每一侧面的共性信息。因此,以句子聚类为基础可抽取事件侧面的共性 信息,自动获取表达事件侧面信息的模式,从而形成事件抽取。 基于以上分析,针对中文文本中信息抽取模式获取的一些特点和难点,本文在句 子聚类的基础上,通过标注少量语料,分析同类句子的结构特点,从未标注的中文文 本中自动获取事件抽取模式。将该方法用于从中文自由文本中获取“甲型h 1 n 1 ”类事 件的信息抽取模式。本文的研究内容分为三个方面: ( 1 ) 网页关键词的抽取:在网页正文中,并不是所有的句子都对表达文本的内 容有用,为了获取能够表达文本内容的句子,采用关键词定位和句子位置相结合的方 法来选取可能包含用户感兴趣信息的句子。首先要解决的问题是如何提取关键词,本 文结合网页内容的结构特征以及词语的词性特征,在此基础上对经典的t f i d f 公式 存在的两个问题进行了分析,并对公式进行了改进,构建了一个综合考虑多种因素的 候选特征词评价公式,在没有增加时间成本的基础上提高了性能。 ( 2 ) 句子聚类:为了得到描述事件各个侧面的信息,首先对句子进行聚类。c u r e 算法能够识别非球形和大小变化比较大的类,而且从两个阶段消除噪声的影响。本文 在对同一事件的多个文本进行分析的基础上,对c u r e 算法进行改进,用于句子聚 类。代表点的选取不仅考虑了类的形状,而且考虑了句子对描述事件的贡献大小;句 子包含信息量少,根据两个类中代表点的最小距离来合并小类很容易丢失类的总体信 息,本文在小类合并时充分考虑了小类的总体特征,实验表明该方法能够取得较好的 聚类效果。 ( 3 ) 模式自动生成:通过对句子集合的统计分析,预测事件各个侧面所描述的 4 中文事件模式自动生成方法的研究和实现 第一章引言 事件信息,从而确定待抽取的事件内容。首先定义抽象的模式抽取模式,从语法和语 义两个方面来对事件元素进行约束,然后选取句子集合中有代表的句子进行句法分析 和人工分析,并定义具体的抽取模式。迭代选取特例模式,对特例模式集合进行模式 的泛化和合并,形成最终的抽取模式。 本文第三章对关键词抽取进行了研究,第四章介绍本文用到的聚类方法,第五章 介绍了模式自动生成。 1 4 论文组织结构 本文共分为六章,论文的结构和各个章节的主要内容如下: 第一章为引言。这一章对本课题从总体上进行了介绍,包括课题的提出、研究现 状、意义和应用背景,并据此引出本文的选题与研究内容。 第二章为模式自动生成的相关工作。在这一章中总结了目前自然语言处理的研究 热点和相关技术,介绍了模式自动生成的相关技术和研究现状,并对本文的实验语料 和预处理平台做了介绍。 第三章为基于t f i e f 的网页关键词抽取。本章分析了处理文本的句子特征,对 传统的t f i d f 方法进行了改进,并结合文本结构特征和词语的词性特征,来综合进 行网页关键词的提取。 第四章为基于c u r e 的层次聚类。c u r e 算法能够识别非球形和大小变化比较大 的簇,本章针对c u r e 层次聚类算法进行句子聚类时存在的问题进行了分析,改进 了代表点的选取和小类合并策略。 第五章为基于句子聚类的模式自动生成。本章在聚类后的句子集合上进行模式自 动生成。首先通过统计的方法对句子进行分析,确定事件的描述项,然后选取集合中 有代表的一部分句子进行句法分析,把经过句法分析后的句子表示成特例模式,并定 义抽取模式。扩充特例模式,并对特例模式进行泛化和合并;从而形成最终的抽取模 式。 第六章为总结与展望。总结了本文的主要工作,并探讨下一步的研究内容。 第二章模式自动生成相关技术 中文事件模式自动生成方法的研究和实现 第二章模式自动生成相关工作 2 1 模式自动生成概述 最近几年,信息抽取研究受到越来越多的重视,模式匹配( p a t t e r nm a t c h i n g ) 是 信息抽取系统普遍采用的方法。信息抽取模式是指可以传递特定领域中关系或事件信 息的语言表达式。目前,大多采用的信息抽取方法都能适应各种领域的不同信息抽取 任务,唯独信息抽取模式是针对特定任务的,当已有的信息抽取系统移植到一个新的 场景时,就必须重新创建一套模式。 最初构造模板库的方法是组织经验丰富的专家,手工写出模板。这种方法虽然取 得了比较好的效果,但是人力的耗费非常巨大,而且需要既熟悉信息抽取模式格式又 精通应用领域的专家。因此,许多学者开始探索使用机器学习的方法来自动生成抽取 模式,即从标注好的训练文本中自动学习,生成模板库。为了进行信息抽取模式的学 习,人们先后设计了各种抽取模式获取系统,按照各种信息抽取模式获取系统中所需 要的用户辅助工作方式的不同和对用户工作量大小的技能要求高低的不同,可将这些 系统分为下面五个类别:人工写模式的方法;基于人工语料标注的信息抽取模式学习 系统如a u t o s l o g 、p a l k a 、c r y s t a l 等;基于人工语料分类的信息抽取模式学习 系统,如a u t o s l o g t s 等;基于种子模式的信息抽取模式学习系统,如e x d i s c o 等; 基于w o r d n e t 和语料标注的信息抽取模式学习系统,如t i m e s 等。无论这些信息抽 取模式获取系统的自动化程度有多高,它们或多或少都需要一定的用户辅助工作的支 持。 2 1 1 人工创建信息抽取模式的方法 人工写模式需要熟悉领域的专家,而且需要大量的时间,该方式主要出现在m u c 评测会议的早期,它们的共同特点是采用手工的方式定制抽取模式或模式结构,系统 的移植性最差。典型的有p r o t e u s 4 等。 6 中文事件模式自动生成方法的研究和实现第二章模式自动生成相关技术 2 1 2 基于人工语料标注的信息抽取模式学习系统 该类信息抽取模式学习的方法一般是:设计一种信息抽取模式表示方式,人工对 训练语料进行标注,然后使用机器学习的方法从中学出相应的信息抽取模式。该类系 统的代表有:a u t o s i o g 、p a l k a 、c r y s t a l 等。 a u t o s l o g 5 1 是第一个采用机器学习方法获取信息抽取模式的系统,它的模式学习 步骤如图2 1 所示: 图2 - 1a u t o s i o g 模式学习流程 a u t o s l o g 的核心是一个单槽的模式学习算法,针对一个特定的信息抽取领域,该 算法的输入除了标引后的案例语句外,还有一个基本上领域无关的小的语言模式集合 和一个领域相关的语义词典,另外还需要一个部分句法分析器以识别出其中的主语、 谓语、宾语、介词短语等。该算法的输出是与每个案例语句相对应的信息抽取模式, 对于学出的信息抽取模式,由人工进行浏览并决定取舍。其中用到的语言模式集合是 人工设计的,而且这些语言模式很大程度上是领域无关的。 2 1 3 基于人工语料分类的信息抽取模式学习系统 该类信息抽取模式学习的一般步骤是: 第一步:人工将训练语料分为领域相关与不相关两类。 第二步:根据人工定义的规则,从训练语料中获取候选的模式集合。 第三步:用领域相关度评价公式对模式进行评价,选择评价分数高的模式实例加 入模式集合。 这对系统提出了更高的要求,系统仅凭用户给出的关于文档类别的粗浅分类,学 第二章模式自动生成相关技术中文事件模式自动生成方法的研究和实现 出有用的信息抽取模式,并且语料分类看似简单,但实际上涉及的问题比较多。该类 学习系统的代表是a u t o s l o g t s f 7 1 ,其信息抽取模式的学习流程如图2 2 所示: 第一阶段 第二阶段 图2 - 2a u t o s l o g - t s 模式学习流程 a u t o s l o g t s 是a u t o s l o g 的后续系统,旨在进一步减少用户的工作量。该系统的输 入是用户提供的领域相关和领域无关的文档集合以及领域无关的语言模式,输出是信 息抽取模式。该系统分两个阶段学习信息抽取模式:在第一阶段,使用部分句法分析 器对所有语句进行句法分析,然后使用语言模式匹配经过句法分析后的句法结构,形 成概念节点( c o n c e p tn o d e s ) 即模式。在第二阶段,对第一阶段形成的概念节点进 行领域相关性打分。对于每一个概念节点i ,定义f r ( i ) 为该概念节点在相关文本中 出现的次数,f ( i ) 为在所有文档中出现的次数。概念节点i 的领域相关性计算方法 如公式2 1 所示: 脚嘶) = 鬻l o g 朋) 通过计算s c o r e ( i ) ,以此来选择合适的模式。 8 ( 公式2 1 ) 中文事件模式自动生成方法的研究和实现 第二章模式自动生成相关技术 2 1 4 基于种子模式的信息抽取模式学习系统 为了进一步减少用户的工作量并降低对用户的技能要求,出现了基于种子模式的 信息抽取模式学习系统,该类系统的代表是e x d i s c o 【8 】系统,对于一个特定的领域任 务,该系统只需要用户提供几个对于任务有代表性的种子信息抽取模式,然后从一个 未经分类的文档集合中学习出更多的信息抽取模式,并同时完成对文档集的领域相关 性分类。模式生成具体过程如下: ( 1 ) 文档划分:根据种子模式集合p 对文档进行领域相关性划分,如果文档含 有种子模式集合p 中的任一模式,则认为该文档是领域相关的,否则认为文档是领域 无关的。 ( 2 ) 生成新的候选模式:将整个文档集中的每个句子都转换成一个候选模式, 计算这些模式的领域相关度,并根据它们的领域相关度排序,相关度计算公式如公式 2 2 所示,其中s ( p ) 是包含模式p 的文档集合,r 是领域相关文档集合。 。,p c p ,= l 气譬笔导堕t 。g c l s c p ,nri , ( 公式2 2 ) ( 3 ) 扩大种子模式集合:把领域相关度最高的模式p 加入到种子模式集合中。 ( 4 ) 对文档集合重新分类:用新的种子模式集合重新对文档的领域相关性进行 评价。计算公式如公式2 3 所示: r e l i + 1 ( d ) = m a x ( r e l , ( d ) ,p r e c ( k d ) ) ( 公式2 3 ) 该公式表达的含义是:文档d 在第i 次循环时的领域相关度大小为上次循环时计 算的领域相关度大小和本次循环计算出的p r e c ( k d ) 中较大的一个。 ( 5 ) 转( 2 ) ,直到不再产生新的模式为止。 2 1 5 基于w o r d n e t 和语料标注的信息抽取模式学习系统 该类信息抽取模式学习系统的代表是t i m e s :在领域无关的概念层知识库 w o r d n e t 的支持下,用户通过用户图形界面给出对于某类事件的描述语句,系统对 该语句进行部分句法分析,并指导用户从语法和语义两个纬度对分析后的语句进行 泛化,形成信息抽取模式。该系统进行信息抽取模式学习的具体流程为: 9 第二章模式自动生成相关技术中文事件模式自动生成方法的研究和实现 ( 1 ) 用户通过g u i 选择一个含有事件描述的语句; ( 2 ) 系统对该语句进行分词、词性标注、命名实体识别和部分句法分析,并以 每个短语最后的一个词作为短语的中心词; ( 3 ) 用户将相关的名词短语与其所能充当的事件角色关联起来; ( 4 ) 用户对某些有歧义的中心词进行词义消歧; ( 5 ) 系统根据用户的相关操作形成相应的特例模式; ( 6 ) 特例模式的泛化。系统从语法和语义两个方面对形成的特例模式进行泛化, 形成一个泛化模式。语法泛化途径:去除特例模式中的某些元素;改变元素之间的先 后顺序。语义泛化途径:将特例模式中某些元素用它们各自的上位概念来代替,概念 的上位通过w o r d n e t 来获取。 2 1 6 本文的模式自动生成方法 信息抽取研究受到越来越多的重视,但是,作为一种实用的自然语言处理技术, 信息抽取并未像信息检索一样被广泛应用。原因有多方面,其中最重要的原因有两个, 一个是现有的信息抽取系统性能还比较差,抽取精度还有待进一步提高;另一个是信 息抽取系统的可移植性不好。上面几种模式自动生成方法对用户或多或少都有要求, 。为了进一步减少对用户的要求以提高系统的可用性,本文利用互联网上的大量冗余资 源,根据用户提供的一个或多个关键词从网上抓取网页,对网页内容进行预处理,自 动分析用户可能感兴趣的信息,并从这些信息中自动生成抽取模式。 系统的总体框架图如图2 3 所示,共包括三个模块:网页关键词抽取,句子聚类 和模式自动生成,后一模块以前一个模块的结果为基础。通过第一模块抽取到的关键 词来选取描述事件的重要句子,对句子进行层次聚类,从而得到事件的各个侧面信息; 对聚类后的句子集合进行统计,分析事件所描述的对象和主要内容,并选取有代表的 句子进行句法分析,在此基础上定义抽取模式,并进行特例模式的生成以及模式的泛 化和合并。 1 0 中文事件模式自动生成方法的研究和实现第二章模式自动生成相关技术 2 2 性能评测 图2 3 系统框架图 可从两个方面来对信息抽取系统的性能进行评测:信息抽取系统的全面性、准确 性,同时还要考虑信息抽取系统所对应的信息抽取领域任务的复杂度。 ( 1 ) 全面性、准确性评测 一般采用三个指标来评测信息抽取系统的全面性和准确性:召回率r 、准确率p 和f 。查准率反映了系统找对满足条件的信息的能力,即准确性;查全率反映了系统 发现满足条件信息的能力,查全率越高,漏检的信息越少;对于一个信息抽取系统, 单独追求一个指标的提高而忽视另一个指标的提高都是无意义的,应该同时追求较大 的p 和r 。为了评价的方便,通常把p 和r 结合起来形成一个综合指标f ,用来衡量 信息抽取系统的整体性能。 j p :凳粤骥塑辫 ( 公式2 4 )4 系统返回的所有模式个数 一。 r :型攀墼罂黧 ( 公式2 5 )t := - - - - - - - - - - - _ _ _ - - _ - - - - - - - - - - - - _ - - - - - - - - _ 一 ,、_ 】 , 一 系统应该存在的模式个数 一 f :( f 1 2 = + 1 ) p r 9 “p + r ( 公式2 6 ) 其中,p 为控制查准率和查全率权重关系的参数。p 等于1 时,二者同样重要; 第二章模式自动生成相关技术中文事件模式自动生成方法的研究和实现 d 大于1 时,准确率更重要一些;1 3 小于1 时,召回率更重要一些。无论1 3 取值为 何,f 值范围都在0 和1 之间。本文实验中1 3 取1 ,这时f 指数成为f 1 指数。f 值 代表查准率和查全率的一种平衡,也是本文所采用的评价指标之一。 ( 2 ) 复杂度评测 对于不同信息抽取领域的任务,为了评测它们的信息抽取性能,不仅要考虑它们 的p 、r 、f ,还要考虑它们各自所对应的信息抽取任务的复杂度,任务越复杂要提高 系统的性能就越困难。a m i tb a g g a 提出了一种评测事件复杂度的方法,设 是一个特定的事件信息抽取领域任务,其中e c 是目标事件类,d 是含有对e c 类事 件描述的文档集合,e c 有n 种“f a c t 组成,每种“f a c t ”的复杂层级都有一个分布频度, 根据该复杂层级的分布频度

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论