（计算机应用技术专业论文）面向信息抽取的文本预处理和规则自动学习技术研究.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-15 格式：PDF 页数：81 大小：1.74MB 积分：0 举报 版权申诉

（计算机应用技术专业论文）面向信息抽取的文本预处理和规则自动学习技术研究.pdf_第2页

（计算机应用技术专业论文）面向信息抽取的文本预处理和规则自动学习技术研究.pdf_第3页

（计算机应用技术专业论文）面向信息抽取的文本预处理和规则自动学习技术研究.pdf_第4页

（计算机应用技术专业论文）面向信息抽取的文本预处理和规则自动学习技术研究.pdf_第5页

已阅读5页，还剩76页未读，继续免费阅读

（计算机应用技术专业论文）面向信息抽取的文本预处理和规则自动学习技术研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

东4 t 大学硕士学位论文才 9 要面向信息抽取的文本预处理和规则自动学习技术研究摘要随着i n t e rn e t 技术的快速普及和迅猛发展，网上信息爆炸式增长，如何从中找到真正有用的信息成为人们关注的焦点。作为深层数据挖掘技术的先驱，信息抽取技术可以通过对文本的淡层分析，快速准确地从海量信息源中提取出用户感兴趣的信息，从而成为自然语一言处理领域的一个热点研究课题信息抽取的任务是从文木中抽取字符串形式的信息，并将此信息填入带标记的槽中，来表明其含义。该技术是许多自然语言处理技术的综合运用，涉及的内容包括文本预处理、文本结构分析、篇章关联推导等。大多数的信息抽取系统都是基于规则进行抽取的。规则库的建立对信息抽取系统的性能起着关键作用。本文对信息抽取中的文本预处理和规则的自动学习技术进行了研究。在文本预处理方面，本文用有限状态自动机实现了简单实体的识别，可识别的实体类型有金钱、时间、电子邮件、电话、网址、纯数字和其他字符等。自动机的设计充分考虑了各种类别的实体的文本结构特点，在大规模人民日报语料上测试时取得了很好的识别效果。传统的信息抽取系统由专家手工书写规则，规则库的构造是知识获取的瓶颈问题，规则的知识表示能力也是限制抽取效果的障碍之一。基于一阶谓词逻辑的归纳逻辑编程技术可以自然地描述和学习复杂的关系，非常适合于信息抽取规则中的知识表示和自动生成。本文在归纳逻辑编程的框架下提出了一种多槽规则自动获取方法，解决了信息抽取中知识获取和知识表示的瓶颈问题。规则具有很好的扩展性，且在生成规则时无须传统的语法语义分析和复杂命名实体识别过程，大大降低了对资源的要求。实验结果表明，本方法获取的规则，相较零阶逻辑下的规则，具有更高的准确率和召回率。根据以上给出的文本预处理技术和规则自动学习算法，我们设计实现了完整的中文信息抽取系统。关键词:信息抽取文本预处理有限状态自动机规则自动获取归纳逻辑编程东北大学硕士学位论文 ab s t r a c t s t u d y o n t e x t p r e p r o c e s s i n g a n d a u t o ma t i c r u l e l e a r n i n g t e c h n o l o g y f o r i n f o r ma t i o n e x t r a c t i o n abs t r a c t wi t h t h e r a p i d p o p u l a r i z a t i o n a n d d e v e l o p m e n t o f t h e i n t e rn e t t e c h n o l o g y , t h e a m o u n t o f o n - l i n e i n f o r ma t i o n g r o w s e x p l o s i v e l y . c o m m o n f o c u s h a s a r i s e n a s t o h o w t o fi n d u s e f u l i n f o r m a t i o n fr o m t h e h u g e s o u r c e . a s t h e p r e c u r s o r o f d e e p d a t a m i n i n g t e c h n o l o g y , i n f o r m a t i o n e x t r a c t i o n c a n e x t r a c t s p e c i f i e d f a c t s f r o m n a t u r a l l a n g u a g e d o c u m e n t s t h r o u g h s h a l l o w a n a l y s i s , t h u s b e c o m i n g a h o t r e s e a r c h t o p i c i n n a t u r a l l a n g u a g e p r o c e s s i n g i n f o r m a t i o n e x t r a c t i o n r e f e r s t o t h e t a s k o f e x t r a c t i n g i n f o r m a t i o n fr o m a t e x t i n t h e f o r m o f t e x t s t r i n g s w h i c h a r e p l a c e d i n t o s l o t s l a b e l e d t o i n d i c a t e t h e k i n d o f in f o r m a t i o n t h a t c a n f i l l t h e m . t h i s t e c h n o lo g y i s a n i n t e g r a t e d a p p l i c a t i o n o f m a n y n a t u r a l l a n g u a g e p r o c e s s in g t e c h n i q u e s , i n c l u d i n g t e x t p r e p r o c e s s i n g , t e x t s t r u c t u r e a n a l y s i s , in t e r - t e x t i n f e r e n c e a n d s o o n . m o s t i n f o r m a t i o n e x t r a c t io n s y s t e m s p e r f o r m e x t r a c t i o n o n t h e b a s i s o f p a tt e rn s ( ru l e s ) . t h e c o n s t r u c ti o n o f ru l e l ib r a ry d e t e r m i n e s t h e p e r f o r m a n c e o f t h e w h o l e e x t r a c ti o n s y s t e m . i n th is p a p e r w e s t u d y t h e t e x t p r e p r o c e s s i n g a n d a u t o m a t i c rul e a c q u i s i t i o n t e c h n o l o g y f o r i n f o r m a t i o n e x t r a c ti o n . i n t e x t p r e p r o c e s s i n g , w e r e a l i z e d t h e r e c o g n i ti o n o f s i m p l e n a m e d e n t i ti e s t h r o u g h d e t e r m i n i s t i c f i n i t e a u t o m a t o n . r e c o g n i z a b l e e n ti t y t y p e s i n c l u d e m o n e y , ti m e , e m a i l , p h o n e n u m b e r , w e b a d d r e s s , n u m b e r s t r i n g a n d o t h e r s y m b o l s . t h e d e s i g n o f a u t o m a t o n f u l l y c o n s i d e r s t h e c h a r a c t e r is ti c s o f e a c h k in d o f e n t i ty , a n d a c q u i r e d g o o d r e c o g n i t i o n re s u l t s w h i l e t e s t i n g o n l a r g e - s c a l e p e o p l e d a i l y c o r p u s . t r a d i t io n a l i n f o r m a ti o n e x t r a c ti o n s y s t e m s r e q u i re e x p e r ts t o b u i l d ru l e s b y h a n d t h e c o n s t r u c t i o n o f rul e b a s e i s t h e k n o w l e d g e a c q u i s i ti o n b o t t l e n e c k , a n d t h e k n o w l e d g e r e p r e s e n t a ti o n c a p a b i l i t y a l s o l i m i t s e x t r a c ti o n p e r f o r m a n c e . i n d u c ti v e l o g i c p r o g r a m m i n g ( i l p ) t e c h n i q u e b a s e d o n f i r s t - o r d e r p r e d i c a t e l o g i c c a n d e s c r ib e a n d l e a rn c o m p l e x r e l a t i o n s n a t u r a l l y , t h u s i s q u i t e s u i t a b l e f o r t h e k n o w l e d g e r e p r e s e n t a t i o n a n d a u t o m a t ic a c q u i s i t i o n o f ru l e s i n in f o r m a t io n e x t r a c ti o n . i n t h i s p a p e r w e p u t f o r w a r d a n a u t o m a ti c m u l ti - s l o t ru l e a c q u i s i ti o n m e t h o d u n d e r t h e i l p fr a m e w o r k a n d s o l v e d t h e k n o w l e d g e a c q u i s i ti o n a n d r e p re s e n t a ti o n b o tt l e n e c k . t h e l e a rn e d ru l e s h a v e g o o d e x p a n s i b i l i t y . l i n g u i s ti c r e s o u r c e r e q u i re m e n t i s l a r g e l y r e d u c e d b e c a u s e t r a d i ti o n a l s e m a n t i c a n d s y n t a c ti c a n a l y s i s a n d c o m p l e x n a m e d e n ti t y r e c o g n i ti o n p r o c e s s a r e n o l o n g e r n e c e s s a ry . e x p e r i m e n t a l r e s u l t s s h o w t h a t t h e ru l e s a c q u i r e d b y t h i s a l g o r i t h m a c h i e v e h i g h e r p r e c i s i o n a n d r e c a l l c o m p a r e d t o z e r o - o r d e r ru l e s . i i i 东北大学硕士学位论文ab s t r a c t a c c o r d i n g t o t h e t e x t p r e p r o c e s s i n g m e t h o d a n d r u l e l e a rn i n g a l g o r i t h m , w e i m p l e m e n t e d a c o m p l e t e c h i n e s e i n f o r m a t i o n e x t r a c t i o n s y s t e m . k e y w o r d : i n f o r m a t i o n e x t r a c t i o n , t e x t p r e p r o c e s s i n g , d e t e r m i n i s t i c f i n i t e a u t o m a t o n , a u t o m a t i c ru l e a c q u i s i t i o n , i n d u c t i v e l o g i c p r o g r a m m i n g n 独创性声明本人声明所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果除加以标注和致谢的地方外，不包含其他人己经发表或撰写过的研究成果，也不包括本人为获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢意。学位论文作者签各叶娜日期:l e o l p . i z 学位论文版权使用授权书本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许论文被查阅和借阅。本人授权东北大学可以将学位论文的全部或部分内容编入有关数据库进行检索、交流。 ( 如作者和导师同意网上交流，请在下方签名; 否则视为不同意。 ) 学位论文作者签名 : i 哪签字日期: ? , o ( p 、 i z 导师签一举材破签字日期 : -), e r . ; i 中东北大学硕士学位论文第一章绪论第一章绪论 1 . 1信息抽取概述随着i n t e rn e t 技术的不断发展，网上资源越来越丰富，这使得互联网成为了一个巨大的隐式信息源。如何从海量的半结构化或无结构网页文本中准确地提取出用户感兴趣的信息，将其用规范的形式加以描述，使之可以存入关系数据库得到充分利用已成为一个热点研究课题。信息抽取 ( i n f o r m a t i o n e x t r a c t i o n ) 的目的就是解决这个问题。信息抽取的任务是从自然语言文本中提取用户感兴趣的有用信息，并用结构化的形式加以描述。信息抽取的输入是一个文本集，输出结果是填好的模式 ( t e m p l a t e ) 。模式中的域称为槽( s l o t )槽的填充子 ( s l o t fi l l e r ) 往往是实体 ( 实体是具有一定意义的文本片段，如人名) ，模式里标注出了槽之间的关系。信息抽取过程中使用的匹配规则称为模板( p a t t e rn ) . 比如，从电子商务网站抽取出产品信息: 品名、生产厂家、价格、产品用途等; 从新闻报道中抽取出恐怖事件的详细情况:时间、地点、作案者、受害者、袭击目标、使用的武器等:从经济新闻中抽取出公司发布新产品的情况:公司名、产品名、发布时间、产品性能等;从病人的医疗记录中抽取出症状、诊断记录、检验结果、处方等等。通常，被抽取出来的信息可以直接存入数据库中，供用户查询以及进一步分析利用。信息抽取为人们提供了有力的信息获取工具，帮助人们应对信息爆炸带来的严重挑战。信息抽取与传统的信息检索 ( i n f o r m a t i o n r e t r i e v a l )虽同为信息获取技术，却有着很大的不同.信息检索从文档集中检索相关文档，而信息抽取从文档中抽取相关信息。信息抽取突破了信息检索的局限性( 由人来阅读、理解、提取) ，通过有限技术的运用，在人们的实际需要和技术的发展现状之间实现了平衡。与自动文摘和文本理解任务相比，信息抽取定义了明确的提取目标及其特性，而自动文摘和文本理解则没有预先规定目标的特性，需要对多种多样的内容进行分析和处理。在现实生活中，信息抽取，特别是网上信息抽取技术为人们提供了大量有价值的信息，电子商务领域的在线比价系统，就是信息抽取的重要应用，它推动了电东北大学硕士学位论文第一章绪论第一章绪论 1 . 1信息抽取概述随着i n t e rn e t 技术的不断发展，网上资源越来越丰富，这使得互联网成为了一个巨大的隐式信息源。如何从海量的半结构化或无结构网页文本中准确地提取出用户感兴趣的信息，将其用规范的形式加以描述，使之可以存入关系数据库得到充分利用已成为一个热点研究课题。信息抽取 ( i n f o r m a t i o n e x t r a c t i o n ) 的目的就是解决这个问题。信息抽取的任务是从自然语言文本中提取用户感兴趣的有用信息，并用结构化的形式加以描述。信息抽取的输入是一个文本集，输出结果是填好的模式 ( t e m p l a t e ) 。模式中的域称为槽( s l o t )槽的填充子 ( s l o t fi l l e r ) 往往是实体 ( 实体是具有一定意义的文本片段，如人名) ，模式里标注出了槽之间的关系。信息抽取过程中使用的匹配规则称为模板( p a t t e rn ) . 比如，从电子商务网站抽取出产品信息: 品名、生产厂家、价格、产品用途等; 从新闻报道中抽取出恐怖事件的详细情况:时间、地点、作案者、受害者、袭击目标、使用的武器等:从经济新闻中抽取出公司发布新产品的情况:公司名、产品名、发布时间、产品性能等;从病人的医疗记录中抽取出症状、诊断记录、检验结果、处方等等。通常，被抽取出来的信息可以直接存入数据库中，供用户查询以及进一步分析利用。信息抽取为人们提供了有力的信息获取工具，帮助人们应对信息爆炸带来的严重挑战。信息抽取与传统的信息检索 ( i n f o r m a t i o n r e t r i e v a l )虽同为信息获取技术，却有着很大的不同.信息检索从文档集中检索相关文档，而信息抽取从文档中抽取相关信息。信息抽取突破了信息检索的局限性( 由人来阅读、理解、提取) ，通过有限技术的运用，在人们的实际需要和技术的发展现状之间实现了平衡。与自动文摘和文本理解任务相比，信息抽取定义了明确的提取目标及其特性，而自动文摘和文本理解则没有预先规定目标的特性，需要对多种多样的内容进行分析和处理。在现实生活中，信息抽取，特别是网上信息抽取技术为人们提供了大量有价值的信息，电子商务领域的在线比价系统，就是信息抽取的重要应用，它推动了电东北大学硕士学位论文第一章绪论子商务的蓬勃发展。信息抽取所研究的课题具有广阔的应用前景。传统的信息抽取过程通常包含以下步骤: 首先对文本进行浅层词法、句法和语法分析及过滤，并加以标注;然后使用规则匹配方法在标注好的文本中识别特定的信息;接下来通过关联和推导等方式对上下文进行共指消解，获得标准的结构化信息:最后将结果存储在数据库中。可见，信息抽取是多种自然语言处理技术的综合应用，它需要比较深入的语言处理基本理论和技术作为支撑，并可进一步促进相关语言处理领域的发展，因而受到了世界各国的普遍重视。信息抽取技术是近十年来发展起来的新领域，通过系统化、大规模的定量评测机制推动研究向前发展，取得了丰硕的研究成果，也遇到许多新的挑战。 1 .2信息抽取研究的发展历史信息抽取的前身是文本理解。人工智能研究者一直致力于建造能把握整篇文档的精确内容的系统。这些系统通常只在很窄的知识领域范围内运行良好，向其他新领域移植的性能去 p 很差【 fl 。信息抽取技术的初始研究开始于2 0 世纪6 0 年代中期，它以两个长期的、研究性的自然语言处理项目为代表图。美国纽约大学从6 0 年代中期开展，一直延续到8 0 年代的l i n g u i s t i c s t r i n g 项目 s 7 的主要研究内容是建立一套规模较大的英语计算语法，用于从医疗领域的x 光报告和出院记录中抽取信息格式 ( i n f o r m a t i o n f o r m a t s )。该项研究所指的信息格式实际上就是现在信息抽取系统中所说的模式。另一个代表性的项目是在2 0 世纪7 0 年代由耶鲁大学的r o g e r s c h a n k 带领的研究小组开展的有关故事理解的研究。他们设计实现了一个根据故事脚本理论建立的信息抽取系统f r u m p 0 。该系统主要用于从新闻报道中抽取信息。它首次采用了期望驱动与数据驱动相结合的处理方法，这种方法后来被许多信息抽取系统所采用。在这两个创始性的项目之后，第一个商业信息抽取系统a t r a n s 于8 0 年代面世，该系统用于自动处理银行间的帐目转移信息，它采用了耶鲁大学的数据驱动技术来填充模式。此后不久， c a r n e g i e 工作组为路透社设计开发了称为j a s p e r 的新闻事件抽取系统，它可以为记者提供候选新闻，大大节省他们准备稿件的时间。这个阶段的另外一个实用商业系统名为s c i s o r ，是由g e 主持开发的，用于商业领域公司兼并事件的分析。东北大学硕士学位论文第一章绪论子商务的蓬勃发展。信息抽取所研究的课题具有广阔的应用前景。传统的信息抽取过程通常包含以下步骤: 首先对文本进行浅层词法、句法和语法分析及过滤，并加以标注;然后使用规则匹配方法在标注好的文本中识别特定的信息;接下来通过关联和推导等方式对上下文进行共指消解，获得标准的结构化信息:最后将结果存储在数据库中。可见，信息抽取是多种自然语言处理技术的综合应用，它需要比较深入的语言处理基本理论和技术作为支撑，并可进一步促进相关语言处理领域的发展，因而受到了世界各国的普遍重视。信息抽取技术是近十年来发展起来的新领域，通过系统化、大规模的定量评测机制推动研究向前发展，取得了丰硕的研究成果，也遇到许多新的挑战。 1 .2信息抽取研究的发展历史信息抽取的前身是文本理解。人工智能研究者一直致力于建造能把握整篇文档的精确内容的系统。这些系统通常只在很窄的知识领域范围内运行良好，向其他新领域移植的性能去 p 很差【 fl 。信息抽取技术的初始研究开始于2 0 世纪6 0 年代中期，它以两个长期的、研究性的自然语言处理项目为代表图。美国纽约大学从6 0 年代中期开展，一直延续到8 0 年代的l i n g u i s t i c s t r i n g 项目 s 7 的主要研究内容是建立一套规模较大的英语计算语法，用于从医疗领域的x 光报告和出院记录中抽取信息格式 ( i n f o r m a t i o n f o r m a t s )。该项研究所指的信息格式实际上就是现在信息抽取系统中所说的模式。另一个代表性的项目是在2 0 世纪7 0 年代由耶鲁大学的r o g e r s c h a n k 带领的研究小组开展的有关故事理解的研究。他们设计实现了一个根据故事脚本理论建立的信息抽取系统f r u m p 0 。该系统主要用于从新闻报道中抽取信息。它首次采用了期望驱动与数据驱动相结合的处理方法，这种方法后来被许多信息抽取系统所采用。在这两个创始性的项目之后，第一个商业信息抽取系统a t r a n s 于8 0 年代面世，该系统用于自动处理银行间的帐目转移信息，它采用了耶鲁大学的数据驱动技术来填充模式。此后不久， c a r n e g i e 工作组为路透社设计开发了称为j a s p e r 的新闻事件抽取系统，它可以为记者提供候选新闻，大大节省他们准备稿件的时间。这个阶段的另外一个实用商业系统名为s c i s o r ，是由g e 主持开发的，用于商业领域公司兼并事件的分析。东北大学硕士学位论文第一章绪论信息抽取的大规模研究是2 0 世纪 8 0年代后期开始的。这主要得益于消息理解系列会议 ( m u c , m e s s a g e u n d e r s t a n d i n g co n f e r e n c e )的召开。正是m u c 系列会议使信息抽取发展成为自然语言处理领域一个重要分支，并一直推动这一领域的研究向前发展。 mu c是美国政府支持的一个专门致力于真实新闻文本理解的例会，从 1 9 8 7 年开始到1 9 9 8 年， m u c 会议共举行了七届，它由美国国防高级研究计划委员会( d a r p a , t h e d e f e n s e a d v a n c e d r e s e a r c h p r o j e c t s a g e n c y ) 资助。m u c 的显著特点并不是会议本身，而在于对信息抽取系统的评测【5 ，。只有参加信息抽取系统评测的单位才被允许参加m u c 会议。在每次m u c 会议前，组织者首先向各参加者提供样例消息文本和有关抽取任务的说明，然后各参加者开发能够处理这种消息文本的信息抽取系统。在正式会议前，各参加者运行各自的系统处理给定的测试消息文本集合。由各个系统的输出结果与手工标注的标准结果相对照得到最终的评测结果。最后才是所谓的会议，由参与者交流思想和感受。后来，这种评测驱动的会议模式得到广泛推广，如 1 9 9 2 年开始举行的文本检索会议t r e c 等。在m u c中，衡量信息抽取系统的性能主要根据两个评价指标:召回率和准确率幻。召回率等于系统正确抽取的结果占所有可能正确结果的比例; 准确率等于系统正确抽取的结果占所有抽取结果的比例。为了综合评价系统的性能，通常还计算召回率 ( r e c a l l )和准确率 ( p r e c i s i o n )的加权几何平均值，即f 指数。f 值评价方法如下: ( 刀 z + 1 ) p r b z p+r 其中刀是一个预设值，决定对p 侧重还是对r 侧重。通常设定为1 , 这样用f 一个数值就可以看出系统的好坏。 1 9 8 7 年5 月在s a n d i e g o 举行了首届m u c 会议。所处理的文本是海军军事情报。会议是探索性的，没有明确的任务定义，也没有制定评测标准，总共有4个系统参加，每个系统的输出格式都不一样。会议提供了1 2 篇报道作为训练语料，参评系统在2 篇未知消息文本上进行测试。 m u c -2 于 1 9 8 9 年5 月举行，共有 8 个系统参加，处理的文本类型与m u c -1 一样。 m u c - 2 开始有了明确的任务定义，规定了模式以及槽的填充规则，提供了统一形式的领域知识，抽取任务被明确为一个模式填充的过程。 m u c -3 于1 9 9 1 年5 月举行，共有1 5 个系统参加，抽取任务是从新闻报告中东 u 大学硕士学位论文第一章绪论抽取拉丁美洲恐怖事件的信息，定义的抽取模式由1 8 个槽组成。 m u c -3 会议开始引入正式的评测标准，其中借用了信息检索领域采用的一些概念，如召回率和准确率等。 m u c -4 于 1 9 9 2 年 6月在m c l e a n 举行，共有 1 7 个系统参加，任务与m u c -3 一样，仍然是从新闻报告中抽取恐怖事件信息。但抽取模式变得更复杂了，总共由2 4 个槽组成。从这次会议开始m u c 被纳入t i p s t e r 文本项目。 m u c -5 于 1 9 9 3 年8月举行，共有 1 7 个系统参加( 美国1 4 个，英国、加拿大、日本各一个)。此次会议设计了两个目标场景:金融领域中的公司合资情况、微电子技术领域中四种芯片制造处理技术的进展情况。除英语外， m u c -5 还对日语信息抽取系统进行了测试。在本次会议上，组织者尝试采用平均填充错误率( e r r , e r r o r p e r r e s p o n s e f i l l ) 作为主要评价指标。与以前相比， m u c - 5 抽取任务的复杂性更大，比如公司合资场景需要填充 1 1 个种子模式总共4 7 个槽，光任务描述文档就有 4 0 多页。m u c -5 的模式和槽填充规范是m u c 系列评测中最复杂的。 m u c - 6 于 1 9 9 5 年9月举行，训练时的目标场景是劳动争议的协商情况，测试时的目标场景是公司管理人员的职务变动情况，共有 1 6 家单位参加了这次会议。 m u c -6 的评测更为细致，强调系统的可移植性以及对文本的深层理解能力。除了原有的场景模式 ( s c e n a r i o t e m p l a t e s )填充任务外，又引入三个新的评测任务: 命名实体( n a m e d e n t i t y ) 识别、共指( c o r e f e r e n c e ) 关系确定、模式元素( t e m p l a t e e l e m e n t ) 填充等【s l u 1 最后一届m u c 会议m u c - 7 于1 9 9 8 年4月举行。训练时的目标场景是飞机失事事件，测试时的目标场景是航天器 ( 火箭/导弹) 发射事件。 m u c - 7 又增加了一项新任务模式关系任务，它意在确定实体之间与特定领域无关的关系17 1 共有 1 8 家单位参加了m u c - 7 评测。值得注意的是，在m u c - 6 和m u c - 7 中开发者只允许用四周的时间进行系统的移植，而在先前的评测中常常允许有6 - 9 个月的移植时间。在整个7 届m u c 会议的开展过程中，信息抽取的任务越来越复杂，从语料规模到模式结构都有极大的变化，然而参评系统的性能并未随之下降，这充分说明，信息抽取技术在过去十年间有了大幅度的提高。根据m u c 会议的定义，信息抽取就是从纯文本字符串形式的文本中提取信息并进行处理，将其放入标记着可填入信息类型的槽中。 m u c 会议定义的 i e 任务包括 5 个典型的提取阶段: 一n e ( n a m e d e n t i t i e s )命名实体的抽取: 提取文本中相关的命名实体，包括东北大学硕士学位论文第一章绪论人名、地名的抽取，时间、时间、钱币和百分数的抽取、专有名词的抽取、隐含指代名词和集合名词的抽取。命名实体的自动抽取能力已近似于人i抽取; 一t r ( t e m p l a t e r e l a t i o n s ) 实体关系的提取: 提取命名实体之间的各种关系 ( 事实)，比如某些疾病的因果关系; 一s t ( s c e n a r i o t e m p l a t e )脚本模式任务: 提取预定义的事件信息，把此信息和参与该事件的组织、人和人工物品关联起来，比如公司宣布破产、合并的消息、原因等等; 一c o r e f e r e n c e r e s o l u t i o n 共指消解:捕捉关于互指表达的信息，包括那些己在n e , t r任务中做了标记的对于某个命名实体的所有表述，进行代词、名词的共指消解; 一t e m p l a t e m e r g e r: 相同事件的合并; 由m u c - 6 和m u c -7 对信息抽取系统的评测结果看，篇章处理能力是目前信息抽取系统的弱项，是一个瓶颈，急需深入研究与改进。表1 . 1 所示为m u c - 7 会议上的取得最好成绩的参评系统s r p1 在评测中的各项主要指标，它代表了当前信息抽取研究所能达到的最高水平: 表1 . 1 m u c -7 会议上s r a 系统的评测结果 t a b l e 1 . 1 e v a l u a ti o n r e s u l t s o f s r a s y s t e m i n mu c - 7 s r a 公司的系统 r e c a l lp r e c i s i o nf - s c o r e t e8 6 %8 7 %8 6 . 7 6 % t r6 7 %8 6 %7 5 石3 % s t4 2 %6 5 %5 0 . 7 9 % 目前英文系统在命名实体和实体关系 ( t e , t r ) 识别方面己达到或接近实用的水平。但在真正的信息提取( s t 任务 ) 方面，则还有许多问题需要探索，而这些问题中的大部分都涉及到了自然语言处理中的核心难题. mu c会议停办后，推动信息抽取研究进一步发展的动力来自于美国国家标准技术研究所 ( n i s t ) 组织的自动内容抽取 ( a c e ) 评测会议 19 1 。该项评测于2 0 0 0 年1 2 月正式启动，旨在开发自动内容抽取技术以支持不同来源的语言文本的自动处理。研究的主要领域是抽取新闻语料中出现的实体、关系、事件等。与mu c会议相比， a c e 评测并不针对某个具体领域或场景，采用以漏报率和误报率为基础的一套评价体系，并将把信息抽取技术研究引向新的高度。东北大学硕士学位论文第一章绪论在中文信息抽取方面，研究的起步比较晚，而且由于中文的特殊性，信息抽取的水平与国外相比有所差距。台湾大学( n a t i o n a l t a iw a n u n i v e r s i ty ) 的一个t e 系统 7 1参加了m u c - 7 , 测试了中文命名实体( 人名、地名、时间、事件等名词性短语) 的识别，取得了与英文命名实体识别系统相近的性能。不过这只是作了比较初步的处理，并不能真正进行中文信息提取。完整的中文信息提取系统尚未在m u c中见报道。 1 .3本文的主要工作本文在中文信息抽取任务的背景下，针对文本预处理和规则自动学习技术进行了研究。本文设计实现了一个文本预处理模块，用于在无标注的纯文本上识别简单的实体，可以识别的实体类型有金钱、时间、电话、网址、纯数字和其他字符等。识别的过程通过有限状态自动机匹配来完成。在设计自动机的时候，我们从工 n t e r n e t 上收集了大量实例，对不同类型的实体结构进行了充分的分析。在大规模人民日报语料上的测试结果表明，该文本预处理模块可以准确地识别各种类型的简单实体，为下一步的中文分词模块提供了较好的基础。本文还对信息抽取中的规则自动获取技术进行了研究，由于所要抽取的目标信息在文本中出现的格式十分灵活，而且位置分散，因此大多数的信息抽取系统都是基于规则 ( 模板) 进行抽取的。规则用于定位槽填充子 ( s l o t f i l l e r ) 和确定填充子之间的关系。规则库的建立对信息抽取系统的性能起着关键作用口本文在归纳逻辑编程的框架下提出了一种多槽规则自动获取技术。得益于一阶逻辑丰富的表达能力，归纳逻辑编程方法可以学习复杂的关系型和嵌套概念，非常适合于规则的描述。现有的基于归纳学习的信息抽取算法如s r v c i u z 3 1 b t 和 r a i p e r ) (is ，仅能实现单槽规则的学习，然而在很多情况下，单槽信息是不够的，必须把孤立的信息联系起来，实现多槽抽取，才能满足实际的需要。本文实现了一阶逻辑下的多槽规则的自动获取。在生成规则时无须传统的语法语义分析和复杂命名实体识别过程，大大降低了对资源的要求。为了进行对比实验，我们还实现了零阶规则自动获取算法w h i s k ，实验结果表明，本文的算法自动获取的规则相对w h 工 s k 具有更高的准确率、召回率和更好的扩展性，解决了知识表示和知识获取的瓶颈问题。根据文本预处理模块和规则自动学习算法，我们利用实验室现有的东北大学硕士学位论文第一章绪论在中文信息抽取方面，研究的起步比较晚，而且由于中文的特殊性，信息抽取的水平与国外相比有所差距。台湾大学( n a t i o n a l t a iw a n u n i v e r s i ty ) 的一个t e 系统 7 1参加了m u c - 7 , 测试了中文命名实体( 人名、地名、时间、事件等名词性短语) 的识别，取得了与英文命名实体识别系统相近的性能。不过这只是作了比较初步的处理，并不能真正进行中文信息提取。完整的中文信息提取系统尚未在m u c中见报道。 1 .3本文的主要工作本文在中文信息抽取任务的背景下，针对文本预处理和规则自动学习技术进行了研究。本文设计实现了一个文本预处理模块，用于在无标注的纯文本上识别简单的实体，可以识别的实体类型有金钱、时间、电话、网址、纯数字和其他字符等。识别的过程通过有限状态自动机匹配来完成。在设计自动机的时候，我们从工 n t e r n e t 上收集了大量实例，对不同类型的实体结构进行了充分的分析。在大规模人民日报语料上的测试结果表明，该文本预处理模块可以准确地识别各种类型的简单实体，为下一步的中文分词模块提供了较好的基础。本文还对信息抽取中的规则自动获取技术进行了研究，由于所要抽取的目标信息在文本中出现的格式十分灵活，而且位置分散，因此大多数的信息抽取系统都是基于规则 ( 模板) 进行抽取的。规则用于定位槽填充子 ( s l o t f i l l e r ) 和确定填充子之间的关系。规则库的建立对信息抽取系统的性能起着关键作用口本文在归纳逻辑编程的框架下提出了一种多槽规则自动获取技术。得益于一阶逻辑丰富的表达能力，归纳逻辑编程方法可以学习复杂的关系型和嵌套概念，非常适合于规则的描述。现有的基于归纳学习的信息抽取算法如s r v c i u z 3 1 b t 和 r a i p e r ) (is ，仅能实现单槽规则的学习，然而在很多情况下，单槽信息是不够的，必须把孤立的信息联系起来，实现多槽抽取，才能满足实际的需要。本文实现了一阶逻辑下的多槽规则的自动获取。在生成规则时无须传统的语法语义分析和复杂命名实体识别过程，大大降低了对资源的要求。为了进行对比实验，我们还实现了零阶规则自动获取算法w h i s k ，实验结果表明，本文的算法自动获取的规则相对w h 工 s k 具有更高的准确率、召回率和更好的扩展性，解决了知识表示和知识获取的瓶颈问题。根据文本预处理模块和规则自动学习算法，我们利用实验室现有的东北大学硕士学位论文第一章绪论 c i p s e g s d k 分词系统，设计实现了完整的中文信息抽取系统。本文的余下部分是这样组织的: 在第二章，介绍目前信息抽取领域的各种规则获取算法及其优缺点;第三章详细介绍基于有限状态自动机匹配的文本预处理模块的功能和工作流程;第四章首先概述归纳逻辑编程，简介相关算法s r v 及其实现方法，然后描述本文提出的多槽规则自动获取算法;第五章介绍中文信息抽取系统的设计，并简介对比系统w h i s k 及其实现，接下来给出两个信息抽取系统的对比实验结果，最后对本系统的优缺点进行分析;第六章总结全文的工作，展望未来的研究和改进方向。东北大学硕士学位论文第二章规则自动获取方法综述第二章规则自动获取方法综述 2 . 1自由式、结构化和半结构化文本自由式文本通常指具有完整句法意义的文本。例如，新闻文本。处理自由文本的信息抽取系统通常使用自然语言处理技巧，其抽取规则主要建立在词或词类间句法关系的基础上。需要经过的处理步骤包括:句法分析、语义标注、专有对象的识别 ( 如人物、公司)和抽取规则。规则可由人工编制，也可从人工标注的语料库中自动学习获得。结构化文本是一种数据库里的文本信息，或者是根据事先规定的严格格式生成的文本。从这样的文本中抽取信息是非常容易的，准确度也高，通过描述其格式即可达到目的。所用的技巧因而相对简单。半结构化文本是一种界于自由文本和结构化文本之间的数据，通常缺少语法，象电报报文，也没有严格的格式。用自然语言处理技巧对这样的文本并不一定有效，因为这种文本通常连完整的句子都没有。因此，对于半结构化文本不能使用传统的信息抽取技巧，同时，用来处理结构化文本的简单的规则处理方法也不能奏效。在半结构化文本中确实存

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）面向信息抽取的文本预处理和规则自动学习技术研究.pdf

文档简介

温馨提示

最新文档

评论