(计算机应用技术专业论文)面向信息抽取的文本预处理和规则自动学习技术研究.pdf_第1页
(计算机应用技术专业论文)面向信息抽取的文本预处理和规则自动学习技术研究.pdf_第2页
(计算机应用技术专业论文)面向信息抽取的文本预处理和规则自动学习技术研究.pdf_第3页
(计算机应用技术专业论文)面向信息抽取的文本预处理和规则自动学习技术研究.pdf_第4页
(计算机应用技术专业论文)面向信息抽取的文本预处理和规则自动学习技术研究.pdf_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东4 t 大学硕士学位论文才 9 要 面向信息抽取的文本预处理和规则自 动学习技术研究 摘要 随着i n t e rn e t 技术的快速普及和迅猛发展, 网上信息爆炸式增长, 如何从中找到 真正有用的信息成为人们关注的焦点。 作为深层数据挖掘技术的先驱, 信息抽取 技术可以通过对文本的淡层分析,快速准确地从海量信息源中提取出用户感兴趣 的信息,从而成为自 然语一言 处理领域的一个热点研究课题 信息抽取的任务是从文木中抽取字符串形式的信息, 并将此信息填入带标记的 槽中, 来表明其含义。该技术是许多自 然语言处理技术的综合运用,涉及的内 容 包括文本预处理、文本结构分析、篇章关联推导等。大多数的信息抽取系统都是 基于规则进行抽取的。规则库的建立对信息抽取系统的性能起着关键作用。本文 对信息抽取中的文本预处理和规则的自 动学习技术进行了研究。 在文本预处理方面, 本文用有限状态自 动机实现了简单实体的识别, 可识别的 实体类型有金钱、时间、电子邮件、电话、网址、纯数字和其他字符等。自 动机 的设计充分考虑了各种类别的实体的文本结构特点,在大规模人民日 报语料上测 试时取得了很好的识别效果。 传统的信息抽取系统由专家手工书写规则, 规则库的构造是知识获取的瓶颈问 题,规则的知识表示能力也是限制抽取效果的障碍之一。基于一阶谓词逻辑的归 纳逻辑编程技术可以自 然地描述和学习复杂的关系,非常适合于信息抽取规则中 的知识表示和自 动生成。 本文在归纳逻辑编程的框架下提出了一种多槽规则自 动 获取方法,解决了信息抽取中知识获取和知识表示的瓶颈问题。规则具有很好的 扩展性,且在生成规则时无须传统的语法语义分析和复杂命名实体识别过程,大 大降低了对资源的要求。实验结果表明,本方法获取的规则,相较零阶逻辑下的 规则,具有更高的准确率和召回率。 根据以上给出的文本预处理技术和规则自 动学习算法, 我们设计实现了完整的 中文信息抽取系统。 关键词:信息抽取 文本预处理 有限状态自 动机 规则自 动获取 归纳逻辑编程 东北大学硕士学位论文 ab s t r a c t s t u d y o n t e x t p r e p r o c e s s i n g a n d a u t o ma t i c r u l e l e a r n i n g t e c h n o l o g y f o r i n f o r ma t i o n e x t r a c t i o n abs t r a c t wi t h t h e r a p i d p o p u l a r i z a t i o n a n d d e v e l o p m e n t o f t h e i n t e rn e t t e c h n o l o g y , t h e a m o u n t o f o n - l i n e i n f o r ma t i o n g r o w s e x p l o s i v e l y . c o m m o n f o c u s h a s a r i s e n a s t o h o w t o fi n d u s e f u l i n f o r m a t i o n fr o m t h e h u g e s o u r c e . a s t h e p r e c u r s o r o f d e e p d a t a m i n i n g t e c h n o l o g y , i n f o r m a t i o n e x t r a c t i o n c a n e x t r a c t s p e c i f i e d f a c t s f r o m n a t u r a l l a n g u a g e d o c u m e n t s t h r o u g h s h a l l o w a n a l y s i s , t h u s b e c o m i n g a h o t r e s e a r c h t o p i c i n n a t u r a l l a n g u a g e p r o c e s s i n g i n f o r m a t i o n e x t r a c t i o n r e f e r s t o t h e t a s k o f e x t r a c t i n g i n f o r m a t i o n fr o m a t e x t i n t h e f o r m o f t e x t s t r i n g s w h i c h a r e p l a c e d i n t o s l o t s l a b e l e d t o i n d i c a t e t h e k i n d o f in f o r m a t i o n t h a t c a n f i l l t h e m . t h i s t e c h n o lo g y i s a n i n t e g r a t e d a p p l i c a t i o n o f m a n y n a t u r a l l a n g u a g e p r o c e s s in g t e c h n i q u e s , i n c l u d i n g t e x t p r e p r o c e s s i n g , t e x t s t r u c t u r e a n a l y s i s , in t e r - t e x t i n f e r e n c e a n d s o o n . m o s t i n f o r m a t i o n e x t r a c t io n s y s t e m s p e r f o r m e x t r a c t i o n o n t h e b a s i s o f p a tt e rn s ( ru l e s ) . t h e c o n s t r u c ti o n o f ru l e l ib r a ry d e t e r m i n e s t h e p e r f o r m a n c e o f t h e w h o l e e x t r a c ti o n s y s t e m . i n th is p a p e r w e s t u d y t h e t e x t p r e p r o c e s s i n g a n d a u t o m a t i c rul e a c q u i s i t i o n t e c h n o l o g y f o r i n f o r m a t i o n e x t r a c ti o n . i n t e x t p r e p r o c e s s i n g , w e r e a l i z e d t h e r e c o g n i ti o n o f s i m p l e n a m e d e n t i ti e s t h r o u g h d e t e r m i n i s t i c f i n i t e a u t o m a t o n . r e c o g n i z a b l e e n ti t y t y p e s i n c l u d e m o n e y , ti m e , e m a i l , p h o n e n u m b e r , w e b a d d r e s s , n u m b e r s t r i n g a n d o t h e r s y m b o l s . t h e d e s i g n o f a u t o m a t o n f u l l y c o n s i d e r s t h e c h a r a c t e r is ti c s o f e a c h k in d o f e n t i ty , a n d a c q u i r e d g o o d r e c o g n i t i o n re s u l t s w h i l e t e s t i n g o n l a r g e - s c a l e p e o p l e d a i l y c o r p u s . t r a d i t io n a l i n f o r m a ti o n e x t r a c ti o n s y s t e m s r e q u i re e x p e r ts t o b u i l d ru l e s b y h a n d t h e c o n s t r u c t i o n o f rul e b a s e i s t h e k n o w l e d g e a c q u i s i ti o n b o t t l e n e c k , a n d t h e k n o w l e d g e r e p r e s e n t a ti o n c a p a b i l i t y a l s o l i m i t s e x t r a c ti o n p e r f o r m a n c e . i n d u c ti v e l o g i c p r o g r a m m i n g ( i l p ) t e c h n i q u e b a s e d o n f i r s t - o r d e r p r e d i c a t e l o g i c c a n d e s c r ib e a n d l e a rn c o m p l e x r e l a t i o n s n a t u r a l l y , t h u s i s q u i t e s u i t a b l e f o r t h e k n o w l e d g e r e p r e s e n t a t i o n a n d a u t o m a t ic a c q u i s i t i o n o f ru l e s i n in f o r m a t io n e x t r a c ti o n . i n t h i s p a p e r w e p u t f o r w a r d a n a u t o m a ti c m u l ti - s l o t ru l e a c q u i s i ti o n m e t h o d u n d e r t h e i l p fr a m e w o r k a n d s o l v e d t h e k n o w l e d g e a c q u i s i ti o n a n d r e p re s e n t a ti o n b o tt l e n e c k . t h e l e a rn e d ru l e s h a v e g o o d e x p a n s i b i l i t y . l i n g u i s ti c r e s o u r c e r e q u i re m e n t i s l a r g e l y r e d u c e d b e c a u s e t r a d i ti o n a l s e m a n t i c a n d s y n t a c ti c a n a l y s i s a n d c o m p l e x n a m e d e n ti t y r e c o g n i ti o n p r o c e s s a r e n o l o n g e r n e c e s s a ry . e x p e r i m e n t a l r e s u l t s s h o w t h a t t h e ru l e s a c q u i r e d b y t h i s a l g o r i t h m a c h i e v e h i g h e r p r e c i s i o n a n d r e c a l l c o m p a r e d t o z e r o - o r d e r ru l e s . i i i 东北大学硕士学位论文ab s t r a c t a c c o r d i n g t o t h e t e x t p r e p r o c e s s i n g m e t h o d a n d r u l e l e a rn i n g a l g o r i t h m , w e i m p l e m e n t e d a c o m p l e t e c h i n e s e i n f o r m a t i o n e x t r a c t i o n s y s t e m . k e y w o r d : i n f o r m a t i o n e x t r a c t i o n , t e x t p r e p r o c e s s i n g , d e t e r m i n i s t i c f i n i t e a u t o m a t o n , a u t o m a t i c ru l e a c q u i s i t i o n , i n d u c t i v e l o g i c p r o g r a m m i n g n 独创性声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中取 得的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或 撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确 的说明并表示谢意。 学 位 论 文 作 者 签 各叶 娜 日期:l e o l p . i z 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学 位论文的规定:即学校有权保留并向国家有关部门或机构送交论文的 复印件和磁盘,允许论文被查阅和借阅。本人授权东北大学可以将学 位论文的全部或部分内 容编入有关数据库进行检索、交流。 ( 如作者和导师同意网上交流, 请在下方签名; 否则视为不同意。 ) 学 位 论 文 作 者 签 名 : i 哪 签字日期: ? , o ( p 、 i z 导 师 签 一 举 材 破 签 字 日 期 : -), e r . ; i 中 东北大学硕士学位论文第一章 绪论 第一章 绪论 1 . 1信息抽取概述 随着i n t e rn e t 技术的不断发展, 网上资源越来越丰富, 这使得互联网成为了一个 巨大的隐式信息源。如何从海量的半结构化或无结构网页文本中准确地提取出用 户感兴趣的信息,将其用规范的形式加以描述,使之可以存入关系数据库得到充 分 利用已 成为一个热点 研究 课题。 信息抽取 ( i n f o r m a t i o n e x t r a c t i o n ) 的目 的 就是 解决这个问题。 信息抽取的任务是从自 然语言文本中提取用户感兴趣的有用信息, 并用结构化 的形式加以描述。信息抽取的输入是一个文本集,输出结果是填好的模式 ( t e m p l a t e ) 。 模式中的 域称为槽( s l o t )槽的 填充子 ( s l o t fi l l e r ) 往往是实体 ( 实体是 具有一定意义的文本片段, 如人名) , 模式里标注出了槽之间的关系。 信息抽取过 程中使用的匹配规则称为模板( p a t t e rn ) . 比如, 从电子商务网站抽取出产品信息: 品名、 生产厂家、 价格、 产品用途等; 从新闻报道中抽取出恐怖事件的详细情况:时间、地点、作案者、受害者、袭击 目 标、使用的武器等:从经济新闻中抽取出公司发布新产品的情况:公司名、产 品名、发布时间、产品性能等;从病人的医疗记录中 抽取出症状、诊断记录、检 验结果、处方等等。 通常,被抽取出来的信息可以 直接存入数据库中,供用户查 询以及进一步分析利用。 信息抽取为人们提供了有力的信息获取工具, 帮助人们应对信息爆炸带来的严 重挑战。信息抽取与传统的信息检索 ( i n f o r m a t i o n r e t r i e v a l )虽同为信息获取 技术,却有着很大的不同.信息检索从文档集中检索相关文档,而信息抽取从文 档中抽取相关信息。 信息抽取突破了信息检索的局限性( 由 人来阅读、 理解、 提取) , 通过有限技术的 运用,在人们的实际需要和技术的发展现状之间实现了平衡。与 自 动文摘和文本理解任务相比,信息抽取定义了明确的 提取目 标及其特性,而自 动文摘和文本理解则没有预先规定目 标的特性,需要对多种多样的内 容进行分析 和处理。 在现实生活中, 信息抽取, 特别是网 上信息抽取技术为人们提供了大量有价值 的信息,电子商务领域的在线比价系统,就是信息抽取的重要应用,它推动了电 东北大学硕士学位论文第一章 绪论 第一章 绪论 1 . 1信息抽取概述 随着i n t e rn e t 技术的不断发展, 网上资源越来越丰富, 这使得互联网成为了一个 巨大的隐式信息源。如何从海量的半结构化或无结构网页文本中准确地提取出用 户感兴趣的信息,将其用规范的形式加以描述,使之可以存入关系数据库得到充 分 利用已 成为一个热点 研究 课题。 信息抽取 ( i n f o r m a t i o n e x t r a c t i o n ) 的目 的 就是 解决这个问题。 信息抽取的任务是从自 然语言文本中提取用户感兴趣的有用信息, 并用结构化 的形式加以描述。信息抽取的输入是一个文本集,输出结果是填好的模式 ( t e m p l a t e ) 。 模式中的 域称为槽( s l o t )槽的 填充子 ( s l o t fi l l e r ) 往往是实体 ( 实体是 具有一定意义的文本片段, 如人名) , 模式里标注出了槽之间的关系。 信息抽取过 程中使用的匹配规则称为模板( p a t t e rn ) . 比如, 从电子商务网站抽取出产品信息: 品名、 生产厂家、 价格、 产品用途等; 从新闻报道中抽取出恐怖事件的详细情况:时间、地点、作案者、受害者、袭击 目 标、使用的武器等:从经济新闻中抽取出公司发布新产品的情况:公司名、产 品名、发布时间、产品性能等;从病人的医疗记录中 抽取出症状、诊断记录、检 验结果、处方等等。 通常,被抽取出来的信息可以 直接存入数据库中,供用户查 询以及进一步分析利用。 信息抽取为人们提供了有力的信息获取工具, 帮助人们应对信息爆炸带来的严 重挑战。信息抽取与传统的信息检索 ( i n f o r m a t i o n r e t r i e v a l )虽同为信息获取 技术,却有着很大的不同.信息检索从文档集中检索相关文档,而信息抽取从文 档中抽取相关信息。 信息抽取突破了信息检索的局限性( 由 人来阅读、 理解、 提取) , 通过有限技术的 运用,在人们的实际需要和技术的发展现状之间实现了平衡。与 自 动文摘和文本理解任务相比,信息抽取定义了明确的 提取目 标及其特性,而自 动文摘和文本理解则没有预先规定目 标的特性,需要对多种多样的内 容进行分析 和处理。 在现实生活中, 信息抽取, 特别是网 上信息抽取技术为人们提供了大量有价值 的信息,电子商务领域的在线比价系统,就是信息抽取的重要应用,它推动了电 东北大学硕士学位论文第一章 绪论 子商务的蓬勃发展。信息抽取所研究的课题具有广阔的应用前景。 传统的信息抽取过程通常包含以 下步骤: 首先对文本进行浅层词法、 句法和语 法分析及过滤,并加以标注;然后使用规则匹配方法在标注好的文本中识别特定 的信息;接下来通过关联和推导等方式对上下文进行共指消解,获得标准的结构 化信息:最后将结果存储在数据库中。可见, 信息抽取是多种自 然语言处理技术 的综合应用,它需要比 较深入的语言处理基本理论和技术作为支撑,并可进一步 促进相关语言处理领域的发展,因而受到了世界各国的普遍重视。 信息抽取技术是近十年来发展起来的新领域,通过系统化、大规模的定量评 测机制推动研究向 前发展, 取得了丰硕的研究成果,也遇到许多新的挑战。 1 .2信息抽取研究的 发展历史 信息抽取的前身是文本理解。 人工智能研究者一直致力于建造能把握整篇文档 的精确内容的系统。这些系统通常只在很窄的知识领域范围内运行良 好,向其他 新领域移 植的 性能 去 p 很差【 fl 。 信息抽取技术的 初始研究开始于2 0 世纪6 0 年代中 期, 它以两个长期的、 研究 性的自 然语言处理项目 为代表图 。 美国纽约大学从6 0 年代中期开展,一直延续到8 0 年代的l i n g u i s t i c s t r i n g 项目 s 7 的主要研究内容是建立一套规模较大的英语计算语法, 用于从医疗领域的x 光报告和出院记录中抽取信息格式 ( i n f o r m a t i o n f o r m a t s )。该项研究所指的信 息格式实际上就是现在信息抽取系统中所说的 模式。 另一个代表性的项目 是在2 0 世纪7 0 年代由耶鲁大学的r o g e r s c h a n k 带领的 研究小组开展的有关故事理解的研究。他们设计实现了一个根据故事脚本理论建 立的 信息 抽取系 统f r u m p 0 。 该系统主 要用 于从新闻 报道中 抽 取信息。 它 首 次采 用了期望驱动与数据驱动相结合的处理方法,这种方法后来被许多信息抽取系统 所采用。 在这两个创始性的项目 之后, 第一个商业信息抽取系统a t r a n s 于8 0 年代面世, 该系统用于自 动处理银行间的帐目 转移信息,它采用了耶鲁大学的数据驱动技术 来填充模式。 此后不久, c a r n e g i e 工作组为路透社设计开发了称为j a s p e r 的新闻 事件抽取系统,它可以为记者提供候选新闻,大大节省他们准备稿件的时间。这 个阶段的另外一个实用商业系统名为s c i s o r , 是由g e 主持开发的, 用于商业领域 公司兼并事件的分析。 东北大学硕士学位论文第一章 绪论 子商务的蓬勃发展。信息抽取所研究的课题具有广阔的应用前景。 传统的信息抽取过程通常包含以 下步骤: 首先对文本进行浅层词法、 句法和语 法分析及过滤,并加以标注;然后使用规则匹配方法在标注好的文本中识别特定 的信息;接下来通过关联和推导等方式对上下文进行共指消解,获得标准的结构 化信息:最后将结果存储在数据库中。可见, 信息抽取是多种自 然语言处理技术 的综合应用,它需要比 较深入的语言处理基本理论和技术作为支撑,并可进一步 促进相关语言处理领域的发展,因而受到了世界各国的普遍重视。 信息抽取技术是近十年来发展起来的新领域,通过系统化、大规模的定量评 测机制推动研究向 前发展, 取得了丰硕的研究成果,也遇到许多新的挑战。 1 .2信息抽取研究的 发展历史 信息抽取的前身是文本理解。 人工智能研究者一直致力于建造能把握整篇文档 的精确内容的系统。这些系统通常只在很窄的知识领域范围内运行良 好,向其他 新领域移 植的 性能 去 p 很差【 fl 。 信息抽取技术的 初始研究开始于2 0 世纪6 0 年代中 期, 它以两个长期的、 研究 性的自 然语言处理项目 为代表图 。 美国纽约大学从6 0 年代中期开展,一直延续到8 0 年代的l i n g u i s t i c s t r i n g 项目 s 7 的主要研究内容是建立一套规模较大的英语计算语法, 用于从医疗领域的x 光报告和出院记录中抽取信息格式 ( i n f o r m a t i o n f o r m a t s )。该项研究所指的信 息格式实际上就是现在信息抽取系统中所说的 模式。 另一个代表性的项目 是在2 0 世纪7 0 年代由耶鲁大学的r o g e r s c h a n k 带领的 研究小组开展的有关故事理解的研究。他们设计实现了一个根据故事脚本理论建 立的 信息 抽取系 统f r u m p 0 。 该系统主 要用 于从新闻 报道中 抽 取信息。 它 首 次采 用了期望驱动与数据驱动相结合的处理方法,这种方法后来被许多信息抽取系统 所采用。 在这两个创始性的项目 之后, 第一个商业信息抽取系统a t r a n s 于8 0 年代面世, 该系统用于自 动处理银行间的帐目 转移信息,它采用了耶鲁大学的数据驱动技术 来填充模式。 此后不久, c a r n e g i e 工作组为路透社设计开发了称为j a s p e r 的新闻 事件抽取系统,它可以为记者提供候选新闻,大大节省他们准备稿件的时间。这 个阶段的另外一个实用商业系统名为s c i s o r , 是由g e 主持开发的, 用于商业领域 公司兼并事件的分析。 东北大学硕士学位论文第一章 绪论 信息抽取的大规模研究是2 0 世纪 8 0年代后期开始的。这主要得益于消息理 解系列会议 ( m u c , m e s s a g e u n d e r s t a n d i n g co n f e r e n c e )的 召开。正是m u c 系列 会议使信息抽取发展成为自 然语言处理领域一个重要分支,并一直推动这一领域 的研究向前发展。 mu c是美国政府支持的一个专门致力于真实新闻文本理解的例会, 从 1 9 8 7 年 开始到1 9 9 8 年, m u c 会议共举行了七届, 它由美国国防高级研究计划委员会( d a r p a , t h e d e f e n s e a d v a n c e d r e s e a r c h p r o j e c t s a g e n c y ) 资助。m u c 的显著特点并不 是会议本身, 而在于对信息抽取系统的 评测【5 , 。 只有参加信息抽取系统评测的单位 才被允许参加m u c 会议。在每次m u c 会议前,组织者首先向各参加者提供样例消 息文本和有关抽取任务的说明,然后各参加者开发能够处理这种消息文本的信息 抽取系统。在正式会议前,各参加者运行各自的系统处理给定的测试消息文本集 合。由 各个系统的输出结果与手工标注的标准结果相对照得到最终的评测结果。 最后才是所谓的会议,由 参与者交流思想和感受。 后来, 这种评测驱动的 会议模 式得到广泛推广,如 1 9 9 2 年开始举行的文本检索会议t r e c 等。 在m u c中, 衡量信息抽取系统的性能主要根据两个评价指标:召回率和准确 率幻 。 召回 率等于系统正确抽取的 结果占 所有可能 正确结果的比 例; 准确率等于系 统正确抽取的结果占 所有抽取结果的比例。为了综合评价系统的性能,通常还计 算召回率 ( r e c a l l )和准确率 ( p r e c i s i o n )的加权几何平均值,即f 指数。f 值 评价方法如下: ( 刀 z + 1 ) p r b z p+r 其中刀 是 一 个 预 设 值, 决 定 对p 侧 重还 是 对r 侧 重。 通 常 设 定 为1 , 这 样 用f 一个数值就可以看出系统的好坏。 1 9 8 7 年5 月在s a n d i e g o 举行了首届m u c 会议。所处理的文本是海军军事情 报。 会议是探索性的,没有明确的任务定义, 也没有制定评测标准,总共有4个 系统参加, 每个系统的输出格式都不一样。 会议提供了1 2 篇报道作为训练语料, 参评系统在2 篇未知消息文本上进行测试。 m u c -2 于 1 9 8 9 年5 月举行,共有 8 个系统参加,处理的文本类型与m u c -1 一样。 m u c - 2 开始有了明确的任务定义,规定了 模式以及槽的填充规则,提供了 统一形式的领域知识,抽取任务被明确为一个模式填充的过程。 m u c -3 于1 9 9 1 年5 月 举行,共有1 5 个系统参加, 抽取任务是从新闻报告中 东 u 大学硕士学位论文第一章 绪论 抽取拉丁美洲恐怖事件的信息, 定义的抽取模式由1 8 个槽组成。 m u c -3 会议开始 引入正式的评测标准,其中借用了 信息检索领域采用的一些概念,如召回率和准 确率等。 m u c -4 于 1 9 9 2 年 6月在m c l e a n 举行,共有 1 7 个系统参加,任务与m u c -3 一样,仍然是从新闻报告中抽取恐怖事件信息。但抽取模式变得更复杂了, 总共 由2 4 个槽组成。从这次会议开始m u c 被纳入t i p s t e r 文本项目 。 m u c -5 于 1 9 9 3 年8月举行, 共有 1 7 个系统参加( 美国1 4 个, 英国、 加拿大、 日 本各一个)。此次会议设计了两个目 标场景:金融领域中的公司合资情况、微 电子技术领域中四种芯片制造处理技术的进展情况。除英语外, m u c -5 还对日语 信息抽取系统进行了测试。 在本次会议上, 组织者尝试采用平均填充错误率( e r r , e r r o r p e r r e s p o n s e f i l l ) 作为主要评价指标。与以 前相比, m u c - 5 抽取任务的 复杂性更大,比 如公司合资场景需要填充 1 1 个种子模式总共4 7 个槽, 光任务描 述文档就有 4 0 多页。m u c -5 的模式和槽填充规范是m u c 系列评测中最复杂的。 m u c - 6 于 1 9 9 5 年9月举行, 训练时的目 标场景是劳动争议的协商情况, 测试 时的目 标场景是公司管理人员的职务变动情况,共有 1 6 家单位参加了这次会议。 m u c -6 的 评测更为细致,强调系统的可移植性以 及对文本的深层理解能力。除了 原有的场景模式 ( s c e n a r i o t e m p l a t e s )填充任务外,又引入三个新的评测任务: 命名实体( n a m e d e n t i t y ) 识别、 共指( c o r e f e r e n c e ) 关系确定、 模式元素( t e m p l a t e e l e m e n t ) 填 充 等【s l u 1 最后一届m u c 会议m u c - 7 于1 9 9 8 年4月举行。 训练时的目 标场景是飞机 失事事件, 测试时的目标场景是航天器 ( 火箭/导弹) 发射事件。 m u c - 7 又增加了 一项新任务 模式关系任务, 它意 在确定实体之间与 特定领域无关的关系17 1 共有 1 8 家单位参加了m u c - 7 评测。 值得注意的是, 在m u c - 6 和m u c - 7 中开发者只 允许用四周的时间进行系统的移植,而在先前的评测中常常允许有6 - 9 个月的移 植时间。 在整个7 届m u c 会议的开展过程中, 信息抽取的任务越来越复杂, 从语料规模 到模式结构都有极大的变化,然而参评系统的性能并未随之下降,这充分说明, 信息抽取技术在过去十年间有了大幅度的提高。 根据m u c 会议的定义, 信息抽取就是从纯文本字符串 形式的文本中提取信息并 进行处理,将其放入标记着可填入信息类型的槽中。 m u c 会议定义的 i e 任务包括 5 个典型的提取阶段: 一n e ( n a m e d e n t i t i e s )命名实体的 抽取: 提取文本中 相关的命名实体,包括 东北大学硕士学位论文第一章 绪论 人名、地名的抽取, 时间、时间、钱币和百分数的抽取、专有名词的抽取、隐含指 代名词和集合名词的抽取。命名实体的自 动抽取能力已 近似于人i抽取; 一t r ( t e m p l a t e r e l a t i o n s ) 实体关系的 提取: 提取命名实体之间的 各种关系 ( 事实),比如某些疾病的因果关系; 一s t ( s c e n a r i o t e m p l a t e )脚本模式任务: 提取预定义的事件信息,把此信 息和参与该事件的组织、人和人工物品关联起来,比 如公司宣布破产、合并的消 息、原因等等; 一c o r e f e r e n c e r e s o l u t i o n 共指消解:捕捉关于互指表达的 信息,包括那些 己 在n e , t r任务中做了标记的对于某个命名实体的所有表述,进行代词、名词 的共指消解; 一t e m p l a t e m e r g e r: 相同 事件的 合并; 由m u c - 6 和m u c -7 对信息抽取系统的评测结果看, 篇章处理能力是目 前信息 抽取系统的弱项,是一个瓶颈,急需深入研究与改进。 表1 . 1 所示为m u c - 7 会议 上的 取得最好 成绩的 参 评系统s r p1 在评测中 的 各 项 主要指标,它代表了当前信息抽取研究所能达到的最高水平: 表1 . 1 m u c -7 会议上s r a 系统的评测结果 t a b l e 1 . 1 e v a l u a ti o n r e s u l t s o f s r a s y s t e m i n mu c - 7 s r a 公司的系统 r e c a l lp r e c i s i o nf - s c o r e t e8 6 %8 7 %8 6 . 7 6 % t r6 7 %8 6 %7 5 石3 % s t4 2 %6 5 %5 0 . 7 9 % 目 前英文系统在 命名实体 和实 体关系 ( t e , t r ) 识别 方面己 达到 或接近实用的 水 平。 但在真正的 信息提取( s t 任务 ) 方面, 则还有许多问 题需要探索, 而这些问 题 中的大部分都涉及到了自 然语言处理中的核心难题. mu c会议停办后,推动信息抽取研究进一步发展的动力来自 于美国国家标准 技 术 研究 所 ( n i s t ) 组 织 的自 动内 容 抽 取 ( a c e ) 评 测 会议 19 1 。 该 项 评 测 于2 0 0 0 年1 2 月正式启动,旨 在开发自 动内 容抽取技术以支持不同来源的语言文本的自 动 处理。 研究的主要领域是抽取新闻语料中出现的实体、关系、 事件等。 与mu c会 议相比, a c e 评测并不针对某个具体领域或场景, 采用以 漏报率和误报率为基础 的一套评价体系,并将把信息抽取技术研究引向新的高度。 东北大学硕士学位论文第一章 绪论 在中文信息抽取方面, 研究的起步比较晚, 而且由于中文的特殊性, 信息抽取 的水平与国外相比 有所差距。台 湾大学( n a t i o n a l t a iw a n u n i v e r s i ty ) 的一个t e 系统 7 1参加了m u c - 7 , 测 试了中 文命名实体( 人名、 地 名、 时 间、 事 件等名 词性 短语) 的识别,取得了与英文命名实体识别系统相近的性能。不过这只是作了比较初步 的处理, 并不能真正进行中文信息提取。 完整的中文信息提取系统尚未在m u c中 见报道。 1 .3本文的主要工作 本文在中文信息抽取任务的背景下, 针对文本预处理和规则自 动学习技术进行 了研究。 本文设计实现了一个文本预处理模块, 用于在无标注的纯文本上识别简单的实 体,可以识别的实体类型有金钱、时间、电话、网址、纯数字和其他字符等。识 别的过程通过有限 状态自 动机匹配来完成。 在设计自 动机的时候, 我们从工 n t e r n e t 上收集了大量实例,对不同类型的实体结构进行了充分的分析。在大规模人民日 报语料上的测试结果表明,该文本预处理模块可以 准确地识别各种类型的简 单实 体,为下一步的中文分词模块提供了较好的基础。 本文还对信息抽取中的规则自 动获取技术进行了 研究, 由于所要抽取的目 标信 息在文本中出现的格式十分灵活,而且位置分散,因此大多数的信息抽取系统都 是基于规则 ( 模板) 进行抽取的。规则用于定位槽填充子 ( s l o t f i l l e r ) 和确定 填充子之间的关系。规则库的建立对信息抽取系统的性能起着关键作用口 本文在归纳逻辑编程的框架下提出了一种多槽规则自 动获取技术。 得益于一阶 逻辑丰富的 表达能力, 归纳逻辑编程方法可以学习 复杂的 关系型和嵌套概念, 非 常适合于规则的描述。 现有的基于归纳学习的 信息抽取算法如s r v c i u z 3 1 b t 和 r a i p e r ) (is ,仅能实现单槽规则的学习, 然而在很多情况下, 单槽信息是不够的, 必须 把孤立的信息联系起来,实 现多槽抽取, 才能满足实际的需要。 本文实 现了 一阶逻辑下的多槽规则的自 动获取。在生成规则时无须传统的 语法语义分析和复 杂命名实体识别过程,大大降低了对资源的要求。为了 进行对比实验,我们还实 现了 零阶规则自 动获取算法w h i s k , 实验结果 表明, 本文的算法自 动获取的 规则 相对w h 工 s k 具有更高的准确率、召回率和更好的扩展性, 解决了知识表示和知识 获取的瓶颈问题。 根据文本预处理模块和规则自 动学习算法, 我们利用实验室现有的 东北大学硕士学位论文第一章 绪论 在中文信息抽取方面, 研究的起步比较晚, 而且由于中文的特殊性, 信息抽取 的水平与国外相比 有所差距。台 湾大学( n a t i o n a l t a iw a n u n i v e r s i ty ) 的一个t e 系统 7 1参加了m u c - 7 , 测 试了中 文命名实体( 人名、 地 名、 时 间、 事 件等名 词性 短语) 的识别,取得了与英文命名实体识别系统相近的性能。不过这只是作了比较初步 的处理, 并不能真正进行中文信息提取。 完整的中文信息提取系统尚未在m u c中 见报道。 1 .3本文的主要工作 本文在中文信息抽取任务的背景下, 针对文本预处理和规则自 动学习技术进行 了研究。 本文设计实现了一个文本预处理模块, 用于在无标注的纯文本上识别简单的实 体,可以识别的实体类型有金钱、时间、电话、网址、纯数字和其他字符等。识 别的过程通过有限 状态自 动机匹配来完成。 在设计自 动机的时候, 我们从工 n t e r n e t 上收集了大量实例,对不同类型的实体结构进行了充分的分析。在大规模人民日 报语料上的测试结果表明,该文本预处理模块可以 准确地识别各种类型的简 单实 体,为下一步的中文分词模块提供了较好的基础。 本文还对信息抽取中的规则自 动获取技术进行了 研究, 由于所要抽取的目 标信 息在文本中出现的格式十分灵活,而且位置分散,因此大多数的信息抽取系统都 是基于规则 ( 模板) 进行抽取的。规则用于定位槽填充子 ( s l o t f i l l e r ) 和确定 填充子之间的关系。规则库的建立对信息抽取系统的性能起着关键作用口 本文在归纳逻辑编程的框架下提出了一种多槽规则自 动获取技术。 得益于一阶 逻辑丰富的 表达能力, 归纳逻辑编程方法可以学习 复杂的 关系型和嵌套概念, 非 常适合于规则的描述。 现有的基于归纳学习的 信息抽取算法如s r v c i u z 3 1 b t 和 r a i p e r ) (is ,仅能实现单槽规则的学习, 然而在很多情况下, 单槽信息是不够的, 必须 把孤立的信息联系起来,实 现多槽抽取, 才能满足实际的需要。 本文实 现了 一阶逻辑下的多槽规则的自 动获取。在生成规则时无须传统的 语法语义分析和复 杂命名实体识别过程,大大降低了对资源的要求。为了 进行对比实验,我们还实 现了 零阶规则自 动获取算法w h i s k , 实验结果 表明, 本文的算法自 动获取的 规则 相对w h 工 s k 具有更高的准确率、召回率和更好的扩展性, 解决了知识表示和知识 获取的瓶颈问题。 根据文本预处理模块和规则自 动学习算法, 我们利用实验室现有的 东北大学硕士学位论文第一章 绪论 c i p s e g s d k 分 词系 统, 设 计实 现了 完整的中 文 信息抽取系统。 本文的余下部分是这样组织的: 在第二章, 介绍目 前信息抽取领域的各种规则 获取算法及其优缺点;第三章详细介绍基于有限状态自 动机匹配的文本预处理模 块的功能和工作流程;第四章首先概述归纳逻辑编程,简介相关算法s r v 及其实 现方法,然后描述本文提出的多槽规则自 动获取算法;第五章介绍中文信息抽取 系统的设计,并简介对比系统w h i s k 及其实现, 接下来给出两个信息抽取系统的 对比实验结果,最后对本系统的优缺点进行分析;第六章总结全文的工作,展望 未来的研究和改进方向。 东北大学硕士学位论文第二章 规则自动获取方法综述 第二章 规则自 动获取方法综述 2 . 1自由式、结构化和半结构化文本 自由式文本通常指具有完整句法意义的文本。 例如, 新闻文本。 处理自由文本 的信息抽取系统通常使用自 然语言处理技巧,其抽取规则主要建立在词或词类间 句法关系的基础上。需要经过的处理步骤包括:句法分析、语义标注、专有对象 的识别 ( 如人物、公司)和抽取规则。规则可由人工编制,也可从人工标注的语 料库中自动学习获得。 结构化文本是一种数据库里的文本信息, 或者是根据事先规定的严格格式生成 的文本。从这样的文本中抽取信息是非常容易的,准确度也高,通过描述其格式 即可达到目的。所用的技巧因而相对简单。 半结构化文本是一种界于自由文本和结构化文本之间的数据,通常缺少语法, 象电报报文,也没有严格的格式。用自 然语言处理技巧对这样的文本并不一定有 效,因为这种文本通常连完整的句子都没有。因此, 对于半结构化文本不能使用 传统的 信息抽取技巧,同时,用来处理结构化文本的简单的规则处理方法也不能 奏效。 在半结构化文本中确实存

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论