(计算机软件与理论专业论文)基于ontology的股票信息抽取系统的研究与实现.pdf_第1页
(计算机软件与理论专业论文)基于ontology的股票信息抽取系统的研究与实现.pdf_第2页
(计算机软件与理论专业论文)基于ontology的股票信息抽取系统的研究与实现.pdf_第3页
(计算机软件与理论专业论文)基于ontology的股票信息抽取系统的研究与实现.pdf_第4页
(计算机软件与理论专业论文)基于ontology的股票信息抽取系统的研究与实现.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(计算机软件与理论专业论文)基于ontology的股票信息抽取系统的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 本文首先介绍了信息抽取的产生背景、技术内涵和基本应用,分析了信息抽取 系统体系结构、信息抽取的关键技术以及分类和衡量指标。本文还介绍了o n t o l o g y 和规则表达式的基本知识。在此基础上,本文提出了一种基于o n t o l o g y 和规则表 达式的信息抽取方法。在方法中,我们把信息抽取、规则表达式和o n t o l o g y 结合 起来,先利用领域o n t o l o g y 里的概念、关系、关键字等生成匹配模式,然后对文 章,句子进行语法分析预处理,再利用语法分析的结果和预定义的抽取规则一起对 文档进行抽取,最后把抽取的结果以记录的形式输出到数据库以便查询。 在本文中,我们根据上述方法并结合工程实际情况,设计了一个基于o n t o l o g y 的股票信息抽取系统并编写代码实现了这个系统。因此,在本文中,我们详细介绍了 系统的总体框架,系统的各主要模块的设计等。由于本系统是根据规则进行信息抽 取的,所以本文还着重说明了正则表达式和规则定义,介绍了正则表达式的基本语 法、规则定义格式以及自动产生抽取规则的算法等。 我们还详细介绍了本系统的实现方法,包括各个主要部分的数据结构,流程图 等。最后介绍了利用此系统对一些样本进行抽取后的结果并对结果进行了分析。 关键词:o n t o l o g y ;语法分析;匹配:信息抽取;规爱u 表达式 基于o n t o l o g y 的股票信息抽取系统的研究与实现 a b s t r a c t t h i sp a p e ri n t r o d u c e dt h eb a c k g r o u n d ,t e c h n o l o g ya n d a p p l i c a t i o no f i n f o r m a t i o ne x t r a c t i o n ,a n da n a l y s e dt h es y s t e ma r c h i t e c t u r e ,t h ek e y t e c h n o l o g y ,t h et a x o n o m ya n dw e i g h i n gm e a s u r e m e n to fi n f o r m a t i o n e x t r a c t i o n t h i sp a p e ra l s oi n t r o d u c e dt h eb a s i ck n o w l e d g eo fo n t o l o g y a n d r e g u l a re x p r e s s i o n a n d p r e s e n t e d a n a p p r o a c h t oe x t r a c ti n f o r m a t i o n b a s e do na n a p p l i c a t i o no n t o l o g yt h a td e s c r i b e dad o m a i no fi n t e r e s ta n d r e g u t a re x p r e s s i o n t h a td e f i n e de x t r a c t i o nr u l e i no u r a p p r o a c hw e c o m b i n e dt h ei n f o r m a t i o ne x t r a c t i o nw i m o n t o l o g y a n d r e g u l a re x p r e s s i o n w e f i r s t l yu s e d t h e c o n c e p t s ,r e l a t i o n s a n d k e y w o r d s o fd o m a i n o n t o l o g y t o g e n e r a t e i n f o r m a t i o ne x t r a c t i o n m a t c h i n gp a t t e r n sa u t o m a t i c a l l ya n d t h e nd i dg r m m a r p a r s i n go nt h et e x t a f t e rt h a tw eu s e dt h er e s u l to f g r a m m a rp a r s i n g a n di n f o r m a t i o ne x t r a c t i o nr u l e p r e d e f i n e d t od o i n f o r m a t i o ne x t r a c t i o no nt e x ta n da tl a s tg o tt h er e s u l t sa sal i s to fr e c o r d s f o r q u e r y a c c o r d i n gt ot h ea p p r o a c ha n de n g i n e e r i n gp r a c t i c ee n v i r o n m e n t ,w e d e s i g n e d a n o n t o l o g y b a s e ds t o c k i n f o r m a t i o n e x t r a c t o ns y s t e ma n dw r o t e s o m ec o d e st oi m p l e m e n tt h es y s t e m w ei n t r o d u c e dt h em a i ns t r u c t u r e a n dt h e d e s i g n i n gm e t h o d o fm a i nm o d u l e si nd e t a i l b e c a u s ew eu s e dt h e r e g u l a re x p r e s s i o n t oe x t r a c ti n f o r m a t i o n ,w ef o c u s e do ni n t r o d u c i n g r e g u l a re x p r e s s i o na n d r u l ed e f i n i t i o n ,i n t r o d u c e dt h eg r a m m a ro f r e g u l a r e x p r e s s i o n ,d e f i n i t i o no f r u l ea n dt h ea r i t h m e t i co f g e n e r a t i n ge x t r a c t i o n r u l ea u t o m a t i c a l l y a tl a s t ,w e p r o p o s e d am e t h o dt o i m p l e m e n tt h es y s t e mw h i c h i n c l u d e dd a t as c h e m a ,f l o wc h a r te t c a n da n a l y s e dt h ee x t r a c t i o nr e s u l to f t h es y s t e m k e y w o r d s :o n t o l o g y ;g r a m m a rp a r s e ;m a t c h i n g ;i n f o r m a t i o ne x t r a c t i o n ; r e g u l a re x p r e s s i o n 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 躲型日期瓣湖旧 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名塞盟导师签名:二邋 曰期:2 回f 年6 ) 月 1 日 基于o n t o l o g y 的股票信息抽取系统的研究与实现 1 1 信息抽取产生背景 第一章信息抽取概要 科学技术高速发展的今天,随着互联网络和信息高速公路的兴起,每天都有大 量的电子数据文件产生和进行交流。而实际上,人们根本无法通过阅读所有的数据 来获得他们需要的信息。因此如何快速、准确地从信息的海洋里获取重要信息成为 了信息处理研究的一个重要课题。信息抽取( i n f o r m a t i o ne x t r a c t i o n ,i e l l 3 1 是一 种新的信息处理技术,其目的是根据预定义的模版,从半结构化文本、非结构化文 本中抽取特定的信息。比如说从段新闻文本中抽取出事件的类型、时间、人物、 地点等。信息抽取系统不仅能帮助人们方便地找到所需信息,而且信息的内容经过 合理的分析和组织后,人们可以高效地获取所感兴趣的信息,并可在此基础上进一 步进行数据挖掘、文本生成等后续信息处理。这在信息量迅速增长的今天无疑是一 件极有意义的工作,因此信息抽取作为一门应用性的语言处理技术,近年来正受到 越来越多的重视。 1 2 信息获取的几种方式 目前在中文信息处理中的信息获取研究主要分为信息检索、自动文摘、信息抽 取和文本理解。信息检索技术目前主要采用关键字匹配法,文档的内容表示为某些 特征项的集合,查询的要求也用项来表达,检索的目的是查找哪些文档可能符合查 询的要求。其处理过程为,首先对查询进行预处理项扩展、增加同义词或者根据用 户前一次查询返回信息等。其目的是提高对查询要求的精确表示,然后对文档和其 它信息源进行索引,按字或词对全文做索引,如果对词做索引,则需要对文档进行 分词、词性标注、词组抽取等处理。最后比较查询和文档的类似性以决定哪些文档 是与查询相关的。然后用户自己查看文档,获取所需要的信息。这类信息检索,不 限任何领域,可以快速地返回相关的文档。然而,目前信息检索的正确率不是很高, 需要人工自己进行判断。其根本原因是文档内容和查询的表示都是一种不精确性表 示,文档特征项的选择是根据项在文档中出现的频率和它的分布,项之间的类似性 是取决于它们在文档中的分布情况。另一方面自然语言的同义性和多义性也造成了 检索的正确率不高,因为词和意义的关系是多对多的关系,即很多词可以用来表达 同一含义,而一个词可以有多种含义。计算机如果没有语义知识和背景知识,就很 难作出正确判断。 自动文摘研究如何利用计算机自动地从自然语言文本中提取摘要【4 】,并以语意 连贯的段落乃至篇章的形式输出。自动文摘没有事先规定的目标特性,需要对多种 多样的内容进行分析和处理,需要更深层次的语言知识。目前自动文摘产生的文摘 基于o n t o l o g y 的股票信息抽取系统的研究与实现 存在质量比较低,存在以下几个问题【5 】o ( 1 ) 不全面。对于多主题的文献,用自动摘 录方法生成的文摘有时仅包含了原文着重谈论的某个主题,而对于其它方面的内容 却只字不提,从而影响了文摘的全面性。这是由于自动摘录缺乏对文本结构的分析 而造成的。【2 ) 不简洁。作者常常在文章中的不同位置用不同形式的句子重复文章的 中心内容,以便起到强调的作用。这些句子都是关键句,很容易同时进入文摘,从 而造成文摘内容的冗余。( 3 】不连贯。文章是一个有机的整体,每一个句子通过省略、 指代、同义词、相同词以及内在的逻辑关系与其上下文融为一体。当把文章中不同 位置上出现的若干关键句连缀成一个段落时,这些关键句由于脱离了上下文而难以 准确地理解。同时,句子之间由于缺乏逻辑次序而显得杂乱无章,无法在整个段落 中构成平滑的概念流。用户在阅读这样的段落时需要进行猜测和推理,不但加重了 负担,有时还可能得出与原文不符的观点。自动文摘中的转换过程还仅限于对原文 信息的抽取,而采用更一般的概念对原文内容进行某种程度的概括,还无法实现。 信息抽取是为了进一步减轻人工劳动,让计算机帮你去查找你所需要的特定内 容。这就要求计算机具有一定的智能,通过文本分析、语段分析等过程抽取出用户 所需要的内容。与传统的信息检索技术比较,信息抽取技术有明显的优势:信息检索 只是通过单纯的匹配检索得当相关的文档,并不真正理会文档的实际内容信息,文 档被等同于无意义的词汇堆砌物:而信息抽取则是通过文本分析、语义分析、结构 化生成等过程提取出有效的信息内容。因而,可以认为信息抽取是信息检索的更进 一步,它不仅查找信息,而且替用户理解信息,并按用户指定的方式输出信息,是“更 高级的信息检索”。与传统的自动文摘比较,也有实质性的差异,即信息抽取是对一 个预先定义好的信息模版进行填充,是一种高度受限的信息处理过程。相对而言, 信息抽取更注意工程性和可操作性,通过使用有限程度的语言处理技术进行相当多 的信息发现和提取工作,它针对有价值的文本进行结构分析,其效率和质量显著提 高,也更容易面向实际应用,因此信息抽取技术的应用前景更好。 1 3 信息抽取技术简介 随着数字化信息资源的飞速增长,从自然语言的真实文本中抽取所需信息,对 加速信息检索的进程将起到愈来愈重要的作用。信息抽取是从一段文本中抽取指定 的一类信息( 例如事件、事实) 、并将其( 形成结构化的数据) 填入一个数据库中供用户 查询使用的过程。它的主要目标是让计算机不但找到相关的文档,而且还要找到相 关的内容。例如从关于计算机的文本中抽取设备名字,用途,生产厂家等特定信息。 一个典型的信息抽取任务是从在线文本中抽取相关的信息,填写到预定义好的模版 中的属性槽中。这种任务的主要优点在于当前文本与特定领域无关信息将被有效地 过滤掉,而深入的自然语言处理技术必须对整个文本进行完全分析。 基于o n t o l o g y 的股票信息抽取系统的研究与实现 特定领域的信息抽取系统任务与通用的自然语言理解任务不同【6 】。对于通用的 自然语言理解来说,系统必须对输入的句子进行深入分析,产生包含输入句子所有 意义( 包括隐含意义) 的表达。一般来说,理解分为两步:第一步通过句法分析将输入 的句子映射到个句法结构中,如句法树;第二步,通过句法到语义的转换分析实 现将句法结构映射到意义表达。而对于特定领域的信息抽取来说,是从一段文本中 抽取指定的一类信息并将其形成结构化的数据填入一个数据库中供用户查询使用的 过程。因需要抽取的信息的类型也是预先定义好的,在相关的句子中,只有一些携 带相关信息的短语单元才能被解释,输入的文本只能映射到一些有限数目的事件分 类,如关于爆炸事件,凶杀事件等等,所以完全句法分析和深入的语义解释是没有 必要的。不登对文章的全部进行全面的分析,而只是对有用的文章片段进行有限深 度的分析,其效率与灵活性都比较高。 信息抽取以模版框架为中枢,分为选择与生成两个阶段。模版框架是一张申请 单,它以空槽的形式抽取应从原文中获取的各项内容。例如,针对计算机病毒类的 文章可以提出如下的框架:病毒 病毒名称;病毒传染对象:病毒类属:病毒攻击对 象) 。在选择阶段,利用特征词从文本中抽取相关的短语或句子填充模版框架。例 如,在文本中发现“感染可执行文件”字样,则可以将特征词“感染”后面的短语“可 执行文件”作为病毒的感染对象填入模版框架。模版框架是带有空白部分的现成的套 话,其空白部分与模版框架中的空槽相对应。例如,“该病毒的感染对象是( 病毒传 染对象l ”是模版中的一个句子,因为在模版框架中登记的病毒感染对象为“可执行文 件”,因此在信息抽取中将输出这样的句子:“该病毒的传染对象是可执行文件”。 信息抽取一般可以分为这样几个方面( 由易到难l : ( 1 ) 命名实体的抽取。它包括组织机构、人名、地名的抽取,时间、日期、钱币 和百分数的抽取、专有名词的抽取、隐含指代名词和集合名词的抽取。如把所有的 人名、地名都提出来;把所有的机构团体名都提出来。 ( 2 ) 实体( 二元) 关系信息的抽取。比如某些疾病的因果关系,预置事件信息的抽 取等。例如,将有关公司宣布破产、合并的消息、原因抽取出来。把某某公司发布 推销产品都抽出来。 ( 3 ) 模版内容信息的抽取( 多元语义关系结构l 。用户预先设置模版,自动抽取用 户关心的详细内容,反映时间、地点、人物和发生的事件。如把所有报道打击走私 活动的报道都找出来,并按照事件的地点时间参与者分类、排序。 基于o n t o l o g y 的股票信息抽取系统的研究与实现 1 4 信息抽取的技术内涵 1 4 1 信息抽取系统的实现一般方法f 7 】 i 知识工程方法。 目前大多数信息抽取系统采用基于知识的方法。例如专家系统驱动技术,模版 驱动技术,基于脚本等等。由专家对语料库进行分析、调整从而人工制定规则、模 版。比如对命名实体( 人、公司、地方、单位的名称) 的识别,可以采用基于规则的 方法,采用有限状态自动机来实现。 2 自动训练方法。 虽然基于知识的方法在特定领域内被证明是十分有效,但最主要的问题是在于 大规模知识库的构造,由人工来构造大规模知识库是不可行的。为了解决这个问题, 必须引入其他自然语言处理技术,加强有力的机器学习技术等等。给出标注的例子 文档集,通过机器学习来推导模版和模版的自动填充规则,也可以应用统计学的方 法来抽取,比如中文入名的抽取。 1 4 2 信息抽取系统所涉及的技术 i 、词典、词切分和词性标注【8 】 制作一个规模适当、分级合理并可灵活配置的词典是建造中文信息抽取系统的 第一步; 2 、适用于中文信息抽取的短语句法及语义分析 包括句法成分的识别与标引,关键词提取,检索特征集的提取、索引等。 3 、适用于信息抽取的句群分析与篇章表示 这些技术包括表达语句间成分的传递,指代、引用信息表的建立和使用,“t h i s 指针” 当前语义焦点f o c u s ) 的维护,以及概念关系的推理等。 1 4 3 信息抽取系统的工作过程 典型的信息提取系统的内部工作过程主要包括如下几个步骤: f 1 ) 用一组信息模式( i n f op a t t e r n s ) 描述感兴趣的信息。信息模式通常可表示为 简单的一个句式,例如( 公司名) “推出”( 产品名) 。系统可以针对某一领域的信息 特征预定义好一系列的信息模式,存放在模式库中供用户选用。 f 2 ) 对文本进行预处理。采用特征词频率统计和特定模式匹配过滤掉当前文本中 与特定领域无关信息。 ( 3 ) 对文本进行进行“适度的”( 浅层、非完整的) 词法、句法及语义分析,对文本 基于o n t o l o g y 的般票信息抽取系统静研究与实现 中包含的特定领域的主要名词短语单元f 人名、机构名、产品名、事件、地点等实体1 进行分析( 识别) ,同时对它们标注语义信息( 实体属性) ,并作各种文本标引。这需要 合适的词典、构词规则库等知识库的支持。 ( 4 ) 使用模式匹配方法实现事件模版的构造,建立实体之间的联系。通常采用基 于知识的句子分析技术,将识别的名词短语单元( 实体) 映射到一个结构( 事件模版) 中,同时标注它们的角色。 ( 5 ) 采用语段分析技术实现句子相关分析,进行上下文关联、指引、引用等分析 和推理,对句子层获得的结构实现重载和合并,解决语段的指代和省略问题,构造 一个完整的实体事件,确定信息的最终形式。 6 ) 格式化分析结果( 实体事件) ,输出到预定义好的模版中,输出结果( 例如生成 一个关系数据库或给出自然语句陈述等1 0 1 5 信息抽取技术的应用 自8 0 年代以来,国内外许多大学、公司和研究机构对信息抽取技术展开了有 计划的、长期系统的研究与应用工作,取得了一些成果并有许多相关的应用。在国 外,有专门的机构组织各种评测活动,对当前的信息抽取技术的研究成果进行评估, 如著名的m u c ( m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e s ) 是一个由美国国防部高 级研究计划署资助的系列工程,有许多大学、研究所参加,至今已主办了7 届。其 宗旨是评价当今信息提取技术的水平,促进机器理解信息技术的发展。由其定义的 概念、模型和技术规范在国际上对整个信息提取领域起着主导的作用。目前在信息 处理中,信息抽取技术应用的范围很广泛,如: ( 1 j 信息抽取技术可以应用于传统的信息检索系统之中,把信息检索和信息抽取 结合为一体的信息获取系统,信息检索中,只用关键字来表达用户的查询是不够精 确的,在信息检索完成之后再对相关的文本进行指定的信息提取,使单纯的信息查 找过程进一步变成信息匹配( 理解) 过程,检索结果的输出不只是文档地址或整个文 档内容,而是用户所需要的特定内容,例如所有包含关键字的句子。这样在不降低 通用性的基础上可以提高信息查询的查准率,从而把传统的信息检索系统变成智能 系统,以用户要求的方式输出信息,满足用户对输出结果的要求。例如,大型联机 检索系统、图书情报检索系统、网页搜索引擎等都可加入信息抽取技术进行改进。 ( 2 ) 信息抽取技术集成到数据库应用系统中。从非结构化或半结构化的信息中生 成结构化的信息,从而构成数据库。这些结构化的信息具有广泛的用途,如数据查 询,生成总结,建立文本索引等。使用户能够快速方便地抽取指定的信息。如 s c i s o r 系统采用文本部分分析技术,对所有关于公司信息进行信息过滤,然后从 文本中抽取关于公司名字等条目存入数据库中,供查询使用。 基于o n t o l o g y 的股票信息抽取系统的研究与实现 ( 3 ) 在线新闻信息的抽取。如d e j o n g g 实现的f r u m p 2 系统把有线新闻网络 作为数据源,使用一些新闻故事的简单脚本来对有线新闻网络进行监控。f r u m p 系统采用关键字检索、概念句子分析、脚本匹配方法寻找相关的新闻故事。 ( 4 ) 网页信息抽取系统,从w e b 网页中抽取出所需要的信息,已成为互联网信 息搜索与集成研究领域中一个重要的研究课题1 9 】。这个新的研究课题,虽只有几年 的研究历史,却已取得了许多重要的研究成果。其中具有代表性的就有w h i s k 、 r a p i e r 、s r v 、s t a l k e r 等 ( 5 1 自动文摘和深层的文本信息挖掘、数据库的深加工等。 基于o n t o l o g y 的般票信息抽取系统的研究与实现 第二章体系结构及技术分析 2 1 信息抽取系统体系结构 h o b b s 曾提出一个信息抽取系统的通用体系结构 1 8 1 。h o b b s 认为典型的信息 抽取系统应当由依次相连的十个模块组成: ( 1 ) 文本分块;将输入文本分割为不同的部分块。 ( 2 ) 预处理:将得到的文本块转换为句子序列,每个句子由词汇项( 词或特定类 型短语) 及相关的属性( 如词类) 组成。 ( 3 1 过滤:过滤掉不相关的句子。 ( 4 ) 预分析:在词汇项( l e x i c a li t e m s ) 序列中识别确定的小型结构,如名词 短语、动词短语、并列结构等。 【5 j 分析:通过分析小型结构和词汇项的序列建立描述句子结构的完整分析树或 分析树片段集合。 ( 6 ) 片段组合:如果上一步没有得到完整的分析树,则需要将分析树片段集合或 逻辑形式片段组合成整旬的一棵分析树或其他逻辑表示形式。 7 ) 语义解释:从分析树或分析树片段集合生成语义结构、意义表示或其他逻辑 形式。 ( 8 ) 词汇消歧:消解上一模块中存在的歧义得到唯一的语义结构表示。 ( 9 ) 篇章处理;通过确定同一实体在文本不同部分中的不同描述将当前句子的语 义结构表示合并到先前的处理结果中。 ( 1 0 ) 模板生成:由文本的语义结构表示生成最终的模板。 当然,并不是所有的信息抽取系统都明确包含所有这些模块,并且也未必完全遵循 以上的处理顺序,比如3 ) 、4 ) 两个模块执行顺序可能就相反。但一个信息抽取系 统应当包含以上模块中描述的功能。图2 1 给出了美国纽约大学p r o t e u s 信息抽取 系统 1 5 1 的体系结构,具有一定的代表性。 基于o n t o l o g y 的股票信息抽取系统的研究与实现 图2 1 纽约大学p r o t e u s 信息抽取系统体系结构 2 2 信息抽取中的一些关键技术 2 2 1 知识获取 作为一种自然语言处理系统,信息抽取系统需要强大知识库的支撑。在不同的 信息抽取系统中知识库的结构和内容是不同的,但一般来说,都要有:一部词典 ( l e x i c o n ) ,存放通用词汇以及领域词汇的静态属性信息:一个抽取模式库 ( e x t r a c t i o np a t t e r n sb a s e ) ,每个模式可以有附加的( 语义) 操作,模式库通 常也划分为通用部分和领域( 场景) 专用部分;一个概念层次模型( o n t o l o g y ) , 通常是面向特定领域或场景的,是通用概念层次模型在局部的细化或泛化。除此之 外,可能还有篇章分析和推理规则库、模板填充规则库等。 如前所述,信息抽取系统通常是面向特定应用领域或场景的。这种领域受限性 决定了信息抽取系统中用到的主要知识是所谓的浅层知识。这种知识的抽象层次不 高,通常只适用于特定应用领域,很难在其他领域复用。如果要把一个信息抽取系 统移植到新的领域或场景,开发者必须要为系统重新编制大量的领域知识。一般说 来,手工编制领域知识往往是枯燥的、费时的、易错的,费用较高,并且只有具有 专门知识( 应用领域知识、知识描述语言知识,熟悉系统的设计与实现) 的人员才 基于o n o l o g y 酌股票信息抽取系统的研究与实现 能胜任这种工作。另外,由于自然语言中存在的”长尾”综合效应( l o n gt a i l s y n d r o m e ) 或称z i p f 法则,人工编制的知识库很难达到很高的语言覆盖面。因此, 知识获取问题已经成为制约信息抽取技术广泛应用的一个主要障碍。它除了影响系 统的可移植性外,也是影响系统性能的主要因素。正因为如此,近几年召开的多次 专题学术研讨会都是以解决知识获取问题、建立具有自适应能力的信息抽取系统为 主题的。 领域知识获取可以采用的策略通常有两种:手工+ 辅助工具( g u d ;自动半 自动+ 人工校对。前者相对简单一些,人工工作仍然是主体,只是为移植者提供了 一些图形化的辅助工具,以方便和加快领域知识获取过程。后者采用有指导的、无 指导的或间接指导的机器学习技术从文本语料中自动或半自动获取领域知识,人工 干预程度较低。实际上,这两种策略不是完全对立的,只是自动化程度高低不同而 已。某种意义上讲,第一种策略仍然是一种人工编制知识库的过程,知识瓶颈问题 只是得到某种程度的缓解。第二种策略才是解决信息抽取系统知识获取瓶颈问题的 真正出路。近几年有不少研究者采用自扩展( b o o t s t r a p p i n g ) 抽取模式。 2 2 2 篇章分析与推理 一般说来,用户关心的事件和关系往往散布于文本的不同位置,其中涉及到的 实体通常可以有多种不同的表达方式,并且还有许多事实信息隐含于文本之中。为 了准确而没有遗漏地从文本中抽取相关信息,信息抽取系统必须能够识别文本中的 共指现象,进行必要的推理,以合并描述同一事件或实体的信息片段。因此,篇章 分析、推理能力对信息抽取系统来说是必不可少的。 初看起来,信息拙取中的篇章分析比故事理解中的篇章分析要简单得多。因为 在信息抽取中只需要记录某些类型的实体和事件。但是,大多数信息抽取系统只识 别和保存与需求相关的文本片段,从中抽取出零碎的信息。在这个过程中很可能把 用以区分不同事件、不同实体的关键信息给遗漏了。在这种情况下要完成篇章分析 是相当困难的。 除此之外,目前尚缺乏有效的篇章分析理论和方法可以借鉴。现有篇章分析理 论大多是面向人、面向口语的,需要借助大量的常识,它们设想的目标文本也比真 实文本要规范,并且理论本身也没有在大规模语料上进行过测试。 信息抽取系统除了要解决文本内的共指问题外,还需要解决文本间的( 跨文本 的) 共指问题。在文本来源比较广泛的情况下,很可能有多篇文本描述了同一个事 件、同一个实体,不同文本间还会存在语义歧义,如相同的词有不同的含义、不同 的词代表同一意思。为了避免信息的重复、冲突,信息抽取系统需要有识别、处理 这些现象的能力。 基于o n t o l o g y 的股票信息抽取系统的研究与实现 由m u c 一6 和m u c 一7 对信息抽取系统部分篇章处理能力( 即指称短语的共指 消解) 的评测结果看,篇章处理能力是目前信息抽取系统的弱项,是一个瓶颈,急 需深入研究与改进。 2 2 3 句法分析 通过句法分析得到输入的某种结构表示,如完整的分析树或分析树片段集合, 是计算机理解自然语言的基础。在信息抽取领域一个比较明显的趋势是越来越多的 系统采用部分分析技术,这主要是由于以下三方面原因造成的。 首先是信息抽取任务自身的特殊性,即需要抽取的信息通常只是某一领域中数 量有限的事件或关系。这样,文本中可能只有- - + 部分与抽取任务有关。并且,对 每一个句子,并不需要得到它的完整的结构表示,只要识别出部分片段间的某些特 定关系就行了,得到的只是完整分析树的部分子图。 其次是部分分析技术在m u c 系列评测中的成功。s r i 公司在其参加m u c 4 评测的f a s t u s 系统【1 8 】中开始采用层级的有限状态自动机分析方法。该方法使 f a s t u s 系统具有概念简单、运行速度快、开发周期短等优点,在多次c a d 评测 中都居于领先地位。 最后,部分分析方法盛行也是因为目前尚没有其他更好的选择。现在,完全分 析技术的鲁棒性以及时空开销都难以满足信息抽取系统的需要。但是,另一方面, 也要清醒看到:部分分析技术只能使信息抽取系统的处理能力达至u 目前的水平( f 一 指数小于6 0 ) ,要想使其性能有大的飞跃,必须探索更有效的分析技术。 2 2 4 命名实体识别 命名实体是文本中基本的信息元素,是正确理解文本的基础。狭义地讲,命名 实体是指现实世界中的具体的或抽象的实体,如人、组织、公司、地点等,通常用 唯一的标志符( 专有名称) 表示,如人名、组织名、公司名、地名等。广义地讲, 命名实体还可以包含时间、数量表达式等。至于命名实体的确切含义,只能根据具 体应用来确定。比如,在具体应用中,可能需要把住址、电子信箱地址、电话号码、 舰船编号、会议名称等作为命名实体。 命名实体识别就是要判断一个文本字符串是否代表一个命名实体,并确定它的 类别。在信息抽取研究中,命名实体识别是目前最有实用价值的一项技术。根据 m u c 评测结果f 1 9 ,英文命名实体识别任务的f 一指数( 召回率与准确率的加权几何 平均值,权重取1 ) 能达到9 0 以上。 命名实体识别的难点在于: ( 1 ) 在不同领域、场景下,命名实体的外延有差异; 基于o n t o l o g y 的股票信息抽取系统的研究与实现 ( 2 ) 数量巨大,不能枚举,难以全部收录在词典中; ( 3 ) 某些类型的实体名称变化频繁,并且没有严格的规律可以遵循; f 4 ) 表达形式多样; ( 5 ) 首次出现后往往采用缩写形式; 命名实体识别的方法主要分为:基于规则的方法和基于统计的方法。一般来说, 基于规则的方法性能要优于基于统计的方法。但是这些规则往往依赖于具体语言、 领域、文本格式,编制过程耗时且容易产生错误,并且需要富有经验的语言学家才 能完成。相比而言,基于统计的方法利用入工标注的语料进行训练,标注语料时不 需要广博的计算语言学知识,并且可以在较短时间内完成。因此,这类系统在移植 到新的领域时可以不做或少做改动,只要利用新语料训练一遍即可。此外,基于统 计的系统要移植到其他自然语言文本也相对容易一些。 2 3 各种信息抽取系统的技术比较【l o 信息抽取技术有多种分类方式,例如根据自动化程度就可以分为人工方式信息 抽取、半自动化的信息抽取和全自动方式的信息抽取。根据各种工具所采取的原理 将现有的工具分为以下5 类: ( 1 ) 基于自然语言处理方式的信息抽取: f 2 1 包装器归纳方式的信息抽取: ( 3 l 基于h t m l 结构的信息抽取; ( 4 ) 基于w e b 查询的信息抽取: ( 5 ) 基于o n t o l o g y 方式的信息抽取。 下面将对于后者分类方式,结台典型的系统,在语义的附加方式、模式的定义 方式、规则的表现形式、语义项的定位方式、对象的定位方式等几方面进行了分析 和比较。其中结构化的数据成为对象;模式的定义方式主要有2 神:信息抽取之前 给出对象模式的称为先模式,反之成为后模式。分析如下: 1 、基于自然语言处理方式的信息抽取 这类信息抽取主要适用于源文档包含大量文本的情况( 特别是针对合乎文法的 文章) ,在一定程度上借鉴了自然语言处理技术,利用子句结构、短语和子旬间的关 系建立基于语法和语义的抽取规则实现信息抽取。目前采用这种原理的典型系统有 r a p i e r ,s r v ,w h i s k 。下面结合比较典型的系统w h i s k 来详细说明这种方式 的信息抽取。 w h i s k 系统既适用于结构化,半结构化的文本,也适用于自由文本。结构化 和半结构化的文本,一般不符合文法,所以系统主要根据语义项的上下文实现感兴 趣信息的定位。此时基本上没有利用到自然语言处理技术,对这种情况这里不做详 基于o n t o l o g y 的股票信息抽取系统的研究与实现 细的分析。对自由文本,系统首先根据分割符将源文档分割成多个实例( 每个实例 是一个语义相关的文本快) 。在交互式的环境下,系统每一次呈现给用户组实例。 用户在可视化环境下根据系统提供的实例标记出感兴趣的信息并定义模式。系统使 用语法分析器和语义类( 如人名、机构名) 分析器,分析出用户标记信息的语法成 分和对应的语义类,生成基于语法标记和语义类标记的抽取规则,实现信息抽取。 系统采用了先模式的方式,对于结构化和半结构化的文本,规则采用正则表达式描 述了感兴趣语义项( 文本中的短语) 的上下文及语义项间的分割符,利用这些信息 达到识别感兴趣语义项的目的。对于自由文本,在定程度上利用了自然语言处理 技术的思想。信息抽取的实质是根据语义项对应的语义类、语义项的上下文和所处 的句子成分实现信息的定位( 如,某个语义项只能出现在句子的关系从句中) ,即根 据语义和语法的双重约束实现信息抽取。 2 、包装器归纳方式的信息抽取 包装器归纳方式的信息抽取根据事先由用户标记的样本实例应用机器学习方式 的归纳算法,生成基于定界符的抽取规则。其中定界符实质上是对感兴趣语义项上 下文的描述,即根据语义项的左右边界来定位语义项。该类信息抽取方式和基于自 然语言理解方式的信息抽取技术最大的不同在于仅仅是用语义项的上下文来定位信 息,并没有使用语言的语法约束。采用这种原理的典型系统有s t a l k e r , s o f t m e a l y 。w i e n 。下面根据s t a l k e r 系统详细分析这类信息抽取技术。 s t a l k e r 系统根据用户事先标记的样本页面和用户嵌入式分类树 ( e m b e d d e dc a t a l o gt r e e ) 形式提供的页面结构信息,应用逐步覆盖算法 ( s e q u e n t i a l c o v e r i n g a l g o r i t h m ) ,逐步归纳生成基于定界符的精确的抽取规则, 实现层次的信息抽取。 嵌入式分类树( e c t ) 在该系统中是一个重要的概念,它是用户根据页面结构 定义的嵌套模式。该树形结构一方面描述了页面的逻辑机构,另一方面提供了模式 信息和语义信息( 树中节点的名称) ,嵌入式分类树中有3 种类型的节点:根节点 ( 表示整个文档) 、内部非叶节点( 称为l i 8 t 节点,表示多个同类对象的列表) ,叶 节点( 表示对象的语义项) 。系统为每个叶节点生成普通的抽取规则,即用来定位语 义项;为l i s t 节点生成普通抽取规则和迭代规则,其中普通抽取规则用来定位多个 对象组成的信息块,然后应用迭代规则实现单个对象的定位。该系统之所以成为层 次的信息抽取是因为抽取是根据嵌入式分类树的层次进行的,并且某一节点的抽取 规则是对其父节点的抽取结果执行的。 该系统中语义的附加模式的定义是在用户定义嵌入式分类树阶段完成的,属于 先模式方式。信息定位的实质是使用左右边界识别出各语义项,然后再将各语义项 组装成一个对象。而该系统在一定程度上是按结构抽取和按文本抽取的结合。根据 基于o n t o l o g y 的股票信息抽取系统的研究与实现 嵌入式分类树先获得高层节点对应的大的文本块,然后再应用低层节点对应的抽取 规则,逐步获得想要的信息。该系统是在上次的结果中使用左右边界实现信息的定 位,并不是在整个文档中,所以抽取规则的形式相对简单,而且抽取的准确率相对 高一些。另外由于使用嵌入式分类树描述模式,所以可以抽取复杂的对象。但是规 则中的定界符不仅仅是由h t m l 标记组成,而且还有某类网页经常出现的关键词组 成。所以该类信息抽取不但对页面机构有所依赖,而且对网页的内容也有所依赖, 要想获得精确的抽取规则必须进行大量的样本训练。 3 、基于h t m l 结构的信息抽取 该类信息抽取的技术特点是,根据w e b 页面的结构定位信息。在信息抽取之 前通过解析器将w e b 文档解析成语法树,通过自动或半自动的方式产生规则,将 信息抽取转化为对语法树的操作实现信息抽取。采用该类信息抽取技术的典型系统 有l i x t o ,x w r a r ,r o a d r u n n e r 和w 4 f 等。下面对具有代表性的x w r a p 系统进行分析。 x w r a p 系统通过交互式的方式,由用户在样本页面中指定抽取区域的起始位 置,系统确定整个抽取区域,并确定抽取区域的类型,然后通过可视化方式,由用 户在样本页中指定语义项( 如表头) 及与之对应的实例,系统自动产生抽取规则实 现信息抽取,最后系统利用启发信息获得数据间的层次结构关系,生成x m l 文档。 该系统采用用户在网页中指定语义项的方式附加语义信息,即将网页的部分内 容作为语义项,对于不同的区域类型( 如t a b l e ,l i s t 等) 采用不同抽取规则提高 系统的灵活性和效率。但是该系统只适合对含有明显区域结构( 如t a b l e ,l i s t 等) 的网页进行信息抽取,不支持对普通网页的抽取,模式表达的能力也非常有限,在 学习阶段用户参与太多。 4 、基于w e b 查询的信息抽取 使用w e b 的相关技术解决w e b 的问题被称为w e b 技术风范。上述的信息抽 取工具采用了不同的原理,抽取规则的形式和感兴趣信息的定位方式也各不相同。 因此不具有通用性。具有w e b 技术风范的信息抽取,将w e b 信息抽取转化为使用 标准的w e b 查询语言对w e b 文档的查询,具有通用性。采用该类技术的典型的系 统有w e b o q l 等。 w e b - o q l 是类似s q l 语句的w e b 查询语言,它具有定位感兴趣信息和结构 重构的功能。系统利用w e b - o q l 语言提出了一种通用的h t m l 包装框架。系统 首先将输入的w e b 文档解祈成一棵抽象的h t m l 语法树h y p e r t r e e ,然后用户在 信息抽取之前根据页面的结构和标记写出合适的查询语句实现信息抽取。 该系统试图将w e b 信息抽取转化成w e b 查询。但并没有看到其实现。 w e b o q l 仅作为一种w e b 查询语言出现,并为x q u e 叮规范形成做出了贡献。 基于o n t o l o g y 的股票信息抽取系统的研究与实现 5 、基于o n t o l o g y 方式的信息抽取 该类信息抽取主要是利用对数据本身的描述信息实现抽取,对网页结构依赖少。 由b n g h a my o n gu n i v e r s i t y ( b y u ) 信息抽取小组开发的信息抽取工具采用了 这种方式。 在b y u 系统中,事先需要由领域知识专家采用人工的方式书写某一应用领域 的o n t o l o g y 。系统根据边界分隔符和启发信息将文档分割为多个描述某一事物不同 实例的无结构的文本块,然后根据o n t o l o g y 中常值和关键字的描述信息产生抽取 规则,对每个无结构的文本决进行抽取获得各语义项的值,最后将抽取出的结果放 入根据o n t o l o g y 的描述信息生成的数据库中。 该系统中语义的附加方式是在书写某一应用领域的o n t o l o g y 的时候完成的, 即人工方式附加语义信息,并且采用了先模式的方式事先确定了对象的模式。系统 最大的优点是对网页结构的依赖很少,只要事先甸建的应用领域o n t o l o g y 足够强 大,系统可以对该领域中各种文本实现信息抽取。但是系统使用不太方便,某一领 域的o n t o l o g y 只能由领域知识专家创建,另外由于是根据数据本身实现信息抽取 的,因此在减少了对网页结构依赖的同时,增加了对网页中所包含的数据结构的要 求。 2 4 信息抽取结果的衡量指标 衡量信息抽取系统的性能主要根据两个评价指标:召回率( r ) 和准确率( p ) 。 召回率等于系统正确抽取的结果占所有可能正确结果的比例: 丑= 需嚣鬻淼。一所有应该抽取到的正确结果一 准确率等于系统正确抽取的结果占所有抽取结果的比例: 尸= 笺黼。 可以看到如果把文档中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论