




已阅读5页,还剩61页未读, 继续免费阅读
(计算机应用技术专业论文)基于本体的产品信息抽取系统的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着互联网络和信息高速公路的兴起,每天都有大量的电子数据文件产生和进行交 流。这种情况下,如何快速、准确地从信息的海洋里获取所需要的信息成为了信息处理 研究的一个重要课题。信息抽取就是一种新的信息处理技术,其目的是根据预定义的模 版,从半结构化文本、非结构化文本中抽取特定的信息。信息抽取系统不仅能帮助人们 方便地找到所需信息,而且信息的内容经过合理的分析和组织后,人们可以高效地获取 所感兴趣的信息。 本文提出了一种基于o n t o l o g y 的产品信息抽取系统,文中分析了信息抽取系统的体 系结构、信息抽取的关键技术、信息抽取的分类及衡量指标。本文中详细介绍了系统的 总体框架,详细描述了系统中主要模块的设计与实现,包括数据结构,数据库设计,流 程图等。最后,进行了系统的信息抽取实验,并对抽取结果进行了分析与总结。 本文在分析了大量的本体语言和计算机领域知识后,人工构建了一个计算机本体; 在参考了a p p l e p i e 语法分析工具后,设计并实现了一个语法分析器,用于对非完全结构 化文本进行分析,将复杂文本简单化,将多语义信息分类处理;提出了一种新的抽取方 法,即把信息抽取和o n t o l o g y 结合起来,先对文档信息进行语法分析预处理,然后利用 领域o n t o l o g y 里的概念、关系、关键字等生成抽取规则对处理后的文档进行信息抽取, 最后把抽取的结果以记录的形式输出。系统信息抽取实验结果显示,基于本体的信息抽 取系统抽取结果的f 值( 召回率和准确率的加权几何平均值) 有显著提高。 关键词:本体信息抽取语法分析抽取规则 a b s t r a c t a l o n g w i t hi n t e m e ta n di n f o b a h ni ss p r i n g i n gu p ,v a s td a t af i l e sc a m ei n t ob e i n g i nt h e c a s e ,i th a sb e c o m ea ni m p o r t a n tp r o b l e mt h a th o wt oc a t c ht h ei n t e r e s t i n gi n f o r m a t i o n e x a c t l ya n dr a p i d l yi ni n f o r m a t i o no c e a n i n f o r m a t i o ne x t r a c t i o n ( i e ) i san e wi n f o r m a t i o n m a n a g e m e n tt e c h n o l o g y :b a s i n go np r e - d e f i n i t i o nt e m p l a t e ,i te x t r a c t ss p e c i a li n f o r m a t i o n f r o ms e m i - s t r u c t u r e dd a t aa n du n s t r u c t u r e dd a t a i es y s t e mc o u l dh e l pp e o p l ef i n dt h e i n f o r m a t i o nt h e yn e e d s i n c et h ei n f o r m a t i o nh a sb e e na n a l y z e da n do r g a n i z e de f f e c t i v e l y , p e o p l ec o u l dc a t c ht h ei n f o r m a t i o nt h e yi n t e r e s te a s i l y an e wa p p r o a c ht o e x t r a c t i n gp r o d u c ti n f o r m a t i o nf r o mn o r m a ld o c u m e n tb a s e d o n a p p l i c a t i o no n t o l o g y i s p r e s e n t e d i nt h i st h e s i s i nt h et h e s i s ,w ea n a l y s et h es y s t e m a r c h i t e c t u r e ,t h et a x o n o m yo fi n f o r m a t i o ne x t r a c t i o n , t h ek e yt e c h n o l o g ya n dw e i g h i n g m e a s u r eo fi n f o r m a t i o ne x t r a c t i o n , a n di n t r o d u c et h em a i nf r a m eo ft h es y s t e ma n dd e s c r i b e h o wt od e s i g na n di m p l e m e n tm a i nm o d u l e s ,s u c ha sd a t as t r u c t u r e ,d a t a b a s ea n df l o wc h a r t f i n a l l y , t h ei es y s t e mi st e s t e db yas e r i e so fe x p e r i m e n t s t h ee x t r a c t i o nr e s u l t sh a v eb e e n a n a l y s e d a f t e ra n a l y z i n gl o t so fo n t o l o g yl a n g u a g i e sa n dk n o w l e d g ei nt h ec o m p u t e rd o m a i n ,w e c o n s t r u c tac o m p u t e ro n t o l o g y ;c o n s u l t i n gs y n t a xp a r s i n gt o o la p p l e p i e ,w ed e s i g nan e w s y n t a xa n a l y z e rw h i c h i su s e dt oe x t r a c ti n f o r m a t i o nf o r ms e m i - s t r u c t u r e dd a t aa n d u n s t r u c t u r e dd a t a i tc a ns i m p l i f yc o m p l e xd o c u m e n t sa n ds o r tm u l t i - s e m a n t i cs e n t e n c e ;w e p r e s e n tan e wa p p r o a c ht oe x t r a c t i n gi n f o r m a t i o n :i n t e g r a t i n gi ea n do n t o l o g y f i r s t l y , p r o c e s sp r e t r e a t m e n to fd o c u m e n ti n f o r m a t i o n s y n t a xp a r s i n gd a t a ;s e c o n d l y , m a k eu s eo f t h e c o n c e p t s ,r e l a t i o n sa n dk e y w o r d so fd o m a i no n t o l o g yt og e n e r a t ei n f o r m a t i o ne x t r a c t i o nr u l e ; t h e n ,u s et h er e s u l to fg r a m m a rp a r s i n ga n di n f o r m a t i o ne x t r a c t i o nr u l et od oi n f o r m a t i o n e x t r a c t i o no nd o c u m e n ta n da tl a s to u t p u tt h er e s u l ta sal i s to fr e c o r d s t h et h e s i sd e s i g n e d a n di m p l e m e n t e da no n t o l o g y b a s e dp r o d u c ti n f o r m a t i o ne x t r a c t i o ns y s t e mi nt h ea p p r o a c h t h er e s u l t so fi ee x p e r i m e n ti n d i c a t eo n t o l o g y - b a s e di n f o r m a t i o ne x t r a c e t i o ns y s t e mc a n i m p r o v e t h ef - m e a s u r ew h i c hi sr e f l e c t i o no fr e c a l la n dp r e c i s i o n k e yw o r d s :o n t o l o g y , i n f o r m a t i o ne x t r a c t i o n ,s y n t a xp a r s i n g ,e x t r a c t i o nr u l e 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取 得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得天津理工大堂或 其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研 究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 、, 学位论文作者签名:铉南捌k 签字日期:沙7 年 月6 日 学位论文版权使用授权书 本学位论文作者完全了解 叁盗墨墨盘至有关保留、使用学位论文 的规定。特授权墨盗墨墨太望一可以将学位论文的全部或部分内容编入 有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编, 以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复本和电子 文件。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:拓帔 签字日期:泗7 年勇么日 导师格盈俊两旁 撕弛:怖攸缈 签字日期: 岬年石日 第一章绪论 第一章绪论 1 1 信息抽取技术的研究背景及意义 自t i mb e r n e r s - l e e 于1 9 9 8 年提出了语义w e b i 】( t h es e m a n t i cw e b ) 的概念之后, 就一直成为人们讨论与研究的热点。当前国际上关于语义w e b 的研究刚刚处于起步阶段, 而我国对语义w e b 的研究不论是从标准规范、系统试验、研究深度,还是从规模层次、 具体应用方面都相对落后。令人欣慰的是,我国学者已经认识到了语义w e b 及其相关技 术对未来互联网发展的影响,并开始着手研究语义w e b 及其相关的关键技术与应用。 语义w e b 是当前互联网技术研究的热点,为推动语义w e b 的发展,w 3 c 成立了专门 的工作组并对各种相关技术进行标准化。这些工作组中较为活跃的是r d fc o r e 工作组 和w e bo n t o l o g y 工作组。这两个工作组对实现语义w e b 的一些基础技术进行开发和标 准化。r d fc o r e 工作组致力于修订r d f 模型和语法的推荐标准,完成r d f 模式规范,并 在规范中提供与x m l 模式中的数据类型规范紧密结合的支持。w e bo n t o l o g y 工作组致力 于创建一种语言,以定义结构化的、基于w e b 的本体。 t i mb e r n e r s - l e e 提出的语义w e b 模型【2 】还只是一个理想化的模型,其中的一个重 要思想就是以本体来表示语义信息,通过在语义w e b 中引入本体层来实现语义信息的共 享,从而提高网络信息服务的智能化与自动化。 科学技术高速发展的今天,随着互联网络和信息高速公路的兴起,每天都有大量的 电子数据文件产生和进行交流。而实际上,人们根本无法通过阅读所有的数据来获得他 们需要的信息。因此如何快速、准确地从信息的海洋里获取重要信息成为了信息处理研 究的一个重要课题。 信息抽取( i n f o r m a t i o ne x t r a c t i o n ,i e ) 【3 】是一种新的信息处理技术,其目的是 根据预定义的模版,从半结构化文本、非结构化文本中抽取特定的信息。比如说从一段 新闻文本中抽取出事件的类型、时间、人物、地点等。信息抽取系统不仅能帮助人们方 便地找到所需信息,而且信息的内容经过合理的分析和组织后,人们可以高效地获取所 感兴趣的信息,并可在此基础上进一步进行数据挖掘、文本生成等后续信息处理。这在 信息量迅速增长的今天无疑是一件极有意义的工作,因此信息抽取作为一门应用性的语 言处理技术,近年来正受到越来越多的重视。 第一章绪论 1 2 信息抽取技术简介 1 2 1 信息抽取技术定义 信息抽取系统【4 】的主要功能是从文本中抽取出特定的事实信息( f a c t u a l i n f o r m a t i o n ) 。比如,从新闻报道中抽取出恐怖事件的详细情况:时间、地点、作案者、 受害者、袭击目标、使用的武器等;从经济新闻中抽取出公司发布新产品的情况:公司 名、产品名、发布时间、产品性能等;从病人的医疗记录中抽取出症状、诊断记录、检 验结果、处方等;或者直接提取文章中某句话或某段话的信息等。通常,被抽取出来的 信息以结构化的形式描述,可以直接存入数据库中,供用户查询及进一步分析利用。 信息抽取是为了进一步减轻人工劳动,让计算机帮你去查找你所需要的特定内容。 这就要求计算机具有一定的智能,通过文本分析、语段分析等过程抽取出用户所需要的 内容。与传统的信息检索技术比较,信息抽取技术有明显的优势:信息检索只是通过单 纯的匹配检索得当相关的文档,并不真正理会文档的实际内容信息,文档被等同于无意 义的词汇堆砌物;而信息抽取则是通过文本分析、语义分析、结构化生成等过程提取出 有效的信息内容。因而,可以认为信息抽取是信息检索的更进一步,它不仅查找信息, 而且替用户理解信息,并按用户指定的方式输出信息,是“更高级的信息检索”。与传 统的自动文摘比较,也有实质性的差异,即信息抽取是对一个预先定义好的信息模版进 行填充,是一种高度受限的信息处理过程。在信息抽取中,用户一般只关心有限的感兴 趣的事实信息,而不关心文本意义的细微差别以及作者的写作意图等深层理解问题。因 此,从某一方面信息抽取技术可以认为是一种浅层的或者说简化的文本理解技术与高级 信息检索技术的集合。总之,信息抽取相对于其他信息获取技术更注意工程性和可操作 性,通过使用有限程度的语言处理技术进行相当多的信息发现和提取工作,它针对有价 值的文本进行结构分析,其效率和质量显著提高,也更容易面向实际应用。 特定领域的信息抽取系统任务与通用的自然语言理解任务不同。对于通用的自然语 言理解来说,系统必须对输入的句子进行深入分析,产生包含输入句子所有意义( 包括 隐含意义) 的表达。一般来说,理解分为两步:第一步通过句法分析将输入的句子映射 到一个句法结构中,如句法树;第二步,通过句法到语义的转换分析实现将句法结构映 射到意义表达。而对于特定领域的信息抽取来说,是从一段文本中抽取指定的一类信息 并将其形成结构化的数据填入一个数据库中供用户查询使用的过程。因需要抽取的信息 的类型也是预先定义好的,在相关的句子中,只有一些携带相关信息的短语单元爿能被 解释,输入的文本只能映射到一些有限数目的事件分类,如关于爆炸事件,凶杀事件等 等,所以完全句法分析和深入的语义解释是没有必要的。不必对文章的全部进行全面的 分析,而只是对有用的文章片段进行有限深度的分析,其效率与灵活性都比较高。 信息抽取以模版框架为中枢,分为选择与生成两个阶段。模版框架是一张申请单, 第一章绪论 它以空槽的形式抽取应从原文中获取的各项内容。例如,针对计算机病毒类的文章可以 提出如下的框架:病毒 病毒名称:病毒传染对象:病毒类属;病毒攻击对象) 。在选 择阶段,利用特征词从文本中抽取相关的短语或句子填充模版框架。例如,在文本中发 现“感染可执行文件 字样,则可以将特征词“感染 后面的短语“可执行文件 作为病毒的感染对象填入模版框架。模版框架是带有空白部分的现成的套话,其空白部 分与模版框架中的空槽相对应。例如,“该病毒的感染对象是( 病毒传染对象) 是模版 中的一个句子,因为在模版框架中登记的病毒感染对象为“可执行文件 ,因此在信息 抽取中将输出这样的句子:“该病毒的传染对象是可执行文件 。 1 2 2 信息抽取方法 基于o n t o l o g y 的信息抽取在国外有很多研究,与其它信息抽取方法相比,基于 o n t o l o g y 的信息抽取有它的优点:由于它是基于o n t o l o g y 的抽取,因此这种方法对 文档的结构没有依赖性,从理论上讲,只要领域o n t o l o g y 足够强大,它就能在该领域 的信息抽取中达到很高的抽取精确率和召回率;在此方法中o n t o l o g y 可以是以分布式 的形式存在的,因此它还很容易扩展到新的领域叫n t 0 1 0 9 y 一般是由领域知识专家 构建的,一般人很难构建,本领域知识的专家也很难构建别的领域的o n t o l o g y 。但由 于o n t o l o g y 是可以分布式存在的,这些新的领域o n t o l o g y 可以由不同地方,不同领 域知识的专家构建。当一个新的领域o n t o l o g y 建成之后,只要对本系统给出它的地址, 那么就可以基于新的o n t o l o g y 进行信息抽取了,从而就扩展到新的领域。 通常来说基于o n t o l o g y 的信息抽取方法【5 】可以分为两类: 知识工程方法:由专家对o n t o l o g y 知识库进行分析、调整从而人工制定规则、 模板。比如对命名实体( 人、公司、地方、单位的名称) 的识别,可以采用基 于规则的方法,采用有限状态自动机来实现。 自动训练方法:给出标注的例子文档集,通过机器学习来推导模板和模板的自 动填充知识库和规则,也可以应用统计学的方法来抽取,比如人名的抽取等等。 这两种方法各有优缺点: 知识工程方法的优点是无需对o n t o l o g y 知识库进行经常性的更改,通过o n t o l o g y 知识库转化而来的信息抽取规则比较固定,抽取效率比较高。但是知识工程方法的缺点 是由于信息抽取所依赖的o n t o l o g y 知识库很少更新,所以一旦所抽取的文本中出现 o n t o l o g y 知识库中未描述的概念、关系时,信息抽取的召回率会降低。而且由于领域 o n t o l o g y 知识库必须由本领域内的领域知识专家建立。 自动训练方法的优点是无需领域知识专家来建立领域o n t o l o g y 知识库,而且只要 通过标注好的大量文档对信息抽取系统进行训练就能自动填充好知识库和生成新的抽 取规则。自动训练方法的缺点是用来训练抽取系统的必须人工借助工具来生成。而且抽 第一章绪论 取系统的知识库和抽取规则会动态变化,这会影响到信息抽取的效率。 1 3 信息抽取技术的应用 自8 0 年代以来,国内外许多大学、公司和研究机构对信息抽取技术展开了有计划 的、长期系统的研究与应用工作,取得了一些成果并有许多相关的应用。在国外,有专 门的机构组织各种评测活动,对当前的信息抽取技术的研究成果进行评估,如著名的 m u c ( m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e s ) 是一个由美国国防部高级研究计划署资助的 系列工程,有许多大学、研究所参加,至今已主办了7 届。其宗旨是评价当今信息提取 技术的水平,促进机器理解信息技术的发展。由其定义的概念、模型和技术规范在国际 上对整个信息提取领域起着主导的作用。目前在信息处理中,信息抽取技术应用【6 】的范 围很广泛,如: ( 1 ) 信息抽取技术可以应用于传统的信息检索系统之中,把信息检索和信息抽取结 合为一体的信息获取系统,信息检索中,只用关键字来表达用户的查询是不够精确的, 在信息检索完成之后再对相关的文本进行指定的信息提取,使单纯的信息查找过程进一 步变成信息匹配( 理解) 过程,检索结果的输出不只是文档地址或整个文档内容,而是 用户所需要的特定内容,例如所有包含关键字的句子。这样在不降低通用性的基础上可 以提高信息查询的查准率,从而把传统的信息检索系统变成智能系统,以用户要求的方 式输出信息,满足用户对输出结果的要求。例如,大型联机检索系统、图书情报检索系 统、网页搜索引擎等都可加入信息抽取技术进行改进。 ( 2 ) 信息抽取技术集成到数据库应用系统中。从非结构化或半结构化的信息中生成 结构化的信息,从而构成数据库。这些结构化的信息具有广泛的用途,如数据查询,生 成总结,建立文本索引等。使用户能够快速方便地抽取指定的信息。如s c i s o r 系统采 用文本部分分析技术,对所有关于公司信息进行信息过滤,然后从文本中抽取关于公司 名字等条目存入数据库中,供查询使用。 ( 3 ) 在线新闻信息的抽取。如d e j o n gg 实现的f r u m p 系统把有线新闻网络作为数 据源,使用一些新闻故事的简单脚本来对有线新闻网络进行监控。f r u m p 系统采用关键 字检索、概念句子分析、脚本匹配方法寻找相关的新闻故事。 ( 4 ) 网页信息抽取系统,从w e b 网页中抽取出所需要的信息,已成为互联网信息搜 索与集成研究领域中一个重要的研究课题。这个新的研究课题,虽只有几年的研究历史, 却已取得了许多重要的研究成果。其中具有代表性的就有w h i s k 、r a p i e r 、s r v 、s t a l k e r 等。 ( 5 ) 自动文摘和深层的文本信息挖掘、数据库的深加工等。 第二章信息抽取系统的相关介绍 第二章信息抽取系统的相关介绍 2 1 信息抽取系统体系结构 h o b b s 曾提出一个信息抽取系统的通用体系结构【7 】,他将信息抽取系统抽象为“级 联的转换器或模块集合,利用手工编制或自动获得的规则在每一步过滤掉不相关的信 息,增加新的结构信息 。 h o b b s 认为典型的信息抽取系统应当由依次相连的十个模块组成: 1 ) 文本分块:将输入文本分割为不同的部分缺。 2 ) 预处理:将得到的文本块转换为句子序列,每个句子由词汇项( 词或特定类型 短语) 及相关的属性( 如词类) 组成。 3 ) 过滤:过滤掉不相关的句子过滤。 4 ) 预分析:在词汇项( l e x i c a li t e m s ) 序列中识别确定的小型结构,如名词短语、 动词短语、并列结构等。 5 ) 分析:通过分析小型结构和词汇项的序列建立描述句子结构的完整分析树或分 析树片段集合。 6 ) 片段组合:如果上一步没有得到完整的分析树,则需要将分析树片段集合或逻 辑形式片段组合成整句的一棵分析树或其他逻辑表示形式。 7 ) 语义解释:从分析树或分析树片段集合生成语义结构、意义表示或其它逻辑形 式。 8 ) 词汇消歧:消解上一模块中存在的歧义得到唯一的语义结构表示。 9 ) 共指消解或篇章处理:通过确定同一实体在文本不同部分中的不同描述将当前 句的语义结构表示合并到先前的处理结果中。 1 0 ) 模板生成:由文本的语义结构表示生成最终的模板。 当然,并不是所有的信息抽取系统都明确包含所有这些模块,并且也未必完全遵循 以上的处理顺序,比如3 ) 、4 ) 两个模块执行顺序可能就相反。但一个信息抽取系统应 当包含以上模块中描述的功能。 典型的纽约大学提出的p r o t e u s 信息抽取系统体系结构,如图2 1 所示。 第二章信息抽取系统的相关介绍 图2 1 纽约大学的p r o t e u s 信息抽取系统体系结构 2 2 信息抽取中的一些关键技术 2 2 1 命名实体识别 命名实体【8 】是文本中基本的信息元素,是正确理解文本的基础。狭义地讲,命名实 体是指现实世界中的具体的或抽象的实体,如人、组织、公司、地点等,通常用唯一的 标志符( 专有名称) 表示,如人名、组织名、公司名、地名等。广义地讲,命名实体还 可以包含时间、数量表达式等。至于命名实体的确切含义,只能根据具体应用来确定。 比如,在具体应用中,可能需要把住址、电子信箱地址、电话号码、舰船编号、会议名 称等作为命名实体。 命名实体识别就是要判断一个文本串是否代表一个命名实体,并确定它的类别。在 信息抽取研究中,命名实体识别是目前最有实用价值的一项技术。根据m u c 评测结果, 英文命名实体识别任务的f 一指数( 召回率与准确率的加权几何平均值,权重取1 ) 能 达到9 0 以上。 命名实体识别的难点在于: 在不同领域、场景下,命名实体的外延有差异; 数量巨大,不能枚举,难以全部收录在词典中; 某些类型的实体名称变化频繁,并且没有严格的规律可以遵循; 表达形式多样; 第二章信息抽取系统的相关介绍 首次出现后往往采用缩写形式。 命名实体识别的方法主要分为:基于规则的方法和基于统计的方法。一般来说,基 于规则的方法性能要优于基于统计的方法。但是这些规则往往依赖于具体语言、领域、 文本格式,编制过程耗时且容易产生错误,并且需要富有经验的语言学家才能完成。相 比而言,基于统计的方法利用人工标注的语料进行训练,标注语料时不需要广博的计算 语言学知识,并且可以在较短时间内完成。因此,这类系统在移植到新的领域时可以不 做或少做改动,只要利用新语料训练一遍即可。此外,基于统计的系统要移植到其他自 然语言文本也相对容易一些。 2 2 2 句法分析 通过句法分析得到输入的某种结构表示,如完整的分析树或分析树片段集合,是计 算机理解自然语言的基础。在信息抽取领域一个比较明显的趋势是越来越多的系统采用 部分分析技术,这主要是由于以下三方面原因造成的: 首先,是信息抽取任务自身的特殊性,即需要抽取的信息通常只是某一领域中数量 有限的事件或关系。这样,文本中可能只有一小部分与抽取任务有关。并且,对每一个 句子,并不需要得到它的完整的结构表示,只要识别出部分片段间的某些特定关系就行 了,得到的只是完整分析树的部分子图。 其次,是部分分析技术在m u c 系列评测中的成功。s r i 公司在其参加m l j c - 4 评测 的f a s t u s 系统中开始采用层级的有限状态自动机分析方法。该方法使f a s t u s 系统具有 概念简单、运行速度快、开发周期短等优点,在多次c a d 评测中都居于领先地位。 最后,部分分析方法盛行也是因为目前尚没有其他更好的选择。现在,完全分析技 术的鲁棒性以及时空开销都难以满足信息抽取系统的需要。但是,另一方面,也要清醒 看到:部分分析技术只能使信息抽取系统的处理能力达到目前的水平( f 一指数小于 6 0 ) ,要想使其性能有大的飞跃,必须探索更有效的分析技术。 2 2 3 篇章分析与推理 一般说来,用户关心的事件和关系往往散布于文本的不同位置,其中涉及到的实体 通常可以有多种不同的表达方式,并且还有许多事实信息隐含于文本之中。为了准确而 没有遗漏地从文本中抽取相关信息,信息抽取系统必须能够识别文本中的共指现象,进 行必要的推理,以合并描述同一事件或实体的信息片段。因此,篇章分析、推理能力对 信息抽取系统来说是必不可少的。 初看起来,信息抽取中的篇章分析比故事理解中的篇章分析要简单得多。因为在信 息抽取中只需要记录某些类型的实体和事件。但是,大多数信息抽取系统只识别和保存 与需求相关的文本片段,从中抽取出零碎的信息。在这个过程中很可能把用以区分不同 第二章信息抽取系统的相关介绍 事件、不同实体的关键信息给遗漏了。在这种情况下要完成篇章分析是相当困难的。 除此之外,目前尚缺乏有效的篇章分析理论和方法可以借鉴。现有篇章分析理论大 多是面向人、面向口语的,需要借助大量的常识,它们设想的目标文本也比真实文本要 规范,并且理论本身也没有在大规模语料上进行过测试。 信息抽取系统除了要解决文本内的共指问题外,还需要解决文本间的( 跨文本的) 共指问题。在文本来源比较广泛的情况下,很可能有多篇文本描述了同一个事件、同一 个实体,不同文本间还会存在语义歧义,如相同的词有不同的含义、不同的词有时又代 表一个意思。为了避免信息的重复、冲突,信息抽取系统需要有识别、处理这些现象的 能力。 由m u c 一6 和m l t c 一7 对信息抽取系统部分篇章处理能力( 即指称短语的共指消解) 的评测结果看,篇章处理能力是目前信息抽取系统的弱项,是一个瓶颈,急需深入研究 与改进。 2 2 4 知识获取 作为一种自然语言处理系统,信息抽取系统需要强大知识库的支撑。在不同的信息 抽取系统中知识库的结构和内容是不同的,但一般来说,都要有:一部词典( l e x i c o n ) , 存放通用词汇以及领域词汇的静态属性信息;一个抽取模式库( e x t r a c t i o np a t t e r n sb a s e ) , 每个模式可以有附加的( 语义) 操作,模式库通常也划分为通用部分和领域专用部分;一 个概念层次模型( o n t o l o g y ) ,通常是面向特定领域或场景的,是通用概念层次模型在局 部的细化或泛化。除此之外,可能还有篇章分析和推理规则库、模板填充规则库等。 如前所述,信息抽取系统通常是面向特定应用领域或场景的。这种领域受限性决定 了信息抽取系统中用到的主要知识是所谓的浅层知识。这种知识的抽象层次不高,通常 只适用于特定应用领域,很难在其他领域复用。如果要把一个信息抽取系统移植到新的 领域或场景,开发者必须要为系统重新编制大量的领域知识。 一般说来,手工编制领域知识往往是枯燥的、费时的、易错的、费用较高,并且只 有具有专门知识( 应用领域知识、知识描述语言知识、熟悉系统的设计与实现) 的人员 才能胜任这种工作。另外,由于自然语言中存在的“长尾 综合效应( “l o n gt a i l ”s y n d r o m e ) 或称z i p f 法则,人工编制的知识库很难达到很高的语言覆盖面。 因此,知识获取问题已经成为制约信息抽取技术广泛应用的一个主要障碍。它除了 影响系统的可移植性外,也是影响系统性能的主要因素。正因为如此近几年召开的多次 专题学术研讨会都是以解决知识获取问题、建立具有自适应能力的信息抽取系统为主题 的。 领域知识获取可以采用的策略通常有两种:手工+ 辅助工具( 图形用户接口) ;自动 半自动+ 人工校对。前者相对简单一些,人工工作仍然是主体,只是为移植者提供了一 第二章信息抽取系统的相关介绍 些图形化的辅助工具,以方便和加快领域知识获取过程。后者采用有指导的、无指导的 或间接指导的机器学习技术从文本语料中自动或半自动获取领域知识,人工干预程度较 低。实际上,这两种策略不是完全对立的,只是自动化程度高低不同而已。某种意义上 讲,第一种策略仍然是一种人工编制知识库的过程,知识瓶颈问题只是得到某种程度的 缓解。第二种策略才是解决信息抽取系统知识获取瓶颈问题的真正出路。 2 3 各种信息抽取系统的技术比较 信息抽取技术有多种分类方式,例如根据自动化程度就可以分为人工方式信息抽 取、半自动化的信息抽取和全自动方式的信息抽取。根据信息本身的分类方式,信息抽 取分为非结构化文本的信息抽取、半结构化文本的信息抽取、结构化文本的信息抽取。 根据各种工具所采用的原理将现有的工具【6 】分为以下6 类: 1 ) 基于自然语言处理方式的信息抽取; 2 ) 包装器归纳方式的信息抽取; 3 ) 基于h t m l 结构的信息抽取; 4 ) 基于x m l 结构的信息抽取: 5 ) 基于w e b 查询的信息抽取; 6 ) 基于o n t o l o g y 方式的信息抽取; 下面将对于后者分类方式,结合典型的系统,在语义的附加方式、模式的定义方式、 规则的表现形式、语义项的定位方式、对象的定位方式等几方面进行了分析和比较。其 中结构化的数据成为对象;模式的定义方式主要有2 种:信息抽取之前给出对象模式 的称为先模式,反之成为后模式。 2 3 1 基于自然语言处理方式的信息抽取 这类信息抽取主要适用于源文档包含大量文本的情况( 特别是针对合乎文法的文 章) ,在一定程度上借鉴了自然语言处理技术。利用子句、短语和子句间的关系建立基 于语法和语义的抽取规则,实现信息抽取。目前采用这种原理的典型系统有r a p i e r ,s r v , w h i s k 。下面结合比较典型的系统w h i s k 来详细说明这种方式的信息抽取。 w h i s k 系统既适用于结构化,半结构化的文本,也适用于自由文本。结构化和半结 构化的文本,一般不符合文法,所以系统主要根据语义项的上下文实现感兴趣信息的定 位。此时基本上没有利用到自然语言处理技术,对这种情况这里不做详细的分析。对自 由文本,系统首先根据分割符将源文档分割成多个实例( 每个实例是一个语义相关的文 本块) 。在交互式的环境下,系统每一次呈现给用户一组实例。用户在可视化环境下根 据系统提供的实例标记出感兴趣的信息并定义模式。系统使用语法分析器和语义类( 如 人名、机构名) 分析器,分析出用户标记信息的语法成分和对应的语义类,生成基于语 第二章信息抽取系统的相关介绍 法标记和语义类标记的抽取规则,实现信息抽取。 系统采用了先模式的方式,对于结构化和半结构化的文本,规则采用正则表达式描 述了感兴趣语义项( 文本中的短语) 的上下文及语义项间的分割符,利用这些信息达到 识别感兴趣语义项的目的。对于自由文本,在一定程度上利用了自然语言处理技术的思 想。信息抽取的实质是根据语义项对应的语义类、语义项的上下文和所处的句子成分实 现信息的定位( 如某个语义项只能出现在句子的关系从句中) ,即根据语义和语法的双 重约束实现信息抽取。 2 3 2 包装器归纳方式的信息抽取 包装器归纳方式的信息抽取根据事先由用户标记的样本实例,应用机器学习方式, 生成基于定界符的抽取规则。其中定界符实质上是对感兴趣语义项上下文的描述,即根 据语义项的左右边界来定位语义项。该类信息抽取方式和基于自然语言理解方式的信息 抽取技术最大的不同在于,它仅仅是用语义项的上下文来定位信息,并没有使用语言的 语法约束。采用这种原理的典型系统有s t a l k e r ,s o f t m e a l y ,w i e n 。下面根据s t a l k e r 系统详细分析这类信息抽取技术。 s t a l k e r 系统根据用户事先标记的样本页面和用户嵌入式分类树( e m b e d d e d c a t a l o gt r e e ) 形式提供的页面结构信息,应用逐步覆盖算法( s e q u e n t i a lc o v e r i n g a l g o r i t h m ) ,逐步归纳生成基于定界符的精确的抽取规则,实现层次的信息抽取。 嵌入式分类树( e c t ) 在该系统中是一个重要的概念,它是用户根据页面结构定义 的嵌套模式。该树形结构一方面描述了页面的逻辑机构,另一方面提供了模式信息和语 义信息( 树中节点的名称) ,嵌入式分类树中有3 种类型的节:根节点( 表示整个文档) 、 内部非叶节点( 称为l i s t 节点,表示多个同类对象的列表) ,叶节点( 表示对象的语 义项) 。系统为每个叶节点生成普通的抽取规则,即用来定位语义项:为l i s t 节点生 成普通抽取规则和迭代规则,其中普通抽取规则用来定位多个对象组成的信息块,然后 应用迭代规则实现单个对象的定位。该系统之所以成为层次的信息抽取是因为抽取是根 据嵌入式分类树的层次进行的,并且某一节点的抽取规则是对其父节点的抽取结果执行 的。 该系统中语义的附加模式的定义是在用户定义嵌入式分类树阶段完成的,属于先模 式方式。信息定位的实质是使用左右边界识别出各语义项,然后再将各语义项组装成一 个对象。而该系统在一定程度上是按结构抽取和按文本抽取的结合。根据嵌入式分类树 先获得高层节点对应的大的文本块,然后再应用低层节点对应的抽取规则,逐步获得想 要的信息。该系统是在上次的结果中使用左右边界实现信息的定位,并不是在整个文档 中,所以抽取规则的形式相对简单,而且抽取的准确率相对高一些。另外由于使用嵌入 式分类树描述模式,所以可以抽取复杂的对象。但是规则中的定界符不仅仅是由h t m l 第二章信息抽取系统的相关介绍 标记组成,而且还有某类网页经常出现的关键词组成。所以该类信息抽取不但对页面机 构有所依赖,而且对网页的内容也有所依赖,要想获得精确的抽取规则必须进行大量的 样本训练。 2 3 3 基于h t m l 结构的信息抽取 该类信息抽取的技术特点是,根据w e b 页面的结构定位信息。在信息抽取之前通过 解析器将w e b 文档解析成语法树,通过自动或半自动的方式产生规则,将信息抽取转化 为对语法树的操作。采用该类信息抽取技术的典型系统有l i x t o ,x w r a r ,r o a d r u n n e r 和w 4 f 等。下面对具有代表性的x w r a p 系统进行分析。 x w r a p 系统通过交互式的方式,由用户在样本页中指定抽取区域的起始位置,系统 确定整个抽取区域,并确定抽取区域的类型,然后通过可视化方式,由用户在样本页中 指定语义项( 如表头) 及与之对应的实例,系统自动产生抽取规则实现信息抽取,最后 系统利用启发信息获得数据问的层次结构关系,生成x m l 文档。 该系统采用用户在网页中指定语义项的方式附加语义信息,即将网页的部分内容作 为语义项,对于不同的区域类型( 如t a b l e 、l i s t 等) 采用不同抽取规则提高系统的 灵活性和效率。但是该系统只适合对含有明显区域结构( 如t a b l e 、l i s t 等) 的网页进 行信息抽取,不支持对普通网页的抽取,模式表达的能力也非常有限,在学习阶段用户 参与太多。 2 3 4 基于x m l 结构的信息抽取 当前的w e b 信息大多数都是h t m l 格式的,由于h t m l 具有结构简单性和灵活性,它 极大地促进了信息产业的发展,但是也正是由于h t m l 结构太灵活和自由,造成了一个 致命的缺陷:难以检索或者抽取隐藏其中的数据。针对h t m l 的这种缺陷,x m l 语言应 运而生,它一方面继承了h t m l 的灵活性和简单性,另一方面又对其存在的问题做了很 大的改进,最重要的就是强制结构的完整性和标签的自定义性。正因为x m l 比h t m l 具 有更多的优点,人们普遍认为:x m l 最终会取代h t m l 而成为w e b 的通用语言。此外, 针对x m l 的研究以及支持) ( m l 的工具也不断涌现。能否将h t m l 格式的文档转换成 x m l 格式,然后再进行对x m l 文档进行信息抽取? 事实证明这种方法是可行的。具体抽 取过程如下: 第一步:获取信息源,并将h t m l 转换成x m l 。t i d y ,可用于改正h t m l 文档中的 常见错误并生成格式编排良好的等价文档,还可以使用t i d y 来生成x h t m l ( x m l 的子 集) 格式的这些文档。 第二步:找数据中的引用点。无论是在w e b 页面还是x h t m l 视图中的绝大多数信 息都与本文完全无关。在这一步中本文的任务就是在x m l 树中找出一个特定区域,并 第二章信息抽取系统的相关介绍 从中抽取本文感兴趣的数据而无需关心外来信息。完成这一任务的最简单的办法通常 是,首先检查w e b 页面,只需要看一下页面就可以知道信息位于页面的位置( 称之为 锚) ,然后使用x s l 来转换本文的x 儿,利用x p a t h 表达式来指定从根元素到 锚的路径。 第三步:将数据映射成x m l 。从前一步中得到锚,就可以创建实际抽取数据的代码。 这个代码将以x s l 文件的形式出现。x s l 文件的目的是标识锚,指定如何从这个位置获 取正在查找的数据,并且用本文所需的格式构造一个x m l 输出文件。 2 3 5 基于o n t o l o g y 方式的信息抽取 该类信息抽取主要是利用对数据本身的描述信息实现抽取,对网页结构依赖少。由 b r i g h a my o u n gu n i v e r s i t y ( b y u ) 信息抽取小组开发的信息抽取工具采用了这种方式。 在b y u 系统中,事先需要由领域知识专家采用人工的方式书写某一应用领域的 o n t o l o g y 。系统根据边界分割符和启发信息将源文档分割为多个描述某一事物不同实例 的无结构的文本块,然后根据o n t o l o g y 中的常值和关键字的描述信息产生抽取规则, 对每个无结构的文本块进行抽取获得各语义项的值,最后将抽取出的结果放入根据 o n t o l o g y 的描述信息生成的数据库中。 该系统中语义的附加方式是在书写某一应用领域的o n t o l o g y 的时候完成的,即人 工方式附加语义信息,并且采用了先模式的方式事先确定了对象的模式。系统最大的优 点是对网页结构的依赖很少,只要事先创建的应用领域o n t o l o g y 足够强大,系统可以 对该应用领域中各种文本实现信息抽取。但是系统使用不太方
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 专业智商测试试题及答案
- 高职建筑专业试题及答案
- 酒店专业试题及答案
- 环保专业试题及答案
- 甲状腺专业试题及答案
- 沟通专业试题及答案
- 河北省承德市平泉市党坝中学2025-2026年学年九年级历史上学期9月月考试题(含答案)
- 宁波生态假山施工方案
- 路口半弧形护栏施工方案
- 楼顶景观水系施工方案
- 线路维护材料管理办法
- 2025年外企面试英语常见问题与答案解析
- 民宿课程题目大全及答案
- 火电厂安全员课件
- 洗煤厂冬季三防知识培训课件
- Unit 1 A new start Starting out 课件(内嵌音视频)高一英语外研版必修第一册
- 2025西安医学院第一附属医院第二批招聘(42人)考试备考题库及答案解析
- 树立正确就业观课件
- 2025年广西中考数学真题卷含答案解析
- 移动通信技术发展历程
- 口腔科终末处理流程与规范
评论
0/150
提交评论