




已阅读5页,还剩77页未读, 继续免费阅读
(计算机应用技术专业论文)基于ontology的信息抽取系统的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着i n t e n e t 的快速发展,w e b 已经成为跨全球的信息源。使用传统的搜索引 擎,用户要精确地找到所需信息往往十分困难。提高搜索引擎准确性的一个主要 途径是使其在某种程度上理解信息源的内容。基于此,本文提出一种基于o n t o l o g y 信息抽取技术,它把o n t o l o g y 和信息处理技术结合起来,是现在信息抽取研究的 一个热点,其最大的优点是对网页结构的依赖很少,只要事先创建的应用领域 o n t o l o g y 足够强大,系统可以对该应用领域中各种文本实现信息抽取。这项技术对 网络资源的分类、登记建档及进一步的监管和过滤具有重要意义。 本文首先介绍了信息抽取技术及其产生背景和发展历史,分析了信息抽取系 统体系结构、信息抽取的分类及信息抽取的关键技术和衡量指标,然后介绍了 o n t o l o g y 的基本知识。在此基础上,本文提出了一种基于o n t o l o g y 的信息抽取新方 法。在本方法中,把信息描取和o n t o l o g y 结台起柬,先利用领域o n t o l o g ) 呈的概 念、关系、关键字等自动生成抽取规则( r u l e ) ,然后对文章、句子进行语法分析 预处理,再利用语法分析的结果和先前生成的抽取规则一起对文档进行信息抽取, 最后把抽取的结果以记录的形式输出。根据上述方法并结合工程实际情况,设计 并实现了一个基于o n t o l o g y 的信息抽取系统。 在本文中,对系统的总体框架、系统的各主要模块功能、基于l e x 的信息抽 取规则及自动产生抽取规则的算法进行了逐一阐述。在系统的实现中详细介绍了 本系统的实现方法,包括各个主要部分的数据结构,流程图等。最后利用此系统 对一些样本进行抽取后的结果并对结果进行了分析。 关键词:信息抽取。o n t o l o g y ,语法分析,匹配,规则 a b s _ l r a c t a b s t r a c t a l o n gw i t ht h er a p i dd e v e l o p m e n to fr n t e r n e t , w e bh a sb e e o m e dt h eg l o b a l i n f o r m a t i o ns o l m l 3 e a si t sh a r df o ru s e rt of i n dt h en e e d e di n f o r m a t i o nb yt r a d i t i o n a l s e a r c he n g i n e e r i n g ,t h ea c c u r a c yo f s e a r c he n g i n e e r i n gi se m p h a s i z e d o f a l lt h ew a y st o r a i s et h ea c c u r a c y , t om a k et h ee n g i n e e r i n gu n d e r s t a n d i n gt h ec o n t e n to f t h ei n f o r m a t i o n s o u r c e si so n eo ft h e m w h i c hi st 1 1 ed i r e t i o no ft h ed e v e l o p m e n to fs e n m a t i cw e b r a i s i n gi nt h ea r e ao fi n t e r n e tr e s e a r c h i n ga tp r e s e n t b a s e do nt h et e c h n o l o g yo f m a r k i n gt h ex v i li n f o r m a t i o nc o n s t r u c t u r e ,t h et e c h n o l o g yo fs e n m a t i ew e b m a r k st h e c o n t e n to fi n f o r m a f i o n ,a n da sar e s u l t , t h es e a r c hb a s e do nc o n t e n ti sa c c o m p l i s h e d a s ab o r i n gw o r k ,m a n u a lm a r k i n gw a s t em u c ht i m e ,s oi ti sn e c e s s a r yf o ru st oa d o p tt h e t e c h n o l o g yo f h a f o r m a t i o ne x t r a c t i o n t oe x t r a c tt h es e n m a t i ci n f o r m a t i o na u t o m a t i c a l l y i nt h i sp a p e r , b a s e do nt h ei n t r o d u c t i o no ft h es y s t e ma r c h i t e c t u r ea n dt h eb a s i c k n o w l e d g eo fo n t o l o g y , an e wa p p r o a c ht oe x t r a c t i n g i r t f o l m a t t o nt r o mn o r m a l d o c u m e n tb a s e do na na p p l i c a t i o no n t o l o g yt h a td e s c r i b e sad o m a i no fi n t e r e s ti s d i s c u s s e d i nt h i sa p p r o a c h c o m b i n e dt h ei n f o r m a t i o ne x t r a c t i o n 、i t l lo n t o l o g y , t h e m e t h o do fu s i n gt h ec o n c e p t s ,r d a t i o n sa n dk e y w o r d so fd o m a i no n t o l o g yt og e n e r a t e i n f o r m a t i o ne x t r a c t i o nr u l ea u t o m a t i c a l l ya n dt h e nd og r a m m a rp a r s i n go nt h e d o c u m e n ti sa d o p t e d ,a n di nt h ee n dt h er e s u l t so fe x t r a c t i n ga n dt h ea n a l y s i so fi ta r e d i s p l a y e d k e y w o r d s :o n t o l o g y , g r a m m a rp a r s e ,m a t c h i n g ,r u l e ,i n f o r m a t i o ne x t r a c t i o n 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名;刍喳日期:上。年7 月旦 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:刍盛导师签名:爱型 日期:2 0 0 ( 年f 月日 第一章概论 1 1 论文背景及意义 第一章概论 随着i n t e n e t 的快速发展,w e b 已经成为跨全球的信息源,使用传统的搜索引 擎,用户要精确地找到所需信息往往十分困难。提高搜索引擎准确性的一个主要 途径是使其在某种程度上理解信息源的内容,目前在互联网研究领域兴起的语义 w e b 技术就是朝这个方向进行的努力。语义w e b 技术在x m l 信息结构标注技术 的基础上,进一步对信息的内容进行语义标注,从而实现基于内容的检索。但文 档的语义标注是一项繁琐的工作,手工标注费时费力,有必要采用信息抽取技术 自动提取出文档的语义信息。信息抽取技术( i n f o r m a t i o ne x t r a c t i o n ,缩写为i e ) 是一种面向具体任务的实用的文档理解技术。与复杂的自然语言理解技术不同, 技术通常采用浅层的文本分折技术,提取出设计者关注的特定主题的信息。该技 术适用予具有特定主题及相对确定的信息结构的文档如广告、新闻、数据库自然 语言查询、特定领域的文告等。尤其是像分类广告这类文档,内容焦聚浓缩,语 句简短而不规范,传统的基于语法分析的技术根本派不上用场;而基于短语模板 的i e 技术反倒更为适合。此外,i n t e n e t 大量的信息为半结构化的,即它们既不 像关系数据库那样具有严格的表结构,也不像文本那样只是字符的序列。 基于此,本文提出一种基于o n t o l o g y 信息抽取技术,它把o n t o l o g y 和信息处 理技术结合起来,是现在信息抽取研究的一个热点,其最大的优点是对网页结构 的依赖很少,只要事先创建的应用领域o n t o l o g y 足够强大,系统可以对该应用领 域中各种文本实现信息抽取。这项技术对网络资源的分类、登记建档及进一步的 监管和过滤具有重要意义。 1 2 相关文献综述 基于o n t o l o g y 的信息抽取在国外有很多研究,与其它信息抽取方法相比,基 于o n t o l o g y 的信息抽取有它的优点:由于它是基于o n t o l o g y 的抽取,因此这种方 法对文档的结构没有依赖性,从理论上讲,只要领域o n t o l o g y 足够强大,它就能 在该领域的信息抽取中达到很高的抽取精确率和召回率;在此方法中o n t o l o g y 可 阻是以分布式的形式存在的,因此它还很容易扩展到新的领域o n t o l o g y 一般是 由领域知识专家构建的,一般人很难构建,本领域知识的专家也很难构建别的领 电子科技大学硕士学位论文 域的o n t o l o g y 。但由于o n t o l o g y 是可以分布式存在的,这些新的领域o n t o l o g y 可以 由不同地方,不同领域知识的专家构建。当一个新的领域o n t o l o g y 建成之后,只 要对本系统给出它的地址,那么本方法就可以基于新的o n t o l o g y 进行信息抽取了, 从而就扩展到新的领域。 通常来说基于o n t o l o g y 的信息抽取方法可以分为两类: 知识工程方法:由专家对o n t o l o g y 知识库进行分析、调整从而人工制定规 则、模板。比如对命名实体( 人、公司、地方、单位的名称) 的识别,可 以采用基于规则的方法,采用有限状态自动机来实现。 自动训练方法:给出标注的例子文档集,通过机器学习来箍导模板和模板 的自动填充知识库和规则,也可以应用统计学的方法来抽取,比如中 文人名的抽取等等。 这两种方法各有优缺点; 知识工程方法的优点是无需对o n t o l o g y 知识库进行经常性的更改,通过 o n t o l o g y 知识库转化而来的信息抽取规则比较固定,抽取效率比较高。但是知识工 程方法的缺点是由于信息抽取所依赖的o n t o l o g y 知识库很少更新,所以一旦所抽 取的文本中出现o n t o l o g y 知识库中未描述的概念、关系时,信息抽取的召回率会 降低。而且由于领域o n t o l o g y 知识库必须由本领域内的领域知识专家建立。 自动训练方法的优点是无需领域知识专家来建立领域o n t o l o g y 知识库,而且 只要通过标注好的大量文档对信息抽取系统进行训练就能自动填充好知识库和生 成新的抽取规则。自动训练方法的缺点是用来训练抽取系统的必须人工借助工具 来生成。而且抽取系统的知识库和抽取规则会动态变化,这会影响到信息抽取的 效率。 基于o n t o l o g y 的信息抽取在国外有很多研究,也有不少的实验系统,例如以 下几个系统:o n t o s e e k ( g u a r i n o ,m a s o l o ,& v e t e r e ,1 9 9 9 ) 是一个系统设计用来做 基于内容的信息获取,它把o n t o l o g y 驱动的内容匹配机制与适当的表达代理机制 相结合。e m b t e y ,c a m p b e l l ,s m i t h ,a n dl i d d l e ( 1 9 9 8 ) 提出了一个基于应用领域 的o n t o l o g y 的非结构化文本的信息抽取方法。他们提出了一个如何基于领域 o n t o l o g y 技术从用户使用的自然语言查询中进行信息抽取的思路。l a ma n dh o ( 2 0 0 1 ) 计划一个f i d s 系统来对在线财经新闻文章进行自动摘要。f i d s 系统可 以通过基于内容的自动分类和信息抽取技术来整合不同文章中的信息。o n t o b r o k e r 是用来处理h t m l 、x m l 和r d f 格式的信息源和信息源语义描述的系统,提供 信息检索、查询和维护支持服务。核心是用形式化本体描述背景知识,并明确化 第一章概论 w e b 文档的语义,以便综合利用本体论的表达能力和推理机制。 1 3 本人工作 信息抽取系统体系结构和相关技术研究; 基于o n t o l o g y 的信息抽取系统各部分功能的实现; 信息抽取器的测试及结果分析: 对基于o n t o l o g y 的信息抽取技术发展趋势的预测。 1 4 论文章节安捧 第一章,主要介绍了当前基于o n t o l o g y 的信息抽取技术的发展情况,课题 的开发背景以及作者的工作介绍。 第二章,本章对信息抽取系统的基础知识进行系统的阐述。 篇三章对o n t o l o g y 及基于o _ 犍o ! o g y 的信息抽取系缝的基本知识进行了介 绍,并对三个基于o n t o l o g y 的信息抽取实例进行了研究比较。 第四章,本章详细介绍了系统的设计,从总体设计到各模块o n t o l o g y 及其解析器、语法分析模块、抽取规则、信息抽取器、查询统计的设计, 其中重点对l e x 的规则进行了介绍。 第五章,本章主要是对上一章所介绍的各个模块的实现,其中重点介绍了 o n t o l o g y 及其解析器的实现。 第六章,本系统的测试和结果分析。 第七章,对工作的总结及系统进一步发展的展望。 第七章,对工作的总结及系统进一步发展的展望。 电子科技大学硕士学位论文 第= 章信息抽取系统的相关介绍 本章对信息抽取系统的基础知识进行系统的阐述。具体来说对信息抽取系统 从其定义、结构体系、关键技术等方面进行介绍,重点在介绍信息抽取系统中命 名实体识别、句法分析、篇章分析语推理以及知识获取等关键技术的介绍。 2 1 信息抽取系统的定义及功能 信息抽取的定义是:从一段文本中抽取指定的一类信息( 事件、事实) 并将 其形成结构化的数据填入一个数据库中供用户查询使用的过程。 信息抽取系统的主要功能是从文本中抽取出特定的事实信息( f a c t u a l i n f o r m a t i o n ) 并且将其形成结构化的数据填入一个数据库中供用户查询使用。比如, 从新闻报道中抽取出恐怖事件的详细情况;时间、地点、作案者、受害者、袭击 目标、使用的武器等:从经济新闻中抽取出公司发布新产品的情况:公司名、产 品名、发布时间、产品性能等;从病人的医疗记录中抽取出症状、诊断记录、检 验结果、处方等等或者直接提取文章中某句话或某段话的信息等等。通常,被抽 取出来的信息以结构化的形式描述,可以直接存入数据库中,供用户查询以及进 一步分析利用。与信息抽取密切相关的一项研究是信息检索,但信息抽取与信息 检索存在差异,主要表现在几个方面: 功能不同。信息检索系统主要是从大量的文档集合中找到与用户需求相关 的文档列表;而信息抽取系统则旨在从文本中直接获得用户感兴趣的事实 信息。 处理技术不同。信息检索系统通常利用统计及关键词匹配等技术,把文本 看成词的集合( b a g so f w o r d s ) ,不需要对文本进行深入分析理解;而信息 抽取往往要借助自然语言处理技术,通过对文本中的句子以及篇章进行分 析处理后才能完成。 适用领域不同。由于采用的技术不同,信息检索系统通常是领域无关的, 而信息抽取系统则是领域相关的,只能抽取系统预先设定好的有限种类的 事实信息。 另一方面,信息检索与信息抽取又是互补的。为了处理海量文本,信息抽取 系统通常以信息检索系统( 如文本过滤) 的输出作为输入:而信息抽取技术又可以用 来提高信息检索系统的性能。二者的结合能够更好地服务于用户的信息处理需求。 第二章信息抽取系统的相关介绍 信息抽取虽然需要对文本进行一定程度的理解,但与真正的文本理解( t e x t u n d e r s t a n d i n g ) 还是不同的。信息抽取技术并不试图全面理解整篇文档,只是对文 档中包含相关信息的部分进行分析。在信息抽取中,用户一般只关心有限的感兴 趣的事实信息,而不关心文本意义的细微差别以及作者的写作意图等深层理解问 题。因此,信息抽取只能算是一种浅层的或者说简化的文本理解技术。 一般来说,信息抽取系统的处理对象是自然语言文本尤其是非结构化文本。 但广义上讲,除了电子文本以外,信息抽取系统的处理对象还可以是语音、图像、 视频等其他媒体类型的数据。在这里只讨论狭义上的信息抽取研究,即针对自然 语言文本的信息抽取。 信息抽取系统的实现一般有两种方法: 知识工程方法:由专家对语料库进行分析、调整从而人工制定规则、模板。 比如对命名实体( 人、公司、地方、单位的名称) 的识别,可以采用基于 规则的方法,采用有限状态自动机来实现。 自动训练方法:给出标注的例子文档集,通过机器学习来推导模板和模板 的自动填充规则,也可以应用统计学的方法来抽取,比如中文人名的抽取。 信息抽取系统所涉及的技术包括: 自然语言处理技术:词汇和语法分析,句子和段落识别、篇章结构分析、 指同求解( c o r e f e r e n c er e s o l u t i o n ) 等。 人工智能技术:模板创建,建立领域知识库等等。 语言工程技术:语料库标注、语料库统计等等。 2 2 信息抽取系统的体系结构 h o b b s 曾提出一个信息抽取系统的通用体系结构,他将信息抽取系统抽象为 “级联的转换器或模块集合,利用手工编制或自动获得的规则在每一步过滤掉不 相关的信息,增加新的结构信息”。 h o b b s 认为典型的信息抽取系统应当由依次相连的十个模块组成: 1 ) 文本分块:将输入文本分割为不同的部分一块。 2 ) 预处理:将得到的文本块转换为句子序列,每个句子由词汇项( 词或 特定类型短语) 及相关盼属性( 如词类) 组成。 3 ) 过滤:过滤掉不相关的句子过滤。 4 ) 预分析:在词汇项( l e x i c a li t e m s ) 序列中识别确定的小型结构,如名 5 屯子科技大学硕士学位论文 词短语、动词短语、并列结构等。 5 ) 分析:通过分析小型结构和词汇项的序列建立描述句子结构的完整分 析树或分析树片段集合。 6 ) 片段组合:如果上一步没有得到完整的分析树,则需要将分析树片段 集合或逻辑形式片段组合成整句的一棵分析树或其他逻辑表示形式。 7 ) 语义解释:从分析树或分析树片段集合生成语义结构、意义表示或其 它逻辑形式。 8 ) 词汇消歧:消解上一模块中存在的歧义得到唯一的语义结构表示。 9 ) 共指消解或篇章处理:通过确定同一实体在文本不同部分中的不同描 述将当前句的语义结构表示合并到先前的处理结果中。 1 0 ) 模板生成:由文本的语义结构表示生成最终的模板。 当然,并不是所有的信息抽取系统都明确包含所有这些模块,并且也未必完 全遵循以上的处理顺序,比如3 ) 、4 ) 两个模块执行顺序可能就相反。但一个信息抽 取系统应当包含以上模块中描述的功能。 如图2 - 1 所示,给出了美国纽约大学p r o t e u s 信息抽取系统的体系结构,具有 一定的代表性。 图2 - 1 纽约大学p r o t e u s 信息抽取系统体系结构 6 第二章信息抽取系统的相关介绍 2 3 信息抽取系统中的一些关键技术 2 3 1 命名实体识别 命名实体是文本中基本的信息元素,是正确理解文本的基础。狭义地讲,命 名实体是指现实世界中的具体的或抽象的实体,如人、组织、公司、地点等,通 常用唯一的标志符( 专有名称) 表示,如人名、组织名、公司名、地名等。广义 地讲,命名实体还可以包含时间、数量表达式等。至于命名实体的确切含义,只 能根据具体应用来确定。比如,在具体应用中,可能需要把住址、电子信箱地址、 电话号码、舰船编号、会议名称等作为命名实体。 命名实体识别就是要判断一个文本串是否代表个命名实体,并确定它的类 别。在信息抽取研究中,命名实体识别是目前最有实用价值的一项技术。根据m u c 评测结果,英文命名实体识别任务的f - 指数( 召回率与准确率的加权几何平均值, 权重取1 ) 能达到9 0 以上。 命名实体识别的难点在于: 在不同领域、场景下,命名实体的外延有差异; 数量巨大,不能枚举,难以全部收录在词典中; 某些类型的实体名称变化频繁,并且没有严格的规律可以遵循; 表达形式多样; 首次出现后往往采用缩写形式。 命名实体识别的方法主要分为:基于规则的方法和基于统计的方法。一般来 说,基于规则的方法性能要优于基于统计的方法。但是这些规则往往依赖于具体 语言、领域、文本格式,编制过程耗对且容易产生错误,并且需要富有经验的语 言学家才能完成。相比而言,基于统计的方法利用人工标注的语料进行训练,标 注语料时不需要广博的计算语言学知识,并且可以在较短时间内完成。因此,这 类系统在移植到新的领域时可以不做或少做改动,只要利用新语料训练一遍即可。 此外,基于统计的系统要移植到其他自然语言文本也相对容易一些。 2 3 2 句法分析 通过句法分析得到输入的某种结构表示,如完整的分析树或分析树片段集合, 是计算机理解自然语言的基础。在信息抽取领域一个比较明显的趋势是越来越多 的系统采用部分分析技术,这主要是由于以下三方面原因造成的: 电子科技丈学硕士学位论文 首先,是信息抽取任务自身的特殊性,即需要抽取的信息通常只是某一领域 中数量有限的事件或关系。这样,文本中可能只有- 4 , 部分与抽取任务有关。并 且,对每一个句子,并不需要得到它的完整的结构表示,只要识别出部分片段问 的某些特定关系就行了,得到的只是完整分析树的部分子图。 其次,是部分分析技术在m u c 系列评测中的成功。s k i 公司在其参加m i j c 4 评测的f a s t u s 系统中开始采用层级的有限状态自动机分析方法。该方法使 f a s t u s 系统具有概念简单、运行速度快、开发周期短等优点,在多次c a d 评测 中都居于领先地位。 最后,部分分析方法盛行也是因为目前尚没有其他更好的选择。现在,完全 分析技术的鲁棒性以及时空开销都难以满足信息抽取系统的需要。但是,另一方 面,也要清醒看到:部分分析技术只能使信息抽取系统的处理能力达到目前的水 平( f 一指数小于6 0 ) ,要想使其性能有大的飞跃,必须探索更有效的分析技术。 2 3 3 篇章分析与推理 一般说来,用户关心的事件和关系往往散布于文本的不同位置,其中涉及到 的实体通常可以有多种不同的表达方式,若且还有许多事实信息隐含于文本之中。 为了准确而没有遗漏地从文本中抽取相关信息,信息抽取系统必须能够识别文本 中的共指现象,进行必要的推理,以合并描述同一事件或实体的信息片段。因此, 篇章分析、推理能力对信息抽取系统来说是必不可少的。 初看起来,信息抽取中的篇章分析比故事理解中的篇章分析要简单得多。因 为在信息抽取中只需要记录某些类型的实体和事件。但是,大多数信息抽取系统 只识别和保存与需求相关的文本片段,从中抽取出零碎的信息。在这个过程中很 可能把用以区分不同事件、不同实体的关键信息给遗漏了。在这种情况下要完成 篇章分析是相当困难的。 除此之外,目前尚缺乏有效的篇章分析理论和方法可以借鉴。现有篇章分析 理论大多是面向人、面向口语的,需要借助大量的常识,它们设想的目标文本也 比真实文本要规范,并且理论本身也没有在大规模语料上进行过测试。 信息抽取系统除了要解决文本内的共指问题外,还需要解决文本间的( 跨文 本的) 共指问题。在文本来源比较广泛的情况下,很可能有多篇文本描述了同一 个事件、同一个实体,不同文本问还会存在语义歧义,如相同的词有不同的含义、 不同的词代表一个意思。为了避免信息的重复、冲突,信息抽取系统需要有识剐、 第二章信息抽取系统的相关介绍 处理这些现象的能力。 由m u c - 6 和m l t c - 7 对信息抽取系统部分篇章处理能力( 即指称短语的共指 消解) 的评测结果看,篇章处理能力是目前信息抽取系统的弱项,是一个瓶颈, 急需深入研究与改进。 2 3 a 知识获取 作为一种自然语言处理系统,信息抽取系统需要强大知识库的支撑。在不同 的信息抽取系统中知识库的结构和内容是不同的,但一般来说,都要有:一部词 典( l e x i c o n ) ,存放通用词汇以及领域词汇的静态属性信息;一个抽取模式库 ( e x t r a c t i o np a t t e r n sb a s e ) ,每个模式可以有附加的( 语义) 操作,模式库通常也 划分为通用部分和领域( 场景) 专用部分;一个概念层次模型( o n t o l o g y ) ,通常 是面向特定领域或场景的,是通用概念层次模型在局部的细化或泛化。除此之外, 可能还有篇章分析和推理规则库、模板填充规则库等。 如前所述,信息抽取系统通常是面向特定应用领域或场景的。这种领域受限 性决定了信息抽取系统中用到的主要知识是所谓的浅层知识。这种知识的抽象层 次不高,通常只适用于特定应用领域,很难在其他领域复用。如果要把一个信息 抽取系统移植到新的领域或场景,开发者必须要为系统重新编制大量的领域知识。 一般说来,手工编制领域知识往往是枯燥的、费时的、易错的、费用较高,并且 只有具有专门知识( 应用领域知识、知识描述语言知识、熟悉系统的设计与实现) 的人员才能胜任这种工作。另外,由于自然语言中存在的“长尾”综合效应( ”l o n g t a i l ”s y n d r o m e ) 或称z i p f 法则,人工编制的知识库很难达到很高的语言覆盖面。 因此,知识获取问题已经成为制约信息抽取技术广泛应用的一个主要障碍。它除 了影响系统的可移植性外,也是影响系统性能的主要因素。正因为如此近几年召 开的多次专题学术研讨会都是以解决知识获取问题、建立具有自适应能力的信息 抽取系统为主题的。 领域知识获取可以采用的策略通常有两种:手工+ 辅助工具( 图形用户接口) ; 自动半自动+ 人工校对。前者相对简单一些,人工工作仍然是主体,只是为移植者 提供了一些图形化的辅助工具,以方便和加快领域知识获取过程。后者采用有指 导的、无指导的或间接指导的机器学习技术从文本语料中自动或半自动获取领域 知识,人工干预程度较低。实际上,这两种策略不是完全对立的,只是自动化程 度高低不同而已。某种意义上讲,第一种策略仍然是一种人工编制知识库的过程, 电子科技大学硕士学位论文 知识瓶颈问题只是得到某种程度的缓解。第二种策略才是解决信息抽取系统知识 获取瓶颈问题的真正出路。近几年有不少研究者采用自扩展( b o o t s t r a p p i n g ) 抽取 模式。 2 4 信息抽取的分类及比较 信息抽取技术有多种分类方式,例如根据自动化程度就可以分为人工方式信 息抽取、半自动化的信息抽取和全自动方式的信息抽取。根据信息本身的分类方 式,信息抽取分为非结构化文本的信息抽取、半结构化文本的信息抽取、结构化 文本的信息抽取。根据各种信息抽取工具所采取的原理将现有的信息抽取系统分 为以下6 类: 1 ) 基于自然语言处理方式的信息抽取; 2 ) 包装器归纳方式的信息抽取: 3 ) 基于h t m l 结构的信息抽取; 4 ) 基于x m l 结构的信息抽取; 5 ) 基于w e b 查询的信息抽取; 6 1 基于o n t o l o g y 方式的信息抽取; 下面将对于后者分类方式,结合典型的系统,在语义的附加方式、模式的定 义方式、规则的表现形式、语义项的定位方式、对象的定位方式等几方面进行了 分析和比较。其中结构化的数据成为对象;模式的定义方式主要有2 种:信息抽 取之前给出对象模式的称为先模式,反之成为后模式。分析如下: 2 4 1 基于自然语言处理方式的信息抽取 这类信息抽取主要适用于源文档包含大量文本的情况( 特别是针对合乎文法 的文章) ,在定程度上借鉴了自然语言处理技术,利用予句结构、短语和子旬间 的关系建立基于语法和语义的抽取规则实现信息抽取。目前采用这种原理的典型 系统有r a p i e r 、s r v 、w h i s k 。下面结合比较典型的系统w h i s k 来详细说明这 种方式的信息抽取。 w h i s k 系统既适用于结构化,半结构化的文本,也适用于自由文本。结构化 和半结构化的文本,一般不符合文法,所以系统主要根据语义项的上下文实现感 兴趣信息的定位。此时基本上没有利用到自然语言处理技术,对这种情况这里不 做详细的分析。对自由文本,系统首先根据分割符将源文档分割成多个实例( 每 第二章信息抽取系统的相关介绍 个实例是一个语义相关的文本块) 。在交互式的环境下,系统每一次呈现给用户一 组实例。用户在可视化环境下根据系统提供的实例标记出感兴趣的信息并定义模 式。系统使用语法分析器和语义类( 如人名、机构名) 分析器,分析出用户标记 信息的语法成分和对应的语义类,生成基于语法标记和语义类标记的抽取规则, 实现信息抽取。 系统采用了先模式的方式,对于结构化和半结构化的文本,规则采用正则表 达式描述了感兴趣语义项( 文本中的短语) 的上下文及语义项间的分割符,利用 这些信息达到识别感兴趣语义项的目的。对于自由文本,在一定程度上利用了自 然语言处理技术的思想。信息抽取的实质是根据语义项对应的语义类、语义项的 上下文和所处的句子成分实现信息的定位( 如某个语义项只能出现在句子的关系 从句中) ,即根据语义和语法的双重约束实现信息抽取。 2 4 2 包装嚣归纳方式的信息抽取 包装器归纳方式的信息抽取根据事先由用户标记的样本实铡应用枧嚣学习方 式的归纳算法,生成基于定界符的抽取规则。其中定界符实质上是对感兴趣语义 项上下文的描述,即根据语义项的左右边界来定位语义项。该类信息抽取方式和 基于自然语言理解方式的信息抽取技术最大的不同在于仅仅是用语义项的上下文 来定位信息,并没有使用语言的语法约束。采用这种原理的典型系统有s t a l k e r , s o f t m e a l y ,w i e n 。下面根据s t a l k e r 系统详细分析这类信息抽取技术。 s t a l k e r 系统根据用户事先标记的样本页面和用户嵌入式分类树( e m b e d d e d c a t a l o gt r e e ) 形式提供的页面结构信息,应用逐步覆盖算法( s e q u e n t i a lc o v e r i n g a l g o r i t h m ) ,逐步归纳生成基于定界符的精确的抽取规则,实现层次的信息抽取, 嵌入式分类树( e c t ) 在该系统中是一个重要的概念,它是用户根据页面结构 定义的嵌套模式。该树形结构一方面描述了页面的逻辑机构,另一方面提供了模 式信息和语义信息( 树中节点的名称) ,嵌入式分类树中有3 种类型的节:根节点 ( 表示整个文档) 、内部非叶节点( 称为l i s t 节点,表示多个同类对象的列表) , 叶节点( 表示对象的语义项) 。系统为每个叶节点生成普通的抽取规则,即用来定 位语义项:为l i s t 节点生成普通抽取规则和迭代规则,其中普通抽取规则用来定 位多个对象组成的信息块,然后应用迭代规则实现单个对象的定位。该系统之所 以成为层次的信息抽取是因为抽取是根据嵌入式分类树的层次进行的,并且某一 节点的抽取规则是对其父节点的抽取结果执行的。 电子科技大学硕士学位论文 该系统中语义的附加模式的定义是在用户定义嵌入式分类树阶段完成的,属 于先模式方式。信息定位的实质是使用左右边界识别出各语义项,然后再将各语 义项组装成一个对象。而该系统在一定程度上是按结构抽取和按文本抽取的结合。 根据嵌入式分类树先获得高层节点对应的大的文本块,然后再应用低层节点对应 的抽取规则,逐步获得想要的信息。该系统是在上次的结果中使用左右边界实现 信息的定位,并不是在整个文档中,所以抽取规则的形式相对简单,而且抽取的 准确率相对高一些。另外由于使用嵌入式分类树描述模式,所以可以抽取复杂的 对象。但是规则中的定界符不仅仅是由h t m l 标记组成,而且还有某类网页经常 出现的关键词组成。所以该类信息抽取不但对页面机构有所依赖,而且对网页的 内容也有所依赖,要想获得精确的抽取规则必须进行大量的样本训练。 2 4 3 基于联m 吼结构的信息抽取 该类信息抽取的技术特点是,根据w e b 页面的结构定位信息。在信息抽取之 前通过解析器将w e b 文档解析成语法树,通过自动或半自动的方式产生规则,将 信息抽取转化为对语法树的操作实现信息抽取。采用该类信息抽取技术的典型系 统有l i x t o 、x w r a p 、r o a d r u n n e r 和w 4 f 等。下面对具有代表性的x w r a p 系 统进行分析。 x w r a p 系统通过交互式的方式,由用户在样本页中指定抽取区域的起始位 置,系统确定整个抽取区域,并确定抽取区域的类型,然后通过可视化方式,由 用户在样本页中指定语义项( 如表头) 及与之对应的实例,系统自动产生抽取规 则实现信息抽取,最后系统利用启发信息获得数据间的层次结构关系,生成x m l 文档。 该系统采用用户在网页中指定语义项的方式附加语义信息,即将网页的部分 内容作为语义项,对于不同的区域类型( 如t a b l e 、l i s t 等) 采用不同抽取规则提 高系统的灵活性和效率。但是该系统只适合对含有明显区域结构( 如t a b l e 、l i s t 等) 的网页进行信息抽取,不支持对普通网页的抽取,模式表达的能力也非常有 限,在学习阶段用户参与太多。 2 4 4 基于匝结构的信息抽取 当前的w e b 信息大多数都是h t m l 格式的,由于h t m l 具有结构简单性和灵 活性,它极大地促进了信息产业的发展,但是也正是由于h t m l 结构太灵活和自 第二章信息抽取系统的相关介绍 由,造成了一个致命的缺陷:难以检索或者抽取隐藏其中的数据。针对h t m l 的这 种缺陷,x m l 语言应运而生,它一方面继承了h t m l 的灵活性和简单性,另一方 面又对其存在的问题做了很大的改进,最重要的就是强制结构的完整性和标签的 自定义性。正因为x m l 比h t m l 具有更多的优点,人们普遍认为:x m l 最终会 取代h t m l 而成为w e b 的通用语言。此外,针对x m l 的研究以及支持x m l 的 工具也不断涌现。为此,我们设想:能否将h t m l 格式的文档转换成x m l 格式, 然后再进行对x m l 文档进行信息抽取7 事实证明这种方法是可行的。具体抽取过 程如下: 第一步:获取信息源,并将h t m l 转换成x m l 。t i d y ,可用于改正h t m l 文档中的常见错误并生成格式编排良好的等价文档,还可以使用t i d y 来生成 x h t m l ( x m l 的子集) 格式的这些文档。 第二步:找数据中的引用点。无论是在w e b 页面还是x h t m l 视图中的绝大 多数信息都与我们完全无关。在这一步中我们的任务就是在x m l 树中找出一个特 定区域,并从中抽取我们感兴趣的数据而无需关心外来信息。完成这一任务的最 简单的办法通常是,首先检查w e b 页面,只需要看一下页面就可以知道信息位于 页面的位置( 称之为锚) ,然后使用x s l 来转换我们的x m l ,利用x p a t h 表达式来 指定从根元素到锚的路径。如:h t m l f o o d y c e n t e r t a b l e 6 t r 2 t d 2 】 t a b l e 2 t r t d t a b l e 6 。但是这个方法的缺陷就在于会导致我们对页面布局的修改非 常容易遭到破坏。较好的方法是根据周围的内容指定锚。通过这个方法,我们对 上例中的x p a t h 表达式重新构造:t a b l e s t a n s - w i t h ( t r t d f o n t b ,、a p p e a rt e m p 、) 】,这 样我们就很容易找到表格中粗体显示的、a p p e a r t e m p 、信息了。 第三步:将数据映射成x m l 。从前一步中得到锚,我们可以创建实际抽取数 据的代码。这个代码将以x s l 文件的形式出现。x s l 文件的目的是标识锚,指定 如何从这个位置获取我们正在查找的数据,并且用我们所需的格式构造一个x m l 输出文件。 2 4 5 基于w e b 查询的信息抽取 使用w e b 的相关技术解决w e b 的问题被称为w e b 技术风范。上述的信息抽取 工具采用了不同的原理,抽取规则的形式和感兴趣信息的定位方式也各不相同。 因此不具有通用性。具有w e b 技术风范的信息抽取,将w e b 信息抽取转化为使用 标准的w e b 查询语言对w e b 文档的查询,具有通用性。采用该类技术的典型的系 电子科技大学硕士学位论文 统有w e b - o q l 等。 w 曲一o q l 是类似s q l 语句的w e b 查询语言,它具有定位感兴趣信息和结构 重构的功能。系统利用w e b o q l 语言提出了一种通用的h t m l 包装框架。系统 首先将输入的w e b 文档解析成一棵抽象的h t m l 语法树h y p e r t r e e ,然后用户在信 息抽取之前根据页面的结构和标记写出合适的查询语句实现信息抽取。 该系统试图将w e b 信息抽取转化成w e b 查询。但并没有看到其实现。w e b o q l 毅作为一种w e b 查询语言出现,并为x q u e r y 规范形成做出了贡献。 2 4 6 基于o n t o l o g y 方式的信息抽取 该类信息抽取主要是利用对数据本身的描述信息实现抽取,对网页结构依赖 少。由b r i g h a n ly o n gu n i v e r s i t y ( b y u ) 信息抽取小组开发的信息抽取工具采用了 这种方式。 在b y u 系统中,事先需要由领域知识专家采用人工的方式书写某一应用领域 的o n t o l o g y 。系统根据边界分割符恝启发信息将源文档分割为多个描述菜事物不 同实例的无结构的文本块,然后根据o n t o l o g y 中常值和关键字的描述信息产生抽 取规则,对每个无结构的文本块进行抽取获得各语义项的值,最后将抽取出的结 果放入根据o n t o l o g y 的描述信息生成的数据库中。 该系统中语义的附加方式是在书写某一应用领域的o n t o l o g y 的时候完成的, 即人工方式附加语义信息,并且采用了先模式的方式事先确定了对象的模式。系 统最大的优点是对网页结构的依赖很少,只要事先创建的应用领域o n t o l o g y 足够 强大,系统可以对该应用领域中各种文本实现信息抽取。但是系统使用不太方便, 某一领域的o n t o l o g y 只能由领域知识专家创建,另外由于是根据数据本身实现信 息抽取的,因此在减少了对网页结构依赖的同时,增加了对网页中所包含的数据 结构的要求。 2 4 7 几种信息抽取方法的比较 根据以上的分析可知,目前各类信息抽取技术中生成规则的依据主要有以下3 类:页面结构信息( h t m l 语法) 、页面的内容和自然语言语义、语法信息。 各类信息抽取技术中语义的附加方式有多种。基于自然语言理解方式的信息 抽取中在一定程度上可以通过自然语言语法、语义获得抽取出的信息的语义,但 要取得较好的效果不易;全自动的信息抽取根据页面中的h t m l 标记问的关系抽 第二章信息抽取系统的相关介绍 出数据,并已嵌套的形式加以组织,但是抽取出的数据依旧没有语义信息;大量 的系统采用人工或者半人工的方式附加语义,这种方法简单、易用。 语义项的定位主要有两种方式:根据内容实现信息抽取的系统中,通过感兴 趣信息的在文本中的上下文实现语义项的定位;根据结构实现信息抽取的系统中, 通过感兴趣的信息在页面中所处的位置信息实现语义项的定位,或者二者兼用。 2 5 信息抽取系统的工作过程和衡量指标 信息抽取系统利用一种由事件名称( e v e n t ) 、日期( d a
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 浦发银行新乡市卫滨区2025秋招笔试行测高频题及答案
- 兴业银行廊坊市永清县2025秋招数据分析师笔试题及答案
- 招商银行绍兴市诸暨市2025秋招笔试专业知识题专练及答案
- 兴业银行石家庄市正定县2025秋招笔试热点题型专练及答案
- 驾校满分考试题目及答案
- 浦发银行南通市如东县2025秋招笔试性格测试题专练及答案
- 家政考试题及答案解答大全
- 家居卫浴服务考试题及答案
- 中信银行天津市南开区2025秋招结构化面试经典题及参考答案
- 浦发银行吉林市丰满区2025秋招结构化面试经典题及参考答案
- 村干部饮水安全培训总结课件
- 安全生产治本攻坚三年行动半年工作总结
- 单招备考科学方案
- 海船船员适任 评估规范(2024)轮机专业
- 《工程勘察设计收费标准》(2002年修订本)
- 第三单元名著导读《朝花夕拾之二十四孝图》-部编版语文七年级上册
- 最新人教版四年级英语上册课件(完美版)Review of Unit 5
- 掌骨骨折查房课件
- 大学食堂装饰装修方案
- 工资结清证明(模板)
- 矿山档案(台帐) 表格参照模板参考范本
评论
0/150
提交评论