




已阅读5页,还剩50页未读, 继续免费阅读
(计算机软件与理论专业论文)web信息自动抽取技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着互联网的快速发展,如何有效的从w c b 中获得所需信息成为亟待解决的 问题,因此信息抽取成为必要。而针对不同的应用和不同的信息来源,所采用的 信息抽耿方法也各不相同,主题w e b 页面和数据导向型w 曲页面是目前w 曲应用 中两大类最主要的信息源。 本文针对主题w 曲页面提出了一种剪枝信息熵增较大结点的信息抽取方法。 通过对包含主题信息的h t m l 文档解析来构造d o m 树。根据配置过滤掉不需处 理的相关内容并建立语义模型树,最后对熵增超过闽值的结点进行剪枝并输出抽 取的主题信息页面。初步实验结果验证了用这种方法进行w 曲页面信息抽取的有 效性。 针对数据导向型w 曲页丽提出了一个基于x m l 技术的w 曲信息抽取方法。 通过对具有相似结构w 曲页面解析来构造d o m 树,采用归纳学习算法,寻找和 识别出感兴趣的数据结点。利用x p a t h 和x s l l l 技术实现数据定位和转换并在优化 定位信息的基础上编写出抽取规则。最后用抽取规则对待抽取w 曲页面进行变换, 就可以得到包含所抽取数据信息的x m l 文档。 关键词:信息抽取信息熵) m lx s l l a b s t r a c t a b s t r a c t w i t ht h ee x p l o s i o no fi n t e m e t ,h o wt og e tt h ep i e c eo fi n f o r m a t i o nw h a th ew a n t f r o mt t i ew e bh a sb e c o m eas e r i o u sp f o b l e m ,s oi n f o 珊a t i o ne x t r a c t i o nf r o mw e bp a g e s i s n e c e s s a r y w j t l ld i 仃e r e n ta p p l i c a t i o na n di n f 0 册a t i o ns o u r c e s , t h em e t h o do f e x t r a c t i o ni n f 0 蛳a t i o nj sd i f f e r e tw i t he a c ho t h e rt o o t h et o p i cw e bp a g e sa n dd a t a l e a d i n gt y p ew e bp a g e sa r et o wt ”eo fi n f o r m a t i o ns o u r c e si nw 曲a p p l i c a t j o na t p r e s e t a st ot h et o p i cw 曲p a g e s ,t h i sp a p e rp r e s e m sam e t h o do fj n f o n n a t i o ne x t r a c t i o n b yp m n i n gt h en o d e so fw h i c hj n f o m a t i o ne n 觚) p yp m d u d i o r e a c hac e n a i ne x t e n t f i r s t l y ,ad o m t f e ei sc o n s t m c t e db yp a r s i n gh t m l d o c i l m e n t t h e n ,t h en o d e sw h i c h d o n tn e e dt ob ed e a l tw i t ha r ef i l t r a t e d0 u t ,a n das t ut i e ei sc r e a t e d i 上s t l y ,t h en o d e s w h o s ei i i f 咖a t i o ne n t r o p y si n c r c 勰eo v e r t o p st h et h r c s h o l dv a l u ea r ep n l n e d ,a i i dt h e t o p i ci n f b m l a t i o n0 ft h ew 曲p a g c si so b t a i n e d t h ep r i m a r ye x p e r i m e n tr c s u np i o v e s t h ev a l i d i t yo f t h em e t h o du s i n gf o re x t r a c t i n gw 曲p a g e si n f 0 瑚a t i o n a st ot h ed a t ak a d j n gt y p ew b bp a g e s ,t 1 1 i sp a p e ra p p l ys t a n d a r dt e c h n o l o g i e so f x m lt ow e be x t r a c t i o np r o b l e ma i l dd e v e l 叩e dap l a c f 砷mo fw e bi n f o m a t i o n e x t r a c t i o nb 髂c dx m lw i t t l 姗u c t i v ek 蝴i n ga r i t h i n c t i cl a c t a t e da i l di d e n t i f i e dt h e i n f 0 曲a t i o nb 1 0 c k st h a tw ew a n t n i sp 印e ru s e ds t a i i d a r dx s u la 1 1 dx p a l h ,e x p l o i t i n g t h c i rp o w e r so f d a t a1 0 c a t i o na n dc 0 v e r s i o n ,t os o l v et h ek e yp r o b l e m :w r i t i n g e x t 珀c t i o nn l l e s k e y w o r d s :i n f 0 珊a 咖ne x t 心c t t i n f o m a 蛞e t m p y x m lx s i t 创新性声明 y 8 5 9 b & 2 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或 其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均已在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名 日期 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕 业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。 学校有权保留送交论文的复印件,允许查阅和借阚论文;学校可以公布论文的全 部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文 摘解密后遵守此规定) 本学位论文属于保密,在一年解密后适用本授权书。 本人签名 导师签名乏j 、寺倚 。- 。1 。1 一。一 日期 日期。f i tr 第一章绪论 第一章绪论 1 1 选题背景和意义 w w w 的飞速发展使其成为全球信息传播与共享的重要资源,随着i n t e m e t 的 发展,w 曲上的数据呈几何级数增长,要想从w 曲上获取一条有用信息的难度却 越来越大。w 曲数据的不断增长和异构数据源集成的应用,导致了大量半结构( s e m i s 咖c t u r e d l 数据的产生。目前这些数据多是通过h t m l 语言来展现,而h 删l 语言的一个显著特点是结构不规则或不完整。结果使得w e b 上的数据处于一种无 序状态,数据集成性比较差,应用程序无法直接解析、获取并利用w 曲上海量的 信息,给w e b 应用的建立造成了较大困难。其次,随着各类网页制件软件的普及 和人们对网页审美标准的提高,以及商业广告数量的增加,使得w 曲页面中包含 了大量与自身主题信息关系不大的图片、脚本、代码、链接等内容。这些内容不 仅增加了w 曲文档所占空间的大小,更重要的是不适合显示在一些移动设备的小 屏幕上。如何从海量的半结构化信息中抽取出结构化的数据信息,如何从繁杂的 内容当中抽取出主题内敛的有效信息,这是目前针对飞速发展的互联网进行深度 挖掘利用的两个主要方面。 h t e m e t 具有的海量、异构、动态变化等特性使w 西信息抽取不同于传统信息 抽取,同时带来了新的挑战。首先,面对呈级数速度增长的巨大的w 曲信息空问, 如何自动高效地处理海量w 曲信息是w 曲信息抽取的一个难点。其次,w 曲页面 的异构性使如何在各式各样的w 曲页面里准确识别所需信息点成为一个较大的难 点。最后,w 曲网站的动态更新使得保持信息抽取的适应性也成为一个有待解决 的问题。 w 曲信息抽取的一个直接应用就是帮助人们在纷繁复杂的w c b 信息海洋中快 速准确地查找所需信息,加快人们获取信息的速度,从而提高生产效率。另外, 半结构化数据抽取所得到的结构化信息可以直接被其它的应用程序利用,进一步 完成信息搜索( h l f 0 瑚a t i o ns e a c h ) 、数据挖掘( d a t am i n i n g ) 、机器翻译( m a c h i n e t r 蛐s l a t i o n ) 、文本摘要( t c x td i g e s t ) 等后续w 曲信息处理,具有广阔的应用价 值和前景。 举例来讲,将分散在不同w 曲页面的动态变化的股市信息抽取出来可用于股 市行情公告;将不同商家网站( w 曲页面) 提供的商品价格信息抽取出来提供给 用户,用于比价购物;通过抽取用户兴趣相关的信息可为用户提供个性化信息服 务等。 通过对w 曲页面中所包含的信息进行抽取,可以有针对性地形成某一个领域 2w 曲信息自动抽取技术研究 的全面的、便于检索的、能够及时更新的数据信息,为基于w 曲的高级应用奠定 良好的基础。另外,通过对某一领域知识的抽取、分类、汇总、集成,便可以形 成该领域的相关知识库,并可进一步生成文摘以及确认研究点、在广泛分析的基 础上还能自动形成某一研究点的综述。这一切都为人们更好的利用互联网海量信 息提供了一种新的途径。 抽取技术随着需求的增加而不断丰富,近年来国内外涌现了多种信息抽取方 法,根据抽取原理和抽取方式的不同,分为以下4 类【2 1 】:基于自然语言处理方式、 基于包装器归纳方式、基于o n t o l o g y 方式、基于h r m l 结构方式。这些方法各有 侧重地解决了上述w 曲信息抽取中面临的问题,总体上取得了良好的效果,但在 某些方面存在不同程度的局限或缺陷。 为了更好地解决w c b 信息抽取面f f 函的诸多问题和不足,有必要对w 曲信息抽 取问题作进一步研究。 1 2w 曲信息抽取研究现状 有关“信息提取( ) ”的研究起源于2 0 世纪9 0 年代初,主要是由t i p s l e r 的消息理解会议( m u c ) 发起的。的前身是文本理解【3 2 1 ,在m 出现之前,已 经有大量的关于自然语言处理的研究和系统。但这些系统通常只能处理一个很狭 窄领域的文本,而且很难移植到新的领域。 1 r i p s r e r 1 1 e x tp 婶a m 是一个美国国防部领导的行动,它开始于1 9 9 1 年,其 目的是提高文本处理的技术发展水平。n p s t e r 研究共分为3 个阶段,在第1 阶 段,t 口s t e r 通过消息理解会议,在信息提取算法方面取得了很大进展,在自动 识别命名实体( 如人名、组织名等信息) 方面取得了巨大进步。在第2 个阶段, 1 口s r 佩主要研究软件体系结构,使得不同的1 口s n 弧成员之间可以共享软件。 第3 个阶段,t 口s t e r 增加了几个新的领域,如自动文本摘要等。由于缺乏资金, 这项研究计划于1 9 9 8 年正式结束。 随着w e b 的出现和繁荣,研究人员逐渐将兴趣转移到w c b 信息提取的研 究上,涌现了许多算法和系统。其中最知名的研究项目是卡耐基梅隆大学“自动学 习和发现中心( c e n t e f f o r a u t o m a t e d k a m i n ga n d d i s c o v e r y ) 的“w e b 挖掘( m i n i n g 博w o r l d w i d e w e b ) ”项目。该项目的目标是通过自动的从w c b 中提取事实,来 创建大型的、结构化的有用事实的数据库。他们的技术途径是研究机器学习算法, 匮过训练,能够自动提出信息。用户首先定义要被提取的类( 比如公司、产品、 整员) 和关系( 比如“被雇佣”) ,并通过w e b 提供训练样本,系统然后使用这些 川练数据学习通用的信息提取步骤,然后按照这个步骤从其他w e b 页面中提取信 息。他们已经开发了许多学习算法,包括: ( 1 ) 丘r s t o r d e r 规则学习算法; ( 2 ) 第一章绪论 3 文法推断算法( g r a m m a r h f e r c n c e ) 。他们已经证明,这些方法能够提取关于大学 教员、学生、课程和研究项目的信息,达到大约7 0 的精确度和3 0 的查全率。 最近几年,研究人员借鉴其他领域成功的模型或方法,推动了w e b 信息提取 技术的进展。隐马尔可夫模型、归纳逻辑编程( i l p ) 2 3 1 等在信息提取中得到初步应 用,取得了较大的成功。 1 _ 3 本文主要内容 本文试图提出一种新的文档主题相关度判别模型信息熵模型,以此来解 决面向主题的w 曲页面抽取问题;对基于x m l 的包装器生成算法进行改进,以 增加通过包装器对数据导向的w 曲页面进行信息抽取的鲁棒性。 信息熵模型是通过对m m l 文档解析来构造d o m 树,根据配置过滤掉不需 处理的相关内容并建立语义模型树,最后对熵增超过阈值的结点进行剪枝并输出 抽取的主题信息页面。初步实验结果验证了用这种方法进行w 曲页面信息抽取的 有效性。方法的数学模型简单可靠,基本不需要人工干预即可完成主题信息抽取。 可应用于w 曲数据挖掘系统以及p d a 等移动设备的信息获取方面。 对基于x m l 的包装器生成算法提出了一种以x s u l 为抽取规则的w e b 信息 抽取方法。具体做法是首先将样本w 曲文档转换为f r m l 文档,通过解析器构 造d o m 树,寻找最大频繁子树并识别出用户感兴趣信息,以此形成需抽取内容的 定位信息。然后对不同样本w 曲文档的定位信息进行归纳学习,并构造出以x s l t 文档表示的抽取规则。最后应用该抽取规则进行实际的信息抽取。同时,为了克 服单纯依靠路径定位信息存在的脆弱性,提出用相对不变标签作为参考点的相对 路径定位方法,以提高所生成抽取规则的健壮性。方法基本不需要人工干预即可 完成w 曲信息抽取,可应用于w 曲数据挖掘以及信息搜集比对等应用领域。 1 4 本文组织 本文分为五章。第一章以w 曲上数据量的激增、获得有用信息的难度增大以 及人们获取有用信息的要求日益增多为背景,提出了进行w 曲信息抽取研究的必 要必性。并对w 曲信息抽取的概念、抽取研究的阶段和w 曲信息抽取的应用做了 简要地介绍。 第二章对现有的w 曲信息抽取技术做以介绍,并提出目前w 曲抽取所存在的 主要问题和w 曲抽取系统的评价指标。 第三章详细介绍了基于信息熵的w 曲信息自动抽取方法。 4w 曲信息自动抽取技术研究 第四章详细介绍了基于x m l 的信息熵抽取方法。 第五章为本文的总结,并提出了进一步研究的工作。 第二章w 曲信息抽取技术 第二章w e b 信息抽取技术 2 1w 曲信息抽取概念 信息抽取( h f o n n a t i o ne x t r a c t i o n ,简称正) 是把文本里包含的信息进行结构 化处理,变成表格一样的组织形式【州。是近十几年来发展起来的新领域,起源于 文本理解,是自然语言处理领域里一个特别有用的子领域。输入信息抽取系统的 是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出 来,然后以统一的形式集成在一起,这就是信息抽取的主要任务。 信息以统一的形式集成在一起的好处是方便检查和比较。例如比较不同的招 聘和商品信息。还有一个好处是能对数据作自动化处理。例如用数据挖掘方法发 现和解释数据模型。信息抽取技术并不试图全面理解整篇文档,只是对文档中包 含相关信息的部分进行分析。至于哪些信息是相关的,那将由系统设计时定下的 领域范围而定。 信息抽取技术对于从大量的文档中抽取需要的特定事实来说是非常有用的。 互联网上就存在着这么一个文档库。在网上,同一主题的信息通常分散存放在不 同网站上,表现的形式也各不相同。若能将这些信息收集在一起,用结构化形式 储存,那将是有益的。 w 曲信息抽取( w 西i n f o 珊a t i o ne 【t m c t i o ,简称为w 曲m ) 是将1 w 曲作为信 息源的一类信息抽取,就是从半结构化的w 曲文档中抽取数据,属于w 曲内容挖 掘的范畴。 定义1 :给定一个包含一系列对象的页面s ,找到一个映射关系w ,它可以将 s 中的对象映射到一个数据集r ,并且这个映射w 还必须可以从任何与s 类似的 页面s 呻识别并抽取数据。( 其中的“类似”页面指与s 来自同一网站或w 曲服务的 页面,具有相对一致的页面结构) 。 定义1 中的映射w 就是通常所说的包装器( w r a p p c f ) 。包装器是经过分析一 定数量的样本文档( 这个数量一般较少) 而生成的,一旦生成后,就可以利用这 个包装器对与样本文档具有类似结构的所有文档进行自动的信息抽取。w 曲数据 抽取的核心是构造用于抽取的w r a p p e r 。 w 曲信息抽取承接了传统信息抽取技术研究的成果,其核心是将分散在 i n t e n l e t 上的半结构化的h 1 m l 页面中的隐含的信息点抽取出来,并以更为结构化、 语义更为清晰的形式表示,为用户在w 曲中查询数据、应用程序直接利用w c b 中 的数据提供便利。 将信息从网页中抽取出来通常是由包装器( w r a p p c r ) 完成的,所谓包装器就 6w 曲信息自动抽取技术研究 是一个能够将数据从h t m l 网页中抽取出来并且将它们还原为结构化的数据( 例 如x m l 数据) 的软件程序叽w t a p p e r 方法能够代替人或者其它的软件而自主地 工作,能够将一种格式的数据或检索结果转换为另一格式的数据。随着电子技术 与电子商务的发展与应用,w 曲半结构化数据的抽取技术具有越来越重要的理论 和现实意义。 编写包装器的方法经历了手工编写、半自动化生成和现在正在研究的全自动 化生成三个阶段。 早期的包装器是由手工编写的,由专门的具有一定知识的专业人员首先对网 页进行分析,然后写出包装器。手工编写包装器的一个主要问题在于:这是个 既困难又耗费人力的工作。在这个阶段中,对于这样的专业人员的要求非常高, 并且编写出的包装器脆弱而难以维护。 髓着人工智能技术的使用,采取了机器学习、数据挖掘等方式,在一定程度 上使得包装器的产生工作能够自动地进行,但是,在这些技术中都要求不仅要由 用户提供标识样本集,还要有一定的先验知识,因此,还需要进行改进。 在最近的两年中,提出了两个能够基本全部自动化的方法【1 7 ,堋,这两个方法 只要输入相应的网页就能够自动进行分析和生成包装器,并且将数据从网页中抽 取出来,在整个过程中需要用户干预的地方只是最后的数据结构的语义分析部分。 采取这样的全自动方式,大大减轻了用户的工作量,使得网页信息的抽取工作有 了较大的进步。 2 2w r e b 信息抽取系统的一般实现 传统的构造w 珀p p e r 的方式是手工编码,既费时费力、容易出错,还需要专 家完成。于是许多半自动化或自动化的方法被提出。 对w 曲信息抽取方法的分类角度很多,如根据自动化程度分为手工、半自动 和全自动。根据方法的原理可分为机器学习、基于自然语言理解、0 n t o l o g y 方法 和基于h n 亿结构方法等。本节从方法的原理出发,介绍几种w 曲信息抽取技术, 并结合目前较为典型的系统来分析这几类w 曲信息抽取方法。 2 2 1 基于自然语言理解方式的信息抽取 自然语占处理技术通常用于自由文本的信息抽取,需要经过的处理步骤包括: 句法分析、语义标注、专有对象的识别( 如人物,公司) 和抽取规则。具体得说 就是把文本分割成多个句子,对个句子的句子成分( p a r to fs p e e c h ,p 0 s ) 进行 标记,然后将分析好的句子语法结构和事先定制的语言模式( 规则) 匹配,获得 句子的内容。其实就是利用子句结构、短语和子句间的关系建立基于语法和语义 第二章w 曲信息抽取技术 7 的抽取规则实现信息抽取。规则可以由人工编制,也可从人工标注的语料库中自 动学习获得。这类信息抽取主要适用于源文档中含有大量文本的情况( 特别针对 于合乎文法的文本) 。 目前采用这种原理的典型系统有r a p i e r 、s r v 、w 瑚s h 。下面以w h l s h 为 例说明基于自然语言处理方式的信息抽取。 w h i s k 适用于结构化、半结构化的文本,同时也适用于自由文本( f r e et e x t ) 。 结构化和半结构化的文本,由于完整的句子常被h i l m l 标记所分割,一般不符合 语法,所以系统根据语义项的上下文实现感兴趣信息的定位。此时基本上没有利 用到自然语言处理技术,对这种情况这里不做详细分析。对于自由文本,文档中 包含了多个不被h 删l 标记分割的完整句子,此时系统首先根据分割符将源文档 分割成多个实例( 每个实例是一个主题相关的文本块,如一个网上书店的页面中, 一个图书信息的介绍称作一个实例) 。用户在可视化的环境下根据系统提供的实例 标记出感兴趣的信息并定义模式。系统使用语法分析器和语义类( 如人名、机构 名) 分析器,分析出用户标记信息的语法成分和对应的语义类,生成基于语法标 记和语义类标记的抽取规则,实现信息抽取。 w h i s k 中所用的抽取规则主要是建立在词或词类间句法关系的基础上。对于 结构化和半结构化的文本,规则采用正则表达式的形式描述了感兴趣语义项( 文 本中的短语) 的上下文及语义项间的分割符,利用这些信息达到识别感兴趣语义 项的目的。对于自由文本,在一定程度上利用了自然语言处理技术的思想。信息 抽取的实质是根据语义项对应的语义类、语义项的上下文和所处的句子成分实现 信息的定位( 如,某个语义项只能出现在旬子的关系从旬中) ,即根据语义和语法 的双重约束实现信息抽取。 基于自然语言的信息抽取技术是将w 曲文档视为文本进行处理的( 主要适用 于含有大量文本且句子完整、适合语法分析的w 曲页面) ,其缺点也较为明显: 抽取的实现没有利用w 曲文档独特于普通文本的层次特性,抽取规则表达能 力有限,缺乏健壮性;获得有效的抽取规则需要大量的样本学习,达到全自动的 程序较难,而且速度较慢,对于操作网上海量数据来说这是一个大问题。 只支持记录型的语义模式结构,不支持复杂对象的抽取。 由于w 曲页面中的文本通常不是结构完整的句子,所以适用范围较窄。 2 2 2 基于包装器的信息抽取 包装器由一系列的抽取规则以及应用这些规则的程序代码组成。通常,一个 包装器只能处理一种特定的信息源。从几个不同信息源中抽取信息,需要一系列 的包装器程序库。形式化地,每一类w e b 页面对应一个包装器,其对应关系如图 2 1 所示。 w 曲信息自动抽取技术研究 包装器 各类w 曲 页面 图2 1 w h p p e r 与w 曲页面的关系 包装器归纳法可以自动分析出待抽取信息在网面中的结构特征并实现抽取, 其主要思想是用归纳式学习方法生成抽取规则,基于归纳学习的信息抽取模型如 图2 2 所示。该方法首先由n j c h o l a s k u s h m e r i c k 于1 9 9 6 年提出。 网页 翌吨引鬻卜譬 q q l _ j ie f 七l 月三+ 图2 2 基于归纳学习的信息抽取模型 与自然语言处理方式比较,包装器较少依赖于全面的句子语法分析和分词等 复杂的自然语言处理技术,更注重于文本结构和表格格式的分析。使用这一方法 的工具主要有三种:w m n 、s 础m e a l v 和s 1 噙ik e r 。其中w 难n 和s o 硒_ i e a l v 必 须依靠紧挨着数据前的分隔符来定位数据,而且不能抽取复杂格式的数据。 s 1 a i k e r 引入了e c r 树来表示复杂格式的数据。 使用包装器的困难在于: 包装器的针对性强,可扩展性( s c a l a b i l i t y ) 较差。由图2 4 可以看出,由于一 个包装器只能处理一种特定的信息源,所以若从几个不同的信息源中抽取信息, 就需要一系列的包装器集。这样使得信息抽取的工作量巨大。 可重用性( r c u s a b i l i t y ) 差。包装器对页面结构的依赖性强,当出现一类新的 w 曲页面或旧的页面结构发生了变化后,原来的包装器就会失效,无法从数据源 中获得数据或得到错误的数据。这使得一个新的问题出现,即包装器的维护问题。 缺乏对页面的主动理解。目前的包装器主要依赖于原网页或其后台数据库的 模式,基本上是一种数据模式的还原,缺乏对数据语义的主动理解。 2 2 3 基于o n t o l o g y 方式的信息抽取 按照s t a l l f b r dm 专家t o mg n l b e r 的定义,o n t o l o g y 是为了帮助程序和人共享 知识的概念化规范,在知识表达和共享领域,o n t o l o g y 描述了在代理之间的概念和 第二章w 曲信息抽取技术 关系( c o n c e p t s a n dr e i a t i o n s ) 。 基于o n t o i o g y 的信息抽取主要利用了对数据本身的描述信息实现抽取,对网 页结构的依赖较少。由b r i g h a my o n gu 1 1 j v 提出了这种方法。 采用该方法,事先要由领域知识专家采用人工的方式书写某一应用领域的 o n t o l o g y ( 包括对象的模式信息、常值、关键字的拯述信息,其 常值和关键字提 供了语义项的描述信息) 。并且根据o n t o l o g y 中常值和关键字的描述信息产生抽取 规则,对每个无结构的文本块进行抽取获得各语义项的值。另外系统根据边界分 隔符和启发信息将源文档分割为多个描述某一事物不同实例的无结构的文本块。 还将抽取出的结果放入根据o n t o l o g y 的描述信息生成的数据库中。 基于o n t o l o g y 方式的最大的优点是对网页结构的依赖较少,只要事先创建的 应用领域的o t o l o g y 足够强大,系统可以对某一应用领域中各种网页实现信息抽 取。主要缺点是: 需要由领域专家创建某一应用领域的详细清晰的o n t o l o g y ,工作量大。 由于是根据数据本身实现信息抽取,因此在减少了对网页结构依赖的时,增 加了对网页中所含的数据结构的要求,如要求内容中包含时间、日期、d 号码等 有一定格式的内容。 从大量异构的文档中提取公共模式工作量繁重,并且不支持对超链接的处理。 2 2 4 基于h r m l 结构的信息抽取 该类信息抽取技术的特点是根据w 曲页面的结构定位信息。在信息抽取之前 通过解析器将w 曲文档解析成语法树,通过自动或半自动的方式产生抽取规则, 将信息抽取转化为对语法树的操作实现信息抽取。采用这种技术的系统有很多, 比如商业化的u x t o ,非商业化的x w r a p ,另外r o a d r u 皿e r 和w 4 f 、s g w i n m 也采用了该技术。 u x t o :在该系统中,用户以可视交互的方式对样本页面中的信息进行标记, 系统通过记录用户标记的信息,采用“系统默认”或“用户定制”的方式生成抽取规 则,实现对类似页面的信息抽取( 这里的“类似页面”的解释如定义1 ) 。i j x f o 的系 统示意图如图2 - 3 所示。该系统中语义信息是在样本学习阶段由用户加入的,用户 事先在可视化的用户界面上定义模式,且可以表达复杂的语义模式结构,抽取出 数据的最终x m l 文档的形式存放。i j x t o 在一定程度上简化了信息抽取的步骤, 增强了信息抽取技术的实用性。但该系统在实现和优化方面比较难于实现( 其抽 取规则使用了基于d a t a l o g 的e l o g 语言来描述) ,另外抽取规则中对抽取信息的描 述不够丰富。其生成抽取规则的两种方式各有着不同的局限:自动化程度较高的 “系统默认”方式,生成的规则缺乏健壮性;而“用户定制”方式自动化程度较低,但 对用户有一定要求,用户的操作不当可能直接影响生成规则的健壮性。 1 0w e b 信息自动抽取技术研究 图2 3 “x t o 系统实施图 x w r a p :系统提供了一个可视化的用户界面,是一个能用x m l 的w 曲信息 源包装建构的系统。这里“能用x m l ,也称为( x m l 广e n a b l c d ) ,是指隐含在源 w c b 页中关于信息内容的元数据将被抽取出来。并转换为包装文档中的x m l 标记。 这里由用户在网页中指定语义项来附加语义信息,针对不同的网页标记,或 称不同的区域类型( 如t a b l e ,t r 等) 采用不同抽取规则来提高系统的灵活性和效率, 最后产生的是x m l 文档。 其主要贡献在于:将建立特定数据源包装器的任务和适合于任何数据源的重 复任务明确分开;提供了友好的用户接口程序,由一组交互机制和启发式集就可 以生成信息抽取规则;该系统通过两个阶段来生成可执行的包装器程序,第一阶 段对于包装器开发人员所识别的特定源的元数据,利用交互接口工具生成信息抽 取规则,第二阶段对于给定的w 曲数据源,利用第一阶段生成的信息抽取规则和 r a p 构件库建立可执行的包装器程序。 但是由于其只适合于对含有明显区域结构的网页进行信息抽取,不支持对普 通网页的抽取,而且用户在学习阶段的参与也较多。 r o a d r u 衄c r :其关键思想是通过处理页面比较得到的m i s m a i c h 来不断地修改 当前的模板,最终推导出能够覆盖例子页面的模板,然后根据模板来实现对类似 页面的信息抽取。系统从h t m l t a g 出发,所有的推导、操作都是基于直接对h t m l 1 1 a g 的计算操作。由于m m l 页面的复杂性,在t a g 层次上的操作会遇到很多困 难,因此使得算法的稳定性下降,并且时间复杂度随着文档大小呈指数级增长。 、w f :由m b a u e r 等人研制的信息抽取器制造工具w 4 f 可以迅速生成针对不 同内容、不同结构信息的信息抽取,可扩充性强。该系统将用户自定义的查询语 言作为信息抽取时的启发式规则,并利用电子商务网站商品信息结构类似和网页 第二章w 曲信息抽取技术 半结构化的特点对网页结构进行分析。w 4 f 的信息抽取过程如图2 4 所示。 ( j a v a 对象) 幽2 4w 4 f 信息抽取过程 w 4 f 允许应用程序员使用描述性的声明语言来建立包装器,编译为j a v a 组件 并可以作为更大型的应用程序的一部分。其主要贡献在于:包装器分为检索、抽 取和映射三层;所有部件都是完全声明性的;整体结构都可以从h r m l 页面中抽 取出来而不是各组成部分的结构;带有可视化向导的工具包可以帮助用户定义抽 取规则并在使用前测试包装程序;生成的包装器可集成于任何j a v a 应用程序中。 2 3w 曲信息抽取系统的关键技术 2 3 1 抽取规则的生成 从对信息抽取技术分析中不难看出,所有的抽取技术都在抽取规则的生成上 下尽了功夫。抽取规则对于抽取工作的自动化程序至关重要,同时又对抽取的质 量有着重大的影响,因此是信息抽取系统的一个关键组成部分。 抽取规则描述的是要抽取信息的各种特征和规律,作用是要确定需要抽取哪 些信息,用于在w 曲上识别和定位待抽取的信息。 抽取规则的生成方法主要有两类: 人工获取方式 这种方式是相关专家依靠自身的知识和技术,审阅一定量的待处理文本文档, 归纳出相关信息出现的规律,然后按照信息抽取系统内部对抽取规则格式书写的 要求表述抽取规则。显然,专家掌握相关领域知识的水平和技能状态对系统的性 能起着相当关键的作用。另外,w 曲页面更新( 内容或格式的变化) 或者出现新 一类的w 曲页面时,都需要人工识别,更新或重新生成抽取规则,这样导致了系 统可扩展性较差。 自动学习方式 自动学习方式也需要一定的人工协助。主要是依靠人工在训练集合中的文档 1 2w 曲信息自动抽取技术研究 中用适当的方式标出相关信息的出现,生成系统自动学习抽取规则需要的训练集 ( t r a i n i n g e x a m p l e ) 。学习模块就可以在训练数据的基础上运行了。 不同系统抽取规则的定义和表示方法也各不相同。有的专门定义种高级语 言或脚本语言,描述复杂的文本模式和语言结构,如l j x t 0 采用的e l o g 语言( 1 8 j , 有的基于h 删l d o m 树定义,有的采用了正则表达式表示等。采用专门的高级语 言描述抽取规则的缺点是需要掌握这种语言的语法,也不容易移植到别的系统, 而只采用d o m 或正则表达式不足以描述待抽取信息的各方面特征。 2 - 3 2 机器学习与归纳学习方法 在w c b 信息抽取过程中,面对的是海量的数据,如果采用人工的方式生成抽 取规则来抽取信息并不现实。因此,机器学习被应用于这个领域,并在多年的应 用中发挥着重要的作用。 人们一直在努力使机器能够模仿人的思维进行自动学习,r s h a k 曾说一台 计算机若不会学习,就不能称其具有智能”,机器学习( 自动获取新的事实及新的 推理算法) 是使计算机具有智能的根本途径。 用于w 曲信息抽取的机器学习方法有很多,如符号化学习法,归纳逻辑设计 法( i l p ) ,包装器归纳法,统计法和语法归纳法。目前很多信息抽取系统都是结 合了归纳学习的方法,在实用过程中相当广泛,也较易实现。 归纳学习( i n d u c t i v ek 锄i n g ) 是一种基于假设的,从特殊情况推导一般规则 的学习方法,其主要思路是,如果归纳出来的规则能够解释观察到的实例,或者 在新事例出现时能做出准确的预测,那么这种归纳则是成功的。可以说,人类知 识的增长主要得益于归纳学习方法。归纳学习存在很强的可证伪性,对于认识的 发展和完善具有重要的启发意义。一个归纳学习系统的模型如图2 5 所示。 图2 5 归纳学习系统模型 2 4w 曲信息抽取系统的评价指标 对信息抽取系统的评测指标的必要性的认识来源于m u c ( m e s s a g e u n d e r s t a l l d i n gc o f c r c n c e s ) 。其评测指标的出发点是m 衄f o l l n a t i 衄r e t r j c v a l ) 的评测 指标:查准率p ( p r e c i s i 衄) 和召回率r ( r c c a l l ) 。虽然延用了i r 中的叫法,但 作为i e ( i n f o r i i l a t i o n e x 眦t i o n ) 的评测指标,查准率和召回率与其在m 中略有不同。 第二章、v e b 信息抽取技术 在信息抽取中,召回率可以大概地解释成有多少信息被m 确地抽取出来;查 准率则表示了抽取出的信息中有多少是正确的。其计算公式如下: 召回率= 抽取出的信息点数所有正确的信息点数 月e c 口,f :下g 塑塑粤华婴望:l # t o t n | p o s s i b l ec o r r e c t s 查准率= 抽取出的正确信息点数所有抽出的信息点数 肌d 豇伽2 糍畿耥 由上述公式可以看出,p 和r 存在的反比关系。p 和r 均存在于f 0 ,1 】区间内。 当我们在评测一个信息抽取系统时,必须将这两者同时考虑。但由于二者的反比 关系,不能够直接地同时比较p 和r ,所以出现了f 指标( f m e a s u r e ) 。f 指标是 为了评估综合性能而设立的一个指标,其计算公式如下: f :( 壁:1 2 丝 8 。p + r 其中b 是一个预设的值,决定了对p 铡重还是对r 测重,通过调节b 的值来 反映查准率和召回率的相对重要性。在信息抽取系统中通常设定为1 ,表示着将p 和r 的重要性等同考虑。 对基于主题w 曲页面的信息抽取,系统的评价指标主要为: 完整性:主题内容完整的结果w 曲页数占来源w 曲页数的百分比。 无关链接比:删除的无关链按数占来原w 曲页数中所有链接总数的百 分比。 压缩比:结果w 曲页的文件大小占来源w e b 文件大小的百分比。 平均无关链接比和平均压缩比为自动计算的结果,完整性是随机抽样1 0 进 行人工分析的结果。以上三项结果的数值越高则说明抽取系统的性能越好,但可 能在不同的应用中对每一个参数各有不同的要求。 2 5w 曲信息抽取存在的问题 通过对现有的w 曲信息抽取技术的分析,可以发现w 曲信息抽取面临着挑战, 这些挑战同时也是有待进一步研究和解决的问题。 抽取规则一直是信息抽取过程的一个重要环节。目前各类信息抽取技术中生 成规则的依据主要有五类:结构特征、位置特征、显示特征、语义特征和引用特 征。这些方式各有缺陷,如何将基于结构和基于文本方式有效地结合起来是信息 1 4 w 曲信息自动抽取技术研究 抽取需要解决的一个问题。 机器学习往往通过大量的样本学习来提高获取规则的自动化程度,这意味着 系统需要经过较长时间的学习才能获得较好的查准率。抽取规则的适应性较差, 缺乏健壮性是现有信息抽取技术所面临的难点。现有的技术均采用定制的语言表 达抽取规则,缺乏通用性,系统不易升级,且不易与其他基于w 曲的应用系统集 成。如何处理效率与健壮性之间的矛盾是一个重要问题。 性能较好的信息抽取技术需要用户的大量参与,自动化程度不高;而自动化 程度高的信息技术其准确率和适应性较低,实用性较差。这两者之间的矛盾也需 要解决。 包装器的生成与维护问题随着信息抽取的不断应用而突显出来。由于w r a p p e r 与h 蹦l 文档格式的紧密联系,而h t m l 文档包含了许多控制显示格式的标签, 使所需数据信息分散在整个文档中,而这些数据信息的分布对不同领域、不同应 用可能大不相同。因此过去的主要研究工作是针对具体应用领域,在分析领域知 识的基础上,用人工或机器辅助的方式制定一些信息抽取规则,然后依据规则从 w 曲页面中抽取所需信息。这就带来两个最明显的问题,第一,它不是一个通用 的抽取系统,而是针对某一领域,还需要制订有效的抽取规则;第二,一旦被抽 取的源w 曲页面结构发生变化,抽取工作可能失效。如何使w n p p c r 能有较强的 适应能力和可扩展性,如何最大程度地利用已有的资源( 程序、数据等) ,通过最 小程度地改造适应新的信息源,增强系统的可扩展性也是一个重要问题。 第三章基于信息熵的w 曲信息自动抽取方法 第三章基于信息熵的w e b 信息自动抽取方法 在互联网当中存在着大量新闻、技术报告、电子书、网络日志等内容,这些 内容往往又会夹杂在各种广告、导航信息之中,我们难以通过包装器的方法从w e b 页面当中抽取所需要的信息,这就必然倒致对基于主题内容的w e b 信息抽取方法 的研究,本章所提出的基于信息熵的w 曲信息自动抽取方法给出了解决这一问题 的一种途径。 3 1 方法概述 3 1 1 主题w | e b 页面 主题w e b 页面是我们基于信息熵的w e b 信息抽取方法的信息源,它的主要特 征是在页面中包含了大块文字,这一大块文字往往是w 曲页面所要表达的主题信 息。除这一主题信息之外,在其四周通常会有其它的导航信息和广告信息,如图 3 1 所示是新浪网站的一个w 曲页面( 微软要增强s q l2 0 0 5 安全功能) h 仕p :t e c h s i n a 伽a l 伍b 2 0 0 5 0 1 3 i 0 9 2 2 5 1 8 9 1 2 s h t i i l l ,只有粗线框区域中的内容 才是我们所需要的主题信息,而信息抽取的目的则是去除细线框区域中的内容。 3 1 2 信息熵 首先看一个投掷骰予为例:小张掷一个骰子,让眼被蒙住的小李猜骰子向上 的点数。由于正方体骰子六个侧面是等价的,1 、2 、3 、4 、5 、6 点向上的概率相 同都等于1 ,6 ,所以小李猜对的概率是1 6 。如果提供如下消息: a :骰子的点数是偶数。 b :骰子的点数不是2 。 c :骰子的点数是1 ,2 3 ,4 ,5 ,6 中的一个。 d :骰子的点数是4 。 当小李只得到其中的一条消息后,他猜对的概率分别为1 ,3 ( a ) ,1 5 ( b ) ,1 6 ( c ) , 1 ( d ) 。 当小李依次得到a b 或b ,a 这两条消息,那么他猜对的概率均为1 2 。 上面的例子说明:概率反映了事件发生不确定性的大小,而信息是可以改变 不确定性的;消息中所含有用“信息”的量( 信息量) 是不同的,“信息量”是可以数 量化的。在定量地描述“信息量”之前必须对事件的不确定性绘出确切的量度。这就 是s h a l l n o n ( 香农) 熵 3 3 】。 1 9 4 8 年,c e i s h 咖i o n 把b o l t z m a n n 关于熵的概念引入信息论中,把熵作为一 1 6 w c b 信息自动抽墩技术研究 个随机事件的不确定性的量度
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电厂冬季维修方案(3篇)
- 报废轮船拆解方案(3篇)
- 电梯监控调整方案(3篇)
- 叉车使用维护管理制度
- 公司设施管理管理制度
- 工程审计公司管理制度
- 制冷维修质量管理制度
- 残联经费审计方案(3篇)
- 基本药物相关管理制度
- 画室盈利方案模板(3篇)
- 2025湖北省武汉市中考语文模拟检测试卷(一模)(含答案)
- 2025届新高考历史押题模拟试卷 3套(含答案解析)
- 2025年银行从业资格证考试题库获取试题及答案
- 2025年中考时事政治100题(附答案解析)
- 2024北京西城区四年级(下)期末语文试题及答案
- 【航线补贴绩效评估实证研究-以华夏航空公司为例19000字(论文)】
- 《中国老年高血压管理指南(2023版)》解读
- 国际化创新型人才培养模式与中俄合作办学实践案例分析
- 一次性使用无菌医疗器械管理制度
- 浙江省2025年中考第二次模拟考试英语试题(含答案无听力原文及音频)
- 初创公司薪酬方案
评论
0/150
提交评论