




已阅读5页,还剩49页未读, 继续免费阅读
(计算机软件与理论专业论文)信息集成中web信息抽取技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 互联网上信息爆炸,如何快速检索需要信息以及更有效的利用这些信息,成 为亟待解决的问题。本文介绍了信息集成系统w s i i s ,该系统整合各种异质的数 据源以及w c b 服务,其中就包含w e b 数据源。作为w s i i s 一个辅助部分,w e b 信息抽取予系统提供将w e b 网站提供的信息封装为w e b 服务,供信息集成系统使 用。 本文研究的内容包括w e b 信息抽取规则和抽取流程两部分。w e b 页面一般是 h t m l 语言描述的,着重于数据的呈现,而不是数据的描述。信息集成系统没有 办法直接利用这些页面上的信息,所以需要w r a p p e r 包装器程序将这些页面抽取 至目标模式。w r a p p e r 的核心是抽取规则。本文提出的基于d o m 的信息抽取方法, 提出用标准的x m l 技术操纵w e b 页面,将数据提取出来。抽取试验证明了这种 抽取方法的可行性。抽取规则只解决了从w e b 页面抽取出数据至目标模式的问题, 然而在互联网环境下,w c b 信息集成面临许多新的挑战。本文提出了信息抽取流 程和基于流程的信息抽取框架。x m l 描述的抽取流程取代了传统的特定程序语言 设计的w r a p p e r ,抽取过程的执行由流程执行引擎完成。在此基础上,信息抽取框 架实现了w e b 服务动态封装,将抽取过程封装为独立的w c b 服务供信息集成系统 使用。 关键词:信息集成w e b 信息抽取w e b 服务抽取流程 a b s t r a c t w i t ht h ee x p l o s i o no fw o r l dw i d ew e bc o n t e n t i ti sa nu r g e n tp r o b l e mt or e t r i e v e t h ei n f o r m a t i o nq u i c k l ya n du t i l i z et h e me f f e c t i v e l y t h i st h e s i si n t r o d u c e st h ew s i i s i n f o r m a t i o ni n t e g r a t i o ns y s t e m ,w h i c hi n t e g r a t e sv a r i o u sh e t e r o g e n e o u sd a t as o u r c e s , w e bs e r v i c e s ,a sw e l la sw v c wc o n t e n t , a n dp r o v i d e sau n i f i e dv i e wf o rt h eu p p e r a p p l i c a t i o n s a sas u p p l e m e n t a r yp a r to fw s i i s w b bi n f o r m a t i o ne x t r a c t i o ns u b s y s t e m p r o v i d e saw a y o fe x t r a c t i n gw e bs i t e si n f o r m a t i o na n dc o n s t r u c t i n gc o r r e s p o n d i n gw e b s e r v i c ef o rw s i i s n et o p i co ft h et h e s i sc o v e st w op a r t s :t h ec o n s t r u c t i o no fw e bp a g ce x t r a c t i o n r u l e sa n dt h ee x t r a c t i o nf l o w w e bp a g e sa r eu s u a l l yd e s c r i b e db yh t m l , w h i c hf o c u s o nt h ep r e s e n t a t i o nr a t h e rt h a nt h ed a t a a sar e s u l t ,ap r o g r a mc a l l e dw r a p p e ri sn e e d e d t oe x t r a c tt h ei n f o r m a t i o no nw e b t h ek e r n e lo fw r a p p e ri st h ee x t r a c t i o nr u l e s n e d o mb a s e de x t r a c t i o nm e t h o dp r o p o s e di nt h i st h e s i si n t r o d u c e daw a y u s i n gs t a n d a r d x m lt e c h n o l o g ys u c ha sx p a t h ,x s l tt oo p e r a t ew e bc o n t e n t t h ee x t r a c t i o n e x p e r i m e n tv e r i f i e dt h ef e a s i b i l i t yo ft h i sm e t h o d t h er o b u s t n e s so fd i f f e r e n te x t r a c t i o n r u l e si sd i s c u s s e da n dt h ek e ye l e m e n to fc o n s t r u c t i n gr o b u s tw r a p p e ri si n t r o d u c e d e x t r a c t i o nr o l e se x t r a c tt h ei n f o r m a t i o nf r o mw e bp a g ei n t ot h ed e s t i n a t i o ns c h e m a , h o w e v e r , t h i si sn o te n o u g h ,a n dt h ew e bi n f o r m a t i o ne x t r a c t i o ns t i l lh a sm a n yn e w c h a l l e n g e s t of u l f i l lt h en e e do fi n f o r m a t i o ne x t r a c t i o na n di n f o r m a t i o ni n t e g r a t i o ni n t h ei n t e m e te n v i r o n m e n t ,t h et h e s i si n t r o d u c e st h ei n f o r m a t i o ne x t r a c t i o nf l o wa n dt h e f l o w b a s e dw e bi n f o r m a t i o ne x t m c t i o nf r a m e w o r k t h ew r a p p e rp r o g r a m m e db ya s p e c i f i e dl a n g u a g ei ss u b s t i t u t e db yt h ee x t r a c t i o nf l o wd e s c r i e db yx m l , w h i c hi s e x e c u t e db yt h ef l o we x e c u t i o ne n g i n e o nt h eb a s eo ft h ee n g i n e ,af r a m e w o r k e n c a p s u l a t i n gi n d i v i d u a le x t r a c t i o nf l o wa saw e bs e r v i c ei sp r o p o s e d b e c a u s eo ft h e e x t r a c t i o n t a s kd e s c r i b e db yc u s t o me x t r a c t i o nd e f i n el a n g u a g e ,t h ef l e x i b i l i t ya n d s e a l a b i l i t yo fw r a p p e ri si n c r e a s e d k e y w o r d s : i n f o r m a t i o ni n t e g r a t i o nw e bi n f o r m a t i o ne x t r a c t i o nw e bs e r v i c e e x t r a c t i o n1 1 0 w 截薪性声赣 零入黟麓麟釜交熬论文慧我令爻奁鬃爨攒菇下逐稽鼗繇究王撵获取缮熬辩究 簸栗。嚣我辑舞,豫了支串黪巍燕骧标注秘致潦牵掰爹癸筻蠹骞黻耱,论文巾不 包含其 彀人麟经发表或撰写过的研究成果;也举镪含为获得西安瞧予科技大学或 熟它教育机构的学位或证冲萼而使用过的材料。妁我同工作的同绺对本研究所做 熬柽蔼黉熬垮嚣在谂文孛徽了甥确翦谈鼹并袭番了游意。 事请攀黎埝交与资餐蓉露苓赛之楚,零久承懿一秘疆关责镬。 零走激缓; 立叁幺兰,瓣灏麓竺叠墨! 垡 激于论文使用授权的说明 零入究众了解嚣安露予科技大学霄装僳誉秘傻麓擎谴论文静蕊定,繇:磷巍玺 程校攻读攀位期间论文工根的知识产权单位属麟农电子科技大学。本人保证毕业 离校爱,艘袭谂文或蕊璃谂文盖箨残莱霹著名攀德仍然鸯嚣安毫予辩技大学。擘 校有袄璨酹遴交论文静复翻彳串,允谗囊游和借灏谂文;学校可以公礴论文酶会部 戴部分海容,w 敷兔许采璃影颦、缩印或其它笈剃夥段保存论文。( 保密兹论文袭 释密鬈遂忿麓定) 本学便论文属于保密程年解密盾髓用本授权叶萼。 豢久整褒; 导师熬名; 嚣髓童璧警主壁。 翻期2 乙3 :垒 第一章绪论 第一章绪论 1 1 研究背景 随着信息技术飞速发展,互联网已经成为最流行的信息发布媒介。互联网使 得人们无论是发布信息还是阅读信息都变得极为方便。然而,随着互联网信息爆 炸性地增长,人们想要精确获取一条自己所期望的资料却变得像大海捞针般困难。 如何有效、快速、准确的检索所需要信息,成为亟待解决的问题。 在这种背景下,搜索引擎技术出现了,它帮助人们通过关键词来获取相关的 w c b 页面。第一代搜索引擎指主要依靠人工分拣的分类目录搜索。分类目录依靠 手动收集和整理网站,能够提供较为准确的查询结果,但由于需要大量的人工参 与,收集的内容非常有限。第二代引擎是以“a l t a v i s t a ”1 3 】为代表的搜索引擎,它 采用了被称为“网页蜘蛛”( w e b s p i d e r ) 的机器人程序自动采集互联网中的网页, 然后对页面进行基于关键字的分析。网页的排序是以关键词为基础,以网页的内 容为依据,根据关键词在网页里出现的次数和位置,搜索引擎计算出一个可度量 的指标,然后按这个指标来对所有相关网页进行排序。第三代搜索引擎在第二代 的技术基础上,又加进了对超链接的分析【1 7 】。此时,搜索引擎做排序的时候,既 考虑了网页本身内容,又考虑了网页间的关联关系,使得搜索结果的准确性大大 提高。典型的如g o o g l e 和百度。 然而,搜索引擎只是部分缓解了信息检索存在的问题,它返回的结果并不能 令人满意。其不足之处表现在三方面: 1 ) 返回的结果颗粒度较大,虽然给出了相关页面的链接甚至网页快照,但用 户还是需要浏览整个网页才能找到相关信息。 2 1 查询结果不准确。大量的搜索结果都是重复的,过时的或者用户根本不感 兴趣的。 3 1 检索模式简单。只提供a n d ,o r ,n o t 等基于关键字的简单查询逻辑, 无法提供类似s q l 语言这样强大的查询。由于无法定制精确的查询,想要获取精 确的结果是不可能的。 随着互联网的发展,网上可以搜寻的网页变得愈来愈多,但是网页内容的质 量亦变得良莠不齐,没有保证,所以,未来的搜索引擎将会朝着知识型搜索引擎 的方向发展,以期为搜寻者提供更为准确及合用的数据。譬如网上的百科全书如 雨后春笋般发展起来【4 】【5 】,垂直搜索引擎也大量涌现【6 】。垂直搜索引擎和普通的 网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的 2 信息集成中w e b 信息抽取技术的研究 非结构化数据抽取成特定的结构化信息数据。相比于传统网页搜索以网页为最小 单位,垂直搜索是以结构化数据为最小单位,并将这些数据存储到数据库,进行 进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用 户的需求。 互联网提供了海量的信息,最理想的情况是互联网提供的这些信息不仅能被 人们很容易的浏览,更重要是作为一个数据源能像关系型数据库一样被查询,各 种计算机应用能有效地利用上这些信息【1 】。然而,互联网上文本信息的格式多是 半结构化的h t m l 【8 】格式,它是无法被机器直接处理的。所以如何将非结构化的 w e b 网页信息转化为便于机器处理的结构化信息,以及让这些数据得到更有效利 用是一个非常值得研究的课题。 1 2 研究现状 信息抽取的目标是将文本中的信息抽取出来并表示为结构化、自描述的数据 形态,从而将难以操纵的文本数据转化为容易处理和分析的结构化数据。从文本 页面中抽取信息的程序被称为包装器程序,一般又称为w r a p p e r 。 传统构造w r a p p e r 的方式是手工编码。这种方式费时费力,容易出错,需要 专家完成,而且这种方式难以维护,一旦站点结构改变,所有代码就得重新编写。 为了更好的解决这个问题,人们提出了各种各样半自动或自动化的方法【2 】【1 2 】。对 各种方法可以从很多角度进行分类。譬如根据自动化程度,可以分为手工、半自 动和全自动。根据方法的原理可以分为及其机器方法、自然语言理解方法、o n t o l o g y 方法等。下面从方法原理的角度对这些信息抽取方法以及已有的一些系统进行介 绍。 基于自然语言理解的方法 基于自然语言理解的方法采用了过滤、词性和词汇语义标识来建立短语和语 句元素间的关联,通过给定的例子学习抽取规则。这些规则通过语法和语义上的 约束来定位元素。主要有三种工具r a p i e r 、s r v 和w h i s k 。r a p i e r 和s r v 只 能抽取单条记录,而w h i s k 可以抽取多条记录。 基于机器学习的方法 基于机器学习的方法的抽取规则是基于分隔符来定位要抽取的数据。也是通 过人为标记的样本自动学习抽取规则。它和前面一种方法主要不同之处在于它们 并不依赖于语言上的约束,而是描绘数据的隐式的格式特性。主要有三种工具 w i e n 、s o f t m e a l y 和s t a l k e r 。w i e n 和s o f t m e a l y 必须依靠紧挨着数据前的分 隔符来定位数据,而且还不能抽取复杂格式的数据。s t a l k e r 引入e c t 树来表 示复杂格式的数据。 第一章绪论 3 基于o n t o l o g y 戆方法 基于o n t o l o g y 静方法f 7 往要莜赖一个完全静知识库。知识霖定义了各个元素 的抽取模式,还有它们之间的联系。程抽取之前,霈要将包含数据的纪录块分隔 开来,然后依次对每个记渌块进行信息抽取。抽取模式没有使用依赖于特定文档 戆分隔麓或纛键往这群豹爨然语言理辫皴零,瑟是主要蓑矮逶簇豹谣法模式。这 种方法不依赖于任何结构和表现形式,它使用o n t o l o g y 来定位关键信息并使用这 些元素构造对蒙。不过,逸事先需要构造一个完整的o n t o l o g y 库,而构造这样一 个瘁要由专家藐费攫长时闽。 基于自然语言理解的方法和基予梳器学习的方法帮需要人为给定样本来学习 抽取规则。而给定样本是项费时的工作。这两种方法的抽取规则都与具体样本 密切相关,因此,如果样本结构改变了,得重新提供样本并生成抽敬规则。o n t o l o g y 秀法虽然缀邋溪,程是穆建逶露豹知谈痒并不是一梅容易豹事臻,荠显有辩一令 简单的任务并不需要很高的通用性。 传统的信息抽取是针对纯文本,燕要使用自然诺言理解的技术。但由于纯文 零没骞饪捉文本之努可剥髑戆痿患,这矮工终极为瓣难,递震瞧缀缓馒。魏麓薹 联网的出现,w e b 文档的倍息抽取逐渐成为亟待螂决的问题。一个w e b 文档簸是 个h t m l 格式的网页,嘲页与纯文本的结构差别很大,主要表现为网页中存在 大量的标记,这些标记将嬲页要显示的文本内容分隔开来。标识为文档引入了结 擒亿信息,裰瓣标记可敬将一个文挡表示惫一裸耱静结祷。餐楚,阙夏莠不楚维 构化的,网磁所使用的语亩h t m l 是被设计用来方便数据的呈现而不是数据的处 理。标记大部分都是用予鼹示的,并不能描述文本的含义。因而,网页只能算是 拳结麴纯豹文穗,w e b 上信息越取成为了必要。太豢懿标记爻溺茨痿惠抽取掇供 了更多可利用的信息,从黼可以开发备种不丽予传统信息抽取的方法对网页避行 信息抽取,但同时网页的特殊性给w e b 上的信息抽取带来了新的挑战。主要袭现 为网页豹易变性。一个网炎由u r l 唯一标识,但怒髑页内容变化缀频繁。不仅如 鼗,翘页懿络弱遵可毵交稼。这使霉w r a p p e r 稷容荔失效,懿簿秘逡链壮酶w r a p p e r 成为一个棘乎的问题。 1 3 论文的工作 本文研究的主要内容是w e b 上的信息抽取以及w e b 信息抽取如何应用在的信 息集成系统巾。 论文在总结了浚锤蕊慧接毂援零瓣鏊疆土,撵滋了基予d o m 靛擒取纛簧| l 建我 方法,完成了从w e b 半结构化文档到x m l 结构化文档的转换。由于抽取规则采 用d o m 树与目标s c h e m a 间映射的方法,使抽取出的数据带有了类型信息,照适 4 信息集成中w e b 信息抽取技术的研究 于信息集成系统使用。针对基于w e b 服务信息集成系统的需要,论文提出了一个 基于流程的w e b 信息抽取框架,将w e b 信息抽取程序改变为基于x m l 描述的抽 取过程,提高了w r a p p e r 构建的灵活性,并且通过使抽取过程动态封装为w c b 服 务,为信息集成系统提供了灵活可用的w e b 数据源。 本文有以下几个部分组成: 第一章绪论。首先介绍了当前w e b 信息检索和挖掘领域的发展状况和研究进 展,引出了w e b 信息抽取的研究背景。接着讨论了信息抽取技术的现状、主要的 几类信息抽取方法以及w c b 信息抽取与传统信息抽取的区别。最后对论文所做的 工作做了一下展望。 第二章介绍了论文研究的w c b 信息抽取所依托的一个平台基于服务的信 息集成系统w s i i s 。w s i i s 封装了底层各种异质的数据源,提供给上层应用程 序一个统一视图和查询接口。接下来,介绍了w e b 信息抽取子系统。作为信息集 成系统的一部分,w e b 信息抽取子系统封装了w e b 数据源,向集成引擎提供w e b 数据服务。集成引擎不再关心w e b 站点的结构和内容格式,访问w e b 数据源并抽 取数据的任务都将由w e b 信息抽取子系统完成。本章在比较了当前已有w e b 信息 抽取工具的基础上,结合信息集成系统的实际需求,对w e b 信息抽取子系统需要 解决的问题做了较全面的分析。 第三章主要介绍基于d o m 的w c b 信息抽取方法。因为该方法利用了很多 x m l 相关的技术,本章首先对x m l 技术做了介绍,特别是x p a t h 技术,它是基 于d o m 信息抽取的核心。接着详细论述了基于d o m 抽取方法的设计思路。通过 具体的抽取试验,论证了提出方法的可行性。本章最后就抽取规则健壮性做了分 析,提出了构建高质量w r a p p e r 的标准,并对自动化的w r a p p e r 生成作了探讨。 第四章中为了适应信息集成系统的需要和提高信息抽取系统的可扩展性,引 入了w c b 信息抽取流程概念。用x m l 描述的抽取流程取代了传统的面向特定程 序设计语言的w r a p p e r ,抽取过程由流程执行引擎完成,并在此基础上,实现了 w c b 服务的封装,将这些抽取过程封装为单独的w e b 服务供信息集成系统使用。 本章着重介绍了基于流程的w e b 信息抽取框架,以及利用抽取流程如何完成抽取 任务。 第五章是论文的总结。 第二章w s h s 信息集成系统 5 第二章w s i i s 信息集成系统 2 1 信息集成简介 目前,随着互联网技术的不断发展,越来越多的数据源以各种各样的形式出 现在网络之上,并且这样的数据源通常是异构形式存在的。这些数据源在数据访 问方式,数据描述格式,数据描述的语义方面的差别,使得应用程序在需要同时 用到多种数据源以及在不同类型的数据源间切换时,程序的数据访问逻辑变得非 常复杂。异构数据源信息集成的主要目标就是从多个异构的数据源中抽取需要的 数据,合并查询的结果并将结果反馈给用户。这里的异构数据集成可以分为两种: 结构异构和语义异构。对于结构异构,可以将所有的数据采用一种数据存储模式 进行集成。对于语义异构,需要某种机制在对不同的语义进行翻译,一般采用的 方法是映射和推理。 目前人们研究开发异构数据源集成系统所采用的实施方案虽然各不相同,但 其基本方法主要分为两类:数据仓库方法( t h ed a t aw a r e h o u s ea p p r o a c h ) 和虚拟数 据库方法( t h ev i r t u a ld a t a b a s ea p p r o a c h ) 。 在数据仓库方法中,多个异构数据源中的数据被导入到一个大型的数据仓库 中,所有对这些异构数据源的查询均被转化为对数据仓库的查询。这种对数据的 间接访问方式的缺点是数据更新不及时,数据可能被重复存储。如果要保持数据 的时效性,不出现脏数据,则当数据源中的数据变化后,数据仓库中的数据也必 须同步变化。该方法的优点是能保证足够的查询性能。它适用于数据源中的数据 不经常变化且要求很快响应时间的场合。利用数据仓库方法实现集成系统的原理 见图2 1 。 图2 1 数据仓库的方法 6 信息集成中w e b 信息抽取技术的研究 虚拟数据库方法是另一种异构数据源集成方法。在虚拟数据库方法中,数据 仍然保存在原来的各个数据源中,对数据集成系统的查询在运行时被分解为对各 个数据源的查询。集成系统仅提供一个虚拟的集成视图以及对这个集成视图的查 询处理机制。在这种方法中,数据不用复制到另外的数据仓库中,并且保证在查 询时的数据均是最新的。虚拟数据库方法更适合于数据源规模大、数据经常变化 的场合,其原理见图2 2 。 图2 2 虚拟数据库的方法 现在比较流行的建立信息集成系统的方法是w r a p p e r m e d i a t o r 方法,其实上 也就是虚拟数据库方法的一种。该方法并不将各数据源的数据集中存放,而是通 过w r a p p e r m e d i a t o r 结构满足上层集成应用的需求。这种方法的核心是中介模式 ( m e d i a t e ds c h e m a ) 。信息集成系统通过中介模式将各数据源的数据集成起来,而数 据仍存储在局部数据源中,通过各数据源的包装器( w r a p p e r ) 对数据进行转换使之 符合中介模式。用户的查询基于中介模式,不必知道每个数据源的特点,中介器 ( m e d i a t o r ) 将基于中介模式的查询转换为基于各局部数据源的模式查询,它的查询 执行引擎再通过各数据源的包装器将结果抽取出来,最后由中介器将结果集成并 返回给用户。 w r a p p e r m e d i a t o r 方法解决了数据的更新问题,从而弥补了数据仓库方法的 不足。不过,这种框架结构也面l 临着一系列的问题【9 1 。 第一是如何支持异构数据源之间的互操作性。信息集成必须在多至数万计的 信息源上进行,这些数据源的数据模型、模式、数据表现和查询接口各不相同。 数据库界已经对联邦式的数据系统做了多年的研究,然而,语义的相异性这个的 问题依然存在。由不同人设计的任何两个模式都不会是相同的,譬如他们可能会 有不同的度量单位,不同的语义解释,而就算对于相同的事物还会有不同的名字, 而名字相同,代表的事物却又可能会不同。能够在网络标准上进行配置的语义相 第二章w s - 1 1 s 信息集成系统7 磐性豹辫决方案依然处在撰索阶段。 第二麓如何模壁住滚数据的内容秘用户查诲。强前广泛采蠢l 的技术有两种。 l a v o o c a l a s - v i e w ) 方法利用全局谓词粲合描述多个数据源内容视图和用户查询。 当给定某用户查询对,中间件系统通过综合不同的数据源视图决定如何回答淼询。 这秘方法霹餐终嚣溪褪嚣强答查谗,疆蘩己毒一篓磷究残栗,窀芬霹应箨予数攥 仓库或查询优化等领域。g a v ( g l o b a l a s - v i e w ) j y 法假设用户查询鼹接作用于定义在 源数据关系上的全局视图。人们主要关注的是在这种情况下如何提供高效的镬询 处理。 第三罴警数据源酶纛询能力受限潜,如何簸壤查询和谶行优化。铡如, a m a z o n o o m 数据源可以被看作是提供稍的信息的数据库,但是,我们不能随便下 载其上所有的书籍信患。凄实上,我们只能填写w e b 搜索表格焱询数据源并返回 络采。镶多鹣缝织会免诲辩部实俸来糖取叁己运镎系统孛懿掰蠢数据,蘑赣这些 数据必须留猩源端,在赢询的时候才会被访问。如何模型化和计算具受限查询能 力的数据源,如何生成查询计划和优化蠢询的研究工作正在展开。 铮对坟上毒在豹翊蘧,我粕提出了嫠手w e b 黢务兹痿惠集戏系统。通过瓣底 层数据源的掰装,给最终用户提供一个统一的视图。为了消除辨质数据源闯信患 表述的差异,我们引入了元数据的概念。所谓元数据就是描述数据的数据。通过 对元数据管璇,消除了语慧阅差异。我们采用了x m ls c h e m a 住为全局数据的描 述,逶过全瓣零体窝弱郝本俸兹袭射实瑗查询豹分解和绫栗合势。逶遂将藏绥鲍 数据源直接封装为w c b 服务,解除了信息集成引擎与底层数据源的强耦合,方便 数据源加入和退出,提商了系统的扩膨性。 2 2w s i i s 信怠集成系统 w s 一1 i s 是基于w e b 服务的信慰集成系统( w e bs e r v i c c 小a s e di n f o r m a t i o n i n t e g r a t i o ns y s t e m ) 豹蔫称,它是我翻在磷究售惠集成研究孛嚣撬掇来豹一个淼瀣系 统。本系统麓要是为了满足用户对于纛询多个数据源的信息的徽要,因此最煎要 的目标是对多个数据源进行整合,把一个完整的全局视图展现给用户,而不是让 明户瑟对攀令熬数据源避纷查谗;其次,系统充分考虑了用户韵零系统蓊援入数 据源的需求,让用户易予粑新数据源搬入系统。w s i i s 的底层数据源种类奉鬻, 关系型数据库,x m l 文档数据库,w e b 服务,w e b 站点提供的数据等都可以集成 到w e b - i i s 系统中。所礴舶数据在信息集成系统中都映射到是一个全局视图撼述 孛,全弱视黼斡元数摇模麓是x m l s c h e m a 。 w e b 服务( w c bs e r v i c e ) 技术【1 8 】魑为实现在i n t e m e t 环境下、松散耦合的服务 强相调用、飘相集成而设计的技术框架。w e b 服务技术可以很容易的将软件组件 8 信息集成中w e b 信息抽取技术的研究 整合成一个应用系统,而与编程语言和操作系统无关,它采用了一些标准例如使 用x s d 来定义数据类型,使用w s d l 来描述服务,使用s o a p 协议来访问服务, 使用h r 兀甲作为底层的传输协议。利用w c b 服务在信息集成中,很重要的一方面 就是它的跨操作系统、跨编程语言、跨应用平台的巨大优越性,而这些特性正式 信息集成系统迫切需要的。 2 2 1 系统结构 w s 1 i s 的体系结构及主要的功能模块如图2 3 所示。系统最底层是各种异质 的数据源,系统对外提供两种接1 3 ,一种供用户提交查询请求,并返回集成系统 的全局查询结果给用户。另外的一个接口是配置管理的接口,因为底层数据源的 加入退出,内部元数据的管理都需要配置人员的参与。 2 2 2 系统的主要模块 图2 3w e b 。i i s 体系结构图 w e b i i s 中的主要模块有查询接口模块、配置接口模块、视图管理模块、数据 第二章w s i i s 信息集成系统9 渫譬理模块、信惑越取援块。 查询接翻模块 查询接阴接受以x m l 文件或数据流的形式传入的查询请对乏以及对查询结果 的输出要求。用户使用系统前先根据系统定义好的一种x m l 查询表示方式定义查 游熬参数霹鬟嚣簸塞绥暴豹要求。由予w s i i s 是数x m l s c h e m a 终兔系统瓣数据 定义模型,所以一般是以x q u e r y 作为遣询语言。 配置接口模块 该接口囊要垂操捧受对该系统避铭酝萋搜赐。慧要有两方聪熬珐毙:视黧豹 生成和维护接口,w r a p p e r 的生成帮维护接日。因为这两项功能都需要入工参与。 查询管溅模块 查询管避模块的主要功能是依据用户的查询请求,将查询的请求进行分解, 并选择适当鹣数蕹源来灞麓焉户请求,然蓐整合多个数据源懿臻莱。 视图管理维护模块 视图管理模块主要是提供全局视图和数据源视图的注册和获取功能。虽然信 纛集成系统螫提供一令绞一豹裰强绘终部约应蠲稷澎,毽是在臻患集成内部,由 予底层数据源的异质性,备个局部模式不尽相同。税图管理维护模块主要管理和 维护全局视图,局部视图以及他们间的联系。 数据源访问模块 信惠集成系统辩全弱疆圈瓣套诲簸终都要分激至l 各个已浚戆静底层数据源 中,数据访问层利用了适鹈已器模式,群蔽了数据访问的差异性。数据源访问模块 主要是提供对数据源的注册和调用功能。系统中的每一个数据源,使用前都要把 鑫己注爨到数据源谚运摸块孛,著把攘透售惠保存猢数据添接述箨孛。 对于关系型数据库,需要相应j d b c 或o d b c 驱动程序访闯。譬如o r a c l e 需 襄o r a c l ej d b c 驱动才能够访问到,而对于m y s q l 数据库则需隳相应的m y s q l j d b c 驱动。 对予w e bs e r v i c e 羧攘漾来说,集成弓| 擎需要一个s o a p 客户壤,诱翊耩旋供 的服务。一般作为信息集成系统的数据源的w e bs e r v i c e ,主要提供的是数据服务 的功能。 对于x m l 文整,嚣簧骞x m l 文糖数摆痒零| 擎戆支持,毅宠戏黠多x m l 文 档的联合查询。 对于w e b 数据源,由乎其数据格式的特殊性,集成中介不能直接使用,所以 必须有一个辅助模块,将w e b 数据源掇供的数据功能封装为w e bs e r v i c e 供继承 孛奔管理与便稠。这倭楚下一节将要讨论盼w e b 售患擒取子系统。 1 0 信息集成中w e b 信怠魏取技术的研究 2 ,3 。1 系统简会 2 3w e b 信息抽取子系统 w 曲信息抽取是指通澈计算机自动地从火最的w e b 数据中抽取感兴趣的信 息。w e b 信息抽取的主要目标是将w e b 文档集合转变为更易于分析和处理的结构 化形式。 农w s i i s 系统中,w e b 傣怠撞取子系绕受蠢将w e b 楚点据爨鹣功能羹装秀 可为集城串分使溺翡w e bs e r v i c e 数据源,其穆弼籀当子子关系登数据库豹驱动程 序,只不过它的服务对象怒w e b 站点。它在熬个系统中所处的位麓如图2 4 所示。 图2 4 信息抽取子系统在信息集成系统中的位置 可见,w e b 信息抽取予系统在整个系统中起了承上启下的作用,扮演着双重 角色。从w e b 站点的角度瓣来,抽取子系统怒h t i t 客户端,和浏览器的功能类 织。款傣惠集成譬| 擎戆角发豢,麴取子系统鸯懋一令h t i t 黢务器,只是它提供 静是慕予s q a | 资议翡w e bs e r v i c e 。 被抽取子系统封装好的w e b 数据源在使用之前,首先需要注册到集成中介中。 当集成中介接到查询请求时,会将查询分派到备个注册的数据源中。当需要使用 w e b 数据源时,集成中介会向w e b 信息抽取予系统发送s o a p 请求。w e b 信息抽 取予系绞解轭s o a p 请求麓,向底层斡w 曲瓣豢继续派发查询谚求,获取缝果页, 送行獭淑嚣将结莱送行s o a p 封装,运瑟绘嶷成孛夯。整个戆处瑷流程如图2 。5 掰 示。 第二章w s i i s 信息集成系统 图2 5 信息集成中w e b 信息抽取子系统的调用过程 2 3 2 已有的w e b 信息抽取工具 w c b 信息抽取子系统首要的任务就是进行信息抽取。w c b 信息抽取不同于传 统的文本信息抽取,因为w e b 信息具有一定的结构化特征。虽然这些嵌入在w e b 网页中的标记信息是为了方便浏览器展现给用户的,但是其中包含的半结构化信 息也是可以被信息抽取工具利用的。现有的w e b 信息抽取工具,大多就是利用到 网页上h t m l 的半结构化知识实现抽取的。下面介绍几种比较重要的w e b 抽取工 具。 w 4 f w 4 f 1 3 包含一组自定义的语言用来描述网页获取规则,信息抽取规则以及到 j a v a 程序对象的转换规则。抽取规则还包含正则表达式来帮助从纯文本中抽取信 息。这个工具还包含一个图形用户界面来帮助用户生成抽取规则。抽取规则使用 了树路径和正则表达式。 x w r a p x w r a p 1 4 是一个半自动化的w r a p p e r 生成器。它首先获取u r l 对应的网页 的树结构。随后利用了h t m l 中一些特殊标记( 比如t a b l e ) 以及它们被用作数 据表现时的含义作为启发式。通过启发式,它会帮助自动寻找关键信息。并生成 由j a v a 代码写的w r a p p e r 。用户只要简单的点击几次就可以获得一个站点的 w r a p p e r ,表面上看,自动化程度应该算很高了。但是,实际生成的w r a p p e r 效果 并不理想。因为很多站点并不符合那些特定的启发式。而且,对于大部分定制的 信息抽取任务,通过几次简单的点击和启发式的搜索并不能准确捕捉用户的需求, 因而,尽管人为参与很少,但结果反而并不精确。另外,由于w r a p p e r 是j a v a 代 1 2信息集成中w e b 信息抽取技术的研究 码描述的,这使得w r a p p e r 修改和维护起来都很困难。 r o a d r u n n e r r o a d r u n n e r 1 5 通过比较相似的网页归纳出网页的模版,模版使用正则表达式 描述。归纳出来的模版就是抽取规则。这种方法主要适用于由数据库查询生成的 页面,这种页面包含有类型相同的数据,网页是由同一个模板所生成。r o a d r u n n e r 将信息抽取模式生成等同为正则表达式归纳问题。而正则表达式归纳是到目前都 解决得不是很好的一个问题。r o a d r u n n e r 做了很多假定,假定标记都是模板的一 部分,假定不存在或模式的数据,假定数据是上下文无关的,而这些假定往往是 不成立的。除此之外,r o a d r u n n e r 为了归纳出正则表达式,使用了大量的复杂的 启发式搜索算法。这使得r o a d r u n n e r 的算法特别敏感,归纳时很容易失败。 2 3 3 现有工具技术的比较 上面提到的三种抽取工具都充分利用了w c b 文档结构化的特点,其中,w 4 f 和x w r a p 都设计了各自的抽取规则语言。这些抽取规则基于h t m l 的树结构,而 根据树结构就可以精确的定位数据。这两种工具它们都包含了图形用户界面以帮 助生成抽取规则。用户使用图形用户界面圈定自己想要抽取的内容,系统可以自 动生成对应的抽取规则。但是,简单的点击并不能描述复杂数据的抽取模式,因 此自动生成的抽取规则可能需要重新改写。x w r a p 生成j a v a 代码的w r a p p e r ,这 使得修改起来很困难。 以r o a d r u n n e r 为代表的自动化的方法通过网页的相似性来发现网页中的数据 并归纳相应的抽取规则。这种方法是完全自动的。但是,另一方面,这种方法并 不适用于定制的信息抽取任务,比如仅仅抽取某个网页中某一块的信息,因为很 多任务并不是简单的获取所有网页中变化的数据或者频繁出现的结构中的数据。 为了方便有效的进行信息抽取,各种各样的方法被提出来。信息抽取的核心 实际上是抽取模式。各种方法都致力于抽取模式的自动构造。但是这些抽取模式 并不统一,几乎每种系统都有各自的一套抽取语言。大部分的抽取语言都难以用 于手工编写模式,因此需要人为标记样本来学习抽取模式。基于h t m l 结构的抽 取语言是基于h t m l 文档的树结构,通过树路径定位数据简单、直观、而且精确, 因此适用于人为定制抽取规则。而且基于h t m l 的抽取语言可以抽取复杂的数据 结构,这对于实际的应用是很有效的。 实际上,由于h 蹦l 的非结构化和难于被应用程序处理,一种新的符合 x m u 2 0 l i 吾言规范的w e b 语言x h t m l 已经被设计出来。如果我们处理的对象是 x h t m l 文档,我们就可以像操纵x m l 文档一样操纵w e b 文档。在众多成熟的 x m l 技术中,d o m 规范将x m l 文档被视为一个树状的结构化模型,x p a t h 被广 第= 章w s 1 l s 信息集成系统 1 3 泛震于在x m l 文终孛静节点捋靛和定位,x s l t 秘x q u e r y 用于x m l 数据格式的 转换和x m l 文档的查诲。所以w e b 信息抽瑕完全可戳谯现有斡x m l 技术基础上 实现。当然这种方法在抽取的爱活性方面和自动化方面述有待研究。 2 3 。4 信息集成中w e b 信息接取耍临的挑战 w e b 信息抽墩是当前非常热门的研究问题,但是现有的w e b 信息抽取研究都 还是搦淀于传统绩息抽取的葱蜷内。如何将撼取出的数掇供应用程膨利用、实现 w e b 信息抽取静价值,研究褥还院较少。本文将w e b 僚爨抽取和倍慧鬃成技恭缝 合越来,将w c b 储息源作为信息集成系统底层数据源,以期让这些w e b 上的数据 能够更有效的被利用。但是在信息集成中w e b 信息抽取也同样面临一些问题,主 要鸯蘩下蔻熹; 第一,如何将w e b 页面中的半结构数搦抽取为结构化的数据。这也是传统的 信息抽取中一直致力在解决的问题,但是如前一节所指出,w e b 信息抽取现在还 瑟稳篱蛋秘翊题;每静抽取算法翦都有其邋陂妻搴特定领域,售息接取黥准确性不 够等等。 第二,如何将抽取的数据以一种有效的方式提供给信息集成系统。这里牵涉 到一个需求对象改变的问题,趿为w e b 网站架设的时候,其服务对象是人,所以 它豹信怠是一耱速入餐易予鬻读豹方式提供戆。整是薅惑集袋系统雯多嚣鑫懿是 应用程序。二者猩数据格式的描述以及数据语义的表示上有巨大的骜剜。如何减 少这种差别对信息集成的影响,使w e b 数据源能够得到肖效的利用怒个非常严 竣黪翅题。 第三,信息獭敬的功髓模块与信惠集成模块之阀的芙系问题。怒将信息抽取 模块作为信息集成中介的一部分还是将抽取系统作为独藏的系统,愚值得考虑的。 第四,由于怒对w e b 网站进行抽取,我们不光要考虑怎么建立抽敬的规则, 网戆瓣撞取懿一蘩隈锈胃戆毽簧考虑在痰。 嚣显弦取避鞭熬可麓窭瑷匏错误裒舅 常都腹该是w e b 信息抽取予系统要涉及的。 第五,一般谯w e b 信息抽取中,抽取出的数据都是纯文本的信慰。但是,在 羡惠集成系统孛,我农期望每个数据顼都簧蠢丰富豹数攥缝稳菝怠以矮子数据静 转换和处理。 第六,互联网上尽管包含了大量的信息,但是不是所有的页面都能被直接索 引或链接到。h i d d e nw e b 2 2 镪含了更加庞火的信息。掰谓的h i d d e nw e b 用户在 w e b 士逶遘壤写黉嚣土酶表攀籍动态生成稳瓣茭,这骜炎瑟逶遥黄绕豹搜索雩l 擎 无法游问到。h i d d e nw e b 的信息抽取有赖予自动、有效的获取h i d d e nw c b 的内容, 也就燃通过程序自动的填写w e b 表单,获取返回的内容页面,然后对内容页面作 1 4 信息集成申w e b 信息抽取技术的研究 抽取。 针对以上问题,在下面两章分别提出了基于d o m 的w e b 信息抽取方法和w e b 信息抽取流稷攥架。基于d o m 的信息抽取用标准的x m l 方法操作w e b 页蘑, 提取窭爱户薅兴趣熬蕊惑。基予耠0 麓懿撞取方法鞠院已骞瓣蕹取方法,由予采蠲 了标准的x m l 技术,实现起浆援:较容易,而且在厌瑟中定位更加准确。抽取的目 标模式采用s c h e m a 描述,使得藏表述的信息更加丰富。在抽取系统和集成系统之 间采用了w e bs e r v i c e 衔接,信息抽取系统将w e b 站点的内容抽取出来届发布为 w e bs e r v i c e 供集成系统使用。墩艏,w e b 信息抽敷樵架使用了抽取流裰。传统的 接取灸关,擎炙嚣戆疆取,瑟熬驭滚簇强谖了夏鬻溜夔联系,实瑗了多煲瑟夔麓 取帮页面阖姻鼯航。抽取流程不光有抽取援刚酌倍感,更有箍取中与湖络相关的 一系列配置信息。通过抽取流程,在信息抽取中的昴常也可以得到有效的处理。 第三章基于d o m 的w e b 信息抽取 第三章基于d o m 的w
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 聚焦动物健康2025年生物饲料添加剂研发成果鉴定报告
- 消费金融公司用户画像精准营销策略:2025年行业深度研究报告001
- 2025年医药电商平台医药电商物流配送模式与合规监管分析报告
- 2025年元宇宙社交平台虚拟现实社交平台品牌建设研究报告
- 2025年互联网金融平台合规整改与业务模式创新研究报告
- 2025年远程医疗服务模式与医疗资源配置优化研究报告
- 2025年医院电子病历系统在医疗信息化中的应用优化与医院管理报告
- 2025年基层医疗卫生机构信息化建设标准与规范报告001
- 2025年医药企业研发外包(CRO)模式质量管理体系优化报告
- 2025年医药企业研发外包(CRO)模式企业社会责任履行报告
- 学龄儿童多动症ADHD诊治指南课件
- 石膏固定术课件
- 实习生-OFFER正式通知函
- 闲鱼开店运营计划书模板
- 2024届江苏省南京市燕子矶中学化学高一第二学期期末联考试题含解析
- 双一流大学完整版本
- 康养项目合作协议范本
- 华为的科技创新生态系统构建
- 二手房交易承诺书范本
- 2023年贵州省青少年活动中心事业单位招聘6人笔试参考题库(共500题)答案详解版
- 机械制造工艺学课程设计-张紧轮支架
评论
0/150
提交评论