基于网格的Deep Web数据集成系统研究.doc_第1页
基于网格的Deep Web数据集成系统研究.doc_第2页
基于网格的Deep Web数据集成系统研究.doc_第3页
基于网格的Deep Web数据集成系统研究.doc_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于网格的Deep Web数据集成系统研究詹青 崔宾阁(山东科技大学 信息科学与工程学院,山东 青岛 266510) 摘 要随着互联网技术的发展,Deep Web已成为网络信息资源的主要组成部分,且具有异构、动态、数量大等特点。必须要对Deep Web数据进行大规模集成才能有效地利用Deep Web资源。在分析网格计算特点的基础上,提出了基于网格的Deep Web数据集成系统框架并作了详细的技术分析与研究。系统的特点是充分利用网格高效的分布式处理能力达到为用户有效提供集成的Deep Web数据资源的目的。 关键词Deep Web;网格;OGSA-DAI;数据集成1引言 根据用户获取Web信息资源方式的不同,人们把Web分为Surface Web和Deep Web两类。Surface Web是指能够通过传统搜索引擎索引的以超链接可达的静态页面或资源的集合,Deep Web是一个与Surface Web相对应的概念,最初由Dr.Jill Ellsworth于1994年提出,指那些存储在Web数据库中的动态信息资源集合,其内容不能通过传统搜索引擎索引也不能通过超链接访问,只能通过填写表单(Form)提交查询时才会由Web服务器把动态生成的页面返回给访问者。 Deep Web的规模大约是Surface Web的400500倍,并且仍在高速增长。据美国伊利诺伊大学计算机科学系Bin He等人2004年7月发表的一份调研报告,全球Deep Web已有大约30.7万个站点、45万个数据库和125.8万个界面,并且持续快速增长,2000年到2004年期间增长了37倍。到2006年初,仅中国的Deep Web就有约24,000个站点,28,000个后台数据库和74,000个查询接口。Deep Web已成为网络信息资源的主要组成部分,且具有异构、动态、数量大等特点,以手工的方式难以对其加以有效的利用,必须对Deep Web数据进行集成即以自动的方式才能完成对Deep Web信息的有效利用。鉴于Deep Web的特点设计了一个基于网格的Deep Web数据集成系统,以便充分利用网格高效的分布式处理能力为用户有效地提供集成的Deep Web数据资源。2相关知识与研究背景 网格概念产生于20世纪90年代中期的美国,它借鉴电力网的概念,期望能够像使用电力一样方便地使用分布在网络上的丰富资源,网格的本质特征是分布,与传统分布式计算相比,网格计算最大的特点就是能够在非集中控制的环境中最大程度地实现资源共享,满足用户对高性能计算的要求。网格的发展目标是要将整个互联网整合成为巨大的超级虚拟计算机,对计算资源、存储资源、数据资源、通信资源、软件资源、信息资源等进行全面共享,为用户提供科学计算、数据存储、信息获取、远程控制等各种高性能网络服务,最大限度地提高网络资源利用率。网格作为一种新的计算基础设施,具有分布性、自治性、异构性、动态性等特点。 网格体系结构是关于如何建造网格的技术,它描述了网格系统的基本组件及其功能,以及各个组件之间的相互关系和网格系统的运行机制。网格体系结构经历了一个逐步演进的过程。从最初的五层沙漏结构到后来,在以IBM为代表的工业界的影响下,全球网格论坛GGF于2002年给出的OGSA(Open Grid Services Architecture,开放网格服务体系结构),首次在网格体系结构中引入了Web Service技术,但OGSA中服务所指的内容相对于五层沙漏结构更加广泛。GGF同时给出了OGSI(Open Grid Services Infrastructure,开放网格服务基础设施)作为OGSA的实施标准。但OGSI过分强调网格服务和Web服务的差别,将资源状态封装在服务中,导致了网格服务不能与Web服务很好地融合在一起。为了解决OGSI和Web服务的矛盾,Globus联盟、IBM和HP于2004年初共同提出了WSRF(Web Service Resource Framework,Web服务资源框架),WSRF作为OGSA的另一种实施标准,采用“有状态资源,无状态服务”的定义,将网格服务演变成了Web服务和资源文档两部分,对现有的Web服务具有良好的兼容性。WSRF的出现标志着侧重科学活动的网格计算开始转向面向服务的信息网格。WSRFvl.2规范己于2006年4月3日被批准为OASIS(Organization for the Advancement of Structured Information Standards,结构化信息标准促进组织)标准。 网格中间件向人们提供最基本、最核心的网格计算功能,它是构建网格环境所必需的基础资源和服务。本文的研究应用了两种网格中间件:Globus网格中间件和OGSA-DAI网格中间件。Globus采用模块化设计方式开发了能在各种平台上运行的网格计算工具软件(Globus Toolkit),它是一个构成网格基础设施的软件平台,其作用相当于网格操作系统,担当管理网格资源的重任。OGSA-DAI(open grid service architecture- data access and integration) 是基于网格平台(如Globus Toolkit)的,能够集成大多数孤立数据源的网格中间件,允许以Web Service的方式访问各种关系数据库、XML数据库和文件系统。OGSA-DAI应用广泛,国外很多项目都是基于该网格中间件,比如:AstroGrid,Biogrid和BioSimGrid等。 Deep Web数据集成已成为当前一个研究热点,虽然在查询接口集成和数据抽取等方面取得一定进展,但所提出的集成系统只是属于研究性的原型系统,还不能适应Deep Web数据源数据量大、异构及动态性等特点,而网格具有高效的分布式处理能力,利用网格技术实现Deep Web数据集成将会很好地解决上述问题。3基于网格的Deep Web数据集成系统框架 基于网格的Deep Web数据集成系统主要包括Deep Web资源层、数据层、服务层及应用层四个模块,如图1所示,具体说明如下。图1 基于网格的Deep Web数据集成系统 Deep Web资源层是网络中的数据库,为数据层提供数据服务资源,通常表单是Deep Web的入口,输出是服务器封装的结果页面。 应用层为系统提供给用户的集成的查询界面,是网格用户与系统之间相交互的入口。 数据层是系统与Deep Web数据库之间的桥梁,由OGSA-DAI中间件承担,封装了OGSA-DAI的核心功能。OGSA-DAI在这里既充当一个执行网格服务的服务请求者,也充当一个网格服务的提供者。数据层的主要功能有:使用与WSRF相兼容Web服务接口部署数据服务资源;提供对应于数据服务资源的数据资源访问器,由它控制对Deep Web数据资源层的访问;向系统提供DAI服务组注册器(DAI Service Group Registration DAISGR),网格数据服务(Grid Data Service GDS)及网格数据服务工厂(Grid Data Service Factory GDSF)等服务。 服务层是基于网格的Deep Web数据集成系统的核心模块,有关Deep Web访问的功能模块均被封装成网格服务,连同数据服务一起共同接受OGSA/WSRF核心的管理与调度。Deep Web访问功能模块可分为三个主要的模块:查询接口生成模块、查询处理模块和查询结果处理模块,每个模块又由若干子功能模块组成。OGSA/WSRF核心是整个集成系统的关键组成部分,是实现应用动态集成的关键。OGSA/WSRF核心服务层提供服务的注册、查询、调用、资源管理、数据管理及安全保障等基本功能,同时根据业务功能构建WS-Resource并提供对其有效的管理机制以实现动态集成的目标。 由于单一的服务功能有限,很难满足系统应用的需求,因此在服务层需要将已经存在的具有不同功能的基本服务组合在一起,合理地安排这些服务的运行顺序,组成一个倍加功能的合成服务。事实上网格服务本身的特点,如基于标准协议、松散耦合也为这种服务的组合提供了技术支持。在设计合成服务时,应充分考虑Deep Web数据集成各功能模块的业务需求,选用合适的服务组合粒度。如本系统中将查询接口生成服务、Deep Web数据库选择服务、查询转换服务、提交查询服务及数据服务组合为查询处理服务供查询结果集成服务使用。数据服务同时作为查询结果集成服务、查询处理服务及查询接口集成服务的组合成员。图2为基于网格的Deep Web数据集成系统中服务组合的示意图,系统中所有合成服务以提供一个接口的形式提供给网格用户或者其它服务调用。图2 服务组合示意图 系统中的数据层和服务层均运行在Globus Toolkit平台下,Globus Toolkit提供基本的网格安全基础架构并能够完成目录服务、资源管理、数据管理、副本管理及错误检测等功能,Globus Toolkit采用了组件技术,提供了一整套底层的SDK和API,系统可以任意选择其中的工具模块进行二次开发。在OGSA-DAI运行过程中,Globus Toolkit还要负责维护其访问数据库的状态及信息。4系统中OGSA-DAI的技术分析 系统中的OGSA-DAI通过Web服务发布不同类型的Deep Web数据源,网格用户可以统一的格式向OGSA-DAI Web服务提交请求,而不论Web服务所发布的Deep Web数据源类型。OGSA-DAI通过面向文档的接口实现与数据服务资源的交互,客户端首先向网格数据服务发送一个执行文档,然后,网格数据服务将文档转送给某一代表真正的Deep Web数据源的数据服务资源。该数据服务资源解析执行文档并执行文档中要求的动作,最后数据服务资源将动作执行后产生的结果创建为响应文档返回给客户端。 系统中OGSA-DAI与客户端的交互过程如图3所示,具体步骤为。图3 系统中OGSA-DAI工作流程图 (1)网格服务容器Globus Toolkit启动并创建DAI服务组注册器(Data Access and Integration Service Group Registry DAISGR)。 (2)网格服务容器Globus Toolkit创建网格数据服务工厂(Grid Data Service Factory GDSF) 并连接到底层Deep Web数据源上。 (3)网格数据服务工厂(GDSF)注册在DAI服务组注册器(DAISGR)中。 (4)客户端在DAISGR中查询能够创建Deep Web数据源的GDSF,提出数据库连接请求。 (5)DAISGR定位到对应的GDSF,返回其句柄。 (6)客户端向GDSF发送Deep Web数据源访问请求。 (7)GDSF创建网格数据服务(Grid Data Service GDS)实例并返回其句柄。 (8)客户端向GDS提交执行文档Perform.xml。 (9)GDS解析Perform.xml文档,执行活动activities,并将结果组合成响应文档Response.xml返回给客户端。5结束语 当今对Deep Web数据集成的研究具有非常重要的理论和应用价值,本文在分析网格计算特点的基础上,提出了基于网格的Deep Web数据集成系统框架,并对其进行了详细的技术分析与研究。本系统的主要特点是充分利用了网格高效的分布式处理能力为用户有效地提供集成的Deep Web数据资源。应该看到本系统是一个开放的系统,它应该随着网格技术及Deep Web数据集成技术的发展而不断充实完善并作更深一步的研究。参考文献 1 徐志伟,冯百明,李伟网格计算技术M. 北京:电子工业出版社,2005 2 赵朋朋,崔志明,高 岭,等关于中国Deep Web的规模、分布和结构J小型微型计算机系统,2007,10:1799-1802 3 刘伟,孟小峰,孟卫一Deep Web数据集成研究综述J计算机学报,2007,9:1475-1489 4 Bergman,MKThe Deep Web:Surfacing Hidden ValueJ. Communication Abstracts,2003,26(2):155-298 5 ANTONIOLETTI M,ATKINSON M,BAXTER R,et a1The design and implementation of grid database services in OGSA-DAIJConcurrency and Computation:Practice and Ex

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论