(计算机科学与技术专业论文)xml数据库网格关键技术的研究与实现.pdf_第1页
(计算机科学与技术专业论文)xml数据库网格关键技术的研究与实现.pdf_第2页
(计算机科学与技术专业论文)xml数据库网格关键技术的研究与实现.pdf_第3页
(计算机科学与技术专业论文)xml数据库网格关键技术的研究与实现.pdf_第4页
(计算机科学与技术专业论文)xml数据库网格关键技术的研究与实现.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(计算机科学与技术专业论文)xml数据库网格关键技术的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国防科技大学研究生院学位论文 摘要 随着网格以及数据网格技术的蓬勃发展,很多研究者开始致力于解决如何 将数据库资源集成到网格环境中。另一方面,随着x m l 越来越多地被应用在 数据表示和数据存储等方面,为了持久保存x m l 文档,并且更方便地使用和 管理这些数据,x m l 数据库相继出现。x m l 数据库网格正是这一领域的新发 展,主要侧重于广域环境下x m l 数据库资源的统一存储、访问和管理。日前 国际上对x m l 数据库网格的研究还处于起步和发展阶段,相关的实现技术并 不成熟,还没有形成完整标准的规范。 本文深入分析和研究网格以及数据库网格技术,对目前主流x m l 数据库的 异同进行比较。重点研究了x m l 数据库网格中的数据库共享访问方式和数据 查询方法。在基于网格服务的数据库访问架构上,提出了网格环境下x m l 数 据库资源共享访问的两种方式;一是基于数据库连接的共享访问,二是基于数 据库操作的共享访问。通过对x m l 数据库查询方式的研究,提出了一种数据 模糊查询方法x s - q u c r y 。在此基础上,设计和实现了一种x m l 数据库网格系 统c _ n - i d c n - x s a ,从系统结构、系统组成、核心功能等几个方面进行了详细的 分析和设计。 本文第一章通过对数据库网格的产生背景以及x m l 数据库的特点的详细 分析,指出了本课题的研究目标、内容和意义。第二章对目前国内外数据库网 格研究的相关工作进行了重点介绍。第三章在数据库访问架构的基础上,提出 了基于x m ls c h e m a 的数据查询方法,并详细分析了该查询方式的特点。第四 章分析和研究系统设计目标,提出了c n i d e n - x s a 系统体系结构第五章详细 介绍g r i d e n - x s a 系统实现,包括元数据服务、数据库资源发现服务、x m l 数 据库资源的访问方式以及数据转换和客户端。最后,通过建立实验测试环境, 对g r i d c n - x s a 系统进行了功能测试和分析,并对x s - q u e r y 数据查询方式进行 了性能测试和分析。 主题词:x m l 数据库网格,x m l 数据库,共享访问,x m ls c h e m a 里堕型垫奎兰! 塞生堕堂垡丝苎 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fg r i da n dd a t a 鲥d ,m a n yp e o p l eb e g i nt od o r e s e a r c ht oi n t e g r a t ed a t a b a s er e s o u r e ei n t ot h eg r i de n v i r o n m e n t o nt h eo t h e rh a n d , x m lh a sb e e nm o r ga n dm o r ew i d e l yu s e di nt h ea r e ao fd a t ar e p r e s e n t a t i o na n d d a t as t o r a g e i no i d e rt ok e e pt h ex m 臣d o c u m e n tp e r m a n e n t l y , x m ld a t a b a s e s a p p e a r a n 正t h e s ex m l d a t ac a nb ee x p e d i e n t l yu s e da n dm a n a g e d x m ld a t a b a s e g r i di san e wd e v e l o p m e n to nt h ea s p e c to fd 砒a b a s ei n t e g r a t i o na n dm a i n l yf o c u s o nt h eu n i f o r ms t o r a g e a c c e s sa n dm a n a g e m e n to fd a t a b a s er e $ o l l l c c s n o w , t h e r e s e a r c ho nx m ld a t a b a s e 鲥di sa tt h eu n d e r w a ya n dd e v e l o p i n gs t a g e , t h e c o r r e l a t i v ei m p l e m e n tt e c h n o l o g i e sa r ei l n n l a t i l e a n di th a sn o tf o r maw h o l e s t a n d a r d sa n ds p e c i f i c a t i o n s ht h i sp a p e r , t h et e c h n o l o g yo fg r i da n dd a t a b a s eg r i di st h o r o u g h l ya n a l y z e d , m a i n l ya b o u tt h e m e t h o do fa c c e s s i n gd a t a b a s ea n d q u e r y i n g d a t a b a s e x m l - e n a b l e dd a t a b a s ea n dd a t i v ex m ld a t a b a s ea r ec o m l m r e d , a n dn a t i v ex m l d a t a b a s ei sm o r ea d a p t e dt ok e e px m ld a :t a b a s e do nt h e 鲥ds c n ,i ,t h ex m l d a t a b a s en 络o u r o c 眦b ea c c e s s e di nt w ow a y s :o n ei sb a s e do nd 刮 a b 嬲e c o n n e c t i o n ;t h eo t h e ri sb a s e do nd a t a b a s eo p e r a t i o n a ni n e x a c tq u a ym e t h o d , c a l l e dx s - q u e r yi sp r o v i d e d a n dt h e n , ax m l d a t a b a s e 鲥ds y s t e mg r i d e n - x s a i sd e s i g n e da n di m p l e m e n t e d t h eb a c k g r o u n do fd a t a b a s e 鲥da n dt h ed 唧m c t e 蒯co fx m ld a t a b a s e 躺 a n a l y z e di nt h ef i r s t 曲日p t 盯s o m er e l a t e dj o b sa b o u tt h er e s e a r c ho fd a t a b a s e 鲥d a r ed e s c r i b e di nt h es e c o n dc h a p t e r i nt h et h i r dc h a p t e r , ax m ls c h e m ab a s e d q u e r ym e t h o di sp r o v i d e d t h ef o r t hc h a p t e ri sm a i n l ya b o u tt h ea r c h i t e c t u r eo f g r i d e n - x s as y s t e m i nt h ef i f t hc h a p t e f , t h es y s t e m si m p l e m e n t a t i o ni sp r o v i d e d i n c l u d i n gn m 出l ( 1 a t as e r v i c e 、t e s o 蝴s e a r c h i n gs e r v i c e 、d a t at r a n s l a t i o na n ds oo 噍 f i n a l l yt h es y s t e m sf u n c t i o n a l i t y i st e s t e da n d a n a l y z e 也 k e yw o r d s :x m ld a t a b a s eo r i d , n a t i v ex m ld a t a b a s e ,s h a r e da c c e s s , x m l s c h e m a 第越页 国防科技大学研究生院学位论文 图目录 图2 1o 3 s a - d a i 系统的逻辑结构6 图2 2a v a l d 即系统的数据管理7 图2 3 d b 2 1 1 提供的集成访问功能9 图3 1 基于网格服务的数据库访问架构1 6 图3 2 多域数据库访问1 7 图3 3 数据库共享访问方式1 9 图3 4 基于x m l s c h e m a 建立索引文件2 2 图3 5 利用索引进行关键字检索2 3 图4 1 系统总体结构图2 9 图4 2c r d d e n - x s a 系统组成3 0 图4 3 元数据服务树型结构组织图3 2 图4 4 元数据文档合并递归过程图3 3 图5 1 查询数据转换结果4 4 图5 2w e bs e r v i c e s 架构4 5 图6 1 系统部署5 1 国防科技大学研究生院学位论文 表目录 表5 1g d d e n - x s a 元数据分类,3 5 表5 2 数据库连接元数据的数据结构。3 6 表5 3 数据库操作元数据的数据结构3 6 表5 4 用户元数据的数据结构3 7 表5 5 数据库访问服务器配置元数据的数据结构。3 7 表5 6 元数据服务器配置元数据的数据结构3 7 表6 1 各服务器节点状态表5 1 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已 经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它教育机构的学 位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意。 学位论又题目:! 坠塾堡壅圈整去缝撞盔鲍丑在望塞丑 学位论文作者签名 日期:2 。o 年1 2 月? 乎日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权国 防科学技术大学可以保留并向国家有关部门或机构送突论文的复印件和电子文档,允 许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库进行检索 可以采用影印、缩印或扫描等复制手段保存。汇编学位论文。 ( 保密学位论文在解密后适用本授权书。) 学位论文题目:型! 数量压圈整差缝遮盔盟丑蕉生塞盈 学位论文作者签名 作者指导教师签名 国防科技大学研究生院学位论文 第一章绪论 1 1 研究背景 1 1 1 数据网格与数据库网格概述 随着科学技术的发展,进行科学研究所要进行的数据分析、计算交得日益复 杂,需要多种设备和多个系统的协作,为此人们提出网格计算技术,试图构建一 种能够联合网络中所有资源,为用户提供一种虚拟的巨型超级计算机系统。网格 构建了一个进行大规模计算和海量数据处理的通用基础支撑结构,为各种分布式 应用开发提供底层支持,将i m e m e t 变为一个功能强大、无处不在的战略性基础 设施。 近年来,由于数字化革命和i n t e m e t 的大发展,数据集容量呈爆炸式增长趋势。 例如在生物医学、高能物理、全球气候模拟、核爆炸模拟等应用中,它们的数据 量将达到t e r a b y t e ( 1 0 0 0 g b ) 至p e t a b y t e ( 1 0 0 0 t b ) 的级别。因此建立一种有 效的数据管理和访问机制变得愈来愈迫切。数据网格的最终目标是建立异构分布 环境下海量数据的一体化存储、管理、访问、传输与服务的架构和环境,可以很 好地解决海量数据难于组织、难以处理的问题。数据网格技术是在计算网格技术 的基础上发展起来的,对于数据密集型的大型科学研究具有重大的科研和应用价 值,它为广域的具有数据密集型或协作特点的大型科学应用和研究提供了支撑平 台啪 数据网格主要解决的是在广域环境下分布的,异构的,海量存储资源的统一 访问与管理的问题 3 4 1 。而数据库作为一类重要的存储资源,关于其在网格环境下 的统一访问与管理问题是一个亟待研究的领域。因此,在数据网格的基础上提出 了一个新的概念数据库网格( d m a b a s eg r i d ) 四。数据库网格的主要研究内 容是,在同格环境下如何集成、访问、管理和操作数据库资源,特别是分布在不 同的地理位置,多个异构数据库的数据资源的问题。数据库网格是以数据库为最 主要资源的数据网格环境,利用中间件技术把分布异构的数据库有效的集成到网 格环境中,使其能够共享数据库的数据和能力,并在此基础上在网格中间件上为 用户提供更高层次,更强功能的服务。正如所有新的技术一样,目前学术界对数 据库网格概念的理解并没有得到统一。欧洲e - s c i e n s e 组织在数据库网格研究方 面处在世界的前列,同时美国o r a c l e 公司和m m 公司也开始关注数据库网格的 发展,并开发出了相应的产品。 第1 页 国防科技大学研究生院学位论文 1 1 2x m l 数据库的发展 x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 技术作为标准化的数据存储格式在当前 i t 环境中扮演越来越重要的角色,特别是随着w e b f v j c e 的蓬勃发展,x m l 越 来越多地活跃在数据交换和存储领域。x m l 数据的广泛应用造成x m l 数据量指 数级的增长,要求更有效的数据管理能力和更快、更精确的查询。在传统数据库 厂商宣布支持x m l 的同时,一种新的数据库技术,l l a t i v ex m ld a t a b a s e ( 原生 x m l 数据库) 也己崭露头角,打破了传统关系数据库一统天下的局面,为数据库 技术的研究提供了一次良好的发展契机【7 】。 虽然许多关系型数据库厂商都宣称自己的产品可以支持儿,但它们对) m 也 的存储无外乎两种形式,一是将x m l 文档以文件的方式存储在文件库中( 即 c l o b 形式) ;二是将x m l 数据转换成关系型表格存储在关系型数据库中。无论 采用哪种方式,在重新获取x m l 数据的时候,都要经过繁琐的转换工作,给企 业带来很多问题。而且数据库的功能绝不仅是存储数据,更重要的是能够很好地 管理和方便地使用这些数据。这种所谓的x m l - e n a b l e dd a t a b a s e 存在以下缺点: x m l 文档存入到数据库或者从数据库取出时,不仅耗时,而且文档的格式可能会 不同:x m l 文档和数据库之间的模式转换复杂,在前期开发阶段需要投入很大; 对“以文档为中心”且格式复杂的x m l 文档处理性能较差;在采纳x m l 技术标 准方面较落后。 与x m l - e n a b l e d d a t a b a s e 相比,原生x m l 数据库由于内部模型是基于x m l 的, 所以存取x m l 文档无需模式转换,存取速度快,对格式复杂的x m l 文档支持比 前者要好,并且支持大部分最新的x m l 技术标准。目前,比较著名的原生x m l 数据库系统有:e x i s t t 9 ) 、x i n d i c e i l 0 】、r 蛐b d 1 等,和其他数据库一样支持事务 管理、安全、多用户访问、编程a p i 和查询语言等。虽然,原生x m l 数据库技 术发展时间相对传统数据库来说还很短,技术基础还不是很牢固,但是由于其在 处理x m l 数据时拥有传统数据库所不能比拟的天生优势,已促使越来越多的且 光聚焦到它上面。 1 2 课题研究的目标、内容和意义 由于科学研究和商业应用领域的大量网格应用迫切需要数据库系统的支持, 因此如何将广域环境下分布异构的数据库资源并入现有的数据网格架构中,为用 户提供透明的访问服务,已经成为一项亟待解决的新课题。 本课题作为8 6 3 网格重大专项和国家自然科学基金项目的一部分,主要研究 第2 页 国防科技大学研究生院学位论文 数据网格中x m l 数据库资源共享访问服务的关键技术,并负责设计和实现数据 网格软件一网格数据引擎( c - r i dd a t a e n g i n e ,简称g r i d e n ) 【1 4 l 中的x m l 数据 库共享访问系统以及客户端软件。目标是屏蔽网格环境中x m l 数据库的异构性 和分布性,为网格用户提供全局的多数据库逻辑视图和统一数据服务平台,实现 x m l 数据库的充分共享或高可用性。根据上面对x m l - c n a b l c d 数据库和原生x m l 数据库的分析比较,可见后者在处理x m l 数据方面具有广阔的应用前景,因此, 所设计实现的x m l 数据库共享访问系统主要针对原生x m l 数据库。 研究的内容主要包括以下几个方面: ( 1 ) 网格环境下x m l 数据库共享访问的体系结构 ( 2 ) 网格环境下数据库共享访问方式 ( 3 ) 模糊数据查询方式 ( 4 ) 网格环境下x m l 数据库资源的组织与管理 ( 5 ) 元数据服务的模型 ( 6 ) 元数据检索子系统 实现数据库资源的共享访问是数据库网格的基本目标。数据查询是数据库操 作中最常使用的操作之一,提高数据的查询效率就提高了数据库网格系统的性能。 在x m l 数据库共享访问系统( g f i d - x s a ) 中,元数据服务是系统的核心组成 之一。元数据服务为共享访问底层分布、异构的数据库资源提供了各种元数据, 包括数据库连接元数据和用户元数据。客户端软件是网格用户进入- x s a 系统,实现统一访问和管理各种数据源的重要工具,它为网格用户提供良好的人 机界面以及标准的接口,是系统易用性,可扩展性的重要标准, 总体来说,国内外对数据库网格研究还处于起步和发展阶段,相关的实现技 术并不成熟,还没有形成完整标准的规范,因此,本课题对以上研究内容的分析 和研究对于数据库网格关键技术的研究具有十分重要的意义从应用层面来说, g r i d e n - x s a 系统将广域分布的,异构的存储资源整合在一起,实现了对它们的 统一访问,为广域的数据密集型应用和研究提供了高性能的支撑平台,其他科学 研究或商业应用都可以基于他所提供的服务接口来开发自己的网格应用系统。另 外,原生x i v l l 数据库虽然是一种新技术,但对它的研究和应用已经是大势所趋 希望通过我们的研究成果,推动x m l 数据库网格的研究和发展,为解决国民经 济、社会发展和国家安全中的重大问题提供先进的信息管理与处理基础设施,为 信息化带动工业化提供关键技术,促进我国信息产业的持续高速成长。 第,页 国防科技大学研究生院学位论文 1 3 论文组织结构 第一章为绪论,概括分析了网格、数据网格和数据库网格的产生背景,基本 特性,x m l 数据库的特点,并指出了本课题的研究目标、内容和意义。 第二章重点介绍数据库网格国内外研究的相关工作。 第三章在数据库访问架构的基础上,提出了网格环境下x m l 数据库共享访问 的两种方式以及基于x m ls c h e m a 的数据查询方式。 第四章主要通过分析和研究系统设计目标,提出了g r i d e n - x s a 系统体系结 构,并详细介绍了元数据检索子系统 第五章详细介绍g r i d e n - x s a 系统实现,包括元数据服务、数据库资源发现 服务、x m l 数据库资源的访问方式以及数据转换和客户端。 第六章分别从功能和数据查询性能两个方面对系统进行了测试,并就测试结 果进行了详尽的分析,对系统性能给出了客观的评价。 第4 页 国防科技大学研究生院学位论文 第二章数据库网格的国内外研究现状 数据库网格是以数据网格为基础的,因此,目前国际上应用和影响比较广泛 的数据库网格研究以及相关软件系统也是在数据网格项目之上发展起来的,如英 国的e - s c i e n c e 核心项目o g s a - d a i 和a v a k i 的企业信息集成系统e l l ( e n t e r p r i s e i n f o r m a t i o ni n t e g r a t i o n ) ,它们基本上通过采用相关的数据网格技术解决并实现了 i n t e r n e t 环境下海量分布异构数据库资源的统一访问。x m l 数据库近年发展非常 迅速,但是,x m l 数据库技术发展时间相对传统数据库来说还很短,所以导致许 多数据库网格系统对x m l 数据库的支持并不理想。 2 1 国外研究现状 由d t i 资助的e - s c i e n c e 核心项目o g s a - d a i ( o p e ng r i ds e r v i c e s a r c h i t e c t u r e d a t a a c c e s sa n di n t e g r a t i o n ) 【1 2 1 ,合作伙伴有英国的e - s c i e n c e 中心、 e s n w 、m m 、e p c c 、o r a c l e 等。o g s a - d a i 项目致力于建造通过网格访问和集 成来自不同数据源的中间件。这个项目是由u k d a t a b a s e t a s k f o r c e 提出构想,并 紧密地和全球网格论坛数据访问和集成服务工作组d a i s w o ) 以及 g l o l m s ! 1 3 l 团队一起工作。o g s a - d a i 在实现上符合基于o o s a t 1 的网格标准,并 在g l o b u s 工具包基础上开发实现,目前发布的版本提供了两种基于w e b 服务的 规范:w e b 服务互操作w s - l ( w e bs e r v i e , e $ i n t e r - o p e r a b i l i t y ) 和w e bs e r v i c , e $ 资 源框架w s r f ( w 曲s e r v i c e sr e s o u w 七f r a m e w o r k ) w s - i 版本的o g s a - d a i 与 o m l l 项目中的w s i 实现相一致;w s r f 版本的o g s a - d a i 与g l o b u s 中的w s r f 实现相一致支持p e r f o r md o c u m e n t s 、可扩展的活动架构( a c t i v i t yf r a m e w o r k ) 、 数据操作s t a t e m e n t 、数据传输d e l i v e r y 和数据转换t r a n s f o r m a t i o n 等活动 ( a c t i v i t i e s ) , o g s a - d a i 使地理上分布的各个数据资源( 如关系数据库或者x m l 数据库) 通过w e b 服务的方式被访问,而用户不需知道数据的物理位置和数据结构等信息。 o g s a - d a i 服务提供了数据的查询和更新功能、数据转换( 利用x s l t ) 功能、 向客户或其他o g s a d m 服务传递数据的功能,可以被用来提供数据整合服务, 也可以被结合来提供高层的w e b 服务以支持数据联邦和分布式查询处理 o g s a - d | a i 结构是一种工具箱,它具有一些扩展点,可供开发人员扩展其功能, 第5 页 国防科技大学研究生院学位论文 以适应自身的特定需求。目前o g s a - d a i 已经应用在a s t r o g r i d 、b i o g r i d 、 b i o s i m g r i d 、b r i d g e s 、f i r s t d i g 、g e n e g r i d 、o d d - g e n e s 、o g s a - w e b d b 等多 个项目中,能够支持访问各种关系数据库( 如m y s q l 、o r a c l e 、p o s t g r e s q l 、d b 2 、 s q l s e v g r2 0 0 0 等) 和n a t i v i e - x m l 数据库( 如x i n d i c e ) 。 可以将o g s a - d a l 分为四层,其体系结构如下图所示: r 翩咖 l 下推分析( p u s h d o w na n a l y s i s ) 是查询处理中新引入的阶段,它确定每个 特定的后端服务器可以计算出某个特定查询的程度,并确定在d b 2 i n f o r m a t i o ni n t e g r a t o r 系统上需要进行多少补偿性处理。 基于成本的优化根据成本估算创建查询执行方案,成本估算目前包括来自 源数据的标准统计信息( 例如,基数或索引) 、数据服务器的能力( 如连 接功能或内置函数) 、数据服务器容量、加i 容量和网络容量。 语句生成( 根据基于成本的优化器的结果生成可执行方案) 已经得到了扩 展,可以为数据源生成有效的特定于d b m s 的s q l 。 查询运行时引擎已经得到了扩展,可以驱动对本地和分布式信息执行查 询,允许功能补偿并提供一致的虚拟数据库视图。 联邦高速缓存的首个发行版提供了管理员管理的跨关系数据库后端的集 成视图的高速缓存。优化器自动将查询发送到高速缓存,以便在合适时满 足查询。 d b 2i n f o r m a t i o ni n t e g r a t o r 有一组丰富的转换功能,包括标准的s q l 函数, 比如字符串操作、算术计算、统计计算、联机分析处理函数和过程逻辑。可扩展 样式表语言( e x t e n s i b l es t y l e s h e e tb n g l 壕g e ,x s l ) 转换使文档互换和各种显示 特征的动态样式匹配更为方便。用户定义的函数使客户几乎可以标准化任何数据 类型的任何函数。另外,能够将w e b 服务当作内置函数进行访问,这意味着任 何w e b 服务可以变成嵌入式转换函数。 d b 2i n f o r m a t i o ni n t e g r a t o rf o rc o n t e n t d b 2i n f o r m a t i o ni n t e g r a t o rf o rc o n t e n t 的服务对象是需要在大量内容源中搜 索和访问文本及非文本信息的内容应用程序开发人员。通过提供对各种不同数据 环境的无缝访问,d b 2 i n f o r m a t i o n i n t e g r a t o r f o r c o n t e n t 相当于重新命名和重新定 位的e n t e r p r i s ei n f o r m a t i o np o r t a l 产品。d b 2i n f o r m a t i o ni n t e g r a t o rf o rc o n t e n t 提 供了一组丰富的集成功能,比如与各种不同内容源进行连接的连接器、复杂的信 息挖掘和高级工作流。可以访问d b 2c o n t e n tm a n a g e r 系列和其它内容资源库、 l o t u s 数据库、关系数据库以及m ml o t u se x t e n d e ds e a r c h 可以提供的大量内 容。 另外,d b 2i n f o r m a t i o ni n t e g r a t o rf o rc o n t e n t 包括了复杂的信息挖掘功能,该 功能使用w e b 搜寻和文本挖掘算法来为非结构化内容提供结构。挖掘算法的能 力包括识别文档所用语言、识别文档中诸如名称之类的特性、根据定义的分类法 第1 0 页 国防科技大学研究生院学位论文 对文档进行分类、根据类别对文档进行分组以及概述文档。通过构建有关企业范 围信息的额外知识,企业可以从现有的内容资产中获得额外的回报。 最后,d b 2i n f o r m a t i o ni n t e g r a t o rf o rc o n t e n t 提供了高级工作流应用程序,使 企业能够提高生产效率、缩短生产时间并增强交流与合作。通过使用图形化的工 作流构建器,开发人员可以轻松地将合并查询结果的工作流过程定义到d b 2 i n f o r m a t i o ni n t e g r a t o rf o rc o n t e n t 中,以便在整个企业中使用这些结果。 2 2 国内研究现状 随着网格技术及数据网格技术的发展,特别是数据库网格应用需求推动下, 我国政府、教育部门、企业、各个大学和研究机构也开始在数据库网格领域建立 和成立相关的研究计划和科研项目,并通过对数据库网格研究探索也开始逐步搭 建自己的数据库网格平台并取得了一定的成果。 国防科技大学并行与分布处理实验室从1 9 9 6 年开始研究网格技术,是国内网 格计算基础理论、关键技术、系统研制以及应用开发的优势单位之一,负责或参 与了国家有关网格的多项重点项目,包括国家8 6 3 计划重大项目国家高性能计算 环境、中国国家网格c n g r i d 的研究和实现工作、中国教育科研网格c h i n a g r i d , 9 7 3 项目语义网格应用和空间信息栅格研究项目等。经过多年的努力,课题组自 主设计和开发了g r i d d a e n 软件系统。c r r i d d a e n 是一个通用的数据网格中间件, 支持对广域分布的,异构的,海量存储资源( 包括文件系统、关系数据库系统) 的统一访问与管理,为用户提供高性能的联邦数据服务,为广域的数据密集型应 用和研究提供支撑平台。c n i d d a e n 系统有如下特色: ( 1 ) 支持分布异构海量存储资源的统一访问 支持对分布异构存储资源的统一访问是数据网格最基本也是最重要的功能, c r r i d d a e n 通过封装多种存储访问协议,实现了异构存储资源的统一访问。 ( 2 ) 支持虚拟数据集和全局统一命名空间 通过虚拟数据集和全局统一命名空问机制,为用户呈现统一的用户视图,屏 蔽资源的分布性,异构性。 ( 3 ) 支持多域联邦数据服务 g r i d d a e n 管理的存储资源按域进行组织和管理,g r i d d a e n d 的联邦数据服务 系统f d s s 通过支持多个域之间的协同向用户提供跨多个域的数据访问服务。 ( 4 ) 分布式元数据服务 分布式的元数据服务具有更好的性能,可扩展性和负载均衡性,避免了单点 失效,支持高效的信息检索查询,因而保证了高效地服务于g r i d i :) a e n 中f d s s 第l l 页 国防科技大学研究生院学位论文 对数据元数据的访问请求。 ( 5 ) 支持多种访问模式 g f i d d a e l l 通过支持多种访问模式,将广域分布的存储资源统一地纳入 o r i d d a e n 数据网格管理的范围,并实现对它们的统一访闯。 ( 6 ) 支持通告的数据服务和事件驱动的开发模式 g r i d d a e n 客户端为用户提供了组支持开发具体网格应用的周步,异步a p i , 支持通告和进行事件驱动的开发,它为开发人员开发灵活,友好,健壮的网格应 用提供了灵活、方便的编程接口。 ( 7 ) 基于g s i 的安全认证授权机制 g s i ( g r i ds e c u r i t yi n f r a s t r u c t u r e ) 是g l o b u s 项目开发的用于网格环境的安全 基础设施,它基于传统的p k i 安全体系,能为网格环境提供安全认证,通信加密, 授权与单点登录等安全功能。g r i d d a e n 的安全机制基于g s i ,保证了o r i d d a e n 提供安全的数据服务。 浙江大学的d a r t g r i d 刚数据库网格项目,它起初是针对我国传统中医药应用 建立一种数据库网格环境。目前基于d a r t c m d 建立的中医药应用网格集成了由十 多个分布于全国的中医药文献检索中心各自独立的开发的5 0 多个中医药数据库 资源,在充分保证各自数据库资源独立自治性、安全性和知识产权的前提下向用 户提供了一体化的集成查询,并支持复杂的语义查询定义,使用户能够从海量的 数据资源中更精确、更直观的查询结果。同时为建立中医药一体化语言系统并解 决系统集成中出现的语义问题,开始基于s e m a n t i c w c b 技术搭建中医药本体论, 到目前为止已经完成了1 0 0 0 0 多条中医药术语的编辑;并初步实现了一个面向中 医药的本体论浏览器。逐步将原有的分布式的多库平台转变为数据库网格平台, 提供动态的数据库注册、关联导航等功能,实现海量中医药数据的统一存储、管 理和共享访问。概括起来,d a r t g r i d 主要包含如下几个核心模块: ( 1 ) 语义浏览器客户端:该浏览器实现了图形化的本体浏览、可视化的语义 查询构造、交互式的关系模式与r d f o w l 本体的映射等功能。 ( 2 ) 本体服务:本体论服务提供共享本体的发布和查询服务。 ( 3 ) 语义查询服务:语义查询服务接受来自客户端的语义查询,并采用语义 视图定义进行语义查询重写。 ( 4 ) 查询分配服务:查询分配服务用于对语义查询服务生成的查询计划进行 实际的查询分配并搜索结果。 ( 5 ) 数据库网格服务:数据库网格服务在资源层提供各种接口以操纵数据库 资源,主要包括基本的数据库查询更新,插入删除等操作和数据库元数据的查询 等功能。 第1 2 页 国防科技大学研究生院学位论文 中国科学院科学数据库经过近2 0 年的发展,已经建成了上百个不同数据类 型、不同学科的专业子库,形成了一个大规模的、分布式的、异构的、自治的数 据库群。科学数据库系统平台软件以此为背景,其目标通过数据网格技术,w e b s e r v i c e s 技术、分布式数据库技术等构造松耦合的异构数据库系统平台,以实现 科学数据库中分布异构数据资源的有效共享和全面集成,建立完整的科学数据库 管理系统和应用开发环境。科学数据库系统平台软件是中科院“十五”信息化重 大项目重要组成部分,该系统平台软件主要由信息服务子系统、数据访问子系统、 安全体系三部分组成。其中,信息服务子系统主要用于为数据访问子系统提供目 录服务;数据访问子系统主要用于对外提供统一的数据访问接口,实现科学数据 库系统内数据资源的共享和集成;安全体系主要为系统的安全的数据访问提供保 证手段。 此外,人民大学王珊教授领导开发的g d b i r 也属于一种数据库网格环境, 其研究重点在数据搜索功能的建立上 2 3 小结 从上面的国内外研究现状来看,国外比国内在数据库网格方面的研究相对较 早,而且比较深入,尤其是美国和欧洲在这个领域处于领先地位。英国的e - s c i e n c e 核心项目o g s a - d a i 在这方面的的研究开展比较深入,它致力于成为d a i s 规范 的第一个参考实现。o g s a - d a i 在g l o b u s 所制定的开方式网格服务架构o g s a 基础上实现了数据库访问的网格服务化,它的研究成果已在世界范围引起了广泛 关注和深刻影响,已广泛应用到许多国内外著名的网格项目中。 a v a k ie l l 系统是一个完整的数据网格系统,它侧重于企业内和企业间的信息 集成和资源整合。支持通过数据服务实现各种异构数据源的统一访问,支持w e b s e r v i c e s 接口,支持多种不同的方式访问数据( 上层应用可根据需要以多种不同 的方式访问数据,如通过o d b c j d b c 、s o a p 等访问各种数据) ;支持通过联 邦的方法访问远程存储资源,同时还提供一套丰富灵活的数据c a c h e 机制用于提 高数据访问的性能。通过采用一套认证授权( 如对用户目录中的每一个数据项的 访问授权) 与访问控制机制来保证用户数据访问的安全性,提供基于s s l 的安全 数据传输a v a l de l i 系统强调数据的局部控制,全局共享。a v a k i 的一个重要特 色是数据的集成功能,即它能创建模块化的,可重用的数据集成方案,根据应用 的需求对数据进行转换,集成和聚合 d b 2 i i 依靠i b m 的强大人力物力资源,为企业应用提供了比较全面、功能十 分强大的信息集成方案d b 2i n f o r m a t i o ni n t e g r a t o r 能够联邦,搜索、高速缓存、 第1 3 页 国防科技大学研究生院学位论文 转换和复制数据。作为一种联邦数据服务器,它提供了对d b 2 通用数据库、m m i n f o r m i x 产品以及来自m i c r o s o f t 、o r a c l e 、s y b a s e 等等数据库的访问另外,它 还可以访问来自w e b s p h c r cm q 消息、x m l 文档、w e b 服务、m i c r o s o f t e x c e l 、 平面文件、o d b c 或o l ed b 源以及生命科学行业特有的各种格式的半结构化 数据。对m ml o t u se x t e n d e ds e a r c h 的集成支持使解决方案能够对各种广泛的内 容进行访问,使之能访问各种内容资源库( 包括d b 2c o n t e n tm a n a g e r ) 以及电 子邮件数据库、文档资源库、第三方因特网搜索引擎和l d a p 目录。d b 2i i 除了 提供丰富的集成功能外,还支持复杂的信息挖掘和高级工作流, g r i d d a e n - d a i 是国防科技大学研究和设计实现的一种数据库网格原型系统, 它整合了广域环境下异构海量的数据库资源,实现系统的全局命名、提供全局的 用户视图及统一的数据访问服务等,其主要特点如下: 使用分布、独立的多域服务器技术和服务器注册机制,可以灵活的部署 和配置。 夺采用了j a v a 及其组件技术、x m l 处理技术及w e bs e l w i c , e s 技术等,使得 信息的获取、传输、显示标准化,符合网格标准,从而具备了很强的跨 平台性和可移植性。 资源和服务按逻辑域部署,减少了数据访闯和管理的复杂性 支持多种格式的数据转换( 如将各种数据库数据转换为x m l h t m l 纯 文本格式的数据) ,方便了数据的显示和存储或缓存。 从以上相关工作的研究和分析中可以看出,目前国内外数据库网格项目的研 究成果或原型系统基本上都是在网格服务w c b 服务技术的基础上实现了数据库 资源的服务化访问,并都针对具体的网格应用具有各自的系统特色,但是,他们 仍然存在一定的问题。o g s a - d a i 虽然实现对各种关系数据库和x m l 数据库的 服务化访问,但没有为用户提供网格环境下的多数据库视图和一套数据库资源的 虚拟组织与管理机制,其本质只是一个数据库集成和访问的中间件;a v a k i 企业 信息集成软件主要解决了文件和各种关系数据的统一访问,但并不支持目前逐渐 兴起的x m l 数据库的存储、访问和管理。d b 2 虽然功能强大,支持许多种结 构、类型的数据,但是对x m l 数据库的共享访问问题也没有解决。基于目前的 数据库发展趋势,以及x m l 相关技术迅速发展的研究背景,研究网格环境下原 生x m l 数据库的共享访问是非常有必要和有价值的 第1 4 页 国防科技大学研究生院学位论文 第三章网格环境中的数据库访问与查询 网格环境中对x m l 数据库资源的共享访问与查询方式是本文重点研究的内 容之一。本章提出了网格环境下两种数据库共享访问方式:一是基于数据库连接 的数据库访问,二是基于数据库操作的数据库访问。x m ls c h e m a 作为一种x m l 模式,在描述x m l 结构、约束以及元素的名字、类型等信息方面具有其他模式 无法比拟的优势。本文在对x m l 模式进行解析的基础上进行数据的模糊查询, 即x s q u e r y 查询方式,该查询方式为x

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论