




已阅读5页,还剩59页未读, 继续免费阅读
(计算机软件与理论专业论文)面向电信计费的数据网格中目录服务的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
南京邮电大学硕士研究生学位论文 摘要 摘要 近年来,随着信息传播的全球化,数据容量呈爆炸式增长,海量数据分布在各种异构 的存储资源上,给用户的访问增加了难度。因此,如何在广域环境中管理具有异构性的海 量数据逐渐成为计算机界研究的热点问题。数据网格技术就是在这一背景下发展起来的, 它以数据管理为中心,面向底层屏蔽网络中各种异构的存储和数据资源,面向上层应用提 供通用和可靠的数据服务,为用户建立对分布式海量数据进行复杂分析、联合处理的基本 环境。 目前,各大电信运营商的计费系统建设均遵循两级架构的原则,即全国中心级和省中 心级。省中心计费系统由各省自主建设,通常由不同的软件厂家进行开发,采用的数据库 以及开发工具各不相同,数据库中的表结构、表名等差异也很大,不利于数据的共享。利 用数据网格技术可以屏蔽计费系统中数据库的分布性和异构性,实现数据的统一组织与共 享,从而较好的解决这一问题。 本文以数据网格的关键技术之一目录服务为核心,详细介绍了数据网格的理论基础及 其研究现状,并对目录服务技术进行了深入的剖析;通过分析国内外数据网格项目,并结 合对电信计费系统的研究,设计了电信计费元目录视图,利用元目录对资源描述信息进行 有效的组织;对组成元目录的元数据进行了分类和定义,并采用“集中管理 与“局部自 治相结合的方式设计了电信计费目录服务的结构,该结构可以很好的支持对分布式异构 数据库的管理。在此基础上,应用j n d i 实现了电信计费目录服务的资源视图定义、资源 信息管理、资源查询定位、用户管理、访问控制等功能。为用户提供了方便的、统一的、 高效的数据访问和管理接口。 关键词:网格;数据网格;元数据;目录服务 南京邮电大学硕士研究生学位论文 a b s t ra c t a b s t r a c t i nr e c e n ty e a r s ,w i t ht h eg l o b a l i z a t i o no fi n f o r m a t i o nd i s s e m i n a t i o n ,d a t ac a p a c i t yg r o w t h w a se x p l o s i v e i nt h a tc a s e ,t h e r ea r eh u g ea m o u n t so fd a t ad i s t r i b u t e do v e rd i f f e r e n ts t o r a g e r e s o u r c e s ,s oi ti sv e r yd i f f i c u l tf o rb s e r st oa c c e s st h e m t h e r e f o r ei ti st h eh o tr e s e a r c hi s s u ei n t h ed o m a i no fc o m p u t e rs c i e n c et od i s c u s sh o wt om a n a g et h ed i f f e r e n td a t a s e ti nt h ew i d ea r e a n l ec o n c e p td a t ag r i da p p e a r ss u b s e q u e n t l y m a n a g e m e n to fd a t a s e ti st h ec o r eo fi t n l ep i v o t a l t a s ko fd a t ag r i da i m sa tt h em a n a g e m e n to fav a r i e t yo fd a t ar e s o u r c e sd i s t r i b u t e do v e rt h e w i d e a r e ab a s e de n v i r o n m e n t , w h i c hc o m p o s eau n i f o r ma n dv i r t u a lc o m p u t i n gp l a t f o r mo f s h a r e dr e s o u r c e s a tp r e s e n t ,t h em a j o rt e l e c o mo p e r a t o r sb u i l dt h e i rb i l l i n gs y s t e mo nt w o - t i e ra r c h i t e c t u r e , n a m e l y , t h en a t i o n a lc e n t e rl e v e la n dp r o v i n c i a lc e n t e rl e v e l p r o v i n c i a lb i l l i n gs y s t e m sw e r e d e v e l o p e di n d e p e n d e n t l yb yd i f f e r e n ts o f t w a r em a n u f a c t u r e r s 、析md i f f e r e n td a t a b a s ep r o d u c t sa s w e l la sd i f f e r e n td e v e l o p m e n tt o o l s ,s ot h e t a b l es t r u c t u r ea n dt h et a b l en a m ei nd i f f e r e n t d a t a b a s e sa r ew i d e l yd i f f e r e n t i ti sn o tc o n d u c i v et ot h eu n i f i e dm a n a g e m e n to fd a t a b e n e f i t f r o mt h et e c h n o l o g yo fd a t ag r i d ,d i s t r i b u t i o na n dh e t e r o g e n e i t yb e t w e e nt h ed i f f e r e n td a t a b a s e s c a i lb ec o v e r e dt oa c h i e v et h eu n i f i c a t i o no fd a t ao r g a n i z a t i o na n dm a n a g e m e n t ,t h u sb e t t e r s o l v e st h ep r o b l e m m s p a p e rm a i n l ys t u d i e st h ed i r e c t o r ys e r v i c e ,w h i c hi so n eo ft h ei m p o r t a n tp a r t si nd a t a g r i d i ti n t r o d u c e st h et h e o r ya n dr e s e a r c ha c t u a l i t yo fd a t ag r i d ,e s p e c i a l l yi nd i r e c t o r ys e r v i c e b ya n a l y z i n gm a n yp r o j e c t sa b o u td a t ag r i da n ds t u d y i n gt h et e l e c o mb i l l i n gs y s t e m s ,t h ea u t h o r d e s i g n st h ev i e wo ft e l e c o mb i l l i n gm e t a d a t ac a t a l o ga n dt h e nu t i l i z e st h em e t a d a t ac a t a l o gt o o r g a n i z et h ei n f o r m a t i o no fd a t ar e s o u r c e se f f e c t i v e l y t h et e l e c o mb i l l i n gm e t a d a t aw a s c l a s s i f i e da n dd e f i n e d t h ea u t h o rd e s i g n st h es t r u c t u r eo ft h ed i r e c t o r ys e r v i c ew h i c hg i v e s c o n s i d e r a t i o nt ob o mc e n t r a l i z e dm a n a g e m e n ta n dp a r t i a lm a n a g e m e n t t h ed i r e c t o r ys e r v i c eh a s t h ef u n c t i o n ss u c ha sl o g i s t i cv i e wo fr e s o u r c e s ,m a n a g e m e n to fr e s o u r c ei n f o r m a t i o n , q u e r ya n d o r i e n t a t i o no fr e s o u r c e s ,u s e rm a n a g e m e n t ,s e c u r i t ym a n a g e m e n t ,a n de t c t h e s ef u n c t i o n sw h i c h r e a l i z e db yj n d ip r o v i d eu n i f o r ma c c e s si n t e r f a c ea n dm a n a g e m e n to ft h el a r g es c a l ed i s t r i b u t e d d a t a s e t k e yw o r d s :g r i d ;d a t ag r i d ;m e t a d a t a ;d i r e c t o r ys e r v i c e i i 南京邮电大学硕士研究生学位论文 缩略词 缩略词 d a p d i t g d m p g i i s g r i s 珊妓 心d i l d a _ p m c a t m d s o g s a o i d s r b v d c v d i 缩略词 英文全称 d i r e c t o r ya c c e s sp r o t o c o l d i r e c t o r yi n f o r m a t i o nt r e e g r i dd a t am i r r o r i n gp a c k a g e g r i di n d e xi n f o r m a t i o ns e r v i c e g r i dr e s o u r c ei n f o r m a t i o ns e r v i c e j a v al d a p a p i j a v an a m i n ga n dd i r e c t o r yi n t e r f a c e l i g h t w e i g h td i r e c t o r ya c c e s sp r o t o c o l m e t a d a t ac a t a l o g m e t a c o m p u t i n gd i r e c t o r ys e r v i c e o p e ng r i ds e r v i c e sa r c h i t e c t u r e o b j e c ti d e n t i t y s t o r a g er e s o u r c eb r o k e r v i r t u a ld a t ac a t a l o g v i r t u a ld a t al a n g u a g ei n t e r p r e t e r 5 5 译文 目录访问协议 目录信息树 网格数据镜像 网格索引信息服务 网格资源信息服务 j a v a 轻量级目录访问协议 应用程序接口 j a v a 命名和目录接口 轻量级目录访问协议 元数据目录服务 元计算目录服务 开放网格体系结构 对象标识符 存储资源代理 虚拟数据目录 虚拟数据语言解释器 南京邮电大学硕士研究生学位论文图表清单 图表清单 图4 1 目录服务的结构示意图2 0 图4 2 电信计费网格的元数据目录视图2 1 图5 1 条目、属性、值的关系2 6 图5 - 2 元数据设计与s c h e m a 设计2 8 图5 3o l d 的扩散模式2 8 图5 - 4l d a p 中自定义的对象类2 9 图5 5j n d i 的架构图3 3 图6 1 客户端界面4 2 图6 2 用户a 的查询条件4 4 图6 3 用户a 的查询结果4 7 图6 4 用户b 的查询条件4 9 图6 5 用户b 的查询结果5 1 表4 1 省中心元数据的数据结构2 3 表4 2 数据库元数据的数据结构2 3 表4 3 虚拟表元数据的数据结构2 3 表4 4 虚拟字段元数据的数据结构2 4 表4 5 映射规则元数据的数据结构2 4 表6 1 安徽账务系统和江苏账务系统中表名的差异4 1 表6 2 安徽账务系统和江苏账务系统中属性名和类型的差异4 2 表6 3 江苏账务系统的数据库元数据4 3 表6 4 江苏账务系统的虚拟表元数据4 3 表6 5 江苏账务系统固定电话详单的虚拟字段元数据4 3 表6 6 江苏账务系统映射规则元数据4 4 表6 7 安徽账务系统的数据库元数据4 7 表6 8 安徽账务系统的虚拟表元数据4 8 表6 9 安徽账务系统c d m a 语音详单的虚拟字段元数据4 8 表6 1 0 安徽账务系统映射规则元数据4 9 南京邮电大学学位论文原创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包 含其他人已经发表或撰写过的研究成果,也不包含为获得南京邮电大学或其它 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名:牛日期:- 盟灶 南京邮电大学学位论文使用授权声明 南京邮电大学、中国科学技术信息研究所、国家图书馆有权保留本人所送 交学位论文的复印件和电子文档,可以采用影印、缩印或其它复制手段保存论 文。本文电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文 外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。 论文的公布( 包括刊登) 授权南京邮电大学研究生部办理。 研究生签名:尊i 戋 导师签名:差垒日期:! ! :士 南京邮电大学硕士研究生学位论文 第一章引言 1 1 课题研究背景 第一章引言 2 0 世纪9 0 代开始,互联网技术在全世界范围内迅速发展起来,成为了人们进行沟通 和协作的主要工具。互联网中各种数据资源、软件资源、计算资源、各种数字化设备和控 制系统共同构成了生产、传播和使用知识的重要载体。在这种情况下,各种相关的科学应 用,特别是数据密集型和计算密集型的应用对广域环境下的海量数字信息分析处理和协同 合作能力的要求越来越高。人们开始思考如何将高性能的分析处理能力、海量的数据集合 以及众多的可用资源汇聚起来,为地理上分布的用户提供服务,这就是网格计算技术的实 质。 按照强调的功能不同,网格可以分为计算网格、数据网格、存储网格、信息网格、知 识网格、语义网格等。数据网格主要针对数据密集型计算,以数据管理为中心,面向底层 屏蔽网络中各种异构的存储和数据资源,面向上层应用提供通用和可靠的数据服务,为用 户建立对分布式海量数据进行复杂分析、联合处理的基本环境。其最终目标就是建立异构 分布环境下海量数据的一体化存储、管理、访问、传输与服务的架构和环境,可以很好地 解决海量数据难于组织、难于处理的问题。 目前,各大电信运营商的计费系统建设均遵循两级架构的原则,即全国中心级和省中 心级。省中心计费系统由各省自主建设,通常由不同的软件厂家进行开发,采用的数据库 以及开发工具各不相同,数据库中的表结构、表名等差异也很大,试图将现有的数据库系 统进行改进而将所有数据以一种统一的格式存储是很困难的。以往的分布式数据库技术虽 然为用户和应用提供了数据分布上的透明性,能够支持跨越多个主机的查询和更新能力, 但是数据的分布需要预先配置,数据需要具有相同的结构,不支持异构数据的集成,不适 合动态的网络环境。 为了解决电信计费中异构数据库的集成和整合问题,我们需要开发一个能够满足大容 量分布存储、分布处理能力、特别是异构性要求的平台。数据网格技术作为新一代的分布 式计算方法,通过对资源进行大规模共享,可以满足应用对计算资源、数据资源等进行协 同工作的要求,且其特点很好的满足了电信计费系统的需求,为解决上述问题提供了有利 条件。 数据网格的目标并非建立一个全新的数据库系统,而是在网格技术的基础上对现有的 l 南京邮电大学硕士研究生学位论文第一章引言 数据库技术进行提升,满足不断增长的数据对高性能、大容量、分布式异构存储和处理能 力的要求,不论类型、位置、存储的数据内容,将网格中所有的数据库统一为一个虚拟的 数据库系统,对外为网格用户提供统一的访问接口,屏蔽数据库之间的异构性和分布性。 综上所述,数据网格技术能够满足电信计费系统对分布的信息源进行组织从而为用户 提供高效服务的要求,为系统平台的开发提供了良好的理论基础,因此研究和建立电信计 费网格平台具有重要意义和实用价值。 1 2 课题来源及论文的主要工作 本课题来源于南京市高技术项目“面向应用的网格中间件软件的研究与实现”,项目编 号为2 0 0 6 软资1 0 5 。 本文以数据网格的关键技术之一目录服务为核心,详细介绍了数据网格的理论基础及 其研究现状,并对目录服务技术进行了深入的剖析;通过分析国内外数据网格项目,并结 合对电信计费系统的研究,设计了电信计费元目录视图,利用元目录对资源描述信息进行 有效的组织;对组成元目录的元数据进行了分类和定义,并采用“集中管理 与“局部自 治 相结合的方式设计了电信计费目录服务的结构,该结构可以很好的支持对分布式异构 数据库的管理。在此基础上,应用j n d i 实现了电信计费目录服务的资源视图定义、资源 信息管理、资源查询定位、用户管理、访问控制等功能。为用户提供了方便的、统一的、 高效的数据访问和管理接口。 1 3 论文的组织 本文共分七章。各章的内容组织如下: 第一章引言:主要介绍课题研究背景、课题来源、论文的主要工作和组织结构。 第二章数据网格及其关键技术:介绍了网格的分类和数据网格的概念,在此基础上对 数据网格的软件框架及其关键技术进行了分析。并着重介绍了关键技术中的目录服务和数 据访问技术。 第三章数据网格中的目录服务:介绍了元数据的定义与分类,然后介绍了目录服务的 作用和研究现状,最后具体分析了目录服务在电信计费网格中的应用,并由此引出本文研 究的课题。 第四章电信计费目录服务与元数据的设计:分析了电信计费网格中目录服务的总体 需求和特点,然后对电信计费网格中目录服务进行了功能划分和结构设计,按照资源的特 2 南京邮电大学硕士研究生学位论文第一章引言 征及目录服务所提供的功能,设计了符合电信计费需要的元目录。提出了元目录视图的设 计,对组成元目录的元数据进行了分类和定义。 第五章电信计费网格目录服务的实现:介绍了l d a p ,采用l d a p 作为元目录的实现 标准,对计费元目录s c h e m a 进行了设计和实现。然后在此基础上建立了电信计费元目录, 实现元目录的复制功能。最后基于j n d i 实现了电信计费目录服务的主要功能。 第六章验证与分析:对电信计费网格目录服务进行了实例验证与分析。介绍了目录服 务的验证环境,然后给出若干查询实例,分析了系统对查询实例的处理过程,最后运行得 到了正确的查询结果。 第七章总结与展望:对本文工作进行总结,指出需要进一步研究的内容。 3 南京邮电大学硕士研究生学位论文第二章数据网格及其关键技术 第二章数据网格及其关键技术 2 1 网格技术简介 人们一直期望有这样一个分布式的计算环境,它能够在接到任何计算任务时,根据分 布在不同地理位置的计算资源的可用性、处理能力、性能以及使用成本,实时动态地对它 们进行选择、聚合和共享,从而整合形成强大的计算力,快速响应任务请求。而对于任务 提交者来说,不需要知道实际使用了哪些资源,它们在什么地方或者它们应该如何访问。 这样的环境就好像一台虚拟的超级计算机,它的处理能力是众多计算资源的处理能力的总 和甚至是乘积,同时它还具有高度的可扩展性,能够随时发现并接纳新的资源,使之成为 自己机体的一部分,从而进一步扩展自己的处理能力。随着近年来高性能网络和计算机软 硬件技术的发展,这个想法越来越接近现实,它就是人们目前在分布式计算领域日益关注 的一个重要课题,即网格计算。 网格计算被称为继万维网之后的下一代分布式计算技术【l l 。i a nf o s t e r 对网格做了如下 描述:“网格是构建在互联网上的一组新兴技术,它将高速互联网、高性能计算机、大型 数据库、传感器、远程设备等融为一体,为科技人员和普通人们提供更多的资源、功能和 交互性。如果说互联网主要是为人们提供电子邮件、网页浏览等通信功能,而网格功能则 更多更强,它使得人们能够透明地使用计算、存储等各种资源 2 1 。人们对网格计算的研 究最早集中在如何整合资源来处理复杂的科学计算和海量数据的存储与访问上。后来随着 人们逐渐认识到作为信息基础设施的网格将在人类社会经济活动中起到的重要的变革作 用,基于互联网的跨领域、跨组织的计算资源、存储资源、应用资源、知识资源等的全面 共享与协同开始成为关注的重点。 网格计算是在动态变化的许多虚拟组织之间共享资源并且协同解决问题。虚拟组织是 由遵守资源共享规则的一组个体、机构组成【3 1 。虚拟组织的典型例子有:应用服务提供商、 企业及企业所采用的应用所构成的系统等。虚拟组织的动态性是指组织结构、对外交互、 管理模式及业务模式等是随时间变化的;虚拟组织的异构性是指个组织在目标、结构、规 模、管理、运行模式等方面是不同的。协同性包括资源共享的协同性和问题解决的协同性。 资源共享的协同性以资源互联为基础,既包括资源使用时不同用户因时间、空间、权限等 差异引起的协商,也包括资源的组合。问题解决的协同性是指虚拟组织之间通过协作共同 解决某一问题,以满足用户的新需求。 4 南京邮电大学硕士研究生学位论文第二章数据网格及其关键技术 根据上面网格的定义可以得出网格计算必须满足的三个条件【4 j : ( 1 ) 在非集中控制的环境中协同使用资源; ( 2 ) 使用标准的、开放的和通用的协议和接口; ( 3 ) 提供非平凡的服务,即能够保证大吞吐量、服务透明和高可靠性。 上述网格定义非常严格,是一种相对狭义的网格定义。而实际上人们普遍认同一种广 义的网格概念,也称为巨大全球网格g g g ( g r e a tg l o b a lg r i d ) ,它不仅包括计算网格、数据 网格、信息网格、知识网格、商业网格,还包括一些已有的网络计算模式,例如对等计算 p 2 p 、效用计算( u t i l i t yc o m p u t i n g ) 等【5 1 。 人们对于网格计算到底应该包括哪些方面的内容和技术的认识还处在不断发展和演进 的过程之中。不管是狭义还是广义的网格,其本质的目的都是要利用互联网把分散在不同 位置的计算资源、存储资源、网络资源、数据资源、应用资源、服务资源、信息资源、知 识资源、专家资源等等全面整合起来,为用户提供一个统一标准的入口,使得它能够随时 随地根据需要从网格获得资源或服务。可以说,传统互联网实现了计算机硬件的联通,w e b 实现了网页的连通,而网格则试图实现互联网上所有资源的全面连通。 2 2 网格的分类 按照强调的功能不同,可以将网格划分为计算网格、数据网格、存储网格、信息网格、 知识网格、语义网格等【6 1 。 数据网格:强调数据存储、管理、传输、处理的网格; 计算网格:强调计算力获取、管理等的网格: 信息网格:强调信息存储、管理、传输、处理的网格; 存储网格:强调数据存储的网格; 知识网格:强调知识存储、管理、传输、处理的网格; 语义网格:强调语义解析的网格,实现语义互操作。 当今对网格技术的研究主要集中在数据网格、计算网格与信息网格三大领域之中【7 1 。 数据网格的目标是建立异构分布环境下海量数据的一体化存储、管理、访问、传输与服务 的架构和环境,可以很好地解决海量数据难于组织、难于处理的问题;信息网格基于计算 网格的基础构件,主要研制一体化的智能信息处理平台,消除信息孤岛,方便用户发布、 处理和获取信息,提供了应用软件和信息资源的共享存取;计算网格聚合了网络中分布的 计算机、工作站、机群、群集、数据库、高级仪器和存储设备等,形成对用户相对透明的、 5 南京邮电大学硕士研究生学位论文第二章数据网格及其关键技术 虚拟的高性能计算环境,目标是解决大规模的科学计算问题。 2 3 数据网格的产生背景 近年来,随着经济、贸易、信息传播的全球化,数据集容量呈爆炸式增长。一些大型 科学研究、信息服务和数字多媒体技术等研究领域和应用领域中,数据集己经相当庞大并 在继续增长。例如在全球气候模拟、海洋环流模拟、高能物理、核爆炸模拟、生物工程、 国防信息建设、数字地球等应用中,它们的数据量将达到t e r a b y t e ( 1 0 0 0 g b ) 至p e t a b y t e ( 1 0 0 0 t b ) 的级别【8 】。因此,数据密集型计算的飞速发展对信息处理能力的要求越来越高, 人们迫切需要缩短从广阔的资源中获取数据、从原始数据提取高层信息并进一步完成高层 信息处理的时间,这就需要扩充网格的数据管理能力,建立有效的数据管理体系结构,为 科学应用在网格中实施资源发现和信息发现、并进行高效的数据访问提供有力的支持。 在这种情况下,数据网格的研究工作在网格研究的基础之上逐步开展起来,数据网格 技术以数据管理为中心,面向底层屏蔽网络中各种异构的存储和数据资源,面向上层应用 提供通用和可靠的数据服务,为用户建立对分布式海量数据进行复杂分析、联合处理的基 本环境 9 1 。 各国网格研究机构结合具体的应用领域推出了一系列重要的研究计划,欧洲原子核研 究中6 , ( c e r n ) t 在开展面向高能物理学、地球观测、生物信息学的数据网格技术研究工作, 推出了国际网格计划,研究的主要内容包括:数据访问、数据副本管理、元数据管理、数 据安全、查询优化等【l o 】。美国的a r g o n n e 国家实验室和南加州大学在研制开发网格系统工 具g l o b u s 的基础上,积极探讨数据网格的系统框架和关键技术,重点研究数据存储、元数 据管理和数据副本管理等方面【l 。 2 4 数据网格的软件框架 数据网格通过一组服务来支持资源和信息发现,其软件框架包括目录服务、数据访问、 复制管理、安全控制、资源调度等几个部分。 2 4 1 设计目标 数据网格的作用是为异构分布环境下的海量数据构建一体化的存储、管理、访问、传 输与服务机制,它的设计目标包括以下几点【1 3 】: 6 南京邮电大学硕士研究生学位论文第二苹数据网格及其关键技术 ( 1 ) 命名的透明性 用户需要在网格的海量数据中找到满足条件的结果,因此数据网格应该支持基于属性 的查找,使用户可以通过属性查找到相应的数据集合。 ( 2 ) 定位的透明性 网格中的数据集合具有分布性,当用户只是对需要访问的资源进行了一定的逻辑描述 时,数据网格提供的服务应该负责在这种分布式环境中定位所需要的数据集。 ( 3 ) 协议的透明性 数据网格的底层信息源具有异构性,因此,数据网格中必须抽象各种数据存储系统, 形成一个抽象模型,为不同的数据存储系统提供统一的数据访问接口,从而屏蔽这种异构 性,方便用户的使用。 2 4 2 软件框架的组成 数据网格的软件框架由以下五个部分组成: ( 1 ) 目录服务 数据网格中的各种资源是异构的、分布的,能够良好地表示、存储、访问和使用大量 资源信息是数据网格运行的基本前提。在数据网格中,资源是分布的,资源及其提供者也 是分布的,这些资源包括数据、计算机、设备、网络、软件、服务、人员等。目录服务用 于对数据网格中的各种资源进行命名、描述、收集、组织和管理。它实现新资源实体的注 册和发布,实体的定位,支持资源相关性的发布,可以注册与已注册实体间的相互约束和 相互联系信息等【1 4 1 。 ( 2 ) 数据访问 数据网格中的数据资源各种各样,表示、存储的形式也各不相同。如果为每一种数据 存储方式提供一种访问方法,用户是不可能接受的。因此,数据网格必须抽象各种数据存 储系统,形成一个抽象模型,为不同的数据存储系统提供统一的数据访问接口。数据访问 服务的作用就是将存储、检索数据集等高层用户的请求映射为异构分布式存储环境中的底 层存储访问操作,实现广域范围内对数据有效的统一访问和管理【1 5 1 。 ( 3 ) 复制管理 数据网格的数据经常需要复制,复制本质上是对数据的缓存。虽然网络速度提高很快, 但要达到高性能地频繁访问和处理大量远程数据仍然很困难。复制技术为用户应用提供一 个能够快速访问和处理远程数据的局部缓冲数据拷贝,避免大量数据远程传输到应用端。 7 雨京邮电大学硕士研究生学位论文第二章数据网格及其关键技术 复制管理应具有以下一些功斛1 6 】: 创建一个完整的或部分的数据集拷贝; 提供选择数据复制策略、复制方式和复制地点的能力; 在复制目录中注册新的数据拷贝; 允许用户和应用查询复制目录,以便找到某个文件或数据集已存在的数据拷贝; 根据用户和应用的执行要求,以及存储、网络的性能预测,有方法和能力选择“最 好”的数据副本进行访问和处理; 数据复制之间的数据一致性和更新一直是分布式数据管理的难点,它与应用数据 访问、产生、操作特性紧密相关。 ( 4 ) 安全控制 在广域网络上部署计算,安全保证是至关重要的。网格安全机制将提供基本的安全保 护验证机制,以验证合法的用户和资源,并为其他安全服务提供接口,允许用户选择不同 的安全策略、安全级别和加密方法,提供底层基础的安全设施 明。 ( 5 ) 资源调度 在网格计算中,资源的调度优化和服务执行是一个关键技术问题,它主要包括请求的 调度优化、资源的调度优化和资源的服务执行。请求的调度优化要对用户资源请求与可用 资源进行匹配,当众多用户和应用请求同时到达,就必须统筹优化安排多个请求的资源需 求。远程执行服务机制保证多个地点的系统能够远程启动执行,能够监控、收集和查询状 态信息,控制地理上分布的多个系统的任务执行过程【1 8 】。 2 5 数据网格的关键技术 数据网格为用户提供一体化的信息服务环境,在计算网格的基础上扩充了数据管理功 能。数据网格的关键技术是目录服务和数据访洲1 9 1 。 2 5 1 目录服务 为了实现命名的透明性,网格需要有效管理数量繁多的名字和属性,以及它们之间的 关系;为了实现定位的透明性,网格需要有效管理数据集的定位信息;为了实现协议的透 明性,网格需要有效管理数据资源的有关信息。这就是数据网格中目录服务需要完成的功 能【2 0 】。 目录服务通过元数据目录对网格中的资源进行有效的组织和管理,为数据访问、用户 r 南京邮电大学硕士研究生学位论文第二章数据网格及其关键技术 身份认证、数据定位、访问控制、复制管理等其他服务提供支持。本文的研究重点为目录 服务技术,将在下一章对其进行详细的介绍和分析。 2 5 2 数据访问 有效地获得所需的信息是进行数据访问和处理的前提条件。网格中的数据位于广域范 围内分布的异构存储系统中,一些数据存储在数据库或数据仓库中;另一些存储在如同 h p s s 的a r c h i v e 档案系统中;还有一些数据是由多个分布存储系统中的数据组成的【2 l 】。网 格系统应该为用户提供统一的数据访问接口与快速的信息发布与发现机制,使用户可以统 一、透明、高效地访问和操纵网格环境中各种分布、异构的数据资源,快速地将科学数据 资源进行共享、转化和操作 2 2 1 。 因此,数据访问作为数据网格中数据管理的核心,应该从各种数据存储系统中抽象出 共同的存储系统抽象模型并定义相应功能,为高层应用访问分布的异构存储资源和数据提 供统一的接口和a p i 规范,在应用层和资源层之间增加统一访问信息的分布式数据组件模 块以屏蔽数据存储的异构性,供系统开发员和用户使用。 数据访问与目录服务相结合,可以更好的屏蔽底层数据源的异构性,为用户提供统一 的数据访问接口,保证了协议透明性的实现【2 3 1 。在使用中,用户可以利用数据访问服务提 供的统一接口提出数据访问请求,数据访问服务通过调用目录服务获得相关资源的描述信 息,并根据这些信息对访问请求进行协议转换,将其映射为异构分布式存储环境中的底层 存储访问操作,并将转换后的数据访问请求发向不同的存储系统、数据库、文件系统或档 案库等,从而实现对异构存储资源的统一访问【2 4 j 。 2 6 本章小结 本章是数据网格及其关键技术的综述。介绍了网格的分类和数据网格的概念,在此基 础上对数据网格的软件框架及其关键技术进行了分析。并着重介绍了关键技术中的目录服 务和数据访问技术。 按照强调的功能不同,可以将网格划分为计算网格、数据网格、存储网格、信息网格、 知识网格、语义网格等。数据网格强调数据存储、管理、传输、处理,最终目标就是建立 异构分布式环境下海量数据的一体化存储、管理、访问、传输与服务的架构和环境。数据 网格的软件框架通常由目录服务、数据访问、复制管理、安全控制、资源调度几个部分组 成。数据网格的关键技术是目录服务和数据访问。目录服务通过元数据目录对网格中的资 o 童室坚皇奎兰堕主堑窒生兰垡丝奎笙三兰鍪塑塑塑垄茎茎墼垫查 源进行有效的组织和管理,为数据访问、用户身份认证、数据定位、访问控制、复制管理 等其他服务提供支持。数据访问作为数据网格中数据管理的核心,从各种数据存储系统中 抽象出共同的存储系统抽象模型并定义相应功能,为高层应用访问分布的异构存储资源和 数据提供统一的接口和a p i 规范,在应用层和资源层之间增加统一访问信息的分布式数据 组件模块以屏蔽数据存储的异构性,供系统开发员和用户使用。 1 0 南京邮电大学硕士研究生学位论文第三章数据网格中的目录服务 3 1 元数据概述 第三章数据网格中的目录服务 3 1 1 元数据的定义 随着计算机技术的发展,特别是网络通信技术的发展,空间数据共享日益普遍。管理 和访问大型数据集的复杂性正成为数据生产者和用户最关心的问题。数据生产者需要有效 的数据管理和维护办法;用户需要找到更快、更全面和更有效的方法,以便发现、访问、 获取和使用所需要的数据。在这种情况下,对空间数据的内容、质量、状况进行描述就显 得尤为重要。元数据的概念也就应运而生。元数据最本质、最抽象的定义为“关于数据的 数据 ( d a t aa b o u td a t a ) 2 5 1 。 元数据被定义为提供关于信息资源或数据的一种结构化的数据,是对信息资源的结构 化的描述。其作用为描述信息资源或数据本身的特征和属性,规定数字化信息的组织,具 有定位、发现、证明、评估、选择等功能【2 6 1 。 数据网格中的元数据用于对海量数据进行描述,说明网格中信息源的内容、质量、条 件和其他有关特征的信息,存储形式为格式化的文本或数据库表【2 7 1 。用户在使用中可以通 过查询元数据获得数据集的内容、格式、用途和用法的信息,因此可以做到用较少的元数 据管理海量的实际数据。 3 1 2 元数据的分类 数据网格中,元数据用于对数据资源进行描述。根据描述对象的不同,元数据可以分 为以下几类【2 8 】: 系统元数据( s y s t e mm e t a d a t a ) :系统元数据主要是记录数据网格自身的结构信息,诸 如网络互联情况、存储系统的容量、计算机空闲情况和使用策略等,同时还包括与用户、 安全、授权访问等相关的各种信息。 副本元数据( r e p l i c am e t a d a t a ) :副本元数据主要是关于数据副本的信息,比如文件与 具体存储系统之间的映射信息。 应用元数据( a p p l i c a t i o nm e t a d a t a ) :应用元数据主要是关于与具体应用相关的文件的逻 辑结构或语义的信息,比如数据的内容和结构、获取数据的必要条件等。 1 l 南京邮电大学硕士研究生学位论文第三章数据网格中的目录服务 在实际的应用中,开发人员可以根据需要对每类元数据进行扩展,定义符合系统需要 的元数据类型。 3 2 目录服务 3 2 1 目录服务的作用 网格中的所有元数据构成元数据目录,它是一个存储着用于访问、管理或配置网格资 源信息的特殊数据库【2 9 1 。随着应用的不断发展,网格也在不断发展,元数据在不断增多, 其结构也日趋复杂,为了保证在网格规模不断扩大的情况下对其中的资源进行有效描述, 元数据目录应该采用具有良好可扩展性的层次式结构,把网格环境中的各种资源都作为目 录信息,在元数据目录中分层存储,为数据网格的各种服务提供统一的资源视图【3 0 1 。 目录服务负责对元数据目录进行管理和维护,它是系统的信息中心,在元数据目录的 基础上对网格中所有资源信息进行收集、组织和更新,并提供信息的发布和查看 3 1 1 。数据 网格软件的其他服务通过调用目录服务获得相关资源的描述信息即元数据。一个由目录服 务支持的网格系统是一个集成的、网络化的、统一的系统,而不是各个独立功能部分的简 单聚合。 目录服务设计的关键内容包括,定义元数据信息,包括存储资源、文件、用户等信息; 基于用户的资源分配方案,系统提供基于用户的资源存储视图,实现逻辑文件名与物理文 件位置的分离及映射功能;元数据信息与其他相关应用的兼容性;元数据信息的检索;元 数据服务器的扩展;元数据服务器性能的优化等【3 2 1 。 在数据网格环境中,目录服务应该具有的功能包括:可访问网格中数据集的相关信息; 可针对异构和分布式环境对数据集进行访问并保证访问的透明性,提供统一和有效的存取 信息的实现接口;可对网格中的资源信息进行注册、更新等管理操作等等。 分布性是网格的一个主要特点,网格的分布性是指网格的资源是分布的,组成网格的 计算能力不同的计算机、各种类型的数据库、以及其它的各种设备与资源分布在地理位置 互不相同的多个地方,而不是集中在一起。 网格中的资源虽然是分布的,但它们却是可以充分共享的,即网格上的任何资源都可 以提供给网格上的任何使用者。共享是网格的目的,没有共享便没有网格,解决分布资源 的共享问题是网格的核心内容。 综上所述,分布是网格硬件在物理上的特征,共享是在网格软件支持下实现的逻辑上 1 2 南京邮电大学硕士研究生学位论文第三章数据网格中的目录服务 的特征,这两者对于网格来说都非常重要。目录服务就是为了在分布式的网格环境中满足 共享的需要,达到对资源的有效管理和利用。 3 2 2 目录服务的研究现状 随着数据网格技术的不断发展,作为其重要组成部分的目录服务技术也得到了学术界 更为广泛的关注。目前许多科研机构已经对目录服务展开了研究: ( 1 ) 元计算目录服务m d s m d s ( m e t a c o m p u t i n gd i r e c t o r ys e r v i c e ) 是g l o b u st o o l k i t 的一个重要组成部分。g l o b u s 是基于广域网的并行与分布式计算环境中比较有代表性的计划,其最终目的是为了将各种 高性能的应用移植到广域、异构的环境中,开发符合各种协议标准和服务的工具集【3 3 1 。 m d s 是资源信息的存储和管理者,它的管理范围包括了链接在网格系统上的各种计算 性物理设备、网络、应用软件、文档以及系统用户和管理员等资源。m d s 由网格资源信息 服务( g r i dr e s o u r c ei n f o r m a t i o ns e r v i c e ,g r i s ) 和网格索引信息服务( g r i di n d e xi n f o r m a t i o n s e r v i c e ,g i i s ) 共同实现【3 4 1 。对于每一个资源实体,它都在资源信息数据库中分别存储了自 己的特定信息值。为了对这些完全不同的资源信息进行有效的存储和管理,m d s 将信息按 照树型结构进行组织和存储,并且提供对于这些资源信息的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025湖南长沙市宁乡市中医医院招聘编外聘用人员20人考前自测高频考点模拟试题及答案详解(典优)
- 2025年上海市水产研究所(上海市水产技术推广站)第二轮公开招聘博士研究生考前自测高频考点模拟试题及答案详解(典优)
- 2025年福建省泉州市阳山铁矿有限责任公司招聘1人考前自测高频考点模拟试题有答案详解
- 2025贵州装备制造职业学院引进高层次人才(博士)、高技能人才模拟试卷及答案详解(名校卷)
- 浙江国企招聘2025湖州长兴交投集团及下属子公司公开招聘工作人员8人笔试历年参考题库附带答案详解
- 2025内蒙古呼和浩特市金东学校招聘模拟试卷及参考答案详解一套
- 四川蒙顶山理真茶业有限公司公开招聘7名任务制员工笔试历年参考题库附带答案详解
- 2025陕西建工第四建设集团有限公司招聘122人笔试历年参考题库附带答案详解
- 2025长江河湖建设有限公司招聘18人(湖北武汉市)笔试历年参考题库附带答案详解
- 2025贵州黔凯城镇建设投资(集团)有限责任公司招聘工作人员缴费成功人数与招聘岗位人数达不到31比例岗位(截止9月18日1700)笔试历年参考题库附带答案详解
- 2025国际留学合作协议书范本(合同文本)
- 班主任考试题库及答案
- 纺织面料设计师岗位操作技能考核试卷及答案
- 2025年中国中煤能源集团有限公司人员招聘笔试备考题库附答案详解(完整版)
- 酸碱防护知识培训课件
- 第十三章 三角形 单元试卷(含答案) 2025-2026学年人教版数学八年级上册
- 基于等保20网络安全制度的企业网的规划与设计
- 【课件】选择健康的生活方式+课件-2025-2026学年人教版2024八年级上册生物
- 中国水库管理办法
- JJF 2257-2025大气挥发性有机物在线监测仪校准规范
- 黑龙江介绍课件
评论
0/150
提交评论