




已阅读5页,还剩53页未读, 继续免费阅读
(计算机应用技术专业论文)应用网格数据集成中间件技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 论文题目: 专业: 硕士生: 指导教师: 应用网格数据集成中间件技术研究 计算机应用技术 李润洲 方明 摘要 本文以校园网中结构化信息资源作为主要研究对象,研究特定应用网格环境中,结 构化信息数据的集成访问问题,以构建于网格基础设施之上的数据集成中间件来连接底 层分布的数据库信息源和高层一致的访问接口,向应用提供信息数据的集成访问能力。 论文首先在分析了校园网用户对信息数据集成访问需求的基础上,提出一个应用网 格数据集成中间件模型g i a c ( g r i di n f o r m a t i o n a c c e s sc o m p o n e n t ) 。该模型作为网 格数据管理服务的一个扩展服务包来构建,能够在分布式资源的协调使用等方面获得网 格基础设施的有力支持。 其次,论文对信息数据集成访问过程中起关键作用的元数据模式进行了深入地研究, 设计了基于数据内容抽象的元数据模式。该模式能有效地屏蔽不同数据库在产品、结构 等方面的差异,结合网格基础设施的支持,突破了传统多数据库集成基于特定开发商解 决方案的限制,最终达到多个异构数据库的透明集成访问目标。 第三,采用多代理技术设计了g i a c 的核心部件。软件代理技术一方面有助于模块化 组织设计中间件,另一方面又能够适应用户请求与资源两方的变化性,提供协同问题求 解。而面向具体应用领域的构思,在简化了设计难度的同时,提供了不同领域中,按照 相同的组织结构方式开发各自的组件,访问领域内已有的数据库,然后并入网格以获得 全局信息集成访问的思路。 最后,经实验系统测试,验证了这种设计方法的可行性。 关键词:网格,数据集成,元数据,中间件,代理 论文类型:应用研究 蔓茎塑翌 s u b j e c t : s p e c i a l i t y : n a m e : i n s t r u c t o r a s t u d yo nd a t ai n t e g r a t i o nm i d d l e w a r e i na p p l i c a t i o ng r i d c o m p u t e ra p p l i c a t i o n l i r u n z h o u i 胁虮 n n g 嘶n g 血特 a b s t r a c t b yt a k i n gt h ec a m p u s w i d es t r u c t u r e di n f o r m a t i o nr e s o u r c e sa st h em a j o rr e s e a r c ho b j e c t , t h es t r u c t u r e dd a t a si n t e g r a t i o na n da c c e s si nas p e c i a la p p l i c a t i o ng r i di ss t u d i e di at h i sp a p e r b yb u i l d i n gt h ed a t ai n t e g r a t i o nm i d d l e w a r eo n t h eg r i di n f r a s t r u c t u r et oc o n n e c tb o t t o m d i s t r i b u t e dd a t a b a s e sw i t ht o pc o n s i s t e n ta c c e s si n t e r f a c ea n dt op r o v i d ea na b i l i t yo f i n t e g r a t i n ga n da c c e s s i n gi n f o r m a t i o nd a t af o ra p p l i c a t i o n s f i r s t l y a n a p p l i c a t i o ng r i d d a t a i n t e g r a t i o n m i d d l e w a r em o d e l 一一g i a c ( g r i d i n f o r m a t i o na c c e s sc o m p o n e n t ) 。_ _ _ 。_ - i sp u tf o r w a r di nt h i sp a p e ro nt h ea n a l y s i so f d e m a n d s o fc a m p u s w i d eu s e r s i n t e g r a t i o na n da c c e s st o i n f o r m a t i o nd a t a t h em o d e lt h a ti s e s t a b l i s h e da sa ne x t e n d e ds e r v i c ep a c k a g ea b o v et h eg r i dd a t am a n a g e m e n ts e r v i c e ,c a nb e s u s t a i n e de f f e c t i v e l yb yg r i di n f r a s t r u c t u r eo nt h ea s p e c to fh a r m o n yd i s t r i b u t e dr e s o u r c e s s e c o n d l y ,t h ed e e pr e s e a r c hi n t ot h em e t a d a t as c h e m ai sm a d ea n dt h ed e s i g no ft h e m e t a d a t as c h e m ab ya b s t r a c t i n gd a t ac o n t e n ti sg i v e ni n t h i sp a p e r t h es c h e m ap l a y sak e y r o l ei nt h ec o u r s eo fd a t ai n t e g r a t i o na n da c c e s s t h es c h e m ac a ne f f e c t i v e l yw r a pt h ep r o d u c t a n ds t r u c t u r e sd i f f e r e n c e sb e t w e e nd a t a b a s e s ,a n dc a nb r e a kt h r o u g ht h er e s t r i c t i o nt h a t d e p e n d i n go nas p e c i a ld e v e l o p e ri nt r a d i t i o n a lm u l t id a t a b a s e si n t e g r a t i o no nt h ea i do fg r i d i n f r a s t r u c t u r e ;a n dc a ng a i nt r a n s p a r e n tm u l t ih e t e r o g e n e o u sd a t a b a s ei n t e g r a t i o na n da c c e s s s e n de v e n t u a l l y t h i r d l y , t h em u l t ia g e n tt e c h n i q u ei sa d o p t e dt od e s i g ng i a c sk e yc o m p o n e n t o nt h e o n eh a n d ,t h em i d d l e w a r ec a nb em o d u l a r i z e di no r g a n i z a t i o na n dd e s i g n ,o nt h eo t h e rh a n d , t h em i d d l e w a r ec a na d a p tt ot h ec h a n g eb o t hi nu s e r sr e q u e s ta n dr e s o u r c e sa n dc a np r o v i d e c o o r d i n a t e dq u e s t i o nr e s o l v eo nt h e a i do ft h ea g e n tt e c h n i q u e m e a n w h i l e ,t h es p e c i a l a p p l i c a t i o nd o m a i no r i e n t e dd e s i g nc a nl o w e rt h ed e s i g nd i f f i c u l t ya n dc a np r o v i d eaw a yt o d e v e l o pc o m p o n e n t st oa c c e s se x i s t i n gd a t a b a s e sr e s p e c t i v e l ya c c o r d i n gt ot h es a m es t r u c t u r e i nd i f f e r e n td o m a i na n dt h ew a yt og e tg l o b a li n f o r m a t i o ni n t e g r a t i o na n da c c e s sb ym e r g i n g t h ec o m p o n e n t si n t ot h eg r i d a tl a s t ,t h ef e a s i b i l i t yo f t h ed e s i g nm e t h o di sc o n f i r m e db yat e s ts y s t e m k e y w o r d s :g r i d ,d a t ai n t e g r a t i o n ,m e t a d a t a ,m i d d l e w a r e ,a g e n t t h e s i s :a p p l i c a t i o ns t u d y i i 学位论文创新性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他 人已经发表或撰写过的研究成果;也不包含为获得西安石油大学或其它教育机构的学位 或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做 了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 论文作者签名:苍i 向c 加、日期:训石、sf r 学位论文使用授权的说明 本人完全了解西安石油大学有关保留和使用学位论文的规定,即:研究生在校攻读 学位期间论文工作的知识产权单位属西安石油大学。学校享有以任何方法发表、复制、 公开阅览、借阅以及申请专利等权利。本人离校后发表或使用学位论文或与该论文直接 相关的学术论文或成果时,署名单位仍然为西安石油大学。 论文作者签名: 导师签名: 翻j 暨j l 短 日期:触石、,f 第一章绪论 第一章绪论 1 1 问题提出 1 网格产生 计算机和通信技术结合所产生的计算机网络,把人类有限的触觉延伸到了不受地域 限制的更广阔的范围,改变着人类的生活方式。但是,一方面,分布于国际互联网上的 很多计算机资源许多时间都处于空闲状态,平均利用率不到1 0 ;另一方面,又有不少 的应用问题却因没有足够的计算资源可供使用而无法求解。例如在一些科学研究和工程 设计领域,如全球天气预报、核爆炸模拟、飞行器在湍流中受力情况分析等应用,要求 每秒钟能进行1 0 1 21 0 1 8 次浮点运算的计算速度,这个速度己经大大超过了目前单个处理 器的最高峰值速度,也超过了目前结构的单个计算机所能提供的物理极限速度。迫于这 些计算密集型应用的需求,产生了把大量的处理器联合起来使用,达到单个处理器无法 达到的处理能力的设想,人们在这个方面努力的结果产生了并行计算技术、集群技术、 分布式计算技术等。但是这些技术都只能帮助人们使用一定范围,也就是一个管理域内 的计算资源,利用这些技术所能共享的资源有限,聚合的整体力量也不够强。 随着国际互联网和万维网技术的成熟和推广使用,人们产生了把国际互联网资源集 成起来使用的想法,希望能利用已有的国际互联网设施建立一种新型的基础设施,把世 界上的各种计算资源集成在一起,为世界范围的用户提供使用这些资源的良好接口,这 种新的基础设施就是网格。构建和使用网格的需求来自于科学、工程、企业、教育等各 个领域。计算科学家需要网格来访问远程计算机,帮助他们传送复杂的模拟计算结果; 实验或观测科学家需要网格将远程的仪器设备与高级可视化设备连接起来;跨国企业需 要网格将整个公司组合成为一个单一的协作团队;交叉多个学科的大规模自然环境问题 需要网格以允许研究人员能够在一种协同计算框架下支持工作;教育和培训领域需要网 格产生新型的协同教育模式。网格作为一种整体,提供给人们的能力不仅仅是网格所包 含的资源能力的简单叠加,经过整合,网格的整体能力将会大大增强,集成在一起的资 源可以提供无限的计算速度和存储空间,为以前由于资源所限不能求解的问题提供求解 的可能性,且可以求解更大规模的问题,也可以求解问题的更精确解。 2 网格特征 网格把电网作为比拟的对象开始建立和发展口j ,希望成熟的网格如同电网一样,不 管电器内部设施简单还是复杂,都可以自动使用电力资源,而不必考虑电网中的电力资 源来自于什么地方、采用什么原料发电、经过什么电路输送到用户的插座。网格把分布 在不同地理位置上、用通信媒介连接起来的各种资源连成一体,只要用户使用标准的接 口接入网格,就可以使用网格中的资源,获得网格的服务。由于开始阶段网格主要用来 进行大规模的复杂科学计算,因此也称为计算网格。但随着技术的发展,计算网格的功 西安石油大学硕士学位论文 能逐渐增强,其包含的含义和应用范围也远远超出了它n i j n 被提出的时候,计算能力仅 仅成为了它的一部分功能,计算网格的名字也逐渐被网格所代替。 网格是一种系统,它通过标准、开放的通用协议和接1 2 i 来协调分布式的资源以提供 最好的服务质量【3 。网格的本质特征是资源共享,与其他提供资源共享能力的系统相比, 网格具有以下一些特性1 3 j : a 、协调分布的资源。网格中的资源属于不同机构或不同管理域,网格集成和协调存 在于不同控制域内的资源和用户,并处理协调分布资源时的安全、政策、付费和成员资 格等问题。拥有集中控制主机的系统不能成为网格,因为控制主机拥有完整的系统状态 信息、用户信息,对独立组件有完全的控制能力。 b 、使用标准、开放的通用协议和接口。网格是建立在i n t e m e t 上的一个动态、分布、 异构的系统,通过多目标协议和统一的接口,来处理资源发现、资源访问、认证、授权 等问题。保持协议和接口的标准化及开放性使得网络上的各种资源,包括已经接入网格 的设备和未来将要接入的设备能够有机的集成起来,开放源码的产品和商业产品都可以 有效地互操作,实现资源共享。而网格的开放性也是有别于分布式系统的一个特点。 c 、交付好的服务质量。网格允许协调使用它的组成资源,以便提供各种服务质量, 如响应时间、吞吐量、可用性、安全性等,使用户能利用不同资源的特有功能。网格还 可能协调分配多个资源,为用户提供合理集成多个分布式资源之后的整体功能。那些不 能提供协商服务质量功能的系统不能成为网格,如w e b 。 3 在数据资源共享中的问题 随着网格研究和应用的深入,网格上的共享资源已不仅仅局限于计算资源,还包括 了存储资源、数据资源、传感器等。但不论是处于萌芽阶段或是实验阶段的网格技术, 还是现在正在迅速发展到各个应用领域中的网格技术,其数据管理一直是一个核心内容。 一方面,网格的运行与管理需要记录大量的数据信息,网格自身使用了许多结构化的数 据集;另一方面,许多网格应用对数据的存储、访问、分析的需求都相当大,科学、工 程、医学、企业决策支持等应用都需要访问、分析大量的分布异构的数据集。 但是对网格数据访问和管理的研究中,目前大部分面向数据的服务,主要工作集中 在面向文件形式的数据源上,其代表就是数据网格,主要是由于基于模拟的科学来推动 发展的。一方面,处于不同地理位置的科学家需要以一种统一协作的方式访问和处理分 散在大量结点的科学数据;另一方面,科学分析和处理任务要将实验设施产生的大规模 数据集分散到多个计算结点进行并行处理。这样的科学应用数据通常输出到文件,涉及 t b 或p b 规模级数据文件的产生、重建或高速传输。但是在众多的应用领域,尤其是商业 领域,与科学应用面对的问题域并不完全相同。随着办公自动化和网络技术在企业中的 普及,以及智能决策系统和各类专家系统的出现和应用,几乎所有企业都积累了相当规 模的数据信息,且几乎都存放在数据库中。但由于历史原因,许多企业分布于各网点数 据库的数据信息在操作平台、管理方式上各不相同,而这些数据信息已成为企业内各部 第章绪论 门之间共享的主要资源之一。企业引入网格技术,不仅要能实现计算设施、存储设施的 全面连通共享,而且要能实现数据信息的集成访问,更多情况下,要解决分散存储在各 个管理域下的数据库信息资源的集成访问问题。在网格数据访问和管理服务提供的基本 服务之上,需要扩展机制来连接已有的数据库,屏蔽数据库资源的分布、异构、自治特 性,实现信息资源的全面共享,减少重复投资、重复调查,打破长期形成的各种数据壁 垒,提高资源的使用效率,为企业决策提供有力支持。 1 2 网格研究与应用现状 1 2 1 国外研究与应用现状 1 9 9 7 年起,g l o b u s 工具集第二版( g t 2 ) 开发并获得广泛的使用,用来帮助规划、 构建、部署大型计算网格平台,开发平台上的大型应用程序,在世界范围内上千个网格 中得到应用,g l o b u st o o l k i t 工具集成为了网格事实上的标准,网格的影响逐渐扩大。国 外许多政府部门、研究机构、跨国公司和著名大学的许多科研人员都投身到网格计算系 统的研究中,已经开展了许多研究论坛、实验环境和研究项目。随着网格研究在学术界 的加速,信息产业界的大公司也相继公布了与网格目标一致的研究开发计划,加入到了 网格研究阵营中。惠普、i b m 、微软、s u n 等公司已取得共识,支持x m l 、s o a p 、u d d i 等万维网标准,从而更利于开发新一代的网格应用。产业界的加盟,促使g l o b u s 项目小 组推出了新一代的网格体系结构开放网格体系结构o g s a 4 , 5 】( o p e ng r i ds e r v i c e i n f m s t r u n c t u r e ,o g s a ) ,并推出了继g t 2 之后的g t 3 、g t 4 两个实现版本,在世界范 围内的多个网格项目中被作为开发和部署平台。网格开始从实验室走向应用领域,从共 享计算的公共基础设施开始走向提供信息服务和知识服务的工程、医学、商业等领域, 有大量的面向各种应用的应用网格项目已经或正在部署开发。 a 、在工程学中的应用。n e e s g r i d t 6 1 部署在g e o r g ee b r o w n 地震工程和模拟学网络 计划( n e t w o r kf o re a r t h q u a k ee n g i n e e r i n ga n ds i m u l a t i o n ,n e e s ) 中,用来建立一个信息 技术设备框架,用于集成测试设备、模拟、数据仓库和协作工具,来提高地震工程测试 设施中主要设备的利用率,增加地震工程学中对计算方法的使用,增加团体成员之间在 设计、研究方面的合作,加快新的地震工程方法的研究和开发,并推动新的地震工程方 法的发展。 在生物医学研究中的应用。通过生物医学信息科研网p j ( b i o m e d i c a li n f o r m a t i c s r e s e a r c hn e t w o r k ,b i r n ) 计划,美国国家卫生研究院率先将网格信息基础设施应用于 医学和患者护理领域。相关技术人员使用灵活的、大规模的网格模型设计了b i r n 的体 系结构框架,利用网格中间件技术的抽象层,将网络上的构成资源,如数据、计算能力、 仪器设备以及可视化工具,紧密构建在一起,建立起一种可扩展的基础设施,通过构造 相同的硬件框架为每个b i r n 站点提供了数据资源和网络接入点,基于w e b 的访问入口 西安石油大学硕士学位论文 能够协助科研人员从更大的范围和复杂性上对疾病进行研究。 b 、在商业领域中的应用。g l o b e x p l o r e r 公司在通过i n t e t n e t 提供卫星图片和航空照 片方面处于领先地位,它计划用网格设施来构建包括人口数据、街道网络、卫星和航摄 空中档案等复杂内容类型的供应链管理框架,而使这些内容最终成为g l o b e x p l o r e r 所提 供产品的一部分。b u t t e r f l y 网格的设计则用来满足网络视频游戏工业中从开发者到发行 商、运营商再到玩家的价值链需求。 c 、校园网格。休斯顿大学校园网格通过将大量不同的系统连接在一起以允许不同部 门的教师和员工利用其他可用的校园资源,并用于支持进行大气污染和数字仿真的科学 团队的协作,帮助地球物理学家从事地震处理及成像算法的研究、开发和评估工作。 网格技术的研究成果以及成功的应用示例导致了网格应用领域的日益广泛,还有许 许多多的行业已经或正在计划将网格技术引入自己的应用领域中。 1 2 2 国内研究与应用现状 为了不再落后于世界,我国也在加强网格方面的研究,已有许多项目取得了实质性 的成果。2 0 0 5 年1 1 月2 2 日,国家8 6 3 计划“超级计算网格节点建设”项目顺利通过验收, 标志着中国国家网格北方主节点建设完成了其“十五”期间的建设任务,所取得的重要阶 段性成就为国家网格在“十一五”的持续发展奠定了坚实的基础。中国国家网格于2 0 0 5 年 1 2 月2 1 日正式开通运行。这意味着通过网格技术的研发应用,中国己能有效整合全国 范围内大型计算机的计算资源,从而形成一个强大的计算平台,帮助科研单位和科技工 作者等实现计算资源共享、数据共享和协同工作。“织女星网格”( v e g ag r i d ) 口1 由中科 院计算所负责,计划以元数据、构件框架、网格公共信息协议和网格计算协议为主要突 破点对网格计算进行研究,已经在知识服务、信息服务等方面取得了一定的成果。 还有许多行业,已经发表了结合行业需求的网格体系有关的研究成果。文献 8 给出 了国家地质调查应用网格体系结构并提出了其关键技术,文献 9 给出了数字灌区网格的 小系统框架,文献【1 0 给出了简单交通信息网格的原型设计。除此之外,还有大量的文 献提出了对网格中某些技术难点的解决方案,网格技术的研究与应用在国内受到了各个 研究机构和企业界的足够重视。 1 3 网格数据集成中间件 1 3 1 网格数据集成需求 数字化信息是科学、工程、医学等众多学科的基础,它们为科学研究、医学诊断、 商业和政府决策提供有力的支持。随着网络连接的普遍存在和现代科技中问题规模的扩 大,引发了科学和工业领域数据访问和分析所需的多种类型数据的集成需求。 l 、科学应用中的数据集成需求 在科学应用领域,某一项科学研究的研究团体通常分布在世界各地,不同的团体各 第一章绪论 自独立的开展工作,形成独立的应用程序和数据存储设施,除了基于性能和可靠性目的 而进行的严格资源复制外,很少有集中式的数据存储设施。尽管单一的数据集只包含特 定组织感兴趣的数据,但融台、集成多个数据源中的信息能够产生一些实质性的进步。 当科学家挖掘来自多个数据源的数据相关性和异常情况时,就可能产生新的发现,融合 多个数据源可以用来测试和开发一些科学模型,信息集成和数据联合技术在数据密集型 的科学应用中变得越来越重要。比如,在生物信息学中,研究团体高度分散在世界各地, 他们独立开展工作,使用各自的存储设施,使得大部分生物学知识分散在大量不同类型 的分布式资源上。这些不同的研究团体产生了大量不同的数据类型,如蛋白质、基因表 达、序列、结构、交互作用和路径,数据使用不同的度量标准,来自于不同的实验过程、 有不同的格式、访问接口、模式和覆盖范围,运行在多个分布的、相对便宜的商用计算 设施上。但是生物学正在从序列时代转向后基因时代,研究需要跨越所有的研究团体, 来进行全面的基因分析、探索整个细胞的生命循环等。并且,当小的研究团队和独立研 究者能够和其他大型组织一样使用更多的资源时,他们将会对学科的发展起到重要的作 用。允许生物学家充分利用不同研究团体的可用资源和信息,对来自一个或多个数据集 的组合进行访问和处理,己成为生物信息学中的一项严峻挑战。相同的“世界范围内实 验”的需求也来自于天文、地球观察、医药研究等领域。这些科学研究不仅需要网格提 供世界范围内计算资源的共享,更需要网格提供机制将跨国界、跨学科的大规模协作数 据以一种统一且柔性的方式交付给各个研究团体使用。 2 、商业应用中的数据集成需求 在商业应用领域中,除了那些本质上具有科学性,在数据集成方面有着与数据密集 型科学应用相同需求的应用之外,另外一些将主要来自于企业内部或企业之间的信息共 享需求。i n t e m e t 的增长、电子商务的出现、新的编程模式的应用,致使企业早期高度集 成的核心i t 基础设施逐渐分解为多个异构的系统,分布于不同的地理位置,依据各自的 策略进行管理。这种分散的存储与管理在增加了可靠性的同时,也严重制约了企业内信 息资源的共享。同时,由网络技术的推动,企业间、甚至行业之间的合作日益扩大,而 信息数据已成为他们合作的重要共享资源。与科学应用不同,这些数据几乎都采用独有 结构,并且存放在数据库中,而不是存放在二进制文件中,而且数据的整体规模比科学 数据规模要小。目前的数据库联合体技术1 3 1 不能够以通用的跨平台方式来满足这些信息 数据的共享需求,要么是特定开发商的解决方案,要么以一种临时的、基于特定应用的 方式支持副本和联合技术,由于缺乏共享,导致资源利用率低下。o g s a 定义了一种面 向服务所需的基本体系结构和机制,它能够直接应用于解决数据集共享、描述和分析等 所引发的挑战,但是,对那些已经存在的数据库资源,需要扩展网格服务,提供网格数 据集成能力,来连接己有数据库,屏蔽数据库资源的分布、异构、自治特性,实现信息 资源的全面共享,减少重复投资、重复调查,打破长期形成的各种数据壁垒,提高资源 的使用效率,为企业决策提供有力支持。 西安石油大学硕士学位论文 3 、网格自身的数据集成需求 网格中的数据访问、集成、管理需求不仅来自于对数据存储、访问、分析有大量需 求的网格应用,另一方面,网格自身也使用了许多结构化的数据集来支持网格的运行和 管理。网格的运行与管理需要记录大量的数据信息,例如关于资源描述的元数据等。随 着网格技术变得越来越复杂和自动化,这些数据集的数量、容量和多样性也会增加。因 此,不仅是网格应用,对于网格自身来说,系统化的数据访问和集成方法也会变得相当 重要。 1 3 2 网格数据集成中间件 1 、概念 在分布式应用软件的开发中,中间件技术的得到了广泛的重视,它所提供的平台透 明性、通信协议透明性、硬件无关性,可以有效地降低分布式软件开发的复杂性和成本, 提高软件的利用率。中间件为了解决分布异构问题而提出,目前仍处于发展过程中,还 没有一个广泛认可的定义。s d s c 的r e a g a nm o o r e 认为为远程服务调用管理分布状态信 息的软件就是中间件。在文献【1 1 中,把中间件看作能够屏蔽操作系统和网络差异,为 异构环境之间提供通信服务的软件,是具有强大通信能力和良好可扩展性的分布式软件 管理框架,也就是位于平台和应用之间有标准接口和协议的通用服务。中间件提供的程 序接口能够定义一个相对稳定的高层应用环境,不管底层硬件和软件如何更新换代,只 要将中间件更新,并保持对外接口不变,应用软件几乎不需要任何改动,从而保持了应 用软件开发和维护的重大投资;作为一个相对独立的逻辑组件,中间件能够避免将数据 访问和数据分析集成进特定数据源,从而降低了软件开发的复杂性和成本,使得在异构 环境中进行开发和应用变得方便和容易。 网格本身是一个分布式的系统,它在建造过程中充分使用了中间件技术来降低设计 与实现的复杂性。粗略的讲,网格系统结构可以分为三个基本层次1 12 】:资源层,网格系 统中间件层,应用层。资源层是构成网格的底层基础,包括各类分布式异构资源,如计 算资源,存储资源、网络资源、用于存储结构化数据的数据库系统以及各种传感器。应 用层包含了虚拟组织环境中运行的用户应用,是用户需求的具体体现。网格中间件处于 资源层和应用层之间,作为用户和资源之间的一座桥梁,主要作用是对高层应用屏蔽资 源的分布、异构特性,隐藏特定资源的行为特性、访问细节,向用户提供透明的、不依 赖于特定资源的一致的访问接口。同时,中间件还要提供应用编程开发接口和开发环境 工具,使得应用开发者能使用工具编写网格化的应用程序,并在网格上部署和开发他们 的应用软件。 网格中间件是一个极端庞大且复杂的系统,按照内部各基本组件提供的功能类型, 可以划分为若干个功能模块。网格数据集成中间件则是网格数据管理模块的一个组成部 分或者扩展模块,在网格数据管理模块提供的基本服务的基础上,负责向网格应用提供 可能来自多种不同存储系统数据源数据的集成访问能力,如文件系统、缓存、数据库、 第一章绪论 分布式存储系统、目录服务等。网格数据集成中间件是连接分布、异构数据库资源与高 层应用之间的桥梁,它通过扩展网格基础设施的服务,向下连接各个数据源,屏蔽底层 数据资源在存储平台、访问方法、访问机制、数据模式、命名方式等各方面的差异,向 上使用一致的访问接口,向高层应用提供单一虚拟视图的数据访问服务。 2 、研究现状 为了满足网格中数据管理、访问和集成的需求,在网格研究中期,提出了一种面向 数据密集型应用的网格体系结构数据网格,其目的是研究如何通过网格技术来实现 在大范围内、按照空闻研究的规律来管理、访问、使用和分配海量数据。在数据网格研 究领域,美国和欧洲处于领先地位,他们的研究范围和规模都比较大,并且已推出了一 些实验系统。其中欧盟数据网格 1 3 , 1 4 ( e u r o p e a nd a t ag r i d ,e d g ) 是当前最大的数据网 格项目之一,启动于2 0 0 1 年1 月,使用g t 2 的g r i p f t p 、网格安全基础设施( g r i ds e c u r i t y i n f r a s t r u c t u r e ,g s i ) 和服务目录作为基本构筑平台,具有计算网格的全部特征之外,增 加了特定的数据管理功能。其数据管理模块以核心服务层、中层服务和高层服务三个层 次组织,主要解决大规模文件系统的按需移动、复制、副本定位、选择等问题,在多个 实验系统中获得使用,目前已推出1 4 版本。 美国圣地亚哥超级计算中一t :, s d s c 的研究项目存储资源代理【l5 】( s t o r a g e r e s o u r c e b r o k e r ,s r b ) 是一个客户机一服务器形式的中间件系统,研究如何将文件系统、档案系 统、数据库系统等各类异构存储系统集成于统一的元数据驱动的访问机制下,支持广域 环境下多种数据源的访问,并提供复制数据访问。其中,元数据目录( m e t a d a t a c a t a l o g , m c a t ) 是s r b 的一个主要组成部分,使用逻辑命名空间标识关于数据的数据,提供与 应用无关的元数据服务,能够自动维护网格注册器需要的元数据,和s r b 一起提供基于 数据或资源属性的访问方法。s r b 系统在许多单位得到使用,包括英国的国家网格、美 国的联邦数据库、美国的生物医学信息科研网( b i o m e d i c a li n f o r m a t i c sr e s e a r c h n e t w o r k , b i r n ) 等。元数据目录服务【l6 ( m e t a d a t a c a t a l o gs e r v i c e ,m c s ) 则代表了另一种方法。 在这里,元数据服务被进一步分解,只需存储属性与位置无关的逻辑数据集之间的关系, 提供通用的元数据模式,允许对应用特定的属性进行规范化,采用标准模式来表征数据 并进行数据发现。 全球网格论坛( g l o b a lg r i df o r u m ,g g f ) 中数据访问和集成服务工作组( t h ed a t a a c c e s sa n di n t e g r a t i o ns e r v i c e sw o r k i n gg r o u p ,d a i s ) 正在积极为网格与数据库的集成 制定规范,目标是构造一个中间件,帮助解决网格环境下数据库的集成与访问。 o g s a d a i ”,l8 j 是对所制定规范的一个与0 g s a 相一致的开放源代码实现。o g s a d a i 提供一种可组合的构件集合,用户端通过网格数据服务工厂提供的服务创建访问所需数 据资源的数据服务,由数据服务完成数据资源访问。用户请求采用需求文档描述,数据 转换组件可以完成不同数据类型或格式的转换。 在国内,也有许多关于网格数据集成访问研究的文献发表。如:廖华明等人提出了 西安石油大学硕士学位论文 以层次化结构模型组织信息网格中的元数据【1 9 】,并将它应用到了铁路信息网格中间件的 设计与实现中;李东升等人提出了一种数据网格环境下动态自适应的副本定位方法口u j ; 梁建民等人提出了一种以所有者为中心的网格文件共享机制【2 “。 1 4 本课题的研究内容及意义 1 、课题意义 对网格数据集成i t 9 研究中,面向文件形式的数掘源的集成访问已获得了深入的研究, 取得了丰硕的成果。但是,面对商业应用领域中大部分以数据库形式存储的支持数据, 以及大多采用数据库存储的网格自身数据,都需要技术支持将数据库与网格结合起来。 由于数据库管理技术在过去的几十年间所取得的长足进步和成果,这种结合的重点目前 将落在网格和已有数据库技术的集成1 3 1 2 2 j 方面。 一种在网格中集成数据库的方法是通过构建虚拟数据库作为访问数据库数据源的中 间件,将多个数据库通过单一联盟方式呈现为单一的整体视图,用户不必考虑隐藏在虚 拟数据库之后的多个不同的数据源。联盟数据库方法在理论上是可行的,但构建通用的 联盟数据库难度太大且维护费用昂贵。为了简化集成系统的开发、运行和维护费用,在 更多情况下,面向特定应用问题的项目可以先建立自己的项目相关的集成系统,也就是 定制集成,然后通过一个通用虚拟数据访问和集成层提供各定制集成的通用访问手段。 这样,在能大幅度降低编写具体主题上代码的开销的同时,也为定制集成向更通用的联 盟数据库转变提供了支持。数据网格在研究与应用部署中获得的成果为实现这样的定制 集成提供了基本的技术保障。s r b 的m c a t 以及m c s 所提出的元数据目录服务给出了如 何描述、发布和访问多个分布异构数据集的元数据组织及服务方式,能够自动维护网格 注册其所需的元数据,但在多数应用领域内,必须集成已有的数据库。而o g s a d a i 的 数据集成服务主要研究d a i 各个组件的构造驱动方法和服务提供方式,能够将访问定位 到特定数据源上,但数据源,尤其是存放在数据库中的数据信息的组织描述会随领域的 不同而有较大差异。特定领域内数据源内容的描述依赖领域专家对领域内已有信息数据 深入理解的基础上进行,以获得更好的性能。 本文拟就一个企业内部网格环境下,对分布在不同地理位置、驻留在不同平台、依 据不同策略进行管理的数据库信息的集成访问展开研究,希望在网格基础设施之上,能 够构建一个扩展的信息集成访问中间件,通过与其他网格服务的交互,向下连接企业内 多个已经存在的数据库,向上通过与其他网格服务相同的服务模式,提供数据信息资源 的集成访问能力。由于这样的组件针对特定应用环境,所以在论文中称为应用网格数据 集成中间件。 2 、课题主要研究内容 在校园网环境中,各个职能部门和二级院系的管理相对独立,它们对计算或存储设 施的购买、部署、管理有着相对的自主权,能够依据各自的应用需求来选择、购买。随 第一章绪论 着学校规模的扩大、日常工作管理的需求,各职能部门和二级院系在过去的十几年中, 投入不少的人力、物力用于信息化建设,部署、开发了各自的管理信息系统,维护着大 量的信息数据,分散在校园网上的不同结点、使用各自的计算平台、由不同的职能部门 管理。校园网中信息数据的分布、存储、管理机制以及对信息数据的集成访问需求与企 业应用有着很大的相似性,因此,在论文中将以校园网作为研究背景,从以下几个方面 展开应用网格数据集成中间件的研究: a 、应用网格数据集成中间件体系结构。研究应用网格数据集成中间件的内部功能结 构、在应用网格体系结构中的作用、与其他服务组件的相互作用。 b 、应用网格数据集成中间件的元数据组织设计。针对特定应用领域中的数据库数据 源,提出描述、抽象数据库内容、数据模式的元数据目录组织方式。 c 、应用网格数据集成访问代理研究。提出基于代理技术的数据集成访问中间件的技 术解决方案。 d 、应用网格数据集成中间件实验系统的设计与实现。 西安石油大学硕士学位论文 第二章应用网格数据集成中间件体系结构研究 2 1 网格体系结构 2 1 1 网格体系结构及演变 网格中间件是一个相当复杂的大型系统,需要新的技术手段指导实现。网格体系结 构是关于如何构造网格的技术和规范的定义,它确定并划分基本的系统组件,指定这些 组件的目的和功能,并说明这些组件和其他组件是如何交互的。 1 、计算网格的五层协议结构 文献 1 2 通过对e l g l o b u s 结构与网格面向协议的体系结构后指出:可以认为所谓的 图2 1 计算网格五层协议结构 计算网格体系结构就是在g l o b u s 基础上提炼出 的抽象概念。g l o b u s 采用层次型的面向协议的 网格结构,其协议套件建立于互联网协议之上, 利用现存的i n t e m e t 标准,如互联网协议中的通 信、路由、名字解析等功能为基础,来实现传 输、资源发现和安全机制。由g l o b u s 抽象出的 计算网格面向协议的网格体系结构分为构造 层、连接层、资源层、汇聚层和应用层共五层, 如图2 1 所示。每一层的组件都建立在任何下 层的能力和行为之上,通过调用下层提供的功 能来实现,网格内的全局应用通过协议提供的结构调用网格管理软件的功能。 2 、开放网格服务体系结构o g s a 在i b m j j i 入网格研究阵营后,于2 0 0 2 年,同g l o b u s d 、组一起提出了一个新的网格体 系结构开放网格服务体系结构( o p e ng r i ds e r v e r a r c h i t e c t u r e ,o g s a ) 。o g s a 构建于 网格技术平1 w e bs e r v i c e 的共同概念和技术之上,将计算网格与w e bs e r v i c e 结合起来,把 网格计算从科学与工程应用扩展到更广泛的以分布式系统集成为主要特点的商业应用领 域,希望网格技术能沿着与i n t e m e t 桂l 同的发展轨迹,从科学研究走向商业领域,最后获 得广泛的应用。o g s a 是面向服务的体系结构,以服务为中一t l , ,把一切都定义为服务, 计算资源、存储资源、网络、程序、数据等都是服务,它将网格看作一个包含有标准接 口和行为的核心服务集,虚拟组织可用各种方法汇聚这个动态的、可扩展的服务集来满 足需求。 o g s a 的目标之一就是把许多操作中都拥有的共同行为以标准方式表示而不必依赖 于行为所处的环境,这样可以简化应用设计并提高代码的重用性。为了实现这种重用性, 必须将这些操作行为组合起来形成服务接口,操作被封装在公共接口之后,使得服务用 户与关于服务定位、服务实现的细节隔离开,服务用户不必知道服务的具体实现方法, 第二章应用网格数据集成中间件体系结构研究 只要知道服务是否被执行就可以了。为了能够与服务更好的交互,o g s a 采用w 3 c 开发 的万维网服务描述语言( w o 订dw i d ew e bs e r v i c e d e s c r i p t i o nl a n g u a g e ,w s d l ) 标准来描述服务接 口,用一个w s d l 文档将服务调用接口暴露给服务 用户,并允许一个接口上有多个绑定。而标准的服 务接口定义以及服务语义( 如:服务是怎样创建的、 存活多久、怎样处理错误、怎样管理长期状态) 由 开放网格服务基础设施( o p e ng r i ds e r v i c e i n f r a s m m c t u r e ,o g s i ) 提供,通过同w s d l 的结合, o g s i 定义了网格服务实例的创建、命名、生命周期 管理、监控等机制,还引入了用于创建和发现网格 服务的机制。0 g s a 的目标之二是能够通过组合简 图2 - 2 开放网格体系结构的核心组件 单的服务行为构造出一个复杂的系统,并使这种组合变得更加容易。标准的服务接口描 述语言以及接口的多协议绑定为这种组合提供了支持。标准的服务接口描述方便了服务 用户对服务的调用,而多协议绑定则能够提供选择来优化组合后的复杂系统的性能。 o g s a 的核心组件如图2 2 所示。其中,开放网格服务基础设施o g s i 、o g s a 服务和0 g s a 模式是三个主要组件,o g s i 为分布式系统定义了
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《人工智能应用:机器学习基础与应用教案》
- 专利使用权协议
- 将进酒:古典诗歌情感探究教案
- 自然选择的作用和含义深度解析教学教案
- 保护动物呼唤行动议论文(7篇)
- 生物化学分子生物学在线试题
- 汽车维修行业服务标准与规范
- 航空航天器制造产业报告表
- 一场激烈的辩论赛事件描写(15篇)
- 中医药服务与乡村社区健康治理融合模式
- 人教版九年级物理 14.3能量的转化和守恒(学习、上课课件)
- 2024年网络安全知识竞赛考试题库500题(含答案)
- 江苏省徐州市贾汪区2023-2024学年七年级上学期期中考试数学试卷(含解析)
- 《港口粉尘在线监测系统建设技术规范(征求意见稿)》编制说明
- 品质巡检个人工作计划
- 医院采购委员会管理制度
- 设备管道 防腐保温施工方案
- DZ∕T 0214-2020 矿产地质勘查规范 铜、铅、锌、银、镍、钼(正式版)
- 校车安全行车记录表
- QCSG1204009-2015电力监控系统安全防护技术规范
- 出租车安全教育
评论
0/150
提交评论