




已阅读5页,还剩65页未读, 继续免费阅读
(管理科学与工程专业论文)基于globus的分布式数据挖掘模型研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于g l o b u s 的分布式数据挖掘模型研究与实现 基于g l o b u s 的分布式数据挖掘模型研究与实现 摘要 世界上万事万物都在不断变化发展,计算机应用模式随着企业应 用的发展也在不断变化发展。计算机应用模式在近5 0 年的发展变化 过程中,经历了从集中式到分布式的这一变化路线。网格技术的出现 使计算机应用模式再次走向了分布。随着信息技术的发展,各部门内 部或者企业内部产生的数据量在急剧增加。爆炸式的数据增长既给企 业带来了机遇同时也带来了挑战,如何从这些海量数据中发现知识, 以及如何有效的发现知识是当今信息社会遇到的重大挑战。传统的集 中式数据挖掘方式虽然能在一定程度上解决由数据分布带来的一些 问题,但是面对海量数据,传统的集中式数据挖掘方式在挖掘性能方 面越来越不能满足人们的需要。网格应用模式的出现给分布式数据挖 掘带来了新的契机。 本文的研究重点是g l o b u s 环境下的分布式数据挖掘模型。分布 式数据挖掘要解决的首要问题,是数据资源和计算资源的合理匹配, 以达到挖掘性能的优化。传统的分布式数据挖掘模型移动代码和 移动数据模型,虽然各有优点,但是都没有解决数据资源和计算资源 的匹配问题,不能对分布式数据挖掘任务进行性能优化。本文提出的 p d s 模型,结合r 移动代和移动数据模j 弘的优点,并运用最小响心 基于g l o b u s 的分布式数据挖掘模型研究j 实现 时间作为分布式数据挖掘任务分配策略,对基于多个数据集的分布式 数据挖掘任务进行任务优化分配。论文还给出了分布式数据挖掘最小 响应时间模型各组成部分的预测方法以及实验结果。 g s 模型是基于g l o b u s 网格服务的分布式数据挖掘模型,是p d s 模型的简化模型。g s 模型运用s o a 的架构思想,将分布式数据挖掘 功能以网格服务的形式进行封装,客户通过调用网格服务来完成数据 挖掘任务,在第5 章中作者开发了一个g s 模型的服务端程序。 关键词:网格;分布式数据挖掘;g t 4 ;p d s 模型;g s 模型 基于g l o b u s 的分布式数据挖掘模型研究与实现 t h ei 之e s e a r c ha n di m p l e m e n l l a t i o n o fd is t r i b u t e dd a t am i n i n gm o d e l b a s e do ng l o b u s a b s t r a c t a l l t h i n g s a r e c o n s t a n t l yc h a n g i n ga n dd e v e l o p i n g ,c o m p u t e r a p p l i c a t i o nm o d e lw i t ht h ed e v e l o p m e n to fe n t e r p r i s ea p p l i c a t i o n sa r e c o n s t a n t l yc h a n g i n ga n dd e v e l o p i n gt o o c o m p u t e ra p p l i c a t i o nm o d e li n n e a r l y5 0y e a r so fd e v e l o p m e n ta n dc h a n g e s ,h a se x p e r i e n c e df r o m c e n t r a l i z e dt od i s t r i b u t e dm o d e l s w i t ht h ep r e s e n c eo f g r i dt e c h n o l o g y , c o m p u t e ra p p l i c a t i o n m o d e lb e c o m ed i s t r i b u t e d a g a i n w i t h t h e d e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y , t h ed a t ap r o d u c e dd a i l yb y v a r i o u sd e p a r t m e n t sw i t h i nt h e e n t e r p r i s ei si n c r e a s i n gd r a m a t i c a l l y e x p l o s i v eg r o w t ho fd a t ai nt h ee n t e r p r i s en o to n l yb r i n g so p p o r t u n i t i e s b u ti ta l s ob r i n g sc h a l l e n g e s ,a n dh o wt od i s c o v e rk n o w l e d g ea n dh o wt o e f f e c t i v e l yd is c o v e rk n o w l e d g ef r o m t h e s em a s s i v ed a t ai sab igc h a l l e n g e i nt o d a y si n f o r m a t i o ns o c i e t y t h et r a d i t i o n a lc e n t r a l i z e dd a t am i n i n g a p p r o a c ht os o m ee x t e n t ,c a ns o l v ean u m b e ro fi s s u e sb r o u g h ta b o u tb y d a t ad i s t r i b u t i o n ,b u tw h e nf a c e dw i t ham a s so fd a t at h et r a d i t i o n a lw a y o fd a t am i n i n gi s i n c r e a s i n g l yu n a b l e t om e e tp e o p l e sn e e d s g r i d t e c h n o l o g yb r i n g sn e wo p p o r t u n i t i e st ot h ed i s t r i b u t e dd a t am i n i n g 摹fg l o b u s 的分布式数据挖掘模型研究与实现 t h i sa r t i c l em a i n l yf o c u s e do nd i s t r i b u t e dd a t am i n i n gb a s e do n g l o b u se n v i r o n m e n t t h ef i r s tp r o b l e mo fd d mw a n t st os l o v ei st h e r a t i o n a lm a t c h i n gb e t w e e nd a t ar e s o u r c e sa n dc o m p u t a t i o nr e s o u r c e s ,i n o r d e rt oa r c h i v eag o o dp e r f o r m a n c e t h et r a d i t i o n a lm o d e lo fd i s t r i b u t e d d a t am i n i n g _ d a t at r a n s f e rm o d e la n dc o d et r a n s f e rm o d e l ,d e s p i t et h e i r d i f f e r e n ta d v a n t a g e s ,b u td i dn o ts o l v et h e m a t c h i n g b e t w e e nd a t a r e s o u r c e sa n dc o m p u t a t i o nr e s o u r c e s ,t h e yc a nn o tp e r f o r m a n c et a s k o p t i m i z a t i o n t h i s a r t i c l e p r e s e n t s t h ep d sm o d e l ( p o l i c y ,t a s k d i s p a t c h i n ga n ds c h e d u l i n gb a s e dd d mm o d e l ,p d sm o d l e ) c o m b i n e s t h ea d v a n t a g e so fd a t at r a n s f e rm o d e la n dc o d et r a n s f e rm o d e l ,a n da p p l y m i n i m u mr e s p o n s et i m ea sad i s t r i b u t e dd a t am i n i n gt a s k sa l l o c a t i o n s t r a t e g y p d sm o d e lc a na s s i g nt a s ko p t i m i z a t i o nb a s e do nm u l t i p l ed a t a s e t sd d m t h ea r t i c l ea l s op r e s e n t e dap r e d i c t i o nm e t h o do fd d m m i n i m u mr e s p o n s et i m em o d e l g sm o d e li sb a s e do nt h eg l o b u sg r i ds e r v i c e ,a n di ti sas i m p l i f i e d m o d e lo fp d s g sm o d e li saw a yo fu s i n gs o a ,i tp a c k sa l lf u n c t i o no f d i s t r i b u t e dd a t am i n i n gs e r v i c e st oaf o r mo fg r i ds e r v i c e ,a n da l l o wt h e c u s t o m e rt oc a l lt h e s es e r v i c e s i nc h a p t e r5 ,t h ea u t h o rd e v e l o p e da m o d e lo f g s k e y w o r d s :g r i d :d d m ;g t 4 ;p d sm o d e l ;g sm o d e l i v 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 本人为获得浙江工商大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示谢意。 躲匙净一吼加罗年月必日 关于论文使用授权的说明 本学位论文作者完全了解浙江工商大学有关保留、使用学位论文 的规定:浙江工商大学有权保留并向国家有关部门或机构送交论文的 复印件和磁盘,允许论文被查阅和借阅,可以将学位论文的全部或部 分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制 手段保存、汇编学位论文,并且本人电子文档的内容和纸质论文的内 容相一致。 保密的学位论文在解密后也遵守此规定。 日期:铆q 年耖月以e t 基于g l o b u s 的分布式数据挖掘模型研究与实现 1 1 引言 第1 章绪论 网格n 1 是伴随着互联网技术而迅速发展起来的,是专门针对复杂科学计算的 新型计算模式。这种计算模式是利用互联网把分散在不同地理位置的计算机组织 成一个“虚拟的超级计算机 ,其中每台参与计算的计算机就是一个“节点”, 而整个网格是由成千上万个“节点”组成的“一张网格 ,所以这种计算方式 叫网格计算乜1 。通过网格组织起来的“虚拟的超级计算机 有两个优势:一是数 据处理能力超强;另一个是能充分利用网上的闲置处理能力。简单地讲,网格是 把整个网络整合成一台巨大的超级计算机,实现计算资源、存储资源、数据资源、 信息资源、知识资源、专家资源的全面共享。 任何技术的诞生都离不开社会或企业的需求,网格技术的产生也一样。信息、 数据的迅速累积和人们对高性能计算的不断需求,是促使网格产生的主要原因。 面对海量数据,企业发现即使使用了昂贵的超级计算机也往往不能满足计算需 求,因此,企业不得不购买更多计算设备,这无形之中给企业增加了成本。而网 格技术的出现,能够使企业仅通过一台普通的p c 机就可以享受到由网格提供的无 限计算能力,网格环境能够为企业解决以前由于缺乏运算资源而难以处理的问 题,以最有效地方式使用他们的系统,满足客户要求并降低计算机资源的拥有数 量和管理总成本。 互联网主要为人们提供电子邮件、网页浏览等通信功能,网格功能则更多更 强,能让人们透明地使用计算、存储资源等。网格计算己经成为下一代互联网的 一个重要发展模式。目前,世界各国( 以欧美为主) 都在积极开展网格的研究。 在这批研究浪潮的推动下出现了不少成果:美国军方正在研究规划“全球信息网 格”( g l o b a li n f o r m a t i o n g r i d ) ,预计在2 0 2 0 年完成。英国政府也己经开始研制“英 国国家网格”( u kn a t i o n a lg r i d ) 。与此同时,随着政府对网格项目的加大投入, 世界各大公i 刁、机构也相继公布了与网格目标相符的研究计划。当今世界主要的 网格项i1 仃:g l o b u s l 3 , 5 , 7 1 ,i b mi n t r a g r i d ,i n t e r n a t i o n a lv i r t u a ld a t ag r i d l a b o r a t o r y ,e u r o g r i d & g r i di n t e r o p e r a b i l i t y ,g r i d l a b 等。在n 内,已经完成的 基于g l o b u s 的分布式数据挖掘模型研究j 实现 网格研究项目主要有清华大学的先进计算基础设i o 匝a c i ( a d v a n c e dc o m p u t a t i o n a l i n f r a s t r u c t u r e ) 和以中科院计算为主的国家高性能计算环境n h p c e ( n a t i o n a lh i g h p e r f o r m a n c ec o m p u t i n ge n v i r o n m e n t ) 。另外,全国还有几十所大学和研究机构 己经开展各种网格研究。网格技术作为一种新型的分布式技术,在处理计算量大, 计算时间长的任务具有先天的优势。并为数据挖掘技术在网格环境下的应用奠定 了基础。 1 2 研究背景与意义 数据挖掘n 1 指的是从大量的数据中发现隐含的规律性的内容信息,解决 数据的应用质量问题。分析数据并产生用户感兴趣的模式,是数据挖掘技术最重 要的应用。伴随着信息社会而来的是海量数据,如何在这些庞大的数据中有效地、 快速地寻找出有用的信息,不仅是企业掌握市场,了解市场的窗口,而且也是数 据挖掘领域中新的研究内容。 1 2 1 研究背景 本文的研究背景主要在以下两个方面:第一,当今社会是一个信息化社会。 现今存储在计算机中的信息量越来越庞大,并且这些信息膨胀的速度也变得异常 之快,以至于我们现在面临的主要问题己经不再是信息的匮乏,而是有太多的信 息需要处理以及从中发现有价值和重要的信息。g o o g l e 存储的网页数量就达 8 5 0 t b ,g o o g l ee a r t h 数据量达7 0 5 t b :n a s a 的卫星系统中,每个观测站每个小 时产生5 0 g b 的图像信息。传统的集中式数据挖掘方式在处理这些海量的并且不 断在增长的数据中越来越显得力不从心。第二,分布式数据挖掘哺引技术的研究。 分布式数据挖掘技术的研究主要可以分两方面内容:分布式数据挖掘算法研究和 分布式数据挖掘体系结构研究,本文的研究内容属于分布式数据挖掘体系结构。 1 2 2 研究意义 嗍格址个分伯式计算甲台,m 纠l 地理 :分前i 的异构汁馋f j l f l l 成,用户通 基于g l o b u s 的分布式数据挖掘模型研究与实现 过一个统一的接口访问和使用网格服务。网格被认为是一个重要的计算模式,与 以往的分布式计算环境不同,它的主要特点是大范围的资源共享、新颖的应用和 极高的计算能力。各种网格系统的应用正由最初的科学和工程计算向工业和商用 领域发展,其应用范围将变得更加广泛。在网格平台,尤其是在数据网格平台上 实现分布式数据挖掘,进而实现知识发现系统,是当前一个新的研究领域,这种 网格系统也被称为知识网格睁j 训。这样就把数据挖掘和分布式计算环境集成为一 个统一的应用平台,使知识发现作为平台的一类服务而存在。网格被一致认为是 下一代互联网计算平台,而数据挖掘和网格相结合共同构成的知识发现平台具有 巨大的研究价值和广泛的应用前景。 1 3 论文的结构和我的工作 本文首先对网格和分布式数据挖掘知识做了详细和系统的论述,并在随后的 章节中提出了影响分布式数据挖掘的五个因素( 网络带宽、网络延时、数据传输 量、算法执行时间、网格资源性能) ,为分布式数据挖掘响应时间建立了模型。 对移动代码和移动数据模型进行了深入研究和分析,并在网格环境下提出了基于 这两个分布式数据挖掘模型的p d s 模型( p o l i c y ,t a s kd i s p a t c h i n ga n ds c h e d u l i n g b a s e dm o d e l ,p d sm o d l e ) ,以及p d s 模型的简化模型g s 模型( g r i ds e r v i c e b a s e dm o d e l ) 。在针对p d s 模型的任务优化策略方面,作者提出了两个分布式任 务优化指标,即:最小响应时间和最大资源利用率,并在分析和对比了这两个指 标之后,选择最小响应时间作为p d s 模型的任务优化策略,并对最小响应时间 模型各组成部分进行了执行时间预测。在第5 章中作者开发了一个g s 模型的服 务端程序。 本文总共分为六章:第一章是绪论,简要叙述网格技术和数据挖掘技术发展 概况;第二章是计算机应用模式的演变,详细论述了计算机的应用模式演变过程; 第三章是网格与分布式数掘挖掘,在该章中详细论述了网格技术和分布式数据挖 掘技术,以及网格丌发标准工具g l o b u st o o l k i t 4 和丌源的数据挖掘工具w e k a ; 第四章是本文的重点,提出了两个网格平台下分布式数据挖掘模型:p d s 模型和 g s 模型。第h 章是g s 模,鞋的实现, 要论述了n il i n u x 平台下g s 模犁服务端 的实现过w :第六章址总结。 基于g l o b u s 的分布式数据挖掘模型研究与实现 第2 章计算机应用模式的演变 计算机应用模式,也就是计算机应用系统中数据与应用的分布方式。计算机 应用模式从最初的单主机计算模式发展到现在已经经历了近5 0 年,并且还将继 续发展。计算机是现代社会不可或缺的组成部分,而计算机应用模式的发展体现 了社会进步与人类文明的发展。从哲学的观点来说,世界万事万物都是普遍联系 的,计算机应用模式的变化和发展也促使企业组织结构向更加符合现代社会需求 的方向发展。 从第一台计算机诞生到现在,计算模式已经经历了四种应用模式,他们分别 是:单主机计算模式、分布式客户机服务器( c l i e n t s e r v e r , c s ) 计算模式、浏 览器服务器( b r o w s e r s e r v e r , b s ) 计算模式、网格计算( g r i dc o m p u t i n g ) 模 式。这四种计算模式的出现与网络、数据库、计算机的发展密不可分。 1 ) 、单主机计算模式 2 0 世纪8 0 年代以前,计算模式是由单台计算机构成的单主机计算模式。分 时操作系统的出现将这一阶段分为前后两个阶段,之前是单用户操作系统,系统 一般只有一个用户控制,也就是说只有一个终端用户,并且只能用于单个任务的 计算。分时操作系统出现之后,单主机计算模式发展为单主机多终端的计算模式。 多个终端用户可以分享系统的c p u 时间,这让用户觉得自己独占了整个系统一 样,但实际上,系统只是在分时轮询地为每个用户服务。单主机计算模式是一种 集中式计算模式,终端只负责数据的输入与显示,所有的计算任务都在主机上完 成。 2 ) 、客户机i l l 务器( c l i e n t s e r v e r , c s ) 计算模式 2 0 世纪8 0 年代,随着p c 机、l a n 技术、网络技术的发展以及相关网络协 议标准的成熟,c s 计算模式蓬勃发展。p c 机虽然存储容量有限,但是,在网 络技术的支持下,它不仅能利用本机资源,也能共享网络上其他主机的资源。在 c s 模式中,网络中的计算机可以划分为两大类,一类是为其他计算机提供服务 ( 如,数捌j 七孛、丈件冬亨等) 的计算机,这种机器称为服务器( s e r v e r ) ,另 外类足学受服务的计锋机,称为客户机( c l i e n t ) 。舀:c s 模式中客,、机小f l 像 4 基于g l o b u s 的分布式数据挖掘模型研究与实现 单主机中的终端那样没“智能 ,客户机有独立的计算单元、存储单元,并且协 助服务器完成一定的业务逻辑。 由于客户机也具有一定的业务逻辑功能,因此就产生了与服务器的紧耦合关 系。随着业务逻辑的复杂化和功能的多样化,这种紧耦合的c s 计算模式对构建 现代商业应用程序表现出越来越大的局限性,主要表现在以下几个方面: l 、后期维护、升级相当麻烦。由于耦合性,客户机或服务器任何一方业务 逻辑的修改、升级,都会导致另一方的代码修改,这对于一个大型系统来说是致 命的。同时安装配置都很麻烦,系统的安装不仅要安装客户端还要安装服务端。 对于企业由于业务发展的需求频频更换、修改软件的,将会付出相当的维护成本。 2 、安全性差。在c s 模式中,p c 机具有强大的本地处理能力和高度的灵活 性,而且客户端代码可以直接操控服务端数据库因此,就不可避免的会有一些 对客户端软件的恶意操作,导致企业核心资料的外泄或数据的恶意删除,对企业 造成巨大损失。 3 、企业间信息共享难。c s 模式的优势在于l a n ,或者单个企业的l a n 内, 难以突破企业之间的组织边界。企业间信息不能很好的共享,这就导致了“信息 孤岛”。信息系统的发展的首要目的就是要消除“信息孤岛”。 c s 计算模式跨出了计算机应用模式的一大步,在集中式的计算模式上出现 了分布式的计算模式,计算模式开始从集中式走向分布式。 3 ) 、浏览器n t 务器( b r o w s e r s e r v e r , b s ) 计算模式 由于c s 计算模式在企业级应用上存在众多不足,因此,人们在c s 基础上 提出了三层b s 计算模式。b s 模式不再像c s 那样只具有客户机和服务器两个 层次,它在客户机与服务器中间增加了一个业务逻辑层。将原来在c s 模式下的 客户端与服务端实现的业务逻辑都放在同一个层中实现一一业务逻辑层,从而将 原来的客户机“瘦身”。客户机被浏览器所取替,只负责向业务逻辑层提交请求 和回显数据,由业务逻辑层操作数据库服务器,完成数据的更新、增加和删除等 操作。 b s 与c s 的应用体系结构比较,基于i n t e r n e t 的b s 模式具有更简单、更 低成本,能提供更多信息等优势。神i 具体使用中,前端用户j 要通过标准的桌面 浏览器就可以方便的访问服务端俯息。 肇十g l o b u s 的分布式数据挖掘模型研究0 实现 b s 计算模式,使得计算又重新走向集中化,但是这种集中不是简单的重新 回到单主机计算模式下的计算集中,这种集中更有利于跨企业组织机构的信息共 - l 孕o 4 ) 、网格计算( g r i dc o m p u t i n g ) 模式 网格是2 0 世纪9 0 年代出现的一种全新的计算机应用模式,根据l a nf o s t e r 的定 义,网格计算的最终目标是使互联网上所有资源( 计算资源、存储资源、通信资 源、软件资源、信息资源、知识资源等) 实现全面共享与无缝协作,把分散的 i n t e r n e t 整合成一个虚拟的统一的平台。网格可以为用户提供“即连即用式的 服务。最初它主要是用于高端科学和工程,连接世界范围内的各种先进仪器和超 级计算机,共同解决一个科学或者工程难题,如今,它越来越多的被应用在商业 和工业领域。 网格的概念是从电力网( p o w e rg r i d ) 借鉴过来的,最终目的是希望人们能够象 使用电力一样方便地使用分布在网络上强大而丰富的计算能力1 。作为目前越来 越重要的计算机技术研究和应用领域,网格是一种关系科研、经济、社会、国防 的重要国家基础设施,在国内外引起了广泛的关注。“网格最终应该是一种公共 事业”一由网格应用服务商提供服务,这种服务与电话、电力、水、煤气并列, 被称为“第血公用设施”。 网格将分散在网络上的信息以及存储、处理能力以合理的方式结合起来,成 为一个有机体,提供比单台高性能计算机更加强大的处理能力,实现信息的高度 融合和共享。这种融合不仅意味着w w w 将向g g g ( g r e a tg l o b a lg r i d ) 的过渡 成为下一代互联网标准,而且合理的结合了业界所提倡的“绿色计算”这一理念。 在网格环境下,系统一切功能都以服务的形式展现出来。因此,企业不用再去花 费资金购买昂贵的硬件设备,而只要付出适当的费用就可以在网格上享受到同等 效果的服务,这不仅为企业节省了资会,也为整个社会节省了能源。 网格计算模式的出现,使得计算再次走向分布,网格计算模式下的分布与 c s 模式下的分布相比,网格模式下的计算分布的概念从c s 下的l a n 范围延 伸到了整个因特网。纵观5 0 余年的计算模式的演变,可以看出,计算模式的发 展走过了从集中到分布,再从分雨j 到集中再分仃的这样个过程。 6 基于g l o b u s 的分布式数据挖掘模型研究与实现 第3 章网格与分布式数据挖掘 3 1 网格技术概论 目前国际上有许多研究网格的项目,其中影响比较大的有:美国的g l o b u s 、 l e g i o n 12 1 、c o n d o d l 4 ,1 5 】等,欧洲的c e r nd a t a g r i d 【1 6 】、m o l 等。随着网格计算 研究的深入,人们发现网格体系结构越来越重要。网格体系结构n 3 1 是关于如何建 造网格的技术,包括对网格基本组成部分和各部分功能的定义和描述,网格各部 分相互关系与集成方法的规定,网格有效运行机制的刻画。显然,网格体系结构 是网格的骨架和灵魂,是网格最核心的技术,只有建立合理的网格体系结构,才 能够设计和建造好网格,才能够使网格有效地发挥作用。网格体系结构贯穿着两 条主线“分”和“合”。网格是一个整体的概念,网格体系结构的作用在一 定程度上就是对网格的解剖。网格体系结构必须要能够识别出网格的基本组成部 分,要能够清楚说明网格是由哪些关键部分组成。这些都是“分”的作用。网格 体系结构还需要进一步描述“合 起来的功能,即在充分了解网格的各个部分的 作用机理、作用方式等的基础上,将这些部分按照一定的方式进行组织和集成, 形成一个具有特定功能的整体,并对外提供服务。只有充分把握好“分”与“合” 的关系,才能够比较深入具体的理解网格体系结构。 3 1 1 网格的体系结构演变 到目前为止,网格的体系结构n 7 3 演变过程中比较重要的有三种结构:一个是 f o s t e r 等人在早些时候提出的五层沙漏结构”,另外两个是在i b m 为代表的工 业界的影响下,在考虑到w e b 技术的发展与影响后,f o s t e r 等人结合w e bs e r v i c e 技术提出的丌放网格体系结构o g s a ( o p e ng r i ds e r v i c e sa r c h i t e c t u r e ) 的两种实 现:o g s i ( o p e ng r i ds e r v i c ei n f r a s t r u c t u r e ,o g s i ) 和w s r f ( w e bs e r v i c e sr e s o u r c e f r a m e w o r k ,w s r f ) 。 镧3 一l 描述了网格体系结构的演变过程。 基于g l o b u s 的分布式数据挖掘模型研究与实现 3 1 2 五层沙漏体系结构 1 ) 、基本思想 网格发展的早期,五层沙漏结构是一种影响十分广泛的结构,它主要侧重定 性的描述而不是具体协议的定义,因此很容易从整体上进行理解。在该结构中, 核心思想是以协议为中心乜引,同时强调服务、a p i 和s d k 的重要性。五层沙漏结 构并不提供严格的规范,它不是对全部所需协议的罗列,而是对该结构中各部分 组件的通用要求进行定义,并将这些组件形成一定的层次关系,每一层的组件具 有相同的特征,上层组件可以在任何一个底层组件的基础上构建。 2 ) 、特点一 五层沙漏结构根据各组成部分对共享资源的抽象程度,把网格分为五个不同 的层次,越靠近底层则更接近资源的物理特性,越往上层对资源的抽象度就越高, 越感觉不到共享资源的特征。因此,构建在最上层的网格应用不需要关心底层资 源的具体物理实现。这种分层抽象方式与t c p i p 分层协议十分类似。图3 2 描 述了五层沙漏结构与t c p f l p 分层协议的对比情况。 8 基于g l o b u s 的分布式数据挖掘模型研究。j 实现 i 应用层 l 上 汇聚层 r 资源层 1r i 连接层 i 五层沙漏结构t c p i p 协议 图3 2 五层沙漏结构与t c p i p 比较 五层沙漏结构主要分成五个相互关联的而不均等的层次,由下往上分别为: 构造层、连接层、资源层、汇聚层、应用层。下面对每个层进行详细的描述。 构造层( f a b r i cl a y e r ) :构造层涉及的是具体的物理资源,它通过对局部资 源的管理,向上层提供对局部资源的管理和控制接口。构造层资源可以是计算资 源、存储系统、目录、网络资源以及传感器等广域分布的计算机、工作站、数据 库服务器和超级计算机,这些构成了构造层的物理资源,他们本身附带的文件系 统、通信系统构成了构造层的逻辑资源。构造层应该实现的基本功能包括查询机 制、控制服务质量的本地资源管理能力等。 连接层( c o n n e c t i v i t yl a y e r ) :连接层主要为物理资源提供安全的数据通信, 这是资源之间进行互操作的前提。连接层使得孤立的单个资源之间建立了联系。 在连接层,网格定义了核心的网络事务处理所需要的通信和认证协议。通信协议 允许在构造层资源之间交换数据,建立在通信服务上的认证协议提供加密的安全 机制,用于识别用户和资源。通信的必要条件包括传输、路由和命名等功能。实 际上,通信协议大部分是从t c p i p 协议栈中抽出来的。l l 女f l i n t e m e t 体系结构的 i n t e r n e t 层( i p 与i c m p ) ,传输层( t c p 与u d p ) ,和应用层( d n s ,o s p f ,r s v p 等) 。 资源层( r e s o u r c el a y e r ) :它反映的是抽象的局部资源特征,共享单一的资 源。资源层建立在连接层的通信和认证协议之上,定义的协议包括安全连接、初 始化、监视和控制、审计、计费等。资源层的协议实现渊l | 】构造层的功能以访问 9 基十g l o b u s 的分布式数据挖掘模型研究与实现 和控制本地资源。资源层的最重要的两个协议是信息协议和管理协议( 如表3 1 所示) ,前者用于获得关于资源结构和状态的信息,后者用来协商对共享资源的 访问。 表3 1 信息协议和管理协议 协议类型具体描述 信息协议得到资源的结构和状态信息,比如配置、当前负载、使 用策略等等。 管理协议 通过谈判访问共享资源,指出资源需求以及将执行的操 作。初始化共享关系,保证要求的协议操作与底层共享 资源提供的共享策略一致,还可能需要具有监控操作的 状态并控制某些操作的功能。 汇聚层( c o l l e c t i v el a y e r ) :将资源层以单个资源形式表现出来的资源集中起 来,协调解决多个资源之间的问题。汇聚层组件建立在资源层和连接层形成的协 议瓶颈之上,它们能够在不对资源强加新的要求的情况下,实现广泛的和多样化 的共享行为,如目录服务、协同分配、调度和代理服务等。 应用层( a p p l i c a t i o nl a y e r ) :决定把什么样的资源分配给企业组织,解决不同 组织的具体问题。组织中的所有用户应用构成了网格的应用层,它调用下一层中 的服务来构造网格应用。 五层沙漏结构的一个重要特点就是其沙漏形状( 如图3 - 3 所示) ,其内在含 义是各个部分协议的数量不同,汇聚层和资源层以及连接层是其最核心的部分。 对于其最核心的部分,要能够实现上层各协议向核心协议的映射,同时实现核心 协议向下层其他各协议的映射。核心协议在所有支持网格计算的地方都应该得到 支持,因此,核心协议的数量不应该太多,否则就成了协议层次结构中的一个瓶 颈。 l ( 1 基于g l o b u s 的分布式数据挖掘模型研究与实现 图3 - 3 沙漏形状的五层结构 从网格应用开发者的角度来看,各个层次的协议和服务都提供了相应的a p i 和s d k ,使得用户可以很容易地构建网格应用。可见,资源共享协议和资源间的 通信协议是核心,网格环境则实现了广域范围内的资源共享和协同工作,将面向 i n t e r n e t 的计算推进到了一个新的阶段。计算网格体系结构中的连接层、资源层 和汇聚层的功能需要由架构在资源层之上、应用层之下的网格中间件实现。 3 1 3 开放网格体系结构 3 1 3 1o g s a 的架构 开放网格服务结构o g s a ( 0 p e ng r i ds e r v i c e sa r c h i t e c t u r e ,o g s a ) n 9 4 0 3 是继五 层沙漏结构之后最重要,也是目前最新一种网格体系结构,被称为下一代的网格 结构。图3 - 4 描述了o g s a 层次体系结构。在o g s a 中,网格就是可扩张的网格服 务的集合。o g s a 是在原来的五层沙漏结构基础之上,结合最新的w e bs e r v i c e 技术提出来的,包括两大关键技术即网格技术署l l w e bs e r v i c e 技术。 摹十g l o b u s 的分布式数据挖掘模型研究弓实现 国圆国国国国 图3 4 0 g s a 的层次结构 o g s a 架构由五个主要的层构成,从下到上依次为:资源层、物理和逻辑资 源层、w e b 服务层( 以及定义网格服务的o g s i 扩展) 、基于o g s a 架构的服务 层、应用程序层。 1 ) 、物理和逻辑资源层 资源的概念是o g s a 以及通常意义上的网格计算的中心部分。构成网格能力 的资源并不仅限处理器。物理资源包括服务器、存储器和网格。物理资源之上是 逻辑资源,他们通过虚拟化和聚合物理层的资源来提供额外的功能。通用的中间 件,如文件系统、数据库管理员、目录和工作管理人员,在物理网格之上提供这 些抽象服务。 2 ) 、w e b 服务层 o g s a 架构中的第二层是w e b 服务。在o g s a 模型中,所有网格资源都被 描述为服务的形式。o g s i 规范定义了网格服务并建立在标准w e b 服务技术之上。 o g s i 利用诸如x m l 与w e b 服务描述语言( w s d l l 2 t 2 2 1 ) 这样的w e b 服务机制, 为所有网格资源指定标准的接口、行为与交互。o g s i 进一步扩展了w e b 服务的 定义,提供了动态的、有状念的和可以臀理的w e b 服务的能力。 3 ) 、基于o g s a 架构的网格服务层 w e b 服务层及其o g s ! 扩f 建为 :j 三:提供了基础设施,即甚于o g s a 架构的嘲 基于g l o b u s 的分布式数据挖掘模型研究与实现 格服务。这一层主要包括四种网格服务:网格核心服务、网格程序执行服务、网 格数据服务和特定领域的服务。随着这些新架构的服务开始出现,o g s a 将变成 更加有用的面向服务的体系结构( s e r v i c eo r i e n t e d a r c h i t e c t u r e ,s o a ) 。 4 ) 、网格应用程序层: 随着时间的推移,一组丰富的基于网格架构的服务不断被开发出来,使用一 个或多个基于网格架构的服务的新网格应用程序不断出现。比较有代表性的开发 工具有:c o gk i t s 、m p i c h g 2 、c o n d o 卜g 、m y p r o x y 等,这些应用程序构成了 o g s a 架构的第四层。 o g s a 最重要的特点是以服务为中心,该架构认为“一切都是服务 ,网格 服务可由多个服务合成。不同于五层沙漏强调的以协议为中心,o g s a 把服务提 到了概念的最上层,把所有的资源虚拟化为服务并采用统一的w s d l 语言进行描 述,服务之间的互操作问题用标准定义的网格服务来解决。为了构建网格服务, o g s a 定义了一组接口和接口上的操作,利用这些接口的不同组合可以实现不同 的网格服务;同时描述了如何用这些接口实现网格服务的发现、创建、命名、引 用、生命周期管理和服务l 、日j 通信等问题。 3 1 4o g s a 的w e b 服务资源框架实现 尽管o g s a 为开发网格应用定义了标准的接口( 例如定义了任务提交接口, 这个接口有一个提交任务的方法:s u b m i o o b ) ,但为了使o g s a 架构能被业界广 泛采用,它必须要有一种通用的方式来调用这个接口。在理论上可以用任何的分 布式中间件( c o r b a 、r m i 、传统的r p c ) 来实现,但是,w e bs e r v i c e 最终成 为这一实现的基础。w e bs e r v i c e s 架构虽然是一种最好的选择,但是它始终还是 无法满足o g s a 的一个最重要的需求底层的中f h j 件必须是要有“状态的”。 不幸的是虽然w e bs e r v i c e s 在理论上是可以“有状态”的或者是“无状态”的, 但是通常他们都是作为“无状态”来实现的,而且也没有一种标准的、被认可的 方式来使他“有状态”。w s r f ( w e bs e r v i c e sr e s o u r c ef r a m e w o r k ) 心2 1 正是为了 使w e bs e r v i c e s “有状念”j 被提出来的。o g s a 、w s r f 、w e bs e r v i c e s 三肴父 系f h i 卜图3 - 5 所示。 肇于g l o b u s 的分布式数据挖掘模型研究j 实现 图3 5o g s a 、w s r f 、w e bs e r v i c e s 三者关系 w e b 服务资源框架定义了使用w e b 服务来访问有状态资源的一系列规范。它 包括w e b 服务资源生命周期( w s r e s o u r c e l i f e t i m e ) ,w e b h 艮务可更新引用 ( w s r e n e w a b l e r e f e r e n c e s ) ,w e b 服务资源属性( w s r e s o u r c e p r o p e r t i e s ) ,w e b 服务 服务组( w s s e r v i c e g r o u p ) 和w e b 服务基本错误( w s b a s e f a u l t s l 2 4 2 5 1 ) 规范。虽然 w e b h 眨务实现在它们交互的过程中并不维护状态信息,但是它们的交互必须经常 性地为状态操作考虑。也就是说,数据的值通过w e b j 艮务交互得以持久化,并且 作为w e b 服务交互的结果而保存。这也是w s r f 这一规范的主要目的。另外还有 一些重要的规范如:w s a d d r e s s i n g 、w s n o t i f i c a t i o n 规范,虽然他们不属于 w s r f ,但是,是对w s r f 规范的重要补充。 3 1 5w s r f 和o g s i 作为o g s a 最新核心规范的w e b 服务资源框架w s r f n ,它的提出加速了 网格和w e b 服务的融合,以及科研界和工业界的接轨。o g s a 和w s r f 目前都 处于不断的发展变化之中。2 0 0 4 年6 月,o g s a1 0 版本发布,阐述了o g s a 与w e b 服务标准的关系,川时给出了小的o g s a 应用实例。o g s a2 0
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工业建筑方案设计公司
- 医用气密门安装施工方案
- 整经工专业技能考核试卷及答案
- 玉环市现代庭院施工方案
- 花鸟市场建筑方案设计
- 建筑外部楼梯处理方案设计
- 建筑服务账务处理方案设计
- 策划化妆品活动方案
- 打印机国产耗材营销方案
- 校园线上活动策划方案案例
- 上海小学数学教材目录(沪教版)
- GB/T 13576.4-1992锯齿形(3°、30°)螺纹公差
- 一年级新生入学家长会
- 机械工程学科课件
- 公共教育学试题10套 答案
- 污水管道施工截流,导流方案
- 保洁常用工具和设备一览表
- 《牙周》课件药物治疗-徐莉
- 50米t梁的预制及安装施工技术方案
- A107010《免税、减计收入及加计扣除优惠明细表》
- 某项目工程应急处置预案工程施工组织设计方案
评论
0/150
提交评论