(计算机软件与理论专业论文)面向网格的数据采集和监测系统的设计与实现.pdf_第1页
(计算机软件与理论专业论文)面向网格的数据采集和监测系统的设计与实现.pdf_第2页
(计算机软件与理论专业论文)面向网格的数据采集和监测系统的设计与实现.pdf_第3页
(计算机软件与理论专业论文)面向网格的数据采集和监测系统的设计与实现.pdf_第4页
(计算机软件与理论专业论文)面向网格的数据采集和监测系统的设计与实现.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(计算机软件与理论专业论文)面向网格的数据采集和监测系统的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 近年来,许多领域对计算机的计算能力的要求越来越高,一些大规模的科 学计算单靠一台甚至数台超高性能的大型机都无法得到期望的效果。科学研究 与商业应用对计算能力的不断需求,促进了网格计算技术的出现与迅速发展。 为了充分利用网格中的资源,更好的发挥网格计算的性能,就需要对网格环境 中的资源和作业信息进行采集,并以图形化的方式展现给用户,方便用户制定 调度策略,以提高资源的利用率,从而提高性能。因此,如何对网格环境中的 资源和作业信息进行及时、高效的采集和管理,已经成为广大用户的迫切需求, 也成为业界亟待解决的挑战。 本文深入研究了网格以及网格中数据的特点,在分析传统的数据采集和监 测系统及关键技术的基础上,设计和实现了面向网格的数据采集和监测系统 g d c s 。g d c s 基于m a n a g e r a g e n t 模型,将e t l 技术应用于数据采集过程, 利用开源的作业调度框架q u a r t z 迸行自动调度,最后通过第三方工具 j f r e e c h a r t ,将采集到的数据以图表的形式展现给用户。本文结合一家在网格计 算方面领先的大型企业的数据采集项目,给出了系统中各个关键技术的设计、 实现的详细描述,在实际环境中运行的结果表明,g d c s 从功能和性能上满足 了企业用户的需求。 关键词:网格,e t l ,数据采集,数据展现 a b s t r a c t i nr e c e n ty e a r s ,t h e r ea r eh i g h e rd e m a n d sf o rt h ec o m p u t i n ga b i l i t yo fc o m p u t e r i nm a n ya r e a s i ns o m el a r g e - s c a l es c i e n t i f i cc o m p u t i n g ,i ti sn o tp o s s i b l et oa c h i e v e d e s i r e de f f e c t st or e l yo no n l yo n eo rs e v e r a lu l t r a - h i g h p e r f o r m a n c ec o m p u t e r s u n d e rt h e s ei n c r e a s i n gd e m a n d sf o rc o m p u t i n gp o w e ri nr e s e a r c ha n dc o m m e r c i a l a r e a s ,g r i dc o m p u t i n gt e c h n o l o g ye m e r g e sa n dh a sb e e nd e v e l o p i n gr a p i d l y i no r d e r t oi m p r o v ep e r f o r m a n c eb ym a k i n gf u l lu s eo f 鲥dr e s o u r c e s ,t h ei n f o r m a t i o no f r e s o u r c ea n dc o m p u t i n gt a s km u s tb ec o l l e c t e da n dd i s p l a y e dg r a p h i c a l l yt ou s e r t h e nu s e rc a ns e l e c ts c h e d u l i n gs t r a t e g yb a s e do nt h e s ei n f o r m a t i o nt oe n h a n c et h e u t i l i z a t i o no f r e s o u r c e s s o ,h o wt oe f f i c i e n t l ym a n a g er e s o u r c e sa n dc o m p u t i n gt a s k i n f o r m a t i o ni nt h e 鲥di sb e c o m i n gt h eu r g e n ta n dt h em a j o rc h a l l e n g e i nt h i sp a p e r ,w i t ht h e s t u d yo ft h ec h a r a c t e r i s t i c so f 鲥da n di t sd a t a ,t h e a n a l y s i so ft r a d i t i o n a ld a t ac o l l e c t i o na n dm o n i t o r i n gs y s t e ma sw e l la si t sk e y t e c h n o l o g i e s ,ag r i d o r i e n t e dd a t ac o l l e c t i o na n dm o n i t o r i n gs y s t e mg d c si s d e s i g n e da n di m p l e m e n t e db a s e do nm a n a g e r a g e n tm o d e l e t lt e c h n o l o g yi sp u t i n t oi t sd a t al o a d i n gp r o c e s sa n da no p e ns o u r c ej o bs c h e d u l i n gf r a m e w o r kq u a r t zi s t a k e nf o ra u t o m a t i cs c h e d u l i n g f i n a l l y ,t h et h i r dp a r t yt o o lj f r e e c h a r ti sp u ti n t o u s et od i s p l a yc o l l e c t e dd a t ai nd i a g r a m w i t had a t ac o l l e c t i o np r o j e c ti nal e a d i n g g r i dc o m p u t i n gc o m p a n y ,t h ed e s i g na n di m p l e m e n to fi m p l e m e n t a t i o ne a c h t e c h n o l o g yi sd e s c r i b e di nd e t a i l a st h er e s u l t si np r a c t i c a lr u n n i n gt u r no u t ,g d c s h a sm e tt h en e e d so fb u s i n e s su s e r si nb o t hf u n c t i o n a l i t ya n dp e r f o r m a n c e k e y w o r d s :g n d ,e t l ,d a t ac o l l e c t i o n ,d a t ae x p r e s s 西北大学学位论文知识产权声明书 本人完全了解西北大学关于收集、保存、使用学位论文的规定。 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版。 本人允许论文被查阅和借阅。本人授权西北大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。同时授权中国科学技术信息研 究所等机构将本学位论文收录到中国学位论文全文数据库或其它 相关数据库。 保密论文待解密后适用本声明。 学位论文作者签名:主f 垒 指导教师签名: 2 。声汨f 7 日 2 矿哆年朔,7 日 西北大学学位论文独创性声明 本人声明:所呈交的学位论文是本人在导师指导下进行的研 究工作及取得的研究成果。据我所知,除了文中特别加以标注 和致谢的地方外,本论文不包含其他人已经发表或撰写过的研 究成果,也不包含为获得西北大学或其它教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:虿f 垒 2o o f 年f 月7 日 西北大学硕士学位论文 第1 章绪论 本章首先介绍面向网格的数据采集和监测的研究背景及意义,随后介绍本文研究内 容及其主要工作,最后给出本文的组织结构。 1 1 研究背景 随着计算机和网络技术的迅猛发展,基于互联网的各种技术的兴起和广泛应用,有 力地促进了网络环境下的商业应用发展和科学应用研究。人们对计算机的应用需求正迅 速朝着高性能、多样性、多功能发展,这些需求已经远远超出了独立的超高性能计算机 的处理能力,为了解决这个问题,网格计算技术应运而生。网格计算技术可以将地理和 组织上分布的异构的各种高性能计算机、数据服务器、大型检索存储系统和可视化、虚 拟现实系统等,通过高速互连网络连接并集成起来共同完成一些重大应用研究问题,并 且实现资源的共享1 】【2 1 。事实上,网格计算利用各种资源组成的虚拟超级计算机进行运 算,从而完成独立计算机不能完成的计算任务【3 】f 4 1 。 网格技术实现了资源的共享及协同工作,在实现计算机互通的i n t e r n e t 技术和实现 网页连通的w e b 技术出现之后,又一次掀起了互联网的浪潮。网格技术自出现以来, 引起不少的国内外专家和学者的广泛关注,并纷纷加入到网格技术的研究队列中,时至 今日,一系列网格系统和技术被提出。在国际上,比较具有代表性的网格系统有:由i a n f o s t e r 领导的g l o b u s 网格项目,g l o b u s 项目组开发出了可以在多种不同平台上运行的 网格计算工具软件包,值得一提的是,工具包的源码已经对公众开放,任何人都可以从 其网站获得完整的源代码,以便在此基础上进行研究和改进;开放网格架构6 】( o p e n g r i ds e r v i c e sa r c h i t e c t u r e ,o g s a ) 是由全球网格论坛( g l o b a lg r i df o r u m ,g g f ) 提 出的,o g s a 是一组基于开放标准的技术规格和标准,目的是为世界各地的网格提供一 个公共的技术基础。在国内,不得不提的是织女星网格项目,由中国科学院承担的研究 课题,织女星网格项目主要包括知识网格( k n o w l e d g eg r i d ) 、信息网格( i n f o r m a t i o n g r i d ) 、服务网格( s e r v i c eg r i d ) 、基础研究和网格操作系统( g r i do p e r a t i n gs y s t e m ) 五个部分i 。 网格技术发展迅速,其应用领域不断扩大,但是不管是科学研究还是商业应用,用 户使用网格计算技术的目的之一就是进行大规模的计算,那么如何保证所有的资源都能 得到合理的利用,充分发挥自身的性能,从而真正发挥网格计算的优势,必将成为网格 第1 章绪论 用户比较关注的问题。这就需要将网格环境中的资源使用情况和作业运行状态等数据, 进行及时、高效的采集,并以报表的形式展现给用户,便于管理员能够及时的调整资源 分配和作业调度策略,从而提高网格性能,高效的完成计算任务8 1 。网格技术高速发展 的同时,对网格中资源信息采集和管理以便对网格系统的性能进行监测的研究显得越来 越重要,没有高效的数据采集和监测系统的支撑,便不能对网格资源进行合理的调度, 最终将限制网格的性能【9 1 。 目前,国内外对网格的研究主要集中在其技术和规模上,而对网格中资源和作业的 信息管理才刚起步,还没有比较完善的数据采集和管理工具。网格领域中典型的数据采 集和监测系统包括:d g m o n i t o r 、d r m o n i t o r 、s u p e r m o n 等,虽然这些系统在一定程度 上实现了网格系统中的数据采集和监测,但是随着网格规模的不断扩大,数据量的大幅 增加和资源种类的增多,其采集数据格式过于固定、采集机制不可靠、中转环节过多等 问题对数据采集质量的影响越来越大,如何解决现有数据采集和监测系统存在问题,及 时、完整、高效的采集网格环境中的资源和作业信息,为管理网格环境提供支持,已经 成为业界一个亟待解决的挑战【1 0 】。 本文在深入研究网格及现有网格环境下数据采集和监测系统存在问题的基础上,通 过采用抽取、转换、加载技术( e x t r a c t i o n 、t r a n s f o r m a t i o n 、l o a d i n g ,e t l ) 、q u a r t z 等技术设计并实现了面向网格的数据采集和监测工具,此工具能够在不影响网格性能的 情况下,实现了对用户关心的各类数据进行及时、高效地采集和展现。本课题的研究是 基于一家在网格计算方面领先的大型企业p l a t f o r m 软件( 北京) 有限公司的数据采集项 目,本人有幸在实践过程中参与并承担了该项目的整体设计和部分研发工作。值得欣喜 的是,至本文定稿时,该系统已经在多家企业的生产环境中部署,赢得了广大客户的一 致好评。 1 2 研究现状 1 典型系统 网格的目的就是将大量异构的、地理位置分布的资源通过高速网络集成为一个虚拟 的超级计算机,以实现分布式资源共享,完成科学研究和商业应用1 1 】【1 2 】。这些资源既 包括价格昂贵超高性能的大型机和工作组,也包括价格低廉的个人电脑,以及一些存储 资源等等。为了提高这些资源的利用率,同时更好地对网格中作业进行分配和调度,一 2 西北大学硕士学位论文 些面向网格的数据采集和监测系统被开发出来,用于采集网格中各节点的负载情况【l 3 1 。 以下是对这些系统的研究。 1 ) 由美国加州大学s a n d i e g o 分校开发的桌面网格性能监测工具d g m o n i t o r t m j 。由 图1 1 可知,它基于c s 结构,采用面向使用沙箱技术( s a n b o x ) 【l5 1 ,通过安装在被监 测计算机上的使用s a n d b o x 技术的桌面网格客户端来进行数据采集与监测。系统首先分 发一个m l a u n c h e r 进程,m l a u n c h e r 进程在沙箱s a n d b o x 外部创建一个m s t a r t e r 进程, 然后由m s t a r t e r 进程生成真正的监测系统客户端m d a e m o n 进程。m d a e m o n 作为一个独 立的进程在沙箱s a n d b o x 外部运行,进行系统信息的采样,并把采样到的数据实时地传 送给监测系统服务器端的m c o l l e c t o r 进程。m c o l l e c t o r 不仅负责接收数据,将数据写到 数据库或文件中,同时还负责对m d a e m o n 的控制。 图1 1d g m o n i t o r 结构图 为了减少额外的开销,d g m o n i t o r 采用“租借”和自我清除机制。m d a e m o n 每隔 一定时间t 向m c o l l e c t o r 申请监测权,如果申请不成功则终止。但是,这样做的缺陷是 当网络故障或m c o l l e c t o r 端失效时,使得m d a e m o n 不能正常运行,从而导致整个系统 停止。而且当被监测计算机重新启动后,客户端m d a e m o n 进程并不能自动运行。 n o d e 2 瓜 a g e n t 矽飞 奔 l l 矿弋 i | 夕 影 沁c o o 姓r d i n a t 彩o r 图1 - 2d r m o n i t o r 结构图 2 ) 用于监测局域网中计算机资源利用率的分布式数据采集与监测系统 d r m o n i t o r l l6 1 ,它支持w i n d o w s 系统,也支持l i n u x 系统。 图1 2 是d r m o n i t o r 的体系结构,它采用了基于m a n a g e r a g e n t 的结构,每个被监 测资源上都运行一个a g e n t 进程,负责周期性地采集系统信息,然后将信息发送给承担 3 第1 章绪论 m a n a g e r 角色的c o o r d i n a t o r ,整个系统中只有一个c o o r d i n a t o r ,它负责接收、存储和分 发资源信息。 d r m o n i t o r 提供了一些a p i ,运行在被监测节点上的应用软件可以通过这些a p i 来 获得系统信息,这些信息主要包括c p u 利用率和r a m 利用率。为了保证d r m o n i t o r 的可用性,在c o o r d i n a t o r 和a g e n t 端各安装了一个“看门狗程序”,负责监控这些进程 的运行,一旦这些进程终止,就自动启动它们。d r m o n o i t o r 的缺陷是它不支持数据库, 并且监测只能在局域网范围内进行。 3 ) s u p e r m o n 1 7 1 是由美国洛斯阿拉莫斯国家高级计算实验室开发的一套面向l i n u x 集群的、高速的、可扩展的数据采集和监测系统。其系统结构如图1 3 所示。 n o d e 2 p r o c , n o n n o d e n p r o c , m o n 图l 一3s u p e r r n o n 系统结构不意图 从结构上,它可分为三个层次,底层是每个节点上的数据服务( m o r t ) ,用来收集 节点状态信息;中间层是一个数据集中器( s u p e r m o n ) ,它的任务是接收来自每个m o n 的数据并处理来自上层的数据请求;最上层是项层数据集中器或者应用客户端,用来获 取每个s u p e r m o n 的数据,进行显示或是再次汇总。 为了降低系统开销,它也采用了分层结构,在操作系统内核定制了监测模块。它采 用轮询方式获取数据,但是轮询方式在节点数量增多时会影响获取数据的速度,同时也 影响了它的扩展性。 s u p e r m o n 不保存和处理历史数据,也没有监控数据的图形用户界面或w e b 接口。 4 1r g m a 网格监控架构 r g m a ( r e l a t i o n a lg r i dm o n i t o r i n ga r c h i t e c t u r e ) t 1 8 1 是全球网格论坛定义的网格监测 结构g m a 的一个实现,基于关系数据模型,其主要用途是订阅事件,即用户可以直接 4 西北人学硕士学位论文 从数据源预定具有某具体特性的数据流,从而产生一对新的产者消费者关系,允许在 特性满足条件时,消费者从生产者获得订阅的数据。 r g m a 系统从全局视角出发,认为每个虚拟组织都有一个大型的关系数据库。 p r o d u c e r :注册、发布数据、c o n s u m e r :查询,分别相当于s q l 的c r e a t et a b l e 、i n s e r t 、s e l e c t 语句。r g m a 定义了五种p o r d u c e r :d a t a b a s e p r o d u c e r ,s t e a m p r o r d u c e r ,r e s i l i e n t p r o d u c e r , l a t e s t p r o d u c e r ,c a n o n i c a l p r o d u c e r 。这五类p o r d u c e r 通过不同的方式将数据保存在不同 的地方。 总体说来,r g m a 基本上做到了对网格监控资源的合理分类和联合查询,较好的 支持了对用户所关心的数据的订阅功能,但是没有监控服务、应用等其他网格组件,基 于监控结果的资源性能分析、预测等也没有实现。 5 ) g a n g l i a t l 9 1 是加州大学b e r k e l e y 分校的m i l l e n n i u mw o r k g r o u p 开发的一个开源项 目。 如图1 4 ,它采用了树状结构以及分级和联邦的方式,获得了被监测节点的良好的 扩展性。其内部采用了多播l i s t e n a n n o u n c e 协议,从而实现了被监测节点的动态增删, 但是使用多播发布数据,每个节点都需要记录所有节点的状态信息,因此当被监测节点 和发布数据增多时,系统会更多的占用单个节点的资源,增加了系统的开销。 图1 - 4g a n g l i a 结构图 g a n g l i a 支持多种操作系统,包括l i n u x ,a i x ,h p u x ,s o l a r i s 等,而且g a n g l i a 支 持各种监控信息的获取,包括c p u ,内存,网络,i o 等信息。因为它采用了组播的技 术,这使得每个g m o n d 节点都具有其他g m o n d 节点的信息,因此,即使有_ 个g m o n d 5 第1 章绪论 节点出现故障,对系统的影响不会太大,g m e t a d 可以自动的从该通道的其他节点获取 信息。 但是,由于g n a g l a i 最初是为集群监控程序而设计的,因此应用在网格监控方面, 就造成了它的先天不足。( 1 ) 虽然g a n g l i a 的组播机制可以增加系统的健壮性,但是随着 系统内资源的增加,组播会造成较大的网络负载。( 2 ) 虽然g a n g l i a 以一个命令行工具来 提供用户收集并且把收集到的信息加入到组播通道中,但是,一个命令行形式的程序对 于用户来说是不方便扩展的。( 3 ) g a n g l i a 需要用户手动静态配置资源的组织结构,这对 于网格这样一种资源可能随时加入或者离开的分布式环境是不可想象的。 2 典型技术 由于网格系统中数据的特点,数据采集大多采用基于m a n a g e r a g e n t 模型的系统结 构,以实现灵活、高效的数据采集【2 0 】【2 1 1 。 m a n a g e r a g e n t 模型主要由管理者m a n a g e r 、管理代理a g e n t 和被管对象组成。其 中,m a n a g e r 负责整个系统的管理,a g e n t 负责管理其管辖区域中的被管对象,m a n a g e r 和a g e n t 之间利用网络通信协议交换相关信息。m a n a g e r 和a g e n t 之间的信息交换可以 分为两种:从m a n a g e r 到a g e n t 的管理操作命令,以及从a g e n t 到m a n a g e r 的事件通知。 这种模型的优势在于:m a n a g e r 不需要与每个被管对象直接通信,它只需和a g e n t 进行交互,减少了对网络资源的占用;另外,a g e n t 本身具有一定的自治性和反应性的 特点,它不必通报m a n a g e r ,就能够自主的处理被管理对象的请求,并做出反应。这样 就减轻了m a n a g e r 的负担,使系统的管理层次化,分散化。在数据采集中,被管对象是 数据源d a t a s o u r c e 。 在基于m a n a g e r a g e n t 模型的数据采集中,数据采集流程如下:a g e n t 负责采集、 管理一个数据源并将采集到的原始数据通过网络传递给其上层管理者m a n a g e r ,一个 m a n a g e r 可以管理一个或多个a g e n t ,再加上系统中的海量数据,每个m a n a g e r 每次采 集到的数据量将会很大,为了减少数据传递过程中占用的带宽,m a n a g e r 负责将数据进 行压缩,然后将压缩后的文件传递给系统中的中央管理节点m a s t e r ,m a s t e r 节点将采集 到的所有压缩文件解压,最后写入到数据库。基于m a n a g e r a g e n t 模型的数据采集系统 架构如图1 5 所示。 由图1 5 可以看出,数据从数据源写入到数据库的过程中,需要经过a g e n t 、 m a n a g e r 、m a s t e r 三个中间环节,其中每个m a n a g e r 根据各自的配置文件,定期将脏数 据过滤掉,然后压缩并传递给m a s t e r ;m a s t e r 将数据解压为文件,利用数据e t l 技术 6 西北人学硕上学位论文 将数据写入到数据库中。数据每经过一个环节,都需要该环节对应的组件进行处理,然 后利用网络通信协议将数据传输到上一层,经过三层的传递才最终将数据写入到数据 库。将数据源采集到数据库中需要经过多个组件的处理,各组件的处理能力受到硬件设 备状态及软件稳定性的制约,一旦某个环节出现问题,必将影响数据采集的质量,而且 数据通过网络在各组件间传输,还将受到网络带宽的限制。在各环节运行正常的情况下, 才能高效、完整的采集系统中的数据,一旦某个环节出现故障,不仅会造成数据丢失, 而且也将提高系统的维护成本。 图1 - 5 基于m a n a g e r a g e n t 模型的数据采集系统结构 1 3 问题的提出及论文的主要工作 通过对以上网格系统中数据采集和监测系统的研究,以及主要模型的分析,这些系 统都不同程度地存在以下问题【2 2 】【2 3 】: 1 采集和监测的数据类型固定。大部分系统采集和监测的数据类型都比较固定, 如果要采集新的数据类型则需要重新设计系统,可扩展性差。 2 异常处理机制不完善。网格系统实时变化,异常情况的出现是不可避免的,现 有系统对异常处理的机制不够完善,影响数据的完整性和正确性。 3 数据从数据源到数据库之间的中转环节过多,容易造成数据丢失,增加了网络 负载和后期维护的难度,提高了维护的成本。 7 第1 章绪论 综上所述,针对现有系统和模型存在的问题,并根据网格系统中数据的特点,本文 设计并实现了面向网格的数据采集和监测系统。该系统具有跨平台性、高可靠性、高可 扩展性,以及监测结果图形化等优点,满足了企业网格用户的需求。 本文在深入研究网格技术的基础上,通过系统地分析和研究网格中数据的特点以及 现有数据采集和监测系统中存在的问题,结合实际应用的需要和网格中间件的特点,设 计并实现了面向网格的数据采集和监测系统。该系统的设计着重从可靠性、安全性、可 扩展、易使用等方面进行了全面细致的考虑,系统设计目标是期望能够及时、准确、高 效地采集系统内部各种资源和作业的运行状态信息,并以简单直观的报表形式展现出 来,使用户可以随时随地的查看报表,为系统优化决策提供依据。论文的主要工作包括 以下几个方面: 1 网格技术、典型数据采集和监测系统的描述和分析 分析和总结网格的体系结构、网格中间件和网格中数据的特点,通过研究目前典型 系统和使用的关键技术,分析当前系统存在的采集数据格式过于固定、异常处理不完善 等问题,为系统的设计和实现做理论准备。 2 系统设计中的关键问题及技术 在对现有系统和技术分析的基础上,提出了系统设计中的关键问题和设计思想。在 本文提出的设计思想中,利用守护进程技术实现完善的异常处理机制;使用e t l 、q u a r t z 等技术解决数据采集类型过于固定、数据采集中间环节过多等问题,从而使得系统能够 在不影响网格性能的前提下,及时、准确、高效地采集各种所需的资源和作业信息。此 外,以报表形式向用户直观地展示资源和作业信息的变化,以便于用户根据这些信息对 网格系统中的资源进行优化。 3 系统的设计与实现 基于对系统设计中关键问题和技术的分析研究,将面向网格的数据采集和监测系统 划分为三个子系统,分别对各个子系统进行了详细的设计与实现,最终实现了一个可应 用于实际环境的面向网格的数据采集和监测系统。 4 系统测试 为了验证系统的性能,在一个由5 0 个节点构建的网格中应用此系统,对数据采集、 数据清洗和数据展现三个子系统分别进行测试,测试结果表明各个子系统能够高效完成 各自的功能。 8 西北大学硕士学位论文 1 4 论文的组织结构 本文以面向网格的数据采集和监测系统的设计与实现为重点,共分为六章,每章的 内容如下: 第1 章绪论 概述了本文研究背景、研究现状以及在研究背景下的主要工作。 第2 章相关研究 简单介绍网格技术相关知识,如网格及网格计算的概念、网格的体系结构、网格中 间件和网格中数据的特点。概述e t l 、q u a r t z 技术以及在数据采集和监测系统中的作用。 第3 章系统设计中的关键问题及技术 在对现有系统和技术分析的基础上,提出了系统设计中的关键问题和设计思想,主 要针对数据中转环节过多,以及现有系统中采集数据类型固定和异常处理机制不完善等 问题,给出相应的解决方案。 第4 章面向网格的数据采集和监测系统的设计与实现 根据企业用户对该系统的功能和性能需求,在上述理论研究的基础上,设计并实现 了面向网格的数据采集和监测系统,包括数据采集、数据清洗和数据展现三个子系统。 第5 章系统测试 本章从功能和性能两个方面,对系统进行了测试。 第6 章总结和展望 总结本论文的研究内容并指出论文中的不足以及进一步工作的内容。 9 第2 章相关研究 第2 章相关研究 本章首先概述网格和网格计算的概念、体系结构及其网格中间件,然后介绍了e t l 和q u a r t z 技术。 2 1 网格技术 2 1 1 网格和网格计算 随着大规模高性能计算应用需求的迅猛发展,传统的局域网环境下的并行计算已经 不能满足需求,虽然价格昂贵的超级计算机也能够实现大规模计算,但是其价格并非多 数用户能够承受,并且它也不能实现某些对计算精度和时间有非常高要求的应用。网格 技术就是为了解决上述问题而产生,它依托高速网络将分布在世界各个角落的能力千差 万别的计算资源联结在一起,形成大规模的几乎可以无限扩展的虚拟计算机。而网格计 算就是利用这些共享的基于动态的、异构的和跨区域的协同资源,以实现大规模的高性 能计算,从而满足用户需求2 4 】【2 5 】。 网格 2 6 】的概念产生于9 0 年代中期,它是以电力网为原型的,电力网的用户只需 将插头插入电源插座就可以获取电力资源,而不必关心所使用的电力资源来自哪旱,怎 样进行分配、调度和传输的。同样,人们期望能够通过简单的接入就可以获取计算机资 源,而不必关心计算机资源的来源、实现细节和调度过程。网格自提出以来还没有一个 被普遍接受的概念,综合网格之父,g l o b u s t 2 8 】【2 9 】项目的领导者i a nf o s t e r 将网格定义为: 网格是可扩展的服务集合,这些服务以不同的方式结合在一起以满足虚拟机构的需要, 这些虚拟机构本身被定义成它们操作和共享的服务的一部分。综合学术界和产业界所提 的各种网格概念,网格可描述为【3 0 】【3 1 】:网格集成动态、跨机构的虚拟组织的各种资源 ( 包括计算机、网络、数据、知识、仪器设备等) ,形成一台超级虚拟计算机,提供一 种强大、易用、可靠、经济、标准的计算和服务能力,实现广域范围、多机构间的资源 共享和协同问题解决。网格被认为是继传统互联网、w e b 之后的第三次浪潮,它试图 通过高速网络实现所有资源的共享和协同工作,其中包括计算资源、存储资源、通信资 源、软件资源、信息资源和知识资源等,使用户能够方便获取需要使用的各种资源。 网格计算利用网格中的各种资源组成的“虚拟的超级计算机”,处理大规模的计算 需求。在网格计算模式下,系统可以自动向每台计算机分配任务,如果其中一台计算机 出现故障,其他的计算机可以自动替代它继续进行处理。网格计算是分布式计算的一种 1 0 西北大学硕士学位论文 方式,这种方式之所以具有很强的数据处理能力,其实质就是集中利用网络上分散的闲 置处理能力和资源,控制这些资源进行协作从而完成各种数据的处理。网格技术在动态 变化的网络环境中,共享资源和协同解决问题,从而让用户从中体验可灵活控制的、智 能的、协作式的信息服务3 2 】【3 3 1 。 2 1 2 网格的体系结构 网格的体系结构主要是研究如何构建并实施网格的方案,它包括两个层次的内涵, 一是要标识出网格系统由哪些部分组成,清晰地描述出各个部分的功能、目的和特点; 二是要描述网格系统各个组成部分之间的关系和集成的方式或方法f 3 5 1 。i a nf o s t e r 将 网格体系结构定义为【3 6 】:划分系统基本组件,指定系统组件的目的与功能,说明组件之 间如何相互作用的技术。显然,网格体系结构是网格的骨架,只有建立合理的网格体系 结构,才能设计和构建好的网格。目前流行的网格体系结构主要有五层沙漏结构( f i v e l e v e ls a n d g l a s sa r c h i t e c t u r e ) 、开放网格服务体系结构o g s a 和w e b 服务资源框架( w e b s e r v i c er e s o u r c ef r a m e w o r k ,w s r f ) 三个【3 7 】。其中w s r fv 1 2 规范已经被批准为结构 化信息标准促进组织( o r g a n i z a t i o nf o rt h ea d v a n c e m e n to fs t r u c t u r e di n f o r m a t i o n s t a n d a r d ,o a s i s ) 标准 3 8 】。 1 五层沙漏结构 五层沙漏结构( 如图2 1 所示) 是由i a nf o s t e r 等人最早提出的网格体系结构,对 网格的发展影响十分深远,它的主要特点是简单,主要侧重于定性的描述而不是具体的 协议定义【39 1 。五层沙漏结构的基本思想是:以协议为中心,强调服务与应用程序接口 ( a p p l i c a t i o np r o g r a mi n t e r f a c e ,a p i ) 和软件开发包( s o f t w a r ed e v e l o p m e n tk i t ,s d k ) 的重要性。 图2 - 1 五层沙漏结构 五层沙漏结构将网格的结构分为五层,每一层完成不同的功能,具体描述如下: 第2 章相关研究 1 ) 构造层。构造层的基本功能是控制局部资源,包括计算资源、存储系统、网络 资源、分布式文件系统、传感器等,并为上层提供访问这些资源的接口。 2 ) 连接层。连接层的基本功能是实现相互的通信,定义了核心的通信和认证协议, 用于处理网格中的网络事务。 3 ) 资源层。资源层的主要功能是实现对单个资源的共享。通过定义的协议对资源 进行初始化、控制,从而监控资源的运行情况。 4 ) 汇聚层。汇聚层的主要功能是协调多种资源的共享,将资源层提交的资源汇聚 在一起,以供虚拟组织中的应用程序使用。 5 ) 应用层。这一层表示网格上用户的应用程序,存在于虚拟组织中。 在该结构中,资源层和连接层组成了协议层次结构中核心的瓶颈部分,从而形成了 一个沙漏形状的结构。 2 开放式网格服务体系结构 开放网格服务体系结构o g s a 是由全球网格论坛g g f 于2 0 0 2 年提出的,它也是 一种分层的体系结构,如图2 2 所示,其核心体系结构层是开放网格服务体系基础( o p e n g r i ds e r v i c ei n f r a s t r u c t u r e ,o g s i ) 和o g s a 核心平台服务【加1 。o g s i 提供了基本的基础 设施,而o g s a 核心平台服务则是一组标准服务,这些服务包括策略、记录、服务水 平管理等。高层的应用及服务使用低层核心平台的组件和o g s i 4 。o g s a 是以“服务 为中心的网格体系结构,在o g s a 框架中将各种计算资源、存储资源、网络、程序、 数据库等都抽象为服务,以便于通过统一的标准接口来管理和使用网格。 o g s a 将各种资源都抽象为服务,为管理和使用网格带来了便利,但是它也有缺陷 存在:过分强调网格服务和w e b 服务的差别,导致了两者之间不能更好地融合在一起; o g s i 规范中的内容太多,并且定义的所有接口和操作都与服务数据有关,缺乏通用性; o g s i 规范没有对资源和服务进行区分;o g s i 通过封装资源的状态,将具有状态的资 源建模为w e b 服务,这种做法引起了“w e b 服务没有状态和实例”的争议,同时某些 w e b 服务的实现不能适应网格服务的动态创建和销毁。 1 2 两北大学硕十学位论文 o g s a 平台服务 ( c m m 、服务领域、策略、安全、 记录、测量核算) 开放网格服务体系基础 ( o p e ng r i ds e r v i c ei n f r a s t r u c t u r e ,o g s i ) l 搠嚣撇1 主机环境协议 图2 2o g s a 平台体系结构 3 w e b 服务资源框架 w s r f 是由g l o b u s 联盟、i b m 和h p 于2 0 0 4 年初共同提出的,它的提出就是为了 解决o g s i 和w e b 服务之间存在的矛盾。2 0 0 4 年3 月,i b m 、b e a 与微软联合发布了 w s a d d r e s s i n g 协议,采用了与网格服务完全不同的定义:资源是有状态的,服务是无 状态的。w s r f 推出的目的是定义一个通用、开放的架构,从而能够利用w e b 服务对 具有状态属性的资源进行存取,并定义描述状态属性的机制和如何将机制延伸至w e b 服务中的方式。2 0 0 5 年1 月3 1 日发布的g l o b u st o o l k i t4 ( g t 4 ) ,实现了w s r f 标准。 从o g s i 到w s r f ,网格计算逐渐的采用w e b 服务和s o a 技术来解决科学研究、工程 和商业在异构环境下的资源共掣4 2 1 。 2 1 3 网格中间件 中间件是处于操作系统和应用软件之间的软件,在操作系统、网络和数据库之上, 应用软件的下层,总的作用是为处于自己上层的应用软件提供运行与开发的环境,帮助 用户灵活、高效地开发和集成复杂的应用软件。 p l a t f o r m 公司的e g o ( e n t e r p r i s eg r i do r c h e s t r a t o r ) 是一个能够为不同的应用、服 务及任务分配网格系统中共享资源的软件,主要负责管理网格中各种软硬件资源,根据 一定的分配策略为上层的应用提供所需的资源,相当于网格系统中管理资源的中间件。 e g o 建立在开放标准及架构之上,将分布式的、异构的各种软件和硬件资源组成为一 个独立的虚拟计算机,对其用户而言只需提出资源请求,就可以获得符合条件的资源, 以完成相应的应用和任务,而不必关心这些资源是如何通信、调度及分配蒯4 3 儿删。 1 e g o 的优点 1 3 第2 章相关研究 e g o 将网格环境中的资源虚拟化,采用集中式的调度模型将底层的资源管理与 上层的应用分开,其优点如卜: 1 ) 资源管理和应用分离,有利于资源共享,提高了资源的利用率; 2 ) 资源的分配策略可以依据企业自身的特点来定制,由i t 部门进行集中控制,使 资源的分配和调度透明化,提高了资源的可控性: 3 ) 网格产品的升级不会对企业的具体应用造成影响,有利于网格产品的升级,同 样地,具体应用的升级也不会影响网格产品。 2e g o 的体系结构 e g o 是建立在操作系统之r 的软件,主要负责管理网格中的资源,根据调度策略 为r 层应用分配资源,e g o 内核是若干个被自动启动的进程,它运行在网格系统的丰 控机m a s t e r 上,提供一套核心的中央控制功能,内核整合,所有主机的共享资源,并 对外表现为一个虚拟的计算机。它主要由l i m 、p e m 、v e m k d 、e g o s 和标准a p i 包 五个模块组成,如图2 3 所示。 1 ) 信息采集模块( l o a d i n f o r m a t i o n m a n a g e r ,l i m ) 该模块负责采集各台主机的信息,使用厂1 可以通过统一的a p i 接u 米商询各项信 息,如各种资源的状态、佑l k 的状态、分配给每个消费者的资源、已经启动的服务等。 信息采集模块提供了对静态信息和接近寅时的动态信息的统一访问方式,这样内核就可 以高效地监测和管理所有资源,便于用户及时获取司用资源。 二二二二三二二 m i c r o x o l 十w i n d o w sl i n u xi f i m a i xi f p - t _ s o 】1 5 剧2 - 3e g o 体系结构h 2 ) 作业执行模块( p r o c e s se x e c u t i o n m a n a g e r ,p e m ) 西北人学硕上学位论文 该模块负责在资源分配后,利用这些资源执行作业。它可以运行、终止或挂起被执 行的任务。内核利用在每台主机上运行的进程调用p e m 来执行一些远程操作。主机运 行状态的变化将会被同步报告给用户,由用户决定后续的操作。 3 ) 资源分配模块( v e mk e r n e ld a e m o n ,v e m k d ) 该模块负责管理来自作业或任务对资源的需求。v e m k d 进程只会在集群的主控节 点上启动。如同传统操作系统中的虚拟内存管理程序将物理资源转变为虚拟资源并分配 给应用程序一样,资源分配模块会将分布的资源虚拟化。例如,它能够将物理主机的 c p u 划分为多个虚拟的s l o t s ,这样用户就可以像使用真正的c p u 一样来使用s l o t s 。 通过考虑可用资源和消费者的权利,资源分配模块将会按照预先定义好的分配策略决定 分配哪些资源。它会跟踪每种资源的数量,调整它们的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论