(计算机软件与理论专业论文)基于网格的数据挖掘框架和元数据模型研究.pdf_第1页
(计算机软件与理论专业论文)基于网格的数据挖掘框架和元数据模型研究.pdf_第2页
(计算机软件与理论专业论文)基于网格的数据挖掘框架和元数据模型研究.pdf_第3页
(计算机软件与理论专业论文)基于网格的数据挖掘框架和元数据模型研究.pdf_第4页
(计算机软件与理论专业论文)基于网格的数据挖掘框架和元数据模型研究.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(计算机软件与理论专业论文)基于网格的数据挖掘框架和元数据模型研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着众多工业、科技、公共部门的信息化,可用的数字电子数据以空前的速 度在增长。知识型部门能够成功的一个关键因素是高效、有效的管理和使用这些 数据,特别地把它们转化为信息和知识。数据挖掘是满足这类信息需求的技术。 而传统的数据挖掘系统是在单机或本地机群上运行的系统,不能够有效、高效地 对分布在各地的数据进行挖掘。为了解决这个问题,本文探讨了一种基于网格的 数据挖掘的解决方案。 本文主要做了两方面的工作,首先综述了数据挖掘基本概念和网格计算的相 关概念及其发展历史;而后说明了基于网格的数据挖掘是解决面向数据分布领域 的数据挖掘难题的方案之一。分析了一种基于g l o b u st o o l k i tv e r s i o n4 和其它相关 开源技术和标准的数据挖掘体系结构,归纳了该体系结构内的功能实体,分析了 其调用过程和状态变化过程。根据这个体系结构设计实现的系统可以不对数据挖 掘应用做任何修改,就可以把应用程序部署到网格环境中。该体系结构的主要特 点有:灵活性、可扩展性、大规模性、有效性、易于理解和易于使用。其次分析 了基于网格的数据挖掘元数据模型。论述了应用元数据模型是实现基于网格的数 据挖掘的关键技术。通过元数据实例可以把数据挖掘应用方便地部署到网格服务 器中,通过查询注册在底层网格信息服务中的数据挖掘应用元数据模型实例文件 x m l 文件,用户可以发现注册在网格环境中的可用数据挖掘应用,这个元数据实 例文件也是调度和执行数据挖掘应用任务的基础。 关键词:网格计算;数据挖掘;网格架构;元数据模型 分类号:t p 3 0 1 6 a bs t r a c t d u et ot h ei n c r e a s e dc o m p u t e r i z a t i o no fm a n yi n d u s t r i a l ,s c i e n t i f i c ,a n dp u b l i c s e c t o r s ,t h ea m o u n to fa v a i l a b l ed i g i t a le l e c t r o n i cd a t ai sg r o w i n ga ta l lu n p r e c e d e n t e d r a t e n 坞e f f e c t i v ea n de f f i c i e n tm a n a g e m e n ta n dl l s eo ft h e s ed a t a , a n di np a r t i c u l a r t h e i rt r a n s f o r m a t i o ni n t oi n f o r m a t i o na n dk n o w l e d g e ,i sc o n s i d e r e dak e yr e q u i r e m e n t f o rs u c c e s si ns u c hk n o w l e d g e - d r i v e ns e c t o r s d a t am i n i n gi st h ed e - f a c t ot e c h n o l o g y a d d r e s s i n gt h i si n f o r m a t i o nn e e d b u tt h et r a d i t i o n a ld a t am i n i n gs y s t e m sw h i c hr u no n s i n g l em a c h i n eo rl o c a l c l u s t e rc a l ln o t p r o c e s st h ed i s t r i b u t e dd a t ae f f e c t i v e l y , e f f i c i e n t l y s oh e r eg i v eas o l u t i o nb a s eo ng r i dc o m p u t i n g t h em a i nw o r k so ft h i sp a p e ri n c l u d et w op a r t s f i r s t l y , s u r v e yo ft h et h e o r ya n d t e c h n o l o g i e sg r i dc o m p u t i n g a f t e rc o m p r i s i n gt h ea r c h i t e c t u r e so fg r i dn o w a d a y s ,t h e d e f i c i e n c i e so ft h e s e 鲥da r c h i t e c t u r e sa r ep r e s e n t e d a n di n d i c a t e st h a tt os o l v et h e p r o b l e m so fd i s t r i b u t e dd a t am i n i n gr e a l i z et h ed a t am i n i n g 酣di st h er i g h tw a y b y a n a l y z i n gt h er e q u i r e m e n t so f t h ed a t am i n i n g 鲥da n dc o m p a r i n gt h ea r c h i t e c t u r e so f t h e 鲥d s ,t h i sp a p e rp r o p o s e da r c h i t e c t u r eo ft h ed a t am i n i n g 鲥d b a s e do nt h eg l o b u s t o o l k i ta n do t h e ro p e nt e c h n o l o g ya n ds t a n d a r d s , t h ea r c h i t e c t u r ep r o v i d e st o o l sa n d s e r v i c e s f a c i l i t a t i n gt h e 班d e n a b l i n go fd a t am i n i n ga p p l i c a t i o n s w i t h o u ta n y i n t e r v e n t i o no nt h ea p p l i c a t i o ns i d e c r i t i c a lf e a t u r e so ft h ea r c h i t e c t u r ei n c l u d e f l e x i b i l i t y , e x t e n s i b i l i t y , s c a l a b i l i t y , e f f i c i e n c y , c o n c e p t u a ls i m p l i c i t ya n de a s eo fu s e s e c o n d l y , t h i sp a p e ri n v e s t i g a t em e t a - d a t as c h e m au s e df o rd a t am i n i n g 鲥d a f t e rt h e a c t u a ld a t am i n i n gp r o g r a m ( i e ab a t c h - s t y l ee x e c u t a b l e ) i su p l o a d e do na 鲥ds e r v e r a n da nx m ld o c u m e n t ( i e a ni n s t a n c eo ft h em e t a - d a t as c h e m a ) t h a td e s c r i b e st h e p r o g r a mi sp r e p a r e da n dr e g i s t e r e dw i t ht h eu n d e r l y i n gg r i di n f o r m a t i o ns e r v i c e s u s e r s c a nd i s c o v e r ya n de x e c u t i o no ft h ep r o g r a mi nt h e 鲥de n v i r o n m e n te a s i l y k e y w o r d s :g r i dc o m p u t i n g ;d a t am i n i n g ;g r i da r c h i t e c t u r e ;m e t a - d a t as c h e m a c l a s s n o :t p 3 0 1 6 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国 家有关部门或机构送交论文的复印件和磁盘。 学位论文作者签名。狮 签字日期:瑚年石月1 3 导师签名:黝缸 签字日期2 年g 月弓、日 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研 究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 学位论文作者签名:云军力瞻 签字日期:训年月日 4 9 致谢 本论文的工作是在我尊敬的徐保民导师教授的悉心指导下完成的,徐教授严 谨的治学态度和科学的工作方法给了我极大的帮助和影响。在此衷心感谢两年来 徐老师对我的关心和指导。 在实验室工作及撰写论文期间,孙培业、甘兴龙同学对我论文中的网格计算 和数据挖掘研究工作给予了热情帮助,在此向他们表达我的感激之情。 另外也感谢我的父母、我的爱人,他们的理解和支持使我能够在学校专心完 成我的学业。 最后,衷心地感谢在百忙之中审阅论文的各位老师和专家,恳请各位老师多 多批评指正,并提出宝贵的意见。 1引言 1 1课题背景及意义 随着众多工业、科技、公共部门的信息化,数据以空前的速度在增长。知识 型部门能够成功的一个关键因素是高效、有效的管理和使用这些数据,特别地把 它们转化为信息和知识。数据挖掘是满足这类信息需求的技术之一。数据挖掘是 从大量数据中抽取信息和知识的推测和交互过程【l 】。 对数据挖掘终端用户来讲,他们主要关注其应用领域内的概念、问题和任务。 简单的说就是他们只要求知道如何应用数据挖掘系统来完成他们的数据挖掘任 务,而不需要了解实现这个数据挖掘系统的底层技术。具体地,终端用户会要求 系统具有高效性、有效性,从而可以快速准确的实现其想要完成的任务;再有会 要求系统具有简单灵活的特点,从而可以快速的掌握如何使用这套系统。对具有 一定底层知识的用户,他们要求能对自己所使用的数据挖掘应用系统进行配置, 如:要选择算法,设置参数,制定工作流等,因此需要系统具有可配置性。 分布式计算环境的出现对处理分布式数据意义深远。将来的数据挖掘应用将 会运行在大规模数据集合上,并且用于处理、分析、评估和显示数据的程序会逐 步依赖于地理上分布的异构的计算平台。分布式数据挖掘、特别是基于网格的数 据挖掘在将来会成为研究和开发的热门领域。 网格计算可以看作是一个虚拟的计算体系结构,通过利用网络连接大量计算 机,网格可以提供高吞吐量的计算能力,巨大的存储资源,广泛的算法资源等。 因此研究基于网格的数据挖掘,对解决数据分布情况下的数据挖掘具有很大帮 助。 基于网格的数据挖掘需要面对广泛的数据挖掘应用场景,也就是说各种数据 挖掘应用都能够在基于网格的数据挖掘平台上运行。基于网格的数据挖掘系统需 要能够实现如下目标: ( 1 ) 网格透明:不理解底层网格技术的域终端用户在基于网格的数据挖掘系 统中能够执行数据挖掘任务。 ( 2 ) 方便数据挖掘应用部署:数据挖掘解决方案开发者对已经使用的数据挖 掘应用,不需要修改应用代码就可以把数据挖掘应用部署到网格环境中,所要做 的仅仅是创建一个数据挖掘应用描述文件。 1 2 本文所完成的工作 本文介绍了数据挖掘、网格计算和基于网格的数据挖掘相关概念后,分析了 一个能够实现数据挖掘应用的网格框架结构。此框架结构是一个4 层框架,从下 到上是第一层资源层,包括软硬件资源、数据挖掘应用资源等;第二层是网格中 间件层,主要是利用g l o b u st o o l k i t4 中的组件;第三层是高级服务层,针对网 格中间件的缺陷进行了修补,提供了信息服务、资源代理服务、数据服务;第四 层是客户端层,以工作流的形式向终端用户提供了使用网格环境下的数据挖掘应 用的方式。之后归纳了这个体系结构内的功能实体,并分析了功能实体的调用过 程和状态变化过程。最后分析了此框架需要使用的应用元数据模型,给出了应用 元数据模型的详细定义。并以w e k a 应用为例,介绍了数据挖掘应用元数据实例 的编写,利用数据挖掘应用元数据实例部署数据挖掘应用到网格中的过程和用户 使用数据挖掘应用的过程。 1 3 论文组织安排 本文的主要框架和结构如下: 第l 章给出了课题的研究意义,介绍了基于网格的数据挖掘面临的主要问 题,介绍了本文所完成的工作。 第2 章介绍了数据挖掘、网格计算的相关知识。包括数据挖掘的定义,数据 挖掘的起源和数据挖掘的方法;网格计算的概念,发展,服务网格和网格资源的 特点;最后介绍了基于网格的数据挖掘的基本想法。 第3 章详细分析了一个基于网格的数据挖掘体系结构框架,从下到上分为4 层:资源层,包括软件资源和硬件资源;网格中间件层,主要使用的是g l o b u s t o o l k i t 4 中的相关组件;高级服务层,是利用网格中间件层实现数据挖掘的关键 服务层;应用客户端层,其是利用开源软件t r i a n a ( 工作流编辑管理软件) 设计 的客户端。然后归纳了这个体系结构内的功能实体,并分析了功能实体的调用过 程和状态变化。 第4 章介绍元数据的概念及其在基于网格的数据挖掘中的意义。之后,描述 应用元数据模型,给出了应用元数据模型的详细定义。模型分为:通用部分和数 据挖掘专有部分。 第5 章简单介绍了w e k a 的使用,然后以w e k a 应用为例,详细说明了基于 网格的数据挖掘应用元数据实例的创建过程。并介绍了如何把数据挖掘应用部署 到网格环境中和在网格环境中如何使用数据挖掘应用。 2 第6 章总结了本文主要内容,包括:基于网格的数据挖掘概念介绍,探讨了 一种实现基于网格的数据挖掘应用的通用框架模式,研究了这种框架下的关键技 术元数据模型。得出了一种可行的在网格环境下实现数据挖掘应用的办法。 3 2 基于网格的数据挖掘相关理论综述 2 1数据挖掘 2 1 1数据挖掘的概念 随着计算机技术的迅猛发展以及网络的普及,许多行业如商业、企业、科研 机构和政府部门等都有了更多的机会和便捷的方法与外界进行信息交流,数据库 的规模、范围和深度都在快速不断扩大,从而积累了海量的、以不同形式存储的 数据资料,同时在许多领域也建立了数据仓库。在这些海量数据中往往隐含着各 种各样的信息,这些信息人们往往凭直觉与经验是难以发现的。如何从大量的数 据中获得有价值的信息,采用传统的数据库技术已显得无能为力了,数据的快速 增长与数据分析处理方法滞后的矛盾越来越大,人们希望能够在对已有的大量数 据分析的基础上进行科学研究、商业决策或企业管理,从而达到为决策服务的目 的。数据挖掘就是为了满足这种需求而迅速发展起来的一种新的数据处理技术。 它的实质是一种发现知识的应用技术,是一个提取有用信息的过程。自2 0 世纪 末提出以来,引起了许多专家学者的广泛关注,并应用到金融、零售业、工业过 程、电力、医疗保健和政府决策等各个领域,取得了良好的社会效益和经济效益, 具有广阔的开发和应用前景。 目前数据挖掘的通用定义是指从大量的、不完全的、有噪声的、模糊的、随 机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用 的信息和知识的过程。数据挖掘要解决的问题就是在庞大的数据中寻找有价值的 隐藏信息,加以分析,并将这些有意义的信息归纳成结构模式,提供给有关人员 在决策时参考睇j 。 人们已经证明,数据挖掘技术能够发现和跟踪数据集合中潜在的模式,因此, 有人认为,在数据库中,处理隐藏的知识、不可预料的模式和新规则发现的所有 方法中,数据挖掘是最有效的。如果没有数据挖掘技术,许多数据就很可能停留 在未使用的阶段。正是数据挖掘能够为企业提供了全面、深入地分析和了解客户 及其行为特征的重要助臂。 在商业的角度上【3 】,数据挖掘是一种新的商业信息处理技术,其主要特点是 对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中 提取辅助商业决策的关键性数据。简而言之,数据挖掘其实是一类深层次的数据 4 分析方法。数据分析本身已经有很多年的历史,只不过在过去数据收集和分析的 目的是用于科学研究,另外,由于当时计算能力的限制,对大数据量进行分析的 复杂数据分析方法受到很大限制。现在,由于各行业业务自动化的实现,商业领 域产生了大量的业务数据,这些数据不再是为了分析的目的而收集的,而是商业 运作产生的结果。分析这些数据也不再是单纯为了研究的需要,更主要是为商业 决策提供真正有价值的信息,进而获得利润。但所有企业面临的一个共同问题是: 企业数据量非常大,而其中真正有价值的信息却很少,因此从大量的数据中经过 深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样, 数据挖掘也因此而得名。因此,数据挖掘又可以描述为:按企业既定业务目标, 对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性, 并进一步将其模型化的先进有效的方法。 2 1 2数据挖掘的功能 为了解决日益更新的海量数据对传统的数据分析技术所带的挑战,来自不同 学科的研究者汇集在一起,开始着手开发可以处理不同数据类型的更有效的、可 伸缩的工具。这些工作建立在研究者先前使用的方法学和算法之上。特别的,数 据挖掘利用了来自如下一些领域的思想:( 1 ) 来自统计学的抽样、估计和假设检 验;( 2 ) 人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数 据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、 信息论、信号处理、可视化和信息检索。 一些其他领域也起到重要的支撑作用。特别是,需要数据库系统提供有效的 存储、索引和查询处理支持。源于高性能计算的技术在处理海量数据集方面常常 是有效的。 槲酬彘 效撼鲰技术、并行接求,分尚式计算 图2 1 数据挖掘是许多学科的汇集 f i g u r e2 1d a t am i n i n gi sam i xo f m a n yd i s c i p l i n e s 数据挖掘综合了很多学科技术,如图2 1 所示,有很多的功能,当前主要有 以下五类功能: 1 ) 分类:按照分析对象的属性、特征,建立不同的组类来描述事物。例如: 银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这 些来区分新申请贷款的客户,以采取相应的贷款方案。 2 ) 聚类:数据库中的记录可被划分为一系列有意义的子集,即聚类。聚类 增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚 类技术主要包括传统的模式识别方法和数学分类学。2 0 世纪8 0 年代初, m c h a l s k i 提出了概念聚类技术其主要特点是,在划分对象时不仅考虑对 象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统 技术的摹写片面性。 3 ) 关联规则和序列模式的发现:关联是某种事物发生时其他事物会发生的 这样一种联系。例如:每天购买啤酒的人也有可能购买香烟的比重有多 大,可以通过关联的支持度和可信度来描述。与关联不同,序列是一种 纵向的联系。例如:今天银行调整利率,明天股市的变化。 4 ) 预测:数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大 量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型例 子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资 中回报最大的用户,其他可预测的问题包括预报破产以及认定对指定事 件最可能做出反应的群体。 5 ) 偏差的检测:数据库中的数据常有一些异常记录,从数据库中检测这些 偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满 足规则的特例、观测结果与模型预测值偏差、量值随时间的变化等。 需要注意的是数据挖掘的各项功能不是独立存在的,而是互相联系发挥作用 的。 2 1 3数据挖掘的基本过程 数据挖掘的基本过程如图2 2 所示,由以下几个步骤组成: 1 ) 数据清理:数据清理的目的是消除噪声或不一致数据,对数据库中的重 复元组也需要进行清理【4 j 2 ) 数据集成:数据集成是将多个数据源中的数据结合起来,存放在一个一 致的数据库中。 3 ) 数据选择:从数据库中检索与挖掘任务相关的数据,创建相关的目标数 据集,即选择数据集合或数据样本的一个子集,删除数据中有误的和无 关的部分。 6 4 ) 数据变换:将数据变换或统一成数据挖掘工具所需要的形式。 5 1 ) 数据挖掘:运用各种知识发现算法,从数据中提取出用户需要的知识, 这些知识可以用同一种特定的方式表示或使用一些常用的方式表达,如 产生式规则等等。 6 1 模式评估:根据某种兴趣度度量、解释所得的模型,识别能真正有效地 表示知识的模式,必要时应当反复进行数据挖掘这一步。 乃知识表示:使用可视化和知识表示技术,将得到的知识以用户能了解的 方式呈现给用户,这其中包括对知识一致性的检查,以保证本次发现的 知识不与以前发现的知识相抵触。 必臣。 图2 2 数据挖掘的基本过程 f i g u r e2 2t h eb a s i cp r o c e s so f d a t am i n i n g 2 1 4数据挖掘的方法 数据挖掘的方法很多,每种方法都有其特定适用领域。某一种方法不可能胜 任所有的数据挖掘任务,一个复杂的数据挖掘系统常常采用多种数据挖掘方法, 通过整合多种数据挖掘方法来弥补不同数据挖掘方法所存在的不足。数据挖掘的 方法主要有以下几种: 1 ) 基于决策树的方法 决策树是建立在信息论基础之上,对数据进行分类的一种方法。首先,通过 一批己知的训练数据建立一棵决策树。然后,利用建好的决策树,对数据进行预 测。决策树的建立过程可以看成是数据规则的生成过程,因此可以认为,决策树 实现了数据规则的可视化,其输出结果也容易理解。决策树方法精确度比较高, 7 结果容易理解,效率也比较高,因而比较常用。构建决策树的算法很多,其中最 具代表性的是c a r t 和c 4 5 算法。 2 1 基于神经网络的方法 神经网络最早是由心理学家和神经生物学家提出的。神经网络是大量的简单 神经元按一定规则连接构成的网络系统。网络能够模拟人类大脑的结构和功能, 采用某种学习算法从训练样本中学习,并将获取的知识存储在网络各单元之间的 连接权中。神经网络和基于符号的传统人工智能技术相比,具有直观性、并行性 和抗噪声等优点。目前己经出现了多种网络模型和学习算法,主要用于分类、优 化、模式识别、预测和控制等领域。在数据挖掘领域,主要采用前向神经网络提 取分类规则。 3 ) 基于遗传算法的方法 遗传算法是一种基于生物进化论和分子遗传学的搜索优化算法。它首先将问 题的可能解按某种形式进行编码,编码后的解称为染色体;随机选取n 个染色 体作为初始种群,再根据预定的评价函数对每个染色体计算适应值,性能较好的 染色体有较高的适应值;选择适应值较高的染色体进行复制,并通过遗传算子, 产生一群新的更适应环境的染色体,形成新的种群,直至最后收敛到一个最适应 环境的个体,得到问题的最优化解。 4 ) 贝叶斯方法 贝叶斯网络是由r h o w a r d 和j m a t h e s o n 于1 9 8 1 年提出的,它是一种概率 推理方法,它能从不完全、不精确和不确定的知识和信息中做出推理,可以处理 不完整和带有噪音的数据集,解决了数据间不一致和相互独立的问题。贝叶斯分 类是统计学分类方法。它可以预测类成员关系的可能性。一种比较简单的朴素贝 叶斯方法是一种基于概率的分类方法,它通过样本的属性值计算事例属于某一个 类的可能性,然后,将样本归属到最有可能的类中。朴素贝叶斯分类在应用于大 型数据库时,表现出高准确率和高速度。 5 ) 基于粗糙集的方法 粗糙集作一种软计算方法,它可以不需任何辅助信息,如统计学中的概率分 布、模糊集中的隶属度等,仅依据数据本身提供的信息就能对数据进行化简并求 得知识的最小表达。粗糙集方法可以克服传统的不确定信息的处理方法的不足, 并且能和它们有机结合,进一步增强对不确定、不完全信息的处理能力。粗糙集 方法首先用近似的方法把信息系统中的属性值离散化,然后对每一个属性划分等 价类,再利用集合的等价关系进行信息系统的属性约简,最后得到一个最小决策 关系,便于获得规则。目前成熟的关系数据库管理系统和新发展起来的数据仓库 管理系统为基于粗糙集的数据挖掘奠定了坚实的基础。 j 丘塞銮通太堂亟堂僮论塞基壬圆搔的数据挖掘担差理论缝姿 2 2网格计算 网格计算技术关注的是“资源的跨组织协调共享和提供虚拟组织问题解决环 境 以及“创建受管理的共享虚拟系统 等问题。目前网格计算中的大部分工作 都集中在理论研究、标准级别的讨论以及建立定制的解决方案等方面,有关标准 组织主要有g g f ( g l o b a lg r i df 0 n l l i r 全球网格论坛尸、o a s i s 6 1 、w 3 c 7 、 i e t f 引。在实践中,主要有两个方面:一个方面是旨在提供网格基础设施的网格 中间件( 以下称为网格系统) ,典型的有g l o b u s 9 1 ,l e g i o n 1 0 1 ,c o n d o r - g 1 1 1 ,u n i c o r e 1 1 2 等;另一个方面是利用网格技术开发的应用( 以下称为网格项目) ,如美国能 源部的d o es c i e l l c e g r i d 【1 3 】、欧盟的e u r o g r i d 计划【1 4 】、中国的教育科研网格 c h i n a g r i d 15 等。 2 2 1网格计算的概念 网格计算技术,是将服务器、存储系统和网络联合在一起,组成一个大的系 统,从而为用户提供功能强大的多系统资源来处理特定的任务。对于最终用户或 应用程序来说,数据文件、应用程序和系统看起来就像是一个巨大的虚拟计算系 统。 网格计算是分布式网络发展的下一代产物。就像是i n t e r n e t 让用户可以分 享思想和文件并以此来滋生项目一样,网格计算让我们可以分享分散的计算资 源。网格计算利用了计算机的能力来进行通信:有了网格计算之后,您就可以足 不出户使用其他人的计算和存储资源,而不仅仅限定在自己所拥有的范围之内。 有了网格计算之后,组织就可以将自己分布的、难以管理的系统转换到一个 大型的虚拟计算机上,这样就可以让那些由于工作量太大而在一台计算机上很难 解决的问题得到有效的处理。要解决的问题包括数据处理、网络带宽以及数据存 储的问题。链接到网格中的系统可能在同一间房子里面,也可能分布于世界上的 各个角落。它们可能运行在不同的操作系统和硬件平台。甚至它们归属于不同的 组织。不管网格资源的深度如何,所有的网格用户所体验到的都是一个巨大的虚 拟计算机处理资源。 网格的主要目的是对资源进行虚拟化来解决问题。网格计算用来访问的资源 主要包括以下内容: 计算处理能力。 数据存储网络文件系统。 通信和带宽。 应用程序软件。 9 集群、网络附加存储设备、科学设施、网络都可能是网格中的重要组件,但 是它们本身却并不构成网格。能够把几百万台计算机紧密联结在一起集群、 工作站、台式p c 、超级计算机提供数据存储、工具、可视化设备,一直是 网格计算技术所力争实现的梦想。而一旦能成为现实,网格计算将能给科学界以 及工业界带来革命性的改变【1 6 1 。 2 2 2网格的发展阶段 网格的早期发展阶段如图2 3 所示。 i 第一阶段:同格萌芽期 l 第二阶段;冈格的早期试验i 第三输段:网格发疑期 i l ;lr 兆嗣试验珠与元计算i 丹剖忭和奠犟扮l 作:! 。妊志性】= 俘: 旧f a 矾e w i w 5 y | ,黧掣吼藓| 懑燃至 ;:4 :震谯项h :; ”9 :g i o 蜘o n: i i i il i l - ; 1 9 9 5 年 ;1 9 9 5 - 2 0 0 0 年: 2 0 0 1 年 图2 3 网格发展阶段 网格是在2 0 世纪9 0 年代中期为构建先进科学和工程分布式计算设施而引入 的概念【r n 。连接超级计算中心为一定范围内的高性能应用提供计算资源,这是 网格发展的第一个阶段,a f n e t 1 8 】和i - w a y 1 9 】是这一时期的两个代表性项目。 随着技术的进步和应用的普及,网格被看作全球范围内为各种大规模计算和 数据密集型应用提供分布式计算环境的基础设施,网格发展从此进入第二个阶 段。这一时期的代表性项目有g 1 0 b u s 【9 】和l e g i o n t o l 等,关注的主要问题包括: 网格环境下的分布性、异构性、可扩展性和动态性;基于i n t e m e t 在多种异 构计算机系统和资源之间建立通用、分布式计算环境,让不同节点和资源可以有 效地共享与协同工作。当时以计算网格( c o m p u t i n gg r i d ) 来称谓网格技术,1 9 9 8 年i a nf o s t e r 给出的定义为:计算网格是一个硬件和软件基础设施,它提供对高 端计算能力可靠、一致、普遍和不昂贵的接入【2 0 】。这一时期的网格技术主要关 注网格中间件的研究与开发。 2 0 0 2 年以开放网格服务体系结构( o p e n g r i ds e r v i c e s a r c h i t e c t u r e ,o g s a ) 为标志,网格发展进入第三阶段,网格演进成为一种受管理的共享虚拟系统。这 一时期,网格从计算网格演变为网格计算,称谓的改变反映了人们对网格技术的 内涵理解的深化。i a nf o s t e r 在“网格剖析 一文中指出:网格计算关注的是在 l o 动态、多机构的虚拟组织( v m u a lo r g a n i z a t i o n ,v o ) 中协调资源共享和协同解 决问题,其关键是在一组参与节点( 资源提供者和消费者) 中协商资源共享与管 理,并利用协商得到的资源池共同解决问题【2 l 】。 2 2 3服务网格 早期不同的网格中间件系统,由于其核心协议具有独立性,因此存在互操作 性问题。而将w e b 服务技术引入网格研究领域,有助于解决网格研究所面i 临的应 用集成、资源共享、系统互操作和标准化等问题。通过对网格系统的本质功能进 行定义、描述和分解,采用面向服务的体系结构,g g f 于2 0 0 2 年提出了一个全 新的网格标准开放网格服务体系结构o g s a ( o p e ng r i ds e r v i c e a r c h i t e c t u r e ) 【2 l 】【2 2 】。它把g l o b u s 与w e bs e r v i c e s 技术结合起来,统一以网格服务的方式对外 界提供服务。将w e b 服务的互操作模型引入到网格研究中,确立了w e b 服务作为 网格资源的新的抽象形式和构造基础服务网格,目前o g s a 已成为网格事 实上的标准。o g s a 网格体系结构模型如图2 4 所示【2 3 1 ,该模型的每一层都清晰 地定义了相应的功能,其核心层是o g s i 和o g s a 服务层,o g s i 后来发展成为 w e b 服务资源框架( w e bs e r v i c e sr e s o u r c ef r a m e w o r k ,w s r f ) 2 4 】,这些都标 志着侧重科学活动的网格计算开始转向面向服务的信息网格( i n f o r m a t i o ng r i d ) 。 o g s i w s r f 主要用于解决现有的w e b 服务标准所不能解决的有关基本服务 语义问题,例如服务是怎样创建的,存活多久,怎样管理长期状态等。o g s i w s r f 为网格系统提供包括描述和发现服务属性、创建服务实例、管理服务生命周期、 管理服务组以及发布和订阅服务通知等标准接口及其相关行为,支持创建、管理 网格服务以及网格服务间的信息交换。o g s a 服务层基于o g s i w s r f 创建了一 套标准服务,包括策略服务、注册服务、服务级别管理以及其它网格服务,从而 在构建网格系统时可以实现代码重用和组件互操作。网格用户可以使用这些底层 的平台核心组件构建用于共享资源与协同工作的网格应用。 。 童 堡生环境与协议绑定。 童 。 ,每酃厕 i 宿e 琢境i ili协议 i 一 l 一一 图2 4o g s a 体系结构模型 f i g u r e 2 4a r c h i t e c t u r eo fo g s a g t 3 2 5 1 是基于o g s a 的核心规范o g s i 实现的,它标志着网格技术开始从学 术研究领域逐步向i n t e m e t 和企业服务基础设施领域渗透。目前网格中间件 g t 4 t 2 5 】是基于w s r f 的实现,w s r f 是o g s i 的重构和发展,目的是利用新的 w e b 服务标准。o g s i 和w s r f 的本质目的并没有差别,w s r f 可以看作是在结 合新的w 曲服务标准( 主要是w s a d d r e s s i n g ) 基础上对o g s i 的重新整合,这 种整合使得w s r f 与现有w e b 服务标准相兼容,从而可以利用现有的服务开发 工具构建网格计算设施,从技术角度来看,w s r f 实现了网格应用同w e b 服务 的融合。 综上可以看出,服务网格是网格计算和分布式计算这两种计算模式相互融合 形成的新一代网格,使得分布式应用系统具有“面向服务”、“开放”、“协作、 “标准化 和“虚拟化 等特征。基于面向服务的体系结构使得网格系统中所有 组件都可以实现虚拟化,可以将多逻辑资源映射为相同的物理资源,在进行复杂 的服务组合时不必考虑具体的服务实现。以底层资源聚合与配置为基础,可以在 虚拟组织中有效利用各种资源进行协作。 2 2 4网格资源的特点 网格资源指所有能够通过网格远程使用的实体,包括计算机软硬件、仪器设 备等。同以往分布式系统中的资源相比较,无论是种类的多样性方面还是功能的 多样性方面,网格资源都具备了一些以往系统中的资源所不具备的特点,这些特 点对于网格构建、网格研究和网格应用有重要的影响: ( 1 ) 分布性:组成网格的资源在地理位置上是分布的,跨越不同的管理域。 在这种分布环境下,需要解决网格资源针对任务的分配和调度问题、传输和通信 问题,人与系统以及人与人之间的交互和协同问题,网格应用在分布环境中自动 执行和协作问题。 ( 2 ) 异构性:网格中的资源种类繁多,功能各异,访问接口也不尽相同, 本地管理系统不同,共享规则也各不相同。如同样是计算机资源,有的机器运行 的是l i n u x 操作系统,有的机器运行的是w i n d o w s 操作系统。 ( 3 ) 自治性:网格中的资源首先是属于某一本地的个人或者组织,网格资 源的拥有者对资源具有最高级别的管理权限,网格应该允许资源拥有者对其资源 有自主的管理能力,因此具有自治性。同时这些资源根据一定的约束规则接受网 格的统一管理,实现资源的共享和互操作,这使得网格管理比一般的分布式系统 更为复杂,具有管理的多重性。 ( 4 ) 动态性:由于网格中的资源具有自治性,因此网格资源可能动态的加 1 2 入或退出网格,也可能出现故障导致不可访问,另外资源的性能情况也可能发生 较大的变化,使得供网格用户使用的资源也会发生相应的变化,即网格资源的可 获得性是随时间的变化而动态变化的。 ( 5 ) 二分特性:网格资源最终都是由具体的资源拥有者提供的,除了一部 分专用的网格资源是专门提供给网格用户使用的之外,大部分的资源都同时作为 网格用户可以使用的网格资源和资源拥有者自己使用的本地资源。网格用户远程 使用资源不能损害资源拥有者和本地用户的利益,即使那些专用网格资源,也要 有时间来运行本地管理系统。尤其是那些可以在利用其运行网格作业的资源,其 能够运行的作业的种类和可以进行的操作和本地作业拥有的特权是有区别的。网 格作业所能进行的操作和拥有的权限要保证资源本身的安全工作和资源拥有者 的合法权益以及使用该资源的其他网格用户的安全。 综上,网格资源的特点决定了网格资源管理机制应该具备的功能和特点,即 要隐藏网格资源的异构性,为用户提供统一的访问接口来屏蔽网格资源的动态 性,要尊重资源的本地管理机制和策略,使资源更好地为网格服务。 2 3基于网格的数据挖掘 在数据挖掘技术和网格计算的研究背景下,基于网格的数据挖掘作为一个研 究方向出现了。它是数据挖掘技术与网格计算的有机结合,可以用于分布式环境 下的数据模式发现。基于网格的数据挖掘能够提供对大规模数据挖掘计算的解决 方案,可以充分利用分布式计算的能力对相关的数据进行分析与综合。 具体而言,基于网格的数据挖掘是一种通过共享解决方案、算法、计算、数 据、存储服务来解决可靠和可扩展的数据挖掘任务的系统,它能够在动态变化的 多个节点间共享资源和协同解决数据挖掘问题。其特点是具有好的扩展性( 从理 论上可以无限扩展_ ) ,用户透明性,可靠性,高性能计算,分布性,协同性。基 于网格的数据挖掘有两种实现路线,一个是网格环境之上的数据挖掘运算,比如 说基于g l o b u s 的数据挖掘实现方案。另外一个就是数据挖掘专用网格系统,它 强调的是轻量级和专用化,并通过扩张的方式实现网格资源的扩大。 将数据合理地划分为若干个小模块,并由基于网格的数据挖掘系统并行地处 理,最后再将各个局部处理结果综合成最终的输出模式,可以解决分布式计算和 海量数据的挑战。这样不但能够保护已有软硬件投资,而且这种系统天生还具有 计算力可无限扩展的能力。 3 基于网格的数据挖掘框架 本章分析了一个基于网格的数据挖掘框架1 ,归纳了这个框架内的功能实体 并分析了其调用过程和状态变化过程。 3 1基于网格的数据挖掘框架分析 依据上下关系,采用分层描述的思想,分层描述了基于网格的数据挖掘的体 系结构。基于网格的数据挖掘分为四个大的层面,它们分别是:工作流编辑管理 层( 包括:业务选择配置,任务分配调度,数据挖掘算法选择,数据传输,应用 参数设置等) ,高级服务层( 包括:资源代理、信息服务、数据服务) ,网格中 间件层和基本软硬件资源层。其总体结构如图3 1 所示: 图3 1 基于网格的数据挖掘总体结构简图 f i g u r e 3 1s i m p l ea r c h i t e c t u r eo fd a t a m i n i n gb a s e0 1 1g r i d 图3 1 是体系结构总体结构简图,展现了基于网格的数据挖掘的全局结构。 作为基于网格的数据挖掘系统,核心是网格环境下数据挖掘应用部署和使用的通 用技术,另外,数据挖掘的方案和流程是数据应用层的核心技术。基于网格的数 据挖掘的详细结构及其各个模块的功能和职责如图3 2 所示,具体详述如下: 1 4 疰 用 磁9 览 模 块 圈国图国 瓣向斑务的工作流设计 幺逝 数 据 管 理 惫 缀 黢4 4 参凑 黼 自顶向下看这个体系结构,第一层工作流编辑管理层提供了一个基于网格的 数据挖掘的服务界面,通过这个界面,终端用户可以通过编辑工作流的形式来使 用数据挖掘应用。通过这个界面用户可以查询并选择需要的数据挖掘应用,配置 具体的数据挖掘应用参数,指定或上传数据等。具体包括业务逻辑模块、证书生 成器模块、应用浏览器模块、数据操作器模块、应用控制器模块、执行管理器模 块、来源管理器模块、监控器模块、程序适配器模块。 业务逻辑模块提供已有的面向领域的一些采用数据挖掘解决方案的流 程。该模块的另外一个功能就是用户可以定制自己的解决方案的业务流 程。这个模块的服务是通过客户端层的可视化图形界面的应用浏览器调 用的,这样定义的流程可以一目了然的展现出来。 证书生成器模块通过直接和网格中间件的安全服务组件交互,帮助不了 解网格技术的终端用户生成代理证书,从而用户具有了使用基于网格的 数据挖掘应用的权限。 应用浏览器模块帮助终端用户选择符合业务需求的数据挖掘应用,根据 其设定的条件查找网格内可用的数据挖掘应用应用浏览器模块访问高 级服务层的信息服务来查询可用的数据挖掘应用,也可以直接查询网格 中间件层的m d s 4 ( m o n i t o r i n ga n dd i s c o v e r ys y s t e m4 ,监控发现系统 版本4 ) 服务。在用户选定了某个数据挖掘应用后,此模块会再次和m d s 4 服务交互,从而得到关于此应用的全部元数据描述。 数据操作器模块用来进行数据挖掘应用相关数据的操作,包括:文件的 上传、下载、查看,数据的过滤、转换、预处理、后处理等模块处理的 数据包括:文件数据和关系数据库数据。此模块调用高级服务层中的数 据服务模块完成其任务,也可直接调用网格中间件层的数据管理服务来 完成其任务模块的操作结果是指向数据的u r i ( u n i f o r mr e s o u r c e i d e n t i f i e r ,统一资源标识

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论