




已阅读5页,还剩65页未读, 继续免费阅读
(管理科学与工程专业论文)基于rmi技术的分布式数据挖掘平台设计与研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摹十r m i 技术的分布式数据挖掘卜弁改计j 研究 基于刚i 技术的分布式数据挖掘平台设计与研究 摘要 数据挖掘,也称为数据库中的知识发现,是从大量、不完全、模 糊的实际应用数据中,提取隐含在其中、事先不知道的信息和知识的 过程。传统的数据挖掘技术采用的挖掘算法:一方面所处理的数据都 是集中在一台机器上,另一方面整个挖掘过程的计算也集中在一台机 器上。随着各种网络尤其是i n t e m e t 的广泛使用,网络中可获得的数 据量持续增长,需要挖掘的数据源往往分布存储在网络的各个节点 上。同时,随着信息技术应用的深入,挖掘算法执行的对象数据集越 来越大,需要大量的计算资源,这必然要求执行挖掘算法的机器有相 当高的性能,一台机器通常很难完成这种超大量的计算任务,与之相 应的在其它分布式站点上的机器有着充裕的计算资源却不能有效地 利用。对于这两个问题,传统的数据挖掘技术根本无法解决,因此分 布式数据挖掘技术随之而出。 所谓分布式数据挖掘就是使用分布式计算资源,从分布式数据库 中发现知识的过程,主要包括两方面的内容:一方面,跨多个网络节 点对分布式数据集进行联合挖掘;另一方面,利用网络节点的计算资 源进行协同挖掘,满足巨大的计算工作量需求。通过对a g e n t 、网格、 r m i 、c o r b a 等分布式技术进行比较,可以发现,a g e n t 、网格技术 是两种不成熟的技术,虽说有很好的前景,但使用和开发的难度很大。 精十r m i 技术的分布式数据挖掘r 弁设计研究 而r m i 技术是一种很成熟技术,相对容易使用,且具有跨平台执行 的能力优点。因此本文采用了r m i 技术来实现分布式数据挖掘。 本文以数据挖掘中的关联规则f p t r e e 算法和分类i d 3 算法为切 入点,对运用r m i 技术进行分布式算法设计进行了探索,主要工作 包括: 首先,对要采用的分布式技术r m i 做了深入的理解和掌握,并把 传统的数据挖掘算法中的数据处理部分和任务执行部分发布为r m i 服务。 其次,对传统数据挖掘算法进行了研究,主要包括关联规则类经 典算法a 曲o r i 、f p - t r e e 等算法,分类经典算法i d 3 、c 4 5 等算法。 使用j a v a 语言实现其中的f p t r e e 、i d 3 算法。 再次,在深入分析传统算法的基础上,提出和实现数据与计算都 分布的d f p 算法和d i d 3 算法。 最后,实现了分布式数据挖掘平台原型。 本文的d f p 算法和d i d 3 算法都实现了数据与计算同时分布,并 实验证明比对应传统的算法具有更好的性能。同时,实现了分布式数 据挖掘平台原型,总结提出了在设计分布式数据挖掘算法时可参考的 设计思路,便于后人将其它算法实现分布式。 关键词:分布式数据挖掘,数据挖掘平台,r m i 技术,d f p 算法, d i d 3 算法 基十i t m l 技术的分布式数据挖掘甲台设计j 研究 r e s e a r c h o nd i s t r l b u t e dd a t am i n i n g p l a t f o r mb a s e do nr m l a b s t r a c t d a t am i n i n gi sa l s o c a l l e dt h ek n o w l e d g ed i s c o v e r yf r o md a t a b a s e , i ti sa p r o c e d u r ew h i c hp i c k su pt h ei m p l i c a t ei n f o r m a t i o na n dk n o w l e d g ef r o ml o t so fd a t a t r a d i t i o n a ld a t am i n i n ga l g o r i t h md e a l sw i t ht h ed a t aw h i c hi sc o n c e n t r a t e di nas i n g l e m a c h i n e a l s o t h ew h o l ec o m p u t i n gt a s k sa l l l ni nas i n g l em a c h i n e w i t ht h e d e v e l o p m e n to ft h en e t w o r k ,e s p e c i a l l yt h ei n t e m e t , t h ed a t aw h i c hw ec a ng e ti s i n c r e a s i n gs t e a d i l ya n di sd i s t r i b u t e di nn o d e so ft h en e t w o r k o nt h eo t h e rh a n d a s t h ed a t am i n i n ga l g o r i t h m st a r g e td a t ai sl a r g e r , i tn e e d sm o l ec o m p u t i n gu n i t st o f u l f i l lt h ed a t am i n i n gp r o c e d u r e i ti si m p o s s i b l et om nt h ed a t am i n i n ga l g o r i t h mi na s i n g l em a c h i n e f o rt h e s et w op r o b l e m sc 龇tb es o l v e db yt r a d i t i o n a ld a t am i n i n g , d i s t r i b u t e dd a t am i n i n gt e c h n i q u e sc o m ei n t ob e i n g d i s t r i b u t e dd a t am i n i n g ( d o m ) i st h ek n o w l e d g ed i s c o v e r yf r o md i s t r i b u t e d d a t as o l l r c e su s i n gd i s t r i b u t e dc o m p u t i n gu n i t s i ti n c l u d e st w oa s p e c t s :t h ef i r s ti s d i s t r i b u t e dd a t as o u r c c sd a t am i n i n ga c l o $ $ n o d e so ft h en e t w o r k t h es e c o n di sd a t a m i n i n gu s i n g d i s t r i b u t e d c o m p u t i n gu n i t s t h r o u g hc o m p a r i n ga g e n t ,g r i d c o m p u t i n g , r m i c o r b ae t e d i s t r i b u t e dt e c h n o l o g i e s , w ef i n dt h a ta g e n ta n dg r i d c o m p u t i n ga i r ei m m a t u r et e c h n o l o g i e s a l t h o u g ht h e yd oh a v ev e r yg o o dp r o s p e c t , i t i st ot o od i f f i c u l tt ou s ct h e m r m ii sav e r ym a t u r et e c h n o l o g ya n di se a s yt ou s ei t , a n di tc a nl - 1 ma c “) s sp l a t f o r m s ow ec h o o s er m it or e a l i z ed i s t r i b u t e dd a t am i n i n g a l g o r i t h m b a s e do nr e a l i z i n gf p t r e ea l g o r i t h ma n di d 3a l g o r i t h m 船d i s t r i b u t e dd a t a m i n i n ga l g o r i t h m ,t h i sp a p e rp r o b e di n t ot h ed i s t r i b u t e dd a t am i n i n gr e a l i z a t i o nb y r m i i tr e s e a r c h e di n t ot h ef o l l o w i n gc o n t e n t s : f i r s t ,i tr e s e a r c h e dt h er m it e c h n o l o g ya n dp u tt h ed a t ap r o c e s s i n ga n dt a s k r u n n i n gi nt r a d i t i o n a ld a t am i n i n ga l g o r i t h m 雒r m i s c l v i c l 嚣 1 幕于r m i 技术的分布式数据挖掘r 台设计j 研究 s e c o n d ,i tr e s e a r c h e dt r a d i t i o n a ld a t am i n i n ga l g o r i t h m , f p - t r e e ,i d 3 ,c 4 5 ,e r e a n dr e a l i z e df p - t r e ea n di d 3i nj a v a t h i r d ,p u to u td f pa l g o r i t h ma n dd i d 3a l g o r i t h mw h i c h d i s t r i b u t e da n dc o m p u t i n gd i s t r i b u t e d i n c l u d i n ga p r i o r i , b o t hr e a l i z e dd a t a f i n a l ,r e a l i z e dd i s t r i b u t e dd a t am i n i n gp l a t f o r mp r o t o t y p e d f pa l g o r i t h ma n dd i d 3a l g o r i t h mg i v e ni nt h i sp a p e rb o t hr e a l i z e dd a t a d i s t r i b u t e da n dc o m p u t i n gd i s t r i b u t e d e x p e r i m e n t sp r o v e dt h a td f pa l g o r i t h ma n d d i d 3a l g o r i t h mh a v eb e t t e rp e r f o r m a n c ot h a nt r a d i t i o n a lc o u n t e r p a r ta l g o r i t h m a l s o i tp u t so u tt h ec o l n n l o nt h o u g h td u r i n gd e s i g n i n gd i s t r i b u t e dd a t am i n i n ga l g o r i t h m k e y w o r d s :d i s t r i b u t e dd a t am i n i n g ,d a t am i n i n gp l a t f o r m ,r m it e c h n o l o g y d f p ,d i d 3 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果。也不包含 本人为获得浙江工商大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作 了明确的说明并表示谢意。 1 年阳归 关于论文使用授权的说明 本学位论文作者完全了解浙江工商大学有关保留、使用学位论文 的规定:浙江工商大学有权保留并向国家有关部门或机构送交论文的 复印件和磁盘,允许论文被查阅和借阅,可以将学位论文的全部或部 分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制 手段保存、汇编学位论文,并且本人电子文档的内容和纸质论文的内 容相一致。 保密的学位论文在解密后也遵守此规定。 躲蟛名:螋 日期: 知1 年月产日 肇十r m i 技术的分布式数据挖掘平台设计i 研究 第一章引言 1 1 课题背景、研究现状及选题意义 信息与知识已经成为一种最重要战略资源,如何将爆炸性增长的数据转换为 有用的信息与知识资源,是提高一个组织乃至国家战略竞争力的重要手段。数据 挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含其中 的、人们事先不知道的、具有潜在利用价值的信息和知识的过程f l 】。它通过关联 性分析、分类分析、聚类分析、异常性分析、趋势分析等知识发现活动,寻找频 繁模式、关联规则、分类规则、聚类模式、异常模式、周期性规律等主要类型的 知识【2 】。自1 9 9 5 年在加拿大蒙特利尔召开了第一届知识发现与数据挖掘国际学术 会议以来,数据挖掘技术不断发展,在发现信息与知识方面已经取得了很多成果。 传统的数据挖掘技术采用的挖掘算法【3 】:一方面所处理的数据源都是集中在 一台机器上,另一方面整个挖掘过程的计算也集中在一台机器上。随着各种网络 尤其是i n t c | r n e t 的广泛使用,网络中可获得的数据量持续增长,需要挖掘的数据 源往往分布存储在网络的各个节点上,把网络海量数据集中到一台机器是非常耗 时的过程,如何有效地从分布式存储的数据源中挖掘信息是传统的数据挖掘技术 不能解决的问题之一;同时,随着信息技术应用的深入,人们收集、存贮、传输 数据的能力迅速增长,成千上万的数据库已被广泛应用到政府、企业、银行、科 研机构等各个领域,挖掘算法执行的对象数据集越来越大,需要大量的计算资源, 这必然要求执行挖掘算法的机器有相当高的性能,一台机器通常很难完成这种超 大量的计算任务,与之相应的在其它分布式站点上的机器有着充裕的计算资源却 不能有效地利用,造成了计算资源的浪费,如何有效地利用分布式站点上的机器 的计算能力是传统的数据挖掘技术不能解决的问题之二。对于这两个问题,传统 的数据挖掘技术根本无法解决,因此分稚式数据挖掘技术随之而出。 所谓分布式数据挖掘( d d m ) 就是使用分布式计算资源,从分佰式数据库中 发现知识的过程,主要包括两方面的内容:一方面,跨多个网络节点对分布式数 据集进行联合挖掘。分佰式数据挖掘的目标对象是分布式的大规模的数掘集,这 就使得数据挖掘系统必须跨多个网络节点进行联合挖掘,随之产生的问题包括原 基于r m i 技术的分布式数据挖掘。卜台设计i 研究 始数据的压缩处理、局部数据的抽象表示、数据在网络上的安全传输、数据的集 中统一、局部数据的融合等问题,这些必须为分布式数据挖掘算法来解决。另一 方面,利用网络节点的计算能力进行协同挖掘,满足巨大的计算工作量要求。分 布式数据挖掘的目标对象是分布式的大规模的数据集,必然会产生大量的计算任 务,这就要求利用分布式站点上的机器的计算能力,随之产生的问题包括数据挖 掘算法的任务分割、各结点的并发控制、各结点的计算结果的合并、计算能力访 问的安全控制等问题,这些也必须为分布式数据挖掘算法来解决。 虽然分布式数据挖掘是近几年才提出的新的研究领域,但由于其诱人的应用 前景,目前已有相当数量的研究人员投入到对该领域的研究当中,并且取得了一 定的成果。现在,就分布式数据挖掘使用的分布式技术可分为三大类:基于多 a g e n t 技术的分布式数据挖掘、基于网格技术的分布式数据挖掘、基于r m i 、 c o r b a 等其它分布式技术的分布式数据挖掘。基于多a g e n t 技术的分布式数据挖 掘出现得较早,它研究工作主要集中在数据分布的分稚式数据挖掘,许多典型的 分布式数据挖掘系统都使用了这种技术,如s t o l f o 的j a m 系统、k a r g u p t a 的 p a d m a 系统、c h a v e z 的c h a l l e n g e r 系统、k a r g u p t a 、p a r k 等人的c d m 系统【4 l 【5 1 。 基于网格技术的分布式数据挖掘是当前的一大热门,网格不仅能很好的解决数据 分布问题,也能很好的解决计算分布的问题【6 】。不过基于网格技术分布式数据挖 掘分布是重要的挖掘问题,也是尚未攻克的难题。尚未见系统性的研究成果,尤 其未见基于o g s a 网格数据挖掘成果。较有影响的是,欧共体的网格环境下数据 挖掘工具与服务的研究项目,但截止2 0 0 5 年尚处在工具与接口的描述与论证阶段 7 1 。此外,一个开源的数据挖掘工具w c k a ,其中的一个分支,目i j 也刚刚起步【舯。 基于r m l 、c o r b a 等其它分布式技术的分布式数据挖掘属于百花齐放,刘伟等 基于c o r b a 的数据挖掘工具k d d d c l 9 1 ,刘鸥、李师贤的基于数据挖掘和c o r b a 技术的i d s s 模型l lo l 等。这类分柿式数据挖掘都采用比较成熟的分布式技术,不 仅能实现数据分布的分拓式挖掘,也能实现计算分柿的分布式挖掘,具有很强的 实用性且易实现,因此本文采用了该类中的r m i 技术来实现分布式数据挖掘。 当前,分布式数据挖掘是一个崭新的研究领域,基于各类分佰式技术的数 据挖掘算法少有人提出和实现,且提出的大部分算法都是数据分布而计算不分 钿。数据和计算都分稚的算法则更少,国内有张力飞等提出的利用网格服务的分 佑式频繁模式挖掘算法l l ”但没有实现冈此可行性大打折扣:国外s c h u s t e r 2 基fr m i 技术的分布式数据挖掘甲白设计j 研究 等提出的高性能关联规则挖掘f 1 2 】,但只是针对关联规则的算法,不够全面。 在分析分布式数据挖掘的特点的基础上,通过对分布式数据挖掘采用的分布 式技术和传统数据挖掘算法的研究,作者采用比较成熟的分布式技术r m i ,提出 了数据、计算都分布的关联规则类分布式算法d f p 算法和决策类分布式算法 d i d 3 算法,并实现了d f p 算法和d i d 3 算法。实验证明:d f p 算法和d i d 3 算法不 仅实现了数据的分布和计算的分布,并且都比对应传统的算法具有更好的性能。 本文最后实现了分布式数据挖掘平台原型,并总结提出了在设计分布式数据挖掘 算法时,可参考的设计思路。 1 2 研究内容和思路 首先,对要采用的分布式技术r m i 有一个深入的理解和掌握,包括r m i 的 三层系统体系,s t u b s k e l e t o n 层、远程引用层、传输层,理解r m i 的工作原理 和r m i 服务的发布机制,以便把传统的数据挖掘算法中的数据处理部分和任务 执行部分发布为r m i 服务;熟悉r m i 的安全性,以保证分布式数据挖掘算法执 行时,数据在网络上的安全性传输和计算能力访问的安全控制。 其次,对传统数据挖掘算法研究,主要包括关联规则类、分类类等算法。要 对传统算法进行分布式设计,必须对这些算法非常熟悉。研究关联规则类中的经 典算法a p r i o r i 、f p - t r e e 等算法,使用j a v a 语言一一实现,并可与分布式算法作 性能比较;研究分类中的经典算法i d 3 算法,c 4 5 算法等,使用j a v a 语言实现 其中的i d 3 ,并可与分稚式算法作性能比较。 然后,利用分布式技术r m i ,在研究传统的数据挖掘算法基础上,设计与研 究分御式数据挖掘算法,实现关联规则中经典算法f p - t r e e 算法的分布式和分类 中经典算法1 1 ) 3 的分布式,提出与实现数据与计算都分稚的d f p 算法和d i d 3 算法,并与传统算法进行实验对比。 最后,在实现计算与数据都分布的d f p 算法和d i d 3 算法的基础上,给出分 布式数据挖掘平台实现原型,并总结在设计分布式数据挖掘算法时,可参考的设 计思路。 3 摹十r m i 技术的分布式数据挖掘f 台垃计j 研究 1 3 论文的创新点 本文研究的主要刨新点如下: 1 分布式数据挖掘算法的设计与实现:在深入分析传统算法的基础上,提出 和实现d f p 算法和d i d 3 算法,并实验证明:d f p 算法和d i d 3 算法比对应传统 的算法具有更好的性能。 2 计算与数据同时分布:目前国内外提出的分布式数掘挖掘大部分算法都是 数据分布而计算不分布,数据和计算都分布的分御式算法很少。本文提出的d f p 算法和d i d 3 算法都实现计算与数据同时分布。 3 r m i 技术在数据挖掘中的使用:利用r m i 的服务发布机制,把分布式数 据挖掘算法中的分布式数据提取和计算任务都发表为r m i 服务,实现计算与数 据的同时分布。 4 在实现计算与数据都分椎的d f p 算法和d i d 3 算法的基础上,实现了分 布式数据挖掘平台原型,总结提出了在设计分布式数据挖掘算法时,可参考的设 计思路。 1 4 论文的组织结构 本文研究了r m l 分布式技术,包括r m i 服务发稚机制和r m i 的安全性等, 解决了分和式数据挖掘中采用的技术问题。研究了大量的传统数据挖掘算法,包 括关联规则类中的经典算法a p r i o r i 算法、f p - t r e e 算法等,分类中的经典算法i d 3 算法、c 4 5 算法等,并提出和实现了数据和计算都分布的d f p 算法和d i d 3 算 法,并与传统算法进行实验对比。 本文的组织结构如下: 第l 章:简要介绍课题背景、本文研究的主要内容、研究思路和创新点; 第2 章:介绍了各类分椎式计算技术,包括网格技术、a g e n t 技术、r m i 、 c o r b a 等其它分稚式技术,并指出r m i 技术适合数掘挖掘的优点; 第3 章:概述了数掘挖掘理论和分布式数据挖掘理论。 第4 章:研究了关联规则类数据挖掘算法f p t r e e 算法,结合r m i 技术,提 出数据与计算都分布的算法d f p 算法,并给予实现和性能测试。 堆十r m ! 技术的分椎式数据挖掘甲白设计0 研究 第5 章:研究了决策类数据挖掘算法i d 3 算法,结合r m i 技术,提出数据与 计算都分布的算法d i d 3 算法,并给予实现和性能测试。 第6 章:实现了分布式数据挖掘平台原型,总结提出了在设计分布式数据挖 掘算法时,可参考的设计思路。 第7 章:本文总结和需要进一步研究的工作 筚十r m i 技术的分布式效据挖掘卜弁设计j 研究 第二章分布式计算技术 2 1 分布式计算技术原理 分布式计算是近年提出的一种新的计算方式,它研究如何把一个需要非常巨 大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给许多计 算机进行处理,最后把这些计算结果综合起来得到最终的结果。 对于什么是分布式计算存在着多种解释,中国科学技术信息研究所对其所下 的定义为:所谓分布式计算就是在两个或多个软件互相共享信息,这些软件既可 以在同一台计算机上运行,也可以在通过网络连接起来的多台计算机上运行。 分布式计算比起其它算法具有以下几个优点: l 、稀有资源可以共享; 2 、通过分布式计算可以在多台计算机上平衡计算负载; 3 、可以把程序放在最适合运行它的计算机上; 其中,共享稀有资源和平衡负载是计算机分布式计算的核心思想之一。 2 2 分布式计算技术比较 分布式计算从一丌始出现到现在的2 0 多年时f b j 罩,涌现了大量的分布式计 算技术,其中最主要的为a g e n t 技术,网格技术及r m l ( r e m o t em e t h o d i n v o c a t i o n ) 、c o r b a ( c o m m o no b j e c tr e q u e s tb r o k e r a r c h i t e c t u r e ) 等其它技术。以 上各种技术都能够在一定的程度上实现分布式计算,以下就对这几种技术进行简 要的介绍。 2 2 1 基于a g e n t 技术的分布式计算 在计算机软件领域,a g e n t 可以理解为是一种自主、异步、为完成其任务能 够在多个网络节点之f h j 迁移驻留并具有一定智能的软件实体。从a g e n t 的含义出 发,可以看出a g e n t 具有如下的特性i 。3 j | 1 4 1 1 1 5 】: ( 1 ) f l 治性a g e n t 楚卟独z 的实体只仃它f l 己彳仃权利决定f j 己的行为 6 摹fr m i 技术的分布式数据挖掘乎台设计j 研究 并且a g e n t 特性使得a g e n t 软件实体能够决定自己的行为。 ( 2 ) 策略性,由于a g e n t 的自治性,当代表客户的a g e n t 在和其他环境作用时, 不会简单地因为外界的某个因素的出现就必定做出某种行为。它总是在追求最优 方案。 ( 3 ) 必然性,a g e n t 的自治出现并没有使得系统出现不确定性,它只是在寻找 最优方案。当条件满足时,它必定会履行承诺的服务。只是策略问题,即a g e n t 具有必然性。 ( 4 ) 代理性,a g e n t 是有策略地履行自己的行为,但策略是以它服务的对象意 愿为转移的。即a g e n t 为某个对象最佳利益进行策略行为,也就是说a g e n t 具 有代理性。 ( 5 ) “人格性”,由于a g e n t 具有上述特性,使得a g e n t 具有了似乎只有人才具 有的特征,即“人格性” 正因为a g e n t 具有以上几个特征,所以必须要有内部的数据结构对其进行支 持,要具有知识规则和相应的推理机制,依据本身具有的知识运用一定的规则进 行推理,另外,还必须有一个安全机制来保证它的安全。 基于a g e n t 的分布式计算技术,是指以a g e n t 作为分布式计算的核心,包含 对传统软件和数据资源支持的新一代分布式计算技术。其中最有代表性的就是移 动a g e n t ,移动a g e n t 除了a g e n t 技术所拥有的基本特性之外,还具有移动性。 它能够自动完成用户任务的程序,可以在网络上从一个结点自主地移动到另一个 结点并继续运行,必要时还可以进行自我复制以及生成子移动a g e n t 。 移动a g e n t 本身就具有分布式的特点,一个基于移动a g e n t 的应用由一组移 动a g e n t 构成,每一个a g e n t 根据自身的目标和环境的状况移动到拥有计算所需 资源的节点上进行计算。在进行计算时可能需要与其它a g e n t 进行通信协作,而 整个计算过程则可能会分成多个步骤进行,每一步完成之后,移动a g e n t 都将自 主地决定下一步的动作,直至其任务全部完成后才自动消亡。 采用移动a g e n t 技术能够较大地减轻网络负载,目前的分布式系统通常过多 地依赖于网络通信协议,这些协议在完成任务的过程中需要进行多次交互,从而 很容易导致网络拥塞。移动a g e n t 可以封装一个完整的会话过程,然后自主移动 到目的主机上去进行本地交互 幕十r m i 技术的分布武数据挖掘甲台垃计j 研究 此外,当远程主机需要进行数据处理时,采用移动a g e n t 还可以避免大量数 据在网络上的传输,其基本思路是将计算移到数据上去进行,而不是把数据移到 计算中来。因此,如果一个客户机需要与网络上特定服务器进行大量的通信,最 好的办法就是实现一个使用移动a g e n t 的系统,该a g e n t 能够自动移动到远程服 务器上,执行计算任务并返回,这样可以减少网络拥塞。整个计算过程中客户机 没有必要在网络中存在,仅仅只有在移动a g e n t 返回时,客户机力。需要连接到网 络上【6 m 。 但是,总的来说,目前对移动a g e n t 的研究已取得的一定的成果,产生了大 量的移动a g e n t 系统,但总体来说还很不成熟,只能用于试验研究。 2 2 2 基于网格技术的分布式计算 网格计算的基本思想被引申为:就像人们同常生活中从电网中获取电能一样 获取高性能的计算能力【l s l 【1 们。i b m 对网格的介绍为:网格是通过局域网或广域 网提供的一系列分布式计算资源,而对终端用户或应用来讲,好像是一台大型虚 拟计算机。这种构想是通过在个人、组织和资源之日j 实现安全、协调的资源共享, 来创建虚拟动态的组织。网格计算本身就是分布式运算的一种方法,不仅包括位 置而且还涵盖组织、硬件和软件,以提供无限的能力,使连接到网格的每个人 都可以进行合作和访问信息。 网格技术不断地发展使人们逐渐地意识到了网格体系结构的重要性。网格体 系结构用来划分系统的基本组件,指定系统组件的目的和功能,说明组件之间如 何相互作用,规定了网格各部分相互的关系与集成的方法。可以说,网格体系结 构是网格的骨架和灵魂,是网格技术中最核心的部分。 l 、五层沙漏结构 五层沙漏结构是一种早期的抽象层次结构,以“协议”为中心,强调协议在网 格的资源共享和互操作中的地位。通过协议实现一种机制。使得虚拟组织的用户 与资源之日j 可以进行资源使用的协商、建立共享关系。并且可以进一步管理和丌 发新的共享关系。这一标准化的丌放结构对网格的扩展性、互操作性、一致性以 及代码共享都很有好处。 2 、丌放h 洛眼务结均 肇十r m i 技术的分布式数据挖掘f 台设计j 研究 开放网格服务结构( o g s a ) 是g l o b a lg r i df o r u m 4 的重要标准建议。是目前最 新也最有影响力的一种网格体系结构,被称为是下一代的网格结构。o g s a 的目 的就是要将g r i d 的一些功能,更确切的说是g l o b u s 的一些功能融合到w e b s e r v i c e 这个框架中。与前期网格不同的是,o g s a 是面向服务的结构,将所有 事务都表示成一个g r i d 服务。计算资源、存储资源、网络、程序、数据等都是 服务,所有的服务都联系对应的接口,所以,o g s a 被称为是以服务为中心的“服 务结构”;通过标准的接口和协议支持创建、终止、管理和开发透明的服务,其 发展象征着w e bs e r v i c e 的一个进步;结合目前的w e bs e r v i c e 技术,支持透明 安全的服务实例,o g s a 有效地扩展了w e bs e r v i c e 架构的功能。 3 、网格协议g i o b u s 工具包 g l o b u s 项目是目前国际上最有影响力的与网格计算相关的项目之一,是来 自世界各地关注网格技术的研究人员和开发人员共同努力的成果。它是围绕四种 主要活动来组织的:研究、软件工具、实验台和应用程序。g l o b u s 对资源管理 安全、信息服务及数据管理等网格计算的关键技术进行研究,开发能在各种平台 上运行的网格计算工具软件,帮助规划和组建大型的网格实验平台,开发适合大 型网格系统运行的大型应用程序。g l o b u s 工具包是g l o b u s 最重要的实践成果, 它是一个开放源码的关键g r i d 协议的参考实现,支持大量的主要的电子科学项 目。该工具包基于开放结构、开放服务资源和软件库并支持网格和网格应用,致 力于安全、信息发现、资源管理、数据管理、通信错误诊断等问题【2 0 】。 目的,网格的研究主要在美国和欧洲,英国政府己投资l 亿英镑,用来研制 “英国国家网格( u k n m i o n a lg 棚) 。美国政府用于网格技术基础研究经费则已达 5 亿美元,美国军方j 下规划实施一个宏大的网格计划,叫做“全球信息网格( g l o b a l i n f o r m a t i 0 1 1g r i d y 。随着网格研究在学术界的加速,信息产业界的大公司也相继 公布了与网格目标一致的研究丌发计划。惠普、i b m 、微软、s u n 等公司最近取 得共识,支持x m l 、s o a p 、u d d l 等力维网标准,从而更有利于丌发新一代的 网络应用,即力维网服务。其目的是将因特网上的资源和信息汇聚在一起,组合 成企业和消费者所需要的服务。 在国内,中国科学院计算技术研究所对网格技术的研究已较为深入。已经完 成的网格研究项目主要有清华大学的先进计算基础设施a c l ( a d v a n c e d 基于r m i 技术的分布式数据挖掘卜弁砹计j 研究 c o m p u t a t i o n a li n f r a s t r u c t u r e ) 和以中科院计算为主的国家高性能计算环境 n h p c e ( n a f i o n a lh i g l ip e r f o r m a n c ec o m p u t i n ge n v i r o n m e n t ) 。 网格的主要特征是共享应用程序、共享数据、共享处理能力以及共享存储。 网格技术产生之初,是为了满足科研计算的需要。但受市场需求、技术和标准进 步的推动,网格计算也逐步向商业应用发展。 2 2 3 基于r m i 、c o r b a 等其它分布式技术的分布式计算 1 c o r b a 分布式计算体系【2 l 】【竭 c o r b a 是由o m g ( 对象管理组织,o b j e c tm a n a g e m e n tg r o u p ) 提出的应用软 件体系结构和对象技术规范,其核心是一套标准的语言、接口和协议,以支持异 构分布应用程序问的互操作性及独立于平台和编程语言的对象重用。 简单地说,c o r b a 允许应用系统之间相互通信,而不管它们存在于哪罩以 及是谁设计的。c o r b a i 1 于1 9 9 1 年由o m g 发布,其中定义了接口定义语言 ( i d l ) 以及在对象请求代理( 0 r b ,o b j e c tr e q u e s tb r o k e r ) 中实现客户对象与服务 器对象之间交互的应用编程接d ( a p l ) 。c o r b a 2 0 于1 9 9 4 年发布,规定了各个 供应商之间的o r b 的通信规则。c o r b a 3 0 于2 0 0 2 年发御,增加了c o r b a c o m p o n e n tm o d e l ( c c m ) 。c c m 扩展了传统的c o r b a 对象模型,通过定义允许 应用开发者去应用、管理、配置和展丌集成了c o r b a 服务的模块的特性和服务, 如容忍度、安全事务和事件服务。 c o r b a 标准主要分为三个部分:接口定义语言( 1 d l ) 、对象请求代p 里( o r b ) 以及o r b 之间的互操作协议。c o r b a 规范充分利用了业界软件技术发展的最 新成果,在基于网络的分布式应用环境下实现应用软件的集成,使得面向对象的 软件在分布、异构环境下实现可重用、可移植和互操作。其特点可以总结为如下 几个方面: ( i ) 弓i x 中间件( m i d d l e w a r e ) 作为事务代理,完成客户机( c l i e n t ) 向服务对象方 ( s e r v e r ) 提出的业务请求。 ( 2 ) 所实现的客户方程序与服务器方程序的完全分离,客户不需要了解服务 对象的实现过程以及具体位置。 ( 3 ) 提供了软总线机制。使得在任何环境下、采用任何语言歼发的软件只要 1 0 培十r m i 技术的分布j 数据挖掘卜台搜计j 研究 符合接口规范的定义,均能够集成到分布式系统中。 ( 4 ) 采用分层的设计原则与实现方法,应用系统层次比较明晰。 ( 5 ) c o r b a 规范软件系统采用面向对象的软件实现方法_ 丌发应用系统,实现 对象内部细节的完整封装,保留对象方法的对外接口定义,将分布计算同面向对 象的概念相互结合 在以上特点中,最突出的是中间件的引入,在c o r b a 系统中称为对象请求 代理和采用面向对象的开发模式。对象模型是应用开发人员对客观事物属性和功 能的具体抽象。由于c o r b a 使用了对象模型,将c o r b a 系统中所有的应用看 成是对象及相关操作的集合,因此通过对象请求代理,使c o r b a 系统中分御在 网络中应用对象的获取只取决于网络的畅通性和服务对象特征获取的准确程度, 而与对象的位置以及对象所处的设备环境无关。 2 r m l 分布式计算体系【矧 r m i 采用j r m p ( j a v ar e m o t em e l l l o dp r o t o c 0 1 ) 通讯协议,是构建在t c p i p 协议上的一种远程调用方法。r m i 是调用不同j a v a 虚拟机上的对象的方法的一 种j a v a 技术,提供了一种透明技术,使得对远程方法的调用在经过最初的初始 化过程以后就和调用本地的方法完全一样。 r m i 应用程序一般包括两个独立的程序:服务器程序和客户机程序。服务 器应用程序将创建多个远程对象,使这些远程对象能够被引用。然后等待客户机 调用那些远程对象上的方法。客户机程序从服务器中得到一个或多个远程对象的 引用。然后调用远程对象的方法。 r m i 系统为三层结构,每一层的边界由确定的接口和协议加以定义。每一 层都独立于下一层,并且可以在不影响系统中其他层的情况下用可选的实现替 代。r m i 系统的三个层次分别为: ( 1 ) 代理层( s t u b s k e l e t o nl a y e r ) :客户端存根( s t u b ) 和服务器端框架 ( s k e l e t o n ) ,它们屏蔽了远程引用层和传输层的细节,提供了j a v a 应用程序调用 远程对象方法的透明接口。这一层是应用层r m i 系统与其它部分之白j 的接口。 ( 2 ) 远程引用层( r e m o t er e f e r e n c el a y e r ) :远程引用层处理较低层的传输接 口,也负责执行具体的远程引用协议:客户端:分析调用的语义;服务器端: 处理对服务器对象的引用语义。 基十r m i 技术的分布式数据挖掘甲台设计j 研究 ( 3 ) 传输;县( t r a n s p o r tl a y e r ) :传输层负责连接设雹、连接管理以及对位于传 输在空间上的远程调用目标的跟踪和调度。 r m i 具有多种优良的技术特性。主要包括以下几个方面【2 4 l : ( 1 ) 继承了面向对象技术的优点,接口与实现相分离,这意味着相同的接口 可以有不同的实现方式,让使用r m i 的应用系统的实现方式更加灵活,并更容 易升级。 ( 2 ) 从程序结构和代码的角度看,r m i 中同过代理结构的实现保持了远程对 象与普通j a v a 对象之间的一致性,使得r m i 的学习和使用更加容易。 ( 3 ) r m i 的序列化与反序列化机制使得对象具有了移动特性,可以在需要的 时候将一个运行时j a v a 对象序列化成字节码,并通过网络传递到任何地方,再 结合动态类加载技术可以将在目标机器上从新构造对象,完成对象的传递。这是 r m i 一个独一无二的特征。 ( 4 ) 同时运行在两种协议之上,r m i 和i i - o p ,其中r m i 是私有协议,而i i - o p 则是c o r b a 中定义的分布式互操作协议,这说明r m i 和c o r b a 之间有良 好的互操作性。 2 2 4 选择r m i 技术 在前面的- - d 节中,对a g e n t 、网格、r m i 、c o r b a 等分御式技术进行了 介绍和比较,可以发现,a g e n t 、网格技术是两种不成熟的技术,虽说有很好的 前景,但使用和开发的难度很大。而r m l 技术是一种很成熟技术,相对容易使 用,且具有跨平台执行的能力优点。本文的重点是分椎式数据挖掘算法实现,对 具体的分向式技术没有太高的要求,因此,在性能和开发的难度上作为了权衡选 择,采用r m l 技术。 1 2 摹于r m i 技术的分布式数据挖掘甲台设计拥f 究 第三章数据挖掘理论和分布式数据挖掘理论 3 1 数据挖掘理论 随着数据库技术和计算机硬件技术的迅速发展,如何从含有海量信息的数据 库中提取真j 下需要的,并且直观有价值的数据成为人们迫切的需要,数据挖掘就 是在这种需求下被提出的。 数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有 趣知识的过程。从数据仓库的观点,数据挖掘可以看作联机分析处理的高级阶段。 它涉及多学科技术的集成,包括数据库技术、统计学、机器学习、高性能计算、 模式识别、神经网络、数据可视化、信息检索、图象与信号处理和空间数据分析。 数据挖掘的对象包含大量数据信息的各种类型数据库。如对象一关系数据库,面 向对象数据库等,文本数据数据源,多媒体数据库,多媒体数据库,空间数据库, 时态数据库,以及i n t e m e t 等类型数据或信息集均可作为数据挖掘的对象t 1 1 。 3 1 1 数据挖掘的过程 数据挖掘的过程可以分为
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 第六节 变阻器说课稿-2025-2026学年初中物理鲁科版五四学制2024九年级上册-鲁科版五四学制2024
- 视唱说课稿-2025-2026学年初中音乐人教版八年级上册-人教版
- 月光说课稿-2025-2026学年初中音乐人音版九年级下册-人音版
- 第十二章 第4节 机械效率(说课稿)2024-2025学年度人教版(2024)物理八年级下册
- 清洁验证标准优化-洞察及研究
- 金融市场波动性分析-第2篇-洞察及研究
- 宠物销售风险防范措施-洞察及研究
- 教学评价改革研究-洞察及研究
- 煤炭干法煤气化工艺改进研究-洞察及研究
- 机器学习在灾难响应中的角色-洞察及研究
- 2025年共青团考试题库(附答案)
- 全国数智产业发展研究报告(2024-2025)
- 供应链管理师三级实操考试题库及答案
- 二维材料物性调控-洞察及研究
- 最全浙江行业协会名单
- 访谈提纲格式4篇
- ACUSONX150西门子彩色多普勒超声系统
- 连铸坯中心缺陷控制
- GYB培训全课件(最终版)
- 合伙开饭店协议书的范本
- 大桥墩柱盖梁抱箍施工方案
评论
0/150
提交评论