(管理科学与工程专业论文)基于网格计算的商务智能研究.pdf_第1页
(管理科学与工程专业论文)基于网格计算的商务智能研究.pdf_第2页
(管理科学与工程专业论文)基于网格计算的商务智能研究.pdf_第3页
(管理科学与工程专业论文)基于网格计算的商务智能研究.pdf_第4页
(管理科学与工程专业论文)基于网格计算的商务智能研究.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(管理科学与工程专业论文)基于网格计算的商务智能研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基予爵捺沣算瓣商务警畿聚突 摘爨 y9 0 6 7 0 9 企业在生产经营中需要充分利用各种资源,企业的资源县备不周 蛇特性,也可篷是出不弼靛技术实现戆,露且这些资源可怒分毒在不 同的位置。“信息孤岛”是企监中普遍存在的现象。而丽格计算作为 一种整合资源的耨手段姆分布式资源,如软件、硬件、网络等资源整 合在一超,实现资源熬垒疆共享。醚莓弱捂技术麴不薮减熬,寻求掰 格计算在企业中的应用成为研究热点。 囊耍智麓遥过裂溪客户、供应窝鞋及蠹鄣、监务揉俸翁骞关萤感亲 提高商业性能。商务智能系统的最终目标是使用户能够消赞大量有关 数据,对茭进行分褥从露捷企韭有枫会增加收入藏者节省成本。 本文研究网格环境下的商务智熊的应用。数据网格提供了很多适 合企业实际应用的功熊,本文从企业对数据繁成的需求如发,对咀 o g s a - d a i 为重点靛数据蕊格技术进行分辑研究,然轰霞耀数据瓣褡 的强大功能寐丰富商务智能应用,最终对企业状策提供支持。本文重 点硬究了秘格器蠢务智麓戆鏊台,撬瞧了一个基予s o a 黧网捺囊务 智能应用糕架,并以数据挖掘工具w e k a 和o g s a d a i ,g t 4 作为主 要实褒懿技零,实现7 潺格上的数据挖掘流程。 最后本文对进一劳研究工作进行了探讨。 关键调:网格计算,s o a ,数据集成,商务镭能,数据挖握 t 彗s 至轰r e 醚o f 嚣鞋s s n 嚣s s 嚣鞲b l l g 嚣嚣e 嚣 b a s e d0 ng * u dc o m p u t t n g a 彗s 攀颡a c 霉 e n t e r p r i s e sn e e df u l 垮u t i | i z i a gv ”a r i o u sk i n d so fr e s o u r c e si n p r o d u c t i o na n dm a n a g e m e n t , y e tt h er e s o u r c e so fe n t e r p r i s e sa l w a y s h a v ed i f f e r e n tc h a r a c t e r i s t i c s ,o ri m p l i m e n t i n gb yd i f f e r e n tt e c h n o l o g y , a n dt h e s er e s o u r c e sm i g h tb ed i s t r i b u t e di nd i f l b r e n tp o s i t i o n s “i s l a n d o fi n f o r m a t i o n ”i sau b i q u i t o u sp h e n o m e n o ni ne n t e r p r i s e s g r i di sa l t e 疆- a p r o a e h t o a g g r e g a t er e s o u r c e s , w h i c hi n c l u d es o f a - a r e h a r d w a r e ,n e t w o r ka n ds oo nt oa c h i e v et h eg o a lo fo v e r a l ls h a r i n go f r e s o u r c e s ,w i t ht h er a p i dd e v e l o p m e n to f 毋磊t e c h n o l o g y ,s e e k i n gi t s a p p l i c a t i o n i n e n t e r p r i s e s h a v eb e c o m ean e wf o c u sf i e l df o r r e s e a r c h i n g 。 b u s s i n e s si n t e l l i g e n c e 鼙蛩c a l li m p r o v ec o m m e r c i a lp e r f o r m a n c e o fe n t e r p r i s e s b yu t i l i z i n gi n f o r m a t i o no fc u s t o m e r , s u p p l i e ra n d i n t e r i o rb u s i n e s so p e r a t i o n 。t h eu l t i m a t eg o a lo f 嚣 s y s t e mi s 镪 c o n s u m el a r g ea m o u n to fr e l e v a n td a t a ,a n a l y s ei tt om a k ee n t e r p r i s e s i n c r e a s ei n c o m eo rs a v ec o s t t h i sp a p e rf o c u s e so na p p l i c a t i o no fb u s s i n e s si n t e l l i g e n c ei n g r i de n v i r o n m e n t t 淞d a t a g r i dh a so f f e r e dat o to fv a l u e b l ef u n c t i o n s t om e e tt h ed e m a n do fp r a c t i c a l e n t e r p r i s ea p p l i c a t i o n 。t h i sp a p e r c o m b i n e st h ec o n c e p to fs o a ( s e r v i c eo r i e n t e da r c h i t e c t u r e ) a n dg r i d , s t a r tf r o mt h ee n t e r p r i s e s n e e d , a n da n a l y s et h ed a t a g r i dt e c h n o l o g y b a s e do no g s a * d a i t h ep o w e r f u lr u c t i o np r o v i d e db yd a t a g r i dc a l l e n r i c ht h ea p p l i c a t i o no fb it os u p p o r tt h ed e c i s i o n m a k i n gp r o c e s s 。 t h i sp a p e rf o c u s e so nt h ec o m b i n a t i o no ft h eb ia n dg r i dt o c l m o l o g y , a d d e s s e saf r a m e w o r ko fb ia p p l i c a t i o n b a s e do ns o aa n dg r i d c o n c e p t ,b yu s i n gd a t a m i n gt o o _ 一w 嚣aa n do g s a - d a ia sa d a t a g r i di m p l i m e n t ,ad a t a m i n gp r o c e s sh a sb e e na c c o m p l i s h e d a tl a s t , 镭ef u r t h e rr e s e a r c hd i r e c t i o n 。i sd i s c u s s e d 。 k e y w o r d s :g r i dc o m p u t i n g ,d a t ai n t e r g m t i o n ,s e r v i c eo r i e n t e d a r c h i t e c t u r e ,b u s i n e s si n t e l l i g e n c e , d a t a m i n i n g 第一章引言 第一节研究背景及意义 随着信息技术,特别是电子商务的发展,企业从单纯关注市场交易转向关注 生产服务全过程。这将涉及企业内部和整个供应链上合作伙伴业务之间的协作。 在企业内部,存在各部门、各角色之问的协调。利用网络和协同手段、使整个供 应链或供应链之间进行各种广泛的合作,融为一体,最终不仅允许每个企业内部 的员工之问、部门之间,而且要让相关各方,女l i 企业与客户之间、相互协作的企 业之间,进行充分的信息沟通,步调一致,以便对客户的需求迅速响应。这就需 要相关的各方都能在统一的协同平台上进行实时的交互,使企业能够管理产品的 多维信息,并与其它合作伙伴共享这些信息。 网格 1 1 1 2 1 就是一个拥有强大计算 能力,能提供多种服务,支持各种交互,开放且能够处理异构和分布式资源的网络 平台。 除了强调协作之外,未来成功的企业还是一种能够随着市场行情、客户需求 或者外部威胁的变化而实时、完全灵活地作出响应的企业。这样企业可以抢在竞 争对手之前建立起灵活高效的运营模式,并能够随着客户需求做出迅速调整。无 论是对无法预测的供求变化,还是对客户,合作伙伴,供应商和雇员的需求情 况,还是对竞争对手的出人意料之举,企业都具有敏锐洞察力和动态反应能力。 但是现有的异构、分散、孤立、复杂性与日俱增的基础架构无法实现这种随需应 变的业务理念,而网格技术正是这一切弊病的“克星”,他以建立高效灵活、低 成本的it 组织架构为己任,为企业解决it 应用的后顾之忧。 随着市场竞争日趋激烈,企业不得不提高自己核心价值的增值能力,而将增值 较少的非核心业务尽可能多地“外包”出去。l t 外包指用户公司通过合同和协 议,将全部或部分电子商务系统业务外包给承包商。l t 外包是在市场竞争激烈的 环境中,企业建立核心价值的良好模式,也是经济走向发达过程中产业分工不断细 化的体现。采用i t 外包的方式,企业司以弥补自身资金、人力资源、i t 知识和 运作经验等方面的不足,提高企业信息平台的质量、效率和效益。网格技术使 i t 外包成为企业应用信息技术的新趋势,企业只需访问服务供应商建立的网格, 1 就可得到企业所需的管理程序、商业数据库资料,而不必再独立投资建立内部的 全套软件和程序,并且成本相对低廉。 在企业中,商业智能已经成了企业信息技术最为重要并且极具潜力的领域。 在竞争日益激烈的市场环境中,只有那些利用先进的信息技术成功地收集、分析、 理解信息并依据信息进行决策的企业才能获得竞争优势,才是市场的赢家。因此, 越来越多的管理者开始借助商务智能技术来发现商务运营过程中存在的问题,找 到有利的解决方案。不过,现实的情况足企业的信息呈爆炸式增长,商务智能系 统目前面l 临的挑战之一就是企业数据量的膨胀和数据的多样化,当对大规模数据 集进行商务智能的分析挖掘任务时,在普通的计算机时往往需要花费相当长的时 间。除了使用更加先进的计算机之外,一一种解决办法是并行和分布式计算,这将 大大降低企业的成本。网格计算作为一种分布式计算方式,为实现高效的商务智 能分析提供了新的实现手段。而且复杂的商务智能应_ h j 往往需要使用地理位置分 布并且可能是属于不同组织的数据,数据可能存储于不同的系统并且使用不同的 数据表达方式。网格提供了一种访问数据资源和计算资源的新的方式,能够有效 地解决商务智能应用中计算密集和数据密集的相关问题。 商务智能可以利用网格技术整合资源能力获得对企业资源的透明一致访问。 网格提供了良好的数据访问和集成能力,通过数据网格的数据虚拟化技术,使商 务智能应用构建在一致的数据平台之上,简化其在信息集成领域的工作量。商务 智能另一个问题是,复杂的数据处理、分析过程需要大量的计算时间,通过网格 技术可以容易的利用企业闲置的计算能力,帮助企业不增加成本的情况大大缩短 数据分析的周期。网格的服务概念也可以应用到商务智能过程中,构建出服务型 的商务智能系统,从而可以在企业的其它系统中使用商务智能功能。 随着技术的发展,网格已经成为企业实施诸如上述的协同商务,随需应变, i t 外包,商务智能等先进理念的理想平台,而日前网格的应用还局限在科研领 域,探索网格的商业应用已经成为t p i # 重要的研究课题。本文研究以网格为支撑 技术的商务智能技术。该研究可以提升企业数据分析能力和决策水平,同时可以 将理论成果应用于具有分布式管理特征的其他领域,极具理论和实践价值。 第二节国内外研究现状 国外对网格环境下的数据挖掘的已经进行了比较深入的研究。比如,m c a n n a t a r o 和d t a l i a 提出了网格环境下的数据挖掘模型【3 ,但没有使用服务网 格的概念,也没有涉及具体的应用。而国内涉及这个领域的研究还处于起步阶段, 而且研究集中在概念和理论模型,没有出现可运行的系统【4 】。 一部分数据网格的项目近几年开始对网格环境中的数据挖掘进行研究,这是 随着数据网格集成数据的增加自然而然出现的。这些项目的特点是立足于解决分 布式数据的问题,i 司时也提出了基于网格的分布式运算模型。比较有代表性的有: d a t a m i n i n g g r i d 5 和g r i d m i n e r 。另一种研究趋势是对数据的分布和多样性不进行 很多的关注,而是立足于使用网格理念来实现网格环境下的分布式的数据挖掘。 g r i dw e k a 6 通过修改w e k a 工具箱来使用多种计算资源来进行数据分析,数据 挖掘的部分任务可以在特定的环境中在多台计算机中分布式执行。w e k a g 和 g r i dw e k a 类似,它基于服务器客户机结构,服务器端定义了一系列网格服务来 实现数据挖掘算法和数据挖掘的特定阶段。客户机端生成交互的g u i 界而以及 负责与服务器的通讯。 另外一种趋势是使用服务封装数据挖掘的过程,从而使数据挖掘具有被远程 执行和与第三方服务交互的能力,同时也容易将数据挖掘算法无缝的嵌入已有的 应用程序中。这部分研究以研究w e b 服务在数据挖掘过程的应用为主,随着网 格服务的成熟,特别是w s r f 和g t 4 的出现,服务型的网格数据挖掘也开始出 现。f a e h i m 7 】( f e d e r a t e da n a l y s i se n v i r o n m e n tf o rh e t e r o g e n e o u si n t e l l i g e n t m i n i n g ) 是一个使用w e b 服务来实现分布式数据挖掘的项目,它包括一系列数据 挖掘服务和与服务交互的工具。f a e h i m 大部分的数据挖掘功能是通过将w e k a 库暴露为w e b 服务来实现的,它还利用t r i a n a 8 实现了流程系统,从而方便了 对数据挖掘服务的管理。通过w s r f 网格服务来封装数据挖掘过程的研究随着 w s r f 协议的完善也开始吸引了研究人员的注意。不过目前还没有出现以w s r f 协议为标准,充分考虑数据获取和数据分析过程的研究,特别是基于w s r f 协 议的数据挖掘功能和网格功能结合上,研究还没有起步。 本文充分借鉴网格和w e b 服务领域对数据挖掘的研究成果,以s o a 为指导 思想,研究w s r f 协议下网格数据挖掘的特点,探索网格环境下商务智能应用。 1 第三节本文研究的主要内容、创新点和章节安排 本文研究的主要内容 本文的主要内容是基于网格的商务智能应用,商务智能应用主要集中在数据 挖掘领域。以s o a 作为联系网格和数据挖掘的桥梁和纽带,使用网格服务的概 念来理解商务智能的过程。本文将介绍数据网格来实现信息集成,以数据服务的 方式获得数据挖掘的原始数据,使用网格服务来封装数据挖掘的算法,基于s o a 的网格数据挖掘模型。以刚格环境的商务智能实现来探索网格的商务应用。 本文拟解决的问题: 分析网格的商业应用 数据网格的数据集成技术为数据挖掘系统提供数据 网格服务实现数据挖掘的过程 使用s o a 来架构网格数据挖掘系统模型。 系统实现采用的主要技术: 网格协议和技术,w e b 服务、s o a ,w s r f 、o g s a d a l : j a v a 和j 2 e e 的持久层技术; 商务智能技术,数据挖掘工具w e k a ; 二本文的创新点 从网格在商务智能领域的应用出发,研究网格的企业应用模式 提出使用s o a 的网格数据挖掘系统模型,并实现了部分模块; 三论文章节安排 下面的章节中,第二章主要介绍与研究内容相关的技术和理论;第三章从理 论和业务角度分析数据网格和商务智能的结合问题,使用s o a 来使网格商务智 能系统服务化:第四章是从i t 角度研究基于s o a 的网格数据挖掘系统g r i d d m 的设计实现:第五章是本文的总结和本文所建系统的进步研究方向和发展。 第二章相关技术和概念 第一节商务智能介绍 商务智商务智能b l ( b u s i n e s si n t e l l i g e n c e ) 定义很多,比较严谨的定义如下: “商务智能是企业利用现代信息技术收集、管理和分析结构化和非结构化的 商务数据和信息,创造和累计商务知识和见解,改善商务决策水平,采取有效的 商务行动,完善各种商务流程,提升各方面商务绩效,增强综合竞争力的智慧和 能力”。9 1 整个b i 的框架结构可以用图1 1 来表示: 图1 1b l 的整体框架 现在决大多数企业已在其一个或多个部门内采用了计算机管理系统,也累积 了相当的商业数据。然而以前累积的数据,并没有很好的得到利用。这些数据来 源广,格式不统一,并且其中极少量的数据记录格式不正确:同时,累积的数据 量相当庞大,某些大型公司每天所产生的商业记录已超过千万条;而且,某些细 节对高层管理人员来说并) 1 i 重要。他们需要的是站在战略层角度统观全局,及时 的为企业决策服务的统计报表。 为了实现这一艰巨的目标,b l 专家把任务分解成了三个子任务: 1 ) 为了整合各种格式的数据,清除原有数据中的错误记录,专家们提出了数 据预处理的要求e t l ( 数据抽取、转换、装载) ; 2 ) 对预处理过数据,应该统一集中起来,由此产生了元数据( m e t ad a t a ) 、数 据仓库( d a t aw a r e h o u s e ) ; 3 ) 最后,对于集中起来的庞大的数据集,还应进行相应的专业分析,从中发 掘出对企业决策有价值的规律,这就是联机事务分析( 0 l a p ) 和数据挖掘( d a t a m i n i n g ) 。 下面具体介绍一下每个子任务所需要t i = | j 到的专业技术。【l o 】 1 ) 数据预处3 犟( e t l :e x t r a c t i o n ,t r a n s f o r m a t i o n ,l o a d ) 当早期大型的在线事务处理系统( o l t p ) f n 3 世后不久,就出现了一种用于“抽 取”处理的简单程序,其作用是搜索整个文件和数据库,使用某些标准来选择合 乎要求的数据,将其复制拷贝出来,用于总体分析。对对抽取出来的数据进行分 析,不管多么复杂,都不会影响正在使用的在线事务处理系统,降低其性能,同 时,用户可以自行控制抽取出来的数据。但是,现在情况发生了巨大的变化,企 业同时采用了多个在线事务处理系统,而这些系统之间的数据定义格式不尽相 同,即使采用同一软件厂商提供的不同软件产品,或者仅仅是产品版本不i 司,之 间的数据定义格式也有少许差距。由此,我们必须先定义一个统一的数据格式, 然后把各个来源的数据按新的统一的格式进行转换,然后集中装载入数据仓库 中。 2 ) 数据仓库 随着企业的的商业模式和业务规则不断变化,肯定需要对系统进行修改和功 能升级。如果弄不清楚之前定义的数据格式的具体含义,我们将无从下手。所以, 需要一种用来描述数据的数据。早期使用的是数据字典( d a t ad i c t i o n a r y ) ,数据字 典一般包括数据的定义、关系、来源、作用域、格式和用法。但是,随着时间的 推移,专家们发现越来越多的已搭建好的数据仓库希望方便的包容最新的各种格 式的结构化和非结构化数据,而传统的基于关系型数据库的数据字典并不能达成 这一目标。 各个数据源的数据经e t l 的预处理后,就被送进了数据仓库中。数据仓库有 如下4 个重要特性: 面向主题的:不同类型的公司,其主题集合是不相同的。 6 集成的:数据仓库的数据来源很广,时间跨度大,数据仓库最重要的目的 就是为了集成这些不同数据源的数据。 非易失的:和操作型数据库系统相比,数据仓库通常是以批量方式载入和 访问。而且,对于数据仓库中的记录,并不进行一般意义上的数据更新,删除。 所有的历史数据都会被保留,通常我们只足不停的批量导入新的数据。 随时间变化的:操作型数据库系统出于性能上的考虑,并不保存系统投入 运行后所产生的所有数据,一般只保留最新的6 0 9 0 天内所产生的数据记录。而 数据仓库中的数据是一系列时间序列产生的数据的复杂快照,数据仓库的数据是 高度冗余且必须的。 3 ) 数据分析:o l a p 和数据挖掘 联机分析处理( o l a p ) 的概念是由关系数据库之父e f c o d d 于1 9 9 3 年提出 的,其1 5 1 的是为了让管理者灵活地对海量数据进行浏览分析。当时,c o d d 认为联 机事务处理( o l t p ) 已不能满足终端用户对数据库查询分析的需要,s q l 对大数据 库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据 库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因 此c o d d 提出了多维数据库和多维分析的概念,即o l a p 。 利用多维的概念,o l a p 提供了对数据仅进行切片、切块、下钻、上卷和旋 转等多维度分析与跨维度分析功能。相对于普通的静态报表,o l a p 更能满足决 策者和分析人员对数据仓库数据的分析。o l a p 系统架构主要分为基于关系数据 库的r o l a p ( r e l a t i o n a lo l a p ) 、基于多维数据库的m o l a p ( m u l t i d i m e n s i o n a l o l a p ) 、基于混合数据组织的h o l a p ( h y b r i do l a p ) 三种。前两种方式比较 常见。r o l a p 表示基于关系数据库的o l a p 实现。它以关系数据库为核心,以 关系型结构进行多维数据的表示和存储。r o l a p 将多维数据库的多维结构划分 为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个 维至少使用一个表来存放维的层次、成员类别等维的描述信息。m o l a p 表示基 于多维数据组织的o l a p 实现。它以多维数据组织方式为核心,使用多维数组存 储数据。m o l a p 查询方式采用索引搜索与直接寻址相结合的方式,比r o l a p 的表索引搜索和表连接方式速度要快得多。 数据挖掘( d a t a m i n i n g ,d m ) 是指从大量不完全的、有噪声的、模糊的、 随机的数据中,提取隐含在其中的、有用的信息和知识的过程。其表现形式为概 念( c o n c e p t s ) 、规贝l l ( r u l e s ) 、模式( p a t t e r n s ) 等。 从商业层来看,在商业智能系统中进行数据挖掘的目标大致可分为两类: 从累积的业务数据中发掘出管理层事先不知道的、但又是潜在有用的信 息,为其创造新的商业机会。商业销售已有大量这方面的运用实例,b i 业内流 传已久的“啤酒和尿布”的例子就属此类。 从累积的业务数据中寻求最优的资源规划方案,降低成本,从而提高利润。 目前业内已有很多成熟的数据挖掘方法论,为实际应用提供了理想的指导模型。 c r i s p d m ( c r o s s i n d u s t r ys t a n d a r dp r o c e s sf o rd a t am i n i n g ) 就是公认的、较有 影响的方法论之一。 一般的事务处理系统甚至些只提供报表分析功能的简单商业智能系统,建 成以后只需要少量的工程维护工作,而采用数据挖掘技术的商业智能系统往往有 很大1 i 同。因为数据挖掘是一个商业理解、数据理解、建模、评估等一系列多次 反复、多次调整、不断修订完善的过程,并且模型的应用也不是一成不变的,在 适当的时候需要更新和重建。所以一般的商业智能项目并不追求一次性工程建 设,更倡导的是一种与企业业务紧密联系能够提升企业竞争力的咨询服务,而且 熟悉业务和分析方法的分析人员在商业智能系统的应用中起着至关重要的作用。 从技术层来看,数据挖掘技术可分为描述型数据挖掘和预测型数据挖掘两 种。描述型数据挖掘包括数据总结、聚类及关联分析等。预测型数据挖掘包括分 类、回归及时间序列分析等。 1 、数据总结:继承于数据分析中的统计分析。数据总结目的是对数据进行 浓缩,给出它的紧凑描述。传统统计方法如求和值、平均值、方差值等都是有效 方法。另外还可以用直方图、饼状图等图形方式表示这些值。广义上讲,多维分 析也可以归入这一类。 2 、聚类:是把整个数据库分成不同的群组。它的目的是使群与群之间差别 很明显,而同一个群之间的数据尽量相似。这种方法通常用于客户细分。在开始 细分之前不知道要把用户分成几类,因此通过聚类分析可以找出客户特性相似的 群体,如客户消费特性相似或年龄特性相似等。在此基础上可以制定一些针对不 同客户群体的营销方案。 3 、关联分析:是寻找数据库中值的相关性。两种常用的技术是关联规则和 序列模式。关联规则是寻找在同一个事件中出现的不同项的相关性:序列模式与 此类似,寻找的是事件之间时间上的相关性,如对股票涨跌的分析等。 4 、分类:目的是构造一个分类函数或分类模型( 也常常称作分类器) ,该模 型能把数据库中的数据项映射到给定类别中的某一个。要构造分类器,需要有一 个训练样本数据集作为输入。训l 练集由一组数据库记录或元组构成,每个元组是 一个由有关字段( 又称属性或特征) 值组成的特征向量,此外,训练样本还有个类 别标记。一个具体样本的形式可表示为:( v l ,v 2 ,v n ;c ) ,其中v i 表示字段值, c 表示类别。 5 、回归:是通过具有已知值的变量来预测其它变量的值。一般情况下,回 归采用的是线性回归、非线性回归这样的标准统计技术。般同一个模型既可用 于回归也可用于分类。常见的算法有逻辑回归、决策树、神经网络等。 6 、时间序列:时间序列是用变量过去的值来预测未来的值。 尽管商业智能应用的前景光明,但是b i 业内还没有形成一个统一的标准。 而且,由于b i 系统的实施是一个长期的、迭代的过程,企、j k 在这个过程中肯定 会出现短期利润倒退的情况,这也在很大程度上打击了企业的信心和实践热情。 所以,目前绝大多数企业都对此持观望态度,或只在有限的部门内局部实施b i 。 第二节网格计算技术 一开放网格服务架构o g s a 开放网格服务架构( o p e ng r i ds e r v i c e s a r c h i t e c t u r e ,o g s a ) 【1 1 】【1 2 的大部 分标准都建立在现有w e b 服务( 特别是s o a p ) 标准之上。在o g s a 栈的最 底层是物理资源。服务器、存储设备和网络都可以是物玛! 资源。紧挨着物理资源 之上的是逻辑资源,通常是一组中间件应用程序的集合,包括数据库、文件系统、 工作流管理器等等。基本上来说,这层中包含了能够帮助网格使用和聚合可用 物理资源的工具。接下来是w e b 服务层。在这一层上,所有的资源( 包括逻辑 资源与物理资源) 都只是服务。将服务器的可用c p u 周期看作足服务,而不是 一种东西,在w e b 服务领域中,这样想法是很有意义的。w e b 服务层为支持服 务提供了坚实的基础。比如说,w e b 服务中内建了发现可用服务的特性,也具 o 有让服务对自身进行描述的方法,这样调用服务就很容易了。更进一步看,对服 务请求和服务响应的传输也有标准的方法。在w e b 服务层之上的是网格服务 层。在这一层中是数据提取、程序执行、监视以及其他一些核心服务。开放网格 服务基础设施( o p e ng r i ds e r v i c e si n f r a s t r u c t u r e ,o g s l ) 是在o g s a 中将w e b 服务层和网格服务层结合起来,同时又对核心w e b 服务进行扩展的尝试。随着 网格服务层逐渐变得坚实,独立的应用程序开始出现在最顶层,这一层也称为网 格应用程序层。作为开发人员来说,要在栈中其他层的基础上构建应用程序。 开放网格服务设施( o g s l ) 是o g s a 的参考实现。在任何兼容o g s i 的网 格服务中,客户机请求服务工厂构建服务实例。每一个服务实例都有唯一一个 g s h ( g r i ds e r v i c e sh a n d l e ,网格服务句柄) ,因此在系统中可以唯一标识。g s h 与w e b 服务中的u r i 十分类似。如果客户机需要与服务进行通信的话,它就 将g s h 解析为一个g s r ( g r i ds e r v i c er e f e r e n c e ,网格服务引用) ,然后用它 与工厂创建的服务实例进行联系。当客户机想要销毁这个服务实例时,它可以显 式地调用一个销毁操作,或是简单地依赖o g s i 内置的基于生命期的垃圾回收 机制。 因为这些实例都是瞬变的,它们最终都会被销毁。实例的生命期根据应用程 序的不同而不同,可以根据需要通过o g s i 提供的接口进行扩展或压缩。一般 而言,实例的生存期和客户机需要它的时间一样k 。按照这种方式,每一个客户 机都使用它自己的实例。然而,若干个客户机可能姓享单个实例,如果能够通过 仔细的生命期管理,让实例在段不活跃时问过后自行销毁就最好了。 每一个网格服务中都包含s e r v i c ed a t a ( 服务数据) ,这是用于描述网格服 务的一组数据。s e r v i c ed a t a 的存在使我们能够实现一种自省机制,即网格服务 具有向外界实体描述其自身的能力。网格服务中另一重要方面是p o r t t y p e 。网格 服务p o r t t y p e 实质上与w e b 服务的p o r t t y p e 是相同的。它的功能是作为一个 接口,用于在端点之问来回传递消息。g r i d s e r v i c e sp o r t t y p e 是必需的核心功能, 它用于找到和查询一个网格服务、判断服务的终止时间,或者执行其他基本功能。 f a c t o r yp o r t t y p e 专用于创建新的服务。出于安全性、生命期管理、任务执行以 及其他用途的需要,这些专用的p o r t t y p e 可以通过扩展核心p o a t y p e 来实现。 因为p o r t t y p e 和s e r v i c ed a t a 都是由x m l 表示的( 确切地说是w s d l 文 档) ,因此,兼容o g s t 的网格都从w e b 服务中继承了一组非常丰富的、表达 力极强的工具和技术,支持将遗留系统暴露为w e b 服务。然后,网格服务扩展 允许这些暴露的服务在多个管理域中进行集成和共享,这些管理域可以在一个组 织内部,也可以跨越多个组织。 二w e b 服务资源框架w s r f o g s l 由于对w e b 服务不兼容的扩展,在w e b 服务界引发了很多争议, 有必要对其进行重构和改写工作。 首先,要、止它更容易理解,要对规范进行重构,换句话说,要将规范分 解到其中的组件上。 任何新的工作都必须和已有的w e b 服务部署与x m l 工具更好地结 合。 因为w e b 服务并不足绝对需要状态,因此必须存在服务识别与状态资 源的解耦。 不同实现之间状态信息的审查、发现和互操作必须更加容易。 w s r f 没有像o g s a 协议样要直接将状态嵌入网格服务中。而是保持网 格服务接口的无状态性,同时使之与独立的状态资源交互。用这种方式,网格服 务就可以重新启动,并重新与提供状态信息的外部组件连接。底层w s r f 工具 允许网格或w e b 服务提取出状态信息,并对其进行修改,而不必考虑用何种资 源( x m l 文档、关系数据库中的表、服务器会话或e j b 中的对象代码等) 来 保存这些信息。这些状态信息可以被惟一标识,并插入到服务使用的消息流中, 这与来回传递的x m l 构造文档中的其他部分一样。 w e b 服务资源框架有六种w e b 服务规范组成,它们通过定义“w e b 服务资 源方法”( w s r e s o u r c ea p p r o a c h ) ,在w e b 服务的i - 下文中实现对状态的建模 和管理。规范组成包括 1 3 】: w s r e s o u r c e l i f e t i m e 定义了w s r e s o u r c e 的资源生命周期管理机制, 其中包括允许请求方立即或使用基于时间的安排好的资源终止机制来 销毁资源。 w s r e s o u r c e p r o p e r t i e s 定义了w s - r e s o u r c e 的类型定义如何与w e b 服务的接口描述相关联,以及检索、更改或删除w s r e s o u r c e 属性的 消息交换过程。 w s n o t i f i c a t i o n 通过基于主题的发布订阅模式来定义事件订阅和通知 机制。 一l l w s r e n e w a b l e r e f e r e n c e s 定义了端点变为无效时,对需要检索的端点用 更新的w s - a d d r e s s i n g 端点代替。 w s - s e r v i c e g r o u p 定义了通过异质引用集合访问w e b 服务的接口。 w s b a s e f a u l t s 为在w e b 服务消息交换过程中返回的错误信息定义了 基本的x m l 错误类型。 第三节数据网格技术 一数据网格和数据虚拟化 长期以来网格技术一直是作为一种c p u 回收技术,即如何找到空闲c p u 周期的方法。但是同样的概念不仅可以用来找到c p u ,还可以用于找到数据库 信息,w e b 服务以及其他一些对象。近几年因特网和电子商务的迅猛发展引发 了第二次“信息爆炸”。业界分析家预计:未来三年中生成的数据会比所有已记录 的历史信息还要多。企业业务应用程序需要应对信息增长带来的挑战,利用这 些信息并将其转换成可以用来在商业领域赢得竞争优势的有价值的资产,才能使 企业在未来的激烈竞争中获得优势。然而许多企业仍然使用着以前的方法,大量 开发资源浪费在“快捷但不恰当的”( q u i c ka n dd i r t y ) 集成解决方案上,这些解决 方案粗制滥造地将不同的数据管理系统( 数据库、内容管理系统和企业应用程序 系统) 组合起来,并将数据从一种格式转换成另一种格式( 结构化格式、x m l 和 字节流) 。当应用程序面临可伸缩性和可用性问题时,因为进行商业决策所需的 关键性有用信息被所牛成的大量数据“淹没”了。 数据网格技术将各种数据也作为网格的组件,使用网格的理念来管理数据资 源,数据网格领域提出的虚拟化和集成的思想为企业的信息管理提供新的高效方 式。数据网格主要的一个概念就是虚拟化( v i r t u a l i z a t i o n ) ,网格虚拟化的示意图 如图2 2 所示。企_ k 的应用程序目前仍然需要了解自己所需要的数据物理上是分 布在什么地方的,这为程序的开发带来一定的不便。应用程序所感兴趣的仅仅是 访问数据,而不是s q l 查洵或x m l x p a t h 查询。利用数据网格虚拟化功能, 应用程序可以仅仅关注于对虚拟数据的操作。 瓣繁静瓣 气毹矗耥一j 蠡,鼍s 8 _ l 蕊 图2 2 数据网格虚拟化示意 在一个由多个分散着的不同系统组成的环境中,可能需要同时从s q l 表中 提取出一行或多行,从一个二进制文件中读取一个字符串,或者从一个x m l 文 档中捕获节点,通常的手段往往难以胜任这种环境。数据网格领域的解决办法是 数据虚拟化一用d a t as e r v i c e ( 数据服务) 和p o r t t y p e s ( 端口类型) 给分散数 据提供单一的映像。数据虚拟化非常重要,是因为它允许实际数据实体和他们在 抽缘层的表示之间做一个映射。个网格数据服务( g r i d d a t a s e r v i c e ) 可以使 用一个或多个专用的p o r t t y p e s ,用于保存、访问并修改数据块的描述性元数据。 最后生成的结果是一个可以处理任意复杂数据结构的灵活而健壮的方法。 应用程序依然正常编写。然而,它会引用一个虚拟的数据源,后者由数据网 格进行管理,提供相应级别的服务质量。应用程序不会因为数据发生移动或基础 设施发生变化就要重新进行编译。数据的位置、数据的访问方法以及数据源对于 应用程序来说全部是透明的。数据提供者并不能明确地告诉现在和将来的应用程 序,数据究竟在什么地方,数据是如何进行访问的,以及数据是如何组织的。这 些信息被发布在一个注册表中。网格中间件可以杏 旬这个注册表来获得有关应用 程序的信息。管理员主要关注的是基础设施,以及如何最佳地利用这些基础设施 来提供所需要的特定质量的服务。他们可以动态地进行复制、故障迁移、分区; 改变基础设施;以及利用数据网格的虚拟化和联邦特性。 数据网格将位于很多不同系统上的数据连接起来,因此面临的挑战与构建面 向计算的基础设施有所不同。g l o b u s 成员正在开发一种通用的数据网格基础 设施o g s a - d a i 【1 4 【1 5 】【1 6 】【1 7 【1 8 】,给人们提供一组核心数据传输服务和 通用数据管理库。同时,数据网格的概念正在被a v a k i ( 已被s y s b a s e 收购) 和 m e t a m a t r i x 这样的公司变得商业化。数据网格把数据库看成是整个计算基础设 施中又一个需要标识、访问和管理的组件。数据网格可以使人们把分布的后端数 据库看作一个单独的数据池。不过,很少有哪种工具是依赖于网格架构将这些异 质资源集成到一起的。通常连接弗同步全异质的数据库是一项复杂的技术任务。 但是在数据网格中,数据依然保持在原来的地方,没有改变。程序可以访问关系 型数据、x m l 文档、文件、x s l 样式表、基于u r l 的数据,以及应用程序的 数据,而数据依然保留在它产生的位置上。 二o g s a d a i o g s a d a i 的主要开发是由苏格兰的e p c c 利英格兰的i b mh u r s l e y 进 行的。o g s a d a i 的催化剂是大量大型科学”项目,例如a s t r o g r i d 、e d i a m o n d 、 d a t a m i n i n gg r i d 和m y g r i d ,这些项目需要一个中间件层提供对大型数据库的访 问。 o g s a d a l 的结构像是一个t 具包,并且带有一些扩展点,让开发人员可 以扩充自己的功能来满足特定的需要。它通过基于w e b 服务的接口来提供数据 资源,这样就司。以简单地将数据源作为网格中的元素进行操作。目前所支持的数 据源有关系数据库( 通过j d b c ) 、x m l 数据库( 通过x m l d b ) 和文件系统。 当有新的需求出现时,应用程序开发人员也可以编写自己的数据库支持程序。 o g s a d a i 提供如下主要功能: 可以提供数据源可以对关系型数据源执行s q l 查询,对x m l 执行x p a t h 语句,或者通过w e b 服务调用对大文件进行搜索查询。 可以在服务中实现其他功能数据源之外进行的数据转换可以通 过一些可以避免不必要的数据移动的操作实现。 提供了一种紧凑的方法在单个请求中处理与某个服务的多次交互 这可以通过x m l 文档( 称为执行文档) 来实现。当数据流进入某个 数据源或从某个数据源检索出来时,对其进行的操作之问是通过管遵来 传递数据的。 让开发人员可以简单地在o g s a d a l 中添加或扩充功能执行文 档和底层的框架都可以进行扩充,这样就可以添加新功能,或者对现有 1 4 一 的功能进行定制。 可以通过服务接口查询有关数据和数据源的元数据。 o g s a - d a d 使用一种分层的结构,每一层为特定的目的服务,这样的结构非 常清晰。它充分利用了w s r f 协议提供的功能,使用w s r f 资源来代表各种数 据。o g s a d a i 的总体结构如图2 3 所示。 图2 3o g s a d a i 的总体结构 数据层:包括可以封装成o g s a d a i 的各种数据源,包括关系型数据库, x m l 数据库,文件和目录 业务逻辑层:这一层封装了o g s a d a l 的核心功能。这一层包含称为数 据服务资源的组件和其它支持功能。 表现层:这一层提供将数据服务资源服务封装成w s r f 网格服务的功 能,这种网格服务成为数据服务 客户层:用户可以通过数据服务来与数据服务资源交互,用户需要与 w s r f 协议兼容。 此外,o g s a d a i 还提供了一个客户工具包,用来提供与数据服务交互的高 层a p i ,可以方便的进行服务请求和应答。 o g s a d a i 目前使用了g l o b u st o o l

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论