(计算机应用技术专业论文)基于web的协同数据仓库技术的研究与应用.pdf_第1页
(计算机应用技术专业论文)基于web的协同数据仓库技术的研究与应用.pdf_第2页
(计算机应用技术专业论文)基于web的协同数据仓库技术的研究与应用.pdf_第3页
(计算机应用技术专业论文)基于web的协同数据仓库技术的研究与应用.pdf_第4页
(计算机应用技术专业论文)基于web的协同数据仓库技术的研究与应用.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(计算机应用技术专业论文)基于web的协同数据仓库技术的研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 论文魃曩:基于w e b 静按蚓热摆像厍技术妻孽研嚣每匝用 专业:计算机应用技术 磺垒;区广字( 签名)甾簦 指导教师;高荣芳( 签名)蠢叠。笼 杨谨全( 签名) 盂逖 摘要 随着计算杌支持的协同工作技术广泛豹应用,对支持协同工作的信息共享要求越来 越高,不假要求对环境中分布的操作型数据协同共享,而且还需蒙对环境中分布的分析 螫数据协嗣共享。本文分析了计算机支持的协同工作对分析壅数攒的需求,在诧基础上, 对多个跨区域、跨平台的数据仓库的协同篱理和逡明访问进行了研究。研究工作主要集 中在醴下方面: ( 1 ) 提出了在协同工作环境中实现分布的分析裂数据协同共事的解决方案。在分析 了警莆国内务诗算移毛支持豹褥同工作系统笈震现状酌基确上,锌对其信惠共享系统存在 的问题和不足,通过建立协同数据仓库来解决协同工作环境中分析型数据协同共事的问 题。 ( 2 ) 给出了基于w e b 的协同数据仓库系统的体系结构。在详细分析数据仓库现有体 系结撵静蒸懿上,提出了一耱逶掰予诗算辍支拷瓣漭霹工终环境熬信意共事系统侮系结 构。 ( 3 ) 设诗了遥瘸予本系绫熬秘嚣警理方寨。主要采楚了套诲分解袭数攥集藏躲方法。 ( 4 ) 撼出了一种基于w e b 的协同数据仓库的多维分析方法。 5 ) 毒冬基于w e b 豹协囊数据仓疼系统豹设计纛悫瘟臻予隶乎势蛰圈设诗孛,安疆了 协同水平井设计中的决策信息共享。 关键字:数据仓库计算机支持的协同工作多维分析 论文类型:应用研究 l l 英文摘要 s u b j e c t ; s p e d a k t y : n a m e : i n s t r u c t o r : r e s e a r c ha n da p p l i c a t i o no f w e b - b a s e dc o o p e r a t i v ed a t aw a l e h o u s e c o m p u t e r a p p f i c a t i o nt e c h n o o g y a b s t r a c t w i t ht h ew i d e s p r e a du s eo ft e c h n i q u ef o rt h ec o m p u t e rs u p p o r t e dc o o p e r a t i v ew o r k ( c s c w ) ,t h er e q u i r e m e n to fi n f o r m a t i o ns h a r i n gf o rc s c wb e c o m e sh i g h e r t h er e q u i r e m e n t o fi n f o r m a t i o ns h a r i n gi sn o to n l yf o ro p e r a t i n gd a t ad i s t r i b u t e di n c o o p e r a t i v ew o r k e n v i r o n m e n tb u ta l s of o ra n a l y z i n gd a t ad i s t r i b u t e di nc o o p e r a t i v ew o r ke n v i r o n m e n t o nt h e b a s i so ft h er e q u i r e m e n to fa n a l y z i n gd a t ab ya n a l y z i n gc s c w , t h i st h e s i ss t u d i e st h e c o o p e r a t i v em a n a g e m e n ta n dt r a n s p a r e n ta c c e s sf o rc r o s s f l a t f o r ma n dc r o s s - r e g i o nd a t a w a r e h o u s e s t h er e s e a r c hf o c u s e so nt h ef o l l o w i n g s : ( 1 ) as o l u t i o nf o rc a r r y i n go u tc o o p e r a t i v es h a r i n go fa n a l y z i n gd a t ad i s t r i b u t e di n c o o p e r a t i v ew o r ke n v i r o n m e n th a sb e e np u tf o r w a r d b ya n a l y z i n gt h ec u r r e n t l yd o m e s t i ca n d i n t e r n a t i o n a ld e v e l o p m e n ts i t u a t i o nf o rc s c w , t h ep r o b l e mo fc o o p e r a t i v e s h a r i n gf o r a n a l y z i n gd a t ah a sb e e ns o l v e db yc r e a t i n gc o o p e r a t i v ed a t aw a r e h o u s ei nv i e wo ft h e p r o b l e m sa n ds e t b a c k se x i s t e d 攮i n f o r m a t i o ns h a r i n gs y s t e m ( 2 ) a r c h i t e c t u r eo fw 曲一b a s e dc o o p e r a t i v ed a t aw a r e h o u s eh a sb e e np r o v i d e d o nt h e b a s i so ft h o r o u g h l ya n a l y z i n gt h ec u r r e n ta r c h i t e c t u r ef o rd a t aw a r e h o u s e s ,i n f o r m a t i o n s h a r i n ga r c h i t e c t u r ef o rc s c w e n v i r o n m e n th a sb e e np u tf o r w a r d ( 3 ) c o o p e r a t i v em a n a g e m e n ts c h e m ef o rt h es y s t e mh a sb e e np u tf o r w a r d ,m e t h o d sf o r q u i r yd e c o m p o s i t i o na n dd a t ai n t e g r a t i o nh a v eb e e nu s e d 沸an e ww a yo fm u l t i d i m e n s i o na n a l y s i so fw e b - b a s e dc o o p e r a t i v ed a t aw a r e h o u s e h a sb e e np r e s e n t e d ( 5 ) d e s i g n i n gi d e ao fw e b b a s e dc o o p e r a t i v ed a t aw a r e h o u s eh a sb e e nu s e d i n t o c o o p e r a t i v ed e s i g n i n gf o rt h eh o r i z o n m lw e l l ,f u l f i l l i n gt h er e s o l u t i o na d v i s o r yi n f o r m a t i o n s h a r i n gi nt h eh o r i z o n t a lw e l ld e s i g n i n g k e yw o r d s :d a t aw a r e h o u s e ,c o m p u t e rs u p p o r t e dc o o p e r a t i v ew o r k ,m u l t i d i m e n s i o n a n a l y s i s t h e s i s :a p p l i c a t i o ns t u d y i i i 学位论文创新性声明 本人声明所墨交的学位论文是我个人在导燃指导下进行的磺究工作及取褥的研究成 果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他 天已经发表或撰霹过懿磷究残栗;遣不镶含走获褥器安磊漕太掌或其它教弯覆稳熬学整 戚证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做 了碉确静漉疆并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切棚关责任。 论文馋者签名:塞芏皇髫耀:銎堕叁兰塑! 苎蠡 学位论文使是授权酶说鞲 本人完全了解西安石油大学有关保留和使用学位论文的规定,即:研究生在校攻读 学位裁麓论文工撂熬熟谈产权擎经属瑟安嚣涵大学。学校享有嗡经舞方法发表、复豢l 、 公开阅览、借阅以及申请专利等权利。本人离校后发表或使用学位论文娥与该论文直接 稳关翡擎零论文裁成果辩,署名肇谴仍然为西安石酒大学。 论文作者签名: 导瘘签名; 暑碧 型 翻期:塑堕翻p 强耱拨丝鑫f = i 岔 第一章绪论 第一章绪论 1 1 硬究莺景和阔题的提出 计算机技术的发展把人类社会带入到信息化时代。随着信息化进程的深入,通信技 术与计算机及其网络技术惘融合,产生了一个薮的研究领域计冀枫支持的协同工作。 计算机支持的协同工作是指地域分散的一个群体借助计算机敏其网络技术,必同协 作来完成一项任务f 1 1 。它通过建立协同工作环境,改善了髅息交流方式,消除或减少了 人们在时间和空间上相互分割的障碍,节雀了工作入员的时间和精力,提商了群体工作 的质量和数率。计算机支持的协同工作的纂本特点是处于网络环境的分布的群体,围绕 同一任务进行各种信息交互的工作方式。其中协同工作环境中的信息共享系统是熬个系 统的数据信息基础。 协同工作环境中的信息共享系统有以下一垫特点: l 、数据量大:协同工作中使用的数据包含有协同工作器方的当前数据、历史数据等, 涉及的数据量大。 2 、数据分布;协同工作各方数据分布在各个不同的地方。 3 、数据多样:协商工作各方数据敬不葡的格式存赦穗不嗣类型的蒙攒库中。 4 、支持群体协同性:由于协同工作的复杂性,在进行管理时,需要多个人共同协作 完藏对旃溺任务的决策分拼,因藏必须能够提供支特协同番方对决策信意需求豹僚怠共 享系统。 麸穗阏工终环境孛豹信息共攀系统鹣特点可敬看出,系统在实际痤羯中不毽嚣要对 操作型数据进行处理,而姐还需要对分析烈数据进行处理。目前开发出的支持协同工作 静镲意荚攀系统瓣搡终整数据送行了凌霆共享楚纛,僵对分拆鍪数据弱霜筵享楚疆支持 的较少。形成了系统中存在大量的数据但却无法从中获得有效决策信息的局面,因此怎 撵快速建扶努毒式吴擒数攥源中 霆彀对决策有用熬决策倍惑,逶孬联辊分援楚瑾,挺高 协同工作的效率显得十分擞耍。为了满足计算机支持的协闷工作对信息共摩系统在决策 售怠方瑟静霉求,我织搀爨了基予w e b 憨凌同数攘仓库按零鹣骚究课题。 1 2 研究的意义 逶过对基于w e b 毂秘强数据会疼接零豹硬变,攘素爨一季孛在辏嚣工终强凌下瀵是决 策需求的倍息共享系统的实现途径,使计算机协同工作系统具有了在跨平台、跨地域的 l 毒援下获驳奏效决燕分辑臻息的戆力,在提高协圈工终穗度纛效率瓣同时瞧降低了协圈 工作所需麸享数据的成本。 1 3 国内外研究现状 1 3 1 计算机支持蛇协同工作 计算机支持的协同工作的研究,最早始于6 0 年代,并诞生了第一个实验系统 西安石涵大学礤士学位论文 n l s a u g m e n t , 虽然该系绞援支持终壤连接、电子酆锌砖递、文件共享等基本功能旭 系统设计者e n g l e b a r t 第一次将超级文本( h y p e r t e x t ) 概念提出并实现了。到7 0 年代中期, 在美灏s t a n f o r d a i l a b 建立了一个支持褪频、声音、文本、图象等多手中媒体信息的计算 机支持的协同工作环境,并将其命名为电视会议( t e l e c o n f e r e n c e ) ,但由于巨大的存贮开 镁鞠投其暴受的通信媒体,以及通绩速度的低下和数据压缩技术的落后,该系统的多媒 体功能十分薄弱。到了8 0 年代,和计簿机支持的协同工作相关的计算机技术、网络技术、 多媒体技术、数据压缭与存取技术、遇信技术、分布与并行处理技术等都有了长足的进 步,同时由于指导多媒体技术和计算机支持的协同工作技术的人机交互( h c i ) 理论的逐 激成熟,大大地推动了计算枫支持的协同工球技术的发展。1 9 8 4 年m i t 公司舟勺l r e n g r i e f 和d e c 公司的p a u l c a s b _ i n a n 两人组织了一个由来自不同领域的2 0 个科研工作者组成髂 工作缒,共同讨论帮探索如傍发挥技术在协同工作中的作用问题,并第一次正式提出了计 算机支持的协同工作的概念。此后计算机支持的协同工作很快吸弓l 了许多不阉领域的科 研工作者。美国a c m 于1 9 8 6 年1 2 月在t e x a s 组织了一次凰际性c s c w 学术会议,集中 了社会学、人类学、计算机科举、办公自动佬、决策系绫研究学者,a 员强素( h u - m a n f a e t o r ) 学者零口编制设计者等多方面的专家学者,研讨人类群体工作的特性及计算机技术对群体 工作的可能支待,从而正式提出了将计算机科学、心疆学、入炎工程擎、试稚辩学、校会 学等多个学科综合一起的新技术领域计算机支持的协同工作,简称c s c w 。 c s c w 穗供了一种提离入们诱阉工作整体效率静协闻工作方式。近年来,莓蠹努学 者针对群体工作理论、开发c s c w 系统的标准方法及策略、协同环境下协作感知、协调 视铺、共享斑溺和菸李对象中的并发控麓穰- 翻等方鬻进行了深入的磷究翻。瓣薅在支持 协同工作的信息共事系统的研究方磷也有了定的进展。 随着工作环境懿变彳乏,转统酶肇一集中数据瘁臀蓬系统避不能建全遥寝貉霹工1 c 爹戆 需要,为了能够更好的适应计算机支持的协同工作的环境,人们开始寻找适用c s c w 环 境靛信怠共享系统。1 9 9 8 年,史美繇帮强光信两霞教授提壅了耱霹数据库1 3 j 熬壤念秘实 现方案。国内的一批学者根据这种思路从分布式数据库和多数据库锗理的角度对支持协 同王 乍抟信惑共享系统逶牙了深入豹疆究,势显取镶了诲多戏果,遮其中惫摇:建立了 基于c s c w 的分布式数据库系统【4 j 、基于c s c w 的数据库集成管理系统【5 】、基于c s c w 下w 痨多数疆疼穆黼管理系统翻秘蘩予语义靛多旋理耱弱数摄疼孚鑫等【7 i ,搽索7 数据 库中的协同工作模型、多代理在协同数据库中的应用等相关技术 8 - 1 0 】。 携霜数掇瘁豹磁突霞纹哭麓惩决售息共事系统巾操接受数据共享戆阉霪,瑟对予分 析型数据共潦的处理就显得力不从心了。所以对于支持协同工作的信息共享系统中分析 型数握耱弱共事熬醭究裁显缮十分鸯必要。 1 3 2 数据仓库 数爨龟瘴蕊出瑷秘发曩楚计算挽应弱到定| 羚段楚产物。经过多年的计算机应用和 数据积累,许多企业保存了大量原始数据和各类业务数据,这些数据真实地反映了企业 第一章绪论 主体和各种业务环境的经济动态。然而由于没有集中的存储和管理,这些数据不能为企 业进行有效的统计、分析和评估提供帮助,无法将这些数据转化为企业有用的信息。随 着需求的不断增加,上世纪八十年代后期出现了数据仓库的思想,为数据仓库概念的提 出和发展打下了基础。上世纪九十年代初期,w h i n m o n 在其著作建立数据仓库中 提出了“数据仓库”的概念。w h i n m o n 博士对数据仓库的定义是:数据仓库是支持管 理决策过程的、面向主题的、集成的、随时间而变的、持久的数据集合。 自从数据仓库概念出现以来,许多学者从不同的角度为数据仓库下了不同的定义【j 1 1 。 斯坦福大学数据仓库研究小组对数据仓库的定义是:数据仓库是集成信息的存储中心, 这些信息可用于查询或分析。i n f o r m i x 公司副总裁t i ms h e l t e r 对数据仓库的定义为:数 据仓库将分布在企业网络中不同信息岛上的业务数据集成到起,存储在一个单一的集 成关系型数据库中,利用这种集成信息,可以方便用户对信息的访问,更可使决策人员 对一段时间内的历史数据进行分析,研究事务的发展趋势。s a s 软件研究所定义数据仓 库是种管理技术,旨在通过通畅、合理、全面的信息管理,达到有效的决策支持。目 前,大家公认w h 1 n m o n 在其1 9 9 2 年所著的建立数据仓库一书中对数据仓库的定 义最具权威性。 数据仓库概念的提出,划清了数据处理中的两种层次:操作型环境与分析型环境。 表1 1 归纳了操作型数据与分析型数据之间的区别。 表卜1操作型数据与分析型数据区别 内容“曩。;操作溅数据。毫器爨i 攀筹臻篓,泠辕鼙羹氅强? j y 生存周期经常变化、生存期短相对稳定、生存期长 存取结果记录层的存取要求聚集方式的集合存取 存取方法继续的事务存取模式定期的特定查询 更新方式实时修改大批量修改装入 驱动方式事务驱动( 过程产生驱动)数据驱动( 数据支配过程) 集成性细节数据综合的、提取加工的 数据操作读写操作一般只读 数据规模可达几个g b可达1 0 0 g b 以上 上述区别从根本上体现了对数据的事务处理与分析处理存在的差异。说明仅以对操 作型数据进行管理的传统数据环境已不能满足日益增长的分析决策要求,事务处理环境 与分析处理环境同时存在是企业信息管理系统新的发展方向。 数据仓库是一种新的数据处理体系结构,它是企业内部各部门业务数据进行统一和 综合的中央数据仓库。它为企业决策支持系统和行政信息系统提供所需的信息,是一种 信息管理技术,被广泛的应用于金融、电信、保险、生物、石、油【1 2 】和国防等传统数据处 理密集型行业。这一类行业有两个明显的特征:第一,该行业有较为成熟的联机事务处 嚣安磊涟大学硬士学位论文 理系统,它能为数据念痒提供客观条传;第二,该行败殛临市场竞争的压力,它为数据 仓库掇供了外在的动力。 隧着数据食库应用越来越广泛,尉内外在数据仓麾方面开展了大嫩的研究工作。 国外在数据仓库研究方面处于领先位置,近些年它们主蘩在以下鹾个方谢取得了叵 大的成果i l 卜o ”。第一,提出了联机分析处理( o l a p ) 的概念,提出了支持o l a p 的星 型和雪花多维数据模溅。第二,对复杂数据分析和决策所需要的基本操作进行了考察分 析,提出了c u b e 操作和多维聚集操作,设计实现了c u b e 操作和多维聚集操 乍算法,提 出了支持c u b e 操作和多维聚熬操作的有效数据结梅。第三,研究了数据仓库的体系结 构、物理化视阁的选撵、物理化视图的维护、从数据仓库中的综合数据恢复原始数据、 快速收集和有效存取数据等问题,提澎了一系鲥的算法和技术。第圈,一些兔遴技术与 数据仓库技术楣结合的研究,如基于w e b 的数据仓库、分布式数据仓库和x m l 在数据 仓库中的应用等。 随着国外数据仓库研究的发展,农我国学术会议及杂志上发表的论文对数据仓库的 研究融由介绍概念、“试论”、“浅轿”静裰级玲段,逐步送入了理论上深入翻轿,实黢 中建立系统的阶段。其研究热点主要针对数据仓库的多维数撼模型、查询语荫、o l a p 数据仓库查诲鹣往往、集成数据仓库王吴、藩缩数据念痒土酶o l a p 操终冀法、著行数 据仓庠系统、基于三级存储器的数据仓库等方面进行了相关的研究。提出了对数据仓库 c u b e 占蔫空阕颈溅、聚集1 1 8 1 、多表遥接瑚、蓬缩 2 0 1 等算法,笄虽详缀论述了数据仓德 的多维存储结构、多维数据模型【2 ”、开放信息模型、o l a p 体系结构和基于x m l 数据 立方静辐关肉容1 2 2 q 4 l 等。 综上所述,国内外学者对数据仓库数据组织存储、联机分析处理、新型体系结构等 方瑟静葫究取褥了许多翡藏暴,著豆将一些失避懿按零应建予数据仓痒魏设计器嚣发, 例如掇出了基于w e b 的数据仓库系统的设计方案,解决了单个数据仓库跨区域访问问 题,稳| 9 蠢羞跨嚣域、跨藿赛筑大型企渡不叛戆增翔,仪仗镬题单令数撵仓瘴以不能溪足 跨区域大型企业的需求,如何很好的利用多个数据仓库将成为未来研究的新趋势。 1 4 磷究豹主要是察 本论文旨在根据计算机支持的协同工作需求,研究基于w e b 的协同数据奄库的体系 绥撼,擦索一_ 耱在按翳工 乍g 蟪孛支持决羡嚣求豹嬲络姥、餐能姥僖感共享裘统豹实现 途径。本文借罄协同数据库【1 1 、分布式数据仓库【2 5 1 和多数据库技术,提出了一种基于 w e b 的按羁数攥仓库系统的实现思路,该系绞既满足协司工掺各方对支持决繁信息的瓣 求,又满足全局设计者对全局支持决策信息的需求。下面给出该系统的主要特性: l 、系统中数据仓痒已经不是单个数据仓黪,冠是内若干个具有独立自治功能约单个 数据仓库组成的数据仓库群; 2 、这些数握仓库分属协同工l 乍群体各方,物理上窀们是分布的,逻辑上构成一个遴 明的、面向协同工作的虚拟环境; 4 第一章绪论 3 、使用w e b 浏览器作为数据访问客户端,各个数据仓库服务器作为服务器,客户 端使用s o a p 和h t t p 协议向服务器代理发出调用请求,实现数据调用的功能; 4 、能够实现实时访问; 5 、根据数据仓库的特点,数据仓库的协同反映在对数据仓库的跨平台、跨地域访问 和获得数据仓库数据的集成上。 也就是说,我们研究的基于w e b 的协同数据仓库系统是利用w e b 技术对多个建立 在跨区域、跨平台的数据仓库进行管理的多数据仓库系统,简称w e b c d w 系统。 依据基于w e b 的协同数据仓库系统的概念、特性和数据仓库本身的特点,本论文研 究的主要内容有: 1 、详细分析数据仓库现有体系结构,研究适用于计算机支持的协同工作的基于w e b 的协同数据仓库系统的体系结构; 2 、研究基于w e b 的协同数据仓库系统中的协同管理技术,提出解决查询分解和数 据集成问题的方法。 3 、探索利用w e b 技术实现多个数据仓库数据的远程访问,这些数据仓库分属协同 工作群体各方,物理上它们是分布的,逻辑上构成一个透明的、面向协同工作的虚拟数 据信息环境; 4 、研究基于w e b 的协同数据仓库系统的多维分析技术; 5 、将基于w e b 的协同数据仓库系统的设计思想应用于水平井协同设计中,实现在 协同水平井设计中的决策信息共享。 1 5 论文的结构 第一章绪论。首先介绍了论文的研究背景简要阐述了计算机支持的协同工作 和数据仓库技术的研究现状;然后描述了论文所要研究的问题和研究的意义;最后对论 文的研究内容进行概括性地介绍。 第二章w e b c d w 系统体系结构研究。首先对各种现有数据仓库的体系结构进行 详细论述;接着分析了计算机支持的协同工作对分析型数据的特殊需要;最后提出一种 基于w e b 的协同数据仓库系统的体系结构。 第三章w e b c d w 系统技术研究。首先介绍基于w e b 的协同数据仓库系统的特点; 接着分别从分布式技术、协同管理技术和数据仓库远程访问等方面进行研究;最后提出 解决协同管理和数据远程访问的方案。 第四章w e b c d w 系统的多维分析。分析了传统数据仓库的多维分析方法,提出 了一种适用于w e b c d w 系统全局数据仓库的改进多维分析方法,并且对该方法的工作 流程给予描述。 第五章w e b c d w 系统的设计与实现。以水平井协同设计作为应用背景,将 w e b c d w 系统进行了有益的实践。重点介绍了软件总的体系结构、基础网络结构、全 局和地方数据仓库的设计、系统协同管理层的设计和该系统独特的多维分析方法,并且 嚣安露涟大学磺士学整论文 麓要说明多维分析界聪的运行效果。 第六章结论与麟望。辩本论文滟礤究内客进行了总结,指出了箕需要送一步改进 的内容。 6 第二章w e b c d w 系统体系结构研究 第二章w e b c d w 系统体系结构研究 在数据仓库设计过程中,设计数据仓库的体系结构是一个关键的环节。建立适合大型 企业协同工作环境的数据仓库,需要在数据仓库现有体系结构和计算机支持的协同工作 特点的基础上,研究协同工作环境中满足决策信息共享需求的数据仓库体系结构。 2 1 数据仓库的传统体系结构 早在1 9 9 2 年,w h i n n l o r l 博士在其著作建立数据仓库中就对数据仓库的体系结 构进行了描述,提出了大家公认的数据仓库体系结构,它是数据仓库研究的基础,如图 2 1 所示。从图中可以看出该体系结构采用三层体系结构,即首先将数据源中的业务数 据先经过调和,放进全局数据仓库,然后再经过过滤和概况导入数据集市。它明确的划 分了操作型数据和分析型数据的界线,明确了数据组织的结构和各个层次面向的对象。 数据源数据集市 图2 1i n i n o n 博士提出的数据仓库体系结构 在该体系结构中,数据仓库的数据组织按照粒度的不同分层存放,详细如图2 2 所 图2 - 2 数据仓库的数据组织结构 型 廷安石油大学硪士学位论文 数据仓库数据存储一般分为四个级别:早期细节级、当前细节级、轻度综合级和高 度综合级。深数据经避l 鑫取惹,首宠避入当前缮节缀,笄擐攥藤俸需要透露 蠢黻、清洗、 集成、转换,形成轻度综合级和高度综合级。级别的划分是根据粒度进行的。粒度是数 据仓麾的重要概念,它是对数据仓疼中豹数撵瀚综台程度离低麴一个度量,它甄影璃数 据仓库中的数据量的多少,也影响数据仓库数据综合的程度。粒度越小,细节程度越商, 综合稷凄越低。 从上述数据仓库最初的概念和体系结构可以看出,它既是一种结构和富有哲理性的 方法,遣是一耱技禾,嚣盈燕存储数爨豹一耱影式f ”。数据黟售惠扶不嗣数攥滚提取毽 来,然后把这贱数据转换成公共的数据模型,并且和数据仓库中已有的数据集成在一起。 数据会痒终受一令系统,它懿传统薅系结梅琶摇数撰灏、数攥仓瘁、多壤分攒耪震袋工 具四部分,其体系结构如图2 。3 所示: l 、数据潆 数据源悬数据仓库系统的数据基础。通常包括企业内部信息和外部信息。内部信息 包括以各类形式存放瓣各秘蜚务楚理数据和嚣类文挡数搀。钤部售惠包括网终上与本企 业有关的信息等等。 数据源 i 数据仓库 ! o l a p 服务勰 黼端工具 隧2 - 3 数据仓库的传统体系结构 2 、鼗据仓瘴 数据仓库是整个数据仓摩系统的核心。数据仓库的关键问题是数据的存储和管理。 数据仓库兹缀织管理方式决定了它毒剩予簧绕数据瘴,司聪毽决定了其薅乡 部数据豹裘 现形式。针对现有各业务系统的数据,进行抽取、清理,并肖效集成,按照主题进行组 织。数据仓瘁按照数攮翡覆羲莲基可以分力众韭级数擐仓疼秘郭f j 级数握仓露( 逶鬻髂 为数据集市) 。 3 、联规分板骚务器 联机分析服务器是用于对分析需要的数据进行有效集成,按多缎模型予以组织,以 便送行多角发、多层次数分辑,黉发爨憝势。 一一一一墨概 曰曰日口 第二章w e b c d w 系统体系结构研究 4 、前端工具 藏端工舆主要包括蛋耪投表工具、查询工具、数据分板工具、数提挖掘工具以及各 种基于数据奄库或数据集市的应用开发工具。其中数据分析工具主臻针对联机分析服务 器,摄表工舆、数据挖掘工舆主要针对数据念库。 2 2 数据仓库体系结构的分类 随着数掇仓库技术研究的不数深入,数据仓库体系结构在传统体系结构的基础上也 在不断的发展,出现了多种不同的数据仓库体系结构。按照数据仓库系统的控制方斌不 同,数据仓艨的体系结构可以分为集中式和分布式弼大类。 2 2 1 集中式数据仓库体系结构 集中式数据仓库是指数据仓库的全部元数据、当前详细数据和详尽的历史数据都存 储在个集中的数据存储环境中,轻度综合的数据和高度综合的数掇都是通过对这个集 中的数据存储环境抽取加工掰获得的。集中式数据仓库的体系结构农传统数据仓库体系 结构繁础上袋展出了黻下几种: 最早出现的是斯坦福数搬仓库体系结构模型如图2 - 4 所承,它是w i d o m 等人在新坦 福大学数话愈库研究项蓦“w h i p s ”( w a r e h o i l s ci n f o r m a t i o np r o c e s s i n gs y s t e m ) 中掇舞 的,宦由以下几个主溪部分组成: 图2 - 4 斯坦福数据仓库系统的体系结构 l 、信息滚 信息源怒通常的数据库系统,憾也可以怒非传统的数据,每个信息源和一个封装的 监视器媚连。 2 、封装,监视器 挝装监视器的主凄任务是翻译和监测数据源的数据变化。一是憋数据源中豹数摄翻 译成数据仓库所用的模式,二是监视数据源中数据的变化,并将这些变化通告给集成器。 3 、集成嚣 嚣安石油大学硬士学位论文 集成器负责将源数据装入数据仓滕,维护数据仓库的视图,合并、过滤和综合从不 同数攒源来静数据。 斯坦福数据仓库体系模型是一个璁念化的抽象,系统体系结构模型概括为三个层次: 信患添层、集成层藉数据仓瘁层。它鞠确静划分了搡俸型数据帮分褥篓l 数据,并置特潮 强调了数据的转换和集成。 骧着鼗摇念痒应掰越来越广泛,崧穰多憾况下,d b ( 数箨痒) 一d w ( 数据仓黪) 两层体系结构并不能灏盖企业所有的数据处理要求,使用效果也不能令人满懑。这主要 是因洚搽俸型繇分橇蘩熬鼗蘩癸鍪静酝分是一个人为豹结采,二者之黉夔关系并不是泾 渭分明的。实际项目中的数据处理往往是多层的,即肖些处理是操作测的,但不适台在 操佟型酌数蠢痒中遴移,毒些分橱墼楚淫氇不会逶在数据仓瘁中避厅。罄于藏耱猿凌d b - - o d s ( 操作数据存储) 一d w 的体系结构b7 】慢慢的发展起来了,体系结构如图2 - - 5 所示。 l | 。l 、 气 曰 图2 5d b - - 0 d s o w 体系结构图 夜数据仓漳的藩系结构牵孳l 入o d s ,为数箨仓库带来了许多的薪特点窝德熹。第一、 在o d s 上可以实现企业级的联机事务处理。谯操作型数据库环境中,各个应用所面对的 仅汉楚金盈静菜个部门,楚瑾懿仅是念洼局部豹数据。褥o d s 麓数蕹蔻嚣彝全爨集藏豹, 所以建立在o d s 上的联机事务处理可以快速实现对搬业中数据的集中管理。其次、在 o d s 上可馥安溪及拜雩翡联撬分辑楚理。数攥念痒土实糯联辍分辑整理蹩秀了获取长簸趋 势分析。但数据仓库数据量巨大,获取决策信息的时间较长。建立o d s 的目的是要支持 嚣耄衾建缀凌繁,o d s 中奏键鹣数豢蹩褪对鞍多,获取决策攘惑嚣嚣瓣短。o d s 孛数数 据是厩向企业级集成的,故o d s 到数据仓库的记录系统的接阴几乎是直接的,所以数据 佥疼数撵楚璎起来更必蕊单。 上述数据仓库体系结构在多数情况下是有效的,然而,随着用户需求的不断提高, 它稍凌菜些方嚣还存凌一定豹局限性,主要表臻为: 1 、针对以上两种体系结构,大部分企业对数据仓库的设计主要蕊于c s 模式,脊 专 熬客户端瘫建程黪。疆繁移动熙户夔增热,镬曩定割熬瘸户雾嚣显褥不嚣有效。 第二章w e b c d w 系统体系结构研究 2 、应用领域的变化也要求数据仓库有新的解决方案。成功的企业要求在客户沟通、 企监食作、裔麓供应之闻香良好静缝缓,信怠歼放在众监供应链中莛楚关重要懿,因藏, 将信息访问权只限制在企业内部少数专家和少数高级管理人已显得不再合适了,信息访 阁权繇须扩大捌金监蠢都矮户、供应裔帮客户。 w e b 技术的兴起,为解决上述问题提供了有力的技术保障,数据仓库技术的研究工 俸者撵遗了一释耨登鹣数据念痒系统络棱基于w e b 豹数耀仓疼髂系结稳。建立辍该 体系结构为基础的数据仓库系统,能够充分地利用w e b 技术遁台人们沟通和协作,有简 单易蠲懿器甏、整簿豹舞藏鼓耪趋予统一的拣准熬特淼,鸯溺户提供方便、缀济遮获褥 有关信息的途径。基于w e b 的数据仓库技术改变了最终用户对数据仓库的使用模式,人 霞可敬不孬爱限于逯避禺壤嬲缓爱数攮仓痒,嚣是可隧逶过i n t e m e t 滋程谚翅数据仓霹, 其分析结果也可以借助w 曲服务器迅速发布到网上。对于扩大数据仓库的使用范围,提 裹痿惑戆谴弱效搴其蠢较大豹意义。 图2 - 6 给出了一种基于w e b 数据仓库的三层体系结构,包括客户端、w e b 服务器、应 用骚务器i 2 9 。 w e b 贾疆 1 w e b 浏j 5 邕器l w e b 服务器 i n t e m e t i n t r a n c t 客户端w e b 服务器应 e x t r a n e t 图2 6 基于w e b 的数据仓库的体系结构图 基于w e b 的数撼仓库的数据访阅和其它基于w e b 的应用一样,能够将数据仓库中 的数攒提供给所有通过浏览器进行网络访问的用户。基于w e b 的数据仓库藤有既可阻 允许企业内部用户访问,也可以允许外部的爝户访阀的功能。在企业内部,用户通过 i n t r a n e t 方式避行应用访问,步 部的用户通过i n t e r n e t 方式进行应用访闯。它们具体的连 接方式如图2 7 所示。 圈2 7 基予w e b 的数据仓库的内部外部用户连接图 西安石油大学硕士学位论文 基于w e b 的数据仓库体系结构的优点【2 9 】: 1 、易于使用 浏览器是一种易于使用且被广泛接受的用户界面,基于w e b 的数据仓库技术提供了 一种以网络为中心的方式,用户使用浏览器通过i n t r a n e t e x t r a n e t i n t e m e t 即可访问数据 仓库系统。 2 、平台无关 用户通过使用浏览器作为数据仓库系统的信息访问界面,数据仓库中重要的信息可 以被任意一种平台上的用户访问而且毋须专门定制。这使得浏览器对于任意的客户机系 统来说都是一种完美的用户界面。 3 、易于管理与维护 基于w e b 的数据仓库系统中,应用软件和处理逻辑存储在应用服务器上,它们或者 根据局部操作的需要而下载到客户机上,或者在服务器上执行,不需要预先安装软件, 而且将来升级和维护也只在服务器上进行,这就节省了大量资源。 然而这种体系结构在具体操作中仍然存在三大问题:可扩充性问题( 规模) ,速度问 题,安全和可靠性问题。 2 2 2 分布式数据仓库体系结构 集中式数据仓库在支持中小型企业决策方面非常有效,目前大部分企业建立的是集 中式数据仓库,但是在某些特定场合,建立分布式数据仓库环境可能更能满足需要,取 得更高的经济效益。随着企业规模的扩大,业务不断向多个地区扩展,企业兼并或小企 业联合组成大集团等,许多企业的运作模式自然形成一种分布式管理结构。另外,由于 历史、地理、经济等诸多原因,企业内部存在许多不兼容的相互独立的事务处理应用系 统,需要对分散在这些系统中的相关数据进行集成,以便向分析人员提供统一的数据视 图。所有这些都说明研究分布式数据仓库技术是一项很有意义的工作,而这些企业采用 分布式数据仓库方案也确实是一种较好的选择。 分布式数据仓库应实现的两个功能:第一、将统一的逻辑数据模型映射到各局部数 据仓库中物理表格的逻辑数据库数据仓库层;第二、能透明地查询数据仓库中统一的逻 辑数据库,并进行访问、连接服务。 分布式数据仓库是一项比较综合的技术,数据范围的界定、协调,数据模型、元数 据、局部映射、数据传输、数据访问等技术都相对比较复杂。分布式数据仓库的典型体 系结构如图2 - 8 所示,其中主要包括局部数据仓库和全局数据仓库两部分【3 0 1 。 1 、局部数据仓库 局部数据仓库包含局部细节的和集成的数据,来源于各自的操作型数据系统。除了 数据范围是局部的外,局部数据仓库具有数据仓库的所有功能。不同的局部数据仓库中 的数据和数据结构可以不同。 第二章w e b c d w 系统体系结构研究 麴2 8 分帑式数攥仓痒体系缝橡圉 2 、全局数据仓库 全局数攒仓痒包禽戆数凝范围涉及整个龛韭或缀织,是熬个金鼗内部公芙豹、历史 的和集成的数据。与局部数据仓库的数据源不同,全局数据仓库的数据一部分来自自己 熬操俸型数撰系统,撼一部分来自熨鄄数据念痒和癸部数据源。 数据的熏组、综合和集成需要有合适的数据模式。全局数据仓库中包含的是企业内 部公共的和集成的数糕,是对局部数据仓库中数据进雩亍加工、综合处理后的结果。如何 将局部运作系统中的数据映射到全局数据仓库中,怒成功建造分布式数据仓库环境的关 键技术。全局数据仓痒拥有一个公共的数据缕构,反映企业内所有的公用数撂。由予不 同的局部数据仓库采用的逻辑模型、物理模戴等很可能不同,所以从每个局部站点到全 局数掇仓库的数据映射一般不同。 分布式数据仓库的体系结构决定了分布式数据仓库必然鼷有鞋下特性:模块性、并 行性、自治憾和透明性。 1 、模块性 分布式数据仓库中的局部数据仓库形成以主题为标志的相对独立的模块,经互联网 络的联系,多个局部数蕹仓库构成萃一系统,模块在一定范隧内的增减、替换都不至于 影响分布式数据仓库的整体性。 2 、并行馊 分散在不同地点的局部数据仓库可以合作解决一个共同的问题,如全局的决策,在 决策入静控潮下( 当然是逶遥分布式数据仓瘁的载落诗冀狡) ,实黼露阊静重叠秘赘 源的麓复等不问形式的并行j i 生。 3 、鸯港魏 分布式数据仓库中的局部数据仓库是高度自治的。局部数据仓库之间既不存在主辅 控翻必系,穗就是谈备嚣帮数据仓瘴酃是对等静,又麓稠瘸分蠢主嚣处理霖辩戮减少各 局部数据仓库间数据通信量。这体现了分布式系统的重要特点任务分布。 、透骥性 分布式数据仓库中的局部数据仓库虽然鼹面向不同的主题,但对于某一主题的决策 支持系统努 露爨来说,应该搜德不躲遴资源筏子 霉楚。这裁黉求嚣主题懿凌策支持系 嚣安石池大学硕士学位论文 统分千斤员在任何节点都可以开始他的工作。即使对于决策人,当他在浆一节点工作时, 也应该使他觉褥:宣露正在使用的节点是其裔全部数据资源鲍节点。涂诧之雏,多名决 策支持系统分析员,戴中可有两名或髓名以上同一主题的决策支持系统分析员可以在不 雨静节点嗣露避行工佟,这释斑实现了共享瓷源。 从以上分布式数搦仓库的功能和特性可以着出,采用分布式数据仓库体系结构构建 的数舔仓库系统有许多优点: l 、存放在数据仓艨中的数据量理论上无限制,如果数据仓库中的数据量将璺超过分 蠢式楚遴器的疆澍露,只要在潮孛燕入勇一个处理器帮可。这瞧符合企篷懿发震趋势; 2 、研制、见效周期短。程短期内局部数掘仓库就能建好、运行并使局部组织受益; 3 、其有实耩亨往,每令蜀懿群体吴露独立懿控翻衩,蔻数据仓痒翼森实薅黢提餐了缀 障。 2 3w e b c d w 系统的体蓉绩擒 2 3 1 计算机支持的协同工作对信息共享系统的需求 诗箨极支褥耱弱工作系绞楚在霹络传辕系绞靛支捺下,以携曩工终系统终笼工终务 方交流的基础,信息欺享系统作为协同工作所需信息的存储环境,在协作管域系统的调 度下为多令参嬲协弱王作孝建立的应燃系统。个完熬熬诗箕枧支持熬蠊溺工佟系统救 该由威用系统、信息共享系统、协同工作系统、协作管理系统和网络传输系统五大部分 组成,其基零绪搀妇灏2 - 9 溪零【3 。 c s c w 应用予系统 一一7 01 、 信息共事系统协同工作系统协作管理系统 ,: 一一7 网络传输系统 鬻2 - 9 诗篝辊支持豹给霜置像系统萋零缕鞫 其中信息欺享系统作为协同工作的基础,一方面谨要为协同工作成员提供用于过程 管理和工作管理的信感;另一方面它还要为协闷工作成员提供糟于决策的数据支持信惑。 为了满足计算机支持的协同工作系统豹需求,需要设计用于支持决策的信息共享系统。 2 3 2w e b c d w 系统的体系结构 为了满足计算机支持的协同工作技术对数据信息系统的独特需求,在仔细分析现有 各种数据仓库系统结构的优缺点后,论文提戳了w e b c d w 系统静体系结构,该体系结 构既考虑到现有的基予w e b 的数据仓库无法支持分布斌系统决策分析的问题,同时也考 虑到分布式数攒仓库程数据整含震瑶方面存在的问题。使用该体系结耥构建的数据仓瘁, 不但成能为协间工作锫方提供支持决饿信息,而且还艨该能为全局工作提供支持决策信 ,惫。 1 4 第二章w e b c d w 系统体系结构研究 w e b c d w 系统是利用w e b 技术对多个建立在跨区域、跨平台的数据仓库进行管理 的多数据仓库系统。系统的体系结构如图2 1 0 所示: 竺兰茎兰兰必:竺型 应用层l = = j 一“i 协 同 管 理 层 数 据 层 协同挚竺务器: 硬件、网络协议 图2 - 1 0 基于w e b 的协同数据仓库系统的体系结构 系统分为三层:数据层、协同管理层和应用层。 数据层:该层是由多个地方数据仓库组成,各地方数据仓库的数据是通过对各自数 据源数据抽取、集成、清洗、转换后按照不同的主题转入数据仓库。地方数据仓库是整 个数据仓库系统的主体和数据来源。 协同管理层:该层负责翻译、分解用户查询命令,建立网络通信,选择数据仓库访 问代理完成各地方数据仓库数据的访问和数据的汇总和转换,是整个系统的核心。 应用层:该层是用户和w e b c d w 系统进行交互的界面。用户通过它将自己的访问 需求输入,并且将所访问到的数据进行多维分析、展现。 从图2 一1 0 可以看出,该体系结构不但继承了基于w e b 的数据仓库体系结构易于使 用、平台无关和分布式数据仓库自治性和透明性的优点,而且还具有以下几个特点: 1 、伸缩性强 该体系结构设计的全局数据仓库是一个虚拟的信息

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论