(计算机软件与理论专业论文)基于web技术的数据仓储研究.pdf_第1页
(计算机软件与理论专业论文)基于web技术的数据仓储研究.pdf_第2页
(计算机软件与理论专业论文)基于web技术的数据仓储研究.pdf_第3页
(计算机软件与理论专业论文)基于web技术的数据仓储研究.pdf_第4页
(计算机软件与理论专业论文)基于web技术的数据仓储研究.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

(计算机软件与理论专业论文)基于web技术的数据仓储研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 摘要 随着信息化进程的不断推进,基于数据库技术的信息系统已经不断融入到企 业的各个部门。然而传统的数据库技术以单一的数据资源,即以数据库为中心, 它擅长于事务处理,而难于实现数据分析,这无法满足对数掘处理的多样化的需 求。数据仓库使操作型处理和分析型处理得以分离,从而由原来的以单一的数据 库为中心的数据环境发展为一种新环境,即以数据仓库为中心的体系化环境。数 据仓库在支持决策方面起非常重要的作用。 由于网络技术的迅猛发展,因特网不仅打破了传统的地域差别,将全球各地 的信息“超距离”地聚集在一起,使地球成为真正意义上的“地球村”,而且为 商业活动带来了新的发展机会,如电子商务已经逐渐成为企业市场销售和客户服 务的一个重要渠道,给企业带来了巨大的经济效益。在这些网络活动中产生了大 量的数据,为分析决策提供了有效的帮助,如w c b 日志文件就可以对用户行为分 析等进行有力支持。 基于w e b 技术的数据仓库结合了w e b 和数据仓库两大热门技术的长处。数据 来源于网络,同时数据分析和挖掘的结果显示和发布在w c b 上,这样就充分的发 挥了网络的信息多样性、分布性和跨平台性。 本文对数据仓储和w e b 进行简要介绍,并对数据仓库系统的体系结构和开发 过程进行了深入研究,然后讨论了基于w e b 技术的数据仓库特点和优势,进而提 出基于w e b 技术的数据仓库系统的构架,该架构采取三层结构:前端显示层,分 析应用层,数据存储层。这种结构解放了f j 端的客户端,它主要用于浏览,而不 用于应用处理;分析应用层集中于数据分析和应用处理;数据存储层则致力于网 络环境中数据的抽取、清理、装载、刷新和存储等工作。最后以电子商务为例, 按照提出的数据仓库系统架构和开发过程,设计并实现了一个基于w e b 的电子商 务数据仓库系统。 关键词;数据仓库;点击流;w e b ;数据挖掘;联机分析处理 英文摘要 s t u d yo fd a t aw a r e h o u s i n gb a s e do nw e b a b s t r a c t w i t ht h ec o n s t a n tp r o m o t i o no ft h ei n f o r m a t i o n - b a s e dp r o c e s s ,t h ei n f o r m a t i o n s y s t e mb a s e d o nd a t a b a s et e c h n o l o g yh a sb e e na l r e a d yi n c o r p o r a t i n gt oe a c hd e p a r t m e n t o fe n t e r p r i s e sc o n s t a n t l y b u tt r a d i t i o n a ld a t a b a s et e c h n o l o g yr e g a r d sd a t a b a s ea st h e c e n t r ew i t hs i n g l ed a t ar e s o u r c e s ,i ti ss u p e r i o rt ot r a n s a c t i o np r o c e s s i n g ,a n dd i f f i c u l tt o r e a l i z et h ed a t aa n a l y s i s ,w h i c hi su n a b l et om e e td i v e r s i f i e dd e m a n d sf o rd a t a p r o c e s s i n g t h e d a t aw a r e h o u s em a k e st h e o p e r a t i n g - t y p ep r o c e s s i n g a n dt h e a n a l y t i c t y p ep r o c e s s i n gs e p a r a t e d ,t h u sd e v e l o p si n t oa k i n do fn e we n v i r o n m e n tf r o m t h eo r i g i n a ld a t ae n v i r o n m e n tt a k i n gs i n g l ed a t a b a s ea st h ec e n t r e ,i e t h es y s t e m e n v i r o n m e n tt a k i n gd a t aw a r e h o u s ea st h ec e n t r e t h ed a t aw a r e h o u s ec a np l a yav e r y i m p o r t a n tr o l ei ns u p p o r t i n gd e c i s i o no ft h ed a t a b e c a u s eo ft h es w i f ta n dv i o l e n t l e v e l o p m e n to ft h en e t w o r kt e c h n o l o g y ,i n t e r a c t h a sn o tm e r e l yb r o k e nt h et r a d i t i o n a lr e g i o nd i f f e r e n c e ,g a t h e r e dt h e ”u l t r ad i s t a n c e ”o f i n f o r m a t i o no fa l lp a r t so ft h ew o r l d ,m a d et h ee a r t hb e c o m et h er e a l ”g l o b a lv i l l a g e ”, a n dt h eb u s i n e s s a c t i v i t yh a sb r o u g h tt h en e wd e v e l o p m e n to p p o r t u n i t y , s u c ha s e - c o m m e r c eh a sa l r e a d yb e c o m ea ni m p o r t a n tc h a n n e lo fs e l l i n ga n dc u s t o m e rs e r v i c e o fe n t e r p r i s e sm a r k e tg r a d u a l l y ,a n db r o u g h tt h ee n o r m o u se c o n o m i cb e n e f i t st o e n t e r p r i s e h a v i n gp r o d u c e dal a r g en u m b e ro fd a t ai nt h e s en e t w o r k sa c t i v i t y ,h a s o f f e r e de f f e c t i v eh e l pf o ra n a l y z i n gd e c i s i o n , f o ri n s t a n c ew e bl o gf i l ec a l ls u p p o r t u s e r sb e h a v i o r a la n a l y s i s ,e t c e f f e c t i v e l y t h ed a t aw a r e h o u s eb a s e do nw e bt e c h n o l o g yh a sc o m b i n e dt h es t r o n gp o i n to f t w og r e a th o tt e c h n o l o g yi nw e ba n dd a t aw a r e h o u s e t h ed a t ac o m ef r o mt h en e t w o r k , t h ed a t aa n a l y s i sa n dm i n i n gr e s u l ti sr e v e a l e da n dr e l e a s e do nw e ba tt h es a m et i m e ,s o t h ei n f o r m a t i o nv a r i e t y ,d i s t r i b u t i n ga n ds t e p p i n gt h ep l a t f o r mo fn e t w o r ki s f u l l y b r o u g h ti n t op l a y t h i st h e s i sm a k e sab r i e fi n s t r u c t i o nt od a t aw a r e h o u s i n ga n dw e b ,h a sc a r r i e do n f u r t h e ri n v e s t i g a t i o no ns y s t e ms t r u c t u r eo fd a t aw a r e h o u s ea n dc o u p eo fd e v e l o p i n g , t h e nd i s c u s s e sd a t aw a r e h o u s ec h a r a c t e r i s t i ca n da d v a n t a g eb a s e do nw e bt h e np r o p o s e 英文摘要 t h ef r a m e w o r ko fd a t aw a r e h o u s i n gb a s e do nw e bw h i c ha d o p t st h r e el a y e r so fs t r u c t u r e : t h ef r o n td i s p l a yl a y e r ,a n a l y z ea n de m p l o yl a y e r ,d a t as t o r el a y e r t h i sk i n do fs t r u c t u r e h a sl i b e r a t e dt h ef r o n td i s p l a yl a y e r ,i ti su s e dm a i n l yf o rh a v i n gal o o ka r o u n d ,a n di s n o tu s e df o re m p l o y i n ga n dd e a l i n gw i t h ;a n a l y z ea n de m p l o y sl a y e rt oc o n c e n t r a t eo n d a t aa n a l y s i sa n de m p l o yd e a l i n gw i t h ;t h ed a t as t o r el a y e rd e v o t e st ot h ee x t r a c t i o n , c l e a r a n c eo ft h ed a t ao ft h en e t w o r ke n v i r o n m e n t ,l o a d i n g , r e f r e s h i n ga n ds t o r i n ge t c t a k ee - c o m m e r c ea sa ne x a m p l ef i n a l l y ,d e s i g na n dr e a l i z eae - c o m m e r c a :d a t a w a r e h o u s es y s t e mb a s e do nw e b k e yw o r d s :d a t aw a r e h o u s e ;c l i c k s t r e a m ;w e b ;d a t am i n i n g ;o i a p 大连海事大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果, 撰写成硕士学位论文:基王型盘擅苤曲数握金储班宜:。除论文中已经注明引 用的内容外,对论文的研究做出重要贡献的个人和集体,均己在文中以明确方式 标明。本论文中不包含任何未加明确注明的其他个人或集体已经公开发表或未公 开发表的成果。 本声明的法律责任由本人承担。 论文作者签名:雀弹佴岁月7 日 学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连海事大学研究生学位论文提交、 版权使用管理办法”,同意大连海事大学保留并向国家有关部门或机构送交学位 论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将 本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或 扫描等复制手段保存和汇编学位论文。 保密口,在年解密后适用本授权书。 本学位论文属于:保密口 不保密日( 请在以上方框内打“4 ”) 论文作者签名:雀浑 导师签名: 日期:叩年3 月 基于w e b 技术的数据仓储研究 第1 章绪论 1 ,1 课题的背景 我们处在一个科技飞速发展的时代,信息、物质和能源一起成为一种全球化 的基础性资源。各种科技手段的应用使社会竞争进一步加剧,因此及时而且准确 的决策对一个企业来说尤为重要,作出此种决策的基础是大量真实有效的信息。 然而,企业中的业务数据往往数掘量极大、形式各异、操作平台不同,这些都给 决策者获得全局且有价值的信息造成不便,馊其难以及时的作出正确的战略性决 策,使企业延误战机,更有甚者,使企业走向错误的发展方向直至灭亡。因此, 为决策者提供及时,高效的信息是至关重要的。 众所周知,如何有效地管理在运营过程中产生的大量的数据和信息一直是企 业面临的重要问题。2 0 世纪7 0 年代出现并被广泛应用的关系型数据库技术为解决 这一问题提供了强有力的工具。社会的信息化,使信息量急剧增长,大量的信息 来不及组织和处理。面对急剧增长的信息,数据库系统的应用只停留在查询、检 索、统计等几个方面,远没有发挥数据库中数据的作用。随着市场竞争的加剧, 用户已经不满足于简单的事务处理,他们迫切的希望从数据中得到有价值的信息, 以便于进行决策支持。操作型处理主要是事务处理,而分析型处理主要是为决策 分析服务,需要大量的内外部异构的数据,原有事务处理的数据是分析型处理的 基础,但并不可以直接使用,要经过多种处理才可以为决策服务。因此,企业需 要新技术数据仓库来完成这个任务。 现今,网络技术发展迅速,人们对网络的熟悉程度和利用率都有很大的提高, 同时,网络也为企业提供了大量的发展机会。w e b 为我们提供了各种各样的数据, 如点击流为分析网络行为提供了条件,而且w e b 使人们突破了地域的限制,可以 通过i n t e r n e t 或i n t r a n e t 进行远程访问。人们对决策信息的迫切需求和对信息获得 方式方便性的渴望推动了数据仓库和w c b 的发展,同时二者的结合也有其极大的 发展空间。 第1 章绪论 1 2 国内外研究现状 在国外,由于对数据仓库技术研究比较早,数据积累比较充分,技术相对成 熟,不同的数据仓库提供商提出了不同的解决方案。应用方面,除了投入具体应 用的各种数据仓库产品和工具外,还有许多从事数据仓库技术咨询的企业。以数 据仓库为基础的联机分析处理( o l a p ) 和数据挖掘( d a t am i n i n g ) 应用首先在金 融、保险、证券和电信等传统数据密集型行业取得成功。 i b m 、o r a c l e 、s y b a s e 、c a 、n c r 、i n f o r m i x 、m i c r o s o f t 和s a s 等有实力的公 司相继( 通过收购或研发的途径) 推出了自己的数据仓库解决方案。m m 公司提 供了一套基于可视数据仓库的商业智能( b i ) 解决方案,包括:v i s u a lw a r e h o u s e ( v w ) 、e s s b a s e d h 2o l a ps e r v e r 5 0 、m md b 2u d b 以及来自第三方的前端数 据展现工具( 如b o ) 和数据挖掘工具( 如s a s ) 。o r a c l e 数据仓库解决方案主要 包括o r a c l ee x p r e s s 、o r a c l ed i s c o v e r e r 、o r a c l ew a r e h o u s eb u i l d e r ,事实上o r a c l e 数据仓库包含了一整套的产品和服务,覆盖了数据仓库定义、设计和实现的整个 过程。 在国内,数据仓库的起步比较晚,数据积累也不是很充分,因此较国外相比 稍显落后。但是我们也已经有了一些国产数据仓库工具,如b i o f f i c e ,马克威分 析系统、商业指南针、启耀o l a p 套件、s m a r t r e p o r t 、r e s o u r c e o n e 等联机分析 工具和金道数据整合系统数据转换工具等。 国内和国外数据仓库的发展存在的差距,主要是以下几个方面造成的:首先 是数据,国内数据库系统中数据积累不足,作为数据仓库系统没有数据积累是没 有意义的。其次是工具,大家普遍认为o i a p 和数据挖掘工具是给专家用,不能 大众化。最后是管理,上层领导对数据仓库建立的重视不足,信心不足。然而, 随着计算机技术的发展,国内已经有不少的用户在m r p ,企业财务管理,以及 某些应用上有了原始的积累。看到国外企业应用数据仓库推进企业发展的状况, 国内领导日益加大了对数据仓库的重视程度。 随着w e b 技术的迅速发展,应用范围和群体日益扩大,基于w 曲的数据仓库 逐渐引起专业人士的注意,国外已经建立了点击流咨询企业,如 基于w e b 技术的数据仓储研究 c l i c k s t r e a m c o n s u l t i n g 专门提供这方面的咨询和培训,而国内淘宝网也建立了点击 流数据仓库。由于基于w c b 的数据仓库发展的时间比较短,还存在着一些技术问 题,如用户识别和会话识别等。但是应用好的话,它可以在决篆支持上起到事半 功倍的作用。 1 3 课题的研究意义 当代社会,经济全球化,企业之间的竞争不断加剧。因此以往数据库系统提 供的记录的增加、删除、修改、查询和一些基本统计操作已经不能满足企业的需 求,企业需要可以有效支持决策的信息。前者对响应时间、数据安全性、一致性 和完整性有很高的要求,而后者则侧重于分析。数据仓库以关系数据库、并行处 理和分布式等技术为基础,对海量数据进行组织和管理,提供有效的数据访问手 段,同时,结合一些分析工具,如o l a p 和数据挖掘工具,在数据仓库中进行统 计、分析和挖掘,最后获得用于决策的信息或发现相关规律。简言之,数据仓库 主要用于决策支持,数据处理的方式以分析为主,也称为分析型处理,可以发挥 大量数据的作用。 , w e b 是在超文本基础上形成的庞大信息网,其信息传送和存储量均超过其他 类型协议的工具( 传送量占2 1 ,存储量占2 6 3 ) 。网络也为商业活动带来了新 的发展机会,特别是电子商务的不断成熟,使公司、商场都可以通过网络来发布 商品信息,通过网络进行订货、销售、广告宣传等活动。目前,各公司都在试图 以各种方式建立自己的网站,努力争取商业竞争的主动权,力争通过网络来拓宽 自己的市场范围,从而走向全球化。这样就产生了大量的w e b 数据,如电子商务 网站中的点击流就有很大的价值,它在无形中透露了网民的习惯和喜好,有效的 分析它可以为电子商务企业提高顾客忠诚度等提供支持。同时,随着 i n t e r n e t i n t r a n e t 的发展,人们逐渐改变了对信息的访问和获取方式,希望跨地域、 跨平台获取信息。 数据仓库和w e b 技术有机结合既可以从网络中获取大量有价值的数据进行分 析,从而获得支持决策的有效信息;又可以发挥w e b 的平台无关性和分布式的特 第1 章绪论 点,人们可以通过i n t e m e t i n t r a n e t 远程访问数据仓库,所得的分析结果也可以借 助于w e b 服务器迅速发布。基于w e b 技术的数据仓库系统不仅有效地利用了网络 数据,而且扩大了数据仓库的灵活性和使用范围。因此构建基于w e b 技术的数据 仓库系统有非常重大的研究意义和现实价值。 1 4 课题的主要工作 本文在简要介绍数据仓储和w e b 技术的基础上,研究基于w e b 技术的数据仓 库的特点和优势,并提出相应的构架,进而设计和实现一个基于w e b 的电子商务 数据仓库系统。 本文主要研究和解决的问题有: 1 数据仓储基本原理、工具和w e b 技术的概述和讨论。 2 设计一个通用的基于w e b 技术的数据仓库系统的体系结构,该体系结构 采用的是一个三层结构,既解放了客户端又充分的发挥了w e b 技术的优 势:研究和分析基于w e b 技术的数据仓库系统的特点、优势和实现方法。 3 在上述研究的基础上,应用研究得到的架构,设计和实现一个基于w e b 技术的数据仓库系统实例基于w e b 的电子商务数据仓库系统。 基于w e b 技术的数据仓储研究 第2 章数据仓储与w e b 技术 2 1 数据仓储与数据仓库 所谓数据仓储( d a t aw a r e h o u s i n g ) 就是构建数据仓库( d a t aw a r e h o u s e ) 的 过程。数据仓库并不是指一个容量足够容纳海量数据的数据库,它不仅包括存储 数据的数据仓库,还要有用于数据分析的联机分析处理( o l 气p ) 和数据挖掘( d m ) 工具等。 2 1 1 数据仓库定义和特点 传统的数据库技术是以单一的数据资源,即以数据库为中心,进行从事务处 理、批处理到决策分析等各种类型的数据处理工作。然而,不同类型数据处理有 着不同的处理特点,以单一的数据组织方式组织的数据库并不能反殃这种差异, 满足不了数据处理多样化的要求。数据仓库的出现解决了这个问题,使分析型处 理和操作型处理得以分离,一更好的实现决策支持。 关于数据仓库的定义有多种说法。不过,大家比较认同著名的数据仓库专家 w h i n m o n 在其著作( b u i l d i n gt h ed a t aw a r e h o u s e s 一书中对于数据仓库给予的定 义。他认为数据仓库( d a t aw a r e h o u s e ) 是一个面向主题的( s u b j e c to r i e n t e d ) 、 集成的( i n t e g r a t e ) 、相对稳定的( n o n v o l a t i l e ) 、反映历史变化的( t i m ev a r i a n t ) 数据集合,用于支持管理决策。对于数据仓库的概念可以从两个层次予以理解, 首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作 型数据库;其次,数据仓库对多个异构的数据源有效集成,集成后按照主题进行 了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改【1 】o 由数据仓库的定义得出数据仓库具有以下特点【2 】: 1 数据仓库是面向主题的 数据仓库中的数据是面向主题组织的。主题是数据归类的标准,每一个主题 基本对应一个宏观的分析领域。例如,保险公司的数据仓库的主题为:客户、政 策、保险金、索赔等。基于应用的数据库的组织则完全不同,它的数据只是为处 理具体应用而组织在一起的。保险公司按应用组织的数据库是:汽车保险、生命 第2 章数据仓储与w e b 技术 保险、健康保险、伤亡保险等。 2 数据仓库是集成的 数据进入数据仓库之前,必须经过加工与集成。对不同的数据源要统一数据 结构和编码,统一原始数据中的所有矛盾之处,如字段的同名异义、异名同义、 单位不统一、字长不一致等。总之,要将原始数据结构做一个从面向应用到面向 主题的大转变。 3 数据仓库是稳定的 数据仓库包括了大量的历史数据。数据经集成进入数据仓库后是极少或根本 不更新的。 4 数据仓库是随时间变化的 数据仓库内的数据时限在5 到1 0 年,故数据的键码包括时间项,表明数据的 历史时期,这适合d s s 进行时间趋势分析。而数据库只包括当前数据,即存储某 一时间的正确的有效数据。 5 数据仓库中的数据量很大 数据仓库中存储海量数据。通常数据仓库的数据量为1 0 g b 级,相当于一般数 据库1 0 0 m b 的1 0 0 倍,大型数据仓库是一个t b ( 1 0 0 0 g b ) 级的数据量。数据仓 库中数据的比重为索引和综合数据占2 3 ,原始数据占1 3 。 6 数据仓库软硬件要求较高 数据仓库需要一个巨大的硬件平台和并行的数据库系统。 数据仓库并不只是大型的关系数据库,它包括多种技术,如数据仓库( d a t a w a r e h o u s e ,简称d w ) ;联机分析处理( o n l i n e a n a l y t i c a l p r o c e s s i n g ,简称o l a p ) ; 数据挖掘( d a t am i n i n g ,简称d m ) 。d w 用于数据存储与组织,o l a p 集中于数 据的分析,d m 则致力于知识的发现。 由数据仓库的特点和技术可以看出,数据仓库按主题集成内外部的异构数据, 经过对数据的存取、处理和分析,对决策进行支持。 基于w e b 技术的数据仓储研究 2 1 2 数据仓库系统的体系结构 所谓数据仓库系统( d w s ,d a t aw a r e h o u s es y s t e m ) 就是的一个信息提供平 台,它对进入数据仓库的原始数据进行抽取、转换、过滤、清洗等处理,最终进 入数据仓库,还有对数据仓库中存储的数据进行更新、管理、使用、表现等相关 的软件工具进行集合,进而支持数据仓库应用或管理决策。 图2 1 是传统的三层数据仓库系统的体系结构1 3 j : 图2 1 传统数据仓库系统的体系结构 f i g 2 1t r a d i t i o n a ls y s t e ms t r u c t u r eo ft h ed a t aw a r e h o u s es y s t e m 1 数据源层:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企 业内部信息和外部信息。内部信息包括存放于r d b m s 中的各种业务处理 数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手 的信息等等。 2 。数据管理层:是整个数据仓库系统的核心。数据仓库的真正关键是数据的 存储和管理。要决定采用什么产品和技术来建立数据仓库的核心,则需要 从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、 清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可 以分为企业级数据仓库和部门级数据仓库( 通常称为数据集市) 。 3 数据应用层:这一层包括分析工具和前端工具。分析工具主要指o l a p 服 务器。它对分析需要的数据进行有效集成,按多维模型予以组织,以便进 第2 章数据仓储与w e b 技术 行多角度、多层次的分析,并发现趋势。其具体实现可以分为:r o l a p 、 m o l a p 和h o l a p 。r o l a p 基本数据和聚合数据均存放在r d b m s 之中: m o l a p 基本数据和聚合数据均存放于多维数据库中;h o l a p 基本数据存 放于r d b m s 之中,聚合数据存放于多维数据库中。而前端工具主要包括 各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数 据仓库或数据集市的应用开发工具。 2 t 3 数据仓库系统的开发过程 数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的, 而且数据仓库系统的设计是一个动态的反馈和循环的过程。一方面数据仓库的数 据内容、结构、粒度、分割以及其他物理设计根据用户所返回的信息不断地调整 和完善,以提高系统的效率和性能;另一方面,通过不断地理解用户( 主要是决 策者) 的分析需求,向用户提供更准确、更有用的决策信息。这些特点决定了数 据仓库系统的开发过程不能像传统的o l t p 系统设计1 羊清晰的分为需求分析、 数据库设计、数据库实施以及运行维护四个阶段,相反各个阶段间划分比较模糊, 大致过程如图2 2 : 图2 2 数据仓库系统的开发过程 f i g 2 2d e v e l o p m e n tc o u r s eo ft h ed a t aw a r e h o u s es y s t e m 下面详细介绍一下各个步骤的具体工作 4 1 : 1 概念模型设计 基于w e b 技术的数据仓储研究 概念模型设计的成果是,在原有的数据库的基础上建立了一个较为稳固的概 念模型。因为数据仓库是对原有数据库系统中的数据进行集成和重组而形成的数 据集合,所以数据仓库的概念模型设计,首先要对原有数据库系统加以分析理解, 然后再来考虑应当如何建立数据仓库系统的概念模型。一方面,通过原有的数据 库的设计文档以及在数据字典中的数据库关系模式,可以对企业现有的数据库中 的内容有一个完整而清晰的认识;另一方面,数据仓库的概念模型是面向企业全 局建立的,它为集成来自各个面向应用的数据库的数据提供了统一的概念视图。 ( 1 ) 界定系统的边界 数据仓库是面向决策分析的数据库,我们无法在数据仓库设计的最初就得到 详细而明确的需求,但是一些基本的方向性的需求还是摆在了设计人员的面前: 要做的决策类型有哪些? 决策者感兴趣的是什么问题? 这些问题需要什么样的信息? 要得到这些信息需要包含原有数据库系统的哪些部分的数据? 这样,我们可以划定一个当前的大致的系统边界,集中精力进行最需要的部 分的开发。因而,从某种意义上讲,界定系统边界的工作也可以看作是数据仓库 系统设计的需求分析,因为它将决策者的数据分析的需求用系统边界的定义形式 反映出来。一 ( 2 ) 确定主要的主题域 在这一步中,要确定系统所包含的主题域,然后对每个主题域的内容进行较 明确的描述,描述的内容包括: 主题域的公共码键; 主题域之间的联系; 代表主题的属性组。 2 技术准备工作 这一阶段的工作包括:技术评估,技术环境准备。 9 第2 章数据仓储与w e b 技术 这一阶段的成果是:技术评估报告、软硬件配置方案、系统( 软、硬件) 总 体设计方案。 3 逻辑模型设计 在这一步里进行的工作主要有:分析主题域,确定当前要装载的主题;确定 粒度层次划分;确定数据分割策略;关系模式定义;记录系统定义。 逻辑模型设计的成果是,对每个当前要装载的主题的逻辑实现进行定义,并 将相关内容记录在数据仓库的元数据中,包括:适当的粒度划分;合理的数据分 割策略;适当的表划分:定义合适的数据来源等。 ( 1 ) 分析主题域 在概念模型设计中,我们确定了几个基本的主题域,但是,数据仓库的设计 方法是一个逐步求精的过程,在进行设计时,一般是一次一个主题或一次若干个 主题来逐步完成的。所以,我们必须对概念模型设计步骤中确定的几个基本主题 域进行分析,并选择首先要实施的主题域。选择第一个主题域所要考虑的是它要一 足够大,以便使得该主题域能建设成为一个可应用的系统;它还要足够小,以便 于开发和较快地实施。如果所选择的主题域很大并且很复杂,我们甚至可以针对 它的一个有意义的子集来进行开发。在每一次的反馈过程中,都要进行主题域的 分析。 ( 2 ) 粒度层次划分 数据仓库逻辑设计中要解决的一个重要问题是决定数据仓库的粒度划分层 次,粒度层次划分适当与否直接影响到数据仓库中的数据量和所适合的查询类型。 确定数据仓库的粒度划分,可以通过估算数据行数和所需的d a s d 数,来确定是 采用单一粒度还是多重粒度,以及粒度划分的层次。 ( 3 ) 确定数据分割策略 在这一步里,要选择适当的数据分割的标准,一般要考虑以下几方面因素: 数据量( 而非记录行数) 、数据分析处理的实际情况、简单易行以及粒度划分策 略等。数据量的大小是决定是否进行数据分割和如何分割的主要因素:数据分析 处理的要求是选择数据分割标准的一个主要依据,因为数据分割是跟数据分析处 基于w e b 技术的数据仓储研究 理的对象紧密联系的;我们还要考虑到所选择的数据分割标准应是自然的、易于 实施的,同时也要考虑数据分割的标准与粒度划分层次相适应。 ( 4 ) 关系模式定义 数据仓库的每个主题都是由多个表来实现的,这些表之间依靠主题的公共码 键联系在一起,形成一个完整的主题。在概念模型设计时,我们就确定了数据仓 库的基本主题,并对每个主题的公共码键、基本内容等做了描述。在这一步里, 我们将要对选定的当前实施的主题进行模式划分,形成多个表,并确定各个表的 关系模式。 4 物理模型设计 这一步所做的工作是确定数据的存储结构,确定索引策略,确定数据存放位 置,确定存储分配。 ( 1 ) 确定数据的存储结构 一个数据库管理系统往往都提供多种存储结构供设计人员选用,不同的存储 结构有不同的实现方式,各有各的适用范围和优缺点,设计人员在选择合适的存 储结构时应该权衡三个方面的主要因素:存取时间、存储空间利用率和维护代价。 ( 2 ) 确定索引策略 数据仓库的数据量很大,因而需要对数据的存取路径进行仔细的设计和选择。 由于数据仓库的数据都是不常更新的,因而可以设计多种多样的索引结构来提高 数据存取效率。 ( 3 ) 确定数据存放位置 我们说过,同一个主题的数据并不要求存放在相同的介质上。在物理设计时, 我们常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类,并将 不同类的数据分别存储在不同的存储设备中。重要程度高、经常存取并对响应时 间要求高的数据就存放在高速存储设备上,如硬盘;存取频率低或对存取响应时 间要求低的数据则可以放在低速存储设备上,如磁盘或磁带。 第2 章数据仓储与w e b 技术 数据存放位置的确定还要考虑到其他一些方法,如:决定是否进行合并表; 是否对一些经常性的应用建立数据序列;对常用的、不常修改的表或属性是否冗 余存储。如果采用了这些技术,就要记入元数据。 ( 4 ) 确定存储分配 许多数据库管理系统提供了一些存储分配的参数供设计者进行物理优化处 理,如:块的尺寸、缓冲区的大小和个数等等,它们都要在物理设计时确定。这 同创建数据库系统时的考虑是一样的。 5 数据仓库的生成 在这一步里所要做的工作是接口编程,数据装入。 这一步工作的成果是,数据已经装入到数据仓库中,可以在其上建立数据仓 库的应用,即d s s 应用。 ( 1 ) 设计接口 将操作型环境下的数据装载进入数据仓库环境,需要在两个不同环境的记录 系统之间建立一个接口。乍一看,建立和设计这个接口,似乎只要编制一个抽取 程序就可以了,事实上,在这一阶段的工作中,的确对数据进行了抽取,但抽取 并不是全部的工作,这一接口还应具有以下的功能: 从面向应用和操作的环境生成完整的数据; 数据的基于时间的转换; 。 数据的凝聚: 对现有记录系统的有效扫描,以便以后进行追加。 当然,考虑这些因素的同时,还要考虑到物理设计的一些因素和技术条件限 制,根据这些内容,严格地制定规格说明,然后根据规格说明,进行接口编程。 从操作型环境到数据仓库环境的数据接口编程的过程和一般的编程过程并无区 别,它也包括伪码开发、编码、编译、检错、测试等步骤。 ( 2 ) 数据装入 在这一步里所进行的就是运行接口程序,将数据装入到数据仓库中。主要工 作是:确定数据装入的次序;清除无效或错误数据;数据粒度管理;数据刷新等。 基于w e b 技术的数据仓储研究 6 数据仓库的使用和维护 数据仓库的开发是逐步完善的原型法的开发方法,它要求:要尽快地让系统 运行起来,尽早产生效益;要在系统运行或使用中,不断地理解需求,改善系统: 不断地考虑新的需求,完善系统。 维护数据仓库的工作主要是管理日常数据装入的工作,包括刷新数据仓库的 当前详细数据,将过时的数据转化成历史数据。清除不再使用的数据,管理元数 据等等。另外,如何利用接口定期从操作型环境向数掘仓库追加数据,确定数据 仓库的数据刷新频率等等。 2 2 联机分析处理( o l a p ) 联机分析处理的概念最早是由关系数据库之父e f c o d d 于1 9 9 3 年提出的,他 同时提出了关于o l a p 的1 2 条准则。o l a p 的提出引起了很大的反响,o l a p 作 为一类产品同联机事务处理( o l l 曙) 明显区分开来。o u r p 是传统的关系型数据 库的主要应用。o l a p 是数据仓库系统的主要应用,支持复杂的分析操作,侧重决 策支持,并且提供直观易懂的查询结果。 2 2 1 联机分析处理的定义和功能特征 o l a p 理事会给出的定义是o l a p 是一种软件技术,它使分析人员能够迅速、 一致、交互地从各个方面观察信息,以达到深入理解数据的目的。这些信息是从 原始数据转换过来的,它们以用户容易理解的方式反映企业的真实情况。 o l l 曙是以数据查询为基础的,其最终数据来源与o l a p 一样均来自底层的数 据库系统,但是二者面对的用户不同,因此数据的特点与处理明显不同( 如表2 1 ) 。 表2 1 0 l t p 与o l a p 对比表【2 】 t a b 2 10 l 1 广pa n do l a pc o n t r a s tt a b k o 【。t po l a p 数据库原始数据数据库数据或数据仓库数据 细节性数据综合性数据 当前数据 历史数据 第2 章数据仓储与w e b 技术 表2 1 0 l t p 与o l a p 对比表( 续) t a b 2 1o l i ta n do l a pc o n t r a s tt a b l e ( c o n t i n u e d ) 经常更新不可更新,但周期性刷新 一次性处理的数据量小一次性处理的数据量大 相应时间要求高相应时间合理 用户数量大用户数荤相对较少 面向操作人员,支持日常操作面向决策人员,支持管理需要 面向应用,事务驱动面向分析,分析驱动 联机分析处理是一种数据分析技术,它需具有以下的功能特征: ( 1 ) 给出数据仓库中数据的多维逻辑视图,其视图应独立于数据存储的具体 形式。 ( 2 ) 一般应包括交互式查询和对数据的分析。交互式查询通常有多种方式, 如细剖较低层的详细数据或统揽较高层的概括性和聚集数据。 ( 3 ) 提供分析的建模功能,包括可以产生比率、变量等的计算引擎,有关的 度量或跨多维的数字数据。 ( 4 ) 产生概括数据、聚集和层次,并在每一维的交叉点上对聚集和概括级别 进行审计。 ( 5 ) 支持功能模型以进行预测、趋势分析和统计分析。 ( 6 ) 检索并显示二维或三维的表格、图表和图形中的数据,并且能容易地变 换基准轴。这一点是很重要的,因为用户从不同角度分析数据,并且在分析一个 侧面的数据时产生的问题可能需在另一个侧面中检验。 ( 7 ) 快速响应查询,以避免分析过程被中断,或查询信息是过时的。 ( 8 ) 具有多维数据存储引擎,按阵列存储数据,阵列是各应用维的逻辑表示。 2 2 2 联机分析处理的相关概念 o l a p 是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一 致、交互地存取,从而获得对数据的更深入了解的一类软件技术。o l a p 的目标是 基于w e b 技术的数据仓储研究 满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是 “维”。下面将对o l a p 的一些基本概念进行介绍。 ( 1 ) 维 维是人们观察数据的特定角度。例如企业常常关心产品销售数据随着时间推 移而产生的变化情况,这时是从时间的角度来观察产品的销售,所以时间是一个 维。企业也时常关心自己的产品在不同地区的销售分布情况,这时是从地理分布 的角度来观察产品的销售,所以地理分布也是一个维( 地理维) 。其他还有如产 品维、顾客维等。 ( 2 ) 维的层次 人们观察数据的某个特定角度( 即某个维) 还可以存在细节程度不同的多个 描述方面,我们称这多个描述方面为维的层次。 ( 3 ) 维成员 维的一个取值称为该维的一个维成员。如果一个维是多层次的,那么该维的 维成员是由各个不同维层次的取值组合而成。 ( 4 ) 多维数组 一个多维数组可以表示维:( 维1 ,维2 ,维n ,变量) 。例如,日用品 销售数据是按时间、地区和销售渠道组织起来的三维立方体,加上变量销售额, 就组成了一个多维数组( 地区,时间,销售渠道,销售额) 。 ( 5 ) 数据单元( 单元格) 多维数据的取值称为数据单元。当多维数组的各个维都选中一个维成员,这 些维成员的组合就唯一确定了一个变量的值。 2 2 3 联机分析处理的基本操作 o l a p 是指对以多维形式组织起来的数据采取切片、切块、旋转等各种分析动 作,以求剖析数据,使最终用户能从多个角度、多侧面观察数据仓库中的数据, 从而深入地了解包含在数据中的信息、内涵。它主要回答“为什么”的问题,如 “为什么1 1 月的销售量比1 2 月的销售量少? ”。下面介绍一下o l a p 基本操作。 第2 章数据仓储与w e b 技术 ( 1 ) 切片( s l i c e ) 切片是在多维数组的某一维上选定一维成员的动作。一次切片一定使原来维 数减一,所以所得的切片并不一定是二维的平面,其维数取决于原来的多维数据 的维数。例如我们选定多维数组( 地区,时间,产品,销售额) 中的地区维与产 品维,在另外的时间维,选取一个维成员( 如“2 0 0 5 年”) ,这样就得到一个多 维数组( 地区,时间,产品,销售额) 在地区和产品两维上的一个切片( 地区, 产品,销售额) 。这个切片表示2 0 0 5 年各个地区、各产品的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论