(计算机应用技术专业论文)基于数据仓库的汽车售后服务olap系统的研究与实现.pdf_第1页
(计算机应用技术专业论文)基于数据仓库的汽车售后服务olap系统的研究与实现.pdf_第2页
(计算机应用技术专业论文)基于数据仓库的汽车售后服务olap系统的研究与实现.pdf_第3页
(计算机应用技术专业论文)基于数据仓库的汽车售后服务olap系统的研究与实现.pdf_第4页
(计算机应用技术专业论文)基于数据仓库的汽车售后服务olap系统的研究与实现.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(计算机应用技术专业论文)基于数据仓库的汽车售后服务olap系统的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南交通大学硕士研究生学位论文第l 页 摘要 目前正在应用的汽车售后服务管理系统能够很好地满足事务处理的要 求,却不能有效地满足用户个性化的查询、分析,并提供决策支持。要解决 这个问题,就必须建立数据仓库系统。 数据仓库是一个面向主题的、集成的、反映历史变化的、相对稳定的数 据集合,用于支持管理决策。它可以用来帮助客户对数据库中纷繁的数据进 行有效地统计、分析,从而帮助客户进行更有效地管理,并为客户进行数据 挖掘提供基础。 o l a p 分析,就是在建立好数据仓库的基础之上,利用多维数据库模型 使得原来隐藏在这些纷繁复杂的数据后面的信息具体化、可视化。在众多的 决策支持技术中,0 l 廿技术以其直观的数据操作、灵活的分析功能、可视 化的结果表达等特点,在数据仓库技术的支持下得以脱颖而出。它将企业从 前台业务管理( 0 l t p ) 转向后台的决策分析,为企业各层次的管理人员提供 了多角度、便捷的探察企业数据的手段。 本文根据数据仓库系统的物理结构和逻辑结构,深入分析了数据仓库系 统的结构和特点,结合最新的数据仓库建模技术,建立完成了面向汽车售后 服务这一主题的数据仓库系统,并给出了数据仓库多维数据集模型的详细设 计和实现;然后利用o l a p 分析完成对汽车售后服务系统的多维数据集进行 分析。 本论文的组织结构为: 第1 章作为论文的绪论,介绍了汽车售后服务信息系统的主要功能及存 在的不足,分析了研究本系统的重要意义。第2 章分析了数据仓库系统中数 据仓库的数据组织和一些相关的关键技术,最后说明了数据仓库技术目前存 在的问题。第3 章分析o l a p 原理和o l a p 的多维数据的概念、结构和分析 方法等,并给出了多维数据集的一些典型操作的定义、方法。第4 章介绍本 系统的详细设计和实现。系统分为三层:数据仓库层、数据抽取层、数据展 现层,并对这些层进行了具体的设计。最后的结论对本文的研究内容和结论 进行了总结,并展望了本文核心技术的应用前景和进一步的研究工作。 关键词数据仓库;o b 廿分析;售后服务;多维数据集;决策支持 西南交通大学硕士研究生学位论文第1 l 页 a b s t r a c t t h ee x i s t i n gv e h l c l ea n e 卜s a l es e r 、,l c es y s t e mt l l a tw a su s e dc a ns a t i s 母t l l e r e q u e s to ft r a l l s a c t i o np r o c e s s i n g h o w e v e r ,i tc a n ts a t i s f yt h ed e m a l l do f u s e r s i n d i v i d u a lq u e r ya n da n a l y s i s ,a n di tc a j l tt a k et t l es u p p o n i o nt om ec u s t o m e li n o r d e rt os l o v em i sp r o b l e m w em l l s te s t a b l i s ht l l ed a t aw a r e h o u s os y s t e l l lf o rt l l i s s u b j e c t t h ed a 诅w a r e h o u s ei sad a t as c to fs u 巧e c t o r i e m e d ,i m e g r a t e d ,n o n v o l a t i i e , t i m e v 撕趾t ,i su s e dt os u p p o nt h ed s s i tc a na s s i s tt h ec u s t o m e rt ot a k et h e e 衔c i e mc a c u l a t i o na n da i l a l y s i s 舶mt l l en l l l l l e r o u sa i l dc o m p l i c a t ed a 诅i nt h e d a t a b a s e ,s ot h a tp r o v i d em eb a s et 0t l l ed a - 诅m i 血n g , t h eo l a pa 1 1 a l y s i s ( 0 1 1 l i n ea 1 1 a l y s i sp m c e s s i n 曲i so nm eb a s i so fd a t a w a r e h o u s ee s t a b l i s h e d ,t a k e sa d v a l l t a g eo fm 山t i d i m e n s i o nm o d l et om a k et h e i n f o n l l a t i o nw m c hh i d i n gu n d e rt l l en u m e m u sa n dc o m p l i c a t ed a t ac o n c r e t e l i z e d , v i s u a l i z e d a m o n gt h em a s so fd e c i s i o n - s u p p o r t e dt e c h n 0 1 0 9 i e s ,t h eo l a p t e c h n o l o g yh a st a l e n ts h o w i n gi t s e l fw i mt h es u p p o r t e db yd a t aw a r e h o u s e t e c h n o l o g y ,b e c a u s eo fh i si n n l i t i o n i s d cd a t am a n a g c i n e n t ,f l e x i b l ea i l a l y s i s c t i o n ,v i s u a l a b l er e s u l te x p e s s i n g t h eo l a pt e c h n o l o g ym a k e st h c e m e r p r i s e st u mt 0d e c i s i o na n da n a l y s i sf 如mo p e r a t i o nm a n a g e m e n t ( o u 、p ) ,a n d p m v i d st h ew a yo fm u l t i v i e w m g ,c o n v e n i e n te x p l o r i n ge m e 删s e sd a t af o r d i 丘e r e ml e v e l sm a m 喀e ro f t l l ee n t e r p 打s e t h i sn l e s i sb a s e so nu l ed a t aw a r e h o u s es y s t e m sp h y s i c a la n dl o g i c a i f h m e 、v o r k ,m e nw eh a v ee s t a b l i s h e dt h ed a t aw a r e h o u s es y s t e mw h i c hv e h i c l e a r - s a l es e n ,i c es u b j e c to r i e n t e d a n dt h i st h e s i sd r a w sm ed e t a i ld e s i g n 撕o na n d r e a l i z a t i o no nt h ed a t aw a r e h o u s em u l t i - d i m e n s i o nd a t as e t sb i n d i n g 谢廿ln e wd a t a w a r e h o u s em o d l i n gt c c h n 0 1 0 9 y n l e n ,w eh a v ea 1 1 a l y z e dt h em u l t i d i m e n s i o no n v e h i d ea f e r - s a l es e r v i c ew i m0 l a p t h eo r g a n i z a t i o ns t m c t i l r eo f t l l i sm e s i si s : 1 1 1 ef l r s tc h 印t e ri sap r o l e g o m e n o no f “sm e s i s ,i n 怕d u c e st 1 1 em a i n 如c t i o no ft h ev e h i c l ea r e r _ s a l es e r v i c ei n f o m l a t i o ns y s t e ma l l dt 1 1 ep r o b l e m s e x i s t e d , a n a l y z e st h es i g n i f i c i e 玎c eo f r e s e 黜出t l l es y g 鼢n c h a p t e r2a 芏1 a l y z e sm e d a 诅w a r c h o u s e sd a t ao 唱a 血z a t i o na 1 1 dr e l a t c dt e c h n o l o g yi n 1 ed a t aw a r e h o u s e s y s t e m ,f i n a l iy ,t a l 王( sa b o u tt h ep r o b l e m se x i s t e di n 血e 出止aw a r e h ( m s et e d m o l o g y 西南交通大学硕士研究生学位论文 第页 c h a p t e r3a 1 1 a l y z e st h ep r i n c i p l eo f t h co l a pa 1 1 dm u l t i d i m e n s i o n sc o n c e p t i o n , s t r u c t u r e ,m e t h o de t c ,a n d 垂v e ss o m e 移p i c a lo p e 刎o n s 如f m i t i o na r l dm e t h o d 。 c h a p t e r4m a i 山yg i v e su st h ed e t a i l e dd e s i 弘a n dr e a l i z a t i o no ft 1 1 i ss y s 把m t l l i s s y s t e i ni sc o m p o s e db yt l l r e el l i e r a r c l l i e s :t h ed a t aw a r e h o u s el l i e r a r c h y ,d a 诅 e x 恤i c t i o nh i e r a r c h y ,d a t ae x l l i b i t i o nl l i e r a r c h y ,a n dh a sd e t a i li n l d u c t i o nt 0m 锄 f i n a l ly t h es u m m a wa i l dp s p e c to fr e s e a r c ha n dt h ec o n c l u s i o 璐o ft h e d i s s e r t a t i o na r es m 眦埘i z e d f l l i t l l u m o f e ,t l l ea p p l i e df o r e g m u n do ft l l ec o r c t e c l l i 】i q u ea n dt l ep r o s p e c t sf o rn e x “c s e a r c hd i r c c t i o 璐a r cp r c s e m e d k e y w o r d s :d a t a h o u s e ; 0 l a p a n a l y s i s ; a 丑e r - s a l es 唧i c e s ; m u l t i - d i m e 璐i o n a ld a _ t as e t :d e c i s i o ns u p p o r t e d 西南交通大学硕士研究生学位论文第1 页 第1 章绪论 1 1 汽车售后服务信息系统概论 汽车产业是现代工业的重要组成部分,但是今天却不得不面临毛利只有5 的现实,面对利率一卜升、油价高涨、生产能力过剩、价格压力沉重、医疗保健与 劳动力成本提高等诸方面的经营压力。业界人士普遍认为汽车产业所面临的竞争 激烈程度是始料未及的。根据国外的有关资料,汽车销售商的利润来源中,售后 服务占毛利大部分,而其他的如汽车销售、零部件销售、二手车经营所得的利润 却非常有限【2 l7 捌。这说明售后服务有很大的利润空间,而且由于销售整车终究受 到市场容量的限制,而服务市场却有很大的开拓余地。 在全球经济体化进程迅速加快,市场竞争日益剧烈的环境下,如何更有效 地把握市场机遇,降低采购成本、运营成本,维修成本,最大限度地满足客户的 需求,为消费者提供完善的售后服务成为全球汽车企业共同关注的焦点。 但汽车售后服务却存在着诸多的问题,如销售和服务脱节、维修保养价格高 技术水平差、销售体制不规范等等j 。利用信息化提高汽车售后服务的水平和效 率,进行企业的成本控制和绩效考核,是汽车售后服务管理的重要内容。并且得 到了广泛的应用。 现有的基于数据库的汽车售后服务系统,能够有效地解决企业的生产流程自 动化问题,是面向事务处理应用的,具有查询速度快、数据冗余量小、安全可靠 等优点,基本涵盖了汽车售后服务的主要部分:维修养护、故障救援、保险理赔、 保修、服务质量跟踪、信息反馈、服务质量投诉等方面。 然而,在面对用户多种多样具有个性化的查询、统计需求时,这种需求有时 是无法预测的,事务处理却无法有效地满足这类需求。( 例如:当用户需要知道某 年某月的某维修站的具体的维修零件费用,该零件的供应商是谁时,系统就无能 为力了。) 由于数据库系统适合于数据的实时读写更新操作,而对于低频率大数量 的数据读取操作,基于数据库的信息管理系统是无法胜任的。数据仓库就是为了 解决数据库对于查询、分析的不足而发展而来的,并且支持多角度、多级别查询。 为了有效的支持决策分析,只有通过建立数据仓库系统才能有效地满足用户的需 求。有关数据仓库的内容将在下一章进行详细的讨论。 西南交通大学硕士研究生学位论文第2 页 1 2 研究的内容及意义 在知识经济迅猛发展的今天,如何解决在大型的d b s 中迅速发现、集成有用 的信息( 知识) ? 如何利用数据仓库理论解决d b s 不可能解决的难点问题:如何 及时地在大型的、分散的d b s 中发现和集成有价值的信息和知识? 如何陕速地提 取有用的信息,在现有的条件和设备下追求更大的利润并使得售后服务系统适合 市场经济发展即适者生存的发展规律。这些是我们在完成本课题所面i 临的重要问 题。 结合上述提出的问题以及售后服务存在的问题,在原有的事务系统已经完成 了相关的汽车出生档案管理、三包服务管理、客户信息管理、回访信息管理等的 基础之上,本文做了如下的研究工作: 1 ) 研究了有关建立数据仓库系统定义的详细说明、组成部分( 即体系结构) 以及所需要的相关技术;利用这些技术提出针对具体的汽车售后服务系统中的售 后服务这一主题的解决方案; 2 ) 利用s q l s e n 啊2 0 0 0 中的多维数据集技术,方便地解决了多维模型的数 据结构; 3 ) 利用s q ls e r v 钟2 0 0 0 中的a m a l y s i ss e r v i c e s 组件开发o l 世系统,设计 并产生汽车售后服务记录的多维数据集; 4 ) 以w n d o w s2 0 0 0 操作系统为平台,v b n e t 语言为开发工具,利用 m i c r o s o f 【o 伍c cw 曲c o m p o n e 心( o w c ) 来实现对多维数据集的数据表现。实现 用户对多维数据集的上探、下钻、旋转、多维度多角度查询、汇总等0 l a p 的基 本操作: 1 3 本章小结 本章简要地介绍了汽车售后服务在整个汽车产业链中所占的重要地位及它的 现状,所面临的问题;现在大面积使用的基于数据库的信息管理系统的功能,着 重点明它们在支持查询、分析、决策支持等方面的不足,为解决这方面的不足, 而引入数据仓库系统;并说明本文利用数据仓库技术所做的主要研舡作及其意 义。 西南交通大学硕士研究生学位论文第3 页 第2 章数据仓库 传统的数据库技术是以单一的数据资源,驯数据库为中心,进行事务处理、 批处理、决策分析等各种数据处理工作。主要划分为两大类:操作型处理和分析 型处理( 或信息型处理) 。操作型处理也叫事务处理,是指对数据库联机的日常操 作( 即o r l l i m i 协s a c t i o np m s s 啦帕u p ) ,通常是对一个或一组纪录的查询、 添加和修改,主要为企业的特定应用服务的,注重响应时问、数据的安全性和完 整性;分析型处理则州于管理人员的决策分析,经常要访问大量的历史数据,然 而,传统数据库系统是基于企业的1 常事务处理工作的,很难实现对数据分析高 效地处理,已经无j 去 葫足数据处理多样化的要求。操作型处理和分析型处理的分 离成为必然。 随着数据库技术的应用和发展,人们尝试对d b ( 数据库,d a 劬a s e ) 中的数 据进行再加工,形成一个综合的、面向分析的环境,以更好支持决策分析,从而 形成了数据仓库技术。 数据仓库弥补了原有的数据库的缺点,将原来的咀单一数据库为中心的数据 环境发展为一种新的体系化环蜊日,如图2 1 所示。 操作型环境全局级 部门级个人级 细节级 f 1 常的 当前值的 访问频繁 砸向应用 大部分是粒度 化的数据 随时问变化的 集成的 一些汇总 - 面向主题 - 领域狭隘 一些是导出 数据;一些是 原始数据 施型部门: 财务、市场、 t 程、制造 注:箭头方向表示数据抽取的方向 图2 1 数据仓库体系化环境 图2 1 数据仓库体系化环境 暂时的 为特定目 的的 启发式的 基于p c 和 工作站的 西南交通大学硕士研究生学位论文第4 页 2 1 数据仓库的概念 2 1 1 数据仓库的定义 数据仓库之父w h 血m o n 对数据仓库的定义:数据仓库( d a 钮w 撕h o l l s e ) 是一个面向主题的( s u 巧c c to d c n t e d ) 、集成的( h l 把g r a m e d ) 、反映历史变化的( h n e a n t ) 、相对稳定的( n o n v o l 削e ) 的数据集合,用于支持管理决策 。 1 ) 面向主题( s u 巧e c to r i e r l t e d ) 主题是一个抽象的概念,是在较高层次上将企业信息系统的数据进行综合、 归类并进行分析的对象。在逻辑意义上,它对应着企业某宏观分析领域所涉及的 分析对象。面向主题的数据组织方式,就是在较高层次上对分析对象数据的一个 完整、一致的描述,全面的刻画各个分析对象所涉及的企业的各项数据,以及数 据之间的联系。按照主题进行数据组织的方式具有更高的数据抽象级别。 2 ) 集成( h 1 吨i a t e d ) 指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据仓库 的关键步骤。首先要统一原始数据中的矛盾之处,还要将原始数据结构做一个从 面向应用向面向主题的转变。通常,构造数据仓库是将多个数据源,如关系数据 库文件和一些外部数据源,集成在一起。使用数据清理和数据集成技术,确保命 名、约定、编码结构、属性度量等的致性。 3 ) 反映历史变化( r i h e a m ) 数据仓库是不同时间的数据集合。数据存储从历史的角度提供信息,如过去 5 1 0 年。它要求数据仓库中的数据保存时限能满足进行决策分析的需要,而且 数据仓库中的数据都要标明该数据的历史时期,数掘仓库中的关键结构显式或隐 式地包含时间元素。 4 1 相对稳定的( n o n _ v o l a t i l e ) 数据仓库总是物理地分离存放数据,这些数据源于操作环境下的应用数据。 通常,数据仓库只需要两种数据访问:数据的初始化装入和数据查询,数据经加 工和集成进入数据仓库后是极少或根本不修改的。 2 1 2 数据仓库系统的定义 数据仓库系统是一个信息提供平台,它从处理业务系统获取数据,主要以星 西南交通大学硕士研究生学位论文第5 页 型架构和雪花形架构进行数据组织,并为用户提供各种手段从数据中获取信息和 知识。 一个数据仓库是由h l n l o n m a c k 吐1 0 r n l 按照当今实际应用所完成的基本工作的 一个组合。一个数据仓库是这样一个数据库:其数据能被组织用作一个存储区的, 由数据挖掘和其它应用来使用的;使用这些数据满足一组预定义的商业评测【l 。 数据仓库系统可以用下面的一个组合公式表示: d w = 啪+ d b m s + a p p l i c + d m + k d d + d s s + i i + i 其中:d w 一d a 诅、) v 锄出o u s e ( 数据仓库) ; 玎) b 删咖r i c a ld a t ab a s e s ( 历史数据库) ; d b m s _ d a t ab a s e sm 明a g e m e ms y s t 锄( 数据库管理系统) : a 仰1 i c a p p l i c 撕。璐( 应用程序) ; d m d a t a h 位血旦( 数据挖掘) : k d d k n o w l c d g ed i s c o v e r ymd 酿i b a s e s ( 数据库中的知识发现) ; d s s d e c i s i o ns u p p o ns y 船n ( 决策支持系统) ; i h n f o n n 撕o n i n t e 幽c e ( 信息接口) ; h n 自】咖】c t l 鹏( 基础结构或者叫作基础设施) 。 由数据仓库系统涉及到的内容可知:数据仓库系统是在d b m s 和) b 基础 之上发展起来的一种新型的d b s 技术。它包括了多平台( 多网络) 操作的综合技 术,同时又包含各类相关的预测、分析模型的发现与建立等的内容,以及知识管 理、高层决策的评价指标等相关的技术。可见,建立这个系统需要许多综合的技 术。数据仓库以关系数据库、并行处理和分布式技术为基础,它是解决大型企业 一方面拥有大量数据,另一方面有用信息却很贫乏( d a :【ar i d l - h 曲廿n a l i o np 0 0 r ) 这种不正常现象的综合解决方案。它把整个企业的数据,无论其地理位置、格式 和通信要求统统集成在一起,并能把当前使用的业务信息分离出来,保证关键任 务的o i 肌,应用的安全性和完整肚,同时可以访问多种数据库。数据仓库不是单 一的产品,而是由软硬件技术组成的环境。它把各种数据库( 源数据库) 集成为 一个统一的数据仓库( 目标数据库) ,并且把各种数据转换成面向主题 ( s u b i e 略o r i e r n 耐) 的格式,能从异构的数据源中定期抽取、转换和集成所需要 的数据,便于最终用户访问,并能从历史的角度进行分析,最后做出战略决策。 将数据库系统与数据仓库系统结构的各个组成部分做一个简单比较,如表2 1 所示: 表2 1 数据库系统与数据仓库系统区别 数据库系统i 数据仓库系统 西南交通大学硕士研究生学位论文第6 页 存储操作型数据,细节的,可更新,增、 存储分析型数据,数据是综合的,极少 删、改操作频繁。 有增、删、改操作。 以数据库管理系统为核心,面向事物处 以数据仓库管理系统为中心,分析驱动, 理,面向应用。 面向分析。 数据库工具:以查询工具为主数据仓库工具:以分析工具为主 数据仓库旱的数据并不是最新的、专有的,而是来源于其它数据库的。数据 仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的基 础上,用于支持高层决策分析。而事务处理数据库在企业的信息环境中承担的是 f 1 常操作性的任务。数据仓库是数据库技术的一种新的应用。而且到目前为止, 数据仓库还是用关系数据库管理系统来管理其中的数据。 图2 2 所示是数据仓库与数据仓库系统关系图。 业务系统 图2 2 数据仓库与数据仓库系统关系图 2 1 3 数据仓库系统的构成 任何完善的数据仓库系统从功能角度划分都应该包括以下五个部分: 数据整合 数据存储 数据访问 信息整合 西南交通大学硕士研究生学位论文第7 页 元数据管理 前面四个部分比较容易理解,下面解释一下元数据管理。元数据( 1 1 1 e t a ( ) 是关于数据的数据。在数据仓库环境下,主要有两种元数据:第一种是为了从操 作性环境向数据仓库转化而建立的元数据,它包含了所有源数据项名、詹生及其 在数据仓库中的转化;第二种元数据在数据仓库中是用来和终端用户的多维商业 模蛩前端工具之问建立映射,此种元数据称之为d s s ( d e c i s i o ns l l p p 酣s y s t e m ) 元数据。它常用来开发更先进的决策支持工具。关于元数据,下面的章节还会做 进一步的阐述。 图2 3 表示的是上述五部分的层次关系。 客户端 信息整合 数据访问 数据仓库 ( 存储) 数据整合 数据源 ( 业务系统) 图2 3 数据仓库系统的功能层次模型 2 1 4 数据仓库系统的数据存储 数据仓库系统与普通的查询和报表系统之间最明显的区别在于与业务处理系 统相独立的数据存储。数据仓库般基于关系型数据库,采用星型模型、雪花型 模型或非规范化模型进行数据结构设计田】。 西南交通大学硕士研究生学位论文第8 页 2 2 数据仓库中的数据组织 数据仓库中数据的四个基本特征在本章开头部分已经介绍过了,下面就要分 析清楚这些问题:数据仓库存储哪些数据昵? 数据如何组织、存储、组织形式有 哪些等等。通过对数据仓库中存放的数据内容及其组织形式的介绍,本节将对这 些问题做出回答,从而对数据仓库数据四个基本特征更深入理解。 2 2 1 数据仓库的数据组织结构 典型的数据仓库的数据组织结构如图2 5 所示。 每月服务 2 0 0 0 2 0 0 6 向 图2 5 数据仓库数据组织结构 数据仓库中的数据分为四个级别:早期细节级、当前细节级、轻度综合级、 高度综合级。源数据经过综合后,首先进入当前细节级。并根据具体需要进行进 一步的综合,从而进入轻度综合级乃至高度综合级。由此可见,数据仓库中存在 着不同的综合级别。一般称之为粒度。粒度越大,表示细节程度越低,综合程度 越高1 。 2 2 2 粒度与分割 粒度是数据仓库的重要概念。粒度是对数据仓库中的数据的综合程度高低的 西南交通大学硕士研究生学位论文第9 页 一个度量。它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问 的种类n “。所以,粒度级别的选择既不能太高,也不能太低。 分割是数据仓库中的另一个重要概念,它的目的同样在于提高效率。它是将 数据分散到各自的物理单元中去,以便能分别独立处理。有许多数据分割的标准 可供参考,如日期、地域、业务领域等等;也可以是其组合。一般而言,分割标 准总应包括日期项,它十分自然而且分割均匀。 2 2 3 数据仓库的数据组织形式 这里简要介绍数据仓库中常见的数据组织形式【4 】: 1 ) 简单堆积文件它将每日由数据库中提取并加工的数据逐天积累并存储起 来。 2 ) 轮转综合文件数据存储单位被分为日、周、月、年等几个级别。在一个 星期的七天中,数据被逐一记录在每日数据集中。然后,七天的数据被综合并记 录在周数据集中。接下去的一个星期,日数据集被重新使用,以记录新数据。同 理,周数据集达到五个后,数据再一次被综合井已入月数据集。依此类推。轮转 综合结构十分简捷,数据量较简单堆积结构大大减少。当然,它是以损失数据细 节为代价的,越久远的数据,细节损失越多。 3 ) 简化直接文件它类似于简单堆积文件,但它是问隔一定时间的数据库快 照( d a t a b a s es 越p s h o t ) ,比如每隔一星期或一个月做一次。 对于各种文件结构的最终实现,在关系数据库中仍然要依靠表这种最基本的 结构。 2 2 4 数据仓库的数据追加 如何定期向数据仓库追加数据也是一个十分重要的技术。我们知道,数据仓 库的数据是来自0 l t p 的数据库中,问题是我们如何知道究竟哪些数据是在上一 次追加过程之后新生成的。常用的技术和方法膂1 9 j : 1 ) 时标方法如果数据含有时标,对新插入或更新的数据记录,在记录中加 更新时的时标,那么只需根据时标判断即可。但并非所有的数据库中的数据都含 有时标。 2 ) d e i t a 文件它是由应用生成的,记录了应用所改变的所有内容。利用 d e a 文件效率很高,它避免了扫描整个数据库。但同样的问题是生成d e i 胍 西南交通大学硕士研究生学位论文第1 0 页 文件的应用并不普遍。此外,还有更改应用代码的方法,使得应用在生成新数据 时训- 以自动将其记录下来。但应用成千上万,且修改代码十分繁琐,这种方法很 难实现。 3 ) 前后映象文件的方法在抽取数据前后对数据库各作一次快照,然后比较 两幅快照的不同从而确定新数据。它占用大量资源,对性能影响极大,因此并无 多大实际意义。 4 ) 日志文件最可取的技术大概是利用日志文件了。因为它是d b 的固有机 制,不会影响o p 的性能。同时,它还具有d e u a 文件的优越| 生质,提取数 据只要局限r 志文件即可,不用扫描整个数据库。当然,原来日志文件的格式是 依据d b 系统的要求而确定的,它包含的数据对于数据仓库而言可能有许多冗余。 比如,对一个记录的多次更新,日志文件将全部变化过程都记录下来。而对于数 据仓库,只需要最终结果。但比较而言,日志文件仍然是最可行的一种选择。 2 3 数据仓库的关键技术 与关系数据库不同,数据仓库并没有严格的数学理论基础,它更偏向于工程。 可以说数据仓库不是简单的产品堆砌,它是综合性的解决方案和系统工程1 。 由于数据仓库的这种工程性,因而在技术上可以根据它的工作过程分为:数据的 抽取( d 砒a p u m p ) 、存储和管理、数据的表现儒觋以及数据仓库的设计的技术咨 询四个方面。 2 3 1 数据的抽取 数据的抽取是数据进入仓库的途径。由于数据仓库是一个独立的数据环境, 它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储 介质中导入到数据仓库。具体包括数据的提取( e ) 【妇c t i ) 、清洗( c 湖i 1 1 2 ) 和 转换( 1 h 惦g ) 等工作。其功能包括按一定的规则( 如:主键约束规则;数 据一致规则等) 将已有k 皿s 系统中的数据导入到数据仓库中。 数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方 面。数据仓库的数据并不要求与联机事务处理系统保持实时的同步,因此数据抽 取可以定时进行。但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中 信息的有效性则至关重要”“。 在技术上说,数据抽取所涉及的单个技术环节都已相对成熟。其中有一些是 西南交通大学硕士研究生学位论文第1 1 页 免不了要编程的,整体的集成度还很不够。目前市场上所提供的大多是数据抽取 工具。这些工具通过用户选定源数据和目标数据的对应关系,会自动生成数据抽 取的代码。但数据抽取工具支持的数据种类是有限的,同时数据抽取过程涉及数 据的转换,它是一个与实际应用密切相关的部分,其复杂陛使得不可嵌入用户编 程的抽取工具往往不能满足要求。因此,实际的数据仓库实施过程中往往不一定 使用抽取工具。整个抽取过程能否因工具的使用而纳入有效的管理、调度和维护 则更为重要。 数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了 它有别于传统数据库的特性,同时也决定了其对外部数据表现形式。要决定采用 什么产品和技术来建立数据仓库核心,则需要从数据仓库的技术特点着手分析。 数据仓库遇到的第一个问题是对大量数据的存储和管理,这里所涉及的数据 量比传统事务处理大得多,且随时间的推移而累积。从现有技术和产品来看。只 有关系数据库系统能够担当此任。关系数据库经过长期的发展,在数据存储和管 理方面已经非常成熟,非其它数据管理系统可比。目前不少关系数据库系统已支 持数据分割技术,能够将一个大的数据库表分散在多个物理存储设备中,进一步 增强了系统管理大数据量的扩展能力。采用关系数据库管理数百个g b 甚至到t b 的数据已是平常的事。一些厂商还专门考虑大数据量的系统备份问题,好在数据 仓库对联机备份的要求并不高。 数据仓库要解决的第二个问题是并行处理。在传统联机事务处理应用中,用 户访问系统的特点是短小而密集。对于一个多处理机系统来说,能够将用户的请 求进行均衡分担是关键,这便是并发操作;而在数据仓库系统中,用户访问系统 的特点是庞大而稀疏。每一个查询和统计都很复杂,但访问的频率并不是很高。 此时系统需要有能力将所有的处理机调动起来为这一个复杂的查询请求服务,将 该请求并行处理。因此,并行处理技术在数据仓库中比以往更加重要。目前,关 系数据库系统在并行处理方面已能做到对查询语句的分解并行、基于数据分割的 并行、以及支持跨平台多处理机的群集环境,能够支持多达上百个处理机的硬件 系统并保持性能的扩展能力。 西南交通大学硕士研究生学位论文第1 2 页 2 3 3 数据的表现 数据表现是数据仓库的门面,它们主要集中在多维分析、数理统计和数据挖 掘方面。 多维分析是数据仓库的重要表现形式,多维分析领域的工具和产品就是下一 章的o l a p 技术的实现。这些产品近两年来更加注重提供基于w 曲的前端联机分 析界面,而不仅仅是网上数据的发布。 数理统计原本与数据仓库没有直接的联系,但在实际的应用中,客户需要通 过对数据的统计来验证他们对某些事物的假设,以进行决策。 与数理统计相似,数据挖掘与数据仓库也没有直接的联系,而且这个概念在 现实中有些含混不清。数据挖掘强调的不仅仅是验证人们对数据特性的假设,而 且它更要主动地寻找并发现蕴藏在数据之中的规律。这听起来虽然很吸引人,但 在实现上却有很大的出入。市场上许多数据挖掘工具其实不过是数理统计的应用, 它们并不是真正寻找出数据的规律,而是验证尽可能多的假设,其中包括许多毫 无意义的组合,最后由人来判断其合理性。 2 4 数据仓库技术目前存在的问题 总结数据仓库在国内外的发展趋势,可以看到实现一个成功的数据仓库系统 的有利方面是:有成熟的d b s 技术、管理人员、网络技术、o i a p 技术、s q l 技术、许多先进的管理模型和优化模型等。也有许多欠缺的地方和急需解决的问 题:需要有一整套完整的数据仓库系统的理论与技术来支持这个系统的正确运行; 多平台的数据如何处理;如何解决多维问题的数据结构等等p 9 】,这些都是目前研 究数据仓库迫切需要解决的问题。 2 5 本章小节 本章首先介绍数据仓库的历史、概念及其与数据库的关系、区别,然后讨论 了数据仓库系统的一些特性,并着重讨论了数据仓库的数据组织和相关的一些关 键技术,最后说明了数据仓库技术目前存在的问题。通过上述讨论,对数据仓库 有了一个比较深刻的认识。 由于o l 世技术是基于数据仓库的,因此本章详细论述了数据仓库的技术, 从而为0 u 心技术的展开提供了信息平台。 西南交通大学硕士研究生学位论文第1 3 页 第3 章o l a p 分析及s s a s 3 1 联机分析处理0 l a p 随着人类进入信息时代,各种数据化的信息开始爆炸性地充斥于我们的生存 空间。把握住信息就等于把握住了机遇,各个企业无不在寻求各种方法、采取各 种措施以期在竞争中获得立足之地。然而,如何能迅速准确地获得多方位的有价 值的信息常常困扰着决策管理者们。 联机分析处理技术( o n l i n ea 1 1 a j 如c a lp m c e s s i n g ,0 l 廿) 是信息技术领域近 年来悄然兴起的种决策支持手段。如何使隐藏在纷繁复杂的数据后面的信息具 体化、可视化,是所有决策支持系统诞生的源动力和追逐的目标。在众多的决策 支持技术中,o l a p 技术以其直观的数据操作、灵活的分析功能、可视化的结果 表达等特点,在数据仓库技术的支持下得以脱颖而出。它将企业从前台业务管理 ( o l l p ) 转向后台的决策分析,为企业各层次的管理人员提供了多角度的便捷地 探察企业数据的手段。 联机分析处理( 0 l 廿) 的概念最早是由关系数据库之父b f c o d d 于1 9 9 3 年提出的。当时,c o d d 认为联机事务处理( 0 u 甲) 己经不能满足终端用户对数 据库查询分析的需要,s q l 对大数据库进行的简单查询也不能满足用户分析的需 求。用户的决策分析需要对关系数据库进行大量计算才2 得到结果,面查询的结 果并不能满足决策者提出的需求。因此c o d d 提出了多维数据库和多维分析的概 念,即0 l a p 。 3 1 10 l a p 的概念 根据0 l a p 产品的实际应用情况和用户对0 l 廿产品的需求,人们提出了 一种对o l 廿更简单明确的定义,即共享多维信息的快速分析。 1 ) 、快速性 用户对o l 廿的快速反应能力有很高的要求。系统应能在5 秒内对用户的大 部分分析要求做出反应。如果终端用户在3 0 秒内没有得到系统响应就会变得不耐 烦,因而可能失去分析的兴趣,影响分析质量。对于大量的数据分析要达到这个 速度并不容易,因此就更需要一些技术上的支持,如专门的数据存储格式、大量 西南交通大学硕士研究生学位论文第1 4 页 的事先运算、特别的硬件设计等。 2 ) 、可分析性 o l a p 系统应能处理与应用有关的任何逻辑分析和统计分析。尽管系统需要 事先编程,但并不意味着系统已定义好了所有的应用。用户无需编程就可以定义 新的专门计算,将其作为分析的一部分,并以用户理想的方式给出报告。用户可 以在0 l 心平台上进行数据分析,也可以连接至蜞他外部分析工具上,如时间序 列分析工具、成本分配工具、意外报警、数据挖掘等。 3 ) 、多维性 多维畦是o l 岬的关键屙陛。系统必须提供对数据分析的多维视图和分析, 包括对层次维和多重层次维的完全支持。事实上,多维分析是分析企业数据最有 效的方法,是o l a p 的灵魂。 4 ) 、信息性 不论数据量有多大,也不管数据存储在何处,o l 廿系统应能及时获得信息, 并且管理大容量信息。这里有许多因素需要考虑,如数据的可复制性、可利用的 磁盘空间、o l 廿产品的性能及与数据仓库的结合度等。 3 1 20 l a p 的多维数据概念 多维结构是决策支持的支柱,也是0 雌p 的核心。o l a p 展现在用户面前的 是一幅幅多维视图。 1 ) 、维 假定某某是个百货零售商,有一些因素会影响他的销售业务,如商品、时间、 商店或流通渠道,更具体一点,如品牌、月份、地区等。对某一给定的商品,也 许他想知道某个商品在某段时间的销售情况。在某一时间,也许他想知道某个商 店某种产品的销售隋况。因此,他需要决策支持来帮助制定销售政策。这里,商 店、时间和产品都是维。各个商店的集合是一维,时间的集合是一维,商品的集 合是一维。维就是同类数据的集合,也可以理解为变量。而每个商店、每段时间、 每种商品都是某一维的一个成员。每个销售事实由一个特定的商店、特定的时间 和特定的商品组成。 维有自己固有的属性,如层次结构( 对数据进行聚合分析时要用到) 、排序( 定 义变量时要用到) 、计算逻辑( 是基于矩阵的算法,可有效地指定规则) 。这些属 性对进行决策支持是非常有用的。 2 ) 、多维性 西南交通大学硕士研究生学位论文第1 5 页 人们很容易理解一个二维表( 如通常的电子表格) ,对于三维立方体同样也容 易理解。o l 钮通常将三维立方体的数据进行切片,显示三维的某一平面。如一 个立方体有时间维、商品维、收入维,其图形很容易在屏幕上显示出来并进行切 片。但是要加一维( 如加入商店维) ,则图形很难想象,也不容易在屏幕上画出来。 要突破三维的障碍,就必须理解逻辑维和物理维的差异。o l 岬的多维分析视图 就是冲破了物理的三维概念,采用了旋转、嵌套、切片、钻取和高维可视化技术, 在屏幕上展示多维视图的结构,使用户直观地理解、分析数据,进行决策支持。 3 1 3 活动数据的存储 用户对某个应用所提取的数据称为活动数据,它的存储有以下三种形式: 1 ) 关系数据库 如果数据来源于关系数据库,则活动数据被存储在关系数据库中。在大部分 情况下,数据以星型结构或雪花结构进行存储。 2 ) 多维数据库 在这种情况下,活动数据被存储在服务器上的多维数据库中,包括来自关系 数据库和终端用户的数据。通常,数据库存储在硬盘上,但为了获得更高的性能, 某些产品允许多维数据结构存储在i 认m 上。有些数据被提前计算,计算结果以 数组形式进行存储。 3 1 基于客户的文件 在这种情况下,可以提取相对少的数据放在客户机的文件上。这些数据可预 先建立,如w 曲文件。与服务器上的多维数据库一样,活动数据可放在磁盘或 洲上。 这三种存储形式有不同的眭能,其中关系数据库的处理速度大大低于其他两 种。 o l 廿有三种数据处理方法。事实上,多维数据计算不需要在数据存储位置 上进行。 1 ) 关系数据库 即使活动的o l 心数据存储在关系数据库中,采用在关系数据库上完成复杂 的多维计算也不是较好的选择。因为s q l 的单语句并不具备完成多维计算的能 力,要获得哪怕是最普通的多维计算功能也需要多重s q l 。在许多情况下,一些 o l

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论