




已阅读5页,还剩81页未读, 继续免费阅读
(计算机应用技术专业论文)数据仓库技术在erp中的应用和实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
武汉理工大学硕士学位论文 摘要 随着信息技术的快速发展,数据库系统的应用已迅速从传统的数据处理发 展到空间的、时间的信息处理,多媒体信息处理,办公信息库,科学的、面向 应用的数据库和基于i n t c m e t 的数据库应用。随着信息量的逐渐增大和所需信息 复杂程度的增加,以数据库技术为基础的管理系统己经不能满足人们对信息的 需要。在这种背景下,2 0 世纪7 0 年代出现了决策支持系统( d s s ) ,现在d s s 己经得到了很大发展。它是在m i s 系统的基石出上发展起来的,能够提供高级查 询分析的功能,并能够为各级管理者提供辅助决策,帮助他们解决半结构化和 非结构化查询问题。 e r p 出现后不久,计算机技术就遇到了i n t e 1 e t h 廿a n e t 和网络计算的热潮、 制造业的国际化倾向以及制造信息技术的深化。对于企业高层管理者来说,从 规模庞大、数据完整但“事无巨细”的e r p 系统中直接获取对他进行宏观决策时 所需的数据是很困难的。上世纪9 0 年代中期出现了数据仓库( d w ) 和联机分 析处理( o l a p ) 技术,新一代的e r p 软件立即将其综合进去,为用户提供企业 级宏观决策的分析工具。 数据仓库技术是信息技术领域的一门新兴技术。采用数据仓库技术,可以 充分利用企业内部己有的海量数据资源,从中挖掘出有价值的知识和规则来支 持企业决策,将客观详实的经验数据与决策者自身的宝贵经验有效的结合起来, 提高企业的市场竞争力。 在对e r _ p 系统分析的基础上,引入数据仓库技术和d s s 工具对其进行改进: 在介绍和分析了数据仓库相关理论和实现技术的基础上,使用m ss o ls e r v e r 2 0 0 0a n a l y s i ss e r v i c e s 工具建立了销售主题域的数据仓库;使用d t s ( d a t a 打a n s f o r n l a t i o ns e r v i c e s ) 进行数据的输入输出和自动调度,并在数据传输中完成 对数据的验证、清洗和转换等工作;在介绍和分析了m d x ( m l l l d d i m e n s i o i l a l e x p r e s s i o n s ) 查询工具和o l 垤( o n l 证ea n a l y t i c a lp r o c e s s 协g ) 多维分析方法 的基础上,对数据仓库中的数据进行决策分析,建立数据驱动的d s s :使用数 据透视表服务等o 乙心应用工具将分析结果展现给用户。 本文主要探讨数据仓库技术及其在e r p 中的应用。在探讨数据仓库技术时, 武汉理工大学硕士学位论文 介绍了数据仓库的基本概念,对数据仓库建设的方法做出了说明,描述了数据 仓库的建模方法、步骤以及过程等,并对数据仓库的客户端查询作了较详细的 探讨,同时阐述了在e r p 中应用数据仓库技术的必要性和重要性,并且提出了 些在e r p 中应用数据仓库应注意事项的建议。最后,通过o “垤工具和m d x 语言在e r p 数据仓库上建立了以销售为主题域的多维立方体分析,建立了在 e r p 系统基础上的决策分析系统。 关键词:数据仓库( d w ) 联机分析处理( o l 心) 决策支持系统( d s s ) 企业资源计划( e r p ) i i 武汉理工大学硕士学位论文 a b s t r a c t w i t ht h er a p i d d e v e l o p m e n to f 洫f o r 玎枷o nt e c h n o l o g y i 出眦山a s es y s t e m 印p l i c a t i o n sh a v e b e e nr a p 础ye v o l v e d 台o m 劬血t i o n a l 血诅p r o c e s s i n gt os p a t i a la 1 1 d t e m p o m li n f o r m a t i o np r o c e s s i n g ,m u l d m e d i ai n f b m l a t i o np r o c e s s i n g ,i i l f b n n a t i o n 1 i b 聊yo fo 伍c e ,s c j e n t i 丘ca 1 1 d 印p l i c a t i o n o e n t e dd a 诅b a s ea s w e l la sd a t a b a s e a p p l i c a t i o n sb a s e do nn l ei n t e n l e t a 1 0 n gw i n li i l c r c a s e di n f o n 】t i o nq u a n t i t ya n d c o m p l e x i 吼am a i l a g e m e n ts y s t e mb a s e do nt h ed a t 豳a s et e c h n 0 1 0 9 yc o u l 血、s a t i s f y s o c i e t yr e q u i r e m e m i nt 1 1 e1 9 7 0 s ,m ed e c i s i o ns u p p o r ts y s t e m ( d s s ) c o m e sf o m l n o w it h ed s sh a si i n p r o v e df e a t ly ti ti sd e v e l o p e d 丘_ 0 mm em i s t h ed s sc a z l p r o v i d ea d v a i l c e dq u e r y 蚰da n a l y s i s ni sc a p a b l eo fs e c o n d a r ys u p p 矾a n ds 0 1 v i n g t h eh a l f s 乜1 l c t u r e d 趾dn o n - s 旬m c n l r e dp r o b l e m s h o r n ya 矗e rt h ee m e 增e n c eo fe n t e f p r i s er e s o l l r c e sp l a n l l i n g ( e r p ) ,c o m p u t e r t e c l l i l o l o g y c o m et oa ne r ao f g r i dc o m p u t i n g ,i n t e m e t 门n t r 锄e t , 也e i n t e m a t i o n a l i z a t i o no fm a n u t l l r i n gn i e n d sa n dp r o m o t i o no fm a n u f k t u r i n g i n f b m m t i o nt e c l l n 0 1 0 甜a st o 吐1 ce n t c r p r i s e sa d v a i l c e dm a i l a g e r ,w h e nh ei sm a k 协g h i sm a c m d e c i s i o n ,i t sah a r dw o r kt oc a t c hm er i 班td a 协曲_ i n e d i a t e l y 丘o mm e s y s t e mo fe r p ,w h j c ha r eh u g e ,i n t e 班t y 趾du m y s t e m a t i c i nt h em e d i u mo f9 0 s , w i mt h ea p p e a r a n c eo fd a 诅w a r c h o u s e ( d w ) a 工l do n - l i n ea n a l y t i c a lp r o c e s s i n g ( o l a p ) ,虹1 en e ws o f t w a r eo fe r pi 1 1 t e 伊a t e s 血en e wt e c h l l i q u e si 姗e d i a t e 】ya n d p r o v i d e s 孤a l y t i c a lt 0 0 1f o re m e r p r i s em a c m - d e c i s i o nf o rt 1 1 e i ru s e r s d a t aw a r e h o u s ei san e w t e c h n 0 1 0 9 yi nm ef i e l do fi n f o r m a t i o n u s i n gm ed a t a w a r e h o u s e ,w ec a nm a :k eu s eo fm ea t 煳d a n td a t ar e s o u r c e 8i na ne n t e r d r i s e e x p l o i i n go u tv a l l l a b l ek 1 1 0 w l e d g ea n dm l e st os u p p 眦d e c i s i o n - m a k m g i tc a na l s o c o m b i n ee x p e r i e n c e so fv e t e m s ,w h o l a :k em ed e c i s i o n s ,趾d 血ee m e r d r i s ed a t at o e 1 1 1 1 a 1 1 c ee n t e i p r i s ec o m p e t i t i o na b i l i t y a f t e ra n a l y z i n gm ee r p s y s t e m ,t e c l l i l o l o g i e so fd a t aw a r e h o u s ea i l dd s st o o l s 1 1 a v eb e e nu s e dt oi t l l p r o v ei t w eu s em ss q ls e r v e r2 0 0 0a n a l y s i ss e 九,i c e st 0b u i l d ad a r 诅w a r e h o u s ew i mat h e m eo fs a l e s ,b a s e do nm e 也e o r ya n di r r l p l e m e n t i i i 武汉理工大学硕士学位论文 t e c h n o l o g yo ft l l ed a t aw a r e h o u s e u s i n gt h ed a t a 仃a n s f o m a t i o ns e r v i c e s ( d t s ) ,w e c a ni n p u ta n do u q ) u td a t aa n ds c h e d m e sa u t o m a t i c a l l ya t 吐l ep m c e s so f 妇仕a n s f e r w ec a l li d c n t i 觑w a s h ,a 1 1 d 仃a n s f 0 肌m ed a 诅b a s e do na 1 1 a l y s i sa i l dd i s c u s s i o no ft 1 1 e m d x ( m i l l t i d i m e n s i o n a le x p r e s s i o n s ) q u e r yt e c h n o l o g ya n do l a pd i m e n s i o n a l a n a l y s i sa p p r o a c h ,w ec a nm d k ed e c i s i o n sa 1 1 da 1 1 a l y s i s t om ed a t ai 1 1n l e 批 w a r e h o u s e f m a l l y ,w ec a l lb u i l dad a t a - d r i v e nd s sa n ds h o wo u rr e s u l t su s i n g 也e p i v o t t 曲l es e r v i c e so f m eo n l i n ea i l a l ”i c a lp r o c e s s i n g ( o l a p ) 印p l i c a t i o nt o o l s t l l i s 血e s i sf b c u s e so nm et e c l l l l o l o g yo fd a t aw a r e h o u s ea n di t sa p p l i c a t i o ni n e r p | f i r s t l yt l l eb a s i cc o n c e p t so fw a r e h o u s ea r ed i s c u s s e d ,t l l e nm e t h o d so f b u i l d i n g ad a t aw a r e h o u s ea r e g i v e n ,t h em o d e l b u i l d i n gm e m o d s ,s t c p s 趾dp r o c e s s a r e d e s c m e d ,柚dm ec l i e n ti m e r f k ed e s i 弘o fad a t aw a r e h o u s ei sd i s c u s s e di n d e t a i l _ n e c e s s i t ya n dv a l u e so fm ed a t aw a r e h o u s ei ne r p a r ee m p l l a s i z e d ,a 1 1 da tm es 锄e t i m es o r r l cs u g g e s d o n so fd a t aw a r e h o u s e 印p l i c a t i o n si ne r pa r ep r o p o s e d a t 血e f i n a lp a no ft h et h e s i st h ea n a 】y s i so fm m t i d i l c n s i o n a lc u b e ,w h i c hi se s t a b l i s h e do n t h es u b j e c td o m a i no fs a l e s ,i sa p p l i e dt ot l l ed a t aw a r e h o u s e 证e r pm r o u g ht 1 1 e t 0 0 1 so fo l a - pa n dt h em d xl a n g u a g e ad e m oo ft h ed s si se s t a b l i s h e db a s e do n e r p k e yw o r d s :d a 诌w 时e h o u s e ( d w ) , 0 n l i n ea j l a l y t i c a lp r o c e s s i n g ( o l p ) , d e c i s i o ns u p p o r ts y s t e m ( d s s ) ,e n t e r p r i s er e s o u r c e sp l 锄血n g ( e r p ) 武汉理工大学硕士学位论文 第1 章绪论 1 1 本课题研究的现状和意义 2 0 世纪9 0 年代,商业活动变得越来越复杂,集团公司向全球扩展,竞争 愈演愈烈,商业经理们渴望得到更多的信息来提高竞争力,改善底线( b o t t o m l i n e ) 。计算机系统确实提供了大量的信息来支持每天的工作,但是与这些信息 不同,经理人员需要的是可以用来进行战略决策的现成信息。他们想知道应该 在哪里增加一个仓库,需要扩大哪一条生产线,应该加强哪一个市场。这些操 作型系统是面对传统的事务处理,主要功能用于企业的信息查询,在企业中虽 然重要,但是并不能提供具有战略意义的信息。因此,商业公司被迫寻找能够 获取战略信息的新方法。数据仓库是一种能够提供重要战略信息的新范例。2 0 世纪9 0 年代,一些组织开始从建立数据仓库中得到竞争的优势。 企业的信息化正如火如荼地展开着,有人说中国加入w t c l 后随之而来的 是e r p 的时代,这话一点不假,越来越多的企业在考虑实施e r p ,越来越多的 e r p 厂商在角逐e r p 市场,目前e r p 系统已成为企业信息化管理中最重要的 方法之一。但同时,我们也应该看到,e r p 对于企业的信息化管理来说并不能 提供全部的答案,我们既要看到e r p 的优势,又要看到它的不足。长期以来, e r p 的发展致力于面向企业的事务处理,对于企业资源的充分利用、最优调配、 流程化管理等提供了好的解决方案,为企业提供了集成和规范化的管理,对于 改善企业的业务流程起到不可低估的作用。但e r p 这种面向事务处理的企业业 务处理系统,由于其数据库和应用软件技术长期偏向于面向事务,在信息分析 领域存在着不足,与企业高层经理人员的决策分析要求存在一定的差距。 面向事务处理的数据存储的是操作细节数据和即时数据,在操作当时记录 准确的信息,对数据的处理速度要求高,统计查询信息一般从操作数据汇总得 到;面向分析的数据一般包括历史信息、汇总值、多个抽样值等,每次操作的 数据量大,分析包括几年来的数据比较分析和未来趋势分析,不但数据量惊人, 其涉及的信息范围也宽广得多。对企业来说,面向事务处理和面向决策分析的 信息化系统同等重要,将二者结合起来,可以管理整个企业的日常运作,通过 武汉理工大学硕士学位论文 基于数据仓库技术的决策支持系统分析企业未来的发展趋势,制定决策方案。 在企业事务处理领域以e r p 为代表,在决策分析领域以数据仓库为代表,在多 年的发展过程中两种技术各有侧重,在企业信息化不断成熟和深入应用的基础 上,两种技术应该联合起来共同为企业管理做出贡献。 因此基于e l 冲系统建立企业的数据仓库是未来信息技术的发展方向之一。 1 2 本文的主要研究内容 本文首先阐述了在具体的软件实现过程中所要用到的数据仓库技术,然后 论述了e r p 和数据仓库的集成问题。根据对m ss o l s e r v e r 自带的n o n h w i n d 企业数据库的研究,总结了n o r t h w i i l d 的e r p 数据仓库的需求分析并进行总体 设计。最后通过实际的代码实现和图例说明n o n h w i n d 的e r p 数据仓库的设计 方法。简要来说,研究的内容主要包括下面几点: 1 ) 根据e r p 和数据仓库各自的特点,提出了e 肿和数据仓库集成的模型, 并把数据仓库技术应用到e r p 系统中: 2 ) 根据对n o n h w i n d 数据库的研究充分了解公司各方面的业务流程,总结 了n o m l w i l l d 的e i 心数据仓库的需求分析并进行总体设计; 3 ) 把分析型数据从事务处理环境中提取出来,按照决策支持系统处理的 需要进行重新组织,建立单独的分析处理环境; 4 ) 探索将数据仓库技术与e r p 系统结合起来的新方法。在系统中充分 利用两种技术的各自的优点,更好的为企业决策支持服务; 5 ) 探讨e r p 系统应用数据仓库技术建设商业智能的重要意义、内容, 以及在建设过程中应注意的一些问题。 武汉理工大学硕士学位论文 第2 章数据仓库技术研究 2 1 什么是数据仓库 数据仓库执行是一个艰巨的过程,很多时候你都无法满足数据仓库的需求 和挑战。然而当进行数据仓库操作时,首先你必须明确清楚自己的思路。数据 仓库首要的任务就是建立可获取和可操作的数据,并建立便捷高效的数据查询, 以使管理部门得到所需业务问题的答案。因此,建立数据仓库的第一步工作就 是确定什么样的信息是企业最需要的。管理部门最想知道的是什么? 最重要的 业务问题是什么? 数据仓库之父b i l lh 1 i n o n 在他的专著b u i l d i n gt h ed a 乜1 1 1 0 u s e ( j o | 1 1 1 w i l e v & s o n sh c ,1 9 9 6 ) 中,把数据仓库描叙为一个“面向主题的、完整的、 非易失的、不同时间的、用于决策支持管理的数据集合”。j b i l li 姗o n 在这本书中,也列出了事务处理的操作型数据和分析处理的分析 型数据之间的区别。如袤2 一】。【2 1 3 1 【4 】 表2 1 操作型数据和分析型数据的区别 操作型数据分析型数据 细节的 综合的、或提炼的 在存储瞬间是准确的代表过去的数据 可更新的不更新 操作需求事先可知道的操作需求事先不知道 生命周期符合s d l c + 完全不同的生命周期 对性能要求高对性能要求宽松 一个时刻操作一单元一个时刻操作一集合 事物驱动分析驱动 面向应用 面向分析 一次操作数据最小一次操作数据量大 支持日常操作 支持管理需求 s d l c :s y s t e md e v e l o p m e n tl i f cc y c l e ( 系统生命周期法) 武汉理工大学硕士学位论文 从上表中所列出的分析型数据的特点可以概括为四点,也就是数据仓库的 四个基本特征:数据仓库的数据是面向主题的;数据仓库的数据是集成的;数 据仓库的数据是只读的;数据仓库的数据是随时间不断变化的。【5 1 6 】1 1 】 2 1 1 数据仓库的数据是面向主题的 什么是主题? 主题是一个抽象的概念,是在较高层次上将企业信息系统的 数据综合、归类并进行分析利用的抽象。以商场为例,“商品”、“供应商”、 “销售商”等就是一些可以进行分析研究的主题。 与传统的数据库面向应用的数据组织的特点相对应,数据仓库的数据是面 向主题进行组织的。在逻辑意义上,它对应企业中某一宏观分析领域所涉及的 分析对象。面向主题的数据组织方式,就是在较高层次上对分析对象的数据的 一个完整、一致的描述,能完整、统一地刻画各个分析对象所涉及企业的各项 数据,以及数据间的联系。从图2 一l 中 5 1 ,我们可以看到数据在操作型系统中 的存储与在数据仓库中的存储有什么不同。 在数据仓库中,数据不是根据操作型应用程序而是根据商业主题来存储的 操作型应用程序数据仓库主题 回匪甸圃 团匿甸 匿匠甸 图2 一l 数据仓库是面向主题的 在图示的操作型系统中,每一个应用程序的数据根据应用程序的不同单独 组织,包括:订单处理、客户贷款、顾客账单、可接收账款、索赔处理及储蓄 账目等。例如,索赔对于一家保险公司来说就是非常重要的主题。关于汽车保 险政策的索赔在自动保险应用程序中处理。汽车保险的索赔数据就在这个应用 程序中。同样,工人赔偿保险的索赔数据也在工人赔偿保险应用程序中。但是, 4 甸圄 武汉理工大学硕士学位论文 在保险公司的数据仓库中,索赔数据就按照索赔的主题进行组织,而不是像汽 车保险或是工人赔偿保险那样按单独的应用程序来组织数据。 2 1 2 数据仓库的数据是集成的 为了正确决策,你需要将所有不同应用程序的相关数据组合在一起。数据 仓库中的数据是从多个操作型系统中得到的。源数据来自不同的数据库、文件 和数据段。各种应用程序互不关联,所以操作平台和操作系统都可能是不同的。 文件外观布局、字符编码表示方式、区域命名习惯等都是不同的。 图2 2 【5 说明了一个关于银行机构综合数据的简单处理过程。此处,存入 数据仓库“账目”主题中的数据来自于三个不同的操作型应用程序。在这三个 应用程序这,就有很多的不同点。各个应用程序的命名习惯可能不相同,数据 特性可能不同。在储蓄账户应用程序这,账号是8 位的,而在支票账户中就只 有6 位。 解决数据中存在的不一致性:综合来自不同操作型应用程序中的数据 晦 裁 g 号 硅 础 旺 趟 血 _ | 数据仓库主题 图2 2 数据仓库是集成的 数据仓库的数据是从原有的分散的数据库数据中抽取来的。第一,数据仓 库的每一个主题所对应的源数据在原有的各分散数据库中有许多重复和不一致 的地方,且来源于不同的联机系统的数据都和不同的应用逻辑捆绑在一起;第 二,数据仓库中的综合数据不能从原有的数据库系统直接得到,因此在数据进 入数据仓库之前,必定要经过统一与综合,这一步是数据仓库建设中最关键、 最复杂的一步,所要完成的工作有: l 马马圄 武汉理工大学硕士学位论文 要统一源数据中所有矛盾之出,如字段的同名异义、异名同义、单位 不统一、字段不一致,等等。 进行数据综合和计算。数据仓库中的数据综合工作可以在从原有数据 库抽取数据时生成,但许多是在数据仓库内部生成的,即进入数据仓 库以后进行综合生成的。 2 1 3 数据仓库的数据是只读的 数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据 查询,一般情况下并不进行修改操作。数据仓库的数据反映的是一段相当长的 时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于这些快照 进行统计、综合和重组的导出数据,而不是联机处理的数据。数据库中进行联 机处理的数据经过集成输入到数据仓库中,一旦数据仓库存放的数据已经超过 数据仓库的数据存储期限,这些数据将从当前的数据仓库中删去。 从操作型系统中提取的数据和从外部数据源中取得的数据,在数据仓库中 被转换、整合并且存储。数据仓库中的数据不是用来进行每天的商业交易的。 当你想要处理一个客户的下一张订单,你不能从数据仓库中得到当前存货的状 态。操作型订单处理程序可以帮助你。而在数据仓库中,你只保存过去的存货 状态信息。你不需要根据你的每一笔订单来实时地更新数据仓库。 如图2 3 【5 所示,每一个商业交易行为并不直接更新数据仓库中的数据, 而是实时地更新操作型系统中的数据。我们在每次交易发生的时候,在操作型 系统中增加、改变或者删除数据。一旦数据存入了数据仓库,你就不能对这个 数据进行修改。数据仓库中的数据不像操作型系统中的数据那样,可以随时修 改。数据仓库中数据是用来查询和分析的。 通常数据仓库中的数据是不能捌除和更新的 匣一甸 1 i i 、 读取读取改变删除 匝巫亟圈 图2 3 数据仓库的数据是只读的 土 武汉理工大学硕士学位论文 2l4 数据仓库的数据是随时间不断变化的 这个特征表现在以下三方面: 数据仓库随时间变化不断增加新的数据内容,数据仓库系统必须不断 捕捉o l t p 数据库中变化的数据,追加到数据仓库中去也就是要不 断地生成0 u 甲数据库的快照,经统一集成后增加到数据仓库中去。 数据仓库随时间变化不断删去旧的数据内容。数据仓库的数据也有存 储期限,一旦超过了这一期限,过期数据就要被删除。 数据仓库中包含有大量的综合数据,这些综合数据中很多跟时间有关, 如数据经常按照时间段进行综合,或隔一定的时间片进行抽样等等。 这些数据要随时间的变化不断的进行重新综合。 因此,数据仓库数据的码键都包含时间项,以表明数据的历史时期。 另一方面,数据仓库中的数据是供分析和决策所用的。如果系统使用者希 望看出某个客户的消费习惯,他就不仅需要当前的交易数据,而且还需要过去 的交易数据。当系统使用者想要知道东部地区销售额下降的原因时,他就需要 该地区从过去到现在某段时期的所有交易数据。食品杂货连锁店的分析人员想 要同时提高两种或更多产品的销量,他就必须要了解在过去几个季度罩这些产 品的销售情况。 数据仓库的目的决定了它除了包含当前数据之外,还必须包含历史数据。 数据就像给过去和现在拍的快照一样被存储下来。数据仓库中的每一个数据结 构都包含了时间要素。在数据仓库中,你将能找到过去的数据操作。数据仓库 的这一特性对于设计阶段和实现阶段都有重要意义。 2 2 数据仓库的数据组织结构 数据仓库中的数据分为四个级别:早期细节级、当前综合级、轻度综合级、 商度综合级。m j i 州如图2 4 所示。源数据经过综合后,首先进入当前细节级, 并根据具体需要进行进一步的综合从而进入轻度综合级乃至高度综合级,老化 的数据将进入早期细节级。从中可以看出,数据仓库中存在着不同的综合级别, 我们一般称之为“粒度”。粒度越大,表示细节程度越低,综合程度越高。级别 的划分是根据粒度进行的。在数据仓库中,同时存在多重粒度是必不可少。 的划分是根据粒度进行的。在数据仓库中,同时存在多重粒度是必不可少。 武汉理工大学硕士学位论文 仁3 高度综合级 e j 轻度综台级 车 当前细节级 亡j 早期细节级 图2 4 数据仓库的数据组织结构 数据仓库中还有一部分重要数据是元数据( m e t a d a l r a ) 。元数据是“关 于数据的数据”,如传统数据库中的数据字典就是一种元数据。在数据仓库环境 中,主要有两种元数据:第一种是为了从操作型环境向数据仓库环境转换而建 立的元数据,它包含了所有源数据项名、属性及其在数据仓库中的转换;第二 种元数据在数据仓库中是用来与终端用户的多维商业模型前端工具之间建立 映射,此种元数据称为d s s 元数据,常用来开发更先进的决策支持工具。 分割是数据仓库中的另一重要概念。它是指将数据分散到各自的物理单元 中,存在某种相关性的数据组织在一起,以便能分别独立处理,以提高数据处 理的效率。分割的标准可以根据实际情况来定,通常可选择按日期、地域或业 务领域来进行分割。 常见的数据的组织形式有:简单堆积文件、轮转综合文件、简化直接文件、 连续文件等。i 州【1 1 数据仓库的数据来自于o l t p 的数据库。在数据仓库的数据初装完成之后, 再向数据仓库输入数据的过程称为数据追加。追加的内容仅限于上次装入后在 o l t p 数据库中变化了的数据。因此,变化数据的捕捉是关键。捕捉变化数据 的常用途径有:时标方法、d e u a 文件法、前后映像文件法及日志文件法。比 较而言,日志文件法使最可行的一种选择。 武汉理工大学硕士学位论文 2 1 3 数据仓库的组成部分 数据仓库技术从本质上讲,是种信息集成技术。数据仓库从多个信息源 中获取原始数据,经过加工整理后,存储在数据仓库的内部数据库中,通过向 终端用户提供信息、访问工具,向数据仓库的用户提供统一、协调和集成的信 息环境,支持企业全局的决策过程和对企业经营管理的深入综合分析。数据仓 库的基本组成要素如图2 5 所示。 1 2 】【1 3 【1 4 源系统 ( 传统系统) 数据 登台区 教据仓库 呈现服务嚣 鼍终用户 数据存取 图2 5 数据仓库的基本组成要素 武汉理工大学硕士学位论文 从图中可以看到,数据是从诸如操作型系统和平面文件这样的信息源抽取 出来的。其中,操作型系统指的就是事务处理系统,而平面文件指的是诸如e x c e l 文档等存有重要数据的文件。然后,这些数据可通过一些途径装载到数据仓库 中。数据仓库将在用户所要求信息的最详细级别上建立。然后,数据仓库被用 于聚集各种不同的面向处理的数据集市。这样,数据仓库就形成个能够为最 终用户提供报表服务和为用户提供分析需求服务的集成系统。 从图中也可以看到,数据仓库是由以下几部分组成的: 源系统 源系统是一种记录操作型系统,其功能是捕获各种业务事务。在大型机环 境下,源系统通常被称作“传统系统( 1 e g a c ys y s t e m ) ”。在源系统中,优先考 虑的主要是,系统的正常运行时间和可用性。针对源系统的查询都是范围狭窄、 基于报表的查询,这些查询是标准事务流的一部分,并且在针对传统系统查询 时限制非常严格。 数据仓库用于为决策者提供信息。为此,数据仓库必须将来自企业中许多 源的数据聚集和合并为一致的数据集,以准确地反映企业的业务运作情况和历 史记录。数据仓库的数据源主要是e x c e l 等平面文件、企业业务系统( o l t p ) 。 由于企业o l t p 往往缺乏规划,而且往往是由不同的人员与组织开发的,所以 各o l t p 系统中数据存在着严重的不一致性,因此,数据仓库要从数据源中提 取数据而成为一致的数据存在着严重的不一致性,因此,数据仓库要从数据源 中提取数据而成为一致的数据集,是十分费时的一件事。 关系数据库中的数据转换服务( d t s ) 提供功能强大的工具,可从多种不同的 数据源中析取和转换数据。 数据登台区 数据登台区( d a t as 乜西n ga r e a ) 是个存储区,包括净化、转换、组合、 去重、内部处理和存档等一系列处理过程,并且为数据仓库准备可用的元数据。 数据登台区是指数据仓库中介于源系统和呈现服务器之间的所有内容。数据登 台区中占主导的是排序和顺序处理等简单活动。因此,从某种意义上说,数据 登台区并不需要建立在关系型技术之上。在检查数据是否符合已经定义好的一 对一和多对一业务规则以后,很可能会发现创建基于实体一关系型的完整数据 设计这个最后步骤实际上毫无意义。 用于数据仓库的数据必须从数据源中析取,进行清理及格式化以保持一致 武汉理工大学硕士学位论文 性,并转换为数据仓库架构。数据登台区有时称为数据中间存储区,它是关系 数据库,在这里从数据源中析取数据,将数据转换为常用格式,检查致性和 引用完整性,并准备装入数据仓库数据库。在某些数据仓库实施方案中,数据 准备区和数据仓库数据库可以组合在一起,只要清理和转换操作不影响为数据 仓库数据的最终用户提供服务的性能或操作。由于数据源不同以及数据准备操 作强加在联机事务处理系统上的处理负荷,几乎无法选择在源数据库中执行准 备操作。 晟初装载数据仓库后,需不断地利用数据登台区为更新数据仓库准备新数 据。使用数据仓库和独立于数据源的数据准备区可提高管理数据仓库的效率。 数据准备区应将原始数据同数据仓库数据隔离开,以保护数据仓库的完整性。 数据仓库呈现服务器 呈现服务器是一种目标物理服务器,可用来组织和存储数据仓库中的各种 数据,并使数据能被最终用户、报告写作程序以及其他应用直接查询。数据仓 库中有三种完全不同的系统在起作用,它们是源系统、数据登台区以及呈现服 务器。由于假定不对传统系统的内容和格式采取任何控制措施,所以应该将源 系统看做是处于数据仓库之外。呈现服务器中的数据按维度框架进行呈现和存 储。当呈现服务器建立在关系型数据库基础之上时,就可按星型模式来组织各 种表:当呈现服务器建立在非关系型联机分析处理技术基础之上时,数据仍然 有可识别的各种维度。 最终用户应用 最终用户应用是指用于支持业务需求的一组信息查询、信息分析和信息呈 现工具。这组工具的最小集合包括最终用户存取工具、电子表格、图形打包程 序以及用户接口工具,利用这些用户接口工具可以得到各种提示信息,并且简 化最终用户的屏幕信息呈现形式。 最终用户数据存取工具是一种数据仓库客户端程序。在关系型数据仓库中, 该客户端程序维护与呈现服务器之间的一个会话,将各个独立的s o l 请求数据 流发送到呈现服务器。最后,当最终用户数据存取工具完成s o l 会话以后,就 开始将一整屏的数据,或者一个报告、一个图形或是其他一些更高级形式的分 析结果呈现给用户。最终用户数据存取工具既可以像特别查询工具那样简单, 也可以像复杂的数据挖掘或者建模应用那样复杂。 武汉理工大学硕士学位论文 2 4 数据仓库的整体设计 传统的数据库系统开发一般采用系统生命周期法( s y s t c m sd e v e l o p m e m “f ec y c l e ,s d l c ) 。而数据仓库设计过程是设计人品与用户不断交流的讨程。 将系统需求逐步明确与完善,人们将数据仓库的设计方法描述成c l d s 方法( 与 s d l c 相反) 如图2 6 所示。【1 6 图2 6c l d s 方法 数据库系统设计的s d l c 方法有独立的收集需求和分析需求阶段,而数据 仓库系统设计采用的c l d s 方法则没有这样独立的阶段,而是将对需求分析的 过程贯穿在整个设计的过程中。 创建数据仓库的工作是在整个原有的数据库基础上进行的,这“基础”也 只能是原有数据库中的数据,即从己经存在于操作型环境中的数据出发来进行 数据仓库的建设工作,我们把这种从已有数据出发的数据仓库设计方法称为“数 据驱动”。数据的集中统一是数据仓库应用的基础:确立合理的数据模型是数据 仓库应用的核一心:高效的应用系统是数据仓库应用的动力;良好的外部环境是数 据仓库成功应用的外部保障。 武汉理工大学硕士学位论文 2 4 1 数据仓库设计的三级数据模型 所谓数据模型,就是对现实世界进行抽象的工具。抽象的程度不同,也就 形成了不同抽象级别层次上的数据模型。在数据仓库设计中存在着三级数据模 型,即概念模型、逻辑模型和物理模型。! 1 7 】 1 8 【1 9 】 概念模型 概念模型是主观与客观之间的桥梁,它是用于我们为一定的目标设计系统、 收集信息而服务的一个概念性的工具。具体到计算机系统来说,概念模型是客 观世界到机器世界的一个中间层次。人们首先将现实世界抽象为信息世界,然 后将信息世界转化为机器世界,信息世界中的这一信息结构,即是我们所说的 概念模型。概念模型最常用的表示方法是e r 法( 实体一联系法) ,这种方法 用e r 图作为它的描叙工具。 概念模型设计也就是通常所说的需求分析,在与用户交流的过程中,确定 数据仓库所需要访问的信息,这些信息包括当前、将来以及与历史相关的数据。 在需求分析阶段确定操作型数据、数据源以及一些附加数据,设计容易理解的 数据模型,有效的完成查询和数据阊的映射。 逻辑模型 在数据仓库的设计中采用的逻辑模型就是关系模型。关系模型简化了程序 员的工作和数据仓库设计开发的工作,因此采用关系模型作为数据仓库的逻辑 模型是合适的。数据仓库的逻辑模型描叙了数据仓库的主题的逻辑实现,即每 个主题所对应的关系表的关系模式的定义。 物理模型 所谓数据仓库的物理模型就是逻辑模型在数据仓库中的实现,如物理存取 方式、数据存储结构、数据存放位置以及存储分配等。物理模型是在逻辑模型 的基础之上实现的,在进行物理模型设计实现时,考虑到数据仓库的数据量大 但是操作单一的特点,可采用其他的一些提高数据仓库性能的技术,如:合并 表、建立数据序列、引入冗余、进一步细分数据、生成导出数据、建立广义索 引等。 2 4 2 数据仓库概念模型设计 进行概念设计所要完成的工作是 武汉理工大学硕士学位论文 界定系统边界。 确定主要的主题域及其内容。 数据仓库概念设计所要完成的任务是:首先对原有数据库系统加以分析理 解,看在原有的数据库系统中“有什么”、“怎样组织的”和“如何分布的”等, 然后再来考虑应当设计数据仓库的主题域。 界定系统的边界 数据仓库的建立初期很难得到详细而明确的需求,但分析人员可以抓住一 些方向性的需求: 要做的决策类型有哪些? 决策者感兴趣的是什么问题? 这些问题需要什么样的信息? 要得到这些信息需要包含原有数据库系统的那些部分的数据? 这样,我们可以划定一个当前的大致的系统边界,集中精力进行最需要的 部分的开发。因而,从某种意义上讲,界定系统边界的工作也可以看作是数据 仓库系统设计的需求分析,应为它将决策者的数据分析的需求用系统边界的定 义形式反映出来。 确定主要的主题域 在这一步中,要确定系统所包含的主题域,然后对每个主题域的内容进行 较明确的描述,描述的内容包括: 主题域的公共码键; 主题域之间的联系: 充分代表主题的属性组。 以n o m l w i n d 企业数据库为例,假设我们对该公司的主管们做了一次完整 的调查,并且得到了下面的需求集中结果: 希望能够针对每一员工做销售业绩分析 希望能够针对每一产品做销售业绩分析 希望能够针对每一分类的产品做销售分析 希望能够针对每一供货商做销售分析 希望能够针对每一顾客做销售分析 希望能够针对每一国家顾客做销售分析 希望能够针对每一地区顾客做销售分析 4 武汉理工大学硕士学位论文 希望能够针对每一城市顾客做销售分析 希望能够针对年、季、月做销售分析 如果我们针对上面的需求集中结果做一些归纳的工作,对于唯一主题域销 售事实,将不难发现索引的基准点可以分为下面5 大类:顾客、员工、产品、 供货商、时间。 由于并不需要将o l t p 数据库的所有字段都加入数据仓库,现在我们就针 对上面的需求,对n o m l w i n d 数据库的数据加以筛选,先排除一些不必要的字 段,这项工作参考以下内容: ( 1 ) c a t e g o r i e s 表的字段分析:保留c a t e g o 哆d 和c a t e g o r y n 黜e 字段 ( 2 )排除整个c u s t o m e r d e m o 表及c t l s t o m e r d e m o g r a p l l i c s 表 ( 3 ) c u s t o m e r s 表的字段分析:保留c u s t o m e r i d ,c o m p a n y n 锄e , c o n t a c t n 锄e , c i t y ,r e 百o n ,c o l i n t r y ( 4 ) e r n p l o y e e s 表的字段分析:保留e m p l o y e e i d ,l a s t n a m e ,f i r s t n 锄e t i 廿e ,c 时,r e 百o n ,c 0 1 1 1 1 仃y ,r 印o n s t o ( 5 )o r d c rd e 诅i l s 表的字段分析:保留o r d e r i d ,p r o d u c t i d ,u r l i 心r i c e , q u a m 时,d i s c o l l l l t ( 6 )0 r d e r s 表的字段分析:保留o r d e r i d ,c u s t o m e r i d ,e m p l o y e e i d , o r d e r d a t e ,s h i p v i a ( 7 )p r
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 重大自然灾害中档案应急管理机制研究
- 主动脉夹层诊断与护理
- 零售行业代收货款服务条款协议
- 文化创意产业财产抵押贷款协议
- 菜园种植与城市垃圾分类回收合同
- 茶楼茶艺与茶文化主题酒店合作合同范本
- 车库租赁与停车场综合管理合同
- 拆迁安置补偿居间服务协议书
- 电视剧拍摄现场制片助理劳务合作协议
- 彩钢房仓储物流合作项目承包协议
- 一汽商用车企业级BOM技术方案V1.7
- 医院护理质量考核标准文本1
- 宫腔镜下子宫内膜息肉切除日间手术临床路径(妇科)及表单
- 桥架支吊架安装标准图-桥架支吊架图集
- GB/T 7702.20-2008煤质颗粒活性炭试验方法孔容积和比表面积的测定
- GB/T 4337-2015金属材料疲劳试验旋转弯曲方法
- GB/T 3608-2008高处作业分级
- GB/T 12786-2006自动化内燃机电站通用技术条件
- 2023年郑州大学嵩山地质实习
- (挡土墙)砌石工程施工记录
- 房地产租赁价值估价报告
评论
0/150
提交评论