




已阅读5页,还剩63页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
江苏犬学硕士学位论丈 摘要 随着科学技术的飞速发展和市场、经济的全球化,市场竞争形式从食业i h j 的竞争逐 渐演进为商业智能之间的竞争。在这种新环境下,e d w ( e n t e r p r i s e d a t a w a r e h o u s e ) 分析 系统作为一种辅助企业做出决策,提高企业竞争力的有效手段,正受到越来越多的重视。 本文重点研究适合我国中小型企业的e d w 分析系统解决方案,给出实现解决方案的关 键技术,并在此解决方案的基础上设计实现j y e d w ( 金源e d w ) 分析系统。本文的主要 工作包括: ( 1 ) 提f 了一种n e t 甲台卜i 的中小型企业数据仓库架构一一j m n 叭e d w 架构。它由 数据存储管理层,分析模型层和应用服务层组成。j m n e t e d w 简化了企业级数据仓库架 构,采用了自行设计的j m e l t 数据抽取工具,去掉了部门级数据集市,加入了即时查 询。这种架构设计简单清晰,层次分明,弥补了企业级数据仓库架构在中小型企业应用 中技术复杂度高、扩展性弱、价格昂贵等方面的不足。 ( 2 ) 分析rj m n e t e d w 架构实现过程中的关键问题,给出了相应的解决方案和实现a 提出并设计实现r 新的抽取工具一j m e i t 工具,并埘工具的有效性进行,验证。它把 转换工作放到数据仓库中完成,借助r d b m s 引擎,完全采用s q l 实现,省掉了传统 e t l 的数据转换引擎,降低了技术复杂度和对源业务系统的影响,提高l ,工具灵活性 和抽取效率;采用即时查询和a n a l y s i ss e r v i c e s 的数据预处理、客户端数掘存储功能提 高系统的查询效率;运用基于x m lw 曲s e r v i c 的o w c 组件技术,实现前端展现工具, 提高o l a p 报告的灵活性。 ( 3 ) 按照面向对象工程技术,采用u m l 统一建模语言,并结合金源环境工程公司 的e r p 系统,运用j m n e t e d w 架构,设计实现了j y e d w 分析系统,给出了数据仓库 建模、采购和库存的o l a p 分析模型、j m e l t1 具的详细分析和设计。 关键词:企业资源规划;数据仓库;联机分析处理;抽取转换装载;j m e l t ;统 建模;j m n e t e d w 大学硕: 学位论文 a b s t r a c t ajo n gw j t ht h er a p i dd e v e l q p m e n to fs c ie n c oa n d t e c h n o l o g y a n dth e g i o b a iz a t i o no fe c o n o m y ,m a r k e tc o m p e t i t i o nf o r mh a sb e e ne v o ju t e dg r a d u a l l y f r o ml h ee n t e r p r js e sc o m p e l i t i o nt ot h ec o m p e t i t i o no f b u s i n e s si n t e l l i g e n c e u n d e rt h isk i n do fn e we n v ir o n m e n t e d w ( e n t e r p r is ed a t aw a r e h o u s e ) a n a l y s i s s y s t e m ,a sa o w e r f u lm e h o d 【oi m p r o v et h ee t l t e r p r is ec o m p e t i t i o n ,isr e c e i v i n g m o r ea n dm o r er e s p e c t t h isa r t i c l ek e yi st of i n dan e we d wa n a ly s iss y s t e m s o l u t i o df o rs m a l la n dm e d i u ms iz e de n t e r p r i s eino u rc o u n t r y ,a n dt op r o d u c e t h ei m n l e m e n t a t i o ns o l u t i o no ft h ee s s e n t i a lt e c h n 0 1 0 9 y f i n a l1 y ,t h e j y e d w ( j i ny u a n e n t e r p r is e d a t aw a r e h o u s e ) a n a ly s iss y s t e m ,b a s e do nt h e s o l u t i o n , isd e s i g n e da n di m p e m e n t e d o u rm a inw o r ki n c l u d e s : 1 _ i m n e t e d wf r a m e w o r k ,a sas m a l la n dm e d i u ms iz e de n t e r p r is ed a t aw a r e h o u s e a r c h i1e c l l i f eb a s e do f f n e tp 1 a t f o r m ,i sp r o p o s e d t h i sf r a m e w o r kin c lu d e st h r e e l a y e r s :t h ed a t as t o r a g em a n a g e m e n t 】a y e r ,t h ea n a l y s i sm o d e 1 a y e ra n dt h e a p p l ic a t i o ns e r v i c e1 a y e r j b l n e t e d ws i m p l i f i e st h ed a t a w a r e h o u s ea r c h i t e cl u r e , h a su s e dt h e m e l tt o o lw h i c hi n d e p e n d e n t 1yis d e s i g n e d ,h a sr e m o v e dt h e d e p a r t m e n td a t am a r ta n dh a sa d d e dt h ei m m e d i a t eq u e r y ,t h isf r a m e w o r ki ss i m p l e , c l e a r ,m a d eu pt h el a c ko ft h ed a t aw a r e h o u s ea r c h i t e e l u r ea tg e n e r a le n t e r p r is e l e v e lw h ic bisa p p l i e di nt h es m a ia n dm e d iu ms iz e de n t e r p r is e ,s u c ha st h e h i g h e rt e c h n i c a lc o m p l e x i t y ,t h ew e a ke x t e n s i o n ,t h eh j g h e rp r i c ea n ds o o n 2 h a y in ga n t i ly z e dt h ek e yq u e s t i o d sinp r o c e s so f 删e t e d wf r a m e w o r kb e i n g i m p l e m e n t e d a n dh a v in g p r o d u c e d t h ec o r r e s p o n d i n g s o l u li o na n dt h e i m p l e m e n t a t i o n m e l tt o o l ,a sa n e wd a t ae x t r a c t i o nt o o l ,i sp r o p o s e d ,d e s i g n e d a n di m p l e m e n t e d t h et o o l sv a l i d i t yj8t e s t e d 1 tp u t st h ew o r kin t ot h ed a t a w a r e h o u s et oe o m p l e t ea n disi m p l e m e n t e dc o m p l e t e l yb ys q lw i t ht h ea i do ft h e r d b m se n g i n e t h ist o o l r e m o v e st h ed a t at r a n s f o r m a t i o ne n g i d eo ft r a d i t i o n a l e t lt o o l ,r e d u c e st h et e c h n i c a lr o m p l e x i t ya n di m p a c to nt h es ourceo p e r a t i o n a s v s t e m e n h a n c e st h et o o l f le x i b i l i t ya n dt h ee x t r a c t i o ne f f i c ie n c y i no r d e r t oe n h a n c et h eq u e r ye f f i c i e n c y ,t h ei m m e d i a t eq u e r y ,t h ed a t ap r e lr e a t m e n ta n d t h od a t as t o r a g ei nc l je n to fa n a l y s i ss e r v i c e sa r eu s e d t h eo w ct e c h n o l o g y b a s e do nx m lw e bs e r v ic e si sa p p l i e dt ( ) e n h a n c et h ef l e x i h il i t yo fo l a pr e p o r t 3 a c c o r d i n gt ot h eo b j e c to r i e n t e dp r o j e c tt e c h n o l o g ya n dt h ee r ps y s t e m 江苏大学硕士学位论文 i nj i i iy u a nc o ,w ed e si g n e da n di m p i e m e n tt h ej y e d wa n a l y s i ss y s t e mb yt h eu m l u n if l ie dm o d e l1 a n g u a g ea n dj m n e t e d wf r a m e w o r k a n dw ea l s os h o wh e r et h em o d e l 0 fd a t aw a r e h o u s e ,t h em o d e l0 fp u r c h a s ea n ds t o r e0 1 a pa r i a ly s jsa n dt h ej m e l i 9 0 0 1i nd e t a i l k e yw o r d :e r p :d a t aw a r e h o u s e :o l a p :e d w :e t l :j m e l 。i :u m l :j m n e t e d w 学位论文版权使用授权书 y 1 0 1 3 9 7 8 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同 意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许 论文被查阅和借阅。本人授权江苏大学可以将本学位论文的全部内容或 部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制 手段保存和汇编本学位论文。 本学位论文属于 学位论文作者签名: o ;年1 月6 日 保密口,在年解密后适用本授权书。 不保密瓯 易鸯好 指导教师签 卅峰占月c 日 2 以 警 独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立 进行研究工作所取得的成果。除文中已注明引用的内容以外,本论文不 包含任何其他个人或集体己经发表或撰写过的作品成果。对本文的研究 做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意 识到本声明的法律结果由本人承担。 学位论文作者签名: c ;黪喑 日期: 0 帅6 年6 月6 日 江苏大学硕士学位论文 l - i 课题背景 第1 章绪论 我国中小型企业占国内企业总数的9 0 左右,它们在市场中最具活力。在大型企业 对计算机的需求已经趋于半稳的时候,中小型企业用户就显得格外的突出。中小型企 业由于企业自身的规模有限,没有能力自己独立丌发内部管理软件,而并不十分健全 的内部经营体系又急需系统化的管理,这就为企业管理软件的发展打下了坚实的基础。 当前,建立竞争优势,提高市场竞争力已经成为企业管理的核心,而原有的管理软 件已经越来越不能适应管理实践的要求,新的时代需要新一代的管理软件。我国企业 管理软件的发展,在经历了单项管理系统、m r p m r p i i 应用之后,正朝着更先进的e r p 模式发展。e r p ( 企业资源计划) 是管理信息系统在九十年代的最新发展,近年来被引 入到中国后,受到国内的广泛关注。e r p 不仅集成了企业运营和管理的各主要部分( 财 务、分销、制造、人力资源、决策支持等) ,吏代表了先进的管理思想和管理方式。我 们可以预见,e r p 将作为管理现代化的重要工具,在我国企业等组织得到越来越广泛的 应用。 但是,当前国内e r p 系统的数据分析能力大都不够强大,而e r 2 系统启动运行之 后,其数据分析能力是决定性能的重要指标。面向e r p 软件的数据分析功能被称为商 业智能其主要功能是对e r p 系统积累的数据进行分析处理,形象地说就是帮助用户 发现e r p 系统积累的数据的潜在价值。可以这么说,普通的e r p 系统能够帮助用户规 范企业的管理,而拥有强人数据分析功能的e r p 系统则能够使用户从这种规范的管理 中获得更大的效益。因此,如果企业要采用e r p 系统,一般需要一个强大的数据分析 部件。这个数据分析部件能够与e r p 系统集成,在e r 2 系统运行过程中采集数据进行 分析,并能将样本数据和分析结果存入数据仓库以便用户查询采用。j 。 在e r p 系统中,面向事务处理的数据存储的是操作细节数据和即时数据,在操作 当时记录准确的信息,对数据的处理速度要求高,统计查询信息一般从操作数据汇总 得到;面向分析的数据一般包括历史信息、汇总值、多个抽样值等,每次操作的数据 量大,分析包括几年来的数据比较分析和未来趋势分析,不但数据量惊人,其涉及的 信息范围也宽广得多 4 1 。对企业来说,面向事务处理和面向决策分析的信息化系统同等 重要,将二者结合起来,可以管理整个企业的同常运作,通过基于数据仓库技术的决 策支持系统分析企业未来的发展趋势,制定决策方案f 5 i 。在企业事务处理领域以e r p 为代表,在决策分析领域以数据仓库为代表,在多年的发展过程中两种技术各有侧重, 在企业信息化不断成熟和深入应用的基础h 两种技术应该联合起来共同为企业管理 江苏走学硕士_ 宇位论文 做出贞献t 引。 综七所述,我_ f fj h l 以认定基于e r p 系统的企业数据仓库技术是未来信息技术的发 展方向之一1 7 1 。 1 2e d w 系统现状与不足 1 2 1e d w 系统研究现状 数据仓库作为数据库极富潜力的应用领域,近年来在中国引起了i t 行业的广泛关 注。越来越多的用户希望能够通过切实可行的数据仓库应用来提高企业的决策支持水 平,为企业的决策活动提供帮助。但众所周知的是,数据仓库的实簏不仪与数据库的 技术和产品有关,还牵涉到许多相关的问题,如企业历史数据的收集、加工、管理以 及企业自身数据体系的延伸等。如何构造建立数据仓库的实施计划,加快数据仓库在 中国的应用进程,使数据仓库早日从理论走向实践已成为广大开发商和用,、共同关心 的问题忙】。 目前,国际上有关数据仓库的解决方案很多,有些技术也非常成熟,出现了一些 数据仓库厂家 9 l ,像i b m ,i n f o r m i x ,m i c r o s o f t ,n c r ,o r a c l e ,s y b a s e 等,其产品的 主要应用领域是金融、保险、证券、电信、大型连锁超级市场等行业蝉i ,而对r 其他行 业来讲,数据仓库的应用也逐渐在扩展,但并不是太多,尤其是中小型企业,还没有 完整的商业智能解决方案。 对于数据仓库系统,就目前来讲,存国内才刚刚起步,人部分还处在理论研究阶 段,还没有个成型的数据仓库产+ 品。据了解,国内比较好的e r p 商正在开始考虑 在其原来的e r p 系统基础之j 二构建数据仓库系统,如中软公司,用友公司,浪潮集团 通软公司等,正在着手这方面的研究。 另外,我国的中小型企业有其自己的特点,发展比较晚,信息化程度不高。但是 随着改革开放的进一步发展,竞争也越发激烈,急需信息化建设,以便帮助提高管理 水平,辅助决策人员做出正确的决策。因此,应该以此为契机,对中小型企业的信息 化管理系统进行全面的构架,找出一条适合我国中小型企业信息化的架构。 1 2 2e d w 系统适应性的不足 尽管e d w 系统在某些领域内已经得到了一定的应用和实施, h 足在其适应性上还 存在着一些不足之处1 1 1 , 1 2 1 : 1 目前,比较好的成熟的数据仓库产品基本上都足国外产品,国内产品比较少, 因此有些产品虽然成熟,功能强人,但由于语占、习惯等因素,并不适用丁二我国的食 江苏大学硕士学位论文 业,特别是中小型企业。 2 近几年来,e d w 分析系统的研究和应用主要是集中在数据管理的传统领域,如 金融、保险、电信等行业,并作为特定应用,如信用分析、风险分析、欺诈检测等, 很少应用在企业信息化方面。 3 部分e d w 厂商出产的是其数掘仓库的一些外围 具,如e t l 工具或者前台分 析展现工具,没有考虑整体的设计方案,司企业信息化软件的集成度不高。 4 部分比较前沿的厂商尽管也提供了整体解决方案,但是其整体解决方案或是面 向高端,高性能,或是固定在自己特定的软硬件环境当中,并没有专门针对企业e r p 系统的,对国内的中小型企业不适用。 5 对丁国际上出产e d w 产品的厂家,其产品价格都非常的昂贵,一般的国内中 小型企业根本承受不起。 针对以上现象和问题,本文将对我围中小型企业商q k 智能方面做一些简单的探讨和 研究。针对中小型企业提供套解决方案,能更好地组织企业的数据,发挥决策工具 最大功效。 1 3 论文的主要工作 ( 1 ) 针对企业级数据仓库架构的适应性不足,在其基础上加以改进,提出f 面向我 国中小企业的数据仓库架构j m n e t e d w 架构。 ( 2 ) 针对传统e t l 的不足,并加以改进,设计实现新的抽取工具一一j 舱l t ( j m e x t f a c t i o n - l o a d i n et r a n s f o r m a t i o n ) 工具,并对j m e l 3 、:1 j 具的有效性 加以验证。 ( 3 ) 采用面向对象j 二程技术,运用j m n e t e d w 架构,结合实际的研发项目,设计实现 e d w 分析系统,包括数据仓库建模,j m e l t 工具,仓库的管理、数据可视化分析 等。 1 4 论文组织 论文共分丘章,主要内容概要如下: 第一章绪论 介绍课题的研究背景和研究意义,概述e d w 分析系统的应用现状,指出了其在适 应性方面存在的不足。最后,介绍了本文的主要工作内容。 第二章相关概念和技术 对j m n e i e d w 架构和j y e d w 系统实现所采用的技术进行了简单介绍,包括数据 江苏大学硕士学位论文 仓库基本原理理论,数据分析访问技术,数据的装载策略以及转换规则,m i c r o s o f t a n a l y s i ss e r v i c e s 分析服务等。 第三章j m n e t e d w 框架设计 通过对目前流行的企业级数据仓库架构的改进,提出面向我国中小企业的数据仓库 解决方案j m n e t e d w 架构,并对其中的关键技术作r 分析,给出了具体的解决方 案。 第四章基于j m n e t e d w 架构的j y e d w 系统的设计与实现 按照面向对象的软件【程思想,采用u m l 统一建模语言,将j m n e t e d w 框架应 用于镇江金源环境工程有限公司j y e d w 分析系统的设计和丌发中,给出数据仓库建 模、采购和库存o i a p 分析模型、j m e l t 工具的详细分析和设计。 第五章总结与展望 对全文进行总结,对今后的工作进行了展望。 江苏大学硕士学位论文 第2 章数据仓库相关概念和技术 2 1 数据仓库基本原理 2 1 1 数据仓库概念 目前,数据仓库一词尚没有一个统一的定义,著名的数据仓库专家w ,h i n m o n 在其 著作b u i l d i n gt h ed a t a w a r e h o u s e 书中给予如下描述:数据仓库( d a t aw a r e h o u s e ) 是一个用于管理决策支持的面向主题的( s u b j e c to r i e n t e d ) 、集成的( i n t e g r a t e ) 、 相对稳定的( n o n v o l a t i l e ) 、反映历史变化( t i m ev a r i a n t ) 的数据集合1 1 3 j 。对于数 据仓库的概念,可以从两个层次予咀理解,首先,数据仓库用于支持决策,面向分析 型数据处理,它不同r 企业现有的操作型数据库:其次,数据仓库是对多个异构的数 据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库 中的数据一般不再修改1 1 4 ) 0 根据数据仓库概念的含义,数据仓库拥有以下四个特点l l5 1 1 0 1 : ( 1 ) 面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之间 各自分离,而数据仓库中的数据是按照一定的主题域进行组织。数据仓库将这些数据 集中于一个地方,在这种结构中,对应某个主题的全部数据被存放在同一数据表中, 这样决策者就可以非常方便地在数据仓库中的一个位置检索包含某个主题的所有数 据。主题是一个抽象的概念,是指用户使用数据仓库通行决策时所关心的重点方面, 一个主题通常与多个操作型信息系统相关。 ( 2 ) 数据集成。面向事务处理的操作型数据库通常与某些特定的应用相关,数据 库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库 数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不 一致性,以保证数据仓库内的信息是关于整个企、f k 的一致的全局信息。 ( 3 ) 数据的相对稳定。操作犁数据库中的数据通常是即时更新,数据根据需要及 时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数 据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓 库中般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 ( 4 ) 数据随时问变化。操作型数据库丰要关心当前某一个时间段内的数据,而数 据仓库中的数据只增加不删除,使得数据仓库中的数据总是拥有时间维度。通常包含 历史信息,系统记录了企业从过去某一时点( 如开始应用数据仓库的时点) 到目前的各 江苏大学硕士学位论文 个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预 测。 企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据 仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善 其业务经营的决策,信息才能发挥作用,信息彳有意义。而把信息加以整理归纳和重 组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。 2 1 2 数据仓库的数据组织 1 数据的组织结构。 在数据仓库中,数据般会被分为高度综合级,轻度综合级,当前细节级和早期细 节级4 个级别。一般的数据组织结构如图22 所示: 图21 数据仓库数据组织结构图 当前的数据总是首先进入当前细节级,然后根据应用的需求,通过预运算将数据聚 合成轻度综合和高度综合级。总的来讲,这种数据的组织方式的核心思想是在系统中 保留最有可能被用户使用的数据,而用户很少适用的数据则备份出系统。 2 数据粒度。 数据粒度是数据仓库中极其重要的概念。利于o l a p 和d m 来讲,数据粒度是有 不同含义的。数据粒度分为两种”: 第种是对数据仓库中数据综合程度高度的个度量。数据的综合程度不同,其 数据量将相差很大。数据粒度越小,信息越细节,数据量越大,数据粒度越大,忽略 了众多的细节,数据量越小。综合程度不同的数据其用途也不相同,在数据仓库中多 重的数据粒度是必不可少的。 第二种足抽样率,这是针对数据挖掘来讲的。所谓抽样率,就是以一定的比率对 数据仓库中的数据进行抽样后得到的一个样本数据库,数据挖掘将在这个样本数据库 匕卫i :行。 一 一 一 一 江苏大学硕士学位论文 3 数据分割。 数据分割是指数据分散到各自的物理单元中以便能够独立处理,提高数据处理的效 率。数据分割后的数据单元称之为切片。 数据分割没有固定的标准,分割的方法和粒度应当根据实际情况来定。分割方法常 常可以选择时间、地点、业务领域来划分。按照时问进行分割符合数据仓库数据随着 时间变化的特点,并且分割后数据分布比较均匀,所以是最常用的分割方法。 g 数据仓库元数据。 元数据( m e t a d a t a ) 是描述数据仓库内数据结构和建立方法的数据。可将其按用途 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库 的数据,主要包括数据仓库结构的描述( 各个主题的定义,星型模式或雪花型模式的描 述定义等) 、对数据稽核规则的定义、数据仓库定义描述与装载描述( 包括c u b e 的维 度、层次、度量以及丰日应事实表、概要表的抽取规则) 。 业务元数据从业务角度描述r 数据仓库中的数据,业务元数据包括以下信息:使用 者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据来源;系统 所提供的分析方法及公式、报表信息。 2 2 数据分析访问技术 2 2 1 联机分析处理( o l a p ) 当今的数据处理大致可以分为两大类:联机事务处理o l t p ( o n l i n et r a n s a c t i o n p r o c e s s i n g ) 和联机分析处理o l a p ( o n l i n e a n a l y t i c a lp r o c e s s i n g ) i l 。o l t p 是传统 的关系型数据库的主要应用,主要是基本的、日常的事务处理。o l a p 是数据仓库系统 的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。 o l a p 是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、 交互地存取,从而获得对数据的更深入r 解的一类软件技术。o l a p 的目标是满足决策 支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是“维”。 维( d i m e n s i 0 1 3 ) 足人们观察客观f 壁界的角度,是一种高层次的类型划分l j 。例如,一 个企业在考虑产品的销售情况时,通常从时| h 】、地区和产品的不同角度来深入观察产 品的销售情况。这里的时间、地区和产品就是维。而这些维的1 i 同组合和所考察的度 量指标构成的多维数组则是0 1 a p 分析的基础,可形式化表示为( 维1 维2 , 维n ,度量指标) ,如( 地区、时问、产品、销售额) 。通过把一个实体的多项重要的属 )魄曲随钵 舱,l s乩(据 数 一儿 务 业 、 ) 阻妇阻阴n曲k( 据数元术技类两 。 为分 江苏大学硕士学位论文 性定义为多个维,使用户能对不同维上的数据进行比较。因此o l a p 也可以 兑是多维数 据分析工具的集合。本质是多维分析窀间在某个角度卜的投影,多个维度表共同建立 一个多维的分析空间。 o l a p 的基本多维分析操作有钻取( r o lll l p 和d r ll1d o w n ) 、切片( s ii c e ) 和切 块( d ic e ) 、以及旋转( p i r o t ) 等i l 。 o l a p 有多种实现方法,根据存储数据的方式不同可以分为r o l a p 、m o i a p 、h o l a p “。 r o l a p 表示是于关系数据库的o l a p 实现( r e l a tj o n a io l a p ) 。以关系数据库为核 心,以关系型结构进行多维数据的表示祁存储。r o l a p 将多维数据库的多维结构划分为 两类表:一类是事实表,用来存储数据和维度表关键字:另一类是维度表,每个维至少 使用一个表来存放维的层次、成员类别等描述信息。 维度表是进入事实表的入口,丰富的维度属性给出了卡n 富的分析切割能力,它是事 实表不可分割的伴侣 1 9 1 。维度表有i ,l :多列或者属性,属性给出对维度表行所进行的描 述。维度表属性在数据仓库中承担着一个重大的角色。 事实表足维度模型的基本表,存放了大量的业务性能度量值,是各个维度的交点。 从业务处理过程中得到的度量值数据都存放在事实表中。事实表的一行对应一个度量 值,一个度量值就是事实表的行。事实表的所有度量值必须具有相同的粒度。 在r o l a p 中,数据模型分为两种,一种是“星型模型”,一种是“雪花型模型”。 ( 1 ) 星型模型:维度表和事实表通过主关键字和外关键字联系在一起就形成了“星 型模型”。存星型模型的每一个事实表,对丁每一维都有个相对应的维度表。事实表 中每一条记录都包含有指向维度表的外键和相应的一些度量值,维度表中记录的是有 关这一维度值的属性。 ( 2 ) 雪花型模型:它是对星型模型的扩展,是对星型模型的维度表进步层次化, 原有的各维度表可能被扩展为小的事实表,形成一些局部的“层次区域”,这种星型模 型的扩展称为“雪花模型”。当事实表涉及的维度较多时,事实表中的数据记录数将迅 速增长。例如,如果事实表条目为m ,增加一个维度记录数为n 的维度表,通常事实 表的记录数就会变成m * f l 条,这样所占的存储空间将迅速增大。雪花型模型的出现主 要是为了减少数据的存储量,改善杏询性能,避免冗余数据占用过大的存储空间f 1 3 i 。 m o l a p 表示基于多维数据组织的o l a p 实现( m u t i d i m e n s i o n a lo l a p ) 。以多维数 据组织方式为核心,也就是说,m o l a p 使用多维数组存储数据。多维数据在存储中将形成 “立方块( c u b e ) ”的结构,在m o l a p 巾对“立方块”的“旋转”、“切块”、“切片”是 产生多维数据报表的主要技术。 h o l a p 表不基于混合数据组织的o l a p 实现( h y b r i do l a p ) 。如低层是关系型的, 高层是多维矩阵型的。这种方式具有更好的灵活性。 o l a p 1 i 具是针对特定问题的联机数掘访问与分析。它通过多维的方式对数据进行 江苏大学硕士学位论文 分析、查询和报表。根据综合性数据的组织方式的不同,目前常见的o l a p 主要有基于 多维数据库的m o l a p 及基于关系数据库的r o l a p 两种。 2 2 2 数据挖掘 数据挖掘的基本思想就是从数据中抽取有价值的信息,其目的是帮助决策者寻找数 据问潜在的关联,发现被忽略的要素,而这些信息对预测趋势和决策行为也许是十分 有用的【i ”。 从数据库的角度看,数据挖掘就是这样一个过程,它从数据库的数据中识别出有 效的、新颖的、具有潜在效用的并最终可理解的信息( 如规则、约束等) 的非平凡过 程。非平凡是一个数学概念,即数据挖掘既不是把数据全部抽取,也不是一点儿也不 抽取,而是抽取出隐含的、未知的、可能有用的信息。 从决策支持的角度看,数据挖掘是一种决策支持的过程,主要基于人工、机器学 习、统计学和数据库技术等多种技术,能高度综合地分析企业原有的数据,进行9 1 纳 推理,从中挖掘出潜存的模式,预测客户的行为,帮助企业的决策者调整市场策略, 从而减少风险,辅助做出正确的决策。 数据挖掘的常用方法包括关联分析、分类和预测、聚类、检测离群点、趋势和演 变分析等。 2 2 3 0 l a p 与d m 的互补性 数据挖掘和联机分析处理都可以在数据仓库的基础上对数据进行分析,以辅助决 策,但是它们既有差别又有联系的。 从某种意义上来说,联机分析处理还是一种传统的决策支持方法。即在某个假设的 前提下通过数据查询和分析来验证或否定这个假设,所以联机分析处理是一种验证型 的分析。 数据挖掘是数据驱动的,是一种真征的知识发现方法。使用数据挖掘工具,用户不 必提出确切的要求,系统能够根据数据本身的规律性,自动地挖掘数据潜在的模式, 或通过联想,建立新的业务模型,帮助决策者调整市场策略,并找到正确的决策。这 显然利于发现未知的事实。从数据分析深度的角度来看,联机分析处理位于较浅的层 次,丽数据挖掘则处于较深的层次。所以,联机分析处理和数据挖掘的主要差别就在 于是否能自动地进行数据分析。 9 江苏大学硕士学位论文 2 3 数据装载策略 在数据抽取工具中,一个数据装载策略的好坏严重影响到抽取工具的性能和效率 。因此,数据装载策略的选择,对于一个e d w 系统的建设极其重要。数据装载策 略种类严格来讲分为两大类,一是全部装载,一是增量装载。 2 3 1 全部装载策略 全部装载策略为全表删除插入方式,每次数据抽取时,均删除目标表数据,由f t i 全新装载数据。这种装载策略的优点是e t l 加载规则简单,速度快,处理也简单,不 需要读取日志表或者对日期字段进行判断,缺点是对于维度表加代理键不适应,当 o i , t p 系统产生删除数据操作时,o l a p 将不会记录到所删除的历史数据,不可以实现 数据的递增加载。 2 3 2 增量装载策略 增量装载策略1 2 1 i 为四种:时戳方式、日志表方式、全表比对方式、扫描增量文件方 式。 时戳方式:需要在0 l t p 系统中业务表中统一添加时间字段作为时戳( 如表中已有 相戍的时间字段,可以不必添加) ,每当o i ,t p 系统中更新修改业务数据时,同时修改 时戳字段值。当做数据加载时,通过系统时间与时戳字段的比较束决定进行哪些数据 抽取。 口志表方式:在0 l t p 系统中添加系统同志表,当业务数据发生变化时,更新维护 日志表内容,当数据加载时,通过读日志表数据决定加载哪些数据及如何加载。 仝表比对方式:在数据抽取过程中,抽取所有源数据,并进行相应规则转换,完成 后先不插入目标,而对每条数据进行目杯表比对。根据主键值进行插入与更新的判定, 日标表已存在该手键值的,表示该记录已有,。并进行其余字段比对,如有不同,进行 更新操作,如同标表没有存在该主键值,表示该记录还没有,即进行插入操作。 扫描增量文件方式:增量文件记录抽取过程中数据所发生的变化,在进行抽取的时 候,首先读取增量文件,确定哪些数据发生了变化,然后冉对变化的数据进行抽取。 江苏大学硕士学位论文 2 4 其他技术介绍 2 4 1a d o m d ( 多维数据集架构对象) 建设e d w 分析系统,自然需要和数据库进行数据交互。o l a p 是一种多维数据分 析系统,原来的数据库访问对象a d o 已经不能够满足现在数据访问的需要,这就需要 一种新的数据访问对象a d o m d ( 多维数据集架构对象) 怔“。a d o m d ( a c t i v e xd a t a o b j e c tm u l t i d i m e n s i o n a l ) 是传统a d o 库的扩展,它号门用于处理多维查询。 a d o m d 是一种功能强大而又相对简单的对象模型,它提供两种功能: ( 1 ) 在o l a p 数据库中对多维数据集层次结构的只读访问。 ( 2 ) 查询处理和数据检索功能,支持m d x l 2 3 】语句的执行以及对结果数据集的分 析。 a d o m d 对象模型可以分为两个部分,一个对象组处理o l a p 数据库架构,允许一 个捍序在维度、级别、成员、计算度量和类似的对象进行导航。第:个对象组提供了 对于各处的m d x 查询返回数据的处理,同时还支持多维返回集合以及对个别单元的格 式化。 2 4 2m i c r o s o f ta n a l y s i ss e r v i c e s 介绍 a n a l y s i ss e i c e s 是微软s q l s e r v e r 2 0 0 0 中一整套的决策支持引擎和工具,是o l a p s e r v i c e s 和数据挖掘功能的总称1 2 2 1 。a n a l y s i ss e r v i c e s 分析服务的访问是通过图形用户 界面工具,并且通过与微软管理控制台接口运行的。 微软的a n a l y s i ss e r v i c e s 是基于客户一服务器结构的,其体系结构如图2 2 所示, t 要包括a n a l y s i ss e r v i c e s 服务器和客户端的数据透视表服务。 江苏大学硕士学位论文 图22a n a l y s i ss e r v i c o s 体系结构图 1 a n a l y s i ss e r v i c e s 服务器端 a n a l y s i ss e r v i c e s 服务器端的核心部件是a n a l y s i s 服务器,安装a n a l y s i ss e r v i c e s 实际上就是安装a n a l y s i s 服务器。a n a l y s i s 服务器是分析多维数据、创建数据立方、 产生数据聚集和连接客户和数据源的主要部分。用户可以通过多种工具和技术来使用 它,其中包括: ( 1 ) a n a l y s i sm a n a g e r :管理a n a l y s i s 服务器、知识库和a n a l y s i sm a n a g e r 部件 的控制台。这是用户与a n a l y s i ss e r v i c e s 交互的主要图形工具。在这里,用户可以新 建o l a p 数据库或数掘挖掘模型、创建维度和数据立方体、编辑o l a p 数据库或立方 以及浏览立方体数据等。 ( 2 ) s q ls e r v e r 企业管理器:支持a n a l y s i s 服务器和s q ls e r v e r 的数据转换服 务( d t s ) 。可以在这里创建数据库或数据仓库,以及维护s q ls e r v e r 数据库的各方 面信息。 ( 3 ) 决策支持对象( d s o ) 库:支持编程访问a n a l y s i s 服务器。a n a l y s i ss e r v i c e s 提 供服务器功能以创建和管理o l a p 多维数据集及数据挖掘模型,并通过数据透视表服 务为客户端提供数据。 2 a n a l y s i ss e r v i c e s 客户端 客户端的核心是数据透视表服务( p i v o t t a b l es e r v i c e ,p t s ) ,它与a n a l y s i s 服务器 交互,并为访问服务器上o i j a p 数据的客,、端应用提供基于c o m 的接口,支持在客 江苏大学硕士学位论文 户端操作o l a p 数据。p t s 支持在线和离线数据分析和数据挖掘预测。p t s 对缓存的 管理使用户能从多维或关系型的数据源巾下载数据,保存在本地的数据立方和挖掘模型 中,进行本地分析。 江苏大学硕士学位论文 第3 章j m n e t e d w 架构设计 体系架构设计是一个系统的高层设计,一个系统的建设质量的好与坏,系统的架构 设讨好与坏起着关键性的作用。这就如同建房子,房子建设质量的好坏,房屋的架构设 计起着极其重要的作用。因此,构建数据仓库系统,也必然有一个良好的架构。 j m n e t e d w 架构是一个基于n e t 平台下的中小企业数据仓库分析系统架构。研究设 计这个架构的目的是为我国中小型企业提供一套数据仓库分析系统解决方案,弥补当前 流行的企业级数据仓库架构在中小型企业应用中在适应性、技术复杂性、灵活性、价格 17 的不足,降低企业信息化成本,提高企业决策的可靠性。 3 1 数据仓库架构 3 i 1 目前流行的数据仓库架构 首先介绍目前流行的企业级数据仓库架构样式。一般来讲,企业级数据仓库架构按 照层次划分,包括前端工具与应用层,分析模型服务器和数据存储与管理层。其中, 数据存储与管理层是本架构的核心,它包括元数据库、数据集市、中央数据仓库和专用 的e t l 数据抽取工具。其结构图3 1 所示: 图3 1 企业级数据仓库体系架构图 江苏大学硕士学位论文 从图3 1 中,我们可以看出,企业级数据仓库架构是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 吉林地区普通高中友好学校联合体2024-2025学年高二下学期期中地理试卷(含答案)
- 财务会计实习个人工作总结
- 广东省2024-2025学年八下英语期末模拟测试卷(二)(无答案)
- 幼儿园保育员培训课件2024鲜版
- 临床低T3综合征定义、流行病学、病理生理机制、治疗策略等诊治策略要点
- 日语语法题目解析及答案
- 日语动词变形题目及答案
- 2023-2024学年山东省东营市高二下学期期末质量监测数学试题(解析版)
- 环境系统工程课件
- 农村发展方向问题研究
- 岗位练兵中药专业前一百题测试(一)测试题
- 土地项目测算表_模板
- 中华传统文化教育学生学习能力评价量化表
- 服装色彩设计(PPT57页)课件
- DLT 596-2021 电力设备预防性试验规程
- 内分泌系统疾病病例分析
- 铝箔轧制油过滤技术
- 专项审计报告模板(青岛市高新技术企业认定专用)
- 成都市所有的药房.doc
- 基于BIM模型技术交底应用
- 产品设计和开发控制程序
评论
0/150
提交评论