(计算机软件与理论专业论文)基于数据仓库和olap的决策技术研究.pdf_第1页
(计算机软件与理论专业论文)基于数据仓库和olap的决策技术研究.pdf_第2页
(计算机软件与理论专业论文)基于数据仓库和olap的决策技术研究.pdf_第3页
(计算机软件与理论专业论文)基于数据仓库和olap的决策技术研究.pdf_第4页
(计算机软件与理论专业论文)基于数据仓库和olap的决策技术研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机软件与理论专业论文)基于数据仓库和olap的决策技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分类号: u d c : 密级: 编号: 基于数据仓库和0 l a p 的决策技术研究 b a s e do nd a t aw a r e h o u s ea n do l a p d e c i s i o n m a k i n gt e c h n o i o g y 学位授予单位及代码:益壹堡王盍堂( ! q ! 竖2 学科专业名称及代码:吐簋扭筮往皇理逾i 鳗1 2 q 2 指导教师:奎蕴熬援 论文起止时间: 2 0 0 7 11 - 2 0 0 8 1 2 申请学位级别:亟 研究生:堂态馕 摘要 随着计算机和自动数据收集工具的应用,大量的数据已经被持续地收集和存储在数 据库中,由此产生了从大量数据库中挖掘令人关注的信息的巨大需求。关联规则是一 种从大量数据仓库中发现强关联或内在联系的数据挖掘技术,发现的规则可帮助进行 市场或销代分析,决策支持和企业管理。 关联规则的一个经典算法为a p d o r i 算法。但随着数据库规模的不断扩大,该算法 显示出了缺点。a p r i o r i 算法是一个逐层迭代和候选产生一检测算法。计算每一个候选 项的计数将占用大量c p u 计算时间。 在本文中,提出一种关联规则挖掘方法,即基于联机分析处理( o l a p ) 技术与关联 规则挖掘算法,这种算法把当前普遍应用的联机分析处理技术和关联规则挖掘a p r i o r i 算法综合起来。这种算法已在超市智能决策分析工具软件d b m i n e r 系统中实现。研究 数据显示这种基于联机分析处理的关联规则挖掘算法对比原有的算法在稳定性和运算 效率上具有优。 关键词:联机分析处理数据挖掘数据仓库关联规则挖掘a p r i o r i 算法 a b s t r a c t w i t hw i d ea p p l i c a t i o n so fc o m p u t e r sa n da u t o m a t e dd a t ac o h e c t i o nt o o l s m a s s i v e a m o u n t so fd a t ah a v eb e e nc o n t i n u o u s l yc o l l e c t e da n ds t o r e di nd a t a b a s e s ,w h i c hc r e a t e sa n h n m i n e n tn e e da n dg r e a t o p p o r t u n i t i e sf o rm i n i n gi n t e r e s t i n g k n o w l e d g ef r o md a t a a s s o c i a t i o nr u l em i n i n gi so n ek i n do fd a t a m i n i n gt e c h n i q u e sw h i c hd i s c o v e r ss t r o n g a s s o c i a t i o no rc o r r e l a t i o nr e l a t i o n s h i p sa m o n gd a t a t h ed i s c o v e r e dr u l e sm a y h e l pm a r k e t b a s k e to rc r o s s 。s a l e sa n a l y s i s ,d e c i s i o nm a k i n g a n db u s i n e s s m a n a g e m e n t a p r i o r ia l g o r i t h mi sac l a s s i sa l g o r i t h mo fa s s o c i a t i o nr u l e sm i n i n g , b u ta l o n gw i t ht h e s c a l ei n c r e a s i n go ft h ed a t a b a s e ,i th a v ed i s a d v a n t a g e s a p r i o r ig e t sc a n d i d a t ei t e m s e t s ,a n d t h e nd e l e t eu n - f r e q u e n ti t e m s e t s t a k ec o u n to f e v e r yc a n d i d a t ei t e m s e tw i l lu s em u e l lc p u t i m e i nt h i st h e s i s w eh a v eac o n c e r na s s o c i a t i o nr u l e m i n i n gm e t h o d ,t h a ti s ,b a s e d0 n 0 n l i n ea n a l y t i c a lp r o c e s s i n g ( o l 钾) t e c h n o l o g ya n da s s o c i a t i o nr u l em i n i n ga l g o r i t h mh a s b e e nw i d e l ya p p l i e dt ot h ec u r r e n to n l i n ea n a l y t i c a lp r o c e s s i n g ( o l a p ) t e c h n o l o g i e sa n d a s s o c i a t i o nr u l e m i n i n ga l g o r i t h ma p r i o r it o g e t h e r t h i sa l g o r i t h mh a sb e e ni n t h e s u p e r m a r k e ti n t e l l i g e n c ed e c i s i o n m a k i n gs o f t w a r e a n a l y s i st o o l st oa c h i e v ed b m i n e r s y s t e m o u rr e s e a r c hs h o w st h a tt h eo l a pb a s e da s s o c i a t i o nr u l e m i n i n ga l g o r i t h m c o m p 撕s o no ft h eo r i g i n a la l g o r i t h mi nt h es t a b i l i t ya n de f f i c i e n c yo ft h eo p e r a t i o nh a s e x c e l l e n t k e y w o r d :o l a pd a t am i n i n gd a t aw a r e h o u s e a s s o c i a t i o nr u l em i n i n g a p r i o r i a l g o r i t h m 长春理工大学硕士学位论文原创性声明 本人郑重声明:所呈交的硕士学位论文,基于数据仓库和o l a p 的决策技术研究 是本人在指导教师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用 的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文 的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本 声明的法律结果由本人承担。 作者签名:篷;盘鱼 年 月一日 长春理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“长春理工大学硕士、博士学位论文版权使 用规定,同意长春理工大学保留并向中国科学信息研究所、中国优秀博硕士学位论文 全文数据库和c n k i 系列数据库及其它国家有关部门或机构送交学位论文的复印件和电 子版,允许论文被查阅和借阅。本人授权长春理工大学可以将本学位论文的全部或部 分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编 学位论文。 作者签名:涵丝 年一月一日 指导导师签名: 年一月一日 1 1 研究的目的和意义 第一章绪论 1 1 1 研究的目的 数据仓库和o l a p 是2 0 世纪9 0 时年代中期就已经形成潮流。数据仓库是市场激 烈竞争的产物,它的目标是达到有效的决策支持。大型企业几乎都建立了自己的数据 仓库,而数据库厂商也都陆续推出了自己的数据仓库软件。目前,建立和使用的数据 仓库应用系统都取得了很好的经济效益。数据仓库组织和管理数据的方法与普通数据 库不同。主要表现在三个方面:它依据决策要求,只从数据库中抽取那些需要的数据, 并进行一定的处理;数据仓库是多维的,即数据仓库的数据的组织方式有多层的行和 列;支持决策处理,不同于普通的事务处理。数据仓库技术在近几年蓬勃发展起来不 少厂商都推出了他们的数据仓库产品,同时也推出了一些分析工具。仅仅拥有数据仓 库是不够的,在其上应用各种工具进行分析,才能使数据仓库真正发挥作用。联机分 析处理( o l a p ) 和数据挖掘( d a t am i n i n g ,d m ) 就是这样的分析工具。 数据仓库将大量用于事务处理的传统数据库数据进行清理、抽取、转换,并按决策 主题的需要进行重新组织。这种高度集中的数据为各种不同的决策需要提供了有用的 分析基础。随着数据仓库的发展,o l a p 也得到了迅速的发展。数据仓库侧重于存储 和管理面向决策主题的数据,而o l a p 侧重于数据仓库中的数据分析,并将其转换成 辅助的决策信息。o l a p 的一个重要特点是多维数据分析,与数据仓库的多维数据组 织形成相互结合、相互补充的关系。o l a p 技术中比较典型的应用是对多维数据的切 片和切块、钻取、旋转等,它便于使用者从不同角度提取有关数据。o l a p 技术还能 够利用分析过程对数据进行深入分析和加工,从而有利于企业对产品等的决策。以数 据仓库和o l a p 相结合建立的辅助决策系统是决策支持系统的新形式。数据仓库技术 包括数据清理、数据集成和联机分析处理。数据库技术的进步使得数据的收集和存储 变得越来越容易,但数据规模的爆炸性增长,远远超出了人们的处理和理解能力。使 用传统的方法己经不能从数据中发现其所隐含的知识。数据挖掘( d a t am i n i n g ,d m ) 就 是从大量的数据中发现和提取有用知识的过程,数据挖掘能够发现未知的知识,区别 于那些先提出假设再进行验证的数据处理方法。数据挖掘正在日益得到各界的重视并 广泛应用于各个领域。 1 1 2 研究的意义 决策支持系统可以广义地作为一个包罗万象的术语,用来描述任何在组织中支持决 策制定的计算机化系统。而对于企业来讲,每一个不同的企业可以根据自己的情况实 施不同的决策支持系统( d s s ) 应用,但其主要应用可以分为以下几点:销售支持、 客户分析和市场研究、财务分析、运筹和战略计划、企业分析等。 1 2 决策支持系统国内外发展状况 1 2 1 国内的发展状况 数据库系统i l j 作为一门学科,主要的研究是数据库理论、数据库模型、数据的查询 以及数据优化技术、数据安全和事务处理等等。数据库系统作为数据管理手段,从它 诞生开始,就主要用于事务处理。经过几十年的发展,在这些数据库中己经保存了大 量的日常业务数据。传统的业务系统一般直接建立在这种事务处理环境上,它以数据 库为中心,从事事务处理、批处理和部分相对简单的决策分析等数据处理工作。随着 计算机技术的进步,人们试图让计算机担任更多的工作,希望计算机更多地参与数据 分析与决策制定领域,实现商业智能;而数据库技术也一直力图使自己能胜任从事务 处理、批处理到复杂的决策分析处理等各种类型的信息处理任务。然而人们逐渐认识 到,事务处理和分析处理具有不同的特征,事务处理系统无法解决和分析处理系统必 须解决的数据集成、动态集成、历史数据和数据综合等问题,直接利用事务处理环境 来支持决策制定是行不通的。要提高分析和决策的效率性和有效性,分析型处理及其 数据必须与操作型处理及其数据相分离。必须把分析型数据从事务处理环境中提取出 来,按照d s s ( d e c i s i o ns u p p o r ts y s t e m ,决策支持系统) 1 2 j 处理的需要进行重新组织,建 立单独的分析处理环境。数据仓库正是为了构建这种新的分析处理环境而出现的一种 数据存储和组织技术。 数据仓库是近年来发展的一种数据库应用,作为d s s 数据仓库系统包括:数据仓 库技术、联机分析处理技术、数据挖掘技术。例如,通过联机分析处理技术进行数据 分析和利用数据挖掘技术的相关算法( a p r i o r i 算法等) 以及它们的优化算法来进行数 据分析和处理等等。各大数据库厂商都宣布了自己的产品支持的数据仓库,并提出了 一整套用以建立和使用数据仓库的方案。例如,s y b a s e 公司【3 】等。这些发展引起了学 术界的极大兴趣。国际上许多重要的学术会议都出现了专门研究数据仓库、o l a p 、数 据挖掘的论文。数据仓库1 4 】虽然在2 0 世纪9 0 年代发展起来的,但是它的发展非常迅速, 特别是i n t e m e t 的发展,为数据仓库的发展提供了数据跑道。我国的数据库应用也有 2 0 多年的发展,数据的积累和沉淀为数据仓库的发展提供了很好的数据平台,如邮政 行业引入数据仓库进行基本业务分析,铁道部门引入数据仓库进行客流分析,零售业 通过数据仓库进行产品管理分析等。 1 2 2 国外的发展状况 八十年代软科学的兴起,促进了d s s 的研究。软科学的根本任务是为领导决策服务, 2 为各级各类决策提供科学依据。在软科学的研究中,“发展规划 和“前景预测”在我 国取得了明显效果。数据据库技术在经过上个世纪八十年代的辉煌之后,已经在各行 各业中成为一种文化和时尚,数据库界除了了关注万维网数据库、分布式数据库、面 向对象数据库以及查询优化和并行处理技术外,也正在向更深层发展。“在一切失误中, 决策的失误是最大的失误”1 5 j 已经成为了人们的共识。在这样的条件下,d s s 在国内 外得到了很大的发展。自d s s 开发以来,与它的理论研究相比,实际应用工作丌展的 更早,它广泛用于企业管理、系统开发、经济分析与规划、战略研究、资源管理、投 资规划等方面,支持各类决策问题的决策支持系统大量出现并投入使用。在国外,特 别是工业发达的西方国家,d s s 已经进行实际应用,成为一种普遍使用的信息系统。 成功应用的例子大量出现,其软件和硬件已经商品化和通用化。据有关资料统计,国 外开发的d s s ,有2 乃是成功或部分成功的,主要支持企业管理决策活动,不同程度 地改善了决策者和信息决策工作人员的素质和行为,为各级主管决策提供了科学的依 据。但有1 3 的d s s 是失败的,究其原因有两方面【2 4 】:一方面是d s s 的开发者对主要 决策者的决策风格不了解,系统功能与决策者的信息需求不匹配;另一方面,过于强 调模型的作用,复杂的模型和计算使决策者难以理解和接受。再加上软硬件技术上的 困难,导致开发费用大、时间长,使系统的适应性受到限制。虽然d s s 的开发和应用 还存在很多不尽如人意的地方,也不乏失败的例子,但是从其出现至今,还是得到了 广泛的推广和使用。据美国一家调研机构的调查表明,2 0 世纪术3 4 的美国公司中有 2 0 的员工使用决策技术,1 3 的公司中有6 0 的员工使用决策工具,8 6 的人认为企 业对决策技术的投资将会增加。国外电信运营商数据仓库的建设起始于2 0 世纪9 0 年 代中后期,如a t & t w i r e l e s s ,从1 9 9 7 年夏天开始建设数据仓库,一直到2 0 0 1 年8 月才完成。 总之,d s s 是一个融计算机技术、信息技术、人工智能、管理科学、决策科学、 心理学、行为科学和组织理论等学科与技术于一体的技术集成系统。随着其它学科的 不断进步,d s s 作为新的交叉学科,将会随着其它技术的迅速发展而产生突破性的进 展。 1 3 研究的内容 研究数据仓库和o l a p 的决策技术,主要是d s s 利用建立的数据仓库中的数据进 行数据分析和统计的,在利用o l a p 工具对数据仓库中分析出来的结果进行再次分 析那么就会从新得到一组新的基于o l a p 工具分析的结果,也就为管理者提供更可 靠的数据分析结果。本文主要完成以下几方面的研究工作: 1 数据准备、数据清理、数据变换、数据约简和数据集成,然后将数据载入,建 3 立多维数据仓库。在建立数据仓库过程中要消除数据冗余,以达到后期对数据进行分 析的要求,提高数据的可信度和可行性。建立数据仓库采用s q ls e v e r2 0 0 0 服务器。 2 面向要进行数据挖掘的数据仓库中的数据进行数据整理并通过决策支持系统 ( d s s ) 的决策支持技术o l a p 的分片、旋转、上钻取、下钻取等技术进行数据分析 并将结果存放在适当的数据立方体中。 3 研究和编写数据挖掘技术的相关联规则和o l a p 技术相结合的集成化模型,集 成模型的核心技术是c u b ed m 算法,是结合a p r i o r i 算法而给出的一种集成化算法。 4 利用超市销售数据通过集成化模型对存放在数据立方体中的数据进行数据分析, 以达到理想的数据分析结果。通过由c u b ed m 算法建立的挖掘模型和决策分析工具软 件d b m i n e r 进行挖掘时间对比来发现该模型的挖掘效果。 1 4 本文的组织结构 全文共分为六章,各章节的内容安排如下: 第一章介绍研究的目的和意义,研究的内容,并简要介绍现阶段国内外发展状况。 第二章介绍决策支持系统的概念和原理,详细介绍决策支持系统与管理系统的区别 和决策支持系统的体系结构。 第三章是数据仓库与o l a p 技术概论,详细介绍数据仓库的一些概念。其中,主 要包括数据仓库的来历,数据仓库数据的组织及形式,数据仓库的关键技术和工具以 及o l a p 相关技术等。 第四章介绍了数据挖掘的概念、基本知识以及数据挖掘的过程。关联规则的定义给 予了详细的描述,介绍了关联规则的种类,详细总结了经典关联规则挖掘算法a p r i o r i 算法的基本性质,分析了该算法的性能和特点,给出了对a p r i o r i 算法的一些改进算法。 第五章介绍关联规则挖掘以及联机分析关联规则挖掘模型,并且结合第四章的 a p r i o r i 算法实现c u b e m d 算法,建立集成化模型,采用超市销售数据,通过与d b m i n e r 进行实验比较来验证该集成化模型。 第六章是总结与展望,对论文的研究工作进行简单总结,并以此为基础提出进一步 工作的展望。 4 第二章决策支持系统概念与原理 2 1 决策支持系统的基本概念 决策支持系统( d s s ) 1 2 j 这一术语自7 0 年代提出来以后,它所包含的意义和研究内容 日臻深刻和广泛,己经吸引了众多的研究人员从事这方面的研究。d s s 的领域专家们 也就d s s 的一些基本的概念与实质有了初步的共识。 目前学术界普遍能接受这样一种观点,就是把决策问题按照“结构化程度 这一概 念来描述和划分,由此可把管理决策问题分为三种类型,即结构化决策、半结构化决 策和非结构化决策。所谓结构化程度,是指对某一过程的环境和规律,能否用明确的 语言( 数学的或逻辑的,形式的或非形式的,定量的或推理的) 给予清晰的说明或描 述。 结构化问题是常规和完全可重复的,每一个问题只有一个求解方法。所以可以认为 结构化决策可以利用或可以建立相应的模型产生决策方案,并且可以从这些方案中得 到最优( 或近似最优) 的解。非结构化问题不具备己知求解方法和存在若干求解方法而得 到的答案不一致,难于编制程序来实现。所以非结构化的决策方案不可能通过建立适 当的模型而得到。半结构化问题处于结构化问题和非结构化问题之间,兼有两者的特 点,一方面它可以通过编制程序来进行定量分析和计算;另一方面它还要依靠人的知 识、经验和直觉来判断和选择。半结构化问题是d s s 发展的基础,d s s 所解决的决策 问题大多是这一类型。半结构化决策的决策方案也可以通过建立适当的模型得到,但 不可能从这些方案中得到最佳方案。 管理信息系统( m i s ) 多数用于解决结构化问题,而决策支持系统则是辅助半结构化 或非结构化决策过程为特征的计算机决策系统。也就是说,d s s 能为决策人员提供一 个分析问题、构造模型和模拟决策过程以及效果的决策系统。g i n z b e r g l 9 】给出了d s s 的定义:d s s 是一个用来支持决策行为的,以计算机为基础的信息系统,用在不可能 或不要求使用自动系统处理整个决策问题的场合。很多文献中对d s s 是这样定义:凡 是能对决策提供支持的计算机系统,这个系统充分运用可供利用的、合适的计算机技 术,针对结构化或半结构化问题,通过人机交互方式帮助和改善管理决策制定的有效 性的系统。但是,任何一个对d s s 进行的定义都不能说是完善,因为d s s 没有标准模 式或标准规范,凡是能达到决策支持这一目标的所有技术都可以用于构造d s s 。所以, 对这样一个尚未成熟的领域,人们放弃了对其定义的争论,而是从d s s 的基本特征这 角度来对其进行阐述。d s s 的主要特点有如下几方面【6 j : 1 系统的使用面向决策者,在运用d s s 的过程中,参与者都是决策者。 s 2 系统解决的问题是针对半结构化的决策问题,模型和方法的使用是确定的,但是 决策者对问题的理解存在差异,系统的使用有特定的环境,问题的条件也不确定和唯 一,这使得决策结果具有不确定性。 3 系统强凋的是支持的概念,帮助加强决策者做出科学决策的能力。 4 系统的驱动力来自模型和用户,人是系统运行的发起者,模型是系统完成各环节 转换的核心。 5 系统运行强调交互式的处理方式,一个问题的决策要经过反复的、大量的、经常 的人机对话,人的因素如偏好、主观判断、能力、经验、价值观等对系统的决策结果 有重要的影响。 2 2 决策支持系统与管理信息系统的区别 决策支持系统是从m i s 6 】的基础上发展起来的,都是以数据库系统为基础,都需要 进行数据处理,也都能在不同程度上为用户提供辅助决策信息。因此,就有人会对这 两个概念有所混淆,认为d s s 不过是较完善的m i s 而已,这是一个误区。实际上,决 策支持系统和管理信息系统是有很大的区别的。具体表现在: 1 m i s 是面向中层管理人员,为管理服务的系统;d s s 是面向高层人员,为辅助 决策服务的系统。 2 m i s 按事务功能( 生产,销售,人事) 综合多个事务处理;d s s 是通过模型、特 别是多个模型的组合计算的结果辅助决策。 3 m i s 是以数据库系统为基础,以数据驱动的系统;d s s 是以模型库系统为基础 的,以模型驱动的系统。 4 m i s 分析着重于系统的总体信息的需求,输出报表模式是固定的;d s s 分析着 重于决策者的需求,输出数据的模式是变化的。 5 m i s 系统追求的是效率,即快速查询和产生报表;d s s 追求的是有效性,即决 策的正确性。 2 3 决策支持系统的体系结构 经过多年的发展,d s s 形成了如图2 1 所示的体系结构。从图中可以看到传统决策 支持系统一般由以下四个基本部件组成【2 l : 1 人机交互系统:是人机进行交互的窗口。它负责接收和检验用户的请求,协调 数据库系统、模型库系统和方法库系统之间的通信,为决策者提供信息收集、问题识 别以及模型构造、使用、改进、分析和计算等功能。人机接口应友好和具有较强的灵 6 活性及适应性。 2 数据库系统t 包括数据库和数据库管理系统,负责管理和存储与决策问题领域 有关的数据。该系统应包括以下功能1 4 7 】:数据抽取、查询处理、数据库及其管理等部 分。其中数据抽取部分包括外部数据的输入,内部数据的抽取,以形成d s s 数据库; 查询处理部分主要是将从模型、对话子系统转来的数据请求形成相应的操作序列,并 将结果返回到相应的系统;数据库管理承担一般的数据库管理系统的工作。 数据仓库系统反映了决策支持系统的基本特点,即所有决策层次都基于数据集的存 取。 图2 1 传统的决策支持系统结构 3 模型库系统:包括模型库和模型库管理系统。它能够有效地完成对模型数据仓 库、o l a p 和数据挖掘技术研究及其在d s s 中的应用的存储、修改、查询、调用及模 型之间的相互组合。同时模型库和数据库之间能相连,使用的数据统一存放在数据库 中。 决策支持系统主要是以模型库系统为主体,通过定量分析进行辅助决策。其模型库 中的模型己经由数学模型扩大到数据处理模型、图形模型等多种形式,可以概括为广 义模型。所以,可以说决策支持系统的本质是将多个广义模型有机组合起来,对数据 库中的数据进行处理而形成决策问题大模型。决策支持系统的辅助决策能力已经从运 筹学、管理科学的单模型辅助决策发展到多模型综合决策,它使d s s 迈上了一个新台 阶。 4 方法库系统:包括方法库和方法库管理系统。方法库由基本方法和标准算法组 成,为模型提供基本模块和程序;方法库管理系统实现对方法库的有效管理,包括对 库中元素进行有效的组织和存储、修改( 增加、删除和更新) 以及查询和安全保密。 7 第三章数据仓库与o l a p 相关技术 3 1 数据仓库的基本概念 3 1 1 数据仓库的产生 随着计算机技术的飞速发展和企业界不断提出新的需要,数据仓库技术应运而生。 传统数据库技术是以单一的数据资源,即以数据库为中心,进行从事务处理、批处理 到决策分析等各种类型的数据处理工作。然而,不同类型的数据处理有着不同的处理 特点,单一的数据组织方式进行组织的数据库并不能反映这种差异,满足不了数据处 理多样化的要求。 近年来,随着计算机的应用,人们对数据处理的这种多层次特点有了更清晰的认 识。当前的数据处理可以大致地划分为两大类:操作型处理和分析型处理。操作型处 理也叫事务处理,是指对数据库联机的同常操作,通常是对一个或一组记录的查询和 修改,主要是为企业特定应用服务的。人们关心的是响应时间,数据的安全性和完整 性。分析型处理也叫信息型处理,则用于管理人员的决策分析。两者之间的巨大差异 使得操作型处理和分析型处理的分离成为必然。这种分离划清了数据处理的操作型环 境与分析型环境之间的界限,从而由原来的以单一数据库为中心的数据环境发展为一 种新环境一数据仓库体系化环境。操作型数据和分析型数据之间的区别【”j 如表3 1 所 示。 表3 一l 操作型数据与分析型数据的比较 操作型数据分析型数据 细节的综合的或是提炼的 在存取瞬间是准确的代表过去的数据 可更新的一般不可更新,只追加 一个时刻操作一个单元一个时刻操作一个集合 面向事务面向分析 一次操作数据量小一次操作数据量大 支持日常操作支持决策需求 从表3 1 中可以清楚地看到,操作型数据与适合于d s s 应用的分析型数据之间的 差别很大。操操作型数据据分析型数据细节的综合的或是提炼的在存取瞬间是准确的 的代表过去的数据可更新的的一般不更新、只追加一个时刻操作一个单元一个时刻操 作一个集合面向事务务面向分析一次操作数据量小一次操作数据量大支持日常操作支 持决策需求,表3 - 1 操作型数据与分析型数据的比较数据库系统作为数据管理手段, 8 主要用于操作型处理,在这些数据库中己经保存了大量的日常业务数据。传统的d s s 一般是直接建立在这种事务处理环境上的。数据库技术一直力图使自己能胜任从事务 处理、批处理到分析处理的各种类型。 3 1 2 数据仓库的定义i 7 j 在数据仓库的发展过程中,许多人对此做出了贡献。其中,d v e l n i 和m u r p h y 在1 9 8 8 年发表了一篇关于数据仓库论述的最早文章,而直到1 9 9 3 年,号称“数据仓库之父” 的w i l l i a mh i n m o n 在其论著( ( b u i l d i n gt h ed a t aw a r e h o u s e ) ) 一书中,首次系统地阐 述了数据仓库的思想和相关理论,为数据仓库的发展奠定了基石。他将数据仓库定义 为:“一个面向主题的、集成的、不可更新的、随时间变化的数据集合,用于支持管理 决策“。与传统的事物处理系统有不同的是,数据仓库是一种过程,它是对分布在组织 或企业内部各处的业务数据进行整合、加工和分析的过程。而不是一种可以购买的产 品。 通过这个定义可以看出对数据仓库定义有四个主要特型5 】:面向主题、集成的、不 可更新、随时间变化、稳定的支持管理决策的制定过程。 1 数据面向主题。面向主题的数据组织方式是在较高层次上对分析对象的数据的 一个完整、一致的描述、能完整统一的刻画各个分析对象所涉及的企业的各项数据以 及数据之间的联系。就目前而言,数据仓库仍是采用关系数据库技术来实现的,即数 据仓库的数据最终也表示为关系。 面向主题的数据组织方式是根据分析要求将数据组织成一个完备的分析领域,即主 题域。主题域应该具有独立性、完备性。主题是一个在较高层次上对数据的抽象,使 得面向主题的数据组织可以独立于数据的处理逻辑,可以在这种数据环境上方便地开 发新的分析型应用。 2 数据仓库的数据是集成的。数据仓库的数据是从原有的分散的数据库数据抽取 来的。数据仓库中数据来自多个外部应用系统或本系统中不同的使用部门,数据的组 织结构会有所不同,因此,需要对来自多个数据源的数据进行集成,这样的集成并不 是对这些数据源中数据的简单归并与拷贝,而是要经过统一与综合。经过必要的转换 以最合适使用的方式存储起来,支持联机分析处理。其中:统一指消除数据表示不一 致的现象;综合指按照数据分析的需求,对原有数据按某种属性进行综合和计算。 3 数据仓库的数据是不可更新。数据仓库中的数据主要供企业决策分析之用,执 行的主要是查询操作,一般情况下不执行修改操作。但这也不等于数据仓库中的数据 不需要更新操作。在需要进行新的分析决策时,可能需要进行更新操作,而数据仓库 中的一些过时的数据,也可以通过删除操作丢弃掉,这些对数据仓库的修改和重组是 不允许最终用户参与的,由数据仓库管理员定期后台实现。因此数据仓库的存储管理 相对于数据库管理系统来说要简单得多。 9 4 随时问变化的。在用户进行分析处理时不执行更新操作,但也不等于数据仓库 中的数据从集成生成开始到最终被删除都永远不变,而是要随时间的变化不断变化的。 数据仓库的目的是要建立一种体系化的数据存储环境。将分析决策所需的大量数据 从传统的操作环境中分离出来,使分散的、不一致的操作数据转换成集成的、统一的 信息。企业内不同单位的成员都可以在此单一的环境之下,通过运用其中的数据与信 息,发现全新的视野和新的问题、新的分析与想法,进而发展出制度化的决策系统, 并获取更多经营效益。 3 1 3 数据仓库的形式 1 数据仓库的发展形成了目前的两种形式f 2 l 】: ( 1 ) 操作性数据存储( o p e r a t i o n a ld a t as t o r e ,o d s ) 。o d s 将o l t p 数据库进行复制, 并将不适合的字段或者数据进行调整和修正,根据企业的需要,o d s 要每月,每周或 更短的时间进行数据更新。 ( 2 ) 数据仓库的数据集市( d a t am a r k e t ) 。数据集市是支持某一部门或特定商业需求的 d s s 应用的数据集合。数据集市中的数据仍具有数据仓库中数据的特点。只不过数据 集市中的数据是专为某一部门或某个特定商业需求所定制的。数据集市的结构和数据 仓库类似。一般认为数据集市中的数据来自数据仓库。数据集市的信息来自单一的部 门或同常工作的处理事项,作特殊的销售分析或生产分析。 2 元数据( m e t a d a t a ) 。 元数据是关于数据的数据,即描述数据的数据。有了元数据就等于拥有了数据仓库 的一张蓝图。元数据最显著的作用就是它类似于现实生活中的地图,能指引用户在多 达几百g b 的数据仓库的数据海洋中找到自己所需要的数据,帮助用户更好地理解数 据仓库中的数据。元数据可以帮助数据仓库管理员更好地管理仓库中的数据,例如数 据仓库管理员可以利用元数据追踪非法的数据处理到它的数据源,并可进行深入调查。 用户可以利用元数据找到所需的事实,这些事实可帮助用户来支持他们的决策、验证 通过分析工具得出的结论的是否正确,以及找出他们的结论与其他部门的结论的不同 的原因。 3 1 4 数据仓库的实现策略 随着数据仓库技术的发展,如今数据仓库的实现策略已从原先的“自顶向下”模式 ( t h et o pd o w nm o d e l ) 发展到了以下三种模式1 4 6 j : 1 “自顶向下 模式 “自顶向下 的丌发策略( 如图3 1 ) 是指从原来分散存储在企业各处的o l t p 数 据库中的有用数据通过提取( e x t r a c t i o n ) 、清洁( c l e a n ) 、转换( t r a n s f o r m a t i o n ) 、聚集 ( a g g r e g a t i o n ) 等处理步骤建立一个全局性数据仓库。这个全局的数据仓库将提供给用户 一个一致的数据格式,一致的软件环境。从理论上说,决策支持所需的数据都应该包 1 0 含在这个全局数据库中。数据集市中存储的数据是为某个部门的d s s 应用而专门从全 局数据仓库中提取的,它是全局数据仓库中数据的一个子集。在“自顶向下”模式中, 数据集市和数据仓库的关系是单方向的,即数据从数据仓库流向数据集市。 o l a p 源数据库 图3 1 “自顶向下”模式 2 “自底向上”模式 “自底向上”模式( 如图3 2 ) 是从建立各个部门或特定的商业问题的数据集市开 始,全局性数据仓库是建立在这些数据集市的基础上。“自底向上 模式的特点是初期 投资少,见效快。因为它在建立部门数据集市时只需要较少的人做出决策,解决的是 较小的商业问题。“自底向上”的开发模式可以使一个单位在数据仓库发展初期尽可能 少的花费资金,也可以在做出有效的投入之前评估技术的收益情况。 o l a p 源数据 图3 2 “自底向上”模式 3 “平行开发”模式 “平行丌发”模式( 如图3 3 ) 是指在一个全局性数据仓库的数据模型的指导下数据 集市的建立和全局性数据仓库的建立同时进行。在“平行开发模式中由于数据集市 的建立是在一个统一的全局数据模型的指导下进行的,可避免各部门在开发各自的数 据集市时的盲目性,减少各数据集市之间的数据冗余和不一致。事实上,一些部门在 建立数据集市的过程中所遇到问题及其解决方案、所获得的经验将导致全局性数据仓 库的数据模型做出相应的改变,这些变化将使其它部门在建立数据集市时受益,也有 1 1 助于全局性数据仓库的建设。在“平行开发”模式中数据集市的这种相对独立性有利 于全局性数据库的建设。一旦全局性数据仓库建立好后,各部门的数据集市将成为全 局数据仓库的一个子集,全局数据仓库将负责为各部门己建成和即将要建的数据集市 提供数据。 o l a p 数据源 o l a p 数据源 图3 3 “平行开发”模式 “平行开发 与“自顶向下”模式的区别在于它满足了企业中的各个部门希望在较 短时间内建立本部门的决策支持系统的要求,使他们不用等待全局性数据仓库建立好 之后才建立属于自己的数据集市。同时它改变了在“自顶向下 模式中,部门数据集 市在与全局性数据仓库关系中的附属性地位,在建立数据集市过程中所获得的经验将 有助于对全局性数据仓库的数据模型的优化和全局性数据仓库的建设。 “平行开发 与“自底向上”模式的区别在于,它用一个统一的全局性数据仓库的 数据模型来指导各部门数据集市的建设,可以解决数据集市之间数据的不一致和减少 数据集市之间的数据冗余问题。 “自项向下 、“自底向上”、“平行开发”这三种模式都没有考虑如何将用户的反馈 信息不断地反应到数据集市和数据仓库的建设中。这三种模式都只在建设数据集市或 数据仓库的过程中考虑用户的需求。但是用户的需求不是静止的而是随着新技术和新 应用的出现而不断变化的。用户的需求变化不仅局限于要求更快速的硬件、更好的数 据挖掘技术,性能更高的数据库软件,更友好的图形用户界面还包括所需信息内容的 变化,以及所需数据的变化,这将导致在数据仓库或数据集市中必须加入某些新的属 性、新的表或重组已存在的表、属性。 3 1 5 数据仓库的概念模型 数据仓库1 4 5 1 和数据库及其他技术之间的关系就像体系结构与技术本身之间的关 系。数据仓席的概念结构包含:数据源、数据准备区、数据仓库数据库、数据集市、 知识挖掘库以及各种管理工具和应用工具等,如图3 4 所示。 数据 1 、一。、 业务数 ) 集市 , 应用工具 、心产, rr 玄然b 数 据 知识 删j 数据源 据 仓 挖掘 r 7 外部l 准 j l 库 备 数 数据源 j 据 ,数据 j l八,、 集市 j 高田t 目 亨弛j 知识 jl i “。_ l ” 挖掘 管理工具 图3 4 数据仓库的概念模型 从图3 4 可以看出,数据仓库的创建、应用,可以利用各种数据仓库管理工具辅助 完成。数据仓库建立之后,首先要从“数据源”中抽取相关的数据到“数据准备区 ; 在“数据准备区中经过净化处理后,再加载到“数据仓库数据库”;最后根据用户的 需求将数据导入“数据集市 或“知识挖掘库 中。用户在使用数据仓库时,主要利 用两类应用工具:一类是联机分析处j 望( o n l i n ea n a l y s t i c a lp r o c e s s i n g ) ,主要用于分析 历史发展变化;另一类是数据挖掘( d a t am i n i n g ) ,主要用于预测未来趋势走向。 3 1 6 数据仓库的实施 数据仓库的实施h 司分为数据获取、数据组织、数据应用和数据展示四个功能区。 1 数据获取区 数据获取区主要包含数据源、数据转换区、数据质量管理三个组成部分,实现数据 仓库模型建设、数据质量管理、数据源的定义、数据抽取、转换清洗及加载等功能。 ( 1 ) 数据源,即数据仓库中的数据来源,既包含组织内部的业务数据、历史数据、 办公数据等,也包括互联网卜的相关w e b 数据,以及部分其他数据结构的数据。 ( 2 ) 数据转换区( e t l ) ,由于数据仓库的数据来源十分复杂,这些数据在进入数据仓 库之前必须在数据转换区内进行预处理,完成数据获取、数据转换、数据加载等工作, 并实现数据质量跟踪监控以及元数据抽取与创建等工作。 ( 3 ) 数据质量管理,数据仓库的数据质量不但影响数据抽取转换的开发周期和日常 维护,并且还直接影响到最终结果。因此在数据仓库的项目中,将数据质量的评估、 管理和清洗设计进去,并融合在数据仓库和e t l 的建设过程中。 1 3 2 数据组织区和数据应用区 数据组织区和数据应用区主要实现数据的存储与管理。数据仓库的数据组织管理方 式决定了其有别于传统数据库的特性,也决定了对外的数据表现形式。主要技术涉及 多维数据库、海量数据管理、数据索引与监视、数据质量管理、元数据管理等方面数 据组织区包含了数据仓库建模,以及数据的集成与分解、概括与聚集、预算与推导、 翻译与格式化、转换与映像等功能。元数据管理主要包含了元数据游览与导航,元数 据创建,创建词汇表等功能。 3 数据展示区 数据展示区是数据仓库的人机会话接口,包含了多维分析、数理统计、报表查询、 即席查询、关键绩效指标监控和数据挖掘等功能,并通过报表、图形和其它分析工具, 方便用户简便、快捷地访问数据仓库系统中的各种数据,得到分析结果。数据展示区 常用的标准报表和即席查询报表是基于各类结构化数据的报表输出,而各类结构化数 据的内容包含关系型数据库、多维数据库、x m l 、文本及其他数据结构等。 3 2 关键技术及工具 3 2 1s q l s e r v e r d t s 服务1 盟j 在根据原始数据库的数据建立数据立方体时,必需对数据进行验证、清洗、转化等 处理。在这里,选用 s q l s e r v e r d t s ( d a t a t r a n s f o r m a t i o ns e r v i c e ) 服务工具来进行处 理,这是- 二套功能强大的数据转换工具,它可以在s q l s e r v e r 与其它的o l e d b 、o d b c 数据源以及文本文件之间执行数据导入、导出以及转换的服务。具体来说,d t s 可以 完成以下任务: 1 从数据来源合并数据。 2 访问其他应用程序,并且把该程序当作源数据或者数据目标。 3 可以迁移数据库中的数据架构和数据,但是不能迁移索引或者存储过程。 在本文中,使用d t s 服务来实现从源数据到o l a p 数据立方体的转换。 3 2 2 星型模型和雪花型模型 提到o l a p 设计,就不得不提到维模型【”l ( d i m e n s i o n a lm o d e l i n g ) ,而提到维模型, 就不得不提到其标准模型一星型模型。在数据立方体中,数据可以分为两类:事实数 据和索引参考数据。事实数据是数据源中的业务数据,能够反应一项已经发生过的事 情。事实数据是最原始的数据,可以从中分析出所有可能的统计数据,但是使用实时 数据当作基础来生成分析数据有一项缺点,因为事实数据量很大,所以执行会比较慢。 在一个数据仓库中事实数据往往会占整个数据量的7 0 以上。索引参考数据指的就是 维度数据,他们主要是为了增加查询的速度而创建的。维度数据与事实数据不大一样, 1 4 他们是可以更新的,如果有需要,还可以增加维度数据。 星型模型是o l a p 维模型的标准模型,其设计原则由商业需求与j f 规化实体关系 模型不便分析的问题确定。为什么叫星型昵? 由图3 6 中可以看出,主要原因是图表模 型是星型的。在星型模型中,事实表是整个模型的中心。并且事实表的字段通常是由 一些主键( 图3 5 中事实序号、图书序号、客户序号、书店序号、购书

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论