数据仓库与数据挖掘基础第章OLA赵志升XXXX修改_第1页
数据仓库与数据挖掘基础第章OLA赵志升XXXX修改_第2页
数据仓库与数据挖掘基础第章OLA赵志升XXXX修改_第3页
数据仓库与数据挖掘基础第章OLA赵志升XXXX修改_第4页
数据仓库与数据挖掘基础第章OLA赵志升XXXX修改_第5页
已阅读5页,还剩78页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

河北北方学院:赵志升

数据仓库与数据挖掘

DataWarehouseandDataMining4.1

OLAP概念、特点与分类4.2

OLAP的基本操作4.3

OLAP的数据模型4.4

基于多维数据库的OLAP(MOLAP)4.5基于关系数据库的OLAP(ROLAP)4.6

OLAP实现4.7

OLAP的衡量和特性第4章联机分析处理4.1OLAP的定义、特点OLAP(On-LineAnalysisProcessing)定义是数据仓库上的分析展示工具,它建立在数据多维视图的基础上。联机分析处理。

OLAP的主要特点一是在线性(OnLine),体现为对用户请求的快速响应和交互式操作;二是多维分析(Multi_Analysis),这是OLAP技术的核心所在。

4.1OLAP的定义和特点

Codd提出了多维数据库和多维分析的概念,即OLAP。OLAP委员会对联机分析处理的定义为:使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。

4.1OLAP的定义和特点

整个数据(仓)库系统的工具层大致可以分为三类,或者说三个发展阶段:(1)以MIS为代表的查询、报表类工具(2)以OLAP为代表的验证型工具(3)以及以DM为代表的挖掘型工具

4.1OLAP的分类

OLAP系统按照其存储器的数据存储格式可以分为关系OLAP(RelationalOLAP,简称ROLAP)、多维OLAP(MultidimensionalOLAP,简称MOLAP)和混合型OLAP(HybridOLAP,简称HOLAP)三种类型。1.ROLAP

ROLAP将分析用的多维数据存储在关系数据库中并根据应用的需要有选择的定义一批实视图作为表也存储在关系数据库中。不必要将每一个SQL查询都作为实视图保存,只定义那些应用频率比较高、计算工作量比较大的查询作为实视图。对每个针对OLAP服务器的查询,优先利用已经计算好的实视图来生成查询结果以提高查询效率。同时用作ROLAP存储器的RDBMS也针对OLAP作相应的优化,比如并行存储、并行查询、并行数据管理、基于成本的查询优化、位图索引、SQL的OLAP扩展(cube,rollup)等等。

4.1OLAP的分类

1.ROLAP存储模式使得分区的聚合存储在关系数据库的表(在分区数据源中指定)中。但是,可为分区数据使用ROLAP存储模式,而不在关系数据库中创建聚合。同样,如果分区源数据存储在SQLServer2000中,而且满足特定条件,则将创建索引视图而不创建表。与MOLAP存储模式不同,ROLAP不会使源数据的复本存储起来;当结果无法从聚合或客户端高速缓存派生时,将访问分区的事实数据表以回答查询。在ROLAP存储模式下,查询响应一般较其它两种存储模式下要慢。ROLAP通常用于不经常查询的大数据集,如年份较早的历史数据。

4.1OLAP的分类2.MOLAP

MOLAP将OLAP分析所用到的多维数据物理上存储为多维数组的形式,形成“立方体”的结构。

维的属性值被映射成多维数组的下标值或下标的范围,而总结数据作为多维数组的值存储在数组的单元中。

由于MOLAP采用了新的存储结构,从物理层实现起,因此又称为物理OLAP(PhysicalOLAP);

而ROLAP主要通过一些软件工具或中间软件实现,物理层仍采用关系数据库的存储结构,因此称为虚拟OLAP(VirtualOLAP)。4.1OLAP的分类2.MOLAPMOLAP存储模式使得分区的聚合和其源数据的复本以多维结构存储在分析服务器计算机上。根据分区定义为是本地分区还是远程分区,该计算机可以是定义分区的分析服务器计算机,或别的分析服务器计算机。用于存储分区数据的多维结构位于分析服务器Data文件夹的子文件夹中。由于分析服务器计算机上驻留有源数据的一个复本,所以即使查询结果无法从分区的聚合中获得,也可以不用访问分区的源数据而解决查询。根据分区聚合的百分比和设计,MOLAP存储模式为达到最快查询响应时间提供了潜在可能性。总而言之,MOLAP更加适合于频繁使用的多维数据集中的分区和对快速查询响应的需要。4.1OLAP的分类4.1OLAP的分类3.HOLAP由于MOLAP和ROLAP有着各自自的优点和和缺点(如如下表所示示),且它它们的结构构迥然不同同,这给分分析人员设设计OLAP结构提提出了难题题。为此一一个新的OLAP结结构——混混合型OLAP(HOLAP)被提出出,它能把把MOLAP和ROLAP两两种结构的的优点结合合起来。迄迄今为止,,对HOLAP还没没有一个正正式的定义义。但很明明显,HOLAP结结构不应该该是MOLAP与ROLAP结构的简简单组合,,而是这两两种结构技技术优点的的有机结合合,能满足足用户各种种复杂的分分析请求。。4.1OLAP的分类HOLAP存储模式结结合了MOLAP和和ROLAP二者的的特性。同同MOLAP一样,,HOLAP使得分分区的聚合合按多维结结构存储在在分析服务务器计算机机上。HOLAP不会使源源数据的复复本存储起起来。对于于只访问包包含于分区区聚合中的的汇总数据据的查询,,HOLAP与MOLAP特特性相同。。访问源数数据的查查询(例例如深化化至原子子多维数数据集单单元,而而该单元元没有对对应的聚聚合数据据)必须须从关系系数据库库中检索索数据,,并且将不不如源数数据存储储在MOLAP结构中中那样快快速。按HOLAP存存储的分分区小于于同一个个按MOLAP存储的的分区,,而比ROLAP分4.1OLAP与OLTP的的区别(1)OLTP主要面面向公司司职员;OLAP则主主要面向向公司领领导者。。(2)OLTP应用主主要是用用来完成成客户的的事务处处理,其其数据基基础是操操作型数数据库,,如民航航订票系系统、银银行储蓄蓄系统等等等,通通常需要要进行大大量的更更新操作作,同时时对响应应时间要要求较高高;而OLAP是以以数据仓仓库或数数据多维维视图为为基础的的数据分分析处理理,是针针对特定定问题的的联机数数据访问问和分析析,它一一般不对对仓库数数据作修修改处理理,而只只是查询询,其应应用主要要是对客客户当前前及历史史数据进进行分析析,辅助助领导决决策,其其典型的的应用有有对银行行信用卡卡风险的的分析与与预测、、公司市市场营销销策略的的制定等等,主要要是进行行大量的的查询操操作,对对时间的的要求不不太严格格。OLAP与OLTP的不不同OLAP与数数据挖掘的比比较相同之处OLAP与DM都是数据据库(数据仓仓库)上的分分析工具;不同之处(1)在实际际应用中各有有侧重。前者者是验证型的的,后者是挖挖掘型的;(2)前者建建立在多维视视图的基础之之上,强调执执行效率和对对用户请求命命令的及时响响应,而且其其直接数据源源一般是数据据仓库;后者者建立在各种种数据源的基基础上,重在在发现隐藏在在数据深层次次的对人们有有用的模式,一般并不过过多考虑执行行效率和响应应速度。OLAP与数数据挖掘的比比较(3)数据挖挖掘与OLAP不同,主要体体现在它分析析数据的深入入和分析过程程的自动化,,自动化的含含义是其分析析过程不需要要客户的参与与,这是它的的优点,也正正是其不足。。因为在实际际中,客户也也希望参与到到挖掘中来,,例如只想对对数据的某一一子集进行挖挖掘,对不同同抽取、集成成水平的数据据进行挖掘,,或是根据自自己的需要动动态选择挖掘掘算法等等。。因此,OLAP与数据挖掘各各有所长。OLAP与DM都是数据库((数据仓库))的分析工具具,在实际应应用中各有侧侧重:OLAP的在线性体现现在与用户的的交互和快速速响应上,多多维性则体现现在它建立在在多维视图的的基础上。用用户积极参与与分析过程,,动态地提出出分析要求,,选择分析算算法,对数据据进行由浅及及深的分析。。DM与OLAP不同,主要体体现在它分析析数据的深入入和分析过程程的自动化。。其中,自动动化是指其分分析过程不需需要用户的参参与。这是它它的优点,也也正是它的不不足。因为在在实际中,用用户也希望参参与到挖掘中中来,如只想想对数据的某某一子集进行行挖掘,以及及对不同抽取取、集成水平平的数据进行行挖掘,还有有想根据自己己的需要动态态选择挖掘算算法等等。由此可见,OLAP与DM各有所长,如如果能将二者者结合起来,,发展一种建建立在olap和数据仓仓库基础上的的新的挖掘技技术,将更能能适应实际的的需要。而OLAM(on-lineanalyticalmining或olapmining),正正是这种结合合的产物。OLAP与数数据挖掘的结结合—OLAM将OLAP与与数据挖掘结结合起来,发发展出一种为为数据挖掘服服务的具有新新型OLAP的数据仓库,,将更能适应应实际的需要要。OLAM(OnLineAnalyticalMining,联机分析挖挖掘)正是这这种结合的产产物。联机分析挖掘掘,又称为OLAPMining。它是联机机分析处理技技术与数据挖挖掘技术在数数据库或数据据仓库应用中中的结合,是是联机分析处处理技术的新新发展,也是是近年来数据据库领域的研研究重点和热热点。OLAM产生生的原因OLAP与DM虽同为数数据库或数据据仓库的分析析工具,但两两者侧重点不不同。同时,,随着OLAP与DM技技术的应用和和发展,数据据库领域在OLAP基础础上对深层次次分析的需求求与人工智能能领域中数据据挖掘技术的的融合最终促促成了联机分分析挖掘技术术。OLAM产生生的原因一方面,分析析工具OLAP功能虽强强大,能为客客户端应用程程序提供完善善的查询和分分析,但它也也存在以下不不足:1)OLAP是一种种验证型分析析工具,是由由用户驱动的的。即在某个个假设的前提提下通过数据据查询和分析析来验证或否否定这个假设设,这很大程程度上受到用用户假设能力力的限制。2)OLAP分析事先先需要对用户户的需求有全全面而深入的的了解,然而而用户的需求求并不是确定定的,难以把把握。所以OLAP分析析常常采用试试凑法在大型型数据库或仓仓库中搜索,,不仅花时间间,而且可能能产生一些无无用的结果。。3)即使搜搜索到了有用用的信息,由由于缺乏应有有的维度,从从不同的视图图得到的结果果可能并不相相同,容易产产生误导。OLAM产生生的原因另一方面,数数据挖掘虽然然可以使用复复杂算法来分分析数据和创创建模型表示示有关数据的的信息,用户户也不必提出出确切的要求求,系统就能能够根据数据据本身的规律律性,自动地地挖掘数据潜潜在的模式,,或通过联想想,建立新的的业务模型以以辅助决策。。但它也存在在一些缺点:1)DM是是挖掘型分析析工具,是由由数据驱动的的。用户需要要事先提出挖挖掘任务。但但对于用户来来讲,很多时时候预先是不不知道想挖掘掘什么样的知知识的。2)由于数据据库或数据仓仓库中存有大大量数据和信信息,用户仅仅仅指出挖掘掘任务,而不不提供其他搜搜索线索,这这样DM工具具就会遍历整整个数据库,,导致搜索空空间太大。计计算机将处于于长时间的工工作,而且结结果中可能会会生成很多无无用信息。3)即使挖掘掘出了潜在有有价值的信息息,但它究竟竟用来做什么么分析用,用用户也可能不不清楚。OLAM产生生两种技术各存存在不足,但但同时也可以以相辅相成。。如果将OLAP同DM配合集成,,一方面OLAP的分析结结果给DM提提供挖掘的依依据,引导DM的进行;另一方面,在在数据挖掘的的结果中进行行OLAP分分析,则OLAP分析的的深度就可拓拓展。这样用用户就可以灵灵活选择所需需的数据挖掘掘功能,并动动态交换挖掘掘任务,在数数据仓库的基基础上提供更更有效的决策策支持。鉴于OLAP与DM技术术在决策分析析中的这种互互补性,促成成了OLAM技术的形成成。发展olam的原始驱动动力有以下几几点:(1)datamining工具具需要的数据据是一些经过过净化、集成成处理的数据据,通常这种种处理过程也也是昂贵的;;而dw(datawarehouse,数数据仓库)作作为olap的数据源,,存储的就是是这样的数据据。它能为olap提供供数据,当然然也可以为dm提供数据据。(2))dm是一一项崭崭新的的技术术,很很多人人在研研究它它。围围绕着着它有有许多多工具具或是是体系系结构构。而而dm作为为数据据分析析工具具的一一种,,不是是孤立立的,,必然然要与与其他他的工工具发发生联联系。。因此此,考考虑到到如何何最大大限度度地利利用这这些现现成的的工具具,也也是olam发发展之之初所所关心心的问问题。。(3))成功功的数数据挖挖掘需需要对对数据据进行行钻探探性((exporatory)分分析。。例如如,挖挖掘所所需的的数据据可能能只是是一部部分、、一定定范围围的数数据。。因此此,对对多维维数据据模型型的切切片、、切块块、下下钻等等操作作,同同样可可以应应用于于dm的过过程中中。也也就是是说,,可以以将dm建建立在在多维维模型型(或或说超超级立立方体体)的的基础础之上上。(4))用用户户的的参参与与对对dm非非常常重重要要,,它它动动态态地地提提出出挖挖掘掘要要求求,,选选择择挖挖掘掘算算法法。。故故可可以以将将olap的的client//server结结构构应应用用于于dm中中来来。。OLAM产产生生联机机分分析析挖挖掘掘概概念念正正式式提提出出是是在在1997年年,,由由加加拿拿大大SimonFraser大大学学教教授授JiaweiHan等等在在数数据据立立方方体体的的基基础础上上提提出出多多维维数数据据挖挖掘掘的的概概念念,,称称为为OLAPmining。。这这实实际际上上是是在在OLAP系系统统的的基基础础上上,,把把数数据据分分析析算算法法、、数数据据挖挖掘掘算算法法引引人人进进来来,,解解决决多多维维数数据据环环境境的的数数据据挖挖掘掘问问题题。。OLAM体体系系结结构构OLAM体体系系结结构构OLAM的的挖挖掘掘分分析析处处理理是是建建立立在在数数据据仓仓库库系系统统的的数数据据立立方方体体基基础础上上的的。。数数据据立立方方体体的的组组织织模模型型、、计计算算和和操操作作对对与与系系统统的的执执行行效效率率和和响响应应速速度度起起着着至至关关重重要要的的作作用用。。OLAM集集成成了了传传统统的的OLAP和和数数据据挖挖掘掘技技术术,,为为用用户户的的在在线线分分析析挖挖掘掘操操作作提提供供接接口口。。OLAM引引擎擎通通过过用用户户图图形形接接口口接接收收用用户户的的分分析析请请求求指指令令和和数数据据,,在在元元数数据据的的指指导导下下,,对对数数据据立立方方体体进进行行相相应应的的操操作作,,包包括括集集合合运运算算(如如求求和和、、求求平平均均)和和导导向向运运算算(如如选选择择、、旋旋转转、、上上钻钻与与下下钻钻)等等,,然然后后将将挖挖掘掘分分析析的的结结果果以以可可视视化化的的形形式式展展现现给给用用户户,,整整个个分分析析挖挖掘掘过过程程是是动动态态进进行行的的。。OLAM的的系系统统特特征征OLAM系系统统的的主主要要目目的的就就是是实实现现OLAP与与数数据据挖挖掘掘的的功功能能互互补补,,提提高高数数据据分分析析挖挖掘掘的的性性能能。。建建立立在在庞庞大大复复杂杂的的数数据据仓仓库库基基础础上上的的OLAM在在实实现现过过程程中中面面临临最最大大的的挑挑战战是是数数据据分分析析挖挖掘掘执执行行的的效效率率的的提提高高和和对对用用户户请请求求的的快快速速准准确确响响应应。。目目前前专专门门的的OLAM产产品品还还没没有有正正式式出出现现,,但但根根据据OLAM系系统统的的设设计计目目的的和和用用户户要要求求,,OLAM应应具具有有其其自自己己的的系系统统及及功功能能特特征征。。OLAM的系统统特征((1)多维分析析和数据据挖掘无无缝集成成,即多多维分析析与数据据挖掘的的完美结结合需要要理论基基础,需需要一套套系统构构建方法法。比如如借助于于OLAP对数数据立方方体进行行切片、、切块、、旋转、、向下钻钻取、向向上汇总总等操作作的支持持,应能能方便地地对任何何一部分分数据和和不同抽抽象级别别地数据据进行挖挖掘。OLAM的系统统特征((2)具有较高高的执行行效率和和较快的的响应速速度。OLAM系统快快速响应应能力的的获得是是一个十十分有挑挑战性的的问题,,可以认认为是OLAM技术中中最困难难的问题题之一。。往往数数据挖掘掘算法复复杂且耗耗时,这这时要求求协调执执行效率率和挖掘掘精度两两者的关关系。OLAM的系统统特征((3)支持迭代代分析过过程,即系统应应提供““回溯””能力,,以便随随时标记记分析过过程中的的时空状状态点,,并在分分析过程程中随时时回到这这一点,,有利于于分析的的灵活进进行,防防止在进进行由浅浅人深的的分析过过程中用用户“迷迷失方向向”。OLAM的系统统特征((4)支持复杂杂信息建建模,即即要求OLAM系统支支持多种种异构DBMS中多种种数据类类型的融融合,全全面处理理企业内内的各种种决策支支持应用用。一方面,,决策分分析的数数据对象象来自于于不同开开发环境境和目的的的分立立应用系系统,数数据的管管理方法法和数据据结构也也可能不不同,这这就要求求OLAM在数数据方面面有很强强的包容容性;另另一方面面,不同同的数据据挖掘方方法要求求不同的的数据结结构支撑撑。OLAM的系统统特征(5)良好的可可扩展性性。要求OLAM系系统支持持多种挖挖掘算法法的模块块的添加加、多种种工作对对象的建建构、多多种数据据源的集集成、多多种前端端工具的的利用等等扩展功功能。用用户能根根据实际际问题的的不同,,选用不不同的挖挖掘算法法。此外外,OLAM因因该具有有支持这这些扩展展的通用用接口,,以便与与其它工工具和算算法衔接接,或者者嵌人用用户自己己的算法法。OLAM的系统统特征(6)灵活友好好的人机机交互能能力。OLAM中的决决策分析析过程是是要在人人的指导导下进行行的,人人作为系系统的有有机组成成部分和和系统应应用密不不可分。。人利用用自己掌掌握的领领域知识识在OLAM系系统的辅辅助下完完成领域域内问题题的求解解,在这这个过程程中人与与计算机机分别承承担各自自最擅长长的工作作,达到到资源的的合理配配置。OLAM的系统统特征(7)支持复杂杂事务模模型及多多任务优优化和调调度。OLAM事务是是有“内内部结构构”的数数据库操操作集合合,是一一个有层层次的复复杂网络络结构,,传统的的无内部部结构、、彼此孤孤立的、、最小原原子特性性的事务务模型只只是这种种模型的的特例。。OLAM事务务之间具具有广泛泛的联系系,考虑虑在对事事务分解解的基础础上,充充分利用用不同事事务中的的公共子子事务来来优化事事务的调调度。OLAM的分析析操作从OLAM的定定义来看看,它是是建立在在多维数数据视图图基础之之上的。。因此,,对于OLAM的操作作应是超超立方体体计算与与传统挖挖掘算法法的结合合。这里里所说的的立方体体计算方方法一般般指切片片、切块块、上卷卷、下钻钻、旋转转等操作作;而挖挖掘算法法则是指指关联规规则、分分类、聚聚类等挖挖掘算法法。根据据立方体体计算和和数据挖挖掘所进进行的次次序的不不同组合合可以有有不同的的模式。。OLAM的分析析操作先进行立立方体计计算、后后进行数数据挖掘掘。在进进行数据据挖掘以以前,先先对多维维数据进进行二定定的立方方体计算算,以选选择合适适的数据据范围和和恰当的的抽象级级别。先对多维维数据作作数据挖挖掘,然然后再利利用立方方体计算算算法对对挖掘出出来的结结果做进进一步的的深入分分析。立方体计计算与数数据挖掘掘同时进进行。在在挖掘的的过程中中,可以以根据需需要对数数据视图图做相应应的多维维操作。。这也意意味着同同一个挖挖掘算法法可以应应用于多多维数据据视图的的不同部部分。回溯操作作。OLAM的的标签和和回溯特特性,允允许用户户回溯一一步或几几步,或或回溯至至标志处处,然后后沿着另另外的途途径进行行挖掘,,这样用用户在挖挖掘分析析中可以以交互式式的进行行立方体体计算和和数据挖挖掘。OLAM技术的的发展趋趋势OLAM技术术实现了OLAP和DM技术的互补补,它的发展展趋势是两者者更加可靠的的集成、融合合,有自己合合理优化的结结构体系和一一套完备的技技术理论基础础,从整体上上为决策分析析提供完美支支持。OLAM技术术是一门交叉叉学科,涉及及机器学习、、模式识别、、统计学、智智能数据库、、人工智能、、高性能计算算、数据可视视化、专家系系统等综合技技术。这些相相关学科的发发展,无疑也也将会推动OLAM技术术的发展。特特别是,近年年来随着数据据库技术的发发展,出现了了不同数据类类型的高级数数据库,如面面向对象数据据库、对象关关系型数据库库、空间数据据库、超文本本数据库、多多媒体数据库库、时序数据据库等。因此此,未来的OLAM技术术应用应基于于这些高级数数据库展开。。随着互联网技技术的发展,,全球信息的的共享,基于于Web的联联机分析挖掘掘(Web0LAM),,也将成为OLAM技术术发展的一个个新方向。P87页4.2OLAP的典典型操作OLAP对数数据仓库中数数据的操作是是针对多维数数据视图(又又称为超立方方体)进行的的。对立方体体的典型操作作包括:切片片、切块以及及旋转等。切片选定定多维数组的的一个二维子子集;切块选定定多维数组的的一个三维子子集;旋转改变变一个立方体体显示的维方方向,人们可可以从不同的的角度更加清清晰、直观地地观察数据。。多维数据Salesvolumeasafunctionofproduct,month,andregionProductRegionMonthDimensions:Product,Location,TimeHierarchicalsummarizationpathsIndustryRegionYearCategoryCountryQuarterProductCityMonthWeekOfficeDay立方体实例TotalannualsalesofTVinU.S.A.DateProductCountryAll,All,Allsumsum

TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum数据立方体的的浏览VisualizationOLAPcapabilitiesInteractivemanipulation第一节多多维数据模型型1、数据据立方体数据仓库和OLAP工具具基于多维数据模型型,多维数据模模型将数据看看作数据立方体(datacube))形式。数据据立方体允许许以多维对数数据建模和观观察,由维和事实定义。第一节多多维数据模型型1、数据据立方体数据仓库和OLAP工具具基于多维数据模型型,多维数据模模型将数据看看作数据立方体(datacube))形式。数据据立方体允许许以多维对数数据建模和观观察,由维和事实定义。第一节多多维数据模型型OLAP展现现在用户面前前的是一幅幅幅多维视图。。联机分分析处理维(Dimension):是人们观察数数据的特定角角度,是考虑虑问题时的一一类属性,属属性集合构成成一个维(时时间维、地理理维等)。维的层次(Level)):人们观察数据据的某个特定定角度(即某某个维)还可可以存在细节节程度不同的的各个描述方方面(时间维维:日期、月月份、季度、、年)。维的成员(Member):维的一个取值值,是数据项项在某维中位位置的描述。。(“某年某某月某日”是是在时间维上上位置的描述述)。度量(Measure)):多维数组的取取值。(2000年1月月,上海,笔笔记本电脑,,0000))。第一节多多维数据模型型1、数据据立方体维是关于一个个组织想要记记录的透视或或实体;每一个维都有有一个表与之之相关联,该该表称为维表,它进进一步描述维维;多维数据模型型围绕中心主主题组织,主主题用事实表表示;;事实是数值的的度量,事实实表包括事实实的名称或度量,以以及每个相关关维表的关键键字。第一节多多维数据模型型1、数据据立方体设某BSEK北星易家连连锁公司由下下列关系表描描述:Customer(cust_id,name,address,age,…))Item(item_id,name,type,price,……)Employee(empl_id,name,salary,,…)purchases(trans_id,cust_id,empl_id,date,time,method_paid,amount,…))Branch(branch_id,name,address))第一节多多维数据据模型1、数数据立方体体例如,BSEK可能能创建一个个数据仓库库sales,记录录商店的销销售情况,,涉及time,item和和location。典型3-D立方方体如图::timelocationitem多维模型事实度量(Metrics)时间维时间维的属性第一节多多维数据据模型2、多多维数据库库模式E-R数据据模型适用用于OLTP,而数数据仓库需需要简明的的、面向主主题的模式式,便于联联机数据分分析。数据据仓库的数数据模型采采用多维数据模模型。星型模式雪花模式事实星座模模式第三节数数据仓库库的实现1、数据立立方体的有有效计算多维数据分分析的核心心是有效地地计算多个个维集合上上的聚集,,类似于SQL中的的分组。基本立方操操作及实现现部分物化数据立方体体计算中多多路数组聚聚集第三节数数据仓库库的实现2、索引OLAP数数据位图索引连接索引复合连接索索引第四节基基于数据据仓库的数数据挖掘1、数数据仓库的的使用数据仓库的的三种应用用:信息处理分析处理数据挖掘第四节基基于数据据仓库的数数据挖掘1、数数据仓库的的使用信息处理:支持查询询和基本的的统计分析析,并使用用交叉表、、表、图表表或图进行行报告。数数据仓库信信息处理的的当前趋势势是构造低低成本的基基于Web的存取工工具,然后后与Web浏览器集集成在一起起。第四节基基于数据据仓库的数数据挖掘1、数数据仓库的的使用分析处理:支持基本本的OLAP操作,,包括切片片与切块、、下钻、上上卷和转轴轴。一般在在汇总的和和细节的历历史数据上上操作,它它支持数据据仓库的多多维数据分分析。第四节基基于数据据仓库的数数据挖掘1、数数据仓库的的使用数据挖掘:支持知识识发现,包包括找出隐隐藏的模式式和关联,,构造分析析模型,进进行分类和和预测,并并用可视化化工具提供供挖掘结果果。数据据挖挖掘掘不不限限于于分分析析数数据据仓仓库库中中的的数数据据,,比比OLAP更更自自动动化化,,更更深深入入,,应应用用更更广广。。第四四节节基基于于数数据据仓仓库库的的数数据据挖挖掘掘2、、从从OLAP到到OLAMOLAM联联机机分分析析挖挖掘掘将将联联机机分分析析处处理理与与数数数据仓库中的数据高质量环绕数据仓库的有价值的信息处理基础设施基于OLAP的探测式数据分析数据挖掘功能的联机选择4.2多维维数数据据模模型型上上的的OLAP操操作作::4、、多维维数数据据模模型型上上的的OLAP操操作作::有钻钻取取((Drill-up和和Drill-down))、、切切片片((Slice))和和切切块块((Dice))、、以以及及旋旋转转((Pivot))等等。。钻取取::是改改变变维维的的层层次次,,变变换换分分析析的的粒粒度度。。它它包包括括向向下下钻钻取取((Drill-down))和和向向上上钻钻取取((Drill-up))/上上卷卷(Roll-up)。。Drill-up是是在在某某一一维维上上将将低低层层次次的的细细节节数数据据概概括括到到高高层层次次的的汇汇总总数数据据,,或或者者减减少少维维数数;;而而Drill-down则则相相反反,,它它从从汇汇总总数数据据深深入入到到细细节节数数据据进进行行观观察察或或增增加加新新维维。。切片和切块:是在一部分维维上选定值后后,关心度量量数据在剩余余维上的分布布。如果剩余余的维只有两两个,则是切切片;如果有有三个或以上上,则是切块块。旋转:是变换维的方方向,即在表表格中重新安安排维的放置置(例如行列列互换)。4、多维维数据模型上上的OLAP操作概念分层将属性或维组组织成渐进的的抽象层,它它将低层概念念映射到更一一般的高层概概念。概念分分层对于多抽抽象层上的挖挖掘有用。4.2多维数据模型型上的OLAP操作:4、多维维数据模型上上的OLAP操作上卷(roll-up))下钻(drill-down)切片(slice)、切切块(dice)转轴(pivot))钻过(drill-across)钻透(drill-through)4.2多维数据模型型上的OLAP操作:4、多维维数据模型上上的OLAP操作上卷:通过一个维维的概念分层层向上攀升或或通过维归约约,在数据立立方体上进行行聚集。下钻:通过沿维的的概念分层向4.2多维数数据模模型上上的OLAP操操作::4、多多维数数据模模型上上的OLAP操操作切片:切片片操作作在给给定的的数据据立方方体的的一个个维上上进行行选择择,导导致一一个子子方。。切块:切块块操作作通过过对两两个或或多个个维执执行选选择,,定义义子方方。转轴:是一一种目目视操操作,,它转转动数数据的的视角角,提提供数数据的的替代代表示示。4.2多维数数据模模型上上的OLAP操操作::4、多多维数数据模模型上上的OLAP操操作钻过:执行行涉及及多个个事实实表的的查询询。钻透:操作作使用用关系系SQL机机制,,钻到到数据据立方方体的的底层层,到到后端端关系系表。。OLAP的许多多特征征体现现在统计数数据库库(SDB))的早早期工工作中中,而而SDB关关注注社会会经济济应用用,OLAP旨旨在商商务应应用以以及有有效处处理海海量数数据。。例如如书P494.2多维数数据模模型上上的OLAP操操作::OLAP服服务器器的类类型3、OLAP服服务器器的类类型关系OLAP((ROLAP))服务务器多维OLAP((MOLAP))服务务器混合OLAP((HOLAP))服务务器特殊的的SQL服服务器器OLAP的的12条准准则1、MultidimensionalconceptualviewOLAP模型型必须须提供供多维维概念念视图图User-analystswouldviewanenterpriseasbeingmultidimensionalinnature––forexample,profitscouldbeviewedbyregion,product,timeperiod,orscenario(suchasactual,budget,orforecast).Multi-dimensionaldatamodelsenablemorestraightforwardandintuitivemanipulationofdatabyusers,including"slicinganddicing".分析用用户能能自然然的视视企业业为一一个多多维模模型,,例如如,利利润可可以按按区域域,产产品,,时间间,或或方案案(如如实际际,预预算或或预测测)查查看。。多维维数据据模型型能让让用户户更直直接和和方便便的操操作数数据,,包括括“切切片和和切块块”2、Transparency透透明性WhenOLAPformspartoftheusers’’customaryspreadsheetorgraphicspackage,thisshouldbetransparenttotheuser.OLAPshouldbepartofanopensystemsarchitecturewhichcanbeembeddedinanyplacedesiredbytheuserwithoutadverselyaffectingthefunctionalityofthehosttool.TheusershouldnotbeexposedtothesourceofthedatasuppliedtotheOLAPtool,whichmaybehomogeneousorheterogeneous.当OLAP以用用户习惯惯的方式式提供电电子表格格或图形形显示时时,这对对用户应应该是透透明的。。OLAP应该该是开发发系统架架构的一一部分,,这个架架构能按按用户的的需要嵌嵌入到任任何地方方,而不不会对主主机工具具的功能能产生副副作用。。用户不不应该接接触到提提供给OLAP工具的的数据源源,这些些数据可可能是同同构的或或是异构构的OLAP的12条准则则3、Accessibility存存取能能力准则则TheOLAPtoolshouldbecapableofapplyingitsownlogicalstructuretoaccessheterogeneoussourcesofdataandperformanyconversionsnecessarytopresentacoherentviewtotheuser.Thetool(andnottheuser)shouldbeconcernedwithwherethephysicaldatacomesfrom.OLAP工具应应该有能能力利用用自有的的逻辑结结构访问问异构数数据源,,并且进进行必要要的转换换以提供供给用户户一个连连贯的展展示。是是OLAP工具具而不是是用户需需要关心心物理数数据的来来源4、Consistentreportingperformance稳定定的报表表能力PerformanceoftheOLAPtoolshouldnotsuffersignificantlyasthenumberofdimensionsisincreased.OLAP工具的的性能不不应该因因维度增增加而受受到明显显的影响响OLAP的12条准则则5、Client/serverarchitecture客户户/服务务器体系系结构TheservercomponentofOLAPtoolsshouldbesufficientlyintelligentthatthevariousclientscanbeattachedwithminimumeffort.Theservershouldbecapableofmappingandconsolidatingdatabetweendisparatedatabases.OLAP工工具的服务务器端应该该足够的智智能让多客客户的以最最小的代价价连接。服服务器应该该有能力映映射和巩固固不同数据据库的数据据6、Genericdimensionality维维的等同同性准则Everydatadimensionshouldbeequivalentinitsstructureandoperationalcapabilities.每个数据维维度应该具具有等同的的结构和操操作能力OLAP的的12条准准则7、Dynamicsparsematrixhandling动动态的稀稀疏矩阵处处理TheOLAPserver’sphysicalstructureshouldhaveoptimalsparsematrixhandling.OLAP服服务器的物物理结构应应能处理最最优稀疏矩矩阵8、Multi-usersupport多用用户支持能能力OLAPtoolsmustprovideconcurrentretrievalandupdateaccess,integrityandsecurity.OLAP应应提供并发发获取和更更新访问,,保证完整整和安全的的能力9、Unrestrictedcross-dimensionaloperations非非受限的的跨维操作作Computationalfacilitiesmustallowcalculationanddatamanipulationacrossanynumberofdatadimensions,andmustnotrestrictanyrelationshipbetweendatacells.计算设备必必需允许跨跨数据维度度的计算和和数据操作作,不能限限制任何数数据单元间间的关系。。OLAP的的12条准准则10、Intuitivedatamanipulation直观观的数据操操纵Datamanipulationinherentintheconsolidationpath,suchasdrillingdownorzoomingout,shouldbeaccomplishedviadirectactionontheanalyticalmodel’’scells,andnotrequireuseofamenuormultipletripsacrosstheuserinterface.数据操作应应在固定的的路径下,,例如钻或或缩小,应应该通过直直接在分析析模型的单单元上完成成,而不需需要目录货货多次的用用户交互11、Flexiblereporting灵活的的报表生成成Reportingfacilitiesshouldpresentinformationinanywaytheuserwantstoviewit.报表设备应应该能以用用户需要的的任何方式式展现信息息12、Unlimiteddimensionsandaggregationlevels.不不受限的维维与聚集层层次Thenumberofdatadimensionssupportedshould,toallintentsandpurposes,beunlimited.Eachgenericdimensionsshouldenableanessentia数据维度数量应该是无限的,用户在每个通用维度上定义的聚集聚合层次应该是无限的。主要要厂厂商商产产品品介介绍绍1、、HyperionHyperionEssbaseOLAPServer,,在在上上面面有有超超过过强大的OLAP查询能力,利用EssbaseQueryDesigner,商业用户可以不用IT人员的帮助自己构件复杂的查询。广泛的应用支持,可以扩展数据仓库和ERP系统的价值,建立对电子商务、CRM、金融、制造业、零售和CPG(consumerpackagedgoods)等应用的分析程序。Speed-of-Thought的响应时间,支持多用户同时读写Web-Enabled的,以服务器为中心的体系结构,支持SMP强大的合作伙伴提供完整的解决方案,60多个包装好的解决方案,300多个咨询和实施公司。丰富的前端工具,有30多个前端工具可供选择,其中包括Hyperion自己的WiredforOLAP、Spider-ManWebApplication、Objects、EssbaseSpreadsheetAdd-In、WebGateway、Reporting。

主要厂商产品品介绍1、Hyp

HyperionEnterprise,为跨国公司提供的财务整合、报告和分析的解决方案。有3000多家组织在使用此套系统。功能丰富:支持多种财务标准USGAAP,CanadianGAAP,UKGAAP,国际会计标准(ISA),FASB,HGB。分公司间交易的自动平帐。FAS52货币转换。FAS94。易用:可通过Excel,Lotus1-2-3和各种浏览器访问系统。支持公司结构的调整。跨国公司的支持:同时支持6种语言及各个不同国家的法律和税收要求。完整的过程控制和审计跟踪,及安全等级的设置。能与ERP或其他数据源集成HyperionPillar,预算和计划工具。全球用户超过1500家,提供基于活动的预算,基于项目的计划,集中式计划,销售预测和综合计划。分布式体系结构详细计划的制订:允许一线经理制订详细的计划复杂的建模和分析能力主要厂商产品品介绍2、OracleExpressServer提供全全面的OLAP能力,有有全球超过3000家用用户用户可通过Web和电子子表格使用灵活的数据组组织方式,数数据可以存放放在ExpressServer内内,也可直接接在RDB上上使用有内建的分析析函数和4GL来用户自自己定制查询询3、CognosPowerPlay,为为商务效率评评价BPM((BusinessPerformanceMeasurement)提供全面面的报告和分分析环境。向向决策者提供供企业运行效效率的各种关关键数据,进进行各种各样样的分析。只用鼠标点击击、拖拉就可可以浏览多维维数据自动利用Web发布得到到的分析报告告支持多种OLAPServer:MicrosoftOLAPServices、HyperionEssbase、SAPBW、IBMOLAPforDB2完备的授权和和安全体系NovaView,是MicrosoftSQLServer7.0OLAPServices的客户户端应用程序序。主要厂商产品品介绍5、MicroStrategyMicroStrategy7,是是新一代的智智能平台(IntelligencePlatform))面向电子商商务应用e-business和电电子客户关系系管理eCRM。具有强大的分分析能力以Web为中中心的界面支持上百万的的用户和TB的数据快速开发能力力,可直接利利用已有的数数据模式6、IntelligenceServer,One

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论