版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1第2章 多维数据分析基础与方法 v2.1多维数据分析基础多维数据分析基础 v2.2多维数据分析方法多维数据分析方法 v2.3维度表与事实表的连接维度表与事实表的连接 v2.4多维数据的存储方式多维数据的存储方式 v2.5常用的服务器端分析工具常用的服务器端分析工具 v2.6常用的客户端分析工具常用的客户端分析工具 v2.7 各种工具的准备和安装各种工具的准备和安装 v小结小结22.1 多维数据分析基础v多维数据分析(多维数据分析(OLAP) 概念:概念: 以海量数据为基础的复杂数据分析技术,侧重决策以海量数据为基础的复杂数据分析技术,侧重决策支持。支持。 与与OLTP的区别的区别 面向对象不
2、同面向对象不同 操作不同操作不同32.1 多维数据分析基础v 多维数据集(多维数据集(Cube)概念概念是一个数据集合,通常从数据仓库的子集是一个数据集合,通常从数据仓库的子集构造,并组织和汇总成一个由一组维度和构造,并组织和汇总成一个由一组维度和度量值定义的多维结构。度量值定义的多维结构。特性特性多维,也称作立方体(多维,也称作立方体(Cube)提供一种便于使用的查询数据的机制。提供一种便于使用的查询数据的机制。42.1 多维数据分析基础52.1 多维数据分析基础v 度量值(度量值(Measure)度量值是一组值,是客户发生事件或动作的事实度量值是一组值,是客户发生事件或动作的事实记录。记录
3、。如:如:客户打电话,记录次数和费用等;客户打电话,记录次数和费用等;超市客户销售,记录销售数量、金额等等。超市客户销售,记录销售数量、金额等等。度量值所在的表称为事实数据表,常规多维数据度量值所在的表称为事实数据表,常规多维数据集的结构中只能有一个事实数据表。集的结构中只能有一个事实数据表。62.1 多维数据分析基础v 维度(维度(Dimension)维度(也简称为维)是人们观察数据的角度。维度(也简称为维)是人们观察数据的角度。例如,时间维,地区维等。例如,时间维,地区维等。 包含维度信息的表是维度表,维度表包含描述事包含维度信息的表是维度表,维度表包含描述事实数据表中的事实记录的特性。实
4、数据表中的事实记录的特性。描述维度的字段称为维度属性描述维度的字段称为维度属性 72.1 多维数据分析基础v 维度成员(维度成员(Dimension Member)维的一个取值称为该维的一个维度成员(简称维维的一个取值称为该维的一个维度成员(简称维成员)。成员)。例如,考虑时间维具有日、月、年这例如,考虑时间维具有日、月、年这3个级别,个级别,分别在日、月、年上各取一个值组合起来,就得分别在日、月、年上各取一个值组合起来,就得到了时间维的一个维成员,即到了时间维的一个维成员,即“某年某月某日某年某月某日”。 82.1 多维数据分析基础v 维度的层次结构维度的层次结构定义定义层次结构是维度中成员
5、的集合以及这些成员之间的相对层次结构是维度中成员的集合以及这些成员之间的相对位置。位置。如,地址维:洲、国家、城市、区、街道、门牌号如,地址维:洲、国家、城市、区、街道、门牌号类型类型均衡层次结构均衡层次结构层次结构的所有分支都降至同一级别,每个成员的逻辑父代就层次结构的所有分支都降至同一级别,每个成员的逻辑父代就是其上级成员。是其上级成员。不均衡层次结构不均衡层次结构层次结构的所有分支都降至不同级别,每个成员的逻辑父代就层次结构的所有分支都降至不同级别,每个成员的逻辑父代就是其上级成员。如是其上级成员。如CEO/部门经理(部门经理(/员工)、执行秘书员工)、执行秘书不规则层次结构不规则层次结
6、构 92.1 多维数据分析基础v 维的级别(维的级别(Dimension Level)人们观察数据的某个特定角度(即某个维)还可人们观察数据的某个特定角度(即某个维)还可以存在不同的细节程度,我们称这些维度的不同以存在不同的细节程度,我们称这些维度的不同的细节程度为维的级别。的细节程度为维的级别。一个维往往具有多个级别一个维往往具有多个级别.例如描述时间维时(例如描述时间维时(“月、季度、年月、季度、年”为层次结为层次结构),则月、季度、年为构),则月、季度、年为3个级别,可从不同级个级别,可从不同级别来描述。别来描述。102.1 多维数据分析基础112.2 多维数据分析方法 v多维分析方法多
7、维分析方法 方法方法 上卷上卷 下钻下钻 切片切片 切块切块 旋转旋转 目的目的 从多个角度、多个侧面观察数据库中的数据。从多个角度、多个侧面观察数据库中的数据。 122.2 多维数据分析方法v上卷(上卷(Roll-Up) 在数据立方体中执行聚集操作,通过在维级别中在数据立方体中执行聚集操作,通过在维级别中上升来观察更概括的数据。上升来观察更概括的数据。 沿着时间维上卷,由“季度”上升到半年 132.2 多维数据分析方法v上卷上卷 通过消除一个或多个维来观察更加概况的数据。通过消除一个或多个维来观察更加概况的数据。 消除“经济性质”维度 142.2 多维数据分析方法v 下钻(下钻(drill-
8、down) 通过在维级别中下降或通过引入某个或某些维来更细致通过在维级别中下降或通过引入某个或某些维来更细致的观察数据。的观察数据。 沿时间维下钻 152.2 多维数据分析方法v切片(切片(slice) 在给定的数据立方体的一个维上进行的选择操作。切片的结在给定的数据立方体的一个维上进行的选择操作。切片的结果是得到了一个二维的平面数据。果是得到了一个二维的平面数据。 “时间1季度” 162.2 多维数据分析方法v 切块(切块(dice) 在给定的数据立方体的两个或多个维上进行的选择操作。切在给定的数据立方体的两个或多个维上进行的选择操作。切块的结果是得到了一个子立方体。块的结果是得到了一个子立
9、方体。 (度量值“正常” or “次级”)And (时间“1季度” or “2季度”) 172.2 多维数据分析方法v转轴(转轴(pivot or rotate) 转轴就是改变维的方向。转轴就是改变维的方向。 交换“时间”和“经济性质”轴182.3 维度表与事实表的连接 v维度表和事实表的联系维度表和事实表的联系 纬度表纬度表 包含某维度信息的表;包含某维度信息的表; 维度由主键和维属性构成。维属性是维表里的列。维度由主键和维属性构成。维属性是维表里的列。 事实表事实表 包含度量值(事实)的表包含度量值(事实)的表 特征特征 记录数量多记录数量多 事实表除了度量外,其他字段都是同维表或者中间表
10、的关事实表除了度量外,其他字段都是同维表或者中间表的关键字。键字。 如果事实相关的维度很多,则事实表的字段数也会很多。如果事实相关的维度很多,则事实表的字段数也会很多。192.3 维度表与事实表的连接 v维度表和事实表的联系维度表和事实表的联系 联系联系 相互独立,又互相关联并构成一个统一的架构。相互独立,又互相关联并构成一个统一的架构。 事实表处在架构的中央。事实表处在架构的中央。v构建多维数据集时常用的架构:构建多维数据集时常用的架构: 星型架构星型架构 雪花型架构雪花型架构 星型雪花架构星型雪花架构202.3 维度表与事实表的连接v 星型架构星型架构 星型架构是以事实表为核心,其他的维度
11、表星型架构是以事实表为核心,其他的维度表围绕这个核心表呈星型状分布。围绕这个核心表呈星型状分布。 每个维度表中的主码都只能是单列的,同时每个维度表中的主码都只能是单列的,同时该主码被放置在事实数据表中,作为事实数该主码被放置在事实数据表中,作为事实数据表与维表连接的外码。据表与维表连接的外码。 维度表只与事实表关联,维度表彼此之间没维度表只与事实表关联,维度表彼此之间没有任何联系。有任何联系。212.3 维度表与事实表的连接v星型架构示意图222.3 维度表与事实表的连接v雪花型架构雪花型架构 (Snow Schema) 以事实数据表为核心;以事实数据表为核心; 某个维度表不与事实表直接关联,
12、而是与另某个维度表不与事实表直接关联,而是与另一个维表关联一个维表关联 维度表和与其相关联的维度表通过外码关联;维度表和与其相关联的维度表通过外码关联; 可以进一步细化查看数据的粒度。可以进一步细化查看数据的粒度。 232.3 维度表与事实表的连接v雪花型架构示意图242.3 维度表与事实表的连接v星型雪花架构星型雪花架构(Star-Snow Schema) 将星型架构和雪花式架构合并在一起使用,而成为星型将星型架构和雪花式架构合并在一起使用,而成为星型雪花架构。雪花架构。 252.4 多维数据的存储方式 vSQL Server 的的Analysis 三种多维数据存储方三种多维数据存储方式式:
13、 MOLAP(多维(多维OLAP,Multidimensional OLAP) ROLAP(关系(关系OLAP,Relational OLAP) HOLAP(混合(混合OLAP,Hybrid OLAP) 262.4 多维数据的存储方式vROLAP ROLAP的数据与计算结果直接由原来的关系数据的数据与计算结果直接由原来的关系数据库取得。库取得。 ROLAP将支撑多维数据的原始数据、多维数据集将支撑多维数据的原始数据、多维数据集数据、汇总数据和维度数据都存储在现有的关系数据、汇总数据和维度数据都存储在现有的关系数据库中,并用独立的关系表来存放聚集数据。数据库中,并用独立的关系表来存放聚集数据。
14、不存储源数据副本,占用的磁盘空间最少,但存不存储源数据副本,占用的磁盘空间最少,但存取速度也比较低。取速度也比较低。 272.4 多维数据的存储方式vMOLAP MOLAP使用多维数组存储数据,它是一种高性能使用多维数组存储数据,它是一种高性能的多维数据存储格式。的多维数据存储格式。 多维数据在存储中将形成多维数据在存储中将形成“立方体立方体”的结构。的结构。MOLAP存储模式将数据与计算结果都存储在立方存储模式将数据与计算结果都存储在立方体结构中,并存储在分析服务器上。体结构中,并存储在分析服务器上。 该结构在处理维度时创建。该结构在处理维度时创建。 存取速度最快,查询性能最好,但占用磁盘空
15、间存取速度最快,查询性能最好,但占用磁盘空间较多。较多。 282.4 多维数据的存储方式vHOLAP ROLAP与与MOLAP存储方式的结合。存储方式的结合。 原始数据和原始数据和ROLAP一样存储在原来的关系数据库一样存储在原来的关系数据库中,而聚合数据则以多维的形式存储分析服务器。中,而聚合数据则以多维的形式存储分析服务器。 优点:优点: 既能与关系数据库建立连接,同时又利用了多既能与关系数据库建立连接,同时又利用了多维数据库的性能优势。维数据库的性能优势。 缺点缺点 是在是在ROLAP和和MOLAP系统之间的切换会影响系统之间的切换会影响它的效率。它的效率。 292.4 多维数据的存储方
16、式内容内容MOLAPROLAPHOLAP源数据的副本有无无占用分析服务器存储空间大小小使用多维数据集小较大大数据查询快慢慢聚合数据的查询快慢快使用查询频度经常不经常经常v 三种存储方式的比较30/382.5常用的服务器端分析工具vSQL Server 2005 Management Studio(数据管理数据管理) Analysis Services(分析服务)(分析服务)vIBM公司的公司的DB2 OLAP Server(OLAP服务器)。服务器)。 31/382.5.1 SQL Server Analysis Servicesv组件组件 SQL Server Integration Ser
17、vices(SSIS) SQL Server Analysis Services(SSAS) SQL Server Reporting Services(SSRS)v平台平台 Business Intelligence Development Studio 32/382.5.1 SQL Server Analysis Servicesv组件的结构组件的结构33/382.5.1 SQL Server Analysis Servicesv启动启动34/382.5.1 SQL Server Analysis Servicesv SQL Server Business Intelligence Dev
18、elopment Studio35/382.5.1 SQL Server Analysis Services SSIS、SSAS、SSRS文件文件-项目项目36/382.5.1 SQL Server Analysis Servicesv SQL Server Management Studio37/382.5.1 SQL Server Analysis Servicesv连接服务连接服务38/382.5.1 SQL Server Analysis Servicesv分析服务的特点分析服务的特点 易用性;易用性; 灵活的数据存储模型;灵活的数据存储模型; 伸缩性;伸缩性; 集成;集成; 支持大量
19、的支持大量的API和函数;和函数; 分布式处理能力;分布式处理能力; 服务器端结构的高速缓存。服务器端结构的高速缓存。39/382.5.1 SQL Server Analysis Servicesv 分析服务的体系结构分析服务的体系结构40/38v1.服务器端服务器端 体系结构体系结构2.5.1 SQL Server Analysis Services41/382.5.1 SQL Server Analysis Servicesv 2. 客户端体系结构客户端体系结构42/382.6常用的客户端分析工具 vExcelvCrystal Analysis 43/382.6常用的客户端分析工具vExc
20、el 可以连接到分析服务器的功能可以连接到分析服务器的功能 可以脱机方式分析数据。可以脱机方式分析数据。 Excel可以使用数据透视表服务连接任何的可以使用数据透视表服务连接任何的ODBC数据源,然后产生一个多维数据集文件,模拟数据源,然后产生一个多维数据集文件,模拟OLAP服务的多维数据分析。服务的多维数据分析。 还可以帮助用户绘制统计图表,从而更直观地展还可以帮助用户绘制统计图表,从而更直观地展示多维数据分析的结果。示多维数据分析的结果。 44/382.6常用的客户端分析工具vExcel选择数据源选择数据源45/382.6常用的客户端分析工具vExcel连接数据库服务器连接数据库服务器46
21、/382.6常用的客户端分析工具vExcel选择数据库和表选择数据库和表47/382.6常用的客户端分析工具vExcel设置保存数据文件设置保存数据文件48/382.6常用的客户端分析工具vExcel设置显示方式设置显示方式49/382.6常用的客户端分析工具vExcel浏览数据的初始界面浏览数据的初始界面50/382.6常用的客户端分析工具vExcel浏览数据浏览数据51/382.6常用的客户端分析工具vCrystal Analysis Business Objects 公司在报表系列产品中公司在报表系列产品中的一种。的一种。 侧重于多维数据分析。侧重于多维数据分析。 结构化的多维报表。结构
22、化的多维报表。 全面的分析和格式功能全面的分析和格式功能 针对针对Web设计设计 52/382.6常用的客户端分析工具vCrystal Analysis启动启动53/382.6常用的客户端分析工具vCrystal Analysis启动启动54/382.6常用的客户端分析工具vCrystal Analysis连接数据源连接数据源55/382.6常用的客户端分析工具vCrystal Analysis连接数据源成功显示连接数据源成功显示56/382.6常用的客户端分析工具vCrystal Analysis连接数据源成功显示连接数据源成功显示选择数据源:选择数据源:华兴商业银行贷款分析华兴商业银行贷款
23、分析点击点击“open”按钮按钮57/382.6常用的客户端分析工具vCrystal Analysis选择模板选择模板选择模板选择模板-点击点击“ok”582.6常用的客户端分析工具vCrystal Analysis浏览数据界面浏览数据界面修改维修改维添加图表添加图表显示维度显示维度59/382.7 各种工具的准备和安装 v各工具需要的软硬件环境各工具需要的软硬件环境 SQL Server Analysis Services DB2 OLAP Server 8.2 Crystal Analysis 10 60/382.7.1 SQL Server Analysis Services硬件硬件/软
24、件软件要要 求求计算机处理器计算机处理器越快越好越快越好内存内存 (RAM)(RAM)1G1G以上以上磁盘驱动器磁盘驱动器CD-ROM CD-ROM 驱动器驱动器硬盘空间硬盘空间 C C盘盘2G2G,安装盘,安装盘2G2G操作系统操作系统评估版:评估版:XP,Vista网络软件网络软件Windows 2000Windows 2000、Windows NT 4.0Windows NT 4.0、Windows 98 Windows 98 或或 Windows 95 Windows 95 内置网络内置网络软件,以及软件,以及 TCP/IPTCP/IP(包含在(包含在 Windows Windows
25、中)。中)。 联机产品联机产品文档查看器文档查看器Microsoft Internet Explorer 6.0Microsoft Internet Explorer 6.0或更高版本或更高版本 。访问权限访问权限若要安装用于分析服务器的服务,必须用管理员权限登录到该服务器。若要安装用于分析服务器的服务,必须用管理员权限登录到该服务器。 61/382.7.2DB2 OLAP Server 8.2硬件硬件/ /软件软件服务器平台服务器平台PCPC客户机平台客户机平台OLAPOLAP集成服务器平台集成服务器平台处理器处理器对对Windows NT 或或 Windows 2000,至少需,至少需要要
26、奔腾处理器或者等效处理奔腾处理器或者等效处理器器对于对于Spreadsheet Add-in和应用和应用程序管理器,至少需要奔腾程序管理器,至少需要奔腾处理器或者等效处理器处理器或者等效处理器对对Windows NT 或或 Windows 2000,至少需,至少需要奔腾处理器或者等效要奔腾处理器或者等效处理器处理器内存内存 64MB或更多(对或更多(对UNIX平台,需平台,需128MB或更多)或更多)对对Spreadsheet Add-in和应用程和应用程序序管理器,至少需管理器,至少需16MB或更多;或更多;对对Windows NT 或或Windows 2000,需,需32MB或更多或更多6
27、4MB或更多或更多硬盘空间硬盘空间 对于服务器或样本程序,对于服务器或样本程序,需要需要35至至50MB;对;对于于SQL Interface 软件软件和样本,需要和样本,需要15至至20MB对于对于Spreadsheet Add-in和应用和应用程程序管理器,至少需要序管理器,至少需要24MB或更或更多;对于集成服务桌面环境,至多;对于集成服务桌面环境,至少需要少需要45MB对服务器,需要对服务器,需要32MB;对于元数据目录和样本对于元数据目录和样本程序,需要程序,需要50MB操作系统操作系统Windows NT 4.0 或或 Windows 2000;Solaris操操作环境;作环境;R
28、S/6000 AIX 版版 UNIX操作系统操作系统 Windows 95;Windows 98;Windows NT 4.0 ;Windows 2000Windows NT 4.0 或或 Windows 2000;Solaris操作环境操作环境2.6或或2.7;AIX 4.3.3或更高或更高网络软件网络软件TCP/IP 或命名管道或命名管道TCP/IP 或命名管道或命名管道TCP/IP 或命名管道或命名管道62/382.7.3 Crystal Analysis 10硬件硬件/ /软件软件完全安装完全安装客户端安装客户端安装处理器处理器Intel Intel 或兼容机或兼容机(Pentium II - 450 MHz Pentium II - 450 MHz 或或更高)更高)Intel Intel 或兼容机或兼容机(Pentium II - 450 MHZPentium II -
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年广东省韶关市单招职业适应性测试题库及完整答案详解1套
- 2026年郑州体育职业学院单招职业技能测试题库参考答案详解
- 2026年浙江理工大学单招职业倾向性考试题库及参考答案详解
- 四川省遂宁市射洪中学2024-2025学年高二上学期期中考试地理试题含答案地理答案
- 医院笔试面试题目及答案
- 2025年·锦州市部分事业单位赴高校公开招聘应届毕业生备考题库(第二批)及一套答案详解
- 2026年龙游县机关事业单位编外人员招聘备考题库及1套完整答案详解
- 昆明市第十二中学教育集团2025年12月聘用制教师招聘备考题库有答案详解
- 2025年成都市金牛国投人力资源服务有限公司公开招聘26名网格员备考题库及1套参考答案详解
- 中国铁建投资集团有限公司2026届校园招聘30人备考题库完整答案详解
- 钻井工程防漏堵漏技术演示文稿
- GB/T 27806-2011环氧沥青防腐涂料
- GB/T 12618.1-2006开口型平圆头抽芯铆钉10、11级
- FZ/T 52051-2018低熔点聚酯(LMPET)/聚酯(PET)复合短纤维
- 设备吊装方案编制受力计算
- 食品工程原理概述经典课件
- 养老院机构组织架构图
- 财经法规与会计职业道德
- 会计学本-财务报表分析综合练习
- 传播学概论教学课件
- 《中国传统文化心理学》课件第五章 传统文化与心理治疗(修)
评论
0/150
提交评论