




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、商务智能将业务数据转换成明确的、基于事实的、能够执行的信息,并且使得业务人员能够发现客户趋势,创建客户忠诚度,增强与供应商的关系,减少金融风险,以及揭示新的销售商机。商务智能的目标是了解变化的意义从而理解甚至预见变化本身。通过访问当前的、可靠的和易消化的信息,帮助企业从各个侧面及不同的维度灵活地浏览信息和建立模型。它是提高和维持竞争优势的一条有效的途径。 数据预处理数据预处理 数据分析 数据仓库中的所有数据都是围绕着某一主题组织,如客户、供应商、产品来建立的。集成性 数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数
2、据仓库内的信息是关于整个企业的一致的全局信息非易失性 数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。时变性 时变性表现在数据仓库的数据是在一个很长的时间上的数据。 数据仓库的数据组织结构 数据仓库的数据组织方式与数据库不同,通常是采用分级的方式组织。一般分为早期细节级、当前细节级、轻度综合级、高度综合级以及元数据五部分。a 早期细节数据 存储过去的详细数据,反映真实的历史情况,这类数据随着时间增加,数据量很大,使用频率低,一般存储
3、在转换介质中,例如磁带中。b 当前细节数据 存储最近时期的业务数据,反映当前业务的情况,数据量大,是数据仓库用户最感兴趣的部分。随着时间的推移,当前细节数据由数据仓库的时间控制机制转为早期细节数据。c 轻度综合数据 从当前基本数据中提取出来,通常以较小的时间段(粒度)统计而成的数据,其数据量较细节及数据少得多。d 高度综合数据 这一层的数据十分精炼,是一种准决策数据。e 元数据 对数据仓库中的各种数据进行详细的描述与说明,说明每个数据的上下文关系,使每个数据具有符合现实的真实含义,使最终用户了解这些数据之间的关系。每月数据2000-2005每周数据2000-2005细节数据2000-2005操
4、作数据1995-2000高度综合级轻度综合级当前细节级早期细节级图13-5 数据仓库的数据组织结构图元数据 当前的数据总是首先进入当前细节级,然后根据应用的需求,通过预运算将数据聚合成轻度综合和高度综合级。由此可见,数据仓库中存在着不同的综合级别,一般称之为“粒度”。 粒度是指数据仓库中的数据单位,保存数据的细化或综合程度的级别。细化程度越高,粒度就越小;相反,细化程度越低,粒度级就越大。 粒度可以分为两种形式,第一种粒度称为多维粒度,是对数据仓库中的数据的综合程度高低的一个度量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。另一种粒度形式称为样本数据库,它根据给定的采样
5、率从细节数据库中抽取出一个子集。 与粒度相对应的一个概念是“分割”。它的目的同样在于将数据分散到各自的物理单元中去,以便能分别独立处理。有许多数据分割的标准可供参考:如日期、地域、业务领域等等,也可以是其组合。一般而言,分割标准总应包括日期项,它十分自然而且分割均匀。数据仓库的数据组织形式a. 简单堆积文件b. 轮转综合文件c. 简化直接文件d. 连续文件a. 简单堆积文件 从面向应用的数据库中每天的数据中提取出来,然后按照相应的主题集成为数据仓库中的记录。面向应用数据库每天数据每天综合1月1日1月2日1月3日2月1日2月2日2月3日b. 轮转综合文件 数据存储单位被分为日、周、月、年等几个级
6、别。在一个星期的七天中,数据被逐一记录在每日数据集中;然后,七天的数据被综合并记录在周数据集中;接下去的一个星期,日数据集被重新使用,以记录新数据。同理,周数据集达到五个后,数据再一次被综合并记入月数据集。以此类推。轮转综合结构十分简捷,数据量较简单堆积结构大大减少。当然,它是以损失数据细节为代价的,越久远的数据,细节损失越多。 数据仓库的数据组织形式b. 轮转综合文件 面 向 应 用 数 据 库每 天 数 据每 天 综 合第 1天第 2天第 7天第 1周第 2周第 4周 第 1月第 2月第 12月第 1年第 2年第 n年 7天 综 合 1周4周 综 合 1月12月 综 合 1年c. 简化直接
7、文件 它类似于简单堆积文件,但它是间隔一定时间的数据库快照,比如每隔一星期或一个月作一次。面向应用数据库1月份数据d. 连续文件 它类似于简单堆积文件,但它是间隔一定时间的数据库快照,比如每隔一星期或一个月作一次。1月份数据2月份数据综合连续结构文件 数据仓库的数据模型 数据模型是对现实世界进行抽象的工具,抽象的程度不同,就形成不同抽象级别层次上的数据模型。通常,数据数据可以分为三个层次:高层数据模型(ER图,实体关系层)、中间层模型(DIS,数据项集)、底层数据模型(物理模型)。数据仓库的数据模型a. 高层数据模型 高层建模以实体和关系为特征,实体处于最高抽象层,由“集成范围”这个术语表示的
8、内容来决定哪些实体属于模型范围。集成范围定义了数据的边界,而且集成范围需在建模之前进行定义。这个范围由系统的建模者、管理人员和最终用户共同确定。如果范围没有预先确定,建模过程就很有可能一直持续下去。写出来的集成范围应该尽量简短,而且应该使用业务人员可以理解的语言。 高层数据模型对数据抽象程度最大,表达工具为E-R图。b. 中间层模型中间层模型 对高层数据模型中标识的每个主要的主题域或实体,都要建一个中间层数据模型。中间层数据模型4种基本构造,见图13-10: 联接数据组:本主题域与其他主题域间的联系,一个主题的公共码键。 基本数据组:属于基本不会发生变化的项。 二次数据组:基本不变化,但又存在
9、变化的可能的数据项。 类型数据组:经常变化的数据项。c. 底层模型底层模型 它是从中间层数据模型创建而来的,建立物理模型只需扩展中间层模型,使模型中包含有关键字和物理特性就可以实现。其中物理特性设计需包括: 确定数据的粒度和分区。当然关键字结构得发生改变,以便能加入与每一个数据单元都相关的时间元素。 数据库设计者需要在物理上组织好数据、保证执行一次物理I/O能够返回最大数量的记录。 因为数据仓库中的数据一般不更新,可以考虑一些在经常更新情况下不能使用的物理设计。 上述三个层次的数据模型对应到传统操作型数据库建模中即为:概念模型、逻辑模型和物理模型。在数据仓库的设计中同样存在着这样的模型。数据模
10、型既适用于现有的系统环境也适用于数据仓库中的环境。但数据仓库的数据模型与操作型数据库的三级数据模型又存在着一定的区别:a. 数据仓库的数据模型中不包含纯操作型的数据;b. 数据仓库的数据模型扩充了码结构,增加了时间属性作为码的一部分;c. 数据仓库的数据模型中增加了一些导出数据。数据仓库的数据追加方式常用的技术和方法有:a. 时标方法b. DELTA文件c. 前后映象文件的方法d. 日志文件 数据仓库系统是以数据仓库为基础,通过集成工具、查询工具和分析工具完成对数据的转换和对信息提取的系统。通常采用如图13-11所示的体系结构:数据源、数据存储和管理、数据分析以及数据展示。其中,元数据库是对数
11、据的一种描述,贯穿整个系统的各个部分 数据仓库的数据一般分为操作数据库源数据和外部源数据两部分。 操作数据源包括各种生产系统数据库、联机事务处理系统的操作数据库等; 外部源数据一般来自企业的外部信息,如市场调查与分析及各类文档等。 导入的源数据形成了数据仓库的原始数据,然而源数据只是数据仓库的一部分,但不是全部。由于需要数据仓库进行OLAP分析和数据挖掘,因此需要在原始数据的基础上增加冗余信息,比如进行大量的预运算,建立多维数据库,以求得到更好的分析结果。 数据的存储与管理是整个数据仓库系统的核心。在现有各业务系统的基础上,对数据进行抽取、清理,并有效集成,按照主题进行重新组织,最终确定数据仓
12、库的物理存储结构,同时组织存储数据仓库元数据(具体包括数据仓库的数据字典、记录系统定义、数据转换规则、数据加载频率以及业务规则等信息)。 数据访问和分析工具不但要提供一般的数据访问功能,如查询、汇总、统计等,还要提供对数据的深入分析功能,即数据挖掘的功能,如数据的比较、趋势分析、模式识别等。 数据展示将应用结果,特别是分析、决策结果以多种媒体形式表示。 数据仓库提供了有效地存取和管理大量数据的理想环境,而数据仓库系统的建立是一个由数据驱动、以技术支撑并满足应用需求的不断增长和完善的开发过程。因此数据仓库的设计可以从数据、技术和应用三方面展开,其基本框架如图13-13所示基本框架的各部分描述如下
13、基本框架的各部分描述如下: 项目计划。项目计划是指定义创建数据仓库的项目目标和确定项目范围,包括对项目计划的评估和流程的调整。 业务需求分析。业务需求分析是数据仓库中一个很重要的阶段,好的业务需求分析会使项目成功的机率大大增加。 数据线。数据线的实施可以分为模型设计、物理设计、数据处理三个步骤,用以满足对数据的有效组织和管理。 技术线。技术线的实施分为技术选择和产品选择两个步骤。如何采用合理有效的技术是实现一个好的数据仓库系统的基本条件。 应用线。应用线的实施分为应用设计和应用开发两个步骤。数据仓库的建立最终是为应用服务的,所以需要对应用进行设计和开发,以更好地满足用户的需要。 运行维护。数据
14、仓库建成后就进入运行维护,在运行中要不断验证评价分析设计是否符合用户需求,产生出新的分析要求及时反馈回需求分析,进行系统设计的改进。数据线路: 模型设计。该阶段的主要任务是进行数据仓库的逻辑设计,包括选择合适的主题,确定事实表、相关的维、属性和粒度划分,设计正确的表结构和主键、外键关系等。模型设计主要包括四个基本步骤:确定合适的主题、划分粒度层次、设计维表和设计事实表。 物理设计。物理设计的主要任务是定义支持模型设计必需的物理结构。其过程包括以下三个方面:确定物理存储结构;确定索引策略;确定存储分配。 数据预处理。数据预处理是数据仓库设计工程中非常重要的过程,它由三个主要步骤组成:抽取(Ext
15、raction)、转换(Transformation)、加载(Load),简称ETL。技术线路: 技术路线包括技术选择和产品选择两步。在数据仓库建立的过程中会遇到一些新的特定的问题,如管理大量数据的需求,如何对数据进行快速和方便的访问等。为解决这些问题人们采用了新的技术。 技术选择。技术体系选择必须从为这些技术建立全局的结构框架和视角出发,选择中需要同时考虑三个因素:商业需求、当前的技术环境、计划的策略技术方向。 产品选择。技术体系确定以后需要选择实现数据仓库应用的各种产品,包括硬件平台、ETL工具、OLAP服务器、数据展现工具等,并进行产品的安装和测试。应用线路: 应用设计和开发的一个有效办
16、法是针对不同的用户需求,设计和实现标准的用户应用模板,提供给用户高效的接入方式。应用路线包括应用设计和应用开发两步。 应用设计。应用设计的任务是设计标准的用户应用模板。应用设计的过程一般包括:确定初始的模板集、设计模板的标准、设计详细模板、最后通过用户反馈进行改进。 应用开发。应用开发是通过应用设计说明书,按照标准的软件开发流程,实现模板的设计。应用开发的一般过程是选择实现的方法,然后进行模板的实现、测试和数据验证,最后是应用模板的维护。 OLAP委员会的定义:OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行
17、快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。 联机分析技术具有如下特点:一是在线(On-Line),表现为对用户请求的快速响应和交互操作,它的实现是由客户机服务器体系结构完成的;二是多维分析(Multi-Analysis),这也是OLAP技术的核心所在。具有以下优点: 快速性:用户对OLAP的快速反应能力有很高的要求,主要是指计算机的计算的反应速度,系统应能在5秒内对用户的大部分分析要求做出反应,但对业务数据的实时信息却很难反应。 可分析
18、性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。 多维性:多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。 信息性:不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。 数据仓库、OLAP都以多维数据模型为基础。多维数据模型是数据分析时用户的数据视图,是面向分析的数据模型,可以给分析人员提供多种观察的视角和面向分析的操作。该模型将数据看作多维的数据方体。维是人们观察数据的特定角度。 人们观察数据的某个特定角度还可以存在细节程度不同的多个描述方面,称为维的层次(Hierarchy)。一个数据维又
19、可以包含一个或多个层次 维的一个取值成为该维的一个维成员(Member),是数据项在某维中位置的描述。如前例中所述的每个工厂、每段时间、每种产品都是它们所属维的一个维成员。立方体和超立方(Cube) 多维数据模型的数据结构可以用这样来一个多维数组来表示:(维1,维2,维n,度量值),例如:商品销售数据是按时间、地区、商品种类,加上度量“销售额”组成的一个三维数组:(地区,时间,商品种类,销售额)。三维数组可以用一个立方体来直观的表示。一般地多维数组用多维立方体来表示,但数据立方体并不一定限于三维,因此又称为超立方立方体和超立方(Cube) 数据立方体方法的基本思想是实现某些常用的代价较高的聚集
20、函数的计算,诸如计数、求和、平均、最大值等,并将这些实现视图储存在多维数据库中。因为很多聚集函数需经常重复计算,所以在多维数据立方体中存放预先计算好的结果将能保证快速响应,并可灵活地提供不同角度和不同抽象层次上的数据视图。在数据立方体中,可对数据进行聚集。由于预先计算了所有可能的聚集,因此可加快分析时的响应速度。多维数据集的度量值 多维数据集的度量值是基于多维数据集中事实表的一列或多列,数值型数字。多维数据集的度量值是OLAP分析的核心值,是用户在DW中需要查看的数据,一般是销售量、成本、费用等。多维数据模型的组织模式 对于三维以上的数据方体,很难用可视化的方式直观地表示出来。为此人们用较形象
21、的星型模式和雪花模式来描述多维数据模型。 a.星型模式 星型模式(star Schema)通常由一个中心表(事实表)和一组维表组成。事实表包含大批度量数据。维表一般较小,每维一个。这种模式图很像星星,维表围绕中心表,故命名为星型模式。 星型模型是数据仓库最常见的模型范例。星型模型包括两部分: 事实表一个大的包括大批数据和不含冗余的中心表(包括用于分析的测量指和连接维的键,例如总销售量、月银行存款额、货运量等)。 维表一组小的附属表,每维一个。这种模型图,很象星星爆发。维图围绕事实表显示在射线上。维表包含有描述数据部件的属性,并提供用于比较分析的信息。b.雪花模式雪花模式 雪花模式(Snow F
22、lake schema)是星型模式的变种。在某些维表中,属性列不是基本数据项,仍然是一个维表。也就是说,某些维表不是第一范式。因此要把维表规范化,即把维表进一步分解,生成附加的表,使模式图形成类似于雪花的形状。 雪花模式和星形模式的主要不同在于,冗余度小,维表易于维护,并节省存储空间,但是由于执行查询需要更多的连接操作,雪花模式可能降低查询的性能。 多维分析是指对以多维形式组织起来的数据采取切片(Slice)、切块(Dice)、钻取(Drill-down和Roll-up)、旋转(Pivot)等各种分析动作,以求剖析数据,使用户能从多个角度、多侧面地观察数据库中的数据,从而深入理解包含在数据中的
23、信息。数据切片(slice) 多维数据是由多个维度组成的,如果在某一维度上选定一个取值,则n维多维数据就从n维下降成了n-l维,则称多维数组的子集为多维数组在维度i上的切片。其作用在于舍弃一些观察角度,便于人们对数据的集中观察。这种切片数量取决于维i上的维成员个数。数据切块(Dice) 在多维数组的某一维上选定某一区间的维成员的动作称为切块。切块可以看成是若干个切片的叠加。例如选定n维多维数组(维度1、维度2、维度3、维度n,度量值)中若干维度(通常为3个维度)的取值范围,从而形成该多维数据的子集(维度1、维度2、维度3、AI维度iBl,A2维度jB2,A3维度kB4,维度n,度量值),即为该
24、多维数组的一个切块。 切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个或以上,则是切块。数据聚合和钻取 前面提到维度是具有层次性的,层次性实际上反映了数据的综合程度。维度层次越高,代表的数据综合度越高,细节越少,数据量越少;维度层次性越低,则代表的数据综合度越低,细节越充分,数据量越大。数据聚合和钻取是在维度层次上互为逆操作的两种OLAP基本分析动作,是改变维的层次,变换分析的粒度。数据聚合是对数据进行高层次综合的操作;是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;数据钻取则是从较高的维度层次下降到较低的维度层次的
25、操作,它从汇总数据深入到细节数据进行观察或增加新维。钻取的深度与维所划分的层次相对应。旋转 旋转即改变一个报告或页面显示的维方向。通过旋转可以得到不同视角的数据。例如:旋转可能包含交换行和列,或是把某一个行维移到列维中去,或把页面显示中的一个维和页面外的维进行交换。 数据仓库与OLAP的关系是互补的,现代OLAP系统一般以数据仓库作为基础,即从数据仓库中抽取详细数据的一个子集并经过必要的聚集存储到OLAP存储器中供前端分析工具读取。OLAP的具体实现方案通常采用三层客户/服务器结构。如图13-14所示。数据仓库服务器OLAP服务器前端展示工具SQL 查询查询结果请求返回结果返回结果SQL图13
26、-14 OLAP三层客户/服务器结构数据仓库服务器 数据仓库服务器:实现和基层运营数据库系统的连接,完成企业级数据一致和数据共享的工作 OLAP服务器:根据最终客户的请求实现分解成OLAP分析的各种分析动作,并使用DW中的数据完成这些动作 前端展示工具:将OLAP服务器处理得到的结果用直观的方式展现给最终用户。 OLAP系统按照其存储器的数据存储格式可以分为关系OLAP(Relational OLAP,简称ROLAP)、多维OLAP(Multidimensional OLAP,简称MOLAP)和混合型OLAP(Hybrid OLAP,简称HOLAP)三种类型。DB图 13-15 MOLAP 结
27、构图DBDBOLTP数据库多维数据库OLAP服务器OLAP客户端分析数据MOLAP MOLAP利用一个专有的多维数据库来存储OLAP分析所需的数据,数据以多维方式存储,并以多维视图方式显示,其结构如图13-15所示。 MOLAP结构的主要优点是它能迅速响应决策分析人员的分析请求,并快速地将分析结果返回给用户,这得益于它独特的多维数据库结构以及存储在其中的预处理程度很高的数据(一般预处理程度在85%以上)。在MOLAP结构中,OLAP主要是通过读取经过预处理的数据来完成分析操作,而这些预处理操作是预先定义好的,这就限制了MOLAP结构的灵活性。ROLAP ROLAP在功能上类似于MOLAP,但是它的底层数据库是关系数据库,而不是多维数据库,其结构如图13-16所示。DB图 13-16 ROLAP
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025甘肃金昌市人力资源和社会保障局招聘公益性岗位人员1人模拟试卷附答案详解(考试直接用)
- 2025广西西平乡人民政府招聘村级财务会计委托代理服务中心会计人员2人考前自测高频考点模拟试题及答案详解参考
- 2025海南省三亚中心医院(海南省第三人民医院)招聘145人考前自测高频考点模拟试题及参考答案详解
- 2025年中国环氧树脂延长剂行业市场分析及投资价值评估前景预测报告
- 2025福建省华兴集团有限责任公司招聘考前自测高频考点模拟试题带答案详解
- 2025年潍坊诸城市市属国有企业公开招聘工作人员(9名)考前自测高频考点模拟试题及答案详解(考点梳理)
- 2025江西南昌市劳动保障事务代理中心招聘外包保洁员2人模拟试卷附答案详解(考试直接用)
- 2025年马鞍山和县公开引进高中教师12人模拟试卷有答案详解
- 2025年南通醋酸纤维有限公司招聘(36人)模拟试卷及答案详解一套
- 2025广西卫生职业技术学院招聘高层次人才22人模拟试卷附答案详解
- 避孕药具宣传咨询方案
- 既有建筑幕墙安全培训课件
- 2025~2026学年度武汉市部分学校高三年级九月调研考试【含答案】
- 中国原发性闭角型青光眼诊治方案专家共识(2025年)解读
- 数字化背景下提升高校思政课教学精准性路径探索
- 英语A级常用词汇
- 气管切开非机械通气患者气道护理团体标准课件
- 儿童舞台剧《梁山伯与祝英台》剧本
- 能源的需求与供给
- 船舶贸易知到章节答案智慧树2023年上海海事大学
- GB/T 10752-2005船用钢管对焊接头
评论
0/150
提交评论