商务智能技术基础_第1页
商务智能技术基础_第2页
商务智能技术基础_第3页
商务智能技术基础_第4页
商务智能技术基础_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章商务智能技术基础,内容提要,2.1商务智能系统组成及技术基础2.2数据仓库技术2.3联机分析技术2.4数据挖掘技术2.5数据展现技术,2.1商务智能系统架构,商务智能系统架构,抽取转换装载,OLAP服务器数据挖掘服务器报表设计工具,外部数据源,业务系统数据源,元数据,元数据,数据仓库,用户,分析人员,。,数据源数据预处理数据仓库数据分析数据展现,图1.3商务智能系统的组成,商务智能系统架构,商务智能系统的最大好处是可以得到准确、及时的信息,帮助企业赢得竞争优势,这些功能的完成主要依靠DW、DM和OLAP三大技术和数据预处理、建立数据仓库、数据分析及数据展现四个阶段。,数据预处理是整合企业原始数据的第一步,包括数据抽取、转换和装载三个过程;数据仓库则是处理海量数据的基础;数据分析是体现系统智能的关键,一般采用OLAP和DM两大技术。OLAP不仅进行数据汇总/聚集,同时还提供切片、切块、下钻、上卷和旋转等数据分析功能,用户可以方便地对海量数据进行多维分析。数据挖掘则是挖掘数据背后隐藏的知识,通过关联分析、聚类和分类等方法建立分析模型,预测企业未来发展趋势和将要面临的问题。数据展现则主要保障系统分析结果的可视化。,数据分析平台(数据挖掘、报表展现和OLAP工具),外部数据源,业务处理系统数据源,数据仓库,商务智能应用,元数据,商务智能框架图,二、商务智能技术简介,1.DW(数据仓库)必要性:实施BI首先要从企业内部和企业外部不同的数据源,如客户关系管理(CRM)、供应链管理(SCM)、企业资源规划(ERP)系统以及其他应用系统等搜集有用的数据,进行转换和合并,因此需要数据仓库和数据集市技术的支持。概念:数据仓库(DataWarehouse)是一种语义上一致的数据存储,是指从多个数据源收集的信息,以一种一致的存储方式保存所得到的数据集合。面向不同的需求,对数据进行清洗以保证数据的正确性,然后对数据进行抽取,转换成数据仓库所需形式,并实现加载到数据仓库。数据仓库技术是基于信息系统业务发展的需要,基于数据库系统技术发展而来,并逐步独立的一系列新的应用技术。数据仓库技术就是基于数学及统计学严谨逻辑思维的并达成“科学的判断、有效的行为”的一个工具。数据仓库技术也是一种达成“数据整合、知识管理”的有效手段。,二、商务智能技术简介,2.OLAP(联机分析处理)联机分析处理(OLAP)又称多维分析,它对数据仓库中的数据进行多维分析和展现,是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据更深入了解的一类软件技术。它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。进行OLAP分析的前提是已有建好的数据仓库,之后即可利用OLAP复杂的查询能力、数据对比、数据抽取和报表来进行探测式数据分析了。称其为探测式数据分析,是因为用户在选择相关数据后,通过切片(按二维选择数据)、切块(按三维选择数据)、上钻(选择更高一级的数据详细信息以及数据视图)、下钻(展开同一级数据的详细信息)、旋转(获得不同视图的数据)等操作,可以在不同的粒度上对数据进行分析尝试,得到不同形式的知识和结果。联机分析处理研究主要集中在ROLAP(基于关系数据库的OLAP)的查询优化技术和MOLAP(基于多维数据组织的OLAP)中减少存储空间和提高系统性能的方法等。OLAP操作语言:通过扩展数据库的操作语言SQL,得到MSQL(MultipleSQL)。,二、商务智能技术简介,3.DM(数据挖掘)数据挖掘是从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程。与OLAP的探测式数据分析不同,数据挖掘是按照预定的规则对数据库和数据仓库中已有的数据进行信息开采、挖掘和分析,从中识别和抽取隐含的模式和有趣知识,为决策者提供决策依据。数据挖掘的任务是从数据中发现模式。模式有很多种,按功能可分为两大类:预测型(Predictive)模式和描述型(Descriptive)模式。预测型模式是可以根据数据项的值精确确定某种结果的模式。挖掘预测型模式所使用的数据也都是可以明确知道结果的。描述型模式是对数据中存在的规则做一种描述,或者根据数据的相似性把数据分组。,二、商务智能技术简介,4.三大核心技术之间关系DW是前提和基础。负责统一数据规则的处理和存储。OLAP是操作,侧重显性知识处理和分析。DM是发现,侧重于隐性知识发掘和利用。OLAP与数据挖掘的区别和联系是:OLAP侧重于与用户的交互、快速的响应速度及提供数据的多维视图,而数据挖掘则注重自动发现隐藏在数据中的模式和有用信息,尽管允许用户指导这一过程。OLAP的分析结果可以给数据挖掘提供分析信息作为挖掘的依据,数据挖掘可以拓展OLAP分析的深度,可以发现OLAP所不能发现的更为复杂、细致的信息。数据挖掘的研究重点则偏向数据挖掘算法以及数据挖掘技术在新的数据类型、应用环境中使用时所出现新问题的解决上,如对各种非结构化数据的挖掘、数据挖掘语言的标准化以及可视化数据挖掘等。,2.2.1从数据库到数据仓库2.2.2数据仓库的定义和特点2.2.3数据仓库体系结构2.2.4数据仓库的设计与实施建立2.2.5数据仓库系统的评价标准,2.2数据仓库(DataWarehouse),事务型处理,事务型处理:即操作型处理,是指对数据库的联机操作处理OLTP。事务型处理是用来协助企业对响应事件或事务的日常商务活动进行处理。它是事件驱动、面向应用的,通常是对一个或一组记录的增、删、改以及简单查询等(大量、简单、重复和例行性)。在事务型处理环境中,数据库要求能支持日常事务中的大量事务,用户对数据的存取操作频率高而每次操作处理的时间短。,2.2.1从数据库到数据仓库,分析型处理,分析型处理:用于管理人员的决策分析,例如DSS、EIS和多维分析等。它帮助决策者分析数据以察看趋向、判断问题。分析型处理经常要访问大量的历史数据,支持复杂的查询。分析型处理过程中经常用到外部数据,这部分数据不是由事务型处理系统产生的,而是来自于其他外部数据源。,事务型处理数据和分析型处理数据的区别,数据库系统的局限性,数据库适于存储高度结构化的日常事务细节数据,而决策型数据多为历史性、汇总性或计算性数据,多表现为静态数据,不需直接更新,但可周期性刷新。决策分析型数据是多维性,分析内容复杂。在事务处理环境中,决策者可能并不关心具体的细节信息,在决策分析环境中,如果这些细节数据量太大一方面会严重影响分析效率,另一方面这些细节数据会分散决策者的注意力。,数据库系统的局限性(续),当事务型处理环境和分析型处理环境在同一个数据库系统中,事务型处理对数据的存取操作频率高,操作处理的时间短,而分析型处理可能需要连续运行几个小时,从而消耗大量的系统资源。决策型分析数据的数据量大,这些数据有来自企业内部的,也有来自企业外部的。来自企业外部的数据又可能来自不同的数据库系统,在分析时如果直接对这些数据操作会造成分析的混乱。对于外部数据中的一些非结构化数据,数据库系统常常是无能为力。,多库系统的限制,可用性:源站点或通信网络故障将导致系统瘫痪,源站点不能通过网络在线联入多库系统。响应速度:全局查询多级转换和通信传输,延迟和低层效率影响响应速度。系统性能:总体性能取决于源站点中性能最低的系统,影响系统性能的发挥;系统开销:每次查询要启动多个局部系统,通信和运行开销大。,实施数据仓库的条件,数据积累已达到一定规模面临激烈的市场竞争在IT方面的资金能得到保障,数据仓库的发展,自从NCR公司为WalMart建立了第一个数据仓库。1996年,加拿大的IDC公司调查了62家实现了数据仓库的欧美企业,结果表明:数据仓库为企业提供了巨大的收益。早期的数据仓库大都采用当时流行的客户/服务器结构。近年来分布式对象技术飞速发展,整个数据仓库体系结构从功能上划分为若干个分布式对象,这些分布式对象不仅可以直接用于建立数据仓库,还可以在应用程序中向用户提供调用的接口。IBM的实验室在数据仓库方面已经进行了10多年的研究,并将研究成果发展成为商用产品。其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。,2.2.2数据仓库(DataWarehouse)的定义和特点,数据仓库用来保存从多个数据库或其它信息源选取的数据,并为上层应用提供统一用户接口,完成数据查询和分析。支持整个企业范围的主要业务来建立的,主要特点是,包含大量面向整个企业的综合信息及导出信息。数据仓库是作为DSS服务基础的分析型DB,用来存放大容量的只读数据,为制定决策提供所需要的信息。数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的、面向主题及不可更新的数据集合。以1992年WHInmon出版BuildingtheDataWarehouse为标志,数据仓库发展速度很快。WHInmon被誉为数据仓库之父。WHInmon对数据仓库所下的定义:数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。,面向主题,数据仓库中的数据是按照各种主题来组织的。主题在数据仓库中的物理实现是一系列的相关表,这不同于面向应用环境。如保险公司按照应用组织可能是汽车保险、生命保险、伤亡保险,而数据仓库是按照客户、政策、保险金和索赔来组织数据。面向主题的数据组织方式可在较高层次上对分析对象的数据给出完整、一致的描述,能完整、统一的刻画各个分析对象所涉及的企业的各项数据以及数据之间的联系,从而适应企业各个部门的业务活动特点和企业数据的动态特征,从根本上实现数据与应用的分离。,面向主题,汽车人寿健康意外伤亡,操作性环境,应用,顾客保险单保险费索赔,数据仓库,主题,集成性,数据仓库中的数据是从原有分散的源数据库中提取出来的,其每一个主题所对应的源数据在原有的数据库中有许多冗余和不一致,且与不同的应用逻辑相关。为了创建一个有效的主题域,必须将这些来自不同数据源的数据集成起来,使之遵循统一的编码规则。,集成,数据库应用Am,f应用B1,0应用Cx,y应用D男,女,数据仓库m,f,编码,应用A管道cm应用B管道inches应用C管道mcf应用D管道yds,管道cm,属性度量,稳定性,数据仓库内的数据有很长的时间跨度,通常是5-10年。数据仓库中的数据反映的是一段时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于撰写快照进行统计、综合和重组的导出数据。主要供企业高层决策分析之用,所涉及的数据操作主要是查询,一般情况下并不进行修改操作.数据仓库中的数据是不可实时更新的,仅当超过规定的存储期限,才将其从数据仓库中删除,提取新的数据经集成后输入数据仓库。,稳定性,插入,删除,插入,修改,删除,访问,修改,访问,数据的逐个记录方式处理,数据的批量载入/访问,数据库,数据仓库,时变性,时变性:许多商业分析要求对发展趋势做出预测,对发展趋势的分析需要访问历史数据。因此数据仓库必须不断捕捉OLTP数据库中变化的数据,生成数据库的快照,经集成后增加到数据仓库中去;另外数据仓库还需要随时间的变化删去过期的、对分析没有帮助的数据,并且还需要按规定的时间段增加综合数据。,随时间变化,数据库,数据仓库,时间期限:当前到6090天记录更新键码结构可能包括也可能不包括时间元素,时间期限:510年数据的复杂快照键码结构包括时间元素,支持管理决策,数据仓库支持OLAP(联机分析处理)、数据挖掘和决策分析。OLAP从数据仓库中的综合数据出发,提供面向分析的多维模型,并使用多维分析的方法从多个角度、多个层次对多维数据进行分析,使决策者能够以更加自然的方式来分析数据。数据挖掘则以数据仓库和多维数据库中的数据为基础,发现数据中的潜在模式和进行预测。因此,数据仓库的功能是支持管理层进行科学决策,而不是事务处理。,BI系统VS决策盲点,某大型国有企业老总当他查看近十年企业的生产和运营数据时,手边得到了各种各样不同的数据报表。这些数据报表大致可以分成两种类型:一种是两年前、即ERP上线之前的,这是一些简单、杂乱而又枯燥的数字;另一种是有了ERP以后的,数据变得清楚而有条理起来,同时还有来自ERP、CRM、SCM以及计费业务等不同应用的数据和各种分析报告。在仔细查看这些报表之后,这位国企老总惊讶地发现,不同的系统可以得出截然相反的两种结论。例如某一产品,它的动态成本反映在ERP系统和CRM、SCM系统里面相差很大,如果引用ERP和CRM里面的数据,它就是一款很成功、销量很好的产品,但在SCM里面来看,它的采购和物流成本过高,导致了这款看起来很成功的产品实际上是一笔赔钱的买卖。,BI系统VS决策盲点(续),其实从这些来自不同系统的数据基础产生不同的判断很正常,因为这些系统并不会去周密地“思考”在自己“职责”之外的事情。这样就给企业的领导提交了相当多顾此失彼的分析报告,结果就是导致了许多市场决策上的混乱和失误。把企业的内部数据和外部数据(企业内部数据就是指上述通过业务系统SCM、ERP、CRM等收集到的数据,这些数据可能在不同的硬件、数据库、网络环境中,为不同的业务部门服务。外部数据是市场信息和外部竞争对手的信息)。进行有效的集成,形成直观的、易于理解的信息,再进行分析和思考,为企业的各层决策及分析人员使用。,数据仓库系统的结构,2.2.3数据仓库体系结构,源数据部分1生产数据:企业的各种事务型数据库2内部数据:用户自己的数据资料内部数据增加了数据转换和整合过程的复杂性3存档数据:定期存储的旧数据4外部数据:是决策主要的信息来源,2.2.3数据仓库体系结构,数据准备1数据抽取:从数据仓库的角度来看,并不是业务数据库中的所有数据都是决策支持所必需的。通常,数据仓库按照分析的主题来组织数据,我们只需要提取出系统分析必需的那一部分数据。例如,某超市确定以分析客户的购买行为为主题建立数据仓库,则我们只需将同客户购买行为相关的数据提取出来,而超市服务员工的数据就没有必要放进数据仓库。现有的数据仓库产品几乎都提供各种关系型数据接口,从关系型数据中提取数据。,2.2.3数据仓库体系结构,数据准备2数据转换:数据仓库的数据转换比事务型系统的更复杂,因为数据仓库的数据来自不同的数据源。步骤:(1)数据清洗(2)数据标准化(3)数据汇总,(1)数据清洗(DataCleaning)由于企业常常为不同的应用对象建立不同的业务数据库,比如一个电信运营公司拥有计费数据库、账务数据库、客户数据库、客户投诉数据库等业务系统,这些业务系统中可能包含重复的信息,比如客户数据库中的部分客户基本信息也在客户投诉数据库中存在。由于不同的数据库可能使用不同数据库公司的产品,不同的业务系统可能有不同的软件开发商提供,这使得各个业务数据库中的数据存在不一致的现象,数据库使用人员的操作失误也会造成数据的不一致。,如图2-2所示,显示了一个数据不一致的例子。客户数据库中有一张客户基本信息表,其中记录了客户的客户号、姓名、年龄等基本信息。在客户服务数据库中有一张客户咨询信息表用于记录客户咨询问题的内容和解答。由于数据库使用人员的失误,使得在客户基本信息表中的100号客户“张山”,在客户咨询表中的客户姓名被错误的录入为“张三”。,由于冗余的数据存放在不同的数据库中,如果不同数据库间的数据刷新不是实时的,则可能出现数据不同步的情况。如图2-3所示,在客户基本信息表中记录了100号客户“张山”的手机状态正常,如果此时张山去办理停机手续,在客户业务变更表中,张山的手机状态将被修改为“停机”,如果数据刷新不够实时,客户基本信息表中的手机服务状态将与客户业务变更表不同步。,(2)数据标准化由于业务系统可能使用不同的数据库厂商的产品,比如IBMDB2、Informix、Sybase、SQLServer、NCR等,各种数据库产品提供的数据类型可能不同,因此需要将不同格式的数据转换成统一的数据格式。比如图2-4中所示的不同时间格式的差异。,(3)数据汇总组合从不同数据源提取的数据;清除没有用途的源数据,将原纪录进行新的组合。,2.2.3数据仓库体系结构,数据准备3数据装载:数据仓库创建之初的数据装载;数据仓库使用过程中的数据装载。,2.2.3数据仓库体系结构,数据存储1数据仓库:提供数据存放的地方并提供数据检索支持。数据的存储方式主要有3种:多维数据库、关系型数据库以及前两种存储方式的结合。2数据集市3元数据,2.数据集市(DataMarket)面向企业的某个部门(主题)而在逻辑上或物理上划分出来的数据仓库中的数据子集称为数据集市。区别:数据仓库面向整个企业,而数据集市则是面向企业中的某个部门。数据仓库中存放了企业的整体信息,而数据集市只存放了某个主题需要的信息,其目的是减少数据处理量,使信息的利用更快捷、灵活。,3.元数据,数据是对事物的描述,“元数据”就是描述数据的数据,它提供了有关数据的环境。,事务型元数据:元数据描述关于源数据的说明,包括源数据的来源、源数据的名称、源数据的定义、源数据的创建时间等对源数据进行管理所需要的信息。源数据的来源说明源数据是从哪个系统、哪个历史数据、哪个办公数据、哪个Web页、哪个外部系统抽取而来。源数据说明源数据在数据仓库的作用、用途、数据类型和长度等。,元数据,抽取和转换元数据:是用来描述数据的数据。它描述和定位数据组件、它们的起源及它们在数据仓库进程中的活动;关于数据和操作的相关描述(输入、计算和输出)。元数据可用文件存在元数据库中。元数据反映数据仓库中的数据项是从哪个特定的数据源填充的,经过哪些转换、集成过程。要有效的管理数据仓库,必须设计一个描述能力强、内容完善的元数据。,元数据,最终用户元数据:是数据仓库的导航图,是最终用户可以在数据仓库中找到自己需要的信息,建立了最终用户的多维商业模型和前端工具之间的映射。,下面通过一个简单的例子说明元数据的基本内容,如图2-5所示:我们从Customer业务数据库的user表中取出3列(user_id,user_name,address),在清洗转换过程中,将user_name从char(20)转化成varchar(50)格式,最终放进User维表(User_ID,User_Name,Address)中。在转换后,(User_ID,User_Name,Address)3列原始的存放位置、进行的清洗转化处理、数据最终的存放位置、数据格式、数据使用的规则等等都将作为元数据的一部分。通常数据库将建立专用的元数据库来存放和管理元数据。,2.2.3数据仓库体系结构,信息传递,独立的数据集市架构(Independentdatamartarchitecture)独立的数据集市架构有时也称为独立的数据仓库架构,应该是出现最早的架构方式,也是很常见的方式。特别是对于中小企业、中小开发公司,出于成本和见效快的考虑都会采用这种架构方式。大家对这种架构方式一定也很熟。这种架构方式的缺点也很明显,不是企业内一致的数据,产生信息孤岛。当然如果企业就是很小,就一个系统,不用整合,一个数据集市足以的情况下采用这种方式也没什么。先期小投资,让企业看看效果,以后发展大了再考虑重新建立数据仓库。,数据仓库系统的体系架构,数据仓库系统的体系结构,基于独立数据集市的数据仓库体系结构,2联邦式数据仓库架构(Federateddatawarehousearchitecture)它的出现是由于企业发展的初期建立了几个独立的数据集市架构,后来发现这样不行,数据没整合,要解决信息孤岛得想办法。推倒重建当然好,不过投入太大,以前的数据集市还想用,怎么办。于是,想出另一种办法,在各个独立的数据集市间建立一些对照表,在不推倒它们的基础上能进行一下数据交换。后来,慢慢发现,早想好整合策略,直接这样建数据仓库也可以,于是,地域联邦、功能联邦的概念也就都提出来了。联邦架构的缺点也很明显,除非建立之初就采用类似总线架构的方法实现数据一致,否则很容易出现数据不一致,导致整合的不彻底。如果之初就考虑好的话,和总线架构的差别就不大了。当然,对于临时解决企业原有独立数据集市的数据交换问题,联邦架构还是有一定作用的。,3集中式架构(Centralizedarchitecture)集中式架构方式的出现,标识着数据仓库架构已经进入比较成熟的时期。它的架构方式是建立物理的EDW,即中心数据仓库,数据都集中的EDW中,应用和分析程序都在EDW中进行访问,数据是全企业内一致的。随着ROLAP的发展,在这种集中式架构中建立ROLAP开始比较流行,常见的MicroStrategy公司的解决方案就是在EDW中建立ROLAP。ROLAP单独建表保存元数据,只保存维度模型的关系,不保存维度模型的数据,由MicroStrategy的应用去解析,加上应用服务器作为缓存,速度还可以。这种方式也有一些缺点,如扩展能力差,对EDW所在的RDBMS要求太高,随着数据量和分析的逐步增长,就不得不再把数据进行分离。如果在EDW的基础上进行数据分离,为不同的应用单独建立数据集市或者挖掘仓库,集中式结构也就演变成HubandSpoke架构方式。,4集线器和车轮辐条架构(Hubandspokearchitecture或Corporateinformationfactoryarchitecture)企业信息工厂应该是这种架构方式的最出色的代表。从名称我们也能大概猜个差不多,中心数据仓库EDW从各个源系统收集数据,将数据提供给各个数据集市和挖掘仓库,功能和集线器很相似,所以称为Hub。如果大家把图画出来,可能会更形象一些,EDW和各个源数据库及数据集市、挖掘仓库之间都连一条线,看起来就向一个车轮,这些连线就像车轮辐条,所以称为Spoke。而这种采用中心数据仓库EDW集成数据,再分散到各个数据集市使用数据的方式就形象的称为Hubandspokearchitecture。缺点:虽然是在集成的中心数据仓库EDW上建立数据集市,但是这些数据集市之间还是不能进行数据交换的,大家建立的方法和ETL程序都会不同,各个数据集市之间的数据不见得的是一致的。而且这种架构方式开始变得复杂。,5总线架构(Busarchitecture)总线架构和Hubandspokearchitecture的最大区别,应该是维度建模的原子层和一致性维度的建立。正因为预先建立的总线架构和一致性维度,所以这种架构可以保证在逐步建立数据集市的过程中还能保证企业数据的一致性。总线架构是数据仓库架构方式从复杂走向简单的一步,将维度建模的数据仓库原子层和数据集市合而为一,一层就把数据仓库建立好的,还能支持各种数据集市分析应用。当然总线架构也有缺点,中心数据仓库以维度模型保存,对于特殊的非维度型分析应用会有局限性,支持的不好。,2.2.4数据仓库的设计与实施建立,数据仓库的体系架构,与数据库应用系统的开发过程相比,有如下几方面不同:面向的处理类型不同;面向的需求不同;系统设计的目标不同;两者的数据来源或系统的输入不同;系统设计的方法和步骤不同;,2.2.4数据仓库的设计与实施建立,数据库应用开发过程SDLC,数据仓库的开发过程CLDS,数据仓库开发的特点:数据驱动,数据驱动:从已有数据出发的数据仓库设计方法称为“数据驱动”的系统设计方法。利用以前所取得的工作成果不再是面向应用利用数据模型数据模型是联系操作型数据环境的设计、数据仓库数据环境的设计、操作型数据处理应用的开发和设计以及DSS应用的开发与设计的纽带,规划分析阶段数据仓库开发过程设计实施使用维护阶段阶段,数据仓库的螺旋式开发方法,数据仓库实现策略,数据仓库的数据模型,概念模型,由于大多数商务数据是多维的,但传统的数据模型表示三维以上的数据有一定困难。概念模型简化了这个过程并且允许用户与开发者和其他用户建立联系:确定系统边界:决策类型、需要的信息、原始信息确定主题域及其内容:主题域的公共键码、联系、属性组确定维度:如时间维、销售位置维、产品维、组别维等确定类别:相应维的详细类别确定指标和事实:用于进行分析的数值化信息,实例,例试画出销售分析的概念模型。解:首先根据销售分析的实际需求,确定信息包的维度、类别和指标与事实:(1)维度:包括日期维、销售地点维、销售产品维、年龄组别维、性别维等。(2)类别:确定各维的详细类别,如:日期维包括年(10)、季度(40)、月(120)等类别,括号中的数字分别指出各类别的数量;销售地点维包括国家(15)、区域(45)、城市(280)、区(880)、商店(2000)等类别,括号中的数字同样分别指出各类别的数量;类似地,可以确定销售产品、年龄组别维、性别维等的详细类别。(3)度量和事实:确定用于进行分析的数值化信息,包括预测销售量、实际销售量和预测偏差等。,销售分析的概念模型,信息包:销售分析维度,类别,概念模型图实例,逻辑模型,星型图:数据仓库的数据模型的第二层是向最终的数据结构添加某些细节的星型图模型。与传统的关系模型相比,星型图模型简化了用户分析所需的关系,从支持决策的角度去定义数据实体,更适合大量复杂查询。星形图包括了三种逻辑实体:指标、维度和详细类别维表的本质是多维分析空间在某个角度上的投影,多个维表共同建立一个多维分析空间。,sales数据仓库的雪花模式,星型模型例子,物理数据模型,物理数据模型:数据模型的第三层,它是星型图模型在数据仓库中的实现,如物理的存取方式、数据存储结构等。在物理设计时,常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类,并将不同类的数据分别存储在不同的存储设备中。重要程度高、经常存取并对响应时间高的数据就存放在高速存储设备上,如硬盘;存取频率低或对存取响应时间要求低的数据则可以放在低速存储设备上。,粒度,粒度:对数据仓库中的数据综合程度高低的一个度量,它既影响数据仓库中的数据量的多少,也影响数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论