第9章数据仓库与CRM_第1页
第9章数据仓库与CRM_第2页
第9章数据仓库与CRM_第3页
第9章数据仓库与CRM_第4页
第9章数据仓库与CRM_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第第9 9章章 数据仓库与客户关系管理数据仓库与客户关系管理9.1 9.1 数据仓库概述数据仓库概述9.2 CRM9.2 CRM中的数据仓库中的数据仓库9.3 9.3 数据仓库的实施数据仓库的实施9.4 CRM9.4 CRM数据仓库设计示例数据仓库设计示例9.5 CRM9.5 CRM数据仓库使用示例数据仓库使用示例9.1 9.1 数据仓库概述数据仓库概述v 数据仓库与数据仓库与CRMCRM有着难以割舍的密切关系,客户关系管理的有着难以割舍的密切关系,客户关系管理的很多工作都是以数据仓库为基础展开的。从某种意义上说,很多工作都是以数据仓库为基础展开的。从某种意义上说,数据仓库是客户关系管理的灵魂

2、。数据仓库是客户关系管理的灵魂。v 利用数据仓库,企业可以对客户行为的分析与预测,从而利用数据仓库,企业可以对客户行为的分析与预测,从而制定准确的市场策略、发现企业的重点客户和评价市场性制定准确的市场策略、发现企业的重点客户和评价市场性能,并通过销售和服务等部门与客户交流,实现企业利润能,并通过销售和服务等部门与客户交流,实现企业利润的提高。的提高。v 对于客户量大、市场策略对企业影响较大的企业来说,必对于客户量大、市场策略对企业影响较大的企业来说,必须在客户关系管理系统中包含数据仓库。须在客户关系管理系统中包含数据仓库。9.1.1 9.1.1 数据仓库的产生数据仓库的产生v早期的数据库主要支

3、持联机事务处理早期的数据库主要支持联机事务处理v决策支持对数据分析的需求决策支持对数据分析的需求v传统数据库系统不适宜传统数据库系统不适宜DSSv事务处理和分析处理的性能特性不同事务处理和分析处理的性能特性不同v数据集成问题数据集成问题v数据动态集成问题数据动态集成问题v历史数据问题历史数据问题v数据的综合问题数据的综合问题操作繁简问题操作繁简问题(1 1)事务处理和分析处理的性能特性不同。)事务处理和分析处理的性能特性不同。v所有联机事务处理强调的是数据更新处理性能和系统的所有联机事务处理强调的是数据更新处理性能和系统的可靠性,并不关心数据查询的方便与快捷。在事务处理可靠性,并不关心数据查询

4、的方便与快捷。在事务处理环境中,用户的行为特点是数据的存取操作频率高而每环境中,用户的行为特点是数据的存取操作频率高而每次操作处理的时间短。次操作处理的时间短。v在分析处理环境中,用户的行为模式与此完全不同,强在分析处理环境中,用户的行为模式与此完全不同,强调的是数据处理和分析的能力。在传统数据库系统基础调的是数据处理和分析的能力。在传统数据库系统基础上的上的DSSDSS应用程序可能需要连续几个小时,从而消耗大量应用程序可能需要连续几个小时,从而消耗大量的系统资源。的系统资源。v联机分析和事务处理对系统的要求不同,同一个数据库联机分析和事务处理对系统的要求不同,同一个数据库在理论上难以做到两全

5、,将具有如此不同处理性能的两在理论上难以做到两全,将具有如此不同处理性能的两种应用放在同一个环境中运行显然是不适当的。种应用放在同一个环境中运行显然是不适当的。(2 2)数据集成问题。)数据集成问题。vDSSDSS需要集成的数据。全面而正确的数据是有效的分析和需要集成的数据。全面而正确的数据是有效的分析和决策的首要前提,相关数据收集得越完整,得到的结果就决策的首要前提,相关数据收集得越完整,得到的结果就越可靠。当前绝大多数企业内数据的真正状况是分散而非越可靠。当前绝大多数企业内数据的真正状况是分散而非集成的。集成的。v造成这种分散的原因有多种,主要有事务处理应用分散、造成这种分散的原因有多种,

6、主要有事务处理应用分散、“蜘蛛网蜘蛛网”问题、数据不一致问题、外部数据和非结构化问题、数据不一致问题、外部数据和非结构化数据。数据。(3 3)数据动态集成问题。)数据动态集成问题。v 静态集成的最大缺点在于,如果在数据集成后数据源静态集成的最大缺点在于,如果在数据集成后数据源中数据发生了变化,这些变化将不能反映给决策者,中数据发生了变化,这些变化将不能反映给决策者,导致决策者使用的是过时的数据。导致决策者使用的是过时的数据。v 集成数据必须以一定的周期(例如集成数据必须以一定的周期(例如2424小时)进行刷新,小时)进行刷新,我们称其为动态集成。显然,事务处理系统不具备动我们称其为动态集成。显

7、然,事务处理系统不具备动态集成的能力。态集成的能力。(4 4)历史数据问题。)历史数据问题。v 事务处理一般只需要当前数据,在数据库中一般也是事务处理一般只需要当前数据,在数据库中一般也是存储短期数据,切不同数据的保存期限也不一样,即存储短期数据,切不同数据的保存期限也不一样,即使有一些历史数据保存下来了,也被束之高阁,未得使有一些历史数据保存下来了,也被束之高阁,未得到充分利用。到充分利用。v 但对于决策分析而言,历史数据是相当重要的,许多但对于决策分析而言,历史数据是相当重要的,许多分析方法必须一大量的历史数据为依托。没有历史数分析方法必须一大量的历史数据为依托。没有历史数据的详细分析,是

8、难以把握企业的发展趋势的。据的详细分析,是难以把握企业的发展趋势的。DSSDSS对对数据在空间和时间的广度上都有了更高的要求,而事数据在空间和时间的广度上都有了更高的要求,而事务处理环境难以满足这些要求。务处理环境难以满足这些要求。(5)数据的综合问题。)数据的综合问题。v 在事务处理系统中积累了大量的细节数据,一般而言,在事务处理系统中积累了大量的细节数据,一般而言,DSS并不对这些细节数据进行分析。在分析前,往往并不对这些细节数据进行分析。在分析前,往往需要对细节数据进行不同程度的综合。而事务处理系需要对细节数据进行不同程度的综合。而事务处理系统不具备这种综合能力,根据规范化理论,这种综合

9、统不具备这种综合能力,根据规范化理论,这种综合还往往因为是一种数据冗余而加以还往往因为是一种数据冗余而加以限制。限制。(6 6)操作繁简问题。)操作繁简问题。v业务数据的模式是针对事务处理系统而设计的,业务数据的模式是针对事务处理系统而设计的,数据的格式和描述方式并不适合非计算机专业数据的格式和描述方式并不适合非计算机专业人员进行业务上的分析和统计。人员进行业务上的分析和统计。v 有人感叹:有人感叹:20年前查询不到数据是因为数据太少了,而今年前查询不到数据是因为数据太少了,而今天查询不到数据是因为数据太多了。天查询不到数据是因为数据太多了。v 要提高分析和决策的效率和有效性,分析型处理及其数

10、据要提高分析和决策的效率和有效性,分析型处理及其数据必须与操作型处理及其数据相分离。必须把分析型数据从必须与操作型处理及其数据相分离。必须把分析型数据从事务处理环境中提取出来,按照事务处理环境中提取出来,按照DSSDSS处理的需要进行重新组处理的需要进行重新组织,建立单独的分析处理环境,数据仓库正是为了构建这织,建立单独的分析处理环境,数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术。种新的分析处理环境而出现的一种数据存储和组织技术。v 数据仓库的数据从联机的事务处理系统、异构的外部数据数据仓库的数据从联机的事务处理系统、异构的外部数据源、脱机的历史业务数据中得到。它是一

11、个联机的系统,源、脱机的历史业务数据中得到。它是一个联机的系统,专门为分析统计和决策支持应用服务,通过它可满足决策专门为分析统计和决策支持应用服务,通过它可满足决策支持和联机分析应用所要求的一切。支持和联机分析应用所要求的一切。9.1.2 9.1.2 数据仓库的概念和特征数据仓库的概念和特征v 目前,数据仓库一词尚没有一个统一的定义。目前,数据仓库一词尚没有一个统一的定义。v 著名的数据仓库专家著名的数据仓库专家W.H.InmonW.H.Inmon在其著作在其著作Building the Building the Data WarehouseData Warehouse一书中给予如下描述:一书

12、中给予如下描述:v 数据仓库(数据仓库(Data WarehouseData Warehouse)是一个面向主题的()是一个面向主题的(Subject Subject OrientedOriented)、集成的()、集成的(IntegrateIntegrate)、相对稳定的()、相对稳定的(Non-Non-VolatileVolatile)、反映历史变化()、反映历史变化(Time VariantTime Variant)的数据集合,)的数据集合,用于支持管理决策。用于支持管理决策。数据仓库概念的两个层次数据仓库概念的两个层次v功能上:数据仓库用于支持决策,面向分析型数功能上:数据仓库用于支持

13、决策,面向分析型数据处理,它不同于企业现有的操作型数据库;据处理,它不同于企业现有的操作型数据库;v内容和特征上:数据仓库是对多个异构的数据源内容和特征上:数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不历史数据,而且存放在数据仓库中的数据一般不再修改。再修改。数据仓库四个特点数据仓库四个特点- -面向主题面向主题v 传统的数据库是面向应用而进行数据组织的,其抽象程度不够高,没有传统的数据库是面向应用而进行数据组织的,其抽象程度不够高,没有完全实现数据与应用的分离。但这种方式能较好地将企业

14、业务活动与数完全实现数据与应用的分离。但这种方式能较好地将企业业务活动与数据库模式相对应,利于从手工处理向计算机处理过渡,因而具有较好的据库模式相对应,利于从手工处理向计算机处理过渡,因而具有较好的可操作性;可操作性;v 数据仓库是面向主题而进行数据组织的。主题是一个在较高层次上对数数据仓库是面向主题而进行数据组织的。主题是一个在较高层次上对数据的抽象,在逻辑意义上,它是对企业中某一宏观领域所涉及的分析对据的抽象,在逻辑意义上,它是对企业中某一宏观领域所涉及的分析对象,即将数据组织成主题域。例如,在银行经营运作中,业务象,即将数据组织成主题域。例如,在银行经营运作中,业务( (存款、存款、贷款

15、、汇兑贷款、汇兑) )、货币、客户、机构、会计科目是其主要构架或方向,因、货币、客户、机构、会计科目是其主要构架或方向,因此在银行业务数据仓库中,选择业务、货币、客户、机构、会计科目五此在银行业务数据仓库中,选择业务、货币、客户、机构、会计科目五个主题,并将会计科目作为连接其他四个主题的交易主题进行处理。个主题,并将会计科目作为连接其他四个主题的交易主题进行处理。v 面向主题可以独立于数据处理逻辑,适用于分析型数据环境,适用于建面向主题可以独立于数据处理逻辑,适用于分析型数据环境,适用于建设企业全局数据库;数据仓库中目前仍采用关系数据库技术来实现,其设企业全局数据库;数据仓库中目前仍采用关系数

16、据库技术来实现,其面向主题所作较高程度上的抽象,应强调其逻辑意义。面向主题所作较高程度上的抽象,应强调其逻辑意义。数据仓库四个特点数据仓库四个特点- -集成的集成的v 面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。间相互独立,并且往往是异构的。在在数据仓库的所有特性之中,这是数据仓库的所有特性之中,这是最重要的。应用问题的设计人员历经多年制定出来的不同的设计决策最重要的。应用问题的设计人员历经多年制定出来的不同的设计决策有很多很多种不同的表示方法,没有什么应用在编码、命名习惯、实有很多很多种

17、不同的表示方法,没有什么应用在编码、命名习惯、实际属性、属性度量等方面是一致的,各个应用问题设计员自由地做出际属性、属性度量等方面是一致的,各个应用问题设计员自由地做出他或她自己的设计决策。他或她自己的设计决策。v 数据仓库中的数据是集成的。而数据仓库中的数据是在对原有分散的数据仓库中的数据是集成的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。在

18、数据仓库建设中,这是最关键最复杂的一企业的一致的全局信息。在数据仓库建设中,这是最关键最复杂的一个步骤,主要工作有:一是,进行数据的综合和计算;二是,统一源个步骤,主要工作有:一是,进行数据的综合和计算;二是,统一源数据中所有不一致和矛盾的地方数据中所有不一致和矛盾的地方( (如同名异义、异名同义、字长不一致、如同名异义、异名同义、字长不一致、单位不一致等单位不一致等) )。数据仓库四个特点数据仓库四个特点- -相对稳定的相对稳定的v 操作型数据库中的数据通常实时更新,数据根据需要及时发生变操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及

19、的数据操化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。修改和删除操作很少,通常只需要定期的加载、刷新。数据仓库四个特点数据仓库四个特点- -相对稳定的相对稳定的数据仓库四个特点数据仓库四个特点- -反映历史变化反映历史变化v 操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数操作型数据库主要关心当前某一个

20、时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点据通常包含历史信息,系统记录了企业从过去某一时点( (如开始应用数如开始应用数据仓库的时点据仓库的时点) )到目前的各个阶段的信息,通过这些信息,可以对企业到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。的发展历程和未来趋势做出定量分析和预测。v 数据仓库中的数据时间期限要远远长于操作型系统中的数据时间期限。数据仓库中的数据时间期限要远远长于操作型系统中的数据时间期限。操作型系统的时间期限一般是操作型系统的时间期限一般是6 06 09 09 0天,而数据仓库中数据的时间期天,

21、而数据仓库中数据的时间期限通常是限通常是5 51 01 0年。年。v 操作型数据库含有操作型数据库含有“ “当前值当前值” ”的数据,这些数据的准确性在访问时是有效的数据,这些数据的准确性在访问时是有效的,同样当前值的数据能被更新。而数据仓库中的数据仅仅是一系列某的,同样当前值的数据能被更新。而数据仓库中的数据仅仅是一系列某一时刻生成的复杂的快照。一时刻生成的复杂的快照。v 操作型数据的键码结构可能包含也可能不包含时间元素,如年、月、日操作型数据的键码结构可能包含也可能不包含时间元素,如年、月、日等。而数据仓库的键码结构总是包含某时间元素。数据仓库的数据码键等。而数据仓库的键码结构总是包含某时

22、间元素。数据仓库的数据码键都包含时间项,用作标明数据的历史时期。数据仓库中的数据包含有大都包含时间项,用作标明数据的历史时期。数据仓库中的数据包含有大量综合数据,很多与时间有关,如按时间段进行综合或隔时间片进行抽量综合数据,很多与时间有关,如按时间段进行综合或隔时间片进行抽样。随着时间变化,数据仓库需要不断增加新数据、删去旧数据。样。随着时间变化,数据仓库需要不断增加新数据、删去旧数据。数据仓库四个特点数据仓库四个特点- -反映历史变化反映历史变化数据仓库本质数据仓库本质v 数据仓库实际上是一个数据仓库实际上是一个“以大型数据管理信息系统为基础的、附加在这以大型数据管理信息系统为基础的、附加在

23、这个数据库系统之上的、存储了从企业所有业务数据库中获取的综合数据个数据库系统之上的、存储了从企业所有业务数据库中获取的综合数据的、并能利用这些综合数据为用户提供经过处理后的有用信息的应用系的、并能利用这些综合数据为用户提供经过处理后的有用信息的应用系统统”。v 如果说传统数据库系统的重点与要求是快速、准确、安全、可靠地将数如果说传统数据库系统的重点与要求是快速、准确、安全、可靠地将数据存进数据库中的话,那么数据仓库的重点与要求就是能够准确、安全、据存进数据库中的话,那么数据仓库的重点与要求就是能够准确、安全、可靠地从数据库中取出数据,经过加工转换成有规律信息之后,再供管可靠地从数据库中取出数据

24、,经过加工转换成有规律信息之后,再供管理人员进行分析使用。理人员进行分析使用。v 数据仓库所要研究和解决的问题就是从数据库中获取信息。数据仓库所要研究和解决的问题就是从数据库中获取信息。 9.1.3 9.1.3 数据仓库的内容数据仓库的内容v 数据仓库并没有严格的数学理论基础,也没有成熟的数据仓库并没有严格的数学理论基础,也没有成熟的基本模式,且更偏向于工程,具有强烈的工程性。因基本模式,且更偏向于工程,具有强烈的工程性。因此,在技术上人们习惯于从工作过程等方面来分析,此,在技术上人们习惯于从工作过程等方面来分析,并按其关键技术部份分为数据的抽取、存储与管理以并按其关键技术部份分为数据的抽取、

25、存储与管理以及数据的表现等三个基本方面。及数据的表现等三个基本方面。 数据的抽取数据的抽取v 数据的抽取是数据进入仓库的入口。由于数据仓库是数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。质中导入到数据仓库。v 数据抽取在技术上主要涉及互连、复制、增量、转换、数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等方面。调度和监控等方面。v 数据仓库中的数据并不要求与联机事务处理系统保持数据

26、仓库中的数据并不要求与联机事务处理系统保持实时同步,因此数据抽取可以定时进行,但多个抽取实时同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。息的有效性则至关重要。存储和管理存储和管理v 数据仓库的真正关键是数据的存储和管理。数据仓库的组数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。对外部数据的表现形式。v 要决定采用什么产品和技术来建立数据仓库的核心,则需要决定采

27、用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。要从数据仓库的技术特点着手分析。 数据的表现数据的表现v 数据表现实际上相当于数据仓库的门面,其性能主要集中数据表现实际上相当于数据仓库的门面,其性能主要集中在多维分析、数理统计和数据挖掘方面。在多维分析、数理统计和数据挖掘方面。v 而多维分析又是数据仓库的重要表现形式,近几年来由于而多维分析又是数据仓库的重要表现形式,近几年来由于互联网的发展,使得多维分析领域的工具和产品更加注重互联网的发展,使得多维分析领域的工具和产品更加注重提供基于提供基于WebWeb前端联机分析界面,而不仅仅是在网上发布数前端联机分析界面,而不仅

28、仅是在网上发布数据。据。 9.1.4 9.1.4 数据仓库系统体系结构数据仓库系统体系结构 数据源数据源v数据源是数据仓库系统的基础,是整个系统的数数据源是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。据源泉。通常包括企业内部信息和外部信息。v内部信息包括各种业务处理数据和各类文档数据。内部信息包括各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对外部信息包括各类法律法规、市场信息和竞争对手的信息等等。手的信息等等。 数据的存储与管理数据的存储与管理v 数据的存储与管理是整个数据仓库系统的核心。数据仓库数据的存储与管理是整个数据仓库系统的核心

29、。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分按照主题进行组织。数据仓库按照数据的覆盖

30、范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集为企业级数据仓库和部门级数据仓库(通常称为数据集市)。市)。 OLAPOLAP服务器服务器v OLAPOLAP服务器对分析需要的数据进行有效集成,按多维模型服务器对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。予以组织,以便进行多角度、多层次的分析,并发现趋势。v 其具体实现可以分为:其具体实现可以分为:ROLAPROLAP、MOLAPMOLAP和和HOLAPHOLAP。ROLAPROLAP基本基本数据和聚合数据均存放在数据和聚合数据均存放在RDBMSRDBMS之中;之中;MOLAPMOLAP

31、基本数据和聚基本数据和聚合数据均存放于多维数据库中;合数据均存放于多维数据库中;HOLAPHOLAP基本数据存放于基本数据存放于RDBMSRDBMS之中,聚合数据存放于多维数据库中。之中,聚合数据存放于多维数据库中。前端工具前端工具v前端工具主要包括各种报表工具、查询工具、数前端工具主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工库或数据集市的应用开发工具。其中数据分析工具主要针对具主要针对OLAP服务器,报表工具、数据挖掘服务器,报表工具、数据挖掘工具主要针对数据仓库。工具主要针对

32、数据仓库。 9.2 CRM中的数据仓库中的数据仓库9.2.1 CRM与数据仓库的关系与数据仓库的关系 CRM的业务整合需要数据仓库 数据清洁与集中需要数据仓库 数据分析需要数据仓库9.2.2 数据仓库的作用数据仓库的作用v 一、客户行为分析一、客户行为分析 客户理解 行为规律分析 组间交叉分析v 二、重点客户发现二、重点客户发现 潜在客户 交叉销售 增量销售 客户保持v 三、个性化服务三、个性化服务v 四、市场性能评估四、市场性能评估9.2.3 CRM数据仓库的系统结构数据仓库的系统结构客户信息客户行为生产系统其他相关数据数据仓库建设OLAP&Report客户行为分析重点客户发现性能评估模板O

33、LAP&Report数据仓库分析数据准备客户分析数据集市运营分析等市场专家调度监控9.3 数据仓库的项目实施数据仓库的项目实施v 数据仓库系统是一种解决问题的过程,而不是一个可以买到的现成产数据仓库系统是一种解决问题的过程,而不是一个可以买到的现成产品。不同企业会有不同的数据仓库。企业人员往往不懂如何建立和利品。不同企业会有不同的数据仓库。企业人员往往不懂如何建立和利用数据仓库,发挥其决策支持的作用,而数据仓库公司人员又不懂业用数据仓库,发挥其决策支持的作用,而数据仓库公司人员又不懂业务,不知道建立哪些决策主题,从数据源中抽取哪些数据。这需要双务,不知道建立哪些决策主题,从数据源中抽取哪些数据

34、。这需要双方互相沟通,共同协商开发数据仓库,因此是一个不断往复前进的过方互相沟通,共同协商开发数据仓库,因此是一个不断往复前进的过程。程。v 数据仓库的建设是一个系统工程,是一个不断建立、发展、完善的过数据仓库的建设是一个系统工程,是一个不断建立、发展、完善的过程,通常需要较长的时间。这就要求各企业对整个系统的建设提出一程,通常需要较长的时间。这就要求各企业对整个系统的建设提出一个全面、清晰的远景规划及技术实施蓝图,将整个项目的实施分成若个全面、清晰的远景规划及技术实施蓝图,将整个项目的实施分成若干个阶段,以干个阶段,以“总体规划、分步实施、步步见效总体规划、分步实施、步步见效”为原则,不仅可

35、迅为原则,不仅可迅速从当前投资中获得收益,而且可以在已有的基础上,结合其他已有速从当前投资中获得收益,而且可以在已有的基础上,结合其他已有的业务系统,逐步构建起完整、健壮的数据仓库系统。的业务系统,逐步构建起完整、健壮的数据仓库系统。 数据仓库的项目实施数据仓库的项目实施v 数据仓库提供了有效地存取和管理大量数据的理想环境,数据仓库提供了有效地存取和管理大量数据的理想环境,而数据仓库系统的建立是一个由数据驱动、以技术支撑并而数据仓库系统的建立是一个由数据驱动、以技术支撑并满足应用需求的不断增长和完善的开发过程。因此数据仓满足应用需求的不断增长和完善的开发过程。因此数据仓库的建立可以从数据、技术

36、和应用三方面展开。库的建立可以从数据、技术和应用三方面展开。数据仓库的项目实施数据仓库的项目实施9.3.1 9.3.1 项目计划项目计划 v 项目计划是指定义创建数据仓库的项目目标和确定项目范围,包括对项目计划是指定义创建数据仓库的项目目标和确定项目范围,包括对项目计划的评估和流程的调整。项目计划的评估和流程的调整。v 数据仓库在构建之初应明确其主题,主题是一个在较高层次将数据归数据仓库在构建之初应明确其主题,主题是一个在较高层次将数据归类的标准,每一个主题对应一个宏观的分析领域,针对具体决策需求类的标准,每一个主题对应一个宏观的分析领域,针对具体决策需求可细化为多个主题表,具体来说就是确定决

37、策涉及的范围和所要解决可细化为多个主题表,具体来说就是确定决策涉及的范围和所要解决的问题。但是主题的确定必须建立在现有联机事务处理(的问题。但是主题的确定必须建立在现有联机事务处理(OLTPOLTP)系统)系统基础上,否则按此主题设计的数据仓库存储结构将成为一个空壳,缺基础上,否则按此主题设计的数据仓库存储结构将成为一个空壳,缺少可存储的数据。但一味注重少可存储的数据。但一味注重OLTPOLTP数据信息,也将导致迷失数据提取数据信息,也将导致迷失数据提取方向,偏离主题。需要在方向,偏离主题。需要在OLTPOLTP数据和主题之间找到一个数据和主题之间找到一个“平衡点平衡点”,根据主题的需要完整地

38、收集数据,这样构建的数据仓库才能满足决策根据主题的需要完整地收集数据,这样构建的数据仓库才能满足决策和分析的需要。和分析的需要。v 确定范围的主要任务包括了解方向性分析处理需求,确定信息需求,确定范围的主要任务包括了解方向性分析处理需求,确定信息需求,确定数据覆盖范围。方向性需求包括:决策类型、决策者感兴趣的问确定数据覆盖范围。方向性需求包括:决策类型、决策者感兴趣的问题(或对象)等。在确定范围时应该重视的因素是必须用户驱动和数题(或对象)等。在确定范围时应该重视的因素是必须用户驱动和数据驱动相结合,同时可以借鉴国内外已有的成功经验。据驱动相结合,同时可以借鉴国内外已有的成功经验。 9.3.2

39、 9.3.2 业务需求分析业务需求分析 v 业务需求分析是数据仓库中一个很重要的阶段,好的业务业务需求分析是数据仓库中一个很重要的阶段,好的业务需求分析会使项目成功的机率大大增加。需求分析会使项目成功的机率大大增加。v 分析阶段主要包括两个方面的任务是深入了解数据源和分分析阶段主要包括两个方面的任务是深入了解数据源和分析数据仓库系统所包含的主题域及其相互之间的关系。分析数据仓库系统所包含的主题域及其相互之间的关系。分析阶段必须坚持用户参与,并且与原有系统开发或维护人析阶段必须坚持用户参与,并且与原有系统开发或维护人员进行深入的沟通。员进行深入的沟通。 9.3.3 9.3.3 数据线数据线 v数

40、据线的实施可以分为数据仓库设计、数据预处数据线的实施可以分为数据仓库设计、数据预处理、数据维护三个步骤,用以满足对数据的有效理、数据维护三个步骤,用以满足对数据的有效组织和管理。组织和管理。 一、数据仓库设计一、数据仓库设计数据仓库设计分为模型设计和物理设计两个阶段:数据仓库设计分为模型设计和物理设计两个阶段:v模型设计阶段将确定数据仓库系统将来的蓝图。模型设计阶段将确定数据仓库系统将来的蓝图。模型设计主要包括四个基本步骤:确定合适的主模型设计主要包括四个基本步骤:确定合适的主题、划分粒度层次、设计维表和设计事实表。题、划分粒度层次、设计维表和设计事实表。v物理设计的主要任务是定义支持模型设计

41、所必须物理设计的主要任务是定义支持模型设计所必须得物理结构,其过程包括三个方面:确定物理存得物理结构,其过程包括三个方面:确定物理存储结构、确定索引策略、确定存储分配。储结构、确定索引策略、确定存储分配。 粒度问题粒度问题v 粒度问题是设计数据仓库的一个最重要方面。粒度问题是设计数据仓库的一个最重要方面。v 粒度是指数据仓库的数据单位中保存数据的细化或综合程粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。度越低,粒度级就越大。v 在数据仓库环境中粒度之所以是主要的设计问题

42、,是因为在数据仓库环境中粒度之所以是主要的设计问题,是因为它深深地影响存放在数据仓库中的数据量的大小,同时影它深深地影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答的查询类型。在数据仓库中的数据量响数据仓库所能回答的查询类型。在数据仓库中的数据量大小与查询的详细程度之间要作出权衡。大小与查询的详细程度之间要作出权衡。数据仓库数据仓库- -模型设计模型设计ER图数据仓库数据仓库- -模型设计模型设计三维透视图数据仓库数据仓库- -模型设计模型设计v ERER图中所示的数据模型中有四个相互关联的简单实体。如果数据库设图中所示的数据模型中有四个相互关联的简单实体。如果数据库设计只需要考虑

43、数据模型的话,可以推断所有的实体都是平等关系。换计只需要考虑数据模型的话,可以推断所有的实体都是平等关系。换言之,从数据模型的设计角度来看,所有的实体之间的关系是对等的。言之,从数据模型的设计角度来看,所有的实体之间的关系是对等的。v 仅仅从数据模型的角度来着手设计数据仓库会产生一种仅仅从数据模型的角度来着手设计数据仓库会产生一种“平面平面”效应。效应。实际上,由于种种原因,数据仓库的实体绝不会是相互对等的。一些实际上,由于种种原因,数据仓库的实体绝不会是相互对等的。一些实体,要求有它们自己的特别处理。实体,要求有它们自己的特别处理。v 为了明确为什么从数据模型的角度看一个组织中的数据和关系会

44、发生为了明确为什么从数据模型的角度看一个组织中的数据和关系会发生失真,根据在数据仓库中建立实体时将载入数据实体的数据量,我们失真,根据在数据仓库中建立实体时将载入数据实体的数据量,我们来考虑数据仓库中数据的一种三维透视。三维透视图表明了这种三维来考虑数据仓库中数据的一种三维透视。三维透视图表明了这种三维透视。代表供应商、客户、产品、发货的实体被稀疏地载入,而代表透视。代表供应商、客户、产品、发货的实体被稀疏地载入,而代表订单的实体则大量地载入。将会有大量的数据载入代表订单实体的表订单的实体则大量地载入。将会有大量的数据载入代表订单实体的表中,而在代表别的实体的表中载入的数据量则相对较少。由于大

45、量的中,而在代表别的实体的表中载入的数据量则相对较少。由于大量的数据要载入订单实体,因此需要一种不同的设计处理方式。数据要载入订单实体,因此需要一种不同的设计处理方式。数据仓库数据仓库- -星型模型星型模型v 用来管理数据仓库中载入某个实体的大量数据的设计结构通常用用来管理数据仓库中载入某个实体的大量数据的设计结构通常用“星型连接星型连接”。 v 首先确立主题,订单是有大量数据的重要主题,那么首先确立主题,订单是有大量数据的重要主题,那么“订单订单”位位于星型连接的中央。于星型连接的中央。v 在其周围分别是在其周围分别是“产品产品”、“客户客户”、“供应商供应商”和和“发货发货”实实体。这些实

46、体仅仅会产生不大的数据量。体。这些实体仅仅会产生不大的数据量。v 星型连接中央的星型连接中央的“订单订单”被称作是被称作是“事实表事实表”,而其周围的其他,而其周围的其他实体实体“产品产品”、“客户客户”、“供应商供应商”和和“发货发货”则被称为则被称为“维维表表”。v 事实表包含了事实表包含了“订单订单”独有的标识数据,也包含了订单本身的独独有的标识数据,也包含了订单本身的独有数据。事实表还包含了指向其周围的表有数据。事实表还包含了指向其周围的表维表的外键。维表的外键。数据仓库数据仓库- -星形模型星形模型数据仓库数据仓库- -星型模型星型模型v创建和使用星型连接的一个有趣的方面是,在很创建

47、和使用星型连接的一个有趣的方面是,在很多情况下,文本数据与数值数据是分离开的。多情况下,文本数据与数值数据是分离开的。v文本数据常出现在维表中,数值数据常出现在事文本数据常出现在维表中,数值数据常出现在事实表中,这种划分似乎在所有情况都会发生。实表中,这种划分似乎在所有情况都会发生。数据仓库数据仓库- -星型模型星型模型数据仓库数据仓库- -星型模型星型模型v 创建和使用星型连接的好处是可以为决策支持系统的处理优化数据。创建和使用星型连接的好处是可以为决策支持系统的处理优化数据。通过数据预连接和建立有选择的数据冗余,设计者为访问和分析过程通过数据预连接和建立有选择的数据冗余,设计者为访问和分析

48、过程大大简化了数据,这正是数据仓库所需要的。大大简化了数据,这正是数据仓库所需要的。v 如果不是在决策支持系统数据仓库环境中使用星型连接,则会有很多如果不是在决策支持系统数据仓库环境中使用星型连接,则会有很多的缺点。在决策支持系统数据仓库环境以外,常有数据更新,而且数的缺点。在决策支持系统数据仓库环境以外,常有数据更新,而且数据关系的管理要在秒的一级上进行。在这种情况下星型连接在创建和据关系的管理要在秒的一级上进行。在这种情况下星型连接在创建和维护上就是很麻烦的数据结构。但是由于数据仓库是一个装载维护上就是很麻烦的数据结构。但是由于数据仓库是一个装载访问访问环境,它包括很多历史数据,且有大量的

49、数据要管理,因此,星型连环境,它包括很多历史数据,且有大量的数据要管理,因此,星型连接的数据结构是十分理想的。接的数据结构是十分理想的。数据仓库数据仓库- -雪花模型雪花模型v 雪花模型雪花模型 。雪花模型是对星型模型的扩展,每个维表都可雪花模型是对星型模型的扩展,每个维表都可以向外连接到多个详细类别表以向外连接到多个详细类别表 。v 雪花模型对星型模型的维表进一步层次化,原有的各维表雪花模型对星型模型的维表进一步层次化,原有的各维表可能被扩展为小的事实表,形成一些局部的可能被扩展为小的事实表,形成一些局部的“层次层次”区域。区域。在维表上连接对事实表进行详细描述的详细类别表,达到在维表上连接

50、对事实表进行详细描述的详细类别表,达到了缩小事实表,提高查询效率的目的。了缩小事实表,提高查询效率的目的。数据仓库数据仓库- -雪花模型雪花模型数据仓库数据仓库- -雪花模型雪花模型v 雪花模型的优点是:通过最大限度的减少数据存储量以及雪花模型的优点是:通过最大限度的减少数据存储量以及联合较小的维表来改善查询性能。联合较小的维表来改善查询性能。v 雪花模型增加了用户必须处理的表数量,增加了某些查询雪花模型增加了用户必须处理的表数量,增加了某些查询的复杂性,但这种方式可以使系统进一步专业化和实用化,的复杂性,但这种方式可以使系统进一步专业化和实用化,同时降低了系统的通用程度。同时降低了系统的通用

51、程度。 二、数据预处理二、数据预处理数据预处理是数据仓库设计工程中非常重要的过程,它数据预处理是数据仓库设计工程中非常重要的过程,它由三个主要步骤组成:抽取(由三个主要步骤组成:抽取(ExtractionExtraction)、转换)、转换(Transformation)(Transformation)、加载、加载(Load)(Load),简称,简称ETLETL。v 抽取过程将会暴露源系统中数据的质量问题。由于数抽取过程将会暴露源系统中数据的质量问题。由于数据的质量严重影响着数据仓库的可信程度,因此在数据的质量严重影响着数据仓库的可信程度,因此在数据预处理过程中,需要提高数据质量,让数据仓库使

52、据预处理过程中,需要提高数据质量,让数据仓库使用真正有效的数据。用真正有效的数据。v 目前有很多工具可以帮助用户完成数据抽取、转换和目前有很多工具可以帮助用户完成数据抽取、转换和装载工作,但是还有相当一部分工作是要手工编程来装载工作,但是还有相当一部分工作是要手工编程来完成的。完成的。三、数据维护三、数据维护v 数据仓库规模一般都很大,从建立之初就要保证它的可数据仓库规模一般都很大,从建立之初就要保证它的可管理性,一个企业可能建立几个数据仓库或数据集市,但管理性,一个企业可能建立几个数据仓库或数据集市,但他们可共用一个元数据库对其进行管理。他们可共用一个元数据库对其进行管理。v 首先从元数据库

53、查询所需元数据,然后进行数据仓库更新首先从元数据库查询所需元数据,然后进行数据仓库更新作业,更新结束后,将更新情况记录于元数据库中。当数作业,更新结束后,将更新情况记录于元数据库中。当数据源的运行环境、结构及目标数据的维护计划发生变化时,据源的运行环境、结构及目标数据的维护计划发生变化时,需要修改元数据。需要修改元数据。v 元数据是数据仓库的重要组成部分,元数据的质量决定整元数据是数据仓库的重要组成部分,元数据的质量决定整个数据仓库的质量。个数据仓库的质量。 9.3.4 9.3.4 技术线技术线 v 技术线的实施分为技术选择和产品选择两个步骤。如何采用合理有效的技术线的实施分为技术选择和产品选

54、择两个步骤。如何采用合理有效的技术是实现一个好的数据仓库系统的基本条件。技术是实现一个好的数据仓库系统的基本条件。v 在数据仓库建立的过程中会遇到一些新的特定的问题,如管理大量数据在数据仓库建立的过程中会遇到一些新的特定的问题,如管理大量数据的需求,如何对数据进行快速和方便的访问等。为解决这些问题人们采的需求,如何对数据进行快速和方便的访问等。为解决这些问题人们采用了新的技术。技术体系选择必须从为这些技术建立全局的结构框架和用了新的技术。技术体系选择必须从为这些技术建立全局的结构框架和视角出发,选择中需要同时考虑三个因素:商业需求、当前的技术环境、视角出发,选择中需要同时考虑三个因素:商业需求、当前的技术环境、计划的策略技术方向。计划的策略技术方向。v 技术体系确定以后需要选择实现数据仓库应用的各种产品,包括硬件平技术体系确定以后需要选择实现数据仓库应用的各种产品,包括硬件平台、台、ETL工具、工具、OLAP服务器、数据展现工具等,并进行产品的安装和服务器、数据展现工具等,并进行产品的安装和测试。现在市场上的数据仓库产品有很多,数据仓库厂商通常都提出了测试。现在市场上的数据仓库产品有很多,数据仓库厂商通常都提出了自己的一系列解决方案,限于篇幅,在这里不再展

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论