




已阅读5页,还剩63页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
,第5章CRM与数据仓库,5.1.1数据仓库的产生,早期的数据库主要支持联机事务处理决策支持对数据分析的需求传统数据库系统不适宜DSS事务处理和分析处理的性能特性不同数据集成问题数据动态集成问题历史数据问题数据的综合问题操作繁简问题,(1)事务处理和分析处理的性能特性不同。所有联机事务处理强调的是数据更新处理性能和系统的可靠性,并不关心数据查询的方便与快捷。在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作处理的时间短。在分析处理环境中,用户的行为模式与此完全不同,强调的是数据处理和分析的能力。在传统数据库系统基础上的DSS应用程序可能需要连续几个小时,从而消耗大量的系统资源。联机分析和事务处理对系统的要求不同,同一个数据库在理论上难以做到两全,将具有如此不同处理性能的两种应用放在同一个环境中运行显然是不适当的。,(2)数据集成问题。DSS需要集成的数据。全面而正确的数据是有效的分析和决策的首要前提,相关数据收集得越完整,得到的结果就越可靠。当前绝大多数企业内数据的真正状况是分散而非集成的。造成这种分散的原因有多种,主要有事务处理应用分散、“蜘蛛网”问题、数据不一致问题、外部数据和非结构化数据。,(3)数据动态集成问题。静态集成的最大缺点在于,如果在数据集成后数据源中数据发生了变化,这些变化将不能反映给决策者,导致决策者使用的是过时的数据。集成数据必须以一定的周期(例如24小时)进行刷新,我们称其为动态集成。显然,事务处理系统不具备动态集成的能力。,(4)历史数据问题。事务处理一般只需要当前数据,在数据库中一般也是存储短期数据,切不同数据的保存期限也不一样,即使有一些历史数据保存下来了,也被束之高阁,未得到充分利用。但对于决策分析而言,历史数据是相当重要的,许多分析方法必须一大量的历史数据为依托。没有历史数据的详细分析,是难以把握企业的发展趋势的。DSS对数据在空间和时间的广度上都有了更高的要求,而事务处理环境难以满足这些要求。,(5)数据的综合问题。在事务处理系统中积累了大量的细节数据,一般而言,DSS并不对这些细节数据进行分析。在分析前,往往需要对细节数据进行不同程度的综合。而事务处理系统不具备这种综合能力,根据规范化理论,这种综合还往往因为是一种数据冗余而加以限制。,(6)操作繁简问题。业务数据的模式是针对事务处理系统而设计的,数据的格式和描述方式并不适合非计算机专业人员进行业务上的分析和统计。,有人感叹:20年前查询不到数据是因为数据太少了,而今天查询不到数据是因为数据太多了。要提高分析和决策的效率和有效性,分析型处理及其数据必须与操作型处理及其数据相分离。必须把分析型数据从事务处理环境中提取出来,按照DSS处理的需要进行重新组织,建立单独的分析处理环境,数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术。数据仓库的数据从联机的事务处理系统、异构的外部数据源、脱机的历史业务数据中得到。它是一个联机的系统,专门为分析统计和决策支持应用服务,通过它可满足决策支持和联机分析应用所要求的一切。,5.1.2数据仓库的概念和特征,目前,数据仓库一词尚没有一个统一的定义。著名的数据仓库专家W.H.Inmon在其著作BuildingtheDataWarehouse一书中给予如下描述:数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策。,数据仓库概念的两个层次,功能上:数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;内容和特征上:数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。,数据仓库关键特征一面向主题,面向主题,是数据仓库显著区别于关系数据库系统的一个特征围绕一些主题,如顾客、供应商、产品等关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理。排除对于决策无用的数据,提供特定主题的简明视图。,数据仓库关键特征二数据集成,一个数据仓库是通过集成多个异种数据源来构造的。关系数据库,一般文件,联机事务处理记录使用数据清理和数据集成技术。确保命名约定、编码结构、属性度量等的一致性。当数据被移到数据仓库时,它们要经过转化。,数据仓库关键特征三随时间而变化,数据仓库是从历史的角度提供信息数据仓库的时间范围比操作数据库系统要长的多。操作数据库系统:主要保存当前数据。数据仓库:从历史的角度提供信息(比如过去5-10年)数据仓库中的每一个关键结构都隐式或显式地包含时间元素,而操作数据库中的关键结构可能就不包括时间元素。,数据仓库关键特征四数据不易丢失,尽管数据仓库中的数据来自于操作数据库,但他们却是在物理上分离保存的。操作数据库的更新操作不会出现在数据仓库环境下。不需要事务处理,恢复,和并发控制等机制只需要两种数据访问:数据的初始转载和数据访问(读操作),数据仓库与操作数据库系统,操作数据库系统的主要任务是联机事务处理OLTP日常操作:购买,库存,银行,制造,工资,注册,记帐等数据仓库的主要任务是联机分析处理OLAP数据分析和决策支持,支持以不同的形式显示数据以满足不同的用户需要,OLAPVS.OLTP(1),用户和系统的面向性面向顾客(事务)VS.面向市场(分析)数据内容当前的、详细的数据VS.历史的、汇总的数据数据库设计实体联系模型(ER)和面向应用的数据库设计VS.星型/雪花模型和面向主题的数据库设计,OLAPVS.OLTP(2),数据视图当前的、企业内部的数据VS.经过演化的、集成的数据访问模式事务操作VS.只读查询(但很多是复杂的查询)任务单位简短的事务VS.复杂的查询访问数据量数十个VS.数百万个,为什么需要一个分离的数据仓库?,提高两个系统的性能DBMS是为OLTP而设计的:存储方式,索引,并发控制,恢复数据仓库是为OLAP而设计:复杂的OLAP查询,多维视图,汇总,不同的功能和不同的数据:历史数据:决策支持需要历史数据,而这些数据在操作数据库中一般不会去维护数据汇总:决策支持需要将来自异种源的数据统一(如聚集和汇总)数据质量:不同的源使用不一致的数据表示、编码和格式,对这些数据进行有效的分析需要将他们转化后进行集成,多维数据模型(1),数据仓库和OLAP工具基于多维数据模型在多维数据模型中,数据以数据立方体(datacube)的形式存在数据立方体允许以多维数据建模和观察。它由维和事实定义维是关于一个组织想要记录的视角或观点。每个维都有一个表与之相关联,称为维表。多维数据模型围绕中心主题组织,该主题用事实表表示事实表包括事实的名称或度量以及每个相关维表的关键字事实指的是一些数字度量,多维数据模型(2)示例,time_keydayday_of_the_weekmonthquarteryear,time维表,location_keystreetcitystate_or_provincecountry,location事实表,Sales事实表,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,度量,item_keyitem_namebrandtypesupplier_type,item维表,branch_keybranch_namebranch_type,branch维表,多维数据模型(3),在数据仓库中,数据立方体是n-D的(n维)(关系表和电子表格是几维的?)示例AllElectronics的销售数据按维time,item的2-D视图AllElectronics的销售数据按维time,item和location的3-D视图销售数据的4-D立方体表示多维数据模型为不同角度上的数据建模和观察提供了一个良好的基础,多维数据模型(4),在数据仓库的研究文献中,一个n维的数据的立方体叫做基本方体。给定一个维的集合,我们可以构造一个方体的格,每个都在不同的汇总级或不同的数据子集显示数据,方体的格称为数据立方体。0维方体存放最高层的汇总,称作顶点方体;而存放最底层汇总的方体则称为基本方体。,数据立方体一个方体的格,all,time,item,location,supplier,time,item,time,location,time,supplier,item,location,item,supplier,location,supplier,time,item,location,time,item,supplier,time,location,supplier,item,location,supplier,time,item,location,supplier,0-D(顶点)方体,1-D方体,2-D方体,3-D方体,4-D(基本)方体,数据仓库的概念模型,最流行的数据仓库概念模型是多维数据模型。这种模型可以以星型模式、雪花模式、或事实星座模式的形式存在。星型模式(Starschema):事实表在中心,周围围绕地连接着维表(每维一个),事实表含有大量数据,没有冗余。雪花模式(Snowflakeschema):是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加表中。结果,模式图形成类似于雪花的形状。事实星座(Factconstellations):多个事实表共享维表,这种模式可以看作星型模式集,因此称为星系模式(galaxyschema),或者事实星座(factconstellation),星型模式实例,SalesFactTable,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,雪花模式实例,SalesFactTable,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,事实星座模式实例,SalesFactTable,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,ShippingFactTable,time_key,item_key,shipper_key,from_location,to_location,dollars_cost,units_shipped,度量的分类,一个数据立方体的度量是一个数值函数,该函数可以对数据立方体的每一个点求值。度量可以根据其所用的聚集函数分为三类:分布的(distributive):将函数用于n个聚集值得到的结果和将函数用于所有数据得到的结果一样。比如:count(),sum(),min(),max()等代数的(algebraic):函数可以由一个带M个参数的代数函数计算(M为有界整数),而每个参数值都可以有一个分布的聚集函数求得。比如:avg(),min_N(),standard_deviation()整体的(holistic):描述函数的子聚集所需的存储没有一个常数界。比如:median(),mode()(最常出现的项),rank(),概念分层(1),一个概念分层(concepthierarchy)定义一个映射序列,将低层概念映射到更一般的高层概念E.g.表示location的概念:杭州浙江中国亚洲概念分层允许我们在各种抽象级审查和处理数据概念分层可以由系统用户、领域专家、知识工程师人工的提供,也可以根据数据分布的统计分析自动的产生,概念分层(2):location维的一个概念分层,all,Europe,North_America,Mexico,Canada,Spain,Germany,Vancouver,M.Wind,L.Chan,.,.,.,.,.,.,all,region,office,country,Toronto,Frankfurt,city,许多概念分层的定义隐含在数据库的模式中。比如:location维的定义,officecitycountryregion;这些属性按一个全序相关,形成一个层次结构:,year,day,quarter,month,week,维的属性也可以组成一个偏序,形成一个格:,概念分层(3)使用,概念分层为不同级别上的数据汇总提供了一个良好的基础综合概念分层和多维数据模型的潜力,可以对数据获得更深入的洞察力通过在多维数据模型中,在不同的维上定义概念分层,使得用户在不同的维上从不同的层次对数据进行观察成为可能。多维数据模型(数据立方体)使得从不同的角度对数据进行观察成为可能,而概念分层则提供了从不同层次对数据进行观察的能力;结合这两者的特征,我们可以在多维数据模型上定义各种OLAP操作,为用户从不同角度不同层次观察数据提供了灵活性:,多维数据模型上的OLAP操作(1),上卷(roll-up):汇总数据通过一个维的概念分层向上攀升或者通过维规约当用维归约进行上卷时,一个或多个维由给定的数据立方体删除下钻(drill-down):上卷的逆操作由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新的维来实现(为给定数据添加更多细节)切片和切块(sliceanddice)切片操作在给定的数据立方体的一个维上进行选择,导致一个子方切块操作通过对两个或多个维进行选择,定义子方,数据仓库的项目实施,数据仓库系统是一种解决问题的过程,而不是一个可以买到的现成产品。不同企业会有不同的数据仓库。企业人员往往不懂如何建立和利用数据仓库,发挥其决策支持的作用,而数据仓库公司人员又不懂业务,不知道建立哪些决策主题,从数据源中抽取哪些数据。这需要双方互相沟通,共同协商开发数据仓库,因此是一个不断往复前进的过程。数据仓库的建设是一个系统工程,是一个不断建立、发展、完善的过程,通常需要较长的时间。这就要求各企业对整个系统的建设提出一个全面、清晰的远景规划及技术实施蓝图,将整个项目的实施分成若干个阶段,以“总体规划、分步实施、步步见效”为原则,不仅可迅速从当前投资中获得收益,而且可以在已有的基础上,结合其他已有的业务系统,逐步构建起完整、健壮的数据仓库系统。,数据仓库的设计(1),典型的数据仓库设计过程选取待建模的商务过程找到所构建的数据仓库的主题,比如:销售、货运、订单等等选取商务过程的颗粒度数据起始于多细的颗粒度,比如:记录每条详细订单,或是开始于每日的汇总数据选取用于每个事实表记录的维常用的维有:时间、货物、客户、供应商等选取将安放在事实表中的度量常用的数字度量包括:售价、货物数量等,数据仓库的设计(2),设计数据仓库架构星型模式(Starschema)雪花模式(Snowflakeschema)事实星座(Factconstellations)识别事实与维度数据哪些数据是由企业经营而产生的哪些数据是不会随时间而改变的是否通过某项数据能够找到多笔记录,数据仓库的设计(3),设计事实表事实数据相对应维度表的外键设计维度表主键:不会更新层次数据:放入同一维度中,三层数据仓库架构(1),数据仓库,OLAP服务器,查询报告分析数据挖掘,监控、整合,元数据存储,数据源,前端工具,输出,数据集市,数据仓库服务器,OLAP服务器,三层数据仓库架构(2),底层:数据仓库的数据库服务器关注的问题:如何从这一层提取数据来构建数据仓库(通过Gateway(ODBC,JDBC,OLE/DB等)来提取)中间层:OLAP服务器关注的问题:OLAP服务器如何实施(关系型OLAP,多维OLAP等)前端客户工具层关注的问题:查询工具、报表工具、分析工具、挖掘工具等,三种数据仓库模型,从体系结构的角度去看,数据仓库模型可以有以下三种:企业仓库搜集关于跨越整个组织的主题的所有信息数据集市企业范围数据的一个子集,对于特定的客户是有用的。其范围限于选定的主题,比如一个商场的数据集市独立的数据集市VS.非独立的数据集市(数据来自于企业数据仓库)虚拟仓库操作数据库上的一系列视图只有一些可能的汇总视图被物化,数据仓库的应用,数据仓库的三种应用信息处理支持查询和基本的统计分析,并使用交叉表、表、图标和图进行报表处理分析处理对数据仓库中的数据进行多维数据分析支持基本的OLAP操作,切块、切片、上卷、下钻、转轴等数据挖掘从隐藏模式中发现知识支持关联分析,构建分析性模型,分类和预测,并用可视化工具呈现挖掘的结果三种应用间的差别,多维数据集设计,安装AnalysisServices,SQLServer2000企业版Demo,创建数据库,新建数据库:Northwind_OLAP指定数据源:MicrosoftOLEDBProviderforSQLServer,Northwind_DW,指定事实数据表,多维数据集向导Sales表,创建星型架构维度,创建客户维度创建供应商维度创建员工维度,创建客户维度,创建员工维度,创建供应商维度,创建雪花型架构维度-Product,创建雪花型架构维度-Product,创建时间维度-Time,处理多维数据集,需要处理更改存储选型更改维度和度量值处理方法完整处理:新的数据集、维度和度量值结构发生变化增量处理:向数据集添加新数据,对已处理过的数据不更改刷新数据:重新加载所有数据,计算聚合,要求多维数据集结构不变。,处理多维数据集,聚合选项20-80规则:20%的预聚合可以产生80%的性能提升更改存储选型更改维度和度量值处理方法完整处理:新的数据集、维度和度量值结构发生变化增量处理:向数据集添加新数据,对已处理过的数据不更改刷新数据:重新加载所有数据,计算聚合,要求多维数据集结构不变。,浏览多维数据集,CRM中的客户数据,企业在实施CRM时,首先要构建一个结构科学、数据模型合理、可扩充性强的客户数据库,在实际运作中不断纳入新的数据。有了阶段性的历史数据后,再构建形成数据仓库,为数据挖掘提供数据源。通过数据挖掘技术的应用,企业可以从海量信息中及时提取到有用的知识,真正提高信息利用,并产生商业价值。,客户数据的定义与分类,CRM的数据类型从广义上来讲不仅包括客户数据,还包括产品数据、内部人员数据、销售商数据等。从商业活动行为的需要来看,有一个对客户了解、针对性促销、产生交易的过程,该过程产生了不同的数据类型,我们以此把客户数据分为三类:,客户数据的定义与分类,(1)客户描述性数据包括客户基本情况(姓名、年龄、住址等)、信用其情况和行为偏好等数据。通常在CRM中把客户分为个人客户和团体客户两类。(2)市场促销型数据市场促销性数据表示对每个客户进行了哪些促销活动。(3)客户交易数据描述企业和客户相互作用的所有数据都属于客户交易数据,包括与客户的通话到服务中心所得到的数据以及客户所购商品的描述。,客户数据的隐私问题,在建立针对CRM的数据库时,客户隐私是一个公众非常关注的问题。因此,要有一些针对性的指导方针来进行相应的预防,以避免很多将来可能碰到的问题。在当前的技术水平上,可采取以下措施:(1)匿名身份信息客户身份最明显的是完整的姓名或身份证号。为避免直接与具体个人姓名相对时引起消费者的反感,可采取创建匿名标识符的方式组建数据库。给每个客户分配一个唯一的、经过加密的标识符。而且只有授权人才能够将它们转换成客户的姓名和地址信息。,客户数据的隐私问题,(2)使用汇总数据要更好地保护客户隐私,一个办法就是只对汇总数据进行挖掘。即对所有的客户数据按使用的目的划分为不同的目标客户群,然后再分组使用,而不是使用具体的单个数据。(3)数据的适度使用另一个要考虑的重要问题是准备使用客户数据来进行市场定位还是只做简单的评估。这两者的区别是,客户对于你了解他们在做些什么,并且评估他们对促销活动的反应不太在意。然而,如果他们认
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 ISO/IEC 23001-17:2024/AMD1:2025 EN Information technology - MPEG systems technologies - Part 17: Carriage of uncompressed video and images in ISO base media file format - Am
- 【正版授权】 ISO 37114:2025 EN Sustainable cities and communities - Appraisal framework for datasets and data processing methods that create urban management information
- 【正版授权】 ISO 22932-8:2025 EN Mining - Vocabulary - Part 8: Extraction
- 【正版授权】 ISO 10545-23:2025 EN Ceramic tiles - Part 23: Determination of elastic modulus for glazed and unglazed ceramic tiles,substrate and glaze layer
- 【正版授权】 ISO 12231-1:2025 EN Digital imaging - Vocabulary - Part 1: Fundamental terms
- 【正版授权】 IEC 60245-5:1994 FR-D Rubber insulated cables - Rated voltages up to and including 450/750 V - Part 5: Lift cables
- GB/T 19851.12-2025中小学体育器材和场地第12部分:学生体质健康测试器材
- 校园防病安全知识培训课件
- 北仑驾校理论知识培训课件
- 护理常规应聘考试试题及答案
- 医院安保课件
- 文印员考试题库及答案
- 2025年涂料行业研究报告及未来发展趋势预测
- 2025河北唐山某国有企业单位招聘劳务派遣工作人员44人笔试参考题库附带答案详解(10套)
- 留疆战士考试题库及答案
- 班主任与家长沟通课件
- 赏识你的学生
- 哲学导论(完整版)
- 合成孔径雷达
- 北师大版数学四年级下册全册教案设计
- 汉语拼音发音表(适合初学者和老年人)
评论
0/150
提交评论