第10章电子商务中的数据处理技术.ppt_第1页
第10章电子商务中的数据处理技术.ppt_第2页
第10章电子商务中的数据处理技术.ppt_第3页
第10章电子商务中的数据处理技术.ppt_第4页
第10章电子商务中的数据处理技术.ppt_第5页
已阅读5页,还剩103页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第10章 电子商务中的数据处理技术,有价值的知识,可怕的数据,数据爆炸,知识贫乏,苦恼: 淹没在数据中 ; 不能制定合适的决策!,数据,知识,决策,数据处理一般分为两种类型: 操作型数据处理(事务处理) 指对数据库联机的日常操作 分析型数据处理 从大量的事务型数据库中抽取数据,并将其清理、转换为新的存储格式,涉及数据仓库。,10.1数据仓库,数据仓库及其概念 广义概念上的数据仓库是一种帮助企业做决策的体系化解决方案 数据仓库技术用于数据的存储和组织 联机分析处理技术侧重于数据的分析 数据挖掘技术致于知识的自动发现,数据仓库的内涵,数据仓库(Data Warehouse,DW) 多维数据库(Mu

2、lti-Dimensional Database,MDD) 数据集市(Data Marts) 元数据(Metadata) 外部数据源,1数据仓库(Data Warehouse) 数据仓库特征是: 总计性数据(面向主题)/原始数据 集成性数据/分散性数据 历史性数据/即时性数据 稳定性数据/易变性数据,抽 取,数 据 仓 库,2、多维数据库(Multi-Dimensional Database,MDD),多维数据库(MultiDimensional Database,MDD)可以简单地理解为:将数据存放在一个n维数组中,而不是像关系数据库那样以记录的形式存放。因此它存在大量稀疏矩阵,人们可以通过

3、多维视图来观察数据。多维数据库增加了一个时间维,与关系数据库相比,它的优势在于可以提高数据处理速度,加快反应时间,提高查询效率。,多维数据模型立方体模型及其操作,操作:切片、切块、上探、下钻、旋转。,目前有两种MDD 的OLAP产品:基于多维数据库的MOLAP和基于关系数据库的ROLAP。ROLAP建立了一种新的体系,即星型结构。,建立数据集市的原因 数据仓库是一种反映主题的全局性数据组织。但是,全局性数据仓库往往太大,在实际应用中将它们按部门或个人分别建立反映各个子主题的局部性数据组织,它们即是数据集市。因此,有时我们也称它为部门数据仓库。 例:在有关商品销售的数据仓库中可以建立多个不同主题

4、的数据集市:,3. 数据集市(Data Mart),商品采购数据集市 库房使用数据集市 商品销售数据集市,数据仓库与数据集市的关系类似于传统关系数据库系统中的基表与视图的关系。数据集市的数据来自数据仓库,它是数据仓库中数据的一个部分与局部,是一个数据的再抽取与组织的过程。 建立数据仓库与数据集市的过程可以有两条途径:,从 全局数据仓库 到 数据集市 从 数据集市 到 全局数据仓库,元数据 由数据源中的数据到数据仓库中的数据的转换过程,是需要按照一定的规律来进行的,这种规律往往是用一定的表达式或算法形式表示,它们被称为数据仓库系统的元数据。 元数据是数据仓库的核心,用于支持数据的抽取和访问操作。

5、元数据记录的信息包括:,4. 数据仓库管理 - 元数据(Metadata)与 元数据管理,数据源系统:数据存取的规范、数据库文档、信息描述、安全性、数据所有者权限等; 数据处理过程:数据的抽取、加载、清洗、过滤、协调及完成处理所需遵守的规则; 数据的刷新:数据刷新方式、刷新频率等信息。,元数据管理 元数据类似于数据库管理系统中的数据字典,主要用于数据的抽取与刷新操作,是数据抽取与刷新的基本依据。 元数据一般存放于数据仓库中并受元数据管理系统的管理,这被称为元数据管理。 通过元数据可以将数据仓库和复杂的数据源系统的变化隔离,是数据仓库开发和维护的一个关键因素,也是保证数据抽取质量的依据。,数据仓

6、库与数据库的区别,它依据决策要求,只从数据库中抽取那些需要的数据,并进行一定的处理。 数据仓库是多维的,即数据仓库的数据的组织方式有多层的行和列。 它采用分析型的数据处理而非普通的操作型的数据处理方式,支持决策处理而非常规事务处理。,从数据库到数据仓库,基于数据库技术的数据处理操作大致可以分为两大类:,操作型处理,分析型处理,从数据库到数据仓库,基于数据库技术的数据处理操作大致可以分为两大类:,操作型处理,分析型处理,也叫事务处理,是指对数据库的日常联机访问操作,所以也叫联机事务处理(OLTP)。 其访问特点是: 通常仅仅是对一个或一组记录的查询或修改 执行频率高 人们关心的是处理的响应时间、

7、数据的安全性和完整性等指标。,从数据库到数据仓库,基于数据库技术的数据处理操作大致可以分为两大类:,操作型处理,分析型处理,用于企业管理人员的决策分析,为制订企业的未来经营管理计划提供辅助决策信息,如决策支持系统(DSS-Decision Support System )。 其访问特点是: 需要执行大量的统计操作 需要访问大量的历史数据 执行频率和对响应时间的要求都不高等。,操作型数据与分析型数据的区别,数据仓库的技术支持,并行数据库技术 高性能的数据库服务器 数据库互操作技术,主题(Subject):特定的数据分析领域与目标。 面向主题:为特定的数据分析领域提供数据支持。 为特定数据分析领域

8、提供的数据与传统数据库中的数据是有不同的。传统数据库中的数据是原始的、基础的数据,而特定分析领域数据则是需要对它们作必要的抽取、加工与总结而形成。,数据仓库的四大特色,(1)面向主题,数据仓库是面向分析、决策人员的主观要求的,不同的用户有不同的要求,同一个用户的要求也会随时间而经常变化,因此,数据仓库中的主题有时会因用户主观要求的变化而变化的。 例1:一个面向事务处理的“商场”数据库系统,其数据模式如下:,采购子系统: 订单(订单号,供应商号,总金额,日期) 订单细则(订单号,商品号,类别,单价,数量) 供应商(供应商号,供应商名,地址,电话) 销售子系统: 顾客(顾客号,姓名,性别,年龄,文

9、化程度,地址,电话) 销售(员工号,顾客号,商品号,数量,单价,日期),库存管理子系统: 领料单(领料单号,领料人,商品号,数量,日期) 进料单(进料单号,订单号,进料人,收料人,日期) 库存(商品号,库房号,库存量,日期) 库房(库房号,仓库管理员,地点,库存商品描述) 人事管理子系统: 员工(员工号,姓名,性别,年龄,文化程度,部门号) 部门(部门号,部门名称,部门主管,电话),上述数据模式基本上是按照企业内部的业务活动及其需要的相关数据来组织数据的存储的,没有实现真正的数据与应用分离,其抽象程度也不够高。 如果按照面向主题的方式进行数据组织,首先应该抽取主题,即按照管理人员的分析要求来确

10、定主题,而与每个主题相关的数据又与有关的事务处理所需的数据不尽相同。,商品固有信息:商品号,商品名,类别,颜色等 商品采购信息:商品号,供应商号,供应价,供应日期,供应量等 商品销售信息:商品号,顾客号,售价,销售日期,销售量等 商品库存信息:商品号,库房号,库存量,日期等,主题一:商品,供应商固有信息:供应商号,供应商名,地址,电话等 供应商品信息:供应商号,商品号,供应价,供应日期,供应量等,主题二:供应商,顾客固有信息:顾客号,顾客名,性别,年龄,文化程度,住址,电话等 顾客购物信息:顾客号,商品号,售价,购买日期,购买量等,主题三:顾客,在每个主题中,都包含了有关该主题的所有信息,同时

11、又抛弃了与分析处理无关或不需要的数据,从而将原本分散在各个子系统中的有关信息集中在一个主题中,形成有关该主题的一个完整一致的描述。面向主题的数据组织方式所强调的就是要形成一个这样一致的信息集合。 不同的主题之间也有重叠的内容,但这种重叠是逻辑上的,而不是物理存储上的重叠;是部分细节的重叠,而不是完全的重叠。,数据仓库中的数据是为分析服务的,而分析需要多种广泛的不同数据源以便进行比较、鉴别,因此数据仓库中的数据必须从多个数据源中获取,这些数据源包括多种类型数据库、文件系统以及Internet网上数据等,它们通过数据集成而形成数据仓库中的数据。 集成的方法:,(2)集成,统一:消除不一致的现象 综

12、合:对原有数据进行综合和计算,例如:水情数据仓库,水文信息 气象信息 大堤抗洪能力 守堤抢险人员 抗洪物资供应,数据仓库中的数据是经过抽取而形成的分析型数据,不具有原始性,主要供企业决策分析之用,执行的主要是查询操作,一般情况下不执行更新操作。同时,一个稳定的数据环境也有利于数据分析操作和决策的制订。 但这也不等于数据仓库中的数据不需要更新操作。 在需要进行新的分析决策时,可能需要进行新的数据抽取和更新操作 数据仓库中的一些过时的数据,也可以通过删除操作丢弃掉。 因此数据仓库的存储管理相对于DBMS来说要简单得多。,(3)不可更新,数据仓库中的数据必须以一定时间段为单位进行统一更新。,(4)随

13、时间不断变化,不断增加新的数据内容 不断删去旧的数据内容 更新与时间有关的综合数据,10.1.2数据仓库内容及功能,数据仓库的建立(P207阅读 ) 数据仓库的作用 (P208阅读 ) 数据仓库的功能,数据仓库的功能 P209,建模功能 数据的抽取、转换和加载功能,抽取(Extraction)、转换(Transformation)和加载(Load),简称ETL 数据的清洗、融合与集成功能 数据存储管理和查询功能 运行维护功能,10.1.3联机分析处理技术(OLAP),若要有效地利用数据仓库中的信息资源,必须有强大的工具对信息进行分析决策,OLAP就是一个得到广泛用的数据仓库分析技术。 OLAP

14、专门用于支持复杂的决策分析,是支持信息管理和业务管理人员决策活动的一种决策分析工具。它可以根据分析人员的要求,迅速、灵活地对大量数据进行复杂的查询处理,并且以直观的、容易理解的形式将查询结果提供给各种决策人员,使他们迅速、准确地掌握企业的运营情况,了解市场的需求。,OLAP发展背景,60年代,关系数据库之父E.F.Cdd提出了关系模型,促进了联机事务处理(OLTP)的发展(数据以表格的形式而非文件方式存储)。 1993年,E.F.Cdd提出了OLAP(联机分析处理)概念,认为OLTP已不能满足终端用户对数据库查询分析的需要,SQL对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决

15、策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,E.F.Cdd提出了多维数据库和多维分析的概念,即OLAP技术概念。,OLAP定义,OLAP委员会的定义:OLAP(联机分析处理) 是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。 他指得是一类技术,而非特指某软件、或管理方法。 OLAP的目标:是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的

16、集合。,OLAP的特性,快速性:用户对OLAP的快速反应能力有很高的要求,主要是指计算机的计算的反应速度,系统应能在5秒内对用户的大部分分析要求做出反应,但对业务数据的实时信息却很难反应。 可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。 多维性:多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。 信息性:不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。,OLAP多维数据分析,多维分析是指对以多维形式组织起来的数据采取切片(Slice)、切块(Dice)、钻取(Drill-down和R

17、oll-up)、旋转(Pivot)等各种分析动作,以求剖析数据,使用户能从多个角度、多侧面地观察数据库中的数据,从而深入理解包含在数据中的信息。,切片 (Slice),定义1:在多维数据集的某一维上选定某一维成员的动作称为切片。 定义2:选定多维数据集的一个二维子集的动作叫做切片。 切片的结果一定是一个二维的平面。 切片的实质: 1、切片的作用或结果就是舍弃一些观察角度,使人们能在两个维上集中观察数据; 2、一个切片最终是由除切片所在平面两个维之外的其他维的成员值确定的。,切块(Dice),定义1、在多维数据集的某一维上选定某一区间的维成员的动作称为切块。 定义2、选定多维数据集的一个三维子集

18、的动作称为切块。,钻取(Drill-up另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维表和事实表通过主关键字和外关键字联系在一起,形成了星型模式。对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为雪花模式。,ROLAP的星型模式,MOLAP,MOLAP表示基于多维数据组织的OLAP实现(Multidimensional OLAP)。以多维数据组织方式为核心,也就是说,MOLAP使用多维数组存储数据。多维数据在存储中将形成立方块(Cube)的结构,在MOLAP中对立方块的旋转、切块、切片是产生多维数据报表的主要技术。

19、,ROLAP vs MOLAP,查询性能。MOLAP查询能力较好;MDDB中事先做好了许多计算,是MOLAP的查询能力可以预测,并且较为理想;ROLAP速度较MOLAP慢,且不易预测。 数据加载性能。MOLAP加载数据时间较长,每月一次;ROLAP加载数据时间较短,每天刷新。 分析能力。 MOLAP在分析过程中的精度较高,具有分析的优势; ROLAP分析效果不如MOLAP,受SQL语言限制。因为对于现实中的许 多问题的解决很难用一条SQL语句来实现。 数据存储的大小。 MOLAP在实际应用中的数据存贮量往往增加较快,有时会使多维表形 成稀疏矩阵。随着维数的增加,呈现爆炸性增长趋势; ROLAP

20、不会出现稀疏矩阵的情况,关系数据库可以支持无限增长的数据存贮要求。,ROLAP vs MOLAP,维的管理。ROLAP采用星型模式构建,其维表可能很宽,可以包含很多列。分析人员可以在这样的一个表中的所有列进行查询、汇总、钻取等操作。MOLAP很难完成如此复杂的操作。 维护能力。MOLAP能够较好的进行自我维护,在数据更新加载时,只需要用SQL语句对其输入数据就可以了。ROLAP在维护与聚集时却比较困难。 因此: 如果需要建立一个大型的、功能复杂的企业级数据仓库,就要选择ROLAP。例如:SQL Server 2000中建立的维度表超过一千万以上维成员时,就不能采用MOLAP模式。 如果希望建立

21、一个目标单一、维数不是很多的分析型数据集市,则MOLAP可能是一个较佳的选择。,HOLAP,HOLAP表示基于混合数据组织的OLAP实现(Hybrid OLAP)。 HOLAP 方法是结合ROLAP 和MOLAP产生的。它得益于ROLAP较大的可伸缩性和MOLAP的快速计算。例如,HOLAP允许将大量详细数据存放在关系数据库表中,而聚集数据保存在分离的MOLAP 存储中。这种方式具有更好的灵活性。,OLTP、ROLAP与MOLAP模式,数据组织形式,OLAP评价准则,1993年,E.F.Codd 在“Providing OLAP to User Analysts”一文中,提出了关于OLAP的1

22、2条标准,用来评价分析处理工具。其目的是加深对OLAP的理解,事实上,这些标准已成为OLAP工具所应该具有关键特性的最小描述,对于在数据仓库设计,使用OLAP的用户来说,了解这些标准是必不可少的。 Codd提出了关系数据库12条准则,分布式数据库12条准则,这是他的第三个12条准则。 如今,OLAP 的概念已经在商业数据库领域得以广泛使用,OLAP 的特征也得到了验证和确认,从实践来看,COOD 提出的12条准则可以作为评价和购买OLAP 产品的标准。,OLAP评价准则,多维性。由于企业数据空间是多维的,因此OLAP的概念模型也应是多维的。用户可以简单、直接的操作这些多维数据模型,进行切片、切

23、片等操作。 透明性原则。(1)OLAP在体系结构中的位置对用户是透明的。OLAP应处于一个真正的开放系统结构中,他可使分析工具嵌入用户所需的任何位置,而不会对宿主工具的使用产生副作用,同时必须保证OLAP 的嵌入不会引起和增加任何复杂性。(2)OLAP的数据源对用户也是透明的。用户只需使用熟悉的查询工具进行查询,而不必关心输入OLAP 工具的数据来自何处。 存取能力。OLAP系统不仅能进行开放的存取,而且还提供高效的存取策略。OLAP用户分析员不仅能在公共概念视图的基础上对关系数据库中的数据进行分析,而且在公共分析模型的基础上还可以对RDB、非RDB和外部存贮的数据进行分析。要实现这些功能就要

24、求OLAP能将自己的概念视图映射到异质的数据存贮上,并可访问数据,还可进行所需的转换以便给出单一的、连贯的、一致的用户视图。,OLAP评价准则,稳定的报表性能。报表操作不应随维数的增加而削弱,即当数据维数和数据的综合层次增加时,提供给最终分析员的报表能力和响应速度不应该有明显的降低。即便是用户数据模型改变时,关键数据的计算方法也无须改变,即OLAP系统的数据模型对企业的数据模型应该具有“鲁棒”性。 客户机/服务器体系结构。OLAP是建立在C/S体系结构上的。OLAP 工具的服务器构件应有足够的智能,以便各种客户只需做较少的工作使用最少的集成程序就能与其组合起来。这要求他的多维数据库能够被不同的

25、应用和工具所访问,服务器端智能的以最小的代价完成同多种服务器之间的挂接任务。智能化服务器必须具有在不同的逻辑和物理的数据库间映射并组合数据的能力,还应构造通用的、概念化的、逻辑的和物理的模式,从而保证透明性和建立统一的概念模式、逻辑模式和物理模式。客户端负责应用逻辑及用户界面。 维的等同性。每一数据维在其结构和操作功能上必须等价,要求维上的操作是公共的。,OLAP评价准则,动态稀疏矩阵处理。OLAP 服务器的物理结构应完全适用于特定的分析模式,创建和加载此种模式是为了提供优化的稀疏矩阵处理,当存在稀疏矩阵时,OLAP 服务器应能推知数据是如何分布的,以及怎样存储才更有效。(1)对任意给定的稀疏

26、矩阵,存在一个最优的物理视图,该视图能提供最大的内存效率和矩阵处理能力。(2)OLAP工具的基本物理数据单元可配置给可能出现的维的子集。同时,还要提供动态可变的访问方法并包含多种存取机制。 支持多用户。OLAP工具应提供并发访问、数据完整性及安全性等功能。当多个用户在同一分析模型上建立不同的分析模型时,都需要这些功能的支持。 非限定的跨维操作。在多维数据分析中,所有的维的生成和处理都是平等的。OLAP工具应能处理维间相关计算,而不是要求商业用户定义计算的行为。,OLAP评价准则,直接数据操纵。要求数据操作直观易懂。综合路径重定位、向上综合、向下挖掘和其他操作都可以通过直观、方便的点、拉操作完成

27、。 柔性报表。用户通过使用OLAP服务器及其工具,可以按任何想要的方式来操作、分析、综合和查看数据,这些方式包括创建逻辑组或将行、列及单元按需要依次排放。报表机制也应提供这种灵活性,能从各种可能的方面显示出从数据模型中综合出的数据和信息,充分反映数据分析模型的多维特性,并按用户需要的方式显示它。 维和聚集层次不受限。OLAP服务器应能在一个通用分析模型中协调至少15个维,每一个通用维应允许有任意个用户定义的聚集,而且用户分析员可以在任意给定的综合路径上建立任意多个聚集层次。,联机分析处理的局限,常常需要以假设为基础 联机分析处理需要对用户的需求有全面而深入的了解,然而实际上有些时候用户的需求并

28、不是确定的 抽取信息的质量依赖于用户对结果的解释,容易导数错误,10.2.1数据挖掘的概念,数据挖掘(DM)的定义 数据挖掘是从数据中抽取正确的、有用的、以前未知的和综合的可理解的信息,并使用该信息作商业决策的过程 。,特点:半自动或自动 提取 预测 大数据库,数据挖掘的意义 数据挖掘技术可以快速地挖掘、存储和管理数据,帮助企业更有效地改进数据,找出以前无法探知的隐藏了重要业务数据中的信息,从中获取有价值的信息,并凭借它们洞察先机,获取利润。 OLAP(联机分析处理)与DM(数据挖掘)都是数据库(数据仓库)的分析工具,在实际应用中各有侧重。前者是验证型的,后者是挖掘型的。前者建立在多维视图的基

29、础之上,强调执行效率和对用户命令的及时响应,而且其直接数据源一般是数据仓库;后者建立在各种数据源的基础上,重在发现隐藏在数据深层次的对人们有用的模式(Patterns),一般并不过多考虑执行效率和响应速度。,数据挖掘都干了些什么?,英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品。,使直邮的回应率提高了100,数据挖掘都干了些什么?,GUS日用品零售商店需要准确的预测未来的商品销售量,降低库存成本。,通过数据挖掘的方法使库存成本比原来减少了3.8%,数据挖掘都干了些什么?,汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户。,营销费用减少了30,数据挖掘都干

30、了些什么?,美国国防财务部需要从每年上百万比的军火交易中发现可能存在的欺诈现象。,发现可能存在欺诈的交易,进行深入调查,节约了大量的调查成本,数据挖掘都干了些什么?,美国国内税务局需要提高对纳税人的服务水平。,合理安排税务官的工作,为纳税人提供更迅捷、更准确的服务,通过数据挖掘您可以,发现最有价值的客户,通过数据挖掘您可以,使组合销售更有效率,通过数据挖掘您可以,留住那些最有价值的客户,通过数据挖掘您可以,用更小的成本发现欺诈现象,电信 :流失 银行:聚类(细分), 交叉销售 百货公司/超市:购物篮分析 (关联规则) 保险:细分,交叉销售,流失(原因分析) 信用卡: 欺诈探测,细分 电子商务:

31、 网站日志分析 税务部门:偷漏税行为探测 警察机关:犯罪行为分析 医学: 医疗保健,数据挖掘应用领域,数据挖掘效益分析(直邮) (Big Bank & Credit Card Company),目的:发现新客户,数据挖掘模型的分类,描述性模型(Description) : 描述数据中的模式, 用以创建有意义的群或子群。了解数据中潜在的规律 预测性模型(Predication) : 在从已知条件中确定的模式基础上, 预测一些现象或数值。,数据挖掘技术 关联分析 序列模式 分类(预言) 聚类 异常检测,关联分析 为了挖掘出隐藏在数据间的相互关系,序列模式分析 类似与关联分析 着重于分析数据的前因后

32、果,分类分析和预测 对于不同分类的数据进行分析,找出他们的规律、特征 在分类的基础上预测,Debt10% of Income,Debt=0%,Good Credit Risks,Bad Credit Risks,Good Credit Risks,Yes,Yes,Yes,No,NO,NO,Income$40K,决策树 Decision Trees,倾向性分析,案例:客户响应模型,响应率分析: 分析客户对某种新服务或者新产品的感兴趣情况. 为什么要进行响应率分析: 通过响应率分析能够有效的降低市场推广的费用,同时能够更加有针对性的面对目标市场.达到以最小的投入获得最佳效果的目的,用哪一种数据挖掘

33、技术实现?,响应率分析是为了对某项市场营销(新产品销售)活动找到最合适的响应客户,需要预测哪些客户能够响应,以及响应的可能性是多少。 因此,需要构建预言模型 分类是预言模型的一种技术,可以利用分类技术构建客户响应率模型 决策树 神经网络 贝叶斯分类 ,假设您是一个销售一种新的银行服务的直邮计划研究的负责人。,聚类分析 聚集是把整个数据库分成不同的群组。它的目的是要群与群之间差别很明显,而同一个群之间的数据尽量相似。 常用技术:神经元网络、K均值、最近邻,异常检测 及时发现有欺诈嫌疑的异常行为,正确进行欺诈问题的评估,对欺诈者实施控制和强制措施。 技术:决策树,神经元网络,异常因子LOF检测,客

34、户消费异常行为分析模型,数据挖掘的步骤 数据准备 数据集成 数据选择和预分析 挖掘 利用前述的方法对数据进行分析 表述 利用可视化工具,将结果展现给分析员 评价 评估结果,递归上述过程,数据挖掘与OLAP 都属于分析型工具 DM是挖掘型工具 DM试图自动地发现隐藏在数据中的模式或规律 OLAP是验证型工具 OLAP更多地依赖于用户的输入和假设 两者相辅相成,互补 以DM挖掘潜在的模式、预测未来趋势 以OLAP来验证DM的结果,10.3 商业智能,通过利用先进的数据仓库技术、OLAP技术、数据挖掘技术,加以完善的应用架构和优秀的发展理念,从架构企业整体信息化管理的角度出发,在科学方法基础上建立企

35、业系统化的定量分析决策机制,完成企业闭环反馈管理的战略部署,为ERP和财务软件用户提供应用系统增值。主要包括;管理驾驶舱、数据分析、专家财务评估。,企业为什么需要BI?,BI能够从根本上帮助你把公司的运营数据转化成为高价值的可以获取的信息(或知识),并且在恰当的时候通过恰当的方式把恰当的信息传递给恰当的人,数据,信息,知识,利润,BI价值陈述,响应能力 监视事件和计量标准 将最近事件和历史数据相关联,分析 从收入、可赢利性、满意度的角度来讲,哪些是您最好的客户? 哪些客户会对促销作出响应?,计划 预测和趋势分析 实施之前预估策略中的潜在变化,责任 用于经理、主管的精确及时的报告 公司数以万计的以及其他的公开内容,市场营销,采购,服务,销售,项目管理,财务 / HR,计划和 模型,执行,报告和 分析,开发,生产,管理驾驶舱: 基于数据仓库技术,通过对提取的ERP财务、业务数据进行智能化的分析,为企业的管理决策者,提供一个企业分析决策的平台。通过系统提供的指标中心、移动办公、信息预

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论