




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1数据仓库与数据挖掘南京理工大学经管院南京理工大学经管院 颜端武颜端武2教材:教材:1 夏火松数据仓库与数据挖掘技术(第二版)北京:科夏火松数据仓库与数据挖掘技术(第二版)北京:科学出版社,学出版社,2011 2 李雄飞等数据仓库与数据挖掘北京:机械工业出版社,李雄飞等数据仓库与数据挖掘北京:机械工业出版社,2013 3 (美)(美)jiawei han,(加),(加)micheline kamber等数据等数据挖掘概念与技术(原书第挖掘概念与技术(原书第3版)范明,孟小峰等译北京:版)范明,孟小峰等译北京:机械工业出版社,机械工业出版社,2012 4 (美)(美)w.h.inmon数据仓库(
2、原书第数据仓库(原书第4版)王志海,版)王志海,林友芳等译北京:机械工业出版社,林友芳等译北京:机械工业出版社,2006 3第一章第一章 引引 言言一、从数据库到数据仓库一、从数据库到数据仓库 在市场经济激烈竞争中,企业必须把业务经营同市场联在市场经济激烈竞争中,企业必须把业务经营同市场联系,在此基础上作出科学、正确的决策以求生存。为此,企系,在此基础上作出科学、正确的决策以求生存。为此,企业纷纷建立了自己的数据库系统,由计算机管理代替手工操业纷纷建立了自己的数据库系统,由计算机管理代替手工操作,以此来收集、存储、管理业务数据,改善办公环境,提作,以此来收集、存储、管理业务数据,改善办公环境,
3、提高操作人员的工作效率。高操作人员的工作效率。问题:问题:面向业务操作设计,无论是查询、统计,还是生成报面向业务操作设计,无论是查询、统计,还是生成报表,其处理方式都是对指定的数据进行简单的数字处理。表,其处理方式都是对指定的数据进行简单的数字处理。保险公司:保险公司:购买人寿保险的客户一般有哪些特征?购买人寿保险的客户一般有哪些特征?市场部经理:市场部经理:在过去的一个季度里,咨询哪三样产品的热线在过去的一个季度里,咨询哪三样产品的热线电话最多?电话最多?4 传统的关系数据库可以传统的关系数据库可以回答这种类似问题吗?回答这种类似问题吗?可以,但是很成问题可以,但是很成问题决策者(比如总经理
4、)希望得到一项分析数据决策者(比如总经理)希望得到一项分析数据需求提交给公司的信息部门,信息部门指派人员编制程序需求提交给公司的信息部门,信息部门指派人员编制程序几天后信息部门的报表送到决策者手中几天后信息部门的报表送到决策者手中决策者发觉报表不符合要求,提出修改意见交还给信息部门决策者发觉报表不符合要求,提出修改意见交还给信息部门信息部门修改程序,几天后新的报表送给总经理信息部门修改程序,几天后新的报表送给总经理 数据来的太慢了,我已数据来的太慢了,我已经对它不感兴趣了!经对它不感兴趣了!5 传统的关系数据库可以传统的关系数据库可以回答这种类似问题吗?回答这种类似问题吗?可以,但是很成问题可
5、以,但是很成问题决策者(比如总经理)希望得到一项分析数据决策者(比如总经理)希望得到一项分析数据需求提交给公司的信息部门,信息部门指派人员编制程序需求提交给公司的信息部门,信息部门指派人员编制程序几天后信息部门的报表送到决策者手中几天后信息部门的报表送到决策者手中决策者发觉报表不符合要求,提出修改意见交还给信息部门决策者发觉报表不符合要求,提出修改意见交还给信息部门信息部门修改程序,几天后新的报表送给总经理信息部门修改程序,几天后新的报表送给总经理 我辛辛辛苦苦为一个特定问题加班加我辛辛辛苦苦为一个特定问题加班加点干了十天最后被否定了,这已经是第点干了十天最后被否定了,这已经是第n n次了,次
6、了,我辞职不干了!我辞职不干了!6原因:数据库是针对操作型处理设计的原因:数据库是针对操作型处理设计的也叫事务处理,是指对数据库的日常联机访问操作,所以也叫事务处理,是指对数据库的日常联机访问操作,所以也叫也叫联机事务处理联机事务处理(oltp)(oltp)。 其访问特点是:其访问特点是: 通常仅仅是对一个或一组记录的查询或修改通常仅仅是对一个或一组记录的查询或修改 执行频率高执行频率高 人们关心的是处理的响应时间、数据的安全性和完整人们关心的是处理的响应时间、数据的安全性和完整性等指标。性等指标。 7为完成决策者的询问,信息部门必须:为完成决策者的询问,信息部门必须:抽取数据抽取数据 抽取程
7、序搜索整个文件或数据库,使用某种标准选择符抽取程序搜索整个文件或数据库,使用某种标准选择符合限制的数据,并把数据传到其它文件或数据库中。合限制的数据,并把数据传到其它文件或数据库中。 抽取程序很快流行起来并渗透到信息处理环境中,其原抽取程序很快流行起来并渗透到信息处理环境中,其原因是:因是:1)抽取程序将数据从高性能联机事物处理方式中转移出来,)抽取程序将数据从高性能联机事物处理方式中转移出来,所以在需要总体分析数据时就与联机处理事物能不冲突所以在需要总体分析数据时就与联机处理事物能不冲突2)当抽取程序将数据从操作型事物处理范围内移出时,数据)当抽取程序将数据从操作型事物处理范围内移出时,数据
8、的控制方式就发生了转变。最终用户一旦开始控制数据,他的控制方式就发生了转变。最终用户一旦开始控制数据,他最终就拥有了这些数据。最终就拥有了这些数据。db抽取抽取dbdb.8问题问题1: 蜘蛛网式的拓展蜘蛛网式的拓展9问题问题2: 自然演化体系结构的问题自然演化体系结构的问题1)数据缺乏可信性)数据缺乏可信性 数据无时基数据无时基 数据算法上的差异数据算法上的差异 抽取的多层次抽取的多层次 外部数据问题外部数据问题 无起始公共数据源无起始公共数据源2)生产率问题)生产率问题为回答一个决策查询,需要:为回答一个决策查询,需要: 定位报表所需要的数据并分析数据定位报表所需要的数据并分析数据 为报表编
9、辑数据为报表编辑数据为完成以上工作,召集程序员为完成以上工作,召集程序员/分析员,对他们而言:分析员,对他们而言: 要写的程序很多要写的程序很多 每个程序必须是定制的每个程序必须是定制的 程序涵盖了公司拥有的所有技术程序涵盖了公司拥有的所有技术103)从数据到信息的不可行性)从数据到信息的不可行性 在自然演化体系结构中建立起来的系统对信息需求的支在自然演化体系结构中建立起来的系统对信息需求的支持是不充分的,原因是它们缺乏集成性、以及在分析性处持是不充分的,原因是它们缺乏集成性、以及在分析性处理需要的时间上和在蜘蛛网环境中应用程序的可用时间期理需要的时间上和在蜘蛛网环境中应用程序的可用时间期限上
10、存在差异。限上存在差异。11数据库方式数据库方式数据仓库方式数据仓库方式8080年代以后年代以后9090年代以后年代以后以支持日常业以支持日常业务处理过程为务处理过程为目的(目的(oltpoltp)以支持经营管以支持经营管理过程中的决理过程中的决策制定为目的策制定为目的(dssdss) 自进入自进入9090年代以后,数据库系统的应用从传统的事年代以后,数据库系统的应用从传统的事务处理应用扩展到辅助决策等新的集成应用领域。务处理应用扩展到辅助决策等新的集成应用领域。12数据仓库的出现是为数据仓库的出现是为分析型处理分析型处理用于企业管理人员的决策分析,为制订企业的未来经营管用于企业管理人员的决策
11、分析,为制订企业的未来经营管理计划提供辅助决策信息,如理计划提供辅助决策信息,如决策支持系统决策支持系统(dss-(dss-decision support system )decision support system )。 其访问特点是:其访问特点是: 需要执行大量的统计操作需要执行大量的统计操作 需要访问大量的历史数据需要访问大量的历史数据 执行频率和对响应时间的要求都不高等。执行频率和对响应时间的要求都不高等。13针对工商企业目前业务自动化设计针对工商企业目前业务自动化设计针对工商企业数据分析而设计针对工商企业数据分析而设计是在协助工作人员执行既有的活动是在协助工作人员执行既有的活动是
12、在协助工作人员执行管理决策是在协助工作人员执行管理决策可以让多个用户同时使用信息系统可以让多个用户同时使用信息系统一般而言,同时间不会有太多用户同时使一般而言,同时间不会有太多用户同时使用系统用系统存储的数据比较偏重细节存储的数据比较偏重细节存储的数据偏重较高级别的集合信息存储的数据偏重较高级别的集合信息数据的来源是用户日常工作的输入数据的来源是用户日常工作的输入数据的来源是数据的来源是oltp系统系统数据库的内容会随时被添加、删除,时数据库的内容会随时被添加、删除,时间短而且占用系统的资源少间短而且占用系统的资源少数据内容是历史数据,不会随时加以更新数据内容是历史数据,不会随时加以更新数据的
13、处理以交易为单位,交易时间短数据的处理以交易为单位,交易时间短而且占用的资源少而且占用的资源少数据的处理不是以交易为单位,一个用户数据的处理不是以交易为单位,一个用户的需求会占用大量的系统资源的需求会占用大量的系统资源设计数据库是采用正规化的设计方法设计数据库是采用正规化的设计方法设计数据仓库采用非正规化的设计方式设计数据仓库采用非正规化的设计方式数据库数据数据库数据数据仓库数据数据仓库数据14数据仓库还具有的特点:数据仓库还具有的特点:1)将分散在各处不同性质的数据整合到单数据集合中)将分散在各处不同性质的数据整合到单数据集合中2)使用适合数据分析的结构来存储数据)使用适合数据分析的结构来存
14、储数据3)包含由日常交易数据转换而来的数据,以供管理员决策分析)包含由日常交易数据转换而来的数据,以供管理员决策分析4)要能够及时从数据仓库中取得信息)要能够及时从数据仓库中取得信息5)数据仓库的数据在内部必须有一致性)数据仓库的数据在内部必须有一致性6)用户可以对取得的分析数据做细分与比较)用户可以对取得的分析数据做细分与比较7)数据仓库系统必须包含易于使用的浏览工具)数据仓库系统必须包含易于使用的浏览工具8)在数据仓库中的数据必须完整而且正确。)在数据仓库中的数据必须完整而且正确。15 6060年代,关系数据库之父年代,关系数据库之父e.f.codde.f.codd提出了关系模型,促进了联
15、提出了关系模型,促进了联机事务处理机事务处理(oltp)(oltp)的发展的发展( (数据以表格的形式而非文件方式存储数据以表格的形式而非文件方式存储) )。19931993年,年,e.f.codde.f.codd提出了提出了olapolap概念,认为概念,认为oltpoltp已不能满足终端用已不能满足终端用户对数据库查询分析的需要,户对数据库查询分析的需要,sqlsql对大型数据库进行的简单查询也对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析需要对关系数据不能满足终端用户分析的要求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者库
16、进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,提出的需求。因此,e.f.codde.f.codd提出了多维数据库和多维分析的概提出了多维数据库和多维分析的概念,即念,即olapolap。二、联机事务处理(二、联机事务处理(olapolap)面向操作人员,支持日常操作面向操作人员,支持日常操作面向决策人员,支持管理需要面向决策人员,支持管理需要面向应用,事务驱动面向应用,事务驱动面向分析,分析驱动面向分析,分析驱动一次处理的数据量小一次处理的数据量小一次处理的数据量大一次处理的数据量大可更新可更新不可更新,但周期性刷新不可更新,但周期性刷新当前值数据当前值数据历史数据历
17、史数据细节性数据细节性数据综合性和提炼性数据综合性和提炼性数据原始数据原始数据导出数据导出数据oltp数据数据olap数据数据16olapolap是独立于数据仓库的一种技术概念,基本思想是:是独立于数据仓库的一种技术概念,基本思想是: 企业决策者应能灵活地操作企业的数据,以多维的形企业决策者应能灵活地操作企业的数据,以多维的形式从多方面和多角度来观察企业的状态并了解企业的变化。式从多方面和多角度来观察企业的状态并了解企业的变化。olapolap系统与数据源的数据存储相分离,只要提供足够的数据系统与数据源的数据存储相分离,只要提供足够的数据即可完成即可完成olapolap分析。分析。 当当ola
18、polap与数据仓库结合时,与数据仓库结合时,olapolap的数据源为数据仓库,数的数据源为数据仓库,数据仓库的大量数据是根据多维方式组织的。据仓库的大量数据是根据多维方式组织的。171 1、olapolap定义定义定义定义1 1 :olap(olap(联机分析处理联机分析处理) )是针对特定问题的联机数据是针对特定问题的联机数据访问和分析。通过对信息访问和分析。通过对信息( (维数据维数据) )的多种可能的观察形式的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。对数据进行深入观察。定义定义2 2 :
19、olap(olap(联机分析处理联机分析处理) ) 是使分析人员、管理人员是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。了解的一类软件技术。(olap(olap委员会的定义委员会的定义) )olapolap的目标:的目标:是满足决策支持或多维环境特定的查询和报是满足决策支持或多维环境特定的查询和报表需求
20、,它的技术核心是表需求,它的技术核心是“维维”这个概念,因此这个概念,因此olapolap也可也可以说是多维数据分析工具的集合。以说是多维数据分析工具的集合。182、为什么需要分离的、为什么需要分离的olap或数据仓库或数据仓库 分离操作数据库系统和分离操作数据库系统和olapolap数据仓库的主要原因是提高数据仓库的主要原因是提高两个系统的性能两个系统的性能. .操作数据库系统是为已知的任务和负载设操作数据库系统是为已知的任务和负载设计的计的, ,而数据仓库的查询通常是复杂的而数据仓库的查询通常是复杂的, ,涉及大量数据在汇总涉及大量数据在汇总级的计算级的计算, ,在操作数据库系统上处理在操
21、作数据库系统上处理olapolap查询查询, ,可能会大大降可能会大大降低操作任务的性能。低操作任务的性能。193 3、olapolap服务器类型服务器类型1 1)关系)关系olap(rolap)olap(rolap)模型模型, ,使用关系或扩充关系使用关系或扩充关系dbmsdbms存放存放并管理数据仓库并管理数据仓库2 2)多维)多维olap(molap)olap(molap)服务器服务器, ,这些服务器通过基于数组的这些服务器通过基于数组的多维存储多维存储, ,支持数组的多维视图支持数组的多维视图3 3)混合)混合olap(holap)olap(holap)服务器服务器, ,结合结合rol
22、aprolap和和molapmolap技术技术, ,得得宜于宜于rolaprolap的可伸缩性的可伸缩性, ,和和molapmolap的快速计算。(如的快速计算。(如ms)ms)4 4)特殊的)特殊的sqlsql服务器服务器, ,为了满足在关系数据库中日益增长为了满足在关系数据库中日益增长的的olapolap需要需要, ,实现了特殊的实现了特殊的sqlsql服务器服务器, ,提供高级查询语言提供高级查询语言和查询处理和查询处理, ,在星型和雪花模式上支持在星型和雪花模式上支持sqlsql查询查询20 rolaprolap优势优势没有大小限制没有大小限制现有的关系数据库的技术现有的关系数据库的技
23、术可以沿用可以沿用. .可以通过可以通过sqlsql实现详细数据实现详细数据与概要数据的存储与概要数据的存储现有关系型数据库已经对现有关系型数据库已经对olapolap做了很多优化,包括做了很多优化,包括并行存储、并行查询、并并行存储、并行查询、并行数据管理、基于成本的行数据管理、基于成本的查询优化、位图索引、查询优化、位图索引、sql sql 的的olapolap扩展扩展(cube,rollup)(cube,rollup)等大大提高等大大提高roalproalp的速度的速度 molapmolap优势优势性能好、响应速度快性能好、响应速度快专为专为olapolap所设计所设计支持高性能的决策支
24、支持高性能的决策支持计算持计算 复杂的跨维计算复杂的跨维计算 多用户的读写操作多用户的读写操作 行级的计算行级的计算4、rolap与与molap比较比较21 rolaprolap缺点缺点一般比一般比molapmolap响应速度慢响应速度慢不支持有关预计算的读不支持有关预计算的读写操作写操作sqlsql无法完成部分计算无法完成部分计算 无法完成多行的计算无法完成多行的计算 无法完成维之间的计无法完成维之间的计算算 molapmolap缺点缺点增加系统复杂度,增加增加系统复杂度,增加系统培训与维护费用系统培训与维护费用受操作系统平台中文件受操作系统平台中文件大小的限制,难以达到大小的限制,难以达到
25、tb tb 级级( (只能只能1020g)1020g)需要进行预计算,可能需要进行预计算,可能导致数据爆炸导致数据爆炸无法支持维的动态变化无法支持维的动态变化缺乏数据模型和数据访缺乏数据模型和数据访问的标准问的标准225、维的概念:、维的概念:一个电子公司的销售一般从三个方面分析销售额:一个电子公司的销售一般从三个方面分析销售额:时间:时间:在某一段时间内的销售情况,其度量为(年、季度、在某一段时间内的销售情况,其度量为(年、季度、月、旬、天)月、旬、天)地区:地区:在某个地区的销售情况,度量可分为(地区、国家、在某个地区的销售情况,度量可分为(地区、国家、省、市)省、市)产品:产品:某类或某
26、型号产品的销售情况,度量可分为(类别、某类或某型号产品的销售情况,度量可分为(类别、型号等)型号等) 此处,(时间,地区,产品)就构成了三个维。此处,(时间,地区,产品)就构成了三个维。维有层次结构,可以在某个层上察看数据。维有层次结构,可以在某个层上察看数据。23时间时间地区地区产品产品原点原点 此处正好构成一个数据立方体,可以有更高阶的维,此处正好构成一个数据立方体,可以有更高阶的维,但仍然称为但仍然称为数据立方体。数据立方体。2420294035504138372321393426273632时间时间产品产品地区地区一季度一季度二季度二季度三季度三季度四季度四季度北京北京上海上海南京南京
27、广州广州vcd手机手机电脑电脑空调空调69(北京,二季度,电脑的销售额)(北京,二季度,电脑的销售额)2520294035504138372321393426273632时间时间产品产品地区地区一季度一季度二季度二季度三季度三季度四季度四季度北京北京上海上海南京南京广州广州vcd手机手机电脑电脑空调空调切片切片(slice): 地区地区=“北京北京”意义:北京地区四个季度意义:北京地区四个季度空调、电脑、手机、空调、电脑、手机、vcd的销售金额的销售金额2620294035504138372321393426273632时间时间产品产品地区地区一季度一季度二季度二季度三季度三季度四季度四季度北
28、京北京上海上海南京南京广州广州vcd手机手机电脑电脑空调空调切片:切片: 产品产品=“空调空调”意义:空调产品在四个季意义:空调产品在四个季度中各地区的销售金额度中各地区的销售金额27分块分块(dice):地区地区=“南京南京” and “广州广州”产品产品“空调空调”and “手机手机”2029403550413837时间时间产品产品地区地区一季度一季度二季度二季度三季度三季度四季度四季度南京南京广州广州手机手机空调空调28上卷(上卷(roll_up):按时间上卷到半年为单位按时间上卷到半年为单位2029403550413837时间时间产品产品地区地区一季度一季度二季度二季度三季度三季度四季
29、度四季度南京南京广州广州手机手机空调空调时间时间产品产品南京南京广州广州手机手机空调空调49759175上半年上半年 下半年下半年上卷上卷292029403550413837时间时间产品产品地区地区一季度一季度二季度二季度三季度三季度四季度四季度南京南京广州广州手机手机空调空调下钻(下钻(drill_down): 按时间分到月、甚至按时间分到月、甚至天为单位天为单位668817161413时间时间南京南京广州广州手机手机8131113141413121610101513111016空调空调1 2 3 4 5 6 7 8 9 10 11 12下钻下钻306、数据仓库的、数据仓库的粒度:粒度:反映
30、数据的粗细程度反映数据的粗细程度 若要分析去年春节手机打折销售后的销售情况,此时若要分析去年春节手机打折销售后的销售情况,此时在数据仓库中已经无法进行了。只有将粒度确定为在数据仓库中已经无法进行了。只有将粒度确定为“天天”才有可能。才有可能。 销售数据库存储了每一笔业务的细节,在分析时对每销售数据库存储了每一笔业务的细节,在分析时对每一笔分析是无意义的。因此可以考虑数据仓库的粒度级别一笔分析是无意义的。因此可以考虑数据仓库的粒度级别以星期为单位,即在数据从数据库装入数据仓库时,按星以星期为单位,即在数据从数据库装入数据仓库时,按星期汇总。由星期通过计算能得到月、季度、年的汇总。可期汇总。由星期
31、通过计算能得到月、季度、年的汇总。可以认为该数据仓库在时间上有以认为该数据仓库在时间上有多重粒度。多重粒度。粒度细:数据分析灵活,但存储空间大,计算量大粒度细:数据分析灵活,但存储空间大,计算量大粒度粗:存储空间小,但有时无法回答一些比较细节的问题粒度粗:存储空间小,但有时无法回答一些比较细节的问题317、分割、分割 目的:提高效率目的:提高效率 含义:将数据分散到各自的物理单元中,以便能分别独含义:将数据分散到各自的物理单元中,以便能分别独立处理。立处理。 分割标准:日期、地域、业务领域等。分割标准:日期、地域、业务领域等。 在数据仓库中,围绕分割问题的关键不是对数据该不在数据仓库中,围绕分
32、割问题的关键不是对数据该不该分割,而是如何分割。该分割,而是如何分割。 对数据仓库中,如果粒度和分割做得很好的话,则数对数据仓库中,如果粒度和分割做得很好的话,则数据仓库设计和实现的几乎所有其它问题都解决了。据仓库设计和实现的几乎所有其它问题都解决了。32数据仓库的结构数据仓库的结构337、olap数据立方体的计算(物化)数据立方体的计算(物化)1、数据立方体的个数、数据立方体的个数 有产品有产品(type)、城市、城市(city)、日期、日期(date)三个维,则:三个维,则:allyeartypecitytype yearcity datecity type city type date一
33、般,若有一般,若有n个维,则不同立方体的个数是:个维,则不同立方体的个数是:nnnnnccc2.1034 实际维上有分层,如(年、季度、月、星期、日),所以实际维上有分层,如(年、季度、月、星期、日),所以实际的立方体个数是极大的。所以,实时计算的工作量极大,实际的立方体个数是极大的。所以,实时计算的工作量极大,但全部事先计算,则存储量又极大。但全部事先计算,则存储量又极大。 所以,在所以,在olap中一般采用部分物化,即有选择的事先计中一般采用部分物化,即有选择的事先计算。算。35三、数据挖掘三、数据挖掘 olapolap使用户能利用工具快速的查询数据。但不能解决哪些使用户能利用工具快速的查
34、询数据。但不能解决哪些信息是有意义的,哪些是无意义的。信息是有意义的,哪些是无意义的。 在在olapolap使用中,一般是用户提出一个假设(模式),通过使用中,一般是用户提出一个假设(模式),通过olapolap去验证假定或从返回的数据信息中总结出某种规律去验证假定或从返回的数据信息中总结出某种规律。有。有时返回的信息太多而无法处理。(比如在搜索引擎查时返回的信息太多而无法处理。(比如在搜索引擎查“数据数据挖掘挖掘”返回许多页面,而有关的返回许多页面,而有关的“数据开采数据开采”, “知识发现知识发现”又没有返回)。又没有返回)。 二十年前查不到数据是因为数据太少,而今天数据二十年前查不到数据
35、是因为数据太少,而今天数据查不到是因为数据太多。查不到是因为数据太多。36 若把大量的数据比做藏有金子的山,若把大量的数据比做藏有金子的山,olap提供了在提供了在山中各处迅速地观察工具,它能让你迅速的到达你想到的山中各处迅速地观察工具,它能让你迅速的到达你想到的地方。但不能告诉你是否此处有价值。如果山是巨大的,地方。但不能告诉你是否此处有价值。如果山是巨大的,发现其中重要的有价值的位置本身是非常耗时的。发现其中重要的有价值的位置本身是非常耗时的。37数据挖掘(数据挖掘(data mining ) 从大量的数据集合中的数据中提取有用的信息从大量的数据集合中的数据中提取有用的信息 ( 不平常不平
36、常的的 , 暗藏的,暗藏的, 先前未知的和很可能有用的先前未知的和很可能有用的 )。 数据挖掘数据挖掘就是对观测到的数据集(经常是很庞大的)就是对观测到的数据集(经常是很庞大的)进行分析,目的是发现未知的关系和以数据拥有者可以进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。理解并对其有价值的新颖方式来总结数据。38数据挖掘与数据仓库关系数据挖掘与数据仓库关系 数据仓库的目标是提供数据仓库的目标是提供olap及数据挖掘功能。及数据挖掘功能。 数据挖掘的数据源不一定是数据仓库数据挖掘的数据源不一定是数据仓库 数据仓库允许你建立数据仓库允许你建立“数据山数据山”
37、,而数据挖掘允许你在,而数据挖掘允许你在山山 中筛选数据,得到对你有用的信息中筛选数据,得到对你有用的信息39数据挖掘的过程数据挖掘的过程data cleaning数据整理数据整理data integration数据集成数据集成数据库数据库数据数据仓库仓库相关任务数据相关任务数据挑选挑选数据挖掘数据挖掘模式评估模式评估pattern evaluation40数据仓库的投资回报率(数据仓库的投资回报率(roiroi) 96年,年,idc(intenational data corporation)做了关于数据做了关于数据仓库经济价值的研究。报告指出:对仓库经济价值的研究。报告指出:对it业的投资
38、还未产生预期业的投资还未产生预期的利润。的利润。94年全世界投入了年全世界投入了4640亿美元用于开发新技术。企业、亿美元用于开发新技术。企业、公司的高级管理人员开始怀疑投资公司的高级管理人员开始怀疑投资it业到底有没有利益?业到底有没有利益? roiroi底的原因是:传统的计算技术只重视如何自动完成职员底的原因是:传统的计算技术只重视如何自动完成职员的日常工作、提高已有过程的效率和收集数据。不幸的是虽然的日常工作、提高已有过程的效率和收集数据。不幸的是虽然收集了大量数据,但直到近年,这些数据的价值才被发现和利收集了大量数据,但直到近年,这些数据的价值才被发现和利用。用。 随着数据仓库的到来,
39、公司可以把收集到的信息加以利用随着数据仓库的到来,公司可以把收集到的信息加以利用以获得较大的投资回报率。以获得较大的投资回报率。idcidc的报告认为实现数据仓库有较的报告认为实现数据仓库有较大经济回报大经济回报,原因是:,原因是:41 能应用到商业过程中,对商业过程做完整的经济分析。能应用到商业过程中,对商业过程做完整的经济分析。这时的机构能在了解整个系统的基础上,而不是不完整的数这时的机构能在了解整个系统的基础上,而不是不完整的数据上做估计和决策。据上做估计和决策。 能自动创建一个完整的企业范围内的信息仓储,而不是能自动创建一个完整的企业范围内的信息仓储,而不是开发一些单独的决策支持系统和
40、相应的基础设施。开发一些单独的决策支持系统和相应的基础设施。 开发、部署和维护大型信息数据存储花费的硬件、软件和开发、部署和维护大型信息数据存储花费的硬件、软件和存储代价继续下降。存储代价继续下降。 数据仓库可以轻易拓展到能产生巨大利益的战略决策过程数据仓库可以轻易拓展到能产生巨大利益的战略决策过程中。中。 能同时从宏观和微观上了解和管理企业。这可以节省无数能同时从宏观和微观上了解和管理企业。这可以节省无数的手工劳动,避免由不完全或不正确数据得出的假设导致的错的手工劳动,避免由不完全或不正确数据得出的假设导致的错误误这种错误有时是致命的这种错误有时是致命的。42 idcidc的研究结论认为:的
41、研究结论认为:数据挖掘平均三年的数据挖掘平均三年的roiroi能达到能达到401%,401%,在被调查的企业中,有超过在被调查的企业中,有超过90%90%的企业的的企业的roiroi超过了超过了40%40%,50%50%的的企业的企业的roiroi超过了超过了160%160%,25%25%的企业的的企业的roiroi超过了超过了600%600%43四、数据仓库和数据挖掘产品四、数据仓库和数据挖掘产品单点产品单点产品 仅局限于数据仓库方案实施中的一部分或某一特定功仅局限于数据仓库方案实施中的一部分或某一特定功能,主要是作为第三方产品或者和其它公司的产品结合起来能,主要是作为第三方产品或者和其它公
42、司的产品结合起来进行使用。进行使用。44business objects business objects 主要工具:主要工具:businessobjectsbusinessobjects是集成查询,报表和分析功能的工具;是集成查询,报表和分析功能的工具;webintelligencewebintelligence是世界上第一个通过是世界上第一个通过webweb进行查询、进行查询、报表和分析的决策支持工具;报表和分析的决策支持工具;businessquerybusinessquery是第一个可以在是第一个可以在microsoft excelmicrosoft excel中集中集成企业公共数据源
43、中数据的工具;成企业公共数据源中数据的工具;businessminerbusinessminer是面向主流商业用户的数据挖掘工具,是面向主流商业用户的数据挖掘工具,可以实现深入的分析用以发掘深层次的数据之间的关系。可以实现深入的分析用以发掘深层次的数据之间的关系。应用提示:应用提示:严格意义上说,严格意义上说,business objectsbusiness objects产品只能算是一个前产品只能算是一个前端工具。它是数据仓库解决方案中最常用的数据展现工具。端工具。它是数据仓库解决方案中最常用的数据展现工具。business objectsbusiness objects通过为主流的商业用户
44、提供访问数据库和通过为主流的商业用户提供访问数据库和数据仓库中的信息的决策支持方案而立足业界。产品已经从数据仓库中的信息的决策支持方案而立足业界。产品已经从初级的工作组晋级到企业级。初级的工作组晋级到企业级。45提供部分解决方案的产品提供部分解决方案的产品目前许多提供数据方案解决方案的供应商,并不能提目前许多提供数据方案解决方案的供应商,并不能提供构建数据仓库的全部工具,它们还要结合第三方供应商供构建数据仓库的全部工具,它们还要结合第三方供应商提供的工具才能完成整个数据仓库的构建。例如:提供的工具才能完成整个数据仓库的构建。例如:ibmibm、oracleoracle、sybasesybase
45、、ncrncr、informixinformix、microsoftmicrosoft等公司所提等公司所提供的数据仓库产品都属于此类范畴。供的数据仓库产品都属于此类范畴。461 1、oracleoracle 产品特点:产品特点:oracleoracle公司的数据仓库解决方案包含了业界领先的数公司的数据仓库解决方案包含了业界领先的数据库平台、开发工具和应用系统,它能够提供一系列的数据库平台、开发工具和应用系统,它能够提供一系列的数据仓库工具集和服务。它具有多用户数据仓库管理能力,据仓库工具集和服务。它具有多用户数据仓库管理能力,多种分区方式,较强的与多种分区方式,较强的与olapolap工具的交
46、互能力,及快速和工具的交互能力,及快速和便捷的数据移动机制等特性。便捷的数据移动机制等特性。47主要工具主要工具:oracle 9ioracle 9i是数据仓库的核心。是数据仓库的核心。oracle warehouse builderoracle warehouse builder集成数据建模、数据抽取、集成数据建模、数据抽取、数据转移和装载、聚合、元数据的管理等功能。数据转移和装载、聚合、元数据的管理等功能。oracle developer serveroracle developer server使企业级的应用系统开发工使企业级的应用系统开发工具,支持面向对象和多媒体,可同时生成具,支持面
47、向对象和多媒体,可同时生成client/serverclient/server及及webweb下的应用,具有极高的开发效率及网络伸缩性。下的应用,具有极高的开发效率及网络伸缩性。oracle discovereroracle discoverer是最终用户查询、报告、深入、旋是最终用户查询、报告、深入、旋转和转和webweb公布工具,能够帮助用户迅速访问关系型数据仓库,公布工具,能够帮助用户迅速访问关系型数据仓库,从而使他们作出基于充分信息的决策。从而使他们作出基于充分信息的决策。oracle darwinoracle darwin使基于数据仓库的数据挖掘工具,简单使基于数据仓库的数据挖掘工具
48、,简单易用的图形化界面,提供决策树、神经网络等多种数据挖掘易用的图形化界面,提供决策树、神经网络等多种数据挖掘方法,支持海量数据的并行处理,分析结果可以和现有系统方法,支持海量数据的并行处理,分析结果可以和现有系统集成。集成。48应用提示:应用提示:oracleoracle的数据转移工具需手工编写的数据转移工具需手工编写sqlsql脚本,在处理复杂脚本,在处理复杂的数据转换需求时的数据转换需求时, ,困难很多。困难很多。oracleoracle的前端工具易用性较差,的前端工具易用性较差,需较多地依赖第三方产品。需较多地依赖第三方产品。492、ibm产品特点产品特点ibmibm公司提供了一套基于
49、可视数据仓库的商业智能(公司提供了一套基于可视数据仓库的商业智能(bibi)解)解决方案,具有集成能力强,高级面向对象决方案,具有集成能力强,高级面向对象sqlsql等特性。等特性。主要工具主要工具ibmibm提供的提供的visual warehousevisual warehouse(vwvw)是一个功能很强的集成是一个功能很强的集成环境,既可用于数据仓库建模和元数据管理,又可用于数据抽环境,既可用于数据仓库建模和元数据管理,又可用于数据抽取、转换、装载和调度。取、转换、装载和调度。essbase/db2 olap serveressbase/db2 olap server支持多维数据库,它
50、是一个支持多维数据库,它是一个(rolaprolap和和molapmolap)混合的)混合的holapholap服务器,在服务器,在essbaseessbase完成数据装完成数据装载后,数据存放在系统指定的载后,数据存放在系统指定的db2 udbdb2 udb数据库中。数据库中。questquest是是ibmibm公司公司almadenalmaden研究中心开发的一个多任务数据研究中心开发的一个多任务数据挖掘系统,目的是为新一代决策支持系统的应用开发提供高效挖掘系统,目的是为新一代决策支持系统的应用开发提供高效的数据开采基本构件。系统提供多种开采功能,开采算法可适的数据开采基本构件。系统提供多
51、种开采功能,开采算法可适用于任意大小的数据库。用于任意大小的数据库。50应用提示应用提示ibmibm公司自己并没有提供完整的数据仓库解决方案,但公司自己并没有提供完整的数据仓库解决方案,但是它可以使用第三方的数据仓库工具。例如,查询工具使用是它可以使用第三方的数据仓库工具。例如,查询工具使用business objectsbusiness objects的的business objectsbusiness objects,统计分析工具使,统计分析工具使用用sassas公司的公司的sassas系统。系统。513 3、sybasesybase产品特点产品特点sybasesybase公司提供的数据仓
52、库解决方案以能够支持多种关公司提供的数据仓库解决方案以能够支持多种关系型数据库而受到业界推崇。它能够同时处理几十个即席查系型数据库而受到业界推崇。它能够同时处理几十个即席查询,其询,其bit_wiscbit_wisc技术和垂直数据存储技术使系统只访问特定技术和垂直数据存储技术使系统只访问特定的少量数据,使得查询速度比传统的关系型数据库管理系统的少量数据,使得查询速度比传统的关系型数据库管理系统快快100100倍。倍。52主要工具:主要工具:warehouse architectwarehouse architect是是powerdesignerpowerdesigner中的一个设计模块,中的一
53、个设计模块,利用它数据集市或数据仓库设计者可以自动地对已有的关系数据利用它数据集市或数据仓库设计者可以自动地对已有的关系数据库进行逆向工程,建立目标数据库设计、物理设计和库进行逆向工程,建立目标数据库设计、物理设计和ddlddl。powerstagepowerstage、replication serverreplication server、carleton passportcarleton passport是是数据抽取与转换工具。数据抽取与转换工具。adaptive server enterpriseadaptive server enterprise是是sybasesybase企业级关系
54、数据库,企业级关系数据库,它通过多线索体系、并行操作以及对系统的内存、处理器和磁盘它通过多线索体系、并行操作以及对系统的内存、处理器和磁盘资源使用进行控制等手段增强了资源利用率。资源使用进行控制等手段增强了资源利用率。adaptive server iqadaptive server iq是是sybasesybase公司专为数据仓库设计的关系公司专为数据仓库设计的关系数据库。数据库。 powerdimensionspowerdimensions、englishwizardenglishwizard、infomakerinfomaker、powerdynamopowerdynamo是数据分析与展
55、现工具。是数据分析与展现工具。warehouse control centerwarehouse control center、sybase centralsybase central、distribution distribution director director 是数据仓库的维护与管理工具是数据仓库的维护与管理工具。53应用提示:应用提示:sybasesybase的的industry warehouse studioindustry warehouse studio包括相应行业所需的包括相应行业所需的商业智能应用软件和数据分析模型,可以针对不同行业进行业绩商业智能应用软件和数据分析模
56、型,可以针对不同行业进行业绩分析、促销活动分析、用户群分析、销售分析和收益分析等,具分析、促销活动分析、用户群分析、销售分析和收益分析等,具有数据仓库设计、元数据管理等功能、支持广泛的应用软件和报有数据仓库设计、元数据管理等功能、支持广泛的应用软件和报表,并提供表,并提供warehouse studio warehouse studio 的设计工具的设计工具,warehouse control ,warehouse control centercenter等工具,使企业能够进一步扩展数据模型和应用系统,以等工具,使企业能够进一步扩展数据模型和应用系统,以适应各种商业活动的实际需要适应各种商业活
57、动的实际需要。544 4、 informixinformix产品特点产品特点 informixinformix公司发布了一个集成的、可伸缩的公司发布了一个集成的、可伸缩的fast startfast start数数据仓库解决方案,以使用户能快速而便捷地设计开发具有可伸缩据仓库解决方案,以使用户能快速而便捷地设计开发具有可伸缩性的数据仓库或数据集市。采用性的数据仓库或数据集市。采用rolaprolap的星型模式与的星型模式与informix informix ids ids 、ids/adids/ad紧密集成提供预先汇总、抽样、后台查询等性能优紧密集成提供预先汇总、抽样、后台查询等性能优化手段。
58、化手段。informixinformix产品能够集成产品能够集成microsoft iismicrosoft iis或或netscape netscape enterprise/fasttrackenterprise/fasttrack服务器,从而支持服务器,从而支持webweb访问。访问。informixinformix没没有提供自己的报表和数据挖掘工具,它可以集成第三方产品(例有提供自己的报表和数据挖掘工具,它可以集成第三方产品(例如结合如结合briobrio的前端数据分析和报表功能,结合的前端数据分析和报表功能,结合sassas的数据挖掘功的数据挖掘功能)。能)。informixinfo
59、rmix并且向客户提供一套完整、使用的咨询服务包。并且向客户提供一套完整、使用的咨询服务包。55主要工具主要工具metacube rolap optionmetacube rolap option为基于为基于informixinformix的数据仓库或数据的数据仓库或数据中心提供了全面、简便易用、可扩展和自动化的商业分析环境。中心提供了全面、简便易用、可扩展和自动化的商业分析环境。informix infomoverinformix infomover是一套集成工具,用于从多个工作资是一套集成工具,用于从多个工作资源中抽取、转换和维护数据。源中抽取、转换和维护数据。seagate crysta
60、l infoseagate crystal info是企业级报表、分析系统。是企业级报表、分析系统。idsids以及以及ad/xpad/xp选项选项是是informixinformix数据仓库系统的核心,提供数据仓库系统的核心,提供数据仓库数据的存储功能。数据仓库数据的存储功能。56应用提示应用提示 采用采用informixinformix数据仓库解决方案可以使数据仓库系统具数据仓库解决方案可以使数据仓库系统具有高性能、高可扩展性,高开放性,可以自己进行定制等特有高性能、高可扩展性,高开放性,可以自己进行定制等特性,同时,利用性,同时,利用informixinformix的专业数据仓库咨询服务
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 调料市场投资协议
- 文化节庆合作协议
- 室内装饰色彩选择协议
- 绢纺和丝织的绿色组织与管理考核试卷
- 聚苯并噻吩共聚物纤维单体制备考核试卷
- 企业客户关系管理与维护考核试卷
- 稀有金属加工质量改进项目评估与验收标准制定考核试卷
- 中学生交通安全教育
- 文明礼仪伴我行-中学生行为养成教育主题班会
- 护患沟通技巧课件
- 2025-2030中国干燥剂行业发展分析及发展前景与投资研究报告
- 环保安全知识课件
- 比例尺单元测试卷及答案
- 氩弧焊基本知识课件
- 《广西壮族自治区基层工会经费收支管理实施办法》修订解读
- 中职语文教学大赛教学实施报告范文与解析
- 山东临沂市罗庄区兴罗投资控股有限公司招聘笔试题库2025
- 北京市朝阳区2025届高三下学期一模试题 数学 含答案
- 食品工厂5S管理
- 大数据在展览中的应用-全面剖析
- 食品企业危机应对措施
评论
0/150
提交评论