第1章数据仓库的概念和体系结构汇总.ppt_第1页
第1章数据仓库的概念和体系结构汇总.ppt_第2页
第1章数据仓库的概念和体系结构汇总.ppt_第3页
第1章数据仓库的概念和体系结构汇总.ppt_第4页
第1章数据仓库的概念和体系结构汇总.ppt_第5页
免费预览已结束,剩余59页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,前言:关于数据仓库和数据挖掘,数据仓库:DataWarehouse(DW)1:数据仓库的提出:从数据库到数据仓库,2:数据仓库的应用情况及前景,3:数据挖掘背景及定义,4:数据仓库与数据挖掘的结合,数据挖掘:DataMining(DM),例:河南理工大学横向(每届):学生信息管理系统对应数据库图书管理系统对应后台数据库成绩管理系统对应后台数据库课堂签到系统对应后台数据库网络管理系统对应后台数据库毕业设计系统对应后台数据库,1.数据仓库的提出,例:河南理工大学纵向(每届):1909年1910年2015年特点:上述数据库只是处理在校学生的相应数据(事务),大量的历史数据一直在沉睡。问题:分析学生的上网时间分布、图书借阅情况、上课签到情况与学生成绩之间的联系,从而为学校相关政策的制定提供必要的支持。,1.数据仓库的提出,(1)“数据太多,信息不足”的现状每一届学生的相关数据汇总起来规模巨大,但很难提供我们想要的信息(2)异构环境的数据的转换和共享许多应用需要不同数据源(库)中的信息,而不同数据源中信息的表示又有很大的差别。一般情况下,来自不同数据源(库)中的数据可能不匹配,也可能有部分数据是冗余的,或者格式不同。(3)利用数据进行数据处理转换为利用数据支持决策,1.数据仓库的提出,数据库用于事务处理,数据库作为数据资源用于管理业务中的事务处理。数据库中存放的数据基本上是保存当前数据,随着业务的变化随时在更新数据库中的数据。不同的管理业务需要建立不同的数据库。例如,银行中储蓄业务、信用卡业务分别要建立储蓄数据库和信用卡数据库。,1.数据仓库的提出,数据仓库用于决策分析,数据仓库用于决策分析数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据数据仓库的数据是大量数据库的集成对数据库的操作比较明确,操作数据量少。对数据仓库操作不明确,操作数据量大,1.数据仓库的提出,数据库与数据仓库对比,1.数据仓库的提出,2:数据仓库的应用情况及前景,20世纪90年代兴起2000年以来,在中国发展迅速,各大领域分别启动数据仓库项目,中国移动、淘宝、银行、保险、旅游、气象。,2:数据仓库的应用情况及前景,中国移动:2003年,经过激烈竞争,中国移动选中Teradata数据仓库解决方案以开发其业务分析支持系统(BASS)项目,用以分析来自31个省级分支机构和总公司的业务数据,从而获得纵览企业全局的单一视图,以提高决策质量,提高竞争优势。用数据仓库来寻找潜在用户中国移动建立BASS系统比利时国家电信经纪人使用数据仓库建立的顾客信息系统,其中数据仓库拥有超过1万亿字节的数据,包括四个多月的电话通信记录。通过欺骗检测功能,能够很快发现反常电话以及欺骗性的打电话方式,并能在造成重大经济损失之前终止这种欺骗行为。,2:数据仓库的应用情况及前景,淘宝:淘宝自己的数据仓库实施团队淘宝于2004开始基于Oracle产品构建企业级数据仓库(EDW),并于2007年、2008年和2009年三次利用OracleRAC10g和OracleRAC11g对数据仓库系统进行了升级和扩充实现了数据处理和分析时效性的不断提升,过去需要数天才能完成的计算现在当天就能完成,部分以前属于小时级别的计算更是提高到了分钟级别。目前,淘宝数据仓库能够每天处理几亿次的用户行为,日处理的数据量接近30TB,堪称目前国内每天数据处理量最大、最忙的数据仓库。,2:数据仓库的应用情况及前景,银行:,2002年,招行选择了业界著名厂商Sybase的数据仓库系统。数据仓库和数据挖掘技术在国际上早已成为商业银行业快速发展、科学管理的平台。根据美国META集团的调查,数据仓库技术在美国金融业、制造业、商贸业以及社会服务业等方面都得到广泛的应用,已经采用数据仓库的企业的投资回报率均在40%以上,部分企业高达每年600%。目前,华尔街62的银行、保险、证券等机构采用数据仓库技术,进行风险管理,其中包括著名的摩根斯坦利、花旗银行、加拿大蒙特利尔银行、加皇银行等。数据仓库服务器SybaseIQ、复制服务器ReplicationServer,以及其他相关软件,帮助金融机构进行风险的评估、预测以及防范等工作,从而使风险控制到最小。,2:数据仓库的应用情况及前景,气象:2008年,国家气象中心的预报系统开放实验室研究气象数据仓库的建设,目前已经4年多,系统运行并不断推广。,3:数据挖掘兴起的背景及定义,背景数据挖掘出现于20世纪80年代末,最早是在数据库领域发展起来的,称为数据库中的知识发现(KDD,KnowledgeDiscoveryinDatabase)。知识发现(KDD):从数据中发现有用知识的整个过程。数据挖掘(DM):KDD过程中的一个特定步骤,它用专门算法从数据中抽取知识。如在人类数据库中挖掘知识为:(头发=黑色)(眼睛=黑色)亚洲人该知识覆盖了所有亚州人的记录。,3:数据挖掘背景及定义,定义,目前还没有一个完整的定义,人们提出了多种数据挖掘的定义:SAS研究所(1997):“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”。Bhavani(1999):“使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程”。Handetal(2000):“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程”。根据以上定义,我们可以把数据挖掘理解为:数据挖掘就是从海量的数据(包括结构化和非结构化)中挖掘出隐含在其中的、事先不为人知的、潜在的、有用信息和知识的技术。这些信息是可能有潜在价值的,是用户感兴趣的、可理解、可运用的,支持决策,可以为企业带来利益,或者为科学研究寻找突破口。,3:数据挖掘背景及定义,功能,数据挖掘综合了各个学科技术,有很多的功能,当前主要功能如下:(1)分类:按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。(2)聚类:识别出分析对内在的规则,按照这些规则把对象分成若干类。例如:将申请人分为高度风险申请者,中度风险申请者,低度风险申请者。,3:数据挖掘背景及定义,功能,(3)关联规则和序列模式的发现:关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买尿布的人也有可能购买啤酒,比重有多大,可以通过关联的支持度和可信度来描述。与关联不同,序列是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。(4)预测:把握分析对象发展的规律,对未来的趋势做出预见。例如:对未来经济发展的判断。(5)偏差的检测:对分析对象的少数的、极端的特例的描述,揭示内在的原因。例如:在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减小以后经营的风险。需要注意的是:数据挖掘的各项功能不是独立存在的,在数据挖掘中互相联系,发挥作用。,4:数据仓库与数据挖掘的结合,区别数据仓库是一种存储技术,它能适应于不同用户对不同决策需要提供所需的数据和信息。数据挖掘研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。,4:数据仓库与数据挖掘的结合,联系数据仓库与数据挖掘都是决策支持新技术。但它们有着完全不同的辅助决策方式。在数据仓库系统的前端的分析工具中,数据挖掘是其中重要工具之一。它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。,数据挖掘用于数据仓库实现决策支持:(1)预测客户购买倾向;(2)客户利润贡献度分析;(3)分析欺诈行为;(4)销售渠道优化分析等。数据仓库和数据挖掘的结合对支持决策会起更大的作用。,4:数据仓库与数据挖掘的结合,2015/7/6,数据仓库与数据挖掘,第1章,数据仓库,的概念与体系结构授课教师:晁浩,2012/11/6,数据仓库与数据挖掘,11,1.1数据仓库的概念、特点与组成一、概念,数据仓库就是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,通常用于辅助决策支持(DDS)。,2012/11/6,数据仓库与数据挖掘,12,1.1数据仓库的概念、特点与组成二、特点:,面向主题:指用户使用数据仓库进行决策时所关心的重点领域。典型的主题领域:客户、产品、交易、账目。集成的:数据抽取、清理、加工、汇总、整理相对稳定的:通常一起载入数据,不进行一般意义的数据更新;反映历史变化:时间维概念,何谓数据仓库?一种面向分析的环境;一种把相关的各种数据转换成有商业价值的信息的技术。,2012/11/6,数据仓库与数据挖掘,13,采购子系统:,订单(订单号,供应商号,商品号,类别,单价。,数量,总金额,日期,),供应商(供应商号,供应商名,地址,电话,),销售子系统:,客户(客户号,姓名,地址,电话,),销售(客户号,商品号,数量,单价,日期,),库存子系统:,进库单(编号,商品号,数量,单价,日期,)出库单(编号,商品号,数量,单价,日期,)库存(商品号,库房号,类别,单价,库存数量,,总金额,日期,),商品主题域:商品固有信息:商品号,类别,单价,颜色,商品采购信息:商品号,类别,供应商号,供应日期,单价,数量,商品销售信息:商品号,客户号,数量,单价,销售日期,商品库存信息:商品号,库房号,库存数量,日期,),采购子系统,销售子系统,库存子系统,数据仓库中的数据组织,数据仓库中的数据分为四个级别:早期细节级,,当前细节级,轻度综合级,高度综合级。,19851998年销售明细表,19982003年销售明细表,19982003年每月销售表,19982003年每季度销售表,2012/11/6,数据仓库与数据挖掘,17,1.1数据仓库的概念、特点与组成三、数据仓库的组成:,数据仓库数据库:数据信息存取的场所,对数据提供存取和检索功能。数据抽取工具:数据提取、转化、整理、再存入数据仓库。,2012/11/6,数据仓库与数据挖掘,18,1.1数据仓库的概念、特点与组成三、数据仓库的组成:一个数据仓库的大小一般都是在100GB以上通常,数据仓库系统应该包含下列程序:(1)抽取数据与加载数据(2)整理并转换数据(采用一种数据仓库适用的数据格式)(3)备份与备存数据(4)管理所有查询(即将查询导向适当的数据源),2012/11/6,数据仓库与数据挖掘,19,1.1数据仓库的概念、特点与组成三、数据仓库的组成:,元数据(Metadata):,描述数据仓库内数据的结构和建立方法的数据,是关于数据的数据。元数据是描述数据仓库中数据结构和构建方法的数据。分成技术元数据与业务元数据;,2012/11/6,数据仓库与数据挖掘,20,举例,2012/11/6,数据仓库与数据挖掘,21,1.1数据仓库的概念、特点与组成三、数据仓库的组成:,访问工具;数据集市(DataMarts):从数据仓库中独立出来的一部分数据,即部门主题数据。数据仓库管理;信息发布系统。,数据挖掘的社会需求,国民经济和社会的信息化,社会信息化后,社会的运转是软件的运转社会信息化后,社会的历史是数据的历史,1.2数据挖掘的概念与方法,2012/11/6,数据仓库与数据挖掘,23,1.2数据挖掘的概念与方法一、概念,数据挖掘(DataMining),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识,又被称为数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD)。,2012/11/6,数据仓库与数据挖掘,24,1.2数据挖掘的概念与方法一、概念,数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构;数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型。,2012/11/6,数据仓库与数据挖掘,25,1.2数据挖掘的概念与方法二、数据挖掘的方法:,直接数据挖掘间接数据挖掘,2012/11/6,数据仓库与数据挖掘,26,1.2数据挖掘的概念与方法三、数据仓库与数据挖掘的关系,若将数据仓库(DataWarehouse)比作矿井,那么数据挖掘(DataMining)就是深入矿井采矿的工作数据挖掘是从数据仓库中找出有用信息的一种过程与技术,2012/11/6,数据仓库与数据挖掘,27,1.3数据仓库的技术、方法与产品一、联机事务处理(OLTP)与联机分析处理(OLAP)的比较日常事务处理负责的分析操作,侧重决策支持,2012/11/6,数据仓库与数据挖掘,29,1.3数据仓库的技术、方法与产品二、联机分析处理(OLAP)有关概念,维:人们观察数据的特定角度,从不同维属性上的数据进行研究。例如,企业常常关心不同销售数据随时间的变化情况,所以时间就是一个维多维数据集度量值:描述了要分析的数值,例如话费、用户数量等;,Country,数据立方体样本,全年度美国电视机的销售量,sum,TV,PCVCRsum,1Qtr,2Qtr,Date3Qtr,4Qtr,U.S.ACanadaMexicosum,2012/11/6,数据仓库与数据挖掘,30,1.3数据仓库的技术、方法与产品二、联机分析处理(OLAP)有关概念多维分析:OLAP对数据仓库中数据的操作是针对多维数据视图(又称为超立方体)进行的。对立方体的典型操作包括:切片、切块以及旋转等。,1.,上卷(上钻):数据的汇总,通过一个维的概念分层向上攀升或者通过维归约来实现,2.,下钻(下卷):上卷的逆操作,通过沿维的概念分层由高粒度向下下钻到低粒度的层次或者通过引入新的维来实现,3.4.5.,切片切块旋转,选定多维数组的一个二维子集;选定多维数组的一个三维子集;改变一个立方体显示的维方向,,切片,切块,旋转,地,域,地域,产,品,年份图2.1,对超立方体的典型操作,Product,多维数据模型,Month,数据立方体sales中每格的度量可以看作是关联Product、Region和Month的函数涉及的维:Product,Location,Time属性的层次结构和格结构,IndustryRegion,Year,CategoryCountryQuarter,Product,CityOffice,MonthWeekDay,2012/11/6,数据仓库与数据挖掘,34,1.3数据仓库的技术、方法与产品二、联机分析处理(OLAP)有关概念,OLAP根据其存储数据的方式可分为三类:ROLAP、MOLAP、HOLAPOLAP工具通过多维方式对数据进行分析,查询和报表,2012/11/6,数据仓库与数据挖掘,35,1.3数据仓库的技术、方法与产品三、数据仓库实施中的三个关键环节,数据抽取:涉及互连、复制、增量、转换、调度和监控等方面。数据存储与管理:大量数据、并行处理、数据表现,2012/11/6,数据仓库与数据挖掘,36,1.3数据仓库的技术、方法与产品四、数据仓库实施方法论,数据仓库不是简单的数据或产品堆砌,它是一个综合集成解决方案和系统工程。在数据仓库的实施过程中,技术决策至关重要,技术选择或决策错误很可能导致项目实施失败,2012/11/6,数据仓库与数据挖掘,37,1.3数据仓库的技术、方法与产品五、常用数据仓库产品比较,常用OLAP工具介绍;各数据仓库厂商提供的解决方案IBM、Oracle、NCR、Microsoft、SAS等,常用的数据仓库产品(请大家课后调研),ORACLE,最新版本:11gOWB(OracleWarehouseBuilder)ODI(OracleDataIntegrator)BIEE-BusinessIntelligenceEnterpriseEdition:前端展现工具,IBM,InfoSphereWarehouse:一款功能全面的数据仓库平台,提供了卓越的可伸缩性与可用性,以及设计、构建、管理工具和业务分析功能。InfoSphereWarehouse由DB2提供支持公司网址:,Sybase:,WarehouseStudio,包括数据仓库的建模、数据抽取与转换、数据存储与管理、元数据管理以及可视化数据分析等工具。WarehouseArchitect、PowerStage、ReplicationServer、CarletonPASSPORT,PowerDimensions是图形化的OLAP分析工具,它支持SMP和多维缓存技术,能够集成异构的关系型数据仓库和分布式数据集市公司网址:,NCRTeradata,高端数据仓库市场最有力的竞争者,主要运行在NCRWorldMarkSMP硬件的Unix操作系统平台上Teradata数据仓库在100GB、300GB、1TB和3TB级的TPCD指标测试中均创世界纪录。但是,NCR产品的价格相对较高,中小企业用户难以接受公司网址:,InformixInformix产品能够集成MicrosoftIIS或NetscapeEnterprise/FastTrack服务器,从而支持基于Web的数据仓库应用,2012/11/6,数据仓库与数据挖掘,43,1.4数据仓库系统的体系结构一、数据仓库系统的体系结构的分类,(1)两层架构(Generic,Two-Level,Architecture)。(2)独立型数据集市(IndependentDataMart)。(3)依赖型数据集市和操作型数据存储(DependentDataMartandOperationalDataStore)。(4)逻辑型数据集市和实时数据仓库(LogicalDataMartandReal-TimeDataWarehouse)。,2012/11/6,数据仓库与数据挖掘,44,数据集市:1.数据集市的概念数据集市(DataMarket)是一种更小、更集中的数据仓库。简单地说,原始数据从数据仓库流入不同的部门以支持这些部门的定制化使用。这些部门级的数据库就称为数据集市。一个数据集市就是一个部门的数据集合。数据集市是为特定部门的决策支持而组织起来的一批数据和业务规则,习惯上称它们为“主题域”。例如,财务部门有自己的数据集市,市场部门也有自己的数据集市,它们之间可能有关联,但相互不同且在本质上互为独立。,独立型数据集市:数据来自一个或多个或外部信息提供者,或者来自在一个特定的部门或地域局部产生的数据。依赖型数据集市:数据直接来自企业数据仓库。目前,国内还是依赖型的数据集市居多。两者的区别就在于是否从一个中央数据仓库而来。,2012/11/6,数据仓库与数据挖掘,45,数据集市:3.数据集市技术的体系结构数据集市的数据源主要来自数据仓库和其他数据源。实际上,如果先建数据集市,后建数据仓库,则数据集市的数据就不能来自数据仓库,因此在实际应用中数据集市最主要的数据源来自业务数据库。4.数据集市技术实现方法数据集市分两类:,多层数据仓库体系结构,数据仓库,提取转换装入,OLAP服务器,分析,查询报告数据挖掘,监控&汇总,元数据,前端工具,输出,刷新数据集市,操作数据库,外部信息源,数据源,数据存储器,OLAP服务器,2012/11/6,数据仓库与数据挖掘,46,1.4数据仓库系统的体系结构二、独立的数据仓库体系结构,2012/11/6,数据仓库与数据挖掘,47,1.4数据仓库系统的体系结构基于独立数据集市的数据仓库体系结构,2012/11/6,数据仓库与数据挖掘,48,1.4数据仓库系统的体系结构基于依赖型数据集市(DDM)和操作型数据存储(ODS)的数据仓库体系结构,2012/11/6,数据仓库与数据挖掘,49,1.4数据仓库系统的体系结构逻辑型数据集市和实时数据仓库的体系结构,2012/11/6,数据仓库与数据挖掘,51,1.5数据仓库

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论