版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二章 数据仓库概述第二章 数据仓库概述数据仓库的产生与发展1数据仓库的概念与特征2数据仓库中的关键名词3数据仓库的数据组织4数据仓库的体系结构5操作型数据存储ODS62.1 数据仓库的产生和发展2.1.1 从传统数据库到数据仓库 数据库系统是数据库和数据库管理系统的总称,它是数据管理的技术,是计算机科学技术中发展最快的重要分支之一。从20世纪60年代开始,由于计算机领域中事务处理应用的出现而引起了数据库技术的发展,相继出现了层次数据库、网状数据库和关系数据库等,从而形成了所谓的“数据库时代”。并且经过短短四十年的发展,数据库技术已成为计算机信息系统与应用系统的重要技术基础和支柱。 数据库技术
2、是为事务处理需求设计和建立的,从而使计算机在事务处理上发挥极大的效果。但是它在决策分析等方面上却存在很多的不足,下面我们具体来看下。2.1 数据仓库的产生和发展数据库技术在决策分析以及其他方面的不足: 1.决策分析 数据库技术在决策处理的系统响应、决策数据需求、决策数据操作等问题上都存在不足之处。 2.数据太多,信息贫乏 随着数据库技术的发展,企事业单位建立了大量的数据库,数据越来越多,而辅助决策的信息却很乏,导致企业尽管拥有大量的数据,但是对数据的分析能力却并不高,如何将大量的数据转化为辅助决策信息成了研究的热点。数据库技术在决策分析以及其他方面的不足: 4.主题不明确 建立传统数据库的目的
3、是为了满足事务处理的需要,库和表的定义与设计完全以此为基础而进行,对于进行数据分析而言,这些库和表无疑缺少明确的主题。3.异构环境数据的转换和共享的增加 由于各类数据库产品的增加,异构环境的数据也随之增加,如何实现这些异构环境数据的转换和共享也成了研究的热点。 由此,在数据库技术之上建立了一种面向主题的,主要用于决策分析的技术,我们把它称之为数据仓库技术。2.1 数据仓库的产生和发展2.1 数据仓库的产生和发展2.1.2 数据仓库与数据库的区别 从数据库到数据仓库的演变过程,体现在以下四个方面。1、数据库用于事务处理,数据仓库用于决策分析 数据库存储大量的共享数据,作为数据资源用于管理业务中的
4、事务处理。事务处理功能单一,只能完成数据的增加、删除、修改和查询等操作。决策分析要求的数据较多。在数据仓库中,需要存储更多的数据,但不需要修改数据,主要提取综合数据的信息,以及分析预测数据的信息。2、数据库保存当前的状态,数据仓库既保存过去的数据也保存当前的数据 例如:学生数据库,随着新生的入校,数据库中要增加新学员的数据记录;随着毕业学生的离校,数据库中要删除这些学员的数据记录。而数据仓库中的数据不随时间的变化而变化,但保留大量不同时间的数据,即保留历史数据和当前数据。2.1 数据仓库的产生和发展 数据仓库中的数据并不是数据库中数据的简单集成,而是按决策主题,将大量数据库中数据进行重新组织,
5、统一编码进行的集成。如银行数据仓库中的数据是由储蓄数据库、信用卡数据库、贷款数据库等多个数据库按“用户”主题进行重新组织、编码和集成而建立的。可见,数据仓库的数据量比数据库的数据量大很多。4、对数据库的操作比较明确,操作数据量少;对数据仓库的操作不明确,操作数据量大 一般对数据库的操作都是事先知道的事务处理工作,每次操作涉及的数据量也少,如一个或几个记录数据。但对数据仓库的操作通常都是根据当时的决策需求而临时决定进行的。比如,比较两个地区某个商品销售的情况。该操作所涉及的数量很大,包含两个地区多个商店的某商品的所有销售记录。3、数据仓库的数据是大量数据库的集成8.1 第三方支付的发展背景传统数
6、据库和数据仓库的对比图如下表2-1所示。数据库数据仓库面向应用数据是详细的保持当前数据数据是可更新的对数据操作是重复的操作需求是事先可知的一个操作存取一个记录数据非冗余操作比较频繁查询的是原始数据事务处理需要的是当前数据很少有复杂的计算支持事务处理面向主题数据是综合的或提炼的保存过去和现在的数据数据不更新对数据的操作是启发式的操作需求是临时决定的一个操作存取一个集合数据时常冗余操作相对不频繁查询的是经过加工的数据决策分析需要过去、现在的数据很多复杂的计算支持决策分析2.1 数据仓库的产生和发展2.1.3 数据仓库的产生过程 随着决策支持需求的加大,人们不满足于利用数据库对数据的处理和管理了,更
7、希望能够得到多方面、多渠道的数据综合处理和管理. 1988年IBM爱尔兰公司的Barry Devlin和Paul Murphy第一次提出了“信息仓库”的概念,Devlin和Murphy发表了一篇关于数据仓库论述的最早文章。1992年美国著名的信息工程学家 WHInmon在Building the Data Warehouse(建立数据仓库)一书中首先系统地阐述了关于数据仓库的思想、理论。2.1 数据仓库的产生和发展 Building the Data Warehouse一书中定义了数据仓库建设的非常具体的原则,包括:数据仓库是面向主题的、集成的、包含历史的、不可更新的、面向决策支持的、面向全企
8、业的、最明细的数据存储、数据快照式的数据获取等。这些原则到现在仍然是指导数据仓库建设的最基本原则,从此数据仓库的研究和应用得到了广泛的关注,因而W.H.Inmon被人们尊称为“数据库之父”。 2.1 数据仓库的产生和发展沃尔玛数据仓库的发展: 建立数据仓库比较成功的典型是Wal-Mart(沃尔玛)数据仓库系统。自1980年以来,NCR Teradata 一直在帮助沃尔玛经营世界上最大的数据仓库系统。1988年沃尔玛数据仓库容量为12GB,1989年升级为24GB,以后逐年增长,1996年其数据量已达7.5TB,1997年为了圣诞节的市场预测和分析,沃尔玛将数据仓库容量扩展到24TB。在这之后,
9、沃尔玛继续跟NCR合作来扩大其数据仓库的容量。2.1 数据仓库的产生和发展其他大型企业数据仓库的发展: 2008年5月27日公布yahoo的数据仓库当前容量为2PB。用于分析每月5亿的用户访问行为,每天处理240亿次的事件,号称世界上单个最大、最忙的数据库。2009年6月19日,Goolge与BI厂商联系到了一起,试图打造世界上最大的数据仓库系统。BI厂商在产品中融入搜索功能,是时下发展的潮流。2.1 数据仓库的产生和发展2.1.4 数据仓库的发展现状 数据仓库解决方案能够帮助各行业实施自动化的数据流程,完成智能的商务处理。 包括商业活动分析、客户情况分析、销售分析、收益性分析等,为用户提供了
10、针对商业智能的完整解决方案,为企业的正确决策提供前瞻性的支持。 中国的数据仓库市场更是商机无限,其发展的领域从传统的金融、保险、证券等领域发展到零售业等多个领域,下面我们进行具体的分析。2.1 数据仓库的产生和发展1、金融领域 数据仓库技术对于商业银行具有重要的作用,是银行成功进行市场营销的核心,能帮助银行准确地发现目前为银行创造效益的客户和具有创造效益潜力的客户,能支持银行前台网点预测和分析客户的消费倾向及提高银行资产质量,防范金融风险,并能帮助银行开发适应消费者需求的新产品,为银行留住客户提供有效的手段。全球前100 家大银行几乎都建有自己的数据仓库,并且基于数据仓库的应用也呈级数增长趋势
11、。2.1 数据仓库的产生和发展2、商业保险领域 随着商业保险公司业务系统日趋完善,数据交换和处理中心的建立,如何满足保险行业日益增长的各种查询、统计、报表以及分析的需求,如何提高防范和化解经营风险的能力,如何有效利用这些数据来实现经营目标,预测保险业的发展趋势,甚至如何利用这些数据来设计保险企业的发展宏图以在激烈的竞争中赢得先机,是保险决策支持系统需要解决的问题,这些都需要数据仓库的支持。 应用数据仓库技术还可轻松实现用有效的方式制定新增和续保的政策,帮助分析理赔过程的欺诈行为等。2.1 数据仓库的产生和发展3、证券领域 利用先进的数据仓库和OLAP 技术,结合WEB技术,可以对证券行业的客户
12、和业务数据进行多角度、多层次的分析,了解和掌握证券行业的客户特征和业务特点,通过对客户的行为和市场各因素的关联、客户的操作习惯、盈亏情况、公司的利润分布等进行统计和分析,为客户提供针对其个人习惯、投资组合的投资建议,使证券公司能够在适当的时间,通过最佳的渠道,为保持和获取客户做出正确的选择,从而获得最大的利润。2.1 数据仓库的产生和发展4、电信领域 数据仓库技术在电信行业内的应用可以实现如固定电话话费行为分析、优惠策略预测、欠费和动态防欺诈行为分析,更有利于制定相应的商业决策,实现更好的经济效益。 目前,世界上已有多个国家的电信公司正在利用数据仓库技术提升利润空间。 比利时国家电信经纪人使用
13、数据仓库建立的顾客信息系统,其中数据仓库拥有超过1 万亿字节的数据,包括四个多月的电话通信记录。 通过欺骗检测功能,能够很快发现反常电话以及欺骗性的打电话方式,并能在造成重大经济损失之前终止这种欺骗行为。2.1 数据仓库的产生和发展5、税收领域 在税收方面,通过应用数据仓库技术,对税收部门的数据进行综合分析处理,查出应税未报者和瞒税漏税者,并对其进行跟踪;对不同行业、产品和市场中纳税人的行为特性进行描述,找出普遍规律,谋求因势利导的税务策略;对不同行业、产品和市场应收税款进行预测,制定最有效的征收计划。 数据仓库技术在政府税收部门的应用带来的效益非常可观,例如,澳大利亚政府税务部门将数据仓库技
14、术用于支持税收业务,系统经过3 年的运行,投入回报率达到115。2.1 数据仓库的产生和发展6、零售业领域 利用数据仓库,可以对不同商品在各分店的销售趋势进行分析,使购买趋势、时令特点和定价策略一目了然,从而帮助经营者及时准确地做出决策。 美国沃马特连锁店是世界上最大的零售公司,几年来他们的数据仓库规模从6 万亿字节增加到现在的100 万亿字节。 近年来,随着因特网和电子商务的发展,各大数据仓库产品供应商纷纷把注意力投向电子商务领域,并且通过数据仓库技术来构造商业智能平台。2.1 数据仓库的产生和发展 除此之外,数据仓库还在铁路、航空、邮政、医疗等行业中得到广泛的应用。运用数据仓库体系还可以建
15、立包括市场经营分析系统(MAS) 、客户关系管理系统(CRM) 、企业决策支持系统(EDSS) 等在内的企业商业智能系统,以提升企业竞争力、拓展企业新的发展空间。2.1 数据仓库的产生和发展2.1.5 数据仓库的发展现状 数据仓库的发展势不可挡,随着其应用的扩展,人们对数据仓库提出更多的要求。其中主要有基于关系对象数据库的数据仓库、网络的影响、操作型动态数据仓库要求和Web应用中的多智能技术。2.1 数据仓库的产生和发展首信易支付 自1999年3月开始运营以来,首信易支付(前身为“首都电子商城”)在国内首创第三方支付服务 。 它是第一家开展B2B支付服务;第一家开展电话支付服务,拥有成熟的外币
16、支付服务产品;也是唯一的一家具有政府投资背景的支付企业 ;唯一的一个政府确定的“电子商务示范工程” ;唯一的一个架设在政府专网的支付平台;唯一的一个通过ISO9001质量认证的支付平台。 首信易支付 1998年11月12日,由北京市政府与中国人民银行,信息产业部,国家内贸局等中央部委共同发起的首都电子商务工程正式启动,确定首都电子商城为网上交易与支付中介的示范平台。首都电子商城的主体企业首都信息发展股份有限公司(简称“首信”)由北京市财政局资金管理分局等六家股东出资设立,2001年在香港联交所上市,注册资金为人民币2.9亿元。 1.基于关系对象数据库的数据仓库 关系对象数据库的出现,使得设计人
17、员可以将对象引入到数据仓库环境中,大大改善了数据仓库的平台性能,与此同时多媒体、复杂的数据类型和其他各种类型的数据也被引入到数据仓库中。这就使数据仓库满足更多用户的需求,同时缓解扩展性要求的压力。2.1 数据仓库的产生和发展 首信易支付 自1999年3月开始运营以来,首信易支付(前身为“首都电子商城”)在国内首创第三方支付服务 。 它是第一家开展B2B支付服务;第一家开展电话支付服务,拥有成熟的外币支付服务产品;也是唯一的一家具有政府投资背景的支付企业 ;唯一的一个政府确定的“电子商务示范工程” ;唯一的一个架设在政府专网的支付平台;唯一的一个通过ISO9001质量认证的支付平台。 首信易支付
18、 1998年11月12日,由北京市政府与中国人民银行,信息产业部,国家内贸局等中央部委共同发起的首都电子商务工程正式启动,确定首都电子商城为网上交易与支付中介的示范平台。首都电子商城的主体企业首都信息发展股份有限公司(简称“首信”)由北京市财政局资金管理分局等六家股东出资设立,2001年在香港联交所上市,注册资金为人民币2.9亿元。 2.网络的影响 随着数据仓库的发展,它对网络的依赖性必定是越来越大的.网络的使用能力不仅涉及企业内部的局域网,而且更多地涉及Internet。这就要求Web网关不仅能够将来自Web服务器的超文本语言(HTML或XML)格式转换成特定数据引擎的API,而且能够将数据
19、引擎中的答案转换成为HTML或XML格式,实现数据源的抽取、转换和装载,在不同软件工具间进行元数据和内容的交换,并为数据仓库集成数据2.1 数据仓库的产生和发展 首信易支付 自1999年3月开始运营以来,首信易支付(前身为“首都电子商城”)在国内首创第三方支付服务 。 它是第一家开展B2B支付服务;第一家开展电话支付服务,拥有成熟的外币支付服务产品;也是唯一的一家具有政府投资背景的支付企业 ;唯一的一个政府确定的“电子商务示范工程” ;唯一的一个架设在政府专网的支付平台;唯一的一个通过ISO9001质量认证的支付平台。 首信易支付 1998年11月12日,由北京市政府与中国人民银行,信息产业部
20、,国家内贸局等中央部委共同发起的首都电子商务工程正式启动,确定首都电子商城为网上交易与支付中介的示范平台。首都电子商城的主体企业首都信息发展股份有限公司(简称“首信”)由北京市财政局资金管理分局等六家股东出资设立,2001年在香港联交所上市,注册资金为人民币2.9亿元。 3.操作型动态数据仓库 与传统的数据仓库支持企业内部战略决策为重点不同,操作型的动态数据仓库重在战术性决策支持,为执行公司战略的员工提供支持。由于动态数据仓库用于支持企业一线员工的运营智能分析,它对数据的实时性要求更高,因此它正在得到越来越多的认可并被应用。2.1 数据仓库的产生和发展 首信易支付 自1999年3月开始运营以来
21、,首信易支付(前身为“首都电子商城”)在国内首创第三方支付服务 。 它是第一家开展B2B支付服务;第一家开展电话支付服务,拥有成熟的外币支付服务产品;也是唯一的一家具有政府投资背景的支付企业 ;唯一的一个政府确定的“电子商务示范工程” ;唯一的一个架设在政府专网的支付平台;唯一的一个通过ISO9001质量认证的支付平台。 首信易支付 1998年11月12日,由北京市政府与中国人民银行,信息产业部,国家内贸局等中央部委共同发起的首都电子商务工程正式启动,确定首都电子商城为网上交易与支付中介的示范平台。首都电子商城的主体企业首都信息发展股份有限公司(简称“首信”)由北京市财政局资金管理分局等六家股
22、东出资设立,2001年在香港联交所上市,注册资金为人民币2.9亿元。 4.Web应用中的多智能技术 数据仓库的Web应用主要是指用户利用合作伙伴的数据仓库或Internet系统中的多维数据集进行决策分析活动。Web的数据仓库应用意味着可以为企业带来大量的用户,并与合作企业建立良好的合作关系。2.2 数据仓库的概念与特征2.2.1 数据仓库的概念 1、WHInmon对数据仓库的定义(公认) 数据仓库的概念是由 WHInmon在Building the Data Warehouse(建立数据仓库)一书中提出的。他将数据仓库定义为:“一个面向主题的、集成的、非易失的、不同时间的数据集合,用于支持管理
23、决策过程。” 2、SAS软件研究所的观点 数据仓库是一种管理技术,旨在通过通畅、合理、全面的信息管理,达到有效的决策支持。2.2 数据仓库的概念与特征2.2.1 数据仓库的概念 3、其他定义 “数据仓库是融合方法、技术和工具以在完整的平台上将数据提交给终端用户的一种手段”。“数据仓库是对分布在企业内部各处的业务数据的整合、加工和分析的过程”。“数据仓库是一种具有集成性、稳定性和提供决策支持的处理”。“为查询和分析(不是事务处理)而设计的关系数据库”。 综上,在众多的数据仓库定义中,公认的仍然是WHInmon的定义。该定义指出了数据仓库面向主题、集成、非易失的、随时间变化这四个重要的特征。 2.
24、2 数据仓库的概念与特征2.2.2 数据仓库的特征 2.2 数据仓库的概念与特征2.2.2 数据仓库的特征 1、面向主题性 面向主题是数据仓库中数据组织的最基本原则,它与传统数据库面向事务处理应用进行数据组织的特点相对应。主题是构建数据仓库的核心与灵魂。 面向主题的数据组织方式,就是在较高层次上对分析对象的数据进行一个完整、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业的各项数据,以及数据之间的联系。 一般讲,一个数据仓库中可以有若干个主题。一个主题可以分解成若干个子主题,这样逐层分解从而构成一个主题层次。图21是一个主题层次的示意图。2.2 数据仓库的概念与特征2.2.2 数据仓库的
25、特征 2.2 数据仓库的概念与特征2.2.2 数据仓库的特征 A.必须了解如何按照决策分析来抽取主题,所抽取出的主题应该包含哪些数据内容,这些数据内容应该如何组织。B.在划分主题时,必须保证每个主题的独立性,也就是说,每一个主题要具有独立的内涵,明确的界限。而且需要保证对主题进行分析时所需的数据都可以在此主题内找到,保证主题的完备性。划分和确定主题时注意:2.2 数据仓库的概念与特征2.2.2 数据仓库的特征 A.需要确定主题应该包含的数据。B.在主题的数据组织中,要注意不同的主题可能会出现相互重叠的信息。C.主题在数据仓库中可以用多维数据库方式进行存储。划分和确定主题后注意:2.2 数据仓库
26、的概念与特征2.2.2 数据仓库的特征 2、集成性 数据仓库中数据的集成性,是指在构建数据仓库的过程中,多个外部数据源内格式不同、定义各异的数据,按既定的策略经过抽取、清洗、转换等一系列处理,最终构成一个有机的整体。业务处理程序侧重点传统数据库未对业务进行处理直接取用迅速、正确地处理所有业务,记录业务内容和处理结果数据仓库对业务数据库的内容进行处理后再取用数据对决策提供支持2.2 数据仓库的概念与特征2.2.2 数据仓库的特征 2、集成性 数据仓库对数据进行筛选、清洗和转换、综合等集成工作,以解决数据中存在的以下问题。数据格式的差异不同的业务系统,所依据的数据库系统可能是不同的,而且即使是基于
27、同一张数据库系统,统一属性在不同应用中的定义也可能是不同的。数据代码的歧义在业务系统中,有许多属性和变量本身并没有数字特征,必须用定义代码或枚举变量等方法在数据库系统中实现。不同的业务系统,定义的方法不统一,存在很大的歧义。属性名称的歧义属性名称的歧义有两种情况,即一词多义与多词一义。2.2 数据仓库的概念与特征2.2.2 数据仓库的特征 3、非易失性 数据仓库的数据非易失性是指数据仓库的用户进行分析处理时不进行更新操作,一旦数据进入数据仓库以后,就会保持一个相当长的时间。原因:数据仓库主要是供决策分析用的,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作。所以,数据一经集成进入数据
28、库后是极少(或根本不)更新的,即是相对稳定的注意:数据仓库在整个生存周期中数据集还是变化的。2.2 数据仓库的概念与特征2.2.2 数据仓库的特征 4、时变性 数据的时变性,是指数据仓库的内容随时间的变化而不断得到增补、更新。尽管数据仓库和业务数据库之间有很大的区别,数据仓库不会随业务的发生而频繁地更新数据,但为了保证决策分析的正确性,对数据仓库的内容定期加以增补和更新是十分必要的。 从这个角度,数据仓库实际是记录了系统的各个瞬态,并通过将个瞬态连接起来形成动画,从而在数据分析的时候再现系统运动的全过程,为决策分析提供有效的依据。图2-2示意了这种特点。2.2 数据仓库的概念与特征2.2.2
29、数据仓库的特征 4、时变性 2.3 数据仓库中的关键名词 包括:数据抽取、转换、清洗和装载2.3 数据仓库中的关键名词 2.3.1 外部数据源(External Source) 外部数据源就是从系统外部获取的同分析主题相关的数据。构建一个数据仓库,必然要有充足的数据来源,从外部为数据仓库系统提供进行分析的数据,这些数据的来源即是数据仓库的外部数据源。外部数据源并不局限于传统数据库,可以是非结构化的信息,如文本文件,也可以是网络资源。 注意:必须保证外部数据源的完整、正确,并且一个好的决策支持系统必须综合考虑系统内部和外部的相关数据。2.3 数据仓库中的关键名词 2.3.2 ETL数据抽取、转换
30、、清洗和装载工具 ETL(extract transformation load)工具就是进行数据的抽取、转换和“净化提炼”处理。 “净化提炼”就是对从多个不同业务数据库所抽取的数据,进行数据项名称的统一、位数的统一、编码的统一和形式的统一,消除重复数据。 ETL工具包括:数据抽取、数据转换、数据清洗和数据加载。2.3 数据仓库中的关键名词 2.3.2 ETL数据抽取、转换、清洗和装载工具 1.数据抽取为什么要抽取数据? 在构建数据仓库的过程中,外部数据源所提供的数据并不都是有用的,有些数据对决策并不能提供支持,同时,外部数据源中的数据冗余的现象也很普遍。数据抽取的定义 我们把以主题的需求为依
31、据,对数据源的内容进行有目的地选择的过程称为数据抽取。2.3 数据仓库中的关键名词 2.3.2 ETL数据抽取、转换、清洗和装载工具 2.数据转换 数据仓库的外部数据源,其文件格式、所依赖的数据库平台等都是多种多样的。在建立数据仓库时,必须对这些数据格式进行转换处理,统一格式。如时间格式“日-月-年”,“月/日/年”,“年/月/日”的不一致问题需要统一,如图2-3所示。2.3 数据仓库中的关键名词 2.3.2 ETL数据抽取、转换、清洗和装载工具 3.数据清洗 数据仓库的外部数据源所提供的数据内容并不完美,有些数据有空缺、噪声等缺陷,而且在数据仓库的各数据源之间,其内容也存在着不一致的现象。为
32、了控制这些存在缺陷的数据对数据仓库分析结果的影响程度,必须采取各种有效的措施,将错误的、不一致的数据在进入数据仓库之前予以更正或删除,以免影响DSS决策的正确性,这一处理过程称为“数据清洗”(Data Cleaning)。 对于任何数据仓库而言,数据清洗过程都是必不可少的。2.3 数据仓库中的关键名词 2.3.2 ETL数据抽取、转换、清洗和装载工具 实例:操作失误导致数据不一致和数据刷新不及时导致数据不同步的两个例子。客户数据库中有一张客户基本信息表,其中记录了客户的客户号、姓名、年龄等基本信息。在客户服务数据库中有一张客户咨询信息表用户记录客户咨询问题的内容和解答。由于数据库使用人员的失误
33、,使得在客户基本信息表中的80号客户“赵山”,在客户咨询表中的客户姓名被错误的录入为“赵三”。由于冗余的数据存放在不同的数据库中,如果不同数据库间的数据刷新不是实时的,就有可能出现数据不同步的情况。2.3 数据仓库中的关键名词 2.3.2 ETL数据抽取、转换、清洗和装载工具 4.数据装载 数据装载又称数据加载,是指把清洗后的数据装入数据仓库的过程。数据加载策略包括加载周期和数据追加策略,数据加载周期要综合考虑经营分析需求和系统加载的代价,对不同业务系统的数据采用不同的加载周期,但必须保持同一时间业务数据的完整性和一致性。2.3 数据仓库中的关键名词 2.3.3 数据仓库存储(data rep
34、ository) 数据仓库存储就是用于存放数据仓库数据和元数据的存储空间。数据的存储方式主要有三种: 多维数据库、关系数据库以及前两种存储方式的结合。数据仓库中存放的数据来源: 一部分是从业务系统中提取并经过清洗、转换后的数据,另一部分则是根据OLAP分析和数据挖掘的需要,在原始数据的基础上增加的冗余信息。例如,进行大量的预运算,建立多维数据库,以及迅速的展现数据。2.3 数据仓库中的关键名词 2.3.4 元数据 1.元数据的概念 “元数据”就是描述数据的数据,它是关于数据仓库中数据、操作数据的进程以及应用程序的结构和意义的描述信息。数据库系统的元数据可能是读者较为熟悉的,它包含数据库系统的所
35、有存储信息,各个数据库和数据表中的字段信息、数据表之间的关联信息、数据索引约束等等。 总之,元数据所描述的对象,涉及数据仓库的各个方面,是整个数据仓库中的核心。2.3 数据仓库中的关键名词 2.3.4 元数据 2.元数据的类型2.3 数据仓库中的关键名词 2.3.4 元数据 3.实例 我们从Customer业务数据库的user表中取出3列user_id、user_name、address,在清洗转换过程中,将user_name从char(20)转化成varchar(50)格式,最终放进User维表(User_ID,User_Name,Address)中。 在转换后(User_ID,User_N
36、ame,Address)3列原始的存放位置、进行的清洗转化处理、数据最终的存放位置、数据格式、数据使用的规则等等都将作为元数据的一部分,如图25所示。2.3 数据仓库中的关键名词 2.3.4 元数据 图25元数据内容示例2.3 数据仓库中的关键名词 2.3.5 数据集市 1.数据集市的概念 我们把这种面向企业中的某个部门(主题)而在逻辑上或物理上划分出来的数据仓库中的数据子集称为数据集市。换句话说,数据集市包含了用于特殊目的数据仓库的数据部分。 数据集市也可以指具有特定应用的数据仓库,主要针对某个具有战略意义的应用或决体部门级的应用,支持用户利用已有的数据进行管理决策。2.3 数据仓库中的关键
37、名词 2.3.5 数据集市 1.数据集市的类型 数据集市可以分为两种,一种是独立数据集市(Independent Data Mart),另一种是从属数据集市(Dependent Data Mart),从属数据集市独立数据集市2.3 数据仓库中的关键名词 2.3.5 数据集市 2.数据集市的类型2.3 数据仓库中的关键名词 2.3.5 数据集市图解:2.3 数据仓库中的关键名词 2.3.5 数据集市 然而,随着需求的增加,数据量也会迅速增加,系统规模将迅速扩大,是把原来的独立数据集市扩展成为图26中左边的数据仓库呢?还是为各部门分别建立独立的数据集市形成如图27所示的繁杂系统呢?2.3 数据仓库
38、中的关键名词 2.3.5 数据集市图27分析: IT部门必须设计多个数据转换程序,把各个生产系统中的操作数据转换到每个独立数据集市中,以便保持数据的一致性。 这种策略将使整个系统变得非常复杂且难以维护,在投资方面更是得不偿失,而且由于规模的扩展有可能发展称为“蜘蛛网”结构,从而背离建造数据集市的初衷。2.3 数据仓库中的关键名词 2.3.5 数据集市 鉴于可能存在上述问题,W .H. Inmon在1996年的“What is Data Mart”一文中讨论了数据集市的有关问题。在数据仓库中数据是以不同粒度进行组织,包括细节数据和综合数据,而在数据集市中数据则是经过提炼的数据;不同的数据集市中的
39、数据可以从数据仓库中存储的细节数据中获得,并且数据集市也可以将其他数据集市中已经结构化的数据集成进来;不论什么情况,数据仓库中提供数据的粒度是其他所有与此相关的数据集中粒度的基础,即数据集市中定义的数据粒度应在数据仓库已经定义,而且是一个子集。简而言之,数据集市可以是数据仓库的一般继承,只不过在数据的组织方式上,数据集市处于一个相对较低的层次。2.3 数据仓库中的关键名词 2.3.5 数据集市 3.数据集市的特点数据集市除了具有数据仓库的基本特征以外,还具有以下特点:规模较小,灵活,可以按照多种方式来组织开发工作一般由业务部门主持定义、设计、实施、管理和维护能够快速实现,代价较低,投资回收期短
40、,风险小工具集的紧密集成有利于进一步升级到完整的数据仓库或形成分布式数据仓库2.3 数据仓库中的关键名词 2.3.5 数据集市 3.数据集市与数据仓库的区别数据仓库数据集市数据来源遗留系统、OLTP系统、外部数据数据仓库范围企业级部门级或工作组级主题企业主题部门或特殊的分析主题数据粒度最细的粒度较粗的粒度数据结构规范化结构(第三范式)星型模式、雪花模式或两者混和历史数据大量的历史数据适度的历史数据优化处理海量数据/数据索引便于访问和分析、快速查询索引高度索引高度索引2.3 数据仓库中的关键名词 2.3.5 数据集市 3.数据集市与数据仓库的区别数据仓库和数据集市的区别可从如下三个方面进行理解:
41、数据仓库向各个数据集市提供数据; 几个部门的数据集市组成一个数据仓库;数据集市中的数据结构采用星型模式,通常仓库中数据粒度比集市的粒度要细,下图28反映了数据结构和数据内容特征的区别2.4 数据仓库的数据组织 2.4.1 数据仓库的数据组织结构 业务数据一般分为4种级别,即当前细节级、历史细节级、轻度综合级和高度综合级。 当前细节级历史细节级轻度综合级高度综合级2.4 数据仓库的数据组织 2.4.1 数据仓库的数据组织结构 当前的数据总是首先进入当前细节级,然后根据应用的需求,通过预运算将数据聚合成轻度综合和高度综合级。 进入2.4 数据仓库的数据组织 2.4.1 数据仓库的数据组织结构 举例
42、1:电信公司的电话呼叫数据中记录了每个用户的每次呼叫。进行OLAP分析时,常常需要不同层次的数据颗粒度,因此可以通过预运算将数据综合成每个用户每“天”的通话次数,还可以进一步聚合成每个用户每“月”的通话次数。 2.4 数据仓库的数据组织 2.4.1 数据仓库的数据组织结构 注意:轻度综合级和高度综合级的数据一般是由细节数据聚合而来,但有必要说明一下,轻度和高度是相对的概念,而没有绝对的界限,并且在数据仓库中数据的综合程度常常有很多的级别。随着时间的推移,系统中的一些细节数据已经“过期”了,很少被用户使用,此时为了节省系统的存储空间,可以将这些过期的细节数据导出到备份设备上。实际应用中,综合数据
43、也可能被导出系统。2.4 数据仓库的数据组织 2.4.1 数据仓库的数据组织结构 举例2:数据仓库数据组织的示例。由于客户呼叫数据的数据量很大,并且数据仓库的使用者常常只关心近期的细节数据,因此我们可以在系统中只保存进3个月的呼叫细节数据,而将3个月之前的详细数据导出到备份设备中。 2.4 数据仓库的数据组织 2.4.2 数据粒度与数据分割 1.数据粒度定义 粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。2.4 数据仓库的数据组织 2.4.2 数据粒度与数据分割 1.数据粒度 粒度可以分为两种形式,按数据综合程度高度划
44、分的粒度和按采样率高度划分的样本数据库。形式A.按数据综合程度高度划分的粒度 是对数据仓库中的数据的综合程度高低的一个度量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。我们容易推想出:粒度越小,细节程度越高,综合程度越低,回答查询的种类就越多。 例如回答“张三在某时某地是否给李四打过电话”这样关于细节的问题;但这必然造成数据仓库中数据大量堆积,当回答“张三去年一共打了几次长途电话”这样的综合性问题时,要从大量细节数据中综合并计算答案,效率将会十分低下。B.样本数据库 样本数据库是针对数据挖掘的。样本数据库是以一定的采样率从细节档案数据或轻度综合数据中抽集的一个子集。同通
45、常意义的粒度不同,样本数据库的粒度级别不是根据综合程度的不同来划分的,而是根据采样率的高低来划分的。采样粒度不同的样本数据库可以具有相同的综合级别。 样本数据库不是一般目的的数据库,它是根据一定需求从源数据中获得的一个抽样,因而也就不能回答一些细节性的问题。抽样的方法很多,一般是随机抽取,样本数据可以代替源数据进行模拟分析。2.4 数据仓库的数据组织 2.4.2 数据粒度与数据分割 2.数据分割定义 它是指将数据分散到各自的物理单元中去以便能分别的独立处理,以提高数据处理效率。数据分割后的数据单元称为分片。标准 数据分割的标准可以根据实际情况来确定,通常可选择按日期、地域或业务领域等来进行分割
46、,也可以按多个分割标准的组合来进行。2.4 数据仓库的数据组织 2.4.2 数据粒度与数据分割 2.数据分割如下图所示,显示了按照地理位置进行的一个分割。如果问题涉及的数量非常大,可以按照问题的需求从多个角度进行分割。2.4 数据仓库的数据组织 2.4.2 数据粒度与数据分割 2.数据分割例如按照时间和地理位置两个角度进行分割,如下表。健康保险生命保险事故保险2004分片1分片2分片32005分片4分片5分片62006分片7分片8分片92.4 数据仓库的数据组织 2.4.3 数据仓库的数据组织形式 数据仓库的数据组织形式包括简单堆积文件、连续文件和定期综合文件三种类型2.4 数据仓库的数据组织
47、 2.4.3 数据仓库的数据组织形式 2.4 数据仓库的数据组织 2.4.3 数据仓库的数据组织形式 两个文件直接生成一个连续文件当然,连续文件可以同新的简单文件一起生成新的连续文件。一个连续文件和一个简单直接文件生成另一个连续文件2.4 数据仓库的数据组织 2.4.3 数据仓库的数据组织形式 和连续文件相比,定期综合文件虽然有效缩减了数据的规模,但在综合的过程中,却不可避免地损失了数据的细节,而且综合的时间周期越长,数据细节的损失就越多。因此,为了保证定期综合数据的有效性和可利用性,要特别注意妥善设计数据综合的方法。2.4 数据仓库的数据组织 2.4.4 数据仓库的数据追加和清理 1.数据追
48、加定义 数据仓库的数据初装完成后,再向数据仓库输入数据的过程称为数据追加。 如果数据在OLTP数据库中并没有发生变化,那么并不需要向数据仓库追加,所以数据追加的内容仅限于上次向数据仓库输入后在OLTP数据库中变化了的数据。 因此,要完成数据追加,必须能够确切地感知究竟哪些数据是在上一次追加过程后新生成的,这项工作称为变化数据的捕捉。2.4 数据仓库的数据组织 2.4.4 数据仓库的数据追加和清理 捕捉变化数据的常用途径:DELTA文件法前后映像文件法日志文件 时标法2.4 数据仓库的数据组织 2.4.4 数据仓库的数据追加和清理 时标法 “时标法”的思想是为数据记录增加一个时间标记字段。当数据
49、在上次数据导入完成后发生了变化,则修改这条记录的时间标记。 如下图所示,在完成2008/3的数据导入工作后,2008/3/2日数据条目(2008/3/1,1,香皂,北京)发生了变化,则将其时间标记改成2001/3/2,这样在执行2008/3/2的数据导入工作时,数据库会将检索到的具有新时间标记的条目(2008/3/2,1,香皂,大连)作为数据追加的内容。应用价值:由于许多数据库中的数据并不含有时间标记字段(因为该列对于事务处理系统来说是不必要的),因此,时标法虽然简单,但很难得到实际应用。2.4 数据仓库的数据组织 2.4.4 数据仓库的数据追加和清理 DELTA文件法 “DELTA”文件法的
50、基本思想:由于数据库应用程序引发了数据的变化,因此它知道自己修改了哪些数据,应用程序可以将它执行成功的修改操作记录下来,形成DELTA文件作为追加的内容。 得出:DELTA文件法是由应用生成的,记录了应用所改变的所有内容,如下图所示。应用价值:利用DELTA文件效率比较高,它避免了扫描整个数据库。但同样的问题是生成DELTA文件的应用并不普遍。此外还有更改应用代码的方法,使得应用在生成新数据时可以自动将其记录下来。但应用成千上万,且修改代码十分繁琐,这种方法很难实现。2.4 数据仓库的数据组织 2.4.4 数据仓库的数据追加和清理 前后映像文件的方法这种方法的基本思想是: 在上次抽取数据库数据
51、到数据仓库之后及本次将抽取数据库数据之前,对数据库分别作一次快照,然后比较上次后本次前的两幅快照的不同,从而确定实现数据仓库追加的数据。应用价值:这种方法需要占用大量资源,可能较大地影响系统性能,因此并无多大实际意义。2.4 数据仓库的数据组织 2.4.4 数据仓库的数据追加和清理 日志方法 最可取的技术大概是利用日志文件。因为它是DB的固有机制,由此不会影响OLTP的性能。同时它还有DELTA文件的优越性质,提取数据只局限于日志文件,而不用扫描整个数据库,如下图所示。应用价值:比较而言,虽然日志文件法需要对日志本身进行比较复杂的分析,但是由于它能够极大程度地减少工作量,所以得到了广泛的应用。
52、2.4 数据仓库的数据组织 2.4.4 数据仓库的数据追加和清理 2.数据清理必要性 数据并非只是注入数据仓库,它在数据仓库中也有自己的数据周期。到了一定时候,数据将从仓库中清除。数据清理问题是数据仓库设计人员无法回避的基本设计问题之一。 数据清理或数据细节转化主要有以下几种方式:数据加入到失去原有细节的一个定期综合文件中;数据从高性能的介质(如DASD)转移到大容量介质上;数据从系统中实际清除;数据从体系结构的一个层次转到另一个层次,必须从操作型层次转到数据仓库层次。2.5 数据仓库的体系结构 2.5.1 概述 数据仓库的体系结构可以用下图来表示。 2.5 数据仓库的体系结构 2.5.1 概
53、述 图解:数据仓库是将业务操作型系统提取出来,辅以企业外部数据,这些数据经过清洗和转换,存储在数据仓库中。数据仓库不只存储业务数据,还存储记录数据信息的元数据。数据仓库中还可以抽取部门型数据仓库,即数据集市。数据最终传送给数据挖掘系统或数据展现系统,以供数据分析或展现给用户。所以,数据仓库不是简单地对数据进行存储,而是对数据进行“再组织”。2.5 数据仓库的体系结构 2.5.2 数据仓库系统的层次结构 数据仓库的结构在理论上并没有严格且固定的规定,而是随着企业规模、决策类型、数据特点的不同而改变。 即使是得到了广泛接受的数据仓库“三层结构”理论,对三层的具体规定也并不统一。 Jiawei Ha
54、n和Micheline Kamber认为:三层的内容是指仓库数据库服务器层、OLAP服务器层和客户层Paul Gray Hugh与J.Watson认为:三层是指数据与数据管理软件层、数据仓库层以及决策支持引擎客户端层 从各部件的功能来分析,数据仓库在逻辑上可以分为三个层次,即数据获取管理层、数据存储层与数据分析应用层。2.5 数据仓库的体系结构 2.5.2 数据仓库系统的层次结构 2.5 数据仓库的体系结构 2.5.2 数据仓库系统的层次结构 1.数据获取/管理层 数据仓库中保存的业务数据内容并非都是理想状态的,他们来自多个数据源,可能存在各种缺陷,必须经过适当的处理后,才能导入数据仓库;与此
55、同时,数据仓库中所存储的内容也必须进行维护,以保证系统的正常运行,这些都是数据获取/管理层所应完成的工作。 该层要完成的工作如下: 数据仓库的定义与修改; 数据的获取; 数据仓库系统的管理。2.5 数据仓库的体系结构 2.5.2 数据仓库系统的层次结构 2.数据存储层 数据存储层是数据仓库的主体,它所存储的数据包括三部分:其一是从外部数据源抽取,经清洗、转换处理,并按主题组织存放的业务数据;其二是数据仓库的元数据;其三是针对不同的数据挖掘和分析主题而生成的数据集市。数据仓库存储层的构造方式不尽相同,用户对数据仓库的要求集中体现在两方面:一是灵活性,即数据仓库可以提供多样的分析功能,以尽可能地满
56、足用户的决策需求;二是高效性,即用户希望自己的分析需求能尽可能快地获得结果。为了兼顾这两点,在有些数据仓库的数据存储层中,增加了“从属型数据集市”。什么是从属型数据集市?从属型数据集市是数据仓库的一个子集,它与数据仓库所服务的某个主题相对应,是数据仓库中针对该主题的数据在逻辑上或物理上的分离。包含有从属型数据集市的存储层,在处理针对某个特定主题的查询时,只需要在对应的数据集市中检索,而不必检索整个数据仓库,这样可以明显提高系统的使用性能。2.5 数据仓库的体系结构 2.5.2 数据仓库系统的层次结构 3.数据分析/应用层 数据分析/应用层一般面向用户,其功能如下: 查询/统计功能。 OLAP服
57、务。 数据挖掘服务。2.5 数据仓库的体系结构 2.5.3 数据仓库的构造模式 一般而言,数据仓库的构造模式包括自顶向下、自底向上、平行开发、有反馈的自顶向下、有反馈的自底向上、有反馈的平行开发等多种,本节主要介绍前三种。 1.自顶向下模式 自顶向下模式最早是由Inmon提出的。它是一种由整体到局部,逐步细化的构造模式。构造过程中,首先对分散在各业务数据库中的数据的特征进行分析;之后,实施数据仓库的总体设计和规划,准备元数据;在此基础上,进行外部数据源的数据抽取、筛选、清洗、转换等一系列处理工作,并将处理后的数据导入导入数据仓库,元数据也同时导入,从而建立起一个完整的数据仓库。在数据仓库内,建
58、立起针对各主题的数据集市,以满足决策的需求。概念2.5 数据仓库的体系结构 2.5.3 数据仓库的构造模式 采用自顶向下模式建立的数据仓库,数据集市是数据仓库的真子集,数据由数据仓库流向数据集市,如下图所示。数据仓库的设计过程直观,概念清晰,易于理解,只要对外部数据源所支持的决策有较深的理解,保证各数据集市都是数据仓库的真子集,就可以完全消除信息之间的“蜘蛛网”现象。 示意图2.5 数据仓库的体系结构 2.5.3 数据仓库的构造模式 这种模式的不足之处在于要求设计者对业务有较深入的理解,系统设计规模偏大,实施周期过长,项目见效缓慢,尤其在项目实施初期,见效不明显。不足2.5 数据仓库的体系结构
59、 2.5.3 数据仓库的构造模式 2.自底向上模式 自底向上模式的设计思路是先具体,后综合,这种思路正好与自顶向下模式相反。首先,自底向上模式将企业内各部门的要求视为分解后的决策子目标,并针对这些子目标建立起各自的数据集市,从而获得最快的回报。在此基础上,对系统不断进行扩充,逐步形成完善的数据仓库,以实现对企业级决策的支持。数据集市由于结构简单,数据的综合程度较低,因此不需要准备创建数据仓库所必需的元数据部件。自底向上模式的说明如下页图所示。概念2.5 数据仓库的体系结构 2.5.3 数据仓库的构造模式 示意图2.5 数据仓库的体系结构 2.5.3 数据仓库的构造模式 采用自底向上模式建立数据
60、仓库,具有投资小,见效快的特点。由于部门级的数据结构简单,决策需求明确,因此易于实现。但是由于数据集市缺少元数据,因而最终构造数据仓库的过程具有相当的难度,并有可能影响数据仓库整体结构的合理性以及系统的运行效率。优缺点2.5 数据仓库的体系结构 2.5.3 数据仓库的构造模式 3.平行开发模式 平行开发模式,是指在同一个系统模型的指导下,在建立数据仓库的同时,建立起若干数据集市,它又称企业级数据集市模式。这种模式是在自顶向下模式的基础上,吸收了自底向上模式的优点,发展而成的。因此,可以认为是两种模式的有机结合。概念2.5 数据仓库的体系结构 2.5.3 数据仓库的构造模式 这样模式的核心有两部
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026浙江温州医科大学附属第一医院护理人员招聘88人备考题库及一套参考答案详解
- 2026江苏无锡瀚澜水利科技有限公司招聘工作人员8人备考题库及答案详解(易错题)
- 2026文化和旅游部直属事业单位招聘应届毕业生78人备考题库(二)含答案详解(新)
- 2026年河南省南阳市事业单位公开联考招聘755名备考题库含答案详解(完整版)
- 2026遵义医科大学第二附属医院第十四届贵州人才博览会引才3人工作备考题库及答案详解(夺冠)
- 2026河北水发企业服务有限公司招聘工作人员的12人备考题库含答案详解(模拟题)
- 2026广东云浮市招募就业见习人员299人备考题库及答案详解(历年真题)
- 2026上海人工智能实验室招聘备考题库含答案详解(培优b卷)
- 2026海南乐东黎族自治县交通运输综合服务中心招聘1人备考题库含答案详解(综合卷)
- 2026安徽铜陵市铜官区西湖医院招聘编外工作人员5人备考题库及答案详解(名师系列)
- 厨房用具购销合同样本
- 国开作业《公共关系学》实训项目1:公关三要素分析(六选一)参考552
- 中心传动浓缩机安装方案
- 西医三基-基础医学综合-诊断学-实验诊断
- 城市道路桥梁工程施工质量验收规范 DG-TJ08-2152-2014
- 结构的弹性稳定计算演示文稿
- 岗位经验萃取与案例
- 2023学年完整公开课版剪切计算
- 海天味业产品(按产品分类)
- GB/T 13871.1-2022密封元件为弹性体材料的旋转轴唇形密封圈第1部分:尺寸和公差
- GB/T 4798.6-2012环境条件分类环境参数组分类及其严酷程度分级船用
评论
0/150
提交评论