




已阅读5页,还剩55页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1/七,一、数据仓库的基本原理二、数据仓库的数据获取三、数据仓库的数据组织四、数据仓库的数据访问和决策分析,第七章数据仓库,本章内容,1.1数据仓库概念和结构,2/七,一、数据仓库的基本原理,第七章数据仓库,数据仓库兴起1.“数据太多,信息不足”的现状2.异构环境的数据源3.事务处理环境不适宜DSS应用(1)事务处理和分析处理的性能特性不同(2)数据集成问题(3)历史数据问题,1.1数据仓库概念和结构,3/七,一、数据仓库的基本原理,第七章数据仓库,数据仓库概念,1.W.H.Inmon在建立数据仓库一书中,对数据仓库的定义为:数据仓库是面向主题的、集成的、稳定的,不同时间的数据集合,用于支持经营管理中决策制定过程。2.Tim.Shelter(Informix公司负责研究与开发公司副总裁):数据仓库将分布在企业网络中不同信息岛上的商业数据集成到一起,存贮在一个单一的集成关系型数据库中。利用这种集成信息,可方便用户对信息的访问,更可使决策人员对一段时间内的历史数据进行分析,研究事物发展走势。,有些片面,1.1数据仓库概念和结构,4/七,一、数据仓库的基本原理,第七章数据仓库,数据仓库概念,传统数据库用于事务处理,也叫操作型处理,是指对数据库联机进行日常操作,即对一个或一组记录的查询和修改,主要为企业特定的应用服务的。用户关心的是响应时间,数据的安全性和完整性。数据仓库用于决策支持,也称分析型处理,用于决策分析,它是建立新型决策支持系统(DSS)的基础。,1.1数据仓库概念和结构,5/七,一、数据仓库的基本原理,第七章数据仓库,数据仓库的特点,1.数据仓库是面向主题的主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。,2.数据仓库是集成的数据进入数据仓库之前,必须经过加工与集成。对不同的数据来源进行统一数据结构和编码。统一原始数据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等。,1.1数据仓库概念和结构,6/七,一、数据仓库的基本原理,第七章数据仓库,数据仓库的特点,3.数据仓库是随时间变化的数据仓库内的数据时限在510年,故数据的键码包含时间项,标明数据的历史时期,这适合DSS进行时间趋势分析。而数据库只包含当前数据。4.数据仓库是稳定的数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后是极少或根本不改变的。,1.1数据仓库概念和结构,7/七,一、数据仓库的基本原理,第七章数据仓库,数据仓库与操作型数据库系统的比较,特性操作型数据(DB数据)分析型数据(DW数据),1.1数据仓库概念和结构,8/七,一、数据仓库的基本原理,第七章数据仓库,数据仓库与操作型数据库分离的原因,提高两个系统的性能2.提高操作型数据库的事务吞吐量3.两系统中数据的结构、内容和用法的不同,1.1数据仓库概念和结构,一、数据仓库的基本原理,第七章数据仓库,数据仓库的关键技术,数据的抽取数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。,2.存储和管理数据仓库的组织管理方式决定了它有别于传统数据库的特性,同时也决定了其对外部数据表现形式。数据量很大并行处理针对决策支持查询的优化支持多维分析的查询模式,3.数据的表现,9/七,1.1数据仓库概念和结构,10/七,一、数据仓库的基本原理,第七章数据仓库,数据仓库的结构,1.1数据仓库概念和结构,11/七,第七章数据仓库,数据仓库的结构,一、数据仓库的基本原理,从结构的角度看,有三种数据仓库模型:企业仓库、数据集市和虚拟仓库。,企业仓库搜集了关于企业主题的所有信息,跨越整个组织,提供企业范围的数据集成,通常数据来自多个业务系统,或外部信息源。,数据集市包含企业范围数据的一个子集,对于特定的用户是有用的,其范围限于选定的主题。,虚拟仓库是业务数据库上视图的集合。为了有效地处理查询,只有一些可能的汇总视图被物化。缺点是会影响业务数据库系统的能力。,1.2数据集市,12/七,一、数据仓库的基本原理,第七章数据仓库,DataMarts是指具有特定应用的数据仓库,主要针对某个具有战略意义的应用或者具体部门级的应用,支持用户利用已有的数据获得重要的竞争优势。,13/七,一、数据仓库的基本原理,第七章数据仓库,数据集市与数据仓库关系,1.自顶向下的结构,1.2数据集市,13-2/七,一、数据仓库的基本原理,第七章数据仓库,数据集市与数据仓库关系,1.自顶向下的结构,1.2数据集市,构建企业数据库公共中央数据模型数据再加工减少冗余和不一致性搜集历史的、细节的、全局的数据基于企业数据仓库构建数据集市选定企业模型下的部门主题聚集数据建立集市数据对企业数据仓库的依赖关系,14/七,一、数据仓库的基本原理,第七章数据仓库,2.自底向上的结构,1.2数据集市,数据集市与数据仓库关系,14-2/七,第七章数据仓库,2.自底向上的结构,1.2数据集市,数据集市与数据仓库关系,构建建数据集市划定主题区快速实施本地自治易于复制数据再加工允许一定的冗余和不一致基于数据集市构建企业数据仓库,有关问题:Isalldataavailableinthedatamarts?Canthedatamodelsbemerged?Howtoresolveinconsistencies?,15/七,一、数据仓库的基本原理,第七章数据仓库,2.自底向上的结构,1.2数据集市,数据集市与数据仓库关系,3.企业级数据集市结构,16/七,一、数据仓库的基本原理,第七章数据仓库,1.3数据仓库系统,数据仓库系统由数据仓库(DW)、仓库管理和分析工具三部分组成。,第七章数据仓库,数据仓库系统的三层结构,17/七,18/七,一、数据仓库的基本原理,第七章数据仓库,1.4元数据及其作用,元数据的定义,元数据:关于数据的数据,元数据包括四种元数据1.关于数据源的元数据它是现有的业务系统的数据源的描述信息。这类元数据是对不同平台上的数据源的物理结构和含义的描述。具体为:(1)数据源中所有物理数据结构;(2)所有数据项的业务定义;(3)每个数据项更新的频率;(4)每个数据项的有效值;(5)其它系统中具有相同业务含义的数据项的清单。,19/七,一、数据仓库的基本原理,第七章数据仓库,1.4元数据及其作用,元数据的定义,2.关于数据模型的元数据3.关于数据仓库映射的元数据用元数据反映数据仓库中的数据项是从哪个特定的数据源填充的,经过那些转换,变换和加载过程。,元数据包括四种元数据1.关于数据源的元数据,4.关于数据仓库使用的元数据,19-2/七,第七章数据仓库,1.4元数据及其作用,BusinessInformation,Administration,TransformationTools,BusinessSubjectAreas,BusinessViews,Metadata,ElementsMappingsBusinessViews,DataWarehouse,Operational&ExternalData,Design,元数据的作用数据仓库的基石,20/七,一、数据仓库的基本原理,第七章数据仓库,1.5粒度,粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。,数据越详细,粒度越小,级别就越低;数据综合度越高,粒度越大,级别就越高。,21/七,二、数据仓库的数据获取,第七章数据仓库,源数据,获取,过滤,验证,融合,综合,装载,存档,目标,数据抽取与转换过程,22/七,三、数据仓库的数据组织,第七章数据仓库,3.1多维数据的概念,维是相同类数据的集合,也可理解为变量维。,度量值:在多维数据集中,度量值是一组值,而且通常为数字。此外,度量值是所分析的多维数据集的中心值。即,度量值是最终用户浏览多维数据集时重点查看的数字数据。,度量值的选择取决于最终用户所请求的信息类型。一些常见的度量值有sales、cost、expenditures和productioncount等,23/七,三、数据仓库的数据组织,第七章数据仓库,数据仓库的数据组织方式共有三种:虚拟存储方式、基于关系表的存储和多维数据库存储方式。,虚拟存储方式是虚拟数据仓库的数据组织形式。没有专门的数据仓库数据存储,数据仓库中的数据仍然在源数据库中,只是通过语义层工具(如BusinessObjects软件)根据用户的多维需求,完成多维分析的功能。,3.2数据的组织方式,24/七,三、数据仓库的数据组织,第七章数据仓库,3.2数据的组织方式,由维表-事实表构成的关系型数据仓库,数据仓库是以多维表型的“维表事实表”结构形式组织的,共有三种形式:,1.星型模型大多数的数据仓库都采用“星型模型”。星型模型是由“事实表”(大表)以及多个“维表”(小表)所组成。“事实表”中存放大量关于企业的事实数据(数量数据),三、数据仓库的数据组织,第七章数据仓库,25/七,26/七,三、数据仓库的数据组织,第七章数据仓库,3.2数据的组织方式,维表-事实表构成的关系型数据仓库,2.雪花模型雪花模型是对星型模型的扩展,雪花模型对星型模型的维表进一步层次化,原来的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域。它的优点是最大限度地减少数据存储量,使维表尽可能地规范化。,缺点是执行查询需要更多的连接操作,可能会影响查询性能。,概念分层:定义一映射序列,将低层概念映射到更一般的高层概念。允许多种抽象级处理数据。,三、数据仓库的数据组织,第七章数据仓库,27/七,28/七,三、数据仓库的数据组织,第七章数据仓库,3.2数据的组织方式,维表-事实表构成的关系型数据仓库,3.星网模型星网模型是将多个星型模型连接起来形成网状结构。多个星型模型通过相同的维,如时间维,连接多个事实表。,29/七,三、数据仓库的数据组织,第七章数据仓库,3.2数据的组织方式,多维数据库数据组织,用于分析的数据从关系数据库或关系数据仓库中抽取出来,被存放到多维数据库的超立方结构中。,其数据组织采用多维数据结构文件存储数据,相应有维索引及相应的元数据管理文件与数据相对应。,缺点是在数据集稀疏的情况下,存储利用率低下。一些维被称为“稠密维”,这些维构成了数据存储的“多维体”。对于其它的维,称它们为“稀疏维”,可以将这些“稀疏维”存储在类数据库表结构中。,最主要的优点是直接把多维视图映射到数据立方体数组结构,而且能够对预计算的汇总数据快速索引。,30/七,第七章数据仓库,3.2数据的组织方式,数据立方体,1、数据立方体定义及预计算,定义(原语):definecube名称维1,维2,维n:聚集运算(度量值)SQLSERVER2000提供的MDX(多维表达式的英文首字母缩写词),支持多维对象与数据的定义和操作。,而且层次之间还可以是偏序关系,形成代数格结构,31/七,第七章数据仓库,3.2数据的组织方式,数据立方体,2、部分物化:选择计算,部分物化应考虑的因素:确定要物化的立方体子集(查询的频率、计算和存储的开销);利用查询处理时物化的立方体;在数据装载和刷新时,有效地更新物化的立方体。,它是在联机事务处理OLTP基础上发展起来的,OLTP是以数据库为基础,面对的是操作人员和低层管理人员,对基本数据的查询和增、删、改等进行处理。OLAP是以数据仓库为基础的数据分析处理。,32/七,四、联机分析处理OLAP,第七章数据仓库,4.1OLAP概念,OLAP是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。,OLTP与OLAP的对比表(p270),联机分析处理(OLAP)是共享多维信息的快速分析。特性:(1)快速性:用户对OLAP的快速反应能力有很高的要求。(2)可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。(3)多维性:系统必须提供对数据分析的多维视图和分析。(4)信息性:OLAP系统应能及时获得信息,并且管理大容量的信息。,33/七,四、联机分析处理OLAP,第七章数据仓库,4.1OLAP概念,分类:,34/七,四、联机分析处理OLAP,第七章数据仓库,4.1OLAP概念,混合型HybridOLAP,三层结构,35/七,四、联机分析处理OLAP,第七章数据仓库,4.1OLAP概念,ROLAP与MOLAP的比较,性能好、响应速度快专为OLAP所设计支持高性能的决策支持计算复杂的跨维计算多用户的读写操作行级的计算,MOLAP的优势:,MOLAP的缺点:,增加系统复杂度,增加系统培训与维护费用受操作系统平台中文件大小的限制,难以达到TB级需要进行预计算,可能导致数据爆炸无法支持维的动态变化缺乏数据模型和数据访问的标准,36/七,四、联机分析处理OLAP,第七章数据仓库,4.2多维数据分析,多维分析是指对以多维形式组织起来的数据采取切片、切块、旋转、钻取等各种分析动作,以求剖析数据,使最终用户能从多个角度、多个侧面地观察数据,从而深入地了解包含在数据中的信息、内涵。,Cube,例如,以“产品、城市、时间”三维数据,如图,利用OLAP提供的切片和切块(sliceanddice)功能,逐层细化(drill)功能,维旋转功能等,可以轻松地完成传统方法难以完成的工作。,37/七,四、联机分析处理OLAP,第七章数据仓库,4.2多维数据分析,对三维数据,通过“切片”和“旋转”(选择特定切割方向),分别从城市到产品等不同的角度观察各年的销售情况:,38/七,四、联机分析处理OLAP,第七章数据仓库,4.2多维数据分析,切片操作,钻取操作,钻取:例如,1995年各部门销售收入表如下:,39/七,四、联机分析处理OLAP,第七章数据仓库,4.2多维数据分析,对时间维进行下钻操作,获得新表如下:,钻取操作,40/七,四、联机分析处理OLAP,第七章数据仓库,4.2多维数据分析,旋转操作,41/七,第七章数据仓库,4.2多维数据分析,四、联机分析处理OLAP,42/七,第七章数据仓库,4.3OLAP与数据仓库,四、联机分析处理OLAP,43/七,第七章数据仓库,5.1需求分析,五、示例分析证券经营数据仓库应用系统,1、面对券商间竞争的加剧,如何提高客户服务质量,进行集中有效的管理监控,提供及时、准确的证券经营情况分析和趋势预测。,2、券商们在多年的经营过程中积累了大量的企业经营、客户资料、账户交易等数据,如何利用这笔数据财富。,3、企业如果需要生成一个汇总的跨多个系统的综合统计报表往往需要很长时间,甚至为此需编写相应的程序。,44/七,5.1需求分析,证券公司业务经营环境,45/七,第七章数据仓库,5.1需求分析,五、示例分析证券经营数据仓库应用系统,数据类型证券公司的数据主要可以分为四大类:股票的相关数据;营业部的交易结算数据;营业部的客户信息数据;企业内部的财务数据。,数据环境,数据的分布证券业的数据分布有如下特点:数据量很大而且比较分散,各营业部自成体系,下属营业部可能跨越多个地域,数据结构不一致,通信条件参差不齐等情况。,数据的来源证券业务数据来源主要有四个:交易所、各营业部(交易系统、管理系统和财务系统)、协作方信息(如:互联网网站或信息提供商)、证券登记公司。,46/七,第七章数据仓库,5.1需求分析,五、示例分析证券经营数据仓库应用系统,数据特点(1)数据处理流量大。而且随着股市的风云变换,牛市、熊市的交相更替,数据的处理量会呈现骤增骤减之势,其特点也难以把握,这将是构建证券公司数据仓库时需要解决的问题之一。(2)实时性强。这也是证券行业一个比较突出的特点。(3)安全性高。只有确保数据仓库中每一条信息的安全性,才能充分保证信息拥有者的利益,维护证券市场的秩序。(4)数据分析价值高。,数据环境,47/七,第七章数据仓库,5.1需求分析,五、示例分析证券经营数据仓库应用系统,1、客户分析在数据仓库中,根据所采集的客户相关数据(包括客户资料和客户操作行为数据等),对客户的行为和市场各种因素联系起来进行分析和统计,可以对公司的每一位客户提出具体和有效的投资建议,从而实现个性化服务。,分析主题,2、营业部经营状况分析通过采集下属营业部的交易和资金数据,可以了解营业部的经营状况,并且结合行情了解营业部经营状况和大盘走势的相关性,为在不同行情的条件下如何经营才能使公司获得最大收益提供相关数据;同时,通过纵横向比较,公司领导能及时掌握营业部的经营状况,并提出经营建议。,第七章数据仓库,5.2功能结构,数据获取,数据组织与管理,分析处理,信息咨询,风险预警,信息服务层,分析层,数据管理层,数据获取层,交易数据,客户数据,市场数据,数据源层,经营建议,个性化服务,客户主题、行情主题、财务主题、经营主题,指标分析、多维分析、数据开采,财务数据,系统功能层次结构,48/七,第七章数据仓库,5.3数据模型,49/七,高层数据模型,第七章数据仓库,5.3数据模型,50/七,中间层设计的重点是细化数据,明确维表和事实表,并在维表和事实表中添加属性。这些属性是基于用户提供的信息、报表需求和操作型数据源而确定的。采用数据仓库设计中通常使用的星型雪花构架来构造客户分析主题的中间层数据模型,在证券公司的客户分析主题中事实表
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 保密制度培训班课件
- 2025-2026学年江西省赣州市五校协作体物理高三上期末达标检测试题
- 不良贷款处置管理办法
- 湖南娱乐垂钓管理办法
- 海上实验奖励管理办法
- 庆阳辅警考试题库(含答案)
- 2025年高级导游等级考试(导游综合知识)考前冲刺试题及答案(云南省)
- 企业安全教育培训人要求课件
- 物联网可信计算模型-洞察及研究
- 区块链审计追踪技术-洞察及研究
- 休闲运动组织与管理课件
- 肾移植超声检查临床应用
- 高氯酸浓度>72%(CAS号:7601-90-3)危险特性一览表
- 中望cad培训课件
- 港口物流管理专业教学标准(高等职业教育专科)2025修订
- 南昌市南大附中2025届英语八年级第二学期期末检测试题含答案
- 电子商务专业英语(附全套音频第3版)教案 张强华 - unit1-6
- 基于多源数据的态势融合-洞察及研究
- 中医馆公司财务管理制度
- 佛寺院内部管理制度
- 专题18形容词副词比较等级六类高考英语语法知识清单强化训练
评论
0/150
提交评论