




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据仓库和决策支持系统,主讲:鲁明羽,大连海事大学计算机科学与技术学院 研究方向:智能数据分析与数据挖掘 电 话Email:,第4章 数据仓库的基本原理,本章目标,随着信息技术的不断推广和应用,许多企业都已在使用MIS系统处理管理事务和日常业务,积累了大量信息 企业管理者开始考虑如何利用这些海量信息为企业管理提供决策支持。因此,产生了与传统数据库有很大差异的数据环境要求和从这些海量数据中获取特殊知识的深层需求。 这种需求加上计算机软硬件能力的飞速发展,导致了数据仓库和数据挖掘技术的出现,本章目标,本章目标是: 了解数据仓库的定义和特点 了解数据仓库的数据组织方式 理解
2、数据仓库的体系结构和参照结构 了解数据仓库管理员的作用和常用工具集,目 录,1 数据仓库的起源 2 数据仓库的定义和特点 3 与数据仓库相关的几个概念 4 数据仓库的数据组织 5 数据仓库的体系结构 6 数据仓库的层次结构 7 数据仓库管理员 8 数据仓库常用工具集 练 习,1. 数据仓库的起源,1.1 数据库技术的发展 60年代早期:利用文件系统,生成各种报告 60年代中期:大量的文件使得维护和开发的复杂性提高,数据的同步亦成问题 70年代早期:E. F. Codd提出关系数据模型和E-R数据建模方法,数据库技术日趋成熟 70年代中期:高性能的OLTP应用越来越广泛,1. 数据仓库的起源,1
3、.1 数据库技术的发展 80年代早期:OLTP,MIS/DSS,以IBM的“Information Warehouse”为代表,提出了数据仓库的思想 80年代中期:由于技术和实现费用的原因,数据仓库思想没有引起太多注意 90年代:以W.H.Inmon为代表,数据仓库(Data Warehouse)迅速兴起 = OLAP,DM,OLAM,1. 数据仓库的起源,1.2 从传统数据库到数据仓库 随着市场竞争的加剧,信息系统的用户已经不满足于仅仅用计算机处理每天所发生的事务数据,而是需要利用信息辅助管理决策过程。这就需要一种能够将日常业务处理中所收集到的各种数据转变为具有商业价值信息的技术,而传统的数
4、据库系统无法承担这一责任,主要表现在决策处理中的系统响应问题、决策数据需求问题和决策数据操作问题,等等,数据仓库与传统数据库的对比,Prism Solutions公司创始人之一的W.H.Inmon在Building the Data Warehouse一书中对“数据仓库(DW)”定义如下: 数据仓库是一个面向主题的、集成的、随时间变化的、非易失性的数据集合,用于支持管理决策过程,2. 数据仓库的定义和特点,这个定义本身就说明了数据仓库中数据的组织方式以及建立数据仓库的目的是什么,数据仓库特点: 面向主题性 数据集成性 数据的时变性 数据的非易失性 数据的集合性 支持决策作用,2. 数据仓库的定
5、义和特点,其中前4项是其主要特点,数据仓库中的数据是面向主题的. 主题是数据归类的标准,每个主题对应一个客观分析领域,如客户和商店等,因此,数据仓库中的数据是按主题要求而组织的。 业务应用 主题领域,2. 数据仓库的定义和特点,例如,对一个保险公司来说,它的业务应用系统可能有汽车保险、人寿保险、健康医疗保险及家庭财产保险等,而保险公司的主题领域可以是客户、保单、保费及索赔等。 一个数据仓库可以包含若干个主题,而每个主题可以分解为若干个子主题,每个子主题又可进一步分解为更细的子主题,形成逐层分解的主题层次结构,2. 数据仓库的定义和特点,2. 数据仓库的定义和特点,数据仓库中的数据是集成的. 为
6、了实现辅助决策的目标和要求,数据仓库需要集成多个部门、不同系统的大量数据。需要集成的数据源既有关系数据库,也有文本数据库、面向对象数据库以及文件系统等,而且同一种数据模型集合体中又有不同的DBMS。因此,数据集成是一个复杂问题。 不同数据源中的数据并不是全部转移到数据仓库中,而是运用多种转换规则,通过选择、合并、变换等方法转换为数据仓库中的集成数据 -需要ETL模块支持。 此外,数据源中可能存在数据重复、不一致和各种错误,因此,需要进行数据清洗,2. 数据仓库的定义和特点,数据仓库中的数据是集成的. 不同的应用在编码、命名、属性的度量等方面都有很大的差别,数据集成就是要解决这些问题。 举例1:
7、编码 APP A:M,FM,F APP B:1,0 APP C:X,Y APP D:MALE,FEMALE,2. 数据仓库的定义和特点,举例2:命名 APP A:IDUser_ID APP B:Identity APP C:User_ID APP D:Custom_ID,举例3:属性度量 APP A:CMCM APP B:INCHES APP C:M APP D:DM,2. 数据仓库的定义和特点,举例4:关键字冲突 APP AKEY CHAR(10) APP BKEY DEC FIXED(9,2) APP CKEY PIC 999999 APP DKEY CHAR(12) KEY CHAR(1
8、2,举例5:多源 APP A:DESCRIPTION1 APP B:DESCRIPTION2? DESCRIPTION APP C:DESCRIPTION3,2. 数据仓库的定义和特点,数据仓库中的数据是稳定的. 数据仓库包含大量的历史数据,经集成进入数据仓库后主要用于决策分析(查询类操作),而极少更新。可以将其理解为只读的。 业务应用 数据仓库 插入更新 删除插入访问 查询加载 以记录为单位的数据操作大量的数据加载和数据访问,2. 数据仓库的定义和特点,数据仓库中的数据是随时间变化的. 主要体现在数据的时限、数据的内容、数据的码健。 业务应用 数据仓库 数据时限:1个月至1年 数据时限:5到
9、10年 数据内容:记录更新 数据内容:复杂的数据快照 关键字结构:可能包含时间元素 关键字结构:包含时间标记,2. 数据仓库的定义和特点,数据仓库是为管理决策提供服务的. 数据仓库主要应用在两个方面: 使用浏览分析工具在数据仓库中寻找有用的信息; 基于数据仓库,在数据仓库系统上建立应用,形成决策支持系统。 事务处理 分析处理 从数据数据从数据 信息(知识) OLTP OLAP(DM、OLAM,DB,DW,3. 与数据仓库相关的几个概念,OLTP:联机事务处理,完成对数据的增、删、改等操作 OLAP:联机分析处理,完成对数据的向上综合、向下细化、旋转、切片和分割(又称局部分析)等操作。OLAP以
10、多维分析为基础,刻画了管理和决策过程中对数据进行多层面、多角度的分析处理。又分为MOLAP、ROLAP,3. 与数据仓库相关的几个概念,DM:数据挖掘,从大量数据中发现数据模式, 预测趋势和行为,致力于知识的自动发现 OLAM:联机分析挖掘,将OLAP与DM技术结合起来的一种技术 DSS:决策支持系统,利用OLAP、DM、OLAM等技术为企业或政府的管理决策提供服务的系统,4. 数据仓库的数据组织,数据仓库中的数据依据下面4个原则进行组织: 面向主题 采用关系表结构形式的数据模式 在数据源和数据仓库之间建立转换规则 数据按粒度分为若干个层次,4. 数据仓库的数据组织,1)面向主题组织数据 构建
11、数据仓库的前提首先是确定数据仓库的主题,然后才能以主题为单位,组织满足主题目标与需求的数据。 一个数据仓库一般有若干个主题,而每个主题又有一个数据集合体作为支撑,称为主题域(subject field),因此,一个数据仓库可以按主题划分为若干个主题域。 主题域应具有,独立性:主题域有明确的边界和独立内涵,可以有交叉,但不影响其独立性。 完备性:每个主题的分析要求所需要的数据均能在其主题域中获得,4. 数据仓库的数据组织,2)按关系模式组织主题域 数据仓库中的主题域按照传统的关系表形式进行组织。一个主题域往往由若干个关系表构成,而这些关系表中的数据来自于数据源,其中的属性按统计、汇总需求,可分为
12、三种形式:静态的(即不可统计的)、动态的(即可统计的)以及半动态的(即有时可统计的)。 在同一个主题域内的各个关系表之间,一般存在一定的联系,为此,需要建议一个主题域的公共码键,称为主题码(subject key),以关联主题域内各个关系表,4. 数据仓库的数据组织,3)在数据源和数据仓库之间建立转换规则 由于不同数据源中的数据并不是全部转移到数据仓库中,而是通过选择、合并、变换等方法,转换为数据仓库中的集成数据,因此,需要在数据源和数据仓库之间建立数据转换规则。这些数据转换规则形成了数据仓库管理系统中元数据,而ETL模块负责运用所建立的转换规则进行数据加载,4. 数据仓库的数据组织,数据转换
13、规则规定: 数据源中的哪些数据进入数据仓库哪个数据域的哪些关系表中? 在进入数据仓库之前,数据源中哪些数据需要合并为主题域中的哪项数据? 在进入数据仓库之前,数据源中哪些数据需要进行何种变换? 其它转换规定,4. 数据仓库的数据组织,4)数据按粒度分为若干个层次 综合与细化是数据仓库中的两种主要操作,为此,数据仓库中的数据需要划分为不同层次,而每个数据层次反映了数据综合的程度(称为粒度)。一般地,数据仓库包含4个级别的数据: 当前数据 轻度综合数据 高度综合数据 历史数据,数据仓库从传统数据库或其它数据源获得原始数据,先按辅助决策的主题要求形成当前基本数据层,再按综合决策的要求形成综合数据层(
14、又分为轻度综合层和高度综合层)。随着时间的推移,由时间控制机制将当前基本数据层转为历史数据层。 高度综合 01-02年所有产 品月销售数据 轻度综合 01-02年某产品 周销售数据 当前数据 01-02年 销售数据 历史数据 1980-2000 销售数据 数据仓库的逻辑结构,元数据,4. 数据仓库的数据组织,4)数据按粒度分为若干个层次 数据粒度越大,其综合度越高,细化程度越低;反之,数据粒度越小,其细节程度越大,综合度越低。 上页的数据仓库数据层次划分是一种常见方式,在实际应用中,还可以进一步提升或降低,数据仓库的数据组织实例,业务背景:某个采用会员制的连锁超市的数据仓库 现有系统现状:采购
15、管理系统,销售管理系统, 库存管理系统,人事管理系统 现有系统的数据库结构: 采购管理系统 订单(订单号,供应商号,日期,总金额) 订单明细(订单号,商品名,商品号,类别, 单价,数量) 供应商(供应商号,供应商名,地址,电话,数据仓库的数据组织实例,2)销售管理系统 顾客(顾客号,姓名,性别,年龄, 文化程度,地址,电话) 销售(员工号,顾客号,商品号,数量,单价,金额) 3)库存管理系统 领料单(领料单号,领料人,商品号,数量,日期) 进料单(进料单号,订单号,进料人,收料人,日期) 库存(商品号,库房号,库存量,日期) 库房(库房号,保管员,地点,库存商品描述,数据仓库的数据组织实例,4
16、)人事管理系统 员工(员工号,姓名,性别,年龄,文化程度,部门号) 部门(部门号,部门名称,部门主管,电话) 主题选择:商品,供应商,顾客 主题域:分别对应三个主题 (1)商品主题域 P 数据源:采购,销售和库存管理系统,数据仓库的数据组织实例,数据关系表: P1 - 商品固有信息:商品号,商品名,类别 P2 - 商品采购信息:商品号,供应商号,供应价 供货日期,供应量 P3 - 商品销售信息:商品号,顾客号,售价 销售日期,销售量 P4 - 商品库存信息:商品号,库存号,库存量,日期 主题码:商品号 数据属性: P1 :静态或半动态 P2、P3、P4:动态,数据仓库的数据组织实例,2)供应商
17、主题域 S 数据源:采购管理系统 数据关系表: S1 - 供应商固有信息:供应商号,供应商名 地址,电话 S2 - 供应商品信息:供应商号,商品号,供应价 供货日期,供应量 主题码:供应商号 数据属性:S1 - 静态或半动态 S2 - 动态,数据仓库的数据组织实例,3)顾客主题域 C 数据源:销售管理系统 数据关系表: C1 - 顾客固有信息:顾客号,顾客姓名,性别,年龄 文化程度,地址,电话 C2 - 顾客购物信息:顾客号,商品号,售价 购买日期,购买量 主题码:顾客号 数据属性:C1 - 静态或半动态 C2 - 动态,数据仓库的数据组织实例,按不同粒度组织数据 (1)商品主题域 1)商品采
18、购信息 单笔记录:存储与数据源中 按日记录 P2.1: 商品号,(年,月,日),采购总额 按月记录 P2.2: 商品号,(年,月),采购总额 按年记录 P2.3: 商品号,年,采购总额,数据仓库的数据组织实例,按不同粒度组织数据 (1)商品主题域 2)商品销售信息 单笔记录:存储与数据源中 按日记录 P3.1: 商品号,(年,月,日),销售总额 按月记录 P3.2: 商品号,(年,月),销售总额 按年记录 P3.3: 商品号,年,销售总额,数据仓库的数据组织实例,按不同粒度组织数据 (1)商品主题域 3)商品库存信息 单笔记录:存储与数据源中 按日记录 P4.1: 商品号,(年,月,日),库存
19、总额 按月记录 P4.2: 商品号,(年,月),库存总额 按年记录 P4.3: 商品号,年,库存总额,数据仓库的数据组织实例,按不同粒度组织数据 (2)供应商主题域 单笔记录:存储于数据源中 按日记录 S2.1: 供应商号,(年,月,日),供应总额 按月记录 S2.2: 供应商号,(年,月),供应总额 按年记录 S2.3: 供应商号,年,供应总额,数据仓库的数据组织实例,按不同粒度组织数据 (3)顾客主题域 单笔记录:存储与数据源中 按日记录 C2.1: 顾客号,(年,月,日),购买总额 按月记录 C2.2: 顾客号,(年,月),购买总额 按年记录 C2.3: 顾客号,年,购买总额,数据仓库的
20、数据组织实例,数据仓库中的数据组织概况 共有18个关系表,29个属性,其数据来自于4个管理系统 (1)商品主题域 P 主题码:商品号 关系表: P1 P2.1, P2.2, P2.3 P3.1, P3.2, P3.3 P4.1, P4.2, P4.3,数据仓库的数据组织实例,2)供应商主题域 S 主题码:供应商号 关系表: S1 S2.1, S2.2, S2.3 (3)顾客主题域 C 主题码:顾客号 关系表: C1 C2.1, C2.2, C2.3 数据转换规则:见参考书,表3.3,5. 数据仓库的体系结构,5.1 数据仓库的概念结构 从数据仓库的概念结构看,应该包含:数据源、数据准备区、数据
21、仓库数据库、数据集市/知识挖掘库以及各种管理工具和应用工具,结果展现,结果展现,5.2 数据仓库的虚拟结构 虚拟数据仓库利用描述业务系统中数据位置和抽取数据算法的元数据,直接从业务系统中抽取查询的数据,进行概括、聚合操作后,将最终结果提供给用户,5. 数据仓库的体系结构,5.3 数据集市 在为企业建立数据仓库时,开发人员必须针对所有的用户、从企业的全局出发,来对待企业需要的任何决策分析。这样建立数据仓库就成了一个代价高、时间长、风险大的项目。 因此,更加紧凑集成、拥有完整应用工具、投资少、规模小的数据集市(Data Market)就应运而生,5. 数据仓库的体系结构,数据集市也称为面向应用的数
22、据仓库,是一种更小、更集中的数据仓库,可以为企业提供分析商业数据的一条廉价途径,5. 数据仓库的体系结构,数据集市是具有特定应用的数据仓库,主要针对某个具有战略意义的应用或具体部门级的应用。 它支持客户利用已有的数据获得重要的竞争优势,或找到进入新市场的整体解决方案,5. 数据仓库的体系结构,数据集市可通过两种方式构建: (1) 独立型数据集市:直接建立数据集市(2)依赖型数据集市:通过数据仓库的发布而形成,5. 数据仓库的体系结构,数据集市的特点: 规模小,面向部门,而不是整个企业 面向特定的应用,不是满足企业所有的决策分析需求; 主要由业务部门定义、设计和实现; 可以由业务部门管理和维护;
23、 成本低,开发时间短,投资风险较小 可以升级到企业完整的数据仓库,5.4 单一数据仓库结构 将所有的主题都集中到一个大型数据库中的体系结构。数据源中数据被按照同一标准抽取到独立的数据仓库中,用户在使用时再根据主题将数据仓库中的数据发布到数据集市中,数据仓库查询管理服务器,业务系统数据库,数据仓库,数据集市1,数据集市2,5. 数据仓库的体系结构,站点A 站点B 站点C 站点D,全局数据仓库,局部数据仓库,局部数据仓库,局部数据仓库,局部数据仓库,总部,5.5 分布式数据仓库结构 在企业各个分公司具有相当大的独立性时,企业总部设置一个全局数据仓库,各个分公司设置各自的局部数据仓库。局部数据仓库主
24、要存储各自的未经转换的细节数据,全局数据仓库中主要存储经过转换的综合数据,5. 数据仓库的体系结构,6. 数据仓库的层次结构,数据仓库的基本功能层包含:数据抽取,数据筛选、清洗,清洗后的数据加载,设立数据集市,完成数据仓库的查询、决策分析和知识的挖掘等操作。 数据仓库的管理层:分为数据管理与元数据管理两部分,主要负责对数据仓库中的数据抽取、清理、加载、更新与刷新等操作进行管理。 环境支持层:包含数据传输和数据仓库基础两部分,6.1 数据仓库基本功能层,6. 数据仓库的层次结构,数据源:主要包含业务数据、历史数据、办公数据、Web数据、外部数据以及数据源元数据。 数据准备区:主要完成数据标准化处
25、理、数据的过滤与匹配、数据的净化处理、标明数据的时间戳、确认数据质量与元数据抽取和创建等操作,6. 数据仓库的层次结构,数据仓库:其功能结构部分由数据重整、数据仓库创建 以及元数据管理等组成。 数据集市/知识挖掘库:其功能结构与数据仓库的功能 结构极为相似。 数据仓库的数据存取与使用:主要为数据仓库的最终用户提供决策分析和挖掘知识功能,包含数据仓库的存取与检索、元数据管理以及数据仓库分析与报告,6.2 数据仓库的管理层,数据抽取、新数据需求与查询管理 主要负责完成从数据源中抽取数据的管理,6. 数据仓库的层次结构,6.2.1 数据仓库的数据管理层,数据加载、存储、刷新和更新 负责对从数据源中所
26、抽取的数据在完成筛选、净化处理以后,将这些数据加载、存储到数据仓库中; 捕获数据源中的数据变化,用最新数据刷新数据仓库; 根据用户的需求和数据仓库管理的要求,对数据仓库进行更新等工作,6. 数据仓库的层次结构,安全性与用户授权管理 主要负责数据仓库的安全管理工作。 数据归档、恢复及净化 主要负责定期对数据仓库中的数据进行归档、备份。净化系统则负责对从数据源所抽取的数据进行数据的筛选、数据标准的统一、数据内容的统一等各种求精、重整净化工作的管理,6. 数据仓库的层次结构,6.2.2 数据仓库的元数据管理层 负责管理数据仓库所使用的元数据,其中包括: 数据仓库、数据集市/知识挖掘库和词汇表管理 元数据抽取、创建、存储和更新管理 预定义的查
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年应急物流行业当前市场规模及未来五到十年发展趋势报告
- 收入费用与利润的课件
- 2025年注册安全工程师考试金属冶炼(中级)安全生产专业实务试卷及答案指导
- 2025年全国大学生525心理知识竞赛题库及答案
- 2024年特岗教师招聘考试题库(含答案)
- 2025商用厨具厨房设备模拟试题考题及答案
- 撞车后安全知识培训课件
- 2024年高级汽车美容保养及装潢工技术知识考试题库与答案
- 2025年《组织胚胎学》理论知识试题与答案
- 2025年事业单位教师考试公共基础知识试题(附答案)
- 2025年发展对象考试题库附含答案
- 2025医院医疗器械不良事件监测与报告制度
- 企业廉洁管理办法
- 2025年列车长(官方)-高级工历年参考试题库答案解析(5卷套题【单项选择题100题】)
- 2025年甘肃社会化工会工作者招聘考试(公共基础知识)模拟试题及答案
- 《心系国防 强国有我》 课件-2024-2025学年高一上学期开学第一课国防教育主题班会
- 特种设备安全管理制度特种设备安全操作规程
- 连续安全技术交底8篇-1
- 公安派出所优质建筑外观形象设计基础规范
- C型钢检验报告
- 甲状腺腺瘤教学查房课件
评论
0/150
提交评论