第2-3讲 数据仓库技术_第1页
第2-3讲 数据仓库技术_第2页
第2-3讲 数据仓库技术_第3页
第2-3讲 数据仓库技术_第4页
第2-3讲 数据仓库技术_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库技术的主要内容是数据仓库的发展数据仓库和数据库的差异数据仓库定义数据仓库系统的结构数据仓库是对OLAP数据仓库和数据挖掘的关系进行建模的。 社会信息化使信息量急剧增加,大量信息赶不上组织和处理。 内斯比特在大趋势中说“我们被信息压倒,但知识不足,感到饥饿”。 从数据库到数据仓库,从数据库(DB )发展到数据仓库(DW )的主要原因是,随着数据太多,信息匮乏(datarich,informationpoor )数据库技术的发展,企业大量的数据辅助决策信息匮乏,把大量数据转换成辅助决策信息的方法成为研究的焦点。 异构环境数据的转换和共享随着各种数据库产品的增加,异构环境数据的增加,如何实现异构环境数据的转换和共享也成为研究的焦点。 利用数据进行事务处理变成利用数据将决策数据库用于事务处理。为了帮助决策,需要更多的数据,如利用历史数据的分析进行预测的方法等。 为了综合地获得大量数据,需要大量数据。 数据仓库和数据库的差异1,数据库用于事务,数据仓库用于决策分析。 2 .数据库保存事务的当前状态,数据仓库保存过去的数据和当前数据。 3、数据仓库的数据是大量数据库的整合。 4 .对数据库的操作不明确,操作数据量少,数据仓库的操作不明确,操作数据量多。 数据库和数据仓库的详细比较、adataworwarehousesasubject-oriented,integrated,nonvolatile, andtime-variantcolleconnofdatasinsupportofmanagements decisions .数据仓库的父BillInmon是面向主题的集成、非易失性、时变、支持管理决策、 保险单、保险费、索赔、可操作性环境、主题、主题、变化、应用的具体业务,以固有业务主题为处理主体,主题:用户使用数据仓库进行决策时感兴趣的一点。 整合、整合并不是从单个业务系统中轻松提取数据仓库中的信息,而是通过一系列加工、组织、聚合,数据仓库中的信息是整个企业的统一全局信息。 非易失性,数据加载到数据仓库后,很少更改,访问信息的查询操作很多。 所谓时变,数据仓库内的信息不仅反映企业的当前状态,而且记录从过去的某个时刻到现在各阶段的信息,能定量地分析和预测企业的发展历史和未来趋势。 195019511952200052525252525252525252525252525252525252525252532222222222652迄今为止,数据仓库主要是数据库管理系统数据仓库不是可以直接购买的现成产品,而是解决方案。 在很多情况下,数据仓库系统被称为“决策支持系统”。 数据仓库的用户不是终端的操作员,而是业务部门的决策者。 数据集市、数据仓库在组织整体上向各部门提供管理、决策支持,而数据集市通常是部门级的,通常只能为某一地区的管理者服务,因此也称为部门级的数据仓库。 数据集市还具有规模小、灵活、可以通过多种方式组织特定的应用程序、部门、地区、主题等特征。 开发工作一般由业务部门负责定义、设计、实施、管理和维护。可以迅速实现,成本低,投资回收期短,风险小。 有助于升级到完整的数据仓库,或形成分布式数据仓库。 为了保持数据集市的类型、独立数据集市的从属数据集市和数据的完整性,有必要设计多个数据转换程序,并将各种信息系统的数据转换成数据集市。 系统变得非常复杂,难以维持投资,硬件和软件投资成比例增加。 硬件平台和数据库在扩展方面空闲,并行处理能力不足,无法处理大量数据。 数据商店:,数据商店,数据仓库系统的结构,数据仓库系统(DWS )由数据仓库系统,仓库管理和分析工具三部分构成。 关系数据库、数据文件、其他数据仓库管理工具、提取、转换、加载、元数据、数据建模工具、综合数据、当前数据、历史数据、用户查询工具、C/S工具、OLAP 源数据仓库管理数据仓库分析工具,仓库管理:需要利用数据库管理系统的功能,包括数据归档、备份、维护和恢复等。 在确定了数据仓库的信息要求后,首先进行数据建模,确定数据仓库的物理存储结构。 将源数据合并并加载到数据仓库的过程。 用于存储数据模型、定义数据结构、转换规则、仓库结构、控制信息等。 数据仓库由上而下结构,数据仓库包含所有元数据、当前详细数据和详细历史数据。检索实体关系(E-R,EntityRelationship )数据模型。 数据集市采用星型数据模型,包含轻度和高度集成的数据和元数据。 只要数据集市是数据仓库的子集,数据仓库和数据集市的集成就自动完成,不构成“蜘蛛网”。 数据、数据、数据、数据、数据、ETL、数据仓库、元数据、数据集市、数据集市、此模型由于数据仓库建设规模大,实施周期长、费用高、初期效果不明显数据仓库由下而上的结构,多级数据仓库的思想,即数据集市的思想。 从小时候开始,从部分开始,逐步整合,逐步走上完善的道路,最终建立全局数据仓库。 数据、数据、数据、数据、ETL、数据仓库、元数据、数据集市、数据集市、数据集市、ETL、ETL、企业级数据集市的结构、基于数据集市构建数据仓库很小数据、数据、数据、数据、数据、ETL、数据仓库、共享元数据中心库层、数据集合器、数据集合器、数据集合器、应用程序服务器、数据初始详细数据、现在详细数据、轻度综合数据、高度综合数据、元数据、元数据是定义为“与数据有关的数据”的操作数据后面的数据,记述其起源、意思、由来等。 元数据实际上是黄色页面、导航数据仓库路标、兴趣点等信息目录。 如果没有元数据,信息就简化成一堆没有意义的数据。 7575%的人买了面包后,有可能买牛奶。实体元数据示例,实体名称:客户选项名称:客户, 帐户定义:客户从公司至少购买了一次商品和服务的人和企业的创建日期: 1992年1月15日上次更新日期: 1995年4月5日关键字:客户身份客户定位更新周期:每月的提取存档周期: 6个月后存档数据服务人员:高建秋数据上次访问日为1995年5月30日,属性元数据的一例, 属性名称:客户名称可选名称:客户名称定义:客户名称为个人或企业使用的正式名称创建日期: 1992年3月30日前更新日期: 1995年4月5日数据源:汇票入口系统,客户文件属性石帐户名称转移/转换信息: 20个字符到35个字符的汇总/导出算法:无缺省值:无多个运用资源:元数据在数据仓库中的用途,在决策分析过程中起着定位数据仓库的目录的作用。 数据从业务环境传输到数据仓库环境时数据仓库的目录内容。 指导从最近的基本数据到轻度的综合数据和高度的综合数据的综合算法的选择。 数据仓库建模、数据仓库建模主要基于星盘模型、雪花模型等主题进行建模。数据仓库建模主要包括: 订单销售人员编号客户编号产品编号日期显示地区名称数据量合计价格、产品编号产品目录单价、日期显示日月年、地区名称省别、订单编号订单日期、销售人员编号销售人员姓名城市、客户编号客户地址、事实表、订单、销售人员表、客户表、产品表、日期表、地区表、星形模型向星形模型的扩展雪花模型需要进一步分层星型模型的维表,原始的各维表可以扩展为小的事实表,形成部分“层次”区域。 订单销售人员编号客户编号商品编号日期显示地域名数据量合计价格、商品编号商品目录单价、日期显示日月年、地域名省别、订单编号订单日期、销售人员编号销售人员姓名城市、客户编号客户地址:事实表、订单、销售人员、客户表、商品表、日期表、地区表、商品目录的记述、省别省信息、省表、目录、雪片模型、雪片模型、DateMonth、Date、SalesFactTable、Date、Product、Store、Customer、unit_sales、dollar_sales、Yen_sales 商品-城市-日期维,多维数据模型,1234567,果汁,矿泉水,牛奶,香烟,啤酒,白酒,广州,深圳,北京,在线分析处理-OLAP,60年代,关系数据库的父亲E.F.Codd 1993年,E.F.Codd认为OLTP不能满足数据库查询分析的最终用户需求。 用户的决策分析需要大量计算关系数据库以获得结果,SQL查询的结果不能满足决策者的要求。 因此,E.F.Codd提出了多维数据库和多维分析的概念OLAP。 OLAP现在是RDBMS不可或缺的功能,可以作为独立的OLAP服务器实施,也可以集成到RDBMS中。 什么是OLAP? 定义1 :在线分析处理(1:OLAP )是对特定问题的在线数据访问和分析。 通过快速、稳定的一致性和交互式访问信息(维度数据)的各种可能的观察形式,管理决策人员可以深入观察数据。 定义2 :在线分析处理(2:OLAP )使分析人员、管理员或执行者能够快速、一致、交互地访问从各种角度从原始数据转换而成的、实际能被用户理解的反映企业维特性的信息,从而获得更深的数据理解(OLAP委员会定义) OLAP的目标是满足决策支持或多维环境特定的查询和报告需要,技术核心是“维”的概念,因此OLAP也可以说是多维数据分析工具的集合。OLAP的数据源、OLAP的基本概念、维:在人们观察数据的特定角度上,考虑问题时的属性类(时间维、地理维等)。 维度阶层:对于观察资料的特定角度(维度),可能会有不同的详细层级说明(时间维度:日期、月、季度、年)。 维度成员:取维度值。 说明了数据项在维中的位置。 (某年某月的某一天是时间维度中位置的描述)多维数组:维度和变量的组合表示。 多维数组可以表示为:(维1,维2,维n,变量)。 (时间、地区、产品、销售额)、OLAP特性、快速性:用户对OLAP的快速响应能力有很高的要求。 系统应该能在5秒内响应用户的分析请求。 客户/服务器体系结构-两层或三层C/S体系结构。 分析可能性:OLAP系统可以处理与应用程序相关的逻辑分析和统计分析。 多维:多维是OLAP的重要属性。 必须提供数据的多维视图和分析,包括对层次维和多层次维的完全支持。 不管信息性:数据量多么大,不管数据存储在哪里,OLAP系统都需要及时获取信息并管理大容量的信息。 OLAP多维数据结构、超多维数据集(Hypercube )多维数据集或超多维数据集在三维或更多维中表示对象,每个维彼此垂直。 数据的测量值发生在维的交叉点,数据空间的各部分具有相同的维属性,客户的种类数是多维数据集,OLAP操作,切片和切片是多维数据结构,用二维切片,用三维切片,就能得到必要的数据。 用“城市、产品、时间”的三维立方体进行切片和切片,可以得到各城市、各产品的销售情况。 “钻取”(Drill )钻取包括“向下钻取”(Drill-down )和“向上钻取”(Drill-up)/向上钻取(Roll-up )操作,钻取深度对应于维的层次。 “旋转”(Rotate)/“旋转”(Pivot )旋转可以获得不同视点的数据。 各种图形的分析结果、切片、切片、切片、切片:FilteringbyAUS2、切片、切片: filteringbyaus 1a us2 and wholesale、钻头、钻头、旋转、旋转、各种可视化方式-。 用星型模型、雪花型模型构筑维模型。 MOLAP多维数据集(Multicube ),基于多维数据库(MDDB )的OLAP-MOLAPOLAP服务器:存储OLAP服务软件和多维数据库MDDB的存储:超立方体形式MDDB访问:多维操作、数据组织形式、 当将统一数据存储在RDB数据组织-MDDB数据组织-关系表中多维数据库中的统一数据存储ROLAP和moap进行比较时,moap不仅将多维实体视图概念上视为超立方体,而且还将多维实体视图物理上作为多维数组在MOLAP中,维的属性值映射到多维数组的下标值或下标范围,合计数据作为多维数组的值存储在数据单元格中。 ROLAP在节省存储空间、灵活性、与关系数据库的一致性等方面有着明显的优点,虽然MOLAP的查询速度很快,但是在多维数组中,某些单元很可能是空白的,例如假日店不营业。有些产品可能是生成数据仓库的发展、报告和回答的预定义查询分析的汇总和详细数据,结果以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论