数据仓库与联机分析处理总结.docx_第1页
数据仓库与联机分析处理总结.docx_第2页
数据仓库与联机分析处理总结.docx_第3页
数据仓库与联机分析处理总结.docx_第4页
数据仓库与联机分析处理总结.docx_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库与联机分析处理一、基本概念数据仓库是面向主题的、集成的、时变的和非易失的有组织的数据集合,支持管理决策制定。有一些要素区别数据仓库与操作数据库。由于两种系统提供很不相同的功能,需要不同类型的数据,因此有必要将数据仓库与操作数据库分开维护。A data warehouse is a subject-oriented, integrated, time-variant, and nonvolatile collection of data in support of managements decision-making process.”W. H. Inmon1.1 什么是数据仓库数据仓库已被多种方式定义但没有一种严格的定义。课本:数据仓库是一种数据库,它与单位的操作数据库分别维护。数据仓库系统允许将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持。A decision support database that is maintained separately from the organizations operational database一个与组织结构的操作数据库分别维护的决定支持数据库;Support information processing by providing a solid platform of consolidated, historical data for analysis.为统一的历史数据分析提供坚实的平台,对信息处理提供支持。建立数据仓库(data warehousing):The process of constructing and using data warehouses 构建和使用数据仓库的过程1.2 subjected-oriented 面向主题的Organized around major subjects 围绕一些重要主题Focusing on the modeling and analysis of data for decision makers, not on daily operations or transaction 聚焦在为决策者的数据分析建模,而不是日常操作和交易Provide a simple and concise view around particular subject issues by excluding data that are not useful in the decision support process 排除对决策无用的数据1.3 integrated 集成的Constructed by integrating multiple, heterogeneous data sources 多个异构数据源,使用数据清理技术和数据集成技术,确保一致性Data cleaning and data integration techniques are applied1.4 Time-variant 时变的The time horizon for the data warehouse is significantly longer than that of operational systems 比操作数据库的时间更长数据仓库的关键结构都显式或者隐式地包含了时间元素1.5 nonvolatile 非易失的A physically separate store of data transformed from the operational environment数据仓库总是物理地分离存放数据。initial loading of data and access of data 数据的初始化装入和数据访问Dataware house 和 Heterogeneous Databse 异构数据库集成:wrapper mediater 查询驱动 query-driven数据仓库:update-drivenOLTP 联机事务处理 vs OLAP 联机分析处理用户和系统的面向性:OLTP是面向顾客的 OLAP是面向市场的数据内容: OLTP系统管理当前数据 OLAP管理大量历史数据数据库设计: OLTP采用实体-关系模型 ER数据模型和采用面向应用的数据库设计 OLAP采用星星或者雪花模star or 面向主题视图: current ,local evolutional historical访问模式: update,原子事务,需要并发控制与恢复机制 大部分是只读操作,历史数据为什么需要分离数据仓库?High performance for both systems提高两个系统的性能 数据库管理系统 OLTP的协调: 存取方法,索引,同步控制,恢复数据仓库 OLAP的协调: 复杂的OLAP查询,多维视图,合并不同的功能和不同的数据:数据维护: 决策支持需要历史数据,而操作数据库一般不维护历史数据数据统一: 决策支持需要将来自异种源的数据统一(如聚集和汇总)数据质量: 不同的数据源通常使用不一致的数据表达,代码和形式,这些都需要协调但是越来越多的OLAP直接在数据库上操作数据仓库通常采用三层体系结构。底层是数据仓库服务器、它通常是关系数据库系统。中间层是OLAP服务器,底层是客户,包括查询和报表工具。数据仓库建模:数据立方体与OLAPA data warehouse is based on a multidimensional data model which views data in the form of a data cube 基于多维数据模型 数据立方体形式数据立方体(data cube):允许以多维对数据建模和观察,由维和事实定义。维 dimension table:一个单位想要记录的透视和实体 事实 fact table:contains measures (such as dollars_sold) and keys to each of the related dimension tables measures 度量 key 键Cuboid 方体 数据立方体基本方体 base cuboid顶点方体 apex cubiod多维数据模型的模式:1. star schema 星型模式。一个事实表,多个维表 2. Snowflake schema 雪花模式。在星型模式的基础上,维表里面带维表3. Fact constellation 事实星座。DMQL语句define cube sales_star time, item, branch, location:dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)define dimension time as (time_key, day, day_of_week, month, quarter, year)define dimension item as (item_key, item_name, brand, type, supplier_type)define dimension branch as (branch_key, branch_name, branch_type)define dimension location as (location_key, street, city, province_or_state, country)数据立方体的三种度量方式:1. distributive 分布式 sum,count, min, max2. Algebraic 代数的 min_N, max_N 3. Holistic 整体的 median mode一个概念分层定义一个映射序列,将低层概念到更一般的高层概念。Typical OLAP Operations典型的OLAP操作为上卷、下钻、切片和切块、转轴Design of dataware house四种观点:1. 自顶向下视图:使得我们可以选择数据仓库所需的相关信息2. 数据源视图:被操作数据库系统收集、存储和管理的信息3. 数据仓库视图:事实表和维表4. 商务查询视图:从最终用户的角度透视数据仓库的数据数据仓库设计过程:1. 自顶向下2. 自底向上3. 混合4. 瀑布5. 螺旋Typical data warehouse design processChoose a business process to model, e.g., orders, invoices, etc. 商务处理过程Choose the grain (atomic level of data) of the business process 商务处理的粒度Choose the dimensions that will apply to each fact table record 维Choose the measure that will populate each fact table record 度量Three Data Warehouse Models从结构的角度看,有三种数据仓库模型:企业仓库、数据集市、和虚拟仓库。 企业仓库enterprise warehouse:企业仓库搜集了关于主题的所有信息,跨越整个组织。它提供企业范围内的数据集成,通常来自一个或多个操作的系统,或外部信息提供者,并且是跨功能的。通常,它包含详细数据和汇总数据,其大小由数千兆字节,到数百千兆字节,数兆兆字节,或更多。企业数据仓库可以在传统的大型机上实现,如UNIX超级服务器或并行结构平台。它需要广泛建模,可能需要多年设计和建造。数据集市 data mart:数据集市包含企业范围数据的一个子集,对于特定的用户是有用的。其范围限于选定的主题。例如,一个商场的数据集市可能限定其主题为顾客、商品和销售。包括在数据集市中的数据通常是汇总的。通常,数据集市可以在低价格的部门服务器上实现,基于UNIX或Windows/NT。实现数据集市的周期一般是数以周计,而不是数以月计或数以年计。然而,如果它们的规划不是企业范围的,从长远讲,可能涉及很复杂的集成。根据数据的来源不同,数据集市分为独立的和依赖的两类。在独立的数据集市中,数据来自一个或多个操作的系统或外部信息提供者,或者来自在一个特定的部门或地域局部产生的数据。依赖的数据集市中的数据直接来自企业数据仓库。虚拟仓库 virtual warehouse:虚拟仓库是操作数据库上视图的集合。为了有效地处理查询,只有一些可能的汇总视图被物化。虚拟仓库易于建立,但需要操作数据库服务器具有剩余能力。数据仓库系统使用后端工具和实用程序来加载和刷新它的数据。这些工具和机制包含以下功能:数据提取:通常,由多个、异种、外部数据源收集数据。数据清理:检测数据中的错误,可能时订正它们。数据变换:将数据由遗产或宿主格式转换成数据仓库格式。装入:排序、综合、加固、计算视图、检查整体性,并建立索引和划分。刷新:传播由数据源到数据仓库的更新。Meta data is the data defining warehouse objects. It stores:Description of the structure of the data warehouseschema, view, dimensions, hierarchies, derived data defn, data mart locations and contentsOperational meta-datadata lineage (history of migrated data and transformation path), currency of data (active, archived, or purged), monitoring information (warehouse usage statistics, error reports, audit trails)The algorithms used for summarizationThe mapping from operational environment to the data warehouseData related to system performancewarehouse schema, view and derived data definitionsBusiness databusiness terms and definitions, ownership of data, charging policies“什么是元数据?”元数据是关于数据的数据。在数据仓库中,元数据是定义仓库对象的数据。对于给定数据仓库的数据名和定义,创建元数据。其它元数据包括对提取数据添加的时间标签、提取数据的源、被数据清理或集成处理添加的字段等。元数据的存储应当包括:数据仓库结构的描述,包括仓库模式、视图、维、层次结构、导出数据的定义,以及数据集市的位置和内容。操作元数据,包括数据血统(移植数据的历史和用于它的转换序列),数据流通(主动的、档案的、或净化的),和管理信息(仓库使用统计、错误报告、审计跟踪)。汇总用的算法,包括度量和维定义算法,数据所处粒度、分割、主题领域、聚集、汇总、预定义的查询与报告。由操作环境到数据仓库的映射,包括源数据库和它们的内容、网关描述、数据分割、数据提取、清理、转换规则和缺省、数据刷新和剪裁规则、安全(用户授权 和存取控制)。关于系统性能的数据,除刷新、更新定时和调度的规则与更新周期外,还包括索引和改善数据存取和提取性能的方法。商务元数据,包括商务术语和定义、数据拥有者信息和收费策略。逻辑上讲,OLAP服务器为商务用户提供来自数据仓库或数据集市的多维数据,而不必关心数据如何存放和存放在何处。然而,OLAP服务器的物理结构和实现必须考虑数据存放问题。OLAP服务器实现包括:关系OLAP(ROLAP)服务器:这是一种中间服务器,介于关系后端服务器和用户前端工具之间。它们使用关系或扩充关系DBMS存放并管理数据仓库,而OLAP中间件支持其余部分。ROLAP服务器包括每个DBMS后端优化,聚集导航的逻辑实现,附加的工具和服务。看来,ROLAP技术比MOLAP技术具有更大的可规模性。例如,Microstrategy的DSS和Informix的Metacube都采用ROLAP方法。多维OLAP(MOLAP)服务器:这些服务器通过基于数组的多维存储引擎,支持数据的多维视图。它们将多维视图直接映射到数据方数组结构。例如,Arbor的Essbase是一个MOLAP服务器。使用数据方的优点是能够对预计算的汇总数据快速索引。注意,使用多维数据存储,如果数据集是稀疏的,存储利用率可能很低。在这种情况下,应当使用稀疏矩阵压缩技术(见2.4节)。许多OLAP服务器采用两级存储,以便处理稀疏和稠密数据集:稠密子方不变,并作为数组结构存储;而稀疏子方使用压缩技术,从而提高存储利用率。混合OLAP(HOLAP)服务器:混合OLAP方法结合ROLAP和MOLAP技术,得益于ROLAP较大的可规模性和MOLAP的快速计算。例如,HOLAP服务器允许将大量详细数据存放在关系数据库中,而聚集保持在分离的MOLAP存储中。微软的SQL Server 7.0 OLAP服务支持混合OLAP服务器。特殊的SQL服务器:为了满足在关系数据库中日益增长的OLAP处理的需要,一些关系数据库和数据仓库公司(例如Redbrick)实现了特殊的SQL服务器,提供高级查询语言和查询处理,在只读环境下,在星形和雪花模式上支持SQL查询。 这些产品的信息分别可以在和找到。Materialization of data cubeMaterialize every (cuboid) (full materialization), none (no materialization), or some (partial materialization)Selection of which cuboids to materializeBased on size, sharing, access frequency, etc.预计算并物化由数据方(或由基本方体)可能产生的所有方体是不现实的。如果有很多方体,并且这些方体很大,较合理的选择是部分物化;即,只物化可能产生的方体中的某些。方体的部分物化应考虑三个因素:(1)确定要物化的方体子集;(2)利用查询处理时物化的方体;(3)在装入和刷新时,有效地更新物化的方体。物化方体的选择需要考虑工作负荷下的查询,它们的频率,和它们的开销。Computing only the cuboid cells whose count or other aggregates satisfying the condition like HAVING COUNT(*) = minsup三类数据仓库应用:信息处理:查询和报表分析处理:允许用户通过OLAP操作在汇总数据和细节数据之间导航数据挖掘:支持知识发现使用索引技术,OLAP查询处理可以更有效的进行。在位图索引中,每个属性都有它自己的位图索引表。位图索引把连接、聚集和比较操作归结为算数运算。连接索引登记来自两个或多个关系的可连接行,降低了OLAP连接操作的代价。位图连接索引结合位图和连接索引方法,进一步加快OLAP查询处理Data generalization 和 concept description.数据泛化是一个过程,它把数据库中大量任务相关的数据,从相对较低的概念层抽象到较高的概念层。基于数据立方体的数据聚集面向属性的归纳Data focusing: task-relevant data, including dimensions, and the result is the initial relationAttribute-removal: remove attribute A if there is a large set of distinct values for A but (1) there is no generalization operator on A, or (2) As higher level concepts are expressed in terms of other attributesAttribute-generalization: If there is a large set of distinct values for A, and there exists a set of generalization operators on A, the

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论