数据仓库的基本架构_第1页
数据仓库的基本架构_第2页
数据仓库的基本架构_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持( Decision Support )。其实数据仓库本身并不生产 任何数据,同时自身也不需要消费”壬何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫 仓库”而不叫 工厂”的原因。因此数据仓库的基本架构主要 包含的是数据流入流出的过程,可以分为三层一一源数据、数据仓库、数据应用:应用仓库耳它(Click Stream)(OLTP)(Documents)源报表展示 (Report)数据分析 (Data Analysis)即厢音询(Ad-hoc)聚合数IE(Summary)(OLAP)业务樽型(Business Model

2、)细节数据(Detail Data )元数据管理NeiaDafa)从图中可以看出数据仓库的数据来源于不同的源数据,并提供多样的数据应用,数据自上而下流入数据仓库后向上层开放应用,而数据仓库只是中 间集成化数据管理的一个平台。数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是 ETL (抽取 Extra, 转化Transfer, 装载Load )的过程,ETL是数 据仓库的流水线,也可以认为是数据仓库的血液,它维系着数据仓库中数据的新陈代谢,而数据仓库日常的管理和维护工作的大部分精力就是保持ETL的正常和稳定。,当然这里所介绍的数下面主要简单介绍下数据仓库架构中的各个模块 据仓

3、库主要是指网站数据仓库。数据仓库的数据来源数据其实之前的一篇文章已经介绍过数据仓库各种源数据的类型 仓库的源数据类型,所以这里不再详细介绍。对于网站数据仓库而言,点击流日志是一块主要的数据来源,它是网站 分析的基础数据;当然网站的数据库数据也并不可少,其记录这网站运营的数据及各种用户操作的结果,对于分析网站Outcome这类数据更加精准;其他是网站内外部可能产生的文档及其它各类对于公司决策有用的数据。数据仓库的数据存储源数据通过 ETL的日常任务调度导出,并经过转换后以特性的形式存 入数据仓库。其实这个过程一直有很大的争议,就是到底数据仓库需不需要 储存细节数据,一方的观点是数据仓库面向分析,

4、所以只要存储特定需求的 多维分析模型;另一方的观点是数据仓库先要建立和维护细节数据,再根据 需求聚合和处理细节数据生成特定的分析模型。我比较偏向后面一个观点: 数据仓库并不需要储存所有的原始数据,但数据仓库需要储存细节数据,且导入的数据必须经过整理和转换使其面向主题。简单地解释下:(1) .为什么不需要所有原始数据?数据仓库面向分析处理,但是某些源数据对于分析而言没有价值或者其可能产生的价值远低于储存这些数据所 需要的数据仓库的实现和性能上的成本。比如我们知道用户的省份、城市足 够,至于用户究竟住哪里可能只是物流商关心的事,或者用户在博客的评论 内容可能只是文本挖掘会有需要,但将这些冗长的评论

5、文本存在数据仓库就得不偿失;(2) .为什么要存细节数据?细节数据是必需的,数据仓库的分析需求会时刻变化,而有了细节数据就可以做到以不变应万变,但如果我们只存储根 据某些需求搭建起来的数据模型,那么显然对于频繁变动的需求会手足无措;(3) .为什么要面向主题?面向主题是数据仓库的第一特性,主要是指合理地组织数据以方面实现分析。对于源数据而言,其数据组织形式是多样的,像点击流的数据格式是未经优化的,前台数据库的数据是基于OLTP操作组织优化的,这些可能都不适合分析,而整理成面向主题的组织形式才是真正 地利于分析的,比如将点击流日志整理成页面(Page )、访问(Visit或Session )、用

6、户(Visitor )三个主题,这样可以明显提升分析的效率。数据仓库基于维护细节数据的基础上在对数据进行处理,使其真正地能够应用于分析。主要包括三个方面:数据的聚合这里的聚合数据指的是基于特定需求的简单聚合(基于多维数据的聚合体现在多维数据模型中),简单聚合可以是网站的总Pageviews、Visits、Unique Visitors等汇总数据, 也可以是 Avg. time on page 、Avg. time on site等平均数据,这些数据可以直接地展示于报表上。多维数据模型多维数据模型提供了多角度多层次的分析应用,比如基于时间维、地域 维等构建的销售星形模型、雪花模型,可以实现在各时

7、间维度和地域维度的 交叉查询,以及基于时间维和地域维的细分。所以多维数据模型的应用一般 都是基于联机分析处理(On li ne An alytical Process, OLAP)的,而面向特定需求群体的数据集市也会基于多维数据模型进行构建。业务模型这里的业务模型指的是基于某些数据分析和决策支持而建立起来的数据模型,比如我之前介绍过的用户评价模型、关联推荐模型、RFM分析模型等,或者是决策支持的线性规划模型、库存模型等;同时,数据挖掘中前 期数据的处理也可以在这里完成。数据仓库的数据应用之前的一篇文章一一数据仓库的价值中介绍过数据仓库的四大特性上 的价值体现,但数据仓库的价值远不止这样,而且其

8、价值真正的体现是在数 据仓库的数据应用上。图中罗列的几种应用并未包含所有,其实一切基于数 据相关的扩展性应用都可以基于数据仓库来实现。报表展示报表几乎是每个数据仓库的必不可少的一类数据应用,将聚合数据和多维分析数据展示到报表,提供了最为简单和直观的数据。即席查询理论上数据仓库的所有数据(包括细节数据、聚合数据、多维数据和分 析数据)都应该开放即席查询,即席查询提供了足够灵活的数据获取方式, 用户可以根据自己的需要查询获取数据,并提供导出到Excel等外部文件的功能。数据分析数据分析大部分可以基于构建的业务模型展开,当然也可以使用聚合的数据进行趋势分析、比较分析、相关分析等,而多维数据模型提供了

9、多维分 析的数据基础;同时从细节数据中获取一些样本数据进行特定的分析也是较为常见的一种途径。数据挖掘数据挖掘用一些高级的算法可以让数据展现出各种令人惊讶的结果。数据挖掘可以基于数据仓库中已经构建起来的业务模型展开,但大多数时候数据挖掘会直接从细节数据上入手,而数据仓库为挖掘工具诸如SAS、SPSS等提供数据接口。元数据管理元数据(Meta Date ),其实应该叫做解释性数据,即数据的数据。主 要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据 状态及ETL的任务运行状态。一般会通过元数据资料库(MetadataRepository )来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论