oracle_数据仓库简介.ppt_第1页
oracle_数据仓库简介.ppt_第2页
oracle_数据仓库简介.ppt_第3页
oracle_数据仓库简介.ppt_第4页
oracle_数据仓库简介.ppt_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据仓库和BIjianhui.wang 2011,培训目的:1. 了解数据仓库及BI的基本概念 2. 设计数据仓库 3. 4. BI建模分析及提供数据给决策层,第一课堂 基本概念,一、数据仓库 数据仓库是面向主题的、集成的、稳定的(不可更新的)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。 a) 面向主题与传统数据库的面向应用相对应,主题是一个在较高层次上将数据归类的标准,每个主题对应一个宏观的分析领域; b) 集成特性是指数据在进人数据仓库前,必须经过加工和集成,以统一原始数据中的矛盾之处,还要将原始数据结构从面向应用转变为面向主题。 c) 稳定性是指数据仓库反映

2、的是已成为历史的数据,,而不是日常事务处理产生的数据,数据经加工和集成进入数据仓库后极少或根本不修改,数据仓库是不同时间的数据集合,它要求数据仓库中的数据保存时不仅能满足决策分析的需要,而且都要标明该数据的历史时期。 d) 数据仓库最根本的特点是物理地存放数据,而且这些数据并不是最新的、专有的,而是来源于其他数据库。传统的数据库系统主要负责日常操作性的事务处理任务,而数据仓库承担支持决策分析服务的数据平台。,面向主题图解 操作型环境 数据仓库 汽车 顾客 人寿 保险单 健康 保险费 意外伤亡 索赔 应用 主题 面向主题是通过一组相关的表来具体实现的。,二、构建数据仓库的关键技术 数据仓库的构建

3、偏向于工程,具有强烈的工程性,其关键技术主要有数据抽取、数据组织、数据表现三个方面。 a)数据抽取 数据的抽取是数据进入数据仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从数据库系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面。数据仓库的数据并不要求与数据源保持实时的同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。 见下图所示:,b)数据组织 数据仓库是存储数据的一种组织形式,它从传统数据库中获得原始数据(数据源),先按辅助决策的主题需

4、求形成当前基本数据层(接口层,比如本公司数据库RP用户),再按综合决策的要求形成综合数据层(中间层,比如MID用户) 。随着时间的推移,由时间控制机制将当前基本数据层转为历史数据。 c)数据形式 数据仓库中存放着不同综合级别的数据,可分为四个级别:早期细节级、当前细节级、轻度综合级和高度综合级。源数据经过综合处理之后,首先进入当前细节级,并根据具体需要进一步的综合,从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节级。,d)确定数据粒度 数据粒度与数据仓库结构相关,是指数据仓库中一组数据单元所包含数据的详尽程度。粒度越大,数据表示的细节程度则越低,综合程度越高。粒度直接影响到驻留在数据

5、仓库里的数据量以及在同一时间里可以得到响应的查询类型。对于大型的数据仓库,往往需要建立多层粒度,其中一层对应数据仓库的当前细节级数据,一层对应轻度综合级数据,其他层则根据系统的性能要求以及业务的具体要求来设计。 确定适当的粒度水平,首先要对数据的记录数和数据仓库的磁盘空间进行估算,接着考虑粒度的大小。通常利用经验选择粒度水平,先创建部分数据仓库让用户使用,当用户产生新的需求后,再对粒度进行调整,最终建立整个数据仓库的粒度水平和存储方式。 见下图:,以中青宝游戏数据库为例:,e)数据表现 数据表现本质上是指数据仓库的应用。目前,数据仓库已经广泛地应用在银行、金融服务、消费物品和零售批发部门,以及

6、诸如基于需求的产品生产。就功能而言,数据仓库的应用主要体现在信息处理、分析处理和数据挖掘三个方面: 信息处理:支持查询和基本的统计分析,并使用交又表、表、图表或图进行报告。数据仓库信息处理的当前趋势是构造低成本的基于Web的存取工具,然后与Web浏览器集成在一起。 分析处理:支持联机分析处理OLAP。分析处理一般是在汇总的和细节的历史数据上操作,主要优势在于支持多维数据分析。 数据挖掘:支持知识发现,包括寻找隐藏的模式和关联,构造分析模式,进行分类和预测,并用可视化工具提供挖掘结构。总的来说,数据仓库的性能,集中表现在多维分析、数据挖掘方面。,总之,数据仓库技术是数据库技术的发展和应用。建立数

7、据仓库并不是要取代数据库,而是在全面和完善的信息应用基础上进行数据分析,构建决策支持系统。目前,数据仓库、联机分析处理和数据挖掘技术的有效集成和应用,即联机分析挖掘系统,是数据仓库技术的应用趋势,同时也成为智能化应用系统的重要组成部分。它们主要区有以下几个方面: a) 应用数据库面向操作应用, 数据仓库面向主题分析; b) 应用数据库允许DML操作, 数据仓库不许修改数据; c) 应用数据库是详细的数据, 数据仓库是概要精化的数据; d) 应用数据库为日常工作服务,数据仓库是为管理者服务的; e) 数据仓库是高度集成的,大部分是粒度化数据。,第二课堂 设计数据仓库,一、首先了解两个概念(粒度和维度) 粒度是看问题的细腻程度,指定某一个维度的最小单位做为粒度,是指数据按什么单位存储,可以按小时,天,周,月,季度,年等来存储,粒度不需要你创建,具体体现在你对数据的汇总级别上了(可以理解为,粒度只是观察问题详细或粗略的级别程度),比如你汇总为月了,那么你只能出月报了,日报就可能出不了。反之,你汇总为日粒度,日报,月报照样出。比如:日结算表, 月结算表。 维度则是多维数据集的结构性特性。它们是事实数据表中用来描述数据的分类的有组

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论