版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十三章数据仓库互联网数据库课件13.1概述1、数据仓库的概念数据仓库之父——BillInmon定义:在支持管理的决策生成过程中,一个面向主题的、集成的、时变的、非易失的数据集合。定义中的数据:面向主题的、集成的、时变的、非易失的数据仓库的最终目的:将企业范围内的全体数据集成到一个数据仓库中,用户可以方便地从中进行信息查询、产生报表和进行数据分析等。数据仓库是一个决策支撑环境,它从不同的数据源得到数据,组织数据,使得数据有效地支持企业决策。总之,数据仓库是数据管理和数据分析的技术。13.1概述2、数据仓库的好处数据仓库的成功实现能为一个企业带来的主要好处:提高公司决策能力
竞争优势
潜在的高投资回报3、开发和管理数据仓库的问题开发和管理一个数据仓库常出现的问题有:
1)低估数据装载工作2)源系统隐藏的问题3)从现存的数据源捕捉不到的数据4)终端用户的需求不断增长5)数据差异被忽略6)对资源过高需求7)数据的所有权问题8)高维护性和集成的复杂性。13.2数据仓库框架ORACLEDB2...文件系统HTML文件..抽取变换加载刷新元数据决策数据单位数据仓库OLAP服务器OLAP服务器查询分析报表数据挖掘图形用户接口...决策者部门数据仓库数据源数据仓库(核心)工具和接口数据仓库的框架13.2数据仓库框架为了提高数据仓库的性能通常采取的措施:1)采用并行系统结构;2)对数据仓库中用得多、开销大的处理,例如聚集函数的计算,采用新的查询优化策略和索引结构;3)针对数据仓库以读为主的特点,把查询中常用的中间结果定义为视图,且将事先计算好的视图存于数据仓库中;在需要的时候只要读出即可,无需临时计算。13.2数据仓库框架数据仓库所需的技术支持,大致可分为五个方面:1)异构多数据源集成技术;2)RDBMS对数据仓库的支撑技术,包括OLAP和并行处理等技术;3)硬件系统,包括并行处理结构、大容量磁盘阵列系统等;4)数据模式设计,包括对决策主题的需求分析、基表和实现图的模式设计、各种索引的合理配置等;5)决策用的工具和接口软件。13.3数据仓库的基本数据模式以事实表为中心,加上若干维表,组成星型数据模式(starschema)。日期表示符日月季年日期表产品标识符商品标识符日期标识符单价销售金额销售表产品标识符类标识符大类标识符产品名类名大类名产品表商店标识符市名省名国名洲名商店表13.3数据仓库的基本数据模式若将维表按层次关系分解,则数据模式将成为雪花模式(snowflakeschema)。雪花模式实际上是星型模式的规范化形式。用雪花模式表示,可以节省存储空间,但在访问维表时,要多做连接操作。季年季表月季月表日期标识符日月日期表产品标识符商店标识符日期标识符单价销售金额销售额产品标识符类标识符产品名产品表商店标识符市名商店表类标识符大类标识符类名类表大类标识符大类名大类表市名省名市表省名国名国名洲名省表国表13.4数据仓库的基本操作星型、雪花模式是数据仓库中基表的常用数据模式。决策一般不直接应用星型、雪花模式所描述的那种详细数据。基表是决策所需的原始数据,数据仓库应在基表的基础上计算出决策所需的各种总结数据。13.4数据仓库的基本操作1、基本聚集函数SQL提供五种聚集函数:SUM,COUNT,AVG,MAX和MIN2、立方体(Cube)操作在立方体的基础上,可进行切片、切块操作,即以某一个维度为基准,对立方体进行切割的操作。3、上卷(roll-up)和下探(drill-down)操作在计算聚集函数时,分组的粒度有粗细之分。由细粒度分组及聚集函数可以推算出与其相关的粗粒度分组的聚集函数,反之则不可行。上卷操作就是由细粒度分组的聚集函数推算出粗粒度分组的过程。下探操作是上卷操作的逆操作,即通过细化维的粒度,查询较详细的数据。13.5联机分析处理(OLAP)简介当前的数据处理大致可以分成两大类:1)联机事务处理(OLTP)2)联机分析处理(OLAP)13.5联机分析处理(OLAP)简介1、OLAP的体系结构OLAP属于数据仓库应用,它以数据仓库为基础。根据E.F.Codd的观点,OLAP采用三层客户机/服务器体系结构。OLAP的三层C/S结构:①第一层为客户机,实现最终用户功能,能够方便地浏览数据仓库中的数据,能够生成数据立方体,支持各种OLAP操作,如切片、切块、旋转、趋势分析、比较等处理,实施决策。②第二层为分析服务器,存储数据仓库中的综合数据。③第三层是企业服务器,存储数据仓库中的细节数据,它来自基层数据库。
13.5联机分析处理(OLAP)简介OLAP的体系结构的优点:将应用逻辑、GUI及DBMS严格区分开来,复杂的应用逻辑不是分布于网络中的客户机上,而是集中存放在分析服务器上,由服务器提供高效的数据存取,以及分析预处理。13.5联机分析处理(OLAP)简介2、OLAP的数据组织模式OLAP目前主要有两种组织模式:1)一种是建立专用的多维数据库系统;2)另一种是利用现有的关系数据库技术来模拟多维数据,用二维关系表示多维概念。这两种组织方式对应的OLAP系统分别为多维OLAP(MD-OLAP)和关系OLAP(ROLAP)。13.5联机分析处理(OLAP)简介①MD-OLAP的综合数据组织模式。MD-OLAP以多维数据库为核心。多维数据库就是以多维方式来组织数据,以多维方式来显示数据。多维数据库可以直观地表现现实世界中的“一对多”和“多对多”关系,不仅多维概念表达清晰,占用存储少,更重要的是它有着高速的综合速度。②ROLAP的综合数据组织模式。ROLAP以关系数据库为核心,用关系数据库中的二维表来组织数据,表达多维概念,其数据组织采用星型模式。数据仓库中的每个主题对应于一个星型模式结构,由一个事实表和若干个维表组成。事实表中的每条记录含有指向每个维表的指针(外码,是维表的主关键字),通过这个指针,将多维数据联系起来。13.5联机分析处理(OLAP)简介3、OLAP实现的关键技术:1)实视图及其维护“实视图”,它与数据库的“视图”概念不同之处在于:它不是虚拟的,而是经过计算,含有大量数据,并存储在数据仓库的一张实实在在的表中。实视图的维护:数据仓库中的数据来源于其它独立的传统数据库,当这些数据库的原始数据发生变化时,如何使得数据仓库中的实视图与原始数据的变化保持同步。2)立方体计算3)查询优化与并行处理技术4)数据集成数据集成是根据元数据中的有关定义,完成数据源中数据到实视图的变换。13.5联机分析处理(OLAP)简介4、OLAP的局限性1)OLAP分析技术的局限性:①OLAP对不同维度进行肉眼观察,并非运用科学的工具去测度。而肉眼观察带有主观的“有色眼镜”,故缺乏科学客观的评判手段和方法②当遇到维度过多、数据量过大的实际情况时,OLAP工作效率急剧下降③若自变量和自变量之间存在线性关系或交互作用,OLAP无法分辨混杂因子或主要影响因素。因此,OLAP无法满足在分析信息系统中最基本、最重要和最关键因素的要求,即:面对主题(商务需求)进行分析。
13.5联机分析处理(OLAP)简介2)OLAP解决方案的局限性?
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025贵州金融控股集团有限责任公司面向社会招聘27人笔试历年参考题库附带答案详解
- 2025贵州水务大龙有限公司招聘1人笔试历年参考题库附带答案详解
- 2025-2030中国橡胶回收行业营销规模现状与未来前景趋势研究报告
- 2026年大学电力系统过电压分析及防护期末练习题库带答案详解(预热题)
- 2026年农电工考前冲刺模拟题库含答案详解【典型题】
- 2026年一级造价工程师《建设工程技术与计量(交通运输工程)》强化训练模考卷附完整答案详解【夺冠】
- 2026年建筑与房地产经济专业知识和实务(初级)试卷及一套参考答案详解
- 《做到自主可控》教学课件-2025-2026学年川教版(新教材)小学信息技术三年级下册
- 民宿消防安全新规解读
- 食品加工安全卫生管理细则
- 医院节能降耗全员培训
- 小学各年级 三年级 探索未来 成为小小梦想家 主题班会精
- 《马克思主义社会研究方法在人口老龄化问题中的应用研究》3300字
- 五月天所有专辑歌词【全】
- 超声波流量计
- 9第九讲 世界文明体系阿拉伯文明
- 钳工实训与技能考核训练项目三-凹凸体锉配-课件
- 水库防汛抢险应急预案编制大纲
- LY/T 3259-2021极小种群野生植物水松保护与回归技术规程
- LY/T 1558-2017仁用杏优质丰产栽培技术规程
- 山西中考数学计算真题汇总(历年)
评论
0/150
提交评论