《数据仓库开发模型》PPT课件.ppt_第1页
《数据仓库开发模型》PPT课件.ppt_第2页
《数据仓库开发模型》PPT课件.ppt_第3页
《数据仓库开发模型》PPT课件.ppt_第4页
《数据仓库开发模型》PPT课件.ppt_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章数据仓库开发模型 在创建数据仓库之时 需要使用各种数据模型对数据仓库进行描述 数据仓库的开发人员依据这些数据模型 才能开发出一个满足用户需求的数据仓库 使开发人员能够将注意力集中在数据仓库开发的主要部分 模型有更好的适应性 更易于修改 当用户的需求改变时 仅对模型做出相应的变化就能反映这个改变 数据仓库开发模型 2 1数据仓库开发模型2 2数据仓库概念模型2 3数据仓库逻辑模型2 4数据仓库的物理模型2 5数据仓库的元数据模型2 6数据仓库的粒度和聚集模型练习 2 1数据仓库开发模型 模型是对现实世界进行抽象的工具 在信息管理中需要将现实世界的事物及其有关特征转换为信息世界的数据才能对信息进行处理与管理 这就需要依靠数据模型作为这种转换的桥梁 这种转换一般需要经历 从现实到概念模型 从概念模型到逻辑模型 从逻辑模型到物理模型 数据仓库的设计就是在概念模型 逻辑模型和物理模型的依次转换过程中实现的 作为数据仓库的灵魂 元数据模型则自始至终伴随着数据仓库的开发 实施与使用 数据粒度和聚集模型也在数据仓库的创建中发挥着指导的作用 指导着数据仓库的具体实现 2 2数据仓库概念模型 2 2 1概念数据模型 数据仓库可以采用ER图作为概念设计框架 但是与具体的业务处理系统设计还是有所区别 数据仓库的数据模型中不包含操作型的数据 数据仓库的数据模型只包含用户所感兴趣的分析数据 描述数据和细节数据 数据仓库的数据模型扩充了关键字结构 增加了时间属性作为关键字的一部分数据仓库的数据模型中还增加了一些由基本数据所导出的衍生数据 这些导出的衍生数据主要用于对企业的管理决策进行分析 指标实体 事实实体 维度实体 详细类别实体 引用实体 为表述数据仓库所需的分析数据 描述数据和细节数据 反映时间属性 表现数据导出关系 将原ERD的实体分解为 事实实体 维实体和详细类别实体 5个基本特征 2 2 2规范的数据模型 第一范式 第二范式 第三范式数据仓库的反规范化处理 2 2 3星型模型 星型模型是最常用的数据仓库设计结构的实现模式 使数据仓库形成了一个集成系统 为用户提供分析服务对象 核心是事实表 围绕事实表的是维度表 通过事实表将各种不同的维度表连接起来 各个维度表都连接到中央事实表 例1某公司销售数据的星型模型 time keydayday of the weekmonthquarteryear time维表 location keystreetcitystate or provincecountry location维表 Sales事实表 time key item key branch key location key units sold dollars sold avg sales 度量 item keyitem namebrandtypesupplier type item维表 branch keybranch namebranch type branch维表 概念分层 例2超市营销数据仓库 2012年2月22 2 2 4雪花模型 雪花模型是对星型模型的扩展 每一个维度都可以向外连接到多个详细类别表 雪花模型对星型模型的维度表进一步标准化 对星型模型中的维度表进行了规范化处理 例 销售数据雪花模型 SalesFactTable time key item key branch key location key units sold dollars sold avg sales Measures 补充 事实星座模型 事实星座 Factconstellations 复杂应用可能需要多个事实表共享维表 这种模式可以看作星型模式的汇集 因此称为星系模式 galaxyschema 或者事实星座 factconstellation SalesFactTable time key item key branch key location key units sold dollars sold avg sales Measures ShippingFactTable time key item key shipper key from location to location dollars cost units shipped 2 3数据仓库逻辑模型 2 3 1事实表模型设计 1 事实表 1 客户事实表客户基本情况表 账号Integer9 姓名Character12 出生地Character20 初次交易时间Date 2 事实表中的事实特性事实表中一般包含两部分 一是由主键和外键所组成的键部分 另一是用户希望在数据仓库中所了解的数值指标 派生事实主要有两种 一是可以用同一事实表中其他事实计算得到 还有一类派生事实是非加法性事实 2 3 1事实表模型设计 3 设计原则通过调查确定所有可能的事实 派生事实按功能排序 删除重复事实基于不同准则但是有相同性质的派生事实确认计算派生事实的基本事实包含在模型中事实表尽可能小 2 3 2维模型设计 客户主题维度表模型时间维度表 年Date 月Date 日Date 地点维度表 省Character20 市Character20 县Character20 街道Character20 2 4数据仓库的物理模型 2 4 1数据仓库物理模型的存储结构确定数据的存储结构并行存储结构 RAID RedundantArrayofInexpensiveDisk 廉价冗余磁盘阵列 RAID RAID1级 RAID2级 RAID3级 RAID4级 RAID5级 2 4 2数据仓库物理模型的索引构建 位图索引 2 4 2数据仓库物理模型的索引构建 2 4 2数据仓库物理模型的索引构建 2 广义索引的构建3 连接索引 连接索引A agelevel id time idyear idmonth id geo idprov idcity idcounty id produ id agelevel idtime idgeo idprodu idamou mone agelevel idtime idyear idmonth idgeo idprov idcity idcounty idprodu idamou mone agelevel idtime idgeo idprodu id 全连接结果 time idgeo id 连接索引B 2 4 3数据仓库物理模型的优化问题 1 合并表 几个表的记录分散存放在几个物理块中时 多个表的存取和连接操作的代价会很大 2 建立数据序列 按照某一固定的顺序访问并处理一组数据记录 将数据按照处理顺序存放到连续的物理块中 形成数据序列 3 引入冗余 一些表的某些属性可能在许多地方都要用到 将这些属性复制到多个主题中 可以减少处理时存取表的个数 4 表的物理分割 每个主题中的各个属性存取频率是不同的 将一张表按各属性被存取的频率分成两个或多个表 将具有相似访问频率的数据组织在一起 5 生成派出数据 在原始数据的基础上进行总结或计算 生成派出数据 可以在应用中直接使用这些派出数据 减少I O次数 免去计算或汇总步骤 在更高级别上建立了公用数据源 避免了不同用户重复计算可能产生的偏差 2 5数据仓库的元数据模型 2 5 1元数据的类型与组成 元数据描述了数据的结构 内容 键 索引等项内容 在数据仓库中 元数据定义了数据仓库中的许多对象 表 列 查询 商业规则或是数据仓库内部的数据转移 元数据是数据仓库的重要构件 是数据仓库的指示图 roadmap 1 数据仓库的元数据重要性为数据仓库服务与DSS分析员及高层决策人员服务提供便利解决操作型环境和数据仓库的复杂关系数据仓库中数据的管理2 元数据在数据仓库开发期间的使用确认数据质量 同步化和刷新 映射3 元数据在数据源抽取中的作用资源领域的确定 跟踪历史数据结构变化的过程 属性到属性的映射 属性转换4 元数据在数据求精与重构工程上的作用数据的分割 概括与聚集 预算与推导 转换与再映像 2 5 2元数据在数据仓库中的作用 2 5 3元数据的收集 1 数据源的元数据2 数据模型的元数据3 数据源与数据仓库映射的元数据4 数据仓库应用的元数据 2 6数据仓库的粒度和聚集模型 粒度可定义成数据仓库中数据细节的最低层次 如事务层次 这种数据层次是高度细节化的 这样就能使用户按所需的任何层次进行汇总 根据粒度的划分标准可以将数据划分为 详细数据 轻度总结 高度总结三级或更多级粒度 粒度的具体划分将直接影响到数据仓库中的数据量以及查询质量 2 6 1数据粒度的划分 第一步 是估算数据仓库中将来要使用的数据行数和所需的直接存取存储设备数 每一个表的存储空间 应该是每一个表的数据存储空间和索引存储空间之和 2 6 2确定粒度的级别 考虑因素 要接受的分析类型 可接受的数据最低粒度和能存储的数据量 粒度的层次定义越高 就越不能在该仓库中进行更细致的分析 在同一模式中使用多重粒度 如果存储资源有一定的限制 就只能采用较高粒度的数据粒度划分策略 粒度的确定实质上是业务决策分析 硬件 软件和数据仓库使用方法的一个折衷 数据粒度划分策略一定要保证数据的粒度确实能够满足用户的决策分析需要 这是数据粒度划分策略中最重要的一个准则 2 6 3数据仓库的聚集模型确定 聚集数据主要是为了使用户获得更好的查询性能聚集模型设计时应该注意将聚集数据存储在其事实表中 并与其底层数据相区别 设计聚集模型时 首先需要考虑用户的使用要求 其次要考虑数据仓库的粒度模型和数据的统计分布情况 数据仓库的聚集模型的设计与数据仓库的粒度模型紧密相关建立聚集模型时还需要考虑作为聚集属性的数量因素 2 6 4聚集模型的处理 聚集事实表已经独立存在并且可以与基本事实表一同保存通过将当前加载数据添加到系统中的累积 桶 中将数据的聚集与数据仓库的加载过程组合为同一处理过程在将数据仓库数据加载以后 再进行聚集处理每次在加载数据仓库数据时 都需要对各种聚集进行计算和增加 及时保持聚集与基本数据的同步性 2 6 5聚集模型的管理 要根据使用情况删除不经常使用的聚集需要减少层次过于接近的聚集生成注意将聚集独立存储在自己的事实表中 数据仓库示例 SQL开发套件介绍数据仓库建立 AdventureWorksDW示例数据仓库介绍数据转换工具ETL介绍多维数据模型建立 SQL开发套件介绍 MicrosoftSQLServerManagementStudio数据仓库的物理实现SQLBusinessIntelligenceDevelopmentStudio数据的预处理 转换ETL项目多维数据集的建立 OLAP操作和数据挖掘AnalysisService项目SQL2005或2008开发版 AdventureWorksDW示例数据仓库介绍 主题划分 概念模型 销售主题 员工主题财务主题宏观环境 逻辑细分 数据仓库的建立 采用关系型数据库作为物理存储不需要建立数据表之间的联系在做OLAP和DM时用analysisservice项目建立多维数据模型 数据转换与清理 建一个简单ETL包 该包可以从单个平面文件源提取数据 使用两个查找转换组件转换该数据 然后将该数据写入AdventureWorksDW中的FactCurrencyRate事实数据表 了解包要求查看源查看目标将源数据映射为与目标兼容 数据转换与清理 创建新的IntegrationServices项目添加和配置平面文件连接管理器添加和配置OLEDB连接管理器添加一个数据流任务添加平面文件源组件添加并配置CurrencyKey查找转换添加和配置示例OLEDB目标运行回顾 多维数据集建立 在MicrosoftSQLServer2005AnalysisServices SSAS 中 可以方便地创建复杂的联机分析处理 OLAP 和数据挖掘解决方案 AnalysisServices工具提供了设计 创建和管理来自数据仓库的多维数据集和数据挖掘模型的功能 还提供对OLAP数据和数据挖掘数据的客户端访问 参考书目 AnalysisServices教程 第1课 在AnalysisServices项目中定义数据源视图1 1创建analysisservice项目1 2定义数据源1 3定义一个新的数据源视图1 4修改表的默认名称第2课 定义和部署多维数据集2 1定义多维数据集2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论