




已阅读5页,还剩27页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3章 数据仓库 系统的设计与开发 通过对数据仓库的概念、体系结 构与存储结构、ETL过程等内容了 解以后,如何建立数据仓库系统 呢? *1 数据仓库与数据挖掘 3.1 数据仓库系统的设计与开发概述 l建立一个数据仓库系统的参考步骤 l数据仓库系统的生命周期 l创建数据仓库系统的两种思维模式 l数据仓库数据库的设计步骤 Date2数据仓库与数据挖掘 建立一个数据仓库系统的参考步骤 数据仓库系统的建立是一个复杂而漫 长的过程。涉及到: l源数据库系统 l数据仓库对应的数据库系统 l数据分析与报表工具 l Date3数据仓库与数据挖掘 建立一个数据仓库系统的参考步骤 l收集和分析业务需求步骤 l建立数据模型和数据仓库的物理设计 l定义数据源 l选择数据仓库技术和平台 l从操作型数据库中抽取、清洗及转换数据到 数据仓库 l选择访问和报表工具,选择数据库连接软件 ,选择数据分析和数据展示软件 l更新数据仓库 Date4数据仓库与数据挖掘 数据仓库系统的生命开发周期 l数据仓库系统的开发与设计是一个动态的反 馈和循环过程。 l一个数据仓库系统包括: 数据仓库数据库 数据分析应用系统 Date5数据仓库与数据挖掘 数据仓库系统的生命开发周期 Date6数据仓库与数据挖掘 建立数据仓库系统的两种思维模式 l自顶向下(Top-down) 将数据通过ETL汇集到数据仓库中,然后再把 数据通过复制的方式存入各个数据集市中。 l自底向上(Bottom-Up) 通过ETL将数据汇集到数据集市中,再 将数据汇集到数据仓库中。 Date7数据仓库与数据挖掘 数据仓库数据库的设计步骤 Date8数据仓库与数据挖掘 3.2 基于SQL Server的数据仓库数 据库设计过程详解 lSQL Server 2005介绍 集成了三个服务。 lSQL Server 2005的数据仓库架构 Date9数据仓库与数据挖掘 MS SQL Server 2005的数据仓库架构 Date10数据仓库与数据挖掘 3.2 基于SQL Server的数据仓库数 据库设计过程详解 包括以下步骤: l分析组织的业务状况及数据源结构 l组织需求调研,收集业务需求 l采用信息包图法进行数据仓库的概念模 型设计 l利用星形图进行数据仓库的逻辑模型设 计 l数据仓库的物理模型设计 Date11数据仓库与数据挖掘 分析组织的业务状况及数据源结构 以SQL Server 2005实例数据库 Adventure Works DW中所描述Adventure Works Cycles公司的用户需求为例。 公司概况 业务系统流程介绍 对数据源结构的分析与理解 Date12数据仓库与数据挖掘 组织需求调研,收集业务需求 坚持数据驱动+用户(需求)驱动的设 计理体念,因此需要充分了解用户的需求, 进而对需求进行分析。 l关于用户需求的调研(确定主题域) l对用户需求调研结果的分析(确定度量 指标和维度) Date13数据仓库与数据挖掘 物理模型 星型、雪花模型 物理数据模型 概念模型 逻辑模型 面向用户的需求 细 化 层 次 更详细的 技术细节 信息包图 采用信息包图法进行概念模型设计 Date14数据仓库与数据挖掘 信息包图:是数据仓库的数据模型的第一层信息包图:是数据仓库的数据模型的第一层 或最高层。由于大多数商务数据是多维的,或最高层。由于大多数商务数据是多维的, 但传统的数据模型表示三维以上的数据有一但传统的数据模型表示三维以上的数据有一 定困难。而信息包图简化了这一过程并且允定困难。而信息包图简化了这一过程并且允 许用户设计多维信息包并与开发者和其他用许用户设计多维信息包并与开发者和其他用 户建立联系。这种模型集中在用户对信息包户建立联系。这种模型集中在用户对信息包 的需要,信息包提供了分析人员思维模式的的需要,信息包提供了分析人员思维模式的 可视化表示。可视化表示。 l信息包图法简介 Date15数据仓库与数据挖掘 工作:工作: 确定系统边界:决策类型、需要的信息、原确定系统边界:决策类型、需要的信息、原 始信息始信息 确定主题域及其内容:主题域的公共键码、确定主题域及其内容:主题域的公共键码、 联系、属性组联系、属性组 确定维度:如时间维、销售位置维、产品维确定维度:如时间维、销售位置维、产品维 、组别维等、组别维等 确定类别:相应维的详细类别确定类别:相应维的详细类别 确定指标和事实:用于进行分析的数值化信确定指标和事实:用于进行分析的数值化信 息息 Date16数据仓库与数据挖掘 l信息包图的建立 信息包:信息包: 维度维度 类别类别 空白信息包图样式空白信息包图样式 指标和事实 Date17数据仓库与数据挖掘 例例试画出销售分析的信息包图。试画出销售分析的信息包图。 解:首先根据销售分析的实际需求,确定信息包的解:首先根据销售分析的实际需求,确定信息包的 维度、类别和指标与事实:维度、类别和指标与事实: (1 1)维度:包括日期维、区域维、产品维、客户维)维度:包括日期维、区域维、产品维、客户维 、广告维(待用)等。、广告维(待用)等。 (2 2)类别:确定各维的详细类别,如:日期维包括)类别:确定各维的详细类别,如:日期维包括 年(年(5 5)、季度()、季度(2020)、月()、月(6060)、日()、日(18001800),), 括号中的数字分别指出各类别的数量;区域维包括括号中的数字分别指出各类别的数量;区域维包括 国家(国家(1010)、省州()、省州(100100)、城市()、城市(500500)、销售点)、销售点 (80008000),括号中的数字同样分别指出各类别的数),括号中的数字同样分别指出各类别的数 量;类似地,可以确定量;类似地,可以确定产品维、客户维、广告维产品维、客户维、广告维等等 的详细类别。的详细类别。 (3 3)指标和事实:确定用于进行分析的数值化信息)指标和事实:确定用于进行分析的数值化信息 ,包括实际销售额、计划销售额和计划完成率。,包括实际销售额、计划销售额和计划完成率。 Date18数据仓库与数据挖掘 销售分析的信息包图销售分析的信息包图 日期维区域维产品维客户维广告维( 待用) 年度(5)国家(10)产品类别(500)年龄分组(7)广告费分组 (2) 季度(20)省州(100)产品名称 (9000) 收入分组(8 ) 月(60)城市(500)信用组(2) 日(1800 ) 销售点(8000) 指标和事实:实际销 售额、计划销售额、计划完成率 信息包: 销售分析 维度 类别 Date19数据仓库与数据挖掘 l设计基于主题域的概念模型 供应商 ID 相关 信息 有关信息 商品信息 供应商 供应商主题 顾客 顾客ID 顾客主题 商品 商品ID 商品主题 Date20数据仓库与数据挖掘 利用星形图进行数据仓库的逻辑模 型设计 l根据分析需求与信息包图制作星形图 销售分析 客户 广告区域 时间产品 Date21数据仓库与数据挖掘 l根据分析需求与信息包图制作雪花图 销售分析 客户 广告区域 时间产品 产品类 别 雪花模型对星型模型的维度表进一步标准化,对星型 模型中的维度表进行了规范化处理。 Date22数据仓库与数据挖掘 l确定主题的属性组 主题名公共键 码 属性组 商品商品号基本信息:商品号、商品名、类型和颜色等 采购信息:商品号、供应商号、供应价、供应日期 和供应量等 库存信息:商品号、库房号、库存量和日期等 销售销售单号基本信息:销售单号、销售地址等 销售信息:客户号、商品号、销售价、销售量和销 售时间 等 客户客户号 Date23数据仓库与数据挖掘 l事实表及其特征 度量是客户发生事件或动作的事实记录,如客 户打电话,可能选择的度量有通话时长、通话次数 和通话费用等。客户购买商品,可能选择的度量有 购买的次数、购买商品的金额和购买商品的数量等 。 事实表则是在星型模型或雪花模型中用来记录 业务事实,并作相应指标统计的表。 事实表的特征有: 记录数量情况 维度表情况Date 24数据仓库与数据挖掘 l事实表的类型与设计 事实是一种度量,所以事实表中的这种指标往往 需要具有数值化和可加性的特征。即: 要考虑决策分析的需要(必要的数据) 要考虑系统运行的需要(派生的数据) Date25数据仓库与数据挖掘 l粒度的选择与设计步骤 根据需求和系统运行情况确定粒度: 粒度的不同选择导致逻辑模型的差异 粒度的不同选择导致数据存储容量的差异 粒度的设计步骤: 粗略估计数据量 确定粒度的级别 粒度设计实例: Date26数据仓库与数据挖掘 l关于数据仓库的聚合模型 l数据的分割处理 l星形图中的维度表简介 l常用维度的设计模式 Date27数据仓库与数据挖掘 l事实表及其特征 l事实表的类型与设计 l粒度的选择与设计步骤 l关于数据仓库的聚合模型与数据的分割处 理 l星形图中的维度表简介 l常用维度的设计模式 Date28数据仓库与数据挖掘 数据仓库的物理模型设计 l物理模型设计的主要工作 l物理存储结构设计的原则 l数据仓库索引设计的特殊性 l存储优化与存储策略 Date29数据仓库与数据挖掘 3.3 使用SQL Server 2005建立多 维数据模型 lSQL Server 2005示例数据仓库环 境的配置与使用 l基于SQL Server 2005示例数据库 的多维数据模型的建立与应用 。 Date30数据仓库与数据挖掘 3.3 使用SQL Server 2005建立多 维数据模型 l在SQL Server 2005数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 第六章 几何图形初步提能集训(含答案)2025-2026学年数学人教版(2024)七年级上册
- 1.3.3 植物体的结构层次练习题(含答案)人教版(2024)生物学七年级上册
- 用电安全知识培训课件效果
- 《ABB工业机器人虚拟仿真技术》(1+X) 课件 任务5.2 动态输送链参数设置
- 生物制药安全知识培训总结课件
- 急性间歇性卟啉病腹痛护理查房
- 2025年英语四六级考试翻译真题解析模拟试卷
- 2025年秋季初级经济师职业资格考试 经济基础知识核心考点深度解析
- 2025至2030中国医疗保健期间行业产业运行态势及投资规划深度研究报告
- 酒体设计考试题库及答案
- 人教版小学数学2年级下册课时练无答案+单元测试题+期中期末检测卷(含答案)
- 西南大学2022-2023学年本科教学质量报告
- 督灸技术课件
- 护理查房及病例讨论
- 提升教师专业素养与综合能力的培训
- 人力资源顾问服务合同范本正规范本(通用版)
- 电土施表1-6 专业绿色施工、节能减排管理措施和实施记录
- 幼儿园多媒体课件设计与制作第2版(高职学前教育专业)全套教学课件
- 单位消防安全管理应知应会参考题库300题(含答案)
- 读书分享读书交流会《中国民间故事》
- ISO45001职业健康安全管理体系课件
评论
0/150
提交评论