数据仓库中的维度与粒度.ppt_第1页
数据仓库中的维度与粒度.ppt_第2页
数据仓库中的维度与粒度.ppt_第3页
数据仓库中的维度与粒度.ppt_第4页
数据仓库中的维度与粒度.ppt_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

4 1粗略估算 计算数据仓库占用空间的方法 第一步 确定数据仓库中将要创建的所有表第二步 估计一年内可能的最少行数与最多行数第三步 估计五年内可能的最少行数与最多行数第四步 估计索引数据占用的空间第五步 计算空间一年总的最大空间 最大行大小 一年内最大行数一年总的最小空间 最小行大小 一年内最小行数另外 考虑备份和恢复所需要的空间估算结果的准确程度只需要达到数量级 4 3溢出存储器 应该考虑五年后如下因素 有更多的技术管理大量数据硬件费用下降功能更强大的软件工具最终用户更加专业化 4 3溢出存储器 历史数据与细节数据造成了数据的显著增长根据数据使用频率 可将数据分为二类 经常使用的数据不经常使用的数据 睡眠数据 解决方案 睡眠数据转移至海量备用存储器或近线存储器常用的溢出存储器可分为 低性能的磁盘存储器近线存储器串行磁带 4 4确定粒度级别 一方面 合理推测粒度级别确定粒度还需要通过一定量的反复分析 根据用户反馈不断改进另一方面 预测不同体系结构的需求数据仓库中的数据需要处于最低的公共细节水平 4 5反馈技巧 提高数据粒度的方法 数据进入数据仓库时 进行汇总数据进入数据仓库时 求平均值数据集的最大 最小值放入数据仓库只放入显然需要的数据用条件逻辑选择需要的数据系统需求了解到50 左右时即可以开始建造数据仓库当正常的业务事务记录准备放入数据仓库时 高粒度级别的数据可能需要分解到低粒度级别 而对于一些低粒度级的数据 如生产过程控制 网络环境中产生的点击流数据等 必须对数据进行编辑 重新排序和汇总等处理 4 6填充数据集市 数据粒度需要考虑的另一重要因素 用于填充数据集市数据仓库中的数据粒度必须是任何数据集市所需要数据中的最小粒度 维度设计 维度表 维度表是事实表不可分割的伴侣维度表倾向于将行数做得相当少 通常 100万行 而将列数做得特别大数据仓库的能力与维度的质量和深度成正比一个用户要按星期与商标来查看销售额 星期与商标就必须是可的维度属性 维度内容 维度属性是查询的约束条件 分组与报表标签生成的基本来源每个维度用单一的主关键字进行定义 主关键字是确保与之相连的事实表存在完整性的基础 非直接相关属性产品 包裹大小与品牌非规范化很多维度变化很缓慢多级层次结构维度表通常有多种多级层次结构 维度中的文本与数字 维度应当是文本和离散的尽量使用详细的文本信息取代编码数字属性放入维度表还是事实表应当看它是一个含有许多取值并参与运算的度量 应放入事实表 还是变化不多并参与约束条件的离散取值 应放入维度表 产品尺寸 维度表产品生产成本 事实表 事实表的内容 事实表的主键是所有维度表主键的组合键主要是数字属性表很长 但不宽稀疏的数据假期记录可能为空退化的维度既不是事实也不是维属性的数据元素如发票号 订单号等 粒度设计 原子数据应成为每个事实表设计的基础好处 可以只通过添加维度 满足新的查询要求商场的最佳维度应是POS事务的单列项促销效果 限时打折都需要低粒度数据 事实表设计 毛利润 销售 成本 在已有销售和成本字段的情况下 是否应物理存储毛利润字段 应存储减少用户出错便于生成报表 例 业务数据的E R图 E R图向多维表的转换该问题的多维表模型中 商品维包括部门 商品和商品大类 地点维包括地区和商店 忽略存货 而只注意销售事实 在E R图中不出现的时间 在多维模型中增加时间维 在多维模型中 实体与维之间建立映射关系 联系多个实体的实体就成为事实 此处销售实体作为事实 其他实体作为维 然后用维关键字将它转换为星型模型 如图所示 E R图向多维模型的转换 利用维关键字制定的星型模型 在各维中 只有部门 商品类 地区 商店的编号没有具体的说明 为了打印报表将增加这些编号的名称说明 即部门名 商店名等 在维表中增加这些说明 即修改该星型模型 修改后的星型模型 产品维度表 产品关键字 PK 产品描述 商标描述 分类描述 部门描述 包装类型 包装尺寸 重量 储藏类型 货架类型 货架高度 货架深度 产品维度表每行都有与产品相关的商标与分类 有冗余但易于使用 日期维度 日期关键字 日期描述 星期 年历月 年历周 年历日 月编号 周编号 日编号 财政日 财政月 周末指示

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论