数据仓库和ETL学习笔记_第1页
数据仓库和ETL学习笔记_第2页
数据仓库和ETL学习笔记_第3页
数据仓库和ETL学习笔记_第4页
免费预览已结束,剩余4页可下载查看

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据仓库学习笔记1、维度表的特征(1 维度表键。维度表的主键可以唯一确定表的一行。(2 维度表很宽。一个典型的维度表会有相当多的属性/列。(3 文本属性。维度表中的属性一般是文本格式的。(4 非直接相关属性。维度表中的某些属性经常不会与其中的其他属性直接相关。(5 非规范化。规范化会导致维度表增多,查询效率降低。(6 上钻 /下钻。维度表中的属性提供了获取从高层次的汇总信息到低层次细节信息的能力。(7 多级层次结构。维度表通常会有多种多级层次结构,从而使钻取可以沿着这些多级层次结构中的任何一个进行。(8 更少的记录。维度表中的记录通常会比事实表中的记录数更少。2、事实表的特征(1 连接的事实表

2、主键。事实表中的一行记录与所有维度表中的相应记录相关。事实表中的主键必须是所有维度表主键连接起来的组合键。(2 数据颗粒。数据粒度是指标的细节程度。(3 完全加和指标。(4 半加和指标。如百分比。(5 表很长 ,但是不宽。通常事实表包含的属性比维度表更少。(6 稀疏的数据。并不是所有维度属性的组合都会出现在事实表中,没有对应的事实就不会出现在事实表中。(7 退化的维度。有些数字属性不是指标也不是事实,这种属性有些是参考数字,如订单数、发票号、订单流水号等,在某些类型的分析中是有用的。(8 不含事实的事实表。当事实表表示事件的时候会出现这种情况。3、星型模式的键(1 维度表的键要用代理键。(2

3、维度表的主键必须是事实表的外键。(3 事实表的主键有 3 中选择 :a 一个单独的复合主键 ,长度是维度表键长度的总和。这种情况下,除了复合主键外 ,外键必须作为附加的属性保存在事实表中。这种情况增加了事实表的大小。b 连接的主键 ,由维度表的主键连接而成。这样,就不需要将维度表的主键作为附加的属性以外键的形式存放在事实表中了。主键的每一个独立的部分都可以充当外键。c 一个生成的主键 ,与维度表的键无关。除了生成的主键外,所有外键都必须作为附加属性存放在事实表中。这种方式同样增加了事实表的大小。ETL 学习笔记1、ETL 工具能做什么 ?从领先厂商的多种关系型数据库中抽取数据从旧数据库、索引文

4、件和平面文件中抽取数据源字段和目标字段从一种格式向另一种格式进行的数据转换执行标准转换、重定义键和结构性变化提供从数据源到目标的检查轨迹抽取和转换中商业规则的应用将源系统中的几个记录组合成一个整合的目标记录元数据的记录和管理2、ETL 处理过程的主要步骤(1 决定数据仓库中需要的所有目标数据(2 决定所有的数据源 ,包括内部和外部(3 准备从源到目标数据元素的数据映像关系(4 建立全面的数据抽取规则(5 决定数据转换和清洗规则(6 为聚集表制定计划(7 组织数据缓存区域和检查工具(8 为所有的数据装载编写规程(9 维度表的 ETL(10 事实表的 ETL3、数据抽取的要点数据源确认 确认数据的

5、源系统和结构抽取方法 针对每个数据源 ,定义抽取过程是人工抽取还是基于工具抽取 抽取频率 对于每个数据源 ,确定数据抽取的频率 ,每天、每星期、每季度,等等。时间窗口 对于每个数据源 ,表示抽取过程进行的时间窗口。工作顺序 决定抽取任务中某项工作是否必须等到前面的工作成功完成才能开始。异常处理 决定如何处理无法抽取的输入记录。4、数据转换基本任务(1 选择 ,选择数据源 ,发生在整个数据转换过程的开始部分,通常构成了抽取功能本身的一部分。(2 分离 /合并 ,在数据转换过程中对部分源记录进行进一步分离操作。在数据仓库环境中 ,对很多源系统中选中部分的合并操作时更加普遍的现象。(3 转化 ,这是

6、一项包含一切的任务 ,它包括多种对单独字段的基本转化。(4 汇总 ,把低粒度的数据汇总。(5 丰富 ,对单个字段数据进行重新分配和简化的过程,使他们对数据仓库环境更有用。5、数据转换的主要类型(1 格式修正。如数据类型和字段长度。(2 字段解码。解决相同数据项用过多字段值描述的问题。如性别有的远系统用 1、2 表示 ,有的用 M 、F 表示。(3 计算值和导出值。(4 单个字段的分离。字段拆分。(5 信息的合并。将来自不同数据源的对同一实体的描述信息合并,成为一个新的实体。(6 特征集合转化(7 度量单位的转化。将不同标准的度量单位转换成相同的标准度量单位。(8 日期 /时间转化。将日期和时间

7、转换成统一格式。(9 汇总。创建装载数据仓库的汇总,而不是载入大部分的低粒度数据。(10 键的重新构造6、高质量数据的特征(1 准确性。存储在系统中的关于一个数据元素的值是这个数据元素的正确值。(2 域完整性。一个属性的数值在合理且预定义的范围之内。(3 数据类型。一个数据类型的值通常是根据这个属性所定义的数据类型来存储的。(4 一致性。一个数据字段的形式和内容在多个源系统之间是相同的。(5 冗余性。相同的数据在一个系统中不能存储在超过一个的地方。(6 完整性。系统中的属性不应该有缺失的值。(7 重复性。完全解决一个系统中记录的重复性的问题。(8 结构明确。在数据项的结构可以分成不同部分的任何

8、地方,这个数据项都必须包含定义好的结构。(9 数据异常。一个字段必须根据预先定义的目的来使用。(10 清晰。一个数据元素可能拥有数据质量的所有其他特征,但是如果用户不能清楚地了解它的含义 ,那么元数据对于用户就毫无含义。正确的命名习惯可以帮助用户更好地理解数据元素。(11 时效性。用户决定了数据的时效性。如果用户希望客户维度数据不要超过一天 ,那么源系统中的客户数据的变化就必须每天都应用到数据仓库中。(12 有用性。数据仓库中的每一个数据元素必须满足用户的一些需求。数据元素可能是正确的、高质量的 ,但是如果对于用户没有价值 ,那么数据仓库中的这个数据元素就是完全没用的。(13 符合数据完整性的

9、规则。源系统中的关系数据库中存储的数据必须符合实体完整性和及参照完整性。允许使用空值作为主键的任何数据表都不具备实体完整性。参照完整性迫使正确地建立父子关系。在一个客户和订单的关系中,参照完整性保证了数据库中一个客户所有订单的存在。7、数据质量问题类型列表(1 字段中的虚假值(2 数据值缺失(3 对字段的非正规使用。姓名字段不能放性别。(4 晦涩的值(5 互相冲突的值。源系统中有一些相关字段的值必须是兼容的。如地区和邮政编码必须匹配。(6 违反商业规则。如一年不能超过365 或 366 天。(7 主键重用。(8 标志不唯一。如同一个产品在销售系统和库存系统产品代码不一样。(9 不一致的值。如性别在不同的系统中编码不一样。(10 不正确的值(11 一个字段多种用途(12 错误的集成8、数据污染的来源(1 系统转换(2) 数据老化 (3) 复杂的系统集成 (4) 拙劣的数据库设计 ( 5)数据输入的不完整信息(6) 输入错误 (7) 国际化 /本地化 (8) 欺诈 ( 9)缺乏相关政策 9、数据清洗工具所能完成的一些典型的错误发现功能方便快捷地识别重复记录辨认出那些超出合法域值范围的数据项找出不一致的数据 检查允许值的范围检查不同来源的数据项的不一致

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论