




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据仓库(Data Warehouse)交流 数据仓库简介 数据仓库的设计 数据仓库的要素 数据仓库简介 什么是数据仓库 数据仓库,是在数据库已经大量存在的情况下,为 了进一步挖掘数据资源、为了决策需要而产生的, 它并不是所谓的“大型数据库”。数据仓库的方案 建设的目的,是为前端查询和分析作为基础,由于 有较大的冗余,所以需要的存储也较大。 数据仓库简介 数据仓库的目的 构建数据仓库环境是为了有组织地存储来自源系统 的历史数据。业务系统是为了特定需求构建的,比 如销售点处理、计费系统、库存控制等待。这些系 统往往不是企业的基础系统,不是为了数据分析或 数据挖掘而构建的。因此,为了企业整体使用,
2、必 须创建一个新的环境把这些系统的数据汇集到一个 集中式区域,即数据仓库系统。 数据仓库简介 如果没有数据仓库 数据仓库简介 具备了数据仓库 数据仓库简介 数据仓库的主要特点 1. 数据仓库是面向主题的,操作型数据库的数据面向事务的,而数据仓库中的数 据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心 的重点方面,一个主题通常与多个操作型信息系统相关。 2. 集成性:数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将 所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入 数据仓库;数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上 经过
3、系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据 仓库内的信息是关于整个企业的一致的全局信息。 3. 稳定性和时变性:存量的历史数据不会被频繁的更新,数据仓库不断接受增量 的数据。 数据仓库的设计 零售业数据仓库样例 数据仓库的设计 数据仓库的第一层Landing层 一般进入数据仓库的数据源是来自各个事实操作性系统,数据源 类型可以是不同格式的文本数据文件、存于不同后台库的表数据、 以及现在大数据要解决的一些非结构化数据(比如图片、视频) 等。 数据源导入到数据仓库的第一层,叫Landing层,也可以叫做贴源 层。 Landing层一般可以理解为数据缓冲层,用来接收源数据,在
4、一定 时间里Hold住源数据,一边后续处理,甚至重复处理,这些处理 可以完全独立于源系统。 数据仓库的设计 数据仓库的第一层Landing层 这一步的要点: a)数据落地前后要保持一致性,避免对数据进行复 杂的处理,以保证数据的快速导入而尽量减少对业 务系统的压力,这就要求做好相应的审计工作。 b)landing表里要标明数据的来源库。 数据仓库的设计 数据仓库的第二步Staging层 Landing层到Staging层主要是对数据进行必要的 清洗工作。 数据从landing流入staging后数据要在landing层 清除。 数据仓库的设计 数据仓库第三层Integration DW 该层作
5、为数据仓库的集成部分,可以叫中央数 据仓库,包含两种实体数据:事实数据(fact entity)、维度数据(dimension entity)。 Fact entity:它是对某个事物(可能是某一笔交易,某一个项目, 如一笔到货明细,某一个任务令)的各方面信息的描述,描述 行的属性包括:该事物各方面的度量信息,相关度量信息的维 度信息。 Dimension entity:维度数据。这里的维度要支持业务上的最细 粒度。要保证可以在最细粒度级别实现多维的分析。即能够支 持汇总数据以及明细数据的多维查询。 数据仓库的设计 数据仓库第四层数据集市(Data Mart) 它是面向主题领域的专业的多维数据
6、区。实现某一特定主题领域 的多维查询需求。这个部分也包括两个实体(FACT ENTITY和 DIMENSION ENTITY)两部分,但是与中央数据仓库不同的是这部 分的FACT ENTITY和DIMENSION ENTITY都是为某一主题服务的。 什么是主题? 主题和技术无关,是从业务角度出发,定义你分析的某个专业 方向,例如产品营销、物流、财务、HR、CRM等,这些业务板 块就是主题。 数据仓库的设计 数据的原子性 数据的原子性(atomic):数据的原子性指数据的 细化水平和粒度。数据的细化水平是原子性数据 水平,粒度是数据采集水平。 数据仓库的设计 数据仓库的服务目标用户业务层 数据仓
7、库最底层的数据集市所形成的数据维度一般是 直接面向于业务需求的。比如某个报表的数据已经在 某个表中被统计好,可直接从表中获取,不必通过多 个表之间的关联而取得目标数据。这样就大大提升了 报表的性能。 数据集市的数据能具备良好的颗粒度,能极好的支持 商业决策、数据分析、数据挖掘等工作。 报表技术的应用,比如Cube。 数据仓库的要素 维度、模型 主要模型:星型模型、雪花模型 维度变化的维护:直接覆盖、保留旧值 最底层数据要跟报表维度一致,以提高数据的提取性能 时间戳的应用 血缘关系、元数据 不同层次的数据之间的血缘关系要明了,要具备优良的任务调度机制 (Control-M),方便问题数据的追踪;元素据描素要清楚明了。 数据冗余、一致性 不同维度上的数据统计存在冗余现象,为了提高查询性能 不同维度表中的数据要保持一致 有时候数据的冗余为问题数据的查找提供了良好的条件。 数据仓库的要素 历史数据的维护 根据用户的业务需求,对历史数据做合理的维护,对不必要的历史数据进行 清理,以节省存储空间 增量的问题数据的处理 当某条增量数据所在的维度值未能在数据仓库中找到时,将此增量数据HOLD, 待下一次导数据的时候再验证。 可拓展性 针对新的业务需求,可在现有模型上扩展出新的模块点 主要技术 并行、分区、数据压缩 数据仓库的要素 具备
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 私教退款协议书
- 淮北拆迁协议书
- 短信群发协议书
- 汇川认购协议书
- 知识竞赛协议书
- 定点修理车辆协议书
- 实际股东分工协议书
- 生活助理协议书
- 皮带技术协议书
- 室内供暖维修协议书
- 钢结构屋顶安装高空作业协议
- 三年级上册语文按课文内容填空(附答案)
- 扬尘防治(治理)监理实施细则(范本)
- 《西方经济学》讲义教案完整版
- 2024年黑龙江省绥化市中考道德与法治试卷(含答案与解析)
- 电子商务那些事学习通超星期末考试答案章节答案2024年
- 2024年执业药师继续教育专业答案
- 2025届高考英语:阅读理解及完型常考重点高频(带音标)500词素材
- 2024年秋季新外研版三年级上册英语课件 Appendices Mulan
- 《世界是普遍联系的》名师课件
- 2024年五年级英语下册 Module 8 Unit 2 I made a kite教案 外研版(三起)
评论
0/150
提交评论