




已阅读5页,还剩41页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第4章数据仓库的设计与开发(二),2,4.2数据仓库开发4.3数据仓库技术与开发的困难,3,4.2数据仓库开发,4.2.1数据仓库开发过程4.2.2数据质量与数据清洗4.2.3数据粒度与维度建模,4,4.2.1数据仓库开发过程,4.2.2.1分析与设计阶段4.2.1.2数据获取阶段4.2.1.3决策支持阶段4.2.1.4维护与评估阶段,需求分析,数据装载,信息查询,概念设计,逻辑设计,物理设计,数据抽取,数据转换,知识探索,数据仓库增长,数据仓库维护,数据仓库评估,决策支持,数据获取,分析与设计,维护与评估,数据仓库开发过程,6,4.2.1.1分析与设计阶段,1.需求分析2.概念设计3.逻辑设计4.物理设计,7,1.需求分析,确定决策主题域分析主题域的商业维度分析支持决策的数据来源确定数据仓库的数据量大小分析数据更新的频率确定决策分析方法,8,2.概念设计,建立概念模型:对每个决策主题与属性以及主题之间的关系用E-R图模型表示。E-R图将现实世界表示成信息世界,便利向计算机的表示形式进行转化。,9,3.逻辑设计,将概念模型(E-R图)转换成逻辑模型,即计算机表示的数据模型。数据仓库数据模型一般采用星型模型。星型模型由事实表、维表组成。,10,4.物理设计,对逻辑模型设计的数据模型确定物理存储结构和存取方法。数据仓库的星型模型在计算机中仍用关系型数据库存储。物理设计还需要进行存储容量的估计;确定数据存储的计划;确定索引策略;确定数据存放位置以及确定存储分配。,11,4.2.1.2数据获取阶段,1.数据抽取2.数据转换3.数据装载,12,1.数据抽取,对数据源的确认,确定数据抽取技术,确认数据抽取频率,按照时间要求抽取数据。由于源系统的差异性,如计算机平台、操作系统、数据库管理系统、网络协议等的不同造成了抽取数据的困难。,13,2.数据转换,数据格式的修正字段的解码单个字段的分离信息的合并变量单位的转化时间的转化数据汇总,14,3.数据装载,初始装载:第一次装入数据仓库。增量装载:根据定期应用需求装入数据仓库。完全刷新:完全删除现有数据,重新装入新的数据。,15,4.2.1.3决策支持阶段,1.信息查询2.知识探索,16,1.信息查询,信息查询者使用数据仓库能发现目前存在的问题。创建数据阵列将相关的数据(每月的数据)放在同一个物理位置上。预连接表格对于两个或多个表格共享一个公用链。,17,预聚集数据以每天为基础存储数据。在一周结束时,以每周为基础存储数据(即累加每天的数据)。月末时,则以每月为基础存储数据。聚类数据聚类将数据放置在同一地点,这样可以提高对聚类数据的查询。,18,2.知识探索,发现的问题并找出原因。创建一个单独的探索仓库,不影响数据仓库的常规用户。同时采用“标识技术”进行数据压缩,提高数据分析速度。使用一些模型帮助决策分析,例如客户分段、欺诈监测、信用分险、客户生存期、渠道响应、推销响应等模型。通过模型的计算来得出一些有价值的商业知识。,19,采用数据挖掘工具来获取商业知识。例如,得到如下一些知识:哪些商品一起销售好?哪些商业事务处理可能带有欺诈性?高价值客户的共同点是什么?获取的知识为企业领导者提供决策支持,达到保留客户,减少欺诈,提高公司利润具有重要作用。,20,4.2.1.4维护与评估阶段,1.数据仓库增长2.数据仓库维护3.数据仓库评估,21,1.数据仓库增长,数据仓库建立以后,随着用户的不断增加,时间的增长,用户查询需求更多,数据会迅速增长。在数据仓库的开发过程中需要适应数据仓库不断增长的现实。,22,2.数据仓库维护,适应数据仓库增长的维护数据增长的处理工作有:去掉没有用的历史数据;根据用户使用的情况,取消某些细节数据和无用的汇总数据,增加些实用的汇总数据。,23,正常系统维护,数据仓库的备份和恢复。备份数据为系统恢复提供基础,一旦系统出现灾难时,利用备份数据可以很快将数据仓库恢复到正常状态。,24,3.数据仓库评估,(1)系统性能评定(2)投资回报分析(3)数据质量评估,25,(1)系统性能评定,硬件平台是否能够支持大数据量的工作和多类用户、多种工具的大量需求?软件平台是否是用一个高效的且优化的方式来组织和管理数据?是否适应系统(数据和处理)的扩展?,26,(2)投资回报分析,定量分析:计算投资回报率(ROI),即收益与成本的比率。定性分析:企业与客户之间关系状态?对机会快速反应能力如何?改善管理能力如何?,27,(3)数据质量评估,数据是准确的。数据符合它的类型要求和取值要求。数据具有完整性和一致性。数据是清晰的且符合商业规则。数据保持时效性并不能出现异常。,28,4.2.2数据质量与数据清洗,1.数据质量问题2.数据污染产生的原因3.数据清洗,29,1.数据质量问题,(1)字段中的虚假值。(2)数据值缺失。(3)不一致的值。(4)违反常规的不正确值。(5)一个字段有多种用途。(6)标法不唯一。,30,2.数据污染产生的原因,(1)系统转换(2)数据老化(3)复杂的系统集成(4)数据输入的不完整信息(5)输入错误(6)欺诈(7)缺乏相关政策,31,3.数据清洗,只清洗那些重要的数据,而忽略那些不重要的数据。数据在被存储进数据仓库之前就应该进行清洗。找到适合源系统的字段和格式的清洗工具。建立数据质量领导小组;建立数据质量政策和标准;定义质量指标参数和基准;识别受坏数据影响最大的商业功能。对有较大影响力的数据元素定制清洗计划,并执行数据清洗。,32,4.2.3数据粒度与维度建模,数据粒度是指数据仓库的数据中保存数据的细化程度或综合程度的级别。数据粒度深深影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答的查询类型。,33,1.大维度与雪花模型,在数据仓库中,客户维度和产品维度是典型的大维度。大维度表采用雪花模型的数据组织,是一种有效的方法。对产品维度,产品是分属于产品品牌,品牌又分属于产品分类。对客户维度,客户分属于地区,地区分属于国家。对于销售的雪花模型如图4.11所示。,图4.11销售事实的雪花模型,35,2.综合事实表,大多数查询不是基于基础事实表上操作的,而是基于综合数据的查询。这样建立综合事实表是提高综合数据查询的非常有效的方法,且大大提高数据仓库的性能。在多维表中,很多维都是具有层次结构,对不同维的层次的提升,将可建立多种综合事实表。从图4.12可见,对基础事实表查询利用产品维表,对综合事实表查询,利用产品分类维表。,销售事实表(基础表),图4.12综合事实表和衍生维度(产品分类)表,37,4.3数据仓库技术与开发的困难,4.3.1数据仓库技术4.3.2数据仓库开发的困难,38,4.3.1数据仓库技术,1.管理大量数据对于数据仓库最重要的技术就是能够管理大量的数据。数据仓库要管理大量的数据,是因为它们:(1)包括粒状的、原子的细节(2)包括历史数据(3)包括细节和汇总数据(4)包括元数据有好多种管理大量数据的方法通过寻址,通过索引,通过数据的外延,通过有效的溢出管理等,39,2.数据的高效装入和数据压缩,数据仓库的一个重要的技术就是能够高效地装入数据。有好多种装入数据的方法:通过一个语言接口一次一条记录。当数据能够被压缩时,它便能存储在很小的空间中。,40,3.存储介质的管理,存储介质访问速度存储费用,主存非常快非常贵扩展内存非常快贵高速缓存非常快贵磁盘快适中光盘不慢不贵微缩胶片慢便宜,考虑到访问速度和存储费用,对数据的存储要分层次,层次的区分如下:,41,8.多维DBMS和数据仓库,多维数据库管理系统(多维DBMS)使得对数据的访问非常灵活,可以用多种方法对数据进行切片、分割,动态地考察汇总数据和细节数据的关系。,42,数据仓库和多维DBMS的区别:(1)数据仓库有大量的数据;多维DBMS中的数据至少要少一个数量级。(2)数据仓库只适合于少量的灵活访问;而多维DBMS适合大量的非预知的数据的访问和分析。(3)数据仓库内存储了很长时间范围内的数据从5年到10年;多维DBMS中存储着比较短时间范围内的数据。(4)数据仓库允许分析人员以受限的形式访问数据,而多维DBMS允许自由的访问。,43,决策支持系统(DSS)分析者大部分时间里可以在多维DBMS中享受其操作高效的优点,同时如果需要的话,还可以向下钻取最低层次的细节数据。一些多维DBMS建立
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年网络安全保密服务合同:全面保障企业信息资产安全
- 2025年绿色校园建筑节能改造材料采购与安装工程合同规范
- 2025年度可再生能源项目环境影响评估服务合同
- 2025年垂钓鱼塘水域资源保护与开发合作协议
- 2025年外贸市场拓展与品牌国际化战略规划合同
- 2025年度商务酒店健身设施维护与管理服务外包合同
- 2025年校园健康直饮水系统环保材料采购、安装及后期维保合同
- 2025年待办房产证二手房买卖暂不转移产权合同
- 2025年冷链运输安全监管与保险服务合同汇编
- 2025年新能源项目投资保密协议:绿色能源产业版
- 湖北省武汉市2024-2025学年高一上学期入学分班考试 数学模拟卷
- 小学语文课本1至6年级古诗词大全
- 金川公司社招历年考试题
- 阴道镜检查图谱
- 医院培训课件:《静脉血栓栓塞症(VTE)专题培训》
- GB/T 43933-2024金属矿土地复垦与生态修复技术规范
- 医废管理与处置的实际操作手册与指南
- 义齿工厂开设策划方案
- (完整版)中医适宜技术课件
- 患者隐私保护培训课件1
- 中国老年危重患者营养支持治疗指南(2023版)解读
评论
0/150
提交评论