版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、周树峰,聊城大学数学科学学院,1。第二章数据仓库的基本特征、周树峰,聊城大学数学科学学院,2。内容2.1,业务系统和决策支持系统2.2,数据仓库的数据源2.3,数据仓库的事实数据2.4,数据仓库的多维数据模型2.5,数据仓库中的关键术语2.6,数据仓库的数据组织2.7,数据仓库建立的典型过程、周树峰,聊城大学数学科学学院,3.1。业务系统和决策支持系统业务系统:促进企业日常运作的系统小李今天值日吗?小王的数据结构的结果是什么?检查每个学生的课程选择?这个月的手机费是多少?欧洲的销售情况如何?4,决策支持系统的演变,信息需求从信息检索到知识发现的变化,今年温哥华的销售额是多少?职员和客户,是什么
2、导致了今年销售额的增长?聊城大学数学科学学院的商业用户周树峰,我明年的预计销售额是多少?分析师、周树峰,聊城大学数学科学学院,5。决策支持系统的进化被数据淹没了,但是VLDB渴望知识的知识发现,太多的数据,有价值的知识、6。报告周树峰,聊城大学数学科学学院,决策者,决策支持系统的演化自然演化体系结构针对决策者的即时信息需求,直接从OLTP系统生成报告会使DBA忙,OLTP负载过重!特别接入需求生成平台。决策支持系统的演化自然演化体系结构从联机事务处理中提取决策者常用的数据,并单独进行物理存储,解决了联机事务处理系统负载过重的问题。提取数据周树峰,OLTP,决策者,8,决策支持系统的演化自然演化
3、体系结构提取的数据有太多层次的Otawa,导致蜘蛛网问题,从而导致一系列问题。周树峰,OLTP,决策者,周树峰,聊城大学数学科学学院,9,决策支持系统的演化,自然演化体系结构问题,IT人员忙碌,蜘蛛网问题,数据缺乏可信性,生产率问题,从数据到信息转换的不可行性,10,决策支持系统的演化数据仓库的生成为决策者建立了一个集成的数据源数据仓库。数据仓库周树峰,聊城大学数学科学学院,内部数据和外部数据,决策者,周树峰,聊城大学数学科学学院,11。业务系统和决策支持系统具有更广阔、更全面的视野,在更长的时间内做出更有利的决策;例如,今年东部地区每种产品的周装运量是多少?2005年每个季度的销售额是多少?
4、三个包装中哪一个卖得最好?与2004年相比,2005年哪种产品销量最大?下季度如何采购商品?明年的原材料采购计划?12,2。数据仓库的数据来源传统商务系统、ERP系统、电子商务系统、数字、据周树峰、决策、政策支持、周树峰、13、ERP系统企业资源计划、企业资源计划(ERP)是美国著名的计算机技术咨询与评估集团嘉德集团(Garter Group Inc .)在20世纪90年代初提出的一套企业管理系统标准。它是指基于信息技术的管理平台,为企业决策者和员工提供具有系统管理思想的决策手段。企业资源规划系统也是一个交易系统,但是它的数据结构非常标准。与贸易伙伴使用企业资源规划系统的处理效率将会更高,企业
5、内部供应链中的垂直沟通将会得到改善。周树峰,聊城大学数学科学学院,14。电子商务系统电子商务企业对企业(B2B)电子商务系统包括:内部网和互联网;这些系统都是基于电子数据交换的。XML文档(可扩展标记语言),周树峰,聊城大学数学科学学院,15,周树峰,聊城大学数学科学学院,3。数据仓库的事实数据维度表、事实16表、聊城大学数学科学学院周树峰,17、维度表和事实表维度表:这些维度构成了业务交易的基本实体。事实表:一个关系表,它将多维模型映射到关系模型,并在纬度交叉点记录测量信息。周树峰,聊城大学数学科学学院,18,4。数据仓库的多维数据模型数据立方体:又称多维数据集,是维度的交叉点;经典的立方体
6、有三个维度:产品、时间和地点;它可以用多维数组表示(纬度1,纬度2,纬度3,纬度n,测量值);超立方体:当纬度值为n3时称为超立方体;数据立方体,1998 1999 2000周树峰,聊城大学数学科学学院,上海,广州,时间(年)19,产品计算机冰箱电视,位置,周树峰,聊城大学数学科学学院,20产品纬度,时间纬度,地理纬度,销售事实,聊城大学数学科学学院,周树峰,22,5。数据仓库1中的关键术语。数据提取从数据仓库的角度来看,业务数据库中的数据并非都是决策支持所必需的。一般来说,数据是根据分析的主题来组织的。例如,如果超市决定建立以分析顾客购买行为为主题的数据仓库,只需要提取与顾客购买行为相关的数
7、据,而超市服务人员的数据是不必要的;提取方法:通常使用选择、插入和其他语句。周树峰,聊城大学数学科学学院,23。数据提取要经过许多步骤:从外部或内部源数据系统中为决策支持系统的用户获取有用的数据。过滤:过滤掉不想要的内容。验证:从决策支持系统用户的角度验证数据的质量。融合:融合这次提取的数据仓库中的数据。合成:合成数据以生成汇总数据。加载:将新数据加载到数据仓库中。存档:将新加载的数据保存为文件,以减少更新操作所需的数据量。周树峰,聊城大学数学科学学院,24。注意:所有现有的数据仓库方案都有数据抽取功能;然而,当提取和转换过于复杂时,用户需要编写自己的提取程序。SQL 2008可接受第三方抽取
8、程序(程序是按照OLE DB格式编写的),周树峰,聊城大学数学科学学院,25,数据仓库中的关键术语(续)2。数据清理和转换清理:在进入数据仓库之前,纠正或删除错误和不一致的数据,以免影响决策支持系统的正确性;因为企业往往针对不同的应用对象建立不同的业务数据库,如电信公司:计费数据库、会计数据库、客户数据库、客户投诉数据库等。不同的数据库可能会使用不同数据库公司的产品,因此相同的数据在不同的数据库中会不一致,并且在传输到数据仓库之前必须进行转换。周树峰,聊城大学数学科学学院,26。数据仓库中的关键术语(续)3。外部来源是指从系统外部获得的与分析主题相关的数据;为了做出好的决策,我们不仅需要系统内
9、部的信息,还需要系统外部的相关信息。例如,超市的采购部应该确定采购清单,不仅要了解超市产品的销售情况,还要了解市场上各种商品的价格水平和质量水平以及竞争对手的采购信息。因此,一个好的决策支持系统必须综合考虑系统的内部和外部数据。周树峰,聊城大学数学科学学院,27岁。数据仓库中的关键术语(续)4。数据:内部数据和外部数据。元数据:描述数据的数据,为数据提供环境。有两种类型的数据仓库元数据:一种是为了从操作环境转换到数据仓库环境,另一种是为了与最终用户的多维业务模型和前端工具进行映射。6.提取日志提取日志详细记录了数据的来源和数据转换的过程,是数据仓库元数据的重要组成部分。周树峰,聊城大学数学科学
10、学院,28,6。数据仓库1的数据组织。虚拟存储模式下的数据存储没有专门的数据仓库,数据仓库中的数据仍然在源数据库中。只需根据用户的多维需求和形成的多维视图,在源数据库中临时找出所需数据,完成多维分析。优点:组织简单,成本低,使用灵活;缺点:虚拟数据仓库的多维语义只有在源数据库的数据组织标准化,没有不完整和冗余的数据,并且接近多维数据模型时才能很容易定义。然而,在一般的数据库应用程序中,这是很难实现的。周树峰,聊城大学数学科学学院,29,6。数据仓库的数据组织2。数据仓库中的数据存储在基于关系表的关系表中,数据仓库的功能在元数据的管理下完成。3.多维数据库组织是一种直接面向OLAP分析操作的数据
11、组织形式。这个数据库有很多产品,它们的实现方法是不同的。数据组织采用多维数组结构进行数据存储,并有与数据对应的维度索引和相应的元数据管理文件。周树峰,聊城大学数学科学学院,30,6。数据仓库的数据组织结构,元数据,备份数据,备份数据,备份数据,高度综合级,轻度综合级,当前详细级,早期详细级,周树峰,聊城大学数学科学学院,31,最近3个月,2005年1月3日,客户,呼叫详细数据,2000年家庭呼叫信息,2000-2005年季度客户和家庭呼叫信息,2000-2005年年度客户和家庭呼叫信息,2005年呼叫详细数据状态/3以前数据仓库数据2000-2005年季度客户和住户电话信息,2000-2005
12、年年度客户和住户电话信息,2005年2月前2005/4数据仓库中的呼叫明细数据状态,当前明细级别,轻综合级别,高综合级别,周树峰,聊城大学数学科学学院,32,数据粒度粒度粒度问题粒度越高,粒度级别越小。粒度是数据仓库设计中最重要的方面之一。粒度设计问题:粒度的大小影响数据仓库中存储的数据量,同时也影响数据仓库能够回答的查询类型。细粒度:数据分析灵活,但存储空间大,计算量大;粗粒度:存储空间小,但有时无法回答一些细节问题。周树峰,聊城大学数学科学学院,33。例如,销售数据库存储每项业务的细节,这对每项分析都没有意义。因此,可以认为数据仓库的粒度级别将周作为一个位,也就是说,当数据从数据库加载到数
13、据仓库中时,它是按周汇总的。通过按周计算,可以得到月、季、年的汇总。可以认为数据仓库在时间上具有多重粒度。周树峰,聊城大学数学科学学院,34。数据粒度数据粒度是针对OLAP和数据挖掘的,所以数据粒度有不同的含义。OLAP:重要的功能是向最终用户呈现不同综合程度的数据。第一个粒度是衡量数据仓库中数据集成程度的标准。数据的综合程度不同,数据量也大不相同。数据粒度越小,信息越详细,数据量越大;数据粒度越大,数据量越小。周树峰,聊城大学数学科学学院,35,数据粒度(续)例如,电信部门的呼叫数据是每个字段8字节,每天5个呼叫,每月呼叫汇总。详细数据:865307200 B综合数据:8432 B,周树峰,
14、聊城大学数学科学学院,36,客户来电记录表客户身份证号码客户来电时间客户来电地点客户来电号码客户来电持续时间客户来电率月汇总表客户身份证号码客户来电持续时间客户来电次数,305,86,84,客户来电数据按“月”统计并按每次来电记录,周树峰,聊城大学数学科学学院,37,高详细-低粒度级别, 例如:一个月内每个客户电话的详细信息低细节-高粒度级别例如:一个月内客户电话的综合记录。粒度-详细程度,周树峰,数学科学学院,聊城大学,38,高速磁盘,3个月内的客户呼叫详细数据,5年内的月度呼叫数据,10年内的年度呼叫数据,低速磁盘上3个月前的客户呼叫详细数据,39,数据仓库,数据挖掘算法,数据粒度(续)D
15、M:第二种形式的粒度DM经常使用非常复杂的算法(如神经网络),具有很高的计算复杂度。如果大量数据直接参与运算,计算的时间和空间复杂度将相当高。以一定的抽样率抽样,利用聊城大学数学科学学院周树峰的样本数据库进行数据挖掘,数据仓库,样本数据库,数据挖掘算法,(1)以一定的抽样率抽样,(2)通过挖掘建立模型,(3)与源数据核对,(4)循环数据挖掘再聊城大学数学科学学院周树峰,分析模型40,周树峰,聊城大学数学科学学院,41,7,数据仓库建立的典型过程数据仓库只能以有序和重复的方式设计和加载,即周树峰,聊城大学数学科学学院,42。周树峰,聊城大学数学科学学院,43。数据仓库数据清理的累积方法,周树峰,数学科学学院,聊城大学,44。数据仓库的累积方法简单,是最简单、最常用的数据组织形式。从操作环境中取出日常事务(更新操作),然后将它们合成为数据仓库记录。这种综合可以根据数据仓库的任何组织的主题领域来执行,在数据仓库中,事务是按天综
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 外研八下英语Unit 1 Starting out-Understanding ideas《合作探究二》课件
- (新教材)2026人教版二年级下册数学 练一练p31-p32 课件
- 2025 高中信息技术数据结构在智能家居能源消耗预测与管理课件
- 2026年员工参股合同(1篇)
- 2026年借款及担保合同(1篇)
- 预制菜发展可行性研究报告
- 粮食烘干塔项目可行性研究报告
- 2026年及未来5年市场数据中国增效磷行业发展监测及投资战略咨询报告
- 信息技术教师资格证中计算机系统的工作原理
- 四川省德阳市高中2023级第二次诊断考试数学(含答案)
- 单兵战术动作低姿匍匐前进教案
- 2025新人教版七年级下册英语 Unit 8知识点梳理及语法讲义(答案版)
- 水库安全管理培训
- 2024年数智工程师职业鉴定考试复习题库(含答案)
- 工程劳务外包合同范本大全
- 统编版语文四年级下册 第一单元基础过关卷(试题)
- 自考《13180操作系统》考前强化练习试题库及答案
- 人工智能芯片设计 课件 周巍 第4-7章-人工智能与深度学习 -人工智能芯片架构设计
- 医院患者安全与防范措施管理规章制度
- DB34∕T 3463-2019 钢筋桁架楼承板系统应用技术规程
- 人教A版2019必修第一册专题3.2函数的基本性质【十大题型】(原卷版+解析)
评论
0/150
提交评论