欢迎来到人人文库网! | 帮助中心 人人文档renrendoc.com美如初恋!
人人文库网
全部分类
  • 图纸下载>
  • 教育资料>
  • 专业文献>
  • 应用文书>
  • 行业资料>
  • 生活休闲>
  • 办公材料>
  • 毕业设计>
  • ImageVerifierCode 换一换
    首页 人人文库网 > 资源分类 > PPT文档下载  

    数据仓库的数据模型、数据组织、数据仓库设计(学时2).ppt

    • 资源ID:17763012       资源大小:805.50KB        全文页数:70页
    • 资源格式: PPT        下载积分:15积分
    扫码快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 支付宝登录   QQ登录   微博登录  
    二维码
    微信扫一扫登录

    手机扫码下载

    请使用微信 或支付宝 扫码支付

    • 扫码支付后即可登录下载文档,同时代表您同意《人人文库网用户协议》

    • 扫码过程中请勿刷新、关闭本页面,否则会导致文档资源下载失败

    • 支付成功后,可再次使用当前微信或支付宝扫码免费下载本资源,无需再次付费

    账号:
    密码:
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源(1积分=1元)下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    数据仓库的数据模型、数据组织、数据仓库设计(学时2).ppt

    数据仓库与数据挖掘 (DATA WAREHOUSING AND DATA MINING),石家庄铁道大学,2019/4/16,-2-,内 容 第2章 数据仓库的数据模型 第3章 数据仓库的数据组织 第4章 数据仓库设计,2019/4/16,-3-,第2章 数据仓库的数据模型,本章要点 数据仓库的概念模型:信息包图 数据仓库的逻辑模型:星型图、雪花模型 数据仓库的物理模型,2019/4/16,-4-,数据仓库的数据模型 与数据库系统数据模型的区别,数据仓库的数据模型中不包含纯操作型数据。 数据仓库的数据模型扩充了键结构,增加了时间属性作为键的一部分。 数据仓库的数据模型中增加了一些面向主题的导出数据。,2019/4/16,-5-,星型图模型 物理数据模型,概念模型,逻辑模型,物理模型,面向用户的需求,细 化层次,更详细的 技术细节,数据仓库的数据模型,信息包图,2019/4/16,-6-,信息包图(概念模型),信息包图:是数据仓库的数据模型的第一层或最高层。由于大多数商务数据是多维的,但传统的数据模型表示三维以上的数据有一定困难。而信息包图简化了这一过程并且允许用户设计多维信息包并与开发者和其他用户建立联系。这种模型集中在用户对信息包的需要,信息包提供了分析人员思维模式的可视化表示。 工作: 确定系统边界:决策类型、需要的信息、原始信息 确定主题域及其内容:主题域的公共键、联系、属性组 确定维度:如时间维、销售位置维、产品维、组别维等 确定类别:相应维的详细类别 确定指标和事实:用于进行分析的数值化信息,2019/4/16,-7-,信息包: 维度 类别 空白信息包图样式,2019/4/16,-8-,解:首先根据销售分析的实际需求,确定信息包的维度、类别和指标与事实: (1)维度:包括日期维、销售地点维、销售产品维、年龄组别维、性别维等。 (2)类别:确定各维的详细类别,如:日期维包括年(10)、季度(40)、月(120)等类别,括号中的数字分别指出各类别的数量;销售地点维包括国家(15)、区域(45)、城市(280)、区(880)、商店(2000)等类别,括号中的数字同样分别指出各类别的数量;类似地,可以确定销售产品、年龄组别维、性别维等的详细类别。 (3)指标和事实:确定用于进行分析的数值化信息,包括预测销售量、实际销售量和预测偏差等。,例试画出销售分析的信息包图,2019/4/16,-9-,销售分析的信息包图,信息包: 销售分析 维度,类别,2019/4/16,-10-,星型图模型(逻辑模型),星型图:数据仓库的数据模型的第二层是向最终的数据结构添加某些细节的星型图模型。 与传统的关系模型相比,星型图模型简化了用户分析所需的关系,从支持决策的角度去定义数据实体,更适合大量复杂查询。 星形图包括了三种逻辑实体: 指标、维度、详细类别,2019/4/16,-11-,例销售分析的星型图模型。,日期维,产品维,地区维,代理商维,其他维,销售分析 实际销售 预测销售 预测偏差,在星型图中,通过维度实体获得指标实体数据。指标实体与维度实体间的联系通过每个维度中的最低层的详细类别实体连接。,2019/4/16,-12-,在很多情况下,维度实体还要向外延伸至详细类别实体,或者说,详细类别实体是维度实体的附加信息,是维度实体的扩展,说明了维度实体间的关系。这种在维度实体上扩展详细类别实体的星形图称为雪花图。,2019/4/16,-13-,雪花图模型(逻辑模型),雪花模型包括了三种逻辑实体:指标、维度、详细类别。 雪花模型通常由一个很大的中心表(指标表)和一组较小的表(维表)组成。雪花模型的指标表与所有的维表都要进行连接。,2019/4/16,-14-,物理模型,物理数据模型:数据模型的第三层,它是星型图模型在数据仓库中的实现,如物理的存取方式、数据存储结构等。 在物理设计时,常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类,并将不同类的数据分别存储在不同的存储设备中。重要程度高、经常存取并对响应时间高的数据就存放在高速存储设备上,如硬盘;存取频率低或对存取响应时间要求低的数据则可以放在低速存储设备上。,2019/4/16,-15-,第3章 数据仓库的数据组织,本章要点 数据仓库中的数据组织 粒度与分割 数据仓库的数据追加,2019/4/16,-16-,数据仓库中的数据存在着不同的综合级别 早期细节级 当前细节级 轻度综合级 高度综合级 粒度:数据的不同综合级别 粒度越大、表示细节程度越低、综合程度越高。 级别的划分是根据粒度进行的,数据仓库中的数据组织,2019/4/16,-17-,数据仓库的数据组织结构,高度综合级,轻度综合级,当前细节级,早期细节级,2019/4/16,-18-,数据仓库的数据组织结构,高度综合级,轻度综合级,当前细节级,早期细节级,1996-2004年 每月销售表,1996-2004年 每周销售表,1996-2004年 销售明细表,1990-1995年 销售明细表,2019/4/16,-19-,粒度问题是设计数据仓库的一个最重要方面。 粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。 细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。 在数据仓库环境中粒度之所以是主要的设计问题,是因为它深深地影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答的查询类型。 需要在数据仓库中的数据量大小与查询的详细程度之间要作出权衡。,粒度,1. 粒度,粒度的一个例子,确定粒度级是数据仓库环境中最重要的设计问题,2019/4/16,-21-,该图的左边是一个低粒度级,每一次电话都被详细记录下来,每个顾客平均有2 0 0条记录,每个记录2 0 0个字节,因而总共需要40 000个字节。 该图的右边是一个高粒度级。数据代表一位顾客一个月的综合信息,每位顾客一个月只有一个记录,这样的记录大约只需2 0 0个字节。 显然,用高粒度级表示数据将比用低粒度级表示数据的效率空间要高得多。 高粒度级不仅只需要少得多的字节存放数据,而且只需要较少的索引项。,2019/4/16,-22-,但是,当提高粒度级时,会出现另一个问题。即当提高数据粒度级时,数据所能回答查询的能力就会随之降低。 换句话说,在一个很低的粒度级上实际可以回答任何问题,但在高粒度级上,数据所能处理的问题的数量是有限的。 在设计和构造数据仓库之初就必须仔细考虑这种权衡。,2019/4/16,-23-,1. 粒度,粒度级对能回答什么问题和回答问题所需什么资源有深刻的影响,2019/4/16,-24-,粒度的权衡是首要的,所以大多数组织的最佳解决办法是采用多重粒度级的形式,1. 粒度,2019/4/16,-25-,很多时候,十分需要提高存储与访问数据的效率,以及非常详细地分析数据的能力。当一个企业或组织的数据仓库中拥有大量数据时,在数据仓库的细节部分考虑双重(或多重)粒度级是很有意义的。 一个电话公司的 “双重”粒度级的设计,能满足大多数机构的需要。在操作层是大量的细节,其中大部分细节是为了满足结帐系统的需求。多达3 0多天的细节存放在这种操作层中。 在这个例中的数据仓库包括两种类型的数据:轻度综合数据和“真实档案”细节数据。,粒度的双重级别,2019/4/16,-26-,当数据从操作型环境(存储30天的数据)载入时,它就被综合成可能用于DSS分析的数据域。 例如:Jones的记录显示她每月打电话的次数、每个电话的平均长度、长途电话的次数、接线员帮助呼叫的次数,等等。,2019/4/16,-27-,1. 粒度,2019/4/16,-28-,样本数据库:另一种改变数据粒度的方法 根据采样率的高低来划分粒度:以一定的采样率从细节数据或轻度综合数据中抽取的一个子集 用处:代替源数据进行模拟分析 抽样的方法:随机抽取 优点: 高效率 源数据量很大的情况下,抽样数据可以大大下降 分析结果误差极小 有助于抓住主要因素和主要矛盾,样本数据库,2019/4/16,-29-,在某些情况下(如人口统计分析),样本数据库是非常有用的。 但是对使用样本数据库有一些苛刻的限制。除非设计者知道这些限制,否则就不应该创建这种数据库以作为数据仓库的一部分。 样本数据库不是通用的数据库。假如想知道“Jones是不是顾客?” 不要在样本数据库中找这条信息。完全可能Jones是一个顾客,但她不在样本数据库的记录中。 样本数据库适用于作统计分析和观察发展趋势。,2019/4/16,-30-,当数据必须以整体观察时,样本数据库能提供非常理想的结果,但决不适用于处理单个的数据记录。 样本记录的选取一般是随机的,必要时可采用一个“判断样本” (即记录必须达到一定标准才能被选中)。判断样本所带来的问题是会使样本数据具有某种偏差,随机抽取数据带来的问题是可能无法进行统计。 无论如何,数据是选择作为样本的,所以在样本数据库中找不到任何给定的记录这一事实是说明不了任何问题的。,2019/4/16,-31-,分割是数据仓库中数据的第二个主要的设计问题(在粒度问题之后),数据分割是指把数据分散到各自的物理单元中去,它们能独立地处理。 在数据仓库中,围绕分割问题的焦点不是该不该分割而是如何去分割的问题。 对当前细节数据进行分割的总体目的是把数据划分成小的物理单元。 数据分割为什么如此重要呢?因为小的物理单元能为操作者和设计者在管理数据时提供比对大的物理单元更大的灵活性。,分割,2019/4/16,-32-,分割之后有以下优点: 容易重构; 自由索引; 顺序扫描(若需要); 容易重组; 容易恢复; 容易监控。,2019/4/16,-33-,简单地说,数据仓库的本质之一就是灵活地访问数据。如果是大块的数据,就达不到这一要求。因而,对所有当前细节的数据仓库数据都要进行分割。 分割数据的准确含义是什么呢?当结构相同的数据被分成多个数据物理单元时,数据便被分割了。此外,任何给定的数据单元属于且仅属于一个分割。,2019/4/16,-34-,有多种数据分割的标准。例如,按: 时间 商业线 地理位置 组织单位 所有上述标准 数据分割的标准是严格地由开发人员来选择的。然而,在数据仓库环境中,按日期几乎总是分割标准中的一个必然组成部分。,2019/4/16,-35-,数据追加:数据仓库的数据初装完成后, 再向数据仓库输入数据的过程 追加内容:上次数据追加后在OLTP数据库中变化了的数据 变化数据的捕捉途径: 时标方法 DELTA文件 前后映象文件 日志文件,数据仓库的数据追加,2019/4/16,-36-,时标方法:为数据记录增加一个时间字段。对新插入或更新的数据记录加更新时的时标 优点 方法简单 问题 许多数据库中的数据并不含有时标,很难在得到实际应用,2019/4/16,-37-,DELTA文件方法:从应用程序感知数据变化的方法。由应用生成DELTA文件,记录应用所改变的所有内容 优点 避免了扫描整个数据库,效率比较高 问题 一般的应用程序不具有生成DELTA文件的功能 更改应用代码,应用在生成新数据时可自动将其记录下来 应用成千上万,且修改代码十分繁琐,很难实现,2019/4/16,-38-,前后映象文件的方法:抽取数据到数据仓库之后, 本次将抽取数据之前,对数据库分别作一次快照,比较两幅快照的不同,确定追加的数据 优点 方法简单 问题 占用大量资源,影响系统性能,不实用,2019/4/16,-39-,日志文件法:通过分析数据库系统日志文件来获取数据变化的情况,得到追加内容。 优点 利用DB的固有机制,数据只限于日志文件,不用扫描整个数据库 缺点 原来日志文件的格式是依据DB系统的要求设计的。要进行改进。如:对一个记录的多次更新,日志文件将全部变化过程都记录下来,而数据仓库,只要最终结果,2019/4/16,-40-,第4章 数据仓库设计,本章要点 数据仓库的设计原则 数据仓库的设计步骤 数据仓库生成 数据仓库的使用与维护,2019/4/16,-41-,数据仓库设计,事务型数据处理中需要作数据库设计,而在分析型数据处理中则需作数据仓库设计,这两者在原理上是一致的。 因此,数据库设计中的很多设计思想与方法都可在数据仓库中得到应用。 但是由于事务型与分析型的数据处理的不一致,因此两者在设计中的很多方面也存在着差别。,2019/4/16,-42-,面向OLTP的数据库设计有着明确的应用需求,严格遵循系统生命周期的阶段划分,每个阶段都规定有明确的任务,上一阶段确定的任务完成后,产生一定格式的文档交给下一阶段。 数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的,这些特点决定了数据仓库的系统设计不能采用同开发传统的OLTP数据库一样的设计方法。,2019/4/16,-43-,数据仓库的设计与数据库设计的区别,系统设计的目标不同:数据库是面向事务型处理的,所以事务型处理性能是系统设计的一个主要目标。而数据仓库是为了支持决策分析而建立的一种数据存储集合,在系统设计时,更关心的是建立起一个全局一致的分析型处理环境来支持企业的决策分析。,2019/4/16,-44-,数据仓库的设计与数据库设计的区别(Cont.),面向的需求不同:数据库系统是面向应用的,所以在系统设计时应以此为出发点和基础。而在决策分析时,决策者分析问题的角度多种多样,所以数据处理流和信息流不固定,甚至决策者对所要进行的分析处理都不太明了,数据的分析处理的需求更灵活。这就决定了在数据仓库系统设计时,不可能从用户需求出发来进行设计。,2019/4/16,-45-,数据仓库的设计与数据库设计的区别(Cont.),数据来源不同:数据库系统中数据是从企业外部通过输入得到的,所以系统设计时就是设计如何与外部对话得到数据,如何存储这些数据,它关心的是数据的安全性和完整性等。数据仓库中的数据大部分是从企业内部的数据库系统得到的,还有一部分是企业外部的非结构化数据,这些数据都是安全可靠且正确有效的,所以在系统设计时它关心的不是数据的安全性和完整性,而是数据的一致性。,2019/4/16,-46-,数据仓库的设计与数据库设计的区别(Cont.),数据的处理类型不同:数据库系统支持的是事务型处理,主要指数据的增、删、改、查等等,系统设计时都是针对某一具体应用。数据仓库是面向分析的,它的数据处理大都是对数据的复杂查询,所以在设计时考虑的是如何更好地面向主题等。,2019/4/16,-47-,数据仓库的设计与数据库设计的区别(Cont.),设计方法不同:由于在数据库系统中业务过程和规则比较规范固定,系统设计人员能清楚的知道应用需求和数据流程,所以系统设计一般采用系统生命周期法(Systems Development Life Cycle ,SDLC)。在决策分析时,决策人员往往无法给决策需求一个规范的说明,只能给出一个模糊的描述,对这种需求不确定的开发过程,设计方法有很大的不同,采用与SDLC相反的CLDS法。(注: CLDS没有具体意义,只是字母排列顺序与SDLC相反。SDLC起始于需求,CLDS起始于数据。),收集应用需求,分析应用需求,构建数据库,数据仓库建模,数据获取与集成,构建数据仓库,系统实施,应用编程,系统测试,DSS应用编程,系统测试,理解需求,DB,应用B,应用A,DB,DB,外部 数据,DW,SDLC方法,CLDS方法,Systems Development Life Cycle,2019/4/16,-49-,生命周期的比较,2019/4/16,-50-,数据仓库设计的技术要求,对大量数据的组织和管理。数据仓库中包含了大量的历史数据,它是一段较长时间内的数据。另外,数据仓库中的数据是从数据库中提取得来的,所以不必关心它的数据安全性和数据完整性,它要求进行大量数据的组织与管理。 支持高性能的复杂分析。复杂分析时通常涉及大量数据的聚集、综合等,在进行复杂查询时经常会使用多表的联接、累计、分类、排序等操作,这对数据仓库基于的数据库系统的性能特别是并行处理能力提出了挑战。,2019/4/16,-51-,数据仓库设计的技术要求(Cont.),对提取出来的数据进行集成。数据仓库中的数据是从多个应用领域中提取出来的,在不同的应用领域和不同的数据库系统中都有不同的结构和形式。如果直接对这些数据进行分析,会得到不同的结果,所以如何对数据进行集成也是构建数据仓库的一个重要方面。 对高层决策的最终用户提供工具。数据仓库只是一个数据存储的集合,如果没有各种分析应用工具,一个庞大的数据仓库是毫无意义的。这些工具的设计对于开发一个完整的数据仓库及其应用体系是至关重要的。,2019/4/16,-52-,数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的,这些特点决定了数据仓库的系统设计不能采用同开发传统的OLTP数据库一样的设计方法,其设计过程必须遵循下述三条原则: 面向主题原则 数据驱动原则 原型法设计原则,数据仓库的设计原则,数据仓库的设计原则,2019/4/16,-53-,面向主题原则 建立数据仓库的目的 -构建数据仓库的目的是面向企业的管理人员,为经营管理提供决策支持信息。因此数据仓库的组织设计必须以用户决策的需要来确定,即从用户决策的主观需求(主题)开始。 数据仓库中数据的组织方法 -为了进行数据分析首先要有分析的主题,以主题为起始点,进行相关数据的设计,最终建立起一个面向主题的分析型环境。 -在数据库设计中则是以客体(Object)为起始点,即以客观操作需求为设计依据。,数据仓库中的数据组织,2019/4/16,-54-,数据驱动原则 数据的来源 -由于数据仓库是在现存数据库系统基础上进行开发的,它着眼于有效地提取、综合、集成和挖掘已有数据库中的数据资源,服务于企业高层领导管理决策分析的需要。因此数据仓库中的数据必须是从已有的数据源中抽取出来,是已经存在的数据或对已经存在的数据进行加工处理而获得。 数据驱动方法(原则) -在数据仓库设计中,由于其所有数据均应建立在已有的数据库基础上,即是从已经存在于操作型环境中的数据出发进行数据仓库的设计,这种设计方法被称为:“数据驱动”方法。,数据仓库中的数据组织,2019/4/16,-55-,原型法设计原则 数据仓库系统的原始需求不明确,且不断变化与增加,开发者最初并不能确切了解到用户的明确而详细的需求,用户所能提供的无非是需求的大的方向以及部分需求,更不能较准确地预见到以后的需求。因此,采用原型法来进行数据仓库的开发是比较合适的,即从构建系统的基本框架着手,不断丰富与完善整个系统。 数据仓库的设计是一个逐步求精的过程,用户的需求是在设计过程中不断细化明确的。同时,数据仓库系统的开发也是一个经过不断循环、反馈而使系统不断增长与完善的过程。在数据仓库开发的整个过程中,自始至终要求决策人员和开发者的共同参与和密切合作,不做或尽量少做无效工作或重复工作。,数据仓库中的数据组织,2019/4/16,-56-,数据仓库设计步骤,明确主题 概念设计(高层设计) 技术准备 逻辑设计(中层设计) 物理设计(低层设计) 数据仓库生成 数据仓库的运行与维护,2019/4/16,-57-,在数据仓库设计的开始,首先要做的事是有关分析人员需确定领域的分析对象,这个对象就是主题。如在商场中经常需要分析的主题是商品、顾客与供应商。 主题是一种较高层次的抽象,对它的认识与表示是一个逐步完善的过程。因此,在开始时不妨先确定一个初步的主题概念以利于设计工作的开始,此后随着设计工作的进一步开展,再逐步扩充与完善。,设计步骤 - 明确主题,2019/4/16,-58-,设计步骤 概念设计(高层设计),高层设计:主要考虑商业过程和商业需求的集成,将与目前商业过程有关的信息和数据仓库试图实现的目标合并在一起,创建信息包图。 创建信息包图的过程:分析用户需求,收集信息将信息打包的过程。 分析用户需求(确定系统边界) 确定用户要做的决策类型、确定用户决策时需要的信息、确定原始信息 定义关键性能指标(确定主要的主题域) 主题域的公共键、主题域间的联系、充分代表主题的属性 设计成果: 信息包图,2019/4/16,-59-,概念模型设计(高层设计)(Cont.),定义维度:每一个维代表一个统一的访问数据仓库中信息的途径。这些维也定义了一个完整的主题分类,而且这些分类将被用作支持主要指标的参考内容。在定义维度时,一般只涉及信息的主要途径,不是企图涉及所有可能的路径。 定义类别:类别提供了一个指定维的详细信息,它们是一个集合层或一个维度体系。随着维度的定义,应该进一步确定用户将怎样对详细信息进行检索,或者怎样聚集数据。,2019/4/16,-60-,概念模型设计(高层设计)(Cont.),创建信息包图 确定涉及的主题域,例如:时间、顾客、地位置和产品。 设计可以跟踪的、确定一个事件怎样被完成和运行的关键指标。 决定在给定的用户分析或查询中实际包含了多少数据。 确定用户如何按层次聚合数据和移动数据。 决定数据层次。 估计数据仓库的大小。 确定一个数据仓库里数据的更新频率。 定义如何访问数据。 决定数据如何被传递给仓库的用户。,2019/4/16,-61-,设计步骤 逻辑设计(中层设计),中层设计:建立数据仓库的逻辑模型,对前期收集的信息的细化,将信息包图转换成星型图模型。 主要工作: 定义指标实体。将信息包图中的内容放到星形图中,每个信息包图代表一个完整的星和信息包。维度实体在指标实体中表示。 定义维度实体。信息包图中的每一个维度实体位于星形图的星角上,它以维度表的形式存在。随着维度实体在星形图上的定位,进一步定义它与指标实体间的关系。 定义详细类别实体。在一个简单的星形图模型中,指标实体被用于访问的维度实体包围。但是在有的决策分析中仅仅知道指标值是不够的,需要定义详细类别实体,将星型图模型转换为雪花图模型。 设计成果: 适当的粒度划分、合理的数据分割策略、适当的表划分、定义适当的数据源,2019/4/16,-62-,低层设计:建立数据仓库的物理模型,确定数据仓库的存储结构、数据的存储位置和索引策略。 设计人员需要了解和考虑的问题: 所选用的数据库系统,特别是存储结构和存取方法; 数据环境、数据的使用频率、使用方式以及响应时间; 存储设备的特性等。 主要工作: 确定数据的存储结构。不同的存储结构有不同的实现方式,应综合考虑存取时间、存取空间利用率和维护代价等因素,根据各种存储结构的优缺点和适用范围选择合适的存储结构。 确定数据的存储位置。对数据按照其重要程度、使用频率和对响应时间的要求等进行分类,并将不同类别的数据存储在不同的存储设备中。设置存储分配参数,对块的大小、缓冲区的大小和个数等进行物理优化处理。 确定索引策略。通过对数据存取路径的分析,为各个数据存储建立专用的索引,以获得存取的高效率。,设计步骤 物理设计(低层设计),2019/4/16,-63-,设计步骤 数据仓库生成,设计接口 从面向应用和操作的环境生成完整的数据 基于时间的数据转换 数据的聚合 对记录系统进行扫描,以便追加数据 数据装入 确定数据装入的顺序 过滤无效或错误数据 数据老化 数据刷新,2019/4/16,-64-,接口设计,数据仓库中的数据是从数据库系统中提取出来的,所以在需要在数据库系统和数据仓库之间建立一个接口。建立这种接口,并不是简单的编制一个提取程序。由于数据库中的数据与数据仓库中的数据有很大区别,所以在设计接口时,除了提取外还要完成数据的净化、集成等。 接口应包括转换器、监控器和集成器等,以完成对数据的提取、净化和集成。,2019/4/16,-65-,数据提取,数据的提取是数据仓库成功的关键。 在提取过程中,为了支持实际应用中的趋势分析,它还必须对数据基于时间进行转换。在大多数情况下,把数据库系统中的数据变化提取出来是通过访问数据库日志进行的。,2019/4/16,-66-,数据装入,数据装入:即运行数据仓库的接口程序,将数据装入数据仓库中。 主要工作: 按顺序装入数据。最初只装入一部分数据来生成第一个主题域,这样能使设计人员轻易而迅速的对所做的工作进行调整,然后再依次装入全部数据。 检查数据的有用性。数据仓库的设计过程是一个反馈、循环的过程,原先对决策分析起作用的数据随着时间的推移越来越陈旧无法再支持决策分析,通过与用户的交流,反复进行用户需求分析,从而确定用户真正需要的数据,清除老化、无效和错误数据,不断的适应用户的需求。,2019/4/16,-67-,构建数据仓库的最终目的是为了使用,如果数据仓库中存放了大量的数据而没有开发相应的应用程序,数据仓库就失去了其存在的价值。 数据仓库的目的是用于决策分析而不是事务管理。决策分析应用可分为两种类型:例行分析处理和启发式分析处理。 例行分析处理是指一些要求比较明确、需要重复进行的分析处理,通常属于部门级的应用,如部门的销售分析、财务分析、报表分析等。 启发式分析是指随机性较大的、即时进行的分析处理,通常属于企业高层决策者级的应用,这种决策分析并没有固定的模式,决策者受到某种信息的启发而进行一些随机的决策分析。,设计步骤 数据仓库的使用与维护,2019/4/16,-68-,对于例行分析处理,由于其分析模式固定,因此可以使用查询/报表工具、固定模式的验证工具或OLAP工具来实现。 对于启发式分析处理则需要在验证工具、OLAP工具和数据挖掘工具中为用户提供一个灵活的、功能强大的交互式界面,使决策者能够方便地利用这些工具循环渐进地进行决策分析,最终获得分析结果。,设计步骤 数据仓库的使用与维护(Cont.),2019/4/16,-69-,数据仓库的维护,系统维护:是在系统已经交付使用之后为了改正错误和为了满足新的需要而修改系统的过程。 数据仓库中数据的日常管理工作 清除过时的、不再使用的数据; 定期从源数据中提取数据,刷新数据仓库中的数据; 管理元数据等。,2019/4/16,-70-,数据仓库的维护(Cont.),数据仓库系统的完善工作 改正性维护:在数据仓库设计与开发过程中,虽然已经进行了严格的测试,但对于一个大型的系统可能还潜藏着一些错误,改正性维护就是为了发现和改正这些错误而进行的过程。 适应性维护:数据仓库的构建是基于当时的技术条件的,由于技术发展十分迅速,每隔一定的周期硬件设备和系统软件都会发生重大的变革,适应性维护就是为了与变化了的环境相配合而进行的对系统进行修改的活动。 完善性维护:因为数据仓库系统一般是采用快速原型法开发的,需要在系统的运行过程中不断地听取用户对已有功能的修改建议和增加新功能的需求,使系统日趋完善,这项工作称为完善性维护。 预防性维护:预防性维护则是指为了改进系统未来的性能和功能打下基础而进行的修改工作。,

    注意事项

    本文(数据仓库的数据模型、数据组织、数据仓库设计(学时2).ppt)为本站会员(jun****875)主动上传,人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知人人文库网(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    网站客服QQ:2881952447     

    copyright@ 2020-2024  renrendoc.com 人人文库版权所有   联系电话:400-852-1180

    备案号:蜀ICP备2022000484号-2       经营许可证: 川B2-20220663       公网安备川公网安备: 51019002004831号

    本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知人人文库网,我们立即给予删除!