数据仓库与数据挖掘.ppt_第1页
数据仓库与数据挖掘.ppt_第2页
数据仓库与数据挖掘.ppt_第3页
数据仓库与数据挖掘.ppt_第4页
数据仓库与数据挖掘.ppt_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章 数据仓库原理,数据仓库原理 - 主要内容,2.1 数据仓库定义 2.2 数据仓库特征 2.3 数据库体系化环境 2.4 数据仓库构造模式 2.5 数据仓库概念结构 2.6 数据仓库总体框架结构 2.7 数据仓库中的数据组织 小节,数据仓库原理 - 主要内容,2.1 数据仓库定义 2.2 数据仓库特征 2.3 数据库体系化环境 2.4 数据仓构造模式 2.5 数据仓库概念结构 2.6 数据仓库中的数据组织 小节,2.1 数据仓库定义,不同的定义: 数据仓库用来保存从多个数据库或其它信息源选取的数据, 并为上层应用提供统一 用户接口,完成数据查询和分析。 数据仓库是作为DSS服务基础的分析型DB,用来存放大容量的只读数据,为制定决策提供所需要的信息。 数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的、面向主题及不可更新的数据集合。 W.H.Inmon对数据仓库所下的定义:数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。,2.1 数据仓库定义,数据仓库数据的四个基本特征: 数据仓库的数据是面向主题的 数据仓库的数据是集成的 数据仓库的数据是不可更新的 数据仓库的数据是随时间不断变化的 数据仓库定义: 数据仓库就是一个用以更好地支持企业或组织的决策分析处理的、面向主题的、集成的、不可更新的、随时间不断变化的数据集合,数据仓库原理 - 主要内容,2.1 数据仓库定义 2.2 数据仓库特征 2.3 数据库体系化环境 2.4 数据仓构造模式 2.5 数据仓库概念结构 2.6 数据仓库总体框架结构 2.7 数据仓库中的数据组织 小节,2.2 数据仓库特征,数据仓库的第一个特征:面向主题 什么是主题 主题是指在较高层次上将企业信息系统中的数据综合、归类并进行分析利用 逻辑意义:对应企业中某一宏观分析领域所涉及的分析对象 要求将数据组织成一个完备的分析领域 主题域 独立性: 主题域必须具有独立内涵,要求有明确的界限,规定某项数据是否该属于“商品”主题。 完备性: 主题内包含任何对该主题对象的分析处理要求的一切内容,2.2 数据仓库特征,例:“会员制”商场 按照业务处理要求,建立的数据库模式: 采购子系统: 订单( 订单号,供应商号,总金额,日期) 订单细则(订单号,商品号,类别,单价, 数量) 供应商(供应商号,供应商名,地址,电话) 销售子系统: 顾客(顾客号, 姓名, 性别, 年龄, 文化程度, 地 址, 电话) 销售(员工号,顾客号,商品号,数量,单价,日期),2.2 数据仓库特征,库存管理子系统: 领料单(领料单号,领料人,商品号,数量,日期) 进料单(进料单号,订单号, 进料人, 收料人, 日期) 库存(商品号,库房号,库存量,日期) 库房(库房号, 仓库管理员, 地点, 库存商品描述) 人事管理子系统: 员工(员工号, 姓名, 性别, 年龄, 文化程度, 部门号) 部门(部门号, 部门名称, 部门主管, 电话),2.2 数据仓库特征,传统的面向应用数据组织方式的特点 面向应用进行数据组织, 需要对企业中相关的组织、部门等进行详细调查, 收集数据库的基础数据及其处理的过程 调查的重点 数据 处理 组织数据的依据 企业的部门组织结构 企业各部门的业务活动特点,2.2 数据仓库特征,传统的面向应用数据组织方式的特点 数据组织应反映一个企业内数据的动态特征 要表达每个部门的实际业务处理的数据流程 输入 处理 输出 组织数据的方式 按照实际应用即业务处理流程来组织 组织数据的目标 提高OLTP应用的速度和准确性,2.2 数据仓库特征,传统的面向应用数据组织方式的特点 数据库模式与实际的业务处理流程中所涉及的单据或文档具有对应关系 从而可以较好的在这些数据库模式上建立起各项实际的应用处理 在有些应用中, 这种数据组织方式只是对企业业务活动所涉及的数据的存储介质的改变, 即从纸介质到磁介质的转变,2.2 数据仓库特征,传统的面向应用数据组织方式的特点 没有体现数据库这一概念提出的原本意图: 数据与数据处理的分离 没有将数据从数据处理或应用中抽象出来, 组织成一个和具体的应用独立的数据世界,2.2 数据仓库特征,传统的面向应用数据组织方式的特点 结论 缺点 抽象程度不够高, 数据与应用没有完全分离 优点 能较好地将数据库模式和企业的现实业务活动对应起来, 从而具有很好的操作性 便于将企业原来的各项业务从手工处理的方式向计算机处理方式的转变 可以较好地支持OLTP,2.2 数据仓库特征,面向主题的数据组织 步骤: 1、 抽取主题: 按照分析的要求来确定 2、 确定每个主题所应包含的数据内容 例如:商场商品采购 在OLTP数据库中, “订单”“订单细则” “供应商” 三个数据库模式清晰完整地描述了一笔采购业务所涉及的数据内容, 这是面向应用来进行数据组织的方式; 在数据仓库中,主要是进行数据分析处理, 商品采购时的分析活动主要是要了解各供应商的情况, “供应商”是采购分析时的分析对象。所以不需要组织象“订单”和“订单细则”这样的数据库模式,因为它们包含的是纯操作型的数据;但是仅仅只用OLTP数据库的“供应商”中的数据又是不够的, 因而要重新组织“供应商”这么一个主题。,2.2 商场主题: 供应商、商品、顾客等,商品: 商品固有信息: 商品号, 商品名, 类别, 颜色等; 商品采购信息: 商品号, 供应商号, 供应价, 供应日期, 供应量等; 商品销售信息: 商品号, 顾客号, 售价, 销售日期, 销售量等; 商品库存信息: 商品号, 库房号, 库存量, 日期等; 供应商: 供应商固有信息: 供应商号, 供应商名, 地址, 电话等; 商品供应信息: 供应商号, 商品号, 供应价, 供应日期, 供应量等; 顾客: 顾客固有信息: 顾客号, 顾客名,性别,年龄,文 化程度,住址,电话等; 顾客购物信息: 顾客号, 商品号, 售价, 购买日期, 购买量等;,2.2 数据仓库特征,面向应用到面向主题的转变过程 丢弃不必要的、不适于分析的信息 把分散在各子系统中有关某一主题的信息组织起来,形成一个完整一致的描述 不同的主题之间内容重叠:反映主题之间的直接联系 主题之间的重叠是逻辑上的重叠, 不是同一数据内容的重复物理存储 主题之间的重叠是细节级上的重叠, 因为在不同的主题中的综合方式是不同的。,2.2 数据仓库特征,商品,供应商,顾客,主题在数据仓库的实现 基于多维数据库 基于关系数据库,2.2 数据仓库特征,基于多维数据库 以多维数组形式存储数据 遇到的问题 数据稀疏,2.2 数据仓库特征,基于关系数据库 一个主题用一组关系表表示 每个关系表都含有一个公共码键,是主属性 一个主题的所有表通过公共码键统一联系起来,2.2 数据仓库特征,例: 主题: 商品 公共码键: 商品号 商品表(商品号, 商品名, 类型,颜色 ) /* 描述的是商品的固有信息*/ 采购表1(商品号, 供应商号, 供应日期, 供应价, 供应日 期, ) /* 描述的是商品的采购细节 */,2.2 数据仓库特征,采购表2(商品号, 时间段, 采购总量 ,) /* 某时间段内商品采购信息*/ 采购表n(商品号,) /* 时间段不等的采购综合表*/ 销售表1(商品号, 顾客号, 销售日期, 售价, 销售量, ) /* 描述的是商品的销售细节信息 */ 销售表2(商品号, 时间段, 销售总量, ) /* 某时间段内商品销售信息 */ 销售表n(,) /* 时间段不等的销售综合表 */,2.2 数据仓库特征,库存表1(商品号, 库房号, 库存量, 日期, ) /* 描述的是商品的库存细节信息 */ 库存表2(商品号, 库房号, 库存量, 月份, ) /* 每月月底的商品库存信息 */ 库存表n(商品号, 库房号,) /* 时点不同的商品库存信息*/ ,2.2 数据仓库特征,主题中表的存储 同一主题的不同的表:存储在磁盘、磁带、光盘等不同介 质中 年代久远的、细节、查询概率低存贮在廉价慢速设备上 近期的、综合、查询概率高保存在快速存储设备上,2.2 数据仓库特征,数据仓库的第二个特征 数据仓库中的数据是集成的 集成的含义 从原有的分散的数据库数据中抽取、清洗得到 从原有的分散的数据库数据中综合得到:命名规则、编码、数据特性、等 集成是数据仓库建设中最关键、最复杂的步骤,2.2 数据仓库特征,特征二:数据是集成的 集成需要解决的问题 统一源数据中所有矛盾之处 字段的同名异义 字段的异名同义 单位不统一 字长不一致 进行数据综合和计算 综合时间:抽取数据时生成 数据仓库内部生成,2.2 数据仓库特征,特征三:数据是不可更新的 数据仓库的数据 存放的是历史数据 基本操作是数据查询, 一般情况下并不进行修改操作 数据一旦超过存储期限, 可以删除,2.2 数据仓库特征,特征三:数据是不可更新的 数据仓库管理系统 数据管理功能简化 数据查询要求提高 提高大数据量的查询速度 查询界面友好性 数据的直观表示,2.2 数据仓库特征,特征四:随时间不断变化的 数据仓库中的数据不可更新是针对应用而言的 数据仓库的用户进行分析处理时是不进行数据更新操作的 数据仓库的数据是随时间的变化不断变化的,2.2 数据仓库特征,特征四:随时间不断变化的 数据仓库随时间变化不断增加新的数据内容 数据仓库随时间变化不断删去旧的数据内容 操作型环境中一般只保存有60-90天的数据 数据仓库中则需要保存较长时限的数据(如5-10年) 数据仓库中包含有大量的跟时间有关的综合数据 经常按照时间段进行综合 隔一定的时间片进行抽样 随着时间的变化不断地进行重新综合 数据仓库数据的码键都包含时间项,以标明数据的历史时期,2.2 数据仓库特征,数据仓库原理 - 主要内容,2.1 数据仓库定义 2.2 数据仓库特征 2.3 数据库体系化环境 2.4 数据仓构造模式 2.5 数据仓库概念结构 2.7 数据仓库中的数据组织 小节,什麽是数据库体系化环境? 在一个企业或组织内, 由各面向应用的OLTP数据库、以及各级面向主题的数据仓库所组成的完整的数据环境;并在这个数据环境上建立和进行一个企业或部门的从联机事务处理到企业管理决策的所有应用。 数据库体系化环境分为两个部分: 操作型环境和分析型环境, 分别为操作型处理和分析型处理这两类不同的数据处理服务,2.3 数据库体系化环境,2.3 数据库体系化环境,由于原始数据和导出数据的差异而引发的数据分离的自然扩展过程如下。,操作层,原子/数据仓库层,部门层,个体层,细节的 日常的 当前值的 访问频繁 面向应用,大部分是粒度化数据 随时间变化的 集成的 面向主题 一些汇总,领域狭隘 一些导出数据;一些原始数据 典型的部门:财务、市场、工程、保险、制造,暂时的 为特定目的的 启发式的 非重复的 基于PC和工作站的,2.3 数据库体系化环境,操作层,原子/数据仓库层,部门层,个体层,J.Jones Main 大街123 信用度AA,J.Jones 1986-1987 High大街456号 信用度- B,1月-4101 2月-209 3月-4175 4月-415 ,顾客 从1982年起 帐户余额 5000 信用度不低于B,J.Jones 1987-1989 High大街456号 信用度- A,J.Jones 1989-今 Main大街123号 信用度- AA,J.Jones现在的信用度是多少?,J.Jones的信用历史如何?,我们吸引的顾客是月来越多还是月来越少?,我们分析的顾客趋势如何?,2.3 数据库体系化环境,体系结构化环境中的数据集成,操作层,原子/数据仓库层,J.Jones 女 1949年7月20日 ,J.Jones 去年有两张罚单 一次大事故 ,J.Jones Main大街123号 已婚 ,J.Jones 两个孩子 高血压 ,J.Jones 女 1945年7月20日 去年有两张罚单 一次大事故 Main大街123号 已婚 两个孩子 高血压 .,人寿保险,汽车保险,房屋财产保险,健康保险,一个简单例子:一个顾客,数据库体系化环境的构成: 各级数据库和数据仓库 各面向应用的数据库之间、各级数据仓库之间、数据库与数据仓库之间的界限和相互联系有合理划分和明确描述 在不同的数据库或数据仓库上的数据处理和应用有明确的定义和划分 软硬件资源及其人员的配置有明确规定 体系化环境是一个结构清晰、层次分明、联系明确、可有序运行的有机的整体,2.3 数据库体系化环境,体系结构化环境的层次 操作型环境存放:细节的操作型数据,服务于高性能事务处理 全局级数据仓库:存放细节数据、导出数据 部门级局部仓库:一般存放导出数据 个人级数据仓库:数据一般是暂时存放,用于启发式分析。,2.3 数据库体系化环境,数据集市(Data Mart) 数据仓库中存放的是全企业的信息,一个企业只需建立一个数据仓库,但企业却可以有多个数据集市。 数据集市有两种类型:独立型数据集市和从属型数据集市。,2.3 数据库体系化环境,数据集市(Data Mart) 独立型数据集市:为了满足企业内各部门的分析需求而建立的微型数据仓库。有些企业在实施数据仓库项目时,为了节省投资,尽快见效,针对不同部门的需要,分别建立起这类数据集市,以解决一些较为迫切的问题。这些数据集市也可以实施集成,以构建完整的数据仓库。 从最关心的部分开始,先以最少的投资, 完成企业当前需求, 获取最快的回报,然后再不断扩充, 不断完善,2.3 数据库体系化环境,数据集市(Data Mart) 组织原则:应有全局的观点数据集市在扩展后可以集成为全企业级的数据仓库 数据集市的特点: 管理较容易:结构简单,数据增长时易管理 较灵活:不同的数据集市可以分布在不同的物理平台上或逻辑的分布于同一物理平台上 可独立实施:企业人员可以快速获取信息,2.3 数据库体系化环境,数据集市(Data Mart) 从属型数据集市:内容并不直接来自外部数据源,而是从数据仓库中得到。在数据仓库内部,数据根据分析主题划分成若干个子集,进行组织存放。数据划分成集市之后,在进行某个确定主题的分析时,可以有效缩小数据的检索范围,明显提高工作效率。,2.3 数据库体系化环境,数据仓库原理 - 主要内容,2.1 数据仓库定义 2.2 数据仓库特征 2.3 数据库体系化环境 2.4 数据仓构造模式 2.5 数据仓库概念结构 2.6 数据仓库中的数据组织 小节,构造一个完善的数据仓库,是一个十分复杂的过程。设计者不仅需要高超的专业水平和编程能力,还应对所设计的行业有深入的了解。 从数据的获取、清洗、组织、集成到为满足决策要求而必须的操作流程与分析算法,都应进行全面的、妥善的规划。 一般而言,数据仓库的构造模式主要包括自顶向下、自底向上两种。 自顶向下模式 自底向上模式,2.4 数据仓库的构造模式,自顶向下模式 一种由整体到局部,逐步细化的构造模式。 首先对分散在各业务数据库中的数据的特征进行分析 实施数据仓库的总体设计和规划 进行外部数据源的数据抽取、筛选、清洗、转换等一些列处理,并将数据倒入数据仓库。 在数据仓库内,建立起针对各主题的数据集市,以满足决策的需求。,2.4 数据仓库的构造模式,数据集市是数据仓库的真子集,数据由数据仓库流向数据集市。保证各数据集市都是数据仓库的真子集,就可以完全消除“蜘蛛网”现象。 不足之处在于:要求设计者对业务有深入的理解,系统设计规模偏大,实施周期过长,项目见效缓慢。,2.4 数据仓库的构造模式,自底向上模式 为解决自顶向下模式的不足,自底向上模式应运而生。他的设计思路是先具体,后综合。 首先,将企业内各部门的要求视为分解后的决策子目标,并针对这些目标建立起各自的数据集市。 对系统不断进行扩充,逐步形成完善的数据仓库,以实现对企业级决策的支持。 数据集市由于结构简单,数据的综合度较低,因此不需要准备创建元数据部件。,2.4 数据仓库的构造模式,自底向上模式 优点: 采用自底向上模式建立数据仓库,具有投资小,见效快的特点。 由于部门级的数据结构简单,决策需求明确,因此易于实现。 缺点: 由于数据集市缺少元数据,因而最终构造数据仓库的过程具有相当的难度 有可能影响数据仓库整体结构的合理性以及系统的运行效率。,2.4 数据仓库的构造模式,数据仓库原理 - 主要内容,2.1 数据仓库定义 2.2 数据仓库特征 2.3 数据库体系化环境 2.4 数据仓构造模式 2.5 数据仓库概念结构 2.6 数据仓库中的数据组织 小节,2.5 数据仓库的概念结构,从数据仓库的概念结构看,应该包含:数据源、数据准备区、数据仓库数据库、数据集市/知识挖掘库以及各种管理工具和应用工具。,数据源,业务系统,外部数据源,数据准备区,数据仓库数据库,应用工具,管理工具,数据集市/知识挖掘库,应用工具,数据集市/知识挖掘库,图1.1 数据仓库的概念结构,2.5 数据仓库的概念结构,实际出现的其他数据仓库结构 虚拟数据仓库结构 数据集市结构 单一数据仓库结构 分布式数据仓库结构,2.5 数据仓库的概念结构,虚拟数据仓库结构 虚拟数据仓库利用描述的业务系统中数据位置和抽取数据算法的元数据,直接从业务系统中抽取查询的数据,进行概括、聚合操作后,将最终结果提供给用户,用户 图1.2 虚拟数据仓库结构,数据仓库查询管理服务器,业务系统数据库,2.5 数据仓库的概念结构,虚拟数据仓库结构 优点: 利用了原有的数据库 大多数操作由原系统完成 数据仓库投资小 缺点 运行效率大幅度下降 数据缺乏统一的格式 数据更新不一致 查询结果不准确,2.5 数据仓库的概念结构,数据集市结构 数据集市结构或称为主题结构的数据仓库是按照主题进行构思所形成的数据仓库,没有一个独立的数据仓库。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论