数据仓库与决策支持系统1.ppt_第1页
数据仓库与决策支持系统1.ppt_第2页
数据仓库与决策支持系统1.ppt_第3页
数据仓库与决策支持系统1.ppt_第4页
数据仓库与决策支持系统1.ppt_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库与决策支持系统 2015.10.12,一、数据仓库,数据仓库:面向主题的、集成的、稳定的、随时间变化的数据集合 面向主题指数据仓库的建立有一个主体的对象,而非单一的事务 集成表示数据仓库是将围绕该主题的各类数据集成在一起而形成 稳定意味着不可更新 随时间变化指对应不同时间点,有不同批次的数据,一、数据仓库,数据仓库VS数据库,一、数据仓库,分析型处理VS事务型处理,一、数据仓库,数据仓库体系结构,一、数据仓库,元数据(Metadata):关于数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们 所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据,它主要包括以下信息: 数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容; 业务系统、数据仓库和数据集市的体系结构和模式; 汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、预定义的查询与报告; 由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则、安全(用户授权和存取控制)。,一、数据仓库,业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的 数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公式和报 表的信息;具体包括以下信息: 企业概念模型:这是业务元数据所应提供的重要的信息,它表示企业数据模型的高层信息、整个企业的业务概念和相互关系。以这个企业模型为基础,不懂数据库技术和SQL语句的业务人员对数据仓库中的数据也能做到心中有数。 多维数据模型:这是企业概念模型的重要组成部分,它告诉业务分析人员在数据集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合规则。这里的数据立方体表示某主题领域业务事实表和维表的多维组织形式。,一、数据仓库,元数据的作用 在数据仓库系统中,元数据机制主要支持以下五类系统管理功能: 描述哪些数据在数据仓库中; 定义要进入数据仓库中的数据和从数据仓库中产生 的数据; 记录根据业务事件发生而随之进行的数据抽取工作时间安排; 记录并检测系统数据一致性的要求和执行情况; 衡量数据质量。,二、数据仓库在决策支持系统中的应用,二、数据仓库在决策支持系统中的应用,决策支持系统中的模型库可以为决策者提供推理、比较、选择和分析的工具。模型库中一般包含两类模型: 数学模型 图形与报表模型 由上述两者可以集成为规划模型、推理模型、分析模型、预测模型、优化模型与评价模型 而这些模型的建立、仿真与训练都需要大量的数据来解析与验证。,二、数据仓库在决策支持系统中的应用,决策支持系统中使用的大量数据通常为多维数据,需要利用切片,切块,钻取等操作从多个角度进行观察,并把结果用直观的表格或图形展现出来,以支持决策。 故需要引入数据挖掘的相关算法(之一) 关联规则,三、关联规则,关联规则是数据一种简单实用的规则,而关联规则挖掘就是从大量的数据中挖掘出有价值的描述数据项之间相互联系的信息 以下是关联规则相关的一些概念 关联规则:设I=I1,I2,I3,Im为数据项集合;设D为与任务相关的数据集合,也就是一个交易数据库;其中每个交易T是一个数据项子集,即T包含于I;每个交易均包含一个识别编号TID。设A为另一个数据项集合,当且仅当A包含于T时称交易T包含A。一个关联规则就是具有“A=B”的蕴含式;其中有A包含于I,B包含于I且A与B交集非空。规则A=B在交易数据集D中成立,且具有S支持度与C信任度,也就意味着交易数据集D中有S比例的交易T包含A或B的数据项,且D中有C比例的交易T满足“若包含A就包含B(B|A)” 满足最小支持度阈值和最小信任度阈值的关联规则称为强规则,三、关联规则,可信度:设事务集D中支持物品集X的事务中,有C%的事务同时支持物品集Y,则C%称为关联规则X、Y的可信度,简单来说,可信度是指在出现了项集X的事务T中,项集Y也同时出现的概率,三、关联规则,支持度:事务集D中有S%的事务同时支持物品集X,Y,则称S%为关联规则的支持度,即支持度描述了X与Y的并集在所有事务中出现的频率,三、关联规则,频繁项集:一个数据项的集合就称为项集,包含K个数据项的项集称为K-项集。 一个项集的出现频度就是整个交易数据集D中包含该项集的交易记录数,也称为该项集的支持度。 若一个项集的出现频度大于最小支持度阈值乘以交易记录集D中的记录数,那么就称该项集满足最小支持度阈值; 而满足最小支持度阈值所对应的交易记录数称为最小支持频度; 满足最小阈值的项集称为频繁项集,三、关联规则,关联规则挖掘的步骤: 发现所有事务中支持度大于最小支持度的项集,即频繁项集 根据所获得的频繁项集,产生相应的强关联规则(对于两个频繁项集,由于本事具有大于最小支持度的支持度,故所组成的关联规则的支持度必然大于最小支持度) 可以看出,如果找到频繁项集,那么很容易得出关联规则,因此第一步是关联规则挖掘的关键。对于第二步,只需要在已经挖掘出的频繁项集上列出所有可能的关联规则,然后用最小支持度阈值和最小可信度阈值来衡量这些关联规则,并取出我们感兴趣的关联规则即可。对于第一步,介绍一下经典的频繁项集挖掘算法 Apriori算法,四、Apriori算法,Apriori算法首先计算所有1-项集C1,找出所有频繁1-项集L1,然后根据频繁1-项集确定候选2-项集C2,从C2中找出所有频繁2-项集L2,在L2中选出C3,以此类推,直到不再有候选项集为止。 其过程如下: Lk:所有频繁k项集的集合;Ck:所有候选k项集的集合 通过单趟遍历数据库D,计算出各个1-项集的支持度,构成L1 在Lk中,用联合(join)运算生成候选项集Ck+1 联合运算:若p,q包含于Lk,p=p1,p2,.,pk-1,q=q1,q2,qk-1,且当1ik-1时有pi=qi,当i=k-1时有pk-1qk-1,则p与q的并集是候选项集Ck+1中的一个项集。 计算Ck中的支持度,将小于最小支持度的候选集删除,满足的构成频繁项集Lk+1,继续迭代循环,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论