




已阅读5页,还剩77页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中医药信息基础 讲义 数据仓库与数据挖掘 2009年 9月 秋季第一学期 中国中医科学院中医药信息研究所 赵东升 主要内容 数据仓库与数据挖掘简介 数据仓库基本原理与应用 数据挖掘基本原理与应用 一、数据仓库与数据挖掘概述 (一)数据仓库的兴起 (二)数据挖掘的兴起 (三)数据仓库和数据挖掘的结合 (一) 数据仓库的兴起 1 从数据库到数据仓库 2 从 OLTP到 OLAP 1 从数据库到数据仓库 如何处理一下问题? ( 1) “ 数据太多,信息不足 ” ( 2)异构环境的数据的转换和共享 ( 3)从进行数据处理发展为利用数据支持决策 ( 1)数据库 :用于事务处理 数据库作为数据资源用于管理业务中的事务处理。它已经成为了成熟的信息基础设施。 数据库中存放的数据基本上是保存当前数据,随着业务的变化随时在更新数据库中的数据。 不同的管理业务需要建立不同的数据库。例如,银行中储蓄业务、信用卡业务分别要建立储蓄数据库和信用卡数据库。 ( 2)数据仓库 :用于决策分析 数据仓库用于决策分析 数据仓库既保存过去的数据又保存当前的数据 数据仓库的数据是大量数据库的集成 对数据库的操作比较明确,操作数据量少。对数据仓库操作不明确,操作数据量大 ()数据库与数据仓库对比 数据库 数据仓库 细节的 综合或提炼的 在存取时准确的 代表过去的数据 可更新的 不更新 一次操作数据量小 一次操作数据量大 面向应用 面向分析 支持管理 支持决策 2 从 OLTP到 OLAP (1) 联机事物处理( OLTP) (2) 联机分析处理( OLAP) (3) OLTP与 OLAP的对比 (1) 联机事物处理( OLTP) 联机事物处理( On Line Transaction Processing, OLTP)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。 OLTP应用要求多个查询并行,以便将每个查询分布到一个处理器上。 OLTP的特点在于事务处理量大,但事务处理内容比较简单且重复率高。 OLTP处理的数据是高度结构化的,涉及的事务比较简单,数据访问路径是已知的,至少是固定的。 OLTP面对的是事务处理操作人员和低层管理人员。 (2) 联机分析处理( OLAP) 决策分析需要对多个关系数据库共同进行大量的综合计算才能得到结果。 E.F.Codd在 1993年提出了多维数据库和多维分析的概念,即联机分析处理( On Line Analytical Processing, OLAP)概念。 关系数据库是二维数据(平面),多维数据库是空间立体数据。 OLAP的基本思想是决策者从多方面和多角度以多维的形式来观察企业的状态和了解企业的变化。 (3) OLTP与 OLAP的对比 OLTP OLAP 细节性数据 综合性数据 当前数据 历史数据 经常更新 不更新,但周期性刷新 一次性处理的数据量小 一次处理的数据量大 对响应时间要求高 响应时间合理 面向应用,事务驱动 面向分析,分析驱动 (二)数据挖掘的兴起 1 从机器学习到数据挖掘 2 数据挖掘含义 3 数据挖掘与 OLAP的比较 4 数据挖掘与统计学 1 从机器学习到数据挖掘 学习是人类具有的智能行为,主要在于获取知识。 机器学习是研究使计算机模拟或实现人类的学习行为,即让计算机通过算法自动获取知识。 机器学习是人工智能领域中的重要研究方向。 20世纪 60年代开始了机器学习的研究。 (1) 1980年在美国召开了第一届国际机器学习研讨会; 明确了机器学习是人工智能的重要研究方向 (2) 1989年 8月于美国底特律市召开的第一届知识发现( KDD) 国 际学术会议; 首次提出知识发现概念 (3) 1995年在加拿大召开了第一届知识发现和数据挖掘( DM) 国际学术会议; 首次提出数据挖掘概念 (4) 我国于 1987年召开了第一届全国机器学习研讨会 。 2 数据挖掘含义 知识发现( KDD) :从数据中发现有用知识的整个过程。 数据挖掘( DM) : KDD过程中的一个特定步骤,它用专门算 法从数据中抽取知识。 如在人类数据库中挖掘知识为: (头发 =黑色) (眼睛 =黑色) 亚洲人 该知识覆盖了所有亚洲人的记录。 3 数据挖掘与 OLAP的比较 OLAP:多维、多层次分析 OLAP的典型应用,通过商业活动变化的查询发现的问题,经过追踪查询找出问题出现的原因,达到辅助决策的作用。 数据挖掘:发现规律、预测未来 数据挖掘任务在于聚类(如神经网络聚类)、分类(如决策树分类)、预测等。 4 数据挖掘与统计学 统计学与自然、经济、社会都有紧密的关系。 其法则和方法是概率论。 通过对全部对象(总体)进行调查,为制定计划和决策提供依据。 统计学中应用于数据挖掘的内容 常用统计(均值、方差等) 相关分析 回归分析 假设检验 聚类分析 判别分析 主成份分析 统计学与数据挖掘的比较 统计学主要是对数量数据(数值)或连续值数据(如年龄、工资等),进行数值计算(如初等运算)的定量分析,得到数量信息。 数据挖掘主要对离散数据(如职称、病症等)进行定性分析(覆盖、归纳等),得到规则知识。 统计学与数据挖掘是有区别的。但是,它们之间是相互补充的。 (三)数据仓库和数据挖掘的结合 1 数据仓库和数据挖掘的区别与联系 2 基于数据仓库的决策支持系统 1 数据仓库和数据挖掘的区别与联系 ( 1)数据仓库与数据挖掘的区别 ( 2)数据仓库与数据挖掘的关系 ( 3)数据仓库中数据挖掘特点 ( 1) 数据仓库与数据挖掘的区别 数据仓库是一种存储技术,它能适应于不同用户对不同决策需要提供所需的数据和信息。 数据挖掘研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。数据挖掘的数据源可以是数据仓库,也可以是其它形式(数据文件等) ( 2)数据仓库与数据挖掘的关系 数据仓库与数据挖掘都是数据分析和决策支持的新技术。但它们有着完全不同的辅助决策方式。 在数据仓库系统的前端的分析工具中,数据挖掘是重要工具之一。它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。 由于数据仓库中有大量稳定的数据,基于数据仓库的数据挖掘,是数据挖掘的重要方向之一 ( 3)数据仓库中数据挖掘特点 数据挖掘从数据仓库中挖掘更深层次的信息 数据仓库为数据挖掘提出了新要求 数据挖掘需要可扩展性 数据挖掘方法需要能挖掘多维知识 2 基于数据仓库的决策支持系统 数据仓库的决策支持功能有: (1) 对当前和历史数据完成查询和报表处理 (2) 可以用不同方法进行 “ 如果,将怎样 ( what-if) ” 分析 (3) 从综合数据到细节数据,深入追踪钻取查 询,寻找问题出现原因 (4) 认清过去的发展趋势,并将其应用于对未 来结果的分析 数据仓库中有大量的综合数据,为决策者提供了综合信息。数据仓库保存有大量历史数据,通过预测模型计算可以得到预测信息。 联机分析处理( OLAP)对数据仓库中的数据进行多维数据分析,即多维数据的切片、切块、旋转、钻取等,得到更深层中的信息和知识。 数据挖掘( DM)技术能获取关联知识、时序知识、聚类知识、分类知识等。 数据仓库( DW)、联机分析处理( OLAP)、数据挖掘( DM)等结合,形成决策支持系统。 二 数据仓库基本原理与应用 (一)数据仓库定义和特点 (二) 数据字典与元数据 (三) 数据仓库的结构体系 (四)数据仓库的数据模型 (五)数据仓库的数据分析工具 (六)数据仓库的开发流程 (一) 数据仓库的定义与特点 1. 数据仓库定义 W.H.Inmon在 建立数据仓库 一书中,对数据仓库的定义为:( Building the Data Warehouse,William H. Inmon, 1993) 数据仓库是面向主题的、集成的、随时间变化的非易失性数据的集合,用于支持管理层的决策过程。 SAS软件研究所观点: 数据仓库是一种管理技术 , 旨在通过通畅 、合理 、 全面的信息管理 , 达到有效的决策支持 。 2. 数据仓库特点 面向主题 集成性 非易失性(稳定性、非活性) 随时间变化 ( 1)面向主题 数据仓库的面向主题与数据库的面向应用相对应。 主题是在较高层次上进行数据归类的标准,每一个主题基本对应一个宏观的分析领域。 例如,银行的数据仓库的主题:客户 DW的客户数据来源: 从 银行储蓄 DB、信用卡 DB、贷款 DB等三个 DB中抽取同一客户的数据整理而成。 在 DW中分析客户数据,可决定是否继续给予贷款。 数据进入数据仓库之前,必须经过加工与集成。 对不同的数据来源进行统一数据结构和编码。统一原始数据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等,将原始数据结构做一个从面向应用到面向主题的转换。 ( 2)集成性 数据仓库反映的是历史数据的内容 , 而不是日常事务处理所产生的操作性数据 , 进入数据仓库的数据是极少甚至根本不修改的 。 数据仓库是随时间变化的 数据仓库内的数据时限在 510年 , 故数据的键码包含时间项 , 标明数据的历史时期 , 这适合 DSS进行时间趋势分析 。 而数据库只包含当前数据 , 即存取某一时间的正确的有效的数据 。 ( 3)非易失性 数据仓库是不同时间的数据集合 , 要求数据仓库中的数据保存时限能够满足进行决策分析的需要 , 并且均要标明该数据的历史时期 。 ( 4)随时间变化 (二)数据字典与元数据 1 数据库的数据字典 2 数据仓库的元数据 1 数据库的数据字典 数据字典是数据库中各类数据描述的集合 。 数据项 数据结构 数据流 数据存储 处理过程 2 数据仓库的元数据 在数据仓库中引入了 “ 元数据 ” 的概念,它不仅仅是数据仓库的字典,而且还是数据仓库本身信息的数据。 元数据( metadata)定义为关于数据的数据( data about data),即元数据描述了数据仓库的数据和环境。 数据仓库的元数据除对数据仓库中数据的描述(数据仓库字典)外,还有以下三类元数据 : 关于数据源的元数据 关于抽取和转换的元数据 关于最终用户的元数据 数据仓库概念的理解 数据仓库最根本的特点是相对独立的物理的存放数据,并且这些数据并不是最新的、专有的,而是来源于其他数据库,数据仓库建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析。而事务处理数据库在企业的信息环境中承担的是日常操作性的任务。 到目前为止,数据仓库还是用数据库管理系统来管理其中的数据。因此,数据仓库并不是一个现成的硬件产品或软件产品,而是一种解决方案。 (三) 数据仓库的结构体系 1 数据仓库中的数据(数据仓库的结构) 2 数据仓库系统的结构 3 数据仓库运行结构 1 数据仓库中的数据(仓库结构) 元数据 高 度 综 合 数 据层 轻 度 综 合 数 据层 当 前 基 本 数 据层 历史数据层 近期基本数据(当前详细数据, Current Detail Data ):是当前和最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。 历史基本数据(历史详细数据, Older Detail Data ):近期基本数据随时间的推移,由数据仓库的时间控制机制转为历史基本数据。 轻度综合数据( Lightly Summary Data ): 是从近期基本数据中提取出的,这层数据是按时间段选取,或者按数据属性( attributes)和内容( contents)进行综合。 高度综合数据( Highly Summary Data ): 这一层的数据是在轻度综合数据基础上的再一次综合,是一种准决策数据。 2 数据仓库系统的结构 数据仓库系统由数据仓库( DW)、仓库管理和分析工具三部分组成。 3 数据仓库的运行结构 数据仓库应用是一个典型的客户 /服务器 ( C/S) 结构形式: 客户端所做的工作:客户交互 、 格式化查询 、 结果显示 、报表生成等 。 服务器端完成各种辅助决策的 SQL查询 、 复杂的计算和各类综合功能等 。 客户端 数 据 仓 库 服务器 客户端O L A P服务器数据仓库服务器OLAP服务器将加强和规范化决策支持的服务工作,集中和简化了原客户端和数据仓库服务器的部分工作,降低了系统数据传输量。 这种结构形式工作效率更高。 OLAP的三层 C/S结构 (四)数据仓库的数据模型 1 数据概念模型 2 数据组织(存储)方式 3 数据仓库建模 1.数据概念模型 数据仓库一般采用数据的多维模型 在多维数据模型中,一部分数据是数字测量值,比如销售量,它们是依赖于一组 “ 维 ” 的,这些维提供了测量值的上下文关系,比如销售量与城市、产品名称和销售时间有关,城市、产品名称和销售时间这些相关的维唯一确定了销售量这个测量值。 商品 果汁 牛奶 啤酒 可乐 咖啡 1 2 3 4 5 日期 城市 北京 天津 上海 商品 | 城市 | 日期 维就是相同类数据的集合,商店、时间和产品都是维。各个商店的集合是一维,时间的集合是一维,商品的集合是一维。每一个商店、每一段时间、每一种商品就是某一维的一个成员。 每一个销售事实由一个特定的商品、一个特定的时间、一个特定的商品组成。 两维表,如通常的电子表格。三维构成立方体,若再增加一维,则图形很难想象,也不容易在屏幕上画出来。 2 数据组织方式 基于关系表的存储方式 多维数据库存储方式 混合模式 3 数据仓库建模 ( 1)星型模型 由事实表和非标准化的维表组成 ( 2)雪花模型 所有维表都进行标准化 ( 3)混合模型 只有最大的维表才进行标准化 大多数的数据仓库都采用 “ 星型模型 ” 。 星型模型是由“ 事实表 ” ( 大表 ) 以及多个 “ 维表 ” ( 小表 ) 所组成 。 “ 事实表 ” 中存放大量关于企业的事实数据 ( 数量数据 ) 。 例如:多个时期的数据可能会出现在同一个 “ 事实表 ”中 。 “ 维表 ” 中存放描述性数据 , 维表是围绕事实表建立的较小的表 。 星型模型数据如下图: ( 1)星型模型 订货表 客户表 销售员表 事实表 产品表 日期表 地区表 星型模型数据存储情况示意图 雪花模型对星型模型的维表进一步层次化 , 原来的各维表可能被扩展为小的事实表 , 形成一些局部的 “ 层次 ” 区域 。 在上面星型模型的数据中 , 对 “ 产品表 ”“ 日期表 ”“ 地区表 ” 进行扩展形成雪花模型数据见下图 。 ( 2) 雪花模型 (五)数据仓库的分析工具 1 可视化查询工具 2 数据挖掘( DM)工具 3 多维联机分析( OLAP)工具 数据仓库的查询不是指对记录级数据的查询 ,而是指对分析要求的查询 。 可视化工具 以图形化方式展示数据 , 可以帮助了解数据的结构 , 关系以及动态性 。 1 可视化查询工具 从大量数据中挖掘具有规律性知识,需要利用数据挖掘( Data Mining)工具,后面章节详细说明。 2 数据挖掘工具 联机分析处理( On Line Analytical Processing, OLAP) : 在数据仓库系统中, 是重要和最常用的数据分析工具 。 OLAP的基本思想:从多方面和多角度以多维的形式来观察企业信息的状态,了解企业变化。一般的查询只能回答 What, OLAP则回答Why。多维数据的每一维代表对数据的一个特定的观察视角,如时间、地域、业务等。 OLAP的定义:是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。这些信息是从原始数据转换过来的,按照用户的理解,它反映了企业真实的方方面面。 OLAP的两个关键特点:在线( online)和多维。 3 多维分析工具 -OLAP 变量 :变量是数据的实际意义,即描述数据 “ 是什么 ” ,例如 “ 商品销售额 ” ,往往也是待分析的内容。 维 :维是人们观察数据的特定角度。如产品维、顾客维、时间维等。 维的层次 :数据的细节不同程度为维的层次。如日、月、季、年是时间维的层次。 维成员 :维的一个取值称为该维的一个维成员。如 “ 某年某月某日 ” 是时间维的一个成员。 多维数组 :一个多维数组可以表示为:(维 1,维 2, ,维 n,变量), 一个 4维数组结构举例,(产品,地区,时间,销售渠道,销售额)。 数据单元(单元格) :多维数组的取值称为数据单元,如, 4维数据单元(牙膏,上海, 1998年 12月,批发,销售额为 100000元)。 ( 1) OLAP的基本概念术语 切片和切块( Slice and Dice):根据维的限定作投影、选择等数据库操作,从而获取相应数据 旋转 ( Pivoting):将表格(维)的横纵坐标交换 钻取:上钻( Roll up)和下钻( Roll down),根据维的层次提升所关心的数据或降低观察层次 ( 2) OLAP基本分析功能 例如 , 以 “ 产品 、 城市 、 时间 ” 三维数据 , 如图 时间城市产品电视机电冰箱广州上海95 96对三维数据 , 通过 “ 切片 ” , 分别从城市和产品等不同的角度观察销售情况: 电视机电冰箱广州上海切片 切块 ( 1)在多维数组的某一个维上选定某一区间的维成员的操作 切块可以看成是在切片的基础上,确定某一个维成员的区间得到的片段,也即由多个切片叠合起来。 ( 2)选定多维数组的一个三维子集的操作 在多维数组(维 1,维 2, ,维 n,变量)中选定 3个维,维 i、维 j、维 k,在这 3个维上分别取一个区间,或任意维成员,而其它维都取定一个维成员。 三维数据切块 钻取 钻取有向下钻取( drill down )和向上钻取( drill up )操作。 向下钻取是使用户在多层数据中能通过导航信息而获得更多的细节性数据。 向上钻取获取概括性的数据。 例如, 2005年各部门销售收入表如下: 对时间维进行下钻操作,获得新表如下: 2005年 部门 1季度 2季度 3季度 4季度 部门 1 200 200 350 150 部门 2 250 50 150 150 部门 3 200 150 180 270 旋转 通过旋转可以得到不同视角的数据。旋转操作相当于平面数据将坐标轴旋转。例如,旋转可能包含了交换行和列,或是把某一个行维移到列维中去。 或是把页面显示中的一个维和页面外的维进行交换(令其成为新的行或列中的一个) 旋 转 时间维 产品维 产品维 时间维 ( a) 行列交换 旋转以改变 显示布局 时间维 地区维 产品维 时间维 产品维 地区维 2 0 0 5 年 2 0 0 6 年 部门 1 季度 2 季度 3 季度 4 季度 1 季度 2 季度 3 季度 4 季度 部门 1 200 200 350 150 120 200 250 140 部门 2 250 50 150 150 200 180 230 120 部门 3 200 150 180 270 180 200 170 250 旋转前的数据 实例 1 季度 2 季度
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2030避孕植入物行业产业运行态势及投资规划深度研究报告
- 高级职称英语阅读理解真题试卷(2025年押题版)
- 人音版小学音乐二年级上册教学资源计划
- 2.0工程语文教师教材开发计划
- 2024年七年级班主任创新教育实施计划
- 女生投票活动策划方案
- 婚介公司推介会策划方案
- 学校双减体育活动方案
- 学校开活动跳舞活动方案
- 奥运期间宣传活动方案
- 进口肉类项目商业计划书(2024-2030)
- 稀奶油和奶油的加工
- 安全风险分级管控清单
- 肺结节的影像表现与处理原则试题及答案
- DL-T 5117-2021水下不分散混凝土试验规程-PDF解密
- 钢管支架贝雷梁拆除施工方案
- JJG 365-2008电化学氧测定仪
- 居民燃气报装委托书
- (高清版)DZT 0286-2015 地质灾害危险性评估规范
- 辅导员素质能力大赛基础知识试题题库
- 装饰装修工程主要质量通病防治措施
评论
0/150
提交评论