仓库管理_数据仓库与数据挖掘培训_第1页
仓库管理_数据仓库与数据挖掘培训_第2页
仓库管理_数据仓库与数据挖掘培训_第3页
仓库管理_数据仓库与数据挖掘培训_第4页
仓库管理_数据仓库与数据挖掘培训_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库与数据挖掘 课程简介 1 为什么出现数据仓库与数据挖掘 啤酒与尿布7 112 研究内容从海量数据中找到规律与联系 为决策提供支持3 数据仓库与数据库的不同 数据库与数据仓库 主要学习内容 第一篇数据仓库与OLAP数据仓库联机分析处理技术 OLAP 数据预处理技术数据清洗数据集成和变换数据约简第二篇数据挖掘数据挖掘技术关联规则挖掘 分类 聚类分析数据挖掘在各领域的应用等 主要参考书 1 数据仓库 InmonW H著机械工业出版社2 数据挖掘 概念与技术 JiaweiHan MichelineKamber著机械工业出版社3 数据挖掘 朱明著中国科学技术大学出版社4 数据仓库与联机分析处理 王珊等著科学出版社 考核方法 考核采取笔试结合实验的方法 实验成绩30 笔试成绩70 第一章数据仓库概述 本章介绍了数据仓库技术产生的背景 数据仓库的含义与特征 数据仓库与操作型数据库系统的区别和数据仓库的基本体系结构 1 1数据仓库的产生1 2数据仓库的含义1 3数据仓库的特征1 4数据库系统与数据仓库1 5数据仓库的基本结构1 6数据仓库的基本概念1 7数据仓库的数据组织 1 1数据仓库的产生 1 数据处理分为两类 事物处理分析处理2 传统数据库较难满足分析处理的要求 历史数据需求量大不同系统的数据难以集成 蜘蛛网问题 对大量数据的访问性能不足事务处理和分析处理数据环境的分离 1 2数据仓库的含义 对于什么是数据仓库 还有许多不同的定义 如 数据仓库是融合方法 技术和工具以在完整的平台上将数据提交给终端用户的一种手段 数据仓库是对分布在企业内部各处的业务数据的整合 加工和分析的过程 数据仓库是一种具有集成性 稳定性和提供决策支持的处理 为查询和分析 不是事务处理 而设计的关系数据库 20世纪80年代中期 数据仓库 这个名词首次出现在号称 数据仓库之父 W H Inmon的 BuildingDataWarehouse 一书中 在该书中 W H Inmon把数据仓库定义为 一个面向主题的 集成的 稳定的 随时间变化的数据的集合 以用于支持管理决策过程 Adatawarehouseisasubject oriented integrated non volatile time variantcollectionofdatainsupportofmanagementdecisions WilliamH Inmon 数据仓库是一个面向主题的 集成的 非易失的且随时间变化的数据集合 用于支持管理人员的决策 数据仓库之父 BillInmon WilliamH Inmon WilliamH Inmon是世界公认的 数据仓库之父 是数据仓库及其相关技术网站的合作伙伴 是 企业信息工厂 的创造者之一 他一直致力于数据库和数据仓库技术方面的研究 在数据管理和数据仓库技术方面以及数据处理的管理方面撰写了40多本著作 发表过600多篇学术论文 并且经常应邀在技术和学术会议上演讲 1 3数据仓库的特征 数据仓库的数据是面向主题的数据仓库的数据是集成的数据仓库的数据是非易失的数据仓库的数据是随时间不断变化的 面向主题 主题 Subject 特定的数据分析领域与目标 面向主题 为特定的数据分析领域提供数据支持 数据仓库是面向分析 决策人员的主观要求的 不同的用户有不同的要求 同一个用户的要求也会随时间而经常变化 因此 数据仓库中的主题有时会因用户主观要求的变化而变化的 面向主题 为特定数据分析领域提供的数据与传统数据库中的数据是有不同的 传统数据库中的数据是原始的 基础的数据 而特定分析领域数据则是需要对它们作必要的抽取 加工与总结而形成 面向主题示例 例 一个面向事务处理的 商场 数据库系统 其数据模式如下采购子系统 订单 订单号 供应商号 总金额 日期 订单细则 订单号 商品号 类别 单价 数量 供应商 供应商号 供应商名 地址 电话 销售子系统 顾客 顾客号 姓名 性别 年龄 文化程度 地址 电话 销售 员工号 顾客号 商品号 数量 单价 日期 面向主题示例 库存管理子系统 领料单 领料单号 领料人 商品号 数量 日期 进料单 进料单号 订单号 进料人 收料人 日期 库存 商品号 库房号 库存量 日期 库房 库房号 仓库管理员 地点 库存商品描述 人事管理子系统 员工 员工号 姓名 性别 年龄 文化程度 部门号 部门 部门号 部门名称 部门主管 电话 面向主题示例 如果按照面向主题的方式进行数据组织 首先应该抽取主题 即按照管理人员的分析要求来确定主题 而与每个主题相关的数据又与有关的事务处理所需的数据不尽相同 在每个主题中 都包含了有关该主题的所有信息 同时又抛弃了与分析处理无关或不需要的数据 从而将原本分散在各个子系统中的有关信息集中在一个主题中 形成有关该主题的一个完整一致的描述 面向主题的数据组织方式所强调的就是要形成一个这样一致的信息集合 主题一 商品 商品固有信息 商品号 商品名 类别 颜色等商品采购信息 商品号 供应商号 供应价 供应日期 供应量等商品销售信息 商品号 顾客号 售价 销售日期 销售量等商品库存信息 商品号 库房号 库存量 日期等 主题二 供应商 供应商固有信息 供应商号 供应商名 地址 电话等供应商品信息 供应商号 商品号 供应价 供应日期 供应量等 主题三 顾客 顾客固有信息 顾客号 顾客名 性别 年龄 文化程度 住址 电话等顾客购物信息 顾客号 商品号 售价 购买日期 购买量等 示例了一个电信企业的情况 计费数据库 计费数据库记录了客户的消费情况财务数据库 财务数据库记录了客户的缴费情况客户服务数据库 客户的咨询和投诉情况如果直接基于传统数据库系统进行 客户 和 收益 信息的分析 则需要访问多个数据库才能获得客户或收益各个侧面的信息 收益主题需从计费数据库和财务数据库中了解公司各项业务的收入情况 客户主题则要从计费数据库 财务数据库 客户服务数据库中获得客户消费 交费 咨询等全方位的信息 这样将极大的影响系统处理的时间和效率 并且数据之间的不一致性和不同步等问题将影响决策的可靠性 而以 客户 和 收益 主题组织的数据仓库 将某个主题的全部相关数据集中于一个地方 这样决策者可以非常方便地在数据仓库中的一个位置检索包含某个主题的所有数据 面向主题 每个主题所需数据的物理存储 多维数据库 MDDB Multi DimensionalDataBase 用多维数组形式存储数据 关系数据库 用一组关系来组织数据的存储 同一主题的一组关系都有一个公共的关键字 存放的也不是细节性的业务数据 而是经过一定程度的综合形成的综合性数据 集成的 数据是分散的 由于事务处理应用分散 蜘蛛网问题 数据不一致问题 外部数据和非结构化数据 数据仓库中的数据是为分析服务的 而分析需要多种广泛的不同数据源以便进行比较 鉴别 因此数据仓库中的数据必须从多个数据源中获取 这些数据源包括多种类型数据库 文件系统以及Internet网上数据等 它们通过数据集成而形成数据仓库中的数据 数据仓库中存储的数据一般从企业原来已建立的数据库系统中提取出来 但并不是原有数据的简单拷贝 而是经过了抽取 筛选 清理 综合等工作 这是因为 1 原有数据库系统记录的是每一项业务处理的流水帐 这些数据不适合于分析处理 在进入数据仓库之前必须经过综合 计算 同时抛弃一些分析处理不需要的数据项 必要时还要增加一些可能涉及的外部数据 2 数据仓库每一个主题所对应的源数据在源分散数据库中有许多重复或不一致之处 必须将这些数据转换成全局统一的定义 消除不一致和错误之处 以保证数据的质量 显然 对不准确 甚至不正确的数据分析得出的结果将不能用于指导企业做出科学的决策 3 源数据加载到数据仓库后 还要根据决策分析的需要对这些数据进行概括 聚集处理 事实上 决策支持系统需要集成的数据 全面而正确的数据是有效地分析和决策的首要前提 相关数据收集得越完整 得到的结果就越可靠 因此 对源数据的集成是数据仓库建设中最关键 也是最复杂的一步 集成的 集成的 集成的方法 统一 消除不一致的现象综合 对原有数据进行综合和计算需要考虑的问题 数据格式计量单位数据代码含义混乱数据名称混乱 非易失的 数据仓库中的数据是经过抽取而形成的分析型数据 不具有原始性 主要供企业决策分析之用 执行的主要是 查询 操作 一般情况下不执行 更新 操作 同时 一个稳定的数据环境也有利于数据分析操作和决策的制订 但这也不等于数据仓库中的数据不需要 更新 操作 在需要进行新的分析决策时 可能需要进行新的数据抽取和 更新 操作数据仓库中的一些过时的数据 也可以通过 删除 操作丢弃掉 因此数据仓库的存储管理相对于DBMS来说要简单得多 随时间不断变化 数据仓库中的数据必须以一定时间段为单位进行统一更新 不断增加新的数据内容不断删去旧的数据内容更新与时间有关的综合数据 1 4数据仓库与传统数据库的比较 1 两个系统的主要区别2 两个系统的查询支持不同3 两个系统数据组织模式不同 1两个系统的主要区别 传统数据库系统的主要任务是执行联机事务和查询处理 这种系统称为联机事务处理 OLTP 系统 它们涵盖了一个组织的大部分日常操作 如购买 库存 制造 银行 工资 注册 记帐等 另一方面 数据仓库系统在数据分析和决策支持方面提供服务 这种系统称为联机分析处理 OLAP 系统 两个系统的主要区别概括如下 数据内容 数据库系统管理当前数据 通常 这种数据太琐碎 难以用于决策 数据仓库系统管理大量历史的 存档的 归纳的 计算的数据 提供汇总和聚集机制 并在不同的粒度级别上存储和管理信息 这种特点使得系统容易用于 见多识广 的决策 数据目标 数据库系统是面向业务操作 用于办事员 客户和信息技术专业人员的事务和查询处理 数据仓库是面向主题的 用于知识工人 包括经理 主管和分析人员 的决策分析 数据特性 数据库系统存储的是当前数据 数据是动态变化的 按字段进行更新操作 数据仓库中数据是批量载入的 静态的 系统定期执行提取过程为数据仓库增加数据 这些数据一旦加入 一般不再从系统中删除 数据结构 数据库系统采用面向应用的数据库设计 以高度结构化和复杂的形式组织数据 以适应复杂的事务操作计算的需求 数据仓库通常采用面向主题的星型或雪花数据组织模式 以适应分析决策 数据结构简单 2两个系统的查询支持不同OLTP系统是为了快速回答简单查询 而不是为了存储分析趋势的历史数据而创建的 一般的 OLTP提供了大量的原始数据 这些数据不易被分析 数据仓库需要回答更复杂的查询 而不仅仅是一些像 英国主要城市的商品平均销售价格是多少 之类的简单聚集数据查询 数据仓库需要回答的查询类型可以是简单的查询 也可以是高度复杂的 且还与终端用户使用的查询工具相关 以下是某数据仓库支持的一些查询示例 2008年第三季度 整个英格兰的总收入是多少 2007年英国每一类房产销售的总收入是多少 2008年租借房产业务中每个城市哪个地域最受欢迎 与过去的两年相比有何不同 每个分支机构本月的房产销售月收入是多少 并与刚过去的12个月相比较 如果对于10万英镑以上的房产 法定价格上升3 5 而政府税收下降1 5 对英国不同区域的销售会产生什么影响 在英国主要城市中 哪种类型的房产销售价格高于平均房产销售价格 这与人口统计数据有何联系 3两个系统数据组织模式示例比较 从上述实例 不难看出 1 在从面向应用到面向主题的转变过程中 丢弃了原来有的但不必要的 不适于分析的信息 2 在原有的数据库模式中 有关商品的信息分散在各个子系统之中 面向主题的数据组织方式所强调的就是要形成关于主题一致的信息集合 3 不同主题之间有重叠内容 1 5数据仓库的系统结构 1 三层数据仓库结构数据仓库服务器OLAP服务器前端工具2 数据仓库的运行结构两层数据仓库结构多层数据仓库结构 1 三层数据仓库结构 原则上 数据仓库的系统结构被划分为三层 数据仓库服务器 OLAP服务器和前端工具 1 底层是数据仓库服务器 它几乎总是一个关系数据库系统 数据仓库系统使用后端工具和实用程序从操作数据库和外部信息源加载和刷新它的数据 这些机制统称ETL Extract Transformation Load 工具 它们具有数据抽取 数据清洗 数据转换 数据加载和数据刷新等功能 此外 这一层还包含一个元数据存储 它是关于数据仓库和数据仓库中数据的信息 2 中间层是OLAP服务器 其典型的实现有 关系OLAP ROLAP 模型 即扩展的关系DBMS 它将多维数据上的操作映射为标准的关系操作 多维OLAP MOALP 模型 一种特殊的服务器 它直接实现多维数据操作 3 顶层是客户 它包括查询和报告工具 分析工具和 或数据挖掘工具 例如关联分析 分类分析 预测等 过程模型 数据仓库管理系统 元数据 多维关系数据库 多维数据库 外部操作型数据 数据抽取数据清洁数据装载 管理平台 报表查询工具 数据挖掘工具 OLAP工具 仓库管理 数据建模 数据建模是建立数据仓库的数据模型 数据仓库的数据模型不同于数据库的数据模型在于 数据仓库只为决策分析用 不包含事务处理的数据 数据仓库的增加了时间属性数据 数据仓库增加了一些综合数据 数据仓库的数据建模是适应决策用户使用的逻辑数据模型 仓库管理 元数据管理 最基本的元数据相当于数据库系统中的数据字典 元数据定义了数据仓库有什么 指明了数据仓库中数据的内容和位置 刻画了数据的抽取和转换规则 存储了与数据仓库主题有关的各种商业信息 而且整个数据仓库的运行都是基于元数据的 数据源的元数据数据模型的元数据数据仓库映射的元数据数据仓库使用的元数据 仓库管理 数据处理 异构数据源 企业内部数据存档的历史数据企业的外部数据 软硬件平台不一致ETL过程抽取 Extraction 转换 Transform 装载 Load 分析工具 查询工具 数据仓库的查询不是指对记录级数据的查询 而是指对分析要求的查询 分析工具 多维分析工具 通过对信息的多种可能的观察形式进行快速 一致和交互性的存取 这样便利用户对数据进行深入的分析和观察 多维数据的每一维代表对数据的一个特定的观察视角 如时间 地域 业务等 分析工具 数据挖掘工具 从大量数据中挖掘具有规律性知识 需要利用数据挖掘 DataMining 工具 48 2 数据仓库的运行结构 数据仓库应用是一个典型的客户 服务器 C S 结构形式 客户端所做的工作 客户交互 格式化查询 结果显示 报表生成等 服务器端完成各种辅助决策的SQL查询 复杂的计算和各类综合功能等 数据仓库的运行结构 两层数据仓库结构 数据仓库数据 元数据 数据仓库服务器 数据逻辑数据服务元数据文件服务 客户端 图形用户接口 表示逻辑查询规范数据分析报表格式总结数据访问 50 解释 客户 服务器 C S 是网络上一种重要的组织形式 数据仓库在网络上都是以服务器 Server 形式提供服务 能对网络上多个客户 Client 同时提供服务 数据仓库的运行结构 多层数据仓库结构 多维数据服务器 数据仓库数据 元数据 数据逻辑数据服务元数据文件服务 数据仓库服务器 应用服务器 图形用户接口查询规范数据分析报表格式数据访问 客户端 过滤总结元数据多维视图数据访问 52 OLAP服务器将加强和规范化决策支持的服务工作 集中和简化了原客户端和数据仓库服务器的部分工作 降低了系统数据传输量 这种结构形式工作效率更高 OLAP的三层C S结构 1 6数据仓库的基本概念 1 ETL2 元数据 MetaData 3 数据集市 DataMarket 4 OLAP 1 ETL Extract Transformation Load 数据抽取 转换 加载工具ETL工具就是进行数据的抽取 转换和加载 具体来讲 ETL工具包括 数据提取 dataextract 数据转换 datatransform 数据清洗 datacleaning 和数据加载 dataloading 1 数据提取 DataExtract 从数据仓库的角度来看 并不是业务数据库中的所有数据都是决策支持所必需的 通常 数据仓库按照分析的主题来组织数据 我们只需提取出系统分析必需的那一部分数据 例如 某超市确定以分析客户的购买行为为主题建立数据仓库 则我们只需将与客户购买行为相关的数据提取出来 而超市服务员工的数据就没有必要放进数据仓库 现有的数据仓库产品几乎都提供各种关系型数据接口 提供提取引擎 从关系型数据中提取数据 2 数据转换 DataTransform 由于业务系统可能使用不同的数据库厂商的产品 比如IBMDB2 Oracle Informix Sybase NCRTeradata SQLServer等 各种数据库产品提供的数据类型可能不同 因此 需要将不同格式的数据转换成统一的数据格式 如时间格式 年 月 日 月 日 年 日 月 年 的不一致问题等 3 数据清洗 DataClean 对于决策支持系统来说 最重要的是决策的准确性 因此确保数据仓库中数据的准确性是极其重要的 从多个业务系统中获取数据时 必须对数据进行必要的清洗 从而得到准确的数据 所谓 清洗 就是将错误的 不一致的数据在进入数据仓库之前予以更正或删除 以免影响决策支持系统决策的正确性 4 数据加载 DataLoad 数据加载部件负责将数据按照物理数据模型定义的表结构装入数据仓库 包括清空数据域 填充空格 有效性检查等步骤 2 元数据 MetaData 元数据是描述数据的数据 元数据通常包括 数据仓库结构的描述信息 包括仓库模式 视图 维 层次结构和导出数据的定义 以及数据集市的位置和内容 操作元数据 包括数据血统信息 来自何处以及如何转换的 数据流通信息 主动的 档案的或净化的 以及监视信息 仓库使用统计 错误报告 审计跟踪 汇总用的算法 包括度量与维定义算法 数据粒度 分割 主题域 聚集 汇总 预定义查询与报告的算法 由操作环境到数据仓库的映射信息 包括源数据库和它们的内容 ETL程序描述 数据分割 提取 清理和转换的规则和缺省 数据刷新和裁减的规则以及数据安全信息 用户授权和存取控制 关于系统性能的数据信息 除刷新 更新和复制周期的定时和调度的规则外 还包括改善数据存取和检索性能的索引和配置 商务元数据 包括商务术语和定义 数据拥有者信息和收费策略 数据仓库包括不同级别的综合 元数据是其中一种类型 其它类型包括当前的细节数据 几乎总是在磁盘上 老的细节数据 通常在三级存储器上 稍加综合的数据 以及高度综合的数据 可以存入仓库也可以不存入 3 数据集市 DataMarket 建立数据集市的原因数据仓库是一种反映主题的全局性数据组织 但是 全局性数据仓库往往太大 在实际应用中将它们按部门或个人分别建立反映各个子主题的局部性数据组织 它们即是数据集市 因此 有时我们也称它为部门数据仓库 例 在有关商品销售的数据仓库中可以建立多个不同主题的数据集市 商品采购数据集市库房使用数据集市商品销售数据集市 60 数据集市 DataMarts 是一种更小 更集中的数据仓库 为公司提供分析商业数据的一条廉价途径 DataMarts是指具有特定应用的数据仓库 主要针对某个应用或者具体部门级的应用 支持用户获得竞争优势或者找到进入新市场的具体解决方案 数据集市概念 数据集市类型 按照数据获取来源 独立型 直接从操作型环境获取数据 从属型 从企业级数据仓库获取数据 独立数据集市 IndependentDataMart 从属数据集市 DependentDataMart 4 OLAPOLAP On lineAnalyticalProcessing 在线分析处理或联机分析处理 就是一个应用广泛的数据仓库使用技术 它可以根据分析人员的要求 迅速灵活地对大量的数据进行复杂的查询处理 并以直观的容易理解的形式将查询结果提供给各

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论