数据库系统专题第五章决策支持数据库.ppt_第1页
数据库系统专题第五章决策支持数据库.ppt_第2页
数据库系统专题第五章决策支持数据库.ppt_第3页
数据库系统专题第五章决策支持数据库.ppt_第4页
数据库系统专题第五章决策支持数据库.ppt_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据库系统专题AdvancedTopicsonDatabaseSystems 第五章决策支持数据库 数据库专题讲义 第五章决策支持数据库 5 1数据仓库 DataWarehouse 5 2在线分析处理 OLAP 5 3数据挖掘 DataMining 数据库专题讲义 5 1数据仓库 5 1 1数据库与数据仓库5 1 2数据仓库概念5 1 3数据仓库体系结构5 1 4数据仓库的数据模型5 1 5实例化视图 数据库专题讲义 5 1 1数据库与数据仓库 传统数据库应用 事务处理 操作型数据 以数据为中心 进行事务处理 即对数据库进行日常操作型处理 对一个或一组记录进行查询和更新 人们最关心的是响应时间 数据安全性和完整性新型应用 分析型处理 分析型数据 面向管理人员的决策分析 经常访问大量的历史数据 对数据库进行非常复杂的分析查询 最关心的不是响应时间 而是分析结果 例如 一次质量事故的分析原因 数据库专题讲义 操作型数据与分析型数据的比较 操作型数据细节性可更新操作需求事先可知对性能要求高事务驱动面向应用一次操作数据量小支持日常操作 分析型数据综合性只读操作需求实现不知道对性能要求宽松分析驱动面向分析一次操作数据量大支持管理需求 数据库专题讲义 事务处理环境不适合分析应用 事务处理与分析处理的性能特性不同分析应用程序可能要运行几个小时 消耗大量的系统资源数据集成问题分析应用需要集成的数据 全面而正确的应用是有效分析和决策的首要前提 相关数据收集的越完整 得到的结果越可靠事务处理应用的分散 分析应用需要对分散在多个事务处理应用中的相关数据进行集成 以向分析人员提供统一的视图数据不一致问题 数据应用的分散可能导致多个应用间相关数据的不一致 严重影响分析结果的正确性外部数据和非结构数据 分析应用经常用到外部数据 它不是由事务处理系统产生的 且是非结构化的 数据库专题讲义 事务处理环境不适合分析应用 数据动态集成分析应用需要数据的动态集成 每次分析都进行数据集成代价太大 但静态集成不能将变化的信息反映给决策者 数据的刷新应该是周期性的 事务处理系统不具备动态集成能力历史数据问题事务处理一般只需要当前数据 只存储短期数据 分析应用必须以大量的历史数据为依托数据的综合问题在事务处理系统中积累了大量的细节数据细节数据量很大 严重影响分析效率过多的细节数据不利于分析分析前应对细节数据进行不同程度的综合 数据库专题讲义 5 1 2数据仓库概念 数据仓库是作为DSS服务基础的分析型DB 用来存放大容量的只读数据 为决策提供信息数据仓库是与操作型数据相分离的 基于标准企业模型集成的 带有时间属性的 即与企业定义的时间区段相关 面向主题及不可更新的数据集合数据仓库是一个更好地支持企业或组织的决策分析处理的 面向主题的 集成的 不可更新的 集成的 随时间不断变化的数据集合 数据库专题讲义 主题与面向主题 主题是指在较高层次上将企业信息系统中的数据综合 归类并进行分析利用的抽象面向主题是指在较高层次上对分析对象的数据的一个完整的 一致的描述 能完整统一地刻画各个分析对象所涉及的各项数据 以及数据之间的联系 数据库专题讲义 OLTP数据组织方式 采购子系统定单定单细节供应商销售子系统顾客销售 库存管理子系统领料单进料单库存库房人事管理子系统员工部门 数据库专题讲义 OLTP数据组织方式 OLTP数据组织是面向应用的OLTP数据组织反映一个企业内数据的动态特征 包括部门内数据流动以及部门间数据输入输出关系面向应用的数据库模式与业务处理流程中涉及的文档有很好的对应关系面向应用的数据组织没有实现数据与应用的分离 其抽象程度不高 数据库专题讲义 OLAP数据组织方式 商品商品固有信息商品采购信息商品销售信息商品库存信息 供应商供应商固有信息供应商品信息顾客顾客固有信息顾客购物信息 数据库专题讲义 OLAP数据组织方式 在数据仓库中一个主题是由一组关系来实现的 但数据仓库中的数据不再是业务处理的流水帐 例如在商品主题中就不再包含订单与领料单等信息每个主题中的信息应该保持独立性 一个主题中的信息可以与其它主题中的信息重复 它必须具有独立的内涵 有明确的界限每个主题中的信息必须具有完备性 一个主题要求包含与该主题有关的所有分析处理用数据信息 数据库专题讲义 数据仓库的特征 面向主题数据仓库的数据是集成的解决数据一致性进行数据综合和计算数据仓库的数据是不可更新的许多数据库技术难点在数据仓库中可以省去复杂查询与复杂索引技术 数据库专题讲义 数据仓库的特征 数据仓库的数据是随时间不断变化的数据仓库随时间变化不断增加新的数据内容数据仓库随时间变化不断删除旧的数据内容数据仓库中包含有大量综合数据 数据库专题讲义 数据仓库与数据库相分离 why 性能需要特殊的数据组织 存取方法和实现方法来支持多维视图和典型的OLAP操作复杂的OLAP查询将降低操作型事务的性能OLTP的并发控制和恢复与OLAP分析不兼容 数据库专题讲义 数据仓库与数据库相分离 why 功能数据丢失 决策分析需要历史数据但操作型数据库典型地并不维护这种数据数据聚合 决策分析需要数据聚合 这种数据聚合在操作型数据库中是冗余数据数据质量 不同的数据源可能使用不一致的数据表示 编码和格式 数据库专题讲义 5 1 3数据仓库体系结构 Monitor Integrator DataWarehouse metadata OLAPServer AnalysisQueryReportsDatamining DataSources Tools Serve DataMarts OperationalDBs othersources 数据库专题讲义 数据源数据源通常是操作型系统 提供最底层数据一般数据源是为操作型使用而设计的 不为决策分析设计的数据源通常是运行在不同的硬件平台和软件系统之上数据源之间存在语义冲突 数据库专题讲义 数据抽取 从外部源数据抽取数据通常通过网关和标准接口来实现数据清洗 清洗的必要性 如不一致的域长 不一致的描述 值分配等数据装入 检查一致性约束 排序 概括 聚集 导出表的计算 建立索引和其它存取路径 分片到各个存储区 数据库专题讲义 数据刷新 根据数据源的变化来修改数据仓库中的数据刷新时间周期地或随时地刷新方式数据移动 使用触发器来修改快照日志表 并将修改后的数据传送到数据仓库中事务移动 将事务日志中的数据修改发送到数据仓库中 数据库专题讲义 监控器检测数据源的变化定义触发器检查日志文件中的修改对于遗产系统要编写额外的程序将数据源的变化传送给集成器 数据库专题讲义 集成器接受来自监控器的变化使得数据与数据仓库概念模式一致将数据变化集成到数据仓库中与现有数据进行合并解决可能的修改异常 数据库专题讲义 元数据源数据库和内容gateway描述数据仓库模式 视图 导出数据定义维定义和维层次预定义查询数据集市的位置和内容数据分片数据抽取 清洗和转换规格数据刷新规则安全 用户授权 存取控制 数据库专题讲义 数据集市 数据集市是企业内部部门级数据仓库的 小型的 面向部门或工作组的数据仓库 数据集市的作用自下而上地进行数据仓库的构建自上而下建立面向部门级的数据分析集 数据库专题讲义 自下而上的数据仓库构建 数据库专题讲义 自上而下建立面向部门级的数据分析集 采购子系统 销售子系统 库存子系统 人事管理子系统 财务子系统 全局数据仓库 数据抽取 数据在抽取与集成 数据集市 分析应用 数据库专题讲义 一个典型数据仓库数据组织 数据仓库1主题组主题1细节表组汇总表组主题2 数据集市组集市1集市2 数据仓库2 数据仓库n元数据仓 数据库专题讲义 5 1 4数据仓库的数据模型 星型模式 一个事实表连接多个维表雪花模式 星型模式的一种提炼 一个维表可以是一个维层次星座模式 多个事实表共享维表 数据库专题讲义 星型模式 数据库专题讲义 雪花模式 DateMonth Date Measurements MonthYear Month Year Year 数据库专题讲义 查询模型 star net ShippingMethod AIR EXPRESS TRUCK ORDER CustomerOrders CONTRACTS Customer Product PRODUCTGROUP PRODUCTLINE PRODUCTITEM SALESPERSON DISTRICT DIVISION Organization Promotion DISTRICT REGION COUNTRY Geography DAILY QTRLY ANNUALY Time 数据库专题讲义 汇总表 数据仓库中可以存储一些汇总表汇总数据可以作为独立的事实表存储并共享相同的维表在事实表和维表中汇总数据可以进行编码 数据库专题讲义 5 2在线分析处理 OLAP 5 2 1OLAP基本概念5 2 2数据立方5 2 3OLAP索引技术 数据库专题讲义 5 2 1OLAP基本概念 OLTP数据原始数据细节性数据当前值数据可更新一次处理数据量小面向应用事务驱动面向操作人员 支持日常操作 OLAP数据导出数据综合性或提炼性数据历史数据不可更新 但周期性刷新一次处理数据量大面向分析 分析驱动面向决策人员 支持管理需要 数据库专题讲义 OLAP功能 给出数据仓库中数据的多维的逻辑视图通常包含交互式查询和对数据的分析 交互式有多种方法 包括细剖 drills down 和统揽 roll up 提供分析的建模功能 包括可以产生比率 变量的计算引擎 有关的度量 或跨多维的数字数据生成概括数据和聚集 层次 以及在每一维的交叉点上对聚集和概括级别的审计 数据库专题讲义 OLAP功能 支持功能模型一进行预测 趋势分析和统计分析检索并显示二维或三维表格 图表和图形中的数据 并且能容易地变换基准轴极快得响应查询具有多维数据存储引擎 按阵列存储数据 这些阵列是商业维的逻辑表示 数据库专题讲义 6 2 2数据立方 数据立方将频繁涉及聚集函数等费时计算的数据存储在多维数据库中 用来服务于决策支持 数据挖掘等应用CUBE是一个操作算子 用于支持OLAP数据库中的多聚合运算 它是GROUP BY算子的N 维推广 GENERALIZATION CUBE计算属性列表中所有属性的可能组合的GROUP Bys 数据库专题讲义 6 2 2数据立方 selectdate product customer sum amount fromsalescubebydate product customer date product customer date product date customer product customer date product customer ALL 数据库专题讲义 销售数据立方 TotalannualsalesofTVinChina 数据库专题讲义 数据立方上的操作 切片 Slicing 在多维数组的某一维i上给定一个维值 所得的多维数组的子集 称为在维i上的一个切片 如 选定5月 则得到销售渠道与地区在5月的销售情况数据 Product Date market Productm Product1 Product2 Productm 1 market Date Date1 Datep Product market 数据库专题讲义 数据立方上的操作 切块 Dicing 在多维数组的某一维i上给定一个维值的区间 所得的多维数据的子立方 称为在维i上的一个切块 如果给定维的区间中只有一个取值 则为一个切片 如 选定3 5月 则得到销售渠道与地区在3 5月的销售情况数据的立方旋转 Pivoting 就是旋转 rotate 数据立方的轴 以便用户从不同的角度检查 观测数据 旋转的结果是得到不同行 列的报表显示 数据库专题讲义 旋转 产品维 时间维 数据库专题讲义 数据立方上的操作 统揽 Rollup 是指沿一个维或几个维从较细粒度向较粗粒度查询过度的过程 逐步查看高级的概括或聚集的过程 日周月季度年 细剖 Drill down 是指沿一个维或几个维从较粗粒度向较细粒度查询过度的过程 逐步查看细节数据的过程 日周月季度年 数据库专题讲义 Cuboid 数据立方的计算 一个数据立方可以看作为cuboids的类格 一个数据立方是一组group by操作的集合 而一个cuboid则是一个group by操作 这些cuboid构成一个类格 数据库专题讲义 5 2 3OLAP的实现技术 基于多维数据库的OLAP实现 数据库专题讲义 综合数据存放 多维数据库中综合数据的存放 多维数据库中综合数据的存放 数据库专题讲义 5 3数据挖掘 DataMining 5 3 1数据挖掘的概念5 3 2数据挖掘的功能5 3 3数据挖掘的需求与挑战5 3 4文本数据挖掘 数据库专题讲义 5 3 1数据挖掘的概念 why 数据爆炸问题自动数据收集工具和成熟的数据库技术使得在数据库 数据仓库 其他种类信息仓储中积累了海量数据拥有数据宝藏 淹没在数据海洋中 的人们渴求知识数据丰富 信息贫乏数据挖掘 KDD 从大规模数据 库 中抽取有意义的知识 规则 规律 模式 约束 数据库专题讲义 5 3 1数据挖掘的概念 why 数据库技术的发展60s 数据收集 数据库建立 IMS 网状DBMS70s 关系数据模型 关系DBMS实现80s RDBMS 高级数据模型 扩展关系 OO 演绎等 面向应用的DBMS 空间 科学 工程 90s 数据挖掘 数据仓库 多媒体数据库 web技术 数据库专题讲义 潜在的应用需求 数据库分析与决策支持市场分析顾客的购买行为和习惯销售商品的构成销售预测 价格分析 零售点选择汇总信息 包括多维汇总报告 统计汇总信息企业分析投资计划与资产评估资金流分析与预测企业资源计划 ERP 竞争策略 欺诈检测保险诈骗洗钱医药保险诈骗其他应用体育 NBA攻防战术天文 寻找类星体银行 借贷策略医疗 病例分析司法 案件调查工业 故障诊断 过程优化 数据库专题讲义 数据挖掘定义 数据挖掘定义从大规模数据 库 中抽取有意义的信息非平凡的 隐含的 以前未知的 潜在有用的相关术语和别名在数据库中的知识发现 KDD 知识抽取 extraction 数据考古 archeology 数据发掘 dredging 信息采集 harvesting 商业智能 intelligence 非数据挖掘领域 演绎 查询处理专家系统或小型统计编程 决策数据展示数据挖掘数据勘探OLAP 统计分析数据仓库 数据集市数据源 文件 ISP 数据库 OLTP 数据库专题讲义 DataCleaning DataIntegration Databases DataWarehouse Knowledge Task relevantData Selection DataMining PatternEvaluation 数据挖掘 KDD过程 数据库专题讲义 数据挖掘的步骤 学习应用领域知识建立目标数据集 数据选择数据清洗和预处理 maytake60 ofeffort 数据选择与投影 数据挖掘功能的选择汇总 分类 回归 关联 聚类选择挖掘算法 神经元网络 遗传算法 决策树等数据挖掘 查找有意义的模式结果评价与分析使用被发现的知识 数据库专题讲义 数据挖掘的对象 关系数据库数据仓库事务型数据库先进数据库系统和信息仓储面向对象和对象关系数据库空间数据库时序数据与时态数据文本数据多媒体数据异构分布数据库遗产数据库WWW 数据库专题讲义 相关学科 数据库系统 数据仓库 OLAP统计学机器学习可视化技术信息科学高性能计算 其他学科神经元网络数学建模信息检索模式识别 数据库专题讲义 5 3 2数据挖掘的功能 概念描述 特征与比较概括 综合 数据特征对比等关联分析从关联 相关到因果关系例子 同时买牛奶 X 和面包 Y 最小置信度最小支持度分类分析按属性值进行分类指出特征 数据库专题讲义 数据挖掘的功能 聚类分析根据特征聚类指出聚类的规则时间序列分析趋势分析 发展趋势 序列模式 相似序列基于相似性的模式分析周期性分析 数据库专题讲义 知识种类 汇总 关联 分类 聚类 时间序列模式 挖掘知识的抽象层次 底层 高层 多层被发掘的数据库种类 关系型 事务型 面向对象 对象关系 主动 空间 文本 多媒体 异构 采用的数据挖掘技术 面向数据库的 数据仓库的 OLAP 机器学习的 统计学 神经网络 数据挖掘系统分类 数据库专题讲义 挖掘结果的评价 不是所有的挖掘结果都有意义衡量标准易于理解可验证有效性潜在有用主观 客观衡量标准客观 置信度与支持度主观 用户信念 不可预见性 新颖性 完备性查找所有有意义的模式优化问题先生成所有模式 然后过滤无意义的模式仅生成有意义的模式 数据库专题讲义 5 3 3数据挖掘的需求与挑战 挖掘方法问题不同知识种类的发觉在多个抽象层次上的知识发觉数据挖掘查询语言和即席数据发觉数据挖掘结果的表示和可视化噪音和不完整数据的处理模式评价性能问题 挖掘算法的效率和可扩展性并行 分布式和增量发觉方法 数据库专题讲义 数据挖掘的需求与挑战 Cont 与数据类型相关的问题复杂数据类

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论