版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、,数学科学学院周书锋,1,第1章 数据仓库概述,数学科学学院周书锋,2,n n n,数据仓库基础.段云峰等译.电子工业出版社.2004 年4月(Data Warehousing Fundamentals. Paulraj Ponniah) 数据仓库原理与实践.林宇.人民邮电出版社.2003 年1月 数据仓库与数据挖掘.陈文伟.人民邮电出版 社.2004年1月,& 教材,数学科学学院周书锋,3,引言:,n,主要介绍从数据库到数据仓库的演变过程, 着重说明“蜘蛛网”问题产生原因以及随之而 来的种种问题。为此,必须将操作型环境和 分析型环境分离,使企业由以数据库为中心 的生产环境过渡到以数据仓库为中
2、心的生产 环境。最后简要介绍数据仓库技术的应用前 景。,数学科学学院周书锋,4,内容 1.1、数据库到数据仓库的演变 1.2、操作型系统和分析型系统的分离 1.3、数据仓库定义 1.4、数据仓库解决的问题 1.5、数据仓库体系结构 1.6、数据仓库的运行结构 1.7、一个现实的问题 1.8、数据仓库应用前景,数学科学学院周书锋,5,1.1数据库到数据仓库的演变,n,1、蜘蛛网问题,n 2、蜘蛛网现象 n 3、蜘蛛网问题特征,数学科学学院周书锋,6,1、蜘蛛网问题,n,随着数据库技术的广泛应用,企业的运营环 境逐渐转化为以数据库为中心。企业对数据 的需求是多方面的(企业级、部门级、个人 级),这
3、样随着数据逐层提取就会形成一种 “蜘蛛网”结构,使数据的访问相当复杂。,数学科学学院周书锋,7,2、蜘蛛网现象,部门,个人,个人,部门,部门,部门,企业级,数据库,部门,个人,部门,个人,企业级,数据库,个人,个人,个人,个人,个人,个人,个人,数学科学学院周书锋,8,3、蜘蛛网问题特征,n,数据分析的结果缺乏可靠性,n,电信公司“市场部”和“计划部”对同一业务得出截 然相反的结果。,n,数据处理的效率很低,n,错综复杂的体系结构中,不同级别的数据库可能 使用不同类型的数据库系统。大型:Oracle、 DB2;中型:MicrosoftSQLServer; 小 型:Foxpro、MySQL。,n
4、,难于将数据转化为信息,n,综合数据处理复杂,分析程序1,不同部门分析过程的差异,企业级数据,计划部,外部市场信息A,外部市场信息B 外部市场信息C,外部信息,分析程序2 数学科学学院周书锋,分析结果2:,业务A没有 场前景 9,抽取数据的内容不同,分析程序和分析内容不同 分析结果1: 业务A市场 前景很好,抽取数据的时间不同 2001/03/05 市场部,2001/03/25,数学科学学院周书锋,10,1.2操作型和分析型系统分离,n,背景:,n n n n,目前,随着技术的发展和应用需求的不断提高, 以及当前的市场形势促使企业必须保持旺盛活 力。 关键:适时掌握准确信息,利用这些信息作出正
5、 确决策。 获取和利用信息的方式就是建立覆盖企业所有部 门的企业综合信息系统。 采用不同技术使得信息必须一致、准确,数学科学学院周书锋,11,操作型处理和分析型处理,n,数据处理:,n n,操作型:以传统的数据库为中心进行企业的日常 业务处理。如:电信计费系统,银行系统。 分析型(信息型):以数据仓库为中心分析数据 背后的关联和规律,为企业的决策提供可靠有效 的依据。如:对超市近期数据分析发现畅销商 品;对连锁店各个营业点不同时期营业情况的分 析。,n,处理目标:,n n,操作型:操作员使用,实现企业的业务运营 分析型:企业的中高层管理者或从事数据分析的 工程师,为企业的决策者提供支持信息。,
6、数学科学学院周书锋,12,客户数据库,计费数据库,财务数据库,操 作,型 系,统,面向操作人员,解决业务运营问题,某个数据库 只包含企业中的部分信息,数据仓库,系 统,面向管理人员,解决决策支持问题,数据仓库中 包含企业中整体的宏观信息 分 析 型,数学科学学院周书锋,13,两种处理的区别,分析型数据 表示业务处理的静态情况(综合 提炼) 处理过去历史数据 不可更新,只读型用户 是综合的提炼的结论性数据 操作需求事先并不知道,不知道 下一步用户要做什么 少数查询访问大量数据 对性能要求宽松 面向分析,支持管理需求 用户需理解数据库得出结论,操作型数据 表示业务处理的动态情况(细 节) 存取瞬时
7、数据 可更新,由企业录入员录入 处理业务细节问题 操作需求事先可知,可按预计的 工作量进行优化 有许多事务,影响局部数据 对性能要求高 面向应用,支持日常操作 用户只输入数据,数学科学学院周书锋,以数据库为中心,数据库,应用B 应用C,生产环境 应用A,数据库,以数据仓库为中心 应用A,应用B,应用C,数据库,分析应用A,分析应用B,分析应用C 14,生产环境,数学科学学院周书锋,15,1.3数据仓库定义,n,数据仓库定义:(数据仓库之父W.H.Inmon),n n,DataWarehouse:是一个面向主题的、集成的、 非易失的(稳定的)且随时间变化的数据集合, 用来支持管理人员的决策。 面
8、向主题:指围绕企业的基本实体设计的;如: 城市数据仓库,可考虑人口总数、人均工资水平 等。但是,企业业务系统是以优化事务处理的方 式来构造数据结构的,对于某个主题的数据常常 分布在不同的业务数据库中。,16,收益数据,客户数据,市场数据,客户服务 数据库,财务数据库 面向主题的数据仓库 数学科学学院周书锋,市场信息 数据库,计费数据库 现,有 业 务,系 统,数学科学学院周书锋,17,n n n,数据集成:决策支持系统需要集成的数据。全面 而正确的数据是有效分析和决策的首要前提,相 关数据收集得越完整,得到的结果就越可靠。 通过设计实现命名协议、关键字、关系、编码的 一致等手段使数据库中的分散
9、数据经过汇总、提 炼而集成在一起; 决策支持系统需要的不是静态的集成,而是动态 的集成。数据仓库必须能够使集成数据以一定的 周期进行刷新。,数学科学学院周书锋,18,n n n,非易失:数据不进行实时更新,数据经过复 杂的提取过程后定期转入数据仓库。随时间 按不同时段组织数据。 数据仓库中的数据只能增加不能随意删除; 可看成是一个“虚拟的只读型”数据库系统; 数据仓库为了能在尽量短的时间内将数据呈 现给使用人员,使用所谓的“空间换时间”技 术,增加了数据的冗余度,从而减小系统的 响应时间。,数据仓库系统 数据稳定性,时间:3月24日 客户号:1001 费用(元):220 19,数据仓库中又 增
10、加一条记录 数学科学学院周书锋,业务运营系统,客户号:1001 费用(元):200 23日数据提取 记录号:XXX 时间:3月23日 客户号:1001 费用(元):200,客户号:1001 费用(元):220 24日数据提取 记录号:XXX 时间:3月23日 客户号:1001 费用(元):200 记录号:XXX,数学科学学院周书锋,20,0 10 25 32,45,52,t1,t2,t3,t4,t5,t6,数据仓库的 快照集合,业务系统的运营 数据仓库数据随时间变化的特点,数学科学学院周书锋,21,数据仓库定义(续),n,数据仓库的开拓者SeanKelly认为数据是:,n n n n n n
11、n,彼此分离 可利用的 综合的 包含时间标记的 面向主题的 非易失的 能访问的,数学科学学院周书锋,22,1.4数据仓库解决的问题,n,数据仓库技术可以解决事务处理相关的决策 问题,具有动态集成和综合处理能力,n n n,解决“业绩下降10%”与“业绩上升15%”的问题 解决企业环境中多数据源及数据不一致性问题 充分而高效地利用企业积累的大量历史数据,n,数据仓库中主要存储历史数据和大量的汇总数据,因而 基于历史数据的分析在数据仓库系统中则非常方便,且 效率显著提高。,n,进行辅助决策分析,n,基于数据挖掘、数据抽取和决策支持,数学科学学院周书锋,23,1.5数据仓库体系结构,n,背景:,n
12、n n,数据仓库技术是随着计算机技术的飞速发展而产 生的; 传统的数据库技术是单一的数据资源,即数据库 为中心,进行事务处理、批处理到决策分析等; 由于计算机和网络的应用,计算向两个方向拓 展:,n n,广度计算:把计算机的应用范围尽量扩大,同时实现广 泛的数据交流 深度计算:对以往的大量简单数据操作,提出更高的要 求,希望计算机能够更多地参与数据分析与决策地制定,数学科学学院周书锋,24,数据仓库体系结构(续),n,数据库和数据仓库应用的出发点不同,数据 仓库将独立于业务数据系统,但是数据仓库 又同业务数据库系统息息相关;不是简单地 对数据进行存储,而是对数据进行“再组织” 定期由业务数据库
13、综合、提炼后转入到数 据仓库,为后期分析做准备。,数据挖掘系统/数据展现系统,数据仓库存储,数据 市场,数据,数据,数据 市场,数据 市场,数据 市场,企业外部数据,提 取 仓 库 25,数据清洗/转换 数据提取 业务操作型系统 数学科学学院周书锋,关系数据库,数据文件,其他数据,数据仓库,管理工具,抽取、转换 装载 元数据,数据建模 工具,综合数据,当前数据,历史数据,用户查询,工具,C/S工具 OLAP工具,DM工具,数据源,仓库管理 数据仓库 数学科学学院周书锋,分析工具 26,数据仓库系统结构,数学科学学院周书锋,27,数据集市,n n n,数据仓库是企业级的,能为整个企业各个部 门的
14、运行提供决策支持手段; 数据集市:则是部门级的,一般只能为某个 局部范围内的管理人员服务,因此也称为部 门级数据仓库(DepartmentData Warehouse) 两种数据集市,n n,从属数据集市:数据直接来源于数据仓库 独立数据集市:数据直接来源于各生产系统,数学科学学院周书锋,28,数据集市结构,数据源 数据仓库 从属数据集市 数据分析,数据源 独立数据集市 数据分析,数学科学学院周书锋,29,数据仓库软件工具集,n,包括两类分析工具,n,查询工具,n n,可视化工具:以图形化方式展示数据,帮助了解数据的 结构、关系以及动态性; 多维分析工具(OLAP):通过对信息的多种可能的观
15、察形式进行快速、一致和交互性的存取,方便用户对数 据进行深入的分析和观察;,n,挖掘工具,n,从大量数据中挖掘具有规律性的知识,常采用数据挖掘 (DM)工具;,数学科学学院周书锋,30,体系结构的稳定性,n,稳定性,n n n,体系结构的本质特性是稳定性,但需求是流动; 任何体系结构,不管多么坚固和灵活,总有有限 的扩展; 体系结构应提供一个灵活的平台,在高度连贯而 松散结合的框架下包容许多可能性,才能避免冲 击,在发展的环境中持续提供服务;,数学科学学院周书锋,31,维数据结构,n,数据仓库侧重于维间数据结构的区分;,n n n n n,时间维 地点维 客户维 产品维 事实维,数学科学学院周
16、书锋,32,数据仓库体系结构的基本特点,n n,数据仓库中存储的信息越有价值,保密就越 重要。为了采取防范措施,通常在网络层和 后端数据仓库中,采用对工作组授权的方 法,以防范有意的或偶然的攻击和破坏 体系结构必须是灵活的,它必须能适应不断 变化的商业规则和环境,允许对其进行有效 的修改、指导和管理,所以数据仓库必须是 可移植的。,数学科学学院周书锋,33,基本特点(续),n,特点:,n n n n n,安全性、健壮性、可移植性和灵活性: 开放性:使用公开的标准,独立于某个主导企 业,或在主要的技术设计上代表实事标准,应用 程序接口通过更改控制来发布和修改 一致性:单独的组件有定义良好的接口,
17、不受其 他组件实现的改变的影响 可维护性:通过对由于环境的变化而改变或磨损 的特性进行常规检查,系统的生命周期可以延长 可扩展性:系统组件可用于新的不可预见的环境,数学科学学院周书锋,34,基本特点(续),n n n n,工具化:系统有内置传感器或数据收集设备这 样,如果出现问题,无需大量工作就可以诊断; 可重用性:组件定义良好,可以进行配置管理; 连通性:信息和功能可以通过预定义的接口、路 径和系统其他地方的连接,包括跨分布式节点的 连接得到; 可缩放性:当增加系统组件处理增大的数据量、 用户和处理需求时,系统性能提高,并呈线性或 近似线性增长;,数学科学学院周书锋,35,1.6数据仓库的运
18、行结构,n,数据仓库应用是一个典型的客户/服务器 (C/S)结构。,n n n,服务器端:对外提供服务,主要有各种辅助决策 的SQL查询、复杂的计算和各类综合功能等; 客户端主要做:客户交互、格式化查询、结果显 示和报表生成等; 注:随着网络的广泛应用提出了三层C/S结构, 即在客户与数据仓库服务器之间增加一个多维数 据分析(OLAP)服务器;,数学科学学院周书锋,36,数据仓库应用的三层C/S结构,OLAP 如SASMDDB,数据仓库 BO,IBMOLAPServer Cognos、WebEIS,数学科学学院周书锋,37,1.7一个现实的问题,n n n,企业的数据仓库建设不是一蹴而就,其基
19、础 和必须进行的工作是数据的不断积累与重 组。一旦历史数据达到一定规模,就会自然 推动企业引进新的信息技术,采取新的解决 方案;使数据或信息资源更有效地为企业服 务; 数据仓库并不是数据的简单堆积,而是合理 地提出适合企业数据仓库的解决方案 数据仓库技术不仅是技术问题,更是管理问 题。,数学科学学院周书锋,38,1.8数据仓库的应用前景,n,以数据仓库为基础的商业智能系统强大的功 能在实际应用中能带来高利润的回报,所以 在证卷业、银行领域、税务领域、控制金融 风险、保险、客户管理等领域有广泛应用:,数学科学学院周书锋,39,1.客户服务及营销方面的应用,n,客户关系管理(CustomerRelationManagement, CRM),n n n n n n n,客户概况分析(Profiling)层次、爱好、习惯 客户忠诚度分析(Persistency)忠诚、持久性 客户利润分析(Profitability)边缘、总体和净 客户性能分析(Performance)不同客户所消费 的产品按种类、渠道、销售点等划分销售额等 客户未来分析(Prospecting)争取客户 客户产品分析(Product)产品设计、供应链
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 送配电线路检修工复测知识考核试卷含答案
- 球团原料工安全应急模拟考核试卷含答案
- 影视烟火特效员创新方法评优考核试卷含答案
- 重冶固体原料输送工安全专项模拟考核试卷含答案
- 2026年新科教版初中九年级科学下册第一单元生物遗传规律应用卷含答案
- 铸轧工安全检查模拟考核试卷含答案
- 重冶配液工风险评估与管理考核试卷含答案
- 武夷学院《C语言程序设计》课件-第1章C语言概述
- 新药临床试验中的多中心协作伦理规范
- 新材料行业职业病危害因素的识别与监测数据
- 2026年及未来5年市场数据中国戒烟产品行业市场深度研究及投资战略规划报告
- 简阳市中小企业融资担保有限公司2026年招聘金融科技部工作人员等岗位笔试参考题库及答案解析
- 2026上海市闵行区区管国企招聘42人备考题库含答案详解(精练)
- 输变电工程可行性研究内容深度规定(2025版)
- 2026中国疾病预防控制中心人事处招聘工作人员笔试备考试题及答案
- 2025年内蒙古鄂尔多斯市康巴什区事业单位考试题及答案解析
- 培训餐厅服务员
- 2026年工业无人机焊接技术报告
- 《城市体检工作手册》(试行)下载
- 2025年甘肃钢铁职业技术学院辅导员考试真题
- 屋顶光伏施工技术规范
评论
0/150
提交评论