第一讲数据仓库概述_第1页
第一讲数据仓库概述_第2页
第一讲数据仓库概述_第3页
第一讲数据仓库概述_第4页
第一讲数据仓库概述_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库与数据挖掘(DATAWAREHOUSINGANDDATAMINING)厦门大学软件学院2教学方式教学方式课堂教学+实验(15->13=10+3)无指定教材,以电子教案的内容为主线厦门大学软件学院3主要参考书数据仓库基础,[美]PaulrajPonniah著,段云峰等译,电子工业出版社,2004数据仓库,[美]WilliamH.Inmon著王志海等译,机械工业出版社,2006,原书第4版数据挖掘概念与技术,[加]JiaweiHan,MichelineKamber著,范明等译,机械工业出版社,2007厦门大学软件学院4课程考核方法课程作业 2-3次作业 比例:20%平时10%期末考试70%厦门大学软件学院5教学内容——章节安排数据仓库概述维度分析与维度建模数据抽取、转换与转载联机分析处理数据挖掘概述数据预处理挖掘频繁模式、关联与相关分类与预测聚类分析厦门大学软件学院6第一讲数据仓库概述WhyDataWarehousing?DW’sDefinitionDW’sComponentNowandFuture厦门大学软件学院7§1.WhyDW对战略信息的不断增长的需要

以往的决策支持系统的失败操作型系统和决策支持系统数据仓库:唯一可行的解决方案

数据仓库的功能性定义厦门大学软件学院81960年开始的TPS,MIS,DSS20世纪90年代复杂的商业活动零售业

制造业客户忠诚度成本消减市场策划后勤管理金融行业

公益事业风险管理资产管理欺诈检测资源管理航空业

政府机关航线收益率人力计划区域管理成本控制获得竞争优势的行业厦门大学软件学院9一、对战略信息的不断增长的需要战略信息(决策信息,strategicinformation)不为企业日常运作所用商业决策有赖于正确的战略信息战略信息的特点综合性必须有一个独立的、从企业整体来看的视角数据完整性信息必须是准确的、必须符合商业规则可用性必须通过直观方法容易获得的、对于分析是有用的可靠性每个商业因素都必须有且仅有一个值及时性信息必须是在规定时间内准备好的、待用厦门大学软件学院10二、以往的决策支持系统的失败IT部门一直努力为公司关键人物提供用于战略决策的信息忙受不到应有的尊重个人价值无法真正的体现IT部门所作的大部分工作以失败告终从不同的系统查询数据费了九牛二虎之力得到的报表生命如此短暂数据的不一致性数据完整性差用户不能明确的告诉我们他们到底想要什么给了第一张报表,他要另外一张报表厦门大学软件学院11决策支持系统的历史决策支持系统的历史即席查询报表特殊抽取程序小应用程序信息中心决策支持系统主管信息系统厦门大学软件学院12缺乏提供战略信息的能力过去,每个试图提供战略信息的系统都不能令人满意IT部门接到了太多的特别查询要求,负荷过重这些请求不仅量大,而且总在变用户需要越来越多的补充报表,例如各种可能的组合用户只能依赖IT部门,不能直接访问信息IT部门不能提供适合制定战略决策信息灵活、对分析有指导作用的环境厦门大学软件学院13三、

操作型系统和决策支持系统IT部门试图提供决策的战略信息的尝试大都以失败告终!Why???我们一致试图从操作型系统中提供战略信息我们必须构建能提供战略信息的决策支持系统或者信息系统厦门大学软件学院14操作型系统vs.信息型系统操作型系统,OLTP取订单处理呼叫装货开发货单收取现金预定座位信息型系统给我销售量最好的产品名单告诉我出问题的地区告诉我为什么(向下钻取)让我看看其他的数据(横向钻取)显示最大利润当一个地区的销售低于目标值时,提醒我将数据写入数据库从数据库中读取战略信息厦门大学软件学院15操作型系统vs.信息型系统操作型信息型数据内容当前值存档的,推导出来的,总结的值数据结构适于事务处理适于复杂查询访问频率高中、低访问连接类型读取、更新、删除读取使用方法可预知的、反复性的特别查询、随机的、启发式的应用响应时间快一般用户大量较少数厦门大学软件学院16四、数据仓库:唯一可行的解决方案一种新类型的系统环境为分析任务而设计的数据库从多种应用程序获取的数据使用方便,有益于用户的长时间交互式操作大量读取的数据使用用户可以与系统直接交互内容可靠,定期更新数据包括当前的和历史的用户可以查询,并在线得到结果用户可以创建报表厦门大学软件学院17新环境下的需求处理:分析性的处理需求。分为四个层次对当前和历史数据简单查询和报表处理可以用很多不同的方法进行“WhatIf”分析可以查询、后退、分析认清过去的发展趋势,并将其应用于对未来结果的分析厦门大学软件学院18数据仓库的商业智能

BI:BusinessIntelligence操作型系统基本商业处理抽取、清洗、聚合数据转换关键度量,商业维度厦门大学软件学院19五、数据仓库的功能性定义数据仓库是提供战略信息的唯一可行的解决方案数据仓库功能性的定义数据仓库是一种信息环境,它能够:提供对企业综合、完整的概括使决策者所需要的当前数据和历史数据都方便易得无需妨碍操作型系统,也能使支持决策的处理成为可能使企业的信息保持一致性提供了一个灵活的、交互的战略信息来源厦门大学软件学院20数据仓库是信息传递的一种简单概念数据仓库的来源在于对战略信息的需求和对操作型计算环境的不满数据仓库不“创造”新的数据数据仓库概念简单使用所有现存的数据通过清洗、转换提供有用的决策信息厦门大学软件学院21数据仓库是一种环境,而不是产品你不可能买到数据仓库但你可以构建自己的数据仓库数据仓库新型计算环境的特点数据分析和决策支持的理想环境不固定,灵活、交互式操作100%用户驱动适合”提问-回答-再提问”的模式厦门大学软件学院22数据仓库是多种技术的混合体数据仓库的基本概念从操作型系统中提取所有数据在需要的时候可以将外部数据包含其中将多种数据源的所有数据进行整合转换数据,去掉不一致性用适合决策的易于存取的格式存储数据数据建模数据管理数据获取元数据管理分析开发工具应用存储管理数据质量管理§厦门大学软件学院23第一讲数据仓库概述WhyDataWarehousing?DW’sDefinitionDWvs.

DataMartDW’sComponentNowandFuture厦门大学软件学院24数据仓库的创始者BillInmon

:

“ADataWarehouseisasubjectoriented,integrated,nonvolatile,andtimevariantcollectionofdatainsupportofmanagement’sdecisions.”“数据仓库是为支持管理决策建立的,面向主题的,综合的,稳定的,随时间变化的数据集合”数据仓库的开拓者SeanKelly,认为数据仓库中的数据是:彼此分离可利用的综合的§2.数据仓库定义包含时间标记的面向主题的非易失性的能访问的能访问的厦门大学软件学院25“面向主题”的数据在操作型系统中,各行业的数据集合都是围绕单独的应用程序进行组织的在数据仓库中数据是按主题而不是按照应用程序存储的。数据是跨应用程序的订单处理客户贷款顾客帐单可接收帐款索赔处理储蓄帐目销售产品客户帐户索赔政策操作型应用程序数据仓库主题厦门大学软件学院26主题:宏观分析领域所涉及的分析对象 面向主题的数据组织方式:在较高的层次上对分析对象的数据的一个完整、一致的描述。采用面向事务进行数据组织,其特点为:充分考虑企业的部门组织结构和业务活动反映企业内部数据流动情况,业务处理的数据流程与业务处理流程中的单据、票证、文档有良好的对应数据与应用(数据的处理)有一定的对应例:保险公司:面向应用(操作):财产险、寿险、健康险、意外险。面向主题:客户、保单、保费、理赔(赔款)。厦门大学软件学院27储蓄帐户支票帐户贷款帐户主题=帐户来自应用程序的数据数据仓库主题“综合”的数据数据仓库中的数据来自不同的数据库、文件、数据段。(内部或者外部,不同的平台)数据进入数据仓库前,需要进行的标准化工作:命名规则编码数据特性度量单位厦门大学软件学院28数据的“时间特性”数据仓库中的每一个数据结构都包含了时间要素。数据仓库中的数据是和时间变化相关的数据可以对过去进行分析与当前的信息相关可以对未来进行预测厦门大学软件学院29数据的非易变性(相对稳定)操作型系统的数据实时地进行更新,每次交易发生都要更新;数据仓库中的数据非实时性更新数据仓库中的数据用来进行查询和分析的不能在数据仓库中实时地删除数据不能在数据仓库中修改数据决策支持系统操作型系统OLTP数据库数据仓库读取增加修改删除读取厦门大学软件学院30数据粒度(DataGranularity)数据粒度:数据的细节程度在操作型系统中,数据粒度一般都很细。一般不保存加和的数据。在数据仓库中,保存加和这一个数据项。一般来说,按不同层次组织数据,用户是从高层次向低层次的细节过渡。根据需求的不同,需要不同层次的数据细节。每日数据帐户交易日期数额存款取款月汇总帐户月份交易数取款存款期初结余期末结余季度汇总帐户月份交易数取款存款期初结余期末结余银行数据仓库三个层次的数据粒度厦门大学软件学院31第一讲数据仓库概述WhyDataWarehousing?DW’sDefinitionDW’sComponentsNowandFuture厦门大学软件学院32§3.数据仓库的组成部分数据仓库:各个功能块或组件厦门大学软件学院33一、源数据部分主要类别生产数据:多个系统多种数据的标准化、转换、整合内部数据:表格、文档存档数据:旧的历史的数据外部数据:社会的企业,社会的人厦门大学软件学院34二、数据准备部分ETL(ETCL)数据抽取(Extract):多源、异构数据的抽取数据转换(Transform):清洗(Clean)、标准化等过程数据装载(Load)这个过程需要很多的时间最初的装载工作需要载入大量的数据更新周期的决定(年、季、月、日)厦门大学软件学院35三、数据存储部分数据仓库的数据存储器是一个独立的部分与操作型的数据库分开存储大多数数据仓库都采用关系数据库管理系统厦门大学软件学院36四、信息传递部分多种信息传递方式特别的报表复杂的查询多维分析统计分析主管信息系统的需求数据挖掘厦门大学软件学院37五、元数据MetaData描述数据的数据数据仓库内容的一本字典元数据是数据仓库数据本身信息的数据元数据的类型操作型元数据包含了所有操作型数据源的信息抽取和转换元数据包含了源数据系统的数据抽取信息(抽取方法、抽取商业规则)最终用户元数据允许最终用户使用自己的商业术语和自己一般认可的方式来找寻信息元数据对于数据仓库极其重要厦门大学软件学院38第一讲数据仓库概述WhyDataWarehousing?DW’sDefinitionDW’sComponentsNowandFuture厦门大学软件学院39§4.数据仓库的发展趋势数据仓库的持续增长

重要趋势

标准的出现

支持Web的数据仓库厦门大学软件学院40一、数据仓库正在成为主流最初,有4个主要因素促使大量的公司使用数据仓库激烈的竞争环境政府减少管制重构内部流程的需要急需为用户定制的市场销售策略目前,DW存在于可以想象得出的所有行业公益事业、媒体/出版业、航空业、咨询业、零售业、高科技产业、金融服务、制药业、软硬件业、商业服务、制造业、消费者服务业、电信业、保险业、运输业、政府部门、医疗卫生、其他、银行业、法律业、教育、石油化工今天电信和银行业继续在DW投入上保持领先的地位,这两个行业的15%预算都用在了DW的建设上在DW发展初期,建造DW非常昂贵,今天完整的解决方案越来越便宜。厦门大学软件学院41数据仓库的扩张各行各业开始有能力获取、清洗、维护和使用商业交易而产生的大量数据,构建自己的DW电信呼叫交易数量银行消费数量连锁零售业etc.厦门大学软件学院42解决方案和产品最初非常多、而且乱、概念不统一DW供应商>OS、数据库提供商?市场慢慢的成熟起来了数据仓库产品数据整合和清洗数据建模抽取转换数据转移信息服务器关系数据库专用索引数据库多维数据库决策支持OLAP查询和报表数据挖掘管理控制数据仓库支持的应用模块监管系统厦门大学软件学院43二、重要趋势多种数据类型数据可视化并行处理查询工具浏览工具数据融合多维分析代理技术企业组合数据数据仓库和ERP数据仓库和知识管理数据仓库和CRM厦门大学软件学院44多种数据类型增加非结构化数据查询非结构化数据空间数据数据仓库储存库非结构化文档结构化数字数据音频视频空间数据图像结构化文档厦门大学软件学院45数据可视化可视化趋势更多的图表类型交互可视化庞杂结果的可视化高级可视化技术表格的操作向下钻取高级互动打印报表在线显示基本交互下钻高级交互可视查询基本视图演示图表嵌入报表科学图标类型多连接图表企业图表系统简单数字序列多维数据序列实时数据提供大量数据集非结构化文本数据神经数据从小数据集到大型、复杂的结构从静态到动态的可视化厦门大学软件学院46并行处理并行处理的硬件(共享存储、非共享存储)并行处理软件(数据库产品供应商通常提供)数据仓库中实施并行提高查询处理、数据装载和索引创建的性能规模可扩展(CPU、内存数)容错能力厦门大学软件学院47查询工具:DW成败依赖于查询工具灵活的展现方式跨主题区域整合性:整合不同的查询工具克服SQL的局限性厦门大学软件学院48浏览工具一个广泛、普遍的概念,浏览工具的趋势允许定义任何类型的数据或者对象区别不同用户群体的浏览功能能够浏览数据字典或者元数据提供Web浏览和查找技术来浏览信息目录厦门大学软件学院49数据融合合并不同数据源数据的技术DW中数据量巨大,因而就更难在合适的时间找到准确的信息,数据融合技术有望解决这一问题。处于研究阶段,我们目前所能做的就是关注与研究厦门大学软件学院50多维分析每个DW环境都提供的功能是个产品也可称作联机分析处理OLAP厦门大学软件学院51代理技术软件代理就是能够代表用户完成预定义的程序。数据仓库的规模持续增长,代理技术应用得越来越多。风险识别(规则识别、表示代理程序预警OneORAll)厦门大学软件学院52企业组合数据DW需要丰富的数据内容DW数据来源操作型数据库外部数据(更大、更多的周遭环境数据)企业组合数据正在成为一个巨大的商机数据仓库开发者们正在寻找新的供应商来提供其他类型的企业组合数据厦门大学软件学院53数据仓库和ERP(EnterpriseResourcePlanning)ERP(20世纪90年代兴起)大量独立的应用,缺乏整体概览分析从各种系统获取信息的不可行性ERP软件包中的数据:软件包属于专卖品,数据格式独特整合ERP和数据仓库ERP中大量的数据库表单并不适合提供战略信息ERP中缺乏外部数据和公司中其他操作型系统的数据整合选择ERP供应商将DW思想融入其中建立DW,从ERP中抽取数据厦门大学软件学院54数据仓库和知识管理(KnowledgeManagement)KM操作型系统处理数据信息型系统提供战略决策信息KM让用户在正确的时间、地点使用正确的信息。知识存在于公司的各个角落。从知识管理系统中得的知识可以为从数据仓库中得到的信息提供隐含在数据背后的线索。看见销售额下降了,Why?问题清楚了:看到了分析人员的文档资料整合知识库与数据仓库厦门大学软件学院55知识库和数据仓库的整合厦门大学软件学院56数据仓库和CRM激烈的市场竞争环境使得越来越多的企业关注如何挽留客户和赢得新的客户。问题建设DW时,能为CRM做些什么?如果已有DW,如何调整以提高服务客户水平?能够进行客户关系管理的数据仓库大量的数据为更好的进行CRM提供了数据基础传统的数据仓库工具对于从CRM中ETCL数据到DW支持的不够厦门大学软件学院57三、标准的出现数据仓库环境是多种技术的混合数据建模数据抽取数据转换数据库管理系统DW热门的行业以及支持众多技术方面,都有大量可供选择的供应商和产品有多个供应商和产品关注DW是好消息但,当我们试图使用多个供应商的产品时,结果可能一团糟两个领域的标准至关重要:元数据OLAP控制模块报警系统代理查询工具分析工具报表工具etc厦门大学软件学院58元数据每个产品都会增加自己的元数据每个产品都会用到别的产品产生的元数据元数据是数据仓库的信息地图元数据像胶水一样将所有的功能模块连接在一起OLAP每个DW都有OLAP的功能OLAP提供多维分析、多视角的信息和复杂计算厦门大学软件学院59元数据:有两个组织致力于该标准的制定元数据联盟1995年10月成立供应商、团体组成微软1998年12月加入该组织1999年7月将“开放式信息模型(OIM)”

作为元数据标准对象管理小组(ObjectManagementGroup:OMG)由Oracle、IBM、HP、Sun等公司组成2000年月,OMG将“通用数据仓库元模型(CWM)”作为数据仓库元数据交换的标准2000年4月,元数据联盟和OMG组织都表示他们将会一起合作制定一个统一的标准,但到现在还是一个难以达到的目标。厦门大学软件学院60OLAPOLAP委员会于1995年1月成立成员主要有OLAP产品供应商兴趣小组、个人NCR、IBM、BusinessObjects等致力于多维应用程序接口(MDAPI)的OLAP标准的工作NewVersion:MDAPI2.0各OLAP、平台供应商、咨询顾问、系统集成商宣布支持MDAPI2.0厦门大学软件学院61四、支持Web的数据仓库Internet的发展、再发展Web已经成为全世界的信息传递系统EC的迅猛发展Internet给DW的启示利用Internet和Web技术的潜力提高DW的价值将DW的信息发布到Web上从Web上汲取信息DW的建设要考虑到对电子商务的支持厦门大学软件学院62将数据仓库放入Web中早期的应用中,DW是用来帮助高层员工、管理者进行分析和决

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论