数据仓库概述2_第1页
数据仓库概述2_第2页
数据仓库概述2_第3页
数据仓库概述2_第4页
数据仓库概述2_第5页
已阅读5页,还剩43页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章数据仓库概述

纲要数据仓库技术产生的背景数据仓库定义数据仓库的组成部件商务智能2一、数据仓库技术产生的背景决策信息的需求与当前信息状况的不足操作性系统与分析性系统新的数据环境的特点3现有的数据库系统的侧重点现有的数据库系统,主要用于事务(Transaction)处理 一笔存款(一张存款单) 一笔取款(一张取款单) 一笔转帐(一张转帐单) 一次挂失(一张挂失单)强调多用户并发环境,数据的一致性、完整性4企业信息化建设现状在数据库技术的支持下,一大批成熟的业务信息系统投入运行,为企业发展作出了巨大贡献各类信息系统大多属于面向事务处理的OLTP系统信息系统多年运行,积累了大量的数据数据是一种宝贵的资源,但没有充分发挥作用管理决策层对数据分析基础平台的需求日益强烈5企业信息化建设提出了更高的要求市场竞争日益激烈—

创造竞争优势 需要及时、准确的做出科学决策 科学决策必须以准确、有效的数据为基础 充分利用现有数据,将它转化为信息

以客户为中心的经营管理模式—

优化客户关系 原有系统往往以产品为中心 原有系统往往以“单据(票证)”的处理为基础 转向“以客户为中心” 强调服务,尤其是个性化服务个性化数据6现有数据库系统处理“分析型”应用

存在的问题

数据可信性生产率不可能把数据转换成信息数据动态集成问题历史数据问题数据的综合问题:非细节数据,多种程度的综合7分析处理的需求例1:今年销售量下降的因素时间:销售地区:(销售*顾客)[顾客地址所在的地区,……]商品:(销售*订单细则)[商品类别,……]销售部门:销售*员工*部门[部门名称,……]例2:持卡人今年的交易情况与以往相比,有怎样的变化?交易特点(存款、取款、转帐、消费)是什么?持卡人消费倾向(宾馆、大型商场、超级市场等)是什么?要求:多个子系统中的数据(数据集成)历史数据汇总、综合的数据一致的数据视图8分析人员典型的信息需求覆盖企业内部信息、合作伙伴信息和市场信息覆盖综合信息和明细信息覆盖当前数据和历史数据高可用性高质量的数据(一致性、完整性)支持各种不同的分析方法数据定义符合业务人员要求

9分析决策人员的挑战

组织内部

横向共享信息

数据的重构

个人授权

服务和质量管理组织之间

合作伙伴

客户驱动的解决方案

战略联盟

价值链和供应链市场

竞争对手

市场分割

实时的市场行情

全球化10数据可信性性数据没有同同一时间基基准例如:一个个企业的两两个部门向向管理者呈呈送报表部门A,于星期天天傍晚抽取取了分析所所需的数据据,结论为为业绩上升升10%部门B,于星期三三下午抽取取了分析所所需的数据据,结论为为业绩下降降15%算法不同部门A使用的是旧旧帐号部部门B使用的是大大帐号多次抽取,,扩大了上上述两个问问题用抽取程序序从数据库库或文件中中抽取数据据,并存放放起来,然然后又在此此基础上再再次进行抽抽取,从数数据进入系系统到提供供分析往往往经过8、9次的抽取取。11数据可信信性外部数据据问题一位分析析员把《华尔街日日报》的数据带带进系统统另一位将将《商业周刊刊》的数据进进入系统统数据一旦旦进入系系统,往往往已失失去“身份”,并且一一位分析析员也不不知道另另一位分分析员所所输入的的数据开始时就就不是同同一个公公共的数数据源部门A最初来源源于文件件XYZ部门B最初来源源于数据库ABC12生产率为了生成成一个企企业报表表:获得源数数据定位和分分析数据据:由于于同名不不同义、、同义不不同名,,很难准准确定位位和分析析,可能能造成进进一步的的混乱把数据加加工成报报告要写许多多程序,,每个程程序必须须客户化化(与客客户环境境有关))程序会涉涉及公司司具有的的各种技技术由于定位位数据困困难,检检索所要要的数据据是一件件很麻烦烦的事完成任务务需要很很长时间间定位数据据+获得数据据+集成报告告,完成成任务所所需时间间较长每份报告告各自需需求不同同,因此此每份报报告所需需要的时时间都很很长。13从数据到到信息例如:“今年的帐帐户情况况与前五五年比较较”涉及大量量应用::储蓄应应用、贷贷款、即即期汇票票管理、、信托,,而这些些应用并并未集成成。没有足够够的历史史数据::贷款部门门,拥有有二年的的数据银行存折折处理,,拥有一一年的数数据即期汇票票管理只只有60天的数据据现金交易易处理具具有18个月的数数据。数据不一一致问题题:同名名不同义义、同义义不同名名,例如如M/F,Male/Female外部数据据和非结结构化数数据14两种报表表的区别别例:就一一个银行行而言出纳员需需要操作型报报表,因为他他需要知知道当天天所有交交易,来来确定一一天结束束时的现现金余额额;银行行长长的长期期战略决决策(如如决定一一个地区区安装ATM机的数数目)就就需要了了解大量量的内部部和外部部信息,,每天的的交易报报表对他他意义不不大,他他更需要要分析型报报表152操作型系系统vs.信息型系系统操作型系系统,OLTP下订单处理呼叫叫装货开发货单单收取现金金预定座位位16信息型系系统给我销售售量最好好的产品品名单告诉我出出问题的的地区告诉我为为什么((向下钻钻取)让我看看看其他的的数据((横向钻钻取)显示最大大利润当一个地地区的销销售低于于目标值值时,提提醒我将数据写写入数据据库从数据库库中读取取战略信信息操作型系系统vs.信息型系系统操作型系统信息型系统数据内容当前值存档的,推导出来的,总结的值数据结构适于事务处理适于复杂查询访问频率高中、低访问连接类型读取、更新、删除读取使用方法可预知的、反复性的特别查询、随机的、启发式的应用响应时间快一般用户大量较少数17操作型环环境和分分析型环环境不同的需需求,要要求将操操作型环环境和分分析型环环境相分离在操作型型环境中中支持分分析应用用太复杂杂、太困困难操作性环环境不支支持域((Domain)之间的的联系,,仅仅支支持表之之间的连连接不同的数数据环境境要求从从数据组组织(结结构)和和操作上上进行工工作183数据仓库库要解决决的基本本问题全局范围围内统一一数据视视图数据内容容数据的完完整性数据的准准确性数据的一一致性数据组织织面向分析析决策19数据仓库库的功能能性定义义数据仓库库是一种种信息环境境,它能够够:提供对企企业综合合、完整整的概括括使决策者者所需要要的当前前数据和和历史数数据都方方便易得得无需妨碍碍操作型型系统,,也能使使支持决决策的处处理成为为可能使企业的的信息保保持一致致性提供了一一个灵活活的、交交互的战战略信息息来源20数据仓库库是信息息传递的的一种简简单概念念数据仓库库的来源源在于对对决策信信息的需需求和对对操作型型计算环环境的不不满数据仓库不“创造”新的数据数据仓库概念念简单使用所有现存存的数据通过清洗、转转换提供有用的决决策信息21数据仓库是一一种环境,而而不是产品你不可能买到到数据仓库但你可以构建建自己的数据据仓库数据仓库新型型计算环境的的特点数据分析和决决策支持的理理想环境不固定,灵活活、交互式操操作100%用户驱动适合”提问-回答--再提问”的模式22纲要数据仓库技术术产生的背景景数据仓库定义义数据仓库的组组成部件商务智能231数据仓库定义义数据仓库的创创始者BillInmon:“ADataWarehouseisasubjectoriented,integrated,nonvolatile,andtimevariantcollectionofdatainsupportofmanagement’’sdecisions.”“数据仓库是为为支持管理决决策建立的,,面向主题的的,综合的,,稳定的,随随时间变化的的数据集合”24“面向主题”的数据在操作型系统统中,各行业业的数据集合合都是围绕单单独的应用程程序进行组织织的在数据仓库中中数据是按主题题而不是按照照应用程序存存储的。数据是跨应用用程序的25订单处理客户贷款顾客帐单可接收帐款索赔处理储蓄帐目销售产品客户帐户索赔政策操作型应用程程序数据仓库主题题面向主题的数数据组织主题:宏观分析领领域所涉及的的分析对象面向主题的数据组织方方式:在较高高的层次上对对分析对象的的数据的一个个完整、一致致的描述。采用面向事务进行数据组织织,其特点为为:充分考虑企业业的部门组织织结构和业务务活动反映企业内部部数据流动情情况,业务处处理的数据流流程与业务处理流流程中的单据据、票证、文文档有良好的的对应数据与应用((数据的处理理)有一定的的对应例:保险公司司:面向应用(操操作):财产产险、寿险、、健康险、意意外险面向主题:客客户、保单、、保费、理赔赔(赔款)。。26“综合”的数据数据仓库中的的数据来自不不同的数据库库、文件、数数据段。(内内部或者外部部,不同的平平台)数据进入数据据仓库前,需需要进行的标标准化工作::命名规则编码27储蓄帐户支票帐户贷款帐户主题=帐户来自应用程序序的数据数据仓库主题题数据特性度量单位数据的“时间特性”数据仓库中的的每一个数据据结构都包含含了时间要素素。数据仓库中的的数据是和时时间变化相关关的数据可以对过去进进行分析与当前的信息息相关可以对未来进进行预测28数据的非易变性(相相对稳定)操作型系统的的数据实时地地进行更新,,每次交易发发生都要更新新;数据仓库库中的数据非实时性更新新数据仓库中的的数据是用来来进行查询和分析的不能在数据仓仓库中实时地地删除数据不能在数据仓仓库中修改数数据29决策支持系统统操作型系统OLTP数据库数据仓库读取增增加修改删删除读取2数据仓库和数数据集市数据仓库和数数据集市(DataMart)是一个混淆不不清的概念。。是学术界争争论的话题BillInmon(1998):“今年IT经理面对的最最重要的问题题就是到底先先建数据仓库库还是先建立立数据集市”,今天依然如如此。在建立数据仓仓库前,我们们需要考虑下下列这些问题题:采取自上而下下还是自下而而上的方法企业范围还是是部门范围先建立数据仓仓库还是数据据集市数据集市是否否相互独立30数据仓库vs.数据集市数据仓库数据集市完整的,从企业整体考虑的部门的所有数据集市的集合一个单独的商业处理过程从阶段区域得到的数据星型结构通过展示的方式进行查询适合数据连接和分析技术基于公司数据视角的结构基于适合部门数据视角的结构通过实体-关系模式进行组织31纲要数据仓库技术术产生的背景景数据仓库定义义数据仓库的组组成部件商务智能32数据仓库的组组成部分(Component)33源数据部分主要类别生产数据:多多个系统多种种数据的标准准化、转换、、整合内部数据:表表格、文档存档数据:旧旧的历史的数数据外部数据:社社会的企业,,社会的人34数据准备部分分ETL(ETCL)数据抽取(Extract):多源、异构数数据的抽取数据转换(Transform):清洗(Clean)、标准化等过过程数据装载(Load)35数据存储部分分数据仓库的数数据存储器是是一个独立的的部分与操作型的数数据库分开存存储大多数数据仓仓库都采用关关系数据库管管理系统36信息传递部分分多种信息传递递方式特别的报表复杂的查询多维分析统计分析主管信息系统统的需求数据挖掘37元数据MetaData描述数据的数数据数据仓库内容容的一本字典典元数据是数据据仓库数据本本身信息的数数据元数据对于数数据仓库极其其重要38纲要数据仓库技术术产生的背景景数据仓库定义义数据仓库的组组成部件商务智能392007年三大并购案案商务智能开始始发力,渐入入佳景Oracle33亿美金收购购HyperionSAP48亿欧元元收收购BusinessObjectIBM50亿美金金收收购Cognos2006年IDC商务智智能领领域10强BO8.94亿美元元SAS6.79亿美元元微软、、Hyperion、Oracle、SAP4041国内BI状况42Gartner2013年:中中国BI市场份份额11.75亿美元元商务智智能BusinessIntelligenceBI概念提提出::GartnerGroup(1996年)BI通常被被理解解为将将企业业中现现有的的数据转化为为知识,帮助助企业业做出出明智智的业业务经经营决策的工具具。数据包括来来自企企业业业务系系统的的订单单、库库存、、交易易账目目、客客户和和供应应商等等来自自企业业所处处行业业和竞竞争对对手的的数据据以及及来自自企业业所处处的其其他外外部环环境中中的各各种数数据。。商业智智能能够辅辅助的的业务务经营营决策策,既既可以以是操操作层层的,,也可可以是是战术术层和和战略略层的的决策策。43为了将将数据据转化化为知知识,,需要要利用用数据据仓库库、联联机分分析处处理((OLAP)工具具和数数据挖挖掘等等技术术。商业智智能不不是什什么新新技术术,它它只是是数据仓仓库、OLAP和数据挖挖掘等技术术的综综合运运用。。BI的实现现涉及及到软软件、、硬件件、咨咨询服服务及及应用用,其其基本本体系系结构构包括括数据据仓库库、联联机分分析处处理和和数据据挖掘掘三个个部分分。BI是一种种解决方方案。44BI的关键键从许多多来自自不同同的企企业运运作系系统的的数据据中提取出有用用的数据并进行行清理理,以以保证证数据据的正正确性性,然后经经过抽取、、转换换和装装载,合并并到一一个企企业级级的数据仓仓库里,从

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论