数据仓库概念及相关技术课件.ppt_第1页
数据仓库概念及相关技术课件.ppt_第2页
数据仓库概念及相关技术课件.ppt_第3页
数据仓库概念及相关技术课件.ppt_第4页
数据仓库概念及相关技术课件.ppt_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库的概念和相关技术,Arwen.LiuMAR,2010,目录,数据仓库相关概念BI技术工具分析与应用项目实施方法知识索引,知识导引,什么是数据仓库?什么是DSS?什么是经营分析?什么是EIS?什么是OLTP,OLAP?什么是BI?,BO、COGNOS、安讯、BRIO、Teradata、SAS、SPSS,数据仓库系统,BI,90年代提出,90年代中形成潮流,BI描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。GartnerGroup1996商业智能领域:DSS、OLAP、数据仓库、ETL、数据集市、数据挖掘、商业建模.为提高企业运营性能而采用的一系列方法、技术和软件的总和,70年代,70年代提出,80年代得到发展,三层模式,外部模式,内部模式,二层模式:不同的数据库类型(层次、关系),不同的数据库产品,导致重复的开发,外部模式,内部模式,概念模式,三层模式:增加概念模式,作为单一的定义,不偏向于任何数据类型/访问方法,提供一致性访问,具有高可扩展性,概念模式为外部模式和内部模式提供了桥梁作用。概念模式的定义产生了数据建模技术。常用的方法包括:IDEF1x、IE等。,IDEF方法,20实际70年代,为了系统利用计算机技术提高制造效率,美国空军发起集成计算机辅助制造计划ICAM,以便让人们更好的分析和交流技术。ICAM最终发展成IDEF系列方法。,IDEF0:用于产生“功能模型”,用结构化的方式来展现一个环境活系统中的活动或者处理;IDEF1x:用于产生“信息模型”,展现一个环境或者系统中的信息机构;IDEF3:用于产生“过程模型”,展现一个特定系统如何运作、处理;,IDEF1x,EBD:描述实体和关系KB::定义键,包括主键、外键等FA:描述全部属性TM:与具体数据库的映射关系DBMS:特定的数据库模型,逻辑模型,物理模型,KBSI产品,IDEF0功能模型(FunctionModeling)IDEF1X数据模型(DataModelingIDEF2仿真模型设计(SimulationModelDesignIDEF3过程描述获取(ProcessDescriptionCaptureIDEF4面向对象设计(Object-OrientedDesign)IDEF5本体论描述获取(OntologyDescriptionCapture)IDEF6设计原理获取(DesignRationaleCapture)IDEF7信息系统审定(InformationSystemAuditing)IDEF8人与系统接口设计(Human-SystemInterfaceDesign)用户接口建模(UserInterfaceModeling)IDEF9经营约束的发现(BusinessConstraintDiscovery)场景驱动信息系统设计(Scenario-DrivenISDesign)IDEF10信息制品建模(InformationArtifactModeling)实施体系结构建模(ImplementationArchitectureModeling)IDEF11信息工具建模(InformationArtifactModeling)IDEF12组织设计(OrganizationDesign)组织建模(OrganizationModeling)IDEF13三模式影射设计(ThreeSchemaMappingDesign)IDEF14网络设计(NetworkDesign),数据仓库的定义,数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策(DecisionMakingSupport)。-BillInmon,什么是数据仓库,相关概念,以DataWarehouse技术为基础,以OLAP和DataMining工具为手段实施的一套解决方案。,DSS(DecisionSupportSystem),相关概念,EIS:主管信息系统(ExecutiveInformationSystem),指为了满足无法专注于计算机技术的领导人员的信息查询需求,而特意制定的以简单的图形界面访问数据仓库的一种应用。ETL:数据抽取(Extract)、转换(Transform)、装载(Load)的过程。它是构建数据仓库的重要环节。DataMart为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数(subjectarea)。经营分析系统:BusinessAnalysisSupportSystem。,元数据:元数据是描述数据仓库内数据的结构和建立方法的数据。可将其按用途的不同分为技术元数据、业务元数据和管理元数据。数据质量:数据质量管理平台能够使得数据质量管理流程自动化、集中化、智能化ROLAP(关系型在线分析处理)MOLAP(多维在线分析处理)HOLAP(混合型线上分析处理)。,DataWarehouse,ArtificialIntelligence,DataMart,OLAP,DecisionSupportSystem,DataMining,OperationDatabase,BusinessIntelligentSystem,DatabaseSystem,各种概念之间的关系,数据仓库领域的两位大师,RalphKimball数据仓库方面的知名学者理论:MutildimensionalArchitecture(MD),BillInmon数据仓库之父,数据仓库概念的创始人理论:CorporateInformationFactory(CIF)主要著作:数据仓库、企业信息工厂,VS,主要著作:数据仓库工具箱维度建模的完全指南、数据仓库生命周期工具箱设计、开发和部署数据仓库的专家方法,生活中的朋友学术上的对头,双方的观点,围绕主题来组织数据仓库中的数据,每个主题区域仅仅包含该主题相关的信息;数据仓库应该一次增加一个主题,并且当需要容易地访问多个主题时,创建以数据仓库为来源的数据集市,数据仓库是数据集市的联合,通过一系列相同维度定义的数据集市递增地构建数据仓库,而每个数据集市通过联合多个数据源来满足特定的业务需求,自上而下,自下而上和自上而下的结合:,双方的观点,使用数据集市联合的方式,开始会带来极高的用户体验,但随着数据集市的增多,会形成网状结构,建设重复,数据质量变差。,使用数据总线的结构来控制数据集市点建设,所有的数据集市在一套总线环境中,有相同的维度定义,故既可以迅速部署、满足业务需求,也可以规范的形成数据仓库,Inmon,Kimball,双方的数据仓库架构对比,集成转换层(IntegratedandTransformationLayer)、操作数据存储(OperationalDataStore)、数据仓库(EnterpriseDataWarehouse)、数据集市(DataMart)、探索仓库(ExplorationWarehouse),Inmon-CIF(DW2.0),双方的数据仓库架构对比,MD分为后台(BackRoom)和前台(FrontRoom)两部分。后台主要负责数据准备工作,称为数据准备区(StagingArea),前台主要用于数据展示,称为数据集市(DataMart)。全部数据集市的集合构成了数据仓库,从这种意义上说,它只是一个虚拟的部件。,Kimball-MD,BackRoom,FrontRoom,事务表、周期快照表、累计快照表非事实型事实表、退化维、缓慢变化维、快变超大维不可加型事实、半加型事实、可加性事实,数据仓库的特点,OLTP与OLAP,针对特定问题的联机数据访问和数据分析技术满足对数据进行多角度、快速、一致、交互、深入观察使用预定义的多维数据视图对数据进行分析处理,支持对数据的切片、切块、钻取。多维数据库是一种以多维数据存储形式来组织数据的数据管理系统,在使用时需要将数据从关系数据库中转载到多维数据库中方可访问。,On-LineAnalyticalProcessing,On-LineTransactionProcessing,也称为面向交易的处理系统,其基本特征是顾客的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。这样做的最大优点是可以即时地处理输入的数据,及时地回答。也称为实时系统(RealtimeSystem)。衡量联机事务处理系统的一个重要性能指标是系统性能,具体体现为实时响应时间(ResponseTime),即用户在终端上送入数据之后,到计算机对这个请求给出答复所需要的时间。OLTP数据库旨在使事务应用程序仅写入所需的数据,以便尽快处理单个事务。,OLTP与OLAP,ROLAP表示基于关系数据库的OLAP实现(RelationalOLAP)。,MOLAP表示基于多维数据组织的OLAP实现(MultidimensionalOLAP)。,经分系统数据仓库整体架构,数据仓库的主题划分,目录,数据仓库相关概念BI技术工具分析与应用项目实施方法知识索引,工具分类,建模工具:Powerdesigner、ErwinETL工具:用于数据的集成和处理Datastage、Infomatic、Automation数据质量工具:一般集成在ETL工具中分析工具:报表工具:BO、COGNOS、安讯、润乾、BRIOOLAP工具:COGNOS、BOBI分析门户:一般集成在分析工具中数据挖掘工具:SAS、SPSS元数据管理工具:metacenter、石竹、CA、Infomatic,开源BI工具报表工具,EclipseBIRTEclipse下面的一个企业智能和报表工具,能为J2EE的WEB应用程序创建漂亮醒目的PDF或者HTML格式的报表,它提供了核心的报表功能JasperReportsJava报表工具,始于2001,现在JasperSoft公司持续开发和支持该工具。该工具类似于商业软件CrystalReport,支持PDF、HTML、XLS、CSV和XML文件输出格式,现在是Java开发者最常用的报表工具。JFreeReport现在是Pentaho的一部分,它是一个优秀的用来生成报表的Java类库。它为Java应用程序提供一个灵活的打印功能并支持输出到打印机和PDF,Excel,HTML和XHTML,PlainText,XML和CSV文件中。,开源BI工具OLAP工具,Mondrian是Pentaho的一部分,为一个用Java开发的OLAP服务器,实现了MDX语言、XML解析和JOLAP规范,可以不写SQL就能分析存储于SQL数据库的庞大数据集,可以封装JDBC数据源并把数据以多维的方式展现出来JPivot一个JSP自定制的标签库,可以绘制一个OLAP表格和图表。用户可以执行典型的OLAP导航,如下钻,切片和方块。它使用Mondrian作为其OLAP服务器。它使用WCF(WebComponentFramework),基于XML/XSLT来渲染WebUI组件。,开源BI工具ETL工具,KETL由具有IBM和KPMG背景的KineticNetworks公司开发,现在已经有三年多的产品应用历史,成功应用于一些产品中,在点击流(ClickStream)分析应用中表现出色。KETL采用Plug-in的架构,使用Java开发KETTLE一个元数据驱动的ETL工具。已经加入Pentaho。CloverETL一个基于Java的ETLFramework,可以用来开发自己的ETL应用EnhydraOctopus一个基于Java的ETL工具,使用JDBC来连接各种数据源,易于使用和部署。,开源BI工具BI平台,Pentaho一个以工作流为核心的、强调面向解决方案而非工具组件的BI套件,整合了多个开源项目工作流引擎:SharkandJaWE数据库:FirebirdRDBMS集成管理和开发环境:Eclipse报表工具:EclipseBIRTETL工具:Enhydra/KettleOLAPServer:MondrianOLAP展示:JPivot数据挖掘组件:Weka应用服务器和Portal服务器:JBoss单点登陆服务及LDap认证:JOSSO自定义脚本支持:MozillaRhinoJavascript脚本处理器。,开源BI工具BI平台,SpagoBI集成了Mondrain和JProvit,能够通过OpenLaszlo产生实时报表。SpagoBI使用java开发,不依赖于具体的操作系统,有很强的扩展能力报表工具:JasperReports/EclipseBIRT/iReportOLAPServer:MondrianOLAP展示:JPivot数据挖掘组件:WekaMap引擎:GeoETL:BIE搜索引擎:LuceneDashboard:OpenLaszloPortalServer:JBoss/Tomcat/JOnAS。,目录,数据仓库相关概念BI技术工具分析与应用项目实施方法知识索引,DSS的产品包含什么,产品,数据仓库项目组织步骤、人员角色、建设放方案等一系列方法的集合,指导方针,数据模型的建模方法;统一的概念模型、逻辑模型;数据库中对应的组织(物理化),ETL功能组件;前端门户组件、模版;元数据管理;用户与组织;权限组织;,面向业务的分析;面向问题的专题;固定报表;即席查询分析;KPI;分析、互动流程,数据的加载、清洗、组织规划的过程;用户本地的需求整理与实现;与开发者的经验、技能相关;,用户需要分角色,矿工,勘探员,农夫,操作员,旅行者,老总/经理KPI,仪表盘,简单的综合信息报表,营销人员当前周期的数据,明细数据,直接获取下载,用来做业务,分析员有一定的分析能力,对预定义的报表、查询感兴趣,偶尔使用灵活的动态报表组合自己需要的在综合信息,熟练的分析员精通分析技术,对数据敏感,除使用固定报表、查询外,会针对特定的业务问题、数据质量问题进行分析,常使用灵活的动态可配置的应用,必要时会进入数据仓库直接探索。,专业分析员对业务发展的趋势的假设作出求证,或者通过挖掘等技术找出改善业务的途径(特定用户进行细分等),一般直接使用数据仓库。,明确分析种类,简单图表展现;固定报表;动态的可配报表;图表互动分析;可切片旋转的OLAP;KPI指示器;可层级筛选的明细查询;对以上进行组合的复杂应用;带有分析流程的应用;,应用分析的框架,规范功能,个性需求,新需求提出,统一的应用框架下管理和开发,目录,数据仓库相关概念BI技术工具分析与应用项目实施方法知识索引,方法论,方法论主要描述了项目实施的步骤、系统建设的内容以及过程管理中的一系列方法:,实施过程中的具体内容;采用的软件工程方法;项

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论