数据仓库基础培训_第1页
数据仓库基础培训_第2页
数据仓库基础培训_第3页
数据仓库基础培训_第4页
数据仓库基础培训_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库基础培训,胡红强神州数码思特奇信息技术股份有限公司2009年04月15日,内容,部门产品简介,2,3,主流数据仓库厂商和产品介绍,数据仓库概述,1,数据仓库概述,数据仓库的历史数据仓库的基本概念数据仓库的技术要求数据仓库体系结构与设计数据仓库的相关概念数据仓库的项目过程,数据仓库的历史-联机事务处理系统,联机事务处理系统(On-lineTransactionProcessing)OLTP系统:也称为生产系统,它是事件驱动、面向需求的,比如银行的储蓄系统就是一个典型的OLTP系统。OLTP在使用过程中积累了大量的数据。关系数据库概念提出之后,联机事务处理一直是数据库应用的主流。,OLTP的特点:对响应时间要求非常高;用户数量非常庞大,主要是操作人员;数据库的各种操作基于索引进行。,数据仓库的历史-联机分析处理系统,联机分析处理系统(On-lineAnalyticalProcessing)OLAP系统:是基于数据仓库的信息分析处理过程,是数据仓库的用户接口部分,它是数据驱动、面向分析的。OLAP系统是跨部门、面向主题的。,OLAP的特点:基础数据来源于生产系统的操作数据;对系统的相应时间合理;用户数量相对较小,其用户主要是业务决策人员与管理人员。,数据仓库的历史-建立数据仓库的基本条件,建立数据仓库的基本条件:第一:该行业有较为成熟的联机事务处理系统,它为数据仓库提供客观条件;第二:该行业面临市场竞争的压力,它为数据仓库的建立提供外在的动力;第三:该行业为数据密集型行业;,数据仓库概述,数据仓库的历史数据仓库的基本概念数据仓库的技术要求数据仓库体系结构与设计数据仓库的相关概念数据仓库的项目过程,数据仓库的基本概念,数据仓库的概念由被誉为“数据仓库之父”的WilliamH.Inmon博士提出的:数据仓库是一个面向主题的、集成的、随时间变化的、信息相对稳定的数据集合,它用于对企业管理和决策提供支持。所谓主题:是指用户使用数据仓库进行决策时所关心的重点方面,如:客户、产品、账务、事件、服务使用、资源、客户服务、地域等;所谓面向主题,是指数据仓库内的信息是按主题进行组织的,而不是像业务支撑系统那样是按照业务功能进行组织的;分析和明确企业所涵盖的业务范围,并且对企业业务进行高度概括性的描述,把密切相关业务对象进行归类,它没有统一的标准,主要根据设计者的经验。不同的行业会有不同的主题域划分方式。,数据仓库的基本概念-面向主题,数据仓库的基本概念-数据集成,所谓集成:是指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总的过程,必须消除源数据中的不一致性,因此数据仓库中的信息是关于整个企业的一致的全局信息;各个业务系统可能由不同的厂家独立承建,它们的数据模型设计、编码规则等都是不同的,这些数据加载到数据仓库之后,需要进行一个加工转换的过程。BOSS系统中,那地市的编码来说,CRM系统是的编码为1、2等,而BILLING系统可能根据长途区号来编码:451、452等,那么在数据仓库中,需要将各个业务系统中相同含义的数据通过规则映射为同一个编码。,数据仓库的基本概念-数据集成,数据仓库的基本概念-随时间变化,所谓随时间变化:是指数据仓库内的信息并不只是反映企业当前的信息,而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测;业务系统只记录当前的最新状态,数据仓库中可以反映一个用户的状态变化过程以及分析变化的原因。,数据仓库的基本概念-信息相对稳定,所谓信息相对稳定:是指一旦某个数据进入数据仓库以后,一般很少进行修改,更多的是对信息进行查询操作,通常只需要进行定期的加载和刷新。数据仓库中几乎很少对历史数据进行修改,6月2日用户单停,那么这天的数据就是这个状态;而对于业务系统中,它总是最新的状态,所以数据库的中的数据总是不断变化的。,数据仓库的基本概念-操作型系统与数据仓库的差异,数据仓库概述,数据仓库的历史数据仓库的基本概念数据仓库的技术要求数据仓库体系结构与设计数据仓库的相关概念数据仓库的项目过程,数据仓库的技术要求-ETL,数据仓库的技术要求包含如下几个方面:ETL(Extract/Transformation/Load):用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去;ETL是数据仓库系统中最重要的概念之一,ETL在一个数据仓库系统项目中要花一半以上的时间。,数据仓库的技术要求-ETL,ETL在技术上涉及到:增量、全量、定时、调度、监控等方面技术。增量数据:流水类数据、话单类数据的抽取方式;全量数据:用户信息类数据,状态会更新发生变化的数据;定时抽取:数据抽取一般在生产系统比较闲暇的时候进行,凌晨时候比较多,而且按照要分析数据的周期,还分为按日、按月数据;作业调度:由于涉及到的业务系统的数据量庞大,需要分批进行抽取,以及抽取数据后面的一系列处理过程;作业监控:对所有作业执行的监控;,数据仓库的技术要求-ETL,数据仓库的技术要求-存储和管理,数据仓库的真正关键是数据的存储和管理。数据仓库一般遇到的几个问题:大数据量的存储和管理;并行处理;针对决策支持查询的优化;支持多维分析的查询方式;,数据仓库概述,数据仓库的历史数据仓库的基本概念数据仓库的技术要求数据仓库体系结构与设计数据仓库的相关概念数据仓库的项目过程,构造数据仓库的方法,构造数据仓库有两种方式:一是自上而下,一是自下而上。BillInmon先生推崇“自上而下”的方式,即一个企业建立唯一的数据中心,就像一个数据的仓库,其中数据是经过整合、经过清洗、去掉脏数据的、标准的,能够提供统一的视图。要建立这样的数据仓库,并不从它需要支持那些应用入手,而是要从整个企业的环境入手,分析其中的概念,应该有什么样的数据,达成概念完整性;RalphKimbal先生推崇“自下而上”的方式,他认为建设数据仓库应该按照实际的应用需求,加载需要的数据,不需要的数据不必要加载到数据仓库当中。这种方式建设周期较短,客户能够很快看到结果。二者都要达到同一个目标:企业级数据仓库实际上在建设数据仓库的时候,一般都参照这两种方式结合使用,没有硬性规定。,数据仓库的结构,数据仓库体系结构,数据仓库层次描述,数据仓库概述,数据仓库的历史数据仓库的基本概念数据仓库的技术要求数据仓库体系结构与设计数据仓库的相关概念数据仓库的项目过程,数据仓库的相关概念,ETL(Extract/Transformation/Load):用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去;ETL是数据仓库系统中最重要的概念之一,ETL在一个数据仓库系统项目中要花一半以上的时间。数据挖掘(DataMining):是从大量的、不完全的、有噪声的。模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘可以看成是一种数据搜寻过程,它不必预先假设或提出问题,但是仍能找到那些非预期的却令人关注的信息,这些信息表示了数据元素的关系和模式。它能挖掘出数据键潜在的模式(pattern),找出最有价值的信息和知识(knowledge)。指导商业行为或辅助科学研究。研究对象是大规模和超大规模的数据集合。,数据仓库的相关概念,联机分析处理(OLAP,OnlineAnalyticalProcessing):是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业给特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。元数据:关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。商业智能(BusinessIntelligence,简称BI):商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、OLAP和数据挖掘等技术的综合运用。,数据仓库的相关概念-啤酒和尿布的故事,沃尔玛公司在美国的一位店面经理曾发现,每周,啤酒和尿布的销量都会有一次同比攀升,一时却搞不清是什么原因。后来,沃尔玛运用商业智能技术发现,购买这两种产品的顾客几乎都是25岁到35岁、家中有婴儿的男性,每次购买的时间均在周末。沃尔玛在对相关数据分析后得知,这些人习惯晚上边看球赛、边喝啤酒,边照顾孩子,为了图省事而使用一次性的尿布。得到这个结果后,沃尔玛决定把这两种商品摆放在一起,结果,这两种商品的销量都有了显著增加。,数据仓库的相关概念-知识发现过程,数据库知识发现(KDD-KnowledgeDiscoveryDatabase):,数据仓库的相关概念-交叉销售,啤酒和尿布这两个不相关的物品通过我们的分析和挖掘得出了它们之间的关联性。在电信行业中也有很广泛的应用,我们称之为交叉销售。产品一:短信套餐,产品二:彩铃,数据仓库概述,数据仓库的历史数据仓库的基本概念数据仓库的技术要求数据仓库体系结构与设计数据仓库的相关概念数据仓库的项目过程,数据仓库项目过程,ETL工具,展现分析工具,数据库,WEB服务器,数据库建模工具,COGNOS,BO,BRIO,ORACLE,DB2,Teradata,Tomcat,Weblogic,PowerDesigner,ERWin,Infomatic,DataStage,JBoss,解决方案,方法论,行业模型,典型分析,项目控制,项目建设,物理模型,数据加载,应用开发,上线加载,产品选购,方案选择,项目工作,内容,部门产品简介,2,3,主流数据仓库厂商和产品介绍,数据仓库概述,1,部门产品简介,产品内容数据平台技术平台产品平台产品分类,部门产品简介-产品内容,数据仓库项目组织步骤、人员角色、建设放方案等一系列方法的集合,指导方针,数据模型的建模方法;统一的概念模型、逻辑模型;数据库中对应的组织(物理化),ETL功能组件;前端门户组件、模版;元数据管理;用户与组织;权限组织;,数据的加载、清洗、组织规划的过程;用户本地的需求整理与实现;与开发者的经验、技能相关;,面向业务的分析;面向问题的专题;固定报表;即席查询分析;KPI;分析、互动流程,部门产品简介-产品内容,数据平台,技术平台,应用平台,功能体系框架面向业务的应用分析目录功能面向分析目标融合规范与个性需求随业务发展以及个性需求不断演进与深化避免功能开发的凌乱可以面向不同角色灵活分配,与业务无关的技术功能数据转换与数据加载系统监控信息发布支撑工作流支撑短信、EMAIL推送接口前端门户框架用户与权限管理支撑,数据存放中心统一的数据模型明细层数据汇总层数据应用层数据数据的物理优化数据分区物化视图,部门产品简介-产品内容,部门产品简介-用户角色,矿工,勘探员,农夫,操作员,旅行者,老总/经理KPI,仪表盘,简单的综合信息报表,营销人员当前周期的数据,明细数据,直接获取下载,用来做业务,分析员有一定的分析能力,对预定义的报表、查询感兴趣,偶尔使用灵活的动态报表组合自己需要的在综合信息,熟练的分析员精通分析技术,对数据敏感,除使用固定报表、查询外,会针对特定的业务问题、数据质量问题进行分析,常使用灵活的动态可配置的应用,必要时会进入数据仓库直接探索。,专业分析员对业务发展的趋势的假设作出求证,或者通过挖掘等技术找出改善业务的途径(特定用户进行细分等),一般直接使用数据仓库。,部门产品简介,产品内容数据平台技术平台产品平台产品分类,部门产品简介-数据平台-层次规划,部门产品简介-数据平台-概念模型,部门产品简介-数据平台-逻辑模型,部门产品简介-数据平台-物理模型,实体表名,属性字段名、字段类型,索引、分区、主外键等,部门产品简介-数据平台-对象规范,所有数据库对象,包括表(Table)、视图(View)、索引(Index)、和存储过程(StoreProcedure)均应遵循以下命名规范。Prefix_Function_Subject_Body_Suffix,其中:为前缀名,表示数据库对象类型;为隶属功能域,表示数据库对象在仓库中的功能层次;为表隶属主题域名(三位字符缩写);为主体名,应该能够清楚地说明对象的含义;是后缀名,在该对象需分表存放或以历史表方式出现时使用。名称的各部分之间以_(下划线)连接,各部分中出现的英文字母全部采用大写字母。此外,ORACLE、DB2中数据库对象名称(包括字段名称)长度限制为30字符,所有在部分尽量采用缩写形式,必要时做必要截取。,部门产品简介-数据平台-字段规范,字段名由字母,数字和下划线组合而成;字段名应采用能够准确反映其中文含义的英文单词或英文单词缩写构成,若是完整英文单词,采用首字母大写;若是单词缩写,全部使用大写字母;在数据库多个实体中具有相同含义的字段名命名应保持一致;字段名不要使用系统的保留字,长度不可以超过30个字符。,部门产品简介-数据平台-功能域,部门产品简介-数据平台-主题域,部门产品简介,产品内容数据平台技术平台产品平台产品分类,部门产品简介-技术平台,部门产品简介-技术平台-元数据,关于数据的数据;数据内容表;数据目录;数据仓库地图;数据仓库路标;数据仓库目录;将数据仓库内容结合到一起的黏合剂;神经中枢;,元数据(Metadata)就是数据的数据,用于建立、管理、维护和使用数据仓库。,对信息/数据仓库/应用分析的描述、索引、解释、导航标签.,有没有预先定义好的用户发展报表?数据仓库中有什么数据?有没有按产品分类的销售和成本数据?我从哪可以找到我所需要的数据?这个数据仓库的数据源有哪些系统?客户的基本信息、积分、账单是怎么集成起来的?数据仓库的数据从合适开始积累的?有没有按月份和渠道进行的用户发展信息?,部门产品简介-技术平台-元数据的分类,业务元数据/商业元数据报表的分布信息;报表、查询的解释;指标的定义;指标的计算规则;信息访问导航信息;用业务属于表达的数据结构;表的名称和业务定义;单位信息;,技术元数据数据仓库的逻辑模型;数据仓库的物理模型;源系统的模型;数据ETL规则;应用程序信息;指标统计规则;数据存放以及备份规则;数据库配置信息;统计程序与表之间的关系;,部门产品简介-技术平台-元数据例子,定义:从移动定制了一个或多个服务的个人或者团体备注:客户实体中包含了当前的、潜在的以及以前的客户信息源系统:BOSS3.0建立日期:2004年03月05日最后更新日期:2008年08月25日更新周期:每日更新方式:每日增量更新,每月初全量刷新最近一次数据质量检查:2008年09月01日最近备份:2008年09月10日负责人:张无忌字段详细信息、版本变更历史、引用此实体的统计程序.,实体名称:客户实体CODE:Customer,部门产品简介,产品内容数据平台技术平台产品平台产品分类,部门产品简介-产品平台,规范功能,个性需求,新需求提出,统一的应用框架下管理和开发,部门产品简介,产品内容数据平台技术平台产品平台产品分类,部门产品简介-产品分类,经营分析,地市集市,部门集市,决策支持,报表中心,专题分析,综合的产品,倾向于全面分析,对各层面都有支撑,对中层分析执行人员支撑力度更大,面向一线人员,地市各部门、营业厅,为业务开展提供支撑。,面向一个部门,目前以深度营销分析为代表,特点是专著一块业务,带有比较强的流程操作,面向经理、老总层面;分析以宏观为主,围绕决策这个主题,提供效益、市场等方面的信息,功能单一的报表展现系统,针对特定业务问题,推出的分析方案。横向面窄,纵向面深。,iSMASS,iL-SMASS,iDept-SMASS,iDSS,iRE

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论