




免费预览已结束,剩余34页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
商务智能(BI)概述BusinessIntelligence,2,培训主要内容,名词解释商业智能BI数据仓库DW联机事务处理OLTP联机分析处理OLAP操作数据存储ODSETL数据挖掘DM,3,名词解释一,BI(BusinessIntelligence)商务智能DW(DataWarehouse)数据仓库DM(DataMining)数据挖掘ODS(OperationalDataStore)操作数据存储ETL(Extraction-Transformation-Loading)抽取-转换-加载,4,名词解释二,OLTP(on-linetransactionprocessing)联机事务处理OLAP(OnlineAnalyticalProcessing)联机分析处理CDC(ChangeDataCatching)变化数据捕捉CRM(CustomerRelationshipManagement)客户关系管理ERP(EnterpriseResourcePlanning)企业资源计划,5,什么是BI(商务智能),商务智能就好比“数据加工厂”,即把商业活动中累积的数据加工成可用于支持商业决策的信息。BI的范围很广,在实际商务中我们往往只需运用其中的某个部分就可以暂时满足企业的需求,如数据仓库,联机事务分析(OLAP),数据挖掘,决策支持系统(DDS)等。,商业智能是企业利用现代信息技术收集、管理和分析结构化和非结构化的商务数据和信息,创造和累计商务知识和见解,改善商务决策水平,采取有效的商务行动,完善各种商务流程,提升各方面商务绩效,增强综合竞争力的智慧和能力。,这一过程(也是庞大系统工程)中所涉及到的技术,工具,管理,理念等等因素都可以纳入BI这个范畴。,是一个过程,是系统工程,是解决方案。,6,BI的组成(一):,ODS可操作数据存储:存储中间数据。,OLTP系统:提供原始数据,往往是几个到上百个系统。,ETL过程:抽取原始数据,清洗,转换、并导入的过程。,JobControl任务调度控制:控制ETL过程中各个任务。,7,BI的组成(二):,终端用户查询和报告工具(Report),OLAP工具:提供多维数据管理环境,其典型的应用是对商业问题的建模与商业数据分析。,数据挖掘(DataMining),数据集市(DataMart)和数据仓库(DataWarehouse):包括数据转换、管理和存取等方面,还包括一些业务模型,如财务分析模型。,主管信息系统(EIS,ExecutiveInformationSystem),分析模型(AnalyseModel),8,BI的架构,BI=(OLTP)DB+ETL+ODS+DW+DataMart+OLAP+DM+DSS+REPORT+EIS+.,9,BI架构图例,元数据管理,10,DW(DataWarehouse)数据仓库,狭义:数据仓库是面向主题的、集成的、稳定的、随时间变化的,主要用于决策支持的数据库系统是BI/DW工程中核心的OLAP数据库,广义:等同于BI是一个工程,一个过程而不是一个项目。,11,DW(DataWarehouse)数据仓库2,面向主题:操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。,集成的:数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。,相对稳定的:数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。,反映历史变化:数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。,12,OLTP(on-linetransactionprocessing)联机事务处理,特点:事务驱动的,面向应用的,实时的。它所擅长的就是处理当前实时的数据,实现企业业务的计算机化,主要针对企业的业务人员。是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理。,13,OLAP(OnlineAnalyticalProcessing)联机分析处理,它所擅长的是对企业的当前和历史数据进行分析,对企业的状况进行分析,主要是针对企业管理人员是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。,14,OLTP与OLAP特点比较,15,数据仓库建模的基本概念,第三范式维度维度的粒度维度的层次事实关系型建模星型模型雪花模型,一个符合第三范式的关系必须具有以下三个条件:1.每个属性的值唯一,不具有多义性;2.每个非主属性必须完全依赖于整个主键,而非主键的一部分;3.每个非主属性不能依赖于其他关系中的属性,因为这样的话,这种属性应该归到其他关系中去。第三范式的定义基本上是围绕主键与非主属性之间的关系而作出的。,维度是指一种视角,而不是一个固定的数字;是一个判断、说明、评价和确定一个事物的多方位、多角度、多层次的条件和概念。时间是关键维度。,指待分析数据的分割大小,层次结构是一组相互之间具有多对一关系的层次,并且这一组层次共同构成维。,事实表是星型模式或雪花模式中的一个表,它存储用于量度业务(如销售量、商品成本或利润)的事实。事实表还包含指向维表的外键。这些外键使事实表中的每个数据行与其对应的维和层次相关。,16,星型模式,星型模式是一种多维的数据关系,它由一个事实表(FactTable)和一组维表(DimensionTable)组成。,注:每个维表都有一个维作为主键,所有这些维则组合成事实表的主键,换言之,事实表主键的每个元素都是维表的外键。事实表的非主属性称为事实(Fact),它们一般都是数值或其他可以进行计算的数据;而维大都是文字、时间等类型的数据。,17,雪花模型,雪花模式将层次结构的不同层次进一步分隔到单独的维表中。,18,数据仓库设计的挑战,在数据仓库系统中,对数据库引擎最大的挑战主要是这样几种操作:多表连接、表的累计、数据排序、大量数据的扫描。,如何避免多表连接:在设计模型时对表进行合并,即所谓的预连接(Pre-Join)。当数据规模小时,也可以采用星型模式,这样能提高系统速度,但增加了数据冗余量。,如何避免表的累计:在模型中增加有关小计数据(SummarizedData)的项。这样也增加了数据冗余,而且如果某项问题不在预建的累计项内,需临时调整。,如何避免数据排序:对数据事先排序。但随着数据仓库系统的运行,不断有新的数据加入,数据库管理员的工作将大大增加。大量的时间将用于对系统的整理,系统的可用性随之降低。,如何避免大表扫描:通过使用大量的索引,可以避免对大量数据进行扫描。但这也将增加系统的复杂程度,降低系统进行动态查询的能力。,19,ODS(OperationalDataStore)操作数据存储,ODS是一个面向主题的、集成的、可变的、当前的细节数据集合,用于支持企业对于即时性的、操作性的、集成的全体信息的需求。是操作型系统中的集成,用于当前,历史以及其它细节查询(业务系统的一部分)。为决策支持提供当前细节数据(数据仓库的一部分)。常常被作为数据仓库的过渡,也是数据仓库项目的可选项之一。,20,为什么需要有一个ODS系统,在业务系统和数据仓库之间形成一个隔离层。转移一部分业务系统细节查询的功能。完成数据仓库中不能完成的一些功能。,一般来说,带有ODS的数据仓库体系结构中,DW层所存储的数据都是进行汇总过的数据和运营指标,并不存储每笔交易产生的细节数据,但是在某些特殊的应用中,可能需要对交易细节数据进行查询,这时就需要把细节数据查询的功能转移到ODS来完成,而且ODS的数据模型按照面向主题的方式进行存储,可以方便地支持多维分析等查询功能。即数据仓库从宏观角度满足企业的决策支持要求,而ODS层则从微观角度反映细节交易数据或者低粒度的数据查询要求。,一般的数据仓库应用系统都具有非常复杂的数据来源,这些数据存放在不同的地理位置、不同的数据库、不同的应用之中,从这些业务系统对数据进行抽取并不是一件容易的事。因此,ODS用于存放从业务系统直接抽取出来的数据,这些数据从数据结构、数据之间的逻辑关系上都与业务系统基本保持一致,因此在抽取过程中极大降低了数据转化的复杂性,而主要关注数据抽取的接口、数据量大小、抽取方式等方面的问题。,在数据仓库建立之前,大量的报表、分析是由业务系统直接支持的,在一些比较复杂的报表生成过程中,对业务系统的运行产生相当大的压力。ODS的数据从粒度、组织方式等各个方面都保持了与业务系统的一致,那么原来由业务系统产生的报表、细节数据的查询自然能够从ODS中进行,从而降低业务系统的查询压力。,21,什么时候选择ODS,数据源太复杂。,客户需要实时报表。,22,DB、DW、ODS之对比,23,生产系统,ODS应用举例,实时,批量接口,实时接口,批量,渠道系统,外围系统,外围系统,核心系统,EAI,ODS,ACRM,DW,OCRM,ECIF,风险管理,所有业务系统的批量数据ETL到ODS,所有业务系统的实时数据均由EAI转发,ODS仅和EAI发生实时数据交换,且这些数据主要是OCRM等管理系统进行实时数据同步,ODS为ECIF等提供批量数据,同时也作为OCRM、DW、ECIF等管理系统的批量数据交换通道,管理系统,ODS统一管理银行的批量数据接口,EAI统一管理银行的实时数据接口。ODS和EAI的实时接口仅用于完成必要的管理系统和ODS之间的数据同步,24,ETL(Extraction-Transformation-Loading)抽取-转换-加载,数据抽取(Extract)根据主题要求,把分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层(ODS)清洗(Cleansing)剔除垃圾数据,去除噪音数据和不统一数据转换(Transform)对不一致数据进行转换,便于汇总、聚合等统计方法的使用装载(Load)导入到数据集市或数据仓库中,25,ETL处理过程,26,ETL:数据抽取(1),抽取主要是针对各个业务系统及不同网点的分散数据,充分理解数据定义后,规划需要的数据源及数据定义,制定可操作的数据源,制定增量抽取的定义。,27,ETL:数据抽取(2),不同数据源不同抽取数据:全量数据、增量数据增量抽取的实现方法:通过事物日志传递的方法实现数据增量变化以时间戳为准进行增量数据抽取不同抽取方式(关键在于访问能力):程序、脚本不同抽取间隔:实时、onehour、T-1抽取效率:与数据量、方法、硬件、网络有关抽取目标:DB、ODS、DW、File,28,ETL:数据清洗(1),清洗主要是针对系统的各个环节可能出现的数据二义性、重复、不完整、违反业务规则等问题,允许通过试抽取,将有问题的纪录先剔除出来,根据实际情况调整相应的清洗操作。,29,ETL:数据清洗(2),数据判断:二义性、重复、不完整、违反业务规则一致性清洗实现:数据库条件查询外部数据文件对比、排序,30,ETL:数据转换(1),转换主要是针对数据仓库建立的模型,通过一系列的转换来实现将数据从业务模型到分析模型,通过内建的库函数、自定义脚本或其他的扩展方式,实现了各种复杂的转换,并且支持调试环境,清楚的监控数据转换的状态。,31,ETL:数据转换(2),转换到统一的数据名称和定义(CodeString),CodeString为全辖统一的标准代码,所有源系统的代码字段在此统一,删除对决策应用没有意义的数据段,计算统计和衍生数据,给缺值数据赋给缺省值,把不同的数据定义方式统一,32,ETL:装载,装载主要是将经过转换的数据装载到数据仓库里面,可以通过数据文件直接装载或直连数据库的方式来进行数据装载,可以充分体现高效性。在应用的时候可以随时调整数据抽取工作的运行方式,可以灵活的集成到其他管理系统中。,33,ETL系统架构概述,调度模块:负责任务的管理、调度和分发,作业依赖关系的管理;作业主控(JCI):负责计算资源的分配、作业的执行,控制作业执行的流程、跟踪作业执行的结果、记录作业的日志。数据库模块:管理类数据库:用于调度和作业主控,保存任务和作业的相关配置信息和运行信息。应用类数据库:用于具体应用的业务数据库。ETL域:ETL架构中基本的计算资源组合,是一个计算机群,由JCI统一管理和控制,一个ETL域由一个ETLServer和多个ETLClient组成。ETL应用:应用部署和配置管理的基本单位,一个ETL应用包含一组相关的作业单元、作业配置参数和应用环境参数。物理作业:具体负责数据加工的程序执行单元,DS作业或者非DS作业(SHELL脚本、用C/C+/PROC等开发的可执行程序)。,34,ETL系统架构2,参看ETL架构培训,35,DM(DataMining)数据挖掘,“挖掘”出数据中隐藏的模式,趋势,关系的过程(Groth)通过自动或半自动的方式在海量数据中发现有用的模式,规则的过程(BeryyLinoff)分析普通的数据(通常是海量的)来发现数据之间比较稳定地关系,以易于理解的方式将数据总结出来向数据所有
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人才日活动策划方案模板
- 东莞入企咨询方案
- 传媒艺考活动策划方案
- 水产养殖行业技术规范总结
- 软件著作权转让协议
- 2025结构工程师检测卷(历年真题)附答案详解
- 2025国家统一法律职业资格考试考试真题及答案
- 中考语文小说阅读赏练-梁晓声小说(含解析)
- 诚信与谎言话题作文(13篇)
- 2025计算机一级考前冲刺练习试题及完整答案详解(夺冠系列)
- 《婚姻家庭法 (第三版)》第四章夫妻关系
- 楷书毛笔课件
- 急危重症患者的抢救应急处理预案及流程
- 班主任基本功大赛评分标准
- 额窦手术课件
- 电梯井道圈梁加固工程施工方案
- 流感疫苗项目市场营销策略方案
- 财务代理记账报税合同模板
- HY_T 0330-2022 海滩养护与修复工程验收技术方法
- 十四条经络养生课件
- 清洁生产的实施途径
评论
0/150
提交评论