商务智能系统课件_第1页
商务智能系统课件_第2页
商务智能系统课件_第3页
商务智能系统课件_第4页
商务智能系统课件_第5页
已阅读5页,还剩113页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第13章 商务智能系统 商务智能系统是应用人工智能、数据挖掘、数据仓库等先进技术,按照企业既定的业务目标,对大量的企业数据进行分析和挖掘,揭示出隐藏的、未知的知识或验证已知的规律,从而支持企业的智能管理与决策,提高企业核心竞争力。本章将详细讨论商务智能系统的起源、体系结构、工作原理和关键技术,并以知名的商务智能系统为例,剖析商务智能系统的实现原理和商务智能解决方案。13.1 商务智能概述商务智能将业务数据转换成明确的、基于事实的、能够执行的信息,并且使得业务人员能够发现客户趋势,创建客户忠诚度,增强与供应商的关系,减少金融风险,以及揭示新的销售商机。商务智能的目标是了解变化的意义从而理解甚至预

2、见变化本身。通过访问当前的、可靠的和易消化的信息,帮助企业从各个侧面及不同的维度灵活地浏览信息和建立模型。它是提高和维持竞争优势的一条有效的途径。1 商务智能的产生原因企业对社会环境变化的需求、技术进步的拉动以及经营理念发展的结果。(1)企业运营模式的变化。(2)“数据= 资产”新企业观念的建立。(3)传统分析工具的整合能力有限。(4)信息技术的推动。2 商务智能的定义Gartner Group最早提出商务智能概念,它认为:商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到企业各处,辅助商业决策的制定。商务智能专家利奥托德这样描述商

3、务智能:商务智能指将存储于各种商业信息系统中的数据转换成有用信息的技术。它允许用户查询和分析数据库,可以得出影响商业活动的关键因素,最终帮助用户做出更好、更合理的决策。国内商务智能专家王茁给商务智能下了这样一个定义:商务智能是企业利用现代信息技术收集、管理和分析结构化和非结构化的商务数据和信息,创造和累计商务知识和见解,改善商务决策水平,采取有效的商务行动,完善各种商务流程,提升各方面商务绩效,增强综合竞争力的智慧和能力。国内外一些知名的厂商也根据自身的产品提出独特的见解:IDC将商务智能定义为:终端用户查询和报告工具、OLAP工具、数据挖掘软件、数据集市和数据仓库产品等软件工具的集合。 IB

4、M认为:商业智能是一系列由系统和技术支持的以简化信息收集、分析的策略的集合,它应该包括企业需要收集什么信息、谁需要去访问这些数据、如何把原始数据转化为最终导致战略性决策的智能、客户服务和供应链管理。 Microsoft认为:商业智能是任何尝试获取、分析企业数据以更清楚地了解市场和客户、改进企业流程、更有效地参与竞争的努力。 SAP认为:商业智能是一大类收集、存储、分析和访问数据以帮助企业用户更好进行决策的应用程序与技术。 SAS认为:商业智能是关于在组织内部和组织周围正在发生的智能或知识。 MSTR认为:商业智能是一系列能够使公司分析数据库中的数据并根据收集的信息获得的洞察力来做决策的软件系统

5、。 DWReview认为:从数据分析的观点,商业智能是收集与研究主题相关的、高质量的、有意义的信息、以帮助分析信息、得出结论或做出假设的过程。 商务智能是一个综合的概念,不同的人从不同的角度,会得出不同的见解:从技术角度看,商务智能是以企业中的数据仓库为基础,经由联机分析处理工具、数据挖掘工具加上决策人员的专业知识,从根本上帮助公司把运营数据转化成为高价值的可以获取的信息(或者知识),并且在恰当的时候通过恰当的方式把恰当的信息传递给恰当的人的过程。从数据分析的角度看,商务智能是为了解决商业活动中遇到的各种问题,利用各种信息系统进行的高质量和有价值的信息收集、分析、处理过程,其基本功能包括个性化

6、的信息分析、预测和辅助决策。从应用的角度看,商务智能帮助用户对商业数据进行在线分析处理和数据分析,帮助解决商业问题、预测发展趋势、辅助决策,对客户进行分类、挖掘潜在客户等等,以便更好地实现商业目的。3 商务智能的特点现有的商务智能系统主要具有以下特点:(1)成熟的数据仓库管理能力(2)强大的数据挖掘和OLAP能力(3)便捷的报表功能存在的缺陷:(1)主动性较差(2)智能性较低(3)难以与企业中已有的商务系统集成4 商务智能的发展趋势商务智能的出现是一个渐进的复杂的演变过程,而且仍处在发展之中。它经历了事务处理系统(Transaction Proccss System,TPS)、高级管理人员信息

7、系统(Executive Information system,EIS)、管理信息系统(Management Information System,MIS)和决策支持系统(Decision Support System,DSS)等阶段,最终演变成今天的企业商务智能。5 商务智能的应用目前商务智能在全球的应用主要集中在保险业、银行业、电信业、制造业、零售业、税务和电子商务等领域。我国这方面的应用虽然才刚刚起步,但市场空间十分广阔。据IDC预测,亚太地区商务智能软件市场正以每年23%的速度增长,而中国是亚太地区商务智能增长最为迅速的市场之一;如果中国经济继续保持高速增长,商务智能软件在中国内地市场

8、的年销售额平均增长速度至少在65.6%。Business Objects和Cognos等BI提供商已直接或者通过其代理商进入中国市场。Business Objects等公司成立了中国研究中心,其对中国市场的重视程度可见一斑。IDC公司认为医疗、教育和服务等领域将是商务智能增长最快的行业。13.2 商务智能系统的体系结构所谓体系结构(Architecture)是指一整套的规则和结构,为一个系统或产品的整体设计提供主框架。而一个商业智能的体系结构是指通过识别和理解数据在系统中的流动过程和数据在企业中的应用过程来提供商业智能系统应用的主框架。1 商务智能系统的处理流程 商务智能系统是一种提高企业生存

9、能力的有效工具,从系统的观点来看,一个典型的商务智能系统包括明确需求、数据准备、数据存储、知识挖掘以及应用反馈几个主要的处理流程。(1)外部数据源通过运行环境(ERP、CRM、SCM等)流入BI循环(包含有关客户、供应商、竞争对手、产品以及企业本身的信息);(2)进入数据仓库/数据集市等数据存储部分对加入数据仓库的数据进行净化和转换,纠正错误的数据和统一格式,使其满足数据仓库应当具有的数据格式和质量标准;将其存储在中央存储库中(充当中央存储库的可以是关系型数据库或者多维数据库),数据的抽取、净化、转换和存储是BI循环的核心组成部分;(3)数据分析和知识挖掘部分从数据仓库/数据集市中获取数据,并

10、利用数据分析和知识挖掘工具,挖掘出对决策有用的知识,将所得结果提交给业务决策者。这部分是商务智能系统的灵魂,它满足了从简单报表经由OLAP扩展到数据挖掘范围内的各种需要;(4)BI将所得的知识以及决策者自身的反馈信息再次带入运作环境中,根据情况变化,表达新的需求,提高商务智能流程内在质量。从商务智能系统的循环流程中可以看出,数据仓库、OLAP(On-Line Analytical Processing:联机分析处理)和数据挖掘(Data Mining)是其主要的技术支柱:数据仓库是处理海量数据的基础,存储按照商务智能要求重新组织的来自业务系统的数据;联机分析处理不仅进行数据汇总/聚集,同时还提

11、供切片、切块、下钻、上钻和旋转等数据分析功能,用户可以方便地对海量数据进行多维分析;数据挖掘的目标则是挖掘数据背后隐藏的知识,通过关联分析、聚类和分类等方法建立分析模型,预测企业未来发展趋势和将要面临的问题。2 商务智能系统的体系结构从对处理流程的分析可以看出,商务智能系统主要由三个子系统组成:数据集成子系统、数据存储子系统以及BI应用子系统。如下图:(1)数据集成子系统 数据集成子系统提供了一个解决企业的数据一致性与集成化问题的方案,它通过数据整合、数据集中、数据交换等数据处理手段,将企业各个业务系统面向应用的数据重新按照面向统计分析的方式进行组织,屏蔽数据资源的异构性与分布性,从而实现统一

12、的数据访问和数据集成。目前,数据集成主要通过ETL工具软件、基于ETL的数据交换技术实现。(2)数据存储子系统数据仓库 数据仓库在现有各业务系统的基础上,对数据进行抽取、清理,并有效集成后,按照主题进行重新组织,最终确定数据仓库的物理存储结构,同时组织存储数据仓库元数据(具体包括数据仓库的数据字典、记录系统定义、数据转换规则、数据加载频率以及业务规则等信息)。(3)BI应用子系统 通过对分析需要的数据按照多维数据模型进行再次重组,以支持用户多角度、多层次的分析,并利用数据分析工具从中发现有用的知识,支持企业的决策过程。它主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工具以及各种基于数据

13、仓库或数据集市开发的应用。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具既针对数据仓库,同时也针对OLAP服务器。商务智能系统的实施 商业智能系统主要实现将来自不同企业运作系统的数据转换为企业决策信息的过程。与一般的信息系统不同,它在处理海量数据、数据分析和信息展现等多个方面都具有突出性能。 商务智能的体系结构可以指导商务智能系统的实施,其步骤为:选择数据源 数据预处理数据存储 数据分析 (1)选择数据源 数据源包括了企业中所有的信息系统,以及根据决策分析需求可能涉及的其他外部数据资源,为了确保商务智能系统的成功,在识别和确定数据源时应遵循一些原则:保证数据的真实性保证数据的针

14、对性保证数据的完整性(2)数据预处理 ETL是商务智能系统整合异构数据源的解决方案,简单的讲,ETL就是抽取、转换和装载,同时提供数据质量的管理,并且贯穿整个商务智能解决方案的全过程,完成整个系统的数据处理与调度。数据抽取 数据抽取是在对数据仓库的主题和数据本身内容理解的基础上,选择主题所涉及的相关数据。 a.数据的更新方式 量更新还是批量更新。 实时更新还是周期更新。 b.数据的传输模式 数据传输是通过网络把远程的数据文件运用FTP传输到本地目录下。数据的传输模式即数据仓库中的数据是采用拉(Pull)的方式还是采用推(Push)的方式从数据源中获取。数据转换 数据转换主要是针对数据仓库建立的

15、模型,通过一系列的转换将数据从业务模型数据转换为分析模型数据,通过内建的库函数、自定义脚本或其他的扩展方式,实现多种复杂转换,并且支持调试环境,监控转换状态。数据转换是将源数据变为目标数据的关键环节,它包括数据格式转换、数据类型转换、数据汇总计算数据拼接等等。但转换工作可以视具体情况在不同的过程中实现,比如可以在数据抽取时转换,也可以在数据加载时转换。数据清洗 数据清洗实际就是利用有关技术如数理统计、数据挖掘或预定义的数据清洗规则将脏数据转化成满足数据质量要求的数据。按数据清洗的实现方式与范围,可将数据清洗分为四种:手工实现方式:用人工来检测所有的错误并改正。这只能针对小数据量的数据源。通过专

16、门编写的应用程序:通过编写程序检测/改正错误。但通常数据清洗是一个反复进行的过程,这就导致清理程序复杂、系统工作量大。某类特定应用领域的问题,如根据概率统计学原理查找数值异常的记录。与特定应用领域无关的数据清洗,这一部分的研究主要集中于重复记录的检测/删除。数据清洗 数据装载 数据装载主要是将经过转换和清洗的数据加载到数据仓库里面,即入库。可以通过数据文件直接装载或直连数据库的方式来进行,充分体现高效性。数据装载有两个部分,一部分是把合法数据文件装入回滚表中,该装入过程没有汇总部分;另一部分是把初次汇总表加载到临时汇总表,根据不同类型的数据,可能会有二次汇总。当加载临时汇总表的过程完毕以后,再

17、把临时中间表的数据装入到中间表中。在实施中,它的步骤如下: a. 读取汇总数据文件、无需进行汇总的源数据文件或需以后汇总的源数据文件,调用数据文件对应操作配置表,加载到相应数据表(中间表或回滚表)中; b. 读取需进行实时汇总的合法数据文件,调用数据文件对应操作配置表,对数据库进行更新操作; c. 程序根据生成的不同数据文件,同时生成汇总数据,同先前步骤的汇总文件进行对比,如出现不一致,提供系统预警。 (3) 数据存储 对于一个企业来说,最关键最重要的是如何以一种有效的方式逐步整理各个业务处理系统中积累下来的历史数据,并通过灵活有效的方式为各级业务人员提供统一的信息视图,从而在整个企业内实现真

18、正的信息共享。数据仓库元数据存贮数据仓库 数据仓库是一种语义上一致的数据存储,它是决策支持数据模型的物理实现,并存放企业战略决策所需信息。数据仓库也常常被看作一种体系结构,通过将异种数据源中的数据集成在一起而构造,支持结构化的和专门的查询、分析报告和决策。 通过提供多维数据视图和汇总数据的预计算,数据仓库非常适合联机分析处理(OLAP)。OLAP操作使用数据的领域背景知识,允许在不同的抽象层提供数据。这些操作适合不同的用户。尽管数据仓库工具对于支持数据分析是有帮助的,但是仍需要更多的数据挖掘工具,以便进行更深入的自动分析。元数据存贮 简单地,元数据存贮有两种形式:其一是以数据集为基础,即每一个

19、数据集有一个对应的元数据文档,每一个元数据文件中包含对相应数据集的元数据内容。另一种存在方式是以数据库为基础(即元数据库),给一个数据库有一个元数据文件,该文件为一表格数据,它由若干项组成,每一项表示元数据的一个要素,其记录为每一个数据集的元数据内容。(4) 数据分析 在商务智能系统中,需要将交互式信息分析、挖掘工具、数据分析软件、商务智能工具与商业运营规则相结合对数据的模式和趋势进行分析,给用户提供企业商务的方方面面的详细信息,以辅助商务活动决策获得更高的ROI和利润。数据分析主要包含三个方面:联机分析处理数据挖掘联机分析挖掘13.3 商务智能中的关键技术商务智能是一套完整的解决方案,它是将

20、数据仓库、联机分析处理(OLAP)和数据挖掘等结合起来应用到商业活动中,从不同的数据源收集数据,经过抽取(Extract)、转换(Transform)和加载(Load),送入到数据仓库或数据集市,然后使用合适的查询与分析工具、数据挖掘工具和联机分析处理工具对信息进行处理,将信息转变成为辅助决策的知识,最后将知识呈现于用户面前,以实现技术服务与决策的目的。1 数据仓库技术 建立数据仓库系统的目的是要构建一种体系化的数据存储环境,将分析决策所需的大量数据从传统的操作环境中分离出来,使分散的、不一致的操作数据转换成集成的、统一的信息,运用这些信息,发现问题、分析问题、解决问题,进而进行决策,为在以后

21、获得更多的经济效益服务。 (1)数据仓库的定义 “数据仓库之父”W.H.Inmon在他的Building the Data Warehouse一书中指出:“数据仓库是面向主题的、集成的、非易失的,随时间变化的用来支持管理人员决策的数据集合。” 从上面这个概念的字面意义来看,数据仓库包含两层含义: 数据,即关于某事的事实和信息; 仓库,即存储货物和商品的地方或设施。数据仓库的特征:面向主题性 数据仓库中的所有数据都是围绕着某一主题组织,如客户、供应商、产品来建立的。集成性 数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保

22、证数据仓库内的信息是关于整个企业的一致的全局信息非易失性 数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。时变性 时变性表现在数据仓库的数据是在一个很长的时间上的数据。 (2) 数据仓库的数据组织 数据仓库的数据组织结构 数据仓库的数据组织方式与数据库不同,通常是采用分级的方式组织。一般分为早期细节级、当前细节级、轻度综合级、高度综合级以及元数据五部分。a早期细节数据 存储过去的详细数据,反映真实的历史情况,这类数据随着时间增加,数

23、据量很大,使用频率低,一般存储在转换介质中,例如磁带中。b 当前细节数据 存储最近时期的业务数据,反映当前业务的情况,数据量大,是数据仓库用户最感兴趣的部分。随着时间的推移,当前细节数据由数据仓库的时间控制机制转为早期细节数据。c轻度综合数据 从当前基本数据中提取出来,通常以较小的时间段(粒度)统计而成的数据,其数据量较细节及数据少得多。d高度综合数据 这一层的数据十分精炼,是一种准决策数据。e 元数据 对数据仓库中的各种数据进行详细的描述与说明,说明每个数据的上下文关系,使每个数据具有符合现实的真实含义,使最终用户了解这些数据之间的关系。每月数据2000-2005每周数据2000-2005细

24、节数据2000-2005操作数据1995-2000高度综合级轻度综合级当前细节级早期细节级图13-5 数据仓库的数据组织结构图元数据 当前的数据总是首先进入当前细节级,然后根据应用的需求,通过预运算将数据聚合成轻度综合和高度综合级。由此可见,数据仓库中存在着不同的综合级别,一般称之为“粒度”。粒度是指数据仓库中的数据单位,保存数据的细化或综合程度的级别。细化程度越高,粒度就越小;相反,细化程度越低,粒度级就越大。粒度可以分为两种形式,第一种粒度称为多维粒度,是对数据仓库中的数据的综合程度高低的一个度量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。另一种粒度形式称为样本数

25、据库,它根据给定的采样率从细节数据库中抽取出一个子集。与粒度相对应的一个概念是“分割”。它的目的同样在于将数据分散到各自的物理单元中去,以便能分别独立处理。有许多数据分割的标准可供参考:如日期、地域、业务领域等等,也可以是其组合。一般而言,分割标准总应包括日期项,它十分自然而且分割均匀。数据仓库的数据组织形式简单堆积文件轮转综合文件简化直接文件连续文件简单堆积文件 从面向应用的数据库中每天的数据中提取出来,然后按照相应的主题集成为数据仓库中的记录。轮转综合文件 数据存储单位被分为日、周、月、年等几个级别。在一个星期的七天中,数据被逐一记录在每日数据集中;然后,七天的数据被综合并记录在周数据集中

26、;接下去的一个星期,日数据集被重新使用,以记录新数据。同理,周数据集达到五个后,数据再一次被综合并记入月数据集。以此类推。轮转综合结构十分简捷,数据量较简单堆积结构大大减少。当然,它是以损失数据细节为代价的,越久远的数据,细节损失越多。1 数据仓库技术 (2) 数据仓库的数据组织 数据仓库的数据组织形式轮转综合文件 简化直接文件 它类似于简单堆积文件,但它是间隔一定时间的数据库快照,比如每隔一星期或一个月作一次。连续文件 它类似于简单堆积文件,但它是间隔一定时间的数据库快照,比如每隔一星期或一个月作一次。1 数据仓库技术 (2) 数据仓库的数据组织 数据仓库的数据模型 数据模型是对现实世界进行

27、抽象的工具,抽象的程度不同,就形成不同抽象级别层次上的数据模型。通常,数据数据可以分为三个层次:高层数据模型(ER图,实体关系层)、中间层模型(DIS,数据项集)、底层数据模型(物理模型)。数据仓库的数据模型高层数据模型 高层建模以实体和关系为特征,实体处于最高抽象层,由“集成范围”这个术语表示的内容来决定哪些实体属于模型范围。集成范围定义了数据的边界,而且集成范围需在建模之前进行定义。这个范围由系统的建模者、管理人员和最终用户共同确定。如果范围没有预先确定,建模过程就很有可能一直持续下去。写出来的集成范围应该尽量简短,而且应该使用业务人员可以理解的语言。 高层数据模型对数据抽象程度最大,表达

28、工具为E-R图。中间层模型 对高层数据模型中标识的每个主要的主题域或实体,都要建一个中间层数据模型。中间层数据模型4种基本构造,见图13-10:联接数据组:本主题域与其他主题域间的联系,一个主题的公共码键。 基本数据组:属于基本不会发生变化的项。 二次数据组:基本不变化,但又存在变化的可能的数据项。 类型数据组:经常变化的数据项。底层模型 它是从中间层数据模型创建而来的,建立物理模型只需扩展中间层模型,使模型中包含有关键字和物理特性就可以实现。其中物理特性设计需包括:确定数据的粒度和分区。当然关键字结构得发生改变,以便能加入与每一个数据单元都相关的时间元素。数据库设计者需要在物理上组织好数据、

29、保证执行一次物理I/O能够返回最大数量的记录。因为数据仓库中的数据一般不更新,可以考虑一些在经常更新情况下不能使用的物理设计。 上述三个层次的数据模型对应到传统操作型数据库建模中即为:概念模型、逻辑模型和物理模型。在数据仓库的设计中同样存在着这样的模型。数据模型既适用于现有的系统环境也适用于数据仓库中的环境。但数据仓库的数据模型与操作型数据库的三级数据模型又存在着一定的区别:数据仓库的数据模型中不包含纯操作型的数据;数据仓库的数据模型扩充了码结构,增加了时间属性作为码的一部分;数据仓库的数据模型中增加了一些导出数据。数据仓库的数据追加方式常用的技术和方法有:时标方法DELTA文件前后映象文件的

30、方法日志文件 (3) 数据仓库的体系结构 数据仓库系统是以数据仓库为基础,通过集成工具、查询工具和分析工具完成对数据的转换和对信息提取的系统。通常采用如图13-11所示的体系结构:数据源、数据存储和管理、数据分析以及数据展示。其中,元数据库是对数据的一种描述,贯穿整个系统的各个部分 数据仓库的数据一般分为操作数据库源数据和外部源数据两部分。操作数据源包括各种生产系统数据库、联机事务处理系统的操作数据库等;外部源数据一般来自企业的外部信息,如市场调查与分析及各类文档等。 导入的源数据形成了数据仓库的原始数据,然而源数据只是数据仓库的一部分,但不是全部。由于需要数据仓库进行OLAP分析和数据挖掘,

31、因此需要在原始数据的基础上增加冗余信息,比如进行大量的预运算,建立多维数据库,以求得到更好的分析结果。 数据的存储与管理是整个数据仓库系统的核心。在现有各业务系统的基础上,对数据进行抽取、清理,并有效集成,按照主题进行重新组织,最终确定数据仓库的物理存储结构,同时组织存储数据仓库元数据(具体包括数据仓库的数据字典、记录系统定义、数据转换规则、数据加载频率以及业务规则等信息)。 数据访问和分析工具不但要提供一般的数据访问功能,如查询、汇总、统计等,还要提供对数据的深入分析功能,即数据挖掘的功能,如数据的比较、趋势分析、模式识别等。 数据展示将应用结果,特别是分析、决策结果以多种媒体形式表示。 (

32、4) 数据仓库的基本框架 数据仓库提供了有效地存取和管理大量数据的理想环境,而数据仓库系统的建立是一个由数据驱动、以技术支撑并满足应用需求的不断增长和完善的开发过程。因此数据仓库的设计可以从数据、技术和应用三方面展开,其基本框架如图13-13所示基本框架的各部分描述如下:项目计划。项目计划是指定义创建数据仓库的项目目标和确定项目范围,包括对项目计划的评估和流程的调整。业务需求分析。业务需求分析是数据仓库中一个很重要的阶段,好的业务需求分析会使项目成功的机率大大增加。数据线。数据线的实施可以分为模型设计、物理设计、数据处理三个步骤,用以满足对数据的有效组织和管理。技术线。技术线的实施分为技术选择

33、和产品选择两个步骤。如何采用合理有效的技术是实现一个好的数据仓库系统的基本条件。应用线。应用线的实施分为应用设计和应用开发两个步骤。数据仓库的建立最终是为应用服务的,所以需要对应用进行设计和开发,以更好地满足用户的需要。运行维护。数据仓库建成后就进入运行维护,在运行中要不断验证评价分析设计是否符合用户需求,产生出新的分析要求及时反馈回需求分析,进行系统设计的改进。数据线路:模型设计。该阶段的主要任务是进行数据仓库的逻辑设计,包括选择合适的主题,确定事实表、相关的维、属性和粒度划分,设计正确的表结构和主键、外键关系等。模型设计主要包括四个基本步骤:确定合适的主题、划分粒度层次、设计维表和设计事实

34、表。物理设计。物理设计的主要任务是定义支持模型设计必需的物理结构。其过程包括以下三个方面:确定物理存储结构;确定索引策略;确定存储分配。数据预处理。数据预处理是数据仓库设计工程中非常重要的过程,它由三个主要步骤组成:抽取(Extraction)、转换(Transformation)、加载(Load),简称ETL。技术线路: 技术路线包括技术选择和产品选择两步。在数据仓库建立的过程中会遇到一些新的特定的问题,如管理大量数据的需求,如何对数据进行快速和方便的访问等。为解决这些问题人们采用了新的技术。技术选择。技术体系选择必须从为这些技术建立全局的结构框架和视角出发,选择中需要同时考虑三个因素:商业

35、需求、当前的技术环境、计划的策略技术方向。产品选择。技术体系确定以后需要选择实现数据仓库应用的各种产品,包括硬件平台、ETL工具、OLAP服务器、数据展现工具等,并进行产品的安装和测试。应用线路: 应用设计和开发的一个有效办法是针对不同的用户需求,设计和实现标准的用户应用模板,提供给用户高效的接入方式。应用路线包括应用设计和应用开发两步。应用设计。应用设计的任务是设计标准的用户应用模板。应用设计的过程一般包括:确定初始的模板集、设计模板的标准、设计详细模板、最后通过用户反馈进行改进。应用开发。应用开发是通过应用设计说明书,按照标准的软件开发流程,实现模板的设计。应用开发的一般过程是选择实现的方

36、法,然后进行模板的实现、测试和数据验证,最后是应用模板的维护。2 联机分析处理 OLAP专门用于支持复杂的决策分析,是支持信息管理和业务管理人员决策活动的一种决策分析工具。它可以根据分析人员的要求,迅速、灵活地对大量数据进行复杂的查询处理,并且以直观的、容易理解的形式将查询结果提供给各种决策人员,使他们迅速、准确地掌握企业的运营情况,了解市场的需求。(1) 联机分析处理的定义 OLAP委员会的定义:OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术

37、。OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。 联机分析技术具有如下特点:一是在线(On-Line),表现为对用户请求的快速响应和交互操作,它的实现是由客户机服务器体系结构完成的;二是多维分析(Multi-Analysis),这也是OLAP技术的核心所在。具有以下优点:快速性:用户对OLAP的快速反应能力有很高的要求,主要是指计算机的计算的反应速度,系统应能在5秒内对用户的大部分分析要求做出反应,但对业务数据的实时信息却很难反应。 可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。多维性

38、:多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。信息性:不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。 (2) OLAP的数据组织 数据仓库、OLAP都以多维数据模型为基础。多维数据模型是数据分析时用户的数据视图,是面向分析的数据模型,可以给分析人员提供多种观察的视角和面向分析的操作。该模型将数据看作多维的数据方体。维是人们观察数据的特定角度。 人们观察数据的某个特定角度还可以存在细节程度不同的多个描述方面,称为维的层次(Hierarchy)。一个数据维又可以包含一个或多个层次 维的一个取值成为该

39、维的一个维成员(Member),是数据项在某维中位置的描述。如前例中所述的每个工厂、每段时间、每种产品都是它们所属维的一个维成员。立方体和超立方(Cube) 多维数据模型的数据结构可以用这样来一个多维数组来表示:(维1,维2,维n,度量值),例如:商品销售数据是按时间、地区、商品种类,加上度量“销售额”组成的一个三维数组:(地区,时间,商品种类,销售额)。三维数组可以用一个立方体来直观的表示。一般地多维数组用多维立方体来表示,但数据立方体并不一定限于三维,因此又称为超立方立方体和超立方(Cube) 数据立方体方法的基本思想是实现某些常用的代价较高的聚集函数的计算,诸如计数、求和、平均、最大值等

40、,并将这些实现视图储存在多维数据库中。因为很多聚集函数需经常重复计算,所以在多维数据立方体中存放预先计算好的结果将能保证快速响应,并可灵活地提供不同角度和不同抽象层次上的数据视图。在数据立方体中,可对数据进行聚集。由于预先计算了所有可能的聚集,因此可加快分析时的响应速度。多维数据集的度量值 多维数据集的度量值是基于多维数据集中事实表的一列或多列,数值型数字。多维数据集的度量值是OLAP分析的核心值,是用户在DW中需要查看的数据,一般是销售量、成本、费用等。多维数据模型的组织模式 对于三维以上的数据方体,很难用可视化的方式直观地表示出来。为此人们用较形象的星型模式和雪花模式来描述多维数据模型。

41、a.星型模式 星型模式(star Schema)通常由一个中心表(事实表)和一组维表组成。事实表包含大批度量数据。维表一般较小,每维一个。这种模式图很像星星,维表围绕中心表,故命名为星型模式。 星型模型是数据仓库最常见的模型范例。星型模型包括两部分:事实表一个大的包括大批数据和不含冗余的中心表(包括用于分析的测量指和连接维的键,例如总销售量、月银行存款额、货运量等)。维表一组小的附属表,每维一个。这种模型图,很象星星爆发。维图围绕事实表显示在射线上。维表包含有描述数据部件的属性,并提供用于比较分析的信息。b.雪花模式 雪花模式(Snow Flake schema)是星型模式的变种。在某些维表中

42、,属性列不是基本数据项,仍然是一个维表。也就是说,某些维表不是第一范式。因此要把维表规范化,即把维表进一步分解,生成附加的表,使模式图形成类似于雪花的形状。 雪花模式和星形模式的主要不同在于,冗余度小,维表易于维护,并节省存储空间,但是由于执行查询需要更多的连接操作,雪花模式可能降低查询的性能。(3) OLAP的多维分析 多维分析是指对以多维形式组织起来的数据采取切片(Slice)、切块(Dice)、钻取(Drill-down和Roll-up)、旋转(Pivot)等各种分析动作,以求剖析数据,使用户能从多个角度、多侧面地观察数据库中的数据,从而深入理解包含在数据中的信息。数据切片(slice)

43、 多维数据是由多个维度组成的,如果在某一维度上选定一个取值,则n维多维数据就从n维下降成了n-l维,则称多维数组的子集为多维数组在维度i上的切片。其作用在于舍弃一些观察角度,便于人们对数据的集中观察。这种切片数量取决于维i上的维成员个数。数据切块(Dice) 在多维数组的某一维上选定某一区间的维成员的动作称为切块。切块可以看成是若干个切片的叠加。例如选定n维多维数组(维度1、维度2、维度3、维度n,度量值)中若干维度(通常为3个维度)的取值范围,从而形成该多维数据的子集(维度1、维度2、维度3、AI维度iBl,A2维度jB2,A3维度kB4,维度n,度量值),即为该多维数组的一个切块。 切片和

44、切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个或以上,则是切块。数据聚合和钻取 前面提到维度是具有层次性的,层次性实际上反映了数据的综合程度。维度层次越高,代表的数据综合度越高,细节越少,数据量越少;维度层次性越低,则代表的数据综合度越低,细节越充分,数据量越大。数据聚合和钻取是在维度层次上互为逆操作的两种OLAP基本分析动作,是改变维的层次,变换分析的粒度。数据聚合是对数据进行高层次综合的操作;是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;数据钻取则是从较高的维度层次下降到较低的维度层次的操作,它从汇总数据深入到细节

45、数据进行观察或增加新维。钻取的深度与维所划分的层次相对应。旋转 旋转即改变一个报告或页面显示的维方向。通过旋转可以得到不同视角的数据。例如:旋转可能包含交换行和列,或是把某一个行维移到列维中去,或把页面显示中的一个维和页面外的维进行交换。(4) OLAP系统的体系结构和分类 数据仓库与OLAP的关系是互补的,现代OLAP系统一般以数据仓库作为基础,即从数据仓库中抽取详细数据的一个子集并经过必要的聚集存储到OLAP存储器中供前端分析工具读取。OLAP的具体实现方案通常采用三层客户/服务器结构。如图13-14所示。数据仓库服务器OLAP服务器前端展示工具SQL 查询查询结果请求返回结果返回结果SQ

46、L图13-14 OLAP三层客户/服务器结构数据仓库服务器数据仓库服务器:实现和基层运营数据库系统的连接,完成企业级数据一致和数据共享的工作OLAP服务器:根据最终客户的请求实现分解成OLAP分析的各种分析动作,并使用DW中的数据完成这些动作前端展示工具:将OLAP服务器处理得到的结果用直观的方式展现给最终用户。 OLAP系统按照其存储器的数据存储格式可以分为关系OLAP(Relational OLAP,简称ROLAP)、多维OLAP(Multidimensional OLAP,简称MOLAP)和混合型OLAP(Hybrid OLAP,简称HOLAP)三种类型。DB图 13-15 MOLAP

47、结构图DBDBOLTP数据库多维数据库OLAP服务器OLAP客户端分析数据MOLAP MOLAP利用一个专有的多维数据库来存储OLAP分析所需的数据,数据以多维方式存储,并以多维视图方式显示,其结构如图13-15所示。 MOLAP结构的主要优点是它能迅速响应决策分析人员的分析请求,并快速地将分析结果返回给用户,这得益于它独特的多维数据库结构以及存储在其中的预处理程度很高的数据(一般预处理程度在85%以上)。在MOLAP结构中,OLAP主要是通过读取经过预处理的数据来完成分析操作,而这些预处理操作是预先定义好的,这就限制了MOLAP结构的灵活性。ROLAP ROLAP在功能上类似于MOLAP,但

48、是它的底层数据库是关系数据库,而不是多维数据库,其结构如图13-16所示。DB图 13-16 ROLAP 结构图DBDBOLTP数据库数据仓库OLAP服务器OLAP客户端分析数据 ROLAP的主要优点是它的灵活性强,用户可以动态定义统计或计算方式。ROLAP的缺点是它对用户的分析请求处理的时间要比MOLAP长。MOLAP与ROLAP是目前使用最多的两种OLAP结构,这两种结构都能完成相同的分析功能。MOLAP采用专用的多维数据库来支持多维分析功能,而ROLAP则不需要用专有的多维数据库来支持多维分析操作,它的数据库层采用关系型数据库系统。由于这两种结构在各自的数据库层采用的数据库系统不同,从而

49、导致它们不同的特点。由于MOLAP采用了新的存储结构,从物理层实现起,因此又称为物理OLAP(Physical OLAP);而ROLAP主要通过一些软件工具或中间软件实现,物理层仍采用关系数据库的存储结构,因此称为虚拟OLAP(Virtual OLAP)。HOLAP 由于MOLAP和ROLAP有着各自的优点和缺点,而它们的结构却迥然不同,这给分析人员设计OLAP结构时提出了难题,他们必须在两种结构之间进行选择。为了将两种结构的优点结合起来,一个新的OLAP结构混合型OLAP(HOLAP)被提出。 HOLAP结构不应该是MOLAP与ROLAP结构的简单组合,而是这两种结构技术优点的有机结合,能满

50、足用户各种复杂的分析请求。一个真正的HOLAP系统应能遵循以下几条准则:维度能够被动态更新 一个真正的HOLAP不但可以提供对数据的实时存取,还可以根据不断变化的结构对维数进行更新。可根据RDBMS的元数据产生多维视图 一个真正的HOLAP可利用RDBMS的元数据来构建多维模型并可以利用元数据方便快捷地更改多维视图,减少开发和维护人员的工作量。可以快速存取各种级别的汇总数据。可适应大数据量数据的分析。可以方便地对计算和汇总算法进行维护和修改。3 数据挖掘技术 与OLAP的探测式数据分析不同,数据挖掘是按照预定的规则对数据库和数据仓库中已有的数据进行信息开采、挖掘和分析,从中识别和抽取隐含的模式

51、和有趣知识,为决策者提供决策依据。 利用数据挖掘技术可以帮助获得决策所需的各种知识,如关联规则、分类与聚类等。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。涉及到数理统计、模糊理论、神经网络和人工智能等多种技术,技术含量比较高,实现难度较大。此外,数据挖掘技术还会同可视化技术、地理信息系统、统计分析系统相结合,丰富数据挖掘技术及工具的功能与性能。 从商业上看,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性信息。简而言之,数据挖掘其实是一类深层次的数据分析方法

52、,它是按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。 从技术上讲,数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义: 数据源必须是真实的、大量的、含噪声的; 发现的是用户感兴趣的知识; 发现的知识要可接受、可理解、可运用; 并不要求发现放之四海皆准的知识,仅支持特定的发现问题。 数据挖掘是当前研究的热点,目前已经取得了不少的进步,并有一些商业化的数据挖掘软件投入使用,但是还存

53、在许多问题。数据挖掘的基本问题就在于数据的数量和维数,数据结构也因此显的非常复杂,如何进行探索,选择分析变量,也就成为首先要解决的问题。面对如此大的数据,现有的统计方法等都遇到了问题,我们直接的想法就是对数据进行抽样,那么怎么抽样,抽取多大的样本,又怎样评价抽样的效果,这些都是值得研究的难题。既然数据是海量的,那么数据中就会隐含一定的变化趋势,在数据挖掘中也要对这个趋势做应有的考虑和评价。各种不同的模型如何应用,其效果如何评价。不同的人对同样的数据进行挖掘,可能产生不同的结果,甚至差异很大,这就涉及到可靠性的问题。当前互联网的发展迅速,如何进行互联网的的数据挖掘,还有文本等非标准数据的挖掘,都

54、引起了极大的兴趣。数据挖掘涉及到数据也就碰到了数据的私有性和安全性。数据挖掘的结果是不确定的,要和专业知识相结合才能对其做出判断。 总之,数据挖掘只是一个工具,不是万能的,它可以发现一些潜在的用户,但是不会告诉你为什么,也不能保证这些潜在的用户成为现实。数据挖掘的成功要求对期望解决问题的领域有深刻的了解,理解数据,了解其过程,才能对数据挖掘的结果找出合理的解释。例如曾经用数据挖掘找出的啤酒和尿布的例子,如何去解释这种现象,是应该将两者放在一起还是分开销售,这还需要对消费心理学有所研究才能做出决定,而不是数据挖掘能力所及的了。 不可否认的是,数据挖掘研究方兴未艾,其研究与开发的总体水平相当于数据

55、库技术在70年代所处的地位,迫切需要类似于关系模式、DBMS系统和SQL查询语言等理论和方法的指导,才能使数据挖掘的应用得以普遍推广。预计在不久的研究还会形成更大的高潮,研究焦点可能会集中到以下几个方面:发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便于在知识发现的过程中进行人机交互;研究在网络环境下的数据挖掘技术(Web挖掘),特别是在因特网上建立数据挖掘/知识发现服务器,并且与数据库服务器配合,实现Web挖掘;加强对各种非结构化数据的开采(Data Mining for

56、 AudioVideo),如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采;处理的数据将会涉及到更多的数据类型,这些数据类型或者比较复杂,或者是结构比较独特。为了处理这些复杂的数据,就需要一些新的和更好的分析和建立模型的方法,同时还会涉及到为处理这些复杂或独特数据所做的费时和复杂数据准备的一些工具和软件。交互式发现和知识的维护更新。 13.4 商务智能系统实例分析1 IBM商务智能系统IBM的商务智能解决方案 IBM的商务智能方案体系结构如图13-18所示,包括数据仓库,联机分析处理,数据挖掘和查询工具四部分。数据源VisualWarehouseDB2 Spatial E

57、xtenderDB2 OLAP severIBM EnterpriseAnalyticsDB2 Warehouse Manager用户图13-18 IBM商务智能方案体系结构数据仓库 IBM DB2通用数据库是IBM商务智能解决方案的基础。IBM已经在DB2中集成了部分BI工具,如内置了联机分析处理、空间分析等功能。 Visual Warehouse是数据仓库工具,提供数据抽取、整合、转换、清洗、加载等功能,可以按预先设定的时间自动更新数据仓库,甚至允许使用第三方工具完成数据抽取过程。 DB2 Warebouse Manager也是数据仓库工具,用于构造和管理数据仓库,有助于简化构建数据仓库原

58、型的过程,快速部署数据仓库,能够向终端用户提供对元数据的简单访问。联机分析处理 Essbase/DB2 OLAP Serve:是一个企业级的联机分析处理系统,支持多维数据库,是一个HOLAP服务器,提供“维”的定义和数据装载功能。它可用于各种多维报告、分析、建模和规划应用。数据挖掘 IBM Enterprise Analyties是IBM的数据挖掘工具集,由IBM DB2 Intelligent Miner for data和DB2 Intelligent Miner Scoring组成。 IBM DB2 Intelligent Miner for data可以发现包含在传统文件、数据库、数据

59、仓库等载体中的隐含信息。 IBM DB2 Intelligent Miner scoring主要进行实时数据挖掘分析。C.查询工具 DB2 Spatial Extender在数据库中提供了图形信息系统(GIS)能力,通过使用户能够浏览以图像、声音、视频、文本、XML和其它格式保存的数据来提高多媒体查询性能。 IBM商务智能解决方案中,查询工具还可以使用第三方前端展现工具,如BO的Business objects,Cognos的Impromptu,Lotus的Approach等。2 Sybase商务智能系统 Sybase的商业智能解决方案可以提供业界领先的应用、工具和技术,帮助企业全力面向新的商

60、务挑战,为新世纪的成功奠定坚实的基础。其Industry Warehouse Studio(IWS)是一个面向行业的集成化的商业智能应用,为用户解决商业智能“做什么”和“怎么做”的问题。另一个产品Adaptive Server IQ Multiplex是专门为满足数据仓库和商业智能设计的高性能的关系数据库系统。Sybase公司提供的商务智能解决方案以能够支持多种关系型数据库(如Sybase、Oracle、 Microsoft、Informix和IBM的关系数据库管理系统)而受到业界推崇,其垂直数据存储技术使得查询速度比传统的关系型数据库管理系统快100倍。(1)Industry Warehou

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论