基于数据仓库的银行决策支持系统初步分析_第1页
基于数据仓库的银行决策支持系统初步分析_第2页
基于数据仓库的银行决策支持系统初步分析_第3页
基于数据仓库的银行决策支持系统初步分析_第4页
基于数据仓库的银行决策支持系统初步分析_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于数据仓库的银行决策支持系统初步分析1数据仓库技术的发展随着计算机信息系统在全球范围内的广泛应用,许多机构和公司都积累了大量的历史数据.从这些数据中,可以研究过去的经营状况、管理状况,发现和挖掘可以改进的地方,可使决策者很快地对自己的经营情况做出准确的评估,并为制订计划、确定发展规划提供依据.然而准确地从这成堆的历史数据中挖掘、整理出有用的数据,需要使用新的方法。1990年PrismSolutions公司W.H.Inmon在"BuildingtheDataWarehouse"一书中提出数据仓库(DataWarehouse)的概念.这一概念和引入联机分析处理(OLAP)方法解决了在信息技术发展中存在的拥有大量数据及如何利用其中有价值信息的问题,为构筑合理可行的DSS/EIS系统提出了解决方案。数据仓库的设计是一个非常重要的基础,国内外诸多研究者对此也提出了许多建模的规划及实现方法。近年来,微电子、计算机技术快速发展,网络通讯、操作平台与工具、数据库、多媒体(超媒体)等新兴技术领域,连连取得重大突破与实用化进展;企业竞争的日益激烈为DSS的需求不断注入活力,新兴技术的发展尤其数据库技术的发展,以数据仓库(DataWarehouse,DW)技术为基础,以在线分析处理(OnLineAnalyticalProcessing,OLAP)技术和数据挖掘(DataMining,DM)技术工具为手段的决策支持系统解决方案逐渐成熟。这是一种对于DSS问题的更为完整统一的解决途径,它具有技术起点高、支持工具强、有广阔实用前景等优势。早期的决策支持系统(DSS)在应用需求推动和人工智能技术支持下,经过长期探索,建立了一套理想化的框架体系,这就是以数据库(DB)、模型库(MB)和知识库(KB)等"三库"为核心的理论体系结构和系统建设方法。有些系统取得了令人瞩目的成绩,然而就其总体而言,以往的系统多数只能停留在演示阶段,录活性、可用性差,因而不够实用,未能迈入大规模的工业工程实践。多年来,DSS仍然处在设计方案与系统规划阶段,缺乏可操作、可实施的技术、方法和工具。究其原因,概因为缺乏丰富的数据资源所致,不论是内部数据还是外部数据,操作数据还是管理数据,综合数据还是历史数据统统不足;DSS是面向分析的,然而分析模型和算法设计均缺少坚实的数据基础;所得少量信息,其关联性又差(如"三库"无法有机结合),结果形成信息弧岛;最后,缺乏有力的分析工具,无法从外部市场得到成熟的分析工具产品,多数为自行开发,力不从心只能就事论事。数据仓库技术高性能的数据库服务器,可处理数据量巨大、查询要求复杂,且具查询优化机制的难题,并行数据库技术,可并行存贮管理超大规模数据库(VLDB),提供高速度复杂查询的能力;网络与数据库的互操作技术,使大量数据通过网络的传输、转化高得简易可靠,这些都为新兴的数据仓库技术的发展开辟了道路。数据仓库是面向主题的集成化的稳定的、随时间变化的数据集合,用以支持决策管理的一个过程。它是从数据库技术发展而来,为决策服务的数据组织、数据存贮技术。数据仓库把数据使用者(企业的生产经营决策者)所关心的带有统计性趋势性的数据,从大量业已存在的数据库或业务处理过程中集中起来,经过加工、提炼和重组,形成新的存贮管理体系-数据仓库,作为向决策者提供查询和分析用的集成化信息库。数据仓库的信息源具有分布和异构的特点,主要信息可视为定义在各信息源上的实体化视图集合。数据仓库管理系统把实体化视图所对应的数据从信息源中提取出来,物理地存贮到DW中,使之成为物理存贮的数据实体。因此,数据仓库应具有两方面功能,一是从信息源提取数据并加工转化存入DW中;二是在DW上处理用户查询与决策分析请求,要尽量避免直接访问数据源。数据仓库要由不同信息源的数据(微数据)产生综合数据,这可由各种聚集操作(如分类、求和、计数等)得到。如何从综合数据恢复微数据,以及如何在保持DW及时增加新数据的同时,又支持对其数据实施有效存取,都是重要的技术。数据仓库是面向主题的,因而适合于决策支持的应用。数据仓库中的数据是多维的,构成多维数据库,以便于从不同角度观察分析问题。数据仓库中的数据包括:近期基本数据(Currentdetaildata)远期基本数据(Olderdetaildata)、轻度综合数据(Lightlysummarizeddata)、高度综合数据(Highlysummarizeddata)和元数据(Metadata)。元数据是定义数据的数据,在数据仓库中地位十分重要。建立数据仓库的步骤是:(1)分析决策需求,确定数据来源;(2)定义数据结合转化过程;(3)建立数据仓库;(4)建立供用户使用的DW工具。数据仓库系统的体系结构,以及DW数据服务器结构已有多种实现途径,主要有:(1)专用的RDBMS,即在索引、扫描、复杂查询诸方面,加以特殊处理的RDBMS;(2)关系型OLAP用DBMS,即扩弃型RDBMS,将多维数据的操作映射到标准的关系型操作上;(3)多维OLAP用DBMS,可直接实现对多维数据的管理与操作。2银行决策支持系统建立的必要性在当今信息社会里,信息正以爆炸的速度增长,面对来势凶猛的信息,人们往往感到无所适从。事实上,在这信息海洋里有用的信息比率很低。据IBM公司的测算,目前许多企业花费昂贵代价建立起来的数据库,真正有用的只有7%,问题就在于怎样发现那些真正有用的信息。就我国的银行业而言,每家银行都有自己庞大的客户信息库,可管理人员往往视这个信息库而不见,只注重其量的总和,如存款余额等,而不去研究开发这个信息库的具体内容,无法把数据转化为对企业有用的信息,导致信息黄金的流失和资源的浪费,同时另一方面在其新开发的业务中又不得不面对高风险威胁。在信息中搜寻黄金又不被信息表面的假象所迷惑,不被信息海洋所淹没,就要采用科学的方法和工具。目前我国银行业所做的各种信息系统一般都是OLTP系统,用于完成各种各样的柜面业务,如储蓄系统、会计系统、信用卡系统等。有些银行正在开发集各种柜面业务为一体的综合柜面业务系统,这些系统都是OLTP系统,重在提高业务运行管理效率。只要我们对各家银行的系统进行分析观察,就会发现各系统的内容、模式及所提供的功能基本都是相同的,最多只是所选软硬件平台的不同,这样看来各家银行耗费巨资进行的都是重复的开发,没有把事务处理系统外包出去,从事务处理中摆脱出来,不注重或从没有查询和分析已有的各种客户信息资料,从中找出潜在有用的信息。我国各商业银行比较长的一段时间来处在依靠扩大规模、抢占地盘来提高效益的规模效益阶段。经过盲目的机构设置、地盘抢占、人员投入之后,才发现实际产出的效益并没有达到期望的效果。目前国内金融机构日益增多,一些外资银行也已抢滩,竞争日趋激烈,扩大规模已不再是行之有效的经营手段。随着竞争的日益深入,美国商业银行中的"深度效益"观念必将融入我国商业银行的管理策略之中:把客户细化为不同的个体,细化客户信息的组织和分析,由分析工具和经验选择特定的客户群来划定战场,跟踪每位消费者个体以及个性化的需求,在营销方面实施关系营销,由传统的注重交易转变为注重客户关系和客户价值,从而产生了"关系银行"这个概念。美国BankOne银行对自己的客户进行调查发现,百分之二十的客户创造银行利润,其它百分之八十的客户并没有给银行创造利润。如果我国的银行对自己的客户进行调查,也会发现同样的结果,只是百分比不同而已。我们就是要把零散的、无序的、历史的、当前的各种数据集中起来建立数据仓库,从所建立的数据仓库中挖掘出为银行创造利润的这部分客户,从复杂的客户信息中建立模型,对客户记录信息进行动态跟踪和监测,计算客户价值,锁定特定客户群,分析潜在客户群,制定不同市场需求、不同客户群的市场战略,根据客户的价值选定服务产品配置,从而与创造利润的优良客户建立长期关系。美国西部一家银行测算以"深度效益"为指导的促销为1美元带来10美元的回报。建立数据仓库,进行数据挖掘是金融监管的需要。我国的金融监管实时性差,严重滞后,东南亚金融危机的发生迫使我国加强和改善金融监管,降低我国金融市场的风险。建立数据仓库,进行数据挖掘也是商业银行生存发展、提高竞争力的需要。我国各商业银行提供的服务内容基本相同,市场竞争日益激烈,风险越来越大,仅靠传统的服务已不能创造更多的利润,为了提高投资的有效性,降低风险,就要广泛收集各方面信息,充分利用已有的各种数据来争取更多的优良客户,支持决策的科学性、可靠性。3建立银行决策支持系统的原则方案银行决策支持系统主要是面对金融市场上资金的运作以及与此相关的金融和经济行为。银行决策是为了实现银行经营管理货币信用的方向、目标、规划、政策策略和重大措施所做的考虑和选择。为了实现银行决策的科学化,决策必须有明确的目标,可靠的高质量的信息基础,优选的科学理论和方法及进行反馈和调整的有效机制。管理部门需要及时地了解银行的关键数据,如借贷金额、大宗交易的频繁程度,以便控制风险,掌握各分行、支行的数据汇总,来促进管理、提高效率,了解客户分布状况和带来的收益,并为进一步拓展业务提供依据。3.1需求的确定数据仓库系统的使用者是银行各级的决策和业务人员,他们关心的问题和一般的操作人员不同。具体说,银行需要及时掌握的数据包括:储蓄帐户余额、含金量、应付利息、现金流入量、现金流出量、现金转入量、现金转出量等等。对这些数据又需要从不同的类别和层次进行统计与分析:(1)事实(Facts):如储蓄帐户余额、含金量、应付利息、现金流入量、现金流出量、现金转入量、现金转出量等。这些数据是实际分析的基础数据,它们日积月累,数量庞大。(2)维(Dimensions):它是事实信息的属性,如银行组织结构营业网点、业务类别、交易方式、客户类型、时间。它们一般变化不大,数量也相对较小。(3)粒度(Units):它是维划分的单位,如营业网点维(分行、支行甚至基层储蓄所)、业务类别维(活期、整存整取、大额定期、存本取息、定活两便、POS)、交易方式维(柜员、ATM、POS、银联、电话、Internet等)、客户类型维(个人、全民企业、集体企业、外资企业、合资企业、个体业主等等)、时间维(年、季、月、甚至旬、日)。每个交点就是事实,即实际的情况,即×日××网点××资金的运作数据。如果是两维的数据,就是平面;如果超三维,则构成多维超立方体。决策者的查询无非就是对事实立方体按一定的粒度切块或组合的过程。事实和维也不是一成不变的,有时也会根据决策者不同的思考角度而发生变化。3.2模型与环境设计设计数据仓库的数据模型时,常用的逻辑建模工具是以维数据建模来表示事实、维、粒度的关系,结构型式是星形模型和雪花模型.3.2.1星形模型模型中间表示资金运作情况(事实),四周表示的是与之相关维的信息(时间、客户、方向和地域等),每个维表有自己的属性,维表和事实通过维关键字相关联.星形模型的核心是事实表(FactTable).它是按维进行查询的中心--存储真实数据即事实的地方.事实为数字型的属性,如计算和数量,可以求和、求平均、求最大及最小,并且按照各种统计运算进行合计计算.事实属性包含了适度的、关于事实表所管理的内容的数字型值.使用星形模型的主要原因可提高查询的性能和便于用户安排不同的查询.由于主要数据都在庞大的事实表中,所以只要扫描事实就可以进行查询,而不必把多个庞大的表联接起来;同时由于维表一般都很小,甚至可以放在高速缓存中,与事实表作联接时其速度较快.另一方面,对于非计算机专业的用户而言,星形模型比较直观,通过分析星形模型,很容易组合出各种查询。如通过网点和业务类别两个维,可分析网点在相同业务类别上的情况,便于各网点发现各自的优势,取长补短;又如通过交易方式、客户和时间三维,可分析不同时间的不同需求。相应地,可以对不同的客户提供不同的服务,在不同的时间采取不同的方式。3.2.2雪花模型雪花模型是星形模型的扩展,它比星形模型增加了层次结构,体现了维的不同粒度的划分。使用雪花模型进一步增加了查询的范围,以帮助决定市场开发的策略;也能回答如"某一网点某个业务类别去年共完成多少,人均完成如何"的问题,以预计下一年不同网点的完成量,为制订业务计划提供依据。以上的例子只有一个事实表,而在实际应用中,往往有若干事实表,它们分别和各维表相关联,构成扩展的雪花模型。在有些查询中可能会用到若干个同时联接了相同维表的事实表。整个数据仓库是依据模型方法建立的,在创建数据仓库时需建立下列几类表:(1)系统信息表:用于维护运行及编程所需,如记录系统时间、数据备份、数据转储和系统数据字典;(2)档案数据表:系统中各对象数据,资金信息、客户地区、网点信息、系统凭证等;(3)原始单据表:记录原始单据备查;(4)数据仓库数据表:数据仓库的主题表与维表,如多维数据:包括储蓄帐户余额、含金量、应付利息、现金流入量、现金流出量、现金转入量、现金转出量等;(5)转换对照表:用于数据源至数据仓库转换中的客户对照、资金对照等。3.3环境设计建立数据仓库时,需要综合考虑软硬件环境,如数据加载性能、查询性能、建仓规模和用户规模。通过数据采集、转换、综合和迁移,形成与原有数据库相分离的、完全独立的数据仓库。数据仓库需要高性能数据库管理系统和并行数据库技术的支持.由于大容量的数据存储和迅速查询的要求,作为数据仓库的主机系统应有高性能的CPU。良好的I/O接口和大容量的联机硬盘及内存,作为快速查询与分析使用。同时也应配一部分海量外存设备,如光盘阵列和磁带机等,作数据转储使用。3.4数据采集、整理与存储数据仓库的数据源来自OLTP中的操作数据,这些数据源都可能有不同的格式,如平台、标准和含义。在不同数据源中,甚至同一个源中,有可能出现同一对象的多个实例(如客户)。物理点上,他们分布于各地的数十个局域网或几十台PC上,且又分属于不同的操作系统与数据库管理系统上。这对数据源的采集带来了困难,需对各个物理点(各局域网)和逻辑点(路径或同一网中异构环境)上抽取,数据按一定的模式进行整理与过滤(同一对象多个实例),最后转换成一个数据仓库接口需要的标准数据源。这些工作在整个数据仓库建设中占据相当长的时间。对于数据采集与导入,如果在同构环境下(如同一操作,同一数据库系统),问题就易解决;异构环境下,就需要相应工具进行数据处理。研制开发一套异构操作系统异构数据库系统的数据转换工具,用于数据仓库的数据导入。这些工具利用了ODBC的技术及各数据库系统的结构,实际使用效果较好,解决了数据库互操作的问题。在系统的数据传送与采集方面进行一些专用软件开发工作,如:(1)远程数据采集模块:如点对点通信(用于连锁店)数据传送程序;外地网点拨号上网数据传送程序;外地网点间互联路由器方式数据传送程序。(2)未转换数据缓冲表生存模块:如从远程或本地采集来的数据,转入一定格式的未转换数据缓冲表。(3)完整性检测模块:未转换数据缓冲表对数据进行一定的检测与整理,如代码统一化,过滤同一对象多个实例,使之形成一个数据仓库所需标准接口数据,模块涉及的代码设对照关系表,最后形成待载入数据仓库的标准数据表。(4)数据载入模块:主要用于异构环境下数据转移和数据仓库的数据载入.具体是从标准数据表将数据载入数据仓库中的数据表。数据源确定与数据载入完成后,下一步就是数据仓库的数据存储问题.存储包含了数据不同视图的存放形式,其存储管理系统,正如前面环境设计所讨论的,主要有关系数据库管理系统(RDBMS)或多维数据库管理系统(MDDBMS),目前用RDBMS的较多,MDDBMS表示的数据形式,易于为数据仓库用户理解与使用。3.5方案DW、OLAP和DM是作为三种独立的信息处理技术出现的。DW用于数据的存储和组织;OLAP集中于数据的分析;DM则致力于知识的自动发现。它们可以分别应用到信息系统的设计和实现中,将它们结合起来,利用它们的内在联系和互补性,充分发挥各自特长,形成银行决策支持系统方案:DW+OLAP+DM+WWW=BANK-DSS。3.6原则及目标(1)充分利用现有的信息基础,包括办公自动化系统、对公业务处理系统、人事档案系统等,特别是"综合网"的软、硬件平台及其产生的大量数据信息。(2)采用成熟、先进的技术。当今信息技术发展迅速,新技术、新设备层出不穷,采用先进可靠的技术,既能保证系统的发展需求,又能保证系统的可靠运行。(3)质量高,符合国际、国内有关标准,具有可扩充性。(4)方便性,界面友好,便于操作。(5)安全性。3.7逻辑结构采用客户/服务器结构。服务器部分是整个系统的数据仓库,包括事务处理服务器和应用服务器两部分,负责整个系统所需信息的收集、汇总、整理、存储、分析和传输。整个OLTP的CLIENT/SERVER也包含在DSS的服务器部分。工作站部分是DSS的主要部分,供决策者和管理者使用,它以服务器传递的数据为基础,以中文图形窗口为界面,以模型、知识为核心和驱动,提供信息咨询和决策支持。3.8系统组成数据仓库一般由五个功能部分组成:①数据源的确定与采集;②数据的转换;③数据的载入与存储;④数据的查询分析;⑤元数据。处理面向决策的数据调取与分析,涉及一些OLAP的工具的使用,如查询各类视图的产生、报表的形成、对有价值的数据挖掘等。元数据(MetaDada)是其他四个部分的基础,是管理数据仓库的控制参数.元数据和数据仓库数据一样,对数据仓库开发者非常重要.数据仓库环境需要在一些元素基础上的原数据.这些元素数据从OLTP中选取出来,包括他们的域、有效性、采集规则以及将这些元素数据转换成数据仓库集成视图的规则.元数据也描述数据仓库的数据库,包括控制中央数据库的数据迁移到相关数据集市分配规则.有关数据结构、执行和监控数据也可成为元数据.监控数据仓库过程(例如选取、加载、使用)的各过程能产生元数据,被用作决定整个环境运行的良好程度.同样,用来识别在选取和加载过程中数据质量问题的元数据必须被数据仓库用户获得,从而他们能够将这类知识作为决定他们分析精确程序的一项因素.数据仓库管理者能通过元数据对数据仓库进行管理。系统工作步骤为:①对原始数据进行规范化处理,得到规范数据,建立数据仓库;②在数据仓库的基础上运行专家系统,得到规则结果;③调用分析模型和知识管理系统,得到分析结果;④调用市场预测模型和知识系统,得到预测结果;⑤根据原始数据、专家系统、分析预测结果,生成分析预测报告,并以文字、图形、报表、图画、语音等方式输出。3.9实现构架根据数据库技术的发展和激烈的市场竞争的需求,我们提出以数据仓库为基础、以OLAP和DM工具为手段的一整套可操作、可实施的DSS解决方案。数据仓库用于数据的存储和组织;OLAP集中于数据的分析数据挖掘和致力于信息的自动发现。将它们结合起来,设计出一种新的DSS构架,如图1所示。这种构架有两个主要特点:(1)以MIS系统和数据库中的大量数据为基础,系统由数据驱动*在底层的数据库中保存大量的事务级数据。这些数据是整个DSS系统的数据源。*数据仓库对底层数据库中的事务级数据进行集成、转换和综合,重新组织成面向全局的数据视图,为DSS提供数据存储和组织的基础。*在线分析从数据仓库中的集成数据出发,构建面向分析的多维数据模型,再使用多维分析方法从多个不同的视角对多维数据进行分析、比较。分析活动从方法驱动转向数据驱动,把分析方法和数据结构分离以适应数据多变的需求。*数据挖掘以数据仓库和多维数据库中的大量数据为基础,自动地发现数据中的潜在模式,并以这些模式为基础自动做出预测。数据挖掘表明,知识就隐藏在日常积累下来的大量数据之中,而仅靠复杂的算法和推理并不能发现知识,数据才是知识的真正源泉。图1基于数据仓库的BANK-DSS构架(2)完整统一的DSS解决方案在传统的DSS中,数据库、模型库和知识库往往被独立地设计和实现,因而缺乏内在的统一性。而数据仓库、联机分析和数据挖掘组成的新的DSS构架对这种不统一问题给出了令人满意的回答。*数据仓库解决了DSS数据库内数据的不一致问题。建立在数据仓库上的DSS数据库可以为用户的数据访问提供统一的全局数据视图。*多维数据模型和OLAP为用户提供了一个带有普遍性的数据分析模型。各种分析方法和工具可以有效地互操作。*以数据仓库和多维数据库为基础的数据挖掘可为决策提供全局性的知识,这些知识可以为所有的应用共享。*由于内存的统一性,这种新结构能很好地解决相互间的衔接问题。数据仓库为OLAP提供了充分可靠的数据基础,数据挖掘可以从数据仓库和多维数据库中找到所需的数据,数据挖掘中发现的知识可以直接用于指导OLAP的分析处理,而OLAP分析得出的新知识也可以补充到系统的知识库中。3.10利用Internet/Intranet进行决策支持作为信息传播的载体Internet,随着能够联入Internet的人数逐渐增多,日益变成人们熟知的全球范围网(WWW),大大丰富了Internet的信息资源。九十年代,企业网已经成为连接企、事业内部各部门与外界交流信息的重要基础设施。在市场经济和信息社会中,企业网对增强企业的综合竞争能力有着重要的作用。Internet特别是Intranet的出现,对决策支持系统的研究与开发提出了许多极富挑战性的问题。新的基于Internet的决策支持扩大了可利用信息的范围。当一个企业网是建立在Intranet上时,就分析与决策而言,至少在以下两点上会发生很大变化;(1)分析、决策用的数据不再集中于某一场地,而是分散到网络上的不同地区、部门。(2)运行在Internet环境里的分析、决策模型及知识处理方法会从一台机器上的集中式处理。变成在网络环境下的分布、或分布再加上并行的处理方式。这些变化为我们研究分布式数据仓库、分布式决策处理提供了机遇。决策支持系统与Internet两种技术的结合,使更多的用户能够容易、透明地通过超级连接,从网络的一个点到另一个点,操作文件,方便地访问信息,从而改变人们的决策方式。利用Internet的Web用户可以漫游网络,确定感兴趣的信息并将它们下载;用户还可以很容易地用建立报表以及在网上公布的作法进行信息传递和交换。3.11数据挖掘(DataMining)数据挖掘是从大量的、不完全的、先前不知道的、模糊的、可能有污染的随机详细数据中提取隐含的、潜在有用的信息和知识的过程。挖掘的对象是数据库和数据仓库,其目的是通过对数据的统计、分析、综合、归纳和推理,揭示事件间的相互关系,预测未来的发展趋势,起到辅助实际工作问题求解、支持决策的作用。建成数据仓库,只是把各种数据集中到一起,形成一个数据集合,可利用多维OLAP工具、查询和报表开发工具等信息存取工具进行查询,产生各种统计报表、图形等,要真正发挥数据仓库的决策支持作用,就要对数据仓库中的数据进行广泛深入的挖掘。数据挖掘能够发现OLAP处理过程所不能发现的更为复杂的更有洞察力的答案。数据挖掘有多种方法:归纳法、神经网络、相关分析、模糊逻辑、统计分析、遗传算法、决策树方法和可视化技术等。在解决问题时,可使用以下几种手段:预测模型、数据库分析、链元分析和编差检测。(1)预测模型:在OLAP中使用演绎推理,在数据挖掘中使用归纳推理。(2)数据库分析:把数据库自动划分为聚类(簇)。(3)链元分析:基于对横向关联和顺序关联的发现,且对记录间联接进行确证。(4)偏差检测:对记录不能被归入到特定格元现象的侦知和解释。可以交叉更替使用各种算法以挖掘更多的信息。使用数据仓库和数据挖掘,我们就可以从个人客户帐户(信用卡、各类储蓄存单、卡折等)上发生的明细帐了解客户的收入来源、消费爱好及习惯、收支发生的频度等,分析其消费支付行为,对客户帐户进行分类,根据明细数据给客户计分,采取措施优化客户服务,如,给予优良客户消费优惠折扣以鼓励消费并吸引潜在客户。对于单位帐户,如厂商,可以通过了解客户经营的产品结构、行业性质、市场占有率、社会需求及国家的有关政策等,分析其发展趋势,确定其资金偿还能力、信用等级等,也可通过对一些潜在的客户数据分析,拓展有前途的客户,最终起到降低成本与风险、提高效益的作用。对此已有一些成功的案例,如IBM在对信用卡欺诈的侦测、目标市场和固定资产评估等的数据库分析中成功地使用了这些算法和手段。拥有二十亿美元资产的Firstar银行根据消费者是否有家庭财产贷款、赊帐卡、存款证或其他储蓄、投资产品,将他们分成若干组,使用数据挖掘程序预测什么时间向每位客户提供哪种产品。数据仓库、数据挖掘构成了决策支持系统(DSS)框架,使DSS进入实用阶段,更有效地提高决策支持能力。数据仓库和数据挖掘对银行管理决策和IT人员提出了更高的要求,传统的OLAP系统提高效率有限,不具有多大的竞争优势。IT人员要从OLTP系统中摆脱出来,从事高附加值的工作,管理决策人员需要掌握一定的计算机方面的知识。银行经营的最终目的是创造和获取最大利润,充分利用已有的数据资源,挖掘出其中的信息黄金,深化和客户的关系,发现潜在的客户群,抢占市场,将对降低投资风险,避免高风险投资,提高投资效益起到意想不到的作用。4数据仓库系统预选解决方案4.1IBM数据仓库解决方案IBM早在90年代初期,就投入大量优秀技术人员和资金开始了数据仓库的研究,并启动了Star-Brust大型科研项目。该项目主要就是为了攻克数据仓库领域的一些技术难题,例如优化星型连接(Star-join),实现多维分析。因此,IBM现在发布的数据仓库产品都是经过反复推敲和久经考验的,真正做到让用户买起来放心,用起来舒心。基于对数据仓库结构的深刻理解和多年积累的经验,IBM设计了自己的数据仓库结构。它作为一种开发式结构,方便了用户的产品选择、实施和今后的扩展。在数据抽取阶段完成对各种数据源的访问,数据转换阶段完成对数据的清洗、汇总和整合等,数据分布阶段完成对结果数据存储的分配。这三个阶段通常紧密结合在一起,集成在一个产品中实现。例如,VisualWarehouse、DataJoiner、DataPropagator都跨越了这三个阶段。其中,DataJoiner和VisualWarehouse可以访问各种关系型和非关系型的数据,关系型数据库主要包括DB2数据库家族、Oracle、Sybase和Informix,非关系型数据有VSAM。VisualWarehouse还可以进行数据映射的定义,以定期地抽取、转换分布数据。DataPropagator采用数据复制的方式可避免对日常业务系统事物处理性能的影响。当用户有特殊需求时,可以通过编程接口编程实现或选择第三方厂商(如ETI和ValityTechnology)的产品。数据仓库的存储由DB2家族产品来完成,以保证数据仓库始终高性能地运转,提供完整、准确的数据,以便于将来的升级和扩展。若希望使用多维数据库,则可选用第三方的产品,例如:Arbor软件公司、Pilot软件公司、PlanningSciences软件公司。如果既想拥有多维数据库的独特功能,又要把数据存放在关系型数据库中以便管理,则DB2OLAPServer是用户的最佳选择。DataGuide通过描述性数据帮助用户查找和理解数据仓库中的数据。其中数据的呈现由不同产品完成不同层次的分析要求。其中,Approach可进行查询和统计分析,IntelligentDecisionServer支持多维分析,IntelligentMiner用于数据挖掘。用户也可选择自己喜爱的第三方产品,这些第三方厂商包括:Andyne、Brio、BusinessObjects、Cognos、InformationAdvantage。整个数据仓库的管理工作可交给VisualWarehouse,ADSM是大型磁盘阵列管理的得力助手,DB2ECCforTME10可从一点集中管理各种关系型数据(DB2、Oracle、Sybase、Informix)。以上各个阶段的结构都是按照IBMInformationWarehouse和IBMOpen-Blueprint的架构统一设计的,因此相互之间结合得既紧密又非常开放,只要符合标准的软件就可结合在一起。最后,为了帮助用户快速实施,IBM可由IBMGlobalServices或IBMGlobal-Solution提供可靠的咨询服务。这些服务也可从广泛的第三方获得。因此,在此架构下,IBM提供给用户的是一个完整的、灵活的、开放的解决方案。IBMVisualWarehouse是IBM数据仓库解决方案的重要组成部分,它主要由以下几部分功能组成:数据访问;数据转换;数据分布;数据存储;靠元数据查找和理解数据;显示、分析和发掘数据;数据转换过程的自动化及其管理。它缩短了复杂的海量数据与有洞察力的商务决策之间的差距,有助于公司更进一步了解其业务、市场、竞争对手和客户。IBM的VisualWarehouse的数据源可以是DB2家庭中的任一数据库,也可以是Oracle、Sybase、Informix、SQLServer数据库和IMS、VSAM文件系统;存放数据仓库的数据库可以是DB2UDBforWindowsNT,OS/2,AIX/600,HPUX,SunSolaris,SCO,SINIX和DB2/400,DB2forOS/390;VisualWarehouse的管理平台为WindowsNT和OS/2;而且以上适用的平台仍在不断地扩展。下面,我们将从几个用户关心的方面来分析一下VisualWarehouse。(1)元数据的存储(MetaData)VisualWarehouse建立在集成的元数据的仓库之上,该元数据的仓库提供了一个所有管理和操作功能的中心。数据仓库的模型以元数据的形式存储于该仓库中,它定义了数据仓库的结构和内容,用于对数据源进行抽取、过滤、转换、映射后放入数据仓库。这种元数据是以商业视图被定义的,而且商业视图可以在多个数据仓库间输入和输出,大大方便了具有相同结构数据仓库的建造。(2)数据仓库的规模化扩展VisualWarehouse很易于扩展,单个数据仓库可支持非常大量的数据,也可靠简单地增加内存、处理器升级和存储设备扩容来支持更多的升级和用户,访问更多数据源。另外,我们还可以不同的主题同时实施多个部门级数据仓库,最后再把它们整合到一起形成企业级的数据仓库。(3)开放的系统环境VisualWarehouse提供了一个真正开往的系统环境,它不仅提供了数据仓库的所有功能和组件,而且可以"即插即用"的方式与用户喜欢的第三方软件组合,以最少的费用快速开发出用户所需的数据仓库。(4)规模化的体系结构VisualWarehouse提供了完整的分布式客户机/服务器环境,它使得用户可充分享受到"网络计算"带来的便利,而且适用于多种平台。它包括四个组件:管理员、控制数据库、客户端管理员、代理。这些组件既可分布于几个不同的服务器,也可都安装在同一服务器上。(5)VisualWarehouse的管理VisualWarehouse的管理是由其客户端管理员实现的,它的管理得以集中于一点。它包括以下几点:商业视图、监控数据转换过程、定期执行、级联式商业视图、版本、VisualWarehouse中的触发器、用户自定义程序,元数据等。(6)高效装入除了WindowsNT,VisualWarehouse的代理(Agent)现在可以运行于AIX和OS/2,这就带来了针对位于这些平台上数据中心的装入性能的改善,因为数据无需再通过WindowsNT上的代理。另外,除了现有的基于SQL的目标装载,VisualWarehouse现在还提供用于文件传输和装载过程管理的程序。(7)处理OLAPVisualWarehouse支持DB2OLAPServer上一种或多种星型图表的全部映射或装载。另外VisualWarehouse现在也支持指定和创建DB2OLAPServer以外生成的星型图表初始化或引入关键码。(8)高端可升级性选项现在,VisualWarehouse对抽取和转变程序具有更完善的支持。VisualWarehouse利用这种支持给IBM的战略基础伙伴提供数据加工后的管理:ARBOR软件公司和ETI。(9)商务视图建模改善VisualWarehouse图形查询编制器得以扩展,目前除了支持常用的SQL语句还支持JOIN和GROUPBY语句,简化了复杂的SQL声明。VisualWarehouse基于久经考验的独创技术,可以支持复杂业务分析过程的每一步骤,同现有应用程序环境集成,转换数据,自动执行数据仓库处理,分析数据,并为决策人员提供信息。VisualWarehouse是一种简单易用、经济有效的数据中心和数据仓库产品,可以处理部门中设计、实现和应用方案时的相应任务。其较低的维护成本和迅速的实现过程将使工作组迅速提高工作效率。VisualWarehouse提供了完整的Web支持功能,允许从任何Web浏览器访问任何数据。因为VisualWarehouse的信息目录完全支持Web,用户可以访问可用数据的详细信息,包括格式、通用性、拥有者和位置。IBM的VisualWarehouse提供了强有力的工具以定义、建立、管理、监控和维护一个商用信息系统环境……数据仓库。但是,IBM并不满足于此。为了更好地满足用户的需求,IBM设计了一个完整的解决方案。IBM将Dataguide和VisualWarehouse集成在一起并与Lotus、Approach和相应平台上的DB2UDB打包在一起,作为一个完整的解决方案提供给用户。其中,Dataguide靠商用信息分类表支持商业需求,帮助用户查找和理解数据仓库中的商用信息。Lotus、Approach可帮助用户分析信息并把它以图表的方式表示出来。IBM的VisualWarehouse系列软件包用于帮助企业迅速建立、管理和分析数据仓库和数据中心。VisualWarehouse系列包括VisualWarehouse、VisualWarehouseOLAP(联机分析处理)、IBM及其贸易伙伴提供的补充产品。VisualWarehouse系列已得到扩展,通过与EvolutionaryTechnologiesInternational(ETI)和ValityTechnology的产品相结合,可以满足复杂的数据提炼、纯化和转换需求。VisualWarehouse的Cognos和BusinessObjects版本也已经分别集成于相应公司的前端工具之中。这些版本提供了完整的业务智能解决方案,包括从数据访问、分析到应用。VisualWarehouse产品系列集成了数据仓库功能,单一软件包中的集成化工具可以简化数据仓库和决策支持的整个过程。它提供了迅速建立小型企业或工作组数据仓库并投入运行所需的一切。现在,越来越多的用户受益于VisualWarehouse,例如:INGRAM公司依靠IBM可视数据仓库将原始数据转变为有价值的商用信息;RYDERSYSTEM、VOLTINFORMATIONSCIENCES和INTENTIA这三个可代表数据仓库客户群的系统集成商得出了一致结论:IBM的可视数据仓库是一个强有力的、经济的、易于安装和实施的数据仓库。它提供支持商业决策的、一致的和固有的数据。另外,国内用户也在不断增长,例如:上海庄臣有限公司等。OLAP在IBM的商务智能中扮演着重要角色,IBM为此提供一个分析工具--DB2OLAPServer,深入最终用户的业务,对桌面上的数据进行实时操作。DB2OLAPServer是一套独特的商务工具,能够快速地分布传统监视和报告范围之外的应用程序数据。IBMDB2OLAPServer是一种功能强大的工具,结合了业界领先的ARBORESSBASEOLAP功能以及DB2的可靠性、可管理性和访问能力。ARBORESSBASE是OLAP市场领先的厂商。同其它OLAPAPI相比,有更多的前端工具和应用程序利用了ESSBASEAPI,使其成为事实上的业界标准。由于DB2OLAPServer包含了完整的ARBORESSBASEOLAP引擎,所有支持ESSBASE的应用程序都可以同DB2OLAPServer协作,而不必加以修改。同大多数基于SQL的应用程序结合时,DB2OLAPServer和VisualWarehouse将为前端用户提供更多的前端工具和业务智能应用程序选择余地的优势,如今用户可以享受更多种OLAP应用程序的优势,如通过ARBOR的OLAP引擎集成预算功能,充分利用在相关技术上的投资,管理基本设施和DB2的数据。通过集成IBM的VisualWarehouse和DB2OLAPServer(称之为VisualWarehouseOLAP版本),这套解决方案将具有三方面的重要价值:(1)完全、自动地把OLAP集成到数据仓库,数据抽取和生成自动地由规则和数据源支持,直接进入DB2OLAPServer的立方体(2)OLAP描述数据外部化(3)一个中间数据存储库DB2OLAPServer和ESSBASE产品最突出的方面在于它特别的分析能力和简便的分布。OLAP系统更倾向于把劳动集中于获得和清除数据,使用VisualWarehouseOLAP版本能够自动地创建和维护多维数据库,大量减少手工维护并确保数据稳定。利用VisualWarehouseOLAP版本还有一项附加收益,就是在可视化数据仓库上创建了一个中间信息仓库。这个中间数据仓库包含干净、抽取的数据。用来在OLAP系统上装载多维数据。一旦OLAP系统装载并上线,或者作为干净数据源来进行OLAP以外的分析比如查询客房地址等,这些中间数据就可以废弃。VisualWarehouseOLAP版对于分析业务需求来说是一套很好的商务智能解决方案,它利用自动维护仓库工具提供了强大的分析型数据的分析能力。当用户的数据积累到一定数量时,这些数据的某些潜在联系、分类、推导结果和待发现价值隐藏在其中,我们可以使用数据发掘工具帮助发现这些有价值的数据,IBM在这方面的工具就是IntelligentMiner。IBMIntelligentMiner被选为业界最佳数据采集工具,赢得了DM读者奖。除了数据仓库和数据挖掘解决方案,IBM还在此基础上开发了一系列行业解决方案及应用程序。IntelligentMiner通过其世界领先的独有技术,例如典型数据集自动生成、关联发现、序列规律发现、概念性分类和可视化呈现,它可以自动实现数据选择、数据转换、数据发掘和结果呈现这一整套数据挖掘操作。若有必要,对结果数据集还可以重复这一过程,直至得到满意结果为止。现在,IBM的IntelligentMiner已形成系列,它帮助用户从企业数据资产中识别和提炼有价值的信息。它包括分析软件工具IntelligentMinerforData和IBMIntelligentMinerForText,帮助企业选取以前未知的、有效的、可行的业务知识,如客户购买行为,隐藏的关系和新的趋势,数据来源可以是大型数据库和企业内部或Internet上的文本数据源。然后公司可以应用这些信息进行更好、更准确的决策,获得竞争优势。(1)IntelligentMinerforDataIntelligentMinerforData可以包含传统文件、数据库、数据仓库和数据中心中的隐含信息。这一产品的最新版本拥有改进的用户界面,增强了并行性,提供新的平台支持、统计功能、一种新的中枢净价值预测技术以及优化的算法。IntelligentMinerforData帮助用户充分利用传统数据库或普通文件中的结构化数据。其采集算法已成功应用于客户及贸易伙伴之中,满足市场分析、诈骗行为监测、客户联系管理等业务领域的需求。系统支持的服务器平台包括AIX和AIX/SP、OS/390、SUNSolaris、OS/400和WindowsNT,此外还将全面推出OS/2客户机版本。(2)InteligentMinerforTextIBM还扩展了采集解决方案的范围,包含了文本数据源。IntelligentMinerforText允许企业从文本信息中获取有价值的客户信息。文本数据源可以是Web页面、在线服务、传真、电子邮件、LotusNotes数据库、协定和专利库。IntelligentMinerforText扩展了IBM的数据采集功能,可以从文本文档和数据源获取信息。数据源可以包括客户反馈、在线新闻服务、电子邮件和Web页面。其功能包括识别文档语言,建立姓名、用语或其它词汇的词典,提取文本的涵义,将类似的文档分组,并根据内容将文档归类。新版本中还包括一个全功能的先进文本搜索功能。系统支持的服务器平台包括AIX和WindowsNT、OS/390和SUNSolaris。IBMIntelligentMiner系列可以充分发挥您寻找相关信息的潜力,并帮助您花费最少的时间来搜索和浏览结果信息。此外,文本采集技术还可以适用于多种需要查看或研究文档的用户,如专利代理人、企业图书管理员、公共关系人员、研究人员和学生。2.行业解决方案通过利用以上介绍的IBM数据仓库和数据挖掘技术,IBM为客户开发了一系列行业解决方案及应用程序,主要有以下几种:(1)DecisionEdgeforFinance--专门为金融行业设计的综合解决方案。DecisionEdgeforFinance不仅仅是简单的报告工具,它提供了行销经理所需的全部技术,以制定战略业务决策并开展行销活动。(2)DecisionEdgeforInsurance--端到端的解决方案,包括硬件、软件、顾问和服务,其设计目的是帮助保险业行销经理制定战略业务决策并开展行销活动。(3)IBMDiscoverySeriesforBanking--为满足"客户至上"的银行业需求而设计的应用程序套件。(4)IBMDiscoveryfortelecommunications--为电信行业提供完美的客户服务的应用程序套件。(5)BusinessAnalysisSuiteforSAP--适用于下列公司:已经安装SAP事务处理系统,并需要建立数据仓库,以充分利用日常运作中收集的所有事务数据。(6)Surf-Aid--数据采集应用程序,用于分析Web站点利用率。(7)InfoPrintBusinessIntelligenceSolution--允许企业将自定义消息、姓名及地址同图形和条形码相结合,向客户提供有独特个性的行销资料。(8)GlobalServicesBIOffering--包含不同角度(行业、业务功能、技术)的战略和规划功能,以及帮助客户理解和解决业务困难、管理数据仓库项目、开发和实现先进分析功能的方法。(9)InsuranceUnderwritingProfitabilityAnalysis-将数据仓库和数据采集技术相结合,帮助保险业执行人员处理保险业过程。4.2Oracle数据仓库解决方案4.2.1产品概览Oracle数据仓库以业经验证的技术为基础,为客户提供了全面的产品、服务和伙伴关系,以实施数据仓库和/或数据市场解决方案、简化管理、提供机构范围的数据访问和使用,并在前端实现商业智能。Oracle的产品可划分为两类:广泛而功能丰富的技术基础产品和一系列满足企业需求的分析应用。技术基础产品分为以下几种。(1)OracleWarehouseBuilder:为企业数据仓库解决方案的设计、实施和管理提供了一个完善、集成的框架。(2)Oracle8i数据库:扩展了Oracle8数据库的高端功能,同时提供了更优异的性能、简化的资源管理、更丰富的分析、更好的资源利用和与操作及交易系统更轻松的集成。(3)BIS商业智能工具:用来实现商业智能分析的需求。(4)Oracle数据集市套件:Oracle数据集市套件在一个软件包中提供了构建数据集市所必需的所有软件,包括:易于使用的数据集市设计工具;可从运行系统中提取数据的图形工具;Oracle的高性能、可伸缩企业数据库;用于最终用户、屡获殊荣的Oracle查询和分析工具--Discoverer;Oracle基于WWW的服务器,用于从企业内联网对您的数据集市进行访问;以及能够在WWW上灵活部署,用于生成和传播复杂报告的报告工具。(5)CommonWarehouseMetadata(CWM):CWM的元数据用于构建、维护、管理和使用数据仓库,它在发展过程中没有任何工业标准或规范。CWM是一个用于数据仓库的开放标准,它同时包括技术和商业元数据。为了实现真正的开放式数据仓库功能,Oracle向对象管理集团(OMG)提交了CommonWarehouseMetaDataInterchange标准建议书。CommonWarehouseMetaDataInterchange(CWMI)标准将能够实现数据管理和分析工具,以及元数据仓库之间仓库元数据的交换。Oracle数据仓库除了以上几种技术基础产品之外,它还包括满足企业需求的分析应用,主要有面向高层发展、面向底层发展、面向Oracle应用客户以及用于平衡高层和低层发展的分析应用。(1)面向高层发展的分析应用分为:·OracleFrontOffice:该应用提供了若干种工具和应用--它是一套用于管理客户关系的全面产品,覆盖范围从市场营销到销售,乃至服务。·OracleSalesAnalyzer:作为业经考验的高层应用,OracleSalesAnalyzer是一款用于分析各种来源的销售和营销数据的预建应用。数据的来源包括内部订单输入和发运系统以及由第三方提供的数据。OracleFrontOffice与OracleSalesAnalyzer相结合,可为您提供有关销售情况的完整情形,从销售效果到销售环境,乃至定义新的产品和市场类别。Oracle的高层应用采用图形用户接口,更易于使用,而且还支持移动操作。(2)面向底层发展的分析应用·Activa:该产品是一覆盖全面、基于活动的成本计算和管理软件包包括实现动态成本计算与管理的所有能力,同时它还能够与客户机/服务器技术和早期系统相集成。Activa允许客户从更细微的角度--客户、产品和分销渠道来衡量收益率。·OracleFinancialAnalyzer:该产品提供财务分析、规划、预算和报告功能,并一直以来不断满足客户的底层需求。FinancialAnalyzer通过直接链接源系统(诸如总帐系统)自动创建OLAP系统来确保一致的数据。(3)用于平衡高层和底层发展的分析应用BalancedScorecard,该产品为四个主要发展领域进行分析提供了框架,这四个领域分别为:财务、客户、内部业务和学习/发展。通过从这些领域来观察企业,管理人员将可以确定哪一项工作必须出色完成才能使公司的战略获得成功。(4)面向Oracle应用客户的分析应用Oracle商业信息系统(OBIS),提供了一种性能框架,它使您能够设定您希望跟踪的主要性能指标(KIP),并围绕这些KIP来定义误差级别。OBIS的三个主要组成部分是事实管理、目标管理和异常管理。通过Oracle咨询机构,Oracle为数据仓库解决方案提供了终身实施服务。Oracle咨询机构可为特定行业和跨行业应用创造可重复实施的"全面解决方案"。4.2.2主要特点通过解决性能、可伸缩性、可用性、数据时效性、适应性和可管理性问题,Oracle8i满足了企业部署大型数据仓库的需求。在数据管理方面,由Oracle8引入的分区选项通过大型表结构提高了Oracle数据库的可管理性、可用性和查询性能。在Oracle8i中,这些能力得到了进一步的加强,具有额外的分区选项和重要的新型汇合技术。通过分区,数据库管理员可以在Oracle8i中通过指定的关键字将任意表物理划分为多个部分。分区对于最终用户、工具或应用是不可见的,但是它由引擎在内部使用,以实现更高的效率、可用性和可管理性。假设一个表包含五年的销售历史,并具有12亿行数据。如果按月分区,每月则平均有2000万行。分区的优势包括以下几点。·分区可以单独进行备份和恢复:上例中的12亿行表能够以2000万行的增量进行备份和恢复。不参与恢复操作的分区可以保持可用状态;因此,一次只影响3年前数据的磁盘故障并不会妨碍用户继续使用当前数据。·优化程序能够自动跳过那些它识别出与查询无关的分区:在我们的例子中,一个对上星期销售情况的查询只需要搜索六十个分区中的一个或二个分区;这就意味着只需搜索2000到4000万行,而并非12亿行;结果使性能得到了极大的提高。·可以单独重新组织分区:在任何时候,重新组织工作均可逐步完成,这样工作单位更小,并只影响更少的数据组件。·可以单独增加和减少分区:如果使上例表中的五年销售历史保持在线,那么每月就必需增加新的数据(当月数据),并从在线数据库中删除最早月份的历史数据,还可能需要存档。分区使得这一通常被称为"滚动窗口"的操作过程极为简单和高效。在很多方面,经过分区的表在物理上实际就像更小的表,但却可以为用户提供巨型表的所有优势,并提供对广泛、详细的数据集合的访问。关键字排列分区:关键字排列分区允许数据库管理员按照关键字(例如一列或若干列组合的值)划分表。在上述的销售历史范例中,分区关键字是年度和月份的组合。关键字排列分区能够高效而清楚地实施滚动窗口。如果按照月份和年度对数据进行分区,那么每月将增加一个分区(最新的数据)并减少一个分区(删除最早的数据)。新的分区方式:在某些情况下,仅进行关键字排列分区并不是最佳的解决方案。为了满足这些情况的要求,Oracle8i采用了散列分区和复合分区。利用Oracle8i独一无二的复合分区可以兼得关键字排列和散列分区的优势。例如,可以将给定月份的数据作为主要分区中一个单元来进行管理;这样,滚动窗口的问题即得到了解决。这提供了有效的方法来将其作为一个单元进行备份、作为一个单元进行恢复、或作为一个单元改变它在磁盘上的位置,等等。与此同时,每月散列分区的使用为最有效地分配数据提供了控制,从而解决了并行操作中的问题。与其它方法比较,大多数其它数据库产品均不提供关键字排列分区。使用这些产品,减少一个月数据的唯一方法是通过从表中实际删除该行来实现。如果产品不支持分区,那么在我们的例子中,每次删除都需要对这一涉及12亿行的巨型结构及其索引进行更新。如果产品支持某些类型的分区,但并不提供关键字排列分区,那么,删除一个月的数据则需要从数据库的所有分区中删除数据行。这两种方法都需要极其繁重的劳动,其工作量是在具有关键字分区的Oracle8i中删除每月数据所需工作量的数百万倍。4.2.3数据仓库的管理在大型数据仓库中,汇总是经常进行的操作,如何管理汇总和资源就成了重要的问题。Oracle8i中的物体化视图及资源管理工具可以优化这种管理。(1)物体化视图及汇总管理对于普通视图,系统只存储有关如何创建该视图的信息。当一个SQL请求访问该视图时,系统只需将视图足够大的部分数据集合在一起,即可以立即满足该请求。在很多情况下,这种操作都非常有效。但是如果视图被大量使用,尤其是在视图处理请求中涉及大量数据时,那么涉及的资源和时间就成了问题。随着表规模的增大,视图处理过程中的某些操作(例如排序和某些类型的连接)的成本也将迅速增加。但是现在有一种替代方案:一次性创建视图并将其存储起来,这就是物体化视图。这样,当出现请求时,Oracle8i通过运行定义视图的查询和将结果存储于数据库中来将视图物体化。由视图定义的"虚拟"表就此转变为真实存在的表。这样就可以更有效地处理针对视图的查询。在整个过程中,用户将只会看到对性能需求的响应能力;数据库的逻辑设计保持不变,而查询和应用中所用的SQL仍保持完全不变。在大型数据仓库中,我们频繁地创建汇总表来增强查询处理过程。例如,如果基本表包含一系列商店的各个销售信息,我们通常创建汇总表来按天、星期、月;按产品和目录以及按商店、地方、州、地区等来记录全部销售情况。过去,需要通过数据库管理员编写SQL完成每件日常事务来实现汇总表的创建与维护。此外,由于汇总表是作为在用户的数据库映象中可视的额外基本表来实施的,因此用户和应用程序员均需要了解汇总表并知道如何使用。利用Oracle8i,可以将汇总表创建为物体化视图。汇总表可以随着使用模式的更改和性能的调整而改变、添加、删除。汇总表通常按若干维数进行维护,如时间、地理位置、产品和客户。在每一维中都有一个分层结构,如天、星期、月份、季度和年度。采用Oracle8i,数据库管理员可以定义维数和分层结构,以用于构建汇总表。某些其它产品支持自动汇总表形式,但并不存储或者利用维数与分层结构定义。随着汇总数量的增加,存储很快就成为了严重的问题。如果使用的是不能存储维数和分层结构定义的产品,那么真正能够受益于存储汇总的查询范围就很小了,从而产生了对用户来说不可预测的和通常不可接受的查询性能。因此,Oracle8i将维数和分层结构信息作为元数据存储起来的能力实际上在更大规模、更复杂的数据仓库应用中相当重要。(2)资源管理随着数据仓库的商业价值不断发展,其使用量正在持续增加,同时以有效的方式管理资源以满足更大规模用户群的需求也变得越来越重要。Oracle8i以增强的工具满足了这一需求,它们旨在提高整个仓库平台的吞吐量;在多个并发查询中有效地分配资源;实现状态、工作资源消耗和查询执行状况的可见性。数据库资源管理器。随Oracle8i最新推出的数据库资源管理器提供了在多个最终用户群之间设置优先级,以及分配数据仓库资源的能力。自我调整并行查询。Oracle8i采用了新的自适应算法,从而使系统可以根据系统的负载为查询设置并行度。算法将充分考虑正在决策的MPP或集群所有节点上的负载情况。在大型系统中,尤其是那些拥有大量用户、处理器和查询类型的系统,这种自适应和自动化决策对资源的有效管理和性能至关重要。长时间运行操作的进程监视。Oracle8i为仓库管理员提供了检查长时间运行操作状态的工具,如大型查询、创建汇总、提取、索引创建以及备份/恢复工作。该工具可在Oracle企业管理器中进行在线查看。它还提供了一个应用程序接口,这样,其它工具就可以访问并进行同样的操作。在大型数据仓库操作中,这将非常有用,但同时这样的操作也会带来大量的数据或事务处理。4.2.4决策支持工具OracleDiscovererOracleDiscoverer是Oracle公司OLAP工具集的组成部分。它是一个直观的随意查询、报告、搜索和Web公布工具,能够帮助公司内部各个层次的商业用户,使他们获得迅速访问关系型数据库、数据中心或者联机事务处理系统中数据的能力。UserEdition提供了超乎寻常的易用性,优异的性能,以及通过任意深入能力、旋转和图表,给予用户强大的数据探索能力。为了方便设置和简化维护,AdministrationEdition提供了一个易于使用的基于服务器的强大的meta层(EndUserLayer,最终用户层)。对于那些需要集中精力处理商业问题而不是数据问题的最终用户而言,EndUserLayer为他们隐藏了数据结构和相互关系的复杂性。OracleDiscoverer主要有以下性能。·易用性比较强由于在开发过程中进行了广泛的使用测试,以及最终用户自始至终的参与,因而在今天的市场上,OracleDiscoverer是易于使用的随意查询、报告和分析工具。用户通过使用先进的循序渐进wizard界面,能够即刻访问信息。广泛的帮助、cuecard和针对行业特点的计算机培训,为用户提供了额外的帮助。基于服务器的精巧的EndUserLayer,使得用户完全感觉不到数据库和SQL的复杂性。将复杂条件作为最终用户层的一部分进行存储,使得用户在不需要理解布尔逻辑的情况下就能即刻访问信息。使用强大的集成图表生成工具,能比数字更迅速地显示数据趋势和异常情况。在图表中进行深入,能够更加清晰地审视特定趋势。·灵活的数据仓库搜索能力OracleDiscoverer为客户机和服务器两端的随意查询、深入和旋转,都提供了最佳性能。使用专家SQL查询引擎能够动态地生成性能优化的SQL查询。非锁定查询允许在一个查询执行的时候,其它任务也能够运行,从而提高了最终用户的工作效率。数组获取数量的增加能够提供即刻的反应时间,同时降低了网络流量,从而减少了用户时的挫折感。使用OracleDiscoverer任意深入和旋转能力,能够搜索数据仓库中的信息OracleDiscoverer中的深入结构允许你通过切割数据,以不同方式查看结果,从而使你看到一幅全面、准确的企业全景。·随意查询、报告、深入和Web公布OracleDiscoverer帮助最终用户在不需要了解SQL或者数据库结构的情况下,建立查询、报告以及执行功能强大的搜索。最终用户层就是提供这一功能的转换机制。广泛的深入函数提供了项目之间的深入,序列之间的向上和向下深入,以及从宏观到细节这一独特的深入能力。可以以HTML的格式公布从OracleDiscovererWorkbook中得到的最后结果。允许公司中更加广泛的用户使用标准的Web浏览器,如Netscape和OraclePowerBrowser,查看结果。·轻松的设置和维护使用商业管理Wizard界面中快速、单按钮安装的能力,能够自动将数据充实到最终用户层。将信息组织到逻辑商业区域,能够使数据访问更加简便和直观。使用数据库服务器为最终用户层中的商业定义,提供了一个集中式的安全系统仓库。有效的多用户访问和服务器的可伸缩性,两者保护了在Oracle技术上的投资。使用内在数据库安全措施提供用户访问控制这样节省了管理时间,削减了完全方面的担忧。使用该Wizard界面,能够使得最终用户层迅速与数据库中的变化进行同步。4.2.5OracleExpress工具OracleExpress工具是另一组OLAP产品。通过使用OracleExpressObjects、OracleExpressAnalyzer和OracleDiscoverer,企业能够迅速建立和实施数据仓库应用。预制的OLAP应用,即OracleFinancialAnalyzer,OracleFinancialController和OracleSalesAnalyzer,则进一步减少了实施时间和费用。Oracle及其解决方案合作伙伴提供的预置OLAP应用,在财务合并和预算编制这样的领域以及在电信业这样的行业,都能带来立竿见影的效果。无论公司自行开发还是购买用于企业或者工作组OLAP应用,Oracle的Express工具和应用都提供解决方案。支持Web应用的OracleExpressServer是一个先进的计算引擎和数据高速缓存,能够集成来自独立系统的数据,这些系统可能是关系型的、传统的或者外部的。(1)OracleExpressServerOracleExpress工具和应用的功能来自OracleExpressServer,这是一个先进的计算机引擎和数据高速缓存。它使用多维模型,多维模型最能反应用户对其业务的思考方法。多维模型将电子表格的行和列扩展三维或者更多的维。用户可以很自然地把类别数据(维)看作是一个数组的列(edges)。维可以是时间、产品、产品系列、地区,用户分析的对象可以是像单位销售额这样的综合数据。对于多维模型的查询是很迅速的。这些查询是对数组中的某一部分的算术计算。因此,这个数组支持最大、最复杂的OLAP应用。OracleExpressServer不仅支持多维数据模型,而且具有分析、预测、建模,以及对数据进行假设分析(what-if)的能力。该服务器具有用于数学、财务、统计和时间序列管理等方面的内置功能。ExpressServer能够存储和管理多维数组,或者通过一种只需很少、甚至不需索引的复杂的多维高速缓存方案,提供直接面向关系数据的分析。该服务器具有伸缩性、强健性和基于应用的特性,支持多个用户访问,并且为大型数据库实现数据完整性控制。同时,Oracle的开放策略允许实施企业OLAP的公司自由选择所需的关系型数据库、开发工具和用户界面,其中包括用户化的Windows前端、电子表格和WWW,从而获得最大限度的灵活性。商业决策和分析应用需要一个为最终用户设计的数据模型。用于OracleExpress的数据模型是一个立(多)方体,该立方体将分析的对象同多个维(即相似实体的集合)相联系。通过多维地组织和操作来自关系型数据库或者其它二维文件的数据,用户能够以审视其业务的相同方式观察数据。在这里,单位销售额(变量)可以根据产品和市场在时间轴(维)上进行观察。OracleExpressWebAgent将OracleExpress技术的分析能力和Web浏览器的简单性相结合,帮助最终用户在公司Intranet和WWW上,执行具有重要商业意义的多维数据即席分析。(2)OracleExpressAnalyzerOracleExpressAnalyzer是通用的、面向最终用户的报告和分析工具,它采用面向对象技术,在OracleExpressAnalyzer中能运行任何OracleExpressObjects应用。实际上,OracleExpressAnalyzer的用户能够扩展和发布在OracleExpressObjects中开发的应用。ExpressObjects和ExpressAnalyzer的集成使得信息系统人员和用户群体在建立和共享应用和对象方面拥有广泛的选择余地。通过使用OracleExpress,分析咨询人员能够很轻松地从各自的视角观察数据。产品经理能够跨越许多时间段和市场区域研究她负责的某个产品;财务经理可以集中在当前或者以前的时间段,研究所有的市场和产品;地区经理可在某些地区的所有时间段上考察所有产品;策略规划人员可以集中在公司数据的某个集上,如在当前和下个季度,仅在西部地区销售的某个新产品。4.3Sybase数据仓库解决方案4.3.1基础设施要求Sybase提供了覆盖整个数据仓库建立周期的一套完整的产品包:WarehouseStudio,它包括数据仓库的建模、数据集成和转换、数据存储和管理、元数据管理和数据可视化分析等产品。首先,数据仓库是建立在企业现有的信息资源的基础之上的,数据仓库是为决策支持服务的,需要大量的历史数据作为依据。因此,企业现有的大量历史数据就成为建立数据仓库的最重要的基础设施之一,这包括用传统的OLTP数据库(包括关系型、层状和网状数据库)中的大量历史数据和各种各样以文件方式存储的数据。数据仓库在硬件上是依托于网络系统的,由于数据仓库是给管理决策人员使用的,虽然使用人数不会很多,但却相当重要,因此,企业要有安全可靠和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论