版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、XX银行数据仓库方案建议书I目录第一章第二章、“ 、.前言 建议方案简介第三章硬件产品介绍第四章软件产品介绍第五章项目计划附录一成功案例附录二IBM 可以提供的服务附录三项目进度计划安排参考附录四产品报价第一章 前言作为一个发展中的银行,总部位于我国南方著名经济特区深圳市 的XX银行的成长令人瞩目。为了在五年内成为全国著名的银行,进 入世界大银行的排行榜,xx银行的决策者们制订了一整套行之有效的计划,而作为现代化管理的一部分,与国际上先进的模式接轨,计 算机管理自然成为相当重要的一部分°xx银行与世界信息产业的领 导者,美国国际商业机器公司,简称 IBM 合作,将其业务系统成功 运行
2、在 AS/400 平台之上,成功地迈出了计算机管理的第一步。但是 他们并不满足于目前的状况,发扬一向紧跟新科技的传统,决定对目 前的业务数据作进一步的处理,将静态的数据转化为决策支持的依 据。所以,准备采用目前信息产业界极为先进的数据仓库技术,完成 XX银行的决策支持系统,以进一步提高公司的实力和竞争力。而世 界上最大的软件及咨询服务公司IBM ,将以其在该行业雄厚的实力和数十年丰富的经验,为XX银行提供一套完整的解决方案,使XX银 行的管理能力再上一个台阶。本方案以先进性和可扩展性为原则,使 XX银行的数据仓库系统既可以保证在几年内技术和设备不落后,使 之站在世界计算机发展潮流之上,又可以根
3、据业务的高速发展,很方 便地升级,以达到业务发展需求的性能。先进性方面, IBM 提供的硬件平台是具有最强劲处理能力的 RS6000 SP 系列并行机,它综合业界的最高端技术,具备无与伦比的 处理能力和可扩展性、可靠性。例如战胜世界冠军、国际象棋特级大 师卡斯帕罗夫的“深蓝”就是这种机型,其每秒数亿步的处理速度至 今仍被人们称道;软件平台是 IBM 提供最新推出的、业界好评如潮 的通用数据库产品(Universal Database,这是IBM 的又一大师级力作;还有荣获本年度世界数据仓库产品大奖的数据采掘工具: Intelligent Miner;在应用上,IBM有成熟的整套数据仓库解决方案
4、, 和其他仅仅能提供某些方面产品的厂商有着本质的区别。可扩展性方面,因为数据量越来越大,用户越来越多,为保证合理的响应速度,对机器的性能提高就会有一个几乎线性增长的要求。硬 件和软件的可扩展性就成为一个重要的考虑因素。 IBM 的 RS6000 SP 主机正是具备这种特性,从而成为硬件平台的首选;通用数据库在小 到手提机,大到并行主机的任何平台上,都能充分发挥硬件的性能。这样就确保了整个数据仓库系统的正常运作。也可以保证用户在今后 升级时,既可以保护现有投资,也使应用系统受到的影响降到最小, 做到无缝升级。背景中国的银行业务正面临深刻的改革,各种新生事物不断涌现,如 新的业务,由于分工模糊而出
5、现的很多非银行业的竞争者,业务全球 化的趋势,由新旧竞争者造成的越来越大的压力,快速发展的信息技 术,客户的需求和总体人口组成也在不断变化。全球范围内的金融服 务企业间的关系变得更加紧密,促使决策者重新研究金融市场,资源 分配,组织结构和业务流程,从而采取更有创意的企业行为和策略, 如企业兼并,市场定位,产品和服务推陈出新,保持营销渠道畅通。在银行业内,越来越多的企业正在采用数仓库工具来创造新的商 业机会:深入分析客户群的组成、发现特殊需求、设计新的产品、在 新业务推出前开展详细的建模和分析。分析客户减少的可能原因,采 取预防措施,提高服务质量和整体竞争力。分析重要客户的来源,保 证整体效益。
6、预防和制止信用卡诈骗活动。正如 IBM 一向在计算机业的发展中扮演重要角色一样, IBM 早 在1988年,就发表了第一篇关于数据仓库的文章,成为这一领域的先 驱,从那时起,数据仓库的技术,服务和解决方案就在来断地完善, 时至今日, IBM 公司的数据仓库系统已经安装了数百个,在各个行 业,各种平台上运行。1995 年, IBM 重新评定了所有数据仓库资源,成立一支核心队 伍,专门开发运用于各行业的数据仓库解决方案,范围涉及银行及金 融业,电讯业,零售业,保险及卫生业等。这个小组的任务是分析各 行业的业务需求,选择最好的软件和硬件产品,为客户提供咨询服 务。在数据仓库市场上, IBM 始终致力
7、于提供全面解决方案,不但提 供技术和咨询服务,还为客户介绍专门的行业经验。我们的数据仓库 系统运行在多种平台上,保证一个开放系统供应商的地位,是目前最 完整的全方位的集成式数据仓库解决方案。IDC 最近在加拿大市场上作了一次数据仓库的调查,发现集成度 是大家最关心的问题,除了严格遵循开放标准, IBM 还发展了一些有 实力的策略联盟伙伴,如 Vality 、进展技术公司 ETI 、 Cognos 以及 Information Advantage 等。通过联合开发和集成调试,达到联盟的 主要目标:更高级的集成度。IBM 始终致力于确立在以网络为中心的计算技术方面的领导地 位,我们也坚信目前我们站
8、在潮流的尖端,公司内部建立起遍布全球 100多个国家, 700多个城市的全球性的大型数据网络,在专门的互联网部门,在这一领域的技术成果不断推出,都无可置疑地表明 IBM 是 当之无愧的领导者。今天 IBM 更是提出了一套完整的解决方案。以 下就数据仓库的概念和作用做一些简要的介绍。数据仓库的概念及作用所谓数据仓库,数据仓库之父 W.H.Inmon 曾对数据仓库作了这 样的描述:“数据仓库是九十年代信息技术构架的新焦点,它提供集 成化的和历史化的数据;它集成种类不同的应用系统;数据仓库从发 展和历史的角度来组织和存储数据,以供信息化和分析化处理之 用”。这里要强调的是必须将业务系统和数据仓库分开
9、。两者功能不 同,要求迥异。虽然业务系统为数据仓库提供数据。但决不能将数据 仓库建立在业务系统之上。一来两者所存的数据不同。业务系统是存 储实时数据的地方;数据仓库可能更关心的是整个历史数据。两者的 数据传递不是简单的复制,而是一个可能是比较复杂的转换和传递过 程。二来,这样做对业务系统的影响太大。不仅会对数据的安全性造 成一些不可预测的影响,还会影响业务系统的性能。查询请求会使系 统不堪重负,响应速度降低,严重时甚至导致系统的崩溃,使业务系 统瘫痪。所以必须将两者分开。数据仓库的作用主要在于通过对大量数据的分析,得出需要的统 计结果。还可以找出其潜在的关系,从而作出正确的判断。例如,如 果银
10、行要了解它的一个客户的情况,以目前的情况来看,需要查询储 蓄库,信用卡库,借贷信息等。这些信息存储在不同的业务系统中, 不同的主机上,显然要获得完整的客户资料需要作大量的工作,消耗 大量的时间。但是,如果这个银行拥有数据仓库系统,要完成这个工 作只需要一个最简单的查询命令,可能只需要几秒钟。因为数据仓库 中已经有了所有的数据,而且都已经重新组织。特别是如果你要查的 是一些历史数据,那么目前的系统就根本无能为力了。所以,建立一 个数据仓库对公司的许多正确决策的作出有着举足轻重的影响。它可 以以合理的代价取得有效的决策支持;促进企业中业务处理过程的重 组;改善并强化对客户的服务;强化企业的资产和负
11、债管理;促进市 场分析;帮助实现企业的规模优化。数据仓库的特点由于差不多各个业务系统的各种数据都要放进数据仓库,所以, 随着时间的增长数据仓库的数据量是特别大的。例如,某单位一天有 10G 数据,例如移动通讯局的计费系统 ( 如果有几本流水帐,可能还 会超过这个数字 ) ,那么,仅仅过了两年,数据仓库中的数据量就有: 10*365*2=7300G ,相当于七个多 TB 的数据。那么五年后,十年后 呢?简直不能想象。由此可见,数据仓库的特点:数据量大且有几乎 线性的增长性。数据仓库对计算机系统的要求根据上述特点,我们认为支持数据仓库的计算机系统首先必须得 有一台不仅性能卓著,而且可扩展性也很好的
12、主机。谈到可扩展性, 许多人会想到对称多处理器系统 ( Symmetrical Multi-Processing) 系 统,其实 SMP 系统的 CPU 数增加到一定数目后,对系统性能的提 高已十分有限,甚至会起反作用。所以,主机的选用,一定要有非常 好的线性增长性。这里,我们建议选用目前已经比较成熟的海量并行 处理系统(Massive Parallel Processing ,简称为 MPP。另外,数据库 的选用也是十分关键的。一是要支持超大的数据量。可能在初始阶 段,数据量已经到了 TB 级。二是要有很强的稳定性。数据仓库是为 决策支持系统提供准确的数据分析,如果数据库不十分稳定,那么,
13、后果不堪设想。另外,数据库必须有可扩展性,支持多平台,高性能 等等。整个网络环境的稳定和高速也应被列入计算机系统设计的考虑 范畴。数据仓库系统的体系结构一个完整的数据仓库系统,应当由定义部分、数据获取部分、管 理部分、数据分发部分、信息目录、数据库管理系统、数据存取与分 析等部分组成。1. 定义部分 数据仓库系统的定义部分完成数据仓库环境的定义和设置。这里 包括相应的定义工具供数据仓库的设计者和管理人员使用。他们使用 这类工具进行:a. 设计和定义数据仓库数据库;b. 定义数据仓库的数据源;c. 指定一组规则用来约束当数据从外部源点进入数据仓库时的系 统行为。定义部分的工作结果是一批元数据,这
14、批数据将存放 在信息目录中。2. 数据获取部分 数据获取部分负责从外部数据源析取数据,并在数据仓库内对所 析取的数据实施后处理。为了实现数据仓库系统的主要目标 以最终用户最容易理解和使用的方式组织和存储数据,进行后处理是必须 的一步。后处理包括对所析取数据的提炼和变换。在定义部分所建立 的规则用来约束实施后处理时的系统行为。数据提炼包括以下内容: 记录或记录内栏目的重构,删去不需要的运行信息,字段值的解码和 翻译,补充缺漏的值以及检查数据的完整性和相容性。变换的内容如 上所述。需补充的两点是变换还可以包括对原数据加上时间标记及对 导出数据的计算,在完成后处理后,即可将处理的结果加载到相应的 数
15、据仓库数据库中,这种加载可通过源数据库的加载工具实现,如果 源库是关系数据库,一般可用 SQL 类的工具实现对日常数据清理和归 整,来自外部数据源的数据不会原封不动地进入数据仓库,而是必须 进行必要的变换以增强其可用性。最常见的数据变换有获取瞬像数 据、实施集运算(求和、求平均量等)、分组、填写缺漏值、预报趋 势(填入预测量)、数据结构与格式的转换、提取样本值、编码值与 可读值间的转化等等。3. 管理部分管理部分由一组系统服务工具构成,这类工具及其所提供的服务 可为数据仓库系统中其他部分所利用,还可以用于管理数据仓库中的 数据集,数据集是对特定的一个或一级用户有用的一组数据,这组数 据是从数据
16、获取部分得到的基本数据导出的。管理部分提供的服务包括数据的维护、数据的分发、数据仓库的 例行维护,其中,维护服务完成从基本仓库数据导出特定数据集的任 务;分发服务负责将集中的仓库数据分发到多个分设的数据仓库数据 库服务器和其他供最终用户使用的决策支持系统上面;例行维护服务 包括了对数据仓库的常规安全性服务、归档服务、备份、恢复以及对 基本仓库数据和数据集的监督服务。在当前,例行维护服务多由基本 操作系统和数据库系统软件来完成。4. 信息目录数据仓库所管理的数据,不仅有供最终用户(企业管理人员、各 级决策者)使用的,还包括供数据仓库系统的开发者和维护者使用的 数据。后一类信息是用来描述仓库数据库
17、结构的,称之为元数据。元 数据的管理是数据仓库成功应用的关键。数据仓库系统中的信息目录,用来反映本系统中元数据的组织情 况。通过信息目录,可帮助用户了解在数据仓库中都存放着什么信息 以及如何访问和使用这些信息。一般来说,一个完整的信息目录应当由几部分组成,即技术目 录、业务目录和信息导航器。数据仓库的设计者和管理者所使用的数据,其描述信息由技术目 录保持和管理。这类信息有关于数据源和目标、数据的提炼规则、数 据源与仓库数据库之间的变换规则和映射等的描述信息。技术目录中 的信息,是在数据仓库设计者在定义数据源和数据目标时,以及向数 据仓库拷贝数据而应用某些规则时产生的。如果外部系统拥有库管理 工
18、具、 DBMS 系统目录或者 CASE 工具,也可以借用相应的工具从 外部系统输入这类信息。为了使数据仓库的设计者和管理者能有重构、调整和优化数据仓 库的依据,技术目录还将保存和维护与上述目标相对应的信息,这类 信息包括:数据仓库中数据的总量、数据仓库的创建的更新日期、仓 库中数据的存取和使用方法等。业务目录包含的信息,是将仓库中的数据以符合最终用户业务习 惯的方式表达出来。这类信息包括:同一仓库数据的业务习惯叫法与 相应的数据仓库命名及别名对照、仓库数据的来源、导出规则和数据 的当前值、与数据拥有者的联络信息、预定义的查询与报告的内容细 节、授权要求等。这类信息通常是由数据仓库的管理员生成,
19、有的也可以由外部系 统( CASE 工具、查询或报告生成工具等)引入到数据仓库中来。业务目录的使用和仓库数据的存取需要简单易用的工具来辅助, 信息导航器就是这样的工具,其基本功能是:对业务目录中的信息实 施查询和搜索、经查询而生成临时性的或永久性的仓库数据集、向仓 库管理员发送新的数据获取请求的通讯、向数据仓库系统的数据分发 部件发送分发请求、与系统的数据分发部件和数据存取与分析部件直 接交互。5. 数据库管理系统数据库管理系统是数据仓库的重要协同支持部分。整个系统都程 度不同地依赖数据库软件的支持。其中最基本的支持是对仓库数据检 索和维护。 能够有效支持数据仓库系统的数据库软件,必须具备两
20、个能力:伸缩能力和运行效率。由于数据仓库所维护的数据量一般都 在 TB 之上,所以上述要求的道理是再明白不过的了。在当前,支持 数据仓库系统的主要是 RDBMS ,所以效率问题更显得重要。为了解决在加载、存取和分析大批量仓库数据时存在的效率问 题, IBM 推出了具有广泛并行处理能力的产品,这类产品充分利用大 规模并行处理机的能力和开放系统的优势,在伸缩性效率上均有实质 性的改观。数据仓库系统需要数据库软件提供的基本支持包括并行查 询、并行建索引和并行常规维护(加载、备份和恢复等)。6. 数据存取与分析部分 存取与分析部分属于仓库系统的前端。这里主要由桌面信息系统 的各种工具组成。在 C/S
21、计算环境下,这部分属于客户端。数据仓库 的最终用户在这里提取信息、分析数据集、实施决策,从而可望取得 竞争优势。能够进入这一部分的软件工具,主要是查询生成工具、多 维分析工具和数据提取工具等。46第二章 建议方案简介关于XX银行如何实现数据仓库的建议经过前一段时间的调查研究,IBM特向XX银行提出这份建议, 建议书的设计办求体现以下要点:在XX银行现有的技术和经验的基础上开展建设,保护贵行在这 些方面的投资,充分考虑到贵行在数据库技术如数据建模和数据库管 理等方面的经验,以及正在使用的 IBM 产品,建议的新产品都是易于 接受和使用的如UNIX, DB2 UDB系列产品等。建议书编写的过程中,
22、咨询了多位有丰富银行业经验的专业顾 问,他们对于如何在银行业内实现数据仓库有多年的实践经验,可以 保证尽量降低方案的风险。为将来的发展打下良好的基础,由于银行金融企业业务的不断发 展,以及企业信息系统可采用的新技术不断涌现,所以绝对有必要保 证系统有充分的可扩展性,能够采纳各种新技术,如数据采掘工具, 互联网和多媒体等。采用开放的,可重用的技术成份,尽量增加系统 的灵活性,使投资得到最大程度的保护。通过采用成熟的技术使系统 建设的风险降到最低。采用联接集成技术来降低总体运营成本,在本 建议书中最明显的例子就是采用数据复制技术,在 AS/400 主机系统 和数据仓库间传输数据。总体建议的要点:基
23、于大规模并行技术的开放,可重用,紧密集成的组件,这个方 案经过国际范围内多个专业顾问的审核,如 Richard Finkelstien, IDC及Coli nWhite等,并得到他们的一致同意。为开发完整的业务系 统而选定的一整套来自IBM及其伙伴厂商的软件产品。与XX银行在 数据分析发现方面建立数据发掘的合作关系,使贵行成为中国银行界 的领先企业,通过准确的客户定位,需求顾测等手段获得丰厚的利 润。IBM 将召集来自世界各地的数据仓库和数据发掘方面的专家,他们有多年为银行客户服务的经验,将为贵行提供与业务相关的顾问服 务。从技术及财务方面为客户考虑,提供单一而灵活的价格条款,以 分期实现的方
24、式,使系统的建设对现行系统的影响减到最少,在整个 建设过程与客户共担风险。本建议书的核心技术是 SP系统,SP系统的机器已在世界各地的 大银行内普遍使用,如中国银行和花旗银行。方案内的另一个核心技 术 DB2 UDB的并行版本(EEE) Enterprise-Extended Edition,它是目前最快的并行数据库,也是目前唯一一个符合标准的全并行数据库。 其中还包括了从 AS/400 到 SP 的数据复制工具 DataPropagator 。方案中的其他软件产品有:数据集市工具 VisualWarehouse ,数据 采掘工具In tellige nt Min er,以及DataGuide
25、、ADSM以及进展技术公司的 ETI 等。在本方案中特定提出一个专门条款:与XX银行的数据采掘合作。 数据采掘是目前国际上各大企业普遍采用的一种用于增加和管理效益 的手段,它是一种比多维分析工具更先进的数据分析技术。采用了这 项技术的用户普遍反映良好,认为能很好地帮助他们降低成本,增加 收入,管理风险,招揽客户和扩大市场。IBM 研究中心根据数据仓库的使用经验,总结出一组需求建模的 算法,由各地的专业顾问指导了数百个客户使用这些工具,选出最适 合 总结 业 务流程的 8个 算 法, 涉 及的 数 据 采 掘 技 术 包括聚 集 (Clustering) 、 分类 (Classificaiton
26、) 、 关 联 发现 (association discovery) 、序列模式发现 (sequential pattern discovery)、相似时 间 序 列 发 现 (similar time sequence discovery) 和 预 测 (prediction) 。数据采掘系统的开发中使用了多种技术和产品,如数 据预备工具和可视化技术,为客户实现满意的效果。通过这些系统的 建设,也证明了所用的工具和硬件 (RS/6000) 和数据库环境 (DB2 UDB) 有足够的可扩展能力,能处理大型数据文件。与目前市场上其他解决方案相比, IBM 的顾问组提供的服务明显 高出一筹,其他公
27、司提供的算法只能适用于单一种特定的情况,IBM的算法则能在各种企业中使用,所提供的 API 能集成其他表示和决策 支持工具,全世界共有 9个 IBM 的实验室, 50多个专业研究人员从事 这方面的工作,他们提出的方案能分析数以百万计的记录,与关系型 并行数据库集成,而不再受限于由内存容量决定的小型文件。我们向贵行推荐DB2并行版本EEE,是因为我们有足够的数据采 掘技术和经验,使之能处理非常大量的数据,发现从来不曾发现过的 模式和关联。在方案中,我们将向贵行提供所有合适的工具和资源,并希望组 织一些研讨会,共同探计如何更好地选择适用于中国银行业的产品和 技术。根据XX银行提供的资料,我们认为整
28、个企业用的数据仓库系统 需要一台装有 8个高节点的 SP 系统,最初时需要 400GB 存储空间, 有必要时,可以在其他省的分行安装数据仓库或数据集市,具体方案 视当地的业务量而定,我们设计了相应的两个方案,第一个方案是在 总行配备一个 8个高节点的 SP 系统,配备 650GB 存储设备;第二个 方案是在总行配备一个 4个高节点的 SP 系统,配备 325GB 存储设 备。然后在各个分行各配备一个 2个高节点的 SP 系统,配备 162GB 存储设备。详细方案见附图。 IBM 建议使用第一种方案。因为1. 整个数据仓库系统在一个地方,易于管理和维护;2. 降低费用,避免重复投资,可共享资源;
29、3. 从业务上看,数据仓库得出的结论更具有整体性。建议方案企业级的数据仓库与数据集市的比较根据XX银行提出的业务需求,我们建议采用一个分两期的方案 来实现数据集市的概念,第一步是建立一个全局的数据仓库,它是建 立数据集市的必由之路,数据仓库和数据集市不应该是两个完全分开 的系统,因为数据集市虽然向独立的业务领域提供高质量的信息,但 数据来源和基础是与数据仓库无法分开的,否则就会出现数据完整 性,数据可管理性和元数据可管理性等问题,全局集中的企业数据仓 库为所有为特定业务领域服务的数据集市提供一个可靠的基础。数据集市的定义逻辑成份较多,而不注重于物理角度,企业级的 数据仓库指把企业业务信息经提炼
30、整理后作长期的保存,而数据集市 保存的信息附属于某一特定的业务范围,相对比较动态化,因为数据 集市相关的业务范围会随着时间和经营方针的改变而改变。数据集市需要快速访问原始业务数据,这些数据可能是从几个不 同的时期收集来的,事先要经过业务规则的检验和净化处理。这样才 能保证不同业务需求的数据集市都能快速访问到所需的数据。正是这 个原因,最成功的数据集市应用不是那些以应用为可心的业务系统, 而是由全局企业数据仓库中提炼出来的数据集市系统。企业数据仓库 可以扮演过滤器的角色,执行业务规则和检验数据。本建议书在实现数据集市方面推荐一种相当灵活的体系结构,数 据集市的规模可以小到只有几个用户,大到整个部
31、门,甚至整企业务 系统,为了适应这种需求,推荐的方案能从核心的数据仓库中抽取所 需的特定数据,跟踪与建立数据集市有关的所有操作,以便作审计控 制,并能在较长时间后重组数据。数据集市的具体实现依赖于业务需求和企业数据模型,可以选择 的方案有很多,为确保安全性,可管理性,可靠性和可行性,数据集 市可以在 SP 平台上和企业的数据仓库共存,这种配置使工作负载可 以分布到多个节点上,从而使数据集市的应用获得较好的性能效果, 对于远程节点和移动用户而言,数据集市则可以从企业数据仓库平台 转移到其他平台上,IBM的DB2 UDB数据库和数据复制产品降低了转 移 过程的复杂性和难度, 这些产品可运行在多种平
32、台上, 如 WindowsNT、 OS/2、AIX、Sun Solaris 、HP-UX 和 SCO UNIX 等,使 数据集市可灵活扩展。对于小于 20 GB 的数据集市,还可以把数据下载到多维数据和分 析包中,如 Arbor 公司的 Essbase 可以从数据仓库中切下部分数 据,专用于部门级的数据集市应用, Essbase 有一个多维数据库,最 终用户可以从不同的维上分析数据,在较短的响应时间内分析数据和 汇总信息。本建议书的其余部分将专注于论述如何建立一个集中式的全局数 据仓库,评估具体的业务需求时会进一步解释数据集市的实现。方案所用技术概述本方案涉及七项最重要的技术:数据仓库的管理和
33、基础结构,数 据获取,数据存储,决策支持工具,数据采掘,企业数据仓库目录, 咨询及顾问服务,下面将分别介绍。每项技术都分类列出可能的选 择,我们在这个项目中的推荐方案以及原因。我们的解决方案不但覆盖了这七项技术,还有针对性地根据XX 银行的业务需求来使用这些技术,保证紧密地集成系统,完成所有业 务需要的功能,同时这些技术遵循开放标准,每个组成部分的模块化结构使整个系统具有充分灵活性,可以在必要的时候升级改进管理及基础结构硬件技术XX银行可以选用的硬件平台有 SMP, SMP集群和MPP。根据业 务的规模,银行业的动态性,以及为将来的发展建立一个灵活的,可 扩展的,有充分发展余地的基础的需求,编
34、写这份建议书的专家一致 认为应该选择 MPP 平台,其他评核的顾问如 Richard Finkelstein 、 Colin White 和 IDC 的 ChrisWilliard 等都肯定这一选择,根据 Gartner 集团的统计,九成的 IT 经理为了更快,更灵活,更有效地 执行分析工作,都会选择 MPP 平台和并行数据库。IBM 有两种 UNIX 环境下的 MPP 处理方案: SP 和大型主机上的 MVS开放版本。我们推荐 SP系统,因为它稳固的结构,成功的运行 记录,较好的性能价格比。SP 在1994年推出,时至今日,全世界共有 2000多个系统在运行, 总节点数超过 20000个,现
35、在在中国也安装了近 100个系统。大型的银 行企业,一般会选用一个或多个 SP 平台来执行各种业务,如市场分 析,客户管理,利润分析,服务跟踪等。SP 可以提供几乎不受限制的可扩展能力,本项目建议的配置只及 目前最强大的处理能力,最大的内存和硬盘容量的不足百分之五,有 一些用户甚至在使用超过 400个节点的 SP 系统。系统管理长期稳定运行的业务系统有赖于稳定的体系结构,而系统管理是 整个数据仓库稳定性量度的重要指标。有超过一半的客户 / 服务器项目 是失败的,其中超过 90%的系统是因为没有合适的系统管理结构。SP平台上有一整套系统管理软件,能管理系统的改变,重新配置,操作 执行以及作性能和
36、故障管理。 Tivoli 系列系统管理工具进一步完善这 组软件的功能,它是一套可靠的跨平台的管理工具,能实现完善的数 据仓库管理功能,使整个系统发挥最大的交用。本方案中采用的Tivoli 产品是ADS( ADSTA分布式存储管理器)。数据获取数据获取过程由几步组成,有数据抽取和传送,数据提炼,数据 分发和装载。数据获取是一个不间断的过程,要求自动化的处理能 力,可靠性和可管理性,所以上节所说的系统管理能力也很重要。数 据获取的核心是企业数据仓库目录的分发和管理。该功能由 DB2 UDB EEE 中的产品 Data Propagator 完成。数据存储在 SP 硬件平台上,可选的数据存储产品有O
37、RACLE、 INFORMIX和DB2并行版本,我们推荐 DB2并行版本UDB-EEE该产品在加拿 大实验室开发,得到多数顾问的一致推荐,因为 DB2 并行版本是目前 市场上唯一完全符合标准的 MPP 数据,通过广泛的安装和使用进一步 证明了其能力。在 SP 平台上实现数据仓库选用 DB2 并行版本的占了 超过50%,远远超过第二位的 ORACLE因为它目前唯一一个全并行的 数据库。最近作了一个关于 VLDB ( 超大型数据库 ) 的调查中, DB2 成为最 受欢迎的产品,在五大数据库中无论是数据库的容量还是用户数都远 远领先。例如一家叫 BellSygma 的公司,正在使用 DB2/MVS
38、作市场 分析,随着 UNIX 平台上的数据仓库的不断发展,他们在考虑转型时 决定采用 DB2 并行版本,因为他们已经有 DB2 的使用经验,而且 IBM 在 VLDB 上令人信服的技术和经验,可信的运行记录等促使他们 作出这种决定。时至今日,他们已经开发出几个 VLDB 的数据仓库应 用,都有非常好的可扩展性和性能。一向以来, DB2 因为其多样化的功能而受世界各大型企业的普遍 欢迎,美国最大的500家企业中有超过80%采用了 DB2,其中前100家 全部采用了 DB2。DB2并行版本象SP平台一样,能帮助象XX银行 这样的企业去应付各种类型的业务压力,有足够的灵活性去增加,删 除,重新开发和
39、管理应用和数据, DB2 有独特的可重用特点,能同时 作数据仓库、数据集市和内部网应用的数据库服务器,将来还可以把 DB2/400 的应用向下优化到 DB2 上。最新的 TPCD 测试表明, DB2 的性能是并行数据库中最好的, 这次测试模拟了一个实际的数据仓库环境,从TPC量度上来看,与XX银行目前的数据仓库规模比较接近,IBM公司在1996年共投入了1200个人年开发 DB2 产品,今后仍会保持这种力度以保证并行数据库 领域的领先地位。决策分析支持工具面向最终用户的工具种类繁多,有 IBM 的 Visualizer 、 Data Inter Pretation ;其他公司的如 Cogons
40、、 Information Advantage 、 Business Objects 、Brio-Query 、CrystalReports 、 Microstrategy 、 Prodea、Arbor的EssBase等。汇集总体层次上的数据,从多个角度 去分析,发现有价值的信息,但每个工具的功能范围都比较单一而固 定。经过专家的讨论,我们推荐 Arbor的EssBase,作部门级数据集 市方案中的多维数据库。我们也希望建立数据采掘的合作关系,以便 更好地发挥 IBM 最新的数据采掘和发现技术的作用。IBM 的数据采掘技术数据仓库最重要的作用就是发掘信息,更好地支持业务决策,增 加客户忠诚度,
41、提高市场占有率和利润,信息发掘的应用有市场分 析,利润评估,成本审核等。现在的技术趋势是以信息发现为驱动,提高上述应用的效率, IBM 在这方面的研究和开发工作一直处于领先地位,与几个重大的金融和 零售业客户合作,开发出一些有针对性的解决方案。在此基础上汇集 成一个完整的数据采掘工具包,Intelligent Miner.已在1996年六月推出,支持RS/6000和SP平台上的 DB2,该项技术在业界内堪称一 绝。第一版的产品内含有八个独立的算法。META 集团的 AaronZornes 曾高度评价这一技术“ IBM 的数据采 掘工具包和提供的相关的服务,相信会对大型企业的数据仓库技术带 来决
42、定性的影响。”这项技术是一项新技术,对XX银行而言很有好处,采用这项技 术可以使贵行与其他银行在技术上拉开差距,这项技术必然会进一步 发展,同时也就保证了贵行在数据仓库上的投资能发挥更大的作用。企业数据仓库目录数据仓库的元数据是数据仓库完整性、自动化程度和可用性的基 础,元数据定义了数据仓库的处理过程,记录下来并支配整个运行过 程,对业务型用户而言,元数据是一种信息目录,从中可以较容易地 理解和使用数据仓库中的信息。元数据的来源,信息模型和存储技术有很多种,通常相互之间是 冲突的,为了使各种工具可以顺利地互相交换元数据,需要 Metadata Interchange Coalition 的帮助
43、,提供元数据的标准化的交换。 IBM, ETI ,Infromation Advantage 和 Vality 等公司都支持这种标准,我 们与其他数据仓库厂商也正在共同合作,以达成最终的标准。IBM 的方法与 Coalition 的策略完全一致,技术性的元数据和业 务性的元数据的内容和使用方式都是比较独立的,针对不同的用户, 应该有不同的元数据存储,优化信息结构。 IBM 推荐的方案中,技术 性的元数据可以用ETI,业务性的元数据用IBM的DataGuide,这些 相互独立的产品虽然来自不同的厂商,但组合起来能发挥更大的作 用,因为它们是所在领域中最好的产品,否则无论如何都要维护两套 元数据目
44、录,还要保证它们之间的同步。ETI 和 DataGuide 的同步由 ETI 负责,因为 ETI 有一种很特别 的功能,能象处理其他数据源一样处理 ETI 的元数据存储, ETI 最大 的长处就是有选择的查询、传送数据,不受软件和硬件的影响,能在 任何格式的数据库或文件间传送大量的数据,所有操作都是在元数据 的控制下进行。 ETI 的元数据存储能卸出,然后卸入 DataGuide ,或 与DataGuide的数据合并,整个处理过程可在图形界面中完成,最后 能生成相关的报告, ETI 还支持版本控制,建立并维护详细的审计记 录。DataGuide 是 IBM 的信息目录工具,集成工作组级和企业级
45、上的 最终用户业务元数据, DataGuide 中的元数据按业务性质划分成多个 业务组,最终用户很容易浏览,分析时如果要查找某一对象,如报 告、电子表格、数据库、程序、 ETI 元数据存储或数据采掘工具等, DataGuide 都能把所需的数据连同信息抽调出来, DataGuide 的目录 信息存储在 DB2 中,与数据仓库中的业务数据放在相同的地方。咨询与顾问服务概述XX银行已有开发大型项目的技术和经验。根据IBM在数百个数据仓库项目中的经验,其中有几个与XX银行的情况相类似,我们有 信心帮助贵行利用已有的技术和经验,把系统升级,扩展数据仓库的范围和业务应用的广度。IBM 一向是通过增加商业
46、价值来推动项目的进展,保证用户花在 数据仓库上的每一分钱都是物有所值的,所采用的技术都是绝对有必 要的,与业务需求相适应的,我们的方案进展是分期进行的,保证整 个项目按步就班,达至最后完全成功。IBM 是世界最大的顾问服务公司,提供全面的顾问服务,在XX 银行项目中我们有三个突出的长处: IBM 充分认识到数据仓库的重要性,专门建立一个技术中心, 由数百个专业人员组成,设计、实现并管理数据仓库项目中的所有部 件。 IBM 已有多年为客户提供数据仓库咨询与顾问服务的历史,附 录中列出了 IBM 数据仓库顾问服务的方式。 IBM 有数据采掘方面领先的技术,在过去十年中,超过 50个研 究人员专注于
47、超大型数据环境中的数据发掘的研究,研究工作在遍布 世界各地的 9个实验室中进行,前后共研制了 42种数据发掘的算法,所 有这些成果,再加上我们提供的专业顾问服务,帮助客户设计方案, 实现和开展培训,构成了数据采掘的强大力量。第三章 硬件产品介绍在仔细研究XX银行总行目前的运行环境,以及总行对数据仓库 计划的需求后, IBM 提出 SP 解决方案。 IBM 方案结合了在不同平 台(IBM RS/6000 及 IBM AS/400)间数据移动(data moveme n),系 统连接 ( system connectivity) 以及系统可扩展性 ( system scalability) 等许多
48、新的技术,这些技术不仅可以满足总行目前的需求,而且提供 了满足未来需求的基础。解决方案 :因为目前总行每天的日常操作是在 AS/400 上运 行,为确保不 影响 日常的运行,以及满足数据仓库大量运算的需求, IBM 建议使 用IBM 最高档的 UNIX 平台RS/6000 SP,因为 SP具有(1)开放式系 统功能。 (2)高可扩 展性等优点,足以满足总行目前及未来的需求。IBM 解决方案的主机硬件需求 :八个 R50节点的 RS/6000 SP,每节点配置有8个 CPU, 4GB内 存,4.5 GB内置硬盘,外置硬盘为 81.1GB。各节点的外置硬盘不互 连。八个节点通 过SP SWITCH
49、相联,构成 SP的MPP结构,而每 个节点内采用 8 CPU 的 SMP 结构。物理上八个 R50 节点占用两个 SP 机柜,每个 SP 机柜可放置 四个 R50 节点。八个 7133-020磁盘组占用两个 R00 机柜,每个 R00 机柜可放置四组 7133硬盘(每组16个)。IBM RS/6000 Scaleable POWER Parallel (SP) 介绍SP 是 RS/6000 系列产品线中最高档的产品,是 IBM 专门为需要 大量高速计算客户 所设计的并行机, SP 的结构是高度可伸缩的,最 小的 SP 可以只有一个节点,最大的 SP 可以到512个节点。SP 有三种节点:窄节点
50、、宽节点、高节点,每个 SP 机框 (System Frame) 可以放置 16个窄节点,或 8个宽节点,或 4个高节点。 所谓的高节点即是 RS/6000 SMP机R50,每个高节点最多可以有8个 CPU, 4 GB 内存及 6900GB SSA 硬盘(或2700GB SCSI硬 盘)。节点之间的通讯是通过 IBM 专门为 SP 设计的 SP Switch 来实 现,节点与外部的通讯则可选择用以太网, FDDI 或 ATM 。每个节点 都运行 AIX 操作系统。一个低档的 RS/6000 工作站用来作控制台, 控制整个 SP 系统的运行。整个 SP 系统可以当作一个系统运行一个大的并行作业,
51、或者可 以区分为几个小系统,每个小系统运行自己的作业。SP 是高可伸缩性的并行计算机SP Shared-nothing 和离散式内存的结构,比共享内存SMP 结构及松散耦合式的服务器集群 (Loosely-Coupled Cluster) 在可扩展性上 有显著的优势, SMP ( 对称式处理器 ) 结构,由于共享内存及使用单 一的操作系统,在可扩展性的限制上是众所周知的。SMP 结构的第一个瓶颈在于所有的 CPU 均需通过一条系统总 线,到内存获取数据, CPU 之间往往需要彼此竞争来取得系统总线的 使用权。SMP 结构的第二个瓶颈在于缓存的一致性(Cache Coherence,)也就是说每
52、个 CPU 必须消耗极多的时间来确定每个缓存中的数据是 一致的,当某个 CPU 改动它缓存中的数据,它必须把这个更改通知 到其他各个CPU,这对CPU及系统总线的开销都是很大的。SMP 结构的第三个瓶颈在于它使用一个操作系统,这个操作系统 由所有的 CPU 所共享,许多内核 (kernel) 的结构需要加锁 (Locking ) 与解锁 (unlocking) ,来确保数据的一致性,这种 Locking 机制对 SMP结构是一项极大的系统开销。SMP or MPP For Data Warehousing目前有愈来愈多的数据仓库应用使用像 IBM RS/6000 SP 这种多 功能并行机 (M
53、PP) 作为硬件平台,这是因为:1. 并行数据库 UDB 的 Enterprise-Extended Edition(早期版本为 DB2 PE) 已成熟地运行在 SP 上,而并行运算的复杂性均被数据库所涵 盖,原有的应用不需要经过任何改变,即可充分利用 SP 的结构达到 并行的效果。2. 数据仓库的操作本身就具有高度的并行性,就以数据Scan 为 例:各数据库均有很好的方法把数据放在不同的硬盘上,由不同的节 点对之操作达到线性加速的效果。3. 愈来愈多的客户使用 SP 作为数据仓库平台,而且成功的案例 越来越多。由于数据仓库计算量及数据量均极为巨大,选择一个具有高度可 扩展性的平台是十分重要的
54、,以下是关于何时该选 SMP 平台,何时 该选 MPP 平台的几点标准:1. 数据库及最大表 (Table) 的大小。2. 同时使用的用户数。通常一个数据仓库大多有50至 200个人同 时使用 。3. 数据库查询的复杂程度。4. 系统总线的速度,处理器的速度和 I/0 的速度。5. 每个查询会访问多少数据, 100多行或在百万行。6. 用户希望的反应时间:几分钟或几小时。7. 数据库的功能。8. 数据库和终端用户数增长的速度。IBM曾就这个问题(何时该选SMP,何时该选MPP)对许多专家 进行调研,比较中肯的意见是:如果数据量超过 100 GB (也有的专家 认为 200GB) 用户最好认真考
55、虑 MPP 机型,因为它有较好的扩展 性,当然最好在实施前即对终端用户的需求有充分的了解,可是在实 际的情形中,这种事先有充分准备的例子不多,所以在实施数据仓库 后两三年内,数据量增长三到四倍的情形非常普遍。很多数据仓库在实施前都有一个实验计划,一个有趣的现象是: 实验计划愈成功,客户对数据的需求就愈大。因此,在考虑平台时, 一定要注意这个平台的可扩展性,即使要用一台 SMP 的机型,也要 考虑它是否有很高的扩展性,是否可以很平滑的升级到 MPP 结构, 以避免硬件平台的功能无法满足用户的需求。SP 比起松散耦合式服务器集群 (Loosely Coupled Cluster) 的方式 有很大的
56、优越性,服务器集群的主要缺点在于服务器之间数据传达速 度太慢,以及有太多的服务器要管理, IBM 特别为中国设计了 SP Switch,来提供节点间快速的数据传送,而且IBM也专门为SP设计了一套管理系统来管理 SP,不论SP有多少个节点,对系统管理人 员而言 SP 只是一个系统。SP 的结构可以扩展到几千个节点,目前最大的SP 有 512个节点,美国花旗银行使用 116个节点的 SP 运行数据仓库应用。SP SWITCHSP的技术核心是SP SWITCH,它提供了极高的速度连接各节 点。 SP SWITCH 给每两个节点提供四条数据通道,每两个节点之间 的带宽高达 100 MB /S 双向传
57、送 (读与写可以同时进行 )。SP 系统管理:IBM 特别为 SP 开发了一个系统管理软件 Parallel System Support Program (PSSP,) 装在控制工作台上 (一台低档的 RS/6000) 来管理整个 SP。PSSP 有下列的功能: 硬件的监视与控制 配置管理 用户管理 软件安装与升级 用户作业管理SP 的 RAS(Reliability , Availability and Serviceability)IBM 对 SP 的 RAS 非常重视,每个重要配件如电源、风扇均有 冗余。 SP Switch 每个重要芯片均有备份,来确保 SP Switch 数据传 输
58、的正确性以及可靠性,两个节点之间则可利用 IBM 高可靠性软件 产品HACMP提供互为备份。节点内部则有 SystemGuard芯片提供实 时监控。 (SystemGuard 的详述见后 )在 SP 内的 R50 高结点采用了 IBM 独特的 SMP 技术的对称 多处理系统。在整体 SP 为 MPP 计算结构的同时,在每个 SP 结点 内部采用 SMP 处理,使每个结点所完成的任务亦可分散到多个处理 器运行,这样就充分利用了 MPP 及 SMP 两种技术各自的优越性。 以下再对 IBM RS/6000 的 SMP 技术作一介绍:IBM RS/6000 Symmetric Multi-Processing(SMP )对称式多处理器系统在系统设计及制造上,IBM的SMP服务器代表工业界科技的一 项主要成就,在中央处理器的结构,设计,科技及包装上有很多领先 的突破,与其它竞争对手的 S
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- gmp指南试题及答案
- c1货运资格证考试试题及答案
- (完整版)施工部署及施工平面布置
- 2025版水肿常见症状及护理手册
- 关于低钾血症的护理查房
- 肠内营养混悬液临床应用与管理
- 恰当选用表达方法
- 定语从句核心辨析要点
- 2025年注册税务师涉税服务实务专项试卷(含答案)
- 妇产科护理学练习试卷70(题后含答案及解析)题型大全
- 环境 监理 培训课件
- 船员服务车辆管理制度
- 2025至2030麻醉药行业市场发展分析及投资融资策略报告
- 检测单位抽样管理制度
- 安全技术与管理专业教学标准(中等职业教育)2025修订
- GB/T 29188-2022品牌价值评价多周期超额收益法
- T/CAPA 3-2021毛发移植规范
- 汽车维修服务中心车辆维修证明书(8篇)
- 风电总包合同协议书
- 物业移交消防协议书
- 《厦门大学海洋科学导论课件》(生物部分)
评论
0/150
提交评论