数据仓库与数据挖掘_第1页
数据仓库与数据挖掘_第2页
数据仓库与数据挖掘_第3页
数据仓库与数据挖掘_第4页
数据仓库与数据挖掘_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库与数据挖掘

然而目前OLAP存在的最大问题是:业务灵活多变,必定导致业务模型随之经常

发生变化,而业务维度与度量一旦发生变化,技术人员需要把整个Cube重新定义

并重新生存,业务人员只能在此Cube上进行多维分析,这样就限制了业务人员快

速改变问题分析的角度,从而使所谓的BI系统称之死板的日常报表系统.

在思达商业智能平台StyleIntelligence上进行海量数据的多维数据分析,从

业务需求的角度出发,维度与度量才是直接针对业务人员的分析语言。在自主知

识产权数据块儿技术支持下,直接把维度与度量的生成交给业务人员,由业务人

员自己定义好维度与度量之后,将业务的维度与度量直接运行,并最终生成报表。

此种以终为始的设计思路,首先能解决传统OLAP分析中维度难以改变的问题,

利用思达商业智能平台StyleIntelligence中数据非结构化的特征,业务人员

能够灵活地改变问题分析的角度,对业务人员非常友善。其次思达商业智能平台

StyleIntelligence在海量数据处理中利用分布式数据处理架构强大的分布式

数据处理能力,不管OLAP分析中的维度增加多少,系统开销并不显著增长。

XXX公司BI系统

方案建议书

IBM公司软件部

二。。九年九月

IBM公司数据仓底储业用能挈决力茶

目t

第T极

第二童商业智能保述

21诲业曾牌本结构

2J.HBM数据仓库架构

2.1.2数据仓库:用于抽取、整合、分布、存储有用的信息

2.1.3多维分析:全方也了解嘛

2.1.4前台分析工具

2.1.5数据挖蛾

2.2商业智能方案实施原则….

2.2.1分阶段、筑序渐进的徐则.

2.2.2实用原则

2.2.3知识原虬

第三章XXX公司RI系统方案

3.1XXX公司B1系统的需求分析

3.2IBM的解决方案

2.2.1分阶段、循序渐进的原则5

2.2.2实用原则6

2.2.3知识原则6

第三章XXX公司BI系统方案7

3.1XXX公司BI系统的需求分析7

3.2IBM的解决方案7

3.3建议架构9

第四章所选1BZ产品简介.••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••11

4.1DB2UDB11

4.1.1DB2家楼(Family)与DB2通用数据外(UDB)V7.2II

4.1.2DB2通用数据库(UDB)V7.2的特色12

4.1.3DB2通用数据席(UD&的其他先进功能22

4.2DB2WAREHOUSEMANAGER(数据仓库管理糖)26

4.2./DB2WarehouseManager的主要部件26

4.2.2数据抽取、转然和加我(ETL)功能27

4.2.3兀数据(MelaDaia)首理31

4.2.4DB2WarehouseManager的其它技术特点3/

4.3IBMOLAPSERVER(多维数据库服务涔)33

431DB2OLAPSen”力弊33

4.3.2DB2OLAPSec”各个附件34

第一章概述

的若市场竞争的日益激烈,各家公司纷纷把提高决策的科学性、合理性提高

到一个新的认识高度c在此背景下,利用信息技术的最新手段,利用业务数据进

行面向决策的分析这一方法纷纷被国内外许多公司所采用。

通过仃目的、仃选杼地采集业务数据,并将其转换为对决策仃用的信息,用

于智能化的分析、预测和模拟等H的,这样的应用被称为商业智能应用,从国内

外各行各业的发展经蛤看,实施商业智能是提高企业进行高效的业务分析和科学

决策的Tf效手段。

作为一个J1市八十多年历史,以开发信息技术和商业应用而闻名的“蓝色Q

人”,IBM在这一领域进行了多年的研究,发展出完备的商业智能技术,为商业

数据口动转化为商业知识提供了现实的方案。

商业智能的木质,是提取收集到的数据,进行智能化的分析,揭示企业运作

和市场情况,帮助管理层做出正确明智的经营决定,一般现代化的业务操作,通

常都会产生大量的数据,如话单、账单以及客户资料等,式中一部分是决策关键

数据,但并不是所有的数据都对决策有决定意义,商业智能包括收集、清理、管

理和分析这屿数据,将数据转化为有用的信息,然后及时分发到企业各处,用于

改善业务决策。企业可以利用它的信息和结论进行更加灵活的阶段性的决策:如

采用什么产品、计对哪类客户、如何选择和有效地推出服务等等,也可以实现高

效的财务分析、销售分析、风险管理、分销和后勤管理等等。这一切都是为了降

IBM公司数板仓库,商业智能解决方案

第章商业智能综述

2.1商业智能基本结构

当今,许多企业认识到只有卷充分利用,发掘其现有数据,才能实现更大的

商业效益。日常的商务应用生成了大量的数据,这些数据若用于决策支持则会带

来显著的附加值。若再加上市场分析报告、独立的市场调查、质量评测结果和顾

问评估等外来数据时,上述处理过程产生的效益可进一步增强。而数据仓库正是

汇总这些商用信息后,进而支持数据发掘、多维数据分析等当今尖端技术和传统

的查询及表报功能,这些对于在当今激烈的商业竞争中保持领先是至关重要的。

那么怎样把这样大量的数据转换成可靠的、商用的信息以便于决策支持呢?建立

数据仓库正被广泛地公认为最好的转换手段。

建立数据仓库的过程

转换工具业务数据

外部数据

III"IlTE

自业视图

业务信息

图1数据仓库建立过程

根据IDC的调查,使用数据仓库的投资网报率平均超过400%,尤其是从小

型数据仓库开始实施的平均超过500%。

IBM公司数据仓库,嘀业智能掣决方案

2.1.1IBM数据仓库架构

IBM早在90年代初期,就投入大量优秀技术人员和资金开始了数据仓库的

研究,并启动了Star-Burst大型科研项目,该项目主要就是为了攻克数据仓库领

域的一些技术难题,例如优化星型连接(S【ar-join),实现多维分析。因此,IBM现

在发布的数据仓库产品都是经过反复推敲和久经考验的,真正做到让用户买起来

放心,用起来舒心。基于对数据仓库结构的深刻理解和多年枳累的经验,IBM设

计了自己的数据仓库结构,见卜图:数据仓库的组成。作为一个开发式结构,它

方便了用户的产品选择、实施和今后的扩展。

OLTP业务系统

数据集市

数据仓库

每日/每月

销g

L库

4财

DSS

图2旧M数据仓库架构

上图为IBM三层次数据仓库结构:从第一层OITP业务系统到第二层数据仓

咋为建仓过程,从第二二层到第三层数据集市为按4题分类建立.应用的过程.第一

力包括数据抽取、数据转换、数据分布等步骤,按照统一的数据格式标准进行统

一的数据转换.建立被企业各部门充分共享的数据仓库。其中,数据抽取阶段

完成对各种数据源的访问,数据也换阶段完成对数据的清洗、汇总和◊合等,数

捌分布阶段完成对结果数据存储的分配。这三个阶段通常紧密结合在一起,由

个产品或几个产品配合实现。例如,DB2WarehouseManager既可独立完成,又

可结合DataJoincr、DataPropagator实现对异构数据和数据复制的处理。DB2

WarehouseManager可进行数据映射的定义,以定期地抽取、转换和分布数据:

XXX公,,JIH\1中国仃眼公同队击第3页

IBM公司数据仓库/询业智能解决方案

DalaJoiner可访问的各种关系型数据库包括DB2数据库家族、ORACLE、SYBASE、

INFORMIX和MSSQLServer等:DalaPropagalo「主:要用于数据复制,采用数据

复制的方式可对业务数据仓库进行增量数据更新,避免对作业系统事物处理性能

的影响和大量重复抽取数据。数据的存储由DB2家族产品来完成,以保证数据仓

库始终高性能地运转,提供完整、准确的数据,便于将来的升级和犷展。

第二步.在按.主题分类建立应用时,心既想拥守多维数据库的独特功能,又

要把数据存放在关系型数据库中以便管理,则DB2OLAPServer是用户的最什选

择,DB2WarehouseManager中提供的InformationCatalog通过描述件数据帮助用

户查找和理解数据仓库中的数据,IntelligentMiner用于数据挖掘以便帮助决策者

预测或发现陷藏的关系。最后,我们以报表或图形的方式将结果数据呈现给用户,

这通常由第三方产品来实现,它们包括:HyperionAnalyzer,Cognos,Brio,Business

Objects等。

商业智能的实现方式多种多样,式规模和特点由用户的需用来决定。但万变

不离其宗.箕基木体系结构往往包括三个部分。

2.1.2数据仓库:用于抽取、整合、分布、存储有用的信息

一个企业的信息往往分布在不同的部门和分支机构,管理者要综观全局、运

筹帷幄,必须能迅速地找到能反映真实情况的数据,这曲数据也许是当前的现实

数据,也可能是过去的历史数据。因此,有必要把各个区域的数据集合起来,去

其糟粕、取其精华,将真实的、对决策rr用的数据保留下来,随时准备管理人员

使用。因此,数据仓库不仅仅是个数据的储存仓库,更重要的是它提供了干富的

।.具来清洗、转换和从各地提取数据,使得放在仓库里的数据有条有理,易于使

用,

2.1.3多维分析:全方猴了解现状

管理人员往往希望从不同的角度来审视业务数值,比如从时间、地域、产品

来看同一类业务的总额。每一个分析的角度可以叫作一个维,因此,我们把多角

度分析方式称为多维分析。以前,每一个分析的角度需要制作一张报表。由此产

生了在线多维分析工具,它的生要功能,是根据用户常用的多种分析角度,事先

计算好一些辅助结构,以便在杳询时能尽快抽取到所要的记录,并快速地从一维

转变到另一维,将不同角度的信息以数字、宜方图、饼图、曲线等等方式展现在

您面前。

IBM公司数据仓耳。曲业昔能解决方案

2.1.4前台分析工具

提供简单易用的图形化界面给管理人员,由他们口由选择要分析的数据、定

义分析角度、显示分析结果,往往与多维分析in配合,作为多维分析服务器的

前台界面。

以上三部分是商业智能的基础。它完成的是对用户数据的整理和观察,可以

说,它的工作是总结过去。在此基础结构之上,商业智能可以发挥更进一步的作

用,利用数据挖掘技术,发现问题、找出规律,达到真正的智能效果:预测将来。

2.1.5数据挖掘臼

正如在矿井中可以挖掘出珍贵的矿石,在数据仓井的数据里也常常可以挖掘

出业务人员意想不到的信息。它比多维分析更进一步.例如,如果管理人员要求

比较各个区域某类业务在过去一年的情况,可以从多维分析中找答案,但是,如

果管理人员要问为何一种业务在某地区的情况突然变得特别好或是不好,或者问

该业务在另一地区将会怎么样,这时数据挖掘工具可以作出回答,

简单的说,数据挖掘使用统计、分析等数学方法、以及电脑学习和神经网络

等人工智能方式,从大量的数据中,找寻数据「数据之间的关系。这种关系,一

般显示数据组之间相似或相反的彳j为或变化。一个细心的分析者,往往能从这些

发掘出来的关系得到用示。而这种后示又很可能使得到它的业者,获得其他竞争

者所没有的先机。

数据挖掘要求力数据仓库作基础,井要求数据仓库里已经存打中富的数据。

因此,在实施商业智能方案时,一般分两步走:第一步实现数据仓库和多维分析,

构造商业智能的基础,实现分析应用;第二步实现数据挖掘,发挥商业智能的特

色。

2.2商业智能方案实施原则

实施商业智能方案项H工程,与实施传统的应用宏统有很大的不同,其中最

重要的是,商业智能的实施是不断的交流过程,只有双方紧密的合作才能取得实

施的成功,我们建议,工程实施上采取以下原则:

2.2.1分阶段、循序渐进的原则

任何一个项目的实施都是一个发现问题,解决问题,枳累经嘛,又遇到新问

题,再解决,再积累的循序渐进的过程。我们建议XXX公司应根据现有的资源

以及今后发展的方向,分阶段、循序渐进的实施商业智能方案。

IBM公旬数据仓齐南W智能睇决方案

2.2.2实用原则

在第••步实现数据仓库时,尽量针对'与前电信最关心的主题,并将该主题进

行细致分析,尽可能用简单、统一、易于使用的方式来实现,避免追求片面的复

杂和完美。

2.2.3知识原则

普遍说来,由于商业智能技术相对而言比较新,企业的信息技术人员对数据

仓库、多维分析、数据挖掘等系统涉及的知识往往存在着不足或偏差臼实际应用

经验也很欠缺。因此,我们建议在实施过程中结合专家培训和服务,在商业智能

系统的设计、开发、实施当中,逐步培养出企业自己的系统管理、维护和开发人

员。当系统投入使用时,这些人员可以对系统进行维护和管理,并负责对最终用

户进行培训。

【BM公司数据仓府碓业科能的火力案

第三章XXX公司BI系统方案

3.1XXX公司BI系统的需求分析

在XXX公司的川系统中,可以实现如下系列经营过程中的分析和决策支持:

除了以上列出的一系列分析和预测外,利用BI系统,还应该能够根据XXX

公司的需求很方便地扩展其功能。

3.2IBM的解决方案

基于XXX公司BI系统的需求,以及IBM公司在数据仓库领域的经验,我

们提出以卜解决方案:

采用一个企业级的数据仓库,实现各分行业务数据的自动采集、清洗、汇总,

并只通过多维分析工.具,让用户能够有效的将数据转化为灵活的报表和决策支持

信息,最终满足用户的信息需求。

该方案的实现方式如下:

苜先,在数据主要来源于两个方面:综合业务系统和新录入的数据。综合业

务系统中的数据通过数据仓库,具进行自动采集、清洗、整理,而需要新录入的

数据则通过浏览器方式录入。

在构造数据仓库的过程中,我们采取以C带面的做法,采用小步长、逐步地

建立数据仓库的策略。以XXX公司报表系统为开端,分阶段地实现商业智能应

用。小的项目可以立即显示数据仓库的价值,同时也提供了更快的投资回报。而

n.,先在只rr少量的数据和用户的小系统上进行学习和实践,对技术人员来说会

学得更快。我们希望首先在需求较为迫切的领域,选择一些比较有意义的1鹿;

基于这些工题,我们将建立一个数据集巾,待用户能够对数据仓库的概念和一些

技术有了比较深刻的认识之后,再综观全局,构建起企业级的数据仓库。

数据录入可以采用数据文件快速装入的方式,也可以采用专门应用的方式。

如果采用后者,我们可以考虑使用IBM的WebSphere和VisualAgeIbrJava进行

开发,它们产品是IBM电广商务应用的重要部件。利用这两个工具,我们可以方

便地建立Web页面,生成Java程仔,包括Applet、Senlet和Application等等。

并n.系统的维护工作也比较方便,当需要修改应用时,只需要修改服务器上的程

XXX公司,IBM中国仃限公司机密笫7贝

序就可以了,不需要在客户端做工作。力外,这种结构对客户机的配置要求也不

太高。

在建造数据仓库的过程中,我们推荐使用IBM的WarehouseManager»该产

品是IBM用来建立数据仓库的I.具,利用该I.具,我们可以方便、快捷地构造起

数据仓库来,因为我们应该认识到数据仓库必须建立在一个开放的、可更改的结

构上,以便能够处理数据和需求的不断膨胀•WarehouseManager正是这样的一个

工具。提供一个开放的,从数据源到数据仓库的一致的解决方案。

在XXX公司的BI系统中,通过WarehouseManager管理器可以方便地建

立数据加工的流程(process)和步骤(step),这些步骤反映了XXX公司具体业务数

据的流程、规则。在各步骤中可以定义代理(agcni)来口动运行数据传递、清洗和

汇总功能,这些步骤可以按时间、事件运行,或由其它步骤触发。代理可以运行

在WarehouseManager服务器上,也可以运行在远程的战主机上,井旦可.以有

多个代理运行以提高效率.可以以非常苴观的图形化方式管理数据仓库,当报表

系统的业务需求发生变化时,可以非常方便地修改步骤,满足变化多端的商业竟

争环境。

WarehouseManager是专门为商业应用设计的,它可以自动在网络上进行数据

的传送,不需要人为干预,并R利用它的日志功能可以对系统运行很好地监控。

在DB2WarehouseManagcr(DWM)中含7TWarehouseAgent部件,它可以用来

在位于数据仓库的目标数据库DB2UDB中执行11接执行数据仓库的数据加工。

另外,在数据仓库服务器于业务系统之间的文件数据FTP传输以及从表中抽取少

量数据也可以通过Agent直接执行。

建立数据仓库之后,选择一些有意义的主题,抽取相关的数据到DB2OLAP

Server中,利用DB2OLAPServer的强大分析功能,给最终用户提供在线多维分

析的功能,能够让最终用户充分挖掘出数据中包含的信息。

DWM在执行完数据的提取仟务后,口动触发预先定义好的OLAP操作,将

数据经过汇总计算后加载至DB2OLAPServer中。

最终用户工具我们选用DB2OLAPAnalyzer,这个产品是一个数据仓库的前

端分析工具,利用这个工具用户可以很容易地访问OLAPServer中经过处理的数

据,制作各种形式、风格的报表,报表内容可以包括数字、图青、曲线等,使得

管理层可以直接、直观地查看企业的经营情况。

3.3建议架构

DB2iarehouseManager

DB2InielIigentMiner

DB2IntelligentMiner

生产系统I

生产系统2

生产紧统3

WeuriauffV/Eft-fcKK-M

卧2laroho•qServer

M5201APServerjMeUonI

在H/力桁VIRWHI■务需IMV2IntnlIi|rnlVinprOi0fit

DR2GIAFAnalysisSenrnWindows

KTTPServer

Windovs2000

IntranetInterrct

图3XXX公司Bl系统软硬件配置示意图

在此方案中,采用RS/6000服务器作为运行数据仓库H标数据库的服务器,

其上安装DB2UDBEE、DB2WarehouseManager,用来从生产系统抽取对决策有

用的业务数据,经过加工后存放在数据仓库中。户

在海量数据仓库基础上计为每一类具体业务问题建立数据集市。由于XXX

公司BI系统中的业务问题大多是多维分析问题,故利用另外一台RS/6000服务

器运行IBM公司专门的多维分析服务器产品DB2OLAPServer,以极大地加快多

维分析的速度。

在数据仓库服务燃上同时安装DB2IntelligentMinerforData,从数据仓库服

务器中抽取数据进行智能挖掘;此外,在数据仓库上安装DB2IntelligenlMiner

Scoring,用来将数据挖掘的结果作用到数据仓库中,实现打分功能,

所TT客户端以浏览器方式,通过查询和多维分析的WEB应用服务器访问数

据仓库和多维分析服务器中的数据。整个系统需要在一台运行Windows2000的

PC服务器上安装DB2OLAPAnalyzerAnalysisServer以及HTTPServer,作为为

前端浏览器客户提供统一入口的应用服务器“为提高系统响应时间及提供负载均

衡能力,可以配合WebSphereApplicationServer共同使用»

另外,需要配置一台PC服务器运行Windows2000作为整个系统的控制服务

器,安装DB2WarehouseControlServer、DB2ControlCenter»OLAPSener控制

台OLAPServerApplicationManager以及挖掘服务湍前端DB2IntelligentMinerfor

DataClienta

此方案的优点:

基「公司的业务需求。各业务部门可以根据自己,的需要定义数据集市的内容,

并进行各种指标的多维分析,在实际应用中不断扩展系统,为决策者提供必要的

信息。

高性能、高效率,数据都在本地运行,数据量相对较小,因此对服务器计算

能力的要求相对较低,同时由于在局域网上运行,对网络带宽基本不会行压力,

并n.用户响应时间可以得到保障,

最大限度地减少网络负荷,各客户端通过浏览器方式从中心数据仓库中换取

数据,只有需要的数据被传输.

满足XXX公司未来发展的需要。此方案RTT很好的可扩展性,随着XXX

公司业务量的增加,业务数据的增多,各种业务系统的建立.,此方案川以容易的

适应这些变化,满足业务的需求。

一次性投资,长期受益,此方案不仅可以满足XXX公司目前BI系统的需

要,更为市要的是为XXX公司商业智能应用打下了-若坚实的基础。XXX公

司可以在此基础上开发各种商业智能应用,辅助决策者制定业务计划和措施,在

激烈的竞争中保持良好的势头。

第四章所选IBM产品简介

在这次的商业智能解决方案中,采用的产品包括数据库DB2UDB、数据仓库

(DB2WarehouseManager).多维数据库(OLAPServer)、前台分析工具(DB2OLAP

Analyzer)及智能数据挖掘服务器(DB2IntelligentMinertorData).以卜是各个产品

的描述说明,

4.1DB2UDB

4.1.1概述:DB2家族(Family)与DB2通用数据库(UDB)V7.2

IBMDB2家族的各种关系数据库管理系统适用于各种硬件平台,其中包括基

于Intel的微机、IBM的或非IBM的各种RISC服务耦和工作站、大型并行处理

机、AS/400中型计算机系统以及运行VM、VSE和MVS、OS/390操作系统的主

机系统。各种平台上的DB2tf共同的应用程样接口,因此运行在一种平台上的程

序可以很容易地移植到我他的平分。DB2家族产品能够满足不同用户的需求,它

包含了从单用户的微机系统到支持8()万用户的.主机系统。DB2家族除了包含在

各种平台上运行的数据库管理系统内核之外,产出包中还包括了数据复制、数据

库系统管理、环球网(Internet)网关支持、在线分析处理、多媒体支持和各种并行

处理能力,免费提供DB2UDBV7.2在PC和UNIX平台上的客户机端产品(DB2

CAE),并为所Tf平价上的异构数据库访问提供“中介件”(Middleware)解决方案。

可运行在基于Iniel的微机及各种RISC服务器(UNIX平台)上的DB2UDB

V7.2包括:DB2forAIX,DB2forHP-UX,DB2tbrSUNSolaris,DB2torOS/2,

DB2IbrWindowsNT,DB2tbrWin95»DB2tbrWin98»DBiQirLinux,DB2fbr

SCO,DB2fbrSinix,DB2fbrNUMA-Q等等。

这些产品是全功能、IV行工业强度的关系数据库管理系统,分别用于服务器

和T作站平台。可以把它们配置到巾个的系统上,或者配置到支持客户机工作站

的LAN服务器匕还可以把它们配置为环球网(Inlemel)上的数据库服务器。如果

使用服务益配置,那就允许DOS、Windows.OS/2、Win95、Win98>Macintosh

或UNIX客户机去访问DB2服务罂,可以使用TCP/IP、IPX/SPX、NetBIOS或

APPC等网络协议;如果作为环球网上的数据库服务器,则可由一台浏览器(Web

Browser)fl-为客户机访问。

DB2通用数据库(UDB)V7.2产品建立在一个共同代码的基础之上,依据多进

程/多线索结构进行设计,其数据库引擎的核心技术来自Starburet研究项H以及

DB2fbrOS/390等主机产品,而且它们在数据和应用的可移植性两个方面与DB2

XXX公司4HM中国有限公司机率第11页

IBM公诃数据仓方布”裨能解决〃案

家族中的其他成员完全就容。因而任何受过一种平台上的DB2培训的人员能够很

容易地使用其•他平台的DB2产品。在保持这种外在的兼容性以及具备DB2家族

成员所必需具备的可靠性和可管理性的同时,实际上它们每个产品还针对各自的

平台环境作了调整和优化以达到业界领先的件能/价格比,

DB2产品家族提供了完整的中文支持,对中文的支持员穿于从微机到卜:机的

所有平台,这是任何其他数据库厂家做不到的.

图4DB2家族产品

4.1.2DB2通用数据库(UDB)V7.2的特色

DB2通用数据库(UDB)V7.2无论在网络计算方面还是在线分析、多媒体处

理,都能给你全面、满意的支持,加fl集成了丰富的数据库常理工具,把原来复

杂的管理工作变得非常简单。

DB2V7.2致力于商业智能和数据好方血的改进,包括口动触发器,多分区

和多表的自动总计表格,优化星式结构的连接方法,使查询和整个系统的反应速

度大大提高。同时也增加「在装载和在线重组时对索引的维护,在DB2中还新增

了统计、线性回归等功能,直接支持进一步深入分析,以便利用DB2的查询处理

实用程序,而以往只能在应用程序级上做到这一点。另外,在支持16和32KB

Pages、多个缓冲池(multiplebufferpool)的优化、更快的完整性约束处理、处理更

多查询的星式连接等方面,做了一系列的改进。

应一些IBM合作伙伴软件提供商的要求,DB2UDBV7.2包含以卜扩充性能:

•表/视图/别名的命名长度限制由原来的18个字符犷充为128个字符。

•列命名长度限制由原来的18个字符扩充为30个字符。

•SQL语句的最大长度由原来的32KB增大到64KB,

•页大小从I6KB增大到32KB。

・最大变量字符为32KB,取决于页大小。

•最大表/表空间的大小从128GB扩大到512GB,取决于贞大小。

•索引关键字长度从255字符扩大到1,024个字符。

•嵌入式SQL编程支持宏。

DB2V7.2对统一代码(Unicode)的支持:16-Bil固定长度的Unicode包含所彳]

通用文本字符,容许定K字符序列(以便分析)和设定含义的字符。对UCS-2和

UTF-8格式的支持,允许用户用各种主要语言创建数据库和存取数据。DB2支持

wchar」数据类型,使得用户在单字节环境(如英语环境)卜开发的应藏其他环境

(U语)卜也可照常运行。

DB2UDBV7.2增强面向对象的SQL和SQL扩展,集成Windows平台,打

包新增免费软件,产品集成改变主要包括通用数据支持,免费新增数据仓库中心

和DB2OLAPstarterkit,用户可以使用DB2的数据连接器(DataJoiner),象访问

DB2数据资源一样,访问Oracle,Sybase,Informix,SQLServer等数据库。用户只

需熟悉DB2语法即可在跨平台的复杂环境中轻松获取小DB2数据,DB2UDB

V7.2选件中针对Oracle的关系连接部件可以使用户通过标准SQL查询同时访问

DB2和Oracle的数据费源。

DB2UDBV7.2的用户现在可以跨越DB2数据库、Oracle数据库或者一个

OLEDB资源进行分布式的查询,也就是可以通过使用DB2通用数据库的SQL

句法和API在一个工作甲.兀的宜询内实现访问和操作保存在异构数据资源中四数

据,DB2RelationalConnect加强」'分散查询功能,使DB2用户可以通过一个筒中

的查询来访问DB2数据和存储在Oracle数据库中的数柄,

DB2UDBV7.2免费包含的数据仓库中心把可视化仓库的强大功能和DB2控

制中心的便捷特点结合起来,为需要商业智能的用户提供友好的用户界血。用户

可以使用数据仓库中心对数据进行定义、口动取样、转换、发布、以及为数担仓

库加载数据。这种新功能可以为一个部门或堆位髭置一个独立的简单数据中心。

除数据仓库中心之外,DB2还在Wizards,模式名模型(SchemaModeler)、元数据

交换(Meladala交erchange)等方面做了改进。

DB2UDBV7.2数据仓库中心使用了更便捷的新界面,用于创建、设计、储

存以及维护数据仓库以及OLAP表。DB2数据仓库管理器产品在大量数据传递、

元数据管理以及查询管理方面做了改进。

DB2UDBV7中包含了一些先进的高级面向对象SQL功能,对开发人员和分

析员都非常7T用。这些聚合功能用于OLAP应用计算,这是在SQL・99中很难或

根本无法实现的,其符合SQL-99OLAP附录劣建议的标准。

DB2现在可以提供临时表格支持,应用存储点(savingpoint),标识栏(ID

Column),嵌套存储过程oSQL过程语言(SQLProcedureLanguage)支持创建DB2

存储过程,符合ANSISQL99中的存储过程模型标准。DB2UDB存储过程创建I.

具(SPB)是一个图形应用工具,支持DB2存储过程的快速开发.通过使用SPB,

用户可以在木地和远程DB2服务器上创建、修改、运行、测试和调试存储过程。

SPB提供Windows、AIX和Solaris下的开发环境,支持DB2系列产品,用户可

以从DB2UDB程芹组扇动SPB,也可以从MSVC++,MSVB.IBMVisualAgetor

Java,DB2控制中心启动SPB.DB2UDBV7.2创建用户定义功能,表功能和行功

能时允许包含一条SQL语句,这就减少了使用外部高级语言书写这些功能的需

要。DB2UDRV7.2推出了结构数据类型(或者叫做抽象数据类型),这可以让用户

和开发商们创建带有结构的表格。

DB2UDBV7.2版本中包括了许多可以提高系统性能和改善系统管理的功

能:能够把ODBC/CLI应用程芹包含的动态SQL话句转换为静态SQL并执行;

活动口志最大可为32GB;支持多个TCP/IP收听者(lislener)。

DB2UDB7提供三个新的扩展器:

(1)空间扩展瑞(SpatialExtender):DB2提出了空间SQL查询概念(Spatially

EnabledSQLQueries),使用户可以在美系型数据库中集成空间数据(通过

坐标确定位置)和普通的SQL数据,这两种技术的结合使用户川以过行新

型查询。新的空间扩展器将能够存储和索引空间数据(坐标信息),并使用

(2)DB2XML犷展潜:IBMDB2XMLExlcndcr体现了IBM全面的XML技

术策略,在电子商务领域居业界领导地位。XML扩展端是IBMB2B服

务器的组成部分,使DB2服务端可以支持XML。IBM曾为早期XML

技术被采用和发展起到了关键作用,此次该扩展器又提供了XML存储和

数据交换的新技术。通过存储,XML扩展器提供了XML文档在DB2中

的存储和恢复机制,升可高效地杳询XML内容。通过数据交换,XML

扩展器提供新的和已存在的DB2相关表格和XML格式文档之间的映射。

DB2用户可以在任何地方通过XML劭展器进行电子商务,实现企业之

间(B2B)和企业与消费者之间(B2C)的应用。木产品是免费的。

A支持先进的面向对象和多媒体应用

自从70年代IBM发明关系数据库以来,在数据库市场上,关系型数据库首

理系统(RDBMS)得到极其广泛的运用。关键任务的应用在很大程度上依赖于

RDBMS的使用。然而,目前很多RDBMS用户正转向非传统的、面向对象的应

用,需要对更广泛的形形色色的现实世界数据予以支持。比如,需要更有效地处

理在RDBMS中的文本、声音、视频、映致等数据。

DB2通用数据库(UDB)能够支持这些先进的应用。DB2把对传统应用与1"专

统应用的支持“数据库体系结构集成在一起,对关系型数据库进行面向对象扩展,

形成新一代对象关系型数据库系统(ObjectRclationalDBMS),DB2UDBV7.2提供

了许多对面向对象及多媒体应用的支持。口

(1)用户定义类型(UDT)

DB2允许用户定义新的数据类型,称为用户口定义类型(UserDelinedType),

例如,一个用户可以定义两种币值类型:用CDOLLAR表示加拿大元,用

USDOLLAR表示美元。这两种类型在内部可以用decimal(卜进制)类型来表示,

但在意义上是有显著差别的。它们彼此间不应也不能苴接进行比较,也不可宜接

与decimal类型进行比较。这是通过DB2的面向对象强类型(strongtyping)机制来

保证的。象内设(buikin)类型一样,UDT可以用来定义表列的数据类型和用户定

义函数(UDF)的参数。例如,用户可以定义一个类型:多边形Polygons,这个用

户自定义类型可有构造函数,还可有一组用户定义的函数作用于它,如求面积,

求角度,以及旋转多边形等等。

(2)用户定义函数(UDF)

DB2允许用户川C,Cr等编译语言定义新的函数,称为用户口定义函数(User

DefinedFunction)oLDF允许在查询中包含强有力的计算过程和检索判定,以便

露除在数据源附近无关的数据。UDF使用户有能力提供•组函数,它们作用于用

以定义的类型,形成面向对象的封装,从而定义该UDT的行为语义,SQL伏化

器考虑到UDF的语义和执行成本,这使得对待用户定义的函数就完全忽对待内设

函数(如SUBSTR和LENGTH)一样。开发应用程序所用的语言环境可以不同,如

C、C++、COBOL.FORTRAN和PL/I等,借助于SQL,应用程序共享一组UDT

和UDF。

把用户定义的类型和函数组合在一•起使用,就能把数据的表示和解释该数据

的一组函数定义都随藏起来,利用它们能创建函数库,这班函数库可以是IBM开

发的,也可以是第三方经销商或客户自行开发的,然后直接把它们集成在数据库

中。

(i)人对象(LOB)

LOB允许用户在一个数据库中存储特大(若干个GB)对象,在DB2中有二进

制LOB(BLOB),字符LOB(CLOB),双字节字符LOB(DBCLOB)等儿种类型,用

LOB可以存储多媒体对象,如文档资料、视频信号、映象和声音等。它也可存储

由UDT和UDF定义其语义的小型结构。DB2支持一组用于LOB的功能强大的

内设函数,如查找、子串和连接等。利用UDF方式用户可随时定义附加函数。另

外,在一个表中可以定义多个LOB歹h

对LOB实现支持时要考虑到客户对性能的需求,为此允许数据库用户或管理

员执行如下操作:

•仅访问应用程序需要的那部分LOB,不必访问整个LOB,

•延迟或取消LOB的求值过程。

•在定义一个LOB列时,能做出选择•一对该LOB列是否作日志。

•把LOB数据存储在不连续的数据库分区中,这些分区是匕为LOB管理

而构造的。©

(4)关系数据库扩展器(RelatiotuilExtenders)

关系数据库扩展器是一个预先包装的用户定义类型、用户定义函数、触发器、

约束以及存贮过程的集合。利用DB2提供的对象关系型特征,把DB2的基于内

容的搜索能力扩展到诸如文木、图像、视频、音频之类的新的数据类型。使用关

系扩展程序,只需简单地添加由关系扩展程存提供的相应数据类型的列(如文木或

图像列),用户就可以把文本文档、图像、视频、音频等连同常规企业数据一起存

贮在DB2的表中,对这些表的结构或卜:关键列并没有仟何特殊要求。关系犷展程

序还提供了一组用户定义函数,用于对新数据类型的管理、索引和搜索。

(5)集成内容搜索

集成内容搜索由RegionalExlenders通过用户定义函数来支持,例如:DB2

ImageExtender提供了一组函数来支持泗「•图像的、基于内容的搜索。一个用户

可以在一个SQL查询中使用一个ImageExtender函数来请求那些与一个现有图像

相似的图像,并R,其实现对用户是透明的,用户只需简单地把他的搜索请求表

示为SQL查询即可,该SQL查询将口动地调用由扩展程序提供的函数,DB2的

基于SQL的、支持集成内容搜索的方法的另一个重要的优点是既可以在多种11•常

规的数据类型上搜索给定的查询,又可以在常规的数据上搜索给定的查询。

B强劲的在线分析处理(OLAP)支持

DB2优化器能够使用动态位图索引(DynamicBihMapIndexAnding)即根据需

要在相应字段上口动地动态生成位图索弓I,从维数表格(Dimensionlable)中调选出

符合条件的记耒,再和事实表格(Facttable)连接,提高了访问多维数据的性能;

而不是执行Carlesian的维数表格连接,避免了大量中间数据的生成,中间数据己

实现了理论上的最小苴。当连接所涉及的表达到三个或三个以上,DB2可自动判

断是否使用星型连接技术(StarJoin)和动态位图索引进行优化,

DB2在SQL中新增加了ROLLUP和CUBE功能,ROLLUP功能通过在常规

组的行中增加“小计”和"总计”行来提供犷展的组(GROUP),CUBE功能增加了

“”05§-1@1?11囱沁11”行。它们通过星型连接($1&「何11)方式在关系型数据库中支持在线

分析处理(OLAP),使用立体的结构查存和如纳数据I则、是传统的平面结构。DB2

的优化器一向是化RUBM骄傲的,它提供了领先于其它数据库厂商的基于成本优

化技术,它在优化时考虑了CPU速度、能盘I/O率、表格尺寸、有效访问路径,

并「[如果可能的话可以审写查询,以得到更高的性能。这更使得DB2的在线分析

处理(OLAP)功能如虎添翼.

C卓越的并行处理能力

(1)并行优化技术

DB2UDBV7.2无论在SMP还是在MPP环境下,甚至在SMP节点组成的

MPP环境下,都可充分发挥其并行处理能力。查询执行时被透明地分开后并行执

彳j(称作内部重询并行性:Intra-queryparallelism),过去需要数小时的杳询现在只

需几分钟就可以完成,过去不能执行的查询现在不仅可行,而且还能从中获益.

在SMP环境卜攵理并行,DB2UDB采用的是吸管模型(Strawmodel)。此时

被执行的SQL相当于杯子中的水,而每个CPU相当于一根吸水的吸管,这样被

执行的SQL很快就被CPU“吸干”了.在MPP环境下处理并行,则相当于把杯子

中的水先智能地分配给多个小水杯(参,SQL执行的节点机),这样小水杯中的水

就分别被每个节点机“吸干”了。有「好的模型仅仅是开了个好头,DB2UDBV7.2

中融入的最先进的技术才是成功的关键。

(1)并行优化,从很多系统中抽取非常多的数据,这会耗费大量的时间,如

果效率不高,还会浪费大量宝贵的处理能力。从中行数据库中抽取数据有彳氐叱方

法,它们没有必要缘并行数据库那样运作。DB2UDBV7.2TT一个查询优化潜.

是由IBM研究机构开发的,它是专为提高并行抽取数据的效率而设计的.这样就

可获得高品质的杳询性能,特别是对特大型数据库。

(2)全面并行(ParallelEverything):DB2苜先把数据分配到数据库中的多个

分区或子集中,这些数据库位于多个SP站点或SMP服务滞内,接若,DB2口动

创建一个并行处理访问计划。数据扫描、合并、分类、负载平衡、表格承组、数

据调用、创建索引、索引访问、备份与恢复等一系列L作都是在所有不同的节点

里同时完成的。DB2UDBV7.2以并行方式执行全部数据库功能,这包括全部SQL

语句(Select、Insert»Update和Delete)、实用程序(backup,restore,reorg,load)

和数据存取方法(连接、表扫描和索引扫描)等,而「I.无需仟何额外的编程。这不

仅提供了更好的性能和可伸缩性,而且也提供了更佳的管理性—有能力利用全

部处理机去执行数据库管理任务。进一步说,DB2UDBV7.2既可用于联机事务

处理(OUTP),又可用于决策支持查询工作。

(3)管理工具在并行环境同样适用:Govern。!■帮助您控制每个用户及应用程

序的资源利用率,可自动调整查询的优先级。从而,在线平衡负载,简化系统管

理,减少关机时间。通过并行在线备份功能可显著减少黎务及恢复所需的时间.

(4)并行环境下功能不受任何限制:DB2UDBV7.2对多媒体数据的支持、

支持的客户端平价、支持的应用开发接口和开发工具以及动态位图索引等多维分

析功能、对WEB和Java的支持均不受限制。

(2)对MPP结构计算机的独特支持

本企业的业务系统或数据仓库系统的数据量不断增大、井发用户量不断增大

时,依靠单一的数据库服务渊往往难以获得比较好的性能和处理能力。此时,由

多台服务器协同工作成为解决这一问题的有效手段。

多台服务器协同工作的于•段上要有共享硬盘的集群式计算机,以及不共享任

何资源而白以高速网络相连的海量并行处理计算机两种方筑卷计算机科学的

不断发展,无论是科学计算领域还是在数据库领域都已经备计算机科学家证明,

海信并行处理是H前解决大数据量、最大限度里并行处理能力的最佳手段。

运行在MPP体系结构计算机上的DB2UDBV7.2企业扩展版(Enterprise

ExtendedEdition),作为并行关系数据库它允许把单个数据库映象散布到多个系统

上,从而能利用所有系统的处理能力以满足用户对喇的需求,DB2可以在并行

处理的多个节点上同时运行某一查询,从而提高查能,必要时它可以重新编

写查询以优化性能。然后,它自幼生成用于并行处理的访问方案。它包括以卜计

对MPP体系结构的特性:

(1)无共享(Shared-Nothing)结构:DB2UDBV7.2企业扩展版的体系结构设

计为每个系统(节点)只处理它那一部分数据库,彼此间尽可能独立。这就减少了

节点间共享资源时的竞争,并允许数据库有效地伸缩以支持更大的数据库,或者

通过附加更多节点以支持更多用户,在存户进行benchmark测试时多达512个节

点,都表明DB2UDBV7.2企业犷展版的性能n]随系统规模线性增长。它的体系

结构的规模可多达上千个节点,

(2)智能数据分发:可在数据库的多个分区或子集中分布数据,K分区图允

许DB2管理分发过程并在必要时通新分发。DB2基于成木的SQL优化器利用分

区信息估计SQL查询不同执行方案的成木,在需要分布数据和重新分布数据时进

行有效的管理,从中选择成木最低的方案。

(3)应用透明性:对在DB2'客户机工作站上I.作的程序员或业务用户来说,

DB2UDBV7.2企业扩展版看起来弓其它的DB2数据库一样。使用DB2UDBV7.2

企业扩展版时不需要修改应用程序,这就保护了当前用在DB2家族产品上在数

据、应用和技能方面的投资,同时也提供了新购强有力的数据处理手段和发挥成

本效果的手段。

(4)对RS/6000SP的支持:DB2UDBV7.2企业扩展版的体系结构完全n]与

IBM的大型并行处理器(MPP)RS/6000SP相媲美。RS/6000SP由上T个RS/6000

节点组成,相互由高速开关连接。DB2UDBV7.2企业扩展版和RS/6000SP的结

合构成当今产业界中最有伸缩性和功能最强的并行数据库方案.

(5)可伸缩的性能和容量:DB2UDBV7.2企业犷展版提供了非并行增量增

长的途径,从容量为l・2GB的单处理器数据库到具有兆兆(TB)字节芟至更多数据

的有512个节点的MPP计算机,这一切都不需重写应用程序(串行和并行环境使

用相同的SQL语句)即可移到新的操作环境中。

(6)性能/价格比:因为它利用最新的并行技术,并只在成木收效值著的客户

服务器环境中操作•,而价格又很有竞争力,所以DB2UDBV7.2企业扩展版提

供了优异的性能/价格比。

(7)客户机/服务器的可管理性:在整个⑼络上散布着多台数据库服务器,其

引人注意的替代品可以是单一大规模并行数据库服务器。把多个系统合并到一个

地点,使之成为一个MPP机群,可以减少系统管理开支和增加可用性。当出现

故障时,可将其隔离到独立节点上,修及时系统运行不会中断,

(3)DB2UDBV7.2企业扩展版支持的硬件平台

DB2UDBV7.2企业扩展版可以在由IBMRS/6000AIXxWindowsNT/2000.

SUNSparcSolaris.HP/9000HP-UX等操作系统平台的MPP力算机群集上运行,

组成群集中的每一个节点机即可以是但CPU的服务器,也可以是SMP服务器。

特别地,对于具TT较多CPU的服务器,可以将其分解多个DB2EEE逻辑节点,

与其它服务制一起运行DB2EEE。

各种硬件平台的DB2EEE的SQL、API、管理和开发工具以及价格都是完全

相同的。

D集成的数据库管理工具:ControlCenter等

DB2UDBV7.2的管理工具包括ControlCenter.AlterCenter.EventAnalyzer、

ScriptCenterxJournalCommandCenter,DB2Governor等。C

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论