(管理科学与工程专业论文)基于数据仓库的银行客户关系管理研究.pdf_第1页
(管理科学与工程专业论文)基于数据仓库的银行客户关系管理研究.pdf_第2页
(管理科学与工程专业论文)基于数据仓库的银行客户关系管理研究.pdf_第3页
(管理科学与工程专业论文)基于数据仓库的银行客户关系管理研究.pdf_第4页
(管理科学与工程专业论文)基于数据仓库的银行客户关系管理研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(管理科学与工程专业论文)基于数据仓库的银行客户关系管理研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华中科技大学硕士学位论文 摘要 本文针对当前我国银行业客户关系管理的发展现状,研究了基于数据仓库的 银行客户管理的实践和创新方向。中国银行业与外资银行的最大差距在于服务。 加入v r i o 以后,面对来自世界各国金融机构的巨大冲击,如何加强客户关系管 理,提高客户服务质量,是我国银行业亟待解决的问题。真正做到以客户为中心, 建立以数据仓库和数据挖掘为基础的客户关系管理系统,无疑是中国银行业提升 自身竞争实力的关键。一斗 本文首先从数据仓库基本概念入手,介绍了数据仓库与传统数据库的关系, 数据仓库中的数据组织以及一些关键技术。其次,文章讨论了客户关系管理的一 般概念,分析型客户关系管理与数据仓库、数据挖掘的关系以及数据仓库在银行 客户关系管理中的应用。再次,文章结合银行实际讨论了基于数据仓库的银行客 户关系管理系统的系统构成、系统设计、系统实施以及在具体实现中的要点。最 后,本文对比了国内外银行客户关系管理系统的应用现状,并对我国银行业如何 实施客户关系管理系统提出了建设性的意见。 通过本文的研究,说明了实施基于数据仓库的客户关系管理系统是我国银行 业提高自身竞争实力的必然选择,结合我国银行实际对实施客户关系系统进行了 深入研究,并提出了理性的思考和建议。本研究成果对于今后我国银行业客户关 系管理的研究有重要的参考价值。、j 关键词:客户关系管理,数据仓库,银倪 华中科技大学硕士学位论文 a b s t r a c t u n d e rt h ed e v e l o p i n gb a c k g r o u n do fb a n kc r m i nc h i n a , t h i sp a p e rh a ss t u d i e d t h et h e o r y , p r a c t i c ea n dt h ei n n o v a t i o nd i r e c t i o n so ft h eb a n kc r m b a s e do i ld a t a w a r e h o u s e t h eb i g g e s td i s a d v a n t a g eb e t w e e nt h ec h i n e s eb a n k sa n df o r e i g nb a n k s i s t h es e r v i c e h o wt os t r e n g t h e nc u s t o m e r r e l a t i o n s h i pm a n a g e m e n t a n d i m p r o v eq u a l i t y o fs e r v i c ei sa nu r g e n tp r o b l e mt h a tc h i n e s eb a n k sh a v et of a c e f o c u s i n go nc u s t o m e r a n de s t a b l i s h i n gc r m s y s t e mb a s e do nd a t aw a r e h o u s ea n dd a t am i n i n gi st h ek e y p o i n t t ol i f tc o m p e t i t i v ep o w e ro fc h i n e s eb a n k _ f i r s t l y , t h i sp a p e rd i s c u s s e ds o m e b a s i cc o n c e p t so f d a t aw a r e h o u s ea n dc r m , t h e r e l a t i o n s h i pb e t w e e nt h ed a t aw a r e h o u s ea n dt h et r a d i t i o n a ld a t a b a s e ,a n dt h ed a t a s t r u c t u r ea n ds o m ek e yt e c h n o l o g yo ft h ed a t a w a r e h o u s e s e c o n d l y , t h i sp a p e r d i s c u s s e ds o m eg e n e r a lc o n c e p t so fc r m ,t h er e l a t i o n s h i pb e t w e e nt h ea n a l y l i c a l c r m ,d a t aw a r e h o u s ea n dd a t am i n i n g , a n dt h ea p p l i c a t i o no fd a t aw a r e h o u s ei nt h e b a n kc r m s y s t e m t h i r d l y , t h i sp a p e rd i s c u s s e dt h es y s t e mc o n s t r u c t i o n , t h es y s t e m d e s i g n , a n dt h es y s t e mi m p l e m e n t a t i o no ft h eb a n kc r ms y s t e mb a s e do nd a t a w a r e h o u s e s o m ea s p e c t ss h o u l db es e r i o u s l yc o n s i d e r e di ni m p l e m e n t a t i o no ft h e b a n kc r m s y s t e m h a sa l s ob e e n d i s c u s s e d l a s t l y , t h i sp a p e rc o m p a r e d t h ea c t u a l i t yo f t h ec r m s y s t e ma p p l i c a t i o nb e t w e e nt h ec h i n e s eb a n k se n df o r e i g nb a n k s s o m e c o n s t r u c t i v es u g g e s t i o n so ft h ei m p l e m e n to ft h eb a n kc r m s y s t e mh a sa l s ob e e n b r i n gf o r w a r d e d a saw h o l e ,t h ed i s s e r t a t i o nc e r t i f i e dt h a tt a k i n gt h ec r m s y s t e mb a s e do nd a t a w a r e h o u s ei n t oe f f e c ti st h ec e r t a i nc h o i c ef o rc h i n e s e b a n k s ,s t u d i e d t h e i m p l e m e n t a t i o no ft h ec r ms y s t e mw h i c hi sc o m b i n e dw i t ht h ep r a c t i c e ,a n dg a v e s o m es e n s i b l et h i n k i n ga n ds u g g e s t i o n s w eh o p et h i sp a p e rw i l lh a v es o m ev a l u ef o r t h ef u t u r er e s e a r c ho f b a n kc r m s y s t e m k e y w o r d :c r m d a t aw a r e h o u s eb a n k 华中科技大学硕士学位论文 1 i 课题的研究背景 i 绪论 改革开放以来,中国金融业获得了突飞猛进的增长,但是由于长期以来的行 业垄断政策,银行长期处于保护状态,缺乏活力,银行的业务流程还是基于内部 管理和内部核算的需要,并没有把“以客户为中心”真正落到实处。在金融业竞 争日益激烈的今天,金融机构不断增多,市场进入买方状态。中国加入w t o 后, 银行业面l | 缶着同外国大金融机构竞争的局面,外国金融机构在诸多方面对中国同 业来说都存在着优势,尤其是在客户关系管理方面国外已有多年的经验,而国内 到目前为止,也只是刚组建了一些市场营销部门。如何向顾客提供真正的个性化 服务,如何建立一个大型的数据仓库系统来管理客户信息,至今还没有找出一条 好的办法。 但是时间不等人,面临着市场的激烈竞争和即将大举而入的外国金融机构, 国内金融机构实在是没有等的时间。随着网上银行和金融电子化的飞速发展,地 域的概念将缩小,国内银行所凭借的网点优势也显得并不那么重要。中国金融业 必须迅速转变经营观念,真正做到以客户满意为中心,加快客户关系管理c r m 的建设,刻不容缓! 中美两国政府双边协议对中国金融服务贸易的市场准入条件作了实质性规 定:外资银行在中国加入世界贸易组织两年后可从事人民币业务,2 0 0 5 年后可从 事零售银行业务:外国银行享有在中国境内各地区开展业务的权利;地域限制和 客户限制将在2 0 0 5 年前取消;外国银行可在中国设立分支机构。中国银行业面对 激烈竞争的准备时间只有5 年,5 年之后就不得不面对国外银行的直接竞争。 外国银行的经营规模庞大,资金实力雄厚,资产质量优良。如美国花旗银行 集团的资产已达到7 0 0 0 亿美元,相当于我国工、农、中、建四大国有商业银行资 华中科技大学硕士学位论文 产的总和。国外银行的科技化程度高。早在9 0 年代初,西方发达国家的商业银 行就已大致实现了业务处理的规范化、办公事务的自动化和决策支持的智能化, 并在发展网上银行方面先行一步。1 9 9 7 年3 月“世界银行1 0 0 强”中7 0 的银行 在互联网上建立了网站,向客户提供网上支付服务。目前,全球约8 0 0 家银行加 入了互联网,其中1 0 0 多家可提供在线交易服务,美国和欧洲的4 0 家银行不仅向 客户提供网络票据支付服务,而且能够办理一揽子的在线交易业务。而中国银行 业的网上支付功能还是处于比较弱的水平。随着网上银行的兴起,中国银行业原 来具有的密集网点将不再成为优势,反而成了拖累。 我国加入世界贸易组织后,外资银行与我国商业银行的竞争在范围上将逐步 扩大,最终将全面铺开。从业务领域来看,外资银行将加大吸收企业外汇存款和 个人外汇储蓄的力度,造成国内银行外汇存款分流:以服务优势( 特别是电子化的 个人理财服务) 克服网点较少的劣势,下大力气增加人民币储蓄存款所占份额:以 汇款、托收和信用证业务为重点,争夺风险小、利润高的国际结算业务;巩固在 三资企业贷款业务方面已有的传统优势,同时拓展新的贷款业务领域;以信用卡 业务为核心和基础,发展综合性国际零售业务;并开办各种风险小、坏账少、收 益稳定的个人消费信贷业务。 从客户群体来看,外资银行与国内银行将展开对“黄金客户”的争夺。在公 司银行业务方面,主要包括跨国公司、外商独资企业、中外合资企业及中国的外 向型企业、大型集团公司、高新科技企业。在个人银行业务方面,主要是那些有 比较稳定的工作和收入、受过高等教育、个人理财愿望比较强、容易接受新鲜事 物的客户。这些“黄金客户”多见于我国经济相对发达地区,而这些地区正是外 资银行到中国“抢滩”的登陆之地,并且这些客户最有可能率先接受网上银行, 这有利于外资银行发挥其电子化金融服务的优势。 中国银行业与国外银行最大的差距在于服务。在客户关系管理方面,国外已 有将近二十年的历史。西方银行业一直处于比较激烈的竞争状态,在客户服务方 2 华中科技大学硕士学位论文 面积累了相当的经验。而中国银行业刚从计划经济时期转变过来,对“以客户为 中心”的理解一直处于表面状态,不能够深入的了解客户的需求,长期以来对客 户实行无差别服务策略,不能够抓住真正的赢利客户,进行区别对待,为客户提 供一对一的服务。银行的数据库中积累了大量的客户信息,但是缺乏一套行之有 效的数据挖掘系统进行信息分析,甚至连同一客户的不同账户也无从辨别,更不 , 用说为客户提供一对一的服务。银行的各种数据不能有效结合,形成了很多“信 息孤岛”,使金融机构很难将各种各样的客户信息统一起来,领导决策层也很难搞 清楚数据库系统的整体运作情况,不能有效的提供决策帮助。 1 2 课题的研究意义 对于信息技术应用十分普及的商业银行而言,以数据仓库和数据挖掘为基础 的c r m 具有十分重要的作用。例如,能帮助银行准确地发现目前为银行创造效 益的客户和具有创造效益潜力的客户,能支持银行前台网点预测和分析客户的消 费倾向和离开银行的风险,并能帮助银行开发适应消费者需求的新产品,为银行 保留客户提供有效的手段。具体地讲,数据仓库和数据挖掘技术的运用和c r m 的实施在商业银行经营管理中的作用表现在以下几方面: ( 1 ) 有助于银行了解自身的经营状况。 商业银行高效、安全经营的前提和基础就是其决策者对自身经营状况有一个 全面的了解和认识。数据仓库和数据挖掘技术为商业银行及时、准确、全面地掌 握自己的资产数量及其分布、头寸调度情况、信贷资产分布情况、客户的信用情 况等,提供了必须的服务手段和有力的技术支撑。 美国银行家杂志对美国商业银行的调查表明,有3 0 的美国商业银行能 准确地说出谁是他们盈利来源最多的客户,有2 0 的美国商业银行能在l o 分钟 之内讲清楚重要的银行客户使用了多少种银行产品,而这些银行比较优势的获得 全都得益于高效先进的数据仓库和数据挖掘技术基础上c r m 的应用。 华中科技大学硕士学位论文 ( 2 ) 有助于银行拓展新市场。 在数据仓库和数据挖掘技术的帮助下,商业银行可以按照客户为银行创造盈 利的多少和盈利潜在可能性的大小将自己的客户进行分类,进而根据不同客户以 往的消费习惯,预测其未来的消费倾向,并结合外部经济、人口统计等相关数据 预测未来的市场发展趋势。通过这种分析,一方面可以使银行把握市场动态,开 发出新产品占领市场,另一方面可以使银行针对不同贡献度的客户采取不同的营 销策略,推出不同的产品和服务,从而获得尽可能大的“深度效益”。 根据国外商业银行的经验,在金融市场开放环境中,银行竞争优势的来源是 对每一位客户提供个性化服务。然而银行有千百万的客户( o n em i l l i o n o f c u s t o m e r s ) ,如何将客户细分到一百万个单一市场( m i l l i o n o f o n e c u s t o m v r ) 呢? 也 就是如何设计大量定制化( m a s sc u s t o m v f i z a t i o n ) 的产品或服务。银行只有通过以 客户为中 = , ( c u s t o m e rc e n 妇) 的决策支持系统,才能使用科学的方法实现个性化 服务。数据仓库系统存放每一位客户同银行往来的详细的历史交易明细数据,对 客户有统一的规划,能帮助银行业务用户以科学的手段快速地分析、模拟和预测 客户的个性化需求,进而设计符合客户需求的产品或服务。通过客户喜好的渠道 完成交易,是增强商业银行竞争能力最有效的手段。在数据仓库和数据挖掘技术 的帮助下,商业银行可以按照客户为银行创造盈利的多少和盈利潜在可能性的大 小将自己的客户进行分类,进而根据不同客户以往的消费习惯,预测其未来的消 费倾向,并结合外部经济、人口统计等相关数据预测未来的市场发展趋势。 美国k e y c o r p 银行的首席信息执行官曾在信息周刊上讲过:“如果我们 看到某个客户在分期付款购买汽车时很快就要付最后一笔款,我们可以根据这类 客户的消费模式预测出这位客户很可能会在六个月之内再购买一辆汽车。于是我 们便可以及时准确并且抢先让这位客户知道,我们银行会有特别优惠的汽车贷款 利率给他,我们马上便会寄去我们银行购买汽车分期付款的宣传品。”这是美国商 业银行c r m 应用的一个实例,反映出美国商业银行善于运用新技术抢占市场的 能力和竞争潜在客户的良好市场意识。 4 l 华中科技大学硕士学位论文 ( 3 ) 有助于银行经营管理中的决策支持。 商业银行经营管理方案的确定和未来战略决策的产生,都是以对现实的分析 和对未来的预测为基础的,都是要以准确的数字为依据的。借助数据仓库和数据 挖掘技术对不同银行产品的盈利性和风险性进行分析,c r m 系统为商业银行提供 了综合运行在不同平台上的业务数据、结合外部信息汇集在一起萃取出银行策略 的途径。 ( 4 ) 有助于银行的风险防范。 c r m 系统的应用可使商业银行随时调用与自己有业务往来的客户的历史和 现实业务数据,并能据此推断出客户信用情况,为商业银行减少内部经营风险创 造了条件,与此同时,在结合社会外部环境相关经济数据的基础上,数据挖掘还 可以帮助商业银行掌握同业经营状况和国际经济发展趋势,减少外部经营风险。 ( 5 ) 实现个性化服务。 银行现有的管理制度和业务流程,都是以账号( a c c o u n t - - n o ) 为中心来进行客 户服务,不同的帐号信息分散在不同的计算机系统内,缺乏对客户统一全面的了 解。现有的生产系统是银行营运和客户服务的基础设施,无法提供多用户对大量 历史数据同时进行突发的复杂的决策分析,所以建立另外一套以客户为中心的数 据仓库决策支持系统是实现个性化服务的必要手段。 1 3 论文结构 本文是这样组织的:首先,本文第2 章综述了数据仓库、o l a p 和数据挖掘 技术的一些基本概念。本文第3 章讨论了c r m 的一些基本概念以及数据仓库技 术在银行c r m 中的应用。第4 章在结合银行实际讨论了基于数据仓库的c r m 的 实旖步骤,提出了一个系统的设计方案,并且讨论了在具体实现中的要点。最后 第5 章进行了总结,讨论了国内外的应用现状,并对基于数据仓库的c r m 应用 作了展望。 二, 。华中科技大学硕士学位论文 2 数据仓库技术 数据仓库是近年来兴起的一种新的数据库应用。在各大数据库厂商纷纷宣布 产品支持数据仓库并推出一整套用以建立和使用数据仓库的产品时,业界掀起了 数据仓库热。对我国许多企业而言,在建立或发展自己的信息系统常常困扰于这 样的问题:为什么要在原有的数据库上建立数据仓库? 数据仓库能否代替传统的 数据库? 怎样建立数据仓库? 等等。本章将简要介绍一下用到的数据仓库技术背 景,并在下一章结合银行c r m ,更进一步阐述数据仓库技术在现实中的重大意义。 2 1 从数据库到数据仓库 数据库技术所研究的问题就是如何科学地组织和储存数据,如何高效地获取 和处理数据【l 】。传统的数据库技术是以单一的数据资源,即数据库为中心,进行 事务处理、批处理、决策分析等各种数据处理工作,主要的划分为两大类:操作 型处理和分析型处理( 或信息型处理) 。操作型处理也叫事务处理,是指对数据库 联机的日常操作,通常是对一个或一组纪录的查询和修改,主要为企业的特定应 用服务的,注重响应时间,数据的安全性和完整性;分析型处理则用于管理人员 的决策分析,经常要访问大量的历史数据。而传统数据库系统长于企业的日常事 务处理工作,而难于实现对数据分析处理要求,已经无法满足数据处理多样化的 要求。操作型处理和分析型处理的分离成为必然。 近年来,随着数据库技术的应用和发展,人们尝试对d b 中的数据进行再加 工,形成一个综合的,面向分析的环境,以更好支持决策分析,从而形成了数据 仓库技术( d a t aw a r e h o u s i n g ,简称d w ) 。作为决策支持系统( d e c i s i o n - m a k i n g s u p p o r ts y s t e m ,简称d s s ) ,数据仓库系统删包括: ( 1 ) 数据仓库技术: ( 2 ) 联机分析处理技术( o n = l i n ea n a l y t i c a lp r o c e s s i n g ,简称o l a f ) ( 3 ) 数据挖掘技术( d a t a m i n i n g ,简称d i v l ) ; 6 i 华中科技大学硕士学位论文 数据仓库弥补了原有的数据库的缺点,将原来的以单一数据库为中心的数据 环境发展为一种新环境:体系化环境。如图2 1 所示: 操作型环境 全局级部门级个人级 r l - _ - - - - - - - _ - - - - - _ - - - - - - 注:箭头表示数据抽取的方向 图2 - - 1 数据仓库体系化环境 2 1 1 什么是数据仓库 业界公认的数据仓库概念创始人w i - i i n m o n p 在建立数据仓库一书中对 数据仓库的定义是:数据仓库就是面向主题的、集成的、不可更新的( 稳定性) 、 随时间不断变化( 不同时间) 的数据集合,用以支持经营管理中的决策制定过程。 数据仓库中的数据面向主题,与传统数据库面向应用相对应,主题是一个在较高 层次上将数据归类的标准,每一个主题对应一个宏观的分析领域;数据仓库的集 成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据 仓库的关键步骤,首先要统一原始数据中的矛盾之处,还要将原始数据结构做一 个从面向应用向面向主题的转变;数据仓库的稳定性是指数据仓库反映的是历史 数据,而不是日常事务处理产生的数据,数据经加工和集成进入数据仓库后是极 少或根本不修改的;数据仓库是不同时间的数据集合,它要求数据仓库中的数据 保存时限能满足进行决策分析的需要,而且数据仓库中的数据都要标明该数据的 历史时期。 数据仓库最根本的特点是物理地存放数据,而且这些数据并不是最新的、专 有的,而是来源于其它数据库的。数据仓库的建立并不是要取代数据库,它要建 , 华中科技大学硕士学位论文 立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,而事务处 理数据库在企业的信息环境中承担的是日常操作性的任务。数据仓库是数据库技 术的一种新的应用,而且到目前为止,数据仓库还是用关系数据库管理系统来管 理其中的数据。 2 1 2 数据仓库的产生 计算机系统的功能从数值计算扩展到数据管理距今已有三十多年了。最初的 数据管理形式主要是文件系统,少量的以数据片段之间增加一些关联和语义而构 成层次型或网状数据库,但数据的访问必须依赖于特定的程序,数据的存取方式 是固定的、死板的。到了1 9 6 9 年,e f c o d d q 博士发表了他著名的关系数据模型 的论文。此后,关系数据库的出现开创了数据管理的一个新时代。 近几十年来,大量新技术、新思路的涌现出来并被用于关系型数据库系统的 开发和实现:客户服务器系统结构、存储过程、多线程并发内核、异步i o 、代 价优化,等等,这一切足以使得关系数据库系统的处理能力毫不逊色于传统封闭 的数据库系统。而关系数据库在访问逻辑和应用上所带来的好处则远远不止这些, s q l 的使用已成为一个不可阻挡的潮流,加上近些年来计算机硬件的处理能力呈 数量级的递增,关系数据库最终成为联机事务处理系统的主宰。 整个8 0 年代直到9 0 年代初,联机事务处理一直是数据库应用的主流。然而, 应用在不断地进步。当联机事务处理系统应用到一定阶段后,用户便发现单靠拥 有联机事务处理已经不足以获得市场竞争的优势,他们需要对其自身业务的运作 以及整个市场相关行业的情况进行分析,而做出有利的决策。这种决策需要对大 量的业务数据包括历史业务数据进行分析才能得到。在如今这样激烈的市场竞争 环境下,这种基于业务数据的决策分析,我们把它称为联机分析处理,比以往任 何时候都显得更为重要。如果说传统联机事务处理强调的是更新数据库向数 据库中添加信息,那么联机分析处理就是从数据库中获取信息、利用信息。因此, 华中科技大学硕士学位论文 著名的数据仓库专家r a l p hk i m b a l l 5 1 写道:“我们花t _ - 十多年的时间将数据放入 数据库,如今是该将它们拿出来的时候了。” 事实上,将大量的业务数据应用于分析和统计原本是一个非常简单和自然的 想法。但在实际的操作中,人们却发现要获得有用的信息并非如想象的那么容易, 这主要表现在以下几点: ( i ) 所有联机事务处理强调的是密集的数据更新处理性能和系统的可靠性, 并不关心数据查询的方便与快捷。联机分析和事务处理对系统的要求不同,同一 个数据库在理论上都难以做到两全。 ( 2 ) 业务数据往往存放于分散的异构环境中,不易统一查询访问,而且还有 大量的历史数据处于脱机状态,形同虚设。 ( 3 ) 业务数据的模式针对事务处理系统而设计,数据的格式和描述方式并不 适合非计算机专业人员进行业务上的分析和查询。 因此有人感叹:2 0 年前查询不到数据是因为数据太少了,而今天查询不到数 据是因为数据太多了。针对这一问题,人们设想专门为业务的统计分析建立一个 数据中心,它的数据从联机的事务处理系统中来、从异构的外部数据源来、从脱 机的历史业务数据中来。这个数据中心是一个联机的系统,它是专门为分析 统计和决策支持应用服务的,通过它可以满足决策支持和联机分析应用所要求的 一切。这个数据中心就叫做数据仓库。这个概念在9 0 年代初被提出来。如果需要 给数据仓库一个定义的话,那么数据仓库就是一个作为决策支持系统和联机分析 应用数据源的结构化数据环境。数据仓库所要研究和解决的问题就是从数据库中 获取信息的问题。 那么数据仓库与数据库( 主要指关系数据库) 又是什么关系呢? 回想当初,人们 固守封闭式系统是出于对事务处理的偏爱,人们选择关系数据库是为了方便地获 得信息。我们只要翻开c j d a t e 6 q 博士的经典之作( a ni n t r o d u c t i o nt od a t a b a s e s y s t e m s ) ) 便会发现:今天数据仓库所要提供的正是当年关系数据库所要倡导的。 9 华中科技大学硕士学位论文 然而,由于关系数据库系统在联机事务处理应用中获得的巨大成功,使得人们已 不知不觉将它划归为事务处理的范畴;过多地关注于事务处理能力的提高,使得 关系数据库在面对联机分析应用时又遇到了新的问题今天的数据仓库对关系 数据库的联机分析能力提出了更高的要求,采用普通关系型数据库作为数据仓库 在功能和性能上都是不够的,它们必须有专门的改进。因此,数据仓库与数据库 的区别不仅仅表现在应用的方法和目的方面,同时也涉及到产品和配置上的不同。 以辨证的眼光看,数据仓库的兴起实际是数据管理的一种回归,是螺旋式的 上升。今天的数据库就好比当年的层次数据库和网状数据库,它们面向事务处理: 今天的数据仓库就好比是当年的关系数据库,它针对联机分析。所不同的是,今 天的数据仓库不必再为联机事务处理的特性而无谓奔忙,由于技术的专业化,它 可更专心于联机分析领域的发展和探索。 数据仓库的概念一经出现,就首先被用于金融、电信、保险等主要传统数据 处理密集型行业。国外许多大型的数据仓库在1 9 9 6 - 1 9 9 7 年建立。那么,什么样 的行业最需要和可能建立数据仓库呢? 有两个基本条件:第一,该行业有较为成 熟的联机事务处理系统,它为数据仓库提供客观条件;第二,该行业面临市场竞 争的压力,它为数据仓库的建立提供外在的动力。 2 2 数据仓库中的数据组织 数据仓库中数据的四个基本特征在前面已经介绍过了,下面就要分析清楚这 些问题:数据仓库存储哪些数据呢? 数据如何组织,存储? 组织形式有哪些? 等 等。通过对数据仓库中存放的数据内容及其组织形式的介绍,本节将对这些问题 做出回答,以加深对数据仓库数据四个基本特征的理解a 2 2 1 数据仓库的数据组织结构 一个典型的数据仓库的数据组织结构【7 l 如图2 - 2 所示: 华中科技大学硕士学位论文 数据仓库中的数据分为四个级别:早期细节级、当前细节级、轻度综合级、 高度综合级嘲。源数据经过综合后,首先进入当前细节级,并根据具体需要进行 进一步的综合,从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细 节级由此可见,数据仓库中存在着不同的综合级别,一般称之为“粒度”。粒度越 大,表示细节程度越低,综合程度越高。 图2 - 2d w 数据组织结构 高度综合级 轻度综合级 当前细节级 早期细节级 数据仓库中还有一种重要的数据元数据( m e t a d a t a ) 。元数据是“关于数 据的数据” 9 , 1 0 l ,传统数据库中的数据字典就是一种元数据。在数据仓库环境下, 主要有两种元数据:第一种是为了从操作性环境向数据仓库转化而建立的元数据, 包含了所有源数据项名、属性及其在数据仓库中的转化;第二种元数据在数据仓 库中是用来和终端用户的多维商业模型前端工具之间建立映射,此种元数据称之 为d s s 元数据,常用来开发更先进的决策支持工具。 华中科技大学硕士学位论文 2 2 2 粒度与分割 1 ) 粒度 所谓粒度,与数据仓库的结构有关,是指在数据仓库中一组数据单元所包含 数据的详尽程度【n , 1 2 1 。数据内容越详细,其粒度层就越低。数据内容的汇总程度 越概括,其粒度层次就越高。粒度可以分为两种形式,第一种粒度是对数据仓库 中的数据的综合程度高低的一个度量,它既影响数据仓库中的数据量的多少,也 影响数据仓库所能回答询问的种类。在数据仓库中,多维粒度是必不可少的。由 于数据仓库的主要作用是d s s 分析,因而绝大多数查询都基于一定程度的综合数 据之上的,只有极少数查询涉及到细节。所以应该将大粒度数据存储于快速设备 如磁盘上,小粒度数据存于低速设备如磁带上。 还有一种粒度形式,即样本数据库。它根据给定的采样率从细节数据库中抽 取出一个子集。这样样本数据库中的粒度就不是根据综合程度的不同来划分的, 而是有采样率的高低来划分,采样粒度不同的样本数据库可以具有相同的数据综 合程度。 2 ) 分割 分割是数据仓库中的另一个重要概念,它的目的同样在于提高效率。它是将数 据分散到各自的物理单元中去,以便能分别独立处理。有许多数据分割的标准可供 参考:如日期、地域、业务领域等等,也可以是其组合。一般而言,分割标准总应包 括日期项,它十分自然而且分割均匀。 2 2 3 数据仓库的数据组织形式 这里简单介绍数据仓库中常见的数据组织形式: ( 1 ) 简单堆积文件:它将每日由数据库中提取并加工的数据逐天积累并存储 起来。 ( 2 ) 轮转综合文件:数据存储单位被分为日、周、月、年等几个级别。在一 华中科技大学硕士学位论文 个星期的七天中,数据被逐一记录在每日数据集中;然后,七天的数据被综合并记 录在周数据集中:接下去的一个星期,日数据集被重新使用,以记录新数据。同 理,周数据集达到五个后,数据再一次被综合并记入月数据集。以此类推。轮转综 合结构十分简捷,数据量较简单堆积结构大大减少。当然,它是以损失数据细节 为代价的,越久远的数据,细节损失越多。 ( 3 ) 简化直接文件:它类似于简单堆积文件,但它是问隔一定时间的数据库 快照,比如每隔一星期或一个月作一次。 ( 4 ) 连续文件:通过两个连续的简化直接文件,可以生成另一种连续文件, 它是通过比较两个简单直接文件的不同而生成的。当然,连续文件同新的简单直 接文件也可生成新的连续文件。 对于各种文件结构的最终实现,在关系数据库中仍然要依靠“表”这种最基 本的结构。 2 2 4 数据仓库的数据追加 如何定期向数据仓库追加数据也是一个十分重要的技术。我们知道擞据仓库 的数据是来自o l t p 的数据库中,问题是我们如何知道究竟哪些数据是在上一次 追加过程之后新生成的。常用的技术和方法有: 1 ) 时标方法:如果数据含有时标,对新插入或更新的数据记录,在记录中加 更新时的时标,那么只需根据时标判断即可。但并非所有的数据库中的数据都含 有时标。 2 ) d e l t a 文件:它是由应用生成的,记录了应用所改变的所有内容。利用 d e l t a 文件效率很高,它避免了扫描整个数据库,但同样的问题是生成d e l t a 文件的应用并不普遍。此外,还有更改应用代码的方法,使得应用在生成新数据 时可以自动将其记录下来。但应用成千上万,且修改代码十分繁琐,这种方法很 难实现。 华中科技大学硕士学位论文 3 ) 前后映像文件的方法:在抽取数据前后对数据库各作一次快照,然后比较 两幅快照的不同从而确定新数据。它占用大量资源,对性能影响极大,因此并无 多大实际意义。 4 ) 日志文件:最可取的技术大概是利用日志文件了,因为它是d b 的固有机 制,不会影响o u - p 的性能。同时,它还具有d e l t a 文件的优越性质,提取数 据只要局限日志文件即可,不用扫描整个数据库。当然,原来日志文件的格式是依 据d b 系统的要求而确定的,它包含的数据对于数据仓库而言可能有许多冗余。 比如,对一个记录的多次更新,日志文件将全部变化过程都记录下来:而对于数 据仓库,只需要最终结果。但比较而言,日志文件仍然是最可行的一种选择。 2 3 数据仓库的关键技术 那么,数据仓库都有哪些组成部分和关键技术呢? 与关系数据库不同,数据 仓库并没有严格的数学理论基础,它更偏向于工程。由于数据仓库的这种工程性, 因而在技术上可以根据它的工作过程分为:数据的抽取、存储和管理、数据的表 现等三个方面。为此,我们将分别讨论每一个环节。 2 3 1 数据的抽取 数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境, 它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储 介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、 调度和监控等几个方面。数据仓库的数据并不要求与联机事务处理系统保持实时 的同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、 成败对数据仓库中信息的有效性则至关重要。 在技术发展上,数据抽取所涉及的单个技术环节都已相对成熟,其中有一些 是躲不开编程的,但整体的集成度还很不够。目前市场上所提供的大多是数据抽 1 4 华中科技大学硕士学位论文 取工具。这些工具通过用户选定源数据和目标数据的对应关系,会自动生成数据 抽取的代码。但数据抽取工具支持的数据种类是有限的,同时数据抽取过程涉及 数据的转换,它是一个与实际应用密切相关的部分,其复杂性使得不可嵌入用户 编程的抽取工具往往不能满足要求。因此,实际的数据仓库实施过程中往往不一 定使用抽取工具。整个抽取过程能否因工具的使用而纳入有效的管理、调度和维 护则更为重要。从市场发展来看,以数据抽取、异构互连产品为主项的数据仓库 厂商一般都很有可能被其它拥有数据库产品的公司吞并。在数据仓库的世界里, 它们只能成为辅助的角色。 2 3 2 数据的存储和管理 数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了 它有别于传统数据库的特性,同时也决定了其对外部数据表现形式。要决定采用 什么产品和技术来建立数据仓库核心,则需要从数据仓库的技术特点着手分析。 数据仓库遇到的第一个问题是对大量数据的存储和管理。这里所涉及的数据 量比传统事务处理大得多,且随时间的推移而累积。从现有技术和产品来看,只 有关系数据库系统能够担当此任。关系数据库经过近3 0 年的发展,在数据存储和 管理方面已经非常成熟,非其它数据管理系统可比。目前不少关系数据库系统已 支持数据分割技术,能够将一个大的数据库表分散在多个物理存储设备中,进一 步增强了系统管理大数据量的扩展能力。采用关系数据库管理数百个g b 甚至到 t b 的数据已是一件平常的事情。一些厂商还专门考虑大数据量的系统备份问题, 好在数据仓库对联机备份的要求并不高。 。 数据仓库要解决的第二个问题是并行处理。在传统联机事务处理应用中,用 户访问系统的特点是短小而密集:对于一个多处理机系统来说,能够将用户的请 求进行均衡分担是关键,这便是并发操作。而在数据仓库系统中,用户访问系统 的特点是庞大而稀疏,每一个查询和统计都很复杂,但访问的频率并不是很高。 华中科技大学硕士学位论文 此时系统需要有能力将所有的处理机调动起来为这一个复杂的查询请求服务,将 该请求并行处理。因此,并行处理技术在数据仓库中比以往更加重要。 大家可以注意一下,在针对数据仓库的t p c d 基准测试中,比以往增加了一 个单用户环境的测试,成为“系统功力”( q p p d ) 。系统的并行处理能力对q p p d 的值有重要影响。目前,关系数据库系统在并行处理方面已能做到对查询语句的 分解并行、基于数据分割的并行、以及支持跨平台多处理机的群集环境和m p p 环境,能够支持多达上百个处理机的硬件系统并保持性能的扩展能力。 数据仓库的第三个问题是针对决策支持查询的优化。这个问题主要针对关系 数据库而言,因为其它数据管理环境连基本的通用查询能力都还不完善。在技术 上,针对决策支持的优化涉及数据库系统的索引机制、查询优化器、连接策略、 数据排序和采样等诸多部分。普通关系数据库采用b 树类的索引【1 3 】,对于性别、 年龄、地区等具有大量重复值的字段几乎没有效果。而扩充的关系数据库则引入 了位图索引的机制,以二进制位表示字段的状态,将查询过程变为筛选过程,单 个计算机的基本操作便可筛选多条记录。由于数据仓库中各数据表的数据量往往 极不均匀,普通查询优化器所得出得最佳查询路径可能不是最优的。因此,面向 决策支持的关系数据库在查询优化器上也作了改进,同时根据索引的使用特性增 加了多重索引扫描的能力。 以关系数据库建立的数据仓库在应用时会遇到大量的表问连接操作,而连接 操作对于关系数据库来说是一件耗时的操作。扩充的关系数据库中对连接操作可 以傲预先的定义,我们称之为连接索引【1 4 1 ,使得数据库在执行查询时可直接获取 数据而不必实施具体的连接操作。数据仓库的查询常常只需要数据库中的部分记 录,如最大的前5 0 家客户,等等。普通关系数据库没有提供这样的查询能力,只 好将整个表的记录进行排序,从而耗费了大量的时间。决策支持的关系数据库在 此做了改进,提供了这一功能。此外,数据仓库的查询并不需要像事务处理系统 那样精确,但在大容量数据环境中需要有足够短的系统响应时间。因此,一些数 1 6 华中科技大学硕士学位论文 据库系统增加了采样数据的查询能力,在精确度允许的范围内,大幅度提高系统 查询效率。 总之,将普通关系数据库改造成适合担当数据仓库的服务器有许多工作可以 做,它已成为关系数据库技术的一个重要研究课题和发展方向。可见,对于决策 支持的扩充是传统关系数据库进入数据仓库市场的重要技术措施。 数据仓库的第四个问题是支持多维分析的查询模式,这也是关系数据库在数 据仓库领域遇到的最严嫒的挑战之一。用户在使用数据仓库时的访问方式与传统 的关系数据库有很大的不同。对于数据仓库的访问往往不是简单的表和记录的查 询,而是基于用户业务的分析模式,即联机分析 1 s , 1 6 1 ,如图2 3 所示。它的特点 是将数据想象成多维的立方体,用户的查询便相当于在其中的部分维( 棱) 上施加 条件,对立方体进行切片、分割,得到的结果则是数值的矩阵或向量,并将其制 成图表或输入数理统计的算法。 图2 - 3 联机分析数据处理示意圈 关系数据库本身没有提供这种多维分析的查询功能,而且在数据仓库发展的 早期,人们发现采用关系数据库去实现这种多维查询模式非常低效、查询处理的 过程也难以自动化。为此,人们提出了多维数据库的概念。多维数据库是一种以 多维数据存储形式来组织数据的数据管理系统,它不是关系型数据库,在使用时 需要将数据从关系数据库中转载到多维数据库中方可访问。采用多维数据库实现 的联机分析应用我们称之为m o l a p 。多维数据库在针对小型的多维分析应用有 较好的效果,但它缺少关系数据库所拥有的并行处理及大规模数据管理扩展性, 1 7 华中科技大学硕士学位论文 因此难以承担大型数据仓库应用。这样的状态直到“星型模式”在关系数据库设 计中得到广泛的应用才彻底改变。几年前,数据仓库专家们发现,关系数据库若 采用星型模式来组织数据就能很好地解决多维分析的问题。星型模式只不过是数 据库设计中数据表之间的种关联形式,它的巧妙之处在于能够找到一个固定的 算法,将用户的多维查询请求转换成针对该数据模式的标准s q l 语句,而且该语 句是最优化的。星型模式的应用为关系数据库在数据仓库领域打开绿灯。采用关 系数据库实现的联机分析应用称为r o l a p 。目前,大多数厂商提供的数据仓库 解决方案都采用r o l a p 。 2 3 3 数据的表现 数据的表现是数据仓库的门面。它们主要集中在多维分析、数理统计和数据 挖掘方面。 多维分析是数据仓库的重要表现形式,由于m o l a p 系统是专用的,因此, 关于多维分析领域的工具和产品大多是r o l a p 工具。这些产品近两年来更加注 重提供基于w e b 的前端联机分析界面,而不仅仅是网上数据的发布。 数理统计原本与数据仓库没有直接的联系,但在实际的应用中,客户需要通 过对数据的统计来验证他们对某些事物的假设,以进行决策。与数理统计相似, 数据挖掘与数据仓库也没有直接的联系,而且这个概念在现实中有些含混。数据 挖掘强调的不仅仅是验证人们对数据特性的假设,而且它更要主动地寻找并发现 蕴藏在数据之中的规律。这昕起来虽然很吸引人,但在实现上却有很大的出入。 市场上许多数据挖掘工具其实不过是数理统计的应用。它们并不是真正寻找出数 据的规律,而是验证尽可能多的假设,其中包括许多毫无意义的组合,最后由人 来判断其合理性。因此,在当前的数据仓库应用中,有效地利用数理统计就已经 能够获得可观的效益。 华中科技大学硕士学位论文 2 4 数据仓库技术的进展 9 0 年代以来,计算机技术,尤其是数据库技术的发展为d s s 提供了技术支持: 激烈的市场竞争促进了高层次决策人员对d s s 的实际需求。两方面的共同作用, 促成了以d w 为核心、以o l a p 和d m 工具为手段建设d s s 的可行方案。数据 库技术的发展d w 需要以下数据库技术的支持: ( 1 ) 高性能数据库服务器。 d w 的应用不同于传统d b 的o l t p 应用。传统d b 的应用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论