(计算机软件与理论专业论文)数据仓库在银行信用卡业务中的应用研究.pdf_第1页
(计算机软件与理论专业论文)数据仓库在银行信用卡业务中的应用研究.pdf_第2页
(计算机软件与理论专业论文)数据仓库在银行信用卡业务中的应用研究.pdf_第3页
(计算机软件与理论专业论文)数据仓库在银行信用卡业务中的应用研究.pdf_第4页
(计算机软件与理论专业论文)数据仓库在银行信用卡业务中的应用研究.pdf_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 信用卡作为一种高收益高风险的金融产品,已经成为国内外商业银行激烈竞争的重 要业务。各家商业银行对信用卡业务管理水平的高低将直接影响到信用卡业务的利润, 如何有效地降低信用卡风险,提高信用卡赢利能力,是信用卡发卡银行亟待解决的问题 之一。通过构建银行信用卡数据仓库,可以将银行信用卡业务中的历史数据进行整合, 同时借助于联机分析处理和数据挖掘技术,为银行提供辅助的决策支持。 本文在研究银行信用卡数据仓库系统的建设中用到的主要理论和技术有数据仓库 中元数据的定义、管理和操作、粒度和分割、e t l 、数据追加、o l a p 、数据的存储和管 理以及数据表现等。 银行信用卡业务数据量大,对集成度和实时性要求较高,本文在综合考虑了多种方 案后,提出了基于x 数据模型增量式开发方法,设计了一个银行信用卡数据仓库系统。 具体分为概念模型设计、逻辑模型设计、物理模型设计和数据仓库的生成、运行与维护。 概念模型界定了数据仓库系统边界,确定了主题域。逻辑模型分析了主题域,确定了粒 度层次划分和数据分割策略。物理模型确定了数据的存储结构、索引策略和数据存放位 置。此方法有效的降低了开发成本,缩短了开发周期,并能及时根据反馈意见对数据仓 库进行完善和修改;使用螺旋式e t l 技术,很好地解决了数据的清洗、转换和装入,对 o l a p 提供了较好的支持,减少了o l a p 分析用时;最后以国内某银行的信用卡业务数据为 基础,提出了一个完整的构建银行信用卡业务数据仓库的实施方案,本方案用工程项目 管理的方法,给出了方案实施过程中每一步的目标、主要内容和最终成文列表,并对数 据仓库建设中出现的一些问题做了必要的探讨和说明,以期对国内其他银行和企业在建 立数据仓库时提供参考和借鉴。 关键词:数据仓库,e t l ,联机分析处理,数据挖掘,信用卡 a b s t r a c t c r e d i tc a r da sah i g h y i e l da n dh i g h - r i s kf i n a n c i a lp r o d u c t s ,h a sb e c o m eaf i e r c e c o m p e t i t i o ni n d o m e s t i ca n df o r e i g nc o m m e r c i a lb a n k si na ni m p o r t a n tb u s i n e s s v a r i o u sc o m m e r c i a lb a i l l ( so nc r e d i tc a r d b u s i n e s sm a n a g e m e n tl e v e lw i l ld i r e c t l ya f f e c t t h ep r o f i t so fc r e d i tc a r db u s i n e s s ,h o wt oe f f e c t i v e l yr e d u c e t h ec r e d i tr i s k ,i n c r e a s et h ep r o f i t a b i l i t yo fc r e d i tc a r di sac r e d i tc a r d i s s u i n gb a n ko n eo f t h ei s s u e st ob e s e t t l e du r g e n t l y c r e d i tc a r dt h r o u g ht h ec o n s t r u c t i o no fd a t aw a r e h o u s e ,y o uc a nb a n kc r e d i tc a r db u s i n e s s i nt h ei n t e g r a t i o no fh i s t o r i c a ld a t a ,a tt h es a m et i m et h r o u g ht h eu s eo fo n l i n ea n a l y t i c a lp r o c e s s i n ga n d d a t am i n i n gt e c h n o l o g y , a sp r o v i d e db yt h eb a n k a s s i s t e dd e c i s i o ns u p p o r t t h i sp a p e rs t u d i e sb a n kc r e d i tc a r di nt h ed a t aw a r e h o u s e s y s t e mu s e di nt h ec o n s t r u c t i o no ft h em a i n t h e o r i e sa n dt e c h n o l o g i e so fd a t aw a r e h o u s em e t a d a t ad e f i n i t i o n ,m a n a g e m e n ta n do p e r a t i o n ,s i z ea n d s e g m e n t a t i o n ,e t l ,a d d i t i o n a ld a t a ,o l a p , d a t as t o r a g ea n dm a n a g e m e n t ,a n dd a t ap e r f o r m a n c e b a n kc r e d i tc a r db u s i n e s s ,t h ea m o u n to fd a t a ,a n do nt h ei n t e g r a t i o na n dr e a l t i m eh i g ht h i sa r t i c l e t a k i n gi n t oa c c o u n tav a r i e t yo fo p t i o n s ,t h ep r o p o s e dd a t am o d e lb a s e do nxi n c r e m e n t a ld e v e l o p m e n t m e t h o d o l o g y , d e s i g no fab a n kc r e d i tc a r dd a t aw a r e h o u s es y s t e m c o n c e p t u a lm o d e li n t ot h ed e s i g no f c o n c r e t e ,l o g i c a lm o d e l i n g ,p h y s i c a lm o d e ld e s i g na n dd a t aw a r e h o u s eg e n e r a t i o n ,o p e r a t i o na n d m a i n t e n a n c e c o n c e p t u a lm o d e ld e f i n e st h ed a t aw a r e h o u s es y s t e mb o u n d a r y , t od e t e r m i n et h es u b j e c t d o m a i n l o g i cm o d e la n a l y s i so ft h es u b j e c td o m a i n ,t od e t e r m i n et h es i z ea n dd i v i s i o n 1 e v e ld a t a p a r t i t i o n i n gs t r a t e g y p h y s i c a lm o d e lt od e t e r m i n et h es t r u c t u r eo fd a t as t o r a g e ,i n d e x i n ga n dd a t as t o r a g e l o c a t i o ns t r a t e g y t h i sm e t h o di se f f e c t i v et or e d u c et h ed e v e l o p m e n tc o s t sa n ds h o r t e nt h e d e v e l o p m e n t c y c l e ,a n dt i m e l yf e e d b a c ko nt h eb a s i so fd a t aw a r e h o u s et oi m p r o v ea n dm o d i f y ;t h eu s eo fs p i r a le t l t e c h n o l o g y , av e r yg o o ds o l u t i o nt oad a t ac l e a n s i n g ,t r a n s f o r m a t i o na n dl o a d ,p r o v i d e do nt h eo l a pb e t t e r s u p p o r tt h eo l a pa n a l y s i st or e d u c et h et i m e ;f i n a l l y , ab a n k sd o m e s t i cc r e d i tc a r db u s i n e s sd a t a ,t o c o u s t r u e tac o m p l e t ed a t aw a r e h o u s eb a n kc r e d i tc a r db u s i n e s s ,t h ei m p l e m e n t a t i o no ft h ep r o g r a m ,t h e p r o g r a mu s e dt h em e t h o do fp r o j e c tm a n a g e m e n t ,i m p l e m e n t a t i o no ft h ep r o g r a mi sg i v e ne v e r ys t e po ft h e p r o c e s so b j e c t i v e s ,t h em a i nt a s ka n dd e l i v e r a b l e s ,a n dd a t aw a r e h o u s ec o n s t r u c t i o n ,s o m eo ft h ep r o b l e m s t od ot h en e c e s s a r yt oe x p l o r ea n de x p l a i n ,w i t hav i e wt oo t h e rb a n k sa n de n t e r p r i s e si nt h ee s t a b l i s h m e n t o fd a t aw a r e h o u s ew i l lp r o v i d er e f e r e n c ea n du s ef o rr e f e r e n c e k e y w o r d s :d w , e t l ,o l 嗵d m ,c r e d i t c a r d i v 独创性声明和关于论文使用授权的说明 独创性声明 本人郑重声明:所呈交的学位论文是我个人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了文中特j j , l , d n 以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得河 南师范大学或其他教育机构的学位或证书所使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢 意。 签名:日期: 关于论文使用授权的说明 本人完全了解河南师范大学有关保留、使用学位论文的规定,即:有 权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查 阅和借阅。本人授权河南师范大学可以将学位论文的全部或部分内容编入 有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编 学位论文。( 保密的学位论文在解密后适用本授权书) 签名: 导师签名:一日期: 第一章绪论 第一章绪论 1 1 研究背景 信用卡( c r e d i tc a r d ) ,是指由银行或信用卡公司向资信良好的个人和机构签发的 一种信用凭证,持卡人可在指定的特约商户购物或获得服务。信用卡既是发卡机构发放 循环信贷和提供相关服务的凭证,也是持卡人的信誉标志n 3 。 信用卡在欧美等西方发达国家和地区,现在已经成为一种相当成熟的金融产品,用 信用卡消费非常普及。据不完全统计,美国的信用卡发行量已经超过1 0 亿张,成年人持 卡比例超过8 0 ;信用卡消费占消费者日常支出比例为3 0 。在我国的宝岛台湾地区, 共有6 0 多家发卡银行,发卡量超过2 1 0 0 万张,成年人拥有信用卡的比例达到7 0 ,信用 卡消费占持卡人日常支出的比例为9 0 以上。我国的香港特别行政区拥有6 0 0 多万张信 用卡,成年人持卡比例达到7 3 ,信用卡消费占持卡人平常支出的比例为2 0 。 随着我国加入w t o ,特别是近几年来,我国银行信用卡业务得到了蓬勃发展。截至 2 0 0 8 年底,信用卡发卡量为1 4 2 3 2 9 万张,同比增长5 7 7 。信用卡期末信贷总额9 8 0 4 5 7 亿元,同比增长7 5 8 ,是2 0 0 6 年同期的3 2 倍;期末应偿信贷总额1 5 8 2 1 2 亿元,同比 增长1 1 0 9 ,是2 0 0 6 年同期的4 8 倍乜1 。 在成本收益和性用风险控制方面,信用卡业务具有很多不可替代的优秀品质。随着 货币电子化发展速度的提高,国内外各大商业银行已经形成共识,将信用卡业务作为一 种重要的金融工具,在银行的总业务量中所占的比重越来越大,比如美国的花旗银行, 她每年的交易额超过6 0 来自于信用卡业务。信用卡业务在国内的商业银行中已经开展 了多年,大部分银行都积累了较为真实和完备的原始数据,开始由简单的以量取胜向以 质取胜的过渡。 众所周知,获取最大的利润是商业银行经营的最终目标。对于信用卡业务来说,提 高质量和降低风险是银行取得利润最大化的关键,因此,在信用卡业务快速发展的今天, 银行的兴衰成败与信用卡业务的质量和收益可以说是休戚相关。 数据仓库( d a t aw a r e h o u s e ,简称d w ) 技术是在传统数据库的基础上对数据进行重 新组织,而不是对传统数据库的替代。d w 是随着关系数据库、并行处理和分布式技术的 飞速发展而提出的解决使用数据的一种新技术、新概念,它是目前已知的最为广泛采用 的解决方案。我们可以利用数据仓库整和银行内部所有分散的信用卡原始的业务数据, 数据仓库在银行信用卡业务中的应用研究 并通过便捷有效的数据访问手段,可以支持银行内部不同部门,不同需求,不同层次的 用户随时获得自己所需的信息,并能将网络中分布的历史数据集成到一起,用数据挖掘 ( d a t am i n i n g ,简称d m ) 和分析工具对数据仓库进行挖掘和分析,为银行决策者提供 有参考价值的决策支持。 1 2 国内外研究现状综述 国外银行业应用数据仓库技术相对较早,目前,在欧美等西方发达国家,大部分大 型企业几乎都建立了自己的数据仓库,超过6 0 的银行已经或正在构建自己数据仓库。 数据仓库的应用己遍及银行、保险、证券、电信、商业零售、税务、医疗保健业等各个 行业和部门,并在此基础上应用数据挖掘技术实现了决策辅助。 但对于国内银行业来说,数据仓库技术的应用则相对较晚,中国银行广东省分行在 1 9 9 6 年采用先进的d w o l a p 技术成功实施了数据仓库方案,荣获“八五”国家科技攻关 重大成果奖。2 0 0 8 年5 月2 9 日,“中国工商银行数据仓库全球战略研讨会”在北京成功 召开,工商银行软件开发中心的总工办总经理李兴双介绍了工商银行数据仓库的建设现 状和发展规划。他说,工商银行对信息化建设十分重视,成立了数据仓库领导小组,组 织并且培养了一支高度专业化的团队,采取循序渐进的方式,在建立全行统一的数据仓 库基础上,进一步推进数据的整合和共享,逐步开展客户关系管理、风险管理、财务和 绩效管理和监管报表等分析型应用系统的建设,为全行经营管理的变革提供决策支持。 国内其他的银行如中信银行、交通银行、中国农业银行等都正在或已经建立了数据仓库 系统。 1 3 研究的目的及意义 为了提升了银行整体的竞争实力,国内的商业银行在经历了数据大集中以后,已经 开始广泛地利用数据仓库技术改进银行业务处理和经营管理方法,以次来提高管理决策 的能力。但是大多银行对数据仓库的技术和建设策略认识不足,导致了数据仓库系统结 构不完善,开发过程混乱,对全面应用数据仓库,发挥数据最大价值显得滞后于数据大 集中。因此,深入研究数据仓库技术及其具体应用,建立结构性良好的数据仓库系统, 发挥自身优势,对中国银行业在市场竞争中立于不败之地具有重大的现实意义口m 3 。 同时由于对数据仓库认识的不足,银行在上马数据仓库项目的时候,往往不知从何 下手,觉得每个部门都需要改变,同时庞大的投资和随之而来的风险又让很多用户望而 生畏,进退两难。怎样科学合理地规划银行的信用卡数据仓库系统,用最小的投资和最 2 第一章绪论 短的周期开发出可用的数据仓库系统,是银行建立信用卡数据仓库的最理想方案,也是 数据仓库系统建设成败的关键。 通过建立银行信用卡数据仓库,可以对全行的信用卡业务数据进行集中存储和统一 管理,科学合理地对信息进行详细分类,及时准确收集信息和分析信息,确保管理层随 时掌握信用卡业务中的经营风险、运营情况和经营目标。在引入详细交易数据以后,可 以通过各种数据的关联分析,衡量各类客户的赢利能力、潜在价值、信用度和风险度等 指标,帮助银行识别不同的客户群体,确定目标市场,为实施差别化服务、产品合理定 价的策略提供技术支持。 我国信用卡业务正处于起步和快速发展时期,信用卡盈利管理和风险控制能力还比 较弱,信用卡业务数据缺乏科学统一的管理方法和分析工具,还不能实现对银行信用卡 业务提供辅助的决策支持。如何有效地清洗、集中、分析信用卡业务中的海量数据,建 立有效的银行信用卡数据仓库,为银行决策者提供决策支持,提高信用卡赢利能力和风 险管理能力,是本论文研究的目的和意义所在。 1 4 论文的主要内容、创新点和组织结构 论文以数据仓库理论为依据,从银行信用卡业务中的利润增长点和信用卡风险控制 与管理的具体应用出发,通过分析比较国内外银行业中数据仓库的应用现状,并根据我 国银行业信用卡业务的现状,按照数据仓库系统建设的常用方法,以我国建设银行某分 行的信用卡业务数据为基础,通过数据清洗、集中,逐步建立建设银行信用卡数据仓库, 并利用数据挖掘和分析工具,为银行决策者提供有效的决策支持,提高信用卡赢利能力 和风险管理能力, 本文拟研究解决的主要问题有以下三个方面: 第一,银行的信用卡业务为什么需要数据仓库。 第二,构建银行信用卡数据仓库的方法和步骤。 第三,在构建银行信用卡数据仓库时用到的主要理论和技术。 论文的创新之处主要体现在: 第一,银行信用卡业务数据量大,且对数据的集成度和实时性要求高,本文在综合 考虑了多种方案后,提出了基于x 数据模型增量式开发数据仓库的方法,降低了开发成 本,缩短了开发周期,并能及时根据反馈意见对数据仓库进行完善和修改。 第二,使用螺旋式e t l 技术,很好地解决了数据的清洗、转换和装入,对o l a p 提供了 数据仓库在银行信用卡业务中的应用研究 较好的支持,减少了o l a p 分析工具用时。 第三,以建设银行某分行的信用卡业务数据为基础,提出了一个完整的构建银行信 用卡数据仓库的实施方案,并对方案实施过程中遇到的问题给出了探讨和解决方法。 本文的内容组织如下: 第1 章绪论。概述了银行信用卡业务的特点,以及数据仓库在信用卡业务中应用的 必要性,最后介绍了本文所研究的主要问题、创新点和组织结构。 第2 章数据仓库技术。详细分析了数据仓库的定义,数据组织、数据仓库的系统结 构、关键的技术以及数据仓库相关工具,为信用卡数据仓库的建设提供了理论支持。 第3 章银行信用卡数据仓库系统设计。针对银行信用卡业务数据的特点,重点研究 了银行信用卡数据仓库的构建过程中的概念模型设计、技术准备工作、逻辑模型设计、 物理模型设计以及数据仓库的生成、使用和维护。 第4 章建设银行新乡市分行信用卡数据仓库实施方案。根据现有数据仓库模型,提 出了实施数据仓库的具体方案,包括每一步实施过程中的目标、主要任务和交付物品。 第5 章总结和展望。分析了针对实施信用卡数据仓库项目中应该注意的一些问题和 解决方法,并对今后的工作进行了展望。 4 第二章数据仓库技术 第二章数据仓库技术 2 1 数据仓库的定义 数据仓库的概念最初是美国信息工程学家w h i n m o n 博士在9 0 年代提出的,他认为: “一个数据仓库通常是一个面向主题的、集成的及随时间变化的,但信息本身又相对稳 定的数据集合,它用于对管理决策过程的支持。d 传统的数据库中的数据是面向应用 的,而数据仓库中的数据是面向主题的。数据仓库中的每一个主题都要与一个宏观的分 析领域相对应。而且主题是一个标准,是一个在较高层次上将数据归类的标准;数据仓 库概念中的集成性主要是指在原始数据进入数据仓库系统之前,要先对原始数据进行加 工和集成,这是数据仓库系统构建的关键一步;数据仓库的稳定性是指数据仓库反映的 不是日常事务处理产生的数据,而是历史数据的内容,这些数据进入数据仓库后很少发 生改变;由各个时间所产生的数据集合成的数据仓库,为了有效地支持决策分析,就需 要其中的数据保存要有时限性,更进一步来说就是要标出这些数据产生的历史时期。因 此可以说数据仓库更像一种过程,而不像一种产品。数据仓库就是对存储在企业各处的 数据进行整合、加工和分析的过程,。 根据w h i n m o n 博士对数据仓库的定义,能够看出数据仓库具有如下特征: 一面向主题。面向主题是指数据仓库中的数据首先要按照设定好的主题域进行数 据的组织,然后再根据按某一个主题进行联机分析处理或d s s 应用。主题是一个抽象的 概念,指用户在利用数据仓库进行决策支持分析时所关心的重点,通常一个主题可以与 多个具有操作性的信息系统相关。 二集成性。为保证数据仓库中数据的一致性,首先要将分散的原始数据进行抽取、 清洗和转换,之后进行数据的汇总和整理,而不是对原始分散数据的简单抽取和集中。 例如为了满足银行数据仓库对数据集成性的要求,当前国内主要商业银行都正在丌展或 己经完成了数据的简单集中,为数据仓库的应用打下了坚实的基础。 三时变性。时变性是指数据仓库中的数据是系统记录下来的企业的原始数据,可 能是各个阶段各个时段所产生的业务数据,而不是企业当前或某一个具体时段的数据。 通过对这些数据的挖掘和分析,可以有效地辅助企业的决策支持。 四数据的相对稳定性。数据的相对稳定性是指原始数据一旦加载进数据仓库,通 5 数据仓库在银行信用卡业务中的应用研究 常情况下都会被长期保存且不会被修改,所以数据的插入和查询在数据仓库中应用的 多,而修改和删除相对较少。 虽然当前大部分的数据仓库依然使用关系数据库管理系统来管理,但数据库并不会 被数据仓库所取代。数据仓库和数据库各有千秋、相辅相成。它们之间主要有以下几点 明显的区别: 1 数据库是面向事务的设计,数据仓库是面向主题设计的。 2 数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。 3 数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设 计是有意引入冗余,采用反范式的方式来设计。数据库是为捕获数据而设计,数据仓库 是为分析数据而设计,它的两个基本的元素是维表和事实表。 数据仓库还有一个比较重要的特点是物理地存放数据,而且这些数据是来源于其它 的数据库而不是最新的、专有的数据库阳1 。 2 2 数据仓库系统概述 以数据库为中心,进行事务处理、批处理等各种数据处理工作的传统数据库技术是 单一的数据资源,难于实现对数据分析处理,所以已经无法满足数据处理多样化的要求 口1 。数据仓库技术( d a t aw a r e h o u s e ,简称d w ) 是随着数据库技术的应用和发展而形成一 个综合的,面向分析的环境,能很好地支持决策分析。同时数据仓库也是决策支持系统 ( d e c i s i o ns u p p o r ts y s t e m ,简称d s s ) 的一个重要组成部分。数据仓库系统主要包括数 据仓库技术、联机分析处理技术( o n 一1i n ea n a l y t i c a lp r o c e s s i n g ,简称o l a p ) 和数据 挖掘技术( d a t am i n i n g ,简称d m ) 三个部分。 数据仓库是一种新的体系化环境。如图2 1 所示: 6 图2 - 1 数据仓库体系化环境 第二章数据仓库技术 2 2 1 数据仓库系统中的数据组织 一个典型的数据仓库的数据组织结构如图2 - 2 所示。 图2 2 数据仓厍的数据组织结构图 数据在数据仓库中的组织一般可以分为四个级别:高度综合级、轻度综合级、当前 细节级和早期细节级呻1 。原始数据经过抽取、清洗和转换后,一般先进入到当前细节级, 之后再根据相应主题的需要对数据进行进一步的集成和综合,使其能够进入轻度综合级 或高度综合级,早期细节级里存放那些老化的数据。数据仓库中的这种对数据的不同综 合级别,我们一般把它称之为“粒度”。粒度越大,表示综合程度越高,细节程度越低。 除了粒度之外,元数据( m e t a d a t a ) 也是数据仓库中的一种重要数据之一。元数据是 “关于数据的数据”。数据仓库中的元数据可以是代表定义数据仓库对象的任何东西, 无论是一个表、一个列、一个查询、一个商业规则,还是数据仓库内部的数据转移旧1 们。 元数据是数据仓库中所有管理、操作数据的数据,是数据仓库的核心。数据仓库反 映的是企业数据库的业务模型,其核心是管理元数据。数据仓库元数据被分成三类: 1 ) 管理元数据。它包括所有建立和使用数据仓库的信息,源数据库的描述,后端 和前端工具选择,定义数据仓库的模式,综合数据、维和层次信息,预定义的查询和报 表,数据集市的位置和内容,数据存储的物理组织、分段,数据抽取、清洗、转换的规 则,数据刷新的策略,数据存取的权限、用户等限定。 2 ) 业务元数据。这一部分有业务流程和定义、数据所有关系和存取控制策略。 3 ) 操作元数据。它是数据仓库在运行时的管理信息,记录数据在进行层次分析时 7 数据仓库在银行信用卡业务中的应用研究 的层次位置、现在数据仓库中的数据信息、监测信息( 包括使用统计、错误报告等) 。 数据仓库的数据组织方式共有三种:虚拟存储方式、基于关系表的存储和多维数据 库存储方式。 虚拟存储方式是虚拟数据仓库的数据组织形式。没有专门的数据仓库来存储数据, 数据仓库中的数据仍然在源数据库中,只是通过语义层工具根据用户的多维需求,完成 多维分析的功能。这种方式组织比较简单,花费少,用户使用灵活。但同时这种方式也 存在一个致命的缺点:当源数据库的数据组织比较规范,没有数据不完备、冗余,又比 较接近于多维数据模型时,虚拟数据仓库的多维语义层就容易定义而一般数据库的组 织关系都比较复杂,数据库中的数据又有许多冗余和冲突的地方在实际组织中,这种 方式很难建立起为决策服务的有效数据支持。 关系型数据仓库的组织是将数据仓库的数据存储在关系型数据库的表结构中,在元 数据的管理下,完成数据仓库的功能。这种组织方式在建库时,有两个主要过程完成数 据的抽取。首先要提供一种图形化的点击操作界面,让分析员对源数据库的内容进行选 择,定义多维数据模型。然后再编制程序把数据库中的数据抽取数据仓库的数据库中。 多维数据库的组织是直接面向o l a p 分析操作的数据组织形式。这种数据库产品也比 较多,实现方法不尽相同。其数据组织采用多维数据结构文件存储数据,相应有维索引 及相应的元数据管理文件与数据相对应n 。 2 2 2 数据仓库中粒度和分割概念 1 ) 粒度 数据仓库中有一个重要的概念是粒度。粒度通常可以划分成两种形式,第一种粒度 是对数据仓库中的数据的综合程度高低的一个度量,它既影响数据仓库中的数据量的多 少,也影响数据仓库所能回答询问的种类n 羽。多维粒度在数据仓库中是必不可少的,这 是由于数据仓库的主要作用是d s s 分析,只有极少数查询涉及到细节,而绝大多数查询 都基于一定程度的综合数据之上的。所以应该将小粒度数据存于低速设备如磁带上,大 粒度数据存储于快速设备如磁盘上。 样本数据库是数据仓库中粒度的另一种形式。它根据给定的采样率从细节数据库中 抽取出一个子集。这样样本数据库中的粒度就不是根据采样率的高低来划分,而是根据 综合程度的不同来划分,重要的一点是采样粒度不同的样本数据库可以具有相同的数据 综合程度。 8 第二章数据仓库技术 2 ) 分割 数据仓库中还有一个重要的概念就是分割,分割的目的时为了提高效率。分割的方 法是为了能够对数据进行区分处理而将数据分散到各自的物理单元中去。 2 2 3 数据仓库的体系结构 数据仓库是在原有关系数据库的基础上发展形成的,但不同于数据库系统的组织结 构形式,它从原有的业务数据库中获得的基本数据和综合数据被分成一些不同的层次。 一般数据仓库的结构组成包括当前基本数据、历史基本数据、轻度综合数据、高度综合 数据、元数据n 3 1 。 当前基本数据是最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。 当前基本数据随时间的推移,由数据仓库的时间控制机制转为历史基本数据,一般被转 存于一些转换介质中,如磁带等。轻度综合数据是从当前基本数据中提取出来的,设计 这层数据结构时会遇到“综合处理数据的时间段选取”、“综合数据包含哪些数据属性 。 和“内容等问题。最高一层的数据十分精练,是一种准决策数据。 数据仓库系统是一个广义概念。整个系统包括从操作数据库和外部其他数据源的提 取、转换工具、数据仓库数据部分( 主要指构成数据仓库数据存储的数据库和数据仓库 管理系统) 、基于数据仓库的数据分析工具以及与以上各部分相关的管理综合部件,构 成了整个数据仓库系统。 数据仓库系统的体系结构如图2 - 3 所示: 图2 3 数据仓库体系结构图 数据源:为数据仓库提供原始数据。可以是外部数据、操作型数据库、管理数据库、 生产系统数据库等。这些数据源可以是集中的或分布的、异构的。 数据仓库在银行信用卡业务中的应用研究 数据的存储与管理:是整个数据仓库系统的核心。针对现有各业务系统的数据,进 行抽取、清理,并有效集成,按照主题进行重新组织,最终确定数据仓库的物理存储结 构,同时组织存储数据仓库元数据。 o l a p 服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多 角度、多层次的分析,并发现数据趋势。 前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及 各种基于数据仓库或数据集市的应用开发工具。 数据仓库系统所要完成的功能包括辅助用户设计建立数据仓库系统的数据组织和 存储;管理、维护数据仓库的正常工作,即完成数据仓库服务器的管理,接受用户查询 数据的请求,使数据仓库数据与操作数据库中的数据保持有效同步等工作;综合集成多 种分析工具( 包括数学统计分析工具、o l a p 多维分析工具、数据挖掘工具) ,完成用户根 据决策需求对数据仓库的有效使用。 2 2 4 数据仓库中数据的追加 数据仓库中一个重要的技术是如何定期向数据仓库追加数据。数据追加的常用方法 有以下几种: 1 时标法:虽然并非所有的数据库中的数据都需要含有时标,但如果数据中含有时 标时,对于新插入或更新的记录,只需要在记录中增加一个更新时的时标,那么只需根 据时标即可判断出数据时什么时候追加的,这就是时标法。 2 d e l t a 文件法:d e l t a 文件法记录了数据仓库系统中应用所改变的所有数据,此法 是由应用生成的。d e l t a 文件法可以有效地避免对整个数据库的扫描,所以这种方法的 利用效率很高,但这种应用并不事非常普遍。 3 前后映像文件法:这种方法是在抽取数据的时候对数据库中的数据作两次快照, 抽取前一次,抽取后一次,之后对这两幅快照进行对比来确定哪些是新数据。这种方法 由于要占用大量的资源,所以对系统性能的影响非常大,此法无实际意义。 4 日志文件法:日志文件发事目前最流行的数据仓库数据追加技术,此法是数据库 系统中固有的机制,它不会影响到联机事务处理数据库的性能。日志文件发除了具有 d e l t a 文件法的优越性外,还具有不用扫描整个数据库而直接提取数据,但提取数据时 只需要局限日志文件即可。所以日志文件法是目前最可行的一种选择方法。 1 0 第二章数据仓库技术 2 2 5 数据仓库系统中用到的主要技术 ( 1 ) 数据的抽取、转换和集成( e t l ) 由于数据仓库是一个不同与联机事务处理型数据库的全新的一个数据环境,在对数 据的抽取过程需要通过将数据从o l t p 系统、外部数据源和脱机的数据存储介质中导入到 数据仓库。所以数据仓库中对数据的抽取是数据进入数据仓库的入口。在数据抽取时, 由于进入数据仓库中的数据并不要求与联机事务处理系统保持实时的同步,因此这种操 作可以根据需要定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库 中信息的有效性则至关重要n 4 j 5 1 。 数据仓库的数据源是来自o l t p ( 操作型环境) 中的操作数据。这些数据源都有不同的 格式、标准和含义。物理点上,他们分布于多台不同p c 上,分属于不同的操作系统与数 据库管理系统上,这对数据源的采集带来了困难。数据必须首先按一定的模式进行整理 与过滤( 同一对象多个实例) ,最后转换成一个数据仓库接口需要的标准数据源。如图2 4 所示: 图2 4 数据的抽取、转换和集成 根据e t l 的特点,银行信用卡数据仓库采用螺旋式上升的数据抽取方法,即先对源 数据进行简单的抽取,使数据完成轻度综合,再根据主题需要,扔掉“老化 的和非必 要的数据到早期细节级,使数据进入高度综合级。这样螺旋式的e t l 技术,可以逐步细 化数据抽取规则,使目标数据库中的数据最有价值和最优,缩短了数据装载时间,节省 数据存储空间,而且可以根据主题的需要逐步完善和进行更高级别的螺旋。结果表明用 螺旋式e t l 技术生成的目标数据库,在进入数据仓库后能对o l a p 提供较好的支持,减少 了o l a p 分析用时,提高了整个数据仓库的效率。 ( 2 ) 联机分析处理( o l a p ) ( l a p 是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来 的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地 数据仓库在银行信用卡业务中的应用研究 存取,从而获得对数据的更深入了解的一类软件技术。( o l a p 委员会的定义) o l a p 的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是 “维”这个概念,因此o l a p 也可以说是多维数据分析工具的集合n 引。 o l a p 相关概念: 1 ) 多维数据集:多维数据集是联机分析处理( o l a p ) 中的主要对象,是一项可对数 据仓库中的数据进行快速访问的技术。多维数据集是一个数据集合,通常从数据仓库的 子集构造,并组织和汇总成一个由一组维度和度量值定义的多维结构。 2 ) 维度:是多维数据集的结构性特性。它们是事实数据表中用来描述数据的分类 的有组织层次结构( 级别) 。这些分类和级别描述了一些相似的成员集合,用户将基于这 些成员集合进行分析。 3 ) 度量值:在多维数据集中,度量值是一组值,这些值基于多维数据集的事实数 据表中的一列,而且通常为数字。此外,度量值是所分析的多维数据集的中心值。即, 度量值是最终用户浏览多维数据集时重点查看的数字数据。您所选择的度量值取决于最 终用户所请求的信息类型。一些常见的度量值有s a l e s 、c o s t 、e x p e n d i t u r e s 和 p r o d u c t i o nc o u n t 等。 4 ) 元数据:不同o l a p 组件中的数据和应用程序的结构模型。元数据描述o l t p 数据 库中的表、数据仓库和数据集市中的多维数据集这类对象,还记录哪些应用程序引用不 同的记录块。 5 ) 级别:级别是维度层次结构的一个元素。级别描述了数据的层次结构,从数据 的最高( 汇总程度最大) 级别直到最低( 最详细) 级别。 6 ) 数据挖掘:数据挖掘使您得以定义包含分组和预测规则的模型,以便应用于关 系数据库或多维o l a p 数据集中的数据。之后,这些预测模型便可用于自动执行复杂的数 据分析,以找出帮助识别新机会并选择有获胜把握的机会的趋势。 7 ) 多维o l a p ( m o l a p ) :m o l a p 存储模式使得分区的聚合和其源数据的复本以多维结 构存储在分析服务器计算机上。根据分区聚合的百分比和设计,m o l a p 存储模式为达到 最快查询响应时间提供了潜在可能性。总而言之,m o l a p 更加适合于频繁使用的多维数 据集中的分区和对快速查询响应的需要。 8 ) 关系o l a p ( r o l a p ) :r o l a p 存储模式使得分区的聚合存储在关系数据库的表( 在分 区数据源中指定) 中。但是,可为分区数据使用r o l a p 存储模式,而不在关系数据库中创 1 2 第二章数据仓库技术 建聚合。 9 ) 混合o l a p ( h o l a p ) :h o l a p 存储模式结合了m o l a p 和r o l a p - 者的特性。 1 0 ) 粒度:数据汇总的层次或深度。 1 1 ) 聚合i 聚集:聚合是预先计算好的数据汇总,由于在问题提出之前已经准备了 答案,聚合可以改进查询响应时间。 1 2 ) 切块:由多个维的多个成员限定的分区数据,称为一个切块。 1 3 ) 切片:由一个维的一个成员限定的分区数据,称为一个切片。 1 4 ) 数据钻取:最终用户从常规多维数据集、虚拟多维数据集或链接多维数据集中 选择单个单元,并从该单元的源数据中检索结果集以获得更详细的信息,这个操作过程 就是数据钻取。 1 5 ) 数据挖掘模型:数据挖掘使您得以定义包含分组和预测规则的模型,以便应用 于关系数据库或多维o l a p 数据集中的数据。之后,这些预测模型便可用于自动执行复杂 的数据分析,以找出帮助识别新机会并选择有获胜把握的机会的趋势n 引。 o l a p 特性 1 ) 快速性:用户对o l a p 的快速反应能力有很高的要求。系统应能在5 秒内对用户的 大部分分析要求做出反应。 2 ) 可分析性:o l a p 系统应能处理与应用有关的任何逻辑分析和统计分析。 3 ) 多维性:多维性是o l a p 的关键属性。系统必须提供对数据的多维视图和分析,包 括对层次维和多重层次维的完全支持。 4 ) 信息性:不论数据量有多大,也不管数据存储在何处,o l a p 系统应能及时获得信 息,并且管理大容量信息。 o l a p 多维数据结构 1 ) 超立方结构( h y p e r c u b e ) 超立方结构指用三维或更多的维数来描述一个对象,每个维彼此垂直。数据的测量 值发生在维的交叉点上,数据空间的各个部分都有相同的维属性。( 收缩超立方结构。 这种结构的数据密度更大,数据的维数更少,并可加入额外的分析维) 。 2 ) 多立方结构( m u l t ic u b e ) 即将超立方结构变为子立方结构。面向某一特定应用对维进行分割,它具有很强的 灵活性,提高了数据( 特别是稀疏数据) 的分析效率。 数据仓库在银行信用卡业务中的应用研究 o l a p 多维数据分析 1 ) 切片和切块( s l i c ea n dd i c e ) 在多维数据结构中,按二维进行切片,按三维进行切块,可得到所需要的数据。如 在“时间、地点、交易人三维立方体中进行切块和切片,可得到各地点、各交易人的 交易情况。 2 ) 钻取( d r i l l ) 钻取包含向下钻取( d r i i i d o w n ) 和向上钻取( d r i l l 一u p ) 上卷( r o l l u p ) 操作,钻取 的深度与维所划分的层次相对应。 3 ) 旋转( r o t a t e ) 转轴( p i v o t ) 通过旋转可以得到不同视角的数据。 ( 3 ) 数据的存储与管理 数据的存储和管理是数据仓库中的关键技术。在数据的存储和管理中,核心是要根 据数据仓库的技术特点来决定采用什么产品和技术建立数据仓库。 数据仓库遇到的第一个问题是存储和管理大量数据。这里所涉及的数据量比传统事 务处理大得多,且随时间的推移而累积。从现有技术和产品来看,只有关系数据库系统 能够担当此任。关系数据库经过几十年的发展,在数据存储和管理方面已经很成熟了。 而且随着数据库技术的发展,当前一些流行的关系数据库系统已经加入了对数据分割技 术的支持,通过将一个大的数据表分散到多个物理存储设备中,从而能进一步扩展和增 强系统管理大数据量的能力。 并行处理技术是数据仓库数掘存储和管理的另一个重要技术。并行处理是在多处理 机系统中将用户的请求进行均衡分担,这是并行处理的关键。并行处理技术之所以在数 据仓库中重要,是由于用户访问系统的特点是庞大而稀疏,虽然访问的频率并不是很高, 但是对于每一个查询和统计都很复杂,此时系统需要有能力将所有的处理机调动起来为 这一个复杂的查询请求服务。 数据仓库的第三个问题是针对决策支持查询的优化。这个问题主要针对关系数据库 而言,因为其它数据管理环境连基本的通用查询能力都还不完善。在技术上,针对决策 支持的优化涉及数据库系统的索引机制、查询优化器、连接策略、数据排序和采样等诸 多部分。所以面向决策支持的关系数据库在查询优化器上也作了改进,同时根据索引的 使用特性增加了多重索引扫描的能力n 耵。 1 4 第二章数据仓库技术 ( 4 ) 数据的表现

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论