(计算机科学与技术专业论文)基于银行数据仓库系统关键技术的研究与实现.pdf_第1页
(计算机科学与技术专业论文)基于银行数据仓库系统关键技术的研究与实现.pdf_第2页
(计算机科学与技术专业论文)基于银行数据仓库系统关键技术的研究与实现.pdf_第3页
(计算机科学与技术专业论文)基于银行数据仓库系统关键技术的研究与实现.pdf_第4页
(计算机科学与技术专业论文)基于银行数据仓库系统关键技术的研究与实现.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(计算机科学与技术专业论文)基于银行数据仓库系统关键技术的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

武汉理: 大学硕士学位论文 摘要 随着信息技术的突破与迅猛发展,信息的传播成本显著降低,信息获取的 便捷性和可及性极大提高,推动了社会信息化的快速发展。在以知识经济为主 导经济形态的2 1 世纪,越来越多的企业认识到信息的重要性,信息和数据分析 已成为现代企业管理的核心内容。经过多年的金融电子化建设,银行积累了大 量的反映银行经营管理活动的数据,然而由于缺乏统的规划和信息标准,大 多数银行的业务数据质量不高、可靠性低,这些阻碍了银行经营管理者的决策 分析。利用数据仓库技术为银行构建一个分析型应用系统以帮助银行提高管理 决策水平是本课题研究的主要目的。 本文在充分理解数据仓库理论的基础上以某银行数据仓库项目为背景,对 数据仓库的体系结构和关键技术进行深入研究,主要做了以下工作: 1 ) 在研究分析了传统数据仓库体系结构的优缺点基础上,对数据仓库的体 系结构进行改进,通过将c l a s si 类o d s 系统作为数据仓库的一部分形成 d b o d s d w 三层体系结构,使数据仓库拥有了一个准实时的分析环境,更好 的满足了用户需求。 2 ) 针对c l a s si 类o d s 系统需要实时抽取源系统数据的特点,对传统的变 化数据获取策略进行分析对比,提出了基于数据库日志分析的实时数据抽取策 略,并结合i n f o 册a l i c a 抽取工具加以实现。 3 ) 在系统的实施阶段结合系统的具体实现过程对数据仓库的建模技术、数 据存储策略、数据加载策略及缓慢变化维的实现等关键技术的具体实现过程进 行详细的介绍和讨论。 4 ) 模拟实际应用环境对系统进行测试和调优,验证了系统架构的可行性确 保了系统在实际应用环境中的稳定运行。 关键词:数据仓库,操作型数据存储,数据抽取,缓慢变化维,联机分析 a b s t r a c t w i t ht l l eb r e 出h r o u 曲si ni n f o m a t i o nt e c h n o l o g y 锄dr a p i dd e v e l o p m e n t , d l s s 锄l n a t i o no t t i n f o m a t i o nc o s ti s s i 朗i 6 c a n t l yr e d u c 面 e a s eo fa c c e s st o m 幻咖a t l o na n d 黟e a t i yi m p r o v ea c c e s s i b i l i t yp r o m o t et h er a p i dd e v e l o p m e l l to f i n t t o m a t i o ns o c l e t y i nal 【n o w l e 电e 一“v e i l21s t c e l l t u l mm o r e 锄dm o r ee 1 1 t e r p s e s r e c o g m z et l l e 啪p o n a l l c eo fi n f o n n a t i o n ,i n f o 肋a t i o n 锄dd a t aa n a l y s i sh a sb e c o m e m ec o r eo lm o d e n le 1 1 t e 印一s em a l l a g 锄e n t a r e ry e a r so ff i n a u l d a l e l e c t r o n i c 0 0 n s t n 】c l 】o n ,b a n k sh a sa c c u m u l a t e da1 a r g en u m b e ro fd a t ar e 日e c t i n gt h eb a l l l ( ,s m a l l a g e i l l e l l t h o w e v d u et ol a c ko fu n i t yo fp l 锄i n ga 1 1 di n f o 姗a t i o ns t a i l c i a r d s , m o s to ft h eb a | l l ( sb u s i n e s sd a t ai sn o th i 曲q u a l i t y 1 0 wr e l i a b i l i t vw h i c hh i n d e rt h e d a u l k sd e c l s l o n - m a k l n go f m 锄a g e r s u s eo fd a t aw a r e h o u s et e c h n o l o g yf o rt h eb a n k t 0b u i l da l l 锄a l 蛳cs y s t 锄t oh e l pb a n k s 1 em a i np u r p o s eo ft h i sr e s e a r c hp r o j e c t i m p r o v e m 锄a g ed e c i s i o n - m a l 【i n gl e v e l i s b a s e do n 允1 lu n d e r s t a n d i n go ft h et h e o r yo fd a t aw a r e h o u s e ,ad e 印r e s e a r c h o nm ea r c l l i t e 叽l r ea n dk e yt e c l l i l o l o 酉e so fd a t a w 鲫e h o u s ei sd o n eo nt h e b a c k g r o u n do fad a t aw a r e h o u s ep r o j e c to fab a n ki nt h i sp a p 既t o 姗nu p ,o u r w o r k sa i l da c h i e v 锄c n t si n c l u d ea sf 0 1 1 0 w i n g : 1 i i n p r 0 v et h ea r c h i t e c t u r eo fi la _ t aw a r e h o u s eo nm eb a s i so ft h es t u d vo ft h e t r a d i t i o n a la d v a i l t a g e sa i l dd i s a d v a i l t a g e so fd a t aw a r e h o l l s ea r c h i t e c t l l r e b yt a l ( i n g o d ss y s t 锄i d e n t i 矗e db yc l a s si a sap a r to fd a t aw a f e h o u s e ,t h et h r e e t i e r 鲫出i t e c t u r ed b - o d s d wc a i lb e f o n l l e d ,p r o v i d i n gaq u a s i r e a l t i m e 觚a l y z i n g e n v i r o n m e l l tf o rd a t aw a r e h o u s e ,a i l d ,t og oas t 叩f h r t h s a t i s 知n gu s e r sm o r e p e r f e c t l y 2 c o n s i d 商n gs u c haf a c tt h a to d ss y s t 锄o fc l a s sin e e d st oe x 们c tt h e c h a r a c t 舐s t i c so fd a t a 舶mt h es o u r c es y s t e n l ,t h e 枷i t i o n a l a c q u i s i t i o ns 似e g i e s f o rc h a n 咖gd a t aa r ea n a l y z e d 锄dc o m p a r e d a n dar e a l t i m ed 瓠a e x 仃a c t i o n s 仃a t e g yb a s c d 枷m ed a t a b a s el o ga n a l y s i si s p r o p o s e da 1 1 di m p l 咖e 1 1 t e db y i n f 0 m a t i c ae x t r a c t i o nt 0 0 1 武汉理,r 人学硕士学位论文 3 t h ei m p l 啪e n t a t i o no ft h ek e yt e c l l l l 0 1 0 百e si si n t r o d u c e d 锄dd i s c u s s e di n d e t a i l d u r i n g t h ei m p l e m e i l t a t i o no ft h es y s t e i l lc o m b i n e dw i t ht h ed e t a i l e d i m p l e m e n t a t i o ns t a g e ,i n c l u d i n g t l l em o d e l i n gt h ed a t aw a r e h o u s e ,d a t as t o r a g e s t m t e g y d a t a1 0 a ds l o w l yc h a n 西n gd i m e n s i o ns t r a t e g ya n de t c 4 t e s t 锄do p t i m i z et h es y s t e i i li nt h es i m u l a t i o ne n v i r o 啪e i l tt ov 嘶母m e f e a s i b i l i t yo ft h es y s t 锄疳锄e w o r k ,e n s u n gm es t a b i l i t yo fm ep r o p o s e ds y s t e mi n a p m c t i c a le i l v i r o 啪e i l t k e y w o r d s :d a t aw a r e h o u s e ,o d s ,e t l ,s l o w l yc h a n 百n gd i m e n s i o n ,o l a p n i 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 武汉理工大学或其他教育机构的学位或证书而使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示了谢意。 签名:蔓塞日期:竺堕 学位论文使用授权书 本入完全了解武汉理工大学有关保留、使用学位论文的规定,即 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的 全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制 手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有 关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息 服务。 ( 保密的论文在解密后应遵守此规定) 虢引鹤) 糖翩瀣割翰醐加f c 7 古 考第珥 武汉理工大学硕士学位论文 第1 章引言 1 1 课题的研究背景及意义 在当前日益激烈的市场环境下,一个企业要想在竞争中取胜的关键是它能 否根据各种不同的市场需求做出快速准确的定位,并提供相应的服务。在金融 银行业尤其如此,随着2 0 0 6 年中国加入w t o 五年过渡期的结束川,我国银行 业除了要面对国内银行之间激烈的内部竞争,还要面对来自国外银行所带来的 前所未有的竞争挑战。与国内银行相比,国外银行具有以下特点【2 】:进驻国内 市场的外资银行大都是信誉卓著的跨国银行,在经营管理和风险防范方面都积 累了丰富的经验;外资银行的技术手段相对先进,在信息获取、工作效率和决 策科学化程度方面占有优势。 为了应对金融开放带来的竞争压力,国内银行也相继建立了储蓄系统、国 际清算系统、信用卡系统等业务系统,随着这类系统的建立与完善极大的提高 了我国商业银行的业务自动化水平、增加了银行的利润、提升了银行的服务质 量。但是由于这些系统大部分都是分阶段独立建立的,各系统之间关联较少, 数据的共享程度较低,这就导致了虽然国内银行拥有丰富的客户信息及业务数 据储备,但是却缺乏一种有效的机制把这些分散在各业务系统的数据利用起来, 用以支持类似客户贡献度、产品和渠道的赢利能力、经营成本等经营管理信息 的统计与分析。面对如此尴尬的局面,就像数据仓库专家r a l p hk i m b a l l 说的那 样“我们花了二十多年的时间将数据存放在数据库中,如今是该将他们拿出来的 时候了【3 】。”因此,专家们设想建立_ _ 个专用的数据中心以供分析统计使用,它 的数据来自不同的业务系统、异构的外部数据源、脱机的历史业务数据等,这 个数据中心即为数据仓库【4 j 。 数据仓库是信息管理和分析应用最有效的方式,它的建立和实施对国内银 行具有重要的意义【5 】【6 j : 首先,有助于提高了银行的市场竞争力和服务水平。在传统的经营模式中 国内银行的服务模式相对单一、业务品种较少各银行提供的业务内容也大致相 同,很难凸显银行在行业内的竞争优势。通过建立银行数据仓库可以对客户的 武汉理一l 大学硕士学位论文 行为和需求进行充分的挖掘分析,根据不同的客户类型提供特色服务、挖掘潜 在的客户资源,提高银行在行业间的竞争力和服务质量【7 】。 其次,有助于提高银行资产质量防范金融风魁引。资产的风险防范是银行 发展的根本保障,由于风险具有伴生性、可量化性和相协性,通过数据仓库技 术和数据挖掘技术能帮助国内银行随时调用与自己有业务往来的客户的历史和 现实业务数据,并能据此分析客户信用情况,为商业银行减少资产经营风险创 造了条件从而提高银行的资产质量和利润率。 再次,有助于提高银行的经营管理水平,降低成本,提高效率。通过数据 仓库系统,银行管理者可以实现对产品、部门、机构的利润成本的k p i 考核, 从而加强成本管理来增加效益;同时,可以改进银行各级部门的管理手段,使 整个银行的经营管理更加科学、有效、规范。 1 2 国内外银行的应用现状 发达国家银行业非常重视数据仓库的建设,据美国t h et o w e rg m u p 咨询 公司的有关调查显示1 5 j :1 9 9 8 年全球5 0 0 家大银行中,己经有近9 0 家建立了 数据仓库;1 9 9 9 年全球金融行业投放在数据仓库建设上资金超过5 4 亿美元, 其中8 0 来至于欧美等发达国家。到2 0 0 2 年全球前5 0 0 强的银行中,至少有 3 0 0 家正在筹备、在建或已经建成数据仓库。由于起步较早,国外银行数据仓 库系统在应用范围和效果上都取得了显著的成效。如加拿大的皇家银行,通过 构建数据仓库系统实现了以v a l u ea n a l y z e r ( 利润贡献度分析) 为基础的c r m ( 客户管理) 分析,优化了市场营销策略,提高了客户质量,为银行增加了近 2 0 的利润。 与国外银行相比,国内银行从上世纪末才开始逐渐开展数据仓库项目。1 9 9 8 年,招商银行通过与s y b a s e 等公司合作,联合开发了国内银行业第一个数据仓 库系统,招商银行数据仓库系统。2 0 0 1 年,中国工商银行正式启动了数据仓库 建设项目,随后国内其他几大商业银行和金融机构也相继开始着手建立自己的 数据仓库系统,期望通过建立领先的综合业务系统和构造功能强大的数据仓库 使自己在未来的激烈竞争中取得优势。 虽然国内银行在数据仓库的建设上取得了长足的进展,但整体上看我国银 行数据仓库的建设还处于初级阶段,在构建方法、体系架构、应用范围等方面 仍存在着不足。 2 武汉理j :大学硕士学位论文 1 3 课题的来源及研究内容 课题源自某银行的数据仓库系统建设项目。随着该行业务的发展和各个子 信系统的建设,信息集成的问题越发显得严重:1 、没有统一的数据平台“信息 孤岛 现象明显;2 、分析决策支持能力较低,依靠分散的报表子系统获得基础 数据;3 、较复杂的数据服务响应速度慢;4 、安全、高效的数据发现和获取能 力较低。为了应对以上问题该行确立了以数据仓库为基础的决策支持系统,其 宗旨目标是建设集中统一的数据服务系统基础数据平台,根据业务主题,实现 系统的定制报表、即席查询功能,重点实现多维分析功能,为业务部门提供必 要的数据服务支持或协同实现有关业务功能,开展基础业务模型建设,建立并 完善数据服务系统安全与管理体系。其核心内容是以客户为中心,以需求为导 向,依托科学的设计理念、先进的信息技术和强大的数据分析工具,实现内部和 外部数据信息的有效集成,促进信息资源共享和数据深度挖掘,提高自身在分 析决策、业务推动、经营管理、产品创新、市场营销、客户服务等环节的能力 和水平,从而以更加快速准确的响应、更加专业的信息服务和支持,大力提升 各分支机构的业务运作能力,充分满足产业经济和社会生活中的各种支付需求, 有效协助政府监管部门获得更加全面详实的政策制定依据,提升整体竞争力。 本文以该项目为依托,主要研究工作内容包括以下几个方面: l 、介绍了数据仓库、o d s ( 操作型数据存储) 、o l 垤技术的概念、特点。 将o d s 引入数据仓库的体系结构中,并讨论了d b o d s d w 三层体系结构为 数据仓库系统带来的新的特性,采用了基于数据库日志解析的变化数据捕获策 略。 2 、结合银行数据仓库项目的实施过程介绍了数据仓库关键技术的研究与实 现。包括数据仓库的建模方式、主题确立、粒度划分、e t l 过程设计、数据的 实时捕获策略、数据存储方案及变化维处理等关键技术。 1 4 论文框架 本文主要结构和内容如下: 第l 章介绍了课题研究的背景和意义,以及课题的来源、本人的主要研究 内容,并提供了论文的框架。 第2 章介绍了数据仓库、联机分析和e t l 技术的基本概念。 武汉理工大学硕+ 学位论文 第3 章讨论了数据仓库的体系结构及o d s 的特点,确立的d b o d s d w 的三层体系架构,并根据o d s 数据加载的特性提出了基于数据库日志分析的变 化数据捕获策略。 第4 章介绍了系统的总体规划情况,在分析了系统的应用背景的基础上, 对系统的边界进行限定,同时确立了系统的总体架构情况和主题划分。 第5 章介绍了d b o d s d w 三层体系架构的银行数据仓库的实现过程,并 对数据仓库的关键技术的实现进行详细的介绍 第6 章为系统的性能测试及调优,主要对系统的各方面性能进行测试,同 时根据测试结果对系统进行性能优化。 第7 章为全文小结,对整个文章进行总结与展望。 4 武汉理工大学硕士学位论文 第2 章基础理论概述 2 1 数据仓库概述 2 1 1 数据仓库的定义 1 9 7 0 年,e f c o d d 博士在c o n 硼u n i c a t i o no f t h ea c m 上发表了名为“a r e l a t i o n a lm o d e lo f d a t a 矗wl a r g es h a r e dd a t ab a n k s ”的论文,提出了关系模型 的概念,并用数学理论为关系数据库奠定了严格的理论基础,标志着关系数据 库的诞生。在数据库应用的早期,数据库的主要任务是记录企业业务处理的相 关信息,实现业务的办公自动化,企业通过拥有业务处理的计算机系统提高办 公效率和高效的信息处理能力,进而获得强大的市场竞争力。在8 0 年代直到 9 0 年代初联机事务处理成为数据库应用的主流。但是随着技术的发展和应用范 围的不断扩大,企业发现仅仅依靠联机事务处理提高企业的信息化程度已经无 法满足市场竞争的需求,他们需要对企业自身经营信息及整个行业动态信息进 行分析,以做出适应未来发展战略决策。而这些决策的制定需要对历史的、跨 业务系统的数据进行统计和分析,对于这种数据的统计分析处理,我们称之其 为联机分析处理。相对于操纵数据库中数据的联机事务处理,联机分析处理更 注重的是如何从数据库中获取和分析数据。但是在实际的应用中,人们发现从 各业务系统的数据库中获取理想的数据并不是那么容易:首先,基于联机事务 处理的数据库系统在设计时注重的是数据的可操作性能和系统的安全可靠性, 对于数据查询的便捷与否并未过多的考虑。而且由于数据操纵和数据查询对数 据库的设计要求不同,在同一数据库系统上很难同时满足对这两种操作需求的 优化;其次,企业的业务系统由于建设时期的不同和应用背景的不同,采用的 数据库平台和设计规范也可能不同,当在企业范围内跨系统查询数据时,很难 实现统一的查询,而且还有很多历史数据被脱机保存基本无法被查询所用;再 次,各业务系统面向的业务需求不同,其在数据组织、数据表达方面也不尽相 同,很难从这些数据中获取完整一致的信息。 面对以上困境,2 0 世纪8 0 年代中期w h i 啪o m 提出了基于数据仓库的决 策支持系统的解决办法,并在他的b u i l d i n gt h ed a t aw a r e h 0 i l s e 一书中给出 5 武汉理工大学硕士学位论文 了数据仓库的定义:数据仓库( d a t aw a r e h o u s e ) 是一个面向主题的( s u 场耐 o r i e n t e d ) 、集成的( i n t e 黟a t e d ) 、相对稳定的( n o n v o l a t i l e ) 、随时间变化地 ( t i m e v a r i a l l t ) 数据集合,用以支持企业决策管理的过程1 。 2 1 2 数据仓库的特征 从数据仓库的定义可以看出数据仓库具有面向主题、集成、相对稳定和随 时间变化这四个最重要的特型1 0 】。 面向主题的 面向主题是指数据仓库中的数据是按主题进行组织的,主题是一个比较抽 象的概念,它是指基于某个研究领域在较高层次上将企业信息系统中的数据进 行综合、归类后的抽象【1 2 】。从逻辑意义上看,主题对应的是企业在某一宏观分 析领域中所涉及的所有分析对象。从数据组织的角度看,面向主题的数据组织 方式就是指在某一分析背景下,将分析所涉及的各项数据及数据间的联系进行 完整、一致的描述,并确保该主题下的数据能完全满足分析的需求。 集成的 全面而正确的数据是进行有效分析和决策的首要前捌1 3 】。在某一个主题的 统帅下,数据仓库里的数据需要对源系统的数据进行抽取、清洗、转换和加载 等集成操作。这是因为i h 】: l 、数据仓库的数据不能直接从原有数据库系统中得到,因为原有数据库系 统记录的是对业务处理的流水账,这类数据不适合用于分析处理5 1 。在进入数 据仓库之前必须经过综合计算,抛弃分析处理不需要的数据项,增加一些可能 涉及的外部数据。 2 、数据仓库每一个主题所对应的源数据在源数据库中有许多重复或不一致 之处,必须将这些数据转换成全局统一的定义,消除不一致和错误之处,以保 证数据的质量。 相对稳定的 有别于传统的操作型数据库,数据仓库存储了大量历史数据,这些数据是 对企业不同时期数据资料进行综合、重组、统计导出的数据集合【l6 1 。由于数据 仓库的重点在于数据的查询,仅在必要时才对数据予以更新,因此数据仓库中 的数据在一个较长周期内保持其稳定。 随时问变化的 6 武汉理工大学硕士学位论文 由于数据仓库中的数据时不断累积的,这使得数据仓库中的数据总是拥有 时间维度1 7 1 。数据仓库实际上记录的是企业数据的各个瞬态,并将各个瞬态连 接起来形成连贯动画,从而在数据分析的时候再现了企业数据发展的全过程。 2 2 联机分析技术 2 2 1 联机分析技术的定义 随着数据应用深度和广度的扩展,用户的查询需求也越来越复杂,涉及的 范围也不仅仅是对一张或多张表的数据的查询和操纵,而是要从不同的视角对 数据的进行分析、综合,传统的s q l 查询已经无法满足这种数据查询要求。 e f c o d d 于1 9 9 3 年提出了联机在线分析处理( o l a p :o n l i n ea n a l y s i sp r o c e s s i n g ) 技术。 联机分析是一种基于大容量数据汇总与分析的技术,它使用户能够以更快、 更易于理解的方式从数据中获取有用的信息,联机分析主要通过多维的方式从 不同的维度和不同的数据综合程度将数据表达的信息展现给数据分析人员【i8 1 。 联机分析的应用主要是对企业当前及历史数据进行统计分析,以辅助决策。 联机分析技术的核心是维,其基本概念和操作都是围绕着维来展开的: 1 ) 维度:是人们观察分析数据时的一个视角,是对某一类属性的抽象集合, 如时间、产品等都是一个维度。 2 ) 维的属性:是指对维的描述的集合。如一个产品维,其属性包括产品的 名称、外形、规格等信息。 3 ) 维的粒度层次:人们分析数据时对某一属性的综合程度不同,也就形成 了维的粒度层次的不同,如一个地址维度,随着综合程度的不断提高,可以划 分成县、市、省、国家等不同的粒度层次。 4 ) 数据立方体( c u b e ) :是一个多维矩阵,它通常包含多个维度,是使 用户拥有从多个维度分析数据的数据集合。通过数据立方数据分析人员可以在 多个维度的关联背景下对数据进行切片和切块分析。 5 ) 切片( s l i c e ) 和切块( d i c e ) :在多维数据结构中,如果取某两个维度 进行分析,则为切片;取三个维度进行分析即为切块【1 9 】。如在一个时间、客户、 产品的数据立方中,取某一时间点,对客户和产品两个维度进行分析,就可以 取得在这一时间点的客户、产品的二维信息,这个二维信息组即为切面;如果 7 武汉理1 :人学硕十学位论文 取两个时间点之间的客户、产品维度分析,则有时间段、客户、产品构成的三 维数据块即为对整个数据立方的切块。 6 ) 钻取( d r i l l ) :钻取是指通过变换维度的粒度层次对数据进行分析。它 分为上卷( r o l lu p ) 和下钻( d o w n “1 1 ) 【1 9 j 。上卷是指在某一维度上由低粒度 级别向高粒度级别汇总,获取数据的汇总信息;下钻是指从维度的高度综合粒 度级别向低粒度级别展开,获取数据的细节信息。 7 ) 旋转( r o t a t e ) :是指变换维的方向,体现在二维的关系中就是行列转换。 2 2 2 联机分析的分类 根据依托的数据存储方式的不同,可以将联机分析分为f 2 0 】:关系型o l a p ( r d a t i o n a lo l a p ,简称r o l a p ) 、多维o l a p ( m u l t i d i m e i l s i o n a lo l a p , 简称m o l a p ) 、混合型o l a p ( h y b r i do l a p ,简称h o l a p ) 。 r o l a p 以关系数据库作为数据的存储基础,数据的组织结构一般采用星 型模式。由于采用的关系数据库作为实现基础,r o l a p 原则上在数据规模方 面是没有限制的,而且可以通过采用分布存储、并行查询、索引等技术对数据 查询进行优化。 m o l a p 是以多维数据库作为数据存储的联机分析实现,其分析所用的数 据在物理上存储为多维数组的形式,形成“立方体”的结构。m o l 廿的优点 是由于对维度做了预处理,查询速度快、响应时间短,但是随着维度的实例化 其数据量成几何级增长,因此m o l a p 的数据规模一般不大,在几十g 的级别 范围内。 h o l a p 是一种将r o l a p 和m o l a p 混合的理想模式,它结合了两者的特 点。在实现方式上对于频繁查询的数据采取数据立方的多维存储方式,可以满 足联机查询的快速响应要求。对于查询相对不频繁的数据采用关系数据结构进 行存储,可以满足数据规模的要求。 2 3e t l 技术概述 e t l 是数据仓库的核心和灵魂,它按照统一的规则集成并提高数据的价值, 是负责完成数据从数据源向目标数据仓库的转化过程,是实施数据仓库的重要 步梨2 。如果说数据仓库的模型是一座大厦的设计图的话,那么e t l 就是建设 大厦的过程。 武汉理人学颇1 。学位论文 2 3 1e 1 l 的定义 盯l 即数据的抽取( e x t r a d ) 、转换( t r a n s f o 丌n ) 、加载( l o a d ) 。 即从数据源中抽取出所需要的数据,经过清洗转化后,按照预先定义好的数据 仓库模型将这些数据加载到数据仓库中,完成数据从数据源向目标数据仓库转 化的过程田】。盯l 的目的就是以晟小的代价( 包括对r 常业务的影响和对技术 的要求) 将针对日常业务操作的数据转化为符合数据仓库模型要求的决策支持 型数据。e t l 实现过程的示例如图2 一l : 无数据管理 图2 1e t l 流程示例图 从功能上看盯l 包含三个部分盼“i : 1 ) 数据的抽取( e x t r a d ) 数据抽取是从数据源获取所需数据的过程,数据抽取的最终结果是生成 e x f ( e x 仃am e ) 文件,数据抽取的主要工作有: 确立数据源在数据抽取开始前,首先要确立数据仓库的源数据系统, 并和这些系统建立数据接口。 数据范围过滤,是指完全抽取源表所有记录或按指定日期进行增量抽取; 抽取字段过滤,是指全部抽取源表所有字段或过滤掉不需要的数据字段; 抽取条件过滤,是指为抽取进程指定抽墩条件,只获取指定条件的记录 数据排序,是指按照抽取的指定字段对数据进行排序: 2 ) 数据的转换( t r 柚s f b 彻) : 数据转换的任务是逐条检查数据,将每个字段转换为遵循数据仓库标准的 数据格式,即对数据类型和数据格式进行转换,并对空字段赋予适当的缺省值, 一堕 武汉理工大学硕士学位论文 形成规整的数据结构,同时根据制定的规则,对数据的质量进行检查【2 ”。数据 转换的主要工作有: 格式变换,如将所有同期格式统一为册m m d d 格式; 赋缺省值,在数据仓库中定义取值不为空的字段在源系统中对应的字段 可能存在没有取值的记录,这时根据业务需要,可以在数据转换阶段直接赋一 个缺省值; 类型变换,如将源系统的数字类型转为字符串类型等; 长度变换,如将源系统中定义的v a r c h a r 2 ( 1 0 ) 转为v 卸c h a r 2 ( 2 0 ) 等; 代码转换,如源系统的某些字段经过代码升级以后,将老的代码转为新 的代码,将源系统中的o 代表男、1 代表女替换为m 代表男、f 代表女等; 度量值转换,如数值单位由万元转为元等; 去除空格,去除字符类型的数据中的前后空格; 特定字符转换,如对于用于前端计算的某些字段不能含有+ 木等特殊符 号,需要根据业务规则对这些字符进行指定替换; 去除重复汜录,如源数据中存在重复记录,需要将其去除; 业务规则清洗,根据业务部门提供的业务规则对进行字段清洗检查,使 数据满足对应的业务规则; 3 ) 数据的加载( l o a d ) 数据加载是按照目标表的数据结构,将转换好的符合数据仓库标准的数据 加载到相应的目标表中。需要用到的加载方式有两种: 增量加载:将源系统中新增的数据以增量数据的形式插入到目标表中。 全量加载:即将目标表的数据完全更新,一般的做法是先清空目标表的 数据,然后再完全插入要加载的记录。 更新追加:对于需要记录业务状态连续变化的数据,需要用当前数据与 历史数据做比对,如果有变化则采取更新追加的方式,典型的应用就是在缓慢 变化维的处理上。 2 3 2e t l 的元数据 对业务数据本身及其运行环境的描述与定义的数据,称之为元数据,元数 据是描述数据的数据【2 6 1 。在e t l 过程中,元数据占据着非常重要的地位,它的 内容包含了所有的数据源接口定义、抽取数据项定义、抽取规则、数据转换规 l o 武汉理1 :人学硕士学位论文 则、数据格式变换规则、装载方法、装载时间等等。它指导了数据抽取、转化、 装载的全过程。 元数据的典型表现为对对象的描述,即对数据库、表、列、列属性、数据 转换规则、数据来源等等的描述,元数据可以有效的描绘出信息的关联性。元 数据对e t l 重要性的集中表现为: 定义数据源的位置及数据源的相关属性; 确定数据从源系统到目标系统的对应规则,包括字段的转换、拆分等信息。 确定了数据转换过程中的相关业务逻辑。 在数据实施e t l 前的其他必备工作等等。 2 3 3e t l 工具的介绍 目前市场上主流的e t l 工具大致可以分为两类:一类是专业的e t l 集成 产品,如a s c e n t i a ld a t a s t a g e 、i n f 0 咖a t i c a 等,这类产品专注于e t l 过程的设 计开发,一般都拥有比较完善的体系结构和详尽的数据转换功能,并且都支持 主流的数据产品。另一类是数据仓库方案供应商的产品,他们在提供数据存储 方案的同时也提供了相应的数据抽取工具,如:i b m 的w a r e h o u s em a j l a g e r 、 o r a c l e 的o r a c l ew a r e h o u s eb u i l d e r 等,这类工具一般只针对自己的数据库产品, 对于其他厂商的数据库支持度不高,通用性不强。 由于本文涉及项目采用的是i n f 0 彻a t i c a 公司提供的e t l 工具,所以对 i i l f o n l l a t i c a 的产品做了详细介绍。h l f o n n a t i c ap o w e 疋c 1 1 t e r 是一个统一的企业数 据集成平台,它支持企业各种类型的业务系统数据的整合、交换和共享,从而 形成一套准确、干净、完整的数据集合。借助l n f o 珊a t i c a 公司产品,通过建立 统一数据交换和共享平台,用户可以获得以下收益:实现对以业务系统为数据 采集点的数据整合、交换和共享;提供对历史系统数据、私有系统数据的访问, 充分利用企业信息化进程积累的历史数据:降低数据冗余度、降低数据不一致 性和提高数据准确性,提高作为企业战略资源的各种信息和历史数据的使用率 和使用准确率;建立统一数据服务平台,支持现有和未来业务系统的数据服务; 助力企业数据标准化和企业统一客户视图的建设工作,为建立以客户为中心, 以服务为导向的新型服务企业提供底层信息流动支撑;助力企业实现跨地域的、 跨业务系统的客户一致化服务水平,提高企业客户满意度和企业竞争能力;助 力企业全局数据仓库和特定主题数据集市的建立;图形化的部署、控制和管理 武汉理f 人学硕士学位论文 统一数据服务平台,简化系统变化、升级和部署的复杂度,从而更加快速的应 对整合和市场变化;随着企业的发展,支持新业务系统的平滑、快速接入。 i n f 0 肿m 油p o w c r c e n t e r 以一个服务器的形式通过t c p 九p 、o d b c 驱动与 源数据系统及目标数据库进行数据通信,在i n f o 咖m i c a 的服务器上部署了资料 库( 其内记载了数据的来源、目标、转换规则及调度规则等元数据信息) ,在 p c 机上通过b f 0 i m m i c a 客,o 端与资料库相连,从而完成e t l 转换程序的开发 及部署。在e t l 程序开发结束后通过客户端的w o r l c f l o w m a l l a g 盯组件可以实 现e t l 流程的调度和监控。i n f 0 n 玳l c ap o w e i c e n t e r 的体系结构圈2 - 2 : 辑窑黑”w。= 。 it-仲 i 今1 9 l 哆俐团 二 r 。p o g h o 吖 型a g e r i t 勰“”:等:船“:编黑。 c o n s “口 图2 2i n f 0 邢a t i c a 的体系架构 从体系架构上看,i n f o 打n 缸渤p o w 盯c t 盯提供以下几个功能组件: i l l f o 肌a t i c a r 印o s i t o r y ( 资料库) ,资料库是i n 南m m i c a p o w e r c 缸工具 重要组成部分,元数据资料库可以再主流关系数据库中部署。元数据库中存储 所有的e t l 元数据信息,包括:源、目标表的物理和逻辑元数据,数据转换规 则,知u 库用户权限,e t l 任务运行历史信息等元数据。 i n f 0 丌n “油r e p o s i t o f ys a v e r :资料库服务器,用来管理所有客户端程序对 资料库中元数据的操作请求。 。p矗 武汉理t 大学硕十学位论文 d e s i g n e rm a i l a g e r :e t l 映射规则设计开发环境。它以可视化的操作界面 定义了源、目标的数据结构,提供了功能详尽的组件用以创建数据转换的工作 流映射逻辑,是i i l f o 咖a l i c a 的主要开发工具。 w o r k f l o wm a n a g e r :将在d e s i 印e r 里开发的m a p p i n g 以功能点为单位封装 成s e s s i o n ,按着数据转换流程将s e s s i o n 创建为w o m o w ( 工作流) ,同时提 供了对任务执行的调度和管理功能。 w o r k n o wm o n i t o r :监控e t l 进程运行状态的客户端程序,通过它可以实 时查看e t l 的程序的运行状态,并生成日志文件供用户分析。 2 4 本章小结 本章首先介绍了数据仓库的基本概念及特点:数据仓库是面向主题的、集 成的、稳定的、历史的用以支持企业决策支持的数据集合。其次介绍了基于数 据仓库的联机查询技术,及其数据操纵的特点。最后介绍了e t l 技术,并对项 目使用的e t l 工具的功能特点和体系结构进行了详细的介绍。 1 3 武汉理t 大学硕士学位论文 第3 章数据仓库体系结构的研究分析 数据仓库不是软件产品或应用程序,而是一个体系结构。作为体系结构, 数据仓库系统集成了许多产品和应用,数据仓库体系结构通过提供一种架构方 式,实现其包含的各种产品和应用之间的紧密结合,使得企业用户能够在数据 仓库系统这个平台对企业数据进行分析挖掘以支持企业的决策制定【3 2 】。一个好 的数据仓库体系架构对于数据仓库的实施具有重要意义。 3 1 传统的数据仓库体系结构分析 作为企业实施决策的支持工具,传统的数据仓库在体系结构上一般主要包 含如下四个部分:数据源、数据仓库、联机分析处理( o l a p ) 服务器和用户 应用程序如图3 一l : 图3 1数据仓库系统的体系结构 1 4 武汉理工大学硕士学位论文 数据源:是数据仓库系统的数据基础,是整个系统的数据源泉。它 通常由企业内部信息和外部信息两部分构成。内部信息包括存放于企业业 务系统数据库中的各种业务处理数据和各类文档数据,外部信息包括各类 法律法规、市场信息和竞争对手的信息等。 数据仓库:是整个数据仓库系统的核心。数据仓库的关键是数据仓 库中数据的存储方式和组织管理。数据仓库的特征决定了它有别于传统数 据库:针对现有各业务系统的数据,以主题为单位进行抽取、清理,并有 效集成。 联机分析处理( o i 。a p ) 服务器:联机分析处理 ( 眦加删p r o c 融,o l a p ) 是数据仓库采用的最主要的数据分析 处理方法,它通过多维数据处理技术提供对数据的快速访测3 0 】。o l a p 服 务器是专门为多维查询提供的数据服务系统。 用户应用程序:用户应用程序主要包括用户管理、固定报表、数据 挖掘、前端展现四大类应用。 传统的数据仓库体系结构通过把数据处理划分为操作型处理和分析型处理 两种不同类型,并在实现过程中将两者区分开,使企业的数据操作处理和数据 分析需求在不同的应用平台得以满足。 3 2o d s 的提出及特点 随着对数据处理要求的提高,把数据分为操作型和分析型并不能涵盖企业 所有的数据处理要求【2 7 1 。因为企业对数据的操作往往是复合的,即有些数据处 理虽然是操作型的,但这种操作需要跨越企业的多个数据系统才能实现,这显 然无法在某一业务系统数据库上实现;而有些处理虽然是分析型的,但这种分 析操作是基于企业当前某一时刻或实时的全局信息的,因此也无法在数据仓库 中实现。为此业界提出了o d s ( 0 l p e r a t i o n a ld a t as t o r e ) 的概念。 3 2 1o d s 的定义 o d s 是一个面向主题的、集成的、可变的、当前的细节数据集合,用于支 持企业对即时性的、操作性的、集成的全体信息的需求【2 8 】。它一方面包含了整 个企业范围内全局一致的细节数据,为用户提供了一致的企业数据集成视图, 1 5 武汉理t 大学硕士学位论文 使用户轻松实现跨多个业务系统的操作:另一方面又像数据仓库一样是面向主 题的、集成的数据环境,实现了企业日常的中层决策分析。 o d s 在定义、结构及数据组织方面与数据仓库有一些相似:两者都是面向 主题的、集成的,都需要对源数据进行转换、集成才能进行数据加载。但o d s 也有着与数据仓库不同的特征:o d s 中的数据是可操作的,即支持数据的更新、 删除,而数据仓库的数据则是稳定的;0 d s 的数据是当前的或接近当前的,而 数据仓库中的数据是历史的刚。下面给出了o d s 系统和数据仓库的比较如表3 1 : 表3 1o d s 与数据仓库的对比 o d s 系统数据仓库系统 设计目标支持中层决策及全局事物处理高层决策支持及数据挖掘 用户对象业务员、业务分析员 企业高层管理者 业务支持支持日常操作及决策支持企业分析 数据内容当前或接近当前的数据历史数据 数据粒度明细数据明细数据、汇总数据 数据生命周期短期( 半年1 年)长期( 3 1 0 年) 数据更新频繁、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论