




已阅读5页,还剩35页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
山东人学坝学位论文 面向银行业务的数据仓库模型及其应用研究 研究生马文杰 指导教师王海洋教授 摘要 数据仓库作为一个为分析统计和决策提供支持的结构化的数据环境,可使企 业通过对数据的分析获得有用的信息,为决策、业务分析等提供支持。银行业经 过多年运作,积累了大量的数据,运行模式也由每个地市的分布式逐步改为全国 火中心的集中模式,从而为更有效地建立数据仓库提供了方便。 近年来,数据仓库、工作流技术在电子商务系统中的应用研究已经成为热点, 但这些研究工作或集中于数据仓库技术在电子商务系统中的应用,以加强业务分 目i 功能,或集中于工作流技术在电子商务系统中的应用,构建协同的工作环境, 实现业务流程的电子化。据我们所知,目前还没有关于数据仓库、工作流、电子 商务这三种热门技术有机结合的研究。且目前对电子商务的研究更多的是针刘制 造业、商场等传统的企业,很少专门针对银行这一特殊行业。在这些乜f 商务活 动中银行只是作为中| 日的职能机构,在资会流中起定的辅助作用。 奉文以银行业务为背景,对面向银行业务的数据仓库模型、协同电子商务以 及客户关系管理等问题进行探讨和研究,所做的主要工作和取得的主要成果如 下: 1 、面向银行业务的数据仓库模型 结合银行数据特点,研究建立适合银行业务需求的数据仓库模型根掘 数据性质、存储粒度采用不同的存储方式。同时,山于数据仓库空问丌销大, 为了节省存储空问,使用了一利,线性变换方法。将事实表中维的属性进行, 山东人学坝l 。学位论史 缩存储。 2 、基于工作流和数据仓库的银行协同电子商务系统 以银行业务为背景研究在数据仓库和数据库的支持下,如何利用t 作 流技术建立银行电子商务系统,包括如何用工作流技术更好地支持银彳j :电子 商务的协同处理。 3 、基于数据仓库模型的银行客户贡献度计算模型 以银行业务为背景,研究在数据仓库的支持下,如何更好地进行客户关 系管理,实现更高层次、更为全面的决策分析。使其可在支持原有联机交易 的同时,也支持在线分析,使银行电子商务的服务功能得到扩展,为建立和 完善客户关系管理提供更可靠的支持。 关键字:数据仓库、工作流、电子商务、协同工作、客户关系管理 山东大学顺 。学位论业 r e s e a r c ho nd a t aw a r e h o u s em o d e la n d i t sa p p l i c a t i o nf o r b a n kb u s i n e s s p o s t g r a d u a t e : m a w e n j i e t u t o r :p r o f w a n g h a i y a n g a b s t r a c t a sa s t r u c t u r a ld a t ae n v i r o n m e n t s u p p o r t i n g t o a n a l y s i s s t a t i s t i c sa n d d e c i s i o n m a k i n g ,d a t aw a r e h o u s ec a r l b eu s e dt og e tu s e f u li n f o r m a t i o nt op r o v i d e s u p p o r t t od e c i s i o n m a k i n ga n do p e r a t i o na n a l y s i sf o rc o r p o r a t i o n sb y a n a l y z i n gd a t a a f t e r y e a r so fw o r k ,am a s so fd a t ao fb a n kb u s i n e s sh a sb e e na c c u m u l a t e d ,a n d i n t e g r a t e dr l nm o d ei nt h ew h o l ec o u n t r yh a sb e e ni np l a c eo fd i s t r i b u t i n gr u nm o d e i n e v e r yc i t y ,w h i c hc a nm a k ei t m o r ec o n v e n i e n c et oc o n s t r u c td a t aw a r e h o u s e e f f e c t i v e l y r e c e n t l y ,t h er e s e a r c ho nt h ea p p l i c a t i o n so fd a t aw a r e h o u s eo rw o r k f l o w t e c h n o l o g y i ne - c o m m e r c es y s t e mh a sb e c o m ev e r yh o tb u tt h ee x i s t i n gw o r k m a i n l yf o c u s e so nt h ea p p l i c a t i o n so fd a t aw a r e h o u s ei ne c o m m e r c es y s t e mt o i m p r o v et h ea n a l y s i sf u n c t i o no fb u s i n e s sa c t i v i t i e s o rt h ea p p l i c a t i o n so f w o r k f l o w t e c h n o l o g yi n e - c o m m e r c es y s t e mt oc r e a t ea c o o p e r a t i v ew o r ke n v i r o n m e n tt o i m p l e m e n t t h ei n f o r m a t i o n i z a t i o no fb u s i n e s sp r o c e s s a sw ek n o w ,a tp r e s e n tt h e r ei s n or e s e a r c ho nh o wt oc o m b i n ed a t aw a r e h o u s ea n dw o r k f l o wt e c h n o l o g i e st o s u p p o r t e - c o m m e r c e a n dt h e e x i s t i n g r e s e a r c h e so ne c o m m e r c e p a y m o r e a t t e n t i o no nt r a d i t i o n a lc o m m e r c i a lo rm a n u f a c t u r ee n t e r p r i s e s i nt h o s ee c o m m e r c e s y s t e m s ,b a n ko n l ys e r v e sa saf u n c t i o n a lo r g a n i z a t i o na n dr e a c to n f u n df l o w i nf a c t , a sas p e c i a le n t e r p r i s e ,b a n kh a si t so w ns p e c i a lp r o d u c t s ( s u c ha sc o n s u m e rl o a n h o u s em o r t g a g el o a na n ds oo n ) ,c l i e n t sa n db u s i n e s sp r o c e s sa n ds oo n 3 = 些查苎兰竺! :堂些堡兰 i nt h i s p a p e r t h er e s e a r c h e sf o c u so n h o wt oc o n s t r u c td a t a w a r e h o u s e 。o o p e r a t i v ee - c o m m e r c e s y s t e ma n dc u s t o m e rr e l a t i o n s h i pm a n a g e m e n to nt h eb a s e o fd a t aw a r e h o u s ea n dw o r k f l o wu n d e rt h e b a c k g r o u n do fb a n kb u s i n e s s a n dt h e m a i nr e s e a r c hw o r ka n da c h i e v e m e n t si n c l u d e : 1 d a t aw a r e h o u s em o d e lf o rb a n kb u s i n e s s t h i sp a p e r b r i n g sf o r w a r da d a t aw a r e h o u s em o d e lf o rb a n k b u s i n e s s a c c o r d i n gt ot h en a t u r eo fb a n kd a t a ,i nw h i c hd i f f e r e n tm e m o r ym o d e sa r eu s e d a c c o r d i n gt ot h en a t u r eo f d a t aa n dt h eg r a n u l a r i t yo f m e m o r y ,a tt h es a m e t i m e , b e c a u s eo f t h ev a s t s p a c ec o s to f t h ed a t aw a r e h o u s em e m o r y ,al i n e a r i t yt r a n s f o r m m e t h o di su s e dt oc o m p r e s st h ea t t r i b u t eo fd i m e n s i o ni nf a c tt a b l et os a v e t h e m e m o r ys p a c e 2 b a n kc o o p e r a t i v ee - c o m m e r c e s y s t e mb a s e d o nw o r k f l o wa n dd a t aw a r e h o u s e u n d e rt h eb a c k g r o u n do fb a n k b u s i n e s s ,t h er e s e a r c hi sf o c u so nh o wt oc o n s t r u c t b a n kc o o p e r a t i v ee - c o m m e r c e s y s t e mb yd a t aw a r e h o u s ea n dw o r k f l o wt e c h n o l o g y , i n c l u d i n gh o w t om a k ef u l lu s eo fw o r k f l o wt e c h n o l o g yt o s u p p o r tt h ec o o p e r a t i v e w o r ko f b a n ke c o m m e r c e 3 b a n kc r mm o d e lb a s e do nd a t aw a r e h o u s e u n d e rt h eb a c k g r o u n do fb a n kb u s i n e s s ,a n do nt h eb a s i so f d a t aw a r e h o u s e t h e r e s e a r c hi sa l s of o c u so nt h em o d e lo f c u s t o m e r r e l a t i o n s h i pm a n a g e m e n tt os u p p o n h i g hl e v e la n dm o r ec o m p r e h e n s i v ed e c i s i o n m a k i n ga n a l y s i st h i sm o d e lc a l ln o t o n l ys u p p o r tt h ep r i m a r yo n l i n eb u s i n e s s ,b u ta l s o s u p p o r to n l i n ea n a l y s i s ,w h i c h e n l a r g e st h es e r v i c ef u n c t i o no fb a n kc o o p e r a t i v ee - c o m m e r c ea n dp r o v i d em o r e c r e d i b l es u p p o r tf o r s e t t i n gu pa n dp e r f e c t i n gc u s t o m e rr e l a t i o n s h i pm a n a g e m e n t k e y w o r d s :d a t aw a r e h o u s e ,w o r k f l o w ,e c o m m e r c e ,c o o p e r a t i v ew o r k , c u s t o m e r r e l a t i o n s h i pm a n a g e m e n t 4 。 ! ! 查查兰型! 主竺堡兰 原创性声明 本人郑重声明:所呈交的学位论文,是奉人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究作出重要贡献的个人和集体,均已在文中以明确方式标明。本人完 全意识到本声明的法律责任由本人承担。 论文作者签名:壶叁日期:! 生竺 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被杳阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后戍遵守此规定) 论文作者签名:至塾 导师签名:日期:堡堑红r 山东大学帧l 一学位论文 11 研究背景 第一章绪论 随着银行业务量的日益增加和新产品的不断开发,每天的交易量高达几十万 甚至上百万,数据量已每天接近1 g 的速度增长,对数据库服务器的压力很大。 需要频繁的清理以维持其正常运行。目前,一般采用在线备份或归档技术进行数 据库的数据备份。但是,由于数据库内在的复杂性,存放于介质的历史数据只能 在原有系统状态下整体恢复,无法进行任何查询。另外,由于每次备份只保存了 某一时刻数据库的状态,存放于介质中的数据无法反映历史数据的连续积累和历 史数据的价值,只有某些时刻的片段。因此,从历史数据归档的角度讲,传统技 术存储的数据是片段的、重复的、不完整的,数据只是停留在纸面上、备份中, 尘封在仓库里,随着时间的流逝,无法发挥其应有的作用,其价值难以得到有效 利用。 目莳,我国已加入w t o ,在激烈的国际竞争面前,国内商业银行急需基于历 史数据进行经营管理与决策分析,了解不同类型客户的不同的需求,丌发新的产 品、提供方便快捷、全方位的服务。如何充分发挥历史数据的潜在价值,在优化 银行业传统的联机事务处理系统的同时,构建银行业的联机分析处理系统,为管 理和决策分析提供根本的依据成为银行业所面临的最迫切问题之一。 实际上,银行业经过多年运作,积累了大量的数据,运行模式也由每个地市 的分布式逐步改为全国大中心的集中模式,从而为更有效地建立数据仓库提供了 方便。面对激烈的国际竞争,国内商业银行迫切需要采用数据仓库技术管理历史 数据,以加强本企业的经营管理与决策分析。如何充分利用现有的银行系统并有 效地存储海量的银行数据,是建立数据仓库模型必须考虑的问题。 另外,考虑到原有的业务模式受时间和地点的限制,远远不能满足客户的个 性化需求。所有这些都对金融企业传统的服务方式造成了巨大压力,需要突破目 前的只限于网点、a t m 等单一的服务渠道,为客户提供更为便捷的服务,使其能 山东人学坝i j 学位论文 在任何地点、任何时间选择自己喜欢的方式来进行交易。 电子商务( e - c o m m e r c e ) 的出现,可以从根本上改善金融企业传统的服务方 式,为消费者提供个性化服务。9 0 年代初随着j a v a 和因特网技术的发展,电 子商务越来越成为重要的商务活动方式。它被认为是通过信息技术( i t ) 将企业、 用户、供应商及其它商贸活动涉及的职能机构结合起来的应用,是完成信息流、 物流和资金流转移的一种行之有效的方法。它超越了传统商务的四大障碍:地域 障碍、时间障碍、价格信息对比的障碍和更换供货商的障碍,实现起来效率更高, 成本更低。 但是,目前的银行电子商务系统基本上只能提供信息发布、功能检索和电子 交易,只对个人、企业提供在线金融服务,基本上都不支持决策分析服务,且一 般采用数据库来支持联机交易,在决策分析和协同工作的能力上存在着不足,无 法适应银行业务发展的需求。特别是贷款审批、划帐业务等一些银行关键业务, 其处理流程和业务规则十分复杂,需要众多业务活动之间的交互和众多的业务人 员的协作参与,在现有的银行电子商务系统中更是难以实现。 其实,在电子商务活动中,有关业务活动一般依时序或逻辑关系相互连接成 业务流程。在业务开展过程中,文档、信息或任务,依据组织规范在参与者之岫j 传递、处理或执行。因此,工作流作为描述一个企业或者组织的业务流程的计算 模型 1 5 ,可以在电子商务活动中扮演重要的角色。 近年来,工作流技术、数据仓库在电子商务系统中的应用研究已经成为热点, 但这些研究工作或集中于数据仓库技术在电子商务系统中的应用 1 5 ,以加强 业务分析功能,或集中于工作流技术在电子商务系统中的应用 3 ,1 3 ,1 9 ,构建协 同的工作环境实现业务流程的电子化。据我们所知,目前还没有关于数据仓库、 工作流、电子商务这三种热门技术有机结合的研究。且现有对电子商务的研究更 多的是针对制造业、商场等传统的企业,很少专门针对银行这一特殊行业。在这 些电子商务活动中,银行只是作为中间的职能机构,在资金流中起一定的辅助作 用。其实,作为一种特殊的企业,银行也有自己特殊的产品( 如消费贷款、住房 贷款等) 、客户以及业务流程等。因此,如何针对银行业的特殊需求;7 实现银行 电子商务的协同处理,是一个需要研究的问题。 山东人学硕l j 学位论史 另外,银行业越来越迫切需要电子商务系统提供更多的业务分析功能,对 市场需求作出快速反应,及时发现运行中的出现的问题,决策层的根据业务分析 结果对经营策略做出适当的调整,并及时反馈到运行中,形成良性循环,以便在 激烈的市场竞争中保持更好的优势。数据仓库作为一个为分析统计和决策提供支 持的结构化的数据环境,可使企业通过对数据的分析获得有用的信息,为决策、 业务分析等提供支持。本文以银行业务为背景,研究在数据仓库的支持下,如何 更好地进行客户关系管理,实现更高层次、更为全面的决策分析。在没有数据仓 库的情况下,这些是无法完成的。 目前。企业管理观念发生了巨大的变化,由最初的“销售额中心论”、“利润 中心论”到当今的“客户满意中心论”,客户对产品和服务的满意与否,成为企 业发展的决定性因素,客户的满意就是企业效益的源泉。随着企业管理观念的转 变,最终消费者价值选择的变迁也经历了三个阶段:由最初的“理性消费时代”、 “感觉消费时代”到如今的“感情消费时代”,消费者更加注重消费过程中心灵 上的满足感,价值选择的标准是“满意”与“不满意”,随着经济的全球化,使 得行业之间的划分越来越模糊,竞争越来越激烈,客户采购产品比以往更加理性, 不只是购买产品,而是更加关注是否得到良好的、具有个性化的服务,这些变化 迫切需要企业将“客户关系管理”提到议事日程上,逐渐实现对个人客户关系的 分析、客户交易分析、客户贡献度分析、业务发展分析、资信评估及风险控制。 综上所述,数据仓库、工作流、客户关系管理和电子商务之间不是孤立的, 数据仓库作为一个为分析统计和决策提供支持的结构化的数据环境,可使企业通 过对数据的分析获得有用的信息,为决策、客户关系管理等提供支持。工作流技 术用于实现业务流程的电子化,更好地构建银行电子商务协同处理的工作环境。 电子商务是一个非常大的概念,客户关系管理只是它的一个子集,在电子商务逐 渐渗透到社会各个领域的今天,客户关系管理使企业拥有了一个友好的面向客户 的前端,使电子商务网站提供了可以满足客户个性化需求的工具,能帮助企业顺 利实现由原来传统的企业模式向以电子商务为基础的先进企业管理模式转变。 1 2 本文所做的主要工作 上文列举了银行业面临的一些主要问题,解决了这些问题,就能够实现对银 山东人学硕上学位论史 行历史数据进行合理地存储与管理,对客户关系等需求进行有效地分析,加强银 行经营管理与决策,从而更加有效地完善银行的服务方式,提高银行的市场竞争 力。本文针对上述问题,主要做了如下研究工作: 1 结合银行数据特点,研究建立适合银行业务需求的数据仓库模型,根据数据 性质、存储粒度采用不同的存储方式。同时,由于数据仓库空间开销大,为了节 省存储空间,使用了一种线性变换方法,将事实表中维的属性进行压缩存储。最 后通过实验数据验证上述成果的可行性。 2 以银行业务为背景,研究在数据仓库和数据库的支持下,如何利用工作流技 术建立银行电子商务系统包括如何用工作流技术更好地支持银行电子商务的协 同处理。 3 研究基于数据仓库模型的银行客户贡献度计算模型,使其可在支持原有联机 交易的同时,也支持在线分析,使银行电子商务的服务功能得到扩展为建立和 完善客户关系管理提供更可靠的支持。 1 3 本文的组织结构 本文是这样组织的,在第一章绪论中,介绍银行业务特点及需求,提出银行 业中的数据仓库、电子商务等方面的研究与应用现状及面临的问题,介绍本文所 做的主要工作;第二章讨论本文提出的面向银行业务的数据仓库模型;第三章描 述基于工作流和数据仓库的银行协同电子商务系统:第四章探讨基于数据仓库的 客户关系管理;第五章为全文的结束语及下一步的工作。 山东人学顺| j 学位论文 第二章面向银行业务的数据仓库模型 2 1 面向银行业务的数据仓库模型 数据仓库 9 ,1 l ,2 3 ,2 4 作为一个为分析统计和决策提供支持的结构化的数 据环境,可使人们通过对数据的分析获得有用的信息,为决策提供支持。它把一 个单位的历史数据收集到一个中央仓库中以便于处理。这些数据是面向主题的、 集成的、不可更新并随时间不断变化的。目前在数据仓库技术主要包括下面两种 具体应用方式: 1 ) 关系型数据仓库 它以二维关系表为核心表达多维概念,通过将多维结构划分为两类表:维表 和事实表,使关系型结构能较好地适应多维数据的表示和存储: 2 ) 多维数据仓库 占以多维方式来组织数据,以多维数组方式来存储数据。 数据仓库在数据分析和决策方面为用户提供服务这种系统称为联机分析处 理( o n l i t i eh n a l y t i c a lp r o c e s s i n g :o l a p ) 。o l a p 系统管理大量历史数据,提 供汇总和聚集机制。它有以下几种类型: 关系o l a p ( r o l a p ) :使用关系或扩充关系d b m s 存放并管理数据仓库 多维o l a p ( m o l a p ) :通过基于数组的多维存储,支持数组的多维视图 混合o l a p ( h o l a p ) :结合r o l a p 和m o l a p 技术,得宜于r o l a p 的可伸缩性,和 m o l a p 的快速计算 在多维数据模型的表达方面,多维矩阵比关系表更清晰且占用的存储更少, 山东大学项 学位论艾 这得益于它独特的多维数据库结构以及存贮在其中的预处理程度很高的数据( 般预处理程度在8 5 以上) ;而通过关系表间的连接来查询数据的r o l a p 系统, 系统性能成为最大问题。m o l a p 方案比r o l a p 方案要简明,索引及数据聚合 可以自动进行并自动管理,计算快,但同时丧失了一定的灵活性。r o l a p 方案 的实现较为复杂,但灵活性较好,用户可以动态定义统计和计算方式,另外能保 护在已有关系数据库上的投资。 根据银行业的特点,在现有体系结构基础上,设计并构建面向银行业务的数 据仓库模型,对银行历史数据进行合理地存储与管理,并在此基础上构建银行电 子商务系统、进行客户关系分析。整个系统结构模型如图l 所示。 图l 银行系统结构模型 山东夫学碗i :学位论文 该系统根据预先定制的采集策略,当采集条件满足时,将对生产系统数据源 ( 分布在不同的机器上) 进行抽取、加工处理后,按不同的数据级别来分别存储 到介质库和数据仓库中。 数据仓库和介质库系统都是对历史数据进行管理,只是存贮数据的级别、管 理方法不同: 1 ) 数据仓库系统只负责存储轻度综合和高度综合的明细,以及根据不同角 度、不同层次的维组合计算出的多维数据立方体。其存贮的数据粒度大、存 贮类型单一、主要用于对历史数据的决策支持分析,不必考虑细节性的数据, 有效地节省了存储空间,降低了开销和成本。采用在线分析处理( o l a p ) 管 理大量历史数据,提供汇总和聚集机制,在数据分析和决策方面为用户提供 服务。 2 ) 介质库用来压缩存储报表、凭证和大量的历史细节级明细数据,存贮的 数据粒度小、类型复杂、主要用于对历史数据的保存及查询。采用介质库成 本较低,能满足对历史数据、资料的高效管理,避免了数据仓库管理大量细 节级明细的复杂性,降低了银行的开支。采用近线查询( n e a rl i n eq u e r y : n l q ) 来管理历史数据,即是从存储系统( 介质库) 中已接近于在线的效率直 接查询数据。 银行是以客户为中心来开展业务的。以银行开办的各种个人业务为例,在实 现了实名制的条件下,每个客户下的所有账户都通过与身份证对应的客户编号来 管理,月底将该客户办理的所有业务分别按交易类别进行抽取汇总,存放到数据 仓库中,来实现对个人客户关系的分析、客户交易分析、客户贡献度分析、业务 发展分析、资信评估及风险控制。在数据仓库基础上创建的系统在支持原有联机 交易的同时,也支持在线分析使银行电子商务的服务功能得到扩展,为建立和 完善客户关系管理提供更可靠的支持。 建立数据仓库模型,必须考虑银行现有关系数据库的投资和采用介质库来存 储历史性的细节数据的情况。因此,本文以雪花模型为基础构建关系型数据仓库。 但出于综合后的明细数据仍然非常庞大,数据仓库空间丁r 销大,为了节省存储空 间,引入了多维数据仓库中的线性变换方法 6 。 山东人学颤上学位论文 对于多维数据仓库r ( d i ,d 2 ,d 。;m l ,m 2 ,m k ) ,用多维数组来 存储数据集,其中d 。是维,m j 是度。r 的每一个维用来形成n 维数组的下标, r 的维的值根本不用存储,它们是数组的索引,用来确定度的位置。一个n 维数 组通过线性变换函数: l i n e a r ( x l ,x 2 ,x n ) = x l d 2 d 3 d 。+ x 2 d 3 d n + + x n i d n + x n( 公式i ) 映射到线性数组,定义为逻辑位置。其中,d ,是d 。维表的势( c a r d i n a l i t y ,即维表 中元素的数量1 。 通过公式1 ,我们可以将事实表中的维进行压缩,存储到新的事实表中,来 构建以客户主题为中心的数据模型。 以图2 为例,在以客户主题为中心的事实表中,主要包括客户编号、交易类 型、日期、金融品种、城市代码五个维,所占字节总数为4 0 ,同时要对五个维建 立索引。我们设计的事实表,不再包括各个维的值,而是用逻辑位置( 4 个字节的 长整型) 来代替,只对该字段建立索引两种事实表中的维的值所占数据库空间 的差别约为2 0 倍( 其中包含索引空间的差别至少为1 0 倍) 。整表的数据库空 间差别为6 1 4 倍,即如果事实表数据达到6 1 4 g ,用改进后的事实表只要用l g 空问就可以存储( 见图2 ) 。对于每个事实表,需要创建若干物化视图。那么, 创建的物化视图越多,就会节省更多的空间。 曲事实表 图2 两种事实表 逻辑位置| o n 9 4 交易笔数i n t 2 盒额d o u b l e 4 b ) 改进后的事实表 山东大学硕士学位论文 改进后的维表要对各个维值进行编码( o ,l ,“,其中d i 为d 维表的 势( c a r d i n a l i t y ) ) ,由于维表记录在一定时间内保持稳定,且数量级相对于事实 表来说差别较大,所以对各个维值编码后所占的空间可以忽略不计( 见图3 ) 。 客户编号 姓名 性别 地址 图3 两种维表 这样,由改进后的事实表和维表组成了面向银行业务的数据仓库模型( 见图 4 ( c ) ) 。 客户维 产品维 ( a ) 维袭,毕蛮表 闰4 数据仓库模型 盯萝维敬话表甲明母 个维值进行编码用 拖赳到毋柑0 罾性变 客户编码 性别 年龄段 收入情况 砩i 删i 月 交易类型 金融品种 城市 l 省 交易笔数 金额 。蝴能 扣瑚霉繁i 群警后的 山末大学硕士学位论文 以图4 为例,图4 ( a ) 是以客户主题为中心的维表事实表,维表主要包括 客户维、时间维、空间维、产品维、类型维,其中客户维、时间维、空间维都具 有多个层次,事实表包括客户编号、交易类型、时间编码、金融品种、区域代码 五个维表的主键和交易笔数、金额两个度量值。图4 ( b ) 中的多维数据表,可 以由图4 ( a ) 的各个维表和事实表进行连接计算,在连接时将维度层次信息转 移到事实表中得到将所有的维及其层次、分类汇总在一张表中,可以更方便地从 不同的角度、不同的层次来观察数据。图4 ( c ) 为本文提出的通过线性变换对 维进行压缩计算后的多维数据表,将多维数据表中的每个维值进行编码( 0 ,1 , d i - 1 ) ,其中d 为d 维的势( c a r d i n a l i t y ) ) ,使用前面介绍的公式( 1 ) 将各个维编 码后的值进行线性变换,计算出逻辑位置。通过变换原来多维数据表的多个字段 的数据压缩成一个字段,当维度较多,可根据实际情况压缩成多各字段或将数据 量较大的维单独处理。 假定每个维表都具有5 0 条记录,则它们的组合将在事实表中产生5 0 5 条记 录( 假设没有空缺记录) ,简单起见,假定所有的字段都为8 字节。 图4 ( a ) 中事实表的空间:5 0 5x 7 8 = 1 7 5 g b 维表所占空间较少可忽略不计; 图4 ( b ) 中多维数据库表的空间为:5 0 5 1 2 x 8 = 3 0 g b : 图4 ( c ) 中通过线性变换压缩后的多维数据库表的空间为:5 0 5x 3 x 8 * 7 5 g b : 从上面的比较可以看出多维数据库表比维表事实表占用了大得多的空间,然 而压缩后的多维数据库表所占空间要小得多。在这里,我们还没有计算建立索引 和预先计算各个综合层次的汇总数据的存储空间,如果计算这些空间,差别将会 更加显著。 2 2 聚集算法 在这一部分,主要介绍基于上述压缩后的多维数据库表的聚集算法,我们假 设数据集合中只有一个度量值。用r ( d - ,d 2 ,d 。,v a l u e ) 来表示多维数据集 合。用前面介绍的公式1 进行线性变换得到新的多维数据集合用f a c t ( 1 0 c a t i o n , v a l u e ) 来表示。 山东人学硕j 学位论义 算法的思想大致为: ( 1 ) 求某一个维d 的值( x 。) :用事实表中逻辑位置( y ) 的值整除大于d ,的所 有维的势( d i + ld i + 2 d 。) 的乘积后再模d 的势( d ) : 即x i = y “d i + 1d i + 2 d n 】m o dd , 其中:y :x l d 2 d 3 d n + x 2 d 3 d n + x i d 。+ j d 1 1 + x i + l d i 十2 d n + x n 1 d n + x n ( 公式1 ) 验证:y 【d i + id l + 2 d 。 m o dd i 2 x l d 2 d 3 ,d n + x 2 d 3 d n + x i d i + i d n + x i + i d i + 2 d o + ,+ x n - l d n + x n d h d i + 2 d n 】 r o o d d i 。【x i d 2 d 3 d i + x 2 d 3 d i + x i 1 d i + x i 】r o o dd i 2 x i ( 2 ) 求某连续维d 与d i + 1 的值( x i d i + l + x ) :用事实表中逻辑位置( y ) 的值 整除大于d 。和d i + 1 的所有维的势( d i + 2 d i + 3 d 。) 的乘积后再模d 。与d i + i 势的乘积 ( d i + d i + i ) :即, x i d i + l + x i + l2y “d i + 2 d i 十3 d n 】r o o dd i + d i + l 其中:y = x l d 2 d ) d n 十x 2 d 3 d n + x ,d ,+ 卜d 。+ i d i + 2 d 兀+ x n 1 d 。+ x n ( 公式1 ) 验证:y d i + 2 d i + 3 d n 】r o o dd i + d i + i = 肛j d 2 山山+ x 2 d 3 d n + x i d i 十j 如+ x i + l d i + 2 d + x n - j d n + x n 】 ( d i + 2 d i + 3 d n 】m o dd i + d i + i = x l d 2 d 3 d i d i 十l + x 2 d 3 d i d i + i + x i i d i d i + l + x i d i + l + x i 十i 】m o dd i d i + i = x i d i + i + x i + i 算法1 :聚集算法 输入:所有维的集合( d i ,d 2 ,d 。) ,聚集维的有序集合( a l ,a 2 , a k ) ( d j ,d 2 ,d 。) ,多维数据表f a c t ( 1 0 c a t i o n ,v a l u e ) ,聚集函数f 。 输出:聚集后的集合s ( l o c f ( v a l u e ) ) 。 在下面的描述中,将使用下面的符号作为相关参数。 n :为维的个数 d :d i 维表的势,1 i n a k :最大聚集维( 聚集维集合中的最大值) 山东大学坝i - 学位论殳 聚集步骤: ( 1 ) 从所有维( d i ,d 2 ,d 。) 中找出大于a k 的维( d k 算它们d i ( k i n ) 的乘积,记为q ; ( 2 ) 从聚集维的集合( a i ,a 2 ,a k ) 中找出与a k 连续的维( a 。,a k , 其中1 蔓m k ) ,并计算它们d 。( m i 效) 的乘积,记为w ; 找出与a k 不连续的维( a l ,a 。i 或为空集) ,如果不为空集,分别计 算大于它们的维a l ,am _ l 的d i 的乘积,记为x 卜xm _ i ;即 f o r 每一个大于a i 的维的势d , x 1 = d i + x i f o r 每一个大于am i 的维的势d i x m _ i = d i + x m i ( 3 ) 对多维数据表f a c t ( 1 0 c a t i o n ,v a l u e ) q b 每条记录进行聚集: f o r 多维数据表f a c t ( 1 0 c a t i o n ,v a l u e ) 每条记录d o 用l o c a t i o n 整除q 再模w ,结果记为0 用l o c a t i o n 分别整除x 卜x 。1 再模a i ,a 。i 的d i 结果记为 p i p m 1 ,即: p l = ( 1 0 c a t i o n x o a t p m 1 。( 1 0 c a t i o n x m i ) a m 1 将f ( v a l u e ) 聚集到t ( p 卜p m i ,g ) e n df o r ( 4 ) 将p 1 p 。小g 结果进行线性变换到l o c ,得到s ( l o c ,f ( v a l u e ) ) 。 上面给出的算法1 中,n 为维的个数,k 为聚集维的个数,m 不连续维的个 数,r e k n 。由于面向某一主题的数据仓库的维的个数是固定的,在查询过程中 n ,k 和m 都是常数。n 为事实表中的记录个数,n 会随着历史数据增加而变大。 算法l 中,算法第( 1 ) 、( 2 ) 步所需时间都为0 ( 1 ) 第( 3 ) 步所需时间都为0 ( n ) , 第( 4 ) 步线性变换所需时间都为o ( 1 ) 。因此,算法l 的时f j 复杂度为0 ( n ) 。 山东大学坝f 学位论史 2 3 实例验证 下面我们对多维数据库表( 图4 ( b ) ) 和本文提出的用线性变换压缩后的多维 数据库表( 图4 ( c ) ) 进行实例验证。我们积累了三个不同规模的多维数据库表, 数据库表1 是只有一个城市一个月的数据量,数据库表2 是所有城市一个月的数 据量,数据库表3 是所有城市半年的数据量,在三个表中的纪录条数分别为1 , 5 0 6 , 0 0 0 、1 0 ,5 3 0 ,0 0 0 、5 7 ,0 4 0 ,0 0 0 ,我们对查询时间存储空间做一下比较。表1 是两 种模型中三个不同规模的数据仓库事实表的大小以及查询所需时i n 存储空间的 对比情况。查询时间1 是在原有的多维数据库表下的查询时间,查询时间2 是在 本模型下的查询时间,存储空间l 是在原有多维数据库表下的存储空间,存储空 间2 是在本模型下的存储空间。在测试中我们使用的数据库服务器是h p k e y s t o n e ,操作系统是h p u n i x1 1 i ,r d b m s 是i n f o r m i x d y n a m i c s e r v e r93 。 通过表l 中的数据可以知,查询的时间随着多维数据库表规模的扩大而增加; 相比较而言,本模型的查询时间有所改进,但所占用的存储空间明显减少6 倍多。 因此,在相同的空间下,使用本模型还可以在不影响原查询效率的情况下,创建 更多的物化视图,从而提高整体的查询效率。 表l 两种模型下不同规模数据仓库的查询时间存储空闻的对比情况 数据库表i数据库表2数据库表3 记录数( 条)1 ,5 0 6 0 0 01 0 5 3 0 0 0 05 7 ,8 4 0 ,0 0 0 盎询时问1 ( 秒) 1 03 67 3 6 查询时间2 ( 秒)1 1 4 86 9 5 存储卒间1 ( k b y t e ) 1 2 9 8 1 69 1 5 ,5 8 05 ,0 7 4 ,2 4 0 存储卒问2 ( k b v t e )2 l ,1 8 41 4 9 4 2 0 8 1 0 7 6 0 2 4 本章小结 本章在对银行数据特点及业务需求分析的基础上,研究建立适合银行业务 需求的数据仓库模型,使用了一种线性变换方法,将事实表中维的属性进行压 缩存储。其优点是在保持查询效率不变的情况下,节省了存储空间,且计算较 为简单。 山东大学硕士学位论文 第三章基于工作流和数据仓库的银行协同电子商务系统 3 1 系统结构 电子商务是采用电子技术开展的商务活动。电子商务( e - c o m m e r c e 电子商 务) 、电子商业( e - g u s i n e s s ) 、电子购物( e - s h o p p f n g ) 等实际上具有类似的含 义,只是各自涉及的范围不同而已,此处将这些统称为电子商务。应当说,目前 利用电话、传真开展的商务活动也属电子商务的范畴。但随着计算机和计算机网 络的应用普及,电子商务被赋予新的含义。被认为是通过信息技术( i t ) 将企业、 用户、供应商及其它商贸活动涉及的职能机构结合起来的应用,是完成信息流、 物流和资金流转移的一种行之有效的方法。随着因特网的普及,尤其是w w 服务 的提供,可以声、文、图并茂的方式体现商品的特征,并尽可能地便利用户,尤 其是潜在的、对其他产业的影响,使得电子商务在国内外再掀热潮,电子商务亦 被列为未来十大i t 主导技术之一,迎接新的“电子商务时代”成为人们讨论的 主题。 工作流 2 0 是指整个或部分经营过程在计算机支持下的全自动或半自动化。 在此过程中,文档信息或任务按照一系列程序规则从一个任务执行者传到另一位 执行者。工作流是描述一个企业或者组织的业务处理过程的模型,即将相应的业 务逻辑和业务规则在计算机中以恰当的模型进行表示并对其实施计算,以支持企 业对经营管理和生产组织的过程控制以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 入职课件模板
- 夯实基础管理之道
- 光伏培训课件
- 你身边的5个人课件
- 湖北小池滨江高级中学2025-2026学年高三物理第一学期期末统考模拟试题
- 中小学生航空航天科普知识竞赛试题库及答案
- 2025中央一号文件应知应会试题库和答案
- 产程全程观察与规范化护理指南
- 企业生产安全培训会议课件
- 企业春节前安全教育培训课件
- 2025至2030中国体检医院行业发展趋势分析与未来投资战略咨询研究报告
- 2025至2030中国环境监测行业市场发展现状及投资前景与策略报告
- 2025年广西继续教育公需科目考试题和答案
- 阀门采购管理办法
- 2024-2025年第三方海外仓行业分析与展望报告-亿邦动力
- 企业降本增效课件
- 儿童生长曲线课件
- 《Sketch Up 软件运用》课件(共九章)
- 自来水工程施工课件
- 发酵饲料培训课件
- 电信营业员的理论考试题及答案
评论
0/150
提交评论