




已阅读5页,还剩64页未读, 继续免费阅读
(计算机软件与理论专业论文)银行信贷管理决策支持系统的研究与开发.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
东北大学硕士学位论文 摘要 银彳亍信贷管理决策支持系统的研究与开发 摘要 信贷管理具有相当的复杂性,原因一方面是由于系统所需要的数据来 自不同行业、不同企业、不同的信息管理系统的多源数据,而且数据量大、 采集困难、处理复杂另一方面是由于种种因素所致,使贷款管理系统所 收集的数据很难完整,甚至信息本身就具有不确定性,以往的贷款管理系统 多是以台帐管理为主的o l t p 系统,要在此基础上进行贷款管理的辅助决 策就更加复杂。如何解决这个问题,一直是金融界和计算机业所面临的一 大课题。数据仓库技术的目标是支持决策,这一点正与所要完成的贷款管 理决策目标相吻合。因此采用数据仓库技术开发贷款管理决策支持系统对 于发展数据仓库技术、研究新型辅助决策方法和完成贷款管理及其决策支 持,具有双重现实意义。 本文主要论述了数据仓库系统的基本概念和实现方法,介绍了数据仓 库作为决策支持系统( d s s ) 的一种有效而可行的体系化解决方案应包括 三方面的理论内容:数据仓库( d w ) 、联机分析处理( 0 l a p ) ,数据挖 掘技术( d m ) 。在系统开发方面,结合银行信贷管理的具体情况构建了模 型,利用s q ls e r v e r2 0 0 0 提供的o l a pa n a l y s i ss e r v i c e 平台构建了银 行贷款管理数据仓库系统,还利用o l a p 分析工具对所建的多维数据集进 行联机分析处理,完成了贷款管理中的企业财务分析,降低贷款风险,实 现银行的稳健经营。 关键词:数据仓库多维数据库信贷业务o l a p s q ls o r v e r2 0 0 0a n a l y s i s 东北大学硕士学位论文 目录 t h er e s e a r c ha n dd e v e l e p m e n to fc r e d i tm a n a g e m e n t d e c i s i o ns u p p o r ts y s t e mi nb a n k a b s t r a c t l o a nm a n a g es y s t e mi sr a t h e rc o m p l i c a t e d f o ro n et h i n g ,t h ed a t ai t n e e d sa n df r o md i f f e r e n tt r a d e s ,e n t e r p r i s e sa n dv a r i o u sd a t ai nt h a tc o m p u t e r m a n a g es y s t e m ,t h eh u g ed a t a ,d i f f i c u l t yi nt h ec o l l e c t i o n ,a n dc o m p l e x h a n d l i n go n er e a l l yp r o b l e m s f o ra n t h e r ,t h ed a t ac o l l e c t e db yt h el o a n m a n a g e m e n ts y s t e ma r eh a n dt oc o m p l e t e ,e s p e c i a l l yt h ei n f o r m a t i o ni t s e l fa r e n o td e t e r m i n e d t h el o a ns y s t e ma r em o s t l y ,t h eo l t ps y s t e ma n di ti sm o r e c o m p l i c a t e dt oo p e r a t et h el o a nm a n a g e m e n ts y s t e mo nb a s eo fi t h o wt od e a l w i t ht h ep r o b l e mi sa l w a y sat a s kw h i c ht h ef i n a n c ei n d u s t r ya n dt h e c o m p u t e r i n d u s t r yf a c e t h et h e s i sm a i n l yd i s c u s sa b o u tt h eb a s i c c o n c e p ta n dt h ew a yo f a c c o m p l i s h m e n to ft h ed a t aw a r e h o u s es y s t e m i ti n t r o d u e e sa ne f f i c i e n t s y s t e mp r o g r a mo fs o l v i n gt h ep r o b l e m s ,w h i c ht a k e sw a r e h o u s ea sd e c i s i o n s u p p o r ts y s t e m i ti n c l u d e st h r e ep r i n c i p l ec o n t e n t s :d w o l a pa n dd m i n d e v e l o p i n go ft h es y s t e m ,i ts e tu pt h em o d e lw i t ht h ed e t a i ls i t u a t i o no ft h e b a n kl o a nm a n a g e m e n t i tus e s0l a p a n a l y s i ss e r v i c ep l a tt h a ti n f e r r e db y s q ls e v e r2 0 0 0t ob u i l du pb a n kl o a nm a n a g e m e n ts y s t e ma n di ta l s ot a k e a d v a n t a g eo fo l a pt oa n a l y z ea n dp r o c e s st h em u l t i d i m e n s i o n a ld a t at h a ta r e c o l l e c t e d i ta c h i e v e st h e e n t e r p r i s e sf i n a n c i a la n a l y s i si nt h el o a n m a n a g e m e n ts y s t e m ,l o w e rt h er i s kt h a tg r a n tt h el o a na n dr e a l i z et h eb a n k s w h i c ha r em a n a g e ds t e a d i l ya n ds u r e l y k e yw o r d sd a t aw a r e h o u s em u l t i d i m e n s i o n a ld a t a b a s ec r e d i tm a n a g e m e n t o l a ps q ls e r v e r2 0 0 0a n a l y s i ss e r v i c e - 1 1 1 - 东北大学硕士学位论文 独创性声明 独创性声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中取得 的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过 的研究成果,也不包括本人为获得其他学位丙使用过的材料。与我一同工 作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示 谢意。 学位论文作者签名寰皂釉 日期:洲位 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。 ( 如作者和导师同意网上交流,请在下方签名:否则视为不同意。) t 学位论文作者签名 签字日期: 导师签名: 签字日期: 东北大学硕士学位论文 绪论 第一章绪论 1 1 课题背景及其重要意义 随着计算机技术和互联网技术的发展,社会各行各业的分工、业务流程、管 理流程在发生着重大的改变。而如何运用先进的信息技术构建决策支持系统,实 践电子化,以信息化手段提高银行的各项职能、管理水平和决策准确性,从而更 科学、更有效地为社会、企业和公众服务,目前己成为我国银行越来越紧迫的一 项工作。 信贷是以偿还、付息为条件的价值的单方面转移,体现一定生产方式下的借 贷关系。信贷是金融机构一项重要的业务活动,也是商业银行的传统主营业务。 如何加速资金的流通,提高贷款使用效益,是当前银行管理中的重要问题。贷款 是商业银行的主要资产业务,是运用资金、取得利润的主要途径。贷款的规模和 结构对商业银行的经营成败至关重要。 广发银行建行至今已经有2 0 年的历史,在全国各地设有多家分行,其信贷 管理工作自建行之日起展开,在实际业务中不断得到充实和完善,并且伴随改革 的不断深入,吸收采用了国内外各种先进的管理思想和信息技术,但这种信贷管 理的科学化、现代化、信息化思想基本上仅限于银行的较高决策层,而在下层的 各支行中,信贷管理还远未达到科学化、现代化、信息化的要求水平。 本系统的对象广发银行沈阳分行,内部实行二级管理模式:分行行长作为决 策人对银行业务方向、信贷规模作出总决策,就整个银行而言,他是几十个微观 决策者之一。 由于目前该银行内部信贷还使用传统手工记帐,即便有小型数据库,数据也 是及其零散,不利于查询和分析、工作量大、效率低、易出错、准确性差、及时 性差。同时这种方式提供的信息量也不够大,且比较单一,不能满足现代信贷管 理工作对大量数据和经济信息进行分析的需求,从而也就难以满足微观决策所需 的数据和信息要求,而且任何历史信贷信息是对信贷活动进行分析的重要依据, 缺少了这种数据和信息,分析结果就没有说服力。而本系统的建立,不仅可以提 高银行工作人员的工作效率降低银行工资成本和管理费用等,而且可为信贷管理 的微观决策提供大量数据信息,为决策提供准确、及时、高质量的依据。 贷款管理的主要内容有以下几个方面: 贷款台帐管理 薹! 盔兰堡主堂丝堡羔 堕堇 三级动态管理; 贷前审查考评 赁中管理分析 贷后跟踪调查 信用等级评定 贷款风险分类 确定还款可能性分析 1 2 决策支持系统的产生与发展 1 2 1 决策支持系统的产生 电子计算机问世不久就被应用于管理领域,开始人们主要用它进行简单的 数据处理、编制报表等工作,其目的是实现办公的自动化,通常把这一类系统所 涉及到的技术称作电子数据处理f _ d p ( e l e c t r o n i cd a t ap r o c e s s i n g ) ( 1 ) e d p 把人 们从繁琐的事务处理中解脱出来,大大提高了工作效率。但是,任何项数据处 理都不是孤立的,它必须与其他工作进行信息交换和资源共享,因此有必要对一 个企业或一个机关的信息进行整体分析和系统设计,从而使整个工作协调一致, 在这种情况下,管理信息系统m i s ( m a n a g e m e n ti n f o r m a t i o ns y s t e m ) 应运而生, 使信息处理技术进入了一个新的阶段,并迅速获得发展。管理信息系统是一个由 人、计算机等组成的、能进行管理信息的收集、传递、存储、加工、维护和使用 的系统【2 l 。m i s 能把孤立的、零碎的信息变成一个比较完整的、有组织的信息系 统,不仅解决了信息存放的“冗余”问题,而且大大提高了信息的效能。但是, m 塔只能帮助管理者对信息作表面上的组织与管理,而不能把信息的内在规律更 深刻地挖掘出来为决策服务。于是人们自然期望一种新的信息系统,它在某种程 度七可克服上述缺点,为决策者提供一些切实可行的帮l 功。 早在= 十世纪七十年代初,美国的m i c h a e ls s c o t tm o r t o n 就提出了“决策 支持系统”的概念【3 l ,但是当时d s s 还是停留在研究讨论阶段。然而,自七十年 代以来,与决镣支持系统相关的学科都有了长足的进步:运筹学模型已发展得日 益完善;数理统计及其软件的发展# 人工智能方面的知识表达技术、专家系统语 言和用户界面的发展:高性价比的微机及工作站的出现:d b m s 技术的成熟;各 类高效率软件开发工具的出现等均为决策支持系统的研制和应用提供了良好的 技术准备和物质准备。 技术准备和物质准备。 东北大学硕士学位论文 绪论 1 2 2 决策支持系统的发展 自7 0 年代提出决策支持系统( d s s ) 以来,d s s 已经成为系统工程、管 理科学、人工智能等领域十分活跃的研究课题。 8 0 年代s p r e g u e 提出了决策支持系统三部件结构,即对话部件、数据部件( 数 据库d b 和数据库管理系统d b m s ) 、模型部件( 模型库m b 和模型库管理系统 m b m s ) 1 4 1 。该结构明确了d s s 的组成,也为d s s 的发展起到了很大的推动作 用。 早期的决策支持系统主要是以模型库系统为主体,通过定量分析进行辅助决 策。其模型库中的模型已经由数学模型扩大到数据处理模型、图形模型等多种形 式,可以概括为广义模型。挟镶支持系统的本质是将多个广义模型有机组合起来, 对数据库中的数据进行处理而形成决策问题大模型。 进入9 0 年代后,信息技术界悄然掀起数据仓库( d a t aw a r e h o u s i n g ,简记为 d w ) 、联机分析处理( o n - - l i n ea n a l y t i e a lp r o c e s s i n g 简记为o l a p ) 和数据挖掘 ( d a t am i n i n g ,简记为d m ) 技术的研究和开发热潮,这为克服传统d s s 存在 的问题提供了技术上的支持,使d s s 的发展跃上一个新的台阶。目前开发的综 合d s s 多数是以数据仓库技术为基础以联机分析处理和数据采掘工具为手段 进行实施的_ 整套解决方案。 数据仓库和o l a p 技术到9 0 年代中期已经形成潮流,成为继i n t e r n e t 之后 的又一技术熟点。数据仓库是市场激烈竞争的产物,它的目标是达到有效的决策 支持。大型企业几乎都建立或计划建立自己的数据仓库,数据库厂商也纷纷推出 自己的数据仓库软件。目前,已建立和使用的基于数据仓库的决策支持系统大都 取得了明显的经济效益,在市场竞争中显示了强劲的活力。 我国决策支持系统的研究始于8 0 年代中期【卯,尤其是1 9 8 5 年以后,关于 d s s 的研究课题、各种实际系统以及少数成功案例的介绍越来越多地出现在有关 刊物和报告中。近年来,我国在将数据仓库技术应用于决策支持方面也取得了长 足的进步,不少r r 企业相继推出自己的解决方案,出现了不少成功应用的案例。 1 3 数据仓库技术发展动态 1 3 1 什么是数据仓库 数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合, 东北大学硕士学位论文 用来支持管理人员的决策州。 数据仓库中的数据面向主题,与传统数据库面向应用相对应。主题是一个在 较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域;数据仓库 的第二个显著特点是集成的。数据仓库中的数据是从原有的分散的数据库中抽取 出来的;数据仓库的非易失性是指数据仓库反映的是历史数据的内容,而不是日 常事务处理产生的数据,数据经过统一和综合进入数据仓库后是极少或根本不修 改的;数据仓库里的数据是随时间的变化不断变化的,它不断地增加新的数据内 容、删去旧的数据内容,并且随时间的变化不断地进行重新综合。 1 3 2 数据仓库的产生与发展 计算机系统的功能从数值计算扩展到数据管理距今已有三十多年了。最初的 数据管理形式主要是文件系统,数据的存取方式是固定的、死板的。到了1 9 6 9 年,e e c o d d 博士发表了他著名的关系数据模型的论文f 8 】。此后,关系数据库的 出现开创了数据管理的一个新时代。 近几十年来,大量新技术、新思路涌现出来并被用于关系型数据库系统的开 发和实现:客户服务器系统结构、存储过程、触发器:代价优化等等,这一切使 得关系数据库系统的处理能力比文件系统大大改善。加上近些年来计算机硬件的 处理能力呈数量级的递增,关系数据库最终成为联机事务处理系统的主宰。 整个8 0 年代直到9 0 年代初,联机事务处理一直是数据库应用的主流。然而, 随着应用的不断发展,一方面,现代社会的广泛电子化、数字化产生了海蟹的前 所未有的待加工和处理的原始数据。许多企业、部门并不是缺少数据,而是常常 被过分重复和不一致的数据所困扰,从而越来越难以有效管理和存取这些数据, 这种局面自然导致一个强烈的要求,要求有一种系统能方便地管理这些数据,并 将它转换成一种可信赖的、有用的信息,使之用于决策过程:另一方面,现代企 业经常面临各种挑战,如何最大限度地挖掘各种有用信息,使企业在激烈的市场 竞争中立于不败之地,并获得最大的商业利润,管理者往往要综合利用历史和现 有的各种数据进行综合分析,这也为计算机信息处理技术提出了新的要求。 将大量的业务数据应用于分析和统计是一个非常自然的想法,但在实际的操 作中,人们却发现要获得有用的信息并非如想象的那么容易,这主要表现在以下 几点: 所有联机事务处理强调的是密集的数据更新处理性能和系统的可靠性, 并不十分关心数据查询的方便与快捷。联机分析和事务处理对系统的要求不同, 同一个数据库在理论上都难以做至u 两全。 东北大学硕士学位论文 业务数据往往存放于分散的异构环境中,不易统一查询访问,而且还有 大量的历史数据处于脱机状态,形同虚设。 业务数据的模式针对事务处理系统而设计,数据的格式和描述方式并不 适合非计算机专业人员进行业务上的分析和查询。 因此有人感叹:2 0 年前查询不到数据是因为数据太少了,而今天查询不到 数据是因为数据太多了。针对这一问题,人们设想专门为业务的统计分析建立一 个数据中心,它的数据从联机的事务处理系统中来、从异构的外部数据源来、从 脱机的历史业务数据中来。这个数据中心是一个联机的系统,它是专门为分 析统计和决策支持应用服务的,通过它可以满足决策支持和联机分析应用所要求 的一切。这个数据中心就叫做数据仓库。数据仓库作为决策支持系统和联机分析 应用数据源的结构化数据环境,它所要研究和解决的问题就是从数据库中获取、 处理、组织信息的问题。 1 4 本文研究的内容 数据仓库是计算机应用领域里的一个崭新方向,是来自多个数据源的数据的 拷贝和集成,从历史的角度来组织和存储数据,同时保证关键任务数据的完整性 和安全性,为企业发展提供有效的技术支持。数据仓库已成为9 0 年代以来信息 系统体系结构新的技术焦点。 可见,采用数据仓库方法实现贷款管理决策支持系统是合适的,可以用现金 流量分析说明这一点。运用贷款风险分类法对贷款评级时,最主要是考察贷款的 风险程度,即借款人偿还贷款的可能性,这取决于其还款能力和还款意愿。一般 来说,企业利润是偿还贷款的来源,但不能直接偿还贷款,偿还贷款最可靠的是 现金,贷款人最直接关心的应该是借款人的现金流量。而计算和分析企业过去的 现金流量,可以得出关于借款人现金流量的历史状况和未来还款的一些结论。 例如,从莫顿公司截止到1 9 9 7 年1 2 月3 1 日现金流量表,通过计算模型预 测出该公司1 9 9 8 年现金净流量如表1 1 所示。 表1 1 现金净流量的计算模型 t a l b l e l 1t h ec a l c u l a t i o nm o d e lo f c a s hf l o w s 名称 数量 经营活动的现金净流量1 6 4 投资活动的现金净流量 1 0 7 融资活动的现金净流量 3 0 公司1 9 9 7 年现金流量 2 7 东北大学硕士学位论文绪论 预测结果分析: 莫顿公司1 9 9 7 年经营活动产生现金流量1 6 4 ,固定资产投资和偿还到期 贷款需要支出现金1 3 7 ,所以,将产生现金2 7 ,为正值,表明该公司在未来的一 年里能够偿还到期债务。 1 9 9 7 年固定资产投资大于1 9 9 6 年,在扩大规模之上的再生产资金可以 靠经营活动产生的现金解决,不需外贷,可以推断,该公司在未来几年的发展趋 势良好。 现金流量分析通过历史数据预测未来,以便评估企业的还款能力,这恰好是 数据仓库最基本功能因此采用先进的数据仓库技术完成贷款管理决策支持系 统,能够更有效地支持贷款决策,很好完成贷款管理所以需要研究如何用数据 仓库技术支持辅助决策,研究这种d s s 的系统结构、主要功能模块、数据流程、 以及整个系统的控制和工作流程 1 4 1 研究目标 本文研究的重点是以贷款管理决策系统设计为出发点,探讨了基于数据仓库 技术的信贷管理决策系统的设计、数据迁移、数据呈现工具设计与开发等问题, 并以此为基础来推动自己对于数据仓库技术的研究。研究的目标可归纳为以下三 点: 通过对信贷决策系统设计问题的研究,为系统的研究“数据仓库的理论 和技术”以及为后面全面的开发整个辅助决策系统作准备。 通过使用m i e r o s o r 公司的数据仓库解决方案与软件来实现信贷决策系 统的开发提高数据仓库项目的分析设计与动手能力。 通过已有经验与本文研究成果,整体的来提高自己对于数据仓库研究方 向的能力与水平。 1 4 2 研究成果 在本文中,我的研究成果主要包括以下三个方砸: 在数据仓库建模方面,分析和设计出了信贷决策系统的数据模型。 对于信贷决策系统中数据仓库的数据迁移提出了具体的解决方法。设计 和创建信贷决策系统的多维数据集。为o l a p 分析和数据挖掘提供数据支持。 设计并自行开发出了前端分析工具。熟悉了解了基于分析服务器的客户 前端工具的设计与开发。 东北大学硕士学位论文 第二章信贷管理d s s 的技术基础 第二章信贷管理d s s 的技术基础 2 1 数据仓库基本概念 决策就是依据某些数据,对企业现状进行分析,并决定采取相应措施来推动 企业的发展。但让决策者在浩如烟海的企业信息系统中找出这些数据可能并非易 事,正是为了这样的目的,企业需要设置数据仓库。 2 1 1 数据仓库的概念与特点 数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用于支持 经营管理中的决策制定过程。 数据仓库的特点: 数据仓库是面向主题的 主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。如销售 公司的数据仓库的主题为:客户、产品、时间、地区等,根据主题的需要完整地 收集数据,这样构建的数据仓库才能满足决策和分析的需要。 数据仓库是集成的 数据进入数据仓库之前,必须经过加工与集成。对于不同的数据来源进行统 一数据结构和编码。统一原始数据中的所有矛盾之处,如字段的同名异义、异名 同义、单位不统一、字长不一致等,总之将原始数据结构做成一个从面向应用到 面向主题的大转变。 数据仓库是稳定的 数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后是极少或根 本不更新的。 数据仓库是随时间变化的 数据仓库的数据时限在5 1 0 年,因此数据的键码包含时间项。标明数据的 历史时期,这适合d s s 进行时间趋势分析。 数据仓库中的数据量很大 通常,数据仓库的数据量为1 0 g b 级,相当于一般数据库1 0 0 m b 的1 0 0 倍, 大型数据仓库是一个t b ( 1 0 0 0 g b ) 级数据量。 东托大学硕士学位论文第二章信贷管理d s s 的技术基础 2 1 2 数据仓库结构 数据仓库是在原有关系型数据库基础上发展形成的,但不l :1 于数据库系 统的组织结构形式,它从原有的业务数据库中获得基本数据和综合数据被分成一 些不同的层次。一般数据仓库的结构组成如图2 1 所示,包括当前基本数据、历 史基本数据、轻度综合数据、高度综合数据、元数据1 1 】。 高度综合数据屠 轻度综台数据层, 当前数据屠 历史数据层 图2 1 数据仓库结构图 f i 9 2 1d a t a b a s es t l l l c t u r e 当前基本数据是最近时期业务数据,是数据仓库用户最感兴趣的部分,数据 量大。当前基本数据随时间的推移,数据仓库的时间控制机制转为历史基本数据, 一般被转存介质中。轻度综合数据是从当前基本数据中提取出来的,设计这层数 据结构会遇到综合处理数据的时间段选取。综合数据包含那些数据属性和内容等 问题。最高一层是高度综合数据层,这一层的数据十分精练,是一种准决策数据。 整个数据仓库的组织结构是由元数据来组织的,它不包含任何业务数据库中 的实际数据信息。元数据在数据仓库中扮演了重要角色,它至少包括以下一些信 息:数据结构,用于综合的算法,从业务环境到数据仓库的规划。 2 1 3 数据仓库数据库 在s q ls e r v e r2 0 0 0 中,狭义的数据仓库是一个数据库,包含那些通常表示 某个组织机构业务历史的数据。通过数据仓库中历史数据的分析,可以支持对分 东北大学硕士学位论文第二章信贷管理d s s 的技术基础 散的组织单元进行从策略计划到性能评估的多级业务决策。对数据仓库中的数据 进行组织是为了支持分析,而不像在联机事物处理系统( o l t p ) 中那样是为了 处理实时事物。 广义的数据仓库则包括两部分:方面是数据仓库数据库,用于存储数据仓 库的数据;另一方面是数据分析部分,用于对数据仓库数据库中的数据进行分析。 在s q l s e r v e r 2 0 0 0 中,创建数据仓库数据库的方法与创建一般数据库的方 法相同,用户数据表一般有若干个事实数据表和些描述维度的维度表。 2 2 数据仓库p w ) 模型的设计与实现 数据仓库在构建之初应明确其主题。主题是一个在较高层次将数据归类的标 准。每一个主题对应一个宏观的分析领域,针对具体决策需求可细化为多个主题 表,每个主题表就是确定决策涉及的范围和所要解决的问题。 数据仓库的设计过程要经历概念模型、逻辑模型和物理模型三个设计阶段 2 1 1 。 o 图2 2 数据模型设计过程 f 9 2 2p t o c c c co f t h ed a t am o d e ld e s i g n 2 2 1 数据仓库概念模型设计 概念模型。 逻辑模型。 物理模型。 超立方体可用超出三维的表示来描述一个对象( 对象可以是客户、产品、营 销策略等) ,它完全可以满足数据仓库的多维性。使用自上而下的方法设计一个 超立方体的步骤如下: 确定模型中需要抓住的商业过程,如销售活动或销售过程。 确定需要获取的值,如销售数量与销售成本。 东北大学硕士学位论文第二章信贷管理d s s 的技术基础 确定数据的粒度,即需要获取最低一级的详细信息。 2 2 2 数据仓库逻辑模型设计 数据仓库主要提供的是查询操作,作为最便于执行查询操作的逻辑模型设计 工具星型图,因此我们利用星型图建模技术为数据仓库建立完善的逻辑模型。星 型图模型从支持商务决策者的观点的角度来定义数据实体的,这些实体反映了商 务重要运行方面的内容。星型图有三个逻辑实体,即维度、指标和类别,从数据 仓库的概念模型转换成数据仓库的逻辑模型( 星型图模型) 的过程可以分为以下 几个步骤: 定义指标实体( 事实表) 。指标实体位于星型图的中心,是用户最关心 的基本实体和查询活动的中心,为用户的商务活动提供定量数据。每一个指标实 体代表一系列相关事实。 定义维度实体。一个维度实体对应指标实体的多个指标,用户使用维度 实体来访问指标实体,其实质是对应着逻辑数据实体,一个维度实体对应着表中 的一个歹。 定义详细类别实体。一个详细类别的实体与现实世界中某一个实体相对 应,例如一个顾客,一个商店或一个市场等。它支持指标数据,并且在做出决策 过程中提供更加详细的或大量的信息来支持决策制定。 2 2 3 数据仓库物理模型设计 根据星型模型可以方便地定义出数据仓库的物理数据结构。一般将指标实体 和详细类别实体转变为一个具体的物理数据库表,称为事实表。当维度实体转化 为数据库表时,称为维表,它包括每一层次的主码和对应的值。维表和事实表通 过维关键字相关联。在物理设计阶段,需要确定以下的内容: 规定数据质量指标,规范数据仓库中的各种数据。 定义实体、实体特征以及实体所具有的一切属性。 2 3 数据仓库系统组成 数据仓库系统由数据仓库、仓库管理和分析工具三部分组成。其结构图如图 2 3 所示。 数据仓库的数据来源于多个数据源。数据源包括企业内部数据、市场调查 东北大学硕士学位论文 第二章信贷管理d s s 的技术基础 报告以及各种文档之类的外部数据。 2 3 1 数据转换 图2 3 数据仓库系统结构图 f i 9 2 3d a t ab a s es y s t e ms t r u c t u r e 由于数据的来源可以是企业内部的或是外来的,常常是由不同的数据系统、 不同的操作系统及应用生成。数据不但容易出现不整齐或重复的现象,而且数据 在原来不同的应用场合可能采用了不同的单位、制式,甚至数据类型和格式也不 同。因此,从各种途径收集上来的源数据不能简单地加载到数据仓库中。数据仓 库的数据是面向主题的,源数据在加载到数据仓库之前必须经过数据转换,也叫 数据整合。数据仓库技术中有专门的机制进行数据的检查、核对的技术手段。数 据转换,可以使数据完整、统一,确保了在使用数据仓库时其中的数据的质量保 证。 此外,从源数据中引入的数据必须进行完整性检查。在一条记录中的各个数 据项应保持完整的存在关系,一经发现缺项应设法补齐,否则容易导致统计上的 错误。数据的有效性也必须进行核对,以防止将源数据中的错误带入决策过程中, 进行诸如此类必要的清理工作,才能有效保证决策支持系统所使用的数据质量。 因此,构造数据仓库,首先从数据源中析取、集成、转换和聚合,并存入到 数据仓库中。 2 3 2 数据仓库管理系统( d w m s l 在确定数据仓库信息需求之后,首先进行数据建模,确定从源数据到数据仓 库的数据抽取、清理和转换过程,划分维数以及确定数据仓库的物理存储结构。 元数据是数据仓库的核心,它用于存储数据模型、定义数据结构、转换规划、仓 东北大学硕士学位论文第二章信贷管理d s s 的技术基础 库结构、控制信息等。 数据仓库管理系统由以下几部分组成: 定义部件:包括设计和定义数据仓库的数据库、定义数据来源等。 数据获取部件:该部件把数据从源数据中提取出来,依定义部件的规则,抽 取、转化和装载数据进入数据仓库。 信息目录部件( 元数据) :数据仓库的目录数据是元数据,由三部分组成: 技术目录( 关于数据源、目标、清理规则、变换规则以及数据源和仓库之间的映 象信息) ;业务目录( 由仓库管理员生成) ;信息引导器( 使用户便于访问数据仓 库) 。 d b m s 部件:数据仓库的存储形式仍为关系型数据库,因此需要利用d b m s ( 数据库管理系统) 。 2 3 3 数据仓库分析工具 由于数据仓库的数据量大,必须有一套功能很强的分析工具来实现从数据库 中提取辅助决策信息,完成决策支持系统的各种要求。 分析工具分两类: 查询工具:数据仓库的查询不是对记录级数掘的查询,而是对分析要求的查 询。一般有可视化工具、多维分析工具。 挖掘工具:从大量数据中挖掘具有规律性的知识,需要利用数据挖掘工具 2 3 4 数据仓库的客户,服务器结构形式 数据仓库应用是一个典型的客户服务器( c s ) 结构形式。数据仓库采用服 务器结构,客户端所做的工作有:客户交互、结果显示、查询等。服务器端完成 各种辅助决策sq l 查询、复杂的计算和各类综合功能等。 2 4 数据仓库的数据组织 2 4 1 多维数据概念 数据仓库的组织结构采用的是多维结构,多维结构是决策支持的支柱,也是 o l a p 的灵魂。 东北大学硕士学位论文第二章信贷管理d $ s 的技术基础 维 如果一个商店的经理,很想知道哪些因素影响销售,如商店、时间、产品等 因素。这里,商店、时间和产品就可以作为维。各个商店的集合是一维,时间的 集合是一维,商店的集合是一维。维就是相同类数据的集合,也可以理解为变量 维。每一个销售事实由一个特定的商店、一个特定的时间、一个特定的商品组成。 维有自己的固有属性:( 1 ) 层次结构,对数据进行集合分析时要用到层次结构; ( 2 ) 排序,定义变量时要用到;( 3 ) 计算逻辑( 基于矩阵算法) ,可有效地指定规则。 这些属性对进行决策支持时非常有用的。 多维性 我们很容易理解一个二维表,如通常的电子表格。对于三维立方体,我们也 容易理解。o l a p 通常将三维立方体的数据进行切片,显示三维的某一平面。在 三维表的基础上再增加一维就构成多维表,多维表指三维及三维以上的表。 2 4 2 多维表模型 数据仓库是以多维表型的“维表一事实表”结构形式组织的,共有两种形 式: 星型模型 大多数的数据仓库都采用“星型模型”。星型模型是由“事实表”( 大表) 以及多个“维表”( 小表) 所组成,“事实表”中存放有大量关于企业的事实数据 ( 数量数据) 。通常都很大,而且非规范化程度很高。“维表”中存放描述性数据, 维表是围绕事实表建立的较小的表。星型模型数据如图2 4 所示。 东北大学硕士学位论文 第二章信贷管理d s s 的技术基础 定货表 产品表 图2 4 星型模型 f i 9 2 4s t a rm o d e l 雪花模型 雪花模型是对星型模型的扩展,雪花模型对星型模型的维表进一步层次化, 原来的各维表可能被扩展为小的事实表,形成一些局都的“层次”区域。它的优 点是最大限度地减少数据存储量,以及把较小的维表联合在一起来改善查询性 能。 在图2 4 的星型模型中,对“产品表”、“日期表”、“地区表”进行扩展形成 雪花模型数据如图2 5 所示。 图2 5 雪花模型 f i 9 2 5s n o wm o d e l 东北大学硕士学位论文 第二章信贷管理d s s 的技术基础 2 4 3 多维表的设计 设计多维表格的步骤如下: 确定决策分析需求 如分析销售额趋势、对比产品销售量、促销手段对销售的影响等。 从需求中识别出事实 如以销售情况维作为事实。 确定维 对销售情况的维包括商店,地区,部门,时间,产品等,如图2 6 所示 时问 商店 图2 6 销售情况的多维数据 f i 9 2 6m u l t i d i m e n s i o n a ld a t ao f t h es a l e ss i t u a t i o n 确定数据概括的水平。 设计事实表和维表。 确定数据需求。 。接着需求变化修改设计方案。 2 4 4 事实数据表与维度表 在数据仓库数据库中,用户数据表一般有若干个事实数据表和一些描述维度 表。 事实数据表 每个数据仓库都包括一个或多个事实数据表。事实数据表可能包含业务销售 数据。事实数据表通常包含大量的行。有时当事实数据表包含大型机构一年或几 年的历史数据时,可能有数亿条记录。 事实数据表的主要特点是包含数字数据( 事实) ,而这些数字数据可以汇总, 以提供有关单位运作历史的信息。每个事实数据表还包括一个由多个部分组成的 东北大学硕士学位论文 第二章信贷管理d s s 的技术基础 索引,该索引包含作为外键的相关性维度的主键,而维度表包含事实记录的特性。 事实数据表不应包含描述性信息,也不应该包含除数字度量字段以及使事实与维 度表中对应项相关的索引字段之外的任何数据。如图2 5 中前5 个字段( 定单 号、客户号、地区名称、产品号、日期标识) 是与维度关联的字段,称为“维度 字段”。2 个字段( 数量、总价) 是“数字字段”,也称为“度量值”。 一般来说,一个事实数据表都需要和一个或多个维度表相关联,如图2 5 所 示。 维度表 维度表可以看作用户用来分析数据的窗口。维度表包含描述事实数据表中事 实记录的特征。有些特征提供描述性信息,有些特征则用于指定如何汇总事实数 据表数据,以便为分析者提供有用的信息。 在维度表中,每个表都包含独立于其他维度表的事实特性。例如,客户维度 表包含有关客户的数据,产品维度表包含有关产品的信息,而商店维度表包含有 关商店的信息。 维度表中的列( 字段) 可用于将信息分为不同的层次结构级,例如地区 ( r e g i o n ) 维度表可以包含层次列为c o u n t r y - - p r o v i n c e - - c i t y 三个层次。 维度表也可能和另一个维度表相关联,如图2 5 所示。其中的“产品”维度 表和“区域”维度表相关联。被关联的维度表( 耳录) 对主关联维度表( 产品) 做进一步细化。 2 4 5 维度和维度类型 维度 维度是分类的有组织的层次结构,称为级别。它描述数据仓库中事实数据表 的数据。维度一般描述一类成员的相似集合,用户将基于该集合进行分析。维度 是多维数据集的基本组件。 维度是有层次的,在大多数情况下维度的成员会按金字塔形式布局排列。水 平布局出维度层次结构中具有相同级别的列构成,而垂直布局由维度层次结构中 具有不同级别的列值构成,如图2 7 所示。 东北大学硕士学位论文 第二章信贷管理d s s 的技术基础 图2 7 地区维中的层次关系 f i 9 2 7l e v e lr e l a t i o ni nt h ea r e al i n k s 成员是维度级别的组成部分。每个级别都包含多个成员。成员就是列中的值 或定义这些级别的成员属性,如上图所示。 其中,“地区”级别有“西北地区”、“东北地区”、“华北地区”等成员,“省 份”级别东北地区有“黑龙江省”、“辽宁省”、“吉林省”等成员,而辽宁省又包 括“沈阳市”、“大连市”等城市。 成员属性是维度成员的一个特性,它为最终用户提供成员的其他信息。 维度类型 在s q l s e r v e r2 0 0 0a n a l y s i ss e r v i c e s 中,维度有两种分类方法:一种是按使 用方式分类;另一种是按创建方式分类。 按使用方式分类,维度可以分为“共享维度”和“专用维度”。 “共享维度”可以在单个多维数据集和多个多维数据集中使用。“专用维度” 是为个别多维数据集创建的维度。 按创建方式分类,维度可以分为“常规维度”、“虚拟维度”、“父子维度”和 “数据挖掘维度”等几种。常规维度就是用“星型架构”方式和“雪花架构”方 式创建的维度;虚拟维度就是选择另一维度中的一个或多个成员属性作为维度的 级别,每个成员属性都为维度提供一个级别,此类维度的数据是在运行中得到, 不占用磁盘空间;父子维度是从单个维度表内选择两列作为维度的级别,其中一 列作为维度的成员,另一列作为维度的父代;数据挖掘维度就是由挖掘模型分析 的结果创建的。 东北大学硕士学位论文 第二章信贷管理d s s 的技术基础 2 4 6 维度存储模型 在s q ls e r v e r2 0 0 0 中,维度可以选择两种存储模式中的一种来进行存储。 维度的两种存储模式为:多维o l a p ( m o l a p ) 模式和关系o l a p ( r o u 撑) 模式。m o l a p 模式是维度的默认存储模式。 存储模式决定维度数据的位置和形式。采用m o l a p 存储模式存储维度的数 据以多维结构存储在o l a p 服务器上。该结构是处理维度时创建的。采用r o l a p 存储模式存储的维度数据以数据表形式存储在o l a p 服务器上。存储r o l a p 维 度的数据可以是一个或多个表。 m o l a p 存储模式维度提供的查询性能比r o l a p 存储模式维度更好。但是, 具有1 千万或更多个成员的巨型维度不支持m o l a p 存储模式。如果特别大的维 度采用了m o l a p 存储模式将会产生错误。 2 5s q ls e r v e r 数据仓库解决方案简介 在这- 4 , 节中我将简要介绍m i c r o s o f t 公司的s q ls e r v e r 数据仓库解决方 案。首先介绍m i c r o s o t 【公司数据仓库框架、s q ls e r v e2 0 0 0 数据仓库功能简 介。在下一章中将讨论利用此框架来实现贷款数据仓库各部件的实现。 m i c r o s o f t 公司数据仓库框架不仅是诸如s q ls e r v e2 0 0 0 等m i c r o s o f t 产品开 发的目标,而且是与其它软件商品技术集成所需的目标。其目标是简化数据仓库 解决方案的设计、实现和管理,其框架如图2 8 所示。 基于该框架的s q l s e r v e r2 0 0 0 已经在性能和可扩展性方面确立了世界领先 的地位,是一套完全的数据库和数据分析解决方案,使用户可以快速创建下一代 的可扩展电子商务和数据仓库解决方案。m i c r o s o f t 将o l a p 功能集成到 m i c r o s o f ts q ls e r v e r 中,提供可扩充的基于c o m 的o l a p 接口。m i c r o s o f t o m c e2 0 0 0 套件中的a c c e s s 和e x c e l 可以作为数据展现工具,另外s q ls e r v e r 还支持第三方数据展现工具。 s q l s e r v e r2 0 0 0 数据仓库功能简介: 可伸缩性 s m p 硬件包括从流行于小型企业的双处理器系统到财富5 0 0 强公司数据中 心内的1 6 路和3 2 路系统。通过更好地利用这些越来越常见的并行多处理s m p 硬件,s q ls e r v e r2 0 0 0 可以完成更多的操作。例如,多t g 数据仓库可以并 行索引创建中获益,其作用就是极大地减少创建事实数据表索引所需的时问。 东北大学硕士学位论文 第二章信贷管理d s s 的技术基础 图2 8m i c r o s o f t 数据仓库框架 f i 9 2 8 t h e f r a
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 髋部肌群解剖课件
- 船舶货物储存条件监管规范
- 天然气市场消费规程
- 传统文化元素与现代服饰的融合方案
- 工业自动化系统应用指南
- 2025至2030中国防水对讲机行业项目调研及市场前景预测评估报告
- 工作职责如何体现个人价值
- 地产销售渠道规划
- 2025云南省临沧市镇康县实验中学自主公开招聘教师(15人)笔试备考试题及答案解析
- 农田土地资源的整合与利用
- 2025年AI应用正当时详解AI应用开发新范式报告-阿里云
- 《高速铁路动车组辅助设备维护与检修(第2版)》课件 任务三四 CRH380B型动车组车门系统
- 单梁吊培训课件
- 语言技术对社会语言的影响-洞察阐释
- 抑尘网抑尘效果的风洞试验方法研究
- 2025至2030中国纳米纤维材料行业产业运行态势及投资规划深度研究报告
- 2025-2030中国蒸压加气混凝土(AAC)行业运行态势与未来前景展望报告
- 天车司机安全试题及答案
- 医疗卫生关键岗位权力清单管理制度
- 企事业单位车辆无偿借用协议范本
- DZ/T 0263-2014地面核磁共振法找水技术规程
评论
0/150
提交评论