(计算机软件与理论专业论文)基于数据仓库技术的零售贷.pdf_第1页
(计算机软件与理论专业论文)基于数据仓库技术的零售贷.pdf_第2页
(计算机软件与理论专业论文)基于数据仓库技术的零售贷.pdf_第3页
(计算机软件与理论专业论文)基于数据仓库技术的零售贷.pdf_第4页
(计算机软件与理论专业论文)基于数据仓库技术的零售贷.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

(计算机软件与理论专业论文)基于数据仓库技术的零售贷.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

燮燮燮燮鲨型堕塑芏三竺6 6 基于数据仓库技术的 零售贷款风险评估的研究与实现 摘要 随着中国加入W T O 金融服务业将面临巨大的机遇和挑战 国内各商业银行 除了彼此之间相互竞争外 还将迎接许多世界级外资银行的挑战 利用先进的数 据仓库技术建立集中的 包含详细交易数据的商业智能解决方案 已经成为各大 银行加强内部管理和经营决策支持 提高风险监控和赢利能力的重要手段 本文针对某银行广东省分行基于数据仓库技术的 零售贷款风险评估系统 R L R S 的研究及实现 重点论述了作者在本系统中数据模型创建 零售贷款 多维分析和准入评分挖掘的实现 并结合作者从事银行数据仓库的实际经验 论 述了数据仓库技术及其分析技术对银行业务所起的重要作用 本文结合数据仓库技术开发的零售贷款风险评估系统 具体从数据模型创 建 数据提取 联机分析与数据挖掘应用等方面作论述 对数据仓库技术的应用 进行了实质性的探索 该系统目前已经投入使用 在贷款营销 风险防范方面都给银行管理者和信 贷员提供高效的决策支持 最后 本文就实际应用情况做了回顾和分析 关键词 数据仓库 零售贷款的风险评估 联机分析处理 数据挖掘 决策支持 系统 基于数据仓库技术的零售贷款风险评估的研究与实现 T i t l e T h eR e s e a r c ha n dI m p l e m e n t a t i o no fR e t a i lL o a n sR i s k S c o r i n gB a s e do nt h eD a t aW a r e h o u s eT e c h n o l o g y M a j o r C o m p u t e rS o f t w a r e A n d T h e o r y N a m e L a nC h a n S u p e r v i s o r L i a n gH u a j i n A b s t r a c t T h ef i n a n c i a ls e r v i c c s f a c eb o t h s i g n i f i c a n t l ye x p a n d e do p p o r t u n i t i e sa n d c h a l l e n g e sa f t e rC h i n a se n t r yi n t ot h eW T O C i v i lc o m m e m i a lb a n k sm u s tc o m p e t et o e a c ho t h e r s A n dt h e yf a c em a n yn e wc h a l l e n g e st of o r e i g nc a p i t a lb a n k sa l lo v e rt h e w o r l d M a n yb a n k sh a dt a k i n ga d v a n t a g eo fa d v a n c e dD a t aW a r e h o u s et e c h n o l o g i e s t ob u i l di n t e g r a t e dB Is o l u t i o nw i t hd e t a i lt r a n s a c t i o nd a t a I th a sa l r e a d yb e e n r e g a r d e da sa ni m p o r t a n ti n s t r u m e n t a l i t yf o rb a n k st oe n h a n c ei n t e r n a lm a n a g e m e n t a n db u s i n e s sd e c i s i o ns u p p o r t s a n di n c r e a s et h ea b i l i t i e so fr i s km o n i t o r i n ga n d p r o f i t m a k i n g T h i st h e s i sU S e St h ea d v a n c e dd a t aw a r e h o u s et h e o r ya n dt e c h n o l o g y U n d e rt h e b a c k g r o u n do ft h er e s e a r c h d e v d o p m e n ta n di m p l e m e n t a t i o no ft h eR e t a i lL o a n s R i s kS c o r i n gS y s t e m R L R S i nb a n k SG u a n g D o n gb r a n c h t h i st h e s i sp r i m a r i l y e x p o u n d sb u i l d i n go ft h ed a t am o d e l t h er e t a i ll o a n sm i l t u d i m e n s i o na n a l y s i sa n d t h e i m p l e m e n t a t i o no fa d m i s s i o ns c o r i n gm i n i n g I nt h em e a n t i m e e m p h a s i si sa l s op u t o nt h ee f f e c to ft h ed a t aw a r e h o u s et e c h n o l o g ya p p l i e di nt h eb a n k w h i c hw a s d e m o n s t r a t e db yt h ea u t h o r Sw o r k i n ge x p e r i e n c e I nt h i st h e s i s ar i s ks c o r i n gs y s t e mf o rr e t a i ll o a n sw i l lb ei n t r o d u c e d I ti sb a s e d o nd a t aw a r e h o u s et e c h n o l o g y T h i st h e s i sd e s c r i b e st h ed e s i g no fs y s t e mf r o md a t a m o d e ld e s i g n i n g d a t ae x t r a c t i n g o n l i n ea n a l y s i sa n dd a t am i n i n ga p p l i c a t i o ne t c I t m a yb eam a t e r i a lm s e a r c hf o ra p p l i c a t i o n so fd a t aw a r e h o u s et e c h n o l o g y 2 知识水坝 damdoc damdoc为您倾心整理 小店 QQ 2218108823 差王墼堡垒壁垫查塑墨笪堡塾墨堕堡笪塑里窒兰塞垫 T h er e t a i ll o a n sr i s ks c o r i n gs y s t e mh a db e e np u ti n t ou s e A n di tp r o v i d e sh i g h e f f i c i e n c yd e c i s i o ns u p p o r t sf o rm a n a g e r sa n dc r e d i to f f i c e r st ol o a nm a r k e t i n ga n d r i s kp r e v e n t i o n F i n a l l y t h i st h e s i sr e v i e w sa n d a n a l y s e st h eD Wa p p l i c a t i o n K e y w o r k D a t aw a r e h o u s e R L R S O L A P D a t aM i n i n g D S S 3 知识水坝 damdoc damdoc为您倾心整理 小店 QQ 2218108823 基于数据仓库技术的零售贷款风险评估的研究与实现 第一章数据仓库应用综论 随着计算机技术的飞速发展和企业界源源不断的新需求出现 数据仓库应运 而生 数据仓库概念始于本世纪9 0 年代初期 首次出现是在号称 数据仓库之 父 w i l l i a mH I n m o n 的 B u i l d i n gt h eD a t aW a r e h o u s e 一书中 现在 数 据仓库技术已经为各行各业所起用 发挥着重要的决策作用 并得到高效的回报 根据美国b l E T A 集团的调查 数据仓库技术在美国金融业 青4 造业 商贸业以及 社会服务等方面都得到广泛的应用 已经采用数据仓库的企业的投资回报率均在 4 0 以上 部分企业高达每年6 0 0 1 1 数据仓库定义及其体系结构 1 1 1 数据仓库基本概念 数据仓库概念的形成以号称 数据仓库之父 W i l l i a mH I n m o n B u i l d i n g t h eD a t aW a r e h o u s e 一书在1 9 9 2 年出版为标志 随着人们对大型数据系统研 究 管理 维护等方面的深刻认识和不断完善 在总结 丰富 集中多行企业信 息的经验之后 业界为数据仓库给出了更为精确的定义 即 数据仓库是在企业 管理和决策中是一个面向主题的 S u b j e c tO r i e n t e d 集成的 I n t e g r a t e 相 对稳定的 N o n V o l a t i l e 反映历史变化 T i m eV a r i a n t 的数据集 合 n 8 m 从数据仓库的功能上 可以将数据仓库定义为一种信息环境 它能够提供对 企业综合而完整的概括 使决策所需要的当前数据和历史数据都方便易得 无需 妨碍操作型系统也能支持的处理成为可能 使企业的信息保持一致性 提供了一 个灵活的 交互的战略信息来源 1 1 2 数据仓库体系结构 数据仓库既是一种结构和富有哲理性的方法 也是一种技术 数据和信息从 不同的数据源提取出来 然后把这些数据转换成公共的数据模型并且和仓库中已 有的数据集成在一起 当用户向仓库进行查询时 需要的信息已经准备好了 数 据冲突 表达不一致等问题已经得到了解决 这使得决策查询更容易 更有效 作为一个系统 数据仓库至少应包括3 个基本的功能部分 6 基于数据仓库技术的零售贷款风险评估的研究与实现 l 数据获取 这个部分负责从外部数据源获取数据 数据被区分出来 经过提取 清洁 转换 聚集等步骤得到集成和综合的数据 载入数据仓库 2 数据存储和管理 这个部分负责数据仓库的内部维护和管理 提供的服务包括数据存储的组 织 数据的维护 数据的分发 数据仓库的例行维护等 3 信息访问 信息访问部分属于数据仓库的前端 面向不同种类的最终用户 这里主要由 桌面系统的各种工具组成 数据仓库的最终用户在这里提取信息 分析数据集 实施决策 从而可望取得竞争优势 进行数据访问的软件工具 主要是可视化工 具 多维分析工具和数据挖掘工具等 这里也是工具制造商们竞相争夺的地段 新的发展趋势是把信息访问工具紧密集成到数据仓库系统中 数 据 仓 虐 工 具 层 圈卜1 数据仓库系统的基本体系结构 信息访问 数据存储靶管理 数据获取 图卜1 显示了数据仓库系统的基本体系结构图 三个功能分别对应了三个 不同层次 底层是数据源 不但指那些常见的数据库 也包括文件 H T M L 文件 7 数据仓库一数据源 I 一一 基于数据仓库技术的零售贷款风险评估的研究与实现 知识库 遗留系统等各种数据源 向上是数据仓库层和数据仓库工具层 最上层 是最终用户 虽然图中表示的是单一 集中的仓库 但仓库能够以分布式数据库 系统来实现 实际上 为了获得期望的性能 常常需要数据的并行和分布处理 1 2 数据仓库对决策支持系统 D D S 的支持与发展 进入9 0 年代后 信息技术界悄然掀起数据仓库和O L A P 技术及数据采掘技术 的研究和开发热潮 这为克服传统D D S 存在的问题提供了技术上的支持 使D D S 的发展跃上一个新的台阶 也为D D S 开辟了一条新的途径 目前开发的综合D D S 是以数据仓库 D a t a W a r e h o u s e 技术为基础 以联机分析处理 O L A P 和数据 采掘 D a t a M i n i n g 工具为手段进行实施的一整套解决方案 1 数据仓库正是这样一种支持企业或组织管理决策过程的 面向主题的 集成 的 随时间不断变化的管理技术 它以构建新的分析处理环境 为决策者提供信 息 支持决策分析处理为目标 通常数据仓库提供的工具可分为三类 可进行日 常事务操作的报表查询类工具 O I A P 验证型工具和D M 挖掘型工具 利用这些 工具数据仓库就可以支持决策分析过程 其对决策系统的支持可以表现在下面三 方面 1 2 1 面向主题设计 数据仓库侧重于存储和管理面向主题的数据 这里所讲的面向主题是指数据 仓库中的数据是按决策主题进行组织 并按决策主题来提供信息的 即从大量用 于事物处理的数据库中抽取数据 并将其清理 转换成决策主题所需要的格式 这种面向主题的数据组织方式可以独立于数据的处理逻辑 方便地应用于分析型 处理 1 2 2 联机分析处理 O L A P 数据仓库是面向分析处理的 支持数据的多维分析 数据仓库的数据是从原 有的分散的数据库中抽取而来的 基于用户决策分析目的的差异 决定了必须从 不同的角度对数据进行分析和衡量 因此数据仓库中的数据本身就是一种多维的 数据结构 以多维数据为核心的多维数据分析是决策的主要内容 这一过程可由 O L A P 来实现 O L A P 是针对特定问题的联机数据访问和分析 它提供了多维分 析功能 利用O L A F 工具对信息进行一系列快速 稳定交互式的存取 对数据进 8 基于数据仓库技术的零售贷款风险评估的研究与实现 行深入地分析 并以较直观的方式呈现给用户 以提供完整 准确的决策信息 1 2 3 数据挖掘 D M 数据仓库支持数据的挖掘 O L A P 是一种自上而下 不断深入的验证型分析 工具 它常常需以用户的假设为基础 O L A P 根据假设通过对数据的查询与分析 提取相关的信息 可以说O L A P 是由用户驱动的 因此用户的水平可能会直接影 响到最终的分析结果 数据仓库支持数据挖掘 是对O L A P 很好的补充 因为数 据挖掘可以发现O L A P 所无法发现的更为细致复杂的信息 利用数据挖掘技术 用户不必提出确切的问题 就可以根据数据本身的规律自动地对数据进行分析 挖掘出数据中隐藏的模式 找出正确的决策 由此可见 在进行决策分析时可以采用这样一种分析过程 利用报表查询类 工具进行增加 删除 修改等日常事务处理 利用D M 挖掘潜在模式作出预测性 分析 利用0 L A P 验证预测结果 最后得到总结性分析 1 3 数据仓库项目的生命周期 建立成功的数据仓库需要几个关键性的原则 首先 数据仓库必须将焦点集 中在业务的需求 其次 展现给业务用户的数据必须是维度的 最后 虽然数据 仓库的建立是一个不断发展的过程 但是 每项实施过程构应该存在一个具有特 定的开始与结束点的生命周期 下面图卜2 是数据仓库项目的生命周期图m 5 图卜2 数据仓库项目的生命周期圈 9 基于数据仓库技术的零售贷款风险评估的研究与实现 从图1 2 中可对看到 数据仓库生命周期开始于项目规划 包括机构准备 是否就绪 建立初步的范围于评判标准 获取资源与启动项目等 图中顶部路径 是与技术相关的 技术体系设计为支持多项技术的集成建立起一个总体的框架 将体系设计中所标识的能力转换成一个选取清单后再评估与选取具体产品 中问 路径起始于业务需求定义 将处理焦点集中在数据上 需求转换成逻辑模型 然 后将逻辑模型转换为物理实现 最后进行设计与开发的部分是数据转储E T L 处 理 蕴涵在业务需求定义中的最后一组任务是分析型应用的设计与开发 以参数 驱动模板与分析工具的形势存在的分析型应用 将满足业务用户大部分需要 将技术 数据与分析型应用路径汇集到一起 就得到一个有良好组织结构 的分析挖掘 从这开始 数据仓库项目将得到持续不断的维护拓展 使得项目发 挥出应有的效益 从图卜2 中可以注意到 在整个数据仓库项目生命周期中 有两点是不能 被忽视的 1 项目规划与业务需求定义之间存在一个双向箭头 即这两个行为之间具 有很多的交互内容 在项目中数据仓库向业务需求看齐是绝对关键的 再好的技 术也不能使不以业务为中心的数据仓库脱离困境 数据仓库设计人员必须理解业 务的需求 2 数据仓库的开发生命周期不同于操作型数据库系统的开发生命周期 S D L C 数据仓库的开发遵循数据驱动开发生命周期 C L D S 数据仓库项目的 生命周期必须包括不断迭代的数据净化任务 也就是 螺旋式 开发方法 即由 数据开始 获取数据后 将数据进行集成并检查数据的准确性 针对数据进行编 程 但得到最后结果后 系统的需求才得到理解 因此数据仓库环境是按照反复 开发方式建立起来 即首先建立系统的 4 部分 然后再建一部分 一直按相同 的路径反复进行开发 以 总体规划 分步实施 步步见效 为原则 1 0 基于数据仓库技术的零售贷款风险评估的研究与实现 第二章基于D w 技术的R L R S 系统总体规划 2 1 R L R S 系统项目背景 金融业是经济体系的重要枢纽 鉴于我国金融市场随着加入W T O 后 竞争逐 步白热化 国际化 自由化 加以资讯科技不断创新 直接金融日益蓬勃发展 渐有取代间接金融的趋势 金融业定要有多样化产品及提供效率化的服务 才能 满足社会大众求新求变 快速便捷的要求 现阶段 银行业的主要获利来源由原 来回业拆借渐转为放款业为主体的中间业务所龟q 造 而放款业务如水载舟 利害 相随 如何控制风险 降低逾期放款 进而创造盈余 是当今更应极力探讨与研 究的方向 目前 我国各银行在零售贷款领域的发展十分迅猛 住房按揭贷款 信用卡 授信 汽车消费贷款等等信贷品种不断增加 据统计截至2 0 0 4 年底 全国仅个 人房屋商业贷款余额已高达1 2 0 0 0 亿元人民币 零售贷款业务己成为商业银行效 益的重要增长点 国家推行贷币分房制度后 经过这几年来零售贷款业务特别是 楼房贷款业务的蓬勃发展 零售贷款不良问题渐渐显露 国内全体金融机构零售 贷款不良率持续攀升 其严重性越来越受到金融界的关注 因此如何降低不良率 实为当今金融机构不容忽视的重要课题 为了降低不良率及控制放款资产质量 金融机构应该有一套不良贷款分析系 统 随时监控并分析不良贷款占比情况 并在系统上研制一种最佳的风险评估分 析方案 以评估贷款人的信用风险 还款来源及不动产的担保情况 进而降低贷 款的风险 并为贷款人申请贷款金融多寡 贷款利率高低 贷款期限长短以及还 本宽限期的提供依据 避免以往授信人员凭借过去经验和主观判断作的决定 亦 即建立一个完整自动化 客观科学的零售贷款风险的分析及评估方式 使金融机 构人员取得直接 客观的资料以即时高效的判断分析 作为放款的准驳和款项催 收的依据 国内外对授信评估方法的研究中 研究对象以企业授信较为多 而针对零售 贷款业务相对较少 下面利用数据仓库技术进行开发 提供对零售贷款风险的评 估方案及应用系统 l l 基于数据仓库技术的零售贷款风险评估的研究与实现 2 2数据仓库技术对零售贷款风险评估的支持作用 各商业银行越来越重视零售贷款风险评估 但风险评估已不能停留在依靠 业务人员在联机交易系统查询当前状态或每天打印预警报表的手段上了 依据 新巴塞尔资本协议 给出了两种计量风险的方法 标准方法和内部评级法 零 售贷款风险评估都需要根据外部评定或贷款者的交易情况对贷款者和交易对手 的违约情况进行评定并给予相应的评级 庞大的数据量及复杂的贷款情况及统计 公式需要更强大的信息处理和决策系统的支持 数据仓库就是最好的解决方案 首先 数据仓库提供了巨大的数据存储能力 零售贷款风险评估需要分析两种信息 借款人的还款意愿和还款能力分析都 需要信息 从这个角度说 现代的零售贷款风险评估化技术可以看作是发掘并整 合加工信息的方法和技术 对于现代的零售贷款风险评估化方法 特别是内部评 级方法 要依靠对评估对象进行长期跟踪记录其交易行为 并从历史的记录中来 判定其评级 但在操作型数据库很难满足时间要求高的需求 数据仓库的出现给 零售贷款风险评估系统带来的极大的发展空间 其次 数据仓库提供了多种数据分析技术和工具 实现强大的数据分析和知 识发现能力 零售贷款风险评估的应用范围十分广泛 尤其在消费贷款领域 对客户风险 评估的应用更加远大前景 虽然目前我国各银行开办零售贷款业务的时间不长 但发展是十分迅速 新的品种不断增加 零售贷款风险评估中对不同评估对象 事件的关联 都是O L T P 无法支持的 这还是需要数据仓库工具 O L A P 技术和多 种挖掘方法提供解决方案 金融业越来越关注零售贷款风险对经营的影响 单凭在联机交易系统已经不 能满足对风险评估的要求 数据仓库才是正确的发展方向 数据仓库在零售贷款业务中可以提供多方面的应用 不仅涉及对客户的直接 评估 也包括市场经营 利润分析等方面的内容 这些应用增强了银行的总体贷 款业务的经营水平 增加了银行的科学决策能力 主要的应用方面有 零售贷款 客户准入评估分析 及时提供动态业务报告 最大利润分析 坏账监视 辅助营 销等等 1 2 基于数据仓库技术的零售贷款风险评估的研究与实现 2 3 R L R S 系统研制过程 2 3 1 确定R L R S 系统的目标 R L R S 系统定位为零售贷款的数据汇集 统计分析 风险评估以进行营销决 策的系统 它将与新一代消费信贷系统 C C S 零售贷款在线审批系统结合在一 起组成一个完整的零售贷款管理系统 通过R L R S 系统将要实现 1 数据存储与信息查询 R L R S 系统系统内必须提供C C S 系统的交易等明细数据和基于机构的汇总数 据等不同层次的详细信息 同时 还必须记载历史数据反映历史变化 以提供营 销决策的分析数据 R L R S 系统能提供如客户个人资料查询 贷款账户查询等基 本功能 2 新客户评估 利用R L R S 系统内已有的客户信息找出良好客户及不良客户的特征并依此对 新客户进行准入评估 作为贷款决策的参考 3 风险预警及授信政策导向 通过对R L R S 系统历史数据的分析 划分不同风险级别的客户群 对不同等 级的客户提供差异化的授信政策或预警高风险客户加强监控 4 业务发展和资产质量监控 为决策者提供风险预警或授信政策导向分析情况 从不同角度对业务发展和 资产质量进行实时监控 5 统计分析及报表功能 按不同角度对贷款结构和不良贷款结构进行统计分析 并定制各种报表 2 3 2R L R S 系统的体系架构 R L R S 系统体系分成三个层次 如图2 1 所示 1 数据源 数据源是数据仓库系统的基础 R L R S 系统数据源来主要来自于 0 S 3 9 0 主机 M a i n f r a m e 的C C S 系统业务数据 包括零售贷款业务的客户资料 帐务数据 行为情况 资产 如楼房 状况等 此外 还有部分补充数据如外部 信息包括各类法律法规 市场信息和竞争对手的信息等等 主要以文本方式供系 基于数据仓库技术的零售贷款风险评估的研究与实现 统使用 2 数据的存储层 数据的存储层是处理与管理R L R S 数据的核心 R L R S 选 用I B M 公司R S 6 0 0 0 的P 6 5 0 服务器 采用I B MA I XV 5 2 操作系统和D B 2E EV 7 2 数据库存放数据 从数据源到存储层的数据加载 使用了C S H E L L 和A s c e n t i a l D a t a s t a g e 等E T L 工具 主要考虑到系统后期大量维护工作 选用了A s c e n ti a l 公司的D a t a s t a g e 为主要数据转换工具和作业调度工具 3 前端工具 主要采用H y p e r i o n 公司的前端工具B R I O 的进行报表制作和 查询分析工作 B R I O 具有强大分析能力 同时提供了C S 和W E B 两种访问方式 具有很大的灵活性 另外还采用了S A S 进行数据挖掘的工作 图2 一lR L R S 系统体系结构图 2 3 3R L R S 系统支持条件 R L R S 系统融合了商业智能领域的数据分橱 联机分析处理以及数据挖掘技 术 采用业界主流开发平台及分析工具 结合对零售贷款业务的深刻理解 为业 务部门提供完整的解决方案 1 硬件环境 1 4 基于数据仓库技术的零售贷款风险评估的研究与实现 数据库服务器 I B MR S 6 0 0 0P 6 5 0 E T L 服务器 I B MR S 6 0 0 0P 6 5 0 前端呈现W E B 服务器 P CS E R V E R 客户端 P C 机 2 软件环境 数据库和E T L 服务器操作系统 I B MA I XV 5 2 E T L 工具 A s c e n t i a lD a t a s t a g e 数据库 I B MD B 2E EV 7 2 建模工具 C AE r w i n 分析和呈现工具 B r i oI N T E L L I G E N C ES e r v e r B r i oO D SS e r v e r 数据挖掘工具 S A S 2 3 4l l L R S 系统实旌的关键路径 本论文以某银行广东省分行的 零售贷款风险评估系统 R L R S 的研究及 实现为背景 重点论述了作者创建的D w 数据模型 以及运用O L A P 和D M 等数据 分析技术对零售贷款业务提供决策支持 本文是作者结合数据仓库理论和实践经验 从数据仓库生命周期中三大关键 路径 数据路径 技术路径和应用路径对数据仓库技运用的全过程进行了探索 1 采用关系型数据仓库创建符合零售贷款业务数据逻辑的数据模型 以零 售贷款四大主题域为基础 构建以贷款帐户主题为核心 关联客户 资产 事件 三大主题的第三范式数据模型 2 搭建异构数据源的数据提取架构 实现数据聚集环节 论文设计带O D S 数据仓库作为缓冲区实现异构数据源的数据提取 为系统的扩充和企业级数据仓 库的建立提供了一个渠道 此外 论文还概述了在此架构上实现数据聚集的技术 重点 3 基于数据仓库构建零售贷款风险评估分析引擎和零售贷款准入评分模型 论文构建了基于R O L A P 的零售贷款多维数据模型 通过多维聚集 旋转钻取等技 术 实现了零售贷款业务监控及风险评估的联机分析应用 并采用L O G I S T I C 回 归法创建了银行零售贷款审批的客户准入评分模型 并在实际生产中获得了成功 基于数据仓库技术的零售贷款风险评估的研究与实现 的应用 下面作者以R L R S 系统实现为背景 从金融数据模型的创建 异构数据源的 提取和转换 零售贷款风险评估的联机分析和零售贷款准入评分的挖掘实现四个 方面对本论文作深入的论述 基于数据仓库技术的零售贷款风险评估的研究与实现 第三章从业务理解到数据模型构建 数据仓库是分析与挖掘的基础 创建数据仓库的数据模型是R L R S 系统项目 中的首要任务 在前面介绍的数据仓库生命周期中可以看到 业务需求的分析与定义在数据 仓库生命周期中占有重要的位置 可以这么说 业务需求是数据仓库的动力 业 务需求的理解很大程度影响到数据仓库建设的成败 下面将从业务理解开始 解读零售贷款业务流程及需求 从而逐步构建体现 零售贷款业务蓝图的主题域模型以及数据抽象表示的逻辑模型两大数据模型 3 1 零售贷款业务理解 3 1 1 零售贷款业务流程分析 贷款业务的基本流程如图3 1 所示 图3 1 零售贷款业务流程图 从图3 1 可以看到主要的客户行为是贷款申请 贷款还款 对于银行来说 最主要的工作是贷款审批 贷款发放 贷款回收和贷款项跟踪与催收 对于贷款 及管理部门来说 必须从工作中的各个阶段入手才能防范风险的发生 如准确评 估新申请贷款的风险程度减少不良贷款申请的准入 发现潜在的风险隐患加强催 收措施 及时发现已存在风险究其成因加以补救 以及随时掌握整体贷款情况等 因而R L R S 的数据仓库需要提供以上的信息 3 1 2 零售贷款风险评估需求分析 新递交贷款申请的人是否具有拖欠贷款项的风险 已经成为银行贷款客户的 人有哪些隐含着造成坏帐的可能性是业务人员最感兴趣的问题 因此系统内应包 1 7 基于数据仓库技术的零售贷款风险评估的研究与实现 含以下信息 哪些贷款具有不良性质 对于个人状况 资产状态和社会环境哪些 因素会对贷款业务造成损失 从这里可得到R L R S 系统所应包含的信息有 l 贷款申请数据 贷款申请所签申请表及申请人资料等 2 贷款发放数据 发放贷款所签定的贷款合同 担保合同 抵押合同 贷 款帐户等 3 贷款还款数据 贷款人还款 欠款信息以及银行的催 还款信息 4 客户信息 个人固有资料 财产情况 5 资产信息 抵押物资料 楼盘情况等 基本上从上面分析可界定R L R S 系统包含原有C C S 系统客户 贷款 资产数 据 还可以补充外部资产信息如零售 信用卡系统的个人帐户信息 3 2 面向金融业务的主题域模型构建 3 2 1 金融业务主题域划分 主题域是与业务相关的重要的物理项 概念 人 地点和事件的主要分组 有许多跨行业通用的主题域 如客户c u s t o m e r s 资金f i n a n c i a l s 地点 l o c a t i o n s 等 同一个企业内开发的主题域模型常常具有相类似的主题域划分 设计一个面向金融业务的主题域模型可以使其他项目的开发得到受益而不必从 零开始 并且统一的主题划分更利于数据集市的整合 经过业务理解基本界定了R L R S 系统边界以及包含的主要信息 从中可以找 到零售贷款风险评估的主要概念实体 客户 帐户 合同 资产 行为 产品 机构等等 结合金融业务概念将信息基本划分为帐户 A c c o u n t 客户 C u s t o m e r 资产 A s s e t 事件 E v e n t 四大主题 帐户主题包括当事人与银行所签定的或事实约定的帐户 客户主题分析系统 的主体 包括银行客户 客户关系人 如贷款担保人 及客户关系公司 如客户 工作单位 潜在客户及银行比较关心的内部机构等 资产主题针对我们较关心 个人贷款业务相关资产 主要有住房 汽车等相关资料以及楼盘和汽车保险公司 的相关资料 事件主题包括贷款 还款 催款等信息 3 2 2R L R S 主题域模型构建 1 8 基于数据仓库技术的零售贷款风险评估的研究与实现 主题域的划分为模型构建提供了良好的基础 确定主题域后可从源数据入手 了解业务数据所存在的形式及数据流动的具体流程 从而确定系统所包含的主题 域的内容 包括主题域的公共码键 主题域之间的联系以及主题最主要的属性组 来源数据表包含了申请 客户 帐户 合同 产品 交易表等几大类数据 分析后得到以下信息 客户可以是申请人 贷款人或担保人 客户可对应多笔贷款 因此每个客户 有一个唯一的客户号以区分不同个体 贷款帐号可由唯一的贷款帐号确定 每新发放一笔贷款会新开具一个贷款帐 号 所有的发放款和回收款项都反映在这个贷款帐号上 这个贷款帐号是唯一标 识这笔贷款的 抵押物有一个统一的编号 资产编号 能唯一标识一个物品 事件有一个唯一的事件号 交易流水号 现在可以确定主题之间的关系是 客户申请贷款 贷款申请成功会发放给该 客户一个新的贷款帐户同时签定多份合同 客户 主题与 帐户 主题间的联 系是帐户归属关系 资产均是帐户附属的要件 因此 帐户 与 资产 主题间 存在资产附属关系 事件的发生必定反映在某个贷款帐号上 因此 事件 与 帐 户 主题间是事件发生关系 各主题目的属性信息的描述如下列表所示 表3 1 主题的描述 主题名公共码键属性组 客户客户号 客户基本信息 客户号 姓名 年龄 性别 婚姻状况 收入 家 庭成员等 客户资产信息 客户号 主要资产 资产估值等 贷款申请信息 客户号 申请表号 担保情况 抵押品情况 帐户 贷款帐号 贷款基本信息 贷款帐号 贷款金额 首次放款日期 贷款产品等 贷款申请表 贷款帐号 申请表号 担保情况 抵押品情况等 资产资产编号资产信息 资产编号 所在地点 持有人姓名 估价等 事件事件编号 发放款信息 事件编号 贷款帐号 交易日期 交易金额等 还贷款信息 事件编号 贷款帐号 交易日期 交易金额等 催款信息 事件编号 贷款帐号 逾期情况 催款方式 反馈等 用E R 图表示主题域的划分及相互联系如图3 2 所示 基于数据仓库技术的零售贷款风险评估的研究与实现 图3 2 面越金融业务均主题域模型 3 3 关系型的逻辑模型设计 3 3 1 第三范式模型的选取 模型设计是数据仓库建设最初始也是最基础的环节 逻辑建模则是数据仓库 实施中的重要一环 因为它能直接反映出业务部门的需求 同时对系统的物理实 施有着重要的指导作用 目前常用的逻辑建模方法是关系建模的第三范式 3 N F 即T h i r dN o m i MF o r m 模型和维度建模的星型模式 S t a rS c h e m a 嘲 范式是数据库逻辑模型设计的基本理论 一个关系模型可以从第一范式到第 五范式进行无损分解 这个过程也称为规范化 N o r m a l i z e 在数据仓库的模型设 计中目前一般采用第三范式 一个符合第三范式的关系必须具有以下三个条件 每个属性的值唯一 不具有多义性 每个非主属性必须完全依赖于整个主键 而非 主键的一部分 每个非主属性不能依赖于其他关系中的属性 1 第三范式模型能 表述清晰的逻辑关系 有助于开发人员理清业务数据的条理关系 同时也让业务 人员理解系统的数据模型是否合理 第三范式模型是双方沟通的重要工具 星型模式由一个大的包含大批数据和不含冗余的中心表即事实表 F a c tT a b l e 和一组小的附属表维表 D i m e n s i o n1 a b l e 组成 1 每维只用一个表表示 第个表 基于数据仓库技术的零售贷款风险评估的研究与实现 包含一组属性 这不可能造成某些冗余 雪花模式是星型模式的变种 其中某些 维表可能是规范化的 因而把数据进一步分解到附加的表中 对于复杂存在多个 事实表共享维表的模式称为事实星座或星座模式 星型模式属于多维数据模型 体现超立方体的概念 事实是度量数值 沿着各个维方向存贮数据 允许用户沿 事物的轴线方便地分析数据 可进行切片和切块以及下钻等多维操作 星型模型比较适合部门数据集市 当数据量不大 报表较固定时可以采用 对于企业级的数据仓库 考虑到系统的可扩展能力 投资成本和易于管理等多种 因素 还是适合采用第三范式模型 但是第三范式很难实现快速的多维分析 第三范式模型尽可能减少冗余的特 性使得进行物理实施时数据表大量地进行关联 大大降低了查询速度 究其原因 多是由于运行脚本可能采用了多表连接 表的累计 数据排序 大量数据的扫描 等操作造成的 这些操作对于任何数据库引擎来说都是大挑战 考虑到数据库引 擎的限制 采用对逻辑模型进行反规范处理 D e N o r m a li z e 等措施来优化性能 I s 1 1 I t 6 oR L R S 数据仓库各主题域的逻辑模型采用第三范式模型设计加以适当的反 规范处理 3 3 2R L R S 历史视图的实现 业务系统体现一种 时间点 的模型 从业务理解到主题域模型都不涉及到 数据仓库时变性 而数据仓库模型是一种 时间段 模型 用历史视图来描述一 个企业 相对于主题域的E R 模型中 只需在每一个相关实体中对实体键增加时 间特性即能实现历史视图 在R L R S 主题域模型中 帐户 客户和资产都只是时点信息 在键值中增加 了时间 日期 就能体现一系列的快照 事件的键值中本身就带有时间特性 就 不做特殊处理 如下列表 客户键 客户号 日期 帐户键 贷款帐号 日期 资产键 资产编号 日期 事件键 事件编号 基于数据仓库技术的零售贷款风险评估的研究与实现 3 3 3R L R S 粒度设计 粒度 G r a n u l a r i t y 是数据仓库的重要概念 粒度是数据仓库中数据单元的 详细程度 数据越详细 粒度越小 级别就越低 相反 数据综合度就越高 粒 度就越大 级别就越高 粒度对信息系统产生多方面影响 最影响数据仓库的粒度级别的有当前或期望的业务需求 操作型系统粒度 数据获取性能 存储开销和管理性能等几个因素 零售贷款业务系统按日期 的所有交易来产生源数据 业务需求也希望系统也能提供基础事务的查询 因此 R L R S 系统要保留事务级的粒度级别 事务级的数据仓库内数据量对合适的粒度层次选取影响十分大 考虑数据 表中的记录数 粒度选择应符合下表的阈值 表3 2 粒度选择的阈值 一年期 五年期 1 00 0 0 0 0 0 双熏粒度级且认真设计 2 0 0 0 00 0 0 双重粒度级且认真设计 lO O OO O O 双重粒度级 1 00 0 00 双重粒度级 1 0 00 0 0 认真设计 10 0 00 0 0 认真设计 1 00 0 0 实际上任何设计都行 1 0 00 0 0 实际上任何设计都行 零售贷款业务时点数据基本以日为单位更新的 记录数日估计有 总帐户 数约3 0 0 0 0 0 总客户数3 0 0 0 0 0 交易记录7 0 0 0 条厌 一年期记录数约 有 注 节假日不提供零售贷款业务服务 总帐户数 总客户数 交易记录 2 5 0 2 3 5 0 0 0 0 近年来数据库管理系统发展非常快 对于粒度选择的闽值可 以相对放宽记录数的限制 在R L R S 系统中 日期维度以 日 为基本粒度 再 划分以 旬 月 年 为四个层次的粒度 另外 机构维也根据零售贷款业务发展的范围以 省行 二级分行 以 及广州市八大支行 和 三级支行 为粒度划分 3 3 4R L R S 逻辑模型的创建 主题域模型已经基本反映R L R S 系统模型的结构 但要成为物理实现 还需 要作进一步的分解 分析主题域确定要装载的主题 定义关系模式 关系模式划分依据数据相互依赖程度加以划分成多个表 以公共码键相互 关联 为方便查询和E T L 作了以下调整 固有信息 变化频率大的信息尽量单独 成表 重要的关注程度高的信息也可独立成表 关系模式定义完成后主题的逻辑 基于数据仓库技术的零售贷款风险评估的研究与实现 模型基本确定 以帐户主题逻辑模型设计如下图所示 圈3 3 帐户主题的逻辑模型图 注 以上设计在E r w i n 中选用I D E F I X 表示逻辑关系 其中 框代表实体 联线代表不同 的关联规则 实线代表标识关系 虚线代表非标识关系 线未端带菱形表示允许零对一 多 关系 基于数据仓库技术的零售贷款风险评估的研究与实现 第四章构建于O D S 之上的数据聚集环节 4 1 基于O D 实现多种异构数据源提取 银行业务系统种类繁多 贷款客户的个人资料以及资金状况往往可以从其他 的业务系统得到 如对私业务 国结业务 外汇业务等等 而这些业务系统往往 是建立在多种系统平台上 如很多银行都常用I B M 的多种大小型主机平台 或者 是I B M H P 等的服务器 业务系统多 存放形式复杂 而且不同种类业务跨越不 同的系统平台又建立着十分复杂的关联关系 这些都是银行系统数据仓库所要解 决的重点难点 如何建立基础数据仓库才能既整合应用于各部门的原有数据集 市 又能发展应用于多种异质数据来源的各种需求是银行业新一代数据仓库的发 展方向 R L R S 系统也必须具有可扩展能力 适合企业数据仓库的发展 考虑到银行各种业务系统具有独立的业务解释 而且多建立在不同的系统 上 当数据仓库进行数据提取时 常常涉及多个数据平台 因此构建一个带O D S 的数据仓库 在O D S 上缓存来自于O L T P 的数据 进行初步的数据处理1 2 1 1 图2 带O D S 数据仓库体系结构 从图中可以看出 会计 零售 零售贷款等O L T P 系统数据提取后加载到O D S 上 在O D S 上各系统数据不会相互影响 而D W 从共同的O D S 提取需要的数据进 行预处理后加载 保证了一致性和全局视图的体现 最后的部门级数据分析的数 据集市就有了两种渠道可以选择 对于原有的分析应用 若系统应用较广或较为 复杂 建议沿用原运行模式 而数据来源改为从O D S 提取数据 新的应用则可以 从D w 考虑 当然 这不是绝对的 有些应用需要使用具有业务特性的明细数据 基于数据仓库技术的零售贷款风险评估的研究与实现 直接在O D S 提取可使D w 更清晰体现企业视图 4 20 S 3 9 0 数据源的提取 数据仓库项目如同承接项目的公司一样变化多端 项目的数据提取模块提供 了对存储在I B M 大型机或A s 4 0 0 计算机上的结构化和非结构化数据进行访问 的能力 这些数据可以存储在数据库或文件系统中 除数据访问之外 数据提取 模块还负责在个人计算机与主机系统之间提供数据传送服务 数据提取模块还包 含使用了现有大型机和A S 4 0 0 软件的组件构成 数据提取模块的对象处理方法可分为以下几种类别 关系数据库访问 记录 文件访问 文件传送 R L R S 系统主要数据来源C C S 系统应用于I B M 的0 S 3 9 0 系统上 数据存储在 关系数据库D B 2 内以及V S A M 文件内 4 2 10 S 3 9 0D B 2 数据提取 存储于0 S 3 9 0 上的操作数据是通过关系数据库管理系统I B MD B 2 被访问的 所有这些主机系统的共同点是可以通过结构化查询语言 S Q L 象访问关系表那 样访问存储于这些数据库中的数据 I B M 设计了分布式关系数据库结构 D R D A 提供对主机数据的R e m o t eU n i to fW o r k R U W 和D i s t r i b u t e dU n i to fW o r k D U W 访问 D R D A 运用的第一种方法是采用M i c r o s o f tO L ED BP r o v i d e rf o rD B 2 将O D B C 驱动程序连接到D B 2 第二种方法是通过D B 2 的O L ED 8 提供程序

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论