已阅读5页,还剩55页未读, 继续免费阅读
(管理科学与工程专业论文)应用决策树构建个人住房贷款风险评估模型.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
籀要 摘要 本文主要运用数据挖掘中的决策树技术对经过预处理后的个人住房贷款挖 掘数据集中的数据进行分析,发现隐藏在大量数据中的隐含模式,最终得到个 人住房贷款风险评估模型。本文研究的内容主要包括数据采集、数据预处理以 及模型的建立,而这三部分又是基于数据挖掘以及决策树的相关理论,根据业 务需求并按照数据挖掘工作的一般步骤展开的。 论文针对我国商业银行信贷资产质量低下和风险加大的客观情况,借鉴外 资银行应用数据挖掘决策树技术建立客户信用评价系统的成功经验,在明确挖 掘目的的前提下,深入理解数据挖掘、决策树、数据采集、数据预处理、聚类 分析以及模型评价等方面的相关概念。在此基础上,结合本文研究的问题以及 数据的特点,通过各种方法的分析与比较,用适合的数据采集和预处理方法对 数据库中的一半数据进行处理,建立适合挖掘的数据集,应用决策树c 4 6 算法 以及聚类k 一平均算法对这些数据进行挖掘和分析,通过计算风险度量值和决策 影响程度值,确定每个属性各个取值的分数值,得到个人住房贷款风险评估模 型。最后使用剩余的一半数据作为测试样本来评价这个模型,证明此模型具有 较强的预测能力,是当前商业银行可以采用的最优模型,值得在实践中推广。 具体来说,本文的研究内容主要有以下几个方面: 1 针对我国个人住房贷款违约率上升的现象,借鉴国外银行取得的成果, 提出使用数据挖掘决策树技术构建个人住房贷款风险评估模型将会给商业银行 带来很多直接效益。 2 通过数据挖掘分类算法的比较,选择决策树技术以及经典的c 4 5 算法 作为本研究使用的算法,并介绍其基本理论。 3 依据数据挖掘步骤,明确挖掘目的,以某商业银行个人信贷数据为分析 对象,分析研究个人住房贷款原始数据库的数据,通过随机序列发生器,从中 随机抽取一半数据作为本研究的样本数据,得到个人住房贷款处理数据集,为 数据挖掘后续步骤奠定数据基础,另外一半将被用来测试。 4 兼顾数据质量和计算效率,对一些重要的预处理方法深入地研究和实践, i 俑璺 选择较为完善的预处理方法对个人住房贷款处理数据集进行了一系列的处理, 得到适合挖掘的个人住房贷款挖掘数据集。 5 在数据挖掘及决策树理论的指导下,使用决策树分类技术和聚类技术, 应用c 4 5 算法计算信息增益率创建决策树,在此基础上,计算风险度量值和决 策影响程度值得到个人住房贷款风险评估模型,进而通过聚类k 一平均算法划分 风险评估等级。 6 使用原始数据库中的另一半数据对个人住房贷款风险评估模型进行测试 和评价,证明其预测准确率较高,稳健性好,易于理解,效率高,推广能力强。 关键词:决策树,个人住房贷款,风险评估,数据预处理,数据挖掘 a b s t r a c t t h ep a p e ra n a l y z e sl a r g ed a t ao fi n d i v i d u a lh o u s i n gl o a nb yd e c i s i o nt r e e t e c h n i q u eo f d a t am i n i n g t h r o u g h u n c o v e r i n gt h eh i d i n gm o d e l si nt h el a r g ed a t a , t h i sp a p e rf i n a l l yg e t sar i s ka s s e s s m e n tm o d e lf o ri n d i v i d u a lh o u s i n gl o a n t h e s e f f t u d i e sm a i n l yi n c l u d ed a t as e l e c t i o n , d a t ap r e p a r a t i o na n dc o n s t r u c t i n gm o d e lb y d a t am i n i n gt o o l s t h e s et h r e ep a r t sa r es p r e a do u tb a s e do ns o m er e l e v a n tt h e o r i e s o f d a t am i n i n ga n dd e c i s i o n 缸e e ,a c c o r d i n gt ob u s i n e s sn e e da n dt h eg e n e r a ls t e p so f d a t am i n i n g f a c i n gt h eo b j e c t i v ec o n d i t i o n so fl o w i n gc r e d i ta s s e t sq u a l i t ya n de n l a r g i n g r i s ki no u rc o u n t r y 8c o m m e r c i a l b a n k , d r a w i n gf o r e i g n b a n k s s u c c e s s f u l e x p e r i e n c eo fb u i l d i n gc u s t o m e rc r e d i ta p p r a i s i n gs y s t e m a t i cb yd e c i s i o n t r e e t e c h n i q u eo fd a t am i n i n g ,u n d e rt h ep r e m i s eo fc l e a rm i n i n gp u r p o s e ,w eg od e e p i n t ot h ec o n c e p t so fd a t am i n i n g ,d e c i s i o nt r e e ,d a t ac o l l e c t ,d a t ap r e p a r a t i o n , c l u s t e r i n ga n a l y s ea n dt h em o d e le v a l u a t i o n c o m b i n i n gw i t ht h em a i np r o b l e mo f t h i sp a p e rs t u d y i n ga n dt h ec h a r a c t e r i s t i co ft h e s ed a t a , a n a l y z i n ga n dc o m p a r i n g v a r i o u sm e t h o d s ,w ea d o p tt h es u i t a b l ed a t ac o l l e c ta n dp r e p a r a t i b nm e t h o d st od e a l w i t ht h eh a l f o f d a t ai nt h ed a t as e t t h w eg e tan e wd a t as e tt h a ti sa p p r o p r i a t ef o r m i n i n g a n dt h e nw ea p p l y c 4 5a l g o r i t h mo fd e c i s i o nt r e ea n dk - a v e r a g e a l g o r i t h mo fc l u s t e r i n gt o1 - 1 血ea n da n a l y z et h e s ed a t a f i n a l l yw es t z - a c t m - ear i s k a s s e s s m e n tm o d e lf o ri n d i v i d u a lh o u s i n gl o a n u s i n ga n o t h e rh a l fo f t h ed a t a a st h e t e s t i n gs a m p l e , w e f i n dt h i sm o d e lh a v es t r o n g e rf o r e c a s ta b i l i t y i th a sb e e nt h eb e s t m o d e lt h a tc a l lb ea d o p t e db yt h ec o m m e r c i a lb a n ka tp r e s e n ta n di ti sw o r t hb e i n g e x t e n d e di np r a c t i c e t os p e a kc o n c r e t e l y c o n t e n t st h a tt h et h e s i ss t u d i e sc 锄b es h o w ni nt h e f o l l o w i n ga s p e c t s : 1 a i m i n g a tt h ep h e n o m e n o no ft h er i s i n gi n d i v i d u a lh o u s i n gl o a n i n f i j n g c m e n tr a t ei no u t c o u n t r ya n dr e f e r r i n gt h ea c h i e v e m e n t t h a tt h ea b r o a db a n k s , i i i t h ep a p e rp r o p o s e st h a tu s i n gd e c i s i o nt r e et e c h n i q u eo f d a t am i n i n gt oc o n s t r u c tr i s k a s s e s s m e n tm o d e lf o ri n d i v i d u a lh o m i n gl o a nw i l lb r i n gm u c hd i r e c tb e n e f i c i a l r e s u l tt oc o m m e r c i a lb a n k 2 b yc o m p a r i n gw i t hc l a s s i f ya l g o r i t h m , d e c i s i o nt r e et e c h n i q u ea n dc l a s s i c c 4 ,5a l g o r i t h ma l ec h o s e nt os t u d yt h i sp r o b l e mo fr i s ka s s e s s m e n tf o ri n d i v i d u a l h o u s i n gl o a n a n dt h e n , t h ep a p e ri n t r o d u c e st h et h e o r i e so fd e c i s i o nt r e ea n dc 4 5 a l g o r i t h m 3 b a s e do nt h ep r o c e s sa n dp u r p o s ef o rd a t am i n i n g ,t h ep a p e ra n a l y z e sl a r g e d a t ai nt h ep r i m i t i v ed a t a b a s e r a n d o ma r r a yg e n e r a t o rt a k e sr a n d o m l yo u th a l fo f t h ed a t aa st h es a m p l ed a t at og e tan e wd a t as e tf o ri n d i v i d u a lh o u s i n gl o a n t h i s d a t as e ti st h eb a s i co f d a t am i n i n g a n o t h e rh a l f o f d a t aa r eu s e df o rt e s t i n g 4 c o n s i d e r i n gt h eq 州i t yo fd a t aa n dt h ec a l c u l a t i n ge f f i c i e n c y ,t h i sp a p e r s t u d i e sa n da p p l i e ss o m ei m p o r t a n td a t ap r e p a r a t i o nm e t h o d sa n ds e l e c t sa p p r o p r i a t e d a t ap r e p a r a t i o nm e t h o d st od e a lw i t ht h ed a t as e to fi n d i v i d u a lh o u s i n gl o a n a n d t h e nw eg e tan e wd a t as e tt h a ti sa p p r o p r i a t ef o rm i n i n g 5 b a s e do nt h e o r i e so fd a t am i n i n ga n dd e c i s i o nt r e e ,w eu s ed e c i s i o nt r e e c l a s s i f yt e c h n o l o g y ,c l u s t e r i n gt e c h n o l o g y ,c a 5a l g o r i t h mo fd e c i s i o nt r e ea n d k - a v e r a g ea l g o r i t h mo fc l u s t e r i n gt og e ta r i s ka s s e s s n l e n tm o d e lf o ri n d i v i d u a l h o u s i n gl o a na n ds o m er e g u l a t i o n s 6 w eu s et h eo t h e rh a l fd a t ai np r i m i t i v ed a t ab a s et ot e s ta n de v a l u a t et h e r i s ka s s e s s m e n tm o d e lf o ri n d i v i d u a lh o u s i n gl o a n w ef i n dt h a tt h em o d e lh a s h i g h e rp r e d i c t i v ea c c u r a c y f i n a l l y ,t h i sm o d e lc a nr e a l l yb eu s e d t oh e l pb a n kl o a n d e p a r t m e n ta n a l y z ee v e r yl o a na n dh e l pb a n k l e a d e rm a k ec o r r e c td e c i s i o n k e y w o r d s :d e c i s i o nt r e e ,i n d i v i d u a lh o u s i n gl o a n , r i s ka s s e s s m e n t ,d a t a p r e p a r a t i o n , d a t am i n i n g 东北财经大学研究生学位论文原创。陛声明 本人郑重声明:此处所提交的博士硕士学位论文 应用壕黍树枘建懈甍翥涌确牌本人在导师指导下,在东 北财经大学攻读博士硕士学位期间独立进行研究所取得的成果 据本人所知,论文中除已注明部分外不包含他人已发表或撰写过 的研究成果,对本文的研究工作做出重要贡献的个人和集体均已 注明本声明的法律结果将完全由本人承担 作者签名:于孛 日期:年月日 东北财经大学研究生学位论文使用授权书 国伊 :牟埘杓建懈嬲黜啦口雠翌系本人在东北财经大学 攻读博士硕士学位期间在导师指导下完成的博士硕士学位论文 本论文的研究成果归东北财经大学所有,本论文的研究内容不得 以其他单位的名义发表本人完全了解东北财经大学关于保禄使 用学位论文的规定,同意学校保留并向有关部门送交论文的复印 件和电子版本,允许论文被查阅和借阅本 授权东北财经大学, 可以采用影印缩印或其他复制手段保存论文,可以公布论文的全 部或部分内容 作者签名:亍章 导师签名 日期:年月b 日期:年月日 第1 章绪论 1 1 课题背景及选题意义 我国自1 9 9 7 年开展住房抵押贷款业务以来,随着房地产经济的飞速发展, 个人住房贷款业务量也一路攀升。据不完全统计,自1 9 9 8 年以来,个人住房贷 款年平均增长率都在1 0 0 , 6 以上。到目前为止,我国住房贷款余额已经超过5 0 万亿元。与此同时,个人住房贷款违约率上升,不良贷款的风险开始逐渐暴露 出来。截至2 0 0 2 年3 月末,工行不良贷款违约率仅为0 2 5 ,但截至2 0 0 3 年 底,工行个人住房贷款违约率已经达到2 5 “1 个人住房贷款不良率的上升给 我们带来了醒示,这些违约现象与居民的个人信用密切相关。目前个人信用问 题已成为贷款违约产生最为普遍的原因,信用缺失不仅给银行带来了严重的风 险和损失,也对整个金融业产生了巨大的冲击,对整个社会经济产生了不可忽 视的影响,甚至涉及到社会的各个方面。 针对我国商业银行信贷资产质量下降和风险加大的客观情况,建立完善的 信用风险管理机制已成为刻不容缓的任务,而信用风险评估作为风险管理的第 一个环节则更需要得到妥善解决。翻因此,为了减少银行的信贷风险,对借款 人的信用进行准确的评估是个有效的途径。嘲 然而,由于我国信用体系不完善,商业银行无法全面掌握贷款人信用状况。 目前,我国银行对个人客户信用状况的评价,主要采用等级评分与专家评分耜 结合的方法,将客户的自然状况、职业状况、与银行关系等方面的指标的可能 取值分成不同的级别,对不同的级别赋值,通过专家对每个指标各个取值的评 定来确定最终的指标评分结果。哪 我国目前采用的这种方法存在三个主要问题; 1 指标和权重设定依赖专家的经验,具有先验性。实际情况中某项指标对 信用的影响作用可能与此并不一致。 2 扭曲了信用指标与信用水平之间的真实关系。指标方法大多基于线性方 法,而实际上个人信用水平与各信用要素之间更多是非线性以及关联关系。 应用决策斜构建个人住房贷款风险评估模型 3 实际数据显示,这种方法只能在一定置信区间上做出评价,准确性不高。 因此,缺少科学的个人信用评估技术成为我国商业银行消费信贷业务发展 的瓶颈。 西方国家普遍采用定量分析的个人信用评估方法来评价个人客户的信用状 况,应用数据挖掘技术建立信用评估模型。嗍数据挖掘是2 0 世纪9 0 年代后期 人工智能和数据库领域兴起的一种数据处理和知识发现( i ( d d ) 理论,是从大量 的、不完全的、有噪声的、模糊的和随机的实际应用数据中,提取隐含在其中 的信息和知识的过程。嘲对数据进行分类和预测是数据挖掘的主要功能。 数据挖掘用于信用评估的优势主要在于: 1 能处理和修正实际数据问题,算法模型具有自检验能力,能更准确描述 信用要素和信用水平之间的关系特征; 2 不先验地建立信用规则,而是从实例数据中通过有监督学习去发现信用 规则,然后用这些规则去预测新样本的信用风险,更符合解决问题的科学步骤。 数据挖掘中具体应用的建立个人信用评估模型的方法包括:传统统计分析、 决策树法、人工神经网络等。 当前,随着我国银行个人业务的发展,使商业银行积累了一定量的数据, 并纷纷进行数据集中,建立数据仓库,逐渐开始应用数据挖掘技术建立科学的 个人信用评估模型。“1 尽管如此我国银行业在个人信用评估模型的建立和应用 方面仍处于起步阶段,对各种方法建立的个人信用评分模型的准确性和适用性 的研究还有待深入。在目前中国个人征信体系不完善,商业银行个人信用信息 不完整的条件下,如何建立有一定参考价值的个人信用评估模型非常有意义。 本文将对此进行系统研究,并以某商业银行个人信贷数据为分析对象,采 用已有的数据挖掘决策树技术进行适应性研究,通过计算信息增益率创建决策 树,在此基础上,计算风险度量值和决策影响程度值,得到个人住房贷款借款 人风险评估体系,进而通过聚类分析划分风险评估等级。对个人信用评估模型 的评价显示:该模型的准确率达到7 5 以上,训练样本和测试样本误判率相差 不大,模型稳健性好,易于理解,效率高,推广能力强,是当前商业银行可以 采用的最优模型,值得在实践中推广。 2 第l 章绪论 1 2 数据挖掘决策树技术在国内外银行信贷业务的应用现状 国外银行业近年来对数据仓库建设的投入正在日渐加大,数据挖掘技术以 及决策树方法的应用正在逐渐变得普遍和重要,它能帮助实现数据库营销 ( d a t a b a s em a r k e t i n g ) 、客户群体划分( c u s t o m e rs e g m e n t a t i o n c l a s s i f i c a t i o n ) 、背景分析( p r o f i l ea n a l y s i s ) 、交叉营销( c r o s s - s e l l i n g ) 等市场分析行为,以及客户流失性分析( c h u r na n a l y s i s ) 、客户信用记分 ( c r e d i ts c o r i n g ) 、欺诈发现( f r a u dd e t e c t i o n ) 等商业行为。嘲美国t h et o w e r g r o u p 咨询公司的有关调查资料显示:1 9 9 8 年全球5 0 0 家大银行中,已经有近 3 0 0 家建立了数据仓库并使用包含决策树法在内的数据挖掘技术为其服务。删 他们应用数据挖掘等技术对客户历史数据进行分析,发现其数据模式及特征, 科学地细分客户群,随时观察金融市场的变化趋势,以建立科学的客户信用评 价模型,借以对新客户的信用状况进行有效评价,降低银行的信贷风险,实现 利润最大化。美国w e l l o n 银行使用数据挖掘技术对零售信贷客户进行信用评 估,并将其细分为低、中、高危险者,继而对每一类客户量身定做金融产品, 实现留住可获利的优质客户并争取有潜力的新客户,并将市场定位于这些用户, 做到以客户为中心。u ” 在我国,随着加入w t o 以及经济全球化的发展,银行电子化、信息化建设 取得了质的飞跃,“数据大集中”的实现,使银行数据空前庞大,数据库系统 可以高效地实现数据的录入、查询、统计等功能,信贷评估也从主观逐步走向 客观。其中,各大商业银行都纷纷引进个人信用评分系统( o c r ) ,并对之进行 试点。 但是,在看到成绩的同时,也应看到我国商业银行面临的挑战,在我国, 包括个人住房贷款在内的个人信贷业务发展还相当滞后,主要表现在以下几个 方面: 1 我国尚未建立全面的个人信用制度,商业银行缺乏评价个人信用状况的 方法。 2 对于“数据大集中”积累的大量数据缺乏深层次的分析、综合、提炼、 挖掘和展现的方法,因此可供银行领导和信贷人员利用的分析、预测数据不多, 3 应用决策树构建个人住房贷款风脸评估模型 能辅助决策的有效信息就更少。 3 对于已经应用数据挖掘技术的商业银行信贷业务的风险评估任务来说, 这些应用大部分都基于聚类算法、神经元网络或传统的统计学方法,是以界定 金融欺诈为主要研究对象的,而对于个人住房贷款风险控制方面的研究还比较 少。 4 大多商业银行都对决策树之类的数据挖掘方法比较陌生,通过使用信息 熵和决策树构建评价模型的应用更是没有得到真正的实现。 因此,我国商业银行有必要借鉴外资银行的经验,应用数据挖掘等技术建 立科学的客户信用评价系统,以增强放贷信心,促进个人信贷业务的开展。同 时,我国商业银行具有利用数据挖掘技术进行客户信用评价的可行性。在长期 的信息化建设过程中,大多数商业银行存储了大量客户信息,能够为数据挖掘 提供海量数据。另外,对于国内银行,采用决策树这种数据挖掘技术是必走的 一步,它可以抓住问题的本质,具有建立的决策树少、分类准确率高、生成的 规则简单等特点,应用十分广泛。 总之,若应用决策树方法构建出个人住房贷款信用评估模型,将会给商业 银行带来很多直接效益。 1 3 本文的研究方法及内容 本文采用理论与数据相结合的思路,使用定量分析的方法,侧重于在数据 挖掘以及决策树理论的指导下,经过数据采集,建立个人住房贷款处理数据集, 对其进行数据预处理,得到适合挖掘的个人住房贷款挖掘数据集。对于预处理 后的决策属性,通过计算信息增益率以及使用c 4 5 算法构造决策树,通过计算 风险度量值以及相应公式的构造,确定每个属性各个取值的分数值,得到个人 住房贷款风险评估模型。经过对该模型进行测试和评价,得出它们预测准确率 较高的结论,实现能够从真正意义上帮助银行信贷人员进行信贷分析并为信贷 决策提供支持的模型。 论文主要分为6 章: 第l 章:绪论。介绍了课题背景、选题意义以及数据挖掘中的决策树技术 在国内外银行信贷业务中的应用现状,并总体介绍了本文的研究方法,研究内 4 容和主要特点。 第2 章:数据挖掘基本理论。介绍了数据挖掘的定义、作用、功能、一般 过程及在本研究中的具体应用以及数据挖掘的方法,并通过数据挖掘分类算法 的比较,选择决策树技术以及经典的c 4 5 算法作为本研究使用的算法。 第3 章:决策树的基本理论。本章给出决策树的基本概念和构造过程,并 介绍了c 4 5 决策树构造算法以及分枝准则,这是构建个人住房贷款信用风险评 估模型的理论基础。 第4 章:数据准备。从个人住房贷款信息系统原始数据库中抽取与风险评 估有关的数据记录和相关字段,并将它们储存为数据挖掘算法可以处理的模式。 得到初步的处理数据集,利用数据预处理技术对其进行一系列的处理,得到适 合挖掘的挖掘数据集。 第5 章:个入住房贷款信用风险评估模型的建立。利用决策树c 4 5 算法, 计算数据集中每个属性的信息增益以及信息增益率,获得各个属性的决策影响 程度值以及每个属性的重要程度,构造决策树。运用决策树发现借款人信用状 态与其某些特征属性之间的关系,通过对借款人这些属性的具体观察值,对借 款人的违约可能性进行预测。最后,为了检验所得到的应用决策树方法构建的 个人住房贷款信用风险评估模型的效果以及对于我国商业银行个人住房贷款的 适用性,用测试样本来评估这个模型,以验证其有效性。 第6 章:总结与展望。介绍了决策树技术在个人住房贷款的应用中取得的 研究成果,但还有待于进一步地研究。 5 应用决策扫f 构建个人住房贷款风险评估模型 第2 章数据挖掘的基本理论 2 1 数据挖掘的定义1 1 9 9 5 年,在美国计算机年会( a c m ) 上,提出了数据挖掘( d m ,d a t am i n i n g ) 的概念,到目前为止,数据挖掘的定义很多,本文从技术和商业两个角度分别 进行阐述。 2 1 1 技术角度的定义 从技术角度看,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、 随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在 有用的信息和知识的过程。 与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。这个定义 包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感 兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海 皆准的知识,仅支持特定的发现问题。 2 2 2 商业角度的定义 数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的 大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决 策的关键性数据。 目前,由于各行业业务自动化的实现,商业领域产生了大量的业务数据, 这些数据不再是为了分析的目的而收集的,而是由于纯机会的商业运作而产生。 分析这些数据也不再是单纯为了研究的需要,更主要是为商业决策提供真正有 价值的信息,进而获得利润。但所有企业面临的一个共同问题是:企业数据量 非常大,而其中真正有价值的信息却很少,因此从大量的数据中经过深层分析, 获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘 也因此而得名。 因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进 6 第2 章数据挖掘的基本理论 行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型 化的先进有效的方法。 2 2 数据挖掘的作用及功能 对于企业而言,数据挖掘可以有助于发现业务发展的趋势,揭示己知的事 实,预测未知的结果,并帮助企业分析出完成任务所需的关键因素,以达到增 加收入、降低成本,使企业处于更有利的竞争位置的目的。1 1 2 】 数据挖掘通过预测未来的趋势及行为,可以让企业做出前缀的、基于知识 的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以 下5 类功能: 1 自动预测行为和趋势 利用历史数据找出规律,建立模型,并用此模型来预测未来数据的种类特 征等。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来 寻找未来投资中回报最大的用户。其他可预测的问题包括预测破产以及认定对 指定事件最可能做出反应的群体。【1 3 】 2 关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。【1 4 】若两个或多个 变量的取值之间存在某种规律性,就称之为关联。关联可分为简单关联、时序 关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知 道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规 则带有可信度。【1 5 】 3 聚类 数据库中的记录可被划分为一系列有意义的子集,称为聚类。i t 6 聚类增强 了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要 包括传统的模式识别方法和数学分类方法。【1 7 】八十年代初,m c h a l s k i 提出了概 念聚类技术的要点是:在划分对象时不仅考虑对象之间的距离,还要求对划分 出的类具有的某种内涵进行描述,从而避免了传统技术的某些片面性。【1 8 1 4 概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。 7 应用决策树掏建个人住房贷款风睑谭估模型 概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者 描述不同类对之间的区别。【l9 i 生成个类的特征性描述只涉及该类对象中所有 对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。 5 偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义 偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结 果与模型预测值的偏差、量值随时间的变化等。 2 0 l 偏差检测的基本方法是:寻 找观测结果与参照值之间有意义的差别。 2 3 数据挖掘的一般过程及具体应用 2 3 1 数据挖掘的一般过程【2 1 2 2 1 挖掘过程一般需要经历确定挖掘对象、准备数据、建立模型、数据挖掘、 结果分析与知识应用这几个阶段,图2 - l 描述了数据挖掘的基本过程和主要步 骤: 1 、 八 八 “ 被抽 冀、-叫被换的卜叫 取的 卜 | 警 数据 信息 e ,u 、 vv 图2 1 数据挖掘流程 过程中各步骤的大体内容如下: 1 确定挖掘对象 8 第2 章数据挖掘的基本理论 清晰地定义挖掘对象以及挖掘目的是数据挖掘的重要一步。挖掘的最后结 构是不可预测的,但要探索的问题应是有预见的。 2 准备数据 ( 1 ) 数据选择 搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数 据挖掘的数据,集成和合并数据到单一的数据挖掘库中,并协调来自多个数据 源的数据在数值上的差异。 ( 2 ) 数据预处理 选择数据后,还需要对数据进行预处理,对数据进行清洗,解决数据中的 缺值、冗余、数据值的不一致、过时的数据等问题。 3 建立模型 建立一个真正适合挖掘算法的分析模型,是数据挖掘成功的关键。模型的 建立必须从数据的分析开始,首先为模型选择变量。接着,从原始数据中构建 新的预示值。下一步,就需要从数据中选取一个子集或样本来建立模型。最后, 需要转换变量,使之和选定用来建立模型的算法一致。 4 数据挖掘 对所得到的经过转化的数据进行挖掘,除了完善与选择合适的算法需要人 工干预外,数据挖掘工作都由挖掘工具自动完成。 5 结果分析 当数据挖掘出现结果后,要对挖掘结果进行解释并且评估。其使用的分析 方法一般应视数据挖掘操作而定 6 知识应用 为将数据挖掘结果能在实际中得到应用,需要将分析得到的知识集成到业 务信息系统的组织结构中去,使这些知识在实际的管理决策分析中得到应用。 2 3 2 个人住房贷款数据挖掘的过程 本文研究的主要目标是通过数据挖掘工具对大量信息进行处理分析,以求 达到对贷款进行风险评估和防范个人住房贷款风险,尽量减少风险贷款的发生 的目的。具体来说,本研究要实现的目标包括: 9 应用决策缸f 构建个人住房贷款风硷评估攮型 1 建立借款人资信评分模型:通过对数据的挖掘,对借款人不同类别的属 性给予不同分值,得到可以量化的个人资信评分体系,从而可以从约束借款人 的角度防止不良贷款的发生。 2 得到借款人资信等级分类规n - 根据评分体系得到借款人的资信评分, 进一步得到对不同分值借款人的资信等级的分类规则。 3 预测借款人资信情况:通过样本数据的训练提取关于这些数据的特征式, 当新的借款人情况输入时可以较为准确的确定该借款人的资信等级。 4 虚假按揭贷款的识别:通过对数据库中异常记录的分析,能够得到可以 识别虚假按揭贷款的规则。 5 恶意违约贷款的识别:得到能够分析恶意违约贷款行为的方法,加大对 这类贷款的催收或诉讼的力度,防范不良贷款行为的发生。 6 建立风险评估评分模型:根据借款人的资信状况与贷款的其它特征综合 评价风险等级。 7 贷款偿付预测:根据不同等级的划分,预测新借款入的还贷行为。 本研究要对借款人的资信情况进行比较全面的研究并结合贷款的特征建立 风险评分模型,在此基础上得到贷款风险的分类等级规则,并且得到的模型能 够进一步对新的借款人的还贷情况做出预测。 为了达到这个目标,首先根据个人住房贷款的业务信息,采集个人住房贷 款数据库中的数据,经过数据预处理得到可以进行数据挖掘的待处理数据集。 然后,通过模型库进行贷款风险等级分类,预测贷款风险等级,得到决策模型; 经过知识评价、结论解释和知识提取,形成知识库( 知识库也将进一步提高模型 库预测、分类以及决策的能力) 。最后将经过结论解释得到的信息作用于个人住 房贷款风险评估,将作用后得到的反馈信息作用于进一步的风险控制需求中, 并根据评估适当修改采集的数据集。 2 4 数据挖掘的方法与选择 我们研究的个人住房贷款信用风险评估的问题属于分类问题。而对于分类 问题,分类方法主要有三种:基于传统统计分析的数据分类方法、基于神经网 络的数据分类方法和基于决策树技术的数据分类方法。嘲 l o 第2 章数据挖掘的基本理论 2 4 1 传统统计分析 统计分析是数据挖掘算法中最基础的部分。许多数据挖掘技术都利用了存 在已久的统计技术。这类技术包括相关分析、回归分析及因子分析等。多元统 计分析包括因子分析、聚类分析等,统计预测方法包括回归分析、时间序列分 析等。例如:抽样技术面对的是大量的数据,对所有的数据进行分析是不可能的, 也是没有必要的,因此就要在理论的指导下进行合理的抽样。在这些分析过程 中,一般先由用户提供假设,再由系统利用数据进行验证。此外,统计分析在 辨别分析和回归建模方面有着自己独特的长处。辨别分析在对于客户价值细分 方面很有作用,在回归建模方面,广泛地用于预测顾客将来的行为,例如预测 客户的潜在价值和未来的购买愿望等。 统计方法的最大优点在于其具有明显的解释性,存在的缺陷是过于严格的 前提条件( 样本量少、正态分布、等协方差等) 。也就是可解释性比较好,速度 快,但是由于样本要求是样本量少并且要求数据的完整性,所以针对海量数据 和不十分完善的数据,基于传统统计方法的模型其预测的准确率、强壮性和可 伸缩性都比较差。 2 4 2 神经网络技术唧2 5 】 神经网络为人们解决大复杂度的问题提供了一种有效的简单方法,它可以 很容易的解决具有上百个参数的问题,主要应用于分类和回归两类问题。在结 构上,神经网络划分为输入层、输出层和隐含层,如图2 - 2 所示: 输入层隐含层输出层 图2 2 神经网络示意图 1 1 应用决策树构建个人住房贷款风险评估模型 输入层每个节点对应一个个的预测变量。输出层节点对应目标变量,可有 多个。在输入层和输出层之间是隐含层,隐含层层数和每层节点的个数决定了 神经网络的复杂度。除了输入层的节点,神经网络的每个节点都与很多它前面 的节点连接在起,每个连接对应一个权重w x y ,此节点的值就是通过它所有 输入节点的值与对应连接权重乘积的和作为一个函数的输入而得到,我们把这 个函数称为活动函数或挤压函数。 神经网络的每个节点都可表示成预测变量的值或者值的组合。节点6 的值 已经不再是节点l 、2 的线形组合,因为数据在隐含层中传递时使用了活动函数。 调整节点间连接的权重就是在建立神经网络时要做的工作。 神经元网络和统计方法在本质上有很多差别。神经网络的参数可以比统计 方法多很多。如上图中就有1 3 个参数( 9 个权重和3 个限制条件) 。 神经元网络的优势是运行分析时无需心中有任何特定模型。而且通过神经 网络可以发现交互作用的效果( 如年龄和性别的组合效果) 。神经网络的缺点是 不易用它的权重层和晦涩的转化来解释结果模型。神经网络在数据为高度非线 形并有交互作用时对预示目标变量非常有用,但在需要解释数据中的关系时就 不太有帮助。 2 4 3 决策树方法吲 决策树方法是一种简单的知识表示方法,一般用于分类任务。它将事例逐 步分类,代表不同的类别。由于分类规则是比较直观的,因而此法比较容易理 解。 决策树类似于流程图中的树结构,其中每个内部节点表示在一个属性上的 测试,每个分枝代表一个测试输出,而每个树叶节点代表类或类的分布。决策 树提供了一种类似在什么条件下会得到什么值这类规则的方法。比如,在贷款 申请中,要对申请的风险做出判断。决策树的基本组成部分是:决策节点、分支 和叶子。决策树中最上面的节点称为根节点,是整个决策树的开始。决策树中 的每个节点的下层子节点的个数与决策树使用的算法有关。如c a r t 算法得到 的决策树的每个节点有两个分支,这种树就称为二叉树。允许节点含有多于子 节点的树称为多叉树。每个分支要么是一个新的决策节点,要么是树的结尾, 1 2 第2 章数据挖掘的基本理论 称为叶子。在沿着决策树从上到下遍历的过程中,在每个节点都会遇到一个问 题,对问题的不同回答导致不同的分支,最后会到达一个叶子节点。这个过程 就是利用决策树进行分类的过程,利用几个变量( 每个变量对应一个问题) 来判 断所属的类别( 最后每个叶子会对应一个类别) 。 决策树与神经元网络相比较,其优点在于可以生成一些规则。当我们进行 一些决策,同时需要相应的理由的时候,神经元网络就不可行。决策树是分析 消耗( 流线型生产) 、发现交叉销售机会、进行促销、信用风险或破产分析和发 觉欺诈行为的得力工具。 决策树方法的优点在于:可以生成可以理解的规则;计算量相对来说不是 很大:可以处理连续和种类字段:可以清晰的显示哪些字段比较重要。缺点在 于:对连续性的字段比较难预测:对有时间顺序的数据需要很多预处理的工作; 当类别太多时,错误可能就会增加的比较快;一般算法分类的时候,只是根据 一个字段来分类。 2 4 4 数据挖掘方法的选择 在选择数据挖掘分类方法时,我们需要考虑以下几个方面: 1 预测的准确率,即模型正确地预测新的或先前未见过的数据的类标号的 能力。 2 速度。即产生和使用模型的计算花费。 3 强壮性,即给定噪声数据或具有空缺值的数据,模型正确预测的能力。 4 可伸缩性,即给定大量数据,有效地构造模型的能力。 5 可解释性,即学习模型提供的理解和洞察的层次。 对比这三种分类方法,结果列表2 1 所示: 表2 1分类方法比较 比较内容传统统计分析神经网络技术决策树方法 预测的准确率 一般较好较好 速度较快 较慢较快 强壮性差 一般一般 可伸缩性 差一般好 可解释性 强弱强 应用决策树构建个人住房贷款风险评估模型 通过对三种分类方法的对比可以发现,决策树方法有几个显著的优点: 1 能够生成可以理解的规则。 2 计算量相对来说不是很大,所以计算速度较快。 3 可以处理连续和离散的字段。 4 可以清晰地显示哪些字段比较重要。 5 训练精度高。 6 ,决策树很擅长处理非数值型数据。 结合决策树方法的优点,综合考虑本文研究的目标要求和数据特点,本文 决定选用决策树分类方法作为个人住房贷款借款人信用风险分类的方法。 1 4 第3 章决策树的基本理论 第3 章决策树的基本理论 3 1 决策树的基本概念 决策树因其形状像树且能用于决策而得名,因其出色的数据分析效率、直 观易懂的特点备受青睐,成为数据挖掘常用的技术。它通过将大量数据有目的 地分类,从中找出一些潜在的、对决策有价值的信息。从技术上讲,一个决策 树由一系列结点和分枝组成,树中的每个非叶结点( 包括根结点) 对应于训练 集中一个非类别属性的测试,非叶结点的每一个分枝对应属性的一个测试结果, 每个叶子结点则代表一个类或类分布。从根结点到叶子结点的一条路径形成一 条分类规则,决策树可以很方便地转化为分类规则,是一种非常直观的分类模 式表示形式。刚 在金融领域常用决策树来分析数据并作出结论。例如,银行在个贷业务中, 可先对客户贷款风险的高低进行评估,下面简单地构造一棵决策树来进行判断, 如图3 1 所示: 图3 -
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 汽轮机检修技术协议书
- 2026-2031中国光电子材料行业市场发展态势及投资前景可行性报告
- 2026-2031中国工艺制品现状分析及市场前景预测
- 2025年初级运营证考试题及答案
- 2025年全国气瓶充装作业特种设备P证考试题库含答案
- 2025年工勤技能考试职业道德试题附答案
- 2025年水利安全员水安考试题库附答案
- 2025临床执业医师资格考试模拟试题及答案
- 员工休假期间的法律权益保障
- 2026年校园生态指示植物监测合同
- 温岭市有机废弃物综合处置项目环评报告
- 医院食堂服务人员培训计划
- 2025年危险化学品安全考试题库(危险化学品安全操作规范修订与培训效果)试题
- 2025年下半年海南省药品监督管理局直属单位招聘事业单位人员易考易错模拟试题(共500题)试卷后附参考答案
- 2025年度租赁车辆租赁合同附件四:维修保养记录
- 影响世界的工业革命课件-2024-2025学年高一下统编版(2019)必修中外历史纲要下
- 2025年陕西煤业化工物资集团有限公司招聘笔试参考题库含答案解析
- 国企中层领导竞聘笔试题
- 2023年山东省学位与研究生教育质量报告
- 椭圆的定义 课件-2024-2025学年高二上学期数学北师大版(2019)选择性必修第一册
- 2024水电水利工程施工监理规范
评论
0/150
提交评论