个人信用评分混合模型研究.pdf_第1页
个人信用评分混合模型研究.pdf_第2页
个人信用评分混合模型研究.pdf_第3页
个人信用评分混合模型研究.pdf_第4页
个人信用评分混合模型研究.pdf_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华东师范大学 硕士学位论文 个人信用评分混合模型研究 姓名 王帅 申请学位级别 硕士 专业 概率论与数理统计 指导教师 汪荣明 20100501 摘要 随着中国经济的快速发展 各种个人消费信贷业务的规模迅速扩大 但是 由于 目前国内商业银行对零售业务的风险管理水平较低 管理手段与技术方法相对落后 没有形成有效的自动化的基于个人信用评分模型的风险管理体系 这严重阻碍了个人 消费信贷业务的发展 因此 开发出一套能够有效降低个人信用风险的信用评分方 法 对社会经济的发展具有十分重要的意义 本文建立的个人信用评分混合模型可以 有效降低商业银行的个人信用风险 更好地实现银行利润最大化的目标 本文包含以下几方面的内容 第一章引言 指出问题的研究背景及意义 论述了个人信用评分系统在消费信贷 风险控制过程中的重要性 概述了国内外信用评分的发展和现状 并对现有的理论研 究成果加以总结 第二章详细介绍了三种分类方法用以建立信用评分模型 它们是l o g i s t i c 回归 分 类树和随机森林算法 本文选取的三种方法都很有代表性 其6 p l o g i s t i c s 回归是目前商 业银行使用最广泛的参数统计方法 分类树则是使用最广泛的非参数方法 而随机森 林算法是数据挖掘领域较为成功的算法 第三章研究个人信用评分模型的检验方法 如何判定一个模型的有效性 我们列 举了三种理论界和实用界常用的方法 第四章用真实的信贷数据对第二章提出的三种分类方法进行实证分析 结果表明 三种方法都可以有效的用于个人信用评分建模 第五章建立个人信用评分混合模型 首先由分类树方法获取特征变量之间的交互 作用项 然后引入到l o g i s t i c 回归模型中 从而建立完备的l o g i s t i c 回归模型 随机森林 算法给出每个特征变量的重要性 为特征变量的选取提供依据 本文的主要创新点在于 1 将随机森林算法引入到个人信用评分建模中 并通 过实证检验其预测能力 2 建立个人信用评分混合模型 由分类树方法获取特征变 量交互作用项 并引入到l o g i s t i c 回归模型中 建立完备的回归方程 关键词 信用评分 混合模型 随机森林 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fc h i n e s ef i n a n c i a li n d u s t r y t h es c a l eo fv a r i o u sc o n s u m e rc r e d i te x p a n d sq u i c k l y b u t b e c a u s eo ft h el o wr i s km a n a g e m e n tl e v e lo v e rt h e r e t a i lt r a d ef r o mt h ei n t e r i o rc o m m e r c i a lb a n k s r e l a t i v e l yb a c k w a r dm a n a g e m e n tm e a n s a n dm e t h o d s l a c ko fa ne f f e c t i v ep e r s o n a lc r e d i te v a l u a t i o nm e t h o d a l ls e v e r e l yh i n d e r e d t h ed e v e l o p m e n to fc r e d i tb u s i n e s so fp e r s o n a lc o n s u m e t h e r e f o r e i ti sv e r yi m p o r t a n tf o rt h ed e v e l o p m e n to fs o c i a le c o n o m yt od e v e l o pa n e v a l u a t i o nm e t h o do fp e r s o n a lc r e d i ts c o r i n g w h i c hi ss u i t a b l ef o rt h ec h i n e s ec h a r a c t e r a n dc a ne f f e c t i v e l yl o w e rt h ec r e d i tr i s k t h i sr e s e a r c ho nt h em i x e dp e r s o n a lc r e d i t s c o r i n gm o d e lc a nr e a c ht h eg o a l 7t h a ti st oe f f e c t i v e l yl o w e rt h ec r e d i tr i s ko fc o m m e r c i a l b a n k sa n dr e a l i z em a x i m i z eo ft h eb a n kp r o f i t s i nt h i sp a p e r c h a p t e r1g i v e sab r i e fi n t r o d u c t i o no fc r e d i ts c o r i n ga n dr e s e a r c h e s t h a th a v eb e e nd o n eb e f o r e c h a p t e r2c o n c e r n sa b o u tt h r e es i n g l em e t h o d su s e dt o b u i l dt h ep e r s o n a lc r e d i ts c o r i n gm o d e l c h a p t e r3a n a l y z ec o n c e p t sa n dm e t h o d o l o g i e s t oe v a l u a t et h ep r e d i c tp o w e ro ft h ec r e d i ts c o r i n gm o d e l i nc h a p t e r4 t h ee m p i r i c a l a n a l y s i sf o re a c hm e t h o di nc h a p t e r2 i sc o n d u c t e du s i n gt h er e a lw o r l dc r e d i td a t a f o re a c hm e t h o d t h ee r r o rr a t i oi sc a l c u l a t e d a f t e rt h a t t h i sp a p e rc o n s i d e ram i x e d m o d e lo fl o g i s t i cm o d e la n dd e c i s i o nt r e ei nc h a p t e r5 w ec a nu s ed e c i s i o nt r e et o d e t e c tt h ei n t e r a c t i o nf o rl o g i s t i cm o d e l e m p i r i c a la n a l y s i si sa l s od o n et op r o v et h a t t h ei n t e r a c t i o n se x i s ti nt h em o d e l s ot h em i x e dm o d e lc a nr e a c ht h eg o a l t h a ti st o d e t e c tt h ei n t e r a c t i o n sb yd e c i s i o nt r e e t h em a j o rc o n t r i b u t i o no ft h i sa r t i c l ei si n t r o d u c er a n d o mf o r e s tm e t h o dt ob u i l d c r e d i ts c o r i n gm o d e l a n dt h ee m p i r i c a lr e s u l ti sg o o d m e a n w h i l e am i x e dm o d e lo f l o g i s t i ca n dd e c i s i o nt r e ei s b u i l tt om a n a g et h ec r e d i tr i s k f i n a l l y w ec a ng e tt h e c o n c l u s i o nt h ed e c i s i o nt r e ec a nd e t e c tt h ei n t e r a c t i o nf o rl o g i s t i cm o d e l k e y w o r d s c r e d i ts c o r i n g m i x e dm o d e l r a n d o mf o r e s t 型硕士学位论文答辩委员会成员名单 姓名职称单位备注 渤辜臣才 老铁程鸶 彳茫犬污 主席 诃鬟v 钯龙 袁复箍 耸直 j 怿大i 誓 王曼畦老袅馥转 哺犬学 插图目录 插图目录 3 1 好客户与坏客户观测分布 1 4 孓2k s 统计量 1 4 3 3 一般的r o c 曲线 1 5 4 1 l o g i s t i c 回归模型的r o c 曲线 1 6 缸2 分类树模型实证分析结果 1 9 4 3 分类树模型的r o c 曲线 2 0 4 4 随机森林模型的r o c 曲线 2 1 4 5 随机森林模型的变量重要性 2 1 5 1 分类树提取重要变量 2 4 表格目录 表格目录 3 1 一般的混合矩阵 1 3 4 1 al o g i s t i c 回归模型训练样本预测结果 1 6 4 一l b l o g i s t i c 回归模型保留样本预测结果 1 6 4 2 a 分类树模型的训练样本预测结果 1 9 4 2 b 分类树模型的保留样本预测结果 1 9 4 3 a 随机森林模型的训练样本预测结果 2 0 4 3 b 随机森林模型的保留样本预测结果 2 0 第一章引言 第一章引言弟一早ji 苗 1 1 问题的提出 消费信贷业务属于银行个人业务的一种 主要是指商业银行将资金借贷给个人或 家庭使用 在约定时间内收回本金并按一定的利率计取利息的信贷业务 消费信贷是 拉动我国内需的一项重要货币政策 是在社会再生产过程中实现消费与生产均衡的助 推器 自1 9 9 9 年央行发布了 关于开展个人消费信贷的指导意见 以来 我国消费信 贷市场发展迅速 2 0 0 7 年 两会 上 温家宝总理强调 近几年仍应坚持扩大内需方 针 重点扩大消费需求 而消费信贷在拉动消费需求上的作用不容忽视 近年来随着我国金融业飞速发展 各级银行机构遍布全国 人民银行 国有商业 银行 股份制银行和地方性商业银行构成了我国庞大的银行体系 成为我国金融业务 发展的坚实基础 随着社会医疗 养老保险等制度的日益成熟 以原始积累的方式进 行消费的传统观念正逐步被信贷消费理念所取代 越来越多的居民开始接受消费信贷 服务 进行信贷消费 消费信贷业务在我国发展至今 业务范围迅速扩大 这些贷款业务主要建立在稳 定合法的个人经济收入与良好的个人社会信用基础之上 主要包括个人住房消费贷 款 汽车消费贷款 个人耐用消费品贷款 个人助学贷款 信用卡等业务 有的金融 机构还开展了个人小额信用贷款 个人综合授信额度贷款等业务 目前 中国消费信贷呈现出快速增长的态势 这与中国一系列扩大内需政策紧密 相关 其中 国家对住房消费 汽车消费 农村消费等领域的金融支持力度加大 是 拉动个人消费贷款提升的主要原因 2 0 0 9 年上半年 个人住房按揭贷款迅猛增长 新 增量达4 6 6 1 7 6 亿元 同比增幅超过1 5 0 2 0 0 9 年以来 国家发布的与汽车市场有关的 政策共有9 次 在政策强劲拉动下 汽车市场增长明显 业界预计 2 0 1 0 年汽车消费贷 款将成为银行个人消费贷款新的增长点 由于国家对房地产市场的密集调控 楼市消 费将有所降温 而在七折利率优惠的条件下 房贷业务本身利润也已被大大压缩 作 为仅次于个人住房按揭贷款的个人消费贷款 车贷有望迎来 加速跑 随着我国信 用卡发卡量的不断增加以及公众信贷消费意识的增强 信用卡期末授信总额和期末应 偿信贷总额 信用卡透支余额 持续大幅增长 农村消费信贷也将成金融机构新的增 长点 中国货币政策执行报告指出 2 0 0 9 年个人消费贷款全年新增1 8 0 万亿元 同比多 增1 3 0 万亿元 其中上半年增j j n 6 5 0 8 亿元 下半年增j j n l 1 5 万亿元 加速增长态势明 显 新增个人消费贷款中7 5 左右为个人住房贷款 主要与住房消费有关 1 2 信用评分 当前 个人消费信贷业务的开展 对于刺激国内消费需求 拉动经济增长发挥了 积极的作用 但是 在消费信贷开展过程中还存在着信息不对称等问题 导致信贷供 需配比低效 严重制约着消费信贷的进一步发展 如何优化信贷审批过程 使信贷风 险最小化 利润最大化 解决问题的根本出路就是构建科学的个人信用评价体系 1 2 信用评分 信用评分是指帮助贷款机构发放消费信贷的一整套决策模型及其支持技术 这些 技术决定谁能得到贷款 得到多少贷款 以及提高放贷款机构赢利性的操作战略 贷款人必须做出两类决策 首先是是否要给某个新的申请人贷款 其次是如何管 理现有客户 包括是否要给他们增加信用额度 帮助进行第一类决策的技术称作信用 评分 帮助进行第二类决策的技术称为行为评分 此外 评估信用产品相关风险时 根据借款人类型的不同 我们还可以粗略地列 举几种不同的评分 申请评分 指对新申请者信用能力的评估 它通过评估申请时的社会 人口统 计 金融和其它数据来量化跟信用要求有关的风险 行为评分 理论与申请评分相似 不同点在于它是对现有客户进行评估 因此 分析已经包含了借款人的行为 行为评分模型分析消费者的行为模型用于支持动态资 产组合管理过程 征信评分 征信评分用来将不同程度无偿付能力的消费者划分为不同的组 分离 出那些需要采取果断措施的人 这些模型依据拖欠度进行区分 更好地管理拖欠客 户 从第一次拖欠 3 0 6 0 天 直到最后销帐 欺诈评分 欺诈评分模型根据欺诈的可能性对客户进行排序 随着个人消费信贷的发展 个人信用评分技术被高度重视 个人信用评分被广泛 应用在商业银行的消费信贷领域 据有关数据统计 个人信用评分技术的预测效果比 任何主观判断都科学 使用个人信用评分技术使不良信贷率下降了5 0 1 3 个人信用评分的定义和基本原理 信用评分是在建立客户信用信息数据库系统的基础上 运用数据挖掘或统计分析 方法 找出可能影响客户未来信用风险的各种因素 并分配以不同权重 进而建立起 特定的数学模型 并借助计算机信息技术对客户信用信息进行量化评估的方法 个人信用评分是通过对个人经济还款能力的综合评判和以往信用记录量化分析 以预测贷款申请人或现有借款人违约可能性 它通常是以一个分数 s c o r e 又 间来反应 一2 第一章引言 个人信用状况 一般界定为分数越高 提示该人的风险越低 或信用越好 银行根据 贷款人的信用分数 分析贷款者按时还款的可能性 据此决定是否给予授信以及授信 的额度和利率 从本质上讲 信用评分是在无法认清总体中分组的特征 只能认清相关分组特征 时 区分各组的一个方法 信用评分最早始于1 9 4 0 年代末至1 9 5 0 年代初 当时 美国 有些银行开始进行了一些有关信用评分方法的试验 目的是提供一种可以处理大量信 贷申请的工具 1 9 5 6 年 工程师b i l lf a i r 和数学家e a r li s a a c 共同发明了著名的f i c o 评 分方法 并成立了f a i r l s a a c 公司 成为世界上第一家提供信用评分数学模型的公 司 1 9 5 8 年 f a i r l s a a c 公司发布了第一套信用评分系统 1 4 个人信用评分的意义 虽然授信者通过人工分析客户的历史信用资料 同样可以得到分析结果 但利用 信用评分却更加快速 更加客观 更具有一致性 个人信用评分由计算机完成计算工 作 具有客观 一致 高效的特点 有助于克服人为因素的干扰防止片面性 个人信 用评分可以精确估计消费信贷的风险 给授信者提供了一个可靠的技术手段 减少不 良贷款 控制债务拖欠 个人信用评分可以使授信者更加精确地界定可以接受的消费 信贷的风险 扩大消费信贷的发放 个人信用评分及其自动化的操作加速了整个信贷 决策过程 申请人可以更加迅速地得到答复 提高了操作的效率 同时也降低了授信 成本 个人信用评分系统可以提高商业银行授信工作的效率 因为商业银行不需要人工 操作来分析是否批准信用申请人的信贷申请 也不需要人工分析违约情况 在国外 信用评分及其自动化的操作加速了整个信贷决策过程 申请人可以更加迅速地得到答 复 提高了操作的效率 使用信用评分之后 信用卡的审批只要一两分钟 甚至几秒 钟 2 0 8 0 的抵押贷款可以在两天之内批复 其中不少贷款项目在4 6 小时内完成 审批 6 0 的汽车贷款的审批可以在1 小时内完成 据美国消费银行协会最新的一份资 料显示 以前不使用信用评分 小额消费信贷的审批平均需要1 2 小时 如今使用信用 分和自动处理程序 这类贷款的审批缩短至 j 1 5 分钟 同时 个人信用评分可以精确估 计消费信贷风险 给授信者提供了一个可靠的技术手段 减少不良贷款 个人信用评分主要用途有两个 1 预测信用申请人的预期违约率 商业银行等金融机构可以通过对信用申请人进行 信用评分来决定是否批准一份信用申请 从潜在客户群中筛选违约率小的客户 一般 商业银行会对信用申请人的个人信用评分进行排序 通过对信用风险门槛设置阈值来 决定是否批准信用申请 2 预测现有客户的违约率 对已经成为商业银行等金融机构客户的消费者 商业银 一3 一 1 5 国内外信用评分介绍 行有必要对其信用情况进行跟踪和记录 这主要是通过评分系统来分析借贷 偿还及 其他情况 预测他们违约的可能性 同时评分系统也会根据客户各指标的变化情况来 对客户的信用等级进行调整 1 5 国内外信用评分介绍 1 5 1 国外信用评分 美国有多种信用评分的计算方法 其中美国3 大信用局都采取f i c o 评分 f i c o 评 分是由f a i r i s s a c 公司开发的一种信用评分统计模型 它使用的样本高达1 0 0 万个 模 型所确立的指标包括个人信用 品德 能力资本等5 c 指标 模型将各个指标分为若 干档次并确立各档次的分值 加权各个指标 得出个人信用总分 f i c o 的打分范围 是3 2 5 9 0 0 一般情况下 如果借款人的信用分超过6 8 0 分 银行等金融机构认为借款 人的信用度非常高 可以毫不犹豫地同意发放贷款 如果借款人的分数低于6 2 0 分 银 行等金融机构会要求借款人提供担保 或者直接拒绝贷款 如果借款人的信用分数介 于6 2 0 6 8 0 之间 银行等金融机构会做进一步调查 或采取其他信用分析工具 做个案 处理 据统计调查显示 信用分低于6 0 0 分的借款人违约率为1 8 信用分在7 0 0 8 0 0 分 之间的违约率为1 1 2 3 信用分高于8 0 0 分的借款人违约率为1 1 2 9 2 f i c o 评分系统用于预测情况变坏的可能性 它预测的是2 4 个月内消费者逾期9 0 天 还款的可能性 评分中关键的要素有以下5 个 1 付款历史 约占评分总值的3 5 主要考虑的因素有 不同种类账户的付 款信息 公共记录和收账事项 迟付 未付 坏账 以及公共纪录 收账纪录的 细节 多少账户显示没有逾期付款 2 债务总额 约占评分总额的3 0 这方面主要考虑如下因素 所有账户的 债务总额 不同类型账户的债务额 在某些特定类型账户上是否有余额 多少 信用账户有余额 信用卡及其他信用账户中的信用限额有多少被使用 与最初的 借款额相比较 分期付款账户还有多少没有偿还 3 信用记录的时间长短 这一方面大概占1 5 一般来说 较长的信用历史有 助于提高评分 这方面考虑因素如下 信用账户建立多长时间 专门信用账户建 立的时间 使用特定账户的时间 4 新的信用申请 约占1 0 考虑因素有 有多少新账户 各是哪些类型 开的新账户有多长时间 最近提出了多少信用申请 反映在信用记录报告的查询 记录中 授信机构查询信用记录以来时间的长短 在逾期付款后 最近是否有良 好的信用记录 5 使用信用的种类是否是健康的组合 约占1 0 一4 一 第一章引言 目前f i c o 信用评分的计算方法至今未向社会完全公开 f a i r l s s a c 公司目前仅公布 了其评分模型的主要决策因素和大致权重 对此 f a i r l s s a c 公司称 完全公开评分的 细节将会导致客户以故意的作为来操纵建立在客观统计基础上的个人信用评分 从而 彻底摧毁个人信用评分系统的根基 1 5 2 我国信用评分 2 0 世纪9 0 年代中后期 我国信用经济开始发展起来 国内商业银行为了控制风险 开始借鉴国外的信用评分方法 结合我国实际情况 开始设计开发自己的信用评分方 法 商业银行选取的指标一般包括个人身份基本情况 个人职业情况 家庭收入情况 及与银行关系等 商业银行一般将所选取的指标量化 赋予不同的分值进行处理 从 而对个人的还款能力 资信状况作出综合评价 并给予相应的信用等级 随着我国征信业的发展 国内各征信机构也陆续推出个人信用评分 目前国内个 人信用评分运作较为成熟的主要有上海资信的个人评分系统和深圳鹏元的个人综合信 用评分 2 0 0 2 年1 1 月2 5 日上海资信开通了自己的个人信用评分系统 上海资信根据预测 目标不同 将个人信用评分分为 风险评分 价值评分 响应评分 流失评分 催收 评分 欺诈评分 破产评分等 2 0 0 6 年3 月 上海资信使用最新的征信数据和建模技术 推出了新的个人信用评分一一个人信用管理评分 上海资信的个人信用管理评分是用来预测消费者在未来2 年内发生超过6 0 天以上拖 欠或逾期的可能性 如被确认为欺诈或没有使用银行和电信产品的消费者以及当前有 超过6 0 天以上拖欠的消费者不能进行评分 2 0 0 5 年深圳鹏元推出国内首个个人综合信用评分一一 鹏元8 0 0 鹏元8 0 0 信 用评分指标包括个人基本信息 银行卡信息 银行个人贷款信息 缴纳社保信息 信 用报告查询信息 公共缴费信息等 其中银行信用卡信息和银行个人贷款信息是影响 个人信用信息的重要变量 鹏元8 0 0 是通过建立数学模型对个人信用信息进行统计分析 以预测未来一段时 间内借款人违约的可能性 并用一个分数综合反应个人信用状况 信用分区间为3 2 0 8 0 0 分数越高 借款人的违约率越低 信用评分分为a f6 个等级 每8 0 分为一等级 其中a 级为 7 2 0 分n s o o 分 表示可正常放贷 b 级为6 4 0 分以上 也可正常放贷 c 级 及d 级为4 8 0 分一6 4 0 分 表示可放贷但优惠条件不如b 级和a 级 e 级为4 8 0 分以下 表示 放贷有较大风险 f 级为3 2 0 4 0 0 分 表示此类人贷款几乎1 0 0 违约 在该体系中 每 个分数对应一个违约率 8 0 0 分对应违约率为1 7 3 3 2 0 分对应的违约率为1 0 0 目 前 鹏元8 0 0 个人信用评分已被深圳多家银行作为放贷的风险参考 个人信用评分系统不一定由个人征信机构自己开发的 征信机构可以委托专业 的个人信用评分系统开发机构进行开发 目前 全球比较著名的的信用评分系统开 5 1 6 文献综述 发机构有f a i r l s a a c c c n m d s 等 上海资信的个人信息评分系统就是利用澳大利 亚 t u a 公司开发的信用评分模型 1 5 3 国内外信用评分比较 目前我国个人征信机构缺乏权威性的个人信用评分系统 上海资信 深圳鹏元虽 已建立自己的个人评分系统 但由于其信用评分系统的建立是以本地居民的数据为样 本 是否适用于全国还需要检验 而在美国 f a i r l s s a c 公司的f i c o 信用评分得到美 国个人征信机构的普遍使用 我国信用评分的指标的选取及权重与国外评分有不同 如我国大多数商业银行的 评分系统对个人的基本情况权重赋值太高 对反映债务和信用状况的指标赋值相对较 低 在评分指标的关注方面也与外国商业银行略有不同 如职业情况方面来看 国外 银行看重的是工作的稳定情况 而国内银行更看重借款人的职位 职称及职业发展前 景 目前在变量的选择 权重的分配 模型的调整上 国外的专业机构有相对较为成 熟的经验 我国个人征信机构由于成立时间较短 经验相对较浅 未来需要通过总 结 调试 跟踪 分析等措施 对个人信用评分模型的建模工作进行探索 不断优化 建模工作 此外 当前我国的信用评估很大部分是在银行内部评估 信息采集的范围一般仅 限于银行内部信息 信息覆盖面相对较窄 随着我国个人征信业的发展 个人信用评 估应该由专业的独立的第三方征信机构来完成 1 6 文献综述 可以这样说 信用评分是统计学和运筹学在金融和银行业中最成功的应用之一 近2 0 年来 多种理论和技术被应用于信用风险评估领域 目前 有关信用风险评估的主流方法是基于分类的方法 即根据借款人的财务和 非财务状况 将借款人进行评级 分类 这样信用评分就转化为统计中的分类问题 理论界和实业界提出了多种分类模型 可以归纳为统计模型和非统计模型两大类 传统的统计模型思路是根据已有分类的若干样本 从中总结出分类的规则 建立 判别公式 用于新样本的分类 根据判别函数的形式和样本分布的不同 主要的模型 有判别分析模型 线性回归模型 l o g i s t i c 团归模型 k 近邻方法等 随着计算机科学和人工智能的发展 数据挖掘方法成为信用风险评估领域中相对 较新的方法 诸如神经网络 1 8 分类树 向量机 遗传算法 1 3 等数据挖掘分类算法 运用到个人信用评分领域 并取得了不错的效果 5 1 4 6 一 第一章引言 以往的文献都是基于某一具体模型或方法来评估信用风险 将多个模型结合起来 应用的文献还不多 3 1 1 f 2 3 1 其中石庆焱f 2 6 提出一种新的综合运用不同方法建立个人信 用评分模型的方法 先建立神经网络模型 然后将神经网络模型的输出结果作为自变 量之一与其他特征变量一起再建5 z l o g i s t i c 回归模型 最后用l o g i s t i c 回归模型对客户进 行信用评分 采用这种方法建立的模型预测精度比单纯使用l o g i s t i c 回归模型要高 模 型的稳健性比神经网络模型要好 模型中特征变量有较好的解释意义 1 7 本文的主要创新点和框架 1 7 1 主要创新点 本文的主要创新点在于 1 将随机森林算法引入到个人信用评分建模中 并通 过实证检验其预测能力 2 建立个人信用评分混合模型 由分类树方法获取特征变 量交互作用项 并引入到l o 西s t i c 回归模型中 建立完备的回归方程 1 7 2 本文框架 第一章引言 指出问题的研究背景及意义 论述了个人信用评分系统在消费信贷 风险控制过程中的重要性 概述了国内外信用评分的发展和现状 并对现有的理论研 究成果加以总结 第二章详细介绍了三种分类方法用以建立信用评分模型 它们是l o g i s t i c 回归 分 类树和随机森林算法 本文选取的三种方法都很有代表性 其中l o g i s t i c s 回归是目前商 业银行使用最广泛的参数统计方法 分类树则是使用最广泛的非参数方法 而随机森 林算法是数据挖掘领域较为成功的算法 第三章研究个人信用评分模型的检验方法 如何判定一个模型的有效性 我们列 举了三种理论界和实用界常用的方法 第四章用真实的信贷数据对第二章提出的三种分类方法进行实证分析 结果表明 三种方法都可以有效的用于个人信用评分建模 第五章建立个人信用评分混合模型 首先由分类树方法获取特征变量之间的交互 作用项 然后引入至l j l o g i s t i c 回归模型中 从而建立完备的l o g i s t i c 回归模型 随机森林 算法给出每个特征变量的重要性 为特征变量的选取提供依据 一7 一 第二章三种个人信用评分单一模型 本章介绍的三种方法都很有代表性 其6 p l o g i s t i c s 回归是目前商业银行使用最广泛 的参数统计方法 分类树则是使用最广泛的非参数方法 而随机森林算法是数据挖掘 领域较为成功的算法 2 1l o g i s t i c 回归 个人信用评分中产生分类规则最常用的方法就是l o g i s t i c 回归 一般线性回归模型 处理的是因变量是连续变量时与自变量的函数关系 然而 实际中许多变量是以类的 形式表现的 如信用卡申请中的好客户与坏客户 因此 建立分类变量与影响变量之 间的数学关系就显得非常必要 这里 我们考虑的问题是因变量y 是分类变量 我们考虑因变量为两类的情形 称 为阻1 变量 如好客户y 1 与坏客户y 0 我们可以很自然的建立普通的线性回归方 程来解释y 设样本为 z 1 y 1 3 2 2 耽 z 竹 鲰 甄 x i l z 伽 t p 是变量数 n 是 样本量 可以得出下面的多元回归方程 于是 y i o 1 建立上述模型存在以下问题 因变量是分类变量 服从两点分布 不符合线性回归中 正态分布的假设 对因变量的估计值很有可能超出区间 o 1 所以 实际处理中我们需要对y 进行一个变换 l o g i s t i c 回归就是对因变 量y 作l o g i t 变换 然后进行线性建模的方法 2 1 1l o g i s t i c l i i l 归模型 训练数据 z 1 y a x 2 y 2 既 砚1 x i p r 其中戤为特征向 量 犰为分类变量 当特征变量取值z 时 y 1 的概率i e y g p p y 1 1 x y 0 的 概率记为1 一p 1 一p y 1 i x 8 一 n2l 邑 一u z 厥 p 芦 阮 y n 2l 一u z 厥 p 触 十 阮 i i 玑 e 第二章三种个人信用评分单一模型 z n 南 可以验证用l o 舀t 变换使得因变量的取值从 o 1 区间扩展到整个实数轴 变换后方程变为 n 南 风 善p 黼埘钆2 棚 这时回归方程的右边是自变量的线性组合 左边是概率p 的l o g i t 函数 我们称这样的回 归模型称为l o g i s t i c 回归 1 0 9 i s t i cr e g r e s s i o n 我们可以得到 p p r 1 1 垆煮黯鳊 其中称风为常数项或截距 称卯 胁 岛 伟 为l o g i s t i c 模型回归系数 从上式可以 看出 l o g i s t i c 回归模型是一个非线性回归模型 自变量k 可以是连续变量 也可以是 分类变量或哑变量 d u m m yv a r i a b l e 2 1 2l o g i s t i c l 回归模型的极大似然估计 l o g i s t i c l 明参数的估计采用极大似然估计方法 m l e l o g i s t i c 回归的似然函数为 三 i i p y 1 i 觑 玑 1 一p y 1 i 1 一玑 i 1 2 仃 i l 对数似然函数为 l n l e y i i n p y 1 i 娩 1 一玑 l n 1 一p y 1 i 孔 i 1 令导数为零 有 筹 静一 k 0 删 2 卯 这是p 1 个有关p 的非线性方程 常用数值迭代方法解出l o g i s t i c 回归参数的估计 一9 一 2 2 分类树 2 2 分类树 分类树法有时又称作递归分割法 其基本思想是将信用申请人的申请表中的回答 项划分成不同的组 然后按照不同组中好 坏客户的多少来确定该组是好客户组还是 坏客户组 最初分类树法被应用于分类问题 后来很快被用于信用评分领域 首先将申请人数据集合a 按照某一特征划分成两个子集 使得当我们考查申请人样 本时 这两个新的子集内申请人的违约风险的同质性要高于原来的数据集 然后这两 个子集又各自进一步划分为两个子子集 使得各子子集内申请人的违约风险的同质性 比两个子集要高 我们可以不断重复这一过程 直至所划分的子集成为满足要求的末 端节点为止 每个末端节点然后被划分成a g 或a b 的一部分 整个过程可以用树状结构 来表示 和经典回归不同 决策树不需要对总体进行分布的假定 而且 决策树对于预测 很容易理解 这是其优点 此外 决策树很容易计算 但有必要设定不使其过分生长 的停止规则或者修剪方法 决策树的一个缺点是每次分叉只和前一次分叉有关 而且 并不考虑对以后的影响 因此 每个节点都依赖于前面的节点 如果一开始的划分不 同 结果也可能很不一样 分类树模型在本质上就是按各个自变量对因变量的关联程度依次逐个分层 直至 最后分层的统计检验无统计学意义为止 然而分层统计在本质上就是交互作用背景下 的简单效应统计分析 所以一些文献报道可以借助回归树的分类树筛选可能的交互作 用项 2 3 随机森林算法 2 3 1随机森林算法的定义和基本性质 定义2 1随机森林是一个分类器 它包含许多树状分类器 x o k k 1 2 其中e 表示所有分类变量 e 七 是独立同分布的随机向量 是第k 次有放 回抽取的分类变量构成的集合 x 表示输入向量 x 的分类由这些树状分类器投票决 定 2 给定一列分类器 1 z 九2 z h e x 对任意输入向量 vx 定义裕量函 数 m a r g i nf u n c t i o n 为 m 夕 x y n v 七g 饥 x y 一m z a l x q v 七g h e y z 1 0 第二章三种个人信用评分单一模型 其中j 为示性函数 裕量函数表示的是将x 判对时的平均分类器数与将x 判错时判为 其他类的最多平均分类器数的差 裕量越大则分类越可信 裕量函数可以用来定义随 机森林的泛化误差 p 口 p x y m g x y o 定理2 1 在随机森林中 七 x h x e k 随着树的数目的增加 由强大数定 律 关于序列 e 知 p e 几乎处处收敛于 p 墨y p o h x e y 一m z a y x p c 允 x e z i z i i n t e r c e p t 9 4 8 0 e 0 01 6 1 4 e 0 05 8 7 54 2 3 e 0 9 车奉幸 v i l 1 7 0 1 e 0 02 7 3 8 e 0 1 6 2 1 25 2 3 e i 0 木车木 v 1 2 1 4 3 2 e 0 02 6 9 3 e 0 1 5 3 1 91 0 5 e 0 7 i c 木木 v 1 3 1 1 1 7 e 0 04 2 5 8 e 0 1 2 6 2 30 0 0 8 7 0 9 木木 v 2 3 2 3 7 e 0 21 0 6 3 e 0 2 3 0 4 60 0 0 2 3 1 8 木木 v 3 1 1 1 1 2 e 0 04 8 6 9 e 0 1 2 2 8 40 0 2 2 3 7 1 木 v 3 2 1 7 l l e 0 04 7 6 9 e 0 1 3 5 8 80 0 0 0 3 3 4 奉木奉 v 3 3 1 0 1 3 e 0 02 8 8 3 e 0 1 3 5 1 30 o 0 0 4 4 2 木掌木 v 3 4 7 4 2 8 e 0 13 8 3 4 e 0 1 1 9 3 70 0 5 2 6 8 8 v 4 1 1 7 5 5 e 0 09 4 4 8 e 0 1 1 8 5 80 0 6 3 2 2 9 v 4 2 4 0 2 6 e 0 29 7 3 7 e 0 1 0 0 4 10 9 6 7 0 1 5 v 4 3 9 5 8 9 e 0 19 5 2 4 e 0 1 1 0 0 70 3 1 3 9 9 1 v 4 4 8 0 5 0 e 0 19 5 4 0 e 0 1 0 8 4 40 3 9 8 8 0 7 v 4 5 9 6 2 9 e 0 1 1 2 5 l e 0 0 0 7 7 00 4 4 1 5 0 2 v 4 6 1 3 5 6 e 0 01 0 9 4 e 0 0 1 2 4 00 2 1 4 9 4 4 v 4 7 1 8 9 9 e 0 01 0 2 0 e 0 0 1 8 6 20 0 6 2 6 2 5 v 4 81 3 5 4 e 0 14 7 5 9 e 0 20 0 2 80 9 7 7 3 0 9 v 4 9 8 1 7 1 e 0 19 7 3 6 e 0 1 0 8 3 90 4 0 1 3 3 5 v 5 1 3 7 9 e 0 44 9 5 4 e 0 5 2 7 8 40 0 0 5 3 6 4 木宰 v 6 1 1 3 9 2 e 0 03 2 7 0 e 0 1 4 2 5 82 0 6 e 0 5 木率奉 v 6 2 1 0 8 1 e 0 04 1 2 7 e 0 1 2 6 2 00 0 0 8 7 8 5 宰术 v 6 3 1 1 4 7 e 0 05 0 9 5 e 0 1 2 2 5 10 0 2 4 3 8 3 木 v 6 4 1 3 1 2 e 0 16 0 5 7 e 0 1 0 2 1 70 8 2 8 5 2 0 仃1 1 6 6 0 e 0 14 5 5 l e 0 1 0 3 6 50 7 1 5 2 1 4 1 7 4 2l o g i s t i c 回归模型的实证分析 r 7 2 阿3 4 v 8 v 9 1 v 9 2 v 9 3 v i o l v 1 0 2 v 1 1 1 v 1 2 1 v 1 2 2 v 1 2 3 v 1 3 1 v 1 4 1 v 1 4 2 v 1 5 1 v 1 5 2 v 1 6 v 1 7 1 v 1 7 2 v 1 7 3 v 1 8 v 1 9 v 2 0 1 2 6 0 e 0 1 4 7 5 0 e 0 2 6 7 8 4 e 0 1 3 5 3 6 e 0 1 7 3 2 5 e 0 1 4 8 2 l e 0 1 4 3 8 0 e 0 2 8 1 0 9 e 0 1 8 9 7 8 e 0 1 9 4 9 4 e 0 2 6 7 2 5 e 0 1 4 5 9 5 e 0 1 5 1 4 2 e 0 1 6 4 0 0 e 0 3 6 5 5 8 e 0 1 2 1 7 4 e 0 1 7 7 6 1 e 0 1 3 0 5 2 e 0 1 5 1 5 2 e 0 1 5 6 4 1 e 0 1 7 6 8 9 e 0 3 2 2 3 9 e 0 4 5 6 0 7 e 0 2 3 3 3 5 e 0 1 1 1 2 7 e 0 0 3 3 4 6 e 0 1 2 8 3 1 e 0 1 3 4 0 9 e 0 1 9 9 2 2 e 0 2 5 1 7 9 e 0 1 3 6 8 9 e 0 1 3 6 5 6 e 0 1 4 6 2 0 e 0 1 6 2 5 1 e 0 1 9 9 2 0 e 0 2 4 8 9 3 e 0 1 4 7 7 8 e 0 1 4 6 2 4 e 0 1 1 0 3 6 e 0 2 2 6 8 0 e 0 1 4 3 3 0 e 0 1 5 5 4 7 e 0 1 5 2 2 8 e 0 1 2 1 6 7 e 0 1 7 2 0 4 e 0 1 3 9 8 7 e 0 1 3 2 6 1 e 0 1 2 8 8 0 e 0 1 2 2 7 4 e 0 1 6 4 9 6 e 0 1 s i g n i f c o d e s 0 木木木 d i s p e r s i o np a r a m e t e rf o r n u l ld e v i a n c e 9 7 2 2 5 r e s i d u a ld e v i a n c e 7 0 5 2 9 a i c 8 0 3 2 9 0 3 7 7 0 1 6 8 1 9 9 0 3 5 6 4 1 4 1 4 1 3 0 7 0 1 2 0 1 7 5 5 1 4 3 6 0 9 5 7 1 3 7 4 0 9 6 2 1 1 1 2 0 6 1 8 2 4 4 7 0 5 0 2 1 3 9 9 0 5 8 4 2 3 7 8 0 7 8 3 0 0 1 9 0 0 0 1 0 1 9 5 1 4 6 7 1 7 3 5 0 7 0 6 4 5 7 0 8 6 6 7 7 5 0 0 4 6 6 2 9 木 0 0 0 0 3 6 6 宰术掌 0 1 5 7 2 1 9 0 1 9 1 2 4 0 0 9 0 4 6 5 7 0 0 7 9 2 5 4 0 1 5 0 9 1 7 0 3 3 8 5 4 4 0 1 6 9 3 4 5 0 3 3 6 2 6 3 0 2 6 6 1 5 7 0 5 3 6 5 5 6 o 0 1 4 4 1 3 木 o 6 1 5 6 3 2 0 1 6 1 7 5 4 0 5 5 9 3 2 5 o 0 1 7 4 1 5 木 0 4 3 3 5 7 3 o 9 8 4 6 1 4 0 9 9 9 4 5 2 0 8 4 5 6 4 8 0 1 4 2 5 0 1 0 0 8 2 6 7 7 0 0 0 1 宰宰 0 0 1 宰 0 0 5 0 1 1 b i n o m i a lf a m i l yt a k e nt ob e1 0 1 17 9 9 d e g r e e so ff r e e d o m o n7 5 1 d e g r e e so ff r e e d o m n u m b e ro ff i s h e rs c o r i n gi t e r a t i o n s 1 4 1 8 第四章三种单一模型的实证分析 4 3 分类树模型的实证分析 同样地 在该8 0 0 样本训练集上建立分类树模型 分类结果如图4 2 所示 图4 2 分类树模型实证分析结果 分类混合矩阵如表4 2 a 4 2 b 所示 表4 2 a 分类树模型的训练样本预测结果表4 2 b 分类树模型的保留样本预测结果 实际分类 gb 预测g5 2 6 1 0 56 3 1 分类b3 91 3 01 6 9 5 6 52 3 58 0 0 实际

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论