数据挖掘在信用卡信用评分模型中的应用分析140136134110_第1页
数据挖掘在信用卡信用评分模型中的应用分析140136134110_第2页
数据挖掘在信用卡信用评分模型中的应用分析140136134110_第3页
数据挖掘在信用卡信用评分模型中的应用分析140136134110_第4页
数据挖掘在信用卡信用评分模型中的应用分析140136134110_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 小组成员: 方匡南 王桂明 陈希 王昱荧 袁美玲 郑美坊 指导教师: 谢邦昌 2008年2月22日 (一)、全球信用卡产业迅速成长(一)、全球信用卡产业迅速成长 全球信用卡持续成长,成为支付领域的主要媒介。信用卡发展成为金融机 构竞争激烈的中间业务。在中国,信用卡产业是尚处于起步阶段的朝阳产 业 国家国家 总数(亿张)总数(亿张)每家庭拥有量(张)每家庭拥有量(张) 信用卡借记卡信用卡借记卡 美国20046.572.286.32.2 中国20040.10.6 作欺诈预测,已经被许多商 业银行采用以降低信用风险 和欺诈风险。而数据挖掘技 术的应用,可以更有效地处 理这些问题。一批国际性银 行已

2、经在信用卡分析中广泛 使用数据挖掘技术,它在花 旗银行、美国第一银行等的 实际业务运营中发挥了巨大 的作用。中国的银行业已经 进入信息化并向知识化方向 发展,数据挖掘技术必将在 数据挖掘技术可以用来 处理大量的业务数据,从中 寻找出有价值的信息。例如, 通过数据挖掘,可以帮助银 行发现购买某类产品的客户 特征,更有效地扩大业务和 获取利润。同时,利用各种 科学手段来进行客户信用评 分、对某些客户的交易行为 二、数据挖掘成为信用二、数据挖掘成为信用 卡分析的重要工具卡分析的重要工具 银行的信息化中发挥重要的 作用,是银行信息知识化的 重要手段,对我国金融业的 发展有重大意义。 由于信用卡业务的急

3、剧 扩展,产生的数据量巨大, 有必要而且迫切需要对各种 数据进行有效的管理和挖掘, 这也是信用卡业务发展的一 个趋势。 忽略了对风险的管理和控制, 最后使得危机频频爆发。因 此,加强风险管理是各信用 卡公司取得最终胜利的关键。 另一方面,伴随数据挖 掘技术的发展,国外很多大 的银行为了能从庞大的数据 中获得有用信息,纷纷把数 据挖掘技术运用于经营、管 理和决策的各个方面。可以 说,数据挖掘技术已成为外 资银行在激烈的市场竞争中 现阶段各银行都将业务 的重点放在了提高发卡量上, 由此不可避免地带来发卡标 准的泛化和发卡规模的扩大。 信用卡风险的防范与化解将 会成为焦点,宽泛的发卡标 准将带来更大

4、的风险,特别 是在中国社会信用体系还没 有有效建立和发挥作用的情 况下。以曾被视为信用卡发 展典范的韩国为例,他们就 是在高速发展信用卡的同时, 获胜的关键技术。但在中国, 各大银行正在进行数据大集 中或刚完成不久,虽有个别 银行正在研究,不过出于商 业保密的需要,都没有公开 具体细节。 本研究力图能在这方面 做一些研究,并把具体研究 细化到利用数据挖掘技术建 立一个对信用卡申请者进行 信用评分模型的领域。 IIIII 建立一套符 合客户 违约特性 的预测模型 I 研究客户基本 资料,找出与 客户违约相 关的基本因素 模型发布,应 用模型帮助银 行防范客户 违约风险 研研 究究 背背 景景 与

5、与 目目 的的 文文 献献 综综 述述 研研 究究 设设 计计 模模 型型 构构 建建 Logistic 模型 决策树 模型 神经网 络模型 模模 型型 评评 估估 信信 用用 评评 分分 结结 论论 与与 建建 议议 是指银行、金融机构或 专营公司向资信良好的单位、 个人签发的,可以在指定的 商店或场所进行直接消费的, 并可在发卡银行或联营机构 的营业点存取款、办理转账 结算的一种信用凭证和支付 工具。按国际通行惯例的解 释,它具有循环信贷、转账 结算、存取现金等功能和 “先消费,后还款”、无须 担保人和保证金、可按最低 还款额分期还款等特点。 根据Basel II协议所给出 的建议,若出现

6、以下一种情 况或同时出现以下两种情况, 债务人将被视为违约:(1)银 行认定,除非采取追索措施, 如变现抵押品(如果存在的话), 借款人可能无法全额偿还对 银行集团的债务。(2)债务人 对于银行集团的实质性信贷 债务逾期90天以上。 是从大量的、不完全 的、有噪声的、模糊的、 随机的数据中,提取隐含 在其中的、人们事先不知 道的、但又是潜在有用的 信息和知识的过程。 数据挖掘是一门交叉 学科,它汇聚了数据库、 人工智能、统计学、可视 化、并行计算等不同学科 和领域,近年来受到各界 的广泛关注。 分分类类(Classification) 回归回归(Regression) 时间序列时间序列(Tim

7、e-Series) 聚类聚类(Clustering) 关联规则关联规则 (Association) 序列序列 (Sequence) CRISP-DM是Cross- Industry Standard Process for Data Mining的简称,中文翻 译为数据挖掘交叉行业标 准过程,CRISP-DM是由欧 洲委员会与几家在数据挖掘 应用上有经验的公司共同筹 划组织的一个特别小组所提 出。与以往仅仅局限在技术 层面上的数据挖掘方法论不 同, CRISP-DM把数据挖掘 看作一个商业过程,并将 其具体的商业目标映射为数 据挖掘目标。最近一次调查 显示,50以上的数据挖掘 工具采用的都是C

8、RISP-DM的 数据挖掘流程,它已经成为 事实上的行业标准。 CRISP-DM建模流程如图 4所示,分为六个阶段,依次 为:商业理解、数据理解、 数据预处理、建立模型、评 价和解释、模型实施。 国内某银行信用卡部 门 原始样本共有131068 笔数据,27个变量 变量说明 用于模型输入变量 20个,变量类型为 类别型 与客户违约相关变 量7个,变量类型为 布尔型 模型因变量:是否 为非违约户,布尔 型,是为1,否为0. 由于从样本中可以得到 的逾期记录仅为30天以上, 这与Basel II协议的违约标准 定义不符。但是注意到与违 约相关的7个变量相互间存在 很强的相关性(见表1),且 从这7

9、个变量的定义中也可以 看出变量间相互蕴含的关系。 如“瑕疵户”是余下6个变量 的并集,“呆账”有可能发 展成坏账进而违约,“强制 停卡记录”已超出违约的程 度等等。 瑕疵户逾期呆账借款余额退票拒往记录强制停卡记录 瑕疵户10.7060.6710.6910.7020.640.756 逾期0.70610.9230.8980.9440.8570.964 呆账0.6710.92310.9230.9050.8920.928 借款余额0.6910.8980.92310.8930.9280.924 退票0.7020.9440.9050.89310.8520.959 拒往记录0.640.8570.8920.9

10、280.85210.874 强制停卡记录0.7560.9640.9280.9240.9590.8741 因此,本组决定采用主成分 分析从这7个变量中提取出一 个综合变量来反映客户的违 约与否。从表2、表3的主成 分分析的结果中可以看出, 第一主成分(简记为PCA1) 已经能解释数据中87%以上 的变异,且在PCA1上,7个 变量的反应各自重要程度的 主成分得分大小相近,以 “强制停卡记录”最大 (0.16) ,“逾期”次之 (0.158),瑕疵户最弱 (0.127),这也符合各变量的 客观定义。因此,我们提取 PCA1作为目标综合变量,并根 据每个样本在PCA1上的得分对 其进行重新编码,将P

11、AC10 的 客户视为非违约户并取值为1, PAC10的客户视为违约户并取 值为0。 据此,根据原始样本中的7 个变量衍生出一个新的变量 “违约与否”作为建模的因变 量。 违约户1350610.3% 非违约户1175629.7% Component Initial Eigenvalues Total% of VarianceCumulative % 16.12287.4687.46 20.4486.39893.86 30.2032.90496.76 40.0851.21697.98 50.0630.998.88 60.0530.75199.63 70.0260.373100 Component

12、 1 瑕疵户0.127 逾期0.158 呆账0.156 借款余额0.157 退票0.157 拒往记录0.151 强制停卡记录0.16 本组采用5种数据挖掘方 法来构建信用卡信用评 分模型,依次为: 挖 掘 方 法 Logistic回归 CHAID决策树 C&R决策树 C5.0决策树 神经网络 SPSS Clementine是Spss 公司收购ISL获得的数据挖 掘工具。1999年SPSS公司收 购了ISL公司,对Clementine 产品进行重新整合和开发, 现在Clementine已经成为 SPSS公司的又一亮点。 Clementine完全支持 CRISP-DM标准 基本变量分析 所有客户在

13、每个变量上 分布情况 交叉分析 每个变量中违约户与非 违约户的分布情况以及 该变量与“违约与否” 的独立性检验 原 始 样 本 缺失值、 异常值 检测 数 据 平 衡 数 据 抽 样 建 模 1:170% : 30% 模型 TrainTest 全体样 本 违约户 非违约 户 总体违约户 非违约 户 总体 Logistic87.8%71.9%80.40%86.7%70.3%79.13%72.72% CHAID 决策树 89.6%73.982.28%89%73.1%81.67%75.39% C&R决 策树 95.4%46.5%72.51%94.8%46.6%72.6%50.98% C5.0决 策树

14、 100%100%100%100%99.94%99.97%99.98% 神经网 络 92.5%98.5%95.31%92.1%98.4%94.99%97.81% 可以看出,无论训练集、测试 集还是全体样本,C&R决策树 都偏向于预测违约户,而对非 违约户及全体样本的预测准确 率都相当的低,都只在50%左 右 分类矩阵分类矩阵 C5.0的预测率最高,且未 出现过学习现象 神经网络的预测率次高, 也未出现过学习现象 Logistic和CHAID决策树的 预测率都处于70%80%的 合理区间 模型增益图模型增益图 C&R的效果最 差 C5.O决策树和神经网络 的效果最好,仅需不到 45%的样本就能达

15、到近 100%的预测效果 C&R决 策树 95.4%46.5%72.51%94.8%46.6%72.6%50.98% 综上所述,我们决定排除C&R 模型作为本次研究的预选模型 对于余下的4个模型哪个最适合于信用风 险分析现在不能一概而论,这里虽然Logistic 模型的预测准确率不是最高的,但国外运用 最多的还是Logistic模型,且预测率一般介于 7080,所以本文所建立的Logistic模型 是处于合理的范围内 我们建议在具体的信用评分和审核 中,最好以Logistic模型为基础,再结合 C5.0决策树和神经网络方法综合评价。 对于Logistic模型,我们根据模型估 计出每一个样本的非

16、违约概率后,银行 可以根据自身所能承担的风险状况,来 决定适当的概率分割点(如0.5),作为 客户的授信评分标准 如果银行想以客观的统计方法来确定分 割点,则可以通过计算最大的KS值来获 得模型的最适分割点。 经计算,使KS值最大的分割点为0.455。 另外,还可以对通过Logistic模型被评为 非违约的信用卡申请客户的授信额度作 一尝试,将评分在前30%的最后一名客 户的分值作为另一个分割点,作为是 否给予较高信用额度的标准。记由KS值 得出的分割点为C1=0.455,用于评判授 信额度的分割点为C2,根据计算得到的 概率分布表可以得到C2=0.85,综合两 个分割点,我们给出信用卡申请者

17、信用 评分的最终标准:信用分值低于C1的申 请者将被直接拒绝;分值高于或等于C2 的申请者将获得通过,并一开始就获得 较高的信用额度,这是因为他们违约的 可能性很低;而信用分值低于C2,但高 于或等于C1的申请者也将获得信用卡, 但只给予较低的信用额度,他们需要靠 自己以后的良好用卡行为来提高信用额 度。这样银行就能以承担较低的信用风 险来获得盈利的机会。 Logistic信用评分模型信用评分模型 违约户的定违约户的定 义义 模型选择问题模型选择问题客户分类预测客户分类预测 原始样本中未给出符合原始样本中未给出符合Basel II协议的违约标准,因此协议的违约标准,因此 我们利用我们利用PCA

18、从与违约密切相关的从与违约密切相关的7个变量中提取一综合变个变量中提取一综合变 量作为客户违约与否的衡量标准,并分析其具有一定的合量作为客户违约与否的衡量标准,并分析其具有一定的合 理性。理性。 经过模型评估与解释,我们发现经过模型评估与解释,我们发现C&R决策树模型的预决策树模型的预 测效果最差并将其排除,测效果最差并将其排除,C5.0决策树模型和神经网络模型决策树模型和神经网络模型 的预测效果最好且没有出现过学习现象,的预测效果最好且没有出现过学习现象,CHAID决策树和决策树和 Logistic模型预测率均处于模型预测率均处于70%80%的合理区间。的合理区间。 我们建议在具体的信用评分和审核中,最好以我们建议在具体的信用评分和审核中,最好以Logistic 模型为基础,再结合模型为基础,再结合C5.0决策树和神经网络方法综合评价。决策树和神经网络方法综合评价。 同时,还可以利用同时,还可以利用Logistic模型对通过信用卡审核的客户进模型对通过信用卡审核的客户进 行进一步的细分。行进一步的细分。 对发卡银行对发卡银行对后续研究对后续研究 进一步完进一步完 善信用卡善信用卡 申请客户申请客户 的资料,的资料, 建议采用建议采用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论