浙江工商大学金融学院SAS数据挖掘课件.doc_第1页
浙江工商大学金融学院SAS数据挖掘课件.doc_第2页
浙江工商大学金融学院SAS数据挖掘课件.doc_第3页
浙江工商大学金融学院SAS数据挖掘课件.doc_第4页
浙江工商大学金融学院SAS数据挖掘课件.doc_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江工商大学彭寿康金融数据挖掘讲稿第一章:绪论与SAS基础第一节:数据挖掘概论一、数据挖掘的基本概念与应用现代信息社会的特征:各类数据泛滥、知识相对缺乏。随着计算机技术、数据库技术的快速发展和广泛应用,各行业中积累的数据越来越多,金融行业尤其如此。有数据表明,进入20世纪90年代后,人类积累的数据量以每月高于15%的速度增长,原有的数据库技术不能从海量数据库中挖掘出决策有用信息或新的知识,或者说,原有的数据库技术或统计分析方法不能帮助我们很好地理解这些数据。比如,无法发现数据库中存在的关系与规则、无法根据现有的数据去预测未来的变化趋势。这样就出现了数据泛滥、知识相对缺乏的状态。例如:投资者如何从大量的股票交易的历史数据中发现其变化规律,预测未来趋势,从而决定未来的投资方向与投资策略?大型超市的决策人员如何从过去数年的销售记录中,分析判断顾客的消费习惯与行为,从而找到合理的营销策略,提高企业经营效率?金融领域的风险管理人员如何从历史数据中发现规律,识别可能的金融欺诈或者潜在的信用风险,从而降低金融企业的经营风险?为了解决“数据爆炸但知识贫乏”的问题,从20世纪90年代起,数据挖掘技术开始兴起。数据挖掘是一门交叉学科,涉及数据库、统计学、人工智能和机器学习等多个领域。与数据挖掘有关的最早的相近概念称为数据库中的知识发现(KDD, knowledge discovery in database)。1989年第十一届国际联合人工智能学术会议上,首次出现了这个概念。而数据挖掘(date mining)的概念则是1995年在加拿大蒙特利尔的第一届知识发现和数据挖掘国际会议上提出的。数据挖掘可以定义为:数据挖掘是从海量数据中发掘那些潜在的、鲜为人知的数据规律和数理模式(新的决策有用知识),其目的是在海量数据的基础上发现规律、预测未来的发展趋势。或者简单地说,数据挖掘就是从大量数据中提取或者挖掘有用的知识。最近20年来,数据挖掘技术成功应用的一些例子:例1:数据挖掘在商业管理中的应用日本超市中啤酒与尿片的规律;英国超市中大额交易者与某种品牌的奶酪的联系;消费者视角的主要停留区域与商品布置。例2:数据挖掘在银行中的应用信用卡违约与欺诈预测模型构建;企业贷款的信用风险预测模型构建;反洗钱预警系统构建。例3:数据挖掘在金融市场中的应用趋势图与关联规则挖掘;股票自动交易模式的识别与自动交易系统构建;外资并构企业预测模型构建。二、不同学科对数据挖掘技术的研究与开发数据挖掘是一门综合性的新兴学科,其应用前景十分广泛。1990年代末,在对100名美国著名科学家的问卷调查中,数据挖掘被列为21世纪对人类发展影响最大、最有前途的10大高新技术的第三位。我国对数据挖掘技术也十分重视,数据挖掘技术的开发与应用最近10年来都被列为国家873、973重大高科技项目,列为我国科技的一个重点发展方向。数据挖掘是一门综合性的跨学科技术,因此对其的研究也涉及多个学科领域。现在对数据挖掘技术的研究主要包括:数据挖掘的理论研究:各种数据挖掘技术的理论基础,理论依据研究。从数学、统计学、人工智能、计算机图形学等领域对此展开研究。数据挖掘的技术研究。从计算数学、统计学、人工智能、机器学习、计算机图形学、软件工程等领域对此展开研究。数据管理策略研究。从数据库管理技术等领域展开研究。数据挖掘技术的应用研究。数据挖掘可以在十分广泛的领域中得到应用,其中数据挖掘在金融领域的应用是一个很重要、很有前途的方向。计算机系统、信息网络在金融领域中应用最为普及,从而积累了海量的各类金融数据,而金融领域的知识发现对增强金融机构的市场竞争能力与赢利能力是至关重要的。本课程主要涉及数据挖掘技术在金融领域的一些创造性应用。例4:金融机构中设置的金融数据挖掘师岗位国外许多银行的KDD岗位;KDD:knowledge discovery in database我国各行业广泛招聘的数据挖掘工程师,有许多招聘明确要求是在金融领域的应用,要求熟悉SAS软件来完成数据挖掘工作。三、数据挖掘技术中比较成熟的主要功能模块数据挖掘是一门不断发展中的高新技术,因此其功能处在不断地拓展中。到目前为止,相对比较成熟的、应用比较广泛的功能模块有:1、特征化、比较与关联规则挖掘特征化就是总结某类样本的主要特征。如银行的优质客户有哪些特征,哪些客户是银行的潜在的优质客户,应该向谁推荐某种保险产品或理财产品,等等,这些问题都涉及到数据挖掘中的特征化挖掘。比较是分析不同组样本之间的最显著的差异是什么?如职业“成功人士”与“非成功人士”的最显著差异是什么?信用卡欺诈用户与信用卡优良用户的最显著区别是什么?关联规则挖掘就是发现对象的各个指标之间具有怎样的潜在关联性,如哪些指标会同时出现,哪个指标出现后很有可能会同时出现另外一个(另外一些)指标,这些关联规律的适用性与可靠性如何?2、分类与预测分别就是建立某种分类规则,根据这种规则可以判断某些样本分别属于哪一类别:违约、不违约;有信用卡欺诈嫌疑、没有信用卡欺诈嫌疑。分类是对离散变量的预测,而预测则是对连续变量的预测,如对企业信贷违约概率的预测。3、聚类分析哪些样本点应该属于同一类型、哪些样本点应该属于其他类型,应该总共分成几类比较合适,同一类之间有什么共同的特征,不同类之间的主要区别。4、序列发现(时间序列的数据挖掘)历史可能会重演。哪些时间序列(或时间序列描绘的图形)具有预测功能,分别预测了未来的什么?现在是否正在形成类似这样的序列?四、SAS软件简介数据挖掘的应用与模块功能的实现,需借助于相应的数据挖掘软件来实现。现在许多软件都具有一定的数据挖掘功能,如SAS软件、SPSS软件、智能数据挖掘(Intelligent miner for data)等。各种软件都有特定的长处与短处。由于具有广泛的商业应用前景,各种新的软件还在不断地开发过程中。本课程学习如何利用SAS软件来实现数据挖掘功能。采用这个软件是因为:1、SAS软件是受到学术界广泛认可的软件,而且这个软件的功能十分强大,利用SAS软件来实现数据挖掘功能,有利于今后对这个软件的进一步学习。2、SAS软件在金融领域得到广泛应用,许多招聘单位在招聘数据挖掘师或其他相关人员时,明确表示很欢迎熟悉SAS软件的人。SAS系统是美国SAS软件研究所研制开发的大型集成软件系统。该系统早期的名称为统计分析系统(Statistical Analysis System),英文缩写为“SAS”。SAS系统经过几十年的发展,已成为国际上最有知名度的数据处理软件之一。SAS系统最早由北卡罗来纳大学的两位研究生编制,1972年研制出第一版,1976年SAS研究所成立后正式推出了SAS软件。SAS软件的版本更新很快,功能也不断加强,本课程主要学习SAS的6.12版本。五、SAS功能模块简介SAS是一个集成软件,其中包含几十个功能模块,这儿介绍与金融数据分析关系密切的三个功能模块。1、BASE SAS模块BASE SAS模块是SAS系统的核心,主要功能是数据管理和数据加工处理,并有报表生成和描述统计的功能。BASE SAS模块可以单独使用,也可以与其他模块一起组成一个用户化的SAS系统。本课程将利用这个模块来建立挖掘数据库,并对挖掘数据库进行各种需要的编辑,同时还将利用这个模块来协作完成数据挖掘的其他编程任务。2、统计分析模块统计分析模块(SASSTAT)是一个完整的统计分析软件包,覆盖了所有的实用数理统计分析方法,是国际统计分析领域的标准软件。它包含了各种回归分析、方差分析、属性数据分析、判别与聚类分析等几十个过程,每个过程还提供了多种不同的算法和模型选择。我们可以应用这个模块来开展涉及横截面数据的各种数据挖掘工作。3、经济计量学和时间序列分析模块经济计量学和时间序列分析模块(SASETS)提供了丰富的计量经济学和时间序列分析方法,是研究复杂系统和进行预测的有力工具。我们将利用这个模块来开展涉及时间序列数据的各种数据挖掘工作。第二节:SAS挖掘数据库的建立与编辑一、SAS系统的启动、运行与退出1、SAS系统的启动安装SAS软件后,在Windows开始菜单的程序组中将包括一项“The SAS System”。单击该项就可启动SAS系统,进入SAS显示管理环境。图1-1中,屏幕最上方部分为SAS系统菜单栏、命令栏和工具选项;屏幕上部窗口内容为SAS系统的信息及运行记录;下部窗口是用户编辑SAS源程序,存储或调入文件,提交SAS程序给SAS系统执行的场所,是用户使用SAS系统的主要窗口。屏幕出现图1-1窗口后,光标位于下部窗口,此时光标可自由移动。在上部窗口还显示关于SAS系统的版本等信息。至此SAS系统已启动完毕,等待用户输入程序和命令。图1-1 Windows环境下的SAS系统及PGM窗口的SAS程序2、SAS系统的运行用SAS系统进行数据挖掘时,首先需要利用DATA步输入数据,把需要分析的数据组织成SAS系统能识别的SAS数据集。然后利用PROC步根据用户需要选择SAS系统提供的SAS过程来进行数据挖掘。SAS系统要求用户把你想做的工作,通过一些近似自然英语的指令SAS程序在PGM窗口采用交互方式提交给SAS系统执行,执行过程中的记录信息(包括出错信息)在LOG窗口显示;SAS过程产生的输出结果在OUTPUT窗口显示,见图1-2。这就是SAS会话系统。如果LOG窗口显示输入的SAS语句有错误时,必须返回到PGM窗口,重新调入刚才输入的SAS程序,并对错误的语句作出修改,修改完毕后再重新提交SAS程序。 图1-2 SAS系统的OUTPUT窗口3、退出SAS系统数据挖掘工作完成后,退出SAS系统有两种方法:方法1:在命令栏中用命令BYE或在PGM窗口提交ENDSAS,都可以退出SAS系统并返回到Windows的桌面系统。方法2:在Windows环境下退出SAS系统可从File菜单选择Exit退出,或用Windows关闭窗口的标准方法关闭SAS的主窗口也可退出SAS系统。二、SAS挖掘数据库的建立与管理1、外部数据库的输入在开展金融数据挖掘工作时,最常遇到的数据集是Excel数据库或文本文件给出的数据库,由于SAS系统不能直接在这些数据集上进行数据挖掘工作,因此需要将这些数据集转化为SAS数据集。Excel数据集转化为SAS数据集的方法将Excel数据集保存为Excel4.0工作表;打开SAS软件,按照步骤导入外部数据库,导入的数据集可以临时保存在Work库标记下(退出SAS系统后,导入的数据集将丢失),也可以长期保存在SASUSER库标记下。由于6.12版本的SAS软件并没有汉化,因此数据集中的变量名中不要出现中文。具体步骤(通过下拉菜单的方式):File / import,在显示窗口中选择外部数据集类型(现在可选Excel 5 or 7 spreadsheet 或者选择Excel 4 spreadsheet),点击next键;选择外部数据集所在的路径,打开后,点击next键;在显示窗口中选择库标记(系统默认的库标记为work),给定要建立的SAS数据集的名称,点击Finish键;系统将在LOG窗口中给出所建立的SAS数据集的信息。注意:如果出现错误,SAS系统将会以其他颜色的字符来提示出错信息。完成输入外部数据集后,可以通过下拉菜单:Globals / Analyze / interactive data analysis的方式,对建立好的数据集进行检查。例5:将外部的Excel数据集指数数据1转化为SAS数据集。对于以文本文件格式(TxT)存储的外部文件,可以首先将其转化为Excel数据集,然后将其转化为SAS数据集。文本格式数据集转化为Excel数据的步骤:打开Excel软件,在下拉菜单中选择:数据 / 获取外部数据 / 导入文本文件;指定文本文件的存储路径,在打开的窗口中选择合适的参数项;将Excel数据集保存为Excel4.0表格的形式;然后按照前面的方法将Excel4.0表格的数据集转化为SAS数据集。例6:将TxT格式的文本文件数据集信用卡,转化为SAS数据集、并永久保存。2、SAS数据集的输出输出为Excel4.0表格形式的数据集具体步骤如下。采用下拉菜单方式:File / Export 在显示窗口中选择需要输出的SAS数据集,点击next键;选择需要输出的外部文件的保存格式,现在选择Excel4.0,点击next键;指定输出的外部数据集的存储路径,以及给定的文件名;系统将在LOG窗口中给出所建立的外部数据集的信息。例7:将例5建立的SAS数据集输出到外部,并且保存为Excel4.0电子表格的形式。三、SAS数据集的编辑将外部数据集转化为SAS数据集后,有时候原始数据集本身并不能直接满足数据挖掘的需要,这时就要求对SAS数据集进行适当的编辑与处理。在金融数据挖掘中,经常需要用到的一些编辑操作1、改变数字的类型与变量名在启动SAS系统后,利用Globals / Analyze / interactive data analysis方式,打开需要编辑的数据集;双击变量名,可以打开变量定义窗口,在变量定义窗口中选择变量的数字类型(数字型或字符型,在Type和measurement level中作出适当选择),指定改变后的变量名,点击ok键后,则变量的数字类型与变量名都可以得到改变。需要注意的是,改变后的结果需要保存,否则关闭窗口后就会失效。利用下拉菜单,保存数据集的步骤为:File / save / data / 指定保存的库标记、数据集的名称,点击ok键,就可以保存。2、在SAS数据集中生成新变量在SAS数据集中生成新变量有两种比较常用的方法:利用下拉菜单方式生成新变量例8:将例6的的第一个变量、第二个变量进行合并(相加),生成一个新变量,并取变量名为x1。利用Globals / Analyze / interactive data analysis方式,打开需要编辑的数据集;Edit / Variable / other/ 在显示窗口中选择所需要的运算式,按顺序确定参与运算的各个变量,指定新的变量名x1,点击ok键,则就能生成新变量;新的数据集同样需要保存才能生效。利用编程方法生成新变量由于利用下拉菜单方法生成新变量会受到许多限制,特别是受到运算式较少的限制,因此更经常的生成新变量的方法是通过编程来进行。SAS系统有两大类型的程序:分别成为SAS data步,SAS proc步,两类程序分别以data命令开头、proc命令开头。SAS data步的主要作用是建立一个新的SAS数据集、或者是对原有的SAS数据集进行各种编辑。SAS proc步的主要作用是对一个或多个SAS数据集,进行各种数据挖掘与数据分析运算。课程将分别对这两种SAS程序进行介绍。例9:选取例5中的上证综指数数据、深圳成指数数据生成新的数据集,在生成的数据集中分别生成两个指数的收益率数据,收益率的计算公式为,上证综指的收益率变量命名为rsh,深圳成指的收益率变量命名为rsz。最后再截取2003-2004年度的数据生成新的数据集。SAS系统的一般操作过程如下:在PGM窗口中,输入以下SAS data步程序Data a;建立新的数据集,数据集的名称为a,库标记为work;或者Data sasuser.a;数据集的名称为a,库标记为sasuser,可以长久保存;(注意,在SAS程序中,每一个语句都必须以分号“;”结束)set b;将已有数据集的全部数据拷贝过来;变量名 = 生成变量的具体表达式;如:rsh=log(shp)- log(lag1(shp);run;完成程序输入后,单击按扭就可以运行此程序。需要注意的方面: 在生成新变量时,生成变量的具体表达式必须以SAS系统认可的形式给出SAS的数学运算符:*(乘方)、*(乘)、/(除)、+(加)、(减)(注意:在SAS程序中,2*x不能写成2x)在金融数据挖掘中,经常用到的一些SAS函数:ABS(x):取x的绝对值;Sign(x): 符号函数,时其值为1,时其值为-1,时其值为0;Sqrt(x): 计算x的算术平方根;ERF(x):计算误差函数,即;Exp(x):;Log(x):以为底的对数函数;Log10(x):以10为底的对数函数;Probnorm(x):标准正态分布的分布函数;Probchi(x,df,nc):分布的分布函数,其中df为自由度,nc为非中心参数;Probf(x,ndf,ddf,nc):F分布的分布函数,其中ndf、ddf分别为分子的自由度和分母的自由度;Probt(x,df,nc):t分布的分布函数;Probbnml(p,n,m):二项分布的分布函数,即Poisson(lambda,n):普阿松分布的概率分布函数;Normal(seed):产生标准正态分布的随机数;Uniform(seed):产生0,1上均匀分布的随机数;IRR:计算用小数表示的内部收益率;Mort:计算抵押贷款;NPV:计算利率用百分数表示的净现值;SAVING:计算定期储蓄的本金与利息;等等。(需要进一步了解SAS函数的,可以参见SAS工具书:BaseSAS软件使用手册)SAS的比较算符:=(等于)、=(不等于)、(大于)、,=(大于等于)、=(小于等于)SAS的逻辑运算符:And(与)、or(或)、not(非)注意:and 是两个条件同时满足,如if _n_100 then remove;(如果序号100、同时序号200,则删除这些记录,最后留下的是序号从1-100,以及200后的记录数据)if _n_100 then remove;(如果序号100、或者序号300 then remove;run;proc sort data=a1;by rsh;run;data a1;modify a1;if n-=15 then remove;run;data b1;set b c;run;data b; set b1;run;data a; modify a;if n-=1 then remove;run;这样,就可以完成一次运算。反复运行这个程序,就可以得到所需要时间段的每日的VaR值。如果需要计算的时间段较长,我们还可以利用SAS的其他功能来自动反复运行这段程序,得到所需要时间段的VaR值,这将在后面章节进行介绍。本章课外练习:1、将外部数据库:指数数据1转化为SAS数据集,写出具体的转化过程;2、对例1中的数据集进行编辑,编辑后的新数据集中包含的变量为:x1:交易日期,x2:深圳成分指数每日收盘价,x3:上证综合指数每日收盘价,x4:深圳成指的每日收益率,x5:上证综指的每日收益率。其中收益率的计算公式为:,数据集的时间段取2000年-2005年。3、利用历史模拟法计算深圳成指收益率的VaR,取显著性水平,计算的时间段为2004.03.01-2004.04.30。写出所涉及到的SAS程序。第二章:分类与预测规则挖掘第一节:分类与预测概述分类与预测规则构建是数据挖掘技术在金融领域的重要应用,一个例子是商业银行的企业贷款信用风险预测模型。信贷风险是指因借款人没有完全履约,致使银行遭受损失的风险。世界银行对全球银行业危机的研究表明,信用风险管理不善进而引发流动性危机,是银行破产的最主要原因。在银行的风险管理中,信贷风险评估是个重要环节,尽管要求贷款企业提供必要的财务数据早已成银行工作的一种常态,但银行的信贷风险评估却被一个问题所困惑:究竟哪些财务指标中含有预测企业贷款风险的信息、怎样用这些信息来判断企业信贷是否会违约?每个申请贷款企业都可表示为,其中,为在t时企业的各种财务指标。请注意:变量与取值在不同时间,银行的工作是利用企业现在(t时)的财务数据,以及银行建立的分类规则,来预测企业信贷在未来(t+1时)是否会违约,从而决定是否同意发放贷款。分类问题的一般提法:已知离散的、有限的几类,要建立一种预测规则,在这种规则下,可以根据样本点的“解释变量”的值,来判断这个样本点应该归属那个类,即判断样本点的取什么值。金融领域中的许多重要问题,都可以归纳为建立分类规则:1、上市公司财务危机预测模型构建;2、这个客户是否是银行潜在优质客户,或者是否会转向其他银行;3、这家企业是否会被外资并购;4、企业的贷款质量会属于哪个信用等级;5、信用卡用户是否会欺诈、或违约;等等。银行或其他机构在日常经营中,积累了大量类似的数据,要达到的目标是,如何建立分类规则,使能够根据的值来判断的值。这涉及到两个重要环节:1、中有那些变量可用于预测,在构建分类规则中应选取哪些预测变量?2、预测变量选择后,怎样建立分类规则?分类是的值,来对离散的的取值进行预测。在其他金融问题中,会遇到这样的问题,建立一种规则,用的值来对连续的的取值进行预测,这类问题通常称为预测问题。如代表企业的违约概率,取值在01。巴塞尔协议要求银行建立信用风险的内部度量模型,要求银行利用企业的一些预测变量的数据,来对其违约概率进行估计(预测)。第二节:分类规则构建中预测变量的选择方法建立分类规则首先要解决预测变量的选择问题。可采用两步法来解决这个问题。一、 预测变量的初步选择建立分类规则时,通常很难根据已有理论来判断哪些变量具预测价值,第一步是根据已有经验(实践经验或已有研究成果),尽量全面地将有可能作为预测变量的指标纳入其中(宁可有多余的,也不要漏掉重要的)。第二章教学案例:利用华夏银行数据,构建预测企业信贷违约的分类规则问题1:如何选择预测指标?初步选择的预测指标:X:负债总额资产总额,X:流动资产流动负债,X:销售收入现金,X:销售收入总资产,X:销售成本销售收入,X:销售利润销售收入,X:流动负债净资产,X:销售收入流动资产,X:流动资金利息费用,X10:流动资产贷款额,X11:销售收入利息费用,X12:净利润净资产,X13:资产总额的对数,X14:销售利润总资产,X15:(应收帐款存货)总资产,X16:销售收入负债总额,X17:销售利润利息费用,X18:销售收入净资产,X19:主营业务成本销售收入,X20:存货净资产。数据集:sasuser.bank。二、 预测变量的进一步选择预测变量的进一步选择有多种方法,变量均值的t检验法、信号噪音差方法、SAS中的逐步回归方法等。1变量均值的t检验法建立分类规则时,所使用的预测变量通常可分为正指标(如利润率)“好”企业指标值较大、“差”企业指标值较小;负指标(如负债率)“好”企业指标值较小、“差”企业指标值较大。一般来说,如果指标对预测有信息价值,则指标的正、负性应较显著,或者说,两类企业在指标的取值上应存在显著差异,从而两类企业的指标均值存在显著差异。变量均值的t检验法就是利用这种想法,来判断初选变量中那些可以舍去。:两类企业的指标均值相等(指标没有预测价值),:指标均值存在显著差异。SAS系统中,进行变量均值的t检验法的过程如下:proc ttest data=sasuser.bank;class k;(k分类变量)run;对每一个指标,在两类企业指标同方差、异方差的假设下,SAS系统给出t检验的伴随概率(伴随概率小于给定的显著性水平,应该拒绝,指标具有预测价值)。现在,如果选取=0.01,则通过t检验的指标为:X1、X4、X5、X6、X7、X12、X13、X14、X15、X16、X19、X20。方法评价:变量均值的t检验法是选择预测指标的一种常用方法,这种方法存在一定缺陷:这是一种相对“粗糙”的检验方法,是通过均值是否存在显著差异进行的间接检验。检验结果容易受到极端值的影响;如果需进一步筛选(需减少指标数,或在相关性强的指标中舍去一些),这种方法不能提供更多信息。2、信号噪音差方法指标筛选的核心环节是知道哪些对预测有信息价值。借款企业是否违约有不确定性、是随机事件,如果知道指标的值后,可以降低的不确定性,对预测就有信息价值。在信息论和统计学中,随机变量的不确定性用信息熵来度量,其对离散型和连续型变量的定义分别为:,。其中为离散型变量取不同值的概率、为连续型变量的密度函数。信贷风险预测中,若以表示企业信贷的违约概率,企业违约的不确定性就可用表示。确定一个临界点,按条件()可将企业分为两组,若两组企业所占比例分别为,在两个组中的信息熵为,则利用指标后,的不确定性的减少就可用。来度量。使达到最大时的临界点称为阈值,对应的称为用预测时的信息增益。按照信息论的观点,信息增益度量了指标在信贷风险预测中的价值:的信息增益越大,用预测的价值越大。计算指标的信息增益,需要不断探索临界点、反复计算信息熵,计算量是很大的。值得庆幸的是,近年来数据挖掘技术的发展使这个问题得到解决。现在借助一些数据挖掘软件,如IBM公司开发的Intelligent Miner软件,可以方便地求得各指标的阈值。信息增益的取值在上,当指标的信息增益为时,这个指标对信贷风险预测有最大价值:因为按照该指标的值是否大于阈值将企业分为两组后,各组中的都不再有不确定性,一组全部为违约企业,另一组全部为非违约企业,于是只要使用该指标,就可建立完美的预测规则。确定各指标的阈值后,如果参照Beaver方式建立单一财务指标的信贷风险预测模型,使用指标为预测变量时,预测规则应该是:当阈值(为正指标)或阈值(为负指标)时,判断企业会违约。更进一步,可以提出一种计量财务指标的预测信息含量的方法,具体分析如下:从单一财务指标的预测规则知,若当阈值(为正指标)或阈值(为负指标)时,应判断企业将会违约,在信贷风险预测中,这可看成是财务指标发出了警报。如果某一企业的指标发出警报后,该企业违约了,这个警报就是信号(正确的警报);如果企业后来没有违约,这个警报就是噪音(错误的警报)。很显然,指标预测的信息含量越大,则指标的信号比例应越大、噪音比例应越小。在信贷风险预测中,指标的信号比、噪音比可定义为:指标的信号比发出警报的违约企业数违约企业总数,指标的噪音比发出警报的未违约企业数未违约企业总数。如果一个财务指标的信号比很大(接近于1)、噪音比很小(接近于0),银行对该指标发出的警报应更加重视,因为这个指标在信贷风险预测中可提供更多信息。按照这种思路,可以提出的财务指标的预测信息含量的计量方法为:财务指标的预测信息含量 指标的信号比指标的噪音比,这种方法可称为指标信息量测量的信号噪音差方法。一个财务指标的信号噪音差越大,其预测信贷风险的作用越大。如果一个财务指标的信号噪音差为1,则该指标发出的每个警报就都是信号、没有噪音,且该指标对所有违约公司都能发出警报,这个指标就是最好的预测变量。若一个财务指标对预测信贷风险不能提供任何信息,该指标的信号比、噪音比就会接近于0.5,信号噪音差接近于0。利用Intelligent Miner软件,计算各指标的信号噪音差的具体步骤如下:将Excel数据集保存为*.prn格式文件(另存为“带格式文本文件(空格分割)”);打开Intelligent Miner软件,通过下拉菜单方式建立发掘数据库创建数据下一步平面文件(指定文件后)添加下一步,在系统显示窗口中指定各变量的位置、变量名、变量类型,分别建立各个变量(注意:预测指标的变量类型可选连续或离散、分类变量的类型必须选离散,如果分类变量在最后,则须指定尾部的准确位置)。建立全部变量后,在各个显示窗口中输入“next”键,完成发掘数据库的建立。完成发掘数据库的建立后,可以利用浏览方式,检查数据库的建立是否准确,如果浏览中发现有空格项,则表示数据库没有完整建立,需要修改。利用Intelligent Miner中的决策树模块,可计算各指标的信号噪音差,方法如下:在建好数据库后(或在打开发掘数据库后),通过下拉菜单方式创建发掘下一页分类树确定设置名称(点击显示高级页与控件)下一页点击发掘数据库下一页确定所选择的参数(现在可全部取默认项)下一页确定预测指标与分类变量连续下一页立即运行此设置完成在系统给出结果中点击(显示修剪树),点击(优化稀疏树),再将图形简化后,就可以计算出第一个指标的信号噪音差。重复以上发掘过程,在每次设置预测变量时,去掉计算出信号噪音差的指标,则可计算每个指标的信号噪音差。对20个指标的信号噪音差的计算结果如下,其中括号中的符号表示指标是正指标、还是负指标。可以看到,这些指标的预测信息含量之间存在很大差异,如果以信号噪音差大于0.4为标准,可以选择的预测指标如下:X1、X4、X5、X6、X12、X13、X15、X16、X20。比较信号噪音差与t检验法的指标选择结果,可以看到信号噪音差方法能够提供更多信息,如在t检验中我们只能知道X6、X7都可以通过t检验,因此都可以作为预测指标,但信号噪音差却告诉,X6的预测信息含量比X7大了3倍,因此X6是比X7重要的多的一个预测指标。表1:每个指标的信号噪音差指标名 阈值 信号噪音差 指标名 阈值 信号噪音差x1 0.675(+) 0.661 x11 13.245(-) 0.256x2 1.090(-) 0.268 x12 0.045(+) 0.548x3 1.380(-) 0.308 x13 9.695(+) 0.690x4 0.255(-) 0.456 x14 0.025(+) 0.386x5 0.935(-) 0.636 x15 0.355(-) 0.544x6 0.065(+) 0.636 x16 0.415(-) 0.491x7 0.415(-) 0.212 x17 1.210(+) 0.274x8 9.770(+) 0.172 x18 0.385(+) 0.298x9 -6.380(+) 0.245 x19 0.725(-) 0.396x10 0.435(-) 0.114 x20 0.085(-) 0.584在分类模型构建中,所选择的预测指标可能存在很强相关性。将这些指标都纳入分类模型会影响模型的使用成本、以及模型对样本外数据的外推准确率,因此通过的做法是在这些相关性很强的各组指标中,选择预测信息量的指标,舍去信息含量小的指标,现在利用信号噪音差,我们可以完成这样的选择工作。在SAS中,进行相关运算的程序如下:proc corr data=sasuser.bank;var X1 X4 X5 X6 X12 X13 X15 X16 X20;run;SAS运算结果显示,X16与X4,X5与X15和X20均存在较强相关性(相关系数的绝对值大于0.6),由于X16比X4有更大的预测信息含量,同样X5比X15和X20有更大的预测信息含量,因此在两组相关性很强的指标中,我们分别选择X16与X5。这样经筛选后,最后选择的预测指标为:X1 X5 X6 X12 X13 X16。第三节:分类模型的构建方法一、 判别分析法1、判别分析法的统计学原理假设有两个总体:信贷违约企业和信贷不违约企业,每个总体都可以用一个六维随机向量(X1,X5,X6,X12,X13,X16)表示,不同的总体分布不同。预测某个企业的信贷是否会违约,就是判断这个企业所对应的样本点应该属于哪个总体。判别分析法是利用距离(样本点到总体中心的某个距离)来判断企业的归属。总体的中心是用总体各分量的数学期望所构成的向量来表示,即用(EX1,EX5,EX6,EX12,EX13,EX16)来表示,距离通常采用马氏距离,即用:,来表示。其中为某个总体的方差-协方差矩阵。判别分析法通常利用距离差:,来构建分类规则,即选取一个适当的临界值,时(样本点到总体0的距离足够大于到总体1的距离)时,判断样本点归属于总体0;当时,判断样本点归属于总体1。在构建分类规则时,临界值的选取要权衡两类误判(将违约企业判断为非违约企业,或者将非违约企业判断为违约企业)的损失,临界值的选择应该使总的误判损失达到最小。在通常情况下,是一个由变量X1、X5、X6、X12、X13和X16组成的二次型,计算比较复杂,在SAS系统中,通常假设两个总体具有相同的方差-协方差矩阵,在这种假设条件下,中各指标的二次项可以相互抵消,这样是指标X1、X5、X6、X12、X13和X16的一个线性函数。真因为如此,判别分析法通常又成为线性判别分析法。利用线性判别分析法建立分类模型的具体步骤: 利用SAS系统得到线性判别函数; 选择适当的临界值,建立预测规则; 对样本外数据(检验样本组数据)检验模型的预测准确率,从而判断模型的预测准确率是否可以达到某个标准。注意:在构建分类模型时,通常遇到的情况是,模型对训练样本数据存在过度拟合的现象,因此如果利用训练样本数据来判断,就会高估模型的预测准确性。解决这个问题的方法:在构建模型前,通过随机抽样的方法将数据分为训练样本组、检验样本组;利用训练样本组数据构建分类模型,利用检验样本组数据评价模型的预测准确率。如果模型对训练样本组数据、检验样本组数据具有相接近的预测准确率,说明对模型的预测准确率的评价是比较稳健的。在SAS系统中,将bank随机分成训练样本组、检验样本组方法如下:data a;set bank;m=uniform(17);生成一个随机数run;proc sort data=a;by k m;run;data a1; set a; run;data a1;modify a1;if int(_n_/2)-_n_/2=0 then remove;run;data a2;set a; run;data a2; modify a2;if in

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论