Logistic模型及建模流程概述.doc_第1页
Logistic模型及建模流程概述.doc_第2页
Logistic模型及建模流程概述.doc_第3页
Logistic模型及建模流程概述.doc_第4页
Logistic模型及建模流程概述.doc_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Logistic模型及建模流程概述1. Logistic模型介绍1.1 问题的提出在商业及金融领域中,存在这么一类问题,问题中需要被解释的目标量通常可以用YES或者NO两种取值来表示,如:l 卖出了商品为YES,未卖出商品为NO;l 顾客对超市的本次宣传活动做了响应为YES,没有任何响应为NO;l 信用卡持卡人本月逾期付款为YES,按时还款了为NO;等等;对于这类问题的分析,我们不可以采用标准的线性回归对其进行建模分析,是因为l 目标变量的二元分布违背了线性回归的重要假设l 模型的目标是给出一个(0,1)之间的概率,而标准的线性回归模型产生的值是在这个范围之外1.2 Logistic模型对于上述问题,我们提出了logistic模型:Logistic模型可以保证:l 值在- 和+ 之间;l 估计出来的概率值在0和1之间;l 与事件odds()直接相关;l 可以很好地将问题转化为数学问题,并且模型结果容易解释;1.3 Logistics回归的假设l 概率是自变量的logistics函数这样得到的概率似乎没有实际意义,只是反映一种趋势,比较大时p就会比较大取log值得到: logodds 这样可以线性化,我们把这模型称为linear in the log-oddsl 模型假设:1) 没有重要变量被忽略,不包含使得系数有偏的相关变量2) 不包含外来变量,包含的不相关变量会增加参数估计的标准误差,但是却不会使得系数有偏。l 观测值独立l 自变量的观测值没有误差1.4 最大似然准则抛一枚硬币10次,结果如下: T H T T T H T T T H假设结果独立,考虑得到的结果的概率,P(T H T T T H T T T H) = P(T)P(H)P(T)P(T)P(T)P(H)P(T)P(T)P(T)P(H)=P(H)3 1-P(H)7 ,如果我们能计算出参数P(H)的值,就能得到掷硬币结果的概率的数值。如果我们已知掷硬币的结果,如何得到P(H)的值呢?假设P=P(H),y=硬币头像一面朝上的次数,n=掷硬币的次数似然函数给出了掷硬币结果的似然值,它是P的函数; 最大似然估计指出P的最佳估计值是使得似然函数最大的值。为了简化计算,代替最大化L(P),我们对L(P)取log值,然后取最大值,log是单调递增函数,这样使得L(P)最大的P的值也是使得log(L(P))最大的值。最大化log似然函数,使:解出P值:1.5 将最大似然估计用于logistics回归令Y=(y1,y2,y3,yn)是随机变量(Y1,Y2,Y3,.Yn)的一组样本值,然后似然函数可以写成where,但是假如样本值不独立的话,此步骤就存在问题。对似然函数取log值,得: 令Logistics回归的似然等式对上式的参数取导数:使上面两式为零,解出参数的似然估计值。这些方程都是非线性的,所以利用迭代可以找出答案。这个过程也有可能是不收敛的。在介绍完logistic模型后,我们开始按照数据建模的流程来对各个分析环节进行讨论。2. 模型设计(Model Design)2.1 建模目标我们在对数据做分析之前,首先需要考虑的是构造模型的商业目的所在。比如说我们针对汽车贷款的数据进行分析,是希望能够估计出每笔汽车贷款人可能会发生违约的概率,从而建立一个信贷审批的决策流程。如果没有明确模型的目的和用途,模型的构建工作就难进行下去。除了明确建模商业目的外,我们还需要确定模型的实施事项。比如说构建好的模型是实验模型,局域范围内使用,还是全面推广;模型的使用时间是多长;,这些问题都需要事先考虑清楚。总的来说,我们在建模分析模型之前,需要考虑好:l 我们为什么需要模型?l 如何使用我们建好的模型? l 谁将使用我们的模型?l 模型什么时候需要? 2.2 数据明确了建模目标之后,我们需要系统地整理我们的数据或者说样本了。我们需要了解:l 我们可能可以运用的数据有哪些;l 哪些是内部数据源的数据,哪些是需要向客户索取的;l 我们需要多久的数据;l 数据有部分缺失怎么办;l 如何抽取能够代表总体的无偏样本;l 是不是每个变量都有现实意义;我们还需要单独针对目标变量进行分析。在解决某些问题的时候,目标变量并不能很容易的明确下来,我们需要根据实际的业务经验,将数据做一些统计、变换,得到建模所需的目标变量值。比方说,我们在预测每位汽车贷款人发生违约的概率时,我们需要实现定义哪些贷款人发生过违约,那什么样的行为才能定义为违约呢?在美国,通常定义联系9个月以上没有还款的行为定义为违约事件,在建模时,我们将这样一批样本的目标变量定义为“1”,剩余样本的目标变量定义为“0”,然后再用logisitic模型对其建模分析。在建模过程之前,我们需要对抽取出来的样本进行分成训练集、验证集和测试集,分别用于不同的建模分析阶段。3. 解释变量分析(Exploratory analysis)3.1 变量筛选(Variable Reduction)在整理完我们允许使用的变量数据后,接下去的任务就是从大量的数据中找出对目标变量有解释意义的变量来。我们可以通过下述的几个方面对变量进行分析,初步筛选。l VIP变量(VIP variables)在解决某些实际问题的过程中,因为业务人员对变量选择可能有一定的要求,他们因为实际的业务需求明确规定了哪些变量必须进入模型;另外,一些有类似建模经验的建模人员也可能会提出模型很大可能会用到某些变量,因此我们在变量筛选时首先需要建立一个VIP变量组,该组的变量不需要经过筛选,直接进入模型。l 无监督的变量筛选(Non-supervised variable reduction)无监督的变量筛选是指在筛选变量时不需要利用目标量信息的筛选方法。代表方法有 聚类分析 主成分分析l 有监督的变量筛选同理,有监督的变量筛选是指需要结合目标变量的信息才能进行的筛选方法。我们一般采用的有: 相关性分析 建立回归模型 信息值3.2 变量分析在经过一轮变量的预筛选之后,我们需要专门针对筛选出来的变量进行更进一步的分析。4. 模型选择(Model Selection)如何衡量模型是否有效?我们下面介绍几种在实际操作中常用的判断方法。4.1 Lift/Gains chart优势:a. 可以用业务语言非常容易地解释; b. 易观察,对商业决策有直观的帮助 劣势:a. 无法直接用数字给出结果; b. 图形和程度有时候会给人错觉; 4.2 KS值Kolmogorov-Smirnov Test, MAD= Sup|F_r F_n|,MAD是ROC曲线之间差值的最大值。(如右图蓝线就是MAD)我们通过曲线图可以:l 对整体样本按照转移率进行排序;l 比较0,1两种取值的分布;l 确定两种取值分布的分离度;这种方式比较容易理解,现已经广泛运用于模型选择分析中,SAS中的NPAR1WAY 过程步也可以直接计算出来。 但是度量的效果受样本排序方式的影响较大,某一排序区间的样本分布也可能会对最终的结果产生较大的影响。一般情况下,训练集与测试集的KS值差别不会很大,好的模型KS值一般在0.25,0.75区间内。4.3 信息值即A.K.A Kullback-Liebler距离: 这种方法与KS原理类似,也可以很容易地比较0,1两种取值的分布,并且能够用于处理字符型变量。但是与KS值一样,某一排序区间的样本分布也可能会对最终的结果产生较大的影响;另外SAS中没有现成的过程步可以产生这个结果。4.4 Gini系数 由意大利统计学家Corrado Gini在1912年提出, 它通常被定义为GINI图中的A/(A+B)的值。Gini系数是通过0,1两种分布的距离来衡量的,SAS里也有过程步可以直接计算,但是对于非统计学家来说,这个名词较为专业了些。 的数目影响。事实上,Gini系数一般在-1,1区间内,很多分析师习惯用C-value进行分析而忽略Gini系数的分析。4.5 C-value & ConcordantC-value是ROC曲线下的区域:A+D。C-value与Gini系数的原理类似,通过Gini系数也可以C-value的值。C= Gini+0.5(1-Gini)一般情况下,C-value值在0,1区间内,好的模型该值一般在0.60.9之间。4.6 Total variance Reduction (TVR) TVR可以衡量模型打分的排序能力,但是因为在计算时我们通常用 来代替TVR的值,所以我们得到只能是一种近似值。 在实际处理过程中,我们可能还存在一些其他的度量方式,在这里就不一一赘述了。5. 建模的后续工作当我们构建了合适的分析模型后,我们还有一些后续工作需要完成:另外,在提交成果时我们还需将模型的设计书、代码、变量说明等材料打包一并提交,并且上报模型的更新计划。6. 参考文献(reference)1 Agresti, A. (1990) Categorical Data Analysis, Wiley, Inc., New York2 Allison, P.D. (1999) Logistic Regression: Using the SAS System, SAS Institute, Cary N.C. 3 Collett, D. (1991) Modelling Binary Data, Chapman & Hall, London 4 Cox, D. R., and Snell, E.J. (1989) The Analysis of Binary Data, Second Edition. Chapman & Hall, London5 Dobson, A. (1990) An Introduction to Generalized Linear Models. Chapman & Hall, London6 Fleiss, J. (1986) Statistical Methods for Rates and Proportions. Wiley, Inc., New York7 Harrell, F. (2001) Regression Modeling Strategies. Springer-Verlag, New York8 Hosmer, D.W., and Lemeshow, S. (2000) Applied Logistic Regression, Second Edition, Wiley, Inc., New York 9 Klienbaum, D.G. (1994) Logistic Regression: A Self-Learning Text. Springer-Verlag, New York10 McCullagh, P., and Nelder, J.A. (1989) Generalized Linear Models, Second Edition. Chapman & Hall, London 11 Menard, S. (2002) Applied Logistic Regression Analysis, Second Edition. Sage University Press, London12 Myers, R., and Montgomery, D., and Vining, G. (2002) Generalized Linear Models, Wiley, Inc., New York 13 Pampel, F. (2000) Logistic Regression: A Primer, Sage University Press, London14 Pawitan, Y. (2001) In All Likelihood: Statistical Modeling and Inference Using Likelihood, Oxford University Press, Oxford15 Pregibon, D. (1981) Logistic Regression Diagnostics

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论