Logistic模型及建模流程概述

上传人：m*** IP属地：天津上传时间：2021-10-30 格式：DOC 页数：17 大小：226KB 积分：15 举报 版权申诉

已阅读5页，还剩12页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、Logistic模型及建模流程概述1. Logistic模型介绍1.1问题的提出YES在商业及金融领域中，存在这么一类问题，问题中需要被解释的目标量通常可以用或者NO两种取值来表示，如：卖出了商品为YES,未卖出商品为 NO ;顾客对超市的本次宣传活动做了响应为YES，没有任何响应为 NO ;信用卡持卡人本月逾期付款为YES，按时还款了为NO ；对于这类问题的分析，我们不可以采用标准的线性回归对其进行建模分析，是因为- 目标变量的二元分布违背了线性回归的重要假设- 模型的目标是给出一个（0，1 ）之间的概率，而标准的线性回归模型产生的值是在这个范围之外1.2 Logistic 模型对于上述

2、问题，我们提出了 logistic模型:ln(p)iXiiPiXie i1 PiXiPeixi1 e iLogistic模型可以保证：°Xi值在-和+ 之间;估计出来的概率值在 0和1之间；0与事件odds （ oddsp/(1P）直接相关；-可以很好地将问题转化为数学问题，并且模型结果容易解释;1.3 Logistics 回归的假设exp( 01花1 exp( 01X1nXnnXn二概率是自变量的logistics函数这样得到的概率似乎没有实际意义，只是反映一种趋势，°1X1nX比较大时p就会比较大取log值得到：log P°1X1nXn1 Plogodds这

3、样可以线性化，我们把这模型称为lin ear in the log-odds-模型假设:1) 没有重要变量被忽略，不包含使得系数有偏的相关变量2) 不包含外来变量，包含的不相关变量会增加参数估计的标准误差，但是却不会使得系数有偏。二观测值独立、自变量的观测值没有误差1.4最大似然准则抛一枚硬币10次，结果如下：TH TTTH TTTH假设结果独立，考虑得到的结果的概率，P(T H T T T H T T T H)=P(T)P(H)P(T)P(T)P(T)P(H)P(T)P(T)P(T)P(H)=P(H)31-P(H) 7，如果我们能计算出参数P(H)的值，就能得到掷硬币结果的概率的数值。如果

4、我们已知掷硬币的结果，如何得到P(H)的值呢？假设P=P(H)，y=硬币头像一面朝上的次数，n=掷硬币的次数似然函数给出了掷硬币结果的似然值，它是P的函数；L(P|y) Py(i P)n y最大似然估计指出 p的最佳估计值是使得似然函数最大的值。为了简化计算，代替最大化L(P)，我们对L(P)取log值，然后取最大值，log是单调递增函数，这样使得 L(P)最大的P的值也是使得log ( L(P)最大的值。最大化log似然函数，使：解出P值:L(P|Y) Py(1 P)n y1.5将最大似然估计用于logistics 回归令 Y=(y1,y2,y3,yn）是随机变量（丫1,丫2,丫3,.Yn）

5、的一组样本值,L (Y )(1i)1但是假如样本值不独立的话,where此步骤就存在问题。对似然函数取log值,得:l(Y)log(yii(1i)1 yi)log(yii(1i)yi(1i)yi log(-)i1Xilog(1i)Logistics回归的似然等式exp( o必)n1 ( 0， 1 1 丫)yi 01Xii 11( 0，1 |Y)nYii 1n exp( 01 Xi )对上式的参数取导数：0i 1 1 exp( 01Xi )l( 0, 1 |Y)nXiYii 1n Xi exp( 01 xi)1i 1 1 exp( 01 Xi )使上面两式为零，解出参数的似然估计值。这些方程都是

6、非线性的，所以利用迭代可以找出答案。这个过程也有可能是不收敛的。在介绍完logistic模型后，我们开始按照数据建模的流程来对各个分析环节进行讨论。2. 模型设计(Model Design )2.1建模目标我们在对数据做分析之前，首先需要考虑的是构造模型的商业目的所在。比如说我们针对汽车贷款的数据进行分析，是希望能够估计出每笔汽车贷款人可能会发生违约的概率，从而建立一个信贷审批的决策流程。如果没有明确模型的目的和用途，模型的构建工作就难进行下去。除了明确建模商业目的外，我们还需要确定模型的实施事项。比如说构建好的模型是实验模型，局域范围内使用，还是全面推广；模型的使用时间是多长；，这些问题

7、都需要事先考虑清楚。总的来说，我们在建模分析模型之前，需要考虑好：. 我们为什么需要模型？- 如何使用我们建好的模型？- 谁将使用我们的模型？- 模型什么时候需要？22数据明确了建模目标之后，我们需要系统地整理我们的数据或者说样本了。我们需要了解：我们可能可以运用的数据有哪些；- 哪些是内部数据源的数据，哪些是需要向客户索取的；- 我们需要多久的数据；点数据有部分缺失怎么办；- 如何抽取能够代表总体的无偏样本；- 是不是每个变量都有现实意义；我们还需要单独针对目标变量进行分析。在解决某些问题的时候，目标变量并不能很容易的明确下来，我们需要根据实际的业务经验，将数据做一些统计、变换，得到建

8、模所需的目标变量值。比方说，我们在预测每位汽车贷款人发生违约的概率时，我们需要实现定义哪些贷款人发生过违约，那什么样的行为才能定义为违约呢？在美国，通常定义联系9个月以上没有还款的行为定义为违约事件，在建模时，我们将这样一批样本的目标变量定义为“1”，剩余样本的目标变量定义为“0”，然后再用logisitic模型对其建模分析。验证集和测试集，分别在建模过程之前，我们需要对抽取出来的样本进行分成训练集、用于不同的建模分析阶段。ModelingModel validation3.解释变量分析(Exploratory analysisrraiin setQut-o 匸 tinm frme test

9、setsetVlidalion set3.1 变量筛选(Variable Reduction )在整理完我们允许使用的变量数据后，接下去的任务就是从大量的数据中找出对目标变量有解释意义的变量来。我们可以通过下述的几个方面对变量进行分析，初步筛选。L VIP 变量(VIP variables )在解决某些实际问题的过程中，因为业务人员对变量选择可能有一定的要求，他们因为实际的业务需求明确规定了哪些变量必须进入模型；另外，一些有类似建模经验的建模人员也可能会提出模型很大可能会用到某些变量，因此我们在变量筛选时首先需要建立一个VIP变量组，该组的变量不需要经过筛选，直接进入模型。无监督的变量筛选(

10、Non-supervised variable reduction)无监督的变量筛选是指在筛选变量时不需要利用目标量信息的筛选方法。代表方法有- 聚类分析- 主成分分析有监督的变量筛选同理，有监督的变量筛选是指需要结合目标变量的信息才能进行的筛选方法。我们一般采用的有：- 相关性分析- 建立回归模型- 信息值3.2变量分析在经过一轮变量的预筛选之后，我们需要专门针对筛选出来的变量进行更进一步的分析。每个变呈的频数统il分析每个变呈与目标变竜之间的关系4. 模型选择(ModelSelection )如何衡量模型是否有效？我们下面介绍几种在实际操作中常用的判断方法。4.1 Lift/Gain &

11、#39; s chart优势：a.可以用业务语言非常容易地解释；b.易观察，对商业决策有直观的帮助劣势：a.无法直接用数字给出结果;b.图形和程度有时候会给人错觉;4.2 KS 值Kolmogorov-Smir nov Test,MAD= Sup|F_r - F_n|,MAD是ROC曲线之间差值的最大值。（如右图蓝线就是 MAD）2X.P X.P X.P X.P X.P X.P X.P X.P 7 7 7 7 7 7 7 7 6 cseEOp£2-q%oP_d >舖Ik6naR5100% 曾90% r e80% c270%ap60%C50% ae40%vt30% au20%m1

12、0% c0%RESP=1RESP=01 df90 10050 rank我们通过曲线图可以：对整体样本按照转移率进行排序;-比较0,1两种取值的分布；确定两种取值分布的分离度；这种方式比较容易理解，现已经广泛运用于模型选择分析中，SAS中的NPAR1WAY 过程步也可以直接计算出来。但是度量的效果受样本排序方式的影响较大，某一排序区间的样本分布也可能会对最终的结果产生较大的影响。一般情况下，训练集与测试集的 KS值差别不会很大，好的模型KS值一般在0.25 ,0.75 区间内。4.3信息值即距离：fr(s)IV ( fr(s) fn(s) logdSfn(S)这种方法与 KS原理类似，也可以很

13、容易地比较0,1两种取值的分布，并且能够用于处理字符型变量。但是与 KS值一样，某一排序区间的样本分布也可能会对最终的结果产生较大的影响；另外 SAS中没有现成的过程步可以产生这个结果。4.4 Gini系数a由意大利统计学家 Corrado Gini 在1912年提出，它通常被定义为 GINI图中的A/(A+B)的值。Gini系数是通过0,1两种分布的距离来衡量的，SAS里也有过程步可以直接计算，但是对于非统计学家来说，这个名词较为专业了些。的数目影响。事实上，Gini系数一般在-1，1区间内，很多分析师习惯用C-value进行分析而忽略 Gini系数的分析。4.5 C-value&

14、Con corda ntC-value 是ROC曲线下的区域： A+ D。NcCon corda nt tC Con corda ntTies2tReceiver Operati ng Characteristic (ROC)CurveC-value与Gini系数的原理类似，通过Gini系数也可以C-value的值。C= Gi ni+0.5(1-Gi ni)般情况下，C-value值在0，1区间内，好的模型该值一般在0.60.9 之间。4.6 Total varianee Reduction (TVR)1V。VsdsTVR0V。TVR可以衡量模型打分的排序能力，但是因为在计算时我们通常用V。2

15、0k 1NaN。V。来代替TVR的值，所以我们得到只能是一种近似值。在实际处理过程中，我们可能还存在一些其他的度量方式，在这里就不一一赘述了。5. 建模的后续工作当我们构建了合适的分析模型后，我们还有一些后续工作需要完成:模型后续分析槪据及嚼型运讦流果悄L前栈纠歿果模型监控另外，在提交成果时我们还需将模型的设计书、代码、变量说明等材料打包一并提交,并且上报模型的更新计划。6.1234789101112参考文献(referenee )Agresti, A. (1990)Categorical Data An alysis,Wiley, I nc. New YorkAllison, P .D. (

16、1999) Logistic Regression: Using the SAS System,SAS Institute,Cary N.C.Collett, D. (1991) Modelli ng Bin ary Data , Chapman & Hall, L ondonCox, D. R., and Sn ell, E.J. (1989) The An alysis of Bin ary Data,Seco nd Editio n.Chapma n & Hall, LondonDobso n, A. (1990) An In troductio n to Gen era

17、lized Lin ear Models.Chapman& Hall, L ondonFleiss, J. (1986) Statistical Methods for Rates and Proportio ns.Wiley, I nc.,New YorkHarrell, F. (2001) Regression Modeling Strategies . Springer-Verlag,NewYorkHosmer, D.W., and Lemeshow, S. (2000) Applied LogisticRegression,Second Edition, Wiley, Inc.

18、, New YorkKlie nbaum, D.G. (1994) Logistic Regressio n:A Self-Learni ngText.Sprin ger-Verlag, New YorkMcCullagh, P ., and Nelder, J.A. (1989)Gen eralized Linear Models,Sec ondEditi on. Chapma n & Hall, LondonMen ard,S. (2002) Applied Logistic Regressio n An alysis,Seco nd Editi on.Sage Uni versity Press, LondonMyers, R.,

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

Logistic模型及建模流程概述

文档简介

温馨提示

最新文档

评论

Logistic模型及建模流程概述

文档简介

温馨提示

最新文档

评论

相关文档