Logistic回归_第1页
Logistic回归_第2页
Logistic回归_第3页
Logistic回归_第4页
Logistic回归_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1LogisticLogistic回归模型回归模型一一. .模型的引进模型的引进二二.Logistic.Logistic回归模型估计回归模型估计三三. Logistic. Logistic回归模型的评价回归模型的评价四四. Logistic. Logistic回归系数的统计推断回归系数的统计推断五五. Logistic. Logistic回归诊断回归诊断2LogisticLogistic回归模型回归模型一一. .模型的引进模型的引进二二.Logistic.Logistic回归模型估计回归模型估计三三. Logistic. Logistic回归模型的评价回归模型的评价四四. Logistic.

2、Logistic回归系数的统计推断回归系数的统计推断五五. Logistic. Logistic回归诊断回归诊断3一一. .模型的引进模型的引进因变量是二分类定性变量时因变量是二分类定性变量时, ,考虑简单线考虑简单线性模型性模型: : 其中其中y yi i服从两点分布:服从两点分布:可知可知ii10ixyiiii1)0y(P) 1y(Pi10iixyE4logistic回归模型某疾病的病例对照研究某疾病的病例对照研究Idyx1x2x31111321032110101400060N00115logistic回归模型研究目的:X1,X2,X3等因素对该疾病有无影响?建立Y与X的多重线性回归模型?

3、3322110XXXY(取值(取值0和和1)6logistic回归模型建立p(Y=1/X)与X的多重线性回归模型?3322110)/1(pXXXXY(取值范围取值范围01)7logistic回归模型Logit(P)P8logistic回归模型建立logit(p)与X的多重线性回归模型: 3322110)/1(1)/1(lnXXXXYpXYp(取值范围取值范围-+)ppln()p(itlog1优势优势(odds)9logistic回归模型Logistic回归模型:回归模型:kkkkXXXXXXeep22110221101)(kk2211011XXXepkk22110plogitXXX)(10Lo

4、gisticLogistic回归模型一般形式回归模型一般形式在有在有m m个自变量时,公式扩展为:个自变量时,公式扩展为:m1kkk0 xP1pln11LogisticLogistic回归模型回归模型一一. .模型的引进模型的引进二二.Logistic.Logistic回归模型估计回归模型估计三三. Logistic. Logistic回归模型的评价回归模型的评价四四. Logistic. Logistic回归系数的统计推断回归系数的统计推断五五. Logistic. Logistic回归诊断回归诊断12二二.Logistic.Logistic回归模型估计回归模型估计LogisticLogis

5、tic回归模型估计的假设条件与回归模型估计的假设条件与OLSOLS的不同的不同 (1 1)logisticlogistic回归的因变量是二分类变量回归的因变量是二分类变量 (2 2)logisticlogistic回归的因变量与自变量之间的关系是非回归的因变量与自变量之间的关系是非线性的线性的 (3 3)logisticlogistic回归中无相同分布的假设回归中无相同分布的假设 (4 4)logisticlogistic回归没有关于自变量回归没有关于自变量“分布分布”的假设的假设(离散,连续,虚拟)(离散,连续,虚拟)13最大似然估计(一)最大似然估计(一)最小二乘估计(最小二乘估计(OLS

6、OLS):): 根据现行回归模型,选择参数估计值,使得模型的估计值与真值的离差平方和最小。最大似然估计最大似然估计( MLEMLE ): 选择使得似然函数最大的参数估计值。14假设假设n n个样本观测值个样本观测值y y1 1,y ,y2 2yyn n,得到一个观测,得到一个观测值的概率为值的概率为 其中其中 或或 由于各项观测相互独立,其联合分布为:由于各项观测相互独立,其联合分布为:iiy1iyii)p1 (p)yP(Y1yi0yin1iy1iyiii)p1 (p)(L最大似然估计(二)最大似然估计(二)15选择上式作为选择上式作为n n个观测的似然函数个观测的似然函数nixiiiynii

7、iiniyiyiniyiyiiiiiiiexy)p()pp()p()p(p)p(pL1101111101ln11ln11ln1ln)(lnxpp101lnxe-p1011116分别对参数求偏导,然后令它等于分别对参数求偏导,然后令它等于0 0:求得求得 的估计值的估计值 ,从而得到,从而得到 (p pi i的极的极大似然估计大似然估计) ),这个值是在给定,这个值是在给定x xi i的条件下的条件下y yi i=1=1的条的条件概率的估计,它代表了件概率的估计,它代表了LogisticLogistic回归模型的拟合回归模型的拟合值。值。01)(ln101010nixxiiieeyL01)(ln

8、111010inixxixeeyLii10,10,ip 17Logistic Logistic 回归系数的解释回归系数的解释因此每个因此每个 代表当保持其他变量不变时,代表当保持其他变量不变时,每单位量的增加对对数发生比的影响每单位量的增加对对数发生比的影响发生比率发生比率m1kkik0iixP1plnkkeodds2odds1OR18LogisticLogistic回归模型回归模型一一. .模型的引进模型的引进二二.Logistic.Logistic回归模型估计回归模型估计三三. Logistic. Logistic回归模型的评价回归模型的评价四四. Logistic. Logistic回归

9、系数的统计推断回归系数的统计推断五五. Logistic. Logistic回归诊断回归诊断19三三. Logistic. Logistic回归模型的评价回归模型的评价n 3.13.1 拟合优度检验(拟合优度检验(Goodness of fitGoodness of fit)3.1.1 3.1.1 似然比检验(似然比检验(Likelihood Ratio TestLikelihood Ratio Test)3.1.2 Hosmer-Lemeshow3.1.2 Hosmer-Lemeshow检验检验n 3.2 Logistic3.2 Logistic回归模型的预测准确性回归模型的预测准确性 3.

10、2.1 Cox & Snell R Square3.2.1 Cox & Snell R Square指标和指标和Nagelkerke R SquareNagelkerke R Square指标指标 3.2.2 3.2.2 分类表分类表203.1.1 3.1.1 似然比检验似然比检验似然比检验的思想:似然比检验的思想: 建立logistic回归模型后,再向模型中引入另外的变量,重新拟合模型。两模型的21nL值之差即为似然比统计量LR。 213.1.13.1.1似然比检验似然比检验似然比检验用公式表示为似然比检验用公式表示为: : 2lnL0为只有截距项的零假设模型的2lnL,2l

11、nLs为设定模型的2lnL,当样本含量较大时,服从卡方分布,自由度为设定模型与零假设模型自由度之差。 0s220s2lnL2lnLpLLlnLRLR22233.1.2 Hosmer-Lemeshow3.1.2 Hosmer-Lemeshow检验检验 该方法根据模型预测概率的大小将所有观察单位该方法根据模型预测概率的大小将所有观察单位分为十组,然后根据每一组中因变量各种取值的分为十组,然后根据每一组中因变量各种取值的实际值与理论值计算实际值与理论值计算PearsonPearson卡方:卡方: 其中其中G G代表分组数。代表分组数。O Og g为第为第g g组的观测频数,组的观测频数,E Eg g

12、为第为第g g组的预测频数。组的预测频数。G1gg2ggE)E-(OHL24253.2.1 Logistic3.2.1 Logistic回归模型的预测准确性回归模型的预测准确性Cox & Snell R Square指标 其中 与 表示零假设模型与所设模型各自的似然值,n为样本规模。n2S02LL1R0LSL263.2.1 Logistic3.2.1 Logistic回归模型的预测准确性回归模型的预测准确性然而对于logistic回归,上面定义的R最大值却小于1Nagelkerke提出一种logistic回归的调整确定系数n202maxL1R)(2max2adj2R RR27283.2

13、.2 Logistic3.2.2 Logistic回归模型的预测准确性回归模型的预测准确性分类表的思想:分类表的思想: 首先设定一个概率界限,如果一个观测Xi的预测发生概率 大于这一界限,就将其界定为预测发生,否则认为预测不发生。 这样,所有的观测被分为预测发生和预测不发生两类,从而可以建立一个22的交互表来比较预测情况与实际情况。iP2930LogisticLogistic回归模型回归模型一一. .模型的引进模型的引进二二.Logistic.Logistic回归模型估计回归模型估计三三. Logistic. Logistic回归模型的评价回归模型的评价四四. Logistic. Logist

14、ic回归系数的统计推断回归系数的统计推断五五. Logistic. Logistic回归诊断回归诊断31四、四、 LogisticLogistic回归系数的统计推断回归系数的统计推断LogisticLogistic回归系数的显著性检验回归系数的显著性检验l WaldWald检验检验l 似然比检验似然比检验LogisticLogistic回归参数的的置信区间回归参数的的置信区间l LogisticLogistic回归系数的置信区间回归系数的置信区间l发生比率的置信区间发生比率的置信区间324.1 Logistic4.1 Logistic回归系数的显著性检验回归系数的显著性检验WaldWald检验

15、检验 该检验是基于在大样本情况下值服从正态分布的性质。 其中 为 的标准误。) 1 (SEW22KKKKSEZKKSE33344.1 Logistic4.1 Logistic回归系数的显著性检验回归系数的显著性检验似然比检验似然比检验 354.2 Logistic4.2 Logistic回归参数的的置信区间回归参数的的置信区间LogisticLogistic回归系数回归系数 的置信区间为:的置信区间为:发生比率的置信区间发生比率的置信区间kk2/kSEZk2/kk2/kSEZSEZe,e36LogisticLogistic回归模型回归模型一一. .模型的引进模型的引进二二.Logistic.L

16、ogistic回归模型估计回归模型估计三三. Logistic. Logistic回归模型的评价回归模型的评价四四. Logistic. Logistic回归系数的统计推断回归系数的统计推断五五. Logistic. Logistic回归诊断回归诊断37五五. Logistic. Logistic回归诊断回归诊断多重共线性的诊断多重共线性的诊断异常值的诊断异常值的诊断38多重共线性的诊断多重共线性的诊断相关系数矩阵容忍度方差膨胀因子由于只关心自变量之间的关系,所以可以通过线性回归得到容忍度指标。2xkR1TOLTOL1VIF 39异常值的诊断(一)异常值的诊断(一)标准化残差(标准化残差(Pe

17、arsonPearson残差)残差)lyj为第j个协变量组合的阳性观察值个数lnj为第j个协变量组合的观察单位数lPj为第j个协变量组合的概率估计值l一般认为残差值超过2则可能为异常点)p1 (pnpnyejjjjjjj40异常值的诊断(二)异常值的诊断(二)DevianceDeviance残差残差l其中sgn表示此式的正负号与(yj-njpj)的相同l一般认为残差值超过2则可能为异常点jjjjjjjjjjjjjip1nynlnynpnylny2pnysgnd41例题:高中毕业生继续进入大学学习的可能性的影响因素如果一个高中毕业生升入了大学,则y=1;如果没有升入大学,则y=0。P为高中毕业后升入大学的概率。自变量为性别Gender(1为男性,0为女性),高中类型Keysch(1为重点中学、0为普通中学),高中成绩Meangr。前两个为虚拟变量, Meangr为连续变量。Logistic回归模型为:MeangrKeyschGender)p1p(ln321042数据43在SPSS中点击Analyze Regression BinaryLogistic 44r0.425Meangh0.913Keyscr0.866Gende-1.757)p1p(ln最后的回归结果为:45Thankyou!46最大似然估计的性质最大似然估计的性质在最大似然估计的假设条件满足的情

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论