基于R软件的Logistic回归实证分析.doc_第1页
基于R软件的Logistic回归实证分析.doc_第2页
基于R软件的Logistic回归实证分析.doc_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于R软件的Logistic回归实证分析应用统计 章程 1220120484摘要:Logisic回归模型是研究响应变量为非连续变量时的一种重要分析方法,但它的计算依赖于统计软件。本文通过实证对使用R软件处理Logistic模型做出简要分析。引言:线性回归模型是定量分析和数据挖掘中最常用的统计分析方法之一,但线性回归分析一般要求响应变量是连续变量、数据分布为正态分布等条件。在实际分析研究中,经常遇到的是非连续的响应变量,即分类响应变量,如经济学研究中所涉及的是否购买某种商品、流行病学中研究的某些条件下是否会患病等。在研究二分变量与诸多自变量之间的相互关系时,通常选用Logistic回归模型。1、Logistic回归Logistic模型是由比利时生物学家Verhulst于1838年提出,最早是为了研究人口问题而对Malthus方程做出的改进,起初并没有引起重视,后来美国人口学家Pear在研究美国人口问题时再次提出这个方程才使其开始流行,故现代文献中常称之为Verhulst-pearl阻碍方程。该模型之所以称为Logistic模型,是因为其有某种推理的含义。一般的Logistic模型形式如下:对上式做logit变换,Logistic回归模型可以写成: 由于Logistic回归模型涉及较复杂的数学理论,数据统计分析的计算往往较为复杂,一般无法用手工计算,只能在计算机上实现。在统计软件方面,常用的有SAS、SPSS、S-PLUS等,但这些软件大多是商业性的,需要支付昂贵的购买费用。而R软件是一款免费的统计软件,它提供了有弹性的、互动的环境来分析、展示数据,且提供若干统计程序包以及一些集成统计计算工具和函数,使得用户可以灵活机动地进行数据分析,简化了数据分析过程。它可以完成大多数模型的统计计算,并帮助用户分析计算结果。本文将结合实例,展示如何在R软件中实现对Logistic模型的统计分析。2、Logistic模型的拟合回归模型的拟合主要是求模型中的参数估计值,Logistic模型的参数估计通常采用极大似然法(maximum likelihood,ML)。极大似然法的基本思想是先建立似然函数与对数似然函数,再通过使对数似然函数最大来求解相应的参数值,所得到的估计值称为参数的极大似然估计值。极大似然估计具有一致性、有效性和正态性等很好的统计性质,样本数据越大时,其估计值就越精确。鉴于Logistic模型时基于二项分布族的广义线性模型,因此在R软件中可通过glm语句建立回归关系,再用summary语句得到其详细结果。在得到模型拟合结果后,还可用influence.measures语句进行影响分析,通过该语句直接得到像cook距离、帽子矩阵对角元值等基本量。再通过函数运算可得到其他统计量,进而进行诊断分析。3、案例分析:资料为50位急性白血病人是否存活Y、入院后取得的淋巴浸润等级X1、以及出院后有无巩固治疗X2。根据该数据,用R软件拟合Logistic模型,具体结果如下:x1-c(0,2,2,2,2,0,0,2,2,0,2,0,0,0,0,0,0,0,0,2,0,0,0,0,0,2,0,0,0,0,0,2,0,2,0,0,2,0,2,0,0,0,2,0,0,2,0,0,0,0)x2-c(0,0,0,0,0,0,1,0,0,0,1,0,0,0,1,0,1,1,1,1,1,0,1,1,1,0,0,0,0,0,0,0,1,0,1,1,1,0,1,0,0,1,1,1,1,1,1,1,1,1)y-c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1) life-data.frame(x1,x2,y) log|z|) (Intercept) -1.6419 0.6381 -2.573 0.010082 * x1 -0.7070 0.4282 -1.651 0.098750 . x2 2.7844 0.7797 3.571 0.000355 * - Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1 (Dispersion parameter for binomial family taken to be 1)Null deviance: 67.301 on 49 degrees of freedom Residual deviance: 46.718 on 47 degrees of freedom AIC: 52.718Number of Fisher Scoring iterations: 5 根据软件输出的结果,得到:即进一步地,用R软件还可以进行预测分析:pre-predict(log,data.frame(x1=2,x2=0) p-exp(pre)/(1+exp(pre);p输出得到结果0.04496518pre-predict(log,data.frame(x1=2,x2=1) p-exp(pre)/(1+exp(pre);p输出得到结果0.4325522比较上述两个结果可见,当入院后取得的淋巴浸润等级x1=2时,出院后继续进行巩固治疗(x2=1),则病患存活的概率是没有巩固治疗时的9.62倍。接下来,再对模型进行诊断,在程序窗口输入influence.measures(log),回车后可以得到一些结果,其中cooks、hii这两列分别为cook距离、帽子矩阵对角元值。进一步地,还可以再R软件中计算pearson残差、Score统计量、似然距离、学生化残差等。根据得到的诊断统计量,就可以进行诊断分析。4、小结通过上述实证分析,尝试着用R软件研究了现实中的问题。从中可以看出,在研究此类响应变量为非连续变量的问题时,用Logistic模型是非常有效的,而利用R软件进行Logistic模型的统计分析则非常方便,如果数据较多,可以考虑直接以Excel表格的形式导入,这样可以进一步减少工作量。参考文献:1施朝健,张明铭.Logistic模型回归分析J.计算机辅助工程,2005(3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论