Logistic回归.doc_第1页
Logistic回归.doc_第2页
Logistic回归.doc_第3页
Logistic回归.doc_第4页
Logistic回归.doc_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Binary Logistic回归模型介绍:实验:实验数据见:Logistic.sav.例1:一个城市的居民家庭,按其有无割草机可分为两组,有割草机的记为一组为,没有割草机的一组记为,割草机工厂欲判断一些家庭是否购买割草机。从和分别随机抽取12个样品,调查两项指标:家庭收入,房前屋后土地面积。用y作为二元被解释变量,有割草机的家庭用1表示,没有割草机的家庭用0表示,作为解释变量。实验步骤:打开Logistic.sav,之后选择回归分析。主窗口如下:方法:选择进入,即所有自变量强制进入回归方程,其他方法可以查阅相关资料。点击分类选择变量之后,在保存中进行选择概率表示每个观测量发生特定事件的预测概率;组成员表示依据预测概率得到的每个观测量的预测分组。在选项中进行选择分类图:因变量的预测值与观测值的分类直方图。Hosmer-Lemeshow拟合良好度统计量。所有个案表示输出所有观测量的各种统计量。输出:在每个步骤中,对每一步过程输出表、统计量和图形。在最后一个步骤中,只输出最终方程的表格、统计量和图形。输出分析:表1案例处理汇总未加权的案例aN百分比选定案例包括在分析中24100.0缺失案例0.0总计24100.0未选定的案例0.0总计24100.0a. 如果权重有效,请参见分类表以获得案例总数。表1是对样本及变量做简单描述。表2因变量编码初始值内部值dimension00011表2是说二元因变量被编码为0,1,以方便计算。表3模型系数的综合检验卡方dfSig.步骤 1步骤17.9482.000块17.9482.000模型17.9482.000表3是3中常用的卡方统计量。因为拟合方法选择的是Enter,只有一步完成包含常数项和所有变量的模型的拟合,所以模型的model、Block、和step的卡方值都相同。如果采用逐步回归,增加变量,一步计算后sig的值小于0.05,那么说明增加变量后的方程有意义;剔除也根据同样方法判断。表4 模型汇总步骤-2 对数似然值Cox & Snell R 方Nagelkerke R 方115.323a.527.702a. 因为参数估计的更改范围小于 .001,所以估计在迭代次数 7 处终止。-2 对数似然值:此值越接近于0(越小)越好;Cox & Snell R 方:此值越接近于1越好。表3,4是对整个模型的检验,表中结果表明模型是非常显著的。表5 = Hosmer 和 Lemeshow 检验 =步骤卡方dfSig.15.6588.685表5是HosmerLemeshow检验,其原假设是方程对数据的拟合良好。Sig.0.05,接受原假设,说明方程对数据的拟合良好。表6 分类表a已观测已预测yes or no百分比校正01步骤 1yes or no010283.3121083.3总计百分比83.3a. 切割值为 .500表6是分类矩阵,说明83.3%的观测判断了正确的组。表7 方程中的变量BS.E,WalsdfSig.Exp (B)步骤 1ax1.333.1634.1681.0411.395x21.928.9264.3371.0376.873常量-25.93811.4875.0981.024.000a. 在步骤 1 中输入的变量: x1, x2.表7是模型的系数及检验,由表中结果可以得到下面的模型:这里,表示购买割草机概率的预测值,我们看到,模型中常数项变量,x1,x2系数的Wals检验在0.05的显著性水平上是显著的,而且x1,x2系数的指数值都大于1,说明x1,x2对因变量的影响都是正的。收入越高和土地面积越大,就越有可能购买割草机,而且土地面积对家庭是否购买割草机的影响大于收入的影响。表8案例列表案例选定状态a已观测已预测预测组临时变量yes or no残差ZResid1S1*.1750.8252.1742S1*.4330.5671.1443S1 .8871.113.3564S1 .7161.284.6295S1 .9981.002.0406S1 .9921.008.0927S1 .9521.048.2238S1 .9921.008.0899S1 .7281.272.61110S1 .9881.012.11011S1 .7151.285.63212S1 .9101.090.31413S0*.7801-.780-1.88314S0 .4900-.490-.98115S0 .1020-.102-.33716S0 .1840-.184-.47517S0*.5831-.583-1.18318S0 .0290-.029-.17219S0 .0190-.019-.14020S0 .2920-.292-.64121S0 .0080-.008-.08722S0 .0150-.015-.12523S0 .0010-.001-.03424S0 .0090-.009-.096a. S = 已选定,U = 未选定的案例及 * = 未分类的案例。根据上面得到的Logistic模型,可以计算出每个观测购买割草机概率的预测值,概率值按照0.5为分界点进行判别归类。临时变量反映残差情况。第1,2,13,17个观测出现了误判的情况,可以对这些观测进行更深入的诊断。第1户的收入不高,土地面积也不大,但是拥有割草机,第2户拥有割草机,但其土地面积是有割草机家庭中最少的,也导致了误判;第13户的收入并不低,屋后土地面积也大于第1户,但是没有割草机,也导致了误判;第17户的收入较高,但是也没有割草机。可见,由于某些样品的特殊性,导致了模型的误判情况。但是Logistic模型还是能够反映样品的一些共性的,这也正是我们所需要证实的。Logistic模型还可以用于预测,如果知道某户收入和屋后土地面积,我们可以计算出该用户购买割草机的概率,预测他是否会购买割草机。举例2:数据集是癌细胞淋巴转移数据 data11-02.sav要求:通过Logistic回归分析,判断所给数据表示阴性或阳性。因变量必须是二分型的,建议取值为0-1。分析变量最好是多元正态分布,可以是单独变量,也可以是两项以上的交互项。类型可以是数值型,也可以是分类的。此模型试图建立的回归方程: Logit = x的线性表达式其中 Logit = log ( Prob(event) /Prob(no event) )操作步骤:分析-回归-二元logistic主窗口如下:若分析的协变量中有分类型,则点击 分类在本例中,肿瘤扩散等级是分类型变量,将其选入右侧框中(程序会对扩散等级变量进行recode重新编码,成为指标变量)对比方法与单变量多因素方差分析中的对比内容一致(对比用来检验因子的水平之间的差值,可以为模型中的每个因子指定对比。)设置 选项Hosmer-Lemoshow拟合度表示模型拟合程度估计值的相关性:各变量估计参数的相关系数矩阵CI(x)表示置信度分类标准值是0-1之间的数(0.5):根据0.5,将结果分类。若概率值0.5则判别为1,否则判别为0;结果输出:案例处理汇总未加权的案例aN百分比选定案例包括在分析中112192.9缺失案例867.1总计1207100.0未选定的案例0.0总计1207100.0a. 如果权重有效,请参见分类表以获得案例总数。因变量编码初始值内部值dimension0无0有1分类变量编码频率参数编码(1)(2)肿瘤扩散等级 5 厘米12.000.000对肿瘤扩散等级变量recode重新编码,此分类变量有3个水平,所以最少可用2个进制位来表示:00, 01, 10, 11 (有位冗余不用) 所以就引入2个辅助二分变量来替代原来的多分变量.迭代历史记录a,b,c迭代-2 对数似然值系数Constant步骤 011219.800-1.06921216.671-1.18931216.668-1.19241216.668-1.192a. 模型中包括常量。b. 初始 -2 对数似然值: 1216.668c. 因为参数估计的更改范围小于 .001,所以估计在迭代次数 4 处终止。模型系数的综合检验卡方dfSig.步骤 1步骤64.8974.000块64.8974.000模型64.8974.000模型汇总步骤-2 对数似然值Cox & Snell R 方Nagelkerke R 方11151.770a.056.085a. 因为参数估计的更改范围小于 .001,所以估计在迭代次数 4 处终止。红色标注部分:类似于线性回归,是用来衡量解释度。= Hosmer 和 Lemeshow 检验 =步骤卡方dfSig.18.5458.382分类表:根据回归模型的表达式,计算某一样本被判到了哪一类。如果原来是yes,判别结果yes,那么这是一个判对个案。下面表格显示哪些样本判对了?哪些判错了?错判率是多少?分类表a已观测已预测癌变部位的淋巴结是否含有癌细胞百分比校正无有步骤 1癌变部位的淋巴结是否含有癌细胞无8461498.4有246155.7总计百分比76.8a. 切割值为 .500方程中的变量BS.E,WalsdfSig.Exp (B)EXP(B) 的 95% C.I.下限上限步骤 1aage-.025.00618.2821.000.976.965.987pathsize.424.13110.4871.0011.5281.1821.975pathscat.5482.760pathscat(1)-.185.846.0481.827.831.1584.362pathscat(2)-.307.728.1781.673.736.1763.066常量-.3981.042.1461.702.671a. 在步骤

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论