应用统计学logistic回归模型PPT学习教案_第1页
应用统计学logistic回归模型PPT学习教案_第2页
应用统计学logistic回归模型PPT学习教案_第3页
应用统计学logistic回归模型PPT学习教案_第4页
应用统计学logistic回归模型PPT学习教案_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、会计学1应用统计学应用统计学logistic回归模型回归模型对分类变量的分析,当考察的影响因素较少,且也为分类变量时,常用列联表(Contingency Table)进行整理,并用2检验或分层2检验进行分析,但存在以下局限性: 无法描述其作用大小和方向,更不能考察各因素间是否有交互作用; 当控制的分层因素较多时,将导致检验结果不可靠; 2检验无法对连续性自变量进行分析(致命缺陷)。模型简介第1页/共54页logistic回归模型适合于应变量为二项分类的资料,在医学研究领域中的应用广泛。如流行病病因学研究(包括队列研究、病例对照研究、横断面研究等)、临床疗效研究(如疗效与治疗方法、患病轻中重等因

2、素关系)、卫生服务研究(如是否就诊与性别、年龄、文化程度的关系)等等。模型简介第2页/共54页011log()ppit PXX011011exp()1exp()ppppXXPXX011111exp()ppPXX模型简介v logistic回归模型:第3页/共54页 反应变量为二分类变量或某事件的发生率; 自变量与logit(P)之间为线性关系; 残差合计为0,且服从二项分布; 各观测间相互独立。模型简介适用条件v logistic回归模型应该使用最大似然法来解决方程的估计和检验问题,不应当使用以前的最小二乘法进行参数估计。第4页/共54页例1 某医师希望研究病人的年龄age、性别sex(0为女

3、性、1为男性)、心电图检验是否异常ecg(ST段压低、0为正常、1为轻度异常、2为重度异 常 ) 与 冠 心 病 c a 是 否 有 关 , 数 据 见logistic_binary.sav。简单分析实例第5页/共54页简单分析实例第6页/共54页选入应变量选入自变量简单分析实例第7页/共54页Dependent Variable Encoding01Original Value未患病患病Internal Value简单分析实例结果分析v 此表为应变量取值水平编码,SPSS默认取值水平高的为阳性结果。第8页/共54页简单分析实例结果分析v 本表输出当前模型的-2log(似然值)和两个伪决定系数

4、,但对于logistic回归而言,通常看见的伪决定系数不像线性回归模型中的决定系数那么大。Model Summary86.811a.237.316Step1-2 Log likelihoodCox & Snell R SquareNagelkerke R SquareEstimation terminated at iteration number 5 because parameter estimateschanged by less than .001.a. 第9页/共54页Variables in the Equation1.356.5466.1621.0133.882.873.

5、3845.1621.0232.395.093.0357.0001.0081.097-5.6421.8069.7571.002.004sexecgageConstantStep1aBS.E.WalddfSig.Exp(B)Variable(s) entered on step 1: sex, ecg, age.a. 简单分析实例结果分析v 此表输出模型中的各自变量的偏回归系数及其标准误、Wald 2、自由度、P 值、OR值(即exp(B)。第10页/共54页哑变量设置在回归模型中,回归系数b表示其他自变量不变,x每改变一个单位时,所预测的y的平均变化量,当x为连续性变量时,这样解释没有问题,二分

6、类变量由于只存在两个类别间的比较,也可以对系数得到很好的解释。但是当x为多分类变量时,仅拟合一个回归系数就不太合适了,此时需要使用哑变量(dummy variable)方式对模型进行定义。第11页/共54页例2 Hosmer 和Lemeshow于1989年研究了低出生体重婴儿的影响因素,结果变量为是否娩出低出生体重儿(变量名为LOW,1表示低出生体重儿,0表示非低出生体重儿),考虑的自变量有产妇妊娠前体重、产妇年龄、种族、是否吸烟、早产次数、是否患高血压等。(数据文件见:logistic_step.sav。)哑变量设置第12页/共54页哑变量设置第13页/共54页哑变量设置第14页/共54页选

7、入无序多分类变量设置参照水平哑变量设置第15页/共54页Categorical Variables Codings961.000.00026.0001.00067.000.000白人黑人其他种族种族Frequency(1)(2)Parameter coding哑变量设置结果分析v 哑变量(种族)的设置情况第16页/共54页Variables in the Equation-.025.037.4831.487.975-.014.0074.0901.043.9867.1462.028-.908.4374.3261.038.403.329.534.3801.5371.390.927.3995.414

8、1.0202.528.552.3452.5621.1091.7361.763.6896.5411.0115.831.649.4681.9251.1651.913.032.171.0351.8511.0331.1431.0871.1041.2933.135agelwtracerace(1)race(2)smokeptlhtuiftvConstantStep1aBS.E.WalddfSig.Exp(B)Variable(s) entered on step 1: age, lwt, race, smoke, ptl, ht, ui, ftv.a. 哑变量设置v 白人低出生体重的风险较低,而黑人风险

9、较高。结果分析第17页/共54页 参照水平最好要有实际意义,不推荐使用其他作为参照; 参照水平组要有一定的频数作保证,应不少于30或50例; 对有序自变量的分析: 从专业出发确定; 分别以哑变量和连续性变量的方式引入模型进行比较后确定。哑变量设置v 哑变量设置应该注意的问题第18页/共54页 Forward:Conditional (最可靠) Forward:LR Forward:Wald (应当慎用) Backward: Conditional (最可靠) Backward:LR Backward:Wald(应当慎用)v 6 种筛选自变量的方法逐步回归第19页/共54页例3 仍以例2的数据为

10、例,演示如何在SPSS中实现逐步logistic回归分析。逐步回归第20页/共54页选择其中一种逐步法逐步回归第21页/共54页Model Summary227.893a.035.050223.583b.057.080217.220b.088.124Step123-2 Log likelihoodCox & Snell R SquareNagelkerke R SquareEstimation terminated at iteration number 3 because parameter estimateschanged by less than .001.a. Estimati

11、on terminated at iteration number 4 because parameter estimateschanged by less than .001.b. 逐步回归v 给出了模型拟合过程中每一步的-2log(L)及两个伪决定系数。结果分析第22页/共54页Variables in the Equation.802.3176.3911.0112.230-.964.17530.3701.000.381.823.3186.6831.0102.2771.272.6164.2701.0393.569-1.062.18433.2241.000.346-.015.0075.584

12、1.018.985.728.3274.9611.0262.0711.789.6946.6391.0105.986.893.8291.1581.2822.441ptlConstantStep1aptlhtConstantStep2blwtptlhtConstantStep3cBS.E.WalddfSig.Exp(B)Variable(s) entered on step 1: ptl.a. Variable(s) entered on step 2: ht.b. Variable(s) entered on step 3: lwt.c. 逐步回归结果分析第23页/共54页Variables no

13、t in the Equation3.1491.0763.3401.0685.3592.0695.0281.0252.0561.1523.1641.0754.7221.0302.1621.141.7531.38522.8588.004agelwtracerace(1)race(2)smokehtuiftvVariablesOverall StatisticsStep1ScoredfSig.逐步回归结果分析v 输出了尚不在模型中的自变量是否能被引入的Score检验结果,这里只给出第一步的结果。第24页/共54页对数似然值与伪决定系数模型预测正确率ROC曲线模型拟合效果检验v 拟合效果判断指标:第

14、25页/共54页-2 倍对数似然值表示模型的拟合效果,其值越小,越接近于0,说明模型拟合效果越好。但是,当自变量中存在缺失值时,因为一般统计软件在进行计算时会把含有缺失值的记录予以剔除,不参与统计分析,此时不能用-2log likelihood 对不同模型的拟合效果进行比较。模型拟合效果检验第26页/共54页Classification Tablea123794.6471220.371.4Observed正常低出生体重低出生体重儿Overall PercentageStep 3正常低出生体重低出生体重儿PercentageCorrectPredictedThe cut value is .50

15、0a. 例3进行逐步回归的第三步(step3)输出以上结果,预测正确的记录占71.4。模型拟合效果检验第27页/共54页Save子对话框模型拟合效果检验v先保存研究对象的预测概率。第28页/共54页模型拟合效果检验第29页/共54页模型拟合效果检验第30页/共54页模型拟合效果检验v 这就是ROC曲线,预测效果最佳时,曲线应该从左下角垂直上升至顶,然后水平向右延伸到右上角。结果分析第31页/共54页Area Under the CurveTest Result Variable(s): Predicted probability.708.043.000.624.792AreaStd. Erro

16、raAsymptotic Sig.bLower BoundUpper BoundAsymptotic 95% Confidence IntervalThe test result variable(s): Predicted probability has at least one tie between the positiveactual state group and the negative actual state group. Statistics may be biased.Under the nonparametric assumptiona. Null hypothesis:

17、 true area = 0.5b. 模型拟合效果检验结果分析v 本表是对ROC曲线下面积计算的结果,可见曲线下面积为0.708,95可信区间为0.6240.792。第32页/共54页模型拟合优度检验(Test of Goodness Fit ):考察当前模型是否可以进一步改善,检验当前模型与饱和模型的预测效果之差是否有统计学意义。拟合优度检验第33页/共54页 Pearson 和Deviance 拟合优度检验: 当自变量很多,或包含连续性自变量时,不可以用这两种方法。 似然比检验: 主要用于考察饱和模型是否可以进一步简化。 HosmerLemeshow检验: 通常用于自变量很多,或包含连续性

18、自变量的情况。拟合优度检验v 模型拟合优度检验的常用方法:第34页/共54页点击主对话框中的options按钮,出现如下所示的对话框:拟合优度检验第35页/共54页Hosmer and Lemeshow Test9.9798.266Step3Chi-squaredfSig.Contingency Table for Hosmer and Lemeshow Test1616.69732.303191515.30343.697191817.46155.539231613.21524.785181513.70845.292191512.68335.317181112.31075.690181112.

19、27986.72119610.531138.4691975.8121011.1881712345678910Step3ObservedExpected低出生体重儿 = 正常ObservedExpected低出生体重儿 = 低出生体重Total拟合优度检验结果分析第36页/共54页用save子对话框可以保存各种残差;如果残差的绝对值大于2,提示该记录可能是异常点。Save子对话框模型的诊断与修正v 残差分析第37页/共54页多重共线性的对偏回归系数的影响与线性回归模型中的表现一致,如增加或删除一条记录,模型中偏回归系数值发生较大变化,专业上认为有意义的因素无统计学意义等等。如果在进行logist

20、ic模型分析中,尤其是在向模型中引入交互作用项时出现了回归结果反常现象,则自变量之间的多重共线性是需要排除的一种可能。模型的诊断与修正v 多重共线性的识别:第38页/共54页目前SPSS的logistic过程中尚没有关于多重共线性诊断的结果输出,代替方法之一是运用相同的反应变量与自变量,拟合线性回归模型,并进行相应的共线性诊断。模型的诊断与修正v 多重共线性的识别:第39页/共54页匹配设计(matched design)是在设计阶段控制混杂因素的一种方法。当得到一名研究病例后,选择一名或多名非病例作为对照,选择相应对照的条件是:某些需要控制的混杂因素与该病例之间相同或相似,从而形成一个匹配的

21、对子。一个匹配的对子可以只有 1个病例和1个对照,称1:1匹配;当病例很罕见时,常采用 1个病例,多个对照,此时称为1:m匹配,常用的 m一般小于等于4,不同的对子,m可以不同;还可设计m:n匹配,即不同对子的病例与对照个数均可不同,这样的设计增加了收集资料的灵活性。条件logistic回归简介第40页/共54页对于这类匹配设计资料,如果采用以上介绍的非条件 logistic回归方法,将会降低检验效能。而应当采用条件logistic回归模型(conditional logistic regression model)又称配对logistic回归模型进行分析。条件logistic回归简介第41页

22、/共54页 用变量差值拟合:只适用于1:1配对的情况,用Multinomial logistic 过程实现; 用分层Cox模型拟合:适用范围非常广。条件logistic回归v SPSS中的拟合方法:第42页/共54页例4 Mack等人预考察服用雌激素与患子宫内膜癌的关系,对退休居住在社区的妇女进行病例对照研究。除服用雌激素以外,研究的自变量还包括肥胖、胆囊病史、服用其他非雌激素药物。数据见1_1_logistic.sav。条件logistic回归实例分析第43页/共54页compute case = case1 - pute age = age1 - pute est = est1 - put

23、e gall = gall1 - pute nonest = nonest1 -nonest2.execute.由于本例是1:1配对,可以使用变量差值方式加以拟合。首先运用compute过程产生配对logistic回归的分析变量,或用以下程序予以实现:条件logistic回归实例分析第44页/共54页条件logistic回归实例分析第45页/共54页条件logistic回归实例分析v 把自变量全部选入Covariate框,不能选入factor框!第46页/共54页默认情况下该复选框选中,应该去除该复选框条件logistic回归实例分析第47页/共54页WarningsThe dependent

24、 variable has only one valid value. A conditional logistic regressionmodel will be fitted.条件logistic回归结果分析v 这是系统给出的警告,说明由于反应变量只有一个水平,因此SPSS将拟合条件logistic回归模型。第48页/共54页Model Fitting Information87.33753.17834.1594.000ModelNullFinal-2 Log LikelihoodModel Fitting CriteriaChi-SquaredfSig.Likelihood Ratio

25、Tests结果分析条件logistic回归v 对模型中所有偏回归系数是否均为0进行似然比检验,结果说明他们不全为0。第49页/共54页Pseudo R-Square.419.558.391Cox and SnellNagelkerkeMcFadden结果分析条件logistic回归v 输出了三种伪决定系数,本例的伪决定系数还比较大。第50页/共54页Likelihood Ratio Tests53.658.4801.48872.01318.8361.00058.7705.5921.01853.279.1021.750Effectageestgallnonest-2 Log Likelihood ofReduced ModelModel Fitting CriteriaChi-SquaredfSig.Likelihood Ratio TestsThe chi-square statistic is the d

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论