




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、首都医科大学流行病与卫生统计学系罗艳侠Logistic回归分类 按照反应变量类型二分类反应变量的logistic回归多分类有序反应变量的logistic回归多分类无序反应变量的logistic回归 按照研究设计类型非条件logistic回归(研究对象未经匹配)条件logistic回归(研究对象经过匹配)(一)基本概念和原理(一)基本概念和原理1.1.应用背景应用背景 LogisticLogistic回归模型是一种概率模型,适合于病例对照研究、随访研究和横断面研究,且结果发生的变量取值必须是二分的或多项分类的。可用影响结果变量发生的因素为自变量与因变量,建立回归方程。 设资料中有一个因变量y、p
2、个自变量x1, x2,xp,对每个实验对象共有n次观测结果,可将原始资料列成表1形式。2、LogisticLogistic回归模型的数据结构 表1 LogisticLogistic回归模型的数据结构实验对象 y X1 X2 X3 . XP 1 y1 a11 a12 a13 a1p 2 y2 a21 a22 a23 a2p 3 y3 a31 a32 a33 a3p n yn an1 an2 an3 anp 表2 肺癌与危险因素的调查分析 例号 是否患病 性别 吸烟 年龄 地区 1 0 1 0 30 0 2 0 0 1 46 1 3 1 0 0 35 1 30 1 0 0 26 1 注:是否患病中
3、,0代表否,1代表是。性别中1代表男,0代表女,吸烟中1代表吸烟,0代表不吸烟。地区中,1代表农村,0代表城市。 表3 配对资料(1:1) 对子号 病例 对照 x1 x2 x3 x1 x2 x3 1 1 3 0 1 0 1 2 0 3 1 1 3 0 3 0 1 2 0 2 0 10 2 2 2 0 0 0 注:X1蛋白质摄入量,取值:0,1,2,3 X2不良饮食习惯,取值:0,1,2,3 X3精神状况 ,取值:0,1,2 3 3、 Logistic回归模型l 令:令: y=1 发病(阳性、死亡、治愈等)发病(阳性、死亡、治愈等)l y=0 未发病(阴性、生存、未治愈等)未发病(阴性、生存、未
4、治愈等)l 将发病的概率记为将发病的概率记为P,它与自变量,它与自变量x x1 1, , x x2 2, ,x,xp p之间的之间的Logistic回归模型为:回归模型为: )exp(1)exp(110110ppppXXXXp 经数学变换得定义Logistic变换Logistic回归方程 ppXXpp 110)1/(ln)1/(ln)(logpppitppXXpLogit 110)( 4、回归系数i的意义 流行病学的常用指标优势比(odds ratio,OR)或称比数比,定义为:暴露人群发病优势与非暴露人群发病优势之比。 即Xi的优势比为:)1/()1/(0011PPPPORiiiPitPit
5、ORLn)0() 1()0(log)1 (log)(00解 释 设第i个因素的回归系数为bi,表示当有多个自变量存在时,其它自变量固定不变的情况下,自变量Xi每增加一个单位时,所得到的优势比的自然对数。也就是其它自变量固定不变的情况下,自变量Xi每增加一个单位时,影响因变量Y发生的倍数。 当bi0时,对应的优势比(odds ratio,记为ORi):ORi=exp(bi)1,说明该因素是危险因素;当bi0时,对应的优势比ORi=exp(bi)1,说明该因素是保护因素。 (二) Logistic回归类型及其实例分析 1、非条件Logistic回归 当研究设计为队列研究、横断面研究或成组病例对照研
6、究时,要用非条件Logistic回归。 例 为了探讨糖尿病与血压、血脂等因素的关系,某研究者对56例糖尿病病人和65例对照者进行病例-对照研究,收集了性别、年龄、学历、体重指数、家族史、吸烟、血压、总胆固醇、甘油三酯、高密度脂蛋白、低密度脂蛋白11个因素的资料(完整数据见SPSS数据文件)。性别性别年龄年龄学历学历体重指数体重指数家族史家族史吸烟吸烟血压血压总胆固醇总胆固醇甘油三甘油三脂脂hdlldl糖尿糖尿病病160221114.301.501.242.300148321114.601.321.152.300263211124.601.151.152.300168322114.151.431
7、.073.210145212113.421.22.632.300145332114.16.96.982.650159211114.321.021.053.490168331113.801.422.86.850263221113.871.552.44.810 表2 糖尿病影响因素赋值说明因素变量名赋值说明性别X1男=1,女=2年龄X2学历X3小学以下=1,小学=2,初中=3,高中=4,大专及以上=5体重指数X424=1, 2426=2, 26=3家族史X5无=1,有=2吸烟X6不吸=1,吸=2血压X7正常=1,高=2总胆固醇X8甘油三酯X9高密度脂蛋白 X10低密度脂蛋白 X11糖尿病Y对照=0
8、,病例=1 建立数据库多因素的logistic回归Case Processing SummaryCase Processing Summary121100.00.0121100.00.0121100.0Unweighted CasesaIncluded in AnalysisMissing CasesTotalSelected CasesUnselected CasesTotalNPercentIf weight is in effect, see classification table for the totalnumber of cases.a. 1. 基本数据描述Dependent V
9、ariable EncodingDependent Variable Encoding01Original Value无有Internal Value2. 因变量的编码回归模型的整体检验O Om mn ni ib bu us s T Te es st ts s o of f M Mo od de el l C Co oe ef ff fi ic ci ie en nt ts s95.49711.00095.49711.00095.49711.000StepBlockModelStep 1Chi-squaredfSig. Logistic回归模型的拟合优度检验H Ho os sm me er r
10、 a an nd d L Le em me es sh ho ow w T Te es st t4.3578.824Step1Chi-squaredfSig. Logistic回归模型的预测准确度Model SummaryModel Summary71.575a.546.729Step1-2 LoglikelihoodCox & SnellR SquareNagelkerkeR SquareEstimation terminated at iteration number 7 becauseparameter estimates changed by less than .001.a. Cla
11、ssification TableClassification Tablea a59690.874987.589.3Observed无有糖尿病Overall PercentageStep 1无有糖尿病PercentageCorrectPredictedThe cut value is .500a. V Va ar ri ia ab bl le es s i in n t th he e E Eq qu ua at ti io on n.263.636.1711.6791.301.3744.527.085.0365.5211.0191.0891.0141.168-.699.2985.5131.0
12、19.497.277.8911.621.5528.6211.0035.0561.71414.9151.634.6825.7441.0175.1241.34719.4973.126.71419.1741.00022.7875.62392.3411.647.6706.0401.0145.1901.39619.298.606.4721.6471.1991.832.7274.6212.3121.0424.9291.02610.0981.31177.767-.914.4324.4841.034.401.172.934.017.416.0021.9671.017.4502.300-20.2074.6521
13、8.8661.000.000性别年龄学历体重指数家族史吸烟血压总胆固醇甘油三脂hdlldlConstantStep1aBS.E.WalddfSig.Exp(B)LowerUpper95.0% C.I.for EXP(B)Variable(s) entered on step 1: 性别, 年龄, 学历, 体重指数, 家族史, 吸烟, 血压, 总胆固醇, 甘油三脂, hdl, ldl.a. 逐步Logistic回归分析(1 1)向前法)向前法(forward selection)(forward selection) 开始方程中没有变量,自变量由少到多一个一个引入回归方程。按自变量对因变量的贡献
14、(P值的大小)由小到大依次挑选,变量入选的条件是其P值小于规定进入方程的P界值Enter, 缺省值 P(0.05)。(2)后退法(backward selection) 开始变量都在方程中,然后按自变量因变量的贡献(P值的大小)由大到小依次剔除,变量剔除的条件是其P值小于规定的剔除标准Remove, 缺省值 p(0.10)。 (3)逐步回归法逐步引入-剔除法(stepwise selection) 前进前进逐步引入-剔除法 是在前进法的思想下,考虑剔除变量, 因此有两个p界值Enter, Remove。 SPSS无论是条件还是非条件Logistic回归,在多变量分析时均可以采用逐步回归方法,实
15、现的方法是: 在 method后加选项: Enter:所有变量一次全部进入方程。 Forward:逐步向前法 Backward:后退法 变量移出方程所采取的检验方法: Conditional; LR; Ward(尽量不用) 调试法:P从大到小取值0.5,0.1,0.05, 一般实际用时,Enter、Remove应多次选取调整2.条件logistic回归分析 配对设计的类型:1:1、1:m、n:m (可采用分层COX模型来拟合)。 例如:某市调查三种生活因素与胃癌的关系,资料见表5。 表5 配对资料(1:1) 对子号 病例 对照 x1 x2 x3 x1 x2 x3 1 1 3 0 1 0 1 2
16、 0 3 1 1 3 0 3 0 1 2 0 2 0 10 2 2 2 0 0 0 注:X1蛋白质摄入量,取值:0,1,2,3 X2不良饮食习惯,取值:0,1,2,3 X3精神状况 ,取值:0,1,2配对Logistic回归SPSS操作步骤: Analyze-Survival-COX Regression-Time框(outcome)-Status框( Status )-Define Event: Single value 1:continue-Covariates框(x1、x2、x3)-Method = Forward Stepwise (Likelihood Ratio)-Strata框(
17、id)-Options-at last step-okCase Processing Summary1050.0%1050.0%20100.0%0.0%0.0%0.0%0.0%20100.0%EventaCensoredTotalCases availablein analysisCases with missing valuesCases with non-positivetimeCensored cases beforethe earliest event in astratumTotalCases droppedTotalNPercentDependent Variable: OUTCO
18、MEa. Omnibus Tests of Model Coefficientsa1.9207.0932.02911.9432.003Step2-2 LogLikelihood Chi-squaredfSig.Overall (score)Chi-squaredfSig.Change From Previous BlockBeginning Block Number 1. Method: Forward Stepwise (Likelihood Ratio)a. V Va ar ri ia ab bl le es s i in n t th he e E Eq qu ua at ti io on n1.727 1.249 1.9121.167 5.624.48665.0172.284 1.679 1.8521.174 9.821.366 263.620 x2x3Step2BSEWalddfSig. Exp(B) Lower Upper95.0% CI for Exp(B)Variables not in the Equationa.0371.847X1Step 2ScoredfSig.Residual Chi Square = .037 with 1 df Sig. = .847a. 在本
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 贵州省遵义市2024年九年级《道德》上册期末试题与参考答案
- 工业废气深度净化技术在环保产业的技术创新与产业转型报告
- 2025年不良资产处置市场格局创新驱动与资产处置创新报告
- 电气作业练习卷含答案
- 2025年天然气水合物(可燃冰)开采技术技术创新与研发动态预研报告
- 个人退休金投资行业深度调研及发展项目商业计划书
- 儿童游乐城行业深度调研及发展项目商业计划书
- 环保型聚氨酯泡沫保温材料行业深度调研及发展项目商业计划书
- 高速摄像机同步模块行业跨境出海项目商业计划书
- 电磁屏蔽天然橡胶电缆行业跨境出海项目商业计划书
- 湖南省建筑工程消耗量标准装饰定额
- 肺栓塞的诊断和治疗 课件
- 剑桥KET口语题库(含满分答案)
- 小学教育教学案例范文【5篇】
- 玻璃钢防腐工程合同范本
- TSG ZF001-2006《安全阀安全技术监察规程》
- 急诊科骨髓腔穿刺及输液技术
- 全等三角形练习题
- 作业多层砖混结构办公楼施工组织设计
- 湖南省长沙市雅礼教育集团2023-2024学年七年级下学期期末语文试题
- 高速铁路动车组机械设备维护与检修 课件 17.CRH380A型动车组转向架驱动装置
评论
0/150
提交评论