logisic回归分析PPT课件.pptx_第1页
logisic回归分析PPT课件.pptx_第2页
logisic回归分析PPT课件.pptx_第3页
logisic回归分析PPT课件.pptx_第4页
logisic回归分析PPT课件.pptx_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Logistic回归分析 1 一 基本概念和原理 Logistic回归模型是一种概率模型 适合于病例 对照研究 随访研究和横断面研究 且结果发生的变量取值必须是二分类的或多项分类 可用影响结果变量发生的因素为自变量与因变量 建立回归方程 Logistic回归是研究观察结果 y 为分类变量与多个影响因素 X 之间回归关系的多变量统计方法 2 设资料中有一个因变量y p个自变量x1 x2 xp 对每个实验对象共有n次观测结果 可将原始资料列成表1形式 Logistic回归模型的数据结构 3 表1Logistic回归模型的数据结构实验对象yX1X2X3 XP1y1a11a12a13 a1p2y2a21a22a23 a2p3y3a31a32a33 a3p nynan1an2an3 anp其中 y取值是二值或多项分类 4 Logistic回归分类 按照反应变量类型二分类反应变量的logistic回归多分类有序反应变量的logistic回归多分类无序反应变量的logistic回归按照研究设计类型非条件logistic回归 研究对象未经匹配 条件logistic回归 研究对象经过匹配 5 在m个自变量的作用下阳性结果发生的概率记作 Logistic回归模型 它与自变量x1 x2 xp之间的Logistic回归模型为 6 模型参数的意义 常数项表示暴露剂量为0时个体发病与不发病概率之比的自然对数 回归系数表示自变量改变一个单位时logitP的改变量 7 流行病学衡量危险因素作用大小的比数比例指标 计算公式为 优势比OR oddsratio 8 与logisticP的关系 9 10 例1为了探讨糖尿病与血压 血脂等因素的关系 某研究者对56例糖尿病病人和65例对照者进行病例 对照研究 收集了性别 年龄 学历 体重指数 家族史 吸烟 血压 总胆固醇 甘油三酯 高密度脂蛋白 低密度脂蛋白11个因素的资料 11 12 表8糖尿病影响因素赋值说明 13 多因素的logistic回归 14 Or值 1危险 在其他因素保持不变的情况下 年龄增加1岁 糖尿病发生的优势增加至1 089 or值 倍 在其他因素保持不变的情况下 hdl增加1个单位 糖尿病发生的优势减少至0 401 or值 倍 15 Logistic回归模型的拟合优度检验 拟合优度检验是通过回归方程预测值与实际预测值的吻合程度 说明回归方程的拟合优度Hosmer Lemeshow检验按预测概率大小 将所观测的样本10等分 然后根据每一组因变量实际观测值与回归观测值 计算卡方拟合统计量 0 05拟合优度比较好 16 2020 1 3 17 Cox SnellR2系数该系数与线性回归分析中的决定系数R2有相似之处 也是回归方程对因变量变异解释程度的反映 L0为截距方程的似然函数值 L为当前拟合方程的似然函数值 NagelkerkeR2系数NagelkerkeR2系数是对Cox SnellR2的修正 取值范围在0 1之间 该系数越接近于1 说明方程的拟合优度越高 18 Logistic回归模型的预测准确度 越小越好 19 20 逐步Logistic回归分析 1 向前法 forwardselection 开始方程中没有变量 自变量由少到多一个一个引入回归方程 按自变量对因变量的贡献 P值的大小 由小到大依次挑选 变量入选的条件是其P值小于规定进入方程的P界值Enter 缺省值P 0 05 21 2 后退法 backwardselection 开始变量都在方程中 然后按自变量因变量的贡献 P值的大小 由大到小依次剔除 变量剔除的条件是其P值大于规定的剔除标准Remove 缺省值p 0 10 22 3 逐步回归法逐步引入 剔除法 stepwiseselection 前进逐步引入 剔除法是在前进法的思想下 考虑剔除变量 因此有两个p界值Enter Remove 23 无论是条件还是非条件Logistic回归 在多变量分析时均可以采用逐步回归方法 实现的方法是 在model后加选项 selection forward backward或stepwise再给出SLE SLS的界值 调试法 P从大到小取值0 5 0 1 0 05 一般实际用时 SLE SLS应多次选取调整 24 二分类Logistic回归 25 26 二分类Logistic回归 多重比较的方法 Indicator 第一类或最后一类为参照类 每一类与参照类比较Simple 除参照类外 每一类与参照类比较Difference 除第一类外 每一类与其前各类的平均效应比较 有称反HelmertHelmert 除最后一类外 每一类与其后各类的平均Repeated 相邻两类比较 除第一类外 每类与其前一比较Polynominal 正交多名义分类比较 该法假设每一分类都有相等的空间 仅适于数值变量Deviation 除参照类外 每一类与总效应比较 27 28 29 解释 当bi 0时 对应的优势比 oddsratio 记为ORi ORi exp bi 1 说明该因素是危险因素 当bi 0时 对应的优势比ORi exp bi 1 说明该因素是保护因素 本研究中年龄 体重指数 家族史 吸烟 血压为糖尿病发生的危险因素 高密度脂蛋白为糖尿病发生的保护因素 在其他因素保持不变的情况下 年龄每增加一岁 糖尿病发生的优势增至1 088倍 在其他因素保持不变的条件下 体重指数在24 26之间者与小于24相比 糖尿病发生的优势增至7 830倍 体重指数在26以上者与小于24相比 糖尿病发生的优势增至22 29倍 课后应用思考题 为了分析影响医院抢救急性心肌梗死 AMI 患者能否成功的因素 某医院收集了5年中所有的AMI患者的抢救病史 有关因素很多 由于篇幅有限 本例仅列出3个 共200例见下表 其中P 0表示抢救成功 P 1表示抢救未成功而死亡 X1 1表示抢救前已发生休克 X1 0表示抢救前未发生休克 X2 1表示抢救前已发生心衰 X2 0表示抢救前未发生心衰 X3 1表示患者从开始AMI症状到抢救时已超过12小时 X3 0表示患者从开始AMI症状到抢救时未超过12小时 请问最好采用哪种分析方法 为什么 分析结果有哪些 30 AMI患者的抢救危险因素资料 31 练习 探讨肾细胞癌转移有关的因素研究中 收集了26例行根治性肾切除术患者的肾癌标本资料 教材表18 19 有关变量说明如下 试进行logistic回归分析 X1 确诊时患者的年龄 岁 X2 肾细胞癌血管内皮生长因子 其阳性表达由低到高共3个等级 分别赋值1 2 3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论