同济医学院SPSSSPSSLogistic回归PPT课件.ppt_第1页
同济医学院SPSSSPSSLogistic回归PPT课件.ppt_第2页
同济医学院SPSSSPSSLogistic回归PPT课件.ppt_第3页
同济医学院SPSSSPSSLogistic回归PPT课件.ppt_第4页
同济医学院SPSSSPSSLogistic回归PPT课件.ppt_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Logistic回归 第10章非参数检验 SPSS应用 华中科技大学公共卫生学院流行病学与卫生统计学系蒋红卫jhwccc 1 内容 基本概念基本步骤基本操作基本结果解释 2 数据分析的背景 计量资料单因素统计分析对于两组计量资料的比较 一般采用t检验或秩和检验 对于两个变量的相关分析采用Pearson相关分析或Spearman相关分析考虑多因素的影响 对于应变量 反应变量 为计量资料 一般可以考虑应用多重线性回归模型进行多因素分析 3 数据分析的背景 单因素的分类资料统计分析 一般采用Pearson 2进行统计检验 用OddsRatio及其95 可信区间评价关联程度 考虑多因素的影响 对于反应变量为分类变量时 用线性回归模型P a bx就不合适了 应选用Logistic回归模型进行统计分析 4 Logistic回归模型 按研究设计分类非配对设计 非条件Logistic回归模型配对病例对照 条件Logistic回归模型按反应变量分类二分类Logistic回归模型 常用 多分类无序Logistic回归模型多分类有序Logistic回归模型 5 基础知识 通过下例引入和复习相关概念例如 研究患某疾病与饮酒的关联性患病率P1 a m1P2 b m2 6 基础知识 Odds 优势 P越大 则Odds越大 P越小 则Odds越小并且0 Odds 7 基础知识 P与Odds一一对应对于两个Odds的比较 一般用它们的Ratio 并称为OddsRatio OR 其定义如下 其样本估计统计量为 8 基础知识 故比较两个率比较OR 1 OR 1 OR 1 9 二分类 Logistic回归模型 因为0 Odds 所以 ln Odds 对ln Odds 引入类似多重线性回归的表达式 10 Logistic回归模型 记 故可以写为也可以写为 11 回归系数的意义 以x1的回归系数 1为例固定其它自变量 比较x1与x1 1的ln Odds 变化 对于x1 对于x1 1 反对数变换得到 12 多因素Logistic回归分析时 对回归系数的解释都是指在其它所有自变量固定的情况下的优势比 存在因素间交互作用时 Logistic回归系数的解释变得更为复杂 应特别小心 回归系数的意义 13 适用条件 反应变量为二分类变量或某事件的发生率 自变量与logit P 之间为线性关系 残差合计为0 且服从二项分布 各观测间相互独立 logistic回归模型应该使用最大似然法来解决方程的估计和检验问题 不应当使用以前的最小二乘法进行参数估计 14 研究急性心肌梗塞 AMI 患病与饮酒的关系 采用横断面调查 例1 15 SPSS基本操作 16 SPSS基本操作 17 SPSS基本操作 18 SPSS基本操作 19 SPSS基本操作 哑变量设置 20 哑变量设置 为了便于解释 对二项分类变量一般按0 1编码 一般以0表示阴性或较轻情况 而1表示阳性或较严重情况 如果对二项分类变量按 1与 1编码 那么结果容易造成错误的解释 分类变量必须转化 如地区对血压的影响 等级资料 当等级之间量度不一时必须转化 如正常 超重和肥胖连续资料不宜直接进入方程时 转化为等级资料或分类资料 21 SPSS哑变量设置 IndicatorSimpleDifferenceRepeated 参照分类为0 其余为1 即各分类与参照分类比较 除第一类分类外 各分类与其之前平均分类效应比较 22 2020 1 27 23 SPSS哑变量设置 Helmert与Difference相反 各水平与其之后水平的平均效应比较Deviation 除参照分类外 各水平与分类的总效应比较Polynomial正交多项式设置自动设置哑变量是有缺点的等级变量不合适 24 哑变量设置应注意的问题 参照水平最好要有实际意义 不推荐使用其他作为参照 参照水平组要有一定的频数作保证 应不少于30或50例 对有序自变量的分析 从专业出发确定 分别以哑变量和连续性变量的方式引入模型进行比较后确定 25 SPSS基本操作 26 SPSS基本操作 27 校正混杂作用 实例2 上例没有考虑吸烟情况 故将吸烟作为分层加入 资料如下 28 SPSS基本操作 同例1 29 逐步回归分析 在多因素统计分析中 多个自变量之间存在相关性 往往相互影响 研究者希望寻找主要影响应变量Y的因素 理论上 只要把各种因素组合都试一遍 寻找变量个数最多 每个变量均有统计学意义 并且模型拟合程度最好的模型 这种模型称为最佳预测模型 这种方法称为寻找最优子集 当变量较多时很难实现 30 逐步回归 为了比较方便地找到最佳预测回归模型 一般采用逐步回归的分析策略建立拟最佳预测回归模型 逐步回归采用逐个增加最佳变量的方式或逐个减少最差的变量方式找到最佳或拟最佳回归模型 31 逐步Logistic回归 无论是条件还是非条件Logistic回归 在多变量分析时均可以采用逐步回归方法 实现的方法是 所有变量一次全部进入方程 向前法后退法 32 逐步回归 前进法 最开始时 模型中无任何自变量 然后逐个引入变量进入模型 每次在未进入模型的所有变量中挑选一个变量 其P是最小且P值 每引入一个变量 重新拟合一次模型 逐步引入变量直至没有满足上述条件的变量可以引入模型为止 33 逐步回归 后退法 最开始时 把所有的变量引入模型 然后逐次把P值最大并且P 的变量剔除出模型 每次只剔除一个变量 每次剔除一个变量后重新拟合模型 按照上述剔除标准继续剔除变量 直至模型中的所有变量的P 为止 34 逐步Logistic回归 Forward Conditional 较可靠 Forward LRForward Wald 应当慎用 Backward Conditional 较可靠 Backward LRBackward Wald 应当慎用 35 例3 例3探讨冠心病发生的有关危险因素 x1 年龄 x2 高血压史 x3 家庭史 x4 吸烟 x5 高血脂史 x6 脂肪摄入 x7 BMI x8 A型性格 y 发生与否 36 逐步选择法 37 条件logistic回归 匹配设计 matcheddesign 是在设计阶段控制混杂因素的一种方法 当得到一名研究病例后 选择一名或多名非病例作为对照 选择相应对照的条件 某些需要控制的混杂因素与该病例之间相同或相似 从而形成一个匹配的对子 一个匹配的对子1 1匹配 当病例很罕见时 常采用1个病例 多个对照 1 m匹配 m n匹配 38 条件logistic回归 对于这类匹配设计资料 如果采用以上介绍的非条件logistic回归方法 将会降低检验效能 而应当采用条件logistic回归模型 conditionallogisticregressionmodel 又称配对logistic回归模型进行分析 39 条件logistic回归 SPSS中的拟合方法 用变量差值拟合 只适用于1 1配对的情况 用Multinomiallogistic过程实现 用分层Cox模型拟合 适用范围非常广第二种方法 限于SPSS自身的问题 只能得到近似解 在某些情况 特别是m n下 会导致错误 故在此不作介绍建议使用SAS等其它统计软件来实现条件Logistic回归 40 Logistic回归模型小结 对于应变量为二分类 可以用Logistic回归模型进行统计分析 在Logistic模型中 自变量可以是二分类的 也可以是连续型变量和有序多分类变量 但无序多分类变量应用一组哑变量取代 逐步回归是寻找主要影响因素的回归策略 没有进入模型的变量不能作推断 41 Logistic回归模型小结 模型中出现有交互作用 不是统计分析的最终结果 只是中间结果 一般要根据研究目的进行简单效应分析 条件Logistic模型只适用于配对病例对照研究 其回归系数解释与非条件的Logistic模型相同 42 Logistic回归模型小结 病例对照研究的资料可以用Logistic回归模型分析暴露因素与应变量之间的关联性 但不可以直接应用Logistic模型进行预测或估计患病率 Logistic回归模型在拟合的过程

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论