




已阅读5页,还剩77页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 Logistic回归模型 赵耐青复旦大学公共卫生学院 2 数据分析的背景 计量资料单因素统计分析对于两组计量资料的比较 一般采用t检验或秩和检验 对于两个变量的相关分析采用Pearson相关分析或Spearman相关分析考虑多因素的影响 对于应变量 反应变量 为计量资料 一般可以考虑应用多重线性回归模型进行多因素分析 3 数据分析的背景 单因素的分类资料统计分析 一般采用Pearson 2进行统计检验 用OddsRatio及其95 可信区间评价关联程度 考虑多因素的影响 对于反应变量为分类变量时 用线性回归模型P a bx就不合适了 应选用Logistic回归模型进行统计分析 4 Logistic回归模型 按研究设计分类非配对设计 非条件Logistic回归模型配对的病例对照 条件Logistic回归模型按反应变量分类二分类Logistic回归模型 常用 多分类无序Logistic回归模型多分类有序Logistic回归模型 5 基础知识 通过下例引入和复习相关概念例如 研究患某疾病与饮酒的关联性患病率P1 a m1P2 b m2 6 基础知识 Odds 优势 P越大 则Odds越大 P越小 则Odds越小并且0 Odds 7 基础知识 P与Odds一一对应对于两个Odds的比较 一般用它们的Ratio 并称为OddsRatio OR 其定义如下 其样本估计统计量为 8 基础知识 故比较两个率比较OR 1 OR 1 OR 1 9 二分类 Logistic回归模型 因为0 Odds 所以 ln Odds 对ln Odds 引入类似多重线性回归的表达式 10 Logistic回归模型 记 故可以写为也可以写为 11 回归系数的意义 以x1的回归系数 1为例固定其它自变量 比较x1与x1 1的ln Odds 变化 对于x1 对于x1 1 反对数变换得到 12 研究急性心肌梗塞 AMI 患病与饮酒的关系 采用横断面调查 实例1 13 实例1 饮酒的患病率和Odds分别为 不饮酒的患病率和Odds分别为 14 实例1的Logistic回归模型 患病 Y 1 的概率为x 1表示饮酒 x 0表示不饮酒回归系数 0 1是未知参数 通常用最大似然估计的方法 15 实例1 患病与未患病的概率 饮酒 x 1 患病概率和未患病概率分别为不饮酒 x 0 患病概率和未患病概率分别为 16 实例1 最大似然估计 本例的似然函数选择 0和 1使似然函数L达到最大 即最大似然估计 17 实例1 用Logistic模型进行统计分析 以上述实例资料用Stata统计软件对回归系数进行最大似然估计 得到回归系数估计为即 18 Logistic模型的单个回归系数检验 关键是如果 0 意味自变量X与Y无关联性 由于 的估计存在抽样误差 即使 0 其估计值b一般不为0 故需检验 0 H0 0H1 0 0 05检验统计量可以证明 H0 0为真时 z近似服从标准正态分布 即 z 1 96 P 0 05 拒绝H0 19 实例1 用Logistic模型进行统计分析 实例1的回归系数估计为se b 0 1780719 z b se 2 31 P 0 021 0 05拒绝H0 差异有统计学意义 可认为 0 饮酒与患AMI的关联性为OR的95 可信区间为 1 06 2 14 20 应用Logistic模型校正混杂作用 实例2 上例没有考虑吸烟情况 故将吸烟作为分层加入 资料如下 21 实例2 应用Logistic模型校正混杂作用 从分层的资料表述可知 由于吸烟的混杂作用以致饮酒与AMI患病伴随有关联 用x1 1和0分别表示饮酒和不饮酒 用x2 1和0分别表示吸烟和不吸烟 Logistic模型表示如下 22 Logistic模型的似然比检验 在多个自变量回归模型中 回归系数检验分为单个回归系数检验和多个回归系数检验 单个回归系数检验表示其它变量均在模型中的情况下 检验某个回归系数 i 0 一般用Wald检验 如实例1 多个回归系数检验要用似然比方法 likelihoodratiotest 23 Logistic模型的似然比检验 多个回归系数的检验 以实例2为例 H0 1 2 0H1 1 2不全为0 0 05H0为真时 模型为用最大似然法进行估计 其对数最大似然函数值 似然函数的最大值取对数 记为ln L0 24 Logistic模型的似然比检验 H1为真时 实例2的模型为用最大似然法进行估计 其对数最大似然函数值记为ln L1 记似然比检验统计量为2ln L 2 ln L1 ln L0 25 Logistic模型的似然比检验 可以证明 H0为真时 2ln L 近似服从 2分布 自由度为需检验的自变量个数 如在实例2中 自由度为2 如果似然比检验统计量2ln L 则拒绝H0 如果对模型中所有的自变量进行检验 则称为模型检验 如实例2 对两个自变量进行检验 故这是模型检验 26 实例2应用Logistic模型校正混杂作用 应用Stata软件进行最大似然估计 得到模型拟合的主要结果如下似然函数比为2ln L 76 32 df 2 P 0 001 因此拒绝H0 1 2 0 可以认为 1和 2不全为0 27 实例2应用Logistic模型校正混杂作用 应用Stata软件进行最大似然估计 得到回归系数估计的主要结果如下饮酒 28 多自变量Logistic模型的OR解释 在本例中 对于同为吸烟或不吸烟的对象而言 x2相对固定不变 饮酒 x1 1 的对数Odds为不饮酒 x1 0 的对数Odds为 29 多自变量Logistic模型的OR解释 则饮酒的对数OddsRatio为即 饮酒的意义 对于同为吸烟的对象或者同为不吸烟的对象 其饮酒的故称校正吸烟后OR 而前者未考虑吸烟的单因素OR称为crudeOR 30 实例2应用Logistic模型校正混杂作用 饮酒 P 1校正了吸烟因素的情况下 没有足够的证据推断饮酒与AMI患病有关联性 吸烟 P 0 001 校正了饮酒的情况下 可以认为吸烟与患AMI的关联性有统计学意义 并且可以认为吸烟者患AMI的风险更大 31 Logistic模型中的交互作用 实例3 采用病例对照设计研究吸烟和家属史与患肺癌的关联性 用x1 1 0分别表示吸烟和不吸烟 x2 1 0分别表示有无家属史 用y 1 0分别表示患肺癌和未患肺癌 32 实例3 Logistic模型的交互作用 一般而言 吸烟和家属史均是肺癌的重要相关因素 很有可能这两个因素对患肺癌有交互作用 因此采用下列含有交互作用项的Logistic模型 其中x1和x2的乘积项x1x2称为交互作用项 33 应用Logistic模型分析实例3 用Stata软件对实例3的资料拟合上述模型 得到下列结果 3 0 955825 P 0 04 差别有统计学意义 可以认为吸烟和家属史对患肺癌有交互作用 34 实例3 Logistic模型的交互作用 由于本例模型为对于无家属史 x2 0代入模型 得到由回归系数与OR的关系 得到吸烟的 P 0 001 35 实例3 Logistic模型的交互作用 由于本例模型为对于有家属史 x2 1代入模型 得到有家属史的吸烟OR为 36 实例3 Logistic模型的交互作用 H0 1 3 0H1 1 3 0 0 05 应用Stata软件可进行下列计算 当H0为真时 检验统计量 2服从自由度为1的 2分布 由于本例检验统计量 2 40 58 3 84 故拒绝H0 可以认为 1 3 0 差别有统计学意义 可以认为吸烟者患肺癌的风险更大 37 实例3 Logistic模型的交互作用 同理 为了评价家属史与肺癌的关联性 根据下列Logistic模型对于不吸烟x1 0 则上述Logistic模型为家属史的P 0 认为026 0 05 差别有统计学意义 可以认为有家属史的患者患肺癌的风险更大 38 实例3 Logistic模型的交互作用 同理 为了评价家属史与肺癌的关联性 根据下列Logistic模型对于吸烟x1 1 则上述Logistic模型为同理可用Stata软件得到相应P 0 0077 39 Logistic模型中的交互作用 实例3小结 吸烟与肺癌患病有关联性 并且对于有家属史的情况下 吸烟与肺癌患病的关联性被进一步加强 且差异有统计学意义 家属史与患肺癌有关联性 并且吸烟会导致家属史与肺癌之间的关联性进一步加强 且差异有统计学意义 40 病例对照研究与Logistic模型 在病例对照研究中 由于分组采样是按病例和对照分别采样的 病例组的人数和对照组的人数均是研究者自己决定的 病例数人与对照人数之比不是人群的比 故不能估计患病率 但可以估计OR 对于病例对照研究的资料 可以用Logistic模型评估各个因素对应变量的OR 但不能估计和预测相应的患病概率 41 Logistic模型中的交互作用 例4评价两个药治疗某疾病的疗效 资料如下 定义y 1 0分别为有效和无效 x1 1 0分别为A药和B药 x2 1 0分别为病情重和轻 42 Logistic模型中的交互作用 由于研究设计中考虑了病情重和病情轻的情况 所以应考虑病情轻重和不同药物治疗对疗效的交互作用 用Stata统计软件进行回归模型的拟合 得到下列结果 见下一张幻灯 43 Logistic模型中的交互作用 对于病情轻x2 0代入模型 得到 44 Logistic模型中的交互作用 药物因素变量x1的回归系数为 P 0 652 0 05 两个药的疗效差异无统计学意义 模型病情重x2 1代入模型 得到 45 Logistic模型中的交互作用 即 病情重时的药物变量x1的回归系数为对于在病情重的情况下 两个药的疗效是否有差异需检验 1 3 0 用Stata软件计算得 检验统计量 2 42 16 df 1 P 0 001 说明A药组 x1 1 的疗效大于B药组 x1 0 差异有统计学意义 46 实例4小结 在病情轻的情况下 两个药的疗效差异无统计学意义 在病情重的情况下 可以认为A药的疗效优于B药 即 不能简单地称A药优于B药或两个药的疗效差异无统计学意义 请注意 在有交互作用的模型中 其主效应 本例x1 解释应谨慎 47 交互作用的小结 交互作用的意义就是不同层 某因素的不同水平 另一个研究因素与应变量的之间的关联程度是不同的 在回归分析和方差分析中 经统计检验得到交互作用项有统计学意义只是统计分析的中间结果 不要简单归结为协同作用或拮抗作用 一般要做进一步分析 48 交互作用的小结 在有交互作用的Logistic模型中 对交互作用项要根据研究目的进行解释 一般应进行分层作简单效应检验 特别很可能某个层有统计学意义而另一个层没有统计学意义 主效应的解释要特别注意 要结合回归模型和变量定义进行谨慎地解释 应用交互作用模型可以比较多个OR 49 多分类无序自变量的处理 例5 用横断面调查设计 分析职业与患糖尿病的关联性 职业 用x1 1 2 3分别表示农民 工人和干部 含知识分子 用x2表示年龄 由于x1是分类无序变量 必须用亚元变量表示 50 多分类无序自变量的处理 职业变量x1直接引入Logistic模型是不合适的 因为模型中引入x1后 模型为若 1 0 导致x1越大 患病概率相对越大 若 1 0 则导致x1越大 患病概率相对越小 而x1属于无序多分类变量 x1数值大小是没有背景意义的 仅是指示作用 应引入亚元变量处理 51 多分类无序自变量的处理 亚元变量x12和x13的定义如下 相应的Logistic模型为 52 多分类无序自变量的处理 借助Stata软件用最大似然法估计回归系数得到下列结果 x12的回归系数的P 0 401 0 05 即 对于职业为工人与农民而言 其与患病之间的关联性无统计学意义 53 多分类无序自变量的处理 x13的回归系数P 0 003 0 05 说明干部与农民的职业与患糖尿病有关联 其干部与工人比较 用Stata软件检验 12 13 P 0 023 0 05 差异有统计学意义 X2的回归系数P 0 001 说明年龄与患病也有关联 其OR 1 04 54 引用亚元变量应注意的问题 在Logistic模型中 二分类变量是不区分有序和无序的 因为回归系数的正负号能处理两分类变量所对应的概率大小问题 在Logistic模型中 用亚元处理多分类自变量时 对同一个因素的一组亚元而言 必须同时引入模型或同时不引入模型 不能若干个亚元在模型中 其它亚元不在模型中 这样会导致模型的参数意义发生改变以致错误解释参数意义 55 多分类有序自变量的处理 例6 用横断面调查设计 分析肥胖与患糖尿病的关联性 职业 用x1 0 1 2分别表示体重正常 超重和肥胖 用x2表示年龄 x1是有序的分类变量 等级变量 Y 1表示患糖尿病 Y 0表示未患糖尿病 56 多分类有序自变量的处理 有序分类变量可以直接引入Logistic模型 也可以按无序分类变量方式采用亚元变量引入模型 一般视资料而决定 有序分类变量直接引入模型 体重正常x1 0 体重超重x1 1 体重超重与正常的对数OR为 57 多分类有序自变量的处理 由体重正常x1 0体重超重x1 1 体重超重与正常的对数OR为作对数反变换 得到体重超重与正常的 58 多分类有序自变量的处理 由体重超重x1 1 体重肥胖x1 2 体重肥胖与超重的对数OR为作对数反变换 得到体重肥胖与超重的 59 多分类有序自变量的处理 由此可见 如果直接将有序多分类变量引入模型 就是假定相邻两个等级的总体OR相同 并且不难验证 体重肥胖与体重正常的 综合上述 若满足相邻两个等级的总体OR相同的条件下可以直接将有序多分类变量引入模型 对于不满足这个条件 则应采用亚元变量引入模型 60 多分类有序自变量的处理 对于多分类有序自变量 可以用似然比检验的方法检验相邻两个等级的总体OR是否相同 在模型1中引入亚元变量 其定义如下 61 多分类有序自变量的处理 模型1用最大似然法得到的似然函数值为L1模型2 用最大似然法得到的似然函数值为L2显然两个模型等价意味 1 11且2 1 12似然比检验统计量为2ln L 2 ln L1 ln L2 62 多分类有序自变量的处理 H0 模型1等价于模型2H1 模型1不等价模型2 0 05H0为真时 2ln L 近似服从自由度为1 自变量的分类数 2 的 2分布 即 检验统计量 则拒绝H0 选用引入亚元的模型1 63 逐步回归分析 在多因素统计分析中 多个自变量之间存在相关性 往往相互影响 研究者希望寻找主要影响应变量Y的因素 理论上 只要把各种因素组合都试一遍 寻找变量个数最多 每个变量均有统计学意义 并且模型拟合程度最好的模型 这种模型称为最佳预测模型 这种方法称为寻找最优子集 当变量较多时很难实现 64 逐步回归 为了比较方便地找到最佳预测回归模型 一般采用逐步回归的分析策略建立拟最佳预测回归模型 逐步回归采用逐个增加最佳变量的方式或逐个减少最差的变量方式找到最佳或拟最佳回归模型 65 逐步回归 逐步回归有4种方式 前进法 最开始时 模型中无任何自变量 然后逐个引入变量进入模型 每次在未进入模型的所有变量中挑选一个变量 其P是最小且P值 每引入一个变量 重新拟合一次模型 逐步引入变量直至没有满足上述条件的变量可以引入模型为止 66 逐步回归 后退法 最开始时 把所有的变量引入模型 然后逐次把P值最大并且P 的变量剔除出模型 每次只剔除一个变量 每次剔除一个变量后重新拟合模型 按照上述剔除标准继续剔除变量 直至模型中的所有变量的P 为止 67 逐步回归 前进逐步回归法最开始时 模型中无任何自变量 然后逐个引入变量进入模型 每次在未进入模型的所有变量中挑选一个变量 其P是最小且P值 的变量 若有将其剔出模型 然后重新拟合一次模型 逐步引入变量直至没有满足上述条件的变量可以引入模型为止 68 逐步回归 后退逐步回归法最开始时 把所有的变量引入模型 然后逐次把P值最大并且P 的变量剔除出模型 每次只剔除一个变量 每次剔除一个变量后考察未在模型中的变量中是否存在P 的变量 若有重新引入模型 然后重新拟合模型 按照上述剔除标准继续剔除变量 直至模型中的所有变量的P 为止 69 实例6 逐步回归 例6 采用横断面调查 研究糖尿病与血压 血脂等因素的关系 收集变量如下 70 实例6 逐步回归 X1 1 0分别表示男和女X2表示年龄 X3表示BMIX4 1 0分别表示有家属史和无家属史X5 X6 X7分别表示总胆固醇 甘油三酯和高密度脂蛋白Y 1 0分别表示患糖尿病和未患糖尿病 先根据逐步回归的思路 人工进行逐步回归 然后用软件进行逐步回归验证 71 实例6 逐步回归 X1的P值最大并且P 0 05 故剔除X1 72 实例6 逐步回归 X6的P值最大并且P 0 05 故剔除X6 73 实例6 逐步回归 X3的P值最大并且P 0 05 故剔除X3 74 实例6 逐步回归 X7的P值最大并且 0 05 故剔除X7 75 实例6 逐步回归 所有变量的P值均 0 05 故得到最终回归模型 76 实例6 逐步回归 用Stata进行 后退法
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年国际贸易公司外贸专员招聘面试技巧与答案解析
- 2025年乡镇林业站工作人员招聘考试专业知识详解
- 2025年市场拓展经理岗位面试要点及热点问题解析及预测题
- 2025年市场营销经理中级面试攻略与常见问题解答
- 学生宿舍楼智能化管理系统建设
- 公路道路与桥梁施工协同方案
- 人防通讯系统实施方案
- 公路道路标线与标志设置方案
- 生猪排污与废弃物处理方案
- 保障性租赁住房环境设计方案
- 百师联盟2025-2026学年高三上学期开学摸底联考化学试卷
- (2025年标准)蔬菜订单收购协议书
- 茶壶课件教学课件
- 放射卫生知识培训内容描述课件
- 孟良崮战役课件
- 幼儿园物资采购应急预案(3篇)
- 卫生院医疗质量管理方案
- 2025年山东省济南中考数学试卷及标准答案
- 2025-2026学年人教版(2024)初中数学七年级上册教学计划及进度表
- 2025-2026学年冀教版(2024)小学数学三年级上册教学计划及进度表
- 医学检验职称评审答辩
评论
0/150
提交评论