Logistic 回归模型.ppt

上传人：A*** IP属地：广东上传时间：2020-04-09 格式：PPT 页数：82 大小：1.56MB 积分：18 举报 版权申诉

已阅读5页，还剩77页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1 Logistic回归模型赵耐青复旦大学公共卫生学院 2 数据分析的背景计量资料单因素统计分析对于两组计量资料的比较一般采用t检验或秩和检验对于两个变量的相关分析采用Pearson相关分析或Spearman相关分析考虑多因素的影响对于应变量反应变量为计量资料一般可以考虑应用多重线性回归模型进行多因素分析 3 数据分析的背景单因素的分类资料统计分析一般采用Pearson 2进行统计检验用OddsRatio及其95 可信区间评价关联程度考虑多因素的影响对于反应变量为分类变量时用线性回归模型P a bx就不合适了应选用Logistic回归模型进行统计分析 4 Logistic回归模型按研究设计分类非配对设计非条件Logistic回归模型配对的病例对照条件Logistic回归模型按反应变量分类二分类Logistic回归模型常用多分类无序Logistic回归模型多分类有序Logistic回归模型 5 基础知识通过下例引入和复习相关概念例如研究患某疾病与饮酒的关联性患病率P1 a m1P2 b m2 6 基础知识 Odds 优势 P越大则Odds越大 P越小则Odds越小并且0 Odds 7 基础知识 P与Odds一一对应对于两个Odds的比较一般用它们的Ratio 并称为OddsRatio OR 其定义如下其样本估计统计量为 8 基础知识故比较两个率比较OR 1 OR 1 OR 1 9 二分类 Logistic回归模型因为0 Odds 所以 ln Odds 对ln Odds 引入类似多重线性回归的表达式 10 Logistic回归模型记故可以写为也可以写为 11 回归系数的意义以x1的回归系数 1为例固定其它自变量比较x1与x1 1的ln Odds 变化对于x1 对于x1 1 反对数变换得到 12 研究急性心肌梗塞 AMI 患病与饮酒的关系采用横断面调查实例1 13 实例1 饮酒的患病率和Odds分别为不饮酒的患病率和Odds分别为 14 实例1的Logistic回归模型患病 Y 1 的概率为x 1表示饮酒 x 0表示不饮酒回归系数 0 1是未知参数通常用最大似然估计的方法 15 实例1 患病与未患病的概率饮酒 x 1 患病概率和未患病概率分别为不饮酒 x 0 患病概率和未患病概率分别为 16 实例1 最大似然估计本例的似然函数选择 0和 1使似然函数L达到最大即最大似然估计 17 实例1 用Logistic模型进行统计分析以上述实例资料用Stata统计软件对回归系数进行最大似然估计得到回归系数估计为即 18 Logistic模型的单个回归系数检验关键是如果 0 意味自变量X与Y无关联性由于的估计存在抽样误差即使 0 其估计值b一般不为0 故需检验 0 H0 0H1 0 0 05检验统计量可以证明 H0 0为真时 z近似服从标准正态分布即 z 1 96 P 0 05 拒绝H0 19 实例1 用Logistic模型进行统计分析实例1的回归系数估计为se b 0 1780719 z b se 2 31 P 0 021 0 05拒绝H0 差异有统计学意义可认为 0 饮酒与患AMI的关联性为OR的95 可信区间为 1 06 2 14 20 应用Logistic模型校正混杂作用实例2 上例没有考虑吸烟情况故将吸烟作为分层加入资料如下 21 实例2 应用Logistic模型校正混杂作用从分层的资料表述可知由于吸烟的混杂作用以致饮酒与AMI患病伴随有关联用x1 1和0分别表示饮酒和不饮酒用x2 1和0分别表示吸烟和不吸烟 Logistic模型表示如下 22 Logistic模型的似然比检验在多个自变量回归模型中回归系数检验分为单个回归系数检验和多个回归系数检验单个回归系数检验表示其它变量均在模型中的情况下检验某个回归系数 i 0 一般用Wald检验如实例1 多个回归系数检验要用似然比方法 likelihoodratiotest 23 Logistic模型的似然比检验多个回归系数的检验以实例2为例 H0 1 2 0H1 1 2不全为0 0 05H0为真时模型为用最大似然法进行估计其对数最大似然函数值似然函数的最大值取对数记为ln L0 24 Logistic模型的似然比检验 H1为真时实例2的模型为用最大似然法进行估计其对数最大似然函数值记为ln L1 记似然比检验统计量为2ln L 2 ln L1 ln L0 25 Logistic模型的似然比检验可以证明 H0为真时 2ln L 近似服从 2分布自由度为需检验的自变量个数如在实例2中自由度为2 如果似然比检验统计量2ln L 则拒绝H0 如果对模型中所有的自变量进行检验则称为模型检验如实例2 对两个自变量进行检验故这是模型检验 26 实例2应用Logistic模型校正混杂作用应用Stata软件进行最大似然估计得到模型拟合的主要结果如下似然函数比为2ln L 76 32 df 2 P 0 001 因此拒绝H0 1 2 0 可以认为 1和 2不全为0 27 实例2应用Logistic模型校正混杂作用应用Stata软件进行最大似然估计得到回归系数估计的主要结果如下饮酒 28 多自变量Logistic模型的OR解释在本例中对于同为吸烟或不吸烟的对象而言 x2相对固定不变饮酒 x1 1 的对数Odds为不饮酒 x1 0 的对数Odds为 29 多自变量Logistic模型的OR解释则饮酒的对数OddsRatio为即饮酒的意义对于同为吸烟的对象或者同为不吸烟的对象其饮酒的故称校正吸烟后OR 而前者未考虑吸烟的单因素OR称为crudeOR 30 实例2应用Logistic模型校正混杂作用饮酒 P 1校正了吸烟因素的情况下没有足够的证据推断饮酒与AMI患病有关联性吸烟 P 0 001 校正了饮酒的情况下可以认为吸烟与患AMI的关联性有统计学意义并且可以认为吸烟者患AMI的风险更大 31 Logistic模型中的交互作用实例3 采用病例对照设计研究吸烟和家属史与患肺癌的关联性用x1 1 0分别表示吸烟和不吸烟 x2 1 0分别表示有无家属史用y 1 0分别表示患肺癌和未患肺癌 32 实例3 Logistic模型的交互作用一般而言吸烟和家属史均是肺癌的重要相关因素很有可能这两个因素对患肺癌有交互作用因此采用下列含有交互作用项的Logistic模型其中x1和x2的乘积项x1x2称为交互作用项 33 应用Logistic模型分析实例3 用Stata软件对实例3的资料拟合上述模型得到下列结果 3 0 955825 P 0 04 差别有统计学意义可以认为吸烟和家属史对患肺癌有交互作用 34 实例3 Logistic模型的交互作用由于本例模型为对于无家属史 x2 0代入模型得到由回归系数与OR的关系得到吸烟的 P 0 001 35 实例3 Logistic模型的交互作用由于本例模型为对于有家属史 x2 1代入模型得到有家属史的吸烟OR为 36 实例3 Logistic模型的交互作用 H0 1 3 0H1 1 3 0 0 05 应用Stata软件可进行下列计算当H0为真时检验统计量 2服从自由度为1的 2分布由于本例检验统计量 2 40 58 3 84 故拒绝H0 可以认为 1 3 0 差别有统计学意义可以认为吸烟者患肺癌的风险更大 37 实例3 Logistic模型的交互作用同理为了评价家属史与肺癌的关联性根据下列Logistic模型对于不吸烟x1 0 则上述Logistic模型为家属史的P 0 认为026 0 05 差别有统计学意义可以认为有家属史的患者患肺癌的风险更大 38 实例3 Logistic模型的交互作用同理为了评价家属史与肺癌的关联性根据下列Logistic模型对于吸烟x1 1 则上述Logistic模型为同理可用Stata软件得到相应P 0 0077 39 Logistic模型中的交互作用实例3小结吸烟与肺癌患病有关联性并且对于有家属史的情况下吸烟与肺癌患病的关联性被进一步加强且差异有统计学意义家属史与患肺癌有关联性并且吸烟会导致家属史与肺癌之间的关联性进一步加强且差异有统计学意义 40 病例对照研究与Logistic模型在病例对照研究中由于分组采样是按病例和对照分别采样的病例组的人数和对照组的人数均是研究者自己决定的病例数人与对照人数之比不是人群的比故不能估计患病率但可以估计OR 对于病例对照研究的资料可以用Logistic模型评估各个因素对应变量的OR 但不能估计和预测相应的患病概率 41 Logistic模型中的交互作用例4评价两个药治疗某疾病的疗效资料如下定义y 1 0分别为有效和无效 x1 1 0分别为A药和B药 x2 1 0分别为病情重和轻 42 Logistic模型中的交互作用由于研究设计中考虑了病情重和病情轻的情况所以应考虑病情轻重和不同药物治疗对疗效的交互作用用Stata统计软件进行回归模型的拟合得到下列结果见下一张幻灯 43 Logistic模型中的交互作用对于病情轻x2 0代入模型得到 44 Logistic模型中的交互作用药物因素变量x1的回归系数为 P 0 652 0 05 两个药的疗效差异无统计学意义模型病情重x2 1代入模型得到 45 Logistic模型中的交互作用即病情重时的药物变量x1的回归系数为对于在病情重的情况下两个药的疗效是否有差异需检验 1 3 0 用Stata软件计算得检验统计量 2 42 16 df 1 P 0 001 说明A药组 x1 1 的疗效大于B药组 x1 0 差异有统计学意义 46 实例4小结在病情轻的情况下两个药的疗效差异无统计学意义在病情重的情况下可以认为A药的疗效优于B药即不能简单地称A药优于B药或两个药的疗效差异无统计学意义请注意在有交互作用的模型中其主效应本例x1 解释应谨慎 47 交互作用的小结交互作用的意义就是不同层某因素的不同水平另一个研究因素与应变量的之间的关联程度是不同的在回归分析和方差分析中经统计检验得到交互作用项有统计学意义只是统计分析的中间结果不要简单归结为协同作用或拮抗作用一般要做进一步分析 48 交互作用的小结在有交互作用的Logistic模型中对交互作用项要根据研究目的进行解释一般应进行分层作简单效应检验特别很可能某个层有统计学意义而另一个层没有统计学意义主效应的解释要特别注意要结合回归模型和变量定义进行谨慎地解释应用交互作用模型可以比较多个OR 49 多分类无序自变量的处理例5 用横断面调查设计分析职业与患糖尿病的关联性职业用x1 1 2 3分别表示农民工人和干部含知识分子用x2表示年龄由于x1是分类无序变量必须用亚元变量表示 50 多分类无序自变量的处理职业变量x1直接引入Logistic模型是不合适的因为模型中引入x1后模型为若 1 0 导致x1越大患病概率相对越大若 1 0 则导致x1越大患病概率相对越小而x1属于无序多分类变量 x1数值大小是没有背景意义的仅是指示作用应引入亚元变量处理 51 多分类无序自变量的处理亚元变量x12和x13的定义如下相应的Logistic模型为 52 多分类无序自变量的处理借助Stata软件用最大似然法估计回归系数得到下列结果 x12的回归系数的P 0 401 0 05 即对于职业为工人与农民而言其与患病之间的关联性无统计学意义 53 多分类无序自变量的处理 x13的回归系数P 0 003 0 05 说明干部与农民的职业与患糖尿病有关联其干部与工人比较用Stata软件检验 12 13 P 0 023 0 05 差异有统计学意义 X2的回归系数P 0 001 说明年龄与患病也有关联其OR 1 04 54 引用亚元变量应注意的问题在Logistic模型中二分类变量是不区分有序和无序的因为回归系数的正负号能处理两分类变量所对应的概率大小问题在Logistic模型中用亚元处理多分类自变量时对同一个因素的一组亚元而言必须同时引入模型或同时不引入模型不能若干个亚元在模型中其它亚元不在模型中这样会导致模型的参数意义发生改变以致错误解释参数意义 55 多分类有序自变量的处理例6 用横断面调查设计分析肥胖与患糖尿病的关联性职业用x1 0 1 2分别表示体重正常超重和肥胖用x2表示年龄 x1是有序的分类变量等级变量 Y 1表示患糖尿病 Y 0表示未患糖尿病 56 多分类有序自变量的处理有序分类变量可以直接引入Logistic模型也可以按无序分类变量方式采用亚元变量引入模型一般视资料而决定有序分类变量直接引入模型体重正常x1 0 体重超重x1 1 体重超重与正常的对数OR为 57 多分类有序自变量的处理由体重正常x1 0体重超重x1 1 体重超重与正常的对数OR为作对数反变换得到体重超重与正常的 58 多分类有序自变量的处理由体重超重x1 1 体重肥胖x1 2 体重肥胖与超重的对数OR为作对数反变换得到体重肥胖与超重的 59 多分类有序自变量的处理由此可见如果直接将有序多分类变量引入模型就是假定相邻两个等级的总体OR相同并且不难验证体重肥胖与体重正常的综合上述若满足相邻两个等级的总体OR相同的条件下可以直接将有序多分类变量引入模型对于不满足这个条件则应采用亚元变量引入模型 60 多分类有序自变量的处理对于多分类有序自变量可以用似然比检验的方法检验相邻两个等级的总体OR是否相同在模型1中引入亚元变量其定义如下 61 多分类有序自变量的处理模型1用最大似然法得到的似然函数值为L1模型2 用最大似然法得到的似然函数值为L2显然两个模型等价意味 1 11且2 1 12似然比检验统计量为2ln L 2 ln L1 ln L2 62 多分类有序自变量的处理 H0 模型1等价于模型2H1 模型1不等价模型2 0 05H0为真时 2ln L 近似服从自由度为1 自变量的分类数 2 的 2分布即检验统计量则拒绝H0 选用引入亚元的模型1 63 逐步回归分析在多因素统计分析中多个自变量之间存在相关性往往相互影响研究者希望寻找主要影响应变量Y的因素理论上只要把各种因素组合都试一遍寻找变量个数最多每个变量均有统计学意义并且模型拟合程度最好的模型这种模型称为最佳预测模型这种方法称为寻找最优子集当变量较多时很难实现 64 逐步回归为了比较方便地找到最佳预测回归模型一般采用逐步回归的分析策略建立拟最佳预测回归模型逐步回归采用逐个增加最佳变量的方式或逐个减少最差的变量方式找到最佳或拟最佳回归模型 65 逐步回归逐步回归有4种方式前进法最开始时模型中无任何自变量然后逐个引入变量进入模型每次在未进入模型的所有变量中挑选一个变量其P是最小且P值每引入一个变量重新拟合一次模型逐步引入变量直至没有满足上述条件的变量可以引入模型为止 66 逐步回归后退法最开始时把所有的变量引入模型然后逐次把P值最大并且P 的变量剔除出模型每次只剔除一个变量每次剔除一个变量后重新拟合模型按照上述剔除标准继续剔除变量直至模型中的所有变量的P 为止 67 逐步回归前进逐步回归法最开始时模型中无任何自变量然后逐个引入变量进入模型每次在未进入模型的所有变量中挑选一个变量其P是最小且P值的变量若有将其剔出模型然后重新拟合一次模型逐步引入变量直至没有满足上述条件的变量可以引入模型为止 68 逐步回归后退逐步回归法最开始时把所有的变量引入模型然后逐次把P值最大并且P 的变量剔除出模型每次只剔除一个变量每次剔除一个变量后考察未在模型中的变量中是否存在P 的变量若有重新引入模型然后重新拟合模型按照上述剔除标准继续剔除变量直至模型中的所有变量的P 为止 69 实例6 逐步回归例6 采用横断面调查研究糖尿病与血压血脂等因素的关系收集变量如下 70 实例6 逐步回归 X1 1 0分别表示男和女X2表示年龄 X3表示BMIX4 1 0分别表示有家属史和无家属史X5 X6 X7分别表示总胆固醇甘油三酯和高密度脂蛋白Y 1 0分别表示患糖尿病和未患糖尿病先根据逐步回归的思路人工进行逐步回归然后用软件进行逐步回归验证 71 实例6 逐步回归 X1的P值最大并且P 0 05 故剔除X1 72 实例6 逐步回归 X6的P值最大并且P 0 05 故剔除X6 73 实例6 逐步回归 X3的P值最大并且P 0 05 故剔除X3 74 实例6 逐步回归 X7的P值最大并且 0 05 故剔除X7 75 实例6 逐步回归所有变量的P值均 0 05 故得到最终回归模型 76 实例6 逐步回归用Stata进行后退法

人人文库> 全部分类> 教育资料 > 幼儿教育

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

Logistic 回归模型.ppt

文档简介

温馨提示

最新文档

评论

Logistic 回归模型.ppt

文档简介

温馨提示

最新文档

评论

相关文档