多元Logistic_回归分析解析.ppt_第1页
多元Logistic_回归分析解析.ppt_第2页
多元Logistic_回归分析解析.ppt_第3页
多元Logistic_回归分析解析.ppt_第4页
多元Logistic_回归分析解析.ppt_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 多元统计分析方法 TheMethodsofMultivariateStatisticalAnalysis 2 多元Logistic回归分析 MultipleLogisticRegressionAnalysis 第七章 3 主要内容 Logistic回归分析的基本概念Logistic回归分析的数学模型Logistic回归模型的建立和检验Logistic回归系数的解释配对病例 对照数据的logistic回归分析 4 回归分析的分类 连续型因变量 y 线性回归分析 多个因变量 y1 y2 yk 分类型因变量 y Logistic回归分析 时间序列因变量 t 时间序列分析 生存时间因变量 t 生存风险回归分析 路径分析结构方程模型分析 一个因变量y 回忆 5 医学研究中经常遇到分类型变量 二分类变量 生存与死亡有病与无病有效与无效感染与未感染多分类有序变量 疾病程度 轻度 中度 重度 治愈效果 治愈 显效 好转 无效 多分类无序变量 手术方法 A B C 就诊医院 甲 乙 丙 丁 6 医学研究者经常关心的问题 哪些因素导致了人群中有的人患胃癌而有的人不患胃癌 哪些因素导致了手术后有的人感染 而有的人不感染 哪些因素导致了某种治疗方法出现治愈 显效 好转 无效等不同的效果 是回归分析问题 Y f x 7 如何解决这样的问题 不存在 8 1 什么是Logistic回归分析 研究因变量y取某个值的概率变量p与自变量x的依存关系 p p y 1 x f x 第一节Logistic回归分析的概念 9 2 Logistic回归分析的分类 按数据的类型 非条件logistic回归分析 成组数据 条件logistic回归分析 配对病例 对照数据 按因变量取值个数 二值logistic回归分析多值logistic回归分析按自变量个数 一元logistic回归分析多元logistic回归分析 Logistic回归分析 10 第二节Logistic回归分析的数学模型 令y是1 0变量 x是任意变量 p p y 1 x 那么 二值变量y关于变量x的一元logistic回归模型是 其中 和 是未知参数或待估计的回归系数 该模型描述了y取某个值 这里y 1 的概率p与自变量x之间的关系 1 二值一元logistic回归模型 11 令y是1 0变量 x1 x2 xk是任意k个变量 p p y 1 x1 x2 xk 那么 变量y关于变量x1 x2 xk的k元logistic回归模型是 2 二值多元logistic回归模型 注意 对于二值Logistic回归模型 Y 0的模型是 p p y 0 x1 xk 1 p y 1 x1 xk 12 Logistic回归模型的另外一种形式 它给出变量z logit p 关于x的线性函数 13 3 多值logistic回归模型 例如 当y取值1 2 3时 logistic回归模型是 P1 p y 1 P1P2 p y 2 P2 P1P3 p y 3 1 P2 累积概率模型 独立概率模型 14 1 估计参数 最大似然法2 检验参数的显著性H0 j 0vsH1 j 03 检验模型的显著性H0 1 k 0vsH1 j 04 解释参数的实际意义 第三节Logistic回归分析方法步骤 15 例1 自变量是二值分类型变量某医院为了研究导致手术切口感染的原因 收集了295例手术者情况 其中 手术时间小于或等于5小时的有242例 感染者13例 手术时间大于5小时的有53例 感染者7例 试建立手术切口感染 y 关于手术时间 x 的logistic回归模型 46 53 16 dataeg7 1a inputyxwt cards 1171013014600229 run proclogisticdescending modely x weightwt run SAS程序 17 TheLOGISTICProcedureDataSet WORK EG7 1AResponseVariable YResponseLevels 2NumberofObservations 4WeightVariable WTSumofWeights 295LinkFunction LogitResponseProfileOrderedTotalValueYCountWeight11220 00000202275 00000 18 ModelFittingInformationandTestingGlobalNullHypothesisBETA 0InterceptInterceptandCriterionOnlyCovariatesChi SquareforCovariatesAIC148 262146 686 SC147 648145 458 2LOGL146 262142 6863 576with1DF p 0 0586 Score 4 224with1DF p 0 0399 AnalysisofMaximumLikelihoodEstimatesParameterStandardWaldPr StandardizedOddsVariableDFEstimateErrorChi SquareChi SquareEstimateRatioINTERCPT1 2 86880 2851101 24080 0001 X10 98600 49593 95420 04682 0695692 681 19 结果 20 第四节Logistic回归模型系数的解释 回忆流行病学研究中两个重要概念 在logistic回归模型 令x 0和x 1 得到 21 一元logistic回归模型系数 的意义解释 1 x 1 0变量 如果x 1 0 则eb OR近似表示在x 1条件下的发病率与在x 0条件下发病率之比 相对危险度 或者说 x 1条件下的发病可能性比x 1条件下多或少 OR 1 100 22 Logistic回归模型 从b 0 986 得到RR OR eb 2 681 所以 手术时间大于5小时的感染率是手术时间小于或等于5小时的感染率的2 681倍 即感染的可能性增加了186 1 例如 手术感染问题 23 一元logistic回归模型系数 的意义解释 2 如果x是连续变量对于任意x1和x2 x1x2 如果x是连续变量 则OR eb近似表示在x的相邻两个单位上的相对危险度 即x每增加一个单位 相对危险增加或减少 OR 1 100 24 例2 自变量是连续型数值变量为了分析新生儿出生时体重 birthwt 与支气管肺的发育不良病 BPD 的关系 调查了223名新生儿 调查的数据列在下表中 25 dataeg7 2 dobirthwt 750 1150 1550 dobpd 1 0 inputwt output end end cards 49191862966run proclogisticdata eg2descending modelbpd birthwt weightwt run SAS程序 26 ResponseProfileOrderedValueBPDCount117620147ModelFittingInformationandTestingGlobalNullHypothesisBETA 0InterceptInterceptandCriterionOnlyCovariatesChi SquareforCovariatesAIC288 140229 166 SC291 547235 980 2LOGL286 140225 16660 974with1DF p 0 0001 Score 56 008with1DF p 0 0001 AnalysisofMaximumLikelihoodEstimatesParameterStandardWaldPr StandardizedOddsVariableDFEstimateErrorChi SquareChi SquareEstimateRatioINTERCPT13 71800 638733 88530 0001 BIRTHWT1 0 003970 00058845 60920 0001 0 7024800 996 SAS输出结果 27 1 因变量bpd对自变量birthwt的logistic回归模型是 2 自变量birthwt的回归系数在统计意义上不等于0 p 0 0001 因此 OR 0 996在统计意义上不等于1 OR 0 996说明新生儿出生体重每增加一个单位 g 患BPD病的机会就会减少大约0 4 即患bpd病的概率随新生儿出生体重的增加而下降 3 根据上述回归模型可以预测新生儿出生时可能患BPD病的概率 28 一元logistic回归模型系数 的意义解释 3 如果x是分类变量如果x是分类型变量 特别是名义型变量 则需要将x转化为哑变量 再进行Logistic回归分析 如果x是g个分类的分类型变量 则要将x的g 1个哑变量放入模型 每一个哑变量的OR值表示该组与参照组的相对危险度 29 什么是哑变量 一个含有g个类的分类型变量可以构造g个哑变量 30 如何用SAS程序构造哑变量 datad2 setd1 arraya 3 studentteacherworker doi 1to3 a i x1 i end run datad2 setd1 arraya 3 studentteacherworker doi 1to3 ifx1 ithena i 1 elsea i 0 end run 31 如何对哑变量进行分析 1 将g 1个哑变量放入模型进行分析 留一个哑变量作为参照变量 2 每一个哑变量的OR值表示该哑变量组与参照变量组的相对危险度 32 例3 自变量是分类型变量为了了解冠心病与种族的关系 某研究所调查了100个样本 数据列在下表中 试估计各种族间患冠心病的相对危险度 设y 1表示患冠心病 y 0表示未患冠心病 令x 1表示黑人 x 2表示白人 x 3表示其它种族 将变量x转化为哑变量 变量名是 black white和other 33 dataeg7 3 doy 1 0 dox 1to3 inputwt output end end cards 20525102020run dataeg7 3 seteg7 3 arraya 3 blackwhiteother doi 1to3 a i x i end run proclogisticdescending modely blackother weightwt run White作为参照组 34 TheLOGISTICProcedureResponseProfileOrderedTotalValueYCountWeight11350 00000020350 000000ModelFittingInformationandTestingGlobalNullHypothesisBETA 0WithoutWithCriterionCovariatesCovariatesChi SquareforCovariatesAIC138 629131 038 SC138 629130 413 2LOGL138 629125 03813 592with3DF p 0 0035 Score 12 889with3DF p 0 0049 AnalysisofMaximumLikelihoodEstimatesParameterStandardWaldPr StandardizedOddsVariableDFEstimateErrorChi SquareChi SquareEstimateRatioINTERCPT1 1 38630 50007 68740 0056 BLACK12 07940 632510 81030 00102 3495368 000OTHER11 60940 58317 61860 00581 9741845 000 35 模型总体检验结果说明该模型具有统计意义 p 0 0035 参数检验说明 黑人与白人患冠心病的相对危险度是 OR 8 p 0 0010 说明黑人患冠心病的几率大约是白人的8倍 参数检验说明 其他种族人与白人患冠心病的相对危险度是 OR 5 p 0 0058 说明其他种族人患冠心病的几率大约是白人的5倍 结论 36 一元logistic回归模型系数 的意义解释 如果x是分类型变量 g个分类 则要将x的g 1个哑变量放入模型 每一个哑变量的OR值表示该组与参照组的相对危险度 如果x 1 0 则eb OR近似表示在x 1条件下的发病率与在x 0条件下发病率之比 相对危险度 或者说 x 1条件下的发病可能性比x 1条件下多或少 OR 1 100 如果x是连续型变量 则OR eb近似表示在x的相邻两个单位上的相对危险度 即x每增加一个单位 相对危险增加或减少 OR 1 100 37 b 多元logistic回归模型系数的解释 假设y在二值变量x1和x2上的二元logistic回归模型是 可以证明 e 1表示消去了x2的影响后或在x2不变的情况下 x1相邻两个单位患病率之比 相对危险度 e 2表示消去了x1的影响后或在x1不变的情况下 x2相邻两个单位患病率之比 相对危险度 38 例4 无交互影响的多元logistic回归模型某市调查饮酒对食道癌的影响 共收集了200例食道癌患者作为病例组 y 1 774例非食道癌患者作为对照组 y 0 询问了他们的年龄和饮酒情况 数据列在下表中 试分析饮酒对食道癌的影响 将年龄作为混杂因素 39 dataeg4 doy 1 0 doage 1to3 dodrink 1 0 inputwt output end end end cards 5567552444352705627618119run proclogisticdescending modely drinkage weightwt run 40 SAS输出结果 TheLOGISTICProcedureResponseProfileOrderedTotalValueYCountWeight116200 00000206774 00000ModelFittingInformationandTestingGlobalNullHypothesisBETA 0 2LOGL989 029816 466172 563with2DF p 0 0001 AnalysisofMaximumLikelihoodEstimatesParameterStandardWaldPr StandardizedOddsVariableDFEstimateErrorChi SquareChi SquareEstimateRatioINTERCPT1 4 12490 3226163 47950 0001 DRINK11 77880 186591 00780 00013 7618885 923AGE11 09710 133867 27050 00014 1087382 995 41 结论 模型的总体检验说明模型具有统计意义 p 0 0001 参数检验结果显示所有回归系数都具有显著性意义 p 0 0001 OR drink 5 923说明除去年龄这个混杂因子的影响后 饮酒者比不饮酒者大约多492 3 的可能性患食道癌 p 0 0001 或者说饮酒者患食道癌的可能性大约是不饮酒者的5 923倍 p 0 0001 42 例5 有交互影响的多元logistic回归模型在回顾性研究中 随机抽查了某地区818个人的吸烟饮酒等生活方式以及各种慢性疾病的患病情况 表7 5中列出的是一部分调查结果 试分析吸烟 饮酒危险因素对患胃病的影响程度以及它们的交互影响程度 表7 5生活方式与胃病的调查数据 43 y 1和0 分别表示患胃病和未患胃病 x1 1和0 分别表示吸烟和不吸烟 x2 1和0 分别表示饮酒和不饮酒 建立四个哑变量分别代表四种不同的生活方式 即x11 1表示既吸烟又饮酒 0表示其他 x10 1表示吸烟但不饮酒 0表示其他 x01 1表示不吸烟但饮酒 0表示其他 x00 1表示既不吸烟又不饮酒 0表示其他 将前三个哑变量放进模型 则可以得前三种生活方式相对于最后一种生活方式患胃病的相对危险度 44 dataeg7 5 doy 1 0 dox1 1 0 dox2 1 0 inputwt output end end end cards 39253516101126253223run dataeg7 5 seteg7 5 ifx1 1 x2 1thenx11 1 elsex11 0 ifx1 1 x2 0thenx10 1 elsex10 0 ifx1 0 x2 1thenx01 1 elsex01 0 ifx1 0 x2 0thenx00 1 elsex00 0 run proclogisticdescending modely x11x10 x01 weightwt run 45 TheLOGISTICProcedureModelFittingInformationandTestingGlobalNullHypothesisBETA 0 2LOGL664 261631 70332 557with3DF p 0 0001 AnalysisofMaximumLikelihoodEstimatesParameterStandardWaldPr StandardizedOddsVariableDFEstimateErrorChi SquareChi SquareEstimateRatioINTERCPT1 2 63460 2588103 62170 0001 X1111 68300 320227 62770 00013 7779335 382X1011 01720 33909 00310 00272 3519772 765X0110 65650 31544 33180 03741 8688801 928 46 结论 1 模型具有统计意义 p 0 0001 三个参数均有显著性意义 p 0 0027 p 0 0374和p 0 0374 2 因为四个哑变量中x00作为参照变量 因此 OR x11 5 382表示既吸烟又饮酒者患胃病的几率是不吸烟又不饮酒者的5 382倍 OR x10 2 765表示吸烟但不饮酒者患胃病的几率是不吸烟又不饮酒者的2 765倍 OR x01 1 928表示不吸烟但饮酒者患胃病的几率是不吸烟又不饮酒者的1 928倍 47 6 多值变量的logistic回归模型系数的解释 某大学医院外科采用两种不同的绷带和两种不同的包扎方式进行腿溃疡的治疗处理 治疗的结果分三种 不愈 有效和痊愈 治疗方式和治疗效果列在表7 6中 试分析治疗方法对治疗效果的影响 设因变量y表示治疗效果 0 不愈 1 有效 2 痊愈 设因变量x1表示绷带种类 自变量x2表示包扎方式 48 腿溃疡治疗方式与效果数据资料 49 SAS程序 dataeg7 6 inputyx1x2wt cards 00019 2115run proclogisticdescending modely x1x2 weightwt run 50 SAS输出结果 TheLOGISTICProcedure ResponseProfileOrderedTotalValueYCountWeight12415 00000021425 00000030459 000000 ScoreTestfortheProportionalOddsAssumptionChi Square 0 7505with2DF p 0 6871 ModelFittingInformationandTestingGlobalNullHypothesisBETA 0InterceptInterceptandCriterionOnlyCovariatesChi SquareforCovariatesAIC190 499178 977 SC191 469180 916 2LOGL186 499170 97715 522with2DF p 0 0004 Score 14 849with2DF p 0 0006 平行性检验 51 AnalysisofMaximumLikelihoodEstimatesParameterStandardWaldPr StandardizedOddsVariableDFEstimateErrorChi SquareChi SquareEstimateRatioINTERCP11 2 66800 465732 82700 0001 INTERCP21 1 17110 39308 88200 0029 X111 64330 438014 07360 00021 3583355 172X21 0 19030 41890 20630 6496 0 1572800 827 52 对于多值因变量模型 平行性假设决定了每个自变量的OR值对于前g 1个模型是相同的 例如 变量x1的OR 5 172 它表示使用第一种绷带治愈腿溃疡的可能性是使用第二种绷带的5 172倍 它也表示使用第一种绷带至少有效的可能性是使用第二种绷带的5 172倍 53 医学中经常需要作配对病例 对照研究 所谓的配对病例 对照研究指的是在病例 对照研究中 对每一个病例配以性别 年龄或其它条件相似的一个 1 1 或几个 1 M 对照 然后分析比较病例组与对照组以往暴露于致病因素的经历 分析配对病例 对照研究资料的统计分析方法一般采用条件logistic回归分析 条件logistic回归分析的数学模型以及分析原理方法均和非条件logistic回归分析类似 因为参数的估计公式涉及到条件概率理论 所以称为条件logistic回归分析 第五节条件logistic回归分析 54 配对数据 对按一定条件配成对的n对研究对象分别使用两种不同的处理方法 或者对n个研究对象在两个时间点上使用两种不同的处理方法所得到的观察数据 例如 两个医生分别检查n个病人 检验的结果如下 55 例7 配对病例 对照数据 某医院为了研究孕期照过X射线对儿童患白血病的影响 收集了配对病例 对照资料如下表所示 其中D和D 分别表示儿童患和未患白血病 E和E 分别表示母亲孕期照和未照过X线照射 56 dataeg7 7 inputidyxwt censor 1 y cards 111310132101420114311530054106240062run procphreg modely censor 0 x freqwt strataid run 57 Stepwiseregressionanalysis excludingX6ThePHREGProcedureDataSet WORK EG7 7DependentVariable YCensoringVariable CENSORCensoringValue s 0FrequencyVariable WTTiesHandling BRESLOWTestingGlobalNullHypothesis BETA 0WithoutWithCriterionCovariatesCovariatesModelChi Square 2LOGL724 793720 3544 439with1DF p 0 0351 Score 4 263with1DF p 0 0389 Wald 3 906with1DF p 0 0481 AnalysisofMaximumLikelihoodEstimatesParameterStandardWaldPr RiskVariableDFEstimateErrorChi SquareChi SquareRatioX11 0296190 520993 905690 04812 800 58 结论 OR x 2 8 RR p y 1 x 1 p y 1 x 0 结果说明母亲孕期有过X线照射的儿童患白血病的几率大约是母亲孕期未有过X线照射的儿童的2 8倍 p 0 0481 59 例8 1 1配对病例 对照数据为了研究生活方式和胃癌的关系 某研究所按1 1比例配对收集了一批病人和对照组的有关资料 本例仅用10对样本和3个危险因子进行分析 用以说明分析方法 数据列在下表中 其中 x1表示蛋白质摄入量 取值为0 1 2 3 x2表示不良饮食习惯 取值为0 1 2 3 x3表示精神状态 取值为0 1 2 60 dataeg7 8 inputidyx1x2x3 y 1 y cards 11130101012103120130 9133290220101222100000run procphreg modely x1 x3 strataid run SAS程序 61 ThePHREGProcedureTestingGlobalNullHypothesis BETA 0WithoutWithCriterionCovariatesCovariatesModelChi Square 2LOGL13 8633 8869 977with3DF p 0 0188 Score 6 913with3DF p 0 0747 Wald 2 590with3DF p 0 4592 AnalysisofMaximumLikelihoodEstimatesParameterStandardWaldPr RiskVariableDFEstimateErrorChi SquareChi SquareRatioX11 0 4790422 954830 026280

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论