




免费预览已结束,剩余76页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1,Logistic回归模型,赵耐青复旦大学公共卫生学院,2,数据分析的背景,计量资料单因素统计分析对于两组计量资料的比较,一般采用t检验或秩和检验。对于两个变量的相关分析采用Pearson相关分析或Spearman相关分析考虑多因素的影响,对于应变量(反应变量)为计量资料,一般可以考虑应用多重线性回归模型进行多因素分析。,3,数据分析的背景,单因素的分类资料统计分析,一般采用Pearson2进行统计检验,用OddsRatio及其95%可信区间评价关联程度。考虑多因素的影响,对于反应变量为分类变量时,用线性回归模型P=a+bx就不合适了,应选用Logistic回归模型进行统计分析。,4,Logistic回归模型,按研究设计分类非配对设计:非条件Logistic回归模型配对的病例对照:条件Logistic回归模型按反应变量分类二分类Logistic回归模型(常用)多分类无序Logistic回归模型多分类有序Logistic回归模型,5,基础知识,通过下例引入和复习相关概念例如:研究患某疾病与饮酒的关联性患病率P1=a/m1P2=b/m2,6,基础知识,Odds(优势),P越大,则Odds越大;P越小,则Odds越小并且0Odds1?OR1?,9,(二分类)Logistic回归模型,因为0Odds+所以-ln(Odds)1.96,P0.05,拒绝H0,19,实例1:用Logistic模型进行统计分析,实例1的回归系数估计为se(b)=0.1780719,z=b/se=2.31,P=0.021则拒绝H0。如果对模型中所有的自变量进行检验,则称为模型检验。如实例2,对两个自变量进行检验,故这是模型检验。,26,实例2应用Logistic模型校正混杂作用,应用Stata软件进行最大似然估计,得到模型拟合的主要结果如下似然函数比为2ln(L)76.32,df=2,P0.001,因此拒绝H0:1=2=0,可以认为1和2不全为0。,27,实例2应用Logistic模型校正混杂作用,应用Stata软件进行最大似然估计,得到回归系数估计的主要结果如下饮酒:,28,多自变量Logistic模型的OR解释,在本例中,对于同为吸烟或不吸烟的对象而言(x2相对固定不变),饮酒(x1=1)的对数Odds为不饮酒(x1=0)的对数Odds为,29,多自变量Logistic模型的OR解释,则饮酒的对数OddsRatio为即:饮酒的意义:对于同为吸烟的对象或者同为不吸烟的对象,其饮酒的故称校正吸烟后OR,而前者未考虑吸烟的单因素OR称为crudeOR,30,实例2应用Logistic模型校正混杂作用,饮酒:P=1校正了吸烟因素的情况下,没有足够的证据推断饮酒与AMI患病有关联性。吸烟:P0.001,校正了饮酒的情况下,可以认为吸烟与患AMI的关联性有统计学意义,并且可以认为吸烟者患AMI的风险更大。,31,Logistic模型中的交互作用,实例3:采用病例对照设计研究吸烟和家属史与患肺癌的关联性。用x1=1,0分别表示吸烟和不吸烟;x2=1,0分别表示有无家属史;用y=1,0分别表示患肺癌和未患肺癌。,32,实例3:Logistic模型的交互作用,一般而言,吸烟和家属史均是肺癌的重要相关因素,很有可能这两个因素对患肺癌有交互作用,因此采用下列含有交互作用项的Logistic模型。其中x1和x2的乘积项x1x2称为交互作用项,33,应用Logistic模型分析实例3,用Stata软件对实例3的资料拟合上述模型,得到下列结果:3=0.955825,P0.04,差别有统计学意义,可以认为吸烟和家属史对患肺癌有交互作用。,34,实例3:Logistic模型的交互作用,由于本例模型为对于无家属史,x2=0代入模型,得到由回归系数与OR的关系,得到吸烟的:,P=3.84,故拒绝H0,可以认为1+30,差别有统计学意义,可以认为吸烟者患肺癌的风险更大。,37,实例3:Logistic模型的交互作用,同理,为了评价家属史与肺癌的关联性,根据下列Logistic模型对于不吸烟x1=0,则上述Logistic模型为家属史的P=0.认为0260.05,两个药的疗效差异无统计学意义。模型病情重x2=1代入模型,得到,45,Logistic模型中的交互作用,即:病情重时的药物变量x1的回归系数为对于在病情重的情况下,两个药的疗效是否有差异需检验1+3=0,用Stata软件计算得:检验统计量242.16,df=1,P0,导致x1越大,患病概率相对越大;若10.05,即:对于职业为工人与农民而言,其与患病之间的关联性无统计学意义。,53,多分类无序自变量的处理,x13的回归系数P0.0030.05,说明干部与农民的职业与患糖尿病有关联,其干部与工人比较,用Stata软件检验12=13,P=0.0230.05,差异有统计学意义。X2的回归系数P0.001,说明年龄与患病也有关联,其OR=1.04。,54,引用亚元变量应注意的问题,在Logistic模型中,二分类变量是不区分有序和无序的,因为回归系数的正负号能处理两分类变量所对应的概率大小问题。在Logistic模型中,用亚元处理多分类自变量时,对同一个因素的一组亚元而言,必须同时引入模型或同时不引入模型,不能若干个亚元在模型中,其它亚元不在模型中,这样会导致模型的参数意义发生改变以致错误解释参数意义。,55,多分类有序自变量的处理,例6:用横断面调查设计,分析肥胖与患糖尿病的关联性。职业:用x1=0,1,2分别表示体重正常,超重和肥胖。用x2表示年龄。x1是有序的分类变量(等级变量)Y=1表示患糖尿病,Y=0表示未患糖尿病。,56,多分类有序自变量的处理,有序分类变量可以直接引入Logistic模型,也可以按无序分类变量方式采用亚元变量引入模型,一般视资料而决定。有序分类变量直接引入模型:体重正常x1=0,体重超重x1=1,体重超重与正常的对数OR为,57,多分类有序自变量的处理,由体重正常x1=0体重超重x1=1,体重超重与正常的对数OR为作对数反变换,得到体重超重与正常的,58,多分类有序自变量的处理,由体重超重x1=1,体重肥胖x1=2,体重肥胖与超重的对数OR为作对数反变换,得到体重肥胖与超重的,59,多分类有序自变量的处理,由此可见,如果直接将有序多分类变量引入模型,就是假定相邻两个等级的总体OR相同,并且不难验证:体重肥胖与体重正常的。综合上述,若满足相邻两个等级的总体OR相同的条件下可以直接将有序多分类变量引入模型,对于不满足这个条件,则应采用亚元变量引入模型。,60,多分类有序自变量的处理,对于多分类有序自变量,可以用似然比检验的方法检验相邻两个等级的总体OR是否相同。在模型1中引入亚元变量,其定义如下:,61,多分类有序自变量的处理,模型1用最大似然法得到的似然函数值为L1模型2:用最大似然法得到的似然函数值为L2显然两个模型等价意味1=11且21=12似然比检验统计量为2ln(L)=2(ln(L1)-ln(L2),62,多分类有序自变量的处理,H0:模型1等价于模型2H1:模型1不等价模型2=0.05H0为真时,2ln(L)近似服从自由度为1(自变量的分类数2)的2分布,即:检验统计量,则拒绝H0,选用引入亚元的模型1。,63,逐步回归分析,在多因素统计分析中,多个自变量之间存在相关性,往往相互影响,研究者希望寻找主要影响应变量Y的因素。理论上,只要把各种因素组合都试一遍,寻找变量个数最多,每个变量均有统计学意义,并且模型拟合程度最好的模型,这种模型称为最佳预测模型,这种方法称为寻找最优子集,当变量较多时很难实现。,64,逐步回归,为了比较方便地找到最佳预测回归模型,一般采用逐步回归的分析策略建立拟最佳预测回归模型。逐步回归采用逐个增加最佳变量的方式或逐个减少最差的变量方式找到最佳或拟最佳回归模型。,65,逐步回归,逐步回归有4种方式:前进法:最开始时,模型中无任何自变量,然后逐个引入变量进入模型,每次在未进入模型的所有变量中挑选一个变量,其P是最小且P值,每引入一个变量,重新拟合一次模型,逐步引入变量直至没有满足上述条件的变量可以引入模型为止。,66,逐步回归,后退法:最开始时,把所有的变量引入模型,然后逐次把P值最大并且P的变量剔除出模型,每次只剔除一个变量,每次剔除一个变量后重新拟合模型,按照上述剔除标准继续剔除变量,直至模型中的所有变量的P为止。,67,逐步回归,前进逐步回归法最开始时,模型中无任何自变量,然后逐个引入变量进入模型,每次在未进入模型的所有变量中挑选一个变量,其P是最小且P值的变量,若有将其剔出模型,然后重新拟合一次模型,逐步引入变量直至没有满足上述条件的变量可以引入模型为止。,68,逐步回归,后退逐步回归法最开始时,把所有的变量引入模型,然后逐次把P值最大并且P的变量剔除出模型,每次只剔除一个变量,每次剔除一个变量后考察未在模型中的变量中是否存在P0.05,故剔除X6,73,实例6:逐步回归,X3的P值最大并且P0.05,故剔除X3,74,实例6:逐步回归,X7的P值最大并且0.05,故剔除X7,75,实例6:逐步回归,所有变量的P值均=0.0510removingx1p=0.7183=0.0510removingx6p=0.3873=0.0510removingx3p=0.4013=0.0510removingx7,77,实例6:逐步回归,得到下列回归系数的估计由上述结果可知与糖尿病患病的主要影响因素是年龄x2,家属史x4和总胆固醇x5。,78,逐步回归小结,逐步回归是寻找主要影响因素的一种回归策略,又称建立最佳预测模型。进入回归模型的变量可以推断这些变量与应变量Y有关联,但是没有进入回归模型的变量不能称这些变量与应变量Y没有关联性。一般设定变量进入模型的0.05,剔除变量的0.05。,79,Logistic回归模型小结,对于应变量为二分类,可以用Logistic回归模型进行统计分析。在Logistic模型中,自变量可以是二分类的,也可以是连续型变量和有序多分类变量,但无序多分类变量应用一组亚元变量取代。逐步回归是寻找主要影响因素的回归策略,没有进入模型的变量不能作推断。,80,Logistic回归模型小结,模型中出现有交互作用,不是统计分析的最终结果,只是中间结果,一般要根据研究目的进行简单效应分析。条件Logistic模型只适用于配对病例对照研
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 兰州职业技术学院《光电专业学科前沿》2023-2024学年第二学期期末试卷
- 一到二岁亲子早期教育
- 幼儿园食品安全教育教案(小班)
- 安全教育体系构建与实施路径
- 2025子女赡养合同
- 2025年版金融借款合同范本
- 练声曲发声训练教学课件
- 八年级环境教育课件
- 2025标准仓储保管合同模板
- 2025年废弃土地租赁合同范本
- 地下工程监测与检测技术
- 毕业设计(论文)-汽车多向调节电动座椅设计
- 客供物料管理规范
- 信息化教学设计说课比赛模板课件
- 第九版内科学-高血压-课件
- 七年级下学期家长会课件
- 脑血管造影及介入治疗手术知情同意书
- 中国重症监护病房(ICU)建设与管理指南
- 个人不担当不作为问题清单及整改措施
- 文史哲考试总题库
- 铁道概论PPT全套完整教学课件
评论
0/150
提交评论