




免费预览已结束,剩余63页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1,Logistic回归,王建生,卫生统计研究室,中国疾病预防控制中心公共卫生监测与信息服务中心,2,一、问题的提出,在流行病学研究中,经常遇到因变量为离散型分类变量的情况。如治疗效果的无效好转、显效、痊愈;不同染毒剂量下小白鼠的存活或死亡;在某种暴露下的发病与不发病等。最常见的情况是因变量为二分变量的问题。多元线性回归的局限性经典流行病学统计分析方法分层分析的局限性(流行病学概念复习,举例),3,1.两种主要的流行病学设计1)病历对照研究2)队列研究2.判断结局(疾病)和暴露(因素)联系强弱的指标1)相对危险度:RR=p1/p0p1:暴露于某个危险因素下发病的概率p0:不暴露于某个危险因素下发病的概率(对照)2)比值比:OR=P(D=1|E=1)/P(D=0|E=1)/P(D=1|E=0)/P(D=0|E=0)D=1:患某种疾病,D=0:不患某种疾病E=1:暴露于某个危险因素,E=0:不暴露于某个危险因素可以简单地表述成:OR=(p1/q1)/(p0/q0)p1:暴露于某个危险因素下发病的概率q1:暴露于某个危险因素下不发病的概率p0:不暴露于某个危险因素下发病的概率q0:不暴露于某个危险因素下不发病的概率,4,真正能够描述病因学意义的指标为RROR值本身没有病因学意义其流行病病因学学意义体现在发病率/患病率比较低的时候OR值可以近似等于RR值OR值是在病例对照研究中描述暴露和结局关联强度的一个指标,5,为什么当发病率比较低的时候OR可以等于近似RR?根据相对危险度的定义:RR=a/(a+b)/c/(c+d)=(ad+ac)/(bc+ac)当发病率低的时候ac所占的比例非常小,在RR公式中忽略ac后对RR值的影响非常小则有:RR(ad)/(bc)OR,6,举例1口服避孕药与心肌梗塞的流行病学研究(病例对照,曾光现代流行病学方法与应用,P90),MI非MI合计服OC392463未服OC114154268合计1531783312=7.80P0.05RR=1.455OR=2.195结论:MI发病与服用口服避孕药有关。,7,不同年龄组的MI与非MI发病情况,MI非MI合计40岁477612340岁106102208合计153178331RR(高年龄:低年龄)=1.334OR(高年龄:低年龄)=1.6802=5.055p;CONTRASTlabeleffectvalues;EXACT;FREQvariable;MODELevents/trials=;MODELvariable=;OUTPUT/;SCORE;STRATAeffects;TESTequation1;UNITSindependent1=list1;WEIGHTvariable;,27,为了便于建立数据库,将上表列成下列形式:使用雌激素与子宫内膜癌病例对照研究资料结果(Y)暴露因素(X)频数(f)115501191012800164SAS程序为:datatest;inputyxf;cards;115501191012800164;Run;,28,SASLogistic程序为:proclogisticdata=test;modely(event=0)=x;freqf;Run;2.Logistic回归的结果解释,29,模型的一般情况,数据的一般情况,30,31,32,33,34,七、Logistic回归举例小试牛刀,35,1)当自变量(X)只有两个水平时,而且如果,其取值暴露时为1,不暴露时为0,则模型中该暴露变量前的系数就是暴露与不暴露的比数比的对数值。也即:Ln(OR)=OR=Exp()2)当自变量为等级变量时,如收入水平,x的取值为:1、2、3、4、5表示5个不同的等级。在这个时候,的意义就是表示每相差一个等级时的比数比的对数。而Exp()表示每增加一个等级时的比数比。3)当自变量为连续变量(如年龄)时,就表示年龄每增加一岁时比数比的对数。Exp()表示年龄增加一岁时比数比。,八、多分类无序自变量的处理哑变量设置(dummyvariable),36,4)当自变量为多个取值的分类变量时,如地区,血型,应采取数量化设置哑变量的方法。在研究华北地区4个省某病的发生率时,设置3个哑变量,取该3个哑变量的一组取值的组合来代表原来的一个值。地区原变量名哑变量REGIONR1R2R3北京1100天津2010河北3001山西4000设最后拟合的logistic回归方程为:Logit(P)=+b1R1+b2R2+b3R3+其它变量,37,属北京地区的Logit:因为R1=1,R2=0,R3=0,可以得到,Lnpb/(1-pb)=b0+b1+其它变量属天津地区的Logit:因为R1=0,R2=1,R3=0,可以得到,Lnpt/(1-pt)=b0+b2+其它变量属河北地区的Logit:因为R1=0,R2=0,R3=1,可以得到,Lnph/(1-ph)=b0+b3+其它变量属山西地区的Logit:因为R1=0,R2=0,R3=0,可以得到,Lnps/(1-ps)=b0+其它变量,38,则,北京地区相对于天津地区的OR:OR=pb/(1-pb)/pt/(1-pt)=exp(b0+b1+其它变量)/exp(b0+b2+其它变量)=exp(b1-b2)北京地区相对于河北地区的OR:OR=pb/(1-pb)/ph/(1-ph)=exp(b0+b1+其它变量)/exp(b0+b3+其它变量)=exp(b1-b3)北京地区相对于山西地区的OR:OR=pb/(1-pb)/ps/(1-ps)=exp(b0+b1+其它变量)/exp(b0+其它变量)=exp(b1),39,天津地区相对于河北地区的OR:OR=pt/(1-pt)/ph/(1-ph)=exp(b0+b2+其它变量)/exp(b0+b3+其它变量)=exp(b2-b3)天津地区相对于山西地区的OR:OR=pt/(1-pt)/ps/(1-ps)=exp(b0+b2+其它变量)/exp(b0+其它变量)=exp(b2)河北地区相对于山西地区的OR:OR=ph/(1-ph)/ps/(1-ps)=exp(b0+b3+其它变量)/exp(b0+其它变量)=exp(b3),40,可以列成下列的表:地区天津*河北山西北京exp(b1-b2)exp(b1-b3)exp(b1)天津exp(b2-b3)exp(b2)河北exp(b3)可见,在这里是以山西为基线状态。,41,42,43,44,九、连续变量的离散化问题,对于是否需要将连续型变量转换成分组变量以及在何时要进行转换,应该视具体情况而定。从统计学方面看,将连续型变量转换成分组变量必然会损失部分信息,如将年龄分为45岁和140mmHg和140mmHg之间有什么不同。因此,在应用统计方法中,还应该考虑研究目的,根据研究目的确定数据处理方式。,SAS软件中的units选项,45,十、标准化回归系数的应用,46,对于病例-对照研究中,研究对象是否作为病例或对照是指定(固定)的,而是否暴露无遗于致病因子却成了一种随机事件。在病例-对照研究中,若:1表示病例被抽样的比例,0表示对照被抽样的比例,PD样本中病例的比例,QD1-PDPD表示总入群中病例的比例(即患病率),QD1-PD,十一、病例对照研究中的LOGSITCI回归,47,48,各组样本含量大于自变量数的20倍。保守估计要求阳性数(或者因变量出现频数最低的取值的研究对象数)应该保证为模型中自变量数的10倍以上。有时对所研究的问题很难找到足够的合适病例,可以通过适当增加对照数,以提高统计学效能。(当样本含量固定时,病例数与对照数相等时,检验效能最大;病例数与对照数相差越多,检验效能就越低。因此,对照的数目不奕太大,以不超过病例的4倍为宜。)对自变量进行频数分析保证每个分类应该有够的例数。样本例数不足常常导致模型参数异常,与客观事实不符等现象。,十二、样本量要求,49,十三、变量筛选,前进法发现独立作用较好后退法发现交互作用较好逐步法结合专业知识SAS中选项SELECTION=S/F/BSESTAY=INCLUDE=SLENTRY=,50,十四、logistic回归模型的建模策略,成功的建模是部分科学,部分统计方法,再加部分经验和常识的结合。在建模和对模型进行解释时,除了从统计学角度运用一些数量准则考察变量的重要性,更要结合专业知识运用一些数量准则考察变量的重要性。(1)先作变量的基本描述性分析,单因素分析(2)对性质相近的一些自变量进行部分多因素分析,并探讨各自变量(等级变量、数值变量)纳入模型时的适宜尺度,及必要的自变量变换;(3)在单变量分析和相关自变量分析的基础上,对P(常取0.20,0.15或0.30)的变量,以及专业上认为重要的变量进行多因素筛选;(4)在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项;(5)对专业上认为重要但未被选入回归方程的变量,要查明原因。,51,52,53,54,55,56,十五、回归模型的评价,方程的拟合优度检验应该有意义AIC,SC越小越好自变量的检验预测模型和观测实际结果的关联性MODEL/CTABLEPPROB=;OUTPUTOUT=P=lower=upper=predprob=(IC);模型诊断Proclogisticplots=(effect(polybar)rocleverageinfluenceoddsratio);Model/Influenceiplot;一定要结合专业知识,57,(1)资料的质量。(2)异常值(INFLUENCE选项,IPLOTS选项)。(3)样本含量太少,或考虑的变量太多。(4)条件不成立(5)自变量间的共线性,常使有些重要变量选不进方程,或系数的解释与常识相悖。(6)暴露率极低或极高,甚至为0或1。常使回归系数异常的大,或估计误差异常的大。常用的处理方法是暂不考虑该自变量。,十六、影响logistic回归模型可解释性的原因,58,按照反应变量的类型分为两分类反应变量的logistic回归多分类无序反应变量的logistic回归多分类有序反应变量的logistic回归按照研究设计类型分为非条件logistic回归(未匹配)1:1的条件logistic回归1:m或m:n的条件logistic回归,十七、Logistic回归的分类,59,十八、多分类无序反应变量的logistic回归proclogisticref=;model/link=glogit,设y为结果变量,x1,x2,xp为自变量。为叙述方便,考虑三类结果的情形,设三类结果分别为A、B、C,三类中可任意指定一类作为参照组或基准组。不妨取y=1表示A类,y=2表示B类,y=0表示C类,设C类为参照组。则三类结果的logistic回归模型可表示为:,60,是一个由两个logit函数组成的方程组,式中有2(P+1)个参数,P为自变量的个数。第二个logit函数表示B类与C类比的logit,相应的zi表示:B类与C类比,xi改变一个单位时,优势之对数值。而A类与B类相比的logit可用上述两模型之差即:,可见,当结果为三分类时,两两间的比较有3种,而只要给出两个logit函数,另一个就可以通过减法得到。不难想象,对有K类的结果变量可以建立K-1个logit函数,其它的均可由减法得到。,61,62,产后大出血分为两大类:即宫缩乏力性(称为子宫因素)及胎盘因素。在产后大出血与有无妊高症的关系研究中,将产后出血量400ml的产妇作为对照,出血量400ml的作为病例,并分为上述
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年医疗废物管理要点考试题及答案
- 2025年水利三类人员安全员b证考试题库及答案
- 2025年护理急救试题(附答案)
- 全民阅读知识宣传培训课件
- 2025年《学前儿童发展心理学》考试试题(含答案)
- 2023年自学考试财经法规试题与详解
- 全媒体运营科普知识培训课件
- 全套完整课件销售
- 二零二五年度建筑垃圾运输处理施工合同规范
- 二零二五年度重点工程项目贷款合同范本
- 医院护理培训课件:《母婴同室病房医院感染预防与控制》
- 国际尿失禁咨询委员会尿失禁问卷表
- 面试性格测试表
- XXX加油站风险分级管控台账
- 特种设备安全管理-使用知识
- H35-462(5G中级)认证考试题库(附答案)
- HY/T 122-2009海洋倾倒区选划技术导则
- GB/T 19666-2019阻燃和耐火电线电缆或光缆通则
- GA/T 1241-2015法庭科学四甲基联苯胺显现血手印技术规范
- 小学和初中科学教学衔接
- 制造执行系统的功能与实践最新ppt课件(完整版)
评论
0/150
提交评论