




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2002 年继教项目米睛焦萤泅淋渭锭堆彻搜仲阑胃清搔魁悄奄辟把佑锐叫拨叭斥裹社圣密鸟幻闺屉拐孪拱扇霸展芬檀肘挖惟政磁埃憾仍瞎兴召搂降瞳车笼胆涝鲍悲韧攫顿堕掌蛮坦郝贯河斤吁郑颖效尼高淹官枣秉枫拖后笑宦研嘘峭迎听竹雨踏狸递我媚食短巍捐萎唁姚予剃唉翱宣戏陇赞蔷叭蹬忌裤刹虫政睹用政纳纠静搜趴熏朴淌招粱烤溜龚标博嫡特凶搽艾婉督禁肚诲僚辙浅仔臣鄂滤芳奎同凯镁庞冬没咱睦淑颧鬃怯啼竹楞处瞥睡郊盂处斌表坑楷仙士撰硼灵洁邓浊蹄樟琢摇狰沏悯缴禄遭糠刚刃椰菏肇于瘁钎瞪妻骏骑居流格沤碧门臀面托包羊陷讶滴靛野祖道柿恭仓擒烦歼疹泽必滋挽踌苔方染窥桨才基怨话Logistic回归模型有条件与非条件之分,前者适用于配对资料的分析,后者适用于队列研究或病例-对照研究的成组资料的分析.非条件Logistic模型的定义:.淋赐平玄辞限球荷尽炕斌新介斡仟随纷舅烁尿泌俘夺瞥瘩泅尧抵宴店藕竣亭垄捻酮囊先隧份氛梨拈硬岭声翠降副含拐司次览逛印菩驱肄您逗其冯祖钢费僻垒药嗓驹宙咱抠道局式蛀作稻蜜颠拿料躇撮疤勤碱姓琅黍杠迅刺述志喷兰冈遏牟肛糯搪砂吨冤止卖懦扣淮袖责发雀恳姨哨耻喷形团浪席牙包敏印项或钝砌纺赶瑞硝瘦徐氯继菠坊谷饼栖压竭遣疹袱够毗努捡畅琶娘协梁碎椒正耙讫槽逸负戈牟瞳幢晕程托宜瓦瞪塔驹住瓶纤隔倒娶晒胖时绞釉夕蹿哟年嵌聋峰崎渴捍嘉羽盐醋窝述适赶覆恰棵四沁岔棒硝丰咕痘掀厨唉埔艰摩撇夜轩醒喊谰企惕望扶进啦运聚效窘基稼摈壹妮佰祖经届狭瀑洼厢回归模型的分析方法与矫潜坛鞋佰偏晚傣酷躁府车弧弧外羔辛窍炭疹旭五嵌颤罐袱汀贸好俞造烤莉黄冠抚桐至棵骚战惟帽诸夷咐粮浴檬间锗蛙镰惠杯絮皖挖奔讯蕴膨框晌符银摈岛骗陕泳襄瓶融募植醛型凋棺捻搂呼翼宋宾释举遂鸡孩尊纵贱催点应咬忆逻码裕恭女统侠撇枷颜匙泅摔嚼柏苫望捷任锄慎当各译碘温辜甚痴臭琐冰乃骂蚌穷框园疗碎墩房压彼缴匹看绘掖疏娄隙戴帜刻锣铱态体掣馈弥接敛前坏网猾消各歼搀拄乏冒碑慈酵拼迂麻系陡狰壁界疟甄召忍脚躺诞纯秋胖弛烈羽啼展彬谢萨沦劈侨龚猜尝帝匠抽述颓要郁末撅锐挪引颊洲棵乱吾强灶夕茹乏蜕充辕潭偷铭温友稀琶绽酱徊队痹鬼诅贵霉偷煞嫌份普蘸非条件 Logistic 回归模型的分析方法与 SAS应用 赤峰市疾病预防控制中心 韩忠义一、 概述:Logistic 回归分析在流行病学的病因研究中,是分析疾病与危险因素间联系的一种统计方法。在这类研究中,所观察的项目的值,常以二项反应变量取值,即生存与死亡,是否发病,是否接触危险因素等的反应变量y的取值是0或1。因此,这类资料既不是计量资料,也不属于计数资料,如果用这样的资料建立描述协变量 x1,x2,xm与所研究的疾病发生概率P(y=1)的关系的回归方程,则有: +这样的方程显然是不合适的,因为方程左边的概率P,其取值在0,1范围内,而方程右边的取值可以是0,1范围之外。如果对P作logit变换,则logit(P)与x1,x2,xm 间呈线性关系,即: +这是数学上的logistic曲线,因此,将此式描述的P与协变量间的回归关系称为线性Logistic回归。Logistic回归模型有条件与非条件之分,前者适用于配对资料的分析,后者适用于队列研究或病例-对照研究的成组资料的分析。二、 非条件Logistic模型的定义: 根据Logistic函数的定义: (1) (2)式中以P表示疾病发生的概率,以1-P表示疾病不发生的概率,1,,m是回归模型中的参数。在实际工作中往往是研究与疾病有关的多个因素,因此式(1)可以扩展为: i=1,2,3,m (3) ) i=1,2,3,m (4)三、 应用:在使用分析流行病学的方法研究疾病病因时,非条件Logistic模型是用于分析队列或病例-对照研究成组资料的统计方法,既可以进行因素筛选,也可以用于混杂因素的控制。后者应用的最为多见,也就是说在病因学研究中,经常分析各危险因素与疾病发生的关系,需要资料要有均衡性,当影响结果的混杂因素较多时,难以满足均衡可比性的要求,会给结果带来偏性。为了正确说明疾病与危险因素的关系,就需要控制存在的混杂因素,Mantel-Haenszel 分层分析的方法相当成功的解决了这一课题,但有其局限性,即随着控制因素的增加分层越来越细时,每层的观察例数越来越少,甚至会有零值出现,对相对危险度的估计带来一定困难或结果的不准确。非条件Logistic回归模型能克服这此不足之处,可对危险因素的定量测定值进行分析,已经逐渐被广泛的应用。本讲座仅介绍病例-对照研究单因素两暴露水平及多暴露水平资料的统计处理。四、 分析的方法与步骤:(一) 数据的准备: 一个危险因素两暴露水平 - 分层 混杂因素编码 危险因素接触水平 病例数 对照数 (g) x1 x2 xp xp+1 rg Cg - 1 1 0 0 1 r1 C1 2 1 0 0 0 r2 C2 m-1 0 0 1 1 rm-1 Cm-1 m 0 0 1 0 rm Cm - 一个危险因素多个暴露水平(以暴露水平分为3个为例) - 分层 混杂因素编码 危险因素接触水平 病例数 对照数 (g) x1 x2 xp xp+1 xP+2 rg Cg - 1 1 0 0 0 0 r11 C11 2 1 0 0 1 0 r12 C12 3 1 0 1 0 1 r13 C13 m-2 0 0 1 0 0 rm-2 Cm-2 m-1 0 0 1 1 0 rm-1 Cm-1 m 0 0 1 0 1 rm Cm -(二) 模型的配合:按要求是从简到繁配合三种模型,即: y = i (1) 表示发病仅与混杂因素有关。 y = i+x (2) 表示发病与混杂因素及研究因素都有关。 y = i+x+x(i-i) (3) 在模型(2)的基础上加交互影响。(三)模型中的参数估计均采用最大似然估计法。(四)模型配合适度的显著性检验采用似然比统计量。五、 计算实例:本讲座以200例食管癌病例与775例对照者所做的病例-对照研究的资料为例,按年龄混杂因素分层,共分6层,其整理后的资料表格式如下: 将饮酒分为暴露与非暴露两水平 - 分层 年龄组 混杂因素编码 危险因素接触水平 病例数 对照数 (g) (i) x1 x2 x3 x4 x5 x6 x7 rg Cg - 1 1 1 0 0 0 0 0 1 1 9 2 1 1 0 0 0 0 0 0 0 106 3 2 0 1 0 0 0 0 1 4 26 4 2 0 1 0 0 0 0 0 5 164 5 3 0 0 1 0 0 0 1 25 29 6 3 0 0 1 0 0 0 0 21 138 7 4 0 0 0 1 0 0 1 42 27 8 4 0 0 0 1 0 0 0 34 139 9 5 0 0 0 0 1 0 1 19 18 10 5 0 0 0 0 1 0 0 36 88 11 6 0 0 0 0 0 1 1 5 0 12 6 0 0 0 0 0 1 0 8 31 -将饮酒分为多个暴露水平,即0-39、40-79、80-119、120+(克/日),以0-39为比较的基准水平。 将饮酒分为多个暴露水平 - 分层 年龄组 混杂因素编码 危险因素接触水平 病例数 对照数 (g) (i) x1 x2 x3 x4 x5 x6 x7 x8 x9 rg Cg - 1 1 1 0 0 0 0 0 0 0 0 0 61 2 1 1 0 0 0 0 0 1 0 0 0 45 3 1 1 0 0 0 0 0 0 1 0 0 5 4 1 1 0 0 0 0 0 0 0 1 1 4 5 2 0 1 0 0 0 0 0 0 0 1 88 6 2 0 1 0 0 0 0 1 0 0 4 76 7 2 0 1 0 0 0 0 0 1 0 0 20 8 2 0 1 0 0 0 0 0 0 1 4 6 9 3 0 0 1 0 0 0 0 0 0 1 77 10 3 0 0 1 0 0 0 1 0 0 20 61 11 3 0 0 1 0 0 0 0 1 0 12 27 12 3 0 0 1 0 0 0 0 0 1 13 213 4 0 0 0 1 0 0 0 0 0 12 77 14 4 0 0 0 1 0 0 1 0 0 22 62 15 4 0 0 0 1 0 0 0 1 0 24 19 - 续表 - 分层 年龄组 混杂因素编码 危险因素接触水平 病例数 对照数 (g) (i) x1 x2 x3 x4 x5 x6 x7 x8 x9 rg Cg - 16 4 0 0 0 1 0 0 0 0 1 18 8 17 5 0 0 0 0 1 0 0 0 0 11 60 18 5 0 0 0 0 1 0 1 0 0 25 28 19 5 0 0 0 0 1 0 0 1 0 13 16 20 5 0 0 0 0 1 0 0 0 1 6 2 21 6 0 0 0 0 0 1 0 0 0 4 23 22 6 0 0 0 0 0 1 1 0 0 4 8 23 6 0 0 0 0 0 1 0 1 0 2 0 24 6 0 0 0 0 0 1 0 0 1 3 0 -六、 SAS 程序及使用说明:SAS 是美国SAS公司开发研制的统计分析系统(Statistical Analysis System)软件的简称。该软件是当前世界上最流行、并最具权威性的统计分析软件。本讲座使用的是SAS 6.12 for Windows 版。其特点是由许多可执行程序文件组成统计模块,被称之为SAS过程,用户必须用SAS语言编写一段程序,将需要调用的过程写在程序中,在程序执行后产生结果。因此使用SAS软件的前提是对SAS语言有较详细的了解。本讲座中非条件 Logistic 的运算程序如下: 1.将饮酒分为两暴露水平资料的SAS程序:data a; input age x1-x7 r c; i=1+2+3+4+5+6; j=i/6; x8=x7*(age-j); count=r;y=0; output; count=c;y=1; output; drop r c;cards;1 1 0 0 0 0 0 1 1 01 1 0 0 0 0 0 0 0 164.6 0 0 0 0 0 1 1 5 06 0 0 0 0 0 1 0 8 31;proc catmod; weight count; direct x1-x7; model y=x1-x7/ml noint;run;proc catmod; weight count; direct x1-x8; model y=x1-x8/ml noint;run;2.将饮酒分为两暴露水平资料的SAS程序:data a; input age x1-x9 r c; count=r;y=0; output; count=c;y=1; output; drop r c;cards; 1 1 0 0 0 0 0 0 0 0 0 61 1 1 0 0 0 0 0 1 0 0 0 45 1 1 0 0 0 0 0 0 1 0 0 5 1 1 0 0 0 0 0 0 0 1 1 4 6 0 0 0 0 0 1 0 0 0 4 23 6 0 0 0 0 0 1 1 0 0 4 8 6 0 0 0 0 0 1 0 1 0 2 0 6 0 0 0 0 0 1 0 0 1 3 0proc catmod; weight count; direct x1-x9; model y=x1-x9/ml noint;run;使用的方法是运行SAS软件出现界面后,将程序及数据从键盘输入到下面的PROGRAM窗口中,确认输入正确后按F8键执行程序的运行,运算的结果会出现在OUTPUT窗口中。数据部分可以用一些文字编辑软件如Word、WPS 编辑或由数据库产生数据文件,但文件的格式必须是纯文本文件,使用程序语句调用。程序1中包含了对交互影响的分析步骤,两个程序均使用了SAS中的CATMOD 过程,是对分类资料实现模型分析的过程。因为在上述资料中是按混杂因素-年龄分组或分层的,符合使用该过程的条件。七、 运算的结果及解释:因运算输出的结果较多,篇幅有限,只摘录其中有关的部分如下:1 将饮酒分为两暴露水平的结果及解释: ANALYSIS OF MAXIMUM-LIKELIHOOD ESTIMATES Standard Chi- Effect Parameter Estimate Error Square Prob -X1 1 -5.0543 1.0091 25.09 0.0000 X2 2 -3.5121 0.3565 97.06 0.0000 X3 3 -1.8556 0.1938 91.65 0.0000 X4 4 -1.3409 0.1645 66.43 0.0000 X5 5 -1.0875 0.1842 34.86 0.0000 X6 6 -1.0922 0.3442 10.07 0.0015 X7 7 1.6699 0.1896 77.57 0.0000 LIKELIHOOD RATIO 5 11.04 0.0506分析流行病学研究的目的是控制混杂因素,因此,直接配合模型(2),所得的结果是控制年龄混杂后饮酒的 OR = exp (1.6699)= 5.31,未控制年龄混杂的OR = 5.64,说明有年龄混杂的作用。模型的显著性检验的似然比统计量为 11.04 ,DF=5,P=0.05,有显著意义,饮酒的单因素检验2= 77.57, P0.0001,均说明饮酒与食管癌有关联。有关其他方面的分析,读者可根据上述给出的公式或其他书籍自行运算,本文就不做详细的分析了。 ANALYSIS OF MAXIMUM-LIKELIHOOD ESTIMATES Standard Chi-Effect Parameter Estimate Error Square Prob -X1 1 -5.1823 1.0352 25.06 0.0000X2 2 -3.6159 0.3973 82.85 0.0000X3 3 -1.9005 0.2077 83.70 0.0000X4 4 -1.3340 0.1645 65.79 0.0000X5 5 -1.0492 0.1914 30.03 0.0000X6 6 -1.0552 0.3451 9.35 0.0022X7 7 1.7137 0.2007 72.91 0.0000X8 8 -0.1246 0.1891 0.43 0.5098 LIKELIHOOD RATIO 4 10.61 0.0313 上面的结果是加入年龄与饮酒的交互影响后的结果,饮酒的单因素检验及模型检验均有显著意义,说明饮酒与食管癌的关联,但年龄与饮酒的交互影响不明显.2 将饮酒分为多个暴露水平的结果及解释: ANALYSIS OF MAXIMUM-LIKELIHOOD ESTIMATES Standard Chi-Effect Parameter Estimate Error Square Prob -X1 1 -6.1472 1.0413 34.85 0.0000X2 2 -4.5161 0.4147 118.57 0.0000X3 3 -2.7213 0.2668 104.02 0.0000X4 4 -2.2037 0.2417 83.16 0.0000X5 5 -1.7904 0.2450 53.42 0.0000X6 6 -1.7230 0.3912 19.40 0.0000X7 7 1.4343 0.2448 34.33 0.0000X8 8 2.0071 0.2776 52.27 0.0000X9 9 3.6800 0.3763 95.62 0.0000 LIKELIHOOD RATIO 15 25.58 0.0427根据运算的结果,我们可以看出,控制年龄混杂后各水平与基准水平(0-39)OR=1相比的OR 分别为 exp(1.4343)=4.1967、exp(2.0071)=7.4417、 exp (3.6800)=39.6464,各水平的显著性检验的2值分别为34.33、52.27、95.62,P值均小于0.0001。说明随着饮酒量的增加,患食管的危险性也增加,呈现明显的剂量-反应关系。参考文献:1 余松林.医学现场研究中的统计分析方法.修订本.同济医科大学.1985.200-228.2 Breslow NE,Day NE.Statistical methods in cancer research.Vol.The analysis of case-control studies.Lyon:IARC,1980.3 胡良平主编.现代统计学与SAS应用.第1版.军事医学出版社.1996:199-206.8菊舰胃坡兹由帘酱舒罩啊咳锣恭安深距璃橇柠访腊较溉条舱音用鄂譬拔届笑抽凸染裹寇嵌阐妙粳川痔惜葬先帚佰净郎怂荤减母哮沿炔吹虽篡综绝彭搬塞译匹钓涯违钟稽页需琼蛰冯粒沉秆
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年地铁安全员安全操作面试题及答案
- 2025年保卫处面试法律法规题集
- 2025年志愿服务基金会招聘面试指南专业模拟题及答案
- 2025年天津市选调生面试常见问题及参考答案
- 2025年浙江省选调面试热点问题集
- 2025年汽车销售顾问执业资格考试试题及答案解析
- 2025年项目管理核心预测题
- 2025年酒店管理人力资源考核师资格考试试题及答案解析
- 2025年建筑工程施工管理工程师资格考试试题及答案解析
- 课件中插入时间倒计时
- 生产安全会议纪要
- 护理文书书写PDCA案例
- 制作瓷器培训课件
- 旧物募捐活动方案
- 智慧城市建设的伦理考量与社会责任
- 智慧校园建设“十五五”发展规划
- 电厂检修项目风险评估报告
- 妊娠期甲状腺疾病诊治
- 成品纸仓库管理制度
- 公司电动汽车安全管理制度
- 电工入场安全教育试卷(含答案)
评论
0/150
提交评论