




已阅读5页,还剩87页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Logistic回归分析攻略,冯国双,什么是logistic回归,常见的几种回归模型:因变量为连续资料线性回归因变量为分类资料Logistic回归因变量为计数资料Poisson回归因变量为生存资料Cox回归,什么是Logistic回归,线性回归模型:Logit变换:p表示事件发生的概率,1-p为事件不发生的概率当p=1时,logit(p)=+,当p=0.5时,logit(p)=0,当p=0时,logit(p)=-故logit(p)的取值范围是(-,+),什么是Logistic回归,Logit变换:式中等号右边的分数p/(1-p)是流行病学常用的描述疾病发生强度的统计指标,称为优势(odds)。当疾病发生的概率p与不发生的概率q相等皆为0.5时,odds=1,否则odds大于或小于1。,什么是Logistic回归,Logistic回归模型:i表示自变量xi改变一个单位时,logit(p)的改变量。其它形式:,什么是Logistic回归,Logistic回归的主要用途:(1)寻找某现象发生的影响因素。(2)校正混杂因素。(3)确定不同因素对疾病发生影响的相对重要性。(4)预测。,logistic回归参数估计,logistic回归参数估计,最大似然估计(maximumlikelihoodestimation,MLE)最大似然法就是选取使总体参数落在样本观察值领域里的概率达到最大时的值作为参数的估计值。故上述问题的最大似然函数是:两边取对数,变为,logistic回归参数估计,对Q分别求关于0和1的一阶偏导数,并令一阶偏导数等于0,得到两个关于0和1的二元一次方程,解该方程组,便得到回归系数0和1的最大似然估计值:,logistic回归参数估计,暴露人群的优势为p1/(1p1)非暴露人群的优势为p2/(1p2)二者之比,称为优势比(oddsratio,OR)对OR求对数,得,logistic回归分析思路,1、分析前准备是否可以用logistic回归:研究目的:寻找某现象的危险因素吗?预测?多因素分析?因变量类型:是分类变量吗?二分类或多分类均可,logistic回归分析思路,2、分析前准备自变量形式审查:(1)暴露因素(自变量)x是二分类变量时:直接纳入模型通常赋值为:暴露时x=1,非暴露时x=0此时logistic回归模型中的系数是1(暴露)与0(非暴露)相比的优势比的对数值。此时e表示1(暴露)与0(非暴露)相比,事件发生的危险,即OR值,logistic回归分析思路,(2)暴露因素(自变量)x是多分类变量时:常用1,2,3,k分别表示k个不同的类别。进行logistic回归分析时,将变量转换为k-1个虚拟变量或哑变量(dummyvariable),每个虚拟变量都是一个二分类变量,通常用0和1表示。每个虚拟变量各有一个回归系数,其意义表示1与0相比的优势比的对数值,logistic回归分析思路,例如,血型x为A、B、AB、O四个值,以1、2、3、4来表示,该数字只是一个代码,并非是一个等级变量。在logistic回归分析时,需将变量x转换为3个虚拟变量。若以A型血为参照组,3个虚拟变量分别为x1、x2、x3。在分析时,将3个虚拟变量x1、x2、x3同时纳入logistic回归模型,可得3个回归系数1、2、3,其中,1为B型血与A型血相比患白血病的优势比的对数值;2为AB型血与A型血相比患白血病的优势比的对数值;3为O型血与A型血相比患白血病的优势比的对数值。,logistic回归分析思路,为什么多分类自变量要用虚拟变量的形式?,logistic回归分析思路,(3)暴露因素(自变量)x是连续变量时,最好将其转化为分类变量为什么?,logistic回归分析思路,分析年龄与高血压发生与否的关系:age2是原始的年龄数据,age1是年龄分组数据(分为=60三个年龄组),logistic回归分析思路,直接用连续变量age分析,结果如下:提示年龄无统计学意义,logistic回归分析思路,用分类变量age1分析,结果如下:年龄50-59与2(m+1)/n时,第个观测可看作高杠杆点。,logistic回归分析思路,(2)异常点诊断强影响点(influentialpoints):对模型估计影响较大。常用诊断指标为Cook距离(CooksDistance)。如果第i个观测的Cook距离远大于其他观测的Cook距离,意味着该点可能既是离群点,又是高杠杆点,因此很可能是一个强影响点。,logistic回归分析思路,(3)其它问题空单元(zerocellcount):自变量各水平的交叉列联表中有些单元(格子)的观测频数为0完全分离(completeseparation):若自变量存在一临界值c,当xic时,事件发生,而xi=25共同的风险)。,logistic回归案例分析,DATAexample8_6;INPUTyagechagerslcmr;IFchage=1andmr=0THENcm1=1;elsecm1=0;IFchage=0andmr=1THENcm2=1;elsecm2=0;IFchage=1andmr=1THENcm3=1;elsecm3=0;cards;proclogisticdesc;modely=lccm1cm2cm3/aggregatescale=none;run;,logistic回归案例分析,cm1反映的是chage的作用。cm2反映的是mr的作用。cm3的参数估计值1.4324则等于(0.2714-0.2977+1.4587),包括chage的效应、mr的效应及chage和mr的交互作用共三部分效应。,logistic回归案例分析,此时拟合优度仍显示结果并非很理想这种情况并不少见,与很多原因有关,如变量不充分、数据收集本身的问题等但加入交互项后,与不加相比,拟合效果相对更优不加交互项的模型加入交互项的模型,logistic回归案例分析,考虑到仍可能存在过离散现象,最终可对过离散进行校正,这里采用Pearson法进行校正proclogisticdesc;modely=lccm1cm2cm3/aggregatescale=pearson;run;,logistic回归案例分析,校正后,参数估计值不变,但标准误变大,相应的P值变大,可以避免假阳性错误,logistic回归案例分析,本例结论:流产次数多是乳腺增生的危险因素,初产年龄和是否母乳喂养的交互作用对乳腺增生的影响也有统计学意义。初产年龄25且非母乳喂养的人,其乳腺增生的危险明显增高。而单纯初产年龄25的人,或单纯非母乳喂养的人,发生乳腺增生的危险并不高。这提示可针对不同人群开展不同的干预措施。,logistic回归案例分析,OR值图示proclogisticdescplots(only)=(oddsratio(type=horizontalstat);modely=lccm1cm2cm3/aggregatescale=pearson;run;,logistic回归案例分析,如何根据已知的危险因素进行判别或预测:proclogisticdesc;modely=chagelcmrchage*mr;outputout=mypredpred=pred;run;procprintdata=mypred;run;,logistic回归案例分析,当chage=0&lc=0&mr=0,发生乳腺增生的概率是0.34105当chage=0&lc=1&mr=0,发生乳腺增生的概率是0.46094当chage=0&lc=2&mr=0,发生乳腺增生的概率是0.58553,logistic回归案例分析,logistic回归分析的注意事项,(1)关于样本含量的问题经验法:每一自变量至少需要10例阳性结局保证估计的可靠性。注意这里是结局的例数,而不是整个样本的例数。如果你有7个自变量,那至少需要70例研究结局,否则哪怕你有1000例,而结局的例数只有10例,依然显得不足。计算法:SAS的procpower过程、PASS软件等,(2)关于自变量的形式理论上,logistic回归中的自变量可以是任何形式,定量资料和定性资料均可。实际中分析数据时,更倾向于自变量以分类的形式进入方程,主要出于解释方便的原因。,logistic回归分析的注意事项,logistic回归分析的注意事项,(3)P值过大或结果异常的常见原因1,该变量某一类的例数特别少,如性别,男性有100人
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高中数学必修四知识点总结
- 多发伤的临床护理
- 幼儿园语言教育与活动设计 课件 第3、4章 幼儿园语言教育活动设计的原理;幼儿园语言教育活动与其他教育活动的交叉与融合
- 人美版小学五年级美术下册台历挂历的设计教学设计
- 汽车销售补充合同范本
- 预防医学招聘个人简历
- 科学护理宝宝
- 肢体断离伤的临床护理
- 断指再植的临床护理
- 2025年中小学落实双减工作总结模版
- 2025年江苏高处安装、维护、拆除作业-特种作业证考试复习题库(含答案)
- Unit7OutdoorfunIntegration(课件)-译林版(2024)英语七年级下册
- 成人重症患者人工气道湿化护理专家共识
- 2023年船员培训计划
- 2025中国铁路郑州局集团招聘614人(河南)笔试参考题库附带答案详解
- 陪玩店合同协议
- 货运司机雇佣合同协议
- 中国船用集装箱角件行业市场发展前景及发展趋势与投资战略研究报告2025-2028版
- 国家开放大学《统计与数据分析基础》形考任务1-5答案
- 2025年山东省淄博市中考二模地理试题及答案
- 开展2025年全国“安全生产月”活动的通知
评论
0/150
提交评论