版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十八章:logistic回归分析医学统计学目录第一节二分类资料的Logistic回归1第二节多分类资料的Logistic回归2第三节等级资料的Logistic回归3第四节
应用Logistic回归的注意事项4第五节案例讨论5小结6能够理解Logistic回归分析的基本思想。能够阐述Logistic回归参数估计的意义及其与优势比的关系。能够阐述Logistic回归系数假设检验和区间估计的方法。能够识别不同的资料类型,并能据此选择合适的Logistic回归模型。能够运用统计软件对各类型Logistic回归进行统计分析,并能解释分析结果。学习目标:在医学研究中常遇到应变量Y为二分类变量(如患病与未患病、阴性与阳性等)或多分类变量(如治疗效果:痊愈、有效、无效等)与和多个自变量X(X1,X2,X3...Xm)的关系。这类反应变量不满足正态分布的条件,这时线性回归分析就显得无能为力,而Logistic回归(Logisticregression)分析则是处理该类资料的有效方法。Logistic回归属于概率性非线性回归。例18.1
第一节二分类资料的Logistic回归该例子应变量Y为就诊和未就诊,属于二分类变量,故应该采用二分类变量资料Logistic回归进行分析。一、基本思想
(一)Logistic回归模型按照线性回归思路建立模型P=β0+β1X1+β2X2+β3X3+...+βmXm,P的意义为未就诊的概率。P=1表示未就诊,P=0表示就诊。而在线性回归模型中,P的取值是任意的,取值范围则为(﹣∞,+∞),显然与概率的取值范围[0,1]相矛盾,无法从医学意义上进行解释。
为了避免出现大于1或小于0,我们首先需要进行logit变换。logit变换:事件发生概率与未发生概率之比的自然对数,称为P的logit变换。设应变量Y为一个二分类事件,P该事件发生的概率,1-P为事件不发生的概率,作以下变换:(18.1)(二)回归模型中参数的意义11由公式(18.2)看出,常数项β0表示所有自变量为0时,logit(P)的值,即事件发生率与未发生率之比的自然对数。βj(j=1,2,3...,m)表示自变量Xj改变一个单位时logit(P)的改变量,它与衡量危险因素作用大小的比数比(优势比oddsratio,OR)有一个对应关系。根据OR定义(暴露人群的优势P1/(1-P1)与非暴露人群的优势P2/(1-P2)之比,定义为暴露因素的优势比)和Logit的定义,对取对数,得:式中P1、P2分别表示Xj取值C1、C2为时的发生率。优势比OR(oddsratio):优势比(OddsRatio):又称为比数比,指暴露人群的优势与非暴露人群的优势之比,常用于衡量危险因素作用大小。OR含义及与的关系
=0,OR=1,影响因素与事件的发生无关。
>0,OR>1,影响因素的取值越大,事件的发生的概率越大,危险因素。
<0,OR<1,影响因素的取值越大,事件的发生的概率越小,保护因素。OR表示影响因素对事件发生的影响方向和影响能力大小。13βj表示自变量Xj改变一个单位时,logit(P)的改变量。而系数β的可解释性决定于自变量X改变“一个单位”的专业意义1.若暴露因素(为自变量)X是二分类变量,暴露时X=1,非暴露时X=0,则logistic回归模型中的系数是暴露与非暴露优势比的对数值。2.暴露因素X为无序多分类变量时,常用1,2,3....k分别表示个不同的类别,进行logistic回归分析时,将变量转换为k-1个指示变量或哑变量(designvariable,dummyvariable),也称虚拟变量,每个指示变量都是一个二分类变量,且各有一个回归系数,其意义同(1)。
3.暴露因素X为等级(有序分类)变量时,一般以最小等级或最大等级为参考组,按等级顺序依次取值0、1、2、…,这时eβ表示X增加一个等级时的优势比,ekβ表示X增加k个等级时的优势比。
4.暴露因素X为连续变量时,eβ表示X增加一个计量单位时的优势比。如在有关年龄与白内障的研究中,X为年龄,60岁的人比59岁(X增加量为1岁)的人有可能患白内障的优势比为eβ。(三)Logistic回归模型参数估计通常采用最大似然估计(maximumlikelihoodestimate,ML)估计回归系数
j,同时得到回归系数的标准误Sb。根据最大似然原理,在一次抽样中获得现有样本的概率应该最大;即似然函数取值最大。1617最大似然法的基本思想:先建立似然函数与对数似然函数,再通过使对数似然函数最大求解相应的参数值,所得到的估计值为参数的最大似然估计值。(四)Logistic回归模型假设检验和区间估计根据样本得到的logistic回归模型还需经过检验才能说明影响因素对事件发生的影响是否具有统计学意义。假设检验的假设有两种:H0:
1=
2=……=
m=0(将多个影响因素作为一个整体考虑,(整个方程的检验)H0:
j=0(单独某一个回归系数检验)18假设检验方法(1)似然比检验(likelihoodratiotest):既适合单个回归系数假设检验,又可整个方程检验。(2)Wald
2检验(Waldtest):适合单个回归系数的检验。(3)计分检验(scoretest):与传统Mantel-Haenszel检验结果相同,小样本时比似然比检验更接近
2分布,犯I型错误的可能性更小。19总体回归系数β的(1-α)置信区间:OR的(1-α)置信区间:初步结论:性别、学历、患病时间3个变量对就诊的影响有统计学意义,而且均为就诊的促进因素,其中女性比男性更倾向于及时就诊;学历越高健康观念越强,越倾向于及时就诊;患病时间越长,越容易去医院就诊。第二节
多分类资料的Logistic回归例18.2为研究美国候选人竞选成功的主要影响因素(数据集见例18-2.sav),应变量Y为who(所预选总统候选人);自变量有age(年龄),agecat(年龄分组),educ(受教育年数),degree(最高学历),sex(性别)。试分析影响总统竞选成功的主要影响因素。对这类分类应变量所采用的logistic回归模型与一般的logistic回归方法不同,而是通过一种广义logit模型(Generalizedlogitsmodel)的方法进行分析。一、基本思想多分类资料的Logistic回归是选择应变量Y中某一类别为参照,拟合剩余各类别相对于此参照类别的Logistic回归模型。设应变量Y为一个多分类无序变量,包括个g类别(Y取值为1,2,3,...,g),另有影响Y取值的P个自变量(X1,X2,X3,...,Xp),则多分类无序应变量Logistic回归模型可表示为:(17.9)其中:假如结果变量有三个水平:a,b,c如果以a为参照水平,就可以得到两个logistic函数,一个是b与a相比,另一个是c与a相比。即:(17.10)(17.11)可以看出Y=a成了b与c的共同参照组,如果希望比较b与c,则直接可以将logitPb和logitPc相减即可得到相应的函数。OR值估计与二分类logistic回归相同。二、SPSS软件实现(一)SPSS操作步骤SPSS进行多分类资料logistic回归操作步骤为:Analyze→Regression→Multinomiallogistic…(二)主要输出结果对模型中所有自变量偏回归系数是否全为0进行假设检验,未引入自变量和引入自变量两者似然比卡方统计量为118.497,P=0.000,表明模型中至少有一个自变量的偏回归系数不为0,模型有统计学意义。上表给出参数估计的结果,有分析结果可以得到拟合的模型分别为:由参数估计和假设检验结果可知:Bush和Clinton相比,只有sex(性别)有统计学差异,OR=1.58,说明男性选民中选择Bush的概率与选择Clinton概率之比较女性选民的这一比值大1.58倍。Perot和Clinton相比,age(年龄)和sex(性别)有统计学差异,OR分别为0.971和2.165;说明选民年龄每增加一岁选择Perot的概率是选择Clinton概率的0.971倍,男性选民中选择Perot的概率与选择Clinton概率之比较女性选民的这一比值大2.165倍。第三节等级资料的Logistic回归例18.3研究影响参加新农合农民对新农合的满意度的影响因素,对228名参与者进行调查问卷(数据集见ch17_3.sav),调查数据整理格式如下表,试用logistic回归分析筛选影响新农合满意度的影响因素。一、基本思想累积比数logit模型是二分类logit模型的扩展,设反应变量Y为G个等级的有序变量,第g(g=1,2,3,...,g)类的概率分别为{P1,P2,P3,...PG},且。影响因素X1,X2,...,XP为解释变量,Xi(i=1,2,3...,p)可以是连续变量、无序或有序分类变量。则累积比数logit模型可以表示为:其中:对于包含G个有序类别的应变量Y,其有序logistic回归包含G-1个方程,β0j为第j个回归的常数项,β1,β2…βp为自变量X1,X2…Xp的回归系数。个方程中各自变量的回归系数相同,不同类别累积概率差别则体现在方程的常数项β0j上。当Y取值分别为第1,2,…,G个类别时,其对应的发生概率分别为P1,P2…PG,则其对应的个回归方程分别为G-1:......通过上式,可以得当Y取值为j时的概率Pj:......二、SPSS软件实现(一)SPSS操作步骤
SPSS进行等级资料Logistic回归操作步骤为:Analyze→Regression→Ordinal…(二)主要输出结果由参数估计结果可以看出,按照0.05检验水准,四个变量均有统计学意义。得到的4个回归方程为:第四节应用Logistic回归的注意事项38由于logistic回归对适用变量范围比较广泛,使得结果具有可推性,也使得结果有了更为明确的实际含义,使得logistic回归受到普遍欢迎和应用。但是应用Logistic回归分析时有几个需要注意问题:一、回归模型的应用条件满足独立性,即各观测单位间相互独立。logit(P)与自变量呈线性关系;自变量为二分类变量时不需考虑,当自变量为连续性或等级变量时,需检验该条件是否成立,条件不成立需探讨变量X合适的量化形式,以便呈线性关系后纳入模型。自变量之间不存在多重共线性。不同设计方法的logistic回归模型尚有进一步的要求,详见相关参考文献。二、不同资料类型选择合适的logistic回归模型研究目的不同,研究设计的方法亦随之不同;故要依据研究目的、研究设计的方法以及自变量和应变量的类型选用合适的logistic回归模型。选择模型不合适会得出不合理甚至是截然相反的结论。三、模型估计的样本含量logistic回归的所有统计推断是建立在大样本基础上,因此需有足够的样本含量来保证参数估计的稳定性,方程中变量个数越多需要的例数相应也愈大。经验上病例和对照组的人数至少各有30-50例,配对设计中样本的匹配组数应为纳入方程中自变量个数的20倍以上,即N≧20P。有研究表明,各组样本含量大于自变量数的20倍时,参数估计的偏差是可以接收的。四、变量的赋值形式理论上,logistic回归中自变量可以是任何形式,可以是无序分类变量、有序分类变量、数值变量。但实际中我们分析数据时,更倾向于将连续性数值变量转换成几组,以分类的形式进入方程,因为这样更方便做出解释。例如体重,可以直接将体重数值引入方程分析,但其OR值表示每增加1kg体重时的优势比,实际意义不大;将体重转换成三组(低体重,标准体重,超重)可能会有更合理的结果解释。无序分类变量需要进行哑变量赋值后引入方程,结果更容易解释。五、变量的选择与线性模型相似,当自变量较多时,通常首先进行单因素分析,按照某检验水准对p≦α(常取0.15,0.20或0.30)的变量和专业上认为重要的变量纳入,即进行多因素逐步筛选。α取值不同,被选入回归方程的变量有时可能不同,此时应将专业知识与统计原理、方法相结合,全面分析后决定α取值大小。五、变量的选择在多因素筛选模型基础上,需分析有无必要纳入变量的交互作用(效应)项。判断是否存在交互作用,主要从专业上分析;若无专业依据,可先按无交互作用的模型作回归,再通过残差分析判断有无必要纳入变量的交互作用项。总而言之,变量的最终选择应该结合专业知识、统计原理方法、统计分析结果、检验水准、模型假设检验和拟合优度等各方面综合考虑,最终确定变量的取舍。六、回归模型评价模型的假设检验只是表明模型和各自变量的回归系数是否有统计学意义,但是并不表明模型拟合数据的效果如何;下一步还需对回归模型进行拟合优度检验。检验统计量主要有以下四种:皮尔逊χ2(Pearsonχ2)、偏差(Deviance)等。(一)皮尔逊χ2(Pearsonχ2)若以j表示自变量各水平的交叉分类数,j=1,2,3,...,J,ej和j分别为第类交叉组合中的观测频数和预测频数,皮尔逊χ2统计量定义为:若χ2值很小,意味着观测频数和预测频数差别无统计学意义,模型很好的拟合了数据。反之,若χ2值很大,统计检验便有统计学意义,提示拟合了不佳的模型。(二)Deviance偏差模型中无任何自变量、只一个参数时称为零模型(nullmodel);若模型中n有个参数,每个观测值对应于一个参数,称为全模型(fullmodel)或饱和模型,其模型估计值与观测值完全相等;设全模型最大似然函数值为Lf,求得的回归模型的最大似然函数值为Ls,则Deviance偏差D定义为:D越大,模型的估计值与观测值的偏差越大,拟合效果越差。统计量D服从χ2分布。(三)广义决定系数与线性回归相似,在logistic回归中,也可用广义决定系数R2测量自变量对应变量的总体预报或解释能力,当自变量与应变量完全无关时,其值近于0;当拟合模型能够完美预报时,其值趋近于1。七、回归诊断若回归模型的应用条件或应变量和自变量观测的数据结构存在问题,可能导致有偏或精度差的系数估计。从统计方法上对回归模型的应用条件及观测数据结构的可靠性进行检验即回归诊断(regressiondiagnosis)。常见的数据结构问题有空单元(zerocellcount)、完全分离(completeseparation)、多重共线性(multi-colinearity)、特异值(outliers)、及特殊影响案例(influentialcases)等。第五节案例讨论
【案例】某研究者为探讨高血压与自变量X1:性别、X2:年龄、X3:吸烟年限、X4:饮茶、X5:饮酒等影响因素的关系,采用以社区为基础的病例-对照研究,调查某省高血压病例118例,对照235例,采用二分类logistic回归进行分析。研究者直接将高血压作为应变量,将X1-X5五个变量引入方程进行多元logistic回归分析,分析结果如下表:由此研究者得出结论:变量性别、年龄、吸烟年限、饮茶有统计学意义,性别、年龄、饮茶为危险因素,吸烟年限为保护因素。试分析该研究者在分析思路和结果讨论部分是否妥当,若有不妥试分析可能的原因。【分析】因该资料应变量为是否患高血压,为二分类变量,欲分析应变量与多个自变量之
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年幼儿园教科研培训
- 2026年幼儿园观园路线
- 深度解析(2026)《GBT 22594-2018水处理剂 密度测定方法通则》:方法、实践与前瞻
- 深度解析(2026)《GBT 21697-2022低压配电线路和电子系统中雷电过电压的绝缘配合》宣贯培训
- 深度解析(2026)《GBT 21306-2007锯齿剥绒机》:技术演进、标准精义与产业未来全景透视
- 《JBT 15248-2025压力机用拉杆锻件 技术规范》专题研究报告
- 《JBT 15074-2025柴油机 选择性催化还原(SCR)转化器氨气混合均匀性试验方法》专题研究报告
- 记账实操-物业行业账务处理分录案例
- 2026年幼儿园美术唐装
- 2026年幼儿园教师演课
- 2025年中小学校国防教育知识竞赛考试试题库及答案
- 2026AHAASA急性缺血性卒中患者早期管理指南课件
- 【 数学 】2025-2026学年北师大版七年级数学下册期中阶段《第1-3章》综合模拟测试题
- 2026年煤矿企业入矿新员工培训模拟试题(考点精练)附答案详解
- 万宁市病死畜禽无害化处理中心项目 环评报告
- 陕09J02 屋面建筑图集
- 服务回访监督制度方案
- 《核电工程钢筋机械连接技术规程》征求意见稿
- 17模连续退火铜中拉机操作规程
- GB/T 307.1-2017滚动轴承向心轴承产品几何技术规范(GPS)和公差值
- 中药饮片处方点评表
评论
0/150
提交评论