




已阅读5页,还剩77页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
,二分类logistic回归模型,内容提要,非条件logistic回归模型简介简单分析实例哑变量设置自变量的筛选方法与逐步回归模型拟合效果与拟合优度检验模型的诊断与修正条件logistic回归,对分类变量的分析,当考察的影响因素较少,且也为分类变量时,常用列联表(ContingencyTable)进行整理,并用2检验或分层2检验进行分析,但存在以下局限性:无法描述其作用大小和方向,更不能考察各因素间是否有交互作用;当控制的分层因素较多时,将导致检验结果不可靠;2检验无法对连续性自变量进行分析(致命缺陷)。,模型简介,logistic回归模型适合于应变量为二项分类的资料,在医学研究领域中的应用广泛。如流行病病因学研究(包括队列研究、病例对照研究、横断面研究等)、临床疗效研究(如疗效与治疗方法、患病轻中重等因素关系)、卫生服务研究(如是否就诊与性别、年龄、文化程度的关系)等等。,模型简介,一、问题的提出,举例:分析“新生儿出生体重”的影响影响,如果以新生儿出生时的体重为因变量,采用线性回归分析的方法。线性回归分析:因变量Y是连续性随机变量,并且呈正态分布,理论上因变量必须能够在到+之间自由取值,问题的提出(续),但在医学研究中常碰到因变量的取值仅有两个,如是否发病、死亡或痊愈等;分析“母亲怀孕期间体重增加”对“新生儿出生低体重”的影响,二、概念的引入,如按线性回归思想建立模型:P=+XP的意义是发生出生低体重的概率在线性回归模型中,X的取值是任意的,P值可能大于1或小于0,无法从医学意义进行解释,显然不适宜用线性回归建立预测模型。,为避免P值大于1或小于0,我们对P进行logit(即logistic)变换,把logit(P)作为因变量,即:Logit(P)=lnp/(1-p)=+xlogit(P)可以从到+之间取任何值如:计算logit(0.1),logit(0.95)logit(0.1)=ln(0.1/0.9)=-2.20logit(0.95)=ln(0.95/0.05)=2.94,1如果以logitP为因变量,暴露因素X为自变量,建立直线回归方程:LogitP=+x由LogitP=lnp/(1-p)可导出:lnp/(1-p)=+x(1)即单因素线性LOGISTIC回归模型公式;“p=在暴露变量E下有病D的概率”解(1)式中以p为反应变量的方程,得:(2)即单因素曲线LOGISTIC回归模型公式。,单因素LOGISTIC模型参数的解释lnp/(1-p)=+x:与变量x无关的因素的影响:自变量x的回归系数,大小由因素x决定。=0表明P与x无关,发病不由因素x决定;0表明P与x有关,变量x是疾病发生的危险因素;1表明疾病D与因素x有关,变量x是疾病发生的危险因素;OR0:表明P与xi有关,变量xi是疾病发生的危险因素;i0:表明P与xi有关,变量xi是疾病发生的保护因素。,反应变量为二分类变量或某事件的发生率;自变量与logit(P)之间为线性关系;残差合计为0,且服从二项分布;各观测间相互独立。,模型简介适用条件,logistic回归模型应该使用最大似然法来解决方程的估计和检验问题,不应当使用以前的最小二乘法进行参数估计。,举例,1.定群研究资料分析弗明汉心脏研究742名居住在弗明汉年龄为40-49岁的男性,在各自暴露不同水平的影响因素(详见下表中的7种因素),经12年追踪观察CHD发病情况。根据此742名受试者每人暴露各项因素的水平和CHD发病与否的资料,采用多因素LOGISTIC回归模型进行分析,结果见表1。,表1.CHD危险因素定群研究(12年追踪观察结果),根据表1结果,可建立的CHD影响因素的Logistic回归模型,公式如下:p=1/1+exp-(-13.2573+0.1216x1+0.0070 x2+0.7206x1)该多因素LOGISTIC回归分析模型的用途:(1)确定研究因素的性质:根据值的正和负,确定所分析因素是危险因素还是保护因素。表中7种因素中,除血红蛋白为保护因素外,其他均为危险因素。(2)计算描述因素与疾病间联系强度指标OR值的大小:(A)由于胆固醇的值为0.0070,根据估计OR值的公式计算CHD与胆固醇的联系强度为:OR=e3e0.0070=1.007表明胆固醇上升1mg/dl时,CHD发病是原胆固醇水平的1.007倍。,(B)当ECG的值为0.7206时,根据估计OR值的公式计算CHD与ECG异常的联系强度为:OR=e7=e7X1/e7X0=e7X(1-0)=e0.7206=2.056表明ECG异常者CHD发病是正常者的2.056倍。(3)比较各变量对方程贡献的大小:根据标化的值大小,确定各因素对CHD发病影响的大小。在此项研究中,危险因素中吸烟对方程贡献最大,其他依次为相对体重、年龄、胆固醇、ECG和BP。,4)用于预测发病率:可根据该公式预测某人在不同因素暴露条件下CHD的发病率。如某受试者A暴露于因素xi的情况为:X(45,210,130,100,120,0,0)利用该模型计算该受试者A在暴露上述各种研究因素的条件下,12年间CHD的发病率为:PA1=1/1+exp-(-13.2573+0.1216x45+0.0070 x210+0.7206x0)=1/1+exp(-2.9813)=0.048,(5)预测发病风险:例1:如上述受试者A暴露于因素xi的情况变为:X(45,210,130,100,120,3,0)即其由不吸烟变为每日吸烟1包以上(x6=3),可利用该模型估计受试者A在其他各种研究因素暴露不变的条件下,其因改变吸烟行为而在12年间CHD的发病率上升为:PA2=1/1+exp-(-13.2573+0.1216x45+0.0070 x210+0.42223x3+0.7206x0)=1/1+exp(1.7144)=0.1526则受试者A因改变吸烟行为,其在12年间发生CHD风险将上升为原来的3.16倍。可用相对危险度RR公式进行计算,即:RRPA2/PA1=0.1526/0.048=3.16,应用多变量logistic回归注意事项,(1)因变量必须是二分变量,或任何取值为0或1的属性数据。(2)logistic回归分析对自变量的正态性、方差齐性不作要求,对自变量类型也不作要求。但应注意自变量与logity之间应符合线性关系。如自变量为连续变量,且与logity之间不存在线性关系,应作适当变量转换,否则参数估计会发生偏倚,结论不可靠。,如果自变量为定量指标:(1)同时自变量与logity之间为线性关系,则可以直接以原变量的形式进入分析;(2)如果自变量与logity之间为非线性关系,则需做适当转换,如x2,log(x),ex等。也就是说,如果自变量是定量指标的话,在进行回归分析之前一定要首先判断此变量是否与结局变量logity之间呈线性关系;定性或等级指标则不用考虑这个问题。,如果自变量为定性指标:(1)如果自变量为二分类变量,常用0,1或1,2表示。如x为性别指标,0代表女性,1代表男性(如何解释结果?)。(2)如果自变量为多分类指标,需要用亚(哑)变量(dummy)表示,又称指示变量(indicatorvariables),(3)如果自变量为等级资料,可以用两种方法处理:一是将等级数量化后直接进入分析,如果y的改变在每个等级上是近似相等的,则该法效果很好;二是视为定性指标,用亚变量表示,一般用于y在每个等级上的变化不相等时。,样本量,用logistic回归模型,样本含量要求较大。小样本不适宜。样本含量至少是变量数的10倍以上,否则方程不稳定,系数估计或标准误估计常出现异常,结果无法解释。,Logistic回归采用最大似然比估计法来对模型进行估计,最大似然估计在大样本或中等样本(如n=100)的条件下能保持较好的有效性。Long(1997)提到,在样本规模小于100时使用最大似然估计风险较大。样本量的大小依赖于模型和数据的特点。参数越多所需样本量越大,一般认为一个参数至少需要10个案例,但要注意的是,并不是说如果只有几个参数就不需要样本量大于100了。,如果自变量之间存在高度共线性或因变量的变化太小(如有太多的研究对象的反应值都相同)等问题存在就需要较大的样本;,(4)许多人进行多变量回归分析时,往往先作单变量分析,将单变量分析中有显著性意义的变量再进入多变量分析,这样做法不妥。因为,单变量分析没有意义的变量在多变量分析时不一定也没有意义。因此,应将所有变量都一起进入多变量分析,进行筛选。,(5)与多变量线性回归一样,如果各个自变量之间存在自相关,呈多元共线性,bj的误差可能较大,可使偏回归系数估计发生很大的偏倚,甚至使偏回归系数的符号反常、偏回归系数的假设检验呈无显著性。这时,可将自相关的变量其中之一剔除。或增加样本含量以减少标准误,抵消共线性的影响。或用逐步回归方法,寻找最佳方程。或将几个高度相关的变量综合,形成一个新变量(主成分)进入回归。,(6)自变量的记录中可能出现极端值(outlier)。其残差较其它各点大得多,或出现highleveragepoint(高杠杆点),其距其它各点较远,或出现强影响点(influentialpoint),对模型有较大影响。遇到这种情况,首先应检查是否录入错误,是否忽略了重要的协变量、是否需要增设交互项、样本是否足够多?然后,检查是否是异常值?,例1某医师希望研究病人的年龄age、性别sex(0为女性、1为男性)、心电图检验是否异常ecg(ST段压低、0为正常、1为轻度异常、2为重度异常)与冠心病ca是否有关,数据见logistic_binary.sav。,简单分析实例,简单分析实例,选入应变量,选入自变量,简单分析实例,简单分析实例,结果分析,此表为应变量取值水平编码,SPSS默认取值水平高的为阳性结果。,简单分析实例,结果分析,本表输出当前模型的-2log(似然值)和两个伪决定系数,但对于logistic回归而言,通常看见的伪决定系数不像线性回归模型中的决定系数那么大。,简单分析实例,结果分析,此表输出模型中的各自变量的偏回归系数及其标准误、Wald2、自由度、P值、OR值(即exp(B)。,哑变量设置,在回归模型中,回归系数b表示其他自变量不变,x每改变一个单位时,所预测的y的平均变化量,当x为连续性变量时,这样解释没有问题,二分类变量由于只存在两个类别间的比较,也可以对系数得到很好的解释。但是当x为多分类变量时,仅拟合一个回归系数就不太合适了,此时需要使用哑变量(dummyvariable)方式对模型进行定义。,例2Hosmer和Lemeshow于1989年研究了低出生体重婴儿的影响因素,结果变量为是否娩出低出生体重儿(变量名为LOW,1表示低出生体重儿,0表示非低出生体重儿),考虑的自变量有产妇妊娠前体重、产妇年龄、种族、是否吸烟、早产次数、是否患高血压等。(数据文件见:logistic_step.sav。),哑变量设置,哑变量设置,哑变量设置,选入无序多分类变量,设置参照水平,哑变量设置,哑变量设置,结果分析,哑变量(种族)的设置情况,哑变量设置,白人低出生体重的风险较低,而黑人风险较高。,结果分析,参照水平最好要有实际意义,不推荐使用其他作为参照;参照水平组要有一定的频数作保证,应不少于30或50例;对有序自变量的分析:从专业出发确定;分别以哑变量和连续性变量的方式引入模型进行比较后确定。,哑变量设置,哑变量设置应该注意的问题,Forward:Conditional(最可靠)Forward:LRForward:Wald(应当慎用)Backward:Conditional(最可靠)Backward:LRBackward:Wald(应当慎用),6种筛选自变量的方法,逐步回归,例3仍以例2的数据为例,演示如何在SPSS中实现逐步logistic回归分析。,逐步回归,选择其中一种逐步法,逐步回归,逐步回归,给出了模型拟合过程中每一步的-2log(L)及两个伪决定系数。,结果分析,逐步回归,结果分析,逐步回归,结果分析,输出了尚不在模型中的自变量是否能被引入的Score检验结果,这里只给出第一步的结果。,对数似然值与伪决定系数模型预测正确率ROC曲线,模型拟合效果检验,拟合效果判断指标:,对数似然值与伪决定系数:-2倍对数似然值表示模型的拟合效果,其值越小,越接近于0,说明模型拟合效果越好。但是,当自变量中存在缺失值时,因为一般统计软件在进行计算时会把含有缺失值的记录予以剔除,不参与统计分析,此时不能用-2loglikelihood对不同模型的拟合效果进行比较。,模型拟合效果检验,模型预测正确率:,例3进行逐步回归的第三步(step3)输出以上结果,预测正确的记录占71.4。,模型拟合效果检验,ROC曲线:,Save子对话框,模型拟合效果检验,先保存研究对象的预测概率。,模型拟合效果检验,模型拟合效果检验,模型拟合效果检验,这就是ROC曲线,预测效果最佳时,曲线应该从左下角垂直上升至顶,然后水平向右延伸到右上角。,结果分析,模型拟合效果检验,结果分析,本表是对ROC曲线下面积计算的结果,可见曲线下面积为0.708,95可信区间为0.6240.792。,模型拟合优度检验(TestofGoodnessFit):考察当前模型是否可以进一步改善,检验当前模型与饱和模型的预测效果之差是否有统计学意义。,拟合优度检验,Pearson和Deviance拟合优度检验:当自变量很多,或包含连续性自变量时,不可以用这两种方法。似然比检验:主要用于考察饱和模型是否可以进一步简化。HosmerLemeshow检验:通常用于自变量很多,或包含连续性自变量的情况。,拟合优度检验,模型拟合优度检验的常用方法:,点击主对话框中的options按钮,出现如下所示的对话框:,拟合优度检验,拟合优度检验,结果分析,用save子对话框可以保存各种残差;如果残差的绝对值大于2,提示该记录可能是异常点。,Save子对话框,模型的诊断与修正,残差分析,多重共线性的对偏回归系数的影响与线性回归模型中的表现一致,如增加或删除一条记录,模型中偏回归系数值发生较大变化,专业上认为有意义的因素无统计学意义等等。如果在进行logistic模型分析中,尤其是在向模型中引入交互作用项时出现了回归结果反常现象,则自变量之间的多重共线性是需要排除的一种可能。,模型的诊断与修正,多重共线性的识别:,目前SPSS的logistic过程中尚没有关于多重共线性诊断的结果输出,代替方法之一是运用相同的反应变量与自变量,拟合线性回归模型,并进行相应的共线性诊断。,模型的诊断与修正,多重共线性的识别:,匹配设计(matcheddesign)是在设计阶段控制混杂因素的一种方法。当得到一名研究病例后,选择一名或多名非病例作为对照,选择相应对照的条件是:某些需要控制的混杂因素与该病例之间相同或相似,从而形成一个匹配的对子。一个匹配的对子可以只有1个病例和1个对照,称1:1匹配;当病例很罕见时,常采用1个病例,多个对照,此时称为1:m匹配,常用的m一般小于等于4,不同的对子,m可以不同;还可设计m:n匹配,即不同对子的病例与对照个数均可不同,这样的设计增加了收集资料的灵活性。,条件logistic回归简介,对于这类匹配设计资料,如果采用以上介绍的非条件logistic回归方法,将会降低检验效能。而应当采用条件logistic回归模型(conditionallogisticregressionmodel)又称配对logistic回归模型进行分析。,条件logistic回归简介,用变量差值拟合:只适用于1:1配对的情况,用Multinomiallogistic过程实现;用分层Cox模型拟合:适用范围非常广。,条件logistic回归,SPSS中的拟合方法:,例4Mack等人预考察服用雌激素与患子宫内膜癌的关系,对退休居住在社区的妇女进行病例对照研究。除服用雌激素以外,研究的自变量还包括肥胖、胆囊病史、服用其他非雌激素药物。数据见1_1_logistic.sav。,条件logistic回归实例分析,computecase=case1-puteage=age1-puteest=est1-putegall=gall1-pu
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国兔养殖项目创业计划书
- 中国黑胶唱片项目创业计划书
- 中国基围虾项目创业计划书
- 中国桑科项目创业计划书
- 中国空气智能优化系统项目创业计划书
- 中国定制式义齿项目创业计划书
- 中国鹅饲养项目创业计划书
- 乙肝药物治疗试题及答案
- 安全教育期末试题及答案
- 乙炔安全试题及答案
- 设备备品备件管理制度
- 小区装修工程安全协议书
- 人教版小学数学3三年级下册(全册)教案
- 公路应急抢险协议书
- 国家中医药管理局直属事业单位招聘笔试真题2024
- 2025年计算机Photoshop功能分析试题及答案
- 经济学思维方式智慧树知到期末考试答案2024年
- (高清版)DZT 0145-2017 土壤地球化学测量规程
- 基于html5外文参考文献
- 基于PLC自动门控制设计
- 三环路道路照明工程技术标
评论
0/150
提交评论