




已阅读5页,还剩123页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.,第十六章logistic回归分析(LogisticRegressionAnalysis)(LRM),.,多元线性回归模型的应用条件:,1.线性趋势(linear):自变量与因变量的关系是线性的,即Y与Xi间具有线性关系2.独立性(independence):应变量Y的取值相互独立,Cov(ei,ej)=03.正态性(normality):对任意一组自变量取值,因变量Y服从正态分布,eiN(0,2),4.方差齐性(homogeneity):对任意一组自变量取值,因变量y的方差相同,Var(ei)=2后两个条件等价于:残差服从均数为0、方差为2的正态分布,这些条件缩写为LINE,是线性回归方程的核心。,多元线性回归分析复习,.,1.根据样本数据求得多元线性回归方程2.对多元线性回归方程的假设检验及其对方程的拟和效果进行评价()方差分析法:()决定系数()复相关系数3.各自变量的假设检验与对各自变量的作用大小作出评价()偏回归平方和()t检验法()标准化回归系数4.自变量的选择方法()全局择优法:校正决定系数、Cp准则()逐步选择法:前进法、后退法、逐步回归法,多元线性回归分析复习,.,回归分析的分类,.,发表论文,265例成人白血病危险因素的多元Logistic回归分析食管癌术前淋巴结转移危险因素Logistic回归分析潍坊市儿童伤害发生及其影响因素的非条件Logistic回归分析急性胆囊炎危险因素的病例对照研究及配对资料Logistic回归分析高血压危险因素logistic回归与分类树分析股骨粗隆间骨折DHS内固定失败的Logistic回归分析累积比数logistic回归在医学研究中的应用Logistic回归分析的判别猜测功能及其应用糖尿病患者心理健康状况的多因素Logistic回归分析食管病变影响因素的多项式Logistic回归分析多项式logistic回归分析在患者就诊行为影响因素研究中的应用主成分logistic回归在筛选妊娠期糖尿病危险因素中的应用ROC曲线及Logistic回归评价肿瘤标志物在胃结肠肿瘤的诊断价值大学生病理性互联网使用影响因素的Logistic回归分析脂肪肝危险因素Logistic回归分析精神分裂症发病影响因素的条件Logistic回归分析154例原发性肝癌临床症状多元Logistic回归分析大学生蠕形螨感染危险因素logistic回归分析应用LOGISTIC回归法分析四川省中学生吸烟状况影响因素儿童学习困难危险因素的Logistic回归分析,.,在医学研究中经常遇到应变量为二项分类的资料,如治愈与未治愈、生存与死亡、发病与未发病等,可以概括为阳性与阴性两种互斥结果,同时存在可能对分类结果发生概率影响的因素即自变量。这类资料由于d(Y)是二项分布,适宜用Logistic回归分析进行。,.,logistic回归:是研究因变量为二分类或多分类观察结果与影响因素(自变量)之间关系的一种多变量分析方法,属概率型非线性回归。在流行病学研究中,常需要分析疾病与各种危险因素间的定量关系,同时需要控制混杂因素的影响。(1)Mantel-Haenszel(曼特尔-享塞尔)分层分析:适用于样本量大、分析因素较少的情况。当分层较多时,由于要求各格子中例数不能太少,所需样本较大,往往难以做到;当混杂因素较多时,分层数也呈几何倍数增长,这将导致部分层中某个格子的频数为零,无法利用其信息。用2检验的局限性:只能研究1个危险因素;只能得出定性结论。(2)线性回归分析:由于因变量是分类变量,不能满足其正态性要求;有些自变量对因变量的影响并非线性。,.,队列研究(cohortstudy):也称前瞻性研究、随访研究等。是一种由因及果的研究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴露人群,在一定时期内,随访观察和比较两组人群的发病率或死亡率。如果两组人群发病率或死亡率差别有统计学意义,则认为暴露和疾病间存在联系。队列研究验证的暴露因素在研究开始前已存在,研究者知道每个研究对象的暴露情况。,.,RR(相对危险度relativerisk):表示暴露组与非暴露组发病率(或死亡率)的比值。也称为危险比(riskratio)。反映了暴露与疾病发生的关联强度。RR表明暴露组发病或死亡的危险是非暴露组的多少倍。,.,病例对照研究(case-controlstudies):一种由果及因的回顾性研究,先按疾病状态确定调查对象,分为病例(case)和对照(control)两组,然后利用已有的记录、采用询问、填写调查表等方式,了解其发病前的暴露情况,并进行比较,推测疾病与暴露间的关系。,相对危险度RR的本质是暴露组与非暴露组发病率之比或发病概率之比。但病例对照研究不能计算发病率,只能计算比值比OR值。OR与RR的含义是相同的,也是指暴露组的疾病危险性为非暴露组的多少倍。当疾病发病率小于5%时,OR是RR的极好近似值。,OR1,说明该因素是疾病的危险性增加,为危险因素;OR1,P=0.001,老年患冠心病血瘀证为健康人的3.192倍,有统计学意义,表明老龄是冠心病血瘀证的危险因素之一。X1=2(即中年)对应的Exp(B)=OR=1.6421,P=0.160,中年患冠心病血瘀证为健康人的1.642倍,无统计学意义,表明中年尚不能认为是冠心病血瘀证的危险因素之一。X2=1(即基因型II)对应的Exp(B)=OR=0.3841,P=0.397,中年患冠心病血瘀证为健康人的1.287倍,无统计学意义,表明中年尚不能认为是冠心病血瘀证的危险因素之一。X2=1(即基因型II)对应的Exp(B)=OR=0.3831,P=0.002,基因型II患冠心病血瘀证为基因型I/D的0.383倍,有统计学意义,表明ACE-II基因型的发生率增高可能降低冠心病的发生。X2=2(即基因型II)对应的Exp(B)=OR=0.7031,P=0.216,基因型DD患冠心病血瘀证为基因型I/D的0.703倍,无统计学意义,尚不能认为ACE-DD基因型的发生率增高可降低冠心病的发生。,.,结果(建立模型),.,P290例题16-5,表16-11社区和性别对居民获取健康知识途径影响,以社区宣传作为参照,与男性相比,女性较少采用传统大众媒介获取健知识;女性较少采用网络获取健康知识.与社区1的居民相比,社区2的居民较多采用传统大众媒介获取健康知识,较少采用网络获取健康知识.,.,一、logistic回归的应用,1流行病学危险因素分析,第三节logistic回归的应用及其注意事项,.,2临床试验数据分析临床试验的目的大多是为了评价某种药物或治疗方法的效果,如果有其他影响效果的非处理因素(如年龄、病情等)在试验组和对照组中分布不均衡,就有可能夸大或掩盖试验组的治疗效果。尽管在分组时要求按随机化原则分配,但由于样本含量有限,非处理因素在试验组和对照组内的分布仍有可能不均衡,需要在分析阶段对构成混杂的非处理因素进行调整。当评价指标为二值变量时(如有效和无效),可以利用logistic回归分析得到调整后的药物评价结果。对于按分层设计的临床试验可以用相同的方法对分层因素进行调整和分析。,一、logistic回归的应用,3分析药物或毒物的剂量反应在一些药物或毒物效价的剂量-反应实验研究中,每一只动物药物耐受量可能有很大的不同,不同剂量使动物发生“阳性反应”的概率分布常呈正偏态,将剂量取对数后则概率分布接近正态分布。由于正态分布函数与logistic分布函数十分接近,如果用P表示在剂量为X时的阳性率,可用下述模型表示它们之间的关系。,用这一模型可以求出任一剂量的阳性反应率,传统的一些方法往往对实验设计有严格的要求,如剂量按等比级数排列,各剂量组的例数必须相同等,采用logistic回归的方法则没有这些限制。,一、logistic回归的应用,.,一、logistic回归的应用,4预测与判别logistic回归模型是一个概率型模型,对非条件Logistic回归,在给定的条件下可通过logistic回归模型计算某事件发生的概率。因此可以利用它预测某事件发生的概率。在临床上也可以根据疾病与临床检查指标资料,建立logistic回归模型,对新的对象可根据其临床检查指标,计算其患某种疾病的概率的大小,进行判别分析。,.,1.实际应用中还应注意以下几点:(1)流行病学研究中,logistic回归既可用于的病例-对照研究也可用于队列研究,但病例-对照研究资料得不出真正的发病概率,只能获得OR值,在发病率较小的情况下与相对危险度RR值近似相等。(2)logistic模型中的自变量与反应概率之间呈对称S形曲线关系,在概率P变动范围较小的情况下,如流行病学研究中,条件容易满足;但在某些实验研究中,如毒物剂量和动物死亡率的剂量反应研究中,P的变化范围很大,两者的关系虽然呈S形但并不对称,此时可考虑进行变量变换,如对数变换。(3)非条件logistic回归模型也可用于判别分析,在自变量为分组情况下,其判别效果优于线性判别。,二、logistic回归应用的注意事项,2.变量的取值形式在做危险因素分析时,若自变量是一个定量指标,最好将其按变量值的大小进行分组,并赋值为1,2k,否则参数的实际意义不大,甚至荒谬。例如,对于年龄变量,如果利用实际数值,则求出的值表示年龄每增加一岁时的优势比,实际意义不大。此时,如果将年龄分成几个不同的水平(年龄段),就比较容易解释,处理上也比较灵活,分析时既可以按得分处理,也可以将其化作个哑变量,并在分析中对差别不大的水平做必要的合并。有序分类变量:数量化无序分类变量:化为k-1个哑变量(同进同出)i的符号与自变量的取值形式有关,二、logistic回归应用的注意事项,2.变量的取值形式,二、logistic回归应用的注意事项,.,SPSS提供的方法,Indicator:默认。以第1或最后1类作对照,其他每类与对照比较;Simple:以第1或最后1类作对照,其他每类与对照比较,但反映平均效应。Difference:除第1类外各分类与其前各类平均效应比较;Helmert:除最后1类外各分类与其前各类平均效应比较;Repeated:除第1类外各分类与其前一类比较;Polynomial:假设类间距相等,用于数值型变量。Deviation:以第1或最后1类作对照,其余每类与总效应比较。,.,二、logistic回归应用的注意事项,3.样本含量(自变量个数)logistic回归统计推断是建立在大样本基础上的,要求有足够的样本含量。经验上病例和对照的人数应至少各有3050例,模型中变量个数越多,需要的样本含量越大。经验估计法:选择应变量较少的那一类,然后将该数值除于10,就是模型中可以分析的自变量数。经验方法:模型中的每一自变量至少需要出现10个结局。对于配对资料,样本的对子数应为纳入模型中自变量个数的20倍以上。,.,4.变量的筛选变量筛选的原则专业上考虑测量上考虑共线性问题:计算相关矩阵,相关系数0.8-0.9,则选其一。缺失数据少、测量误差低的优先选择经验上考虑双变量分析中有显著性的自变量(P.15)选择那些改变主效应的自变量,二、logistic回归应用的注意事项,.,二、logistic回归应用的注意事项,5.交互作用的引入,交互作用的定义当自变量和因变量的关系随第三个变量的变化而改变时,则存在交互作用交互作用项的引入基于临床实际认为对结果有重要影响基于模型应用条件的分析引入两个自变量的乘积项交互作用的检验交互作用的解释,.,二、logistic回归应用的注意事项,6.模型评价模型评价包括两部分内容:一是对模型中的每个自变量进行检验,二是对所建立的回归方程进行拟合优度检验。自变量检验应注意变量是否显著及作用的大小是相对的,因此通常分探索性研究和验证性研究两种情况加以说明。对于探索性研究主要选择一个最佳的自变量组合,对于验证性研究则主要分析某一个自变量是否有统计学意义,为此需要对混杂因素进行调整。,.,7.关于模型的常数项在大多数情况下,logistic回归模型常数项没有太大意义,所以不需要对常数项做解释和假设检验。只有在大规模的队列研究、临床诊断试验和疗效评价试验中,不同暴露层或处理组的阳性率与研究总体人群的分布一致时,常数项才有意义。条件logistic回归中,常数项在建立条件似然函数时被约掉而得不到估计,所以条件logistic回归模型不能用于预测。,二、logistic回归应用的注意事项,.,8.输出结果的解释,回归系数的解释系数的正负值:正(负)系数表示随自变量的增加因变量logit值的增加(减少)。二分类自变量系数为比数比的对数值,由此比数比=eb多分类自变量以第i类作参照,比较相邻或相隔的两个类别。连续型自变量当自变量改变一个单位时,比数比为eb,二、logistic回归应用的注意事项,.,8.输出结果的解释,模型拟合的优劣自变量与结果变量(因变量)有无关系确认因变量与自变量的编码模型包含的各个自变量的临床意义由模型回归系数计算得到的各个自变量的比数比的临床意义,二、logistic回归应用的注意事项,.,二、logistic回归应用的注意事项,9.多分类logistic回归当因变量是一个多分类指标,特别是有序多分类指标时,如流行病学中某些慢性病的危险因素研究,观察结果为“无、轻、中、重”等不同等级资料,可以采用多分类logistic回归或有序多分类logistic进行分析。,logistic回归的应用,疾病影响因素的研究病因学研究:病例-对照研究、队列研究。研究某种疾病或现象发生和多个危险因素(或保护因子)的数量关系。考察因素之间的交互作用。影响因素的研究:横断面调查、临床试验校正混杂因素一般采用Mantel-Haenszel分层分析分层较细或存在格子零频数时,M-H法无法采用。logistic回归分析可有效精确地分析外部变量拥有的混杂和效应修正作用。疾病预后的估计logistic回归模型作为一种概率模型,可在队列研究中用于预测某事件发生的概率。logistic回归不要求在因变量正态假设的前提下进行预测。疾病诊断疾病诊断二类间的判别诊断性试验研究中,敏感度和特异度的估计logistic回归模型综合校正协变量的影响充分利用数据提供的信息可进行95%可信区间的估计,.,理论上的不足:自变量对疾病的影响是独立的,但实际情况及推导结果不同。模型有不合理性:“乘法模型”与一般希望的“相加模型”相矛盾。样本含量不宜太少:例数大于200例时才可不考虑参数估计的偏性。,logistic回归的局限性,问题案例,某期刊2001年初发表的一篇有关狼疮脑病发生的相关因素分析,只对单因素分析中P值0.05者进行多因素回归分析,结果只有血白细胞,尿红细胞和A/G比值3个因子进入Logistic回归方程,被认为是与红斑狼疮脑病发生的相关因素。从风湿病专业的角度,估计很少有风湿科医生能接受这一研究结果。分析其原因,可能是在建立多元回归方程时,待选变量的标准太严,导致真正有意义的因素被“埋没”。类似这样,只取单因素分析中有意义的变量,进行多元回归分析的错误不是个别现象,在国内医学期刊中常常见到。,.,logistic回归分析思路,变量的编码哑变量的设置和引入各个自变量的单因素分析变量的筛选交互作用的引入建立多个模型选择较优的模型模型应用条件的评价输出结果的解释,.,logistic回归与线性回归的不同,.,例16-2的SPSS实现过程,.,例16-2为了探讨冠心病发生的有关危险因素,对26例冠心病病人和28例对照者进行病例对照研究,各因素的说明及资料见表16-2和表16-3。试用logistic逐步回归分析方法筛选危险因素。,表16-2冠心病8个可能的危险因素与赋值,.,表16-3冠心病危险因素的病例对照调查资料,.,逐步回归法SPSS实现步骤:AnalyzeRegressionBinaryLogisticLogisticregressiondependent:yindependent:x1-x8Method:ForwardLROptions:Entry0.10Removal0.15,.,原始数据,.,变量的定义,.,Logistic回归分析模块,Logistic回归分析选项,.,未引入模型的变量的记分检验,相当于对每个自变量单独引入时的检验。,模型中不含自
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 莱阳团建活动方案
- 食堂一周年活动方案
- 麦当劳新品试吃活动方案
- 餐厅媒体活动方案
- 部门组织做饭活动方案
- 光模块考试题及答案
- 古诗格子考试题及答案
- 各地联考试题及答案
- 分选培训考试题及答案
- 防灾知识考试题及答案
- 2025年工地安全员培训考试试题及答案
- 文明有礼+课件-2025-2026学年统编版道德与法治八年级上册
- 供水设备运行维护与保养技术方案
- 木雕工艺课件
- 2025年2个清单28个问题查摆整改措施
- 摩擦力影响因素实验报告范本
- 教育系统应急知识培训课件
- 基坑防护课件
- 2025年黑龙江省龙东地区中考英语真题含答案
- 医疗器械生产质量管理规范2025版
- 2025年医护人员法律法规知识考试题库及答案(一)
评论
0/150
提交评论