logistic回归_第1页
logistic回归_第2页
logistic回归_第3页
logistic回归_第4页
logistic回归_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、LogisticLogistic 回归筛选影响因素校正混杂效应进行疾病预测医学研究线性回归因变量连续定量变量自变量与应变量为线性关系LogisticLogistic回归因变量为分类变量自变量与因变量为非线性关系目的:目的:作出以多个自变量(危险因素)估计应作出以多个自变量(危险因素)估计应 变量(结果因素)的变量(结果因素)的logisticlogistic回归方程。属于回归方程。属于概率型非线性回归。概率型非线性回归。LogisticLogistic回归适用范围资料:资料:1. 1. 应变量为反映某现象发生与不发生应变量为反映某现象发生与不发生的二值变量;的二值变量; 2. 2. 自变量宜全

2、部或大部分为分类变量,自变量宜全部或大部分为分类变量,可有少数数值变量。分类变量要数量化。可有少数数值变量。分类变量要数量化。LogisticLogistic回归适用范围用途:用途:研究某种疾病或现象发生和多个危险研究某种疾病或现象发生和多个危险因素(或保护因子)的数量关系。因素(或保护因子)的数量关系。 用用 检验(或检验(或u u检验)的检验)的局限性局限性: 1. 1.只能研究只能研究1 1个危险因素;个危险因素; 2. 2.只能得出定性结论。只能得出定性结论。2分类LogisticLogistic回归多分类资料logistic回归:因变量多分类变量二分类资料logistic回归:因变量

3、二分类变量多项分类logistic回归模型或有序分类logistic回归模型非条件logistic回归-非配比病例-对照研究或队列研究条件logistic回归-配对或配比资料统计学概念队列研究相对危险度(RR)病例对照研究危险度比数比或优势比(OR)队列研究也称前瞻性研究、随访研究等。是一种由因及果的研究,在研究开始时,根据以往有无暴露经历,将研究人群分为暴露人群和非暴露人群,在一定时期内,随访观察和比较两组人群的发病率或死亡率。如果两组人群发病率或死亡率差别有统计学意义,则认为暴露和疾病间存在联系。LogisticLogistic回归研究人群研究人群+ +- -+ + +- - -比较比较疾

4、病疾病人数人数暴露暴露abcda a/( /(a+ba+b) )c c/( /(c+dc+d ) )相对危险度LogisticLogistic回归RRRR(相对危险度(相对危险度relative riskrelative risk):):表示暴露组与非暴露组发病率(或死亡率)的比值。也称为危险比(risk ratio)。反映了暴露与疾病发生的关联强度。RR表明暴露组发病或死亡的危险是非暴露组的多少倍。相对危险度LogisticLogistic回归RRRR1 1:表示该因素为危险因素,使发病危险度增大:表示该因素为危险因素,使发病危险度增大RRRR1 1:表示该因素为保护因素,使发病危险度减小:

5、表示该因素为保护因素,使发病危险度减小RR=1RR=1:表示该因素对疾病的发病无影响。:表示该因素对疾病的发病无影响。病例对照研究LogisticLogistic回归一种一种由果及因由果及因的回顾性研究,先按的回顾性研究,先按疾病状态疾病状态确定调查确定调查对象,分为病例和对照两组,然后利用已有的记录、或采对象,分为病例和对照两组,然后利用已有的记录、或采用询问、填写调查表等方式,了解其用询问、填写调查表等方式,了解其发病前发病前的的暴露情况暴露情况,并进行比较,推测疾病与暴露间的关系。并进行比较,推测疾病与暴露间的关系。+-病例病例+-对照对照abcda/(a+b)c/(c+d)比较比较人数

6、人数暴露暴露疾病疾病比数比LogisticLogistic回归比数比LogisticLogistic回归相对危险度相对危险度RRRR的本质是暴露组与非暴露组发病率之比或发病概率之的本质是暴露组与非暴露组发病率之比或发病概率之比。但病例对照研究不能计算发病率,只能计算比值比比。但病例对照研究不能计算发病率,只能计算比值比OROR值。值。OROR与与RRRR的含义是相同的,也是指暴露组的疾病危险性为非暴露组的多的含义是相同的,也是指暴露组的疾病危险性为非暴露组的多少倍。当疾病发病率小于少倍。当疾病发病率小于5%5%时,时,OROR是是RRRR的极好近似值。的极好近似值。OROR11, ,说明说明

7、该因素是疾病的危险性增加,为危险因素;该因素是疾病的危险性增加,为危险因素;OROR1,0, 1 0, 1 jjjjjjOROROROR无作用危险因保子护因子则有101 , 1, 0 jccX暴非若暴露露10 exp()jjORcc即 模型意义LogisticLogistic回归对于发病率很低的慢性疾病如心脑血管病、恶对于发病率很低的慢性疾病如心脑血管病、恶性肿瘤等,优势比可作为相对危险度(性肿瘤等,优势比可作为相对危险度(relative relative risk ,risk ,RRRR)的近似估计。)的近似估计。即111000(1)(1)PPPORRRPPP 假设检验LogisticLo

8、gistic回归检验假设为:H0:所有 H1:pii, 2 , 1 , 0, 0 0i常用的检验方法有以下三种:似然比检验Wald检验记分检验似然比检验LogisticLogistic回归-2ln-2lnL L近似服从近似服从 分布分布 G G = 2(ln= 2(lnL L1 1-ln-lnL L0 0)= 2ln)= 2ln(L L1 1/ /L L0 0) =p-l=p-l2自变量X引入回归方程L0、L1若L0/L1=1,则接受H1,拒绝H0.似然比检验LogisticLogistic回归具体方法是:先拟合不包含待检验因素的logistic模型,求对数似然函数值;再拟合包含待检验因素的l

9、ogistic模型,求另一个对数似然函数值;比较两个对数似然函数值差别的大小2d2lndGDD 不包含此变量的模型 包含此变量的模型不含此变量的似然函数含此变量的似然函数Wald检验LogisticLogistic回归2, 1jjjjbbbbuSS2 或 记分检验LogisticLogistic回归以未包含某个或几个变量的模型计算保留模以未包含某个或几个变量的模型计算保留模型中参数的估计值,并假设新增参数为零,计型中参数的估计值,并假设新增参数为零,计算似然函数的一价偏导数及信息距阵,两者相算似然函数的一价偏导数及信息距阵,两者相乘便得比分检验的统计量乘便得比分检验的统计量S S 。n n 较

10、大时,较大时, S S近似近似服从自由度为待检因素个数的服从自由度为待检因素个数的 分布。分布。 比较LogisticLogistic回归以上三种方法中,在多数情况下,以上三种方法中,在多数情况下,似然比似然比检验是最有效的检验检验是最有效的检验,记分检验一般与它相,记分检验一般与它相一致。但两者计算量均较大;一致。但两者计算量均较大;WaldWald检验检验主要用于对单个回归系数的检验,主要用于对单个回归系数的检验,但是但是WaldWald检验未考虑各因素间的综合作用,检验未考虑各因素间的综合作用,比较保守,在因素间有共线性存在时比较保守,在因素间有共线性存在时, ,结果不结果不像其它两者可

11、靠像其它两者可靠。 一般过程LogisticLogistic回归变量的选择变量的选择建立建立logisticlogistic回归模型时,要求进入模型的自变回归模型时,要求进入模型的自变量应对反应变量有解释能力。通常研究者根据量应对反应变量有解释能力。通常研究者根据专业知识和研究的问题,首先确定要研究的反专业知识和研究的问题,首先确定要研究的反应变量和自变量应变量和自变量单因素分析单因素分析( (变量的粗略选择变量的粗略选择) )用单因素分析对自变量进行筛选:卡方检验、用单因素分析对自变量进行筛选:卡方检验、t t检验或单因素的检验或单因素的logisticlogistic回归回归 一般过程Lo

12、gisticLogistic回归 条件logistic回归LogisticLogistic回归病例与对照匹配病例与对照匹配即要求对照在即要求对照在某些因素或特征某些因素或特征上与病例上与病例保保持一致持一致,目的目的是对两组比较时是对两组比较时排除混杂因排除混杂因素素的干扰。匹配分为成组匹配和个体匹配。的干扰。匹配分为成组匹配和个体匹配。 条件logistic回归LogisticLogistic回归1、成组匹配(category matching):匹配的因素所占的比例,在对照组和在病例组一致。如病例组中男女各半,65岁以上者占1/3,则对照组也是如此。2、个体匹配(individual ma

13、tching):以病例和对照的个体为单位进行匹配叫个体匹配,每一个病例与M个与它条件相一致的对照形成一个匹配组。1:1匹配又叫配对(pair matching), 1:2, ,1:m匹配时称为匹配。 匹配的特征必须是已知的混杂因子,或者有充分的理由怀疑其为混杂因子,否则不应匹配。 条件logistic回归LogisticLogistic回归 应用LogisticLogistic回归 矫正混杂因素矫正混杂因素 筛选影响因素筛选影响因素 疾病预测和预后疾病预测和预后ROCROC曲线曲线涵义与起源ROCROC曲线曲线ROCROC【receiverreceiver(relative) operatin

14、g characteristic(relative) operating characteristic的缩的缩写,译为写,译为“接受者工作特征接受者工作特征”】ROCROC曲线研究历史曲线研究历史1950s 1950s 雷达雷达信号观测能力评价信号观测能力评价1960s1960s中期中期 实验心理学实验心理学、心理物理学、心理物理学1970s1970s末与末与1980s1980s初初 诊断医学诊断医学诊断试验评价四格表ROCROC曲线曲线待评价的诊断方待评价的诊断方法法标准诊断方法标准诊断方法合计合计有病(阳性)有病(阳性)无病(阴性)无病(阴性)有病(阳性)有病(阳性)a a(真阳性)(真阳

15、性)b b(假阳性)(假阳性)a+ba+b无病(阴性)无病(阴性)c c(假阳性)(假阳性)d d(真阴性)(真阴性)c+dc+d合计合计a+ca+cb+db+dn n(= =a+b+c+da+b+c+d)灵敏度:真阳性率灵敏度:真阳性率,表示实际患病者且被待评价的诊断方法,表示实际患病者且被待评价的诊断方法诊断为患者的概率,反映了待评价的诊断方法检出患者能力诊断为患者的概率,反映了待评价的诊断方法检出患者能力Se=a/Se=a/( (a+ca+c) )特异特异度:真阴性率度:真阴性率,表示实际未患病患者且被待评价的诊断,表示实际未患病患者且被待评价的诊断方法诊断为非患者的概率,反映了待评价的

16、诊断方法检出非患者方法诊断为非患者的概率,反映了待评价的诊断方法检出非患者的能力的能力Sp=d/(Sp=d/(b+db+d) )ROC曲线ROCROC曲线曲线完美诊断试验完美诊断试验0.00.20.40.60.81.00.00.20.40.60.81.0FPRTPR1- 1-特异度特异度灵敏度灵敏度完美诊断试验完美诊断试验FPR无用诊断试验无用诊断试验0.00.20.40.60.81.00.00.20.40.60.81.0FPRTPRROC曲线分析中将不同诊断分界点下的灵敏度和(1-特异度)确定为曲线上的一个操作点,灵敏度为纵坐标,(1-特异度)为横坐标。参考线参考线曲线下面积ROCROC曲线曲线ROC曲线下面积(AUC):用于定量地反应诊断试验的准确性大小。取值范围0.51.ROC曲线下面积(曲线下面积(Area)与诊断准确度高低)与诊断准确度高低高 0.90-1.00 = excellent (A)中 0.8

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论