生存分析医学课件_第1页
生存分析医学课件_第2页
生存分析医学课件_第3页
生存分析医学课件_第4页
生存分析医学课件_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生存分析 Survival Analysis,公共卫生学院卫生统计学教研室,一、概 述,传统方法在分析随访资料时存在困难: 时间和生存结局都成为了要关心的因素 如果将结局和时间均作为因变量拟和多元模型,由于时间分布不明(一般不呈正态分布,在不同情况下的分布规律也不同),拟和多元模型极为困难。 存在大量删失资料 将失访数据无论是算作死亡还是存活都不合理,时间判定存在难度。失去联系;无法观察到结局(死于其他原因);研究截止。,生存分析的应用 可用于现场追踪研究、临床疗效试验、疾病预后分析等与时间相关的分析,生存时间的涵义也随之扩展到更广义的范围,又称为时间-效应分析(time-effect analysis)。其研究内容主要包括3方面内容: 对生存状况进行统计描述(生存概率、生存率、中位生存期等); 寻找影响生存时间的“危险因素”和“保护因素”; 估计生存率和生存时间长短,进行预后评价。,生存分析(survival analysis): 是将终点事件(terminal event)的出现与否及其出现所经历的时间结合起来分析的统计方法。由于通常研究的终点事件为死亡,故而得名生存分析,但生存分析更广泛地用于各学科研究领域的事件分析,如设备的失效、疾病的发生和预后等,因此也被称为可靠性分析(reliability analysis)、失效时间分析(failure time analysis)等。 生存时间(survival time): 指从某个起始事件开始到某个终点事件的发生(出现反应)所经历的时间,终点事件称为失效,则生存时间也称失效时间(failure time)。,3. 基本概念,根据是否观察到研究对象的结局,将生存时间数据的分为两类: 完全数据(complete data):观察对象在观察期内出现终点事件,这时记录到的时间信息是完整的,这种生存时间数据称为完全数据。 截尾数据 (censored data) :亦称截尾值、删失数据,指在尚未观察到研究对象出现终点事件时,即由于某种原因停止了随访,这时记录到的时间信息是不完整的,这种生存时间数据称为不完全数据或截尾值。常用符号“”表示。,产生删失的原因 失访:生存但中途失访,如拒绝访问、失去联系等。 退出:中途退出试验或改变治疗方案或死于其它与研究无关的原因。 终止:指研究结束时终点事件尚未发生。,研究起始,研究终点,* 终点事件 + 截尾值,+,+,*,*,+,+,*,(5) 生存时间的特点: 同时考虑生存结局和生存时间; 生存时间可能含有删失数据; 生存时间的分布和常见的统计分布有明显不同,如呈指数分布Weibu11分布、对数正态分布、对数logistic分布、gamma分布或更为复杂的分布,因此需有能分析这类数据的特殊的统计方法; 生存时间的影响因素多而复杂且不易控制。,死亡概率和生存概率 死亡概率(probability of death)表示某单位时段开始时存活的个体在该时段内死亡的可能性,如年死亡概率表示年初尚存人口在今后1年内死亡的可能性。 生存概率(probability of survival)表示某单位时段开始时存活的个体到该时段结束时仍存活的可能性,如年生存概率表示年初尚存人口存活满一年的可能性。,生存率 生存率(survival rate),又称累积生存概率(cumulative probability of survival),指观察对象经历t个单位时段后仍存活的可能性。累积生存概率随着时间t的变化而变化,它是时间t的函数,称为生存函数(survival function)。 如资料中无删失数据,则直接计算生存率。 若含有删失数据,须分时段计算生存概率。,中位生存期 中位生存期(median survival time)又称半数生存期,表示恰有50%的个体尚存活的时间。中位生存期越长,表示疾病的预后越好;反之,预后越差。估计中位生存期常用图解法或线性内播法。 风险函数 风险函数(hazard function),表示t时刻存活的个体在t时刻的瞬时死亡率。 t=1时,h(t)近似地等于t时刻存活的个体在此后一个单位时段内的死亡概率。,二、 生存率估计,生存率估计主要有寿命表法和Kaplan-Meier法。 寿命表法适用于大样本或粗略的生存时间资料; Kaplan-Meier法适用于小样本或大样本且有精确生存时间的资料。 两者均应用定群寿命表的基本原理,先求出各个时段的生存概率,然后根据概率乘法定理计算生存率。,1. 寿命表法,当样本量较大时,通常将资料先整理成频数表形式,用寿命表法计算样本资料的生存率及生存率的标准误。寿命表法(life table method)是采用编制定群寿命表的原理来计算生存率,首先求出患者在治疗后或健康者在预防措施后各时期的生存概率,然后根据概率的乘法法则,将各时期的生存概率相乘,即可得到自观察开始到各时点的生存率。,表1 寿命表法估计生存率计算表,图1 某恶性肿瘤生存曲线(寿命表法),曲线折线形:因不知道时段内生存率的变化规律,故用直线连接各端点,形成一条折线。 曲线连续:可估计任意时点的纵坐标值(生存率)。 曲线尾部稳定性好:寿命表法用于大样本,通常最后一个时段仍有一定观察例数,故曲线尾部稳定性较好。,2. Kaplan-Meier法,图3 肿瘤3.0cm组和肿瘤3cm组生存曲线(K-M法),寿命表法死亡概率计算为当期死亡数/有效例数。 K-M法的死亡概率为当期死亡数/期初例数。,生存曲线特点,曲线左连续:每一级台阶的右端为断点,当前死亡时点处的纵坐标值在下一个台阶。 曲线阶梯形:不能用直线或曲线连接相邻的两个生存率散点。平缓的生存曲线表示高生存率或较长生存期,陡峭的生存曲线表示低生存率或较短生存期。 曲线尾部不稳定:随着时间的增加,观察例数越来越少,误差越来越大,尾部极不稳定。多组比较时,常发生曲线尾部交叉现象。 计算中位生存期:找到与生存率50%相邻的上下两个生存率及其生存时间,利用线性比例关系求解中位生存期。,3. 生存率的区间估计,避免生存率接近0或100%时,出现超过0,1的范围,三、生存率的比较,生存率比较的假设检验方法有参数法、半参数法和非参数法。因医学研究中的生存时间资料大多为不规则分布或者分布未知,常采用非参数法进行假设检验。非参数法是将生存率曲线作为整体进行曲线与曲线之间的比较,其零假设为各总体生存率曲线相同。 常用的非参数检验方法有log-rank检验(时序检验)、 Breslow检验和Gehan比分检验等。,1. 时序(log-rank)检验,由Mantel等人于1966年提出。 基本思想:在无效假设成立的前提下,根据不同处理各生存时期的期初观察人数和理论死亡概率计算出的理论死亡数应该与实际死亡数相差不大;如果相差较大,则可认为生存曲线间有统计学差异。检验统计量近似服从自由度为(组数一1)的c2分布,,表2 肿瘤患者生存曲钱比较的log-rank检验计算表,2. Breslow 检验,Breslow检验(又称Wilcoxon检验),c2统计量计算如下。其中,d、T、V等的意义同log-rank检验,wi为权重。Breslow检验取wi=ni,log-rank检验可看作wi=1。ni通常逐渐减小,所以Breslow检验给组间死亡的近期差别更大的权重,即对近期差异敏感;而log-rank检给组间死亡的远期差别更大的权重,即对远期差异敏感。,Log-rank Test and Wilcoxon Test,由于权重不同,由两种方法得到差别有统计学意义的难易度随生存函数的不同而不同。,A Log-rank检验 易有统计学意义,时间,0,1,生 存 率,B Wilcoxon检验 易有统计学意义,时间,0,1,生 存 率,C 两种检验方法都 不易有统计学差异,时间,0,1,生 存 率,Log-rank检验和Breslow检验也适用于寿命表资料及多组生存率间的比较。 实际死亡数A与理论死亡数T之比称为相对死亡比(relative death ratio),R=A/T。则相对危险度(relative risk, RR)估计值为两组相对死亡比之比。 Log-rank检验属单因素分析方法,应用条件是除比较因素外,影响生存率的各混杂因素组间均衡可比,否则应采用Cox比例风险回归模型校正各混杂因素的影响。,3.0cm,3.0cm,四、Cox比例风险回归模型,多重线性回归:因变量为连续变量 Logistic回归:因变量为分类变量 Cox回归:生存结局及其出现的时间。 假设危险因素通过影响各时刻死亡风险(即危险率)而影响生存率,不同人群在不同时刻的危险率函数不同,通常将危险率函数表达为基准危险率函数与相应协变量函数的乘积,对于协变量函数,最常用的是对数线性模型。,其中X1,X2,Xm为协变量或影响因素;h(t)为具有协变量X1,X2,Xm的个体在t时刻的风险函数,近似地表示t时刻存活的个体在t+1时刻的死亡概率;h0(t)为t的未知函数,即X1=X2=Xm=0时,t时刻的风险函数,称为基准风险函数(baseline hazard)。b1,b2,bm为各协变量所对应的回归系数。由于个体在t时刻的风险函数为两个因子的乘积,第一个因子为基准风险函数h0(t);第二个因子为以m个固定协变量与相应回归系数的线性组合为指数的指数函数,其中协变量效应具有参数模型的形式,所以Cox模型实为半参数模型(semi-parametric model)。,任两个个体风险函数之比,即风险比(risk ratio,RR)或相对危险度(relative risk,RR)。,该比值与h0(t)无关,即模型中协变量效应不随时间改变,称为比例风险假定(assumption of proportional hazard),简称PH假定,Cox模型亦称比例风险模型。,左边为相对危险度的自然对数,右边为协变量的变化量与相应回归系数的线性组合。故bi的实际意义是:在其他协变量不变条件下,变量每增加一个单位引起的相对危险度的自然对数;而exp(bi)的实际意义则是:在其他协变量不变条件下,变量每增加一个单位所引起的相对危险度变化。 当bi0时,exp(bi)1,说明Xi增加时风险函数增加,即Xi为危险因素;当bi0时,exp(bi)1,说明Xi增加时风险函数下降,即Xi为保护因素.当bi=0时,exp(bi)=1,说明Xi增加时风险函数不变,即Xi为危险无关因素。,回归系数bi的估什借助部分似然(partial likelihood)理论。Cox比例风险模型的似然函数可分解为两部分:第1部分与h0(t)和b有关,第2部分只与b有关,部分似然估计只考虑第2部分,采用最大似然估计得到回归系数估计值。部分似然估计的最大优点是不需确定基准风险函数h0(t)的形式就能估计回归系数b,部分似然估计的另一特性是仅与生存时间的排序有关,而不是生存时间的数值大小,这意味着生存时间的单调变换,如对生存时间加一个常数、乘以一个常数或取对数,都不会改变回归系数的括计值。,回归系数的检验方法,有三种。 Score检验:常用于模型中新变量的引入; Wald检验:常用于模型中不重要变量的剔除; 似然比检验:常用于模型中不重要变量的剔除和新变量的引入。 以上三种检验方法均为c2检验,自由度为模型中待检验的参数个数。,例3:某医院泌尿外科医师选择1996-2000年间经手术治疗的膀胱肿瘤患者30例,对可能影响膀胱肿瘤术后生存的因素进行了调查,研究者不仅要看是否出现了感兴趣的终点事件或结局(死亡),还关心出现该结局所经历的时间长短,研究数据录入SPSS。,Cox 回归分析应用,筛选危险因素:强行进入、前向逐步、后退逐步等方法; 校正混杂因素:分析危险因素,增加混杂因素; 多因素生存预测:预后指数(prognostic index,PI),常数,PI,估计生存率,PH假定的检测,检查某协变量是否满足PH假定,最简单的方法是观察按该变量分组的Kaplan-Meier生存曲线,若生存曲线交叉,提示不满足PH假定。第二种方法是绘制按该变量分组的ln-lnS(t)对生存时间t的图,曲线应大致平行或等距,如各协变量均满足或近似满足PH假定,可直接应用基本Cox模型。,age,size,grade,relapse,五、条件Logistic回归分析,在设计阶段采用配对(匹配)方法对可能的混杂因素加以控制,有助于提高研究效率和可靠性。所谓的匹配研究指的是在病例-对照研究中,对每一个或几个病例配以性别、年龄或其它条件相似的一个(1:1)或几个(1:M)对照。 分析匹配资料的统计分析方法一般采用条件Logistic回归分析。 条件Logistic回归分析的数学模型以及分析原理方法均和非条件Logistic回归分析类似。因为参数的估计公式涉及到条件概率理论,所以称为条件Logistic回归分析。,包括SPSS和SAS在内的多数统计软件都没有为配对Logistic模型提供直接拟合的方法,可通过模型的原理,将数据格式略加变换后采用其他方法来拟合。有两种方法最为常用: 用变量差值拟合:只适用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论