培训资料生存分析2016_第1页
培训资料生存分析2016_第2页
培训资料生存分析2016_第3页
培训资料生存分析2016_第4页
培训资料生存分析2016_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国疾病预防控制中心 生存分析 于石成 2016-05-18 中国疾病预防控制中心 讲授内容 一、生存分析概述 二、描述生存过程 三、生存曲线的比较 四、Cox比例风险模型 五、小结 中国疾病预防控制中心 一、生存分析概述 p生存分析就是根据试验或调查得到的数 据, 对生物或人的生存时间进行分析和统 计推断。 对癌症病人的生存时间研究,白血病病人从治疗 到复发的时间进行研究; 对电子设备 (如灯泡) 寿命的研究; 第一次婚姻维持时间的分析等 (社会学)。 中国疾病预防控制中心 生存时间: p狭义的理解, 生存时间是指从发病到死亡所 经历的事件跨度。 p从广义的角度讲,是从某种起始事件到达 某种终点事件所经历的时间跨度。 中国疾病预防控制中心 起始事件 失效事件 疾病确诊 死亡 治疗开始 痊愈 出院时间 疾病复发 接触危险因素 发病 电灯泡开始使用时间 电灯泡报废时间 新产品上市时间 新产品被使用时间 中国疾病预防控制中心 p完全数据:观察到了病人的预期终点(失 效事件发生),该病人所提供的关于生存 时间的信息是完整的。 p截尾数据(censored data):由于失访、 死于其它疾病或研究工作结束时事件尚 未发生,未能达到预期的终点,提供的 只是不完整的数据信息。 中国疾病预防控制中心 p病人开始随访时间:诊断、治疗、手术、出院; p病人截止随访的时间; p截止随访的原因: p有关影响预后因素,如年龄、文化程度以及 职业、病程、病型、术前健康状况等,以分 析各因素对生存率的影响。 中国疾病预防控制中心 p生存时间存在不完全数据,不能按照以往的 处理缺失值的方法处理生存数据。 p生存时间通常不服从正态分布(一般为正偏 态分布),因此常用的t检验、F检验等不适 用于对生存资料的分析。 中国疾病预防控制中心 几个概念: 中国疾病预防控制中心 死亡概率表示年初人口在往后一年中死亡机会的大小。 中国疾病预防控制中心 中国疾病预防控制中心 p生存率(survival rate)或生存函数(survival function): 病人经过t个时段后仍存活的可能性。生存率通常随 时间 t 的变化而变化,是时间 t 的函数,故又称为生 存函数,记为S(t), 0S(t)1。如资料中无删失数据, 直接法计算生存率的公式: p若有删失数据,须分段计算生存概率。假定观察对象 在各个时段的生存事件独立,应用概率乘法定理将分 段生存概率相乘得到生存率。 中国疾病预防控制中心 p生存概率和生存率的区别: 前者为单位时段上存活的条件概率; 后者为从t0开始连续若干时段上存活的概率。 中国疾病预防控制中心 描述生存过程: p研究生存时间的分布特点,估计生存率; p获得生存率曲线,了解生存率随时间的变化趋势; p计算平均/中位生存时间。 1. Kaplan-Meier法 由Kaplan和Meier于1958年提出,又称乘积极限法( product-limit method)。 二、描述生存过程 中国疾病预防控制中心 pKM法原理: 建立在条件概率和概率乘法原理基础上。 p生存率与条件概率 S(2) 2年生存率 S(1) 1年生存率。 S(2|1) 生存1年条件下,再能生存一年的概率。 S(2) = S(1)*S(2|1) 中国疾病预防控制中心 例题 1:某种治疗方案治疗肺癌患者11例,随 访时间(月)记录如下: 1,2,3,5,6,9,11,13,16,26,37 试估计各时点生存率及标准误。 中国疾病预防控制中心 中国疾病预防控制中心 生存率的标准误和总体生存率95%可信区间: 从样本资料计算的生存率是总体生存率的点 估计,可据此进行总体生存率的区间估计。 中国疾病预防控制中心 中国疾病预防控制中心 中位生存时间(median survival time) p表示恰有50的个体还存活的时间。从意义上 讲,这是一种百分数,但因有删失数据,不 是寿命的真值,所以不能采用普通的百分位 数的公式计算。 p生存函数S(t) 0.5时,对应的时间即中位生 存时间。 中国疾病预防控制中心 p 图示法:结果不一定准确。 生存率为0.5的曲线正好与x轴平行,那中位生存期不止一个; 若曲线上生存率全大于0.5,中位生存时间无法估计。 p 线性内插法: 中国疾病预防控制中心 平均生存时间(mean survival time) p平均生存时间即生存曲线与 x及y轴围成的面积 。 中国疾病预防控制中心 2. 寿命表法 n例题 2: 某肿瘤医院总结随访了15年来曾在该医院住 院手术的乳腺癌病人607例,结果见表2。拟 分析该院乳腺癌病人手术后的生存率。 中国疾病预防控制中心 中国疾病预防控制中心 中国疾病预防控制中心 中国疾病预防控制中心 三、生存曲线的比较 log-rank检验 n基本思想是:实际死亡数与期望死亡数之间的 比较。它是对各组生存率作整体的比较;适用 于两组及多组生存率的比较。 n生存过程的比较:获得生存率与标准误后,进 行两组或多组研究样本的生存率的比较。 中国疾病预防控制中心 对数秩检验步骤 1. 将两组资料混合后统一从小到大排 序; 2. 计算各组在时间 ti上的期望死亡数; 3. 分组对期望死亡数求和; 4. 计算卡方统计量。 中国疾病预防控制中心 中国疾病预防控制中心 p例 3:22例期非小细胞肺癌患者在不同日期经 随机化分配到放疗组和放化疗联合组,从缓解 出院日开始随访,随访时间(月)如下,试比 较放疗和放化疗联合两种治疗方案的生存曲线 有无差别。 p 第一组:放疗组 1,2,3,5,6,9,11,13,16,26,37 p 第二组:放化疗联合组 10,11,14,18,22,22,26,32,38,40,42 中国疾病预防控制中心 中国疾病预防控制中心 中国疾病预防控制中心 中国疾病预防控制中心 SAS程序 pProc lifetest options; pTime variable*censor (删失值); pStrata variable; pFreq 变量; pRun; 中国疾病预防控制中心 选择项 pMethod=PL /LT KM LIFE缺省为PL法 p在LT法中,可规定 Intervals=一组数字 规定时间段的起点 Intervals=(o to n by n2) Width=value 寿命表计算时的区间宽度 pPlots=(s, ls , lls,h) 中国疾病预防控制中心 生存曲线的比较总结: plog-rank检验检验 p 将两组非删失时间混合从小到大排序,得多个四格表,aj和 ej分别为第j个四格表中某组死亡数的实际频数和理论频数, vj为aj的方差。 Group 1 Group 2 EventNo Event a b cd 中国疾病预防控制中心 pWilcoxon检验检验 (SPSS中称为为Breslow检验检验 ) paj和ej分别为第j个四格表中某组死亡数的实际频数和 理论频数, vj为aj的方差。Nj为为第j个四格表的例数。 plog-rank检验检验 与Wilcoxon检验检验 的公式相似,但log- rank检验权检验权 重为为1,而Wilcoxon检验检验 的权权重为为Nj 。 中国疾病预防控制中心 pLog-rank检验和Wilcoxon检验统计量的一 般形式: 中国疾病预防控制中心 p似然比检验检验 p其中Nj是第j组的结局例数,Tj是第j组的总时间。 p似然比检验与log-rank检验、Wilcoxon检验不同, 通常用于服从指数分布的数据。 中国疾病预防控制中心 三种检验检验 方法的选择选择 : p大样样本情况下,三种方法的结结果是一致 的; p文献中最常报报道的是log-rank检验检验 ; p三种检验结检验结 果不一致时时,需结结合生存曲 线线、对对数生存曲线线、二次对对数生存曲线线 等来判断。 中国疾病预防控制中心 p生存曲线(S)图:以生存率估计值为纵计值为纵 坐 标标,时间为时间为 横坐标标。 p对对数生存曲线线(LS)图图:以生存率估计值计值 的对对数为纵为纵 坐标标,以时间为时间为 横坐标标。 p二次对对数生存曲线线(LLS)图图:以生存率 估计值计值 的对对数的对对数为纵为纵 坐标标,以时时 间间的对对数为为横坐标标。 中国疾病预防控制中心 三种检验检验 方法结结果不同时选时选 哪个? p似然比检验检验 :通常只用于LS图图近似为为直线线 ,也就是服从指数分布的情形,其它情况下 效率较较低。 pLog-rank检验检验 :当LLS图图中曲线线近似为为直线线 时时,或S图图的两条曲线线大致平行时时,效率较较 高。 pWilcoxon检验检验 :当S图图中的曲线线有交叉时时, Wilcoxon检验检验 的效率高于log-rank检验检验 和似 然比检验检验 。 中国疾病预防控制中心 Logrank检验检验 与Wilcoxon检验检验 比较较: pWilcoxon检验对生存时间较短的个体赋予较大权重, 更容易检验出早期的差异。 pLogrank检验对所有死亡时间赋予相等的权重,对后期 曲线差别的检验更为敏感。 p如果log-rank检验有意义而Wilcoxon检验无意义,表明 远期的生存差异较大,近期生存差别不大。 p如果log-rank检验无意义而Wilcoxon检验有意义,表明 近期生存差别较大,远期生存差异不大。 p如果两种检验都有意义,则表明近期和远期的差异均 较大。 中国疾病预防控制中心 四、Cox比例风险模型 预后因素: p生存时间不仅与治疗措施有关,而且还与病人 的年龄、体质、病情的轻重等有关,这类因素 统称为预后因素或伴随变量或协变量。 p预后因素可以是连续变量、离散型变量、 Categorical, 也可以是两个变量的交互项。 中国疾病预防控制中心 (一)问题的提出 p生存资料的特点; n存在删失数据 n生存时间分布常常不服从正态分布 p多重线性回归模型假设生存时间服从正态分布; plogistic须把生存时间分为二分类,损失信息; p拟合其它生存分布模型,必须预先知道生存时间 的分布。 中国疾病预防控制中心 (二)Cox比例风险模型 1972年,由英国的生物统计学家D. R. Cox 提出比例风险模型。 中国疾病预防控制中心 风险函数 ( hazard function ) p描述生存时间分布的一个重要函数。如 终点事件为死亡,风险函数表示t时刻仍 存活的病人在t时刻的瞬间死亡率。 称瞬时死亡率或条件死亡速率。 中国疾病预防控制中心 p假设总共观察了n例病人。第i例病人的生存 时间为ti,同时该病人具有Xi1、Xi2、Xip 的伴随变量值。 pCox提出的比例风险模型是:第i名病人生存 到时间t的风险函数(hazard function)是 基础风险函数与自变量的函数的乘积。 中国疾病预防控制中心 中国疾病预防控制中心 Cox比例风险模型 ph0(t)称为基础风险函数。即当所有的伴随变 量都为0时的风险函数。 Cox模型是一个风险比对数的线性模型 。 中国疾病预防控制中心 中国疾病预防控制中心 (三)的意义 p相对风险度的自然对数; pj实际意义是:当伴随变量Xj每改变一个单位 时所引起的相对风险度的自然对数的改变量; p不仅反映出协变量的作用强度,而且反映它 的作用方向。 中国疾病预防控制中心 (四)Cox模型比例风险的含义 p 假定所有预后因素的作用强度在所有时间上都保持 一致;即具有某预后因素的病人的死亡风险和不具 有该因素的病人的死亡风险在所有的时间上都保持 一个恒定的比例。 p 任两个个体(i,j)风险函数之比,即风险比(risk ratio或 hazard ratio, HR)与 无关, 也与时间t无关,即模 型中的自变量效应不随时间而改变,称为比例风险 假定(PH假定)。 中国疾病预防控制中心 (五)验证等比例的方法 p绘制协变量不同水平时的Kaplan-Meier曲线 ,如果曲线相交,则等比例风险不成立; p绘制协变量不同水平时log(log(生存率)与 logT的趋势图,如几条线是平行的,则等比 例成立; 中国疾病预防控制中心 p在模型中增加协变量与时间的交互作用项,考察该 交互作用项是否有统计学意义,如无统计学意义, 则等比例成立。 pSchoenfeld残差法:如果Schoenfeld残差与时间t 无明显的变化趋势,即残差与时间t无关,则提示 符合等比例风险假设。 pProc phreg; Proc GPLOT; pModel time*status(0)=group; Plot sch*time; pStrata age; Run; pOutput out=res ressch=sch; 中国疾病预防控制中心 (六)Cox模型参数估计 p采用部分最大似然估计(Partial Maximum Likelihood,PML) p通常的似然函数是基于结果变量的分布,而 Cox模型没有假定任何分布,因此无法建立基 于分布的似然函数。 pCox模型采用的是基于事件发生顺序而不是联 合分布建立的函数,称为部分似然函数。 中国疾病预防控制中心 部分最大似然估计计(PML)思想: p考虑如下数据: p构建部分似然函数: IDtimestatussmokingHazard 甲211h0(t)exp(1) 乙310h0(t)exp(0) 丙500h0(t)exp(0) 丁811h0(t)exp(1) 中国疾病预防控制中心 p部分似然函数的推广: p假定有k个发生事件的时间,令Lj表示相应于 第j个发生事件时间的似然值,则Cox回归的 似然就是这k项的乘积,即 p令L达到最大的参数值,即为求回归参数的过 程,通过对L取对数,对每个参数求偏导数, 并令等于0,解方程组即可。 中国疾病预防控制中心 (七)Cox模型参数检验 p假设检验方法类似于logistic回归,有似然比检 验和Wald检验。两种检验统计量均服从卡方 分布,自由度等于模型中参数的个数。 (1)Wald检验: 中国疾病预防控制中心 (2)似然比检验 p 大样本情况下,两种方法结果一致,样本较小时不一 致,通常似然比检验更加稳定。 中国疾病预防控制中心 p等比例Cox回归归模型: p非等比例Cox回归归模型: (八)非等比例Cox回归模型 n参数估计方法,同等比例的Cox回归模型。 n参数估计值的检验方法,同等比例的Cox回 归模型。 中国疾病预防控制中心 p如何处理非等比例: (1)分层:将非等比例的变量分层,但作为分 层的变量将无法估计其效应。因此一般只用于 协变量。 (2)分段估计:从交叉点处划分成多个区间, 在每个区间内是等比例的,分别对每个区间估 计。 (3)在模型中加入非等比例变量与时间的交互 项。 中国疾病预防控制中心 例题 p为探讨某恶性肿瘤的预后,收集了63例病 人的生存时间、结局及影响因素。影响因 素包括病人的治疗方式、肿瘤的浸润程度 、组织学类型、是否有淋巴结转移及病人 的性别、年龄,生存时间以月计算,试用 Cox模型进行分析。 中国疾病预防控制中心 中国疾病预防控制中心 中国疾病预防控制中心 SAS程序 pProc phreg 选择项; pModel response*censor(删失值) =变量/选择项; pRun; 中国疾病预防控制中心 Model语句选择项 pSelection=method backward forward stepwise pDetails 详细

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论