版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、生存分析,To be or not to be is only a part of the question. The question also includes how long to be.,生存资料(survival data),蕴涵有结局和时间两个方面的信息; 结局为两分类互斥事件; 一般是通过随访收集得到 ; 常因失访等原因造成某些研究对象的生存时间数据不完整,分布类型复杂。 不能简单地套用前面介绍过的统计方法进行分析!,生存资料的分类: 未分组资料:例数较少,有每个观察对象确切的生存时间; 分组资料:例数较多时,常常按随访时间分组,没有每个观察对象确切的生存时间。,何为生存分析(
2、survival analysis),将研究对象的随访结局和随访时间两个因素同时结合起来考虑的一种统计分析方法。 能充分利用所获得的信息,达到较准确、全面地评价和比较随访资料的目的,是临床试验和队列研究的一种重要分析手段。,生存分析的主要内容,对生存时间进行分析的统计方法的总称。 描述生存时间分布 组间的生存时间分布的比较 考察可能与生存时间有关联的协变量,生存分析的基本方法,非参数法 参数法 半参数法,生存分析的发展历史,17、18世纪:寿命表的提出及其应用。 1926年:Greenwood提出评价生存函数的误差的方法Greenwood公式。 1958年:生存函数的计算方法Kaplan-Me
3、ier法(乘积极限法)的提出。 1960年代中叶:生存时间的组间比较方法的开发广义Wilcoxon秩和检验(Gehan,1965年)、对数秩检验(log-rank test)又称时序检验(Mantel,1966年)。 1970年:将协变量的影响模型化参数模型:假设生存时间服从Weibull分布、对数正态分布等;半参数模型:比例风险模型(Cox,1972年),又称Cox回归模型。,生存分析的几个基本概念,“死亡”事件(death event) :或称终点事件(outcome event),反映研究因素失败或失效的特征。如: 死亡、疾病复发、故障、再就业,等。,生存时间(survival time
4、) :或称随访时间,指观察到的存活时间,可用小时、天、周、月、年等时间单位记录,常用符号t表示。 生存时间的分布:非负、左偏。,图1 102名黑色素瘤患者的生存时间分布,time (Month),0,5,10,15,20,25,30,35,40,45,0,10,20,30,40,完全数据(complete data):是指从观察起点到发生死亡事件所经历的时间 ; 截尾数据(censor data):又称删失值或终检值。 指期待结局发生的正确时间未知。习惯上在生存时间右上标注“”表示 。 失访 退出 终止,生存时间的分类,关于截尾,截尾的模式图,随访开始,“死亡”事件,失访 死于车祸 研究截止时
5、仍存活,研究截止时点,患者进入期间,死亡概率(mortality probability):记为q,是指在某单位时段开始时存活的个体在该时段内死亡的可能性大小。 若年内有截尾,则分母用校正人口数:,生存概率(survival probability):记为p,与死亡概率相对立,表示在某单位时段开始时存活的个体到该时段结束时仍存活的可能性大小。,生存率(survival rate):记为S(tk),是指观察对象活过tk时刻的概率。 式中T为观察对象的存活时间。,假定观察对象在各个时段的生存事件独立,生存概率分别为p1,p2pk,则根据概率乘法原理得到估计生存率的计算公式为 : S(tk)实质上是
6、累积生存概率(cumulative probability of survival)。,生存曲线(survival curve):是指将各个时点的生存率在坐标轴上连接在一起的曲线图,用以描述生存过程。 中位生存时间(median survival time) :又称半数生存期,是指生存率为0.5时对应的生存时间,表示有50%的观察对象可活这么长时间。一般是采用内插法进行估计。,图2 102名黑色素瘤患者的生存率估计 (Kaplan-Meier估计),生 存 率,Part 1. 生存资料的统计描述与生存率的区间估计,乘积极限法(product-limit estimates),又称Kaplan-
7、Meier法。 生存率及其标准误的计算 估计各时点总体生存率的95%可信区间 中位生存时间的计算 生存曲线绘制 适用于小样本,是一种非参数方法。,一、未分组生存资料的统计描述,例14.1 某医师采用手术疗法治疗12例宫颈癌患者,随访时间(月)记录如下: 1 2 4 5 7 8+ 11 15 18 33+ 36 38 + 试估计各时点生存率及其标准误、各时点总体生存率的95%可信区间、中位生存时间,并绘制生存曲线。,生存率及其标准误的计算 本例以月为时间单位,并将t月当作一个时点看待。,第(1)栏:序号 第(2)栏:将样本生存时间t由小到大顺次排列,如遇非截尾值和截尾值相同时,将截尾值排在后面;
8、,第(3)栏:与生存时间t对应的发生死亡人数dk, e.g. 生存时间为5月时有1例死亡,相应的d5=1。截尾值对应的患者“未死”,所以死亡人数为0,如 d6=0 ;,Q,第(4)栏:期初病例数nk,即恰好在该时刻以前尚存活的病例数; e.g. k为4时对应的n4为9,表示恰好在5月时点前有9人存活;,第(5)栏:各时点死亡概率qk,即恰好在t时点以前尚存活的患者在t时点上(第t个月)死亡的概率,其计算公式为: e.g. q4表示恰好在5月时点前尚存活的9例患者在5月时点上(实指治疗后第五个月的第一天到第三十天)的死亡概率为,第(6)栏:各时点生存概率pk ,即恰好在t月前尚存活的观察对象,在
9、t月时点继续存活的概率。 e.g. k为4时对应的5月生存概率p4为:,第(7)栏:各时点生存率S(tk),即恰好在t时点以前尚存活的患者活过t时点的概率。,对未分组资料,某时点生存率为小于和等于t 时刻的各时点生存概率的乘积。 e.g. 生存时间t为4月的生存率为:,第(8)栏:各时点生存率的标准误(Greenwood) e.g. 如S(t3)的标准误SES(t3)为,2. 总体生存率可信区间的估计 用正态近似原理估计某时点总体生存率的可信区间,公式为,e.g. 本例4月总体生存率的95%可信区间为 下限 上限,3. 中位生存时间的计算,采用内插法计算如下: (711): (7t) = (0
10、.58330.4861) : (0.58330.5),4. 生存曲线 未分组资料的生存曲线也称 Kaplan-Meier曲线 ,用以说明生存时间与生存率之间的关系。 以生存时间t为横轴,生存率为纵轴,绘制而成的连续型的阶梯形曲线。 每个小横线的长短代表一个t时点到下一个t时点的距离; 当最后一个时点的观察对象全部死亡时,曲线与横轴相交。,图3乘积极限法生存曲线(Kaplan-Meier曲线),描述生存时间分布(附例),对两组分别接受了A处理和B处理的小老鼠注射某种致癌物,观察它们直至全部死亡。记录它们的存活天数并进行分析,数据如下: A: 143,164,188,188,190,192,206
11、,209,213,216,220,227,230,234,246,265,304,216+,244+ B: 142,156,163,198, 205,232,232,233,233,233,233,239,240,261,280,280,296,296,353,204+,344+,The LIFETEST Procedure Stratum 1: Group = 0 Product-Limit Survival Estimates Survival Standard Number Number Days Survival Failure Error Failed Left 0.000 1.00
12、00 0 0 0 19 143.000 0.9474 0.0526 0.0512 1 18 164.000 0.8947 0.1053 0.0704 2 17 188.000 . . . 3 16 188.000 0.7895 0.2105 0.0935 4 15 190.000 0.7368 0.2632 0.1010 5 14 192.000 0.6842 0.3158 0.1066 6 13 206.000 0.6316 0.3684 0.1107 7 12 209.000 0.5789 0.4211 0.1133 8 11 213.000 0.5263 0.4737 0.1145 9
13、10 216.000 0.4737 0.5263 0.1145 10 9 216.000* . . . 10 8 220.000 0.4145 0.5855 0.1145 11 7 227.000 0.3553 0.6447 0.1124 12 6 230.000 0.2961 0.7039 0.1082 13 5 234.000 0.2368 0.7632 0.1015 14 4 244.000* . . . 14 3 246.000 0.1579 0.8421 0.0934 15 2 265.000 0.0789 0.9211 0.0728 16 1 304.000 0 1.0000 0
14、17 0 NOTE: The marked survival times are censored observations.,二、分组资料的生存分析,寿命表法(life-table method) 生存率及其标准误 各时点总体生存率的95%可信区间 中位生存时间 生存曲线 适用于大样本,是一种非参数方法。,例14.2某医师对110例原发性肺癌患者确诊后进行随访,得资料见表14.3第(2)栏至第(4)栏,试估计各时点生存率及其标准误、各时点总体生存率的95%可信区间、中位生存时间,并绘制生存曲线。,生存率及其标准误的计算 本例以月为时间单位,并将t月当作一个时点看待。,第(1)栏:序号 第(2
15、)栏:确诊后月数tk e.g. “0”表示从确诊日起不满1月,第(3)栏:期内截尾人数Ck ,表示确诊后满t月但未满t+1月期间截尾的人数。 e.g. C3=1,表示确诊后满2月但未满3月期间有1例截尾。,第(4)栏:期内死亡人数Dk ,表示确诊后满t月但未满t+1月期间发生死亡事件的人数。 e.g. D1 =25,表示确诊后未满1月有25例死于原发性肺癌 。,第(5)栏:期初观察人数Lk ,指t月初尚存活的病例数。此栏自下而上累计求得,计算公式为 e.g. 如本例L8 =4,则,第(6)栏:校正人数Nk,相当于实际观察人月数。凡在t月内截尾的病例都被当作平均观察了半月时间,其计算公式为 e.
16、g. “2”月组,,第(7)栏:死亡概率qk ,表示确诊后活满t月的病人在今后一个月内死亡的概率,其计算公式为 e.g. ,表示确诊后活满2月的病人,在第三个月内死亡的概率为0.4959,第(8)栏:生存概率pk ,表示确诊后活满t月的病人在今后一个月内存活的概率,其计算公式为 e.g.,第(9)栏:t月生存率,表示确诊后活满t月的概率,其计算公式为,第(10)栏:生存率的标准误,其计算公式为,3. 中位生存时间的计算,采用内插法计算如下: (23): (2t) = (0.57650.2906) : (0.57650.5),4. 生存曲线 分组资料的寿命表法生存曲线 两个时点生存率用直线连接;
17、 各个组段对应的生存率应点在各组段的上限处 ; 当最后一个时点的观察对象全部死亡时,曲线与横轴相交。,图14.2寿命表法生存曲线,计算相似; 不同之处: 未分组资料生存率的计算是以观察人数为计算单位,生存时间未分组; 分组资料的生存率的计算是以观察人时数为单位,生存时间等距离分组。,分组资料与未分组资料的生存率计算比较:,Part 2. 生存曲线比较的假设检验,生存过程的比较,非参数方法 参数方法 时序(log-rank)检验 分布参数检验 分层时序检验 Gehan检验 广义Wilcoxon检验 Mantel-Haenszel检验,一、对数秩检验(log-rank test),基本思想:假定两
18、总体生存曲线无差别,则根据两种处理不同生存时间的期初观察人数和理论死亡概率计算出的理论死亡数,与实际死亡数应相差不大,否则无效假设不成立,认为两条生存曲线差异有统计学意义。,其检验统计量的计算公式如下: v=组数1式中,A为实际死亡数,T为理论死亡数。,例14.322例肺癌患者经随机化分配到放疗组和放化疗联合组,从缓解出院日开始随访,随访时间(月)如下,试比较放疗组(甲)和放化疗联合组(乙)患者的生存曲线有无差别。 放疗组:1 2 3 5 6 9+ 11 13 16 26 37+ 放化疗联合组: 10 11+ 14 18 22 22 26 32 38 40+ 42 +,图14.3放疗组和放化疗
19、联合组患者的生存曲线,甲组,乙组,1. 建立检验假设和确定检验水准 H0:放疗组与放化疗联合组患者的生存曲线位置相同 H1:放疗组与放化疗联合组患者的生存曲线位置不同 0.05,2. 计算统计量 值 (1) 将两组患者按生存时间统一从小到大排序,并标明组别、死亡数。 注:生存时间相同的甲、乙两组列在同一行;某时间点既有完全数据又有截尾数据,截尾数据排在后面。,(2) 列出各时点期初病例数,见表14.4第(5)(7)栏。 (3) 分别计算甲、乙两组各时点的理论死亡数,见表14.4第(8)(9)栏。 甲组各时点的理论死亡数 =(该时点病死数期初病例总数)甲组期初病例数 =(4)/(7)(5) =(
20、4)(5)/(7),表14.5 生存时间t=1对应的四格表,(4) 求出甲组和乙组理论死亡数的合计值分别为5.1282、11.8718。 表14.6对数秩检验总结表,v=211,3. 求出P值,作出推断结论 查附表5, 界值表,得P0.05, 按 =0.05水准拒绝H0,接受H1,又因从图14.3可直观地看出放化疗联合组的生存曲线位置较高,故可认为放化疗联合治疗肺癌的效果较好。,图14.3放疗组和放化疗联合组患者的生存曲线,甲组,乙组,二、Gehan比分检验(Gehan score test),仅用于两样本生存曲线的比较。 基本原理:其检验统计量V值的抽样分布近似均数为0、标准误为 的正态分布
21、,故采用正态近似法作假设检验。,基本计算步骤,例14.3 1. 建立检验假设和确定检验水准,2. 计算统计量值,将两组患者按生存时间统一从小到大排序,并标明组别、死亡数 ; 计算R1、R2及(R1R2) 值; 求Gehan比分总计V ;,表14.7Gehan比分检验计算表,(4) 求u值 式中,n1和n2分别为两组样本含量。,本例u值为,3. 求出P值,作出推断结论 查附表2,t界值表(自由度),得P0.05,按 =0.05水准,拒绝H0,接受H1,又因乙组V值为正,故可认为放化疗联合治疗肺癌的效果较好。,生存曲线比较的假设检验的注意事项:,方法选择 应用条件 处理措施优劣的判断,1. 方法选择 本例上述两种假设检验方法的结论一致,但在应用上有差别。Gehan比分检验仅用于未分组资料两个样本生存曲线的比较,对数秩检验既可用于两个样本生存曲线的比较,又可用于多个样本生存曲线的比较;既可用于未分组资料生存曲线的比较,又可用于分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026北京中院面试题及答案
- 2025年中国玻璃标本瓶市场调查研究报告
- 2025年中国热力供应监控系统市场调查研究报告
- 2025年中国液体、膏体充填机市场调查研究报告
- 2025年中国汽车轴重制动复合检测台市场调查研究报告
- 2025年中国把式三人扭腰器市场调查研究报告
- 2025年中国不锈钢方坯市场调查研究报告
- 《传感器与检测技术》课件 第七章 压电式传感器
- 肾脏穿刺术后预防血栓措施
- 心包积液患者的疼痛管理技术
- 马克思主义基本原理-2023版-课后习题答案
- 100以内加减法混合竖式练习题
- 油水井措施运行工作规范
- 2023年江西新余中考历史真题及答案
- “星火计划”人才培养项目
- 【人教版】八年级数学下册《一次函数与方程、不等式》基础测试卷及答案
- 保险规划综合案例分析-
- 苏教版八年级数学下册期末试卷(必考题)
- GB/T 5486.2-2001无机硬质绝热制品试验方法力学性能
- GB/T 3836.4-2021爆炸性环境第4部分:由本质安全型“i”保护的设备
- GB/T 308.1-2013滚动轴承球第1部分:钢球
评论
0/150
提交评论