



全文预览已结束
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
5 5 7 疾病控制杂志2 0 0 5 年1 2 月第9 叁第互 .翅 生存树方法在肿瘤预后分析中的应用 郎素平 , 余红 梅2 , 王形2 , 何大卫 2 【 摘要】 目的 对于肿瘤病人的预后分析, 传统方法多集中于对预后相关因素的探讨, 而由生存 树方法得到的预后分组不仅可以有助了解具有相似预后人群的临床特征, 还可以从中发现传统的 生 存模型不易发现的 交互作用。 方法 本文结合生存树方法与传统的C o x 回归模型, 对2 3 5 例胃 癌病人进行预后分析。结果在C o x 回归中, 淋巴结转移、 肿瘤大小、 手术切缘有无癌组织作为3 个独立的预后因素被筛选出来; 对该资料进行生存树分析, 得到3 个预后子群, 其中位生存期分别 为2 4 个月、 1 2 个月、 5 个月。结论 将生存树方法与C o x 回归模型相结合, 可以得到更完善的预 后分析结论。 【 关键词】 存活率; 比例危险度模型; 预后 中图分类号】 R 1 9 5 . 1 ; R 8 1 8 . 0 7【 文献标识码 A 文章编号 1 0 0 8 - 6 0 1 3 ( 2 0 0 5 ) 0 6 - 0 5 5 7 - 0 4 A n a p p l i c a t i o n o f s u r v i v a l t r e e m e t h o d i n t h e t u m o r p r o g n o s t i c a n a l y s i s L A N G S u - p in g , Y U H o n g - m e i2 , W A N G T o n g , H E D a - w e i2 . 1 . D e p a r t m e n t o f E p i d e m i o l o g y a n d B i o s ta t i s t ic s , S c h o o l o f P u b - l i c H e a l t h , N a n j i n g Me d i c a l U n i v e r s i t y , N a n j i n g 2 1 0 0 2 9 , C h i n a ; 2 . D e p a r t m e n t o f H e a l t h S t a t i s - t i c s , S c h o o l o f P u b l i c H e a l t h , S h a n x i Me d i c a l U n i v e r s i t y , T a i y u a n 0 3 0 0 0 1 , C h i n a ( A b s t r a c t o b j e c t i v e T h e t r a d i t io n a l m o d e l f o c u s e d o n a s s e s s in g t h e r e la t i v e p r o g n o s t ic f a c t o r s , w h il e t h e s u r v i v a l t r e e m e t h o d c o u l d i d e n t i f y s u b s e t s o f p a t i e n t s w i t h h o m o g e n e o u s c l i n i c a l f e a t u r e . I t w a s a l s o u s e f u l f o r d e t e c t i n g n o n l i n e a r i n t e r a c t i o n s b e t w e e n b a s e l i n e v a r i a b l e s . Me t h o d s T h e s u r v iv a l t r e e a n d C o x r e g r e s s i o n w e r e a p p l i e d t o a n a l y z e p r o g n o s t i c a m o n g 2 3 5 p a t i e n t s w i t h g a s t r i c c a n c e r . R e s u l t s 切t n p h n o d e m e t a s t a s i s , t u m o r s i z e a n d c a n c e r c e l l s o f o p e r a t i o n c u t t i n g w e r e s e l e c t e d t o b e i n d e p e n d e n t f a c t o r s i n C o x r e g r e s s io n . t h r e e s u b g r o u p s o f p a t ie n t s w e r e f o u n d w it h m e d ia n s u r v iv a l t im e s o f 2 4 , 1 2 a n d 5 m o n t h s r e s p e c t iv e ly . C o n c l u s io n s C o m b i n e d w i t h C o x r e g r e s s io n , t h e s u r v iv a l t r e e m e t h o d m a y b e h e l p f u l t o p e r f e c t t h e p r o g n o s t i c a n a ly s is . ( K e y w o r d s I S u r v i v a l r a t e ; P r o p o r t io n a l h a z a r d s m o d e l s ; P ro g n o s i s ( C h i n J D i s C o n t ro l P r e v 2 0 0 5 , 9 ( 6 ) : 5 5 7 一 5 6 0 ) 1 引言 对于肿瘤病人来讲, 具有不同临床特征的人群, 其预后也不同。在肿瘤病人的预后分析中, 研究者 通常把重点放在识别独立的预后因素上, 但有关病 人的预后分组方面的研究并不多见。 对于生存资料 的预后分析, 传统的方法是采用C o x 比 例风险回归 模型来识别预后因素。此外, 还可以通过预后指数 ( p r o g n o s t ic i n d e x ) 进行预后分组。由于预后指数是 由C o x 回归得到的预后因素的线性组合, 因此, 临 作者单位 南京医科大学公共卫生学院流行病与卫生统 计学系, 江苏 南京2 1 0 0 2 9 2 山西医科大学公共卫生学院卫生统计学教研 室, 山西 太原0 3 0 0 0 1 作者简介】 郎素平( 1 9 7 7 一) , 女, 山西晋城人, 助教, 硕士。 卞 要研究方向: 医用多元统计分析方法及其应 用。 床工作者来讲不易理解和解释通过选择样本预后指 数的分位数得到的预后分组。 生存树是在分类与回归树( c la s s i f i c a t io n a n d r e - g r e s s io n t r e e s , C A R T ) 1 基 础 上 发 展 起 来的, 其 模型 是一个树状结构。树的建立主要包括树的生成以及 树的剪枝。 该方法的预后分组可以通过简单的二分 类问题得到, 比较容易理解和解释的。目 前, 生存树 方法已 广泛应用于乳腺癌、 宫颈癌、 肺癌、 卵巢癌、 胃 癌等恶性肿瘤以 及A I D S 的预后分析。 2 生存树方法基本原理 2 . 1 树的生成生存树中的基本单位称为结点 ( n o d e ) , 用h表示。包括整个样本的结点称为根结 点( r o o t n o d e ) , 可以进一步划分的结点称为内结点 ( i n t e rn a l n o d e ) , 由 生存树得到的不同预后组别称为 预后子群, 或终末结点( t e r m in a l n o d e ) . 树生长过程采用的是递归分割计算, 即选择某 .5 5 8C h i n J D i s C o n t r o l P r e v 2 0 0 5 D e c ; 9 ( 6 ) 一截断点( 比如年龄是否大于5 0 岁、 性别等) 将根结 点分为两部分, 其宗旨是使得分开的两个子样本的 生存分布相差最大, 即可以得到预后相差最大的两 组人群。 即最优划分 s 满足 G ( s * , h ) = m a x ( s , h ) , 这 s .N , 里, G ( s , h ) 表示两样本lo g r a n k 检验统计量, 其中s 表示结点h内所有可能的截断方式。重复应用此划 分规则, 就可以得到一棵很大的树, 即原始树。通常 J清况下原始树都会很大, 由于过分依赖原始资料, 所 以对未来样本预测不准, 且常不便解释, 所以, 需要 进行树剪枝过程来去除多余结点。 2 . 2 树的剪枝常用的是S e g a l 推荐的从底到顶 的方法 2 1 。 步骤如下: 在得到一棵大树后, 从底 部开始, 逐个计算始于每个内结点及其子结点的划 分中的最大划分统计量, 直到根结点; 将最大划分 统计量以升序排列; 将要剪去的枝条定位在最小 的最大划分统计量的最高结点处, 并剪去其所有的 子代; 重复以上步骤, 直至仅剩一个根结点, 这样 就得到了一个剪枝子树序列。最后, 选择一个合理 的、 专业可解释的子树。一般来讲, 可以以最小的最 大划分统计量对树的大小( 用树的终结点数表示) 作 图, 取其拐点处所对应的树的大小。 3 实例分析 某肿瘤医院胸外科对该医院行胃癌手术后的 2 3 5 名患者进行了为期 1 0a 的随访观察, 以了解影 响胃 癌预后的主要因素以及不同临床特征病人的预 后问题。以手术治疗为随访起点, 病人死亡为终点 事件, 随访中出现病人失访或随访结束时病人仍存 活为截尾。该样本特征见表 t o 2 3 5 名患者在随访结束时死亡2 0 5 例, 失访 1 5 例, 尚存活1 5 例。其中位生存期为2 3 个月, 2 年生 存率为4 2 . 9 3 %, 5 年生存率为2 1 . 5 7 %。 表1 2 3 5 例胃癌患者生存资料预后因素及其基本统计f T a b l e 1 S t a t i s t i c d a t a o f t h e v a l d a t a o f 2 3 5 g a s t r i c c a n ce r p a t i e n t s Va ri a b l e F a c t o r s X , A g e 凡G e n d e r De f i n i t i o n Ye a r F e ma l e 二0 ma l e = 1 Mo n t h F r e q u e n c y%x士 5 3 . 816 . 3 2 0 2 1 5 8 5 91 . 5 X 3 X , C o u r s e o f d i s e a s e Tu mo r s i z ec nl Wi t h o u t = 0 Le s s t h a n 3 c m=1 Mo r e t h a n 3 c m=2 Wi t h i n mu s c l e =0 p e n e t r a t in g c h o r io n = 1 N e g a t iv e = 0 p o s i t i v e = 1 IB n mA mB 4 土2 6 . 1 土2 . 1 n,0户,乙,10产,夕,jO24ll() 285416316884158374111 68129387316219936双55蛇邓 L y m p h n o d e m e t a s t a s i s 凡D e p t h o f in v a s io n X 7 C a n c e c e l ls o f o p e r a t io n c u t t in g X 8 B o m m a n g r a d e N o t e : M 1 Q R w e r e u s e d t o d e s c r ib e i t b e c a u s e t h e d is t r ib u t io n o f c o u r s e o f d is e a s e w a s s k e w 表2 胃癌资料 fo x 多因素分析结果 T a b l e 2 C o x r e g re s s io n 嘿ly s is r e s u l 牟 ,o f t h e g a s t r i c c a n ce r , d a t a V a ri a b le s S E ( p ) W a ld 扩 9 . 8 1 艾 2 5 . 2 9 6 6 1 2 . 0 4 0 9 R R R R 9 5 9 6 C I 为0 . 1 0 5 8 凡0 . 5 8 2 7 沁0 . 6 6 2 2 0 . 0 3 3 8 0.11590.1908 0 . 0 0 1 7 0 . 0 0 0 1 0 . 0 0 0 5 1 . 1 1 2 1 . 7 9 1 1 . 9 3 9 ( 1 . 0 4 0 , 1 . 1 8 8 ) ( 1 . 4 2 7 , 2 . 2 4 7 ) ( 1 . 3 3 4 , 2 . 8 1 8 ) N o te : C a m p a re d w ith 0 m o d el : 才 = 4 8 . 3 9 6 0 , P 0 .0 0 0 1 3 . 1 C o x 回归分析采用S A S 6 . 1 2 软件进行分 析。将所有变量进行多因素C o x回归模型分析, 采 用逐步法, 人选界值取0 . 0 5 , 剔除的界值取0 . 1 0 , 结 果见表2 。 肿瘤大小( X a ) 、 淋巴结转移( X S ) 和手术 切缘有无癌细胞扩散( X 7 ) 是影响胃 癌预后的因素, 且均为危险因素, 即随着肿瘤大小的增加, 胃癌病人 的预后愈来愈差; 淋巴结转移每增加一个等级, 死亡 危险增至1 . 7 9 1 倍; 手术切缘有癌细胞扩散病人的 死亡危险是无癌细胞扩散病人的1 . 9 3 9 倍。 3 . 2 生存树方法采用 S - P l u s 2 0 0 0 软件进行分 析。 3 . 2 . 1 树生长过程本例中需要考虑的变量有 8 个, 分别为年龄、 性别、 病程、 肿瘤大小、 淋巴结转移、 浸润度、 切缘以及b o m m a n 分期。对2 3 5 例胃 癌资 料进行预后分组, 首先计算这 8 个变量所有可能截 断方式的lo g r a n k 检验统计量, 结果显示以 淋巴 结转 移是否小于1 . 5 作为截断点时, 其lo g r a n k 检验统计 量 最 大, 才= 2 4 . 6 6 , P 0 . 0 5 时, 树的生长过程结束, 得到初始树( 图1 ) 0 表3 胃癌资料预后分组一生存树方法 T a b l e 3 R e s u l t o f t h e p r o g n o s t i c s u b g r o u 脚 S u b g ro u p s L o w r i s k I n t e r m e d i a t e r i s k H ig h r is k u s i n g t h e F r e q u e n c y s u r v i v a l t r e e me t h o d ( p ro p o r t io n 0,6 ) 1 3 2 ( 5 6 . 1 7 ) 9 7 ( 4 1 . 2 8 ) 6 ( 2 . 5 5 ) M e d ia n ( 9 5 0,K a ) ( m o n t h ) 2 - y e a r s s u r v iv a l r a t e ( %) 2 9 ( 1 8 . 7 , 3 9 . 3 ) 1 5 01 . 2 , 1 8 . 7 ) 5 ( 1 . 4 , 8 . 6 ) 5 9 . 5 5 2 2 . 9 2 l o w r i s k i n t e r m e d i a t e r i s k h i g h r i s k 幽们,| 一1、.1. ,、1一 图1 胃癌资料初始树示意图 F i g u re 1 I n i t i a l t r e e f i g u re f r o m d a t a o f g a s t ri c c a n cer 0 0 台 、 、 一 、 . , 飞臼 .1】- - 2 0 4 0 6 0 .-r 一 I一 I I ”。 8 0 1 0 0 1 2 0 N u mb e r o f T e mi n a l N o d e s 圈2 S e g a l 逐步法剪枝示意图 F i g u r e 2 F i g u re o f S e g a l s s t e p w i s e m e t h o d i n p r u n i n g X , ( 1 .5 2 3 5 2 3 X , ) 1 . 5 X . ( 6 .5 X . ) 6 .5X ( 6 2 .5 X , ) 6 2 .5 1 3 2 “ 3 2 2 9 ! 1 6 1 1 2 图 3 胃癌资料生存树方法的预后分组 F i g u r e 3 P r o g n o s t i c s u b g r o u p u s i n g t h e s u rviv a l t r e e m e t h o d f rom d a t a o f t h e g a s t r i c c a n cer N o t e : T h e h i g h e r n u m b e r in t h e f r a m e w a s t h e s a m p l e s iz e , a n d t h e l o w e r o n e w a s t h e me d i a n s u r v i v a l t i me . 3 . 2 . 2 树剪枝过程本文采用S e g a l 的逐步法剪 枝法, 结果见图2 , 可见当终结点数为4时, 图中出 现一个明显的拐点, 故可选择剪去初始树中结点 5 以下部分得到的树作为最优剪枝子树, 见图3 0 图4 胃 癌资料生 存树方法3 个预后子 群的K a p l a n - M e i e r 生 存曲 线 F i g u r e 4 T h e K a p l a n - Me i e r a m o n g t h e s u r v i v a l t r e e a n a l y s i s m e t h o d f r o m d a t a o f g a s t r i c c a n ce r 从图3 中可以 看出, 淋巴 结转移( X 5 ) 、 肿瘤大小 ( 为) 以 及年龄( X 1 ) 是影响预后分组最主要的3 个 因素。与C o x 回归模型的分析结果相比, 淋巴结转 移( X 5 ) 、 肿瘤大小( X 4 ) 作为影响胃 癌病人生存时间 的危险因素, 也用于预后分组。相对于C o x回归模 型的线性结构, 生存树分析的非线性或者说树型结 构更注重交互作用的探索, 因此 C o x回归模型中筛 选出的 危险因素切缘( X 7 ) 并没有出现在预后分组 的 主要因素中。而年龄( X 1 ) 对整个病例样本的生 存时间的影响不是一个有统计学意义的因素( C o x 单因素分析, P二0 . 9 8 4 ) , 但是在生存树分析中出 现, 说明它也是一个预后分组的影响因素。原因在 于, 在淋巴 结转移小于3 e m的子样本中, 年龄( X 1 ) 按是否大于6 2 . 5 岁的K a p la n - M e ie r 生存曲 线比 较, P 二 0 . 2 8 4 , 但是在淋巴结转移大于3 c m的子样本 中, 年龄( X , ) 按是否大于6 2 . 5 岁的K a p la n - M e ie r 生存曲 线比较, P 0 . 0 0 1 。由此可见, 自 动识别交 互作用正是生存树方法的优势所在。这样就由 得到 了包含4 个终末结点, 即4 个预后子群的最优子树, 用lo g r a n k 检验发现第2 , 3 个预后子群的生存分布 没有差别, 可以将其合并为一组, 这样得到的3 个生 存分布均有差别的预后子群, 分别称为低危组 5 6 0C h i n J D i s C o n t r o l P r e v 2 0 0 5 D e c ; 9 ( 6 ) 淋巴结转移小于3 c m且肿瘤大小小于6 . 5 c m; 中危 9 g -淋巴结转移小于3 c m且肿瘤大小大于 6 . 5 c m 以及淋巴结转移大于3 c m且年龄小于6 2 . 5 岁; 高危组淋巴结转移大于3 厘米且年龄大于 6 2 . 5 岁。其2 年生存率分别为5 9 - 5 5 %, 2 2 . 9 2 %, 0 , 中位生存期分别为2 9 个月、 1 5 个月、 5 个月, 见表 3 0 3 组l o g r a n k 检验才= 8 0 . 7 3 , P = 0 . 0 0 0 1 , K a - p l a n - M e ie r 生存曲线见图4 . 4 讨论 生存树方法是C A R T与C o x 模型结合发展起 来的。 G o r d o n 等 3 1 首次成功地将树结构方法进行 改进, 应用于截尾生存资料的分析, 使得树结构方法 在 医 学 随 访 研究 方面 开 始应 用。 之 后, S e g a l 2 建 议 在树的生长过程采用lo g r a n k 检验来选择划分规则。 在剪枝问 题上, S e g a l 推荐了一种很实用的方法, 即 一种从底到顶的方法。而有学者引人了划分优度的 概念来替代C A R T中的成本复杂度。此外, 有人提 出一些以似然函数为基础的划分规则。 近2 0 年来, 生存树方法在国外已有了长足的发 展, 而国内对该方法的研究仍停留在将 C A R Z , 应用 于 医 学 诊断 模型上川。 此外, 张颖等 5 J 将树型 分类 方法应用于流行病学现场危险因素的筛选。在云锡 矿工肺癌队 列研究中, 利用树型分类首次分离出砷 和吸烟的作用, 这对云锡工肺癌病因研究和人群肺 癌的防治是很有意义的。 杨玲等6 1 将分类树方法 应用于疾病费用分类系统的建立, 对医疗保险方偿 付病人的住院费用起到了良 好的参考作用。国内尚 无将该方法扩展至截尾资料的生存分析的报道。生 存树方法在医学研究中越来越受到欢迎, 在生存资 料的预后分析中, 传统 C o x回归模型在预后变量的 识别及其对因变量的影响方式的探索上有其独特的 优势; 而生存树方法作为传统C o x回归模型的有利 补充, 可以解决一些临床医生更感兴趣的预后分组 问题, 且在交互作用的自 动识别等问题上更具有其 独特的优势。 本文对2 3 5 例胃 癌病人的预后分析结果可以帮 助临床医生解决以下问题: 胃 癌病人中, 以淋巴 结 转移小于3 c m、 肿瘤大小小于6 . 5 c m者结局最好, 这类病人有一半可以活过2 6 个月; 而淋巴结转移大 于3 c m、 年龄超过6 2 岁的病人预后则最差。综 合来讲, 影响胃 癌病人预后的主要因素有淋巴结转 移、 肿瘤大小、 手术切缘有无癌细胞扩散以及年龄 等, 与国内 其他研究结果较为一致 7 1 0自 动识别 交互作用。C o x 多因素分析中年龄并未作为影响预 后的因素出现, 而从生存树方法中发现对于淋巴结 转移病人, 当年龄不超过6 2 岁时其预后较好, 而一 旦病人年龄超过6 2 岁, 其预后就很差了。为临床 试验提供信息。比如做胃癌术式的选择试验时, 应 首先根据病人是否有淋巴结转移进行分组, 否则其 作为混杂因素必然会影响不同术式效果的评价。 通过3 个二分类问题对新病例进行预后分组。 但是, 由于该方法属于预测模型, 就必须保证模 型的可靠性和稳定性。关于模型的可靠性与稳定性 问 题, 已 有学者进行了探讨 “ , 但目 前尚处于理论 研 究 阶 段 。 此 外. 足 够 例 数的 样 本 也 是 模型 稳 定 的 保证。因此, 此类研究要求样本量应尽量大一些。 致谢: 忠心感谢陈峰教授和于浩教授对本文的 撰写给予的意见和建议。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年共享出行平台在提升用户出行体验中的创新服务研究报告
- 父母遗产房子分割协议书
- 管廊钢筋合同分包协议书
- 物流车辆三方转让协议书
- 海洋技术入股协议合同书
- 黄金麻外墙干挂合同范本
- 防水sbs施工合同范本
- 高校就业协议与劳动合同
- 生产线外包协议合同范本
- 苏州市购买二手房协议书
- 网约车考试题库及答案
- 慢阻肺健康宣教
- 湖北省两校2025年物理高一下期末综合测试试题含解析
- 热射病病例查房汇报
- 小学一年级升二年级暑假数学作业-应用题(178题)(附答案)
- 酒店卫生管理自查报告和整改措施
- 养猪学培训课件
- 班主任常规工作培训课件
- 股份代持及员工持股计划协议书范本
- 燃气专项安全评估报告
- 2024过敏性休克抢救指南(2024)课件干货分享
评论
0/150
提交评论