版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、卵巢癌预后因素评价和生存率预测研究,北京大学概率统计系,房祥忠,2,提纲,背景介绍 资料特征 处理属性数据的两步回归方法 分类树回归方法 方法比较 总结,3,背景介绍,向大家介绍是一个生存分析实际案例分析 卵巢肿瘤是女性常见的三大恶性肿瘤之一,死亡率居妇科恶性肿瘤首位 因卵巢癌早期无症状,发病隐匿,且缺乏有效的诊断方法,诊断时多为晚期,生存率较低 为提高患者生存率,医生们做了许多努力和尝试,特别是提高和改善患者预后,4,背景介绍,影响卵巢癌预后的因素很多,在疾病进展过程中,多种因素共同影响患者预后 如何根据患者的不同情况,综合判断患者预后状况,预测生存率是迫切需要解决的问题,5,背景介绍,本文
2、采用的数据集是从全国七家医院5年搜集的879例卵巢癌患者临床随访数据。 数据集包括存活期、年龄、原发灶大小、病理类型、临床分期、淋巴是否转移、病理分级、手术残余灶大小、化疗方法、化疗方案、CA125等风险因素。,6,背景介绍,这些风险因素多为多类别的分类变量,在做回归分析时往往需要引入哑变量。 当分类变量个数和水平较多时,需要引入的哑变量数目与样本量相比较会很大。 如果直接做回归,它们之间的共线性会导致模型参数估计失真甚至反序等诸多问题,这也是我们在解决实际问题中遇到的最大困难。,7,背景介绍,针对该问题,我们尝试了两步回归法和CART-COX方法。 并将CART-COX方法与基于Cox模型的
3、直接回归法和两步回归法做比较。 结果表明,从拟合及预测的总体效果看,CART-COX方法比两步回归法和直接回归都更占优势。 最后,为方便医生使用,我们给出了生存率表。,8,提纲,背景介绍 资料特征 处理属性数据的两步回归方法 分类树回归方法 方法比较 总结,9,资料特征,数据,10,资料特征,在建立多变量Cox模型前,我们需要确定每个协变量分层是否合理。 多类别分类变量需要按照不同水平引入哑变量。 以某一水平为基准层,其它各水平的Cox模型回归系数实际上是相对于该基准层危险率的变动。 原始数据各变量水平的划分是按临床危险程度由低到高排列的,所以若协变量水平划分合理,它们的回归系数应该单调递增。
4、,11,资料特征-分期,原始数据中临床分期按国际惯用的FIGO分期,共有10个水平。 最初我们按照这种分层做Cox回归,发现系数不单调,并且反复出现波动。 由于该变量水平划分非常细致,且划分标准对医生的临床经验程度依赖很高,不是非常客观。 所以在保证每层系数显著且保序的前提下,根据医生建议,我们重新划分了临床分期。 结果见下表:,12,资料特征-分期,13,资料特征-淋巴结是否转移,原始数据中淋巴结是否转移分为三个水平,未转移,转移,未清。 Cox回归时发现未清这一水平的系数是负值,也就是说,手术未清情况下的危险率比淋巴未转移的低,这与我们的初衷是违背的。,14,资料特征-淋巴结是否转移,重新
5、翻查病例资料并与医生讨论得知,部分病人淋巴结未清不是因为病变范围广,无法进行淋巴结清除术,而是病情并不严重才没有清除,这部分患者生存期相对较长。 他们对生存期的预测是一种干扰。理论上讲应当将这部分病人按照淋巴结是否转移重新分,但种操作无法实现。 未清病例占总样本比例较大(30%),我们不能删除所有未清样本,所以后面的分析我们不再考虑该变量。,15,资料特征-化疗方法,原始数据中化疗分为三层,规范化疗,不规范化疗,未化疗。 按照这三个水平Cox回归时发现,未化疗组的危险率与规范化疗组接近,并且数据显示未化疗组的平均寿命几乎是不规范化疗组的2倍!这是一个非常可疑的结果。,16,资料特征-化疗方法,
6、经过分析发现,化疗的分层同淋巴结是否转移有相似的问题。 未化疗组实际上包括两类病人,一是病情严重,病人认为没有必要从而放弃化疗;二是手术成功,病情轻微,病人觉得可以不用做化疗。 这一水平的存在严重干扰了分析化疗对生存率的影响作用。 所幸未化疗组仅占总样本2.38%,征得医生同意,我们删除了未化疗组样本。 最后化疗变量只包括两个水平,规范化疗与不规范化疗。,17,资料特征-其它因子,年龄,病理分级,术后残余灶直径这三个变量在原始数据中的分层比较合理,我们不再重新划分。,18,Cox比例风险回归模型,Cox比例风险回归模型(Coxs proportional hazards regression
7、model),简称Cox回归模型 该模型由英国统计学家D.R.Cox于1972年提出,主要用于肿瘤和其它慢性病的预后分析,也可用于队列研究的病因探索。其优点: 多因素分析方法 利用截尾数据,Cox模型的基本形式,h(t,X)t时刻风险函数、风险率或瞬时死亡 率(hazard function)。 h0(t)基准风险函数,即所有变量都取0时t 时刻风险函数。 X1、X2、Xp协变量、影响因素、预后 因素。 1、 2、 p回归系数。,20,0,RR1,说明变量X增加时,危险率增加,即X是危险因素。 0,RR1,说明变量X增加时,危险率下降,即X是保护因素。 =0,RR=1,说明变量X增加时,危险率
8、不变,即X是危险无关因素。,21,资料特征-单因素分析,按照协变量重新分层结果,用Kaplan-Meier法做单因素分析,检验各层对生存率影响差异显著性 重新分层后的5个协变量对生存率影响都显著,22,单因素分析- Cox回归结果,对每个重新分层的协变量单独做Cox回归 以上各变量模型都是显著成立的,并且系数单调递增,是合理的。,23,比例危险率假设检验Kolmogorov-Type Supremum 检验,可以看到,所有的变量不能拒绝PH假定的原假设,24,病情分期各层对数累积危险率曲线,病情分期各层累积危险率曲线,而对数累积危险率函数曲线应该相互平行。 可以看到,这些变量基本上没有偏离危险
9、率成比例假定,如果PH假定成立,各累积危险率函数曲线应该是通过原点的直线;,25,化疗各层累积危险率曲线,化疗各层对数累积危险率曲线,26,年龄各层累积危险率曲线,年龄各层对数累积危险率曲线,27,病理分级各层累积危险率曲线,病理分级各层对数累积危险率曲线,28,术后残余灶直径各层累积危险率曲线,术后残余灶直径各层对数累积危险率曲线,29,哑变量多因素直接Cox回归,与医生讨论后,我们选取785例样本进行多变量回归。 由于随访时间较长,这785例样本中仅有7例右删失,寿终样本778例,删失率为0.89%。 由于生存时间存在结点,我们采用Efron偏似然函数。 候选协变量共5个,分别是临床分期、
10、术后是否进行规范化疗、年龄、病理分级、术后残余灶直径大小。 我们引入9个哑变量直接作Cox回归,结果如下:,30,哑变量多因素Cox模型直接回归结果,31,哑变量多因素Cox模型直接回归,可以看到,若取检验水平为0.1,这9个变量中有2个不显著,即年龄的第二层、分级的第二层,并且分级第二层的系数为负。 单变量回归时,各个变量回归系数都是显著而且保序的,而多变量回归却出现这种不合理现象 这很可能是由变量间的共线性导致。 一般地,逐步回归可以解决共线性,但此时的协变量是几组特殊的哑变量,即需要一组哑变量来表示一个风险因素,我们不能简单地删除某个不显著的哑变量。,32,哑变量多因素Cox模型逐步回归
11、结果,下表是取置信水平为0.1,逐步回归得到的结果,变量的陈列顺序是它们被选入模型的先后顺序。,33,哑变量多因素Cox模型逐步回归结果,分级和年龄都只入选了一层,我们无法解释这个结果的实际临床意义。这使得我们需要考虑其它方法来解决这个问题 解决这个问题一个很自然的想法是用有实际意义的数值来标记风险因素的不同水平。 两步回归法就是基于这种想法发展而来。,34,提纲,背景介绍 资料特征 处理属性数据的两步回归方法 分类树回归方法 方法比较 总结,35,两步回归法,两步回归法总共分两步。 首先,对单个协变量各分层作Cox回归,用得到的系数标记各层,把这些系数作为该变量不同水平下的取值,这些系数的大
12、小是对风险的一种衡量。 例如,年龄各层的回归系数是(0 0.36906 0.69352),若某样本属于第二层,就令该样本年龄变量取值为0.36906。 在所有协变量标记完成后,就可以把它们当做作连续型变量做多变量Cox回归。,36,两步回归法,首先,用前面表中单变量Cox回归系数标记5个协变量 然后,把它们当做连续变量进行多变量Cox回归 结果如下:,37,两步回归法,若取水平为0.1,各个变量都是显著的。结合量表的结果可以得到两步回归法的最终模型。 从下表的结果可以看到,两步回归法得到的结果是合理的。 我们能够直观地看出各协变量对生存率影响大小。 影响最大的风险因素是临床分期,其次是术后化疗
13、是否规范,这与前面逐步回归最先选入模型的两个协变量一致。 后面我们将这种方法与其他方法做进一步比较。,38,最终Cox模型回归系数,39,两步回归法,Pii =Xib 在临床中称为样本 的预后指数 为了考察拟合效果,我们将全体样本按预后指数的大小分为低危、中危、高危三组 根据每组平均预后指数由两步回归法计算得到每组生存函数作为模型预测生存函数 再用Kaplan-Meier法估计每组生存函数作为实际生存函数,通过比较实际生存曲线和模型预测生存曲线来判断模型的拟合效果 下图是比较结果。图中星号是真实生存率,曲线为由两步回归法得到的预测生存率。可见,除了低危组在40至80月这个区间有些偏离外,中危组
14、,高危组都较好地拟合了数据集。,40,低危组两步回归生存率拟合情况,中危组两步回归生存率拟合情况,高危组两步回归生存率拟合情况,41,两步回归最理想和最恶劣情况下预测生存率对比,通过上面的模型我们可以得到S0(t)。下图是病人在最理想和最恶劣情况下的预测生存概率。所有患者的生存率在这两条曲线之间。,两步回归最理想和最恶劣情况下预测生存率对比,42,两步回归法预测生存概率,43,提纲,背景介绍 资料特征 处理属性数据的两步回归方法 分类树回归方法 方法比较 总结,44,分类回归树(CART),1970 年,美国4 位统计学家Breiman, Friedman, Olshen, and Stone
15、 (BFOS)分析了当时某些统计分析方法存在的缺陷,提出了一种新的方法分类与回归树 (Classification and Regression Trees, CART)。,45,分类与回归树(CART),CART包括分类树(classification tree)和回归树(regression tree)两部分。 分类树的目标变量(target)是分类变量,回归树的目标变量是连续变量。CART是一种具有纵向分析特征的树型结构,由树节点(node)和连线组成,在末端的树节点又称为叶节点(leaf)。 它采用一种二分递归分割技术,总是将当前样本集分割为两个子样本集,使得树中的每个非叶节点都有两个
16、分枝,因此它实际上是一种结构简洁的二叉树。,46,CART-COX方法,将CART与Cox模型结合起来的想法由来已久,很多学者从不同角度进行了多方面尝试。Hongshik Ahn and Wei-Yin Loh (1994)以Cox残差作为分割节点的准则。 XiaoGuang Xu and Chih-Ling Tsai (2005)将叶节点作为协变量线性组合的补充部份引入危险率函数,通过极大化偏似然函数来进行分枝操作。,47,CART-COX方法,本文采用的CART-COX方法实际上是一种两阶段模型,它将CART与Cox模型结合使用。 第一阶段,用CART将样本分到各个叶节点中,用哑变量标记,
17、这些哑变量定义为新的协变量。 第二阶段,对新的协变量做多变量Cox回归。,48,CART-COX方法,49,CART-COX方法实例分析,处理这批数据时,选取最优子树时采用了验证集生存率平均预测偏差最小准则 回归树的输入变量是按照前面划分的协变量 从原始样本集中分层抽取90%的样本作为训练集,剩下的10%作为验证集,总共进行1000次抽取 在计算验证集Cox模型生存率平均预测偏差时,我们按照预后指数 值将验证数据集分为高危,中危,低危三组分别计算 分组时保证每组样本量大致相等,计算平均预测偏差进行比较从而得到全局最优子树,50,CART-COX方法确定的叶节点,51,CART-COX方法定义新
18、的风险因素,52,CART-COX方法回归结果,53,CART-COX方法原始风险因素相对重要性,54,CART-COX方法原始风险因素相对重要性,综合上面三个表中结果来看,新定义的风险因素比较符合临床实际情况。 FIGO分期是国际上唯一被公认的最重要的卵巢癌预后因素 表中1类是原始分类的I,II两期,属于卵巢癌早期发展阶段,这个阶段确诊的患者生存期一般会比较长,危险率最低,CART-COX方法将其作为基准危险率。 而2,3类是原始分类的III,IV两期,是卵巢癌晚期,该阶段的生存期预测复杂很多,需要综合考虑多种风险因素。,55,CART-COX方法原始风险因素相对重要性,化疗是否规范是第二最
19、重要的预后因素,模型中危险率最高的患者群是处于癌症晚期阶段但没有进行规范化疗的病人。 这些与直接回归,两步回归法得到的结论一致。危险率第二大的是进行了规范化疗但年龄较大的患者 术后残余灶直径的大小以及分级的重要性远远低于前三个风险因素。,56,CART-COX方法原始风险因素相对重要性,下面三个图是把数据集分为低危,中危,高危三组后用CART-COX方法拟合得到的结果。图中星号是真实生存率,曲线为CART-COX方法预测的结果。可见,新定义的风险因素能够很好地拟合数据集。,57,58,CART-COX方法预测生存率对比,59,提纲,背景介绍 资料特征 处理属性数据的两步回归方法 分类树回归方法
20、 方法比较 总结,60,基于卵巢癌数据三种方法的对比,对于预后风险因素影响分析,三种方法都认为临床分期和是否进行规范化疗是最重要的预后风险因素。 但是对于病理分级、年龄、术后残余灶大小这三个变量的排序结果不尽相同。 用CART-COX方法重新定义风险因素过程中发现,它们三个的绝对影响同分期和化疗相比差距很大,我们要更多地考查它们共同作用的结果。 通过我们的研究不仅方便临床医生综合判断患者预后情况,也便于临床工作中医生与患者进行交流,鼓励患者配合治疗,提高生存率。,61,生存率拟合效果的比较低中高危组生存率差异统计量,62,生存率拟合效果的比较,从上面结果可以看出,CART-COX方法的表现比较稳定,三组里的拟合效果都比直接回归好。 两步回归法在低危组中表现最为突出,而在高危组中效果较差。,63,生存率预测效果的比较,可以看到,对于这组卵巢癌数据,预测方面CART-COX方法比直接回归、两步回归法效果都要好一些。 中危组里两步回归法比直接回归好,其它两组中的表现要差一些。,64,总结,在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025新疆科技职业技术学院教师招聘考试题目及答案
- 2025杭州师范大学教师招聘考试题目及答案
- 2025毕节职业技术学院教师招聘考试题目及答案
- 2025年白银市白银区法院书记员招聘笔试试题及答案解析
- 中信建投证券2026届金融科技专场春季校园招聘建设考试备考题库及答案解析
- 2026江苏省交通技师学院招聘教师10人建设笔试模拟试题及答案解析
- 2026河北医科大学第一医院招聘进修人员、实习生建设笔试备考题库及答案解析
- 2026浙江宁波市镇海区社区专职工作者招聘19人建设考试备考试题及答案解析
- 2026湖南长沙市芙蓉区公开招聘事业单位工作人员20人建设考试备考题库及答案解析
- 2026江苏徐州物资市场有限公司招聘6人建设笔试备考试题及答案解析
- 四川三江招商集团有限公司2026年3月公开招聘工作人员考试参考试题及答案解析
- 2026重庆酉阳自治县城区学校选聘教职工91人笔试模拟试题及答案解析
- 2026湖北松滋金松投资控股集团有限公司招聘28人笔试备考试题及答案解析
- 2026江苏无锡惠高新运产业招商发展有限公司招聘6人笔试备考题库及答案解析
- T∕CEA 3030-2026 乘运质量等级 第2部分:自动扶梯和 自动人行道
- 医院清明假期安全课件
- 2026年国海证券行测笔试题库
- 湖北省武汉市2026高三下学期3月调研考试化学试题 含答案
- (新教材)2026年部编人教版三年级下册语文 语文园地三 课件
- 2026年春沪教版《音乐》二年级下册教学工作计划
- 喜茶人力资源案例分析
评论
0/150
提交评论