




已阅读5页,还剩44页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
学习目标 了解生存分析的应用范围和数据特点 熟悉常见的生存时间分布规律的函数 掌握生存率的两种估计方法 乘积极限法和寿命表法 掌握估计和比较生存函数的SAS程序 Cox回归的形式 数据格式 应用和SAS程序 生存分析简介 在医学研究中 常常用随访的方式来研究事物发展的规律 例如 了解某药物的疗效 了解某仪器设备的使用寿命 了解手术后的存活时间等等 这种研究的特点是追踪研究的现象都要经过一段时间 统计学上将这段时间称为生存时间 生存分析就是用来研究生存时间的分布规律以及生存时间和相关因素之间关系的一种统计分析方法 生存分析在医学科学研究中具有广泛而重要的应用价值 它对人群寿命的研究 各种慢性疾病的现场追踪研究 临床疗效试验和动物试验等研究中随访资料的处理起着举足轻重的作用 生存数据 生存数据 指的是生存时间以及与生存时间有关联的一组独立变量 这里主要解释与生存时间有关的几个概念 在生存分析中将生存时间定义为从某起始事件起到某终止事件为止所经历的时间跨度 例如 在临床研究中 冠心病患者在两次发作之间的时间间隔 在流行病学研究中 从开始接触危险因素到发病所经历的时间 在动物研究中 从开始给药到发生死亡所经历的时间 所以 生存时间也称为失效时间 生存数据 生存时间资料与多元线性回归资料很相似 只不过因变量通常为观测对象生存的时间 常用 来表示 当然 生存时间是广义的 可以指在通常意义下生物体的生存时间 也可以指所关心的某现象 如疾病治愈后 合格品使用后 持续的时间 若生存时间是准确观测到的 则称为完全数据 它提供的关于生存时间的信息是完整确切的 也就是说它准确地度量了观察对象实际生存时间 但是生存资料的一个明显特点是 所收集的资料中常常包含不完全数据 也称为截尾数据 删失数据 包括删失数据的资料 称为删失资料 或截尾数据 它提供的关于生存时间的信息是不完整不确切的 也就是说它没有准确地度量观察对象实际生存的时间 生存数据 导致数据删失有很多原因 较常见的为失访和研究截止 由随机因素引起的 称为随机删失 若事先就定了截止日期 则称为定时删失 若事先就定了观察完多少例就截止研究 则称为定数删失 在表达删失数据时 常在其右上角放一个 号 而用SAS软件分析时 常在其前放一个 号或产生 个指示变量 例如 表示删失数据 表示完全数据 便于计算时区别对待 为了使数据的表达与计算在形式上统一起来 本章一律用负数表示删失数据 因生存时间不可能为负值 故不会产生混淆 生存数据 一般地 截尾数据可分为右截尾 左截尾 区间截尾等不同类型 右截尾数据表示观察对象至少存活到时刻t 即生存时间的上界是未知的 右截尾数据一般出现在随访过程中某些观察对象失访或死于其它原因 或在规定的研究过程结束时观察对象的终止事件还未发生 左截尾数据表示观察对象至多存活到时刻t 即生存时间的上界是已知的 但确切的生存时间是未知的 区间截尾数据表示观察对象至少存活到t1时刻且至多存活到t2时刻 生存数据 对于截尾数据 既不能简单地弃之 需要采取一些技术处理 专门处理这种资料的统计方法 称为生存分析 应为抛弃截尾数据不仅损失了样本量 最重要的是在这些截尾数据中 特别是右截尾数据大部分是生存时间较长者的数据 损失掉这一部分观察对象的信息 分析结果一定是片面或不稳定的 截尾数据的存在是生存数据与普通数据的根本区别 处理截尾数据是生存分析的一个重要特点 本章介绍的生存分析主要处理右截尾数据 生存时间函数 描述生存时间分布规律的函数统称为生存时间函数 常用的有生存函数 死亡函数 死亡密度函数和风险函数 生存函数 生存函数也称为生存概率或累积生存率 它表示观察对象生存时间T大于某时刻t的概率常用S t 表示 在具体问题中 该函数在 时刻的取值可用下式来估计 S t 生存时间长于 的观察对象人数 观察对象总数显然 S t 是一个随时间增加而下降的函数 它表示观察对象随访到t时刻的累积生存率 死亡函数 观察对象的生存时间T不大于某时刻t的概率称为死亡函数 又称为死亡概率函数简称为死亡概率 它表示一个体从开始观察起到时刻 为止的死亡概率 常用F t 表示 显然 F t 是一个随时间增加而上升的函数 它表示观察对象随访到t时刻的累积死亡率 死亡密度函数 死亡密度函数简称为密度函数 观察对象在某时刻t的瞬时死亡率 常用f t 表示 该函数表示观察对象死于 t t t 小区间内的概率的极限 在具体问题中 该函数在 时刻的取值可用下式来估计 f t t时刻开始的区间内 t t t 的死亡人数 观察总人数 区间宽度 风险函数 它表示已存活到时刻t的观察对象在时刻t的瞬时死亡率 又称危险函数 常用h t 表示 该函数表示一个已存活到时刻t的观察对象死于 t t t 小区间内的概率的极限 它实际上是一个条件瞬时死亡率 在具体问题中 该函数在 时刻的取值可用下式来估计 均数 中位数和半数生存期 除了上述的生存时间函数外 均数 中位数 半数生存期等也反映一组生存时间平均水平常用的统计指标 由于生存资料多呈正偏态分布 更适宜选用百分位数 包括中位数指标 半数生存期 指寿命的中位数 表示有且只有50 的观察对象可以活这么长时间 由于截尾数据的存在 半数生存期的计算不同于普通的中位数 它可应用生存函数曲线图或生存函数公式 令生存率等于50 然后推算生存时间 均数 中位数和半数生存期 总之 生存分析主要包括四个方面的内容 描述生存过程 即研究生存时间的分布规律 比较生存过程 即研究两组或多组生存时间的分布规律 并进行比较 分析危险因素 即研究危险因素对生存过程的影响 建立数学模型 即将生存时间与相关危险因素的依存关系用一个数学式子表示出来 生存分析的基本方法 统计描述非参数检验半参数模型回归分析参数模型回归分析 统计描述 包括求生存时间的分位数 中数生存期 平均数 生存函数的估计 判断生存时间的图示法 不对所分析的数据作出任何统计推断结论 用描述法进行生存分析的基本方法是根据样本观察值提供的信息 直接用上述给出的估计公式计算出在每一时间点或每一个时间区间上的生存函数 死亡函数 风险函数以及计算出生存时间的百分位数 平均数 半数生存期等 并采用列表或绘图的形式显示生存时间的分布规律 统计描述 用描述法估计生存时间分布规律的优点是方法简单且对数据的分布无要求 但它的缺点是 不能比较两组或多组生存时间分布函数的区别 不能分析危险因素对生存时间的影响 不能建立生存时间与危险因素之间的数量依存关系模型 非参数检验 检验分组变量各水平所对应的生存曲线是否一致 对生存时间的分布没有要求 并且检验危险因素对生存时间的影响 非常数法可以用来完成 估计生存函数 比较两组或多组生存函数 分析危险因素对生存时间的影响 缺点是不能建立生存时间与危险因素之间的数量依存关系的数学模型 常用的方法有乘积极限法 PL法 和寿命表法 LT法 半参数模型回归分析 在特定的假设之下 建立生存时间随多个危险因素变化的回归方程 半常数法不需要对生存时间的分布作出假定 但却可以通过一个模型来分析生存时间的分布规律 以及危险因素对生存时间的影响 这种方法的代表是Cox比例风险回归分析法 它兼有非常数法和参数法的优点 是生存分析中最重要的模型分析法 它在表达形式上与参数模型相似 但在对模型中各参数进行估计时又不依赖于特定分布的假设 所以又称其为半参数模型 参数模型回归分析 已知生存时间服从特定的参数模型时 拟合相应的参数模型 更准确地分析确定变量之间的变化规律 用参数法进行生存分析的基本方法是根据样本观察值来估计假定的分布模型中的参数 获得生存时间的概率分布模型 用参数法进行生存分析需要事先知道生存时间的分布 但它的优点是 比较两组或多组生存时间分布函数 分析危险因素对生存时间的影响 建立生存时间与危险因素之间依存关系的模型 生存时间经常服从的分布有指数分布 Weibull分布 对数正态分布 对数Logistic回归和Gamma分布 非参数分析方法SAS程序 SAS系统中 LIFETEST过程提供非参数分析方法 用乘积极限法和寿命表法估计生存率和中位生存时间等 用对数秩检验 Log ranktest Wilcoxon检验和似然比检验等做分组比较 该过程主要用于估计生存率及进行单因素分析 LIFETEST过程的语法格式如下 PROCLIFETEST TIME生存时间变量 截尾指示变量 数字 TEST STRATA FREQ BY Run 非参数分析方法SAS程序 DATA 数据集 规定PROCFREQ语句使用的数据集 METHOD 方法 指定估计生存率所用的方法 PL 要求用乘积极限法 即Kaplam Meier法 估计生存率并计算中位生存时间等 为缺省方法 LT 要求用寿命表法估计生存率等 INTERVALS 初值TO终值BY步长 只能在指定分析方法为寿命表法时使用 用寿命表法分析时 程序会自动给定生存时间的区间 如果人为规定生存时间的分组区间 则需用该选项指定 步长的缺省值为1 非参数分析方法SAS程序 WIDTH 宽度 指定用LT法的生存时间区间的宽度 PLOTS 绘图类型 要求输出生存分析图 可供输出的图形有 S 对生存函数S t 做图 横 纵坐标分别为t S t LS 对 LOGS t 做图 横 纵坐标分别为t LOGS t LLS 对LOG LOGS t 做图 横 纵坐标分别为LOG t LOG LOGS t H 对风险函数做图 横 纵坐标分别为t H t 非参数分析方法SAS程序 NOTABLE 指令不输出生存函数估计结果 只输出生存时间的截尾数据和完全数据的个数以及散点图和检验结果 TIME语句用于定义生存时间和截尾指示变量 对截尾指示变量可以指定发生失效事件的数值 默认失效事件用0来表示 截尾事件用1来表示 非参数分析方法SAS程序 STRATA语句定义生存率比较的分组变量 TEST语句定义生存率比较的分组变量或协变量 STRATA语句在这里的作用和BY语句类似 都是要求按分组变量名列进行分析 在计算生存率时各组分开计算 TEST语句定义需检验的变量 即生存时间与该变量是否有关 如果它后面定义的变量为数值变量 则把该变量当作协变量检验与生存时间的关系 如果它定义的为分组变量 则分组比较生存时间有无差别 例题1 生存率计算 为了比较不同手术方法治疗肾上腺肿瘤的疗效 某研究者随机将43例病人分成两组 甲组23例 乙组20例的生存时间 月 如下所示 甲组 1 3 5 3 6 3 7 8 10 2 14 17 19 20 22 26 31 34 34 44 59乙组 1 2 2 3 2 4 3 6 2 8 9 2 10 11 12 13 15 17 18其中有 者是删失数据 表示病人仍生存或失访 括号内为重复死亡数 试计算甲组的生存率与标准误 例题2 寿命表法 某研究者随访收集了某地男性心绞痛患者2418例 试计算该地男性心绞痛患者的生存率及其标准误 例题3 log rank检验 试比较甲 乙两种手术方式的生存率有无差别 Cox模型 像通常的回归分析一样 人们也希望能建立起生存时间 因变量或反应变量 随危险因素 自变量或协变量 变化的回归方程 以便对危险因素的作用大小有一个全面的了解和掌握 并根据危险因素的不同取值对生存概率进行预测 由于很难获得准确的生存时间 前述目的较难直接实现 1972年Cox提出了比例危险模型 简称为Cox模型 由于此模型在表达形式上与参数模型相似 但在对模型中各参数进行估计时却不依赖于特定的假设 所以又称为半参数模型 Cox模型 Cox模型是目前生存分析多因素预后评价中较好的统计分析方法 医学上经常遇到 时间 反应 类型资料 如生命现象生存期 疾病潜伏期 药物试验的生效时间等 这种类型的资料可以用各种参数或非参数方法进行分析 但都有一定的局限性 Cox模型以半参数方式出现 适用于许多分布未知的资料和多因素分析 可以在众多预后因素共存的情况下 排除混杂因子的影响 提高预后分析质量 并能处理截尾数据 此模型的适用面很宽 在生存分析中占有特殊的地位 Cox模型 设是影响生存时间t的k个危险因素 设hi t 为第i名受试者在时刻t的风险率 即t时刻外后一瞬间的死亡速率 又设h0 t 表示不受危险因素x的影响下 在时刻t的风险率 又称为基准风险率或基准函数 其模型的具体形式为 hi t h0 t exp 1xi1 2xi2 mxim 式中hi t 为第i名受试者生存到t时刻的危险率函数 h0 t 是当所有危险因素 即xij 0 不存在时的基础危险率函数 X xi1 xi2 xim 是可能与生存时间有关的 个危险因素所构成的向量 Cox模型 ln hi t h0 t 1xi1 2xi2 mxim此式表明 各危险因素与回归系数的线性组合就是第 名受试者的相对危险率函数的自然对数值 再设有i j两个受试者 其危险因素向量分别为X1与X2 不难得出他们的相对危险率的自然对数为 ln hi t h0 t 1 xi1 xj1 2 xi2 xj2 即利用 具有某预后因素向量的受试者的死亡风险与不具有该预后因素向量的受试者的死亡风险在所有时间上都保持一个恒定比例 的假设 巧妙地获得了各时间点上 个受试者相对危险率函数的估计值 Cox模型 然而 当资料不满足上述假设时 即有些危险因素作用的强度是随时间而变化的 个受试者的危险率函数之比 相对危险 随时间而改变 就应改用时变协变量模型 也称为非比例危险模型 当只有一个危险因素时 其模型的具体形式为 hi t h0 t exp xi xiti 式中ti为第i个受试者的生存时间 上述各式中的回归系数需用最大似然法进行估计 一旦有了危险率函数的估计值 再利用生存时间函数之间的相互关系 可获得其他生存时间函数的估计值 Cox模型中参数意义的解释 对于一元Cox模型 如果因素x的取值为1和0 那么 受x影响与不受x影响的相对风险是 对于一元Cox模型 如果因素x是连续变量 那么 表示相邻水平的风险率之比 多余多元Cox模型 表示其它因素不变的情况下 因素xi相邻水平的风险率之比 相对风险率 Cox模型中参数意义的解释 例如 高血压 x1 和高血脂 x2 对冠心病的发病风险率的Cox模型是 其中 h0 t 表示既没有高血压 x1 0 也没有高血脂 x2 0 的研究对象在时刻t的发病风险率 Cox模型中参数意义的解释 由此可以估计出 有高血压但没有高血脂者 x1 1 x2 0 相对于既没有高血压也没有高血脂者发病的风险率之比为 有高血脂但没有高血压者 x1 0 x2 1 相对于既没有高血压也没有高血脂者发病的风险率之比为 有高血压又有高血脂者 x1 1 x2 1 相对于既没有高血压也没有高血脂者发病的风险率之比为 Cox模型的应用 Cox模型由于以下特点具有广泛的应用价值 与参数法相比 它不需要考虑资料的分布 即任何分布的生存研究资料都可以利用Cox模型进行数据分析 它是一种多元统计分析方法 可以用来分析多种因素对生存时间的影响 而流行病学研究的重要目标之一就是分析各种因子与发病之间的关系 Cox模型回归分析模型可以用来分析各因子对发病的影响 使得生存分析更适合于流行病学研究 Cox模型的应用 它与其它一般回归分析方法类似 可用于比较和预测 多元Cox模型回归分析可以校正其它因素的影响 用于某一因素不同水平的比较 并可以在研究对象的各因素已知时 预测研究对象在某时刻的生存概率 它与Logistic回归分析类似 在得到回归系数的估计值后 则可以估计t时刻的相对危险度 Cox回归的SAS程序 SAS系统中利用PHREG过程对生存数据进行回归分析 结局变量 因变量 为生存时间 可以处理有截尾数据的生存时间 PHREG过程的语法格式如下 PROCPRREGDATA 选项 MODEL 选项 STRATA FREQ BY RUN Cox回归的SAS程序 MODEL语句为必需的 定义生存时间和截尾指示变量和说明变量 NOPRINT 不打印输出 NOSUMMARY 不打印输出事件和截尾数值 SIMPLE输出MODEL语句中每一个说明变量的简单的描述统计量 TIES 方法 指定估计生存率所用的方法 BRESLOW使用Breslow的近似似然估计 为默认的选项 DISCRETE 用离散Logistic模型替代比例风险模型 多用于m n的Logistic回归 EFRON使用Efron的近似似然 Cox回归的SAS程序 EXACT 计算在比例危险假定下所有失效事件发生在具有相同值的删失时间或较大值时间之前的精确条件概率 ENTRYTIME 变量名 规定一个替代左截断时间的变量名 Cox回归的SAS程序 SELECTION method 方法可以选择以下几种 FORWARD 或F 按照规定的P值SLE从无到有依次选一个变量进入模型 BACKWARD 按照规定的P值SLS从含有全部变量的模型开始 依次剔除一个变量 STEPWISE 按照SLE的标准依次选入变量 同时对模型中现有的变量按SLS的标准剔除不显著的变量 SCORE 采用最优子集选择法 其中 SLE选择项用于指定协变量进入模型的显著水平 SLS选择项用于指定协变量停留在模型中的显著水平 缺省值皆为0 05 Cox回归的SAS程序 STRATA语句 比例风险的假定可能不会对所有的层都成立 此时需要作分层分析 STRATA语句要求按照分层变量名列的水平数拟合一个多层的Cox模型 与BY语句不同 后者是要求按分组变量名列分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 可降解减震材料在环保政策驱动下的产业化应用边界探讨
- 反刍动物肠道微生物组调控对饲料效率的颠覆性影响
- 双碳背景下丙二醇生产全生命周期碳足迹核算与减排技术突破
- 双珠复合织造工艺在智能纺织品中的集成应用瓶颈
- 历史街区别墅改造项目中的文化遗产保护与照明功能融合
- 半导体光刻胶前驱体合成工艺中原子级纯度与成本控制的动态平衡
- 医疗数据孤岛背景下试剂盒结果互认伦理合规框架
- 区块链技术在茴香种子割茬溯源认证中的可行性验证
- 2025年度甘肃省嘉峪关市专业技术人员继续教育公需科目试卷及答案
- 2025年度大庆市继续教育公需科目试题及答案
- 中小学高级职称英语全英答辩题
- 新版教科版科学五年级上册全册课件
- 小学地方课程教案(全面完整版)
- 山西省家庭经济困难学生认定申请表
- 国家职业技能标准——城市轨道交通列车司机(2020版)
- 《社会学概论》全套课件-PPT
- 动力弹塑性分析滞回模型-迈达斯
- 驾驶员实用英语口语
- 小学六年级上册音乐-第1课《我的祖国》--湘教版(12张)ppt课件
- 脐疗-望脐知健康ppt课件
- 完整版陆河客家请神书
评论
0/150
提交评论