事件史分析.ppt_第1页
事件史分析.ppt_第2页
事件史分析.ppt_第3页
事件史分析.ppt_第4页
事件史分析.ppt_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

事件史分析EventHistoryAnalysis 陈华帅2010 7 26 湘潭大学2010年 现代计量经济分析方法与应用 暑期学校课程讲义 上节课概念复习 事件史分析也称为生存分析 Survivalanalysis Cox Oakes 1984 失效时间分析 Failuretimeanalysis Kalbfleish Prentice 1980 或风险模型 Hazardmodeling Yamaguchi 1991 生存函数与风险函数 生存函数S t 风险函数h t 风险函数h t 给出的是观测个体已生存时间t后 单位时间发生事件的瞬时可能性 可看作是生存函数的相反信息 事件史分析的分类 非参数模型 Non parametricEstimation 生命表方法 Kaplan Meier乘积限 Product Limit 法 半参数模型 Cox模型参数模型 Weibull 对数logistic 对数正态 广义伽马 Cox模型 Cox的一个重要特征是 基准风险是时间t的函数 而与协变量X无关 右侧指数表达式与X有关 而与t无关 如果X中含有与时间t有关的变量 time dependentvariable 此时不再满足比例风险假设 需要用扩展的Cox模型 extendedCoxmodel Cox模型中不包括常数项 如果包括常数项 则常数项可与基准风险函数合并 Cox模型是一个稳健 robust 的模型 所得到的结果与正确的参数模型所得结果将非常相似 偏似然函数 Cox不能直接提供基准函数的估计 但它的估计具有其他MLE的渐进性特征 一致性 有效性 正态性 Cox似然函数的构建是基于事件发生的秩序而不是事件的联合分布 故称之为偏似然 偏似然函数示例 Cox模型结果的解释 参数估计描述的是协变量变化一单位对风险对数值的影响 描述的是协变量变化一单位对事件发生风险的影响 Cox比例风险模型示例 基因FOXO对老年死亡风险的影响 节选自论文 Bio demographicAnalysisonEffectsofFOXOGenotypesonLongevity 发表于JournalofGerontology BiologicalSciences 研究目的 基因FOXO 1A209及FOXO 3A310是否对死亡风险及预期寿命产生显著性影响 其是否存在交互作用 哪些社会经济因素会影响死亡风险及预期寿命 基因对死亡风险的影响是否与社会经济因素有关 换言之 当人体存在对长寿不利的基因时 是否能够通过后天的社会经济因素的干预 以克服这种先天性的不利影响 样本选取 中国老年健康影响因素跟踪调查 CLHLS 变量选取及描述性统计 Stata回归命令 手动输出结果 设置数据类型 stsetduration failure status9805 1 模型I 仅考虑g1 stcoxg1maletrueageurbanschoolecoindependmarriedaloneclosecaregiverdeficitexercise 模型II 仅考虑g2 stcoxg2maletrueageurbanschoolecoindependmarriedaloneclosecaregiverdeficitexercise 模型III 同时引入g1及g2 stcoxg1g2maletrueageurbanschoolecoindependmarriedaloneclosecaregiverdeficitexercise 模型IV 同时引入g1及g2 以及交叉项 stcoxg1g2g1 g2maletrueageurbanschoolecoindependmarriedaloneclosecaregiverdeficitexerciseg1 exerciseg2 exercise Stata回归命令 自动输出结果 模型I 同时引入g1及g2 以及交叉项 stcoxg1g2g1 g2maletrueageurbanschoolecoindependmarriedaloneclosecaregiverdeficitexerciseg1 exerciseg2 exerciseoutregusing C DocumentsandSettings ccershuai 桌面 Cox回归示例 outcome xls sebracket3astercoenol 模型II 仅考虑g1 stcoxg1maletrueageurbanschoolecoindependmarriedaloneclosecaregiverdeficitexerciseoutregusing C DocumentsandSettings ccershuai 桌面 Cox回归示例 outcome xls sebracket3astercoenolappend 模型III 仅考虑g2 stcoxg2maletrueageurbanschoolecoindependmarriedaloneclosecaregiverdeficitexerciseoutregusing C DocumentsandSettings ccershuai 桌面 Cox回归示例 outcome xls sebracket3astercoenolappend 模型IV 同时引入g1及g2 stcoxg1g2maletrueageurbanschoolecoindependmarriedaloneclosecaregiverdeficitexerciseoutregusing C DocumentsandSettings ccershuai 桌面 Cox回归示例 outcome xls sebracket3astercoenolappend Cox比例风险回归结果 注 p 0 01 p 0 05 p 0 10 Cox比例风险模型的生存曲线 给定风险函数 可得到生存函数及其估计值 其中 由计算机程序提供 而Xi需要分析者给出 示例 生存函数 如果Rx 1 logW 2 93 则估计的生存曲线为 比例风险假设的评估 1 图形评价法2 拟合优度检验3 时变变量检验法 1 Log Log图形评估方法 Log Log图形评估法只是对估计生存曲线的一种转换 是将位于 0 1 区间的生存函数S t 取两次对数 ln lnS t 转化为 区间分布 S 1 0 54 0 25 0 t ln lnS 0 484 0 327 0 t 1 Log Log图形评估方法 Log Log图形评估法 示例 考虑两个样本 治疗组X1 对照组X2 如果两条曲线大约平行 即垂直距离近似不变 则满足比例风险假设 如果两条曲线有交错或不平行 则不满足 ln lnS 治疗组X1 控制组X2 ln lnS 治疗组X1 控制组X2 1 Log Log图形评估方法 Log Log图形评估法的缺点 主观性太强如果需要同时对若干变量进行比例风险假设的评价 将过多的变量组合在一块时 当发现有不平行存在时 也难以确定是哪个变量在起作用 ln lnS 治疗组X1 控制组X2 2 拟合优度检验法 拟合优度 goodnessoffit 检验可提供是否符合比例风险的检验统计量和p值 比做图法更客观 最常用的拟合优度检验为Schoenfeld残差法 Schoenfeld残差法 对于Cox模型中的每一个预测变量 都计算Schoenfeld残差 如果要检验的变量满足比例风险假设 则这一变量的Schoenfeld残差将与生存时间无关 Schoenfeld残差的推导 Schoenfeld残差法 设有p个协变量 n个独立观测时间和删失 可表示为 ti xi ci 其中i 1 2 n 未删失观测ci取值为1 否则为0 Schoenfeld残差是 对数偏似然对每个协变量系数的微分 其中 第i个观测在第k协变量的Schoenfeld残差为 Schoenfeld残差的特征 当Schoenfeld残差 0时 表明发生事件的那些观测个体在发生时间的取值大于此时仍处于风险集中的观测个体的平均值 当Schoenfeld残差 0时 表明发生事件的那些观测个体在发生时间的取值小于此时仍处于风险集中的观测个体的平均值 样本足够大时 Schoenfeld残差的和为0 而且近似不相关 如果Cox模型满足比例风险假设 则Schoenfeld残差与时间t不相关 计算残差与时间的简单相关系数 如果相关系数为0 且统计上不显著 则满足比例风险假设 否则不满足 也可做图 观察Schoenfeld残差随时间t的变化趋势 Schoenfeld残差法步骤 检验步骤 1 运行Cox比例风险模型 获取每个变量的Schoenfeld残差 2 对发生事件时间排序并定义变量 如第一个发生事件的为1 第二个发生事件的为2 等等 3 检验由前两步建立的变量的相关性 零假设 Schoenfeld残差与有序发生的事件的相关性为0 若拒绝零假设 则比例风险假设不成立 Schoenfeld残差检验Stata命令 设置数据类型 stsetduration failure status9805 1 模型I 仅考虑g1 stcoxg1maletrueageurbanschoolecoindependmarriedaloneclosecaregiverdeficitexercise schoenfeld f1 estatphtest 模型II 仅考虑g2 stcoxg2maletrueageurbanschoolecoindependmarriedaloneclosecaregiverdeficitexercise schoenfeld f2 estatphtest 模型III 同时引入g1及g2 stcoxg1g2maletrueageurbanschoolecoindependmarriedaloneclosecaregiverdeficitexercise schoenfeld f3 estatphtest 模型IV 同时引入g1及g2 以及交叉项 stcoxg1g2g1 g2maletrueageurbanschoolecoindependmarriedaloneclosecaregiverdeficitexerciseg1 exerciseg2 exercise schoenfeld f4 estatphtest 举例 比例风险假设检验结果 Testofproportional hazardsassumption Time 结论 满足比例风险假设 模型I 仅考虑g1 模型II 仅考虑g2 模型III 同时引入g1及g2 模型IV 同时引入g1及g2 以及交叉项 结论 不满足比例风险假设 结论 满足比例风险假设 结论 满足比例风险假设 3 时变变量检验法 在Cox模型中添加协变量与时间的交互作用项 即 X g t 其中 g t 是时间的函数 原始的Cox比例风险模型为 包含时间交互项扩展的Cox模型为 时变变量法检验比例风险假设的思路是 对乘积项进行显著性检验 如果比例风险假设满足 则所有乘积项系数等于0 即 零假设 1 2 p 0检验统计量是似然卡方统计量 自由度为要评估的变量个数p 若拒绝零假设 则比例风险假设不成立 比例风险不满足时的处理方法 分层Cox模型 将观测个体按照不满足比例风险假设的协变量进行分层 将满足假设的协变量包括在模型中 不满足假设 将要分层的协变量不包括在模型中 例如 如果年龄分类变量 老年 中年 青年 不满足比例风险假设 则将样本按老 中 青分开 分别进行Cox回归 时变变量Cox模型 即在模型中增加时间交互作用项 具有时变变量的Cox模型Time varyingCoxModel TVC 时变变量 时变变量 time varyingcovariates TVC 分类一 外在变量 external 1 固定外在变量 事先知道其取值在整个研究过程中不发生变化 2 限定外在变量 变量的取值随时间而发生变化 但时间路径是已知的 如样本年龄 在这个意义上 变量是非随机的 其值可以事先确定 3 附属外在变量 是随机的 但影响变量取值变化的过程不受研究的事件史过程的影响 如在时间t 某个特定区域空气污染指数 或地区的失业率 内在变量 internal 时变变量 时变变量 time varyingcovariates TVC 分类二 内生变量 endogenous 示例 战争的持续时间与战争的伤亡人数外生变量 exogenous 外生变量的正式定义 Lancaster 1990 一个协变量是外生的 当且仅当其取值与生存时间是独立的 外生变量的取值由系统之外的因素决定 不受所研究过程的本身影响 多数统计学模型假设右边的都是外生的协变量 如果TVC是外生的 则似然函数和参数估计不会出现任何问题 确定外生性假设是困难的 时变变量Cox模型的形式 其中 是与时间独立的协变量 是与时间相关的协变量 示例 时变变量的Cox模型估计时仍然使用MPLE方法 其统计推断仍使用Wald和LR检验 但其风险集比Cox比例风险模型要更复杂 时变变量Cox模型的假设 时变Cox模型的重要假设是 Xj t 在时间t对持续时间概率的影响与该变量在时间t的取值有关 而与其前后时间的取值无关 而且 尽管Xj t 在观测期间的取值在不断变化 但模型中的估计系数只有一个 因而在时间t 只有唯一的一个值对风险起作用 时变变量Cox模型的假设 模型也能考虑滞后时间的影响 具有滞后时间效应模型的一般形式是 其中 Lj表示第j个变量的滞后时间 时变变量Cox模型的风险比率 时变Cox模型的最重要特点是其不满足比例风险假设 其风险比率的一般表达式为 两个协变量在时间t的具体取值为 由此可见 风险率是时间的函数 当 i不为零时 不满足比例风险假设 i本身是一个固定的值 不随时间变化 表示时变变量在整个研究期的影响或作用 比例风险假设的检验与处理 对比例风险假设进行验证的三种方法 图示法拟合优度法扩展的Cox模型 即时变变量 time varyingcovariables 的Cox模型 比例风险假设 时变变量检验法 不含时变变量的Cox比例风险模型 时变变量的Cox模型 为检验比例风险假设 零假设为 检验统计量为 在H0条件下 近似服从自由度为p的卡方分布 如果拒绝H0 则扩展的时变变量模型是合适的 风险比率是时变的 时变变量gi t 的形式 第一种 最简单的是所有的gi t 0 即比例风险模型 第二种 令gi t t 此时模型形式为 假设我们对某一变量感兴趣 可以令 其余的 模型为 有时设置成以下形式 其中 从时间TIME减去常数c是为了便于解释 常数c可设为研究起点时间 以便表示开始时点的风险率 c也可设为中位生存时间 以便反映的是 平均 事件时间的风险率 时变变量gi t 的形式 第三种 令gi t lnt 此时模型形式为 第四种 使用赫维赛德函数 heavisidefunction 即 在这一函数形式下 不同时间区间会有不同的风险比率 t HR t0 时变变量 heaviside函数 考虑只有一个变量X及一个heaviside函数g t 的情景 风险函数为 t t0时 g t 1 T t0时 g t 0 时变变量 heaviside函数 也可以使用两个赫维赛德函数 heaviside 来表示上述模型 即 其中 g1 t 和g2 t 分别是 此时没有X的主效应项 t t0时 g1 t 1 g2 t 0 T t0时 g1 t 0 g2 t 1 时变变量 heaviside函数 赫维赛德函数 heaviside 能够提供两个不同时间区间的估计风险率 且在区间内风险率保持不变 这一特性可推广到多个时间区间 示例 包含四个heaviside函数的扩展Cox模型如下 风险率公式为 t years HR 1 0 0 5 1 5 0 时变变量 heaviside函数 事实上 heaviside函数是将交互作用的影响以分段的形式体现的 也可将连续时间分成k个时段 每个时段用一个时间指标D1到Dk来表示 如果时间以天 月 来测度 则这个时段可取为周 年 时间段的长度不需要相等 但每个时间段最好有大致相等的事件数 其中 代表变量X在第m个时间段变动一单位时 对数风险的变动 时变变量交互作用形式的选择 交互作用的表达方式可根据不同变量值的对数风险之差的图形分析 如果该曲线是稳定下降 则与时间的交互作用也许是线性的 如果是梯度变化的 那些用heaviside函数 或将连续时间分段引Di时间指标变量 如果下降得比较陡峭 则或许对数设定的交互作用较合适 时变变量Cox模型似然函数 示例 吸烟与患病风险 Cox比例风险模型为 如果模型含有时变变量SMOKE TIME 则扩展的Cox模型为 示例 吸烟与患病风险 包含时变变量 含SMOKE TIME时 丁作为吸烟者 在时间8发生了事件 然而在时间t 2 3 8 时变变量的值在发生变化 影响了风险 这是与前面讨论的最大区别 比例风险下的似然函数 时变变量下的似然函数 丁的风险表达式不同 时变变量Cox模型的偏似然函数 加入时变变量 TVCs 后的偏似

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论