(概率论与数理统计专业论文)基于经典cox模型的多水平异质性模型及其推广应用.pdf_第1页
(概率论与数理统计专业论文)基于经典cox模型的多水平异质性模型及其推广应用.pdf_第2页
(概率论与数理统计专业论文)基于经典cox模型的多水平异质性模型及其推广应用.pdf_第3页
(概率论与数理统计专业论文)基于经典cox模型的多水平异质性模型及其推广应用.pdf_第4页
(概率论与数理统计专业论文)基于经典cox模型的多水平异质性模型及其推广应用.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(概率论与数理统计专业论文)基于经典cox模型的多水平异质性模型及其推广应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

原创性及学位论文使用授权声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究工作所取得的成果。除文中已经注明引用的内 容外,本论文不包含任何其他个人或集体已经发表或撰写过 的作品成果。对本文的研究作出重要贡献的个人和集体,均 已在文中以明确方式标明。本人完全意识到本声明的法律结 果由本人承担。 学位论文作者签名: 主l 钤日期:川年夕月彳日 学位论文使用授权声明 本人完全了解中山大学有关保留、使用学位论文的规定,即: 学校有权保留学位论文并向国家主管部门或其指定机构送交 论文的电子版和纸质版,有权将学位论文用于非赢利目的的 少量复制并允许论文进入学校图书馆、院系资料室被查阅, 有权将学位论文的内容编入有关数据库进行检索,可以采用 复印、缩印或其他方法保存学位论文。 学位论文作者签名:主j j 钤 日期:砷年夕月形日 导师 日期 窭i 墓耋阿咭;主囊墓薹;萎垂薹霉妻妻羹霎萋童;摹 ;茎。 奏薹萋蓁囊望妻霎妻鋈霎禄;蠹篓冀。篓薹耄;蓁 稚。萎茎霎,篓垂羹;薷型囊妻萋薹凄蓁薹蚕塑囊 凌;薹薹萋塞羹囊薹蓁蠢雾妻霎羹j 雕奏妻盖峪霪 萎冀羹蠹塞羹雾f 篓蓁蓁羹薹囊霎雾蓁霎手; 叁薹薹薹翼薹塞薹囊萋雾錾羹蓁;霪冀蓁妻 由薹羹鋈鍪萋| 薹誉蹩蠢篓鬟篓;羹蔷兰冀蒌辇囊 萋霎而掣霎一雾耄萎萋喜羹薹蓁霆蓁零i 庄萋= 奏 羹蓁薹攀圳囊薹篓鏊剧囊鬣型鋈| 羹蠢墓竖篓 羹囊薹鬟;蓁一翼蠹蓁薹雾雾冀咱囊i 霞呈蓁萎 矍j 冀蓁辇斋薹囊羹薹薹霎薹羹薹叵稿;羹鏊蓁鎏羹 荔萋篓翼萋誊萎雾素誊善雾= 囊蓄剑冀喜;量錾陌 薹薹羹霪萧满霎l 。雪蚕窭萋萋霪蓁焉塑诼i 囊薹 薹篓萋篓薹孽奏耋雾! 硅蓥墨萋薹茎i 蓁薹羹霎雩坚 薹蓁雾箸蓁羹垂霉藩羞趔;霎塞零妻福鬟霎雾霎 奏鏊蓁蓁蒌蓁萋需;坐雾萎萋霎篓篓耋茎冀霾 萋;薹墓薹囊墓妻篓蓥妻蕊霎雾蚕篓羹妻驴萎蚕 垂雾;薹菁矿萋蓁羹霎嚣薹萋蠢妻霎霎薹鬟;墅妻 蕊苎囊薹鎏霉塑萋薹篓羹囊窝髫薹羹;蓁茎鍪囊 囊琴师嚣萋幽冀要篓;雾萎审叁蓁刚;霎耋蚕龄囊 萎蓑些羹咐羹蠢奏冀孽圜囊羹薹鍪衅堇篓;萋雾 霎羹薹矧蠢誓萋蠢雾壁霪;的霎萋薹即薹薹霎搴 吼粪錾雾二羹蕃霎萋翼萋耋i ! 囊羹斧兰霎薹蠢耋;l 羹函鎏;蒜竺矍錾薹羹霎职;萋薹数为s ( t ) 。 s。;)“一舳。聃,其中基本生存函数为s。;)一c九)咖s。ii)的估计一般采 第一章前言 参考n i e l s e ne ta 1 ( 1 9 9 2 ) 盯1 ,我们作以下假设: 1 给定u 。一咋, ( 弓,q ) ,- j ;1 ,刀,) 是条件独立的;对每一个 j f = 1 ,厅;,毛和c 口也是条件独立的。 2 给定玑一“,c f ( j 一1 ,一 是完全随机缺失,毛的条件危险函数 为a 鳓i “,) = 九嘞) e x p ( 肛;弘,其中a o ) 是危险函数,九( f ) 是基线危险函数, 勃;o f 。,z 咖) 是协变量的向量,是p 1 维列向量,表示回归效应。假设玑独 立同分布于含有脆弱系数口的概率密度函数;伽玛和对数正态脆弱模型就是分别 假设【厂,服从伽玛分布和对数正态分布。因为第一水平f 共同享有一个随机效应 项,故又称之为共享异质性模型。 巢式异质性模型,将随机效应分层考虑,比起共享异质性模型来拟合多层次 的数据更准确。 假设条件和共享异质性模型相似,只是多了亚层的随机效应项。用 乃( f 一1 ,q ,歹- 1 ,刀- 艺一) 表示第f 个个体第,次测量时的生存时间,c 盯 为相应的删失值;令。m i n ( 弓,岛) ,如ti ( 弓s 岛) ,其中l ( ) 为示性函数; 把第f 个个体的不可观测的脆弱项记为玑;把第f 个个体第j 次观测的不可观测的 脆弱项记为g 珏 参考n i e l s e ne ta 1 ( 1 9 9 2 ) m ,我们作以下假设: 1 给定u - 口,w i 2 , ( 巧,c 玎) ,_ - 1 ,吃) 是条件独立的;对每一个 一1 ,嘞,弓和岛也是条件独立的。 2 给定- 口。,w j = ,q ( j 1 , , 是完全随机缺失,弓的条件危 险函数为a 鳓i h ,) 一九鳓) e x p ( 肛;) l l ,其中a o ) 是危险函数,九o ) 是基 线危险函数,t ( 嘞。,嘞) 是协变量的向量,芦是p 1 维列向量,表示回归 效应。假设玑独立同分布于含有脆弱系数口的概率密度函数;伽玛和对数正态 脆弱模型就是分别假设u ,服从伽玛分布和对数正态分布;同u ;的假设一样,也 假设独立同分布于含有某一脆弱系数的概率密度函数:伽玛和对数正态脆弱 模型就是分别假设【,和都服从伽玛分布和对数正态分布。 4 第一章前言 ( s e m i p a r 鲫e t r i cp e n a l i z e dl i k e l i h 0 0 dm e t h o d ) 对风险函数进行估计。 1 2 研究目的和意义 经典c o x 回归模型( f ) 一九o ) e x p ( 反幸+ 芦2 幸z 2 + ) ,和一般的线性回 归一样,要求个体的每次观测间要相互独立,这在实际应用中很难满足;共享异 质性模型九o ) 。九p ) e x p ( 厩工珂+ 卢2 x 萄+ 。+ 占,) 或者 o ) 一九o 沁,e x p ( 以+ 卢2 宰工硝+ ) ,只是考虑了截距的一个随机效应,将 各水平的随机效应混在了一起,虽然较一般的c o x 回归有所进步,但仍然不能满 足多水平数据结构的要求;巢式异质性模型 o ) 一九o ) e x p ( a 钿+ 声2 z 砑+ + 仇+ 玎) 或者 o ) - 九( f ) h e x p ( 晟钿+ 声2 工砑+ ) ,克服了共享异质性模型没有分层的 缺点,将截距的随机效应分为不同的层进行考虑,但是仍然没有将某一协变量对 生存时间的影响作为随机变量进行考虑,这在实际应用中有很大的局限性。所以 本文利用多水平模型分层的思想将异质性模型进一步扩展,将协变量对生存时间 的影响也看作随机变量,从而将异质性模型的应用进一步推广。 1 3 研究的主要内容 本文基于一般c 0 x 回归和多水平模型的理论,利用多水平模型分层的思想将 异质性模型进一步推广,试着提出一种更广泛的模型,并在此基础上,对模型进 行不断的深化处理,并通过模拟实验和实例表明,改进的模型对嵌套式数据拟合 会更好。 第一章介绍基本知识,多水平模型、异质性模型和拟构建的多水平异质性模 型,给出本课题的研究背景、研究的目的和意义,最后介绍了本研究的主要内容。 第二章通过模拟实验利用对具有不同个数协变量的多水平异质性模型进行 估计,并与传统的c o x 回归模型估计结果进行比较,说明该模型对嵌套式数据比 传统的c o x 回归模型拟合的更好,并且随着协变量的增加,拟合的优度在增加。 第三章是实例实用,对北京大学第一医院的数据进行拟合,并对照分析经典 c o x 模型和改进的多水平异质性模型所拟合的结果的差别。 6 第二章多水平异质性模型及模拟实验 ( 或好) ,年龄小的病人的生存状况就好( 或差) ,也就是年龄对病人生存的影响在 不同个体间并非一致的。对这种情况的处理,异质性模型是无能为力的,基于这 种情况,本文提出了一种新的模型,我们称之为多水平异质性模型。 2 3 1 模型简介 结合多水平模型分层的思想,将异质性模型进一步扩展,其模型表达式为: 第一水平:( f ) 一九o ) e x p ( 局,+ 芦甜x 笱+ + 卢z 硝+ 勺) ,仍然是测量水平, 刻画了个体内部不同测量之间对危险率的差异。其中九( ) 是不做任何限制的基 线危险函数,嘞一0 埘,x 埘,工西) 。是由测量水平的协变量组成的向量, 声一( 凡,声2 ,p 一) 是测量水平上回归系数的p 1 维列向量。 第二水平: 风一a o + a l z u + + 芦2 l - 芦+ 2 l z h + + ,2 | 一p l o + 乃l 气+ + ,7 第二水平是完整模型,其中z ,代表诸如年龄、性别等个体的指标。揭示了 不同个体变量z ,对第一水平的系数卢的影响。联合模型的表达式为: ( f ) - 九p ) e x p ( 反o j l ,+ 反l x h z u + + 芦加x 2 玎+ 卢2 1 x 丑毒z 盈+ + p p o 石加+ 声p l 工z 一 + ,7 “h + ,7 2 j 工掣+ + ,7 x 一+ e 玎) 假设个体间的随机效应仇= ( ,) 和个体内部的随机效应白相互独立,且 均服从某特定的分布。如果仇= ( 钆,7 面) 的方差协方差阵是零矩阵,说明不同 个体间是相互独立,且不同个体间各协变量对生存时间的贡献互不影响,方羞越 大说明不同个体间对生存时间的相关性越强或者说异质性越大;如果占h 方差为 零,说明来自同一个体的不同观测之间是相互独立的,方差越大,说明来自同一 个体的不同观测之间的生存时间的相关性越强或者说异质性越大。 本章节先将其中一个协变量对生存时间的影响看作是随机效应,其他的协变 量对生存时间的影响仍然当作是同定效应,第二水平是零模型的混合模型。其表 达式为: 第一水平:九( f ) t 九( f ) e x p ( 凡+ 展屯巧+ + 砟工硝+ 勺) 1 0 第二章多水平异质性模型及模拟实验 第二水平:几一芦l o + 联合模型:( f ) 一九( f ) c x p ( 属 + 岛嘞+ + 以嘞+ ,7 u + 勺) 其中,匕( f 一1 ,g ,j 一1 ,一,刀- 艺 ) 表示第f 个个体第- 次测量时的个体真正 的生存时间,q 为相应的删失值;令毛- m i n ( ,q ) 表示观测到的个体生存时 间;嘞一i ( 岛) ,其中i ( ) 为示性函数,当事件发生被观测到时如一1 ,当个 体删失,其终点事件没有被观测到时6 玎一0 ;个体内部不同观测间的随机效应项 钿的存在,使得基线风险函数在不同观测之间是不同的,也允许部分未被观测 的协变量对生存的影响的存在,也就是说,在所观测到的这p 个协变量相同的条 件下,不同观测间对生存的影响也不是一成不变的,比如还有一个协变量颤p + 1 ) 搿 对生存有重要影响,但是由于现在认识水平的限制没有对他进行分析,如果没有 随机效应项f 。的存在,其他协变量对生存影响的估计将不准确;个体间的随机 效应项讥的存在,使得协变量h 对生存的影响可以因人而异,比如代表血压, 由于个体间年龄、性别等因素的差异,血压同样上升一个毫米汞柱,对不同病人 的生存的影响是不同的。和现有的异质性模型相比,这种模型更贴合实际。 2 3 2 多水平异质性模型的贝叶斯分析 在多水平异质性模型中,由于我们只关心协变量对生存的影响,而不关心基 线风险函数,所以进行贝叶斯分析时,我们完全可以利用c o x 提出的部分似然函 数的思想。记d 一( f ,6 ,x ,7 ,) 为模型的完备数据集,从而得上述模型的部分似 然函数为: 琊一豇毒篆等暑铬耥 庙而 记d o 一( f ,6 ,x ,) 为模型的观测数据集,则卢关于d 幽的部分似然函数可以 通过上式积分得到。显然,能明确写出该积分形式的解析表达式是很困难的,因 此,基于传统的高维数值积分方法很难得到卢的联合后验分布。这里,利用g i b b s 抽样方法得到参数联合后验分布的抽样。令石( ) 代表有关参数的先验分布,则 异质性因子讥的条件分布形式为:万伪。lp ,) = 三id p 仰。l f ,) ,其中我们 1 1 第_ 章多水甲异质性模型及模拟实验 假定服从( 0 ,f 。) 的正态分布,相应地,异质性因子的条件分布形式为: 万( i ,d 咖) = 工( 声i d p oi f :) ,其中我们假定 f 服从( o ,r :) 的正态分布。 2 4 模拟实验 用3 0 0 次重复实验的模拟数据通过模拟实验来验证多水平异质性模型比一 般c o x 回归模型对重复测量的嵌镶数据拟合的更准确。 假定,7 m o = 1 ,口) 和勺( 歹= 1 ,) 分别服从正态分布( o ,口;) 和( o ,仃;) 。 在给定了,7 甜一,勺一勺的前提下,相互独立的生存时间弓,= 1 ,以,服从参 数为a 嘞) 的指数分布。固定效应的回归系数与a 心) 的相关性通过脆弱项来表 示,即a 鸱) 一九o ) e x p 慨h + h + ) a 令九嘞) 一1 反一1 ,前鼋2 个个体的 取值为o ( 作为参照组) ,后口2 个个体的勃取值为l ( 作为治疗组) ,相应的 删失时间c 茸服从参数为岛= 仞( 1 一p ) 九的指数分布,其中p 为删失率,分别取 l o ,3 0 和6 0 ,验证多水平质异性模型对不同删失程度的拟合情况。令( 砖,) 分别取值为( o 5 ,1 0 ) 和( 2 5 ,1 5 ) ,验证多水平质异性模型对小同方差的 拟合情况。样本量万一善仇分别取值为1 2 0 ,2 4 0 ,3 0 0 和6 0 0 ,并且( 鼋,以,) 分别 取值为( 4 0 ,3 ) ,( 4 0 ,6 ) ,( 1 0 0 ,3 ) 和( 1 0 0 ,6 ) ,验证多水平质异性模型对不同样本量 的拟合情况。通过模拟数据的3 0 0 次莺复抽样,我们给出了估计值卢的均值、标 准差和9 5 的置信区间,其中刍的标准差由 层一多哆丢步;,这里的刍是第f 次 重复抽样时的估计值,卢一p t 3 0 0 。通过比较本文采用的m c m c 算法和s a s 中p h r e g 过程步所提供部分似然函数的估计方法对c o x 模型进行比较,来说明本 文采用的m c m c 算法是正确的。在此基础上,通过比较m c m c 算法对多水平异质性 模型的参数估计结果和对c o x 模型的参数估计结果进行比较,以卢的均方误差 ( m 距 局一屈 x 第二章多水平异质性模犁及模拟实验 表2 6w i n b u g s 利用m c m c 方法在不同方差下对一般c o 模型的估计结果 表2 7w i n b u g s 利用m c m c 方法在不同方差下对多水平异质性模型的估计结果 由表2 6 和表2 7 可见,随着方差增大,参数估计的误差越大,但是与一般 c o x 模型相比,多水平异质性模型的估计地更准确。特别是在方差较大的情况下 多水平异质性模型更显出他的优势。 综上试验结果可以看出,在此一个协变量的情况下,多水平异质性模型更优 于一般的c o x 模型。由此我们可以说多水平异质性模型拟合嵌镶式数据时比一般 c o x 模型更准确。 2 5本章小结 本章先是简单介绍了经典x 模型,异质性模型和多水平模型,然后在c o x 模型的基础上,将两者结合,提出了一种全新的模型即多水平异质性模型,为了 验证此模型的有效性,先以最简单的情况,即假定只含一个协变量的情况进行模 拟实验,发现与经典c o x 模型的结果相比,多水平异质性模型的结果更优。但是, 一方面这种拟合的优度并不明显,另一方面在多个协变量的情况下是否仍具有此 拟合优度,还是更优于一个协变量的情形,这都需要我们进行进一步的验证。于 是,我们在此章节的基础上,对含多个协变量的多水平异质性模型进行分析。 第三章多水平模型的进一步深化讨论 ( 靠,t ) 分别取值为( o 5 ,1 o ) 和( 2 5 ,1 5 ) ,验证多水平质异性模型对不同 方差的拟合情况。样本量丹一亨伟分别取值为1 2 0 ,2 4 0 ,3 0 0 ,4 0 0 和6 0 0 ,并 且q ,) 分别取值为( 3 0 ,4 ) ,( 4 0 ,6 ) ,( 1 0 0 ,3 ) ,( 1 0 0 ,4 ) 和( 1 0 0 ,6 ) ,验证 多水平质异性模型对不同样本量的拟合情况。通过模拟数据的3 0 0 次重复抽样, 我们给出了估计值卢的均值、标准差和9 5 的置信区间,其中卢的标准差由 军尼一声哆丢9 声,这里的多,是第f 次重复抽样时的估计值,多多,3 0 0 。 模型实验的部分s a s 程序参见附录a 3 1 3 m c m c 算法对多水平异质性模型和经典c o x 模型拟合结果的 比较 在此种模型下,对同一批模拟数据,分别用多水平异质性模型和经典的c o x 模型进行拟合,同样用m c m c 方法对模型参数进行估计,通过比较均方误差看模 型拟合的程度。 首先看一下在删失率( p - o 1 ) 和方差( ( ,露) 一( o 5 ,1 o ) ) 一定的前提下,比 较不同样本量对参数估计的影响,结果如表3 _ l 和3 2 。 1 8 第三章多水平模型的进一步深化讨论 表3 - 2w i n b u g s 利用m c m c 方法在不同样本量下对多水平异质模型的估计结果 由此可见,多水平异质模型对参数估计的均方误差都比一般c o x 模型的小, 其次,讨论在样本量( 取3 0 4 ) 和方差( ( 蠢,露) ( o 5 ,1 o ) ) 一定的前提下,比较 不同删失率对参数估计的影响,结果如表3 3 和3 4 。 表孓3w i n b u g s 利用m c m c 方法在不同删失率下对一般c o x 模型的估计结果 表3 4w i n b u g s 利用m c m c 方法在不同删失率下对多水平异质性模型的估计结果 从表3 3 和3 4 可以看出不管在何种删失的程度下,多水平异质模型估计结 果中的歹都比一般c o x 模型准确,两者的均方误差相当。总体来说,多水平异质 性模型的估计结果比一般的c o x 模型的估计结果更准确。 另外,我们考虑在删失率( p o 1 ) 和样本量( 取3 0 4 ) 一定的前提下,不同 方差对参数估计的影响,结果见表3 5 和3 6 。 表3 5w i n b u g s 利用m c m c 方法在不同方差下对一般c o x 模型的估计结果 1 9 第三章多水平模型的进一步深化讨论 表3 - 6w i n b u g s 利用m c m c 方法在不同方差下对多水平异质性模型的估计结果 由表2 6 和表2 7 可见,随着方差增大,参数估计的误差越大,但是与一般 c o x 模型相比,多水平异质性模型的估计地更准确。特别是在方差较大的情况下 多水平异质性模型更显出他的优势。 最后,我们把一个协变量和两个协变量的情况的试验结果作比较。 表3 - 7w i n b u g s 用m c m c 方法在不同删失率下对( 一个协变量) 多水平异质性模型的估计结果 表孓8w i n b u g s 用m c m c 方法在不同删失率下对( 两个协变量) 多水平异质性模型的估计结果 表3 9w i n b u g s 利用m c m c 方法在不同方差下对( 一个协变量) 多水平异质性模型的估计结果 表3 - 1 0w i n b u g s 利用m c m c 方法在不同方差下对( 两个协变量) 多水平异质性模型的估计结 果 从实验结果可以看出,在两个协变量的情况下,多水平异质性模型的参数估 第三章多水平模犁的进一步深化讨论计结果跟一个协变量比较,比一般c o x 模型准确。这就说明了当协变量个数增加、个体观测次数较多和个体内、个体间的方差较大时,多水平异质性模型更显出它 独特的优势。由此我们可以进一步说明多水平异质性模型拟合嵌镶式数据时比一 般cox模型更准确。另一方面,我们也能看到,两个协变量的估计结果和一个的情形相比,精确度整錾冀鞴鍪翼霸。嚣鬻霾酮羹。薪垂;塑篓羹一羹篓篓菱雾耋霪薹馥雾蒌。 薹。蓁薹羹蓁羹冀鬟鬟霾冀霪鋈雾蓁鋈冀蓁 囊墓霎一冀薹羹透萋羹羹| 蓁羹蓄臻雾羹薹薹羹薹霪冀羹j 霾嚣雾堑霎誊羹 擢羹基j 羹羹惯鬟薹饕譬羹錾羹一羹霎羹羹鬟蓁,雾冀霎一篓鬟妻蓁薹褥羹; 薹羹羹羹蓁| 蒌羹;冀冀霎蟊薹i 冀羹鬟翼羹萋冀| | 薹囊羹蠹墼薹蒌羹錾墓一鋈蟊鎏 翼;羹耋羹羹馐鬟羹:【= 篓;萋鎏曩一鎏逛雾霪i ,利用反馈原理不断调整系统内部 结构,优化功能,更好地控制知识流的流质、流向、 流速和流量到达知识消费用户,最终真正实现知 识资源的共享。档案信息机构不仅应关注信息资 源的搜集与获取和知识信息的组织与开发,而且 要重视知识的需求与应用,开展基于高速信息网 络的知识服务,这是今后档案信息机构工作的出 发点和归宿。 一、目前档案信息机构信息控制功能的局限 性 在信息时代,档案信息机构只是发挥信息控 制这个层次的功能是远远不够的。这就是说,档 案信息机构仅仅对统一化、一般化的档案信息搜 集、组织、提供是不够全面的,由此导致的以档案 信息线索为服务主攻方向的做法不能完全适应社 第四章多水平异质性模犁的实例实用 指标 m e a n s d 人数 年龄岁 1 8 4 0 4 l 一6 0 6 0 性别男 高血压 s b p 咖h g d b p 瑚| h g 糖尿病 体重k g 身高c m b m ik g m 2 c h a r ls o n 残肾k t yu n i t w e e k 腹膜k t vu n i t w e e k 总k t vu n i t w e e k 血红蛋白g l 血白蛋白g l 血尿素咖l l 血肌酐l l 握力n e w t o n 2 2 7 5 9 5 3 1 4 3 7 1 2 4 3 3 6 5 4 4 4 1 5 4 9 9 6 1 3 6 6 5 2 0 0 2 7 8 9 9 1 2 8 4 2 4 7 6 1 2 9 1 1 7 l 1 6 1 9 5 7 8 2 2 3 2 7 3 5 7 5 4 l 2 2 9 o 7 9 o 6 6 1 0 9 0 3 9 1 8 8 0 6 2 9 3 1 4 2 0 1 2 3 5 0 5 7 0 1 2 0 8 0 6 2 8 6 4 2 8 7 2 3 9 8 8 1 9 8 9 8 9 3 4 1 第四章多水平异质性模犁的实例实用 l b mk g 营养不良 3 9 7 2 儿1 9 5 5 1 表4 1 病人的人口学资料 用以单变量分析的有性别、年龄、b m i 、e i 、c h a r l s o n 指数、合并糖尿病 情况、s g a 评分、握力、教育情况、身高、体重、k t v ( 包括残肾r k t v 、腹 膜p k t v 和总t k t v ) 、s b p 、d b p 、血尿素、血肌酐、血白蛋白水平和血红蛋白 水平。失效时间从腹透进行三个月开始,病人移植或是转入血透或是在观察的截 止日期没有发生死亡都作删失处理。用k a p l a n - m e i e r 估计( p l 估计) 方法得到 病人生存函数的图象如图3 - 1 所示。 图4 1 病人生存的k a l 州a n - m e i e r 曲线 用c o x 模型分析诸因素对腹透病人死亡率的影响。单变量分析的结果如表 4 2 所示。从p 值小于0 0 5 的变量中进行变量筛选,筛选出来的变量为年龄、 c h a r l s o n 指数、总k t v 、e t 和s g a 评分。因为年龄已被包括在c h a r l s o n 指 数之中,所以不再进入模型,即只在c h a r l s o n 指数、总k t v 、e t 和s g a 评分 中进行多变量的筛选。 第四章多水平异质性模型的实例实用 表禾2c o 比例风险模型单变量分析结果 一般的c o x 模型中,各协变量对事件的影响都是固定效应。但是,协变量变 化相同的幅度对不同个体的影响也许是不同的,比如,如果和正常水平相比,某 病人的e i 偏低,对他来说e i 或许是个保护性因素,适当升高e i 对生存可能 更有利;而对一些e i 偏高的病人,e i 或许是个危险性因素,e i 的升高可能 对病人的生存产生严重的负面影响。换句话说,e i 对生存的影响不是每个人都 完全相同。s g a 评分分析也与此类似,下面我将分别用多水平异质性模型把e i 和s g a 评分对生存的影响看作是随机的,对此数据进行重新拟合。 4 2 1 w i n b u g s 对经典c o x 模型的拟合结果 利用m c m c 算法中的g i b b s 抽样,由w i n b u g s 软件对上述四个协变量进行多 变量分析,所得结果见表3 3 ,部分w i n b u g s 程序见附录b 。 用w i n b u g s 对模型参数进行估计时,先抽取1 0 0 0 0 次,再抽样5 0 0 0 次用于 估计但是从历史图中发现有些参数在抽取了1 0 0 0 0 次后仍未达到稳定状态,所 以我们在抽样2 0 0 0 0 次的基础上,再抽取5 0 0 0 次用于参数估计,所得结果见表 4 3 变量m e a ns d9 5 c ih rm ce r r o r e i1 11 60 9 0 00 7 8 42 7 9 93 0 5 3o 0 7 2 0 2 c h a r l s o n0 1 2 50 1 0 30 0 7 5o 3 2 61 1 3 30 0 0 6 4 9 j 4 6 e 化瞻委霎霪摹差圈l 銎崖医雾锅i2 0 0 9 恪 随;角囊鬟薹蓁囊霎蓁帮篓 雾霾;薹鎏羹羹l 篓雾雾囊薹霎羹薹萋蓁霎冀 冀蠢霾霪雾篓羹景垒丽墼蠹雾i 磊镭望馨蒙。鞘裂 裂;崖建量萋薹叫牺! 祷坚;霎霎鬟羹篓蓍图荪! 鉴薹扣奏薹参蒌蓁篙坠二蓁蠢霎塞。羹囊篓囊蓁雾錾 羹蓁雾攀照妻蓁翼萋蓁霎鋈箍蚕妻薹饕囊。8 薹 薹霎硼篓5 蓁搴雾茎雾鍪蓁;傲羹羹熏震嚣冀鬟腰 垒丽墼雾l 谨塑蓄翟;到 x 第四章多水j f 异质性模型的实例实用 4 0 2 0 0 0 2 0 - 4 0 1 o o 0 - 1 o - 2 o - 3 o i t e r a t i o n o 6 0 4 0 2 0 0 0 2 - 0 4 3 0 2 0 1 0 o 0 - 1 0 i t e r a t i o n 图4 3 一般c o x 模型中的轨迹图 对d e v i a n c e 的估计结果如表6 - 4 所示,其历史图和轨迹图分别见图4 4 和 图4 5 表4 _ 4 w i n b u g s 对d e v i a n c e 的拟合结果 4 0 0 3 8 0 3 6 0 3 4 0 3 2 0 3 0 0 图4 - 5 d e v i a n c e 的轨迹图 4 2 2 w i n b u g s 对e - i 为随机变量的多水平异质性模型的拟合 从表4 3 可以发现,e _ i 的标准误比较大,即e _ i 对死亡率的影响变异很大, 所以考虑将e _ i 对死亡率的影响看作是随机变化的,即考虑既含有e _ i 系数的随 第四章多水平异质性模型的实例实用 机效应又含观测水平的随机效应的多水平异质性模型。 利用m c m c 算法中的g i b b s 抽样,由w i n b u g s 软件对上述四个协变量进行多 变量分析,所得结果见表4 5 ,部分w i n b u g s 程序见附录b 。 同样用w i n b u g s 对多水平异质性模型的参数进行估计,先抽样2 0 0 0 0 次,在 此基础上再抽取5 0 0 0 次用于参数估计。户一( 届,废,岛,反) 初值定义为 ( 1 ,0 ,一1 ,1 ) 。所得结果见表4 5 变量 m e a n s d9 5 c i l t r m ce r r o r e i c h a r ls o n t k tv s g a g r o u p 0 8 0 1 2 0 1 6 8 7 - 0 7 3 8 4 1 0 1 6 0 1 1 0 5 0 4 1 3 0 1 3 5 62 6 3 02 2 2 80 0 9 4 0 1 - 0 0 4 40 3 9 0 1 1 8 40 0 0 6 2 5 1 5 8 30 0 5 10 4 7 80 0 2 5 0 5 0 8 0 4 0 0 5 8 3 1- 0 2 4 62 0 8 02 2 3 40 0 2 1 5 0 表4 5 w i n b u g s 对多水平异质性模型的拟合结果 从历史图( 图4 6 ) 和轨迹图( 图4 - 7 ) 中我们可以看到,第一次抽样2 0 0 0 0 次后,卢的先验分布均已经达到稳态,所以此结果是可信的。 筇四章多水,f 异质性模型的实例实用 图4 - 6 多水平异质性模型中的历史图 1 o 0 o - 1 0 2 0 - 3 o i t e r a t 啪 o 8 0 6 o 4 0 2 0 0 - 0 2 图4 7 多水平异质性模型中的轨迹图 个体内部各观测间随机效应的标准差为s i g m a l ,个体间观测间随机效应的标 准差为s i g m a ,其估计值见表4 - 6 ,历史图和轨迹图分别见表4 8 和图4 - 9 。 表4 6 个体内和个体间观测的方差估计值 舞茎垂霎逊耋萎 碣垂薹淘【f 耄妊 簖黠誉薹鍪薹羹渔i 恿羹羹萋羹| 妻薹l l ;矍i 章i 懂雪雪i 霎耋囊罩妻妻誊塞辜耋兰萋i 羹孽莺j 垦l 垦霎;善笪蠢鳕茜i ;i 羹i 垂i 。刚 垂塞i j ;i 鳓,l 霭篓辫蘸薹薹耄雾羹羹冀冀雾鬟 x 羹l 曩誊暑;搴囊蓁薹萋姜窭引劐刚薹鍪炙蠢萋k ;重l 一 墼霹惮姜冀汞率异质性臻型雾酬;篇扁羹蓁蓁蚕 x 1 0 o 0 1 0 - 2 0 - 3 o 第四章多水平异质性模型的实例实用 4 0 2 0 0 0 2 o 图4 - 1 3 多水平异质性模型中的轨迹图 个体内部各观测间随机效应的标准差为s i g m a l ,个体间观测间随机效应的标 准差为s i g m a ,其估计值见表4 - 9 ,历史图和轨迹图分别见表4 一1 4 和图4 1 5 。 2 o 1 5 1 o o 5 o 0 1 0 o 8 o 6 0 4 0 2 0 0 图4 - 1 4 方差的历史图 图4 - 1 5 方差的轨迹图 对d e v i a n c e 的估计结果如表4 一1 0 所示,其历史图和轨迹图分别见图4 一1 6 和图4 - 1 7 。 第四章多水,f 异质性模型的实例实用 表4 10 w i n b u g s 对d e 、,i a n c e 的拟合结果 i 暗幅出o n 图4 1 6 d e 、,i a n 的历史图 3 4 0 3 2 0 3 0 0 2 8 0 2 图4 1 7 的轨迹图 由此可见,在s g a 评分为随机变量的情况下,仍能得到个体内部的方差比 个体间的大,说明个体内部各观测间的相关性比个体间的大,这与实际相符。 4 2 4 w i i l b u g s 对两个协变量的多水平异质性模型的拟合 在前面的两节内容里,我们分别设e j 和s g a 评分为随机变量,结果比经 典的c o x 模型得到的结果更为精确,下面我们将e l i 和s g a 评分两个因素都设 为随机变量,即就两个协变量的情况做进一步分析。 同样用w i n b u g s 对参数进行估计,先抽样2 0 0 0 0 次,在此基础上再抽取5 0 0 0 次用于参数估计。所得结果见表4 1 l 。 变量m e a ns d9 5 c ih rm ce r r o r e 1 0 9 0 0 11 2 1 0 30 9 3 21 9 8 5 2 1 5 2o 1 0 0 0 2 c h a r l s o n0 1 0 2 3o 1 2 6 80 0 4 80 4 0 l1 1 7 90 0 0 7 0 4 t k t v 一0 8 5 3 1o 4 0 8 9一1 6 9 30 1 3 20 4 5 6o 0 3 0 0 5 s g a g r o u p 0 9 2 4 00 4 2 6 0一o 1 3 51 6 3 22 1 5 20 0 1 9 9 6 表4 1 1 w i n b u g s 对多水平异质性模型的拟合结果 j 塞霎j 四壹萎霎霪姻“r 7 l 筌薹隗夔履l 誊硼引;羹萎薹耋丽嵩型霪蓁錾囊蓁需塑i 赛; 8 茎羹茬基2 i 霪囊百薹窭鐾薹雾j 羹羹翼霎蓁霎 羹囊薹坦薹珈萋| ,囊i 4 鎏墼蓁薹。季型霎萎蠢姜 蠢蓑;鋈案些8 鋈羹委苇壅;5 薹羹输薛4 至霍萱嚅 葛雹。猫泪湍墓酾苈更图5 塑荔9 雾羹冀蓁熏f ! ! ; x 第四章多水平异质性模型的实例实用 1 o 0 8 0 6 0 4 o 2 o 0 1 5 1 0 o 5 0 0 图4 - 2 1 方差的轨迹图 对d e v i a n c e 的估计结果如表4 - 1 3 所示,其历史图和轨迹图分别见图4 2 2 和图4 - 2 3 。 i t e r a t i o n 图牟2 2 d e v i a n c e 的历史图 3 4 0 3 2 0 3 0 0 2 2 图4 - 2 3 芦的轨迹图 4 2 4 t k t _ v 不显著性分析 比较两个模型的结果可以发现,在经典c o x 模型中死亡率唯一的显著影响因 素t k t _ v 在多水平异质性模型中的影响也不显著。下面就此现象进行进一步的探 讨。 由于e - i 和t k t _ v 都和性别有关系,所以以性别分组,仍就上述四个协变量 第四章多水平异质性模型的实例实用 利用s a s 进行经典c 0 x 模型的亚组分析。男性组和女性组的分析结果分别见表 4 1 4 和表4 1 5 。 表4 1 4 男性亚组的经典c o x 模型的分析结果 表4 15 女性亚组的经典c o x 模型的分析结果 从上述结论中可以看到,无论把e - i 还是s g a 评分视为随机变量,还是两个 协变量的情形,均能证明了t k t - v 在各亚组内对死亡率的影响都不显著。但是如 果不考虑ei 或者s g a 评分对死亡率影响的随机效应,就会产生t k t _ v 是死亡率 的一个显著危险因素的假象。用多水平异质性模型就可以消除这种假象。本文也 发现t k t j 高的病人死亡率下降,这主要是受残余肾功能的影响,这和许多文献 的报道一致。但是没有文献指出t k t _ v 是腹透病人死亡率的显著影响因素。 4 3 本章小结 本节是为了验证带多协变量的多水平异质性模型的有效性,思路是先假设 e - i 为随机变量,其它斜变量为固定效应,然后再假设s g a 评分为随机变量, 其他几个协变量为固定效应,并随后将e i 和s g a 评分均视为带随机效应的协 变量进行分析,最后将结果分别与上述c o x 模型的结果进行比较,并将两种随机 变量的情形进行比较。 由于多水平异质性模型中引入了随机效应项,即多水平质异性模型考虑到 了未被观测到的因素对失效事件的影响及允许各次观测间可以存在一定的相关 第四章多水s f 异质性模犁的实例实用 性,因此从理论上讲,拟合嵌镶式数据时多水平质异性模型要比一般的c o x 模 型更准确,这一点在模拟实验中也得到了进一步证实。 从实例应用中我们发现,两种模型得到的结果有一定的差异,其主要原因 是一般的c 0 x 模型没有考虑重复测量资料的层次结构,即认为无论是个体内部 还是个体间的各次观测之间都认为是相互独立的,而这种假设是不合实际的,因 为个体内部不同观测间肯定要比不同个体观测间的相关性强;多水平质异性模型 就考虑到了这一点,模型中随机项的存在允许观测间可以是相关的,随机项的方 差越大表示观测间的相关性越强。 经典c o x 模型过高估计了时间协变量e i 对腹膜透析患者死亡的影响,因为 经典c 叹模型认为有且仅有所分析的因素可能会对失效事件产生影响,而将所 有未被考虑到的因素对失效事件的影响归结到被测因素的效应中,因此是不准确 的。多水平质异性模型在一定程度上解决了一般0 0 x 回归的上述缺陷,但是多 水平模型也不是十全十美的,由于要对包括随机效应项在内的多个参数进行估 计,所以各个参数的初值和先验分布要谨慎考虑,否则会影响参数估计的收敛性 和准确程度。除此之外,用w i n b u g s 对模型进行估计时,不能做多变量的筛选, 所以只能通过比较d e v i a n c e ( 2 倍的对数似然函数值) 和d b a r ( 2 倍对数似然函数 值的后验均值) 来验证模型的拟合优度,而不能提供诸如前进法、后退法和逐步 回归法之类的多变量筛选方法,这样比较不同模型的拟合优度时就比较麻烦。 因此,我们可以将一般c o x 回归和多水平异质性模型结合起来用,即先 用c o x 模型得到固定效应项的一个粗略的估计作为初值,然后再用多水平异质 模型对数据进行拟合,通过w i n b u g s 中提供的历史图验证参数的抽样是否达到 了稳定状态,增强估计的稳定性和准确性。 第五章结论和展望 第五章结论和展望 5 1 本文所做的工作 本文基于多水平模型的分层思想,结合异质型模型的特点,在传统c o x 模型 的基础上,对异质性模型进行了改进,建立一种更为精确的多水平异质性模型。 并在此思想的基础上,将多水平异质性模型的讨论,从一个协变量扩展到多个协 变量,并用w i n b u g s 软件中的m c m c 算法对模型参数进行估计,最后无论是模拟 实验还是腹透析病人死亡率的预测实验上,结果均指出了此新模型在拟合优度上 更优于经典c o x 模型,并且多个协变量的情况也好于一个协变量的情况。 5 2 本文的创新之处 本文将异质性模型进行了扩展,在多水平的条件下,从一个协变量的情形分 别扩展多个的情形,即基本上解决了多个协变量的情况下多水平异质性模型的拟 合优度问题。从而更为精确的解决了经典c o x 模型所包含的缺陷。 在算法上,本文利用w i n b u g s 中的m c m c 算法对模型进行了贝叶斯分析,对 模型参数进行了估计,从而提供了研究此类模型的一种更为有效的方法。 在实例应用中,本文将一个协变量分为随机变量的情形和同定变量的情形进 行分析,并就最新建立的多个协变量模型应用到腹透析病人的预测上,这样进行 比较强有力的证明了所得结果的正确性。 5 3 进一步展望 本文从理论层面解决了多个协变量的多水平异质性模型问题,以后需要大量 将之应用到实际生活中去,以检验模型的合理性和不足之处,从而进行改进。但 限于资源和时间的限制,本文虽然给出了等级似然函数和部分似然函数估计方法 的理论推导,但就多个协变量的情形,只是从理论上给予了解释。对于超过六个 协变量的情形,由于其相关的变量关系复杂,本文并未用m c m c 算法对多水平异 4 1 第五章结论和展望 质性模型进行估计,然后和传统c o x 模型的部分似然函数方法得到的估计进行比 较。没有考虑其他算法的估计结果;此外,本文对于多个协变量的假定,也是基 于最简单的情况,如果对于数目较多的协变量,以及更多的随机效应现象存在, 则可能出现完全不同于本文的方法,这都需要进一步的研究工作。 4 2 附录i 时协变量c o x 模型 附录1 时协变量c o x 模型 k a l b f l e i s c h 和p r e n t i c e b l 划分了两种类型的时间协变量。第一类是外部 协变量,在任何时候其值都不依赖于失效过程。这种协变量的例子包括:固定时 间协变量,以及其值完全受到研究者控制的时间协变量( 如,受到研究者控制的 治疗是日程的计划) ,以及辅助的时间协变量,它是失效观察以外的随机过程的 结果( 例如,用于预测心脏病患者生存时间的每日的体温等) 。第二类时间协变 量是内部协变量,它们是发生在个体上的情况关于时间的度量。这些协变量只有 在个体仍受到观察时才能进行度量,所以这些协变量的分布包含有失效过程的信 息。 和前面一样,这里仍用x 表示某个事件的发生时间,用 x ,( f ) = ( z ,。o ) ,x 加( f ”表示第个体在时间f 时的协变量向量或风险冈素,这 有可能影响到x 的生存分布。x 皿( f ) ( 七一1 ,p ) 为依赖于时间的协变量,其取值 随时间改变。对于时协变量的c o x 模型,其基本形式为: a ( f i ) 一九( f i ) e x p ( p l 黾( f ) + + 卢,x ,o ) ) 。 时协变量c o x 模型的作用之一是对比例风险的假设进行检验。这时,一个新 的协变量就建立了,它把时间变量融入到相对的风险公式中。为了对一个同定协 变量x 。的比例假设进行检验,我们构造一个虚拟的时间相依协变量x ,( f ) ,定义 为:x :( f ) 一x lx g ( t ) 。这里的g ( f ) 是一个已知的关于时间t 的函数。在多数情况 下,我们取g ( t ) - i n ( t ) 。一个比例风险模型是对x l 和x 2 0 ) 的拟合和对。和卢2 的 估计,同时得到关于零假设卢:= 0 的局部检验。在这种比例风险模型中,在时间t 时的风险率是a ( flx 。) 一九o ) e x p ( p , ( x 。一i ) + 卢:g ( f ) ,一x :”。如果卢:不等于o , 它就依赖于t ,换句话说,这组数据不能用一般的c o x 比例风险模型去拟合。因此, 对于h 。:卢:= o 的检验就是对比例风险模型假设的检验。利用这个检验检测出非 比例风险的能力将依赖f g ( t ) 的选择。在彭非h 1 中已经通过实例给出了证明。 附录2 多水j 卜模型 附录2 多水平模型 在社会科学中,很多研究问题都体现为多水平的、多层的数据结构。其中 最为典型的例子就是在教育研究中,学生镶嵌于班级,而班级又镶嵌于学校的现 象,或者可以简单地把学生看成是镶嵌于学校。在此,学生代表了数据结构的第 一水平,而班级代表了数据结构的第二水平。如果数据是学生镶嵌于班级,而班 级又镶

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论