




已阅读5页,还剩48页未读, 继续免费阅读
(概率论与数理统计专业论文)基于cox比例风险回归模型的样本量估算.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 基于c o x 比例风险回归模型的样本量估算 专业: 概率论与数理统计 硕士生:李锐萍 指导教师:方积乾教授 摘要 样本量计算在临床试验设计或者调查中至关重要,合适的样本量可以提供合 理的功效来检测临床上有显著意义的差别。为保证假设检验的结论可靠性高,常 常需要一定规模的样本量。而在实际操作时,样本量太大会造成研究对象,金 钱,以及时间等人力,物力资源的浪费,而若样本量太小,则对研究的危害更严 重,因此样本量估计在实验设计中是非常重要的。 目前,生存分析中c o x 比例风险回归模型研究所需要的样本量往往靠经验来 估计,特别当涉及到生存分析中常见的删失数据时,往往不够准确,甚至可能导 致错误的结论。 本文在对f y h s i e h 等人关于检验一个连续协变量和李俊关于检验多个二 分类变量情况的样本量估算总结的基础上,利用记分检验统计量,提出了c o x 比 例风险回归模型中多个协变量的全局检验所需的样本量公式,同时将之推广,利 用部分记分检验统计量,提出了在c o x 回归模型中同时检验多个协变量所需要的 样本量公式。并用蒙特卡罗模拟,对公式进行功效分析。实验结果表明,此样本 量公式有很好的适用性。 关键词:c o x 比例风险回归模型,样本量,功效模拟 s a m p l es i z ec a l c u l a t i o nf o rc o xp r o p o r t i o n a l h a z a r d sm o d e l m a j o r :p r o b a b i l i t yt h e o r ya n dm a t h e m a t i c a ls t a t i s t i c s n a m e : r u i p i n gl i s u p e r v i s o r :p r o f j i q i a nf a n g a b s t r a c t s a m p l es i z ec a l c u l a t i o na n dp o w e ra n a l y s i sa r ev i t a l i nt h ed e s i g no fc l i n i c a l t r i a l sa n de p i d e m i o l o g y ap r o p e rs a m p l es i z ec a na c h i e v ear e a s o n a b l ep o w e rt o d e t e c tas i g n i f i c a n ti nc l i n i c a lr e s e a r c h t o ol a r g ea s a m p l em e a n sw a s t e dr e s o u r c e s ; t o os m a l las a m p l ee n t a i l sar i s ko fn o tb e i n ga b l et od r a wt h er e q u i r e dc o n c l u s i o n s t h eg o a lo fas a m p l es i z ec a l c u l a t i o ni st oo b t a i nas a m p l et h a ti s i u s ts u f t i c i e n t l y l a r g et ob ec o n f i d e n to fb e i n ga b l et oo b t a i na ni n f e r e n c ew i t ht h er e q u i r e dp r e c i s i o n a tp r e s e n t ,t h es a m p l es i z en e e d e di nt h ec o xp r o p o r t i o n a lh a z a r d sr e g r e s s i o n m o d e li so r e nc a l c u l a t e db ye x p e r i e n c e i t sn o tc o r r e c ta n dm a yl e a d t of a l s e c o n c l u s i o n i nt h i sa r t i c l e ,w ec o n c l u d et h ee x i s t i n gf o r m u l a sa n dj u nl i f o r m u l a ( f o r m u l af o r t e s t2o rm o r eg r o u pv a r i a b l e ss i m u l t a n e o u s l y ) f o rs a m p l es i z ed e t e r m i n a t i o n si nc o x m o d e l b a s eo nt h a t ,w ep r o p o s e da n o t h e rf o r m u l af o rs e v e r a lc o v a r i a t e si nc o x m o d e l a n dam o n t ec a r l as i m u l a t i o nt o a n a l y z et h ep o w e rp e r f o r m a n c eo fo u r f o r m u l ai sc o n d u c t e d s i m u l a t i o ns t u d ys h o w st h a tt h en e wc a l c u l a t i o ni d e ap e r f o r m s w e l li ng i v e nc o n t e x t s c o m p a r i n gw i t ht h eo l di d e a ,t h en e wf o r m u l ai nt h ea r t i c l ei s m o r er e a s o n a b l e k e yw o r d s :c o xp hm o d e l ,s a m p l es i z e ,p o w e rs i m u l a t i o n h 学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论 文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文 的研究作出重要贡献的个人和集体,均己在文中以明确方式标明。本 人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:久铆 日期:和巧年厂月彤曰。 学位论文使用授权声明 本人完全了解中山大学有关保留、使用学位论文的规定,即:学 校有权保留学位论文并向国家主管部门或其指定机构送交论文的电 子版和纸质版,有权将学位论文用于非赢利目的的少量复制并允许论 文进入学校图书馆、院系资料室被查阅,有权将学位论文的内容编入 有关数据库进行检索,可以采用复印、缩印或其他方法保存学位论文。 嚣绍日期:纠蛘 第一章前言 1 1 问题的提出 第一章前言 临床随访研究中,常需观察和比较患者接受不同处理后的生存时间和结局, 以评价各处理的远期效应,分析影响生存时间的主要因素等。随访期间,研究对 象可能发生失访、死于竞争风险或者出现管理性删失等,致使部分对象的结局无 法观测,从而得到一些删失数据。此时,常用生存分析法来处理资料,可以同时 分析“结局”和“生存时间”,又可充分利用删失数据的不完全信息【2 l 。 无论何种研究类型,在设计阶段,检验功效和样本量估计都显得十分重要 事实上,检验功效的估计与样本量估计是相关联的,其他条件已知时,二者即为 一一对应关系在研究之初,正确估计样本量可以有效保证预期的检验功效, 既可避免由于样本量太少,检验功效太低,而难以发现差别:又可避免人力、物 力和财力投入的不必要浪费。 一般而言,样本量的大小与以下因素有关:研究设计的类型:研究指标 的性质;分析方法;预期效能的大小;i 型错误的大小:检验是单侧还 是双侧:数据的离散度:有生物学意义的差值等。在临床随访研究中,患者 常呈序贯入组,随机化有时难以实施,疗效出现可能滞后,加上失访和脱落导致 部分数据删失等等,这些特殊情况的存在,使生存分析领域的功效和样本量估计 问题变得尤为复杂d 卅。因此研究样本量的估算是非常有意义的。 本文研究带有多个连续协变量的c o x 比例风险回归模型的样本量估算。 1 2 样本量计算与功效分析简介 样本量计算在临床试验设计或者调查中至关重要。合适的样本量可以提供合 理的功效( 关于功效的具体理论见附录1 ) ,通常在8 0 到9 0 之间,来检测临床 上有显著意义的差别。为保证假设检验的结论可靠性高,常常需要一定规模的样 本量。在实际操作时,要搜集大量而且全面的样本是一件耗时、耗财、耗人力的 事情,特别是在某些样本收集期( a c c r u a lp e r i o d ) 和随访期( f 0 1 l o w - u pp e r i o d ) 第一章前言 都需要比较长时间的临床试验中尤其如此f 7 - 9 j 。样本量太大,从研究中观察到的 有统计意义的差别可能会在临床上没有意义。这样就会造成研究对象,金钱,以 及时间等人力,物力资源的浪费,特别当处理组成本较高,或者样本收集期较长 时,如某罕见病的研究,浪费尤其严重。而若样本量太小,则对研究的危害更严 重。因为样本量过小导致功效不足,这样对于有临床显著差别的情况都很有可能 无法识别出来【9 - 1 。故我们通常的做法是,以达到一定的检验功效,如8 0 为目 的,来搜集所需的样本量,以此作为参考值。当样本量达到时,就能保证检验的 功效,从而研究者能根据不同问题需要的精度,来得到实际需要搜集的样本 量【1 2 1 。 关于样本量计算方法的研究,可以分为以下三个方面。第一,不同模型的样 本量计算公式。这其中又包含模型中含有的变量个数及其相关性对样本量公式的 影响。模型有线性回归模型【1 4 1 、l o g i s t i c 回归模型3 一引、广义线性回归模型1 2 】 以及本文要研究的c o x 比例风险回归模型1 1 3 j 6 - 1 引。研究表明,当待检验的感兴趣 变量与模型中其他变量不相关时,样本量公式不变;当相关时,则需要进行调整。 一般建议采用方差膨胀因子v i f 来增大样本量f 1 8 - 2 1 】。第二是关于检验统计量如 何选择。常用的检验方法有w a l d 检验、记分检验和似然比检验。e u g e n e l l 0 i 在研 究l o g i s t i c 回归模型的样本量计算时指出,这三种检验方法虽然被认为是局部 渐近等价的( 1 0 c a l1 ya s y m p t o t i ce q u i v a l e n t ) ,但是总体来看还是有区别的。 他提出为更准确地计算样本量,在计算样本量时所采用的检验统计量应该与检验 回归系数显著性时所用的检验统计量保持一致1 5 卅。但对于该如何选取检验统计 量仍没有明确的准则,而目前掌握的文献中c o x 比例风险模型的样本量研究中采 用的都是记分检验体l ,因此本文将继续采用记分检验进行计算。第三,检验 单个变量与同时检验多个变量的样本量方法。目前的样本量公式主要是针对检验 单个变量的。而由统计知识,可以通过b o n f e r r o n i 校正来把一组检验进行分解 成多个两两比较的检验,得到近似的方法。 1 3c o x 比例风险模型回顾 1 3 1 模型一般形式 随着世界经济的增长,医疗保健事业的发展,疾病谱的变化和平均寿命的增 2 第一章前言 1 3 2 部分似然函数 设n 个病人组成的随机样本有后个不同的观测寿命和n k 个不同的删失时 间。k 个不同的观测寿命可以用顺序统计量表示为:f ( i ) t ( 2 ) 0 的情形 几种情况,其现实意义就是每个风险因素数值的增大都会增加危险率。现实中可 存在屈0 的情况。 表3 - 1 整体删失率q = o 2 5 时检验三个变量的样本量( 盯) 和经验功效值( p o w e r ) 0 0 0 5 8 0 2 7 3 6 6 0 2 5 5 2 0 7 8 7 8 0 7 9 0 8 第三章c o x 比例风险模型中同时检验多个变量的样本计算 上,当死亡数大于5 0 时,得到的经验功效值几乎都在0 7 0 以上,这是可以接受 的。但随着死亡数越小,经验功效值就越小,即与0 8 这个期望功效值的偏差就 越多。 由上分析可看出,当根据样本量公式算的样本数越大时,经验功效越近似预 期检验功效,这是由于( ( 一e ( ) ) ( x 。一e g ) ) ) _ 渐近于与的协方 ,e r ( 0 ) 差, ( 勘一e ( 毛) ) 2 厶,渐近于x ,的方差q 2 ,这一组渐近假设与直接引用 ,e r ( ) t s i a t i sa a 关于c o x 模型大样本研究中的结论【3 2 l 引起的。样本量越大,这种渐 近的假设与结论的引用越是合理。所以在当样本量比较少时,经验功效与预期功 效则会存在一定的偏差。 3 1 6 讨论 3 1 5 节可看出样本量较小时,会导致功效降低,这时就需要根据情况追 加样本量,以提高功效。对于死亡数小于1 0 0 的情况,本文提出一种简单的调整 设想,考虑作如下调整来增加其样本量值,具体操作见下表: 原来的死亡数d调整方法 调整后的死亡数坠 2 03 0 2 0 2 9+ 1 ld + 1 1 3 0 3 9+ 1 0d + 1 0 4 0 4 9+ 9d + 9 5 0 5 9+ 8d + 8 6 0 6 9+ 7d + 7 7 0 7 9+ 6d + 6 8 0 8 9+ 5d + 5 9 0 9 9+ 4d + 4 对表3 1 中的样本量作如上调整,对调整后的样本量重新做蒙特卡罗模拟来 考察它的表现。 第三章c o x 比例风险模型中同时检验多个变量的样本计算 通过以上的模拟结果,我们可看出随着协变量间的关系值七越大,样本量则 越小,对调整过后的样本量作功效检验,经验功效与预期功效很好地接近。 上面的调整方法只是一种简单设想,模拟实验得到了很好的结果,从而证明 了有一定的合理性,这种设想的理论根据是样本量越少是,经验功效与预期功效 越大,需要追加的样本量则越多,这此只是作出了一种简单的设想,而理论上更 精确的追加算法还需要进一步深入研究。 3 1 7 样本量表与功效模拟结果的解释 已存在的样本量计算公式中,一般都用方差膨胀因子v i f 来由调整协变量间 相关性所带来的样本所需的变化。如在p 日模型中,为了保证功效,提出在计算 所需要的死亡数d 时,可以先假设模型只有一个感兴趣的变量毛,由此计算出需 要的死亡数d ,再利用方差膨胀理论,把因子五的效应估计值矗的方差通过其 他协变量调整后的膨胀倍数l ( 1 一r 2 ) 应用到需要的死亡数d 上,即: d = d ( 1 一r 2 ) ,则用用方差膨胀因子v i f 来由调整协变量间相关性所带来的样 本所需的变化时,会增大样本量数。而理论上,当协变量相关时,一个变量会对 别一个变量有一定的说明作用,所以协变量间的这样相关性应该会减少样本所需 量。而用方差膨胀因子v i p 来进行调整时,会相反地增大样本量。 而实际上,由于每个协变量间的相关性,使得它们对因变量解释造成部分重 复,则越是相关需要的样本量应越少。3 1 4 节中给出的样本量表则很好地说明 了这一点,随着协变量间相关性的增大,所有需样本量的减少,这种关系是合理 的。 在功效检验实验结果中可看出,当根据样本量公式算的样本数越大时,经验 功效越近似预期检验功效,这是由于( 腩一e 。) ) ( x 。一e ,o 譬) ) ) 肛,渐近于 第三章c o x 比例风险模型中同时检验多个变量的样本计算 与吃的协方差,( h e ( x ,) ) 2 乃渐近于t 的方差q 2 ,这一组渐近假设引 起的。样本量越大,这种渐近的假设越是合理。所以在当样本量比较少时,经验 功效与预期功效存在一定的偏差是可以理解的,而对于这种偏差,此文给出一种 简单的调整方法来相对地增大样本量值,使得到的经验功效更接近期望功效,而 更精确的追加算法还需要更进一步深入研究。 3 2 检验一组变量的样本量估算 上面为寿险资料c o x 比例风险回归模型的一个全局检验,检验所有协变量 整体对生存时间的解释作用,即检验数据的整体回归效果,而在生物学和医学的 实验设计中,更多的是检验其中一个协变量或一组协变量对生存时间的解释作 用,而不是同时检验所有协变量对生存时间的鳃释作用。下面将从这个方向将已 求出的样本量公式作进一步的推广。考虑利用极大似然估计的大样本渐近理论, 参考李俊1 3 9 1 推导同时检验多个组别变量时的方法,提出在随机化研究中,c o x 比例风险回归模型中同时检验多个协变量时的样本量计算公式,同s c h e n f e l d 推 导推导检验单个组别变量时所用的检验统计量,此处也将采用部分记分检验进行 计算。 3 2 1模型说明 考虑如下c o x 比例风险回归模型: 吃( ,f 柳= ( ,) e x p 湄_ 。+ 屈_ 2 + + 屏+ 儿) ( 3 一1 9 ) 七= l 此处办,( ,) ,= l ,刀表示第个研究个体的危险率函数。( ,) 为仅与时间有关的 基准危险率函数。( x ,y ) ( 其中x = ( x l ,x 2 ,x ,) i ,y = ( y 。,耽,) ,。) ) 为危险率 函数相关的实验个体的p + 所个协变量,x ,儿可以表示个体的某个风险因素或所 采取的治疗组。假设x 协变量组与y 协变量组相互独立。模型中,每个协变量墨 对应的系数屈表示第j 个研究个体中每,个协变量增加一个单位,其余协变量不 变时的相对危险率比的对数,且与时间无关。模型允许删失,但假定每个个体的 删失分布都相同。 第三章c o x 比例风险模型中同时检验多个变量的样本计算 对任意函数g ( x ,j ,) ,定义 g ( x m y ) e x p ( 以欺) e ,( g ( x ,y ) ) = 尘竺! 止_ :主l 鬲五页夏旷 3 2 2 ) l e r ( i j ) 且令t 表示把零假设风:屈= 屈= = 屏= o 成立时得出的以的极大似然参数 估计值代入( 3 2 2 ) 后得出的结果。 ;t e h o v ,根据部分似然函数对届求一阶导数即可知:u ,= b 一e j ( x i ) ) , j e d 称( u l ,u 2 ,u p ) 即为记分向量( s c o r ev e c t o r ) 。 再由部分似然函数求信息阵,则有: i ,1 ( 臼) = e j ( x 。2 ) 一( e j ( x 。) ) 2 d : 【e j ( 而讳) 一4 ( x 。) e 砖p ) d e j ( z p 一) 一e ( x p ) e ( 五) 】e r e ( z ,2 ) 一( e ( x p ) ) 2 】 d d 令儿表示协变量向量匕。,的第七个分量。定y , m xp 的矩阵台,其元素为: 台陆= 忙( x ,y 。) 一窟,( 一) 窟( y 。) j ,f = 1 ,p ;七= 1 ,所 j e d 此台即为( 3 - 2 0 ) 中分块信息阵的1 2 1 ( 万) 部分, 再定义胁m 矩阵力,其元素为: 衍您= 包( 儿只) 一句( 儿) 句( 儿) j , k , s = l ,m j e d 此衍即为( 3 - 2 0 ) 中分块信息阵的1 2 2 ( 万) 部分。 那么雪衍一1 台一项则反映了以,七= l ,m 在风下的极大似然估计值 或,k = l ,m 对x 一应,( 一) ,i = l ,2 的协方差阵的影响1 。 故( 3 2 1 ) 中的,1 1 ( 万) = ,。( 万) 一,。:( g ) 1 2 2 - 1 ( 万) ,:l ( 万) = ,。( 万) 一雪露一1 雪。 此时即构造出了( 3 - 2 1 ) 式所表示的部分记分统计量。 假设屈均是d 一) ,取矗表示矩阵雪的第一列向量,则当届一0 时,对于 任意时刻,总有甸( x 。y 。) _ p 易( 而) 后( y 。) 成立( 其中3 表示依概率收敛) ;进 而有雪。j 01 1 6 l 。同样取台,表示矩阵台的第i 列向量,则当届时0 时,同样有 2 9 第三章c o x 比例风险模型中同时检验多个变量的样本计算 耷三o 。所以台衍一- 台三o 。故而在渐近条件下,分块协方差阵( 万) 中的台肪一- 台 可以忽略不计,即 i u ( 万) 3 厶。( 万) ( 3 2 3 ) 又因为在窟( _ ) ,i = l ,p 关于系数以,k = 1 ,m ,t a y l o r 展开式中含有向 量e ,i = l ,p ,故得到: p ,) 一e ( 一) ) 与o ,扛1 ,p ( 3 - 2 4 ) 因此有: u = 0 一( 薯) ) ,i = 1 ,p 下面考察求出记分向量( u ;,u 2 ,u 。) 的期望。进而由( 3 2 0 ) 可以求出部 分记分检验统计量的非中心参数表达式。 定义 e = f t 。r o d e x p c 屈工。+ + 屏z p + 以虮, f i e r ( t j e ) x p c 届x 。+ + 屏工p + 以儿,)| 再来考察,利用e ,可以把u ,拆成如下形式: 配= & 一毛 ,) = & 一) + k 一目( x ,) ) 根据1 9 8 1 年t s i a t i s 从关于c o x 比例风险回归模型的大样本研究中的结 论m 1 。则第一项渐近于正态分布n ( o ,。尺( 勤- e q ) 2 n ) ,即第一项取期望 为0 。 现在把p ,i = 1 ,p 在届= = 尾= 0 处用t a y l o r 级数展开,得到: e 扩= e j ) + ( 弓( x t x l ) 一马( 葺) 弓( x ,) ) 届+ ( 薯( x :) 一e ,( 麓) 弓( 叠) ) 磊 + + ( 易 o ) 一目( _ ) t ( 讳) ) 屏+ r 其中r 为t a y l o r 展开式的二阶余项。 由e 的展开式得u ,中的第二项趋近于 ( e j ( x j ) - e j ( x ,) e ( x ,) ) 届+ ( q ( x ,x t ) - e j ( x ,) q ( 而) ) 矽) d , 则u ,的期望值趋于 3 0 第三章c o x 比例风险模型中同时检验多个变量的样本计算 ( e ( 2 ) - e j ( x ,) e j ( 一) ) 届+ ( q ( 毛z ,) 一e j ( x ,) e ,( 而) ) p ) d , 部分似然信息矩阵中陋,( x h x e , ) 一e ,( x h ) e j ( x g ) 】( 厅g ) 渐近于与的 j e d 协方差( 由于e ,( x 譬) 一e j ( ) e , 譬) 2( ( 一蜀( 毛煅i g - e ( k ) ) ) 嚣, ,e 只( o ) 而( ( - e j ( x 。) ) ( x 。- e ( x 譬) ) ) 渐近于h 与的协方差) ,说明了协变量 之间的一种关系,如果每个协变量相互独立时,它们则都取值为零。 综上所述则有: d o i d p , ,i 蛾以+ 聊,矾o 2 + 驴k :d 一7 卜镌+ 渺 y ,i,pin n i “ 由上公式可求得 d = 丑砂鸬l 一 一 o i 2 夕i + 善尹,磊,口p 2 届+ 吾p 局 j :j 二 _ 1 ( 。2 。+ 荟p ,) ( 3 - 2 5 ) 为了便于计算,在此我们假设每个协变量的方差相等,且都为盯2 ,而却所 有协方差的平均值作为信息矩阵中的协方差量。则有 a :。c q :届+ p z m 2 屏+ p 善届,ld 印o - , zi 差: - 。c q 2 崩+ p 荟局,7 嘲。儿a ,2 + g 缸象,) ) 伊2 7 , 其中 口f = 仃2 屈+ p 届 h = ( 仃2 + ( p 一2 ) p ) ( ( 盯2 + ( p 一1 ) p ) ( 仃2 p ) ) g ;一p ( ( 莎2 + ( p 1 ) p ) ( 仃2 一p ) ) 第三章c o x 比例风险模型中同时检验多个变量的样本计算 d :! 墨! ! 丝:兰! 兰2 a 18 此公式类同于f y h s i e h 和p w l a v o r i 【l s l 在s c h o e n f e l d 的基础上提出的检 验c o x 模型单个协变量的样本量公式。 如果考虑如下模型: h j ( tx ,】,) = h o ( t ) e x p ( f l l x l + 及x 2 + + 岛一l x ,p i + 厂t y 业) ( 3 2 8 ) 七篁i 此处h i ( t ) ,= l ,以表示第个研究个体的危险率函数。h o ( t ) 为仅与时间有 关的基准危险率函数。薯,i = 1 ,p - 1 为取值为0 和1 的二分类组别自变量,当 x ,取值为1 时表示接受第i 种处理,当取值为0 时表示不属于第i 组处理。当所 有的x ,均取为0 ,则表示该病人接受第p 组处理治疗。此处显然假定每个个体 只能接受这p 种处理中的某一种。每个个体都对应有一个协变量向量 y j = ,) 。假设第个个体接受第f 种治疗处理的概率为只,且c 与协变 量向量乃= ( j ,归,y 加) 是独立的。模型中,每个组别协变量一对应的系数屈表 示第个研究个体接受第衍中处理治疗与接受对照组第p 组处理治疗的危险率比 的对数( 1 0 9h a z a r d sr a t i o ) ,即对某个个体而育,孱= i n h , h ,且假定第f 个 处理与对照组第p 个处理的危险率l v , a ,= h , h p 与时间及个体的特征无关。 由模型有x l + x 2 + + x p = 1即x ,与x ,之间成负相关关系。 其中x 。取值为1 或0 且易求得0 1 2 = 只( 1 _ 只) ,岛= 一只弓 代入式子( 3 2 5 ) 则求得: 肚f 面方藿一 q 2 样本量公式易求得为: 刀= d ( 1 一q ) ,其中q 为整体删失率。 此公式等同于s u s a nh a l a b i 和b a h a d u rs i n g h1 2 9 1 基于此模型提出的样本 3 2 第三章c o x 比例风险模型中同时检验多个变量的样本计算 3 2 3 模拟实验 李俊基于删失率为o 2 5 ,检验水准口= 0 0 5 ,期望功效为o 8 ,给出了上公 式( 3 - 2 9 ) 的模拟实验,引用她的实验结果如下: 整体删失率q = 0 2 5 时检验两个变量的样本量( 疗) 和经验功效值( p o w e r ) 设定的参数值 接受某种处理的概率样本量经验功效值标准差 ( 属,屈) ( 只,只,只)刀( ) ( 届= 0 1 ,屈= 0 2 ) ( 届= 0 2 ,屈= 0 3 ) ( 届= 0 2 ,屈= o 3 5 ) ( 届= 0 2 ,届= 0 4 ) ( 届= 0 2 ,屐= 0 5 ) ( 届= 0 3 ,屈= 0 6 ) ( 屈= 0 3 5 ,岛= 0 5 ) ( 层= 0 4 ,履= 0 8 ) 只= b = b = 1 3 b = 1 2 ,罡= = 1 4 t i , = 只= 1 4 ,b = 1 2 月= b = b = 1 3 月= 1 2 ,忍= 只= 1 4 鼻= 另= 1 4 ,只= i 2 只= b = 只= 1 s 置= l 2 ,忍= b = 1 4 e l = 最= 1 4 ,只= 1 2 e = 置= b = i 3 日= v 2 ,只= b = 1 4 置= 只= 1 4 ,只= 1 2 只= 忍= b = l 3 异= l 2 ,与= 墨= v 4 片= 另= l 4 ,忍= i 2 只= 只= 只= 1 3 月= 1 2 ,只= 只= l 4 只= b = 1 4 ,只= l 2 舅= 置= 只= 1 3 月= 1 2 ,忍= 只= l 4 只= 罡= 1 4 ,只= l 2 只= 忍= b = 1 3 月= l 2 ,b = 只= v 4 3 3 1 9 2 8 2 5 6 9 1 8 6 9 8 2 6 1 0 8 3 7 6 1 6 2 6 8 3 1 5 9 2 4 8 4 6 4 4 4 6 8 3 0 6 4 0 3 3 0 7 2 1 6 2 8 7 2 0 8 2 9 2 3 8 0 2 6 8 1 2 4 1 6 0 7 9 6 2 0 5 6 9 6 7 9 3 4 0 5 7 4 6 7 9 4 0 士0 5 7 1 9 7 8 6 5 0 5 8 0 0 7 9 3 4 0 6 0 3 3 7 9 2 4 0 5 7 4 4 7 8 3 5 0 5 8 2 7 7 9 2 6 0 5 7 1 2 7 8 6 8 0 5 8 4 1 7 7 7 8 0 5 9 0 7 7 8 6 4 + 0 5 8 4 4 7 8 5 1 0 5 7 7 8 7 7 6 5 0 5 9 0 0 7 8 3 8 0 5 9 2 6 7 7 4 8 0 5 8 2 2 7 6 3 6 + 0 6 0 2 6 7 7 0 4 0 5 9 6 6 7 5 9 4 0 6 0 4 5 7 6 2 6 0 6 0 1 7 7 6 8 4 0 5 9 7 4 7 6 4 4 0 6 0 0 2 7 3 9 6 0 6 2 0 6 7 4 5 7 o 6 1 6 7 第三章c o x 比例风险模型中同时检验多个变量的样本计算 整体删失率q = 0 2 5 时检验三个变量的样本量和功效值 通过模拟实验,发现在不太偏离推导时用到的假设( 假设屈均是o ( n i ) ) 的 前提下,该样本量公式的功效模拟是合理且令人满意的。而当对假设有较大偏离 时,得到的样本量会偏小,导致功效降低。可以看到,当屈小于o 6 时,得到的 经验功效值都在0 7 5 以上,这是可以接受的。 综上模拟实验可证明,当屈不太偏离推导时用到的假设,即屈值较小的前 提下,该样本量公式的功效模拟是合理且令人满意的。 3 2 4 讨论 上节为对c o x 比例风险模型中检验单变量的样本量公式进行推广,利用部分 记分检验统计量的大样本渐近性质,在备选假设值与零假设值差距不大的情况 3 4 第三章c o x 比例风险模型中同时检验多个变量的样本计算 下,提出了c o x 比例风险模型中检验多个协变量的样本量公式。通过模拟实验, 发现在不太偏离推导时用到的假设的前提下,该样本量公式的功效模拟是合理且 令人满意的。而当对假设有较大偏离时,得到的样本量会偏小,导致功效降低。 所以当屈较大时,则需要根据情况追加样本量,以提高功效。因此关于当屈偏 大时的样本量公式的调整方法还需要进一步的深入研究。在此我们可以考虑如下 的调整方法。 在文中我们并没有假定协变量之间是相互独立的,即协变量之间存在一定的 关系,而这样关系又会影响着样本所需量的大小。而在已存在的很多样本量估算 公式的推导过程中,一般假定需检验的协变量之间是相互独立的,基于独立基础 上算出的样本量,然后用方差膨胀因子v i p 来进行调整。而理论上,当协变量相 关时,一个变量会对别一个变量有一定的说明作用,所以协变量间的这样相关性 应该会减少样本所需量。而用方差膨胀因子v i p 来进行调整时,会相反地增大样 本量。 本文提出的样本量公式,是在假设屈较小的条件下计算出来的,当屈值较 大时,即假设有较大偏离时,得到的样本量会偏小。而首先假设独立时,然后用 方差膨胀因子v i p 来进行调整所求得的样本量会偏大,所有我们可以考虑将两者 取平均值或加权平均值作为实际所需的样本量,以达到拟定的功效值。这种调整 方法是否合理,还需要进一步研究。 其次,本文考虑的是简单随机删失下的样本量计算方法。具体做法即利用公 式刀= d ( 1 一q ) 求出不同删失率下的实际所需样本量。而其他不同的删失机制对 样本量公式产生的影响还需要进一步深入研究。 另外,文中的c o x 比例风险模型假定了协变量组x 与组别变量组y 是相互 独立的。而实际问题中,若协变量组x 与组别变量组y 是相关的,那么样本量 公式会发生变化,至于如何就此情况对样本量公式进行调整,还需要进一步研究。 3 2 5 实例应用 k r a l l ,u t h o f f 和h a r l e y ( 1 9 7 5 ) 研究了6 5 例多发性骨髓瘤患者预后的影响因 素。共九个变量,x l = l o g b u n ;x 2 = h g b ;墨= p l a t e l e t :x 4 = a g e ;墨= l o g w b c ;饩= f r a c ;x 7 = l o g p b m ;五= p r o t e i n ;五= s c a l c 。具体 第三章c o x 比例风险模型中同时检验多个变量的样本计算 1 2 5l 1 2 51 2 0 0l 2 0 0l 2 o ol 3 0 01 5 0 0l 5 0 0l 6 o ol 6 0 0l 6 。0 0 1 6 0 0l 7 0 0l 7 0 0l 7 0 0l 9 0 0l 1 1 0 01 1 1 0 0l 1 1 0 0l 1 1 0 0l 1 1 0 0 1 1 3 0 0l 1 4 0 0l 1 5 0 0l 1 6 0 0l 1 6 0 0l 1 7 o o1 1 7 0 0l 1 8 0 0l 1 9 0 0l 1 9 0 0 l 2 4 。0 0 l 2 5 0 0l 2 6 o o l 3 2 o ol 3 5 0 0l 2 2 1 7 5 1 9 3 9 5 1 5 1 8 5 1 7 4 8 2 1 3 0 1 0 1 5 4 4 l 2 2 3 5 5 1 6 8 1 2 l - 3 6 1 7 2 1 1 3 9 l 。1 1 3 9 1 4 1 5 0 1 9 7 7 7 1 0 4 1 4 1 1 7 6 l 1 7 2 4 3 1 1 1 3 9 1 2 3 0 4 1 3 0 l o 1 5 6 8 2 1 0 7 9 2 0 7 7 8 2 1 3 9 7 9 1 6 0 2 l 1 3 4 2 4 1 3 2 2 2 1 2 3 0 4 1 5 9 l l 1 4 4 7 2 1 0 7 9 2 1 2 5 5 3 1 3 0 1 0 1 0 0 0 0 1 2 3 0 4 1 3 2 2 2 1 1 1 3 9 9 4l 1 2l 9 8l 1 1 30 5 1o 6 7i l o 1l 6 5l 9l 1 0 20 9 7l 1 0 4l 9 5l 5 1o 1 1 4l 8 2l 1 4l 1 2l 1 3 2l 7 5l 9 6l 5 5o 1 4 61 1 0 61 9 01 8 8l 1 0l 1 1 2l 7 5o 1 4 4l 7 5l 1 4 6l 1 2 4l 1 1 2l 1 0 6l 70 6 73 6 6 2 8l 3 83 9 8 6 8 1 8 i3 8 7 5 ll 7 53 8 0 6 2l 5 73 7 2 4 3l 4 64 4 7 5 70 5 04 9 5 4 2l 7 43 7 3 2 40 7 7 3 5 4 4 lo 7 03 5 4 4 ll 6 03 ,5 1 8 5l 6 73 9 2 9 4l 4 83 3 6 1 7l 6 l3 7 3 2 4l 5 33 7 2 4 3 l 5 53 7 9 9 31 6 l 3 8 8 0 8l 4 33 7 7 0 91 6 5 3 7 9 9 3l 7 03 8 8 6 50 5 l3 5 0 5 ll 6 03 5 7 9 8l 6 63 7 2 4 3 l 7 03 6 9 0 2l 4 83 9 3 4 5 1 6 23 6 9 9 0l 5 33 8 8 0 8 l 6 83 4 3 1 40 6 53 5 6 8 20 5 l3 9 1 9 ll 6 03 7 9 2 4 l 5 64 0 8 9 9l 6 73 8 1 9 5 1 4 93 6 0 2 ll 4 63 6 9 9 0l 4 83 6 5 3 2 l 3 6 1 9 5 4 2 1 9 5 4 2 2 0 0 0 0 1 2 5 5 3 2 0 0 0 0 1 9 3 4 5 1 6 6 2 8 1 7 3 2 4 1 4 6 2 4 1 3 6 1 7 1 3 9 7 9 1 6 9 0 2 1 5 6 8 2 2 0 0 0 0 1 5 1 8 5 1 7 4 0 4 1 2 7 8 8 1 1 7 6 l 1 8 1 9 5 1 6 7 2 1 1 9 0 3 l 1 3 9 7 9 1 2 5 5 3 1 4 3 1 4 2 0 0 0 0 0 6 9 9 0 1 4 4 7 2 1 6 1 2 8 0 9 0 3 1 2 0 0 0 1 9 2 9 4 0 4 7 7 1 1 6 4 3 5 2 0 0 0 0 1 6 3 3 5 1 1 7 6 l m博:2坦9 m 9 9 8 8 m 8 m m b 屹m 9 m 1 9 m mm9 m 8 b 9 9 m 9 汜加2 0 3 伦4 5 0 o 5 1 o o o o 2 2 o 0 4 7 6 5 o 0 幻1 4 第三章c o x 比例风险模型中同时检验多个变量的样本计算 3 7 o o 4 1 0 0 4 1 0 0 5 1 0 0 5 2 0 0 5 4 o o 5 8 o o 6 6 0 0 6 7 0 0 8 8 0 0 8 9 0 0 9 2 o o 4 0 0 4 o o 7 0 0 7 0 0 8 0 0 1 2 0 0 1 1 0 0 1 2 o o 1 3 ,0 0 1 6 0 0 1 9 0 0 1 9 0 0 2 8 0 0 4 1 o o 5 3 0 0 5 7 0 0 7 7 。0 0 1 6 0 2 1 1 0 0 0 0 1 1 4 6 l 1 5 6 8 2 1 0 0 0 0 1 2 5 5 3 1 2 0 4 l 1 4 4 7 2 1 3 2 2 2 1 1 7 6 l 1 3 2 2 2 1 4 3 1 4 1 9 5 4 2 1 9 2 4 3 1 1 1 3 9 1 5 3 1 5 1 0 7 9 2 1 1 4 6 l 1 6 1 2 8 1 3 9 7 9 1 6 6 2 8 1 1 4 6 1 1 3 2 2 2 1 3 2 2 2 1 2 3 0 4 1 7 5 5 9 i 1 1 3 9 1 2 5 5 3 l 。0 7 9 2 3 9 5 4 2 3 4 7 7 l 3 5 1 8 5 3 4 1 5 0 3 8 5 7 3 3 7 2 4 3 3 6 9 9 0 3 7 8 5 3 3 6 4 3 5 3 5 5 6 3 3 6 5 3 2 4 0 7 5 5 4 0 4 5 3 3 9 5 9 0 3 7 9 9 3 3 5 9 1 1 3 8 3 2 5 3 6 4 3 5 3 7 3 2 4 3 8 3 8 8 3 6 4 3 5 3 8 5 7 3 3 7 7 0 9 3 8 8 0 8 3 7 4 8 2 3 7 2 4 3 3 6 1 2 8 3 9 6 8 5 3 ,6 8 1 2 1 2 0 4 l 1 4 7 7 1 1 3 4 2 4 1 0 4 1 4 1 6 5 3 2 1 6 9 9 0 1 5 7 9 8 1 8 1 9 5 1 0 4 1 4 1 7 5 5 9 1 6 2 3 2 1 4 1 5 0 0 7 7 8 2 1 6 2 3 2 1 8 5 7 3 1 8 8 0 8 1 6 5 3 2 1 1 4 6 1 1 8 4 5 1 1 3 6 1 7 1 7 9 2 4 0 9 0 3 l 2 0 0 0 0 1 5 1 8 5 1 6 7 2 1 1 4 4 7 2 2 0 0 0 0 1 9 5 4 2 0 。9 5 4 2 此处给出了九个协变量的具体数据,研究者主要感兴趣的变量为一个变量 时i l8 l :不失一般性,设感兴趣的变量为五( 1 0 9 b u n ) ,根据数据,预估计其对数 风险比l o g a = l ,研究结束时死亡率p = 4 8 6 5 = 7 3 8 ,按单边0 0 5 的检验水准和预 期8 0 的检验效能,估计所需的样本量。估计x
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 售后服务工作总结模版
- 乳头凹陷护理指导
- 小米手机及小米电视发布会
- 2025年建筑总工程师年终工作总结模版
- 安徽省桐城实验中学2025届数学八下期末学业水平测试模拟试题含解析
- 2025年明山学校线上教学工作总结模版
- 夏季寻爱之旅活动方案
- 幼儿园消防试题及答案
- 营山县国企面试题及答案
- 银行总行笔试题库及答案
- 最新安全生产管理教材电子版
- (完整版)马克思主义基本原理概论知识点
- 良性阵发性位置性眩晕完整版本课件
- 液压系统故障诊断分析课件
- “安全月”安全生产知识竞赛参赛队伍报名表
- 老化箱点检表A4版本
- 超高性能混凝土研究进展及工程应用199页PPT_ppt
- 视觉心理学(全套400页PPT课件)
- 设计学概论设计批评课件
- 员工领用劳保用品表格
- 教你如何填省普通高中学生档案
评论
0/150
提交评论