(应用数学专业论文)多重假设检验中错误率控制过程的分析.pdf_第1页
(应用数学专业论文)多重假设检验中错误率控制过程的分析.pdf_第2页
(应用数学专业论文)多重假设检验中错误率控制过程的分析.pdf_第3页
(应用数学专业论文)多重假设检验中错误率控制过程的分析.pdf_第4页
(应用数学专业论文)多重假设检验中错误率控制过程的分析.pdf_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 中文摘要 近年来,随着对大维数据研究的增多,多重假设检验的使用得到了越来越多的关 注这种情况,需要同时检验成千上万个假设当同时进行多个显著性检验时,如何 控制犯第一类错误的概率,是研究者面对的首要问题很长一段时间,该问题是通过 控制f i v e r ( f a m i l y w 规e r r o rr a t e ) 来解决问题的,f i v e r 表示错误拒绝个原假 设的概率,显然f i v e r 的控制过于严格当检验总个数很大时,研究者能够忍受个 或者更多的错误拒绝个数,以此来提高功效因而,我们需要考虑其他的错误控制方 法。1 9 9 5 年,b e n j a m i n i 和h o c h b e r g 提出了新的错误率f d r ( f a l s ed i s c o v e r yr a t e ) , 同时给出了b h 过程来控制f d r ,使得检验的功效大大提高f l y e r 和f d r 是 多重假设检验中比较重要的两种错误率,学者们对其进行了大量的研究因此本文 的第部分将对f i v e r 及f d r 的定义及其控制过程进行回顾在第二部分的内容 中。我们将会提出一种新的方法估计真实原假设个数,并将此估计应用到f d r 的 控制过程中,以期提高功效 关键词;多重检验;s t e p u p 和s t e p - d o w n 过程;第一类错误率;f i v e r ;f d r 黑龙江大学硕士学位论文 a b s t a c t t h eu s eo ft h em u l t i p l eh y p o t h e s i st e s t i n gh a sb e e nr e c e i v i n gal o to fa t t e n t i o nr e c e n t l yb ya n a l y i n gl a r g e - d i m e n s i o nd a t a i nt h i sc o n d i t i o n ,w en e e dt ot e s tt h o u s a n d s o fh y p o t h e s e ss i m u l t a n e o u s l y w h e ns i m u l t a n e o u s l yu n d e r t a k i n gm a n yt e s t so fs i g n i f i i c a n c er e s e a r c h e r sa l ef a c e dw i t l lt h ep r o b l e mo fh o wb e s tt oc o n t r o lt h ep r o b a b i l i t yo f c o m m i t i n gat y p eie r r o r t h em u l t i p l eh y p o t h e s i st e s t i n gp r o b l e mh a sl o n gb e e nr a i d e d b yc o n t r o l l i n gt h ef a m i l y - w i s ee r r o rr a t e ( f i v e r ) ,t h ep r o b a b i l i t yo fe v e no n ef a l s er e - j e e t i o n c l e a r l y , t h et r a d i t i o n a lf w e rc o n t r o l l i n gp r o c e d u r e sa r et o os t r i n g e n t w h e nt h e n u m b e ro f h y p o t h e s e si sl a r g e , r e s e a r c h e r sm i g h tb ew i l l i n gt ot o l e r a t em o r et h a no n ef a l s e r e j e c t i o n , t h e r e b yi n c r e a s i n gt h ea b i l i t yo f t h ep r o c e d u r et od e t e c tf a l s en u l lh y p o t h e s e s c o n s e q u e n t l y , i ti sd e s i r a b l et oc o n s i d e ro t h e rn e wm e a s u r e b e n j a m i n ia n dh o c h b e r g ( 1 9 9 5 ) p r o p o s e df d r , a tt h es a m et i m et h e yp r o v i d e db hp r o c e d u r ef o rc o n t r o l l i n g f d r f w e ra n df d ra 他i m p o r t a n ti nm u l t i p l eh y p o t h e s i st e s t i n ga r e a , m a n yr e s e a c h e r sa l e s t u d y i n gt h e m s o ,i nt h ef i r s tp a r to ft h i ss t u d y , w er e v i e wd e f i n i t i o n sa n dp r o c e d u r e s o ff w e ra n df d r i nt h es e c o n dp a r to ft h es t u d y , w ep r o p o s ean e wm e t h o dt oe s t i - m a t et h en u m b e ro ft r u en u l lh y p o t h e s e s t h ee s t i m a t e sc a nb eu s e di nf d r - e o n t r o l l i n g p r o c e d u r ew i t hac o n s e q u e n ti n c r e a s ei np o w e r k e y w o r d s :m u l t i p l et e s t i n g ;s t e p u pa n ds t e p d o w np r o c e d u r e ;t y p eie l l o rr a t e ; f w e r ;f d r 一一 黑龙江大学硕士学位论文 符号说明 样本空间 p 一值 拒绝域 示性函数 标准正态分布 b h 过程控制的f d r 新过程1 控制的f d r 新过程2 控制的f d r 新过程3 控制的f d r b h 过程的功效 新过程1 的功效 新过程2 的功效 新过程3 的功效 影一l埘剐脚一一一一一一一 独创性声明 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究 成果据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已 经发表或撰写过的研究成果,也不包含为获得黑龙江大学或其他教育机构的学位 或证书而使用过的材料 学位论文作者签名= 枷秆签字日期7 年妇 学位论文版权使用授权书 7 日 本人完全了解黑龙江大学有关保留、使用学位论文的规定,同意学校保留并 向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅本人 授权黑龙江大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可 以采用影印、缩印或其他复制手段保存、汇编本学位论文 靴一豁各杨柙 榔舭j 铽司日 学位论文作者毕业后去向。 工作单位: 通讯地址: 导师签名s 歹亏倪2 签字日期杪7 年朔7 日|l 电话: 邮编: 第1 章绪论 第1 章绪论 1 1 多重检验的发展历程 对多重检验的研究已经有很多年的历史,我们可以参考文献【1 】【2 】,d d u l l c a l l , s n - r o y ,h $ c h e f f 6 以及j t u k e y 提出了这个领域的基本理论在早期的研究中, 文献【3 】【6 】作出了巨大贡献 在过去的十年间,多重检验变得越来越重要,这主要归因于它的广泛应用例 如:在临床医学中,我们要研究一种新型药剂应该摄取多少剂量才会对某种疾病有 治疗效果,并且还要确定哪些药剂量是安全有效的此外,在商业领域中,我们经 常要考虑个新产品的多方面情况,然后判断出哪些方面存在潜在利益这些都需 要多重检验来判断对于多重假设检验的应用,可以参考文献【7 】 2 6 】 与单个假设检验类似,同时检验一族假设时,我们的主要任务便是控制第类 错误率因此我们首先面对的问题就是如何定义一种错误率来衡量这一族假设所犯 的第一类错误在已有的理论中,有多种合理的错误率曾被采用确定错误率后, 进而需要找到一种检验法将这种错误率控制在事先规定的范围内,这种检验法就是 多重检验过程因此多重检验过程可以被看作是一种判断准则,由它来决定哪些原 假设应该被拒绝当然我们希望此种过程在控制第类错误的同时,能尽可能多的 拒绝原假设,以此来提高功效 在多重检验中。比较传统的处理方法便是控制f w e r ( f a m i l y w i s ep ,d 厂r a t e ) 它表示至少错误拒绝一个真实原假设的概率当把f i v e r 控制在水平口下时,就 会要求每个假设都要在更低的水平下检验当要检验的假设增多时,这会大大的降 低检验的功效这就是为什么会有些人建议直接对每个假设在水平口下检验这 样就可以增大拒绝错误原假设的概率,但同时也增大了犯第一类错误的概率这种 方法忽略了多重比较的问题,是极端做法一旦这样,研究者会将过的努力放在几 乎没有结果的研究上 随着基因工程的发展,我们经常要在成千上万个基因中判断出哪些基因表达水 平是显著的,在这个问题上,研究者们更关心的问题是在做出显著性判断后,做出 错误判断的比例而不是作出至少错误判断个的概率因而,f i v e r 在这个情况 下过于保守1 9 9 5 年,b e n j a m i n i 和h o c h b e r g t 2 7 提出了一种新的多重假设检验错 误率f d r ( f a t s ed i s c o v e r yr a t e ) ,它表示错误决绝个数与总拒绝个数比值的期望 黑龙江大学硕士学位论文 与此同时,他们还给出了控制f d r 的过程b h 过程这是一件具有里程碑意义的 工作,已经成为多重假设检验理论和应用研究的基础由于f d r 控制过程特别适 用于大规模的多重假设检验问题,因而引起了众多学者的关注,在b h 的基础上, 其他学者进行了不断的改进关于f d r 的文献可以参考【2 8 - 【4 1 】 在接下来的章节将详细介绍多重假设检验的相关知识,由于单个假设检验是多 重检验的出发点,因此我们首先对单个假设检验进行回顾 1 2 单个假设检验 参数假设检验是一种应用非常广泛的统计推断方法它的基本思想是概率性质 的反证法首先对总体参数的取值作出某种陈述一一称之为假设( 通常设原假设为 凰) 为了检验原假设凰是否正确,先假定这个假设是正确的,看由此推断出什么 样的结论如果导致个不合理的结论,则表明。原假设凰是正确的。这种假设是 错误的,即凰不正确,因此要拒绝原假设h o ;如果没有导致个不合理的结论, 那么就不能认为原假设凰不正确,即接受原假设h o 称在个假设检验问题中常涉及两个假设,所要检验的假设称之为原假设,记 为凰,与岛不相容的假设称为备择假设,记为马在参数假设检验中,原假设 和备择假设分别记为;h o :0 o o 对h i :0 l - 这里0 为被检验的参数,o o 和 l 是两个互不相交的非空子集给定凰和蜀就等于给定个检验问题,记为检 验问题( 日0 ,竭) 在检验问题( 王南,竭) 中,需要找到一种检验方法,目的是把样 本空间形划分为互不相交的的可测集s 和历,并做如下规定: 当观测值x 时,就拒绝原假设凰,认为备择假设竭成立当观测值x 芒, 即z 历时,就不拒绝原假设凰这里的甜称为检验的拒绝域 在进行检验时,由于样本的随机性,我们可能作出错误的判断,也可能作出正确 的判断,正确的判断是原假设凰成立时接受凰,或原假设凰不成立时拒绝凰 而错误的判断是原假设凰成立但被拒绝,或原假设h o 不成立但被接受为了对检 验法的好坏给出个评选标准,需要考虑个检验法可能犯错误的概率 对于原假设凰,设山为其拒绝域,当凰为真时,若样本观察值o l ,娩,而) ,则作出否定凰的判断,这时则称作犯第一类错误( 弃真) ,犯第一类错误的概 率记为t 似回= ( x j ,硝u l ,0 o o ( 1 1 ) 当凰不成立时,若样本观察值( j f l 。,而) 岳,而作出不否定凰的判断,这 一2 一 第l 章绪论 时则称作犯第二类错误( 取伪) 犯第二类错误的概率记为: 卢( 回= p r o l ( x l ,x n ) 萑j = 1 一尸h ( x l ,工0 山j ,p 0 1( 1 2 ) 称样本观察值落在拒绝域的概率为检验的势函数( 或功效函数) 记为: f 似回,0 o o 荆= ( 1 3 ) 【1 一觑d ,口o l 其中o l - o o o ,o 为参数空间对凰的判断情况可用下表说明: 接受日。拒绝日。 凰为真正确 第一类错误 凰为假 第二类错误正确 当然,我们总希望所做出的检验能使犯两类错误的概率同时尽可能的小,最好 是全为零,也就是说,凰为真时,能作出不拒绝凰的判断这种理想化的检验法, 由于样本却,靠的随机性,在实际中是不存在的,当样本的容量刀给定后,犯 这两类错误的概率难于同时被控制 基于这种情况,需要采取某种妥协方案,n e y m a n 和p e a r s o n 的假设检验理论 的基本思想,就是使得犯第一类错误的概率限制在个范围内,然后寻找使犯第二 类错误的概率尽可能小的检验在这种思想的指导下,寻找个好的检验法,就是 对选定的个较小的数口,在满足 甙d = p r o o 口,0 o o 的检验中,寻找这样的检验,使得在0 0 l 时,g ( d 尽可能的大,即,尽可能的拒绝 原假设【4 2 1 由此可看出势函数的意义在于凰不真时,反映拒绝凰的功效大小 在单重假设检验中,关于简单原假设对简单备择假设的检验问题,n e y m a n - p e a r s o n 定理已经证明出必存在最佳检验,如果备择假设是复合的,最佳检验不一定 存在,如果存在,称它为一致最佳检验1 4 3 1 3 多重检验的错误率 多重假设检验问题,是首先将多个单重的假设检验看作个整体,然后对这 个整体中的每个假设同时进行检验的问题1 4 4 1 ,如果要同时检验m 个假设月:,= 黑龙江大学硕士学位论文 l ,m ,将所有检验结果进行分类总结,可得下表s 接受原假拒绝原假设总计 原假设为真 uy m o 原假设为假 丁 s m l 总计w rm 其中,尺是m 个检验中拒绝的总个数,它是可观测的随机变量,m 和m 1 分别 为真实原假设与错误原假设的个数y ,u ,r ,s 都是不可观测的随机变量 矿和丁分别表示犯第类错误和第二类错误的个数 由于每个假设都存在着第类错误,那么如何定义整体的第一类错误率呢? 常用的错误率的定义有以下几种: ( i ) 脓( p e r 一和所砂e r r o rr a t e ) ,它的定义为e ( 功由于y 是m 重假设 检验中错误拒绝( 犯第类错误) 的个数,因此用y 的期望值来衡量错误率是很自 然的考虑,但这种定义没有考虑检验的总个数m ,反映不出两个不同检验总体的差 异 ( i i ) p c e r ( p e r - c o m p a r i s o n e r r o rt a l e ) ,它的定义为挈显然这是在栅 的基础上得出的错误率,它被定义为p f e r 在聊个检验中所占的比例但即使对每 个假设都在显著性水平1 7 l 下进行检验,错误率p c e r 都不会超过口,可见这种错 误率过于。宽泛。 ( i i i ) f i v e r ( f 册u y w i s ee r r o rr a t e ) ,它的定义为抑( y 0 ) 这是个概 率值,表示在m 重假设检验中至少错误拒绝一个真实原假设的概率 ( i v ) f d r ( f a l s ed i s c o v e r yr a t e ) ,它的定义为e ( 要嗽 o ) p r ( r 0 ) 它表示 在m 重假设检验中错误拒绝个数与总拒绝个数的比值的期望 ( v ) p f d r ( p o s i t i v ef a l s ed i s c o v e r yr a t e ) ,它的定义为e ( 妥限 o ) 从p f d r 和f d r 的定义来看,p f d r 是f d r 的一种特例 在相同的控制过程下,即给定相同的拒绝域,有如下的关系式t f c e r f d r f i v e r p f d r 。f d r p f d r( 1 4 ) 事实上,由于0 v r m ,若r = 0 则v = 0 ,因此。 兰s 罢五船。j y ( 1 5 ) 一ms 页五船o j l l w o j y ( 1 5 ) 将上式分别取期望值,即得如上的关系式但对p f d r 和f w e r 的比较有些 困难,当然这要排除如下特殊情况:m o = 所时,乃瞰= f d r p f d r = 1 。无论 一4 一 第1 章绪论 如何定义口( 口 o ) 一l ,此时,p f d r = f d r ,那么有 p c e r f d r p f d r f w e rsp f e r ( 1 6 ) 我们应该注意到以上所描述的期望和概率都是在真实原假设的条件下定义的 设= 1 1 , 2 , - , m 1 ,= :届为真l ,则c ,记墙2 口马表示所有 原假设都为真的集合,z k = n j 咖马表示所有真实原假设的集合 定义1 1 如果某种错误率在王k 的条件下被控制,则称这种控制为精确控制 定义1 2 如果某种错误率在皤的条件下被控制,则称这种控制方式为弱控制 定义1 3 如果在 竭,马,焉 任意子集为真的条件下,某种错误率均能被控 制,那么就称这种控制方式为强控制 以f w e r 为例,若个检验过程能够精确控制,删豫,是指控制抑i 矿 0 1 h a o j , 弱控制是指控制p r lv o i 壤l ,强控制是指控制m a x 。,p r lv 0 1 h a , 可见,强控制 包括了精确控制和弱控制这两种情况如果个检验过程能够强控制某种错误率, 那么这个过程也能够弱控制和精确控制这种错误率但弱控制与精确控制不存在包 含关系 1 4 p v a l u e 和调整p v a l u e 经典假设检验中般给出显著性水平o t ,在给定的显著性水平下,确定拒绝域, 然后通过比较检验统计量与临界值的大小来作出结论利用p v a l u e 同样可以进 行假设检验,但p v a l u e 法与临界值法处理问题的角度不同首先,让我们了解下 什么是p v a l u e 1 p v a l u e 首先考虑单个假设情形,设假设日为真时,h = 0 ;h 为假,则h = 1 ;在显 著性水平口下,对假设日进行检验设拒绝域为l 。且满足。 ( 口) r 口l r 岛,当0 o i lso r 2 l ; ( 6 ) 尸,( 丁r 口l i - 1 = o ) 口。当0 口1 , 黑龙江大学硕士学位论文 其中r 为检验统计量,那么p v a l u e 的定义为t p 2p 一讹2 i 箍l 口:t r 口l ( 1 7 ) 也就是说,p v a l u e 是在所有拒绝域中所犯的最小的第一类错误 如上定义的p v a l u e 有如下的重要性质t ( i ) 如果h = 0 ,那么 p ,仞功u( 1 8 ) ( i i ) 尸厂仞l p r 丁l j( 1 9 ) 证明( i ) 如果事件 psu j 发生,那么事件i x k j 一定发生,其中 0 因此, p r p su j p r i x r 晰j u + g ( 1 1 0 ) 令6 _ 0 ,即证明( i ) ( i i ) 同理事件i t l j 发生能够推导出事件i p u j 发生,因此 n 仞u j 尸厂 丁u( 1 1 1 ) 特别的,如果( 6 ) 中的不等式取等号,那么p v a l u e 服从( 0 ,1 ) 上的均匀分布 对于双边假设检验,p v a l u e 也可以定义成出现极端观测值的概率,即 p v a l u e ( t ) = n ( i r i | f i t ih = 0 ) ( 1 1 2 ) p v a l u e 越小,我们拒绝原假设h 的证据越强当p - v a l u e 口时,拒绝日便 会将第类错误控制在水平o t 下可见,p v a l u e 可以被看作是一种检验水平,当 给出观测值t ,就凭借p v a l u e 来判断是否拒绝日甩p v a l u e 做检验有以下的优 越性:与其人为的把口固定在某水平,不如选定p v a l u e ,由研究者自己决定是 否在给定的p v a l u e 水平下拒绝或者是接受原假设将p v a l u e 的定义拓展到多 重检验的领域,便是我们接下来要介绍的调整p v a l u e 在本文以后的内容中,将 会称p v a l u e 为原始p v a l u e 2 调整p v a l u e 设t j 与马= p ,( i 乃l i t j li 马) ,j = l ,2 ,m 分别表示各个假设所对应的检验 统计量的观测值与原始p v a l u e 与单个假设检验类似,多重检验过程也会根据 临界值或p v a l u e 来定义例如:如果i t j l c j 或者乃哟,那么就拒绝马q 和口f 都是为了控制某种错误率而被设定的临界值对于给定的任意多重检验 一6 一 第1 章绪论 过程,与原假设马所对应的调整p v a l u e 可以被定义成月:,刚好被拒绝时检验所 犯的第一类错误的总体水平【4 6 h 4 8 1 例如:对于给定的多重检验过程,若是控制f 形职,那么与原假设马对应的 调整p v a l u e 为 疗= i n f i 口【0 ,1 】:绁w e r = o t 时h j 被拒绝j i 研被拒绝j 当磊口时,我们就拒绝原假设马,对于其它错误率,调整p v a l u e 也是类似的 定义 虏= i n f l 口【0 ,l 】:在f d r = 毗被拒绝l i 磁拒绝j 这样定义调整p v a l u e 的好处在于:首先与单个假设检验情形类似,在多重检验 中可以将调整p v a l u e 作为检验水平,而不用事先定义检验水平;其次,根据调整 p v a l u e ,一些控制过程便于描述 一7 一 黑龙江大学硕士学位论文 第2 章f 髟班豫的定义及其控制过程 2 1 ,陋r 的定义 传统的多重假设检验主要是控制错误率f w e r , 首先我们给出f 矿e r 的定义 定义2 1f w e r 是指多重假设检验中至少错误拒绝个原假设的概率,即: ,乃嗽= 抑( y 0 ) ( 2 1 ) 在单重假设检验问题中,主要通过控制犯第一类错误的概率口来达到对单重假 设检验的错误控制而对于多重假设检验,如果对每个假设都在水平o l 下进行检 验,那么至少错误拒绝个的概率就会超过口,即f i v e r 口因此必须采用新的 方法来控制多重假设检验的错误率,使得总体所犯的第类错误小于检验水平口 这种新的方法我们称其为多重假设检验的控制过程确定了控制过程就是确定了每 个假设检验的拒绝域以下要介绍的控制过程均基于p v a l u e 2 2 s t e pw i s e 控制过程 l j 咖咖一s t e p 过程 s i n g l e s t e p 过程是指多重假设检验中的每个假设检验都有相同的拒绝域, 这个过程不考虑原始p v a l u e 的顺序,令每个假设对应的原始p v a l u e 与相同 的临界值比较,对于将f w e r 控制在水平口下的强控制来说,b o n f e r r o n i 过程可以 算是最著名的一个s i n g l e s t e p 过程考虑m 重假设检验 t f i ,1 - 1 2 ,玩 ,其控制 过程如下; 若乃竺m ,则拒绝吗 其中,功为马所对应的原始p v a l u e ,= 1 ,m ,因此,b o n f e r r o n i 过 程的调整p v a l u e 为: 办= m i n ( m p j ,1 )( 2 2 ) s i n g l e s 卸过程将每个假设平等对待【4 9 】,在给定总体显著性水平口后,以三 第2 章f w e r 的定义及其控制过程 为标准检验假设。这是一种很自然的考虑事实上, f w e r = p r ( v 1 ) 州u 何硼 户l 善m o 办妨鲁) si m o m o 口s 口 ( 2 3 ) 办妨三) si 口s 口 ( 2 3 ) 其中西和一分别为真实原假设对应的调整p v a l u e 和原始p v a l u e i d 矗l ( 过程与b o n f f e r r o n i 过程密切相关,当原假设对应的原始p v a l u e 相互独 立且均服从【0 ,l 】上的均匀分布,蠡d 矗j ( 的过程强控制f i v e r ,其过程如下。 若乃1 一( 1 一口) 吉,贝4 拒绑u 弓 因此。i d a k 过程的调整p v a l u e 为 办= l 一( 1 一乃) 肼 我们很容易证明这个过程能控制f i v e rt 因此, p r ( v = o ) = p r 【n 惦= 兀n 慨7 j = lj = 1 = 兀嘶1 - ( 1 一叻; ) 户i = 【( 1 一盍】聊 ( 2 4 ) ( 2 5 ) f i v e r = p r ( v 0 ) = 1 一p r ( v = 0 ) = 1 一( 1 一叻鲁s 口( 2 6 ) 但是在很多应用中,检验统计量是相关的,即原始p v a l u e 是相关的例如在 d n a 微阵列的研究中,很多基因高度相关w e s f f a l l 和y 0 岫g 【5 0 】在检验统计量相 关的条件下,提出了一种多重检验过程,它的调整p v a l u e 定义如下。 西= p r ( 眺m i n 册 i 乃l 塌) ( 2 7 ) 其中,娥表示所有原假设为真,局表示假设岛所对应的原始p v a l u e 随机 变量,这种过程降低了前两种过程的保守性,也就提高了功效 2 s t e p d o w n 过程 黑龙江大学硕士学位论文 s i n g l e s t e p 过程的步骤很简单,但它对f 删豫的控制有些保守,为了提高功 效,同时又能够控制f 形职,研究者们采取了s t e p 一面伽过程,设凤1 ) ,脚) ,腑 表示顺序原始p v a l u e ,它们所对应的原假设记为甄1 ) ,段2 ) ,凰吣 h o l m t 5 1 1 于1 9 7 9 年提出了种s t e p d o w n 过程,以此将f 耽r 控制在水平o f 下,其具体过程如下,令, - - m i n u :p o ) 南j ( 2 8 ) 然后拒绝所有的,歹= l ,歹,即,= 1 开始作比较,直到第一个满足 p o ) 亲哥的歹,记为歹,拒绝所有p o ) ,m ,p d 所对应的原假设,对于歹的寻 找,或者我们也可以这样理解,将所有的力,j = l ,m 与其对应的临界值比较, 找到满足p ;希的最小的歹,记为歹,如果没有找到这样的,那么就拒绝所 有的原假设 h o l m 过程的调整p v a l u e 如下l 而2 罟焉m i n ( ( m 一七+ 1 ,1 ) j ( 2 9 ) h o l m 过程与b o n f o r o n i 过程相比,保守性降低很多,并且调整p v a l u e 保持了原 始p v a l u e 的单调性,即 p o ) 多( 2 ) 多( ,吣( 2 。1 0 ) 类似的有,s ;i d f i ks t e p d o w n 过程的调整p v a l u e 如下t 西= 卧m a x j p r ( ,e i 鼎) l p i p 【量) i 蠕) ( 2 11 ) 这个过程降低了h o l m 过程的保守性 s i i i l e s 【5 2 】名eh o l m 的基础上提出了s i l i l e s 过程,步骤如下; 对于所有的假设,如果存在个姗s 考口,k = l ,m ,那么就拒绝所有的原 假设,此过程弱控制f 耽兄,证明可由下述定理得到 定理2 2 设顺序统计量尸( 1 ) ) 相互独立且均服从( 0 ,1 ) 上的均 匀分布,令彳。( 叻= p r ( 尸( 妁 等,k = 1 ,功( os 口1 ) 那么彳。( = 1 一口 证明当n = 1 时,a 栉( = 抑伊 = 1 一丹( 尸s 回= 1 一口 当刀 l 时,l 锪,等j 是刀一1 个相互独立的顺序统计量,并且均服从( o ,1 ) 上的均匀分布而且与p ( 吣相互独立假设n = m 时,定理成立,欲证n = m + 1 时 第2 章f i v e r 的定义及其控制过程 也成立, 彳州( = n 焘口,k = 1 川2 ,册+ l j = n 急 两面k 丽蛳= 1 2 ,所+ l t ) 口j :蹦粤 一k 赢条,七:l ,2 ,胁1 p r ( + 1 ) 口l 。+ i ) m 铆+ l 糯+ i ) 一”1 ”一”m u = j 1 钏南+ 1 矿却 = 1 1 1 1 一丽竿j 。沏+ 1 矿咖= 1 - 口 其中,沏+ 1 ) 矿为+ 1 ) 的密度函数,证毕 3 s r 印一u p 过程 与s t e p 一如w w 过程恰好相反,s t e p u p 过程从最不显著的p - v a l u em ) 开始 检验,h o c h b e r g 5 3 1 于1 9 8 8 年提出一种s t e p 一印过程,令 歹= m a x l j :南i 然后,拒绝所有的刀_ ,j = 1 ,歹,即_ ,= 册开始作比较,直到第个满足鬲斋 的j ,记为歹,拒绝所有p ( 1 ) ,) ,所对应的原假设,或者我们也可以这样理 解,将所有的,= 1 ,m 与其对应的临界值比较,找到满足尸o ) ;南最大 的工记为歹若是不存在这样的歹,那么就不拒绝任何假设h o e h b e r g 过程与h o l m 过程很相似,两个过程中,顺序原始p v a l u e 都与相同的临界值作比较此外,控 制f w e r 的s t e p 一印过程还有h o m m e l 5 4 1 过程和r o m l 5 5 1 过程这两个过程的功 效比h o c h b e r g 过程更高,但与它们的定义式的复杂程度相比,提高的功效似乎有 凿微不足道 黑龙江大学硕士学位论文 第3 章f d r 的定义及其控制过程 3 1 f d r 的定义 在很多实际应用中,例如,寻找致病基因或是对微阵列数据表达水平的差异进 行检验,这些情况都需要个功效不错的控制过程此时,为了提高功效,研究者们 允许一些假设犯第一类错误,当然与总拒绝个数相比,错误拒绝的个数要少很多 这时候,f w e r 的控制就显得过于严格,为此,b e n j a m i n i 和h o c h b e r g 考虑到了拒 绝个数r 的必要性,提出了新的错误率f d r 定义3 1f d r 是指在多重假设检验中,错误拒绝个数占总拒绝个数比例的期望 值,即 f d r = e ( v i r o ) p r ( r o ) ( 3 1 ) 我们可以看到,当所有的原假设为真时,即当m = m o 时,有: f d r = f w e r 这种关系很容易证明,此时,v 兰r ,因此 矿 f d r = e ( 云五它1 1 ) = e 弛陉l j ) = p ,( 矿1 ) = f w e r( 3 2 ) 可见若是个控制过程能够控制f d r 那么这个控制就可以弱控制f i v e r 而 当m o o ) p r ( r 0 ) 等口 ( 3 4 ) e ( 女r 0 ) 詈口 ( 3 4 ) 此定理的证明需以下的引理: 引理3 3 在上述定理的条件下,对于任意的m o 和m l ( 0 m osm ,m l = 肌一 m o ) ,b h 过程都能使下面的不等式成立: e ( 吴i 尸,= ,= 办。) i m o p j 口 ( 3 5 ) e ( 是i 尸1 2 ,尸肼- 2 办) i 口 ( 3 5 其中,尸1 ,尸册。是错误原假设对应的原始p v a l u e ,并且定义o 0 = 0 证明引理的条件是有m 个假设需要同时检验,证明过程可以分以下几步; 设簧= q ,且定义r = 0 时,q = 0 采用数学归纳法,假设所m 时,引理成立,接下来证明m + 1 时成立 ( 1 ) 如果m o = 0 ,即所有的假设都是错误的,那么q = 0 ,于是 e ( qip i = m ,厶。= 办。) = o 熹口 ( 3 6 ) ( 2 ) 如果m o 0 ,记只,i = 1 ,m o 表示真实原假设对应的原始p v a l u e ,并 记其中最大的原始p v a l u e ) ,这些p 一阳,孵相互独立且同分布并且我们 将错误原假设对应的p v a l u e 排序,即:p lsp 2s ,砌。,设 矗= m a x t :乃籍州= l ,2 m j 记= 警o l 在) = p 的条件下,考虑下式; e ( qlp i = p n ,厶。= p m 。) f 吵 = j o e ( qi ) - p ,p l2m ,厶- 2 砌,帅 + f e ( qi ) p h 尸1 = p 一,厶。= 砌。) 和( 3 7 ) 黑龙江大学硕士学位论文 其中,玩) = 确一_ ) 当p 7 ,即:p 号等口,可见,在所有的原始p v a l u e 中,共有m o + 如 个p v a l u e 小于等于弓磬口而且,其余的p v a l u e 有p j o “ 苎业m + l 竺口,i = l ,m 1 一矗,因此,根据b h 过程,m o + 力即为此过程要寻找的j 即此时拒绝 m o + 矗个原假设而且,所有真实原假设被拒绝那么,q 三署,因此,( 3 7 ) 式的第一部分积分值为: f 聊咿+ l ,咖= 7 严= 暑籍口p ”严一1 o 固 当p 时,设纵 等口 ( 3 9 ) 根据船过程,对这m + l 重假设进行检验时,不能拒绝尸) 所对应的原假 设,并且知。p ,办l ,脚,砌。,所对应的原假设都不能被拒绝,因此,若有假设被 拒绝,只能在下列情况下发生:存在个j | 使得, p o t ) 南口,1 k m o + j 一l ( 3 1 0 ) 等价的有: 等s 高m o1 蔫错饵 伍m p七j 一哪七1 ) p 注意:以p ,i = 1 ,2 ,m o 相互独立且同分布,可被看作成是真实原假设对应 的原始p - v a l u e 而r 仞,f = l ,2 ,j 3 0 取值于( 0 ,1 ) 的数,可被看作是错误原假 设对应的原始p - v a l u e ,并且将罢警器口看成新的检验水平矿,那么此时,这种情 况就是个( 晌+ j - 1 ) 重假设检验问题,根据数学归纳法的假设m o + ,一l 0 ) = p r ( p o ) 壤,k = l ,2 ,m l l 如果且1 ) 函,那么s = 0 ,于是有 第3 章f d r 的定义及其控制过程 e ( 美五b o ) l 尸l ,厶。) e 亨 r - i c v o ) ip l ,厶。) 最me 姣圳 ) 一s +o 一”0 7 “7 。” 1 1 7 - i - l m o 尸,【m i n 弼,) s 蟊+ 1 】 一s 。”p ”1 0 7 一一4 “ = 最【l - ( 1 一a s + o - 。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论