




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、摘 要复杂数据主要表现在相依、非线性、维数高与不完全观测等,在股市、基因序列和经济等领域中经常出现。为解决巨型数据集合问题,数据挖掘的理论、方法和技术已应运而生。而针对诸如怎样同时检验成千上万个基因中哪些基因的表达水平有显著性差异之类的高维统计推断问题,以错误发现率为主要特征的非参数估计方法无疑为其提供了一个有效的解决途径。本文主要研究考察错误发现率的在各种参数模型和非参数模型下的控制检验方法,全文共分为四章。文章首先介绍了所选取课题的背景和意义,以及国内外在该方向的研究现状。在多重假设检验的背景下,给出了错误发现率的定义,提出利用p值进行假设检验,并在假设检验独立和相依的情形下对错误发现率的
2、控制方法进行了探讨。在研究错误发现率的控制方法时,发现在处理多重假设检验问题时,核心的问题是如何估计真实零假设的个数,因此本文采用经验贝叶斯估计来估计它的值。在参数混合模型和非参数混合模型中研究真实零假设的估计问题是本文的核心内容。针对正态混合分布模型和Beta混合分布模型两种参数混合模型,文章采用矩估计方法和基于p值的最小二乘估计方法进行研究;在研究非参数混合模型时,分别介绍了最小二乘估计方法、Beta分布拟合模型和Beinstein多项式拟合模型的方法。文章的最后以Hedenfalk报告的一组乳腺癌患者的基因数据为例进行仿真研究,发现错误发现率为微阵列数据的多重假设检验提供了合适的错误控制
3、指标。 关键词:错误发现率;多重假设检验;p值;非参数估计;微阵列数据AbstractComplex data always appear in the stock market, gene sequences, economic and other fields, which mainly show the characteristic of dependent, nonlinear, high dimension and incomplete observations. In order to solve the problem of huge data collection, the t
4、heories, methods and techniques of data mining are proposed. While how to examine the high-dimensional statistical inference problem, such as the significant differences of expression levels in thousands of genes, the non-parametric estimation of false discovery rate provide an effective solution.Th
5、is paper mainly investigate the test method based on the false discovery rate of various parametric model and non-parametric model, which is divided into four chapters. Firstly, this paper introduce the background and significance of the topic, and the current studies in this direction at home and a
6、broad. Under the background of multiple hypotheses testing, the paper describe the definition of the false discovery rate, propose using the p-value to test the hypothesis testing, and discuss the controlling method of the false discovery rate when the hypotheses testing is independent or dependent.
7、 When we investigate the controlling method of the false discovery rate and studied the multiple hypothesis testing problem, we find that the central problem is how to estimate the number of true null hypothesis, so this paper use the empirical Bayes estimation to estimate its value. Investigating t
8、he estimation of true null hypothesis in the mixing parametric model and non-parametric model is core of the dissertation. Aiming at the mixed normal distribution model and Beta mixture distribution model, This paper use the method of moment estimation and least squares estimation method based on th
9、e p-value to estimate its value; On studying the non-parametric mixture model, the paper introduce the least square estimation method, Beta distribution fitting model method and the Beinstein polynomial fitting model method. Finally, the paper conduct the simulation research based on a group of pati
10、ents with breast cancer gene data by Hedenfalk, and find that the false discovery rate is able to provide a suitable error control targets for the multiple hypothesis testing of microarray data.Keywords: false discovery rate, multiple hypotheses testing, p-value, non-parametric estimation, microarra
11、y data目 录摘 要IAbstractII第1章 绪 论11.1 课题研究的背景及意义11.2 国内外在该方向的研究现状1131.3 本文拟研究的主要内容31.4 创新点3第2章 错误发现率的多重检验方法52.1 多重假设检验的错误测度52.2 值的定义、性质和计算方法62.3 独立情形下基于FDR控制的检验方法72.4 相依情形下基于FDR控制的检验方法82.5 真实零假设的个数或比值的估计9估计9112.6 本章小结12第3章 参数混合模型和非参数混合模型的估计133.1 引言133.2 正态分布混合模型133.3 Beta分布混合模型173.4 非参数混合模型的估计2122 Beta
12、分布拟合模型23 Beinstein多项式拟合模型253.5 本章小结26第4章 错误发现率的估计方法的应用274.1 引言274.2 微阵列数据实例研究274.3 本章小结29结 论30参考文献31哈尔滨工业大学学位论文原创性声明和使用权限34致 谢35第1章 绪 论1.1 课题研究的背景及意义复杂数据主要表现在相依、维数高、非线性与不完全观测等,经常出现在股市、基因序列和经济等领域中。在研究处理低维的简单数据时,采用传统的数理统计方法是有效的,但在研究比较复杂的数据时,就会变得比较困难。因此,“复杂数据的统计推断问题”已被列为我国统计学研究的重点课题。随着科学技术的不断发展,在实际的统计研
13、究过程中,出现了越来越多的大型数据集合问题。在研究巨型数据的高维统计推断问题时,以错误发现率为主要特征的非参数估计方法为其提供了一个有效地解决途径。在巨型数据问题的统计分析中,错误发现率( false discovery rate, FDR)有着非常重要的作用,现已被越来越多地应用在微阵列(Microarray)数据研究和功能磁共振成像(Functional magnetic resonance imaging, fMRI)等领域。以微阵列数据研究和功能磁共振成像(fMRI)为代表的现代生物技术已经给医学界的研究带来了很大的影响。由于错误发现率可以为大规模数据多重检验中的错误控制提供一个合适的
14、测量标准,因此在微阵列数据的研究中,研究者通常采用错误发现率(FDR)来控制多重假设检验的错误率。例如在研究基因表达的差异性试验中,假设我们挑选了个差异表达的基因,其中有个是真正有差异表达的,另外有个其实是没有差异表达的,也就是说是假阳性的。在试验中我们希望错误比例不能超过某个预先设定的值(比如),在统计学意义上,这就等价于控制FDR不能超过.1.2 国内外在该方向的研究现状多重假设检验的统计显著性问题已经引起了许多统计学者的注意。1995年,Benjamini和Hochberg在研究多重假设检验时首次提出了错误发现率的概念,并在多重检验中对它的控制方法做了研究,给出了计算方法1。然而,由于当
15、时没有学者研究大规模数据,因此并未受到重视,甚至还受到广大学者的质疑。若干年后,随着微阵列数据研究的不断发展,大规模数据的频繁出现使得FDR有了实际的应用,错误发现率的理论和应用研究也在逐渐走向成熟。FDR(false discovery rate)的定义如下:上式中的和分别表示个假设检验中错误拒绝和正确拒绝检验的个数,表示个假设检验中总的拒绝原假设的个数,表示数学期望。Storey和Tibshirani(2003)提出了阳性错误发现率( positive false discovery rate,pFDR)的定义,并在DNA微阵列数据试验应用过程中,分别给出了统计数据独立和相关条件下的程序计
16、算过程2。pFDR的定义为:其中和的含义与上文相同。比较FDR和pFDR两者的定义可知,pFDR是FDR的一种特例。设假设检验的检验统计量为,分别假设和,令和分别表示检验统计量的零分布和相间分布。同时进行次试验。也就是说,考察个假设检验:及其检验统计量. 对每个,分别假设和. 假定对每个,都有和. 被当做的一个样本,且具有混合分布 (1-1)设全体试验的拒绝域的集合为。未被发现的错误率( false non-discovery rate,FNR)首次被Genovese和Wasserman(2002)3提出。从参考文献4和5中,我们可以得到正错误发现率(pFDR)和未被发现的错误率(FNR)的贝
17、叶斯解释: 上式中的分母和可以由经验分布估计得出结果,有时也会从已知的或者由采样的方法得到的零分布中得到结果。如果可以由检验统计量估计,那么pFDR和pFNR就是可以估计的。Allison等人(2002)采用有限Beta混合模型,利用这些数量模拟了微阵列数据分析中的值6。关于多重假设检验问题的研究,也受到了国际著名统计学家的高度重视,且已编入了国际统计学的教材中。Erich Lehmann编著的Theory of Point Estimation和Testing Statistical Hypotheses是世界各国培养统计学研究生的标准教材,被世界各国的大学广泛采用。2005年,Lehman
18、n还撰文提出了k-族错误率(k-FWER)的概念。另外,斯坦福大学统计系教授Bradley Efron也对此问题作出了深入的研究,并在许多重要报告中介绍了FDR的应用成果7-9。 在国内统计学研究中,目前对多重假设检验中错误发现率问题的研究才刚刚起步。黄丽萍等(2003)以脑功能磁共振成像(fMRI)为实验,对多重假设检验的FDR控制方法进行了研究,他们利用计算机编程技术对FDR控制方法进行了详细的研究,并在功能磁共振成像(fMRI)数据分析中加以应用10。缪柏其(2005)和朱钰(2005)介绍了FDR控制检验方法取得的显著成果11。东北师范大学郭建华教授指导的裴艳波(2005)的硕士论文对
19、多重假设检验问题中关于三种错误测度-FWER,FDR和pFDR及其控制方法进行了较全面的介绍12。此外,苟鹏程(2006)对微阵列数据的多重比较进行了探讨13。1.3 本文拟研究的主要内容本文主要研究错误发现率的非参数估计方法,并以微阵列数据为实例进行仿真研究。在第二章中,我们从多重假设检验的错误测度的角度出发,引入错误发现率的概率意义,研究了p值的定义和性质,并着重介绍真实零假设的个数或比值的估计方法;在第三章,我们详细介绍比值在参数混合模型与非参数混合模型下的估计方法;第四章以微阵列数据为例,进行仿真研究,并得出相关结论。1.4 创新点本文的创新点在于:首先,本文在多重假设检验的背景下,介
20、绍了错误发现率的定义,并提出利用p值进行假设检验;其次,在对正态混合分布模型和Beta混合分布模型两种参数混合模型进行研究时,文章采用矩估计方法和基于p值的最小二乘估计方法进行研究;在研究非参数混合模型时,分别采用最小二乘估计方法、Beta分布拟合模型和Beinstein多项式拟合模型的方法进行研究;最后,在以Hedenfalk的乳腺癌微阵列数据作为实例对微阵列数据进行仿真研究时,本文采用置换检验的方法对错误发现率的控制方法进行研究,得到合理的实验结果。第2章 错误发现率的多重检验方法2.1多重假设检验的错误测度在研究多重假设检验问题时,最核心的内容就是如何控制总体检验所犯的错误。由于涉及多重
21、检验,因此情况将变得非常复杂。例如,同时对个假设进行检验,分别记为. 如果原假设为真,则令,否则令. 记. , 即分别为 和 中含有的元素的个数。显然有. 对于这个检验结果的分类见表2-1.其中,表示拒绝总数,即个检验中显著性假设的个数,是一个可观测的随机变量;表示个检验中犯第类错误的个数;表示犯第类错误(假阴性)的总数,和均为不可观测的随机变量。在实际的检验过程中我们发现,表2-1中的一些量,例如是不可观测的。在多重假设检验中,为了衡量检验总体的第类错误,我们必须首先要寻找一种比较合理的错误测度,然后进一步研究该错误测度的控制检验方法,以达到尽可能多地发现显著性假设的目的。这里我们主要介绍错
22、误发现率(FDR) 的定义及其衍生出来的各种相关测度。定义2.1:FDR 称为错误发现率(False discovery rate)。1995年,Cahgeton和Peshereg提出了错误发现率的概念。下面是由错误发现率衍生出来的各种相关概念。定义2.2:cFDR(r)称为条件错误发现率(conditional FDR).定义2.3:eFDR(r)称之为经验FDR(empirical FDR).定义2.4:mFDR称之为边缘FDR(marginal FDR).定义2.5:pFDR称之为阳性FDR(positive FDR).定义2.6:FNR称之为假非发现错误率(False non-disc
23、overy rate).定义2.7:pFNR称之为阳性FNR(positive FNR).这些衍生的错误测度与FDR之间的关系可有下列式子表示出:且当时,有和2.2 值的定义、性质和计算方法为了能够直观的得到接受或拒绝原假设的置信程度,我们通常采用值来研究。在多重假设检验的研究中,采用值进行假设检验已经成为国际上比较流行的方法。因此,在研究模型的估计方法之前,有必要先研究下值的定义和性质。定义2.8:设检验统计量为,样本观测值为,对于一族拒绝域统计量的值可以定义为: 在实际的假设检验中,由定义2.8所得到的值,如果, 说明检验结果是显著的;如果, 则说明检验结果非常显著。下面给出值的计算方法和
24、作用,并不加证明的给出值的性质。(1)值的计算方法当为真时,统计量的值可由样本数据计算出,根据检验统计量的实际分布,可以求出值. 具体地讲,就是:1.左侧检验的值是统计量小于样本统计值的概率,即:;2.右侧检验的值是统计量大于样本统计值的概率,即:; 3.当统计量的分布具有对称的性质时(例如正态分布,t分布等),双侧检验的值是统计量落在样本统计值为端点的尾部区域内的概率的2倍,也就是说:当位于分布曲线的右侧时,有当位于分布曲线的左侧时,有(2)值的性质1.如果原假设为真,那么由定义2.8计算出的值满足区间上的平均分布,即;2.如果原假设非真,则值的分布不易确定,但由值的统计意义可知,其分布具有
25、递减的趋势。(3)值的作用在假设检验中,我们先利用样本数据计算出值,然后将值与提前给出的检验水平比较,得出检验的结论:1.如果则在显著水平下接受原假设;2.如果则在显著水平下拒绝原假设。在实际实验过程中,若,则可以适当提高样本的大小,再次进行检验。2.3 独立情形下基于FDR控制的检验方法在多重假设检验中,利用值来研究错误发现率的控制方法有很多。在这一节,我们先研究独立情形下基于FDR控制的检验方法。Benjamini和Hochberg在提出错误发现率的概念的同时,给出了FDR最初的检验方法,记为BH法。BH法:设个假设检验对应的值分别为将他们从小到大排序,得到其中对应于 对于给定的检验水平,
26、令则拒绝对应的原假设。实际上,当时提出的BH法只是用来控制总体的错误测度(FWER)。由下面的定理我们可以发现,如果检验水平已知,那么该方法就可以有效地控制FDR。定理2.1 :【Benjamini and Hochberg (1995)】14如果多重假设检验的统计量所对应的值相互独立,且具有连续的分布,为给定的检验水平,那么BH法控制.受BH法的启示,Benjamini和Liu(1999)提出了一个step-up的错误发现率的检验方法,记为BL1法15。BL1法:取 经过计算可以知道,是单调上升的,即令 则拒绝所对应的零假设。注:在上面的BL1方法中,如果不存在这样的, 那么拒绝所有的原假设
27、。定理2.2 :【Benjamini and Liu(1999a)】如果多重假设检验的统计量所对应的值相互独立,且具有连续的分布,则BL1法控制 其中为提前给定的检验水平。由定理2.2可知,在相互独立的条件下,BH法把FDR的水平控制在 若已知,则可令取代BH法中的检验水平,从而可以更精确地控制FDR在水平内。2.4相依情形下基于FDR控制的检验方法在上一节,我们讨论了独立情形下FDR控制的检验方法,但是在实际的试验过程中,统计量一般会具有着这样或那样的依存关系,从而使得上面研究的控制方法是无效的。因此本节将介绍在统计量对应的值相依的条件下FDR的控制方法。针对多重检验中检验统计量自由分布的情
28、形,我们有下述检验方法,由于该方法是由Benjamini and Liu提出来的,因此叫做BL2法16。BL2法:令, 有, 令,那么拒绝 对应的原假设;若不存在上述条件的, 则拒绝所有原假设。定理2.3 :【Benjamini and Liu(1999b)】上述针对分布自由的检验统计量的BL2法,有.针对多重检验中检验统计量自由分布的情形,还有下述的FDR控制方法,该方法由Benjamini and Yekutieli提出,因此记为BY法。BY法:令 ,则拒绝 所对应的原假设。注:在上述检验方法中,如果不存在这样的,则不拒绝任何原假设。定理2.4:【Benjamini and Yekutie
29、li(2001)】上述对于多重检验自由分布的step-down 的FDR控制方法控制FDR在水平17。2.5 真实零假设的个数或比值的估计通过上文在独立情形和相依情形下基于FDR控制的检验方法的研究,我们可以知道,在多重假设检验中,如果真实零假设的个数或者比值已知,那么就可以根据检验统计量之间相依或者独立的关系,采用上文介绍的检验方法来控制FDR. 然而在实际研究中,或者往往是未知的,因此,最重要的问题就是如何估计的值,或者等价的估计的值。本节就来研究这个问题,我们分两种方法进行具体研究。估计基于值在不同假设条件下的分布差异性,Storey(2002)提出了一种的估计方法,记为估计方法18。若
30、假设同分布,设为个假设所对应的值。对,我们记,那么可由下式估计出: (2-1)由上式可以看出,的取值不同,由(2-1)式所得到的的估计值就不同,且所得到的估计值都比真实值偏大,这是因为,有 ,从而有 ,上式中的表示备择假设下值的密度函数。由值的性质可知,密度函数是渐进递减的,而且显然有. 因此由上式可以看出,当减小时,的误差就会变小,反之则变大。而且由可以看出,当增大时,的方差就会增大,这就造成了估计值的不稳定性。那么如何才能寻找一个合适的,使得估计值达到最优呢?2002年,统计学家Storey提出了一个选取的计算方法:考虑使均方误差 (2-2)最小化的取值。由于上式中的未知,我们可以用取代(
31、2-2)式的,这是因为对,估计值都偏大,于是有其中表示第次对值样本进行抽样后,采用(2-1)式重新计算得到的估计值。从而最优为从而可以得到最优估计由于,因此我们可以考虑采用格点法,即在区间上等距离地抽取有限个值,然后利用(2-1)式计算最小化均方误差19。在对微阵列数据进行研究时,Efron, B. and Tibshirani, R. (2002)20提出可采用经验贝叶斯方法来估计FDR. 令表示不同条件下基因表达无差别的概率,则表示基因表达存在差别的概率。我们采用来表示零假设和备择假设检验下检验统计量的密度函数,对应的分布函数分别为. 则检验统计量的密度函数可以表示为计算后验概率,有如果是
32、已知的,或者已经被估计出来,记为,则由得到不等式从而得到的一个估计式上式也可以改写为其中和为对应的经验分布函数。2.6 本章小结在第一节中,我们介绍了多重假设检验中错误测度的定义,给出了错误发现率的概念;第二节介绍了P值的定义和性质;第三节和第四节分别介绍了检验统计量在独立情形和相依情形下FDR控制的检验方法,第五节介绍了两种真实零假设或比值的估计方法,为后面参数混合模型的估计方法奠定了基础。第3章 参数混合模型和非参数混合模型的估计3.1 引言在实际多重假设检验的研究中,我们往往使用随机的检验。当时,统计量的密度函数记为, 当时,统计量的密度函数与某个未知的参数有关,记为. 这里的. 如果固
33、定,统计量的密度函数就可以表示为 (3-1)与之相对应的值密度函数就可以表示为 (3-2)其中上式中的和分别表示值在零假设和备择假设下的密度函数。显然模型(3-1)和(3-2)是关于的参数混合模型。在模型(3-1)中,参数与均是可辨别的,其中表示冗余参数。同理,在模型(3-2)里面,参数和也是可辨别的。下面分别研究在正态混合分布模型和Beta混合分布模型下的估计方法。3.2 正态分布混合模型为了方便研究,本节我们对模型(3-1)中的密度函数加以条件限制。假设统计量在零假设下服从标准正态分布,即, 那么为标准正态分布密度函数,我们把它记为; 在备择假设下,统计量, 也就是说,是期望为,方差为1的
34、正态分布密度函数,记为。从而随机变量的其密度函数可以表示为 (3-3)在这个模型中,参数是可辨别的,其中是我们要研究的参数,为冗余参数。对于任何一个样本,如果样本容量足够,就可以由样本的前两阶矩得到方程组解这个方程组,得 (3-4)即为参数的矩估计。 我们利用基于值的最小二乘估计来研究参数的估计方法,这里我们只考虑右侧检验。令表示标准正态分布的分布函数,则有,即。于是有,其中表示正态分布的上侧分位点,为检验水平,有。记,则有 上式可以写成 (3-5)我们取,则上式变为再令 (3-6)若已知,对点列作最小二乘估计,可以得到参数的估计值,即由得到参数的估计值 (3-7) 而实际上是未知的,而可以采
35、用矩估计的方法得到它的初始估计值。那么这个算法的步骤如下:算法一:第一步:采用矩估计方法,由(3-4)式得到参数和的估计,即参数和的初值,记为和;第二步:令,带入到(3-6)式中,计算点列;第三步:对点列作最小二乘估计,由(3-7)式得到新的估计值;第四步:利用的最小化方法,求得;第五步:令,重复计算第二步至第四步,直到估计值收敛为止。我们再来利用统计量的拟合方法来研究参数的估计值。定义并记, 其中为给定的检验水平,经过计算得 从而 (3-8) (3-9) 那么,由(3-8)和(3-9)式可以得到 (3-10)其中。从而 (3-10)式可化为与前文类似,令,则有记 (3-11)于是,由可以得到
36、的最小二乘估计值同式(3-7) 。从而这个算法的具体步骤如下:算法二:第一步:由(3-4)式得到参数和的初值和;第二步:令,代入到(3-11) 式中,计算点列;第三步:对点列作最小二乘估计,由(3-7) 式得到的新估计值;第四步:利用的最小化求得;第五步:令,重复计算第二步到第四步到估计值收敛为止。3.3 Beta分布混合模型这一节我们来研究关于值的模型(3-2). 由第二章值的性质,我们可以考虑采用Beta分布来拟合模型,那么关于值的模型(3-2)转化为 (3-12) 其中是参数为的Beta分布的密度函数,其具体表示如下:特别情况下,当时,模型(3-12)就转化为 (3-13) 其中。再来看
37、模型(3-12),我们令表示为Beta分布的分布函数,则有与前面所描述的正态混合模型类似,同样可以采用最小二乘估计。设为检验水平,记,则有令,代入上式中,经过计算得到记则若参数已知,利用点的最小二乘估计方法,可以求得的估计值同式(3-7)。和上节相同,我们仍然采用矩估计方法求得参数的初值。由样本的前三阶矩可以得到下列方程组 (3-14) 解这个方程组,得到的初始矩估计,记为。我们来研究参数的极大似然估计方法。由模型(3-12),其对数似然函数为,上式中的. 关于的偏导数为 这里表示Digmma函数,即,为Gamma函数。从而有 其中同理,有令,则有方程组 (3-15)若已知,则可以由方程组(3
38、-15)求的参数的估计值。与上文相同,我们利用基于值的最小二乘拟合来研究参数的估计方法。定义并记。与上文一致,记, 且。经过计算可得从而有 且有,则有 即 (3-16) 令,记 (3-17) 容易知道,若参数已知,当,(3-16)式的左边可以由来估计,而右边中括号的部分可由来估计。于是我们可以通过最小二乘估计,得到的最小二乘估计式同式(3-7)。类似于3.2节中的算法二,我们可以得到模型(3-12)的的算法如下:第一步:采用矩估计方法,由方程组(3-14)得到参数的估计,即参数的初值,记为;第二步:令,代入到(3-17)式中计算点列,;第三步:对于点列,由(3-7)式得到的最小二乘估计值;第四
39、步:由,解方程组(3-15),得到参数的新估计值,记为;第五步:令,重复计算第二步到第四步直至估计值收敛为止。考虑到后验概率,我们有如下EM算法:第一步:采用矩估计方法,由方程组(3-14)得到参数的估计,即参数的初值,记为;第二步(E步):计算 (3-18) 且有第三步(M步):解方程组(3-15) ,得到的新估计值,从而由(3-18) 式得到的新估计值第四步:重复第一步到第三步致参数值收敛。3.4 非参数混合模型的估计在第二节和第三节中,我们介绍了参数混合模型,并分别研究了两种混合模型下的估计方法。设统计量在零假设和备择假设下下的密度函数分别为为和. 本节将这个模型推广到非参数的情形 (3
40、-19) 或等价考虑其值密度函数 (3-20) 其中和分别表示值在零假设和备择假设下的密度函数。可以证明在这个没有条件限制的混合模型中,参数或是不可辨别的。事实上,如果存在,满足对任意的,有上式可化为当时,若,取由上式可以发现,参数与参数显然是不同的,所以说模型(3-19)中的参数是无法识别的。同理可证模型(3-20)中的参数也是不可辨别的。由此可以看出,在研究模型(3-19)时,为了使参数是可辨别的,需要加以某些限制条件。本节就对统计量的观测值和值的分布情况加以限制进行研究。在研究非参数混合模型时,我们仍然考虑随机的检验。与Beta分布混合模型(3-12)作对比,我们不难发现,模型(3-20
41、)为模型(3-12)的非参数推广形式。因此,我们可以将Beta分布混合模型(3-12)的方法推广到非参数模型(3-20)上来。类似于第二节那样,定义并记。令表示服从0-1分布的随机变量,表示零假设成立,表示零假设不成立。记,。经过计算得 从而有 并且知道,。于是有 即有 (3-21)令,记 (3-22) 若函数是已知的,当时,式(3-21)的左边可以由来估计,而右边中括号里面的部分可以由来估计。于是对点列作最小二乘拟合,即得到的最小二乘估计同式(3-7).而在实际研究过程中,密度函数往往是未知的,那么点列也是未知的,因此我们需要先估计出密度函数. 如果是带有两个参数的分布密度函数,记为,则这个
42、模型就转化为参数混合模型(3-12),具体的估计方法见章节3.2.统计学家Parker and Rothenberg(1988)指出,区间上的任何概率分布都可由21。因此,统计学家Allison等人提出了利用Beta值的密度函数22。如果值的密度函数可以由个Beta分布来拟合,那么它的密度函数可以表示为: (3-23)这里的表示参数为的Beta分布的密度函数,即其中为Beta函数。易知在模型(3-23)中,参数满足下列条件:再来看模型(3-20),即Tang,Ghosal and Roy(2007)23提出,在模型的非参数部分采用Beta分布的混合模型: (3-24)上式中的为参数的联合分布函
43、数。从而基于值的密度函数的模型(3-20)就可以写成 (3-25)下面我们来研究分析模型(3-25). 容易知道,当参数的联合分布函数为离散分布且质量集中在个点组成的集合上时,模型(3-25)就和有限混合模型(3-23)是相同的。因此可以说模型(3-23)是非参数模型(3-25)的一种特殊情形。在多重假设检验的研究中,由值的性质可知,其密度函数在区间上递减的,且由Beta分布函数的性质,我们可以将参数的联合分布函数的支撑包含在集合中。考虑边界的特殊情形,当时,的密度函数满足,从而使得,这就导致了参数不可辨别。因此只考虑,即限制参数,的支撑包含在集合中的情况24。本节将考虑值的非参数混合模型(3
44、-20),记. 由前文可知,这个模型是不可辨别的。为了使之可以辨别,须假定. 进一步地讲,假设密度函数在区间上连续且有,则函数在区间上连续且有, 在这样的前提条件下,如果值的概率密度可以被估计,记为,那么就是的估计。由上面的讨论可知,只要我们能够估计出值的概率密度函数,那么的估计问题就迎刃而解。在研究密度函数的估计方法时,我们需要考虑边界效应。由维尔斯特拉斯逼近定理可知,闭区间上的连续函数都可以由Beinstein多项式来逼近,因此值的密度函数可以由Beinstein多项式逼近的方法来估计。令表示参数为和的二项分布律:的阶Beinstein展开式为从而得到的第阶估计为其中为密度估计,满足上式中
45、的为基于样本值的经验分布函数。选取适当的,则的估计值为 (3-26) 当时,对于较大的和,有. 因此,当成立时,为的合适的估计。当时,这个估计可望有较小的方差25。 3.5 本章小结本章主要对参数混合模型和非参数混合模型做了详细的研究分析。在对参数混合模型进行研究时,考虑随机化检验,分别对正态分布混合模型和Beta混合分布模型给出了的计算方法。针对两种不同的分布模型,我们均采用矩估计的方法给出迭代算法的初值,然后采用基于值的最小二乘估计得到迭代点列,并利用最小化方法作迭代算法,得到的估计值。在第四节,我们将参数混合模型推广到非参数的情形,并分别对最小二乘估计方法、Beta分布拟合模型、Bein
46、stein多项式拟合模型进行了研究讨论,得出了相应的算法。第4章 错误发现率的估计方法的应用4.1 引言随着科学技术的不断发展,在实际的统计研究过程中,出现了越来越多的大型数据集合问题。在研究巨型数据的高维统计推断问题时,以错误发现率为主要特征的非参数估计方法为其提供了一个有效地解决途径。在微阵列数据研究中,往往需要同时对数以千计的基因数据进行检验,因此就涉及多重检验的问题,由此产生的多重性问题,我们采用控制错误发现率(FDR)的方法对微阵列数据进行研究。例如在研究基因表达的差异性试验中,假设我们挑选了个差异表达的基因,其中有个是真正有差异表达的,另外有个其实是没有差异表达的,也就是说是假阳性
47、的。在试验中我们希望错误比例不能超过某个预先设定的值(比如),在统计学意义上,这就等价于控制FDR不能超过.4.2 微阵列数据实例研究在研究诸如基因表达的大规模数据时,我们令表示检测的基因个数,表示样本容量,全体基因表达数据就构成了一个的数据矩阵. 通常情况下有。由于基因的个数非常大,在对个假设同时进行检验时,就需要考虑检验的整体错误率,这里我们主要关注检验中错误发现率(FDR)的考察。我们以Hedenfalk等(2001)报告的一组乳腺癌患者的基因数据为例进行研究。该数据集为15例乳腺癌患者的5361个基因,包含了两种不同的基因突变26。表4-1给出了Hedenfalk的乳腺癌微阵列数据集,
48、这里(Hedenfalk数据中的有效数据),.设次多重假设检验的零假设分别为. 这里,对应的统计量和值分别记为,其中值的数据集由R软件包中获取。与第二章的符号一致,假设检验的各种结果见表4-2.在假设检验中,普遍的做法是用总体错误率(FWER)来作为检验错误率的控制指标,然而在微阵列数据的研究中,FWER控制就显得太严格和保守。我们研究的首要问题是能否尽可能多地识别出差异表达的基因,因此我们采用FDR的控制方法来进行估计。假设给定的检验水平为,由定理2.1可知,BH方法控制FDR的水平为, 其中.对数据作对数变换,其中表示患者的基因表达水平,则对应的检验统计量为:上式中的分别表示两种基因突变患
49、者的第i个基因的样本均值(即平均表达水平),表示对应的样本方差,. 在样本容量较大的情况下,由上式计算出的统计量服从自由度为的分布,其中但由于在该数据集中,样本容量和比较小,为了方便研究,需要得到样本容量较大的统计量,进而研究统计量的分布情况和值,我们考虑采用置换检验的方法进行研究。根据置换检验的原理,如果原假设为真,采用置换检验的方法就可以得到适合多重检验的统计量,从而可以得到统计量的精确分布。过程如下:(1) 引入向量,其取值由1到15,对进行无放回抽样,就可以得到一个置换样本,记得到的重抽样样本为,具体结果见表4-3;(2) 对每一个样本,计算统计量;(3) 对前两步重复1000次,得到
50、;(4) 对应的(图4-1)的计算方法为:。按照给定的检验标准,在原始的3170个中(P值由R软件包获取),有个,在传统的总体错误率(FWER)研究中,就算我们假设这些基因都是没有差别的,但由式可知,仍可以得到158.5个平均意义下的错误拒绝,因此需要控制检验的多重性,这里我们采用2.3节中的BH法对错误发现率(FDR)进行控制研究。由R统计软件得到样本的P值后,将其进行排序,并利用BH方法得到, 这里的, 因此由可知,采用BH法对FDR的控制存在3.8个错误拒绝,远小于总体错误率(FWER)控制方法所得到的错误拒绝数,从而说明FDR的控制方法比总体错误率(FWER)控制方法有效,即更少地发现
51、错误拒绝27。4.3 本章小结本章以Hedenfalk的乳腺癌微阵列数据作为实例,采用置换方法对错误发现率的方法进行了研究,发现错误发现率(FDR)的控制方法所得到的错误拒绝个数远小于总体错误率(FWER)控制方法的错误拒绝数,从而说明FDR的控制方法比总体错误率(FWER)控制方法有效。结 论本文主要研究考察了错误发现率的在各种参数模型和非参数模型下的控制检验方法,在多重假设检验的背景下,我们给出了错误发现率的定义,提出利用p值进行假设检验,并在假设检验独立和相依的情形下对错误发现率的控制方法进行了探讨。在研究错误发现率的控制方法时我们发现,在处理多重假设检验问题时,最核心的问题是如何估计真
52、实零假设的个数,因此本文采用经验贝叶斯估计来估计它的值。针对正态混合分布模型和Beta混合分布模型两种参数混合模型,本文采用矩估计方法和基于p值的最小二乘估计方法进行研究;在研究非参数混合模型时,分别介绍了最小二乘估计方法、Beta分布拟合模型和Beinstein多项式拟合模型的方法。文章的最后以Hedenfalk报告的一组乳腺癌患者的基因数据为例进行仿真研究,发现与总体错误率(FWER)的控制方法相比较,错误发现率(FDR)的控制方法更加有效,即更少的发现错误拒绝。随着信息社会的不断发展和进步,大规模的数据研究已经成为现今统计学的一个重点课题。错误发现率的控制方法的确可以很好地控制整体检验的错误率,但是随着数据变得越来越复杂,大规模数据之间就会存在这样或那样的相依关系,这就使得研究变得相当困难。伴随着医学的飞速
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年发动机试车台合作协议书
- 2025年雕刻雕铣设备控制系统合作协议书
- 商业消防设施检测与维护合同
- 民用建筑工程质量检测协议
- 日用百货采购与存储协议
- 2025年软胶囊剂机械项目建议书
- 会场租赁协议与会展场地租赁协议
- 展示职业背景与经验工作证明(6篇)
- 外包服务公司承揽协议
- 行政管理公文出题规律试题及答案
- 2022年辽宁省沈阳市沈河区中考数学一模试卷(解析版)
- 《试种一粒籽》第1课时公开课教学课件【部编人教版二年级道德与法治下册】
- GB/T 7193-2008不饱和聚酯树脂试验方法
- GB/T 26572-2011电子电气产品中限用物质的限量要求
- GB/T 18601-2001天然花岗石建筑板材
- GB/T 16920-2015玻璃平均线热膨胀系数的测定
- GB/T 12008.2-2010塑料聚醚多元醇第2部分:规格
- 零星工程结算审定单
- 高三一轮复习生物:第8单元 植物生命活动调节思维导图
- 第五章-语言规划与语言调查课件
- 2023年海南省财金集团有限公司招聘笔试模拟试题及答案解析
评论
0/150
提交评论