ancova(协方差分析)非参数和随机方法.doc

上传人：s*** IP属地：河南上传时间：2020-04-13 格式：DOC 页数：18 大小：1.76MB 积分：20 举报 版权申诉

已阅读5页，还剩13页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第7章ANCOVA（协方差分析）：非参数和随机方法Peter S. PetraitisSteven J. BeaupreArthur E. Dunham7.1生态学问题生态学参数往往不能满足参数假定的要求。当这种情况发生时，随机方法是更常用的参数方法，比如协方差分析（ANCOVA）和回归分析的一个很好的替代选择。使用随机方法很简单，并且由于标准参数ANCOVA为生态学家所熟知，我们用它来激发对非参数和随机方法的优点和存在问题的讨论。我们通过对检验随机和非参数方法分析性别和生境影响响尾蛇种群的个体大小来进行讨论，年龄在这里被作为一个混淆（confounding）因素考虑。个体大小的变异常见于许多动物中（即, 无脊椎动物: Paine 1976; Lynch1977; Sebens 1982; Holomuzki 1989; 两栖动物: Nevo 1973; Berven1982；Bruce和Hairson 1990; 有鳞的爬行动物：Tinkle 1972；Dunham 1982; Schwaner 1985; Dunham等1989; 哺乳动物：Boyce 1978；Melton 1982; Ralls和Harvey 1985）, 并且由于其与许多繁殖特征, 比如成熟年龄，子代个体的数量和大小，和亲代对子代的投入, 有协变关系，从而引起进化生态学家的极大兴趣，（Stearns 1992; Roff 180, 1992）。对个体大小变异的解释包括资源的季节性，质量和可利用性（如，Case 1978; Palmer 1984; Schwaner和Sarre 1988）, 基于个体大小的捕食性（Paine 1976）, 种群密度（Sigurjonsdottir 1984）, 特性替代（Huey和Pianka 1974; Huey 等 1974）和生长速率的渐变变异（Roff 1980）。然而个体大小的地理变异可能常由于个体大小决定的生长速率和种群年龄结构的相互作用所致。比如，King（1989）建议种群不同的年龄结构是水蛇（Nerodia sipedon insularm）个体大小变异的一个重要方面。因此，懂得个体大小时间和地理格局和最终生长率需要对动物年龄的了解和修正以便同龄动物间的比较。爬行动物的生长和性别个体二态性的格局传统上是利用非线性生长模型技术来分析的（Andrews 1982；Stamps1995）。对非线性模型精确的拟合需要大量的观察样本，这些样本要求很好地分布在所有体态大小范围内，这在野外研究中常是难以实现的要求（第10章）。此外，由于每一条线都有不同的模型拟合，最佳拟合模型形式（如，von Bertalanffy比之于用长度，或其它, 拟合的逻辑斯蒂模型）会发生变化，而比较工作复杂化。同样的，当拟合参数在几个组间进行比较时，第I类错误的概率增加，就如同多元成对t检验的情形。对于多组小到中等用于比较的数据集，用年龄作协变量的ANCOVA看来对于比较多组个体大小是最佳替代方法。然而个体大小和年龄的野外数据常常杂乱。分析常需对一个或多个协变量进行校正，拟合模型的残值也很少符合独立，同正态分布的假定（Sokal和Rohlf 1995; Zar 1996）。传统的基于秩(rank)或其它随机类型检验的非参数统计能为参数分析提供好的替代选择。参数分析假定误差呈正态分布，该假定在基于秩或其它随机类型检验的非参数检验中被放松。另一方面，参数过程，随机过程，和基于秩的非参数检验都要求误差独立同分布。随机方法和传统的非参数检验对方差的非奇性(heterogeneity-异质性)敏感，并常有这样的误解:方差的非奇性问题可以通过使用非参数检验来解决(Hayes 1996)。典型的非参数检验用原始数据的秩；零假设要求秩在处理水平上是随机分配的。对于小样本，由于所有可能的排列都能列出，因而可以计算出观测秩排列的准确概率。因此，一个常规的非参数检验是对原始观测数据秩的随机检验。对于大样本，计算大多数常用非参数检验的显著水平是通过2分布来估计。检验统计量的2分布判定是以假定每个处理水平的取样秩数据之间区别只在分布位置（如，均值和中值）为基础做出的，且假定基本分布形态相同（即所有其它分布动差方差，偏斜度等都相同）。这些关于非参数检验的假定常常不能满足，并且，生态学家常常假定这样的检验是不要求数据有任何分布的。其它类型的随机检验是以重洗原始数据排列为基础的（第14章）。这些检验也要求关于总体分布的假定。人们常混淆哪些过程构成随机检验和哪些过程构成置换排列(permutation)检验。Kempthorne和Doerfler（1969）利用“置换排列”(permutation)这个词来称呼那些以数据所有可能的顺序为基础的检验。随机检验一般只用在所有可能排列中一个随机选取的子集。在严格意义上，常规非参数检验就是置换排列检验。下一部分，我们探讨用参数，非参数和随机方法解决常用ANCOVA解决的问题时的优点和缺点。我们利用斑纹石响尾蛇（Crotalus lepidus）的个体大小在性别和地理上差别的数据来说明这个问题。蛇的性别二态性的数据很少。Beaupre(1995)研究了在德克萨斯两个地点的斑纹石响尾蛇的性别二态性问题。在调整了年龄参数以后，他发现在两个地点，雌性个体都明显小于雄性个体，并且低海拔的蛇的个体大小明显小于高海拔较的蛇(Beaupre 1995)。他还发现性别和海拔的相互作用。他用非参数方法是因为他发现了与正态分布的显著偏差。7.2统计学问题7.2.1 数据标记-重捕法观察得到的雄性和雌性响尾蛇年龄和大小的数据序列来自于6年来收集的德克萨斯州Big Bend 国家公园不同海拔的两个种群。我们的数据和Beaupre（1995）使用的数据不完全一致，我们的数据包括 87个雄性和雌性个体，其中重捕的33个。Beaupre（1995）有99个雌雄个体，其中重捕的31个。对数据更详细的描述可见Beaupre（1995）。每个捕到的蛇的相对年龄根据蛇尾鸣响部分形态估算（即用鸣响节段的数目调整为蜕皮频数; 见Beaupre 1995），并且，头体长度（SVL）用来估计个体大小。有四个变量分别是生境（Boquillas和Grapevine Hill），性别，相对年龄和个体大小（SVL）。生境和性别为固定影响，年龄为协变量。生境作为固定影响是因为我们对这两个特殊地点不同海拔对微气候的影响感兴趣（Dunham et al. 1989）。7.2.2 常规协方差分析对于主要影响（此例中，性别，生境）和他们之间相互作用的显著性可由双因子ANCOVA检验，个体大小作为因变量，年龄作为协变量。在用ANCOVA前，进行对斜率奇性(homogeneity-同质性)假定的检验。这是个体大小对年龄在处理水平上的线性依赖的相似性检验。如果达到了斜率奇性的标准，ANCOVA过程有效。ANCOVA在数据对模型假定小有违反时的稳健性众所周知，尤其在对固定因子显著性的检验。在多数情况下，ANCOVA是喜用的参数方法。然而，严重违反假定常见于野外捕获的动物数据中。首先，因变量, 个体大小, 可能不符合参数统计的假定。爬行动物种群中个体大小分布常呈很高的偏峰态。并且，雌雄个体大小的分布方差可有很大差异（如Beaupre et al. 1998）。因此，误差极不可能符合参数分析的要求呈正态分布。第二，协变量每条蛇的年龄并不准确，然而采用ANCOVA，就像其它回归模型I方法一样, 假定协变量量测误差很小。对于野外捕获动物的年龄估计，即使在最好的条件下，也是有问题的。在多数情况下，生态学家采用年龄的替代，并假设它与年龄成线性，或至少是单调的关系。回归模型I，甚至当自变量（或在ANCOVA中的协变量）有量测误差时也可以使用，只要自变量误差分布大大窄于因变量的误差分布(LaBarbara 1989)。这是常有的，然而野外捕获的动物的年龄的估计可能与个体大小的不确定性相当或更大，因此，我们予期年龄的测量误差比个体大小的测量误差更大。第三，有野外捕获动物的析因(factorial)设计极少平衡。在每一点，几乎不可能捕获到相同数量的雄性和雌性个体。非平衡的ANOVA和ANCOVA对方差非奇性很敏感，这在比较雄性和雌性时可能是个问题。实验生态学家常试图修正这些难题，这包括修正参数模型本身的假定。最常用的方法是转换因变量使误差方差奇性并将类型III平方和用于非平衡设计。大多数人希望协变量的误差分布变得足够窄。一些例子中，为减低方差，协变量自身被错误转换；然而，这种协变量的转换应该只在有线性关系时应用。尽管它修正了一个问题，转换因变量却能产生另一个问题。比如，个体大小可能通过转换，减小不同处理水平上的误差方差的非奇性，但转换可能使误差呈非正态分布。转换也会改变自变量和因变量的关系。个体大小的对数转换可减小误差非奇性，使误差分布正态，但转换使模型的累加效应变为乘数效应。这可能是个严重问题，特别是当生态学家在实验中用ANOVA和ANCOVA检验相互作用来推论非累加生态效应，如高阶相互作用时（Wootton 1994）。非平衡设计的难点可以通过剔除数据的方法得以解决。平衡设计降低非奇性方差的影响。然而，多数生态学家不喜欢放弃辛苦得到的数据。放弃数据的一个潜在缺陷是缩减了的数据可能导致统计效力的显著丧失。通过剔除数据得到的平衡设计的优点极少会超过缺点。7.2.3 非参数方法有两种非参数协方差分析的一般方法。第一种方法称作“配对”, 包括将数据限制于与协变量值匹配的数据对和产生基于数据对之差的转换数据（Quade 1982）。配对方法在判定由哪些数据值构成配对子集时存有某种随意性，并且显然，它还没有超出单元分析。第二种由Shirley(1981)正规化的方法，是一种基于因变量秩化的非参数ANCOVA方法。Shirley的方法是在Benette(1968)工作的基础上完成的，Benette开发了对秩化后数据的一般线性假设的非参数检验。对双因子ANOVA，Bennett检验最熟悉的例子是Scheirer-Ray-Hare检验（Scheirer et al. 1976），这是Kruskal-Wallis检验的扩展。秩化后数据的常规非参数检验对数据的正态分布假定是不严格的。还没有多少人认识到类似Kruskal-Wallis检验的非参数检验当比较中的各组在尺度（如，方差）或形状不同时，可能不会发现位置间的真正差异（如，不同组均秩间的差异）(Lehmann 1975)。极端例子中，协变量也可能需要秩化（Shirley 1981)。除了将秩化观测数据用于因变量，非参数ANCOVA与其它ANCOVA没什么两样。如同往常，数值相同的观测数据被赋予所占秩距的平均秩值。与标准ANCOVA（第五章）一样，使用两个模型：（1）包括协变量和处理影响相互作用的完整模型，用于斜率奇性检验（在SAS中成为斜率奇性模式，见公式5.2）和(2)不包括上述相互作用的模型，用于检验这种调整后的平均数（SAS中称协方差分析模型，见公式5.3）。固定影响模型检验统计量由适当主要效应或相互作用效应的平方和除以总均方得到（即，总平方和SS除以总自由度）。检验值与临界值进行比较，该临界值来自于给定水平和所考虑影响因素自由度的2分布。基于以中心极限定理应用于秩化数据的假定，用2分布判断显著性水平给出理论近似值（Lehmann 1975）。而这个假定仅当样本很大，且几乎没有具相同秩值的数据时才安全。描述了调整后均秩追溯比较过程见Shirley（1981，1987）。检验统计量服从2分布而不是F分布，因为参数方差已知是来自秩化数据（Mood和Graybill 1963; Lehmann 1975; Sokal和Rohlf 1995）。参数方差的公式是N(N+1)/12, 其中N是实验观察总数。如果没有同秩值数据，秩化数据ANCOVA的总SS除以总自由度等于参数方差（见Sokal and Rohlf 1995对Scheirer-Ray-Hare检验的讨论）。如果有同秩值数据，参数方差一定要修正；修正后的参数方差是N(N+1)/12-C，其中，C=(ti3-ti)/12(N-1)，其中i是指从1到s的所有数，s是同秩值数据的组数，ti是第i同秩值数据组的同秩数据数目。总SS/总dfN(N+1)/12-C。注意：C与Sokal and Rohlf （1995, box 13.6）的修正值D不同，但显然，DN(N+1)/12N(N+1)/12-C。这两个公式的结果一致。7.2.4 随机方法随机检验是对观察结果多次随机化并重新计算适当检验统计量，从而产生所有可能结果的分布。如果所有可能结果可数，随机检验就是一个排列检验。假设检验可从以观察数据所计算出分布的概率直接估计（Manly 1997）。如果数据符合参数模型的假定，参数检验和随机检验的结果是渐进等式。其他随机检验的例子见14，16章。用于随机检验的统计量不必需是类似t或F统计量的常规统计量（Manly 1997），例如，在ANOVA和ANCOVA中，处理均方，或平方和可能与F统计量一样适用。在单元ANOVA中，F统计量的分布和以随机化后的平方和之间有一个常量差。但在更复杂的设计中这是不对的。Edgington（1995）倾向于采用平方和，而Manly（1997）喜欢用F比值，因为他所进行的模拟显示基于平方和的随机化倾向于低效力。我们下面要表明的是平方和和F比值常给出不同的结果，因为他们检验不同的假设。这不是简单效力差异的问题了。一个比选择统计量更难的问题是如何随机化观察数据。依零假设的不同，有两个不同的析因设计方法（Manly 1997）。一方面，假设关于由于性别和生境不同形成差异的零假设是以一个假定为基础的，该假定是：对于任何性别生境组合，对任何一条蛇个体大小的观察都是从一个种群中得到的。若该假定为真，我们期望任何观测都取自于性别生境的任意组合，因而对观测数据的随机化可在所有单元进行。这种方法为Manly（1997）所倡导，因为计算简便，而且其模拟结果显示与方法二相似。另一方面，我们假定性别和生境应该受到独立检验。因此，我们控制生境不变检验雌雄个体大小的差异。在每个生境的两个性别中随机取观测值，但是生境不混淆。这种方法称作限制随机化，由Edgington（1995）提倡。可以用两种方法对残值而不是对原始数据随机化。Ter Braak（1992）建议计算整个模型所有观测值的残值并将其随机化。在我们的例子中，体重残值将依性别，生境，性别生境相互作用和协变量年龄的影响进行整理。完全或有限随机方法都可以用。Still和Write（1981）建议可以采用综合方法：用完全随机化检验主要效应，而相互作用影响用Ter Braak的方法检验，即将全部主因子模型残值随机化的方法。7.3统计精度：多种方法比较7.3.1 参数协方差回到德克萨斯州两个生境得到的雌雄响尾蛇的SVL（头体长度）数据，协变量是年龄，是从响尾蛇的鸣响节数估计而来，零假设如下：1. 调整过的个体大小（即依鸣响节数调整的SVL）不依性别，生境的差异而存在差异，和2. 没有性别生境相互作用, 性别和生境被认为是固定影响。全部数据包括87个观测值，其中33个是重捕得到的，所以为了避免非独立性，每个动物的数据在分析中只用一次。对每一个体的单独观测值在全部数据中随机抽取。这给出一个54条响尾蛇的非平衡设计。（图7.1）初步的研究分析表明不同生境具显著的坡度异质性（表7.1）. ANCOVA显示性别，生境，年龄的显著影响。性别，生境间没有发现有相互作用。这些结果由于一些原因必须看作是偶然现象。首先，斜率非奇性违反ANCOVA的假定，并隐示两个不同生境-Boquillas和Grapevine Hill-间的个体大小差异依赖于蛇的年龄。第二，协变量，鸣响节段的数目作为年龄的替代，可能存在很大误差。第三，残值表现出一些方差非奇性和非正态性的迹象。随着SVL的增加，残值图表现出系统性增长（图7.2A），表明方差非奇性。对残值方差非奇性的检验不显著（Levenes 检验，P=0.201；Bartlettts 检验，P=0.087），但缺乏显著性可能是由于检验的低效力。更重要的是残值分布相对于协变量的值呈峰状（图7.2B），说明残值不符合正态假设。SVL的log10转换也没有改善残值图的形状。这些观察表明数据不符合参数ANCOVA的假定，显然，有必要采用另一种方法分析这些数据。7.3.2 非参数协方差我们重复了Beaupres（1995）的分析，并应用Shirley的技术对秩化SVL序列进行非参数ANCOVA。首先，我们注意到有3组同秩值数据，每个同秩值数据有两个观测值。参数方差的修正值等于0.028（见表7.2）。显然，修正值非常小，对于分析结果几乎没有影响，同秩值数据的重要性在同秩值数据的数目多和小样本时加大。非参数分析检验出不同组的斜率非奇性（表7.2）。ANCOVA揭示了年龄和性别的显著影响。并没有检测到生境的影响。生境性别间没有相互作用（表7.2）。值得注意的是，Beaupre（1995）用Shirley的方法进行的原始分析（Beaupre 1995）检测到年龄，生境，性别，生境性别的相互作用的显著影响。结果的差异最有可能是因为用了原数据的两个不同的再抽样数据；我们没有用与Beaupre（1995）用过的相同数据。这样，差异问题还是没有解决，还提出这样一个问题：我们和Beaupre（1995）采用的数据子集是否对种群整体具有代表性。我们将在本章后面说明怎样采用随机过程来解决这个问题。图7.1以性别和生境不同划分的几组响尾蛇头体长和年龄的关系，括号中的值指取样的大小表7.1 斜率均匀性和协方差分析的检验结果。检验dfSSMSFP斜率同质性年龄性别113.0713.070.770.384年龄生境1109.79109.796.480.014年龄性别生境10.010.010.010.989误差46779.4616.94协方差分析性别1218.13218.1311.530.001生境187.6187.614.630.036性别生境148.9848.982.590.114年龄12101.082101.08111.060.001误差49927.0118.19图7.2 参数协方差分析的残差点分布图，上面的图表（A）明随头体长的增加，模型残差的变异发生系统性改变。下图（B）显示，超过协变量的值的残差分析呈现清晰的非正态分布。表7.2 头体长序列的非参数协方差分析的结果a。检验dfSSMSbx2Pc斜率同质性年龄性别172.7972.790.2940.588年龄生境1293.4293.411.1860.276年龄性别生境020.961误差5313116247.47协方差分析性别11070.211070.214.3250.038生境1525.62525.622.1240.145生境T性别195.8695.860.3870.534年龄14852.344852.3419.6080.001总计5313116247.47a Test的值等于一个影响因子的标准差除以总的MS。比如检验年龄的性别相互作用的共同影响的异质性，就是72.79/247.47=0.294.b总的MS等于未经修正的参数方差减去修正值。未经修正的参数方差等于N(N+1)/1254(55)/12=247.500。有三种双向的关联，所以C=18/12(54-1)=0.028。因此。247.50.028247.475，就是总的MS。c概率水平在SAS中用PROBCHI函数计算（如P1PROBCHI（0.294，1）得到P0.587。7.3.3 随机检验随机化检验在SAS软件中十分容易执行。完整的SAS程序可以使随机检验一次运行完成（也见第14章），但为了阐述清楚，我们把这个分析过程分成四个不同步骤。首先，执行常规分析以获得检验统计量的观测值。表7.1给出了常规ANCOVA的SS值和F-比值用于以年龄为协变量时响尾蛇头体长检验和斜率齐性检验。其次，数据必须被多次随机化并存储成SAS软件能识别的格式。第三，使用随机数据集，多次运行合适的SAS程序 (在这里，用GLM程序)。最后，总结多次的迭代过程。如何写SAS代码请看附录和网站http:/www. /sc/0195131878/。第二步的数据随机化可以有多种实现方式。我们将观测值随机分配到4个生境性别单元中，这是在使设计保持与原始数据集一样的不平衡态条件下进行的。许多程序语言都可以非常快速地生成成千上万的随机数据集。随机数据集也能在SAS中创建，但比用BASIC或其它程序语言创建并导入到SAS中速度慢。在网站上，我们展示了一个在SAS中实现随机化的方法，它容易编写和理解，但完全在SAS内执行随机化最大的问题是大数据文件的排序。在整个排序过程中，程序SORT操作两个完整的文件，如果数据文件巨大和整个分析是在个人计算机上执行，非常容易超出内存限制。更详细的看网站。斜率的齐性检验，协变量检验和性别与生境的影响检验，分别做不同的随机化。当调整年龄时, 我们关注检验不同处理水平的性别，生境以及生境x性别相互作用对体长（SVL）的影响。这里我们保留每个蛇观测到的年龄和对应的头体长，但我们随机分配蛇到不同的处理中。我们这样做是因为我们假定每个蛇都具有其独特的头体长和年龄组合，这是一组感兴趣的单位。检验性别、生境、生境性别相互作用因而控制年龄效应恒定。相反，对协变量和斜率的齐性检验, 我们对头体长将年龄随机化, 而不是根据处理的类别随机化头体长。这种有限制的随机化检验了当性别和生境恒定时年龄对头体长没有影响这一假设。对不同的性别和生境性别，斜率的齐性检验是不显著的，但在不同的生境间该检验是显著的（表7.3）。F-比值随机化的概率倾向于吻合参数分析的概率，而SS随机化的概率总是比较高。所以，对不同生境间的斜率进行的检验，根据SS随机化就是齐性的，而根据F-比值随机化就是非齐性的。参数和随机化ANCOVA对性别的影响（总是显著）和对生境性别相互作用的影响（总不显著）给出相似的结果，但对生境的影响则得出不同的结果（表7.3）。当P10，000），F-比值和SS随机化过程将会不同，但是即然迭代1000次时的概率水平即是如此的小, 所以这样做并没有太大的优势。表7.3 参数、非参数和随机化分析的概率水平a随机化参数非参数FSS斜率同质性年龄性别0.3840.59 0.3380.607 年龄生境0.0140.28 0.0060.112 年龄性别生境0.9890.96 0.9890.992协方差分析性别0.0010.04 0.0010.002 生境0.0360.15 0.0380.063 性别生境0.1140.53 0.1290.192 年龄0.0010.0010.0010.001a 随机化检验概率是基于1000次迭代加上原观测值(见表7.1)图7.3检验生境影响的F-比值分布和误差均方，数据为1000次随机采样。参数分析中的误差均方观测值（18.19）远低于所有的1000次随机化。图7.4检测生境影响的处理均方对误差均方，数据为1000次随机采样。线SS= 87.61,F=4.63, P=0.036，P为参数协方差分析的显著度水平（见表7.1）基于掌握的数据和F值的分布，我们的结论是：以年龄为基准，不同生境间和不同性别间头体长有显著的差异。这一结论与Beaupre(1995)相似，尽管我们没有向他们一样探测到显著的生境性别之间的相互作用。7.3.4 F和SS随机化过程之间差异的原因F-比值和SS随机化差异的原因在于析因设计(factorial design)，他们检验轻微不同的假设。SS随机化作为检验统计量检验一个因子的影响（例如生境）而忽略所有其它因子的贡献（例如，性别和生境性别的相互作用）。相反， F-比值作为一个检验统计量在分割了所有其它因子的影响时检验生境的影响。用对一个集合体的部分和全部度量做比喻可以很容易地表述二者之间的差异(Maxwell et al. 1981; Petraitis 1998)。作为一种检验统计量，SS与2相关，Friedman(1968)建议2作为结合强度的一个测度（例如，解释的变异比例；见Petraitis 1998）。2估计等于SSTreatment/SSTotal，它反映了处理效应相对于总方差的强度（Maxwell et al. 1981）。既然SSTotal恒定，实质上，任何处理的SS随机化完全等同于对2所作的检验。相反，F-比值与部分度量2Patial有关，它测度相对于误差变异的处理效应（Maxwell et al. 1981）。2Patial估计等于SSTreatment/(SSTreatment+SSError)。根据双因素方差分析的F-比值，2Patial等于(dfTreatment)F/(dfTreatmentF+dfError)，dfTreatment和dfError分别是处理效应和误差的自由度。图7.4显示处理和误差的平方和如何共变产生F-比值和SS随机化的差异。选择SS还是F-比值完全依赖于你希望检验什么。如果你希望检验处理的影响而不管实验设计中的其它因子，你可以使用SS。如果你希望保持其它因子影响恒定，可以使用F-比值。例如，对斜率齐性的检验，SS检验等同于简单回归系数检验，F-比值检验等同于偏回归系数检验（表7.3）。仅在复杂的设计中，SS和F-比值随机化的结果会有差异；在单因素ANOVAs中，这两个统计检验得出完全一致的结果。关于F-比值作为一个检验统计量使用时，另一个需要关注的是误差均方估计。随机化的误差均方估计倾向远大于原参数分析的误差均方估计。在我们的随机化过程中，误差均方的分布不包括参数分析的误差均方（图7.3）。其结果是当误差均方估计值大，F-比值就比较小。在复杂的实验设计中，随机化不仅改变了处理的SS值（例如，SSSite）而且也改变了其它SS值（例如SSSex 和 SSSiteSex），这就造成宽泛的误差均方分布。回顾一下生境的影响，F = (49)SSSite /SSError = (49)SSSite/(SSTotal-SSSite-SSSex-SSSiteSex)。随机化过程打破了观察资料的正确分配，所以倾向于降低所有处理的SS值（例如，SSSite, SSSex,和SSSiteSex）。既然总平方和是恒定的，误差均方估计随着其它平方和的下降而增加。限制随机化已被建议作为解决此问题的方法（Manly 1997），但解决并不彻底。例如，在对生境影响的限制随机化中，因为随机化,SSSite将变化，同样因为限制,SSSex将保持恒定。然而，相互作用的平方和却仍然变化因为随着每次随机化生境和性别之间的相互作用都改变，因而误差均方估计一直是大和不稳定的。我们不清楚在复杂的实验设计中和当数据的误差不是正态分布时，误差均方是如何变化的。此外，考虑到F-比值和SS的随机化检验有轻微不同的假设，我们建议误差均方估计应该总是被检查；如果这些估计是变化的，应该画出处理均方和误差均方的图（例如，图7.3）。，基于你的数据和你所考虑的假设，务必谨慎选择恰当的统计。7.4 相关问题7.4.1 数据集的选择有什么与众不同吗？我们非参数分析的结果与Beaupre(1995)的结果不同，Beaupre使用了与我们基本上完全一致的数据，但他从中抽出不同的子集用于分析。有我们或Beaupre从完整数据中抽出不同极端子集的可能吗？随机化方法的优势在于靠随机选择不同的观测子集能检查这种可能性。执行随机化有两种方式。第一种方式，我们从整个88个数据集中选择54个不同的观测，共1000个数据集。每个观测放置在他所属的性别生境实验单元中（例如，来自Grapevine Hills雄性的观测就被放置在雄性-Grapevine Hills单元中）。这样我们就有1000个数据集可以进行常规ANCOVA，我们想问最初选择的数据（图7.1）与这1000个数据集相比是否不同寻常。第二种方式，54个不同观测的1000个数据集再次被选择，但这54个观测被随机分配到不同处理单元中。这样分配等同于为每个随机选择做一次单一随机化。进行1000次随机化后，我们想问是否最初随机化中（图7.3和7.4）误差均方的分布是不同寻常的。两种随机化都表明最初数据子集的选择和在均方中所看到的格局都不是不同寻常的。当分配观测到正确的处理单元中时，平均F-比值和误差均方都位于原ANCOVA值的5%范围内（比较图7.5和表7.1的结果）。而且，处理均方和误差均方的关系图给出一个椭圆状云点图，原数据子集都位于这个云图的中心（图7.6）。总之，最初我们使用的数据子集在所有可能的子集中有很好的代表性。当观测数据被随机分配到处理单元中，这样的格局非常类似于原数据子集随机化后所看到的格局（比较图7.4和7.7）。看来处理均方和误差均方的变化是整个数据集结构的反映，不能简单的说是二次抽样的假象。这两种比较阐明数据探讨时随机化的有效性和对比单一分析所具有的优势。图 7.5 检验生境影响的F-比值和误差均方分布，数据为1000次随机采样，其中观测资料被从整个数据集中随机选择，并分配到正确的细胞中。参数分析的F-比值和误差均方观测值（F=4.63和误差均方=18.19）非常接近于分布的平均值。7.4.2 随机化方法和统计推断随机化方法促使研究者考虑如何从总体中采样和在多大程度上采样总体与目标总体相匹配。例如，我们所有单元随机观测的选择都是基于这样一个零假设，即所有的蛇都是来自同一个总体。不同的零假设需要不同类型的随机化。虽然必须要谨慎如何随机化这些数据，但使用随机化方法具有名副其实的优势, 因为必要时随机化检验能为特定假设量体裁衣。最后一部分，我们阐述如何使用随机化方法来判断数据能否代表目标总体。我们总是担心样本是否能够代表目标总体。通常，研究者并没有认识到样本总体应该匹配目标总体（Mood and Graybill 1963）。如果采样是随机的，就可以给出样本总体的有效概率。然而，Mood 和Graybill(1993)注意到除非目标总体就是样本总体，否则就不能给出目标总体的严格概率。我们有另外的观测资料允许我们来检验所使用的子样本与整个数据集相比是否不同寻常。很明显，我们的子样本不是不寻常的，所以我们有信心相信从我们的响尾蛇样本中所作的推断（例如，蛇是性二态性，在不同生境间有很大的差异性）能扩展到Grapevine 和 Boquillas那里的响尾蛇。图 7.6 检测生境影响的处理均方对误差均方，数据为1000次随机采样，其中观测资料被从整个数据集中随机选择，但分配到正确的细胞中。每个细胞的观测数匹配于最初不平衡设计时每个细胞的观测数。图 7.7 检测生境影响的处理均方对误差均方，数据为1000次随机采样，其中观测被双重随机化。观测资料被首先从整个数据集中随机选择和接着被随机分配到任何一个细胞。就像图7.6，最初的不平衡设计被保留。最后，我们应该注意一些作者对统计推断抱有一种激进的观点。Edgington(1995)断言随机化方法对数据做统计推断时无需假设数据是已知总体的随机抽样（也见Lehmann 1975,63-65页对这一问题进一步确凿的讨论）。然而，任何推断都是针对特定的数据。超出原数据的推断必然要满足可能的数据集是相似的这一逻辑基础。Edgington(1995)坚称大多数数据都不是已知总体的随机取样，因而随机化方法是比参数化方

人人文库> 全部分类> 生活休闲 > 科普知识

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

ancova(协方差分析)非参数和随机方法.doc

文档简介

温馨提示

最新文档

评论

ancova(协方差分析)非参数和随机方法.doc

文档简介

温馨提示

最新文档

评论

相关文档