版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第十四章 不完全区组设计和统计分析,第一节 不完全区组设计的主要类型 第二节 重复内分组和分组内重复设计的统计分析 第三节 简单格子设计的统计分析 第四节 平衡不完全区组设计的统计分析,第一节 不完全区组设计的主要类型,一、田间试验常用设计的归类 二、重复内分组和分组内重复设计 三、格子设计 四、平衡不完全区组设计,一、田间试验常用设计的归类,完全区组(complete block):每一区组包含全套处理。 不完全区组(incomplete block):即一套处理分成几个区组,或一个区组并不包含全部处理,但同样要通过区组实施地区控制。,二、重复内分组和分组内重复设计,重复内分组设计(bloc
2、k in replication):将供试品种分为几个组,看作为主区,每个组内包含的各个品种看作为副区,重复若干次,主副区都按随机区组布置的设计。 例如20个品种,分为4组,每组包含5个品种,若重复3次,则田间布置可设计如下图:,重复内分组设计的田间布置 该例中重复内分组设计的自由度分析如下:,变 异 来 源 DF 重 复 2 组 间 3 误 差 (Ea) 6 组内品种间 16 误 差 (Eb) 32 总 59 组内品种间比较的误差将为: ;,各组平均数间比较的误差将为: ; 不同组品种间比较的误差(仿照裂区的情况)将为: 。 由于Ea与Eb常取不同数值,Ea往往大于Eb,例如 =3,若如此,
3、则: 组内品种间比较的误差将为: 不同组品种间比较的误差将为:,两者比值为: 即不同组品种间比较的方差将比组内品种间比较的方差大40%,因而像这种不完全区组设计的方法,并不能保证任何两个品种间比较具有相近的精确度。 分组内重复设计(replication in block):将供试材料分组后放在连片土地上的几组随机区组试验,通过土地连片而进行联合分析与比较。,分组内重复设计,三、 格子设计,格子设计(lattice design):为了克服重复内分组设计中组间品种比较和组内品种比较精确度悬殊的问题,对品种分组的方法可考虑从固定的分组改进为不固定的分组,使一个品种有机会和许多其他品种,甚至其他各
4、个品种都在同一区组中相遇过。,(一) 格子设计的类别 平方格子设计(squared lattice ):供试品种数为区组内品种数的平方,区组内品种数为p,供试品种数为p2; 立方格子设计(cubic lattice ):供试品种数为区组内品种数的立方,区组内品种数为p,供试品种数为p3; 矩形格子设计:区组内品种数为p,供试品种数为p(p+1) 。,(二) 平方格子设计 1. 仿照随机区组式的设计 按品种分组方法的变换次数有: (1) 简单格子设计(simple lattice)品种分组方法为二种,试验重复次数为2或2的倍数。,(2) 三重格子设计(triple lattice):品种分组方法
5、为三种,即在简单格子设计二种分组方法的基础上再增加对角线分组一种,重复次数为3或3的倍数。 (3) 四重格子设计(quadruple lattice):在三重格子设计的基础上,再增加对角线一组,,(4) 平衡格子设计(balanced lattice):品种分组方法增加到使每一对品种都能在同一区组中相遇一次。,55四重格子设计方法,2. 仿照拉丁方的格子设计 (1) 平衡格子方设计(balanced lattice square) 重复数r=(p+1)/2,每对品种在行或列区组中共相遇一次;,33平衡格子设计,33平衡格子方设计在行或列中相遇一次,r =(p +1)/2,重复数r=(p+1),
6、每对品种在行及列区组中均相遇一次,亦即共相遇二次。,44平衡格子方设计在行及列中共相遇二次,r=(p+1),(2) 部分平衡格子方设计(partially balanced lattice square):重复次数少于最小平衡重复数。与三重、四重格子设计类似,不一定每一对品种都在行或列区组中相遇。 格子设计的优点是:考虑了供试品种间平衡比较的问题。但由于供试品种数多,这常只能实施部分平衡,而事实上很难实施完全平衡,因为完全平衡所需的重复次数导致试验规模过大。,育种工作中产量比较在早、中期阶段,因供试材料多需要考虑适合大量处理的设计,但这时每份材料的种子数少,一般不可能进行小区较大的精确试验,因
7、而实际应用中部分平衡的格子设计已可满足要求。,四、平衡不完全区组设计,平衡不完全区组设计(balanced incomplete block design):设计的供试处理数不多,不须按格子设计那样每一重复包含有区组大小为k的k个区组,而可将各重复寓于全部区组之中,区组数与区组大小不一定相等,即全试验包括大小为k的区组共t (处理数)或 t 倍个。,图14.7 一种平衡不完全区组设计 例如品尝试验,对于一个人的味觉来说,品尝的对象增加太多时鉴别差异的灵敏度便下降,因而每个人只能品尝一部分。图14.7的情况,若有7个水果品种供鉴评,每人品尝3个,请7位品尝家作鉴评,便共品尝21次,每个品种品尝3
8、次。此处每位专家,便是一个区组,每区组包含3个品种。这时尽管每人并未将7个品种全部鉴评过,但因是均衡的,每个品种至少和其他6个品种比较过1次。这一试验可增加至14位专家则每对品种相遇2次,21位专家则相遇3次。因而可以请许多专家作出综合评判。,第二节 重复内分组和分组内重复设计的统计分析,一、重复内分组设计的统计分析 二、分组内重复设计的统计分析,一、重复内分组设计的统计分析,重复内分组用于品种(系)试验时有二种情况:一是大量品种(系)间的比较目的在于选拔高产优系(固定模型试验);另一是从一个群体内随机抽出大量家系进行试验,通过供试的样本推论总体的情况(随机模型试验)。,假定重复内分组设计的供
9、试品种为m=ab个,分a组,每组有b个品种(系),重复r次,则重复内分组设计的线性模型为: (141) 固定模型时: , , , ; 随机模型时: Ak ,Bkl , 。,重复内分组设计的自由度及期望均方,固定模型时分组间差异的测验,F = MS2/MS3 ; 分组内品种(系)间差异的测验 F = MS4/MS5 。 重复内分组设计着重在分组内品种间的比较,其 分组间比较,其,(143),(142),不同组品种间比较,其 (144) 随机模型时分组间变异的测验: (145) 分组内变异的测验: F=MS4/MS5 (146),F=(MS2+MS5)/(MS3+MS4)时,其有效自由度可用 Sa
10、tterthwaite公式计算: (147) (147)中fi为各均方对应的自由度。由(145)及(146)的关系可分别估计出及。,二、分组内重复设计的统计分析,分组内重复的设计的线性模型为: (148) 固定模型时: , , ; 随机模型时,Ak ,Bkl ,, 。 分组内重复设计的自由度及期望均方,固定模型时分组间差异的测验,F=MS1/MS4; 分组内品种(系)间差异的测验F=MS2/MS4。 分组内重复设计着重在分组内品种间的比较,其 (149) 分组间可以比较,其 (1410),不同组品种间的比较,其 (1411) 随机模型时分组间差异的测验: (1412) 其有效自由度按Satte
11、rthwaite公式。 分组内品种间差异测验: F=MS2/MS4 (1413),由(1412)及(1413)测验 及 。 在各分组品种(系)均为总体一随机样本的前题下,可假定分组平均数相等,从而对品种(系)平均数作统一调整。 重复内分组和分组内重复是目前品系产量早期比较试验较常用的设计,并常用于遗传参数的估计,尤其前者更为常用。,第三节 简单格子设计的统计分析,一、简单格子设计分析的基本原理 二、简单格子设计的例题,一、简单格子设计分析的基本原理,设有9个品种,重复2次的简单格子设计试验,这9个品种分别给以二位数的代号如下: 品种按横行、纵行分组,分别设置为一个重复,则其分组安排如下:,由重
12、复所得产量以x表示,重复以y表示,各品种总和以t表示,则可以将试验结果整理如表14.3的形式(虚线表示区组)。,简单格子设计试验结果符号表,横行总和作为试验因子A(X分组)的效应,纵列为B(Y分组)的效应。此试验可看作为每个因子各具3个级别的二因子试验,其自由度为: 由于重复中A因子的效应和区组效应混杂,重复 中B因子与区组混杂,整个试验相当于一个虚拟的二因子部分混杂试验,其混杂的效应是A与B主效。,若将重复当作区组,那么本试验可按随机区组的方法进行方差分析,其自由度为(左图) 现在每一重复又划分为区组,要把区组的变异从误差中扣去以减小试验误差,故其自由度分析将为(右图),由t11、t12、t
13、33计算品种平方和中包含有区组的效应,夸大了品种的效应; 由X1 、X2 、X3 ,Y1 、Y2 、Y3计算区组平方和则又包含了品种的效应,夸大了区组的效应。 关键:从品种效应中扣去区组部分,得到可以共同比较的调整的品种平均数及品种平方和;估计出除去品种效应的区组间变异,得到一个无偏的试验误差估计,进行合理的统计推断。,(一) 品种调整平均数的计算 1=T1/6 为A因子第一级别的未调整平均数; 1=T1/6 为B因子第一级别的未调整平均数。 如品种12的未调整平均数为v12,则: (1414) 其中,m为全试验总平均数。,(1414)说明任一品种总的离均差为横行离均差、纵 行离均差以及横行纵
14、行互作效应三部分之和。 令: Ai表示不包含区组效应A因子效应估计值; Bi表示不包含区组效应B因子效应估计值。 则 :A因子第一个级别的估计值 , B因子第一个级别的估计值,又令Ab 表示与区组混杂的A因子效应估计值, Bb 表示与区组混杂的B因子效应估计值 则 A因子第一个级别的估计值 , B因子第一个级别的估计值 若A0,B0分别表示X组及Y组综合在一起未调整的A因子及B因子效应,则:,求A及B的调整值比较合理的方法是以Ai、Bi及Ab、Bb各分组所获得结果的可靠程度进行加权平均,这里Ai、Bi效应没有区组效应在内,可用 衡量其可靠程度,其中 代表区组内误差的理论方差。 Ab、Bb效应混
15、有区组效应,区组效应越大,Ab、Bb估计A及B的可靠程度越小,可用 衡量其可靠程度, 代表重复内区组间的理论方差(以小区为单位)。,(1415),(1416) 当区组间没有真实差异时, ,Ai、Bi和Ab、Bb 同等重要,故:,得到A及B的估计值后,可得: (1417) 因未调整的(v0-A0-B0+m)与调整后的(v -A-B +m )应是相等的,两者相减 v-v0=(A-A0)+(B-B0) (1418) 表示调整的品种平均数可由v0、(A-A0)及(B-B0)三部分计算。,由(1416)及(1415)可得: 令 则,(1419),以品种11为例,需求出A及B各第一级别的A0、Ab、 B0
16、及Bb,其中,若令以上二矫正数分别以及代表,则: (1420) 其中vef 中的ef代表以二位数字表示的某品种,在具有二个重复参试材料为p2的简单格子设计中 及 的通式可写为:,如果简单格子设计,每种分组重复二次,全试验共有四次重复,则:,(1421),(1422),在品种平均数的横行及纵行旁求出 , 求 出 , 就可计算出各个品种的调整平均数。但为便于计算,一般直接在品种总和表旁求出品种总和的矫正数,计算出各个品种的调整总和,再求调整平均数。 2次重复时调整品种总和为: (1423),(二) 与 及w与 的估计 上述品种调整平均数的计算需按 , 进行调整。 可以由区组内均方Ei直接估计,主要
17、需估计出 。 区组间均方的计算需由二部分平方和合并,要了解清楚这二部分平方和的计算,从一个四次重复的试验比较容易说明。,表14.4 四次重复简单格子设计试验结果符号表,在X、Y 两种分组各有重复时,从相同品种组的区组两次重复间的差异的效应扣去整个重复间差异的效应,可以估计出区组效应。其计算方法为(1424)二式之和。,(1424),这部分平方和相当于A因子与重复的互作和B因子与 重复的互作之和,称为成分(a)。 两种分组方法各对应X1与Y1之间差异的效应扣去整个分组方法总差异间的效应,也将属于区组的效应,其计算方法为(1425)二式之和。,(1425),这部分平方和相当于A因子与分组方法的互作
18、和B因 子与分组方法的互作之和,称为成分(b)。 因 T1-2X1=(X1+Y1-2X1)=Y1-X1 故成分(b)也可写为: (1426),在33简单格子设计具有4个重复时,成分(a)具有 2+2=4个自由度,成分(b)也具有2+2=4个自由度,(a)与(b)两者相加共有8个区组自由度。在只有2个重复时,显然成分(a)无从计算,因此仅由成分(b)代表区组的平方和。不过(1426)中分母将相应改变为23及29。,分析成分(a)均方所估计的方差分量为 ,其中 为区组内误差, 为区组间的方差。 成分(b)均方所估计的方差分量为 ,这是因为成分(b)的两部分是从同一材料计算来的,所以只估计了 。 当
19、只有二个重复时,只能由成分(b)计得区组的均方( ),但是由方差分析原理,正常的区组项均方应由 组成。所以对区组的理论方差的估计要作适当调整。,所以, (1427) 当有四次重复时,成分(a)与(b)综合的均方所估计的分量为,即,所以, (1428) (三) 品种平均数间比较的误差计算 同区组内品种间比较:,异区组品种间比较: 不论区组异同,品种间相互比较:,(1429),(1430),若 由成分(a)单独估计,则 , 。当EbEi时, ,上列各公式均变为 ,这就类似随机区组时的公式。当Eb很大时, 接近于1,(1429)、(1430)、(1431)三公式相应变为:,(1431),, 和 这种
20、情况下,A与B的效应相当于由Ai及Bi单独估计,Ab及Bb对A、B均未提供信息。 (四) 品种平方和的调整 直接按格子设计进行测验,则要对品种平方和进行调整,对于简单格子设计,其矫正数为:,(1432) 其中,Ku为未调整的成分(b)平方和,Kb为调整的成分(b)平方和。 Kb由(1425)计算,表14.3中的Ku可由下式计算:,(1433),表14.5 简单格子设计方差分析表,(五) 期望均方 简单格子设计用于单因素试验,其期望均方和随机区组的情况一样,区组内误差估计了 ,调整的品种均方估计了 (随机模型)或 (固定模型)。 二、简单格子设计的例题 (一) 二次重复简单格子设计的例题,例14
21、.1 表14.6为一个55大豆品种重复二次简单格子设计的试验结果。其田间排列是随机的。随机的步骤: 在每一重复内分别独立地随机安排区组; 在每一区组内分别独立地随机安排品种代号; 将各品种随机决定品种代号。,表14.6 55大豆品种简单格子设计的产量试验结果(r=2,kg/区),分析步骤如下: 1. 从表14.6计算各区组总和(这里即Xe及Yf),重复总和(这里即X及Y)各品种(未调整)总和(tef)以及Te 、Tf值。并按随机区组进行方差分析。结果列于表14.7。 随机区组方差分析结果品种间无显著差异。进一步再按格子设计分析。,表14.7 随机区组方差分析表 2. 计算消去品种效应的区组平方
22、和。 由成分(b)单独估计。按(1425),r =2时为:,在表14.6上分别计算Te-2Xe及Tf -2Yf值,代进上式得: 3. 列出分解有区组变异的方差分析表(表14.8)。,=501.84,表14.8 55简单格子设计(r=2)方差分析表,调整后重复内区组间的变异很显著,说明将区组划出是很必要的。 4. 计算调整的品种总和( )。 由(1423),在简单格子设计两个重复时:,=0.7820,=0.1564,调整品种总和 = 在表14.6中分别计算 及 然后计算各品种调整的总和 ,以品种(1)为例: =30+9.5-1.4=38.1。其余类推,全部结果列于表14.6的末端。 5. 计算品
23、种平均数间比较的误差。 同区组品种平均数间比较:,异区组品种平均数间比较:,全试验品种平均数相互比较:,一般用2.93作标准误进行品种间比较即可。,6. 计算调整的品种平方和再进一步测验品种差异的显著性. 按(1432)品种平方和的矫正数为:,其中Ku仿(1433)为:,Kb为调整的区组成分(b)平方和,即表14.9中的501.84。 w=1/Ei=1/13.66=0.07321,1/(2Eb-Ei)=1/(262.73-13.66)=0.008945,=559.28+85.30=644.58,故调整品种平方和,调整的品种均方及F 测验如下:,按照简单格子设计的分析结果调整以后的品种均方比 未
24、调整时增大了,误差比随机区组时降低了,因而提 高了试验的精确性。它与随机区组设计相比较,所提 高的效率可估计如下:,即提高了74。 本试验品种间无显著差异,所以不必进一步再做品种平均数间的比较。,(二) 四次重复简单格子设计的例题 例14.2 上例55大豆试验,原为一个四次重复的简单格子设计,若表14.6中的是第一重复及第三重复,今将第二重复,第四重复的结果补充列在表14.9中,重复与重复属同一种分组,重复与重复属另一种分组。 分析步骤如下: 1. 从表14.6及14.9计算各重复各区组的总和g,重复总和G,同品种的两个区组总和Xe及Yf ,各品种,表14.9 55大豆品种简单格子设计、重复的
25、产量结果(r=2,kg/区),(未调整)总和tef以及Te 、Tf值。 按随机区组预先进行方差分析(表14.10)。随机区组方差分析结果品种间无显著差异,进一步按格子设计分析。 表14.10 随机区组方差分析表,2. 计算消去品种效应的区组平方和。 这里包括成分(a)及成分(b)两部分。 成分(a)的计算:,成分(a)的另一种计算方法可适用于更多次重复的分析。 即由相同分组方法内品种组与二次重复的交互作用项计算。 区组平方和(区组总SS ),重复间平方和(重复SS ),品种组间平方和(品种组SS),成分(a)=区组总SS -重复SS -品种组SS =602.18 -309.28-128.14=
26、164.72 计算结果与前相同。 成分(b) r=4时,为: 3. 列出分解有区组变异的方差分析表(表14.11)。,表14.11 55简单格子设计(r=4)方差分析表,4. 计算调整的品种总和。,调整品种总和,在表14.9中分别计算出,及,然后计算各品种调整的总和,方法同上例。如品种15,=72+(+8.8)+(-61)=74.7,余类推。全部计算结果列 于表14.9的末端。,5. 计算品种平均数间比较的误差。,同区组品种,异区组品种,全试验品种,6. 计算调整品种平方和并进一步测验品种差异的 显著性。,此即计算成分(a)时的品种组间平方和一项。 调整品种平方和,=791.24+154.33
27、=945.57,调整的品种均方及F 测验如下: 按格子设计分析,扣除了重复内区组间的变异,降低了试验误差,使品种间的变异呈现出显著性。 7. 进一步可以计算出调整的平均数,并由全试验品种SE 计算LSD 进行品种间的比较。方法同随机区组,此处从略。,第四节 平衡不完全区组设计的统计分析,例14.3 设若对某种水果7个品种进行风味品尝,请7位专家评分,每位专家按图14.7的计划鉴评3个品种,其第1号为对照品种,评分范围为最低0分,最高5分,结果列于表14.12。该试验具有处理数t=7,区组数k=3,重复数r=k=3,两两品种在同一区组相遇1次。 这一设计的线性模型为: (1434),表14.12
28、 七个品种风味的专家评分结果(平衡不完全区组设计),其分析步骤如下: 1. 在表14.12中计算未调整的区组总和(B )及全试验总和(G )。计算未调整的品种总和(Tt)列于表14.13;同时计算出品种所在区组各区组总和的和数(Bt ),如品种1为11.4+12.2+13.4=37.0等,列于表14.13。应与kG 相等,可用以验算数据。 2. 计算各品种的W 值。 W =(t-k)T-(t-1)Bt+(k-1)G=4T-6Bt+2G(本例情况)。按(1434)将各小区的线性组成相加、减,可以发现不同品种的W值只包含区组效应,因而W值间的变异表示了调整后区组间的变异,其总和W 应为0。,表14
29、.13 平衡不完全区组设计数据分析表,调整处理平均 数,3. 进行方差分析。 全试验21个小区的总变异中包含有品种间纯变异、区组间纯变异、由于区组不完全而导致的品种与区组相混杂的一部分变异、以及区组内的误差四部分。其中品种与区组相混杂的一部分变异包含在处理总和(T )间的变异中,也包含在区组总和(B )间的变异中。因混杂的这一部分变异不论在前者还是在后者是同一个成分,因此在方差分析中只须考虑一个方面便可。 由W 值计算调整的区组间平方和的公式为:,(1435) 本例中为 342)=0.6629 未调整的品种平方和:,全试验总平方和,区组内平方和=4.0981-3.0114-0.6629=0.4
30、238,表14.14 平衡不完全区组设计的方差分析表 此处所获的Ee,实际上只是一个初步估计值,并不立即用于进行F测验,而需作进一步调整。 4. 计算加权因子w ,并调整处理总和及平方和。 (1436),按(Tt+wW )计算调整的品种总和(Tc),如品种1(CK) 为11.4+(-3.8)(0.0370)=11.26等,填入表14.13。 (1437),本例中,本例中,相应的均方为 2.5665/6=0.4278。,5. 计算有效误差并作进一步方差分析。 有效误差E =Ee1+(t-k )w 本例中E =0.0531+(7-3)0.0370=0.0608 将调整的品种均方和有效误差填入表14
31、.14右端,这时可进行F 测验。F 测验的结果表明品种间风味评价上有很显著的差异。必须说明平衡不完全区组设计的方差分析中根据加权因子w 调整的处理均方和误差均方都是近似的,包括w 值本身也有抽样波动,所以这一F 测验也是一种近似的测验。,6. 处理间的比较。 处理平均数间比较可用LSD 法,此例中已经F 测验证实品种间有显著差异,故实际上已用了Fisher保护最小显著差数法(FPLSD )。,FPLSD0.05=,测验结果如下:,比较结果,品种2、5、3与对照间无显著差异,品种4、6、7的风味评价均优于对照,尤其品种7最佳,优于品种3、4。,第十五章 抽样调查,第一节 抽样调查方案 第二节 常
32、用抽样方法的统计分析 第三节 样本容量的估计,第一节 抽样调查方案,一、抽样单位 二、抽样方法 三、样本容量 四、确定抽样方案的一些因素,一、抽样单位,抽样分数(sampling fraction):指一个样本所包含的抽样单位数占其总体单位数的成数。 田间抽样调查的抽样单位(sample unit)是随调查研究目的、作物种类、病虫害种类、生育时期、播种方法等因素而不同的,可以是一种自然的单位,也可以是若干个自然单位归并成的单位,还可以用人为确定的大小、范围或数量作为一个抽样单位。,常用的抽样单位举例如下: (1)面积 如0.5平方米或每平方米内的产量、株数、害虫头数等。 (2)长度 如12行若
33、干长度内的产量、株数,若干长度内植株上的害虫头数等。 (3)株穴 如棉花连续10株的结铃数,水稻连续20穴的苗数、分蘖数、结实粒数等。,(4)器官 如稻、麦千粒重,大豆百粒重,每100个棉铃中红铃虫头数,每张叶片的病斑数等。 (5)时间 如单位时间内见到的虫子头数,每天开始开花的株数等。 (6)器械 如一捕虫网的虫数,一只诱蛾灯下的虫数,每一个显微镜视野内的细菌数、孢子数、花粉发芽粒数等。 (7)容量或重量 如每升或每公斤种子内的混杂种子数,每升或每公斤种子内的害虫头数等。 (8)其他 如一个田块、一个农场等概念性的单位。,二、抽样方法,基本的抽样方法(sampling method)有以下三
34、类: 1顺序抽样(systematic sampling) 也称机械抽样或系统抽样,按照某种既定的顺序抽取一定数量的抽样单位组成样本。 2典型抽样(typical sampling) 也称代表性抽样,按调查研究目的从总体内有意识地选取一定数,量有代表性的抽样单位,至少要求所选取的单位能代表总体的大多数。 3随机抽样(random sampling) 也称等概率抽样,在抽取抽样单位时,总体内各单位应均有同等机会被抽取。,常用的顺序抽样方式,三、样本容量,样本容量(或样本含量sample size):指样本所包括的抽样单位数。样本容量的大小与所获抽样调查结果的准确度和精确度密切有关。,四、确定抽样
35、方案的一些因素,设计抽样方案时须考虑以下几方面: (1) 所要求的准确度与精确度,要求高时样本容量应大。 (2) 是否需估计置信限或作统计推论,一般随机抽样有合理的试验误差估计,可以做统计推论。而其他抽样方法往往缺乏合理的误差估计,统计分析有局限性。,(3) 与人力、物力、时间等条件相适应,抽样单位大、样本容量大、进行总体编号等都是较费事的,必须权衡需要与可能,在保证一定精确性的情况下,尽量减低消耗。 (4) 注意到调查研究对象的特点。,第二节 常用抽样方法的统计分析,一、简单顺序抽样及简单典型抽样法 二、简单随机抽样法 三、分层随机抽样法 四、整群抽样法 五、分级随机抽样法 六、双重随机抽样
36、法 七、序贯抽样法,一、简单顺序抽样及简单典型抽样法,简单顺序抽样(simple systematic sampling):通常只计算平均数作为总体的估计值。 计算平均数的公式为:,例15.1设成熟期对水稻汕优2号大田测产,该田块约5亩,生长较均匀。采用棋盘式抽样,10个点,每点由12行间距计算平均行距。其中任选二行测查2m长度内的穴数及有效穗数。再在其中拔连续5穴,将稻穗分成大、中、小三级,按比例选取20穗,结合考查其他性状计数每穗总粒数及空瘪粒数,从而算出结实粒数。每点其余稻穗脱粒,称取千粒重。将10点数据汇总后求得每亩平均穴数4.2万,每穴平均,有效穗数9.2个,每穗平均结实粒数53.7
37、粒,平均千粒重25.2克。计算平均数的公式为。本例中土地利用系数定为98%,则估计每亩产量为: = 513.75(kg/亩) 简单典型抽样法的分析同样只计算 。,二、简单随机抽样法,简单随机抽样(simple random sampling):每个抽样单位具有相同概率被抽入样本。总体编号方法及随机抽取方法依调查对象而定。 例15.2 设在一休闲地上调查小地蚕虫口密度每测框为1m2,随机取30点,调查结果列在表15.1。,表15.1 30个单位的小地蚕幼虫头数,(头/),(头/),(头/),即该田块小地蚕幼虫约为3.385.34(头/),折合每亩2253.43560.2头,这个估计的可靠性为95
38、%。 以上将所调查研究的总体看为面积甚大的一个无限总体进行分析,设若该30个单位从336的一块田中抽出,这时调查研究的总体实为一有限总体,有限总体的两个参数为: 平均数 (151),(头/),标准差 N 为总体内单位数,即总体容量。 样本估计值仍为及,但估计抽样误差时应考虑到抽样分数的影响。,(153),(152),本例中 (头/) 该有限总体平均数的95%置信限为: (头/) 即3.425.30(头/),折合每亩2280.03533.4头。,三、分层随机抽样法,分层随机抽样法(stratified random sampling):从各个层次或段落分别进行随机抽样或顺序抽样。,分层随机抽样有
39、三个步骤: (1)将所调查的总体按变异情况分为相对同质的若干部分、地段等称为区层,各区层可以相等,也可以不等。 (2)独立地从每一区层按所定样本容量进行随机抽样。各区层所抽单位数可以相同,也可以不同。,抽样单位总数在各区层的分配有: 比例配置法:指各区层大小不同时按区层在总体中的比例确定抽样单位数,若各区层大小相同,比例配置结果实际即为相等配置; 最优配置法:指根据各区层的大小、变异程度以及抽取一个单位的费用综合权衡,确定出抽样误差小、费用低的配置方案。,(3)根据各区层的估计值,采用加权法估计总体参数。 总平均数 : (154) 总标准误:,若各区层总体方差相同,则,(15),(156),若
40、各区层抽样单位数按区层比例配置,则 (157) 其中,(158),四、整群抽样法,整群随机抽样法( random group sampling ):被抽取的整群中各抽样单位都进行调查,按群计算平均数及标准差,并估计其置信限。,例15.4 设某农场调查水稻螟害发生情况,在全场100个条田中随机抽取9条做调查,每田块采用平行线式取10点,每点连续查20穴,经初步整理后将结果列于15.2。 某农场螟害率抽样调查结果,这资料以条田为抽样单位进行分析。,全场100条田平均螟害率95%的可能在9.0114.91%范围内。 本例的总体实际上是一个N =100的有限总体,故更确切地应为:,即9.1514.77
41、(%)间。,此外,本例是百分数资料,如果田块间的差异不大,可以采用百分数资料的分析方法,即由总调查茎秆数和总螟害茎秆数求出总螟害率 ,得 这样, 即11.6912.59(%)。这个区间比前面所估小得多,这是因为前面以田块为抽样单位,而不是以,茎秆为单位,除了有茎秆受害与否的随机误差外,还包含有田块间的差异,所以此处不宜采用百分数的误差估计方法。,五、分级随机抽样法,巢式随机抽样法(nested random sampling):最简单的是二级随机抽样。例如全区的棉花结铃数,可以在区内随机抽取几个乡,乡内随机抽取若干户进行调查。这时,乡为初级抽样单位,户为次级抽样单位。又例如研究农药在叶面上的残
42、留量,第一步随机抽取单株,第二步在单株上随机抽取叶片,分别作为初级和次数抽样单位。,表15.3 某农药残留量分析结果及其方差分析,巢式随机抽样数据可以应用方差分析法算出各阶段的抽样误差,从而估计平均数的标准误。二级抽样的公式如下: (1513) 其中,k=初级抽样单位数,n =次级抽样单位数。 (1514) 、分别为次级和初级抽样误差的估计值。,二级抽样的数据按单向分组的组次数相等(也可能不相等)的随机模型进行方差分析。例题中k=4,n=4,方差分析结果F =0.2961/0.0066=44.9,说明植株间的误差显著大于株内叶片间的误差。 这二个阶段的抽样误差是不同的,应该分别估计。但此处若将
43、kn=44=16张叶片直接计算其方差则为0.0645。比扣除株间误差后剩余的株内叶片间误差0.0066大得多。,例15.5 表15.3数据的分析结果:,(单位),(单位)2,(单位),(单位),此处DF=3,因,由均方MSB计算。,若只从1个初级单位估计置信限,如以株为单位作估 计,则:,(单位)2,(单位),(单位),由一株四张叶片估计,比四株16张叶片估计,误差 要大得多。 若每株只取一张叶片,四株共取4张叶片,则,(单位),所以,同样测定4张叶片,从1株上取与从4株上取, 抽样误差是不同的,今后对此材料抽样测定时,应多 取植株,每株上可以少取一些叶片。,三级抽样时的情况为: 、 、 依次
44、为三级、二级及一级抽样单位的抽样误差,分别抽取n、k、l个不同级别的抽样单位,则所获样本平均数的抽样误差为 获得后,其总体平均数的置信区间的计算方法与前相同。,(1515),六、双重随机抽样法,双重抽样法(double sampling):亦称相关抽样法。若所要调查的性状y是不易观察测定,甚至对观察材料要破坏后方能测定的,而试验又不容许将材料破坏,这时可以利用和所要调查的性状有密切相关关系的另一便于测定的性状x进行间接的抽样调查,按确定的相关关系从x的调查结果推算y 的结果。,1.做一次随机抽样,调查y 和x两种性状,从中求出y 依x 的回归方程。这个样本容量 n 不一定很大,但希望x 和y
45、有较大的幅度。,2.对总体进行x的抽样调查,设样本容量为m,按以上建立的回归关系从 推算 的标准误 的近似式: (1516),采用双重抽样法,必须注意 y 和 x 两性状间不但要有显著相关,而且须有高程度显著相关,才能获得比较准确的结果,所以在建立回归方程时要检验其相关系数的大小及显著性。,七、序贯抽样法,序贯抽样法( sequential sampling ):根据逐个抽样单位调查累积的信息,在抽样过程中当机确定样本容量。,序贯抽样法的基本步骤: (1) 确定作为“推断”所依据的两个标准,P0与P1,此处P0=0.50(即50%)、P1=0.75(即75%)分别代表不符控制要求(必须治虫)及
46、符合控制要求(不必打药)的两个界限。 (2) 确定“推断”的可靠程度的两个概率标准 与 , 表示总体百分数PP0而误以为PP1的,险, 表示总体PP1而误以为PP0的风险。 (3) 估计总体分布类型,计算出两条平行的控制线。当总体为二项式分布时。两条控制线为下式:(1517),(4) 将(1517)的计算结果画成序贯抽样控制图。横坐标为m ,纵坐标为h 。 (5) 进行实际抽样调查,将逐个抽样单位测定的累计数 m 及 h (完好穗数)在坐标图上标记。 (6) 有时总体 P 可能在 P0 与 P1 之间,需预先计算一个推断所需最大样本容量 E(m)。,当总体属二项式分布时: 例15.7 设按上述
47、方法对玉米完好穗率进行调查,以确定是否需要继续用药。此时确定P0=0.50,即完好穗率低于50%一定要防治;P1=0.75,即完好穗高于75%不再防治。 =0.10,即应该防治而误以为不需防治的风险允许为0.10; =0.10,即不需防治,(1518),而误以为要防治的风险允许为0.10;玉米完好穗率总体分布估计为二项式分布。 由(1517)计得ha 和hr 的截距及斜率分别为:,ha截距,hr截距,斜率,因而两条控制线为:,由(1518)得:,说明推断所需最大样本容量为测定18株。 将计算结果画成图15.2中两条回归线。 经田间逐穗实际测查结果列于表15.4。,测查至m =18时,h = 9
48、,超出界外,抽样停止,因hha(ha=-2.00+0.63118=9.36),故推论为总体完好穗率在50%以下,所以需要防治。 本例恰好抽样至E(m)=18时才作出推断,这是因为总体完好穗率与“推断”所依据的两个标准P0,P1很相近,如果相差较大,则测查穗数m小于18,便能作出推断。,表15.4 玉米完好穗数序贯抽样结果,设若将 及 均定为0.05,P0 及P1不变,则: ha=-2.68+0.631m hr=2.68+0.631m E(m)=30.85 两条平行线的间距增宽了,推断所需最大样本容量也增加了。 又设若将 、 均定为0.05,P0=0.50,P1=0.60,则 ha = -7.2
49、6+0.550m,hr =7.26+0.550m E(m)=213.08 两条平行线的间距更宽了,推断所需最大样本容量也更大了。 这里说明序贯抽样法中有效确定 、 、P0、P1值对提高工作效率是很重要的。这需要依据专业知识确定。 上例因估计总体是二项式分布。如果总体不是二项式分布而属泊松( Poisson )分布则:,(1519) (1519)中ln为自然对数的符号,与为“推断”所依据的两个标准。例如每公斤种子含某种杂草种子在一粒以下便调进,若在三粒以上便拒绝,这时因每公斤种子中含某种杂草种子数是泊松分布, =1, =3。设若 =0.1, =0.1,则:,ha截距,hr截距,斜率,“推断”所需
50、平均样本容量,bb0及bb1时不同。,(1520),此处 : 说明平均抽取2个抽样单位即可获得推断。若实践中抽样至31.95=6个抽样单位尚无结果,则可停止抽样。计取这6个抽样单位的平均数 ,若 偏向 则推断为可调进,若 偏向b,则推断为拒绝调进。,第三节 样本容量的估计,一、简单一级抽样样本容量的估计 二、分层抽样样本容量的估计 三、二级或多级抽样样本容量的估计 四、抽样单位大小与样本容量的相互决定,一、简单一级抽样样本容量的估计,简单一级抽样主要指简单随机抽样。在估计其样本容量时,首先要对调查对象的标准差做出估计,并提出预定准确度和置信系数的要求,然后据此以确定样本容量。,因为 其中n 为
51、待定的样本容量。 经变项, 得:,(1521),(1521)中 代表预定的准确度要求,即指要求所得的样本平均数与总体平均数相差不超过给定的量 。若s估计值来自大样本,则95% 置信系数下t2, 所以, (1522) 有时没有大样本的s值可借用,这时可通过平均全距(或平均极差)估计s值,,式中 为k个容量为n的小样本极差的平均值,c为折算系数(表15.6),t 由(表15.6)中的自由度估计值( )及置信系数决定。,(1524),(1523),若总体属有限性时,估计的抽样误差应按(153)用抽样分数作矫正,因而(1521)将变为: 变项合并后: (1525),如果N 很大时,可计算其近似值 ,即(1521): 如n0/N 比数不大,可采用n0为近似值,否则
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 创新医患关系构建模式
- 机加工车间消防安全培训课件
- 机加安全培训课件
- 科研教学综合楼项目可行性研究报告
- 基于知识图谱的初中英语口语陪练系统知识关联与拓展研究课题报告教学研究课题报告
- 午餐自助餐培训课件模板
- 学校复工安全检查方案
- 2026年汕尾职业技术学院单招职业技能考试备考试题带答案解析
- 医患关系的统一性
- 电子化学品生产线项目投标书
- 2025年安吉县辅警招聘考试真题汇编附答案
- 物业管理条例实施细则全文
- 电化学储能技术发展与多元应用
- 2026年安全员之C证(专职安全员)考试题库500道及完整答案【夺冠系列】
- 课堂翻转教学效果调查问卷模板
- 铜陵市郊区2025年网格员笔试真题及答案解析
- 掩体构筑与伪装课件
- 2026年广东省春季高考模拟数学试卷试题(含答案解析)
- 微带贴片天线基础知识
- 部编版初三化学上册期末真题试题含解析及答案
- GB/T 46561-2025能源管理体系能源管理体系审核及认证机构要求
评论
0/150
提交评论