抽样调查教学讲义_第1页
抽样调查教学讲义_第2页
抽样调查教学讲义_第3页
抽样调查教学讲义_第4页
抽样调查教学讲义_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

抽样调查教学讲义第一节抽样调查方案二、抽样方法三、样本容量四、确定抽样方案的一些因素一、抽样单位抽样分数(samplingfraction):指一个样本所包含的抽样单位数占其总体单位数的成数。田间抽样调查的抽样单位(sampleunit)是随调查研究目的、作物种类、病虫害种类、生育时期、播种方法等因素而不同的,可以是一种自然的单位,也可以是若干个自然单位归并成的单位,还可以用人为确定的大小、范围或数量作为一个抽样单位。常用的抽样单位举例如下:

(1)面积如0.5平方米或每平方米内的产量、株数、害虫头数等。(2)长度如1~2行若干长度内的产量、株数,若干长度内植株上的害虫头数等。(3)株穴如棉花连续10株的结铃数,水稻连续20穴的苗数、分蘖数、结实粒数等。

(4)器官如稻、麦千粒重,大豆百粒重,每100个棉铃中红铃虫头数,每张叶片的病斑数等。(5)时间如单位时间内见到的虫子头数,每天开始开花的株数等。(6)器械如一捕虫网的虫数,一只诱蛾灯下的虫数,每一个显微镜视野内的细菌数、孢子数、花粉发芽粒数等。(7)容量或重量如每升或每公斤种子内的混杂种子数,每升或每公斤种子内的害虫头数等。(8)其他如一个田块、一个农场等概念性的单位。二、抽样方法基本的抽样方法(samplingmethod)有以下三类:1.顺序抽样(systematicsampling)也称机械抽样或系统抽样,按照某种既定的顺序抽取一定数量的抽样单位组成样本。

2.典型抽样(typicalsampling)也称代表性抽样,按调查研究目的从总体内有意识地选取一定数量有代表性的抽样单位,至少要求所选取的单位能代表总体的大多数。3.随机抽样(randomsampling)也称等概率抽样,在抽取抽样单位时,总体内各单位应均有同等机会被抽取。

常用的顺序抽样方式三、样本容量样本容量(或样本含量samplesize):指样本所包括的抽样单位数。样本容量的大小与所获抽样调查结果的准确度和精确度密切有关。四、确定抽样方案的一些因素设计抽样方案时须考虑以下几方面:(1)所要求的准确度与精确度,要求高时样本容量应大。(2)是否需估计置信限或作统计推论,一般随机抽样有合理的试验误差估计,可以做统计推论。而其他抽样方法往往缺乏合理的误差估计,统计分析有局限性。(3)与人力、物力、时间等条件相适应,抽样单位大、样本容量大、进行总体编号等都是较费事的,必须权衡需要与可能,在保证一定精确性的情况下,尽量减低消耗。(4)注意到调查研究对象的特点。第二节常用抽样方法的统计分析一、简单顺序抽样及简单典型抽样法二、简单随机抽样法三、分层随机抽样法四、整群抽样法五、分级随机抽样法六、双重随机抽样法七、序贯抽样法一、简单顺序抽样及简单典型抽样法简单顺序抽样(simplesystematicsampling):通常只计算平均数作为总体的估计值。计算平均数的公式为:

[例15.1]设成熟期对水稻汕优2号大田测产,该田块约5亩,生长较均匀。采用棋盘式抽样,10个点,每点由12行间距计算平均行距。其中任选二行测查2m长度内的穴数及有效穗数。再在其中拔连续5穴,将稻穗分成大、中、小三级,按比例选取20穗,结合考查其他性状计数每穗总粒数及空瘪粒数,从而算出结实粒数。每点其余稻穗脱粒,称取千粒重。将10点数据汇总后求得每亩平均穴数4.2万,每穴平均有效穗数9.2个,每穗平均结实粒数53.7粒,平均千粒重25.2克。计算平均数的公式为。本例中土地利用系数定为98%,则估计每亩产量为:

=513.75(kg/亩)

简单典型抽样法的分析同样只计算。二、简单随机抽样法简单随机抽样(simplerandomsampling):每个抽样单位具有相同概率被抽入样本。总体编号方法及随机抽取方法依调查对象而定。[例15.2]设在一休闲地上调查小地蚕虫口密度每测框为1m2,随机取30点,调查结果列在表15.1。表15.130个单位的小地蚕幼虫头数

每m2内幼虫头数(y)0123456789101112Σ

单位数(个)123844222100130fy02624162012141690012131fy20212726410072981288100144773(头/㎡)(头/㎡)(头/㎡)

即该田块小地蚕幼虫约为3.38~5.34(头/㎡),折合每亩2253.4~3560.2头,这个估计的可靠性为95%。以上将所调查研究的总体看为面积甚大的一个无限总体进行分析,设若该30个单位从336㎡的一块田中抽出,这时调查研究的总体实为一有限总体,有限总体的两个参数为:平均数

(15·1)

(头/㎡)标准差N为总体内单位数,即总体容量。样本估计值仍为及,但估计抽样误差时应考虑到抽样分数的影响。

(15·3)(15·2)本例中(头/㎡)该有限总体平均数的95%置信限为:

(头/㎡)即3.42~5.30(头/㎡),折合每亩2280.0~3533.4头。三、分层随机抽样法分层随机抽样法(stratifiedrandomsampling):从各个层次或段落分别进行随机抽样或顺序抽样。分层随机抽样有三个步骤:(1)将所调查的总体按变异情况分为相对同质的若干部分、地段等称为区层,各区层可以相等,也可以不等。(2)独立地从每一区层按所定样本容量进行随机抽样。各区层所抽单位数可以相同,也可以不同。抽样单位总数在各区层的分配有:①比例配置法:指各区层大小不同时按区层在总体中的比例确定抽样单位数,若各区层大小相同,比例配置结果实际即为相等配置;②最优配置法:指根据各区层的大小、变异程度以及抽取一个单位的费用综合权衡,确定出抽样误差小、费用低的配置方案。(3)根据各区层的估计值,采用加权法估计总体参数。总平均数:

(15·4)

总标准误:

若各区层总体方差相同,则

(15·5)(15·6)若各区层抽样单位数按区层比例配置,则

(15·7)其中

(15·8)四、整群抽样法整群随机抽样法(randomgroupsampling):被抽取的整群中各抽样单位都进行调查,按群计算平均数及标准差,并估计其置信限。[例15.4]设某农场调查水稻螟害发生情况,在全场100个条田中随机抽取9条做调查,每田块采用平行线式取10点,每点连续查20穴,经初步整理后将结果列于15.2。某农场螟害率抽样调查结果田块123456789调查茎秆数198020622154251223152098242118672248螟害茎秆数178211335345212238460119298螟害率%8.9910.2315.5513.749.1611.3419.006.3713.25这资料以条田为抽样单位进行分析。全场100条田平均螟害率95%的可能在9.01~14.91%范围内。本例的总体实际上是一个N=100的有限总体,故更确切地应为:即9.15~14.77(%)间。此外,本例是百分数资料,如果田块间的差异不大,可以采用百分数资料的分析方法,即由总调查茎秆数和总螟害茎秆数求出总螟害率

,得

这样,

即11.69~12.59(%)。这个区间比前面所估小得多,这是因为前面以田块为抽样单位,而不是以茎秆为单位,除了有茎秆受害与否的随机误差外,还包含有田块间的差异,所以此处不宜采用百分数的误差估计方法。五、分级随机抽样法巢式随机抽样法(nestedrandomsampling):最简单的是二级随机抽样。例如全区的棉花结铃数,可以在区内随机抽取几个乡,乡内随机抽取若干户进行调查。这时,乡为初级抽样单位,户为次级抽样单位。又例如研究农药在叶面上的残留量,第一步随机抽取单株,第二步在单株上随机抽取叶片,分别作为初级和次数抽样单位。表15.3某农药残留量分析结果及其方差分析

植株各叶片内的残留量(单位数)合计平均13.283.093.033.0312.433.1123.523.483.383.3813.763.4432.882.802.812.7611.252.8143.343.383.233.2613.213.30变异来源自由度均方所估计的方差分量F植株间3MSB=0.2961*44.9F0.05(3,12)=3.49株内叶片间12MSA=0.0066巢式随机抽样数据可以应用方差分析法算出各阶段的抽样误差,从而估计平均数的标准误。二级抽样的公式如下:

(15·13)其中,k=初级抽样单位数,n=次级抽样单位数。

(15·14)

、分别为次级和初级抽样误差的估计值。二级抽样的数据按单向分组的组次数相等(也可能不相等)的随机模型进行方差分析。例题中k=4,n=4,方差分析结果F=0.2961/0.0066=44.9,说明植株间的误差显著大于株内叶片间的误差。这二个阶段的抽样误差是不同的,应该分别估计。但此处若将kn=4×4=16张叶片直接计算其方差则为0.0645。比扣除株间误差后剩余的株内叶片间误差0.0066大得多。[例15.5]表15.3数据的分析结果:(单位)

(单位)2

(单位)

(单位)

此处DF=3,因由均方MSB计算。

若只从1个初级单位估计置信限,如以株为单位作估计,则:(单位)2

(单位)

(单位)由一株四张叶片估计,比四株16张叶片估计,误差要大得多。若每株只取一张叶片,四株共取4张叶片,则(单位)

所以,同样测定4张叶片,从1株上取与从4株上取,抽样误差是不同的,今后对此材料抽样测定时,应多取植株,每株上可以少取一些叶片。三级抽样时的情况为:、、依次为三级、二级及一级抽样单位的抽样误差,分别抽取n、k、l个不同级别的抽样单位,则所获样本平均数的抽样误差为

获得后,其总体平均数的置信区间的计算方法与前相同。(15·15)六、双重随机抽样法双重抽样法(doublesampling):亦称相关抽样法。若所要调查的性状y是不易观察测定,甚至对观察材料要破坏后方能测定的,而试验又不容许将材料破坏,这时可以利用和所要调查的性状有密切相关关系的另一便于测定的性状x进行间接的抽样调查,按确定的相关关系从x的调查结果推算y的结果。1.做一次随机抽样,调查y和x两种性状,从中求出y依x的回归方程。这个样本容量n不一定很大,但希望x和y有较大的幅度。2.对总体进行x的抽样调查,设样本容量为m,按以上建立的回归关系从推算的标准误的近似式:(15·16)

采用双重抽样法,必须注意y和x两性状间不但要有显著相关,而且须有高程度显著相关,才能获得比较准确的结果,所以在建立回归方程时要检验其相关系数的大小及显著性。七、序贯抽样法序贯抽样法(sequentialsampling):根据逐个抽样单位调查累积的信息,在抽样过程中当机确定样本容量。序贯抽样法的基本步骤:(1)确定作为“推断”所依据的两个标准,P0与P1,此处P0=0.50(即50%)、P1=0.75(即75%)分别代表不符控制要求(必须治虫)及符合控制要求(不必打药)的两个界限。(2)确定“推断”的可靠程度的两个概率标准与,表示总体百分数P<P0而误以为P<P1的险,表示总体P>P1而误以为P<P0的风险。(3)估计总体分布类型,计算出两条平行的控制线。当总体为二项式分布时。两条控制线为下式:(15·17)

(4)将(15·17)的计算结果画成序贯抽样控制图。横坐标为m,纵坐标为h。

(5)进行实际抽样调查,将逐个抽样单位测定的累计数m及h(完好穗数)在坐标图上标记。

(6)有时总体P可能在P0与P1之间,需预先计算一个推断所需最大样本容量E(m)。当总体属二项式分布时:

[例15.7]设按上述方法对玉米完好穗率进行调查,以确定是否需要继续用药。此时确定P0=0.50,即完好穗率低于50%一定要防治;P1=0.75,即完好穗高于75%不再防治。=0.10,即应该防治而误以为不需防治的风险允许为0.10;=0.10,即不需防治(15·18)而误以为要防治的风险允许为0.10;玉米完好穗率总体分布估计为二项式分布。由(15·17)计得ha和hr的截距及斜率分别为:

ha截距

hr截距

斜率

因而两条控制线为:

由(15·18)得:

说明推断所需最大样本容量为测定18株。将计算结果画成图15.2中两条回归线。经田间逐穗实际测查结果列于表15.4。

图15.2玉米完好穗率序贯抽样控制图测查至m=18时,h=9,超出界外,抽样停止,因h<ha(ha=-2.00+0.631×18=9.36),故推论为总体完好穗率在50%以下,所以需要防治。本例恰好抽样至E(m)=18时才作出推断,这是因为总体完好穗率与“推断”所依据的两个标准P0,P1很相近,如果相差较大,则测查穗数m小于18,便能作出推断。累计测查穗数(m)123456789101112131415161718累计完好穗数(h)012234556667778899表15.4玉米完好穗数序贯抽样结果设若将及均定为0.05,P0及P1不变,则:

ha=-2.68+0.631m

hr=2.68+0.631m

E(m)=30.85两条平行线的间距增宽了,推断所需最大样本容量也增加了。又设若将、均定为0.05,P0=0.50,P1=0.60,则

ha=-7.26+0.550m

hr=7.26+0.550m

E(m)=213.08两条平行线的间距更宽了,推断所需最大样本容量也更大了。这里说明序贯抽样法中有效确定、、P0、P1值对提高工作效率是很重要的。这需要依据专业知识确定。上例因估计总体是二项式分布。如果总体不是二项式分布而属泊松(Poisson)分布则:(15·19)

(15·19)中ln为自然对数的符号,与为“推断”所依据的两个标准。例如每公斤种子含某种杂草种子在一粒以下便调进,若在三粒以上便拒绝,这时因每公斤种子中含某种杂草种子数是泊松分布,=1,=3。设若=0.1,=0.1,则:

ha截距

hr截距

斜率

“推断”所需平均样本容量,b<b0及b>b1时不同。

(15·20)

此处:说明平均抽取2个抽样单位即可获得推断。若实践中抽样至3×1.95=6个抽样单位尚无结果,则可停止抽样。计取这6个抽样单位的平均数,若偏向则推断为可调进,若偏向b,则推断为拒绝调进。

图15.3杂草种子容量序贯抽样控制图第三节样本容量的估计一、简单一级抽样样本容量的估计二、分层抽样样本容量的估计三、二级或多级抽样样本容量的估计四、抽样单位大小与样本容量的相互决定一、简单一级抽样样本容量的估计简单一级抽样主要指简单随机抽样。在估计其样本容量时,首先要对调查对象的标准差做出估计,并提出预定准确度和置信系数的要求,然后据此以确定样本容量。

因为其中n'为待定的样本容量。经变项,得:

(15·21)

(15·21)中代表预定的准确度要求,即指要求所得的样本平均数与总体平均数相差不超过给定的量。若s估计值来自大样本,则95%置信系数下t≈2,所以,(15·22)有时没有大样本的s值可借用,这时可通过平均全距(或平均极差)估计s值,

式中为k个容量为n的小样本极差的平均值,c为折算系数(表15.6),t由(表15.6)中的自由度估计值()及置信系数决定。

(15·24)(15·23)若总体属有限性时,估计的抽样误差应按(15·3)用抽样分数作矫正,因而(15·21)将变为:变项合并后:

(15·25)

如果N很大时,可计算其近似值,即(15·21):

如n0/N比数不大,可采用n0为近似值,否则须计算值:

抽样单位数()是随变异程度(s2)和置信概率()两者的增加而增加,同时随容许误差(d)数值的减少(15·26)

而增加的。二、分层抽样样本容量的估计

1.比例配置法若各区层比例为,则当总样本容量为时,各区层样本容量可按进行分配,因此只要估计出,便可确定各区层的。

因为,则。

若令,则称V为一定置信系数下的样本必需方差。得比例配置法的分层抽样样本容量的近似公式为:

(15·27)

(15·28)

若抽样分数极小,则≈。

2.最优配置法其基本出发点是区层大、误差大的应安排较多抽样单位,区层小、误差小的可少安排抽样单位。Neyman证实若按区层大小与区层标准差乘积分配抽样单位可使样本平均数具有最小方差,因而称之为最优配置。

各区层抽样单位数:

(15·29)最优配置法分层抽样样本容量估计的近似公式为:

(15·30)

(15·31)抽样分数极小时,≈。

三、二级或多级抽样样本容量的估计设第二级和第一级抽样误差的估计值为及,待定的抽样方案中第一级样本容量为,第二级样本容量为,则所待抽取的样本平均数标准误将为:

(15·32)

所以,

(15·33)

(15·34)在能假定较大时,可用作近似估计。否则需用假定自由度下的t值。设抽取第一级单位(植株)的费用为CB,抽取第二级单位(叶片)的费用为CA,则抽取单位的费用为:

(15·35)

若将(15·32)与(15·35)相乘,则:

(15·36)当最小时,其微分:

得:

此时为最佳第二级抽样单位数。3级抽样时,可根据3级抽样试验进行3级巢式数据方差分析,从而估计出一、二、三3级抽样误差为、、,(15·37)(15·38)通过,推导出、、间的关系式。若

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论