抽样调查教案-6系统抽样_第1页
抽样调查教案-6系统抽样_第2页
抽样调查教案-6系统抽样_第3页
抽样调查教案-6系统抽样_第4页
抽样调查教案-6系统抽样_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、PAGE PAGE 146njnuliqicai第6章 系统抽样6.1 引言6.1.1定义定义6.1 /6.2系统统抽样(syystemaatic ssampliing)又称称为等距抽样样、机械抽样样。按照这种种抽样方法,从从总体中抽取取第一个样本本点(随机起起点),然后后按某种固定定的顺序和规规律依次抽取取其余的样本本点,最终构构成样本。这这种抽样被称称为系统抽样样是因为这种种抽样的第一一个样本点虽虽然随机,但但其余样本点点的抽取看起起来好像不再再随机,因而而是系统的。“牵一发而动全身”。比如要对居民用户抽样,可按户口册每隔多少户抽一户;工厂为检查产品质量,在连续的生产线上每隔20分钟抽选一

2、个或若干个样品进行检查;农业上为估计农作物产量或病虫危害,对一大片农田每隔一定距离抽取一块进行实际测量或调查,等等。 本章只作作简单方法介介绍。更多内内容参见文献献2、文献3。 6.1.2系统统抽样的一般般方法定义6.3 直直线等距抽样样 假设总总体单元数为为,样本容量量为,为的整数倍。把把总体单元排排列成一直线线。先计算出出系统抽样间间隔,(当不是的整数倍倍时,可令kk等于最接近近的整数)。然后在第一阶段1k个单元中随机抽取一个单元,假设为r,然后每隔k个单元抽取一个单元,即分别为:r+k,r+2k,.,直至抽取了n个单元。抽取的样本编号为:r+(j-1)k (j=1,2,n)。 1 22

3、r k k+1 kk+2 k+r 2k 2kk+1 22k+2 2k+r 3k kk k k k+r 2k+r (n-1)k+rrk(k为抽取间隔)例如某学院有2200个学生生,要抽取110个学生作作为样本。首首先计算220,然后在在120中中随机抽取一一个数字,假假设抽中排列列中第3位的的学生,则其其它入样单元元依次为233,43,663,83,1103,1223,1433,163,1183。定义6.4 圆圆形等距抽样样(Lahirri) 这种方方法主要适用用于不为整数数时。因为当当k 不为整数数,取其最接接近的整数时时,实际样本本容量可能与与n相差1,而而且每个单元元入样的概率率不等,这时

4、时用直线等距距抽样可能产产生偏倚。例:设总体N10,其标标志值分别为为,总体均值值为。若要求求样本容量为为n3,采用用直线等距抽抽样,验证样样本均值是否否为总体均值值的无偏估计计?解:先计算间距距10/333.333.,取k3,在13中取一个个随机起点,然然后每隔3个个单元抽取11个单元可得得下列的可能能样本:三个可能的系统统抽样样本均均值分别为: ,所有,因此样样本均值不是是总体均值的的无偏估计。在这种情况下,样样本均值将不不等于总体均均值,因而估估计不是无偏偏的。为了使使得样本均值值是总体均值值无偏估计,将将个总体单元元排成首尾相相接的一个圆圆。抽样间距距k 取最接近近的整数,从从1中随机

5、抽抽取一个随机机起点作为起起始单元,然然后每隔k 个抽取一个个,直到抽取取n 个为止。如如果序号大于于时,将其减减去得到的在在1中的号码码入选。正是因为排列为为圆形而非直直线且随机起起点在1NN中而非在11k(或k+1)中中,导致了该该抽样下的每每个样本严格格等概率地被被抽中,因而而估计是无偏偏的。 若是圆形形等距抽样,则则在1100中抽取一个个随机起点,假假设为7,然然后每隔3个个单元取一个个,它们的序序号是7、110、13。事事实上是、入样。 考虑到到实际问题中中,n通常比较大大(大于等与与50),多多一个少一个个并无关宏旨旨,因此可以以不必考虑NN/n不是整数的的影响,故通通常我们都假假

6、定N是n的整数倍。3 不等概率抽抽样法 不等概率抽样样中每个单元元入样的概率率不相等。最最简单也是最最常用的是系系统抽样,即即入样的概率率与单元规模模大小成比例例的系统抽样样。令表示所所有单元规模模大小总和,则则(包含概率率,见不放回回不等概率抽抽样)。 在实际中,不不等概率的实实施常采用代代码法。如下下所示: 先将单元规模模(不失一般般性,设其为为整数)值累累加,欲从总总体中抽取容容量为n的样本,取取最接近的整整数k为抽样间距距,从1,k中随机抽取一个整数r作为起点,则代码r,r+k,r+(n-1)k 所对应的单元入样。例7.1 设总总体由10个个行政村组成成,N10,每每个行政村人人数为,

7、见表表7.1。利利用系统抽样样抽取n3个行政政村样本。表7.1 用系统抽抽样抽取行政政村行政村编号人数累计人数抽中号码12345678910合计103432962468473205168146317187010353563187796110341239140715531870100 *723 *1346 *,从16233中抽取一整整数,例如是是,则,所对应的行行政村入样,其其序号分别为为1、4、88。这种方法,当所所有单元规模模时,每个单单元不可能重重复,是一种种不重复抽样样;当时(超超过抽样间隔隔),第i个单元为必必然被抽中单单元,且有可可能重复抽中中;当,第i个单元为必必然被重复抽抽中。实

8、际中中应尽量避免免这种重复抽抽中现象。一一种简单的方方法就是把这这种大规模单单元作为必然然调查单元,不不再列入抽样样总体,另一一种方法是将将大规模单元元划分为几个个小规模单元元。6.1.3总体体单元排序 1 按无无关标志排序序,如调查学学生视力,按按学号排列,显显然视力与学学号没有关系 2 按有有关标志排序序 调查身高高时,按入校校体检的身高高顺序排列 3 介于于以上两者之之间 6.1.4系统统抽样的优缺缺点 优点:系系统抽样是实实际中常用的的一种抽样方方法,1其简单易行,只要确定起点和间距,便于推广2便于利用已知知信息,系统统抽样的误差差大小与总体体单元的排列列顺序有关,因因此当对总体体的结

9、构有一一定的认识了了解,并有相相关的标志可可以利用时,可可以运用已知知的信息先对对总体单元进进行排列,再再采用系统抽抽样,就能提提高系统抽样样的效率。但缺点也很明显显: 1 方差差复杂,难以以估计 2 如果果单元排列存存在周期性,而而抽样者缺乏乏对此了解,则则很容易抽取取出的样本代代表性很差。例例如,要调查查70路每天天的客流量,采采用系统抽样样,每周取一一天,即每隔隔7天抽取一一次。不管取取了星期一到到星期五,还还是星期六到到星期日中的的哪天作为起起点,样本代代表性都很差差。6.1.5系统统抽样与整群群抽样和分层层抽样的关系系 系统抽抽样可以看作作特殊的整群群抽样和分层层抽样表6-1 系统统

10、抽样的总体体单元1 2 3 j n行平均123rk列平均 见下表6-1,如如果将每一行行单元视为一一个群,则总总体由k个群组成,每每个群规模大小都为为n。系统抽样样从,中任选一个个,被选中的的单元所在行行的所有单元元就构成系统统抽样的样本本。显然每个个群都是可能能的样本。因因此系统抽样样可以看成从从k个群中随机抽抽取1个群的的整群抽样。 同样将每一列列视为一层,则则总体由n个层组成,每每个层大小都都为k。系统抽样样可以看作从从每个层中抽抽取一个单元元的分层抽样样,但由于样样本单元在各各层位置相同同,因此系统统抽样不同与与分层抽样。表6-2系统抽抽样总体单元元重新编号1 2 j n群平均12rk

11、层平均 6.2 等概概率系统抽样样估计量为讨论方便,今今后总是设。6.2.1符号号说明 第r行第第j列单元指标标,对照表6-2换个排序序方式有 总体单元元数N;样本单元元数n 总体方差差 总体(群群)均值,(每行均值值) 样本(群群)均值, 系统样本本均值, 总体层均均值,或,(每列均值值)6.2.2 估估计量 假设起始点点为r,则相应的的系统样本的的平均值为, (6.1)(群内普查)取取系统样本平平均值作为总总体均值的估计量,即: (6.2) (由由于群内普查查)定理6.1 当当,有k个可能样本本 ,因因此是无偏估估计。 (6.9)(方差定义义)定理6.2 用用系统样本(群群)内方差 表示为

12、系统样本(群群)内方差 (类似整整群抽样中的的定义)因为系统抽样相相当于抽取一一个群的整群群抽样,因此此群内的单元元差异大小,也也即系统样本本内的差异大大小会直接影影响系统抽样样的效果,故故定义了系统统样本(群)内内方差,它反反映了所有kk个可能系统统样本内的方方差大小。因因此可以想象象,和整群抽抽样一样,系系统样本内方方差愈大,抽抽样效率愈高高。注意此习习惯叙述,(大写)本本该表示总体体,由于群内内普查,这里里的特殊性在在于所谓的“系统样本”实际是表6-2中行表示示的总体群。 (6.100)证明: (交叉项项为0) 两边同除以,根根据方差定义义和定义,得得到 如果直接用简单单随机抽样,则则

13、,作差差: ,于是 对于固定定总体,总体体方差是唯一一固定的,因因此系统样本本内方差越大大,系统抽样样精度越高。故故为了提高系系统抽样的精精度,总体单单元的排列应应尽可能增大大样本(群)内内方差,使得得群内基本单单元样本差异异比较大。定理6.3系统统抽样可以看看作特殊整群群抽样,其方方差可用样本本(群)内相相关系数表示示 其中系统样本(群群)内相关系系数(系统样样本内各单位位两两之间的的相关系数)为为 (类似4.9)证明:总体单元数群内单元数总体群数样本群数总体均值估计量群内相关系数系统抽样整群抽样NNMnMkN1n、由整群抽样,(PP141,4.11)。由定理6.3看看出,系统样样本(群)内

14、内正相关性越越大,即样本本(群)内单单元越相似,则则估计量方差差越大,系统统抽样精度越越差,这与定定理6.2结结论一致。定理6.4 系系统抽样可看看成特殊的分分层抽样,其其方差可以用用层内方差和和表示定义:总体层内内方差总体(层)内相相关系数:同同一系统样本本内对层均值值离差的相关关系数,系统统样本内各单单元两两之间间分别与各自自层的平均数数相比较而计计算的相关系系数。对于固定的群群,两个不同同单元离差乘乘积共有个组组合,所以总总体这样的离离差乘积有个个,因此上式式分子为 分母应为对个基基本单元的对对所在层的层层均值离差平平方求平均,因因此可以表示示为,于是 证明:由表6.2可以看出出,系统抽

15、样样可以看作一一种特殊的分分层抽样,共共n层,每层均均为k个单元(规模模相等),从从每层固定同同一位置各取取1个单元作为样本本。,而根据(6.9),两边同乘乘以,有+,因此公式成成立。 比较系统抽样方方差与比例分分配的分层随随机抽样方差差(即),作商:,因此,。 从前面的系统统抽样排列的的方阵看出,如如果按有关标标志排列后采采用直线等距距抽样,系统统样本中的单单位往往会同同时大于所在在各层的均值值,或同时小小于所在各层层的均值,造造成;因而需需考虑适当的的改进抽样方方式,使得尽尽可能满足。例 设某个模拟拟总体有N32个单单元,总体单单元排列显然然有稳定上升升趋势。我们们要抽取一个个容量为4的的

16、等距样本。将将总体单元排排列如下表77.4,k8,n4。每一一列是一个等等距样本,共共有8个等距距样本。表层等距样本编号层均值3.7511.521.87532.25层内方差1234567817172718182838203031120314122434514243461625367162738群均值1313.7515.2416.2515.519.2520.752214.343775可以看出,层内内正相关,前前四个样本对对各层均值离离差均小于00,后4个样样本与各层均均值离差均大大于0,所以以(同一层内内两不同单元元离差乘积,累累积),因此此系统抽样精精度要低于分分层抽样。有: 2.5116 例

17、利用上例,将将第二层和第第四层观察值值调换,见表表表层等距样本编号层均值3.7511.521.87532.25层内方差1234567811617381161836314203431220344112431582430682528772727群均值1817.7517.7517.2517.516.7516.756814.343775可以看出,等距距样本内数据据对各层均值值离差有正有有负。造成,因因此系统抽样样精度要高于于分层随机抽抽样。此时,没没有影响、。但等距抽抽样均值的方方差。可见系统抽样的的效率很大程程度上取决于于总体的特征征。例6.3/6.4 P2000 见PPPT6.3 不同同特征总体的

18、的系统抽样6.3.1 随随机次序排列列第总体系统抽样的方差差决定于单元元的排列顺序序,它是不稳稳定的,因为为不同的排列列顺序会使系系统样本内的的方差发生变变动,得到不不同的抽样方方差可能大于于相应简单随随机抽样的方方差,也可能小于于相应当简单单随机抽样的的方差。例如如,若总体共共有N个基本单元元,则总体共共有种排列方方式,其中任任何一种固定定的排列方式式对应的系统统抽样其抽样样方差可能大大于也可能小小于简单随机机抽样。但从平均意义义上讲,系统统抽样方差与与简单随机抽抽样方差相等等。即,详见文献:杜子芳抽抽样技术及其其应用,PP390。因此,可以用简简单随机抽样样的方差作为为系统抽样的的方差估计

19、: , 比如总体按照无无关标志排列列,可以看作作随机排列的的,因此系统统样本内方差差和总体方差差相差不大,系系统抽样的方方差也就接近近简单抽样的的方差。 对于很很多客观总体体,并不存在在或很难找到到与目标变量量相关的辅助助变量作为排排列依据,于于是只能借助助原来的自然然顺序或按无无关变量进行行排列,这时时就是所谓的的随机次序排排列。例:某乡村公路路两旁种植了了200000棵小树,一一年后检查小小树的成活率率。采用系统统抽样的方法法,先在1100棵树树之间随机地地抽取一棵树树作为起点,然然后每隔1000棵抽选11棵,一共抽抽取了2000棵树作为样样本,发现其其中成活1774棵,估计计成活率的99

20、5的置信信区间。解:,方差用简简单估计量的的方差估计 0.0000562666,82.6911.74。6.3.2线性性趋势的总体体1线性趋势总体体 若总体单元元按指标从小小到大顺序排排列或按某个个与其有线性性关系的辅助助变量的大小小顺序排列,此此时指标值与与单元序号也也是线性相关关。一般地,对对于线性趋势势总体,系统统抽样优于简简单随机抽样样,但比分层层抽样差。为为了说明问题题,我们不妨妨假设其指标标变量为简单单线性函数。 ()。做变变化得到,所以:,从而:;因为每层含有kk个单元,每每个单元相差差1,有n个层,因此此方差相同,即即有:,每层抽1个单单元,等同于于按比例分配配样本的分层层抽样,

21、 ;最后,比较三者关系系有, 在实际问问题中,当然然不可能完全全按指标值的的大小顺序排排列,只能找找到一些与指指标值相关的的变量进行排排序,当然也也不可能是完完全线性的趋趋势,但是系系统抽样的效效率总会高于于简单随机抽抽样。因此如如果采用简单单随机抽样的的误差公式,这这将是一个比比较保守的估估计。也就是是说,实际误误差应该没有有估计那么大大,因此统计计学家们提出出了一些改进进估计方差的的公式。见后后文。 2 对线性趋趋势总体的系系统抽样的改改进 抽样方法法的改进 中心位置置法 当总体单单元的排列呈呈现线性趋势势,起始单元元的位置偏高高或偏低会直直接影响整个个样本的代表表性,为提高高抽样效率,麦

22、多(Madow,1953)提出中心位置法,即初始样本不是随机抽选,而是直接取第一阶段的k个单元处于中间位置的单元。当为奇数时,中中点取;当为偶数时,中中点取或。此种抽样法虽然然可以提高精精度,但对于于一定顺序排排列的总体,样样本是确定的的,失去了随随机性。尤其其对同样问题题进行连续性性调查,样本本老化,会带带来较大不利利影响。例如某学院共有有200个学学生,要抽取取10个学生生作样本,抽抽样间距为。如如果采取中心心抽样法,起起始样本就是是第10个学学生,其余样样本单元依次次为第30,550,70,990,1100,130,1150,1770,1900位学生。对称系统抽样(1)塞蒂(SSethi

23、,11965)对对称系统抽样样这时一种分组对对称方法。 当,为偶数数时,将总体体分为组,每每组含有个单单元,在各段段内随机抽取取与两端等距距地两个单元元作为样本,一一端靠近低端端,一端靠近近高端。假设设起始随机数数为,入样的的单元为::, 当为奇数,仍仍按上述步骤骤进行,但到到后,增加靠靠近终端的一一个单元,。 仍是从2000个学生中中抽取10个个作为样本,将将总体分为段段,1400,41880,81120,11211660,1611200。假假设随机起点点为3,则样样本单元依次次为第3,338;43,778;83,1118;1223,1588;163,1198位学生生。(2)辛(Siingn

24、,11968)对对称系统抽样样 这种方法是每每次选取与总总体的两端相相对称的单元元。假当,为偶数时时,设起始随随机数为,入入样的单元为为:: ,。当为奇数,仍按按上述步骤进进行,但到后后,增加靠近近中间的一个个单元。假设从300位位学生中抽取取15个作为为样本,则,抽抽样间距为。假假设随机起点点为3,则样样本单元依次次为第3,2298;233,278;43,2558;63,2238;833,218;103,1198;1223,1788;143。3 估计量改进进首尾校正法(YYates,11948;Bellhhouse & Rao ,11975) 针对情形,假假设随机起点点样本单元编编号为,则首

25、样本单元的权权重为 尾样本单元的权权重为 其它样本权重为为 首尾校正法修正正后的估计量量为 针对情形,假设设随机起点样样本单元编号号为, 如果满足,则则所有个样本本单元都不经经过单元,相相应权重如下下:首样本单元的权权重为 (6.221)尾样本单元的权权重为 (6.222)其它样本权重为为 如果满足,则有有样本单元都都越过单元,假假设越过单元元的样本有个,相相应权重如下下:首样本单元的权权重为 (6.233)尾样本单元的权权重为 (6.244)其它样本权重为为 例7.4 总体有有个单元,拟拟抽取个样本本,则,取与与之最接近的的整数。然后后在总体中随随机抽取一个个起点,假设设,样本单元元的顺序编

26、号号分别为:119,1,66,11,116。首样本本单元,尾样样本单元。求求相应单元的的权重。 解:由由于 首首样本单元的的权重为00.12222 尾尾样本单元的的权重为00.27788 其其它三个样本本单元的权重重为0.26.3.3、周周期波动的总总体 周期波动动是指总体单单元指标按其其顺序呈现周周期变化。例例如,商店的的日销售量一一般以7为周周期变化,城城市交通以224小时为周周期变化。等等等。 对周期变变化的总体,使使用系统抽样样要特别注意意。抽样的间间距尽量不要要等于周期,一一般取半周期期。通常采用用交叉法,即即在同一个总总体中独立地地取多个样本本,再将几个个样本合并计计算估计量及及方差。6.4 系统统抽样的方差差估计 系统抽样很难得得到方差的无无偏估计。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论