抽样调查-第7章系统抽样ppt课件_第1页
抽样调查-第7章系统抽样ppt课件_第2页
抽样调查-第7章系统抽样ppt课件_第3页
抽样调查-第7章系统抽样ppt课件_第4页
抽样调查-第7章系统抽样ppt课件_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、7.1 引言 一、系统抽样的定义系统抽样systematic sampling)是将N个总体单元按一定顺序陈列,先随机抽取一个单元作为样本的第一个单元,然后按某种确定的规那么抽取其他样本单元的一种抽样方法。 系统抽样的特点 系统抽样是一种被广泛采用的抽样方法,系统抽样比简单随机抽样易于操作,但抽样误差的估计比较复杂。实际中,各种抽样调查,如人口调查、产质量量调查、城乡居民调查等都普遍采用系统抽样。 系统抽样中最简单也是最常用的规那么是等间隔抽取,这种系统抽样又称等距抽样。二、系统抽样的普通方法1.直线等距抽样假设总体单元数为N,样本容量为n,N是n的整数倍.首先计算抽样间距,把总体分为n段,每

2、段k个单元,然后在第一段的k个单元中随机抽出一个单元,假设为r,然后每隔k个单元抽出一个单元.即直到抽出n个单元.例如 某学院共有200个学生,要抽10个学生做样本首先计算抽样间距 然后在120中随机抽出一个数字,假设抽中排在第3位的学生,那么其他样本单元依次为第23,43, 63,83,103,123,143,163,183位共10个学生抽取.2.循环等距抽样 当N不是n的整数倍,即抽样间距 不是整数时,实践抽取的样本量是不确定的,每个总体单元入样的概率也是不等的,这时用直线等距抽样就有能够产生偏倚,假设采用循环等距抽样那么可以处理此问题. 其方法是将N个总体单元排成首尾相接的一个圆从1到N

3、中随机抽取一个起点作为起始单元,然后每隔k个单元抽出一个,直到抽出n个单元为止.循环等距抽样 例如总体有14个单元,欲抽取n=3,那么取与之最近的整数然后在总体中随机抽取一个单元作为起点,假设抽中3,即依次抽取直到抽满。因此样本的编号为:3,8,13。811101331764529123. 不等概系统抽样法不等概系统抽样中每个单元的入样概率不相等.最常用也是最简单的不等概系统抽样是 抽样.即入样概率 与单元大小 成比例的系统抽样.令表示总体一切单元大小的总和,那么实施不等概系统抽样最简单的方法是代码法:下面以例7.1来阐明【例7.1】设总体由10个行政村组成,N=10,每个行政村的人数 见下表

4、.利用 系统抽样抽取n=3个行政村.行政村编号人数(Mi)累计人数抽中代码12345678910103432962468473205168146317103535631877961103412391407155318701007231346用 系统抽样抽选行政村从1,k中随机抽取一个整数 r=100,那么代码为:r=100, r+k=100+623=723, r+2k=100+2623=1346,所对应的行政村入样,其序号依次为1,4,8. 在系统抽样中,对于特别大的单元一定要留意.假设出现 ,该单元一定被抽入样本,而且还能够被反复抽到.为了防止这种情况,可以事先将这些单元抽出直接入样.三、总

5、体单元的排序 系统抽样时N个总体单元的排序情况大致有以下三种:1按无关标志排队2按有关标志排队3介于上述两者之间四、系统抽样的优缺陷系统抽样的优点:1.简便易行,容易确定样本单元2.样本单元在总体中分布比较均匀系统抽样的缺陷:1.假设单元的陈列存在周期性的变化,而抽样者对此缺乏了解或缺乏处置阅历,抽取的样本的代表性就能够很差。2.系统抽样的方差估计较为复杂,普通不存在无偏估计量。五、系统抽样、整群抽样和分层抽样的关系 系统抽样既可以看成一种特殊的整群抽样,又可以看成一种特殊的分层抽样。下面以普通的等距抽样为例阐明: 假设抽样间距为k,总体单元数为N=nk。将总体的N个单元陈列成k行n列,如下表

6、所示。表中的每一行单元都是系统抽样的一个样本。系统抽样的总体单元1 2 j n平均12rk1 2 j n群平均12rk层平均令得下表:假设将每一行单元视为一个群,那么总体由k个群组成每个群的大小都是n。系统抽样就是从 中任选一个单元,被选中单元所在行的一切单元就构成系统抽样的一个样本。7.2 等概率系统抽样估计量一、符号阐明第r行第j列的单元目的值:总体单元数:N 样本单元数:n系统样本平均数:系统样本均值估计量:层 均 值: 总体方差:系统样本内方差:样本内相关系数:层内方差:同一系统内对层均值离差的相关系数:二、估计量假设起始值为R,相应系统样本的平均值为:取系统样本的平均数作为总体均值

7、的估计量:性质1 当 N=nk 时,有k个能够样本:因此 是无偏估计量。是有偏的。个能够样本所包含的单元数不全相等,因此但是当时,采用直线等距抽样得到的三、估计量方差的不同表示方式为方便起见,以后均假定时,系统样本的平均数作为总体均值的估计是无偏的。它的方差按定义为:下面给出方差的三种不同的表示方式。方式一 用样本内方差表示系统抽样估计量的方差。式中,为总体方差;为样本内方差。 假设从总体N中直接抽取样本量为n的简单随机样本,那么总体均值 的估计量 的方差为:式中, 为总体方差;n为样本量;f为抽样比。 对于固定总体,总体方差是独一确定的,因此,系统样本内的方差 越大,系统抽样的精度越高.为了

8、提高系统抽样的精度,总体单元的陈列应尽能够增大样本内方差。比较等距抽样方差 和简单随机抽样方差 ,方式二 系统抽样可看作一种特殊的整群抽样系统抽样估计量的方差可以用样本内相关系数 表示:式中,为样本内相关系数。 系统样本内正相关越大,即系统内单元越类似,那么估计量方差越大,等距抽样精度越差。方式三、系统抽样可看做一种特殊的分层抽样,系统抽样估计量的方差可以用层内方差 表示:式中,为层内方差;为同一系统样本内对层均值离差的相关系数。比较系统抽样方差 与比例分配的分层随机抽样方差,比例分配的分层随机抽样总体均值估计量的方差。 因此当系统抽样的精度低于分层随机抽样;系统抽样的精度与各层抽取一个单元的

9、分层随机抽样一样;系统抽样的精度高于分层随机抽样。【例6.3】 设某总个体N=30个单元,总体单元陈列如下表,我们要产生一个样本量n=5为的系统样本,试与其他抽样方法的结果进展比较。 下面经过一个模拟的例子阐明系统抽样与其他抽样方法的联络,并对不同抽样方法的效果进展比较。N=30,k=6, n=45 等距样本数据12345群平均群内方差1111213141513.002.52111213141513.002.53111213141513.002.54111213141513.002.55111213141513.002.56111213141513.002.5层平均11.0012.0013.0

10、014.0015.0013.002.5层内方差0000002.07从上表可计算出:总体方差平均群行内方差平均层列内方差 下面我们按不同的抽样方法计算总体均值估计量的方差。(1) 以行为群的整群抽样或以行为“系统样本的系统抽样k=6,n=5.(1) 以行为群的整群抽样或以行为“系统样本的系统抽样k=6,n=5.(2) 以列为群的整群抽样或以列为“系统样本的系统抽样k=5,n=6.3以行为层的分层随机抽样每层抽1个单元L=6,n=6,f=6/30.4以列为层的分层随机抽样每层抽1个单元L=5,n=5,f=5/30.5简单随机抽样n=5,f=5/30.6简单随机抽样n=6,f=6/30.【评价】从上

11、面的结果可以看出: 1像整群抽样一样,系统抽样的估计精度几乎完全取决于其“系统样本内差别与总体差别的对比。 2系统抽样与其他抽样方法相比其优劣难以定论,能够好也能够差,这完全取决于其“系统样本内差别与总体差别的对比,而这个对比那么取决于系统抽样中的总体单元陈列顺序。 3另外三种方法的比较同样难定优劣,都需求具体情况详细分析。 我们下面将上表中总体单元的顺序重新陈列,来研究总体单元不同陈列对系统抽样的影响。依某种随机化程序将总体单元重新陈列12345群平均群内方差1111211121513.002.692111211121513.002.693111213141513.002.504111213

12、141513.002.505131413141513.000.706131413141513.000.70层平均11.6712.6712.3313.3315.0013.00层内方差1.071.071.071.07002.07从上表可计算出:总体方差平均群行内方差平均层列内方差 下面我们按不同的抽样方法计算总体均值估计量的方差。(1) 以行为群的整群抽样或以行为“系统样本的系统抽样k=6,n=5.(2) 以列为群的整群抽样或以列为“系统样本的系统抽样k=5,n=6.3以行为层的分层随机抽样每层抽1个单元L=6,n=6,f=6/30.4以列为层的分层随机抽样每层抽1个单元L=5,n=5,f=5/3

13、0.5简单随机抽样n=5,f=5/30.6简单随机抽样n=6,f=6/30.【评价】将此结果与上例结果比较我们不难发现:1简单随机抽样的方差未变,阐明简单随机抽样的结果与顺序无关; 2系统抽样、整群抽样以及分层抽样都与单元顺序有关,这阐明在选择抽样方式时,必需尽能够多地掌握有关单元的顺序和总体构造和特点。 3本例中分层抽样方差的结果优于简单随机抽样,而简单随机抽样优于系统抽样和整群抽样。【例6.5】 设某个总体有N=32个单元,总体单元陈列显然有稳定上升的趋势。我们要产生一个样本量为4的等距样本,将总体单元陈列如下表,k=8,n=4,每一列都是一个等距样本。共8个等距样本。层 等 距 样 本

14、编 号层平均3.7511.521.87532.251234567817172718182838203031120314122434514243461625367162738总数5255616574778388-N=32,k=8, n=4 等距样本数据 显然,层内有正相关,前4个样本与各层均值的离差都是正数,后4个样本与各层均值的离差都是负数,由性质4,当 时,系统抽样的精度低于分层随机抽样.层内方差与总方差分别为: 因此,简单随机抽样均值估计的方差 、分层随机抽样均值估计的方差 以及等距抽样均值估计的方差如下:【例7.3】 利用例7.2的数据,但将第二层与第四层的察看值次序颠倒,数据见下表:层

15、 等 距 样 本 编 号层均3.7511.521.87532.251234567811617381161836314203431220344112431582430682528772727总数7271716970676768- 显然,等距样本内数据与各层均值得离差有正有负,例如第一个等距样本对各层均值的离差分别为-2.75,4.5,-4.875,5.75.该样本内六对离差组合中四对的乘积是负数.因此,由性质4, ,系统抽样的精度高于分层随机抽样. 数据顺序的这种改动不会影响简单随机抽样均值估计的方差 和分层随机抽样均值估计的方差 。这时等距抽样均值估计的方差为: 本例中,等距抽样比简单随机抽样

16、和分层随机抽样都更有效。 由此可见,相对于分层随机抽样和简单随机抽样来说,系统抽样的效率很大程度上取决于总体性质。即使是一样的总体数据,对于不同的单元陈列顺序,就有不同的样本群内方差 或相关系数 从而系统抽样估计量的方差也就不同。 因此,假设要有效地采用系统抽样,必需先了解总体的特征。6.3 方差估计及其改良一、方差的近似估计 虽然有各种各样的估计量方差的实际公式,但难以得到抽样估计量方差的无偏估计,这是系统抽样的最大的缺陷。因此,许多从事抽样设计的业者在决议能否采用系统抽样时往往犹疑不决。 为此,我们分别针对几种不同总体模型,引见几种近似估计方法,以期选择较为适宜的估计量。1随机次序陈列的总

17、体 按照无关标志陈列的总体单元,可以看着是随机陈列的。 在这种情况下,系统抽样方差与简单随机抽样方差是相等的。即总体单元按随机陈列顺序时,就可以采用简单随机抽样的方差作为系统抽样的方差估计。方差估计为:估计量的方差为:趋势陈列情形 当总体存在或很易找到与研讨变量相关程度较高的辅助变量作为排序根据时,或是自然的陈列顺序与总体单元的变量值的大小分布呈现某种相依或相悖的趋势时,总体单元的陈列顺序就处于趋势排列形状,其中线性趋势最为典型。 对于来自趋势陈列总体的等概系统样本,通常可视为分层样本,其整体均值的估计为:抽样方差的无偏估计为:二、线性陈列情形抽样与估计的改良1.线性趋势的总体 假设总体单元按

18、目的值从小到大顺序陈列或按某个与其有线性相关的辅助变量的大小顺序陈列,此时目的值 与单元序号 也线性相关.这种按有关标志陈列的总体称为线性趋势的总体,如以下图所示. 我们先假定一种简单的线性趋势总体,即单元目的值 是单元序号i的线性函数,即经过线性变换后,记以下仍用 表示系统抽样 在具有线性趋势总体下,比较系统抽样的方差、简单随机抽样的方差、分层随机抽样的方差它们的差别。当时,有故总体均值总体方差从而简单随机抽样的方差:分层随机抽样的方差:系统抽样的方差:比较三式可知等号当且仅当 时成立。2.对线性趋势总体的系统抽样法的改良 虽然严厉的线性趋势陈列总体在实践问题中很难成立,但其结论在定性上还是

19、适宜的. 为了使系统抽样法到达更高的精度,有必要对线性趋势总体的系统抽样法进展改良.主要有两个途径:一种是抽样方法的改良;(如中心位置抽样法和对称系统抽样法)另一种是估计方法的改良(如首尾校正法).(1) 中心位置抽样法 初始样本不是随机抽取,而是直接取第一段的n个单元中处于中间位置的单元.中点取奇数时,当 k为偶数时,当 k为中点取(2) 对称系统抽样法Sethi对称系统抽样法P206Singn对称系统抽样法P207(3) 首尾校正法Yates首尾校正法Bellhouse和Rao首尾校正法(见P205)Bellhouse和Rao首尾校正法 假设初始单元编号 r 较大,满足r+(n-1)kN,

20、那么有越过单元N的样本单元有n2个,相应的权数如下:【例7.4】总体有23个单位,拟抽取n=5, 那么 取与之最近的整数k=5。然后在总体中随机抽取一个单位作为起点,假设抽中r=19,样本单位的顺序编号分别为:19,1,6,11,16。首样本单元为 ,尾单元为 。求相应单元的权数。,6.4=nNk解:由于其他3个样本单元的权数为:0.2首样本单元 的权数为:尾样本单元 的权数为:三、周期动摇的总体 周期性动摇是指总体单元目的值按其顺序程周期性变化.例如商店的日销售额以7天为周期变化,普通周末为销售顶峰期,周一、周二下降;城市交通量以24小时为周期变化,上下班时间为顶峰期。 对于周期性动摇总体,

21、运用系统抽样一定要特别留意。系统抽样的估计效果与抽样间距k及单元目的值的变化周期直接的关系。7.4 系统抽样的方差估计 系统抽样法的缺陷之一,就是很难得到估计方差的无偏估计。本节引见几种方式相对简单的估计方法,这些方差估计方法只能进展近似计算而且不同的方法顺应于不同的总体模型。一、等概系统抽样的方差估计我们讨论用估计总体均值 时的方差的估计。一系统样本来自随机陈列总体 系统样本可视为简单随机样本,从而可用简单随机抽样下的抽样方差的无偏估计:二系统样本分层随机抽取 假设把系统样本看成从各层抽取两个单位分层随机抽样,可采用以下方法。1。从第二个样本单元开场,每个样本单元与前一个样本单元组成一对,共 n-1对,第I对的样本单元的对n-1个方差估计为进展平均,再乘以得 的估计:2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论