系统抽样PPT精选文档_第1页
系统抽样PPT精选文档_第2页
系统抽样PPT精选文档_第3页
系统抽样PPT精选文档_第4页
系统抽样PPT精选文档_第5页
已阅读5页,还剩85页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第八章系统抽样,第一节是第二节等概率系统抽样的估计量第三节的不同特征整体的系统抽样第四节系统抽样的方差估计,第一节是第一,系统抽样的定义,系统抽样的实施方法第二,顺序标志第四,系统抽样的特征第五,系统抽样全群采样与分层采样的关系,第一、系统采样的定义系统采样(Systematic sampling ) :也称为机械采样,将整体中的单元按某种顺序排列,在规定的范围内随机地提取开头单元,然后按规则上述定义是广义的,实际上,可以是一维的(直线或圆形的)单元阵列,可以是二维的(平面的)开始单元可以是一个,或者可以是一个组的整体单元的抽取物可以是均等的或不等的。 系统采样中最简单的是等间隔提取,系统采样

2、也称为等间隔采样。 请注意,虽然等间距采样的随机性有限制,也称为伪随机采样,但等间距采样实际上并没有失去随机性的原则。 /工业产品的质量检查,每2小时提取一个或多个样品进行检查。 二、系统取样的一种执行方法,(一)线性等间隔取样的假定:总共n个单元线性排列,且样本容量为n,且N/n=k,k为整数,从而被称为取样间隔。 实施方法:1.整体分为n段,从k个单元2.1段的k个单元中随机提取r 3。 如果每隔k个单元提取n个单元,则所提取的单元号可以参考教科书p42,其中r、r k、r 2k、 r (n-1)k的示例,并且如果N/n=k是整数,则整个单元的采样概率相等(全部等于1/k ) N/n=k不

3、是整数时,实际抽取的样品单元数既是N/k也是N/k 1,有时与设定的样品量不同。 各小区的采样概率也不相等。 在这种情况下,等间距采样可能产生偏差。 (二)循环等间距采样为了克服直线等间距采样的上述缺陷,提出了一种称为循环(或圆形)等间距采样的替代方法。 实施方法:1.把整体排列成首尾一贯的圆形。 2 .作为开头单元编号,在1N的范围内随机提取整数r。 3 .每隔k个间隔提取采样单元,其中k是最接近N/n的整数。 直到抽出n个单元为止。 评价:循环等间距采样中,即使N/n不是整数,采样量也不会随着开始值而变化,而且是严格的等概率。 例如,参见P143。 注意:以下为了便于处理,假设n始终是n的

4、整数倍。 在实际工作中,n足够大时,N/n的非整数的影响足够小,可忽略。 (3)非均匀系统取样法中常用的不均匀概率系统取样是PS系统取样指令,当代表整个单元大小的和时,取样概率是实际上执行不均匀概率取样的最简单方法是编码法。 实施方法:1.首先对小区Mi值进行累计,把最接近M0/n的整数k作为采样间距。 2 .从 1,k中随机提取1个整数作为起始单元编号。 3 .如果按间隔k提取采样单元,则与代码r、r k、r (n-1)k对应的单元即采样单元,例如,“示例7.1整体由10个行政村构成,N=10,每个行政村的人数Mi参照下表,在PS系统中提取n=3的行政村如果在623处随机地提取整数r,并且设

5、r=100的r k=723,r 2k=1346,则对应的行政村对特别大的单元保持采样,并且对剩馀的单元配置执行采样。 三、排名标记、等间距样品需要作为排名依据的辅助标记。 排序标记各种各样,可以自由选择,但汇总起来,可分为无关标记和相关标记,它们对等尺采样的作用和相应的估计精度有不同的影响。(1)用无关的标志排列(无序的系统采样),即各单元的排列顺序与研究内容无关。 研究人口收入情况时,按身份证号码、显示号码排序很方便,一般来说,这些号码与调查项目无关,所以整体单元的排列用没有随机关系的标志排序的等距采样也可以说是无秩序等距采样。 评价:在无关标志排名的条件下,各单元的排序并不是按相同顺序计划

6、各单元的调查标志值,而是等间隔采样,但在性质上并不与随机采样不同。 无关标志排名的等间隔采样实质上与单纯随机采样相同,两者只是采样形式不同,并不完全损害随机原则,在估计精度上也一致。 (2)按关系标志排序。 即,各单元的排列顺序与研究内容有关。 用于规定整体单元排列顺序的辅助标志,与调查标志具有共同的性质,或有密切的关系。 这个排名标志在中国的抽样调查实践中得到广泛应用。 例如,众所周知,农业产量调查把本年度的平均亩产作为调查变量,把过去年度的平均亩产作为排名标志。 使用这些辅助标志进行排序有助于提高等间距采样的采样效果。 (3)根据各单元本来的自然位置进行排序。 例如,学生按学校号码进行采样

7、,入户调查在街道号码以一定间隔提取等。 这种自然状态的排列可能与调查标志有一定的关系,但不完全匹配主要是为了取样方便。 四、系统采样的特点、优点:1.简单简单,采样单元等尺采样简单,快速经济,操作灵活,使用面广,是单阶段采样中变化最多的采样技术。 根据情况,也可以不使用样品盒。 例如,要对道路旁的树木进行病虫害调查,每20棵检查一棵,首先确定检查的树后,每20棵检查一棵就行了,所以没有必要对道路旁的所有树木进行编号,或者知道作为采样框的所有树木的数量。 在我国,等尺抽样已成为最主要和基本的抽样方式,在大规模抽样调查,如农产品量抽样调查、城市居民调查、人口抽样调查、产品质量抽样检查中,一般采用等

8、尺抽样。 2 .样品单元在整体中分布比较均匀,有利于估计精度的提高。 当整个单元以恒定顺序来排列后进行采样时,由于采样单元的分布更均匀,所以采样也是更有代表性的,并且比简单的随机采样更准确。 缺点:1.如果小区序列有周期性变化,提取样品的人可能不了解它,或者没有处理经验,提取样品的代表性可能很低。 此时,慎重地选择k。 例如,某航空公司每月定期航班的旅客数(淡季,旺季) k=12 2 .系统采样的方差估计复杂,一般系统采样在设计意义上是不偏颇的估计量,而且很多实用的系统采样不是严格的概率采样, 给系统采样的方差估计带来了很大困难,五、系统采样、全群采样与分层采样的关系,系统采样可以视为特殊的全

9、群采样,也可以视为分层采样。 为了查明其关系,以一般的等间距采样为例,将整体的N(=nk )个单元排列成k个一组,并对k行n列进行合计。如果等间隔取样或总n个单元排列成k行n列的矩阵,并且从1到k之间产生随机数r,则把第r行中的总单元设定为取样,并且把所有系统取样单元设定为、表中的实际上,相当于将整体分成k组的系统采样对应于从k个组中随机地提取大小为n的组执行全组采样,这是最简单的全组采样。 因此,在研究传统采样的参数估计时,经常引用所有群采样的既成结果。 关于系统采样与全群采样的参数的比较,将表列视为一层,虽然系统采样在分层采样:中为每一层提取一个单元,但是单元在每一层中的位置是相同的,从而

10、不是分层随机样本。 系统样本的整体单元按矩阵变更编号,第2节等概率系统样本的估计量、第1、符号说明第2、估计量第3、估计量方差不同的表示形式、第1、符号说明第r行第j列的单元指标值:Yrj Yrj=Y(j-1)k r、r=1、2 j=1,2,n总单元数:N个样本单元数:N个系统样本平均单元:个系统样本平均估计器:层平均单元:j=1, 2,n总体分散:系统样本(组)内分散:样本(组)内相关系数3336 k个可能性样本:为无偏差的估计量,且当采用直线等距法时,存在偏差,但当n和n均大时,偏差不大,可以忽略。 如果采用循环等间距采样,则可以无偏差、三、估计量的方差的不同表现形式,只要如上所述,整体单

11、元以无关的标记排列,就可以通过简单的随机采样来进行该方差。 当整体单元沿关系标志排列时,可将此处的等间距取样视为全群取样或分层取样的特性,所以等间距取样估计的方差可适合于全群取样或分层取样的方法结构,并可包含若干表示方法为了方便起见,假设N=nk,所以将系统样本的平均数定义为总平均方差,其方差为:性质2为系统样本估计的方差:式中:或总方差。 对于系统样本(组)内的方差,如果从整体直接提取样本量为n的简单随机样本,则整体平均的估计量的方差为:将等距样本方差与简单随机样本方差进行比较,则可以将性质3、系统样本视为特殊的所有群样本, 可以用组内相关系数来表示系统样本估计的方差:方程中:系统样本(组)

12、内的正相关性越大,即,系统样本内的单元越相似,差值越小,估计量的方差越大。 性质4,系统样本可以被视为特殊的层级样本,并且系统样本估计量的方差值可以表示用与层级内方差值相同的尺寸样本内的小区对层级平均值的相关系数: 公式中:阶层内方差,正好比例分配阶层随机样本的方差,第j个阶层的平均,同一系统样本内的阶层平均方差的相关系数,对系统样本的方差和比例分配的阶层随机样本的方差进行比较,发现:【例7.2】,如果某个母集团的N=32个单元,则为母集团的阵列我们生成样本量为4的等尺样本。 总体的排列如下表所示。 k=8,n=4,每列是等尺样本,共8个等尺样本。 N=32、k=8、n=4等尺样本的数据显然在

13、层内具有正相关性。 根据性质4,系统样本的精度低于分层随机样本。 另外,由于层内方差和总方差分别为:所以在该示例中,分层随机样本和等距样本比单纯随机样本有效,而分层随机样本比等距样本有效。 实际上,按较大顺序排列整个小区是为了增加系统样本内的方差,这必然提高了精度。使用了示例7.3和示例7.2的数据,但是反转了第二层和第四层的观测值的顺序的数据为: 在这种情况下,等间距采样平均的估计方差为:分层随机采样和简单随机采样平均的估计方差不变:在该示例中,在改变数据顺序之后,等间距采样比简单随机采样和分层随机采样更有效。 另外,上述示例示出了对于分层随机样本和简单随机样本,系统样本的效率很大程度上依赖

14、于总体性质。 即使是相同的总体数据,根据单元的排列顺序,样本(组)内的方差和相关系数也不同,来自面系的样本估计量的方差也不同。 因此,为了有效地应用系统采样,首先必须理解整体特征。 第三节不同特征的整体系统采样是:1.随机排列的整体单元用不相关的标记来排列,例如,居民的家庭计划调查是按居民姓氏排列的整体单元。 有限的总体确定了简单随机采样的方差,系统采样的方差取决于单元的排列顺序。 对于特定数组,系统采样的方差可能大于或小于对应的简单随机采样的方差。 n个单元整体合计n个! 各种各样的排列,有n! 分散各个系统样本。 但是,可以证明这个n! 各个系统样本的方差的平均值与简单随机样本的方差恰好相

15、等。 在这种意义上,当整体单元以随机顺序来排列时,系统采样的效果可以说与简单随机采样等效。 当整个单元是以不关联的标记来排列时,可以将简单随机样本的方差设置为系统样本的方差估计器:这是因为,当整个(一)线性趋势按指示值的升序排列时,样本(组)中的方差增加在实际问题上,当然不可能以指标值的大小来排列,但是经常能找到与指标值关联的梦想量,从而能获得与以该变量的大小来排列相同的效果。 其中,单元指示符Yi值假定单元号I的线性函数yi=abbi (I=1,2,n ),其中,当前,如果Y i=i,那么存在总体平均总体方差,并且2 .对于实践中经常出现的整个线性趋势,对整个系统采样方法的改进包括改进的方法

16、为两种:为采样方法的改进,例如为中心位置采样方法、对称系统采样方法,其二是估计方法的改进,例如首尾校正方法,1 .采样方法的改进(1) -中心位置采样方法(中位采样方法),其第一个样本是如果k是奇数,则以(K 1)/2为起点,k是偶数,以K/2或(K 2)/2为起点。 从200名学生中提取10人作为样本,如果k=N/n=200/10=20,开始样本为10,则其馀的顺序评价为30、50、70.90、110、130、150、170、190.用中心位置样本法缺点:整体单元顺序和k确定后,样品也确定,违反概率样品的要求。 因此,虽然对一个项目有时可能,但不能使用该方法来进行多次采样估计。 (2)希望对称(平衡)系统采样能克服中值法的随机性的缺乏,避免一些系统采样的过大偏差,留下传统采样的特征。 这三个要求简单地启发我们采用“对称系统采样法”。 对称的等间隔采样也是对有序的等间隔采样提出的,基本思想是在样本中对等出现低标志值的单元和高标志值的单元。 减小样品的偏差,有代表性地增强。 根据具体方法,对称等间隔采样有几种类型。 a .安全Sethi对称系数采样(1965): -层内对称系数采样被设定为N=nK,n被设定为偶数。首先,整体按顺序分为n/2组(各组为层级),各组由2k个单元构成。 其次,在第一组中随机确定两

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论