10-第十章++其它抽样方法技术.ppt_第1页
10-第十章++其它抽样方法技术.ppt_第2页
10-第十章++其它抽样方法技术.ppt_第3页
10-第十章++其它抽样方法技术.ppt_第4页
10-第十章++其它抽样方法技术.ppt_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十章 其它抽样方法技术,本章要点,本章主要对样本轮换、双重抽样、随机化装置、交叉子样本等抽样技术原理、方法、特点及应用条件进行了较为全面的介绍。具体要求: 掌握本章所介绍的几种抽样技术的特点及应用条件,在抽样实际工作中能够正确运用该种技术,提高估计的精度与效果。,第一节 样本轮换第二节 双重抽样第三节 随机化装置 第四节 交叉子样本,问题提出,时间序列数据以及随后出现的面板数据都是经济统计分析和计量分析中非常重要的数据类型。当我们在研究应该应用什么统计和计量的方法去分析既定的时间序列数据时,是否考虑过以下几个问题?,时间序列数据是如何产生的?,所产生的时间序列数据是否准确?,如何让时间序列数

2、据更加准确?,随着社会经济现象的不断变化和发展,很多调查对象的总体也在不断变化和发展。为了能够及时反映调查总体的这种变化和发展,调查部门就需要对同一总体在不同时间上进行连续性抽样调查(Successive Sampling Survey ),并定期公布调查结果,形成一系列时序统计数据。因此,社会经济抽样调查一般都应该是连续性的定期调查。,一次性抽样调查与截面数据,连续性抽样调查与时间序列数据及面板数据,抽样调查除了对总体的一次性抽样以外,很多重要的调查是隔一段时间重复进行的,对于这种经常性的抽样问题,就必须重视其样本轮换问题的研究。 对于样本轮换问题,我们至少应考虑以下问题:每次调查的样本如何

3、组成?是采用固定样本还是采用全新的样本,或者是部分保留部分替换,即样本轮换;在估计后期的总量或均值时,是否需要利用前期的信息来改进现期的估计,以及如何利用;如果采用样本轮换的方法,如何确定最优的保留比例或替换比例。,第一节 样本轮换,连续性抽样设计方法,按抽取样本的不同划分,单水平轮换,不完全的单水平轮换,多水平轮换,轮换模式应用举例,加拿大劳动力调查(LFS)使用60单水平轮换模式 美国现时人口调查(CPS)使用484不完全单水平轮换模式 美国消费者支出的季度调查(CEQ)便采用40三水平轮换模式 中国城市住户抽样调查 中国规模以下工业企业抽样调查 中国农产量抽样调查,一、样本轮换的原因 如

4、果是单纯地估计现值的情况,当然最好每次重新抽取新样本,这样必然会增加费用;如果要逐期地与上期比较,则采用固定样本的方法为好,固定样本可以消除样本的因素而只观察动态的变化。然而,样本长期不变,随着时间的推移,固定样本会显露它的弊端,既难以反映总体的变化,而且受访者也会产生厌烦心理,出现不合作或回答质量下降等问题,从而影响调查质量。另外,无论是采用固定样本还是全新样本都难以正确地反映总体在各个不同时间上的水平及变化,因此,一种广泛采用的方法是样本轮换,即每隔一定时间(一个月、一季或一年)更换一定比例的单元,保留其余单元。,第一节 样本轮换,与传统的一次性抽样调查相比,轮换的抽样调查具有以下特有的优

5、势:,节省调查费用和调查资源,在一定程度上减轻被调查者回答负担,利用前后各期之间的相关关系提高估计精度,我国1996年新修订的统计法第十条明确规定:“统计调查应当以周期性普查为基础,以经常性抽样调查为主体,以必要的统计报表、重点调查、综合分析等为补充,搜集、整理基本统计资料。” 因此,在今后我国政府统计部门开展的统计调查制度与方法改革的过程中,最重要的就是围绕如何更好地发挥经常性抽样调查的主体作用,研究并应用更加符合我国国情的经常性抽样调查方法,以此得出更加准确的统计数据,为我国政府部门、研究机构以及各类企事业单位等社会各界服务。,我国抽样调查制度与方法改革的方向,二、样本轮换的最优比例 第一

6、个时期采用有放回简单随机抽样方式抽出样本量为n的样本;在第二个时期采用有放回简单随机抽样方式选出样本量为nq的旧有样本点以便替换掉,即保留的样本量为np,保留样本的比例为p,同时独立地依有放回简单随机样本方式补充新的nq个新样本点,这里p+q=1,这样第二个时期的样本量仍旧为n。设:,第一节 样本轮换,为第一个时期与第二个时期相同的np个单元在第一个时期的均值。 为第一个时期nq个单元在第一个时期的均值。 为np个单元在第二个时期的样本均值。 为nq个补充单元在第二个时期的样本均值。 为 和 之间的相关系数。 如果希望估计第二个时期的样本均值并充分利用第一个时期的信息,令该估计量为 ,那么它应

7、该是充分利用前后期中保留样本、不保留样本和后期新补充样本的加权平均数。,第一节 样本轮换,设我们希望得到的估计量 是两期估计量的线性函数,即 = a +b +c + d (10.1) 要求估计其参数a,b,c,d。 因为E( )=E( )= ,E( )=E( )= , 所以E( )=(a+b) +(c+d) 。要使 成为 的无偏估计量,需a+b=0,c+d=1,也即b=-a,d=1-c。代入(10.1),有 =a( - )+c +(1-c),第一节 样本轮换,第一节 样本轮换,该估计量的方差可以求得为:,其中 是第一个时期的方差, 是第二个时期的方差。我们要求出a和c,使得 达到最小,就要以上

8、公式分别对a和c求偏微分并使之等于0,即可求出a和c的最优值分别为:,第一节 样本轮换,该估计量的方差可以求得为:,第一节 样本轮换,将其代入公式(10.1),就得到,该估计量的方差为 :,第一节 样本轮换,如果不利用前期信息,只根据第二期的结果来估计均值,那么 :,其方差为 :,第一节 样本轮换,故利用前期信息后的设计效果为 :,从上式可以看出,当的值比较大时,利用上期信息可以较大地提高 的效率。表10.1给出了不同的q,值时 的值。,第一节 样本轮换,表10.1 不同的q,值时 的值,若对上式关于q求偏导,并使之等于0,那么便可得到最优轮换比:,第一节 样本轮换,三、样本轮换方法 (一)

9、随机轮换法 在进行轮换时按确定的轮换单位数目或比例,从原有样本中随机抽出若干单位不再调查,而从其余未包括在样本中的总体单位中抽取同样数目的单位来代替。,第一节 样本轮换,(二) 等距轮换法 在总体抽样框中确定出各个等距抽样的样本,在各次的调查中,按相应位置的等距样本单位进行轮换。我国农村住户调查就是采用这种轮换方式。 (三) 子样本轮换法 从总体中抽出若干套子样本,每次调查一定数量的子样本,逐次轮换其中的部分子样本。,第一节 样本轮换,子样本轮换实际上就是每次采用交叉子样本,而交叉子样本不仅能有效地减少和控制估计偏差,而且由于每个交叉子样本都能代表总体,即使有的子样本资料搜集不到,我们也可以用

10、其他的子样本甚至一个子样本来观察和推断总体。此外,用交叉子样本还可以考察非抽样误差发生的程度。因此,一般来说,子样本轮换方法是以上三种样本轮换方法中最好的。,第一节 样本轮换,五、案例介绍 美国人口现状调查(current population survey,CPS)是国际上最著名的抽样调查项目之一,已经成为美国以及许多国家进行居民调查的参考模型,其实施是在每个月包含19号的那一周进行,调查的问题涉及受访者此前一周内的活动。调查氛围覆盖全美50个州和哥伦比亚地区。CPS采用的就是样本轮换的方法,即每位受访者连续4个月接受访问,然后退出样本,8个月后再进入样本,连续4个月接受访问,最后永久地退出

11、样本。,第一节 样本轮换,CPS 在1995年7月的抽样设计方案中样本轮换的特征: 1 在任意一个月内,都有1/8 的住户单元第一次接受调查,1/8的住户单元第二次接受调查,依次类推。 2每个月都由新的样本组代替从样本中永久退出的老样本组。 3 每个月都有一个样本组在闲置8个月后重新接受调查,以此代替刚刚进入闲置期的样本组。 4通过轮换设计,保证每个样本单元在2个年份的4个相同 月份里接受调查。 5. 在连续的2个月内,有3/4/的样本点是相同的;在连续的2年内,有1/2的样本点是相同的。,二维平衡单水平轮换模式的轮换过程,二维平衡单水平轮换模式的轮换过程,第二节 双重抽样,我们可以先从总体中

12、抽取一个大的初始样本,从而获得总体的辅助信息,然后再从初始样本或从总体中再抽一个子样本,这种方法就是双重抽样。,第二节 双重抽样,一、定义 双重抽样,也称二相抽样或二重抽样(two-phase sampling),是指在抽样时分两步抽取样本。一般情况下,先从总体N中抽取一个较大的样本,称为第一重(相)样本(the first phase sample),对之进行调查以获取总体的某些辅助信息,为下一步的抽样估计提供条件;然后进行第二重抽样(the second phase sampling)。第二重抽样所抽的样本n相对较小,但是第二重抽样调查才是主调查。,第二节 双重抽样,二、双重抽样与两阶段抽

13、样的区别 (一)两阶段抽样(two-stage sampling)是先从总体N个单元(初级单元)中抽出n个样本单元,却并不对这n个样本单元中的所有小单元(二级单元)都进行调查,而是在其中再抽出若干个二级单元进行调查;双重抽样则不同,要对第一重(相)样本进行调查以获取总体的某些辅助信息,并且要利用这些辅助信息进行排序、分层、抽样或估计等。,第二节 双重抽样,(二)两阶段抽样的第二阶段抽样单元和第一阶段抽样单元往往是不同的;双重抽样要有一份最终单元的完整名册(总体所有单元的抽样框),而两阶段抽样只是需要第一阶段单元(初级单元)名册,然后在中选的初级单元中构造第二阶段抽样的抽样框。,第二节 双重抽样

14、,三、双重抽样的作用 (一)有助于筛选主调查对象 (二)节约调查费用 (三)提高抽样效率 (四)可用于研究样本轮换中的某些问题 (五)降低无回答偏倚,第二节 双重抽样,四、双重抽样的应用 (一)为分层的双重抽样 分层抽样如果事先无法知道总体的层权,可以采用双重抽样。具体实施过程如下: 第一步:利用简单随机抽样,从总体的N个单元中随机抽取第一重样本,样本单元数为 ;根据已知的分层标志将第一重样本分层,令 ,则 是总体层权 的无偏估计。,第二节 双重抽样,第二步:利用分层随机抽样,从第一重样本中抽取出第二重样本,样本单元数为n,第h层样本单元数为 , 。,采用双重分层抽样,对总体均值 的估计量为:

15、,的方差为:,第二节 双重抽样,上式可简化为 :,的样本估计量为:,第二节 双重抽样,第一步:从总体的N个单元中随机抽取第一重样本,样本单元数为 ;对于第一重样本,仅观测辅助变量信息,用辅助变量的样本均值 估计总体均值 。,(二)为比率估计的双重抽样 在实际工作中,如果辅助变量的信息未知,可以利用双重抽样进行比率估计。具体实施过程如下:,第二节 双重抽样,双重抽样对总体均值 的比率估计:,第二步:从第一重样本中随机抽取出第二重样本,样本单元数为n;对于第二重样本,观测目标变量与辅助变量,并用获得的 和 ,计算 ,构造比率估计。,双重抽样比率估计的方差为:,第二节 双重抽样,双重抽样比率估计方差

16、的样本估计:,第二节 双重抽样,(三)为回归估计的二重抽样 与比率估计相似,在辅助信息未知时可以采用二重抽样进行回归估计。具体实施过程如下: 第一步:从总体的N个单元中随机抽取第一重样本,样本单元数为 ;对于第一重样本,仅观测辅助变量信息 ,用辅助变量的样本均值 估计其总体均值 。,第二节 双重抽样,第二步:从第一重样本中随机抽取出第二重样本,样本单元数为n;对于第二重样本,观测目标变量 与辅助变量 ,并计算 、 和回归系数b,构造回归估计。,双重抽样对总体均值的回归估计:,双重抽样回归估计的方差为:,第二节 双重抽样,式中 :,为第一重样本残差方差,其均值近似等于总体残差方差 :,因此双重抽

17、样回归估计方差的样本估计:,第三节 随机化装置,一、敏感性问题调查 所谓敏感性问题(sensitive question)是指所调查的内容涉及私人机密,受访者不愿或不便于向外界透露的问题。 对于这类敏感性问题,必须采取经过特别设计的装置与方法,以消除受访者的顾虑,能够如实回答问题,避免调查出现严重偏误。这种为敏感性问题调查特别设计的技术,称随机化回答技术(Randomized Response Technique)。,第三节 随机化装置,敏感性问题按总体的特征可分为属性特征和数量特征问题两类。属性特征的敏感性问题是指受访者是否具有敏感性问题的特征,一般是估计具有敏感性特征的单位在总体中所占的比

18、例,因此又可称作敏感性比例问题。数量特征的敏感性问题是指受访者具有敏感性问题数额的多少的特征,一般是估计敏感性数额的均值或总和,也可称作敏感性均值问题。,二、沃纳随机化回答模型 使用随机化回答技术的第一个模型是由沃纳(S.L. Warner)首先提出的 。 例如,某大学欲调查学生考试的作弊问题,随机抽取n个学生进行调查,对每位学生显示两个相反的问题,问题可以写在外形完全相同的m张卡片上,其中m1个卡片写上“我曾在考试中作过弊”,另外m-m1个卡片写上“我不曾在考试中作过弊”。然后把这m个卡片折叠好,放在一个盒子里。其中: A问题:我曾在考试中作过弊。 B问题:我不曾在考试中作过弊。,第三节 随

19、机化装置,调查时将m种外形完全一致的卡片像洗牌一样充分混合后,由受访者依简单随机抽样中的抽签方式随机抽取一张卡片,对照自己的情况回答“是”或“否”,然后放回盒子中。 设卡片A的比例是P,则卡片B的比例就是1-P。由古典概率可知,在大规模的调查中,抽中卡片的概率为P(A)=P,抽中卡片的概率为P(B)=1-P 。若样本量为n,回答“是”的人数为m,则(是)的估计值为m/n。我们知道,回答“是”的人有两种情况:一种是抽中了卡片A,而这些人作过弊;另一种是抽中了卡片B,而这些人没有作过弊。利用全概公式,得: (是)=P(A) (是|A)+P(B) (是|B),第三节 随机化装置,不管是抽到卡片A还是

20、抽到卡片B,作过弊的概率是相等的,假设这一比例为 ,即 (是|A)= ,则抽到卡片B,回答“是”的概率为1- ,即P(是|B)=1- 。代入上述公式,得 的一个估计 满足 :,第三节 随机化装置,因此当 时,有 :,其方差为:,的一个无偏估计为:,第三节 随机化装置,当n很大时,,三、西蒙斯(Simmons)随机化回答模型 西蒙斯在沃纳模型基础上作了改进,他将其中一张卡片上的问题改为与所调查的敏感性问题完全无关的另一个非敏感性问题。因此西蒙斯模型也称为无关问题的随机化回答模型。 仍假设敏感性问题的卡片比例为P,无关问题的卡片比例为1-P。对于敏感性问题回答“是”的比例为 ,是我们所要调查的比例

21、,对无关问题回答“是”的比例 要求是已知的,则根据全概率公式,得 : (是)=P +(1-P),第三节 随机化装置,当样本量为n,回答“是”的人数为m,则 (是)的估计值为m/n,因此 的估计值 满足:,第三节 随机化装置,解此方程得 :,它的方差为(若忽略fpc):,V( )的一个无偏估计为:,【例10.1】 某大学对本校大学生考风情况进行调查。利用西蒙斯模型,对每个受访者准备了一套同样的(40张)卡片,卡片A和卡片B各20张,比例各占1/2。 卡片上A的问题是:最近学期期末考试你有过作弊行为吗? 卡片上B的问题是:你的阳历生日日期为奇数吗?,第三节 随机化装置,【例10.1】 某大学对本校

22、大学生考风情况进行调查。利用西蒙斯模型,对每个受访者准备了一套同样的(40张)卡片,卡片A和卡片B各20张,比例各占1/2。 卡片上A的问题是:最近学期期末考试你有过作弊行为吗? 卡片上B的问题是:你的阳历生日日期为奇数吗? 假如对依简单随机抽样方式抽出的400个人进行调查,在n=400人中总共有m=115人的答案为“是”,试估计该校大学生考试作弊的比例 并给出90%的置信区间。,第三节 随机化装置,解:n=800,m=135,P=0.5, 为生日日期为奇数的人数比例。在大规模调查的情况下,可以看作生日为奇数和偶数的各占一半,因此 =0.5。根据公式得:,第三节 随机化装置,=,故 的90%置

23、信区间约为:(0.0751.640.0453),即 :,=0.002054,四、随机截尾模型 现实中我们也经常需要调查定量的敏感性问题,例如调查银行存款数额,学生考试作弊的平均次数,在职人员的工资外收入等。Greenberg等人针对这类问题提出了几种随机化调查方法,但是,这些方法都要求受访者根据自己的实际情况回答敏感性问题或非敏感性问题的具体数值,给受访者/受查者造成了一定的困扰。 近年来提出了所谓随机截尾模型,把对于具体数值的调查转化为对于属性的调查,避免了直接回答,使得受访者心理上比较容易接受。,第三节 随机化装置,设反映敏感性问题的特征量为X,取值范围是 ,密度函数为 ,X的数学期望为

24、,即我们所要估计的值。又设Y是一个服从 上的均匀分布的随机变量。,第三节 随机化装置,设样本容量为n,得到的调查数据是 ,I=1,2, n,即:,=,,因此,以样本均值 = 代替 ,得到 的一个无偏估计为:,第三节 随机化装置,估计量的方差为:,的一个估计为:,五、采用随机化回答技术应注意的问题,第三节 随机化装置,(一) 注意在受访者正式抽取并回答问题前,清楚介绍这种做法的原理,让受访者充分理解这种方法的特点,以彻底消除受访者的顾虑,明白自己究竟回答哪个问题别人是不知道的,使其相信这种设计是建立在科学的基础上,不是哄骗人的。 (二) 所提问题必须简单明了,防止因有歧义而出现理解不同。对涉及问

25、题的解释必须在抽卡片以前进行,否则就暴露了抽到的是哪类卡片,也就失去了随机化回答的意义。,第三节 随机化装置,(三) 在应用西蒙斯模型时,无关问题的选择特别重要,一定要隐蔽性强的,使受访者在回答无关问题时不会暴露正在回答哪个问题。例如“你是男生吗?”这类问题就很不妥,因为采用随机化回答技术需要当面解释,受访者的性别不可能保密,这样也就失去了无关问题本来应具有的保护作用。 (四) 做好调查者的培训工作,使他们能够正确理解随机化回答技术的实质并加以运用,这样才能更好地向受访者解释清楚,消除受访者的顾虑,以对调查的问题给予正确回答。,第四节 交叉子样本,交叉子样本(Interpenetrating

26、sub-samples)方法最初是由印度著名统计学家马哈拉诺比斯于30年代提出来的用于大规模的抽样调查,后来由美国统计学家戴明推广和发展,他称之谓重复抽样。它的主要优点是便于计算抽样标准误差,即使是复杂的抽样设计和复杂的估计量,也可以很快得到方差的估计量。它还可以用于发现偏差,核对调查员的调查质量等。,第四节 交叉子样本,一、独立的交叉子样本 设总体为N,现欲抽取样本容量为n的样本。那么可以利用交叉子样本的方法, 假设抽取K个子样本,使每个样本的容量为m(n=Km),每个交叉子样本可以得到总体参数的一个无偏估计量 那么交叉子样本的估计量及其方差为:,(不重复抽样 ),【例10.2】假设有一小城镇,现欲估计这一城镇的房屋数。该城镇共有50个居委会,由于居委会作为抽样单位太大,将每个居委会划分为8个地段,这样共有400个地段,拟抽取20%的地段做样本,所以n=80,现采用K=5独立交叉子样本,每个交叉子样本的容量为16。抽样的方法可用系统抽样的方法,将总体分成16段(层),每段有25个地段。抽选时先在125之间用不重复

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论