版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、中国人民大学同等学力申请硕士学位课程考试试题课程代码:123105课程名称:抽样技术与方法试题卷号:1名词解释非概率抽样非概率抽样又称为非随机抽样,是调查者根据自己的方便或主观判断抽取样本的方法,其最主要的特征是抽取样本时并不依据随机原则。包含有判断选样、方便抽样、自愿样本、配额抽样等。最优分配在分层随机抽样中,对于给定的费用,使估计量的方差V(yst)达到最小,或者对于给定的估计量方差V,使总费用达到最小的各层样本量的分配,称为最优分配。PPS抽样是有放回的按规模大小成比例的概率抽样。其抽选样本的方法有代码法、拉希里方法等。PPS抽样是按概率比例抽样,属于概率抽样中的一种。是指在多阶段抽样中
2、,尤其是二阶段抽样中,初级抽样单位被抽中的机率取决于其初级抽样单位的规模大小,初级抽样单位规模越大,被抽中的机会就越大,初级抽样单位规模越小,被抽中的机率就越小。就是将总体按一种准确的标准划分出容量不等的具有相同标志的单位在总体中不同比率分配的样本量进行的抽样。自加权样本指调查中每个样本单元的设计权数是相同的,也就是说每个单元最终入样的概率是相等的。在不考虑非抽样误差的情况下,可以认为自加权样本完全代表总体,因为每个样本单元都代表了总体中相同数目的单元。(此时可以使用标准统计方法来进行点估计。止匕外,自加权样本往往方差较小,样本统计量更稳健)简述题有人认为“抽样调查除了调查误差以外,还有抽样误
3、差,因此抽样调查不如全面调查准确”请对此加以评价。一项调查的误差来自多个方面,抽样调查因为只调查总体中的一小部分,用部分的调查结果推断总体,所以存在着抽样误差,但这只是所有误差中的一部分。对于抽样调查,误差包括抽样误差和非抽样误差。有些情况下,全面调查由于参与的人员众多、涉及范围大,因此虽然没有抽样误差,但在数据采集和数据汇总整理的过程中却有产生其他误差的更大可能性,所以调查规模并不是越大越好。与全面调查相比,抽样调查的工作量小,这就为使用素质较高的工作人员并对他们进行深入的培训创造了条件。此外,如果能对调查过程实施更为细致的监督、检查和指导,可以使抽样调查所得到的数据质量比同样的全面调查数据
4、质量更高,从而使调查的总误差更小。试对分层抽样中的联合比率估计和分别比率估计方法进行比较。如果每一层都满足比率估计量有效的条件,则除非Rh=R,都有分别比率估计量的方差小于联合比率估计量的方差。但当每层的样本量不太大时,还是采用联合比率估计量更可靠些,因为这时分别比率估计量的偏倚很大,从而使总的均方误差增大。实际使用时,如果各层的样本量都较大,且有理由认为各层的比率Rh差异较大,则分别比率估计优于联合比率估计。当各层的样本量不大,或各层比率Rh差异很小,则联合比率估计更好些。此外,联合比估计不像分别比那样需要已知每层的辅助信息Xho某住宅区调查居民的用水情况,该区共有N=1000户,调查了n=
5、100户,得y=l2.5吨,S2=1252,有40户用水超过了规定的标准。要求计算:(1)该住宅区总的用水量及95%的置信区间;(2)若要求估计的相对误差不超过10%,应抽多少户作为样本?(3)以95%的可靠性估计超过用水标准的户数;(4)若认为估计用水超标户的置信区间过宽,要求缩短一半应抽多少户作为样本?【解】已知N=1000,n=100,f=-=0,1,y=12,5,s2=1252A(1)估计该住宅区总的用水量丫为:Y=Ny=1000*12.5=12500吨估计该住宅区总的用水量Y的方差和标准差为:AV(Y)=N2V(y)=N2-s2=10002*1252=11268000s(Y)=SQR
6、T(v(Y)=3356.7842因此,在95%的置信度下,该住宅总的用水量的置信区间估计为:Y士Z0.025S(Y)=125001.96*3356.7842125006579即,我们可以以95%的把握认为该住宅总的用水量在5921吨19079吨之间。(2)根据题意,要求估计的相对误差不超过10%,即rw0.1,假定置信度为95%根据公式:n0=-=3078由于-3.0780,05,所以需要对n0进行修正:n=%755若要求估计的相对误差不超过10%,应抽不少于755户作为样本。或:n0=i/(i/N+d2/(z/22s2)=755(d=ry=1.25)(3)令超过用水标准的户数为A,样本中超过
7、用水标准的户数为a=40,估计超过用水标准的比例p为:p=a/n=40/100=40%估计超过用水标准的比例p的方差和标准差为:v(p)=p(1-p)=*40%*60%=0.002182s(p)=4.67%在95%的可靠性下,超过用水标准的比例p的估计区间为:pz0.025s(p)=40%1.96*4.67%因此,我们有95%的把握认为,超过用水标准的比例p在30.85%-49.15%之间,超过用水标准的户数的点估计为:1000*40%=400户,超过用水标准的户数在1000*30.85%户11000*49.15%户之间,即309户492户之间。或:pZ0.025一代入得(0.3089,0.4
8、911)(4)若要置信区间的宽度缩小为原来一半,即要求应抽取的户数n满足方程Z0.025=1/2*z0.025=0.045766代入数据解得n=306.25=306户。为估计市区人均居住面积,按与各区人数呈比例的概率从12个区中抽了4个区,经调查的数据如下:样本区号区居住面积(米Sy=一=-(2835326-4.363*604746)2+(1670996-4.363*456035)2+(1835226-4.363*470981)2+(2895058-4.363*585257)2)=101742707182.336373AV(R)=V(r)二=-*=0.24215)人口数128353266047
9、46216709964560353183522647098142895058585257试对市区人均居住面积作点估计和置信度为95%的区间估计。【解】设居住面积为Y,人口数为X,N=12,n=4,f=n/N=1/3。人均居住面积点估计值为A,一2,R=r=4.363米/人.s(R)=0.492因此置信度为95啕勺区间估计为:4.3631.96*0.492,即(3.3987,5.3273)试题卷号:2名词解释概率抽样也称随机抽样,是指依据随机原则,按照某种事先设计的程序,从总体中抽取部分单元的抽样方法。(概率抽样就是使总体中的每一个单位都有一个已知的、不为零的概率进入样本的抽样方法。)具体说来,
10、概率抽样具有以下几个特点:(1)按一定的概率以随机原则抽取样本。(2)每个单元被抽中的概率是已知的,或是可以计算出来的。(3)当用样本对总体目标量进行估计时,要考虑到该样本(或每个样本单元)被抽中的概率。也就是说,估计量不仅与样本单元的观测值有关,也与其入样概率有关。概率抽样最主要的优点是,可以依据调查结果计算抽样误差,从而得到对总体目标量进行推断的可靠程度。从另一方面讲,也可以按照要求的精确度,计算必要的样本单元数目。因此,概率抽样可以排除调查者的主观影响,抽选出较其他方法更具代表性的样本。事后分层又称抽样后分层,是对一个总体先进行简单随机抽样或系统抽样,抽取一个样本量为n的样本,然后对样本
11、中的单元按某些特征进行分层并进行分层抽样估计。兀PS抽样是不放回的与单元大小成比例的概率抽样(该抽样方法是在总体抽取样本时,借助总体单元大小或规模(MJ的辅助变量来确定单元入样概率(ZJ或包含概率(3,兀)的方法)随机化回答在调查中当一个问题是敏感性的或高度私人机密性的,则就会发生拒绝回答或回避回答的情况。为了获得对这类问题总体比例进行估计的资料,就需要采用随机化的方式来获取回答信息并进行估计的技术,我们称之为随机化回答。简述题什么是抽样框?简述抽样框的类型和作用,以及良好抽样框的标志。总体的具体表现是抽样框。通常,抽样框是一份包含所有抽样单元的名单,给每一个抽样单元编上一个号码,就可以按一定
12、的随机化程序进行抽样。抽样框又称“抽样框架”、“抽样结构”,是指对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。设计出了抽样框后,便可采用抽签的方式或按照随机数表来抽选必要的单位数。若没有抽样框,则不能计算样本单位的概率,从而也就无法进行概率选样。抽样框有不同类型:名录框(总体中所有单元实际的名录清单,如在校学生名单、企业名册、电话号码簿等)、区域框(其单元由地理区域构成的集合,抽样总体由这些地理区域组成)、自然框(把相关的自然现象概念(如时间、距离等)作为抽样框使用)。抽样框对抽样调查具有十分重要的作用。1)首先,抽样框是代表总体进行抽样的,抽样框的缺陷会造成目标
13、总体与调查总体不一致,在估计中出现偏差;2)其次,抽样框中的联系资料是用来确定总体单元所在的位置和联系地址的,如果出现错误,可能会产生无法联系而造成无回答;3)抽样框中的辅助资料可以用来进行分层等以改进抽样设计或改进估计方法,以提高抽样效率。因此完备的抽样框是做好抽样调查的前提条件。良好抽样框的标志是具有充分的辅助信息、目标总体和抽样总体完全重合,也就是目标总体单元和抽样总体单元完全呈一一对应的关系。具体来讲:1)关联性,指抽样框与目标总体的对应程度,要求两者之间尽可能地关联;2)准确性,涵盖误差尽可能小,分类是否准确?联系资料是否完整?辅助资料是否齐全等;3)时效性,抽样框是否及时更新;4)
14、最后还可以从建立抽样框的费用进行评估。对多阶段抽样中自加权的有关问题进行论述。由于不等概率抽样往往不满足自加权,因此在多阶段抽样中,最后一阶按等概率(如SRS等)抽取最终单元(USU),其它阶段采用PPS,且各阶段样本量对不同单元都等于常数,则所得样本是自加权的。从某农村的200户中随机等概率(无放回)抽取50户,发现其中8户有自行车,这8户人数分别为3,5,3,4,7,4,4,5人。根据这一资料要求:(1)估计该村具有自行车的户数及其估计精度;(2)估计该村具有自行车的总人数及其估计精度。【解】由已知得:N=200,n=50,f=n/N=0.25总体中具有自行车户数的比例为P“(1)这次简单
15、随机抽样得到的P的估计值p=8/50=0.16,即具有自行车的户数估计值Y=Np=0.16*200=32.所以总体比例P在95%情况下的置信区间可以写为:“p土Z0.025其中v(p)=0.002057,v(Y)=v(Np)=Nv(p)=82.28故P的置信区间:0.161.96*=0.160.0889。所以户数的置信区间为:200*(0.160.0889)即14,50(2)有自行车家庭人数M,则n0=8,m=4.375,从而具有自行车的总人数估计值为“=丫01=32*4.375=140。s2=-=1.696_2八八-八2-2则V(m)=一s=*1.696=0.159,因此V(M)=V(Ym)
16、=YV(m)=32*0.159=162.816“s(M)=13某城市共有1000家餐馆,分为大中小三层,现预估计在餐馆就餐的人数,采用抽样调查,根据以往资料层NhSh2中3002500小600400大1001000(1)若欲估计就餐总人数的误差不超过4000人,可靠性为95%,采用最优分配应抽多少家餐馆作为样本(假设每层每户的调查费用相等);(2)若不按比例抽样在数据上比较复杂,其费用相当于调查50家餐馆,因此从效益上看改为按比例抽样是否值得?【解】根据如上表格按中、小、大依次分层:Ni=300,N2=600,N3=100,N=1000,八2八2八2Si=2500,S2=400,S3=1000
17、(1)总人数绝对误差限dy=4000,所以yst的绝对误差限为d=dy/N=4.W1=0.3,W2=0.6,W3=0.1考虑每层每户调查费用相等,所以使用内曼分配,从而抽取餐馆数:n=173即应抽取173家餐馆作为样本。(2)如果采用比例分配,则n0=207由于n0-n=207-173=3450,所以从效益上看改为按比例抽样更值得。试题卷号:3名词解释配额抽样是将总体中的各单元按一定标准划分为若干类型,将样本数额分配到各类型中,从各类型中抽取样本的方法则没有严格限制,一般采用方便抽样的方法抽取样本单元。设计效应为一个特定的抽样设计(包括抽样方法以及对总体目标量的估计方法)估计量的方差与相同样本
18、量下不放回简单随机抽样(SRSWOR)的估计量的方差之比,即Deff=所考虑的抽样设计估计量的方差/相同样本量下简单随机抽样估计量的方差如果deff1,则所考虑的抽样设计比比简单随机抽样的效率低。deff对复杂抽样时确定样本量有很大作用,在一定精度条件下,简单随机抽样所需的样本量n,比较容易得到,如果可以估计复杂抽样的deff,那么复杂抽样所需的样本量为:n=n*deff整群抽样将总体中若干个基本单元合并为组,这样的组称为群。抽样时直接抽取群,然后对中选群中的所有基本单元全部实施调查,这样的抽样方法称为整群抽样。沃纳模型沃纳模型论及总体是简单的二元总体,即总体中的每个单元或者属于A类或者不属于
19、A类(即基于敏感特征设立两个对立的问题),除此之外,别无他属。我们向被调查人员提出两个问题,要求其回答“是”或者“不是”,调查人员并不知道被调查者回答了哪个问题,只知道两个问题被提出的概率为P和1-P,这样就可以使被调查者确信其回答不会泄露本人隐私。简述题试述概率抽样,非概率抽样各自的特点、作用和局限。概率抽样也称随机抽样,是指依据随机原则,按照某种事先设计的程序,从总体中抽取部分单元的抽样方法。概率抽样包括等概率抽样(单元之间被抽中的概率相等)与不等概率抽样两种。概率抽样有几个特点:1)按一定的概率以随机原则抽取样本。2)每个单元被抽中的概率是已知的,或是可以计算出来的。3)当用样本对总体目
20、标量进行估计时,要考虑到该样本(或每个样本单元)被抽中的概率。估计量不仅与样本单元的观测值有关,也与其入样概率有关。概率抽样的优点:能得到总体目标量的估计值,并能计算出每个估计值的抽样误差,从而得到对总体目标量进行推断的可靠程度。另外,也可以按照要求的精确度,计算必要的样本单元数目。这两大优点为调查方案的评估提供了有力的依据。与非概率抽样相比,概率抽样比较复杂,对调查人员的专业技术要求高,调查费用较高,但其优点是其他调查方法无可替代的,所以概率抽样成为抽样调查中最主要的方式。非概率抽样:抽取样本时不依据随机原则。常见的非概率抽样方法有:判断选样(由调查人员人为确定样本单元)、方便抽样(例如“拦
21、截式”调查,比较适合探索性研究)、自愿样本(比如网上调查)、配额抽样(将总体中的各单元按一定标准化分为若干类型,将样本数额分配到各类型中,从各类型中抽取样本的方法则没有严格限制,一般采用方便抽样的方法抽取样本单元)。非概率抽样的优点是操作简单,不需要抽样框,经济、快速,调查数据的处理也容易,所以有广阔的应用空间。非概率抽样的局限是不能计算抽样误差,不能从概率的意义上控制误差,样本数据不能对总体情况进行推断。同时由于抽取样本时具有较大的随意性,从而导致被调查单元间存在系统性差异。简述辅助信息在抽样调查中的作用。在抽样调查中,辅助信息可以用于抽样的设计、目标量的估计,还可以用于调查数据的处理。1)
22、抽样设计:在抽样设计阶段,许多抽样方法都需要利用辅助信息。如分层抽样需要利用辅助信息进行分层,把总体各单元按相应规则分到各个层中。好的分层应该做到去定合理的层数、层界,单元应该分别归属于哪层,每层样本量多少等(如不等概抽样中单元规模这个辅助信息)。可以说,进行任何抽样设计都需要辅助信息,抽样框是辅助信息集中的体现,辅助信息内容越多、质量越高,就为进行良好的抽样设计提供更多更好的素材,具有充分的辅助信息也是良好抽样框的重要标志。(有些辅助信息在抽样前不知道,事后分层等)2)估计:在抽样估计阶段(即估计量设计阶段),可以利用辅助信息改进估计方法,提高估计的精度,这一点在比率估计和回归估计中表现明显
23、(举例,如比率估计等引入辅助变量x;事后分层等)3)关于数据调整:一个是对入样单元进行权数的计算和调整;另一个是利用辅助信息减小调查中无回答的偏差,提高了估计的精度。(如调查中男女比率差异,按性别辅助信息引入分层等)计算题为了解某小区住户的平均月支出(单位:元),在7000户家庭中按不放回简单随机抽样抽出200户进行调查,并得到样本均值y=1800,样本方差s2=640000。(1)试估计该小区住户的平均月支出,并给出95%置信度下的区间估计。(2)若要求估计的相对误差不超过10%,则需抽出多少户家庭进行调查?【解】由已知得:N=7000,n=200,y=1800,s2=640000,s=80
24、0,f=n/N=0.02857(1)该小区住户的平均月支出估计值为=y=1800v(y)=-s2=*6400003108.57695%置信度下的区间估计为:y士Z0.025=18001.96*=1800109.28因此区间估计为:1690.72,1909.28(2)n0=Z0.0252*s2/(r2y2)=75.88则需抽取76户家庭进行调查。有下列数据层Whyhshph10.353.120.5420.553.93.30.3930.17.811.30.24设n=1000(1)采用按比例分层抽样的方法估计Y和P并计算其标准误;(2)采用奈曼分配的方法估计Y和P并计算标准误;(3)将按比例分配和奈
25、曼分配与简单随机抽样相比能提高效率多少。【解】(1)根据题中已知条件,采用按比例分层抽样的方法估计Y为:=yprop=0.35*3.1+0.55*3.9+0.1*7.8=4.01估计Y的方差和标准误差为:vprop(yst)=一一(0.35*22+0.55*3.32+0.1*11.32)0.0201585Sprop(yst)=0.141981估11P及其方差和标准误差为:pprop=0.35*0.54+0.55*0.39+0.1*0.24=0.4275V(Pprop)(0.35*0.54*0.46+0.55*0.39*0.61+0.1*0.24*0.76)0.000218s(pprop)=0.
26、014765(2)采用Neyman分配的方法估计Y和P的方法和与(1)是一样的,即=yst=0.35*3.1+0.55*3.9+0.1*7.8=4.01pprop=0.35*0.54+0.55*0.39+0.1*0.24=0.4275但是采用Neyman分配彳t计Y和P的方差的方法不同,分别为:v(yst)=2-(0.35*2+0.55*3.3+0.1*11.3)20.013286s(yst)=-=0.115265v(pst)一=(0.35*+0.55*+0.1*)=0.000236s(pst)=0.015362(3)由于Vsrs(y)=2=()=0.0201585+0.0017329=0.0
27、218914比例分配的设计效应为deffprop=v(yprop)/Vsrs(y)=0.9208,所以与简单随机抽样相比比例分配能提高效率1-deffprop=7.92%;内曼分配的设计效应为deffopt=v(yst)/Vsrs(y)=0.6069,所以与简单随机抽样相比内曼分配能提高效率1-deffopt=39.31%.试题卷号:名词解释目标总体和抽样总体目标总体也可简称为总体,是指所有研究对象的总体,或者是研究人员希望从中获取信息的总体,它是研究对象中所有性质相同的个体所组成。抽样总体是指从中抽取样本的总体。通常情况下,抽样总体应该与目标总体完全一致,但实践中两者不一致的情况却时常发生。
28、分层抽样也叫类型抽样法,是将抽样单元按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,将各层的样本结合起来,对总体的目标量进行估计。交叉子样本在抽样时,对同一个总体按照同样的抽样方法,独立或非独立地来进行两个或两个以上样本的抽取,并使得每个子样本对总体参数都提供一个有用的估计,则被抽取的子样本称为交叉子样本。交叉子样本方法最早是由印度统计学家马哈拉诺比斯(P.C.Mahalanobis,1936年)所提出,最初用于总体参数的估计,以后扩大应用于抽样和非抽样误差的估计。逆抽样方法针对样本中含有稀少项目很少或没有(设比例为P)的情况(调查产生比较大的偏差),事先根据调查精度
29、和成本的要求,制定出样本中出现稀少项目的单元个数为n,然后一个一个地随机抽取样本,直到样本中具有这种属性的单元个数为n为止,然后对样本容量X的分布及P的估计的方法。说明总体方差和估计量方差各自的作用,以及它们之间的相互关系。总体方差是未知的,但是确定存在的。估计量方差可以由样本数据计算出来,但只是总体的近似反映,未必等于真实值。试述随机化回答技术作用、特点,谈谈你对随机化回答技术的理解。在调查中当一个问题是敏感性的或高度私人机密性的,则就会发生拒绝回答或回避回答的情况。为了获得对这类问题总体比例进行估计的资料,就需要采用随机化回答技术。其基本特点是1)被调查者对所调查的问题采取随机回答的方式,
30、调查人员无法从被调查者的回答中得知对方是否具有某种特征。这样,就可以在一定程度上消除被调查者的担心和顾虑,使他们参与调查,并提供真实情况。2)另一方面,调查人员通过对所有调查结果的汇总。利用概率原理进行推算,又可以得到总体中具有该特征人数比例的估计值,从而实现调查的目的。因而,随机化回答技术被认为是对敏感性问题进行调查,并对总体的特征比例进行数量推算的有效方法。个人对随机化回答技术有如下理解:1)从理论上讲,随机化回答技术既可以用于访问调查,也可以用于邮寄问卷等其他方式的调查。但是,随机化回答问卷的设计比其他一般性调查问卷的设计要复杂。例如,在邮寄问卷调查中,被调查者很可能因为看不懂问卷而不知
31、如何回答,在访问调查中,调查人员可以详细地向被调查者说明随机化回答技术的原理,并讲解如何回答这种类型的问卷,必要时还可以进行示范,帮助被调查者理解和掌握。所以,与其他调查方法相比,访问调查在使用随机化回答技术方面有更多的便利条件。2)传统的随机化回答技术(如Warner)都是针对单变量数据的,其主要目的是为了获得具有敏感特性回答的概率估计。然而,被调查者的辅助信息却在一些情况下格外有用,以至于可以将其与肯定回答相联系。Maddala(1983)以及Scheers和Dayton(1988)便将这些带有辅助信息的解释变量纳入随机化回答模型中。其优点在于可以减少标准误差,并可以确立协变量信息与敏感特
32、性的总体概率之间关系。传统的随机化回答模型的另一个主要缺点是只能获得与总体水平有关的结论一一总体概率的估计和相关置信区间。这与当时仅对单变量数据进行相关与无关随机化回答方法的发展目的一致,但却不能满足于调查者对单位水平参数的研究,这也导致无法对一些产生敏感特性的原因进行剖析。此外在具体设计与操作上应该注意:1)要使被调查者充分理解这种方法的特点,特别是一定要让被调查者明白,他究竟回答的是哪一个问题,别人是不知道的,因此在正式抽取并回答问题前,要让被调查者作几次试验;2)所提问题必须简单明了,防止有不同的理解。3)在应用西蒙斯模型时,无关问题的选择特别重要。一定要隐蔽性强的,即调查人无从猜测被调
33、查人对该问题回答的答案。层NhShYh16023230453101512计算题有下列数据现令n=40,要求(1)样本在各层中进行的按比例分配;(2)样本在各层中进行的最优分配;(3)计算最优分配较按比例分配的得益;(4)计算按比例分配较简单随机抽样的得益。【解】由已知得:L=3,n=40,N=100,f=n/N=40/100=0.4(1)由nh=nNh/N=Nhf得ni=0.4*60=24,n2=0.4*30=12,n3=0.4*10=4,Vprop(yst)=*(0.6*4+0.3*16+0.1*225)=0.4455(2)由内曼分配nh=*n,代入得=60*2+30*4+10*15=390
34、n1=*4012.3012n2=*4012.3012n3=*4015.3815V)pt(yst)=*(0.6*2+0.3*4+0.1*15)2-*(0.6*4+0.3*16+0.1*225)=0.38025-0.297=0.08325(3)由1,2得最优分配较按比例分配的得益为1-Vopt(yst)/Vprop(yst)=1-=81.31%(4)由于S2=+,y=(0.6*3+0.3*5+0.1*12)=4.5从而简单随机抽样方差Vsrs(yst)=S=+=Vprop(yst)+=0.4455+*(0.6*1.52+0.3*0.52+0.1*7.52)=0.4455+0.10575=0.551
35、25按比例分配较简单随机抽样的得益为:1-Vprop(yst)/Vsrs(yst)=19.18%要调查学生对某课程的兴趣问题,设我们将问题陈述为“我对该课程感兴趣”和“我对该课程不感兴趣”,对此问题我们采用沃纳模型处理,预先设定P=4/5,在接受调查并作出明确回答的320人中(假定被调查者如实回答问题),结果统计出回答“是”的人数为156人,请估计对该课程感兴趣学生比例的置信区间。【解】按Warner模型,我们假定(p:卡片A的比例;1-p:卡片B的比例;n:样本量;m:回答是的人数;出:回答否的人数;兀a:总体中具有卡片A特征的人数的比例;)由已知得P=4/5,n=320,则“点估计式:兀a
36、=()-()=-*_*_=y0.4792兀A的方差估计量:V(兀a)=兀a(1-兀A)/n+0.000780+0.001389=0.002169从而95%的区间估计式为TIA土Z0.025=TtA1.96*=0.47920.09128,因此该比例的置信区间为0.3879,0.5705试题卷号:5名词解释抽样框抽样框又称“抽样框架”、“抽样结构”,是指对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。设计出了抽样框后,便可采用抽签的方式或按照随机数表来抽选必要的单位数。若没有抽样框,则不能计算样本单位的概率,从而也就无法进行概率选样。比例分配在分层抽样中,若每层的样本量
37、nh都与层的大小Nh成比例,即一=-或记为fh=f,h=1,2,L则称样本量的这种分配方式为比例分配。(比例分配的分层抽样是一种等概率抽样)系统抽样将总体中的所有单元(抽样单元)按一定顺序排列,在规定的范围内随机抽取一个单元作为初始单元,然后按事先规定好的规则确定其他样本单元,这种抽样方法称为系统抽样。(典型的系统抽样是先从数字1k中随机抽取一个数字r作为初始单元,以后依次取第r+k,r+2k,单元。)西蒙斯模型是1967年由西蒙斯(Simmons)提出的。其设计思想仍是基于沃纳的相关问题随机化选答的思想,只是在设计中,改用无关的问题代替了沃纳模型中的敏感性问题的对立问题。通常选用与敏感性问题
38、无关并且容易获得的样本特点作为无关问题进行提问(如生日、性别等)。比传统的去敏感化技术更具有保密性,因此更容易获得调查者的配合,适宜于调查敏感性程度很高的问题。什么是样本量?试对影响样本量的因素进行分析。样本量又称“样本容量”,指一个样本的必要抽样单位数目。在组织抽样调查时,抽样误差的大小直接影响样本指标代表性的大小,而必要的样本单位数目是保证抽样误差不超过某一给定范围的重要因素之一。(样本量直接影响抽样误差、调查的费用、调查所需的时间、调查访员的数量以及其他一些重要的现场操作的限制条件。样本量过大,会造成人力、物力和财力的浪费;样本量过小,会造成抽样误差增大,影响抽样推断的可靠程度。)因此,
39、在抽样设计时,必须决定样本单位数目,因为适当的样本单位数目是保证样本指标具有充分代表性的基本前提。影响样本容量的因素:研究目的、个体变异、检验水准、对精确度的要求、(把握度/置信度)等。具体描述为:1)抽样推断的可靠程度。要求推断的可靠程度越高,概率度的数值越大,抽样单位数也就要求多些;反之,则可少抽一些。2)总体标志变异程度。方差大,需要多抽一些;方差小,可少抽一些。3)极限误差的大小。极限误差大可以少抽些,极限误差小则应多抽些。4)抽样方法与组织方式。在相同条件下,重复抽样需要多抽一些,不重复抽样可少抽一些。5)实际调查运作的限制(人力、物力和财力的可能条件)。客户提供的经费能支持多大的样
40、本?调查持续的时间有多长?需要多少访员?能招聘到的访员有多少?在确定调查最终所需的样本量时,还必须考虑样本量计算统计科普公式没有涉及到的这些限制。试述在什么情况下需要采用不等概率抽样,并举例说明。不等概抽样适用于如下情况:1)抽样单元在总体中所占的地位不一致。例如,对某市商业销售额进行调查时,以商场为抽样单元。虽然大型或特大型的商场数量不多,但占总销售额的份额较大;而小商店数量多,市场份额却不大。对于这种情况,将大型商场和小商店同等对待并不合理;另外,由于规模和管理水平的原因,对大型商场的调查往往比较容易,可以做得细致一些,而对小商店的调查往往比较困难,也没有必要对占市场份额不大的这部分单元花
41、太大的精力做过多的调查,因此在调查时,大型商场应该处于更重要的地位。2)调查的总体单元与抽样总体的单元不一致。例如某大型单位准备对职工家庭情况进行调查,一种自然的办法是以人事部门的职工花名册作为抽样框进行抽样,该单位中的少数家庭有两名职工在该单位工作,如果对职工进行简单随机抽样,则双职工家庭被抽中的概率大,而调查者希望对家庭进行等概率抽样。除了对抽样框进行整理,将双职工家庭中的一名成员从抽样框中剔除,还可以对职工采用不等概抽样,一种做法是对每名职工记录其家庭成员在该单元工作的人数,然后对每名职工按与人数成反比的概率进行抽样。3)改善估计量。不等概抽样可用于对估计量进行改善,例如简单随机抽样比率
42、估计量是渐进无偏的,要使其成为无偏估计,只要每个大小为n的样本被抽中的概率与其辅助变量的和成比例(例如水野法),这时的比率估计量就是无偏估计量,这个样本并不是简单随机样本,而是一个不等概抽样获得的样本。不等概抽样除了应用于上述几种情况,还广泛应用于整群抽样、多阶段抽样中初级单元规模相差较大的情形。不等概抽样的优点主要是大大提高了估计精度,但使用它有前提条件,即必须要有说明每个单元规模大小的辅助变量来确定每个单元入样的概率,这在抽样设计及估计时都是必须的。计算题某住宅区调查居民的用水某镇在2000户家庭中随机抽选36户家庭调查生活费用支出,以y表示食物支出费用,x表示总支出费用,得恩格尔系数(食
43、物支出在总支出中所占的比例),r=y/x=41.7%,y与x的样本变异系数分别是cy=0.09,Cx=0.085,y与x的相关系数p=0.79,给定置信度95%,求恩格尔系数的区间估计。【解】由已知得:r=0.417,cy=0.09,cx=0.085,p=0.79,N=2000,n=36,f=n/N=36/2000=0.018V(R)=V(r)rZ0.025=0.4171.96*0.00001536从而恩格尔系数95哨信度的区间估计为:即0.4093,0.5478试题卷号:名词解释总体参数描述总体特性的指标称为总体参数,简称参数。总体的均值、方差等都是总体参数。(总体参数4种类型总体均值、总体
44、总值、总体比例、总体比率等)内曼分配分层随机抽样中,各层中每个单位费用一样(即Ch=C)时样本单位的最优分配方法。设nh为各层的样本含量,Nh为h层单位总数,Sh为h层标准差,n为样本总含量(固定),内曼(Neyman)1934年证明,当nh=nNhSh/时,这种分配为最优分配即V(yst)达到最小值。不等概抽样不等概率抽样是指在抽取样本之前给总体的每一个单元赋予一定的被抽中概率(最常用的是按总体单元的规模大小来确定抽选的概率)。不等概率抽样分为放回与不放回两种情况。直线等距抽样假设总体单元数为N,样本容量为n,N=nk,且总体中的N个单元已按某种确定顺序编号为1,2,,No抽样程序是先从k个
45、单元编号中随机抽出一个单元编号,然后每隔k个单元编号抽出一个单元编号,直到抽出n个单元编号为止,则这种等距抽样称为直线等距抽样。什么是不完备抽样框,列举各种可能出现的情况以及对抽样推断的影响。不完备抽样框是指抽样框中包含的单元与目标总体的单元不一致,例如属于调查对象的单元在抽样框中不存在,不属于调查对象的单元却出现在抽样框中。不完善抽样框还包括这样的情况,抽样框中的辅助信息与现实情况严重偏离,造成样本抽取的误导。使用不完善的抽样框是产生非抽样误差的一个重要原因。可能的情况及影响包含:1)丢失目标总体单元。指抽样框没能覆盖所有总体单元。丢失单元会造成总量估计偏低,也会造成均值(或比例)估计的偏差
46、。2)包含非目标总体单元。指抽样框中包含一些本不属于调查对象的非目标总体单元。包含非目标单元使得抽样总体单元个数大于目标总体单元个数,造成总量估计偏高。3)复合联结。指抽样框中的单元与目标总体单元不完全呈一一对应关系,一个抽样框单元联结多个目标单元的情形,或一个目标单元联结多个抽样框单元。如果复合联结的情况严重,将会造成样本的实际抽取与设计要求发生偏离,从而对估计结果产生影响。4)不正确的辅助信息。有些抽样设计需要抽样框提供辅助信息,如分层抽样、不等概抽样、比率估计和回归估计等。如果这些辅助信息不完全或不正确,不仅不能提高估计的效率,有时反而会降低估计的准确性。试述抽样调查中产生偏差的原因以及
47、如何对待这些偏差。抽样调查中产生偏差的原因主要有抽样误差(随机误差)及非抽样误差(或系统性误差)两大类。前者是由样本结构与总体结构的随机差异而导致产生的,它虽然不可避免,但可以用公式计算,其大小可以通过调整样本容量或改变抽样方式加以控制。后者按来源性质不同分为三种:1)抽样框误差:即由不完善的抽样框引起的误差。首先把握抽样框误差的类型,在此基础上探讨减少抽样框误差的途径。对不完善抽样框进行补救大致分为三种类型:第一种利用核查或其它有关资料,掌握误差情况,对不完善的抽样框进行调整,或对不完善抽样框所得的估计量进行调整;第二种是事先制定一些规则,对发现的抽样框问题进行现场处理;第三种是使用多个抽样
48、框进行抽样。2)无回答误差:即由于种种原因没有从被调查单元获得调查结果,造成调查数据缺失。可以采用措施有:问卷设计具有吸引力,引起被调查者参与的兴趣;充分利用调查组织者的权威性和社会影响力,激发被调查者的参与意识;确定准确的调查方位;采取有助于消除被调查者冷漠、担心或怀疑的措施(如预先通知、调查前解释说明等);注意调查人员挑选;做好调查人员培训,增强调查人员责任心;注意调查过程的监控;奖励措施;再次调查;替换被调查单元。此外,尽量避免敏感问题的调查,如无法避免,可采用随机化回答技术(如Warner、Simons模型等)。对无回答数据采用再抽样调查、加权调整、相关推估法、插补调整等方式进行数据调
49、整。3)计量误差:即所获得的调查数据与其真值之间不一致造成的误差。减少计量误差需要对调查全过程进行质量控制。包含有调查设计方面(设计出更好的调查问卷和抽样程序);现场准备方面(招聘访问员、培训访问员、编写调查手册);调查结果审核方面(有效性审核、一致性审核、数据分布审核,审核工作可以在搜集数据、数据搜集完毕后(重点在一致性审核和离群值的检测)等任何阶段进行)计算题从某农村的200户有下列总体分为三层层各单元标志值1245568288101414183161616182226令n=10,设各层中每单元的费用相等。(1)按最优分配抽取样本计算yst及v(yst);(2)计算Deff因子;(3)若达
50、到以上同样的精度采用简单随机抽样的样本量应为多少?【解】由已知得N=18,n=10,L=3,W1,2,3=6/18=1/3,丫1=5,丫2=12,丫3=19,S12=4,S22=16,S32=17.2,f=10/18=0.556(1)由于W相同,所以nk=nSh/从而210*2/10.147=1.97=2n2=10*4/10.147=3.94=4n3=10*/10.147=4.08=4yst=(5+12+19)/3=12V(yst)=-=10.1472/90-(4+16+17.2)/54=0.4551(2)由1得S2=*774=45.53Deff=Var(y-st)/(1-f)S2/n)=0.
51、225(3)设简单随机抽样的样本量为n,则n=n.deff因此n=n/deff=10/0.22544.44即简单随机抽样的样本量应为44.试题卷号:7名词解释统计量统计量是统计理论中用来对数据进行分析、检验的变量。统计量根据样本的n个单元值计算出一个量,也叫估计量,用于对总体参数的估计。(与总体参数相对应,常用估计量有均值估计、总值估计、比例估计、比率估计等)目录抽样是全面调查和抽样调查相结合的一种新型的调查方法,也可以说是一种特殊的分层抽样。目录抽样是一种对高度偏斜总体(总体次数分布呈高度偏态分布,总体内部差异较大,由指标值较大而数目较少单位(通常称为重点单位)和指标值较小而数目较多单位两部
52、分组成)实施抽样调查的有效方法。目录抽样主张按上述两部分分为两层,少数指标值较大单位构成重点单位层,大量指标值较小单位构成抽样调查层。前者进行全面调查,后者进行抽样调查,最后综合使用两层的调查结果给出总体目标量的估计。循环等距抽样假设总体单元数为N,样本容量为n,Nwnk,总体中的N个单元已按某种确定顺序编号为1,2,,N,如将这些编号看成首尾相连的一个环,并从1到N中按简单随机抽样方式抽取一个单元编号作为随机起点r,然后每隔k抽取一个单元编号,直到抽满n个单元为止,则这种等距抽样称为循环等距抽样,又称圆形等距抽样。随机化回答简述题介绍简单随机抽样,包括特点,作用和应用场合。简单随机抽样也称为
53、单纯随机抽样、纯随机抽样、SRS抽样,是指从总体N个单位中任意抽取n个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。简单随机抽样的特点是:每个样本单位被抽中的概率相等,样本的每个单位完全独立,彼此间无一定的关联性和排斥性。(1)简单随机抽样要求被抽取的样本的总体个数N是有限的。(2)简单随机样本数n小于等于样本总体的个数No(3)简单随机样本是从总体中逐个抽取的。(4)简单随机抽样是一种不放回的抽样。(5)系统抽样的每个单元入样的可能性均为n/No简单随机抽样具有一定局限性:1、事先要把研究对象编号,比较费时、费力。2、总体分布较为分散,会使抽取的样本的分布也比较分散,给研究带
54、来困难3、当样本容量较小时,可能发生偏向,影响样本的代表性。4、当已知研究对象的某种特征将直接影响研究结果时,要想对其加以控制,就不能采用简单随机取样法。简单随机抽样(Simplerandomsampling)是其它抽样方法的基础,因为它在理论上最容易处理,而且当总体单位数N不太大时,实施起来并不困难。但在实际中,若N相当大时,简单随机抽样就不是很容易办到的。首先它要求有一个包含全部N个单位的抽样框;其次用这种抽样得到的样本单位较为分散,调查不容易实施。因此,在实际中直接采用简单随机抽样的并不多。通常适用于总体个数较少的情况。对多阶段抽样中自加权计算题为了解某小区住户调查某条街的居民居住条件,
55、从该街道的100个居民小组随机抽取了8个居民小组,取得以下数据样本居民小组12345678居民数4039125237334114房间数5872269874577648要求:(1)估计平均每个居民拥有的房间数并计算估计精度;(2)该条街共有多少房间及其估计的精度;说明你上述使用的估计量是有偏的还是无偏的。【解】由已知设房间数为Y,居民数为X,n=8,N=100,f=n/N=0.08,x=33.5,y=63.625A(1)平均每个居民拥有的房间数估计值为R=r=509/268=1.90AV(R)=V(r)r=-0.0008208从而95%置信度下区间估计为1.901.96*,即1.844,1.956A(2) Y=Ny=-=12.5*(58+72+26+98+74+57+76+48)=6362.5AV(Y)=N2一10000*一*-*3247.875533579.4643从而95%置信度下区间
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 委托收租协议书
- 工作在网际层的协议书
- 传承雷锋精神 构建文明校园
- 胃溃疡合并出血的康复护理方案
- 行政协议书的理解与认识
- 2026福建省厦门银行股份有限公司校园招聘备考题库含答案详解(b卷)
- 铸牢中华民族共同体意识与弘扬民族精神
- 预防出生缺陷科普
- 2026爱莎荔湾学校专任教师招聘备考题库(广东)附答案详解(基础题)
- 2026福建福州职业技术学院诚聘高层次人才备考题库带答案详解(a卷)
- 汽车维修保养服务单
- 暂估价说明概述
- 菜点酒水知识资源 单元三主题三
- GB/T 22900-2022科学技术研究项目评价通则
- 融水县金锋铜矿六秀后山108铜矿(新增资源)采矿权出让收益评估报告
- GB/T 15171-1994软包装件密封性能试验方法
- 污废水处理培训教材课件
- 医疗器械生产质量管理规范
- 诊断学查体相关实验
- 网络侦查与取证技术课件
- 《高等教育法规概论》练习题及答案(合集)
评论
0/150
提交评论