抽样调查作业集合共10_第1页
抽样调查作业集合共10_第2页
抽样调查作业集合共10_第3页
抽样调查作业集合共10_第4页
抽样调查作业集合共10_第5页
已阅读5页,还剩10页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、填空题:1. 若样本统计量w的期望和方差分别为 E(w)和var(w),那么以样本统计量w估计总体的数字特征 W有偏量B(w)=E(w)-W;均方偏差MSE(w)二E(w-W);且偏量、统计量w的方差与均方偏差三者之间的关系为:MSE(w)二 2var(w)+B(w)2.2. 在概率抽样调查中,有简单随机抽样、不等概抽样、分层抽样、多阶抽 样、系统抽样、多相抽样等基本的抽样方法。3. 抽样框:又称“抽样框架” 、“抽样结构”,是指对可以选择作为样本的 总体单位列出名册或排序编号,以确定总体的抽样范围和结构。设计出了 抽样框后,便可采用抽签的方式或按照随机数表来抽选必要的单位数。若 没有抽样框,

2、则不能计算样本单位的概率,从而也就无法进行概率选样。 抽样框除包含有抽样单位的编号及抽样单位与总体、个体单位的联系外, 还应包含一些有用的辅助信息。这些辅助吸血可用于抽样方案的设计和数 据处理,有益于提高调查的质量。4. 抽样方案的设计要求:利用抽样框的辅助信息,综合各种基本的概率抽 样方法来制定一个可行的、精度满足要求而且费用最省的抽样方法。5. 一个完整的抽样策略由抽样方法应配合有一个相适应的估计结合在一 起组成。6. 总体采用简单随机抽样时,对总体目标量的均值或总数,可以有多种 估计方法。在没有辅助信息是,可以采用简单估值法,以样本的均值估计 总体的均值;当有适宜的辅助信息利用时,可以采

3、用比估计和回归估计。7. 二相抽样是对总体进行一次以上的抽样。第一次抽样的样本单元并不是调查所需的目标量,而是调查一些可通过较小的工作量快速获得辅助信息;第二次抽样则是在获得辅助信息的基础上,再作一个样本量较小的调查,调查所需的目标量。8. 分层随机抽样适用于总体单位数量较多、内部差异较大的调查对象。在分层时,要使层内的个体单元有较好的同一性,层间的差异较大。9. 多阶段抽样与整群抽样都是将总体分成若干小的群体,这些小的群体为第一性抽样单元。 再对抽中的第一性抽样单元抽样,其中的个体为第二性抽样单元。10. 有放回不等概抽样是每个单元入样概率正比于规模测度的抽样方法;实施无放回不等概抽样的方法

4、主要有:布鲁尔法和德宾法。定义:即抽取概率。计算题:1假设总体容量为N=6,其标志值分别为123,5,6,7.若分为两个群(1,2,3)和(5,6,7),计算群内相关系数。它能说明什么问题。又若分为(1,5,7)和(2,3,6),计算群内相关系数。它又能说明什么问题。2. 给定一个包含25个单元的目标为总体,先排成5行5列的形式,每行每列均包含5个单元,单元排列先按列排列,考虑n=k=5的系统抽样,以行为群组成系统样本,而以列为层。若按从小到大的顺序排列,比较该系 统抽样,简单抽样,及分层抽样的效率。12345112262936442182829364631928303948424283339

5、5052529344052解:依题意可知:分为以下两种情况讨论i)以行为群,组成系统抽样。此时N 25,K N。5根据公式:Yi?Yj2Yi?有:表c12345Yi?Si2?1122629364429.40142.82182829364631.40107.83192830394832.80122.74242833395034.80103.75252934405236.00111.5所以:由上述可知:V Y sy3. 某县农村共有14个乡509个村,在实现小康的过程中欲计算该县农村 的恩格尔系数(居民的食品支出占总指出的比例)。首先要调查全县的食品总支出,现采用了二阶段抽样,第一阶段先在14个乡

6、中,按村的的数目多少进行了 PPS抽样,共抽取5个乡,第二阶段在抽取的乡中随机地抽 取6个村做调查,然后对抽中的村做全面调查,取得数据如下:样本乡序号k村数Ni样本村数样本村平均食品支出(万元)119648241617537261084546905366100要估计全县的食品支出总金额及估计的标准差问题分析:此题为第一阶段是以14个乡中所含村的个数为规模测度的PPS抽样,第二阶段是取等额的简单随机抽样的二阶抽样。故二 1 k Ni -G ppsyi (*)k i 1 P i()由题意可知:总村数N=509,样本乡数 k=5,第i个样本乡的入样概率Pi故yi空,抽取的样本总村数 n=30,第二阶

7、段为取等额的简单随机抽样Nkn/kyij1其中yij表示第i个样本乡中第j个样本村的食品支出第8页总额。A解:G ppsk i 1 p-yi将Pi牛代入后得代入数据可得估计值为:AG pps509 48517510890 10053037.8(万元)均方偏差的无偏估计量:A1 kN - :KIV Gppsyi Gpps将【】式与Pii代入k(k 1)i iP左式得AN2 k2_ 1k _v G ppsyi y 【】其中y -y 再代入k(k 1) i iki 1i数据AvG pps=1088776199.4 (万元)故标准差为:s(Gpps)v(Gpps) =10434 (万元)注意:其中公式

8、【】与公式【】的运用是在第一阶段是正比于子总体规模的PPStt样,第二阶段是取等额的简单随机抽样的二阶抽样的前提条件下才能进行的。4. 若假设已知该县有380千人,并有各个乡的人口资料,则第一阶段按与 乡的人口多少成比例地抽样,也抽取 5个乡。第二阶段用简单随机抽样抽 取6个村得数据如下表,再估计全县的食品支出总金及估计的标准差。样本乡序号人口数村数样本村平均食品支出kN i(万元)124309625041175338351674604818853039130问题分析:此题与前一题的差别不大,抽样方法都是第一阶段是 PPS抽样,第二阶段是取等额的简单随机抽样的二阶抽样。唯一不同的是两者的规模测

9、度不同,此题是按与乡的人口数为规模测度的PPS抽样。故此题中居民总量 2=148420(户),总样本容量P X1 X,其中X为该县的总人数,Xi为抽中样本乡的总人数。没有与子总体的N i成正比,不能用直接公式【】与公式【】解:iNiwiNi / Nys1 (城235600.137151803972300镇)2(农村)1482400.86398562546250合计171980(万元)标准差为:=3043 (万元)Av G ppsAAs(G) Jv(G )G pps - G ppsA1 k M 1 k Nj X k M GPPS kiiyi kiiXTyi QiNyi 55991 (万元)1 k

10、 Nj k(k 1) i 1©注意:两题抽样方法的选择虽然相同,但PPS抽样中的规模测度选择不同导致估计的效率不同,从而影响到估计的准确度。5. 某市进行家庭收入调查,分城镇居民与农村居民两部分抽样,在全部城镇23560户中抽取300户,在全部农村148420户中抽取250户(均按简单 随机抽样进行),调查结果是城镇平均年收入标准差为 3000元,农村年平均 户收入标准差为2000元.且对城镇居民与农村居民抽样平均每户费用比 为1: 2.给出城镇与农村两层比列分配与最优分配的样本量的分配。解:已知总体总量N 171980(户),城镇居民总量 弘23560(户),农村n=550,城镇占

11、总体比例W加0.137,1.2.农村占总体比例 W2二丛=0.863,费用比N按比例分配:城镇样本量:农村样本量:考虑费用前提下的最优分配n w1W2* nCi _ 1 。C22n 0.137*55075(户)0.863*550475(户)由定理4.3.2知nk为待求得比例系数又因为:n n k鉴则 k n/((若不考虑费用)(奈曼最优分配):第15页由定理431知考虑本题有ni nn ni 固定有 ni n* kWiSiWjSjj 1WS2WjSjj 16.三种样本量估算的比较条件n值(样本量)简化公式按绝对精度1 y y i<d2 2n(U1 /2)S2 2n (U1 /2) Sn=

12、2 1 2 2 d (u1 /2) S Nnd2按相对精度Yh.(u1 /2) C n= 1i 21/2厂2h (U1 /2) CN2 2n (u1 /2 ) C nh2考虑费用1n2FF0 Rn a_(1 )SnNlaS2V F1注:Ui /2是N(o,1)分布的1 分位数,S2是总体方差,d是绝对精度,N :2总体种抽样单位的数额,C S/Y为变异系数,Fo是调查的基本费用,Fi是 每调查一个样本单元所需费用,a是常数。某大城市进行计算机普及率的调查,若从全市数百万户家庭中,简单随机 地抽取n户进行调查,为了使普及率的绝对误差不超过2%,样本量n应取多大?解:此问题待估量是总体普及率 P

13、,若P=Nl,则按(234)式的设N定,易算出总体方差并易发现当P从0上升到0.5时,P(1-P)是随着递增的,当P从0.5再增加到1时,P(1-P)是递降的在P=0.5时达到最大值S2= P(1-P) =0.25.按最保险的情况估算样本量,则可取如果我们在计算机普及率有一个很粗糙的估计,估计该普及率应在10% 至20%之间,那么我们只要对P在此区间来粗略估算相应的 S2.在此区间 时P取20%有最大的S2值0.2 X 0.8= 0.16.故样本量n取下述值就够了 : 当对精度的要求不是绝对精度,而是相对精度时,样本量应用(2.4.5)或 (2.4.6) 式估算.对普及率P,变异系数C=P(1

14、 P).当P从0变到1时,它 是递降的.因而P值越小变异系数越大.于是若普及率P在10%至20%之间, 则按在P =10%所相应的可能的最大变异系数值C=0.9/0.1=3,估算样本量n.当相对误差h取为20%寸,由(2.4.6)式7.从某地区15786位老人中,抽出一个含有 525位老人的简单随机样本,调查每位老人的性别及生活是否能够自理,结果如下:、性别 生活能否自理 、男女能211263不能3120估计该地区生活不能自理的老人的人数,并估计标准差,并以95%勺置信度对其作区间估计。解:该地区生活不能自理的老人的比例515250.097该地区生活不能自理的老人的人数51N, N * p 15786*1533525 人标准差的估计值为95%勺置信度区间估计为证明题1. 设E1,V1是对第一步抽样求均值和方差,E,V2为给定第一步抽样结果的条件下对第二步抽样求均值及方差,求证:按两步抽样获得的估计量?方差有:V( ?)=V1E2( ?) + E 1V2( ?)2若样本统计量 w的期望和方差分别为 E(w)和var(w),那么以样本统计量w估计总体的数字特征 W有偏量B(w)=E(w)-W;均方偏差MSE(w)二E(w-W);求证:统计量 w的偏量、方差与均方偏差三者之间的关系为:MSE(w)二28个果园,分别有var(w)+B(w)例子:用最大规模法对下例进行不等

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论