抽样调查-第2章简单随机抽样_第1页
抽样调查-第2章简单随机抽样_第2页
抽样调查-第2章简单随机抽样_第3页
抽样调查-第2章简单随机抽样_第4页
抽样调查-第2章简单随机抽样_第5页
已阅读5页,还剩90页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2.1 定义与符号 一、定义简单随机抽样:从含有N个单元的总体中随机 抽取n个单元组成样本。1.若抽样是放回的,则所有可能的样本有个,每个样本被抽中的概率为 ,这种抽样方法称为放回简单随机抽样。2.若抽样是不放回的,则所有可能的样本有个,每个样本被抽中的概率为,这种抽样方法称为不放回简单随机抽样。1.简单随机机抽样是是等概抽抽样,即每个总总体单元元都有相相同的入入样概率率;2.随机抽取取是有严严格要求求的,不是随便便抽取,必须按按照某一一随机原原则进行行。注意【例2.1】设总体有有5个单元(1,2,3,4,5),按放回简单单随机抽抽样的方方式抽2个单元元,则所所有可能的样本为个(考虑样本单元的

2、顺序)1,11,21,31,41,52,12,22,32,42,53,13,23,33,43,54,14,24,34,44,55,15,25,35,45,5(放回简简单随机机抽样所所有可能能的样本本)【例2.2】设总体有有5个单元(1,2,3,4,5),按不放回简简单随机机抽样的的方式抽抽2个单单元,则则所有可可1,21,31,41,52,32,42,53,43,54,5(不放回回简单随随机抽样样所有可可能的样样本)能的样本为个。在实际工工作中,更多地地采用不不放回简简单随机机抽样,所以以下讨论论的简单单随机抽抽样一般般都指不不放回简简单随机机抽样.二、符号号大写字母母表示总总体单元元的标志志

3、值:如如小写字母母表示样样本单元元的标志志值:如如调查的总总体目标标量主要要有:总体总量 Y;总体均值 ;总体某一指标的比例P;两个总体体总量的的比率R。对估计精精度进行行计算时时,要涉涉及到总体方差差和样本方差差等。下面分别别列出:总体方差差样本方差差还有一些些其他符符号,分别说明明如下:总体体(),样本本将左边式式子中的大写字字母改为小写字字母。总体指标值上面带符号“”的表示由样本得到的总体体指标的的估计。如称为的估计。估计量的方差用V表示,如标准差用S表示,如对的样本估计不用而用称为抽样比,记为f.2.2简单估计计量及其其性质无论调查查对象是是何种总总体参数数,其实实所有估估计量通常都都

4、是样本本均值的的某种线线性组合合,因此此在抽样样中不管讨讨论何种种估计的的基本性性质,都都只围绕绕样本均均值进行。而对样样本均值值这个核核心估计计量的研研究则分分为两个方方面:一方面是是求样本本均值对对所有可可能样本本的数学学期望(检验估估计量是是否无偏偏)。另一方面面是求样样本均值值对所有有可能样样本的方方差(检验估估计量误误差的大大小)。为了讨论论简单估估计的性性质,首首先我们们来看两两个引理理:引理一从大小为为N的总总体中抽抽取一个个样本量量为n的简简单随机机样本,则总体体中每个个特定单单元的入入样概率率为:两个特定定单元都都入样的的概率为为:引理一的证明:在N个单元中取n个单元为样本,

5、共有 个样本。在 个样本中,包含某个特定单元 的样本数为: 每个样本被抽中的概率为: 。 同时包含含两个特特定单元元的的样本数数为每个样本本被抽中中的概率率为:引理二从总体规规模为N的总体中中抽取一一个样本本量为n的简单单随机样样本。若若对总体体中的每每个单元元,引进进随机变变量如如下:由二项分分布可知知:所以,不不难推出出:简单估计量的性质 是性质1的无偏估计,即下面我们们用两种种与数理理统计中中不同的的方法来证明这这一性质质。思考:为什么不不能用数数理统计中常常用的方方法?有了这些些准备,我们很很容易证证明根据前面提到的关于 的定义,有下式 第二种方法证明 证明:对于一一个大小小为N的的总

6、体,样本量量为n的的简单随机样本有个,因此其他几个个估计量量的无偏偏性可容容易推出出:1、对于总总体总量量2、对于总总体比例例性质2对于简单随机抽样,的方差为:式中,n为样本量;f=为抽样比;1-f为有限总体体校正系系数。V()=(2.5)证明方法法一即证明方法法二:由定义而 因此有即性质3 V()的无偏估计为:式中,为样本方差。证明:将 改写成:由前面性性质1证明用过过的对称称论证法法有:由性质2有:下面我们们从关系系式可以推出出其他几几个估计计量的方方差总体总量量的估计计量方差差是总体体均值方方差的直直接推导,下下面我们们来推导导总体比比例估计计量的方方差。设N个样本单单元中有有N1个具有

7、某某一特性性,即有N1个单元取取值为1,有N-N1个单元取取值为0.同理对样样本方差差有因此同样下面面我们从从关系式式可以推出出估计量的方差是衡量估计量精度的度量。 从式可以看出,影响估计量方差的因素有:样本量n; 总体未入样比率1-f 总体方差分析见教教材P38,39 N通常很大,当f0.05时,可将1-f近似取为1,这时影响估计量方差的主要因素是样本量n和总体方差 。 的大小是我们无法改变的,因此,要提高估计量的精度就只有加大样本量。注意意【例2.3】我们从某某个N=100的总体中中抽出一一个大小为n=10的简单随随机样本本,要估估计总体体平均水水平并给出出置信度度95%的置信区区间。序号

8、i1 2 3 4 5 6 7 8 9 104 5 2 0 4 6 6 15 0 8解:依题意,N=100,n=10,f=样本均值值为:样本方差差为:因此,总体平均值的估计为:的方差为:的方标准差为:s的置信度95%的置信区间为:即2.4295,7.5705.,。其方差为:V( 放回简单随机抽样简单估计量注意:不放回时时的方差差为放回回时的约约1-f倍,而1-f1,因此不放放回抽样样的估计计精度比比放回抽抽样的估计精度度高。【例2.4】我们从某某个N=100的总体中中抽出一一个大小为n=10的简单随随机样本本,要估估计总体体总量并并给出在置信信度95%的条件下下,估计计量的相相对误差差。序号i1

9、 2 3 4 5 6 7 8 9 104 5 2 0 4 6 6 15 0 8解依题意,N=100,由例2.3可知:,因此,对总体总量的估计为:=1005=500 。对V()的样本估计为:0其标准差为为:因此,在在置信度度95%的条件下下(对应应的t=1.96),的相对误差为:=51.41%【例2.5】解:已知n=200,a=130,1-f1某超市开张一段段时间之之后,为为改进销销售服务务环境,欲调查查附近几几个小区区居民到到该超市市购物的的满意度度。该超超市与附附近几个个小区居居委会取取得联系系,在整整体中按按简单随随机机样样,抽取取了一个个大小为为n=200人的样本本。调查查发现对对该超市

10、市购物环环境表示示满意或或基本满满意的居居民有130位,要估估计对该该超市购购物环境境持肯定定态度居居民的比比例,并并在置信信度95%条件下,给出估估计的绝绝对误差差和置信信区间。假定这这时的抽抽样比可可以忽略略。在置信度度95%的条件下下,估计计的绝对对误差为为:的95%置信区间间为:0.652.3比率估计计量及其其性质用样本均均值作为为总体均均值的简简单估计计量,具具有无偏等很很多优良良性质,且完全全不依赖赖其它总总体信息息。但是,若若我们有有与调查查变量相相关的其其它信息息(通常常称为辅助助变量信信息)可可以利用用,则估估计的精精度可以以大大提高高。这就就是我们们下面要要讲的比比率估计计

11、和回归归估计。一、估计计的概念念设 主要变量为:Y 辅助变量为:X 两变量的比率为:总体均值的比估计:其中二、比率率估计的的特点及及注意事事项1、使用比比估计首首先要知知道辅助助变量的的总体均均值(或或总体总总量),调查时时,既要要观测主主要变量量的值还要观观测辅助助变量的的值;2、辅助变变量必须须与主要要变量高高度相关关且整体体上应相当稳稳定;3、比估计计虽然不不是无偏偏的,但但其精度度要高于于简单估计量量很多。下面我们们看一个个简单估计计与比估计对比的例例题【例】对以下假设设的总体体(N=6),用简单随随机抽样抽取n=2的样本,比较简简单随机机抽样比比率估计计及简单估计的的性质。i1234

12、56均值XiYi011331151882910464.518解:对这个总体,我们列出所有可能的个样本,以比较较简单估计与比率估计计的性质质。 i 样本简单估计( )比率估计( )1234567891011121314151,21,31,41,51,62,32,42,52,63,43,53,64,54,65,62.06.09.515.023.57.010.516.024.514.520.028.523.532.037.5181817.116.87521.1515.7515.751620.045516.312516.363619.730816.269219.218.75由此,可可以算出出:总结1、

13、从计算算表格中中可以看看出,均均值的比比估计很很稳定,而均值的的简单估估计则波波动剧烈烈。2、虽然比比率估计计是有偏偏估计,但偏倚倚不大,而估计计量方差要要比简单单估计的的方差小小得多。3、比估计计是一种种很好的的估计量量,是提提高估计计精度的的最有效的的途径。4、思考:比估计为为什么能能大幅度度地提高高估计精精度?对于简单单随机抽抽样, n较大时,比率估计计具有以以下性质质:关于比率率估计我我们要说说明(或证明明)以下下几个问问题:1、均值的的比率估估计不是是无偏的的;2、偏倚是是怎么产产生的;3、均值比比率估计计的均方方误差;4、均方误误差的估估计。第一个问问题可从从上面的的例题给给予说明

14、明:第二个问问题我们们可以从从下面的的表达式式说明:这里是是常常量,是是随机机变量。估计量量不是随机变量量的线性性函数。因此,估计量量的偏倚倚是由R的有偏性性造成的的.第三个问问题,我我们来证证明R估计的偏偏倚因此因而偏倚倚主要来来自于等等式右边边的第二二项,由由因此,偏偏倚的主主要项为为:同样我们们可以推推出:对上述方方差分别别给出样样本估计计式如下下:【例2.2】某县在对对船舶调调查月完完成的货货运量进进行调查查时,对对运管部部门登记记的船舶舶台帐进进行整理理后获得得注册船船舶2860艘,载重重吨位154626吨。从2860艘船舶中中抽取一一个n=10的简单随随机样本本,调查查得到样样本船

15、舶舶调查月月完成的的货运量量及其载载重吨位位如表(单位:吨),要推算算该县船船舶调查查月完成成的货运运量。 i i1234578015001005376600100505010206789102170182314501581370120150802050解:已知:N=2860, n=10, X=154626 由表可得因此,对该县船船舶在调调查月完完成货运运量的比比率估计计为:方差的估估计为:=2.10617标准差的估计为:如果用简简单估计计对货运运量进行行估计,则由此,得到比率率估计量量设计效应应为:对于本问问题,比率估计计量比简单估估计量的的效率高高!【例2.3】在一项工工资研究究中,人人们

16、发现现IT行业中,从业者的的现薪与与起薪之之间相关关系数高高达0.88,已知某IT企业474名员工的的平均起起薪为17016.00元/年,现根据对对100个按简单单随机抽抽样方式式选出的的员工现现薪的调查结结果,估估计该企企业员工工的现薪薪平均水水平。已知:【解】1、在简单单估计条条件下,的95%的近似置信区间为:此处教材材有误(P51)2、在比率率估计条条件下,的95%的近似置信区间为:下面我们们从理论论上来比比较简单单估计与与比率估估计的误误差比率估计计量精度度高于简简单估计计量的充充要条件件是:也就是说说,比率估计比简单估计更为精确。尤其是当 时,只要相关系数 ,比率估计就要优于简单估计

17、。比率估计计的其他他问题看看教材P532.4回归估计计量及其其性质一、回归估计计的定义义对于简单随机抽样,总体均值和总体总量的回归估计量(regression estimatior)的定义为:式中,是样本均值;为事先设定的一个常数如果=0,则回归估计量就就是简单单估计量量;如果则回归估计量就是比率估计量。二、为常数的情形当回归系数为事先给定的常数时,或以前为相同目的进行的调查所得到的对的样本回归系数稳定在某个数值上,取最近一次调查所得的作为设定值。性质2对于简单单随机抽抽样回归归估计量量,作为为及Y 的回归估计,都是无偏的。即的方差分别为:式中,分别是Y,X的总体方差和总体协方差;分别是Y,X

18、的样本方差和样本协方差。的样本估计量为:我们对上式两端关于 求导数,得:因此当取总体回归系数达到最小,即时,式中,为总体相关系数。三、为样本回回归系数数的情形形如果需需要通过过样本来来确定,很自然然地,我们会想想到用总总体回归归系数的的最小二二乘估计计,也就是样样本回归归系数:这时简单单随机抽抽样回归归估计量量是有偏的。但当样本量n充分大时时,估计量的的偏倚趋趋于零。因此,类似比率估计计量,回回归估计计量也是是渐近无无偏的。且有的一个近似估计为:【例4.5】(续P72的例4.2)利用回归归估计量量推算该该县船舶舶调查月完完成的货货运量.解:根据例4.2中的计算结果可得样本回归系数:从而因此,该

19、该县船舶舶调查月月完成的的货运量量的回归归估计为:为了估计 ,先计算回归残差方差:所以对于同一一个题,我们来来比较三三种估计计量的误误差差异异与例4.2的结果比比较,对对于本问问题回归归估计优优于比率率估计,而比率率估计又又优于简简单估计计;回归估计计优于比比率估计计的原因因是回归归直线可可以不通通过原点点。比较上述述估计量量的优劣劣,一般般是通过过比较它它们的均均方误差差或方差差大小来来进行。关于简单单估计、比率估估计、回归估计计的估计计量方差差比较简单估计量:比率估计量:回归估计量:由此可以以看出(在不考虑虑偏倚的的情况下下)有以下结结论:2.比率估计量优于简单估计量的条件是:3.回归估计

20、量优于比率估计量的条件是:在不考虑虑偏倚时时,回归归估计总总是优于于比率估估计1.回归估计量总是优于简单估计量,除非即一般而言有如果不忽忽略偏倚倚,全面面考虑比比率估计计和回归估估计的均均方误差差MSE,那情况况会怎么样呢?下面我们们通过教教材P61.表213的实际例题来分分析比较较。(略,看教材)2.4简单随机机抽样的的实施一、样本本量的确确定原理理我们知道道n的大小会会影响抽抽样误差差,因为为如果n越接近N,则抽样样误差就就会越接接近于零零,这一一点也清楚地地体现在在下面的的式子里里。三个因素素决定n在上式中中,N是已知的的,S是无法知知道的,所以要要考考虑影响响n的重点应应该是抽抽样误差

21、差。习惯上,不以作作为调调查精度度指标,而是用用置信度度和绝对误误差限度度替替代抽抽样误差差根据双侧侧分位点点的定义义有下面我们们分别观观察等式式右端各各部分对对n的影响。0.900.950.991.6451.962.58 n1.191.73置信度对对样本量量n的影响绝对误差差限度d对样本量量n的影响d0.140.100.040.03n4995566964这里总体方差差对样本本量n的影响00.090.160.210.240.25n1136240313356370这里下面我们把置信度设为:绝对误差设为:总体方差设为:来观察总体规模N对样本量n的影响总体规模N样本容量n50441007950021

22、71000278500035710000370100000383100000038410000000384总体规模模N对样本量量n的影响二、样本本量的确确定步骤骤第一步:确定委委托单位位认可的的估计精精度水平平,包括括绝对误差差d和置信水水平;第二步:按照保保守原则则(宁大大勿小),实施施对总体体方差的预预估;第三步:根据上上述给定定的估计计精度和和总体方方差的预预估值并考考虑总体体N的大小,以简单单抽样及及回答率率100%为前提条条件,按按下面的的式子计计算初始始样本量量n第四步:确定抽样样方法,并根据据不同抽抽样方法法的抽样样效应deff对样本容容量进行行调整:简单随机机抽样的的分层随机机抽样的的整群随机机抽样的的系统随机机抽样的的第五步:判定有效效回答率率,并根根据有效效回答率率r对样本容量量进行再再调整:第六步:为了获得得分组数数据,要要考虑适适当增加加样本量量;第七步:要考虑虑调查费费用,适适当调整整样本量量。三、抽选选方法首先将总总体的N个单元从从一到N编号,每每个单元元对应一一个号,如果抽抽到某个个号,则则对应的的那个单单元入样样。要选选出n个单元入入样,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论