抽样调查-第2章简单随机抽样课件_第1页
抽样调查-第2章简单随机抽样课件_第2页
抽样调查-第2章简单随机抽样课件_第3页
抽样调查-第2章简单随机抽样课件_第4页
抽样调查-第2章简单随机抽样课件_第5页
已阅读5页,还剩185页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

§2.1定义与符号

一、定义简单随机抽样:从含有N个单元的总体中随机抽取n个单元组成样本。1.若抽样是放回的,则所有可能的样本有个,每个样本被抽中的概率为,这种抽样方法称为放回简单随机抽样。2.若抽样是不放回的,则所有可能的样本有个,每个样本被抽中的概率为,这种抽样方法称为不放回简单随机抽样。§2.1定义与符号一、定义简单随机抽样:从含有N个单元11.简单随机抽样是等概抽样,即每个总体单元都有相同的入样概率;2.随机抽取是有严格要求的,不是随便抽取,必须按照某一随机原则进行。注意1.简单随机抽样是等概抽样,即每个总体单元都有相同的入样概率2【例2.1】设总体有5个单元(1,2,3,4,5),按放回简单随机抽样的方式抽2个单元,则所有可能的样本为个(考虑样本单元的顺序)1,11,21,31,41,52,12,22,32,42,53,13,23,33,43,54,14,24,34,44,55,15,25,35,45,5(放回简单随机抽样所有可能的样本)【例2.1】设总体有5个单元(1,2,3,4,5),按放回3【例2.2】设总体有5个单元(1,2,3,4,5),按不放回简单随机抽样的方式抽2个单元,则所有可1,21,31,41,52,32,42,53,43,54,5(不放回简单随机抽样所有可能的样本)能的样本为个。在实际工作中,更多地采用不放回简单随机抽样,所以以下讨论的简单随机抽样一般都指不放回简单随机抽样.【例2.2】设总体有5个单元(1,2,3,4,5),按不放4二、符号大写字母表示总体单元的标志值:如小写字母表示样本单元的标志值:如调查的总体目标量主要有:总体总量Y;总体均值

;总体某一指标的比例P;两个总体总量的比率R。对估计精度进行计算时,要涉及到总体方差和样本方差等。下面分别列出:二、符号大写字母表示总体单元的标志值:如小写字母表示样本单元5总体方差样本方差还有一些其他符号,分别说明如下:总体方差样本方差还有一些其他符号,分别说明如下:6总体(),样本将左边式子中的大写字母改为小写字母。总体(),样本将左边式子中7总体指标值上面带符号“”的表示由样本得到的总体指标的估计。如称为的估计。估计量的方差用V表示,如标准差用S表示,如对的样本估计不用而用称为抽样比,记为f.总体指标值上面带符号“”的表示由样本得到的总体指标的估计。如8§2.2简单估计量及其性质

无论调查对象是何种总体参数,其实所有估计量通常都是样本均值的某种线性组合,因此在抽样中不管讨论何种估计的基本性质,都只围绕样本均值进行。而对样本均值这个核心估计量的研究则分为两个方面:一方面是求样本均值对所有可能样本的数学期望

(检验估计量是否无偏)。另一方面是求样本均值对所有可能样本的方差

(检验估计量误差的大小)。§2.2简单估计量及其性质无论调查对象是何9为了讨论简单估计的性质,首先我们来看两个引理:

引理一

从大小为N的总体中抽取一个样本量为n的简单随机样本,则总体中每个特定单元的入样概率为:两个特定单元都入样的概率为:为了讨论简单估计的性质,首先我们来看两个引理:10引理一的证明:在N个单元中取n个单元为样本,共有个样本。在个样本中,包含某个特定单元的样本数为:每个样本被抽中的概率为:。同时包含两个特定单元的样本数为每个样本被抽中的概率为:引理一的证明:在N个单元中取n个单元为样本,同时包含两个特定11

引理二

从总体规模为N的总体中抽取一个样本量为n的简单随机样本。若对总体中的每个单元,引进随机变量如下:由二项分布可知:引理二从总体规模为N的总体中抽取12所以,不难推出:所以,不难推出:13简单估计量的性质

是性质1的无偏估计,即下面我们用两种与数理统计中不同的方法来证明这一性质。思考:为什么不能用数理统计中常用的方法?简单估计量的性质是性质1的无偏估计,即下面14有了这些准备,我们很容易证明根据前面提到的关于的定义,有下式有了这些准备,我们很容易证明根据前面提到的关于的定15第二种方法证明

证明:对于一个大小为N的总体,样本量为n的简单随机样本有个,因此第二种方法证明证明:对于一个大小为N的总体,样本量为n16抽样调查-第2章简单随机抽样课件17其他几个估计量的无偏性可容易推出:1、对于总体总量2、对于总体比例其他几个估计量的无偏性可容易推出:1、对于总体总量2、对于总18性质2对于简单随机抽样,的方差为:式中,n为样本量;f=为抽样比;1-f为有限总体校正系数。V()=(2.5)性质2对于简单随机抽样,的方差为:式中,n为样本量;f=为抽19证明方法一证明方法一20即即21

证明方法二:由定义而

证明方法二:由定义而22因此有因此有23

即即24性质3V()的无偏估计为:式中,为样本方差。证明:将改写成:性质3V()的无偏估计为:式中,为样本方差。证明:将25由前面性质1证明用过的对称论证法有:由性质2有:由前面性质1证明用过的对称论证法有:由性质2有:26抽样调查-第2章简单随机抽样课件27下面我们从关系式可以推出其他几个估计量的方差下面我们从关系式可以推出其他几个估计量的方差28

总体总量的估计量方差是总体均值方差的直接推导,下面我们来推导总体比例估计量的方差。总体总量的估计量方差是总体均值方差的直接29

设N个样本单元中有N1个具有某一特性,即有N1个单元取值为1,有N-N1个单元取值为0.设N个样本单元中有N1个具有某一特性,即有30同理对样本方差有因此同理对样本方差有因此31同样下面我们从关系式可以推出同样下面我们从关系式可以推出32估计量的方差是衡量估计量精度的度量。从式可以看出,影响估计量方差的因素有:①样本量n;③总体未入样比率1-f

②总体方差分析见教材P38,39估计量的方差是衡量估计量精度的度量。从式①样本量n;33

N通常很大,当f<0.05时,可将1-f近似取为1,这时影响估计量方差的主要因素是样本量n和总体方差。的大小是我们无法改变的,因此,要提高估计量的精度就只有加大样本量。注意N通常很大,当f<0.05时,可将1-f近似取为1,34【例2.3】我们从某个N=100的总体中抽出一个大小为n=10的简单随机样本,要估计总体平均水平并给出置信度95%的置信区间。序号i1234567891045204661508解:依题意,N=100,n=10,f=样本均值为:【例2.3】我们从某个N=100的总体中抽出一个序号i135样本方差为:因此,总体平均值的估计为:的方差为:的方标准差为:s的置信度95%的置信区间为:即[2.4295,7.5705].样本方差为:因此,总体平均值的估计为:的方差为:的方标准差为36,。其方差为:V(

放回简单随机抽样简单估计量,。其方差为:V(放回简单随机抽样简单估计量37

注意:不放回时的方差为放回时的约1-f倍,而1-f<1,因此不放回抽样的估计精度比放回抽样的估计精度高。注意:不放回时的方差为放回时的约1-f倍,而1-f<1,因38【例2.4】我们从某个N=100的总体中抽出一个大小为n=10的简单随机样本,要估计总体总量并给出在置信度95%的条件下,估计量的相对误差。序号i1234567891045204661508解依题意,N=100,由例2.3可知:,因此,对总体总量的估计为:=100×5=500。【例2.4】我们从某个N=100的总体中抽出一个大序号i139对V()的样本估计为:0其标准差为:因此,在置信度95%的条件下(对应的t=1.96),的相对误差为:=51.41%对V()的样本估计为:0其标准差为:因此,在置信度95%的条40【例2.5】解:已知n=200,a=130,1-f≈1某超市开张一段时间之后,为改进销售服务环境,欲调查附近几个小区居民到该超市购物的满意度。该超市与附近几个小区居委会取得联系,在整体中按简单随机机样,抽取了一个大小为n=200人的样本。调查发现对该超市购物环境表示满意或基本满意的居民有130位,要估计对该超市购物环境持肯定态度居民的比例,并在置信度95%条件下,给出估计的绝对误差和置信区间。假定这时的抽样比可以忽略。【例2.5】解:已知n=200,a=130,1-41在置信度95%的条件下,估计的绝对误差为:的95%置信区间为:0.65在置信度95%的条件下,估计的绝对误差为:的95%置信区间为42§2.3比率估计量及其性质

用样本均值作为总体均值的简单估计量,具有无偏等很多优良性质,且完全不依赖其它总体信息。但是,若我们有与调查变量相关的其它信息(通常称为辅助变量信息)可以利用,则估计的精度可以大大提高。这就是我们下面要讲的比率估计和回归估计。一、估计的概念§2.3比率估计量及其性质用样本均值作为43设主要变量为:Y辅助变量为:X两变量的比率为:总体均值的比估计:其中设主要变量为:Y总体均值的比估计:其中44二、比率估计的特点及注意事项1、使用比估计首先要知道辅助变量的总体均值(或总体总量),调查时,既要观测主要变量的值还要观测辅助变量的值;2、辅助变量必须与主要变量高度相关且整体上应相当稳定;3、比估计虽然不是无偏的,但其精度要高于简单估计量很多。下面我们看一个简单估计与比估计对比的例题二、比率估计的特点及注意事项1、使用比估计首先要知道辅助变量45【例】对以下假设的总体(N=6),用简单随机抽样抽取n=2的样本,比较简单随机抽样比率估计及简单估计的性质。i123456均值XiYi011331151882910464.518解:对这个总体,我们列出所有可能的个样本,以比较简单估计与比率估计的性质。【例】对以下假设的总体(N=6),用简单随机抽样抽取n=246i样本简单估计()比率估计()1234567891011121314151,21,31,41,51,62,32,42,52,63,43,53,64,54,65,62.06.09.515.023.57.010.516.024.514.520.028.523.532.037.5181817.116.87521.1515.7515.751620.045516.312516.363619.730816.269219.218.75i样本简单估计()比率估计(47由此,可以算出:由此,可以算出:48总结1、从计算表格中可以看出,均值的比估计很稳定,而均值的简单估计则波动剧烈。2、虽然比率估计是有偏估计,但偏倚不大,而估计量方差要比简单估计的方差小得多。3、比估计是一种很好的估计量,是提高估计精度的最有效的途径。4、思考:比估计为什么能大幅度地提高估计精度?总结49对于简单随机抽样,n较大时,比率估计具有以下性质:对于简单随机抽样,n较大时,比率估计具有以下性质:50关于比率估计我们要说明(或证明)以下几个问题:1、均值的比率估计不是无偏的;2、偏倚是怎么产生的;3、均值比率估计的均方误差;4、均方误差的估计。关于比率估计我们要说明51第一个问题可从上面的例题给予说明:第二个问题我们可以从下面的表达式说明:这里是常量,是随机变量。估计量不是随机变量的线性函数。因此,估计量的偏倚是由R的有偏性造成的.第一个问题可从上面的例题给予说明:第二个问题我们可以从下面的52第三个问题,我们来证明R估计的偏倚第三个问题,我们来证明R估计的偏倚53因此因而偏倚主要来自于等式右边的第二项,由因此因而偏倚主要来自于等式右边的第二项,由54因此,偏倚的主要项为:同样我们可以推出:因此,偏倚的主要项为:同样我们可以推出:55抽样调查-第2章简单随机抽样课件56对上述方差分别给出样本估计式如下:对上述方差分别给出样本估计式如下:57【例2.2】某县在对船舶调查月完成的货运量进行调查时,对运管部门登记的船舶台帐进行整理后获得注册船舶2860艘,载重吨位154626吨。从2860艘船舶中抽取一个n=10的简单随机样本,调查得到样本船舶调查月完成的货运量及其载重吨位如表(单位:吨),要推算该县船舶调查月完成的货运量。【例2.2】某县在对船舶调查月完成的货运量进行调查时,对运管58ii1234578015001005376600100505010206789102170182314501581370120150802050解:已知:N=2860,n=10,X=154626由表可得ii178010062170120解:已知:N59因此,对该县船舶在调查月完成货运量的比率估计为:方差的估计为:=2.10617×因此,对该县船舶在调查月完成货运量的比率估计为:方差的估计为60标准差的估计为:如果用简单估计对货运量进行估计,则由此,得到比率估计量设计效应为:对于本问题,比率估计量比简单估计量的效率高!标准差的估计为:如果用简单估计对货运量进行估计,则由此,得到61【例2.3】在一项工资研究中,人们发现IT行业中,从业者的现薪与起薪之间相关系数高达0.88,已知某IT企业474名员工的平均起薪为17016.00元/年,现根据对100个按简单随机抽样方式选出的员工现薪的调查结果,估计该企业员工的现薪平均水平。已知:【例2.3】在一项工资研究中,人们发现IT行业中,62【解】1、在简单估计条件下,的95%的近似置信区间为:此处教材有误(P51)【解】的95%的近似置信区间为:此处教材有误(P51)632、在比率估计条件下,的95%的近似置信区间为:2、在比率估计条件下,的95%的近似置信区间为:64下面我们从理论上来比较简单估计与比率估计的误差比率估计量精度高于简单估计量的充要条件是:下面我们从理论上来比较简单估计与比率估计的误差比率估计量精度65也就是说,比率估计比简单估计更为精确。尤其是当时,只要相关系数,比率估计就要优于简单估计。比率估计的其他问题看教材P53也就是说,比率估计比简单估计更为精确。尤其是当66§2.4回归估计量及其性质一、回归估计的定义对于简单随机抽样,总体均值和总体总量的回归估计量(regressionestimatior)的定义为:式中,是样本均值;为事先设定的一个常数如果β=0,则回归估计量就是简单估计量;如果则回归估计量就是比率估计量。§2.4回归估计量及其性质一、回归估计的定义对于简单随机67二、为常数的情形当回归系数为事先给定的常数时,或以前为相同目的进行的调查所得到的对的样本回归系数稳定在某个数值上,取最近一次调查所得的作为设定值。性质2对于简单随机抽样回归估计量,作为及Y的回归估计,都是无偏的。即的方差分别为:二、为常数的情形当回归系数为事先给定的常数时,或以前为相同目68式中,分别是Y,X的总体方差和总体协方差;分别是Y,X的样本方差和样本协方差。的样本估计量为:式中,分别是Y,X的总体方差和总体协方差;分别是Y,X的样本69我们对上式两端关于求导数,得:我们对上式两端关于求导数,得:70因此当取总体回归系数达到最小,即时,式中,为总体相关系数。因此当取总体回归系数达到最小,即时,式中,为总体相关系数。71三、β为样本回归系数的情形如果β需要通过样本来确定,很自然地,我们会想到用总体回归系数的最小二乘估计,也就是样本回归系数:这时简单随机抽样回归估计量是有偏的。但当样本量n充分大时,估计量的偏倚趋于零。因此,类似比率估计量,回归估计量也是渐近无偏的。三、β为样本回归系数的情形如果β需要通过样本来确定,很自然地72且有的一个近似估计为:且有的一个近似估计为:73【例4.5】(续P72的例4.2)利用回归估计量推算该县船舶调查月完成的货运量.解:根据例4.2中的计算结果可得样本回归系数:从而【例4.5】(续P72的例4.2)利用回归估计量推算该县船舶74因此,该县船舶调查月完成的货运量的回归估计为:为了估计,先计算回归残差方差:所以因此,该县船舶调查月完成的货运量的回归为了估计75对于同一个题,我们来比较三种估计量的误差差异对于同一个题,我们来比较三种估计量的误差差异76●与例4.2的结果比较,对于本问题回归估计优于比率估计,而比率估计又优于简单估计;

●回归估计优于比率估计的原因是回归直线可以不通过原点。

●比较上述估计量的优劣,一般是通过比较它们的均方误差或方差大小来进行。●与例4.2的结果比较,对于本问题回归估计优于比77关于简单估计、比率估计、回归估计的估计量方差比较简单估计量:比率估计量:回归估计量:关于简单估计、比率估计、简单估计量:比率估计量:回归估计78由此可以看出(在不考虑偏倚的情况下)有以下结论:2.比率估计量优于简单估计量的条件是:3.回归估计量优于比率估计量的条件是:在不考虑偏倚时,回归估计总是优于比率估计1.回归估计量总是优于简单估计量,除非即一般而言有由此可以看出(在不考虑偏倚的情况下)有以下结论:2.比率估计79如果不忽略偏倚,全面考虑比率估计和回归估计的均方误差MSE,那情况会怎么样呢?下面我们通过教材P61.表2—13的实际例题来分析比较。(略,看教材)如果不忽略偏倚,全面考虑比率估计80§2.4简单随机抽样的实施一、样本量的确定原理

我们知道n的大小会影响抽样误差,因为如果n越接近N,则抽样误差就会越接近于零,这一点也清楚地体现在下面的式子里。三个因素决定n§2.4简单随机抽样的实施一、样本量的确定原理三个因素决定81

在上式中,N是已知的,S是无法知道的,所以要考考虑影响n的重点应该是抽样误差。习惯上,不以作为调查精度指标,而是用置信度和绝对误差限度替代抽样误差根据双侧分位点的定义有在上式中,N是已知的,S是无法知道的,所以要考根据双82下面我们分别观察等式右端各部分对n的影响。下面我们分别观察等式右端各部分对n的影响。830.900.950.991.6451.962.58n1.191.73置信度对样本量n的影响绝对误差限度d对样本量n的影响d0.140.100.040.03n4995566964这里0.900.950.991.6451.962.5884总体方差对样本量n的影响00.090.160.210.240.25n1136240313356370这里下面我们把置信度设为:绝对误差设为:总体方差设为:来观察总体规模N对样本量n的影响总体方差对样本量n的影响00.090.160.210.24085总体规模N样本容量n5044100795002171000278500035710000370100000383100000038410000000384总体规模N对样本量n的影响总体规模N样本容量n5044100795002171000286二、样本量的确定步骤第一步:确定委托单位认可的估计精度水平,包括绝对误差d和置信水平;第二步:按照保守原则(宁大勿小),实施对总体方差的预估;第三步:根据上述给定的估计精度和总体方差的预估值并考虑总体N的大小,以简单抽样及回答率100%为前提条件,按下面的式子计算初始样本量n二、样本量的确定步骤第一步:确定委托单位认可的估计精度水平,87第四步:确定抽样方法,并根据不同抽样方法的抽样效应deff对样本容量进行调整:简单随机抽样的分层随机抽样的整群随机抽样的系统随机抽样的第四步:确定抽样方法,并根据不同抽样方法的抽样简单随机抽样的88第五步:判定有效回答率,并根据有效回答率r对样本容量进行再调整:第六步:为了获得分组数据,要考虑适当增加样本量;第七步:要考虑调查费用,适当调整样本量。第五步:判定有效回答率,并根据有效回答率r对第六步:为了获得89三、抽选方法首先将总体的N个单元从一到N编号,每个单元对应一个号,如果抽到某个号,则对应的那个单元入样。要选出n个单元入样,通常有两种做法:抽签法和随机数法。

1、抽签法当总体不大时,可以用均匀同质的材料制作N个签,将它们充分混合,然后一次抽取n个签;或一次抽取一个签,但不放回,接着抽下一个签直到第n个签为止。则这n个签上所示号码表示入样的单元号。三、抽选方法首先将总体的N个单元从一到N编号,每个单元对应一902、随机数法

(一)随机数表

随机数表是由数字0,1,2,…,9组成的表,每个数字都有同样的机会被抽中,用随机数表抽取简单随机样本,可用下面两种方法:

2、随机数法(一)随机数表91方法一根据总体大小N的位数确定在随机表中随机抽取几列。如N=678,要抽取n=5的样本,则在随机数表中随机抽取3列,依次往下,选出头5个001~678之间互不相同的数。方法一根据总体大小N的位数确定在随机表中随机抽取几列。92方法二

若N的第一个数字小于5,且n较大,则方法一可能花费较多的时间。如N=327,按方法一则328~999的数都没有用,这时采用下面的方法可能更好:在随机数表中随机抽取3列,依次往下,如果得到的随机数在401~800之间,则这个数减去400,由此000,大于800以及余数大于327的数被扔掉。抽样调查-第2章简单随机抽样课件93

(二)计算机产生的伪随机数

利用软件中的随机函数可产生所需要的随机数,这种方法产生随机数称为伪随机数,虽然方便,但并不能保证其随机性,因为这些伪随机数有循环周期,当然,我们希望产生的伪随机数循环周期越长越好。在可能的条件下,建议还是利用随机数表来产生随机数。抽样调查-第2章简单随机抽样课件94本章作业

(1)熟悉本章有关估计量性质的证明;(2)思考书后P72.习题2.2,习题2.3;(3)在作业本上完成P72.习题2.4;2.5;2.9;2.10(第二章结束)本章作业(1)熟悉本章有关估计量性质的证明;(第二章结束)95§2.1定义与符号

一、定义简单随机抽样:从含有N个单元的总体中随机抽取n个单元组成样本。1.若抽样是放回的,则所有可能的样本有个,每个样本被抽中的概率为,这种抽样方法称为放回简单随机抽样。2.若抽样是不放回的,则所有可能的样本有个,每个样本被抽中的概率为,这种抽样方法称为不放回简单随机抽样。§2.1定义与符号一、定义简单随机抽样:从含有N个单元961.简单随机抽样是等概抽样,即每个总体单元都有相同的入样概率;2.随机抽取是有严格要求的,不是随便抽取,必须按照某一随机原则进行。注意1.简单随机抽样是等概抽样,即每个总体单元都有相同的入样概率97【例2.1】设总体有5个单元(1,2,3,4,5),按放回简单随机抽样的方式抽2个单元,则所有可能的样本为个(考虑样本单元的顺序)1,11,21,31,41,52,12,22,32,42,53,13,23,33,43,54,14,24,34,44,55,15,25,35,45,5(放回简单随机抽样所有可能的样本)【例2.1】设总体有5个单元(1,2,3,4,5),按放回98【例2.2】设总体有5个单元(1,2,3,4,5),按不放回简单随机抽样的方式抽2个单元,则所有可1,21,31,41,52,32,42,53,43,54,5(不放回简单随机抽样所有可能的样本)能的样本为个。在实际工作中,更多地采用不放回简单随机抽样,所以以下讨论的简单随机抽样一般都指不放回简单随机抽样.【例2.2】设总体有5个单元(1,2,3,4,5),按不放99二、符号大写字母表示总体单元的标志值:如小写字母表示样本单元的标志值:如调查的总体目标量主要有:总体总量Y;总体均值

;总体某一指标的比例P;两个总体总量的比率R。对估计精度进行计算时,要涉及到总体方差和样本方差等。下面分别列出:二、符号大写字母表示总体单元的标志值:如小写字母表示样本单元100总体方差样本方差还有一些其他符号,分别说明如下:总体方差样本方差还有一些其他符号,分别说明如下:101总体(),样本将左边式子中的大写字母改为小写字母。总体(),样本将左边式子中102总体指标值上面带符号“”的表示由样本得到的总体指标的估计。如称为的估计。估计量的方差用V表示,如标准差用S表示,如对的样本估计不用而用称为抽样比,记为f.总体指标值上面带符号“”的表示由样本得到的总体指标的估计。如103§2.2简单估计量及其性质

无论调查对象是何种总体参数,其实所有估计量通常都是样本均值的某种线性组合,因此在抽样中不管讨论何种估计的基本性质,都只围绕样本均值进行。而对样本均值这个核心估计量的研究则分为两个方面:一方面是求样本均值对所有可能样本的数学期望

(检验估计量是否无偏)。另一方面是求样本均值对所有可能样本的方差

(检验估计量误差的大小)。§2.2简单估计量及其性质无论调查对象是何104为了讨论简单估计的性质,首先我们来看两个引理:

引理一

从大小为N的总体中抽取一个样本量为n的简单随机样本,则总体中每个特定单元的入样概率为:两个特定单元都入样的概率为:为了讨论简单估计的性质,首先我们来看两个引理:105引理一的证明:在N个单元中取n个单元为样本,共有个样本。在个样本中,包含某个特定单元的样本数为:每个样本被抽中的概率为:。同时包含两个特定单元的样本数为每个样本被抽中的概率为:引理一的证明:在N个单元中取n个单元为样本,同时包含两个特定106

引理二

从总体规模为N的总体中抽取一个样本量为n的简单随机样本。若对总体中的每个单元,引进随机变量如下:由二项分布可知:引理二从总体规模为N的总体中抽取107所以,不难推出:所以,不难推出:108简单估计量的性质

是性质1的无偏估计,即下面我们用两种与数理统计中不同的方法来证明这一性质。思考:为什么不能用数理统计中常用的方法?简单估计量的性质是性质1的无偏估计,即下面109有了这些准备,我们很容易证明根据前面提到的关于的定义,有下式有了这些准备,我们很容易证明根据前面提到的关于的定110第二种方法证明

证明:对于一个大小为N的总体,样本量为n的简单随机样本有个,因此第二种方法证明证明:对于一个大小为N的总体,样本量为n111抽样调查-第2章简单随机抽样课件112其他几个估计量的无偏性可容易推出:1、对于总体总量2、对于总体比例其他几个估计量的无偏性可容易推出:1、对于总体总量2、对于总113性质2对于简单随机抽样,的方差为:式中,n为样本量;f=为抽样比;1-f为有限总体校正系数。V()=(2.5)性质2对于简单随机抽样,的方差为:式中,n为样本量;f=为抽114证明方法一证明方法一115即即116

证明方法二:由定义而

证明方法二:由定义而117因此有因此有118

即即119性质3V()的无偏估计为:式中,为样本方差。证明:将改写成:性质3V()的无偏估计为:式中,为样本方差。证明:将120由前面性质1证明用过的对称论证法有:由性质2有:由前面性质1证明用过的对称论证法有:由性质2有:121抽样调查-第2章简单随机抽样课件122下面我们从关系式可以推出其他几个估计量的方差下面我们从关系式可以推出其他几个估计量的方差123

总体总量的估计量方差是总体均值方差的直接推导,下面我们来推导总体比例估计量的方差。总体总量的估计量方差是总体均值方差的直接124

设N个样本单元中有N1个具有某一特性,即有N1个单元取值为1,有N-N1个单元取值为0.设N个样本单元中有N1个具有某一特性,即有125同理对样本方差有因此同理对样本方差有因此126同样下面我们从关系式可以推出同样下面我们从关系式可以推出127估计量的方差是衡量估计量精度的度量。从式可以看出,影响估计量方差的因素有:①样本量n;③总体未入样比率1-f

②总体方差分析见教材P38,39估计量的方差是衡量估计量精度的度量。从式①样本量n;128

N通常很大,当f<0.05时,可将1-f近似取为1,这时影响估计量方差的主要因素是样本量n和总体方差。的大小是我们无法改变的,因此,要提高估计量的精度就只有加大样本量。注意N通常很大,当f<0.05时,可将1-f近似取为1,129【例2.3】我们从某个N=100的总体中抽出一个大小为n=10的简单随机样本,要估计总体平均水平并给出置信度95%的置信区间。序号i1234567891045204661508解:依题意,N=100,n=10,f=样本均值为:【例2.3】我们从某个N=100的总体中抽出一个序号i1130样本方差为:因此,总体平均值的估计为:的方差为:的方标准差为:s的置信度95%的置信区间为:即[2.4295,7.5705].样本方差为:因此,总体平均值的估计为:的方差为:的方标准差为131,。其方差为:V(

放回简单随机抽样简单估计量,。其方差为:V(放回简单随机抽样简单估计量132

注意:不放回时的方差为放回时的约1-f倍,而1-f<1,因此不放回抽样的估计精度比放回抽样的估计精度高。注意:不放回时的方差为放回时的约1-f倍,而1-f<1,因133【例2.4】我们从某个N=100的总体中抽出一个大小为n=10的简单随机样本,要估计总体总量并给出在置信度95%的条件下,估计量的相对误差。序号i1234567891045204661508解依题意,N=100,由例2.3可知:,因此,对总体总量的估计为:=100×5=500。【例2.4】我们从某个N=100的总体中抽出一个大序号i1134对V()的样本估计为:0其标准差为:因此,在置信度95%的条件下(对应的t=1.96),的相对误差为:=51.41%对V()的样本估计为:0其标准差为:因此,在置信度95%的条135【例2.5】解:已知n=200,a=130,1-f≈1某超市开张一段时间之后,为改进销售服务环境,欲调查附近几个小区居民到该超市购物的满意度。该超市与附近几个小区居委会取得联系,在整体中按简单随机机样,抽取了一个大小为n=200人的样本。调查发现对该超市购物环境表示满意或基本满意的居民有130位,要估计对该超市购物环境持肯定态度居民的比例,并在置信度95%条件下,给出估计的绝对误差和置信区间。假定这时的抽样比可以忽略。【例2.5】解:已知n=200,a=130,1-136在置信度95%的条件下,估计的绝对误差为:的95%置信区间为:0.65在置信度95%的条件下,估计的绝对误差为:的95%置信区间为137§2.3比率估计量及其性质

用样本均值作为总体均值的简单估计量,具有无偏等很多优良性质,且完全不依赖其它总体信息。但是,若我们有与调查变量相关的其它信息(通常称为辅助变量信息)可以利用,则估计的精度可以大大提高。这就是我们下面要讲的比率估计和回归估计。一、估计的概念§2.3比率估计量及其性质用样本均值作为138设主要变量为:Y辅助变量为:X两变量的比率为:总体均值的比估计:其中设主要变量为:Y总体均值的比估计:其中139二、比率估计的特点及注意事项1、使用比估计首先要知道辅助变量的总体均值(或总体总量),调查时,既要观测主要变量的值还要观测辅助变量的值;2、辅助变量必须与主要变量高度相关且整体上应相当稳定;3、比估计虽然不是无偏的,但其精度要高于简单估计量很多。下面我们看一个简单估计与比估计对比的例题二、比率估计的特点及注意事项1、使用比估计首先要知道辅助变量140【例】对以下假设的总体(N=6),用简单随机抽样抽取n=2的样本,比较简单随机抽样比率估计及简单估计的性质。i123456均值XiYi011331151882910464.518解:对这个总体,我们列出所有可能的个样本,以比较简单估计与比率估计的性质。【例】对以下假设的总体(N=6),用简单随机抽样抽取n=2141i样本简单估计()比率估计()1234567891011121314151,21,31,41,51,62,32,42,52,63,43,53,64,54,65,62.06.09.515.023.57.010.516.024.514.520.028.523.532.037.5181817.116.87521.1515.7515.751620.045516.312516.363619.730816.269219.218.75i样本简单估计()比率估计(142由此,可以算出:由此,可以算出:143总结1、从计算表格中可以看出,均值的比估计很稳定,而均值的简单估计则波动剧烈。2、虽然比率估计是有偏估计,但偏倚不大,而估计量方差要比简单估计的方差小得多。3、比估计是一种很好的估计量,是提高估计精度的最有效的途径。4、思考:比估计为什么能大幅度地提高估计精度?总结144对于简单随机抽样,n较大时,比率估计具有以下性质:对于简单随机抽样,n较大时,比率估计具有以下性质:145关于比率估计我们要说明(或证明)以下几个问题:1、均值的比率估计不是无偏的;2、偏倚是怎么产生的;3、均值比率估计的均方误差;4、均方误差的估计。关于比率估计我们要说明146第一个问题可从上面的例题给予说明:第二个问题我们可以从下面的表达式说明:这里是常量,是随机变量。估计量不是随机变量的线性函数。因此,估计量的偏倚是由R的有偏性造成的.第一个问题可从上面的例题给予说明:第二个问题我们可以从下面的147第三个问题,我们来证明R估计的偏倚第三个问题,我们来证明R估计的偏倚148因此因而偏倚主要来自于等式右边的第二项,由因此因而偏倚主要来自于等式右边的第二项,由149因此,偏倚的主要项为:同样我们可以推出:因此,偏倚的主要项为:同样我们可以推出:150抽样调查-第2章简单随机抽样课件151对上述方差分别给出样本估计式如下:对上述方差分别给出样本估计式如下:152【例2.2】某县在对船舶调查月完成的货运量进行调查时,对运管部门登记的船舶台帐进行整理后获得注册船舶2860艘,载重吨位154626吨。从2860艘船舶中抽取一个n=10的简单随机样本,调查得到样本船舶调查月完成的货运量及其载重吨位如表(单位:吨),要推算该县船舶调查月完成的货运量。【例2.2】某县在对船舶调查月完成的货运量进行调查时,对运管153ii1234578015001005376600100505010206789102170182314501581370120150802050解:已知:N=2860,n=10,X=154626由表可得ii178010062170120解:已知:N154因此,对该县船舶在调查月完成货运量的比率估计为:方差的估计为:=2.10617×因此,对该县船舶在调查月完成货运量的比率估计为:方差的估计为155标准差的估计为:如果用简单估计对货运量进行估计,则由此,得到比率估计量设计效应为:对于本问题,比率估计量比简单估计量的效率高!标准差的估计为:如果用简单估计对货运量进行估计,则由此,得到156【例2.3】在一项工资研究中,人们发现IT行业中,从业者的现薪与起薪之间相关系数高达0.88,已知某IT企业474名员工的平均起薪为17016.00元/年,现根据对100个按简单随机抽样方式选出的员工现薪的调查结果,估计该企业员工的现薪平均水平。已知:【例2.3】在一项工资研究中,人们发现IT行业中,157【解】1、在简单估计条件下,的95%的近似置信区间为:此处教材有误(P51)【解】的95%的近似置信区间为:此处教材有误(P51)1582、在比率估计条件下,的95%的近似置信区间为:2、在比率估计条件下,的95%的近似置信区间为:159下面我们从理论上来比较简单估计与比率估计的误差比率估计量精度高于简单估计量的充要条件是:下面我们从理论上来比较简单估计与比率估计的误差比率估计量精度160也就是说,比率估计比简单估计更为精确。尤其是当时,只要相关系数,比率估计就要优于简单估计。比率估计的其他问题看教材P53也就是说,比率估计比简单估计更为精确。尤其是当161§2.4回归估计量及其性质一、回归估计的定义对于简单随机抽样,总体均值和总体总量的回归估计量(regressionestimatior)的定义为:式中,是样本均值;为事先设定的一个常数如果β=0,则回归估计量就是简单估计量;如果则回归估计量就是比率估计量。§2.4回归估计量及其性质一、回归估计的定义对于简单随机162二、为常数的情形当回归系数为事先给定的常数时,或以前为相同目的进行的调查所得到的对的样本回归系数稳定在某个数值上,取最近一次调查所得的作为设定值。性质2对于简单随机抽样回归估计量,作为及Y的回归估计,都是无偏的。即的方差分别为:二、为常数的情形当回归系数为事先给定的常数时,或以前为相同目163式中,分别是Y,X的总体方差和总体协方差;分别是Y,X的样本方差和样本协方差。的样本估计量为:式中,分别是Y,X的总体方差和总体协方差;分别是Y,X的样本164我们对上式两端关于求导数,得:我们对上式两端关于求导数,得:165因此当取总体回归系数达到最小,即时,式中,为总体相关系数。因此当取总体回归系数达到最小,即时,式中,为总体相关系数。166三、β为样本回归系数的情形如果β需要通过样本来确定,很自然地,我们会想到用总体回归系数的最小二乘估计,也就是样本回归系数:这时简单随机抽样回归估计量是有偏的。但当样本量n充分大时,估计量的偏倚趋于零。因此,类似比率估计量,回归估计量也是渐近无偏的。三、β为样本回归系数的情形如果β需要通过样本来确定,很自然地167且有的一个近似估计为:且有的一个近似估计为:168【例4.5】(续P72的例4.2)利用回归估计量推算该县船舶调查月完成的货运量.解:根据例4.2中的计算结果可得样本回归系数:从而【例4.5】(续P72的例4.2)利用回归估计量推算该县船舶169因此,该县船舶调查月完成的货运量的回归估计为:为了估计,先计算回归残差方差:所以因此,该县船舶调查月完成的货运量的回归为了估计170对于同一个题,我们来比较三种估计量的误差差异对于同一个题,我们来比较三种估计量的误差差异171●与例4.2的结果比较,对于本问题回归估计优于比率估计,而比率估计又优于简单估计;

●回归估计优于比率估计的原因是回归直线可以不通过原点。

●比较上述估计量的优劣,一般是通过比较它们的均方误差或方差大小来进行。●与例4.2的结果比较,对于本问题回归估计优于比172关于简单估计、比率估计、回归估计的估计量方差比较简单估计量:比率估计量:回归估计量:关于简单估计、比率估计、简单估计量:比率估计量:回归估计173由此可以看出(在不考虑偏倚的情况下)有以下结论:2.比率估计量优于简单估计量的条件是:3.回归估计量优于比率估计量的条件是:在不考虑偏倚时,回归估计总是优于比率估计1.回归估计量总是优于简单估计量,除非即一般而言有由此可以看出(在不考虑偏倚的情况下)有以下结论:2.比率估计174如果不忽略偏倚,全面考虑比率估计和回归估计的均方误差MSE,那情况会怎么样呢?下面我们通过教材P61.表2—13的实际例题来分析比较。(略,看教材)如果不忽略偏倚,全面考虑比率估计175§2.4简单随机抽样的实施一、样本量的确定

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论