抽样调查之简单随机抽样_第1页
抽样调查之简单随机抽样_第2页
抽样调查之简单随机抽样_第3页
抽样调查之简单随机抽样_第4页
抽样调查之简单随机抽样_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Chap2简单随机抽样

2.2简单估计法(SE)

2.1定义与符号

2.5样本量的确定

2.6其它相关问题

2.3比率估计量

2.4回归估计量1/7/20231§2.1定义与符号一、定义与符号

(一)定义上述抽样就称为不放回简单随机抽样

定义2.1:设有限总体共有N个单元,一次整批抽取n个单元使得每个单元被抽中的概率都相等,任何n个不同单元的组合(样本)都有相同的概率被抽中,这种抽样方法称为简单随机抽样法,所抽到的样本为简单随机样本。

1/7/20232

定义2.2:(在具体实施过程中,)从总体中逐个等概率抽取单元(每次抽取到尚未入样的任何一个单元的概率都相等),直到抽满n个为止。如果每次抽中一个单元,然后放回总体,重新抽取。这样一个单元有可能被重复抽中,故又称重复抽样。1/7/20233

定义2.3按照从总体的N个单元中抽取n个单元的所有可能不同的组合构造所有可能的CNn个样本,从CNn个样本随机抽取一个样本,使每个样本被抽中的概率都等于1/CNn.上述三中定义其实是完全等价的,而定义2.2在实际中容易实施。1/7/20234例2.1设总体有5个单元(1,2,3,4,5),按有放回简单随机抽样的方式抽取容量为2的样本,则所有可能样本为个,如表2.1。

表2.1放回简单随机抽样所有可能样本1,11,21,31,41,52,12,22,32,42,53,13,23,33,43,54,14,24,34,44,55,15,25,35,45,51/7/20235例2.2上述总体按不放回简单随机抽样方式抽取容量为2的样本,则所有可能样本为个,如表2.2。1,21,31,41,52,32,42,53,43,54,5表2.2不放回简单随机抽样所有可能样本1/7/20236(二)样本分布与符号从总体抽样单元。假设顺序被抽中的样本单元的号码为(入样号码),则样本为,称为抽样比(Samplingfraction)。中逐个不放回抽取n个作为随机变量样本有什么分布呢?1/7/202371y1,…yn同分布但不相互独立,其共同分布列为2(yi,yj)的联合分布列均同(y1,y2)1/7/20238表2.3符号总体参数样本统计量1/7/20239二、抽样样方法(一)抽抽签法制作N个外形相相同的签签,将它它们充分分混合,,然后一一次抽取n个签,或或一次抽抽取一个个但不放放回,抽抽取n次得到n个签。则这这n个签上所所对应号号码表示示入样的的单元号号。例如:某中学学为了解解学生身身体素质质的基本本状况,,从全校校N=1200人中中抽取一一个简单单样本n=100人进行行检查。。12/29/2022101随机机数表(二)随随机数法法如上例,,N=1200,则在在表中随随机连续续取四列列,顺序序往下,,选出前面面100个不同同(不放放回抽样样)的0001~1200之之间的数字。如如果不够够100个,可可随机再再取四列列,同样样操作,,直至抽取100个止止。12/29/202211Simplerandomsampling12/29/202212Tableofrandomnumbers12/29/2022132随随机机数数骰骰子子随机机数数骰骰子子是是由由均均匀匀材材质质制制成成的的正正20面面体体,,每每个个面面上上刻刻有有一个个0~~9的的数数字字,,且且每每个个数数字字只只出出现现在在两两个个面面上上。。要要产产生生一一个m位位数数的的随随机机数数((如如m==4,,N==1200)),,则则将将m((m=4))个个颜色色不不同同的的骰骰子子盒盒中中,,并并规规定定每每个个颜颜色色代代表表的的位位数数,,盖盖上上盖盖子子,,充分分摇摇动动盒盒子子后后,,打打开开读读出出各各色色骰骰子子的的数数字字,,即即可可得得一一个个随随机机数。。重重复复上上述述过过程程,,直直至至产产生生了了n个个满满足足条条件件的的随随机机数数。。12/29/2022143利用统计计软件直接抽抽取法大部分统计软软件都有产生生随机数的功功能,快捷方方便。不过产生的是是伪随机数,,有一定循环环周期的。简简单介绍一下利用用EXCEL产生随机数数的方法.12/29/20221512/29/20221612/29/20221712/29/202218§2.2简简单估估计法(SE)一、总体均均值的估计计(一)简单单估计定义义…………………..(2.6)(二)简单单估计量的的性质引理2.1从大小为N的总体中抽抽取一个样样本容量为为n的简单随机样样本,则总总体中每个个特定的单单元入样的的概率为n/N,两个特特定单元元入样的的概率为为n(n-1)/N(N-1)。。12/29/202219引理2.2从大小为为N的总体中中抽取一一个样本本容量为为n的简单随随机样本本。若令令:则:12/29/202220(二)简单估估计量的性质质定理2.1上上述简单估计计是无偏的,,即定理2.2上上述简单估估计的方差((均方误差))为:……….(2.12/2.18)12/29/202221证明(P35证法1对称称证法):为0注意样本分布布12/29/202222推论2.7的无偏估计计为………..(2.25)证明:只须须说明样本本方差是总总体方差的的无偏估计计即可。注意12/29/202223例2.3从某个N=100的总体体重抽取取一个容容量n=10的简单随随机样本本,要估估计总体体平均水水平,并并给出置信度为为95%%的置信信区间估估计。如表2.4序号1234567891045204661508表2.4简简单随机机样本指指标12/29/20222412/29/202225(三))有放放回简简单随随机抽抽样的的简单单估计计量由于故有放放回抽抽样的的精度度低于于不放放回抽抽样的的精度度。12/29/202226说明::1抽抽样样调查查中的的估计计量与与传统统数理理统计计中估估计量量的区区别((见表表2.5))表2.5抽抽样样理论论与传传统数数理统统计关关于样样本均均值性性质异异同比比较抽样理论数理统计理论假设样本之间不独立,所以可能样本最多个,欲估计总体特征为,当n=N时可以求出样本之间独立,所有可能样本最多为无限多个;欲估计总体特征为总体(一般是随机变量X)期望μ,一般不能通过样本求出符号、定义期望方差12/29/2022272总总体方方差一一般也也是未未知的的,故故计算算估计计量方方差((估计计)值值时总总是用用样本本方差差直接接去估估计它它,因因为该该估计计无偏偏,故故这样样做相相对是是合理理的。。3对于无限总总体的简单单随机抽样样(或有限限总体有放放回简单抽抽样)估计计中由于N一般很大,,即从有限总总体抽样得得到简单随随机样本均均值得方差差是从无限限总体抽样样得的独立立样本均值值的方差的的1-f倍倍,要小小些,这意意味着对同同等样本量量,不放回回简单随机机抽样的精精度高于有有放回的。。由于样本点点不会重复复,样本量量相同时所所包含的有有效样本点点更多,因因此信息更更多,效果果当然好些些。1-f又被被称为有限限总体校正正系数。12/29/2022284样样本本容容量量n越大大,,估估计计量量方方差差越越小小。。当当样样本本容容量量一一定定时时,,总总体体方方差差越越大大,,估估计计量量方方差差越越大大。。由由于于总总体体方方差差是是固固定定的的,,因因此此在在简简单单随随机机抽抽样样的的条条件件下下,,要要提提高高估估计计量量精精度度就就只只有有增增加加样样本本容容量量了了。。但但增增加加样样本本容容量量也也会会带带来来计计算算量量骤骤增增和和成成本本增增加加,,所所以以是是矛矛盾盾的的一一对对,,需需要要找找到到合合适适的的平平衡衡点点。。12/29/202229二、总体总量量的估计(一)简单估估计量…………….(2.7)(二)估计量量性质推论2.12.42.8……….(2.13)…………….(2.19)…………….(2.26)12/29/202230例2.4(续例2.3)估计总体总总量,并给出出置信度为95%条件件下的估计相相对误差。三、总体比例例的估计将总体分为两两类,一类具具有该特征的的单元A个,另一类不具有有该特征的单单元N-A个。调查的目的是是估计或A若令则12/29/202231(一))估计计量的的定义义(二))估计计量性性质推论2.22.52.9对于简简单随随机抽抽样,,p是P无偏估估计。。p的方差差为方差的的无偏偏估计计……(2.27)……((2.20)12/29/202232例2.5某某超市市开张张一段段时间间后,,为改改进销销售服服务环环境,,欲调调查查附附近近几几个个小小区区居居民民到到该该超超市市购购物物的的满满意意度度。。该超超市市与与附附近近一一个个小小区区的的居居委委会会取取得得联联系系,,在在总总体体中中按简简单单随随机机抽抽样样抽抽取取了了一一个个大大小小为为n=200人人的的样样本本。。调查查发发现现对对购购物物表表示示满满意意或或基基本本满满意意的的居居民民有有130人人,,估计计对对该该超超市市购购物物环环境境持持肯肯定定态态度度的的居居民民的的比比例例,,并在在置置信信度度95%条条件件下下,,给给出出估估计计的的绝对对误误差差和置信信区间间,假假设设抽抽样样比比可可以以忽忽略略。。12/29/202233(2))样本本协方方差是是总体体协方方差的的无偏偏估计计.(2.22,2.23))(2.29)考虑二二维总总体12/29/202234证明:仍采采用对称法法(P40证法1))(1)注意样本分分布注意为012/29/202235(1)证法法2:((构造性))展开12/29/202236(2)注意由(1)12/29/202237一、概念与作作用(一)概念比率(Ratio)与比例(Proportion)区别(二)作用§2.3比比率估计量及及其性质一种场合是待待估的总体参参数R是两个个变量比值。。如人口密度,,恩格尔系数数等。分子分母均为为r.v.分子为r.v.12/29/202238另一种应用场场合,虽然待待估的参数是是某个研究变变量的均值或或总体总量,,它本来可以以通过样本均均值加以估计计,但是为了了提高估计的的效率,它通通过引进一个个辅助变量xi,来计算比率率,即再通过这一比比率乘以总体体已知的辅助助变量均值或总量来达到到估计的目的的。12/29/202239二、应用条件件(1)辅助变变量(auxiliaryvariable)资料易得或或已知(2)辅助变变量与目标变变量之间存在在高度相关性性且相关性稳定。(3)样本量量一般要求比比较大三、简单随机机抽样下的比比率估计12/29/202240(一))定义义比率估估计量量(ratioestimator)又又称比比估计计。(2.30)(2.31)12/29/202241(二))比率率估计计的性性质引理2.3定理2.6推论2.1112/29/202242引理理2.4证::当当n充充分分大大时时12/29/202243定理2.7推论2.1212/29/202244因而方差差估计有两种思思路…(2.39)…(2.40)12/29/202245例2.6i123456均值XiYi011331151882910464.518表4.1假假设设的总总体数数据12/29/202246解:i样本简单估计比率估计123456789101112131415均值1,21,31,41,51,62,32,42,52,63,43,53,64,54,65,62.06.09.515.023.57.010.516.024.514.520.028.523.532.037.518181817.116.87521.1515.7515.751620.045516.312516.363619.730816.269219.218.7517.6864412/29/20224712/29/202248解12/29/202249例2.7((P51例例2.4))在二二十十世世纪纪90年年代代初初的的一一项项工工资资研研究究中中,,人人们们发发现现IT行行业业中中,,从从业业者者的的现现薪薪与与起起薪薪之之间间相相关关系系数数ρρ高高达达0.88,,已已知知某某IT企企业业474名名员员工工的的评评鉴鉴起起薪薪为为17016.00元元/年年,,现现根根据据对对100个个按按简简单单随随机机抽抽样样方方式式选选出出的的员员工工现现薪薪的的调调查查结结果果,,估估计计该该企企业业员员工工的的现现薪薪平平均均水水平平。。数数据据如如下下::,,12/29/202250解:简单估计计95%的置信信区间比率估计95%的置信信区间12/29/202251例2.8某县在对船舶舶月完成的货货运量进行调调查,对运管管部门登记的的船舶台帐进进行整理后获获得注册船舶舶2860艘,载重吨吨位154626吨吨。从2860艘船舶舶中抽取一个个n=10的的简单随机样样本。调查得得到样本船舶舶月完成的货货运量及其载载重吨位如表表4.2(单单位:吨)要要估计该县船船舶月完成货货运量1234578015001005376600100505010206789102170182314501581370120150802050表4.2样本本船舶货运量量及载重吨位位数据12/29/202252解12/29/20225312/29/202254(三)消除除比率估计计偏倚的方方法12/29/202255哈特利-罗罗斯(Hartley-Ross,1954)提出出的估计量量(2.51)于是可以令令12/29/202256事实上::12/29/202257例2.912/29/202258四、比率估计计的效率≈1/212/29/202259§2.4回回归估计量量及其性质比率估计成为为最优线性估估计的条件::(1)样本点点(yi,xi)形成过原点点的直线(2)yi对直线的偏差差与xi成比例60一、、回回归归估估计计的的定定义义二、、β是已已知知常常数数时时((记记为为β0)定理理2.812/29/202261Q:““β0取何值值时,,回归归估计计量的的精度度最高高,即即最小小?””定理2.9:三、由由样本本回归归系数数计算算得到到(2.56Y对X回归归系数数)定理2.10这时的的均值值估计计量是是渐近近无偏偏估计计注意b并不不是B的无无偏估估计12/29/202262定理2.11它的一一个近近似估估计为为:12/29/202263例2.10续例例2.812/29/202264四、、精精度度比比较较1回回归归估估计计总总优优于于简简单单估估计计,,除除非非ρ=02比比率率估估计计优优于于简简单单估估计计的的条件3回归估估计优于于比率估估计的条条件是五、多变变量回归归估计((略)12/29/202265§2.5样样本量的的确定一、总体体均值情情形1给定定标准误误差上限限,求满足足条件的最小n12/29/2022662给定绝对对误差上限及信度,求满足条件件的最小n有放回,不放回3给定相对对误差上限及信度,求满足条件件的最小n有放回不放回12/29/2022674给定相对对标准误差差上限γ,求满足条条件的最小n.放回不放回例2.6在例2.3中,如果果要求以95%的把把握保证相对误差不不超过10%,样本本量应该取取多少?12/29/20226812/29/202269二、总体总总量情形作业考虑虑各种情行行的公式例欲估计一个个农村的每每月平均副副业收入,,已知该村村共有1000户农户,,月副业收收入的标准准差不超过过300元元。(1)现要要求置信度度为95%,估计每每户月副业业收入的误误差不超过50元,应应抽取多少少户作为样样本?(2)若每每户调查费费用为15元,调查查管理费用用为800元,该项调查预预计费用是是多少?12/29/202270例如果上上例目的是是要估计全全村1000户一月月的副业总收入,允允许总量的的误差为40000,置信度度为95%,应抽取多少少样本?三、总体参参数P的情形四、总体参参数的预先先估计12/29/202271(1)根根据以往往的经验验数据例如对同同类问题题获得过过一个样样本量n0为的简单随机机样本,,并且已已知在一一定置信信度下(比如95%)),该调调查对总总体均值值(或总总量)估计计的相对对误差上上限为r0,则在相相同的置信度度下,如如果希望望本次调调查的相相对误差上限为为r,则则在抽样样比可以以忽略的的情况下下,可以近似似地计算算出本次次调查所所需的样样本量::作业证证明上述述结论12/29/202272(2)在在正式调调查前进进行试点点调查,,根据试试点调查查的结果作出出估计,或者采采用两步步抽样(3)没有同同类调查经验验,又不能进进行预调查,,则只能通过有有经验的专家家作一些定性性分析,对总体变异系系数C(比较稳定))作出估计。(4)注意::针对总体参参数为P时情形当估计P<0.5,,则选取较大大的P,如若估计P为[0.3,,0.4]则选取P为0.4当估计P>0.5,则则选取较小的的P,如若估计P为[0.6,,0.8]则选取P为0.6若对P一无所知则取取P=0.5。12/29/202273例2.7某某销售公司希希望了解全部部300

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论