第2章简单随机抽样PPT课件_第1页
第2章简单随机抽样PPT课件_第2页
第2章简单随机抽样PPT课件_第3页
第2章简单随机抽样PPT课件_第4页
第2章简单随机抽样PPT课件_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

精选,1,第2章简单随机抽样,精选,2,2.1简单随机抽样的概念,简单随机抽样(SimpleRandomSampling,SRS):从容量为N的总体中抽取一个容量为n的样本,若所有可能的个样本中的每一个被抽到的概率都相等,即每个可能样本被抽中的概率均为,这种抽样方法称为不放回的简单随机抽样,简称简单随机抽样,所得的样本称为不放回的简单随机样本,简称简单随机样本,精选,3,简单随机抽样的实施方法:将总体中的单元依次从1到N进行编号,然后利用抽签法或随机数法来进行简单随机抽样抽签法:一般用于总体所含单元不多的情况,首先做N个签并依次写上1至N的号码,然后将签充分混合均匀,再一次抽取其中的n个签或逐个不放回地抽取n个签,则编号为这n个签上的号码的单元就构成一个简单随机样本,精选,4,随机数法:产生n个在1,2,N中离散均匀分布的随机整数(舍去重复的或大于N的数),编号为这n个随机整数的单元就构成一个简单随机样本(1)随机数骰子(2)随机数表简单随机抽样是其他抽样方法的基础,其理论最容易处理也最为成熟,在抽样理论中占有重要的地位;效率一般比较高,但当总体单元比较多时不容易实施,且有时精度不高,精选,5,引理2.1.1从容量为N的总体中抽取一个容量为n的简单随机样本,则总体中每个特定单元的入样概率为n/N,总体中每两个特定单元的入样概率为注:简单随机抽样是一种不放回的等概率抽样方法,精选,6,引理2.1.2从容量为N的总体中抽取一个容量为n的简单随机样本,对总体中每个单元引入一个随机变量:则:其中:称为抽样比,精选,7,2.2总体均值与总体总值的简单估计,从容量为N的总体中抽取一个容量为n的简单随机样本,对某个指标Y,总体中N个单元的指标值用来表示,样本中n个单元的指标值用来表示,则:(注:这里的为定量,为随机变量)指标Y的总体均值为指标Y的样本均值为,精选,8,指标Y的总体总值为指标Y的样本总值为指标Y的总体方差为指标Y的样本方差为,精选,9,显然有:,精选,10,如果还有一个指标X,N个总体单元的指标值为,n个样本单元的指标值为指标X的总体均值和样本均值分别为指标X的总体总值和样本总值分别为,精选,11,指标X的总体方差和样本方差分别为:指标Y与X的总体协方差为指标Y与X的样本协方差为,精选,12,同样有:,精选,13,在简单随机抽样中,称为总体均值的简单估计量,称为总体总值的简单估计量定理2.2.1在简单随机抽样中,分别是的无偏估计量,即定理2.2.2在简单随机抽样中,估计量的方差分别为,精选,14,注1:的精度随着样本量的增加而提高,随着总体方差即总体变异程度的增加而降低注2:1-f称为有限总体校正系数(finitepopulationcorrection,简记为fpc),当抽样比f很小时,1-f就接近于1,这样抽样比对的精度就没有直接影响;一般地,当抽样比小于5%,甚至小于10%时,fpc可以忽略不计,即认为1-f为1;事实上略去fpc的影响是使高了一些注3:中的一般是未知的,因此需要通过样本进行估计,精选,15,定理2.2.3在简单随机抽样中,样本方差是总体方差的无偏估计量,样本协方差是总体协方差的无偏估计量推论2.2.1在简单随机抽样中,是的无偏估计量是的无偏估计量注:把分别作为的估计量,都称为标准差估计量,精选,16,当n充分大时,可以认为:的置信度为的近似置信区间的两个端点为:的置信度为的近似置信区间的两个端点为:它们分别可以用来估计,精选,17,书上P36例2-3例1为估计某中学200名新生的平均身高,用简单随机抽样的方法抽取10名进行测量,得数据如下:158,149,156,153,160,151,157,145,152,159(单位为cm),求平均身高的置信度为90%的置信区间。例2从一个有14848户居民的某区中抽取一个30户的简单随机样本,样本中每户的人数为:5,6,3,3,2,3,3,3,4,4,3,2,7,4,3,5,4,4,3,3,4,3,3,1,2,4,3,4,2,4,试估计该区居民总数及其标准差。,精选,18,习题2.5,2.6,作业,精选,19,2.3总体比例的估计,从容量为N的总体中抽取一个容量为n的简单随机样本,用P来表示具有某种特征的总体单元在全体总体单元中所占的比例(简称总体比例),用A来表示具有某种特征的总体单元的数目;相应地,用p来表示具有这种特征的样本单元在全体样本单元中所占的比例(简称样本比例),用a来表示具有这种特征的样本单元的数目;显然有:,精选,20,在简单随机抽样中,用作为的估计量,用作为的估计量定理2.3.1在简单随机抽样中,是的无偏估计量,是的无偏估计量,即定理2.3.2在简单随机抽样中,估计量的方差分别为其中,精选,21,定理2.3.3在简单随机抽样中,是的无偏估计量是的无偏估计量,其中,精选,22,当n充分大时,的置信度为的近似置信区间的两个端点为:的置信度为的近似置信区间的两个端点为:,精选,23,可以用分别作为的估计,精选,24,例从有15786位老人的某地区按简单随机抽样的方法抽取525位老人,调查每位老人的性别及生活能否自理,结果如下表:(1)估计该地区男性老人的比例并估计标准差;(2)估计该地区生活不能自理的老人的比例并估计标准差;(3)估计该地区生活不能自理的女性老人的人数,并以95%的置信度对其作区间估计。,精选,25,习题2.4补充题:有一份共有3042个人名和地址的名册中抽选了一个包含200个人名的简单随机样本,查出有38个错误地址,试估计这份名册中需要校正的地址的数目,并求出这个估计的标准差。,作业,精选,26,2.4总体比率的估计,总体比率是总体中两个指标的均值或总值之比,记为注:总体比例和总体比率都具有比的形式,但总体比例中分母是已知的,分子是分母的一部分;而总体比率中的分母可以是未知的,并且分子和分母之间可以没有部分和总体的关系,精选,27,设每个单元都具有两个指标Y和X,在简单随机抽样中,把作为总体比率的估计量定理2.4.1在简单随机抽样中,是的近似无偏估计量,即当n足够大时,,精选,28,定理2.4.2在简单随机抽样中,当n足够大时,,的估计量为:,精选,29,注:都是有偏的,但它们的偏倚都随着n的增大而减少并趋向于零;此外,当已知时,之间哪个偏倚更小并没有一定的结论,对不同的总体可能会有不同的结果,的估计量为:,精选,30,当,且时,的置信度为的近似置信区间的两个端点为:可用估计,精选,31,2.5总体均值与总体总值的比估计,通常,把需要估计的指标称为主要指标,把用来帮助主要指标估计的其它指标称为辅助指标在一定条件下,利用辅助指标的信息可以提高对主要指标的估计的精度一般地,辅助指标可以是主要指标的前期资料,也可以是表示单元规模的量,或者是单元的某个易测指标,等等,精选,32,如果主要指标Y与辅助指标X之间有正相关关系,就可以构造比估计量在简单随机抽样中,称为总体均值的比估计量,称为总体总值的比估计量,其中必须已知定理2.5.1在简单随机抽样中,是的近似无偏估计量,是的近似无偏估计量,即当n足够大时,,精选,33,定理2.5.2在简单随机抽样中,当n足够大时,,精选,34,的估计量分别为:,精选,35,当,且时,总体均值的置信度为的近似置信区间的两个端点为:总体总值的置信度为的近似置信区间的两个端点为:分别可以用来估计,精选,36,定理2.5.3在简单随机抽样中,当n足够大时,若则有:其中,精选,37,注:如果要使得比估计量的精度高于简单估计量的精度,那么指标Y与X至少应该要正相关,因此比估计量一般用于主要指标与辅助指标正相关的情形;一般来说,可以先作一个试点调查,利用试点调查的数据,算出的估计:判断是否成立,再决定是采用比估计量还是简单估计量,精选,38,书上P42例2-4例1某单位共有职工1000人,2003年初有关部门按简单随机抽样的方法抽取100人,经调查得:其中分别为第i个职工2001年、2002年的医疗费(1)估计2002年与2001年总医疗费的比率;(2)已知2001年职工总医疗费为125000元,对2002年职工的平均医疗费作点估计和置信度为95%的区间估计。,精选,39,例2对21户的一个试点给出如下的数据:其中为人数,为孩子数,为汽车数,为电视机数,假定总体总值X是已知的,你是否建议用比估计量代替简单估计量来估计孩子的总数、汽车的总数及电视机的总数?,精选,40,习题2.8,2.9补充题:一卡车桔子重1800磅,从中随机抽了10个桔子测量其含糖量和重量,得数据如下:试用比估计的方法估计含糖总量及其标准差(忽略fpc)。,作业,精选,41,设每个单元都具有两个指标Y和X,在简单随机抽样中,称为总体均值的回归估计量,称为总体总值的回归估计量,其中已知,b为参数,可以是事先设定的常数,也可以是某个特定的统计量注:参数b一旦确定,回归估计量的形式也就确定了;特别地,取,可得,取,又可得,即在简单随机抽样中,简单估计量和比估计量可看成是回归估计量的特殊情况,2.6总体均值与总体总值的回归估计,精选,42,设b为事先设定的常数定理2.6.1在简单随机抽样中,若为确定的常数,则是总体均值的无偏估计量,其方差为且是的无偏估计量,精选,43,定理2.6.2在简单随机抽样中,当时,达到最小值,且其最小值为其中为指标Y关于指标X的(有限)总体回归系数,精选,44,推论2.6.1在简单随机抽样中,若为确定的常数,则是总体总值的无偏估计量,其方差为且是的无偏估计量,精选,45,推论2.6.2在简单随机抽样中,当时,达到最小值,且其最小值为其中为指标Y关于指标X的(有限)总体回归系数,精选,46,当b为某个统计量时,当然希望它能使回归估计量的精度比较高,也即方差比较小;由定理2.6.2,故令b为指标Y关于指标X的样本回归系数(记为),即:,精选,47,此时,可以证明在简单随机抽样中,当n足够大时,回归估计量有以下性质:(1)是总体均值的近似无偏估计量,是总体总值的近似无偏估计量(2),精选,48,(3)可以分别用来近似估计:,精选,49,注1:选的合理性注2:为总体残差方差,标准的回归理论中总体残差方差的无偏估计量正是,精选,50,对于简单随机抽样,在大样本情况下,回归估计量的精度既不会低于简单估计量的精度,也不会低于比估计量的精度对于大样本的简单随机抽样,可以考虑使用回归估计量,精选,51,例在一个有200棵桃树的果园中,一个有经验的农民对每棵树上桃子的重量作了一个目测,他得到总的重量X=11600磅,按简单随机抽样的方法抽10棵树,采集到的桃子称得重量如下:(1)用作为总的实际重量Y的估计量,试计算估计值及其标准差;(2)若用样本回归系数给出的线性回归估计量,精度是否更高?具体说明。,精选,52,习题2.10补充题:对100只兔子进行营养学研究,先称了每只兔子的重量得平均值3.1磅;两个月后,实验者为了粗略地了解这群兔子的体重,随机地挑选了10只兔子分别称它们的体重,得数据如下:试分别用回归估计法和比估计法来估计现在100只兔子的平均体重及其标准差。,作业,精选,53,估计量的精度和调查费用是一对矛盾,样本容量的确定需要在他们之间进行平衡在简单随机抽样中,调查费用的构成比较简单,一般用函数进行表述,其中代表总的调查费用,代表与样本容量无关的费用,代表调查一个单元的平均费用,代表样本容量,2.7样本容量的确定,精选,54,本节介绍在给定估计量精度(可以以方差、最大绝对误差、最大相对误差或变异系数中的任何一种形式提出)的条件下确定最小的样本容量的方法在实际工作中,如果同时对调查费用及估计量的精度作出规定,而计算出来的样本容量又不可能同时满足这两点的话,就必须作出调整:调高调查费用以达到精度要求,或者降低精度要求以保证费用不超支,精选,55,给定的精度时n的确定若给定的最大方差V,则由可得:令,则,精选,56,给定的精度时n的确定若以置信度给定的最大绝对误差d,则由可得:令,则,精选,57,给定的精度时n的确定若以置信度给定的最大相对误差r,则由可得:令,则,精选,58,给定的精度时n的确定若给定的最大变异系数C,则由,即可得:令,则,精选,59,给定的精度时n的确定不管以何种形式给出的精度,通常都是先计算出n的近似值(比n大,因此是n的一个保守的近似值);如果远远小于N(记为),则可以取,否则按进行修正,精选,60,给定的精度时n的确定,精选,61,给定的精度时n的确定,精选,62,给定的精度时n的确定,精选,63,给定的精度时n的确定,精选,64,给定的精度时n的确定,精选,65,给定的精度时n的确定,精选,66,给定的精度时n的确定,精选,67,给定的精度时n的确定,精选,68,给定的精度时n的确定,精选,69,给定的精度时n的确定,精选,70,注1:在上述确定n的公式中,包含与总体有关的量,如:等,都需要进行估计,而后才能把n确定下来,而估计这些量的方法,一般有以下四种:(1)两步抽样(2)采用试点调查的结果,对有关总体量进行估计(3)利用以前同一总体或同类总体的抽样结果并进行一定的调整,作为有关总体量的估计值(4)根据总体的结构,应用数学的方法对有关总体量进行预测,精选,71,注2:在确定n时,若必须先对总体比例P进行估计,而又已知P的取值范围为时,则P的估计值可如下取得:(1)当对p的精度的要求为给定最大方差或最大绝对误差时,可将中最接近0.5的值作为P的估计值(2)当对p的精度的要求为给定最大相对误差或最大变异系数时,可将中最小的值作为P的估计值,精选,72,例在一个有4000户的地区进行简单随机抽样,要求估计拥有电炊具的户所占的百分比(在50%到70%之间),使估计量的标准差不超过2%;并要求估计拥有脱排油烟机的户所占的百分比(在10%到30%之间),使估计量的标准差不超过1%;问样本容量要多大才能同时满足两方面的要求?,精选,73,习题2.3,2.7补充题:要用简单随机抽样的方法估计某街道25127户家庭中拥有电话机的户数,要求以置信度95%使估计量的最大绝对误差为500户,应选多少户?(估计拥有电话机的家庭约占12%),作业,精选,74,从容量为N的总体中如下抽取一个容量为n的样本:每一次都是从N个总体单元中等概率地抽取一个单元,观测并记录其指标值后将

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论