统计学第四章抽样与参数估计.ppt_第1页
统计学第四章抽样与参数估计.ppt_第2页
统计学第四章抽样与参数估计.ppt_第3页
统计学第四章抽样与参数估计.ppt_第4页
统计学第四章抽样与参数估计.ppt_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章 抽样与参数估计,学习目的 了解抽样分布和抽样的其它组织方式。 掌握抽样调查的基本问题。 熟练运用参数估计方法估计总体参数。,第四章 抽样与参数估计,第一节 抽样调查的基本问题 第二节 抽样分布 第三节 参数估计,推断统计:利用样本统计量对总体某些性质或数量特征进行推断。,随机原则,总体,样本,总体参数,统计量,参数估计,假设检验,第一节 抽样调查的基本问题,一、抽样调查及其特点 (一)抽样调查的概念 它是按照随机原则,从研究总体的所有单位中,抽取部分单位作为样本,然后以样本的观测或调查结果对总体的数量特征做出具有一定可靠程度和精度的估计或推断的一种统计调查方法。 例如,从某地消费者中,通过随机抽样抽取若干消费者进行消费水平的实测,计算平均消费水平,以此来推断该地区的平均消费水平。,1、在调查单位的选取上遵循随机原则 随机原则,就是在抽选样本时排除主观上有意识地抽选调查单位,使总体每个单位都有相同的机会被抽中。 2、它以样本的数量特征去推断总体的数量特征。 抽样调查不仅具有省时、省力的特性,而且还能认识总体的数量特征。 3、推断过程中抽样误差可以事先计算并加以控制。,(二)抽样调查的基本特点,1、有些现象无法进行全面调查,但为了测算总体情况,必须进行抽样调查。 2、抽样调查的结果可以对全面调查的结果进行检查和修正。 3、抽样调查可用于生产过程的质量控制。,(三)抽样调查的作用,二、抽样推断中的基本概念,(一)总体 总体,又称全及总体或母体,是指所要调查研究的对象的全体。在抽样调查中,总体是唯一确定的。总体内包含的单位多少称为总体单位数,一般用符号N表示。,数量总体 被研究的是数量变量的总体 属性总体 被研究是属性变量的总体,据被研究变量的性质不同,反映总体数量特征的指标为总体指标或总体参数。从理论上说,它由被抽样总体各单位的变量值或变量特征计算而成的。对于数量总体,设某单位的变量值为 ,总体指标有: 总体均值: 总体方差: 总体标准差:,对于属性总体,设总体中具有某种属性特征的单位数为 ,其它单位数为 ,总体单位数 ,总体指标有: 总体比率: 总体方差: 总体标准差:,(二)样本,样本,也称子样,是指从被调查的总体中按照随机原则抽取,并要对其进行调查或观察的部分单位所组成的集合体。 一个样本所包含的单位数称样本容量,用符号n表示。从总体中可能抽取的全部样本数目称为可能样本个数。 对于一个总体,从中所抽取的样本是随机的,不是唯一的。,表示样本数量特征的指标称为样本指标或样本统计量,它由样本各单位的标志值或标志特征计算而成的。设 是来自总体的样本,则样本指标有:,样本均值: 样本方差:,未分组 分组,未分组 分组,未分组 分组,样本标准差:,样本标准差:,样本比率: 样本方差:,在统计学中经常会遇到“自由度”这个概念,所谓自由度是指不受任何约束,可以自由取值的变量的个数。例如,有4个变量 ,它们的和是20,即 ,这是一个限制条件,此时,有3个变量可以自由取值,由于只有一个限制条件,那么可以自由取值的变量的个数是4-1=3,即自由度为3。,(三) 自由度,三、抽样方法,根据样本单位是否可重复抽取,分为: (一)重复抽样 抽取样本单位的过程:设从总体N中随机抽取一个容量为n的样本,每次从总体中抽取一个样本单位,连续进行n次抽取,构成一个样本。在对每次抽取的样本单位观测后,将该单位重新放回,这样在下一次的抽样中仍有可能再次被抽中。 (二)不重复抽样 它从总体N中抽取一个容量为n的样本,也是由连续次抽取的结果构成的,但每次抽中的样本单位,观测后不再放回总体,因此在下一次抽取样本单位时不会再抽到前面已抽中过的样本单位。,四、抽样推断的理论基础 大数定律证明:随着样本容量的增加,样本均值接近于总体均值的趋势,几乎是具有实际必然性。 中心极限定理:如果总体变量存在有限的平均数和方差,那么,不论这个总体的分布如何,随着样本容量的增加,样本均值的分布便趋近正态分布。在样本容量充分大的条件下,样本均值也趋近于正态分布,这为抽样误差的概率估计理论提供了理论基础。,中心极限定理:设从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布.,第二节 抽样分布,一、抽样分布的概念 抽样分布是指样本统计量的概率分布。 从同一个总体中,抽取样本容量相同的所有可能样本后,计算每一个样本统计量的取值和相应的概率,就组成样本统计量的概率分布,简称抽样分布 。,二简单随机样本,如果总体中每个个体被抽到的机会是均等的,并且在每次抽取一个个体之后总体的成分不改变,这样抽取出的个体所构成的样本就能很好地反映总体的情况,基于这种想法抽取的样本,称为简单随机样本。 当总体为有限总体时,那么抽样就要用重复抽样;当总体为无限总体时,可以用不重复抽样。,简单随机抽样也称纯随机抽样。它是直接从总体的N个单位中完全随机地抽取n个单位并使总体中的每一个单位都有同等被抽中的概率的抽样组织形式。 特点: 在理论上最符合随机原则,简单随机抽样保证总体中各个单位被抽中的机会是相等的,均为 。 是设计其他抽样组织方式的基础。 是衡量其他抽样效果的标准。,三、简单随机抽样的概念及特点,抽样设计效果指标,若,值大于等于1,即其他抽样形式的抽样方差大于等于简单随机抽样的抽样方差,则抽样估计效果较差;,四、常用统计量的抽样分布,(一)样本均值的抽样分布 1、重复抽样的抽样分布 例4-1 某次调查中4个被调查者的月消费额分别为400元、500元、700元、800元。设4个被调查者构成总体,则:,总体均值,(元),(元),总体方差,总体标准差,用重复抽样的方法,从4人中随机抽个构成样本,共16个有个可能的样本。各样本的月平均消费如表:,可以整理出样本均值,的抽样分布,样本均值,的抽样分布,200000,9600,1,16,合计,40000 45000 10000 5000 0 5000 10000 45000 40000,400 900 500 1100 2400 1300 700 1500 800,1/16 2/16 1/16 2/16 4/16 2/16 1/16 2/16 1/16,1 2 1 2 4 2 1 2 1,400 450 500 550 600 650 700 750 800,频率f,频数,样本的月平均 消费(元),样本均值抽样分布的均值: 样本均值抽样分布的方差: 样本均值抽样分布的标准差为: 可见, 样本均值 抽样分布的均值等于总体的均值,即,(元),(元),(元),虽然每个样本均值的取值可能与总体均值不同,有一定离差,但从总体来看,所有样本均值平均说来和总体均值是相同的,不再存在离差。,抽样分布的方差,抽样分布的标准差,验证了以下两个结论: 抽样平均数的标准差反映所有的样本平均数与总体平均数的平均误差,称为抽样平均误差,用 表示。,2、不重复抽样的抽样分布 仍以上例为例, 某次调查中4个被调查者的月消费为400元、500元、700元、800元。设4个被调查者构成总体,则:,总体均值,(元),总体方差,总体标准差,(元),采用不重复抽样的方法,从4人中随机抽个构成样本,共有43=12个可能的样本。,- 450 550 600 450 - 600 650 550 600 - 750 600 650 750 -,400 500 700 800,400 500 700 800,样本变量,100000,7200,1,12,合计,45000 5000 0 5000 45000,900 1100 2400 1300 1500,2/12 2/12 4/12 2/12 2/12,2 2 4 2 2,450 550 600 650 750,频率,频数f,样本的月平均 消费,样本均值,的抽样分布,样本均值抽样分布的均值: 样本均值抽样分布的方差: 样本均值抽样分布的标准差为: 可见, 样本均值 抽样分布的均值等于总体的均值,即,(元),(元),(元),不重复抽样条件下,样本均值的分布仍具有两个重要性质 :,(1)样本均值的抽样分布的均值等于总体的均值,(2)样本均值,的抽样分布的方差等于重复抽样,的样本均值抽样分布的方差乘以修正因子,抽样分布的标准差,抽样,总体,样本,比率,X,(N),比率P=Ni/N,x,(n),所有可能的样本的比率( )所形成的分布,称为样本比率的抽样分布。,(二)样本比率的抽样分布,抽 样 方 法 均 值 方 差 标准差,重复抽样,不重复抽样,根据中心极限定理,只要样本足够大, 的分布就近似正态分布。(np和nq大于5时),抽样误差,抽样误差,样本比率分布的均值和方差,抽样分布总结,第三节 参数估计,一、参数估计的基本概念 (一)估计量 在实际问题中, 经常需要我们构造适当的统计量去对总体分布中所含的未知参数(如均值方差比率等) 的数值做出估计。这时用来估计总体参数的统计量称为估计量, 它也是一个随机变量。估计量的具体数值称为估计值。,(二) 抽样误差,抽样误差是由于抽样的随机性而造成样本指标和总体指标之间的误差,这种误差是抽样调查所固有的、不可避免的,也叫随机误差。 抽样误差有实际误差和平均误差两种。实际误差是指某一次抽样结果所得到的样本指标和总体指标之间的误差。但由于总体指标未知,因而无法计算。,样本容量,抽样方法,总体标志变动度,抽样组织形式,抽样误差的 影响因素,(三)抽样极限误差,抽样极限误差又称允许误差。是指样本指标和总体指标之间抽样误差的可能范围。由于总体指标是一个确定的数,而样本指标则围绕总体指标左右变动,它与总体指标可能产生正离差,也可能产生负离差,样本指标变动的上限或下限与总体指标之差的绝对值就可以表示抽样误差的可能范围,我们将这种以绝对值形式表示的抽样误差可能范围称为抽样极限误差。,则,二估计量的优良标准,的数学期望等于总体参数,即,该估计量称为无偏估计。,无偏性,有效性,当 为 的无偏估计时, 方差 越小,无偏估计越有效。,一致性,对于无限总体, 如果对任意,则称,的一致估计。,是,估计量,三、参数估计方法,点估计,以样本指标直接估计总体参数。,区间估计,估计未知参数所在的可能的区间。,点估计的优点在于它能够明确地估计总体参数,但一般该值不会等于总体参数的真值,它与真值的误差估计的可靠性怎样,我们无法知道,而区间估计则可弥补这种不足之处。,区间估计,评价准则,随机区间,置信度,精确度,随机区间,包含,(即可靠程度)越大越好。,的概率,的平均长度,(误差范围)越小越好,一般形式,或,总体参数,估计值,误差范围,:一定倍数的抽样误差,例如:,抽样误差,一定时,,越大,,概率(可靠性)大;,随之增大,,精确度就差。,四、区间估计的基本原理,区间估计步骤: 1选择含有待估参数的一个适当的统计量,并指出该统计量所服从的分布。 2对于给定的置信水平,查该统计量所服从的分布表确定出临界值,使该统计量取以临界值为范围内的值的概率为,3对第2步经过不等式变形可得所求参数的置信区间公式。 4将有关数值代入置信区间公式, 即可求出所求参数的一个置信区间。,区间估计的内容,简单随机抽样,待估计参数,已知条件,置信区间,正态总体,2已知,正态总体,2未知,非正态总体,n30 未知时,用S,有限总体,n30 (不重复),总体均值 (),未知时,用S,五、一个总体参数的区间估计 (一)总体均值的区间估计,1、正态总体、方差已知,或非正态总体(大样本) 例4-2 某保险公司自投保人中随机抽取36人, 计算出此36人的平均年龄为39.5岁, 已知投保人年龄分布近似正态分布, 标准差为7.2岁, 试求所有投保人平均年龄置信水平为99%的置信区间?,于是,我们有99%的把握保证投保人平均年龄在36.4142.59岁之间。,例4-3 某金融机构共有8042张应收账款单, 根据过去记录, 所有应收账款的标准差为3033.4元,现随机抽查了250张应收账单, 得平均应收金额为3319元, 求全部应收账单的平均应收金额的置信水平为98%的置信区间。,于是,我们有98%的把握认为全部应收账单的平均应收金额在2871.993766元之间。,例4-4 某广播电台要估计某市65岁以上的已退休的人中一天时间里收听广播的时间, 随机抽取了一个容量为200的样本, 得到样本均值为110分钟, 样本标准差为30分钟, 试估计总体均值的置信水平为95%的置信区间。,于是,我们有95%的把握认为该市65岁以上已退休的人每天收听广播的时间在107.24112.76分钟之间。,2、正态总体、方差未知、小样本时求的置信区间 例4-5 为了估计一分钟一次广告的平均费用, 抽出了15个电视台的样本。样本均值为2000元, 标准差为1000元。假定所有的这类电视台的广告费用近似服从正态分布, 试求电视台一分钟一次广告平均费用的置信水平为95%的置信区间。,于是,我们有95%的把握保证电视台一分钟一次广告平均费用在1446.22553.8元之

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论