参数估计ppt课件.ppt_第1页
参数估计ppt课件.ppt_第2页
参数估计ppt课件.ppt_第3页
参数估计ppt课件.ppt_第4页
参数估计ppt课件.ppt_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1,5参数估计,抽样推断是指根据随机抽样组成的样本资料计算样本特征值,再由样本特征值对总体特征值做出具有一定可靠程度的估计,以达到认识总体数量特征的目的。,参数估计,假设检验,5.1抽样推断概述,2,统计推断的过程,3,一、基本概念,(一)总体与样本,总体,样本,总体单位,总体单位数N,样本单位,样本单位数n(样本容量、样本含量),4,总体平均数,样本平均数,总体成数,样本成数,总体方差,样本方差,总体标准差,样本标准差,总体指标对于既定的总体而言,是唯一确定的。,样本指标(样本统计量)随抽取样本不同而不同,是随机变量。,(二)总体指标与样本指标,5,成数:,研究对象中具有某种表现或不具有某种表现的单位数占单位总数的比重称为成数。,n单位总数n1具有某种表现的单位数,6,定类变量的均值:,定类变量的均值是被研究对象具有某种表现的成数。,若以频率作为权数:,7,定类变量的标准差:,定类变量的标准差是被研究对象的成数p与q乘积的平方根。,8,二、抽样推断的理论基础,大数定律,中心极限定理,不论总体服从何种分布,当样本容量n足够大,其样本统计量的分布便趋近于正态分布。,最常用的大数定律(又称平均数定律):当样本单位数n足够大,样本平均数会越来越接近于总体平均数。,9,三、总体分布、样本分布、抽样分布,样本成数(样本比例)的抽样分布原理:从总体中重复抽取容量为n的样本,当n足够大,样本成数的分布近似服从于正态分布,即pN(,(1)/n)。,样本平均数的抽样分布定理:不论总体服从何种分布,只要其平均数和方差2存在,从中重复抽取容量为n的样本,当n足够大,样本平均数的分布便趋近于正态分布,即N(,2/n)。,10,1、如果掌握了某个群体的具体信息,就能推理出从这个群体中正确抽取的随机样本的情况。,2、如果掌握了某个正确抽取的样本的具体信息(平均数和标准差),就能对其所代表的群体做出令人惊讶的精确推理。,3、如果掌握了某个样本以及某个群体的数据,就能推理出该样本是否就是该群体的样本之一。,4、如果已知两个样本的基本特性,就能推理出这两个样本是否取自同一个群体。,一个大型样本的正确抽样与其所代表的群体存在相似关系。,11,12,非抽样误差(non-samplingerror),相对抽样误差而言除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异存在于所有的调查之中概率抽样,非概率抽样,全面性调查有抽样框误差、回答误差、无回答误差、调查员误差、测量误差,13,误差的控制,抽样误差可计算和控制非抽样误差的控制调查员的挑选调查员的培训督导员的调查专业水平调查过程控制调查结果进行检验、评估现场调查人员进行奖惩的制度,14,抽样实际误差:,抽样平均误差:,指样本指标值的标准差,用以反映所有可能样本的实际抽样误差的平均水平。,标准差用以测定某一变量的所有变量值与其均值的平均差异程度。,样本指标数值的标准差用以反映所有可能样本指标值与其相应的总体指标值的平均离散程度。,是指某一次抽样结果所得到的样本指标数值与总体指标数值之差。,定义公式:,15,抽样误差(samplingerror),由于抽样的随机性所带来的误差所有样本可能的结果与总体真值之间的平均性差异影响抽样误差的大小的因素,16,例:有四名工人,甲、乙、丙、丁,他们的日工资分别为50元、60元、70元、80元。,17,重复抽样的样本资料,18,样本平均数的抽样分布,19,不重复抽样的样本资料,20,样本平均数的抽样分布,21,重复抽样条件下,样本平均数的方差,不重复抽样条件下,样本平均数的方差,22,重复抽样条件下,抽样(平均)误差,不重复抽样条件下,抽样(平均)误差,23,样本平均数的抽样平均误差,(1)在重复抽样条件下,(2)在不重复抽样条件下,(1)在重复抽样条件下,(2)在不重复抽样条件下,样本成数的抽样平均误差,若总体单位数N未知,则在重复抽样下计算抽样平均误差。,当总体方差未知时,可用样本方差或过去全面调查、抽样调查的资料代替。,注:,24,25,26,样本容量,抽样方法,抽样误差,抽样组织形式,总体内部差异,27,分层抽样的抽样误差计算,为各层层内方差的平均数。,28,系统抽样的抽样误差计算,指以各抽样间隔为一层的平均层内方差。,29,操作方便,能节省人力、物力、财力和时间;,在其他条件相同,与纯随机抽样比较,样本代表性较差。,整群抽样的特点,其中:R总体群数;r抽样群数;为群间方差。,30,误差与精度,参数估计的精度通常是指抽样误差的大小。抽样误差越大,参数估计的精度就越低;抽样误差越小,参数估计的精度就越高。参数估计的精度必须通过计算抽样误差才能反映。,31,抽样极限误差:,是样本指标和总体指标之间抽样误差的可能范围。,抽样极限误差,或称抽样允许误差;,抽样平均误差;,概率度,它表明抽样误差落在这个误差范围的可靠程度。,概率度z本身不是概率,但它与置信概率F(z)之间是函数关系。,32,又称定值估计,就是直接用实际抽样调查资料得到的样本指标值作为总体指标的估计值。,5.2总体指标的推断,参数估计,点估计,区间估计,结合样本指标和抽样误差去估计总体指标的可能范围。,33,二战中的点估计德军有多少辆坦克?,二战期间,盟军非常想知道德军总共制造了多少辆坦克。德国人在制造坦克时是墨守成规的,他们把坦克从1开始进行了连续编号。在战争过程中,盟军缴获了一些敌军坦克,并记录了它们的生产编号。那么怎样利用这些号码来估计坦克总数呢?在这个问题中,总体参数是未知的坦克总数N,而缴获坦克的编号则是样本。,N的一个点估计公式是:先找到被缴获坦克编号的平均值,并认为这个值是全部编号的中点。因此样本均值乘以2就是总数的一个估计。,N的另一个点估计公式是:用观测到的最大编号乘以因子1+1/n,其中n是被俘虏坦克个数。假如俘虏了10辆坦克,其中最大编号是50,那么坦克总数的一个估计是(1+1/10)50=55。,从战后发现的德军记录来看,盟军的估计值非常接近所生产的坦克的真实值。记录仍然表明统计估计比通常通过其他情报方式作出估计要大大接近于真实数目。统计学家们做得比间谍们更漂亮!,资料来源:GUDMUNDR.IVERSEN和MARYGERGRN著,吴喜之等译:统计学基本概念和方法,高等教育出版社,施普林格出版社,2000。,34,单总体参数的区间估计,总体均值的估计,正态总体,方差已知情况下的总体均值估计;正态总体,方差未知情况下小样本的总体均值估计;任意总体,大样本情况下的总体均值估计。,总体成数的估计,35,区间估计,1、计算样本指标和抽样平均误差;,2、根据估计可靠程度(置信概率)F(z)的要求,得到概率度z;,4、结合样本指标求出总体指标的估计下限和估计上限:,总体平均数的置信区间:,总体成数的置信区间:,3、计算抽样极限误差;,36,概率度本身不是概率,它与置信概率之间的关系表现为,关于概率度,显著性水平。它表示用置信区间估计不可靠的概率。,置信概率、置信度、置信系数。它表示用置信区间估计可靠的概率。,概率度实际上是抽样分布双侧区间的分位点。其具体数值可根据样本统计量所服从的分布形式查表得到。,37,38,假设为0.05,,39,当总体服从正态分布XN(,2)时,来自该总体的所有容量为n的样本的均值X也服从正态分布,即XN(,2/n),正态总体、方差已知情况下,样本统计量的抽样分布,40,正态总体、方差未知、小样本情况下,样本统计量的抽样分布,41,任意总体、大样本情况下,样本统计量的抽样分布,中心极限定理:设从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布。,42,总体均值在1-置信水平下的置信区间为,正态总体,方差已知情况下的总体均值估计,样本统计量,43,解:已知N(,0.152),x2.14,n=9,1-=0.95,/2=1.96总体均值的置信区间为,在95的置信概率,估计该种零件的平均长度在21.30221.498mm之间,【例】某种零件长度服从正态分布,从该批产品中随机抽取件,测得其平均长度为21.4mm。已知总体标准差=0.15mm,试建立该种零件平均长度的置信区间,给定置信水平为0.95。,44,正态总体,方差未知情况下的总体均值估计,样本统计量,总体均值在1-置信水平下的置信区间为,45,解:已知N(,2),x=50,s=8,n=25,在95的置信概率下,总体均值的可能取值区间为46.6953.30。,【例】从一个正态总体中抽取一个随机样本,n=25,其均值x=50,标准差s=8。建立总体均值m的95%的置信区间。,1-=0.95,46,任意总体,大样本情况下的总体均值估计,样本统计量,总体均值在1-置信水平下的置信区间为,47,解:已知x26,=6,n=100,1-=0.95,/2=1.96,在95的置信概率下,全校学生平均每天参加锻炼的时间在24.82427.176分钟之间。,【例1】某大学从该校学生中随机抽取100人,调查到他们平均每天参加体育锻炼的时间为26分钟。试以95的置信概率估计该大学全体学生平均每天参加体育锻炼的时间(已知总体方差为36)。,48,【例2】对某进出口公司经营的一种名茶进行抽样,结果如下:,要求:计算在95.45%的概率保证下整批茶叶平均每包重量的的置信区间。,49,150.250.1658,150.25+0.1658,150.0842,150.4158,总体均值的置信区间:,解:,即在95.45%的置信概率下,整批茶叶平均每包重量的置信区间为,查表得,50,总体成数的置信区间为,大样本情况下的总体成数估计,样本统计量,大样本,51,解:已知n=200,p0.7,1-=0.95,/2=1.96,在95的置信概率下,该企业职工由于同管理人员不能融洽相处而离开的比例在63.6%76.4%之间。,【例】某企业在一项关于职工流动原因的研究中,从该企业前职工的总体中随机选取了200人组成一个样本。在对其进行访问时,有140人表示他们离开该企业是由于同管理人员不能融洽相处。试对由于这种原因而离开该企业的人员的比重构造95%的置信区间。,52,【练习】某校有4500名学生,不重复随机抽选20%,调查其在校期间撰写调查报告的篇数。资料如下表所示。,要求以95.45%的置信概率:(1)估计全校学生平均每人撰写调查报告篇数的可能范围。(2)估计全校学生撰写调查报告篇数在6篇以上的比重。,53,解:N=4500n=450020%=900,6.94-0.11866.94+0.1186,6.82147.0586,由F(z)=95.45%,得z=2,54,(2)p=70%,0.7-0.02730.7+0.0273,67.27%72.73%,55,估计的精度与可靠程度,置信区间的宽度体现着参数估计的精确度。,置信度体现着参数估计的可靠程度。,在样本容量一定的情况下,置信区间和置信度是相互制约的。置信度越大(即估计的可靠程度越大),则相应的置信区间就越大(估计得越不精确)。,56,二总体参数的区间估计,两个总体均值之差的区间估计两个总体成数之差的区间估计,57,两个总体均值之差的区间估计,58,1.假定条件两个样本是独立的随机样本两个总体都服从正态分布若不是正态分布,可以用正态分布来近似(n150和n250),其标准误差为,3.两个总体均值之差1-2在1-置信水平下的置信区间为,两个总体均值之差的区间估计,两个独立样本均值之差的抽样分布服从正态分布,,其期望值为,59,【例】想了解两家银行的储蓄状况。现从两家银行各抽取了一个由25个储户组成的随机样本,样本均值如下:银行A:4500元;银行B:3250元。设已知两个总体服从方差分别为A2=2500和B2=3600的正态分布。试在95%的置信度下对AB做区间估计。,解:知XAN(A,2500)XBN(B,3600)nA=nB=25xA=4500,xB=3250,A2=2500B2=3600,A-B置信度为95%的置信区间为,1-=0.95,/2=1.96,60,【练习】设甲乙两企业职工月收入服从方差分别为甲2=120和乙2=90的正态分布。现从甲企业随机抽取了20人,平均月收入为840元;乙企业随机抽取了10人,平均月收入为670元。试在95%的置信度下估计两企业人均月收入差额之范围。,解:已知X甲N(甲,120)X乙N(乙,90)n甲=20n乙10x甲=840,x乙=670,,1-=0.95,/2=1.96,甲-乙置信度为95%的置信区间为,61,两个总体成数之差的区间估计,1.假定条件,2.两个总体成数之差在1-置信水平下的置信区间为,两个样本的容量都足够大,由此,两个样本成数以及样本成数之差都趋向正态分布。,两个总体是独立的,且都属于定类变量。,62,【例】某饮料公司对其所做的报纸广告在两个城市的效果进行了比较,它们从两个城市中分别随机地调查了1000个成年人,其中看过广告的比例分别为p1=0.18和p2=0.14。试求两城市成年人中看过广告的比例之差的95%的置信区间。,置信度为95%的置信区间为,解:已知p1=0.18,p2=0.14,1-=0.95,n1=n2=1000,在95%的置信概率下,估计两城市成年人中看过该广告的比例之差在0.79%7.21%之间。,63,练习:有一个大学生的随机样本,按照性格“外向”和“内向”,把他们分成两类。结果发现,四年级学生中有58属于“外向类”,新生中有73属于“外向”类。样本中四年级学生有117名,新生有171名,试在99的置信水平下,估计新生、四年级老生性格“外向”成数差的置信区间。,解:已知p1=0.73,p2=0.58,n1=171n2=117,1-=0.99,,查表得,置信度为99%的置信区间为,64,另一个调查声称有70%的人同意该种观点,总体中同意该观点的比重置信区间是(0.691,0.709)。,一个有10000个人回答的调查显示,同意某种观点的人占70%(有7000人同意),总体中同意该观点的比重的95%置信区间为(0.691,0.709)。,65,如果第二个调查仅仅调查了50个人,有35个人同意该观点。,根据公式可以算出,第二个调查的置信区间的置信度仅有11%。,实际上,第二个调查隐瞒了置信度,隐瞒了样本量。,66,注意置信区间的论述是由区间和置信度两部分组成。区间是对参数给出的一个范围。置信度为其可信程度,既置信概率。有些新闻媒体报道一些调查结果只给出百分比,至多加一个误差。比如“收视率为53%3%”;不给出置信度,也不给出被调查的人数。这是不负责的表现。,67,抽样方案设计,编制抽样结构(抽样框),设计参数,选择抽样的组织形式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论