统计学原理第六章抽样推断及参数估计_第1页
统计学原理第六章抽样推断及参数估计_第2页
统计学原理第六章抽样推断及参数估计_第3页
统计学原理第六章抽样推断及参数估计_第4页
统计学原理第六章抽样推断及参数估计_第5页
已阅读5页,还剩125页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章抽样推断及参数估计,内容提要,第一节抽样调查的一般问题,第二节抽样误差,第三节总体指标的推断,第四节必要抽样数目的确定,第五节统计量及抽样分布,内容提要,本章主要阐述了抽样调查的概念、特点、作用和几个基本概念;影响抽样误差的主要因素;抽样调查几种主要组织方式的抽样平均误差的计算;抽样估计推断;点估计和区间估计;必要抽样数目的确定。,抽样调查的一般问题,第一节,返回2,一、抽样调查的概念、特点与作用(一)抽样调查的概念与特点抽样调查又称抽样推断或抽样估计,它是从总体中按随机原则抽取一部分单位进行观测,并根据这部分单位的资料推断总体数量特征的一种方法。,抽样调查具有下列三个主要特点:(1)按随机原则抽取调查单位。(2)由部分推断全体。(3)抽样误差可以事先计算并加以控制。,(二)抽样调查的作用(1)用于不可能进行全面调查的无限总体。(2)用于不可能进行全面调查而又需要了解全面情况的现象。(3)用于不必要进行全面调查的现象。(4)用于对全面调查的资料进行评价与修正。(5)用于工业生产过程的质量控制。,二、抽样调查中的几个基本概念(一)全及总体和抽样总体1.全及总体。全及总体简称总体或母体,它是指所要调查研究对象的全体。2.抽样总体。抽样总体简称样本或子样,它是指在全及总体中按随机原则抽取的那部分单位所构成的集合体。,(二)总体指标和样本指标1.总体指标。总体指标也称为母体参数或全及指标,它是根据全及总体各单位的标志值或标志特征计算的,反映总体某种属性的综合指标。由于全及总体是唯一确定的,根据全及总体计算的全及指标也是唯一确定的。,2.样本指标。样本指标也称样本统计量或抽样指标,它是根据抽样总体各单位的标志值或标志特征计算的综合指标。由于可以从一个全及总体中抽取许多个不同的样本,不同的样本其分布结构也会有差异,抽样指标的数值也就不同,所以抽样指标的数值不是唯一确定的。,三、抽样调查的组织方式(一)简单随机抽样简单随机抽样也叫纯随机抽样,它对总体单位不作任何分类排队,而是直接从总体中随机抽取一部分单位来组成样本的抽样组织方式。(1)抽签法。(2)随机数字法。,(二)类型抽样类型抽样又称分类抽样或分层抽样,它是先将总体按某个主要标志进行分组(或分类),再按随机原则从各组中抽取样本单位的一种抽样方式。,(1)等数分配类型抽样法。(2)等比例类型抽样法。公式61,(3)不等比例类型抽样法。公式62,(三)等距抽样等距抽样也称机械抽样或系统抽样,它是将总体各单位按某一标志顺序排列,然后按固定顺序和相等距离或间隔抽取样本单位的抽样组织方式。,抽样距离计算公式为:公式63,图61等距抽样示意图,(四)整群抽样整群抽样也称集团抽样、区域抽样或分群随机抽样,它是将总体各单位按时间或空间形式划分成许多群,然后按纯随机抽样或机械抽样方式从中抽取部分群,对中选群的所有单位进行全面调查的抽样组织方式。,公式64公式65,整群抽样的优点:易于组织,节省调查费用缺点:调查的总体单位过于集中且在少数样本群中。因此,在条件相同的情况下,整群抽样的代表性低,通常需要扩大样本群的数目来弥补这个缺点。,阶段抽样,阶段抽样也就是多级抽样,在抽样时先抽总体中某种更大范围的单位,逐次类推,最后从更小范围总体中抽选样本的基本单位,分阶段来完成抽样的组织工作。农产量抽样调查,第一阶段是从省抽县,第二阶段从中选县抽乡,第三阶段从中选乡抽村,再从村抽地块,最后再从地块抽具体的样本点,以样本点的实际资料来推算平均亩产和总产量。,抽样误差,第二节,一、抽样误差,调查误差是调查所获得的统计数据域调查总体未知真实数据之间的差别,包括登记性误差和代表性误差。登记性误差是在调查过程中由于主观客观原因引起的登记差错造成的误差。代表性误差是用样本指标数值去推算总体指标数值时,由于样本各单位的结构情况不足以代表总体特征所产生的误差。,一、抽样误差的概念调查误差又可分为:一是:没有遵循随机原则,二是:即使遵守了随机原则,也会由于被抽取的样本各种各样,导致样本内部各单位的分布比例结构与总体实际分布状况有偶然性的差异,从而使不同的随机样本得出不同的估计量,造成样本指标数值与总体指标数值之间产生差距,如抽样平均数与总体平均数的离差,抽样成数与总体成数的离差等。这类误差通常称为抽样误差或随机误差。,二、影响抽样误差的主要因素(一)样本单位数(样本容量n)的多少(二)总体被研究标志变异程度(总体方差)的大小(三)抽样组织方式(四)抽样方法,三、抽样平均误差(一)抽样平均误差的概念抽样平均误差是指以全部可能样本指标为变量,以总体指标为平均数计算得到的标准差,以符号表示,通常以代表平均数的抽样平均误差,以代表成数的抽样平均误差,以K代表可能组成的样本总数。,(二)计算抽样平均误差的理论公式根据抽样平均误差的概念可得其一般计算公式:公式86公式87,(三)抽样平均误差的计算方法1.平均数的抽样平均误差(1)重复抽样条件下:公式68(2)不重复抽样条件下:公式69当N很大时,公式610,例6-为叙述简便起见,假设有10,20,30和40四个数字组成一个总体,从中随机抽取两个数字作为样本,求抽样平均误差。,2.成数的抽样平均误差(1)重复抽样条件下:公式611(2)不重复抽样条件下:公式612当N很大时,公式613,例6-2某仪表厂生产某种型号的精密仪表,按正常生产经验,产品合格率为85%。今按简单随机抽样方式从800只仪表中抽取10%进行检验,求合格品比率的抽样平均误差。在重复条件下,采用公式611:在不重复条件下,采用公式613:,例6-3某大学有4500名学生,采用不重复简单随机抽样方式从中抽取10%的学生,调查其每月生活费用支出情况。抽样结果显示,学生平均每人每月生活费支出350元,标准差80元,生活费用支出在500元以上的学生占全部学生的20%。试求抽样平均误差。,(四)其他抽样组织方式抽样平均误差的计算方法1.类型比例抽样平均误差的计算。(1)平均数的抽样平均误差重复抽样条件下:公式614不重复抽样条件下:公式615,(2)成数的抽样平均误差重复抽样条件下:公式616不重复抽样条件下:公式617,其中:公式618公式619,例6-4某县对本县的某种农作物的产量作了一次类型比例抽样调查。调查资料整理的结果见表6-4,试求抽样平均误差。,表6-4,返回33,2.等距抽样平均误差的计算。3.整群抽样平均误差的计算。(1)平均数的抽样平均误差公式620(2)成数的抽样平均误差公式621,其中:公式622公式623,例6-5某商店购进300箱(50只/箱)苹果,入库前随机抽取1%检查其质量。检验结果的整理资料见表6-5,试求抽样平均误差。,例65首先,分别计算样本平均数和样本成数:,然后,分别求出样本平均数群间方差和成数群间方差:,最后,根据公式620和公式621求出x和p为:,总体指标的推断,第三节,一、统计比较的概念和作用总体指标的推断是指对总体平均数总体成数P推断估计的问题。抽样调查的直接目的,就是为了推断,P,然后,再结合总体单位数N去推算总体的有关标志总量。总体指标的推断有点估计和区估计两种方法。,一、点估计点估计也称定值估计,它是以抽样得到的样本指标作为总体指标的估计量,并以样本指标的实际值、p直接作为总体未知参数、P的估计值的一种推断方法。,比如:某电子元件厂,某天共生产电子元件20000件,耐用时间和合格率没进行全面检测,而是随机抽查5%检测,经计算,样本的平均耐用时间小时,合格率p=98.56%。因此,推算这天生产的全部电子元件平均耐用时间小时,合格率p=98.56%。,估计量评判标准:1.一致性。设为未知参数的估计量,当n时,要求按概率收敛于,即公式624,一致性(consistency),一致性:随着样本量的增大,估计量的值越来越接近被估计的总体参数,2.无偏性。若要求估计量的数学期望等于未知参数的真值,即公式625,3.有效性。无偏性只考虑估计量的平均结果是否等于待估计参数的真值,有效性则要求每个估计值与待估参数真值之间的偏差尽可能地小。设,为的两个无偏估计量,若的方差小于的方差,即公式628,有效性(efficiency),有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效,二、区间估计区间估计就是以一定的概率保证估计包含总体参数的一个值域,即根据样本指标和抽样平均误差推断总体指标的可能范围。它包括两方面内容:一、这一可能范围的大小,二、总体指标落在这个可能范围内的概率。,考虑表6-6样本平均数的概率分布,由表6-6知:,将表6-6所示的变量数列绘成图形,即可得到一个钟形的平滑曲线,这条曲线叫正态分布曲线。如图6-2,图82正态分布曲线图,根据数理统计证明,总体单位的标志值如果是正态分布,其全部可能样本也一定是正态分布的;如果总体单位的标志值不是正态分布的,只要是大样本(即n30),全部可能样本指标也会接近正态分布。从正态分布图中,可以总结两个特点:一是样本指标高于或低于总体指标的概率分布完全是对称的;二是样本指标接近于总体指标的概率越大(小),出现的可能性也越大(小)。,中心极限定理(centrallimittheorem),x的分布趋于正态分布的过程,样本指标置信度,根据数学证明,在到的区间中,这一部分曲线下的面积,占曲线下全部面积的68.27%;在到的区间内,这一部分曲线下的面积,占曲线下全部面积的95.45%;在到的区间内,这一部分曲线下的面积,占曲线下全部面积的99.73%。如图6-3,图83样本指标置信度图,误差范围与概率度(t)和抽样平均误差三者之间的关系为:公式627由此得到平均数和成数的误差范围公式:公式628公式629,进而得到总体平均指标和总体成数指标的区间估计公式为:公式630公式631,(95%的置信区间),重复构造出的20个置信区间,点估计值,总体均值的区间估计(大样本),1.假定条件总体服从正态分布,且方差()已知如果不是正态分布,可由正态分布来近似(n30)使用正态分布统计量z,总体均值在1-置信水平下的置信区间为,例6-6,某自行车厂从生产的一批10000个自行车轮胎中随机抽取1%进行质量检验。调查结果显示,轮胎的平均寿命为5000英里。试以95%的把握对该批自行车的平均寿命作出估计。(注:根据长期生产这种类型的轮胎数据可知,总体标准差为400公里),例6,有了区间估计的结果,就可以对这批轮胎的使用寿命得出结论,因为区间估计最低公里数为4921.99公里,可将4900公里规定为最低可行驶公里数。这样做虽不能保证百分之百的可靠,但可以有95%的把握,还是令人可信的。,例67利用例6-3的资料,在95.45%的概率保证下估计全体学生月平均生活费用的可能范围,以及月生活费用在500元以上学生所占比重的可能范围。,例6-8从某县农民家庭中随机抽取100户调查其年收入情况。农民家庭按年人均纯收入额分组的资料如下表6-7所示,根据表6-7的资料计算得表6-8,例68,例68,第四节,必要抽样数目的确定,返回2,一、影响抽样数目的主要因素(一)总体被研究标志的变异程度(二)对推断精确度的要求(三)对推断可靠性的要求(四)抽样调查的组织方式和方法(五)人力、物力和财力的允许条件,二、确定抽样数目的方法(一)在重复抽样条件下推断总体平均数所需要的抽样数目:公式632推断总体成数所需要的抽样数目:公式633,(二)在不重复抽样条件下推断总体平均数所需要的抽样数目:公式634推断总体成数所需要的抽样数目:公式635,例6-9,假定某乡有农户18000户,在某次调查中采用重复的纯随机方式进行抽样,要求人均收入的极限误差控制在150元内,把握程度为95.45%,该抽多少多少农户?如果极限抽样误差要求控制在75元内,应抽多少户?(注:全乡人均收入标准差为1500元),例6(1)采用重复抽样公式计算:,可见,在重复抽样中,极限误差缩小一半(即为原来的1/2)时,必须把样本容量增到4倍。,(2)采用不重复抽样公式计算:,当极限抽样误差缩小为一半时,根据【公式6-34】得:,如果是采用其他抽样组织方式,则公式略有不同。例如,采用重复的分层抽样,则所需的抽样数目计算公式为:公式636公式637,第5节统计量及其抽样分布,6.5.1统计量6.5.2关于分布的几个概念6.5.3由正态分布导出的几个重要分布6.5.4样本均值的分布与中心极限定理6.5.5样本比例的抽样分布6.5.6两个样本平均值之差的分布6.5.7关于样本方差的分布,统计量(statistic),设X1,X2,Xn是从总体X中抽取的容量为n的一个样本,如果由此样本构造一个函数T(X1,X2,Xn),不依赖于任何未知参数,则称函数T(X1,X2,Xn)是一个统计量样本均值、样本比例、样本方差等都是统计量统计量是样本的一个函数统计量是统计推断的基础,例:设是从某总体X中抽取的一个样本,则:是统计量不是统计量,常用统计量,次序统计量,一组样本观测值X1,X2,Xn由小到大的排序X(1)X(2)X(i)X(n)后,称X(1),X(2),X(n)为次序统计量称为样本极差中位数、分位数、四分位数等都是次序统计量,2分布(2distribution),由阿贝(Abbe)于1863年首先给出,后来由海尔墨特(Hermert)和卡皮尔逊(KPearson)分别于1875年和1900年推导出来2.设随机变量相互独立,且服从标准正态分布则它们的平方和服从自由度为n的2分布。3.设,则,若令则Y服从自由度为1的2分布,即,分布的变量值始终为正分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称期望为:E(2)=n,方差为:D(2)=2n(n为自由度)可加性:若U和V为两个独立的2分布随机变量,U2(n1),V2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布,2分布(性质和特点),卡方(c2)分布,t分布,高塞特(W.S.Gosset)于1908年在一篇以“Student”(学生)为笔名的论文中首次提出t分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布,t分布图示,由上图可以看出:t分布的密度函数与标准正态分布N(0,1)的密度函数曲线非常相似单峰偶函数。t(n)的密度函数在两侧的尾部都要比N(0,1)的两侧尾部粗一些,t(n)的方差比N(0,1)的方差大一点。当n30时,t分布与标准正态分布就非常接近t分布理论适用于小样本分布,由统计学家费希尔(R.A.Fisher)提出的,以其姓氏的第一个字母来命名设若U为服从自由度为n1的2分布,即U2(n1),V为服从自由度为n2的2分布,即V2(n2),且U和V相互独立,则称F为服从自由度n1和n2的F分布,记为,F分布(Fdistribution),F分布(图示),不同自由度的F分布,样本统计量的概率分布,是一种理论分布在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布随机变量是样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据,抽样分布(samplingdistribution),在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布一种理论概率分布推断总体均值的理论基础,样本均值的抽样分布,样本均值的抽样分布(一个例子),【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为X1=1、X2=2、X3=3、X4=4。总体的均值、方差及分布如下,均值和方差,样本均值的抽样分布(一个例子),现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果如下表,样本均值的抽样分布(一个例子),计算出各样本的均值,如下表。并给出样本均值的抽样分布,所有样本均值的均值和方差,式中:M为样本数目比较及结论:1.样本均值的均值(数学期望)等于总体均值2.样本均值的方差等于总体方差的1/n,样本均值的分布与总体分布的比较,抽样分布,=2.52=1.25,总体分布,样本均值的抽样分布与中心极限定理,当总体服从正态分布N(,2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x的数学期望为,方差为2/n。即xN(,2/n),中心极限定理(centrallimittheorem),从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布,中心极限定理(centrallimittheorem),x的分布趋于正态分布的过程,例:设从一个均值为10,标准差为0.6的总体中随机选取容量为36的样本。假定该总体不是很偏,求:(1)计算样本均值小于9.9的近似概率(2)计算样本均值超过9.9的近似概率(3)计算样本均值在总体均值附近0.1范围内的近似概率,例2:某汽车电瓶商声称生产的电瓶具有均值为60个月,标准差为6个月的寿命分布。先假设质检部门决定检验该厂的说法是否准确,为此随机抽取50个该厂生产的电瓶进行寿命试验。(1)假定厂商声称正确,描述50个电瓶的平均寿命的抽样分布。(2)50个样品组成的样本的平均寿命不超过57个月的概率为多少?,结论:50个电瓶平均寿命不超过57个月的概率为0.0002,根据小概率原理,这是一个不可能事件。,总体(或样本)中具有某种属性的单位与全部单位总数之比不同性别的人与全部人数之比合格品(或不合格品)与全部产品总数之比总体比例可表示为样本比例可表示为,比例(proportion),样本比例的抽样分布,在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布一种理论概率分布当样本容量很大时,样本比例的抽样分布可用正态分布近似,则4.如果X是随机变量,C为常数,则CX和X有相同的分布形状。,样本比例的数学期望样本比例的方差重复抽样不重复抽样,样本比例的抽样分布(数学期望与方差),例:,例2:假定某统计人员在填写的报表中有2%至少会有一处错误,如果我们检查了一个由6

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论