统计学 参数估计和假设检验_第1页
统计学 参数估计和假设检验_第2页
统计学 参数估计和假设检验_第3页
统计学 参数估计和假设检验_第4页
统计学 参数估计和假设检验_第5页
已阅读5页,还剩128页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计学统计学制作:安徽大学商学院制作:安徽大学商学院 洪文洪文统计学版权所有,未经准许,不得翻制3第五章 参数估计和假设检验 w 第一节第一节 抽样分布抽样分布 w 第二节第二节 参数估计参数估计w 第三节第三节 假设检验的基本原理假设检验的基本原理w 第四节第四节 几种常见的假设检验几种常见的假设检验w 第五节第五节 方差分析方差分析w 附录附录6 用用SPSS进行参数估计和假设检验进行参数估计和假设检验 4第一节 抽样分布 从总体中抽取样本的方法有很多,根据抽取从总体中抽取样本的方法有很多,根据抽取的原则不同,抽样方法可分为随机抽样法和非随的原则不同,抽样方法可分为随机抽样法和非随机抽样法

2、两种。随机抽样法又称概率抽样法,即机抽样法两种。随机抽样法又称概率抽样法,即样本的抽取按照一定的概率原则,不依据个人的样本的抽取按照一定的概率原则,不依据个人的主观意愿,随机性地从总体中抽取样本。相应的,主观意愿,随机性地从总体中抽取样本。相应的,非随机抽样法又称为非概率抽样法,即样本的抽非随机抽样法又称为非概率抽样法,即样本的抽取不是按照一定的概率原则,而是根据人们的主取不是按照一定的概率原则,而是根据人们的主观经验或其他条件来抽取样本。观经验或其他条件来抽取样本。5第一节 抽样分布 抽样推断在通常情况下都是建立在随机抽样抽样推断在通常情况下都是建立在随机抽样的基础上的,因为这种方法在保证所

3、抽取的样本的基础上的,因为这种方法在保证所抽取的样本具有总体代表性的前提下,还可以用一定的概率具有总体代表性的前提下,还可以用一定的概率来保证抽样误差被控制在规定的范围之内。来保证抽样误差被控制在规定的范围之内。6第一节 抽样分布 一、简单随机抽样一、简单随机抽样(Simple Random Sampling) (一)什么是简单随机抽样?(一)什么是简单随机抽样? 简单随机抽样也称为纯随机抽样,是从总体简单随机抽样也称为纯随机抽样,是从总体N个单位中任意抽取个单位中任意抽取n个单位作为样本,而且每个个单位作为样本,而且每个单位可能被抽中的概率相等的一种抽样方法。单位可能被抽中的概率相等的一种抽

4、样方法。 按照样本抽选时每个单位是否允许被重复抽按照样本抽选时每个单位是否允许被重复抽中,简单随机抽样可分为重复抽样和不重复抽样中,简单随机抽样可分为重复抽样和不重复抽样两种。两种。 7第一节 抽样分布 重复抽样是指从总体的重复抽样是指从总体的N个单位中抽取一个个单位中抽取一个单位数为单位数为n的样本,每次抽出一个单位,登记其的样本,每次抽出一个单位,登记其特征后,再放回总体再抽,这样连续抽特征后,再放回总体再抽,这样连续抽n次即得次即得到所需样本。特点:到所需样本。特点:(1)同一总体单位可能被重复同一总体单位可能被重复抽中;抽中;(2)每次抽取是独立的,都是在每次抽取是独立的,都是在N个总

5、体单个总体单位中抽一个。例如,从位中抽一个。例如,从20个总体单位中抽取个总体单位中抽取2个,个,若第一次抽中若第一次抽中5号,第二次还有抽中号,第二次还有抽中5号单位的可号单位的可能。第一次抽取的结果并不影响第二次抽取的结能。第一次抽取的结果并不影响第二次抽取的结果,每次抽取各总体单位被抽中的概率都是果,每次抽取各总体单位被抽中的概率都是1/N。8第一节 抽样分布 不重复抽样是指从总体中随机抽取一个单位,不重复抽样是指从总体中随机抽取一个单位,登记其特征后不再放回总体中,下一个样本单位登记其特征后不再放回总体中,下一个样本单位再从余下的总体单位中抽取,这样连续抽取再从余下的总体单位中抽取,这

6、样连续抽取n次次即得到一个单位数为即得到一个单位数为n的样本。不重复抽样方法的样本。不重复抽样方法的特点是:的特点是: (1) 同一总体单位不可能被再次抽取;同一总体单位不可能被再次抽取; (2) 每次抽取不是独立的,上次抽取的结果要每次抽取不是独立的,上次抽取的结果要影响下次抽取的结果,每次抽取是在不同数目的影响下次抽取的结果,每次抽取是在不同数目的总体单位中进行的。总体单位中进行的。9第一节 抽样分布 例如,从例如,从10个总体单位中抽取个总体单位中抽取3个单位构成个单位构成样本,若第一次抽中样本,若第一次抽中6号单位,第二次只能在其号单位,第二次只能在其余余9个单位中抽取,不可能再抽到个

7、单位中抽取,不可能再抽到6号单位,同理号单位,同理第三次只能在余下的第三次只能在余下的8个单位中抽取。个单位中抽取。 在抽样调查中,特别是对社会经济现象的抽在抽样调查中,特别是对社会经济现象的抽样调查中,简单随机抽样一般是指不重复抽样。样调查中,简单随机抽样一般是指不重复抽样。简单随机抽样是其他随机抽样方法的基础,因为简单随机抽样是其他随机抽样方法的基础,因为它在理论上最容易处理,而且当总体单位数它在理论上最容易处理,而且当总体单位数N不不太大时,实施起来也不困难。太大时,实施起来也不困难。10第一节 抽样分布 (二)简单随机抽样的实施方法(二)简单随机抽样的实施方法 常用简单随机抽样方法有两

8、种:抽签法和随机数字表常用简单随机抽样方法有两种:抽签法和随机数字表法。法。 随机数字表法:首先对总体元素编号,确定位数(总随机数字表法:首先对总体元素编号,确定位数(总体位数体位数+1),选定列数和起点。确定样本个数,符合总体),选定列数和起点。确定样本个数,符合总体编号的元素就被选中,达到样本个数中止。编号的元素就被选中,达到样本个数中止。 11第一节 抽样分布 抽样的目的就是要根据样本的统计量去估计抽样的目的就是要根据样本的统计量去估计总体的参数,如根据样本均值估计总体均值总体的参数,如根据样本均值估计总体均值 ,根据样本比例根据样本比例p估计总体比例估计总体比例 等。但在做这样的等。但

9、在做这样的估计之前,必须要知道样本统计量的概率分布。估计之前,必须要知道样本统计量的概率分布。由前面的介绍可知,从总体中抽取样本的方法有由前面的介绍可知,从总体中抽取样本的方法有多种,而简单随机抽样是最常用的一种方法,以多种,而简单随机抽样是最常用的一种方法,以下讨论的就是在简单随机抽样方法下有关抽样分下讨论的就是在简单随机抽样方法下有关抽样分布的问题。布的问题。 12第一节 抽样分布 什么是抽样分布呢?可以这样理解:在抽样什么是抽样分布呢?可以这样理解:在抽样过程中,由于样本是随机抽取的,因此统计量过程中,由于样本是随机抽取的,因此统计量(样本的函数)是一个随机变量,其形成的概率(样本的函数

10、)是一个随机变量,其形成的概率分布称为抽样分布,它是进行统计推断的理论基分布称为抽样分布,它是进行统计推断的理论基础。础。 13第一节 抽样分布 一、单一样本统计量的抽样分布一、单一样本统计量的抽样分布 当我们要对某一总体的参数进行估计时,就当我们要对某一总体的参数进行估计时,就要研究来自该总体的所有可能样本统计量的分布要研究来自该总体的所有可能样本统计量的分布问题,比如样本均值的分布、样本比例的分布等,问题,比如样本均值的分布、样本比例的分布等,目的是概括有关统计量抽样分布的一般规律。目的是概括有关统计量抽样分布的一般规律。 (一)样本均值的抽样分布(一)样本均值的抽样分布 1、样本均值抽样

11、分布的构成、样本均值抽样分布的构成 niixnx1114第一节 抽样分布 2、样本均值抽样分布的特征、样本均值抽样分布的特征 如同描述总体数据的数量特征一样,要反映如同描述总体数据的数量特征一样,要反映样本均值的数量特征,同样也需要计算样本均值样本均值的数量特征,同样也需要计算样本均值的平均数的平均数(集中趋势值集中趋势值)和标准差和标准差(离散程度值离散程度值)。 数理统计证明样本均值抽样分布有如下两个数理统计证明样本均值抽样分布有如下两个主要特征值主要特征值(证明从略证明从略): *无论是重复抽样还是不重复抽样,样本均无论是重复抽样还是不重复抽样,样本均值的期望值总是等于总体均值值的期望值

12、总是等于总体均值 ,即,即)(xE15第一节 抽样分布 *样本均值的标准差总是小于总体标准差样本均值的标准差总是小于总体标准差 ,其关系表现为:其关系表现为:)(1)(有限总体且不重复抽样重复抽样NnNnnx 公式中样本均值的标准差反映所有可能样本公式中样本均值的标准差反映所有可能样本均值与其中心均值与其中心 的平均离散程度,可用于衡量样的平均离散程度,可用于衡量样本对总体的代表性大小。本对总体的代表性大小。16第一节 抽样分布 对比上面两个公式可以看出二者仅相差系数对比上面两个公式可以看出二者仅相差系数(N-n)/(N-1)0.5,,该系数通常被称为有限总体修正,该系数通常被称为有限总体修正

13、系数。在实际应用中,这一系数常常被忽略不计,系数。在实际应用中,这一系数常常被忽略不计,主要是因为:对于无限总体进行不重复抽样时,主要是因为:对于无限总体进行不重复抽样时,由于由于N未知,此时样本均值的标准差仍可重复抽未知,此时样本均值的标准差仍可重复抽样来处理;对于有限总体,当样来处理;对于有限总体,当N很大,其修正系很大,其修正系数趋于数趋于1,通常在样本容量,通常在样本容量n小于总体容量小于总体容量N的的5,即即n/N5时,有限总体修正系数就可以忽略不时,有限总体修正系数就可以忽略不计了。计了。 17第一节 抽样分布 3、样本均值抽样分布的形状、样本均值抽样分布的形状 上面介绍了样本均值

14、抽样分布的均值和标准上面介绍了样本均值抽样分布的均值和标准差,但我们还不知道其抽样分布的形状。如果样差,但我们还不知道其抽样分布的形状。如果样本均值所围绕的总体均值本均值所围绕的总体均值 的抽样分布的形状不的抽样分布的形状不同,则推断的概率界限便不同。通常,样本均值同,则推断的概率界限便不同。通常,样本均值抽样分布的形状与下述抽样分布定理有关。抽样分布的形状与下述抽样分布定理有关。 18第一节 抽样分布 *正态分布再生定理正态分布再生定理 如果总体服从正态分布,总体均值为如果总体服从正态分布,总体均值为 、总总体标准差为体标准差为 ,则从这个总体中抽取容量为,则从这个总体中抽取容量为n的随的随

15、机样本,样本均值的抽样分布也服从于正态分布,机样本,样本均值的抽样分布也服从于正态分布,其平均数仍为其平均数仍为 ,其标准差为,其标准差为 * 。 这条定理表示,只要总体分布是正态的,在这条定理表示,只要总体分布是正态的,在总体标准差已知时,则不管样本单位数是多少,总体标准差已知时,则不管样本单位数是多少,样本均值都服从正态分布,分布的中心不变。样本均值都服从正态分布,分布的中心不变。19第一节 抽样分布 而标准差而标准差 x 则视重复抽样或不重复抽样分别则视重复抽样或不重复抽样分别为:为:1NnNnn或 例例1 某罐头厂出口鲜蘑菇罐头,已知每瓶罐某罐头厂出口鲜蘑菇罐头,已知每瓶罐头的净重服从

16、正态分布,平均每瓶罐头重量为头的净重服从正态分布,平均每瓶罐头重量为184克,标准差为克,标准差为2.5克,若随机抽取克,若随机抽取16罐作为样罐作为样本,试求:本,试求:(a)样本平均重量的数学期望与标准差样本平均重量的数学期望与标准差值;值;(b)样本平均重量的抽样分布的形状;样本平均重量的抽样分布的形状;(c)样本样本罐头平均重量超过罐头平均重量超过184.5克的概率是多少克的概率是多少?20第一节 抽样分布 (a) 625. 0165 . 2184)(nxEx (b)由于已知总体重量服从正态分布,且由于已知总体重量服从正态分布,且 =184, =2.5,依据正态分布再生定理得:样,依据

17、正态分布再生定理得:样本 均 值 的 抽 样 分 布 也 是 正 态 分 布 。 服 从本 均 值 的 抽 样 分 布 也 是 正 态 分 布 。 服 从N(184,0.6252)。21第一节 抽样分布 结果表明:随机抽取结果表明:随机抽取16罐样本罐头,平均重罐样本罐头,平均重量超过量超过184.5克的概率是克的概率是21.19(查表和演示)。(查表和演示)。 2119. 07881. 01)8 . 0(625. 01845 .184)5 .184()(zPzPxPc22第一节 抽样分布 *中心极限定理中心极限定理 对任意分布形状的平均数为对任意分布形状的平均数为 ,标准差为标准差为 的的总

18、体进行随机抽样,只要样本容量足够大,则样总体进行随机抽样,只要样本容量足够大,则样本均值抽样分布逼近期望值为本均值抽样分布逼近期望值为 ,标准差为,标准差为 x的的正态分布。正态分布。 其中标准差其中标准差 x视重复抽样或不重复抽样分别视重复抽样或不重复抽样分别为:为:1NnNnn或23第一节 抽样分布 在实际应用中,中心极限定理所说的样本在实际应用中,中心极限定理所说的样本“足够大足够大”,可以理解为,可以理解为n在在30以上。就是说,以上。就是说,在处理实际问题时,只要样本容量在处理实际问题时,只要样本容量n30,即使总,即使总体明显是偏态的,样本均值的抽样分布仍近似服体明显是偏态的,样本

19、均值的抽样分布仍近似服从正态分布。现举例说明其应用。从正态分布。现举例说明其应用。24第一节 抽样分布 例例2 某地区高考学生的入学考试成绩均值某地区高考学生的入学考试成绩均值 为为550分,标准差分,标准差 为为250分,若从考生中随机抽分,若从考生中随机抽取取100名,求:名,求:(a)样本平均成绩的数学期望与标样本平均成绩的数学期望与标准差值;准差值;(b)分析样本平均成绩的抽样分布;分析样本平均成绩的抽样分布;(c)样样本平均成绩在本平均成绩在520580分之间的概率有多大分之间的概率有多大? (d)样样本平均成绩小于本平均成绩小于580分的概率有多大分的概率有多大? 解解: (a)

20、25100250550)(nxEx25第一节 抽样分布 (b)虽然总体成绩的分布形态未知,但虽然总体成绩的分布形态未知,但 已知,已知,且且n=100为大样本,依据中心极限定理得:样本为大样本,依据中心极限定理得:样本均值的抽样分布近似服从正态分布。均值的抽样分布近似服从正态分布。7698. 018849. 02)2 . 12 . 1(2555058025550520)580520()(zPzPxPc8849.0)2 .1(25550580)580()(zPzPxPd26第一节 抽样分布 例例3 已知某单位有已知某单位有2000名职工,平均每人每名职工,平均每人每年医疗费用为年医疗费用为120

21、0元,标准差为元,标准差为380元,若随机抽元,若随机抽取取100名职工,求:名职工,求:(a)样本平均医疗费用的数学样本平均医疗费用的数学期望与标准差是多少期望与标准差是多少?(b)样本平均医疗费用的抽样本平均医疗费用的抽样分布怎样样分布怎样?(c)样本平均医疗费用在样本平均医疗费用在1100元至元至 1350元之间的概率。元之间的概率。 解解: (a)05.3712000100200010038011200)(NnNnxEx27第一节 抽样分布 (b)虽然总体成绩的分布形态未知,但虽然总体成绩的分布形态未知,但 已知,已知,且且n=100为大样本,依据中心极限定理得:样本为大样本,依据中心

22、极限定理得:样本均值均值的抽样分布近似服从正态分布。的抽样分布近似服从正态分布。9965. 0)7 . 2(1 ()4()47 . 2(05.371200135005.3712001100)13501100()(PPzPzPxPc28第一节 抽样分布 (二二)样本比例的抽样分布样本比例的抽样分布 样本比例即指样本中具有某种特征的单位所样本比例即指样本中具有某种特征的单位所占的比例,如样本合格率、样本失业率等。在许占的比例,如样本合格率、样本失业率等。在许多管理问题中,都要用样本的比例多管理问题中,都要用样本的比例p去估计相应去估计相应总体的比例总体的比例P(总体均值总体均值P,方差,方差P (

23、1-P)),因此,因此掌握样本比例的抽样分布问题就显得十分必要。掌握样本比例的抽样分布问题就显得十分必要。 样本比例是一种特殊的样本均值样本比例是一种特殊的样本均值*,故样本,故样本比例的抽样分布就是前述样本均值分布的一个特比例的抽样分布就是前述样本均值分布的一个特例。例。29第一节 抽样分布 根据前面介绍的内容,显然样本比例的分布根据前面介绍的内容,显然样本比例的分布属于二项分布问题,当样本容量属于二项分布问题,当样本容量n足够大时,即足够大时,即n P与与n(1- P)都不小于都不小于5时,样本比例的抽样分布近时,样本比例的抽样分布近似为正态分布(说明、演示)。似为正态分布(说明、演示)。

24、 在大样本情况下,样本比例的抽样分布特征在大样本情况下,样本比例的抽样分布特征值可概括如下:值可概括如下: *无论是重复抽样还是不重复抽样,样本比例无论是重复抽样还是不重复抽样,样本比例p的数学期望总是等于总体比例的数学期望总是等于总体比例P,即,即 E(p) = P30第一节 抽样分布 而样本比例而样本比例p的标准差为的标准差为 p,其计算公式为:,其计算公式为:)(1)1 ()()1 (有限总体且不重复抽样重复抽样NnNnPPnPPp31第一节 抽样分布 例例4 已知某厂零件加工不合格率达到已知某厂零件加工不合格率达到6,现从中随机抽取现从中随机抽取100件,求:件,求:(a)样本不合格率

25、的样本不合格率的期望值与标准差;期望值与标准差;(b)此时样本不合格率的抽样分此时样本不合格率的抽样分布如何布如何?(c)样本不合格率在样本不合格率在4以上的可能性有多以上的可能性有多大大? 解:解: (a) P = 0.06,n = 100 E(p) = P = 0.06%37. 20237. 0100)06. 01 (06. 0)1 (nPPp32第一节 抽样分布 (b)由于已知由于已知P=0.06,n=100,所以,所以nP=6,n(1-P) =94,均大于,均大于5,所以样本不合格率的抽样,所以样本不合格率的抽样分布近似为正态分布。服从分布近似为正态分布。服从N(0.06,0.0237

26、2)。7995.0)84.0()84.0(%37.2%6%4%)4()(zPzPzPpPc33第一节 抽样分布 二、两个样本统计量的抽样分布二、两个样本统计量的抽样分布 当我们要对两个总体有关参数的差异进行估当我们要对两个总体有关参数的差异进行估计时,就要研究来自这两个总体的所有可能样本计时,就要研究来自这两个总体的所有可能样本相应统计量相应统计量差异的抽样分布差异的抽样分布,比如,样本均值差,比如,样本均值差异的抽样分布,样本比例差异的抽样分布等。异的抽样分布,样本比例差异的抽样分布等。34第一节 抽样分布 (一)两个样本均值差异的抽样分布(一)两个样本均值差异的抽样分布 若从总体若从总体X

27、1和总体和总体X2中分别独立地抽取容量中分别独立地抽取容量为为n1和和n2的样本,则由两个样本均值之差的所有的样本,则由两个样本均值之差的所有可能取值形成的概率分布称为两个样本均值差异可能取值形成的概率分布称为两个样本均值差异的抽样分布。的抽样分布。 假设总体假设总体X1和总体和总体X2的均值分别是的均值分别是 1和和 2,标准差分别是标准差分别是 1和和 2,则两个样本均值之差,则两个样本均值之差 的抽样分布可概括为以下两种情况:的抽样分布可概括为以下两种情况:35第一节 抽样分布 1、若总体、若总体X1N( 1, 1),总体,总体X2N( 2, 2),则则 ),(2221212121nnN

28、xx 2、若两个总体都是非正态总体,当两个样、若两个总体都是非正态总体,当两个样本容量本容量n1和和n2都足够大时,依据中心极限定理,都足够大时,依据中心极限定理,两个样本均值之差两个样本均值之差分别近似服从正态分布,故分别近似服从正态分布,故),(2221212121nnNxx36第一节 抽样分布 例例5 某家具公司在市区和郊区开办两个家具某家具公司在市区和郊区开办两个家具城,根据某年的销售统计,得资料如下:城,根据某年的销售统计,得资料如下:总体平均消费额(元)总体标准差(元)市区4000800郊区3500900 若分别从市区和郊区的消费者中随机抽取若分别从市区和郊区的消费者中随机抽取36

29、人和人和49人,问:人,问:37第一节 抽样分布 (1)样本平均消费额差异的抽样分布怎样样本平均消费额差异的抽样分布怎样? (2)样本平均消费额差异的标准差是多少样本平均消费额差异的标准差是多少? (3)样本平均消费额差异在总体平均消费额差样本平均消费额差异在总体平均消费额差异附近异附近2倍的抽样标准差之间的概率为多少倍的抽样标准差之间的概率为多少? 解:解: (1)由于两个随机样本是独立大样本,所以样由于两个随机样本是独立大样本,所以样本平均消费额差异的抽样分布近似为正态分布。本平均消费额差异的抽样分布近似为正态分布。样本平均消费额差异的的均值为样本平均消费额差异的的均值为500。38第一节

30、 抽样分布 (2) 两个总体标准差分别已知,所以样本平均两个总体标准差分别已知,所以样本平均消费额差异的标准差是:消费额差异的标准差是:元)(225.185499003680022222121nn (3)查正态分布概率表得:样本平均消费额差查正态分布概率表得:样本平均消费额差异在总体平均消费额差异附近异在总体平均消费额差异附近2倍的抽样标准差倍的抽样标准差之间的概率即为之间的概率即为95.45。39第一节 抽样分布 (二)两个样本比例差异的抽样分布(二)两个样本比例差异的抽样分布 若从总体若从总体X1和总体和总体X2中分别独立地抽取容量中分别独立地抽取容量为为n1和和n2的样本,则由两个样本比

31、例之差的样本,则由两个样本比例之差p1-p2的的所有可能取值形成的概率分布称为两个样本比例所有可能取值形成的概率分布称为两个样本比例差异的抽样分布。差异的抽样分布。 假设两个总体的比例分别是假设两个总体的比例分别是P1和和P2,当,当n1和和n2足够大时,即足够大时,即n1P1与与n1(1-P1)且且n2P2与与n2(1-p2)都都不小于不小于5时,根据中心极限定理,时,根据中心极限定理,pl和和p2分别近似分别近似服从正态分布,故服从正态分布,故 40第一节 抽样分布 例例6 据某中学医务室体检结果的统计,男、据某中学医务室体检结果的统计,男、女生配戴近视眼镜的比例分别为女生配戴近视眼镜的比

32、例分别为32和和45,若,若分别从男生和女生中随机抽取分别从男生和女生中随机抽取100人和人和150人,问:人,问:(1)两个样本中戴眼镜比例差异的抽样分布怎样两个样本中戴眼镜比例差异的抽样分布怎样? (2)样本比例差异的标准差是多少样本比例差异的标准差是多少? (3)样本比例差样本比例差异在总体比例差异附近异在总体比例差异附近2.58倍的抽样标准差之倍的抽样标准差之间的概率为多少间的概率为多少?2221112121)1 ()1 (,npPnPpPPNpp41第一节 抽样分布 解解: (1) 设设P1 =32%, n1 =100, P2 =45%, n2 =150 由于由于n1P1与与n1(1

33、-P1)且且n2P2与与n2(1-P2)都不小于都不小于5,所以样本比例差异的抽样分布近似为正态分,所以样本比例差异的抽样分布近似为正态分布。样本比例差异的均值为布。样本比例差异的均值为0.07。 (2)样本比例差异的的标准差是:样本比例差异的的标准差是: 062. 0150)45. 01 (45. 0100)32. 01 (32. 0)1 ()1 (222111nPPnPP42第一节 抽样分布99. 015951. 021)58. 2(258. 258. 2)58. 258. 2(21zPzPppP (3)查表得:样本比例差异在总体比例差异附查表得:样本比例差异在总体比例差异附近近2.58倍

34、的抽样标准差之间的概率为倍的抽样标准差之间的概率为99。 43第二节第二节 参数估计参数估计 所谓参数估计也就是用样本统计量去估计总所谓参数估计也就是用样本统计量去估计总体的参数。比如,用样本均值估计总体均值体的参数。比如,用样本均值估计总体均值 ,用样本比例用样本比例p估计总体比例估计总体比例P,等等。参数估计,等等。参数估计的方法有点估计和区间估计两种,下面分别予以的方法有点估计和区间估计两种,下面分别予以介绍。介绍。44第二节第二节 参数估计参数估计 一、参数估计的基本原理一、参数估计的基本原理 1、几个基本概念、几个基本概念 (1)参数参数(Parameter) 参数是用来描述总体特征

35、的概括性数值。如参数是用来描述总体特征的概括性数值。如总体均值总体均值( )、总体比例、总体比例(P)等。在进行推断统计等。在进行推断统计时,总体数据通常是不完全的,所以参数是一个时,总体数据通常是不完全的,所以参数是一个未知的常数。未知的常数。45第二节第二节 参数估计参数估计 (2)统计量统计量(Statistic) 统计量是用来描述样本特征的概括性值(样统计量是用来描述样本特征的概括性值(样本的函数)。如样本均值、样本比例本的函数)。如样本均值、样本比例(p)等。等。 由于样本是经过随机抽样确定的,所以统计由于样本是经过随机抽样确定的,所以统计量是随机变量,可以根据抽样结果计算出具体的量

36、是随机变量,可以根据抽样结果计算出具体的数值。推断统计的目的就是要根据已知样本统计数值。推断统计的目的就是要根据已知样本统计量去估计未知总体参数。例如,根据样本职工的量去估计未知总体参数。例如,根据样本职工的平均收入去推断总体职工的平均收入;根据样本平均收入去推断总体职工的平均收入;根据样本产品的合格率去推断总体产品的合格率,等等。产品的合格率去推断总体产品的合格率,等等。46第二节第二节 参数估计参数估计 (3)估计量估计量(Estimator) 估计量是用于估计总体参数的统计量的名称。估计量是用于估计总体参数的统计量的名称。例如,根据样本汽车的平均价格去估计总体汽车例如,根据样本汽车的平均

37、价格去估计总体汽车的平均价格时,样本汽车的平均价格就是估计量。的平均价格时,样本汽车的平均价格就是估计量。显然,样本是随机的,所以估计量也是一个随机显然,样本是随机的,所以估计量也是一个随机变量(对于总体均值参数,样本均值,最大值,变量(对于总体均值参数,样本均值,最大值,最小值都可以是总体均值的估计量)。最小值都可以是总体均值的估计量)。 47第二节第二节 参数估计参数估计 (4)估计值估计值(Estimate) 根据随机抽样的结果计算的估计量的具体数根据随机抽样的结果计算的估计量的具体数值即为估计值。例如,根据某次抽样结果计算得值即为估计值。例如,根据某次抽样结果计算得样本旅客的平均通过安

38、检的时间为样本旅客的平均通过安检的时间为167.77秒,用秒,用于估计总体旅客的平均通过安检的时间,这个于估计总体旅客的平均通过安检的时间,这个 167.77秒就是估计值。秒就是估计值。 48第二节第二节 参数估计参数估计 二、点估计二、点估计(Point estimate) 点估计就是用样本估计量的观察值直接作为点估计就是用样本估计量的观察值直接作为总体参数的估计值。比如,用样本均值直接作为总体参数的估计值。比如,用样本均值直接作为总体均值总体均值 的估计值,用样本比例的估计值,用样本比例p直接作为总体直接作为总体比例比例P的估计值,等等。的估计值,等等。49第二节第二节 参数估计参数估计

39、例例7 2006年中国民航业迅猛发展,民航旅客年中国民航业迅猛发展,民航旅客的满意度越来越受到社会的关注,其中机场安全的满意度越来越受到社会的关注,其中机场安全检查的通过时间就是关系到旅客满意度的重要指检查的通过时间就是关系到旅客满意度的重要指标之一,调查员于标之一,调查员于2006年年底在某机场的某个安年年底在某机场的某个安检通道随机抽取了检通道随机抽取了35位旅客,测量他们通过安全位旅客,测量他们通过安全检查的时间如下检查的时间如下(单位:秒单位:秒): 50第二节第二节 参数估计参数估计 86 158 229 180 145 295 158 204 187 47 112 233 90 8

40、9 176 138 25 122 275 97 165 118 210 169 362 70 167 130 189 95 250 143 98 539 121 根据此样本数据,对同期该机场旅客的平均根据此样本数据,对同期该机场旅客的平均安检通过时间以及通过安检时间在安检通过时间以及通过安检时间在3分钟及以上分钟及以上旅客所占比例作出点估计。旅客所占比例作出点估计。51第二节第二节 参数估计参数估计 解:根据抽样调查的解:根据抽样调查的35个数据计算得样本平个数据计算得样本平均通过时间为均通过时间为167.77秒,样本数据中通过时间在秒,样本数据中通过时间在3分钟以上者占分钟以上者占34.29

41、(演示)。据此可以估计同(演示)。据此可以估计同期该机场所有旅客通过安检通道的平均时间为期该机场所有旅客通过安检通道的平均时间为 167.77秒,而通过时间在秒,而通过时间在3分钟及以上者占分钟及以上者占 34.29。 这里的这里的167.77秒和秒和34.29就作为整个机场旅就作为整个机场旅客的平均安检通过时间和通过时间在客的平均安检通过时间和通过时间在3分钟及以分钟及以上者比例的估计值,这些都是采用点估计方法。上者比例的估计值,这些都是采用点估计方法。52第二节第二节 参数估计参数估计 *点估计优良性评价的标准点估计优良性评价的标准 在上述点估计问题中,为了估计机场旅客的在上述点估计问题中

42、,为了估计机场旅客的平均安检通过时间,我们是用样本安检通过时间平均安检通过时间,我们是用样本安检通过时间均值作点估计的,这里能否利用样本的中位数作均值作点估计的,这里能否利用样本的中位数作点估计呢(样本中某人时间太长效果就不好)?点估计呢(样本中某人时间太长效果就不好)?实际上,我们在对具体问题的估计中总是希望使实际上,我们在对具体问题的估计中总是希望使用估计效果最好的估计量,而数理统计证明,一用估计效果最好的估计量,而数理统计证明,一个好的估计量一定满足以下几个评价标准:个好的估计量一定满足以下几个评价标准:53第二节第二节 参数估计参数估计 (1)无偏性无偏性(Undiasedness)

43、无偏性是指估计量抽样分布的数学期望等于无偏性是指估计量抽样分布的数学期望等于被估计的总体参数。这表明,从一次抽样结果来被估计的总体参数。这表明,从一次抽样结果来看,样本估计量的值与总体参数可能存在误差,看,样本估计量的值与总体参数可能存在误差,但结合抽样分布的情况,所有估计量的平均数等但结合抽样分布的情况,所有估计量的平均数等于总体参数实际值,即平均来讲估计是无偏的。于总体参数实际值,即平均来讲估计是无偏的。 可以说样本均值和样本比例可以说样本均值和样本比例p分别是总体均值分别是总体均值 和总体比例和总体比例P的无偏估计量(样本标准差除的无偏估计量(样本标准差除n-1就是为了满足无偏性)。就是

44、为了满足无偏性)。54第二节第二节 参数估计参数估计 (2)有效性有效性(Efficiency) 有效性是指估计量的离散程度比较小。对估有效性是指估计量的离散程度比较小。对估计量有效性的评价往往是在无偏性基础之上进行计量有效性的评价往往是在无偏性基础之上进行的,若两个估计量都是总体参数的无偏估计量,的,若两个估计量都是总体参数的无偏估计量,则标准差较小的估计量更有效。则标准差较小的估计量更有效。 很明显,样本均值与样本中某个值都是总体很明显,样本均值与样本中某个值都是总体均值的无偏估计,即均值的无偏估计,即)(xE)(kxE55第二节第二节 参数估计参数估计 但是样本均值但是样本均值抽样分布的

45、标准差为抽样分布的标准差为: :nx 样本均值样本均值X X抽样分布的标准差小于样本中某抽样分布的标准差小于样本中某个值的标准差个值的标准差 ,可以判断样本均值比样本中某,可以判断样本均值比样本中某个值作为总体均值的估计值更有效个值作为总体均值的估计值更有效( (样本均值也样本均值也是最有效的估计量是最有效的估计量) )。 kx56第二节第二节 参数估计参数估计 (3)一致性一致性(Consistency) 一致性是指随着样本容量的增大,估计量的一致性是指随着样本容量的增大,估计量的值与总体参数真值越来越接近。可以证明,样本值与总体参数真值越来越接近。可以证明,样本均值和样本比例均值和样本比例

46、p分别是总体均值分别是总体均值 和总体比例和总体比例P的一致估计量。的一致估计量。 在实际问题的分析中,我们不一定能找到完在实际问题的分析中,我们不一定能找到完全符合以上标准的优良估计量(样本标准差满足全符合以上标准的优良估计量(样本标准差满足无偏性但不满足有效性),但总是希望所采用的无偏性但不满足有效性),但总是希望所采用的估计量尽可能接近这些标准。估计量尽可能接近这些标准。57第二节第二节 参数估计参数估计 理论证明,再重复抽样的前提下,样本均值理论证明,再重复抽样的前提下,样本均值作为总体均值的估计量、样本比例作为总体比例作为总体均值的估计量、样本比例作为总体比例的估计量,都具有上述优良

47、性质,所以,通常采的估计量,都具有上述优良性质,所以,通常采用样本均值或样本比例作为相应的总体均值或总用样本均值或样本比例作为相应的总体均值或总体比例的点估计量。体比例的点估计量。 58第二节第二节 参数估计参数估计 很明显,点估计的优点是简单、具体、明确。很明显,点估计的优点是简单、具体、明确。它能够提供总体参数的具体估计值,可以作为行它能够提供总体参数的具体估计值,可以作为行动决策的数量依据。但要使点估计的结果恰好等动决策的数量依据。但要使点估计的结果恰好等于总体参数的值几乎是不可能的,通常总有一定于总体参数的值几乎是不可能的,通常总有一定的抽样误差,而点估计本身无法说明抽样误差的的抽样误

48、差,而点估计本身无法说明抽样误差的大小。若估计总体参数可能落在某一个区间内就大小。若估计总体参数可能落在某一个区间内就有把握多了,因此在实际问题估计中,我们更多有把握多了,因此在实际问题估计中,我们更多地使用区间估计。地使用区间估计。59第二节第二节 参数估计参数估计 三、区间估计三、区间估计 1、区间估计的基本原理、区间估计的基本原理 区间估计区间估计(Interval Estimate)是在点估计的基是在点估计的基础上,根据给定的置信度估计总体参数取值范围础上,根据给定的置信度估计总体参数取值范围的方法。比如,根据样本结果估计出民航旅客的的方法。比如,根据样本结果估计出民航旅客的通过安检时

49、间总体的均值介于通过安检时间总体的均值介于150秒到秒到200秒之间,秒之间,而且估计的概率而且估计的概率(可能性可能性)是是95,这就是区间估,这就是区间估计。我们以总体均值的区间估计为例说明区间估计。我们以总体均值的区间估计为例说明区间估计的基本原理。计的基本原理。60第二节第二节 参数估计参数估计 由上一节所讲述的样本均值的抽样分布可知,由上一节所讲述的样本均值的抽样分布可知,在大样本情况下,样本均值近似服从正态分布,在大样本情况下,样本均值近似服从正态分布,且样本均值的数学期望等于总体均值,样本均值且样本均值的数学期望等于总体均值,样本均值的标准差为的标准差为:nx 由此可以利用正态分

50、布概率表确定样本均值由此可以利用正态分布概率表确定样本均值落在总体均值落在总体均值 的两侧各为一个标准差范围内的的两侧各为一个标准差范围内的概率为概率为0.687;落在两个标准差范围内的概率为;落在两个标准差范围内的概率为 0.9545,等等。,等等。61第二节第二节 参数估计参数估计 依此类推,我们可以求出样本均值落在总体依此类推,我们可以求出样本均值落在总体均值均值 的两侧任何几个标准差值的范围内的概率。的两侧任何几个标准差值的范围内的概率。但实际估计时,要求的情况恰好相反。但实际估计时,要求的情况恰好相反。样本均值样本均值是已知的,而是已知的,而 是未知的,怎样根据是未知的,怎样根据样本

51、均值样本均值估估计计 呢呢?62第二节第二节 参数估计参数估计 总体均值总体均值 的的区间估计的数学表达式可概括区间估计的数学表达式可概括为(为(100个抽样,个抽样,100个区间,个区间,95个包含总体均个包含总体均值):值):1)(2/2/xxzxzxp 式中:区间上下端点称为置信上限和下限;式中:区间上下端点称为置信上限和下限; 1- - 表示该区间包括总体均值的概率;表示该区间包括总体均值的概率;1- - 称称为置信水平;为置信水平;z /2称为概率度,是标准正态分布称为概率度,是标准正态分布的临界值,依据给定的置信水平的临界值,依据给定的置信水平1- - 查表确定。查表确定。63第二

52、节第二节 参数估计参数估计 2、区间估计的准确程度和可靠程度、区间估计的准确程度和可靠程度 如前所述,点估计方法既不能说明抽样误差如前所述,点估计方法既不能说明抽样误差的大小,也不能说明估计的结果有多大把握程度,的大小,也不能说明估计的结果有多大把握程度,但区间估计方法可以弥补这一不足。但区间估计方法可以弥补这一不足。64第二节第二节 参数估计参数估计 z /2 x是估计总体均值时的误差范围,表示是估计总体均值时的误差范围,表示用用样本均值样本均值估计估计 时最大允许误差,可见这一乘时最大允许误差,可见这一乘积的值越大,说明样本均值与总体均值的误差越积的值越大,说明样本均值与总体均值的误差越大

53、,则区间估计的准确性就越差;反之,这一乘大,则区间估计的准确性就越差;反之,这一乘积的值越小,说明样本均值与总体均值的误差越积的值越小,说明样本均值与总体均值的误差越小,则区间估计的准确性就越好。小,则区间估计的准确性就越好。65第二节第二节 参数估计参数估计 置信水平置信水平1- - 则反映着区间估计的可靠程度,则反映着区间估计的可靠程度,显然置信水平越大,据此查正态概率表得到的概显然置信水平越大,据此查正态概率表得到的概率度率度z值也越大,然而估计的误差范围值也越大,然而估计的误差范围z /2 x也随也随之越大,则估计的准确性就越差。之越大,则估计的准确性就越差。 上述分析说明,在其他条件

54、不变的情况下,上述分析说明,在其他条件不变的情况下,要提高区间估计的可靠程度,就会增大允许误差,要提高区间估计的可靠程度,就会增大允许误差,从而降低估计的准确程度;而缩小允许误差,提从而降低估计的准确程度;而缩小允许误差,提高估计的准确程度,则会降低区间估计的可靠程高估计的准确程度,则会降低区间估计的可靠程度。度。66第二节第二节 参数估计参数估计 3、区间估计的步骤、区间估计的步骤 现将总体均值的区间估计步骤归纳如下:现将总体均值的区间估计步骤归纳如下: (1)确定置信水平确定置信水平1- - ,即估计的可靠性或把,即估计的可靠性或把握程度。对于可靠性要求较高的统计问题,置信握程度。对于可靠

55、性要求较高的统计问题,置信度要求也较高,实际统计推断中通常采用度要求也较高,实际统计推断中通常采用95。 (2)根据置信水平根据置信水平1- - ,查标准正态分布表确,查标准正态分布表确定定z /2值。值。 (3)实际抽样,计算样本均值和标准差实际抽样,计算样本均值和标准差 x。 (4)确定置信区间。确定置信区间。67第二节第二节 参数估计参数估计 前面给出了总体均值区间估计的一般步骤,前面给出了总体均值区间估计的一般步骤,在实际估计时,通常依据研究问题的不同或资料在实际估计时,通常依据研究问题的不同或资料条件的不同而采用不同的处理方法,主要有大样条件的不同而采用不同的处理方法,主要有大样本情

56、况下对单一总体均值的区间估计、小样本情本情况下对单一总体均值的区间估计、小样本情况下对单一总体均值的区间估计以及大样本情况况下对单一总体均值的区间估计以及大样本情况下对两个总体均值之差的区间估计等几种情况。下对两个总体均值之差的区间估计等几种情况。 68第二节第二节 参数估计参数估计 四、单一总体均值的区间估计四、单一总体均值的区间估计 1、大样本大样本 依据中心极限定理,我们不难判断:只要进依据中心极限定理,我们不难判断:只要进行大样本行大样本(n30)抽样,无论总体是否服从正态分抽样,无论总体是否服从正态分布,样本均值的抽样分布均近似为正态分布。当布,样本均值的抽样分布均近似为正态分布。当

57、总体标准差总体标准差 已知时,在已知时,在重复抽样重复抽样情况下,总体情况下,总体均值均值 在在1- - 置信水平下的置信区间为:置信水平下的置信区间为:nzx2/69第二节第二节 参数估计参数估计 如果采取的是有限总体如果采取的是有限总体不重复抽样不重复抽样,而且抽,而且抽取样本数比较大取样本数比较大(n/N5%)时,则样本均值抽样分时,则样本均值抽样分布的标准差应乘以修正系数布的标准差应乘以修正系数:1NnN 这时总体均值这时总体均值 在在1- - 置信水平下的置信区间置信水平下的置信区间可以写为:可以写为:12/NnNnzx70第二节第二节 参数估计参数估计 当总体标准差未知时,在大样本

58、条件下,则当总体标准差未知时,在大样本条件下,则可以用样本标准差可以用样本标准差s代替总体标差代替总体标差 ,这时无论总,这时无论总体是否服从正态分布,总体均值体是否服从正态分布,总体均值 在在1- - 置信水平置信水平下的置信区间可以写为:下的置信区间可以写为:样)(有限总体且不重复抽重复抽样)1(2/2/NnNnszxnszx71第二节第二节 参数估计参数估计 现在我们按照以上介绍的方法来解决例现在我们按照以上介绍的方法来解决例5.7中中的相关问题。的相关问题。 例例8 假定调查人员从该机场得到的信息是:假定调查人员从该机场得到的信息是:虽然每个旅客通过安检的时间有所不同,但每人虽然每个旅

59、客通过安检的时间有所不同,但每人通过安检时间的总体标准差通过安检时间的总体标准差 =100秒。试根据随秒。试根据随机抽样的结果,在机抽样的结果,在95的置信水平下估计所有旅的置信水平下估计所有旅客的平均通过安检时间的置信区间。客的平均通过安检时间的置信区间。 解:由于解:由于n=35,此题属于大样本抽样;,此题属于大样本抽样;72第二节第二节 参数估计参数估计 已知已知 =100;当天的旅客总量;当天的旅客总量N未知,做出区未知,做出区间估计如下:间估计如下: 样本旅客等候时间的均值:样本旅客等候时间的均值:)(77.1673558721秒nxxnii 由已知由已知1- - =0.95,查标准

60、正态分布概率表得:,查标准正态分布概率表得:z0.025=1.96,于是在,于是在95的置信水平下置信区间为:的置信水平下置信区间为:13.3377.1673510096. 177.16773第二节第二节 参数估计参数估计 结果表明:误差范围是结果表明:误差范围是33.13,总体均值在,总体均值在 95的置信水平下的置信区间为的置信水平下的置信区间为(134.6,200.9)。即调查人员可以即调查人员可以95的把握认为该抽查的安检通的把握认为该抽查的安检通道旅客通过安检时间的总体均值介于道旅客通过安检时间的总体均值介于134.64秒到秒到 200.9秒之间。秒之间。74第二节第二节 参数估计参

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论