刘超_简明应用统计学_第2版 第5章_统计推断:对总体参数的估计_第1页
刘超_简明应用统计学_第2版 第5章_统计推断:对总体参数的估计_第2页
刘超_简明应用统计学_第2版 第5章_统计推断:对总体参数的估计_第3页
刘超_简明应用统计学_第2版 第5章_统计推断:对总体参数的估计_第4页
刘超_简明应用统计学_第2版 第5章_统计推断:对总体参数的估计_第5页
已阅读5页,还剩100页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、5 5 - - 1 1 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学院刘超,北京航空航天大学数学与系统科学学院简明应用统计学简明应用统计学(第(第2版版)5 5 - - 2 2 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学院刘超,北京航空航天大学数学与系统科学学院第第5章章 对总体对总体参数参数的的估计估计5.1 引言引言5.2 抽样分布与中心极限定理抽样分布与中心极限定理5.3 三种常用的抽样分布三种常用的抽样分布5.4 点估计点估计5.5 区间估计区间估计5.6 合适合适样本量的确定样本量的确定5

2、5 - - 3 3 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学院刘超,北京航空航天大学数学与系统科学学院学习目标学习目标1. 理解为什么抽样是了解总体的可行方法。理解为什么抽样是了解总体的可行方法。2. 了解抽样的几种方法。了解抽样的几种方法。3. 定义和构造样本均值的抽样分布。定义和构造样本均值的抽样分布。4. 熟悉中心极限定理。熟悉中心极限定理。5. 知道什么是点估计和区间估计。知道什么是点估计和区间估计。6. 总体标准差已知或未知时总体标准差已知或未知时,构造关于总体均值的构造关于总体均值的 置信区间。置信区间。7. 构造关于总体比例的置信

3、区间。构造关于总体比例的置信区间。8. 确定样本量。确定样本量。9.掌握相关理论在统计软件中的应用。掌握相关理论在统计软件中的应用。10.掌握相应统计分析结果的解读。掌握相应统计分析结果的解读。5 5 - - 4 4 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学院刘超,北京航空航天大学数学与系统科学学院5.1 引言引言 从数据中提取与研究问题有关的信息,并从数据中提取与研究问题有关的信息,并利用它得到关于现实世界的结论的过程就利用它得到关于现实世界的结论的过程就叫做叫做统计推断统计推断(statistical inference)。 估计估计(es

4、timation)是统计推断的重要内容之是统计推断的重要内容之一。一。 统计推断的另一个主要内容是下一章要介统计推断的另一个主要内容是下一章要介绍的绍的假设检验假设检验(hypothesis testing)。5 5 - - 5 5 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学院刘超,北京航空航天大学数学与系统科学学院5.1 引言引言 估计是根据拥有的信息来对现实世界进行某种判断。估计是根据拥有的信息来对现实世界进行某种判断。 你可以根据一个人的衣着、言谈和举止判断其身份;你你可以根据一个人的衣着、言谈和举止判断其身份;你可以根据一个人的脸色,猜出

5、其心情和身体状况可以根据一个人的脸色,猜出其心情和身体状况 统计中的估计也不例外,它是完全根据数据做出的。统计中的估计也不例外,它是完全根据数据做出的。 如果我们想知道北京人认可某饮料的比例,人们只有在如果我们想知道北京人认可某饮料的比例,人们只有在北京人中进行抽样调查以得到样本,并用样本中认可该北京人中进行抽样调查以得到样本,并用样本中认可该饮料的比例来估计真实的比例。饮料的比例来估计真实的比例。 从不同的样本得到的结论也不会完全一样。虽然真实的从不同的样本得到的结论也不会完全一样。虽然真实的比例在这种抽样过程中永远也不知道;但可以知道估计比例在这种抽样过程中永远也不知道;但可以知道估计出来

6、的比例和真实的比例大致差多少。出来的比例和真实的比例大致差多少。5 5 - - 6 6 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学院刘超,北京航空航天大学数学与系统科学学院5.1 引言引言 人们往往先假定某数据来自一个特定的总体族人们往往先假定某数据来自一个特定的总体族(比如正态分布族)。(比如正态分布族)。 要确定是总体族的哪个成员则需要知道总体参要确定是总体族的哪个成员则需要知道总体参数值(比如总体均值和总体方差)。数值(比如总体均值和总体方差)。 人们于是可以用相应的样本统计量(比如样本人们于是可以用相应的样本统计量(比如样本均值和样本方差

7、)来估计相应的总体参数。均值和样本方差)来估计相应的总体参数。5 5 - - 7 7 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学院刘超,北京航空航天大学数学与系统科学学院5.1 引言引言 一些常见的涉及总体的参数包括总体均值一些常见的涉及总体的参数包括总体均值(m m)、总体标准差总体标准差(s s)或方差或方差(s s2 2)和和(Bernoulli试验中试验中)成成功概率功概率p等(总体中含有某种特征的个体之比等(总体中含有某种特征的个体之比例)。例)。 正态分布族中的成员被(总体)均值和标准差正态分布族中的成员被(总体)均值和标准差完全确定

8、;完全确定; Bernoulli分布族的成员被概率(或比例)分布族的成员被概率(或比例)p完全完全决定。决定。 因此如果能够对这些参数进行估计,总体分布因此如果能够对这些参数进行估计,总体分布也就估计出来了。也就估计出来了。5 5 - - 8 8 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学院刘超,北京航空航天大学数学与系统科学学院5.1 引言引言 估计的根据为总体抽取的样本。估计的根据为总体抽取的样本。 样本的(不包含未知总体参数的)函数称为统样本的(不包含未知总体参数的)函数称为统计量;而用于估计的统计量称为计量;而用于估计的统计量称为估计量估

9、计量(estimator)。 由于一个统计量对于不同的样本取值不同,所由于一个统计量对于不同的样本取值不同,所以,估计量也是随机变量,并有其分布。以,估计量也是随机变量,并有其分布。 如果样本已经得到,把数据带入之后,估计量如果样本已经得到,把数据带入之后,估计量就有了一个数值,称为该估计量的一个就有了一个数值,称为该估计量的一个实现实现(realization)或取值,也称为一个或取值,也称为一个估计值估计值(estimate)。5 5 - - 9 9 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学院刘超,北京航空航天大学数学与系统科学学院5.1

10、引言引言 通常情况下对整个总体进行全面调查不可行通常情况下对整个总体进行全面调查不可行,原原因在于因在于: 对整个总体进行调查过于费时对整个总体进行调查过于费时 检验可能是破坏性的检验可能是破坏性的 对总体进行逐一调查费用过高对总体进行逐一调查费用过高 抽样得到的结果就可以满足我们的要求。抽样得到的结果就可以满足我们的要求。 抽样的主要目的就是通过样本来估计总体的信息抽样的主要目的就是通过样本来估计总体的信息,诸如均值、标准差、分布形状等诸如均值、标准差、分布形状等,因为在大多数因为在大多数情况下总体的这些特征量是未知的。情况下总体的这些特征量是未知的。5 5 - - 1010 简明应用统计学

11、(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院5.2 抽样分布与中心极限定理抽样分布与中心极限定理1、抽样分布、抽样分布2、中心极限定理、中心极限定理5 5 - - 1111 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院抽样分布抽样分布 (sampling distribution)1.相同样本量的样本统计量会随着样本不同而不同,即样本统计量作为随机样本的函数也是随机的,也有自己的分布2.样本统计量的概率分布,是一种理论分布在重复选取容

12、量为n的样本时,由该统计量的所有可能取值形成的相对频数分布 3.随机变量是 样本统计量样本统计量样本均值, 样本比例,样本方差等4.结果来自容量相同容量相同的所有所有可能样本5.提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据 5 5 - - 1212 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院样本均值的抽样分布样本均值的抽样分布1. 在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布2. 一种理论概率分布3. 推断总体均值m的理论基础5 5 - -

13、 1313 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院样本均值的抽样分布样本均值的抽样分布(例题分析)(例题分析)【例5.1】表5.1是从某企业80名员工月收入数据中随机选取的6名员工的月收入(此处为了简便,假定其为总体,单位:元)。X1X2X3X4X5X61427 1716 1844 2037 2366 2949很容易得到均值=2056.5元。为获得样本均值的抽样分布,假设样本量取为2,表5.2列出了所有15种可能的样本和相应的总和及样本均值。5 5 - - 1414 简明应用统计学(第简明应用统计学(

14、第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院样本组合总和1X1,X231431571.52X1,X332711635.53X1,X4346417324X1,X537931896.55X1,X6437621886X2,X3356017807X2,X437531876.58X2,X5408220419X2,X646652332.510X3,X438811940.511X3,X54210210512X3,X647932396.513X4,X544032201.5样本均值的抽样分布样本均值的抽样分布(例题分析)(例题分析)5 5 - - 1515

15、简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院可得到如下的结论:可得到如下的结论:(1)样本均值分布的均值等于总体均值: 。(2)样本均值分布的延伸范围小于总体分布。样本均值的起止点分别为1571.5元和2657.5元,而总体值则从1427元至2949元不等。事实上,样本均值分布的标准差等于总体标准差除以样本量的算术平方根,即为 。注意到如果我们增加样本量,那么样本均值分布的范围将缩小。(3)样本均值的抽样分布形态与总体频数分布形态不同。样本均值分布更接近钟形,近似于正态概率分布。xmm/ns样本均值的抽样分

16、布样本均值的抽样分布(例题分析)(例题分析)5 5 - - 1616 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院样本比例的抽样分布样本比例的抽样分布1. 在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布2. 一种理论概率分布3. 当样本容量很大时,样本比例的抽样分布可用正态分布近似 4. 推断总体比例的理论基础5 5 - - 1717 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院样本比例的抽样分布

17、样本比例的抽样分布(数学期望与方差)1. 样本比例的数学期望2. 样本比例的方差重复抽样不重复抽样( )E p2(1)pns2(1)1pNnnNs5 5 - - 1818 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院样本均值的抽样分布样本均值的抽样分布与中心极限定理与中心极限定理X总体分布总体分布抽样分布抽样分布x当总体服从正态分布N(,2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x 的数学期望为,方差为2/n。即xN(,2/n)50 xm50m10s45xns162.5xns5 5 -

18、- 1919 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院中心极限定理中心极限定理(central limit theorem)当样本容量足够大时(n 30) ,样本均值的抽样分布逐渐趋于正态分布从均值为m,方差为s 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布一个任意分布的总体xnssxmm5 5 - - 2020 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学

19、院院中心极限定理中心极限定理 (central limit theorem) x 的分布趋的分布趋于正态分布于正态分布的过程的过程5 5 - - 2121 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院中心极限定理中心极限定理 (central limit theorem)U01, n=1Density0.00.20.40.60.81.00.00.20.40.60.81.0U01, n=3Density0.00.20.40.60.81.00.00.51.01.52.0U01, n=100Density0.40

20、0.450.500.55024681012对U(0,1)分布按照三种样本量大小n=1,3,100分别取1000个样本计算出均值,得到的直方图5 5 - - 2222 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院5.3 三种常用的抽样三种常用的抽样分布分布 5.3.1 2分布分布5.3.2 t 分布分布5.3.3 F 分布分布5 5 - - 2323 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院 2 分布分布5 5 - -

21、 2424 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院 2分布分布(2 distribution)1.由阿贝(Abbe) 于1863年首先给出,后来由海尔墨特(Hermert)和卡皮尔逊(KPearson) 分别于1875年和1900年推导出来2.设 ,则3.令 ,则 Y 服从自由度为1的2分布,即 4.当总体 ,从中抽取容量为n的样本,则2212()(1)niixxns2(1)Y2Yz2( ,)XNm s(0,1)XzNms2( ,)XNm s5 5 - - 2525 简明应用统计学(第简明应用统计学(

22、第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院 2分布分布(性质和特点)1.分布的变量值始终为正 2.分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称 3.期望为:E(2)=n,方差为:D(2)=2n(n为自由度) 4.可加性:若U和V为两个独立的2分布随机变量,U2(n1),V2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布 5 5 - - 2626 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院 2分

23、布分布(图示)自由度为自由度为2,4和和9的的2分布密度曲线图分布密度曲线图5 5 - - 2727 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院t 分布分布5 5 - - 2828 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院t 分布分布1. 高塞特(W.S.Gosset)于1908年在一篇以“Student”(学生)为笔名的论文中首次提出2. t 分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散3. 一

24、个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布 5 5 - - 2929 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院t 分布分布 (图示)-4-20240.00.10.20.30.4N(0,1)t(1)t(10)自由度分别为自由度分别为1,10的的t分布和标准正态分布的密度曲线图分布和标准正态分布的密度曲线图(虚线为虚线为t分布分布)5 5 - - 3030 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学

25、与系统科学学院院F 分布分布5 5 - - 3131 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院F分布分布(F distribution)1.由统计学家费希尔(R.A.Fisher) 提出的,以其姓氏的第一个字母来命名2.设若U为服从自由度为n1的2分布,即U2(n1),V为服从自由度为n2的2分布,即V2(n2),且U和V相互独立,则称F为服从自由度n1和n2的F分布,记为1212( ,)U nFV nFF n n5 5 - - 3232 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航

26、空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院F分布分布(图示)0123450.00.20.40.60.81.0F(2,30)F(10,30)F(20,30)自由度分别为(自由度分别为(2,30),(),(10,30),(),(20,30)的)的F分布的密度曲线图分布的密度曲线图5 5 - - 3333 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院5.4 点点估计估计7.1.1 估计量与估计值估计量与估计值7.1.2 点估计点估计7.1.3 评价估计量的标准评价估计量的标准5 5 -

27、- 3434 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院估计量与估计值估计量与估计值5 5 - - 3535 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院统计量统计量(statistic)1. 设X1,X2,Xn是从总体X中抽取的容量为n的一个样本,如果由此样本构造一个函数T(X1,X2,Xn),不依赖于任何未知参数,则称函数T(X1,X2,Xn)是一个统计量样本均值、样本比例、样本方差等都是统计量2. 统计量是样本的

28、一个函数3. 统计量是统计推断的基础5 5 - - 3636 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院估计量与估计值估计量与估计值 (estimator & estimated value)1. 估计量:用于估计总体参数的随机变量如样本均值,样本比例, 样本方差等例如: 样本均值就是总体均值m的一个估计量2. 参数用 表示,估计量用 表示3. 估计值:估计参数时计算出来的统计量的具体值如果样本均值 x =80,则80就是m的估计值5 5 - - 3737 简明应用统计学(第简明应用统计学(第2

29、2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院点估计点估计 5 5 - - 3838 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院点估计点估计 (point estimate)1.用样本的估计量的某个取值直接作为总体参数的估计值例如:用样本均值直接作为总体均值的估计;用两个样本均值之差直接作为总体均值之差的估计2.无法给出估计值接近总体参数程度的信息虽然在重复抽样条件下,点估计的均值可望等于总体真值,但由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于

30、总体真值一个点估计量的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量 5 5 - - 3939 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院评价估计量的标准评价估计量的标准5 5 - - 4040 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院无偏性无偏性(unbiasedness)无偏性:无偏性:估计量抽样分布的数学期望等于被 估计的总体参数P( )5 5 - - 4141 简明应

31、用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院有效性有效性(efficiency)有效性:有效性:对同一总体参数的两个无偏点估计 量,有更小标准差的估计量更有效 的抽样分布的抽样分布的抽样分布的抽样分布P( )5 5 - - 4242 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院一致性一致性(consistency)一致性:一致性:随着样本量的增大,估计量的 值越来越接近被估计的总体参数P( )5 5 - - 4343 简明应用

32、统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院区间估计区间估计5 5 - - 4444 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院区间估计区间估计 (interval estimate)1.在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差而得到2.根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量比如,某班级平均分数在7585之间,置信水平是95% 样本统计量样本统计量

33、(点估计点估计)置信区间置信区间置信下限置信下限置信上限置信上限5 5 - - 4545 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院区间估计的图示区间估计的图示5 5 - - 4646 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院置信水平置信水平(confidence level) 1. 将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平 2. 表示为 (1 - 为是总体参数未在区间内

34、的比例3. 常用的置信水平值有 99%, 95%, 90% 相应的相应的 为0.01,0.05,0.105 5 - - 4747 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院置信区间置信区间 (confidence interval)1.由样本统计量所构造的总体参数的估计区间称为置信区间2.统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间 3.用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值我们只能是希望这个区间是大量包含总体参

35、数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个总体参数以一定的概率落在这一区间的表述是错误的5 5 - - 4848 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院置信区间置信区间 (confidence interval) 不同样本量和不同置信度的置信区间的长短和覆盖情况不同样本量和不同置信度的置信区间的长短和覆盖情况5 5 - - 4949 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院 前面提到

36、,不要认为由前面提到,不要认为由某一样本某一样本数据得数据得到总体参数的到总体参数的某一个某一个95%置信区间,就置信区间,就以为以为该该区间以区间以0.95的概率覆盖总体参数。的概率覆盖总体参数。 置信度置信度95%仅仅描述用来构造该区间上仅仅描述用来构造该区间上下界的下界的统计量统计量(是随机的是随机的)覆盖总体参数覆盖总体参数的概率;的概率; 也就是说,无穷次重复抽样所得到的所也就是说,无穷次重复抽样所得到的所有区间中有有区间中有95%包含参数。包含参数。关于置信区间的注意点关于置信区间的注意点5 5 - - 5050 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航

37、天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院 但是把一个样本数据带入统计量的公式但是把一个样本数据带入统计量的公式所得到的一个区间,只是这些区间中的所得到的一个区间,只是这些区间中的一个。一个。 这个非随机的区间是否包含那个非随机这个非随机的区间是否包含那个非随机的总体参数,谁也不可能知道。非随机的总体参数,谁也不可能知道。非随机的数目之间没有概率可言。的数目之间没有概率可言。关于置信区间的注意点关于置信区间的注意点5 5 - - 5151 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院

38、置信区间的论述是由区间和置信度两部分组置信区间的论述是由区间和置信度两部分组成。成。 有些新闻媒体报道一些调查结果只给出百分有些新闻媒体报道一些调查结果只给出百分比和误差(即置信区间),并不说明置信度,比和误差(即置信区间),并不说明置信度,也不给出被调查的人数,这是不负责的表现。也不给出被调查的人数,这是不负责的表现。 因为降低置信度可以使置信区间变窄(显得因为降低置信度可以使置信区间变窄(显得“精确精确”),有误导读者之嫌。在公布调查),有误导读者之嫌。在公布调查结果时给出被调查人数是负责任的表现。这结果时给出被调查人数是负责任的表现。这样则可以由此推算出置信度(由后面给出的样则可以由此推

39、算出置信度(由后面给出的公式),反之亦然。公式),反之亦然。关于置信区间的注意点关于置信区间的注意点5 5 - - 5252 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院 一个描述性例子:有一个描述性例子:有10000个人回答的调查显示,个人回答的调查显示,同意某观点人的比例为同意某观点人的比例为70%(有(有7000人同意),人同意),可算出总体中同意该观点的比例的可算出总体中同意该观点的比例的95%置信区置信区间为(间为(0.691,0.709);); 另一个调查声称有另一个调查声称有70%的比例反对该

40、种观点,的比例反对该种观点,还说总体中反对该观点的置信区间也是(还说总体中反对该观点的置信区间也是(0.691,0.709)。)。 到底相信谁呢?实际上,第二个调查隐瞒了置到底相信谁呢?实际上,第二个调查隐瞒了置信度。如果第二个调查仅仅调查了信度。如果第二个调查仅仅调查了50个人,有个人,有35个人反对该观点。则其置信区间的置信度仅个人反对该观点。则其置信区间的置信度仅有有11%。关于置信区间的注意点关于置信区间的注意点5 5 - - 5353 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院单单个总体参数的区

41、间估计个总体参数的区间估计5 5 - - 5454 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院两个总体参数的区间估计两个总体参数的区间估计5 5 - - 5555 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院总体均值(差)的区间估计总体均值(差)的区间估计1. 单个总体均值的区间估计单个总体均值的区间估计2. 独立总体均值差的区间估计独立总体均值差的区间估计3. 配对总体均值差的区间估计配对总体均值差的区间估计5 5

42、- - 5656 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院单个单个总体均值的区间估计总体均值的区间估计 (正态总体、s已知,或非正态总体、大样本)5 5 - - 5757 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院总体均值的区间估计总体均值的区间估计(大样本大样本)1.假定条件总体服从正态分布,且方差(s) 已知如果不是正态分布,可由正态分布来近似 (n 30)2.使用正态分布统计量 z3. 总体均值 m 在1-

43、置信水平下的置信区间为5 5 - - 5858 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院总体均值的区间估计总体均值的区间估计(例题分析例题分析)【例例5.7】某地区成年人睡眠时间服从正态分布。一项随机抽样调查得到16个成年人的睡眠时间数据(单位:小时)如表5.3所示。假设已知总体标准差为0.3小时,试估计成年人平均睡眠时间的95%置信区间。6.56.86.877.17.27.27.47.47.57.57.57.67.888.55 5 - - 5959 简明应用统计学(第简明应用统计学(第2 2版)版)

44、刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院总体均值的区间估计总体均值的区间估计(例题分析例题分析)解:解:已知N(m,0.32),n=16, 1- = 95%,z/2=1.96。根据样本数据计算得: 。由于是正态总体,且方差已知。总体均值m在1-置信水平下的置信区间为所以,成年人平均睡眠时间的置信区间为7.2155小时7.5095小时。7.3625x 20.37.3625 1.96167.36250.1477.2155,7.5095xzns5 5 - - 6060 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘

45、超,北京航空航天大学数学与系统科学学院院总体均值的区间估计总体均值的区间估计(例题分析例题分析)【例例5.8】想了解某企业员工的平均收入,我们已经随机抽取了企业80名员工月收入的信息。数据见表5.4。此处标准差未知。计算月收入的95%置信区间。2120 2037 1745 2059 2365 2445 1427 1502 2568 27871659 2117 3285 1625 1705 2129 2132 2161 2567 12551294 1687 2225 2228 2503 2153 2444 1689 1700 14361716 1669 2066 2361 1790 1720 2

46、077 2278 2366 29281764 1898 2105 2280 1279 1526 3293 1440 1497 17361844 1872 1633 1982 1677 1763 1796 1985 2329 24902608 2949 1589 1874 1937 2157 2245 2534 1764 20612122 2766 1944 1489 1782 2324 1745 1856 1864 21305 5 - - 6161 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院总体均值的区间

47、估计总体均值的区间估计(例题分析例题分析)解:解:已知n=80, 1- = 95%,z/2=1.96。根据样本数据计算得: 总体均值m在1- 置信水平下的置信区间为企业员工平均月收入的置信区间为1928.88元2119.84元2024.36435.705xs,2435.7052024.36 1.96802024.3695.481928.88,2119.84sxzn5 5 - - 6262 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院总体均值的区间估计总体均值的区间估计 (正态总体、s未知、小样本)5 5 -

48、 - 6363 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院总体均值的区间估计总体均值的区间估计 (小样本小样本)1. 假定条件总体服从正态分布,但方差(s) 未知小样本 (n 30)2. 使用 t 分布统计量3. 总体均值 m 在1-置信水平下的置信区间为5 5 - - 6464 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院总体均值的区间估计总体均值的区间估计(例题分析例题分析)【例例5.9】继续看例5.7,现在假设不

49、知道总体方差,试给出该地区成年人平均睡眠时间的95%置信区间。解:解: n=16, 1- = 95%,自由度16-1=15,t/2=2.1315。根据样本数据计算得: 。总体均值m在1-置信水平下的置信区间为所以,成年人平均睡眠时间的置信区间为7.1001小时7.6249小时。7.36250.4924xs,20.47247.36252.1315167.36250.26247.1001,7.6249sxtn5 5 - - 6565 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院确定何时使用正态分布或确定何时使用

50、正态分布或t分布分布5 5 - - 6666 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院两个总体均值之差的区间估计两个总体均值之差的区间估计(独立大样本)5 5 - - 6767 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院两个总体均值之差的估计两个总体均值之差的估计(大样本大样本)1.假定条件两个总体都服从正态分布,s1、 s2已知若不是正态分布, 可以用正态分布来近似(n130和n230)两个样本是独立的随机样本2

51、.使用正态分布统计量 z5 5 - - 6868 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院两个总体均值之差的估计两个总体均值之差的估计 (大样本大样本)1.s1, s2已知时,两个总体均值之差m1-m2在1- 置信水平下的置信区间为2.s1、 s2未知时,两个总体均值之差m1-m2在1- 置信水平下的置信区间为5 5 - - 6969 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院两个总体均值之差的估计两个总体均值之差

52、的估计(例题分析例题分析)【例例】某地区教育管理部门想估计两所中学的学生高考时的英语平均分数之差,为此在两所中学独立抽取两个随机样本,有关数据如右表 。建立两所中学高考英语平均分数之差95%的置信区间。 中学中学1中学中学2n1=46n1=33S1=5.8 S2=7.2861x782x5 5 - - 7070 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院两个总体均值之差的估计两个总体均值之差的估计(例题分析例题分析)解解: 两个总体均值之差在1-置信水平下的置信区间为 两所中学高考英语平均分数之差的置信区间

53、为5.03分10.97分22121221222()5.87.2(8678)1.96463382.97(5.03,10.97)ssxxznn5 5 - - 7171 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院两个总体均值之差的区间估计两个总体均值之差的区间估计(独立小样本)5 5 - - 7272 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院两个总体均值之差的估计两个总体均值之差的估计(小样本小样本: s s1 12 2

54、 s s 2 22 2 )1.假定条件两个总体都服从正态分布两个总体方差未知但相等:s1=s2两个独立的小样本(n130和n230)2.总体方差的合并估计量3.估计量x1-x2的抽样标准差5 5 - - 7373 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院两个总体均值之差的估计两个总体均值之差的估计(小样本小样本: s s1 12 2 s s2 22 2 )1.两个样本均值之差的标准化2. 两个总体均值之差m1-m2在1- 置信水平下的置信区间为5 5 - - 7474 简明应用统计学(第简明应用统计学(

55、第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院两个总体均值之差的估计两个总体均值之差的估计(例题分析例题分析)【例例5.10】两个企业生产同样的产品,某日从两个企业分别随机抽取20名工人进行观察,不久企业2进行了创新改革,随后对其又进行了一次调查,数据如表5.5所示。试以95%的置信水平建立两个企业平均日产量差值的置信区间。假设方差相等。序号企业1企业2企业2(改革后)序号企业1企业2企业2(改革后)134151411251515214313412969335262313332735411591424152053019241514293661

56、93329161112177212428172128258139151831222193612201918101410171924201923315 5 - - 7575 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院两个总体均值之差的估计两个总体均值之差的估计(例题分析例题分析)从两个企业的箱线图可以看出企业从两个企业的箱线图可以看出企业1和企业和企业2的产量有差异。的产量有差异。5 5 - - 7676 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航

57、空航天大学数学与系统科学学院院两个总体均值之差的估计两个总体均值之差的估计(例题分析例题分析)解解: 根据样本数据计算得 合并估计量为两个企业平均日产量差值的95%置信区间为-2.787个8.287个2222112221.75,8.789 ,19.00,8.510 xsxs222(20 1) 8.789(20 1) 8.51074.8332020211(21.75 19)2.02474.8332.755.5372020ps5 5 - - 7777 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院两个总体均值之差

58、的估计两个总体均值之差的估计(小样本小样本: s s1 12 2 s s 2 22 2 )1.假定条件两个总体都服从正态分布两个总体方差未知且不相等:s1s2两个独立的小样本(n130和n230)2.使用统计量5 5 - - 7878 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院两个总体均值之差的估计两个总体均值之差的估计(小样本小样本: s s1 12 2 s s2 22 2 )两个总体均值之差m1-m2在1- 置信水平下的置信区间为5 5 - - 7979 简明应用统计学(第简明应用统计学(第2 2版)

59、版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院两个总体均值之差的估计两个总体均值之差的估计(例题分析例题分析)【例例5.10】沿用前例。数据如前。假定两个企业产量服从正态分布,且方差不相等且方差不相等。以95%的置信水平建立两种方法组装产品所需平均时间差值的置信区间。 解解: 根据样本数据计算得 自由度为2222112221.75,8.789 ,19.00,8.510 xsxs228.7898.510(21.75 19)2.0262.755.543202022222228.7898.510202037.961388.789 208.510 2020 12

60、0 1v两个企业平均日产量差值的95%置信区间为-2.793个8.293个5 5 - - 8080 简明应用统计学(第简明应用统计学(第2 2版)版) 刘超,北京航空航天大学数学与系统科学学刘超,北京航空航天大学数学与系统科学学院院两个总体均值之差的估计两个总体均值之差的估计(SPSS)第第1步:步:在SPSS中打开20 products(independent).sav,第第2步:步:在分析独立样本均值差的置信区间前需要定义变量G来 区分不同企业。输入原始数据,在变量G中,企业1输入1, 企业2输入2。第第3步:步:选择 AnalyzeCompare MeansIndependent Sample

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论