抽样分布与参数估计1ppt课件_第1页
抽样分布与参数估计1ppt课件_第2页
抽样分布与参数估计1ppt课件_第3页
抽样分布与参数估计1ppt课件_第4页
抽样分布与参数估计1ppt课件_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章第四章 抽样分布与参数估计抽样分布与参数估计n第一节第一节 频率、概率与概率分布频率、概率与概率分布n第二节第二节 抽样分布抽样分布n第三节第三节 总体参数估计总体参数估计n第四节第四节 抽样设计抽样设计第一节第一节 频率、概率与概率分布频率、概率与概率分布n一、随机事件与概率一、随机事件与概率n一随机实验与事件一随机实验与事件n随机景象的特点是:在条件不变的情况下,一系列随机景象的特点是:在条件不变的情况下,一系列的实验或观测会得到不同的结果,并且在实验或观的实验或观测会得到不同的结果,并且在实验或观测前不能预见何种结果将出现。对随机景象的实验测前不能预见何种结果将出现。对随机景象的实

2、验或观测称为随机实验,它必需满足以下的性质:或观测称为随机实验,它必需满足以下的性质:n1每次实验的能够结果不是独一的;每次实验的能够结果不是独一的;n2每次实验之前不能确定何种结果会出现;每次实验之前不能确定何种结果会出现;n3实验可在一样条件下反复进展。实验可在一样条件下反复进展。n在随机实验中,能够出现也能够不出现的结在随机实验中,能够出现也能够不出现的结果,称之为随机事件,简称事件。实验的结果,称之为随机事件,简称事件。实验的结果能够是一个简单事件,也能够是一个复杂果能够是一个简单事件,也能够是一个复杂事件。简单事件就是不可以再分解的事件,事件。简单事件就是不可以再分解的事件,又称为根

3、身手件。复杂事件是由简单事件组又称为根身手件。复杂事件是由简单事件组合而成的事件。根身手件还可称为样本点,合而成的事件。根身手件还可称为样本点,设实验有设实验有n个根身手件,分别记为个根身手件,分别记为 (i=1,2,,n)。集合。集合=1 ,2 , ,n称为称为样本空间,样本空间,中的元素就是样本点。中的元素就是样本点。in例:投掷一粒均匀的六面体骰子,出现的点例:投掷一粒均匀的六面体骰子,出现的点数有能够是数有能够是1、2、3、4、5、6共六种。这六共六种。这六种结果是根本结果,不可以再分解成更简单种结果是根本结果,不可以再分解成更简单的结果了,所以的结果了,所以=1,2,3,4,5,6为

4、该为该实验的样本空间。实验的样本空间。“出现点数是奇数这一出现点数是奇数这一事件就不是简单事件,它是由根身手件事件就不是简单事件,它是由根身手件1,3和和5组合而成的。我们通常用大写字母组合而成的。我们通常用大写字母A,B,C,来表示随机事件,例如,设来表示随机事件,例如,设A表示表示“出现点数是奇数,那么出现点数是奇数,那么A=1,3,5;设;设B表示表示“出现点数是偶数,那么出现点数是偶数,那么B=2,4,6。n二概率二概率n1. 概率的定义概率的定义n概率就是指随机事件发生的能够性,或称为机率,概率就是指随机事件发生的能够性,或称为机率,是对随机事件发生能够性的度量。是对随机事件发生能够

5、性的度量。 进展进展n次反复实次反复实验,随机事件验,随机事件A发生的次数是发生的次数是m次,发生的频率是次,发生的频率是m/n,当实验的次数,当实验的次数n很大时,假设频率在某一数值很大时,假设频率在某一数值p附近摆动,而且随着实验次数附近摆动,而且随着实验次数n的不断添加,频率的不断添加,频率的摆动幅度越来越小,那么称的摆动幅度越来越小,那么称p为事件为事件A发生的概率,发生的概率,记为:记为:P(A)=p。在古典概型场所。在古典概型场所, 即根身手件发生的即根身手件发生的概率都一样的场所概率都一样的场所: 样本点总数包含的样本点个数AnmAP样本点总数的有利场合数An例:设一个袋子中装有

6、白球例:设一个袋子中装有白球2个,黑球个,黑球3个。个。(1) 从中随机摸出从中随机摸出1只球,问刚好是白球的概率有只球,问刚好是白球的概率有多大?多大? (2) 从中随机摸出从中随机摸出2只球,一问只球,一问2只球只球都是白球的概率有多大都是白球的概率有多大? 二问二问2只球一白一黑只球一白一黑的概率有多大的概率有多大? 三问三问2只球都是黑球的概率有只球都是黑球的概率有多大多大? n 解:解:(1) 由于摸出的任何由于摸出的任何1只球都构成一个根只球都构成一个根身手件,所以样本点总数为身手件,所以样本点总数为n=5。用。用A表示摸表示摸出的是白球事件,那么出的是白球事件,那么A由两个根本点

7、组成,由两个根本点组成,即即A=白球,白球白球,白球,有利场所数,有利场所数m=2。因此,。因此,刚好摸出白球的概率为刚好摸出白球的概率为P(A)=m/n=2/5=0.4n (2) 由于摸出由于摸出2只球才成一个根身手件,所以只球才成一个根身手件,所以样本点总数为样本点总数为 故故nP(A)=P(2只球都是白球只球都是白球)=1/ =1/10nP(B)=P(2只球一白一黑只球一白一黑)=23/10=6/10nP(C)=P(2只球都是黑球只球都是黑球)=3/10nNOTE: P(A+B+C)=125C25Cn2. 概率的根本性质概率的根本性质n性质性质1 1P(A)0。n性质性质2 P()=1。

8、n性质性质3 假设事件假设事件A与事件与事件B互不相容,即互不相容,即AB=,那么,那么P(AB)=P(A)+P(B)。 n推论推论1 不能够事件的概率为不能够事件的概率为0,即:,即:P()=0。n推论推论2 P( )=1-P(A), 表示表示A的对立事件,的对立事件,即它们二者必有一事件发生但又不能同时发即它们二者必有一事件发生但又不能同时发生。生。AAn例:袋中装有例:袋中装有4只黑球和只黑球和1只白球,每次从袋中随机只白球,每次从袋中随机地摸出地摸出1只球,并换入只球,并换入1只黑球。延续进展,问第三只黑球。延续进展,问第三次摸到黑球的概率是多少?次摸到黑球的概率是多少? n 解解:

9、记记A为为“第三次摸到黑球,那么第三次摸到黑球,那么 为为“第三第三次摸到白球。先计算次摸到白球。先计算P( )。n由于袋中只需由于袋中只需1只白球,假设某一次摸到了白球,换只白球,假设某一次摸到了白球,换入了黑球,那么袋中只需黑球了。所以相当于第一、入了黑球,那么袋中只需黑球了。所以相当于第一、第二次都是摸到黑球,第三次摸到白球。留意这是第二次都是摸到黑球,第三次摸到白球。留意这是一种有放回的摸球,样本点总数为一种有放回的摸球,样本点总数为53,有利场所数,有利场所数是是421。故:。故: n P( )= ,n 所以所以 AA1251651432 1251095141132APAPAn3.

10、事件的独立性事件的独立性n定义定义 对事件对事件A与与B,假设,假设p(AB)=p(B)p(A),那么称,那么称它们是统计独立的,简称相互独立。它们是统计独立的,简称相互独立。n例:知袋中有例:知袋中有6只红球只红球, 4只白球。从袋中有放回地取只白球。从袋中有放回地取两次球两次球,每次都取每次都取1球。设球。设 表示第表示第i次取到红球。那次取到红球。那么,么,n因此,因此, ,也就是说,也就是说,B1,B2相互独立。从标题条件看,这一结论是显然的。相互独立。从标题条件看,这一结论是显然的。iB1263()()105P BP B1221136()3100()3()55P B BP B BP

11、B122111233()() ()() ()55P B BP B B P BP B P B二、随机变量二、随机变量n随机变量随机变量X是定义在样本空间是定义在样本空间 =1,2,n上上的一个函数,这个函数的取值随实验的结果不同而的一个函数,这个函数的取值随实验的结果不同而变化。这个函数还要求满足条件:对恣意的实数变化。这个函数还要求满足条件:对恣意的实数x,Xx是随机事件。假设随机变量一切能够的取值是是随机事件。假设随机变量一切能够的取值是有限的,或可排成一列的,这种随机变量称为离散有限的,或可排成一列的,这种随机变量称为离散型随机变量;另一种情况是随机变量的取值范围是型随机变量;另一种情况是

12、随机变量的取值范围是一个区间或整个数轴,这种随机变量称为延续型随一个区间或整个数轴,这种随机变量称为延续型随机变量。机变量。n1. 离散型随机变量的概率分布离散型随机变量的概率分布 n设离散型随机变量设离散型随机变量X的一切能够取值为的一切能够取值为x1, x2,, xn, ,相应的概率为,相应的概率为p(x1),p(x2),p(xn),。用。用表格一致表示出来是:表格一致表示出来是:X x1 x2 xn P p(x1) p(x2) p(xn) 这称为离散型随机变量这称为离散型随机变量X的概率分布。的概率分布。性质:性质:(1) 0p(xi)1 (i=1,2, );(2) 定义定义: 离散型随

13、机变量离散型随机变量X的期望值为的期望值为 性质:性质:其中其中X1,X2都是随机变量,都是随机变量,是恣意常数。是恣意常数。 iixp1 IiixpxXE 2121XEXEXXEn定义定义: 离散型随机变量离散型随机变量X的方差为的方差为n方差的平方根方差的平方根称为规范差。称为规范差。n方差方差2或规范差或规范差反映随机变量反映随机变量X相对其期望相对其期望值的值的n离散程度,离散程度,2或或越小越小, 阐明期望值的代表性阐明期望值的代表性越好;越好;2或或越大,阐明期望值的代表性越差。越大,阐明期望值的代表性越差。n性质:对于恣意的性质:对于恣意的,D(X)=2 D(X) 成立成立 ii

14、ixpxXEXD222)(n贝努里实验贝努里实验 与二项分布与二项分布n有时我们只对实验中某事件有时我们只对实验中某事件A能否出现感兴趣,假能否出现感兴趣,假设设A发生,我们称发生,我们称“胜利,否那么称胜利,否那么称“失败。失败。像这样只需两种结果的实验称为贝努里实验。设像这样只需两种结果的实验称为贝努里实验。设A出现的概率为出现的概率为p,我们独立地反复进展,我们独立地反复进展n次贝努里实次贝努里实验,称为验,称为n重贝努里实验重贝努里实验.以以Bk表示表示n重贝努里实验中重贝努里实验中事件事件A正好出现正好出现k次这一事件,那么次这一事件,那么 n (k=0,1,2,,n) n该分布称为

15、二项分布该分布称为二项分布( q= 1- p ).nNOTE: knkknkqpCBp1)()(000nknknnkkknnkkqpqpCBPn2. 延续型随机变量的概率分布延续型随机变量的概率分布 n设设X是是R.V., x 是一实数是一实数. 记记nF(x)=P(Xx)。该函数就是随机变量。该函数就是随机变量X的分布的分布函数。分布函数的导数称为密度函数,记作函数。分布函数的导数称为密度函数,记作p(x )。n 性质性质 n(1) p(x)0n(2) n(3) 1d xxpbaxxpbXapd)()(a bxP(axb)n定义定义: 延续型随机变量延续型随机变量X的期望值为的期望值为 n

16、n n 方差为方差为n n 性质性质:n D(X)=2 D(X) xxxpXEd)( xxpxXEXDd)(222 2121XEXEXXEn正态分布正态分布 n假设延续型随机变量假设延续型随机变量X的密度函数为的密度函数为n n那么称随机变量那么称随机变量X服从均值为服从均值为,方差为,方差为2的正态分的正态分布,记为布,记为XN(,2)。 n假设一个正态分布的假设一个正态分布的=0,=1,那么称该正态布为,那么称该正态布为规范正态分布,相应的随机变量称为规范正态随机规范正态分布,相应的随机变量称为规范正态随机变量,用变量,用Z表示,即表示,即ZN(0,1),相应的分布密度函,相应的分布密度函

17、数为数为 xxpx222e21 zzpz22e21n普通正态分布普通正态分布 与规范正态分布与规范正态分布 的关系的关系:n假设随机变量假设随机变量X服从正态分布服从正态分布N (,2),那,那么随机么随机n变量变量 Z = 服从规范正态分布,即服从规范正态分布,即ZN(0,1)。Xn例:某大学英语考试成果服从正态分布,知平均成果为例:某大学英语考试成果服从正态分布,知平均成果为70分,分,规范差为规范差为10分。求该大学英语成果在分。求该大学英语成果在6075分的概率。分的概率。)(. ).()( 60 707075 7010101010 50 53286075XpZpXp第二节第二节 抽样

18、分布抽样分布n一、抽样的根本概念一、抽样的根本概念n二、抽样分布二、抽样分布n一反复抽样分布一反复抽样分布n二不反复抽样分布二不反复抽样分布n三、大数定理与中心极限定理三、大数定理与中心极限定理一、抽样的根本概念一、抽样的根本概念n抽样涉及的根本概念有:抽样涉及的根本概念有:n总体与样本总体与样本(见第一章见第一章)n样本容量与样本个数样本容量与样本个数n总体参数与样本统计量总体参数与样本统计量n反复抽样与不反复抽样反复抽样与不反复抽样n这些概念是统计学特有的,表达了统计学的这些概念是统计学特有的,表达了统计学的根本思想与方法。根本思想与方法。总体和样本参见第总体和样本参见第1章章n1.总体:

19、又称全及总体、母体,指所要研讨对总体:又称全及总体、母体,指所要研讨对象的全体,由许多客观存在的具有某种共同象的全体,由许多客观存在的具有某种共同性质的单位构成。总体单位数用性质的单位构成。总体单位数用 N 表示。表示。n2.样本:又称子样,来自总体,是从总体中按样本:又称子样,来自总体,是从总体中按随机原那么抽选出来的部分,由抽选的单位随机原那么抽选出来的部分,由抽选的单位构成。样本单位数用构成。样本单位数用 n 表示。表示。n3.总体是独一的、确定的,而样本是不确定的、总体是独一的、确定的,而样本是不确定的、可变的、随机的。可变的、随机的。 样本容量与样本个数样本容量与样本个数n样本容量:

20、一个样本中所包含的单位数,用样本容量:一个样本中所包含的单位数,用n表示。表示。n样本个数:又称样本能够数目,指从一个总样本个数:又称样本能够数目,指从一个总体中所能够抽取的样本的个数。对于有限总体中所能够抽取的样本的个数。对于有限总体,样本个数可以计算出来。样本个数的多体,样本个数可以计算出来。样本个数的多少与抽样方法有关。少与抽样方法有关。(这个概念只是对有限总这个概念只是对有限总体有意义,对无限总体没有意义!体有意义,对无限总体没有意义!)总体参数和样本统计量总体参数和样本统计量n总体参数:反映总体数量特征的目的。其数值是独一的、确定的。总体参数:反映总体数量特征的目的。其数值是独一的、

21、确定的。n样本统计量:根据样本分布计算的目的。是随机变量。样本统计量:根据样本分布计算的目的。是随机变量。平均数平均数规范差、方差规范差、方差成数成数参数参数、2p统计量统计量S、 S2P总体总体样本样本X22()1x xsn22()1ffx xs反复反复(置置)抽样与不反复抽样与不反复(置置)抽样抽样n重置抽样与不重置抽样各有重置抽样与不重置抽样各有3个特点个特点P90n反复抽样:例如从反复抽样:例如从A、B、C、D、E五个字母五个字母中随机抽取两个作为样本。中随机抽取两个作为样本。N=5,n=2n思索顺序时:样本个数思索顺序时:样本个数=Nn=52=25n不思索顺序时:样本个数不思索顺序时

22、:样本个数=ABACDEBBCDAECBCDAEDBCDAEEBCDAE-(- )!(- )! !nNnNnCNn111反复反复(置置)抽样与不反复抽样与不反复(置置)抽样抽样ABCDEBCDAECBDAEDBCAEEBCDAn)!-(N!NPnNABCDEBCDECDEDEEn)!n!-(N!NCnNn不反复抽样:不反复抽样:n例如从例如从A、B、C、D、E五个字母中随机抽取两个作为样本。五个字母中随机抽取两个作为样本。N=5,n=2n思索顺序时:样本个数思索顺序时:样本个数n不思索顺序时:样本个数不思索顺序时:样本个数二、抽样分布二、抽样分布n抽样分布的概念:由样本统计量的全部能够抽样分布

23、的概念:由样本统计量的全部能够取值和与之相应的概率频率组成的分配取值和与之相应的概率频率组成的分配数列。主要求出样本平均数的期望与方差数列。主要求出样本平均数的期望与方差n包括以下内容包括以下内容n重置抽样分布重置抽样分布n样本平均数的分布样本平均数的分布n样本成数的分布样本成数的分布n不重置抽样分布不重置抽样分布n样本平均数的分布样本平均数的分布n样本成数的分布样本成数的分布重置抽样分布重置抽样分布-样本平均数的分布样本平均数的分布n某班组5个工人的日工资为34、38、42、46、50元。n = 42n2 = 32n现用重置抽样的方法从5人中随机抽2个构成样本。共有52=25个样本。如右图。

24、n验证了以下两个结论:n抽样平均数的规范差反映一切的样本平均数与总体平均数的平均误差,称为抽样平均误差,用 表示。重置抽样分布重置抽样分布-样本平均数的分布样本平均数的分布()()XfE XXf42 元()()()XXfXf22216 元X()E X()nX22Xn重置抽样分布重置抽样分布-样本平均数的分布样本平均数的分布n由概率论知,假设总体是正态分布的,那么由概率论知,假设总体是正态分布的,那么样本平均数的抽样分布是如下正态分布样本平均数的抽样分布是如下正态分布n这是一个非常重要的结论,有广泛的运用。这是一个非常重要的结论,有广泛的运用。请参见中心极限定理。请参见中心极限定理。2( ,)N

25、n重置抽样分布重置抽样分布-样本成数的分布样本成数的分布n总体成数总体成数p是指具有某种特征的单位在总体中的比重。成数是一个特殊平是指具有某种特征的单位在总体中的比重。成数是一个特殊平均数,设总体单位总数目是均数,设总体单位总数目是N,总体中有该特征的单位数是,总体中有该特征的单位数是N1。设。设x是是0、1变量总体单位有该特征,那么变量总体单位有该特征,那么x取取1,否那么取,否那么取0,那么有:,那么有:n现从总体中抽出现从总体中抽出n个单位,假设其中有相应特征的单位数是个单位,假设其中有相应特征的单位数是n1,那么样本,那么样本成数是:成数是: nP也是一个随机变量,利用样本平均数的分布

26、性质结论,即有:也是一个随机变量,利用样本平均数的分布性质结论,即有:1NpxN1nPn ( )11E PpppppPnnn不重置抽样分布不重置抽样分布n样本均值的分布性质:样本均值的分布性质:n样本成数的分布性质样本成数的分布性质2()()1XE XNnXnN ( )11E PpppNnPnN抽样分布总结抽样分布总结样本平均数的分布样本平均数的分布样本成数的分布样本成数的分布反复抽反复抽样样不反复不反复抽样抽样()E X()nX 1ppPn()E X( )E Pp2()1NnXnN( )E Pp 11ppNnPnN三、大数定理与中心极限定理三、大数定理与中心极限定理n大数定理大数定理11li

27、m1niinXnp1limpnmpn当样本容量当样本容量n 充分大时,可以用充分大时,可以用样本平均估计总体平均。样本平均估计总体平均。当实验次数当实验次数n充分大时,可以用充分大时,可以用频率替代概率。频率替代概率。大数定理的意义:个别景象受偶尔要素影响,但是,对大数定理的意义:个别景象受偶尔要素影响,但是,对总体的大量察看后进展平均,就能使偶尔要素的影响相总体的大量察看后进展平均,就能使偶尔要素的影响相互抵消,从而使总体平均数稳定下来,反映出事物变化互抵消,从而使总体平均数稳定下来,反映出事物变化的普通规律,这就是大数定理的意义。的普通规律,这就是大数定理的意义。中心极限定理中心极限定理

28、n正态分布的再生定理正态分布的再生定理 :相互独立的两个正态:相互独立的两个正态随机变量相加之和仍服从正态分布。随机变量相加之和仍服从正态分布。n中心极限定理:中心极限定理:n大样本的平均数近似服从正态分布。大样本的平均数近似服从正态分布。nNX2,例例1:求样本平均数的概率分布:求样本平均数的概率分布n设某公司设某公司1000名职工的人均年奖金为名职工的人均年奖金为2000元,规范差元,规范差500元,随机抽取元,随机抽取36人作为样本进展调查,问样本的人均年奖金在人作为样本进展调查,问样本的人均年奖金在19002200元之间的概率有元之间的概率有多大?多大?2000,500,36n(190

29、02200)( 1.22.4)PXPZ111900 20001.250036Xzn22200 20002.450036z8768. 02)4 . 2(2)2 . 1 (FF1.22.4(2.4)(1.2)(2.4)2FFF例例2n某地域职工家庭的人均年收入平均为某地域职工家庭的人均年收入平均为12000元,规范差为元,规范差为2000元。假设知该地域家庭的人均年收入服从正态分布,现元。假设知该地域家庭的人均年收入服从正态分布,现采用反复抽样从总体中随机抽取采用反复抽样从总体中随机抽取25户进展调查,问出现样本户进展调查,问出现样本平均数等于或超越平均数等于或超越12500元的能够性有多大?元的

30、能够性有多大?()nXn20001200020002540025,()()(.)p Xp Zp Z12500 12000125001 254001094. 02)25. 1 (5 . 0F例例3n某商场推销一种洗发水。据统计,本年度购买此种洗发水的某商场推销一种洗发水。据统计,本年度购买此种洗发水的有有10万人,其中万人,其中6万是女性。假设按不反复随机抽样方法,万是女性。假设按不反复随机抽样方法,从购买者中抽出从购买者中抽出100人进展调查,问样本中女性比例超越人进展调查,问样本中女性比例超越50%的能够性有多大?的能够性有多大?(50%) ?p P(1)0.6 0.4100( )(1)(1

31、)0.00489100100000ppnPnN( )50% 60%2.040.00489P pPz(50%)(2.04)p Pp Z9793. 05 . 02)04. 2(F660%, ( )(1)10pppp第三节第三节 总体参数估计总体参数估计n本节主要内容:本节主要内容:n总体参数估计概述总体参数估计概述n总体参数的点估计总体参数的点估计n参数区间估计参数区间估计n样本容量确实定样本容量确实定一、总体参数估计概述一、总体参数估计概述n设待估计的总体参数是设待估计的总体参数是,用以估计该参数的统计量是,用以估计该参数的统计量是 ,抽样估计的极限误差是抽样估计的极限误差是,即:,即:n极限误

32、差是根据研讨对象的变异程度和分析义务的性质来确极限误差是根据研讨对象的变异程度和分析义务的性质来确定的在一定概率下的允许误差范围。定的在一定概率下的允许误差范围。n参数估计的两个要求:参数估计的两个要求:n精度:估计误差的最大范围,经过极限误差来反映。显然,精度:估计误差的最大范围,经过极限误差来反映。显然,越小,估计的精度要求越高,越小,估计的精度要求越高,越大,估计的精度要求越低。越大,估计的精度要求越低。极限误差确实定要以实践需求为根本规范。极限误差确实定要以实践需求为根本规范。n可靠性:估计正确性的一个概率保证,通常称为估计的置信可靠性:估计正确性的一个概率保证,通常称为估计的置信度。

33、度。二、总体参数的点估计二、总体参数的点估计n点估计的含义:直接以样本统计量作为相应点估计的含义:直接以样本统计量作为相应总体参数的估计量。总体参数的估计量。1222nXXsPpX优良估计量规范优良估计量规范n优良估计规范:优良估计规范:n无偏性:要求样本统计量的平均数等于被估计的总体参数本身。无偏性:要求样本统计量的平均数等于被估计的总体参数本身。n一致性:当样本容量充分大时,样本统计量充分接近总体参数本身。一致性:当样本容量充分大时,样本统计量充分接近总体参数本身。n有效性:有效性:的样本统计量。是估计是总体参数,若即满足无偏性。,)(E1)(limPn()为任意小的正数更有效。则称的无偏

34、估计量,而都是和若12221,21X经经数数学学证证明明, 是是 的的无无偏偏、一一致致且且有有效效的的估估计计量量。总体方差的无偏估计量为样本方差22()1xxSn点估计完全正确的概率通常为点估计完全正确的概率通常为0。因此,我们更多的是思索用。因此,我们更多的是思索用样本统计量去估计总体参数的范围样本统计量去估计总体参数的范围 区间估计。区间估计。 三、参数区间估计三、参数区间估计n参数区间估计的含义:估计总体参数的区间范围,并给出区参数区间估计的含义:估计总体参数的区间范围,并给出区间估计成立的概率值。间估计成立的概率值。n其中:其中: 1-(01)称为置信度;称为置信度;是区间估计的显

35、著性程度,是区间估计的显著性程度,其取值大小由实践问题确定,经常取其取值大小由实践问题确定,经常取1%、5%和和10%。12()1p注间对上式的了解:注间对上式的了解:例如抽取了例如抽取了1000个样本,根据每一个样本均构造了一个置信区间,个样本,根据每一个样本均构造了一个置信区间,这样,由这样,由1000个样本构造的总体参数的个样本构造的总体参数的1000个置信区间中,有个置信区间中,有95%的区间包含了总体参数的真值,而的区间包含了总体参数的真值,而5%的置信区间那么没有包含。这里,的置信区间那么没有包含。这里,95%这个值被称为置信程度或置信度。这个值被称为置信程度或置信度。普通地,将构

36、造置区间的步骤反复很多次,置信区间包含总体参数真值普通地,将构造置区间的步骤反复很多次,置信区间包含总体参数真值的次数所占的比例称为置信程度。的次数所占的比例称为置信程度。我们用我们用95%的置信程度得到某班学生考试成果的置信区间为的置信程度得到某班学生考试成果的置信区间为60-80分,如何了解?分,如何了解?错误的了解:错误的了解:60-80区间以区间以95%的概率包含全班同窗平均成果的真值;或以的概率包含全班同窗平均成果的真值;或以95%的概率保证全班同窗平均成果的真值落在的概率保证全班同窗平均成果的真值落在60-80分之间。分之间。正确的了解:假设做了多次抽样如正确的了解:假设做了多次抽

37、样如100次,大约有次,大约有95次找到的区间包含真值,次找到的区间包含真值,有有5次找到的区间不包括真值。次找到的区间不包括真值。真值只需一个,一个特定的区间真值只需一个,一个特定的区间“总是包含或总是包含或“绝对不包含该真值。但是,用绝对不包含该真值。但是,用概率可以知道在多次抽样得到的区间中大约有多少个区间包含了参数的真值。概率可以知道在多次抽样得到的区间中大约有多少个区间包含了参数的真值。假设大家还是不能了解,那他们最好这样回答有关区间估计的结果:假设大家还是不能了解,那他们最好这样回答有关区间估计的结果:该班同窗平均成果的置信区间是该班同窗平均成果的置信区间是60-80分,置信度为分

38、,置信度为95%。区间估计的根本要素区间估计的根本要素n包括:样本点估计值、抽样极限误差、估计的可靠程度包括:样本点估计值、抽样极限误差、估计的可靠程度n样本点估计值样本点估计值n抽样极限误差:可允许的误差范围。抽样极限误差:可允许的误差范围。n抽样估计的可靠程度置信度、概率保证程度及概率度抽样估计的可靠程度置信度、概率保证程度及概率度n留意:本教材所进展的区间估计仅指对总体平均数或成数的区间估计,留意:本教材所进展的区间估计仅指对总体平均数或成数的区间估计,并且在际计算过程中运用下面的式子。式中并且在际计算过程中运用下面的式子。式中是极限误差。是极限误差。()1XXXp进一步可以写成1X称为

39、置信度(或概率保证程度)称为概率度(因为它与1- 密切相关P98)()1,()1pp X 即,1,1,XXXnnXXXX2222当服从标准正态分布时,通常记z=简记为z=请牢记该式.当服从t分布时,通常记t,z 与t通常也称为临界值区间估计的内容区间估计的内容 2 2 知知 2 2 未知未知均均 值值方方 差差比比 例例置置 信信 区区 间间平均数的区间估计平均数的区间估计 n对总体平均数或成数的区间估计时,运用下面的式子对总体平均数或成数的区间估计时,运用下面的式子n (式中式中是极限误差是极限误差)n有两种方式:有两种方式:n1、根据置信度、根据置信度1-,求出极限误差,求出极限误差,并指

40、出总体平均数的,并指出总体平均数的估计区间。估计区间。n2、给定极限误差,求置信度。、给定极限误差,求置信度。()1p X n当当知时,根据相关的抽样分布定理,知时,根据相关的抽样分布定理, 服从规范正态分布服从规范正态分布N(0,1)。查正态分布概率表,。查正态分布概率表,可得可得 普通记为普通记为 ,那么,那么 ,根据反复抽样与,根据反复抽样与不反复抽样的不反复抽样的 求法的不同,进一步可得总体平均数的估计区间:求法的不同,进一步可得总体平均数的估计区间:n反复抽样时,区间的上下限为:反复抽样时,区间的上下限为:n不反复抽样时,区间的上下限为:不反复抽样时,区间的上下限为:平均数区间估计平

41、均数区间估计第第1种方式种方式(求置信求置信区间区间)()1p X ()1XXXpXX/X(/)1XF/ 2Xz XnzX212NnNnzX/ 2z/abs(normsinv(1/2)XExcel用函数求的值,XX 的估计区间是12/2/X/2)(Xzp1)(1)(XXXzpXpXz/2/?为什么记为平均数区间估计平均数区间估计第第1种方式种方式(求置信求置信区间区间)n假设总体方差未知,那么在计算假设总体方差未知,那么在计算 时,运用样本方差替代总体方差,此时,运用样本方差替代总体方差,此时时 服从自在度为服从自在度为n-1的的t分布。查分布。查t分布表可得分布表可得 ,并记为,并记为n于是

42、:于是:n反复抽样时,区间的上下限为:反复抽样时,区间的上下限为:n不反复抽样时,区间的上下限为:不反复抽样时,区间的上下限为:XXX/X,12nt,12nSXtn,121nSNnXtNn()1XXXp大样本时,大样本时,t分布与规范正态分布与规范正态分布非常接近,可直接从规范分布非常接近,可直接从规范正态分布表查临界值正态分布表查临界值,12nt/tinv( ,1)XExceln用函数求的值例:总体平均数的区间估计例:总体平均数的区间估计1n对某型号的电子元件进展耐用性能检查,抽查资料分组如下表,要求估对某型号的电子元件进展耐用性能检查,抽查资料分组如下表,要求估计该批电子元件的平均耐用时数

43、的置信区间置信度计该批电子元件的平均耐用时数的置信区间置信度95%。1055.5()XfXf小时2()52.17()1XXfSf小时52.175.217()100XSn小时Xz( )0.951.96F zz 1055.5 10.23 1045.27X 所以1055.5 10.23 1065.73X 1045.27 1065.7395%平均耐用时数在小时间,可靠程度为。1.96 5.21710.23Xz()1()1/XXXpXpSnSnabs(normsinv(1/2)Excelz用函数求 值t如果查 分布表,则等于1.984,/Sn注意求时 查的是标准正态分布表XXX的抽样分布68.27%的样

44、本的样本p X ()1pX ()1可以写成p XX ()1也可以写成XX11 XX22 XX33 XX44 1) 100%表示有(的区间包含了表示样本均值落在表示样本均值落在区区间的概率是间的概率是1-,例,例对总体均值区间估计的进一步了解对总体均值区间估计的进一步了解平均数区间估计平均数区间估计第第2种方式种方式(求置信求置信度度)n给定极限误差,求置信度给定极限误差,求置信度()1p X ()()1XXXXpF例:总体平均数的区间估计例:总体平均数的区间估计2n例:经抽样调查计算样本亩产粮食例:经抽样调查计算样本亩产粮食600公斤,并求得抽样平公斤,并求得抽样平均误差为均误差为3公斤,现给

45、定允许极限误差为公斤,现给定允许极限误差为6公斤,求置信区间公斤,求置信区间包含总体平均亩产的概率,即求置信程度。包含总体平均亩产的概率,即求置信程度。600,3,6XX已知:62,3Xz简便解法:%45.95)2()(FzFXXXXp XXp XXpXF ()()()()因为服务标准正态分布所以上式结果阐明,假设多次反复抽样,结果阐明,假设多次反复抽样,每次都可以由样本值确定一个估每次都可以由样本值确定一个估计区间,每个区间或者包含总体计区间,每个区间或者包含总体参数的真值,或者不包含总体参参数的真值,或者不包含总体参数的真值,包含真值的区间占数的真值,包含真值的区间占F(z),即每一万次抽

46、样,就有即每一万次抽样,就有9545个样本区间包括总体亩产,其他个样本区间包括总体亩产,其他455个样本区间不包括总体平均个样本区间不包括总体平均数,即假设接受估计区间的判别数,即假设接受估计区间的判别要冒要冒4.55%的时机犯错误的风险。的时机犯错误的风险。(2) 95.45%F成数的区间估计成数的区间估计n由于总体的分布是由于总体的分布是0,1分布,只需在大样本的分布,只需在大样本的情况下,才服从正态分布。总体成数可以看成是一情况下,才服从正态分布。总体成数可以看成是一种特殊的平均数,类似于总体平均数的区间估计,种特殊的平均数,类似于总体平均数的区间估计,总体成数的区间估计的上下限是:总体

47、成数的区间估计的上下限是:n留意:在实际中,由于总体成数经常未知,这时,留意:在实际中,由于总体成数经常未知,这时,抽样平均误差公式中的总体成数用样本成数替代。抽样平均误差公式中的总体成数用样本成数替代。 n大样本的条件:大样本的条件:np5且且n(1-p) 5,由于总体成数,由于总体成数p通通常未知,可以用样本成数来近似判别。常未知,可以用样本成数来近似判别。2PPz1Pppn11PppNnnN例:总体平均数的区间估计例:总体平均数的区间估计3n对某型号的电子元件进展耐用性能检查,抽查资料分组如下表,对某型号的电子元件进展耐用性能检查,抽查资料分组如下表, 设该厂的产质设该厂的产质量量检验规

48、范规定,元件耐用时数到达量量检验规范规定,元件耐用时数到达1000小时以上为合格品。要求估计该批电小时以上为合格品。要求估计该批电子元件的合格率,置信程度子元件的合格率,置信程度95%。9191%100P(1)(,)(1)2.86%PppnPPn总体成数未知 用样本成数代替96. 1%,95)(zzF1.96 2.86% 5.61%Pz 91% 5.6% 85.4%P91% 5.6% 96.6%P。间,可靠性为合格率在%95%6 .96%4 .85总体均值区间估计总结总体均值区间估计总结XXXp()1p X ()1总体平均数估计总体平均数估计区间的上下限区间的上下限总体方总体方差知差知N(0,

49、1)反复抽样反复抽样不反复抽不反复抽样样总体方总体方差未知差未知t(n-1)大样本大样本时近似时近似服从服从N(0,1)反复抽样反复抽样不反复抽不反复抽样样XX所服从的分布Xn/Sn/1NnNn1SNnNn,12nSXtn,121nSNnXtNnnzX212NnNnzXn 假设是正态总体假设是正态总体n 假设不是正态总体,或分布未知假设不是正态总体,或分布未知总体方差知总体方差知且是大样本且是大样本总体方差未知总体方差未知且是大样本且是大样本 XXN(0,1)近似服从XXN(0,1)近似服从此时不思索小样本情况此时不思索小样本情况XnNnNn/1或XSnSNnNn/1或因此,大样本情况下,直接

50、用因此,大样本情况下,直接用规范正态分布求置信区间即可。规范正态分布求置信区间即可。总体成数估计区间估计总结总体成数估计区间估计总结n总体成数估计区间的上下限总体成数估计区间的上下限n只思索大样本情况请记住大只思索大样本情况请记住大样本条件样本条件PPPzn21PPNnPznN211对总量目的的区间估计对总量目的的区间估计n在对总体平均数进展区间估计的根底上,可在对总体平均数进展区间估计的根底上,可进一步推断相应的总量目的,即用总体单位进一步推断相应的总量目的,即用总体单位总数总数N分别乘以总体平均数的区间下限和区间分别乘以总体平均数的区间下限和区间上限,便得到相应总量上限,便得到相应总量N的

51、区间范围。的区间范围。()()xxxxXXN XNN X 例例1n某厂对一批产品的质量进展抽样检验,采用反复抽样抽取样品某厂对一批产品的质量进展抽样检验,采用反复抽样抽取样品200只,样只,样本优质率为本优质率为85%,试计算当把握程度为,试计算当把握程度为90%时优质品率的区间范围。时优质品率的区间范围。.%,.%,即2000 80 852000 89 151617 1783例例2n某商场从一批食品共某商场从一批食品共800袋中随机抽取袋中随机抽取40袋假设用反复抽样,测袋假设用反复抽样,测得每袋平均分量为得每袋平均分量为791.1克,规范差为克,规范差为17.克,要求以克,要求以95%的把

52、握程度,估的把握程度,估计这批食品的平均每袋分量以及这批食品总分量的区间范围。计这批食品的平均每袋分量以及这批食品总分量的区间范围。800*778.84,800*803.36,即,即623072,642688 三、样本容量确定三、样本容量确定n什么是样本容量确定问题?什么是样本容量确定问题?( )1XXzzF z ()1XXXp确定样本容量确定样本容量n在设计抽样时,先确定允许的误差范围和必要的概率保证程在设计抽样时,先确定允许的误差范围和必要的概率保证程度,然后根据历史资料或试点资料确定总体的规范差,最后度,然后根据历史资料或试点资料确定总体的规范差,最后来确定样本容量。来确定样本容量。估计

53、总体均值估计总体均值时样本容量确时样本容量确实定实定反复抽样反复抽样 不反复抽样不反复抽样 估计成数时样估计成数时样本容量确实定本容量确实定反复抽样反复抽样 不反复抽样不反复抽样 xzn2xzn2222xNznNz2222222xnzNn 21pzppn2221pNzppnNzpp2222211确定样本容量应留意的问题确定样本容量应留意的问题n计算样本容量时,普通总体的方差与成数都是未知计算样本容量时,普通总体的方差与成数都是未知的,可用有关资料替代:的,可用有关资料替代:n一是用历史资料已有的方差与成数替代;一是用历史资料已有的方差与成数替代;n二是在进展正式抽样调查前进展几次实验性调查,二

54、是在进展正式抽样调查前进展几次实验性调查,用实验中方差的最大值替代总体方差;用实验中方差的最大值替代总体方差;n三是成数方差在完全缺乏资料的情况下,就用成数三是成数方差在完全缺乏资料的情况下,就用成数方差的最大值方差的最大值0.25替代。替代。n假设进展一次抽样调查,同时估计总体均值与成数,假设进展一次抽样调查,同时估计总体均值与成数,用上面的公式同时计算出两个样本容量,可取一个用上面的公式同时计算出两个样本容量,可取一个最大的结果,同时满足两方面的需求。最大的结果,同时满足两方面的需求。n上面的公式计算结果假设带小数,这时样本容量不上面的公式计算结果假设带小数,这时样本容量不按四舍五入法那么

55、取整数,取比这个数大的最小整按四舍五入法那么取整数,取比这个数大的最小整数替代。例如计算得到:数替代。例如计算得到:n=56.03,那么,样本容量,那么,样本容量取取57,而不是,而不是56。 例:确定样本容量例:确定样本容量1n对某批木材进展检验,根据以往阅历,木材长度的规范差为对某批木材进展检验,根据以往阅历,木材长度的规范差为0.4米,而合格率为米,而合格率为90%。现采用反复抽样方式,要求在。现采用反复抽样方式,要求在95.45%的概率保证程度下,木材平均长度的极限误差不超越的概率保证程度下,木材平均长度的极限误差不超越0.08米,抽样合格率的极限误差不超越米,抽样合格率的极限误差不超

56、越5%,问必要的样本单,问必要的样本单位数应该是多少?位数应该是多少?样本平均数的单位数.().xzn22222220 41000 08棵样本成数的单位数.()().pz ppn222220 9 0 111440 05棵.0 4%p90( ).%F z 95 45.x0 8%p 5例:确定样本容量例:确定样本容量2n对某批木材进展检验,根据以往阅历,木材的合格率为对某批木材进展检验,根据以往阅历,木材的合格率为90%、92%、95%。现采用反复抽样方式,要求在。现采用反复抽样方式,要求在95.45%的概率保的概率保证程度下,抽样合格率的极限误差不超越证程度下,抽样合格率的极限误差不超越5%,问

57、必要的样,问必要的样本单位数应该是多少?本单位数应该是多少?样本成数的单位数()xz ppn221.().2220 9 0 11440 05棵第四节第四节 抽样的组织方式抽样的组织方式n本节主要内容:本节主要内容:n抽样估计效果的衡量与抽样组织方式抽样估计效果的衡量与抽样组织方式n简单随机抽样简单随机抽样n类型抽样类型抽样n整群抽样整群抽样n等距抽样等距抽样n阶段抽样阶段抽样n不同抽样组织设计的比较不同抽样组织设计的比较一、抽样估计效果的衡量与抽样组织方式一、抽样估计效果的衡量与抽样组织方式n抽样估计效果好坏,关键是抽样平均误差的控制。抽样估计效果好坏,关键是抽样平均误差的控制。抽样平均误差小

58、,抽样效果从整体上看就是好的;抽样平均误差小,抽样效果从整体上看就是好的;否那么,抽样效果就不理想。否那么,抽样效果就不理想。n抽样平均误差受以下几方面的要素影响:抽样平均误差受以下几方面的要素影响:n一是总体的变异性,即与总体的规范差大小有关一是总体的变异性,即与总体的规范差大小有关n二是样本容量二是样本容量n三是抽样方法。三是抽样方法。n四是抽样的组织方式四是抽样的组织方式n抽样的组织方式有如下几种:抽样的组织方式有如下几种:简单随机抽样、类型抽样、等距抽样、整群抽样、简单随机抽样、类型抽样、等距抽样、整群抽样、阶段抽样阶段抽样 二、简单随机抽样二、简单随机抽样/Xn11XNnnNNnn三

59、、类型抽样三、类型抽样n含义:又称分层抽样。对总体各单位按一定标志加以分组,含义:又称分层抽样。对总体各单位按一定标志加以分组,然后从每一组中按随机原那么抽取一定单位构成样本。然后从每一组中按随机原那么抽取一定单位构成样本。组,有设总体分为k按比例取样,即NnNnNnNnkk2211kNNNN21knnnn2112212211121221,kkkknnnXXXXXXXXX得到样本如下:得到样本如下:需要解决的问题是:如何求出抽样平均误差(即样本平均数的标准差)?/?Xn类型抽样类型抽样求样本平均数求样本平均数12212211122112,:,kkkknnnXXXXXXXXX样本12212211

60、122112,kNNkkkNxxxxxxxxx总体:类型抽样类型抽样求抽样平均误差求抽样平均误差12212211122112,:,kkkknnnXXXXXXXXX样本12212211122112,kNNkkkNxxxxxxxxx总体:类型抽样类型抽样求抽样平均误差求抽样平均误差12212211122112,:,kkkknnnXXXXXXXXX样本12212211122112,kNNkkkNxxxxxxxxx总体:类型抽样类型抽样两点结论两点结论从类型抽样的抽样平均误差公式来看,类型从类型抽样的抽样平均误差公式来看,类型抽样的抽样平均误差与组间方差无关,它决抽样的抽样平均误差与组间方差无关,它决

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论