第4章 抽样与参数估计_第1页
第4章 抽样与参数估计_第2页
第4章 抽样与参数估计_第3页
第4章 抽样与参数估计_第4页
第4章 抽样与参数估计_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、主讲人:吴锦桂主讲人:吴锦桂管理学院管理学院1. 抽样与抽样分布2. 参数估计的基本方法3.总体总体均值均值的的区间估计区间估计4.4.总体总体比例比例的的区间估计区间估计5.5.样本容量样本容量的确定的确定统计方法统计方法描述统计描述统计推断统计推断统计参数估计参数估计假设检验假设检验 参数估计在统计方法中的地位参数估计在统计方法中的地位 一、参数估计的概念一、参数估计的概念统计抽样法是统计分析研究中的一种重要方法,包括统计调查和参数估计两部分。概念概念 参数估计的特点参数估计的特点抽取样本单位时,遵循随机原则;是由部分推断总体的一种研究方法,即以样本的数量特征去推断总体的数量特征;抽样推断

2、产生抽样误差,但抽样误差可以事先计算与控制。有关参数估计的几组概念有关参数估计的几组概念( (回顾回顾) )总体:又称母体、全及总体,指所需要研究对象的全体,由许多客观存在的具有某种共同性质的单位构成。总体单位数用N表示;样本:又称子样,来自总体,是从总体中按随机原则抽选出来的部分,由抽选单位构成。样本单位数用n表示;总体是唯一的、确定的,而样本是不确定的、可变的、随机的。总体和样本总体和样本u总体参数:反映总体数量特征的指标,数值是唯一确定的。u样本统计量:根据样本分布计算的指标,是随机变量。 总体指标和样本指标总体指标和样本指标参数参数 统计量统计量 x s p 参数与统计量的区别参数与统

3、计量的区别v代表样本单位数量标志的一般水平;代表样本单位数量标志的一般水平;v通常用通常用 表示:表示:x12nxxxxxnn样本平均数样本平均数v在抽样总体中,一个现象有两种表现时,其中在抽样总体中,一个现象有两种表现时,其中具具有某一种表现的单位数占抽样总体单位数的比重有某一种表现的单位数占抽样总体单位数的比重叫做样本成数,用叫做样本成数,用p表示。表示。v计算公式为:计算公式为:v式中,式中,n代表样本总体单位数,代表样本总体单位数,n1表示具有某一表示具有某一种表现的单位数;种表现的单位数;n0代表不具有此种表现的单位代表不具有此种表现的单位数;数;p、q代表样本成数。代表样本成数。样

4、本比例样本比例01,1nnpqpqnn例如,从某灯泡厂生产的灯泡中,抽样检查了例如,从某灯泡厂生产的灯泡中,抽样检查了100只灯泡,其中有只灯泡,其中有3只不合格,则:只不合格,则:样本灯泡不合格率样本灯泡不合格率样本灯泡合格率样本灯泡合格率133%100npn11 3%97%qp 样本比例样本比例v重复抽样重复抽样(有放回有放回的抽样)的抽样)l例:从ABCDE五个字母中随机抽取两个作为样本,N=5,n=2u考虑顺序时:样本个数=5*5=25u不考虑顺序时,样本个数=15 抽样方式抽样方式不重复抽样不重复抽样(无放回无放回抽样)抽样)l例如从ABCDE五个字母中随机抽取两个作为样本,N=5,

5、n=2u考虑顺序时:样本个数=20u不考虑顺序时:样本个数=10 抽样方式抽样方式v基本原则基本原则: 保证实现抽样的随机性原则 保证实现最大的抽样效果原则v简单随机抽样简单随机抽样u在对总体未做任何处理的情况下,按随机原则直接从总体的N个单位中抽取n个单位作为样本,使每个总体单位都有同等机会被抽到。u具体方法: 先对总体每个单位进行编号,然后采用抽签的方式或根据随机数表来抽取样本。 常用的抽样组织形式常用的抽样组织形式直接从总体中抽取所需要调查的单位,无须经过分组、分类、排队或组群等处理;必须事先对总体中所有单位进行编码或编号。当总体很大,编号工作很困难,或对连续生产的产品不可能编号时,就很

6、难采用这种方法;抽取样本时不借助有关标志的辅助信息;当总体各单位标志值之间差异很大时,采用这种抽样方式不能保证样本的代表性;v简单随机抽样简单随机抽样主要适用于主要适用于单位数不多且内部单位数不多且内部差异不太大的总体的抽样差异不太大的总体的抽样。特点特点u又称为分类抽样,是先对总体各单位按照某一标志加以分类,再从各类中按随机原则抽取样本单位。u优点:u能提高样本的代表性;u能降低抽样平均误差的总方差;u便于组织工作;v适用于对被调查标志的标志值在各单位间分布差适用于对被调查标志的标志值在各单位间分布差异大的总体的抽样异大的总体的抽样。分层抽样分层抽样方法:等比例分配法 即样本单位在各类之间的

7、分配比例与总体单位在各类之间的分配比例是一致的。iinNnN如何分组?如何分组? 整群抽样整群抽样 将总体划分为由总体单位所组成的若干群,然后以群作为抽样单位,从总体中抽取若干群作为样本,并对中选群内的所有单位进行全面调查的抽样方式。 优点:无须编制总体单位名单,只需编制总体群名单;当总体缺乏包括全体单位的抽样框,无法进行抽选时,可以采用整群抽样;一般是不重复抽样; 等距抽样等距抽样 又称为机械抽样或系统抽样,先将总体各单位按某一标志排队,然后依固定顺序和间隔来抽取样本单位的一种抽样组织形式。 等距抽样是不重复抽样,等距抽样的随机性体现在抽取第一个样本单位,当第一个样本单位确定后,其余的各个单

8、位也就确定。v适用于对单位不多且能进行排序的总体抽样适用于对单位不多且能进行排序的总体抽样 多阶段抽样多阶段抽样在总体容量很大或分布很广的情况下,很难通过在总体容量很大或分布很广的情况下,很难通过一次抽样得到一个完整的样本,需要把整个抽样一次抽样得到一个完整的样本,需要把整个抽样的程序分成若干个阶段,分阶段的进行抽样;的程序分成若干个阶段,分阶段的进行抽样;在抽样中能把多种抽样方式结合起来使用,最大在抽样中能把多种抽样方式结合起来使用,最大限度的保证样本的代表性。限度的保证样本的代表性。分层抽样随机抽样1.1.在重复选取容量为在重复选取容量为n n的样本时,由每一个样本算的样本时,由每一个样本

9、算出的该统计量数值的出的该统计量数值的相对频数分布相对频数分布或或概率分布概率分布 2.2.是一种理论分布是一种理论分布3.3.随机变量是随机变量是 样本统计量样本统计量样本均值样本均值, , 样本比例,样本方差等样本比例,样本方差等4.4.结果来自结果来自容量相同容量相同的的所有所有可能样本可能样本 抽样分布抽样分布计算样本统计量计算样本统计量如:样本均值、比例、方差 抽样分布的形成过程抽样分布的形成过程重复重复抽样抽样分布分布样本平均数样本平均数的分布的分布-重复抽样重复抽样v例:某班组有例:某班组有5 5个工人的日工资为个工人的日工资为3434、3838、4242、4646、5050元。

10、元。v总体均值为总体均值为 =42=42v总体方差为总体方差为 =32=32现用重复抽样的方式从现用重复抽样的方式从5 5个人中随机抽取个人中随机抽取2 2个构成样个构成样本,样本总数为本,样本总数为5 5* *5=255=25个。个。2 抽样分布的形成过程抽样分布的形成过程42()()XfE XXf42 元()()()XXfXf22216 元 验证了以下两个结论验证了以下两个结论即:即:对于对于重复抽样分布重复抽样分布,样本平均数的期望值等于,样本平均数的期望值等于总体平均数,而样本平均数的方差等于总体方差除总体平均数,而样本平均数的方差等于总体方差除以样本容量。以样本容量。()E X()n

11、X22 当总体服从正态分布当总体服从正态分布N(,2)时,来自该总体的所有时,来自该总体的所有容量为容量为n的样本的均值的样本的均值 也服从正态分布,的数学期也服从正态分布,的数学期望为望为,方差为方差为2/n。即。即 N(,2/n)xxx总体分布总体分布抽样分布抽样分布x重要结论重要结论v抽样平均数的标准差反映所有的样本平均抽样平均数的标准差反映所有的样本平均数与总体平均数的平均误差,称为数与总体平均数的平均误差,称为抽样平抽样平均误差均误差,用,用 表示:表示:XXn重要结论重要结论v由概率论知,如果总体是正态分布的,则样本平均由概率论知,如果总体是正态分布的,则样本平均数的抽样分布是如下

12、正态分布数的抽样分布是如下正态分布: :这是一个非常重要的结论,有广泛的应用这是一个非常重要的结论,有广泛的应用2( ,)Nn重要结论重要结论2( ,)xNn记为:(0,1)/xzNn则 中心极限定理中心极限定理正态分布正态分布非正态分布非正态分布正态分布正态分布正态分布正态分布非正态分布非正态分布 抽样分布与总体分布的关系抽样分布与总体分布的关系1.1.容量相同容量相同的的所有可能样本所有可能样本的样本的样本比例比例的概率分布的概率分布2.当样本容量很大时,样本比例的抽样分布可用正态分布近似 (np5和n(1-p)5时认为样本量足够大)一种理论概率分布一种理论概率分布推断总体总体比例推断总体

13、总体比例 的理论基础的理论基础 样本比例的抽样分布样本比例的抽样分布1.1.样本比例的数学期望样本比例的数学期望2.2.样本比例的方差样本比例的方差重复抽样重复抽样 样本比例的抽样分布样本比例的抽样分布- -期望与方差期望与方差1.从均值为从均值为200,标准差为,标准差为50的总体中抽取的总体中抽取n=100的简单随机样本,样本均值用于估计总体均值。的简单随机样本,样本均值用于估计总体均值。求:求:v样本均值的数学期望是多少?样本均值的数学期望是多少?v样本均值的标准差是多少?样本均值的标准差是多少?v样本均值的抽样分布是什么?样本均值的抽样分布是什么?1 1估计量与估计值估计量与估计值2

14、2点估计与区间估计点估计与区间估计1.1.估计量估计量:用于估计总体参数的随机变量:用于估计总体参数的随机变量如样本均值,样本比例、样本方差等如样本均值,样本比例、样本方差等例如例如: : 样本均值就是总体均值样本均值就是总体均值 的一个估计量的一个估计量2.2.参数用参数用 表示,估计量表示,估计量用用 表示表示3.3.估计值估计值:估计参数时计算出来的统计量的具体值:估计参数时计算出来的统计量的具体值如果随机抽取的一个样本的均值如果随机抽取的一个样本的均值 x =80=80,则,则8080就就是是 的估计值的估计值 基础概念基础概念两种估计方法两种估计方法例:对某厂生产的一批电子元件的使用

15、寿命进行例:对某厂生产的一批电子元件的使用寿命进行检测,先从中随机抽取检测,先从中随机抽取500只进行调查,得知其只进行调查,得知其样本平均寿命为样本平均寿命为1950小时,样本的合格率为小时,样本的合格率为95%。用点估计的方法推断总体的平均寿命和用点估计的方法推断总体的平均寿命和合格率。合格率。根据点估计根据点估计推断推断:总体的平均寿命为总体的平均寿命为1950小时,小时,总体的合格率为总体的合格率为95%。点估计方法的优点是简便易行,原理直观,而主要点估计方法的优点是简便易行,原理直观,而主要缺点是没有解决参数估计的精确度和可靠性问题;缺点是没有解决参数估计的精确度和可靠性问题;一般只

16、适用于对推断准确性程度和可靠性要一般只适用于对推断准确性程度和可靠性要求不高的情况。求不高的情况。总结总结v无偏性无偏性v有效性有效性v一致性一致性无偏性:无偏性:估计量抽样分布的数学期望等于被估计量抽样分布的数学期望等于被 估计的总体参数估计的总体参数无偏无偏有偏有偏AB有效性:有效性:对同一总体参数的两个无偏点估计量,对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效有更小标准差的估计量更有效 的抽样分布的抽样分布 的抽样分布的抽样分布12一致性:一致性:随着样本量的增大,估计量的值越来随着样本量的增大,估计量的值越来越接近被估计的总体参数越接近被估计的总体参数较小的样本量较小的

17、样本量较大的样本量较大的样本量两种估计方法两种估计方法1.1.在点估计的基础上,给出总体参数估计的一个在点估计的基础上,给出总体参数估计的一个区间区间范围范围,该区间由样本统计量,该区间由样本统计量加减抽样误差加减抽样误差而得到的而得到的比如,某班级平均分数在比如,某班级平均分数在75758585之间,置信水平是之间,置信水平是95% 95% 样本统计量 (点估计) 区间估计区间估计-基础概念基础概念1.1.将构造置信区间的步骤重复很多次,将构造置信区间的步骤重复很多次,置信区间置信区间包包含总体参数真值的含总体参数真值的次数次数所占的所占的比例比例称为称为置信水平置信水平 表示为表示为 (1

18、 - (1 - 为是总体参数为是总体参数未在未在区间内的比例区间内的比例 ,叫显著性,叫显著性水平。水平。1.1.常用常用的置信水平值有的置信水平值有 99%, 95%, 90%99%, 95%, 90%1. 1.相应的相应的 为为0.010.01,0.050.05,0.100.10 基础概念基础概念置信水平置信水平v95%95%的置信水平得到某班学生考试成绩的置信区间的置信水平得到某班学生考试成绩的置信区间为为6080.6080.则(则( )A. 6080这个区间以95%的概率包含全班学生平均考试成绩的真值;B. 全班学生的平均考试以95%的概率落在6080分之间 在多次抽样中有95%的样本

19、得到的区间包含全班学生平均考试成绩(1 1)用某种方法构造的所有区间中)用某种方法构造的所有区间中有有95%95%的区间包含总体参数的真值的区间包含总体参数的真值,则,则成为置信水平为成为置信水平为95%95%的置信区间的置信区间(2 2)总体参数的)总体参数的真值是固定真值是固定的、未知的;样本构造的区间是不固定的。的、未知的;样本构造的区间是不固定的。 以下哪种说法是正确的?以下哪种说法是正确的?X平均值:112312368.2695.4499.73曲线下的总面积100回忆一下,回忆一下,这是什么?这是什么? 区间估计的图示区间估计的图示1正态总体且方差已知,或非正正态总体且方差已知,或非

20、正态总体,方差未知、态总体,方差未知、大样本大样本2正态总体,方差未知、正态总体,方差未知、小样本小样本1. 1. 假定条件假定条件总体服从总体服从正态分布正态分布, ,且方差且方差( ( ) ) 未知未知oror已知已知如果不是正态分布,可由如果不是正态分布,可由正态分布正态分布来近似来近似 ( (n 30)30)使用正态分布统计量使用正态分布统计量z2. 2. 总体均值总体均值 在在1-1- 置信水平下的置信水平下的置信区间为置信区间为(0,1)/xzNn 总体均值的区间估计总体均值的区间估计- -大样本大样本 总体均值的区间估计总体均值的区间估计- -例子例子36个投保人年龄的数据个投保

21、人年龄的数据 233539273644364246433133425345544724342839364440394938344850343945484532 总体均值的区间估计总体均值的区间估计- -例子分析例子分析v 已知某零件的直径服从正态分布,从这批产品中随机抽取已知某零件的直径服从正态分布,从这批产品中随机抽取10件,测得平均直径为件,测得平均直径为202.5mm,已知总体标准差为,已知总体标准差为2.5mm,试建立该种零件平均直径的置信区间,给定置,试建立该种零件平均直径的置信区间,给定置信度为信度为0.95.v 解:解: 则所求的置信区间为:则所求的置信区间为: (,)2.5(2

22、02.5 1.96)(202.95,204.05)10 xZxZnn/. ,.2202 5101 96xnZ练习练习v 例例:某大学从该校学生中随机抽取某大学从该校学生中随机抽取100100人人, ,调查到他们平均每调查到他们平均每人每天完成作业时间为人每天完成作业时间为120120分钟分钟, ,样本标准差为样本标准差为3030分钟分钟, ,试以试以95%95%的置信水平估计该大学全校学生平均每天完成作业时间的置信水平估计该大学全校学生平均每天完成作业时间的置信区间的置信区间. .v 解:解: 则所求的置信区间为:则所求的置信区间为:(,)30(120 1.96)(114.12,125.88)

23、100SSxZxZnn/,.2120301001 96xSnZ练习练习v 在对一种新生产方式检验时,随机选取在对一种新生产方式检验时,随机选取36个雇员让他们试用该种新方个雇员让他们试用该种新方法。法。36名雇员生产率的样本均值为每小时名雇员生产率的样本均值为每小时80件,样本标准差为每小时件,样本标准差为每小时15件,假定总体服从正态分布,求该种新方法生产率总体均值的件,假定总体服从正态分布,求该种新方法生产率总体均值的90%的置信区间。的置信区间。v 解:解: 则所求的置信区间为:则所求的置信区间为: 1515(80 1.64,80 1.64)(75.90,84.10)3636/,.280

24、361 64xnZ练习练习1. 1. 假定条件假定条件总体服从正态分布总体服从正态分布, ,且方差且方差( ( ) ) 未知未知小样本小样本 ( (n 30) 30)2. 2. 使用使用 t t 分布统计量分布统计量3. 3. 总体均值总体均值 在在1-1- 置信水平下的置信水平下的置信区间为置信区间为 总体均值的区间估计总体均值的区间估计- -小样本小样本t 分布与标准正态分布的比较分布与标准正态分布的比较t 分布分布标准正态分布标准正态分布不同自由度的不同自由度的t分布分布标准正态分布标准正态分布 t t分布分布【例例】已知某种灯泡的寿命服从正态分布,现从一已知某种灯泡的寿命服从正态分布,

25、现从一批灯泡中随机抽取批灯泡中随机抽取16只只,测得其使用寿命,测得其使用寿命(小时小时)如如下。建立该批灯泡平均使用寿命下。建立该批灯泡平均使用寿命95%的置信区间的置信区间1510152014801500145014801510152014801490153015101460146014701470 总体均值的区间估计总体均值的区间估计- -例子例子该种灯泡平均使用寿命的置信区间为该种灯泡平均使用寿命的置信区间为1476.8小小时时1503.2小时小时 总体均值的区间估计总体均值的区间估计- -例子分析例子分析 例例:从一批糖果中随机抽取从一批糖果中随机抽取16袋,称得重量袋,称得重量(克

26、克)数据如下:平数据如下:平均重量为均重量为503.75克,标准差为克,标准差为6.2克克,设袋装糖果的重量近似设袋装糖果的重量近似服从正态分布服从正态分布,试求总体均值置信度为试求总体均值置信度为0.95的置信区间。的置信区间。 解解: 则所求的置信区间为:则所求的置信区间为: 6.20503.75*2.1315(500.45,507.05)16.,.,().0 025503 756 20152 1315xSt练习练习 设某种油漆的设某种油漆的9个样品,其干燥时间分别为个样品,其干燥时间分别为(小时小时):6, 5.7, 5.8, 6.5, 7, 6.3, 5.6, 6.1, 5, 样本方差

27、为样本方差为0.33,设设该种该种油漆油漆近似服从正态分布近似服从正态分布,求均值求均值 的置信度为的置信度为0.95的置信区的置信区间。间。 解:解: 则所求的置信区间为:则所求的置信区间为: 0.576*2.306(5.56,6.44)9.,.,( ).0 02560 5782 306xSt练习练习2010年1.1.假定条件假定条件大样本大样本 可以由正态分布来近似可以由正态分布来近似2. 2. 使用正态分布统计量使用正态分布统计量3. 3. 总体比例总体比例 在在1-1- 置信水平下置信水平下的置信区间为的置信区间为 总体比例的区间估计总体比例的区间估计某城市想某城市想要估计下岗职工要估

28、计下岗职工中女性所占的比中女性所占的比例,随机抽取了例,随机抽取了100个下岗职工,个下岗职工,其中其中65人为女性人为女性职工。试以职工。试以95%的置信水平估计的置信水平估计该城市下岗职工该城市下岗职工中女性比例的置中女性比例的置信区间信区间已知已知 n=100,p65% , 1- = 95%,z /2=1.96该城市下岗职工中女性比例的置信该城市下岗职工中女性比例的置信区间为区间为55.65%74.35% 总体比例的区间估计总体比例的区间估计- -例子例子2010年2010年 在总体均值的区间估计中,置信区间是由下式确定的:在总体均值的区间估计中,置信区间是由下式确定的: 表示在一定的置

29、信水平表示在一定的置信水平1-下,用样本均值估计下,用样本均值估计总体均值时所允许的最大绝对误差,用总体均值时所允许的最大绝对误差,用E表示,称表示,称E为允为允许误差许误差。即:。即: xZnZnEZn 估计总体均值时样本容量确定估计总体均值时样本容量确定v将上式整理得到将上式整理得到样本量公式样本量公式:v总体方差总体方差越大,样本容量越大,样本容量n越大,成越大,成正比正比;v样本容量样本容量n与与允许误差允许误差成成反比反比;v样本容量样本容量n与与可靠性系数可靠性系数成成正比正比;如要求的可靠;如要求的可靠性越高,样本容量就应越大。性越高,样本容量就应越大。222ZnE【例例】拥有工

30、商管理学士学位的大学毕业生拥有工商管理学士学位的大学毕业生年薪的标准差大约为年薪的标准差大约为2000元,假定想要估计元,假定想要估计年薪年薪95%的置信区间,希望边际误差为的置信区间,希望边际误差为400元,应抽取多大的样本容量?元,应抽取多大的样本容量? 估计总体均值时样本容量确定估计总体均值时样本容量确定- -例子例子解解: 已知已知 =2000,E=400, 1- =95%, z /2=1.96 即应抽取即应抽取97人作为样本人作为样本 估计总体均值时样本容量确定估计总体均值时样本容量确定- -例子分例子分析析 例例4 4:某广告公司欲知某类商店去年所花平均广告费有多少,经验表明,某广

31、告公司欲知某类商店去年所花平均广告费有多少,经验表明,总体方差为总体方差为18000001800000,若置信度为,若置信度为95%95%,且使估计值处于总体均值附近,且使估计值处于总体均值附近500500元的范围内,问这家广告公司应取多大的样本?元的范围内,问这家广告公司应取多大的样本?解:解: 即这家广告公司应抽取即这家广告公司应抽取2828个商店做样本。个商店做样本。 2/21800000,1.96,500ZE222221.96 180000050027.6528ZnE个练习练习 练练4 4:拥有工商管理学位的大学毕业生每年年薪的标准差为:拥有工商管理学位的大学毕业生每年年薪的标准差为20002000元,假定希望估计年薪元,假定希望估计年薪90%90%的置信区间,当误差为的置信区间,当误差为200200元时,样本容量应该为多大?元时,样本容量应该为多大? 解:解:2222221.642000200268.96269ZnE/22000,1.64,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论