抽样误差与区间估计.ppt_第1页
抽样误差与区间估计.ppt_第2页
抽样误差与区间估计.ppt_第3页
抽样误差与区间估计.ppt_第4页
抽样误差与区间估计.ppt_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章 总体均数的估计与假设检验,第一节 均数的抽样误差与标准误,抽样误差( sampling error ):由个体变异产生的、抽样造成的样本统计量与样本统计量之间、样本统计量与总体参数的差异。 无倾向性、不可避免,100份样本的均数和标准差,将这100份样本的均数看成新变量值,按第二章的频数分布方法,得到这100个样本均数得直方图见图3-1。,图3-1 随机抽样所得100个样本均数的分布,100个样本均数的抽样分布特点: =4.83 100个样本均数中,各样本均数间存在差异,但各样本均数在总体均数周围波动。 样本均数的分布曲线为中间高,两边低,左右对称,近似服从正态分布。 样本均数的标准差

2、明显变小:,即样本均数的标准差,可用于衡量抽样误差的大小。 因通常未知,计算标准误采用下式:,标准误(standard error, SE),通过增加样本含量n来降低抽样误差。,3个抽样实验结果图示,抽样实验小结,均数的均数围绕总体均数上下波动。 均数的标准差即标准误 与总体标准差 相差一个常数的倍数,即 从正态总体N(m,s2)中抽取样本,获得均数的分布仍近似呈正态分布N(m,s2/n) 。,标准差与标准误的区别与联系,1、概念不同:标准差是描述样本中个体值的变异程度的指标,其值越小,表示变量值围绕均数的波动越小; 标准误是描述样本均数间变异度的指标,其值越小,表示样本均数围绕总体均数波动越

3、小。 2、用途不同:标准差用于表示变量值对均数波动的大小,当资料呈正态分布时,与均数结合可估计正常值范围,计算变异系数等;标准误用于表示样本统计量(样本均数、样本率)对总体参数(总体均数、总体率)的波动情况,可估计参数的可信区间,进行假设检验。,3、与样本例数关系不同:样本量足够大时,标准差趋向稳定,标准误随例数增加而减小,甚至趋近于0,若样本量趋向总例数,则标准误接近0; 4、二者联系:均为变异指标,若把总体中各样本均数看作一个变量,则标准误可称为样本均数的标准差,当样本量不变时,均数的标准误与标准差成正比。二者均可与均数结合运用,但描述的内容各不相同。,第二节 t 分布(t-distrib

4、ution),随机变量X N(m,s2),标准正态分布 N(0,12),Z变换,均数,标准正态分布 N(0,12),Student t分布 自由度:n-1,t分布的特征,以0为中心,左右对称的单峰分布; t 分布曲线是一簇曲线,其形态变化与自由度的大小有关。 自由度越小,则t 值越分散,曲线越低平; 自由度逐渐增大时,t 分布逐渐逼近Z 分布(标准正态分布);当趋于时,t 分布趋近Z 分布, Z 分布是t 分布的特例。,图4-2 不同自由度下的t 分布图,t 界值表,1.812,2.228,-2.228,t,f (t),=10的t分布图,t0.05/2,10=t0.025,10=2.228,t

5、界值表中的变化规律,相同自由度时,t值越大,概率P 越小; 在相同t值时,同一自由度的双侧概率是单侧概率的两倍,t0.05/2,10=t0.025,10 。,参数估计:用样本指标值(统计量)推断总体指标值(参数)。 包括点估计和区间估计,第三节 总体均数的可信区间估计,总体均数的点估计(point estimation)与区间估计(interval estimation),参数的估计,点估计:由样本统计量 直接估计 总体参数,区间估计:在一定可信度(Confidence level) 下,同时考虑抽样误差,按预先给定的概率(1),确定一个包含未知总体参数的范围。这一范围称为参数的可信区间或置信

6、区间(confidence interval,CI),(1)称为可信度或置信度(confidence level),常取95。 置信区间通常两个数值即置信限(confidence limit,CL)构成, 较小的称为置信下限(lower limit,L), 较大的称为置信上限(upper limit,U),,一、置信区间的有关概念,二、总体均数置信区间的计算,s未知,且n 较小,按t分布 s已知,或s未知但n足够大,按Z分布,中心极限定理,设从均值为,方差为 的一个任意总体中抽取容量为n的样本,当n充分大(通常n50),样本均值的抽样分布服从均数为,方差为 /n 的正态分布。,单一总体均数的置

7、信区间,例3-2 已知某地27名健康成年男子血红蛋白含量 =125g/L,S=15g/L,试估计该地健康成年男子血红蛋白平均含量的95%和99%置信区间。 n=27,=27-1=26,查t界表,=0.05, t0.05/2 ,26=2.056,=0.01, t0.01/2 ,26=2.779,按公式计算,Z0.05/2=1.96 Z0.05=1.645,总体均数的单侧(1-)置信区间为: -Z +Z,Z0.05/2=1.96 Z0.05=1.645,总体均数的单侧(1-)置信区间为: -Z +Z,三、置信区间的确切含义,如果能够进行重复抽样试验,平均有(1-)的可信区间包含了总体参数,而不是总体参数落在该范围的可能性为( 1- )。 在实际工作中,只能根据一次试验结果计算一个可信区间,就认为该区间包括了相应的总体参数,该结论错误的概率为。 可信区间一旦形成,它要么包含总体参数,要么不包含总体参数,二者必居其一,无概率可言,可信度是事前规定的。,四、可信区间估计的优劣 一是可信度1(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论