第六章 总体均数的估计(4讲).ppt_第1页
第六章 总体均数的估计(4讲).ppt_第2页
第六章 总体均数的估计(4讲).ppt_第3页
第六章 总体均数的估计(4讲).ppt_第4页
第六章 总体均数的估计(4讲).ppt_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2020/5/27,1,第六章总体均数的估计,景学安,2020/5/27,2,学习要求了解:置信区间的正确使用。熟悉:定量资料抽样研究的特点。掌握:均数抽样误差和标准误的概念、计算公式和应用;t分布和z分布的概念、特征和两者的联系与区别;总体均数置信区间的概念和计算公式;标准差的标准误的区别和联系。,2020/5/27,3,第一节均数的抽样误差与标准误一、样本均数的抽样分布在医学科学研究中,往往采取抽样研究(samplingstudy)的方法,即从研究的总体中随机抽取部分观察单位作为样本,然后根据样本信息来推论总体特征,即为统计推断(statisticalinference)。然而,由于总体的变量值存在变异,样本均数往往不等于总体均数。如表6.1。,2020/5/27,4,样本1,样本2,样本3,样本k,2020/5/27,5,定量资料抽样研究的特点:1.从同一正态总体中抽取样本含量n相等的许多样本,这些样本均数的分布仍是以总体均数为中心呈正态分布;或者虽然总体呈偏态分布,但样本含量足够大时,样本均数的分布仍近似正态分布。见图6.1和图6.32.理论上,如表6.1,=4.5,。3.样本均数间的变异小于原始变量的变异,即,并随样本含量的增加,样本均数间的变异逐步缩小。见图6.1。如表6.1资料,=0.2,=0.041。,2020/5/27,6,4.来自正态总体的样本均数的分布为正态分布N()。,范围内包含95%的样本均数,范围内包含99%的样本均数,如表6.1资料,实际范围内包含了96个样本均数,占96%。,2020/5/27,7,二、均数的标准误由于随机抽样引起的样本均数与总体均数之间以及样本均数之间的差异称为均数的抽样误差(samplingerrorofmean)。样本均数的标准差称为均数的标准误(standarderrorofmean,SEM),用符号表示,它反映了各样本均数围绕总体均数的离散程度,也用来表示样本均数的抽样误差的大小。1.均数标准误的计算,2020/5/27,8,数理统计已经证明:均数标准误的大小与总体标准差成正比,而与样本含量的平方根成反比,即,如表6.1资料,=0.2,n=20,即,实际工作中总体标准差往往是不知道的,而只知道样本标准差S,所以只能用S代替,求得标准误的估计值,即:,2020/5/27,9,例6.1随机抽取某地正常成年男性200名,测得其血清胆固醇的均数为3.64mmmol/L,标准差为1.2mmol/L,试估计其均数的标准误。,2.均数标准误的应用表示抽样误差的大小,从而说明样本均数的可靠性。进行总体均数的区间估计。进行均数的t检验。,2020/5/27,10,第二节t分布一、t分布的概念上一章已说明,正态变量X采用z(X)/变换,则一般的正态分布N(,)即变换为标准正态分布N(0,1)。又因从正态总体抽取的样本均数服从正态分布N(,),同样可作正态变量的z变换,即,2020/5/27,11,而实际工作中由于未知,也未知,故往往是用作为的估计值,此时对采用的不是z变换而是t变换了,即,t值有大有小,有正有负,其频数分布是一种连续性分布,这就是统计上著名的t分布(t-distribution)。t分布于1908年由英国统计学家W.S.Gosset以“Student”笔名发表,故又称Studentt分布(Studentst-distribution)。,,=n-1,2020/5/27,12,二、t分布曲线的特征,图6.4自由度为1、5、时的t分布曲线,2020/5/27,13,由图6.4可见:t分布曲线是单峰分布,以0为中心,左右两侧对称;曲线的中间比标准正态曲线(z分布曲线)低,两侧翘得比标准正态曲线略高;当样本含量越小(严格地说是自由度=n-1越小),t分布与z分布差别越大;当逐渐增大时,t分布逐渐逼近于z分布,当=时,t分布就完全成为z分布。所以t分布曲线是随自由度的变动而变化的一簇曲线。,2020/5/27,14,三、t界值我们常把自由度为的t分布曲线下双侧尾部合计面积或单侧尾部面积为指定概率时,则横轴上相应的t界值分别记为或。如当=20,双侧=0.05时,记为t0.05/2,20;当=22,单侧=0.01时,记为t0.01,22。对于或值,可根据和值,查附表3,t界值表。,0,t,0,t,2020/5/27,15,由于t分布是以0为中心的对称分布,t界值表中只列出正值,故查附表3时,不管t值正负只用绝对值。由t界值表可知:在相同,单侧概率和双侧概率2的t界值相同,即单侧=双侧,如单侧t0.05,20=双侧t0.1/2,20;对于相同的自由度,值越小,值越大,反之越小;对于相同的值,自由度越小,值越大,反之越小。当=时,则,故查z界值即可查=的t界值。,2020/5/27,16,t分布是t检验的理论基础。t值与样本均数和总体均数之差成正比,与标准误成反比。在t分布中t值越大,其两侧或单侧以外的面积所占曲线下总面积的比重就越小,说明在抽样中获得此t值以及更大t值的机会就越小,这种机会的大小是用概率P来表示的。t值越大,则P值越小;反之,t值越小,P值越大。根据上述的意义,t,则P;反之,t,则P。,2020/5/27,17,第三节总体均数的估计用样本指标(统计量)估计总体指标(参数)称为参数估计,是统计推断的一个重要方面。观察样本均数的目的之一,是为了估计总体均数。估计总体均数的方法有两种,即点值估计(pointestimation)和区间估计(intervalestimation)。一、点值估计点值估计是直接用样本均数作为总体均数的估计值。例如上述某市120名12岁健康男孩身高均数为143.07cm,可作为该市全部12岁健康男孩的平均身高的估计值。,2020/5/27,18,二、区间估计区间估计是按一定的概率(1-)估计包含总体均数可能的范围,该范围亦称总体均数的置信区间(confidenceinterval,CI)。1-称为置信度(亦称可信度),常取1-为0.95和0.99,即总体均数的95%置信区间和99%置信区间。1-(如95)可信区间的含义是:总体均数被包含在该区间内的可能性是1-(95),没有被包含的可能性为(5)。总体均数可信区间的计算,可根据资料的条件选用不同的方法。(一)总体均数置信区间的估计,2020/5/27,19,1.未知且n较小(n100)按t分布的原理计算置信区间。1-置信区间为,即,公式推导:在t分布中,1-的t值位于,区间内,即,于是得可信区间为1-时,计算总体均数可信区间的通式为,2020/5/27,20,表6.1资料模拟抽样100个样本均数,在计算的100个95%置信区间中,有95个区间包含总体均数(4.5),有5个个区间包含总体均数。例6.3在某地成年男子中随机抽取了25人,测其脉率,得到脉率均数为72次/min,标准差为8次/min。试估计该地成年男子脉率总体均数的95置信区间。,即写成,2020/5/27,21,=n1=251=24,取双侧0.05,查附表3,t值表得双侧t0.05/2,24=2.064。按式6.6得:95%的置信区间为722.0641.6,即(68.7,75.3)。故该地成年男子脉率总体均数的95置信区间为68.775.3(次/min)。2.已知或n较大(n100)(1)已知时,服从于Z分布,按Z分布的原理计算置信区间。1-可信区间为:,即,本例n=25,S=8次/min,算得样本均数的标准误为,2020/5/27,22,如Z0.05/2=1.96,Z0.01/2=2.58(2)n较大时,t分布接近于Z分布,即t/2,接近于Z/2,为了计算方便,1-可信区间近似为:,2020/5/27,23,例6.4随机抽取某地200名40岁以上正常人,测定取空腹血糖值,其均数为4.91mmol/L,标准差为0.72mmol/L,试估计该地40岁以上正常人群空腹血糖的总体均数的95%置信区间。由于样本例数较大,可按正态近似法估计,=0.05,双侧Z0.05/2=1.96,故95%置信区间为:4.911.960.0509,即(4.81,5.01)mmol/L。,2020/5/27,24,(二)两总体均数差值置信区间的估计在实际工作中,我们经常想了解两个不同总体均数差值的大小,如正常成年男、女的血红蛋白平均相差多少?冠心病患者和正常人的血清胆固醇酯平均相差多少?等等。一般用作为(1-2)的点估计值,但是由于存在抽样误差,往往需要对两总体均数的差值进行置信区间的估计。数理统计证明,分别来自两个正态总体和的和,只要,其之差仍服从于的正态分布。,2020/5/27,25,式中,称为两均数之差的标准误,其计算公式为,如果转换为标准正态分布,则,N(0,1),总体均数差值的(1-)置信区间为:,但在实践工作中,总体标准差是未知的,只能用样本标准差S来代替,两均数之差的标准误估计值为:,2020/5/27,26,式中,S2称为两均数合并的方差,计算公式为:,上式如果n1=n2,则,2020/5/27,27,总体均数差值的(1-)置信区间为:,服从于=n-1的t分布。,例6.5测定28例结核病患者和34例对照者的脑脊液中镁(mmol/L)的含量,结果见表6.5,试估计结核病人和对照者的脑脊液中镁含量的总体均数之差的95%置信区间。,=n1+n2-2,2020/5/27,28,表6.5两对比组脑脊液中镁含量(mmol/L),本例假定两组方差齐性,即,本例=28+34-2=60,查t界值表,t0.05/2,60=2.000,2020/5/27,29,(1.28-1.04)2.000.0395=0.1610.319(mmol/L),即两总体均数之差的95%置信区间为(0.161,0.319)mmol/L。(三)置信区间的正确应用1.从以上计算置信区间的计算公式可以看出,标准误愈小,估计总体均数可信区间的范围也愈窄,说明样本均数与总体均数愈接近,对总体均数的估计也愈精确;反之,标准误愈大,估计总体均数可信区间的范围也愈宽,说明样本均数距总体均数愈远,对总体均数的估计也愈差。,2020/5/27,30,2.95%与99%可信区间相比较,前者估计的范围要窄些,估计的精度要高些,但估计错误的可能

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论