医学统计学总体均数估计_第1页
医学统计学总体均数估计_第2页
医学统计学总体均数估计_第3页
医学统计学总体均数估计_第4页
医学统计学总体均数估计_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章总体均数的估计福建医科大学公共卫生学院何保昌,1,主要内容,均数的抽样误差与标准误t分布总体均数的估计,2,使用样本统计量过程中的问题,不同的研究者对相同的总体作类似的抽样研究可能会得到不同的样本统计量各自用样本统计量估计总体的参数,样本统计量与总体参数间是否完全相等?如何评价他们的准确性?,3,一、均数抽样误差和标准误,已知某地高中三年级男生的身高满足正态分布,其平均身高为168.15厘米,这里,将该地高中三年级男生的身高视为一个总体。现从该总体中随机抽样5次,每次抽取一个样本含量n=10的样本,得到的5个样本的数据及各样本均数如下:,4,5,样本均数的特点,各个样本均数之间都不相同抽样误差表现形式之一各个样本均数都不等于总体均数,有的比总体均数大,有的比它小抽样误差表现形式之二相对于各样本的个体值,样本均数间的变异程度较小,6,样本均数的抽样分布,仍以某地高三男生的身高为例,设身高变量为x,假定x服从正态分布,记为xN(168.15,62)从总体X中反复随机抽样,样本含量分别为n=4,n=16和n=36,分别随机抽10000个样本并计算样本均数,把同一样本含量的10000个样本均数视为一个新的样本资料作频数图,7,8,从正态分布总体N(168.15,62)中随机抽样10000次的结果曲线是正态总体N(168.15,62)的概率密度曲线直方图为正态分布总体N(168.15,62)的样本均数的频率密度图,样本均数的分布规律,大多数的样本均数相互之间存在差异,绝大多数的样本均数不等于x的总体均数样本均数的集中趋势位置与个体资料x的集中趋势位置较为接近,样本均数的频数图均呈现出中间多、两边少且基本对称的正态分布特征。样本均数的分布范围较个体值小;随着样本含量的增大,样本均数的频数分布范围越来越窄样本均数的标准差都非常接近(为个体资料x的总体标准差,n为个体数),9,样本均数的分布规律,理论上可以证明:从正态分布的总体中随机抽取样本含量为n的一批样本,样本均数有如下性质:样本均数服从正态分布样本均数的总体均数为,10,1.从正态分布N(,2)中,以固定n抽取样本,样本均数的分布仍服从正态分布,样本均数的总体均数仍为,样本均数的标准差为2.即使是从偏态分布总体抽样,只要n足够大,样本均数的分布也近似正态分布;3.随着样本量的增大,样本均数的变异范围也逐渐变窄。,中心极限定理centrallimittheorem,11,样本均数的标准误,为了与个体的标准差相互区别,样本均数的标准差又称为样本均数的标准误(SE),或理论标准误反映了样本均数间的离散程度,如果SE很大则不同的样本均数间参差不齐,同时样本均数的分布范围较大,也反映了样本均数与总体均数间的差异可能较大,因而标准误反映均数抽样误差的大小;它与总体标准差成正比,与总体中的个体数的平方根成反比代表样本均数的标准误,其表达式为,12,均数的标准误的影响因素,从标准误的计算公式中看出它与原先个体观察值的总体标准差s有关,同时也和样本含量n有关在固定样本含量的情况下,总体标准差越大,则样本均数间越参差不齐,抽样误差越大;但是总体标准差是参数,在抽样之前就已经存在,无法改变它的大小故可行的方法是通过扩大样本含量减少标准误;从而减少抽样误差,13,均数标准误的估计值,由于在实际研究中,我们往往只抽一次样,得到一个样本均数,而且大多数情况下s未知,此时常用样本标准差S估计总体标准差s,这样我们就得到样本均数标准误的估计值抽样误差越小,表示样本均数与总体均数越接近,用样本均数估计总体均数的可靠性越高;反之则越低,14,例6.1随机抽取某地正常成年男性200名,测得其血清胆固醇的均数为3.64mmol/L,标准差为1.20mmol/L,试估计抽样误差:,15,标准误与标准差的区别:,(1)概念不同标准差是描述样本个体值间的变异,标准差小,说明变量值围绕均数的波动小,均数的代表性好。标准误是描述样本均数的抽样误差,标准误越小,表示样本均数围绕总体均数的波动越小。,16,(2)用途不同,标准差表示变量值对均数的波动大小,当资料呈正态分布时,与均数结合估计正常值范围、计算变异系数、标准误等。标准误表示样本统计量对总体参数的波动情况,用于估计参数的置信区间、进行假设检验。,17,1)两者均为变异指标;2)样本含量不变时,均数的标准误与标准差成正比;3)两者均可与均数结合使用(但描述的内容各不相同)。,(3)联系,18,在应用过程中要注意标准差和标准误的区别:,19,t分布,t分布的由来t分布的特征t分布曲线下的面积,20,样本均数标准正态性转换中的实际问题,要对样本均数进行Z转换,必须要知道总体的标准差s;但是在实际的情况下,并没有对总体中所有的个体进行观察,所以无法得知s;而且通常我们也只作一次抽样研究,只能得到s,只能用样本标准误的估计值估计那么是否仍然满足标准正态分布?假定,我们比较一下Z与Z之间是否存在不同,21,ZvsZ,在正态总体N(168.18,62)中随机抽样,样本量分别取n=5,n=100,均抽10000个样本,分别计算Z值和Z值,其结果如下:,22,23,ZvsZ,上述10000个样本所计算出的Z值和Z值的平均值都非常接近标准正态分布的集中位置0对于Z值而言,无论n=5和n=100,Z值的P2.5和P97.5都十分接近标准正态分布95的双侧分位点1.96;但对于Z值而言,样本量n=5时,其P2.5和P97.5明显远离1.96,而样本量n=100时,Z值的P2.5和P97.5相对比较靠近当样本量较大时,同样可以发现统计量Z的频数图与标准正态分布曲线非常接近,而当样本含量较小时,统计量Z的分布与标准正态分布则有所区别峰较矮,尾部较高,数据相对Z值分散,24,Z的分布,并不满足标准正态分布!在样本含量较大时它与标准正态分布接近,但是当样本含量较小时,它与标准正态分布相差较远,25,WilliamSealeyGosset(1876-1937),26,Gossetinventedthet-testtohandlesmallsamplesforqualitycontrolinbrewing(Guinness).HewroteunderthenameStudent.,样本均数,t分布的由来,总体,中心极限定理,标准正态分布,标准正态分布,t分布,变量变换,27,t分布,28,如果抽取例数n=5的样本k个,每个样本又都可以按下面公式计算出一个t值,可将k个t值编制成频数表,作出直方图,当k无限增大时,则可得到一条光滑的曲线。同理,如果抽取例数n=10时,仍能得到一条t分布曲线,因此,当n变化时,就可以得到不同的t分布曲线,如下图,29,x,population,t1,t2,t3,tk,N=5,N=5,N=5,N=5,30,x,population,N=10,N=10,N=10,N=10,31,t1,t2,t3,tk,图3.2自由度分别为4、9、的t分布,32,t分布曲线的特点,单峰分布,曲线在t0处最高,并以t0为中心左右对称与正态分布相比,曲线最高处较矮,两尾部翘得高(见红线)其形态变化与自由度的大小有关。自由度越小,则t值越分散,曲线越低平;随自由度增大,曲线逐渐接近正态分布。,33,它与样本例数n或自由度有关,某个自由度对应于一条t分布曲线。当n或不同时,曲线形状不同。当时,t分布趋近于标准正态分布。,自由度:,=n-1随机变量能够自由取值的个数,34,t分布曲线下面积规律,t分布曲线下总面积仍为1或100%由于t分布是一簇曲线,故t分布曲线下面积固定面积(如95%或99%)的界值不是一个常量,而是随自由度的大小而变化,如附表3。,35,附表3,t分布表的特点,附表3的横标目为自由度,纵标目为概率P,表中数值为其相应的t界值,记作t,;t取值于某个区间的概率P相当与横轴上该区间与曲线所夹面积。附表3给出了t分布曲线下单侧或双侧尾部面积所对应的界值;,36,双侧t0.05/2,92.262单侧t0.025.9单侧t0.05,91.833双侧t0.05/2,1.96单侧t0.025,单侧t0.05,1.64,t分布曲线下面积,37,其通式为双侧:P(t-t/2,)+P(tt/2,)=单侧:P(t-t,)=或P(tt,)=图中非阴影部分面积的概率为,P(-t/2,tt/2,)=1-,以下附图的阴影部分表示t,以外尾部面积的概率。,38,/2,/2,求自由度v为10,单尾概率a=0.05时的t界值,并简述其含义由表中查得单侧t0.05,101.812从一个正态总体中随机抽样,每次抽11个个体,分别计算各个样本的均数与标准差,并对之进行t转换后,理论上有P(t-1.812)=0.05或P(t1.812)=0.05,39,求自由度v为100,双尾概率a=0.05时的t界值,并简述其含义由表中查得双侧t0.05/2,1001.984从一个正态总体中随机抽样,每次抽101个个体,分别计算各个样本的均数与标准差,并对之进行t转换后,理论上有P(t-1.984)P(t1.984)=0.05,40,二、总体均数的估计,参数的估计,点估计:由样本统计量直接估计总体参数缺点:没有考虑抽样误差。,区间估计:在一定可信度下,同时考虑抽样误差。,41,1.点估计,11名18岁男大学生身高均数资料得,=172.25cm,S=3.31cm,试估计该地18岁男大学生身高总体均数?答:该地18岁男大学生身高总体均数为172.25cm,42,2.区间估计,区间估计intervalestimate:在点估计的基础上,结合抽样误差的大小,给出总体参数估计的一个区间范围(由上、下限构成的置信区间)该区间按照一定的概率可能性,包含所推断的总体参数,43,置信区间,假设已知的样本均数是从较小的m总体中抽取的,它成立的统计条件是从该总体中抽取一个样本,其均数为当前均数以及更大的可能性并非小概率事件,44,置信区间,而如果从mB的总体中在一次抽样的前提下,几乎是不可能得到当前的样本的,因为它是一个小概率事件!,47,置信区间,因而如果m的取值在AB间,在一次抽样的前提下,是有可能得到当前的样本均数的这样就把区间(A,B)称为样本均数所来源的未知总体均数的置信区间,48,置信度(confidencecoefficient),我们之所以说m=A的总体像是样本所来源的总体,那是因为从它中得到该样本不是小概率事件但是小概率事件是有可能发生的,例如该样本真的来自于m100),t分布逼近z分布。按z分布原理计算置信区间。,由于:,则:,57,/2,/2,所以,总体均数的100(1-)%之置信区间的通式为:,58,例测得某地110名18岁男大学生身高=172.73cm,s=4.09cm,估计该地18岁男大学生身高均数的95%置信区间。,本例n=110,=172.73cm,s=4.09cm,双侧z0.05/2=1.96按式(3.7)计算:,即:该地18岁男大学生身高均数的95%置信区间为171.97cm173.49cm,59,(3)已知:,故可按正态分布原理估计总体均数的置信区间,计算公式为:,60,未知,且n小,已知:未知,但n足够大:,三种情况,61,置信区间的注意问题,1置信区间的涵义意思是从总体中作随机抽样,每个样本可以算得一个置信区间。如95%置信区间意味着做100次抽样,算得100个置信区间,平均有95个估计正确,估计错误的只有5次。5%是小概率事件,实际发生的可能性很小,当然这种估计方法会有5%犯错误的风险。,62,2.置信区间的两个要素:,一是准确度:反映在可信度的大小,即区间包含总体均数的概率的大小,愈接近1愈好。二是精密度:反映在区间的长度,长度愈小愈好。在样本含量确定的情况下,二者是矛盾的,若只管提高可信度,会把区间变得很长,故不宜认为99%置信区间比95%置信区间好,一般来说95%置信区间更为常用。,63,区别点均数的置信

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论