定量资料的统计推断_第1页
定量资料的统计推断_第2页
定量资料的统计推断_第3页
定量资料的统计推断_第4页
定量资料的统计推断_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计量资料的统计推断,万州疾控中心陈春蓉,2,统计推断,随机抽样,参数?,统计量,(、),(X、s、p),参数估计假设检验,统计推断:用样本信息来推断相应总体的特征,这一过程称为统计推断。统计推断包括两方面的内容:参数估计和假设检验,参数估计的概念,3,参数估计是统计推断中的一个重要内容。在实际工作中,总体参数常是未知的或不可能对总体进行研究,故需要用样本指标(统计量)推断总体指标(参数),如用样本均数估计总体均数等。由于存在个体差异,抽样研究必然有抽样误差,所以统计推断必须考虑抽样误差的大小。,抽样误差的概念,均数的抽样误差:均数的抽样误差是因抽样产生的样本均数与总体均数之间的差异。由于存在个体差异,样本均数一般不恰好等于总体均数,例如从同一个总体中随机抽取100次样本含量为n的样本,可以计算出100个样本均数,这些样本均数与总体均数不一定相等,样本均数之间彼此也不一定相等,这种由个体变异产生的、由抽样误差造成的样本均数与样本均数之间以及样本均数与总体均数之间的差异称为均数的抽样误差。抽样误差在抽样研究中是不可避免的。但有一定的规律可循,我们可以用特定的指标来描述抽样误差的大小。,样本均数的分布特点:1.各样本均数未必等于总体均数;2.样本均数之间也不一定相等;3.样本均数的分布很有规律,围绕着总体均数,中间多,两边少,左右基本对称,也服从正态分布。,标准误:为了与反映观察值离散程度的标准差相区别,统计学上把样本均数的标准差称为均数的标准误,简称为标准误,统计符号,标准误的估计值符号,其值越大就说明样本均数的离散程度越大,也就是样本均数与总体均数间的抽样误差越大,反之,抽样误差越小。,标准误的概念,从正态分布N(,2)中随机抽取例数为n的样本,其样本均数的分布仍服从正态分布;即使总体不呈正态分布,只要n100,的分布也近似服从正态分布N(,)。抽样误差的大小取决于总体中个体差异的大小和抽样样本含量的大小,所以,均数标准误的计算公式为:,数理统计证明,而在实际工作中只有用样本标准差S估计总体标准差,故标准误的估计值计算公式为:例:某市110名12岁健康男孩平均身高为144.67cm,标准差为6.42cm,求其标准误。,表示抽样误差的大小,衡量样本均数的可靠性,标准误越小则用样本均数估计总体均数越可靠;结合样本均数和正态分布曲线下的面积分布规律,可用于估计总体均数的可信区间(后述);用于均数的假设检验(后述)。,标准误的作用,标准差与标准误的区别:(1)标准差表示各个观察值间的变异程度,即个体差异的大小。标准误表示同质样本均数间的变异程度,即抽样误差的大小。(2)标准差越小,样本均数的平均水平代表性越好,反之则越差。标准误越小,由样本均数估计总体均数的可靠性越大,反之则可靠性越小。(3)标准差结合样本均数可确定正态分布资料的医学参考值范围,标准误结合样本均数可估计总体的可信区间。(4)标准差可用于计算变异系数,标准误。标准误用于计算可信区间和进行均数间比较的假设检验。,思考!,标准差与标准误的联系:标准差和标准误都是描述变异程度的指标,标准误的大小与标准差成正比,即个体差异越大,抽样误差越大。,总体均数的估计,总体均数的估计,即用样本均数估计总体均数,有以下两种方法:(1)点估计:直接用统计量估计总体参数。例:于2000年测得某地27例健康成年男性血红蛋白量的样本均数为125g/L,试估计其总体均数。,即认为2000年该地所有健康成年男性血红蛋白量的总体均数为125g/L。(2)区间估计:即按一定的概率估计总体均数可能的数值范围,统计学称这一范围为被估计参数的可信区间(CI),预先给定的概率水准称为可信度1-,常取95%CI或99%CI。,可信区间的计算,(1)当总体标准差已知或样本含量n足够大(n50)时:(2)当总体标准差未知或样本含量n较小(n50)时:,14,复习两个概念:正态分布标准正态分布,样本均数的分布服从正态分布N(,),按照标准正态分布变换方法,也可变换成标准正态分布N(0,1):由于总体标准差往往未知或样本含量n较小(n50)时,常用样本标准差s作为的估计值,则此时称为对变量采用t变换,t变换后样本均数服从=n-1的t分布:,样本均数的分布,N(0,1);,t变换,随机变量XN(m,s2),标准正态分布N(0,12),u变换,均数,标准正态分布N(0,12),Studentt分布自由度:n-1,17,t分布曲线,t分布有如下性质:单峰分布,曲线在t0处最高,并以t0为中心左右对称与正态分布相比,曲线最高处较矮,两尾部翘得高(见绿线)随自由度增大,曲线逐渐接近正态分布;分布的极限为标准正态分布。,通过以上学习,t分布是由标准正态分布派生出来的,其形态变化与自由度v的大小有关,因此t值的符号是。自由度v=n-1。当v和确定时,可查t界值表(附录3p327),表中数字表示对应的t界值。,t分布的特征,t分布曲线下面积(附表2),双侧t0.05,92.262单侧t0.025,9单侧t0.05,91.833双侧t0.01,93.250单侧t0.005,9单侧t0.01,92.821双侧t0.05,1.96单侧t0.025,单侧t0.05,1.64,查P327,t界值表,22,可用公式:,应用条件:样本量小于100,已知均数和标准差。,例:某产科医生统计正常妇女骨盆x线的资料40例,得到骨盆入口前后径均数12.0cm,标准差0.9cm,求正常妇女骨盆入口前后径的95%可信区间。,23,练习:5名17岁女中学生肺活量资料得均数为2.44L,标准差为0.33L,试估计该地17岁女中学生肺活量的95%的可信区间。,本例n=5,=4,双侧t0.05,4=2.776,=2.442.7760.33/=2.032.85(L),该地17岁女中学生肺活量均数的95%可信区间为2.03L2.85L。,25,练习:101名3049岁健康男子血清总胆固醇mmolL-1,S=0.88mmolL-1,求该地健康男子血清总胆固醇值均数的95%可信区间。,=4.7351.960.88/=4.5634.907(mmolL-1),应用条件:样本量大于100,已知均数和标准差。,可用公式:,置信区间的两个要素可信度:反映置信度的大小,即区间包含总体均数的概率大小。精度:反映区间的长度。在可信度确定的情况下,增加样本例数,会减小t,和,可减少区间长度,提高精度。,意义:95%的参考值范围是指同质总体内包括95%个体值的估计范围。若总体为正态分布,常按计算。95%的可信区间是指按95%的可信度估计的总体参数落在该区间的概率。若为大样本,按计算。计算上:置信区间用标准误,参考值范围用标准差。,均数可信区间与参考值范围的区别,思考!,假设检验的概念,假设检验:过去称显著性检验,是根据样本信息对样本所属的总体特征提出一个假设H0(无效假设),然后通过样本数据推算出概率P值,根据概率P值对假设H0做出拒绝或不拒绝的判定过程。,例:根据大量调查健康成年男子脉搏的均数为72次/分,某医生在山区随机调查了30名健康成年男子,其脉搏的均数为74.2次/分,标准差为6.5次/分,能否认为该山区成年男子的脉搏与一般健康成年男子的脉搏均数不相等?,本例已知总体均数0=72次/分,而来自于总体为的样本均数=74.2次/分,与0不等,其产生的可能原因有两种:总体相同=0,差别由抽样误差造成。总体不同0,差异是本质上的差异,即二者来自不同总体。要直接判断0是不可能的,但我们可以利用无效假设H0:=0(即差别由抽样误差造成)成立的可能性大小即概率来判断,若算出的概率小,则按小概率原理拒绝H0,从而得出0的结论,否则接受H0:=0。,假设检验的基本原理,基本原理:假设检验的基本思想是反证法和小概率的思想。即预先设定数字上的差别是由抽样误差引起的,即假设H0是成立的。在此假设的前提下,通过适当的统计方法计算相应的统计量,来判断此假设成立的概率,即此假设成立的可能性大小。若算出的概率较小,小于设定的检验水准(如=0.05),则认为无效假设H0是小概率事件,统计学中认为无效假设H0成立的可能性小,就可以拒绝H0,可以认为数字上的差别不是由抽样误差引起的,而是数字代表的总体指标本身存在差别。反之,接受H0,认为数字间的差别是由抽样误差引起的,数字代表的总体指标间没有差别。,假设检验的一般步骤,(1)建立检验假设(2)确定检验水准(3)确定检验方法,计算统计量(4)判断概率P值(5)做出统计推断,假设检验的基本步骤,(1)建立检验假设假设有两种:一是假设总体相同=0,称为无效假设,又称零假设,用H0表示。二是假设总体不同0,称备择假设,用H1表示。本例建立检验假设可写成:H0:山区健康成年男子的脉搏均数与一般健康成年男子的脉搏均数相等,即=0。H1:山区健康成年男子的脉搏均数与一般健康成年男子的脉搏均数不相等,即0。,假设检验的基本步骤,(2)确定检验水准:检验水准又称显著性水准,符号为,是判断差异有无统计学意义的概率水准,即小概率事件的水准。其大小应根据分析的要求来确定,通常取=0.05或0.01,同时要确定是单侧还是双侧检验。本例检验水准可写成:=0.05。,假设检验的基本步骤,(3)确定检验方法,计算统计量。根据研究目的、资料类型、分布类型、研究设计方案及样本含量大小等,选择适应的统计方法,计算相应的统计量。本例为样本均数(代表未知总体均数)与已知总体均数0比较的t检验,目的是推断样本所代表的总体均数与已知总体均数0是否相等,建议带入t公式:,假设检验的基本步骤,(4)判断概率P值假设检验中的P值是指在由无效假设所规定的总体中做随机抽样,获得现有统计量的概率,即各样本统计量的差异来自抽样误差的概率,是判断H0成立与否的依据。确定P值的方法主要是查表法。根据检验水准,样本自由度查询相应的界值表,得到相应的界值,再比较计算所得的统计量与相应界值的大小关系来判断概率P值。若统计量t界值t,,则p。若统计量t。本例t=1.854,自由度=29,查界值表双侧t0.05,29=2.045,t0.05.,假设检验的基本步骤,(5)做出统计推断若p,即样本信息支持H0,即无效假设不是一个小概率事件,结论为按所设定的检验水准不拒绝H0,差别没有统计学意义,尚不能认为比较的均数之间不相等。若p,即差别不能仅由抽样误差来解释,结论为按所设定的检验水准拒绝H0,接受H1,差别有统计学意义,可认为比较的均数间不相等。注意H0是主要的,只有拒绝了H0才能接受H1。本例按=0.05的检验水准,P0.05,不拒绝H0,差别无统计学意义,尚不能认为该山区健康成年男子的脉搏均数与一般健康成年男子的脉搏均数有差别。,均数的t检验和检验,t检验是数值变量资料中最常用的假设检验方法,主要用于检验两组数据所代表的总体均数间有无差别。理论上,t检验要求样本来自正态分布总体,两样本均数比较时,还要求两个总体方差相等,即方差齐。实际工作中,只要其数据分布为单峰且近似正态分布,也可应用。当样本含量较大时(n50),可用检验,因为统计量u的计算比t简单,且常用的u界值双侧u0.05=1.96和双侧u0.01=2.58是固定的,很容易确定概率p值。,均数的t检验,单样本t检验两独立样本的t检验配对样本均数比较的t检验,单样本t检验,目的:比较一个小样本均数所代表的未知总体均数与已知的总体均数有无差别。例:已知某地婴儿的出生体重均数为3.20kg,一个产科医生随机调查25名难产儿,其平均体重为3.42kg,标准差为0.42kg,问难产儿平均出生体重与一般婴儿平均出生体重是否不同?,42,适用条件:(1)已知一个总体均数;(2)可得到一个样本均数及该样本标准误;(3)样本量小于50;(4)样本来自正态或近似正态总体。,43,该例已知:(1)一个总体均数:3.20kg;(2)一个样本均数:3.42kg;(3)用样本标准差可计算出样本标准误:0.42/5(4)n=25t0.05(24),故p0.05(5)做出统计推断:按双侧=0.05的检验水准,pt0.05,46,故p,不拒绝H0,不能接受H1,按不能接受H1下结论,也可能犯错误;,假设检验中的两类错误,58,2、第I类错误和第II类错误,假设检验的结果有两种。,(1)当拒绝H0时,可能犯错误,可能拒绝了实际上成立的H0,称为类错误(“弃真”的错误),其概率大小用表示。(理解什么是“真”)(2)当不能拒绝H0时,也可能犯错误,没有拒绝实际上不成立的H0,这类称为II类错误(“取伪”的错误),其概率大小用表示,值一般不能确切的知道。(理解什么是“伪”),59,3、两类错误的关系:表9-18类错误和II类错误的相互关系,(1)当样本量一定时,愈小,则愈大,反之(2)要同时减小类错误和II类错误,唯一的方法就是增加样本含量n。,假设检验应注意的问题,1.要有严密的抽样设计:严密的抽样设计要求符合随机、对照、均衡、重复四大原则。2.正确选定假设检验方法:应根据资料类型、分析目的、样本含量和设计方案等选用适当的检验方法。3.确定单侧检验还是双侧检验。根据专业知识来确定。4.正确理解假设检验中概率P值的含义。假设检验是按照“小概率事件在一次试验中几乎不可能发生”的原理,拒绝H0,接受H1。因此P0.05,只能说明参数间差异有统计学意义,不表示参数间差异的大小。P越小,H0成立的可能性越小,认为被比较的总体之间有差异的可能性越大,而不是总体参数间在数值上差值更大。,假设检验应注意的问题,5.假设检验的推断结论不能绝对化。统计的结论是具有概率性的,拒绝或不拒绝H0,都有可能推断错误,即犯类错误或II类错误,所以下统计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论