卫生统计学专题六:总体均数与总体率的估计_第1页
卫生统计学专题六:总体均数与总体率的估计_第2页
卫生统计学专题六:总体均数与总体率的估计_第3页
全文预览已结束

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 专题六 总体均数与总体率的估计 样本均数(或样本率)不能直接作为总体均数(或总体率)的估计,而应该考虑抽样误差的存在,借助抽样分布对总体均数(或总体率)做出估计。 一、均数的抽样误差 由个体变异产生的,随机抽样引起的样本统计量与总体参数之间的差异称为 抽样误差 。在抽样研究中,抽样误差是不可避免的。 二、样本均数的分布及标准误 样本均数的分布 : 服从正态分布,样本均数大部分分布在总体均数的左右,中间多,两边少,左右基本对称。 标准误 样本均 数 的变异程度用样本均数的标准差来描述, 样本均数的标准差 称为均数的标准 误,简称为 标准误 ,符号 x 。 x说明个样本均数围绕总体均数的离散程度,可用来反映样本均数的抽样误差的大小。 在抽样研究中,总体标准差常常 未知 ,一般用样本标准差作为总体标准差的估计值。 理论公式:nx 实际公式 :nssx 注: x 越大,样本均数分布越分散,样本均数与总体均数的差别 越大,抽样误差越大,由样本均数估计总体均数的可靠性越小。 x 越小,样本均数分布越集中,样本均数与总体均数的差别越小,抽样误差越小,由样本均数估计总体均数的可靠性越大。 标准差与标准误的区别: 标准差表示个体差异的大小;标准误描述样本均数的变异程度,说明抽样误差的大小。标准差描述资料的频数分布状况,可用于制定医学参考值范围;而标准误用于总体均数的区间估计和假设检验。 以样本含量 n从正态总体 N( , )或偏态总体随机抽样,样本均数仍服从或者近似正态分布 N( , x ) 。 标准误的大小与标准差成正比,与样本含量 n 的平方根成反比。 在实际工作中,可通过适当增加样本含量来减小抽样误差。 三、 t分布 根据数理统计和中心极限定理:从均数为 ,标准差为 的正态总体中,随机抽取例数为 n 的样本,样本均数 x 均服从均数为 ,标准差为 n 的正态分布;即使从均数为 ,标准差为 的偏态总体中随机抽样,当样本含量足够大时,样本均数的分布逐渐逼近 于均数为 ,标准差为 x 的正态分布。 已知样本均数 x 服从正态分布 ,对正态变量 x 实施 z变换,使得正态分布 N( , x )变换为标准正态分布 N( 0,1)。 实际工作中, 总体标准差常常未知,一般用样本标准差作为总体标准差的估计值 ,此时对样本均数进行的不再是 z 变换而是 t变换 。 理论证明该统计量服从自由度为 n-1的 t分布。 t=xsx =nsux =n-1 t分布曲线与分布的特征 如右图, t分布的特征有: 单峰分布,在 t=0处最高,且以 0为中心左右对称。 不同自由度对应不同的 t分布, t分布曲线是一簇曲线。 越小, t值越分散,曲线越平阔,尾部越高;随着 增大, t值越集中,曲线越尖峭,尾部越低。 趋于时, t分布逼近标准正态分布( z分布)。 【说明】 t分布的极限分布为 z分布。 t分布 不是一条曲线, 是一簇曲线,不同 曲线下面积的分布 是不同的, 相同面积可对应不同 t界值,相同 t界值可对应不 同面积 。 t分布中,无论自由度为多少时, t分布曲线下的面积都为 1。 t界值表 统计学家将 t分布曲线下的尾部面积(即概率 P)与横轴 t值间 的关系编制了不同自由度下的 t界值表( 参见教材 附表 4)。 t界值表:横标目为自由度 ,纵标目为概率 P。 t界值:表中数字表示当 和 P 确定时, 单侧或双侧尾部面积 P 对应的 t界 值。 若 P 等于某预指定的 ,则: 单侧 尾端 概率 (one-tailed probability)的 t界值 ,即单侧尾部面积 P 对应的 t界值 用 t , 表示 。 双侧 尾端 概率 (two-tailed probability)的 t界值 ,即两侧尾部面积 P 对应的 t界值 用 t /2,表示 。 t分布规律 单侧: P( t -t , ) =或 P( t t ,) =。 双侧: P( t -t /2, ) P( t t /2,) = ,则图中非阴影部分面积的概率为 P( -t /2, t t /2,) =1- 从 t界值表可以看出: 自由度相同时, t界值越大其对应的 P 值越小,反之亦然。 概率 P(或尾部面积)相 等时, 越大, t界值越小。 t界值相等时,双侧概率为单侧概率的两倍。 = 时, t界值即为 z界值。例如, t0.05/2, =z0.05/2=1.96 四、总体均数的估计 统计推断的内容: 参数估计 ( 包括点估计与区间估计 )和 假设检验 。 参数估计:指用样本指标(统计量)估计总体指标 2 (参数)。 点估计 方法:将 样本统计量直接作为总体参数的估计值 。 缺点:未考虑抽样误差的影响,估计的正确程度很难评价。 区间估计 方法:按事先给定的概率( 1- ),估计包含未知总体参数的一个可能范围,该范围称为参数的可信区间 或置信区间( CI)。 ( 1-) :可信度或置信度,也可表示为 100( 1-) %,常取 95% 可信区间通常由两个可信限或置信限表示,较小者称为下限( L),较大者称为上限( U)。 总体均数可信区间的计算 z分布法 已 知时 , 则 z=nx/ 服从标准正态分布 N( 0,1),此时 P( -z /2 z z /2) =1- ,代入 z通过推导可得: 总体均数 双侧可信区间 为: (xzx 2/,xzx 2/)或简写 为xzx 2/单侧可信区间 为: xzx 或xzx 未知时 ,但 n足够大 ( n 50)时,xs接近x, t分布逼近 z分布,则 总体均数 双侧可信区间 为: (xszx 2/,xszx 2/)或简写为xszx 2/单侧可信区间 为: xszx或xszx t分布法 未知时 , t=xsx 服从自由度为 n-1的 t分布 , 此时 P( -t /2, t t /2,) =1- , 代入 t通过推导 可得: 总体均数 双侧可信区间 为 : (xstx ,2/,xstx ,2/) 或简写为xstx ,2/单侧可信区间 为 : xstx ,或 xstx ,【说明】当 未知时 ,无论 n是否足够大,可信区间均可采用 t分布法计算, 采用 t界值计算的可信区间更加确切 。 总体均数的 95%可信区间的含义 在实际研究中,一次抽样可得一个可信区间,有 95%可能包括总体均数。 总体均数的 95%可信区间既可信又精密。 五、二项分布 对于 n 次独立的试验,如果每次试验结果出现且只出现对立事件 A与 A 之一,在每次试验中出现 A的概率是常数 ( 0 1) ,因而出现对立事件 A 的概率是 1- ,则称这一串重复的独立试验为 n重贝努力试验,简称 Bernolli试验 。 Bernolli试验 条件:每次试验只有两种互斥的结果;在相同条件下独立重复 n次试验,所谓“独立”即各次实验结果互不影响; 每次试验中 A发生的概率都相同,各次试验条件相同。 二项分布的概念 一般地,在一个 n 重 贝努力试验 中,令 x 表示时间 A 发生的次数,则随机变量 x 所有可能的取值为 0,1,2, ,n,且 其概率函数为 P( x=k) = knkknC )1( k=0,1,2, ,n !)!( ! kkn nC kn 称随机变量 X 服从参数为 n和 的二项分布,记为 XB( n, )。 二项分布的概率 二项分布是一种离散型概率分布。 二项分布的概率之和等于 1,即 nk 0knkknC )1( = +( 1- ) n=1 单侧累积概率: 至多 m例阳性: P( x m) knkmkknC )1(0 3 至少 m例阳性: P( x m) =1-P( x m-1) 二项分布的均数与标准差 设 XB( n,) ,则有阳性结果发生数 X 的总体均数 =n ; 总体方差 )1(2 n 总体标准差 1n 根据中心极限定理, 在 n较大, n 与 n( 1- )较接近时,二项分布接近于正态分布; 当 n 时,二项分布 B( n,) 的极限分布是总体均数位 n,总体方差为 n ( 1- )的正态分布 Nn, n( 1-) 。 六、 Poisson分布 Poisson分布的概念 若随机变量 X 的可能取值为 0,1,2, ,其概率分布为 P( x=k) = , k=0,1,2, ;则称 x服从参数为 的 Poisson分布 ,记为 X ( )。 k为观察单位中某稀有时间发生的次数; 0,为某一常数; e=2.7182 是自然对数的底数。 Poisson分布 的应用 泊松分布是一种重要的 离散型概率分布 ,用于描述在单位时间或空间内随机事件发生的次数。 特点: 罕见事件(发生概率很小)而观察例数 n很大的二项分布,可将较难计算的二项分 布转换为泊松分布去处理。 为泊松分布所依赖的唯一参数,表示单位时间(或单位面积、单位空间)内某随机事件平均发生数,即总体均数。 Poisson分布的图形 =n 值越小,分布越不对称,随的增大, Poisson分布趋于对称。 注:当 =20时,泊松分布接近于正态分布,在实际工作中,当 20时,就可以用正态分布来近似地处理泊松分布的问题。 Poisson分布的特征 总体均数与总体方差相等。 可加性: m个互相独立的随机变量 X1,X2, ,Xm分别服从 1, 2, , m的泊松分布,则其和 x1+x2+ +xm也服从均数为1+2+ +m的泊松分布。 可加性的应用:将若干个相互独立的小观察单位合并成一个大的观察单位,从而使均数 20,以便将服从泊松分布的资料按正态分布近似处理。 七、总体率的估计 抽样资料计算样本率不能直接代替总体率,而应该对总体率进行估计。 率的抽样误差与标准误 由于抽样引起的样本率与总体率的差异称为率的抽样误差。率的抽样误差亦可以用率的标准误 p来度量。 当总体率未知时,以样本率 p作为 的估计值。 p=n)1( ( n为样本含量) sp= n pp )1( 总体率的估计 根据样本率也可以对总体率做出点估计和区间估计。 利用样本资料估计二项分布总体率的 1-的可信区间,一般取 0.05或 0.01。 对于 n 50,且 p接近于 0或 1时,可直接 查表法 得到总体率的 1-的可信区间 。 (附表 5) 注:附表 5中仅列出 x n/2的部分,当 x n/2 时,可以用 n-

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论