总体均数估计_第1页
总体均数估计_第2页
总体均数估计_第3页
总体均数估计_第4页
总体均数估计_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、叶小华叶小华1Health statistics医学统计学-总体均数的估计总体均数的估计2统计推断由样本信息对相应总体的特征进行推断统计推断包括:参数估计 假设检验3计量资料的参数估计基础样本均数的抽样误差t分布总体均数的估计4119.41cm= 4.38cm118.21cm=4.45cmXs120.18cm=4.90cmXs120.81cm=4.33cmXs估计全国七岁男童的平均身高总体参数总体参数样本统计量样本统计量5抽样误差的概念 由于个体变异的存在,在抽样过程中产生的样本统计量与总体参数间的差异。 两种表现形式: n样本统计量与总体参数间的差异n样本统计量间的差异 6抽样误差产生的基本

2、条件个体变异 抽样研究7抽样误差的特点n抽样误差是不可避免的!n抽样误差是有规律的!8均数的抽样误差中心极限定理(1) 从正态分布总体N(,) 中随机抽样(每个样本的含量为n),可得无限多个样本,每个样本计算样本均数,则样本均数也服从正态分布。n样本均数的均数为 ;n样本均数的标准差为 或 xn nssx样本均数样本均数的标准误的标准误均数的抽样误差中心极限定理(2) 从非正态分布总体(均数为,标准差为)中随机抽样(每个样本的含量为n),可得无限多个样本,每个样本计算样本均数,则只要样本含量足够大(n50),样本均数近似正态分布。n样本均数的均数为 ;n样本均数的标准差为 或 xn nssx1

3、0均数标准误(standard error)样本统计量的标准差称为标准误。样本均数的标准差称为均数的标准误,反映样本均数的变异程度,反映样本均数抽样误差大小。112000年某研究者随机调查某地健康成年男子27人,得到血红蛋白量的均数为125 g /L,标准差为15 g /L。试估计该样本均数的抽样误差。 Xs/ sn15/ 27= = 12.24 89g /L 12正态分布的标准化变换)(u )(u1 , 0,2NXNX 变换)(u )(u1 , 0,2NXNXXX 变换13t分布的概念实际工作中,总体方差一般未知,用样本方差代替,此时:? nsXsXX14t分布设从正态分布N(,2)中随机抽

4、取含量为n的样本,样本均数和标准差分别为 和s,设: t分布,分布, = n 1 则t值服从自由度为n-1的t分布(t-distribution)。nsXsXtXxt变换15 f(t) =(标准正态曲线) =5 =10.10.2-4-3-2-1012340.3图3.2 自由度分别为1、5、时的t分布 16t分布的特征单峰分布,曲线以0为中心,左右对称类似于标准正态分布。t分布的形状与自由度有关n自由度越小,自由度越小,则则 越大,越大,曲线越曲线越“扁平扁平” ;n自由度越大,自由度越大,则则 越小,越小,曲线越曲线越“瘦高瘦高” ;n当自由度为无穷大时,当自由度为无穷大时,t分布曲线与标准正

5、态分布分布曲线与标准正态分布曲线完全吻合,曲线完全吻合,故标准正态分布是故标准正态分布是t分布分布的特例。的特例。 XsXs17-tt0Page19518t界值释义双侧t0.05/2, 92.262 表明:从正态分布总体中抽取样本含量n=10的样本,则由该样本计算的t值大于等于2.262的概率为0.025,小于等于-2.262的概率亦为0.025。 P(t-2.262)+P(t2.262)0.05 或:P(-2.262t2.262)=1-0.05=0.95。 19总体均数的估计n点估计(Point Estimation)n区间估计 (Interval Estimation)20点估计样本统计量

6、 总体参数用样本均数 作为总体均数 的点估计值X21 例例5-1 2000年某研究所随机调查某地健康成年男年某研究所随机调查某地健康成年男子子27人,得到血红蛋白的均数为人,得到血红蛋白的均数为125g/L,标准差为,标准差为15g/L 。即认为即认为2000年该地所有健康成年男性血红蛋白量的年该地所有健康成年男性血红蛋白量的总体均数总体均数 为为125 g /L 。LgX/125点估计22点估计的缺陷=?cm =?cm x1,x2,x3,x4 N =143.3747 S = 5.2347x1,x2,x3x10 x =144.0681 S = 4.7245 x1,x2,x3x10 x =142

7、.7203 S= 9.2473 x1,x2,x3x10 x样本含量样本含量n =1023参数估计之二:区间估计区间估计:结合样本统计量和标准误可以确定一个具有较大可信度( 1 )的包含总体参数的区间,该区间称为总体参数的1 可信区间(confidence interval , CI)。习惯上取95%的可信度。24正确理解可信区间结合样本统计量和标准误确定的考虑了抽样误差25正确理解可信区间可信度为95%的CI的涵义:平均来说每100个样本所算得的100个可信区间有95个包含总体参数,有5个未包含总体参数。做一次抽样,“该可信区间包含总体参数”这句话未必正确,可信的程度为95%。-2 -1 0

8、1 226正确理解可信区间 可信区间通常由两个可信限(confidence limit)构成,其中较小者称为下限,记为CL,较大者称为上限,记为CU。严格地讲,可信区间并不包括上可信限和下可信限两个值,即可信区间(CL, CU)是一开区间。271、未知且样本例数较小(n50)时,按t分布)(, 2/双侧通式:XvStXXvXvStXStX,2/05. 0,2/05. 0,95双侧可信区间:XvXvStXStX, 2/01. 0, 2/01. 0,99双侧可信区间:28例5-3 已知某地27名健康成年男子的血红蛋白量均数=125 g /L,标准差S = 15 g /L。试问该市地健康成年男子血红

9、蛋白平均含量的95%可信区间和99%可信区间各是多少? 计算自由度:v =27-1=26查t 界值表 : = 0.05时,双侧 t0.05/2, 26=2.056, = 0.01时,双侧 t0.01/2, 26= 2.779; 按公式计算:lgStXlgStXXvXv/02.133,98.1162715779. 2125/94.130,06.1192715056. 2125,2/01. 0,2/05. 0292、样本例数n足够大(n50)或已知时,按标准正态分布)(2/双侧通式:XSuXXXSXSX96. 1,96. 195双侧可信区间:XXSXSX58. 2,58. 299双侧可信区间:30例5-4 某市2000年随机测量了90名19岁健康男大学生的身高,其均数为172.2 cm,标准差为4.5 cm,试估计该市2000年19岁健康男大学生平均身高的95%可信区间。) 1 .173,3 .171(905 . 496. 12 .17296. 12/XXSXSZX31总体均数的可信区间估计方法:t分布方法:未知且样本例数n较小正态分布近似方法: 样本例数n足够大(n50)或已知 32Homework某地随机抽查了360名健康男性的血红蛋白量,均数为130.2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论