抽样误差课件_第1页
抽样误差课件_第2页
抽样误差课件_第3页
抽样误差课件_第4页
抽样误差课件_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第七章 参数估计 Sampling Error 反之, 当固定时,n越大, 则X 就越小。,样本均数的分布,若原始分布服从正态分布,则其样本均数服从正态分布。 若原始分布不服从正态分布,当样本量够大时(如n60),其样本均数一般服从正态分布(中心极限定理)。,抽 样 误 差,由数理统计的中心极限定理可知,无论原始总体为何种分布, 只要它具有总体均数和标准差,当样本含量足够大时(n60),X都近似服从均数为, 标准差为X 的正态分布。,中心极限定理(central limit theorem),当n足够大,样本均数逐渐趋于正态分布,任一分布的总体,这一点具有很高的实用价值的。因为在实际工作中,许

2、多医学测量结果,我们并不知道它的确切分布。有了这条性质,就可以利用正态分布原理对其特征进行推断。,抽 样 误 差,标准差 VS 标准误,t 分 布 t Distribution,希尔米特,哥赛特,早在1875年,德国天文学家、测量学家F.R.Helmert 就在数学上发现了t分布。,1908年Gosset以Student为笔名发表的论文,提出了t分布的概念,从而开创了小样本统计推断的新纪元。,t分布的发现,t 分 布,标准化变换 抽样实验中,各个X 也服从总体均数 标准差为 的正态分布,对各个Xi也做一下标准化变换,在实际工作中,s通常是未知的, 用各个样本标准差Si估计s ,则得到 该式已经

3、不服从标准正态分布了, 而是t分布,t 分 布,t分布,Z转换,估计,t 分 布,三条t分布密度曲线,v=1,v=5,v=,分布特征 t分布曲线是单峰的 关于t=0对称 t分布与标准正态分布的关系 自由度n较小时,t分布与标准正态分布相差较大,并且t分布曲线的尾部面积大于标准正态分布曲线的尾部面积 当自由度 时,t分布逼近于标准正态分布。,t 分 布,t分布与标准正态分布的区别在于:中间小,两尾翘(大)。t分布与Z分布曲线下面积均为1。,0,t 分 布,t 界值表,给定自由度n,t分布曲线的双侧尾部面积为时对应的t值,记为t2,n并称其为t的双侧界值. 单侧界值 :一侧尾部面积为时对应的t 值

4、t2,n 对称性:2单侧曲线下面积=双侧曲线下面积,同一t值单侧概率是双侧概率的一半。,给定曲线下面积对应的界值与自由度n有关。 同样的尾部面积,t分布的界值要大于标准正态分布的界值,t 界值表,t 界值表,单侧(one-sided/tailed): 双侧(two-sided/tailed):,t 界值表,t分布界值示意图,表示阴影的面积,t分布曲线下面积,双侧t0.05/2,1.96 单侧t0.025,,规律:1. 同一下,t值增加,P值减小 2. 同一P值下,增加,t值减小,反向关系,参 数 估 计 Estimation of Parameter,参 数 估 计,参数估计(estimati

5、on of parameter): 用样本统计量估计总体参数。,参 数 估 计,点 估 计,区间估计,总体均数的估计,置信上限,点估计:point estimation 区间估计:interval estimation,点估计(point estimation),直接用样本均数作为总体均数的估计值, 不足之处在于:它没有考虑到抽样误差。 在大样本情况下,用X 和 S 作为和的估计值计算参考值范围。 总体均数的点估计: 总体率的点估计: 即样本均数和样本率分别是总体均数和总体率的估计值。,区 间 估 计( interval estimation),指给出一个区间(常称为可信区间, confide

6、nce interval, CI) , 并同时给出该区间包含总体均数的概率(即:可能性,一般取95%)。,重复试验时该区间包含总体均数的概率 表示为 1- 或 100(1-)% 常用的有 99%, 95%, 90% 相应的为0.01,0.05,0.10,置信水平/可信度,总体均数的区间估计,总体均数的双侧1-置信区间为:,例2,由例1中的第二个样本计算总体均数的95可信区间。(X5.03,S0.52,n10 ) 查附表2的t 界值表,得双侧,即95可信区间为:,从总体中作随机抽样,如:100次,得100个可信区间,平均有95个可信区间包括总体均数m (估计正确),只有5个可信区间不包括总体均数

7、m(估计不正确)。 实际中,只作一次抽样,只得到一个可信区间,作为未知总体均数的可能范围的估计,理论上有95的可能是正确的,而5的可能发生错误。,95可信区间的含义:,精密度 (precision),可靠(reliability) 1-a,增大 样本量,不同置信度下可信区间的对比,参考值范围与可信区间的区别,例:已知某市100 名健康成年男性工人血红蛋白量资料服从正态分布, 其X=141.8 g/L,S=12.2 g/L。试计算双侧95%参考值范围及95%可信区间。,解:由题意可知,用正态分布法计算双侧95%参考值范围: 95%可信区间用公式 计算: 本例n100, 100199, t1.66 标准误 ,则,参考值范围与可信区间的区别,我们估计该市95%成年男性工人血红蛋白量在117.9165.7g/L之间。 我们有95%的把握, 他们的平均血红蛋白量在139.8143.8g/L之间。 显然后者范围要窄于前者。,参考值范围与

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论