




已阅读5页,还剩22页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章 抽样误差与区间估计,一、均数的抽样误差,抽样的目的是用样本信息来推断总体特征,因此要保证样本的可靠性和代表性,使样本能够充分地反映总体的真实情况。这就要求严格遵循独立性和随机化的原则,并保证足够的样本含量。 为了解某地成年男子红细胞的总体均数,随机抽样调查了200人,计算得到 这是一个点估计值,可以用来估计总体均数。但此时样本均数不太可能等于总体均数。,这种由个体变异产生的、随机抽样而引起的统计量与总体参数间的差异称为的抽样误差(sampling error),在抽样研究中抽样误差是不可避免的,只要抽样就会有抽样误差存在,但是抽样误差的分布有一定的规律性,并且可以通过一定的方法来估计。,根据数理统计原理,样本均数抽样结果具有如下特点: 从正态总体N(,2)中,随机抽取例数为n的样本,样本均数也服从正态分布,即使是从偏态总体中抽样,当n足够大时,样本均数的分布也服从正态分布; 从均数为,标准差为的正态或偏态总体中,抽取例数为n的样本,样本均数的均数 ,标准差为 。,是样本均数的标准差也称为标准误,它反映了样本均数与总体均数之间的离散程度,常用以说明均数抽样误差的大小。 标准误的计算公式如下: 该式反映了标准误 的大小与标准差 呈正比,与样本量的平方根呈反比。因此,在抽样研究中,可适当增加样本含量,控制和减小抽样误差。,在实际工作中,总体标准差常是未知的而是用样本标准差s 来代替, 的估计值记作 。,从 N(4.83, 0.522)的总体中作随机抽样,n=10, 重复100次的抽样结果见P31。计算得到:,随机抽样调查了200人,计算得到 : 估计其抽样误差:,标准误的用途,标准误是反映样本均数变异程度的指标,常用来表示抽样误差的大小。标准误大反映样本均数抽样误差大,其对总体均数的代表性差;标准误小,样本均数抽样误差就小,其对总体均数的代表性就好。 标准误可用于计算总体均数的可信区间,也是进行假设检验的基础。,标准差和标准误的区别,意义: 标准差描述个体值间的变异程度,即观察值间的离散度,标准差小,表示观察值围绕均数的波动较小。当观察值呈正态或近似正态分布时,可将均数及标准差同时写出,如 。 标准误描述统计量的抽样误差的大小,即样本统计量与总体参数的接近程度。标准误小,表示抽样误差小,则统计量较稳定,与参数较接近。,标准差和标准误的区别,用途 标准差表示观察值间波动的大小,如精密度的大小,当资料服从正态或近似正态分布时,可结合均数估计正常值范围: 标准误表示抽样误差的大小,用于估计总体参数的可信区间:,标准差、标准误与样本含量的关系,标准差随着样本量的增多,逐渐趋于稳定,如同地区、同年龄、同性别儿童的身高、体重的标准差,当样本含量达到约200以上时,基本趋于稳定。 标准误随着样本量的增多而减小,如均数的标准误,当标准差不变时,与样本量的平方根呈反比。 当样本含量趋近于总体例数时,则样本标准差趋于稳定,近似等于总体标准差;标准误则趋近于0,抽样误差几乎消失。,二、均数抽样误差的分布t分布,在总体均数为,标准差为的正态总体中,独立随机的抽取样本含量为n的样本,则样本均数服从正态分布 : 将样本均数标准化,则: 其中的分母称为均数的标准误,如果变量是正态的或近似正态的,则标准化的变量服从或近似服从N(0,1)分布,即u分布。,若上式中的 是未知的,可用样本标准差s代替总体标准差 ,此时采用的不是 u 变换而是 t 变换了,即: 其结果就不再服从标准正态分布了,而是服从自由度为n-1 的 t 分布。,t 分布也是一种对称分布,它只有一个参数,即自由度。t 分布与标准正态分布相比有以下特征: 二者都是单峰分布,以0为中心,左右两侧对称。 t 分布的峰部较矮而尾部翘得较高,说明远侧 t 值的个数相对较多,即尾部面积(概率P)较大。自由度越小这种情况越明显。 t分布不是一条曲线,而是由一簇随自由度改变而变化的曲线所组成。当逐渐增大时,t 分布逐渐逼近标准正态分布;当 = 时,t分布就完全成为标准正态分布了。,t 界值,统计学家已将各种自由度对应的t分布曲线下的尾部面积(概率)的百分界值编制成t界值表。 由于t分布是以0为中心的对称分布,故表中只列出正值,所以查表时,不管t 值正负只用绝对值。 表右上角插图中阴影部分,表示t,以外尾部面积占总面积的百分数,即概率P。 随着自由度的增大,t界值逐渐减小,当自由度无穷大时,双侧t0.05=1.96,单侧t0.05,=1.645,即为u分布的界值。,如由表查出单侧t0.05,10=1.812,表示从正态总体作样本例数为11的随机抽样,其t 值服从=n-1=11-1=10的t 分布,理论上 P(t-1.812)=0.05,或P(t1.812)=0.05 用更一般的表示法为 单侧:P(t-t,)=,或P(tt,)= 双侧:P(t-t,)+P(tt,)= 反之 P(-t,tt,)=1-,总体均数的估计,参数估计是通过样本指标(统计量)来估计总体指标(参数)。它包括两种方法: 点(值)估计(point estimation):即把样本统计量直接作为总体参数的估计值,如用样本均数来估计总体均数。这种方法虽然很简单,但是未涉及随机误差,而随机误差在抽样研究中是不可忽视的。 区间估计(interval estimation)即按一定的概率估计总体均数在哪个范围,它把抽样误差引入估计量,确定具有特定概率意义的区间。,可信区间与参考值范围,可信区间是从总体中作随机抽样,每个样本可以算出一个可信区间,如95%可信区间,意味着100次抽样,算得100个可信区间,平均有95个可信区间包括总体均数(估计正确),只有5个可信区间不包括总体均数(估计错误)。5%是小概率事件,实际发生的可能性小,因此,在实际应用中就认为总体均数在算得的可信区间内, 这种估计方法会冒5%犯错误的风险。 参考值范围是指同质总体中大多数个体变量值的分布范围。95%参考值范围指同质总体中95%的个体值分布在此范围内。它与标准差有关,各个体值变异越大,该范围越宽,分布也越分散。,可信区间和可信限,可信限(CL)分别指两个点值。 可信区间(常简记为CI)是以上、下可信限为界的一个范围。 比如可信区间(5.31, 5.45)1012/L的下限是5.311012/L,上限是5.451012/L 。,区间估计,设有一正态总体N(,2),现从中随机抽取一个样本,该样本的均数和标准差分别用 和s表示,样本均数的标准t离差服从t分布,则可信度为(1- )的t值满足: P(-t, t t,)=1- 将 代入不等式,即:,于是得可信度为1- 时,计算总体均数可信区间的通式为: 习惯上,常取1- =0.95, 即95%可信区间;或取1- =0.99, 即99%可信区间。,未知时。一般用t分布的原理作区间估计。 已知 未知,但n足够大,例:对某人群随机抽取20人,用某批号的结核菌素作皮试,平均浸润直径为10.9mm,标准差为3.86mm。问这批结核菌素在该人群中使用时,皮试的平均浸润直径的95%可信区间是多少? 查附表,t0.05,19=2.093 所以该人群皮试的平均浸润直径的95%可信区间为9.112.7mm 。,可信区间的两个要素,准确度:反映在可信度1-的大小,即区间包含总体均数的概率的大小,当然愈接近1愈好; 精度:反映在区间的长度,当然长度愈小愈好。 在样本例数确定的情况下,二者是矛盾的。一般情况下,在可信度确定的情况下,增加样本例数,可减少区间长度,提高精度。,小结,在正态总体N(,2)中作随机抽样,样本均数的分布呈正态分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 智能网联传感器及控制器生产线项目环境影响报告书
- 深海养殖系统设计与优化方案
- 2025年电大社会保障学试题及答案
- 2025年外贸相关英语题库及答案
- 2025年高考电表改装真题及答案
- 市政供热老旧管网改造工程施工方案
- 离婚协议中双方个人隐私保护及信息共享限制样本
- 离婚协议子女抚养及财产分割法律依据范本
- 自然保护区生态环境保护方案
- 动力电池系统生产线项目技术方案
- 2022年太原市第二热力有限责任公司招聘笔试试题及答案解析
- 高中生励志奋斗与梦想课件
- 《中职地理》配套教学课件
- 水运工程质量检验标准表格
- 新教材人教版高中物理选择性必修第二册全册教学课件
- DB51∕T 2571-2019 林下黄精种植技术规程
- 世园会周边环境综合整治工作汇报
- 金相检验4-结构钢的金相检验
- 不同截面钢牛腿设计计算(excel)
- 钢结构单层厂房施工组织设计方案
- 安全生产费用投入台账模报表
评论
0/150
提交评论