总体均数估计PPT培训资料_第1页
总体均数估计PPT培训资料_第2页
总体均数估计PPT培训资料_第3页
总体均数估计PPT培训资料_第4页
总体均数估计PPT培训资料_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1,第六章 参数估计基础,总体,样本,统计推断:用样本信息推断总体特征,包括参数估计和假设检验,2,图示:总体与样本,Population,sample2,sample1,sample3,sample4,sample5,3,抽样试验(n=5,4,抽样试验(n=10,5,抽样试验(n=30,6,1000份样本抽样计算结果,7,3个抽样实验结果图示,8,各样本均数未必等于总体均数; 各样本均数间存在差异; 样本均数的分布为中间多,两边少,左右基本对称。 样本均数的变异范围较之原变量的变异范围大大缩小,样本均数的抽样分布具有如下特点,9,10,中心极限定理,1)从正态总体中作随机抽样,则样本均数服从

2、正态分布;从偏态总体中作随机抽样,样本含量n足够大(n30)则样本均数近似服从正态分布,2)从总体均数为,标准差为的正态总体中抽取例数为n的样本,样本均数的总体均数为,标准差为,11,12,样本频率的抽样分与抽样误差,黑球的比例为20%,重复摸球50次,计算摸到黑球的频率,表6-3 =20%的随机抽样结果(n=50,13,一、抽样误差与标准误,1.抽样误差:由于抽样造成的样本统计量与总体参数以及样本统计量与样本统计量之间的差异。 抽样误差是不可避免的,但可以估计。 2.标准误(Standard error,SE):标准误为样本均数的标准差,用 表示,是说明样本均数抽样误差的大小的指标,描述样本

3、均数的离散程度,反映用样本均数估计或推断总体均数的可靠性,14,3.标准误的计算,均数的标准误与标准差成正比,与样本例数的平方根成反比。 若标准差固定不变时,可增加n而缩小抽样误差,15,对于二项分布,XB(n,), 则样本频率 其标准误,实际中, 一般未知, 常用样本频率p近似代替 则其标准误,16,4. 标准误的应用,1)表示抽样误差大小,描述(n相同)样本统计量的离散程度,反映用样本统计量估计或推断总体参数的可靠性; (2)用于估计总体参数的可信区间; (3)用于进行样本均数/频率的假设检验,17,18,二、t 分布的概念,19,20,式中 为自由度(degree of freedom,

4、 df,3实际工作中,由于 未知,用 代替,则 不再服从标准正态分布,而服从t 分布,21,22,4. t 分布曲线的特征,1)t 分布是一簇曲线。它受自由度的影响,自由度不同曲线形状不同。 (2)是t 分布曲线的参数: n越小,越小,曲线越平缓 n越大,越大,曲线越陡峭 n,曲线近似于标准正态分布曲线。 (3)以0为中心,左右对称呈钟形。 (4)标准正态分布是t 分布的特例,23,24,t界值表:详见附表2,可反映t分布曲线下的面积。 单侧概率或单尾概率:用 表示; 双侧概率或双尾概率:用 表示,25,26,三、总体参数的估计,1.参数估计:用样本统计量估计总体参数。包括点估计和区间估计。

5、(1)点估计(Point Estimation):直接用样本指标作为总体参数的估计; (2)区间估计(Interval Estimation) :用预先给定的概率(可信度、把握度1-)估计总体参数所在的范围。此范围称为置信区间(可信区间):Confidence Interval, CI,27,1点估计(point estimation) 用相应样本统计量直接作为其总体参数的估计值,S估计,其方法虽简单,但未考虑抽样误差的大小,28,按预先给定的概率(1)所确定的包含未知总体参数的一个范围。 总体均数的区间估计:按预先给定的概率(1)所确定的包含未知总体均数的一个范围。 如给定=0.05,该范围

6、称为参数的95%可信区间或置信区间; 如给定=0.01,该范围称为参数的99%可信区间或置信区间,2区间估计(interval estimation,29,总体均数置信区间的计算需考虑: (1)总体标准差是否已知, (2)样本含量n的大小 通常有两类方法: (1) t分布法 (2)z分布法,总体均数置信区间的计算,30,总体均数置信区间的计算,1、t分布法 当总体标准差未知且n50时,总体均数的双侧(1-)置信区间,总体均数的单侧(1-)置信区间,31,32,33,2、正态分布近似法 当已知 或 未知,但 n50 时,总体均数的双侧(1-)置信区间,34,总体均数的单侧(1-)置信区间,35,

7、例3-3 某地抽取正常成年人200名,测得其血清胆固醇的均数为3.64 mmol/L,标准差为1.20mmol/L,估计该地正常成年人血清胆固醇均数的95%置信区间,36,故该地正常成年人血清胆固醇均数的双侧95%可信区间为(3.47, 3.81)mmolL,37,参数估计的方法,1)已知,根据正态分布原理,95%、99%CI,2)未知,n较小,据t分布原理:95%、99%CI,3)未知,n较大,据近似正态分布原理,38,正态分布法 样本含量n足够大, np与n(1-p)均5时,总体概率的置信区间计算,39,For example,例6-6 用某种仪器检查已确诊的乳腺癌患者120名,检出乳腺癌

8、患者94例,检出率为78.3%。估计该仪器乳腺癌总体检出率的95%置信区间。 95%的置信区间为: 该仪器乳腺癌总体检出率的95%置信区间 ( 70.9%,85.7,40,查表法 当样本含量较小(如n50),np或n(1p)5时,样本率的分布呈二项分布,总体率的置信区间可据二项分布的理论求得。 例6-7 某医院用某药治疗脑动脉硬化症22例,其中显效者10例。问该药总显效率的95%置信区间为多少? 本例n=22, X=10, 查附表6(478页),得此两数相交处的数值为2468,即该药总显效率的95%置信区间为(24%,68,41,三)置信区间的确切涵义,42,1. 95%的置信区间的理解: (1)所要估计的总体参数有95%的可能在我们所估计的置信区间内。 (2)从正态总体中随机抽取100个样本,可算得100个样本均数和标准差,也可算得100个均数的置信区间,平均约有95个置信区间包含了总体均数 。 (3)但在实际工作中,只能根据一次试验结果估计置信区间,我们就认为该区间包含了总体均数,43,2.置信区间的两个要素 (1)准确度:用可信度(1)表示:即区间包含总体均数的理论概率大小 。 当然它愈接近1愈好,如99%的置信区间比95%的置信区间要好 (2)精确度:即区间的宽度 区间愈窄愈好,如95%的置信区间比99%的置信区间要好,44,当n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论