抽样误差均数估计于.ppt_第1页
抽样误差均数估计于.ppt_第2页
抽样误差均数估计于.ppt_第3页
抽样误差均数估计于.ppt_第4页
抽样误差均数估计于.ppt_第5页
已阅读5页,还剩85页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章 统计推断基础 抽样误差、参数估计 Sampling error and Parameter estimation,主要内容,抽样误差 中心极限定理 标准误 抽样分布(分布2 分布F分布) 参数估计,1. 抽样误差 Sampling error,抽样误差 中心极限定理 标准误 抽样分布 参数估计,了解抽样误差的重要性,总体 同质、个体变异,总体参数 未知,样本 代表性、抽样误差,随机 抽样,样本统计量已知,统计推断,风 险,抽样误差,sampling error,sampling variability 由抽样引起的样本统计量与总体参数间的差别。 原因:个体变异抽样 表现: 样本统计量与总体参数间的差别 不同样本统计量间的差别 抽样误差是不可避免的! 抽样误差是有规律的!,假设一个已知总体,从该总体中抽样,对每个样本计算样本统计量(均数、方差等),观察样本统计量的分布规律抽样分布规律。 正态分布总体 偏三角分布总体 均匀分布总体 指数分布总体 双峰分布总体,均数的模拟试验,均数的模拟试验,考察: 样本均数的均数与总体均数有何关系? 样本均数的标准差与总体标准差有何关系? 样本均数的分布形状如何? 不同的样本含量对上述性质的影响如何?,抽样分布规律,样本含量n =10 抽样次数m =100,红细胞计数,图 正态分布N(5.00,0.502)总体分布,表4、1 N(5.00,0.502)总体中11个随机样本的数据(n=10),结论 1,各样本均数未必等于总体均数; 样本均数间存在差异;,由抽样实验所得的100个样本作出其均数 分布直方图如图4.1。曲线是对抽样得到的100个 数据拟合的分布曲线。,图 从正态分布N(5.00,0.502)总体中抽样样本均数的分布,图 从正态分布N(5.00,0.502)总体中抽样样本均数的分布,结论2,的分布很有规律,围绕着,中间多,两边少,左右基本对称; 样本均数的变异范围较之原变量的变异范围大大缩小;,2.中心极限定理 central limit theorem,抽样误差 中心极限定理 标准误 抽样分布 参数估计,中心极限定理(central limit theorem) (一)从均数为、标准差为 的正态总体中,独立随机抽取例数为n的样本,样本均数 的分布服从正态分布; 样本均数的均数为 ; 样本均数的标准差为 。,中心极限定理,(二)从非正态(nonnormal)分布总体(均数为,方差为)中随机抽样(每个样本的含量为n),可得无限多个样本,每个样本计算样本均数,则只要样本含量足够大(n50),样本均数也近似服从正态分布。 样本均数的均数为 ; 样本均数的标准差为 。,3.标准误 standard error,抽样误差 中心极限定理 标准误 抽样分布 参数估计,标准误(standard error),样本统计量的标准差称为标准误。样本均数的标准差称为均数的标准误。 均数的标准误表示样本均数的变异度。 当总体标准差未知时,用样本标准差代替, 前者称为理论标准误,后者称为样本标准误。,与样本含量的关系,n 越大,均数的均数就越接近总体均数; n 越大,变异越小,分布越窄; 对称分布接近正态分布的速度,大于非对称分布。分布越偏,接近正态分布所需样本含量就越大。,与标准差的关系,1、意义上 标准差描述个体值之间的变异,即观察值间的离散程度; 而标准误是描述统计量的抽样误差,即样本统计量和总体参数的接近程度; 2、用途上 标准差常用于表现观察值的波动范围; 标准误常表示抽样误差的大小,估计总体参数可信区间。 3、与样本含量 标准差是随着样本含量的增多,逐渐趋于稳定。 标准误是随着样本含量的增多,逐渐减少。,区 别,与标准差的关系,首先,标准差和标准误都是变异指标,说明个体之间的变异用标准差,说明统计量之间的变异用标准误。 其次,当样本含量不变时,标准差大,标准误亦越大,均数的标准误与标准差成正比。,联 系,4. 抽样分布(1) t-distribution,抽样误差 中心极限定理 标准误 抽样分布 参数估计,正态分布的标准化变化,若 X N(,) , 则 。,因 ,则 。,从正态分布总体中1000次抽样的 u 值的分布(n=4),Fraction,u,-4,-3,-2,-1,0,1,2,3,4,0,.05,.1,.15,.2,均数为 0.007559 标准差为 1.006294,t 分布的概念,实际工作中,总体方差未知。所以,用样本方差代替总体方差, 此时 的分布如何?,从正态分布总体中1000次抽样的 值的分布(n=4),Fraction,t,-8,-6,-4,-2,0,2,4,6,8,0,.05,.1,.15,.2,.25,.3,.35,均数为 0.05696 标准差为 1.55827,t 分布的概念,用样本方差代替总体方差,此时 不服从正态分布。,1908年,W.S.Gosset (1876-1937)以笔名Student发表了著名的t分布,证明了: 设从正态分布N(,2)中随机抽取含量为n的样本,样本均数和标准差分别为 和s,设:,则t值服从自由度为n-1的t分布(t-distribution)。,t 分布的概念,记为:,图 自由度分别为1、5、时的t分布,t分布图形,t分布的特征,t分布是一簇曲线,当不同时,曲线形状不同; 单峰分布,以0为中心,左右对称; 当逼近时,t分布逼近u分布,故标准正态分布是t分布的特例; t分布曲线下面积是有规律的。,请看演示,t 分布,t界值表,表上阴影部分,表示t,以外的尾部面积占总面积百分数,即概率P。 表中数据表示与确定时相应的t界值(critical value),常记为t,。,抽样,总体,样本,统计量,分布,t分布表明,从正态分布总体中随机抽取的样本,由样本计算的t值接近0的可能性较大,远离0的可能性较小。,例如,当=10,单尾概率=0.05时,查表得单尾t0.05,10=1.812,则: P(t-1.812)=0.05 或P(t1.812)=0.05,表明:按t分布的规律,从正态分布总体中抽取样本含量为n=11的样本,则由该样本计算的t值大于等于1.812的概率为0.05,或者小于等于-1.812的概率亦为0.05。,-1.812,0,0.05,0.05,1.812,例如,当=10,双尾概率=0.05时,查表得双尾t0.05,102.228,则: P(t-2.228)+P(t2.228)0.05 或:P(-2.228t2.228)=1-0.05=0.95。,表明:按t分布的规律,从正态分布总体中抽取样本含量为n=11的样本,则由该样本计算的t值大于等于2.228的概率为0.025,小于等于-2.228的概率亦为0.025。,-2.228,0,0.025,0.025,2.228,单尾:P(t- t,)=,或P(tt,)= 双尾:P(t- t/2,)+P(tt/2,)=, 即P(-t/2,t t/2,)=1-,-t,0,t,t分布曲线下面积规律,4. 抽样分布(2) chi-distribution,抽样误差 中心极限定理 标准误 抽样分布 参数估计,2 分布,设从正态分布N(,2)中随机抽取含量为n的样本,样本均数和标准差分别为 和s,设: 2值服从自由度为n-1的2分布(2-distribution),2 分布,请看演示,c2 分布,2分布的特征,(1) 2分布为一簇单峰正偏态分布曲线 ;随的逐渐加大,分布趋于对称。 (2) 自由度为的2分布,其均数为,方差为2。 (3) 自由度为的2分布实际上是个标准正态分布变量之平方和。 2=u12+ u22+ uv2,0.05,0.025,0.025,1.96,-1.96,2分布与正态分布的关系,(4) 每一自由度下的2分布曲线都有其自身分布规律。,自由度为1的2分布界值,0.0,0.1,0.2,0.3,0.4,0.5,2分布是方差的抽样分布。 2分布说明,从正态分布的总体中随机抽样,所得样本的方差s2接近于总体方差2的可能性大,远离总体方差的可能性小。 即2值接近其均数n-1的可能性大,远离n-1的可能性小。,2分布的特征,自由度10时,20.025,1020.48,20.975,103.25。 从正态分布的总体中随机抽样,得到的样本其2值大于等于20.48的概率为0.025,小于等于3.25的概率亦为0.025。 P(23.25)+P(220.48)0.05,2分布的特征,2分布近似描述具有某种属性的实际频数Ai与理论频数Ti之间的抽样误差,4. 抽样分布(3) F-distribution,抽样误差 中心极限定理 标准误 抽样分布 参数估计,F分布,设从两个方差相等的正态分布N(1,2)和N(2,2)总体中随机抽取含量分别为n1和n2的样本,样本均数和标准差分别为 、s1和 和s2。设: 则F值服从自由度为(n1-1,n2-1)的F分布(F-distribution)。,F分布的特征,(1) F分布为一簇单峰正偏态分布曲线,与两个自由度有关。 (2) 若F服从自由度为(1,2)的F分布,则其倒数1/F服从自由度为(2,1)的F分布。 (3) 自由度为(1,2)的F分布,其均数为2/(2-2),与第一自由度无关。 (4) 第一自由度11时,F分布实际上是t分布之平方;第二自由度2时,F分布实际上等于2分布。,请看演示,F分布,(5) 每一对自由度下的F分布曲线下的面积分布规律。,F分布的特征,F分布表明,从两个方差相等的正态分布总体中随机抽取含量分别为n1和n2的样本,计算所得F值,应接近v2/(v2-2)。 F(0.05;20,20)= 2.12表示,从方差相等的正态分布总体中随机抽取n1=n2=21的样本,则由两样本计算的F值大于等于2.12的可能性为0.025,而小于1/2.12=0.4717的可能性亦为0.025。,F分布的特征,F分布的特征,样本统计量的抽样分布,任何一个样本统计量均有其分布规律。 从正态分布总体中抽样: 均数的抽样分布为正态分布; 样本方差的分布服从2分布; 样本方差之比服从F分布; t 值服从 t 分布; ,5.参数估计 Parameter estimation,抽样误差 中心极限定理 标准误 分布 参数估计,1 ) 统计推断的思路,2) 统计推断(statistical inference),总体参数的估计 (parameter estimation) 假设检验 (hypothesis test),3) 参数的估计,点估计 (point estimation) 区间估计 (interval estimation),按一定的概率或可信度(1-)用一个区间估计总体参数所在范围。这个范围称作可信度为1- 的可信区间(confidence interval, CI),又称置信区间。,【例4.1】随机抽取12名口腔癌患者,检测其发锌含量,得 =253.05g/g =27.18g/g 求发锌含量总体均数95的可信区间。,4)例题:发锌含量,t 值的分布,理论基础:t值的抽样分布,-2.201 0 2.201,v11,0.025,0.025,区间估计:,可信区间(confidence interval):,区间193.23321.87(g/g)包含了总体均数,其可信度(confidence level)为95%。 结论:口腔癌患者发锌含量总体均数为193.23321.87(g/g)(可信度为95%)。 或:口腔癌患者发锌含量总体均数的95可信区间为: 193.23321.87(g/g)。,5)均数的(1-)100%可信区间构建方法,1-,5)均数的(1-)100%可信区间构建方法,5)均数的(1-)100%可信区间构建方法,均数的(1-)100%的可信区间: 可信限(confidence limit):,样本含量较大时,u 值的分布:,样本含量较大时,均数(1-)100%的可信区间:,此时,均数的(1-)100%的可信区间:,6 )均数之差的(1-)100%可信区间,例4.3 转铁蛋白含量 正常人:n1=12, 病人 :n2=15, 问题:两组平均相差多少?,问题:,正常组 病人组, 1- 2 ?,与均数之差有关的抽样分布,“均数之差”与“均数之差的标准误”之比, 服从自由度 = n1+n2 -2的 t 分布。 样本含量较大时,服从标准正态分布。,合并方差与均数之差的标准误,合并方差(方差的加权平均) 均数之差的标准误,根据,可得1-2的可信区间:,计算:,则合并方差为:,自由度为=n1+n2-2=12+15-2=25、0.05的t界值为:t0.05,25=2.060 ,则两组均数之差的95可信区间为: (271.89235.21 ) 2.060 4.95 = 26.48 46.88,结论:,病毒性肝炎患者的血清转铁蛋白含量较正常人平均低36.68(g/dl),其95可信区间为26.4846.88(g/dl)。,可信区间,均数 率 事件数 方差,7) 可信区间的两个要素,可信度(1-), 可靠性 一般取90%,95%。 可人为控制。 精确性 是指区间的大小(或长短) 兼顾可靠性、精确性,影响可信区间大小的因素,可信度 可信度越大,区间越宽 个体变异 变异越大,区间越宽 样本含量 样本含量越大,区间越窄,8 ) 正确理解可信区间:,可信度为95%的CI的涵义: 每100个样本,按同样方法计算95%的CI,平均有95%的CI包含了总体参数。 这里的95%,指的是方法本身!而不是某个区间! 在可信区间被估计之前,概率是存在的; 在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论