抽样误差区间估计PPT课件_第1页
抽样误差区间估计PPT课件_第2页
抽样误差区间估计PPT课件_第3页
抽样误差区间估计PPT课件_第4页
抽样误差区间估计PPT课件_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

-,1,主要内容,抽样误差中心极限定理标准误抽样分布(分布2分布F分布)参数估计,-,2,1.抽样误差Samplingerror,抽样误差中心极限定理标准误抽样分布参数估计,-,3,了解抽样误差的重要性,总体同质、个体变异,总体参数未知,样本代表性、抽样误差,随机抽样,样本统计量已知,统计推断,风险,-,4,抽样误差,假如事先知道某地七岁男童的平均身高为119.41cm。为了估计七岁男童的平均身高(总体均数),研究者从所有符合要求的七岁男童中每次抽取100人,共计抽取了三次。,-,5,抽样误差,samplingerror,samplingvariability由抽样引起的样本统计量与总体参数间的差别。原因:个体变异抽样表现:样本统计量与总体参数间的差别不同样本统计量间的差别抽样误差是不可避免的!抽样误差是有规律的!,-,6,模拟试验,假设一个已知总体,从该总体中抽样,对每个样本计算样本统计量(均数、方差等),观察样本统计量的分布规律抽样分布规律。考察:不同的分布不同的样本含量对统计量的影响。,-,7,均数的模拟试验,从不同总体中进行抽样,观察均数的抽样分布规律。正态总体偏三角分布总体均匀分布总体指数分布总体双峰分布总体考察:样本均数的均数与总体均数有何关系?样本均数的标准差与总体标准差有何关系?样本均数的分布形状如何?不同的样本含量对上述性质的影响如何?,-,8,正态分布样本均数的分布,从N(100,62)中随机抽样,样本含量为4的10份独立样本的均数、标准差、抽样误差,-,9,样本均数的均数和标准差,-,10,结论1,各样本均数未必等于总体均数;样本均数间存在差异;,-,11,由抽样实验所得的1000个样本作出其均数分布直方图。曲线是对抽样得到的1000个数据拟合的分布曲线。,-,12,从N(100,62)中随机抽样,样本含量为4的1000个样本均数的频率分布图,0,.05,.1,.15,80.0,90.0,100.0,110.0,120.0,SampleMean,样本均数服从正态分布,-,13,结论2,的分布很有规律,围绕着,中间多,两边少,左右基本对称;样本均数的变异范围较之原变量的变异范围大大缩小;,-,14,n=10,n=4,n=25,n=2,SamplingDistributionofsamplemeans,Samplingdistributionformeans,-,15,结论3,随着样本含量的增加,变异越小,样本均数的变异范围逐渐缩小;且与样本含量的平方根成反比对称分布接近正态分布的速度,大于非对称分布。分布越偏,接近正态分布所需样本含量就越大。随着样本含量的增加,均数的均数就越接近总体均数;,-,16,2.中心极限定理centrallimittheorem,抽样误差中心极限定理标准误抽样分布参数估计,-,17,从N(100,62)中随机抽样,样本含量为4的1000个样本均数的频率分布图,0,.05,.1,.15,80.0,90.0,100.0,110.0,120.0,SampleMean,样本均数服从正态分布,-,18,中心极限定理(centrallimittheorem)Case1:从正态分布总体N(,2),中随机抽样(每个样本的含量为n),可得无限多个样本,每个样本计算样本均数,则样本均数也服从正态分布。样本均数的均数为;样本均数的标准差为。,-,21,中心极限定理,Case2:从非正态(nonnormal)分布总体(均数为,方差为2)中随机抽样(每个样本的含量为n),可得无限多个样本,每个样本计算样本均数,则只要样本含量足够大(n50),样本均数也近似服从正态分布。样本均数的均数为;样本均数的标准差为。,-,22,3.标准误standarderror,抽样误差中心极限定理标准误抽样分布参数估计,-,23,标准误(standarderror),样本统计量的标准差称为标准误。样本均数的标准差称为均数的标准误。均数的标准误表示样本均数的变异度。当总体标准差未知时,用样本标准差代替,前者称为理论标准误,后者称为样本标准误。,中心极限定理,-,24,标准误的意义,反映了样本统计量分布的离散程度,体现了抽样误差的大小。标准误越大,说明样本统计量的离散程度越大,即用样本统计量来直接估计总体参数越不精确。反之亦然。标准误的大小与标准差有关,在例数n一定时,从标准差大的总体中抽样,标准误较大;而当总体一定时,样本例数越多,标准误越小。说明我们可以通过增加样本含量来减少抽样误差的大小。,-,25,4.抽样分布(1)t-distribution,抽样误差中心极限定理标准误抽样分布参数估计,-,26,正态分布的标准化变化,若XN(,),则。,因,则。,-,27,从正态分布总体中1000次抽样的u值的分布(n=4),Fraction,u,-4,-3,-2,-1,0,1,2,3,4,0,.05,.1,.15,.2,均数为0.007559标准差为1.006294,总体方差已知,-,28,t分布的概念,实际工作中,总体方差未知。所以,用样本方差代替总体方差,此时的分布如何?,-,29,从正态分布总体中1000次抽样的值的分布(n=4),Fraction,t,-8,-6,-4,-2,0,2,4,6,8,0,.05,.1,.15,.2,.25,.3,.35,均数为0.05696标准差为1.55827,-,30,t分布的概念,用样本方差代替总体方差,此时不服从正态分布。,-,31,1908年,W.S.Gosset(1876-1937)以笔名Student发表了著名的t分布,证明了:设从正态分布N(,2)中随机抽取含量为n的样本,样本均数和标准差分别为和s,设:,则t值服从自由度为n-1的t分布(t-distribution)。,t分布的概念,记为:,-,32,图自由度分别为1、5、时的t分布,t分布图形,-,33,t分布的特征,t分布是一簇曲线,当不同时,曲线形状不同;单峰分布,以0为中心,左右对称;当逼近时,t分布逼近u分布,故标准正态分布是t分布的特例;t分布曲线下面积是有规律的。,请看演示,t分布,-,34,t界值表,表上阴影部分,表示t,以外的尾部面积占总面积百分数,即概率P。表中数据表示与确定时相应的t界值(criticalvalue),常记为t,。,-,35,抽样,总体,样本,统计量,分布,t分布表明,从正态分布总体中随机抽取的样本,由样本计算的t值接近0的可能性较大,远离0的可能性较小。,-,36,例如,当=10,单尾概率=0.05时,查表得单尾t0.05,10=1.812,则:P(t-1.812)=0.05或P(t1.812)=0.05,表明:按t分布的规律,从正态分布总体中抽取样本含量为n=11的样本,则由该样本计算的t值大于等于1.812的概率为0.05,或者小于等于-1.812的概率亦为0.05。,-1.812,0,0.05,0.05,1.812,-,37,例如,当=10,双尾概率=0.05时,查表得双尾t0.05,102.228,则:P(t-2.228)+P(t2.228)0.05或:P(-2.228t2.228)=1-0.05=0.95。,表明:按t分布的规律,从正态分布总体中抽取样本含量为n=11的样本,则由该样本计算的t值大于等于2.228的概率为0.025,小于等于-2.228的概率亦为0.025。,-2.228,0,0.025,0.025,2.228,-,38,单尾:P(t-t,)=,或P(tt,)=双尾:P(t-t/2,)+P(tt/2,)=,即P(-t/2,t100,标准正态分布代替t分布,u0.10=1.64142.671.640.5477=141.77143.57即该市12岁男童平均身高的90可信区间为:141.77143.57(cm),可认为该市12岁男童平均身高在141.77143.57(cm)之间。,-,65,6)均数之差的(1-)100%可信区间,例4.3转铁蛋白含量(page41)正常人:n1=12,病人:n2=15,问题:两组平均相差多少?,-,66,问题:,正常组病人组,1-2?,-,67,与均数之差有关的抽样分布,“均数之差”与“均数之差的标准误”之比,服从自由度=n1+n2-2的t分布。样本含量较大时,服从标准正态分布。,-,68,合并方差与均数之差的标准误,合并方差(方差的加权平均)均数之差的标准误,-,69,计算:,则合并方差为:,自由度为=n1+n2-2=12+15-2=25、0.05的t界值为:t0.05,25=2.060,则两组均数之差的95可信区间为:(271.89235.21)2.0604.95=26.4846.88,-,70,结论:,病毒性肝炎患者的血清转铁蛋白含量较正常人平均低36.68(g/dl),其95可信区间为26.4846.88(g/dl)。,-,71,可信区间一旦形成,它要么包含总体参数,要么不包含总体参数,二者必居其一,无概率可言。所谓95的可信度是针对可信区间的构建方法而言的。以均数的可信区间为例,其涵义是:如果重复100次抽样,每次样本含量均为n,每个样本均按构建可信区间,则在此100个可信区间内,理论上有95个包含总体均数,而有5个不包含总体均数。,正确理解可信区间:,-,72,95%可信区间的含义,按这种方法构建的可信区间,理论上平均每100次,有95次可以估计到总体参数。,-,73,正确理解可信区间的涵义,在区间估计中,总体参数虽未知,但却是固定的值(且只有一个),而不是随机变量值。,-,74,下列说法正确吗?,算得某95%的可信区间,则:总体参数有95%的可能落在该区间。有95%的总体参数在该区间内。该区间包含95%的总体参数。该区间有95%的可能包含总体参数。该区间包含总体参数,可信度为95%。,-,75,可信区间与参考值范围的区别,可信区间用于估计总体参数,总体参数只有一个。参考值范围用于估计变量值的分布范围,变量值可能很多甚至无限。95%的可信区间中的95%是可信度,即所求可信区间包含总体参数的可信程度为95%95%的参考值范围中的95%是一个比例,即所求参考值范围包含了95%的正常人。,-,76,标准差与标准误的联系,都是变异指标。当n不变时,标准差,标准误,-,77,标准差与标准误的区别,标准差描述原始数据的离散程度;标准误

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论