研究生医学统计学-参数估计_第1页
研究生医学统计学-参数估计_第2页
研究生医学统计学-参数估计_第3页
研究生医学统计学-参数估计_第4页
研究生医学统计学-参数估计_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

4.参数估计,抽样分布与标准误Z分布与t分布总体参数的估计,4.1抽样分布与抽样误差,抽样研究的目的是用样本信息推断总体特征,即用样本资料计算的统计指标推断总体参数.常用的统计推断方法有参数估计(总体均数和总体概率的估计)假设检验.,统计推断:抽样研究中用样本统计量来推论总体参数的过程。参数估计:用样本统计量来估计总体参数(总体均数和总体概率)的大小。假设检验:又称显著性检验,方法:均数z检验、t检验、方差分析,2检验、秩和检验等.,相关概念:定量变量资料:对每个观察单位用定量的方法测定某项指标数量的大小所收集的资料。定性变量资料总体:根据研究目的确定的同质研究对象的全体或研究对象某项变量值的集合。样本:总体中随机抽取的一部分研究对象的某项变量值的集合。参数:总体的统计指标叫总体参数。统计量:从样本计算出来的统计指标。抽样误差:,4.1.1样本均数,样本均数的抽样分布与抽样误差标准误,1.样本均数的抽样分布,抽样试验,从正态分布总体N(5.00,0.502)中,每次随机抽取样本含量n5,并计算其均数与标准差;重复抽取1000次,获得1000份样本;计算1000份样本的均数与标准差,并对1000份样本的均数作直方图。按上述方法再做样本含量n10、n30的抽样实验;比较计算结果。,抽样试验(n=5),抽样试验(n=10),1000份样本抽样计算结果,抽样试验(n=30),3个抽样实验结果图示,样本均数的抽样分布具有以下特点:1.各样本均数未必等于总体均数;2.样本均数之间存在差异;3.样本均数的分布很有规律,围绕着总体均数,中间多、两边少,左右基本对称,也服从正态分布;4.样本均数的变异较之原变量的变异大大缩小,抽样实验小结,样本均数围绕总体均数上下波动。随着样本含量的增大,样本均数的变异程度(样本均数的标准差即标准误)逐渐减小。从正态总体N(m,s2)中抽取很多个样本含量n相同的样本,获得样本均数的分布仍近似呈正态分布N(m,s2/n)。,非正态总体样本均数的抽样实验图(a)是一个正偏峰的分布,用电脑从中随机抽取n=5,10,30,50的样本各1000次,计算样本均数并绘制4个直方图。图(b)(e)显示,当样本量n较小时,样本均数的分布当然并非正态分布,样本量足够大时(例如,n50),样本均数的分布近似于正态分布。,图(a),x,图b(n=5),图c(n=10),图d(n=30),图e(n=50),中心极限定理centrallimittheorem,从正态总体N(m,s2)中抽取很多个样本含量n相同的样本,所得样本均数的分布仍近似呈正态分布。从非正态总体中抽取样本,当样本含量n比较大时,所得样本均数的分布也近似呈正态分布。,2、均数的抽样误差(Samplingerrorofmean),1.概念:从总体中随机抽样时,样本均数与总体均数或样本均数与样本均数之间的差异,称作均数的抽样误差。2.产生抽样误差的原因:是因为总体中的个体之间存在变异。抽样误差是不可避免的,但其大小可以估计。均数抽样误差大小以均数的标准误表示。,3、均数的标准误(standarderrorofmean),样本均数的标准差叫均数的标准误1)符号:以表示。实际应用中,常属未知,无法计算,故常以作为的估计值。2)计算:,例2000年某研究者随机调查某地健康成年男子27人,得到血红蛋白量的均数为125g/L,标准差为15g/L。试估计该样本均数的抽样误差。,3)意义:它是描述均数抽样误差大小的指标,反映样本含量相同的样本均数的离散趋势或变异程度。越大,说明样本均数的波动范围越大或抽样误差越大,由样本均数推论总体均数时的可靠性越差。,4)均数标准误的应用,(1)说明均数抽样误差的大小,记为。(2)结合均数推断总体均数的置信区间。(3)用均数标准误进行均数的假设检验。,4.1.2样本频率,实验在一口袋内装有形状、重量完全相同的黑球和白球,已知黑球比例为20%(总体概率=20%),从口袋中每摸一次看清颜色后放回去,搅匀后再摸,重复摸球35次(n=35),计算摸到黑球的百分比(样本频率pi)。重复这样的实验100次,每次得到100个黑球的比例分别为14.4%,19.8%,20.2%,22.5%,等,将其频数分布列于下表。,表5-3总体概率为20%时的随机抽样结果(ni=35),频率的抽样误差:样本频率与样本频率之间或样本频率与总体概率之间的差异。频率的标准误:即样本频率的标准差,表示频率的抽样误差的指标,若X服从二项分布B(n,),样本频率为样本频率p的总体均数为p=,样本频率p的总体方差为样本频率p的标准差(率的标准误)p的估计值,例某市随机调查了50岁以上的中老年妇女776人,其中患有骨质疏松症者322人,患病率为41.5%,试估计该样本频率的抽样误差。p=41.5%=0.415,n=776,4.1.3两个样本均数间差值*,分别从两个正态总体N(1,12)和N(2,22)中独立地随机抽取样本,所得样本均数分别记为,分别服从正态分布N(1,12/n1)和N(2,22/n2),所得两个样本均数的差值同样服从正态分布:,如果总体为非正态分布,当样本含量n足够大时,根据中心极限定理,所得样本均数分别近似服从正态分布N(1,12/n1)和N(2,22/n2),所得两个样本均数的差值同样近似服从正态分布。,4.1.4两个样本率间差值*,两个阳性事件数X1和X2分别服从二项分布B(n1,1),B(n2,2),两个样本频率间差值(p1-p2)的总体均数为:p1p2=12,4.2z分布与t分布,4.2.1z分布当样本含量n足够大时,无论总体分布是否服从正态分布,样本均数的分布均近似服从正态分布N(,)或N(,2/n).标准正态变换:,4.2.2t分布1.t变换,标准正态变换:t变换:,标准正态分布,t分布,t分布(与Z分布比较的特点),t分布曲线下面积,2.t分布的图形和t分布表从一个13岁女学生身高这个正态总体中分别作样本量n=3和50的随机抽样,各抽取1000份样本,并分别得到1000个样本均数及其标准误。对它们分别作t变换,并将t值绘制相应的直方图。可以看出,这两个t值分布图并不完全一样,n=3的图(a)较之n=50的图(b)显得矮胖,两侧尾部稍高。,图a(n=3),t,图b(n=50),t,t分布曲线(t-distributioncurve),t分布曲线是与标准正态分布曲线相似的一条曲线,即高峰位于中央(均数为0处),两侧完全对称,而且逐渐降低,但永远不与横轴相交的钟型曲线。横轴上曲线下的总面积等于100或1。,3.t分布曲线的特征,单峰分布;以0为中心,左右两侧对称;与z分布相比,曲线较低平,两尾部较高;t分布曲线是一簇曲线。t分布曲线的形状随自由度的大小而变化;自由度=n-1。小时,曲线低平,大时,曲线陡峭,时,t分布标准正态分布。=时,t分布与z分布曲线完全重合。t分布曲线下面积分布有一定的规律性。,自由度分别为1、5、的t分布示意图,t分布曲线下面积,4.t分布曲线下面积分布:t值在t0.05/2,之间的面积占总面积的95t值在t0.01/2,之间的面积占总面积的99,95%,95%,t分布曲线,两类错误中单双测检验,不同自由度的t分布示意图,4.3、总体参数的估计,参数估计:在抽样研究中通过样本统计量来估计总体参数的大小,称为。参数估计的方法:1.点估计(近似值):用样本均数直接作为总体参数的估计值,未考虑抽样误差,如。2.区间估计(近似范围):按照一定的置信度(1-)估计包含未知总体参数的一个区间范围,考虑抽样误差.,4.3.1.有关置信区间的概念,按照事先给定的1-(置信度),通过样本统计量来估计未知总体参数可能所在的范围,这个范围称为参数的置信区间(comfidenceinterval,CI),或可信区间。按95的置信度估计的总体参数可能所在的范围,称为总体参数的95置信区间。置信度:记作1,为预先给定的概率。置信度常取95或99。,置信区间的涵义,从同一总体中重复作随机抽样,每个样本可以算得一个置信区间。如95%置信区间,意味着做100次抽样,算得100个置信区间,理论上有95个置信区间包括总体均数(估计正确),只有5个置信区间不包括总体均数(估计错误)。5%是小概率事件,实际发生的可能性小,因此实际应用中就认为总体均数在算得的置信区间内。这种估计会冒5%犯错误的风险。,置信区间的两个要素,(1)准确度:即置信度1.越大越好。(2)精确度:反映在区间的长度,愈小愈好。与标准误的大小有关。,4.3.2.总体均数的置信区间,1.已知,总体均数的双侧(1)置信区间:的95置信区间(=0.05):的99置信区间(=0.01):,总体均数的单侧(1)置信区间:的95置信区间:的99置信区间:,2.未知,但n较小的双侧(1)置信区间的单侧(1)置信区间,未知,但n足够大(如,n100)的双侧(1)置信区间的单侧(1)置信区间,例已知某地27名健康成年男子的血红蛋白量均数125g/L,标准差15g/L。试问该地健康正常成年男子血红蛋白平均含量的95%置信区间和99%置信区间各是多少?本例n=27,=271=26,查t界值表,=0.05时,双侧t0.05/2,26=2.056,=0.01时,双侧t0.01/2,26=2.779;,该市健康成年男子血红蛋白平均含量:95%置信区间为(119.06,130.94)g/L,99%置信区间为(116.98,133.02)g/L。,例某市2000年随机测量了100名19岁健康男大学生的身高,其均数为172.2cm,标准差为4.5cm,试估计该市2000年19岁健康男大学生平均身高的95%置信区间。该市2000年19岁健康男大学生平均身高的95%置信区间为(171.32,173.08)cm。,4.3.3总体概率的置信区间,1.正态近似法适用条件:n足够大,且p和(1p)均不太小,如np与n(1-p)均大于5。总体率的双侧置信区间:pZ/2Sp,2.查表法适用条件:n较小,如n50,特别是p接近0或1,按二项分布原理估计总体率的置信区间,但计算繁杂。(1)n50,xn/2,以n和x直接查表P562;(2)n50,xn/2,以n和(nx)查表,再用(100表中数值)。,4.3.4Poisson分布

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论