医学统计学-t参数估计基础_第1页
医学统计学-t参数估计基础_第2页
医学统计学-t参数估计基础_第3页
医学统计学-t参数估计基础_第4页
医学统计学-t参数估计基础_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

参数估计,2017/12/28,了解总体特征的最好方法是对总体的每一个体进行观察、试验,但这在医学研究实际中往往不可行。对无限总体不可能对所有个体逐一观察. 对有限总体限于人力、财力、物力、时间或个体过多等原因,不可能也没必要对所有个体逐一研究(如对一批罐头质量检查)。借助抽样研究。,2017/12/28,抽样研究的目的是用样本信息推断总体特征,即用样本资料计算的统计指标推断总体参数常用的统计推断方法有参数估计(总体均数和总体概率的估计)和假设检验,2017/12/28,内容复习,2017/12/28,教学目的与要求,掌握:均数和率抽样误差的概念;均数和率标准误的意义和计算;总体均数和总体率区间估计的意义、计算及其适用条件。熟悉:总体均数的点估计;t 0.05,()的概念,标准误和标准差的区别;置信区间与医学参考值范围的区别。了解:t值、t分布、t值表及其应用。,2017/12/28,复习一些概念,参数(parameter)与统计量(statistics)参数获取的途径 对总体进行研究 抽样研究抽样误差(sampling error)1.抽样误差的概念:由个体变异产生的,随机抽样引起的样本统计量与总体参数间的差异。(抽样误差=总体参数样本统计量)2.抽样误差产生的原因:3.抽样误差的特点:随机,不可避免,有规律可循。4.在大量重复抽样的情况下,可以展示其规律性,2017/12/28,第一节抽样误差与标准误,样本均数的抽样分布与抽样误差样本频率的抽样分布与抽样误差,一、抽样试验,从正态分布总体N(5.00,0.502)中,每次随机抽取样本含量n5,并计算其均数与标准差;重复抽取1000次,获得1000份样本;计算1000份样本的均数与标准差,并对1000份样本的均数作直方图。 按上述方法再做样本含量n10、样本含量n30的抽样实验;比较计算结果。,2017/12/28,抽样试验(n=5),2017/12/28,抽样试验(n=10),2017/12/28,抽样试验(n=30),2017/12/28,1000份样本抽样计算结果,2017/12/28,一、均数的抽样误差,样本均数的抽样分布 举例,总体,样本1,样本2,样本3,样本,2017/12/28,一、均数的抽样误差,样本均数的抽样分布 抽样模拟实验 假定总体:某年某地13岁女学生身高值 XN(155.4,5.3) 随机抽样:n30,K100,2017/12/28,一、均数的抽样误差,=155.4=5.3,实验6-1从已知的13岁女生身高总体中随机抽样示意图,2017/12/28,100个随机样本的样本均数(n30),2017/12/28,一、均数的抽样误差,2017/12/28,将此100个样本均数看成新变量值,则这100个样本均数构成一新分布,绘制直方图。,图6-2 从正态分布总体N(155.4,5.3)随机抽样所得样本均数分布,2017/12/28,一、均数的抽样误差,1、样本均数的抽样分布特点各样本均数未必等于总体均数;样本均数之间存在差异;样本均数的分布规律:围绕着总体均数155.4cm,中间多,两边少,左右基本对称,服从正态分布;样本均数的变异较原变量的变异减小。,2017/12/28,一、均数的抽样误差,抽样误差 概念:由于抽样造成的样本统计量与统计量以及样本统计量与总体参数之间的差异叫作抽样误差。抽样误差产生的基本条件 抽样研究 个体差异表现形式 样本统计量与样本统计量之间的差异 样本统计量与总体参数之间的差异,2017/12/28,一、均数的抽样误差,2、均数的抽样误差(1)概念:由个体变异产生的,随机抽样引起的样本均数与总体均数间的差异。(均数的抽样误差=总体均数样本均数)(2)表现形式:样本均数与总体均数间存在差异样本均数与样本均数间存在差异,2017/12/28,2017/12/28,均数的抽样误差可表现为样本均数与总体均数的差值均数的抽样误差也可表现为多个样本均数间的离散程度 在实际科研中,上述二者都难以得到。,2017/12/28,如何度量抽样误差的大小? 如何揭示抽样分布的规律? 中心极限定理为我们提供解决办法:,2017/12/28,中心极限定理(central limit theorem)从均数为、标准差为的总体中独立随机抽样,当样本含量n增加时,样本均数的分布将趋于正态分布,此分布的均数为,标准差为 。,XN,N,2017/12/28,标准误(standard error,SE)样本统计量的标准差称为标准误,用来衡量抽样误差的大小。样本均数的标准差称为标准误。此标准误与个体变异 成正比,与样本含量n的平方根成反比。,2017/12/28,3、均数的标准误 (standard error)(1)概念:将样本均数的标准差称为均数的标准误, 它是描述均数抽样误差大小的指标(2)计算:实际工作中, 往往是未知的,一般可用样本标准差s代替 :,一、均数的抽样误差,2017/12/28,3、均数的标准误 (standard error),(3)统计学意义均数的标准误越大,样本均数的分布越分散,样本均数离总体均数就越远,样本均数与总体均数的差别越大,抽样误差越大;抽样误差越大,由样本均数估计总体均数的可靠性越差。反之,亦然。(4)影响抽样误差大小的因素标准差样本含量n 实际工作中,可通过适当增加样本含量来减少均数的标准误,从而降低抽样误差。,3个抽样实验结果图示,2017/12/28,2017/12/28,4、总体分布非正态分布时,样本均数的分布规律中心极限定理表明,即使从非正态总体中随机抽样,只要样本含量足够大,样本均数的分布也趋于正态分布.样本均数的总体均数仍等于;样本均数的标准误仍满足均数标准误的计算式;当较小时,样本均数的分布是偏态的;当足够大(50)样本均数的分布近似正态分布,一、均数的抽样误差,2017/12/28,非正态总体样本均数的抽样实验 下图是一个正偏峰的分布, 用电脑从中随机抽取样本含量分别为5,10,30和50的样本各1000次,计算样本均数并绘制4个直方图,2017/12/28,2017/12/28,2017/12/28,2017/12/28,2017/12/28,2017/12/28,影响抽样误差大小的因素有: 样本标准差。S越大, 也就越大。 样本含量。n 越大,抽样误差越小。 因此如在一定标准差条件下,加大样本含量,可减少抽样误差,以保证的样本均数的代表性和可靠性。,2017/12/28,例6-1 2000年某研究者随机调查某地健康成年男子27人,得到血红蛋白量的均数为125 g /L,标准差为15 g /L。试估计该样本均数的抽样误差。 = = =,2.89g /L,2017/12/28,样本频率的抽样分布与抽样误差,在一口袋内装有形状、重量完全相同的黑球和白球,已知黑球比例为20%(总体概率=20%),从口袋中每摸一次看清颜色后放回去,搅匀后再摸,重复摸球35次(n=35),计算摸到黑球的百分比(样本频率p i)。重复这样的实验100次,每次得到100个黑球的比例分别为14.4%, 19.8%, 20.2%, 22.5%,等,将其频数分布列于下表中。,2017/12/28,表6-3 总体概率为20%时的随机抽样结果(ni = 35),2017/12/28,抽样分布与抽样误差,样本率的抽样误差:由于抽样原因造成的样本频率与总体概率间的差异以及各样本频率间的差别,为样本率的抽样误差。频率的标准误:表示频率的抽样误差的指标,2017/12/28,率的标准误计算公式公式,2017/12/28,例 某市随机调查了50岁以上的中老年妇女776人,其中患有骨质疏松症者322人,患病率为41.5%,试估计该样本频率的抽样误差。 ?,2017/12/28,例 某市随机调查了50岁以上的中老年妇女776人,其中患有骨质疏松症者322人,患病率为41.5%,试估计该样本频率的抽样误差。 p = 41.5% = 0.415,n = 776,=,2017/12/28,思考题:什么是抽样误差?决定抽样误差大小的因素有哪些?抽样误差能避免么?抽样误差有规律么?标准误和标准差有何区别与联系?,2017/12/28,标准误和标准差有何区别与联系,2017/12/28,第二节分布,分布的概念分布的特征界值表,2017/12/28,一、分布的概念,2017/12/28,t分布,设从正态分布N(,2)中随机抽取含量为n的样本,样本均数和标准差分别为 和s,设: 则t值服从自由度为n-1的t分布(t-distribution)。Gosset于1908年在生物统计杂志上发表该论文时用的是笔名“Student”,故t分布又称Student t分布。,2017/12/28,二、值与分布,学习t 分布的意义事实上,任何一个样本统计量均有其分布的特点和规律。统计量的抽样分布规律是进行统计推断的理论基础。 t 分布是十分有用的,它是总体均数的区间估计和假设检验的理论基础。,2017/12/28,二、值与分布,2017/12/28,三、分布的特征,分布的图形分布的参数:=n-1自由度对图形的影响分布的极限是标准正态分布分布曲线下的尾部面积(概率)界值表,2017/12/28,t分布,t值的分布与自由度 有关(实际是样本含量n不同)。t 分布的图形不是一条曲线,而是一簇曲线。,2017/12/28,t分布的特征,t分布为一簇单峰分布曲线t分布以0为中心,左右对称t 分布只有一个特征参数,即为自由度()。 t分布与自由度有关,自由度越小,t分布的峰越低,而两侧尾部翘得越高,;自由度逐渐增大时,t分布逐渐逼近标准正态分布;当自由度为无穷大时,t分布就是标准正态分布。,2017/12/28, =(标准正态曲线), =5, =1,0.1,0.2,-4,-3,-2,-1,0,1,2,3,4,0.3,图6.4 自由度分别为1、5、时的t分布,2017/12/28,t 分布曲线下的面积规律,同标准正态分布一样,统计应用中最关心的是t 分布曲线下的尾部面积(即概率)与横轴t 值间的关系。每一自由度下的t分布曲线都有其自身分布规律,2017/12/28,界值表 (t critical value),统计学家将t分布曲线下的尾部面积(即概率P)与横轴t值间的关系编制了不同自由度 下的t界值表(附表2)(410页)横标目为自由度(-1) 纵标目为概率(即曲线下尾部阴影部分面积)表中的数字为相应的t界值(t0)单侧概率(one-tailed probability)所对应的t界值记为, 双侧概率(two-tailed probability)所对应的t界值记为/2,2017/12/28,2017/12/28,更一般的表示方法如下图(a)和(b)中阴影部分所示为:单侧:P(t t, )= 和 P(t t, )=双侧:P(t t/2, )P(t t/2, )=,2017/12/28,界值表 (t critical value),不同自由度下的界值表:附表2 查t0.05,16 =1.746(单侧) P(t1.746)=0.05或P(t-1.746)=0.05 查t0.05/2,16 =1.746(双侧) P(t1.746)P(t-1.746)=0.05或P(-1.746tn/2时,应以nX值查表,然后从100中减去查得的数值即为所求的置信区间。例 某医生用某药物治疗31例脑血管梗塞患者,其中25例患者治疗有效,试求该药物治疗脑血管梗塞有效概率的95%置信区间。 n=31,X=25n/2,所以用nX = 6查附表3,得838,再用100减去所查的数值该药物治疗脑血管梗塞有效概率的95%置信区间为62% 92%。,2) 正态近似法:当n足够大,且频率p和(1-p)都不太小时,如np和n(1-p)5时,p的抽样分布近似正态分布,可用正态分布法求总体概率的双侧(1-)置信区间。 这时用频率的标准误SP代替平均值的标准误 。,例 用某种仪器检查已确诊的乳患者120人,检出病人94例。该仪器的检出率为p=94/120=78.3%。试估计该仪器对乳腺癌患者总体检出率的95%置信区间。,解:n=120,np=93.96, n(1-p)=26.04,可信区间的确切涵义:,1.95%的可信区间的理解:(1)所要估计的总体参数有95%的可能在我们所估计的可信区间内。(2)从正态总体中随机抽取100个样本,可算得100个样本均数和标准差,也可算得100个均数的可信区间,平均约有95个可信区间包含了总体均数 。,模拟实验 模拟抽样成年男子红细胞数。设定: 产生100个随机样本,分别计算其95%的可信区间,结果用图示的方法表示。从

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论