参数估计基础课件_第1页
参数估计基础课件_第2页
参数估计基础课件_第3页
参数估计基础课件_第4页
参数估计基础课件_第5页
已阅读5页,还剩84页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

参数估计基础,2019/5/18,2,了解总体特征的最好方法是对总体的每一个体进行观察、试验,但这在医学研究实际中往往不可行。 对无限总体不可能对所有个体逐一观察. 对有限总体限于人力、财力、物力、时间或个体过多等原因,不可能也没必要对所有个体逐一研究(如对一批罐头质量检查)。 借助抽样研究。,2019/5/18,3,抽样研究的目的是用样本信息推断总体特征,即用样本资料计算的统计指标推断总体参数 常用的统计推断方法有参数估计(总体均数和总体概率的估计)和假设检验,2019/5/18,4,内容复习,2019/5/18,5,第五章 总体均数估计,抽样分布与抽样误差 分布 总体均数的估计 案例讨论,2019/5/18,6,复习一些概念,参数(parameter)与统计量(statistics) 参数获取的途径 对总体进行研究 抽样研究 抽样误差(sampling error) 1.抽样误差的概念:由个体变异产生的,随机抽样引起的样本统计量 与总体参数间的差异。 (抽样误差=总体参数样本统计量) 2.抽样误差产生的原因: 3.抽样误差的特点:随机,不可避免,有规律可循。 4.在大量重复抽样的情况下,可以展示其规律性,2019/5/18,7,第一节 抽样分布与抽样误差,样本均数的抽样分布与抽样误差 样本频率的抽样分布与抽样误差,2019/5/18,8,一、均数的抽样误差,样本均数的抽样分布 举例,总体,样本1,样本2,样本3,样本,2019/5/18,9,一、均数的抽样误差,样本均数的抽样分布 抽样模拟实验 假定总体:某年某地13岁女学生身高值 XN(155.4,5.3) 随机抽样:n30,K100,2019/5/18,10,一、均数的抽样误差,=155.4 =5.3,实验5-1 从已知的13岁女生身高总体中随机抽样示意图,2019/5/18,11,100个随机样本的样本均数(n30),2019/5/18,12,一、均数的抽样误差,2019/5/18,13,将此100个样本均数看成新变量值,则这100个样本均数构成一新分布,绘制直方图。,图3-2 从正态分布总体N(155.4,5.3)随机抽样所得样本均数分布,2019/5/18,14,一、均数的抽样误差,1、样本均数的抽样分布特点 各样本均数未必等于总体均数; 样本均数之间存在差异; 样本均数的分布规律:围绕着总体均数155.4cm,中间多,两边少,左右基本对称,服从正态分布; 样本均数的变异较原变量的变异减小。,2019/5/18,15,一、均数的抽样误差,抽样误差 概念:由于抽样造成的样本统计量与统计量以及样本统计量与总体参数之间的差异叫作抽样误差。 抽样误差产生的基本条件 抽样研究 个体差异 表现形式 样本统计量与样本统计量之间的差异 样本统计量与总体参数之间的差异,2019/5/18,16,一、均数的抽样误差,2、均数的抽样误差 (1)概念:由个体变异产生的,随机抽样引起的样本均数与总体均数间的差异。 (均数的抽样误差=总体均数样本均数) (2)表现形式: 样本均数与总体均数间存在差异 样本均数与样本均数间存在差异,2019/5/18,18,均数的抽样误差可表现为样本均数与总体均数的差值 均数的抽样误差也可表现为多个样本均数间的离散程度 在实际科研中,上述二者都难以得到。,2019/5/18,19,如何度量抽样误差的大小? 如何揭示抽样分布的规律? 中心极限定理为我们提供解决办法:,2019/5/18,20,中心极限定理(central limit theorem) 从均数为、标准差为的总体中独立随机抽样,当样本含量n增加时,样本均数的分布将趋于正态分布,此分布的均数为,标准差为 。,XN,N,2019/5/18,21,标准误(standard error,SE) 样本统计量的标准差称为标准误,用来衡量抽样误差的大小。 样本均数的标准差称为标准误。此标准误与个体变异 成正比,与样本含量n的平方根成反比。,2019/5/18,22,3、均数的标准误 (standard error) (1)概念:将样本均数的标准差称为均数的标准误, 它是描述均数抽样误差大小的指标 (2)计算: 实际工作中, 往往是未知的,一般可用样本标准差s代替 :,一、均数的抽样误差,2019/5/18,23,3、均数的标准误 (standard error),(3)统计学意义 均数的标准误越大,样本均数的分布越分散,样本均数离总体 均数就越远,样本均数与总体均数的差别越大,抽样误差越大;抽 样误差越大,由样本均数估计总体均数的可靠性越差。反之,亦然。 (4)影响抽样误差大小的因素 标准差 样本含量n 实际工作中,可通过适当增加样本含量来减少均数的标准误,从而降低抽样误差。,3个抽样实验结果图示,2019/5/18,25,4、总体分布非正态分布时,样本均数的分布规律 中心极限定理表明,即使从非正态总体中随机抽样,只要样本含量足够大,样本均数的分布也趋于正态分布. 样本均数的总体均数仍等于; 样本均数的标准误仍满足均数标准误的计算式; 当较小时,样本均数的分布是偏态的; 当足够大(50)样本均数的分布近似正态分布,一、均数的抽样误差,2019/5/18,26,非正态总体样本均数的抽样实验 图5-1(a)是一个正偏峰的分布, 用电脑从中随机抽取样本含量分别为5,10,30和50的样本各1000次,计算样本均数并绘制4个直方图,2019/5/18,32, 当原分布N(155.40,5.3)为正态分布时,则样本均数的分布N(155.38,1.71)也为正态分布; 当原分布为偏态分布时,当样本含量足够大时,样本均数的分布也为近似正态分布。 所以,不论原分布的分布类型如何,样本均数的分布均为正态分布。 原分布可以用和来描述其分布特征; 同样,样本均数的分布也可以用样本均数的均数和样本均数的标准差表示其分布特征。,2019/5/18,33,将样本均数的标准差称为均数的标准误。标准误反映样本抽样误差的大小,是说明样本均数可靠性的一个指标, 常用 的形式来表示样本均数的可 靠程度。,2019/5/18,34,影响抽样误差大小的因素有: 样本标准差。S越大, 也就越大。 样本含量。n 越大,抽样误差越小。 因此如在一定标准差条件下,加大样本含量,可减少抽样误差,以保证的样本均数的代表性和可靠性。,2019/5/18,35,例6-1 2000年某研究者随机调查某地健康成年男子27人,得到血红蛋白量的均数为125 g /L,标准差为15 g /L。试估计该样本均数的抽样误差。 = = =,2.89g /L,2019/5/18,36,样本频率的抽样分布与抽样误差,在一口袋内装有形状、重量完全相同的黑球和白球,已知黑球比例为20%(总体概率=20%),从口袋中每摸一次看清颜色后放回去,搅匀后再摸,重复摸球35次(n=35), 计算摸到黑球的百分比(样本频率p i)。重复这样的实验100次,每次得到100个黑球的比例分别为14.4%, 19.8%, 20.2%, 22.5%,等,将其频数分布列于表6-3。,2019/5/18,37,表6-3 总体概率为20%时的随机抽样结果(ni = 35),2019/5/18,38,抽样分布与抽样误差,频率的抽样误差:这种样本率样本频率与样本率样本频率之间、样本率样本频率与总体率总体概率之间的差异。 频率的标准误:表示频率的抽样误差的指标,2019/5/18,39,样本频率 的总体均数参数为, 率的标准误计算公式(5-3): 公式(6-4),2019/5/18,40,例6-2 某市随机调查了50岁以上的中老年妇女776人,其中患有骨质疏松症者322人,患病率为41.5%,试估计该样本频率的抽样误差。 p = 41.5% = 0.415,n = 776,=,2019/5/18,41,思考题: 什么是抽样误差?决定抽样误差大小的因素有哪些? 抽样误差能避免么?抽样误差有规律么? 标准误和标准差有何区别与联系?,2019/5/18,42,标准误和标准差有何区别与联系,2019/5/18,43,第二节 分布,分布的概念 分布的特征 界值表,2019/5/18,44,一、分布的概念,2019/5/18,45,t分布,设从正态分布N(,2)中随机抽取含量为n的样本,样本均数和标准差分别为 和s,设: 则t 值服从自由度为n-1的t 分布(t-distribution)。Gosset于1908年在生物统计杂志上发表该论文时用的是笔名“Student”,故t分布又称Student t分布。,2019/5/18,46,二、值与分布,学习t 分布的意义 事实上,任何一个样本统计量均有其分布的特点和规律。统计量的抽样分布规律是进行统计推断的理论基础。 t 分布是十分有用的,它是总体均数的区间估计和假设检验的理论基础。,2019/5/18,47,从前述实验的13岁女学生身高这个正态总体中分别作样本量为 3和50的随机抽样,各抽取1000份样本,并分别得到1000个样本均数及其标准误。对它们分别作t变换,并将t值绘制相应的直方图,可得到t值分布曲线图,2019/5/18,49,三、分布的特征,分布的图形 分布的参数:=n-1 自由度对图形的影响 分布的极限是标准正态分布 分布曲线下的尾部面积(概率)界值表,2019/5/18,50,t分布,t值的分布与自由度 有关(实际是样本含量n不同)。t 分布的图形不是一条曲线,而是一簇曲线。,2019/5/18,51,t分布的特征,t分布为一簇单峰分布曲线 t分布以0为中心,左右对称 t 分布只有一个特征参数,即为自由度()。 t分布与自由度有关,自由度越小,t分布的峰越低,而两侧尾部翘得越高,;自由度逐渐增大时,t分布逐渐逼近标准正态分布;当自由度为无穷大时,t分布就是标准正态分布。,2019/5/18,52, =(标准正态曲线), =5, =1,0.1,0.2,-4,-3,-2,-1,0,1,2,3,4,0.3,图5.2 自由度分别为1、5、时的t分布,2019/5/18,53,t 分布曲线下的面积规律,同标准正态分布一样,统计应用中最关心的是t 分布曲线下的尾部面积(即概率)与横轴t 值间的关系。 每一自由度下的t分布曲线都有其自身分布规律,2019/5/18,54,界值表 (t critical value),统计学家将t分布曲线下的尾部面积(即概率P)与横轴t值间的关系编制了不同自由度 下的t界值表(附表2)(467页) 横标目为自由度(-1) 纵标目为概率(即曲线下尾部阴影部分面积) 表中的数字为相应的t界值(t0) 单侧概率(one-tailed probability)所对应的t界值记为, 双侧概率(two-tailed probability )所对应的t界值记为/2,2019/5/18,55,2019/5/18,56,更一般的表示方法如图5-4(a)和(b)中阴影部分所示为: 单侧:P(t t, )= 和 P(t t, )= 双侧:P(t t/2, )P(t t/2, )=,2019/5/18,57,界值表 (t critical value),不同自由度下的界值表:附表2 查t0.05,16 =1.746(单侧) P(t1.746)=0.05或P(t-1.746)=0.05 查t0.05/2,16 =1.746(双侧) P(t1.746)P(t-1.746)=0.05 或 P(-1.746t1.746)=0.95 t分布曲线的两端尾部面积表示在随机抽样中获得的等于及大于某|t|值(界值)的概率,即P值。,2019/5/18,59,界值表 (t critical value),t界值表的特点 同一自由度下,t值越大则P值越小; P值相同时,越大,则t值越小; 在相同的值时,双侧概率为单侧概率的两倍 即t0.10/2,16 = t0.05,16 =1.746 时,t界值为界值,2019/5/18,60,界值表 (t critical value),t界值表的用途 已知和(),可查到相应的界值; 已知和界值,可确定单侧或双侧概率 进行总体均数估计和均数的假设检验,2019/5/18,61,第三节 总体均数及总体概率的估计,抽样研究:从总体到样本 实际工作:由样本推断总体 统计推断(statistical inference)就是根据样本所提供的信息,以一定的概率推断总体的性质。,2019/5/18,62,第三节 总体均数估计,参数估计(parameter estimation)的概念 概念 用样本统计量估计总体参数 方法 点估计(point estimation) 区间估计(interval estimation),2019/5/18,63,点估计,直接用样本统计量作为总体参数的估计值 方法简单,但未考虑抽样误差的大小 在实际问题中,总体参数往往是未知的,但它们是固定的值,并不是随机变量值。而样本统计量随样本的不同而不同,属随机的。,2019/5/18,64,区间估计,按一定的概率或可信度(1- ),用一个区间估计总体参数所在范围,这个范围称作可信度为1- 的可信区间(confidence interval, CI),又称置信区间 。这种估计方法称为区间估计。 通常用样本均数和均数的标准误估计总体均数的95%(或99%)置信区间,2019/5/18,65,总体均数置信区间的计算需考虑: (1)总体标准差是否已知, (2)样本含量n的大小 通常有两类方法: (1)t分布法 未知 (2)正态近似法 已知 未知但n足够大,总体均数的区间估计的计算:,2019/5/18,66,一、样本均数估计总体均数,总体均数的置信区间 1.t分布法 适用条件:未知时,按t分布原理估计总体均数的置信区间。 计算公式:,2019/5/18,67,一、样本均数估计总体均数,总体均数的置信区间 2、正态近似法 适用条件:未知但样本含量足够大(n100)时,按正态分布原理 估计总体均数的置信区间。 计算公式:,2019/5/18,68,例1:为了解某地1岁婴儿的血红蛋白浓度,从该地随机抽取了1岁婴儿35人,测得其血红蛋白均数为123.7g/L,标准差为11.9g/L。试估计该地1岁婴儿的血红蛋白平均浓度。 分析:已知样本标准差s,样本例数n35, 不知到总体的信息,选用t分布法估计总体均数的可信区间。 95的CI公式为: 例2:某地抽得正常成人200名,测得其血清胆固醇的均数为3.64mmol/L,标准差为1.20mmol/L,试估计该地正常成人血清胆固醇均数的95和99置信区间,2019/5/18,69,例 随机抽取12名口腔癌患者,检测其发锌含量,得均数为253.05g/g,标准差为27.18g/g,求发锌含量总体均数95的可信区间。,本例自由度=12-1=11,经查表得t0.05,11=2.201,则 即口腔癌患者发锌含量总体均数的95可信区间为:193.23321.87(g/g)。用该区间估计口腔癌患者发锌含量总体均数的可信度为95。,2019/5/18,70,2019/5/18,71,例 某地120名12岁男孩身高均数为142.67cm,标准差为0.5477cm,计算该地12岁男孩身高总体均数90的可信区间。,因n=120100,故可以用标准正态分布代替t分布,u0.10=1.64 即该地12岁男孩平均身高的90可信区间为:141.77143.57(cm),可认为该地12岁男孩平均身高在141.77143.57(cm)之间。,2019/5/18,72,2019/5/18,73,三、应注意的一些问题,置信区间和置信限的关系 准确度与精密度的关系,2019/5/18,74,正确理解可信区间的涵义,可信区间一旦形成,它要么包含总体参数,要么不包含总体参数,二者必居其一,无概率可言。所谓95的可信度是针对可信区间的构建方法而言的。 以均数的95%可信区间为例,其涵义是:如果重复100次抽样,每100个样本所算得的100个可信区间,则在此100个可信区间内,理论上有95个包含总体均数,而有5个不包含总体均数。,2019/5/18,75,可信区间和可信限的关系,可信限:分别指两个点值,分别称为下限值和上限值。 可信区间:是指以上、下可信限为界的一个范围。 用公式 表示可信限; 用 表示可信区间。,置信区间的解释,总体均数的95%置信区间:如果从总体中重复抽取100份样本含量相同的独立样本,每份样本可分别计算一个置信区间,那么在100个置信区间中,大约有95个置信区间包括(估计正确),只有5个置信区间不包括(估计错误)。 或者说对于某一个区间而言,它包含总体均数的可能性为95%,而不包含总体均数的可能性仅为5%。因此在实际应用中,以这种方法估计总体均数犯错误的概率仅为5%。,2019/5/18,77,图4.1 100个来自N(0,1)的样本所估计的可信区间示意,2019/5/18,78,可信区间意义:,虽然不能知道某校全体女大学生身高均数的确切数值,全体女大学生身高均数在163.0 - 164.5cm之间的可能性是95%,在 162.7 164.7cm之间的可能性是99%。,换句话说,做出校全体女大学生身高均数为163.0 - 164.5cm的结论,说对的概率是95%,说错的概率是5%;做出校全体女大学生身高均数为162.7 164.7cm的结论,说对的概率是99%,说错的概率是1%。,2019/5/18,79,可信区间的两个要素,准确度 反映为可信度1- 的大小 ,即区间包含总体均数的概率大小,越接近1越好 精密度 反映为区间的宽度,区间越窄越好 在可信度确定的情况下,增加样本含量可减小可信区间的宽度,2019/5/18,80,95可信区间 99可信区间 公式 区间范围 窄 宽 估计错误的概率 大(0.05) 小(0.01),可信区间的两个要素,当样本含量为定值时,上述两者互相矛盾。,2019/5/18,81,处理“准确度与精密度”关系的原则,在置信度确定的情况下,增加样本含量可减小区间宽度。,2019/5/18,82,可信区间与参考值范围的区别,可信区间用于估计总体参数,总体参数只有一个 。 参考值范围用于估计变量值的分布范围,变量值可能很多甚至无限 。 95%的可信区间中的95%是可信度,即所求可信区间包含总体参数的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论