版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第 6 章 估计与样本容量6.1 概述这一章我们介绍估计下列总体参数数值的方法: 总体均值、 比例 和方差。我们还讲述确定这些参数估计所需要的样本容量方法。6.2 估计总体均值:大样本这一节的主要目标:已知一个集合中样本数据多于 30 个,讨论 总体均值卩的估计值。假设1. n> 30(样本中的数据超过 30 个)。2. 样本是一个简单随机样本(相同容量的所有样本被选出的可能 性相同)。不仔细收集的数据绝对是毫无价值的,即使样本很大。 这一节中的方法假设, 那些样本之间的差异是由于可能的随机波 动造成的,而不是因为一些不合理的抽样方法。定义估计量(estimator)是指使用样本数据来估
2、计总体参数的公式或过程。估计值(estimate)是指用来近似总体参数的特定数值或数值的范围。点估计值(point estimate)是用来近似总体参数的一个数值(或点)样本均值 ?是总体均值 ?的最优点估计值虽然我们可以使用其他统计量, 例如样本中位数、 中列数或众数 作为总体均值 出勺估计值,但研究显示,样本均值 x通常会特供最优 的估计值,原因有两点。第一,对于很多总体来说,样本均值 x的分布比其他样本统计量 的分布有更好的一致性。第二,对于所有的总体,样本均值x是总体均值尚一个无偏估计量,这意味着样本均值分布的中心趋近于总体 均值曲勺中心。我们为什么需要置信区间? 置信区间或区间估计是
3、由一个数值范围(或一个区间)构成的, 而不是仅由一个点构成的。定义置信区间(或区间估计) 是指用来估计总体参数真实值的一个数 据范围(或一个区间) 。一个置信区间和一个置信度相联系,例如 0.95(或 95%)。置信 度会告诉我们,有百分之多少的时间, 置信区间真的包含了总体参数, 这里假设这个估计过程可以重复很多次。 在置信度的定义中,用a(希 腊字母阿尔法的小写)表示一个概率或面积。a的值是置信度的补。当置信度为0.95(95%)时,0=0.05。当置信度为0.99(99%)时,a=0.01。定义置信度是指概率1-(通常表示为等价的百分数),它是置信区间 实际包含总体参数的时间的相对频数,
4、 这里假设估计过程可以重复很 多次。(置信度还称作置信水平,或置信系数。 )置信度的最普遍的选择有90% (即a=0.10), 95% (即a=0.05)和99% (即a=0.01)。选择95%是最普遍的,因为它在精确性(反应在置 信区间的宽度上) 和可靠性之间取得了很好的平衡 (由置信度来表达)例子:总体均值 的0.95 (或95%)置信度下的置信区间为98.08? 卩98.32°F。解释置信区间以98.08F 卩98.32?为例。正确的解释:我们有 95%的把握 从98.08到98.32这个区间实际包含了出勺真实值。错误的解释:的 真实值有 95%的可能性将位于 98.08到 9
5、8.32之间。临界值构建一个置信区间的必要条件是, 我们找到了一个能够用来区分 可能发生的样本统计量和不太可能发生的样本统计量的标准z值。这个z值称为临界值,它基于如下的观察资料。(269页图6-2)1. 由中心极限定理我们知道,样本均值趋于正态分布,如图6-2所示。2. 样本均值落在图 6-2 中深色尾部区域之一的可能性相当小(用 a表示这个概率)。3将每一个深色阴影的尾部区域的面积用 ?2表示,我们看出, 样本均值将落在这两个尾部区域中任何一个区域的总概率为?。4. 根据互补法则,样本均值将落在图6-2 中浅色阴影区域中的概率为 1- ?。5. 将右尾的区域分割出来的Z值一般用Z?2表示,
6、它指的就是一 个临界值,因为它位于把可能发生的样本均值和不太可能发生的样本 均值分开的边界线上。临界值符号Z?2是位于垂直边界线上正的Z值,这个边界线将标准正态分布 右尾?2的面积分割出来。下标?2只是一个简单的提示,表示将标 准正态分布右尾?2的面积分割出来的z值。定义临界值是指位于将可能发生的样本统计量和不太可能发生的样本统计量分开的边界线上的数值。数字z?2是一个临界值,这个z值 的性质是,它将标准正态分布右尾处 ?2的面积分割出来。例临界值计算对应于95%置信度的临界值z?2解答95%的置信水平对应于a=0.05.见图6-3,图中显示,每一个深色阴影尾部的面积都是?2=0.025注意到
7、它左边的区域(以均值 z=0为边界)面积为0.5-0.025,或0.475,我们算出z?2 = 1.96。常见的临界值置信度a临界值,z?290%0.101.64595%0.051.9699%0.012.575误差限当用一个简单随机样本的数据估计一个总体均值时,误差限是指观测的样本均值x和总体均值出勺真实值的最大可能(概率是1-a) 差异,用E表示。误差限也称作估计值的最大误差,它可以用临界值 乘以样本均值的标准差来算出。?E= z?2 ? ?(6-1)根据上面的公式,计算误差限 E需要知道总体的标准差°,但在 实际中,当总体均值 味知时,我们很少知道CTo 一般来说,下面的计 算方
8、法比较实用。?未知时E的计算如果n>30,可以用样本标准差s替代公式6-1中的C如果n<30,要使用6-1,则总体必须服从正态分布,并且我们必 须知道C勺值。在误差限E的定义的基础上,可以求出总体均值 卩的置信区间。 总体均值??勺置信区间(或区间估计值)(基于大样本n>30)?x-E<f x+E 其中 E= z?2 ?、?或 a= x士E 或(x-E, x+E)定义x-E和x+E这两个值称为置信区间边界。构建??勺一个置信区间的程序(基于大样本:n> 30)1计算对应于所求置信度的临界值Z?2 °2. 估算误差限E= z?2。如果总体标准差c未知,如果
9、n>30, 使用样本标准差s的值3使用算出的误差限E的值和样本均值x的值,计算x-E和x+E 的值。代替置信区间的一般格式中的这些数值:x-E x+E或尸x±E 或(x-E,x+E)4使用下面的四舍五入法则将结果值四舍五入。用来估计??勺置信区间的四舍五入法则1当使用原始数据集构建置信区间时,将置信区间边界四舍五入 到比原始数据集中使用的小数位多一位的小数位。2. 当原始数据集未知,并且只使用汇总数量(n,x,s)时,将置信区间边界四舍五入到和样本均值中使用的小数位相同数量的小数位由一个置信区间计算点估计值和 E卩的点估计值:(置信区间上界)+ (置信区间下界)x=2(置信区间
10、上界)(置信区间下界) 误差限E=一2例人体体温一篇刊登在杂志上的文章中对人体体温的总体均值的置信区间 估计为98.08? 卩98.32下。使用已知的置信区间边界计算点估计值x和误差限E解答(置信区间上界)+ (置信区间下界) x=298.32 ? +98.082=98.20?(置信区间上界)-(置信区间下界) E=98.32 ? -98.082F=0.12?使用置信区间来描述、考察或比较数据描述统计量男性:n=100, x=68.76 英寸,s=2.93英寸女性:n=100, x=63.39 英寸,s=2.44英寸95%的置信区间男性:68.19英寸 < 卩< 69.33英寸女性
11、:62.91英寸 < 卩< 63.87英寸这些直方图(274页)说明,男性和女性的身高分布式近似正态的,女性的身高看起来普遍更低一些。计算置信区间的程序的基础是什么?支持置信区间的构建的基本思想和中心极限定理有关, 中心极限 定理说的是,对于大样本(n>30),样本均值的分布近似于均值为 卩, 标准差为笃的正态分布。置信区间的格式实际上是已经用在中心极限V?定理中的公式的一个变换。将 z=(? ?表示如下。?z=?V?如果从这个公式中求出 卩,就有二?玮使用z的正值和负值,就得到我们正在使用的置信区间边界。置信度为95%,此时a = 0.05, z?2=1.96。对于这种情况
12、,有0.05 的概率,样本均值偏离总体均值p的距离将大于1.96个标准差(或用 E表示的z?2 V?。与之相反,样本均值将位于 曲勺1.96个标准差(或 z?2 c/V?范围内的概率是0.95。见图6-4 (275页)。如果样本均值X位于总体均值 曲勺z?2 / V?倍范围内,则p必定在 X- z?2 / V?和 x+ Z?2 / V?之间;这个结论用我们的置信区间的一 般格式表示(用E表示z?各2 /V?: x-E< p< x+E。6.3估计总体均值:小样本假设1. n<302. 样本是一个简单随机样本。3. 样本来自于一个正态分布的总体。(这是一个宽松的条件,如 果总体仅
13、有一个众数,并且基本上是对称的,这个条件也可以满足。)样本均值?是总体均值??勺最好的点估计值。本节中讨论 曲勺置信区间估计时,针对两种情形:第一,总体标 准差。已知,第二,o是未知的。情形1 ( o已知):第一种情形在很大程度上来讲是不现实的,因 为如果我们不知道总体均值 出勺值而想要估计这个值,那么可以肯定, 我们也不知道总体标准差由勺值。如果在某些情况下本节开头部分的 三个条件能够满足,并且我们也知道 由勺值,就可以使用上一节中所 讲述的相同方法来构建 尚置信区间估计。也就是说,置信区间边界?为 x-E和x+E,其中 E= z?2 ?-?。V?情形2 ( o未知):第二种情形更实际一些。
14、现在我们不使用正态 分布,而使用学生t分布。学生t分布如果总体的分布基本上是正态的(大致钟形的),则对于所有的 容量为n的样本,分布?t= _?V?基本上就是一个学生t分布。学生t分布被称为t分布,它可以 用来计算t?2表示的临界值。定义一个数据集的自由度是指在一定的条件限制到所有的数据值以后,样本数值能够发生变化的数量。自由度=n-1例计算临界值一个容量为n=15的样本是一个从正态分布的总体中选出的简单随机样本。计算对应于95%置信度的临界值t?2。解答因为n=15,所以自由度的值就是n-1 = 14。使用附录表A-3,在最 左边的列中找到第14行。95%的置信度对应于a=0.05,所以我们
15、找到 标有“ 0.05 (双尾)”的列。第14行和标有“ 0.05 (双尾)”的列相交 的数值为2.145,因此t?,2=2.145。?的估计值的误差限E基于未知的a和来自正态分布总体的小简单随机样本(n<30)小?E=t?2 ?厉?(6-2)其中t?2的自由度为n-1。曲勺估计值的置信区间基于未知的a和来自正态分布总体的小简单随机样本(n<30)x-E< 口< x+E 其中小?E=t?2 ?而学生t分布的重要性1. 不同的样本容量,学生 t 分布也有所不同。2. 学生 t 分布和标准正态分布有相同的大致对称的钟形形状, 但 对于小样本,它显示出更大的方差(分布更宽)
16、。3. 学生t分布的均值为t=0 (就像标准正态分布有均值z=0)。4. 学生 t 分布的标准差随着样本容量的变化而变化, 但它是大于 1的(不像标准正态分布中,(7= 1 )。5随着样本容量n的增大,学生t分布趋近于标准正态分布。对 于n>30的值,二者之间的差异就很小了,我们就可以使用临界z值, 而不用建构一个更大的临界t值表。使用学生 t 分布的条件1. 样本是小样本(n <30);2.7是未知的;3. 样本所来自的总体基本上是正态分布。选择恰当的分布有时候,确定是标准正态z分布还是学生t分布有些困难。图6-6 中的流程图和表6-2都汇总了在估计总体均值 卩时,构建置信区间时
17、 要考虑的要点。图6-6使用正态分布和t分布用来估计的 误差限En >30根据中心极限定理,我们可以使用正态分布,其中E=t?2?-0?以及n-1的自由度n <30总体不服从正态分布使用非参数检验法或靴襻法总体服从正态分布0未知使用t分布,其中E- t?2 ?孑?以及n-1的自由度o已知 使用正态分布,其中 E- t?2?0?表6-2 曲勺置信区间估计中的误差限 E: x-Ev卩< x+E大样本(n> 30 小样本(n<30)兄知E=t?2 ?扮?正态分布总体使用E-t?72?冷?明显的非正态总体本节中的方法无法应用。使用非参数检 验法或靴襻法兄知在 E-t?2?
18、將用 s代替o正态分布总体?使用 E-t?72?了?明显的非正态总体本节中的方法无法应用。使用非参数检 验法或靴襻法在正态z分布和学生t分布之间进行选择时,除了用样本容量作为主要的标准外,一些统计学家和软件还使用对总体标准差o的掌握程度作为主要的选择标准,如下面的选择:如果总体标准差0是已知的,并且样本是来自正态分布总体的, 使用正态分布。如果总体标准差 o是未知的,并且样本是来自正态分 布总体的,使用学生t分布。6.4估计 两需的样本容量这一节将要解决的问题是:当我们打算收集一个简单随机数据样 本以用于估计一个总体均值 曲寸,必须要收集多少个样本数据?换句 话说,我们将要计算估计总体均值取值
19、时所需的样本容量 n。如果我们从误差限E的表达式开始,求出样本容量n,我们就会 得到下面的结果。估计均值?所需要的样本容量n=?省2?彳2?(6-3)其中?蕩2=基于想要达到的置信度的临界Z值E=想到达到的误差限0=总体标准差样本容量n的圆整法则在计算样本容量n时,如果使用公式6-3没有得到一个整数值, 就将n的取值增加到最邻近的较大整数值。例IQ得分假设你想要算出估计统计学教授的平均 IQ得分所需的样本容量, 并且你想要有95%的把握相信你的样本均值将落在真实的总体均值卩附近2个IQ得分的范围内。(1)计算?2的值计算E的值。解答(1) 95%的置信度对应于a =0.05,这就得出??2=1
20、.96。这个结果是 在第 6.2 节中的第二个例子中计算出来的 (如果你还不能将一个已知 的置信度转换为相应的临界z值,你就应该回到第6.2节,再学习一 下那个程序 )。(2)E=2,因为我们想要样本均值落差在真实的总体均值 讪附近2 个IQ得分的范围内。也就是说,想要达到的误差是2个IQ得分(要使 得误差为 0,唯一的办法就是对每位统计学教授进行 IQ 测试,但这 是不现实的,因为他们都正忙着成为有效率的教师 )。如果?未知怎么办?1. 使用范围经验法则(见第 2.5 节)来估计标准差。2. 先开始用抽样过程进行试探性研究。3. 使用一些以前做过的其他研究来估计 o的值。例统计学教授的IQ得
21、分假设我们想要估计统计学教授这个总体的平均 IQ 得分。如果我 们想要有95%的把握相信,样本均值位于总体均值附近2个IQ得分的范围内,必须要随机选择多少名统计学教授进行IQ测试?解答公式 6-3 中所需要的数值计算如下:?為2 = 1.96先将95%的置信度转换为a =0.05,然后像第6.2节中 所描述的那样算出临界z值就会得到这个结果。E=2因为我们想要使样本均值落在 朋附近2个IQ得分的范围内,因此想要达到的误差限就是 2。=15 见本例题前面的论述。因为?2 = 1.96, E=2以及o=15,我们使用公式6-3,计算如下:?2?21.96 X 152n二f2二一=216.09=21
22、7 (圆整)解释在成千上万个统计学教授中,要从中至少选出217人组成一个简单随机样本,然后得到他们的IQ得分。我们将有95%的把握相信, 样本均值x将落在真实的总体均值 曲附近2个IQ得分的范围内。 例 使用范围经验法则你计划要估计一个大学的教科书的平均销售价格,如果你想要有99%的把握相信,样本均值落在真实的总体均值d附近3美元的范围内,你必须抽取多少本教科书? 解答已知a =0.01(根据99%的置信度),所以?2=2.575,我们要计算样 本容量n。想要使误差范围不超过3美元,所以E=3o我们不知道所 有教科书销售价格的标准差°,但可以用范围经验法则来估计 圧如果 我们推断典型
23、的大学教科书的价值是在 10美元到90美元的范围内, 这里的范围就是80美元,因此°-范1 =(90-10)=2044因为?玄2=2.575, E=3以及°20,我们使用公式6-3,计算如下:?2? 22.575 X 202n=-?72=302=294.69444=295 (圆整)解释 我们必须随机抽取295个大学教科书的销售价格,然后计算样 本均值X的值。我们将有99%的把握相信,结果中的样本均值落在所 有大学教科书的真实平均销售价格附近 3美元的范围内。6.5估计总体比例本节的目的是:1.已知样本数据中的每一项都属于两类中的一类,估计两类中的一类的总体比例p。2 .确定
24、估计总体比例p所需要的样本容量。估计比例p假设1. 样本是一个简单随机样本。2. 二项分布的条件成立。3. 由于np >5和nq >5都成立,所以正态分布可以用来估算样本 比例分布。比例的符号p二总体比例?p (p顶)=?=在一个容量为n的样本中,x次成功的样本比例。q (q顶)=1- p (p顶)二在一个容量为n的样本中,x次失败的样本 比例。样本比例p (p顶)是总体比例p的最好的点估计值。使用p (p 顶)作为p的点估计值,是因为它是无偏的,并且是可以使用的估计 量中最具有连贯性的。称其为无偏,含义是,样本比例分布的中心趋 近于p值;也就是说,样本比例p (p顶)既不是系统地
25、趋于低估p, 也不是系统地趋于高估p。样本比例p (p顶)是最一致的估计量, 其含义是,与任何其他的无偏估计量的标准差相比,样本比例的标准 差趋于更小。点估计值有一个重要缺陷,虽然 p (p顶)的值是p的最好的单 独的数值估计,但它没有指出这个估计究竟有多么准确。p的估计的误差限E=?渤2 J?(6-4)总体比例p的置信区间(或区间估计)?p-E< p< p+E 其中 E=?2 V?-置信区间有时以下面的形式表示 p= p士E或(p-E, p+E )p的置信区间估计的四舍五入法则将置信区间边界四舍五入到三位有效数字。例误导调查回复人们会在投票选举中撒谎吗?在一项对 1002人的调查
26、中,701人 说他们在最近的总统选举中投了票(数据来自ICR研究小组)。选举的 记录表明,有61%勺合格选民实际投了票。使用某些调查结果,(1) 计算那些说他们投了票的人的比例的点估计值。(2) 计算那些说他们投了票的人的比例的 95%1信区间估计。(3) 确定调查结果和61%勺实际选举人投票结果是否一致。 解答(1) P的点估计值是一 ? 701p (p 顶)=?=猛=0.6996(2) 置信区间的构建需要我们先算出误差限E。E的值可以由公式 6-4算出。我们使用p=0.6996由(1)中得到,q=0.3004(由q=1-p得 到),以及?知=1.96(来自附录表A-2,其中95%专换为a=
27、0.05,它被 在两个尾部之间等分,所以z=1.96是相应的面积0.4750的边界)。?E=?2 V?=0.0283855现在,我们可以用p=0.6996和E=0.0283855来计算置信区间。p-E< p < p+E0.671 < p < 0.728 (四舍五入)这个结果还可以表示为 p=0.700 ±0.028或(0.671,0.728) 的形式。如果我们想要真实总体百分数的95%勺置信区间,我们可以将结果表 示为67.1%<p<72.8%这个置信区间经常以如下的陈述进行报道:“在 那些具备选民资格的投票人中,承认投票了的选民的百分数估计为 7
28、0%其误差限是加或减2.8个百分点。”这个陈述是这种形式的置信 区间:p=70%b2.8%的一种口头表达(置信水平也也应该被报道,但媒 体上很少说。媒体上一般都使用 95%勺置信度,但一般都省略与此有 关的信息)。 根据调查结果,我们有95%勺把握相信边界67.1%和72.8%包含了 说他们投了票的合格选民的真实百分数。但我们知道,实际中由61%的具备选民资格的投票人投了票。因为61液有落在这个95%勺置信区间内,我们可以肯定,那些说我们投了票的选民的百分数看起来和 那些实际投了票的人的百分数有所不同。解释置信区间像第6.2节和第6.3节中一样,我们必须认真地正确解释置信区间。下面是正确的解释
29、和错误解释的例子。正确:我们有95%勺把握相信从0.671到0.728的区间实际包含了 p的真实值。这意味着,如果我们选择很多不同的容量为 1002的 样本,并像我们在前面例题中那样构置信区间,其中有 95%勺区间, 其中有95%勺区间将会实际包含总体比例 p的值。错误:p的真实值将落在0.671和0.728之间的可能性是95% 正确的陈述和错误的陈述之间措辞的差异可能看起来很细微,但 它们之间的确有很大的不同。“错误”陈述是不正确的,是因为总体 比例p是一个固定的数值,而不是一个随机变量。p要么落在置信区间的边界内,要么不落在这个范围内,这里并不涉及概率或可能性的 问题。误差限的基本原理 由
30、于比例的抽样分布大致是正态的 (因为条 件np>5和nq>5都成立),我们就可以使用第5.6节中的结果得出, 和 o=np和o=v?给出。这两个参数都是针对 n次试验的,但我们 可以除以n,将它们转换为以每一次试验为基础,过程如下:样本比例的均值:尸?=p?样本比例的标准差:V?0=二? ?第一个结果可能看起来没有什么价值,因为我们已经规定了真实 的总体比例是p。第二个结果就有价值了,它可以用来描述误差限E, 但我们会将乘积pq用pq代替,因为我们还不知道p的值(这是我们 想要估计的值)。误差限的公式6-4反映出这样的事实:p落在p附 近?2V?范围内的概率是1- a如前面给出的p
31、的置信区间,反映 出来的事实是,p和p之间的差低于误差限 E=?2V?的概率是1-a。确定样本容量假设我们想要收集样本数据用于估计某个总体比例。我们怎么知 道必须要获得多少样本项目?如果我们采用误差限 E的表达式(公式 6-4),然后解出n,就会得到公式6-5。公式6-5需要将p作为总体 比例p的一个估计,但如果这样的估计不是已知的(通常情况下就是 这样),我们就用公式6-6给出的结果,用0.5代替p,用0.5代替q。估计比例p所需的样本容量当估计值p( p顶)已知时:n=?;?2?( 6-5)当估计值p (p顶)未知时:n?2?; 0.25(6-6)确定样本容量的圆整法则如果计算出的样本容量
32、不是一个整数值,将其圆整到邻近的较大的整数值。常见错误当使用公式6-5或公式6-6计算样本容量时,要保证临界值z取值为?2。例如,如果置信度为95%就要确保?2的取值 为1.96。不要错误地将??2取值为0.95或0.05。再有,不要错误地 使用E=3作为对应于“ 3个百分点”的误差限。当使用公式 6-5或公 式6-6时,E的值不会大于1,像0.33就是一个通常的取值。这个错 误将使得样本容量成为它应该达到的数值的万分之一,这样你最终得到的结果可能是,当结果圆整时,样本容量只有 1。总体容量许多人错误地相信,样本容量应该是总体容量的某个 百分比,但公式6-6表明,总体容量是无关的。从一个置信区
33、间计算点估计值和Ep的点估计值p =置信区间上界)+ (置信区间下界)2误差限e(置信区间上界)-(置信区间下界)一片杂志上的文章中,对总体比例的置信区间估计是:0.400 <p < 0.500。使用已知的置信区间边界计算点估计值p和误差限E。解答p=(置信区间上界)+ (置信区间下界)=°.500+°.400 =0.4502 2E=(置信区间上界)-(置信区间下界)竺0d =0.05026.6估计总体方差本节的主要目的:1.已知样本值,估计总体标准差0或总体方差2.确定估计总体标准差或方差所需要的样本容量。假设1.样本是一个简单随机样本。2.总体必须有服从正态
34、分布的数值(即使样本很大)卡方分布在一个方差为0的正态分布总体中,我们随机选择了一些容量为n的独立样本,并算出每个样本的样本方差s2。样本统计量X= (n-1)s2/ 0所服从的分布称为卡方分布。卡方分布2(n-1 ) s2X=(6-7)其中 n二样本容量,s2二样本方差,0二总体方差卡方分布由自由度的数量确定,在本章中,我们使用的自由度为n-1 o自由度=n-1在后面的章节中我们会遇到自由度不是 n-1 的情况,所以我们不 应该做出错误的归纳,认为自由度的值总是 n-1o卡方统计量分布的性质1. 与正态分布和学生 t 分布不同,卡方分布不是对称的 (见图 6-7), (当自由度的值增加时,分
35、布变得更加对称,如图6-8所示)。2. 卡方的值可以是零或正数,但它们不可能为负数(见图 6-7)。3. 对于每个自由度的取值,卡方分布是不同的(图6-8),自由度的数值由这一节中的 df=n-1 给出。当自由度的数值增加时,卡方分 布趋于一个正态分布。在附录表 A-4 中, ?2每一个临界值都对应于表的最上面一行中给 出的一个面积,这个面积代表位于临界值右侧的全部区域。例 临界值计算X的临界值,以确定包含有每个尾部的面积为0.025的临界区域。假设相应的样本容量为 10,这样自由度的数值就是 10-1,或9。 解答参见图6-9和附录表A-4。找到左边自由度所在的列中9的位置, 以及顶部 0.
36、025 的位置, 行和列的交叉处就是右侧的临界值(X=19.023) o左侧的临界值X=2.700还是对应于自由度列中的 9, 但因为最上面一行的数据值都是位于临界值右侧的面积, 所以我们要 在最上面一行中找到 0.975。参见图 6-9 可以看出, X2=2.700 右侧的 全部面积是 0.975。图 6-9 显示出,对于一个选取自正态分布总体的由10个数据组成的样本,卡方统计量(n-1) s2/ /落在卡方临界值2.700和19.023之间的概率是0.95?的估计量因为样本方差s2的中心趋于总体方差(?的值,所以我们称s2是/ 的一个无偏估计量。样本方差s2是总体方差?的最好的点估计值由于
37、s2是/的一个无偏估计量,我们可能会期望 s是由勺一个无 偏估计量,但现实却不是这样。但是,如果样本容量比较大,偏差就 会非常小,以至于我们可以使用 s作为由勺一个合理的较好的估计。 即使它是一个有偏估计,也经常用作 °的点估计值。样本标准差s 一般用来作为??勺一个点估计值(即使它是一个有 偏的估计值)。虽然s2是的最好的点估计值,但没有什么线索表明它实际上有多 么好。为了补偿这个缺陷,我们提出了能够提供更多信息的区间估计(或置信区间)总体方差?的置信区间(或区间估计)(?-1)?2 < ?<x?(?-1)?2这个表达式用来计算方差?的置信区间,但标准差??勺置信区间(
38、或区间估计)由每一部分的开平方求得,如下所示在前面这个表达式中的符号X?和X描述如下(注意,在其他一些 教材中,用X?/2代替X?用X-?/2代替X?符号对于相等地分布在一个卡方分布双尾的总面积为a的区域,X表示左尾的临界值,X?表示右尾的临界值。(见图6-10)d2和(的置信区间边界应该使用下面的四舍五入法则来四舍五入,这个法则和第 6.2 节中给出的法则实际上是相同的。?2或?的置信区间估计的四舍五入法则1. 当使用原始数据集来构建一个置信区间时, 将置信区间的边界 四舍五入为比原始数据集的小数位多一位的小数位。2. 当原始数据集是未知的,并且只使用汇总统计量( n,s )时, 将置信区间
39、的边界四舍五入到和样本标准方或方差所使用的小数位 数相同的小数位。例 人体体温章节问题中的表 6-1 列出了由马里兰大学的研究人员获得的 106 个人体体温数据(来自附录 B 的数据集 6)。使用下面的数据集的特 征,构建这个总体的体温标准差 ?的 95%的置信区间估计:(1) 正像一个直方图所反映的,数据的分布是近似钟型的(2) 均值是98.20 T(3) 标准差 s=0.62 T(4) 样本容量 n=106(5) 没有离群数 解答我们先来计算X的临界值。由于样本中包含106个数据,所以自由度等于105。这与在附录表A-4中找到的自由度100相差得不是太 大,所以我们就用自由度100来计算(见习题22,介绍了一种将会 产生更精准的临界值的方法)。对于95%的自由度,我们将a=0.05分 为卡方分布双尾处相等的两部分,并在附录表A-4的顶端一行中找到0.975和0.025的值。X的临界值为X?=74.222和X?=129.561。使用 这些临界值,以及样本标准差 s=0.62和样本
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 无锡市滨湖区2026年初三第一次联考试卷(化学试题文)试题含解析
- 2026年山东省宁阳县市级名校重庆一中初三4月月考化学试题含解析
- 湖北省武汉市青山区5月2026年初三下学期期初联考化学试题试卷含解析
- 江苏省南通通州区重点中学2025-2026学年初三月考(七)生物试题含解析
- 2026届贵州省桐梓县联考初三学情摸底化学试题含解析
- 2026年长三角养老托育公共服务资源共享与标准互认指南
- 2025-2026学年浙江省杭州市建兰中学第二学期期末考试初三生物试题含解析
- 2026年医学影像前处理与流程优化软件分类界定
- 2026年工业互联网安全分类分级管理与数据安全合规指南
- 2025年临床执业《外科学》题集
- 部编版五年级道德与法治下册各单元测试卷及期末测试卷共7套(含答案)
- 2026浙江绍兴理工学院招聘32人笔试备考题库及答案解析
- 宁德时代入职测评题
- 《银行会计(第四版)》全套教学课件
- (自2026年1月1日起施行)《增值税法实施条例》的重要变化解读
- 个体化疫苗研发中的成本效益:精准分析
- 2025福建泉州丰泽城市建设集团有限公司招聘第二批招商专员复试及环节人员笔试历年难易错考点试卷带答案解析
- DB34∕T 5013-2025 工程建设项目招标代理规程
- 2026年江西司法警官职业学院单招职业技能考试题库及答案1套
- 去极端化宣传课件
- ERAS理念下术后早期活动的护理方案
评论
0/150
提交评论