管理定量分析第六章.ppt_第1页
管理定量分析第六章.ppt_第2页
管理定量分析第六章.ppt_第3页
管理定量分析第六章.ppt_第4页
管理定量分析第六章.ppt_第5页
已阅读5页,还剩78页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、管理定量分析,主讲人:李国梁,管理定量分析,主讲:李国梁,第六章统计估计与假设检定,第一节统计估计与置信区间第二节假设检定,次数分布表、统计图、平均数或标准差的主要用途是呈现一组资料的形态或趋势。当学者想要从手边的样本资料来归纳母体的特性时,描述统计的使用有所不足。因为描述统计仅能呈现手边资料的特性,为了能适当地、合理地归纳出母体的特性,我们需要用推论统计。简单地说,推论就是以样本资料来归纳母体特性的过程,与推论相关的统计方法即为推论统计。推论统计方法不仅可以用来估计母体的特性,也就是一般所说的统计估计,推论认识水平也可以用来推测这些估计的正确程度,也就是一般所说的假设检定。,第一节统计估计与

2、置信区间统计估计就是以样本统计量来推算母体参数的统计方法,也就是根据抽样的结果来科学地猜测母体的特性大约是什么。例如,为了能了解全体北京市民对朝鲜核试验的看法,我们可以用北京市在籍成年市民为母体,然后使用随机抽样法选取1500位北京市民为样本,对其政治态度进行民意调查。然后以1500位北京市民的样本资料来归纳全体北京市民对朝鲜核试验的看法。这个以样本特性来归纳母体特性的过程就是统计估计。,一、点估计与区间估计统计估计可分为:“点估计”与“区间估计”两种。点估计就是以样本所计算出的一个数值来估计母体参数。以估计母体平均数为例,点估计是以样本平均数来失算母体平均数。因为它只是一个数值,所以称为点估

3、计。点估计的准确性是很低的,因为以少数的样本观察值所获得的结果,要吻合以全体观察值计算出的平均数确实不容易。由于我们并不知道真正的母体参数,无法推估出点估计值与真正的母体值之间的差距,因为无法推算点估计值的误差。基于这个缺点,一般以区间估计来推算母体的特性。,所谓的区间估计就是用样本资料计算出一个区间范围,以推算母体参数的统计估计。例如,我们说北京市民的平均身高在1.60米到1.75米之间,这样的估计要比说平均身高是1.60米的猜中机会大得多。因为我们是以区间范围推算母体参数,所以称为区间估计。区间估计的优点是我们可以推算估计的准确程度,而这一区间的大小就是估计的误差值。一般而言,这个估计区间

4、不能太大,因为太大就失去了估计的准确性。,如果我们说北京市民的平均身高在0到2米之间,这样的估计虽然接近100%正确,但是对我们来讲几乎毫无用处,因为这样的估计可以说是没有估计。相反,估计区间也不能太小,因为太小则可能失去估计的可信度。例如,我们说北京市民的平均身高在1.699到1.6999米之间就很难让人信服这一结论的正确性。因此,为了平衡准确度与可信度上的要求,我们通常是将可信程度固定在某一水平上,称为“置信系数”,然后计算出相关的区间,称为“置信区间”。,二、置信系数与置信区间虽然区间估计可以用于推算所有的母体参数,我们以母体平均数的估计来说明置信系数与置信区间。前面曾经说明,根据中央极

5、限定理,在做多次抽样所得的平均数,如果排列起来就会形成正态分布。这个正态分布的平均数为(等于母体平均数),标准误为。假定我们知道母体的标准差(),依照图示,约有68%的会落在1个标准误的区间(,)。约有95%的会落在2个标准误的区间(,)。约有99%的会落在3个标准误的区间(,,)。因为我们是要估计母体平均数,所以上面的说法可以转换成:有68%的包含,有95%的包含,有99%的包含。换句话,就是区间估计的逻辑是以概率抽样方法自母体抽取一个样本,计算其平均数,依照所要的置信系数,将加减K个而得到上下区间。这个区间就是置信区间。因此,置信区间与置信系数的关系可以用下面的公式来表示:(6.1),上式

6、中的左侧为置信区间,其中为区间的下界,而为区间的上界。为区间的宽度,通常称为“最大抽样误差”,也称为“边际误差”,是以置信区间来估计母体参数时的最大可能抽样误差。上式中的右侧的1-a为置信系数,a又称为显著水平,是概率分布两尾端的面积和。因为1-a表示置信区间的可靠性,a所以表示置信区间估计的不可靠性。置信系数与显著水平之和为1,两者都表示相关的概率。,例如,如果置信系数设为0.95的话,其显著水平即为0.05,我们所构建的则是95%置信区间。因此,在估计母体平均数时,置信系数为1-a的置信区间通常以下列公式表示:,置信系数为的置信区间:或者(6.2)上式中为区间的下界,而为区间的上界。,图6

7、-1正态曲线面积分布图,我们应该如何解释置信区间呢?图6-2显示样本平均数的抽样分布,我们以95%置信区间来估计母体平均数。如果样本平均数区间是,那么以样本平均数所建立的区间就应包含母体平均数。反之,如果样本平均数不在区间,那么以样本平均数所建立的区间就不会包含母体平均数。不过实际上我们很少会知道真正的母体平均数,因此通常也无法知道样本平均数,是否一定是在与之间。但是对任何一次抽样,其样本平均数会有95%的概率在与之间。因此置信区间的意义是:如果连续抽样100次,每次都建立一个置信区间,所谓的95%置信区间是指这100个置信区间中,会有95%个样本正确地包含着母体平均数,约有5个不包含。或者说

8、,每抽样20次,就会有一次估计区间不包含母体平均数。假定我们已知母体平均数值,如图6-3所示20次抽样后所建立的置信区间。,在这20次抽样中,有19个置信区间包含了母体平均数,但是有一个置信区间没有包含母体平均数。同理,所谓99%的置信区间是指建立的100个置信区间中,有99个置信区间包含了母体平均数,但是有一个置信区间没有包含母体平均数。但是实际,我们绝大多数情况下,不会做100次抽样,而是只做一次,所以说这一次抽样所建构的置信区间会包含母体平均数的概率是95%或是99%。,图6-2以样本值建立的95%置信区间,表6-1置信系数、a值、z分数与相对应的概率,图6-3重复抽样置信区间与母体平均

9、数的关系示意图,三、母体平均数的区间估计在介绍了区间估计的概念后,下面再来讨论如何以置信区间估计母体平均数,然后再说明以置信区间估计母体百分比。1.已知:大样本中央极限定理告诉我们,如果样本足够大,样本平均数会形成正态分布。假定我们也知道母体标准差,置信区间则可以由公式6.2表示。我们以估计北京男性市民的平均身高为例进行说明如何以公式6.2来建构置信区间。,假定在随机抽样1000位北京男性市民后,样本平均身高为172CM,已知为30CM,北京男性市民平均身高为95%置信区间为什么?根据公式6.2,我们必须找到式中za/2的值。从标准正态分布表中可知,与z=1.96相对应的概率是0.475,这个

10、概率只代表平均数到z=1.96的面积,我们还应考虑平均数到z=-1.96的面积,所以0.475乘以2,就等于0.95或者95%,所以相对于置信区间系数0.95的z分数1.96。公式6.2改写为95%置信区间:=(172-1.86,172+1.86)=(170.14,173.86),这就表示在95%的置信系数下,北京男性市民的平均身高是在170.14CM到173.86CM之间,其最大抽样误差是1.86CM。如果我们要求置信系数为99%的置信区间,同理可知z=2.575,代入公式6.2中可得:99%置信区间=(172-2.44,172+2.44)=(169.56,174.44),这就表示在99%的

11、置信系数下,北京男性市民的平均身高是在169.56CM到174.44CM之间,其最大抽样误差是2.44CM。注意99%置信区间比95%置信区间要宽,这是因为置信系数越高,统计值就越要有包容性,区间就需要越宽。不过太宽的置信区间有时使之失去了实际的效用,如上面例子,如果上面的置信区间设为100CM到200CM,这个平均身高的估计区间就没什么意义了,因为它实在是太宽了,精确度太低了,这就是高置信系数所须付出的代价。,2.为未知:大样本在大部分的情况下,我们不知道母体标准差。如果样本数够大,我们可以样本标准差s来作为母体标准差的估计值,也就是公式6.2中的以s来取代,置信系数为1-a的置信区间为:或

12、者(6.3)我们以下面的例子来说明。,假定在随机抽样100位某市人大代表后,样本平均年龄为45岁,样本标准差为9,该市人大代表平均年龄的95%与99%置信区间分别是多少?我们虽然不知道母体标准差,但是因为样本数够大,我们以样本标准差s来取代母体标准差,由前例可知,建构95%置信区间时,za/2=1.96,依公式6.3,市人大代表平均年龄的95%置信区间为:95%置信区间:=(45-1.76,45+1.76)=(43.24,46.76),这就表示在95%置信系数下,该市人大代表平均年龄是在43.24岁与46.76岁之间,其最大抽样误差为1.76。市人大代表平均年龄的99%置信区间为:99%置信区

13、间:=(45-2.32,45+2.32)=(42.68,47.32)这就表示在99%置信系数下,该市人大代表平均年龄是在42.68岁与47.32岁之间,其最大抽样误差为2.32。,3.为未知:小样本另一种常见的情况是我们不知道母体标准差,而且样本数量相对较少(通常少于30个)。如果母体为正态分布,我们可以用t分布来建构母体平均数的置信区间,也就是将公式6.3中的za/2以n-1自由度的ta/2来取代,因此,置信系数为1-a的置信区间为:或者(6.4)我们再以上例为例进行分别计算。假定在随机抽样16位人大代表之后,样本平均年龄为55岁,样本标准差为20。某市人大代表平均年龄的95%和99%置信区

14、间分别为多少?,查t分布需要知道自由度和a值,市人大代表平均年龄的95%置信区间为:这里自由度为16-1,a值为1-0.95,查t分布表知ta/2为2.131。95%置信区间:=(55-10.66,55+10.66)=(44.34,65.66)这就表示在95%置信系数下,该市人大代表平均年龄是在44.34岁与65.66岁之间,其最大抽样误差为10.66。,如果我们想在置信系数在99%的情况下进行计算,市人大代表平均年龄的95%置信区间为:这里自由度为16-1,a值为1-0.99,查t分布表知ta/2为2.947。95%置信区间:=(55-14.74,55+14.74)=(40.26,69.74

15、)这就表示在99%置信系数下,该市人大代表平均年龄是在40.26岁与69.74岁之间,其最大抽样误差为14.74。,在实际上,我们通常不知道母体标准差,所以不论大小样本,一般我们都用t分数来计算置信区间。很多统计软件甚至只提供t分数计算的置信区间来估计母体平均数,而不提供以z分数计算的置信区间。当然,在使用小样本时,要检视母体分布是否为正态分布。在估计母体平均数时,以t分数计算的置信区间会比以z分数计算的置信区间保守得多(精确度低)。,四、母体百分比的区间估计除了估计母体平均数以外,在社会科学中,我们经常遇到一些问题需要估计母体中的百分比。例如:依照抽样方法来估计某城市上网人口比例,或某地区抽

16、烟人口比例,或人民支持某法案的比例。对于这类问题,我们可以对母体百分比做区间估计。其估计的逻辑与母体平均数的估计相同。我们在第三章已经知道,样本百分比的计算是p=f/n100,其中f是某事件发生的次数,n是样本数。根据中央极限定理,当样本楼足够大时,在做多次抽样后所得的样本百分比p,就会形成正态分布。这样“样本百分比抽样分布”的标准差为,这些样本百分比的期望值(也就是这些样本百分比的平均数)E(p)等于母体百分比。也就是,,(6.5)(6.6)因此,(6.7)正如估计母体平均数时一样,在大部分的情况下,我们是不知道母体百分比的。如果样本数足够大,我们可以用样本百分比(p)来作为母体百分比的估计

17、值,也就是将公式6.7中的以p来取代。母体百分比区间估计的公式就可以写成:,或者(6.8)例如,我们要估计某国国民对民主动作方式的满意度,以此为例我们说明母体百分比的区间估计。假定在随机抽样1000位国民后,有58%受访人对该国民主动作方式感到满意。问95%置信区间为多少?,依公式6.8,95%置信区间为:=(0.58-0.03,0.58+0.03)=(0.55,0.61)这就表示在95%的置信系数下,某国国民对该国民主动作方式的满意度在55%到61%之间,其最大抽样误差为3%。,五、决定样本数的大小从公式6.2可知,除了置信系数会影响置信区间的宽窄,标准误的大小也会影响置信区间的宽窄。在置信

18、系数一定的情形下,标准误越大,置信区间也就越宽。一个控制最大抽样误差的方法是从样本数着手加以解决。我们以前面讲过的北京男性市民平均身高为倒,其中置信系数为95%的置信区间为(170.14,173.86)最大抽样误差为1.86,如果我们想将最大抽样误差减半,变为0.93,我们至少需要3998个样本,因为最大抽样误差是,,前面我们提到过当样本数超过一定数目后,标准误减少得非常有限,但是抽样成本会随着样本数增大而增大。所以研究者需要计算成本效益来决定样本数与最大抽样误差的大小。,第二节假设检定前面所介绍的是如何以置信区间来估计母体参数。但是置信区间不是推论母体特性的唯一方法。另一个常用的推论方法是假

19、设检定。我们在第一章提到过,假设是对研究问题的一项暂时性的答案。这一答案之所以称为暂时的,是因为它还没有经过经验资料的验证。所以假设检定的逻辑是先假定母体的特性,再以样本资料来验证这项假定是否为真。在社会科学中,假设检定的对象一般是母体平均数以及母体百分比。在程序上,可以用三种方法来检定假设:置信区间检定法、临界值检定法以及p值检定法。相对而言,置信区间不是特别常用,其它两个检定方法比较常用(特别是本书中经常用p值检定法)。,一、母体平均数的假设检定某学校领导宣称该校学生的平均智商为122分。为了检证该领导所说的是不是真,我们用随机抽样程序测试了256位学生,结果发现样本平均数为120分,与校

20、领导宣称的相差了2分,其中样本标准差为10。但是测试结果与领导宣称之间的这个差别是因为抽样误差造成的吗?还是领导所讲的与真实确实存在差别?我们可以将该领导的宣称视为一项假设来检定该校学生的平均智商是不是真的为122分。,假设检定的程序包括五个步骤:(1)设立假设;(2)决定显著水平;(3)设立决定规则;(4)计算检定数据;(5)结论。,下面我们分别对三种检定方法进行讲述。1.置信区间检定法(1)设立假设在统计上,我们设立两种假设:i.虚无假设:又称为原假设,通常以H0来代表,这个假设表示母体平均值与假设值0之间没有差别(也就是H0:=0)ii.对立假设:又称为研究假设,通常以H1来代表,这个假

21、设表示母体平均值与假设值0之间有差别(也就是H1:0),这是我们研究中真正想检定的对象。,以上述学生的平均智商研究为例,虚无假设与对立假设分别为:虚无假设,H0:=0(其定义为“该校学生的平均智商为122分”)对立假设,H1:0(其定义为“该校学生的平均智商不是122分”)注意这两项假设是“彼此互斥而且集体穷尽”通常我们以虚无假设为检定的目标。,因为我们是以样本为基础对母体参数的推论,我们的决定不可能百分之百的正确。如表6-2,我们的判断可能出现两种错误,分别称为“第一型错误”和“第二型错误”i.第一型错误:事实上虚无假设为真,而我们却决定拒绝虚无假设。这种以真当假的错误在统计上称为第一型错误

22、,犯下错误的概率以来代表;ii.第二型错误:事实上虚无假设为假,而我们却决定接受虚无假设。这种以假当真的错误在统计上称为第二型错误,犯下错误的概率以来代表。,那么与假设检定有什么关系呢?前面我们在讨论置信区间时,我们提到为显著水平。在决定的值后,我们便决定了置信系数(1-),从而决定了临界值(z/2),将之代入公式6.2,便可得出置信区间。举例来说,如果为0.05时,置信系数为0.95,z/2为1.96,我们偈可依此来建构95%置信区间。因为置信区间是假设检定的方法之一,值就可帮助我们设立决定规则。,表6-2假设检定的两种错误类型表,一个常问的问题是,值从哪儿来?谁来决定值?从表6-2的讨论可

23、知,值代表我们做下决定却发生第一型错误的概率。因此,主动权掌握在研究者的手中。值的大小也就由研究者来决定。理论上,可以为任何数值,但是传统上我们以0.05或0.01为显著水平。在这里,我们设定值为0.05(=0.05)。,(3)设立决定规则前面说过,我们有三种方法来检定假设。虽然临界值检定法以及p值检定法是常用的方法,我们还是先介绍置信区间检定法,因为置信区间检定法可以帮助我们了解其他两种方法。简单来说,置信区间检定法的逻辑是:如果母体平均数等于一个值0,则所观测到的样本平均数也应该非常接近这个值0。在程序上,我们可以用样本平均数来建构置信区间,在一定的置信系数下,如果所建构的置信区间包含假设

24、值,我们就无法拒绝虚无假设,表示母体平均数与假设值没有统计上,的显著差别。反之,如果所建构的置信区间没有包含假设值,我们就必须拒绝虚无假设,表示母体平均数与假设值间确实有统计上的显著差别。图6-4显示以样本平均数所建构的置信区间包含假设的平均值,也就是样本平均数非常接近假设的母体值,表示母体平均数与假设值0间没有统计上的显著区别。所以决定规则是:i.如果假设值0在置信区间内,表示母体平均数与假设值0间没有统计上的显著区别,我们就无法拒绝虚无假设。ii.如果假设值0不在置信区间内,表示母体平均数与假设值0间有统计上的显著区别,我们就拒绝虚无假设。,图6-4双尾假设检定的置信区间检定法,(4)计算

25、检定数据我们在步骤2中已经设定=0.05,因此置信系数为0.95,za/2=1.96,检定数据为95%置信区间。已知样本数为256,样本标准差为10分,则:95%置信区间:=(120-1.23,120+1.23)=(118.77,121.23)所以检定数据为118.77到121.23的区间。,(5)结论。因为假设值为122分,在95%置信区间外,依照上述的决定规则,我们拒绝虚无假设。也就是说,在0.95置信系数(或显著水平=0.05)之下,表示母体平均数与假设值0间有统计上的显著区别,我们就拒绝虚无假设。或者说,该校学生的平均智商在统计上与122分有显著的不同。我们的结论是该校领导的宣称是错的

26、,该校学生的平均智商不是122分。,2.临界值检定法除了可以用置信区间检定法外,我们还可以用临界值检定法。在使用这种方法时,检定的步骤大体相同,也就是包含了设立假设、决定显著水平、设立决定规则、计算检定数据及结论五个步骤。两者不同点在于决定规则与计算检定数据的方法。临界值检定我们可选用z分数或者t分数检定。临界值检定法是依据公式6.9将样本值转化为z分数并取绝对值(|z|),然后与临界值(za/2)相比较。(6.9),用z分数做临界值的决定规则为:i.如果|z|za/2,我们就无法拒绝虚无假设;ii.如果|z|za/2,我们就拒绝虚无假设。还以上面置信区间检定法中的例子为例,95%置信区间间的

27、za/2为1.96,而z值为,因而|z|=3.2za/2,因此根据决定规则,拒绝虚无假设,这个结论与置信区间检定的结论相同。,图6-5双尾假设检定的“拒绝区”和“接受区”:临界值检定法,我们也可以用t分数检测上述的假设。因为当样本数小时,如果母体是属于正态分布,呈t分布,并有n-1个自由度,即(6.10),同样,使用t分数作为临界值的决定规则为:i.如果|t|ta/2,我们就无法拒绝虚无假设;ii.如果|t|ta/2,我们就拒绝虚无假设。仍然使用前例,学生平均智商的t值为:,而ta/2通常查t分布表,已经知a=0.05,=255,查表得ta/2=1.96,因此|t|ta/2,我们拒绝虚无假设,

28、这个结论与置信区间检定的结论相同。,3.p值检定法p值检定法也与上述方法的逻辑相同。再以上述学生平均智商为例,我们已知|z|=3.2。此处的p值指的是|z|3.2的概率,它是z-3.2与z3.2的概率和。从正态分布表可知,z=3.2对应的概率是0.4993。因此,z3.2的概率是0.0007,因为是单侧的概率,所以|z|3.2的概率应该乘以2即0.0014。从图6-6可知,当p值小于a时,就表示样本值落在拒绝区内,我们拒绝虚无假设。当p值大于a时,就表示样本值落在接受区内,此时,我们无法拒绝虚无假设。所以p值检定法的决定规则是:i.如果pa,我们就无法拒绝虚无假设;ii.如果pa,我们就拒绝虚

29、无假设。,图6-6双尾假设检定的“拒绝区”与“接受区”:p值检定法,因为本例中p=0.0014,小于a=0.05,显示当显著水平为0.05时,该校学生的平均智商在统计上与122分显著的不同。这个结论与置信区间检定法及临界值检定法所得的结论相同。上述讨论显示,置信区间检定法、临界值检定法以及p值检定法是密切相关的,只是运用不同的检定数据,所以无论是使用哪一种方法,所得的结论都是一样的。但计算中,我们也能看到p值检定法需要求取z分数或t分数,似乎使用p值检定法要比临界值麻烦,但是现在绝大多数统计软件都提供p值而不提供z分数或t分数,所以在使用软件时,我们用p值检定法会更方便。,二、母体平均数的左侧

30、单尾检定前面的检定方式都是双尾检定,因为拒绝区是在两尾端。这类的检定只能检验样本观察值与母体参数间有没有统计上显著的差别。如果我们想要了解样本值是不是比母体参数大或比母体参数小,我们就需要用单尾检定。因为如果研究的问题不仅要回答有无差异,还要回答差异的方向,这时拒绝区不再分散于两尾端,而是集中在其中的一侧,所以是单尾检定。单尾检定的逻辑是,如果在考量抽样误差后,样本值仍比母体参数小(或比母体参数大),我们就拒绝虚无假设。单尾检定,的过程与双尾检定因此有些不同。以学生平均智商为例,上述的双尾检定只告诉我们校领导的宣称是错误的,因为样本值在统计上与假设的122分有显著的不同。但这并不能告诉我们样本

31、值是不是比假设的母体参数小或大。根据拒绝区在左侧或右侧,单尾检定又可分为左侧单尾检定与右侧单尾检定。我们以学生平均智商为例,先说明左侧单尾检定,再以另外一个例子来说明右侧单尾检定。,在学生平均智商的例子中,如果那一位老师想知道,该校学生的平均智商事实睛是否低于122分,这样的研究问题就具有方向。如图6-7所示,因为所要检测的是样本值是否比假设的母体参数小,拒绝区在左侧,因此是左侧单尾检定。相关的检定步骤为:1.临界值检定法单尾检定的对立假设须反映研究兴趣,因为所要检测的是样本值是否比假设的母体参数小,相关的假设为:,H0:=122(其意为“该校学生的平均智商为122”)H1:122(其意为“该

32、校学生的平均智商低于122”)与双尾检定一样,我们可选择=0.05或=0.01,但是需要注意对应的z分数临界值会有所不同。如图6-7所示,单尾检定中的集中在左边的尾端.当=0.05时,从0到-za的面积为0.45。查标准正态分布表可知za=1.645。因此,左侧单尾检定的临界值-za=-1.645;同理,当=0.01时,左侧单尾检定的临界值-za=-2.325。,图6-7左侧单尾假设检定的“拒绝区”与“接受区”,临界值检定法是将样本值转化为z分数,然后与临界值za相比较。如图6-7所示,上述假设的拒绝区是在-za的左侧。因此,我们以假设的母体参数值为中心,将样本值转化为z分数,如果z-za,样

33、本值是在拒绝区内,我们就拒绝虚无假设,表示在统计上样本观察值小于假设的母体参数。反之,如果z不小于-za,样本值是在接受区间内,我们就无法拒绝虚无假设,表示在统计上样本观察值不小于假设的母体参数,结论是样本观察值至少等于母体参数。因此相关的决定规则是:i.如果z-za,我们就无法拒绝虚无假设;ii.如果z-za,我们拒绝虚无假设;,上例中,因为母体平均数值为122分,样本值为120分,样本数为256,样本标准差为10,将这些代入公式6.10得到z=-3.2。我们已知,当=0.05时左侧单尾检定的临界值是-za=-1.645。因为z-za,所以依照决定规则,我们拒绝虚无假设,结论是该校学生的平均

34、智商在统计上显著地低于122分。,2.p值检定法上述的假设也可以用p值检定法检定。从图6-8可知,拒绝区是在za的左侧,当p值小于值时就表示样本值落在拒绝区内,我们必须拒绝虚无假设。当p值大于值时就表示样本值落在接受区内,我们就无法拒绝虚无假设。所以p值检定法的决定规则是:i.如果pza=1.645,样本值是在拒绝区内,显示该国营企业基层干部的平均年龄在统计上显著地超过30岁,依旧上述的决定规则,我们应拒绝虚无假设,结论是该国营企业基层干部平均年龄大于30岁。,2.p值检定法上述的假设也可以用p值检定法检定。从图6-10可知,拒绝区是在za的右侧,当p值大于值时就表示样本值落在拒绝区内,我们必

35、须拒绝虚无假设。当p值不大于值时就表示样本值落在接受区内,我们就无法拒绝虚无假设。所以p值检定法的决定规则是:i.如果p,我们就无法拒绝虚无假设;ii.如果p,我们拒绝虚无假设;,图6-10右侧单尾检定的p值,上例中,已经z=3.87,因此通过查标准正态分布表可知对应的概率是0.0002。因为p=0.05,依照上述的决定规则,我们拒绝虚无假设,结论是该国营企业基层干部平均年龄大于30岁。临界值检定法以及p值检定法中我们也可以用t分布来进行计算,其过程与标准正态分布基本相同,需要注意的是要检验样本是否来自正态分布的母体。,四、母体百分比的假设检定如果我们遇到了问题需要检定母体百分比,上述的假设检定中的逻辑也可以适用。我们以下面的例子进行说明。美国某州州长宣称,该州有56%的居民认为应当限制堕胎。某教授以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论