第四章 调查数据的推断分析a.doc_第1页
第四章 调查数据的推断分析a.doc_第2页
第四章 调查数据的推断分析a.doc_第3页
第四章 调查数据的推断分析a.doc_第4页
第四章 调查数据的推断分析a.doc_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章 调查数据的推断分析调查数据往往是来自总体的一个随机样本,通过对样本数据的处理,可以获得样本的数据特征。然而,调查研究的目的是要揭示总体的数量特征和变化规律,所以,就存在一个如何用样本信息去推断总体数量特征的问题。调查数据的推断分析是调查数据分析中的一项经常性内容,也是一项十分重要的数据分析工作。本章主要介绍调查数据推断分析的基本方法,内容包括参数估计、假设检验和方差分析。第一节 参数估计一、参数估计的一般问题(一)统计量与参数所谓参数估计,就是用样本统计量推算总体分布中的参数。参数是描述总体特征的概括性数字度量。因总体是确定的且通常未知,所以参数通常也是未知的,是一个需要估计的常数。推断问题中人们所关心的参数通常有:均值()、方差()、成数(P)。统计量是根据样本数据计算出的概括性数字度量,是样本的函数,它反映着样本的信息;样本的随机性决定统计量是随机变量。与所需要认识的参数相对应,推断问题中,最常用的统计量有:样本均值: (用来估计总体均值)样本成数: (用来估计总体成数)样本方差:或 (用来估计总体方差)估计问题中,统计量又称为估计量。(二)统计量的抽样分布统计量是一个随机变量,称它的概率分布为抽样分布。由于概率分布能很好地描述一个随机变量的性质,故用抽样分布来描述统计量的性质。知道概率分布,便可计算任一随机事件发生的概率;反映在估计问题中,知道抽样分布,意味着不仅可以计算估计误差这一随机事件发生的概率,而且可以控制估计误差。所以,抽样分布理论是统计推断的基础,是学习的重点。考虑到实际问题中,因客观条件的不同或研究目的的不同,在一些情况下,我们只可能获得较少的数据,即样本容量不可能很大,当30时,这类问题称为小样本问题;在另一些情况下,却可以进行大量重复试验,从而取得容量很大的样本,当30时,这类问题称为大样本问题。对大样本问题,由中心极限定理很容易确定出统计量的抽样分布。但对小样本问题,则要在正态分布总体的前提条件下,用统计量的精确分布来进行推断。常用的抽样分布有:样本均值的抽样分布,样本方差的抽样分布和样本成数的抽样分布。1样本均值的抽样分布(1)一个正态总体。设总体的均值为,方差为,为来自的一个随机样本。样本均值为,样本方差为。则有:E (从无限总体抽样) (从有限总体不放回抽样)上式中,称为有限总体的校正系数,一般情况下,当很大时,1,校正系数可简化为,样本方差可简化为:从而: (从无限总体抽样) (从有限总体不放回抽样)当总体,但未知且小样本状态下,总体均值的区间估计需引入统计量,统计量的抽样分布为: (1),即:(1)(2)两个正态总体。这是对两个总体的均值进行比较分析时所需了解的抽样分布。设总体和总体的均值与方差分别为()和(),为来自的容量为的样本均值,为来自的容量为的样本均值。则有:当总体和总体的方差、均未知但相等,小样本状态下,对()的估计仍需引入统计量, 上式中:,为总体方差的联合无偏估计量。(3)非正态总体(大样本)。在大多数实际问题中,不能假定总体服从或近似服从正态分布。但是,根据中心极限定理,只要样本容量足够大,样本均值的抽样分布就近似服从正态分布。于是有:(0,1)式中的总体方差()根据历史资料或经验得到,也可以用样本方差()代替。 统计推断中,样本均值的抽样分布常用于总体均值的估计和检验。2样本方差的抽样分布(1)一个正态总体。设总体的均值为,方差为,且(),为来自的一个容量为的随机样本,则有:(2)两个正态总体。这是对两个总体的方差进行比较分析时所用到的抽样分布。设、分别为来自总体()和()的样本方差,来自的样本容量为,来自的样本容量为,则统计量 统计推断中,样本方差的抽样分布常用于总体方差的估计和检验。3样本成数的抽样分布(大样本情形)样本成数是样本中具有某种特征的单位数所占比重,记为,样本成数的均值和方差分别为: (从无限总体抽样)或(从有限总体不放回抽样)其中:为总体成数。对样本成数而言,小样本下,服从二项分布;大样本情况下,由中心极限定理易知,近似服从正态分布,故大样本情况下,有:() (从无限总体抽样)或()(从有限总体不放回抽样) 统计推断中,样本成数的抽样分布常用于总体成数的估计和检验。(三)估计方法按估计参数时是否考虑估计误差的大小及发生的概率,估计方法分为点估计和区间估计。二、参数的点估计设为总体的一个未知参数。为一个统计量,它与的取值范围相同。如果用去估计的真值,则称的一个点估计量。当给定样本值时,的值称为的估计值。也就是说,参数的点估计就是用样本估计量的值作为未知参数的估计值。例如,样本均值为500元,我们就说总体均值为500元。因样本估计量是随机变量,得到样本估计量的方法有多种;对总体分布中的同一未知参数进行点估计时,不同估计方法得到不同的估计量,人们总是希望得到“好”的估计量。如此,参数点估计的任务有两个:第一,寻找获得估计量的方法;第二,建立判断估计量“好坏”的标准。对第一个任务,常用的点估计方法有矩法、极大似然函数法和最小二乘法等。对第二个任务,人们从不同的角度分别提出了一些判断标准,这些标准有:无偏性,有效性和一致性,并称同时满足这三个标准的估计量为优良估计量,判断标准为优良标准。三、参数的区间估计点估计的优点就是方便,其做法本身也相当直观,但缺点是没有提供关于估计精度的任何信息。要给出估计的精度,较自然的想法,就是指出它的变异程度。这种直观的想法导致区间估计方法的产生。设总体分布中含有一个未知参数,由样本确定的两个估计量及,对于给定值(01),满足:1则称随机区间()为参数的置信度,为(1)的置信区间,即有(1-)的把握说明随机区间()包含参数。、分别称为置信下限和置信上限,称为置信水平。可见,总体分布中未知参数的区间估计就是在一定概率意义下计算的变化范围。如同点估计中有估计量的“好坏”评价问题,区间估计中也有两个基本要求:(1)置信度:表明估计结果的可靠程度,自然希望随机区间()包含参数的概率越大越好,即随机区间()的平均长度E()越长越好;(2)精确度:表明估计结果的误差大小,自然希望包含参数的随机区间()的平均长度E()越短越好。在样本容量一定的条件下,上述两个基本要求是相互矛盾的,解决矛盾的原则为J.Neyman原则,即在保证置信度的前提下,尽可能提高精确度。(一)总体均值()的区间估计1一个正态总体【例4.1】 人寿保险公司调查得到由36个投保个人组成的随机样本,样本观测值如表4-1所示:表4-1 36个投保个人年龄数据233539274436424643332442534554342839364039493834503439454832要求确定投保人平均年龄90%的置信区间。解:这是未知总体分布但大样本情况下,对总体均值作区间估计的问题。因未知总体单位数,视样本为从无限总体中抽出。已知, n =36,为大样本,由中心极限定理知:N(0,1)总体方差用样本方差代替,由1=90%,查表得,=1.645。对表4-1计算均值和标准差,得:,故投保人平均年龄90%的置信区间为:即(37.37, 41.63)。【例4.2】 某时装专卖店的管理人员想估计其顾客的平均年龄,随机抽取了16位顾客进行调查,得到样本均值=32岁,样本标准差=8岁,假定顾客的年龄近似服从正态分布,试求该店全部顾客平均年龄置信度为95%的置信区间。解:因为总体X近似服从正态分布,即(. ),未知且=16为小样本,对进行区间估计须构造t统计量,故总体均值的95%的置信区间为:也即有95%的把握估计全部顾客平均年龄在27.73736.263岁之间。【例4.3】 某厂负责人想估计6000包某种材料的平均质量。随机抽取350包组成一个样本,样本的均值和标准差分别为32公斤和7公斤。试求总体均值的置信度为95%的置信区间。解:我们不知道总体是否服从正态分布,方差也未知,且由于抽样比例,校正系数不能忽略,故的95%的置信区间为:也即有95%的把握估计平均重量在31.2932.71公斤之间。2两个正态总体【例4.4】 为调查甲、乙两家银行的户均存款额,从两家银行各抽选一个由25个储蓄户组成的随机样本。两个样本均值分别为4500元和3250元,两个总体标准差分别为920元和960元。根据经验,知道两个总体均服从正态分布,试求的置信度为90%的置信区间。解:两个总体均服从正态分布,总体方差都已知,故的90%的置信区间为: 也即有90%的把握估计甲、乙两家银行户均存款额之差在8111689元之间。【例4.5】 某厂有两台生产金属棒的机器。一个随机样本由机器甲生产的11根金属棒组成,另一个随机样本由机器乙生产的21根金属棒组成。两个样本的数据如下:。假定两个总体均近似服从正态分布,且总体方差相等,试求的95%的置信区间。解:已知总体服从正态分布,未知总体方差且为小样本,故选统计量对进行估计。 也即有95%的把握估计在0.2740.366厘米之间。(二)总体方差()的区间估计1一个正态总体【例4.6】 假定A品牌25公斤袋装大米的重量服从正态公布。现随机抽取13袋大米,测得重量分别为24.0、24.2、24.4、24.6、24.7、24.8、25.0、25.1、25.1、25.2、25.3、25.4、25.6公斤,试以95%的置信度估计该品牌袋装大米重量的标准差。解: 由于=,故选卡方统计量对总体方差作区间估计。 =12, 查分布表得:,。则有:由原始数据可计算得到,代入上式便有: 0.118的概率才会比在成立时的概率大得多。如此,当时,就接受H0,即并不小于,反之,则拒绝,即。同理,对:=0,:而言,应将检验的显著水平全部放在H0的右侧进行检验。(五)统计结论的两类错误假设检验所得到的统计结论,完全是根据样本观察值计算出的检验统计量的数值是否落在的接受域内而作出的,是在一定概率意义下进行的。由于样本的随机性,检验判断时,有可能犯以下两类错误。(以:,:为例)。第一类错误:=0确实成立,但由于样本随机性,也可能小于,即落在接受域外,见图4-4。H1H0图4-4 假设检验中的两类错误图示这就导致把“实际成立”因而应该“接受”的问题错误当成“拒绝”,我们把这类统计结论的错误称为第一类错误或弃真错误。显然就规定,而言,犯第一类错误的概率就是,即检验规定的显著性水平。第二类错误:如果实际上是来自且1的阴影面积,即对其作标准化处理,则有:其中:一般,是显性的,但是隐性的,不易看出。观图4-4,不难发现影响值变化的因素有:(1)当其他条件不变时,大则小;反之,小必导致大,换句话说,在其他条件不变的情况下,要同时减小犯两类错误的概率是不可能的。(2)在规定的水平下,单侧检验犯第二类错误的可能性小于双侧检验。(3)其他情况不变,增加样本容量n,值将有效地减小。(4)其他情况不变,假设下的0与1间的距离将直接影响值。通过以上分析,我们应该在合适的及的要求下进行统计假设检验。通常值控制在1%5%,值多控制在10%30%。统计学家Neyman和Pearson提出的原则是:在控制犯第一类错误的概率的条件下,尽量使犯第二类错误的概率减少。其含义是:原假设要受到维护,使它不致于轻易被否定;若检验结果否定了原假设,则说明否定的理由是充分的,同时,作出否定判断的可靠程度(1)也得到保证。二、几种基本的统计假设检验方法统计假设检验方法很多,最基本的假设检验方法有四种,即检验法,检验法,检验法和检验法。(一)检验法检验法是在已知总体分布中的方差时,对一个正态总体的均值或两个正态总体均值的关系(均值之差)进行检验的方法。检验法也可用于大样本下非正态总体的成数检验。1一个正态总体均值的检验考虑下面三种类型的假设检验:(1): :0;(2): ;(3): 。所构造的检验统计量为:当时,统计量服从(0,1)。给定显著性水平,则有:(1): :0检验规则为:当时,拒绝;当检验规则为:当时,拒绝;当时,接受。(3): 时,接受。上述三个假设检验的拒绝域如图4-5,拒绝域的面积为。()()()000(3)(1)(2)图4-5 假设检验中的拒绝域图示【例4.11】 完成生产线上某件工作的平均时间不少于15.5分钟,标准差为3分钟。对随机抽选的9名职工讲授一种新方法,训练期结束后这9名职工完成此项工作的平均时间为13.5分钟。这个结果是否说明用新方法所需时间比用老方法所需时间短?设=0.05,并假定完成这件工作的时间服从正态分布。解:根据题意,要检验的假设为 ;(3): :。我们知道,经标准化后,为:于是,构造检验统计量 当时,统计量服从(0,1)。给定显著性水平,检验问题(1)、(2)、(3)的检验规则分别为:(1)当时拒绝,时接受;(2)当时拒绝,-时接受。【例4.12】 有两种方法可用于制造某种产品。经验表明,这两种方法生产的产品的抗拉强度都近似服从正态分布。方法1和方法2给出的标准差分别为3公斤和4公斤。从方法1和方法2生产的产品中分别随机抽取10个和14个产品,所得样本均值分别为20公斤和17公斤。试问这两种方法生产的产品的平均抗拉强度是否不同。()解:按题意,建立假设: 由于两个总体都近似服从正态分布,且总体方差已知,所以选取检验统计量 其观测值为查表得=1.96,由于,所以拒绝原假设,也即认为这两种方法不能生产出抗拉强度相同的产品。3大样本下总体成数的检验考虑下面三种类型的假设检验:(1) ;(2) ;(3) 0.2选取检验统计量为其观测值为查表得。由于,所以拒绝,也即认为这些数据可以证明负责人的判断是正确的。(二)检验法检验法是在未知总体方差时,对一个正态总体的均值或两个正态总体均值的关系(均值之差)进行检验的方法。1一个正态总体均值的检验考虑下面三种类型的假设检验:(1): :0;(2): ;(3): 。由于未知,应选取的检验统计量为:我们知道,当时,统计量服从自由度为的分布。给定显著性水平,检验问题(1)、(2)、(3)的检验规则分别为:(1)当时拒绝,时接受;(2)当时拒绝,-时接受。上述三个假设检验的拒绝域如图4-6,拒绝域的面积为。【例4.14】 某汽车轮胎厂声称,该厂一等品轮胎的平均寿命在一定的重量和正常行驶条件下,高于25000公里的国家标准。对一个由15个轮胎组成的随机样本进行试验,得到的平均值和标准差分别为27000公里和5000公里。假定轮胎寿命近似服从正态分布,试问可否相信产品质量同厂家所说的情况相符?(=0.05)解:由于存在抽样误差,需要对轮胎厂所说的情况进行显著性检验,即该厂的轮胎寿命必须显著地高于国家标准。这时,我们可把与国家标准没有显著性差异作为原假设,而把高于标准作为备择假设。于是建立假设:25000 25000由于总体近似服从正态分布,总体方差未知,所以选取检验统计量其观测值为:查分布表得,(14)=1.7613。由于 (14),所以只能接受,也即没有充分理由相信轮胎厂所生产轮胎的平均寿命高于国家标准。2两个正态总体均值之差的检验(总体方差未知但相等)考虑下面三种类型的假设检验(1): :(2): :(3): :我们知道,于是检验统计量为其中:当时,统计量服从自由度为的的分布。给定显著性水平,检验问题(1)、(2)、(3)的检验规则分别为:(1)当时拒绝,时接受;(2)时拒绝,-时接受。【例4.15】 有甲、乙两台机床加工同样产品,从它们所生产的产品中分别随机抽取8件和6件,测得产品直径(单位:)数据为:假定两个总体都服从正态分布,且方差相等。试问甲、乙两台机床加工的产品平均直径有无显著差异?()解:按题意建立假设: 由于两个总体都服从正态分布,方差虽未知但相等,所以选取检验统计量其观测值为:查获(12)=2.1788。由于36.191,所以拒绝原假设,即这批玻璃杯折射率的标准差显著地超过了标准,该超市应该拒绝接受这批玻璃杯。(四)检验法检验法是对两个正态总体方差间的关系(方差之比)进行检验的方法。考虑下面三种类型的假设检验:(1);(2);(3)。其中,分别为两个正态总体的方差。若从两个总体中分别随机抽取容量为为这两个样本的方差,我们已经知道统计量的概率分布,于是把F作为两个总体方差是否相同的检验统计量。显然,在原假设成立的条件下,服从自由度分别为和的分布。对给定的显著性水平,查分布表可得出相应的临界值,检验问题(1)、(2)、(3)的规则分别为:(1)当或时拒绝,否则接受;(2)当时拒绝,时接受;(3)当时拒绝,时接受。【例4.17】 在本章例4.15中,我们假定甲、乙两台机床加工产品的直径服从正态分布,且方差相等。但从样本测得的数据是和,即两个样本方差存在着一定的差异,因而需要检验这两个总体的方差是否真的相等。(=0.1)解: 由题意可建立假设:,。要检验原假设是否成立,可选择为检验统计量,本例的观测值为在显著性水平的条件下,查自由度为的分布,其临界值为:因为,所以接受原假设,即虽然这两个样本的方差存在着一定的差异,但这种差异并不显著。综上所述,2检验法和检验法都是针对方差的检验法,2检验法检验一个正态总体的方差,检验法检验两个正态总体的方差之比。第三节 方差分析前两节中我们讨论过两个总体均值之差的估计和检验问题。社会实践活动中,往往需要对多个总体进行比较研究,并分析它们之间变异的原因。如果沿用两个总体比较的方法,不仅计算工作冗烦,而且由于不能同时利用全部观察数据的信息,推断所得结论的精确度也较低。如果采用方差分析来解决这类问题,就可以取得较好的结果。方差分析是20世纪20年代发展起来的一种统计方法,它被广泛应用于分析心理学、生物学、工程、医药、质量管理等试验数据,也用于社会经济调查得到的观察数据。从本质上讲,方差分析也是一种假设检验。它通过对样本全部观测数据的波动进行分析,然后分解,将某因素下各组样本数据间可能存在的系统性波动与随机波动加以比较,据此推断各总体之间是否存在显著性差异,若存在显著性差异,也就说明该因素的影响是显著的。一、方差分析的一般性问题(一)基本概念为了更好地理解方差分析的含义,我们先通过一个例子来说明方差的有关概念及方差分析所要解决的问题。【例4.18】 五种治疗荨麻疹的药,要比较它们的疗效。为此,将30个病人随机分成5组,每组6人,令同组的病人使用同一种药,并记录下病人从用药开始到痊愈所需天数,如表4-2所示:表4-2 五种治疗荨麻疹药治愈病人天数药物A治愈所需天数XijA16877108A2466356A3644523A4746635A5945776一般而言,治愈所需天数越短,说明药物的疗效越好。医务人员想了解的是这5种药的疗效是否存在显著性差异?这相当于要判断“药物”对“治愈所需天数”是否有显著影响,做出这种判断最终可归纳为检验这5种药物治愈病人所需时间的均值是否相等。如果它们的均值相等,就意味着“药物”对“治愈所需天数”是没有影响的,也就是5种药物的疗效没有显著差异;如果均值不相等,则意味着“药物”对“治愈所需天数”是有影响的,5种药物间的疗效有显著差异。方差分析中,把所要检验的对象称为因素,因素的不同表现称为水平或处理,每个水平下得到的样本数据值称为观测值。如在上述例子中,我们要分析药物对治愈所需天数是否有影响,这里的“药物”是所要检验的对象,我们把它称为“因素”,不同的药是“药物”这一因素的具体表现,我们称之为“水平”或“处理”;每一种药的治愈所需天数(样本数据)被称为观测值。由于这里只涉及到“药物”一个因素,因此称为单因素5水平的试验。当我们把因素的每一个水平看作是一个总体,例子中有5种药,便有5个总体。表4-2中的数据值是从这5个总体中随机抽取的样本数据(各样本数据的个数可相等,也可不等,本例是相等的情形)。如果把因素看作分类型自变量,不同的药物便是它的不同取值;治愈所需天数看作数值型因变量,不同的天数就是因变量的取值,如此,方差分析所要回答的问题便是:分类型自变量对数值型因变量是否有显著性影响?(二)分析思想在上例中,记因素(药物)为,有5种药,即有5个水平,分别记为、,也就是说有5个总体,记这五个总体的均值分别为、。为了观察每一个总体的样本观测值,作散点图4-7。A1 A2 A3 A4 A5从散点图上直观地看出,不同药物的治愈所需天数存在着明显的差异,而且,即使是同一种药物,治愈所需天数也存在着差异,和治愈所需的时间较长,治愈所需时间最短,这表明药物与治愈所需时间之间有一定的关系。如果药物与治愈所需时间没有关系,那么,不同的药物治愈所需天数应该差不多,表现在散点图上,各药物治愈所需时间的均值应大体上处于同一高度,即、应大体上相等。如果我们提出假设:,问题便转化为对进行检验了。如何检验呢?首先,分析某一总体下观察值不等的原因。比如总体,由于样本的随机性,随机性因素的影响造成来自总体的6个样本观察值不等,这种观察值间的波动称为随机性波动。其次,分析不同药物间样本观察值不等的原因,即不同总体之间的样本观察值不等的原因,不难发现原因有两个,一是随机性因素影响,二是不同药物本身的疗效所致。我们把后一原因造成的数据波动称为系统性波动。如此,不同总体间样本观察值的不等,说明既有随机性波动,又有系统性波动。如果把衡量因素(药物)同一水平(同一总体)下样本数据波动的名词称为组内误差,那么,衡量因素(药物)不同水平(不同总体)下各样本之间波动的名词便称之为组间误差。以上分析告诉我们,组内误差只含有随机性波动,但组间误差中既含随机性波动,又含系统性波动。组内误差与组间误差构成全部样本数据的总波动。现假设不同药物对治愈天数无影响,即不同药物的疗效无差异,那么反映在组间误差上,则意味着不存在系统性波动,只含有随机波动,此时,组间误差与组内误差经过平均后的数据就应该大体上相等,其比值就会接近于1;反之,如果不同药物的疗效存在着差异,意味着组间误差中除了含随机性波动外,还含系统性波动,则它们的比值就会大于1,不仅如此,不同药物间的疗效差异越大,则组间误差与组内误差的比值越大于1。这给我们的启示便是:一方面,组间误差与组内误差的比值可用来判断总误差中是否存在系统性因素影响;另一方面,组间误差与组内误差的比值大到什么程度,我们就可以说因素(药物)的不同水平之间存在着显著性差异,也就是自变量对因变量有影响。数据间的波动常用方差来描述。组内误差用组内方差描述,组间误差用组间方差描述,组间误差与组内误差之比就转化为组间方差与组内方差之比。可以证明:组间方差与组内方差之比是一个服从分布的统计量。用这一统计量作检验量,可对我们前面提出的假设:进行检验。经过以上分析,方差分析的思想可归纳为:将试验得到的样本数据总波动按影响因素的不同分解为随机性波动和系统性波动,然后比较它们的平均波动,构造出误差比(方差比),建立检验量,判定试验观察因素的影响是否显著。(三)方差分析中的基本假定方差分析中有以下三个基本假定:(1)每个总体都服从正态分布,即对因素的每一个水平,其观察值均是来自正态分布总体的简单随机样本。(2)各个总体的方差相同,即在各总体方差均相等的情况下来考查其均值是否全等。(3)观察值是相互独立地取得的。根据以上的假定和前面的分析思想,方差分析中,问题的一般提法为:设因素有个水平,分别为,每个水平的均值分别用,表示,要检验这个水平(总体)的均值是否相等,相当于检验如下假设:= (自变量对因变量没有显著影响):,不全相等(自变量对因变量有显著影响)二、单因素方差分析当方差分析中只涉及一个分类型自变量时,称为单因素方差分析。下面结合例4.18来说明分析的步聚和具体做法。首先,将表4-2的数据整理成表4-3的形式,表4-3显示的是方差分析的数据结构。表4-3 单因素方差分析的数据结构复重x因素A123行和平均平方和列和表4-3中各符号定义如下:表示因素第个水平(总体)的第次观测值(;),表示对的下标j求和,其余雷同。则有:按表4-3的要求对表4-2的数据进行整理得到的数据结构,如表4-4所示:表4-4 五种治疗荨麻疹药治愈天数复A重药物x123456行和平均平方和6877108467.67362466356305.00158644532244.00106746635315.17171945776386.33256列和总和=169 总平均=5.631053其次,为检验自变量对因变量的影响是否显著,需要提出假设:两个变量在总体中没有关系,这相当于判断因素的个水平(总体)的均值是否全部相等,即提出假设: 自变量对因变量没有显著影响:不全相等 自变量对因变量有显著影响需要注意的是,依显著性水平对作判断时,可能会发生误判;当拒绝时,也只表明中至少有两个不等,并不意味着它们全不相等,故有多重比较问题的产生。再次,通过分解全部样本数据的总误差平方和,来解释观测值波动的原因。记观测值总波动平方和为,其自由度为;因素的不同水平引起的组间波动平方和为,其自由度为;随机因素引起的组内波动平方和为,其自由度为,则有:=并可以证明:记为因素的均方,为随机因素的均方,则有:=可以证明:=检验量用来检验所提出的原假设:。在本例中,由表4-4的数据可计算:=30-1=29=5-1=4=5(6-1)=25=方差分析中,常将分析结果以方差分析表4-5的形式表示。表4-5 单因素方差分析表波动来源波动平方和自由度df均方值水平的临界值组间(因素影响)=组内(随机影响)总波动仿照表4-5,对本例的计算结果列方差分析表4-6。表4-6 五种治疗荨麻疹药物疗效方差分析表波动来源df组间()47.47411.875.55组内()53.50252.14总波动100.9729最后,进行统计决策。当根据样本观测值计算出检验量的值后,对给定的显著性水平,查分布表,得检验临界值,将值与值作比较,若,则拒绝原假设,判定因素的影响显著,也就是检验的因素(药物)对观测值(治愈所需天数)有显著影响;若,则接受,判定因素的影响不显著,亦即所检验的因素(药物)对观测值(治愈所需天数)没有显著影响。检验的显著性水平常取0.05或0.01,并作如下规定:时,因素高度显著,记为()时,因素显著,记为()时,因素不显著。本例中,查分布表,得(4,25)=2.76,(4,25)=4.18=说明,药物对治愈所需时间有极显著地影响,即5种药物的疗效明显不同。综合以上分析,方差分析的步骤可总结为:(1)整理数据结构为表4-3的形式;(2)提出统计假设;(3)计算波动平方和及其均方;(4)给定显著性水平作统计决策;(5)绘制方差分析表。三、无交互作用的双因素方差分析(一)双因素方差分析及其类型试验中只考查一个分类型自变量对数值型因变量的影响是否显著的分析问题称为单因素方差分析;同时,考查两个分类型自变量对数值型因变量的影响是否显著的分析问题称为双因素方差分析。相比之下有何区别?我们还是结合下面的例子来说明。【例4.19】 有4个品牌的洗面奶摆放在同一货架的5个不同区域,为分析洗面奶的品牌(“品牌”因素)和摆放区域(“位置”因素)对销售量是否有影响,对每个品牌在各个摆放区域的销售量随机取得以下数据,见表4

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论