课设方差分析的MATLAB实现_第1页
课设方差分析的MATLAB实现_第2页
课设方差分析的MATLAB实现_第3页
课设方差分析的MATLAB实现_第4页
课设方差分析的MATLAB实现_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东北大学秦皇岛分校数学软件认识实习报告方差分析的MATLAB实现学 院数学与统计学院专 业学 号0姓 名XXX指导教师林秋 张子选成 绩教师评语:指导教师签字: 2013年01月07日1 绪 论方差分析是工农业生产和科学研究中对实验数据或其他观察数据进行统计分析和检验的一种实用、有效的数理统计方法。方差分析(Analysis of variance,简称ANOVA):根据不同需要把某变量方差分解为不同的部分,比较它们之间的大小并用F检验进行显著性检验的方法。 又称“变异数分析”或“F检验”,是用于两个及两个以上样本均数差别的显著性检验。F值是两个均方的比值(效应项/误差项),不可能出现负值。F值越大(与给定显著水平的标准F值相比较)说明处理之间效果(差异)越明显,误差项越小说明试验精度越高。一个复杂的事物往往受到多种因素的影响。例如,一件产品的质量就受到机器、原料、温度等因素的影响;同样,一种农作物的产量也会受到种子、肥料、土质、水分等因素的影响。如何通过实验数据,分析出各个因素的影响,从而抓住事物的主要矛盾,这就是方差分析所要解决的主要问题。本文主要就单因素方差分析和双因素方差分析进行讨论,对于两个以上的因素的方差分析,其解决问题的基本思想与此类似。方差分析为资料分析中常见的统计模型,主要为探讨连续型(Continuous)资料型态之因变量(Dependent variable)与类别型资料型态之自变量(Independent variable)的关系,当自变量的因子中包含等于或超过三个类别情况下,检定其各类别间平均数是否相等的统计模式,广义上可将T检定中变异数相等(Equality of variance)的合并T检定(Pooled T-test)视为是方差分析的一种,基于T检定为分析两组平均数是否相等,并且采用相同的计算概念,而实际上当方差分析套用在合并T检定的分析上时,产生的F值则会等于T检定的平方项。方差分析依靠F-分布为机率分布的依据,利用平方和(Sum of square)与自由度(Degree of freedom)所计算的组间与组内均方(Mean of square)估计出F值,若有显著差异则考量进行事后比较或称多重比较(Multiple comparison),较常见的为Scheffs method、Tukey-Kramer method与Bonferroni correction,用于探讨其各组之间的差异为何。在方差分析的基本运算概念下,依照所感兴趣的因子数量而可分为单因子方差分析、双因子方差分析、多因子方差分析三大类,依照因子的特性不同而有三种型态,固定效应方差分析(fix-effect analysis of variance)、随机效应方差分析(random-effect analysis of variance)与混合效应方差分析(Mixed-effect analysis of variance),然而第三种型态在后期发展上被认为是Mixed model的分支,关于更进一步的探讨可参考Mixed model的部份。方差分析优于两组比较的T检定之处,在于后者会导致多重比较(multiple comparisons)的问题而致使第一型错误(Type one error)的机会增高。因此比较多组平均数是否有差异则是方差分析的主要命题。在统计学中,方差分析 (ANOVA)是一系列统计模型及其相关的过程总称,其中某一变量的方差可以分解为归属于不同变量来源的部分。其中最简单的方式中,方差分析的统计测试能够说明几组数据的平均值是否相等,因此得到两组的t测试。在做多组双变量t测试的时候,错误的几率会越来越大,特别是 I型错误。因此,方差分析只在二到四组平均值的时候比较有效。2 ANOVA的模式型态方差分析分为三种型态:固定效应模式(Fixed-effects models)用于方差分析模型中所考虑的因子为固定的情况,换言之,其所感兴趣的因子是来自于特定的范围,例如要比较五种不同的汽车销售量的差异,感兴趣的因子为五种不同的汽车,反应变量为销售量,该命题即限定了特定范围,因此模型的推论结果也将全部着眼在五种汽车的销售差异上,故此种状况下的因子便称为固定效应。随机效应模式(Random-effects models)不同于固定效应模式中的因子特定性,在随机效应中所考量的因子是来自于所有可能得母群体中的一组样本,因子方差分析所推论的并非着眼在所选定的因子上,而是推论到因子背后的母群体,例如,借由一间拥有全部车厂种类的二手车公司,从所有车厂中随机挑选5种车厂品牌,用于比较其销售量的差异,最后推论到这间二手公司的销售状况。因此在随机效应模型下,研究者所关心的并非局限在所选定的因子上,而是希望借由这些因子推论背后的母群体特征。混合效应模式(Mixed-effects models)此种混合效应绝对不会出现在单因子方差分析中,当双因子或多因子方差分析同时存在固定效应与随机效应时,此种模型便是典型的混合型模式。3 ANOVA的模式假设方差分析之统计分析假设通常会依照各种模式型态不同而有差异,但广义而言,方差分析一共有三大前提假设1:1.各组样本背后所隐含的族群分布必须为常态分布或者是逼近常态分布。2.各组样本必须独立。3.族群的变异数必须相等。总变量(TSS),i为组别(i=1,2.,I),j为观测值个数(j=1,2,3,.,J)为第i组第j个观测值, 为所有观测值的平均数。组内变异量(WSS,为第i组的平均数。组间变异量(BSS),由上述的计算公式可知,计算WSS来帮助我们判断所有期望值的差异量多寡,当WSS=0的情况,代表各组内的所有观测值与各组的期望值没有差异存在,因此只有WSS与BSS都为0情况下,我们才能断定所有观测值达到完美的一致,然而当WSS0, BSS=0的情况,则是各组期望值达到一致,但组内却存在变异,WSS=0, BSS0,则是组内没有变异存在,但各组间却存在差异,然后真实状况不可能如此极端,因此必须比较WSS与BSS的差异来判断方差分析的结果,也就是各组期望值是否有差异存在。而这个部份在比较变异量的过程中,必须考量到各组变易量会受到观测数量与组别数量的多寡而有所差异,因此必须进行自由度的调整,也就是计算出均方值来比较组内变异与组间变异量。在许多情境下,某现象并非仅受单一因素的影响,甚至存在另一个因素的效应,例如要比较五个都市的空气污染总指标差异,除了都市别的因素之外,还必须考量汽机车密度的因素,在这样的情境下,都市别与汽机车密度可能就存在着某种效应影响着空气污染的多寡,因此在双因素方差分析中,除了考量双因素彼此的效应之外,也可能存在因素之间的联合效应,也就是因素间的交互作用(interaction),这也使得双因素方差分析变的比较复杂。延续单因素方差分析的基本概念,双因素方差分析也能将总变异量分解成双因素的主效应与双因素的联合效应,还有表示误差项的组内差异量,为了简化问题,其下列的计算均表示为各组间样本数一致的情况下,其线性关系为TSS=ASS+BSS+WSS+ABSSA因子的主效应(ASS): 其均方AMSS为:B因子的主效应(BSS)为: 其均方(BMSS)为: AB因子的交互作用(ABSS): 其均方(ABMSS)为: 组内差异量(WSS): 其均方(WMSS)为: 在F检定中,由于考虑的双因子的个别主效应与交互作用,因此会出现三个检定方向,其一为A因子检定、B因子检定与交互作用的检定。A因子的F检定为:B因子的F检定为: 交互作用的F检定为: 互作用不显著的情况,才会考虑依照各别因子主效应的检定结果做为双因子方差分析的结论。组间均方BMSS(between means sum of squares): = 组内均方WMSS(within means sum of squares): = 其中k为组别数量,N为观测值总数。两个均方值的比较为。此比较值也就是目前惯称的F检定值,F越大,则组间均方大于组内均方,也就是组间变易量大于组内变异量,各组间的差异远超出总期望值离差,代表各组的平均数存在明显的差异,相反的,F越小甚至于逼近于0,则是组间变异量小于组内变异量,代表各组间的差异很小,各组平均数则不存在明显的差异。整个分析概念中,受到方差分析所规范的族群的变异数必须相等的条件下,组内变异量成为了基准,因此组间变异量的多寡就成了判定方差分析结论的重要数值,然而F值仅为提供判断虚拟假设存在的可能性,为了方便下结论,由alpha值决定可容许的错误判断机率为0.05%,因此F值所计算的虚拟假设机率值若小于0.05%,则下定论为各组存在差异,其隐含的意义则是否定了各组间无差异的机率,也就是容许了各组无差异可能成真的错误判断机率,因为判断错误的机率太小而能容许,但并不代表不可能判断错误,因此任何F检定的结果均只能下定论为达到统计上的意义,而非绝对意义。4 MATLAB在方差分析中的应用方差分析是用于科学研究的一种重要的统计方法,在实验研究中,我们往往会涉及不同的实验因素,为了判断不同的因素是否对实验结果有差异,我们需要做方差分析。因为实验结果的差异可能是不同的实验因素造成的,或者是外部的环境,随机误差造成的因而方差分析是检验试验处理间是否存在真实差异的有效手段。本节主要介绍利用MATLAB统计工具箱如实现方差分析的操作,包括单因素,双因素和多因素的方差分析。下面具体介绍这些内容。4.1 单因素方差分析当实验仅有一个因素,即单因素试验,我们仅需要研究单因素的不同水平是否对实验结果的差异有显著的影响,此时我们需要做单因素方差分析。4.1.1 单因素方差分析概念理解步骤 单因素方差分析是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。这里,由于仅研究单个因素对观测变量的影响,因此称为单因素方差分析。例如,分析不同施肥量是否给农作物产量带来显著影响,考察地区差异是否影响妇女的生育率,研究学历对工资收入的影响等。这些问题都可以通过单因素方差 分析得到答案。单因素方差分析的第一步是明确观测变量和控制变量。例如,上述问题中的观测变量分别是农作物产量、妇女生育率、工资收入;控制变量分别为施肥量、地区、学历。 单因素方差分析的第二步是剖析观测变量的方差。方差分析认为:观测变量值得变动会受控制变量和随机变量两方面的影响。据此,单因素方差分析将观测变量总的离差平方和分解为组间离差平方和和组内离差平方和两部分,用数学形式表述为:SST=SSA+SSE。单因素方差分析的第三步是通过比较观测变量总离差平方和各部分所占的比例,推断控制变量是否给观测变量带来了显著影响。4.1.2 单因素方差分析原理及基本步骤容易理解:在观测变量总离差平方和中,如果组间离差平方和所占比例较大,则说明观测变量的变动主要是由控制变量引起的,可以主要由控制变量来解释,控制变量给观测变量带来了显著影响;反之,如果组间离差平方和所占比例小,则说明观测变量的变动不是主要由控制变量引起的,不可以主要由控制变量来解释,控制变量的不同水平没有给观测变量带来显著影响,观测变量值的变动是由随机变量因素引起的。1.提出原假设:H0无差异;H1有显著差异。2.选择检验统计量:方差分析采用的检验统计量是F统计量,即F值检验。3.计算检验统计量的观测值和概率P值:该步骤的目的就是计算检验统计量的观测值和相应的概率P值。4.给定显著性水平 ,并做出决策 。4.1.3 用MATLAB做单因素方差分析例子MATLB程序:Score=75 62 71 58 73;81 85 68 92 90;73 79 60 75 81;P=anova1(Score)图 4.1 正确运行图 4.2 正确输出结果4.2 双因素方差分析上面讲解了单因素试验的方差分析问题,但在科研和实际生产中,常常需要同时研究两个以上因素对实验结果的影响情况。若同时研究两个因素对实验结果的影响,就要对两个实验因素进行方差分析。对于双因素方差分析,其基本思想和方法与单因素方差分析相似,前提条件仍然是要满足独立,方差具有齐性、正态。不同的是,在双因素试验中,有可能出现交互作用。按照是否进行重复试验,双因素方差分析又分为两种,即有重复和无重复,下面主要来介绍双因素重复试验的方差分析。4.2.1 求解双因素方差分析的MATLAB工具在试验设计中如果涉及两个实验因素,需要进行双因素的方差分析。MATLAB统计工具箱中还提供了函数anova2()用于双因素的方差分析。图 4.3 方差分析表其调用格式如下;P=anova2(X,reps)p=anova2(X,reps,displayopt)p,table=anova2(.)p,table,stats=anova2(.)其中,双因素方差分析是一种两因素,多水平析因试验数据的统计分析方法。其目的在于确认来自不同组的数据是否具有相同的均值。4.2.2 双因素方差分析例子2双因素方差分析:load popcornpopcornp=anova2(popcorn,3)运行程序,输出如下(效果见图 4.5)popcorn = 5.5000 4.5000 3.5000 5.5000 4.5000 4.0000 6.0000 4.0000 3.0000 6.5000 5.0000 4.0000 7.0000 5.5000 5.0000 7.0000 5.0000 4.5000p = 0.0000 0.0001 0.7462,图 4.4 运行程序图 4.5 双因素方差分析、4.3 多因素方差分析多因素方差分析可以用于确定根据多个因素划分的不同组数据的均值是否不同。如果它们不同,还可以进一步

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论