统计学思想方法与应用袁卫等第七章方差_第1页
统计学思想方法与应用袁卫等第七章方差_第2页
统计学思想方法与应用袁卫等第七章方差_第3页
统计学思想方法与应用袁卫等第七章方差_第4页
统计学思想方法与应用袁卫等第七章方差_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学:思想、方法与应用袁卫刘超

第7章方差分析7.1单因素方差分析7.2方差分析回顾7.3双因素方差分析学习目标

了解方差分析的一般思想;明白单因素方差分析能解决什么问题;了解为什么要介绍双因素方差分析;相关理论在统计学软件中的应用。相应统计分析结果的解读。方差分析(AnalysisofVariance,ANOVA)是英国统计学家罗纳德·费歇尔(RonaldFisher)20世纪年代发展起来的一种在实践中被广泛运用的统计方法。从形式上看,方差分析是比较多个总体的均值是否相等,但本质上,它所研究的是分类型自变量对数量型因变量的影响,这使得它同后面一章介绍的回归分析关系密切,但是又不完全相同。如果有一个人们感兴趣的指标(因变量),其变化可能受到众多离散型因素(如性别、种族、职业等)而不是连续型因素(如年龄、收入、价格等)的影响,我们可以考虑使用方差分析。这些影响因变量的离散型因素称为因素或因子(factor),因素的取值称为水平(level)或处理(treatment)。这里,因素就是变量,水平就是该变量的取值,这些名词是分类或属性变量所特有的。为了了解哪些因素对感兴趣的指标(因变量)有影响,我们必须在众多因素中确定哪些因素影响大些,哪些影响小些,以便于进一步研究对因变量的预测和控制。为什么我们要学习方差分析为什么不能用前几章讨论的检验来比较总体的均值差异呢?可以每次比较两组均值,但是会累加了第一类错误。假设我们采用中不同的方法(A,B,C,D)训练新射击手。在训练结束后,我们用普通的检验方法比较不同射击技巧的成绩。研究问题:4组射击成绩的均值是否存在差异?回答这个问题我们需要比较4种训练方法。为什么我们要学习方差分析用t分布比较4组总体均值,需要进行6次不同的t检验。也就是说,我们需要分别比较4种方法的平均成绩:A和B,A和C,A和D,B和C,B和C,以及C和D。如果显著性水平设为0.05,那么正确判断的概率为0.95。因为我们分别进行6次独立的检验,任何一次检验都不做错误判断的概率为:P(都正确)=0.956=0.735因此,至少一次错误的概率为1-0.735=0.265。总之,如果我们用t分布分别做6次独立的检验,至少有一样本错误发生的概率从0.05上升到了0.265。显然我们需要用更好的办法来而非6次t检验,方差分析允许我们同时比较多个处理的均值并且避免了第一类错误概率的增加。7.1单因素方差分析例7.1

研究员想挑选出能使小麦亩产量最大的化肥,选了三个品牌的化肥:A,B和C。开始,他将土地分成大小相同的24块。小麦在同时以相同的方式播种,唯一差别就是所施的肥料不同,8块地用A,8块地用B,其余8块地用C。在收割的季节,记下每块地的小麦产量。这里三种不同的肥料就是三种不同的处理。产量用公斤表示。数据见表7.1。ABC570660540560760580610670530580710550590630520580730560630640510600680530小麦产量与化肥品牌之间的关系为了显示平均产量是否随化肥品牌不同而不同,我们首先看散点图7.1。这里的散点图与前面介绍的散点图有一些不一样,其横轴是分类变量。小麦产量与化肥品牌之间的关系从散点图可以发现,不同品牌的化肥所导致的小麦平均产量的确是有明显差别的。而且即使是同一品牌,小麦的产量也明显不同。这些区别至少说明,小麦的产量与化肥的品牌之间是有关系的。如果这三块地的小麦产量差不多,则可以认为小麦的产量与化肥的品牌之间是没有关系的。小麦绣产量碍与化虫肥品埋牌之座间的杂关系为了扛更容巷易的妥找出狮各化恳肥品惰牌的酷小麦贸平均诉产量李的不滑同,技我们机对每故个化念肥品廊牌做秒一个挺箱线刺图。小麦酸产量载与化价肥品谢牌之椅间的僚关系比较触基于熟数据摊的箱练线图界可以亿揭示遥小麦胳产量借的哪最些信封息呢枕?首先回应该犬来对恩比不阿同化宗肥品鸡牌的酿中位书数,荒因为没它们扬代表绵中心兄值。当我疗们仔弄细看贿盒子攻中间镇代表判中位列数的牙横线和时,侧就会截注意怠到品乡丰牌B的中僚位数篮最高题。因均此可脖以断忆定这碌个品句牌的岔化肥极的小辉麦产罪量最卡高。惹类似秀的,钱品牌C的中肆位数享最低辆,则情品牌C的化恼肥的趣小麦哭产量钱最低出。品嘉牌B的化猫肥的投小麦皇产量食居中汗。箱线驳图的军另一客个特叔征是库盒子廉的高坐度不嘴同。承例如鹅品牌A和品朋牌C的盒匠子高赞度接历近,残都比辩品牌B盒子命要矮然,这孤就意序味着寇品牌A和品男牌C这两侦种化特肥下响的小鸡麦产险量波婆动性铜都小邀比品资牌B的化算肥下信的小卫麦产瞎量。关系即强度博有多狮大?箱线阀图比搂散点冻图更绘能显扑示各计地区相之间侄小麦衬产量末的不赏同和钥两个伸变量味间存政在关系系。宇但我俗们还州想知脂道这猎两个食变量晓之间典关系弃的强色度,涝以及肿这个升关系摇是否槽可能推出于丽偶然炼。要回努答这吵些问尚题我穗们还柱需要微做进沉一步谈的工惭作,嚼即利策用方丝式差分创析。我们恳的兴算趣在滨均值缩慧上,妄但在公判断微均值罗之间召是否封有差积异时蠢要借橡助于猛方差铃。关系卫强度旁有多街大?原理渐为:孟把因吼变量例的值怨随着预自变艘量的烦不同喷取值坑而得估到的损变化终进行诸分解辱,使肿得每望一个再自变陕量都告有一辰份贡陈献,鸣最后项剩下探无法泊用已可知的钱原因隶解释锈的则危看成绞随机材误差裤的贡客献。然后视用各筐自变改量的售贡献蹈和随雁机误莲差的季贡献通进行昂比较兰(F检验版),味以判坐断该穷自变忍量的脊不同旱水平如是否竖对因招变量被的变村化有乡丰显著坟贡献钉。输雄出就惊是F-值和伶检验搅的一脆些p-值。方差缩慧分析沾原理模型事中的井假定:涉及凶的检言验:胳H0:m1=…丘=mp线性打模型:公式:总平役方和=组间捞平方稍和+组内惧平方岭和其中,SS挽T有自痰由度n-庄1,SS泥B有自耕由度p-餐1,SS扩E有自凑由度n-缩慧p,在正泡态分分布的绳假设悟下,如果追各组习增重跪均值话相等(零假额设),则有自处由度肺为p-建1和n-犹p的F分布.在总抚体中滚的关轿系如猾何?由SP开SS可以估得到米方差烧分析位表:来源平方和比例自由度均方F-比p-值化肥868000.80224340042.60.00000004残差214000.198211019总计1082001.00023该表串说明嘉我们庆要拒顽绝零委假设锡,各苍化肥遗品牌桶导致脂的小嚼麦产载量之移间有巨显著伐不同.方差是分析狮表的梅说明:

SumofSquares(平方和)Df自由度MeanSquare(均方)FSig.BetweenGroups(处理)SSBP-1MSB=SSB/(p-1)F=MSB/MSEP(F>Fa)WithinGroups(误差)SSEn-pMSE=SSE/(n-p)

Total(总和)SSTn-1

这里n为观毅测值杀数目p为水啦平数,Fa满足P(袖F>炒Fa)=a.这是纲自由瞒度为p-边1和n-共p的F-分布柄的概社率7.带1.横4F检修验:农比较境均值虽然宜方差跟分析银拒绝伴了零零假设扯,但题是我屡们可住能还传有一螺些疑许惑,比如楚(1)到善底哪扎两种底品牌贷化肥捷的小他麦平础均产餐量不咽相同蛋?(2)如闸果两艳种化姐肥的迅小麦穴平均贡产量唱不同膜,那杆么它过们的氏平均哈产量付底有错多大贤差别侦?7.山1.伟4F检吸验:南比较饼均值为了拿找到御是哪族一个独均值蔑与众批不同燥,我扁们在污图7.宅3中列探出了矿每种挂化肥碎得到束的小樱麦产宽量的塔均值卖。从图屋中可尊以看头出中怪化肥症品牌B的小塌麦产替量均恢值最敌高,离而品湿牌A的小太麦产不量均烧值居字中,王品牌C的小校麦产腊量均互值最担低。枯但是怖仍然宁很难皆说哪鸦一组臂均值基在统饰计意纪义上谁不同率,哪贸一个箭相同茶。进一过步的熄问题..傻.当方醒差分砖析拒乔绝了甘原假恒设时度,即脑认为第至少进有两习个总野体的香均值便存在咳显著索性差帮异时麻,须间进一蓬步确抛定是烦哪两脖个或量哪几华个均萍值显慕著不溜同,猜则需涝要进角行多蓄重比慎较来轻检验云。多咳重比被较是植指在系因变胆量的彻三个慈或这圆三个辜以上台水平羊下均定值之雄间进氧行的已两两益比较哭检验竿。多重外比较贷问题拘:多重熔比较也方法SP疏SS提供腊了各妇种不伴同的房诚多重扶比较著方法疲,包栽括最文小显粘著差虫异LS滑D法、Bo爽nf据er时ro姑ni法、Tu啦ke杰y法、Sc脚he任ff法,食如下驳图所税示。由SP他SS可以送得到碌多重术比较她结果此时咬我们勿在SP盟SS的输皇出结末果选愚择LS陈D方法斤输出奥的多撇重比摄较结昆果。述如果够设定奇的显绸著性纠水平裳为α=勺0.数10,由铸于0.臂05嚼7<副0.辟10,那罗么不饭具有钥方差华齐性竹,此誓时我旗们可角以选播择Ta优mh梢an丸e方法色的输洒出结劈燕果,垃见表7.对5的第幕三部征分的筝下边茂。多重比较因变量:小麦产量(I)化肥品牌(J)化肥品牌均值差

(I-J)标准误显著性95%置信区间下限上限LSDdimension21dimension32-95.000*15.961.000-128.19-61.81350.000*15.961.00516.8183.192dimension3195.000*15.961.00061.81128.193145.000*15.961.000111.81178.193dimension31-50.000*15.961.005-83.19-16.812-145.000*15.961.000-178.19-111.81Tamhanedimension21dimension32-95.000*17.829.001-145.67-44.33350.000*11.339.00219.2880.722dimension3195.000*17.829.00144.33145.673145.000*17.829.00094.33195.673dimension31-50.000*11.339.002-80.72-19.282-145.000*17.829.000-195.67-94.33*.均值差的显著性水平为

0.05。做了质以下赛三对讨比较兰:品牌A~品牌B、品芦牌A~品牌C和品甩牌B~品牌C。每状一对锦比较芒都有绿相应扒的p-值。应用熊方差钳分析大需要蹄的假味设条酷件有巨:(1)各温总体馋是正席态分嚷布。拒(2)各承总体寄的有奋相同恭的标辨准差轻。(3)样进本互型相独所立。顷当满栗足上省述条幻玉件时伪,可脱以用F分布绒作为茶检验纯统计辈量的挂分布泪。在研花究分尸类型各自变橡量和兰数量薄型因补变量访之间新关联殿的过钱程中港的一桐部分啊是方况差分杆析。旬在这狗里,衣我们济在此换研究蒜的是肺化肥碎品牌罩和小缴麦产壶量两桃个变捞量。邻其它宇还有捐诸如恭职业贯与收林入的型关系夺、不愧同教松育方春法与针学生犁的学附习水领平的狂关系码等例套子。方差扰分析贤是基崇于计销算因骨变量旱在按铃照自等变量薯的各略类的活均值彩之间掩的差庄异程律度和炕每一变类中萝观测防值的州差异妖程度少。我们伸所得忧到方交差分生析的吗结果懂是基朝于各俘种平溉方和精的大顶小。叔表7.关4是一吓个典捷型的图计算费机输业出的拣结果(当然赛,对牌不同舰的计春算程亚序,浴方差杯分析汽表的洲形式叛也许禾会发馅生变唱化)。7.打2方差扬分析好回顾F检验净及其p-值告帖诉我盟们因因变量恩在各夺类中竿的均蓄值是负否有嫌显著疑差异弹。如舞果F值大宿而因丝式此p-值小走,我杰们就炒拒绝驰无区咸别的赔零假反设,咬并认填为在纳实际屯中两胡个变虏量之丸间是剪有关御系的慢。通呢常当p-值小讽于0.朱05时就还可以梦拒绝陪零假即设了童。有时想我们穷会看腹到p值下斗面的柴数值膝显示*和**。在凶脚注裳中会普解释命一个换星号省表示砖它的p值小篮于0.副05,而恢两个漠星号发则表惜示p-值小锣于0.准01。统扣计表游的缺辟点是颈它无辈法提渐供精犹确的p-值;路它一僚般只泼能给捕出p是小骆于某枪些值美的。将但是瓣,我言们可赖以用摆统计汇软件护求出疲精确艇的p-值。肿比如爹可以纵在Ex欧ce垃l中通纹过“=F兆DI辛ST惑(4困2.绸6,姿2,膀21如)”命令以求得妻小麦饿产量牙方差渡分析兴的p-值就伶为0.结00标00莫00夏04。精甩确的p-值能贷够提耐供更四多的唐信息正,因蜘为我乞们能沿知道泄它究顷竟比0.算05或比0.饶01小多受少,踏也可中以知补道在情拒绝药零假趁设时宋的把线握有船多大岛。7.成2方差租分析拴回顾7.理3双因灾素方拦差分尽析在小古麦产穗量的羡例子缴中,屡我们芳将总需效应淋分为芬两类圈:化妈肥变绑量的训效应鞭和残圾差变甚量的生效应的。换句暖话说普,我曲们只歼考虑续了效割应的凭两个塞来源悉,即渐来自储化肥弊变量启和随傍机误绵差。但是返影响负小麦楼产量抄的因滥素除估了所森用化问肥的魔品牌哗,可折能还肌有土纱壤、疏天气置等等挤因素秃的影佳响。考虑李其他闸因素经的好至处是折降低水残差锡的效粗应,容即降需低F统计爆量的际分母础,F值会顿变大将,使梳我们演拒绝寇均值呆相等蛙的零掩假设停,或落者说浮我们赴可以钉解释枪更多池的效厉应,伞从而胃减少锹误差备。下列绑例子村说明莫了误笛差变揭差的船减少假。本犁节讨盼论双因仅素方名差分微析(Tw葵o-括Wa筝y朋AN劝OV饥A),其菊分析恒方法客可以罪很容补易地芽被推劫广到多因杨素方武差分丽析(Mu炸lt云i-拒Wa决y惜AN冷OV遍A)。7.钩3双因拘素方委差分姜析例7.戴2一个奏地区床的交神通管埋理局颂正准碑备扩术大从谱郊区列到商芹业中朋心的肺公车胁服务虫,考猾虑四书条路薪线:1号线冬、2号线绑、3号线返、4号线戴。交房诚管局吃想进偷行检表验判国断四驰条路腔线的厦平均祖行驶皱时间沸是否狭存在失差异饮。因例为可帆能存融在不贵同司桃机,垃检验专时让锤每一养名司边机都萍分别垫行驶饿四条箱路线裙。下贴面是狗每个觉司机伯在每传条路毁线上倒所需凑的行躺驶时您间。在0.短05的显仗著性枝水平例下,访四条累路线感的行瘦驶时顾间的伙均值留是否使有差立异?盖如果妥不考猛虑司梯机的屡影响劫,行带驶时突间的妈均值无是否商有差贝异?司机1号线2号线3号线4号线小张33353537小李36373939小王35384038小刘40364340小杨413943407.述3双因火素方雷差分丧析首先献,我誉们用套单因碗素方侮差分洪析的计假设究检验袄,即青只考妇虑四呜条路后线。鱼在这夏种情语况下联,效夫应来充源于胖因素召或者怠随机达误差平。比访较四属条路盘线平驳均行须驶时赴间的方零假辽设和详备择沙假设捆为:因为勇共有筝四条白路线教,所码以分赵子的聪自由板度为4-铸1=岂3,分法母的宫自由起度为20寄-4甲=1洽6。此东时对美应于0.纺05的显坡著性节水平普下的讽临界顷值是3.陵24,因创此,拾如果蝇计算抬的F值大份于3.膝24,则刚拒绝嘱零假满设。各处扛理均型值不小全相速等。7.速3双因侍素方袋差分旅析行驶时间平方和df均方F显著性组间32.400310.8001.618.225组内106.800166.675总数139.20019F值的少计算贸结果者是1.仪61歇8,比假临界棚值3.约24小,盲实际料上p-值0.吵22唯5远大井于0.思05,所吧以不托能拒少绝零刷假设减。交管狂局得趣出结属论四需条路罪线的裂平均摆行驶竿时间臂无差璃异,乳没有来某条甚路线债行驶跳速度颈快而正被选不择的叶理由戒。7.爹3.府1无交打互效戒应的父双因阅素方放差分醒析如果关上例鸭中我棍们只滴考虑竖路线臭引起咏的效泰应而干将其吩余的还都归浪为随遮机效灰应,凳那么哥我们杨没有搬必要插让五旧名司跳机分视别行驾驶四眯条路冶线。如果如我们乎考虑干不同援司机到的影暑响,疫我们液就能贪减少我残差枕平方其和,炸从而箩得到建更大吉的F值。长我们虹把本础例中浊的司捕机因拔素称址为区组奏因素(bl驶oc汤ki咏ng鹅v拆ar慨ia闹bl霞e),已即在扑方差剑分析血中能或减少掘残差贪平方四和的吉第二勾个处箭理因给素。在本尘例中宜将司托机作鼓为区兼组因懒素,朱从残女差平滤方和裁中提惩取出挽司机塔的影仰响能校够影壶响处避理的F比值粗。这里渴介绍用无交值互作腾用的互双因犹素方石差分嚼析。7.湾3.吨1无交凭互效她应的省双因唉素方墓差分偿析因为毒我们萝考虑塌不同煎司机孙行使不时间已的差斑异,军所以尘要对拍区组现做假奇设检莲验。瓜两组王假设锤分别瓜为:1.暑不同貌路线赚均值故都相笑等(),各路济线均肉值不省全相践等2.鞭区组厅均值穷都相心等(),各区槽组均蚁值不字全相宋等两因捐素方难差分绣析表该的格酱式与眼单因慎素方晶差分宾析的禁格式马一致拒,唯驱一的棒区别钱是加旷了一均行区课组变艺差。7.窄3.滤1无交垮互效谋应的勿双因假素方塞差分蔑析因变量:行驶时间源III型平方和df均方FSig.模型29295.400a83661.9251536.472.000路线32.400310.8004.531.024司机78.200419.5508.203.002误差28.600122.383总计29324.00020a.R方

=.999(调整

R方

=.998)从该丑表可煮以看臭出,拍关于划对司丘机的霜零假筋设的p-值是0.会00捎2,对项路线歪的零旁假设崭的p-值是0.雪02朽4。可闪以得恨知在0.冻05的显选著性随水平弊下,前路线禾和区次组的介零假猜设都材被拒蜜绝。因此挂,路捐线和缠司机坦这两绢个因渠素都组对行昨驶时豆间有屡显著裳作用段,也滥就是戴说这疏两个定因素德的不读同水碍平的挂确造找成了隆行驶棕时间腐的不银同。这表促明司僻机这逃个因称素的隆引进铅,使盯得路靠线对柜行驶许时间思从没粘有影盲响变宫成有肥显著友影响贤。7.洋3.胞2有交便互效炒应的肾双因君素方缠差分匪析值得法注意故的是惧,对架于上疯面的细例子纸,我辆们仅波仅分锐析了建路线卫和司郊机这失两个君因素乘分别其对行贼驶时板间的粥影响剥。也直就是裹说因万为司蜘机变咸化所敌带来榆的行钉驶时脖间的使变化榜是同香行驶践的路仔线是撤无关晌的。断这显忽然是成值得付斟酌课的。对于直一个担实际站问题坟,仅歪考虑寨因素哲各自决的作电用是等不是夜合理策?能士不能凤回答原我们鬼关心邮的问稠题?毅那就堡得视沸具体床问题女而论幸了。因此拢,我如们接榜下来铅简单好介绍催带交瓦互作湾用的映双因悔素方类差分兆析。唯要说念明的厚是,优如果畅每一耐种因季素水热平的尤组合晒只有沾一个炉观测库值,愧那么给由于渐数据谢量不咸够会扛导致搅无法就判断获是否蜓有交校互作短用。下这时乔即使先有交调互作丢用,针也混题在误秩差项毁中而腔无法斩分离寒出来赠。7.净3.供2有交悔互效攀应的纳双因辫素方舒差分俭析例7.铲3该地什区的莫交管肃局还姨想研结究司睛机变坐化所嗓带来哲的行厉驶时婆间的盘变化父与行堆驶的皂路线妖是否量有关鸟?因太此,袖我们挑假设蜂对这认个地唯区的糖交管坛局进摧行了2次测巩试。域获得仍数据亭如下勺表所康示。司机1号线2号线3号线4号线小张3335353735373739小李3638373939413941小王3537384040423840小刘4042363843454042小杨41433941434540427.抹3.旅2有交钥互效辅应的税双因逝素方沸差分塌析从数饭据表团可以颈看出昏,司铺机因毛素有5个水倍平,匹路线些因素修有4个水伏平,能每个衔水平缴组合娱重复减数n=馆2,共脚有=5草×4狮×2很=4润0个观财测值刑。我们敞仍然兵可以近像前甜面那对样讨鉴论行除驶时由间和禁作为迫因素累(自象变量仆)的刊路线毁类型往和司肃机之惜间的兴关系互,还由察于路脚线类神型和变司机晶的每放种组纠合都益有2个观视测值沈,因碗此还幅可以纸考虑藏路线臣类型欠和司私机之换间的冤交互洒效应屯行驶呀时间温的影麻响。7.驳3.翁2有交技互效前应的唇双因杜素方塑差分闭析因变量:行驶时间源III型平方和df均方FSig.模型61906.000a203095.3001629.105.000司机*路线61.000125.0832.675.025司机155.000438.75020.395.000路线67.500322.50011.842.000误差3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论