方差分析与回归分析.doc_第1页
方差分析与回归分析.doc_第2页
方差分析与回归分析.doc_第3页
方差分析与回归分析.doc_第4页
方差分析与回归分析.doc_第5页
免费预览已结束,剩余27页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

9 方差分析与回归分析9.1 基本要求方差分析与回归分析是数理统计中极具应用价值的统计分析方法,前者定性研究当试验条件变化时,对试验结果影响的显著性;后者则定量地建立一个随机变量与一个或多个非随机变量的相关关系。1了解单因素试验的方差分析,了解离差平方和的分解及其意义,掌握检验用统计量及假设检验的一般步骤。2了解双因素无重复试验的方差分析及双因素等重复试验的方差分析,了解检验用统计量及假设检验的一般步骤。3理解回归分析的基本概念,掌握一元线性回归方程,掌握线性相关显著性检验,会利用线性回归方程进行预测。了解一些可线性化的非线性回归问题的解决方法。*4了解简单的多元线性回归及显著性检验。9.2 内容提要9.2.1方差分析方差分析是考察多总体均值差异的显著性,是二总体均值检验的推广。1单因素试验的方差分析(1)单因素方差分析原理单因素方差分析是指在影响指标的众多因素中仅就某个因素A加以考察,并设A有r个水平:A1、A2、Ar,每个水平Ai对应的总体(i=1,2,r)均服从同方差的正态分布,即。记()是来自第i个总体()的容量为ni的样本,称为理论总平均(其中)。如果因素A对试验没有显著影响,则试验的全部结果Xij应来自同一正态总体N()。因此,从假设检验的角度看,单因素方差分析的任务就是检验r个总体N()(i=1,2,r)的均值是否相等,即检验假设:,:不全相等。显然,当r=2时就是二总体的均值检验。(2)单因素方差分析的检验统计量离差平方和的分解:其中 ,称为误差平方和。称为因素A的效应平方和。且,是的无偏估计量。当H0为真时,有检验统计量因此,在检验水平为时,若由样本观察值算得统计量之值有成立,则应当拒绝H0,否则就接受H0。(3)单因素方差分析的计算方差分析的计算是复杂而繁琐的,一般为方便起见,通常把计算和检验的主要过程列成表9-1的形式,称为单因素试验方差分析表。9-1 单因素试验方差分析表方差来源平方和自由度均方误差方差比F临界值因素ASAr1误差Senr总和STn1在进行方差计算时,为简化计算,常可以按以下简便公式来计算ST,SA和Se。记,则有2双因素无重复试验的方差分析当影响某指标的因素不只一个而是多个时,要分析多个因素的作用,就要进行多因素的方差分析。进行双因素方差分析的目的,是要检验两个因素A、B对试验结果有无显著影响。因素A取r个水平A1,A2,Ar,因素B取s个水平B1,B2,Bs,在(Ai,Bj)水平组合下的试验结果独立地服从同方差的正态分布N(),。若每一因素组合仅做一次试验,则称双因素无重复试验,记试验结果为Xij,则,。且各独立。为判断因素A对指标影响是否显著,就要检验下列假设:不全相等,为判断因素B的影响是否显著,就要检验下列假设:不全相等,类似单因素方差分析的检验方法一样,记 ,离差平方总和。 ,称为误差平方和。,称为因素A的效应平方和。,称为因素B的效应平方和。则在、均成立时,有检验统计量:和。类似于单因素的方差分析,对给定的检验水平。由样本值算得之值,若,则应拒绝,接受;否则就应当接受。由样本值算得之值,若,则应拒绝;否则就应当接受。类似于单因素的方差分析,也可将计算的主要结果和检验过程列成表9-2形式,称为双因素不重复试验方差分析表。表9-2 双因素不重复试验方差分析表方差来源平方和自由度均方误差F比因素ASAr1因素BSBs1误差Se(r1)(s1)总和STrs1实际计算时,可以利用下列记号和公式简化计算:, ,。, , ,。3双因素等重复试验的方差分析若试验指标受因素A、B的作用,因素A有r个水平A1,A2,Ar,因素B有s个水平B1,B2,Bs。若因素A,B的每对组合(Ai,Bj),i=1,2,r,j=1,2,s都作k(k2)次试验,则称该试验为双因素等重复试验,其试验结果记为(i=1,2,r,j=1,2,s,l=1,2,k)。假设相互独立且服从同方差的正态分布,即:N(),i=1,2,r,j=1,2,s,l=1,2,k。类似前面的结果,有双因素等重复试验方差分析表(表9-3)。表9-3 双因素等重复试验方差分析表方差来源平方和自由度均方误差F比因素ASAr1因素BSBs1交互作用SAB(r1)(s1)误 差Sers(k1)总 和STrsk1其中 ,离差平方总和。 ,称为误差平方和。,称为因素A的效应平方和。 称为因素B的效应平方和。 称为因素A、B交互效应平方和。对给定的显著性水平,有(1)若统计量的观察值,则称因素A对试验指标的影响显著,否则,就称因素A对试验指标的影响不显著;(2)若统计量的观察值,则称因素B对试验指标的影响显著,否则,就称因素B时试验指标的影响不显著;(3)若统计量的观察值,则认为A、B的交互作用对试验指标的影响显著,否则认为A、B的交互作用对试验指标的影响不显著。具体计算时,可以应用下列简便公式,记,i=1,2,r,j=1,2,s则 , 9.2.2 回归分析方差分析是考察因素对试验指标影响的显著性,而在有些问题中还需要了解指标随因素改变的变化规律,也就是寻找指标与因素之间的定量表达式。这就是回归分析研究的内容。1一元回归分析(1)一元线性回归的数学模型一元线性回归是讨论随机指标(变量) y与可控因素(非随机变量) x之间的统计相关关系。设随机变量y与可控变量x在试验中的n对实测数据为 (x1,y1),(x2,y2),(xn,yn)。其中yi是x=xi时随机变量y的实测值。将实测点画在直角坐标平面上,这样得到的图形通常称为散点图。如果图中的散点大致分布在一条直线附近,就可以认为y与x的关系为 (1)如果略去随机项,得到 (2)在y的上方加“”是为了区别y的实测值。满足(1)回归模型称为一元线性回归模型,而(2)式表示的直线方程称为y对x的回归方程(或称经验方程),其中a,b称为回归系数。对于给定的x,由回归方程(2)得到的值,称为y的回归值。(2)回归系数的计算回归系数a、b是使离差平方和 取得最小时,a,b的最小二乘估计值、: , (3)其中 , 。由此,在实测数据下求得的y关于x的具体方程 ,或 称为经验(样本)回归直线方程,也简称回归方程。(3)线性回归方程的显著性检验用最小二乘法求回归直线方程并不需要事先假定y与x一定具有线性相关关系,事实上,就方法本身而言,对任意一组数据都可由式(3)形式上求出一个线性方程,描述y与x间的关系,但是,这样的表达式可能毫无实际意义。因此,在按最小二乘法求得y与x间线性关系式之后,必须对它的线性相关性作出检验,只有经过检验并达到显著性要求的回归方程才有实用价值。若线性假设符合实际,则b不应为零,因为若b = 0,则y就不依赖x了。因此,我们需要检验假设:H0:b=0,H1:b0。检验统计量为F(1,n2) (4)其中,。故,对给定显著性水平,查F分布表得临界值。若由样本值算得统计量的观察值f,则应拒绝H0,即认为y关于x的线性回归效果显著。否则,接受H0,即认为y关于x的线性回归效果不显著。注:回归方程效果检验,除了这里介绍的F- 检验法外,常用的还有相关系数检验法和T- 检验法。有兴趣的读者可参阅有关书籍。(4) 预测回归方程的一个重要应用是,对给定的点x=x0能对随机变量y的取值y0进行估计,即所谓的预测问题。估计有两种方式点估计和区间估计。y0的点估计就是回归值,工程上叫做预测值。另一种对y0的预测是采用在一定置信度下的区间估计。在置信度为下的置信区间为其中是的无偏估计量。(5) 可线性化的非线性回归问题如果由实测数据画出的散点图或经验表明两个变量之间的统计相关关系不是线性情形,就不能沿用上述结果。其随机变量y与非随机变量x统计相关关系的回归方程一般来说较为复杂,但有些问题是可以通过变量代换转化成线性回归的情形得到解决。一般步骤为1)在作出散点图的基础上,参考常用曲线的拟合类型(参阅有关教材),选择合适的拟合曲线;2)引入变量代换之后化非线性曲线为线性回归,并进行线性回归的计算与显著性检验;3)回归系数回代后即可得到所求的非线性回归方程。2多元线性回归简介对于回归问题,还会遇到一个随机变量与一组变量间的相关关系问题。这就需要用到多元回归分析。在这里,仅介绍多元线性回归的基本概念。(1)多元线性回归模型设随机变量y与k个普通变量x1,x2,xk线性关系式为 (5)其中是随机项,服从正态分布,即,而a1,a2,ak,都是与x1,x2,xk无关的待定参数。设(x11,x12,x1k ;y1),(x21,x22,x2k ; y2),(xn1,xn2,xnk ;yn)是一个容量为n的样本。类似于一元线性回归。当我们取使得当时,目标函数达到最小时的系数,称为回归系数,相应的方程称为y关于x1,x2,xk的线性回归方程。其中是下列方程组(正规方程组)的解(2)几个常用的结论1)记,j=1,2,k ;,则 (6)2)记 , j, m =1, 2, , k。,j =1, 2, , k。,则可由 ,解得,然后再由(6)式解得 。3)是的无偏估计量(j =1, 2, , k)。4)统计量是的一个无偏估量。记,则,且。(3)多项式回归若随机变量y与变量x的回归模型为。其中回归函数是x的k次多项式,随机项。则称y关于x是多项式回归,对于这个一元非线性回归,可以通过简单的变量代换转化为多元线性回归。即令 ,则。其中回归系数的计算同前面的方法。(4)多元线性回归模型的检验类似于一元线性回归,多元线性回归模型往往仅是一种假定,为了考察这一假定是否符合实际,还需要检验假设:H0:b1=b2=bk=0,H1:bi不全为零 (7)检验统计量为类似于一元线性回归,对给定的小概率,查F分布表确定临界值,并与由样本值计算出统计量F的观察值比较,如果,则拒绝H0,接受H1,即可以认为线性回归效果显著。否则,接受H0,即认为y与x1,x2,xk的线性回归效果不显著。具体计算时,可采用下述简便算法:,。9.3 典型例题分析例1 为考察温度对某化学反应生成物浓度的影响,今列出A1、A2、A3、A4的4种温度下该化学反应生成物浓度(单位:%)数据: 温度A1:20 21 40 33 27 温度A2:15 18 17 16 26 温度A3:18 19 22 温度A4:20 18 15 22 19试问温度对生成物浓度的影响是否显著(取=0.05)?解:本例是水平数m=4,重复试验次数为n1=n2=5,n3=3,n4=5,n=18的单因素试验。假定温度Ai下的生成物浓度服从独立同方差的正态分布。(1)提出待验假设 H0:m1=m2=m3=m4,H1:m1、m2、m3、m4不全相等。(2)计算有关数据:,。(3)列出方差分析表如下:表9-4方差来源平方和自由度均方误差F比因素A318.9783106.3263.754误差395.4661428.248总和714.4417(4)结论:因。故拒绝H0,即可以认为不同的温度对该化学反应生成物浓度有显著影响。注:方差分析是在三个基本假设下进行的:一是正态性,即假定数据所在总体均服从正态分布;二是独立性,即所有总体都是相互独立的;三是等方差性,尽管它们的方差未知,但是却假定是相等的。所有这些都是引入上述检验统计量的必要条件。例2 一批由同一种原料织成的布,用不同的印染工艺处理,然后进行缩水率试验。假设采用5种不同的工艺,每种工艺处理4块布样,测得缩水率的百分数如下表所示。缩水率(%)试 验 批 号1234因素(印染工艺)A14.37.83.26.5A26.17.34.24.1A34.38.77.210.1A46.58.38.68.2A59.58.811.47.8若布的缩水率服从正态分布,且不同工艺处理的布的缩水率方差相等。试考察不同工艺对布的缩水率有无显著影响(取=0.05)? 解:本题是水平数r=5,重复试验次数n1=n2=n3=n4=n5=4的单因素试验。假定工艺Ai下的布料强度服从独立同方差的正态分布。(1)提出待验假设 H0:m1=m2=m3=m4=m5 (不同工艺处理的布的缩水率无显著差异), H1:m1、m2、m3、m4、m5 不全相等。(2)计算相关数据:, (3)列出方差分析表如下:表9-5方差来源平方和自由度均方误差F比因素A46.237411.55933.585误差48.3725153.2248总和94.609519(4)结论:因。故拒绝H0,亦即认为不同工艺对布的缩水率有显著影响。例3 为了解3种不同配比的饲料对仔猪生长影响的差异,对3种不同品种的仔猪各选3头进行试验,分别测得其3个月间体重的增加量(单位:kg)如下表所示:体重增加量因 素B(品种)B1B2B3因素A(饲料)A1515645A2535749A3525847假定仔猪的体重增加量服从正态分布,且方差相等。试分析不同饲料与不同品种对猪的生长有无显著影响(取=0.05)。解:本题双因素不重复试验的方差分析,这里r=s=3。假定仔猪的体重增加量服从正态分布。(1) 依题意,建立待检假设:不全相等,:不全相等,(2)计算相关数据:,(3)列出方差分析表:表9-6方差来源平方和自由度均方差F比因素A8.66724.3335fA =5.004因素B150275fB =90.004误 差3.33340.8333总 和1628(4)结论:因,查F分布表得临界值:因为,。因此,不同的饲料对猪体重的增长无显著影响,而猪品种的差异对猪体重的增长有显著影响。例4 为了解不同的工人在四种不同的机器上生产同一种零件的效率,现让3人分别在不同的机器上工作三天,其日产量(单位:个)如下: 日 产 量机 器 BB1B2B3B4工人AA115,15,17(47)17,17,17(51)15,17,16(48)18,20,22(60)A219,19,16(54)15,15,15(45)18,17,16(51)15,16,17(48)A316,18,21(55)19,22,22(63)18,18,18(54)17,17,17(51)假定日产量服从正态分布,且方差相等。试分析不同的工人在不同的机器上生产的零件日产量有无显著差异(取=0.05)。解:本题双因素等重复试验的方差分析,这里r=3,s=4,k=3。假定日产量。利用样本观察值计算所需各项数据(其中的计算结果见表中括号内的数字):故 同理,将上述结果列入方差分析表:表9-7方差来源平方和自由度均方误差F比因素A(工人)27.17213.585fA =7.89因素B(机器)2.7530.917fB =0.53交互作用AB73.5612.25fAB =7.12误 差41.33241.722总 和144.7535由于 由此可看出,不同的机器对日产量没有显著影响,而不同工人的日产量及不同的工人在不同的机器上生产零件,其日产量均有显著差异。例5 研究某一化学反应过程中,温度x()对产品得率y(%)的影响,现测得若干数据如下表所示。温度x()100110120130140150160170180190得率y(%)45515461667074788589设对于给定的x,y为正态变量,且方差与x无关。(1)画出散点图;(2)试求线性回归方程:;(3)检验线性回归的合理性(取=0.05);(4)若回归效果显著,试求x=135处y的置信度为0.95的预测区间。解:(1)散点图为:从散点图看出,用线性回归效果较好。(2)为求回归方程,先计算有关数据:表9-8序号xiyi110045100002025450021105112100260156103120541440029166480413061169003721793051406619600435692406150702250490010500716074256005476118408170782890060841326091808532400722515300101908936100792116910145067321850047225101570注:如果能充分利用计算器上的统计健的功能,可以不必写出中间过程。下同。由表中数据得:于是 故回归直线方程为 (3)检验线性回归的合理性,。由得临界值。故拒绝H0,即可以认为温度与产品的得率间存在着线性关系,而且线性回归效果显著。(4)求x=135处y的置信度为0.95的预测区间因此y0的预测区间为 (62.506-2.196,62.506+2.196),即 (60.31, 64.702)。 注:这是一道典型的有关一元线性回归的例子,几乎包含了一元线性回归所有可能涉及到的问题,其解题过程规范有序。希望读者能仔细研究其方法,真正做到举一反三。例6 某矿脉中13个相邻样本点处,某种伴生金属的含量数据如下表序 号距 离x含 量y12106.4223108.2034109.5845109.5057110.0068109.93710110.49811110.59914110.601015110.901116110.761218111.001319111.20试建立回归方程(已知y与x有经验公式)。解: 这是一道可线性化的例子。令,则变换为。将数据作相应变换:序号xy120.5106.420.009 40.250.004 7230.330108.200.009 20.108 90.003 6340.25109.580.009 10.062 50.002 3450.2109.500.009 10.040.001 8570.14110.000.009 10.015 60.001 1680.125109.930.009 10.015 60.001 17100.1110.490.009 10.010.000 918110.091110.590.009 00.008 30.000 839140.071110.600.009 00.005 00.000 6410150.067110.900.009 00.004 50.0006 011160.063110.760.009 00.004 00.000 5712180.056111.000.009 00.003 10.000 5013190.053111.200.009 00.002 80.000 482.0460.118 10.534 30.019 32由表中数据可求得:于是 于是回归直线方程为 ,因此有注:在解决可线性化的回归问题时,一定要注意将原数据作相应的变换。否则,将得到错误的结论。例7 电容器充电达某电压值为时间的计算起点,此后电容器串联一电阻放电,测定各时刻的电压值u,测量结果见下表:ti/s012345678910ui/v100755540302015101055求u对t的回归方程(已知u和t有经验关系未知)。解:这也是一道可线性化的例子。令,。将数据作相应变换:序号tux=ty=lnux2xy1010004.600217514.314.3325524.048434033.7911.1543043.41613.66520532515761562.73616.2871072.34916.1981082.36418.4109591.68114.411105101.6100165533.5385133.1所以 :于是 于是回归直线方程为:由于,因此u对t的回归方程为:例8 在平炉炼钢中,由于矿石与炉气的氧化作用,铁水的总含碳量在不断降低。一炉钢在冶炼初期总的去碳量y与所加的二矿石的量x1(单位:槽),x2(单位:槽)及熔化时间x3(单位:10分钟)有关。经验表明它们有关系式 试就下列数据求出回归系数,并写出回归方程。序号12345678910111213141516x12126031690912504543x21835231400176712201481017x3504339555148404739473745361004564y4.335.553.884.955.663.224.682.612.715.134.454.522.385.444.715.36解:这是一个多元线性回归问题,n=16,k=3。计算有关数据:, 故有法方程组:解得 ,因此抛物线的回归方程例9 一种合金在某种添加剂的不同浓度x (%)下,合金的延伸系数y有变化,为了研究这种关系,现进行16次试验,数据如下:序号12345678910111213141516x34363738393939404041424343454748y1.301.000.730.900.810.700.600.500.440.560.300.420.350.400.410.60(1)作出散点图;(2)求y对x的回归方程;(3)检验回归方程的显著性()。解:(1)散点图为:(2)建立回归方程从散点图可看出,合金的延伸系数y随添加剂的浓度x增加而降低,但当x超过一定值后,y有所回升。根据散点图形状可以认为是二次多项式回归(抛物线回归)作变量代换,则将上述回归方程化为二元线性回归方程将数据作相应的变换:序号12345678910111213141516x1i34363738393939404041424343454748x2i1156129613691444152115211521160016001681176418491849202522092304y1.301.000.730.900.810.700.600.500.440.560.300.420.350.400.410.60计算相关系数:,故有法程组:解得 ,因此抛物线的回归方程是。(3)检验回归方程的显著性因为 ,因此而=0.05时,临界值F0.05 (2,13) = 3.81202.26,故拒绝H0,因此可以认为回归方程效果显著。9.4 练习与测试1把下面的方差分析表(表9-9)填写完整(即求出表中处于字母b、d、g、h、i所在空格位的结果),并由此说明因素A对数据是否有显著影响(取)。表9-9 方差分析表方差来源平方和自由度均方误差方差比显著性判断因素A(a)57107.73(d)(g)(i)误差(b)(e) 15(h)总和(c)62082.75(f) 19临界值2回归分析是处理变量间 关系的一种数理统计方法,若两个变量(或多个变量)间具有线性关系,则称相应的回归分析为 ,若变量间不具有线性相关系,就称相应的回归分析为 .3设y与x间的关系为,是的n组观测值,则回归系数的最小二乘估计为 ,= 。4在k元线性回归中,确定随机变量y与普通变量间是否有线性关系,通常要进行 检验,检验的方法有(1) ,(2) ,(3) 。5设有线性模型:其中相互独立,且,是的n组观测值,则的最大似然估计为( )。 (A) (B)(C) (D)6将大片条件相同的土地分20个小区。播种5种不同品种的小麦(A),每一品种在4个小区播种,共得到20个小区产量的独立观察值(单位:kg)如下: A1:67 55 67 42; A2:66 98 96 91; A 3:69 35 50 60; A 4:79 64 81 70; A 5:90 70 79 88; 假定各小区小麦品种产量服从正态分布,且方差不变。试考察不同小麦品种小区产量差异的显著性。7设4个工人操作机器各一天,其日产量(单位:个)如下: 日产量机器BB1B2B3B4工人AA150474753A253545758A352524248假定工人的日产量服从正态分布,且方差相等。问是否真正存在机器或工人之间的差异(取=0.05)。8一化学反应为寻求最佳反应式,现使用了4种不同的温度和三种不同的催化剂进行试验。每种温度与每种催化剂的组合各试验两次,得结果如下(生成物浓度以%计):生成物浓度温度AA1A2A3A4催化剂BB158.2 52.649.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论