版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第九章回归分析教学要求1一元线性回归及线性相关显著性的检验法,利用线性回归方程进行预测。2可线性化的非线性回归问题及简单的多元线性回归。本章重点:理解线性模型,回归模型的概念,掌握线性模型中参数估计的最小二乘法估计法。教学手段:讲练结合课时分配:6课时§ 9.1 一元线性回归回归分析是研究变量之间相关关系的一种统计推断法。例如,人的血压y与年龄x有关,这里x是一个普通变量,y是随机变量。Y与x之间的相依关系f(x)受随机误差的干扰使之不能完全确定,故可设有:yf(x)(9.1)式中f(x)称作回归函数,为随机误差或随机干扰,它是一个分布与x无关的随机变量,我们常假定它是均值为0的正态
2、变量。为估计未知的回归函数f(x),我们通过n次独立观测,得x与y的n对实测数据(xi,yi)i=1,n,对f(x)作估计。实际中常遇到的是多个自变量的情形。例如在考察某化学反应时,发现反应速度y与催化剂用量x1,反应温度x2,所加压力X3等等多种因素有关。这里xi,x2,都是可控制的普通变量,y是随机变量,y与诸xi间的依存关系受随机干扰和随机误差的影响,使之不能完全确定,故可假设有:yf(x1,x2,xk)(9.2)这里是不可观察的随机误差,它是分布与xi,xk无关的随机变量,一般设其均值为0,这里的多元函数f(x1,xk)称为回归函数,为了估计未知的回归函数,同样可作n次独立观察,基于观
3、测值去估计f(x1,xk)0以下的讨论中我们总称自变量xi,x2,xk为控制变量,y为响应变量,不难想象,如又t回归函数f(xi,xk)的形式不作任何假设,问题过于一般,将难以处理,所以本章将主要讨论y和控制变量xi,x2,xk呈现线性相关关系的情形,即假定f(xi,xk)=bo+bixi+bkxk并称由它确定的模型(9.1)(k=1)及(9.2)为线性回归模型,对于线性回归模型,估计回归函数f(x1,xk)就转化为估计系数bo、bi(i=1,k)。当线性回归模型只有一个控制变量时,称为一元线性回归模型,有多个控制变量时称为多元线性回归模型,本着由浅入深的原则,我们重点讨论一元的,在此基础上简
4、单介绍多元的。§ 9.1.1 一元线性回归一、一元线性回归的数学模型前面我们曾提到,在一元线性回归中,有两个变量,其中x是可观测、可控制的普通变量,常称它为自变量或控制变量,y为随机变量,常称其为因变量或响应变量。通过散点图或计算相关系数判定y与x之间存在着显著的线性相关关系,即y与x之间存在如下关系:y=a+bx+(9.3)通常认为N(0,d)且假设62与x无关。将观测数据(Xi,yJ(i=1,n)代入(9.3)再注意样本为简单随机样本得:(9.4)yiabxii(i1,n)1,n独立同分布N(0,2)称(9.3)或(9.4)(又称为数据结构式)所确定的模型为一元(正态)线性回归模
5、型。对其进行统计分析称为一元线性回归分析。不难理解模型(9.4)中EY=a+bx若记y=E(Y),则y=a+bx,就是所谓的一元线性回归方程,其图象就是回归直线,b为回归系数,a称为回归常数,有时也通称a、b为回归系数。我们对一元线性回归模型主要讨论如下的三项问题:(1)对参数a,b和J进行点估计,估计量第8称为样本回归系数或经验回归系数,而?台bx称为经验回归直线方程,其图形相应地称为经验回归直线。(2)在模型(9.3)下检验y与x之间是否线性相关。(3)利用求得的经验回归直线,通过x对y进行预测或控制。二、a、b的最小二乘估计、经验公式现讨论如何卞g据观测值(xi,y。,i=1,2,n估计
6、模型(9.2)中回归函数f(x)=a+bx中的回归系数。采用最小二乘法,记平方和n_2Q(a,b)(ytabxt)(9.5)t1找使Q(a.b)达到最小的a、b作为其估计,即Q(?,b)minQ(a,b)a.b2Qn2ytabxt02at1为此,令2Q2bn2(ytabxt)xt0化简得如教材所示的方程组(称为模型的正规方程)解得LxyLxx(9.6)(9.6)LxxL xya?y b?xnxi 1n(xii 1x)( yn2 xi1工( nna、nb的最小二乘估计,式中xi)2y)1 , xiYi-(nxi)(ny)1t1a?bx为经验回归(直线方程),或经验公式。某种合成纤维的强度与其拉伸
7、倍数有关。下表是24个纤维样品的强度与相应的拉伸倍数的实测记录。试求这两个变量间的经验公式。123456789101112强度y (Mpa)拉伸倍数x强度y(Mpa)1.92.02.12.52.72.73.53.54.04.04.54.61.41.31.82.52.82.53.02.74.03.54.23.51314151617181920212223245.05.26.06.36.57.18.08.08.99.09.510.05.55.05.56.46.05.36.57.08.58.08.18.1将观察值(Xi,yi),i=1,24在平面直角坐标系下用点标出,所得的图称为散点图。从本例的散点
8、图看出,强度y与拉伸倍数x之间大致呈现线性相关关系,一元线性回归模型是适用y与x的。现用公式(9.6)求式8,这里n=24xi127.5,yi113.1Xi2829.61,v;650.93,xy731.612Lxx829.61127.52152.266241Lxy731.6127.5113.1130.756xy2412Lyy650.93113.12117.946yy24cLxvb?y0.859?y?x0.15Lxx由此得强度y与拉伸倍数x之间的经验公式为?0.150.859x三、最小二乘估计式1?的基本性质 定理9.1 一元线性回归模型(9.4)(1) Ei? a, Eb? b2 D(a?)(
9、- 2, Dn Lxx cov(?B广-2Lxx证:(1)注意到对任意i=1,2, 中,a、b的最小二乘估计式1?满足:12Lxx,n有Eyi a bxi,Ey a bx,Dyi2,E(yiy)EyiEyb(xx)2n1n_b(XiX)2于是Et?E(xx)(yiy)i1Ei? Eyn利用 (xii 1LxxiiLxxxEbabxbxa7)0,将?、b?表示为:(9.7),?11b?-(xix)(yiy)-(xix)yiLxxi1Lxxi1Q1nnr1(xix)x1甘ni/x?i17xry(9.8)由于y1,y 2,yn相互独立,有D(b)D222(xi x) - LxxL(Xi x)X2 2
10、x)2xx2Lxx0n2-2(xix)xc.n(xix).1(xix)x.cov(?,b)HLT2i1LxxnLxxn(xix)2xx22i1LxxLxx定理9.1表明,a、b的最小二乘估计a、b是无偏的,从(9.7),(9.8)还知道它们又是线性的,因此(9.5)所示的最小二乘估计会分别是a、b的线性无偏估计。§ 9.1.2 立回归方程后进一步的统计分析一、2的无偏估计由于/是误差gi(i=1,n)的方差,如果gi能观测,自然想到用-i2ni来估计(T,然而ei是观测不到的,能观测的是yi.。由Eyi夕bxi?i(即Ey的估计),就应用残差yi%来估计i,因此,想到用nn-(yi?
11、i)-(yi?bxi)Q(?,b?)来估计(T,我们布望得到ni1ni1n无偏估计,为此需求残差平方和Q(?,b)的数学期望,由定理9.2可推出EQ(a(n2)2(学员自验)于是得?2%SJLn(yi?)2为62的无偏估计,例如§9.1例1中n2n2ii?0.2545即有定理9.2令?2Q(?me?22。n2我们称?:9四为标准误差,它反映回归直线拟合的程度。,n2L2,.具体计算时可用Q(a,b)Lyyt?2LxxLyy(1)Lyy(11)。LxxLyy二、预测与控制1、预测问题yabx对于一元线性回归模型(9.9)N(0,2)我们根据观测数据(xi,yi),i=1,n,得到经验回
12、归方程?a?bX,当控制变量x取值xo(x°wxi,i=1,n),如何估计或预测相应的yo呢?这就是所谓的预测问题,自然我们想到用经验公式,取%j?!?xo来估计实际的yoabxoo,并称yo为yo点估计或点预测。在实际应用中,若响应变量y比较难观测,而控制变量x却比较容易观察或测量,那么根据观测资料得到经验公式后,只要观测x就能求得y的估计和预测值,这是回归分析最重要的应用之一,例如在§9.1例1中,拉伸倍数xo=7.5,则可预测强度?oo.15o.8597.56.59但是,上面这样的估计用来预测y究竟好不好呢?它的精度如何?我们希望知道误差,于是就有考虑给出一个类似于置
13、信区间的预测区间的想法。定理9.3对于一元(正态)线性模型yiabxi(i1,n)(1) ,2独立同分布N(o,2)(.)有(1)(?,b)服从二元正态分布。(2) Qab)(n2)岁x2(n2)2(3) yb?2是相互独立的随机变量。证明:略又,我们知道y。是r.v,且与y32,yn相互独立,由定理9.3及定理9.2知,yo?!?xoN(.,.)且EyoEs?xoEI?abxo,D?oD(S)x2D(b)2xocovb)1(xox)22nLxx由于y0与?0相互独立(?0只与yi,yn有关),且y0N(a+bxo,一).70?0N(0,1-(x0x)22)nLxx?2.由定理9.3知,y0?
14、0与(n2)f独立,故(9.11 )T=(y0?0)/j?21n(rt(n2)对于给定的置信水平1-,查自由度为n-2的T分布表可得满足P(Tt)1的临界值tta根据不等式的恒等变形可得y0的置信度为1-的置信区间为:一一2(70 t J? 11(X0 x)2n Lxx ,?0t j211 i这就是y。的置信度为1-的预测区间,它是以?0为中心,长度为2t(x)的区间,(记(x)J?21-(x0x),区间的中点?0aI&0随x°而线性变化,它nLxx的长度在x0x处最短,x°越远离7,预测区间的长度就越长。预则区间的上限与下限落在关于经验回归直线对称的两条曲线上,并
15、是喇叭形。当n较大,Lxx充分大时,11(x0x)21nLxx可得y0的近似预测区间:(y0t?,?0t?)(9.12)上式说明预测区间的长度,即预测的精度主要由?确定,因此在预测中,?是一个基本而重要的量。2、控制问题在实际应用中往往还需要考虑预测的反问题,即要以不小于1-的概率将y0控制在(y1,y2)内,也就是使P(y1y0y2)1相应的x°应控制在什么范围内。这类问题称为控制问题。根据前一段的讨论,若x0满足(?0t(x),?0t(x)(y1,y2)(9.13)则可有P(yyy2)1因此控制问题一般是找满足(9.13)的x0的范围。但求解很麻烦。一种近似的处理法是:由y0N(
16、abx0,2)将a,b,分别用其无偏估计d8,?2代,.近似c_C_.y?c近似有y0N(夕bx0,?2)N(y0,?2),从而y上N(0.1)根据P(ySu)1查N(0.1)分布表确定u,于是y0的置信度1-的预测区间可近似认为是(?0Ua?,?0Ua?)要解决前述问题可以从满足:(?ou?,y?ou?)(yi,y2)的次去寻找心的控制范围。显然,当2u?y2yi时,问题无解,否则方程组y1 ? Ibx' u y2 a bX'' u有解X , X由此得xo的控制范围是(min( x , x ),max( x , x )三、线性相关的检验前面的讨论都是在假定y与x呈现线
17、性相关关系的前提下进行的,若这个假定不成立,则我们建立的经验回归直线方程也失去意义, 为此必须对y与x之间 的线性相关关系作检验,为解决这个问题,先作手:1、偏差平方和分解记L (yi y)2 ,称它为总偏差平方和, i 1nn如下分解式:l (y yi yay)2(yi 1i 1其中QeQ(a,b)就是前面提到的残差平方和n式右边的交叉项:2(yi?)(反y)1 1n2 y (? b?xi) ?取 y i 1n2(yi y) b(x x)b(xi x)1 1 nn21? (yi y)(xi x) k? (x x)2 i 1i 1它反映数据 yi的总波动,易得L有n2 2_y?)(? y) Q
18、e ui 1,U N (比y)2称为回归平方和,上 I 12b(Lxy bLxx) 0由上可知,U越大,Qe就越小,x与y间线性关系就越显著;反之,x与y 之间的线性关系越不显著。于是,自然地考虑到检验回归方程是否有显著意义是 考察U/Q的大小,其比值大,则L中U占的比重大,回归方程有显著意义,反之, 无显著意义。2、线性相关的F检验根据上段的思想来构造检验统计量,先看下面的定理。定理9.4当出b=0成立时U/ /2(1),且Q与U相互独立。2证:当H)成立时,由Th2.1-1及Th2.2-2知,b? N(0,)Lxx . b? N(0.1)于是 2 2(1)E,八一?2由定理9.4 ,我们还
19、知(n 2)2Qe 22(n 2),且Q与8相互独立,从而Q与U4?2Lxx独立,由上面的定理及F分布的构造性定理知:ub2L%真F-2xxF(1,n2)(9.14)Q/n2?2因此可选它作检验出b=0的检验统计量,当代为真时F的值不应太大,故对选定的水平a>0,由P(FFi)=a查F(1,n-2)分布表确定临界值Fi-“分位数,当观测数据代入(9.14)式算出的F值合FFi-“时,不能接受代,认为建立的回归方程有显著意义。检当H:经验公式无显著意义(a=0.05)选用f(n2)U”:真f(i,22)Q由PFF查表得Fa=4.30现计算F值由L=Lyy=117.95U?2Lxx0.859
20、2152.266112.35Q=L-U=5.6得f22112.35441.3755.6因F>巳,所以拒绝H),认为所得的经验回归方程有显著意义。四、相关与回归的区别与联系1、联系由前面的讨论,有:Ub?2LxxLxyLxx2一rLLyyLxxLyy得回归平方和U=r2L残差平方和QQ(gb)L(1r2)可见r2反映了回归平方和在总偏差平方和中占的比重,该比重越大,误差平方和在总偏差平方和中占的份量就越小。通常称r2为拟合优度系数。r就是变量x与y的积差相关系数,另方面由F(n2)U(n2rL3n2)2Q(1r2)L、1r2看出,在检验y与x是否显著线性相关时,F检验法与相关系数T检验法等
21、效。2、区别相关关系不表明因果关系,是双向对称的,在相关分析中,对所讨论的两个变量或多个变量是平等对待的,相关系数r反映数据(x,yi)所描述的散点对直线的靠拢程度。回归分析中,变量在研究中地位不同,要求因变量(响应变量)y是随机变量,自变量一般是可控制的普通变量(当然也可以是随机的)。在回归方程中,回归系数只反映回归直线的陡度,且它不是双向对称的。§9.1.3一元非线性回归前面讨论的线性回归问题,是在回归模型为线性这一基本假定下给出的,然而在实用中还经常碰到非线性回归的情形,这里我们只讨论可以化为线性回归的非线性回归问题,仅通过对某些常见的可化为线性回归问题的讨论来阐明解决这类问题
22、的基本思想和方法。、曲线改直例1炼纲过程中用来盛钢水的钢包,由于受钢水的浸蚀作用,容积会不断扩大。下表给出了使用次数和容积增大量的15对试验数据:使用次数(xi)增大容积(yi)使用次数(xi)增大容积(yi)26.4299.9938.201010.4949.581110.5959.501210.6069.701310.80710.001410.6089.931510.901610.76试求Y关于x的经验公式。解:首先要知道Y关于x的回归函数是什么类型,我们先作散点图。(见教材)从图上看,开始浸蚀速度较快,然后逐渐减缓,变化趋势呈双曲线状。因此可选取双曲线:(设y与x之间具有如下双曲线关系)1
23、1-ab-(9.15)yx作为回归函数的类型,即假设y与x满足:1 1-ab-(9.16)yx人112令,一,则(9.15)变成ab,E0,D0.1312- 0.0823x.xy这是一种非线性回归,先由x、y的数据取倒数,可得”,己的数据(0.5000,0.1558),(0.0625,0.0929),对得到的15对新数据,用最小二乘法线性回归方程?0.13120.0823后,代回原变量得0.13120.0823xx0.0823x0.1312为y关于x的经验公式(回归方程)在例1中,假设了y与x之间满足双曲线回归模型,显然这是一种主观判断,因此所求得的回归曲线不一定是最佳的拟合曲线。在实用中,往
24、往是选用不同的几种曲线进行拟合,然后分别计算相应的残差平方和Qe(yi?)2或?(标准误差)进行比较Q(或?)最小者为最优拟合。二、常见可改直的曲线下面简介一些可通过变量替换化为线性回归的曲线回归模型。1b111、双曲线一ab作变换y'-,x'一则回归函数化为:y'=a+bx'yxyx2、幕函数y=axb(或y=ax-b)(b>0)对幕函数两边取对数nynabnx,作变换y'ny,x'nx,a'na则有yabx3、指数函数丫=23"或y=ae-bx(b>0)两边取对数nynabx令yny,n有ybxbb4、倒指数函数
25、yaex或yaex(b>0,a>0)1两边取对数后作变换yny,x-,ana,x则有yabx5、对数函数,y=a+bnx作变换xnx,贝ij有y=a+bx.另外还有一些可化为线性回归的曲线回归,将在用“spss”作实习操作时一并介绍。例1(续)由例1b/xy=ae的散点图看出,除双曲线拟合外,本例还可选择倒指数拟合:两边取对数得:nyb1nax.1令ny,'-,变为如下的回归问题:xAB'利用最小二乘法求得:白二-1.1107,次=2.4578因此回归直线为:1.1107'2.4578代回原变量得:?11.6489e1.1107/x经计算双曲线拟合时Q=1.
26、4396?=0.3328,倒指数拟合时?=0.2168,故倒指数拟合效果更好些。§ 9.2 元线性回归实际应用中,很多情况要用到多元回归的方法才能更好地描述变量间的关系,因此有必要在本节对多元线性回归做一简单介绍,就方法的实质来说,处理多元的方法与处理一元的方法基本相同,只是多元线性回归的方法复杂些,计算量也大得多,一般都用计算机进行处理。一、数学模型和回归方程的求法。1、多元线性回归的模型。设因变量y与自变量x1,x2,xk之间有关系式:Vb0bi".bkxk2LN(0,2)(9.17)抽样得n组观测数据:(y1;xn,x21,xk1)(y2;x12,x22,xk2)(y
27、n;x1n,x2n,Kkn)其中xj是自变量xi的第j个观测值,yj是因变量y的第j个值,代入(9.17)得模型的数据结构式:yibobiXnb2X2i.bkXki1y2bobiXi2biX22.bkXk22.(9.18)ynbobiXinb2X2n.bkXknn1,2.n独立同分布N(0,2)我们称(9.17)或(9.18)为k元正态线性回归模型,其中bo,bi,bk及/都是未知待估的参数,对k元线性模型,需讨论的问题与一元时相同。需要说明的几点见教材2、未知参数的估计与一元时一样,采用最小二乘法估计回归系数bo,b1,bk.称使nQ(bo,b1,.,bk)?yt(bo6。bzX.bkXkt
28、)2达到最小的b0,?,我为参数t1(bo,b1,bk)的最小二乘估计,利用微积分知识,最小二乘估计就是如下方程组的解:112 b2l1kbkL1y121bl122b2.l2kbkL2y(9.19)lk1bllk2 b2.Ikkbkboyb1xb2X2.bkXk其中yLijLiy1 n yt, n t 11 n , 一(Xit n t 11 n / 一(Xitn t 1Xi)(Xjt Xj)x)(yt y)Lji(i(i 1,2,.,k)(i, j 1,2,.,k)1,2,.,k)通常称方程组(9.19)为正规方程组,其中前k个方程的系数矩阵记为L*(lj)kk当L*可逆时,正规方程组(9.1
29、9)有解,便可得bo,b1,bk的最小二乘估计boR式成L1y即(L*)1,Kyl?X1.bkxkbkLky代入模型(9.18),略去随机项得经验回归方程为:?昆b?x1.bkxk(9.2。)类似一元可以证明R都是相应的b(i=o,1,k)的无偏估计,且62的无偏估计为:?2Q(b,E.,bk)nk1二、回归方程的显著性检验与一元的情形一样,上面的讨论是在y与玄,,Xk之间呈现线性相关的前提下进行的,所求的经验方程是否有显著意义,还需对 y与诸Xi问是否存在线性相关关系作显著性假设检验,与一元类似,对? b0 blxi .用人是否有显著意义,可通过检验H):bi=b2= - =b<=0为了找检验H)的检验统计量,也需将总偏差平方和 Lyy作分解: nn-9_0l(yt y) (yt ?t ?t Vt)t 1t 1_(9.21)(yt yt)2(y! y)2 Qe utt22即 l=u+q 其中 L=Lyy, u(yt y) , Qe(yt yt)ttU为残差平方和、回归平方和,可以证这里?t 明:X1tXkt .分别称Qkykl?lj jy j 1利用柯赫伦定理可以证明:在代成立下,U2 2(k),2 2(n k 1)且 U 与Q相互独立,所以有U /kHo真Q/
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论