版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
§11.3多元线性回归前几节介绍了只有一个自变量时回归分析的方法。但实际中,因变量常受不只一个自变量的影响。如植物生长速度受温度,光照,水分,营养等影响。在这种情况下抛开其他因素不管只考虑一个因素是不适当的。因此有必要研究多个自变量的回归分析。一、 多元线性回归方程k个自变量的情况下,线性回归模型变为:y=a+2PX.+8,p=1,2,n (11.21)j=1其中8p〜NID(Qq2),即它们为独立同分布的正态随机变量。为求出各回归系数a和P.,j=1,2,……k的值,同样采用最小二乘法,即用使残差平方和%广X(yp-yp)p=1达到最小的a达到最小的a和b.,j=1,2,k作为a和pj的估计值。其中y=y=a+^Lbx,p=1,2,j=1令关于a和bj.各的偏导数为0,可得:竽=。da「譬=。j=I》…kIj整理,得正规方程如下:n。na+bXxna+bXx+bXx1 1p 2 2p=1 p=1+ p•bXxp=1=Xypp=1aXx+bXx2+bXx.X+•…••bXx•x1p 1 1p 21p2pk 1p kpp=1 p=1p=1p=1[aXx+bXx•x+bxX2+—•••bXx•x2p 1 1p 2p22pk 2p kpp=1 p=1 p=1p=14yp=1=EX2pypp=1JEx+bEx•x+bXx•x=Xxypkp1kp1p2kp2pkkpkpp=1p=1p=1p=1p=1+ bEx2由上述方程组中第一个方程解得:(11.22)a=y—£bX(11.22)jjj=1代入其余方程,得:'Sb+Sb+……Sb=S111 122 1k k 1ySb+Sb+……Sb=S<211 222 2k k 2y (1123)Sb+Sb+……Sb=S、k11k22 kkkky其中S=23.x)-1(乙).(乙)ijP=1ip jp nip jpp=1 p=1S=2(、1x-y)--(2x).(2y)^:yip p nip pp=1p=1 p=1IWiWk,IWjWk从上述方程组中可解得b,b,……b,从而求得a。可证明它们分别为B,B……B和1 2 k 1 2 ka的无偏估计量。七称为Y对X.的偏回归系数,它表示其他自变量固定时,Xj改变一单位所引起的Y的平均改变量。 J J从上述公式可见,多元回归的计算是相当麻烦的,现在通常用计算机完成。在确有多个因素影响因变量的情况下,应使用多元回归,否则会造成回归分析的失败。二、 矩阵解法由于上述公式繁杂,为简化,可引入矩阵表示法。矩阵就是矩形的数表,一般用黑体字母表示。它定义了一些特殊的运算规则,如加法、乘法、转置、求逆、微分等。涉及多元问题时都要使用它。多元回归可用矩阵表示如下:令y1xx…x11121k1y1xx…xY=2:X=1222k2•y1x x…xn~1—1n2nknp=_p-p0:1B=~b一0b:18="s一18:^="e]1e:pLkJbkSnLe」n其中B0=a,b0=a。使用以上矩阵符号,线性回归模型可表示为:Y=XB+e (11.24)上 估计值为: Y=XB (11.25).... 一q残差为: e=Y—Y (11.26)残差平方和为:SSe=e'e=(Y-XB)'(Y-XB)=(Y'-B'X')(Y-XB)=Y'Y-B'X'Y-Y'XB+B'X'XB
=Y=Y'Y-2Y'XB+B'X'XB(11.27)(注意上式中每一项均为一个数字,而不是一个矩阵。)对B求偏导,得:ass—e=—2X'Y+2X'XB (5.28)QB(根据矩阵微分法则,g(bAb)=(A+A)b)cb令(5.28)式等于0,得正规方程为:X'XB=X'Y (11.29)B=(X"1X,Y (11.30)B的期望和方差为:E(B)=E[(X,X)-1X,Y]=(X,X)-1X,.E(Y)=(X,X)-1X,.E(X°+g)=(X,X)-1X,.(XP+E(g))=(X"1.X,XB=P即:B为p的无偏估计。D(B)=D[(X"1X,Y]=(X"1X,.D(Y)-X(X"1=(X,X)-1X,.I.学.X(X,X)-1=3(X,X)-1(•「Y的各分量独立,且方差均为Q2)上述矩阵主对角线上的元素是b°,b『……bk的方差,其他元素是各回归系数b.两两之间的协方差,因此可写为:° 1 JD(B)D(B)Ab2b0COV(b,b)1 0COV(bk,b0)=b2(X'X)-1COV(b,b)…COV(b,b)0 1 0kb2 …COV(b,b)\o"CurrentDocument"bl 1k… … …\o"CurrentDocument"COV(b,b)… b2k1 bk(11.31)从上述推导过程可见,采用矩阵表示法后,多元回归的过程确实显得简单了不少。三、 多元回归的统计检验回归方程的显著性检验回归方程的显著性检验实际是检验所有的x.,j=1,2,……k作为一个整体与Y的线性关系是否显著。其假设为: JH0:。广P2=……Pk=0, HA:至少一个Pj/0 1WjWk检验方法仍为方差分析:可以证明,在多元回归的情况下y的校正平方和仍可分解为回归平方和与残差平方和两部分:syyf(yp-y)2p=1=2syyf(yp-y)2p=1p=1 p=1=SS+SSR它们的自由度分别为n-1,n-k-1,和它们的自由度分别为n-1,n-k-1,和k。采用(5.23)式中的记号,可得:SS=£b-Sj=1其中S=g3•y)-SS=£b-Sj=1其中S=g3•y)-1(乙)•乙)iy ippnip pp=1 p=1 p=1因此,我们可用统计量F=MS。= SSd/k=MSR-SS/(n-k-1)(11.32)作检验。当Ho成立时,F〜F(k,n-k-1);Ho不成立时SSr有增大的趋势,所以应使用上单尾检验。若上述检验拒绝Ho:B]=B2= =Bk=0,则应进一步对各七,j=1,2, k作t检验,以剔除不重要的因素。由于这里只需对各%=0作检验,因此可分别作t检验。前已证明,3(X'X)-1主对角线上的元素是各b.的方差。记C=(X'X)-1,则有:b2=b2C用MSe代替总体参数Q2,得Sj=MS•c,在吒:七=0下,统计量bt=j〜t(n-k-1)•M.c方(11.33)也可采用对偏回归平方和作检验来代替上述t检验。偏回归平方和即取消一个自变量后所引起的回归平方和的减少量。即:SSP=SS—SS*=£b*-Ej=1b*S*jjyj=1(11.34)其中b*,S*为去掉自变量x后,用剩下的k-1个自变量作回归所得到的计算结果。SSP称jiy 1 1为Y对X1的偏回归平方和。可以证明,待1//\自由度为L因此,可用统计量(11.35)F=SSPi/MSe(11.35)作上单尾检验。当Ho成立时,F〜F(1,n-k-1)。由于一SSPF= iMSe因此这一F检验与前述t检验等价。若对某一Pj的检验不显著,则接受Ho:pj=0,即说明相应的自变量x.对因变量Y没有明显影响,可将它从变量组中剔除。每剔除一个自变量后,都应对方程重新进行回归。在剔除不重要的自变量时,应注意:1。每次只能剔除一个自变量。这是因为剔除掉一个自变量后,它对Y的影响很可能会转加
到别的与它相关的自变量上,这样那些原先不重要的自变量也许会变得重要。2。由于前述原因,在一次检验中,偏回归平方和大到显著的一定应该保留;偏回归平方和最小的若不显著则可剔除,其他的不管显著与否都应待重作回归后再作检验。四、 复相关系数和偏相关系数复相关系数定义为:Ry1,2,,,・Ry1,2,,,・kSSeSyy(11.36)它实际上是y与y的相关系数,或y与所有Xj.构成的整体的相关系数。对它的检验相当于对整个回归方程作方差分析。检验可通过查表进行。复相关系数与普通相关系数的不同点是它不取负值。偏相关系数是保持其他变量不变的条件下计算的两个变量间的相关系数。它的计算公式为:-c(11.37)r =—ij(11.37)TOC\o"1-5"\h\z矛1,2,・・・,(t-1),(i+1),“・,(j-1),(j+1),…,k c.c:: ••ii jj其中C=(X,X)-1,C.为矩阵C的元素。对偏相关系数的检验也可通过查表进行。偏相关系数和复相关系数查表时均使用MSe的自由度:n-k-1。对它们的检验与对回归平方和及偏回归平方和的检验是等价的。 6五、 逐步回归介绍最优的回归方程应该是既没有包含多余的(即不显著的)自变量,也没有遗漏任何必要的(即显著的)自变量。要做到这一点可使用许多方法,而逐步回归是其中较好的一种。它的基本思想是采用偏回归平方和为检验标准,每次从未进入方程的自变量中选取偏回归平方和最大的一个进行检验。若显著,则引入回归方程,重作回归;再选已进入方程的自变量中偏回归平方和最小的一个进行检验,若不显著则剔除,并重作回归;……反复重复这一步骤,直到不能引入也不能剔除为止,这样就得到了最优的回归方程。逐步回归的主要步骤为:1°首先建立数据的样本相关矩阵R(o)2°利用第n-1步的相关矩阵R(n-1),求出未引入方程的各自变量的偏回归平方和。取其最大的作F检验,与给定的Fa作比较。若大于Fa则把对应的自变量引入回归方程,即对R(n-1)作变换,得R"并建立Y与所有已引入的自变量的回归方程。3°利用R(n),计算所有已引入的自变量的偏回归平方和(刚引入的不必算)。选最小的作F检验。若小于给定的Fa,则把它剔除。方法仍是对R(n)作变换,得到R(n+1),它给出了新的回归方程及其他一些洁息。4°重复步骤3°,直到没有自变量可以剔除为止。5°重复步骤2°,直到没有自变量可以引入为止。6°计算出最优回归方程,给出复相关系数。关于逐步回归有几点说明如下:(1) 从介绍中可看出,它的计算工作量是相当大的,不用计算机很难完成。但比起其它方法,逐步回归的计算量还是比较小的。(2) Fa的值不象以前的检验是查表得到的,而是由使用者指定的。这是因为一方面运算过程中自由度一直在变化,因此得反复查表,会增加计算量;另一方面显著性水平(/本来就是人为指定的,取值非常准确并无统计学上的意义,因此也是不必要的。一般来说可以试几个不同的Fa值,Fa越大,回归方程中包含的自变量个数越少。应以自变量个数多少为标准选一个你满意的。即在能包括主要有影响的自变量,不明显降低复相关系数的情况下,尽量选取少一些的自变量个数,一般不超过3〜5个。当然自变量个数主要依赖于你的问题的复杂程度。有时也可对引入和剔除设置不同的Fa,但这样有时会形成一种循环:几个自变量走马灯一样引入又剔除,总也停不下来。此时应重新设置Fa。(3) 逐步回归是一种很有用的方法,它允许我们尽量多地收集数据,然后由计算机来选择。在问题的机理不十分清楚,无法确定哪些是真正有影响的因素时,这种方法的优越性是十分明显的。(4) 哪个自变量会进入方程与所选择的自变量变化范围有关。本来不能进入的,扩大一下范围,或换一个范围,就可能进入了。(5) 一般来说,逐步回归方法所允许考虑的自变量数应小于n-1,其中n为总的数据组数。否则正规方程系数矩阵的逆不存在,计算无法进行。(6) 由于在通常情况下我们都是利用现成的程序进行逐步回归,在本书中略去了具体的计算公式。如有需要的同学可参考其他有关多元回归的教科书。§5.4非线性回归线性回归虽然比较简单,但应用非常广泛。这主要是因为如果我们缩小研究范围,则任意非线性关系最后都可以用线性关系来近似。但是范围缩得太小了使用上会很不方便,一来不能对变量间的关系有一个整体上的把握,二来在不同取值范围内还要换用不同的方程,因此在许多情况下考虑两变量间的非线性关系还是很有用的。非线性回归可分为两种情况,即已知曲线(公式)类型和未知曲线(公式)类型。这两种情况需要用不同的方法来解决。一般来说,如果已知曲线类型,回归效果会比较有保证;同时在多数情况下我们对所研究的对象都有一定了解,可以根据理论或经验给出可能的曲线类型,因此常用的还是已知曲线类型的回归。一、 已知曲线类型的回归。确定曲线类型的方法主要有:a) 从专业知识判断。例如单细胞生物生长初期数量常按指数函数增长,但若考虑的生长时间相当长,后期其生长受到抑制,则会变为'S”形曲线。生态学上种群增长的情况也类似。此时常用逻辑斯蒂(Logistic)曲线进行拟合;反映药物剂量与死亡率之间关系的曲线也呈“S”形,但常用概率对数曲线描述;酶促反应动力学中的米氏方程是一种双曲线;植物叶层中的光强度分布常用指数函数描述;等等。这些公式或者来源于某种理论推导,或者是一种经验公式。b) 如果没有足够的专业知识可判断变量间的关系是哪种类型,则可用直观的方法,即散点图的方法来判断。方法是把(x,y)数据对标在座标纸上,然后根据经验判断它们之间是什么类型。如果看来有几种类型可用,但不知哪种较好,也可多做几次回归,然后用后边介绍的方法对结果进行比较,选一种最好的。确定曲线类型之后,回归的任务就变成确定曲线公式中的参数,因此也可称为曲线拟合。常用的回归或拟合方法有:线性化的方法。即先对数据进行适当变换,使其关系变为线性之后再按线性回归做。这种线性化的方法虽然常用,但它的缺点也是十分明显的。例如它只能保证使变换后数据的线性方程残差最小,而得到的非线性方程对原始数据没有任何最优性可谈。有时甚至会出现变换后的数据与线性回归方程吻合很好,而原始数据与非线性回归方程的差别大得不可接受的情况。因此采用线性化的方法进行曲线回归后必须用相关指数进行直观检验(见后边曲线
回归的检验)。另外,也不是所有的非线性方程都能用数据变换的方法线性化。实际上,只有少数几种简单的非线性方程可用这种方法线性化,对绝大多数非线性方程来说都不行。下面我们介绍几种生物统计中常用的变换方法。(1)采用指数,对数,倒数等函数对自变量和因变量进行适当变换,使它们的关系变为线性。如:指数函数:y=a-ebx令y'=lny,a'=lna,可得:y'=a'+bx幂函数:y=axb令y'=lny,a'=lna,x'=lnx,可得:y'=a'+bx'对数函数:y=a+blnx令x'=lnx,可得:y=a+bx'米氏方程:V=L,K+S可得:令V'=—, S'=—, a'=—-—, b—*m,可得:v s V Vmax maxV'=上+史-S'=a+bS'VVmaxmax但逻辑斯蒂方程:y——-—是无法用变量代换的方法线性化的.a+be-cx(2)概率对数变换。主要用于毒理学研究中求半致死剂量。剂量与死亡率之间的关系一般呈如下曲线:该曲线呈“S”形,但两端不对称。对于这种曲线可先把剂量取对数,使曲线对称化;然后对死亡率按标准正态分布作变换,即把死亡率作为累积概率值P,查正态分布表求出对应的单侧分位数up。它们的数学关系为P(X<u)=pp其中X〜N(0,1)。一般来说,up与剂量对数之间可呈现较好的线性关系。综上所述,线性化方法的优缺点主要有:优点:变量代换后可按线性回归做,简单方便。缺点:1。不是所有非线性方程都能用变量代换线性化;2。 即使方程类型不对,变量代换与线性回归都可照样进行,但结果没有任何用处;3。 线性回归效果好并不意味着变换前的非线性回归效果也好,因此必须用下面的方法对所得的非线性方程进行检验。4。 理论上所得回归方程是对线性化后数据最优,而不是对原始数据最优,因此影响回归效果。曲线拟合。这种方法不需要对方程进行线性化,其基本思想是在所有参数所组成的高维空间中进行搜索,直到找到使目标函数(常为误差平方和或误差绝对值之和)达到极小值的点。具体算法有许多种,如Newton(牛顿)法,Marquardt(麦夸特)法,Powell(包维尔)法等°Newton法除了要给出曲线的公式外,还要给出一阶、二阶导数;Marguardt法也需要公式和一阶导数;而Powell法只需给出公式,不需要导数。这些方法都需要在计算机上实现。由于这种曲线拟合的方法没有经过变量代换,而是直接使用原始数据,得到的参数至少是局部最优的,一般比用线性化方法得到的参数要好。如果采用不同的初值多拟合几次,更有可能得到接近最优的结果。在各种曲线回归的方法中,曲线拟合所得结果误差之小常是其他方法无法企及的。这种方法的缺点主要是计算量大,如果参数数量较多,甚至现代计算机解起来也有一定困难。另外,有时使用曲线拟合也会碰到迭代不收敛的问题,从而得不到参数的估计值。总起来看,随着计算机技术的发展,计算量大逐渐不成为重要限制条件,而回归误差小的优点则越来越被人们重视,因此曲线拟合的方法使用越来越多。综上所述,曲线拟合方法的优缺点主要有:优点:1。不需变量代换,可保证所得参数至少局部最优,回归误差小于其他方法;2。常有现成软件可用;缺点:1。需要反复搜索,计算量大,必须用计算机;2。 由于结果只是局部最优,一般需要试用多个初值;有时会出现不收敛的情况;3。 参数数量多时,计算量迅速增加;4。 有些拟合方法需要有目标函数的一、二阶导数。二、 未知曲线类型的回归:多项式回归。以上我们介绍了已知曲线类型的情况。有些时候所研究的问题过于复杂,不可能进行理论上的推导;又没有前人的经验公式可利用,从散点图上也看不出明显的规律,此时就只能试用多项式回归的方法。最常用的方法为:设自变量与因变量的关系为:y=a+bx+bx2+bxk (5.38)令x=x,x=X2,x=X3,…x=Xk,上式可化为:y=a+b1x1+b2x2+…+bkxk, (5.39)成为多元一次的线性方程,从而可用多元回归的方法求出各参数估计值。这种方法的优点是不须对曲线类型有任何了解,如有必要,也可加上一些其他超越函数项,如对数、指数、三角函数等。它的缺点是其理论基础是任何曲线都可以在某一邻域中用多项式逼近,而这一邻域可能很小。另一个缺点是多项式的项数受到数据组数的限制:一般来说,当项数等于数据组数时,求回归系数就变成了解方程组,而不是一个优化过程。其结果是最后得到一条曲曲弯弯,但通过各数据点的曲线。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 柞蚕蛹油高效利用之路:超临界提取与微胶囊化工艺及性状解析
- 工控组态软件应用技术教学设计 运料小车参考教案
- 某市中小学教师健康素养:现状剖析、因素洞察与通径解析
- 析字法:文字拆解与意义重构的谜题艺术
- 构建高校贷款风险预警机制:理论、实践与创新路径
- 构建长效机制:撬动居民消费驱动经济新增长
- 中学实验室建设及方案
- 2026河南安阳殷都初级中学招聘备考题库及参考答案详解(黄金题型)
- 2026云南楚雄州武定县公安局发窝派出所招聘辅警1人备考题库含答案详解(模拟题)
- 2026重庆九洲隆瓴科技有限公司招聘助理项目经理1人备考题库含答案详解(能力提升)
- DL∕T 1987-2019 六氟化硫气体泄漏在线监测报警装置技术条件
- 南京市指导服务企业安全生产工作指引-加油站现场安全重点检查指引分册
- 小学生心理健康测评报告总结
- 兰州彤辉商贸有限公司肃南县博怀沟一带铜铁矿矿产资源开发与恢复治理方案
- 光伏并网前单位工程验收报告-2023
- 商业插画讲课用课件
- 钢结构施工安全培训
- JCT698-2010 石膏砌块标准
- DB5331T 39-2023 德昂酸茶(干茶)感官审评方法
- GB/T 33187.1-2016地理信息简单要素访问第1部分:通用架构
- 水电站工程安全验收定性定量评价
评论
0/150
提交评论