数学建模算法与应用多媒体电子课件-12第十二章回归分析_第1页
数学建模算法与应用多媒体电子课件-12第十二章回归分析_第2页
数学建模算法与应用多媒体电子课件-12第十二章回归分析_第3页
数学建模算法与应用多媒体电子课件-12第十二章回归分析_第4页
数学建模算法与应用多媒体电子课件-12第十二章回归分析_第5页
免费预览已结束,剩余36页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十二 回归分建立因变量y与自变量x1x2,Lxm之间的回归模型(经验公式判断每个自变量xi(i1,2,L,m)对y利用回归模型对y mx1,x2,Lxm,对它们分别进行了n次采样(或观测),得到nn)n则所构成的数据表X可以写成一个nmne1T式中eixi1xi2,L,xim)R,i1,2,Ln,ei被称为第i

eT

xij,j1,2,L,1x(x1,x2,L,xm)T,xjk1(ekn xnn C2(rij)mm (tij)

11-

tiitjjtij

k1( xi)( xj nxij* xj,i1,2,L,n;j1,2,L,0,而这样的变换既不改变样本点间的相互位置,也( x ( xxij*xij/s 其中sj

nxxij/xj,xxij/(max{xij min{xijxij*xij/max{xij},xij*xij/min{xij xxij*

,i1,2,L,n,j1,2,L,msjs 式中,2.10,1为回归系数,是随机误差项,总是假设~N(0,),则随量y01x 2y~N(01x,2)若对y和x分别进行了n次独立观测,得到以下n(yi,xi),i1,2,L,这n对观测值之间的关 模

对应于xi,yi是一个 量,它的随机性是由i造成的。i~N(0,),对于不yi01xi,i1,2,L,

这里,xi是自变量在第i次观测时的取值,它是一个非随量,并且没有测量误差2的观测,当ijij-

0,1ˆ0,ˆ1,使yiyˆiˆ0ˆ1xnQ(ˆ0,ˆ1)minQ(0,1) ( ˆ1xi)则n ( 1xi)i显然Q(01)001QQ

1xi)0 xi 整理后到下面的方程 1

xi

xi

i1( x)1 ˆˆ0 i1xi,y i1ˆ0ˆ101的最小二乘估计,其中,xy分别是xi与yi的样本均值,x1 1

( x)(1的计算公式还有ˆ1

( in x)1-( y( y)n(式中sx

in

(( ( x)(

i1 x2,sy2 i1 y2,rxy

xy

x)

i1

x) 1 12n显然,当xiyi都是标准化数据时,则有x0,y0,sx1,sy1有ˆ00,ˆ1yˆrxyˆ1可以表示y与x ˆ0,ˆ1作为一个随量,ˆ1有以下性质ˆ1是yi的线性组合,它可以写n式中ki是固定的常ki

( n

( x)(

) ( xi i1 i事实上( ( nˆ1

( nx) n

(

x)

x) 2i ix2i因为ˆ1是随量yi(i1,2,L,n)的线性组合,而yi是相互独立、且服从正态分布的,所以,ˆ1的抽样分布也服从正态分布。ˆ11-nE(ˆ1) kiyi kiE(yi ki kii1 kni1i

(

(2kx

ix ni1i

ii i

( ix)

xi

( x x)( xni n2i1E(ˆ1) (12Var(ˆ1)2

ii2i22)ii2i22

ky kVar(y) k 11ki2

ix n( n(xi1 ( x (

nix)

)2 cic不全为零,i1,2,L,n。要11的无偏估计量,~E(1) ciE(yi)~n另一方面,由于E(yi)01xi- 为保证无偏性,ci i

定义cikidi,其中ki是式(6)中的组合系数,di i1 i1i1

i

n x)

i1 ii ini而n

n n

n

1ix)ˆ1

n

ix)

ix nn

2的最小值为零,所以,in

~2~ii时,即ciki时,才i

20ˆ1同理,可以得出相应于点估计量ˆ0的统计性质。对于一元线性正态误差回归模型ˆ0是yi的线性组合,所以,它的抽样分布也是正态的。它是总体参数0的无偏估计量,即E(ˆ0)1

xix

~E(1) ci(01xi) ci cic0 cixi

-~Var(1) ci22 ki2 di2 kidi

nkidi ki ki) (

c ( x

ki2

( ((~Var(1)Var(ˆ1) d 0时,1的方差最小。但是,只有当didVar(ˆ0)2[(ˆ00 eei ( ˆ1x1)i yˆi,i1,2,L,

yi

n拟合值yˆi的平均值等于观测值yin1n(

yˆi

nnnyi

yˆ x 当第i次试验的残差以相应的自变量取值为权重时,其残差和为零,ni

x(n

这个结论由第二个正yˆ

ˆ1xi)0当第i次试验的残差以相应的因变量的拟合值为权重时,其残差和为零即n

n

0

ei xiei

最小二乘回归线总是通过观测数据的重心xy)的。事实上,当自变量取值为x时,由式(5)ˆ0 yˆˆ0ˆ1x( ˆ1x)ˆ1x-的模型(yˆiˆ0ˆ1xi)来较好地拟合观测值yi?用yˆiˆ0ˆ1xi(或者说解释)yi值的取值变化?回归方程的质量如何?误差多大?对这些,都必须 ( yˆi)i yˆi,i1,2,L,e 1n11

i i i1(

e0

e)2

以,残1平n和有 2)个自由度。ei2 由于

in

i1i1

2i

度 2)后得到的MSE,是总体回归模型2Var(i)SeMSE

各观测点在拟合直线周围的紧密程度越高,也就是说,拟合方程yˆˆ0ˆ1x解y另外,当Se越小时,还说明残差值ei的变异程度越小。由于残差的样本均值为零,对应于不同的xi值,观测值yi就是试图以x的线性函数(ˆ0ˆ1x)来解释y的变异。那么,回归模型yˆˆ01y

( y)y1y2,Lyn的变异程度可采用样本方差来测度ns2

1i1(yˆ y)nsˆ2

1 -( y)2 ( yˆi)2 (yˆ y)2 ( yˆi)(yˆ n(ny)n( nˆ1xi)(ˆ0 (n(ny)n( nˆ1xi)(ˆ0 i

(y)2(yˆy)2(yˆi)nnnSST(,这是原始数据yi的总变异平方和,其自由度为dfTn4)记SSRn(yˆy2,这是用拟合直线yˆiˆ0ˆ1xi可解释的变异平方和,其SSE

( yˆi)2,这是残差平方和,其自由度为dfE 2由度为dfRn

SSTSSRSSE,dfTdfRdf从上式可以看出,y的变异是由两方面的原因引起的;一是由于x的取值不同,而给y带来的系统性变异;另一个是由除x以外的其它因素的影响。注意到对于一个确定的样本(一组实现的观测值)SST是一个定值。所以,可解释变异SSR越大,则必然有残差SSE越小。这个分解式可同时从两个方面说明拟合方(1)SSR越大,用回归方程来解释yi变异的部分越大,回归方程对原数据解释得2从判定系数的定义看,R有以下简单性质

2

)当R1时,有SSRSST2(3)R20y2合值的变异来解释,并且残差为零(SSE0)2-无关的因素引起,这时SSESST变量y的相关度越大i1ˆi线)优良度就越高

看,拟合变量yˆnR2

2 (yˆi y)(yˆ r2(y,

ei(yˆ y)

ei y) (yˆ y) 在推y与拟合变量yˆ的相关系数平方R R

等于y与自变量x 22ˆ124

y与对于一个实际观测的样本虽然可以用判定系数R说明y与yˆ的相关程度,但yi01xii,i~N(0,2),i1,2,L,2样本测度指标具有一定的随机因素,还不足以肯定y与x的线性关系。假设y与x之间存性关系,则总体模型为yi01xii,i1,2,L,nSSE (yi yˆi)210n现给出假设H010。如果H0yi0ˆ1ˆ0 ˆ1x因此,对所有的i1,2,L,n-iyˆin

y)2iSSEH0假设成立,即1近似于零。因此,差额(SST SSE)很少时,表明H0成立。若这个差额很大,说明增加了x的线性项后,拟合方程的误差大幅度减少,则应否定H0,1显著不为零。F SSR/SSE

式中若假设H0:10成立,则SSE/与SSR/是独立的 量,MSRSSR/dfRSSR/MSESSE/dfESSE SSE/2~2 2),SSR/2~2FMSR

~F(1, x的线性方程式来解释y验。记yi关于xi1,则F检验的原假设H0与备则假设H1F ~F(1, H0:10,H1:1

对于检验水平,按自由度(n11,n2n 2)查F分布表,得到 界值F(1,n 2)。决策规则为若FF(1,n 2),则接受H0假设,这时认为1显著为零,无法用x的线性关系式来解释y。若FF(1,n 2),则否定H0,接受H1。这时认为1显著不为零,可以用x的线性关系来解释y。上说,线性回归方程的F检验通过了。需要注意的是,即使Fyi01xi就是一个恰当的回归模型,事实上,当H0假设被后,只能说明y与x之间存在-x与因变量之间的关系能否用一个线性模型来表示,这是由F检验来完成的;另一个检的影响程度是否显著。这就是下面要讨论的t检验。在一元线性分析中,由于自变量的归分析中,这两个检验的意义是不同的。从逻辑上说,一般常在F检验通过后,再进一步进行t检验。 10的检1代表xi变化一个单位对yi1的检验 ˆ1~N(1,(x

()ix)Var(ˆ1)

ix)S2(ˆ1)

( xn

i事实上,由

ˆ1S(ˆ1

~t ˆ1S(ˆ1

1)/Var(ˆ12S2其分子 1)/Var(ˆ1)服从标准正态分布,而分母项nVar(ˆ1

2

2 -ˆ1S(ˆ1

~ ˆ11H0:10,H1:1t1

S(ˆ1检验统计量t1在10假设为真时,服从自由度为 2)的t分布对于给定的检验水平,则通过t分布表可查到统计量t1的临界值t 2)。2若若

t1t 2),则接受H012t1t 2), H0,认为1显著不为零ˆ2 S(ˆ1 了H0,认为1显著不为零时,又称1通过了t检验。S(ˆ1P t 2) 还可以确定1的置信度为 的置信区间 t 2)S(ˆ1)1ˆ1t 2)S(ˆ1 0进行显著性检验,并且求出它的置信区间。它的最ˆ0x分布,即 xn nix)S2(ˆ0)MSE[Var(ˆ0)1

(x

ix ˆ0S(ˆ0

~t 0H0:00,H1:0-

t0

S(ˆ0在00时,检验统计量t0服从自由度为 2)的t分布对于给定的检验水平,则通过t分布表可查到统计量t0的临界值t 2)。2若

t0t 2),则接受H002

2),则H0,认为0显著不为零P t 2) 还可以确定0的置信度为 的置信区间 t 2)S(ˆ0)0ˆ0t 2)S(ˆ0 y01x1Lmxm

~N(0,01,Lm,都是与x1x2,L,xm01,Lm

yi01xi1Lmxim2i~N(0,),i1,L,2现得到n个独立观测数据yixi1,Lxim)i1,Lnnm,由(20) 记 1x11Lx1m y1X M,YM1xn1Lxnm yn

nn

[

1LmYX2其中En为n

-模型(20)01,Lmˆj,使jˆj,j0,1,2,L,m时,误差平方和 0,j0,1,2,L,得n n ( mxim)xij

j1,2,L,T

i 将ˆ代回原模型得到y的估计i1i1i1

ˆ(XTX)1XTyˆˆ0ˆ1x1Lˆm2i11 111i1正规方程组的矩阵形XTXXTY而这组数据的拟合值为YˆXˆ,拟合误差eY Yˆ称为残差,可作为随机误差的估计,而Q i2 (yi 0 mxim)2 i i mxim)-

Q xi1 xi1 xi1xi2L xi1xim xi1M当矩阵X列满秩时,XX为可逆方阵,(27)Q ei2 ( yˆi)ˆ的方差最小。记(XX)ˆ对残差平方和Q,EQ 1),ˆ~N(,2(XTX)1 (cij)nn~2 由此得到的无偏估 2(s2 ˆ (nms2是剩余方差(残差的方差),sSSTQUn,U (yˆ y)对总平方和SST

i

y2ni

其中Q是由(24)定义的残差平方和,反映随机误差对y的影响,U称为回归平方和,反映自变量对y的影响。上面的分解中利用了正规方程组。因变量y与自变量x1,L,xm之间是否存在如模型(20)所示的线性关系是需要检验的,显然,如果所有的|ˆj|j1,L,m)都很小,y与x1,L,xm的线性关系就不H0:j0(j1,L,当H0成立时由分解式(34)定义的U,QF U/Q

~F(m, 在显著性水平下有上分位数F(m, 1),若FF(m, 1),接H0;否则,注意接受H0只说明y与x1,Lxm的线性关系不明显,可能存在非线性关系,还有一些衡量y与x1,Lxm相关程度的指标,如用回归平方和在总平方和中的比R2

RR2称为复相关系数,R越大,y与x1,L,xm相关关系越密切,通常,R0.8(0.9)-当上面的H0被 时,j不全为零,但是不排除其中若干个等于零。所以应进由(31)式,ˆj~Nj,cjj),cjj是(XX)中的第(j,j)元素,用s代替,一步作如下m1个检验j0,1,Lm) :0 由(31)~( :0 2(j0(2(jT 对给定的,若|tj|t 1),接受H0;否则 ˆj/ctj

~ Q (j2(37)式也可用于对j作区间估计(j0,1,L,m),在置信水平1 下,j的[ˆ t 1)scjj,ˆjt 1)scjj 其中s

。nm 当回归模型和系数通过检验后,可由给定的x0x01,L,x0m)预测y0,y0是随机y001x01Lm 可以算出y0的预测区间(区间估计),结果较复杂,但当n较大且x0i接近平均值xi时,y0的预测区间可简化为[yˆ zs,yˆ0z 其中z是标准正态分布的2

2对y0的区间估计方法可用于给出已知数据残差eiyiyˆi(i1,L,n)的置信区间,ei服从均值为零的正态分布,所以若某个ei的置信区间不包含零点,则认为这个 regress

Y,X为按(22)式排列的数据,bˆ0,ˆ1,L,ˆmY,X同上,alpha为显著性水平(0.05),b,bint为回归系数估计值和它们的置信区间,r,rint为残差(向量)及其置信区间,stats是用于检验回归模型的统-计量,有四个数值,第一个是R(见(36)式),第二个是F(见(35)式),第三个是与F对应的概率p,p H0,回归模型成立,第四个是残差的方差s(22残差及其置信区间可以用1合金的强度y与其中的碳含量x有比较密切的关系,今从生产中收集了一批数据如下表1。表 0.100.110.12 0.140.150.160.17 42.041.545.045.545.047.549.055.0试先拟合一个函数yx),再用回归分析对它进行检验。解先画出散点图:可知y与x大致上为线性关系。y01 regressrcoplot编程如下:b=27.4722bint stats=0.7985 ˆ027.4722ˆ1137.5000ˆ0的置信区间是[18.6851,36.2594]ˆ1 rcoplot(r,rint)8个数据外其余残差的置信区间均包含零点,第8个点应视为异常点,将其剔除后重新计算,可得b bint s=0.9188 表x1x2y

-例2 某厂生产的一种电器的销售量y与竞争对手的价格x1和本厂的价格x2有关。表2是该商品在10个城市的销售记录。试根据这些数据建立y与x1和x2的关系式,对得到的模型和系数进行检验。若某市本厂产品售价160(元),竞争对手售价170解分别画出y关于x1和y关于x2的散点图,可以看出y与x2有较明显的线性关系,而y与x1之间的关系则难以确定,作几种尝试,用统计分析决定优劣。

y01x12 x1=[120140190130155175125145180x2=[10011090150210150250270300y=[102100120774693266965b=66.51760.4139-bint=-32.5060-0.2018-0.4611-stats 可以看出结果不是太好:p0.02470.05时回归模型(42)0.01则模型不能用;R20.6527ˆ0,ˆ1的置信区间包含了零点。下面将试图用x1,x2的二次函数改进它。如果从数据的散点图上发现y与x呈较明显的二次(或高次)函数关系,或者用线polyfit例3将17至29岁的运动员每两岁一组分为7组,每组两人测量其旋转定向能力, 对这种运动能力的影响。现得到一组数据如表3。表17

20.4825.1326.1530.0 20.324.3528.11 31.426.9225.7解数据的散点图明显地呈现两端低中间高的形状,所以应拟合一条二次曲线。

ya2x2a1x

y0=[20.4825.1326.1530.026.120.324.3528.1126.331.426.9225.7-[p,s]=polyfit(x0,y0,2);p=-0.20038.9782-即a20.2003,a18.9782,a0 72.2150。得到y的拟合值,及预测值y的置信区间半径delta图1拟合的交互式画用poltoo(x,y02)1两侧红线是y的置区间你可用鼠移动图的线来变图方的xy统计工具箱提供了一个作多元二项式回归令rstool,它也产生一个交互式画面,其中输入数据x,ynm矩阵和n维向量,alpha(linear(线性):y01x1Lmxmpurequadratic(纯二次)y

jinteraction(交叉):y01x1Lmxm jkxj1jkquadratic(完全二次):y01x1Lmxm jkxj1jky01x12x211x1222 x1=[120140190130155175125145180x2=[10011090150210150250270300y=[102100120774693266965-x=[x1x2];x=[x1x2];0-

图拟合的交互式画x1(=151)固定时的曲线yx1)及其置信区间,右边是x2(=188)固定时的曲线y(x2)及其置信区间。用鼠标移动图中的十字线,或在图下方窗口内输入,可改变x1x2。图左边给出y的预测值及其置信区间,就用这种画面可以回答例2“若某市本厂产品售价160(元),竞争对手售价170图的左方有个下式菜,一菜Expot用作区送数,包括bea(),me,redul(残差。模型44)beta=-312.58717.2701-1.7337-0.0228rmseyb0b1x1b2x2b3x1x2b4x12b5 在研究个变之间线性关程时,两变量的单相系数但个变量影响为了准确反映量之的关关系统计中定了偏系数()。如果有因变量y和自变量x1x2,L,xm,怎样定义y与x1的偏相关系数?一个直观的想法是在除掉x2,x3,L,xm的影响之后,再考虑y与x1的相关程度。如果有n个样本i1,2,L,nyic0c2xi2Lcmximxi1d0d2xi2Ldmxim-求这两个残差向量uu1,u2,Lun)与vv1v2,L,vn)ui (cˆ0cˆ2xi2Lcˆmximvi (dˆ0dˆ2xi2Ldˆmxim ry12,L,m,称它为y与x1例如只有两个自变量x1,x2的情形。为方便起见,不失一般性,设yx1x2均为中 cˆ2xi2,vi dˆ2xi2,i1,2,L,uiVar( cˆ2xi2,vi dˆ2xi2,i1,2,L,由于是中心化量,所以两个模型的常 yi2n

2rxy rx

ry22 i1i

nxi nn nnVar(v)

n

Cov(u,v) ry2r12

ry2分别是yry2分别是y这里,r12是x1x2的简单相关系数,ry1和

x1及x2Cov(u,v)ry12r(u,v)

ry ry22 r122ry12,L,m 21其中t1是回归方程yˆˆ0ˆ1x1Lˆmxm中,x1的tij,样本偏相关系数为rij,n为样本容量,p为随H0:ij当H0rij2(nF

~F(1, -给定显著水平,可查表得到临界值F(1, p)。决定准则为,对于统计量的F若FF(1,n p),则否定H0,说明xi与xj之间存在显著的净相关关系;若FF(1,n p),则肯定H0,说明xi与xj之间不存在显著的净相关关系。 m 偏F除时,我们首先要问的问题是:这个变量能否对y提供显著的附加解释信息?回答这个问题的方法是采用偏F检验。设有m个自变量x1,x2,L,xm,采用这my01x1Lmxm全模型的复判定系数为RRj从这m个变量中删去自变量xj,这时用 y01x1Lj1xj1j1xj1Lmxm由于在全模型中多一个自变2量xj,所以Rj2为零,说明增加xj,对yR2jR RR2jR R2给出统计假设H0Rj0,H1:Rj2

Q Fj

Q 式中,Qj是减模型的残差平方和,Q在H0假设成立的条件下,Fj服从F分布,第一个自由度为1 根据检验水平查F分布表(n11,n2n 1),得到域的临界值F,-当FjF时 H0,说明Rj显著不为零,这说明在x1,L,xj1,xjFjF时,接受H0Rj显著为零,所以,从全模型中删除xj,对Lxm变量已进入模型后,引入xj会显著提高对y2上述检验就称为偏F检验。偏Fy变量的一元线性回归模型。对所有的这m个模型进行F检验,选择F值最高者作为第一个进入模型的自变量(记为xi1)。然后,对剩下的m 1个变量分别进行偏F检验(即以y与xi1的模型为减模型,以y与xi1以及另一个自变量xj的模型为全模型)。如果至少有一个xi通过了偏F检验,则在所有通过偏F检验的变量中,选择Fj值最大者作为第二个被选的自变量,进入模型(记为xi2)。F的自变量都被包含在模型之中(这是起始的全模型)F检验(以去掉变量xj的模型为减模型)。如果所有的自变量都通过了偏F检验,则计算停止,所有自变量被包含在模型中。如果有若干自变量未能通过偏F检验,则选择出Fj值最小的自变量,将它从模型中删除。对剩下的(m 1)个自变量拟合一个全模型。然后,重新对每一个模型中的自变量进行偏F检验。在没有通过检验的自变量中,选择Fj值最小者,将它从模型中删除F 被排斥在模型之外。但是,随着其它变量的被删除,它对y的解释著的解释信息,就可以再次进入模型;而对于已在的变量,只要它的偏F检验不模型的起始与向前选择变量法一样。首先,求y与每一个xi的一元线性回归方程,选择F值最大的变量进入模型。然后,对剩下的m1个模型外的变量进行偏F检验(设定xi1已在模型中),在若干通过偏F检验的变量中,选择Fj值最大者进入模型。再对模型外的m2个自变量做偏F检验。在通过偏F检验的变量中选择FjF-过了偏F检验,则接着选择第四个变量。但如果有某一个变量没有通过偏F检验,则重复上述步骤,直到所有模型外的变量都不能通过偏F检验,则算法终止。为了避免变量的进出循环,一般取偏F检验域的临界值为F进F式中,F进为选入变量时的临界值;F出为删除变量时的临界值。在所有标准的统计软数都有逐步量加出,dfE以1当进0.05出0.12mn 1dfE0。而自由度越小,数据的统计趋势就越不容易显现。为此,又定义一可见,在调整复判定系数中考虑了自由度的因素。R与R的关系是R2QR22 R2SST

当n很大、m很少时,R与R之间的差别不是22是,当n较少,而m较大时,R就会远小于R

在一般的统计软件中,常在nm1RR 另外,2关R2,还可以用于判断是否可以再增加新的变量。如果增加一个变量后,R的改观不大,则这个变量的增加,意义22。所以,只有当R明显增2 是当模型中已经包含了k个自变量x1x2,L,xk,如果要再增加一个新自变量xj,则这时的偏F检验值为Fjt这里,tj是以x1x2,L,xkxj为自变量时回归模型中xj的t检验值。例4某产品的销售额y与部门的全部市场销售额x1,给批发商 x2,价x3,开发 x4,投资x5, x6,销售费用x7,部门全部 x8有关。为预测未来的销售量,收集了38个样本点的有关数据见表4,试建立y的经验公式。表4原始数据表xxxxxxy--------- 首先,以x1~x8为全部自变量,采用最小二乘法拟合一个多 这个回归模型的复判定系数 0.8048,调整复判定系数 0.7509。模型yˆ3086.29414.4862x1 3.66971.9442x58.5707x6 行F检验:F14.9424进行t检验的结果见表5表58个自变量模型的t检验结tt检验

-

-

--loaddata.txtdata.txt中x=[ones(38,1),data(:,1:8)];y=data(:,9);[b,bint,r,rint,stats]=regress(y,x)%stats(4)返回的是残差的样本方差r2=stats(1)%提出复判定系数 tm=inv(x'*x);%计算X'*X的逆矩阵tm=diag(tm);rmse=sqrt(stats(4))%计算剩余标准差(残差的样本标准差) 从这个模型看,F检验通过,但在t检验中有若干自变量对y的解释作用不明显,

x1表

y与x1~x8变

7250163.10.38

-x1首先进入模型:yˆ2950.06852F检验值:F38.8644,t检验值:t08.448,t16.2341x1以外,还有7x1别计算xj别计算xj()进入模型后(即以x1xj为模型中的自变量),xj验值tj,并计算x2~x8与y的偏相关系数ryxx。有关的计算结果见表7表7向前待选变t----------loaddata.txtdata.txt中-fori=2:8[b,bint,r,rint,stats]=regress(y,x)%stats(4)返回的是残差的样本方差tm=inv(x'*x);%计算X'*X的逆矩阵tm=diag(tm);%提出逆矩阵的对角线元素rmse=sqrt(stats(4))%计算剩余标准差(残差的样本标准差) ts=TT(3,:)%求各个新加入变量的tpr=ts

tjxjF第1步,选择偏相关系数最大的自变量x6进入模型,并且在以x1x62.7yˆ2721.68514.4372x12.2726x5 此种方法更易于掌握。它第1步以全部自变量x1~x8作为解释变量拟合方程。然后,每一步都在未通过t检验的自变量中选择一个tj值最小的变量,将它从模型中删除。直至某一步,所有的自变量均通过t检验,则算法终止。yˆ3293.8304 1.3261x31.9661x5 其中x是自变量数据,y是因变量数据,分别为nm和n1矩阵,inmodel是矩阵x的StepwiseRegression例5y与水泥中4种化学成分x1x2x3,x4有关,今测得一-表序xy1623848566976819214115761173810CoefficientswithError

- - Model2 图 -可以看出,x3可以看出,x3x4不显著,移去这两个变量后的统计结果如图4CoefficientswithError

-0-0 Model2 图4逐步回归交互式画面图4中的x3x4s(RMSE)没有太大的变化,但是统计量F的值明显增大,因此新的回归模型更好一些。可以求出最终的模型为y52.57731.4683x1 人满意例时些回系数估计的绝值异较大有时归系的估值i1L)(y(y1i,i1,L(,以下为方便起n个独立isy*

i1,Lnnm11(11( xjnyi*

,这里ys

n对应的标准化变量记为y,x1,L1,xn xij*

xs

,这里xj

ni

xij,sj

1* -~N(0,EnYX 其中模型的设计矩阵 规方程组的系数矩阵XX为满X M,YM阵。如果12Lm表示XX的m个特征值,且当XX12Lm很小xn1Lxnm ynT XTXˆXTˆ的无偏估计,即E(ˆ )]2(

L ˆ的误差太大,无实用价值。此时称m个解释变量之间具有复共线性,也就是说设计矩阵X的列向量之间有近似的线性关系,但非线性

K 最大特征 最小特征 K100当100K1000记为mse)它度量了估计跟未知参数向量~ ~...(n

Tm稍大一些。我们知道模型(48)ˆL(XTX)1X -ˆ(k)(XTXkEm)1XT 从上式直接看出,当k0时,它就是最小二乘估计,最有无偏性;当k ˆk0,就没有意义了。k究竟取多大值为好?显然应该是尽可能小的kˆk尽可能地稳定下来。同时我们需要知道ˆ(k)的统计性质究竟如何。 岭估计不再是无偏估计量,即E(ˆ(k))。E(ˆ(k))E[(XTXkEm)1XTY](XTXkEm)1XT1性质 1PSP设有正交矩阵P

diag(1,L,m

1

m

ˆ(kˆ(k 1 1 O

k

Om故知Zk的特征根分别

i

,都在(0,1)

mk性质3ˆkˆ Eˆ(k E 1轴为kˆk),它将画出m条曲线。这些曲线称之为岭迹。ˆk)稳定的最小k值,同时残差平方和也不增- 2岭估计的均方误差mse(ˆ(k))Eˆ(k 是k的函数,可以证明它能在某2取得最小值。计算并观察mse(ˆk)),开始它将下降,到达最小值后开始上升。取它最小处的k作为岭参数。设P为正交方阵,使式(52)成立,记P T,称为典则参数,ZXP,YZˆ(ZTZ)1ZTY1ZTˆ(k)(ZTZkEm)1ZTY(kEm)1Z

max

1(YˆY)T Y)

YT Z1ZTn n 5.kmˆ2

j

ˆj22直观考虑是,当mXXEm时,取kmˆ j

2j 对外贸的进口总额y进行研究,并考虑有关的3个因素:国内总产值x1,存贮量x2,总消费量x3,收集了11组数据,见表9。试建立y与x1,x2,x3的回归方程。j序表外贸数x总消费量x进口总额123456789-XX

*T

0.25859.9726 10119.991529.981530.0269X*TX*13742.93463于3应的特征向量30707000702223 *TX*333T33 ,即X 30,所以三个标3注意到,自变量x2的系数绝对值相对非常小,可视为零,而x1和x3的系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论