matlab算法第12章回归分析_第1页
matlab算法第12章回归分析_第2页
matlab算法第12章回归分析_第3页
matlab算法第12章回归分析_第4页
matlab算法第12章回归分析_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十二章yx1x2Lxm之间的回归模型(经验公式xi(i1,2,Lmy 在本章中,我们所涉及的均是样本点×变量类型的数据表。如果有m,得到(xi1,xi2,L,xim),i=1,2,L,1n式中ei(xi1xi2L,xim)T˛Rmi1,2,Lnei被称为第i1nx=(x1,x2,L,xm),xj=xij,j=1,2,L,n S=(sij)m·m=n-1(ek-x)(ek-

kR=(r ij sij (xki-xi)(xkj-xjkx*=x-x,i=1,2,L,n;j=1,2,L, 行所谓的压缩处理,即使每个变量的方差均变成1,即x*=x/1nn11nn1(xij-xj2其中sj x*=x/max{x},x*=x/min{x x*=x/x,x*=x/(max{x}-min{x x*xij-xji1,2,Lnj1,2,Lm j b0b1为回归系数,是随机误差项,总是假设e~N(0,s2y~N(b0b1x,s2(yi,xi),i=1,2,L,这nyi=b0+b1x+ei,i=1,2,L,

的观测,当ijei 用最小二乘法估计b0b1的值,即取b0b1的一组估计值

b,使yi 0101Q(b,b)=(y-b-bx 则

1n b0,b1

1¶Q=

(y-b-bx)=inn

1¶Q=

x(y-b-bx)=

1 nb0+b1xi=

bx+bx2=x

i bˆ=i=1(xi-x)(yi-

b0=y-b ˆ bbbbxyxy x1xi in

,y

1ninin(xi-x)(yi-n2ˆ12

i=1

(yi- (xi-x)(yi- = =y

ii

(ii

sxn-1(xi

,sy (yi-

n-1xiyix0y0sx1sy1有10ˆ=0,bˆ=1011

n

nxi

证明n

(xi-x) (xi-x)(yi- (xi-x)yi-y(xi-bˆ= = n

ii

y(xi-x)=y(nx-nx)=n xi-n1=

11

E(bˆ)=Eky=kE(y

ii

nn

n=n

xi-

i=1

n x- (xi-x)(xi-kixi=

x= ini

i=1(xi

ii

11111n(xi-21n(xi-2

22

nky

2 =

Var(y)=k

=s i

nk2=n( x- 2

n(x-x)2

=

i=1

(x-x)2i i

11 1=ci E(b1)=ciE(yi)= ci=0,cixi=

ki

)=s2c2=s

k2+

d2+k i

kd=k(c-k)= x- -kinin

cixi-x ni -k2 ni 而

ii

ii

1s2ki1

bVar(~b

nn

2n2

n

~时,即c”k时,才 0 体参数b00 E(bˆ)= Var(bˆ)=s2[1 x

00

ei=yi-yˆi,i=1,2,L,ne=n(y-

-bˆx)=

1

ˆi n ni(y-bˆ-bˆx)=inn

1yi

+bˆx)nin

0 0nxiei=nn这个结论由第二个正规方程

x(y-

当第i即nnnnn

ˆi

(bˆ+bˆx)e= e+ xe= i 1最小二乘回归线总是通过观测数据的重心(xy的。事实上,当自变量取值为x时,由式(5)1ˆ000

1 1(或者说解释)yi值的取值变化?回归方程的质量如何?误差多大?对这些,都必须ei=yi-yˆi,i=1,2,L,1en

ˆinMSEn

(e-e)2

ne2

(y-yˆn-

n-2i=1

n-2 由于有ei0和xiei0的约束,所以,残差平方和有(n2)n

以证明,在对

e2除以其自由度(n2)后得到的MSE,是总体回归模型中1n1niSe 0101 y的变异呢?又有多大部分是无法用这个回归方程来解释y1y2L,yn s (yi-(10sˆ2= n-1

ˆi

iiiinnnn

(

-y)2

(ii

-yˆ)2

(

-y)2+

(yi

ˆ

ˆ

(y-yˆ)(yˆ-y)=

1 1

(y-

x(y-bˆ-bˆx)-

i0

1 (yi-y)2=(yˆi-y)2+(yi-yˆi 2记n

SST=(

y)2yidfTn-nnin

1SSE=(

SST=SSR+SSE,dfT=dfR+给y带来的系统性变异;另一个是由除x以外的其它因素的影响。,R2=SSR=(1-SSE (1)0£R2£合值的变异来解释,并且残差为零(SSE0,即拟合点与原数据完全吻合;SSESST量y的相关度越大,拟合直线的优良度就越高。

(

y)( (ˆ

+

=r2(y,ˆ) R =i n

(n

n

(

11

yi=b0+b1

~N(0,s2),i=1,2,L,样本测度指标具有一定的随机因素,还不足以肯定y与x的线性关系。yi=b0+b1xi+ei,i=1,2,L,nSSE=(

yi=b0+1ˆ=1b00ˆ=y-bˆx=b00因此,对所有的i1,2,Lnn(

y)2=

SSE£认为总体参数b1显著不为零。F=SSRSSE/(n-

MSR=SSR/dfR=SSRMSE=SSE/dfE=SSE/(n-SSE/s2~c2(n-2),SSR/s2~c2F=MSR~F(1,n-H0b10H1b10F= 对于检验水平,按自由度(n11n2n2)F分布表,得到拒绝域的临Fa(1,n2)。决策规则为系式来解释y。线性关系来解释y。习惯上说,线性回归方程的F检验通过了。yi=b0+b1xi+x。与因变量之间的关系能否用一个线性模型来表示,这是由F检验来完成的;另一个检的影响程度是否显著。这就是下面要讨论的t检验。在一元线性分析中,由于自变量的在多元线性回归分析中,这两个建议的意义是不同的。从逻辑上说,一般常在F检验通过后,再进一步进行t建议。 n(xi-22bˆ~N(b n(xi-22 s

2 (xi-2ˆ-1 ~t(n-2)Sbˆ-b(bˆ-b) 1= 1111n MSE/(xi-

s2/(xi-1ˆ1~t(n-S t1

b1b11检验统计量t1b10假设为真时,服从自由度为(n2)的t对于给定的检验水平,则通过t分布表可查到统计量t1的临界值ta(n2)222 <ta(n-2)=1- 小二乘估计量bˆ0的抽样分布为正态分布,即bˆ~N(b,s2[1 x i (x-i2002

x

S(b0)=MSE[nˆ0ˆb0~t(n-

nn

H0:b0=0,H1:b0„t0

ˆb0b00b00时,检验统计量t0服从自由度为(n2)的t对于给定的检验水平,则通过t分布表可查到统计量t0的临界值ta(n2)2

22 S(b0ˆP

<ta(n-2)=1- bˆ-t(n-2)S(bˆ)£b£bˆ+t(n- y=b0+b1x1+L+bmxm+ bb,Lb,s2xx,Lxbb,Lb

现得到n个独立观测数据yixi1Lximi1,Lnnm,由(20)yi=b0+b1xi1+L+bmxim+ i=1,L,M记M

1 x1m X=

,Y

xnm

e= Len]T,b=Y=Xb+e~N(0,s2E

b1 bm

bjbˆj时,j0,1,2,Lm Q=e2=(y-b-bx-L-bx i

1 m得

=0,j=0,1,2,L,

(y-b-bx-L-bx)=

1 mi n=-2(yi-b0-b1xi1-L-bmxim)xij= j=1,2,L, +bx+L+b =

i

x+

x2+bx

+L+bmx =x

n

1i1n

2

i1in

i1im

i1in0 +bxx+bxx+L+bx2=x0

im

imi

im

yˆ=bˆ+bˆx+L+bˆ 1 m而这组数据的拟合值为YˆXbˆ,拟合误差eY-Yˆ称为残差,可作为随机误差的 Q=e2=(y-yˆ i i)

·记XTX)-1(cijnn·Q~c2(n-m-

s2

n

y)2nSST=Q+U,U=(ˆi

反映自变量对y的影响。上面的分解中利用了正规方程组。yx1Lxm之间是否存在如模型(20)

j1,Lmyx1LxmH0:bj=0(j=1,L,H0成立时由分解式(34)定义的UQF U/

~F(m,n-m- 在显著性水 下有 分位数Fa(m,n-m-1),若F<Fa(m,n-m-1),接注意H0yx1Lxm的线性关系不明显,可能存在非线性关系,yx1LxmR2=S

R Ryx1LxmR一步作如下m个检验(j0,1,LmH(j):b= 0由(31)~(33)式,当H(j)成立时0bˆj/ctj ~t(n-m-Q/(n-m-

对给定的,若|tj|2

0 0

QQ。

cjj,bˆ+t(n-m-2

+L+bˆ

1 m给定可以算出y0的预测区间(区间估计,结果较复杂,但当nx0i接近平均值xi时,y0的预测区间可简化为 a2 分位数22)ei服从均值为零的正态分布,所以若某个ei的置信区间不包含零点,则认为这个§4Matlab

0.05,b,bint它们的置信区间,r,rint为残差(向量)及其置信区间,stats是用于检验回归模型的统Fpp

例1 数据如下表1。xy解先画出散点图:y=b0+regress和rcoplot编程如下:

b bint stats 间是[75.7755,199.2245]R20.7985F27.7469p0.0012s24.0883含零点,第8个点应视为异常点,将其剔除后重新计算,可得bbintstats x1x2y2yx1x2有yx1yx2yx2有较明显的线性yx1x1=[120140125145180x2=[100110250270300y=[102100120774693266965

b -bint=-stats 例3 以考察年龄对这种运动能力的影响。现得到一组数据如表3。

y=a2x2+a1x+

y0=[20.4825.1326.1530.0 20.324.3528.1126.331.426.9225.7p=- 即a20.2003a18.9782a072.215020

图1曲线,它两侧的红线是y的置信区间。你可以用鼠标移动图中的十字线来改变图下方xy的预测值及其置信区间。通过左下方的其中输入数据x,y分别为n·m矩阵和n维向量,alpha为显著性水平(0.05,model:linear(线性):yb0b1x1+Lbmxmpurequadratic(纯二次)ybbx+Lbxbx 11 mm jjjj=1interaction(交叉yb0b1x1+Lbmxm+bjkxjquadratic(完全二次)yb0b1x1+Lbmxm+bjkxjy=b+bx+bx+bx2+bx 1 2 11 22x1=[120140190145180x2=[10011090270300y=[1021001206965x=[x1x2];0

图2x2(=188)yx2及其置信区间。用鼠标移动图中的十residuals(beta=-312.58717.2701-1.7337-0.0228rmsey=b+bx+bx+bxx+bx2+b 1 2 31 4 5 5.1yb1,Lbm(而不是自变量)是非线性的。 --b4 y 区间。b1,L,b5的参考值为(0.1,0.05,0.02,1,2。表123456789 function123456789beta=[0.1,0.05,0.02,1,2]';%回归系数的初值,任意取的[betahat,r,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论