多元线性回归与最小二乘估计

上传人：浪*** IP属地：河北上传时间：2025-12-25 格式：PDF 页数：22 大小：5.19MB 积分：12 举报 版权申诉

已阅读5页，还剩17页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

多元线性回来与最小二乘估计

1.假定条件、最小二乘估计量和高斯一马尔可夫定理

多元线性问来模型：

>7=Bo+BIHI+BBS+...+Bhix〃-i+〃,（1.1）

其中M是被说明变量（因变量），期是说明变量（自变量），均是随机误差项，m，i=（）,1,…,

k-\是回来参数（通常未知）。

对经济问题的实际意义：乃与句存在线件关系，为人j=0,1,...,；-1,是），，的重要

说明变量。如代表众多影响力变更的微小因素。使X的变更偏离了E（M=多元线性回

来与最小二乘估计

1.假定条件、最小二乘估计量和高斯一马尔可夫定理

多元线性回来模型：

yt=Po+3ix/i+P2X/2+...+8上1为卜1+出(M)

其中，是被说明变量（因变量），切是说明变量（自变量），也是随机误差项，/=0,1,

k-1是回来参数（通常未知）。

对经济问题的实际意义：y与叼存在线性关系，即力/=0,1,…，八1,是M的重要说明

变量。出代表众多影响M变更的微小因素。使M的变更偏离了E（川=Bo+Bix,i+B汹2+…+

Bk-\xtk.x确定的k维空间平面。

当给定一个样本（M，即1,即2,…，Xrjt.1）,t=1,2,…，7时，上述模型表示为

yi=0o+3i^n+3jxi2+...+Bk可★/+经济意义:M•是M的重要说明变量。

3^2=3o+131X21+P2X22+…+Bh1X2hl+"2,代数意义：州与切存在线性关系,

......几何意义：表示一个多维平面。

yr=M+B+BKT2+...+Pk-IXTA-I+UT,(1.2)

止匕时yt与x”已如，B/与未知。

(13)

y=xB+“，(1.4)

为保证得到最优估计量，回来模型（1.4）应满意如下假定条件。

假定⑴随机误差项场是非自相关的，每一误差项都满意均值为零，方差戏相同且

为有限值，即

〃o

•

圾•

S4-工O.

>—•_

E(«)=0=Var(w)=E(Mw')=o2/=o-■

O/=.

假定⑵说明变量与误差项相互独立，即

E(Xu)=0.

假定⑶说明变量之间线性无关。

rk(X'X)=rk(X)=k.

其中rk(.)表示矩阵的秩。

假定⑷说明变量是非随机的，且当7-8时

T]X'X-Q.

其中。是一个有限值的非退化矩阵。

最小二乘(OLS)法的原理是求残差(误差项的估计值)平方和最小.代数卜是求极值

问题。

minS=(Y-Xfiy(Y-Xfl)=Y'Y-fl,X,Y-YXfl+p'X'Xp

=Y'Y-2P'X'Y+8'X'XB'(1.5)

因为是一个标量，所以有=P'X'Y.(1.51的一阶条件为：

畛=-2XY+2X%6=0(1.6)

化简得

X'Y=X'Xp

因为(X'X)是一个非退化矩阵(见假定(3)),所以有

fi=(X'XylXY(1.7)

因为(1.5)的二阶条件

L.=2X'X>0(1.8)

得到满意,所以(1.7)是(1.5)的解。

因为X的元素是非随机的，(x，x)•，是一个常数矩阵，则e是y的线性组合，为线性

估计量。

求出6,估计的回来模型写为

Y=Xfi+u(1.9)

其中£=(瓦A...北一)'是B的估计值列向量，6=(y-xf)称为残差列向量。因为

it=Y-xfi=y-x(X'xy]xY=[I-X(X'xy]x']Y(I.IO)

所以小也是y的线性组合，》的期望和方差是

E(6)=E[(X'XfX'Y]=E[(X'X)AX\XB+u)]

=B+(XB(l.H)

Var(1)=E[(/-6)(/-B)口=E[(X'X)"X'〃■X(X'X)」]

=E[(X,XyxX'a2IX(X'X]A]=o2(X'X)-'.(1.12)

高斯一马尔可夫定理：若前述假定条件成立，OLS估计量是最佳线性无偏估计量，分具

有无偏性。液具有最小方差特性。液具有一样性，渐近无偏性和渐近有效性。

2.残差的方差

52=u'u/(T-k)(1.13)

N是〉的无偏估计量，E(S2)=/。6的估计的方差协方差矩阵是

Var(^)=?(X'Xy(1.14)

3.多重确定系数(多重可决系数)

Y=Xfi+u=Y+u(1.15)

总平方和

SST=a刃”丁-疗，(1.16)

其中5是M的样本平均数，定义为》=(a:YJ/T0回来平方和为

4—/

TL，2

SSR=al=/(yt-y)=y,y-Ty(1.17)

其中y的定义同上。残差平方和为

SSE=自产=aI*'=GF(1.18)

则有如下关系存在，

SST=SSR+SSE(1.19)

,SSRyy-Ty2

R2_____二_______)(1.20)

SSTY^-Ty2

明显有0<R2<kR2』,拟合优度越好。

4.调整的多重确定系数

当说明变量的个数增加时，通常R?不下降，而是上升。为调整因自由度减小带来的损

失，又定义调整的多重确定系数Q如下：

SSE/T-k,J-I“SST-SSR.T-//r

R2=i.-S-S--T-/-(：-T-----1)-=1-[(-T-----k-X，-----S-S--T-----；=1--T-----k-(，1-R-7(1.21)

5.OLS估计量的分布

若〃~N(0,。2/),则每个处都听从正态分布。于是有

y~N(XB,02!)(1.22)

因6也是〃的线性组合(见公式1.7),依据(1.11)和(1.12)有

6~N(B,。2(X'X)-1)(1.23)

6.方差分析与〃检验

与SST相对应，自由度T-\也被分解为两部分,

(T-l)=(4・1)+(八攵)(1.24)

OODSSE

回来均方定义为MS/?：=二■，误差均方定义为MSE=

k-1T-k

表1.1方差分析表

方差来源平方和自由度均方

回来hlMSR=SSR/(k-\)

SSR=YY-Ty2

误差SSE=uiiT-kMSE=SSEf(T-k)

总和SST=Y'Y-Ty2T-l

Ho：B1=82=…=()：Hi：不全为零

MSR_SSR/(k-1)

(1.25)

MSE~SSE/(T-k)~3'攻

设检验水平为a,则检验规则是，若F<Fa(k-\,T-k)f接受Ho；若F>Fa(k-u-k),拒绝Ho・

尸检验示意图/检验示意图

7./检验

Ho：%=0,(/=1,2,…，hl),Hi：分工0

t=%I产S/\/s"x，x尸"AT-A)

s传“

(1.26)

判别规则：若I//a(T-k)接受Ho；若I/I>T-k)拒绝H0。

8.再的置信区间

(1)全部力的联合置信区间接受

尸=，(B-6)'(X'X)(B-6)/S2~Fs-k)(1.27)

(B-6)'(X%)(B")</4凡gTM它是一个A维椭球。(1.28)

(2)单个3的置信区间

Bi=Pi-yjvj+jStar2.{T-k).(1.29)

9.预料

(1)点预料

c=(Ixr+11AT+l2...XT+jhl)(1.30)

则T+1期被说明变量"X的点预料式是，

§T+\=CB=BQ+3I-VT4.Ii+…+/A.lXT*|jfc.1(1.31)

(2)E(.vr+i)的置信区间预料

首先求点预料式Cp的抽样分布

E(yi)=E(C/)

r+(132)

Var(>'T+l)=Var(C/?)=E\(CR-C0)(C8-C。)'、

=E[C(6-£)[C(//)]']=CE[(6/)(~/)']C'

=CVar(6)C'=C『(X'X尸C，=o2C(X'K)/。'，(1.33)

因为力听从多元正态分布，所以c£也是一个多元正态分布变量，即

_vr+1=cB~N(C尸.(TC(X'X)-0(1.34)

构成/分布统计量如下

,=b+厂E%/=Cb-Cb

(T-k)

S《C(X”)」CS《C(X，X『C

(1.35)

置信区间cp±tai2^r-k)sJc(rx『c(1.36)

(3)单个"+1的置信区间预料

H+1值与点预料值％+/有以下关系

yr+1=%+/+〃7+1(1.37)

其中〃7■“是随机误差项。因为

E(yr+i)=E(%+]+ig)=CP(1.38)

Var()Y+I)=Var(y7+;)+Var(Wr+l)=aC(X'X)'C'+。

=o2(C(X,XyiC,+1)(139)

因为力听从多元正态分布，所以yr+i也是一个多元正态分布变量，即

"+i~N(CB,02c(X'X)/C'+1)

与上相仿，单个.vr+i的置信区间是

，l

Cp+tal'2（T-k）^C（XX）-C+l(1.40)

计算举例：（见《计量经济分析》第19-27页，熟识矩阵运算）

10.预料的评价指标

留意，以下6个公式中的日表示的是预料误差，不是残差。可以在样本内、外预料。

(1)预料误差。预料误差定义为

6二%-3%t=T+\,7+2,...

⑵相对误差PE(PercentageError)。

PE=匕-丫二t=T+\,T+2,...

(3)误差均方根nnserror(RootMeanSquaredError)

rmserrors，卷(yt-yt)~

'I't=i

(4)确定误差平均MAE(MeanAbsoluteError)

-a\yt-y\

(5)相对误差确定值平均M4PE(MeanAbsolutePercentageError)

以上6个式子中，力表示预料值，乃表示实际值。刀延〃的取值范围是［0,1］。明显在预

料区间内，当月与y完全相等时，Theil=0：当预料结果最差时，77?〃=1。公式中的累加

范围是用1至7表示的，当然也可以用于样本外预料评吩。

11.建模过程中应留意的问题

（1）探讨经济变量之间的关系要剔除物价变动因素。以上图为例，按当年价格计算，我

国1992年的GDP是1980年的5.9倍，而按固定价格计算，我国1992年的GDP是19B0年

的2.8倍。另外从图中还可看出，1980-1992期间按名义价格计算的GDP曲线始终是上升的,

而按不变价格（1980年价格）计算的GDP曲线在1989年出现一次下降。可见探讨经济变

量应当剔除物价变动因素3

（2）依照经济理论以及对详细经济问题的深化分析初步确定说明变量。

例：我国粮食产量二/（耕地面积、农机总动力、施用化肥量、农业人口等）。但依据

我国目前状况，“耕地面积”不是“粮食产量”的重要说明变量。粮食产量的提高主要来自

科技含量的提高。

例：关于某市的食用油消费量，文革前常驻人口确足是重要说明变显。现在则不同，消

费水平是重要说明变量，因为食用油供应方式已变更。

（3）当引用现成数据时，要留意数据的定义是否与所选定的变量定义相符。

例：“农业人口”要区分是“从事农业劳动的人口”还是相对于城市人口的“农业人口二

例：2002年起我国将执行新的规定划分三次产业。即将农、林、牧、副、渔服务业从

原第三产业划归第一产业。

（4）通过散点图，相关系数，确定说明变量与被说明变量的详细函数关系。（线性、非

线性、无关系）

（5）谨慎对待异样值。不能把建立模型简怙化为一个纯数学过程，目的是找寻经济规律。

年INV（投资）IMPORT（进口）

19912.56200023.47000

19922.42970032.29000

19936.71240063.99000

199415.3760078.75000

199521.31000149.1300

199627.37000113.8100

199741.71000106.1500

199839.78000112.2000

（6）过原点回来模型与非过原点回来模型相比有如下不同点。以•元线性过原点模型,

>,/=3!X；+W,,为例，①2团=0不确定成立。缘由是正规方程只有一个（不是两个），

--------------=2E(yt-P\Xt)(-3)=0,

也

即工"即=0,而没有不乐=0。所以残差和等于零不确定成立。②可决系数R2有时会得

负值！缘由是有时会有SSE>SST。为维持SSE+SSR=SST,迫使SSR<0。

(7)变更变量的测量单位可能会引起回来系数值的变更，但不会影响，值。即不会影响统

计检验结果。

(8)向来模型给出估计结果后，首先应进行尸检验。尸检验是对模型整体回来显著性的

检验。(检验一次，Ho：P1=152=...=3*-i=0;Hi：BJ不全为零。)若尸检验结果能拒绝

原假设，应进一步作/检验(检验〃次，Ho：8尸0,。=1,2,…，hl),H,：>wD)。/

检验是对单个说明变量的回来显著性的检验。若回来系数估计值未通过，检验，则相应说明

变量应从模型中剔除。剔除该说明变量后应重新回来。按经济理论选择的变量剔出时要:慎重:。

(9)在作尸与,检验时，不要把自由度和检验水平用错(正确查临界值表)。回来系数

的t检验是双端检验，但!检验表的定义有P(|r|>ia)=a,P(t<ta)=a

(10)对于多元回来模型，当说明变量的量纲不相同时，不能在估计的回来系数之间比

较大小。若要在多元【可来模型中比较说明变量的相对重要性，应当对1口I来系数作如下变换

(1.41)

其中$(无)和s()“)分别表示即和y的样本标准差。4*可用来干脆比较大小。

以二元模型为例，标准化的回来模型表示如下(标准化后不存在截距项),

y,-y八x,,-x,八

1^-4=01*—―，+62*十x”一-x.?...+%*

s(yt)s(xjs(xt2)

两侧同乘$。力，得

G，L》)=B1*1(如■亏)+B2*S?'1(X〃■工2)+…+〃产$。”

5(之|)$(巧2)

所以有

p.*2i2il=p,即B*=i=1,2,…hl

s(勺)s(y1)

既是(1.41)式。

(11)利用回来模型预料时，说明变量的值最好不要离开样本范围太远。缘由是①依据

预料公式离样本平均值越远，预料误差越大；②有时，样本以外变量的关系不清晰。当样本

外变量的关系与样本内变量的关系完全不同时，在样本外预料就会发生错误。图3.10给出

青铜硬度与锡含量的关系曲线。若以锡含量为0-16%为样本，求得的关系近似是线性的。当

把预料点选在锡含量为16%之外时，明显这种预料会发生严峻错误。因为锡含最超过16%

之后，青铜的硬度急剧下降，不再遵从锡含量为0-16%时的关系。

图3.9v的区间预料的变更图3.10青铜硬度与锡含量的关系

(12)回来模型的估计结果应与经济理论或常识相•样。如边际消费倾向估计结果为1.5,

则模型很难被接受。

(13)残差项应非自相关(用DW检验，亦可推断虚假回来)。否则说明①仍有重要说明

变量被遗漏在模型之外。②选用的模型形式不妥。

(14)通过对变量取对数消退异方差。

(15)避开多重共线性。

(16)说明变量应具有外生性，与误差项不相关。

(17)应具有高度概括性。若模型的各种检验及预料实力大致相同，应选择说明变量较

少的一个。

(18)模型的结构稔定性要强，超样本特性要好。

(19)世界是变更的，应当随时间的推移刚好修改模型。

建模案例1：《全国味精需求量的计量经济模型》

(见《预料》1987年第2期)

1•依据经济理论选提影响味精需求量变更的因素

依据经济理论一种商品的需求最主要取决于四个因素，即①商品价格，②代用品价格，

③消费者收入水平，④消费者偏好。模型为：

商品需求量=/(商品价格，代用品价格，收入水平，消费者偏好)

对于特定商品尝精，当建立模型时要对上述四个因素能否作为重要说明变量逐一鉴别。

商品价格：味精是一种生活常用品，当时又是一种价格较高的调味品。初步推断价格会

对需求量产生影响。所以确定价格作为一个重要说明变量。

代用品价格：味精是•种独特的调味品，目前尚没有替代商品。所以不考虑代用品价格

这一因素。

消费者收入：明显消费者收入应当是一个较重要的说明变量。

偏好：由于因偏好不食味精或大最食用味精的情形很少见，所以每人用最只会在小范围

内波动，所以不把偏好作为重要说明变量，而归并入随机误差项。

分析结果，针对味精需求量只考虑两个重要说明变量，商品价格和消费者收入水平。

味精需求量=/（商品价格，收入水平）

2.选择恰当的变量［既要考虑代表性，也要考虑可能性）

用销售量代替需求量5因需求量不易度量，味精是自由销售商品，不存在囤积现象，所

以销售量口J较好地代表需求量。味精商品价格即销售价格。

用人均消费水平代替收入水平。因为①消费水平与味精销售量关系更亲密。②消费水平

数据在统计年鉴上便于查找（收入水平的资料不全）。

味精销售量二八销售价格，人均消费水平）

用平均价格作为销售价格的代表变量。不同地区和不同品牌的味精价格是不一样的，应

取平均价格（加权平均最好）。

取不变价格的人均消费水平:消费水平都是用当年价格计算的，应用物价指数进行修正。

味精销售量=/（平均销售价格，不变价格的消费水平）

3.收集样本数据（抽样调查,引用数据）

从中国统计年鉴和有关部门收集样本数据（1972-1982,7=ll）o定义销售量为M（吨），

平均销售价格为Er（元/公斤），不变价格的消费水平为x2r（元工相关系数表如下：

平均销售价格（幻,）不变价格的消费水平（x2,）

味精销售量g）-0.36710.9771

注：临界值n）,o5（9）=0.60o

6000060000

50000-50000-

4000040000

3000030000-

20000-20000-

10000-10000-

11.0

4,确定模型形式并估计参数

y,=-144680.9+6313.4x1；+690.4x2,(1)

(-3.92)(2.17)(15.32)R1=0.97,DW=1.8,Zo.os(8)=2.3

回来系数6313.4无显著性Gl与x2,应当是负相关，回来系数估计值却为正，可见该估计

值不行信）。剔除不显著变量xl”再次回来，

y,=-65373.6+642.4x2,(2)

(-10.32)(13.8)R2=0.95,DW=1.5,/o,O5⑼=2.26

问题：A=6313.4,为什么检验结果是伙=0?量纲的变更对回来结果会造成影响吗？

建模案例2：《用回来方法估计纯耕地面积》

（见《数理统计与管理》1986年第6期）

目前对土地的调查大多采纳航空摄影，从照片上把各类资源图斑转绘到1:10000的地形

图上，然后再从地形图上测绘图斑面积。

在处理如何获得实际耕地面积时，关键技术难题是如何将耕地图斑中包含的田展、土坎、

空隙地、宽度小于2米的路、沟、渠等面积从图斑中分别出来。因为它们在航空图片上的辨

别率很低，无法干脆勾绘，测算。

设一个毛耕地图斑面积用S表示，其中不能耕种的面枳（扣除面积）用/S表示，则扣

除系数，

yi=AS/S=（扣除面积）/（毛耕地图斑面积）。

对于每一个图斑，知道精确的扣除系数.就很简洁依据毛耕地图斑面积S计算出纯耕

地面积。现在用回来分析方法，找寻影响扣除系数变更的主要因素，从而建立关于“扣除系

数”的回来模型。

该论文探讨的是湖南地区的耕地面积调查。湖南省属丘陵山区，地形困难，各种地类犬

牙交织，影响扣除系数的因素许多。如田及宽度、地块大小、地块坡度、空隙地、地貌类型

等。通过实际调查和分析，初步确定三个主要因素，即

“坡度”、“地块面积”和“田境宽度”

论文作者在五个县共调杳了867个样本点，其中水田样本522个，旱田样本345个。详

细做法是首先把867个样本数据按“坡度”分成25个等级，然后再把属于同一个等级的样

本数据用加权平均的方法求出另两个因素的观测值，“平均地块面枳”和“平均田填宽度”。

整理样本数据如下：

，（序号）y,•（扣除系数）X”（坡度）4（平均地块面积）加（平均田及宽度）

14.235601.93000.6318

24.883811.49180.7312

37.830021.12530.9731

2539.4151241.06004.0721

拟建摸型为，

yi=+X\j+plX2i+&X3i+Ui

利用样本得估计的回来方程

y,=1.672+1.145x1/+0.608必+2.081处

（7.3）（0.4）（1.85）F=221.62

（F.o5（3.2i）=3.07,Foi（3,2i）=4.87,Z.o5（2i）=2.08.<oi（2i）=2.84）

统计检验结果表明M•，刈为非重要说明变量。剔除之，用V对刈再次回来得，

y,=3.34+1.35xu

实际的验证结果表明，用只考虑“地块坡度”计算出来的扣除系数估计“纯耕地面积”

完全能满意精度要求，从而为削减野外作业强度（不必再测量“地块面积”和“田域宽度”）,

快速完成测算，供应了科学依据。+四必+侬〃+…+4Ng确定的〃维空间平面。

当给定一个样本(为刈，即2,…，X”/),t=1,2,…，7时，上述模型表示为

-yi=R+0ixii+的ci2+...+人-g&-1+〃1,经济意义:叼是力的重要说明变量。

yi=优+四Ml+A'22+...+"1X2A-I+"2,代数意义：与即j存在线性关系。

|.......几何意义：％表示一个多维平面。

Iyr=+P\xT।+pixT2+...+Pk-\xrk-\+Mr,(1.2)

此时乃与■己知，厅与的未知。

/\T孙…X|j…匹卜［、/、

y1fA]

>'21A-21…x2J…x2IB\“2

=(13)

・・・••••・・•・・••・•••+

kA-i；

k-Vr>xxX；ll

(Txl)JTl…7j…Tk-\(Tx幻(hl)\T)(Txl)

丫二牙/+〃，(1.4)

为保证得到最优估计量，回来模型(1.4)应满意如下假定条件。

假定⑴随机误差项“,是非自相关的，每一误差项都满意均值为零，方差/相同且

为有限值，即

3(1。0、

E(〃)=0=：LVar(w)=E(w«')=<J2I=/°,°

[(JI。。D

假定⑵说明变量与误差项相互独立.，即

E(X*1/)=0.

假定⑶说明变量之间线性无关。

rk(X'X)=rk(X)=k.

其中rk()表示矩阵的秩。

假定⑷说明变量是非随机的，且当7-8时

T'XX-Q.

其中。是一个有限值的非退化矩阵。

最小二乘(OLS)法的原理是求残差(误差项的估计值)平方和最小。代数上是求极值

问题。

mins=(y_x/)'(y_x/)=y'y-6'x'y-Y'xp+p'x'xp

=Y,Y-2fi'X'Y+p'X'Xp.(1.5)

因为rxb是一个标量，所以有rx/=B'XY(1.5I的一阶条件为：

—=-2XT+2X'X夕=0(1.6)

化简得

XY=XxB

因为(X'X)是一个非退化矩阵(见假定⑶)，所以有

B=(X'XVXY(1.7)

因为(1.5)的二阶条件

-4X=2X'X>0(1.8)

斗即

得到满意，所以(1.7)是(1.5)的解°

因为牙的元素是非随机的，(牙，*)/*是个常数矩阵，则/是V的线性组合，为线性

估计量。

求出6,估计的回来模型写为

Y=Xp+u(1.9)

其中£=(瓦A...瓦T),是6的估计值列向量，G=(y-x/)称为残差列向量。因为

ii=Y-Xfi=Y-X(X'X)AXY=II-X(X'X)-1X'\Y(1.10)

所以o也是丫的线性组合，6的期望和方差是

E(6)=E[(XX'1X'Y]=E[(X'XylX\xp+«)]

二夕+(XX)“HE(〃)="(1.11)

Var(3)=E[(^-p)(p-〃]=E[(X'X尸X'uu'X{X'X)1]

=E[(X,XyxX'a2lX(X'X)-']=a2(X,Xyl.(1.12)

高斯一马尔可夫定理：若前述假定条件成立，OLS估计量是最佳线性无偏估计量，6具

有无偏性。6具有最小方差特性。6具有一样性，渐近无偏性和渐近有效性。

2.残差的方差

52=u'u/(T-k)(1.13)

N是。2的无偏估计量，6的估计的方差协方差矩阵是

E(52)=O.2O

4(6)=Q(X'X)"(1.14)

3.多重确定系数(多重可决系数)

y=x/+w=y+u(1.15)

总平方和

SST=TJX-y)2=Y'Y-Ty\(1.16)

其中》是M的样本平均数，定义为(2:[乂)/7。回来平方和为

SSR=一月2=Y'Y-Ty2(1.17)

其中》的定义同上。残差平方和为

SSE=2匚（--力）2==G'G(1.18)

则有如下关系存在，

SST=SSR+SSE(1.19)

R2=SSRY'Y-Ty2

(1.20)

"'SST=Y7-ly2

明显有0«尺2VLR2.I,拟合优度越好。

4.调整的多重确定系数

当说明变量的个数增加时，通常R?不下降，而是上升。为调整因自由度减小带来的损

失，又定义调整的多重确定系数后如下：

(1.21)

SST/(T-1)T-kSSTT-k

5.OLS估计量的分布

若〃〜N（0,。2/）,则每个出都听从正态分布。于是有

Y~N〈XB、o］、（1.22）

因6也是〃的线性组合（见公式1.7）,依据（1.11）和（1.12）有

B~N（仇W（X、XY'）（1.23）

6.方差分析与尸检验

与ssr相对应，自由度T-\也被分解为两部分，

（T1）=伏一1）+（71女）（1.24）

回来均方定义为MSN=—,误差均方定义为MSE二里

k-1T-k

表1.1方差分析表

方差来源平方和自由度均方

回来A.k-1MSR=SSR/(k-1)

SSR=Y'Y-Ty2

误差SSE=it'uT-kMSE=SSE/(T-k)

总和SST=Y'Y-Ty27-1

H（）:仇=仇=…=仇八=。；Hi：力不全为零

MSR_SSR/(k-l)„

(1.25)

MSESSE/(T-k)

。

设检验水平为a,则检验规则是，若F<Fa（k-\j-kp接受Ho：若F>Fag.T拒绝H°。

Fa(k-\.T-k)/<4T-k)0/«T-k>

“检验示意图/检验示意图

7.1检验

Ho：耳=0,(/=1,2,…，hl),Hi：H±0

t=/河6)川=瓦/J$2(X、)T=〜.

tTk}(1.26)

判别规则：若I/IKta(T-k)接受Ho：若I/I>Za(T-k)拒绝Ho。

8.用的置信区间

(1)全部力的联合置信区间接受

尸二；(夕-夕)'(X'X)(夕-A)//~Fau(1.27)

(66)，(XN)(夕-6)«$2女入伙,号)，它是一个k维椭球。(1.28)

(2)单个月的置信区间

A=瓦土"j+1Sto12gl.(1.29)

9.预料

(1)点预料

C=(1xy+lIAT+l2...XT+1A--I)(1.30)

则T+1期被说明变量"*的点预料式是，

即+[=C'/=6o+6IX丁+11+…+BA-IXr+|k-\(1.31)

(2)E(K+I)的置信区间预料

首先求点预料式。方的抽样分布

E(务+i)=E(C/)=C£(132)

Var(yr+1)=Var(C/?)=E[(Cfl-C/3)(Cfl-C/3)']

二E[C(6-m[C(64)]']=CE[(6/)(//)"C'

=CVar(/?)C'=Co2(X'X)-,C,=o2C(X,X)-,C\(1.33)

因为力听从多元正态分布，所以也是一个多元正态分布变量，即

即+1=CB〜N0(rC(XX)'C

(1.34)

构成/分布统计量如下

L_cp-cp

I--I=------1=〜t(T-k)(1.35)

s，C(X，X)-'CWc(XX)Tc

置信区间cp±is(I.T*、sJC(HX『C(1.36)

(3)单个的置信区间预料

yr+i值与点预料值孙川有以下关系

)'T+\=5'r+i+〃7+i(1.37)

其中〃7+1是随机误差项。因为

E(yy+1)=E(方+]+Wr+I)=Cfi(1.38)

2A2

Var(yr+i)=Var(yr+1)+Var(z/r+i)=aC(X'X)C'+a

=(y2(C(X'Xy}C'+1)(1.39)

因为方听从多元正态分布，所以)7+1也是一个多元正态分布变量，即

yni~N(CR<rC(XrX)*'C'+1)

与上相仿，单个yr+i的置信区间是

CP±taJ2(T.k)SylC(X'X)-lC'+\(1.40)

计算举例：(见《计量经济分析》第19-27页，熟识矩阵运算)

10.预料的评价指标

留意，以下6个公式中的6表示的是预料误差，不是残差。可以在样本内、外预料。

(3)预料误差。预料误差定义为

et=yt-yt,t=T+\,T+2,...

(4)相对误差PE(PercentageError)o

PE=>",t=T+\,T+2,...

(3)误差均方根nnserror(RooiMeanSquaredError)

miserror=

(4)确定误差平均MAE(MeanAbsoluteError)

MAE回

=J11z=1fl

(5)相对误差确定值平均MAPE(MeanAbsolutePercentageError)

(6)Theil系数(TheilCoefficent)

;=1,2,T

以上6个式子中，力表示预料值，州表示实际值。77%〃的取值范围是［0,1］。明显在预

料区间内，当月与V完全相等时，Theil=0；当预料结果最差时，Theil=lo公式中的累加

范围是用1至7表示的，当然也可以用于样本外预料评为。

11.建模过程中应留意的问题

(1)探讨

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

多元线性回归与最小二乘估计

文档简介

温馨提示

最新文档

评论

多元线性回归与最小二乘估计

文档简介

温馨提示

最新文档

评论

相关文档