一元线性回归_第1页
一元线性回归_第2页
一元线性回归_第3页
一元线性回归_第4页
一元线性回归_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一元线性回归

在对经济现象进行经济计量分析时,我们需要大量使用回归分析技术。因此,

我们首先需要了解回归分析的基本思想。这里,我们从一元线性回归模型开始。

1.回归的含义

考虑一个假想的例子。假设有loo人参与博彩(总体),设y表示每周博彩

支出,x表示每周的个人可支配收入。问题是,对于不同的收入水平,人们每周

花多少钱购买彩票。表1显示了x和y的数据。

表1每周博彩支已和每周个人可支配收入

个人可支配收入每周博彩支出

消费者150175200225250275300325350375

128333536384042434546

227313134363739353940

325293031333234313334

433272829303031303031

523242627282930292728

615202226252729333032

718182023232526322830

812151721222224303231

913141618201825313233

1015101916183223253431

均值20.922.124.426.127.329.230.331.93333.6

表1的最后一行给出了每个收入水平下的平均博彩支出,即反丫上)。根据

表1中的数据做丫对x的散点图,如图1

50

45

40

)35

双30

蕊25

奕20

字15

10

5

125150175200225250275300325350375400

每周个人可支配收入(美元)

图1每周博彩支出和每周个人可支配收入

散点图表明y随着x的增加而增加,即收入越高,彩票支出可能越多,特

别地,就每个收入水平下的丫值而言(图中的圆圈点),这种趋势更加明显.把

y的条件均值连接起来得到的直线称为总体回归线,其中,x称为解释变量或自

变量,丫称为被解释变量或应变量。这里,总体回归线给出了每个收入水平下,

平均博彩支出水平。更一般地,总体回归线描述了与解释变量(自变量)相狭系

的被解释变量平均水平的变化轨迹。

图1中的总体回归线近似线性,可以表示为

刈丫£)=片+力修,(1)

这个表达式说明随着x值的变化,相应的丫关于x的条件均值也会变化,而且

是线性变化。这个表示总体回归线的数学表达式称为总体回归函数。这里,总体

回归函数是线性的。

在(1)式中,自和⑸称为参数或回归系数。分是截距,表示x为。时,Y

的平均水平,即4=E(y|x=o)。特别地,在很多实际问题中,截距可能并没

有任何经济意义。不是斜率,表示了x每变动一单位,y的均值的变化率。

(1)式不能解释图1中的任意义个个体匕为此,我们在(1)式的基础上

加上或减去某个值,表示为

工=&+仅阳+〃,⑦)

二E(y|x)+%

其中,如表示随机误差项,简称误差项。它是一个随机变量,其值无法先验确定,

通常用概率分布描述随机变量。(2)式说明随机误差项反映了y的实际值与条件

均值之间的偏差,这个偏差可正可负,且是未知的。误差项的具体性质见教材

6.4节。

例1•下表给出了每周家庭的消费支出丫(美元)与每周家庭的收入x(美元)的数据。

XY石(丫阳)

80556065707565

10065707480858877

120798490949889

140809395103108113115101

160102107110116118125113

180110115120130135140125

200120136140144145137

220135137140152157160162149

240137145155165175189161

260150152175178180185191173

(a)表中的最后一列给出了每个收入水平下的(算术)平均消费支出,即E(y|XJ。

(b)以收入为横轴,消费支出为纵轴,得到下面的散点图。其中实心点表示个别

家庭的观测点,空心点表示每个收入水平下的平均消费支出,即E(y|xj。从散

点图可以看出,随着收入水平的提高,平均消费支出上升,具体地,x和y的均

值之间存在线性递增的关系。

1o

19o

17o

15o

晶13o

案1

磔11o

9O

70

50

50100150200250300

每周收入

(c)总体回归模型可以表示为¥=鱼+0\Xj+叫=E(y|xj+4。

2.样本回归函数

在实际中,我们很少能拥有整个总体数据。通常,我们仅有来自总体的一个

样本。问题是如何根据样本提供的信息来估计总体回归函数。通过样本数据的散

点,可以清晰地得到很好地“拟合”了样本数据的直线,称之为样本回归线。相

应的数学表达式称为样本回归函数,表示为

E=A+濯(3)

其中,P是总体条件均值凤y|Xj)的估计量,A是用的估计量,6是4的估计

量。特别地,每个样本回归线都代表了总体回归线,而由于样本是随机选择的,

样本回归线会随着样本的变化而变化。

与总体回归模型类似,样本中的每个个体可以表示为

匕=A+RXj+冷g+&

其中凡是的的估计量,称为残差项,简称残差。

回归分析的主要目的是根据样本回归模型(4)估计总体回归模型(2)。

3.综合1

考虑前面的博彩支出一例。假设总体不能观测,只有下面一个样本容量为10

的样本。

表2来自表1的随机样本

1824262331273435334532

150175200225250275300325350375200

对上述样本数据建立EViews工作文件,先来看一下Y对X的散点图,

[0।------1----1------1-------1-----

100150200250300350400

从图1来看,随着X的增加,Y有明显的线性上升趋势。假设X和Y之间存在

如同(2)式的回归关系,即工=凤+A昌+4利用这里的样本数据估计它们之

间的这种回归关系,最好的方法是OLS:即找到模型中未知参数的估计,使得

回归的残差平方和最小。

在EViews中,点EtObjects/NewObject/Equation或者Qu沁k/EslinialeEquation

功能后,将会看到如图2对话框。在其中的EquationSpecification输入要估计的

方程,如YcX表示Y对X的线性回归,含有常数项。在EstimationSettings

中可以选择估计方法,默认为LS(即最小二乘法),还可以设定估计样本的范围。

EquationSpecification

EquationSpec^cabon

图2

点击OK键后,EViews生成方程对象,显示如图3的输出结果。

□Equation:OTTTIT1.EDVorkfile:tTlTinED

CependentvanatteY

MethodLeastSquares

C3te1(X17/10Tme2255

SampleI10

►eludedobservations10

VanabteCoefficientStdErrort-StatistcProO

C54161824038203134H3102165

X0092121001483B620K7200003

『squared0828115Meandependentvar29.60000

AdjustedR-squared0806629SDdependentvar7662318

SE(/regression3.369426Akaikeinfoertenon5444218

SunsquaredresidSO82424Schwarzenterion55M735

Laglikeiriood-2522109F-statistic38.54264

Curbn-Watsonstat2756664Pfob(F-statrsbc)0000257

图3

在这个方程对•象中可以看到,被解释变量为Y,估计方法是最小二乘法,样本为

110,包含10个观测值。估计方程表示如下:

]<=5.4182+0.092IX,.

se(4.038)(0.0145)

t(1.342)(6.208)

R2=0.8281,SER=3.369

估计结果表明:

(1)估计方法:OLS的基本思想是找到模型中未知参数的估计,使得回归的残

差平方和最小。具体表示如下

2

minZ^二minZ(Z—R)2=min^(^-/?0-^X,)

根据一阶条件,

aA=2Z(Y—A-&xj(-i)=o(5)

aZ心6B\=2Kd°-4xj(一必)=0(6)

整理有

»=嫉”>1(7)

(8)

由(7)知Bo=F-^,X,将这个表达式代入(8),得到

6(Zx;_立xj=gx出-也x『

B、=(%X片-江X,)/(Zx;-N£xJ

这里,分子为

ZXj-nXY=ZX』-nXY-nXY+nXY

=5>』一立工一》,+由

二Z(XJ;—又z—双,+NP)

=Z(Xj-y)(x-P)

类似地,分母为

(Zx:—又又)2

因此,自二Z(X,—N)(1P)/Z(X,一又)2

(2)回归系数的解释:当收入为0时,平均的博彩支出为5.4182美元,可以认

为它反映了模型中省略的其他变量对Y的平均影响;0.0921表示收入每增加(减

少)1美元,博彩支出平均增加(减少)约9美分。

(3)模型的解释能力:乃=().8281说明收入(解释变量)解释了博彩支出(被

解释变量)波动的82.81%;SER=3.369说明平均约有3.369美元的误差没有被

模型(或收入)解释。

其中,R2=ESS/TSS='.-SSR/TSS,是一个在[0,1]上取值的统计量,且无量纲。

SER=[SSR/(n—2)°这里,«=10,SSR=90.824

(4)OLS估计量氐和R的标准差的估计分别为se(A)=4.038,se(R)=0.0145。

(5)置信区间:在古典假设下,未知参数4的1-。的置信区间为«土a2se(R)。

类似可以表示出自的1-。的置信区间为A±%2se(A)。

这里,A的95%的置信区间为0.0921±2.306X0.0145。

(6)显著性检验。

假设随机误差项的方差未知,关于斜率系数4的显著性检验总结如下表3。

在这个例子中,对于双边假设Ho:A=0,Hi:/苫0

在零假设下,/=^/se(^)=0.0921/0.0145=6.21

p-值=().()()()(),在5%的显著水平下的临界值为2.306。

因为〃<0.()5,或||>%2=2.()36,所以我们在5%的水平下拒绝零假设。即在5%

的显著水平下,认为四统计显著地不等于0。

特别地,我们注意到,零假设值“0”不在用的95%的置信区间内,这也意味着

在5%的显著水平下,认为从统计显著地不等于0。换句话说,A的95%的置信

区间可以看成是在5%的显著水平下,不能拒绝双边冬假设的零假设值的取值范

围。

对于右侧假设Ho:仇=0,Hi:/7,>0,检验的p•值正好是前面双边检验p■值的

1/2,检验的临界值为1.860o仍然可以在5%的显著水平下拒绝零假设,认为四统

计显著地大于0。

表3单个参数的显著性检验

HoHi检验统计量p-值拒绝域(pva)

夕产能Pr{M>/}PI>%2

J、/

P、=伙、。P\>A.()se(«)Pr{/>f)t>ta

7(〃-2)

A<^i.oPr{r<f}1<Ta

另外,在EViews方程对象的输出结果中给出的其他信息包括被解释变量的

均值,标准差,对数似然值等。

(6)残差。在方程对象中,点击View/Actual,Fitted,Residual/Table可以得到图

4的输出结果。

)K«u«tioniUBTinnVorhfiUxIJWTITLCT

180CCO192364-123636

240003215期246061

260003238424215758

230000261455-314545

310000284485256152

I270000307515-375

34000033aM50

_±_涡0000%%m0

330000376606-4

m4500339笫365

W

图4

另外,还可以通过Procs/MakeResidualseries生成一个新的残差序列。特别

地,由(5)和(6)可以得出,0和ZXR=O。点击方程对象工具栏的

Resids,可以得到图5

Residual......Actual----------Fittod

图5

(7)预测。通过检验的回归模型,可以用来进行预测。点击方程对象工具栏的

Forecast,得到图6,同时在工作文件中产生一个新的序列YF。

tvMfedtfnvMrvt)

物丽3C«P»

2ms

M«r心VftOUB

>mm>i«r/CaAcwinc«n<r>

ODCOTO

vowePwcw09,6

Cocmx«rcDrxr02OB4

图6

(8)残差检验。古典假设随机误差项服从正态分布,需要对其进行检验。

-.7匕

Ry

£sti««tioriOotput

AZu«l,PNg<L"“42♦

>tlrax16

Ttiti

fttsidodT«stiCrr・lw-3m16

SdityUitiQrrUoas$autr«dRtsiduds

<r--Vor»auyT«it

31

$«raalCcrrelati^nUIT«»l...1二

皿32003

X

(Mcro*tttrat)

Tklt»ty(crottt«ra,)QQQ

R-squared

AdjustedR-squared0806629SDdepentfencvar7662318

SE.o(regression3389428Akaikeeocrterion5444218

Sumsquaredresid9082424Schwancrterion5504735

IMI^0ltwv4.?A90inQU.etMdc

得到如下结果

SvtosRwWuaB

Str^l10

Cbsr.aRE10

PA)an151E1S

,加0502SG839

F<*3»rMn50M3M

Mniwm

3.176725

9zn«乡0D61W3

Kirlw?15W5

J»QqOS秘44

Rebab”0.751885

A)直方图

B)JB-统计量。Ho:随机误差项服从正态分布。

JBS?+}(K-3)2~*;2)

4.综合2:古董钟与拍卖价格。

表4给出了32个钟表的拍卖信息数据,包括钟表的年代、投标人数和中标

价格。一般认为钟表的年代和投标人数对中标价格都有正向的影响。考虑一元线

性回归

Yi=0o+0iXj+%

1)数据的描述分析

2)OLS估计

3)写出回归结果

4)解释回归结果

5)检验模型

6)预测

以拍卖价格对钟表年代的最小二乘回归为例。回归结果表示为

DependentVariable:PRICE

Method:LeastSquares

Date:10/19/10Time:11:59

Sample:132

Includedobservations:32

VariableCoefficientStd.Errort-StatisticProb.

C-191.6662264.4393-0.7248020.4742

AGE10.485621.7937295.8457110.0000

R-squared0.532509Meandependentvar1328.094

AdjustedR-squared0.516926S.D.dependentvar393.6495

S.E.ofregression273.6003Ak

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论