第二章 回归分析的基本思想.doc_第1页
第二章 回归分析的基本思想.doc_第2页
第二章 回归分析的基本思想.doc_第3页
第二章 回归分析的基本思想.doc_第4页
第二章 回归分析的基本思想.doc_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章 回归分析的基本思想第一节 回归分析的含义回归分析的基本思想根据经济理论建立计量经济学模型时,计量经济学家会大量地用到回归分析(Regression Analysis)技术,这一节我们将根据最简单的线性回归模型-双变量模型介绍回归分析的基本思想。回归分析的含义回归分析是研究一个变量与另一个(或一些)变量依赖关系的计算方法和理论。其中,前一个变量称为被解释变量(Explained Variable)或因变量(Dependent Variable),后一个变量称为解释变量(Explanatory Variable)或自变量(Independent Variable)。在本书中,为统一符号,统一用y表示因变量,x代表自变量,如果有多个自变量,则用适当的下标表示各个不同的自变量,如有n个自变量,则用x1,x2,xn表示。例如,我们可能对某种商品的需求量与该商品的价格、消费者的收入以及其他竞争性商品的价格之间的关系感兴趣;可能对失业率变动与产出增长之间的关系感兴趣;可能对股票价格指数与利率、GDP增长率等因素之间的关系感兴趣;可能对职工工资与受教育年限之间的关系感兴趣;也可能对购买书报支出金额与收入之间的关系感兴趣。在这些例子中,有的有理论基础,如需求定理就提供了这样的一个理论基础,即某种产品的需求量依赖于该产品的价格、消费者的收入以及竞争性产品的价格等因素;而奥肯定律则表明失业率的降低依赖于实际产出的增长。一、回归分析与因果关系要特别注意的是,变量之间的因果关系是回归分析的前提,在被解释变量与解释变量之间存在因果关系的基础上,才能进行回归分析,否则,回归分析没有任何意义。例如,某段时间内,河水与股市都上涨,显然,如果进行回归分析,则也能建立起回归模型,但得到的结果没有什么意义,因为,河水的上涨与股市的上涨之间并没有什么依赖关系。二、回归分析与相关分析相关分析是讨论变量之间相关程度的一种统计分析方法。相关有线性相关,也有非线性相关。变量间的线性相关程度可以用相关系数来衡量。相关分析和回归分析既有联系又有区别。首先,二者都可以研究非确定性变量间的统计相关关系。其次,二者之间也有明显的区别,相关关系仅仅考虑两个变量在统计上的相关程度,不考虑变量之间的依赖关系或因果关系,因此,在相关分析中,两个变量的地位是对称的,并且都是随机性变量。而在回归分析中,考虑的是被解释变量对解释变量的依赖关系,因此,在回归分析中,变量的地位是不对称的,而且解释变量往往被假设为非随机变量。最后,相关关系仅考虑变量间的联系程度,而不考虑变量间的依赖关系,而回归分析则更关注变量间的具体依赖关系,通过回归分析,可以估计和预测被解释变量随着解释变量变化而变化的大小及方向,以便深入了解变量间的依存关系。第二节 总体回归函数与样本回归函数总体回归函数与样本回归函数一、总体回归函数我们通过一个具体的例子来说明回归分析。例2.2.1 在我国,随着居民收入水平的提高,人们对精神生活的质量要求也在提高,直接反映在居民对书籍、报纸、杂志等的购买量在增加。假设想要知道在各个收入水平上,人们每周花多少钱买书报(包括书籍、报纸和杂志等)。令y表示每周购买书报支出,x代表每周个人可支配收入,单位都是元。现假设有总体100人参与购买书报,根据每周个人可支配收入水平分为10类,从50元开始,每50元为一档,最高档为500元。如表2-1所示:在100人的假设总体中,有4人的每周可支配收入为50元,这4人每周购买书报的支出在4元到26元之间,平均每周购买书报支出16元。类似地,有15个人每周可支配收入为300元,他们每周购买书报的支出在18元到100元之间,这一组的平均购买书报支出是42元。表中其他数据可作类似解释。由于不确定性因素的影响,对同一可支配收入水平,不同个人的书报支出并不相同,但由于表2-1表示的是总体,给定可支配收入水平x,书报支出y的分布是确定的,即y的条件分布(Conditional Distribution)是已知的,如p(y = 16/x = 200) = 1/13。因此,可以得到给定可支配收入水平x 下每个个体书报支出y的条件概率(Conditional Probability)。给定可支配收入水平x值,可以得到书报支出y的条件期望值(Conditional Expectation)或条件均值(Conditional Mean),例如E(y/x = 250) = 36。表2-1最下面一行列出的就是每一可支配收入水平下该组个体的书报支出条件期望值。根据表2-1的数据绘制散点图(Scatter Diagram),得到图2-1。横轴为每周个人可支配收入x,纵轴为每周购买书报支出y。从该散点图可以看出,虽然对应于不同可支配收入水平的个体书报支出金额差异很大,从4元到150元,但直观的印象是随着可支配收入增加,平均每周书报支出也在增加。进一步可以看到表2-1中的y的条件期望值刚好落在图2-1的近似直线上,这条近似直线一般可以称为总体回归线(Population Regression Line,PRL),即在给定自变量的条件下因变量的期望轨迹称为总体回归线,或可以更一般地称为总体回归曲线(Population Regression Curve)。可以用函数来表示E(y/xi) = f(xi)(2.2.1)函数(2.2.1)称为总体回归函数(Population Regression Function,PRF)或总体回归方程(Population Regression Equation,PRE)。总体回归函数(2.2.1)表明E(y/xi) 是x的函数,这意味着y依赖于x,更专业地应称为y对x的回归。至于f(xi) 具体的形式,应该基于函数所描述的总体的固有特征来确定,但事实上,总体往往不可能得到,得到的只是总体的部分样本,因此选择具体的函数形式就是经验的问题。这时,可以依据一些现有的经济理论来确定模型,如Keynesian的绝对收入假说消费函数模型认为消费由收入唯一决定,消费与收入之间存在稳定的函数关系,因此可以用线性函数形式表示;还有Modigliani、Brumberg 和Ando1954年提出的生命周期假说消费函数模型认为消费者现期消费不仅与现期收入有关,而且与消费者以后各期收入的期望值、开始时的资产数量和年龄有关,这种关系也可以表示成线性函数形式;著名的Cobb-Douglas生产函数常以幂函数的形式出现,可以通过对数线性化;不变替代弹性(CES)生产函数模型则比较复杂,不容易线性化。从图2-1可以看到,E(y/xi) 近似在一条直线上,如果用线性函数来表示每周书报平均支出与可支配收入之间的关系,则可以将式(2.2.1)进一步表示为:E(y/xi) = 0 + 1xi(2.2.2)这时式(2.2.2)也称为线性总体回归函数(Linear Population Regression Function,LPRF)。其中,0、1是未知参数,称为回归系数(Regression Parameter)。0称为截距(Intercept),1称为斜率(Slope)。斜率系数度量了可支配收入x每变动1元,y的条件均值的变化。例如,1 = 0.04意味着可支配收入每增加1元,则平均购买书报支出增加0.04元。0是当x为0时y的条件均值,有时并没有什么意义,在随后的章节中还会进一步解释截距的含义。由于线性回归模型最简单,也最容易估计,回归参数也有比较直观的含义,很多非线性函数模型经过适当的变换也可以转化为线性函数形式,因此,下面几章我们都是研究经典的线性回归模型。二、总体回归函数的随机设定形式总体回归函数给出了当自变量x取每个值时对应的因变量的平均值。例如,当自变量x为150元时,y的均值为28元。但是如果从可支配收入等于150元的11个个体中随机抽取1个,则他的书报支出并不一定等于28元。例如,从这一组中抽取第1个人,他的书报支出等于27元,低于平均值。同样地,从这一组中抽取第5个人,他的书报支出等于31元,高于平均值。那么,如何描述个体的书报支出与可支配收入的关系呢?从图2-1可以看到,个体的书报支出值yi聚集在给定可支配收入xi下所有个体的平均书报支出值E(y/xi) 的周围,因此,可以将个人的书报支出看作是平均书报支出值E(y/xi) 再加上或减去某个值,用数学公式可以表示为:yi = E(y/xi) + i(2.2.3)其中,i表示随机误差项(Stochastic Error)或随机干扰项(Stochastic Disturbance),简称为随机项(Stochastic Item),它是一个不可观测的随机变量。式(2.2.3)也可以表示为:i = yi - E(y/xi)(2.2.4)即i是观察值yi与条件期望值 E(y/xi) 的离差(Deviations)。从式(2.2.3)可以看出,在某个可支配收入水平xi上,第i个人的书报支出等于两部分:一是系统部分(Systematic)或确定部分(Deterministic),即该可支配收入水平xi上的平均书报支出 E(y/xi);另一部分是非系统部分(Nonsystematic)或随机部分(Stochastic),即随机项i。在线性假设(2.2.2)下,式(2.2.3)可以表示为:yi = 0 + 1xi + i(2.2.5)式(2.2.3)和式(2.2.5)称为总体回归函数的随机设定形式,或称为总体回归模型(Pop-ulation Regression Model)。三、随机项的性质在总体回归模型中引入随机项,它有哪些性质呢?引入随机项的原因是什么呢?从上面对随机项定义的介绍可以看出,随机项表示观察值yi和条件期望值E(y/xi) 的离差。那么这个离差是由哪些原因造成的呢?(1) 随机项代表了一些未知的影响因素。由于对总体认识的非完备性,可能还有许多的未知因素没有被纳入模型中,因此用随机项代替这些未知的影响因素。(2) 代表一些不重要的影响因素。奥卡姆剃刀原则认为,只要不遗漏重要信息,描述应尽可能简单。在构建计量经济模型过程中,只要不遗漏重要解释变量,模型也应尽可能简单。因此,即使已经知道了一些其他的影响因素,但如果这些因素并不重要,或者与我们的研究目的无关,这时我们就可将这些不重要的因素都用随机项代替,以简化模型。例如,在例2.2.1中,影响书报支出的因素除了可支配收入外,还有居住区域、以前购买书报的支出以及攀比心理等因素。(3) 代表内在的随机性。即使模型中已经包括了所有影响被解释变量的因素,其内在的随机性也不可避免,因为人类行为并不是完全可预测的或是完全理性的,因此,随机项反映了人类行为的内在随机性。(4) 代表残缺数据。在做模型时,有些变量的数据不可能取得,例如,在书报支出例子中,个人购买书报支出可能还受到个人财富拥有量的影响,但实际上个人财富拥有量的数据往往无法获得,这时,模型中不得不省略这一变量。(5) 代表数据测量误差。由于主客观的原因,在取得经济数据时,往往存在测量误差,如四舍五入的影响、一些黑市的影响、地下经济的影响等,这时,这些数据的测量误差往往并入到随机项中。(6) 代表模型设定错误。就像我们上面所说的,总体往往不可能得到,得到的只是总体的部分样本,因此,选择具体的函数形式就是经验的问题。所以,设定的模型可能和真实的模型存在差异,譬如本来总体是二次方函数关系,但设定成线性函数关系,这时随机项就包含了这种模型设定误差。四、样本回归函数由于总体的信息通常是无法获得的,所以总体回归函数实际上是未知的。在现实中,人们通过抽样,获得总体的某个样本,然后根据样本的信息估计总体回归函数的特征。假设现在有从总体中随机抽取的一组样本(见表2-2),这组样本是从总体中每一收入组随机抽取1个得到的。根据表2-2的数据作图,可以得到散点分布图2-2。从图2-2可以看到,有条直线较好地拟合样本1的散点,这条直线称为样本回归直线(Sample Regression Line,SRL)。样本回归直线可以用样本回归函数(Sample Regression Function,SRF)表示如下:i = 0 + 1xi(2.2.6)由于样本回归线是总体回归线的估计,因此,i是E(y/xi) 的估计量,而0是0的估计量,1是1的估计量。其中读作帽。在这里,有两个概念需要区分清楚,即估计量和估计值,估计量是总体参数或总体均值的估计公式,而估计值是估计量取某个具体值时的取值。从图2-2可以看到,并非所有的散点都在样本回归直线上,因此,与总体回归函数的随机设定形式相类似,也可以建立样本回归函数的随机设定形式或样本回归模型(Sample Regres-sion Model,SRM)。yi = i + i(2.2.7)式(2.2.7)将yi的实际值表示成i与样本残差i的和,有的教科书也用ei表示样本残差。所以,样本残差是yi的实际值与i的差。将样本回归函数式(2.2.6)代入式(2.2.7)有:yi = 0 + 1xi + i(2.2.8)式(2.2.8)就是样本回归函数的随机设定形式,或称为样本回归模型。回归分析的基本思想是根据样本回归函数yi = 0 + 1xi + i估计总体回归函数yi = 0 + 1xi + i但由于总体事实上是未知的,即0、1及未知,所以,回归分析就依赖于随机抽取的样本,抽取的样本不同,样本回归函数就不同,总体回归函数的估计式也就不同。例如,假设从总体表2-1中随机抽取样本2,得到表2-3,表2-3是从每一可支配收入组中只随机抽取一个样本得到的。为了说明随机抽样的不同,导致总体回归函数估计式的不同,我们将样本1和样本2的散点表示在一个图中,见图2-3。从图2-3可以看到,通过样本1和样本2散点的两条直线都很好地拟合了样本数据,都是样本回归直线,我们不妨称之为样本回归线1和样本回归线2,但哪条样本回归直线较好地代表了真实的总体回归直线呢?由于总体事实上是未知的,因此,无法确定哪条样本回归直线较好地代表了总体回归直线。类似地,我们还可以随机抽取第3个、第4个样本,抽样不同,得到的样本回归直线也不同,因此,根据抽样得到的样本回归直线只是总体回归直线的近似,我们的目的就是根据抽样样本,找到一种方法,使得建立的样本回归直线尽可能地接近真实值。换句话说,由于总体事实上是未知的,该怎样建立样本回归直线,使得0、1、i尽可能接近0、1和i呢?在下一章中将会看到,我们的确可以找到一种方法,使样本回归直线SRL尽可能真实地反映PFL。图2-4给出了总体回归函数和样本回归函数的基本关系。第三节 线性回归模型的“线性”含义线性回归模型的线性含义关于线性回归模型的线性含义,有两重理解,一是可以理解为因变量是自变量的线性函数;二是可以理解为因变量是回归参数的线性函数。一、变量线性对线性回归函数最常见的理解就是因变量是自变量的线性函数,如总体回归函数、总体回归模型、样本回归函数以及样本回归模型表达式(2.2.2)、式(2.2.5)、式(2.2.6)和式(2.2.8),即解释变量是一次方的。而形如式(2.3.1)、式(2.3.2),则不是线性函数:E(y/xi) = 0 + 1(2.3.1)E(y/xi) = 0 + 1x2(2.3.2)显然,当因变量是自变量的线性函数时,自变量单位变动引起的因变量的变化率是一常数,换句话说,斜率保持不变;而对于式(2.3.1)和式(2.3.2),自变量xi单位变动带来的因变量变化率是不断变化的,即斜率不再是一常数,如式(2.3.1)中自变

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论