高级计量分析第一讲.doc_第1页
高级计量分析第一讲.doc_第2页
高级计量分析第一讲.doc_第3页
高级计量分析第一讲.doc_第4页
高级计量分析第一讲.doc_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

在过去的50多年里,经济科学在经济研究的数学规范化和统计定量化的方向上已经取得非常显著的成绩。沿着这样的路线的科学分析,通常用来解释诸如经济增长、经济周期波动以及为各种目的来对经济资源重新配置那样的复杂经济现象。在经济生活中,存在着一种难以琢磨的相当系统的内部关系的混合,对此,人们能够发现或多或少是有规则的重复图景,以及历史上独特的事件和规律的瓦解。对于外行来说,在无法用实验支持的条件下,去寻求这些极为复杂的经济变化过程中的发展规律,可能被看作是有点异想天开。然而,经济学家对有关战略性的经济关系构造数学模型的企图,已至借助于时间序列的统计分析来定量地阐明它们,事实上已经被证实是成功的。经济研究的这条路线,也就是数理经济和计量经济学,已经在最近几十年里刻画了这一宗旨的发展。但也有一些人觉得经济学太数学化了。但在实际经济研究的过程中,大量事实证明,没有数学的帮助,即使有一个极度聪明的脑袋,非常好的直觉以及对经济深刻的观察,我们对很多经济问题的认识也不可能达到现在的水平。这如同在理论物理学的研究过程中,我们是无法想象不用一个公式就在脑袋瓜里用文字把相对论和量子力学构想出来。那么对经济学也是一样,一些理论,没有数学,根本就不可能直接用脑子想出来的。绝大多数人是不能用文字进行比较复杂的抽象思维,绝大多数人是不能用文字思考一个随机的世界的,绝大多数人是不能用文字思考稍微复杂一点的动态过程的,绝大多数人是想象不出来高于三维的世界是什么样子的。但是,这些东西都可以借助数学来思考。数学,是一个太有力量的工具,数学能让我们超越人脑天然的局限,用一种抽象和严密的方式,超越我们天然的直觉。当然,经济学现在发展的水平,我觉得也许就跟早期的天气预报差不多吧。我想,当人们最出开始用数学模型来预测天气的时候,对天气的预测水平也许还不如一个人看看天来得准。人们嘲笑天气预报不准已经不是一天两天了。但是数学和数理模型,最终还是超越人的经验和直觉,现在,即使是民用的气象预报,7天的预报已经可以达到相当的准确度了,而在这个世界上没有任何一个人,能够通过经验和直觉来预测准一个星期之后的天气。那些扬言经济学使用太多数学的人,最终会被证明是错误的。不要觉得不用数学你也能看透世界,这只是拒绝使用数学的人的一个借口而已。学会用数学思考,不仅是自然科学家必备的素质,也是一个社会科学家必备的素质。虽然,有时候用公式推出的东西只是第一万次的再重复亚当斯密几百年前就说过的事情,但是更多的时候公式会告诉你一些你从来不曾想到过的东西。第一讲 经典多元线性回归模型(the classical multiple linear regression model)回归模型研究一个变量与若干个变量之间的关系,其中线性回归模型研究它们之间的线性关系。不过,在有些情况下,我们能够通过函数变换将原变量之间的非线性关系转化为新变量之间的线性关系,然后利用线性回归模型进行分析。从这个角度讲,线性回归模型也能处理一部分非线性关系的情况,因此,线性回归模型在计量经济学中居于重要地位。线性回归模型形式的设定往往从经济理论出发或结合经济理论来考虑。不过,经济理论所描述的经济变量之间的关系式确定性的,而现实要复杂得多。与自然科学不同,经济活动一般不可能由观察者控制,因而各种经济数据本质上具有随机性,经济变量应作为随机变量对待。同时,经济理论是对经济现实的抽象和简化,计量经济模型所刻画的变量之间的关系也是简化、近似的关系,因为模型不可能把所有的因素、精确的关系都考虑到。所以,计量经济模型中就不可避免地存在随机扰动项。这样,经济变量之间的关系实质上是一种统计关系,而非经济理论上所描述的确定性的函数关系。回归模型就是刻画经济变量之间这种统计关系的。从本质上讲,回归模型是对变量的联合分布的一组约束,回归分析的基本任务就是利用统计数据检验这些约束是否成立,并估计出其中的参数。这些参数反映了经济变量之间回归关系的大小和方向,是计量经济学家在研究中最感兴趣的对象。1理解回归概念的三种视角“回归”这一概念是19世纪80年代由英国统计学家Francis Galton在研究父代身高与子代身高之间的关系时提出来的。他发现在同一族群中,子代的平均身高介于其父代的身高和族群的平均身高之间。具体而言,高个子父亲的儿子的身高有低于其父亲身高的趋势,而矮个子父亲的儿子的身高则有高于其父亲的趋势。也就是说,子代的身高有向族群平均身高“回归”的趋势。这就是统计学上“回归”的最初含义。如今,回归已经成为经济学定量研究方法中最基本、应用最广泛的一种数据分析技术。它既可以用于探索和检验自变量与因变量之间的因果关系,也可以基于自变量的取值变化来预测因变量的取值,还可以用于描述自变量和因变量之间的关系。在现实生活中,影响某一现象的因素往往是错综复杂的。由于经济研究不可能像自然科学研究那样采用实验的方式来进行,为了弄清楚和解释事物变化的真实原因和规律,就必须借助一些事后的数据处理方法来控制干扰因素。而回归的优点恰恰就在于它可以通过统计操作手段来对干扰因素加以控制,从而帮我们发现自变量和因变量之间的净关系。研究者在分析数据时,总是希望能准确地概括数据中的关键信息。但经济数据一般都很复杂,要完全理解和表达数据中的信息几乎是不可能的。所以我们常常计算均值和方差等方法达到简化数据的目的。与大多数统计方法一样,回归也是一种简化数据的技术。回归分析的目的是利用变量间的简单函数关系,利用自变量对因变量进行“预测”,使“预测值”尽可能地接近因变量的“观测值”。很显然,由于随机误差和其他原因,回归模型中的预测值不可能和观测值完全相同。因此,回归的特点就在于它把观测值分解成两部分-结构部分和随机部分,即:观测项=结构项+随机项观测项部分代表因变量的实际取值;结构项部分表示因变量和自变量之间的结构关系,表现为“预测值”;随机项部分表示观测中未被结构项解释的剩余部分。一般来说,随机项又包含三个部分:被忽略的结构因素、测量误差和随机干扰。首先,在经济学中,忽略一部分结构因素是不可避免的,因为我们不可能完全掌握和测量所有可能对因变量产生影响的因素。其次,测量误差是由数据测量、记录或报告过程中的不精确性导致的。最后,随机干扰的存在反映了人类行为或社会过程不可避免地受到不确定性因素的影响。那么,如何根据回归模型的构成形式理解回归模型的现实意义呢?在此,我们提出理解回归的三种视角:因果性:观测项=结构项+随机项预测性:观测项=预测项+误差项描述性:观测项=概况项+残差项这三种理解方式提供了定量分析的三种不同视角。第一种方式最接近于古典计量经济学的视角。在这里,研究者的目的在于确定一个模型并以此发现数据产生的机制,或者说发现“真实”的因果模型。这种方法试图找出最具有决定性的模型。但当前更多的方法论研究者认为,所谓的“真实”模型并不存在,好的模型只是相对于其他模型而言更实用、更有意义或者更接近事实。第二种方式更适合于工程学领域。它通常用于已知一组自变量和因变量之间的关系后,应用新的数据给出有用的预测回答。譬如,已知某种物质的强度与其在制造过程中的温度和压强相关。再假定我们通过系统地改变温度和压强后得到由该物质所组成的一个样本。此时,建立模型的一个目标就是找到何种温度和压强能够使该物质获得最大的强度。经济学家有时也会应用这种方法预测人类经济行为的发生。这一理解方法的特点是:我们只是通过经验规律来做预测,而对因果关系的机制不感兴趣或不在乎。第三种方式反映了当今计量经济学和统计学的主流观点。它希望在不曲解数据的情况下利用模型概况数据的基本特征。这里常用的一个原则被称作“奥卡姆剃刀定律”(Occams razor)或者“简约原则”。它被用来评判针对同一现象的不同解释之间的优劣程度。在统计模型中,这种原则的具体含义是:如果许多模型对所观察事实的解释程度相当,除非有其他证据支持某一模型,否则我们将倾向于选择最简单的模型。这种方法与第一种方法的不同之处在于,它并不关注模型是否“真实”,而关注其是否符合已被观察到的事实。总的说来,这三种视角并不相互排斥,而是需要我们在实际运用中根据具体的情况,尤其是研究设计和研究目的,来决定选取哪种视角最为合适。在经济研究中,我们倾向于第三种视角,即统计模型的主要目标在于用最简单的结构和尽可能少的参数来概括大量数据所包含的主要信息。此时,我们需要特别注意在精确性和简约性两者间加以权衡。2回归模型的表述2.1总体回归模型总体回归模型的一般形式为: (1)它刻画了与之间的客观真实的回归关系。如果假定其中的函数为线性函数,即 (2)就得到了多元线性回归模型 (3)注意:(1)与均为可观察的随机变量(在传统回归模型的介绍中,被认为是非随机的)。(2)被称为因变量、被解释变量、回归子、响应变量等。单方程模型中只有一个因变量。(3)被称为自变量、解释变量、回归元、刺激等。一般情况下,代表常数项,真正的解释变量只有个。(4)称为总体参数。它们是客观存在的,但永远是未知的,我们只能利用数据对其进行估计。(5)代表对的边际效应(,即在其它变量不变的情况下,平均而言变动1单位,相应变动单位。当时,表明与同向变动;当时,表明与反向变动。绝对值的大小反映了对的影响程度。(6)随机扰动项主要反映了这样一些因素省略变量、非线性近似、测量误差以及不可预测的随机影响。它所包含的内容及分布性质,将决定我们对计量模型分析和估计方法的选择。(7)随机扰动项的引入,使得理论模型变为实证模型,所有影响但未包含在模型系统部分的因素都包含在之中。当模型(3)反映了与之间的因果关系时,称之为结构模型(Structural model)。结构模型这一提法由Goldberger(1972)提出。2.2总体回归模型的样本形式虽然设定了总体回归模型的数学形式,但参数(parameter)是未知的,需要通过样本数据对总体回归模型(3)中的参数进行估计(estimation)。这就需要建立总体回归模型的样本形式。取样本容量(Sample size)为的样本,记为第个观测点(observation),.我们可以采用几种不同的形式表示总体回归模型的样本形式。(1)观测值形式, (4)(2)列向量形式第次观测根据向量内积运算(inner product) (5)所以, (6)(3)矩阵形式 (7) (8)为维列向量,为维矩阵,为维列向量,为维列向量。3经典线性回归模型的基本假定3.1线性性(Linearity)线性性是指被解释变量对参数而言是线性的。例如:对数线性模型(log-linear model)半对数模型(semi-log model)超越对数模型(translog model)均是线性模型。但也有一些模型是我们无法用变换化为线性模型,例如,所以,除了线性回归理论之外,我们还需要研究非线性回归的相关理论和方法。3.2满秩(full rank)满秩假定是指样本矩阵满列秩,.为什么需要这样的一个假定呢?因为这一假定可以保证参数估计值的唯一性,所以又称满秩假定为识别条件(identification condition)。例如,考虑如下的回归模型,我们要求满列秩,即。但若解释变量之间线性相关,不妨设,即有。代入原模型,得整理得这样,我们可以估计出和,但无法唯一确定出和。注意:如果解释变量是样本向量是线性无关,但近似相关,那么这种情况尽管没有违反假定,却可能导致在模型的估计和检验中出现严重错误,这一现象称为多重共线性(multi-collinearity).3.3外生性解释变量(exogeneity)解释变量的外生性是指扰动项关于解释变量的条件期望为零,即 (9)或 (10)当解释变量的外生性假设下,可推导如下的结论:(1)扰动项的无条件期望为零 (11)因为。在这里运用了迭代期望定律(law of iterated expectations),迭代期望定律是概率论中较为深刻的一个结论!(2)解释变量与扰动项正交如果两个随机变量和的交叉矩,就称和正交( is orthogonal to )。, (12)因为(根据迭代期望定律)(根据条件期望的线性)注意:条件期望的线性性质。思考一阶自回归模型AR(1):()是否满足解释变量的外生性假定呢?3.4球形扰动(spherical disturbance)在介绍球形扰动之前,我们先介绍一下随机向量的期望向量和方差-协方差矩阵的概念。设维随机向量,(1)的期望向量定义为:为一维列向量,其第分量为的期望。(2)的方差-协方差矩阵定义为:是一个阶对称矩阵。球形扰动假设: (13)由这一假设,可以得到如下结论:(1)的无条件方差-协方差矩阵因为根据方差分解公式(decomposition of variance), (14)(2)同方差(homoskedasticity) (15)(3)无自相关(non-autocorrelation), (16)3.5随机扰动服从条件正态分布(normality) (17)4多元线性回归模型的估计4.1总体参数的最小二乘估计(1)最小二乘估计原理总体回归模型假设的样本估计为,则总体回归的样本估计值为,在此基础上定义残差(residual)向量: (18)直观地看,残差的绝对值越小,拟合效果就越好,但是,对应于每个观测都有相应的残差,我们应当使这些残差从总体看最小。一种候选准则是,但此时目标函数为非线性函数,且包含绝对值符号,处理起来并不方便。一种候选准则是,但函数解析性质差,不便于分析。使用最为广泛的准则就是所谓的最小二乘准则,(2)的最小二乘推导因为,所以一阶条件,(最小二乘正规方程) (19)二阶条件,根据,知为正定矩阵,因此二阶条件满足。4.2最小二乘的几何解释(1)残差生成矩阵与投影矩阵最小二乘残差向量为称阶矩阵为残差生成矩阵(residual maker)。可以验证,(幂等)(如果对回归,将导致完全拟合,且残差为零)。称阶矩阵为投影矩阵(projection matrix)。可以验证,(幂等)残差生成矩阵与投影矩阵正交,即。(2)最小二乘与勾股定理最小二乘估计将划分成正交的两部分,投影+残差 (20)4.3的普通最小二乘估计量的统计特性(1)最小二乘估计量的有限样本特性无偏性 (21)证明:因为,所以,所以有效性 (22)证明: (23)证明:Gauss-Markov定理:在经典线性回归模型中,最小二乘估计量在线性无偏估计量族中具有最小的方差。证明:令是的另外一个线性无偏估计量,其中表示一个非随机维矩阵。由于是无偏估计量,则这意味着。注意到,我们有它是半正定的,所以Gauss-Markov定理成立。正态性 (24)由于在给定的条件下是的线性函数,所以在的假定下,服从正态分布,故有上述结论。注意:(1)在的线性无偏估计量中,最小二乘估计量的方差最小,或者说在的正态无偏估计量中,的方差最小。但是若仅考虑的所有无偏估计量,的方差未必最小。(2)可能存在非线性估计量优于或可能存在有偏一致估计量优于。4.4的普通最小二乘估计如果要对进行假设检验或构造置信区间,仅用的最小二乘估计量是不够的,还需要知道的方差或方差估计量。有前面的结论已知,由于未知,需要用样本数据对进行估计,这样才能得到的方差-协方差阵估计量。(1)的估计量在多元线性回归模型中,用残差来估计随机扰动项,相应地用来估计随机扰动项的方差: (25)式中为样本容量,为参数个数。分母代表自由度,即独立变量个数。由于这个变量需满足正规方程组,这就表明它们受到个条件的约束,因此自由度为。由此可见随机扰动项的标准差的估计量。(2)估计量的无偏性可以证明,是的无偏估计量: (26)证明(1)由于,再利用为对称幂等矩阵的特性,易知。(2)因为()所以。(3)(因为为矩阵,其中表示矩阵的迹)(因为)而所以即(3)估计量的分布 (27)证明:因为,而,为对称幂等矩阵,且,所以。这是因为设维随机向量,为阶对称幂等矩阵,且,则二次型。同时可知。这是因为服从分布的随机变量的方差为分布自由度的2倍,所以有,则有因此。(4)的标准差的估计的方差-协方差阵估计由于是的无偏估计量,又由于的条件方差-协方差阵为,所以将其估计量取为 (28)相应地,各个参数的条件方差估计量为,又因为,所以其估计量。的标准差估计量,5参数子集估计分块回归(partitioned regression)5.1问题的提出在多元线性回归中,有时感兴趣的只是其中一个或几个变量的系数,而非所有系数,此时并不一定需要求出所有系数估计值。另一个方面,尽管同时正确地估计所有参数在理论上是可行的,但有时由于存在严重的多重共线性使得实际上行不通,此时可先估计部分参数在估计余下的参数。上述问题的数学描述为:首先将维总体参数向量分为两个部分,表示的前个分量组成的维列向量,表示的后个分量组成的维列向量。假定我们只需要或先需要估计。然后将总体回归模型写成样本形式: (29)其中,为后个自变量的样本矩阵,为阶矩阵,为前个自变量的样本矩阵,为阶矩阵。5.2估计步骤Frisch-Waugh定理指出,为了得到参数子集的估计量,按照以下步骤操作:(1)将对回归,得到残差向量;(2)将的每一列分别对回归,所得残差向量组成矩阵,共列;(3)将对回归,得到参数向量,即为的普通最小二乘估计;(4)以为被解释变量,对进行回归,就得到参数的普通最小二乘估计值。5.3Frisch-Waugh定理的证明原始模型为 (30)(1)首先推导的估计量的表达式由得,所以参数估计量为,其中,假定上式中的逆矩阵存在。因此有, (因为为对称幂等阵),其中,。从的表达式可见,可视为将对作普通最小二乘回归得到的估计量,即,而由可见,是对回归得到的残差向量;由可见,是对回归得到的残差矩阵。这就是上述步骤1至步骤3的理论依据。(2)下面推导的估计量的表达式。正规方程组为:由第一个方程知:所以,在上式中,第一项为对回归参数估计量,第二项为修正项。进一步将的表达式变形,得,可见,是对回归得到的估计量,即步骤(4)。命题得证。5.4由Frisch-Waugh定理派生结论多元回归模型中的参数为偏回归系数,即排除其他变量影响得到的回归系数。这是因为,可视为从,中排除影响后的向量和矩阵,两者回归得到的即是排除了影响后的偏回归系数估计量。这表明,每个参数具有“给定其他条件不变,对的边际影响”的意义。若与正交,即,那么从的表达式就有,而,则,恰好就是分别对、回归得到的参数估计量。这表明,在多元线性回归模型中,若两个自变量集合正交,那么参数估计量可以利用分别对每个自变量集合回归而得到。进一步,如果所有自变量相互正交,那么多元回归的各参数估计量等于因变量分别对每一个自变量作一元回归得到的参数估计量。6拟合优度(goodness of fit)在建立计量经济模型时,人们自然希望知道模型拟合样本数据的程度,即解释变量对于被解释变量的解释能力如何。如果能用一个简单的指标来刻画,那么在实际使用时将很方便,而拟合优度就是这样的一个指标。拟合优度,通常用可决系数表示。6.1平方和分解公式对于被解释变量,其离差刻画了各观测值相对于均值的距离,故离差的平方和就刻画了被解释变量中的变异性或信息量。我们感兴趣的是,在被解释变量的总变异性或总信息量中,有多少能由解释变量来解释。根据样本回归模型,可以得到这就是平方和分解公式。也可以记为 (31)称为总平方和,也称总变差。它被用于衡量观测值相对于样本均值的分散程度。有几种不同的表示形式: (32)称为回归平方和,也称解释变差。它被用于衡量拟合值相对于其均值的分散程度,或者说衡量的线性关系对于的解释程度。也有几种不同的表示形式: (33)称为残差平方和,也称未解释变差,衡

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论