张晓彤计量经济学基础_第1页
张晓彤计量经济学基础_第2页
张晓彤计量经济学基础_第3页
张晓彤计量经济学基础_第4页
张晓彤计量经济学基础_第5页
已阅读5页,还剩381页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1,计量经济学Econometrics薛珑,2,第1章绪论1.1计量经济学的定义,经济学,数学,统计学,经济统计学,数理经济学,计量经济学,数理统计学,3,英文“Econometrics”最早是由挪威经济学家费里希(R.Frish)于1926年模仿“Biometrics”(生物计量学)提出的,标志着计量经济学的诞生。但人们一般认为,1930年12月29日世界计量经济学会成立和由它创办的学术刊物Econometrica于1933年正式出版,标志着计量经济学作为一个独立学科正式诞生了。,4,TheBankofSwedenPrizeinEconomicSciencesinMemoryofAlfredNobel1969forhavingdevelopedandapplieddynamicmodelsfortheanalysisofeconomicprocesses,RagnarFrischNorway,5,计量经济学的发展可分为三个时期:(1)20-40年代(2)50-70年代(3)80年代-至今。第一阶段:19世纪之前,在错综复杂的经济现象面前,经济工作者主要是使用头脑直接对材料进行归纳、综合和推理。十九世纪欧洲主要国家先后进入资本主义社会。工业化大生产的出现,经济活动规模的不断扩大,需要人们对经济问题做出更精确、深入的分析、解释与判断。这是计量经济学诞生的社会基础。到20世纪初,数学、统计学理论日趋完善为计量经济学的出现奠定了理论基础。17世纪牛顿莱布尼茨(Newton-Leibniz)提出微积分,19世纪初勒让德尔(Legendre)和高斯(Gauss)分别提出最小二乘法,1821年高斯提出正态分布理论。19世纪末英国统计学家高尔登(Galton)提出“回归”概念。20世纪20年代学生(Student)和Fisher提出抽样分布和精确小样本理论。尼曼(NeymanJ.D.,波兰裔美国人)和皮尔逊(Pearson)提出假设检验理论。至此,数理统计的理论框架基本形成。这时,人们自然想到要用这些知识解释、分析、研究经济问题,从而诞生了计量经济学。,6,30年代计量经济学研究对象主要是个别生产者、消费者、家庭、厂商等。基本上属于微观分析范畴。第二次世界大战后,计算机的发展与应用给计量经济学的研究起了巨大推动作用。从40年代起,计量经济学研究从微观向局部地区扩大,以至整个社会的宏观经济体系,处理总体形态的数据,如国民消费、国民收入、投资、失业问题等。但模型基本上属于单一方程形式。第二阶段:1950年以Koopman发表论文“动态经济模型的统计推断”和Koopman-Hood发表论文“线性联立经济关系的估计”为标志计量经济学理论进入联立方程模型时代。计量经济学研究经历了从简单到复杂,从单一方程到联立方程的变化过程。进入五十年代人们开始用联立方程模型描述一个国家整体的宏观经济活动。比较著名的是Klein的美国经济波动模型(1921-1941,1950年作)和美国宏观经济模型(1928-1950,1955年作)后者包括20个方程。联立方程模型的应用是计量经济学发展的第二个里程碑。,7,进入70年代西方国家致力于更大规模的宏观模型研究。从着眼于国内发展到着眼于国际的大型经济计量模型。研究国际经济波动的影响,国际经济发展战略可能引起的各种后果,以及制定评价长期的经济政策。70年代是联立方程模型发展最辉煌的时代。最著名的联立方程模型是“连接计划”(LinkProject)。截止1987年,已包括78个国家2万个方程。这一时期最有代表性的学者是L.Klein教授。他于1980年获诺贝尔经济学奖。前苏联在20世纪20年代也开展过这方面的研究,但到30年代就中止了。60年代中期以来,前苏联及东欧一些国家开始大量编制投入产出模型并取得有益成果。,8,第三阶段:因为七十年代以前的建模技术都是以“经济时间序列平稳”这一前提设计的,而战后多数国家的宏观经济变量均呈非平稳特征,所以在利用联立方程模型对非平稳经济变量进行预测时常常失败。从70年代开始,宏观经济变量的非平稳性问题以及虚假回归问题越来越引起人们的注意。因为这些问题的存在会直接影响经济计量模型参数估计的准确性。Granger-Newbold于1974年首先提出虚假回归问题,引起了计量经济学界的注意。Box-Jenkins1967年出版时间序列分析,预测与控制一书。时间序列模型有别于回归模型,是一种全新的建模方法,它是依靠变量本身的外推机制建立模型。由于时间序列模型妥善地解决了变量的非平稳性问题,从而为在经济领域应用时间序列模型奠定了理论基础。人们发现耗费许多财力人力建立的经济计量模型有时竟不如一个简单的时间序列模型预测能力好(Cooper1972年专门对两种模型的预测精度作了详细比较)。,9,此时,计量经济工作者面临三个亟待解决的问题:(1)如何检验经济变量的非平稳性,(2)如何把时间序列模型引入经济计量分析领域。(3)进一步修改传统的经济计量模型。Dickey-Fuller1979年首先提出检验时间序列非平稳性(单位根)的DF检验法,之后又提出ADF检验法。Phillips-Perron1988年提出Z检验法。这是一种非参数检验方法。Sargan1964年提出误差修正模型概念。当初是用于研究商品库存量问题。Hendry-Anderson(1977)和Davidson(1978)的论文进一步完善了这种模型,并尝试用这种模型解决非平稳变量的建模问题。Hendry还提出动态回归理论。1980年Sims提出向量自回归模型(VAR)。这是一种用一组内生变量作动态结构估计的联立模型。这种模型的特点是不以经济理论为基础,然而预测能力很强。以上成果为协整理论的提出奠定基础。,10,计量经济学发展的第三个里程碑是1987年Engle-Granger发表论文“协整与误差修正,描述、估计与检验”。该论文正式提出协整概念,从而把计量经济学理论的研究又推向一个新阶段。Granger定理证明若干个一阶非平稳变量间若存在协整关系,那么这些变量一定存在误差修正模型表达式。反之亦成立。1988-1992年Johansen(丹麦)连续发表了四篇关于向量自回归模型中检验协整向量,并建立向量误差修正模型(VEC)的文章,进一步丰富了协整理论。,11,TheBankofSwedenPrizeinEconomicSciencesinMemoryofAlfredNobel2003formethodsofanalyzingeconomictimeserieswithcommontrends(cointegration),CliveW.J.GrangerUK,12,计量经济学在我国的发展状况。1960年中国科学院经济研究所成立了一个经济数学方法研究组。主要搞投入产出、优化研究。那时在大专院校的经济类专业还没开设计量经济学课程。文革中又把计量经济学作为资产阶级意识形态加以批判。改革开放以后,1979年3月成立了中国数量经济研究会(1984年定名为中国数量经济学会,并办有一份杂志,数量经济技术经济研究)。1980年中国数量经济学会首次举办计量经济学讲习班,邀请Klein等七位美国教授讲课。自此,计量经济学的教学与科研迅速展开,取得许多研究成果。国家信息中心为参加联合国的“连接计划”研制了我国的宏观计量经济模型。吉林大学数量经济研究中心研制了“国家财政模型及经济景气分析系统”。1998年7月教育部高等学校经济学科教学指导委员会首次将计量经济学列为我国大学经济类专业本科学生的8门必修课之一。多数学校已经把计量经济学列为硕士生和博士生的必修课程。目前我国已经有26个数量经济学专业博士点。但从整体上说我国的计量经济学教学与科研水平与世界水平相比还有很大差距。还缺少在世界上知名的学者。,13,2006年数量经济学排名学科代码:0202091清华大学A+2吉林大学A+3华中科技大学A+4上海财经大学A+5东北财经大学A6中国人民大学A7西安交通大学A8首都经济贸易大学A9华侨大学A10厦门大学A北京大学B+复旦大学B+南京大学B+南开大学B+暨南大学B+中南财经政法大学B+武汉大学B+重庆大学B+西南财经大学B+,14,1.2计量经济学的特点,计量经济学用数学模型表示经济变量之间的关系。例如:利用计量经济学研究需求函数。其中Qi某商品需求量;Pi该商品价格;P0i代用品价格;Yi消费者收入;Ti消费者偏好;ui影响商品需求量的其他因素和随机因素;0-4需求函数的回归系数。,15,统计资料(统计数据、样本观测值、样本数据、样本值)一般有以下几种:1、时间序列统计资料。指同一统计指标按时间顺序排列的数据列。在同一数据列中各个数据统计的对象、范围和时间长度必须一致,是同一口径的,具有可比性。常用的有以年、季度、月为时间间隔的统计数据。,16,时间序列数据,17,2、横截面统计资料。指在同一时间、不同单位按同一统计指标排列的数据列。在同一数据列中各个数据也必须是同一口径的,具有可比性。,18,截面数据,19,3、时间序列和横截面数据合并的统计资料。,第一季度,第二季度,第三季度,第四季度,20.4,27.4,90,20.4,30.6,38.6,34.6,31.6,45.9,46.9,45,43.9,面板数据,东部,西部,北部,20,种类:单一方程模型(长期规律研究)联立方程模型(经济结构的动态分析),21,经济模型的类型,22,1.3计量经济学的目的,结构分析、经济预测、政策评价以及经济理论的检验与发展结构分析。指应用计量经济模型对经济变量之间的关系作出定量的度量。主要研究当一个变量或几个变量发生变化时会对其他变量以至经济系统产生什么样的影响。结构分析所采用的主要方法是弹性分析、乘数分析与比较静力分析。经济预测。指应用已建立的计量经济模型求因变量未来一段时期的预测值。是计量经济学模型的一项主要应用,计量经济学最初就是由短期预测而发展起来的。在20世纪50年代与60年代,在西方国家经济预测中不乏成功的实例,成为经济预测的一种主要模型方法。,23,政策评价。指通过计量经济模型仿真各种政策的执行效果,对不同的政策进行比较和选择。计量经济学模型,揭示了经济系统中变量之间的相互联系,将经济目标作为被解释变量,经济政策作为解释变量,可以很方便的评价各种不同的政策对目标的影响。将计量经济学模型和计算机技术结合起来,可以建成名副其实的“经济政策实验室”。一是按照某种经济理论去建立模型,然后用表现已经发生的经济活动的样本数据去拟合,如果拟合很好,则这种经济理论得到了检验。这就是检验理论。二是用表现已经发生的经济活动的样本数据去拟合各种模型,拟合最好的模型所表现出来的数量关系,则是经济活动所遵循的经济规律,即理论。这就是发现和发展经济理论。,24,1.4计量经济学的内容及研究问题的方法,1.从内容角度划分:理论计量经济学(theoreticaleconometrics)和应用计量经济学(appliedeconometrics)2.从程度角度划分:初级、中级和高级计量经济学3.从模型类型角度划分:经典线性模型、非经典线性模型、非线性模型、动态模型、无参数回归模型4.从估计方法角度划分:最小二乘方法、最大似然方法、贝叶斯估计方法和广义矩方法5.从数据类型角度划分:截面数据分析、时序数据分析、面板数据分析等,25,最基本的分析方法:回归分析(regressionanalysis)计量经济学经典回归分析的基本方法和步骤:(1)建立模型establishingmodel(2)准备数据collectingdata(3)估计参数(核心步骤)estimatingmodel(4)检验和模型修正testinghypothesis(5)分析、预测和下结论explainingresult,26,流程图,设计理论模型,收集统计资料,模型的参数估计,建立具体模型,模型检验,是否符合标准,征求决策者意见,是否可用于决策,应用,预测未来,评价政策,结构分析,修改整理模型,修改模型,理论模型与数据收集阶段,参数估计与模拟阶段,政策分析与模型应用阶段,理论研究或经验总结,27,第2章一元线性回归模型2.1模型的建立及其假定条件,1.回归分析的概念回归分析是处理变量与变量之间关系的一种数学关系。经济变量之间的关系,一般分为两类:一类是变量之间存在的确定函数关系;Yi=PXi另一类是变量之间存在着非确定的依赖关系。Yi=f(Xi)+ui回归分析的理论和方法是计量经济模型估计理论和估计方法的主要内容。,28,2.一元线性回归模型例如:Yi=0+1Xi+ui其中Yi某市城镇居民年人均鲜蛋需求量,称作被解释变量;Xi某市城镇居民年人均可支配收入,称作解释变量;ui随机误差项(随机扰动项或随机项、误差项);0、1回归系数(待定系数或待定参数)。随机误差项ui中一般包括以下几个方面的因素:(1)回归模型中省略的变量;(2)人们的随机行为;(3)建立的数学模型的形式不够完善;(4)经济变量之间的合并误差;(5)测量误差。,29,Y0XYi=0+1Xi表示X与Y之间的线性部分,称作总体回归直线。样本值与回归直线的偏离ui表示对这种线性关系的随机扰动。即ui=Yi-Yi(i=1,2,n),30,3.随机误差项的假定条件(1)E(ui)=0,i=1,2,(2)Var(ui)=Eui-E(ui)2=E(ui2)=u2,i=1,2,(3)Cov(uiuj)=Eui-E(ui)Ej-E(uj)=E(uiuj)=0,ij(4)Cov(ui,Xi)=Eui-E(ui)EXi-E(Xi)=E(uiXi)=0,i=1,2,(5)ui服从正态分布,即uiN(0,u2)前四条称为线性回归分析的“古典假设”,是古典线性回归模型的基本假定。,31,2.2一元线性回归模型的参数估计,1.普通最小二乘法(OLS)总体回归模型:总体回归方程:样本回归模型:样本回归方程:,32,下面用最小二乘法求总体回归系数0、1的估计值。即令根据微积分多元函数极值原理,要使上式达到最小,对的一阶偏导数都等于零,即,33,正规方程组,34,求解得到:,35,2.几个常用的结果(1)(2)(3)(4),36,3.截距为零的一元线性回归模型的参数估计一元线性回归模型的一般形式为当ui满足假定条件时,的最小二乘估计量为,37,4.一元线性回归模型范例EXCEL,38,2.3最小二乘估计量的统计性质,1.线性性最小二乘估计量均是Yi的线性函数,即可以表示为Yi的线性组合。证明:其中,39,前面的式子可记为表明是Yi的线性组合,其中Ki不全为零,线性性得证。的线性性可利用的线性性得到。可记为这表明同样是Yi的线性组合,其中Wi也不全为零,线性性也得到证明。,40,2.无偏性无偏性指的数学期望分别等于总体回归系数的值0和1,即证明:即是参数真实值1的无偏估计得到了证明。推导,41,同样地,证明的无偏性。即是0的无偏估计。,42,3.最小方差性最小方差性,即在0和1所有可能的线性无偏估计中,最小二乘估计的方差最小。证明思路:假设是0和1的任意其他线性无偏估计,设法证明满足Var()Var()和Var()Var()。这两个不等式的证明相似,因此只证明其中第二个不等式。,43,因为是1的线性无偏估计,因此根据线性性,可以写成下列形式:其中i是线性组合的系数,为确定性的数值。则有由于是1的无偏估计,因此不管Xi的取值如何,上式都必须等于1。这就要求必须成立。,44,因此再计算方差Var(),得为了比较Var()和Var()的大小,可以对上述表达式做一些处理:,45,前面式子中的第三项因此这样的最小方差性就得到了证明。,46,由于最小二乘估计量具有线性性、无偏性、最小方差性,因此被称为最佳线性无偏估计量(TheBestLinearUnbiasedEstimator),简称BLUE性质。,47,2.4用样本可决系数检验回归方程的拟合优度,本节要检验的是样本回归线对样本观测值的拟合优度。样本观测值距回归线越近,拟合优度越好,X对Y的解释能力越强。判断回归结果好坏的基本标准,是回归直线对样本数据的拟合程度,称为“拟合优度”。回归直线的拟合优度一方面取决于回归直线的选择,这是由参数估计方法决定的,另一方面取决于样本数据的分布。当参数估计方法固定时,主要取决于样本数据的分布。样本数据的分布在本质上是由变量关系决定的。因此回归拟合度也是检验模型变量关系真实性,判断模型假设是否成立的重要方法。,48,1.总离差平方和的分解,Y,Yi,O,X,Xi,(Xi,Yi),49,仅仅考察个别Yi由回归直线或解释变量决定的程度,或者对Yi逐点进行离差分解,仍然难以判断总体拟合情况。为此进一步考察所有Yi离差平方和的分解问题。所有Yi离差的平方和记为,称“总离差平方和”。分解可得,50,下证明最后一项等于零。即所以也可写为即总离差平方和可分解为两部分,一部分为:称为“回归平方和”,记为RSS;另一部分为:称为“残差平方和”,记为ESS。,51,因此有TSS=RSS+ESS即总离差平方和=回归平方和+残差平方和前一部分RSS相对于后一部分ESS越大,说明回归拟合程度越好,Y与X之间的线性决定关系越明显。,52,2.样本可决系数将TSS=RSS+ESS两端同除以TSS,得到或式中的正是反映解释变量对被解释变量决定程度的指标,称之为“样本可决系数”(determinedcoefficient),也叫决定系数、判定系数,通常用R2表示。,53,这个指标的计算公式是或R2是样本回归线与样本观测值拟合优度的度量指标,其数值在0到1之间。R2=0,解释变量X与Y没有线性关系;R2=1,样本回归线与样本观测值重合,X与Y在一条直线上;0R21,R2越接近1,样本回归线对样本值的拟合优度越好,X对Y的解释能力越强。,54,3.样本相关系数样本相关系数是变量X与Y之间线性相关程度的度量指标。定义为其取值范围为|r|1,即-1r1。,55,当r=-1时,表示X与Y之间完全负线性相关;当r=1时,表示X与Y之间完全正线性相关;当r=0时,表示X与Y之间无线性相关关系,即说明X与Y可能无相关关系或X与Y之间存在非线性相关关系;当0|r|1时,X与Y之间存在一定的线性相关关系。,56,2.5回归系数估计值的显著性检验,检验的统计可靠性,为此,首先考虑其概率分布。假定i服从正态分布,因此Yi也服从正态分布,也服从正态分布。即,57,1.随机变量u的方差随机变量ui的方差u2是一个不可能测量计算出的量。因此,我们只能用它的估计值e的方差,作为它的方差估计值。即并且可证明,它还是u2的无偏估计量,即由此可知,的标准差估计值分别为,58,2.回归系数估计值的显著性检验t检验模型回归系数估计值的显著性检验,即检验模型回归系数是否显著异于0,是基本的一种假设检验。一元线性回归模型的基本出发点就是两个变量之间存在因果关系,认为解释变量是影响被解释变量变化的主要因素,而这种变量关系是否确实存在或者是否明显,会在回归系数1的估计值中反映出来。若1的估计数值较大,说明两变量的关系是明显的,若1的估计数值较小,甚至无法排除它等于0的可能性,说明这两个变量之间的关系不明显,模型的基本设定不成立。因此显著性检验对于确定变量关系和模型的真实性非常重要。,59,对回归系数估计值的显著性检验用t检验。根据的概率分布,由数理统计知,来自单一样本的估计值的t统计量为对于可以通过下列变换转化为服从标准正态分布的随机变量用代上式中未知的2得到的统计量为服从的分布是自由度为n-2的t分布。,60,具体检验步骤如下:提出原假设H0:1=0,备择假设H1:10。计算t统计量,给出显著水平(一般常用0.05或0.01),查自由度n-2的t分布表,得临界值t/2(n-2)。做出判断。如果|t|t/2(n-2),拒绝H0,接受H1:10,表明X对Y有显著影响。,61,例:,62,补充:F检验与t检验相对比,t检验属于回归系数估计值的统计显著性检验,是对个别参数感兴趣的检验。而F检验属于回归方程的显著性检验,它是对所有参数感兴趣的一种显著性检验。其检验步骤如下:第一步:提出假设。原假设H0:0=1=0,备择假设H1:01不同时为零。第二步:构造F统计量。即统计量F服从第一自由度为1,第二自由度为n-2的F分布。,63,第三步:给定显著性水平,查F分布临界值得到F(1,n-2)。第四步:做出统计决策。若FF(1,n-2)时,拒绝原假设H0,接受备择假设,则认为X与Y的线性相关关系显著,即回归方程显著;若FF(1,n-2)时,接受原假设H0,则认为X与Y的线性相关关系不显著,即回归方程不显著。,64,补充:四种检验的关系前面介绍的拟合优度(R2)检验、相关系数(r)检验、t检验和F检验,对于一元线性回归方程来说,这四种检验是等价的。可以了解:因此,对于一元线性回归方程,我们只需作其中的一种检验即可。但对于多元线性回归方程这四种检验有着不同的意义,并不是等价的,需分别进行检验。,65,补充:回归方程的标准记法为了方便,我们往往将回归方程的参数估计和系数的显著性检验统计量结果放在一起。例如:注:t统计量右上角的星号表示显著性水平的大小,一个星号表示在显著性水平5%下显著,两个星号表示在显著性水平1%下显著,无星号表示5%下不显著。,66,2.6一元线性回归方程的预测,1.点预测根据一元线性回归模型的回归直线进行预测,只要把解释变量X的一个特定值X0代入回归方程,就可以得到被解释变量Y的一个相应的预测值我们称为被解释变量的“点预测”。,67,由于回归直线与真实的变量关系不可能完全相同,而且变量关系本身是随机函数关系,因此预测与将来实际出现的结果之间必然存在误差。设Y将来实际出现的对应X0的被解释变量值为Y0,预测值与Y0之间的偏差e0=Y0-=Y0-(+X0),称为“预测误差”。由于在预测的当时Y0是未知的,因此预测误差e0也是未知的,是一个随机变量。,68,无偏性即是Y0的无偏预测,E()=Y0。证明如下:因此是Y0的无偏预测性质得证。,69,X0是可任意给定的。如果X0在样本区间内,即为X1,X2,Xn样本点之一,则点预测的过程称为“内插预测”。如果X0是样本区间之外的点,则预测过程称为“外推预测”。,70,2.区间预测(1)单个值的预测区间令e0=Y0-且可知即可知e0服从均值为零,方差为2(e0)的正态分布。用Se2代2(e0)中未知的u2得到2(e0)的估计值,构造t统计量给出置信度1-,查自由度为n-2的t分布表,得临界值t/2(n-2),t值落在(-t/2,t/2)的概率是1-,即P-t/2tt/2=1-整理得即在置信度1-下,Y0的置信区间为,71,因此,当置信水平1-给定之后,Y0预测区间的大小由e0的标准差决定。实际由绝对值的大小决定。X0越接近样本区间内的解释变量X的平均值,Y0的置信区间就越小,预测结果就越可靠;反之,预测值就越不可靠。当我们进行外推预测时,X0的值一般比n个样本点X1,X2,Xn都远离样本均值,且外推期越长,X0越远离样本均值,预测区间也就越大。,72,(2)均值的预测区间,73,74,2.8案例分析,分析EXCEL,75,第3章多元线性回归模型3.1模型的建立及其假定条件,1.基本概念多元总体线性回归模型:Y=0+1X1+2X2+kXk+u多元总体线性回归方程:E(Y)=0+1X1+2X2+kXk,76,样本数据结构形式的多元总体线性回归模型:Yi=0+1X1i+2X2i+kXki+ui,i=1,2,n它是由n个方程,k+1个未知参数组成的一个线性方程组,即这个模型相应的矩阵表达形式是Y=X+U,77,其中,78,多元样本线性回归方程:估计的回归方程的矩阵表达形式是:其中,79,2.模型的假定(1)E(ui)=0,i=1,2,n(2)Var(ui)=E(ui2)=2,i=1,2,n(3)Cov(ui,uj)=E(uiuj)=0,ij,i,j=1,2,n(4)Cov(Xijuj)=0(i=1,2,k,j=1,2,n)且Cov(XkXl)=0(kl)。(5)rank(X)=k+1n(6)uiN(0,2),i=1,2,n,80,引进向量、矩阵记法后,模型的基本假定1、2、3三条,可以综合为误差向量U的方差协方差矩阵为对角矩阵:满足这种假定的误差项称为“球形扰动”。,81,3.2最小二乘法,1.参数的最小二乘估计对于含有k个解释变量的多元线性回归模型Yi=0+1X1i+2X2i+KXKi+ui,i=1,2,n和相应的估计的样本回归方程根据最小二乘准则,寻找使下式达到最小的参数估计值,82,当Q对的一阶偏导数都等于0,即下列方程组同时成立时,Q有最小值。对上述方程组加以整理,可得到正规方程组,正规方程组有k+1个方程,未知数也是k+1个。只要系数矩阵非奇异(满足模型假设5,解释变量之间不存在严格线性关系即可),就可以解出的唯一的一组解,就是0,1,K的最小二乘估计值。,83,用向量和矩阵的表示方法和运算,多元线性回归最小二乘估计的推导会简洁得多。先引进参数估计量、解释变量回归值和回归残差的下列向量表示:,84,写成等价的向量方程,则为再利用向量、矩阵的运算法则,可以得到残差平方和为,85,其中矩阵求导:,86,整理该向量方程,得到下列形式的正规方程组当可逆,也就是X是满秩矩阵(满足假设5)时,在上述向量方程两端左乘的逆矩阵,得到这就是多元线性回归模型最小二乘估计的矩阵一般公式。,87,补充:矩阵的运算(1)矩阵乘法按住鼠标左键拖放选定存放结果的单元格区域,输入计算公式=MMULT()按Ctrl+Shift+Enter复合键确认。(2)矩阵转置按住鼠标左键拖放选定存放结果的单元格区域,输入计算公式=TRANSPOSE()按Ctrl+Shift+Enter复合键确认。(3)逆矩阵按住鼠标左键拖放选定存放结果的单元格区域,输入计算公式=MINVERSE()按Ctrl+Shift+Enter复合键确认。,88,3.3最小二乘估计量的特性,1.线性性所谓线性性是指最小二乘估计量是被解释变量Y的观测值的线性函数。多元线性回归模型参数的最小二乘估计向量为令则矩阵A是一个非随机的常数矩阵。线性性得证。,89,2.无偏性,90,3.最小方差性(有效性),91,证明思路:如果模型参数向量的任意其他线性无偏估计量(b)的协方差矩阵Var(b),与最小二乘估计的协方差矩阵Var()之间,都满足Var(b)-Var()是半正定矩阵(Var(b)-Var()0),那么最小二乘估计的最小方差性得到证明。,92,具体证明:因为所设b是线性无偏估计向量,因此可以表示为b=BY又因为b是无偏估计,因此E(b)=E(BY)=EB(X+U)=E(BX+BU)=BX+BE(U)=BX=所以必然有BX=I计算b的方差,有Var(b)=VarB(X+U)=Var(+BU)=Var(BU)=BVar(U)B=BB2,93,根据矩阵代数知识,任意矩阵与自身转置的乘积都是半正定矩阵,因此这意味着为半正定矩阵。这样的协方差矩阵之差也是半正定矩阵。因此多元线性回归参数的最小二乘估计是最小方差的线性无偏估计。,94,高斯马尔可夫定理:如果基本假定(1)-(5)成立,则最小二乘估计量是的最优线性无偏估计量(BestLinearUnbiasedEstimate,简记为BLUE),也就是说在的所有线性无偏估计量中,具有最小方差性。,95,3.4可决系数,1.总离差平方和的分解公式TSS=RSS+ESS2.多元样本可决系数不难发现可决系数只与被解释变量的观测值以及回归残差有关,而与解释变量无直接关系。因此可以将它直接推广到多元线性回归分析,作为评价多元线性回归拟合优度的指标。,96,但是需注意:多元线性回归模型解释变量的数目有多有少,而上述可决系数R2又可以证明是解释变量数目的增函数。这意味着不管增加的解释变量是否对改善模型、拟合程度有意义,解释变量个数越多,可决系数一定会越大。因此,以这种可决系数衡量多元回归模型的拟合优度是有问题的,而且会导致片面追求解释变量数量的错误倾向。正是由于存在这种缺陷,可决系数R2在多元线性回归分析拟合优度评价方面的作用受到很大的限制。,97,克服可决系数R2上述缺陷的方法,是对可决系数进行适当的调整,采用如下调整的可决系数:用这个调整的可决系数作为评价多元回归拟合优度的评价标准,可以基本消除由于解释变量数目的差异所造成的影响,更加合理和具有可比性。,98,与R2有如下关系:当n较大和k较小时,两者差别不大,但当n不很大而k又较大时,两者的差别是比较明显的。(1)若k1,则R2;(2)可能出现负值。此情形下,取=0。,99,3.5显著性检验,1.回归方程的显著性检验(F检验)回归方程的显著性检验,是指在一定的显著性水平下,从总体上对模型中被解释变量与解释变量之间的线性关系是否显著成立进行的一种统计检验。,100,F检验的步骤:第一步:提出假设:原假设H0:1=2=k=0。备择假设H1:至少有一个j不等于零(j=1,2,k)。第二步:构造F统计量:第三步:给定显著水平,查F分布临界值F(k,n-k-1),101,第四步:做出统计决策:若FF(k,n-k-1)时,拒绝H0,接受H1,则认为在显著性水平下,被解释变量与解释变量之间的线性相关关系显著即回归方程显著;若FF(k,n-k-1)时,接受H0,则认为被解释变量与解释变量之间的线性相关关系不显著,即回归方程不显著。,102,因为,检验统计量还可以表示为,103,2.解释变量的显著性检验(t检验)解释变量的显著性检验,是指在一定的显著性水平下,检验模型的解释变量是否对被解释变量有显著影响的一种统计检验。,104,t检验的步骤:第一步:提出假设:原假设H0:i=0,备择假设H1:i0。其中i=1,2,k第二步:构造t统计量:第三步:给定显著性水平,查t分布临界值t/2(n-k-1)。,105,第四步:做出统计决策:当|ti|t/2(n-k-1)时,拒绝原假设H0,接受备择假设H1,认为i显著不为零,说明解释变量Xi对被解释变量Y的线性相关关系显著;当|ti|t/2(n-k-1)时,接受原假设H0,拒绝备择假设H1,认为i与零没有显著差异,说明解释变量Xi对被解释变量Y的线性相关关系不显著。,106,补充:相关系数分析复相关系数:多重样本决定系数定义为R2,我们可以把R定义为被解释变量Y关于X1,X2,Xk的复相关系数。很显然,复相关系数R反映了被解释变量Y关于一组解释变量X1,X2,Xk之间的线性相关程度。简单相关系数:解释变量Xk与Xl之间的相关系数称为简单相关系数rkl。,107,3.6预测,1.点预测求对应解释变量的一组特定值X0=(1,X10,X20,Xk0)的被解释变量值Y0的估计。得到回归直线以后,点预测是比较简单的,只要把X0=(1,X10,Xk0)代入回归直线,得到就是对Y0的一个估计,也就是点预测。,108,2.区间预测(1)Y0的预测区间令e0=Y0-且可知e0方差的估计量为,因为所以有由于2未知,用无偏估计量代替,则有,109,给定显著性水平,查自由度为n-k-1的t分布表,得临界值t/2(n-k-1),t值落在(-t/2,t/2)的概率是1-,即P-t/2t0;分配系数,0F时,应拒绝H0,接受异方差性,当FF时,应接受H0,ui是同方差的。,144,(三)怀特(white)检验此检验是更一般的检验方法,不需对异方差的性质作任何假定。一般检验步骤:1、用OLS方法估计原回归模型,得到残差平方和序列ei2;2、构造辅助回归模型ei2=f(Xi1,Xik,Xi12,Xik2,Xi1Xi2,Xi(k-1)Xik)其中f是含常数项的线性函数,系数为j,j=1,g。用OLS方法估计此模型得到R2。,145,3、提出原假设:H0:j=0,j=1,g备择假设:H1:j中至少有一个不等于零。4、计算统计量WT(g)=nR22(g)其中g=5、给定显著性水平,查临界值2(g),如果WT(g)2(g),则H0成立,原模型不存在异方差性;反之,则存在异方差性。,146,(四)帕克(Park)检验与戈里瑟(Gleiser)检验帕克检验与戈里瑟检验的基本思想是:以ei2或|ei|为被解释变量,以原模型的某一解释变量Xj为解释变量,建立如下方程:或选择关于变量Xj的不同的函数形式,对方程进行估计并进行显著性检验。如果存在某一种函数形式,使得方程显著成立,则说明原模型存在异方差性。,147,如帕克检验常用:或进行检验,若在统计上显著地异于零,表明存在异方差性。,148,优点:不仅检验了异方差性是否存在,同时给出了异方差存在时的具体表现形式,为克服异方差提供了方便。但是,由于构造|ei|与解释变量的回归式是探测性的,如果试验模型选得不好,则检验不出是否存在异方差。,149,(五)斯皮尔曼(Spearman)等级相关系数检验一般检验步骤:1、用OLS方法估计回归模型,得到残差序列ei;2、取ei的绝对值;分别将认为对异方差有关系的解释变量Xij和|ei|按升序或降序划分等级,并分别用自然数表示它们的等级。3、按Xij的等级依次排列;排列时,|ei|的等级与Xij的等级按原来样本点的对应关系进行排列。4、计算Xij和|ei|的等级差di,计算等级相关系数-1r1,150,5、判断。等级相关系数进行显著性检验。提出原假设:H0:r=0,备择假设:H1:r0。r近似服从均值为0,方差为1/(n-1)的正态分布。构造Z统计量给定显著性水平,查正态分布表得临界值Z/2。当|Z|Z/2时,接受H0,此时等级相关系数不显著,随机误差项无异方差性;反之,则存在异方差性。,151,5.4异方差的修正方法加权最小二乘法,加权最小二乘法(Weightedleastsquares,WLS)加权最小二乘法是对原模型加权,使之变成一个新的不存在异方差性的模型,然后采用OLS法估计其参数。,152,如线性回归模型为Yi=0+1X1i+kXki+ui且经过检验,已知误差项ui有如下形式的异方差性那么我们可以用除模型的各项,得到,153,通过变量变换可得到一个新的线性回归模型,新模型中的k+1个参数与原模型的参数完全相同。新模型误差项的方差为显然已经不存在异方差问题。用这个新模型进行线性回归分析,可以克服原模型的异方差问题,同样可以得到原模型所有参数的估计。,154,考察上述新模型最小二乘估计残差平方和可以发现该残差平方和相当于原模型最小二乘估计残差平方和,每一项都乘一个权重的加权平方和,其中权重即。因此,通过上述模型变换得到的参数估计量也被称为“加权最小二乘估计”。加权最小二乘估计正是克服线性回归模型异方差性的针对性方法。,155,5.5案例分析,EXCEL,156,第6章自相关6.1非自相关假定,线性回归模型的基本假设之一是模型的随机误差项之间不相关。即Cov(ui,uj)=E(uiuj)=0,ij,i,j=1,2,n如果模型的随机误差项违背了该基本假设,即Cov(ui,uj)0,ij,i,j=1,2,n则称随机误差项ui存在自相关或序列相关(serialcorrelation)。,157,158,自相关按形式可分为两类:(1)若误差项ui只与其前一期值ui-1有关,即ui=f(ui-1)+i,则称ui具有一阶自回归形式。(2)若误差项ui的本期值不仅与其前一期值有关,而且与其前若干期的值都有关时,即ui=f(ui-1,ui-2,)+i,则称ui具有高阶自回归形式。,159,计量经济模型中自相关的最常见形式是一阶线性自回归形式,即ui=ui-1+i,其中-10,称ui存在正自相关;0,称ui存在负自相关;=0,称ui不存在自相关或非自相关。,160,6.2自相关的来源与后果,1、自相关的来源(1)模型的数学形式不妥。(2)惯性。大多数经济时间序列都存在自相关。(3)回归模型中略去了带有自相关的重要解释变量。,161,例如:本应估计的模型为Yi=0+1X1i+2X2i+3X3i+ui但在模型设定中作了下述回归:Yi=0+1X1i+2X2i+i,因此,该式中i=3X3i+ui。于是在X3确实影响Y的情况下,这种模型设定的偏误往往导致随机误差项中有一个重要的系统性影响因素,使其呈自相关性。,162,又如,如果真实的边际成本回归模型应为Yi=0+1X1i+2X21i+ui,其中Y代表边际成本,X1代表产出量。但建模时设立了如下模型:Yi=0+1X1i+i,因此,由于i=2X21i+ui,包含了产出的平方对随机误差项的系统性影响,随机误差项也呈现自相关性。,163,2、自相关的后果(1)回归系数的最小二乘估计量仍具有无偏性。(2)回归系数的最小二乘估计量不再具有最小方差性。(3)有可能低估随机误差项的方差。(4)预测无效。,164,6.3自相关检验,1、图示法由于残差ei可以作为ui的估计,因此可以利用ei的变化图形来判断随机误差项的自相关性。(1)按照时间顺序绘制残差ei的图形(2)绘制ei、ei-1的散点图,165,2、杜宾瓦森DW(Durbin-Watson)检验法该方法的假定条件是:(1)随机误差项ui为一阶自回归形式ui=ui-1+i;(2)回归模型中不应含有滞后变量作为解释变量,即不应出现下列形式:Yi=0+1X1i+kXki+Yi-1+ui;(3)样本容量应充分大。(4)回归模型含有截距项。,166,要检验一阶自回归系数是否有显著性,首先必须对它的值进行估计。为此我们考察相邻误差项之间的协方差公式。根据ui和i的性质,有因此由于模型误差项的数值无法得到,因此的真实值是无法得到的。但可以根据误差项与回归残差的关系,用残差序列构造下列统计量:,167,作为误差序列一阶自回归系数的估计。利用进行统计检验的前提是知道的统计分布。但问题是并不服从任何常见的分布。为此杜宾和瓦森考虑用已知分布且与有密切关系的DW统计量来替代。这个DW统计量与之间有下述关系:,168,因此(无一阶自回归性)对应DW=2;(误差项有强正自相关)对应DW0;(误差项有强负自相关)对应DW4。DW的精确分布实际上也不清楚,而且分布情况与解释变量的取值有关。但杜宾和瓦森证明对于解释变量的任意情况,DW统计量有一个上限和一个下限,在一定条件下它们服从分布。杜宾和瓦森计算了对应显著性水平=0.05和=0.01,样本容量15n100,解释变量个数k5时,判断误差序列存在一阶正自相关性的上下限dL和dU的临界值表,作为经验检验误差自相关性的基本工具。,169,检验误差序列自相关的步骤如下:1、设原假设为H0:=0,即误差序列没有一阶自回归性;备择假设H1:0。2、根据显著性水平(0.05或0.01),模型中解释变量的个数k,以及观察样本容量n,查DW临界值表得到下限、上限两个临界值dL和dU。3、若DW4-dL,拒绝H0,认为存在一阶负自相关;若dUDW4-dU,接受H0,认为误差项不存在一阶自相关性;若dLDWdU或4-dUDW2(p),则拒绝约束条件为真的原假设,表明可能存在直到p阶的自相关性。在实际检验中,可从1阶、2阶逐次向更高阶检验,并用辅助回归式中各ei前参数的显著性来帮助判断自相关的阶数。,175,4、回归检验法以ei为被解释变量,以各种可能的相关量,诸如ei-1、ei-2、ei-12等为解释变量,建立各种方程:ei=ei-1+ii=2,nei=1ei-1+2ei-2+ii=3,nei=e2i-1+ii=2,n对方程进行估计并进行显著性检验,如果存在某一种函数形式,使得方程显著成立,则说明原模型存在自相关性。,176,回归检验法的优点是一旦确定了模型存在自相关性,也就同时知道了相关的形式,而且它适用于任何类型的自相关性问题的检验。缺点是计算量大。,177,6.4自相关的解决方法,虚假自相关的消除1)模型数学形式不妥2)略去重要解释变量,178,1、广义最小二乘法(generalizedleastsquares,GLS)一般情况下,对于模型Y=X+u如果存在自相关性,同时存在异方差性,即有显然,是一对称正定矩阵,因此存在一可逆矩阵D,使得=DD,179,用D-1左乘原回归模型两边,得到一个新的模型:D-1Y=D-1X+D-1u即Y*=X*+u*该模型具有同方差性和随机误差项互相独立性。因为E(u*u*)=ED-1uu(D-1)=D-1E(uu)(D-1)=D-12(D-1)=D-12DD(D-1)=2I于是可以用普通最小二乘法估计该模型,记参数估计量为,则,180,这就是原模型的广义最小二乘估计量,是无偏的、有效的估计量。,由上面的推导过程可知,只要知道随机误差项的方差-协方差矩阵2,就可以采用广义最小二乘法得到参数的最佳线性无偏估计量。,181,2、广义差分法(generalizeddifferencemethod)如果原模型Yi=0+1X1i+2X2i+kXki+ui存在ui=ui-1+i即Yi=0+1X1i+2X2i+kXki+ui-1+i原模型滞后一期,再两侧同乘,可得Yi-1=0+1X1i-1+2X2i-1+kXki-1+ui-1上面两式相减,得Yi-Yi-1=0(1-)+1(X1i-X1i-1)+k(Xki-Xki-1)+i,182,该模型为广义差分模型,该模型不存在自相关性问题。采用普通最小二乘法估计该模型得到的参数估计量,即为原模型参数的无偏、有效的估计量。,183,3、随机误差项相关系数的估计上述方法中都必须已知随机误差项的相关系数。实际上,人们并不知道它的具体数值,所以必须首先对它进行估计。基本思路大都是采用普通最小二乘法估计原模型,得到随机误差项的“近似估计值”,然后利用该“近似估计值”求得随机误差项相关系数的估计量。不同的方法旨在力图使得这些估计量更加逼近实际。,184,(1)用DW统计量的值计算,185,(2)杜宾(Durbin)两步法第一步,变换差分模型为下列形式:Yi=Yi-1+0(1-)+1(X1i-X1i-1)+k(Xki-Xki-1)+i采用普通最小二乘法估计该方程,得Yi-1前的系数的估计值。第二步,将估计值代入原差分模型,采用普通最小二乘法估计,得到参数,1,k的估计量。,18

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论