第三章---多元线性回归模型分析打印_第1页
第三章---多元线性回归模型分析打印_第2页
第三章---多元线性回归模型分析打印_第3页
第三章---多元线性回归模型分析打印_第4页
第三章---多元线性回归模型分析打印_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章 多元线性回归模型分析 一元回归模型所研究的问题是经济变量只受一个因素(解释变量)影响的情形。但在实际生活中,所研究的经济变量往往受多个因素的影响。例如,产出往往受各种投入要素资本、劳动、技术等的影响;销售额往往受价格和公司对广告费的投入的影响等。这就要求我们在一元回归模型的基础上,进一步研究多元线性回归模型解释变量个数=2。多元线性回归模型与一元线性回归模型完全类似,只是在具体计算上较为复杂一点。 第一节 多元线性回归模型及其基本假定假定因变量(或叫被解释变量)Y与解释变量具有线性关系,它们之间的线性回归模型可表示为: (3.1)其中U为随机项。 取n期观测值( 代入(3.1)式可得 (3.2)即 (3.3)上式可写成:即 (3.4)这里, 对于多元线性回归模型有如下假定: 1、 即 (3.5) 2、即= (3.6)假定(3.5),(3.6)式称为高斯马尔科夫假定。3、 既说明解释变量与随即项无关。4、当样本观测值确定后,是一常数矩阵,并假定,并且也就是说明矩阵的秩等于参数个数,换句话说就是解释变量不想管(即不存在多重共线性)5、假定服从正态分布第二节 参数估计一、回归参数的最小二乘估计取最小值。根据多元函数的极值原理,分别对参数求导数,并令其等于零。 得到下列方程组: (3.7)写作矩阵形式: (3.8)因为 记成为估计值向量。这样(3.8)可以写作: (3.9)上述几个式子称为正规方程根据假定,可以求得: (3.10)这就是的OLS估计量。方法 我们的目的是寻找使得残差平方和ESS= (3.11)打到最小的参数向量,其中: (3.12)将上面式子(3.12)代入(3.11),我们可以得到:= (3.13)为了求出参数的最小二乘估计量,对(3.13)关于向量求偏导: 方法:由式子(3.7)可以得到: (3.14)将(3.14)左边分解成: (3.15)对样本回归方程矩阵形式,两边同乘以观测值矩阵X的转置有: 所以: 练习:一元模型矩阵表示二、参数最小二乘估计的统计性质 在多元线性回归方程条件下,参数的最小二乘估计仍然具有线性性、无偏性、和最小方程性。1、 线性性: 2、无偏性: 证明: (3.16)对(3.16)式子两边取期望。就可以得到第三节 多元线性回归模型的统计检验一、拟合优度检验: 样本判决系数 (3.24)其中:由上式(3.24)可以知道: 样本判决系数的大小还受到解释变量的个数多少的影响。增加解释变量的的个数,就会增加样本判决系数的大小。因此产生了矫正样本判决系数。二、矫正样本判决系数 1、与解释变量个数的关系:,会随着K的增大而减少,至少不增加。这就产生一个倾向,多加变量只要回归系数显著我们就请进来,而不管它能解释多少ESS?如何处理呢?2、:校正的:由于样本判决系数根解释变量的个数成正比,因此我们在比较两个不同解释变量的回归方程的拟合优度时,用这个统计指标就不一定合适。必须加以调整,调整的方法是将残差平方和和总离差平方和分别用各自的自由度去除,变成均方差之比,已剔除变量个数对拟合优度的影响。也就是定义:= =不是用=这样分子分母调整的差距太大分子相对太小。其中,n是样本观测值个数,k是解释变量的个数。问题:当增加解释变量时,和那个增加得快?3、的极端值:(1)如:1,则0,1(2)如:=0,则,则(3)只有在样本极小时才可能出现负值。三、回归系数的显著性检验1、随机项的方差的估计量在实际中,随机项的方差是得不到的,因此通常构造的估计量:上一节讨论了对现行回归方程的显著性检验。我们知道,回归方程显著成立,并不意味着每个解释变量对因变量的影响都是显著的。如果某个解释变量对因变量的影响并不重要,既可以从回归方程中把他剔除掉,重新建立更为简单的回归方程,以利于经济问题的分析和对因变量更为准确定预测。2、构造如下的检验:和一元线性回归方程一样: 因为 而可用它的估计量代替。所以:t ( n - k -1 )3、检验过程:对回归系数显著性检验如下:4、t检验和F检验的关系:t检验是检验单个回归系数的显著性,而F检验是检验整个方程的显著性,是联合检验整个方程的解释能力的。至少有一个系数不为零。所以t检验完成后要进行F检验。四、回归方程的整体检验:F检验方差分解表:离差名称平方和自由度回归平方和剩余平方和总体平方和kn - k -1n -11、零假设:: 备择:至少一个不为02、H0:b1=b2=0 RSS中的X1、X2不起作用,RSS变动无异于随机变动=分子方差与分母方差是一回事=F=1 如果F显著地大于1,甚至FFa=小概率事件发生了,根据小概率原理,在一次试验中小概率事件是不可能发生的,居然发生了,错在哪儿?原来是H0不成立。于是,就不能认为X1、X2 同时没有作用(但并不排除其中一个无意义)。则直线是有意义的。可靠性=1- a3、关于自由度:RSS共受约束,自由度为n-k-1 ESS由决定,自由度为k=n-1-(k-1) 4、与F五、偏相关系数:回归系数的含义在多元线性回归中,两个变量之间的相关程度总要受到其它变量的影响。举一个投入产出的例子:令 Y 代表产出, X1 代表资金的投入,X2 代表劳动力投入。 研究产出 Y 与资金投入 X1 之间的关系。一方面资金投入 X1 的增加会引起产出 Y 的增加;另一方面劳动力投入 X2 增加不但影响着 Y 而且也影响着 X1 的增加。如果研究 Y 与 X1 的相关系数(简单相关系数),而不考虑 X2 对它们的影响,那么这种相关系数并未反映出 Y 与 X1 之间的真实相关,必须清除 X2 对它们的影响。1实例: 销售额SALES与价格PRICE、广告费ADS之间的关系手工计算步骤 (1)对照公式计算各个离均差求和项 (2)代入公式 (3)掌握公式用行列式表现的形式EViews计算步骤 (1)生成由SALES、价格PRICE、广告费ADS构成的组,并对组命名 (2)观察它们的协方差矩阵、相关系数矩阵 (3)分别观察销售额SALES与价格PRICE和广告费ADS的散点图 (4)选择PROCE中的EQUATION得到估计结果 注意设计估计方程的两种形式 (5)熟悉各个统计量的意义 拟合优度、F、偏回归系数、系数的标准误、t、概率 (6)观察方程的各种表现形式Estimation Command:=LS SALES ADS PRICE CEstimation Equation:=SALES = C(1)*ADS + C(2)*PRICE + C(3)Substituted Coefficients:=SALES = 1.*ADS - 1.*PRICE - 40. 销售额、广告费、价格模型的经济意义(请同学们回答):在价格PRICE保持不变的条件下,广告费ADS变化一个单位将引起销售额SALES平均变化b1= 1.个单位; 在广告费ADS保持不变的条件下,价格PRICE变化一个单位将引起销售额SALES平均变化b2= - 1.个单位。输出结果见POWERPOINT问题:只作一元回归试与之比较回归系数的差别2、偏回归系数:乃是自变量对因变量的净作用:在其它自变量保持不变的条件下,该自变量变化一个单位将引起因变量平均变化多少个单位。如何在一个变量中清除另一个变量的影响: 单独用X1对Y进行回归所得回归系数中(如同简单相关系数一样)裹胁了X2引起X1变化,再引起Y的变化,这种变化成为间接影响。所以往往造成一些假象。 一元回归系数=X1的净影响+其它自变量的间接影响 二元回归系数中则只有X1对Y的净影响 这有利于对回归系数的解释和分析 当然,如果自变量之间不存在相关,简单回归系数与二元模型中的偏回归系数是一回事(1)清除X1 中 X2 对它的影响:用X1对X2回归如下:算出残差:即为所求(2)清除Y中X2J对它的影响:如上所做求出残差(3)做对的回归所得的回归系数为X2对Y的净作用:与的相关系数是Y与X2之间的偏相关系数。(假设Y,X2,X3之间是一个关系体与其它都无关)3、两个自变量对Y的作用路径 (1)X1本身对Y的净作用 (2)X1的变化引起X2的变化(因为存在相关),再通过X2引起Y的变化 (3)X2本身对Y的净作用 (4)X2的变化引起X1的变化(因为存在相关),再通过X1引起Y的变化图:见输出结果4、偏相关的定义:考虑多个变量 Y, X1, X2, ., Xk 之间的关系。如果只考虑Y 与 X1(i =1, 2,k)之间的关系,而清除其它变量(全部或其中一部分)对它们的影响(固定其它变量不变),这种相关叫偏相关衡量偏相关程度用偏相关系数表示:ryx1 x2 为 1 阶偏相关系数,即清除了X2 的影响后 Y 与 X1之间的相关系数,ryx1 x2 x3 为 2 阶偏相关系数,即清除了X2与 X3的影响后 Y 与 X1 之间的相关系数,ryx1 x2 xk 为 (k-1) 阶偏相关系数,即清除了 X2 X3 的影响后 Y 与 X1 之间的相关系数,六、模型设定初探探:一个解释变量的边际贡献,何时加进一个解释变量。1、建模过程:如上边的广告和销售额的例子。和都是显著的,是否我们就一定要把X1和X2都保留呢? 也就是说我们一般是这样建模的,先做Y对X1的回归,并评估其显著性,然后再把X2加进来再观其是否显著,以判断其边际贡献。通常是看是否明显增加(这和的t显著是两回事,通常t值显著但增加的并不明显)。 我们的原则是不能放弃一个贡献大的,同时也不想加入一个贡献小的。2、判断方法:设:为原模型:original 为新模型:new(1)构造统计量:F()如下的F更好计算:F((2)若F则:拒绝:新加入的k个变量对方程的贡献显著,纳入新变量。注:模棱两可时,记注模型简单为好。3、软件使用:P47自变量的选择testadd零假设是案例分析: 设某中心城市对各地区的商品流出量取决于各地区的社会商品购买力以及各个地区对该市的商品流入量。总体回归方程设为: 其中, :某中心城市的商品流出量; :各地区社会商品购买力:各地区对该市的商品流入量。地区该市对各地区的销售额Y各地区社会购买力各地区商品流入量 1234567868001900280010007005006050 1300 350 180340702003020400120070040016001200240400样本回归方程为: ; 在5%显著性水平下,所以对第二个变量拒绝备择假设,即认为系数显著为0。因此删去,重新建立模型。最小二乘结果如下:其中: 第四节 线性回归模型的扩展 一、非线性回归模型 前面我们讨论的经济问题,都是假定作为解释变量的经济变量与作为被解释变量的经济变量之间存在线性关系,由此建立线性回归模型,如:进行线性回归分析。这里所说的线性是指:1、解释变量线性;2、参数线性。但实在是经济建模中,所建立的模型往往不符合上面的线性要求。即模型是非线性的,成为非线性回归模型。例如:研究我国教育经费占国民收入比例问题,影响教育经费占国民收入的比例的主要因素是人均国民收入。通过对样本值所作的散点图的分析,可建立如下模型: (3.4.1)其中表示第t年教育经费占国民收入的比例,表示第t年人均国民收入。模型(3.4.1)不是线性的,但是对参数是线性的。再比如说在研究生产函数时,我们经常使用的函数形势时柯布道格拉斯生产函数: (3.4.2)但是对模型(3.4.1)菏(3.4.2)来说,只要经过简单的代数变换就可以化为线性模型,这样的非线性模型叫做内在线性模型。(一)模型变量的直接代换 1、多项式函数模型 形如: (3.4.3)的模型为多项式函数模型。令 这样模型就可以化成线性形式 (3.4.4)2、双曲线模型 设变量X和Y之间具有双曲线函数形势 令 原模型可化为线性形式(二)模型变量的间接代换 对于著名的生产函数柯布道格拉斯生产函数: 首先对上式两边取对数可得: 二、不可线性化的模型的处理方法 许多实际问题所建立的非线性模型无法通过变量变幻的方法化为线性。例如模型: 无论通过什么方法都不能实现线性化,这样的模型成为不可线性化模型。对于这一模型的参数估计,我们介绍一种常用的方法,即借助于泰勒展开式的方法进行线性近似估计。 这种方法的基本思想是:通过泰勒展开先使非线性方程在某一组初始参数估计值附近线性化,然后对这一线性方程应用普通最小二乘估计,得出一族新的参数估计值。下一步就是对非线性方程在新参数估计值附近线性化,对新的线性方程组再应用普通最小二乘估计,又得出一族新的参数估计值。不断重复上述过程,直至参数估计值收敛为止,其步骤如下: 设有模型: (3.4.5)1、将非线性函数f对参数的给定初始值展开乘泰勒级数 (3.4.6)取(3.4.6)式右端前二项,略去函数展开式第三项及以后所有各项及高阶项,便由线性近似:(3.4.7)上式已经对参数具有线性形式。2、将(3.4.7)左端看成一组新的因变量,将(3.4.7)右端看成一组新的自变量,这样(3.4.7)就已经成标准线性模型,对(3.4.7)进行OLS估计,得出一组参数的估计值。2、 重复1,在型的参数估计值附近再做一次泰勒展开,得到新的线性回归模型。3、 重复步骤2,进行OLS估计,又得到一组参数的估计值5、如此反复,得出一组点系列使其收敛或满足下列条件 这里要支出的是迭代过程可能不收敛,这是需要重新选择一族新的初始参数值,那么就必须放弃逐次线性近似法而改用其他方法。第五节 回归模型的其他函数形式上面我们讨论了我们平常所说的线性问题是实际上是对参数而言是线性的,在实际中一些变量非线性的模型却具有非常中的经济意义。一、双对数线性模型 如我们经常研究的生产函数模型:著名的生产函数柯布道格拉斯生产函数: (3.5.1)对于模型(3.5.1)通过两边同时取对数,可以得到: (3.5.2)令 代入模型(3.5.2) (3.5.3)在实际经济活动分析中,双对数模型的应用是非常广泛的,其原因在于,它有一个很吸引人的特点,也就是斜率度量了产出对资本投入和劳动力投入的弹性。证明: 而上式参数的经济意义就表示弹性。例题1分析:下列表中给出的1978-1998年间总产出(用国内生产总值GDP度量),劳动投入(用从业人员度量,单位万人),以及资本投入(用固定资产度量),运用OLS法建立我国的生产函数模型为: (3.5.4)年份国内生产总值Y从业人员L固定资本投入K1978198019851987198819891990199119921993199419951996199719983605.64551.38792.111784.014704.016466.018319.521280.425863.634500.646690.758510.568330.474894.379853.34015242361498735278354334553296390964799655546637367199679476885069600699571073.91318.02641.03742.04624.04339.04732.05940.08317.012980.016856.320300.523336.125154.228180.8从上式可以看出:偏斜率系数0.5616表示产出对劳动投入的弹性,也就是说其表示在资本投入保持不变的情况下,劳动投入每增加一个百分点,平均产出增加0.56%。如果将两个弹性系数相加,我么那将得到一个重要的经济参数规模报酬参数,它反映了产出对投入的比例变动。如果两个弹性系数之和为1,则称为规模报酬不变;如果两个弹性系数之和大于1,则称规模报酬递增。在本例中,弹性系数之和是1.3846,表明中国经济是规模报酬递增的。二、半对数线性模型 在研究经济时,有时对经济增长率感兴趣。比如说,经济增长率、未偿付消费者信贷的增长率等。例题2:下表给出了1981-1998年间我国未偿付消费者信贷(国内债务的数据)。现在我们就来计算在此期间的未偿付消费者信贷的增长率。表2年份 Y 年份 Y19811982198319841985198619871988198948.6643.8341.5842.5360.6160.5163.0792.1756.0719901991199219931994199519961997199893.46199.3395.64314.781028.571510.861847.772412.033228.77我们建立模型 (3.5.5)这个模型成为半对数模型。根据OLS估计可以得到样本估计模型: (3.5.6)在模型(3.5.6)中,斜率度量了给定解释变量的绝对变化所引起的Y的比例变动或相对变动。将此限对给变量乘以100,就得到了增长率。证明(解释):正因为此,我们经常把半对数模型称为增长模型或对数线性模型,通常我们用这类模型来测量许多变量的增长率。相应的我们把因变量为线性形势而解释变量是对数形势的模型,称为线性对数模型例题3、表给出了中国19851998年之间的国内生产总值(GNP)与国家银行现金支出的具体数据。通过这个例题我们想了解一下货币支出和国内生产总值的影响。表3 单位:亿元年份 GDP银行现金支出年份 GDP银行现金支出19851986198719881989199019918964.40010202.20011962.50014928.30016909.20018547.90021617.8005694.8006843.9009015.70013490.00015267.60017471.40021998.500199219931994199519961997199826638.10034634.40046759.40058478.10067884.60074462.60079395.70032406.20050412.50072671.00097332.300.900.300.100我们建立下列模型: (3.5.7)其中,国内生产总值 现金支出根据表可以得到模型如下:(3.5.8)对于回归结果(3.5.8)通常的解释时,斜率表示银行现金支出每增加一个百分点,GDP的绝对变化量为20654.32亿元。实际上我们可以证明:,因此斜率实际上表示X每变化一个百分点,Y的绝对变化量(0.01b).三、倒数模型 我们把形如式(3.5.9)的模型称为倒数模型:(3.5.9)模型(3.5.9)的一个显著特征是,随着X的无限增大,Y将逐渐接近渐进值(asymptotic value)在我们很熟悉的固定成本(AFC)和产出模型中,根据经济理论,随着产出的不断增加,固定成本(AFC)将逐渐降低。 另外,我们经常运用的模型恩格尔消费曲线模型(Engel expenditure curve),该曲线主要揭示了消费者对某一商品的支出占其总收入或总消费支出的比例。 如果用Y表示消费者在某一商品的消费支出,X表示消费者总收入,则该商品具有下列特征:1、收入有一个临界值,在此临界值之下,不能购买该种商品。(比如汽车)2、一个满足水平,在此水平之上,无论消费者的收入水平有多高,也不会有任何消费。 倒数模型的一个最重要的用途就是描述宏观经济学中的著名的菲利普斯曲线,菲利普斯曲线是根据英国货币工资的百分比和失业率的数据得到的一条曲线。例题4:根据表4提供的19581969年的美国小时收入指数年变化的百分比Y与失业率X,建立美国的菲利普斯曲线。年份Y%X%年份Y%X%1958195919601961196219634.23.53.43.03.42.86.85.55.56.75.55.71964196519661967196819692.83.64.35.06.16.75.24.53.83.83.63.5根据表4提供的数据可以得到模型: 第五节 多元回归模型的其它检验一、模型约束的检验1、 模型约束条件的检验:如道格拉斯生产函数: 对模型通过两边同时取对数,可以得到: 令 代入模型 (1) 如果规模报酬不变则有:可以用t检验法来检验这个关系是否成立。(1)先作无约束回归:直接估计:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论