版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章基本回归模型授课教师:所在学院:联系方式:
回归模型是计量经济学中最常用的分析工具之一,它用于研究变量之间的关系和影响。在第三章中,我们将介绍基本回归模型,包括一元线性回归模型和多元线性回归模型的原理、案例和软件操作。
重难点:●一元线性回归方程的建立、模型的估计与检验、参数的解释与评估等。●多元线性回归方程的建立、模型的估计与检验、参数的解释与评估等。●相关系数矩阵的分析、方差膨胀因子的计算、特征值和特征向量的分析等。●残差图的分析、带状图的绘制、异方差性的检验与修正等。●自相关图的分析、Durbin-Watson统计量的计算、自相关性的检验与修正等。本章内容:●一元线性回归模型原理、案例与软件操作●多元线性回归模型原理、案例与软件操作
●多重共线性原理、案例与软件操作●异方差性原理、案例与软件操作●自相关性原理、案例与软件操作第一节一元线性回归模型原理、案例与
软件操作授课教师:所在学院:联系方式:一、一元线性回归模型原理(一)一元线性回归模型的定义
回归分析是研究被解释变量对解释变量的依赖关系,其目的是根据解释变量的值预测被解释变量的总体均值。
总体回归线就是当解释变量取不同值时,被解释变量的期望值的轨迹,它表明了因变量的期望值与每个自变量的变动关系。如果被解释变量的期望值随解释变量的变动是有规律的,将这种规律用解释变量的某种函数来表示,则这种函数称为总体回归函数。
由多元函数的极值的求法知应有:正规方程将上述方程组看成是以、为未知量的线性方程组,求解该方程组,可得:这里:
虽如果我们的目的仅仅是估计
和
,那么普通最小二乘法就足够用了。但在回归分析中,我们的目的不仅仅是获得
,
的估计值,,而是要对真实和做出推断。例如,我们想知道和离它们的总体真值
和
有多近,或者靠其期望值有多近,或者,的分布等。为了保证最小二乘估计量的优良性,并对真实β1和β2进行推断,对总体线性回归模型通常做出如下经典假定:假定1:误差项ui的均值为零或条件均值为零。假定2:误差项ui的方差相等(同方差)且为常数,即对于任意给定的Xi值,ui的方差均相等。
假定3:任意两个误差项之间无自相关,即误差项ui和uj(i≠j)不相关。即两次不同的观测值之间不相关。(称为序列不相关或无自相关性)。
假定4:误差项ui和Xi不相关。
该假定表示误差项u和解释变量X是不相关的。也就是说在总体回归模型中,X和u对Y有各自的影响。但是,如果X和u是相关的,就不可能评估他们各自对Y的影响。此假定有时候表述为X是非随机变量。
假定5:对于回归模型的设定是正确的,是不存在设定偏误的。
正确设定回归模型是至关重要的。如果模型遗漏了重要变量或选择了错误的函数形式,那么,要对所估计的回归模型做出有效的解释是靠不住的。回归分析以及由此而得到的结果,是以所选模型为条件的。因此,在建立经济计量模型时,必须谨慎而小心。
假定6:对于多元线性回归模型,没有完全的多重共线性。就是说解释变量之间没有完全的线性关系。
上述所有假定都是针对总体回归模型而言的,而不是关于样本回归模型的。
如果线性回归模型满足经典假定,则称其为经典线性回归模型。
在经典线性回归模型的假定条件下,最小二乘估计量具有较好的统计性质,这些性质包含在高斯—马尔可夫定理之中。
高斯—马尔可夫定理:在给定经典线性回归模型的假定下,最小二乘估计量是最佳线性无偏估计量。
第一,它是线性的。即它是回归模型中的被解释变量Y的线性函数。
第二,它是无偏的。即
第三,它是有效的,即它在所有回归方程参数的线性无偏估计量中具有最小方差。具有最小方差的无偏估计量叫做有效估计量。最佳线性无偏估计特性保证估计值最大限度的集中在真值周围,估计值的置信区间最小。(三)判定系数R2
样本回归线是对样本数据的一种拟合,为了评价样本回归线对样本数据的的拟合程度,我们引入拟合优度的概念。它是评价样本回归线对样本数据拟合好坏的一个指标。
如果全部观测点都落在样本回归线上,我们就得到一个完美的拟合,但这种情况很少发生。一般情况下,总有一些正的ei
和一些负的ei
,我们只能希望这些围绕着回归线的残差尽可能小。判定系数R2
就是表示这种拟合优劣的一个度量。
据样本回归模型可得:总变差的分解两边取平方得:对所有观测值求和,得
注意到:于是表示实测的Y值围绕其均值的总变异,称为总平方和(TSS)。来自解释变量的回归平方和,称为解释平方和(回归平方和)(ESS)。围绕回归线的Y值的变异,称为残差平方和(RSS)。TSS=ESS+RSSTSS(总平方和)=RSS(残差平方和)+ESS(回归平方和)图
Yi的变异分解为两个部分
由总离差平方和分解式得:R2的定义定义R2为:
上述定义的R2
称为判定系数(可决系数),它是对回归线拟合优度的度量。就是说,R2
测度了在Y的总变异中由回归模型解释的那个部分所占的比例或百分比。
对于一组数据,TSS是不变的,所以RSS↑(↓),则
ESS↓(↑)。
判定系数R2
的含义还可以从另一个角度来理解,即判定系数R2等于样本观测值Yi与回归直线方程拟合值之间的简单相关系数的平方。即证明:证明:续上页(1)(2),对每个i都有意味着回归线完美地拟合了样本数据。(3),对每个i都有R2的性质因为所以
意味着被解释变量与解释变量之间无任何关系。此时,而回归线是一条平行于X轴的直线。(四)置信区间
设是一个待估参数,给定,若由样本确定的两个统计量和满足:则称区间是的置信水平(置信度)为的置信区间.和分别称为置信下限和置信上限
对置信区间的要求:1.要求以很大的可能被包含在区间内,就是说,概率要尽可能大.即要求估计尽量可靠.
。2.估计的精度要尽可能的高.如要求区间长度尽可能短,或能体现该要求的其它准则.【说明】可靠度与精度是一对矛盾,一般地,在样本容量一定的条件下,若要提高区间估计的可靠性,则估计的精度就会降低;若要提高区间估计的精度,则估计的可靠性就会降低。
确定置信区间的原则是:在保证可靠度(给定置信度
)的条件下尽可能提高区间估计的精度(使置信区间的长度尽可能短).一个正态总体均值的区间估计
并设为来自总体的样本,分别为样本均值和样本方差.1.为已知时,均值的置信区间或可得到
的置信水平为的置信区间为可得到
的置信水平为的置信区间为为未知时,均值的置信区间ui正态性假定和普通最小二乘估计量,
和
的性质
(一)ui
正态性假定
在回归分析中,我们的目的不仅仅是得到,而且要用推断。因此,我们需要得到的置信区间,通过置信区间去判断这种推断的可靠性。这就需要的概率分布。
在最小二乘估计式中,是Yi
的线性函数,从而也就是ui的线性函数。要推断的置信区间,我们就必须获得ui的概率分布。在回归分析中,人们常常假定ui服从正态分布。即且
1.ui代表回归模型中未包含的变量的集合。这些未引入的变量的影响是微弱的和随机的。根据中心极限定理,如果存在大量独立且同分布的随机变量,随着这些变量个数的增大,它们的总和将趋向正态分布。2.即使变量个数不是很大或这些变量不是严格独立的,它们的总和仍可视同正态分布。
ui的正态假定理由如下:
正态性假定并不影响对参数的点估计,所以有时不列入基本假定,但这对确定所估计参数的分布性质是需要的。,和
的性质
1.2.回归系数和的置信区间1.当已知时,由此可得到的置信度为(1-α)的置信区间为:同理我们可得到的置信度为(1-α)的置信区间为:其中:置信区间的长度为:显然,置信区间的长度随着标准误的增大而增大。当未知时,由此可得到β2的置信度为(1-α)的置信区间为:这里:置信区间的长度为:同理我们可得到的
β1置信度为(1-α)的置信区间:
(五)假设检验
假设检验问题是统计推断的另一类重要问题。是寻找如何利用样本值对一个具体的假设进行检验的方法。其基本原理就是人们在实际问题中经常采用的所谓实际推断原理(也称为小概率事件原理):
“一个小概率事件在一次试验中几乎是不可能发生的”.假设检验的基本思想:通过提出假设,利用“小概率原理”和“概率反证法”,论证假设的真伪的一种统计分析方法。小概率原理:也就是实际推断原理,它认为在一次实验中,概率很小的事件,实际上是不可能发生的。概率反证法:在假设H0是正确的前提下,出现一个概率很小的事件,则以很大的把握否定假设H0。假设检验的思想回归系数的显著性检验——t检验
设总体回归模型为:
解释变量X对被解释变量Y的线性影响是否显著等价于β2
是否等于零。
若X对Y的线性影响是显著的,则有否则,原假设备择假设构造t统计量
在回归系数的显著性检验中,我们通常设定的假设为:
在原假设成立的条件下,双侧假设检验
给定显著水平,查t分布表,使得或得到拒绝域为(t值的集合):判别:若,则拒绝原假设。给定显著水平假设零假设成立t-统计值临界值,拒绝零假设;,不能拒绝零假设。检验步骤假设检验中的相关问题
1.显著性水平
显著性水平是假设检验中犯第I类错误的概率(错误地拒绝了真实的原假设的概率)。越小临界值越大,拒绝域越小,犯第I类错误的概率越小。2.检验的P-值例如检验假设:检验统计量:
利用样本的观测值计算检验统计量T的观测值为t,即设显著性水平为,则若,则拒绝原假设再记注意到:等价于所以,若,则拒绝原假设。利用P-值的检验规则:P-值<显著性水平,拒绝原假设;P-值>显著性水平,不能拒绝原假设。
类似地,可以得到单侧假设检验的P值。
P
值是假设检验的实际显著性水平,是犯第I类错误的实际概率。
被解释变量个值Y0的1-α的预测区间为:
二、案例分析与软件操作【案例3-1】探究城镇居民人均消费支出与城镇居民人均可支配收入之间的关系。
为了更清晰地介绍EViews和Stata的具体操作,本书使用具体案例进行分析。本案例以城镇居民人均实际消费支出(记为Y)为被解释变量,城镇居民人均实际可支配收入(记为X1)为解释变量进行分析。城镇居民人均实际消费支出和实际可支配收入数据为从国家统计局网站下载的1991—2020年城镇居民人均消费支出及人均可支配收入数据,通过物价指数(1990年=100)调整得到。设回归模型为
Yt=β0+β1X1t+ut
t=1991,1992,…,2020
(一)Eviews操作1.建立工作文件打开EViews软件后,在主菜单上依次点击File→New→Workfile。由于本案例使用的数据为年度时间序列数据,所以在创建工作文件时,在Frequency中选择数据频率为Annual(年度),在Startdate和Enddate中分别输入开始时间1991和结束时间2020,点击OK。2.输入数据在EViews的命令框中输入“datayx1”,如图3-4所示。回车后,出现Group(组)窗口,界面如图3-5所示。或者在EViews主界面菜单栏点击Quick→EmptyGroup(EditSeries),如图3-6所示,在所出现的Group(组)窗口界面中输入数据序列,序列名默认为SER01,SER02,…。出现如图3-5所示的Goup窗口数据编辑框后,在对应的Y和X1下输入数据。如图3-7所示。
输入数据后,点击右上角的“X”,弹出图3-8所示弹框,若想修改数据组名称可以点击Name进行修改;若不修改则点击Yes,默认组名为group01。3.估计参数采用最小二乘法估计参数,可以在命令框中输入“lsycx1”,如图3-9所示,之后回车。或者在菜单栏中点击Quick→EstimateEquation,出现如图3-10所示对话框,在Method中选择LS-LeastSquares(NLSandARMA),在空白命令框中输入“ycx1”,点击确定,即出现回归结果,最小二乘法估计结果如图3-11所示。
图3-11
保存参数估计结果:点击EViews工作文件窗口X(在主页面右上角)→弹框中点击Name→若修改名称则在Nametoidentifyobject中输入新的名称,如不修改,则默认为eq01,单击OK即可。若想要显示回归结果的残差图,在Equation框中点击Resids,出现Residual(残差项)、Actual(实际值)、Fitted(拟合值)的图形,如图3-12所示。图3-12回归结果残差图4.预测预测2021年城镇居民人均消费支出:在Workfile窗口中双击Range,或者依次点击Proc→Structure→ResizeCurrentPage(如图3-13所示),弹出如图3-14所示的界面,将Enddate框中2020改为2021,单击OK,随即弹出如图3-15的对话框,询问是否继续插入一行数据调整工作文件区间,点击Yes。在group01窗口中输入2021年的经物价指数调整后的X值14060,如图3-16所示。在Equation窗口(见图3-11)中点击Forecast,弹出预测对话框窗口如图3-17所示,在预测对话框窗中最上面的方框显示预测的方程及序列,中间左边方框是序列命名,默认预测序列名称为预测序列名后加字母f,S.E.(optional)方框为对预测序列个值进行预测时的标准误,中间右边方框为预测方法,本例为静态预测,对自回归模型还可选择动态预测,下面左边方框为设置预测样本区间,右边为输出设置选项,分别为预测图及预测估计值,最下面选项表示在默认状态下插入实际值作为样本外的观测值。本例保持默认设置,点击OK。
执行命令后,预测结果窗口见图3-18,生成的图像为一个两倍标准误的个值预测区间图,在曲线上移动鼠标可以分别看到上下限的预测值,右边为预测效果评价指标。同时在Workfile窗口中自动生成一个名为yf的序列,双击yf序列图标,打开yf序列即可看到1991—2021年的点预测值。如需做因变量均值的区间预测,在EViews中可按前述公式计算。图3-18预测结果窗口
(二)Stata操作1.导入数据启动Stata软件,在主菜单中点击DataEditor(Edit)图标(如图3-19所示),进入数据编辑器,沿用案例3-1,将Excel中的数据粘贴到数据编辑器中,弹出提示询问是否将第一行当成变量名称,选择Variablenames(如图3-20所示)。在Variables编辑框中的Name右侧可以更改变量名称(如图3-21),重复上述改名步骤,将数据全部导入,详细导入数据过程可参见第二章Stata基本操作部分。2.参数估计在Command命令框中输入regressyx1后回车,则出现参数估计结果,命令可简写为regyx1,估计结果窗口见图3-22。若想做无常数项回归,命令则为:regyx1,noconstant。
图3-22一元线性回归模型参数估计结果根据图3-22可知,估计的一元线性回归方程为y=510.6764+0.6275921x1
第二节多元线性回归模型原理、案例与
软件操作授课教师:所在学院:联系方式:一、多元线性回归模型原理(一)多元线性回归模型的定义
回归分析模型中需要引入多个解释变量,若被解释变量与多个解释变量呈线性关系,则称为多元线性回归模型。
含被解释变量Y和k-1个解释变量X2,X3,…,Xk
的多元总体回归模型表示如下:
多元总体回归模型均值表达式为(理论回归线):模型的增量形式为:或
若变量X3i,X4i,…,Xki
保持不变,则有此时有,即多元回归模型的样本回归函数及其随机形式若对总体进行n次观测,得到观测样本:利用观测样本对模型进行估计可得多元回归模型的样本回归函数:同样,多元回归模型的样本回归函数也有如下随机形式:其中各变量的解释和假设与一元线性回归模型相同。或多元线性回归分析要解决的主要问题,仍然是如何根据变量的样本观测值去估计模型中的各参数,即用样本回归函数去估计总体回归函数,并且对估计的参数和回归方程进行统计检验,最后利用回归模型进行预测和经济分析。多元回归模型的矩阵形式由于矩阵可以简化方程的表达形式,并且矩阵运算也很简洁方便,下面介绍多元回归模型的矩阵形式。对总体回归模型进行n次观测,得到观测值:观测次数即矩阵形式为:U记,,则多元总体回归模型的矩阵形式为:多元回归模型样本回归函数的矩阵形式为:其中多元回归模型样本回归函数随机形式的矩阵表示为:或其中,多元线性回归模型的经典假定为:假定1:ui
均值为零。即假定2:ui
同方差。即假定3:ui无序列相关性。即
假定2和假定3的矩阵表达是:其中,In表示n阶单位矩阵。称为U的协方差矩阵假定4:ui
与每一个解释变量不相关,X2,X3,…,Xk为非随机变量。即假定5:X2,X3,…,Xk之间无完全多重共线性。假定6:回归模型无设定偏误。假设7:假定ui服从正态分布,即ui~N(0,σ2)。多元回归模型参数的最小二乘估计利用样本观测值对模型进行估计,其多元回归模型的样本回归函数为:残差为:
要使残差平方和:达到最小,其必要条件是:即此方程组称为正规方程组。注意:所以,最小二乘法实际上是要求残差与所有的解释变量不相关。整理正规方程组可得:矩阵形式:令则由古典假设条件中解释变量无多重共线性
乘估计量的矩阵表达式为:于是,正规方程组的矩阵形式为:OLS回归直线的性质(1)残差和等于零,(2)估计的回归直线通过样本均值:
(4)(5)即即(二)判定系数R2与调整的判定系数与一元回归模型一样,为了说明多元样本回归线对样本观测值的拟合情况,可用多重判定系数R2
作为回归方程拟合优度的一个度量;它给出了在被解释变量
Y的总变差中由多个解释变量做出了解释的那部分变差的比重。多元回归模型中Y的变差分解式:自由度:即判定系数R2的定义为:
由此可以看出:判定系数R2
的一个重要性质是:在回归模型中增加一个解释变量后,它不会减少,而且通常会增大。即R2是回归模型中解释变量个数的非减函数。注意到:
使用
R2来判断具有相同被解释变量
Y和不同个数解释变量X
的两个回归模型的优劣时就不太适当。此时,需要对R2做适当的调整。存在的问题:为了消除解释变量个数对判定系数R2的影响,需使用调整后的判定系数:式中,k为包括截距项在内的模型中的参数个数。在二元回归模型中k=3,在一元回归模型中k=2。实质是对增加的变量个数的惩罚
调整的判定系数
和R2
的关系为:
1.判定系数的大小描述的是列入模型的所有解释变量对应变量的联合影响程度,不能说明模型中每个解释变量的影响程度。2.如果回归的主要目的是做经济结构分析,不能只追求高的判定系数,而是要得到总体回归系数可信的估计量,判定系数高并不一定每个回归系数都可信。判定系数低也不意味回归系数不可信。回归分析中应用时应注意的问题3.如果建模的目的是为了预测应变量的值,不是为了正确估计回归系数,一般可考虑有较高的判定系数。
(三)模型的检验
1.回归系数的显著性检验—t检验设总体回归模型为:
在ui
服从正态分布及经典假定条件下,由参数估计量的性质知即
(k为模型中未知参数的个数)可以证明,在ui
服从正态分布及经典假定条件下,
1检验解释变量Xj
是否对被解释变量Y有显著性影响就是检验解释变量Xj
是否与被解释变量
Y线性相关。即是检验下列原假设:
对于下面的检验问题建立t统计量:
假设原假设成立t-统计值
检验步骤:计算查表
注:改变变量的测量单位可能会引起回归系数值的改变,但不会影响t值。即不会影响统计检验结果。2.回归模型的整体显著性检验—F检验
基本思想:
在多元回归中包含多个解释变量,它们与被解释变量是否有显著关系呢?当然可以分别检验各个解释变量对被解释变量影响的显著性。
但是我们更关注的是所有解释变量联合起来对被解释变量影响的显著性,或整个方程总的联合显著性,需要对方程的总显著性在方差分析的基础上进行F检验。原假设和备择假设形式如下:
检验目的:判断被解释变量Y是否与X2,X3,…,Xk
在整体上有线性关系。
(所有解释变量联合起来对被解释变量的影响不显著)
整体显著性检验。并且,当F
检验显著时,也不一定每个解释变量都对Y
有显著影响。而在多元回归模型中,可以证明,对偏回归系数的逐一显著性检验并不能代替对回归模型的定理:对于多元总体回归模型在ui
满足经典假设和服从正态分布的条件下,有且RSS与ESS相互独立。
由上述定理可得,在原假设
H0成立的条件下,统计量:从F的表达式可以看出,如果原假设是真实的,则表明
Y与X2,X3,…,Xk
整体上无线性关系,
Y的变异全部来源于干扰项ui
,F统计量的值较小。
如果原假设是虚假的,则表明Y与X2,X3,…,Xk
整体上有线性关系,X2,X3,…,Xk对Y有显著影响,则回归平方和ESS
要远远大于残差平方和RSS,从得到一个较大的
F统计量。
给定显著水平假设原假设成立F-统计值临界值,拒绝原假设;,不能拒绝原假设。检验步骤:计算查表注意到:于是可得F统计量与判定系数R2
有如下关系:
由上式可以看出,F统计量与R2是同向变化的。R2越大,F值也越大。当R2=0时,F=0;R2=1时,F
无穷大。同时,F值也与样本容量n有关,n越大,F值也越大。另外,F
检验是一个联合检验,即使所有的t
统计量都不显著,F
统计量也可能显著。
【注意】F检验是对回归模型整体显著性的检验,本质上也是对判定系数R2
的一个显著性检验。判定系数R2
只是提供了对拟合优度的一种度量指标,
R2
的值究竟要达到多大模型才能算通过检验呢?并没有给出确定的界限。而F检验则不同,在给定显著性水平下,它给出了统计意义上的严格结论。(四)多元回归模型的设定偏误在前面的讨论中,我们假定所设定回归模型是正确设定的,正确设定的回归模型应具有如下特点:
1.模型中只包含关键变量。就是说所选定的模型是最简便的。
2.模型参数可识别。对于给定的一组数据,估计的参数具有唯一值。
3.模型估计的回归系数与经济理论一致。
4.通过模型的各种统计与计量检验。1.正确设定的模型2.多元回归模型的设定偏误1.回归模型中包含了无关解释变量2.回归模型中遗漏了重要解释变量3.回归模型中的函数形式设定偏误多元回归模型的设定偏误主要包括以下三种:多元回归模型中包含了无关解释变量,即对模型进行了过度拟合。就是说,我们把一个对Y没有影响的解释变量放到了回归模型中。假定真实模型为:而我们设定的回归模型为:1、回归模型中包含了无关解释变量(1)(2)在设定的模型中,X3是一个与被解释变量Y无关的变量,解释变量
X3对Y没有影响。引入X3
将导致如下结果:
(1)有误模型的参数最小二乘估计量均无偏,即且以上估计量均为一致估计量。
(2)
的方差非最小,不具有效性。即也就是说,在设定的模型中,X3
的引入将使
和的方差无必要地增大,降低估计的精度。直观上讲,将
一个与被解释变量Y无关的变量X3引入作为解释变量,只会加剧解释变量之间的多重共线性问题,从而导致参数估计量的方差变大。
(4)因为变大,在做假设检验时,接受错误假设的概率会增大。
(3)随机误差项的方差的估计仍为无偏估计,即2、回归模型中遗漏了重要解释变量在多元回归模型中,遗漏了一个实际上应该包括在总体模型中的解释变量称为对模型设定不足。就是说,我们遗漏了一个对被解释变量有显著影响的解释变量。假定真实模型为:而我们设定的回归模型为:
X3是对Y有显著影响的变量,遗漏X3将导致如下后果:
而且不论样本多大,偏误都不会消失。因为,无偏性的证明用到了随机误差项与解释变量不相关性。如果遗漏了变量X3
,且与变量X2
相关,则
如果X3
与X2
不相关,则有
(4)对于所估计的参数的统计显著性检验,容易导出错误的结论。3、回归模型的函数形式设定偏误如果回归模型的函数形式设定有误也会产生设定误差。经济理论只能告诉我们经济系统中各经济变量之间的相互关联性,并不能阐明变量之间关联的函数形式。
线性函数:例如,使用生产函数时,据经济理论我们只能知道产出是投入要素的函数,并未告诉我们具体的函数形式。我们可以用线性函数也可以用对数线性函数去研究它。对数线性函数:
不同的模型中的参数的经济意义是不同的,只有选择了正确的函数形式,才能得到有效估计和正确的经济解释。二、案例分析与软件操作【案例3-2】研究影响城镇居民人均消费支出变化的因素
影响城镇居民人均消费支出(Y)变化的因素不只有人均可支配收入(X1),为了更好地探究影响城镇居民人均消费支出变化的因素,这里引入恩格尔系数(X2)。设回归模型为
Yt=β0+β1X1t+β2X2t+ui
t=1991,1992,…,2020
(一)Eviews操作1.添加变量依次点击Workfile窗口中的“Object→NewObject...”,见图3-28。由于本例是时间序列数据,因此在弹框的Typeofobject中选择Series,在Nameforobject中自定义变量名为x2,点击OK,见图3-29。用相同的方式可以添加其他新变量。此时Workfile窗口中出现变量x2,见图3-30,双击变量即可输入数据。或者在命令框中输入“datayx1x2”后回车,在新的group中输入数据,如图3-31所示。2.估计参数方法一:在命令框中输入“lsycx1x2”后回车。方法二:在菜单栏中点击“Quick→EstimateEquation”,弹出对话框,在Method中选择LS-LeastSquares(NLSandARMA),在方程定义框中输入“ycx1x2”,Sample为“1991
2020”,点击确定,得到估计结果.
图3-32参数估计结果
因F统计量对应的P值=0.0000<0.01,故拒绝原假设H0:β1=β2=0,即在0.01的显著性水平下,回归方程整体显著。变量X1、X2对应的估计系数t统计量的P值分别为0.0000、0.0048,均小于0.01,故参数β1和β2在0.01下显著,且R2=0.9972,模型拟合得很好。保存参数估计结果:点击EViews工作文件窗口X(在主页面右上角)→弹框中点击Name→若修改名称则在Nametoidentifyobject中输入新的名称,不修改则默认为eq02→最后再点击OK。3.预测进行回归预测的操作方法和显示回归模型预测的图形与一元线性回归类似,此处就不再赘述。
(二)Stata操作1.添加变量与一元线性回归步骤一样,点击DataEditor(Edit)图标进入数据编辑器,添加新的变量,并且在右侧选中变量后,在右下角编辑框中更改变量名称,如图3-33所示。2.估计参数在Command命令框中输入regyx1x2后回车,则出现参数估计结果,如图3-34所示,图3-34中各部分含义与图3-22一元线性回归模型参数估计结果含义相同,此处略过。3.预测参照课本进行练习。
图3-34多元线性回归模型参数估计结果根据图3-34可知,估计的二元线性回归方程为y=1607.71+0.5892635x1-22.11175x2。第三节多重共线性原理、案例与软件操作授课教师:所在学院:联系方式:
一、多重共线性的概念对于多元线性回归模型:如果某两个或两个以上解释变量之间出现了完全的或近似的线性关系,则称模型存在多重共线性。
就模型中解释变量之间的关系而言,有三种可能(1)r=0,解释变量间非线性相关,变量间相互正交。这时已不需要多元回归,每个参数
j都可以通过Y对Xj
的一元回归来估计。(2)
r
=1,解释变量间完全共线性。此时模型参数将无法确定。直观地看,当两变量按同一方式变化时,要区别每个解释变量对被解释变量的影响程度就非常困难。(3)0<
r
<1,解释变量间存在一定程度的线性相关。实际中常遇到的是这种情形。随着共线性程度的加强,对参数估计值的准确性、稳定性带来影响。因此我们关心的不是有无多重共线性,而是多重共线性的程度。
完全多重共线性对于多元线性回归模型:如果存在不全为0的数,使得则称解释变量之间存在完全多重共性线。
对于多元线性回归模型的矩阵表示其中完全多重共线性是指:,即矩阵X的列向量组是线性相关的(至少有一列可以表示为其余各列线性组合)。
若多元线性回归模型不含截距项,即如果存在不全为0的数,使得则称解释变量之间存在完全多重共性线。显然,若解释变量中的部分变量之间存在完全多重共性线,则变量之间也存在完全多重共性线。
近似多重共线性在实际问题中,完全的多重共线性并不多见,常见的是(*)式近似成立的情形,即存在不全为0的使得称解释变量之间存在近似多重共性线。
近似多重共性线也可表述为:对于多元线性回归模型:如果存在不全为0的数,使得其中,为随机变量(随机误差项)。则称解释变量之间存在近似多重共性线。
解释变量之间存在的多重共线性,也称为复共线性。即解释变量中的某一变量可被其余变量线性表示(某一变量与其余变量之间具有线性关系)。在实际经济问题的多元回归分析中,多重共线性的情形很多。注意,模型无多重共线性,是指解释变量之间不存在线性关系,但解释变量之间可以存在非线性关系。
多重共线性产生的原因:(1)经济变量一般具有共同变化的趋势。如在经济上升时期,收入、消费、就业率等都增长,当经济收缩期,收入、消费、就业率等又都下降。当这些变量同时进入模型后就会带来多重共线性问题。(2)模型中引入了解释变量的滞后变量。通常经济变量Xt
与其滞后变量Xt-1常常呈现高度相关性,从而导致模型出现多重共线性问题。
(3)样本资料的限制。抽样限制导致数据差异不大,也可能导致多重共线性问题。(4)利用截面数据建立模型也有可能出现多重共线性问题。许多变量的变化与发展规模相关,会呈现共同增长的趋势,例如,生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业二者都小。实际上,经济变量之间的内在联系是产生多重共线性的根本原因。
二、多重共线性的后果(一)完全多重共线性产生的后果1.参数的最小二乘估计量不存在当模型出现多重共线性时,X为降秩矩阵,则不存在,不可计算。从偏回归系数意义看:在X2和X3完全共线性时,无法保持X3不变,去单独考虑X2对Y的影响(X2
和X3的影响不可区分).2.参数估计值的方差无限大。
(二)近似多重共线性产生的后果1.参数估计量的方差变大例如,在二元回归模型:中,可以证明
的方差为:其中R2是X2对X3(含截距)进行一元回归所得到的R2
(1)当X2
与X3完全不共线时,
,此时(2)当X2
与X3完全共线时,,此时
(3)当X2
与X3近似共线时,
,此时当时,是时的2.78倍。
2.参数估计量的标准误差变大,总体参数的置信区间也随之变大。3.当存在严重多重共线性时,参数的假设检验容易做出错误的判断,有时可能产生在回归方程高度显著的情况下,某些回归系数通不过显著性检验的情形。
三、多重共线性的检验方法(一)
自变量之间的简单相关系数分析变量之间的两两相关性,如果自变量间的简单相关系数值很大,则认为可能存在多重共线性,但无确定的标准判断相关系数的大小与共线性的关系。有时,相关系数值不大,也不能排除解释变量之间存在的多重共线性。由第三章第二节可知,对于多元回归模型
度量了由于Xj
与其它解释变量之间线性关联程度对估计量的方差的影响,称其为方差膨胀因子,定义为显然有(二)
方差膨胀因子
由于度量了解释变量Xj
与其余k-1个解释变量(包括常数项)的线性相关程度。相关程度越强,说明解释变量之间的多重共线性越严重,也就越接近于1,也就越大。反之,解释变量之间的多重共线性越弱,也就越接近于0,也就越接近于1。由此可见,的大小反映了解释变量之间是否存在多重共线性,因此可由它来度量多重共线性的严重程度。经验表明,当≥10时,就说明解释变量Xj
与其余解释变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计值。
(三)容忍值法容忍值(TOL)实际上是VIF的倒数,即TOL=1/VIF。其取值在0到1之间,TOL越接近1,说明自变量间的共线性就越弱。在应用时一般会先预定一个TOL值,容忍值小于指定值的变量不能进入方程,从而保证进入方程的变量的相关系数矩阵为非奇异阵,计算结果具有稳定性。但是,有的自变量即使通过了容忍性检验进入方程,仍可导致结果的不稳定。
(四)直观判定法1.采用时间序列数据做样本,以简单线性形式建立的计量经济模型,往往存在多重共线性。2.当增加或剔除一个解释变量,或者改变一个观测值时,回归系数的估计值发生较大变化,我们就认为回归方程存在严重的多重共线性。3.一些重要的解释变量在回归方程中没有通过显著性检验时,可初步判断存在着严重的多重共线性。4.有些解释变量的回归系数所带符号与定性分析结果违背时,可能存在多重共线性问题。5.解释变量间的相关系数较大时,可能会出现多重共线性问题。
(五)条件数与特征根判定法1.特征根分析由于矩阵的行列式等于其全部特征值的乘积,所以,当时,矩阵至少有一个特征值近似为零。设此近似为零的特征值为,对应的特征向量为c,则则表明变量之间存在近似多重共性。
从以上分析可以看出,矩阵有多少个特征值近似为零,变量之间就存在多少个近似多重共性关系,并且这些多重共性关系的系数向量就是这些特征值对应的特征向量。
2.条件数由特征根分析知,当特征根近似为零时,解释变量之间就存在近似多重共性关系,那么特征根近似为零的标准如何确定呢?设矩阵的最大特征根为,称为特征根的条件数。
条件数度量了矩阵的散布程度,一般认为:若变量之间不存在近似多重共线性。变量之间存在较强的近似多重共线性。变量之间存在严重的近似多重共线性。
四、多重共线性处理方法(一)剔除共线性的变量(二)逐步回归法(三)增加样本容量(四)使用有偏估计
五、软件操作案例【案例3-3】多重共线性检验及修正
本案例将我国城镇居民实际人均消费支出(y)作为被解释变量,解释变量为城镇居民家庭实际人均可支配收入(x1)、城镇居民家庭恩格尔系数(x2)、人均国内生产总值(x3),数据见表3-1。表3-1
1991—2020年我国城镇居民实际人均消费支出相关数据
年份城镇居民实际人均消费支出(元)城镇居民家庭实际人均可支配收入(元)城镇居民家庭恩格尔系数(%)人均国内生产总值(元)19911406.191645.0753.8191219921519.761842.4353233419931672.872042.1650.33027年份城镇居民实际人均消费支出(元)城镇居民家庭实际人均可支配收入(元)城镇居民家庭恩格尔系数(%)人均国内生产总值(元)19941820.542232.4150.0408119951929.322335.5750.1509119961973.302436.5448.8589819972050.332527.4046.6648119982138.952678.6344.7686019992311.542931.4942.1722920002492.863132.2939.4794220012629.573397.7938.2871720023010.773846.1037.7950620033212.394179.9037.11066620043410.444474.1237.71248720053705.114894.5936.71436820063996.875404.5335.81673820074383.896045.4436.32049420084655.606534.7437.92410020095114.607162.1136.52618020105438.067714.0435.73080820115806.738353.3236.33630220126224.389170.0736.23987420136726.659629.7135.04368420147122.6710288.7830.14717320157525.2710973.7630.05023720167959.5311593.5529.35413920178297.8712354.6528.66001420188681.4313049.7327.76600620199067.1313686.1527.67058120208513.1113817.2929.272447数据来源:国家统计局网站。续表(一)Eviews操作1.创建工作文件可以通过点击“File→New→Workfile”,进入界面之后,在Startdate后输入“1991”,在Enddate后输入“2020”。2.输入数据通过在Command下输入指令“datayx1x2x3”后回车,将表上的数据复制粘贴到图3-39所示界面,然后点击Group对象菜单栏的Name,将以上结果保存在默认命名为group01的组对象中。3.估计多元线性回归模型在命令窗口输入命令“lsycx1x2x3”后回车,得到回归结果。
4.
简单相关系数检验法利用简单相关系数可以分析解释变量之间的两两相关情况。在Command指令中输入“corx1x2x3”后回车,。5.方差膨胀因子检验法6.利用逐步回归法进行修正建立一元线性回归模型。接着做二元线性回归再建立三元线性回归模型确定最终建立的模型。
7.
逐步回归的EViews菜单操作方法在EViews主菜单中单击“Quick→EstimateEquation...”(如图3-50所示),在弹出的“EquationEstimation...”对话框中单击Method方框下拉箭头,在下拉菜单中选择STEPLS(如图3-51所示),弹出对话框如图3-52所示。图3-52为逐步回归最小二乘法方程定义窗口,选项卡“Specification”中的第一个方框填写被解释变量,后面填写包含在回归方程中的常数项,第二个方框填写通过逐步回归进行筛选的解释变量。单击“Options”选项卡,弹出对话框如图3-53,在图3-53中定义逐步回归方法,默认方法为向前逐步回归,停止准则默认为根据P值筛选,将向前(变量进入模型)P值改为0.05,向后(变量剔除模型)P值改为0.1,其他采用默认设置,点击“确定”,可得逐步回归结果如图3-54所示。
图3-54
SETPLS回归结果
由图3-54逐步回归结果可知,软件选择的解释变量为x1、x3,由于x3符号不符合经济理论,上述模型仍然存在多重共线性问题(见图3-47该模型VIF检验结果),这正是我们在前面做二元回归时淘汰的模型。所以这里大家要特别注意,软件中逐步回归程序仅是从统计检验角度来选择变量,至于结论是否合理,还需要我们运用经济理论和经验来判断。(二)Stata操作1.首先,对被解释变量和所有解释变量进行回归,通过观察回归结果进行直观判断,查看模型是否存在多重共线性。在命令窗口输入“regyx1x2x3”,回车后结果如图3-55。
图3-55
y与x1、x2、x3的线性回归结果图3-55的回归结果与图3-41相同,由前面分析易知,根据直观判断法,该模型可能存在严重的多重共线性,下面用相关系数及VIF方法进行检验。计算变量之间的简单相关系数,命令为corx1x2x3简单相关系数计算结果见图3-56,变量间相关系数很高,说明模型中可能存在多重共线性。使用VIF值来判断是否存在多重共线性,计算VIF的命令为estat
vif各变量的VIF值计算结果见图3-57,此结果与EViews计算结果相同(见图3-43)。图3-56解释变量x1、x2、x3之间的相关系数图3-57解释变量x1、x2、x3的VIF值
通过观察VIF值,可以看出模型中解释变量之间存在严重的多重共线性。一般来说,如果模型中存在多重共线性,实践中可以选择剔除不重要的共线性变量、采用逐步回归筛选解释变量等方法来克服解释变量之间的多重共线性,操作方法与EViews类似,此处省略。第四节异方差性原理、案例与软件操作授课教师:所在学院:联系方式:
一、异方差性的概念在回归模型的基本假设中,假定随机误差项u1,u2,…,un
具有相同的方差,独立或不相关,即对于所有样本点,有:但是在建立实际问题的回归模型时,经常存在与此假设相违背的情况,一种是经济计量建模中常说的方差非齐性或异方差性,即:
异方差性:
在线性模型的基本假定中,关于方差不变的假定不成立,其他假定不变的情形称为异方差性。即随机误差项的协方差矩阵为:异方差问题多存在于横截面数据中。
图形表示
二、异方差产生的原因实际问题是非常错综复杂的,因而在建立实际问题的回归分析模型时,经常会出现某一因素或一些因素随着解释变量观测值的变化而对被解释变量产生不同的影响,导致随机误差项产生不同方差。通过下面的几个例子,我们可以了解产生异方差性的背景和原因。
引起异方差的主要原因有(1)模型中省略了重要的解释变量,该解释变量有逐渐增大或减小的趋势。(2)模型的函数形式设定不准确,如将指数模型误设为线性模型,则误差有增大的趋势。(3)截面数据样本。
三、异方差产生的后果当一个回归模型中的随机误差项存在异方差时,是否可以继续使用普通的最小二乘法?倘若我们仍然使用,将会产生什么样的后果?
(一)异方差对参数估计特性的影响
1.回归参数估计量仍具有无偏性和一致性。以一元线性回归模型为例:令:无偏性只利用了E(ui)=0和解释变量的非随机性的假定。
2.回归参数估计量不再具有有效性(即参数OLS估计量的方差不是所有线性无偏估计量中方差最小的)。所以:当存在异方差时,利用普通最小二乘法得到方差将不是最小的(不具有效性)。
当存在异方差时(假定其他经典假设成立),利用普通最小二乘法得到的方差为:同方差时的方差有效性是依赖于同方差和无序列相关假定的。
(二)异方差对参数显著性检验的影响
当模型中存在异方差时,参数的方差有可能大于在同方差条件下的方差。如果仍用普通最小二乘法估计参数,将出现低估参数的真实方差的情况。进一步将导致回归系数的检验值高估,可能造成本来不显著的某些回归系数变成显著。从而导致参数的显著性检验失效。
(三)异方差对模型预测的影响
异方差将导致回归方程的应用效果极不理想,或者说模型的预测功能失效。
四、异方差性检验方法对于异方差性的检验,已经有很多种,下面介绍几种常见的方法。
1.图示检验法2.戈德菲尔德-夸特检验(样本分段比检验)3.怀特(White)检验4.戈里瑟(Glejser)检验
(一).图示检验法1.相关图形分析方差描述的是随机变量取值的(与其均值的)离散程度。因为被解释变量Y与随机误差项u
有相同的方差,所以利用分析Y与X的相关图形,可以初略地看到Y的离散程度与X之间是否有相关关系。如果随着X的增加,
Y的离散程度为逐渐增大(或减小)的变化趋势,则认为存在递增型(或递减型)的异方差。
图形举例用1998年四川省各地市州农村居民家庭消费支出与家庭纯收入的数据,绘制出消费支出对纯收入的散点图,其中用Y表示农村家庭消费支出,X表示家庭纯收入。
2.残差图分析法残差图分析法是一种直观、方便的分析方法。它以残差为纵坐标,以为横坐标画散点图。如果不随而变化,则表明不存在异方差;如果随而变化,则表明存在异方差。
图形举例
(二)戈德菲尔德-匡特检验(样本分段比检验)H0:ui
具有同方差,H1:ui
具有递增型异方差。①把原样本分成两个子样本把样本按某个解释变量的大小顺序排列,略去m个处于中心位置的观测值(通常n
30时,取m
n/4),余下的n-m个观测值自然分成容量相等的两个子样本。)
②用两个子样本分别估计回归直线,并计算残差平方和。两段的样本容量分别为
n1
和
n2,模型参数个数为
k,两段样本回归残差分别为
e1i和e2i,则两段的残差平方和分别为和,从而可计算出各段模型的随机误差项的方差估计量分别为和。
③构造F统计量在H0成立条件下,④判别规则若F
F
(n2-k,n1-k),接受H0
(ui
具有同方差)若F>F
(n2-k,n1-k),拒绝H0
(递增型异方差)
戈德菲尔德-匡特检验的特点:1.要求大样本;2.异方差的表现既可为递增型,也可为递减型;3.检验结果与选择数据删除的个数m
的大小有关;4.只能判断异方差是否存在,在多个解释变量的情下,对哪一个变量引起异方差的判断存在局限。
(三)怀特(White)检验不需要关于异方差的任何先验信息,只需要在大样本的情况下,将OLS估计后的残差平方对常数、解释变量、解释变量的平方及其交叉乘积等所构成一个辅助回归,利用辅助回归建立相应的检验统计量来判断异方差性,并检验回归系数是否全部为0。
以二元回归模型为例第一步:使用普通最小二乘法估计模型并计算残差ei
。第二步:做如下的辅助回归。注:上式中要保留常数项。求这个辅助回归的判定系数R2
。
第三步:计算该辅助回归的判定系数R2。在无异方差的原假设下,可以证明,辅助回归的R2乘以样本容量n渐近地服从自由度为辅助回归中解释变量个数r(不包括常数项)的卡方分布。在本例中,辅助回归有5个解释变量,即r=5。第四步:判别规则是:若,接受H0(ui
具有同方差)若,拒绝H0(ui
具有异方差)
White检验的特点:不仅能够检验异方差的存在性,同时在多变量的情况下,还能判断出是哪一个变量引起的异方差,通常用于截面数据的情形。此方法不需要异方差的先验信息,但要求观测值为大样本。
(四)戈里瑟(Glejser)检验用残差绝对值对每个解释变量建立各种回归模型,例如等等,并检验回归系数是否为0。
应用
t检验判断,如果,则有异方差。Glejser检验的特点是:①既可检验递增型异方差,也可检验递减型异方差。②一旦发现异方差,同时也就发现了异方差的具体表现形式。③计算量相对较大。
五、异方差性的补救当我们所研究的问题存在异方差性时,就违背了线性回归模型的经典假定。此时,就不能用普通最小二乘法进行参数估计。此时必须寻求适当的补救方法,对原来的模型进行变换,使变换后的模型满足同方差性假定,然后进行模型参数的估计,就可得到理想的回归模型。
消除异方差的通常方法是:(一)加权最小二乘法考虑一元线性回归模型
,1.已知时如果每个观察值的误差项方差是已知的,使用为权数,对模型作如下变换:
由于
通过加权变换使误差项变成同方差了。如果加权变换后模型的其他假定条件都满足,则该模型就变成满足经典假定的回归模型了,就可利用普通最小二乘法估计参数,得到的估计量是最佳线性无偏估计量。
通过加权变换使原模型中的异方差误差项转换为同方差误差项,使加权变换后的模型满足最小二乘法的假定,从而使用普通最小二乘法估计参数,这种方法称为加权最小二乘法。
2.未知时
如果是未知的,一般情况下,我们可根据误差与解释变量或被解释变量的关系来确定变换的权数。一般我们先采用戈里瑟检验方法确定ei
与Xi
之间的关系。
2.如与之间为线性关系,则可认为
这时,选择为权数,即对原模型两边同时乘以,将异方差模型变为同方差模型。变换后的模型为:
3.一般情况,如果,则可认为
这时,选择为权数,即对原模型两边同时乘以,将异方差模型变为同方差模型。变换后的模型为:此模型即为同方差模型。(二)模型的对数变换
六、案例分析与
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026浙江宁波市北仑区人民医院公开招聘编外人员1人备考题库(急诊)及答案详解一套
- 2026云南保山昌宁县珠街彝族乡卫生院就业见习岗招聘4人备考题库及完整答案详解1套
- 2026山西工程职业学院招聘博士研究生6人备考题库及答案详解参考
- 2026中国能源建设集团新疆电力设计院招聘27人备考题库及一套完整答案详解
- 2026四川内江市中区白马镇人民政府招考残疾人专职委员的1人备考题库及一套完整答案详解
- 2026福建福州市福清市中医院专业技术人员招聘17人备考题库含答案详解
- 2026甘肃白银市消防救援支队第二批招聘政府专职消防员的20人备考题库及一套参考答案详解
- 2026春人教版数学二年级下册期末复习重点必练易错专项练习卷(五套)
- 2026四川资阳市人力资源和社会保障局资阳市部分事业单位选调工作人员67人备考题库及一套完整答案详解
- 2026中移铁通鲁甸县支撑服务中心招聘业务人员10人备考题库附答案详解
- 铁路基础知识86课件
- 非煤矿山电气安全培训
- 特检院面试试题及答案
- 电商平台客服部门绩效考核方案
- 北京市《配电室安全管理规范》(DB11T 527-2021)地方标准
- 中医医疗技术手册2013普及版
- DZ∕T 0336-2020 固体矿产勘查概略研究规范(正式版)
- 梁湘润《子平基础概要》简体版
- 高速公路涉路施工许可技术审查指南(一)
- 六年级语文非连续性文本专项训练
- 民航服务心理学(空乘服务与管理专业)PPT完整全套教学课件
评论
0/150
提交评论