




已阅读5页,还剩42页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章 高级计量经济学41.数据类型:42.经验经济分析的步骤:4第二章 简单回归模型41.回归分析(regression analysis):42.回归分析的主要内容包括:43.变量间的关系:44.变量关系的描述:45.相关关系的类型:46.线性相关的程度:57.回归分析的意义:58.总体回归线(population regression line)/总体回归曲线(population regression curve):在给定解释变量Xi条件下被解释变量Yi的期望轨迹。59.总体回归函数(PRF):E(yx)=0+1x,510.随机干扰项(stochastic disturbance)或随机误差项(stochastic error):511.样本回归方程(SRF):512.拟合值:当x=i时,y通过样本回归方程算出来的值。即513.样本回归模型(sample regression model):514.回归分析的主要目的:根据样本回归函数SRF,估计总体回归函数PRF。6第三章:简单回归方程分析61.简单回归方程:62.线性的含义:63.OLS斜率估计,0和1的普通最小二乘估计值的推算:64.OLS法是要找到一条直线,使残差平方和最小。75.残差:是对误差项的估计,因此,它是拟合直线(样本回归函数)和样本点之间的距离。76.OLS统计量的代数性质:77.SST=SSE+SSR:88.拟合优度:来衡量样本回归线是否很好地拟合了样本数据的指标。89.判定系数:解释变异与总变异之比。即y的样本变异中被x解释的部分。810.测量单位:811.在简单回归中加入非线性因素(因变量为对数):812.OLS的基本假设:913.定理2.1: OLS的无偏性:914.定理2.2 OLS估计量的抽样方差:915.定理2.3:的无偏估计1016.回归标准误差:1017.的标准误:10第四章 多元回归分析101.多元回归分析的优点:102.多元线性回归模型:103.多元线性回归的OLS估计值:104.SRF样本回归函数:115.拟合值和残差116.偏效应以及的计算117.比较简单回归和多元回归估计值:128.拟合优度(SST、SSR、SSE、R2):139.过原点的回归:1310.多元回归模型的假定及定理3.1、定理3.2:1411.多重共线性:两个或多个自变量之间高度(但不完全)相关。1512.估计(估计误差项方差):1613.定理3.3 的无偏估计:1614.OLS的有效性:高斯-马尔可夫定理:16第五章 多元回归分析 推断161.MLR.6 正态性假定162.经典线性模型假定及经典线性模型:163.误差项的正态性导致OLS估计量的正太抽样分布:164.定理4.1 正态抽样分布175.定理4.2 标准化估计量的t分布176.假设检验177.零假设(虚拟假设 null hypothesis):178.t统计量:179.t检验的拒绝法则:1810.经济显著性与统计显著性:1911.t检验的P值:1912.置信区间:总体参数的可能取值的一个范围。1913.检验线性组合假设:1914.多重假设检验:2015.多重假设检验检验的步骤:2016.多重假设检验的方法:2017.回归整体显著性的F统计量:2118.F检验的P值:21第六章 多元回归分析211.一致性212.定理5.1 OLS的一致性213.假定MLR.4 零均值和零相关214.中心极限定理225.定理5.2 OLS的渐近正态性226.OLS的渐近有效性227.数据的测度单位对OLS统计量的影响228.系数:239.函数形式:2310.对数模型的解释:2311.含二次式的模型:2412.含交叉项的模型:2413.调整的R2(corrected R-square):2414.利用在两个非嵌套模型中进行选择:2415.预测的置信区间的求解步骤:2516.残差分析(residual analysis):2517.当因变量为log(y)时对y的预测:25第七章 虚拟变量261.虚拟变量(dummy variable):二值变量(binary variable)。262.只有一个虚拟变量的情况:263.当因变量为log(y)时,对虚拟解释变量系数的解释:264.多个虚拟变量的情况275.通过虚拟变量来包含序数信息(序数变量):276.虚拟变量之间的交互作用277.虚拟变量的操作:27第八章 多重共线性、异方差性和自相关28第一部分 多重共线性281.多重共线性的含义:282.完全共线性:283.产生多重共线性的背景:284.多重共线性产生的后果285.多重共线性的检验296.多重共线性的补救措施30第二部分 异方差性301.异方差性的含义:302.异方差的类型:303.产生异方差的原因:304.异方差的后果:305.异方差的检验:31检验思路:31(1)图形法31(2)Goldfeld-Quannadt检验31(3)White检验32(4)帕克(Park)检验32(5)Glejser检验336.异方差的补救措施:33第三部分 自相关(auto correlation):341.自相关的含义:对于模型,342.产生的背景和原因343.自相关的后果344.自相关的检验345.自相关的处理方法34第九章 面板数据351.面板数据的含义:352.平衡面板数据:353.面板数据的主要优点包括:354.固定效应模型355.随机效应模型366.固定效应与随机效应的比较和选择367.双重差分(difference-in-differences)368.一阶差分369.面板工具变量法3710.第九章ppt中的分析题例子38第十章 因变量是虚拟变量的回归391.线性概率模型(LPM, Linear probability model )392.线性概率模型中的的意义403.限制因变量模型404.第十章ppt分析题例子43第一章 高级计量经济学1. 数据类型:横截面数据、时间序列数据、混合横截面数据、面板数据(纵列数据)横截面数据:在给定时点对个人、家庭、企业、城市、州、国家或一系列其他单位采集的样本所构成的数据集。时间序列数据:由对一个或几个变量不同时间的观测值所构成。混合截面数据:既有横截面数据特点又有时间序列数据特点的数据。面板数据(纵列数据):由数据集中每个横截面单位的一个时间序列组成。2. 经验经济分析的步骤:(1) 对所关心问题进行详细阐述。并根据问题进行数据的收集。(2) 构造经济模型,并把它变为计量模型。(3) 提出假设。(4) 运用计量经济的方法去分析变量和验证假设。第二章 简单回归模型1. 回归分析(regression analysis):研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论。2. 回归分析的主要内容包括:(1)根据样本观察值对经济计量模型参数进行估计,求得回归方程;(2)对回归方程、参数估计值进行显著性检验;(3)利用回归方程进行分析、评价及预测。3. 变量间的关系:(1)确定性关系或函数关系:研究的是确定现象非随机变量间的关系。(2)统计依赖或相关关系:研究的是非确定现象随机变量间的关系。4. 变量关系的描述:(1)相关关系最直观的描述方式坐标图(散点图)。(2)对变量间统计依赖关系的考察主要是通过相关分析(correlation analysis)或回归分析(regression analysis)来完成的 。5. 相关关系的类型:(1)从涉及的变量数量看:简单相关和多重相关(复相关)(2)从变量相关关系的表现形式看:线性相关和非线性相关(3)从变量相关关系变化的方向来看:正相关、负相关和不相关。6. 线性相关的程度:(1)总体相关系数:(2)X和Y的样本线性关系系数:当r=0时,x和y不相关;当0r0.3时,x和y微弱相关;当0.3r0.5时,x和y低度相关;当0.5r0.8时,x和y中度相关;当0.8r1时,x和y高度相关;当r=1时,x和y完全相关。7. 回归分析的意义:回归分析关心的是根据解释变量的已知或给定值,考察被解释变量的总体均值,即当解释变量取某个确定值时,与之统计相关的被解释变量所有可能出现的对应值的平均值。8. 总体回归线(population regression line)/总体回归曲线(population regression curve):在给定解释变量Xi条件下被解释变量Yi的期望轨迹。9. 总体回归函数(PRF):E(yx)=0+1x,0和1 是回归系数(regression coefficients)。表示E(yx)是x的一个线性函数,意味着x变化一个单位,将使y的期望值改变1之多。10. 随机干扰项(stochastic disturbance)或随机误差项(stochastic error):称为观察值围绕它的期望值的离差(deviation),是一个不可观测的随机变量。为总体回归函数(PRF)的随机设定形式。表明被解释变量除了受解释变量的系统性影响外,还受其他因素的随机性影响。(1)随机误差项主要包括下列因素:在解释变量中被忽略的因素的影响;变量观测值的观测误差的影响;模型关系的设定误差的影响;其他随机因素的影响。(2)产生并设计随机误差项的主要原因:理论的含糊性;数据的欠缺;节省原则。11. 样本回归方程(SRF): 12. 拟合值:当x=i时,y通过样本回归方程算出来的值。即13. 样本回归模型(sample regression model): 式中,称为(样本)残差(或剩余)项(residual),代表了其他影响的随机因素的集合,可看成是的估计量。14. 回归分析的主要目的:根据样本回归函数SRF,估计总体回归函数PRF。即根据去估计。第三章:简单回归方程分析1. 简单回归方程:Y为因变量、被解释变量、响应变量、被预测变量、回归子;X 为自变量、解释变量、控制变量、预测变量、回归元;U为误差项,干扰项;除x之外其他影响y的因素。, 被称为回归系数。也被称为常数项或截矩项,或截矩参数。代表了回归元x的边际效果, 也被成为斜率参数。本式的线性形式意味着:不管x的初始值为多少,它的任何一单位变化对y的影响都是相同的。本式的假定:E(u)=0,E(ux)= E(u),既u的均值独立于x。零条件均值假定。(条件期望零值假定)2. 线性的含义:y 和x 之间并不一定存在线性关系,但是,只要通过转换可以使y的转换形式和x的转换形式存在相对于参数的线性关系,该模型即称为线性模型。3. OLS斜率估计,0和1的普通最小二乘估计值的推算:0= , 此上两式给出的估计值叫做0和1的普通最小二乘估计值。即,斜率估计量等于样本中x和y的协方差除以x的方差。若x和y正相关则斜率为正,反之为负。最小二乘法0和1的推导:首先,而根据零条件均值假定:将带入假定式,则进一步变化,则另外,将带入上式,则,4. OLS法是要找到一条直线,使残差平方和最小。5. 残差:是对误差项的估计,因此,它是拟合直线(样本回归函数)和样本点之间的距离。6. OLS统计量的代数性质:(1)OLS残差和及其样本性质都为0。OLS 残差和为零,因此OLS 的样本残差平均值也为零.数字表述为:。(2)回归元和OLS残差的样本协方差为0:。(3)点总在OLS回归线上。7. SST=SSE+SSR:(1)SST(总平方和):是对y在样本中所有变动的度量,即它度量了在样本中的分散程度。 ,将总平方和除以n-1,我们得到y的样本方差。(2)SSE(解释平方和):它度量了y的预测值的样本变异。(3)SSR(残差平方和):度量了的样本变异。8. 拟合优度:来衡量样本回归线是否很好地拟合了样本数据的指标。9. 判定系数:解释变异与总变异之比。即y的样本变异中被x解释的部分。R2的值总是在0和1之间R2= SSE/SST = 1 SSR/SST在Stata中进行回归:让y对x进行回归,输入 :reg y x10. 测量单位:(1) 当因变量乘上常数c,而自变量不改变时,OLS 的截距和斜率估计量也要乘上c。(2) 如果自变量除以或乘上某个非零常数,c,那么OLS斜率将乘以或除以c,而截距则不改变。11. 在简单回归中加入非线性因素(因变量为对数):当因变量以对数形式出现时,对数形式的变化近似于比例变化,所以斜率不发生变化。其中,对数-水平值的函数形式中,1001被称为y对x的半弹性(semi-elasticity),而对数-对数模型中,1被称为y对x的弹性(elasticity)。12. OLS的基本假设:假定SLR.1 线性于参数:即在总体模型中,因变量y和自变量x和误差u的关系如下:,其中和分别表示总体的截距和斜率参数。假定SLR.2随即抽样:我们具有一个服从总体模型方程的随机样本(Xi,Yi):i=1,2,3,n ,样本容量为n。假定SLR.3解释变量的样本有变异:X的样本结果即(Xi,i=1,n)不是完全相同的数值。(检查一下Xi的摘要统计量即可知道假定3是否成立,若Xi的样本标准差为0,则不成立。)假定SLR.4零条件均值:给定解释变量的任何值,误差的期望值都为0,即E(ux)=0假定SLR.5同方差性:给定解释变量的任何值,误差都具有相同的方差,即Var(ux)=,也可称为误差方差或干扰方差。越大,表示影响y的无法观测因素的分布越分散。当Var(ux)取决于x时,便称误差项表现出异方差性。13. 定理2.1: OLS的无偏性:利用假定SLR.1SLR.4,对和的任何值,我们都有E()=和E()=,换言之,对而言是无偏的,对而言是无偏的。14. 定理2.2 OLS估计量的抽样方差:在假定SLR.1SLR.5下,以样本值 Xi,i=1,n 为条件,有和。(1) 误差方差越大,就越大,因为影响y的不可观测因素变异越大,要准确估计就越难。(2) 自变量的变异越大,就越小,因为自变量的样本分布越分散,就越容易估计出。15. 定理2.3:的无偏估计在假定SLR.1SLR.5下,我们有。我们不知道误差方差2是多少,因为我们不能观察到误差ui,我们观测到的是残差i。我们可以用残差构成误差方差的估计。首先,则的无偏估计是。16. 回归标准误差:17. 的标准误:第四章 多元回归分析1. 多元回归分析的优点:(1)多元回归分析更适合于其它条件不变情况下的分析,因为多元回归分析允许我们明确地控制许多其它也同时影响因变量的因素。(2)多元回归模型能容许很多解释变量,而这些变量可以是相关的。(3)在使用非实验数据时,多元回归模型对推断y与解释变量间的因果关系很重要。(4)它可以解释更多的因变量变动。(5)它可以表现更一般的函数形式。(6)多元回归模型是实证分析中最广泛使用的工具。2. 多元线性回归模型::截距():斜率参数:误差项,干扰项。包括除x1xk以外仍影响y的一些因素。关键假定:,即u与解释变量无关。3. 多元线性回归的OLS估计值:最小二乘法,选择能最小化残差平方和的估计值即最小。4. SRF样本回归函数:为OLS斜率估计值,为OLS斜率估计值。5. 拟合值和残差:其中,为残差;为实际值;为拟合值/预测值。残差的性质:(1) 残差的样本均值为0.(2) 每个自变量和OLS残差之间的样本协方差为0;(3) 点总位于OLS回归线上。6. 偏效应以及的计算举二元线性回归模型为例:,其中具有偏效应,或其他情况不变的解释。即为在其他条件不变情况下对y的影响。“为在其他条件不变情况下对y的影响”的解释:举二元线性回归模型为例: 则可以表示为:式中的可以将第一个自变量对第二个自变量进行回归,然后得到。即:是由回归得到的残差。然后,再将y对进行回归,得到。以上的方程式说明:将y同时对x1和x2回归得出的x1 的影响与先将x1对x2回归得到残差,再将y对此残差回归得到的x1的影响相同。这意味着只有x1中与x2不相关的部分与y有关,所以在x2被“排除影响”之后,我们再估计x1对y的影响。在一个含有k个解释变量的一般模型中, 仍然可以写成 ,但残差 来自x1对x2 , xk 的回归。于是度量的是,在排除x2 , xk等变量的影响之后,x1对y的影响。7. 比较简单回归和多元回归估计值:一般,除非:(1)=0或者(2)和不相关。因为:在多元回归分析中,其中是对的简单回归所得的系数。证明如下:所以,在k个自变量的情况下,简单回归和多元回归只有在以下条件下才能得到对x1相同的估计:(1)对从x2到xk的OLS系数都为零,或(2) x1与x2 , xk中的每一个都不相关。8. 拟合优度(SST、SSR、SSE、R2):另外,也可以证明R2等于yi的实际值与其拟合值之相关系数的平方,即:(1) 考虑从一个解释变量开始,然后加入第二个。如果OLS恰好使第二个解释变量系数取零,那么不管回归是否加入此解释变量,SSR相同。(2) 如果OLS使此解释变量取任何非零系数,那么加入此变量之后,SSR降低了。实际操作中,被估计系数精确取零是极其罕见的,所以,当加入一个新解释变量后,一般来说,SSR会降低。(3) 因此,R2增加并不意味着加入新的变量一定会提高模型拟合度(4) 调整过的R2是一个修正版本,当加入新的解释变量,调整过的R2不一定增加。调整过的R2的性质:1) 因为(n-1)/(n-k-1)1,所以调整过的R2总比R2小。2) 加入一个解释变量有两个相反的效果。一方面,SSR降低导致调整过的R2增加。另一方面,(n-1)/(n-k-1) 增加导致调整过的R2降低。3) 调整过的R2可能是负的,发生在以下情况:所有解释变量使残差平方和下降的太少,不足以抵消因子(n-1)/(n-k-1)。4) R2只有在过原点回归中才可能为负。9. 过原点的回归:有时一种经济理论或常识会告诉我们应该为0,因此存在如下形式的方程:当时,则预测值也为0,这种情况下,被称为从y对进行过原点的回归而得到的OLS估计值。此种情况下,(1) OLS的残差的样本平均不再是零。(2) R2可能为负。(为了使R2总是非负,可以使用来计算R2)(3) 有一个重要缺陷,斜率参数的OLS估计值将有偏误。10. 多元回归模型的假定及定理3.1、定理3.2:MLR.1 线性于参数即总体模型可写成:MLR.2随机抽样我们有一个包含n次观测的随机样本,它来自假定MLR.1中的总体模型。MLR.3不存在完全共线性在样本(因而在总体中),没有一个自变量是常数,自变量之间也不存在严格的线性关系。即,允许自变量之间存在相关关系,只是不能完全相关。 MLR.4条件均值为零给定自变量的任何值,误差u的期望值为零,即:当假定4成立时,可以说我们具有外生解释变量。但当由于某种原因与u相关,那么被称为内生解释变量。定理3.1OLS的无偏性在假定MLR.1MLR.4下,下式对总体参数的任意值都成立, 即OLS估计量是总体参数的无偏估计量。MLR.5同方差性给定任意解释变量值,误差u都具有相同的方差。即若假定不成立,则模型就出现了异方差性。MLR.1MLR.5被合称为高斯-马尔可夫假定(Gauss-Markov assumptions)。定理3.2 OLS斜率估计量的抽样方差在MLR.1MLR.5之下,以自变量的样本值为条件,对所有的j=1,2,k,都有:,其中是的总样本变异,而则是将对所有其他自变量(并包含一个截距项)进行回归所得到的R2。定理3.2显示:估计斜率系数的方差受到三个因素的影响:(1) The error variance误差项的方差(2)The total sample variation总的样本变异(3)Linear relationships among the independent variables 解释变量之间的线性相关关系(误差项方差):(1)更大的意味着更大的OLS估计量方差。(2) 更大的意味着方程中的“噪音”越多。(3) 这使得得到自变量对因变量的准确局部效应变得更加困难。(4) 引入更多的解释变量可以减小方差。但这样做不仅不一定可能,而且也不一定总令人满意。(5) 不依赖于样本大小总的样本变异:(1) 更大的意味着更小的估计量方差,反之亦然。(2) 其它条件不变情况下,x的样本方差越大越好。(3) 增加样本方差的一种方法是增加样本容量。(4) 参数方差的这一组成部分依赖于样本容量。自变量之间的线性关系:(1) 更大的意味着更大的估计量方差。(2) 如果较大,就说明其它解释变量解释可以解释较大部分的该变量。(3) 当非常接近1时,与其它解释变量高度相关,被称为多重共线性。(4) 严重的多重共线性意味着被估计参数的方差将非常大,即: 11. 多重共线性:两个或多个自变量之间高度(但不完全)相关。(1) 多重共线性是一个数据问题(2) 可以通过适当的地舍弃某些变量,或收集更多数据等方法来降低。(3) 注意:虽然某些自变量之间可能高度相关,但与模型中其它参数的估计程度无关。12. 估计(估计误差项方差):可以用残差项构造一个误差项方差的估计:df为自由度,由于在含有k个自变量和一个截距项的回归模型中有k+1个参数,所以df=n-(k+1)=观测次数-估计参数的个数。13. 定理3.3 的无偏估计:在高斯-马尔可夫假定下,。14. OLS的有效性:高斯-马尔可夫定理:在MLR.1MLR.5之下,分别是的最优线性无偏估计量。(1) 最优:方差最小(2) 线性:因变量数据的线性函数(3) 无偏:参数估计量的期望等于参数的真值。(4) 估计量:产生一个估计量的规则第五章 多元回归分析 推断1. MLR.6 正态性假定总体误差u独立于解释变量,而且服从均值为零和方差为的正态分布:u Normal(0,).2. 经典线性模型假定及经典线性模型:MLR.1MLR.6这六个假定被称为经典线性模型假定。而这6个假定下地模型被称为经典线性模型。在经典线性模型假设下,OLS不仅是BLUE,而且是最小方差无偏估计量,即在所有线性和非线性的估计量中,OLS估计量具有最小的方差。3. 误差项的正态性导致OLS估计量的正太抽样分布:经典线性模型假设:4. 定理4.1 正态抽样分布在CLM假定MLR.1MLR.6下,以自变量的样本值为条件,有:,其中,定理4.1的扩展:的任意线性组合服从正态分布, 任意子集服从联合正态。5. 定理4.2 标准化估计量的t分布在CLM假定MLR.1MLR.6下,其中,k+1是总体模型中未知参数的个数(k个斜率参数和截距0)。6. 假设检验(1) 经典假设检验的步骤(2) 表述零假设和替代假设(3) 决定显著水平,找到临界值(4) 根据样本数据计算t 统计量(5) 比较t 值与临界值,决定是否拒绝零假设。7. 零假设(虚拟假设 null hypothesis):H0:J=0如果接受零假设,则认为控制x其它分量后,xj对y 没有边际影响。8. t统计量:为了进行检验,我们首先要构造的t统计量,然后利用t统计量来决定时候接受零假设。t统计量的解释:t统计量度量了估计值 相对0偏离了多少个估计的标准差,且t统计量的符号与相同。9. t检验的拒绝法则:单边假设检验:(1) 若H0: j=0对H1 : j 0,当tjc时我们拒绝H0,当tj =c,则不能拒绝H0。(2) 由于t分布是对称的,如果H0 : j=0对H1 : j 0,当tj -c时我们拒绝H0 ,当 tj =-c ,则不能拒绝H0。双边假设检验:(3) 如果H0: j=0对H1 : j0,当tjc时,我们拒绝H0,否则不能拒绝H0。(4) 如果H0: j=aj(aj为假设的j),对H1 : jaj,当tc时,我们拒绝H0,否则不能拒绝H0。对于双边检验,我们根据/2计算临界值。当t的绝对值大于临界值c时,拒绝零假设。当=0.05时,c是n-k-1自由度的t分布的97.5分位数。如果拒绝了零假设,我们通常说“xj在 % 水平下显著”如果不能拒绝零假设,我们通常说“xj在 % 水平下不显著”10. 经济显著性与统计显著性:经济显著性与的大小及符号有关;而统计显著性由的大小来决定。11. t检验的P值:给定t统计量的观测值,能拒绝虚假设的最小显著水平。对于双边检验,P=P(Tt)12. 置信区间:总体参数的可能取值的一个范围。由于随机取样误差的存在,我们不可能通过样本知道j的准确值。但是利用来自随机样本的数据构造一个取值的集合,使得真值在给定概率下属于这个集合是可能的,这个集合称为置信集,置信集是下限和上限之间所有可能的取值,故置信集为一个区间,称为置信区间。预先设定的真值属于此集合的概率称为置信水平(置信度)。利用服从自由度为n-k-1的t分布,则:计算例子:13. 检验线性组合假设:假设我们要检验是否一个参数等于另一个参数H0 : 1 = 2, 而不是检验1是否等于一个常数。此时,可以将H0 : 1 = 2变换成为H0 : 1-2=0,因为,而,则Stata中,在reg y x1 x2 xk后,可以输入test x1 =x2得到检验的p值14. 多重假设检验:对多重约束的检验为多重假设检验或联合假设检验。检验一组自变量是否对因变量都没有影响的使用。即:。不能分别进行t 检验,因为存在这样的可能性:在给定显著水平下,所有的参数都不显著,但是联合检验显著。15. 多重假设检验检验的步骤:(1) 估计无约束模型,得到此模型的SSR和自由度(2) 计算约束模型中排除的变量数目q(3) 估计约束模型,得到对应的SSR(4) 利用F统计量公式进行计算16. 多重假设检验的方法:将假设中的的q个自变量去除,重新构建模型,即排除xk-q+1, , xk进行“约束回归”,也要包括所有的x进行“无约束”回归。受约束模型SSR不收约束模型SSRqdfr-dfur 去掉的q个自变量拒绝法则:FC,若拒绝H0联合统计显著,否则联合统计不显著。17. 回归整体显著性的F统计量:即,则受约束模型为,检验回归整体的显著性。18. F检验的P值:P(fF)使用Stata:输入fprob(q, n k 1, F)如果仅检验一个排除约束,则F= t2,p值应当相同。第六章 多元回归分析1. 一致性2. 定理5.1 OLS的一致性在假定MLR.1MLR.4下,对所有j=0,1,k, OLS估计量都是的一致估计。3. 假定MLR.4 零均值和零相关对所有j=0,1,k,,都有E(u)=0和cov(,u)=0。4. 中心极限定理基于中心极限定理,我们能够证明OLS估计量是渐近正态。渐进正态意味着当,或。中心极限定理指出,任意一个均值为u,方差为的总体的标准化平均值的分布趋近于N(0,1)。5. 定理5.2 OLS的渐近正态性(1)是渐近正态分布的。即,其中,0是的渐近方差。,是对其余自变量进行回归所得到的残差。(2)是的一个一致估计量。(3)对每一个j,都有。渐近t统计量: 6. OLS的渐近有效性在高斯-马尔可夫假定下OLS估计量是渐近有效的估计量。定理5.3 OLS的渐近有效性在高斯-马尔可夫假定下,令表示从解形如的方程得到的估计量,而表示OLS估计量。那么,对,OLS估计量具有最小的渐近方差:7. 数据的测度单位对OLS统计量的影响(1)改变解释变量的测度单位以后:t 统计量相同、R2相同、SSR相同、SER相同。改变一个变量x的测度单位会导致该变量系数和标准差的相应改变,所以所有解释变量显著性和对其解释没有改变。(2)改变变量y的测度单位会导致系数和标准差相应的改变,所以解释变量系数显著性和对其解释没有改变。(3)如果被解释变量以对数形式出现,改变被解释变量度量单位对任何斜率系数没有影响。8. 系数:系数反映对于一单位x的标准离差的y的标准离差。与(标准化系数,系数)的关系:样本回归方程的标准形式为:,则标准化的的和为:,现在将向回归得到:,因为,所以,也就是系数。意思是,如果xij改变一单位标准离差,则yi改变单位标准离差。9. 函数形式:OLS也可以用在x和y不是严格线性的情况,通过使用非线性方程,使得关于参数仍为线性。(1)可以取x,y(一个或全部)的自然对数(2)可以用x的平方形式(3)可以用x的交叉项10. 对数模型的解释:(1)当模型表示为:,是y对于x的弹性。(2)当模型表示为:,是y对于x的半弹性。表示的意思是给定一单位的x的改变带来的y的百分变化。使用对数模型的原因:(1)取对数后变量的斜率系数,不随变量测度单位改变。(2)如果回归元和回归子都取对数形式,斜率系数给出对弹性的一个直接估计。(3)对于y0的模型,条件分布经常偏斜或存在异方差,而ln(y) 就小多了,所以ln(y)的分布窄多了,限制了异常(或极端)观测值(outliers)的影响。对数模型的使用范围:(1)肯定为正的钱数:工资,薪水,企业销售额和企业市值。(2)非常大的变量:如人口,雇员总数和学校注册人数等。对数形式的使用限制:(1)一个变量取零或负值,则不能使用对数。(3)如果y非负但可以取零,则有时使用log(1+y)。(3)当数据并非多数为零时,使用log(1+y) 估计,并且假定变量为log(y),解释所得的估计值,是可以接受的。水平值的使用范围:用年测量的变量:如教育年限,工作经历,任期年限和年龄。可以以水平值或对数形式出现的变量:比例或百分比变量:失业率,养老保险金参与率等。11. 含二次式的模型:此时,并没有度量y相对于x的变化,我们需要将也考虑进来。因为:(1) 假如x的系数为正,x2的系数为负,则y一开始随x的增大而增大,到了一个转折点后,y随x的增大而下降,该转折点的值是x的系数与x2的系数的两倍之比:。(2) 假如x的系数为负,x2的系数为正。则y一开始随x的增大而减小,到了一个转折点后,y随x的增大而增大,该转折点的值是。12. 含交叉项的模型:我们不能单独将解释为关于x1,y变化的度量,我们需要将3也考虑进来,因为,比较典型地做法是在处估计上式。13. 调整的R2(corrected R-square):14. 利用在两个非嵌套模型中进行选择:非嵌套模型:如果两个模型之间没有哪一个是另一个的特殊情形的话,我们称这两个模型是非嵌套模型。可以帮助我们选择一个没有多余自变量的模型。但是:模型中使用同样形式的y时,可以比较,否则不可以比较。15. 预测的置信区间的求解步骤:(1) 假设我们要得到一个估计的参数是,的估计量是:。(2) 写出,代入方程,得到,(3) 将y对,进行回归,就可以得到的标准误。(4) 令y0为我们想构造的置信区间,并令u0为观测不到的误差。用来预测y0的预测误差:由于是无偏的,所以,而且u0的均值为0,所以=0。(5) 求预测误差的方差:,其中为误差方差。则(6) ,预测区间为 16. 残差分析(residual analysis):分析因变量的实际值是高于还是低于预测值的过程。17. 当因变量为log(y)时对y的预测:(1) 从log(y)对的回归中得到拟合值和残差。(2) ,(3) 假定u独立于解释变量,那么就有,为exp(u)的期望值,并肯定大于1。(4) 则给定一个估计值,则(5) 污染估计值(smearing estimate)。(6) 对于给定的,从求出。(7) 利用得到预测值。第七章 虚拟变量1. 虚拟变量(dummy variable):二值变量(binary variable)。2. 只有一个虚拟变量的情况:在定义一个虚拟变量时,我们必须决定赋予哪个事件的值为1,赋予哪个事件的值为0。一些例子:性别 男 女Female:,if female 就是1;否则是0。例子:表示的参数。由于对女性=1,而对男性=0,所以参数具有如下的含义:给定同等受教育程度(和同样的误差项u),是女性与男性之间在小时工资上的差异。如果0,那么在其他因素相同的情况下,女性总体上挣得比男性少。,也可以描绘成截距变化。如果在方程中同时使用female和male两个虚拟变量的话,会导致完全多重共线性,这种情况被称为虚拟变量陷阱(dummy variable trap)。基准组(base group,或bench-mark group ):不参加入方程中,与方程中的进行比较的组。3. 当因变量为log(y)时,对虚拟解释变量系数的解释:当log(y)是一个模型的因变量时,将虚拟变量的系数乘以100,可解释为y在保持所有其他因素不变情况下地百分数差异。例子:给定,的水平,一套殖民地建筑风格的住房与其他风格的住房在上的差别是0.054,意味着保持其他因素不变,一套殖民地建筑风格住房的卖家预计高出5.4%。4. 多个虚拟变量的情况如果回归模型具有g组或g类不同截距,则模型中就包含g-1个虚拟变量和一个截距。基组的截距就是模型的总截距。某一组的虚拟变量系数则表示该组与基组之间在截距上的估计差异。以性别和是否结婚两个虚拟变量为例:首先,以单身男子为基准组,则方程中应当有已婚男子,已婚女子和未婚女子第三个变量,这三个虚拟变量的估计值度量的都是与单身男性相比的比例差异。若想得到已婚女子和未婚女子的差异,则已婚女子的估计值-未婚女子的估计值。 F M已婚男 0 1 已婚女 1 1未婚男 0 0未婚女 1 0 5. 通过虚拟变量来包含序数信息(序数变量):序数变量(ordinal variable):以有意义的序列排序的变量。如信用等级从0到4。方法:对序数变量的每个值定义一个虚拟变量。6. 虚拟变量之间的交互作用例子:以单身男性为基组,取female=0,married=1,则已婚男性组的截距为。7. 虚拟变量的操作:gen sedtr=“男”replace gendtr=“女” if famle=1brgen female=0gen f=0replace f=1 if gender=“女”gen exper_f=exper*femalereg wage exper female exper_f第八章 多重共线性、异方差性和自相关第一部分 多重共线性1. 多重共线性的含义:对于模型,n=1,2,n其基本假设之一是解释变量是互相独立的。如果某两个或多个解释变量之间出现了相关性,则称为多重共线性。2. 完全共线性:如果存在,其中,ci不全为0,则称解释变量间存在完全共线性。在矩阵表示的线性回归模型Y=X+ 中,完全共线性指:秩(X)k,即:中,至少有一列向量可以由别其他列向量线性表出(不包括第一列)。3. 产生多重共线性的背景:多重共线性产生的经济背景主要有几种情形:(1)经济变量之间具有共同变化趋势。时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增长;衰退时期,又同时趋于下降。横截面数据:生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业都小。(2) 模型中包含滞后变量。在经济计量模型中,往往需要引入滞后经济变量来反映真实的经济关系。例如,消费=f(当期收入, 前期收入)显然,两期收入间有较强的线性相关性。(3)样本资料的限制由于完全符合理论模型所要求的样本数据较难收集,特定样本可能存在某种程度的多重共线性。一般经验:时间序列数据样本:简单线性模型,往往存在多重共线性。截面数据样本:问题不那么严重,但多重共线性仍然是存在的。4. 多重共线性产生的后果(1)完全多重共线性产生的后果a) 参数的参数估计量不存在的OLS估计量为,如果存在完全共线性,则不存在,无法得到参数的估计量。b) 参数估计值的方差无限大:OLS估计式的方差成为无穷大。c) 参数估计量经济含义不合理如果模型中两个解释变量具有线性相关性, 例如 X3= X2 ,这时,X2和X3前的参数并不反映各自与被解释变量之间的结构关系,而是反映它们对被解释变量的共同影响。 2和3已经失去了应有的经济含义,于是经常表现出似乎反常的现象:例如2本来应该是正的,结果恰是负的。(2) 不完全多重共线性下产生的后果a) 近似共线性下OLS估计量非有效。近似共线性下,可以得到OLS参数估计量,但参数估计量方差的表达式为:,由于,引起主对角线元素较 大,使参数估计值的方差增大,OLS参数估计量非有效。b) 假设检验容易作出错误的判断存在多重共线性时,参数估计值的方差与标准差变大,容易使通过样本计算的t值小于临界值,误导作出参数为0的推断,可能将重要的解释变量排除在模型之外。c) 模型的预测功能失效变大的方差容易使区间预测的“区间”变大,使预测失去意义。总结:除非是完全共线性,多重共线性并不意味着任何基本假设的违背;因此,即使出现较高程度的多重共线性, OLS估计量仍具有线性等良好的统计性质。问题在于,即使OLS法仍是最好的估计方法,它却不是“完美的”,尤其是在统计推断上无法给出真正有用的信息。5. 多重共线性的检验(1)简单相关系数检验法利用解释变量之间的线性相关程度去判断是否存在严重多重共线性的一种简便方法。判断规则:如果两个解释变量的简单相关系数比较高,则可认为存在较严重的多重共线性。但有时较低的相关系数也可能存在严重的多重共线性,所以简单相关系数只是多重共线性存在的充分条件而非必要条件。(2) 方差扩大(膨胀)因子法由于的方差可表示为,其中是变量xj的方差扩大因子,即。其中为xj关于其他解释变量辅助回归模型的可决系数。经验规则:方差膨胀因子越大,表明解释变量之间的多重共线性越严重。反过来,方差膨胀因子越接近于1,多重共线性越弱。经验表明,方差膨胀因子10时,说明解释变量与其余解释变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计。(3) 根据可决系数R2、F检验、t检验的结果判断如果模型的可决系数很大,F检验高度显著,t检验几乎都不显著,表明解释变量之间存在多重共线性。6. 多重共线性的补救措施(1)剔除变量法把方差扩大因子最大者所对应的自变量首先剔除再重新建立回归方程,直至回归方程中不再存在严重的多重共线性。(2)增大样本容量(3)变换模型形式变换模型的函数形式;变换模型的变量形式。(4) 利用非样本先验信息通过经济理论分析能够得到某些参数之间的线性关系,可以将这种线性关系作为约束条件,将此约束条件和样本信息结合起来进行约束最小二乘估计。(5) 逐步回归分析首先,被解释变量对每一个考虑的解释变量做简单回归。然后,以对被解释变量贡献最大的解释变量所对应的回归方程为基础,按对杯解释变量贡献大小的顺序逐个引入其余的解释变量。若新变量的引入改进了R2和F检验,且回归参数的t检验在统计上也是显著的,则在模型中保留该变量。若新变量的引入未能改进R2和F检验,且对其他回归参数估计值的t检验也未带来什么影响,则认为该变量应该舍弃。若新变量的引入未能改进R2和F检验,且显著地影响了其他回归参数估计值的数值或符号,同时本身的回归参数也通不过t检验,说明出现了严重的多重共线性,这
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年安全优化填空题集
- 2025年国际工程师资格证书综合能力考试试题及答案解析
- 2025年安全员考试安全生产安全应急预案题库及答案
- 2025年地铁安全员应急处理模拟题及答案
- 2025年建筑施工三类人员C证考试重点题库
- 2025年气象观测员中级面试模拟题及答案解析选
- 课件《关雎》教学课件
- 2025年政府会计准则制度预测题及解析资料
- 2025年土耳其国家电投招聘笔试全真模拟题及答案
- 2025年宠物训导师笔试重点复习题
- 2025江苏南京农业大学新校区建设指挥部、基本建设处人员招聘10人笔试备考试题及答案解析
- 2025-2026学年第一学期九年级开学第一课:收心班会课件
- VTE的预防及护理
- 2025年济南市中考英语试题含答案
- Unit1单元复习课件人教版八年级英语上册
- 2025年青海省中考英语试卷真题(含答案及解析)
- 民事起诉状要素式(民间借贷纠纷)
- 肺孢子菌肺炎护理查房
- 法官培训人民调解员讲稿
- 茶叶施肥技术课件
- 2025年湖南省长沙市中考物理试卷(含答案)
评论
0/150
提交评论