计量经济学第二章_第1页
计量经济学第二章_第2页
计量经济学第二章_第3页
计量经济学第二章_第4页
计量经济学第二章_第5页
已阅读5页,还剩130页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章 简单线性回归模型: 设定与检验,龚锋 武汉大学经济与管理学院,基础知识回顾 2.1 经济模型 2.2 计量经济模型 2.3 估计回归参数 2.4 评估最小二乘估计量 2.5 Gauss-Markov 定理 2.6 最小二乘估计量的概率分布 2.7 估计残差项的方差 2.8 估计非线性关系 2.9 包含指标变量的回归,本章内容,基础知识回顾,1.条件期望 给定Y=y,X的条件期望定义为:,2.条件方差 给定Y=y,X的条件期望定义为:,3.条件期望与条件方差的性质,4.协方差与相关系数 协方差的性质:,定义随机变量X和Y的相关系数为: 衡量的是两个变量线性相关的程度。,2.1 经济模型,

2、经济学家对变量间的关系感兴趣; 经济理论告诉我们消费支出依赖于收入; 因此,我们称y为被解释变量(因变量),x为解释变量(自变量); 在计量经济学中,我们将被解释变量称为随机变量。 解释变量是外生给定或固定的。 两个重要的区别: 1.相关性 V.S. 因果性 2.回归分析 V.S. 因果分析 V.S. 相关分析,2.1 An Economic Model,无条件期望=121.2,对应不同收入水平的60户家庭的每周消费Y,40,80,120,160,200,60,80,100,120,140,160,180,200,220,240,260,280,家庭每周收入X,Figure 2.1a 给定收入

3、x=1000美元,食品支出y的概率分布,2.1 An Economic Model,Figure 2.1b 给定收入x=1000和x=2000时食品支出y的概率分布,2.1 An Economic Model,Pdf是被解释变量的条件密度函数,因为它以x为条件 y的条件均值或期望值是 随机变量的期望值是总体均值的简称,即随机变量概率分布的中心 随机变量的期望值不同于样本均值,后者仅是数值的算术平均。,2.1 An Economic Model,y的条件方差是2 ,衡量的是y与其条件均值y|x 的偏离程度。 参数 y|x 和2 提供了有关总体的有价值的信息。,2.1 An Economic Mo

4、del,为检验支出和收入的关系,我们必须构建一个经济模型,并构建相应的计量模型,形成定量经济分析的基础。 计量模型称之为回归模型。,2.1 An Economic Model,Eq. 2.1,简单(总体)回归函数可以写作: 其中, 1 是截距 , 2 是斜率。它们都是未知但固定的参数。 这一模型被称之为简单回归,不是因为它简单,仅仅是因为它的右边只包括一个解释变量。 从几何意义上看,总体回归线就是当解释变量取给定值时被解释变量的条件期望值的轨迹。 更简单地说,对应于解释变量X的每个给定值都有Y的一个子总体,连接这些子总体的均值就得到总体回归线。,Eq. 2.1,2.1 An Economic

5、Model,2.1 An Economic Model,Figure 2.2 经济模型: 人均食品支出与收入的线性关系,Eq. 2.2,“” denotes “change in” and “dE(y|x)/dx” denotes the derivative of the expected value of y given an x value,回归线的斜率可以写作: 其中, “” 定义“变动” ; “dE(y|x)/dx” 定义为给定x的值,y的条件期望值的导数。,Eq. 2.2,2.1 An Economic Model,2.2 计量经济模型,2.2 An Econometric Mod

6、el,Figure 2.3 两个收入水平下y的概率密度函数,第一,上图可以看到,随着家庭收入的增加,家庭消费支出平均而言也会增加;但是,对某一特定家庭来说,消费支出与其(固定的)收入水平的关系怎样?图中可以看到,某一特定家庭的消费支出不一定随收入水平增加而增加。 第二,特定家庭消费支出与给定收入水平之间有什么关系呢?图中可以看到,给定收入水平X=x的特定家庭的消费支出聚集在收入为x的所有家庭的平均消费支出周围,围绕它的条件均值而分布。,把特定家庭的消费支出围绕它的条件期望值的偏差表述为: 其中,偏差是一个不可观测的可正可负的随机变量,称之为随机干扰项或随机误差项。 对上面方程的解释: 给定X的

7、水平,特定家庭的消费支出可以表示为两个成分之和:一是条件期望代表的相同收入水平的所有家庭的平均消费支出,称为系统或确定性成分;二是e代表的随机或非系统性成分。,随机干扰项的意义: (1)反映因理论的含糊性导致的缺失变量的影响; (2)反映因数据的不可获性导致的缺失变量的影响; (3)反映许多非核心变量的影响,这些变量的影响合起来都很小,从成本的角度没有必要引入模型; (4)反映人类行为的内在随机性的干扰; (5)反映测度变量时可能存在的误差的影响; (6)反映错误的函数形式设定可能带来的干扰。,从图2.3中,可以看到在简单线性回归中存在好几个关键假设:,2.2 An Econometric M

8、odel,ASSUMPTIONS OF THE SIMPLE LINEAR REGRESSION MODEL - I,假设 1: 对x每个取值,y的均值由线性回归 给出;,2.2 An Econometric Model,假设 2: 对x的每个取值,y的值围绕其均值构成分布,其概率分布具有同方差:,假设3: y的样本值不相关,且具有零协方差,意味着y自身不存在线性关系:,这一假设可以进一步强化为假定y的值全部在统计上独立。,假设 4: x不是随机的,且必须取两个以上的数值。,2.2 An Econometric Model,ASSUMPTIONS OF THE SIMPLE LINEAR RE

9、GRESSION MODEL - I,假设 5 (可选) : 对于每个x的值,y值在其均值附近呈正态分布:,2.2.1 Introducing the Error Term,随机误差项可定义为: 重写为: 其中,y是被解释变量,x是解释变量。 给定x,残差项的条件期望值等于0:,Eq. 2.3,Eq. 2.4,2.2 An Econometric Model,图 2.4 e 和 y的概率密度函数,2.2 An Econometric Model,2.2.1 Introducing the Error Term,ASSUMPTIONS OF THE SIMPLE LINEAR REGRESSIO

10、N MODEL - II,假设 SR1: 对于每个x值,y值为:,2.2 An Econometric Model,2.2.1 Introducing the Error Term,假设 SR2: 随机残差项e的期望值为 :,这等价于假定:,假设 SR3: 随机残差项e的方差是:,随机变量y和e具有相同的方差,因为它们的差异仅在于是否包含一个常数项。,假设 SR4: 任何一对随机残差项ei 和 ej 的协方差为:,这一假设的更强版本是,随机残差项e是统计独立的,此时,y的观测值也是统计独立的。,2.2 An Econometric Model,2.2.1 Introducing the Err

11、or Term,ASSUMPTIONS OF THE SIMPLE LINEAR REGRESSION MODEL - II,假设 SR5: 变量x是非随机的,且必须包括两个不同的取值。,假设 SR6(可选): 如果y的值服从正态分布,则e的值在其均值附近也服从标准正态分布。反之亦然。,2.2 An Econometric Model,2.2.1 Introducing the Error Term,ASSUMPTIONS OF THE SIMPLE LINEAR REGRESSION MODEL - II,Figure 2.5 y、e、回归线的关系,2.2 An Econometric Mo

12、del,2.2.1 Introducing the Error Term,2.3 估计回归参数,上图中的拟合线称之为:样本回归线。通过对样本点的拟合(尽可能好地拟合样本的散点)而得到。 样本回归线至多不过是真实的总体回归线的近似,一般认为,从N个不同的样本会得到N个不同的样本回归线,而且这些样本回归线不太可能是一样的。,回归分析的目的: 根据样本回归线的方程: 估计总体回归线的方程:,重要的问题是: 既然认识到SRF只不过是PRF的一个近似,能不能设计一种规则或方法,使得这种近似是一种尽可能“接近的”近似? 换言之,如何构造SRF使得 尽可能“接近”真实的 , 尽可能“接近”真实的 ,虽然真实

13、的 和 永远都不可能知道。,2.3 Estimating the Regression Parameters,Table 食品支出和收入数据,Figure 2.6 食品支出样本数据,2.3 Estimating the Regression Parameters,拟合的回归线是: 最小二乘残差为:,2.3.1 The Least Squares Principle,Eq. 2.5,Eq. 2.6,2.3 Estimating the Regression Parameters,假定有另外一条拟合线: 最小二乘拟合线具有更小的残差平方和:,2.3 Estimating the Regressio

14、n Parameters,2.3.1 The Least Squares Principle,未知参数1、 2的最小二乘估计量可以通过最小化残差平方和函数来得到:,2.3 Estimating the Regression Parameters,2.3.1 The Least Squares Principle,Eq. 2.7,Eq. 2.8,2.3 Estimating the Regression Parameters,2.3.1 The Least Squares Principle,THE LEAST SQUARES ESTIMATORS,2.3.2 Estimates for the

15、 Food Expenditure Function,汇报b1 和 b2 值的便捷途径是,写出估计或拟合的回归线:,2.3 Estimating the Regression Parameters,Figure 2.8 The fitted regression line,2.3 Estimating the Regression Parameters,2.3.2 Estimates for the Food Expenditure Function,b2 = 10.21是参数2的估计值,解释为:当家户的周收入增加100美元,家户的食品支出预期将增加10.21美元。 b1 = 83.42是参数

16、1的估计值,解释为:收入为0的家户每周的食品支出。,2.3.3 Interpreting the Estimates,2.3 Estimating the Regression Parameters,从弹性角度解释估计结果: 收入弹性是解释支出对收入变动回应性的有效途径。变量y对另一个变量x的弹性可表述为: 在线性经济模型中,有:,2.3.3a Elasticities,2.3 Estimating the Regression Parameters,平均支出对收入的弹性为: 一个通常计算的弹性是在均值点上的弹性:,Eq. 2.9,2.3 Estimating the Regression P

17、arameters,2.3.3a Elasticities,预测: 假定要预测周收入为2000美元的家户的周食品支出。可以将x=20带入估计方程,得到: 可以预测,周收入为2000美元的家户将每周支出287.61美元的食品支出。,2.3.3b Prediction,2.3 Estimating the Regression Parameters,2.3.3c Computer Output,Figure 2.9 EViews Regression Output,2.3 Estimating the Regression Parameters,2.3.4 Other Economic Model

18、s,简单回归模型可以用于估计许多经济、商业和社会科学变量关系的参数。 回归分析的应用是迷人而有用的。,2.3 Estimating the Regression Parameters,2.4 最小二乘估计量的评估,2A Derivation of the Least Squares Estimates,Eq. 2A.1,Eq. 2A.2,最小二乘估计量的推导过程,第一步:解出最小二乘估计量,Figure 2A.1 The sum of squares function and the minimizing values b1 and b2,2A Derivation of the Least

19、Squares Estimates,Eq. 2A.3,Eq. 2A.4,令偏导数为0,得到下面两个方程:,进一步简化为:,2A Derivation of the Least Squares Estimates,Eq. 2A.5,联立求解出两个方程,得到b2:,2A Derivation of the Least Squares Estimates,第二步:将最小二乘估计量表示为“去均值”形式:,2B Deviation from the Mean Form of b2,Eq. 2B.1,(1)分母:,(2)分子:,Eq. 2B.3,因此,我们可以将b2 重写为:,第三步:证明,第四步:证明,

20、为获得上式(Eq. 2.12), 用yi = 1+ 2xi +ei 替换 (方程2,10)中的 yi :,需要证明:(1) ;(2),(1) (2),因为:,因为:,b1 和 b2 的值取决于随机变量y,因此也是随机变量。我们称b1 和 b2 为最小二乘估计量。 我们可以考察估计量b1 和 b2 的特征,称之为样本特征。回答以下问题: 如果最小二乘估计量是随机变量,那么它们的期望值、方差、协方差和概率分布是什么? 最小二乘估计量如何与其他估计估计程序和估计量进行比较?,2.4 Assessing the Least Squares Fit,将估计量b2重写为: 其中: 据此,将b2重写为:,2

21、.4.1 The Estimator b2,Eq. 2.10,Eq. 2.11,Eq. 2.12,2.4 Assessing the Least Squares Fit,我们将证明,如果模型的假设成立,则有: E(b2) = 2, 这意味着估计量是无偏的。 上式的推导采用了,2.4.2 The Expected Values of b1 and b2,Eq. 2.13,2.4 Assessing the Least Squares Fit,如果从同一个总体中随机抽取许多样本,则无偏性的特征与b1和b2的平均值有关。 (1)求取许多样本估计值的平均值,这些均值将接近于b1 和 b2 的真实参数值

22、。 (2)无偏性并不是意味着基于一个样本得到的估计值接近于真实参数值,因此不能说估计值是无偏的。 (3)正确的表述应该是:估计程序(或最小二乘估计量)是无偏的。,2.4 Assessing the Least Squares Fit,2.4.2 The Expected Values of b1 and b2,2.4.3 Repeated Sampling,Table 2.2 Estimates from 10 Samples,2.4 Assessing the Least Squares Fit,78.74,9.68,Figure 2.10 b2 两个可能的概率密度函数,b2 的方差定义为:

23、,2.4 Assessing the Least Squares Fit,2.4.3 Repeated Sampling,等于0,如果假设SR4成立,随机干扰项 的方差,var(b2)另一种证明方法:,如果回归模型的假设SR1-SR5 成立(假设6不需要), 则b1和b2的方差和协方差为:,2.4.4 The Variances and Covariances of b1 and b2,Eq. 2.14,Eq. 2.15,Eq. 2.16,2.4 Assessing the Least Squares Fit,随机误差项的方差2 越大, 统计模型的不确定性就越大,最小二乘估计量的方差和协方差就

24、越大。 越大,最小二乘估计量的方差就越小,未知参数的估计就越准确。 样本规模N越大,最小二乘估计量的方差和协方差越小。 越大,b1 的最小二乘估计量的方差就越大。 样本均值 越大,协方差的绝对值越大,且协方差与样本均值 的符号相反。,b1 和 b2方差和协方差的要点:,2.4 Assessing the Least Squares Fit,2.4.4 The Variances and Covariances of b1 and b2,Figure 2.11 The influence of variation in the explanatory variable x on precisio

25、n of estimation (a) Low x variation, low precision (b) High x variation, high precision,b2 的方差定义为,2.4 Assessing the Least Squares Fit,2.4.4 The Variances and Covariances of b1 and b2,2F Proof of the Gauss-Markov Theorem,令 为 1的其他线性估计量,假定ki = wi + ci。,Eq. 2F.1,普通最小二乘估计量有效性的证明,Eq. 2F.2,Eq. 2F.3,Eq. 2F.

26、4,2F Proof of the Gauss-Markov Theorem,保证 也是无偏估计量,可以发现:,由此可以得到:,2F Proof of the Gauss-Markov Theorem,2.5 高斯-马尔科夫定理,2.5 The Gauss-Markov Theorem,在线性回归模型的假设SR1-SR5成立下,在 和 所有的线性无偏估计量中, b1 和 b2 具有最小方差。称其为最优线性无偏估计量(BLUE)。,GAUSS-MARKOV THEOREM,当与类似的其他线性无偏估计量相比,估计量 b1 和 b2是最优的,这一定理并不是说b1 和 b2 是所有可能的估计量中最好的

27、。 估计量b1 和 b2 之所以最优是因为它们具有最小的方差。当比较两个线性无偏估计量时,我们往往会选择方差更小的估计量,因为估计程序赋予我们更大的可能获得接近真实参数值的估计结果。 高斯-马尔科夫定理成立的前提是假设SR1-SR5 成立。这些假设中的任何一个如果不成立, b1 和 b2 都不是1 和2 的最优线性无偏估计量。,2.5 The Gauss-Markov Theorem,高斯-马尔科夫定理的要点,高斯-马尔科夫定理不依赖正态性假设。(假设SR6) 在简单线性回归模型中,若要获得一个线性无偏估计量,只需利用OLS估计b1 和 b2 即可。这就是我们研究这些估计量的目的,这也是它们在

28、经济、社会以及物理研究中广泛使用的原因。 高斯-马尔科夫定理适用于最小二乘估计量,但不适用于单样本的最小二乘估计值。,2.5 The Gauss-Markov Theorem,高斯-马尔科夫定理的要点,2.6 最小二乘估计量的概率分布,如果正态性假设成立(有关误差项的假设SR6),则最小二乘估计量服从正态分布:,2.6 The Probability Distributions of the Least Squares Estimators,Eq. 2.17,Eq. 2.18,若假设SR1-SR5 成立,且样本量N足够大, 则最小二乘估计量渐进服从正态分布。,2.6 The Probabili

29、ty Distributions of the Least Squares Estimators,中心极限定理,2.7 估计误差项的方差,如果假设E(ei)=0成立,则随机误差项ei的方差等于: “期望”即为平均值,因此可以利用残差平方的平均值来估计2 : 其中,残差项等于:,2.7 Estimating the Variance of the Error Term,利用最小二乘估计值替换未知参数,获得最小二乘残差: 为保证获得无偏估计量,作如下修正: 从而保证:,Eq. 2.19,2.7 Estimating the Variance of the Error Term,证明 的基本思路:,

30、将Eq. 2.14 Eq. 2.16 中的2替换为 得到:,2.7.1 Estimating the Variance and Covariance of the Least Squares Estimators,Eq. 2.20,Eq. 2.21,Eq. 2.22,2.7 Estimating the Variance of the Error Term,估计方差的平方根为 b1 和 b2 的标准误:,Eq. 2.23,Eq. 2.24,2.7 Estimating the Variance of the Error Term,2.7.1 Estimating the Variance an

31、d Covariance of the Least Squares Estimators,2.7.2 Calculations for the Food Expenditure Data,Table 2.3 最小二乘残差,2.7 Estimating the Variance of the Error Term,一个回归方程估计得到的方差和协方差可以写成矩阵的形式,称之为:估计系数的方差协方差矩阵。对角线上是方差,非对角线上是协方差。,2.7 Estimating the Variance of the Error Term,2.7.2 Calculations for the Food Ex

32、penditure Data,由食品支出数据估计得到的方差协方差矩阵为:,2.7.2 Calculations for the Food Expenditure Data,2.7 Estimating the Variance of the Error Term,b1 和 b2 的标准误测度的是最小二乘估计量b1 和 b2 在重复抽样中的样本变异性。 估计量是随机变量,因此它们有概率分布、均值和方差; 如果假设SR6成立,则随机误差项ei 服从正态分布:,2.7.3 Interpreting the Standard Errors,2.7 Estimating the Variance of

33、the Error Term,估计量的方差var(b2), 或其平方根 称作b2真实的标准误,测度了估计值b2的抽样 变异。 越大,表示不同样本得到的最小二乘估计量 b2的变异越大。若 较大,不同的样本得到的估计值差异也会越大。 若 相对参数b2较小,则最小二乘估计值有很大概率会落在b2附近。,2.7 Estimating the Variance of the Error Term,2.7.3 Interpreting the Standard Errors,我们提出的关于标准误的问题是:由不同样本得到的估计值与它们的均值间的偏离有多大?,2.7 Estimating the Varianc

34、e of the Error Term,2.7.3 Interpreting the Standard Errors,我们估计 2, 并且使用以下等式估计 因此,b2的标准误是对回归得到的多个 b2估计值偏离程度的估计,也是 衡量b2概率分布函数(见图2.12)宽度的一个指标,2.7 Estimating the Variance of the Error Term,2.7.3 Interpreting the Standard Errors,最小二乘估计量b2的概率密度函数,2.7 Estimating the Variance of the Error Term,2.7.3 Interpr

35、eting the Standard Errors,2.8 估计非线性关系,经济变量并未总是直接的线性联系;事实上,许多经济关系呈现出曲线联系,我们称之为曲线形式。 简单线性回归模型 y = 1 + 2 + e可以表示变量间的非线性关系,因为变量y 和 x 可以转换形式,包括取经济变量的对数、平方项、立方项或者倒数,以及取值为0或1的指示变量。 包括这些可能的取值,简单线性回归模型可以用于考虑变量间的非线性关系。,2.8 Estimating Nonlinear Relationships,THE WORLD IS NOT LINEAR,考虑房价的线性模型: SQFT表示建筑面积。 一个合理的

36、假设:更大更贵的房屋与较小较低价的房屋相比,每增加一平方英尺的价格更高。,Eq. 2.25,2.8 Estimating Nonlinear Relationships,我们可以通过以下两种方式建立模型: 以SQFT2为解释变量的二次方程 以 ln(PRICE)为被解释变量的对数线性方程 在这两种情况下,我们会发现 PRICE 和SQFT 的斜率是非恒定的,随解释变量取值的变化而变化。,2.8 Estimating Nonlinear Relationships,二次函数 y = 1 + 2x2图像是抛物线 曲线的弹性,即 x变动一个百分比y的变动, 表示为,2.8.1 Quadratic F

37、unctions,2.8 Estimating Nonlinear Relationships,Figure 2.13 A quadratic function,2.8 Estimating Nonlinear Relationships,2.8.1 Quadratic Functions,给定一个包括SQFT平方的二次房价模型: 斜率表示为: 若 , 则表示面积更大的房屋有更大的斜率,即面积更大的房屋的估计价格更高。,2.8.2 Using a Quadratic Model,Eq. 2.26,Eq. 2.27,2.8 Estimating Nonlinear Relationships,F

38、igure 2.14 A fitted quadratic relationship,2.8 Estimating Nonlinear Relationships,2.8.2 Using a Quadratic Model,对2005年年中在Baton Rouge, LA 销售的1080套房屋,估计的二次方程为: 估计斜率为: 弹性为:,2.8 Estimating Nonlinear Relationships,2.8.2 Using a Quadratic Model,为了计算一个估计值,我们必须为SQFT 和PRICE赋值 一个普遍方法就是选择拟合曲线上的一点 也就是说,我们根据拟合值为

39、SQFT和PRICE赋值,2.8 Estimating Nonlinear Relationships,2.8.2 Using a Quadratic Model,对2000、4000、6000平方英尺的房屋,估计的弹性分别为: 对于一个2000平方英尺的房屋,我们估计房屋面积每增长1%将会导致房价增加1.05%,1.05 using 1.63 using 1.82 using,2.8 Estimating Nonlinear Relationships,2.8.2 Using a Quadratic Model,对数线性方程ln(y) = a + bx ,方程左侧为对数形式,右侧为线性形式

40、斜率和弹性随点的变化而变化,且始终为b 斜率为: 曲线上一点的弹性为:,2.8.3 A Log-Linear Function,2.8 Estimating Nonlinear Relationships,根据斜率表达式,我们可以计算出半弹性,它告诉我们x 变动一个单位,造成y 变动的百分比:,Eq. 2.28,2.8 Estimating Nonlinear Relationships,2.8.3 A Log-Linear Function,再次考虑房价关于建筑面积的函数,用半对数形式表示: 这个对数变换可以调整向右尾部倾斜的数据结构,2.8.4 Using a Log-Linear Mod

41、el,Eq. 2.29,2.8 Estimating Nonlinear Relationships,Figure 2.16 (a) Histogram of PRICE (b) Histogram of ln(PRICE),2.8 Estimating Nonlinear Relationships,2.8.4 Using a Log-Linear Model,使用 Baton Rouge的数据, 拟合的对数线性模型为: 为了获得预计价格,对等式去对数,得到如下指数函数:,2.8 Estimating Nonlinear Relationships,2.8.4 Using a Log-Linear Model,Figure 2.17 The fitted log-linear model,2.8 Estimating Nonlinear Relationships,2.8.4 Using a Log-Linear Model,对数线性模型的斜率为:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论