计量经济学02.pptx_第1页
计量经济学02.pptx_第2页
计量经济学02.pptx_第3页
计量经济学02.pptx_第4页
计量经济学02.pptx_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章,一元线性回归,本章大纲,总体线性回归模型 普通最小二乘(OLS)估计量及样本回归线 样本回归的拟合优度 最小二乘假设 OLS估计量的抽样分布,4-2,估计总体回归线的斜率,总体回归线的斜率表示每一单位X变化引起Y的期望变化 最终目标是估计每一单位X变化对Y的因果效应,当前考虑的问题是描绘一条直线来拟合变量X,Y的数量关系,4-3,一般而言,线性回归的统计推断问题类似于均值估计或是两均值差估计的统计推断问题。统计学或是计量经济学中关于斜率估计的步骤:,估计: 如何利用数据估计总体回归线的斜率? 利用普通最小二乘法 (OLS). OLS的优缺点有哪些? 假设检验: 如何检验斜率是否为“0”

2、? 置信区间: 如何构造该斜率的置信区间?,4-4,1-5,一元线性回归模型,问题:缩小班级规模会对学生的成绩有什么影响? 数据:加州所有K-6和K-8的学区(n=420) 变量: 5年级考试分数(标准化考试,包括数学和阅读),学区平均分数 学生教师比(STR)=学生数除以全职教师的数量,线性回归模型(教材 4.1节),总体回归线: Test Score = 0 + 1STR 1 =总体回归线斜率 = = 一单位STR变化所引起的Test Score的变化 为什么0 及 1 是“总体”参数? 我们想知道 1的值。但是, 因为1未知,故须利用数据进行估计,4-6,线性回归模型,Yi = 0 +

3、1Xi + ui, i = 1, n n 个观察值, (Xi , Yi ), i = 1,., n. X 是自变量或回归变量 Y 是因变量 0 = 截距 1 = 斜率 ui = 回归误差 一般地,回归误差包括了除X变量以外的其他所有决定Y变量的因素。此外,回归误差也包含Y的度量误差,4-7,线性回归模型(如图示): Y 及 X 的观测值 (n = 7); 线性回归线; 回归误差 (误差项):,4-8,普通最小二乘估计量 (教材 4.2节),如何利用数据估计0 及 1? 回顾:Y的最小二乘估计量 为如下问题的解: 类似地, 我们关注未知参数0和1 的最小二乘(OLS)估计量,即求解如下问题:,4

4、-9,OLS 方法,总体回归线: Test Score = 0 + 1STR 1 = = ?,4-10,求解OLS 估计量:,OLS估计量是最小化真值Yi与基于回归线的预测值之差的平方和的结果 最小化问题可由微积分求解(见附录App. 4.2) 该结果即为0 及 1 的OLS估计值,4-11,4-12,重要概念4.2 OLS估计量、预测值和残差 斜率 1 和 截距 0的OLS估计量分别为 OLS预测值 和残差 分别为,估计的截距 、斜率 和残差 是利用X和Y的n组样本观测值计算得到的。它们分别为总体截距 0和斜率 1 和误差项u的估计。,加利福尼亚州测试成绩与班级规模数据的OLS估计运用,斜率

5、估计值 = = 2.28 截距估计值 = = 698.9 估计回归线: = 698.9 2.28STR,4-13,斜率估计值与截距估计值的解释,= 698.9 2.28STR 每个教师对应的学生人数增加1个时,学区测试成绩将平均下降2.28分 即: = 2.28 截距 (按字面理解) 指:由该回归线知,在学生老师比例为零的学区,预测其平均测试成绩为698.9分。但该解释没有实际意义数据范围之外的推断没有经济意义。,4-14,预测值与残差:,数据集中有一个学区是加州的安蒂洛普(Antelope),其学生与教师之比 = 19.33 平均测试成绩 = 657.8 预测值: = 698.9 2.281

6、9.33 = 654.8 残差: = 657.8 654.8 = 3.0,4-15,OLS 回归: STATA 结果,regress testscr str, robust Regression with robust standard errors Number of obs = 420 F( 1, 418) = 19.26 Prob F = 0.0000 R-squared = 0.0512 Root MSE = 18.581 - | Robust testscr | Coef. Std. Err. t P|t| 95% Conf. Interval -+- str | -2.279808

7、 .5194892 -4.39 0.000 -3.300945 -1.258671 _cons | 698.933 10.36436 67.44 0.000 678.5602 719.3057 - = 698.9 2.28STR (稍后讨论该结果的其余部分),4-16,拟合优度(教材 4.3节),OLS回归线拟合数据的效果如何?考虑两个互补的统计量: 回归 R2度量了能被X解释的Y的方差的比例; 取值在0 (不能拟合)到1 (完全拟合)之间 回归标准误 (SER) 是具有代表性的回归残差大小,其单位与Y的单位相同,4-17,回归 R2 :由回归“解释”的Yi 的样本方差的比例,Yi = + =

8、 OLS 预测 + OLS 残差 样本var (Y) = 样本 var( ) + 样本 var( ) (Why?) 总平方和 = 被解释的平方和 + 残差平方和 R2定义: R2 = = R2 = 0 则 ESS = 0 R2 = 1 则 ESS = TSS 0 R2 1 如果X为一元变量,回归的R2 = X与Y的相关系数平方,4-18,4-19,SER 衡量的是u分布的离散程度。 SER 近似等于OLS残差的样本标准离差: SER = = 第二个等式成立,因为 = = 0.,回归标准误 (SER),SER =,SER: U的单位与Y单位一样,SER是用因变量单位度量的观测值在回归线附近的离散

9、程度 SER衡量的是OLS残差的平均大小 (距离回归线的平均偏差) 均方根误差 (RMSE) 与 回归标准误(SER)联系紧密: RMSE = 该公式与SER度量一样,较小的差异在于用n替代了除数n-2.,4-20,说明: 为何用n-2作除数而不是n?,SER = 用n-2作除数是为“自由度”修正。正如在 中,用n-1作除数。所不同的是,在SER中涉及到两个未知参数0 与1的估计,而在 中只涉及到一个未知参数Y 的估计。 尽管在单个回归变量时,常用公式中采用n-2作除数,但是当n很大时,除数是n,n-1或是n-2的差别可以不计 详情见 17.4 部分,4-21,关于 R2 及 SER 的例子,

10、= 698.9 2.28STR, R2 = 0.051, SER = 18.6 学生/教师之比只解释了测试成绩变化中很小的一部分。这合理么?这是否意味着学生/教师之比在政策制定中无关紧要?,4-22,最小二乘假设 (教材 4.4 节),准确地讲,OLS估计量的抽样分布有哪些性质?什么情况下是无偏的?方差如何? 回答上述问题,需要对Y与X之间的关系以及样本收集的方法作一些假设 这些假设(共三个)被称为最小二乘假设,4-23,最小二乘假设,Yi = 0 + 1Xi + ui, i = 1, n 给定X时,u的条件分布均值为零,即E(u|X = x) = 0. 由此可以得出 是无偏的 (Xi,Yi)

11、, i =1,n, 独立同分布 当(X, Y)按照简单随机抽样,该假设满足 由此可以得出 和 的抽样本分布 X和/或Y的观测中不太可能出现异常值 数学描述,X和Y具有非零有限四阶矩 异常值可能导致 的结果无意义,4-24,最小二乘假设#1: E(u|X = x) = 0.,对于任意给定的X值,u的均值是零 例: Test Scorei = 0 + 1STRi + ui, ui = 其他因素 “其他因素”指什么? 对于其他因素而言, 假设E(u|X=x) = 0是否合理?,4-25,最小二乘假设#1(续),该假设是基于理想的随机对照试验: X被随机分配 (学生被随机分配到不同规模的班级中;病人被

12、随机分配到不同的治疗方案中)。随机分配通常由电脑完成(不用到关于个体的信息)。 因为X被随机分配,所有的其他个体特征(都包含于u中)的分布与X独立,故u和X是独立的 因此,在随机对照试验中, E(u|X = x) = 0 (即: LSA #1 成立) 在实际试验中,或是观察数据中,需要仔细考虑和判断E(u|X = x) = 0 是否成立,4-26,最小二乘假设#2: (Xi,Yi), i = 1,n 独立同分布,如果个体(个人,地区)是通过简单随机抽样得来的,这个结论自然就成立: 个体从同一总体选出,故 (Xi, Yi) 显然同分布,i = 1, n. 个体选自随机抽取,故不同个体(X, Y)

13、的样本值是独立分布的 我们遇到非独立同分布抽样的主要场合是当数据是随时间记录的(面板数据和时间序列数据)在处理面板数据时,需要解决这种复杂问题。,4-27,最小二乘假设#3: 不太可能出现异常值数学描述: E(X4) 且 E(Y4) ,较大的异常值是X或Y的极端值 数学上描述, 如果X及Y是有界的,则X与Y具有有限四阶矩。(标准测试分数自然满足;学生/教师比,家庭收入等也满足) 该假设的实质是异常值会显著影响回归结果,故需要剔除较大的异常值 检查你的数据!如果有较大异常值,是否是排印错误?是否属于你的数据集?为什么是一个异常值?,4-28,OLS 对异常值敏感:,在X或y中,该点是否是异常值?

14、 实践中, 异常值通常是数据错误 (编码和重新编码问题). 有时是不属于你的数据集的数据。最简单的方法是画散点图来检查。,4-29,OLS估计量的抽样分布 (教材 4.5节),OLS估计量是由随机抽取的样本计算得到的。不同的样本会产生不同的 值。 这是 抽样不确定性的根源。我们需要: 量化相关抽样的不确定性 对 的取值进行假设检验,例如1 = 0是否成立 构建1 的置信区间 实现上述目标,需要分析OLS估计量的抽样分布,分两步: 线性回归的概率框架 OLS统计量的分布,4-30,线性回归的概率框架,线性回归的概率框架归结为最小二乘的三个假设 总体 目标群体 (例如:所有可能的学区) 随机变量:

15、 Y, X 例如: (测试分数, 学生/教师之比) X,Y的联合分布 (Y, X)。假设: 总体回归函数是线性的 E(u|X) = 0 (1st LSA) X, Y 有非零的四阶矩 (3rd LSA ) 简单随机抽样的的数据收集意味: (Xi, Yi), i = 1, n, 独立同分布 (2nd LSA ),4-31,的样本分布,与 类似, 也有抽样分布 何为 E( )? 若E( ) = 1, 则 OLS 是无偏的理想的结果! 何为 var( )? (抽样不确定性的度量) 利用公式计算 的标准误。 小样本中, 的分布是什么? 一般而言,较为复杂 大样本中, 的分布是什么? 大样本下,服从正态分

16、布,4-32,抽样分布的均值与方差,初等代数等式: Yi = 0 + 1Xi + ui = 0 + 1 + 则 Yi = 1(Xi ) + (ui ) 那么, = =,4-33,= 则 1 = . 现有 = = =,4-34,将 = 代入 1 的表达式 中: 1 = 故 1 =,4-35,现在可计算 E( ) 和 var( ):,E( ) 1 = = = 0 因为 E(ui|Xi=x) = 0 (LSA #1) 由LSA #1 知 E( ) = 1 即 是1的无偏估计量 详情见 App. 4.3,4-36,下一步计算 var( ):,记 1 = = 其中 vi = (Xi )ui. 若 n 较

17、大, 并且 1, 则有 1 , 其中 vi = (Xi )ui (见 App. 4.3)。则有,4-37,4-38, 1 所以 var( 1) = var( ) = = 其中,最后一个等式使用了假设2。故, var( ) = . 综上有: 为无偏估计: E( ) = 1 类似于 ! var( ) 与n成反比 类似于 !,何为 的抽样分布?,精确的抽样分布很复杂,其取决于(Y,X)的总体分布但当n较大时,可得到简单且较好的近似分布: 因为 var( ) 1/n 且 E( ) = 1, 1 当n较大时,样本分布近似的服从正态分布 (CLT) 回顾 CLT: 设vi, i = 1, n 独立同分布

18、,E(v) = 0 且 var(v) = 2. 则, 当n较大时, 近似服从 N(0, )。,4-39,大样本下 的近似分布:, 1 = , 其中 vi = (Xi )ui 当n较大时, vi = (Xi )ui (Xi X)ui 是独立同分布的(为什么?) 且 var(vi) (为什么?)。 故,按照 CLT , 近似服从 N (0, ). 故, 对大样本而言, 近似服从 , 其中 vi = (Xi X)ui,4-40,X的方差越大, 的方差越小,数学上 var( 1) = 其中 = var(Xi)。分母中X的方差(平方)越大,1的方差越小 直觉上 若X的方差越大,则用于拟合回归线的数据中所包含的信息越多。这点很容易在图中看出,4-41,X的方差越大, 的方差越小,黑点与蓝点的数量一样

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论