




免费预览已结束,剩余73页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章双变量线性回归模型 简单线性回归模型 SimpleLinearRegressionModel 这意味着Y X 1 我们写出计量经济模型如下Y X u 2 其中u 扰动项或误差项Y为因变量或被解释变量 X为自变量或解释变量 和 为未知参数 第一节双变量线性回归模型的估计 一 双变量线性回归模型的概念 设Y 消费 X 收入 我们根据数据画出散点图如下 3 式称为双变量线性回归模型或简单线性回归模型或一元线性回归模型 其中 和 为未知的总体参数 也称为回归模型的系数 coefficients 下标i是观测值的序号 设我们有Y和X的n对观测值数据 则根据 2 式 变量Y的每个观测值应由下式决定 Yi Xi ui i 1 2 n 3 当数据为时间序列时 往往用下标t来表示观测值的序号 从而 3 式变成Yt Xt ut t 1 2 n 3 二 普通最小二乘法 OLS法 OrdinaryLeastsquares 这个优良的 探索经济变量间数量规律的方法正是本章介绍的最小二乘法 由最小二乘法所得的 表现变量之间线性关系的直线有些什么特性 用此直线代表所有观察点可靠吗 怎样衡量此直线的可靠性 如何运用所得变量的线性关系 回归 最小二乘 方程 一 关于最小二乘法的历史回顾 最小二乘法最早称为回归分析法 由著名的英国生物学家 统计学家道尔顿 F Gallton 达尔文的表弟所创 早年 道尔顿致力于化学和遗传学领域的研究 道尔顿研究英国男子中父亲们的身高与儿子们的身高之间的关系时 创立了回归分析法 1 F Gallton关于父亲们的身高与儿子们的身高之间关系的研究 1889年F Gallton和他的朋友K Pearson收集了1078个家庭的身高 臂长和腿长的记录 企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式 回归 一词的由来 从家庭的散点图可看出 个子高的父亲确有生出个子高的儿子的倾向 同样地 个子矮的父亲确有生出个子矮的儿子的倾向 得到的具体规律如下 高的后代伸进天 矮的后代缩入地 他百思不得其解 同时又发现某人种的平均身高是相当稳定的 最后得到结论 儿子们的身高是回复于全体男子的平均身高 即 回归 见1889年F Gallton的论文 普用回归定律 后人将此种方法普遍用于寻找变量之间的规律 2 最小二乘法的地位与作用 1 现在回归分析法已远非道尔顿的本意 儿子身高向平均身高回归 以保持种族身高的稳定性 已经成为探索变量之间关系最重要的方法 用以找出变量之间关系的具体表现形式 2 后来 回归分析法从其方法的数学原理 残差平方和最小 平方乃二乘也 出发 改称为最小二乘法 二 最小二乘法的思路 1 为了精确地描述Y与X之间的关系 必须使用这两个变量的每一对观察值 才不至于以 点 概面 作到同步与全面 2 Y与X之间是否是直线关系 用协方差或相关系数衡量 若是 将用一条直线描述它们之间的关系 3 在Y与X的散点图上 找出一条能够最好地描述Y与X 代表所有点 之间关系的直线 4 什么是最好 找出判断 最好 的原则 最好指的是找这么一条直线 使得所有点到该直线的纵向距离的和 平方和 最小 我们的模型是 Yt Xt ut t 1 2 n这里 和 为未知总体参数 下一步的任务是应用统计学的方法 由Y和X的观测值 即样本数据 来估计 和 的总体值 常用的估计方法就是最小二乘法 为了应用最小二乘法 得到好的估计量 双变量线性回归模型需要满足一些统计假设条件 这些统计假设是 1 双变量线性回归模型的统计假设 三 最小二乘法原理 1 E ut 0 t 1 2 n即各期扰动项的均值 期望值 为0 2 COV ui uj E ui uj 0i j即各期扰动项互不相关 3 Var ut E ut2 2 t 1 2 n即各期扰动项方差是一常数 4 解释变量Xt为非随机量即Xt的取值是确定的 而不是随机的 5 ut N 0 2 t 1 2 n即各期扰动项服从正态分布 满足条件 1 4 的线性回归模型称为古典线性回归模型 CLR模型 双变量线性回归模型的统计假设 我们的任务是 在给定X和Y的一组观测值 X1 Y1 X2 Y2 Xn Yn 的情况下 如何求出Yt Xt ut中 和 的估计值 使得拟合的直线为最佳 2 最小二乘原理 直观上看 也就是要求在X和Y的散点图上穿过各观测点画出一条 最佳 直线 如下图所示 拟合的直线称为拟合的回归线 对于任何数据点 Xt Yt 此直线将Yt的总值分成两部分 第一部分是Yt的拟合值或预测值 t 1 2 n第二部分 et代表观测点对于回归线的误差 称为拟合或预测的残差 residuals t 1 2 n即t 1 2 n 残差 我们的目标是使拟合出来的直线在某种意义上是最佳的 直观地看 也就是要求估计直线尽可能地靠近各观测点 这意味着应使各残差尽可能地小 要做到这一点 就必须用某种方法将每个点相应的残差加在一起 使其达到最小 理想的测度是残差平方和 即最小二乘法就是选择一条直线 使其残差平方和达到最小值的方法 即选择和 使得 如何决定估计值和 运用微积分知识 使上式达到最小值的必要条件为 即 达到最小值 整理 得 此二式称为正规方程 解此二方程 得 其中 离差 样本均值 估计量 拟合直线的性质 1 残差和为零 2 Y的真实值和拟合值有共同的均值 3 残差与自变量不相关 4 残差与拟合值不相关 3例子 例1对于第一段中的消费函数 若根据数据得到 n 10 23 20 则有 因而 例2设Y和X的5期观测值如下表所示 试估计方程Yt Xt ut序号12345Yt1418232530Xt1020304050解 我们采用列表法计算 计算过程如下 表3 1 估计方程为 又解 表3 2 对于满足统计假设条件 1 4 的线性回归模型Yt Xt ut 普通最小二乘估计量 OLS估计量 是最佳线性无偏估计量 BLUE 或对于古典线性回归模型 CLR模型 Yt Xt 普通最小二乘估计量 OLS估计量 是最佳线性无偏估计量 BLUE 3 高斯 马尔柯夫定理 Gauss MarkovTheorem 我们已在前面证明了无偏性 此外 由于 由上段结果 其中这表明 是诸样本观测值Yt t 1 2 n 的线性函数 故是线性估计量 剩下的就是最佳性了 即的方差小于等于 的其他任何线性无偏估计量的方差 我们可以证明这一点 但由于时间关系 从略 有兴趣的同学请参见教科书 P45 47 我们在前面列出的假设条件 5 表明 ut N 0 2 t 1 2 n即各期扰动项服从均值为0 方差为 2的正态分布 考虑到假设条件 4 即Xt为非随机量 则由前面结果 其中 4 和的分布 这表明 是N个正态分布变量u1 u2 un的线性函数 因而亦为正态分布变量 即 类似的有 用最小二乘法得到的回归直线至少从残差平方和为最小这一意义上来说是所有可能直线中最佳的拟合线 它是对Y和X之间关系的一种描述 但该直线是不是Y和X之间关系的一种恰当的描述呢 如果各观测点紧密地聚集在这条直线的周围 则表明该直线对Y和X之间关系的描述是好的 否则 用直线来描述这两个变量之间的关系就未必恰当 如下图所示 四 拟合优度的测度 1 拟合优度 Goodnessoffit 的概念 a 恰当描述 b 不恰当描述图2 3 应该指出 对于任意两个变量的一组观测值 我们总是可以运用最小二乘法得到一条直线 问题是该直线能否较好地拟合所给定的观测值 这就是拟合优度问题 拟合优度是两变量之间关系强度的测度 在这里 指的是两变量间线性关系强度的测度 让我们来考察一下Y的变差的组成情况 我们有Y的N个观测值 Y的总变差的一个测度是 Y的变差 中有一部分是可以由X的取值变动所解释的 还有一部分是不能由X所解释的变差 Y的变差 自变量X引起Y的变动部分 除X以外的因素引起Y的变动部分 2 Y的变差 离差 的组成 如下图所示 对于第t个观测值 有 由于 对于全部N项观测值平方求和 有 其中 ESS ExplainedSumofSquaresRSS ResidualSumofSquaresTSS TotalSumofSquares 总变差 TSS 度量Y自身的差异程度 TSS除以自由度n 1 因变量的方差 回归变差 解释变差ESS 度量Y的拟合值自身的差异程度 ESS除以自由度k 自变量个数 回归方差 度量由自变量的变化引起的因变量变化部分 度量实际值与拟合值之间的差异程度 称为残差变差 RSS除以自由度 n k 1 残差 误差 方差 度量由非自变量的变化引起的因变量变化部分 1 决定系数R2决定系数是反映估计的回归曲线对观测的数据的解释能力或者说是反映两者拟合优度的尺度 我们将 8 式两端都除以总变差 得 3 拟合优度的测度 用符号表示为 决定系数R2计量了Y的总变差中可以归因于X和Y之间关系的比例 或者说Y的变动中可以由X的变动来解释的比例 它是回归线对各观测点拟合紧密程度的测度 我们有 R2 1 完全拟合 R2 0 X与Y完全不存在线性关系 R2的值越高 拟合得越好 但什么是高 回归中使用时间序列数据还是横截面数据有不同的标准 4 相关系数r由R2很容易联想到我们在统计中学过的相关系数 相关系数r与决定系数的关系为 R2 r2 相关系数的计算公式为 相关系数r也是拟合优度的测度 其符号取决于的符号 即的符号 我们有 1 r 1r 1 完全正相关r 1 完全负相关r 0 无线性关系 相关系数和决定系数的计算很简单 事实上 我们只要在原列表计算的表格中加上一个计算的栏目就行了 对于我们前面的例子 列表计算得 154 因此 r R2 0 9938 2 0 9876它表明 在我们的例子中 X与Y存在着很强的线性关系 拟合甚佳 但由于观测点很少 5个 因而对此结论应持谨慎态度 我们在上一节中已得出 在5条假设条件成立的情况下 有 与估计量相联系的概率分布的标准差 通常称为标准误差 用Se表示 的标准误差为 Se 如果 为已知 则我们可以立即给出总体参数 的95 的置信区间为 1 96或 1 96Se 2双变量回归中的区间估计和假设检验 一 的置信区间 但实际上 我们一般无法知道扰动项分布的方差 2 而必须根据样本数据估计出 2 然后再来考虑 的置信区间的计算问题 1 2的估计我们可以用残差来估计扰动项ut的方差 2 可以证明 是 2的无偏估计量 为了计算 我们可以直接从残差的定义式得到 也可以通过下面的公式求出 我们重新定义标准误差为 Se 则检验统计量t t n 2 故 的置信区间为 即 2 的置信区间 即为0 10至1 06 也就是说 我们有95 的把握说 在0 10至1 06之间 1 假设检验的方法有了上一段的重要结果t t n 2 我们进行有关总体参数 的假设检验就很容易了 假设检验的步骤 1 建立关于总体的原假设和备择假设 2 计算检验统计量 检验原假设 是否出现小概率事件 3 得出关于原假设是否合理的结论 二 假设检验 例1 仍用上一段例中的数据 我们要检验的是 原假设 H0 0 8备择假设 H1 0 8这是一个单侧检验的问题 我们有 t 1 05用 n 2 10 2 8查t表 截断左侧5 面积的t临界值tc 1 86 t 1 05 1 86故接受原假设H0 即 0 8 图2 5 在假设检验中 有关 是否为0的假设检验特别重要 如果通过检验 接受 0的原假设 则表明X和Y没有关系 即X对Y的变动没有影响 在这种情况下 就应从模型中剔除X 寻找其他解释变量 这类检验称为系数的显著性检验 2 系数的显著性检验 图2 6 我们已得到原假设H0 0的t值 t 2 76同样可得出原假设H0 0的t值 t 1 381 回归结果提供提供回归分析结果一般有两种方式 1 6 70 0 58XR2 0 49 1 38 2 76 这里6 70和0 58分别为 和 的估计值和 括号中数字是H0 0和H0 0为真时的t值 三 回归结果的提供和分析 2 回归结果的分析结果的分析主要包括以下内容 1 系数的说明 首先是说明系数的符号是否正确 是否符合经济理论和常识 其次是说明系数的含义 斜率系数为0 58 表明X增加一个单位 Y增加0 58个单位 如收入X增加1元 消费Y增加0 58元 截距6 70的含义是X为0时Y的值 截距项有时有经济意义 大多数情况下无 2 拟合情况 R2不高 作为时间序列数据 拟合不理想 3 系数的显著性 斜率系数的t值为2 76 表明该系数显著异于0 X对Y有影响 2 6 70 0 58XR2 0 49 4 86 0 21 括号中提供的是和的标准误差 我们用OLS法对双变量模型的参数进行了估计之后 如果结果理想 拟合得较好 且系数估计值符合经济理论和常识 则可用估计好的模型进行预测 一 预测的概念预测通常指利用现有信息预测未来 在这里 预测指的是对自变量的某一具体值X0 来预测与它相对应的因变量值Y0 它既可以指对未来某个时期因变量值的预测 也可以是对未包括在横截面样本之中的某个实体数值的预测 通常情况下 我们要预测的是与样本观测值范围之外的X值对应的Y值 如观测值为1985 2000年 预测2001 2002年的居民消费 但X0也可以在样本X值的范围内 3预测 要进行预测 有一个假设前提应当满足 即对于样本观测值数据成立的X和Y之间的关系对于新的观测值也成立 即若双变量模型的原设定是 Yt Xt ut t 1 2 n则要使此模型可以用来作为预测的依据 还应有 Y0 X0 u0也成立 二 预测的隐含假设 我们可以得到两种类型的预测值 点预测值和区间预测值 在实践中 如果没有某种精度指标的话 点预测值是没有多大用处的 所以 我们必须提供点预测值的预测误差 点预测值由与X0对应的回归值给出 即而预测期的实际Y值由下式给出 其中u0是从预测期的扰动项分布中所取的值 三 预测的误差 由此不难看出 预测误差产生于两个来源 1 模型中包含扰动项 点预测值是假定预测期扰动项u0为0 而实际上一般不为0 2 点预测值公式中用的是 和 的估计值和 样本估计值和一般不等于总体参数 和 预测误差的来源 预测误差的方差为 其它两项协方差等于0 这是因为u0独立于u1 u2 un 而和均为u1 u2 un 的线性函数 因此它们与u0的协方差均为0 将我们在前面得到的和的方差及协方差代入上式 得 从e0的定义可看出 e0为正态变量的线性函数 因此 它本身也服从正态分布 故 N 0 1 由于 是未知的 我们用其估计值代替它 有 四 Y0的置信区间 即15 24至21 76 也就是说 我们有95 的把握预测Y0将位于15 24至21 76之间 例2 且现有一对新观测值 试问它们是否可能来自产生样本数据的同一总体 解 问题可化为 预测误差是否显著地大 当时 预测误差 原假设 H0 备择假设 H1 检验 若H0为真 则对于n 2 8个自由度 查表得5 显著性水平检验的t临界值为 即 结论 由于故接受原假设 即新观测值与样本观测值来自同一总体 上例的意义在于 我们可以通过从估计模型用的一组观测值中剔除
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广西城市职业大学病理与病理生理期末模拟试题(A卷)附答案详解
- 应急安全培训讲师内容课件
- 2025计算机一级检测卷及完整答案详解(名校卷)
- 疫苗在癌症预防中作用
- 漫画分成合同(标准版)
- 2024-2025学年度施工员能力检测试卷及答案详解(易错题)
- 2025年快消品行业包装材料绿色创新趋势深度报告
- 2025年生物质能源在智能微网分布式能源系统中的应用优化与创新报告
- 上海市张江、建平中学2024-2025学年九年级上学期期中联考语文试题(无答案)
- 幽门螺杆菌课件胡伏莲
- 2025年甘肃省定西市辅警考试真题及答案
- 2025年下半年全国教师资格证考试中学《综合素质》真题及答案
- 2025年乡镇综合执法队员职业素养要求及考试要点
- 弱视治疗设备(光源不直接照射眼底)注册审查指导原则2025
- 2025年村级后备干部考试题库(含答案)
- 2025-2026学年教科版(2024)小学体育与健康三年级全一册《情绪会调控》教学设计
- 银行情绪与压力管理课件
- 脚手架施工方案
- 脑梗死恢复期护理查房范文讲课件
- 京东安全工程师笔试题库
- ISO 37001-2025 反贿赂管理体系要求及使用指南(中文版-雷泽佳译-2025)
评论
0/150
提交评论