![[理学]第二章 简单线性回归模型.ppt_第1页](http://file.renrendoc.com/FileRoot1/2019-1/2/396e1dea-a683-4578-8039-897c4e65495e/396e1dea-a683-4578-8039-897c4e65495e1.gif)
![[理学]第二章 简单线性回归模型.ppt_第2页](http://file.renrendoc.com/FileRoot1/2019-1/2/396e1dea-a683-4578-8039-897c4e65495e/396e1dea-a683-4578-8039-897c4e65495e2.gif)
![[理学]第二章 简单线性回归模型.ppt_第3页](http://file.renrendoc.com/FileRoot1/2019-1/2/396e1dea-a683-4578-8039-897c4e65495e/396e1dea-a683-4578-8039-897c4e65495e3.gif)
![[理学]第二章 简单线性回归模型.ppt_第4页](http://file.renrendoc.com/FileRoot1/2019-1/2/396e1dea-a683-4578-8039-897c4e65495e/396e1dea-a683-4578-8039-897c4e65495e4.gif)
![[理学]第二章 简单线性回归模型.ppt_第5页](http://file.renrendoc.com/FileRoot1/2019-1/2/396e1dea-a683-4578-8039-897c4e65495e/396e1dea-a683-4578-8039-897c4e65495e5.gif)
已阅读5页,还剩119页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
计量经济学 第二章简单线性回归模型 从2004中国国际旅游交易会上获悉 到2020年 中国旅游业总收入将超过3000亿美元 相当于国内生产总值的8 至11 资料来源 国际金融报2004年11月25日第二版 是什么决定性的因素能使中国旅游业总收入到2020年达到3000亿美元 旅游业的发展与这种决定性因素的数量关系究竟是什么 怎样具体测定旅游业发展与这种决定性因素的数量关系 引子 中国旅游业总收入将超过3000亿美元吗 第二章简单线性回归模型 本章主要讨论 回归分析与回归函数 简单线性回归模型参数的估计 拟合优度的度量 回归系数的区间估计和假设检验 简单线性回归模型检验 回归模型预测 第一节 回归分析与回归方程 本节基本内容 回归与相关 总体回归函数 随机扰动项 样本回归函数 非线性模型线性化 1 经济变量间的相互关系 确定性的函数关系 不确定性的统计关系 相关关系 u为随机变量 没有关系 一 回归与相关 对统计学的回顾 收入与消费 相关关系的类型 从涉及的变量数量看简单相关多重相关 复相关 从变量相关关系的表现形式看线性相关 散点图接近一条直线非线性相关 散点图接近一条曲线不相关 从变量相关关系变化的方向看正相关 变量同方向变化 同增同减负相关 变量反方向变化 一增一减 散点图 注意 不线性相关并不意味着不相关 有相关关系并不意味着一定有因果关系 相关分析研究一个变量对另一个 些 变量的统计依赖关系 但它们并不意味着一定有因果关系 相关分析对称地对待任何 两个 变量 两个变量都被看作是随机的 回归分析对变量的处理方法存在不对称性 即区分应变量 被解释变量 和自变量 解释变量 前者是随机变量 后者不是 3 相关程度的度量 相关系数 总体线性相关系数 其中 X的方差 Y的方差 X和Y的协方差样本线性相关系数 其中 和分别是变量和的样本观测值和分别是变量和样本值的平均值 样本线性相关系数 其中 和分别是变量和的样本观测值和分别是变量和样本值的平均值 离差形式 r的取值范围是 1 1 r 1 为完全相关r 1 为完全正相关r 1 为完全负相关r 0 不存在线性相关关系 1 r 0 为负相关0 r 1 为正相关 r 越趋于1表示关系越强 r 越趋于0表示关系越弱 相关系数的取值范围 和都是相互对称的随机变量 X与Y和Y与X的相关系数相等 线性相关系数只反映变量间的线性相关程度 不能说明非线性相关关系 样本相关系数是总体相关系数的样本估计值 由于抽样波动 样本相关系数是个随机变量 其统计显著性有待检验 相关系数只能反映线性相关程度 不能确定因果关系 计量经济学关心 变量间的因果关系及隐藏在随机性后面的统计规律性 这有赖于回归分析方法 使用相关系数时应注意 4 回归分析 回归的古典意义 高尔顿遗传学的回归概念 父母身高与子女身高的关系 回归的现代意义 一个被解释变量对若干解释变量依存关系的研究回归的目的 实质 由固定的解释变量去估计应变量的平均值 的条件分布当解释变量取某固定值时 条件 的值不确定 的不同取值形成一定的分布 即的条件分布 的条件期望对于的每一个取值 对所形成的分布确定其期望或均值 称为的条件期望或条件均值 注意几个概念 回归函数 应变量的条件期望随解释变量的的变化而有规律的变化 如果把的条件期望表现为的某种函数这个函数称为回归函数 回归函数分为 总体回归函数和样本回归函数 回归线与回归函数 例 100个家庭构成的总体 单位 元 1 条件均值表现形式假如的条件均值是解释变量的线性函数 可表示为 2 总体回归函数的表现形式 2 个别值表现形式对于一定的 的各个别值分布在的周围 若令各个与条件均值的偏差为 显然是随机变量 则有或 2 总体回归函数的表现形式 上式称为总体回归模型 真实反映被解释变量与解释变量和随机因素的关系 该模型参数是未知的 上式称为总体回归函数 方程 真实反映被解释变量均值与解释变量的关系 该方程参数是未知的 一元线性回归模型 描述应变量Y如何依赖于自变量X和误差项u的方程称为回归模型一元线性回归模型可表示为Y是X的线性函数 部分 加上随机扰动项 实际的经济研究中总体回归函数通常是未知的 只能根据经济理论和实践经验去设定 计量 的目的就是寻求PRF 总体回归函数中与的关系可是线性的 也可是非线性的 对线性回归模型的 线性 有两种解释就变量而言是线性的 的条件均值是的线性函数就参数而言是线性的 的条件均值是参数的线性函数 3 如何理解总体回归函数 变量 参数均为 线性 参数 线性 变量 非线性 变量 线性 参数 非线性 计量经济学中 线性回归模型主要指就参数而言是 线性 因为只要对参数而言是线性的 都可以用类似的方法估计其参数 线性 的判断 三 随机扰动项 概念 各个值与条件均值的偏差代表排除在模型以外的所有因素对的影响 式子表明除了已列入模型的X以外 还有影响Y变动的其他因素 三 随机扰动项 性质 是期望为0有一定分布的随机变量重要性 随机扰动项的性质决定着计量经济方法的选择 未知影响因素的代表 无法取得数据的已知影响因素的代表 众多细小影响因素的综合代表 模型的设定误差 变量的观测误差 变量内在随机性 引入随机扰动项的原因 样本回归函数的函数形式应与设定的总体回归函数的函数形式一致 样本回归线还不是总体回归线 至多只是未知总体回归线的近似表现 四 样本回归函数 SRF SRF的特点 每次抽样都能获得一个样本 就可以拟合一条样本回归线 所以样本回归线随抽样波动而变化 可以有许多条 SRF不唯一 SRF2 样本回归函数如果为线性函数 可表示为其中 是与相对应的的样本条件均值和分别是样本回归函数的参数 样本回归函数的表现形式 应变量的实际观测值不完全等于样本条件均值 二者之差用表示 称为剩余项或残差项 或者 2 个别值表现形式对于一定的 的各个别值分布在的周围 若令各个与条件均值的偏差为 显然是随机变量 则有或 2 总体回归函数的表现形式 对样本回归的理解 如果能够获得和的数值 显然 和是对总体回归函数参数和的估计 是对总体条件期望的估计 在概念上类似总体回归函数中的 可视为对的估计 样本线性回归模型 SRFPRF 样本回归函数与总体回归函数的关系 与抽样有关 与抽样无关 关系可估计得到 关系未知 近似关系 真实关系 总体回归方程与样本回归方程的区别 回归分析的目的 用样本回归函数SRF去估计总体回归函数PRF 由于样本对总体总是存在代表性误差 SRF总会过高或过低估计PRF 要解决的问题 寻求一种规则和方法 使得到的SRF的参数和尽可能 接近 总体回归函数中的参数和 这样的 规则和方法 有多种 最常用的是最小二乘法 第二节简单线性回归模型的最小二乘估计 本节基本内容 简单线性回归的基本假定 普通最小二乘法 OLS回归线的性质 参数估计式的统计性质 一 简单线性回归的基本假定 1 为什么要作基本假定 模型中有随机扰动 估计的参数是随机变量 只有对随机扰动的分布作出假定 才能确定所估计参数的分布性质 也才可能进行假设检验和区间估计 只有具备一定的假定条件 所作出的估计才具有较好的统计性质 1 对模型和变量的假定如假定模型对变量和函数的设定是正确的 无设定误差 2 基本假定的内容 又称高斯假定 古典假定假定1 零均值假定在给定的条件下 的条件期望为零假定2 同方差假定在给定的条件下 的条件方差为某个常数 2 对随机扰动项的假定 假定3 无自相关假定随机扰动项的逐次值互不相关假定4 随机扰动与解释变量不相关 即 即 假定5 对随机扰动项分布的正态性假定即假定服从均值为零 方差为的正态分布 的分布性质 由于的分布性质决定了的分布性质 对的一些假定可以等价地表示为对的假定 假定1 零均值假定假定2 同方差假定假定3 无自相关假定假定5 正态性假定 二 普通最小二乘法 rdinaryLeastSquares 对于一元线性回归模型 假设从总体中获取了n组观察值 X1 Y1 X2 Y2 Xn Yn 对于平面中的这n个点 可以使用无数条曲线来拟合 要求样本回归函数尽可能好地拟合这组值 描述这一标准最常用的是普通最小二乘法 OrdinaryLeastSquare OLS 最小化图中垂直方向的剩余平方和确定样本回归函数 最小二乘法的原则是以 剩余平方和最小 确定直线位置 用最小二乘法除了计算比较方便外 得到的估计量还具有优良特性 最小二乘估计的图示 二 普通最小二乘法 rdinaryLeastSquares 对于一元线性回归模型 假设从总体中获取了n组观察值 X1 Y1 X2 Y2 Xn Yn 对于平面中的这n个点 可以使用无数条曲线来拟合 要求样本回归函数尽可能好地拟合这组值 描述这一标准最常用的是普通最小二乘法 OrdinaryLeastSquare OLS 最小化图中垂直方向的剩余平方和确定样本回归函数 最小二乘法的原则是以 剩余平方和最小 确定直线位置 用最小二乘法除了计算比较方便外 得到的估计量还具有优良特性 数学推证 正规方程和估计式 用克莱姆法则求解得观测值形式的OLS估计式 取偏导数为0 得正规方程 为表达得更简洁 或者用离差形式OLS估计式 注意其中 用离差表现的OLS估计式 例2 2 样本回归函数 三 OLS回归线的性质 可以证明 书上P33 回归线通过样本均值 估计值的均值等于实际观测值的均值 剩余项的均值为零 应变量估计值与剩余项不相关 解释变量与剩余项不相关 四 OLS估计式的统计性质 由OLS估计式可以看出由可观测的样本值和唯一表示 因存在抽样波动 OLS估计是随机变量 OLS估计式是点估计式 当模型参数估计出后 需考虑参数估计值的精度 即是否能代表总体参数的真值 或者说需考察参数估计量的统计性质 一个用于考察总体的估计量 可从如下几个方面考察其优劣性 1 线性性 即它是否是另一随机变量的线性函数 2 无偏性 即它的均值或期望值是否等于总体的真实值 3 有效性 即它是否在所有线性无偏估计量中具有最小方差 这三个准则也称作估计量的小样本性质 拥有这类性质的估计量称为最佳线性无偏估计量 bestlinerunbiasedestimator BLUE 1 线性特征是的线性函数 2 无偏特性 证明见教材P38 3 最小方差特性 证明见教材P68附录2 1 在所有的线性无偏估计中 OLS估计具有最小方差结论 在古典假定条件下 OLS估计式是最佳线性无偏估计式 BLUE OLS估计式的统计性质 高斯定理 2 28 结论 高斯 马尔可夫定理 在古典假定条件下 用OLS法得到的估计量就具有最佳线性无偏性 估计量称最佳线性无偏估计量 最佳线性无偏估计特性保证估计值最大限度的集中在真值周围 估计值的置信区间最小 第三节拟合优度的度量 本节基本内容 什么是拟合优度 总变差的分解 可决系数 说明 回归分析是要通过样本所估计的参数来代替总体的真实参数 或者说是用样本回归线代替总体回归线 尽管从统计性质上已知 如果有足够多的重复抽样 参数的估计值的期望 均值 就等于其总体的参数真值 但在一次抽样中 估计值不一定就等于该真值 那么 在一次抽样中 参数的估计值与真值的差异有多大 是否显著 这就需要进一步进行统计检验 主要包括拟合优度检验 变量的显著性检验及参数的区间估计 一 什么是拟合优度 概念 样本回归线是对样本数据的一种拟合 不同估计方法可拟合出不同的回归线 拟合的回归线与样本观测值总有偏离 样本回归线对样本观测数据拟合的优劣程度 拟合优度拟合优度的度量建立在对总变差分解的基础上 变差分解的图示 二 总变差的分解 Y的观测值 估计值与平均值的关系将上式两边平方加总 可证得 TSS ESS RSS 总变差 TSS 应变量Y的观测值与其平均值的离差平方和 总平方和 回归平方和 ESS 应变量Y的估计值与其平均值的离差平方和 解释了的变差 剩余平方和 RSS 应变量观测值与估计值之差的平方和 未解释的平方和 变差分解的图示 三 可决系数 定义 回归平方和 ESS 在总变差 TSS 中所占的比重称为可决系数 用表示 或 变差分解的图示 作用 可决系数越大 说明在总变差中由模型作出了解释的部分占的比重越大 模型拟合优度越好 反之可决系数小 说明模型对样本观测值的拟合程度越差 特点 可决系数取值范围 随抽样波动 样本可决系数是随抽样而变动的随机变量 可决系数是非负的统计量 可决系数是相关系数的平方 可决系数的作用和特点 可决系数与相关系数的关系 1 联系数值上 可决系数等于应变量与解释变量之间简单相关系数的平方 P20 2 3 可决系数与相关系数的关系 2 区别 运用可决系数时应注意 可决系数只是说明列入模型的所有解释变量对因变量的联合的影响程度 不说明模型中每个解释变量的影响程度 在多元中 回归的主要目的如果是经济结构分析 不能只追求高的可决系数 而是要得到总体回归系数可信的估计量 可决系数高并不表示每个回归系数都可信任 如果建模的目的只是为了预测因变量值 不是为了正确估计回归系数 一般可考虑有较高的可决系数 第四节 回归系数的区间估计 本节基本内容 OLS估计的分布性质 回归系数的区间估计 回归系数的假设检验 问题的提出 1 为什么要作区间估计 OLS估计只是通过样本得到的点估计 不一定等于真实参数 还需要找到真实参数的可能范围 并说明其可靠性2 为什么要作假设检验 OLS估计只是用样本估计的结果 是否可靠 是否抽样的偶然结果 还有待统计检验 区间估计和假设检验都是建立在确定参数估计值概率分布性质的基础上 一 OLS估计的分布性质 1 基本思想 是随机变量 必须确定其分布性质才可能进行区间估计和假设检验是服从正态分布的随机变量 决定了也是服从正态分布的随机变量 是的线性函数 决定了也是服从正态分布的随机变量 只要确定的期望和方差 即可确定的分布性质 的期望 无偏估计 的方差和标准误差 标准误差是方差的算术平方根 注意 以上各式中未知 其余均是样本观测值 2 参数估计值的期望和方差 即 在已知时 将作标准化变换 可得参数估计量所服从的概率分布 可以证明 见教材P70附录2 2 的无偏估计为 3 对随机扰动项u方差的估计 1 当样本为大样本时 标准化变换 当未知时 2 当样本为小样本时 使用t统计量 当未知时 二 回归系数的区间估计 一般情况下 总体方差未知 用无偏估计去代替 由于样本容量较小 可用t分布去建立参数估计的置信区间 2 回归系数区间估计的方法 三 对回归系数假设检验的方式 1 假设检验的基本思想为什么要作假设检验 所估计的回归系数 和方差都是通过样本估计的 都是随抽样而变动的随机变量 它们是否可靠 是否抽样的偶然结果呢 还需要加以检验 计量经济学中 主要是针对变量的参数真值是否为零来进行显著性检验的 目的 对简单线性回归 判断解释变量是否是被解释变量的显著影响因素 在一元线性模型中 就是要判断是否对具有显著的线性影响 这就需要进行变量的显著性检验 检验步骤 提出假设H0 b2 0 没有线性关系 H1 b2 0 有线性关系 计算检验的统计量 确定显著性水平 并进行决策 t t 拒绝H0 t t 不能拒绝H0 P 用P值判断参数的显著性 假设检验的p值 p值是基于既定的样本数据所计算的统计量 是拒绝原假设的最低显著性水平 统计分析软件中通常都给出了检验的p值 统计量t 方法 将给定的显著性水平与值比较 若 则在显著性水平下拒绝原假设 即认为对有显著影响规则 当时 值越小 越能拒绝原假设 用P值判断参数的显著性的方法 本节主要内容 回归分析结果的报告 被解释变量平均值预测 被解释变量个别值预测 第六节回归模型预测 一 回归分析结果的报告 经过模型的估计 检验 得到一系列重要的数据 为了简明 清晰 规范地表述这些数据 计量经济学通常采用了以下规范化的方式 例如 回归结果为 点估计 2 点估计值有y的平均值的点估计y的个别值的点估计在点估计条件下 平均值的点估计和个别值的的点估计是一样的 但在区间估计中则不同 对于自变量x的一个给定值x0 根据回归方程得到因变量y的一个估计值 Y的点预测 将解释变量预测值直接代入估计的方程这样计算的是一个点估计值 3 Y的区间预测 Y平均值的置信度为的预测区间为 Y个别值的置信度为的预测区间为 应变量Y区间预测的特点 1 平均值的预测值与真实平均值有误差 主要是受抽样波动影响2 个别值的预测值与真实个别值的差异 不仅受抽样波动影响 而且还受随机扰动项的影响 2 平均值和个别值预测区间都不是常数 是随的变化而变化的 当预测区间最窄 3 预测区间上下限与样本容量有关 当样本容量时个别值的预测误差只决定于随机扰动的方差 第六节案例分析 提出问题 居民消费在社会经济的持续发展中有着重要的作用 居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长 而且这也是人民生活水平的具体表现 从理论上说 居民的消费水平应随着经济的发展而提高 研究中国全体居民的消费水平与经济发展的数量关系 对于探寻居民消费增长的规律性 预测居民消费的发展趋势有重要意义研究范围 1978 2007年全体居民人均年消费水平和人均GDP 从散点图看居民消费水平与人均GDP的关系 建立模型 其中 Y 居民消费水平 元 X 人均GDP 元 估计参数 具体操作 使用EViews软件包 估计结果 假定模型中随机扰动满足基本假定 可用OLS法 表示为 1 可决系数 模型整体上拟合好 2 系数显著性检验 给定 查t分布表 在自由度为n 2 28时临界值为因为t 49 90815 说明 人均GDP 对 人均消费水平 有显著影响 3 用P值检验 p 0 0000 模型检
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论