




已阅读5页,还剩68页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多元线性回归模型 计量经济学 第三章 2 引子 中国已成为世界汽车产销第一大国 中国社会科学院 中国汽车社会发展报告2012 2013 显示 中国国内汽车产销量已近2000万辆 从2000年开始 中国汽车市场进入到黄金10年 汽车保有量从1600万辆攀升到1亿多辆 2010年成为全球第一大汽车市场 中国的汽车保有量已经超过日本 成为仅低于美国的世界第二大汽车保有国 业内预计 2020年我国汽车保有量将突破2亿辆 是什么因素导致中国汽车数量的增长 影响中国汽车行业发展的因素并不是单一的 经济增长 消费趋势 市场行情 业界心态 能源价格 道路发展 内外环境 都会使中国汽车行业面临机遇和挑战 3 分析中国汽车行业未来的趋势 应具体分析这样一些问题 中国汽车市场发展的状况如何 用销售量观测 影响中国汽车销量的主要因素是什么 如收入 价格 费用 道路状况 能源 政策环境等 各种因素对汽车销量影响的性质怎样 正 负 各种因素影响汽车销量的具体数量关系是什么 所得到的数量结论是否可靠 中国汽车行业今后的发展前景怎样 应当如何制定汽车的产业政策 很明显 只用一个解释变量已很难分析汽车产业的发展 还需要寻求有更多个解释变量情况的回归分析方法 怎样分析多种因素的影响 4 本章主要讨论 多元线性回归模型及古典假定 多元线性回归模型的估计 多元线性回归模型的检验 多元线性回归模型的预测 5 第一节多元线性回归模型及古典假定一 多元线性回归模型的意义一般形式 对于有K 1个解释变量的线性回归模型注意 模型中的 j 1 2 k 是偏回归系数样本容量为n 有n组数据 偏回归系数 控制其它解释量不变的条件下 第j个解释变量的单位变动对被解释变量平均值的影响 即对Y平均值 直接 或 净 的影响 5 对偏回归系数的理解 例如 Yi 1 2X2i 3X3i ui对比Yi 1 2X2i u1i 2和 2都是X2i对于Yi的影响如果X3i b2 b32X2i u2i那么可证明 古扎拉蒂计量经济学附录有证明 只要b32 0 2和 2是有区别的 计量经济学中 线性回归模型的 线性 有两种解释 就变量而言是线性的 Y的条件期望 均值 是X的线性函数 就参数而言是线性的 Y的条件期望 均值 是参数 的线性函数 8 多元线性回归中的 线性 指Y的条件期望 均值 对各个回归系数而言是 线性 的 对变量则可以是线性的 也可以是非线性的例如 生产函数取对数这也是多元线性回归模型 只是这时变量为lnY lnL lnK 9 多元总体回归函数条件期望表现形式 将Y的总体条件期望表示为多个解释变量的函数 如 个别值表现形式 引入随机扰动项或表示为 概念在总体回归函数中 各个的值与其条件期望的偏差有很重要的意义 若只有的影响 与不应有偏差 若偏差存在 说明还有其他影响因素 实际代表了排除在模型以外的所有因素对Y的影响 性质是其期望为0有一定分布的随机变量 是未知的 不可直接观测的 重要性 随机扰动项的性质决定着计量经济分析结果的性质和计量经济方法的选择 10 总体回归函数与随机扰动项 11 多元样本回归函数Y的样本条件均值可表示为多个解释变量的函数或回归剩余 残差 样本观测值与样本条件均值之差Y的样本观测值其中 12 二 多元线性回归模型的矩阵表示 多个解释变量的多元线性回归模型的n组样本观测值 可表示为用矩阵表示 12 13 总体回归函数或样本回归函数或其中 都是有n个元素的列向量是有k个元素的列向量 k 解释变量个数 1 是第一列为1的n k阶解释变量数据矩阵 截距项可视为解释变量总是取值为1 矩阵表示方式 转置矩阵 定义把矩阵A的行换成相应的列 得到的新矩阵称为A的转置矩阵 记作AT或A TransposeofaMatrix转置矩阵基本性质 A B A B A B B A 注意乘积的顺序 A A A Adet A det A 转置矩阵的行列式不变 对称矩阵 在一个n阶方阵A中 若元素满足下述性质aij aji i 0 j n 1 则称A为对称矩阵对称矩阵A满足AT A实矩阵与转置矩阵的乘积是对称矩阵证明 因为 AAT T AT TAT AAT所以AAT是对称矩阵 同样ATA也是对称矩阵 单位阵 定义主对角线上的元素都为1 其余元素全为0的n阶矩阵称为n阶单位矩阵 记为In或En 性质根据矩阵乘法的定义 单位矩阵的重要性质为AIn A InB B单位矩阵的行列式为1 即 In 1 定义 A aij m n的不为零的子式的最大阶数称为矩阵A的秩 记作r A 或Rank A 或R A m n矩阵的秩最大值为m和n中的较小者 表示为min m n 显然r A min m n 若A中至少有一个r阶子式不等于零 在r min m n 时 A中所有的r 1阶子式全为零 则A的秩为r n阶可逆矩阵的秩为n 通常又将可逆矩阵称为满秩矩阵 det A 0 不满秩矩阵就是奇异矩阵 det A 0 矩阵的秩 矩阵的秩 满秩矩阵 若矩阵秩等于矩阵的行数 称为行满秩 若矩阵秩等于矩阵的列数 称为列满秩 既是行满秩又是列满秩 则为n阶方阵 若矩阵A的行列式不为零 即 A 0 那么它是可逆的 且它是满秩矩阵 设A是m n的矩阵 如果A是可逆的 根据可逆矩阵的性质有 A必定为满秩矩阵 且 A 0 并有 r A r A r AA r A A 本科范围线性代数 把可逆矩阵都定义为方阵 广义逆 则可以是m n的 不在本科线性代数范围内 矩阵的秩 一个矩阵的秩是其行列式不为零的子方阵的最大的阶数 A A的行列式为零 虽然它的阶数是3 3 但是它的秩却小于3 它的子方阵B的行列式为 6 这是个非零值 B的阶为2 2 B是A的子方阵 B不为零 因此A的秩为B的阶数2 B 有用 1 有用 1 有用 1 可逆矩阵是线性代数中的一个矩阵 在线性代数中 给定一个n阶方阵A 若存在一n阶方阵B 使得AB BA In AB In BA In任意满足一个 其中In为n阶单位矩阵 则称A是可逆的 且B是A的逆阵 记作A 1 可逆矩阵的性质 A的行列式不为零 A 0 A的秩等于n A满秩 A的转置矩阵A 也是可逆的 AA 也是可逆的 如果A是可逆的 那么它的逆矩阵是惟一的 AB 1 B 1A 1 可逆矩阵 21 三 多元线性回归中的基本假定 假定1 零均值假定 i 1 2 n 或E u 0假定2和假定3 同方差和无自相关假定 Var ui E ui Eui 2 2或用方差 协方差矩阵表示为 E uu 为n行n列的对称方阵 i j i j 0 22 假定4 随机扰动项与解释变量不相关 2I是数量矩阵 就是主对角线上元素都是同一个数值 其余元素都是零 单位矩阵I乘以任意数得到的结果是数量矩阵 假定5 无多重共线性假定 多元中增加的 假定各解释变量之间不存在线性关系 或各个解释变量观测值之间线性无关 或解释变量观测值矩阵X的秩为K 注意X为n行K列的矩阵 n k秩为K表示K列解释变量都是线性无关的 Rank X kRank X X kX的转置矩阵与X相乘的方阵 k k 的秩也等于k 即 X X 可逆假定6 正态性假定 矩阵形式 第二节多元线性回归模型的估计 一 普通最小二乘法 OLS 原则 寻求剩余平方和最小的参数估计式即求偏导 并令其为0其中即 24 25 用矩阵表示的正规方程偏导数因为样本回归函数为两边左乘根据最小二乘原则则正规方程为 26 OLS估计式由正规方程多元回归的OLS估计量为当只有两个解释变量时 代数表达式为 注意 为X Y的离差 对比 简单线性回归中 27 OLS回归线的数学性质 与简单线性回归相同 回归线通过样本均值 估计值的均值等于实际观测值的均值 剩余项的均值为零 被解释变量估计值与剩余项不相关 解释变量与剩余项不相关 j 1 2 k 27 28 二 OLS估计式的统计性质 1 线性特征是Y的线性函数 因是非随机或取固定值的矩阵2 无偏特性 证明见教材P101附录3 1 3 最小方差特性在所有的线性无偏估计中 OLS估计具有最小方差 证明见教材P101或附录3 2 结论 在古典假定条件下 多元线性回归的OLS估计式是最佳线性无偏估计式 BLUE 29 三 OLS估计的分布性质基本思想 是随机变量 必须确定其分布性质才可能进行区间估计和假设检验 是服从正态分布的随机变量 决定了Y也是服从正态分布的随机变量 是Y的线性函数 决定了也是服从正态分布的随机变量 30 的期望 由无偏性 的方差和标准误差 可以证明的方差 协方差矩阵为 见下页 k nn k这里的 其中是矩阵中第j行第j列的元素 所以 j 1 2 k 的期望与方差 31 其中 由无偏性 由同方差性 由OLS估计式 31 注意是向量 的方差 协方差矩阵推导 n阶的数量 标量 方阵 也是对称方阵 K阶的对称方阵 A的转置求逆等于A的求逆的转置矩阵AT A 1 T A 1 A T ET E AT 1 A 1 T 33 四 随机扰动项方差的估计 一般未知 可证明多元回归中的无偏估计为 证明见P103附录3 3 看做一行一列的矩阵或矩阵表示为将 矩阵中的元素 作标准化变换 33 n k为残差平方和对应的自由度 一元线性回归中 对比 ee 是n阶方阵 对比简单线性回归模型参数估计值的表达式 一元线性回归中是单一的参数的估计值 而多元线性回归的参数估计值是矩阵 k行的列向量 35 未知时的标准化变换 因是未知的 可用代替去估计参数的标准误差 当为大样本时 用估计的参数标准误差对作标准化变换 根据中心极限定理 所得Z统计量仍可视为服从正态分布 当为小样本时 用估计的参数标准误差对作标准化变换 所得的t统计量服从t分布 35 36 五 回归系数的区间估计 由于给定 查t分布表的自由度为n k的临界值或或表示为 36 37 第三节多元线性回归模型的检验 一 多元回归的拟合优度检验多重可决系数 在多元回归模型中 由各个解释变量联合起来解释了的Y的变差 在Y的总变差中占的比重 用表示与简单线性回归中可决系数的区别只是不同多元回归中多重可决系数可表示为 注意 红色字体是与一元回归不同的部分 观测值总变差 回归估计值的变差即回归平方和 38 多重可决系数的矩阵表示矩阵表示均值修正项可用代数式表达为特点 样本容量不变的情况下 随着模型中解变量个数的增加 总离差平方和 不会改变 而解释了的回归平方和 可能增大 多重可决系数R2因而变大 即多重可决系数是模型中解释变量个数的不减函数 39 修正的可决系数当被解释变量相同 而解释变量个数不同的时候 运用多重可决系数去比较两个模型拟合程度的优劣会有缺陷 为何解释变量个数不同的时候 不能简单直接对比多重可决系数 因为这样会带来分析错觉 这个时候好像只要在回归模型中增加解释变量的个数 就会增大可决系数的值 要提高模型的拟合优度只需在模型中增加解释变量的个数就行了 而事实并非如此 样本容量既定的情况下 增加解释变量的个数必然会使待估系数的个数增加 从而会损失自由度 这给对比不同模型的多重可决系数带来缺陷 所以需要修正 可决系数只涉及变差 没有考虑自由度 如果用自由度去矫正所计算的变差 可以更加准确地反映样本回归线对观测点 散步点 的拟合优度 从而解决解释变量个数不同引起的对比困难 统计量的自由度是指可自由变化的样本观测值个数 它等于所用样本观测值的个数减去对观测值的约束个数 40 可决系数的修正方法总变差TSS自由度为n 1解释了的变差ESS自由度为k 1剩余平方和RSS自由度为n k修正的可决系数为 41 修正的可决系数与可决系数的关系已经导出 注意 当k 1时 有可决系数必定非负 但所计算的修正可决系数有可能为负值解决办法 若计算的 规定取值为0 42 42 二 回归方程的显著性检验 F检验 基本思想 在多元回归中包含多个解释变量 它们与被解释变量是否有显著关系呢 当然可以分别检验各个解释变量对被解释变量影响的显著性 但是我们首先关注的是所有解释变量联合起来对被解释变量影响的显著性 或整个回归方程总的联合的影响显著性 需要对方程的总体显著性在方差分析的基础进行F检验 R2是建立在对总变差分解的基础上 43 43 在讨论可决系数时已经分析了被解释变量总变差TSS的分解及自由度 TSS ESS RSS注意 Y的样本方差 总变差 自由度即显然 Y的样本方差也可分解为两部分 可用方差分析表分解 43 1 方差分析 44 总变差TSS 自由度n 1模型解释了的变差ESS 自由度k 1剩余变差RSS 自由度n k 变差来源平方和自由度方差归于回归模型ESS k 1归于剩余RSS n k总变差TSS n 1 方差分析表 基本思想 如果多个解释变量联合起来对被解释变量的影响不显著 归于回归的方差 比 归于剩余的方差 显著地小应是大概率事件 2 F检验 46 2 F检验 原假设 所有解释变量联合起来对被解释变量的影响不显著 备择假设 不全为0建立统计量 可以证明 给定显著性水平 查F分布表中自由度为k 1和n k的临界值 并通过样本观测值计算F值 46 47 F检验方式 如果计算的F值大于临界值 则拒绝 说明回归模型有显著意义 即所有解释变量联合起来对Y确有显著影响 如果计算的F值小于临界值 则不拒绝 说明回归模型没有统计上的显著性意义 即所有解释变量联合起来对Y没显著影响 48 3 F显著性检验VS可决系数的显著性 拟合优度与F检验是从不同原理出发的两类检验 但有内在联系 拟合优度 从估计的模型出发 检验对样本观测值的拟合程度 F检验 从样本观测值出发 检验模型整体关系的显著性 密切关系 二者都建立在对被解释变量变差分解的基础上 修正的可决系数与F都与自由度有关 F统计量与可决系数可相互计算 可以看出 当 0时 F 0 当 1时 F 当越大时 F值也越大 F与同方向变化 结论 F检验等价于对的显著性检验 但不能只看 更应该看F值 多元线性回归分析中为什么要对可决系数加以修正 修正可决系数与F检验之间有何联系区别 随着模型中解释变量的增加 多重可决系数R2的值会变大 当样本容量一定 被解释变量相同而解释变量个数不同时 运用多重可决系数去比较两个模型拟合程度会带来缺陷 因为可决系数只考虑变差 没有考虑自由度 因此要对其加以修正 联系 F检验与可决系数有密切的联系 一般来说 模型对观测值的拟合程度越高 模型总体线性关系的显著性就越强 随着可决系数的增加 F统计量的值不断增加 对方程联合显著性检验的F检验 实际上也是对R2的显著性检验 区别 可决系数和修正的可决系数只能提供对拟合优度的度量 它们的值究竟要达到多大模型才算通过了检验 对此并没有确定的界限 而F检验可以在给定显著性水平下给出统计意义上的严格结论 用样本计算的F值和查F统计表得到临界值作比较 决定是否拒绝原假设 即解释变量联合起来是否对于被解释变量有显著影响 50 三 各回归系数的假设检验 t检验 注意 在一元回归中F检验与t检验等价 且在一元线性回归中 解释变量只有一个 不存在整体联合影响被解释变量的问题 也就不需要整体性的F检验 见教材P77证明 但在多元回归中 F检验显著 不一定每个解释变量都对Y有显著影响 还需要分别检验当其他解释变量保持不变时 各个解释变量X对被解释变量Y是否有显著影响 方法 原假设 j 1 2 k 备择假设这里包括了截距项 区别于F检验当中的原假设 所有与X相乘的斜率系数都为零统计量t为 51 给定显著性水平 查t分布表的临界值为如果就不拒绝 而拒绝即认为所对应的解释变量对被解释变量Y的影响不显著 如果就拒绝而不拒绝即认为所对应的解释变量对被解释变量Y的影响是显著的 讨论 在多元回归中 可以作F检验 也可以分别对每个回归系数逐个地进行t检验 F检验与t检验的关系是什么 对各回归系数假设检验的作法 在多元线性回归方程中 t检验用作检验回归方程中各个参数的显著性 而F检验则用作检验回归方程整体的显著性 进行F检验 回归方程的所有解释变量中 只要有一个解释变量同被解释变量的线性关系显著即可 备择假设 F检验显著并不意味着每个参数的t检验都显著 也就是说 各解释变量联合起来对被解释变量有显著影响 并不意味着每一个解释变量分别对被解释变量有显著影响 或者说有显著的线性关系 在一般情形下 t检验与F检验的结果没有必然联系 但当解释变量之间两两不相关时 若所有解释变量的系数均通过t检验 那么回归方程也能通过F检验 F检验与t检验 53 第四节多元线性回归模型的预测 一 被解释变量平均值预测1 Y平均值的点预测方法 将解释变量预测值代入估计的方程 多元回归时 或注意 预测期的只是一组数据 因此它是第一个元素为1的行向量 不是矩阵 也不是列向量 计算对应一个 54 2 Y平均值的区间预测 基本思想 与简单线性回归时相同 由于存在抽样波动 点预测值不一定等于真实平均值 还需要对作区间估计 为了对Yf平均值作区间预测 必须确定点预测值的抽样分布 必须找出与和都有关的统计量 并要明确其概率分布性质 54 OLS回归线的数学性质之一 估计值的均值等于实际观测值Yi的均值 因此f是E Yf 的无偏估计 从而f可以用作预测期的平均值E Yf 和个别值Yf的点预测值 56 多元回归时 与点预测值f和真实平均值都有关的是二者的偏差wf 因为f服从正态分布 所以wf也服从正态分布 有 用代替 可构造wf的t统计量 区间预测的具体作法 多元时 57 给定显著性水平 查t分布表 得自由度为n k的临界值 则即 区间预测的具体作法 58 二 被解释变量个别值预测 基本思想 与简单线性回归时相同 由于存在随机扰动的影响 Y的平均值并不等于Y的个别值 仅对Y的平均值做预测是不够的 为了对Y的个别值作区间预测 需要寻找点预测值和预测目标的个别值都有关的统计量 并要明确其概率分布性质 59 已知剩余项是与预测值和个别值都有关的变量并且已知服从正态分布 且多元回归时可证明当用代替时 对标准化的变量t为 个别值区间预测具体作法 给定显著性水平 查t分布表得自由度为n k的临界值则因此 多元回归时Yf的个别值的置信度1 的预测区间上下限为 60 61 第五节案例分析 研究的目的要求 为了研究影响中国地方财政教育支出差异的主要原因 分析地方财政教育支出增长的数量规律 预测中国地方财政教育支出的增长趋势 需要建立计量经济模型 研究范围 2011年31个省市区的数据为样本 理论分析 影响中国地方财政教育支出的主要的因素有 1 由地区经济规模决定的地方整体财力 2 地区人口数量不同决定各地教育规模不同 3 人民对教育质量的需求对以政府教育投入为代表的公共财政的需求会有相当的影响 4 物价水平 教育消费的价格变动影响地方财政对教育的支出 5 地方政府对教育投入的能力与意愿 模型设定 选择地方财政教育支出为被解释变量 选择 地区生产总值 GDP 作为地区经济规模的代表 选择各地区的 年末人口数量 作为各地区居民对教育规模的需求的代表 选择 居民平均每人教育现金消费 作为代表居民对教育质量的需求 选择居民教育消费价格指数作为价格变动影响的因素 由于地方政府教育投入的能力与意愿难以直接量化 选择 教育支出在地方财政支出中的比重 作为其代表 探索将模型设定为线性回归模型形式 64 样本数据 2011年各地区地方财政教育支出及主要影响因素 65 66 三 估计参数 模型估计的结果为 935 8816 0 0018 0 0080 0 0517 9 0867 470 3214 t 2 5820 6 3167 4 9643 2 8267 2 5109 1 8422 R2 0 9732 0 9679F 181 7539n 31 68 模型检验 1 经济意义检验 在假定其它变量不变的情况下 地区生产总值 GDP 每增长1亿元 平均说来地方财政教育支出将增长0 0112亿元 地区年末人口每增长1万人 平均说来地方财政教育支出会增长0 0395亿元 当居民平均每人教育现金消费增加1元 平均
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 校园防溺水安全知识培训课件
- 2025中国安能集团科工有限公司春季校园招聘笔试题库历年考点版附带答案详解版
- 2025年物流快递行业物流快递智能化发展研究报告
- 2025年电子元件行业电子元件制造与供应链管理研究报告
- 2025年数字音频产业行业数字音频内容创作现状研究报告
- 2025年电子游戏行业电竞赛事及游戏直播市场规模与趋势研究报告
- 2025年餐饮行业餐饮文化与餐饮创新研究报告
- 2025年纺织服装行业环保材料应用研究报告
- 2025年区块链行业区块链技术应用案例与区块链数字资产交易研究报告
- 2025年互联网金融行业风险管理与合规挑战研究报告
- 停车场突发事件应急处理预案
- 腹壁切口疝课件
- 《人工神经网络设计 》 课件 第3、4章 感知器;径向基函数神经网络
- 幼儿园培训返岗汇报
- 岩土钻掘工程学课件
- 北京市2025学年高二(上)第一次普通高中学业水平合格性考试物理试题(原卷版)
- 第九章 统计 单元测试(含解析)-2024-2025学年高一下学期数学人教A版(2019)必修第二册
- T-CDHA 20-2024 T-CAR 20-2024 供热碳排放核算和碳排放责任分摊方法
- 2025上半年信息系统项目管理师(高级软考)综合知识真题及解析
- 呼吸衰竭护理疑难病例讨论
- 熠星创新创业大赛
评论
0/150
提交评论