多元线性回归模型.ppt_第1页
多元线性回归模型.ppt_第2页
多元线性回归模型.ppt_第3页
多元线性回归模型.ppt_第4页
多元线性回归模型.ppt_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元线性回归模型,计量经济学,第三章,2,引子:中国已成为世界汽车产销第一大国,中国社会科学院中国汽车社会发展报告2012-2013显示,中国国内汽车产销量已近2000万辆。从2000年开始,中国汽车市场进入到黄金10年。汽车保有量从1600万辆攀升到1亿多辆。2010年成为全球第一大汽车市场,中国的汽车保有量已经超过日本,成为仅低于美国的世界第二大汽车保有国。业内预计,2020年我国汽车保有量将突破2亿辆。 是什么因素导致中国汽车数量的增长? 影响中国汽车行业发展的因素并不是单一的,经济增长、消费趋势、市场行情、业界心态、能源价格、道路发展、内外环境,都会使中国汽车行业面临机遇和挑战。,3,分析中国汽车行业未来的趋势,应具体分析这样一些问题: 中国汽车市场发展的状况如何?(用销售量观测) 影响中国汽车销量的主要因素是什么? (如收入、价格、费用、道路状况、能源、政策环境等) 各种因素对汽车销量影响的性质怎样?(正、负) 各种因素影响汽车销量的具体数量关系是什么? 所得到的数量结论是否可靠? 中国汽车行业今后的发展前景怎样?应当如何制定汽车的 产业政策? 很明显,只用一个解释变量已很难分析汽车产业的发展, 还需要寻求有更多个解释变量情况的回归分析方法。,怎样分析多种因素的影响?,4,本章主要讨论: 多元线性回归模型及古典假定 多元线性回归模型的估计 多元线性回归模型的检验 多元线性回归模型的预测,5,第一节 多元线性回归模型及古典假定 一、多元线性回归模型的意义 一般形式:对于有K-1个解释变量的线性回归模型 注意:模型中的 (j=1,2,-k)是偏回归系数 样本容量为n(有n组数据) 偏回归系数:控制其它解释量不变的条件下,第j个解释变量的单位变动对被解释变量平均值的影响,即对Y平均值“直接”或“净”的影响。,5,对偏回归系数的理解,例如:Yi= 1 + 2X2i + 3X3i + ui 对比 Yi= 1 + 2X2i + u1i 2 和 2都是X2i对于Yi的影响 如果 X3i = b2 + b32X2i + u2i 那么 可证明 (古扎拉蒂 计量经济学 附录有证明) 只要b320, 2 和 2是有区别的。,计量经济学中,线性回归模型的“线性” 有两种解释: 就变量而言是线性的 Y的条件期望(均值)是X的线性函数 就参数而言是线性的 Y的条件期望(均值)是参数的线性函数,8,多元线性回归中的“线性” 指Y的条件期望(均值)对各个回归系数而言是“线性”的,对变量则可以是线性的,也可以是非线性的 例如:生产函数 取对数 这也是多元线性回归模型,只是这时变量为lnY、lnL、lnK,9,多元总体回归函数 条件期望表现形式: 将Y的总体条件期望表示为多个解释变量的函数,如: 个别值表现形式: 引入随机扰动项 或表示为,概念 在总体回归函数中,各个 的值与其条件期望 的偏差 有很重 要的意义。若只有 的影响, 与 不应有偏差。若偏 差 存在,说明还有其他影响因素。 实际代表了排除在模型以外的所有因素对 Y 的影响。 性质 是其期望为 0 有一定分布的随机变量,是未知的,不可直接观测的。 重要性:随机扰动项的性质决定着计量经济分析结 果的性质和计量经济方法的选择,10,总体回归函数与随机扰动项,11,多元样本回归函数 Y 的样本条件均值可表示为多个解释变量的函数 或回归剩余(残差):样本观测值与样本条件均值之差 Y 的 样本观测值 其中,12,二、多元线性回归模型的矩阵表示,多个解释变量的多元线性回归模型的n组样本观测值,可 表示为 用矩阵表示,12,13,总体回归函数 或 样本回归函数 或 其中: 都是有n个元素的列向量 是有k 个 元素的列向量 ( k = 解释变量个数 + 1 ) 是第一列为1的nk阶解释变量数据矩阵 , (截距项可视为解释变量总是取值为1),矩阵表示方式,转 置 矩 阵,定义 把矩阵A的行换成相应的列,得到的新矩阵称为A的转置矩阵,记作AT或A Transpose of a Matrix 转置矩阵基本性质 (AB)=AB (AB)= BA 注意乘积的顺序 (A)=A (A)=A det(A)=det(A) 转置矩阵的行列式不变,对 称 矩 阵,在一个n阶方阵A中,若元素满足下述性质 aij=aji ; i0,jn-1;则称A为对称矩阵 对称矩阵A满足 AT =A 实矩阵与转置矩阵的乘积是对称矩阵 证明:因为 (AAT) T = (AT) T AT = AAT 所以 AAT 是对称矩阵 ;同样ATA也是对称矩阵。,单 位 阵,定义 主对角线上的元素都为1, 其余元素全为0的n阶矩阵 称为n阶单位矩阵,记为In或En. 性质 根据矩阵乘法的定义,单位矩阵的重要性质为AIn=A & InB=B 单位矩阵的行列式为1,即In=1,定义:A=(aij) mn的不为零的子式的最大阶数称为矩阵A的秩,记作r(A ) 或 Rank(A ) 或 R(A)。 m n矩阵的秩最大值为m和n中的较小者,表示为 min(m,n)。显然r (A) min(m,n) 若A中至少有一个r阶子式不等于零,在rmin(m,n)时,A中所有的r+1阶子式全为零,则A的秩为r。 n阶可逆矩阵的秩为n,通常又将可逆矩阵称为满秩矩阵, det(A)0;不满秩矩阵就是奇异矩阵,det(A)=0。,矩 阵 的 秩,矩 阵 的 秩,满秩矩阵: 若矩阵秩等于矩阵的行数,称为行满秩;若矩阵秩等于矩阵的列数,称为列满秩。既是行满秩又是列满秩,则为n阶方阵。 若矩阵A的行列式不为零,即A0,那么它是可逆的,且它是满秩矩阵。 设 A是 mn 的矩阵,如果A是可逆的,根据可逆矩阵的性质有,A必定为满秩矩阵,且A0。并有: r(A)=r(A)=r(AA)=r(AA) (本科范围线性代数,把可逆矩阵都定义为方阵,广义逆,则可以是m*n的,不在本科线性代数范围内),矩 阵 的 秩,一个矩阵的秩是其行列式不为零的子方阵的最大的阶数。,A=,A的行列式为零,虽然它的阶数是33,但是它的秩却小于3。 它的子方阵B的行列式为-6,这是个非零值,B的阶为22,B是A的子方阵,B不为零,因此A的秩为B的阶数2.,B=,有用+1,有用+1,有用+1,可逆矩阵是线性代数中的一个矩阵,在线性代数中,给定一个 n 阶方阵A,若存在一n 阶方阵B,使得AB=BA=In(AB=In、BA=In 任意满足一个),其中In 为n 阶单位矩阵,则称A 是可逆的,且B 是A 的逆阵,记作 A-1。 可逆矩阵的性质: A 的行列式不为零 A0。 A 的秩等于 n(A 满秩)。 A 的转置矩阵 A 也是可逆的。 AA 也是可逆的。 如果A是可逆的,那么它的逆矩阵是惟一的。 (AB)-1 = B -1A -1,可逆矩阵,21,三、多元线性回归中的基本假定,假定1:零均值假定 ( i=1,2,-n) 或 E(u)=0 假定2和假定3:同方差和无自相关假定: Var(ui)=E(ui-Eui)2= 2 或用方差-协方差矩阵表示为: E(uu)为n行n列的对称方阵,(i=j),(ij),0,22,假定4:随机扰动项与解释变量不相关,2I是数量矩阵就是主对角线上元素都是同一个数值,其余元素都是零。单位矩阵I乘以任意数得到的结果是数量矩阵,假定5: 无多重共线性假定 (多元中增加的) 假定各解释变量之间不存在线性关系,或各个解释变量观测值之间线性无关。或解释变量观测值 矩阵X的秩为K (注意X为n行K列的矩阵,nk秩为K表示K列解释变量都是线性无关的)。 Rank(X)= k Rank(XX)=k X的转置矩阵与X相乘的方阵(kk)的秩 也等于k,即 (XX) 可逆 假定6:正态性假定,矩阵形式,第二节 多元线性回归模型的估计,一、普通最小二乘法(OLS) 原则:寻求剩余平方和最小的参数估计式 即 求偏导,并令其为0 其中 即,24,25,用矩阵表示的正规方程 偏导数 因为样本回归函数为 两边左乘 根据最小二乘原则 则正规方程为,26,OLS估计式 由正规方程 多元回归的OLS估计量为 当只有两个解释变量时,代数表达式为: 注意: 为X、Y的离差,对比,简单线性回归中,27,OLS回归线的数学性质 (与简单线性回归相同),回归线通过样本均值 估计值 的均值等于实际观测值 的均值 剩余项 的均值为零 被解释变量估计值 与剩余项 不相关 解释变量 与剩余项 不相关 (j=1,2,-k),27,28,二、 OLS估计式的统计性质,1、 线性特征 是Y的线性函数,因 是非随机或取固定值的矩阵 2、 无偏特性 (证明见教材P101附录3.1) 3、 最小方差特性 在 所有的线性无偏估计中,OLS估计 具有最小方差 (证明见教材P101或附录3.2) 结论:在古典假定条件下,多元线性回归的 OLS估 计式是最佳线性无偏估计式(BLUE),29,三、 OLS估计的分布性质 基本思想: 是随机变量,必须确定其分布性质才可能进行区间估计和假设检验 是服从正态分布的随机变量, 决定了Y也是服从正态分布的随机变量 是Y的线性函数,决定了 也是服从正态分布的随机变量,30, 的期望 (由无偏性) 的方差和标准误差: 可以证明 的方差协方差矩阵为(见下页) k*n n*k 这里的 (其中 是矩阵 中第 j 行第 j 列的元素) 所以 (j=1,2,-k),的期望与方差,31,其中:,(由无偏性),(由同方差性),(由OLS估计式),31,注意 是向量,的方差-协方差矩阵推导,n阶的数量(标量)方阵,也是对称方阵,K阶的对称方阵,A的转置求逆等于A的求逆的转置矩阵 AT(A-1) T=(A-1A)T=ET=E (AT)-1=(A-1)T,33,四、 随机扰动项方差 的估计,一般未知,可证明多元回归中 的无偏 估计为:(证明见P103附录3.3) 看做一行一列 的矩阵 或矩阵表示为 将 ( 矩阵中的元素) 作标准化变换:,33,n-k为残差平方和对应的自由度。 一元线性回归中,对比:ee是n阶方阵,对比简单线性回归模型参数估计值 的表达式,一元线性回归中是单一的参数的估计值,而多元线性回归的参数估计值是矩阵(k行的列向量),35,未知时 的标准化变换,因 是未知的, 可用 代替 去估计参数的标准误差: 当为大样本时,用估计的参数标准误差对 作标准化变换,根据中心极限定理,所得 Z 统计量仍可视为服从正态分布 当为小样本时,用估计的参数标准误差对 作标准化变换,所得的 t 统计量服从 t 分布:,35,36,五、 回归系数的区间估计,由于 给定 ,查t分布表的自由度为 n-k 的临界值 或 或表示为,36,37,第三节 多元线性回归模型的检验,一、多元回归的拟合优度检验 多重可决系数:在多元回归模型中,由各个解释 变量联合起来解释了的Y的变差,在Y的总变差中占 的比重,用 表示 与简单线性回归中可决系数 的区别只是 不同 多元回归中 多重可决系数可表示为 (注意:红色字体是与一元回归不同的部分) 观测值总变差,回归估计值的变差即回归平方和,38,多重可决系数的矩阵表示 矩阵表示 均值修正项 可用代数式表达为 特点:样本容量不变的情况下,随着模型中解变量个数的增加,总离差平方和不会改变,而解释了的回归平方和可能增大,多重可决系数R2 因而变大。即多重可决系数是模型中解释变量个数的不减函数。,39,修正的可决系数 当被解释变量相同,而解释变量个数不同的时候,运用多重可决系数去比较两个模型拟合程度的优劣会有缺陷。 为何解释变量个数不同的时候,不能简单直接对比多重可决系数?因为这样会带来分析错觉,这个时候好像只要在回归模型中增加解释变量的个数,就会增大可决系数的值,要提高模型的拟合优度只需在模型中增加解释变量的个数就行了,而事实并非如此。样本容量既定的情况下,增加解释变量的个数必然会使待估系数的个数增加,从而会损失自由度,这给对比不同模型的多重可决系数带来缺陷,所以需要修正。 可决系数只涉及变差,没有考虑自由度。如果用自由度去矫正所计算的变差,可以更加准确地反映样本回归线对观测点(散步点)的拟合优度,从而解决解释变量个数不同引起的对比困难。统计量的自由度是指可自由变化的样本观测值个数,它等于所用样本观测值的个数减去对观测值的约束个数。,40,可决系数的修正方法 总变差 TSS 自由度为 n-1 解释了的变差 ESS 自由度为 k-1 剩余平方和 RSS 自由度为 n-k 修正的可决系数为,41,修正的可决系数 与可决系数 的关系 已经导出: 注意:当k1时,有 可决系数 必定非负,但所计算的修正可决系数 有可能为负值 解决办法:若计算的 ,规定 取值为0,42,42,二、回归方程的显著性检验(F检验),基本思想: 在多元回归中包含多个解释变量,它们与被解释 变量是否有显著关系呢? 当然可以分别检验各个解释变量对被解释变量影 响的显著性。 但是我们首先关注的是所有解释变量联合起来对被解释变量影响的显著性, 或整个回归方程总的联合的影响显著性,需要对方程的总体显著性在方差分析的基础进行F检验。(R2 是建立在对总变差分解的基础上),43,43,在讨论可决系数时已经分析了被解释变量总变差 TSS的分解及自由度: TSS=ESS+RSS 注意: Y的样本方差= 总变差/自由度 即 显然,Y的样本方差也可分解为两部分,可用方差分 析表分解,43,1.方差分析,44,总变差 TSS= 自由度 n1 模型解释了的变差 ESS= 自由度 k1 剩余变差 RSS= 自由度 nk,变差来源 平 方 和 自由度 方 差 归于回归模型 ESS= k-1 归于剩余 RSS= n-k 总变差 TSS= n-1,方差分析表,基本思想: 如果多个解释变量联合起来对被解释变量的影响不显著,“归于回归的方差“ 比“归于剩余的方差”显著地小应是大概率事件。,2. F检验,46,2. F检验,原假设: (所有解释变量联合起来对被解释变量的影响不显著) 备择假设: 不全为0 建立统计量(可以证明): 给定显著性水平 ,查F分布表中自由度为 k-1 和 n-k 的临界值 ,并通过样本观测 值计算F值,46,47,F检验方式,如果计算的F值大于临界值 , 则拒绝 ,说明回归模型有显著意义, 即所有解释变量联合起来对Y确有显著影响。 如果计算的F值小于临界值 ,则不拒绝 ,说明回归模型没有统计 上的显著性意义,即所有解释变量联合起来对Y没 显著影响。,48,3. F显著性检验 VS 可决系数的显著性,拟合优度与F 检验是从不同原理出发的两类检验,但有内在联系。 拟合优度:从估计的模型出发,检验对样本观测值的拟合程度。 F检验:从样本观测值出发,检验模型整体关系的显著性。 密切关系:二者都建立在对被解释变量变差分解的基础上,修正的可决系数与F都与自由度有关。F 统计量与可决系数可相互计算: 可以看出:当 =0 时,F=0 ; 当 =1时, F; 当 越大时,F值也越大,F与 同方向变化。 结论:F检验等价于对 的显著性检验(但不能只看 ,更应该看F值),多元线性回归分析中为什么要对可决系数加以 修正? 修正可决系数与F检验之间有何联系区别? 随着模型中解释变量的增加,多重可决系数R2的值会变大。当样本容量一定,被解释变量相同而解释变量个数不同时,运用多重可决系数去比较两个模型拟合程度会带来缺陷,因为可决系数只考虑变差,没有考虑自由度;因此要对其加以修正。 联系:F检验与可决系数有密切的联系,一般来说,模型对观测值的拟合程度越高,模型总体线性关系的显著性就越强。随着可决系数的增加,F统计量的值不断增加。对方程联合显著性检验的F检验,实际上也是对R2的显著性检验。 区别:可决系数和修正的可决系数只能提供对拟合优度的度量,它们的值究竟要达到多大模型才算通过了检验?对此并没有确定的界限。而F检验可以在给定显著性水平下给出统计意义上的严格结论(用样本计算的F值和查F统计表得到临界值作比较,决定是否拒绝原假设,即解释变量联合起来是否对于被解释变量有显著影响。),50,三、各回归系数的假设检验(t 检验),注意: 在一元回归中F检验与t检验等价, 且 在一元线性回归中,解释变量只有一个,不存在整体联合影响被解释变量的问题,也就不需要整体性的F检验。 (见教材P77证明) 但在多元回归中,F检验显著,不一定每个解释变量都对 Y有显著影响。还需要分别检验当其他解释变量保持不变 时,各个解释变量X对被解释变量Y是否有显著影响。 方法: 原假设 (j=1,2,k) 备择假设 这里 包括了截距项,区别于F检验当中的原假设所有与X相乘的 斜率系数都为零 统计量t为:,51,给定显著性水平,查t分布表的临界值为 如果 就不拒绝 ,而拒绝 即认为 所对应的解释变量 对被解释变量Y的影响不显 著。 如果 就拒绝 而不拒绝 即认为 所对应的解释变量 对被解释变量Y的影响是 显著的。 讨论:在多元回归中,可以作F检验,也可以分别对每个回 归系数逐个地进行 t 检验。 F 检验与t检验的关系是什么?,对各回归系数假设检验的作法, 在多元线性回归方程中,t检验用作检验回归方程中各个参数的显著性,而F检验则用作检验回归方程整体的显著性. 进行F检验,回归方程的所有解释变量中,只要有一个解释变量同被解释变量的线性关系显著即可(备择假设)。 F检验显著并不意味着每个参数的t检验都显著,也就是说,各解释变量联合起来对被解释变量有显著影响, 并不意味着每一个解释变量分别对被解释变量有显著影响-或者说有显著的线性关系。 在一般情形下,t检验与F检验的结果没有必然联系;但当解释变量之间两两不相关时,若所有解释变量的系数均通过t检验,那么回归方程也能通过F检验。,F检验与t检验,53,第四节 多元线性回归模型的预测,一、被解释变量平均值预测 1. Y平均值的点预测 方法:将解释变量预测值代入估计的方程: 多元回归时: 或 注意: 预测期的 只是一组数据, 因此它是第一个元素为1的行向量,不是矩阵,也不是列向量。计算对应一个,54,2. Y平均值的区间预测,基本思想: (与简单线性回归时相同) 由于存在抽样波动,点预测值 不一定 等于真实平均值 ,还需要对 作区间估计。 为了对Yf 平均值作区间预测,必须确定点预测值 的抽样分布。 必须找出与 和 都有关的统计量, 并要明确其概率分布性质。,54,OLS回归线的数学性质之一: 估计值 的均值等于实际观测值Yi的均值,因此 f 是E(Yf)的无偏估计,从而 f可以用作预测期的平均值E(Yf)和个别值Yf的点预测值。,56,多元回归时,与点预测值 f和真实平均值 都有关的是二者的偏差 wf : 因为 f服从正态分布,所以wf 也服从正态分布。有: 用 代替 ,可构造wf 的 t 统计量,区间预测的具体作法(多元时),57,给定显著性水平,查t分布表,得自由度为 n-k的 临界值 ,则 即,区间预测的具体作法,58,二、被解释变量个别值预测,基本思想: (与简单线性回归时相同) 由于存在随机扰动 的影响,Y的平均值并不等于Y的个别值。仅对Y的平均值做预测是不够的。 为了对Y的个别值 作区间预测,需要寻找点预测值 和预测目标的个别值 都有关的统计量,并要明确其概率分布性质。,59,已知剩余项 是与预测值 和个别值 都有关的变量 并且已知 服从正态分布,且多元回归时可证明 当用 代替 时,对 标准化的 变量 t 为:,个别值区间预测具体作法,给定显著性水平 ,查t分布表得自由度为 n-k 的临 界值 则 因此,多元回归时Yf 的个别值的置信度1-的预测区间上下限为,60,61,第五节 案例分析,研究的目的要求: 为了研究影响中国地方财政教育支出差异的主要原因,分析地方财政教育支出增长的数量规律,预测中国地方财政教育支出的增长趋势,需要建立计量经济模型。 研究范围: 2011年31个省市区的数据为样本,理论分析:影响中国地方财政教育支出的主要的因素有: (1)由地区经济规模决定的地方整体财力; (2)地区人口数量不同决定各地教育规模不同; (3)人民对教育质量的需求对以政府教育投入为代表的公共财政的需求会有相当的影响。 (4)物价水平,教育消费的价格变动影响地方财政对教育的支出。 (5)地方政府对教育投入的能力与意愿,模型设定,选择地方财政教育支出为被解释变量。 选择“地区生产总值(GDP)”作为地区经济规模的代表; 选择各地区的“年末人口数量”作为各地区居民对教育规模的需求的代表; 选择“居民平均每人教育现金消费”作为代表居民对教育质量的需求; 选择居民教育消费价格指数作为价格变动影响的因素; 由于地方政府教育投入的能力与意愿难以直接量化,选择“教育支出在地方财政支出中的比重”作为其代表。,探索将模型设定为线性回归模型形式:,64,样本数据:2011年各地区地方财政教育支出及主要影响因素,65,66,三、估计参数,模型估计的结果为:,(935.8816) (0.0018) (0.0080) (0.0517) (9.0867) (470.3214) t= (-2.5820) (6.3167) (4.9643)( 2.8267) (2.5109) (1.8422) R2=0.9732 =0.9679 F=181.7539 n=31,68,模型检验:,1、经济意义检验: 在假定其它变量不变的情况下, 地区生产总值(GDP)每增长1亿元,平均说来地方财政教育支出将增长0.0112亿元;地区年末人口每增长1万人,平均说来地方财政教育支出会增长0.0395亿元;当居民平均每人

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论