已阅读5页,还剩17页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三部 线性分析第三章 多重回归第三章 多重回归 1 多重回归模型和主要结果2 多重共线性 multicolllinearity3. 要因分解4. 虚拟变量 (dummy variable) 5. 回归与相关,相关与因果6. 因果检验7练习题1多重回归模型和主要结果1-1 多重回归模型 说明变量两个或两个以上的回归模型叫多重回归模型。 可表示为: 被说明变量的变动想用k个说明变量来解释,所以我们有时也把上面的模型叫做向说明变量所作的线性回归。 为简单起见,本章我们所研究的多重回归指的是 ,很容易把两个结论拓展到其他三个说明变量或三个以上说明变量的情况。计量经济学的三项主要工作:(1) 求出参数的无偏估计;(2) 对估计量进行统计检验;(3) 进行预测注意事项:中的称为偏相关系数。意义是,度量了在不变的情况下,每变化一个单位,被说明变量Y的期望值E(Y)的变化量。同理,度量了在不变的情况下,每变化一个单位,被说明变量Y的期望值E(Y)的变化量。这是多元回归特殊的地方。在多元回归里,我们想知道Y的期望值的变化有多少是直接受的影响,有多少是直接受的影响。偏相关系数反映的是当模型中的一个在固定说明变量的情况下,另一个说明变量对被说明变量期望值的影响。多元回归这种独特的性质,不仅可以使我们引入多个说明变量,而且也可以使我们能够分离每一个变量对被说明变量的影响。偏相关和偏相关系数 检验两个变量之间是否存在相关,或者存在伪相关需要专业知识。简单的,我们可以使用偏相关系数来判断。对于变量,我们假设 固定的情况下,和之间的相关关系; 固定的情况下,和之间的相关关系;在固定的情况下,和之间的相关关系。与不同,考虑了变量对变量Y和的影响。虽然,对Y都有影响,但是我们想知道的是在固定的情况下,对Y的影响。可以通过以下的方法得到。1) 求出说明变量对被说明变量Y的变化解释不了的那个部分,;2) 求出说明变量对被说明变量 的变化解释不了的那个部分,;3) 计算偏相关系数,就是中的相关系数, 用行列表示多重回归 其中, , , 。 预测方程为 : 模型的假设(1) ; - ; ;(4) ;(5) 之间无明确的线性关系; - ;(6) - 。假设(5)的说明: 情况1 if ,then would be equal to , ; 情况2 如果,那么和对被说明变量Y的说明能力完全一样(注意:它们都是矢量),因此可以简化为 ; 情况3 如果与之间的夹角介于和之间的时候,回归模型实际上是尽可能地用说明变量去解释,用不能解释的部分再尝试用去解释。参数的最小二乘估计 其中, 。简化为, = 回归平面:Y 1-2 主要结果(1) 的最小二乘估计量和方差 其中,; 其中,代表说明变量的相关系数。 上一章单变量回归中,参数估计的方差是。 为了使的估计精度更高,我们一般尽可能地让说明变量在较大范围内变动,达到使增大,进而达到使减少的目的。对于有两个说明变量的多重回归模型来说,同样可以达到目的。减小(说明变量的相关系数),我们就可以增大,从而达到减小和的目的。当,说明变量线性无关的情况,多重回归所得到的参数估计以及其方差与单变量回归所得到的参数的估计值以及方差是完全一致的。尽可能地减少两个说明变量的相关,就能达到提高参数估计的精度。(2)随机误差项方差的估计量 这里 假设 ,于是,。 于是,。其中, 的不偏估计 误差项的方差是个未知的参数,它是由残差来推定的。残差有三个制约条件:, , 。所以n个残差要损失3个自由空间,即自由度为3。因此的不偏估计为 。参数估计量的性质:无偏性;最小方差 (3) 参数估计值的方差的不偏推定 (4) 多重决定系数 (Multiple Coefficient of Determination) 在一元回归模型中,用决定系数来判断样本回归直线的拟合程度,也就是说,决定系数给出了说明变量X对被说明变量的说明程度或解释程度。在多元回归中,决定系数反映的是说明变量一起对被说明变量的解释程度。 在双变量多重回归的情况下, 所以这时的决定系数为 叫多重相关系数 (multiple correlation coefficient) 。用自由度修正过的决定系数(coefficient of determination adjusted for the degree of freedom)在计量分析中,我们总希望决定系数越大越好。但是决定系数的大小与说明变量的个数有关,说明变量的个数越多,决定系数也就越大,即决定系数是说明变量个数的递增函数。 为了达到可比的目的,我们根据模型中说明变量的个数对决定系数进行修正,得到修整的决定系数(adjusted ), ; 其中,k为说明变量的个数, 随机变量的样本方差的无偏估计; 被说明变量的样本方差。修正的决定系数的性质:1) 时,有。随着模型中的说明变量的增加,会越来越小于;2) 我们总有, 而却不一定能够保证, 。一般,统计软件中都会给出。可以使我们对被说明变量相同,说明变量个数不同的回归模型的拟合程度进行比较。 =, 如果,那么,说明是一个比较小的数。=与比较 意味着 如果 - 说明即使,也是按的大小判断模型拟合的好坏。(5) 的特性和样本分布 多重回归所得到的 与单回归得到的 具有同样的性质。样本分布:(6) 显著性检验与置信区间显著性检验: 在一定的显著性水平下,从总体上对模型中被解释变量与解释变量之间的关系是否显著成立而进行的一种统计检验。检验方法 :F 检验法总体上把握显著性的有无步骤1 建立原假设和备择假设 步骤2 计算检验统计量 步骤3 查F分布表, 得到 ;步骤4 比较与的大小, 如果, 拒绝原假设,也就是意味着说明变量与被说明变量之间存在显著的线性关系。单个参数显著性检验:t检验。步骤1 建立原假设和备择假设 步骤2 计算检验统计量 步骤3 查t分布表, 得到 ;步骤4 比较与的大小, 如果,或者 拒绝原假设,也就是这个说明变量与被说明变量之间存在显著的线性关系。参数的置信区间由 , 得到 。(7)预测点预测 区间预测:因为人们更希望得到一个以相当大的可能性包含被说明变量的真实值的区间。这个区间就是数理统计学的置信区间,我们称之为预测区间。置信度为的预测区间: ;其中, , - 历史数据1-3 用Excel 进行多元回归分析步骤1 计算偏差。具体,;步骤2 计算二次项。 具体, 。步骤3 计算D , , .步骤4 计算。 具体, , 。例题: 2 多重共线性 multicolllinearity2-1 多重共线现象现象1 决定系数很高,t值却很低;现象2 参数估计的符号与理论上的符号不一致 ;现象3 参数估计对样本的依赖性太大。样本的数量稍有所变化,会导致参数估计发生很大的变化。 在多重回归,当说明变量之间的相关程度比较高的时候,参数估计的精度将大大降低。举个例子来说明一下多重共线的现象:对模型 来说,如果说明变量完全相关的话,它们可用下面方程式来表示,。如果完全相关,即,我们知道 =0, 所以 这三个参数都将无法估计。进一步,我们把代入到双变量多重回归模型中,得到,双变量的多重回归实际上就变成了单变量的回归。在新的单变量回归模型中,我们只能估计和这两个参数。虽然我们可以通过将第二个说明变量消去得到一个新的单变量的回归模型,但是我们却无法估计原来多重回归模型中的参数。还有一种情况是完全不相关,即,这时,只要被说明变量分别对说明变量作回归,然后分别估计相应的参数即可。其结果与单变量的回归一样。 更多的情况是说明变量之间具有相关性,但不是完全相关,即。 实际上,时间系列数据中经常发生说明变量之间具有高度的相关性。2-2 后果 在多重回归,当说明变量之间的相关程度比较高的时候,参数估计的精度将大大降低。2-3 多重共线的检验 方差扩大要因的VIF (Variance Inflation Factor) VIF的定义: 为什么VIF可以测量方差扩大的程度? 前面提到的参数估计 当说明变量之间的相关性越强,VIF越大,参数估计的方差就越大。当VIF=1的时候,;当VIF=10的时候,;当VIF=20的时候,。大体上,我们认为的时候,就有多重共线的担心。 因为存在多重共线,参数估计的精度变坏这一点,我们可以通过确认参数的信赖区间随着VIF而变大得到证实。 的信赖区间是,信赖区间的大小是当说明变量之间无关时,VIF=1;当说明变量之间存在线性相关时,参数估计的信赖区间将扩大倍。2-4 解决办法方法1. 什么也不做。 因为多重共线问题既不是理论模型建得不对,也不是误差项的假设有误,而是现实中的问题,所以如果我们估计的参数的大小,符号与经济理论不发生矛盾的话,如果相应的t统计量也时有意义的话,决定系数也时有意义的话,即使方差扩大要因VIF较大,也可以。这就是我们所谓的什么也不做。举个例子说明一下如何看待这种方法。例如,方法2. 有没有可以追加的情报。 例如,增加数据的数量,(延长数据采集的时期,把年次数据变为半年期数据,季度数据,月度数据,或每周的数据,或者每日的数据等等) 有时候随着情报的丰富,多重共线现象可以得到回避。有时候用年报数据来估计理论模型时,各种估计可能不是很理想,这时我们如果换成季报数据或月报数据的话,随着数据的增加,情报的丰富,有可能回避多重共线现象。 例如,方法3. 尝试改变函数的形式。 例如,先做阶差,或者比率后再进行多重回归分析。方法4. 把VIF较大的说明变量从系统因素中去掉。方法5. 用Ridge进行估计。 出现多重共线现象时,最小二乘估计(OLS)已经不再是最好的不偏线性估计量。这时,我们可以改用其它的估计方法进行推定估计。比如,Ridge Estimation(RE) 。有关RE的具体方法请参考 Draper,N. and Smith, Applied Regression Analysis (2nd ed. John Wiley & Sons,1981)2-5 案例3 要因分解4 虚拟变量 (dummy variable)4-1 需要对像性别,人种,战争的前后,地震,以及制度的变化等等不能量化的质的属性进行回归的时候,有必要使用代理变量。一般,在(1)数据中出现异常值;(2)观察到的经济发生结构性变化;(3)需要对不能量化的质的变量进行回归分析;的时候,我们用虚拟变量来处理。4-2 种类情况1. 一次性的虚拟变量 如想把因地震,台风,洪水,干旱等自然灾害,张战争,内乱,罢工等突发事件而带来的异常值(outlier)也考虑到模型中,这时我们一般采用一次性代理变量的方法处理。具体,对模型 其中,代表一次性的虚拟变量。当有可能出现两个异常值的时候,我们可以其中,注意:在使用虚拟变量是,一定要有理由根据,单纯的为了可以更好地描述数据的目的是绝对禁止使用虚拟变量的。案例:情况2. 季节虚拟变量如 其中,代表第一季度的虚拟变量,即如果是第一季度的数据的话,否则;代表第一季度的虚拟变量,即如果是第二季度的数据的话,否则;代表第一季度的虚拟变量,即如果是第三季度的数据的话,否则。第四季度是用来表示,所以四个季度的定数项分别为:第一季度: ; 第二季度: ;第三季度: ; 第四季度: 。用同样的方法,我们也可以改变各个不同季度的斜率。注意:季度的时候,我们只需要使用三个虚拟变量即可;月报数据的时候,我们需要使用11个虚拟变量就可以。案例分析 : 用于吃方面的消费(食品,饮料,香烟等)与国内家庭消费支出总额之间关系的回归分析。具体数据可以参考数据dummy-season-1.xls“dummy-season-1.xls”用于吃方面的消费与国内家庭消费支出单位: 兆元编号年季度吃方面的消费国内家庭消费支出11990110.153.5221154.43312.256.44413.360.651991110.254.7621155.47312.357.68413.262.491992110.556.510211.156.411312.358.312413.462.6131993110.456.714211.256.815312.258.916413.463.7171994110.458.2 作散点图,看线性关系。方法1 用最小二乘法进行回归分析Coefficients标准误差t StatIntercept-8.342063.087959-2.70148国内家庭消费支出0.345860.0533316.485126R Square0.737104Adjusted R Square0.719578 方法2 用虚拟变量最小二乘法进行回归分析季度吃的消费国内家庭消费支出110.153.510021154.4010312.256.4001413.360.6000110.254.710021155.4010312.357.6001413.262.4000110.556.5100211.156.4010312.358.3001413.462.6000110.456.7100211.256.8010312.258.9001413.463.7000110.458.2100结果Coefficientst StatIntercept9.6627269.247487国内家庭消费支出0.0587613.507754D(1)-2.62864-21.6694D(2)-1.86365-14.8781D(3)-0.80911-8.38783 R Square0.996286Adjusted R Square0.995049 具体模型第一季度 : ,第二季度 : ,第三季度 : , 第四季度 : 。预测情况 情况3. 质的虚拟变量的处理案例分析 :月工资与性别,年代,学历和企业规模大小的关系。 数据请参考数据dummy-2.xls“dummy-2.xls”工资水平与性别,年代,学历和企业规模的关系编号工资额性别年代学历企业规模125女40中学小226男30中学小328女40高中小430女40高中小531男30中学中632男30高中小734女30大学中836男30高中中939女30大学大1040男30高中中1143男30大学小1246男30大学中1352男40中学大1454女40大学大1555男40高中大性别年代学历企业规模编号工资额D1D2D3D4D5D6125011010226101010328010110430010110531101001632100110734000001836100101939000000104010010111431000101246100001135211100014540100001555110100结果R Square0.983316Adjusted R Square0.970802Coefficients标准误差t StatIntercept39.991531.52781726.1756D114.384761.23876111.61222D212.642521.5196078.319597D3-15.8731.466859-10.8211D4-10.79021.369502-7.87894D5-12.15241.326189-9.1634D6-6.608651.560523-4.2349 其中, ; ; ; ; ; 。情况4. 分析对象发生了结构性变化的时候 其中,案例分析 1973年石油危机以前和之后,能源需要量与实质GDP的关系。 数据参考数据dummy-3.xls“dummy-3.xls”能源需要量与实质GDP的关系编号年代能源需求量实质GDP119651001002196610610831967115117419681221235196912913261970136141719711411458197214315491973114150101974117156111975121161121976123169131977129174141978130177151979134183结果1)R Square0.98566Adjusted R Square0.98175 Coefficients标准误差t StatIntercept15.949154.3023683.7
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 养老院入住老人意外伤害预防与处理制度
- 企业员工培训与团队建设制度
- 企业内部审计规范制度
- 2026河南漯河市农业农村局所属事业单位招聘3人参考题库附答案
- 交通规划与建设审批制度
- 2026湖北省普通选调生招录497人参考题库附答案
- 2026湖南郴州市市直学校面向高校毕业生招聘教师25人参考题库附答案
- 2026福建三明市尤溪县总医院医学人才校园(福建中医药大学)专场公开招聘7人的通告备考题库附答案
- 2026福建省面向国防科技大学选调生选拔工作备考题库附答案
- 2026福建龙岩市教育部组织公费师范毕业生“双向选择”专项招聘8人备考题库附答案
- 新能源汽车技术 SL03维修手册(第4章)-电气-4.2.2~4.2.12电器集成
- 教科版科学教材培训
- 甲状腺的中医护理
- 商住楼项目总体规划方案
- 2022储能系统在电网中典型应用
- 互联网+物流平台项目创办商业计划书(完整版)
- 家庭学校社会协同育人课件
- IABP主动脉球囊反搏课件
- 基于python-的车牌识别
- 《LTCC生产流程》课件
- 7KW交流交流充电桩说明书
评论
0/150
提交评论