第2部分:线性回归1_第1页
第2部分:线性回归1_第2页
第2部分:线性回归1_第3页
第2部分:线性回归1_第4页
第2部分:线性回归1_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二部分 线性回归(一)1一元线性回归一、基本思想及参数的估计2问题的提出 必要性 通过协方差或相关系数证实变量之间存在关系,仅仅只是知道变量之间线性相关的性质 正(负)相关和相关程度的大小。 既然它们之间存在线性关系,接下来必须探求它们之间关系的表现形式是什么? 最好用数学表达式将这种关系尽可能准确、严谨的表示出来 y=a+bx+u 把它们之间的内在联系挖掘出来。也就是直线中的截距 a=?; 直线的斜率 b=?3解决问题的思路 可能性 寻找变量之间直线关系的方法很多。于是,再接下来则是从众多方法中,寻找一种优良的方法,运用方法去求出线性模型 y=a+bx+u中的截距a=?; 直线的斜率 b=? 正是 是本章介绍的最小二乘法。 根据该方法所得,即表现变量之间线性关系的直线有些什么特性? 所得直线可靠吗?怎样衡量所得直线的可靠性? 最后才是如何运用所得规律 变量的线性关系? 4最小二乘法产生的历史 最小二乘法最早称为回归分析法。由著名的英国生物学家、统计学家道尔顿(F.Gallton) 达尔文的表弟所创。 早年,道尔顿致力于化学和遗传学领域的研究。 他研究父亲们的身高与儿子们的身高之间的关系时,建立了回归分析法。5最小二乘法的地位与作用 现在回归分析法已远非道尔顿的本意 已经成为探索变量之间关系最重要的方法,用以找出变量之间关系的具体表现形式。 后来,回归分析法从其方法的数学原理 误差平方和最小(平方即二乘)出发,改称为最小二乘法。6父亲们的身高与儿子们的身高之间关系的研究 1889年 F.Gallton和他的朋友 K.Pearson收集了上千个家庭的身高、臂长和腿长的记录 企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式 下图是根据 1078个家庭的调查所作的散点图(略图)7160165170175180185140 150 160 170 180 190 200YX儿子们身高向着平均身高 “回归 ”,以保持种族的稳定8“回归 ”一词的由来 从图上虽可看出,个子高的父亲确有生出个子高的儿子的倾向,同样地,个子低的父亲确有生出个子低的儿子的倾向。得到的具体规律如下: 如此以来,高的伸进了天,低的缩入了地。他百思不得其解,同时又发现某人种的平均身高是相当稳定的。最后得到结论:儿子们的身高回复于全体男子的平均身高,即 “回归 ” 见1889年 F.Gallton的论文普用回归定律。 后人将此种方法普遍用于寻找变量之间的规律 9最小二乘法的思路 1为了精确地描述 Y与 X之间的关系,必须使用这两个变量的每一对观察值,才不至于以点概面(作到全面)。 2 Y与 X之间是否是直线关系(协方差或相关系数)?若是,将用一条直线描述它们之间的关系。 3在 Y与 X的散点图上画出直线的方法很多。 任务? 找出一条能够最好地描述 Y与 X(代表所有点)之间的直线。 4什么是最好? 找出判断 “最好 ”的原则。 最好指的是找一条直线使得这些点到该直线的纵向距离的和(平方和)最小。10三种距离yx纵向距离横向距离距离 A为实际点, B为拟合直线上与之对应的点11距离是度量实际值与拟合值 是否相符的有效手段 点到直线的距离 点到直线的垂直线的长度。 横向距离 点沿(平行 ) X轴方向到直线的距离。 纵向距离 点沿(平行) Y轴方向到直线的距离。也就是实际观察点的 Y坐标减去根据直线方程计算出来的 Y的拟合值。 这个差数以后称为误差 残差(剩余)。12最小二乘法的数学原理 纵向距离是 Y的实际值与拟合值之差,差异大拟合不好,差异小拟合好,所以又称为拟合误差或残差。 将所有纵向距离平方后相加,即得误差平方和, “最好 ”直线就是使误差平方和最小的直线。 于是可以运用求极值的原理,将求最好拟合直线问题转换为求误差平方和最小。13数学推证过程14关于所得直线方程的结论 结论之一: 由( 5)式,得 即拟合直线过 y和 x的平均数点。 结论之二:由( 2)式,得 残差与自变量 x的乘积和等于 0,即两者不相关。 15拟合直线的性质 1估计残差和为零 2 Y的真实值和拟合值有共同的均值 3估计残差与自变量不相关 4估计残差与拟合值不相关161估计残差和为零( Residuals Sum to zero) 由( 1)式直接得此结论无须再证明。并推出残差的平均数也等于零。172 Y的真实值和拟合值有共同的均值183 估计残差与自变量不相关194 估计残差与拟合值不相关20关于回归直线性质的总结关于回归直线性质的总结 残差和 =0平均数相等拟合值与残差不相关 自变量与残差不相关注意:这里的残差与随机扰动项不是一个概念。随机扰动项是总体的残差。 21实例 教材 P92-94 例 5.1 美国家庭收入与支付税收的关系 例 5.2 5.3 男女学生数学分数与词汇分数的关系 例 5.5及 5.6 通过实例进一步理解一元回归线性模型的经济含义22二、一元线性回归模型的检验 (一)线性回归模型的基本假设(严格来说是针对普通最小二乘法) (二)参数估计量的性质(包括回归系数、随机误差项):线性、无偏性和有效性 (三)模型的检验,包括方程的显著性检验和变量的显著性检验。23(一) 线性回归模型的基本假设1、自变量(解释变量)是非随机的确定性的变量,而且彼此之间不相关即,2、解释变量与随机误差项之间不相关。3、随机误差项具有零均值和同方差,即4、随机误差项之间不相关,即5、 (当样本容量趋于无强大时,由中心极限定理,对于任何实际模型都是满足)24( 二)参数估计量的性质1、 模型参数估计主要包括:一是结构参数的估计量,即回归系数的估计量;二是随机误差项的分布参数,包括均值和方程。由前面得回归系数的估计量为:而对于随机误差项其均值已被假定为 0,则只估计方差了,对于随机误差项方差的估计量为:252、参数估计量的性质: 线性。即 是 y的线性函数,这可从表达式可看出。 无偏性。即 有效性(最小方差性)。我们可得到:由高斯马尔可夫( G-M)定理:在满足线性回归模型的基本假定上,则在所有的无偏估计量中, OLS估计量具有最小方差性,给OLS估计量是最优线性无偏估计量( BLUE)。 可知上述无偏估计量具有最小方差,即有效性估计量。26( 4) 随机误差项估计量的无偏性问题由前面随机误差项 的方差估计量为:通过变化可得:27( 三)模型的检验1、方程的显著性检验( F检验)旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否成立作出推断。用以进行方程的显著性检验的方法主要有三种: F检验、 t检验、 r检验。他们的区别在于构造的统计量不同。而在目前使用的计量经济学软件包中都有关于 F统计量的计算结果,我们只介绍 F检验。28 即 检验方程中的参数是否显著不为 0,即 检验零假设:292、变量的显著性检验( t检验)主要对多元线性回归模型而言,在方程的总体线性关系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论