版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第9章 线性回归分析,9.1 一元线性回归 9.2 多元线性回归 9.3 逐步回归 9.4 spss在回归中的应用,“回归”一词的由来,“回归”这个词最先由由英国著名统计学家F.高尔顿(Francis Galton) 在19世纪末期研究孩子及他们的父母的身高时提出来的。高尔顿研究发现,父母和孩子的身高有这样的一个趋势:父母高,儿女就高;父母矮,儿女也矮。但是高个父母的儿女们平均起来并不像他们的父母那样高。 儿女辈的平均身高将“退化”到或者说“回归”到全体人口的平均身高。对于比较矮的父母情形也类似:他们的孩子比较矮,但这些孩子的平均身高要比他们的父母的平均身高高。,“回归”一词的由来,Galto
2、n把这种孩子的身高向中间值靠近的趋势称之为一种回归效应,而他发展的研究两个数值变量的方法称为回归分析。 这也叫高尔顿的“普遍回归定律”。高尔顿在智力遗传的方面也得到了类似的结果:一般来说,天才是要遗传的。但是天才的后代却要比他们的父辈们平庸,也就是他们的智力水平将“回归”到中等水平;而一个智商一般的父母,其孩子却可能是个天才!,尽管“回归”这个名称的由来具有其特定的含义,人们在研究大量的问题中变量x与y之间的关系并不具有这种“回归”的含义,但借用这个词把研究变量x与y之间的统计关系的数学方法称为“回归分析”,也算是对高尔顿这个伟大的统计学家的一种纪念。,回归分析主要解决以下几方面问题,从一组样
3、本数据出发,确定变量之间的数学关系式 对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著 利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度,回归分析与相关分析的区别,相关分析中,变量 x 变量 y 处于平等的地位;回归分析中,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化 相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制,回归模型的类型,9.1 一元线性回归,9.1.
4、1 一元线性回归模型 9.1.2 参数的最小二乘估计 9.1.3 回归方程的显著性检验,9.1.1一元线性回归模型,当只涉及一个自变量时称为一元回归,若因变量 y 与自变量 x 之间为线性关系时称为一元线性回归 对于具有线性关系的两个变量,可以用一条线性方程来表示它们之间的关系 描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型,一元线性回归模型, 对于只涉及一个自变量的简单线性回归模型可表示为 y = b0 + b1 x + e 模型中,y 是 x 的线性函数(部分)加上误差项 线性部分反映了由于 x 的变化而引起的 y 的变化 误差项 是随机变量 反映了除 x 和 y 之间
5、的线性关系之外的随机因素对 y 的影响 是不能由 x 和 y 之间的线性关系所解释的变异性 0 和 1 称为模型的参数,一元线性回归模型(基本假定),误差项是一个期望值为0的随机变量,即E()=0。对于一个给定的 x 值,y 的期望值为E ( y ) = 0+ 1 x 对于所有的 x 值,的方差2 都相同 误差项是一个服从正态分布的随机变量,且相互独立。即N( 0 ,2 ) 独立性意味着对于一个特定的 x 值,它所对应的与其他 x 值所对应的不相关 对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关,回归方程 (概念要点),描述 y 的平均值或期望值如何依赖于 x
6、的方程称为回归方程 简单线性回归方程的形式如下 E( y ) = 0+ 1 x,方程的图示是一条直线,因此也称为直线回归方程 0是回归直线在 y 轴上的截距,是当 x=0 时 y 的期望值 1是直线的斜率,称为回归系数,表示当 x 每变动一个单位时,y 的平均变动值,估计(经验)的回归方程,简单线性回归中估计的回归方程为,其中: 是估计的回归直线在 y 轴上的截距, 是直线的斜率,它表示对于一个给定的 x 的值,是 y 的估计值,也表示 x 每变动一个单位时, y 的平均变动值,用样本统计量 和 代替回归方程中的未知参数 和 ,就得到了估计的回归方程,总体回归参数 和 是未知的,必需利用样本数
7、据去估计,9.1.2 参数 0 和 1 的最小二乘估计,最小二乘估计法,使因变量的观察值与估计值之间的离差平方和达到最小来求得 和 的方法。即,最小二乘法(图示),最小二乘法 ( 和 的计算公式), 根据最小二乘法的要求,可得求解 和 的标准方程如下,估计方程的求法(实例),【例】根据例9.1中的数据,配合人均消费金额对人均国民收入的回归方程 根据 和 的求解公式得,估计(经验)方程,人均消费金额对人均国民收入的回归方程为,y = 54.005 + 0.526x,9.1.3 回归方程的显著性检验,拟合优度检验(判定系数r 2 检验) 回归方程的显著性检验(F检验) 回归系数的显著性检验(t检验
8、),离差平方和的分解,因变量 y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面 由于自变量 x 的取值不同造成的 除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响 对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示,离差平方和的分解(图示),离差平方和的分解 (三个平方和的关系),2. 两端平方后求和有,从图上看有,SST = SSR + SSE,离差平方和的分解 (三个平方和的意义),总平方和(SST) 反映因变量的 n 个观察值与其均值的总离差 回归平方和(SSR) 反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于
9、 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和 残差平方和(SSE) 反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和,判定系数 r 2,回归平方和占总离差平方和的比例,反映回归直线的拟合程度 取值范围在 0 , 1 之间 r2 1,说明回归方程拟合的越好;r20,说明回归方程拟合的越差 判定系数等于相关系数的平方,即r2(r)2,R2=0.998,回归方程的显著性检验 (线性关系的检验 ),检验自变量和因变量之间的线性关系是否显著 具体方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是
10、否显著 如果是显著的,两个变量之间存在线性关系 如果不显著,两个变量之间不存在线性关系,回归方程的显著性检验 (检验的步骤),提出假设 H0:线性关系不显著,2. 计算检验统计量F,确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F 作出决策:若FF ,或P 接受H0,回归方程的显著性检验 (方差分析表),(续前例)spss 输出的方差分析表,P=0.0000.05 拒绝H0, 线性关系显著,回归系数的显著性检验(要点),在一元线性回归中,等价于回归方程的显著性检验,检验 x 与 y 之间是否具有线性关系,或者说,检验自变量 x 对因变量 y 的影响是否显著,理论基础是回归系数
11、的抽样分布,回归系数的显著性检验 (步骤),提出假设 H0: b1 = 0 (没有线性关系) H1: b1 0 (有线性关系) 计算检验的统计量,确定显著性水平,并进行决策 tt,或P 接受H0,回归系数的显著性检验 (实例),提出假设 H0:b1 = 0 人均收入与人均消费之间无线性关系 H1:b1 0 人均收入与人均消费之间有线性关系 计算检验的统计量,t=65.0758t=2.201,拒绝H0,表明人均收入与人均消费之间有线性关系,对前例的回归系数进行显著性检验(0.05),回归系数的显著性检验(spss输出的结果),P0=0.0000.05 , 常数项显著不为零 P1=0.0000.0
12、5,人均消费变量的系数显著不为零,9.2 多元线性回归,9.2.1 多元线性回归模型 9.2.2 回归参数的估计 9.2.3 回归方程的显著性检验 9.2.4 回归系数的显著性检验,多元线性回归模型 (概念要点),一个因变量与两个及两个以上自变量之间的回归 描述因变量 y 如何依赖于自变量 x1 , x2 , xp 和误差项 的方程称为多元线性回归模型 涉及 p 个自变量的多元线性回归模型可表示为,b0 ,b1,b2 ,bp是参数 是被称为误差项的随机变量 y 是x1,,x2 , ,xp 的线性函数加上误差项 说明了包含在y里面但不能被p个自变量的线性关系所解释的变异性,多元线性回归模型(基本
13、假定),自变量 x1,x2,xp是确定性变量,不是随机变量 随机误差项的期望值为0,且方差2 都相同 误差项是一个服从正态分布的随机变量,即N(0,2),且相互独立,多元线性回归方程 (概念要点),描述 y 的平均值或期望值如何依赖于 x1, x1 ,xp的方程称为多元线性回归方程 多元线性回归方程的形式为 E( y ) = 0+ 1 x1 + 2 x2 + p xp,b1,b2,bp称为偏回归系数 bi 表示假定其他变量不变,当 xi 每变动一个单位时,y 的平均平均变动值,多元线性回归方程的直观解释,多元线性回归的估计(经验)方程,总体回归参数 是未知的,利用样本数据去估计,用样本统计量
14、代替回归方程中的 未知参数 即得到估计的回归方程,是 估计值 是 y 的估计值,参数的最小二乘法,根据最小二乘法的要求,可得求解各回归参数 的标准方程如下,使因变量的观察值与估计值之间的离差平方和达到最小来求得 。即,回归方程的显著性检验,多重样本决定系数 (多重判定系数 R2 ),回归平方和占总离差平方和的比例,反映回归直线的拟合程度 取值范围在 0 , 1 之间 R2 1,说明回归方程拟合的越好; R20,说明回归方程拟合的越差 等于多重相关系数的平方,即R2=(R)2,修正的多重样本决定系数 (修正的多重判定系数 R2 ),由于增加自变量将影响到因变量中被估计的回归方程所解释的变异性的数
15、量,为避免高估这一影响,需要用自变量的数目去修正R2的值 用n表示观察值的数目,p表示自变量的数目,修正的多元判定系数的计算公式可表示为,回归方程的显著性检验 (线性关系的检验 ),检验因变量与所有的自变量和之间的是否存在一个显著的线性关系,也被称为总体的显著性检验 检验方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用 F 检验来分析二者之间的差别是否显著 如果是显著的,因变量与自变量之间存在线性关系 如果不显著,因变量与自变量之间不存在线性关系,回归方程的显著性检验 (步骤),提出假设 H0:12p=0 线性关系不显著 H1:1,2,p至少有一个不等于0,2. 计算检
16、验统计量F,3. 确定显著性水平和分子自由度p、分母自由度n-p-1找出临界值F 作出决策:若FF ,或P , 接受H0,回归系数的显著性检验,如果F检验已经表明了回归模型总体上是显著的,那么回归系数的检验就是用来确定每一个单个的自变量 xi 对因变量 y 的影响是否显著 对每一个自变量都要单独进行检验 应用 t 检验 在多元线性回归中,回归方程的显著性检验不再等价于回归系数的显著性检验,回归系数的显著性检验 (步骤),提出假设 H0: bi = 0 (自变量 xi 与 因变量 y 没有线性关系) H1: bi 0 (自变量 xi 与 因变量 y有线性关系) 计算检验的统计量 t,确定显著性水
17、平,并进行决策 tt,或P , 接受H0,一个二元线性回归的例子,【例】一家百货公司在10个地区设有经销分公司。公司认为商品销售额与该地区的人口数和年人均收入有关,并希望建立它们之间的数量关系式,以预测销售额。有关数据如下表。试确定销售额对人口数和年人均收入的线性回归方程,并分析回归方程的拟合程度,对线性关系和回归系数进行显著性检验(=0.05)。,一个二元线性回归的例子spss 输出的结果),销售额与人口数和年人均收入的二元回归方程为:,9.3 逐步回归,基本思想是: 在考虑Y对一群变量(X1,X2,Xk)回归时,从变量(X1,X2,Xk)中,逐步选出对已解释变差的贡献最大的变量,进入回归方
18、程. 判别依据: 统计量Fj的值fj最大的xj,先进入方程,最后一个进入方程的变量也应满足P ,9.4 spss在回归中的应用,9.4.1 自变量强行进入的回归 9.4.2 逐步回归,回顾6项基本假定,(1)解释变量间不相关(无多重共线性) (2)E(ui)=0 (随机项均值为零) (3)Var(ui)=2 (同方差) (4)Cov(ui, uj)=0(随机项无自相关) (5)Cov(X, ui)=0(随机项与解释变量X不相关) (6)随机扰动服从正态分布。,不满足基本假定的情形(1),1、通常不会发生随机扰动项均值不等于0的情形。若发生也不会影响解释变量的系数,只会影响截距项。 2、随机扰动
19、项正态性假设一般能够成立,就算不成立,在大样本下也会近似成立的。所以不讨论此假定是否违背。,不满足基本假定的情形(2),3、解释变量之间相关=多重共线 4、随机扰动项相关=序列自相关 时间序列数据经常出现序列相关 5、随机扰动项方差不等于常数=异方差 截面数据时,经常出现异方差,多重共线性的定义,多重共线性:在多元线性回归模型中,解释变量之间存在着完全的线性关系或近似的线性关系,完全多重共线性,近似多重共线性,4.2 多重共线性的后果,(1)参数估计值不确定; (2)参数估计值的方差无限大;,多重共线性的识别与处理,实际运用中多重共线性主要有以下几种类型表现: (1)整个模型的方差分析检验结果
20、为P。 (2) 专业上认为应该有统计学意义的自变量检验结果却无统计学意义。 (3) 自变量的偏回归系数取值大小甚至符号明显与实际情况相违背,难以解释。 (4) 增加或删除一个自变量或一条记录,自变量偏回归系数发生较大变化。,以上情况最终使得所得到的线性回归模型,特别是其中的偏回归系数难以有合乎专业知识的解释。对于多重共线性的识别,可以通过以下统计量: (1)容忍度(Tolerance) : 是解释变量 与其他解释变量间的复相关系数的平方,表明了解释变量之间的线性相关程度。 容忍度取值在0-1之间,越接近于0表示多重共线性越强,越接近于1表示多重共线性越弱,(2) 方差膨胀因子(Variance inflation factor , VIF): 等于容忍度的倒数。显然,VIF 越大,多重共线性问题越大。 通常,VIF 大于等于10 ,说明解释变量之间有严重的多重共线性。,(3) 特征根CEigenvalue) :对模型中常数项及所有自变量计算主成分,如果自变量问存在较强的线性相关关系,则前面的几个主成分数值较大,而后面的几个主成分较小,甚至接近0。 (4) 条件指数(Condition Index) :等于最大的主成分与当前主成分的比值的算术平方根。所以第一个主成分相对应的条件指数总为1 。同样,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 江西省南昌市2026届九年级上学期期末测试道德与法治试卷(含答案)
- 黑龙江省齐齐哈尔市部分学校2025-2026学年高一上学期1月期末英语试卷(含答案)
- 福建省宁德市2025-2026学年高三上学期期末考试语文试题(含答案)
- 马上有喜市-2026马年游园打卡、年货大集
- 有限空间作业安全培训
- 钢柱安装技术操作要领
- 钢结构工程验收标准解析
- 2026年铜陵市中医医院招聘5名护理人员笔试备考试题及答案解析
- 2026广州银行人才招聘笔试备考题库及答案解析
- 2026广东佛山市顺德区均安镇国资企业副总经理岗位招聘4人备考考试试题及答案解析
- 河南省郑州市河南省实验小学小学英语六年级小升初期末试卷(含答案)
- 土方工程施工安全管理规范
- 五年级上册道法期末模拟试卷及答案
- 烟花爆竹经营零售申请书
- 生产车间文员年终总结
- 《鲤鱼的遇险》读书分享
- 融媒体中心党支部2025年前三季度党建工作总结范文
- 2025急诊监护室CRRT相关知识考试试题及答案
- 雨水收集利用方案
- 自动扶梯应急预案演练计划(3篇)
- 1000立方米高性能聚甲基丙稀酰亚胺(PMI)泡沫新材料技改项目可行性研究报告模板-立项备案
评论
0/150
提交评论