版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第十二章第十二章 线性回归分析线性回归分析授课教师:程晓谟授课教师:程晓谟主要内容主要内容1 一元线性回归的基本思路和步骤一元线性回归的基本思路和步骤2 多元线性回归多元线性回归3 SPSS的线性回归操作的线性回归操作什么是回归分析?什么是回归分析?(Regression)n从样本数据出发,确定变量的;n对关系式的可信程度进行统计检验,找到影响某一特定变量;n根据变量的取值来另一个特定变量的取值,并给出这种预测或控制的精确程度;回归分析的一般步骤回归分析的一般步骤重点内容重点内容一元线性回归一元线性回归n涉及一个自变量的回归;n因变量y与自变量x之间为线性关系;:被预测或被解释的变量,用y表示
2、。:预测或解释因变量的一个或多个变量,用x表示 。n因变量与自变量之间的关系用一条线性方程来表示;一元回归的例子一元回归的例子是否会显著影响;是否会影响到;是否对有显著影响;是否对有显著影响;一元线性回归模型一元线性回归模型n描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型回归模型n一元线性回归模型: y = b b0 0 + + b b1 1 x + + y 是 x 的线性函数(部分)加上误差项线性部分反映了由于 x 的变化引起的 y 的变化误差项 是随机变量l反映了除 x 和 y 之间线性关系之外的随机因素对 y 的影响l是不能由 x 和 y 之间的线性关系所解释的变异性
3、一元线性回归模型一元线性回归模型(基本假定基本假定) n误差项是期望值为0的随机变量,即E()=0。n对于一个给定的 x 值,y 的期望值为 E ( y ) =b b 0+ b b 1 xn对于所有的 x 值,的方差2 都相同n误差项协方差等于零,即i和j相互独立(ij);n误差项是服从正态分布的随机变量,且相互独立。即N( 0 ,2 )回归方程回归方程 (regression equation)如何依赖于 x 的方程称为回归方程;回归方程;n一元线性回归方程的形式如下: E( y ) = b b0+ b b1 x方程表示一条直线,也称为直线回归方程;,是当 x=0 时 y 的期望值;估计的回
4、归方程估计的回归方程(estimated regression equation)n一元线性回归中估计的回归方程为:n用样本统计量 和 代替回归方程中的未知参数 和 ,就得到了估计的回归方程;估计的回归方程;n总体回归参数 和 是未知的,必须利用样本数据去估计;其中: 是估计的回归直线在 y 轴上的截距, 是直线的斜率,它表示对于一个给定的 x 的值, 是 y 的估计值,也表示 x 每变动一个单位时, y 的平均变动值 。普通最小二乘法估计普通最小二乘法估计(OLS:Ordinary Least Square)n使因变量的观察值与估计值之间的离差平方和达到最小来求得 和 的方法。即n用最小二乘
5、法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小0b1b最小二乘估计最小二乘估计(图示图示) 最小二乘法最小二乘法 ( 和和 的计算公式的计算公式)一元回归方程一元回归方程统计检验的主要内容统计检验的主要内容变差变差n因变量 y 取值的波动称为变差n变差来源于两个方面:由于自变量 x 的取值不同造成;除 x 以外的其他因素(如测量误差等)的影响;n对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示。变差的分解变差的分解(图示图示) y离差平方和的分解离差平方和的分解 (三个平方和的意义三个平方和的意义)n总平方和总平方和(SST)反映因变量的 n 个
6、观察值与其均值的;n回归平方和回归平方和(SSR)反映自变量 x 的变化对因变量 y 取值变化的影响,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为n残差平方和残差平方和(SSE)反映除 x 以外的其他因素对 y 取值的影响,也称为;离差平方和的分解离差平方和的分解 (三个平方和的关系三个平方和的关系) 判定系数判定系数R2 (coefficient of determination)线性关系的检验线性关系的检验n检验所有自变量所有自变量与因变量之间的线性关系是否显著;n将均方回归 (MSR)同均方残差 (MSE)加以比较,应用F检验来分析二者之间的差别是否显著;均方回归:回
7、归平方和SSR除以相应的自由度(自变量的个数K) ;均方残差:残差平方和SSE除以相应的自由度(n-k-1)。线性关系的检验线性关系的检验 (检验的步骤检验的步骤) n提出假设H0:b1=0 所有回归系数与零无显著差异,y与全体x的线性关系不显著线性关系的检验线性关系的检验 (sig值检验值检验)nSig值小于小于显著性水平a,拒绝零假设认为所有回归系数与零存在显著差异,被解释变量y与解释变量x的线性关系显著,可以用线性模型描述它们之间的关系;nSig值大于大于显著性水平a,不应拒绝零假设说明用线性模型描述x和y之间的关系是不恰当的。n检验回归方程中的x与被解释变量y之间是否存在显著的线性关系
8、;。回归系数的显著性检验回归系数的显著性检验回归系数的检验回归系数的检验(样本统计量样本统计量 的分布的分布)1221()eiissxxnb1221()iixxnb2()1iieyysMSEnk回归系数的检验回归系数的检验 (检验步骤检验步骤) n提出假设H0: b1 = 0 (没有线性关系) H1: b1 0 (有线性关系) n计算检验的统计量利用回归方程进行估计和预测利用回归方程进行估计和预测n 根据自变量 x 的取值估计或预测因变量 y的取值n 估计或预测的类型点估计ly 的平均值的点估计ly 的个别值的点估计区间估计ly 的平均值的置信区间置信区间估计ly 的个别值的预测区间预测区间估
9、计多元回归模型多元回归模型 (multiple regression model)n一个因变量与的回归;n描述因变量 y 如何依赖于自变量 x1 , x2 , xk 和误差项 的方程,称为多元回归模型;n涉及 p 个自变量的多元回归模型可表示为b0 ,b1,b2 ,bk是参数 是被称为误差项的随机变量 y 是x1,,x2 , ,xk 的线性函数加上误差项 是y不能被k个自变量的线性关系所解释的变异性多元回归模型多元回归模型(基本假定基本假定) n误差项是一个期望值为0的随机变量,即E()=0;n对于自变量x1,x2,xk的所有值,的方差2都相同;n误差项是一个服从正态分布的随机变量,即N(0,
10、 2),且相互独立;多元回归方程多元回归方程 (multiple regression equation)n描述因变量 y 的平均值或期望值如何依赖于自变量 x1, x2 ,xk的方程n多元线性回归方程的形式为n E( y ) = b b0+ b b1 x1 + b b2 x2 + b bk xk b1,b2,bk称为偏回归系数 bi 表示假定其他变量不变,当 xi 每变动一个单位时,y 的平均变动值调整的多重判定系数调整的多重判定系数(adjusted multiple coefficient of determination) n用样本容量n和自变量的个数k去修正R2得到 n计算公式为n避
11、免增加自变量而高估 R2n意义与 R2类似n数值小于R2线性关系检验线性关系检验n提出假设H0:b1b2bk=0 线性关系不显著H1:b1,b2,bk至少有一个不等于0n计算检验统计量Fn确定显著性水平和分子自由度k、分母自由度n-k-1找出临界值F n作出决策:若FF ,拒绝H0回归系数的检验回归系数的检验(步骤步骤)n提出假设H0: bi = 0 (自变量 xi 与 因变量 y 没有线性关系) H1: bi 0 (自变量 xi 与 因变量 y有线性关系) n计算检验的统计量 tn 确定显著性水平,并进行决策 tt2,拒绝H0; tt2,不能拒绝H0多元回归分析中的其他问题多元回归分析中的其
12、他问题多重共线性多重共线性(multicollinearity)n回归模型中两个或两个以上的自变量彼此相关的现象。n多重共线性带来的问题有 回归系数估计值的不稳定性增强;回归系数假设检验的结果不显著等。n多重共线性检验的主要方法容忍度方差膨胀因子(VIF)容忍度容忍度n容忍度nRi是解释变量xi与方程中其他解释变量间的复相关系数;n容忍度在01之间,越接近于0,表示多重共线性越强,越接近于1,表示多重共线性越弱。2Tol1iiR 方差膨胀因子方差膨胀因子n方差膨胀因子是容忍度的倒数nVIFi越大,特别是大于等于10,说明解释变量xi与方程中其他解释变量之间有严重的多重共线性;nVIFi越接近1
13、,表明解释变量xi和其他解释变量之间的多重共线性越弱。21VIF1iiR变量的筛选问题变量的筛选问题n回归方程中到底引入多少解释变量xn变量的筛选策略向前筛选策略(Forward);向后筛选策略(Backward);。向前筛选策略(向前筛选策略(Forward)n解释变量x不断进入回归方程的过程;n首先,选择与y具有最高线性相关系数的变量进入方程,进行回归方程的各种检验;n然后,在剩余变量中寻找与当前解释变量偏相关系数最高且通过检验的变量进入方程;n该过程一直重复,直到用尽所有的自变量。向后筛选策略(向后筛选策略(Backward)n变量不断剔除出回归方程的过程;n首先,所有自变量全部引入回归
14、方程,对回归方程进行检验;n然后,在回归系数显著性不高的变量中,剔除t检验值最小的自变量,重新检验新的回归方程;n如果新建回归方程中所有变量的回归系数检验都显著,则回归方程建立结束。n否则重复第二步,直到再没有可剔除的变量。逐步筛选策略(逐步筛选策略(Stepwise)n也叫逐步回归n在向前筛选策略的基础上,结合向后筛选策略,在每个变量进入方程后再次判断是否存在应该剔除出方程的变量。一元回归:自变量强行一元回归:自变量强行进入的回归进入的回归n使用SPSS的“Analyze Regression linear”模块分析n数据文件:例11.6.sav因变量因变量被解释变量被解释变量Y自变量自变量
15、解释变量解释变量X解释变量的筛选策略解释变量的筛选策略Enter 所选变量强行进入所选变量强行进入回归方程;回归方程;Stepwise逐步回归策略;逐步回归策略; Remove从回归方程中从回归方程中剔除所选变量;剔除所选变量;Backward向后筛选策略;向后筛选策略;Forward向前筛选策略;向前筛选策略;输出回归系数、回归系数输出回归系数、回归系数标准误差、标准化回归系数、标准误差、标准化回归系数、回归系数显著性检验回归系数显著性检验一元回归的拟合优度一元回归的拟合优度R2一元回归只需要一元回归只需要看此项即可看此项即可拟合优度为拟合优度为0.712,模型的总体拟合,模型的总体拟合情况
16、较好情况较好SSTSSESSRSig值小于显著性水平,拒绝回归方程显著性值小于显著性水平,拒绝回归方程显著性检验的零假设,认为各回归系数不同时为零。检验的零假设,认为各回归系数不同时为零。非标准化的回归系数非标准化的回归系数回归系数的标准误差回归系数的标准误差标准化回归系数标准化回归系数解释变量解释变量“各项贷款余额各项贷款余额”的的sig值小于显著性水平值小于显著性水平a,表明该解释变量的回归系数与零有显著差异;表明该解释变量的回归系数与零有显著差异;0.8300.038YX +非标准化回归方程:标准化回归方程:0.844YX多元回归:自变量强行多元回归:自变量强行进入的回归进入的回归n使用SPSS的“Analyze Regression linear”模块分析n数据文件:例11.6.sav多元线性回归模型 01 1223344+yxxxxbbbbb+多重共线性检验多重共线性检验调整的多重判定系数调整的多重判定系数多元回归的拟合优度检验看这一项,多元回归的拟合优度检验看这一项,调整的多重判定系数为调整的多重判定
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《JBT 5883.2-1991电控设备图样及技术文件 图样的基本要求》专题研究报告
- 2026年福建事业单位招聘(职业能力测验)考试题库及答案
- 人教版一年级下册第四单元《100以内的口算加、减法》模拟测试卷(含答案解析)
- 2026年导游资格证考试题库及答案
- 国际经贸关系的变化及影响分析报告
- 城市规划与管理策略研究报告
- 动漫在心理健康领域的应用研究
- (2025年)安徽省六安市综合类事业单位招聘考试公共基础知识真题试卷及参考答案
- 2026年全国大学生物流设计大赛理论考核模拟卷及答案
- 2026重庆市永川区仙龙镇人民政府招聘非全日制公益性岗位人员3人备考题库附参考答案详解(达标题)
- 2025至2030年中国演出服务行业市场行情监测及发展前景研判报告
- 老年照护复习题+答案
- 2024年山东地区光明电力服务公司招聘笔试真题
- 《脑出血护理查房范例》课件
- 售电业务居间服务合同协议
- led显示屏安装协议合同书
- 中国地域性文化课件
- 2025至2030中国超导市场发展现状与前景展望预测研究报告版
- 植物化学保护试题及答案
- 毕业设计(论文)-AGV搬运机器人设计-AGV小车
- 2024年浙江出版联团招聘真题
评论
0/150
提交评论