




已阅读5页,还剩11页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第七章线性回归分析 管理中经常要研究变量与变量之间的关系,并据以做出决策。前面介绍的检验可以确定两个变量之间是否存在着某种统计关系,但是如果检验说明两个变量之间存在着某种关系,我们还是不能说明它们之间究竟存在什么样的关系。本章介绍的回归分析能够确定两个变量之间的具体关系和这种关系的强度。回归分析以对一种变量同其他变量相互关系的过去的观察值为基础,并在某种精确度下,预测未知变量的值。社会经济现象中的许多变量之间存在着因果关系。这些变量之间的关系一般可以分为两类:一类是变量之间存在着完全确定的关系,即一个变量能被一个或若干个其他变量按某种规律唯一地确定,例如,在价格P确定的条件下,销售收入Y与所销售的产品数量之间的关系就是一种确定性的关系:YPX。另一类是变量之间存在着某种程度的不确定关系。例如,粮食产量与施肥量之间的关系就属于这种关系。一般地说,施肥多产量就高,但是,即使是在相邻的地块,采用同样的种子,施相同的肥料,粮食产量仍会有所差异。统计上我们把这种不确定关系称为相关关系。确定性关系和相关关系之间往往没有严格的界限。由于测量误差等原因,确定性关系在实际中往往通过相关关系表现出来;另一方面,通过对事物内部发展变化规律的更深刻的认识,相关关系又可能转化为确定性关系。两个相关的变量之间的相关关系尽管是不确定的,但是我们可以通过对现象的不断观察,探索出它们之间的统计规律性。对这类统计规律性的研究就称为回归分析。回归分析研究的主要内容有:确定变量之间的相关关系和相关程度,建立回归模型,检验变量之间的相关程度,应用回归模型进行估计和预测等。第一节一元线性回归分析一、问题的由来和一元线性回归模型例7-1。某地区的人均月收入与同期某种耐用消费品的销售额之间的统计资料如表7-1所示。现要求确定两者之间是否存在相关关系。表7-1年份1987198819891990199119921993199419951996人均收入 1.61.82.33.03.43.84.54.85.25.4销售额(百万元) 4.75.97.08.210.5121313.51415 如果作一直角坐标系,以人均收入为横轴,销售额为纵轴,把表7-1中的数据画在这个坐标系上,我们可以看出两者的变化有近似于直线的关系,因此,可以用一元线性回归方程,以人均收入为自变量,以销售额为因变量来描述它们之间的关系。即: =+ 其中:是因变量Y的第i个观察值, 是自变量X的第i个观察值 与是回归系数,n是样本容量,为对应于Y的第i个观察值的随机误差,这是一个随机变量。在上述线性模型中,自变量X是个非随机变量,对于X的第i个观察值,Y的观察值是由两个部分所组成的:和,前者是一个常数,后者是一个随机变量,所以也是一个随机变量。 对于上述回归模型中的随机误差要求满足如下的假设条件:1、应当是服从正态分布的随机变量,即满足“正态性”的假设。2、的均值为零,即E()0,我们称满足“无偏性”的假设。3、的方差等于=,这就是说,所有的分布的方差都相同,即满足“共方差性”的假设。4、各个间相互独立,即对于任何两个随机误差和其协方差等于零,即,Cov(,)=0, )这称之为满足“独立性”的假设。综上所述,随机误差必须服从独立的相同分布。基于上述假定,随机变量的数学期望和方差分别是:E()=+= 由此:N(+,) 这就意味着,当X=时,是一个服从正态分布的随机变量的某一个取值。如果不考虑式中的误差项,我们就得到简单的式子: =+ 这一式子称为Y对X的回归方程。依据这一方程在直角坐标系中所作的直线就称为回归直线。 二、模型参数的估计和估计平均误差 1、回归参数的估计回归模型中的参数与在一般情况下都是未知数,必须根据样本数据(,)来估计。确定参数与值的原则是要使得样本的回归直线同观察值的拟合状态最好,即要使得偏差最小。为此,可以采用“最小二乘法”的办法来解决。对应于每一个,根据回归直线方程(7-1)可以求出一个,它就是的一个估计值。估计值和观察值之间的偏差。有n个观察值就有相应的n个偏差。要使模型的拟合状态最好,就是说要使n个偏差的总和最小。但为了计算方便起见,我们以误差的平方和最小为标准来确定回归模型。这就要求是个极小值。根据微积分中的极值定理,要使上式取极值,其对与所求的偏导数应为0,即 经整理后可得: 解上式,可得: 记。 于是,得到参数与的简单表达形式如下: 求出参数与以后,就可以得到回归模型 由此,只要给定了一个值,就可以根据回归模型求得一个来作为实际值的预测值。2、估计平均误差的计算 对于给定的,根据回归模型就可以求出的预测值。但是用 来预测的精度如何,产生的误差有多大是统计上所关心的。统计上用估计平均误差这个指标来度量回归方程的可靠性,对回归方程进行评价。估计平均误差可以用第一章中所述的度量一组观察值的离差的方法来度量。但是这次估计平均误差是根据观察值与回归直线的偏离来计算的。一个回归模型的估计平均误差或剩余标准离差由下式定义:值得注意的是上式中分母是用而不是或去除,这是因为个观察值的数据点用于计算参数与时失去了2个自由度,还余下个自由度。 运用估计平均误差可以对回归方程的预测结果进行区间估计。若观察值围绕回归直线服从正态分布,且方差相等,则有68.27%的点落在的范围内,有95.45%的点落在2的范围内,有99.73% 的点落在3的范围内。 三、回归模型的检验回归方程建立以后还需要检验变量之间是否确实存在线性相关关系,因为对回归参数的求解过程并不需要事先知道两个变量一定存在相关关系。对一元线性回归模型的统计检验包括两个内容:一是线性回归方程的显著性检验,二是对回归系数进行统计推断。 下面我们分别讨论这两个问题。 (一)线性回归方程的显著性检验1、方差分解回归分析中需要分析使用Y与X之间的线性相关关系的估计模型来估计时所产生的误差和所减少的误差,这称为回归中的方差分析。若没有利用Y与X之间的相关关系来估计总体的均值,我们就会选择的平均值作为总体的估计值。由此而产生的误差是,我们称之为“总离差平方和”,记为SST。若利用Y与X之间的线性相关关系的估计模型去估计总体均值,则所产生的误差是: ,我们称之为残差平方和,记为SSE。为了说明SST与SSE之间的关系,我们对SST进行分解。 若记SSR= SSE=则SST = SSR + SSE 图7-1:三种误差之间的关系SSR反映了由于利用Y和X之间的线性回归模型来估计Y的均值时,而不是简单地利用来估计Y的均值时,使得总误差SST减少的部分,因此统计上称之为“可解释误差”。 SSE是利用Y与X之间的线性回归模型来估计Y的均值时仍然存在的误差,因此称之为“不可解释误差”。于是,上式实际上就表示:总误差可解释误差不可解释误差 图7-1直观地表示了三种误差之间的相互关系。2、相关分析对于任何给定的一组样本()( i =1,2,n )都可以用最小二乘法建立起一个线性回归模型,相应地就可以得到一条回归直线。但是,这样的一条回归直线并不是总有意义的。只有当变量X与Y之间确实存在某种因果关系时,其回归直线才有意义。统计学中要确定变量X和Y之间是否确实存在线性相关,通常利用相关系数来检验。相关系数记作或,它能够较精确地描述两个变量之间线性相关的密切程度。相关系数可以定义为可解释误差SSR 和总误差SST之比,即: = SSRSST=1 - SSESST它反映了由于使用了Y与 X之间线性回归模型来估计 的均值而使离差平方和SST 减少的程度,从而表明Y与 X之间线性相关程度及拟合模型的优良程度。与SSR 成正比。越大,说明Y与X之间的线性相关程度越高,也就说明模型的拟合性能较优;越小,说明Y与X之间的线性相关程度越低,说明模型的拟合性能较差。当相关系数用来表示时不仅可以测定 Y与 X之间的相关程度,而且也可以表示相关的方向。事实上,相关系数也可以定义为:从上述两个公式计算所得到的结果完全相同,意义也相同。但从计算时为:要确定的符号,就需要利用以下的关系:由此可见,与同号,可以根据的符号来决定的符号。从的计算公式可以看出:总是界于0与1之间的,即01。如果,则SST=SSR,SSE=0,此时,=1。这时称为完全线性相关,模型的拟合程度最优。用Y与X之间的线性回归模型来估计时的总离差和完全可以用SSR来解释。如果,则SST=SSE,SSR=0,因此,=0。这时,使用Y与X之间的线性回归模型没有能对任何的总离差平方和SST作出任何解释,说明Y与X之间事实上无线性相关,模型的拟合程度最差。对的不同的具体值,Y与X之间的相关关系分析如下: 1)当=1时,称为完全线性正相关;当=-1时,称为完全线性负相关。 2)当00时称Y与X正相关。当,则拒绝零假设。我们认为X与Y之间存在线性相关关系,否则接受,认为X与Y之间没有线性相关关系。 4、t检验尽管相关系数是对变量Y与x之间的线性关系密切程度的一个度量,但是相关系数是根据样本数据计算得到的,因而具有一定的随机性,样本容量越小,其随机性就越大。因此也需要通过样本相关系数对总体的相关系数作出推断。由于相关系数的分布密度函数比较复杂,实际应用中需要对作变换。令 则统计量t服从t(n-2)分布。于是关于总体是否线性相关的问题就变成对总体相关系数=0的假设检验,也就只要对统计量t进行t检验就行了。根据一组样本计算出上述t值,再根据问题所给定的显著性水平和自由度n-2,查t分布表,找到相应的临界值。若 表明t在统计上是显著的,即总体的两个变量间存在线性关系。否则就认为两个变量间不存在线性关系。 5、DW检验回归模型中假设Cov(,)=0,即随机项是独立的。这一假设是否成立,可以通过回归模型的误差序列是否相互独立来进行检验。若误差序列各项间相互独立,则序列各项之间没有相关关系。若序列各项之间有相关关系,误差序列不满足线性回归模型的基本假设,回归模型就不能表达变量Y与X之间的真实变动关系。DW(Durbin-Watson)检验可以检验残差序列的相关性。其检验办法如下: 1)计算误差序列的d统计量(DW值) d 2)根据给定的显著性水平(通常为=0.05或0.01),自变量个数k和样本数据个数n,查D、W表,得到d的下限值和上限值。 3)判断。若 d4-d则残差序列无自相关,各项间相互独立; 若0d 或 4-dE(MSE)。因此,如果正确,F值将接近于1;如为假,则F值将大大超过1。 3)判断是否成立。当显著性水平确定为,自由度为K和N-K-1时,查F分布表得。如果F,则拒绝。说明Y与K个X之间总的来说存在显著性相关,接受。说明Y与K个X之间不存在显著性相关。 2、偏相关的F检验 偏相关检验的目的在于检验新加入模型的X是否与Y存在显著的线性相关。通过总相关的F检验表明Y与K个自变量X在整体上存在显著的线性相关,但并不意味着各个X都与Y存在显著的线性相关,偏相关是检验在Y与(K-1)个X存在显著的线性相关的条件下,是否与Y存在显著的线性相关,即进入模型后对减少模型的残差平方和是否有显著的作用。 偏相关检验的步骤是: 1)提出原假设: 备择假设: 上述假设也可写作:=0,: 2)计算检验统计量F: 3)判断是否成立。当显著性水平为时,查F分布表求出(分子自由度为1,分母自由度为N-K-1)。如果F,则拒绝原假设,说明Y与之间存在显著偏相关,反之,接受原假设,说明Y与之间不存在显著偏相关。 四、多元回归模型的残差分析 前面关于回归模型的参数估计和检验都是建立在一系列的理论假设基础之上的,但是在实际问题中,总体的实际情况是否与基本假设相符还需要验证。此时最简单的方法就是残差散点图分析。 1、线性与非线性 前面所讨论的回归模型都是假设与之间存在线性相关关系,然后应用样本数据建立起它们之间的线性回归模型的。但是如果总体中Y与之间的相关关系并非是线性的,则模型的假设就不成立。应用模型来进行估计和预测就不可能得出有用的结果。要检验Y与之间是否存在线性相关关系,可以用残差散点图来分析残差=(-)的散布情况。我们以残差为纵座标,以估计值为横座标,在直角座标系上依次绘出点(,)。分析观察点的散布情况。如果观察点随机地散布在横线=0的周围,说明总体符合线性相关关系的假设是正确的。如果观察点的散布显示一定的规律性或系统性,则说明总体变量不符合线性相关关系的假设。图7-2就是用来分析线性与非线性的一个残差散点图。 如果总体变量不符合线性相关关系的假设则应根据具体情况重新建立模型。此时可考虑建立合适的非线性模型。对于某些非线性模型可以进行变量转换,转换成线性模型再重新进行估计。 图7-2 线性与非线性的残差散点图比较 2、共方差与异方差在建立线性回归模型时,我们假设随机误差具有相同的方差,即共方差。我们也可以通过残差散点图来验证总体是否符合共方差性的假设。以残差为纵座标,以估计值为横座标,在直角座标系上依次绘出点(,)。分析观察点的散布情况。如果观察点随机地散布横线=0的周围,说明总体基本符合共方差性的假设。如果观察点随 的增大而扩散或聚集,说明总体不符合共方差性的假设。图7-3就是用来分析共方差与异方差的一个残差散点图。 图7-3 共方差与异方差的残差散点图比较如果总体出现异方差迹象就需要通过采用适当的变量转换可望使方差趋于稳定,再利用回归模型进行估计和预测。 3、独立与非独立回归模型还假设随机误差之间相互独立,即Cov(,)=0 。我们也可以通过残差散点图来验证总体是否符合独立性的假设。以残差为纵座标,以估计值为横座标,在直角座标系上依次绘出点(,)。对于与时间有关的样本数据则最好以时间t为横轴。分析观察点的散布情况。如果观察点随机地、无规则地散布在横线=0的周围,说明总体基本符合独立性的假设。如果观察点在横线=0的周围显示出周期性或趋势性的变化,则说明总体不符合独立性的假设。图7-4就是用来分析独立与非独立的一个残差散点图。 图7-4 独立与非独立的残差散点图比较 如残差散点图显示残差之间不独立,则可以寻求把合适的自变量加入模型以消除残差的非独立现象。如果这一办法仍无法消除残差间的非独立性,则可以采用“一价差分法”,做变量转换,然后重新估计模型的参数。 4、正态与非正态回归模型还假设随机误差服从正态分布。要检验总体残差是否满足正态分布的要求要通过建立标准残差的直方图来检验。从理论上说,应服从标准正态分布,即 。所以应有近50%的为正,50%的为负;68%的落在-1与+1之间,96%的落在-2与+2之间。如果画出标准残差的直方图则应如图7-5的标准正态残差分布图所示。若这一条件满足就说明总体基本符合正态性的假设。如果样本的容量不大时,在理论上应服从于自由度为(N-K-1)的t分布。所以,对应于(N-K-1)的t分布,如果有50%的值位于和之间,有95%的值位于和之间,说明总体基本符合正态性的假设。 图7-5 标准正态残差分布图 5、多重共线性在应用回归模型时,如果自变量中有两个或两个以上的自变量之间存在着线性或几乎完全线性相关的关系就会产生多重共线性现象。在多重共线性现象的情况下用最小二乘法估计模型的参数就会不稳定。此时当模型中增加或减少一个变量时已在模型中的变量的系数也会变化。在多重共线性现象较严重的情况下,解释回归参数估计量的含义就没有什么实际意义了,而且会引起误导或导致错误的结论。如果自变量完全线性相关,那么,其参数就成为不确定的了。当然,也不能要求自变量之间完全不相关,即相关系数为零。此时,变量为正交变量,这时就不必用复回归方法求参数了,每个参数可以用相应的自变量作简单回归来估计即可。事实上,这两种极端是很少遇到的。大多数情况下,自变量之间存在一定程度的相关关联。实际上在多重共线性现象不太严重时,并不会影响回归模型的估计和预测的准确性。解决多重共线性问题的方法是剔除一些重复变量重新进行估计。练习题7-1 零售商为了解每周的广告费与销售额之间的关系,记录了如下统计资料:广告费X(万) 40 20 25 20 30 50 40 20 50 40 25 50销售额Y(百万) 385 400 395 365 475 440 490 420 560 525 480 510画出散点图,并在Y对X回归为线性的假定下,用最小二乘法算出一元回归方程。7-2 下表是经济发展水平不同的八个国家人均年能源消耗量(折合成标准煤,单位kg)和人均年国民生产总值的数据。试求(1) Y对X的线性回归方程;(2) 对所求方程作显著性检验(显著性水平为0.05)(3) 对人均年生产总值3000美元的国家预测其人均年能源消耗量的范围()。 7-3 设对
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 100MW渔光互补光伏电站建筑工程方案
- 灌溉排涝工程现场施工协调与调度方案
- 基于数字孪生的预测性维护-洞察与解读
- 市政管网施工环境污染防治方案
- 铅锌选矿厂项目技术方案
- 项目进度控制与调整方案
- 氟硼酸钾生产线项目施工方案
- 娱乐场地项目合作协议范本
- 研发费用结构明细模板说明
- 普通话推广活动策划及演讲稿范例
- 2025年福建福州长乐机场海关辅助人员公开招聘10人笔试带答案详解
- 山东颐养健康产业发展集团有限公司2026届高校毕业生校园招聘(463人)考试模拟试题及答案解析
- 纺织行业工人安全培训课件
- 【高考真题】陕西、山西、宁夏、青海2025年高考历史真题(含解析)
- 宣威课件教学课件
- 2025-2026学年人教版八年级历史上册期中综合检测试卷(含解析)
- 2025年浙江高考真题化学试题(解析版)
- GB/T 42125.13-2025测量、控制和实验室用电气设备的安全要求第13部分:实验室用热原子化和离子化的原子光谱仪的特殊要求
- 四川省宜宾丽彩集团有限公司招聘笔试题库2025
- 肝癌中医护理查房
- GB/T 45817-2025消费品质量分级陶瓷砖
评论
0/150
提交评论