残差分析--数据分析_第1页
残差分析--数据分析_第2页
残差分析--数据分析_第3页
残差分析--数据分析_第4页
残差分析--数据分析_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2.3残差分析,前面讨论的是线性回归模型的参数估计和相关的统计推断。这些讨论都是基于模型的某些假设,其中最重要的是回归关系的线性假设和误差项独立正态分布的假设。当给定一批数据时,检验这些数据如何满足假设是回归分析的一个重要部分。这些假设包含误差项,并且误差是不可测量的,因此我们可以使用其估计量的残差。2.3.1误差项的正态性检验,1。学生的残差,从误差估计值(残差)分析误差项假设的合理性和线性回归关系假设的可行性,称为残差分析。如果假设误差向量,那么剩余向量,其中h是一个N阶对称幂等矩阵,因此,其中h是h的主对角线的第I个元素,这被称为杠杆。因为残差的方差与杠杆有关,一般来说,残差的方差是不相

2、等的,这不利于残差的应用,所以我们规范了残差。称为学生残差,当n较大时,可以认为服从标准正态分布。这是测试误差项的独立正态分布的基础。2.残差正态性的频率检验,这是一种非常直观的检验方法。其基本思想是将残差落入某个范围的频率与相应范围内的标准正态分布的概率进行比较。如果两者之间有很大差异,则认为残差(因此模型误差)不服从正态分布。在实际应用中,我们通常会比较几个有代表性的区间。例如,(-1,1) (-1.5,1.5)(2,2),在(-1,1)内服从标准正态分布的随机变量的概率是0.68;(-1.5,1.5)内的概率为0.87;它是0.95英寸(-2,2),所以如果模型误差项是独立和正态分布的,

3、当n大时,学生残差中大约68%的点应该落在(-1,1)以内;约87%在(-1.5,1.5)以内,约95%在(-2,2)以内。如果在某个区间有很大的差异,就有理由怀疑假设误差是独立的正态分布的合理性。3。剩余误差的正态qq图检验:(1)基于学生的剩余误差正态qq图,得到的散点图是基于学生的剩余误差正态qq图,利用正态qq图可以直观地检验误差正态假设的合理性;(2)相关系数检验。除了以上的视觉测试,我们还可以构造相关系数来测量它们之间的线性关系。相关系数的估计如下:通过检验不同类型的残差图,我们可以直观地检测回归关系的正态性、等方差性和线性等假设的合理性,并为回归方程是否需要引入自变量的高阶项和交

4、叉项提供参考。2.3.2残差图的分析,这是一个以残差为纵坐标,其他相关量为横坐标的散点图。(1)以因变量y的拟合值作为横坐标的散点图。如果线性回归关系是正确的并且误差服从正态分布,则因变量的拟合值和残差向量是相互独立的。此时,残差图中的点应该大致在一个水平带状区域内,没有任何明显的趋势,如下图所示:(2)以自变量的观测值为横坐标的散点图。(3)以观察时间或观察值序号为横坐标的散点图。还可以使用以下坐标作为残差图。两个剩余图的原理与前一个相同。通过残差分析,可以发现给定数据的一些特征和模型假设的一些缺点。下一个问题是采取相应的措施来改善其不足,以便建立更好的回归模型。一种常用的改进措施是Box-

5、Cox变换,它通过对因变量y进行适当的变换,使原始数据尽可能满足线性回归模型的条件我们主要讨论自变量的选择。当人们建立线性回归模型时,他们会考虑使用所有可能的独立变量来建立回归方程。问题如下:(2.4)回归方程的选择。(1)回归方程中会包含一些对因变量影响很小或没有影响的自变量,这会增加计算量,导致回归参数估计和因变量预测的精度下降。(2)自变量过多不利于回归方程的应用,不利于对实际问题做出合理解释,也将导致数据收集和模型应用成本的不必要增加。因此,在实际应用中,从与因变量有线性关系的自变量集中选择一个最优子集来建立一个合理简单的回归方程是非常重要的。1.穷举法是从所有可能的独立变量的所有子集

6、所拟合的回归方程中选择出最佳的一个或几个,这些独立变量按照一定的标准与因变量有线性关系。以下是sas提供的几种穷举方法的选择标准:(1)复相关系数标准,p是回归系数的个数,(2)修正复相关系数标准,(3) Cp标准,和(2)逐步回归方法。穷举法是理论上选择回归方程的最佳方法,但穷举法拟合的方程数随着自变量的增加呈指数增长。计算量非常大。逐步回归法的基本思想是依次拟合一系列回归方程。后一个回归方程在前一个变量的基础上增加或删除一个自变量,增加或删除的原则是通过残差平方和的相对减少或增加来衡量的。部分f统计:如果一个自变量对因变量有显著影响,它的部分f统计不应该太小。Sas常用的测试标准:(1)正向选择法,从仅包含常数项的回归模型开始,逐个添加独立变量,标准是将描述残差平方和减少的部分f统计量的p值与添加相应变量时的给定控制水平进行比较。如果不在模型中的所有自变量对应的统计P值大于给定的控制水平(影响不显著),则选择结束。否则,部分F值最大的自变量将被引入模型。然后重复上述过程。(2)逆向选择法,首先拟合一个包含所有自变量的线性回归模型,然后根据部分F统计量的P值,将其与给定的控制水平进行比较,并逐个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论