回归中异常值的残差诊断探讨.doc_第1页
回归中异常值的残差诊断探讨.doc_第2页
回归中异常值的残差诊断探讨.doc_第3页
回归中异常值的残差诊断探讨.doc_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

回归中异常值的残差诊断探讨北方民族大学信息与计算科学学院 马耀兰 魏波摘要:本文阐述了用残差进行诊断,主要包括:异常值的普通(非标准化)残差诊断、异常值的剔除残差诊断和异常值的学生化剔除残差诊断。对异常值的处理问题还进行了进一步的探讨,提出了处理异常值的一般性的理论和方法。关键字:异常值;残差诊断作者简介:姓名:马耀兰,女,1981,宁夏同心人,本科 北方民族大学信息与计算科学学院教师。魏波,男,1979,宁夏银川人,本科,北方民族大学信息与计算科学学院教师 1 引言回归分析是统计学中一个非常重要的分支,它在自然科学、管理科学和社会等领域应用十分广泛。在回归分析中的一个重要的假设是,使用的模型对所有的数据是适当的。在实际应用中通常会有个别案例观测值似乎与模型不相符,但模型拟合于大多数数据。其中不适合的个别案例就是我们所说的异常值。对于异常值的来源通常有主观和客观两个原因。主观原因是由于人们在收集和记录数据的时候出现错误所造成的。这种异常值诊断出后处理很容易。客观原因是有两类机制所造成的,即重尾分布和混合分布,弄清这类异常值产生的原因很重要,因为这将直接影响后面数据的分析。例如:我们可以想象一个地质模型,其中异常值对应着石油储藏或其他有用特征的案例。它与大多数案例分析不一样,这样的异常值就成了分析目的。因此,对于异常值点不应该机械被删除或自动降低权重,因为他们不一定是坏的观测。相反,如果是准确的,就可能是数据中包含信息最多的值。2异常值检验2.1残差诊断异常值的残差诊断是从直接反映拟合效果好坏的残差入手。常用的残差有:普通残差、预测残差、学生化残差、递归残差和不相关残差。在这里主要以一元线性回归模型为例,用普通残差、预测残差、学生化残差来进行异常值的检验。一元线性回归模型为: (2.1.1)对于个观测点为 模型的最小二乘估计为: (2.1.2)2.1.1异常值的普通(非标准化)残差诊断普通残差就是最小二乘残差,就是通过最小二乘回归后得到的残差,记为。第个样本观测值的普通残差为: 在古典线性回归模型的假设下, 构造统计量: (2.1.1.1)其中,为的最小二估计量。在的置信水平下,查分布表,凡满足的观测值就可以认为是异常值。在大样本的情况下,分布与正态分布十分接近,因此,也可以按照正态分布的原则判断异常值。由普通残差的定义有:。其中,显然有:从上面可以看出普通残差存在异方差问题,并且异方差大小取决于自变量的数值,条件 很难满足。因此,用普通残差诊断异常值是不合适的,它只能作为一个参考。2.1.2异常值的删除残差诊断在个样本观测值的情况下,每次有个样本观测值进行回归分析,并用所得到的估计结果来预测省略的哪个样本值,这样就可以得到删除残差: (2.1.2.1)其中为个样本观测值中除去第样本观测值后得到的的拟合值。在古典线形回归模型假设下,构造统计量: (2.1.2.2)其中。在的置信水平下,查分布表,凡是满足的观测值就可以认为是异常值。在大样本情况下,也可以按照正态分布的原则判断异常值。与普通残差相比,尽管删除残差也存在异方差问题:,但在诊断异常值时普通残差要包括异常值在内的所有样本观测值来拟合获得,所以很难发现异常值。而删除残差用其他样本观测值来拟合获得,因而更容易发现异常值。2.1.3异常值的学生化删除残差诊断学生化删除残差是删除残差除以其估计标准差,记为,设去掉第个观测值的回归模型中的的无偏估计为,则第个观测值的学生化删除残差为: (2.1.3.1)此时,在置信水平下查分布表得到,凡是满足的观测值就可以认为是异常值。当然在大样本情况下也可以用正态分布的原则判断异常值。与删除残差相比,学生化删除残差不存在异方差问题。因此通过学生化删除残差来诊断异常值更科学,更准确。算例 智力测试数据:下表是教育学家测试的21个儿童的记录,其中X是儿童的年龄(与月为单位),Y表示某种智力指标,通过这些数据要建立智力随年龄变化的关系。先考虑其线性模型。 表2.1组数12345678910x152610915201811820y95718391102879310010494组数1112131415161718192021x79101111101242171110y1139683841021001055712186100用SPSS统计软件求的其线性回归方程为:y=109.874 -1.127x用SPSS统计软件得到的残差图: 图2.1 图2.2 图2.3 图2.4上面的图分别是因变量与标准化残差(图2.1)、剔除残差(图2.2)、学生化残差(图2.3)、学生化剔除残差(图2.4)的散点图。从上面4幅散点图可以看到,有一点残差远离0点,推断它可能是异常值。同时用SPSS统计软件可以求出它的各种残差、COOK距离和高杆值见下表:组数RES_1DRE_1ZRE_1SRE_1SDR_1COO_1LEV_112.030992.1330.180.190.18002-9.57213-11.3-0.9-0.9-0.90.080.113-15.604-16.6-1.4-1.5-1.50.070.024-8.73094-9.39-0.8-0.8-0.80.030.0259.030999.4860.820.840.830.0206-0.33406-0.36-0-0-000.0373.411963.6220.310.320.3100.0182.523042.6750.230.240.2300.0193.142073.4150.290.30.2900.03106.665947.1880.60.630.620.020.031111.0150812.1111.051.050.050.0412-3.73094-4.01-0.3-0.4-0.300.0213-15.604-16.6-1.4-1.5-1.50.070.0214-13.477-14.3-1.2-1.3-1.30.050.01154.523044.7950.410.420.410.010.01161.396051.490.130.130.1300.02178.650039.1260.780.810.80.02018-5.54031-15.9-0.5-0.9-0.80.680.61930.2849731.982.752.823.610.220.0120-11.477-12.2-1-1.1-1.10.030.01211.396051.490.130.130.1300.02表2.2其中:非标准化残差(RES_1)、剔除残差(DRE_1)、标准化残差(ZRE_1)、学生化残差(SRE_1)、学生化剔除残差(SDR_1)、COOK距离(COO_1)、高杠杆值(LEV_1)。取对他们进行残差诊断,求得S=11.023,因此有与普通残差相比只有第19组数据的残差为30.28497比大,所以从异常值的普通残差(非标准化残差)诊断认为第6组数据为异常值。还可以算出,因此有与预测残差(剔除残差)相比只有第19组数据的残差为31.98,比大, 从异常值的剔除残差诊断认为第19组数据为异常值。已知学生化剔除残差最大值是第19组数据的残差为3.61,大于而其他残差值小于,故从学生化剔除残差也可以认为第19组数据为异常值。从整个残差表中残差的值,可以看出除第19组数据外,其他数据用残差诊断都可以认为不是异常值,即只有第19组数据是异常值。第18组数据的残差相对较小,但其COOK距离和高杠杆值均远远大于其他值(甚至是19组数据的值),所以第18组数据是一个影响很大的数据。因此,可以利用COOK距离和高杠杆值判断第18组据为高杠杆点。一般异常值往往有极大的残差,而高杠杆点往往仅仅是对应于极端大的点,不一定有极大的残差。3 结论 3.1 异常值的处理诊断出异常值后,就要进一步判断引起异常值的原因,通常引起异常值的原因有下面几条:异常值的原因异常值的消除方法数据登记错误,存在抄写或录入的错误重新核实数据数据测量错误重新测量数据数据随机误差删除或重新观测异常值数据缺少重要自变量增加必要的自变量缺少观察数据增加观测数据,适当扩大自变量的取值范围存在异方差采用加权线性回归模型选取错误,线性模型不适合改用非线性回归模型对引起异常值的不同原因,需要采用不同的处理方法。如果一个异常值的数据是准确的,但

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论