回归分析中异常值的诊断与处理_第1页
回归分析中异常值的诊断与处理_第2页
回归分析中异常值的诊断与处理_第3页
回归分析中异常值的诊断与处理_第4页
回归分析中异常值的诊断与处理_第5页
免费预览已结束,剩余21页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、回归分析中异常值的诊断与处理1 引言对调查得到的大量原始数据进行加工处理,提取其中有用的信息,即统计整理,是进 一步进行统计分析的前提但是通常的统计整理方法往往都对样本数据有一个前提假设, 即样本数据是来自同一个总体, 而这个假设有时却不能成立 原因一是由客观因素造成的, 如总体条件的突然变化或人们未知的某个因素的突然出现等等;二是由主观方面的因素造 成的,即人为的差错如调查人员读错或抄错数据,不小心把另一些不同条件下的样本数据 混杂进来当样本中的个别数据明显的偏离样本中其余数据时,这些数据可能是来自不同 的总体,我们称这样的数据为异常数据若对混有异常数据的样本按常规进行统计整理、 分析、推断

2、,往往会得出不符合实际的结论本文就样本中的异常数据提出了诊断方法和 处理方法,并结合实例说明了简单回归中上述方法的具体应用2 异常值的概念所谓异常值就是在所获统计数据中相对误差较大的观察数据,也称奇异值 (Outliers) 狭义地定义异常值就是一批数据中有部分数据与其余数据相比明显不一致的 数据,也称离群值社会经济统计中一切失实数据统称为异常值由于人为或随机因素的影响,失实的数 据随时都有可能出现,因而统计数据中的任何一个都有可能成为异常值,而狭义界定的异常值是指离群值, 如果把统计数据按由小到大排列,若有异常值, 它必位于其数据的两端,3 / 22左端称为异常小值,右端的称为异常大值残差:

3、考虑线性回归模型yXe,Eey11x11其中 y y2 , X1x21yn1xn1分量形式为0 , Cov e2Inx1,p 10e1x2,p 1 ,1e2 ,exn,p 1p1en? 为 在模型 1 下的定义 e? y y? y X ?为残差向量,其中 y? X ? 称为拟合值向量,最小二乘估计如果用 x1 ,xn 表示 X 的 n 个行向量,则称 e?i yi xi ?, i 1, , n ,1 x1y1为第 i 次试验或观测的残差对简单回归, X 则 e?i yi xi ?, i 1, , n ,其中 xi 1, xi1 x2 MMy2 ,1 xnyn于是,异常值就是在回归分析中,一组数

4、据xi ,yi 如果它的残差 e?i 较其它组数据的残差大的多,则称此数据为异常值异常值的出现有主客观的原因主观上抽样调查技术有问题,疏忽大意记错,或人为 的虚报,谎报数据等都可能导致异常数据,这直接影响了统计数据的质量;客观上某些样 品由于特定原因在某些变量上的确表现突出,明显超出平均水平,这也可能产生异常值异常值的存在必将导致相应统计分析误差增大,会对分析结果 ( 平均值与标准差 ) 产生 重要影响,会降低测量的精度如果不预先处理它们,用通常的统计整理方法所得出的结 论可靠性差而异常值的诊断与处理是保证原始数据可靠性,平均值与标准差计算准确性 的前提3 异常值的诊断方法在讨论异常值诊断问题

5、时,通常要假设所得样本观测值在某中意义下遵从一定的分布 规律拿到一批数据,若能从其实际背景中明确看出它服从某中分布形式时,一般的做法 是在这种分布假设下,导出能较好反映异常值与正常值差异的统计量,在没有异常值的原 假设下作假设检验以下给出两种检验方法3.1 F 分布检验法学生化残差:考虑线性回归模型1 ,记? X ?,称?为拟合值向量,称其第i个分量? Xi ?为第i个拟合值,则? X XX 1 Xy Hy,1这里H X XX X 文献中通常称H为帽子矩阵前面已经定义了? y 洛, i 1, n,为第i次试验或观测的残差将其标准化为?1_,再用?代替,得到所谓学生化残 hiirii 1,nej

6、2 这里hii为H的第i个对角元,?2 丄一 n p把正态线性回归模型1改写成分量形式yiXie,0,1,这里ei , (i 1, n)相互独立.如果第j组数据Xj, yj个异常点,那么它的残差就很E yj记dj它的残差之所以很大是因为它的均值Eyj发生了非随机性漂移 从而Xj0,这产生了一个新的模型,0, 1, 0,yix ieiyjXjej0 将模型改写成矩阵的形式2e N 0, I ,模型称为均值漂移线性回归模型.要判定 Xj, yj不是异常点,等价于检验假设引理1用yi , X i和ei分别表示从丫、X和e剔除第i行所得到的向量或矩从线性回2In 1 .归模型1剔除第i组数据后,剩余的

7、n 1组数据的线性回归模型为y i X i ei, E ei0, Cov ei将从这个模型求到的的最小二乘估计记为?i,则旦 XX 1Xi .1 hH小1证明:因为?i X i X i Xi yi .设A为n n可逆阵,u和v均为n 1向量.用恒等式A uvA 1 A 1 A 1 A uvA A 11 u A 1vXjXj 1 XX xXj 111 X X x 人XX1 i11XXhiiii这里Xi为X的第i行.将上式两边右乘Xy,并利用XyXiYi%x# / 22以及6式,有yi x i x i1Xi1Xi XiXX1hii将7式右乘Xi,可以得到如下关系式1Xi11hii1XX Xi.将其

8、代入8式,得到? 11 XX Xi .1 hH引理2 对均值漂移线性回归模型 4的最小二乘估计分别为其中?j为从非均值漂移线性回归模型1剔除第j组数据后得到的的最小二乘估5 / 221计.H h- X XX X,h-为H的第j个对角元.角为从模型2导出的第j个残差.证明:显然,dj y yj , djd j 1.记 X x1, x2, LXn.则 Xd - Xj于是,根据定义Xdj1 XX djjdjXXXjXj1Xyyj根据分块矩阵的逆矩阵公式(见附录1),以及XXhjj XjXX1Xj 11 h-jj1Xj1 h-jj1XXxjxj XXXX 1XXh-jj11 h-jj1XjXyy>

9、; 11 ? 1Xj ?-1h,j 11XX xjxj1XX1 h-1Xjyj丄XX1 h,1 h, jXj?再由引理1知命题得证.现在应用引理来求检验H :0的检验统计量.注意到,对现在的情形,在约束条件0下,模型4就化为模型1,于是RSSh模型无约束情形下的残差平方和yy ?Xy.而模型4的无约束残差平方和RSS y yXydjy.利用引理2得z jJjhjj 1hjj15 / 22这里? yj Xj?为第j组数据的残差.利用和的具体表达式将9式作进一步化简:RSSyy ?Xy?j1 hjjEyjFn p ?2j21 hjj,n$其中?2 根据引理2,所求的检验统计量为n p RSSH R

10、SSRSSn p 1n p ?2 p 1?2n p 1 1 山n p 1 rj2n2p rj于是,我们证明了如下事实:定理2 对于均值漂移线性回归模型4,如果假设H :0成立,Fj2n p 1 rj2"p rj F1,n p 1 -据此,我们得到如下检验:对给定的d 2FjF1,n p 1,P 12n p rj则判定第j组数据Xj,yj为异常点.当然,这种检验会犯“判无为有”的错误,也就是Xj,yj可能不是异常点,而被误判为异常点但我们犯这种错误的概率只有,事先我们可以把它控制的很小.显然,根据t分布与F分布的关系,我们也可以用t检验法完成上面的检验若定义对给定的,当tj1Fj 2r

11、jtjtn p 1时,我们拒绝假设H :0 即判定第j组数据Xj,yj为异常点.3.2残差及残差图检验异常值前面定义了 yX ,称为残差向量,其分量形式? yiX?,i 1,L , n,称为第i次试验或观测的残差.特别地,对简单回归,Xi1, Xi,- ?-y ?x ni 1,,n. ?0?Xi yi nxyi 1所以,? yi?为,i1,n 1n2 -2Xi nxi 1残差是最重要的一种回归诊断量,它蕴涵了有关模型基本假设的许多重要信息.残差分析就是对残差进行统计处理,从中提炼出这些信息的方法.而残差图就是残差分析中使 用的基本工具所谓残差图就是残差 ?对因变量y或自变量X1,X2, ,Xn

12、,或其它导出统计量(如拟合值yj的点子图,有时候也用残差对时间或对数据序数的点子图最简 单的图,尤其在简单回归中,为残差 g对拟合值?的图.所谓异常数据就是相对于其它观测值来说,具有大的残差的数据点利用残差及残差图检验异常值的方法是用所给数据计算出残差 ?,与其余观测值的残差进行比较,具有大的残差的数据点被怀疑为异常值然后作出自变量与因变量的散点图,残差?对拟合值?的残差图以及残差e对自变量Xi的残差图,从图中观察,那些远离大多数观测点的孤立的 点有理由被认为是异常点然后从数据中删除这些点,再次估计回归方程,作出X与丫的散点图以及ei对?的残差图,计算标准差,与删除前进行比较.4提出两种处理方

13、法4.1 采用虚拟变量消除异常值的影响(1)虚拟变量 某类变量(如性别、种族、颜色、宗教、国家、战争、地震等)常常表示某属性是否 存在,如男或女,黑种人或白种人,教徒或非教徒,对于这类变量可用“数量化”方法设 计人为变量来表示,如用 “ 0 ”或“ 1”, “ 0 ”表示不存在某种属性, “1”表示存在该属 性例如:用“ 1”表示男性, “ 0”表示女性,或用“ 1”表示大学毕业, “0”表示没有 大学毕业,等等这样假设的变量,如“ 0 ”或“1”称为虚拟变量,也称为类型变量或属 性变量,它的主要特点就是将一些可以划分为不同类型或属性的变量用“ 0 ”和“1”分别 表示,即属于某一类型的变量用

14、“ 1”表示,不属于这一类型的变量用“ 0 ”表示这里用D 表示虚拟变量0 或 1)把试验数据划分为两类,属于异常值一类用“ 1 ”异常值的影响被虚拟变量D 的系数吸收,从而2) 处理异常值的方法表示,属于正常值一类用“ 0”表示引入虚拟变量D,建立回归方程:Y?0?1X1?2X2L?X p 2X p2?p 1D ,y11 x11Lx1,p1 d1?0d1其中 Yy2 , X1 x21Lx2,p1 d2 ,?1, D d2 特别地,MMMMMMyn1 xn1Lxn,p1 dn?p1dn归,建立回归方程:Y?0?1X?2Dy11 x1d1?0其中, Yy2 , Z1 x2d2?1ZZ1ZyMMM

15、?yn1 xndn2在这里,我们用虚拟变量(利用所给数据,作出回归估计这样,对简单回估计更接近于现实.4.2剔除异常值的方法对于测定中的异常值的剔除,我们必须持慎重态度,不能贸然从事否则会出现误删 有效数据或保留异常数据的错误通常处理步骤大致如下:(1)初分析:首先利用所给数据作出回归估计:y x?.1X11LX1,p 1? 0其中X1X21LX2,p 1? '1XXMMM1Xn1LXn, p 1?P 1nXiYi1Xy 特别地,对简单回归,?o ?x ,nxy其中?o?x,i 1n2 -2Xi nxi 1,并计算标准差:s . 1 n Xi X 2,以及拟合tn 1 i 1值y、残差

16、?,并列入表然后作出Xi与yi的散点图,拟合值y与残差?的残差图,分析 判别出异常值.(2)判别出异常值后,从测量数据中删除异常值,然后利用余下的观测值再次作回 归估计,同第一步,计算标准差、拟合值以及残差,作出删除异常数据后的散点图与残差 图.(3)对比删除异常值前后的标准差以及残差图.对于单一可疑异常数据,直接按上述步骤进行剔除异常值对于多个可疑异常值的情 况,上述剔除步骤反复逐次进行至无可剔除为止通常可采用两种方法:向前逐一剔除法(从极大值依次向次大值逐一剔除)和向后逐一剔除法(从可疑的j个最大值依次从小到大逐一剔除).5实例分析5.1实例一假定某调查数据X和丫由表1中给出.R21yii

17、 10.457 .-2yyii 1Y76543210X图1散点图表1数据X和丫序号X丫D11.100.90022.001.80032.302.00043.102.70053.002.50062.807.50173.203.00083.803.50094.003.500104.204.000114.804.500125.004.800135.105.000146.005.500155.505.500根据表中数据作回归估计,得回归方程:? 0.661 0.837X .并算得表2各组数据的诊断统计量序号Xiyi?riti11.100.901.5815-0.6815-0.516-0.50122.001

18、.802.3348-0.5348-0.405-0.39232.302.002.5859-0.5859-0.443-0.42943.102.703.2555-0.5555-0.420-0.40653.002.503.1718-0.6718-0.508-0.49362.807.503.00444.49563.4019.84173.203.003.3392-0.3392-0.257-0.24883.803.503.8414-0.3414-0.258-0.24994.003.504.0088-0.5088-0.385-0.372104.204.004.1762-0.1762-0.133-0.12811

19、4.804.504.6784-0.1784-0.135-0.130125.004.804.8458-0.0458-0.035-0.033135.105.004.92950.07050.0530.051146.005.505.6828-0.1828-0.138-0.133155.505.505.26430.23570.1780.117t12 0.053.65.从表2最后一列可以看出只有t69.841超过这个值,于是我们诊断出第六号数据为异常值.然后引入虚拟变量D,建立回归方程:Y?0?X?2d,作回归估计.令1X1d1? '0?'1? 2? 1 Y Z ?,ZX2d2?ZZ 1Z

20、y .1X15d15得20.303, ? 1.007,4.985.所以,回归模型为:?0.303 1.007X 4.985D .并且算得R20.993 .从R2的值来看,这个回归方程见图 2中2 要比未采用虚拟变量所估计的回归方程见图2中1 其拟合程度好多了.这是因为异常值的影响被虚拟变量 D的系数吸收, 所以比处理前求得的估计值更接近于现实.因此虚拟变量是消除异常值的影响,探求变量 之间真正关系的一种有效方法.00 1 2表3 Forbes数据5.2实例二序 号沸点气压(英寸汞柱)Log (气压)100 x Log (气压)1194.520.791.3179131.792194.320.79

21、1.3179131.793197.922.401.3502135.024198.422.671.3555135.555199.423.151.3646136.466199.923.351.3683136.837200.923.891.3782137.828201.123.991.3800138.009201.424.021.3806138.0610201.324.011.3805138.0511203.625.141.4004140.0412204.626.571.4244142.4413209.528.491.4547145.4714208.627.761.4434144.3415210.7

22、29.041.4630146.3016211.929.881.4754147.5417212.230.061.4780147.80表3给出了 Forbes数据.150140130190200210220图3散点图根据表中数据,(气压用100 log的数据),估计回归方程,算得y? 42.131 0.895X 计算出Forbes数据的拟合值及残差,如表4,进一步作出散点图(图3)、残差?对拟合值? 的残差图(图4).表4 Forbes数据的拟合值及残差序号Xiyiy?1194.50131.79132.04-0.252194.30131.79131.86-0.073197.90135.02135.

23、08-0.064198.40135.55135.530.025199.40136.46136.420.046199.90136.83136.87-0.047200.90137.82137.770.058201.10138.00137.950.059201.40138.06138.22-0.1610201.30138.05138.13-0.0811203.60140.04140.19-0.1512204.60142.44141.081.3613209.50145.47145.470.0014208.60144.34144.66-0.3215210.70146.30146.54-0.2416211

24、.90147.54147.62-0.0817212.20147.80147.89-0.09?2.52113)52ei1.41.210.80.60.40.20 -13)-0.2 ,134136132-0.4-0.6140142图4 Forbes数据的残差图比较表中所列的残差,并观察残差图,我们发现序号12的残差比其它的残差大的多.其 它残差的绝对值都小于0.35,而第12号数据的残差为1.36.并且从残差图(图4 )中观察 到第12号数据的跳跃度比较大,远离其它点.由残差及残差图法诊断出第12号数据为异常 数据然后剔除第12号数据再估计回归方程,重新拟合数据,检查参数估计,拟合值, 残差方差的变

25、化删除第12号数据后,得到回归方程:9 41.302 0.891X.表5 Forbes数据中删除12号数据后的拟合值及残差序号XiYi1194.50131.79131.99-0.202194.30131.79131.81-0.023197.90135.02135.020.004198.40135.55135.460.095199.40136.46136.350.116199.90136.83136.800.037200.90137.82137.690.138201.10138.00137.870.139201.40138.06138.14-0.0810201.30138.05138.050.0

26、011203.60140.04140.10-0.0613209.50145.47145.350.1214208.60144.34144.55-0.2115210.70146.30146.42-0.1216211.90147.54147.500.0517212.20147.80147.760.041.50.5132134136138:140142144146 -148150-0.51-1.5-2-2.5150图5 Forbes数据中删除12号数据后的残差图140130200210220图6 删除异常值后的散点图190比较量使用所有数据的值删除异常值后的值? .0-42.131-41.302? &

27、#39;10.8950.891?0.3790.113X表6删除异常值前后的比较量对删除异常值前后的结果进行对比,我们得到对于删除前后获得的参数估计基本是相同的,所以第12号数据是无关的但是,第12号数据在标准误差上的影响要显著些删除后标准误差减小约3.1倍,方差减小约10倍并且,从删除异常值获得的残差图图5和散 点图(图6 )显示出,对余下的16个数据无明显的拟合失败.19 / 226 结束语异常值的诊断与处理问题是一个很有实际意义的问题,是一个逐步研究逐步实践的问 题但迄今为止,还没有一种广泛适用的方法,本文所介绍的方法也是一种尝试,对于异 常值的诊断与处理问题的研究还有待于进一步完善致谢本

28、文在撰写过程中得到了李惠东老师的悉心指导和大力支持在论文撰写过程中遇到 的难点和疑点李老师都给我作了详细的讲解,并提供了许多有参考价值的资料和专业软 件,使我学到了很多知识和方法在此表示深深的敬意与感谢参考文献1 魏立力 .概率论与数理统计 M. 银川 :宁夏人民出版社 ,1999.2 王松桂等 .线性模型引论 M. 北京 :科学出版社 ,2004.3 何平剔除测量数据中异常值的若干方法 J.数理统计与管理,1995,(1):19-22.4 王静龙 ,梁小筠 ,等译.应用线性回归 M. 北京 :中国统计出版社 ,1998.5 刘宗鹤 ,赵明强译 .计量经济学概论 M. 北京 :农业出版社 ,1

29、988.附录 1:分块矩阵的逆矩阵:23 / 22设 A 0 ,将其分块为: AA11A21A12A22,则它的逆矩阵A11111A11 A12 A221A21A1A22 1 A21 A111A11 A12 A221A221= A112A22 A21 A112A11 2 A12 A22 A22 A22 A21 A11 2A12 A22这里 A221 A2211A21 A11 A12 , A112 A11 A12 A22 A21 附录2 : SPSS处理实例1数据:1.未用虚拟变量的数据处理:Regressi onModel Summary(b)ModelRR SquareAdjusted RS

30、quareStd. Error of the Estimate1.676(a).457.4151.32181a Predictors: (Constant), X b Dependent Variable: YCoefficients(a)ModelUnstandardizedCoefficientsStandardizedCoefficientstSig.BStd. ErrorBeta1(Constant).6611.003.658.522X.837.253.6763.306.006a Dependent Variable: YCasewise Diagnostics(a)Case Numb

31、erStd. ResidualYPredictedValueResidual1-.516.901.5815-.68152-.4051.802.3348-.53483-.4432.002.5859-.58594-.4202.703.2555-.55555-.5082.503.1718-.671863.4017.503.00444.49567-.2573.003.3392-.33928-.2583.503.8414-.34149-.3853.504.0088-.508810-.1334.004.1762-.176211-.1354.504.6784-.178412-.0354.804.8458-.

32、045813.0535.004.9295.070514-.1385.505.6828-.182815.1785.505.2643.2357a Dependent Variable: Y2 引进虚拟变量后的数据处理:Model Summary(b)ModelRR SquareAdjusted RSquareStd. Error of the Estimate1.996(a).993.992.15876a Predictors: (Constant), D, X b Dependent Variable: YCoefficients(a)ModelUnstandardizedCoefficient

33、sStandardizedCoefficientsBetatSig.BStd. Error1(Constan)-.303.125-2.431.032X1.007.031.81332.532.000D4.985.167.74529.819.000a Dependent Variable: YCasewise Diagnostics(a)Case NumberStd. ResidualYPredictedValueResidual1.606.90.8038.09622.5691.801.7097.09033-.0732.002.0117-.01174-.7362.702.8169-.11695-1

34、.3622.502.7162-.21626.0007.507.5000.00007.5193.002.9176.08248-.1353.503.5215-.02159-1.4033.503.7228-.222810.4784.003.9241.075911-.1764.504.5280-.028012.4454.804.7293.0707131.0715.004.8300.170014-1.4865.505.7359-.2359151.6845.505.2326.2674a Dependent Variable: Y附录3 : SPSS处理实例2的数据:1 删除前的数据处理:Coefficie

35、nts(a)ModelUnstandardizedCoefficientsStandardizedCoefficientstSig.BStd. ErrorBeta1(Constan)-42.1313.339-12.618.000X.895.016.99754.450.000a Dependent Variable: YModel Summary(b)ModelRR SquareAdjusted RSquareStd. Error of the EstimateChange StatisticsR SquareChangeF Changedf1df2Sig. F Change1.997(a).9

36、95.995.37889.9952964.792115.000a Predictors: (Constant), X b Dependent Variable: YCasewise Diagnostics(a)Case NumberStd. ResidualYPredictedValueResidual1-.651131.79132.0366-.24662-.178131.79131.8575-.06753-.161135.02135.0812-.06124.056135.55135.5289.02115.094136.46136.4244.03566-.111136.83136.8721-.04217.138137.82137.7676.05248.141138.00137.9466.05349-.41013

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论