回归分析中异常值的诊断与处理.doc_第1页
回归分析中异常值的诊断与处理.doc_第2页
回归分析中异常值的诊断与处理.doc_第3页
回归分析中异常值的诊断与处理.doc_第4页
回归分析中异常值的诊断与处理.doc_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

回归分析中异常值的诊断与处理1 引言对调查得到的大量原始数据进行加工处理,提取其中有用的信息,即统计整理,是进一步进行统计分析的前提但是通常的统计整理方法往往都对样本数据有一个前提假设,即样本数据是来自同一个总体,而这个假设有时却不能成立原因一是由客观因素造成的,如总体条件的突然变化或人们未知的某个因素的突然出现等等;二是由主观方面的因素造成的,即人为的差错如调查人员读错或抄错数据,不小心把另一些不同条件下的样本数据混杂进来当样本中的个别数据明显的偏离样本中其余数据时,这些数据可能是来自不同的总体,我们称这样的数据为异常数据若对混有异常数据的样本按常规进行统计整理、分析、推断,往往会得出不符合实际的结论本文就样本中的异常数据提出了诊断方法和处理方法,并结合实例说明了简单回归中上述方法的具体应用2 异常值的概念所谓异常值就是在所获统计数据中相对误差较大的观察数据,也称奇异值(Outliers)狭义地定义异常值就是一批数据中有部分数据与其余数据相比明显不一致的数据,也称离群值社会经济统计中一切失实数据统称为异常值由于人为或随机因素的影响,失实的数据随时都有可能出现,因而统计数据中的任何一个都有可能成为异常值,而狭义界定的异常值是指离群值,如果把统计数据按由小到大排列,若有异常值,它必位于其数据的两端,左端称为异常小值,右端的称为异常大值残差:考虑线性回归模型, 其中 ,分量形式为, 定义为残差向量,其中称为拟合值向量,为在模型下的最小二乘估计如果用表示的个行向量,则称, ,为第次试验或观测的残差对简单回归,则,其中于是,异常值就是在回归分析中,一组数据如果它的残差较其它组数据的残差大的多,则称此数据为异常值异常值的出现有主客观的原因主观上抽样调查技术有问题,疏忽大意记错,或人为的虚报,谎报数据等都可能导致异常数据,这直接影响了统计数据的质量;客观上某些样品由于特定原因在某些变量上的确表现突出,明显超出平均水平,这也可能产生异常值异常值的存在必将导致相应统计分析误差增大,会对分析结果(平均值与标准差)产生重要影响,会降低测量的精度如果不预先处理它们,用通常的统计整理方法所得出的结论可靠性差而异常值的诊断与处理是保证原始数据可靠性,平均值与标准差计算准确性的前提3 异常值的诊断方法在讨论异常值诊断问题时,通常要假设所得样本观测值在某中意义下遵从一定的分布规律拿到一批数据,若能从其实际背景中明确看出它服从某中分布形式时,一般的做法是在这种分布假设下,导出能较好反映异常值与正常值差异的统计量,在没有异常值的原假设下作假设检验以下给出两种检验方法3.1 F分布检验法学生化残差:考虑线性回归模型,记,称为拟合值向量,称其第个分量为第个拟合值,则, 这里文献中通常称为帽子矩阵前面已经定义了, ,为第次试验或观测的残差将其标准化为,再用代替,得到所谓学生化残差, ,这里为的第个对角元,把正态线性回归模型改写成分量形式,这里,相互独立如果第组数据是一个异常点,那么它的残差就很大它的残差之所以很大是因为它的均值发生了非随机性漂移从而这产生了一个新的模型 记将模型改写成矩阵的形式, ,模型和称为均值漂移线性回归模型要判定不是异常点,等价于检验假设引理 用,和分别表示从、和剔除第行所得到的向量或矩从线性回归模型剔除第组数据后,剩余的组数据的线性回归模型为, 将从这个模型求到的的最小二乘估计记为,则证明:因为 设为可逆阵,均为向量用恒等式有, 这里为的第行将上式两边右乘,并利用 以及式,有 将式右乘,可以得到如下关系式将其代入式,得到引理 对均值漂移线性回归模型,和的最小二乘估计分别为和,其中为从非均值漂移线性回归模型剔除第组数据后得到的的最小二乘估计,为的第个对角元为从模型导出的第个残差证明:显然,记则于是,根据定义根据分块矩阵的逆矩阵公式(见附录),以及再由引理知命题得证现在应用引理来求检验的检验统计量注意到,对现在的情形,在约束条件下,模型就化为模型,于是模型无约束情形下的残差平方和而模型的无约束残差平方和 利用引理得这里为第组数据的残差利用和的具体表达式将式作进一步化简: =,其中根据引理,所求的检验统计量为于是,我们证明了如下事实:定理 对于均值漂移线性回归模型,如果假设成立,则据此,我们得到如下检验:对给定的,若,则判定第组数据为异常点当然,这种检验会犯“判无为有”的错误,也就是可能不是异常点,而被误判为异常点但我们犯这种错误的概率只有,事先我们可以把它控制的很小显然,根据分布与分布的关系,我们也可以用检验法完成上面的检验若定义对给定的,当时,我们拒绝假设即判定第组数据为异常点3.2 残差及残差图检验异常值前面定义了,称为残差向量,其分量形式,称为第次试验或观测的残差特别地,对简单回归,所以,残差是最重要的一种回归诊断量,它蕴涵了有关模型基本假设的许多重要信息残差分析就是对残差进行统计处理,从中提炼出这些信息的方法而残差图就是残差分析中使用的基本工具所谓残差图就是残差对因变量或自变量,或其它导出统计量(如拟合值)的点子图,有时候也用残差对时间或对数据序数的点子图最简单的图,尤其在简单回归中,为残差对拟合值的图所谓异常数据就是相对于其它观测值来说,具有大的残差的数据点利用残差及残差图检验异常值的方法是用所给数据计算出残差,与其余观测值的残差进行比较,具有大的残差的数据点被怀疑为异常值然后作出自变量与因变量的散点图,残差对拟合值的残差图以及残差对自变量的残差图,从图中观察,那些远离大多数观测点的孤立的点有理由被认为是异常点然后从数据中删除这些点,再次估计回归方程,作出与的散点图以及对的残差图,计算标准差,与删除前进行比较4 提出两种处理方法4.1 采用虚拟变量消除异常值的影响(1) 虚拟变量某类变量(如性别、种族、颜色、宗教、国家、战争、地震等)常常表示某属性是否存在,如男或女,黑种人或白种人,教徒或非教徒,对于这类变量可用“数量化”方法设计人为变量来表示,如用 “”或“”,“”表示不存在某种属性,“”表示存在该属性例如:用“”表示男性,“”表示女性,或用“”表示大学毕业,“”表示没有大学毕业,等等这样假设的变量,如“”或“”称为虚拟变量,也称为类型变量或属性变量,它的主要特点就是将一些可以划分为不同类型或属性的变量用“”和“”分别表示,即属于某一类型的变量用“”表示,不属于这一类型的变量用“”表示这里用表示虚拟变量(2) 处理异常值的方法在这里,我们用虚拟变量(或)把试验数据划分为两类,属于异常值一类用“”表示,属于正常值一类用“”表示引入虚拟变量,建立回归方程:,其中,特别地,对简单回归,建立回归方程:, 其中,利用所给数据,作出回归估计这样,异常值的影响被虚拟变量的系数吸收,从而估计更接近于现实 4.2 剔除异常值的方法对于测定中的异常值的剔除,我们必须持慎重态度,不能贸然从事否则会出现误删有效数据或保留异常数据的错误通常处理步骤大致如下:(1)初分析:首先利用所给数据作出回归估计:其中,特别地,对简单回归,其中,并计算标准差: ,以及拟合值、残差,并列入表然后作出与的散点图,拟合值与残差的残差图,分析判别出异常值(2)判别出异常值后,从测量数据中删除异常值,然后利用余下的观测值再次作回归估计,同第一步,计算标准差、拟合值以及残差,作出删除异常数据后的散点图与残差图(3)对比删除异常值前后的标准差以及残差图对于单一可疑异常数据,直接按上述步骤进行剔除异常值对于多个可疑异常值的情况,上述剔除步骤反复逐次进行至无可剔除为止通常可采用两种方法:向前逐一剔除法(从极大值依次向次大值逐一剔除)和向后逐一剔除法(从可疑的个最大值依次从小到大逐一剔除)5 实例分析5.1 实例一假定某调查数据和由表中给出表 数据和序号1234567891011121314151.102.002.303.103.002.803.203.804.004.204.805.005.106.005.500.901.802.002.702.507.503.003.503.504.004.504.805.005.505.50000001000000000根据表中数据作回归估计,得回归方程:并算得图 散点图表 各组数据的诊断统计量序号1234567891011121314151.102.002.303.103.002.803.203.804.004.204.805.005.106.005.500.901.802.002.702.507.503.003.503.504.004.504.805.005.505.501.58152.33482.58593.25553.17183.00443.33923.84144.00884.17624.67844.84584.92955.68285.2643-0.6815-0.5348-0.5859-0.5555-0.67184.4956-0.3392-0.3414-0.5088-0.1762-0.1784-0.04580.0705-0.18280.2357-0.516-0.405-0.443-0.420-0.5083.401-0.257-0.258-0.385-0.133-0.135-0.0350.053-0.1380.178-0.501-0.392-0.429-0.406-0.4939.841-0.248-0.249-0.372-0.128-0.130-0.0330.051-0.1330.117从表最后一列可以看出只有超过这个值,于是我们诊断出第六号数据为异常值然后引入虚拟变量,建立回归方程:,作回归估计令,得,所以,回归模型为:并且算得从的值来看,这个回归方程见图中要比未采用虚拟变量所估计的回归方程见图中其拟合程度好多了这是因为异常值的影响被虚拟变量的系数吸收,所以比处理前求得的估计值更接近于现实因此虚拟变量是消除异常值的影响,探求变量之间真正关系的一种有效方法图 5.2 实例二表给出了Forbes数据表 Forbes数据序号沸点气压(英寸汞柱)Log(气压)100 Log(气压)1234567891011121314151617194.5194.3197.9198.4199.4199.9200.9201.1201.4201.3203.6204.6209.5208.6210.7211.9212.220.7920.7922.4022.6723.1523.3523.8923.9924.0224.0125.1426.5728.4927.7629.0429.8830.061.31791.31791.35021.35551.36461.36831.37821.38001.38061.38051.40041.42441.45471.44341.46301.47541.4780131.79131.79135.02135.55136.46136.83137.82138.00138.06138.05140.04142.44145.47144.34146.30147.54147.80图 散点图根据表中数据,(气压用的数据),估计回归方程,算得计算出Forbes数据的拟合值及残差,如表,进一步作出散点图(图)、残差对拟合值的残差图(图)表 Forbes数据的拟合值及残差序号1234567891011121314151617194.50194.30197.90198.40199.40199.90200.90201.10201.40201.30203.60204.60209.50208.60210.70211.90212.20131.79131.79135.02135.55136.46136.83137.82138.00138.06138.05140.04142.44145.47144.34146.30147.54147.80132.04131.86135.08135.53136.42136.87137.77137.95138.22138.13140.19141.08145.47144.66146.54147.62147.89-0.25-0.07-0.060.020.04-0.040.050.05-0.16-0.08-0.151.360.00-0.32-0.24-0.08-0.09图Forbes数据的残差图比较表中所列的残差,并观察残差图,我们发现序号的残差比其它的残差大的多其它残差的绝对值都小于,而第号数据的残差为并且从残差图(图)中观察到第号数据的跳跃度比较大,远离其它点由残差及残差图法诊断出第号数据为异常数据然后剔除第号数据再估计回归方程,重新拟合数据,检查参数估计,拟合值,残差方差的变化删除第号数据后,得到回归方程:表 Forbes数据中删除号数据后的拟合值及残差序号12345678910111314151617194.50194.30197.90198.40199.40199.90200.90201.10201.40201.30203.60209.50208.60210.70211.90212.20131.79131.79135.02135.55136.46136.83137.82138.00138.06138.05140.04145.47144.34146.30147.54147.80131.99131.81135.02135.46136.35136.80137.69137.87138.14138.05140.10145.35144.55146.42147.50147.76-0.20-0.020.000.090.110.030.130.13-0.080.00-0.060.12-0.21-0.120.050.04图5Forbes数据中删除12号数据后的残差图图删除异常值后的散点图表 删除异常值前后的比较量比较量使用所有数据的值删除异常值后的值-42.1310.8950.379-41.3020.8910.113对删除异常值前后的结果进行对比,我们得到对于删除前后获得的参数估计基本是相同的,所以第号数据是无关的但是,第号数据在标准误差上的影响要显著些删除后标准误差减小约倍,方差减小约倍并且,从删除异常值获得的残差图和散点图(图)显示出,对余下的个数据无明显的拟合失败6 结束语异常值的诊断与处理问题是一个很有实际意义的问题,是一个逐步研究逐步实践的问题但迄今为止,还没有一种广泛适用的方法,本文所介绍的方法也是一种尝试,对于异常值的诊断与处理问题的研究还有待于进一步完善致 谢本文在撰写过程中得到了李惠东老师的悉心指导和大力支持在论文撰写过程中遇到的难点和疑点李老师都给我作了详细的讲解,并提供了许多有参考价值的资料和专业软件,使我学到了很多知识和方法在此表示深深的敬意与感谢 参考文献1 魏立力.概率论与数理统计M.银川:宁夏人民出版社,1999.2 王松桂等.线性模型引论M.北京:科学出版社,2004.3 何平.剔除测量数据中异常值的若干方法J.数理统计与管理,1995,(1):19-22.4 王静龙,梁小筠,等译.应用线性回归M.北京:中国统计出版社,1998.5 刘宗鹤,赵明强译.计量经济学概论M.北京:农业出版社,1988.附录:分块矩阵的逆矩阵:设,将其分块为:,则它的逆矩阵 =这里 ,附录:处理实例数据:未用虚拟变量的数据处理:RegressionModel Summary(b)ModelRR SquareAdjusted R SquareStd. Error of the Estimate1.676(a).457.4151.32181a Predictors: (Constant), Xb Dependent Variable: YCoefficients(a)Model Unstandardized CoefficientsStandardized CoefficientstSig. BStd. ErrorBeta 1(Constant).6611.003 .658.522 X.837.253.6763.306.006a Dependent Variable: YCasewise Diagnostics(a)Case NumberStd. ResidualYPredicted ValueResidual1-.516.901.5815-.68152-.4051.802.3348-.53483-.4432.002.5859-.58594-.4202.703.2555-.55555-.5082.503.1718-.671863.4017.503.00444.49567-.2573.003.3392-.33928-.2583.503.8414-.34149-.3853.504.0088-.508810-.1334.004.1762-.176211-.1354.504.6784-.178412-.0354.804.8458-.045813.0535.004.9295.070514-.1385.505.6828-.182815.1785.505.2643.2357a Dependent Variable: Y引进虚拟变量后的数据处理:Model Summary(b)ModelRR SquareAdjusted R SquareStd. Error of the Estimate1.996(a).993.992.15876a Predictors: (Constant), D, Xb Dependent Variable: YCoefficients(a)Model Unstandardized CoefficientsStandardized CoefficientstSig.BStd. ErrorBeta1(Constan)-.303.125 -2.431.032X1.007.031.81332.532.000D4.985.167.74529.819.000a Dependent Variable: YCasewise Diagnostics(a)Case NumberStd. ResidualYPredicted ValueResidual1.606.90.8038.09622.5691.801.7097.09033-.0732.002.0117-.01174-.7362.702.8169-.11695-1.3622.502.7162-.21626.0007.507.5000.00007.5193.002.9176.08248-.1353.503.5215-.02159-1.4033.503.7228-.222810.4784.003.9241.075911-.1764.504.5280-.028012.4454.804.7293.0707131.0715.004.8300.170014-1.4865.505.7359-.2359151.6845.505.2326.2674a Dependent Variable: Y附录:处理实例的数据:删除前的数据处理:Coefficients(a)Model Unstandardized CoefficientsStandardized CoefficientstSig.BStd. ErrorBeta1(Constan)-42.1313.339 -12.618.000X.895.016.99754.450.000a Dependent Variable: YModel Summary(b)ModelRR SquareAdjusted R SquareStd. Error of the EstimateChange StatisticsR Square ChangeF Changedf1df2Sig. F Change1.997(a).995.995.37889.9952964.792115.000a Predictors: (Constant), Xb Dependent Variable: YCasewise Diagnostics(a)Case NumberStd. ResidualYPredicted ValueResidual1-.651131.79132.0366-.24662-.178131.79131.8575-.06753-.161135.02135.0812-.06124.056135.55135.5289.02115.094136.46136.4244.03566-.111136.83136.8721-.04217.138137.82137.7676.05248.141138.00137.9466.05349-.410138.06138.2153-.155310-.200138.05138.1257-.075711-.383140.04140.1853-.1453123.587142.44141.08081.359213.004145.47145.4685.001514-.851144.34144.6626-.322615-.642146.30146.5431-.243116-.205147.54147.6176-.077617-.228147.80147.8863-.0863a Depende

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论