剔除异常值的方法.docx

上传人：柠*** IP属地：江西上传时间：2020-04-16 格式：DOCX 页数：4 大小：23.81KB 积分：20 举报 版权申诉

全文预览已结束

下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1.拉依达准则法（3）：简单，无需查表。测量次数较多或要求不高时用。是最常用的异常值判定与剔除准则。但当测量次数=10次时，该准则失效。如果实验数据值的总体x是服从正态分布的，则式中，与分别表示正态总体的数学期望和标准差。此时，在实验数据值中出现大于3或小于3数据值的概率是很小的。因此，根据上式对于大于3或小于3的实验数据值作为异常值，予以剔除。在这种情况下，异常值是指一组测定值中与平均值的偏差超过两倍标准差的测定值。与平均值的偏差超过三倍标准差的测定值，称为高度异常的异常值。在处理数据时，应剔除高度异常的异常值。异常值是否剔除，视具体情况而定。在统计检验时，指定为检出异常值的显著性水平=0.05，称为检出水平；指定为检出高度异常的异常值的显著性水平=0.01，称为舍弃水平，又称剔除水平(reject level)。标准化数值（Z-score）可用来帮助识别异常值。Z分数标准化后的数据服从正态分布。因此，应用Z分数可识别异常值。我们建议将Z分数低于-3或高于3的数据看成是异常值。这些数据的准确性要复查，以决定它是否属于该数据集。2.肖维勒准则法（Chauvenet）：经典方法，改善了拉依达准则，过去应用较多，但它没有固定的概率意义，特别是当测量数据值n无穷大时失效。3.狄克逊准则法（Dixon）：对数据值中只存在一个异常值时，效果良好。担当异常值不止一个且出现在同侧时，检验效果不好。尤其同侧的异常值较接近时效果更差，易遭受到屏蔽效应。4.罗马诺夫斯基（t检验）准则法：计算较为复杂。5.格拉布斯准则法（Grubbs）：和狄克逊法均给出了严格的结果，但存在狄克逊法同样的缺陷。朱宏等人采用数据值的中位数取代平均值，改进得到了更为稳健的处理方法。有效消除了同侧异常值的屏蔽效应。国际上常推荐采用格拉布斯准则法。这些方法，都有各自的特点，例如，拉依达准则不能检验样本量较小（显著性水平为0.1时，n必须大于10）的情况，格拉布斯准则则可以检验较少的数据。在国际上，常推荐格拉布斯准则和狄克逊准则。概述：一组测量数据中，如果个别数据偏离平均值很远，那么这个(这些)数据称作“可疑值”。如果用统计方法例如格拉布斯(Grubbs)法判断，能将“可疑值”从此组测量数据中剔除而不参与平均值的计算，那么该“可疑值”就称作“异常值(粗大误差)”。本文就是介绍如何用格拉布斯法判断“可疑值”是否为“异常值”。测量数据：例如测量10次(n10)，获得以下数据：8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。排列数据：将上述测量数据按从小到大的顺序排列，得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。可以肯定，可疑值不是最小值就是最大值。计算平均值x-和标准差s：x-7.89；标准差s2.704。计算时，必须将所有10个数据全部包含在内。计算偏离值：平均值与最小值之差为7.894.73.19；最大值与平均值之差为14.07.896.11。确定一个可疑值：比较起来，最大值与平均值之差6.11大于平均值与最小值之差3.19，因此认为最大值14.0是可疑值。计算Gi值：Gi(xix- )/s；其中i是可疑值的排列序号10号；因此G10( x10x- )/s(14.07.89)/2.7042.260。由于 x10x-是残差，而s是标准差，因而可认为G10是残差与标准差的比值。下面要把计算值Gi与格拉布斯表给出的临界值GP(n)比较，如果计算的Gi值大于表中的临界值GP(n)，则能判断该测量数据是异常值，可以剔除。但是要提醒，临界值GP(n)与两个参数有关：检出水平 (与置信概率P有关)和测量次数n (与自由度f有关)。定检出水平：如果要求严格，检出水平可以定得小一些，例如定0.01，那么置信概率P10.99；如果要求不严格，可以定得大一些，例如定0.10，即P0.90；通常定0.05，P0.95。查格拉布斯表获得临界值：根据选定的P值(此处为0.95)和测量次数n(此处为10)，查格拉布斯表，横竖相交得临界值G95(10)2.176。比较计算值Gi和临界值G95(10)：Gi2.260，G95(10)2.176，GiG95(10)。判断是否为异常值：因为GiG95(10)，可以判断测量值14.0为异常值，将它从10个测量数据中剔除。余下数据考虑：剩余的9个数据再按以上步骤计算，如果计算的GiG95(9)，仍然是异常值，剔除；如果GiG95(9)，不是异常值，则不剔除。本例余下的9个数据中没有异常值。格拉布斯表临界值GP(n)Pn0.950.99Pn0.950.9931.1351.155172.4752.78541.4631.492182.5042.82151.6721.749192.5322.85461.8221.944202.5572.88471.9382.097212.5802.91282.0322.231222.6032.93992.1102.323232.6242.963102.1762.410242.6442.987112.2342.485252.6633.009122.2852.550302.7453.103132.3312.607352.8113.178142.3712.659402.8663.240152.4092.705452.9143.292162.4432.747502.9563.336对异常值及统计检验法的解释测量过程是对一个无限大总体的抽样：对固定条件下的一种测量，理论上可以无限次测量下去，可以得到无穷多的测量数据，这些测量数据构成一个容量为无限大的总体；或者换一个角度看，本来就存在一个包含无穷多测量数据的总体。实际的测量只不过是从该无限大总体中随机抽取一个容量为n(例如n10)的样本。这种样本也可以有无数个，每个样本相当于总体所含测量数据的不同随机组合。样本中的正常值应当来自该总体。通常的目的是用样本的统计量来估计总体参量。总体一般假设为正态分布。异常值区分：样本中的正常值应当属于同一总体；而异常值有两种情况：第一种情况异常值不属于该总体，抽样抽错了，从另外一个总体抽出一个(一些)数据，其值与总体平均值相差较大；第二种情况异常值虽属于该总体，但可能是该总体固有随机变异性的极端表现，比如说超过3的数据，出现的概率很小。用统计判断方法就是将异常值找出来，舍去。犯错误1：将本来不属于该总体的、第一种情况的异常值判断出来舍去，不会犯错误；将本来属于该总体的、出现的概率小的、第二种情况的异常值判断出来舍去，就会犯错误。犯错误2：还有一种情况，不属于该总体但数值又和该总体平均值接近的数据被抽样抽出来，统计检验方法判断不出它是异常值，就会犯另外一种错误。异常值检验法：判断异常值的统计检验法有很多种，例如格拉布斯法、狄克逊法、偏度-峰度法、拉依达法、奈尔法等等。每种方法都有其适用范围和优缺点。格拉布斯法最佳：每种统计检验法都会犯犯错误1和错误2。但是有

人人文库> 全部分类> 应用文书 > 项目管理

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

剔除异常值的方法.docx

文档简介

温馨提示

最新文档

评论

剔除异常值的方法.docx

文档简介

温馨提示

最新文档

评论

相关文档