标准解读
《GB/T 4883-1985 数据的统计处理和解释 正态样本异常值的判断和处理》这一标准,主要针对的是在数据统计分析过程中遇到的数据点偏离正常范围的情况。该标准提供了一系列方法来识别这些可能影响数据分析准确性的异常值,并给出了如何处理这类数值的具体指导。
首先,该标准定义了什么是异常值:在一个给定的数据集中,如果某个观测值明显不同于其他大多数观测值,则可被视为异常值。异常值的存在可能是由于测量错误、记录失误或确实存在极端情况等原因造成的。
接着,标准介绍了几种用于检测正态分布数据中异常值的方法,包括但不限于格拉布斯检验(Grubbs' test)、狄克逊检验(Dixon's Q test)等。每种方法都有其适用条件及局限性,选择合适的方法取决于数据集的具体特性以及研究者的需求。
对于已识别出的异常值,《GB/T 4883-1985》建议采取适当措施进行处理。这可能包括直接删除异常值、使用更稳健的统计方法来减少异常值对结果的影响,或者进一步调查异常值产生的原因以决定最佳行动方案。重要的是,在任何情况下都应保持透明度,即清楚地记录下所做的决策及其理由。
此外,该标准还强调了在整个过程中保持客观性和科学严谨性的必要性。即使面对看似“不合群”的数据点时,也应当谨慎行事,避免无根据地排除信息量丰富的观测结果。
如需获取更多详尽信息,请直接参考下方经官方授权发布的权威标准文档。
....
查看全部
文档简介
中华人民共和国国家标准883一85of in 异常观测值)是指样本中的个别值,其数值明显偏离它(或它们)所属样本的其余观测值。异常值可能是总体固有的随机变异性的极端表现。这种异常值和样木中其余观测值属于同一总体。异常值也可能是由于试验条件和试验方法的偶然偏离所产生的后果,或产生于观测、计算、记录中的失误。这种异常值和样本中其余观测值不属于同一总体。国家标准358计学名词及符号。考查样本中诸观测值(或经过一定的函数变换后得到的值),除了个别异常值外,其余大部分值(样木主体)来自同一正态总体或近似正态总体。关于样本来自正态总体或近似正态总体的判断,可以根据物理上的、技术仁的知识;也可通过与考查对象有同样性质的以往数据,进行正态性检验,其原理和方法见国家标准882据的统计处理和解释一正态性检验。侧情形:根据以往经验,异常值都为高端值;下侧情形:根据以往经验,异常值都为低端值;双侧情形:异常值是在两端都可能出现的极端值。注:1_侧情形和下侧情形统称单侧情形。规定在样本中检出异常值的个数的上限(占样本观测值个数的较小比例),当超过了这个上限,对此样本的代表性,应作慎重的研究和处理。定适宜的异常值检验规则(见4、5、6章);指定为检出异常值的统计检验的显著性水乎a,简称检出水平,根据各观测值代入检验规则中给出的统计量,所得值若超过临界值,则判断事先确定待查的极端观测值为异常值;否则就判断“没有异常值”。检出水平1%(或10/0 )大1_1的h 标准规定的方法是重复使用同一种判断单个异常值的检验规则,不能检出异常值,则整个检验停止:若检出再用相同的检出水平和相同的规则,对除去已检出的异常值后余卜的观测值继续检验. 1检出的异常值个数超过上限为止。国家标准局1985尽可能寻找产生异常值的技术上的、物理为处理异常值的依据。常值保留在样本中参加其后的数据分析,允许剔除异常值,追加适宜的观测值计人样本;在找到实际原因时修正异常值。衡寻找产生异常值原因的花费,正确判断异常值的得益及错误剔除正常观测值的风险,确定实施下述三个规则中的一个。对任何异常值,若无充分的技术上的、物理上的说明其异常的理由,则不得剔除或进行修正。异常值中除有充分的技术上的、物理上的说明其异常的理由者外,表现统计上高度异常的,意义是:指定为判断异常值是否高度异常的统计检验的显著性水平a*,简称剔除水平,其值小于检出水平a;实施时,即对检出的异常值,替检出水平在剔除水平下此检验是显著的,则判此异常值表现高度异常。在重复使用同一检验规则的情况下,每次检出了异常值后都要再检验它在剔除水平下是否高度异常。若某次检脸中检出的异常值为高度异常,则这个异常值及在它前面检出的异常值都可被剔除或进行修正。除特殊情况外,剔除水平一般采用1%或更小,而不宜采用大于5%的值。在选用剔除水平的情况下,检出水平可取5%或再大些。剔除或修正的观测值及其理由应予记录以备查询。验法或奈尔检验法的重复使用。,一。(n),判断最大值x(n)为异常值,否则,判断“没有异常值”。情况下,在表a*的临界值R,一。*(n) R;一。(n),判断x(.)为高度异常;否则,判断“没有高度异常的异常值”。要使用统计量R;,二(万一x(,) )J 判断的是最小值Q)定检出水平a,在表a/2的临界值K,一。/2(n) R,一。/:( n),判断最大值x(.)为异常值;当RnR R;一。2(n),判断最小值x(1)为异常值;否则,判断“没有异常值”。情况F,在表a*/2的临界值R, -*/2(n) R.,且R,R,_。:(。),判断最大值叭。)为高度异常,当酬 R,且R,一口2(n),判断最小值x(,)为高度异常;否则,判断“没有高度异常的异常值”。查某种化纤纤维卜收缩率,得25个独众观测值:单位%)。已知在正常条件下,测试量服从正态分布,。二。考查下侧的异常值。规定至多检出三个异常值,检出水平剔除水平a* = 1%。对。25,得x = 5. 2856, R 25二(5), 5. 375,( 4)4) =4),(。=23, 3),一。(n),判最大值x(。)为异常值;否则,判断“没有异常值”。少的情况下,在表a*的临界值:一。.(n)当GG、一。(n),判高度异常;否则,判断“没有高度异常的异常值”。要使用统计量G;,=(r)/,l)d。要判断的是最小观测值x(G;,的值,确定检出水平a,在表a/2的临界值G, -/z (n) ;当G G;,,且GG;一。/:( n),判断x(。)为异常值;当G G,且G;, G,一。/:(n),判为异常值;否则,判断“没有异常值”。在给出剔除水平a*的情况下,在表a*/2的临界值存)883)盆,且GG;一。:(n),判断高度异常;当, 盆)G,一。:(n),判断x(为高度异常;否则,判断“没有高度异常的异常值”。小而大排位:检验最大值是否异常值,取检出水平a=5%。计算x=(2+(+(2+(2+(2+ (2+ (2+(+(+(2一10(7/9= 2. 704(计算G,。二(x(z) ( 10)10),判断14为异常值。x(.)a x,.”n0 x,)一x(,)D二,。一x1n, 11 13x,.)一x(= x,盯一x,2)二一x(,1x(厂sn,n, 14 x,二l 二r 竺x7x, 2、一表.(n);c DD,一。(n),判断x(n)为异常值,检验低端值时,当D D;一。(n),判为异常值;否则,判断“没有异常值”;在给出剔除水平a*的情况下,在表a*的临界值D,一. (n)(n),判断x(n)为高度异常;检验低端值时,当DD,n),判断x()为高度异常;否则,判断“没有高度异常的异常值”。双侧情形的检验法计算值,这里定检出水平a,在表当DD.(n),判断x(。)a(n)D D, D D,Q(n),判断异常值;否则,判断“没有异常值”。情况下,在表a*的临界值D,一a(n)883一85当D/),D 1)1一。( n),判断X(-)为高度异常;当DD, D(”),判断韧变异常;4J则,有高度异常的异常值”。程(自小而大排411)分别为1125, 1248, 1250, 1259, 1273, 1279, 1285,1285,1293, 1300, 1305, 1312, 1315, 1324, 1325, 1350(单位:m)定a= 1%使用D二:122x(3)一 1250一1125x(I ) 1324一1125 125二6)=D6),16,计算D=6)一 1350一1324X(16)一X(3)1350一125026“力0,99(16)。.。(16),故判断最小值1125为异常值。6未知标准差情形下判断和处理异常值的规则(n)检出异常值的个数上限大于1。准使用者可根据实际要求选定实施其中一种检验法(参考附录B)。查样本诸观测值,确认它们的样本主体来自正态总体,而极端值应较明显的偏离样本主体。 计算偏度统计量11不于馨(x,一二)3二仁全二3一3万仓二23xx;+2n(x)口b,=二_1(x,一二)日3/2C x2一,在表n);6s b;一。(n),判断最大值x(-)为异常值,否则,判断“没有异常值”。对一b,试一。( n),判断最小值x( t)为异常值;否则,判断“没有异常值”。情况下,在表a*的临界值b:一。(n)3对上侧情形,当b, (n),判断x(n)为高度异常。对下侧情形,当一认 b,一。(n),判断x()为高度异常;否则,判断“没有高度异常的异常值”。.计算峰度统计量n叉(x:一万)J仁客毕4错小6- 26(在表5查出对应n, n);鲜一。(。),判断离均值万最远的观测值为异常值;当n),判断“没有异常值,;情况F,在表a的临界值0)n), 则,判断“没有高度异常的异常值,。常值问题早期研究巾的著名实例(1883年),对观测金星垂直半径的15个观测数据的残差:(单位:秒)。先考查使用条件,用正态概率纸(用法见国家标准882态性检验)本上体在图仁近似在一条直线近旁,当画出适宜的直线后,样本端或两端的个别点明显向外偏离,故可用偏度一峰度检验法。计算得883一:5乏门 x 0,018 X X (05 018)三/0之后,对余下14个值4曰乏门 刃“417671 x 0,1193 x 6 x (2 x 1/2=164对b 5),去这个观测值以外的14个值(使用r 22x(工(12)X()4)一x(3)x(3)一x(,)() 24 2一x(1)04492对a= 5%,临界值为 95(14 )=67883一85附录考件)表95%9 %900095 75883一90085 :; 172737475!5 /99 一900095%0n)93?. 1993,370410491)437:3. ,勺J,d,8一):1仗,厂犯邪邓34时,.昨J,两了而0尸,户叮,几八.1(1工c x(. 一工佃一(时一x。:个.! r 或一一r 1,X(n)一r,2)X(比曰xrZ=x,- X)X工门)1)0.:牛1一:,22二二n)- 二工J)一X(x(n)一x,aT(。一v- x上侧狄克逊检验法的临界值表盯统计量95 一统计鼠95 0 和:1z 883一85表 一95%998.:()790. 630. 600. 57表%9)考件)同要求,在选择时应注意卜述儿点:要日的是找出异常值,从而进行生产诊断、新规律探索、参数,仁要总休的某个参数,矛找异常伯的1 要日的在一判断总休是否符合所考查的要求,子找异常仇的门的卜要在确定这些值是否计人样本,以使判断结果尽量准确。识别为目的,选择判断异常值的上要标准在根据所判断错误带来的风险不同,选择适宜的规则。判断异常值,就应把判断和处理异常值的方法和进一步竹估计或检验的准确性统起来考虑。如使用格拉布斯检验法作估计,实际是一种新x,+x)/。当挥。威存,一. (n)(+x ,)(:;一1)当(r,一。(n)时也可以不经过采用稳健侧如:在塑料材料时使用截割均值,把12个观测值的最大值与最小值舍去,以余卜的10个观测值作算术平均以计p.(体操比赛评分时,也把诸裁判报出的最高分和最低分舍去,以余I,并不需要追查舍去的一定是异常值,而这种估计也很好地顶防了异常们的不利影响。判断其高度异常)的统计此要尽可能地利用已获得的标准差的信息。断准确性好,它适用于.常稳定的生产、试验、时有多个样本,可验证它们的标准差相等,从而把各个样本的标准差f,i为共同的标准差的估计。臼对1单独一个样本来说,就存在对标准差的独立估计。本标准没有涉及这类,它适用验室间试脸中$不知别的样木的标准差能否代表本批样木,则使用木批样木来估计标准差。六章各给出该注意拉布斯检脸法只有判断异常杭的功效最优性,而狄克逊检验确判断异常俏的功效与格拉布斯检90法相差甚微。在出现多个异常仇时不易L 到以证明,重复使用同一检脸法可能犯判多为少(只检出湘错部分观测俏为异常值)的错误。+?具有1!:确1r n. i : 883一1:?用狄克逊检0重复使用格拉布斯的功效则较差,故未采用。来自正态分布的样本都可能被它拒绝,但这不只是正态样本主体加异常值的模型,所以使用偏度一峰度检验法时,要满足规定的使用条件。比如,在正态概率纸上,若样木上体不是基本在一条直线的近旁;或是样本上体基本在一条直线近旁,而两端的值相对于这条直线而言不是向外偏离而是向内偏离(如下图),采用偏度一峰度检验法就可能把一部分观测值误判为异常值。筋朋朋川的汕切翎约11)川卜一日一曰一厂介阳万而川一一川1!了川山一麟耳盯即挂娜拜照姗幕既升认姗珊团基翔排井渊柑 =1签愿挂舰葬照继本排排山上耳睽荟封习囊魏缝耳习科一住漱洪一期那四衬1拱卡哪四耳聊珊盯t 川廿二廿才咐件浦勺目沐钊马栩材渊圳绷甫琳圈耀仁.患书I7;感琪山戮互瑕泪圳拥孤麟口两万一一 一!一一!.,!川,一两和而而丽珊以酬材几价训I,珊渊圳姗珊攀鲁华, 下:平淤阳洲溯碑簇月创矛万口枣币叮挂替等用毅舜理租拜黯溺赚子共黔炙;!恻t=一洲抽裂1阵准胡朋栩服举挂瑕瓣翱那骤日0藤雄幽珊侧g州臼只练渊洲翻舞瀚1田阵纬一扫现翔蒸r,洲5拥绷孤襄睡睡彬刻斑目城川: 麒协郡试_ +1,一于俨一;卜,.一寸卜 一才土一
温馨提示
- 1. 本站所提供的标准文本仅供个人学习、研究之用,未经授权,严禁复制、发行、汇编、翻译或网络传播等,侵权必究。
- 2. 本站所提供的标准均为PDF格式电子版文本(可阅读打印),因数字商品的特殊性,一经售出,不提供退换货服务。
- 3. 标准文档要求电子版与印刷版保持一致,所以下载的文档中可能包含空白页,非文档质量问题。
最新文档
- 跨境电商售卖合同协议
- 运输合同补充协议模板
- 转让机器技术合同协议
- 水桶购买协议书
- 期货减产协议书
- 《血液输注原理与应用》课件
- 三方出资合伙合同
- 遮光补偿协议书合同协议
- 通风空调工程合同协议
- 谅解协议书格式模板
- 国家能源集团陆上风电项目通 用造价指标(2024年)
- 【MOOC】跨文化交际-苏州大学 中国大学慕课MOOC答案
- 机械原理-干粉压片机设计说明书
- 织带绘图方法
- 防雷检测能力评价考试题库大全-下(简答题汇总)
- 电缆桥架安装施工方案-精品
- 青少年模拟法庭剧本(敲诈勒索)
- 万用表校准报告
- 新闻采访与写作(马工程笔记)
- DB32∕T 1703-2011 科技成果转化服务规范总则
- SQ-02-绿色食品种植产品调查表0308
评论
0/150
提交评论