补充异常值的识别与处理_第1页
补充异常值的识别与处理_第2页
补充异常值的识别与处理_第3页
补充异常值的识别与处理_第4页
补充异常值的识别与处理_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

异常值的识别与处理箱式图亦称盒形图(boxplot),箱须图(box-whiskerplot),统计图表一章中已讨论。利用中位数、上下四分位数来描述数据分布的中心位置和分布范围。

。如果分布是对称的,上下四分位数与中位数的距离(空间)应相等;如果上四分位数比下四分位数离中位数更远,则此分布是正偏;反之,负偏。箱图(boxplot)也称箱须图(box-whiskerplot),用于反映一组或多组连续型定量数据分布的中心位置和分布范围。

异常值(outlyingvalue,outlier)定义:一个观察值x如属于下面情形之一,则为异常值。若一个观察值x属于下面情形之一,则称为极端异常值(extremeoutlyingvalue)。对于箱式图在样本中从上四分位数到最大的非异常值之间画一垂直的条形;在样本中从下四分位数到最小的非异常值之间画一垂直的条形;在样本箱式图中识别异常值和极端异常值,并分别用“0”及“*”表示。抽样误差用上述方法识别异常值是描述性的,它对样本大小很敏感,即大样本时可能有更多的“异常值”被检查出来;因此,识别异常值的最好应建立在假设检验的基础上。异常值的认识前面定性描述了可能存在异常值,实际上某些异常值有时会对研究结论产生重要影响。识别异常值并将其排除在外,或至少作出有无异常值的统计结论。异常值的定量描述常用方法是以远离均数的标准差倍数的多少倍来描述。在一个样本中把这个统计量应用于最极端的观察值时称为极端学生化偏差(extremestudentizeddeviate,ESD)。EDS应取多大才能列为异常值?回答是与样本含量n有关。对于样本含量为n的正态分布,建立在ESD统计量上的抽样分布的临界值由B.Rosner(1983)给出,列于表10。记住:此界值依赖于n及你定义的第p个百分位点,因此该统计量的分界点记为ESDn,p。单个异常值的判断:若ESD>该界值,则认为该观察值是异常值;反之不认为存在异常值。异常值的定量描述多个异常值的判断设x1,…,xn中大多数数据呈正态分布,但我们怀疑有k个异常点,此处k=min([n/10],5)

其中[n/10]是一个不超过n/10的最大整数。H0:没有异常值;H1:至少有1个但不超过k个异常值。用下面的法则去识别异常值:识别多个异常值的法则记x(n)点上达到ESD,其值为ESD(n);移去x(n),再重新计算均数、标准差、ESD等,在样本点x(n-1)达到ESD,其值为ESD(n-1);类推,直到有k个ESD值:ESD(n),ESD(n-1),…,ESD(n-k+1)。与其对应的原始数据为x(n),x(n-1),…,

x(n-k+1)。从附表10找出每一个ESD对应的界值,分别判断之。除非我们很有把握知道只可能有一个异常值,一般情况下应按多个异常值来处理。若发现有异常值,又该怎么办?异常值的处理方法一,将有异常值与删去异常值情形下去分析数据以便比较;也可以不删去异常值,但将它们在数据分析中的作用尽量减少:①秩转换非参数统计分析;②稳健

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论