补充异常值的识别与处理.ppt_第1页
补充异常值的识别与处理.ppt_第2页
补充异常值的识别与处理.ppt_第3页
补充异常值的识别与处理.ppt_第4页
补充异常值的识别与处理.ppt_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

异常值的识别与处理 箱式图 亦称盒形图 boxplot 统计图表一章中已讨论 利用中位数 上下四分位数来描述数据分布的倾斜性 如果分布是对称的 上下四分位数与中位数的距离 空间 应相等 如果上四分位数比下四分位数离中位数更远 则此分布是正偏 反之 负偏 异常值 outlyingvalue 定义 一个观察值x如属于下面情形之一 则为异常值 若一个观察值x属于下面情形之一 则称为极端异常值 extremeoutlyingvalue 对于箱式图 在样本中从上四分位数到最大的非异常值之间画一垂直的条形 在样本中从下四分位数到最小的非异常值之间画一垂直的条形 在样本中识别异常值和极端异常值 并分别用 0 及 表示 抽样误差 用上述方法识别异常值是描述性的 它对样本大小很敏感 即大样本时可能有更多的 异常值 被检查出来 因此 识别异常值的方法应建立在假设检验的基础上 异常值的认识 前面定性描述了可能存在异常值 实际上某些异常值有时会对研究结论产生重要影响 识别异常值并将其排除在外 或至少作有无异常值的统计结论 异常值的定量描述 常用方法是以远离均数的标准差倍数的多少倍来描述 在一个样本中把这个统计量应用于最极端的观察值时称为极端学生化偏差 extremestudentizeddeviate ESD EDS应取多大才能列为异常值 回答是与样本含量n有关 对于样本含量为n的正态分布 建立在ESD统计量上的抽样分布的临界值由B Rosner 1983 给出 列于表10 记住 此界值依赖于n及你定义的第p个百分位点 因此该统计量的分界点记为ESDn p 单个异常值的判断 若ESD 该界值 则认为该观察值是异常值 反之不认为存在异常值 异常值的定量描述 多个异常值的判断 设x1 xn中大多数数据呈正态分布 但我们怀疑有k个异常点 此处k min n 10 5 其中 n 10 是一个不超过n 10的最大整数 H0 没有异常值 H1 至少有1个但不超过k个异常值 用下面的法则去识别异常值 识别多个异常值的法则 记X n 点上达到ESD 其值为ESD n 移去X n 再重新计算均数 标准差 ESD等 在样本点X n 1 达到ESD 其值为ESD n 1 类推 直到有k个ESD值 ESD n ESD n 1 ESD n k 1 与其对应的原始数据为X n X n 1 X n k 1 从附表10找出每一个ESD对应的界值 分别判断之 除非我们很有把握知道只可能有一个异常值 一般情况下应按多个异常值来处理 若发现有异常值 又该怎么办 异常值的处理 方法一 将有异常值与删去异常值情形下去分析数据以便比较 也可以不删去异常值 但将它们在数据分析中的作用尽量减少 秩转换非参数统计分析

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论