已阅读5页,还剩7页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ETL数据预处理技术主讲人:张宏伟任务8-2-3异常值处理01.异常值处理概述02.目录异常值判断CONTENTS04.样例解析03.异常值的处理方式所谓异常值,就是在数据集中存在不合理的值,又称离群点。例如年龄为负数,成绩大于100或小于零,商品评分超出5分或商品日销售量远远超过年销售量等,都属于异常值的范围。(1)散点图分析(2)简单统计分析(3)3δ原则
3δ原则是指当数据服从正态分布时,根据正态分布的定义可知,距离平均值3δ之外的概率为P(|x-μ|>3δ)<=0.003,这是属于极小的概率事件,因此,当样本距离平均值大于3δ时,则认定该样本为异常值。(4)箱型图分析箱型图提供了一个识别异常值的标准,即大于或小于箱型图设定的上下界的数值即为异常值。常用的异常值处理方法有以下4种。(1)删除含有异常值的记录。(2)将异常值视为缺失值,按照缺失值的处理方法来处理。(3)用平均值来修正异常值。(4)对异常值不处理。现有某商场的产品销售数据如右图所示:要求:将amount列的异常值替换为该列的中位数首先读取数据:输出结果如下:(1)查看统计信息,代码如下:输出结果如下:如图所示,统计出了每一列平均值、中位数、方差等数据(2)根据历史数据得出结论,销售数量在0-20之间,所以将异常数据替换为中位数,代码如下:输出结果如下:小结函数使用异常值的判断删
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年可降解材料在环境保护中的实际应用案例
- 钢结构交叉作业安全技术交底
- 初中八年级科学·生物的呼吸与呼吸作用知识清单
- 初中八年级生物(2024新教材)《光声之驿·生命感知》深度学习导学案
- 《Windows Server网络运维:网卡更换后IP地址的自动化与策略化恢复》教案
- 初三英语 Unit 5 Exploring Science Lesson 25 The Scientific Inquiry in Action 教案
- 八年级数学平行四边形性质核心知识清单
- 初三历史“大国竞合与体系演进”跨单元专题复习课教案
- 初中八年级道德与法治《公民权利义务相统一》议题式导学案22
- 2026国际中文教师证考试教学能力综合试题及答案
- 武汉市2024-2025学年七年级下学期期末考试数学试卷及答案
- 样板示范工程管理制度
- 家电卖场卫生管理制度
- 施工项目机械租赁服务方案
- 输变电工程多维立体参考价(2025年版)
- 海外出国劳务合同8篇
- 大话机器人智慧树知到期末考试答案章节答案2024年青海大学
- 食品保藏探秘智慧树知到期末考试答案章节答案2024年中国海洋大学
- 商务英语专业四级
- 充棉机安全操作规程模版
- 煤矿淘汰设备目录(全六批)
评论
0/150
提交评论