使用Pandas进行数据分析数据清洗_第1页
使用Pandas进行数据分析数据清洗_第2页
使用Pandas进行数据分析数据清洗_第3页
使用Pandas进行数据分析数据清洗_第4页
使用Pandas进行数据分析数据清洗_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据分析与挖掘主讲教师:贺萌《大数据导论》课程Introductiontobigdata使用Pandas进行数据分析数据清洗01数据清洗是一项复杂且繁琐的工作,同时也是整个数据分析过程中最为重要的环节。数据清洗的目的在于提高数据质量,将脏数据清洗干净,使原数据具有完整性、唯一性、权威性、合法性、一致性等特点。数据清洗数据清洗数据清洗脏数据不在指定范围内格式非法没有实际意义数据清洗Pandas中常见的数据清洗操作包括:重复值异常值缺失值空值和缺失值的处理空值一般表示数据未知、不适用或将在以后添加数据。缺失值是指数据集中某个或某些属性的值是不完整的。一般空值使用None表示,缺失值使用NaN表示。空值和缺失值的处理Pandas中提供了一些用于检查或处理空值和缺失值的函数或方法。使用isnull()和notnull()函数可以判断数据集中是否存在空值和缺失值。对于缺失数据可以使用dropna()和fillna()方法对缺失值进行删除和填充。当数据中出现了重复值,在大多数情况下需要进行删除。重复值的处理重复值的处理Pandas提供了两个函数专门用来处理数据中的重复值,分别为duplicated()和drop_duplicates()方法。duplicated()方法用于标记是否有重复值。drop_duplicates()方法用于删除重复值。它们的判断标准是一样的,即只要两条数据中所有条目的值完全相等,就判断为重复值。异常值是指样本中的个别值,其数值明显偏离它所属样本的其余观测值,这些数值是不合理的或错误的。异常值的处理要想确认一组数据中是否有异常值,则常用的检测方法有3σ原则(拉依达准则)和箱形图。异常值的处理3σ原则,又称为拉依达原则,它是指假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,凡是超过这个区间的误差都是粗大误差,在此误差的范围内的数据应予以剔除。3σ原则在正态分布概率公式中,σ表示标准差,μ表示平均数,f(x)表示正态分数函数,具体如下:3σ原则正态分布函数如下图所示。3σ原则根据正态分布函数图可知,3σ原则在各个区间所占的概率如下所示:(1)数值分布在(μ-σ,μ+σ)中的概率为0.682。(2)数值分布在(μ-2σ,μ+2σ)中的概率为0.954。(3)数值分布在(μ-3σ,μ+3σ)中的概率为0.997。3σ原则数值几乎全部集中在(μ-3σ,μ+3σ)]区间内,超出这个范围的可能性仅占不到0.3%。所以,凡是误差超过这个区间的就属于异常值,应予以剔除。箱形图是一种用作显示一组数据分散情况的统计图。Pandas中提供了一个boxplot()方法,专门用来绘制箱形图。箱形图箱形图从输出的箱形图中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论