版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
任务4.1数据清洗Python数据分析学习目标及重难点学习目标:了解数据清洗的概念素养目标:了解数据质量对数据分析重要性学习重点:掌握脏数据的处理方法目录学习内容1.数据清洗概念2.python中脏数据清洗的函数介绍01数据清洗概念1.数据清洗概念数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。数据清洗(Datacleansing/Datacleaning/Datascrubbing)可以有多种表述方式,其定义依赖于具体的应用。因此,数据清洗的定义在不同的应用领域不完全相同。目前业界一般认为,数据清洗的含义是检测和去除数据集中的噪声数据和无关数据,处理遗漏数据,以及去除空白数据域和知识背景下的白噪声。1.数据清洗概念数据清洗是一项复杂且繁琐的工作,同时也是整个数据分析过程中最为重要的环节(如下图)。其目的在于提高数据质量,将脏数据清洗干净,使原数据具有完整性、唯一性、权威性、合法性、一致性等特点。2.数据质量从适用性的角度来看,数据质量是一个相对的概念(与决策有关)。对于不同的决策者,大家对数据质量的高低要求也是不同的。对于一个无关的数据,即使质量很高,对决策也起不到任何作用。数据质量通俗定义例如,一个医院的病人基本信息通常包括姓名、年龄、血型、身高、地址等内容,如果想要研究某种疾病易发的年龄段,那么年龄信息的数据质量就非常的重要,而其它信息(即血型、身高、地址等信息)的数据质量相对来说作用不大。数据质量举例数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。但是,在不同的业务场景中,数据消费者对数据质量有着各自不同的观点数据质量专业定义
2.数据质量数据质量特点:01准确性02完整性03简洁性04适用性无错误数据无缺失数据无冗余数据满足业务需求02python中数据清洗常用方法1.脏数据处理常用方法2.脏数据处理常用函数
空值和缺失值处理类别含义标志检测函数处理函数空值一般表示数据未知、不适用或将在以后添加数据noneisnull()notnull()删除:dropna()填充:fillna()缺失值指数据集中某个或某些属性的值是不完整的。NaN2.脏数据处理常用函数
空值和缺失值处理(1)isnull()函数上述函数中只有一个参数obj,表示检查空值的对象。isnull()函数返回一个布尔类型的值,结果为True,则说明有空值或缺失值,否则为False。(NaN或None映射到True值,其它内容映射到False)pandas.isnull(obj)说明:函数notnull()与isnull()功能相同,不同之处在于,前者发现数据中有空值或缺失值时返回False,后者返回的是True。2.脏数据处理常用方法
空值和缺失值处理(2)dropna()方法的作用是删除含有空值或缺失值的行或列dropna(axis=0,how='any',thresh=None,subset=None,inplace=False)axis:确定过滤行或列。how:确定过滤的标准。thresh:表示有效数据量的最小要求。若传入了2,则是要求该行或该列至少有两个非NaN值时将其保留。2.脏数据处理常用方法
空值和缺失值处理(3)Pandas中的fillna()方法可以实现填充空值或缺失值fillna(value=None,method=None,axis=None,inplace=False,limit=None,downcast=None,**kwargs)value:用于填充的数值。method:表示填充方式,默认值为None。limit:
可以连续填充的最大数量,默认None。2.脏数据处理常用方法
空值和缺失值处理如果希望A列缺失的数据使用数字“4.0”进行填充,B列缺失的数据使用数字“5.0”来填充,那么填充前后的效果如下图所示。2.脏数据处理常用方法
重复值处理方法含义语法duplicated()用于标记是否有重复值duplicated(subset=None,keep='first')subset:用于识别重复的列标签或列标签序列,默认识别所有的列标签keep:删除重复项并保留第一次出现的项,取值可以为first、last或Falsedrop_duplicates()用于删除重复值drop_duplicates(subset=None,keep='first',inplace=False)Inplace:接收一个布尔类型的值,表示是否替换原来的数据,默认为False。2.脏数据处理常用方法
重复值处理对于duplicated()方法,有如下两点要强调:(1)只有数据表中两个条目间所有列的内容都相等时,duplicated()方法才会判断为重复值。(2)duplicated()方法支持从前向后(first)和从后向前(last)两种重复值查找模式,默认是从前向后查找判断重复值的。换句话说,就是将后出现的相同条目判断为重复值。2.脏数据处理常用方法
异常值处理异常值是指样本中的个别值,其数值明显偏离它所属样本的其余观测值,这些数值是不合理的或错误的。2.脏数据处理常用方法
异常值处理(1)3σ原则,又称为拉依达原则,它是指假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,凡是超过这个区间的误差都是粗大误差,在此误差的范围内的数据应予以剔除。
2.脏数据处理常用方法
异常值处理(1)3σ原则,正态分布函数如下图根据正态分布函数图可知,3σ原则在各个区间所占的概率如下所示:(1)数值分布在(μ-σ,μ+σ)中的概率为0.682。(2)数值分布在(μ-2σ,μ+2σ)中的概率为0.954。(3)数值分布在(μ-3σ,μ+3σ)中的概率为0.997。2.脏数据处理常用方法
异常值处理(2)箱形图是一种用作显示一组数据分散情况的统计图。在箱形图中,异常值通常被定义为小于QL–1.5QR或大于QU+1.5IQR的值。(1)QL称为下四分位数,表示全部观察中四分之一的数据取值比它小;(2)QU称为上四分位数,表示全部观察值中有四分之一的数据取值比它大;(3)IQR称为四分位数间距,是上四分位数QU与下四分位数QL之差,其间包含了全部观察值的一半。2.脏数据处理常用方法
异常值处理(2)箱形图离散点表示的是异常值,上界表示除异常值以外数据中最大值;下界表示除异常值以外数据中最小值。2.脏数据处理常用方法
异常值处理(2)箱形图为了能够从箱形图中查看异常值,Pandas中提供了一个boxplot()方法,专门用来绘制箱形图。从右图输出的箱形图中可以看出,D列的数据中有一个离散点,说明箱形图成
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 企业内部保密工作手册推广指南
- 2-F-T-Amidite-DMTr-2-F-dT-3-CE-phosphoramidite-生命科学试剂-MCE
- 甘肃警察职业学院《物流管理概论》2024 - 2025 学年第一学期期末试卷
- 11.1 化学与人体健康题型专练-2025-2026学年九年级化学人教版(2024)下册 教学设计
- 2025 印度新能源汽车产业的发展前景课件
- 2025 六年级地理下册南亚的位置和范围课件
- 2026六年级语文人教版上册语文园地一
- 2026八年级上语文并列复句学习指导
- 2026七年级下语文思想深刻技巧训练
- 315互动活动策划方案(3篇)
- 2026年湖南生物机电职业技术学院单招职业技能考试题库及答案解析
- 化工班长管理考核制度
- 2026年春季学期学校食堂员工食品安全培训
- 2026贵州黔方有渔水产科技有限公司招聘2人考试参考题库及答案解析
- 2026及未来5年中国钢板桩行业市场行情动态及发展前景研判报告
- 江西省抚州市南城一中2025-2026学年高三毕业年级第二模拟考试数学试题含解析
- 2025-2026学年山东省泰安市肥城市六年级(上)期末数学试卷(五四学制)(含解析)
- 2026年南京交通职业技术学院单招职业适应性测试题库带答案详解
- 营养与食品安全试题(附答案)
- 2026年春季人教版小学数学二年级下册教学计划(含进度表)
- 苏联的三次改革
评论
0/150
提交评论