《大数据技术在财务中的应用》课件 4.2 数据清洗_第1页
《大数据技术在财务中的应用》课件 4.2 数据清洗_第2页
《大数据技术在财务中的应用》课件 4.2 数据清洗_第3页
《大数据技术在财务中的应用》课件 4.2 数据清洗_第4页
《大数据技术在财务中的应用》课件 4.2 数据清洗_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目四搭建Python数据分析基础任务二数据清洗CONTENTS识别重复值、缺失值和异常值01处理重复值02处理缺失值03处理异常值04目录PARTONE识别重复值缺失值和异常值识别重复值缺失值和异常值识别重复值缺失值和异常值写入函数to_excel()和读取函数read_excel()的参数设置比较类似。to_excel()函数写入单个工作表的常用参数如表所示。识别重复值缺失值和异常值生成的“订单数据.xlsx”文件如表所示。订单数据样本显示存在典型数据质量问题:订单号100007688重复出现(重复值),0007691和100006685缺失城市ID和销售渠道信息(缺失值),100006686的产品单价为负值(异常值)。实际业务中,由于数据量庞大,通常直接通过编程进行自动化数据清洗,配合人工查验,无需将数据导出。PARTTWO处理重复值处理重复值在具体业务场景中,由于数据量巨大,往往很难用人工查验发现重复值。所以,一般采用drop_duplicates()批量去重。PARTTHREE处理缺失值处理缺失值在数据预处理中,处理缺失值是确保数据质量的关键。常见方法包括补全和删除。补全方法包括使用临近值、平均值、中位数或众数等,这些方法可以减少数据丢失,但可能引入偏差。删除方法则直接移除包含缺失值的行或列,适用于缺失值较少的情况,但可能导致数据量显著减少。选择合适的方法应基于数据实际情况和业务分析目标。可以发现,有两条订单数据,城市ID和销售渠道,使用dropna()函数,删除缺失值。处理缺失值执行dropna()函数后,再去观察订单数据df_order的缺失值情况,可以发现,原本的两条含有缺失值的订单数据已经删除。PARTFOUR处理异常值处理异常值在数据预处理阶段,识别和处理异常值对于确保数据质量和分析结果的可靠性至关重要。异常值是指那些显著偏离其他数据点的值,它们可能是由于测量错误、数据录入错误或实际的极端情况引起的。处理异常值的方法包括删除、修正或保留,具体选择取决于异常值的成因和分析目标。删除异常值适用于那些明显由错误产生的数据点,而修正异常值则可以通过替换为更合理的值(如中位数或均值)来实现。在某些情况下,如果异常值具有实际意义,也可以选择保留。这些方法的选择应基于对数据的深入理解和分析需求。处理异常值本例判定异常值,主要查看数据是否符合逻辑。如单价或者成本的值小于等于0,不符合常规逻辑,被视作异常值。接下来,使用dropna()函数,删除异常值。第一行代码筛选出产品单价大于0,并且产

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论