数据分析师常用数据清洗模板_第1页
数据分析师常用数据清洗模板_第2页
数据分析师常用数据清洗模板_第3页
数据分析师常用数据清洗模板_第4页
数据分析师常用数据清洗模板_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分析师常用数据清洗模板典型应用场景数据清洗是数据分析流程中的基础环节,直接影响后续分析的准确性和效率。本模板适用于以下常见场景:原始数据导入后预处理:如从业务系统导出的原始表格、爬虫获取的未结构化数据,常存在格式混乱、缺失值、重复记录等问题;多源数据整合前统一:当合并来自不同渠道(如CRM系统、电商平台、第三方调研数据)的数据时,需解决字段命名不一致、编码差异、量纲冲突等;历史数据质量优化:对存储多年的存量数据(如用户行为日志、销售记录)进行规整,处理因系统升级、采集规则变更导致的数据异常;分析模型输入前校验:为机器学习模型准备训练数据时,需剔除噪声数据、标准化特征分布,保证模型鲁棒性。数据清洗标准化流程第一步:数据概览与问题识别目标:全面知晓原始数据结构、分布及潜在问题,明确清洗重点。操作说明:加载数据并查看基本信息:使用工具(如Python的pandas库、Excel)读取数据,输出数据维度(行数×列数)、字段名、数据类型(数值/文本/日期等)、非空值数量。示例代码(Python):(),df.describe()(查看数值型字段统计量)。抽样检查数据质量:随机抽取5%-10%的样本,人工核对字段完整性、格式合理性(如日期是否为“YYYY-MM-DD”、数值是否含非法字符“#”)。识别核心问题类型:通过可视化(如缺失值热力图、异常值箱线图)或统计方法,定位常见问题:缺失值:字段空值比例、缺失集中分布的行/列;重复值:完全重复的记录、关键字段重复的记录(如用户ID+订单号重复);异常值:超出业务合理范围的数据(如年龄=200岁、销售额=-100元);格式问题:日期格式混杂(“2023/10/01”与“10-01-2023”)、文本大小写不一致(“北京”与“北京市”)、数值含单位(“100元”vs“100”)。第二步:处理缺失值目标:根据缺失类型(完全随机缺失MCAR、随机缺失MAR、非随机缺失MNAR)选择合适策略,避免引入偏差。操作说明:分析缺失原因:结合业务场景判断缺失性质(如用户未填写“收入”字段可能是MNAR,因收入敏感)。选择处理方法:删除:当缺失值比例>30%或关键字段(如用户ID)缺失时,直接删除整行/列(df.dropna());填充:数值型字段:用均值/中位数/众数填充(如年龄用中位数,避免极端值影响),或按业务规则填充(如“销售额”缺失用0);文本/分类字段:用“未知”/“其他”众数填充(如“城市”字段缺失用“未知城市”);时间型字段:用前后相邻有效值填充(如用前一天的日期填充缺失的登录日期)。插值:时间序列数据可用线性插值、多项式插值(erpolate())。记录处理逻辑:在数据清洗日志中注明“’收入’字段缺失值占比5%,用中位数3500元填充”。第三步:处理重复值目标:消除冗余数据,避免分析结果偏差(如重复订单导致销售额虚高)。操作说明:定义重复规则:根据业务需求确定唯一标识字段(如用户ID+订单号+时间戳),或基于关键字段组合(如“姓名+电话+地址”)。检测并删除重复:完全重复记录:直接删除(df.drop_duplicates());部分重复记录:保留最新/最有效的记录(如按“更新时间”降序排序后去重)。验证去重效果:检查去重后数据量变化,保证无业务关键信息丢失(如重复订单可能是同一用户多次下单,需确认是否保留)。第四步:处理异常值目标:识别并修正偏离业务合理范围的数据,或判断是否为真实极端值。操作说明:异常值识别方法:统计法:用3σ原则(超出均值±3倍标准差)、箱线图(四分位数IQR的1.5倍范围外);业务法:基于业务规则设定阈值(如“年龄0-120岁”“订单金额≥0元”)。处理策略:修正:若为录入错误(如“年龄=200”改为“20”),用业务规则或相邻值修正;删除:若为噪声数据(如“测试账号订单”),直接删除;保留并标注:若为真实极端值(如“大额订单”),保留数据并新增“异常值”字段标记(1=异常,0=正常)。案例:某电商数据中“订单金额”存在-500元,经核查为退款录入错误,修正为500元并标注“退款订单”。第五步:数据格式标准化目标:统一字段格式,保证数据可计算、可对比。操作说明:日期格式统一:将所有日期转换为“YYYY-MM-DD”格式(pd.to_datetime()),处理特殊格式(如“20231001”→“2023-10-01”)。文本格式规整:大小写统一:如“北京”“北京市”→统一为“北京市”(str.lower()/str.upper());去除多余空格/特殊字符:如“用户名”→“用户名”(str.strip()),替换“#”“*”为空值。数值型字段标准化:去除单位:如“100元”→“100”(需新建“货币单位”字段记录原单位);数据类型转换:如“订单数量”文本“10”转为数值10(astype(int))。分类字段编码:将文本分类转为数值(如“性别:男=1,女=2”),或用one-hot编码(pd.get_dummies())。第六步:数据一致性检查目标:保证跨表、跨逻辑的数据关联正确,避免矛盾。操作说明:跨表关联校验:合并多张表(如“用户表”和“订单表”)时,检查关联字段(如用户ID)是否一致,关联后无冗余ID或缺失ID。逻辑一致性校验:日期逻辑:“订单创建时间”应早于“支付时间”;数值逻辑:“订单商品数量×单价=订单金额”;分类逻辑:“会员等级”字段值仅限“普通/VIP/超级VIP”。修复矛盾数据:对不一致数据回溯原始业务场景修正(如“订单创建时间晚于支付时间”核查为录入错误,调整时间顺序)。第七步:清洗后验证与输出目标:确认清洗效果,输出可分析的高质量数据。操作说明:质量复核:检查缺失值比例是否降至可接受范围(如<5%);抽样核对清洗后数据格式、异常值处理结果;对比清洗前后数据分布(如直方图),保证关键特征未失真。数据输出:保存清洗后数据为标准格式(如CSV、Excel),新增“清洗时间”“清洗人”字段;输出《数据清洗报告》,说明清洗范围、方法、问题处理情况(如“共处理缺失值120条,删除重复记录35条”)。数据清洗过程记录模板字段名称原始数据问题处理方法处理结果处理人处理时间备注用户年龄缺失值占比8%,存在“-1”异常值中位数填充(35岁),删除“-1”无缺失,年龄范围18-75岁*张三2023-10-01“-1”为系统默认值订单日期格式混杂(“2023/10/01”“10-01”)统一为“YYYY-MM-DD”所有日期格式一致*李四2023-10-01原始数据含Excel导出错误用户所在城市“北京”“北京市”“BeiJing”混用统一为“北京市”,大小写标准化仅保留“北京市”*张三2023-10-02按行政区划标准规整订单金额存在3条“-200元”异常值修正为“200元”,标注“退款”新增“是否退款”字段*李四2023-10-02退款订单需单独统计关键操作提醒保留原始数据备份:清洗前务必复制原始数据,避免误操作导致数据丢失,支持问题追溯。业务逻辑优先:数据清洗需结合业务场景,避免纯技术处理(如“收入=0”可能是真实情况,不可直接填

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论