版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Excel数据清洗:从乱到规范的一键操作脏数据不再头痛·三种方案,从手动函数到自动刷新,效率提升十倍致每一位被脏数据反复折磨的职场人,你肯定见过这些场面:从系统导出的报表,姓名前后带着看不见的空格,VLOOKUP怎么都匹配不上。同事发来的日期列,有的写“2026.6.3”,有的写“6/3”,还有的写着“2026年6月3日星期三”。一张表里同一个客户,出现了“华为”“华为公司”“华为技术有限公司”三种写法。你花在清洗这些数据上的时间,比花在分析数据上的时间还多。而且每次洗完,下个月新数据来了,又得从头洗一遍。这份指南给你三套递进的解决方案:临时洗一次:用函数和自带功能,10分钟搞定。每月都要洗:用PowerQuery搭一条自动清洗流水线,下月数据丢进去点刷新。每天都要洗:录成宏,点一个按钮全自动跑完。你可以根据自己的需求,跳到对应的章节开始操作。所有示例数据均为模拟数据,不涉及任何真实信息。目录常见脏数据类型速查基础清洗:TRIM与CLEAN函数文本分列:一列拆多列删除重复值与空白行统一日期格式数字与文本格式互转查找替换的通配符用法PowerQuery一键清洗流水线录制宏:清洗步骤自动化数据质量检查清单第1章常见脏数据类型速查拿到一份陌生数据,先对着这张表逐列检查一遍。大部分问题肉眼就能看出来。脏数据类型典型表现肉眼识别方法对应章节前后空格“张三”、“北京”单元格内容不居中,看起来歪向一侧第2章不可见字符从网页粘贴的内容出现莫名换行双击单元格,光标定位后发现有多余字符第2章一列含多信息“张三-北京-销售部”挤在一个单元格明显有分隔符第3章重复行同一行数据出现两次肉眼难识别第4章空行数据区域中间有不连续的空白行滚动时能看到空白行第4章日期格式混乱同一列有“2026.6.3”“6/3”“20260603”明显的格式不统一第5章文本型数字单元格左上角有绿色小三角绿色三角标记第6章数字存为文本SUM求和结果为0选中一列数字,底部状态栏不显示求和值第6章第2章基础清洗:TRIM与CLEAN函数2.1TRIM:去除多余空格作用:删除文本前后的所有空格,以及文本中间多余的空格(多个空格合并为一个)。什么时候用:VLOOKUP明明两边的值看起来一样,就是返回#N/A。99%是因为某一方的文本带着看不见的前后空格。用法:=TRIM(A2)示例:A2内容:“张三”(前后各两个空格)公式结果:“张三”(空格全部删除)清洗流程:在原始数据旁边新建一列,输入TRIM公式,双击填充到底。然后复制这一列,选择性粘贴为“值”覆盖回原来的列。不要在原列上直接输入公式替换,这会丢失原始数据,一旦公式出错无法回溯。2.2CLEAN:删除不可见字符作用:删除文本中的非打印字符(ASCII码0-31),包括换行符、制表符、回车符等。什么时候用:从网页或系统导出粘贴到Excel的数据,单元格内出现莫名的换行或怪符号。这些字符肉眼看不见,但会让匹配和计算失败。用法:=CLEAN(A2)2.3TRIM+CLEAN组合使用两种问题同时存在是常态。直接嵌套:=TRIM(CLEAN(A2))执行顺序:先用CLEAN清除非打印字符,再用TRIM清除多余空格。反过来也行,效果一样。养成固定习惯即可,不需要纠结顺序。清洗后粘贴为值:公式列生成后,复制→右键→选择性粘贴→值。这是数据清洗的标配动作。保留清洗结果,丢掉公式依赖。第3章文本分列:一列拆多列3.1按分隔符拆分适用场景:单元格内容是“张三销售部”,用连字符或其他统一符号连接。操作:选中列→数据→分列。选择“分隔符号”→下一步。勾选分隔符类型。如果分隔符是“-”且列表中不显示,勾选“其他”,在输入框中输入“-”。预览窗口会实时显示拆分效果。下一步→对每一列分别设置数据格式(文本/日期/常规)。完成。“其他”分隔符的实际用法:不仅支持标准符号,还可以输入中文逗号、顿号、空格等任何字符。只要你的数据中分隔符是统一的,它就能拆。3.2按固定宽度拆分适用场景:没有统一分隔符,但每部分占固定字符数。如身份证号,前6位是地区,中间8位是出生日期,后4位是顺序码。操作:选中列→数据→分列。选择“固定宽度”→下一步。在数据预览中点击刻度线位置,设置字段宽度。双击已有分隔线可删除,拖动可移动位置。下一步→设置格式→完成。常见用途:身份证号拆分(提取出生日期)、标准编码拆分(如物料编码的前几位代表类别)。3.3用函数拆分(更灵活)分列功能是一次性的。如果源数据会持续更新,用函数更好。提取第一段(分隔符为“-”):=LEFT(A2,FIND("-",A2)-1)提取中间段(两段分隔符之间):=MID(A2,FIND("-",A2)+1,FIND("-",A2,FIND("-",A2)+1)-FIND("-",A2)-1)提取最后一段:=RIGHT(A2,LEN(A2)-FIND("@",SUBSTITUTE(A2,"-","@",LEN(A2)-LEN(SUBSTITUTE(A2,"-","")))))如果Excel版本是365,直接用TEXTSPLIT函数:=TEXTSPLIT(A2,"-")结果自动溢出到多个相邻单元格,非常简洁。第4章删除重复值与空白行4.1删除重复值操作:选中数据区域任意单元格→数据→删除重复值→勾选判断重复的列→确定。关键选择:勾选哪些列?如果勾选所有列:只有当整行数据完全相同时才被删除。用于删除完全重复的记录。如果只勾选“客户名称”:保留每个客户名称首次出现的那行,后续重复出现的都被删除。用于提取不重复的客户名单。删除前的备份习惯:删除重复值是直接修改原数据,不可撤销。建议操作前先复制一份工作表(右键工作表标签→移动或复制→勾选“建立副本”),在副本上操作,原始数据始终保留。4.2定位并删除空白行方法一:定位条件法(适合零散空行)选中数据区域→Ctrl+G→定位条件→空值。所有空白单元格被选中。右键→删除→整行。注意:如果一行中只有部分单元格为空、部分有数据,这个方法也会把整行删掉。操作前确认哪些行确实整行为空。方法二:排序法(适合把空行集中处理)给数据加一列辅助列,填入序号1、2、3……(作为原始行序的记录)。按某列排序,空行会集中到顶部或底部。选中空行→删除。按辅助列恢复原始顺序。方法三:筛选法(最推荐,不破坏原结构)筛选→在某一必填列中取消全选,只勾选“(空白)”。选中筛选出的空行→删除行。清除筛选。逐列重复上述操作,确保无遗漏。空白行与空单元格的区别:数据区域的中间出现整行空白,这些空行会截断数据区域,导致复制粘贴时遗漏后面的数据。单元格中个别空白值不影响整体数据,通常不需删除整行,补充数据或留空即可。第5章统一日期格式5.1为什么导出的日期会变成文本从ERP系统、网页、CSV文件导入的数据,日期经常被Excel当作文本处理。表现是单元格左上角有绿色小三角,或者在日期列中看到各种不一致的写法:“2026.6.3”、“06/03/2026”、“2026年6月3日”。文本型日期不会响应日期格式设置。你把它设成“YYYY-MM-DD”,它纹丝不动——因为Excel不认为它是日期,它是一个字符串。5.2DATEVALUE函数:将文本日期转为真日期用法:=DATEVALUE(A2)它能识别:“2026-06-03”、“6/3/2026”、“2026年6月3日”(中文日期在某些系统区域设置中能识别)。如果公式返回#VALUE!,说明当前格式不被DATEVALUE识别,需要用分列法处理。5.3分列法(最稳定,通用所有格式)分列功能有一个隐藏用法:把文本日期转成真日期,不需要实际拆分。选中日期列→数据→分列。直接点“下一步”(不要选任何分隔符)。继续点“下一步”。在“列数据格式”中选择“日期”,并选择正确的日期顺序(YMD/月日年/日月年)。完成。Excel会在不拆分数据的情况下,把这列从文本转为真正的日期格式。这个方法的成功率远高于DATEVALUE。5.4统一显示格式转成真日期之后,选中列→Ctrl+1→日期→选择统一格式(推荐YYYY-MM-DD,因为它是国际标准、排序友好、不会被误读)。常用日期格式推荐:YYYY-MM-DD(2026-06-03):排序友好,适合数据分析YYYY年M月D日(2026年6月3日):适合打印报告M/D/YYYY(6/3/2026):适合对外沟通第6章数字与文本格式互转6.1文本型数字→真数字现象:单元格左上角绿色小三角,SUM求和结果为0。这是因为这些“数字”实际上被Excel识别为文本字符串,数学函数会忽略它们。方法一:绿色三角批量转换(最快)选中整列→点击列顶部出现的感叹号图标→转换为数字。整列一次性完成转换。如果感叹号图标没出现,说明Excel没有识别到文本型数字,或者数据中混有非数字字符(如空格、字母)。先用第2章的TRIM/CLEAN清理再试。方法二:乘1法(适合公式环境)=A2*1真数字从文本转换而来,格式干净。适用于需要公式批量处理的场景。方法三:VALUE函数=VALUE(A2)6.2真数字→文本型数字场景:员工编号“001”,直接输入变成“1”。银行卡号或身份证号过长,Excel自动以科学记数法显示(1.23456E+17),末位精度丢失。方法一:输入前设置(从源头解决)在输入数据之前,先选中整列→Ctrl+1→数字→文本。之后输入的内容不会被自动转换。方法二:TEXT函数(已有数据批量处理)=TEXT(A2,"000")“000”表示显示为3位数字,不足补零。如果员工编号最大是4位数,改为“0000”。方法三:单引号前缀(单个单元格快速处理)在单元格中输入'001,前置单引号告诉Excel“后面这个是文本”。单引号不会显示在单元格中,只在编辑栏可见。长数字的特殊处理:银行卡号、身份证号必须存为文本。超过15位的数字在Excel中精度会丢失(末位变成0),一旦丢失不可恢复。输入前设置列格式为文本是唯一的预防方法。第7章查找替换的通配符用法通配符是查找替换的“正则表达式基础版”,能处理大量不规则文本的统一。7.1三个通配符通配符代表示例*任意多个字符“华为*”能匹配“华为”“华为公司”“华为技术有限公司”?任意单个字符“张?”能匹配“张三”“张伟”,不能匹配“张三四”~转义符“A~B”表示查找“AB”,而不是A开头B结尾7.2实战场景统一不规范的客户名称:问题:同一客户出现“华为”“华为公司”“华为技术有限公司”操作:Ctrl+H→查找“华为*”→替换为“华为技术有限公司”→全部替换去除所有括号及其内容:查找*→替换为不填→全部替换注意:如果文本中有英文括号和中文括号混用,需要分别处理去掉电话号码区号:问题:,想去掉区号查找*-→替换为空。表示“从开头到连字符的任意字符”全部删除7.3通配符开关在“查找和替换”对话框中,点击“选项”展开→必须勾选“使用通配符”,否则*和?会被当作普通字符查找。提醒:通配符替换是不可逆操作。在大量替换之前,先在少量样本上测试,确认结果符合预期。或操作前复制备份工作表。第8章PowerQuery一键清洗流水线前面几章的清洗方法都是“一次性”的——洗完了,下个月新数据来了,从头再洗一遍。PowerQuery(简称PQ)解决的就是这个问题。你把清洗过程做成一串步骤,下个月新数据丢进来,点一下“刷新”,所有步骤自动重演,干净数据瞬间出来。8.1什么时候用PQ而不是手动清洗?同一个清洗流程每月/每周都要重复一遍(如月度销售报表)数据源持续更新,需要保留清洗规则数据量较大,手动操作耗时如果是一次性的临时需求,用手动清洗更快。如果是重复性任务,PQ的优势明显。8.2搭建一条清洗流水线以一份典型脏数据为例,演示完整流程。场景:每月从系统导出一份CSV,包含销售数据。常见问题:客户名称前后带空格、日期格式混乱、有空行、有重复行。第一步:加载数据到PQ编辑器Excel→数据→获取数据→自文件→从文本/CSV。选择文件→导入→转换数据。PQ编辑器打开。第二步:删除空行主页→删除行→删除空行。右侧“查询设置”窗格中多了一个步骤“删除的空行”。第三步:清除文本空格选中“客户名称”列→转换→格式→修整。“修整”=TRIM函数的效果。旁边还有“清除”,对应CLEAN函数。第四步:统一日期格式选中“日期”列→转换→数据类型→日期。PQ会自动尝试将文本转为日期。如果转换出错,部分行显示“Error”:先用“替换值”去掉不规范字符,再转。第五步:删除重复行主页→删除行→删除重复项。选择判断重复的列。第六步:上载结果主页→关闭并上载→选择“表”,放在新工作表中。8.3下个月刷新新一个月的CSV文件放到原文件夹中,覆盖旧文件或修改源文件引用。打开Excel→数据→全部刷新。几秒之后,干净数据就出来了,不需要再做任何手动操作。8.4编辑已创建的查询数据→查询和连接→双击查询名称→回到PQ编辑器。在右侧“查询设置”中可以看到每一个清洗步骤,点击任意步骤可查看该步骤的效果。拖动步骤可调整顺序,右键可删除或编辑。第9章录制宏:清洗步骤自动化如果你不想学PQ,或者清洗步骤不太复杂,录制宏是最快的自动化方式。9.1录制宏是什么录制宏就是Excel的“屏幕录像机”。你点开始录制,然后手动把清洗操作做一遍,点停止。Excel把你刚才的所有动作转化成VBA代码。下次你要再做同样的清洗,只需要运行这个宏,Excel会以极快的速度自动重复你的操作。9.2录制一个清洗宏第一步:准备录制视图→宏→录制宏。宏名:清洗销售数据。快捷键:Ctrl+Shift+X(自定义一个不常用的组合)。保存在:当前工作簿。确定。第二步:执行清洗操作(以下步骤会被录制)Ctrl+G→定位条件→空值→删除整行。选中客户名称列→Ctrl+H→查找“华为*”→替换为“华为技术有限公司”。选中日期列→数据→分列→下一步→下一步→日期→完成。选中数据区域→数据→删除重复值→确定。第三步:停止录制视图→宏→停止录制。9.3使用宏打开新的脏数据文件。Ctrl+Shift+X(你设定的快捷键)。宏自动执行,几秒内完成所有清洗步骤。9.4注意事项宏的可移植性:如果录制的宏包含“选中A列”这样的绝对引用,在其他列结构不同的文件上会出错。录制时尽量使用相对引用(在“开发工具”选项卡中切换“使用相对引用”按钮)。保存格式:包含宏的文件需要保存为.xlsm(启用宏的工作簿)格式,否则宏会丢失。安全提醒:不要运行来源不明的宏。本指南录制的宏是你自己操作生成的,内
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年人工智能工程师试题精炼考试题及答案
- 2026年介入手术室理论知识考核试题及答案
- 2025年云南省个旧市高三历史上册期末考试测试卷及答案【典优】
- 昭通市2025-2026学年高三第六次模拟考试语文试卷含解析
- 2025年湖北省宜城市高二历史下册期末考试模拟卷(夺冠系列)附答案
- 2026八局文旅职能面试题目及答案
- 2026安卓ios工程师面试题及答案
- 火锅料理师岗前冲突管理考核试卷含答案
- 野生植物救护工岗前班组评比考核试卷含答案
- 海水珍珠养殖工安全生产能力考核试卷含答案
- 2024脉冲式布袋除尘器设备安全巡检记录表(空表模板示例)
- 认知自我 选对职场起跑线 MBTI职场性格类型大数据报告 智联招聘
- 甲状腺手术中甲状旁腺及喉返神经保护课件
- 电力运维托管方案
- GB/T 43542-2023机关办公区域物业服务监管和评价规范
- 余华读书分享名著导读《在细雨中呼喊》
- 临床各类引流管的固定及规范管理
- 护理重点环节应急预案及处置流程
- 东南大学高等数学实验报告-2
- 职业暴露针刺伤应急预案演练脚本-
- 由岗位价值评估分数得到薪级的三种方法及优缺点对比
评论
0/150
提交评论