数据分析基础操作手册数据清洗与可视化_第1页
数据分析基础操作手册数据清洗与可视化_第2页
数据分析基础操作手册数据清洗与可视化_第3页
数据分析基础操作手册数据清洗与可视化_第4页
数据分析基础操作手册数据清洗与可视化_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分析基础操作手册:数据清洗与可视化一、适用工作场景与目标本手册适用于以下需要通过数据清洗与可视化提升数据质量、挖掘数据价值的场景:业务分析:如电商运营分析用户购买行为、零售企业评估销售趋势、金融机构监测客户信用数据等,需通过清洗去除脏数据,通过可视化直观呈现业务问题。学术研究:如科研人员整理实验数据、市场调研机构分析问卷数据,需保证数据准确性,并通过图表展示研究结论。项目报告:如企业年度经营总结、产品功能迭代效果复盘,需用清晰的可视化结果支撑决策逻辑。核心目标:将原始、杂乱的数据转化为规范、可分析的结构化数据,并通过可视化手段揭示数据规律,辅助高效决策。二、数据清洗操作流程1.数据导入与初步检查操作说明:工具选择:Excel(小型数据)、Python(pandas库,大型数据)、SQL(数据库数据)。Excel操作:打开Excel,“数据”选项卡→“从表格/区域”→选择文件→确认数据格式(如UTF-8编码、表头是否在首行),检查数据是否完整导入。Python操作:使用pd.read_excel('文件名.xlsx')(Excel文件)或pd.read_csv('文件名.csv',encoding='utf-8')(CSV文件)导入数据,通过df.head()查看前5行数据,()检查数据类型与非空值数量。关键检查点:数据行数/列数是否符合预期;表头是否规范(无合并单元格、无特殊字符);部分列是否存在乱码(如中文显示为“?”)。2.缺失值处理操作说明:识别缺失值:Excel:选中数据区域→“开始”选项卡→“条件格式”→“突出显示单元格规则”→“其他规则”→选择“单元格值”“等于”“空白”→确定。Python:df.isnull().sum()统计各列缺失值数量,df[df['列名'].isnull()]查看具体缺失行。处理策略(根据业务场景选择):删除:若缺失值占比超过5%或无业务意义(如用户ID缺失),使用Excel“数据”→“删除重复值”→“空值”删除;Python用df.dropna(subset=['列名'])删除指定列缺失行。填充:数值型列:用均值(df['列名'].fillna(df['列名'].mean(),inplace=True))、中位数(异常值多时使用)或固定值(如0)填充;分类型列:用众数(df['列名'].mode()[0])或“未知”类填充。插补:重要数据且缺失少时,用回归插补或K近邻插补(Python库sklearn的KNNImputer)。示例:某电商数据“订单金额”列存在缺失值,占比2%,用该列均值填充。3.异常值处理操作说明:识别异常值:统计法:计算列的均值(μ)和标准差(σ),超出μ±3σ的值视为异常(Python:df['列名'].describe()查看均值与标准差);箱线图法:Excel选中列→“插入”→“箱线图”,箱体上下须为1.5倍IQR(四分位距),之外的点为异常值;Python用df.boxplot(column=['列名'])绘制箱线图。处理策略:修正:若异常值为录入错误(如年龄=200),手动修正为合理值(如20);删除:若异常值为噪声且无业务意义(如测试数据),用Excel“数据筛选”或Pythondf[(df['列名']>=下限)&(df['列名']<=上限)]过滤;保留:若异常值反映真实业务情况(如高价值订单),需标注并单独分析。示例:用户年龄列存在“-1”和“150”等异常值,经核查为录入错误,修正为合理范围(18-80岁)。4.重复值处理操作说明:识别重复值:Excel:选中数据→“开始”→“条件格式”→“重复值”→标记重复行;Python:df.duplicated().sum()统计重复行数,df[df.duplicated()]查看具体重复数据。处理策略:保留最新/最旧记录:Python按时间列排序后,df.drop_duplicates(keep='first')(保留首次出现)或keep='last'(保留最后一次出现);完全删除:若重复数据无意义(如重复提交的问卷记录),Excel“数据”→“删除重复项”→全选列;Pythondf.drop_duplicates(inplace=True)。注意:主键列(如用户ID)不允许重复,其他列需结合业务判断(如同一用户多次下单记录不视为重复)。5.数据格式转换与标准化操作说明:格式转换:日期格式:Excel选中列→“开始”→“数字”→“日期”,选择“yyyy-mm-dd”;Python用pd.to_datetime(df['日期列'],format='%Y-%m-%d')统一格式。文本格式:去除多余空格(Excel“TRIM”函数,Pythondf['列名']=df['列名'].str.strip()),统一大小写(Pythonstr.lower()/str.upper())。标准化:数值型列:归一化(0-1区间,(x-min)/(max-min))或标准化(Z-score,(x-μ)/σ),消除量纲影响(Pythonsklearn.preprocessing.StandardScaler)。分类编码:将文本转为数值(如性别“男/女”转为“1/0”),Python用pd.get_dummies()(独热编码)或sklearn.preprocessing.LabelEnr(标签编码)。三、数据可视化操作流程1.明确分析目标与图表选择操作说明:分析目标拆解:先确定要回答的业务问题(如“哪个产品类销售额最高?”“用户增长趋势如何?”),再匹配图表类型。常用图表选择指南:分析目标推荐图表适用场景对比类(如不同部门销售额)柱状图/条形图少量类别对比,直观展示差异趋势类(如月度销量变化)折线图时间序列数据,展示变化趋势占比类(如产品类别占比)饼图/环形图/堆叠柱状图部分占整体的比例,需突出重点分布类(如用户年龄分布)直方图/箱线图数据分布形态,识别集中度与异常值关系类(如广告投入与销量)散点图/气泡图两变量相关性,摸索因果关系2.数据预处理与聚合操作说明:数据聚合:根据可视化需求对原始数据汇总,如按月统计销售额、按地区统计用户数。Excel:使用“数据透视表”(选中数据→“插入”→“数据透视表”),拖拽字段到行/列/值区域(值区域选择“求和”“计数”等);Python:用df.group('分组列')['计算列'].agg(函数),如df.group('月份')['销售额'].sum()按月求和销售额。数据排序:柱状图/条形图建议按数值大小排序(Excel选中数据→“数据”→“排序”;Pythondf.sort_values('列名',ascending=False)),提升可读性。3.图表制作与优化操作说明:工具选择:Excel(快速可视化)、Python(matplotlib/seaborn库,自定义图表)、Tableau(交互式可视化)。Excel制作步骤(以柱状图为例):选中聚合后的数据(如“月份-销售额”表);“插入”→“柱状图”,选择“簇状柱状图”;双击图表标题修改为“2023年月度销售额趋势”;右键坐标轴→“设置坐标轴格式”,调整最小值/最大值(如销售额从0开始);添加数据标签(右击柱子→“添加数据标签”),标注具体数值。Python制作步骤(以seaborn柱状图为例):importseabornassnsimportmatplotlib.pyplotaspltdf_monthly=df.group(‘月份’)[‘销售额’].sum().reset_index()#按月聚合plt.figure(figsize=(10,6))#设置图表大小sns.barplot(x=‘月份’,y=‘销售额’,data=df_monthly,palette=‘Blues_d’)#绘制柱状图plt.(‘2023年月度销售额趋势’,fontsize=14)#标题plt.xlabel(‘月份’,fontsize=12)#x轴标签plt.ylabel(‘销售额(万元)’,fontsize=12)#y轴标签plt.xticks(rotation=45)#x轴标签倾斜plt.grid(axis=‘y’,linestyle=‘–’,alpha=0.7)#添加网格线plt.show()优化要点:标题清晰:明确图表主题(如“2023年Q1各产品类销售额对比”,而非“销售数据”);坐标轴合理:数值轴从0开始(柱状图/条形图),避免夸大差异;单位标注完整(如“销售额(万元)”“用户数(人)”);颜色简洁:使用对比色区分类别(不超过5种颜色),避免使用高饱和度颜色造成视觉疲劳;注释关键信息:对异常值或重要数据点添加标注(如“6月销售额环比增长20%,因新品上市”)。4.交互式可视化(可选)场景说明:若需向多用户展示数据(如管理层汇报、线上数据看板),可使用交互式图表,支持用户筛选、下钻查看详情。工具推荐:Tableau(拖拽式操作,无需代码)、Python(Plotly库,代码交互图)、PowerBI(微软工具,与Excel无缝衔接)。示例:用Plotly制作交互式折线图,鼠标悬停显示具体数值,图例可隐藏/显示数据系列。四、数据清洗参考模板原始数据表日期用户ID订单金额(元)支付方式备注2023-01-01A001150.00支付2023-01-02A002未支付2023-01-03A00189.50支付2023-01-04A0032000.00银行卡测试订单2023-01-05A002150.00支付数据清洗后表日期用户ID订单金额(元)支付方式备注处理说明2023-01-01A001150.00支付无需处理2023-01-02A002120.30未支付订单金额缺失,用该列均值填充2023-01-03A00189.50支付无需处理2023-01-04A0030.00银行卡正常订单异常值2000元,标记为0并备注2023-01-05A002150.00支付重复行,保留最新记录五、可视化数据准备模板汇总数据表(示例:月度销售额趋势)月份销售额(万元)同比增长率(%)主要销售品类1月120.5-服装、数码2月98.3-18.4食品、美妆3月156.759.4数码、家居4月142.1-9.3服装、食品图表输出要求图表类型:折线图(展示销售额趋势)+柱状图(展示同比增长率);“2023年1-4月销售额及同比增长率”;坐标轴:x轴为月份,y轴左为销售额(万元),y轴右为同比增长率(%);注释:3月销售额增长显著,主因“3.8女神节”促销活动。六、数据清洗关键要点备份原始数据:清洗前务必复制原始数据文件,避免操作失误导致数据丢失;理解业务逻辑:处理缺失值/异常值前,需结合业务含义(如“订单金额为0”可能是退款订单,不可直接删除);记录处理过程:使用Excel批注或Python代码注释记录每一步清洗操作(如“2023-10-15:用均值填充订单金额缺失值”),便于复现与追溯;避免过度清洗:删除数据需谨慎,若缺失值/异常值占

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论