《商务数据可视化》课件-第五章:数据预处理_第1页
《商务数据可视化》课件-第五章:数据预处理_第2页
《商务数据可视化》课件-第五章:数据预处理_第3页
《商务数据可视化》课件-第五章:数据预处理_第4页
《商务数据可视化》课件-第五章:数据预处理_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

认识PowerQuery查询编辑器模块二:初级可视化与报表第五章:数据预处理课程导入案例场景销售助理小李的周一早晨面临问题收到10个门店发来的销售报表每个表格格式都不一样有的有合并单元格,有的有空白行手动整理需要一整天时间课程导入案例传统做法复制粘贴→眼睛看花格式调整→重复劳动下周一又来新数据→从头再来解决方案使用PowerQuery一键自动化清洗!目录content01PowerQuery查询编辑器的作用02PowerQuery查询编辑器的两种进入方式03PowerQuery查询编辑器的界面布局PowerQuery查询编辑器的作用01一、PowerQuery查询编辑器的作用01自动识别并处理异常值一键修复格式问题智能填充空值数据清洗的“智能管家”02支持50+种数据源连接可同时处理多个数据源自动保持数据关联性多源数据整合的“统一平台”一、PowerQuery查询编辑器的作用03支持200+种数据转换操作可视化操作,无需编程基础实时预览转换效果数据转换的“多功能工具箱”04记录所有操作步骤支持一键刷新重复执行可设置定时自动更新自动化流程的“智能机器人”PowerQuery查询编辑器的两种进入方式02PowerQuery查询编辑器的界面布局03总结SUMMARY认识PowerQuery查询编辑器PowerQuery查询编辑器的作用数据清洗的“智能管家”数据转换的“多功能工具箱”多源数据整合的"统一平台”自动化流程的“智能机器人”PowerQuery查询编辑器的两种进入方式从Excel进入从PowerBi进入PowerQuery查询编辑器的界面布局功能区查询窗格中间窗格查询设置窗格思考题THINKING使用两种不同方式进入PowerQuery界面,并熟悉各功能区域。掌握数据集成模块二:初级可视化与报表第五章:数据预处理让散落的数据“团聚课程导入案例目录content01了解数据集成02横向合并03纵向合并了解数据集成01一、了解数据集成(一)定义将来自多个数据源的数据合并成一个一致、统一的数据存储(如一张数据表)的过程。一、了解数据集成(二)核心目的打破数据孤岛提供完整的数据视图为分析和可视化做准备一、了解数据集成(三)比喻就像做一道菜,需要把从不同菜市场买来的肉、菜、调料,先洗好、切好,放在一个盘子里备用。横向合并02二、横向合并增加表的列,让字段更丰富。其示例如下图。纵向合并03三、纵向合并增增加表的行,也就是增加数据的记录量。其示例如下图。总结SUMMARY掌握数据集成了解数据集成将来自多个数据源的数据,合并成一个一致、统一的数据存储的过程。横向合并纵向合并拼左右增加表的列累上下增加表的行思考题THINKING如果想分析不同渠道(比如线上和线下)的客户总数量,应该用哪种合并方式?如果两张表的字段顺序不同,能直接纵向合并吗?如果不能,应该怎么做?掌握数据清洗模块二:初级可视化与报表第五章:数据预处理“为什么看似华丽的图表,却得出了荒谬的结论?”答案:忽视了最基础的一步——数据清洗。课程导入一个失败的数据可视化项目:目录content01数据清洗的重要性02实现数据清洗重复值、空白值、错误值数据清洗的重要性01一、数据清洗的重要性原始数据质量直接决定分析结果的可信度!清洗是可视化的基石。实现数据清洗重复值、空白值、错误值02总结SUMMARY掌握数据清洗数据清洗的重要性保证分析工作和可视化结果准确、可信的基石实现数据清洗重复值——

两个一模一样的数据空白值——

一个数据表中带有问号或空格的单元格图标错误值——

一个标有“年龄:200岁”或“销量:-100”的错误数据思考题THINKING如果在处理缺失的「年龄」数据时,直接删除整行记录和用平均年龄填充,分别可能会怎样影响最终的分析结果呢?掌握数据转换模块二:初级可视化与报表第五章:数据预处理场景1:想分析每月趋势,但数据是横着排的?课程导入你的数据“不好用”吗?如何让这样的数据,变得“好用”?场景2:想按省份分析,但“省市区”全都挤在一个格子里?课程导入你的数据“不好用”吗?如何让这样的数据,变得“好用”?场景3:想计算绩效奖金,但缺少“等级”字段?课程导入你的数据“不好用”吗?如何让这样的数据,变得“好用”?目录content01了解数据转换02实现数据转换字段拆分逆透视设置新字段了解数据转换01一、了解数据转换数据转换是将数据转换成适用于分析的形式的数据预处理过程。原始数据存放的安排主要面向存储需求,而数据分析的设计面向分析结果。数据转换则是两者统一的重要桥梁之一。实现数据转换02总结SUMMARY数据转换了解数据转换将数据转换成适用于分析的形式的数据预处理过程实现数据转换字段拆分——

用于分解复合信息逆透视——

搞定数据横着排的问题设置新字段——

用于创造新的分析维度思考题THINKING请你想一个电子商务领域中的实际例子,说明哪些常见的原始数据需要进行“字段拆分”或“逆透视”处理才能用于有效分析?掌握数据规约模块二:初级可视化与报表第五章:数据预处理数据归约:在保持数据原貌的前提下,最小化数据量,提升处理效率。课程导入面临的挑战:数据爆炸与性能瓶颈目录content01了解数据归约02数据归约的三种核心方法03实现数据归约了解数据归约01一、了解数据归约数据归约是一种用于从海量原始数据集中,生成一个规模大幅减小、但仍保持数据完整性的新数据集的技术。(一)核心定义一、了解数据归约就像为一场长途旅行打包行李,我们只带必需品,而不是把整个家都搬走。(二)比喻一、了解数据归约更小的数据量、更快的处理速度、更低的存储成本、不影响分析结论。(三)关键点数据归约的三种核心方法02二、数据归约的三种核心方法方法一:字段归约核心:减少行(记录/实例)的数量常用技术:删除不相关字段:如ID列、分析无关的描述字段。删除冗余字段:如“销售额(元)”和“销售额(美元)”同时存在。衍生新字段代替旧字段:用“利润率”(计算字段)代替“成本”和“售价”两个原始字段。选择特征子集:使用相关性分析等方法筛选出对目标变量最重要的特征。二、数据归约的三种核心方法方法二:记录归约核心:减少行(记录/实例)的数量常用技术:数据抽样:从全量数据中随机或有规律地抽取一个有代表性的子集。数据聚合:按时间(年/月/日)、地区、类别等维度对数据进行汇总。例如,将每日销售记录聚合成月销售额。聚类:用聚类中心的记录来代表一片区域内的所有记录。二、数据归约的三种核心方法方法三:数据压缩核心:使用编码或变换技术,减少数据的存储空间常用技术:无损压缩:压缩后数据能完全还原,不丢失任何信息。(例如:zip压缩、PNG图像格式)有损压缩:压缩后会丢失部分次要信息,但能极大减小体积。(例如:JPEG图像格式、音频MP3格式)实现数据归约03总结SUMMARY掌握数据归约了解数据归约数据归约是一种用于从海量原始数据集中,生成一个规模大幅减小、但仍保持数据完整性的新数据集的技术。数据归约的三种核心方法字段归约——

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论