《商务数据可视化》课件-5.5 掌握数据规约_第1页
《商务数据可视化》课件-5.5 掌握数据规约_第2页
《商务数据可视化》课件-5.5 掌握数据规约_第3页
《商务数据可视化》课件-5.5 掌握数据规约_第4页
《商务数据可视化》课件-5.5 掌握数据规约_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

掌握数据规约模块二:初级可视化与报表第五章:数据预处理数据归约:在保持数据原貌的前提下,最小化数据量,提升处理效率。课程导入面临的挑战:数据爆炸与性能瓶颈目录content01了解数据归约02数据归约的三种核心方法03实现数据归约了解数据归约01一、了解数据归约数据归约是一种用于从海量原始数据集中,生成一个规模大幅减小、但仍保持数据完整性的新数据集的技术。(一)核心定义一、了解数据归约就像为一场长途旅行打包行李,我们只带必需品,而不是把整个家都搬走。(二)比喻一、了解数据归约更小的数据量、更快的处理速度、更低的存储成本、不影响分析结论。(三)关键点数据归约的三种核心方法02二、数据归约的三种核心方法方法一:字段归约核心:减少行(记录/实例)的数量常用技术:删除不相关字段:如ID列、分析无关的描述字段。删除冗余字段:如“销售额(元)”和“销售额(美元)”同时存在。衍生新字段代替旧字段:用“利润率”(计算字段)代替“成本”和“售价”两个原始字段。选择特征子集:使用相关性分析等方法筛选出对目标变量最重要的特征。二、数据归约的三种核心方法方法二:记录归约核心:减少行(记录/实例)的数量常用技术:数据抽样:从全量数据中随机或有规律地抽取一个有代表性的子集。数据聚合:按时间(年/月/日)、地区、类别等维度对数据进行汇总。例如,将每日销售记录聚合成月销售额。聚类:用聚类中心的记录来代表一片区域内的所有记录。二、数据归约的三种核心方法方法三:数据压缩核心:使用编码或变换技术,减少数据的存储空间常用技术:无损压缩:压缩后数据能完全还原,不丢失任何信息。(例如:zip压缩、PNG图像格式)有损压缩:压缩后会丢失部分次要信息,但能极大减小体积。(例如:JPEG图像格式、音频MP3格式)实现数据归约03总结SUMMARY掌握数据归约了解数据归约数据归约是一种用于从海量原始数据集中,生成一个规模大幅减小、但仍保持数据完整性的新数据集的技术。数据归约的三种核心方法字段归约——

减少列(字段/变量)的数量记录规约——减少行(记录/实例)的数量数据压缩——

使用编码或变换技术,减少数据的存储空间实现数据归约思考题THINKING假设你需要分析一家全国连锁超市全年顾客的年龄分布,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论