数据分析建模中数据预处理方法详细介绍课件_第1页
数据分析建模中数据预处理方法详细介绍课件_第2页
数据分析建模中数据预处理方法详细介绍课件_第3页
数据分析建模中数据预处理方法详细介绍课件_第4页
数据分析建模中数据预处理方法详细介绍课件_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分析建模中数据预处理方法详细介绍6、法律的基础有两个,而且只有两个……公平和实用。——伯克7、有两种和平的暴力,那就是法律和礼节。——歌德8、法律就是秩序,有好的法律才有好的秩序。——亚里士多德9、上帝把法律和公平凑合在一起,可是人类却把它拆开。——查·科尔顿10、一切法律都是无用的,因为好人用不着它们,而坏人又不会因为它们而变得规矩起来。——德谟耶克斯数据分析建模中数据预处理方法详细介绍数据分析建模中数据预处理方法详细介绍6、法律的基础有两个,而且只有两个……公平和实用。——伯克7、有两种和平的暴力,那就是法律和礼节。——歌德8、法律就是秩序,有好的法律才有好的秩序。——亚里士多德9、上帝把法律和公平凑合在一起,可是人类却把它拆开。——查·科尔顿10、一切法律都是无用的,因为好人用不着它们,而坏人又不会因为它们而变得规矩起来。——德谟耶克斯实溪太字数据清洗和数据预处理熵值归一化方法抽样方法实溪太字教学目标■认识数据挖掘前数据进行适当处理的必要性■掌握常用数据预处理的方法实溪太字数据清洗和数据预处理熵值归一化方法抽样方法实溪太字教学目标■认识数据挖掘前数据进行适当处理的必要性■掌握常用数据预处理的方法实溪太字教学要求知识要点能力要求相关知识点(1)了解原始数据存在的主要(1)数据的一致性问题数据预处理问题(2数据的噪声问题的原因(2)明白数据预处理的作用和(3原始数据的不完整和高维作任务度问题(1)掌握数据清洗的主要任务与常用方法2)掌握数据集成的主要内容()数据清洗数据预处理和常用方法2)数据集成的方法(3)掌握数据变换的主要内容(3)数据变换和常用方法(4)数据归约(4)掌握数据归约的主要内容和常用方法实溪太字为什么要预处理数据?现实世界的数据是“肮脏的”不完整的>含噪声的>不一致的■没有高质量的数据,就没有高质量的挖掘结果≯高质量的决策必须依赖高质量的数据数据仓库需要对高质量的数据进行一致地集成实溪太字原始数据中存在的问题1.不一致——数据内涵出现不一致情况2.重复3.不完整——感兴趣的属性没有值4.含噪声——数据中存在着错误、或异常(偏离期望值)的数据5.高维度实溪太字数据预处理的方法1.数据清洗去掉噪声和无关薮据2数据集成将多个数据源中的数据结合起来存放在一个一致的数据存储中3.数据变换把原始数据转换成为适合数据挖掘的形式4.数据归约≯主要方法包括:数据立方体聚集,维归约,数据压缩,数值归约,离散化和概念分层等实溪太字数据清洗数据选取参考原则:1.尽可能赋予属性名和属性值明确的含义2.统一多数据源的属性值编码>3.去除惟一属性4.去除重复属性>5.去除可忽略字段>6.合理选择关联字段进一步处理≯通过填补遗漏数据、消除异常数据、平滑噪声数据,以及纠正不一致的薮据,去掉薮据中的噪音、填充空值、丢失值和处理不一致数据实溪太字数据清洗——处理空缺值数据并不总是完整的在分析一个商场销售数据时,发现有多个记录中的属性值为空,如:顾客的收入属性对于为空的属性值引起空缺值的原因设备异常≯与其他已有数据不一致而被删除≯因为误解而没有被输入的数据≯在输入时,有些数据应为得不到重视而没有被输入对数据的改变没有进行日志记载实溪太字数据清洗—一处理空缺值■空缺值要经过推断而补上>1忽略该记录2.去掉属性3.手工填写空缺值>4.使用默认值5.使用属性平均值>6.使用同类样本平均值>7.预测最可能的值实溪太字数据清洗——噪声数据的处理■噪声:在测量一个变量时可能出现的测量值相对于真实值的偏差或者错误谢谢你的阅读知识就是财富丰富你的人生71、既然我已经踏上这条道路,那么,任何东西都不应妨碍我沿着这条路走下去。——康德

72、家庭成为快乐的种子在外也不致成为障碍物但在旅行之际却是夜间的伴侣。——西塞罗

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论