数据挖掘概念、技术--数据预处理.ppt.ppt_第1页
数据挖掘概念、技术--数据预处理.ppt.ppt_第2页
数据挖掘概念、技术--数据预处理.ppt.ppt_第3页
数据挖掘概念、技术--数据预处理.ppt.ppt_第4页
数据挖掘概念、技术--数据预处理.ppt.ppt_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据预处理,3.1为什么需要预处理,数据不完整,包括噪音,填写不一致数据清理空缺值,使噪音数据平滑,识别删除孤立点,解决不一致,清理数据。脏数据形成的原因、缩略语数据输入错误数据中的嵌入控制信息的不同惯用语(例如ASAP是“at first chance”),丢失值的拼写变化不同的修正量单位的过时编码、数据清理的重要性、脏数据的普遍在大型数据库中难以维持数据的正确性和一致性的任务:能够进行垃圾收集、垃圾清理、数据清理处理内容、格式标准化异常数据清理错误纠正重复数据的清理、数据协议、数据集的压缩显示, 主要策略:数据聚合维协议数据协议,可获得与原始数据集相同或近似相同的分析结果,忽略3.2数据清

2、理元组,手动填充空缺值使用固定值使用属性平均值来平滑最可能的值、噪声数据,以及如何平滑数据消除噪音数据平滑化技术,将罐集群计算机和手动检查组合回归,罐,罐的深度:不同的罐有相同个数的数据的盒的宽度:各个盒值可取值的区间是常数。 平滑方法:盒平均值平滑盒中值平滑盒边界值平滑、聚类、每个聚类的数据不是在其中心值忽略孤立点而是计算机和人工检验组合,首先通过聚类等方法找到孤立点。 这些孤立点可能包含有用的信息。 手动再审查这些孤立点,回归,通过构造函数适应数据变化的趋势,可以用一个变量预测其他变量。 线性回归多线性回归、3.3数据集成与变换、以及数据集成存储在数据存储器中,其中该数据存储器是在单个时刻

3、结合多个数据源中的数据而获得的。 实体识别实体与模式的匹配是多馀的。 一个属性可以从另一个属性提供。 相关分析相关性rA、B . rA、B0、正相关性。 a随着b的值变大而使rA、B0变大,具有正相关性。 AB与rA、B0无关,具有正相关性。 a是随着b的值的增大,重复相同数据存储的多次数据值冲突的检测和处理减少,数据变换,平滑修正数据概形化正规化属性构造(特征构造),最小最大正规化小数正规化属性构造添加给定的属性构造和新的属性,精度的提高和高维数据构造的理解,数据规则, 在数据立方体校正、查找并重新校正感兴趣的维的属性子集选择中,选择找到最小属性集的方法,使数据类的概率分布尽可能接近使用所有

4、属性的原始分布,或者贪婪算法依次向前选择依次向后删除组合向前选择和向后删除有数据压缩、损失并且逆小波变换将数据向量d变换为数值上不同的小波系数向量d.d,以便剪切出d,然后保留最强小波系数部分。数据压缩cont .主成分分析、数值协议、回归和对数线性模型线性模型直方图等宽度等深度V-最佳maxDiff、数值协议cont、簇多维索引树:对给定的数据集合,使用索引树在选择样本之后简单地选择n个样本、简单地选择n个样本、分散到群集且分层地选择样本、离散化及概念分层,离散化技术通常递归以减少给定的连续属性的数目。 排序花费了很多时间。 对于给定的数值属性,概念层次定义该属性的离散化值。 根据基于数值数据离散化和概念层次生成、块直方图分析聚类分析熵的离散化自然分割段3-4-5规则,如果一个区间的最高位中包含3 6 9个不同的值,则分割为3个等宽区间。对于7个不同值而言,以2-3-3被划分为3个区间的最高位比特包含2,4,8个不同的值,被划分为4个等宽区间的最高位比特包含1,5,10个不同的值,被划分为5个等宽区间的最高位层次一般是从第5个百分位数到

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论