数据挖掘教程-3、数据预处理.ppt_第1页
数据挖掘教程-3、数据预处理.ppt_第2页
数据挖掘教程-3、数据预处理.ppt_第3页
数据挖掘教程-3、数据预处理.ppt_第4页
数据挖掘教程-3、数据预处理.ppt_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

7-8 王 灿 数据挖掘 0703004 数据预处理 为什么要预处理数据? n现实世界的数据是“肮脏的”数据多了,什 么问题都会出现 q不完整的:有些感兴趣的属性缺少属性值,或 仅包含聚集数据 q含噪声的:包含错误或者“孤立点” q不一致的:在编码或者命名上存在差异 n没有高质量的数据,就没有高质量的挖掘结果 q高质量的决策必须依赖高质量的数据 q数据仓库需要对高质量的数据进行一致地集成 数据质量的多维度量 n一个广为认可的多维度量观点: q精确度 q完整度 q一致性 q合乎时机 q可信度 q附加价值 q可访问性 n跟数据本身的含义相关的 q内在的、上下文的、表象的 数据预处理的主要任务 n数据清理 q填写空缺的值,平滑噪声数据,识别、删除孤立点,解 决不一致性 n数据集成 q集成多个数据库、数据立方体或文件 n数据变换 q规范化和聚集 n数据归约 q得到数据集的压缩表示,它小得多,但可以得到相同或 相近的结果 n数据离散化 q数据归约的一部分,通过概念分层和数据的离散化来规 约数据,对数字型数据特别重要 空缺值 n数据并不总是完整的 q例如:数据库表中,很多条记录的对应字段没 有相应值,比如销售表中的顾客收入 n引起空缺值的原因 q设备异常 q与其他已有数据不一致而被删除 q因为误解而没有被输入的数据 q在输入时,有些数据应为得不到重视而没有被 输入 q对数据的改变没有进行日志记载 n空缺值要经过推断而补上 如何处理空缺值 n忽略元组:当类标号缺少时通常这么做(假定挖掘任 务涉及分类或描述),当每个属性缺少值的百分比变 化很大时,它的效果非常差。 n人工填写空缺值:工作量大,可行性低 n使用一个全局变量填充空缺值:比如使用unknown或 - n使用属性的平均值填充空缺值 n使用与给定元组属同一类的所有样本的平均值 n使用最可能的值填充空缺值:使用像Bayesian公式 或判定树这样的基于推断的方法 噪声数据 n噪声:一个测量变量中的随机错误或偏差 n引起噪声数据的原因 q数据收集工具的问题 q数据输入错误 q数据传输错误 q技术限制 q命名规则的不一致 如何处理噪声数据 n分箱(binning): q首先排序数据,并将他们分到等深的箱中 q然后可以按箱的平均值平滑、按箱中值平滑、按箱的边 界平滑等等 n聚类: q监测并且去除孤立点 n计算机和人工检查结合 q计算机检测可疑数据,然后对它们进行人工判断 n回归 q通过让数据适应回归函数来平滑数据 数据平滑的分箱方法 nprice的排序后数据(单位:美元):4,8,15,21,21,24,25 ,28,34 n划分为(等深的)箱: q箱1:4,8,15 q箱2:21,21,24 q箱3:25,28,34 n用箱平均值平滑: q箱1:9,9,9 q箱2:22,22,22 q箱3:29,29,29 n用箱边界平滑: q箱1:4,4,15 q箱2:21,21,24 q箱3:25,25,34 聚类 n通过聚类分析查找孤立点,消除噪声 回归 x y y = x + 1 X1 Y1 Y1 数据集成 n数据集成: q将多个数据源中的数据整合到一个一致的存储 中 n模式集成: q整合不同数据源中的元数据 q实体识别问题:匹配来自不同数据源的现实世 界的实体,比如:A.cust-id=B.customer_no n检测并解决数据值的冲突 q对现实世界中的同一实体,来自不同数据源的 属性值可能是不同的 q可能的原因:不同的数据表示,不同的度量等 等 处理数据集成中的冗余数据 n集成多个数据库时,经常会出现冗余数据 q同一属性在不同的数据库中会有不同的字段名 q一个属性可以由另外一个表导出,如“年薪” n有些冗余可以被相关分析检测到 n仔细将多个数据源中的数据集成起来,能够减 少或避免结果数据中的冗余与不一致性,从而 可以提高挖掘的速度和质量。 数据变换 n平滑:去除数据中的噪声 (分箱、聚类、回归) n聚集:汇总,数据立方体的构建 n数据概化:沿概念分层向上概化 n规范化:将数据按比例缩放,使之落入一个小的特定 区间 q最小最大规范化 qz-score规范化 q小数定标规范化 n属性构造 q通过现有属性构造新的属性,并添加到属性集中;以增 加对高维数据的结构的理解和精确度 数据变换规范化 n最小最大规范化 nz-score规范化 n小数定标规范化 其中,j是使 Max(| |)1的最小整数 数据归约策略 n数据仓库中往往存有海量数据,在其上进行复杂的数 据分析与挖掘需要很长的时间 n数据归约 q数据归约可以用来得到数据集的归约表示,它小得多, 但可以产生相同的(或几乎相同的)分析结果 n数据归约策略 q数据立方体聚集 q维归约 q数据压缩 q数值归约 q离散化和概念分层产生 n用于数据归约的时间不应当超过或“抵消”在归约后的 数据上挖掘节省的时间。 数据立方体聚集 n最底层的方体对应于基本方体 q基本方体对应于感兴趣的实体 n在数据立方体中存在着不同级别的汇总 q数据立方体可以看成方体的格 q每个较高层次的抽象将进一步减少结果数据 n数据立方体提供了对预计算的汇总数据的快速 访问 q使用与给定任务相关的最小方体 q在可能的情况下,对于汇总数据的查询应当使 用数据立方体 维归约 n通过删除不相干的属性或维减少数据量 n属性子集选择 q找出最小属性集,使得数据类的概率分布尽可能的接近 使用所有属性的原分布 q减少出现在发现模式上的属性的数目,使得模式更易于 理解 n启发式的(探索性的)方法 q逐步向前选择 q逐步向后删除 q向前选择和向后删除相结合 q判定归纳树 数据压缩 n有损压缩 VS. 无损压缩 n字符串压缩 q有广泛的理论基础和精妙的算法 q通常是无损压缩 q在解压缩前对字符串的操作非常有限 n音频/视频压缩 q通常是有损压缩,压缩精度可以递进选择 q有时可以在不解压整体数据的情况下,重构某个片断 n两种有损数据压缩的方法:小波变换和主要成分分析 数值归约 n通过选择替代的、较小的数据表示形式来减少数据量 n有参方法:使用一个参数模型估计数据,最后只要存 储参数即可。 q线性回归方法:Y=+X q多元回归:线性回归的扩充 q对数线性模型:近似离散的多维数据概率分布 n无参方法: q直方图 q聚类 q选样 直方图 n一种流行的数据归约技术 n将某属性的数据划分为不相交的子集,或桶,桶中放 置该值的出现频率 n桶和属性值的划分规则 q等宽 q等深 qV-最优 qMaxDiff 聚类 n将数据集划分为聚类,然后通过聚类来表示数 据集 n如果数据可以组成各种不同的聚类,则该技术 非常有效,反之如果数据界线模糊,则方法无 效 n数据可以分层聚类,并被存储在多层索引树中 n聚类的定义和算法都有很多选择 选样 n允许用数据的较小随机样本(子集)表示大的数据集 n对数据集D的样本选择: q简单随机选择n个样本,不回放:由D的N个元组中抽取 n个样本 q简单随机选择n个样本,回放:过程同上,只是元组被 抽取后,将被回放,可能再次被抽取 q聚类选样:D中元组被分入M个互不相交的聚类中,可 在其中的m个聚类上进行简单随机选择(mM) q分层选样:D被划分为互不相交的“层”,则可通过对每一 层的简单随机选样得到D的分层选样 选样SRS SRSWOR (简单随机选 样,不回放) SRSWR (简单随机选 样,回放) 原始数据 选样聚类/分层选样 原始数据 聚类/分层选样 离散化 n三种类型的属性值: q名称型e.g. 无序集合中的值 q序数e.g. 有序集合中的值 q连续值e.g. 实数 n离散化 q将连续属性的范围划分为区间 q有效的规约数据 n基于判定树的分类挖掘 q离散化的数值用于进一步分析 离散化和概念分层 n离散化 q通过将属性域划分为区间,减少给定连续属性 值的个数。区间的标号可以代替实际的数据值。 n概念分层 q通过使用高层的概念(比如:青年、中年、老 年)来替代底层的属性值(比如:实际的年龄数据 值)来规约数据 数据数值的离散化和概念分层生成 n分箱(binning) q分箱技术递归的用于结果划分,可以产生概念分层。 n直方图分析(histogram) q直方图分析方法递归的应用于每一部分,可以自动产生 多级概念分层。 n聚类分析 q将数据划分成簇,每个簇形成同一个概念层上的一个节 点,每个簇可再分成多个子簇,形成子节点。 n基于熵的离散化 n通过自然划分分段 通过自然划分分段 n将数值区域划分为相对一致的、易于阅读的、 看上去更直观或自然的区间。 q聚类分析产生概念分层可能会将一个工资区间 划分为:51263.98, 60872.34 q通常数据分析人员希望看到划分的形式为 50000,60000 n自然划分的3-4-5规则常被用来将数值数据划 分为相对一致,“更自然”的区间 自然划分的3-4-5规则 n规则的划分步骤: q如果一个区间最高有效位上包含3,6,7或9个不同的值 ,就将该区间划分为3个等宽子区间;(72,3,2) q如果一个区间最高有效位上包含2,4,或8个不同的值 ,就将该区间划分为4个等宽子区间; q如果一个区间最高有效位上包含1,5,或10个不同的值 ,就将该区间划分为5个等宽子区间; q将该规则递归的应用于每个子区间,产生给定数值属性 的概念分层; q对于数据集中出现的最大值和最小值的极端分布,为了 避免上述方法出现的结果扭曲,可以在顶层分段时,选用一 个大部分的概率空间。e.g. 5%-95% 3-4-5规则例子 (-$4000 -$5,000) (-$400 - 0) (-$400 - -$300) (-$300 - -$200) (-$200 - -$100) (-$100 - 0) (0 - $1,000) (0 - $200) ($200 - $400) ($400 - $600) ($600 - $800)($800 - $1,000) ($2,000 - $5, 000) ($2,000 - $3,000) ($3,000 - $4,000) ($4,000 - $5,000) ($1,000 - $2, 000) ($1,000 - $1,200) ($1,200 - $1,400) ($1,400 - $1,600) ($1,600 - $1,800) ($1,800 - $2,000) msd=1,000Low=-$1,000High=$2,000第二步 第四步 第一步 -$351-$159profit $1,838 $4,700 Min Low (i.e, 5%-tile) High(i.e, 95%-0 tile) Max count (-$1,000 - $2,000) (-$1,000 - 0) (0 -$ 1,000) 第三步 ($1,000 - $2,000) 分类数据的概念分层生成 n分类数据是指无序的离散数据,它有有限个值(可能 很多个)。 n分类数据的概念分层生成方法: q由用户或专家在模式级显式的说明属性的部分序。 q通过显示数据分组说明分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论