




已阅读5页,还剩37页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第11章 数据预处理与可 视化技术 数据挖掘与知识发现(第2版) 吉林大学计算机科学与技术学院 李雄飞 1 数据挖掘与知识发现(第2版) 李雄飞等2003,2010 数据预处理与可视化技术 数据预处理是数据分析、数据挖掘等工作的前期准备, 用以确定数据挖掘的类型,提高挖掘质量。融合数据挖掘 和数据可视化两个学科,可以用直观、有效的方式来解释 和评估挖掘对象、挖掘任务以及挖掘结果。本章介绍如下 几个方面的内容: 数据清理 数据集成与转换 数据归约与浓缩 概念分层 过程可视化 数据可视化 结果可视化 2 数据挖掘与知识发现(第2版) 李雄飞等2003,2010 数据清理 数据清理(Data Cleaning)能够填补空缺数据,平滑噪声,发现 孤立点,纠正不一致的数据,进而改善数据质量,提高数据挖掘的精 度和性能。 一、 填补空缺值 海量数据集中可能会“遗漏”某些数据,要分析这种不完整的数据 ,就必须通过推导来填充这些空缺值。 必须权衡估计数据带来的风险和数据空缺造成的误解。 缺省值处理方法: 1. 忽略元组:如果一个元组中空缺值的属性较多,可以忽略这个元组。 2. 人工填写空缺值:这种方法很费时。 3. 用全局常量填充空缺值:用同一个常数(如“Unknown”或-)替换 空缺的属性值。 4. 用属性的平均值填充空缺值 5. 用同类样本的平均值填补空缺值 6. 用最可能的值填充空缺值:用回归分析或决策树归纳等方法确定最有 可能的值。 7. 用最近邻方法填补空缺值 3 数据挖掘与知识发现(第2版) 李雄飞等2003,2010 数据清理 二、消除噪声数据 噪声(Noise)是测量中的随机错误或偏差。 几种常用方法: 1. 分箱(Binning):通过考察“邻居”(即周围的值)来平滑存储的数 据值。它将存储的值分布到一些箱中,可按均值、中位数等平滑。分 箱方法只参考相邻的值,是对数据的局部平滑。 一般来说,宽度越大,平滑效果越好。箱也可以是等宽的,每个箱的取 值区间是一个常量。 4 数据挖掘与知识发现(第2版) 李雄飞等2003,2010 数据清理 2. 聚类(Clustering):通过聚类形成一些簇,落在簇之外的对象按关 注程度划分,如果关注该对象就称为孤立点,否则视为噪声。所以聚 类可以发现噪声。 3. 计算机与人工检查结合:计算机将差异程度大于阈值的模式记录到一 个表中,通过审查表中的模式可以识别真正的噪声。 4. 回归(Regression):用由数据拟合的函数(如回归函数)来平滑 数据。 三、实现数据一致性 对于数据集中存在的不一致数据,可以参照其他资料(如纸上的 记录)人工地加以更正,还可以使用用来纠正编码不一致问题的程序 ,也可以用知识工程工具来检测不符合条件约束的数据。 5 数据挖掘与知识发现(第2版) 李雄飞等2003,2010 数据集成与转换 海量数据集往往涉及多个数据源,因此,在数据挖掘之前需要合并这 些数据源存储的数据。 如果原始数据的形式不适合数据挖掘算法需要,就要进行数据变换。 一、数据集成 数据挖掘对象可能来自多个数据源,包括不同形式的数据库、数据 立方体或一般文本文件等。数据集成是将这些数据源中的数据集中存 放在一个统一的数据存储(如数据仓库)中。 通用标识符问题 隔离,保证为实体的每次出现指派一个唯一标识符; 调和,确认相同的实体并将该实体的各次出现合并在一起。 冗余问题。(冗余属性和冗余元组) 不一致的属性或伪命名也可能导致数据冗余。利用相关分析可以发 现一些冗余问题。 将多个数据源中的数据集成起来,能够减少或避免数据的冗余和不一 致性,这将有助于提高数据挖掘的精度和效率。 6 数据挖掘与知识发现(第2版) 李雄飞等2003,2010 数据集成与转换 二、数据转换 目的是使数据和将来要建立的模型拟合得更好,形成适合挖掘的形 式。 数据转换主要涉及如下内容: 1. 平滑:去掉数据中的噪声。 2. 聚集:对数据进行汇总和聚集。为多粒度数据分析构建数据立方体。 3. 数据概化:使用概念分层,用高层次概念替换低层次“原始”数据。 4. 属性构造:构造新属性并将其添加到属性集中有助于数据挖掘过程。 5. 规范化:通过将属性数据按比例缩放,使之落入一个小的特定区间( 如0.01.0)来规范属性。 (1) 最小-最大规范化 设 minA 和maxA 分别为属性A的最小和最大值。 (11.1) 将A的值映射到区间new_minA, new_maxA 中的。 最小-最大规范化对原始数据进行线性变换,保持原始数据值之间的线 性关系。 7 数据挖掘与知识发现(第2版) 李雄飞等2003,2010 数据集成与转换 (2) z-score规范化(零-均值规范化) 把属性A的值基于A的均值和标准差规范化为。 (11.2) 其中, 和A分别为属性 A的均值和标准差。 在应用中,由于难以预知该属性的最大最小值,或存在“孤立点”,使 用最小-最大规范化方法不很实际,此时,零均值方法是有效的。 (3) 小数定标规范化 通过移动属性A的小数点位置进行规范化。小数点的移动位数依赖 于A的最大绝对值。将A的值规范化为。 (11.3) 其中,j是使Max(v)1的最小整数。 数据经过规范化处理后会有很大改变。因此,有必要保留规范化参数 ,以便将来的数据可以用一致的方式规范化。 8 数据挖掘与知识发现(第2版) 李雄飞等2003,2010 数据归约与浓缩 数据归约技术可以用来得到数据集的归约表示,虽然数据规模缩小 了,但仍接近于原数据的完整性。 常用的数据归约策略: 数据立方体聚集 维归约 数据压缩 数值压缩 离散化 概念分层 (1)数据立方体聚集 数据立方体可以存放多维聚集信息。每个单元存放一个聚集值,对 应于多维空间的一个数据点。每个属性可能存在概念分层,允许在多 个抽象层进行数据分析。 最底层的数据立方体称为基本方体。最高层抽象的数据立方体称为 顶点方体。不同层创建的数据立方体称为方体。 数据立方体可以看成方体的格。每个较高层的抽象会缩减结果数据。 9 数据挖掘与知识发现(第2版) 李雄飞等2003,2010 数据归约与浓缩 10 数据挖掘与知识发现(第2版) 李雄飞等2003,2010 数据归约与浓缩 (2)维归约 维归约通过删除与数据挖掘不相关的属性(或维),达到减少数据 量的目的。 数据中的一些属性与数据挖掘任务并不相关。 遗漏相关属性或保留不相关属性均会导致数据挖掘结果质量很差。 通常使用属性子集选择方法,找出最小属性集,使数据类的概率分布 尽可能接近原始数据分布。 通过维归约能减少模式上的属性数目,使模式更易于理解。 (3)数据压缩 无损压缩:可以不丢失任何信息地还原压缩数据。 有损压缩:只能重新构造原数据的近似表示。 应用数据编码或转换,可以得到原数据的归约或“压缩”表示。 主成分分析 小波变换 11 数据挖掘与知识发现(第2版) 李雄飞等2003,2010 数据归约与浓缩 (4)数值归约 利用替代数据以“较小的”数据表示形式来达到减少数据量的目的。它 可以是有参的,也可以是无参的。 1. 回归和对数线性模型 回归是研究自变量与因变量之间关系的分析方法,根据已知自变量 来估计和预测因变量的总平均值。 回归和对数线性模型可以近似拟合给定的数据。 例如,双变量回归将一个随机变量Y(称作响应变量)看作是另一个 随机变量X(称为预测变量)的线性函数,即: Y=+X (11.4) 其中,假定Y的方差是常量,和称为回归系数。 给定n个样本或形如(x1, y1), (x2, y2), (xn, yn)的数据点,则 12 数据挖掘与知识发现(第2版) 李雄飞等2003,2010 数据归约与浓缩 对数线性模型(Log-linear Model)可以近似地描述离散的多维概率分布 。按较小的方体形成数据立方体的格,对数线性模型用于估计具有离散属 性集的基本方体中每个格的概率分布。该模型允许由较低阶的数据立方体 构造较高阶的数据立方体。 因为较低阶的方体总共占用的空间小于基本方体占用的空间,所以对数线 性模型可以用于数据压缩。 用较小阶的方体对格进行估计时,选样变化小,所以它对数据平滑也是有 用的。 13 数据挖掘与知识发现(第2版) 李雄飞等2003,2010 数据归约与浓缩 2. 直方图(Histogram) 数据总结的最好方法是提供数据的直方图。它采用分箱 近似数据分布,是一种流行的数据归约形式。 属性A的直方图是将A的数据分布划分为不相交的子集 或桶。把桶安放在水平轴上,桶的高度(和面积)代表值 的平均频率。如果每个桶只代表单个属性的值/频率对,就 称为单桶。通常,桶表示给定属性的一个连续区间。 确定桶和属性值的划分规则: 等宽。 等深。 V-最优:V-最优直方图是具有最小方差的直方图。 最大差异:考虑每对相邻值之间的差。桶的边界是具有1个最 大差的数对,其中由用户指定。 V-最优和最大差异直方图是最精确和最实用的。无论对于 近似稀疏、稠密数据、高倾斜数据或一致的数据,直方图 都是有效的。多维直方图可以体现属性间的依赖关系。 14 数据挖掘与知识发现(第2版) 李雄飞等2003,2010 数据归约与浓缩 3. 聚类 在数据归约时,用聚类簇替换实际数据。 4. 抽样 抽样用较小的随机样本(子集)表示大的数据集。 假定海量数据集D包含N个对象。可以用如下方法对D抽样。 (1) 不放回简单随机抽样。 (2) 放回简单随机抽样。 (3) 整群抽样:从总体中随机抽取一些小的群体,然后由这些小群体内 的所有元素构成调查的样本。对小群体的抽取可以采用简单随机抽样 、系统抽样和分层抽样等方法。 (4) 分层抽样:把总体分成不重叠的层,从每一层分别抽取样本,由各 层子样本组成总体的样本。 (5) 多阶抽样:按照元素的隶属关系和层次关系,把抽样过程分为几个 阶段进行。 (6) 系统抽样:将总体中的对象按某种顺序排列,在规定的范围内随机 抽取一个或一组对象,然后按一定规则确定其他样本对象。 15 数据挖掘与知识发现(第2版) 李雄飞等2003,2010 概念分层 概念分层是一组由低层概念集到高层概念集的映射。它允许在各种抽 象级别上处理数据,从而在多个抽象层上发现知识。 概念分层结构可以用树来表示,树的每个节点代表一个概念。概念分 层结构也可以是一般的格或偏序。 通过概念分层,可以在较高的、一般化的抽象层上处理原始数据。可 以通过用较高层概念替换较低层的概念来实现数据的概化 。 16 数据挖掘与知识发现(第2版) 李雄飞等2003,2010 概念分层 一、概念分层分类 概念分层包括模式分层、集合分组分层、由操作导出的分层和基于 规则的分层4种类型。 1. 模式分层 模式分层(模式定义的分层)是数据库模式属性间的全序或偏序。 模式分层形式化地描述了属性间的语义联系。通常情况下,一个模式 分层指定数据仓库的一个维。维的属性也可以组织成偏序,形成一个 格。模式分层提供元数据(即关于数据的数据)信息。使用全序或偏 序比列出所有具体数据更加简明。 2. 集合分组分层 集合分组分层将给定属性或维的值组织成常量组或区间值,也就是 通过维或属性值的离散化或分组来定义分层。组之间可以定义全序或 偏序。当两种类型的分层结构结合时,集合分组分层可以用于精炼或 丰富模式定义的分层。 3. 由操作导出的分层 由操作导出的分层是根据用户、专家或数据挖掘系统指明的操作分 层。操作包括对信息编码串的解码,从复杂数据对象提取信息和数据 聚类等。 17 数据挖掘与知识发现(第2版) 李雄飞等2003,2010 概念分层 4. 基于规则的分层 基于规则的分层是指用一组规则来定义整个概念分层或概念分层的 某一部分,可以根据当前数据库和规则定义动态地计算分层。 二、数值数据的概念分层与离散化 根据对数据分布的统计分析自动地构造数值属性的概念分层。常见 的方法有分箱、直方图分析、聚类分析、基于熵的离散化和通过“自然 划分”的数据分段等。 1. 分箱 将数据分布到箱中,并用箱中数据的均值或中位数替换箱中的每个 值,可以将属性值离散化。不断用该方法划分结果,就能产生概念分 层。 2. 直方图分析 在等宽直方图中,将值划分成相等的部分或区间。在等深直方图中 ,对值进行划分使每一部分包括相同数目的样本。把直方图分析算法 递归地用于每一部分,直到到达一个预先设定的概念层数为止。 3. 聚类分析 18 数据挖掘与知识发现(第2版) 李雄飞等2003,2010 概念分层 4. 基于熵的离散化 用熵来递归地划分数值属性,使之分层离散化。这种离散化形成属 性的数值概念分层。 给定数据元组的集合S,对属性A离散化的方法如下: A的每个值是一个潜在的区间边界或阈值T。 (2) 给定S,选择在划分后信息增益最大的值作为阈值。 (3) 把确定阈值的过程递归地用于每个划分,直到满足 为止。 其中, 5. 通过自然划分分段 用户可能希望看到把数值区域划分为相对一致的、直观或“自然”的 区间。例如,将年薪划分成类似于(50 000, 60 000)的区间,比由某种 复杂的聚类技术得到的形式更好。 19 数据挖掘与知识发现(第2版) 李雄飞等2003,2010 概念分层 三、分类数据的概念分层 分类数据是离散数据。一个分类属性具有有限个取值,值之间是无 序的。针对分类数据的概念分层方法有: 1. 用户或领域专家在模式级给出属性的部分序。 2. 通过显式数据分组给出分层结构。 3. 只说明属性集,不说明它们的偏序。 由于一个较高层的概念通常包含若干从属的较低层概念,与较低概 念层的属性相比,较高概念层的属性通常包含少量的值。 4. 只说明部分属性集:在定义分层时,用户可能只说明了相关属性的一 小部分。为了处理这种部分说明的分层结构,有必要在数据库模式中 嵌入数据语义,把语义密切相关的属性捆绑在一起。 20 数据挖掘与知识发现(第2版) 李雄飞等2003,2010 可视化技术概述 可视化技术借助计算机图形学及图像处理技术将科学计算过程中的抽 象信息以生动形象的图形、图表模式显示出来,用以辅助了解计算过 程中数据的变化情况。 可视化技术的三大特点: 交互性 多维性 可视性 21 数据挖掘与知识发现(第2版) 李雄飞等2003,2010 可视化技术概述 可视化技术分类 1. 按数据类型划分 (1)一维数据可视化 (2)二维数据可视化 (3)多维数据可视化 (4)多媒体数据可视化 (5)时序数据和序列数据可视化 (6)文本数据可视化 (7)网络数据可视化 2. 按可视化方法划分 (1)传统图结构 (2)基于几何投影技术的方法 (3)基于图标技术的方法 (4)基于像素方法 (5)基于层次的方法 (6)组合技术 3 3. .按分析处理技术划分按分析处理技术划分 (1)变形技术 (2)动态交互技术 (3)钻过和钻透技术 (4)虚拟现实技术 22 数据挖掘与知识发现(第2版) 李雄飞等2003,2010 可视化技术概述 可视化技术在数据挖掘中的应用 (1) chernoff脸谱图(Chernoff Faces) 由统计学家Herman chernoff于1973年提出,是一种采用图标表 示n维数据的方法。取数据的两个属性作为二维平面的横、纵轴,人脸 特征(脸的形状、鼻子长度、嘴的宽度、眼睛的大小等)代表其他各 个属性的值。 23 数据挖掘与知识发现(第2版) 李雄飞等2003,2010 可视化技术概述 (2)树图(Tree Map) 根据数据的层次结构,从根节点到子结点的顺序,先水平地将屏幕 空间二分为矩形子空间,然后在垂直的划分该矩形子空间,子空间的 大小由结点的大小决定,这样迭代水平、垂直划分,直至处理完层次 结构内所有的结点。 24 数据挖掘与知识发现(第2版) 李雄飞等2003,2010 可视化技术概述 (3)层次聚类方法 层次聚类中的同属于一个祖先的叶节点被划分在同一个纵向分割的 子块内。 25 数据挖掘与知识发现(第2版) 李雄飞等2003,2010 过程可视化 有三种实现数据挖掘可视化的方法: (1)嵌入式可视化环境 将可视化工具集成为应用软件的一部分,然后将该应用软件嵌入到 主程序中。 (2)通用可视化环境 从底层就采用可视化模型开发,它的编程和显示都是可视化的,数 据的导入和结果集的检验等均在可视化环境中操作。 (3)可视化组件库 由可以用来开发可视化应用的软件包或组件库组成。可视化组件库 强调组件独立使用,通常为用户提供开发工具和语言。 数据挖掘过程可视化贯穿整个数据挖掘过程,包括用户界面、定制工 作流、添加和选择算法、模型、属性、数据集等。通常数据挖掘平台 是一个基于图形化界面、菜单驱动、拖拽式操作的集成环境,参见图 11.11。 26 数据挖掘与知识发现(第2版) 李雄飞等2003,2010 过程可视化 27 数据挖掘与知识发现(第2版) 李雄飞等2003,2010 过程可视化 28 数据挖掘与知识发现(第2版) 李雄飞等2003,2010 数据可视化 29 数据挖掘与知识发现(第2版) 李雄飞等2003,2010 数据可视化 1.折线图 折线图是用一个单位长度表示一定的数量,每个数据描出一个点, 并把各点用线段顺次连接起来的图形。折线图可以清晰地反映出数据 的增减规律、增减幅度、速率、峰值等。 30 数据挖掘与知识发现(第2版) 李雄飞等2003,2010 数据可视化 2.复合饼图 用来显示数据集中各项占数据总额的百分比,是一种概化数据的图 形表示方法。用户可以任意选取属性,可以动态增加饼图个数,同时 比较若干维的统计信息。饼图中的扇形以不同颜色标示且都给出占总 体份额的百分比。 31 数据挖掘与知识发现(第2版) 李雄飞等2003,2010 数据可视化 4.盒图 盒图根据五数概括绘制,分布的五数概括(five-number summary)由中位数,四分位数Q1和Q3,最小和最大观测值组成。 盒图容易观察数据的对称性,分散程度、异常值、偏态和尾重等。 32 数据挖掘与知识发现(第2版) 李雄飞等2003,2010 数据可视化 5.平行坐标法 把多维空间的数据点映射到二维空间。它将N维数据点映射为平行 坐标轴中首尾相连的N-1条折线,这些折线与平行坐标轴的交点即为多 维空间中的数据点的每一维数据值。 33 数据挖掘与知识发现(第2版) 李雄飞等2003,2010 数据可视化 6.圆环分段表示 在圆形的每一扇形上显示一维数据。若数据是K维组成的,将圆形 分成K个扇形。每段的数据项表示为单个像素,以圆心为起点沿着垂 直于段中线的方向,在段内来回移动。像素排列是从圆心开始到圆形 的外边界。 34 数据挖掘与知识发现(第2版) 李雄飞等2003,2010 结果可视化 数据挖掘结果可视化是指将数据挖掘后得到的知识和结果用可视化 的形式表示出来。数据挖掘平台的结果可视化子模块读取执行算法后 生成的以XML文件存储的结果
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 校文艺部笔试题目及答案
- 时间到认识课件
- 时尚表演基础知识培训内容课件
- 人教版四年级上册第五单元5.1《平行与垂直》课时练(含答案)
- 高一英语必修一Unit 2 Travelling around课时同步练习(Listening and Talking)(含答案)
- 项目成本控制方案编制与实施框架
- 小青蛙呱呱系列童话呱呱撒谎了750字7篇范文
- 营销活动效果评估报告模板业绩评估标准版
- 纪念九八一事变的课件
- 纪委监委应急知识培训课件
- 地铁安检培训课件
- 2025年豪华别墅室内外装饰设计及施工一体化服务合同
- 废铅酸蓄电池回收处置项目可行性研究报告
- 农村处理矛盾纠纷课件
- 2025年重庆对外建设有限公司招聘考试笔试试题
- 2025年阿克苏社区专职工作人员招聘真题
- 2025年生猪屠宰检疫竞赛题库
- 2025年汽车驾驶员(技师)考试试题附答案
- 矿山基金管理办法
- 肥料登记证授权合同范本
- 工业厂房租赁管理办法
评论
0/150
提交评论