数据挖掘入门精简.课件_第1页
数据挖掘入门精简.课件_第2页
数据挖掘入门精简.课件_第3页
数据挖掘入门精简.课件_第4页
数据挖掘入门精简.课件_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2022/7/261数据挖掘入门 2022/7/262引言KDD与数据挖掘数据挖掘方法数据挖掘的应用和发展趋势数据预处理可视化数据挖掘加工表达信息融入信息社会2022/7/265知识发现(KDD)的过程数据清理筛选数据目标数据Knowledge预处理及变换变换后的数据数据挖掘解释/评估2022/7/266数据挖掘系统结构数据仓库数据清理 数据集成过滤数据库数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面 知识库2022/7/267数据挖掘技术分类数据挖掘验证驱动挖掘发现驱动挖掘SQLSQL生成器查询工具OLAP描述预测可视化聚类关联规则顺序关联汇总描述分类统计回归时间序列决策树神经网路2

2、022/7/268五,数据预处理为什么需要数据预处理?数据清洗 数据集成与转换数据归约数据离散化与概念层次的构建本章小结2022/7/269为什么需要数据预处理 ?在现实社会中,存在着大量的“脏”数据不完整性(数据结构的设计人员、数据采集设备和数据录入人员) 缺少感兴趣的属性感兴趣的属性缺少部分属性值仅仅包含聚合数据,没有详细数据噪音数据(采集数据的设备、数据录入人员、数据传输)数据中包含错误的信息存在着部分偏离期望值的孤立点不一致性(数据结构的设计人员、数据录入人员)数据结构的不一致性Label的不一致性数据值的不一致性2022/7/2610为什么需要数据预处理 ?数据挖掘的数据源可能是多个

3、互相独立的数据源关系数据库多维数据库(Data Cube)文件、文档数据库数据转换为了数据挖掘的方便海量数据的处理数据归约(在获得相同或者相似结果的前提下)2022/7/2611为什么需要数据预处理?没有高质量的数据,就没有高质量的挖掘结果高质量的决策必须基于高质量的数据基础上数据仓库是在高质量数据上的集成2022/7/2612数据预处理的主要任务数据清理填入缺失数据平滑噪音数据确认和去除孤立点解决不一致性数据集成多个数据库、Data Cube和文件系统的集成数据转换规范化、聚集等数据归约在可能获得相同或相似结果的前提下,对数据的容量进行有效的缩减数据离散化对于一个特定的连续属性,尤其是连续的

4、数字属性,可以把属性值划分成若干区间,以区间值来代替实际数据值,以减少属性值的个数.2022/7/2613数据预处理的形式数据清理数据集成数据转换数据归约2022/7/2614主要内容为什么需要数据预处理?数据清洗 数据集成与转换数据归约数据离散化与概念层次的构建本章小结2022/7/2615使用属性的平均值填充空缺数值简单方便、挖掘结果容易产生不精确的结果使用与给定元组同一个类别的所有样本的平均值分类非常重要,尤其是分类指标的选择使用最有可能的值予以填充利用回归、基于推导的使用贝叶斯形式化的方法的工具或者判定树归纳确定利用属性之间的关系进行推断,保持了属性之间的联系缺失数据的处理方法(续)2

5、022/7/2616噪音数据噪音数据:一个度量(指标)变量中的随机错误或者偏差主要原因数据采集设备的错误数据录入问题数据传输问题部分技术的限制数据转换中的不一致 数据清理中所需要处理的其它问题重复的记录不完整的数据不一致的数据2022/7/2617噪音数据的处理分箱(Binning)的方法聚类方法检测并消除异常点线性回归对不符合回归的数据进行平滑处理人机结合共同检测由计算机检测可疑的点,然后由用户确认2022/7/2618处理噪音数据:分箱方法分箱(Binning)方法:基本思想:通过考察相邻数据的值,来平滑存储数据的值基本步骤:首先,对数据进行排序,并分配到具有相同宽度/深度的不同的“箱子”

6、中其次,通过箱子的平均值(Means)、中值(Median)、或者边界值等来进行平滑处理2022/7/2619分箱(Binning) 方法举例对数据进行排序: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34对数据进行分割(相同深度) :- Bin 1: 4, 8, 9, 15- Bin 2: 21, 21, 24, 25- Bin 3: 26, 28, 29, 34根据bin中的平均值进行离散化:- Bin 1: 9, 9, 9, 9- Bin 2: 23, 23, 23, 23- Bin 3: 29, 29, 29, 292022/7/2620基于聚类

7、分析的平滑处理2022/7/2621通过线性回归的平滑处理xyy = x + 1X1Y1Y12022/7/2622主要内容为什么需要数据预处理数据清洗 数据集成与转换数据归约数据离散化与概念层次的构建本章小结2022/7/2623数据集成数据集成的概念将多个数据源中的数据结合起来存放在一个一致的数据存储中数据源包括:多个数据库、多维数据库和一般的文件数据集成也是数据仓库建设中的一个重要问题数据集成的内容模式集成利用数据库和数据仓库的元数据信息主要工作是识别现实世界中的实体定义冗余数据的处理检测和解决数值冲突对于现实世界中的同一实体,来自于不同数据源的属性值可能不同主要原因:不同的数据表示、度量

8、单位、编码方式以及语义的不同2022/7/2624模式集成数据类型冲突性别:string(Male、Female)、Char(M、F)、Interger(0、1)日期:Date、DateTime、String数据标签冲突:解决同名异义、异名同义学生成绩、分数度量单位冲突学生成绩百分制:100 0五分制: A 、B、C、D、E字符表示:优、良、及格、不及格概念不清最近交易额:前一个小时、昨天、本周、本月?聚集冲突:根源在于表结构的设计 2022/7/2625冗余数据的处理从多个数据源中抽取不同的数据,容易导致数据的冗余不同的属性在不同的数据源中是不同的命名方式有些属性可以从其它属性中导出, 例如

9、:销售额单价销售量有些冗余可以通过相关分析检测到 其中:n是元组的个数, 和 分别是A和B的平均值, 和 分别是A和B的标准差 元组级的“重复”,也是数据冗余的一个重要方面减少冗余数据,可以大大提高数据挖掘的性能2022/7/2626数据转换平滑处理: 从数据中消除噪音数据聚集操作: 对数据进行综合,类似于Data Cube的构建数据概化:构建概念层次数据规范化: 将数据集中到一个较小的范围之中最大-最小规范化z-score(零均值)规范化小数范围规范化(01规范化)属性构造构造新的属性并添加到属性集中,以帮助数据挖掘2022/7/2627数据转换:规范化最大-最小规范化对原始数据进行线性变换

10、保持了原始数据值之间的关系当有新的输入,落在原数据区之外,该方法将面临“越界”错误受到孤立点的影响可能会比较大2022/7/2628数据转换:规范化(续)z-score(零均值)规范化属性基于平均值和标准差规范化当属性的最大值和最小值未知,或者孤立点左右了最大最小规范化时,该方法有效0-1规范化(小数定标规范化)通过移动属性的小数点位置进行规范化例如A的值为125,那么|A|=125,则j=3,有v=0.125。 Where j is the smallest integer such that Max(| |)Reduced attribute set: A1, A4, A6YYYNNN20

11、22/7/2636数据压缩数据压缩:应用数据编码或变换,以便得到数据的归约或压缩表示无损压缩:原数据可以由压缩数据重新构造而不丢失任何信息字符串压缩是典型的无损压缩现在已经有许多很好的方法但是它们只允许有限的数据操作有损压缩:只能重新构造原数据的近似表示 影像文件的压缩是典型的有损压缩典型的方法:小波变换、主要成分分析2022/7/2637数值归约数值归约:通过选择替代的、“较小”的数据表示形式来减少数据量有参的方法假设数据符合某些模型,通过评估模型参数,仅需要存储参数,不需要存储实际数据(孤立点也可能被存放)典型方法:对数线性模型,它估计离散的多维概率分布无参的方法不存在假想的模型典型方法:

12、直方图、聚类和抽样2022/7/2638直方图类似于分箱技术,是一种流行的数据归约方式将属性值划分为不相交的子集,或“桶”桶安放在水平轴上,而桶的高度(和面积)是该桶所代表的值的平均频率。每个桶只表示单个属性值,则称其为“单桶”。通常,“桶”表示给定属性的一个连续空间可以通过编程,动态修改部分参数,进行合理构造。count51015202530123456789101-1011-2021-30510152025132515PricePricecount2022/7/2639主要内容为什么需要数据预处理?数据清洗 数据集成与转换数据归约数据离散化与概念层次的构建本章小结2022/7/2640数据

13、离散化和概念层次属性值分类枚举型有序的无序的连续型:如 Real类型数据离散化对于一个特定的连续属性,可以把属性值划分成若干区间,以区间值来代替实际数据值,以减少属性值的个数。概念层次利用高层的概念(如儿童、青年、中年、老年等)来代替低层的实际数据值(实际年龄),以减少属性值的个数。2022/7/2641数值数据的离散化和概念分层建立的方法分箱(Binning)直方图分析聚类分析的方法根据自然分类进行分割2022/7/2642分箱方法:一种简单的离散化技术相同宽度 (距离)数据分割将数据分成N等份,各个等份数据之间具有相同的距离如果 A 和 B 分别为属性值中的最大值和最小值,那么各个数据等份

14、之间的距离为:W = (B-A)/N.异常点将会扮演很重要的角色倾斜的数据不能很好的解决相同深度 (频率)数据分割将数据分成N等份,各个等份具有相同的数据个数。具有较好的可伸缩性适合于数据分类的情况2022/7/2643离散化:直方图方法将数据分割到若干个桶之中,用桶中的平均值(或求和等)来表示各个桶。可以通过编程,动态修改部分参数,进行合理构造。count51015202530123456789101-1011-2021-30510152025132515PricePricecount2022/7/2644离散化:聚类分析方法将数据按照“类内最大相似度,类间最小相似度的原则”对数据进行有效聚

15、类利用聚类的中心点来表示该类所包含的对象数据聚类将非常有效,但是必须保证数据中没有噪音数据2022/7/2645按照自然分类进行数据分割利用3-4-5 法则对数字型数据分类,将数据分成若干个“自然”的区间:如果在所有数字的最高位覆盖 3, 6, 7或9个不同的值,则将数据分成3段。3(1,1,1) 6(2,2,2) 7(2,3,2) 9(3,3,3)如果在所有数字的最高位覆盖 2, 4, 8个不同的值,则将数据分成4 段。如果在所有数字的最高位覆盖 1, 5, 10个不同的值,则将数据分成 5 段。2022/7/26463-4-5 法则举例例1:包含数据:101、110、203、222、305

16、、315方法:最高位包含3个值(1、2、3)分成100,200),200,300),300,400)三段例2:包含数据:101、110、103、422、405、415,400方法:最高位包含2个值(1、4)分成100,150),150,200) ,400,450) ,450,500)四段例3:包含数据:101、210、203、322、305、415,500方法:最高位包含5个值(1、2、3、4、5)分成100,200),200,300) ,300,400) ,400,500),500,600)五段2022/7/2647分类数据的概念分层概念分层是由用户或专家对具有偏序关系的属性的一种层次关系的

17、显式表示。也是一种数据分类的显式表示。概念层次的获得隐式存储于数据库中。如:地址。由专家显式给出。借助数据分析自动生成。概念层次的表示基于实例。如:freshman, ., seniorundergraduate.;基于数据库表模式。如:address(city, province, country)。基于规则。如: good(x) undergraduate(x) gpa(x) 3.5。2022/7/2648概念层次树举例概念层次树将大大减少挖掘数据的数据量。countryprovince_or_ statecitystreet15 distinct values65 distinct va

18、lues3567 distinct values674,339 distinct values2022/7/2649主要内容为什么需要数据预处理?数据清洗 数据集成与转换数据归约数据离散化与概念层次的构建本章小结2022/7/2650本章小结数据的预处理无论对于数据仓库和数据挖掘都是非常重要的一个环节数据预处理包括数据清理数据集成数据归约和特征选取数据的离散化数据预处理涉及面广,现已建立了一系列的方法,但是目前仍然是一个非常活跃的研究领域2022/7/2651六,可视化数据挖掘可视化: 使用计算机图形学创建可视化图像,帮助用户理解复杂,大规模数据可视化数据挖掘: 使用可视化技术,从大规模数据集

19、中发现隐含,有用知识的过程信息可视化数据挖掘可视化 数据挖掘2022/7/2652信息可视化信息可视化:结合了科学可视化、人机交互、数据挖掘、图像技术、图形学、认知科学等诸多学科的理论和方法,而逐步发展起来的。信息可视化参考模型2022/7/2653可视化数据挖掘可视化的目的提供对大规模数据集定性的理解查看数据中的模式,趋势,结构,不规则性,关系等帮助寻找感兴趣的区域,为进一步定量分析提供合适的参数为计算机得出的结果提供可视化的证明2022/7/2654可视化数据挖掘可视化与数据挖掘的结合数据可视化数据挖掘结果可视化数据挖掘过程可视化交互式可视化数据挖掘2022/7/2655数据可视化数据可视化以下面两种方式观察数据库或数据仓库的数据: 在不同的粒度或抽象层面观察属性或维度的不同结合数据可以被表示成不同的格式,柱状图、饼状图、散点图、三维立方体、曲线、数据分布图表等

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论