数据挖掘最新版本_第1页
数据挖掘最新版本_第2页
数据挖掘最新版本_第3页
数据挖掘最新版本_第4页
数据挖掘最新版本_第5页
已阅读5页,还剩172页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.自动化前沿,第四讲数据挖掘技术及其应用,浙江大学工业控制研究所,控制科学与工程系研究生课程,主要内容,数据挖掘概述数据预处理数据挖掘算法-分类和预测数据挖掘算法-聚类数据挖掘算法-关联分析序列模式挖掘数据挖掘软件数据挖掘应用,首先,数据挖掘概述,数据挖掘的概念,数据挖掘从大量数据中发现其规律的技术,是统计学、数据库技术和人工智能技术的结合。数据挖掘是从数据中自动提取模式、关联、变化、异常和有意义的结构。数据挖掘的大部分价值在于利用数据挖掘技术来改进预测模型。数据挖掘和KDD,数据挖掘和KDD,知识发现(KD)输出规则数据挖掘(DM)输出模型共同点这两种方法都输入学习集,以便尽可能自动化数据挖掘过程。数据挖掘过程不能完全自动化,只能是半自动化的。数据挖掘的社会需求,国民经济和社会的信息化,以及社会信息化之后,社会的运行就是软件的运行。继社会信息化之后,社会的历史就是数据的历史,社会对数据挖掘的需求,有价值的知识,可怕的数据,社会对数据挖掘的需求,数据爆炸,贫乏的知识,数据挖掘的发展,1989年IJCAI会议:数据库中知识发现的主题(g.piatetsky-shapelandw.frawley,(1991)1991-1994 KD讨论主题advance esinknowledgediscovery and data mining(u . fay YAD,g.piatetsky-Shapiro,p.smyth)ICDM、道瓦克、SPIE数据管理等。数据挖掘技术,技术分类预测:用历史预测未来描述:了解数据挖掘技术中的潜在规律关联分析序列模式分类(预测)聚合异常检测,异常检测,异常检测是数据挖掘中的一个重要方面,用于发现“小模式”(与聚类相反),即数据集中间与其他数据明显不同的对象。异常检测适用于电信和信用卡欺诈、贷款批准、药物研究、天气预报、客户分类、网络入侵检测、故障检测和诊断等。什么是异常?霍金斯(1980)给出了异常的基本定义:异常是数据集中不同的数据,这使人们怀疑这些数据不是随机偏差,而是由完全不同的机制产生的。聚类算法中异常的定义:异常是聚类中嵌入的背景噪声。异常检测算法将异常定义为不属于聚类或背景噪声的点。他们的行为与正常行为非常不同。异常检测方法的分类,基于统计的方法,基于距离的方法,基于偏差的方法,基于密度的方法,高维数据的异常检测,数据挖掘系统的特征,数据特征知识的特征算法,矿山(数据),挖掘工具(算法),黄金(知识),数据特征、大容量的位置信息数据(一家超市每天处理多达2000万笔交易)卫星图像(美国航天局的地球观测卫星以每小时50GB的速度发回数据)互联网数据包含嘈杂(不完整、不正确)的异构数据(各种数据类型的混合数据源,来自互联网的数据是典型的例子),根据系统的特点,知识发现系统需要一个预处理过程数据抽取数据清洗数据选择数据转换知识发现系统是一个自动/半自动过程知识发现系统,必须具有良好的性能,知识的特征(模式),知识发现系统能发现什么知识?基于FOL的以发现关系为目标的归纳逻辑程序设计目前的知识发现系统只能发现特定模式下知识规则的分类和关联,知识表示:规则,如果条件,那么结论条件和结论的粒度(抽象度)可以有各种单值区间模糊值规则,确定性精度规则概率规则,知识表示:分类树、分类条件1、分类条件2、分类条件3、类别1、类别2、类别3、类别4、数据挖掘算法的特点,构成数据挖掘算法的三要素模式描述语言反映了算法可以找到什么样的知识模式评估,什么样的模式可以被称为知识模式探索:包括对特定模式的参数空间和模式空间的探索,数据挖掘的主要方法,第一代数据挖掘系统支持一个或几个为挖掘向量值数据而设计的数据挖掘算法,并且这些数据模型通常在挖掘过程中一次转移到内存中进行处理。这些系统中的许多已经商业化。第二代数据挖掘系统目前的研究方向是改进第一代数据挖掘系统,开发第二代数据挖掘系统。第二代数据挖掘系统支持数据库和数据仓库,它们具有高性能接口和高可扩展性。例如,第二代系统可以挖掘大数据集、更复杂的数据集和高维数据。这一代系统通过支持数据挖掘架构和数据挖掘查询语言(DMQL),增加了系统的灵活性。第三代数据挖掘系统的特点是能够挖掘互联网/外联网分布式和高度异构的数据,并能够有效地与操作系统集成。这一代数据挖掘系统的关键技术之一是为构建在异构系统上的多个预测模型提供一流的支持,并为管理这些预测模型提供元数据。第四代数据挖掘系统第四代数据挖掘系统可以挖掘由嵌入式系统、移动系统和无处不在的计算设备生成的各种类型的数据。数据预处理为什么需要进行预处理?不完整的数据包含观测噪声,不一致的数据包含其他不需要的成分。数据清理通过填充空缺值、平滑噪声数据、识别和删除孤立点以及解决不一致来清理数据。污染数据的形成原因、缩写词的误用、数据输入错误、数据中嵌入的控制信息、不同的习惯用法、缺失值的重复记录、拼写变化、不同的测量单位、包含各种噪声的过时代码、数据清理的重要性以及污染数据的普遍性,使得在大型数据库中维护数据的正确性和一致性变得非常困难。垃圾输入、垃圾输出、数据清理处理内容、格式标准化、异常数据清理错误、重复数据清理的纠正、数据约定、数据集的压缩表示,但可以实现与原始数据集相同或基本相同的分析结果。主要策略有:数据聚合维度约定、数据压缩值约定、空缺值、忽略元组手动填充空缺值、使用固定值、使用属性平均值、使用最可能值、噪声数据、如何平滑数据和消除噪声数据平滑技术盒聚类计算机和手动检查回归的组合、盒、盒深度:指示不同的盒具有相同数量的数据。框宽:每个框值的值间隔是一个常数。平滑方法:根据盒子平均值进行平滑,根据盒子中值进行平滑,根据盒子边界值进行平滑,聚类时,每个聚类中的数据使用其中心值而不是忽略孤立点,并首先通过聚类等方法找出孤立点。这些孤立的点可能包含有用的信息。手动重新检查这些孤立点,回归,通过构造函数来顺应数据变化的趋势,以便一个变量可以用来预测另一个变量。线性回归多元线性回归,数据集成,将来自多个数据源的数据组合起来,并将其存储在一个常量数据存储中。实体识别实体和模式之间的匹配冗余:一个属性可以从其他属性推导出来。相关性分析相关性ra,b.ra,bo,正相关。a随B值的增加而增加,呈正相关。AB与ra、bo无关,呈正相关。随着B值的增加,A减少了对同一数据存储器中重复数据值冲突的检测和处理。数据转换、平滑聚合数据泛化和规范化属性构造(特征构造)。最小和最大归一化十进制缩放和归一化属性构造是由给定的属性构造的,并且添加了新的属性以帮助提高准确性和对高维数据结构的理解。标准化、数据立方体聚合、通过寻找感兴趣的维度进行重新聚合、维度缩减以及删除不相关的属性(维度)以减少数据量。如何通过属性子集选择来选择最小的属性集,使数据类的概率分布尽可能接近所有属性的原始分布?贪婪算法一步一步向前选择,一步一步向后选择,一步一步向后删除。结合正向选择和反向删除的决策树归纳,数据压缩、有损、无损小波变换将数据向量D转换成具有数值上不同小波系数的向量D。修剪D以保留小波系数的最强部分。主成分分析、数值惯例、回归和对数线性模型线性回归对数线性模型直方图等宽等深V-最优最大差分、数值惯例、聚类多维索引树:对于给定的数据集,索引树动态划分多维空间。选择样本简单地选择n个样本,不将n个样本的简单选择放回原处,放回聚类样本,分层地选择样本,离散化和概念分层,离散化技术通常是递归的,以减少给定连续属性的数量。很多时间花在分类上。对于给定的数值属性,概念层次结构定义了属性的离散值。如果369个不同的值包含在区间最高有效位中,则通过自然地划分3-4-5规则,盒直方图分析、数值数据的离散化和聚类分析的基于熵的离散化被划分为3个等宽区间。7个不同的值,按照2-3-3分成3个区间,最高位包含2,4,8个不同的值,分成4个等宽区间,最高位包含1,5,10个不同的值,分成5个等宽区间,最高分层一般从第5百分位到第95百分位进行,产生分类数据的概念分层,分类数据是离散数据。分类属性可以具有有限数量的不同值。方法用户和专家在模式层明确解释属性的偏序。显式数据分组解释了解释属性集的部分层次结构,但并没有解释它们的部分顺序只解释了部分属性集。第三,数据挖掘算法-分类和预测,分类与预测,分类:预测分类标签(或离散值)根据训练数据集和类别标签属性构建模型对现有数据进行分类。且用于对新数据预测进行分类:建立连续函数值模型,例如预测空缺值,通常应用信誉来确认目标市场的医疗诊断性能预测,数据分类:两步过程,在第一步中,建立模型,描述预定数据类别集和概念集,假设每个元组属于预定义的类别,基本概念训练数据集由类别标签属性确定:训练样本由为建立模型而分析的数据元组形成;训练数据集中的单样本(元组)学习模型可以以分类规则、决策树或数学公式的形式提供第二步;模型用于对未来或未知对象进行分类;首先,针对每个测试样本评估模型的预测准确率,将已知类别标签与样本的学习模型类别预测进行比较,模型在给定测试集上的准确率是正确的。由模型分类的测试样本的百分比必须独立于训练样本集,否则将存在“对数据的过度适应”。第一步是建立模型,训练数据集,分类算法,如果排名=教授或第6年,那么订阅=是,分类规则,第2步:分类与模型,分类规则,测试集,未知数据,(杰夫,教授,4),终身?准备分类和预测数据。通过对数据进行预处理,可以提高分类和预测过程的准确性、有效性和可扩展性。数据清理可以消除或减少噪音和处理空缺值,从而减少学习过程中的混乱。相关性分析数据中的某些属性可能与当前任务无关。有些属性可能是多余的;删除这些属性可以加快学习过程,使学习结果更加准确,数据转换可以将数据归纳为更高层次的概念,或者标准化数据,比较分类方法,并使用以下标准比较分类和预测方法的预测精度:模型正确预测新数据的类别数的能力的速度:生成和使用模型的计算成本的鲁棒性:给定噪声数据或具有空值的数据, 模型正确预测能力的可伸缩性:对于大量数据,有效构建模型的能力可以解释为:学习模型提供的理解和洞察力的水平,用决策树归纳分类,什么是决策树?与流程图的树形结构相似,每个内部节点代表一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一个类或类分布决策树。在决策树构造的开始,所有的训练样本在根节点通过选定的属性递归地分成样本(这些样本必须是离散值)。树木修剪许多分支反映了训练数据中的噪声和孤立点。树修剪试图检测并切断该分支决策树的使用:通过将样本的属性值与决策树进行比较来对未知样本进行分类,确定归纳树算法,确定归纳树算法(贪婪算法)以自顶向下的分治方式构造决策树以表示训练样本的单个根节点,开始使用分类属性(如果量化属性,则首先需要离散化)通过选择相应的测试属性递归地划分样本,一旦属性出现在节点上,测试属性就不会出现在节点的任何后代上。根据一些启发式信息或统计信息(例如信息增益)进行选择。停止递归分区步骤的条件。给定节点的所有样本属于同一个类。没有剩余属性可用于进一步划分样本。有关详细算法,请参见P189,朴素贝叶斯分类:假设每个属性彼此独立,并且每个属性对非类问题有相同的影响。,反向传播分类,反向传播是一种神经网络学习算法;神经网络是一组相连的输入/输出单元,每个单元都用一个权重连接。在学习阶段,通过调整神经网络的权重,可以预测输入样本的正确标签以进行学习。优点预测精度通常较高且稳健。当训练样本包含错误时,它也可以正常工作。输出可以是离散值、连续值或离散或定量属性的向量值。缺点:训练(学习)时间长,学习权重中包含的象征意义难以理解。专业领域的知识很难整合。其他分类方法,k-最近分类给出一个未知样本,k-最近分类搜索模式空间,找到最接近未知样本的K个训练样本。然后,使用k个最近邻中最常见的类别来预测当前样本的类别标签。基于案例的推理样本或案例由复杂符号表示。对于新案例,首先检测是否存在相同的训练案例。如果找不到,那么搜索相似的训练案例,结合生物进化的遗传算法,粗糙集方法,模糊集方法允许在分类规则中定义“模糊”临界值或

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论