




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、工业控制技术研究所,自动化前沿,第四届数据挖掘技术及其应用宋执行环浙江大学工业控制研究所,控制科学和工学系研究生课程,主要内容, 数据挖掘概述数据预处理数据挖掘算法-分类和预测数据挖掘算法-簇数据挖掘算法-相关分析序列模式挖掘数据挖掘软件数据挖掘应用,工业控制技术研究所工业控制技术研究所, 数据挖掘的概念、数据挖掘-从大量数据中查找其规律的技术是统计学、数据库技术和人工智能技术的综合。 数据挖掘是自动从数据中提取模式、关联、变化、异常和有意义的结构的数据挖掘的大部分价值是利用数据挖掘技术改进预测模型。 数据挖掘和KDD、工业控制技术研究所、数据挖掘和KDD、知识发现(KD )输出的是规则数据挖
2、掘(DM ) 我输出的是模型共同点的两种方法输入的是学习集的目的尽可能多的自动化数据挖掘过程数据挖掘过程不完全自动化,只能半自动化,工业控制技术研究所数据挖掘的社会需求,国民经济和社会信息化,社会信息化后, 社会运营是软件的运营社会信息化后,社会的历史是数据的历史,工业控制技术研究所,数据挖掘的社会需求,有价值的知识,可怕的数据,工业控制技术研究所,数据挖掘的社会需求,数据爆炸,知识匮乏,工业控制技术研究所, 数据挖掘的发展1989 IJCAI会议:数据库中的知识发现讨论主题knowledgediscoveryindatabases (g.piaatetsky-Shapiro andw.fra
3、wley 1991 ) 1991-1994 KDD是专题advancesinknowledgediscoveryanddatamining (u.fayad,G. Piatetsky-Shapiro,P. Smyth, and r.uthurusamy 1996 ) 1995-1998 KDD国际会议(KDD95-98 ) journalofdataminingandknowledgediscovery (1997 ) 1998 acmsigkdd, SIG KDD1999-2002会议关于SIGKDD Explorations数据挖掘的国际会议PAKDD、PKDD、Siam -数据挖掘、(I
4、EEE) ICDM、DaWaK、SPIE-DM、etc .工业控制技术研究所、 数据挖掘技术分类预言:历史预测未来描述:理解数据中的潜在规律数据挖掘技术相关分析序列模式分类(预言)异常检测、工业控制技术研究所、异常检测、异常检测是数据挖掘的重要方面之一在用于发现小模式(针对集群)的对象(即,与数据集合中的其他数据显着不同的对象)中。 异常检测是使用电信和信用卡欺诈贷款审查药进行气象预报金融领域的顾客分类网络入侵检测故障检测和诊断等,工业控制技术研究所,异常(outlier )是什么? Hawkins(1980 )给出了异常的本质定义:异常在数据中收集了不同的数据,这些数据不是随机偏差,而是被怀
5、疑产生于完全不同的机制中。 聚类算法异常的定义:异常是聚类嵌入的背景噪声。 异常检测算法的异常的定义:异常不属于聚类,也不属于背景噪声。 他们的行为和正常的行为有很大不同。工业控制技术研究所,异常检测方法分类,基于统计的方法基于距离的方法基于偏差的方法基于密度的方法高维数据异常检测,工业控制技术研究所数据挖掘系统的特征,数据特征知识的特征算法的特征,矿山(数据),挖掘工具(算法) 金(知识),工业控制技术研究所,数据特征大容量POS数据(在某超市每天处理2000万件交易)卫星图像(NASA地球观测卫星以每小时50GB的速度返回数据)干扰互联网数据(不完全,不正确) 包含异质数据(混合有多个数据
6、类型的数据源,来自互联网的数据是典型的例子),工业控制技术研究所,系统的特征知识发现系统中预处理过程数据提取数据清洗数据选择数据转换知识发现系统是自动/半自动过程知识发现系统以基于计算学习理论colt (computeallearningtheory ) fol的关系发现为目的的归纳逻辑编程现行的知识发现系统只能发现特定模式的知识规则分类相关,工业控制技术研究所,知识表示:规则IF条件THEN的结论条件和结论的粒度(抽象度) 有多种单值区间模糊值规则,有确信度精度规则概率规则,工业控制技术研究所,知识表示:分类树,分类条件1,分类条件2,分类条件3,等级1,等级2,等级3,等级4,工业控制技术
7、研究所, 数据挖掘算法的特征构成数据挖掘算法的三要素模式描述语言:反映了算法能发现什么样的知识模式的评价:可以把反映了什么样的模式称为知识模式搜索:针对某个特定模式的参数工业控制技术研究所、包括数据挖掘主要方法的分类(Classification )聚类(Clustering )关联规则回归(Regression )以及工业控制技术研究所、数据挖掘系统、工业控制技术研究所、数据挖掘系统第一代数据挖掘系统支持一种或少量数据挖掘算法,它们算法旨在挖掘向量数据,并且这些数据模型通常在挖掘时这样的系统很多都是商业化的。 第二代数据挖掘系统的当前研究是改进第一代数据挖掘系统,开发第二代数据挖掘系统。 第
8、二代数据挖掘系统支持数据库、数据仓库和高性能的接口,并具有很高的可扩展性。 举例来说,第二代系统可挖掘大数据集、更复杂的数据集和高维数据。 这一代系统通过支持数据挖掘架构和数据挖掘查询语言(DMQL )提高了系统的灵活性。 工业控制技术研究所、数据挖掘系统、第三代数据挖掘系统的第三代特征是能够挖掘互联网/extranet的分散和高度异质数据,能够有效地与操作型系统集成。 现代数据挖掘系统的一种重要技术是在异构系统上建立的多个预言模型和管理这些预言模型的元数据在第一级上得到支持。 第四代数据挖掘系统第四代数据挖掘系统可挖掘源自嵌入式系统、移动系统和普适计算设备的各种类型的数据。工业控制技术研究所
9、、工业控制技术研究所、二、数据预处理、为什么需要预处理、数据含有不完全观测噪声的不一致需要整理其他不希望的成分的数据的值,将噪声数据平滑化、识别删除孤立点、解决不一致并整理数据。工业控制技术研究所,污染数据形成的原因,工业控制技术研究所,数据整理的重要性,污染数据,重复记录了错误数据中嵌入的控制信息不同的惯用句,丢失值拼写变化不同的计量单位时的代码中包含各种各样的噪音。 垃圾的取出、垃圾的取出、工业控制技术研究所、数据的整理处理内容、形式标准化异常数据的整理错误纠正重复数据的整理、工业控制技术研究所、数据规约、数据集的压缩表现,可以达到与原始数据集相同或几乎相同的分析结果的主要战略:数据汇集维
10、规约数据压缩数值规约, 工业控制技术研究所,空缺值忽略元组手动填写空缺值,使用固定值使用属性平均值的可能性最大的值,工业控制技术研究所,结合了如何平滑噪声数据,去除噪声数据的平滑技术的聚类计算机和人工检查,工业控制技术研究所,罐分箱子的宽度:每个箱子的值的取值区间是常数。 平滑方法用:箱平均值平滑箱中值平滑箱边界值平滑化,工业控制技术研究所、集群、各集群的数据用集群等方法代替其中心值忽略孤立点来寻找孤立点。 这些孤立点可能包含有用的信息。 通过这些孤立点、工业控制技术研究所、回归、结构函数,符合数据变化的趋势,用一个变量可以预测另一个变量。 线性回归多线性回归,工业控制技术研究所,数据整合,将
11、多个数据源中的数据结合起来,一直保存到得到的数据存储中。 实体识别实体和模式的匹配冗馀。 一个属性可以从另一个属性导出。 相关分析相关rA、B . rA、B0、正相关。 a随着b的价值变大,rA、B0,正相关变大。 PS与PS没有正相关。 a随着b的价值的增大,多次存储同一数据,减少数据值冲突的检测和处理。 工业控制技术研究所、数据转换、平滑化集约数据的概况化正规化属性结构(特征结构)、工业控制技术研究所、最小最大正规化小数比例正规化属性结构通过追加规定的属性结构和新的属性,帮助提高精度和高维数据结构的理解、正规化的工业控制技术研究所、数据立方体聚集在一起, 寻找并重新收集感兴趣的维度,删除工
12、业控制技术研究所、维度规约、无关属性(维度)以减少数据量。 属性子集选择是否选择找到最小属性集的方法,以使数据类的概率分布尽可能接近使用所有属性的原始分布? 贪婪算法分阶段前选,分阶段前选,后选,汇总结合的判定树,工业控制技术研究所,有数据压缩,损失的非破坏性小波变换将数据向量d变换为数值不同的小波系数的向量d。 裁剪d,留下小波系数最强的部分。主成分分析、工业控制技术研究所、数值规约、回归和对数线性模型线性模型直方图等宽度等深度V-最佳maxDiff、工业控制技术研究所、数值规约、聚类多维索引树:针对给定的数据集合,索引树动态地划分多维空间样本简单地选择n个样本,简单地选择n个样本,集群样本
13、层次的样本,工业控制技术研究所、离散化和概念层次、离散化技术递归地进行,以减少给定的连续属性的数量。 大量的时间被花在了排序上。 对于给定的数值属性,概念层次定义该属性的离散值。 分箱直方图分析、工业控制技术研究所、数值数据离散化、基于聚类分析熵的离散化,根据自然区分段3-4-5规则,如果一个区间的最高有效位包含3 6 9个不同的值,则被划分为3个等宽区间。7个不同的值在2-3-3中在3个区间的最上位包含2,4,8个不同的值,在4个等宽区间的最上位包含1,5,10的不同的值,5个等宽区间的最上位层的分割一般进行从第5个百分位到第95个百分位,工业控制技术研究所、分类数据的概念分类属性可能有几种
14、不同的值。方法:用户和专家在模式级显式说明属性的部分顺序,通过显式数据组说明分层结构的一部分,但只说明不说明他们偏颇部分的属性集,工业控制技术研究所,工业控制技术研究所,三,数据挖掘算法-分类和预测,分类VS . 分类:预测分类标签(或离散值)根据训练数据集和分类标签属性建立模型,对现有数据进行分类,并对新数据预测进行分类:例如,工业控制技术研究所,数据分类:两阶段流程,使用预测空缺值的典型信用来证实目标市场的医疗诊断性能预测构建模型并描述给定的数据类集和概念集,根据假定每个组属于预定义类的类标签属性来确定基本概念训练数据集:从为了构建模型而分析的数据元组创建训练样本:训练数据集的单个学习模型
15、以分类规则、决策树、数学式的形式提供第二阶段,已知类标签和样本的学习模型类预测比较模型在给定的测试集中的正确答案,该标签可使用该模型来在分类将来或未知对象之前评估模型的预测精度并评估每个测试样本否则会发生“过度适应数据”,工业控制技术研究所,第一步骤:模型的构筑,训练数据集,if rank=professoror years6then tend=是,分类规则,工业控制技术研究所,第二步骤:按模型进行分类工业控制技术研究所准备了分类和预测数据,对数据进行预处理,提高了分类和预测过程的正确性、有效性和可扩展性,去除噪声,处理空缺值, 也有冗馀的属性,可以减少学习时的混乱相关分析数据中的一部分属性与
16、当前任务无关的可能性。如果删除这些属性,学习步骤就变快,学习结果更正确的数据转换可以将数据汇集到上位概念,将数据标准化,工业控制技术研究所, 比较分类方法,可以使用以下标准来比较分类和预测方法的预测精度:模型正确预测新数据的班号的能力速度:生成和使用模型的计算费用的鲁棒性:给定的噪声数据或空缺值的数据模型正确预测能力的可扩展性:对于大量数据高效构建模型的能力说明:学习模型提供的理解和洞察水平,工业控制技术研究所用判定树对分类进行总结,判定树是什么? 类似于流程图的树结构的每个内部节点表示属性上的测试分支从两级配置确定树开始生成测试输出的每个叶节点代表类或类分布确定树,其中所有训练样本取决于根节点递归选择的属性来确定每个样本(离散) 割枝、剪枝反映了训练数据中的噪声和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 烟道打孔改造方案
- 股权代持撤资退股及权益确认协议
- 农业观光旅游菜园农场承包合作协议
- 河道开挖勘察方案
- 教育资源采购合同质量监控与教师培训协议
- 公司拆除改造方案
- 施工企业分包方案
- 2025团课教育体系构建与实践路径
- 内科分类考试题及答案
- 疏通阅读考试题及答案
- 护用药理学知识点
- GB/T 44031-2024锰矿石化学分析方法通则
- DZ∕T 0258-2014 多目标区域地球化学调查规范(1:250000)(正式版)
- 护理8s管理病房
- GB/T 43700-2024滑雪场所的运行和管理规范
- 编辑打印新课标高考英语词汇表3500词
- 医院遇到投诉的患者怎么沟通课件
- 运输大巷揭煤地质说明书(F99)揭煤地质说明书
- 工作中怎么拍照(摄影技巧)
- 空调电缆施工方案
- 小升初个人简历模板下载
评论
0/150
提交评论