数据挖掘算法介绍综述.ppt_第1页
数据挖掘算法介绍综述.ppt_第2页
数据挖掘算法介绍综述.ppt_第3页
数据挖掘算法介绍综述.ppt_第4页
数据挖掘算法介绍综述.ppt_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘算法介绍 综述,张宇敬 2013年11月1日,2019年7月15日星期一,2,改变未来世界的十大新兴技术,Technology Review(麻省理工学院2002年1月出刊) 机器与人脑的接口 塑胶晶体管 数据挖掘(Data Mining) 数字权利管理 生物测定学(Biometrics) 语言识别处理 微光学技术(Microphotonics) 解开程序代码(Untangling Code) 机器人设计 微应用流体学(Microfluidics),2019年7月15日星期一,3,什么是数据挖掘?,Data,Information,Knowledge,Wisdom,存在太多数据挖掘的定义,但基本上有这样一种描述结构 To find / discover / extract / dredge / harvest 、 Interesting / novel / useful / implicit / actable / meaningful 、 Information / knowledge / patterns / trends / rules / anomalies 、 In massive data / large data set / large database / data warehouse 、,Data + context,Information + rules,Knowledge + experience,2019年7月15日星期一,4,为什么会出现数据挖掘?,数据爆炸性增长是数据挖掘技术应运而生的根本原因。 只见树木,不见森林(Drowning in data but starving for information) 计算复杂度 数据管理问题 数据类型的多样性,处理大容量数据是 数据挖掘技术区别 于其他数据分析方 法的唯一标志吗?,2019年7月15日星期一,5,其他数据分析方法:统计学,从处理数据的角度看、 数据规模不同 数据来源不同:观测数据(Secondary Analysis) VS 试验数据(Primary Analysis) 数据类型不同(结构化数据、半结构化数据、非结构化数据) 从分析思想的角度看 更关注实证性分析(Empirical Analysis)而非探索性分析(Exploratory Analysis) 更关注模型(Model)而非算法(Algorithm) 但二者具有相当密切的联系 从数据分析的角度,统计学现在是且仍将是数据挖掘最重要的技术支撑和思想源泉 更加深入的渗透和交叉(如探索性数据分析,EDA),数据挖掘是数据驱 动的探索性分析 !,2019年7月15日星期一,6,其他数据分析方法:商业智能,E.F.Codd的数据分析模型 绝对模型(Categorical Model):依据预定义路径寻找原因,如查询 解释模型(Exegetical Model):依据多层次路径寻找原因,如多维分析 思考模型(Contemplative Model):参数化路径,如场景分析 公式模型(Formulaic Model):模型化路径,如数据挖掘,What happened ?,Why did it happen ?,What will happen ?,ROI,应用复杂性,Human Discovery,Machine-assisted Discovery,现象 模型 误差 数据挖掘寻找的是模型 !,2019年7月15日星期一,7,数据挖掘,数据挖掘是从大量数据中提取出有效的、新颖的、有潜在作用的、可信的、并能最终被人理解的模式(pattern)的非平凡的处理过程。 KDD DM,2019年7月15日星期一,8,KDD,KDD:knowledge discovery in database,数据 建模 验证 应用,2019年7月15日星期一,9,DM,DM:datamingKDD的一个阶段 KDD与DM等同,2019年7月15日星期一,10,DM is like setting up a restaurant kitchen.,Starting a restaurant kitchen,Data Mining,Food/Info,Cooks/Team,Kitchen/DWH,2019年7月15日星期一,11,数据挖掘与其他学科的关系,Data Mining,Database Technology,Statistics,Other Disciplines,Information Science,Machine Learning (AI),Visualization,2019年7月15日星期一,12,数据挖掘与OLAP,OLAP(on-line analytical processing): 只能限制于少量的维度和数据类型 用户控制的流程 假设验证结论 DM: 没有明确假设的前提下去挖掘信息、发现知识具 有未知、有效、可实用三个特征 能自动的发现隐藏在数据中的规律 可以发现比OLAP更复杂而细致的信息 未知归纳结论 联系: OLAPDM OLAM,2019年7月15日星期一,13,数据挖掘与统计学,数据挖掘: 数据挖掘利用了统计、人工智能、数据库等技术,把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题 ; 不仅仅是统计分析; 统计分析: 统计分析技术都基于完善的数学理论和高超的技巧,预测的准确度还是令人满意的,但对使用者的要求很高 联系 统计分析方法学的延伸和扩展 很多的挖掘算法来源于统计学,2019年7月15日星期一,14,前景,预言: 著名的咨询公司 Gartner Group在(2000年)一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关键技术”之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位 国外现状: 成熟、 产品:SAS、CLEMENTINE、UNICA、各大数据库 国内现状: 起步 产品:大部分是实验室产品,2019年7月15日星期一,15,数据挖掘分类,挖掘对象 基于数据库的挖掘 基于web的挖掘 基于文本的挖掘 其他:音频、视频等多媒体数据库,2019年7月15日星期一,16,数据挖掘分类,应用 响应模型 交叉销售 价值评估 客户分群,2019年7月15日星期一,17,数据挖掘分类,挖掘模式 预测型(Predictive) 描述型(Descriptive) 实际作用可分为以下几种模式: 分类:对没有分类的数据进行分类; 预测:用历史来预测未来; 关联分析:关联规则; 聚类:物以类聚; 序列模式:在多个数据序列中发现共同的行为模式; 描述和可视化:数据挖掘的结果的表示形式; 偏差分析:从数据分析中发现异常情况。,2019年7月15日星期一,18,数据挖掘分类,我的理解挖掘的算法分为三个层次: 模式:比如分类、聚类 模型:决策树、神经网络 算法:ID3、CHAID、BP 举例: 分类决策树ID3、CHAID等; 聚类聚类分析k-means、EM等。,2019年7月15日星期一,19,数据挖掘分类,挖掘模型 决策树(decision tree) 关联规则(association rules) 聚类(clustering) 神经网络(Artificial Neural Networks,简记作ANN) 粗糙集(rough set) 概念格(concept lattice) 遗传算法(genetic algorithms) 序列模式(sequence pattern) 贝叶斯(Bayes) 支持向量机(support vector machine,简记作SVM) 模糊集(fuzzy set) 基于案例的推理(case-based reasoning,简记作CBR),2019年7月15日星期一,20,决策树,决策树学习是以实例为基础的归纳学习算法,着眼于从一组无次序/无规则的事例中推理出决策树表示形式的分类规则; 决策树基本算法是:贪心算法,它以自顶向下递归、各个击破方式构造决策树.,2019年7月15日星期一,21,关联规则,关联规则是形式如下的一种规则,“在购买面包和黄油的顾客中,有90的人同时也买了牛奶”(面包黄油 牛奶); 关联规则的“三度”:支持度、可信度、兴趣度。,2019年7月15日星期一,22,聚类,聚类是根据数据的不同特征,将其划分为不同的簇(cluster),目的是使得属于同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别(相异度)较大; 聚类技术大致分为五种: 划分方法(partitioning method) 层次方法(hierarchical method) 基于密度的方法(density-based method) 基于网格的方法(grid-based method) 基于模型的方法(model-based method),2019年7月15日星期一,23,神经网络,人工神经网络,是对人类大脑系统的中模拟; 神经网络是一组连接的输入/输出单元,其中每个连接都与一个权相关联,在学习阶段,通过调整神经网络的权,使得能够预测输入样本的正确类标号来学习。 激励函数的选择和权值的调整,2019年7月15日星期一,24,粗糙集,粗糙集理论是一种研究不精确、不确定性知识的数学工具; 粗糙集对不精确概念的描述方法是:通过上近似概念和下近似概念这两个精确概念来表示;一个概念(或集合)的下近似指的是其中的元素肯定属于该概念;一个概念(或集合)的上近似指的是其中的元素可能属于该概念。 粗糙集方法则有几个优点:不需要预先知道的额外信息,如统计中要求的先验概率和模糊集中要求的隶属度;算法简单,易于操作。 粗糙集理论在知识发现研究中有着许多具体应用,特别适合于数据之间(精确的或近似的)依赖关系发现、评价某一分类(属性)的重要性、数据相似或差异发现、数据模式发现、从数据中产生一般决策规则、削减冗余对象与属性、寻求属性的最小子集以确保产生满意的近似分类等等,2019年7月15日星期一,25,粗糙集,举例,2019年7月15日星期一,26,概念格,概念格描述的是对象和属性之间的联系和统一,表明概念之间的泛化和例化关系,相应的Hasse图实现数据的可视化 。,2019年7月15日星期一,27,遗传算法,遗传算法(Genetic Algoritms,简称GA)是以自然选择和遗传理论为基础,将生物进化过程中“适者生存”规则与群体内部染色体的随机信息交换机制相结合的搜索算法 ; 遗传算法主要组成部分包括编码方案、适应度计算、父代选择、交换算子和变异算子。,2019年7月15日星期一,28,序列模式,是指在多个数据序列中发现共同的行为模式。 通过时间序列搜索出重复发生概率较高的模式。这里强调时间序列的影响。 例如,在所有购买了激光打印机的人中,半年后80%的人再购买新硒鼓,20%的人用旧硒鼓装碳粉; 在所有购买了彩色电视机的人中,有60%的人再购买VCD产品 ; 在时序模式中,需要找出在某个最短时间内出现比率一直高于某一最小百分比(阈值)的规则。,2019年7月15日星期一,29,贝叶斯,贝叶斯分类是统计学的分类方法,其分析方法的特点是使用概率来表示所有形式的不确定性,学习或推理都用概率规则来实现; 朴素贝叶斯分类:假定一个属性值对给定类的影响独立于其他属性的值; 贝叶斯网络:是用来表示变量间连接概率的图形模式,它提供了一种自然的表示因果信息的方法,用来发现数据间的潜在关系。,2019年7月15日星期一,30,支持向量机,支持向量机(Support Vector Machine, SVM)建立在计算学习理论的结构风险最小化(SRM)原则之上。其核心问题是寻找一种归纳原则,以实现最小化风险,从而实现最佳的推广能力。而且SVM一个重要的优点是可以处理线性不可分的情况 。 以往的机器学习理论的核心是经验风险最小化原则(ERM),2019年7月15日星期一,31,模糊集,模糊集:不同于经典集合,没有精确边界的集合; 定义:设X是对象x的集合,x是X的任一个元素。X上的模糊集合A定义为一组有序对:A(x,uA(X))|xX,其中uA(X)称为模糊集合A的隶属度函数(membership function,MF)MF将集合中的元素映射为0到1之间的隶属度; 隶属度为0,或者1,则A就退化为经典集合。,2019年7月15日星期一,32,案例的推理,案例是一段带有上下文信息的知识,该知识表达了推理机在达到其目标的过程中能起关键作用的经验,2019年7月15日星期一,33,几个概念的区别,分类和聚类 分类

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论