数据挖掘学习小结.ppt_第1页
数据挖掘学习小结.ppt_第2页
数据挖掘学习小结.ppt_第3页
数据挖掘学习小结.ppt_第4页
数据挖掘学习小结.ppt_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘学习小结,报告人:王晓鹏 2013年9月30日,内容,研究背景 知识发现 什么是数据挖掘 数据挖掘的方法 数据挖掘所使用的技术 数据挖掘利用的思想 数据挖掘的主要问题,研究背景,爆炸式增长的信息在给人们带来方便的同时,也带来了一系列的问题,如信息过量、信息真伪、信息安全、信息形式多样化等。 虽然成熟的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法对未来进行预测。,快速增长的海量数据,存放在大型和大量数据库中,没有强有力的工具,理解他们已远远超出了人的能力。数据和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓转换成知识金砖。,知识发现(

2、KDD),一些人把数据挖掘视为知识发现的一个基本步骤,而另外大多数人则把数据挖掘视为数据中的知识发现(KDD)的同义词。,知识发现是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。,1.定义,结果解释和评价,数据挖掘阶段,数据准备,知识发现,数据预处理,数据变换,数据选取,确定发现任务的操作对象,即目标对象,消减数据维数或降维,包括消除噪声、推导计算缺值数据、 消除重复记录、完成数据类型转换等,决定使用什么样的开采算法。,确定开采的任务,如数据总结、分类、 聚类、关联规则发现或序列模式发现 等。,数据挖掘阶段发现的模式,经过用户 和机器的评价,可能存在冗余或无关

3、的模式,这时需要剔除,使用户更容 易理解和应用。,2.知识发现过程,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的,人们事先不知道的、但又是潜在有用的信息和知识的过程。,1. 定义,什么是数据挖掘,数据源是真实的、大量的、含噪声的; 发现的是用户感兴趣的知识; 发现的知识要可接受、可理解、可运用; 这些知识是相对的,是有特定前提和约束条件的,在特定领域中具有实际应用价值。,什么是数据挖掘,2. 定义中所包含的信息,理解数据和数据的来源(understanding); 获取相关知识与技术(acquisition); 整合与检查数据(integration

4、 and checking); 去除错误或不一致的数据(data cleaning); 建立模型和假设(model and hypothesis development); 实际数据挖掘工作(data mining); 测试和验证挖掘结果(testing and verification); 解释和应用(interpretation and use)。,3. 数据挖掘的完整步骤,什么是数据挖掘,数据挖掘的方法,数据挖掘的方法主要有 特征化与区分 频繁模式、关联和相关性 分类与回归 聚类分析 离群点分析,数据挖掘的方法,1.特征化与区分:数据特征化是目标类数据的一般特征或特征的汇 总。通常,通过

5、查询来收集对应于用户指定类的数据。数据区分是将目标类数据对象的一般特征与一个或多个对比类对象的一般特征进行比较。目标类和对比类可以由用户指定,而对应的数据对象可以通过数据库查询检索。 数据特征化例子 例1.要汇总一年之内在沃尔玛超市花费50000元以上的顾客特征,结果可能是顾客的概况,如年龄在4050岁、有工作、有很好的信誉等级。 数据区分例子 例2.用户在使用某一软件之前,可能希望将上一年销售增加10%的软件产品于同一时期销售至少下降30%的软件产品进行比较。,2.频繁模式、关联和相关性:频繁模式是在数据中频繁出现的模 式。存在多种类型的频繁模式,包括频繁项集、频繁子序列和频繁 子结构。挖掘

6、频繁模式导致发现数据中有趣的关联和相关性。如果 一个关联规则不能同时满足最小支持度阈值和最小置信度阈值,则 它认为是无趣的而被丢弃。 例3.频繁项集一般是指频繁地在事物数据集中一起出现的商品的集 合,如小卖部中被许多顾客频繁地一起购买的牛奶和面包。 例4.频繁出现的子序列,如顾客倾向于先购买电脑,再购买打印机, 然后再购买打印纸这样的模式就是一个序列模式。 例5.关联分析,如假设你作为某超市的经理,你想知道哪些商品经 常一块被购买,通过分析购物篮你很容易发现这一现象。,数据挖掘的方法,3.分类与回归:分类是这样的过程,它找出描述和区分数据类或概念的模型,以便能够使用模型预测类标号未知的对象的类

7、标号。分类预测类别(离散的、无序的)标号,而回归建立连续函数模型。,例7. 知道父代身高,推测子代身高。研究表明,子代身高有回到父辈平均身高的趋势,一般高个子父辈的儿子们的平均高度要低于父辈的平均身高,低个子父辈的儿子们的平均高度要比父辈的高,即子代的平均身高向中心回归。,例6.下图是一个数据分类:,数据挖掘的方法,4. 聚类分析:聚类分析数据对象,而不考虑类标号。对象根据最大化类内相似性、最小化类间相似性的原则进行聚类或分组。,例8.如果现在要把n个产品按产品的m个指标继续聚类,因为产品可能之前的特色是不一样的。而这个时候影响产品的因素有m个,不可能一个一个的考虑,那样是分不出类来的。所以只

8、能对产品的m个指标综合考虑,采用统计分析软件(SPSS)中的样本聚类方法,就可以直接将产品分好类。并且从分析结果还可以看出各类产品的特色分别是什么。,数据挖掘的方法,5.离群点分析:数据集中可能包含一些数据对象,它们与数据的一般行为或模型不一致,这些数据对象是离群点。离群点数据分析称做离群点分析或异常挖掘。,例9.两个当事人之间的股票交易被认为是正常的。然而,在短期内,相同的股票在一小群当事人之间的大量交易就是集体离群点,因为他可能是某些人操纵股市的证据。,数据挖掘的方法,数据挖掘所使用的技术,1.数据挖掘所使用的技术,1)统计学:统计学研究数据的收集、分析、解释和表示。,例10.下图是一个统

9、计图表:,数据挖掘所使用的技术,3) 数据库系统与数据库:数据库系统研究、关注为单位和最终用户创建、维护和使用数据库。数据库系统在处理非常大的、相对结构化的数据集方面具有高度可伸缩性。,例11. 学校将每位同学的信息如姓名、性别、年龄、民族等都储存起来,这就形成了一个数据库。对数据库中的数据进行一系列的处理形成一个数据库系统。,数据挖掘所使用的技术,2) 机器学习:机器学习考察计算机如何基于数据学习或提高它们的性能。其主要研究领域是计算机程序基于数据自动地学习识别复杂的模式,并作出智能的决断。它包括:监督学习、无监督学习、半监督学习、主动学习。,例12. 如声音识别,人脸识别,汽车无人驾驶等都

10、是让机器不断的学习,以此来不断提高它的性能。,数据挖掘所使用的技术,4) 信息检索:信息检索是搜索文档或文档中信息的科学,它的典型方法采用概率模型。,例13. 在不知道所要查询的文章标题的情况下,可以通过文章中的关键字在google学术中搜索到与自己需要的文章类似的一类文章,在其中找到自己需要的文章。,数据挖掘所使用的技术,5)此外还有可视化、算法、高性能计算和许多应用领域的大量技术。,C4.5,K-means,SVM,Apriori,EM,PageRank,Adaboost,KNN,Naive Bayes,Cart,十大经典算法,是一种最有影响的挖掘布尔关联规则频繁项集的算法,是google

11、算法的重要内容。PageRank根基网站的外部链接和内 部链接的数量和质量,衡量网站的价值,是一种迭代算法,其核心思想是针对同一个训练集训练不同的 分类器然后把弱分类器集合起来,构成一个更强的最终分类器,支持向量机(Support Vector Machine)。一种监督式学习的 方法,广泛运用于统计分类以及回归分析中,是一种聚类算法。它与处理混合正态分布的最大期望算法很相 似,因为它们都试图找到数据中自然聚类的中心,是机器学习算法中的一种分类决策树算法,它是决策树核心算 法ID3的改进算法,K-最近邻域分类算法(K-Nearest Neighbor)。是一个理论上比 较成熟的的方法,也是最简

12、单的机器学习方法之一,应用最广泛的两种分类模型有决策树模型和朴素贝叶斯模型, 理论上与其它算法比,它具有最小的误差。,分类与回归树,在分类树下面有两个关键的思想,第一个是关 于递归地划分自变量空间的想法,第二个是用验证数据进行减枝,最大期望算法(Expectation Maximization )。是在概率模 型中寻找参数最大似然估计的算法,数据挖掘主要利用的思想 来自统计学的抽样、估计和假设检验; 人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论; 最优化、进化计算、信息论、信号处理、可视化和信息检索; 需要数据库系统提供有效的存储、索引和查询处理支持,需要高性能(并行)或分布式计算的技术处理海量的数据集。,数据挖掘利用的思想,数据挖掘的主要问题,数据挖掘的 主要问题,数据挖掘 与社会,数据库类型的 多样性,有效性 可伸缩性,用户界面,挖掘方法,数据挖掘对社会有何影响,可以采取什么 步骤来保护个人隐私,无形的数据挖掘在 日常生活中的使用。,如何处理复杂的数据类型,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论