数据挖掘基本概念解说.pptx_第1页
数据挖掘基本概念解说.pptx_第2页
数据挖掘基本概念解说.pptx_第3页
数据挖掘基本概念解说.pptx_第4页
数据挖掘基本概念解说.pptx_第5页
免费预览已结束,剩余16页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘技术概论,2018-9-28,1,部门:网科研发部姓名:张巡,目录,数据挖掘的基本概念,1,数据挖掘方法分类,2,CONTENTS,数据挖掘案例,3,2,数据挖掘技术概论,一、数据挖掘的基本概念,3,数据挖掘技术概论,1.知识发现(Knowledge-DiscoveryinDatabases,简称:KDD)知识发现(KDD:KnowledgeDiscoveryinDatabase)是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。知识发现就是从数据源中抽取感兴趣的数据,并把这些数据组织成符合挖掘的组织形式,然后利用相应的算法、模型生成想要的知识模式,最后对生成的知识模式进行评估,并把有价值的知识集成到应用系统当中。,4,一、数据挖掘的基本概念,数据挖掘技术概论,常用KDD过程模型(KDDprocessmodel)Fayyad,Piatetsky-Shapiro和Smyth在1996年合作发布的论文中总结出了KDD包含的5个最基本步骤,-,+,数据源,选择,目标数据,预处理,预处理数据,转换,转换后数据,数据挖掘,评估,知识模式,知识,2.数据挖掘的概念数据挖掘,英文称为Datamining,又称为资料探勘、数据采矿等等。它是数据库知识发现(英语:Knowledge-DiscoveryinDatabases,简称:KDD)中的一个步骤。数据挖掘是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。数据挖掘是从大量的、不完全的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。,5,一、数据挖掘的基本概念,数据挖掘技术概论,3.数据挖掘的发展历史,6,一、数据挖掘的基本概念,数据挖掘技术概论,1989年第11届国际人工智能联合会议。第一次提出KDD的概念。,1995年第一届知识发现和数据挖掘国际学术会议。首次提出数据挖掘的概念。,1995年底美国计算机年会。开始把数据挖掘认为是KDD过程中对数据真正应用算法抽取知识的一个基本步骤。,如今各种各样的数据挖掘软件和算法。,4.数据挖掘基本流程,7,一、数据挖掘的基本概念,数据挖掘技术概论,Data,BusinessUnderstanding,DataUnderstanding,Modeling,Evaluation,Deployment,DataPreparation,跨行业数据挖掘标准流程,4.数据挖掘基本流程,8,一、数据挖掘的基本概念,数据挖掘技术概论,数据采集,开始,数据分析,数据清洗,采样,特征提取,缺失值计算,定量特征二值化,定性特征编码,数据变换,无量纲化,特征选择,降维,训练,预测,评估,结束,模型选择,二、数据挖掘的方法分类,9,数据挖掘技术概论,10,1.几种简单的数据挖掘方法分类(Classification)聚类(Clustering)回归分析(Regressionanalysis)关联规则(Affinitygroupingorassociationrules)复杂数据类型挖掘(Text,Web,图形图像,视频,音频等),数据挖掘技术概论,二、数据挖掘方法分类,11,2.分类(Classification)C4.5(基于决策树改进的算法)CART(分类回归树)SVM(支持向量机)AdaBoost(集成学习算法)kNN(K近邻算法,k-NearestNeighbor)NaiveBayesian(朴素贝叶斯),数据挖掘技术概论,二、数据挖掘方法分类,数据,已训练好的模型,类别A,类别B,12,2.分类(Classification)kNN(K近邻算法,k-NearestNeighbor),数据挖掘技术概论,二、数据挖掘方法分类,13,3.聚类(Clustering)(1)划分方法(2)层次的方法(3)基于密度的方法(4)基于网格的方法(5)基于模型的方法经典算法:K-means(K均值),数据挖掘技术概论,二、数据挖掘方法分类,14,4.回归分析(Regressionanalysis)回归分析是一个统计预测模型,用以描述和评估因变量与一个或多个自变量之间的关系,反映的是变量或属性间的依赖关系。线性回归多项式回归逻辑回归,数据挖掘技术概论,二、数据挖掘方法分类,15,5.关联规则(Affinitygroupingorassociationrules)关联规则最初提出的动机是针对购物篮分析(MarketBasketAnalysis)问题提出的。关联规则是形如XY的蕴涵式,其中,X和Y分别称为关联规则的先导(antecedent或left-hand-side,LHS)和后继(consequent或right-hand-side,RHS)。其中,关联规则XY,存在支持度和信任度。关联规则中最经典的算法:Apriori算法,数据挖掘技术概论,二、数据挖掘方法分类,16,5.关联规则(Affinitygroupingorassociationrules),数据挖掘技术概论,二、数据挖掘方法分类,若考虑网球拍-网球的关联关系,则其支持度为S=3/6=0.5,置信度为C=3/5=0.6,假如设计支持度最小为0.5,置信度为0.6,那么网球拍和网球的关联关系就是有意义的一对关联关系。,17,数据挖掘技术概论,二、数据挖掘方法分类,5.关联规则(Affinitygroupingorassociationrules),三、数据挖掘案例,18,数据挖掘技术概论,19,数据挖掘技术概论,三、数据挖掘案例,背景银行金融衍生品部门最新新上线了一款金融理财产品,而销售方式为直接电邮,考虑到多数用户可能不会对理财产品感兴

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论