“1+X”(中级)03-数据挖掘概述_第1页
“1+X”(中级)03-数据挖掘概述_第2页
“1+X”(中级)03-数据挖掘概述_第3页
“1+X”(中级)03-数据挖掘概述_第4页
“1+X”(中级)03-数据挖掘概述_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘学习完本课程后,你将能够:1.掌握数据挖掘的相关概念2.掌握数据挖掘的处理流程3.了解数据挖掘常见应用课程目标课程目录什么是数据挖掘1.1数据挖掘的定义

1.2数据挖掘常用算法概述1.3数据挖掘常用工具概述2.数据挖掘流程3.数据挖掘的应用数据挖掘(Datamining,简称DM)是指从大量的数据中通过算法搜索隐藏于其中信息的过程。由于数据通常存于数据库中,因此人们又称之为“数据库中知识发现”。数据挖掘是一个过程,而非单纯的数学建模。数据挖掘是一个以数据为中心的循序渐进的螺旋式的数据探索过程;数据挖掘是各种分析方法的集合,是多种数据分析、处理方法的配合应用;数据挖掘的最终目的是辅助决策;当前数据挖掘系统具有分析海量数据的能力。什么是数据挖掘数据挖掘功能用于指定数据挖掘任务中需找的模式类型。描述:挖掘的任务是描述目标数据的特性(分类)。预测:根据当前数据预测未来。数据挖掘的功能根据数据存在方式,用于数据挖掘的数据可以是数据库、数据仓库、文本、多媒体数据源等等;由于企业数据仓库系统就是面向数据统计、分析应用的,因此数据挖掘一般依赖于企业数据仓库系统的数据。从数据仓库的角度看,数据挖掘可以看做是数据仓库高阶段的OLAP分析。数据仓库应用数据统计分析数据挖掘OLAP分析数据挖掘与数据仓库只要有数据的地方就有可能进行数据挖掘,尤其是在云计算、互联网、大数据技术发展的今天,海量数据被收集、处理、存储,为数据挖掘提供了可能。典型的数据挖掘应用如下:商业智能(BusinessIntelligence,简称:BI):通过数据挖掘指导企业运营、决策支持、数据价值化,是企业发展的重要力量。Web搜素引擎:这是海量数据实时应用的处理过程,基于数据挖掘技术,为用户迅速返回所有搜寻的信息,基于此,数据的价值得到了最大体现。数据挖掘的应用价值课程目录什么是数据挖掘

1.1数据挖掘的定义1.2数据挖掘常用算法概述1.3数据挖掘常用工具概述2.数据挖掘流程3.数据挖掘的应用数据挖掘技术的基本任务主要体现在关联规则、分类与回归、聚类等几个方面。关联规则揭示数据间关系,但这种关系没有在数据中直接体现出来,需从数据中利用数据挖掘找出来;分类就是将数据映射到预先定义好的群组或类别;回归则是用属性的历史数据预测未来趋势;聚类则是根据数据属性的相似度给未分类的数据分类,使数据分类后类内相似度大,类间差异大。算法分类无监督学习有监督学习关联聚类分类回归数据挖掘常用算法什么是关联关联自然界中某种事物发生时其他事物也会发生,则这种联系称之为关联。反映事件之间依赖或关联的知识称为关联型知识(又称依赖关系)。关联的类型分为简单关联、时序关联、因果关联。关联规则关联规则是两个或多个变量取值之间存在的一类重要的可被发现的某种规律性,如人们在购物时喜欢同时买牛奶和面包,牛奶和面包这两种商品中存在着某种关联。关联规则

概念说明:

项集X、Y无交集。满足最小支持度的频繁项集并不必然蕴涵着因果关系或相关关系。频繁项集的所有非空子集一定也是频繁的。关联规则满足最小支持度、置信度、提升度等测度指标才具有有效性、实用性。交易号产品T01啤酒T01尿布T02啤酒T02尿布T03尿布

关联规则的类别基于规则中处理的变量的类型布尔型:布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系。代表算法Apriori。

示例:尿不湿

啤酒数值型:可以和多维关联或多层关联规则结合起来,可包含布尔型。代表算法GRI。示例:年龄=【30,39】^收入=【42k,48】

IBMPC数值型可以将其进行动态的分割或者直接对原始的数据进行处理。基于规则中数据的抽象层次单层关联:示例:年龄=【30,39】^收入=【42k,48】

IBMPC多层关联:示例:年龄=【30,39】^收入=【42k,48】

PC基于规则中涉及到的数据的维数单维关联:示例:尿不湿

啤酒多维关联:示例:年龄=【30,39】^收入=【42k,48】

PC基于规则中涉及到的时间序列香肠

饮料置信度:0.2饮料

香肠置信度:0.75购买饮料后将购买香肠的可能性大于购买香肠后购买饮料的可能性。关联分析算法常见的四类划分方式:基于变量类型的方法、基于抽象层次的方法、基于数据维度的方法、基于时间序列的方法。重点介绍布尔型Apriori算法。关联模型-Apriori算法Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样;然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。实现步骤:1.找出出现频率最大的一个项L1;2.根据L1找频繁“2项集”的集合C2;3.并剪掉不满足支持度阈值的项,得到L2;4.根据L2找频繁“3项集”的集合C3;5.根据性质和支持度阈值进行剪枝,得到L3;6.循环上述过程,直到得到空集C,即直到不能发现更大的频集L;7.计算最大频集L的非空子集,两两计算置信度,得到大于置信度阈值的强关联规则。关联模型-Apriori算法TID项目集01ACD02BCE03ABCE04BE项目集支持度A2B3C3D1E3项目集支持度B3C3E3项目集BCBECE项目集支持度BC2BE3CE2项目集支持度BE3第一次扫描D自连接并剪枝第二次扫描D1-候选项目集1-频繁项目集2-候选项目集2-频繁项目集事物数据库D与最小支持度比较2-候选项目集与最小支持度比较关联规则-算法模型典型算法

Ais算法(R.Agrawal等提出)

Apriori算法\MSApriori算法(及变种AprioriTid和AprioriHybrid))

Setm算法(M.Houtsma等提出)

DHP算法(J.Park等提出)

Partition算法(A.Savasere等提出)

Sampling算法(H.Toivonen提出)

FP-Growth算法(JiaweiHan提出)什么是聚类聚类(clustering)分析是将一组对象划分成簇(cluster),使簇内对象相似性尽量大,而簇间对象相似性尽量小。如我们常说的“物以类聚、人以群分”,时间久了,同一班级的同学形成若干个小团体。聚类分类VS1212无导师学习方式—需要解决将若干无标记对象进行划分的问题,使之成为有意义的聚类。聚类数目未知—需要以某种距离度量为基础,将所有对象进行分类,使得同一聚类之间距离最小,不同聚类之间距离最大。有导师学习方式—利用已经过标记的对象进行学习(训练)、构造模型,然后用其对新对象进行标记。分类数目已知—对每个新对象标记为目标数据库中已存在的类别。聚类算法分类12345划分法(partitioningmethods):给定一个由n个元组或记录组成的数据集,划分法将构造k个分组,每个分组代表一个聚类,k<=n。K个分组满足下列条件:1、每个分组至少包含一个对象,2、每个数据记录属于且仅属于一个分组。算法:k-means、k-medois、CLARANS。层次法(hierarchicalmethods):对给定的数据集进行层次分解,直到满足某种条件位置。具体可分为“自底向上”的凝聚法和”自顶向下“的分裂法两种法案。代表算法:BIRCH、CURE、CHAMELEON。密度法(density-basedmethods):不是基于距离,而是基于密度。能克服基于距离的算只能发现“类圆形”聚类的缺点。代表算法:DBSCAN、OPTICS。网格方法(grid-basedmethods):首先将数据空间划分成有限个单元的网格结构,所有的处理都以单元为对象。优点处理速度很快。代表算法:STING、CLIQUE、Wave-Cluster模型方法(model-basedmethods):给每个聚类假定一个模型,然后去寻找数据对给定模型进行最佳拟合。给定模型可能是数据点在空间中的密度分布函数或其他。聚类分析常见的五大类算法:划分法、层次法、基于密度的方法、基于网格的方法、基于模型的方法。重点介绍划分法中的k-means。聚类-模型-K-means聚类变量变量类型:数值型;输入变量:有;输出变量:无;K-means算法:也称快速聚类,非常典型的基于距离的聚类算法。

以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。K-means聚类思想MIN聚类-模型-K-means-算法过程开始结束初始化计算数据点到类中心距离计算的聚类中心位置是否达到终止条件按照最近原则分成K个类输出结果初始化聚类个数K、聚类中心位置、终止条件是否满足收敛准则或者迭代次数否是迭代过程聚类-模型-K-means-算法过程K=2确定初始聚类中心将每个样本点分配到最相似的类中重新计算各类中心(均值)重新分配重新计算各类中心(均值)重新分配聚类-算法模型典型算法基于划分的聚类k-均值算法k-medoids算法k-prototype算法基于层次的聚类

BIRCH聚类

CURE算法基于密度的聚类DBSCAN算法OPTICS算法DENCLUE算法什么是分类分类是数据挖掘中的一个重要课题。分类的目的是获得一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到某一个给定类别。分类可用于提取描述重要数据类的模型或预测未来的数据趋势,如通信公司基于历史离网数据预测客户的流失倾向,提前对客户进行挽留。分类算法采取行动!分类算法分类的主要目的是通过分析输入数据,利用部分数据构造一个分类函数或者分类模型(分类器),利用该模型将数据库中的其他数据项映射到某一给定类别中。NAMERANKYEARSTENUREDMikeAssistantProf3noMaryAssistantProf7yesBillProfessor2yesJimAssociateProf7yesDaveAssistantProf6noAnneAssociateProf3noNAMERANKYEARSTENUREDTomAssistantProf2noMerlisaAssociateProf7noGeorgeProfessor5yesJosephAssistantProf7yes训练集测试集分类规则IFrank=‘professor’ORyears>6THENtenured=‘yes’JefisYES!NAMERANKYEARSTENUREDJefProfessor4?分类算法决策树:也称规则推理模型,通过对训练样本的学习,建立分类规则。依据分类规则,实现对新样本的的分类。算法有两类变量:目标变量(输出变量)属性变量(输入变量)分类-算法-决策树决策树特点类似于流程图的树型结构。内部节点代表对某个属性的一次测试。分支代表测试的输出结果。叶节点代表分类标签或分布。树的最顶端是根节点。age?student?creditrating?noyesgoodexcellent<=30>40nonoyesyesyes30-40顾客购买某商品的决策树模型什么是回归一方面,回归与分类相似两者都需要构建模型都用模型来估计未知值另一方面,回归不同于分类分类法主要是用来预测类标号(分类属性值)回归法主要是用来估计连续值(量化属性值)回归:回归就是用属性的历史数据预测未来趋势。先假设一类已知的类型的函数可以拟合目标函数,然后利用某种误差分析确定一个与目标数据拟合程度最好的函数。最常见的例子就是企业通过回归算法预测收入,一旦发现无法完成年度目标,及时采取改进措施,保证既定目标按时完成。回归算法分类回归分析的分类:根据研究自变量的数量,可以把回归分析分为一元回归分析和多元回归分析。如果只有一个自变量,称为一元回归分析,如果研究的是两个或两个以上的自变量,则称为多元回归分析。根据自变量和因变量之间的关系类型,可以将回归分析分为线性回归分析和非线性回归分析。回归模型也相应地分为线性回归模型和非线性回归模型。回归分析按自变量个数分类按方程式特征分类一元回归(简单回归)多元回归(复回归)线性回归非线性回归分类算法模型典型算法支持向量机逻辑回归决策树K近邻随机森林朴素贝叶斯课程目录什么是数据挖掘

1.1数据挖掘的定义

1.2数据挖掘常用算法概述

1.3数据挖掘常用工具概述2.数据挖掘流程3.数据挖掘的应用数据挖掘常用工具28阿里云机器学习平台PAI阿里云机器学习平台PAI(PlatformofArtificialIntelligence):是构建在阿里云MaxCompute计算平台之上,集数据处理、建模、离线预测、在线预测为一体的机器学习平台。为算法开发者提供了丰富的MPI、PS、BSP等编程框架和数据存储接口,同时提供了基于WEB的可视化控制台,降低了使用门槛。机器学习PAI上手简单通过对底层分布式算法的封装,提供拖、拉、拽的可视化操作环境。使机器学习的创建过程像堆积木一样简单。算法丰富提供特征过程、数据预处理、统计分析、机器学习、深度学习框架、预测评估等100多种算法组件。一站式体验提供模型训练功能,还提供在线预测功能以及离线调度功能,让机器学习训练结果和业务可以无缝衔接。深度学习支持目前Tensorflow、Caffe、MXNet、PyTorch主流的机器学习框架,底层提供GPU卡进行训练。PAI支持的算法机器学习平台上的算法都是经过阿里大规模业务锤炼而成的。从算法的丰富性角度来看,阿里云机器学习平台不仅提供了基础的聚类、回归类等机器学习算法,也提供了文本分析、特征处理等比较复杂的算法。机器学习PAI的应用流程数据预处理数据特征工程机器学习模型训练模型评估离线/在线服务学习首先明确任务、目标、并且掌握数据实际情况前提下,即完成商业理解任务、数据理解任务前提下,开始机器学习的实施过程:1)数据预处理2)选择特征3)选择模型进行数据训练4)模型评估5)应用部署及再学习、再训练课程目录什么是数据挖掘2.数据挖掘流程2.1数据获取

2.2数据预处理2.3特征工程2.4分析建模2.5模型评估与应用3.数据挖掘的应用数据挖掘的一般过程数据获取数据预处理特征工程分析建模模型评估与应用数据获取数据获取简单是说就是根据数据挖掘任务的具体要求,从相关数据源中抽取相关数据集。数据集的选取对数据挖掘模式选取起决定作用。数据获取的前提是掌握本次数据挖掘任务的目标,为达到目标需获取什么数据:1)挖掘任务的可行性2)挖掘任务的成功标准3)挖掘任务实施计划4)初步考虑挖掘任务采用的工具、技术5)挖掘任务与业务目标任务的匹配情况

数据获取获取数据挖掘所需数据必须要全面了解数据,即理解数据、熟悉数据:

1、收集原始数据:收集本项目所涉及到的数据,如有必要,把数据装入数据处理工具,并作一些初步的数据集成的工作,生成相应报告;2、描述数据:对数据做一些大致的描述,例如记录数、属性数等,给出相应报告;3、探索数据:对数据做简单的统计分析,例如关键属性的分布等;4、检查数据质量:包括数据是否完整、数据是否有错、是否有缺失值等问题。课程目录什么是数据挖掘2.数据挖掘流程

2.1数据获取2.2数据预处理2.3特征工程2.4分析建模2.4模型评估与应用3.数据挖掘的应用数据预处理数据预处理的流程可分为数据清洗、数据集成、数据归约和数据变换四个步骤。从应用的角度可分为如何得到正确的数据、如何筛选建模变量、建模变量的数据变换三个阶段。其中数据清洗和数据集成属于得到正确的数据阶段,数据归约是数据筛选建模数据阶段,建模变量的数据变换为建模前的最后准备阶段。1、数据清洗数据清洗主要针对缺失数据、错误数据、噪声数据、冗余数据,分别进行相应的处理。2、数据集成数据仓库的构建需要数据集成,数据挖掘宽表的构建也可理解为数据集成。3、数据转换数据转换主要有数据的标准化变换,对数变换和正态转换。4、数据归约数据归约主要有属性的约简(建模变量的筛选),数据的压缩(如主成分分析)、数据的汇总和概化等。数据清理业界对数据清理的认识“数据清理是数据仓库构建中最重要的问题”—DCIsurvey数据清理任务填写空缺的值识别离群点和平滑噪声数据纠正不一致的数据解决数据集成造成的冗余数据集成数据集成:将多个数据源中的数据整合到一个一致的存储中模式集成:整合不同数据源中的元数据e.g.A.cust_id=B.customer_no实体识别问题:匹配来自不同数据源的现实世界的实体e.g.BillClinton=WilliamClinton检测并解决数据值的冲突对现实世界中的同一实体,来自不同数据源的属性值可能是不同的可能的原因:不同的数据表示,不同的度量等等数据转换数据转换将数据转换或统一成适合挖掘的形式。平滑:去除数据中的噪声聚集:汇总,数据立方体的构建数据泛化:沿概念分层向上汇总规范化:将数据按比例缩放,使之落入一个小的特定区间最小-最大规范化、z-score规范化、小数定标规范化属性构造通过现有属性构造新的属性,并添加到属性集中,以增加对高维数据的结构的理解和精确度。数据规约数据归约可以用来得到数据集的归约表示,它小得多,但可以产生相同的(或几乎相同的)分析结果常用的数据归约策略数据立方体聚集维归约,e.g.移除不重要的属性数据压缩数值归约,e.g.使用模型来表示数据离散化和概念分层产生用于数据归约的时间不应当超过或“抵消”在归约后的数据上挖掘节省的时间课程目录什么是数据挖掘2.数据挖掘流程

2.1数据获取

2.2数据预处理

2.3特征工程2.4分析建模2.4模型评估与应用3.数据挖掘的应用特征工程特征产生特征变换特征评估和选择课程目录什么是数据挖掘2.数据挖掘流程

2.1数据获取

2.2数据预处理2.3特征工程

2.4分析建模2.5模型评估与应用3.数据挖掘的应用分析建模分析模型(modeling)在这一阶段,各种各样的建模方法将被加以选择和使用,通过建造,评估模型将其参数将被校准为最为理想的值。比较典型的是,对于同一个数据挖掘的问题类型,可以有多种方法选择使用。如果有多重技术要使用,那么在这一任务中,对于每一个要使用的技术要分别对待。一些建模方法对数据的形式有具体的要求,因此,在这一阶段,重新回到数据准备阶段执行某些任务有时是非常必要的。、分析建模建模思路确定抽样规则选择合适的算法调整算法的参数建模过程1、是一个反复的过程2、在不耗费过多系统资源的前提下提高的模型的精度3、建模结果需要业务解释,应用效果是评判模型的最终标准分析建模客户细分、客户画像、重入网流失预警、潜在客户挖掘、收入预测、家庭客户识别、交叉销售客户价值、网格绩效、客户健康度、客户满意度、渠道评价描述性算法:聚类分析、TFIDF算法预测类算法:神经网络、决策树、时间序列、回归分析、贝叶斯网络、关联分析评价类算法:因子分析、主成分分析、层次分析、模糊评价场景推荐算法选择最优算法和组合方案比较输入数值特征算法特点数据规模结合效果课程目录什么是数据挖掘2.数据挖掘流程

2.1业务及数据理解

2.2

数据预处理2.3特征工程2.4分析建模

2.4模型评估与应用3.数据挖掘的应用模型评估模型评估(evaluation)从数据分析的角度考虑,在这一阶段中,已经建立了一个或多个高质量的模型。但在进行最终的模型部署之前,更加彻底的评估模型,回顾在构建模型过程中所执行的每一个步骤,是非常重要的,这样可以确保这些模型是否达到了企业的目标。一个关键的评价指标就是看,是否仍然有一些重要的企业问题还没有被充分地加以注意和考虑。在这一阶段结束之时,有关数据挖掘结果的使用应达成一致的决定。模型评估使用一组新数据评估构建好的模型模型评估有三个阶段1、建模阶段的评估2、固化后的测试3、应用后的评估其中应用后的评估最重要建模阶段固化后测试应用后评估模型评估混淆矩阵:通过命中率、覆盖率验证模型可行性覆盖率:正确预测到的正实例数/实际正实例数。命中率:正确预测到的正实例数/预测正实例数。评估指标评价统计检验评价置信区间检验:F检验、T检验预测偏差:(预测值-真实值)/真实值抽样检验评价抽样检验:训练集验证模型的可靠性。训练集:通过模型的运行评估,输出满意模型。测试集:利用测试集测试训练集输出的模型。模型部署报告形式系统形式工具形式模型部署:创建完模型并不意味着项目的结束,即使模型的目的是为了增进对数据的了解,所获得的知识也要用一种用户可以使用的方式来组织和表示。通常要将活动模型应用到决策制订的过程中去。该阶段可以简单到只生成一份报告,也可以复杂到在企业内实施一个可重复的数据挖掘过程。课程目录什么是数据挖掘数据挖掘流程3.数据挖掘的应用3.1数据挖掘现状及发展趋势3.2数据挖掘需要解决的问题数据挖掘的应用现状目前数据挖掘技术已被广泛的应用于各个领域,只要有分析价值与分析需求的数据,基于数据处理、存储技术,均可基于数据挖掘工具借助云计算平台进行海量数据分析,如金融、零售、制造、通讯、医疗等行业。金融方面:如风险控制,金融行业中有很多因素会对货款偿还效能和客户信用等级计算产生不同程度的影响,利用数据挖掘技术识别重要的因素和非相关因素,据此调整货款发放政策,控制风险;生物信息:利用数据挖掘进行基因序列分析、基因功能预测、分子结构关系预测等;电子商务:基于聚类分析对客户细分,千人千面推荐商品;零售业/市场营销:基于关联分析的购物篮分析,分析商品销售中隐含的关联关系,指定商品营销策略;过程监控/质量监控:通过视频数据挖掘,分析当前工程进行情况,施工质量情况;保险:与金融一样,除了风控,还有就是基于数据挖掘技术预防欺诈骗保;数据挖掘的应用现状目前数据挖掘技术已被广泛的应用于各个领域,只要有分析价值与分析需求的数据,基于数据处理、存储技术,均可基于数据挖掘工具借助云计算平台进行海量数据分析,如金融、零售、制造、通讯、医疗等行业。证券/投资:利用数据挖掘技术在海量的数据中挖掘其背后隐藏的价格变化规律,利用关联规则技术

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论