数据挖掘模型介绍_第1页
数据挖掘模型介绍_第2页
数据挖掘模型介绍_第3页
数据挖掘模型介绍_第4页
数据挖掘模型介绍_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、刘海飞,数据挖掘模型,2,数据挖掘概念与流程 数据挖掘模型介绍 决策树模型 聚类模型 关联模型 回归模型 时间序列模型 主成分与因子模型 神经网络模型,目录,数据挖掘(Data Mining)是通过分析每个数据,从大量数据中寻找其规律的技术。 3个步骤:数据准备、规律寻找和规律表示。 挖掘任务:关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。 由Daimler Chrysler、SPSS和NCR三家机构共同发展起来的数据挖掘方法论(Http:/) CRISP-DM(Cross-Industry Standard Process for Data

2、 Mining,跨行业数据挖掘标准流程)注重数据挖掘技术的应用。CRISP-DM过程模型从商业的角度给出对数据挖掘方法的理解。目前数据挖掘系统的研制和开发大都遵循CRISP-DM标准,将典型的挖掘和模型的部署紧密结合。,3,数据挖掘-CRISP-DM模型,4,数据挖掘-CRISP-DM模型,CRISP-DM模型过程的挖掘流程包括:业务理解、数据理解、数据准备、建立模型、模型评价、模型实施。,CRISP-DM数据挖掘流程,数据挖掘(Data Mining)技术主要无监督和有监督两大类。无监督数据挖掘:不区别对待各个变量,而只是考察变量间的关系。有监督数据挖掘:从数据中获得深度细致的信息,根据一些

3、变量建立模型,来预测另一些变量。 有监督数据挖掘方法:聚类分析、因子分析、主成分分析、神经网络、预测等; 无监督数据挖掘方法: 关联规则挖掘、时序挖掘、偏差分析等。,5,数据挖掘技术,6,找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法模型而求得分类规则。分类可被用于规则描述和预测。目前比较常见的分类算法有决策树算法、贝叶斯分类和支持向量机算法(Support Vector Machine)等等。,分类算法,决策树分类模型的工作过程图,Building Tree,基本思想:提取分类规则,

4、进行分类预测,决策树进行分类步骤,决策树生成算法分成两个步骤 树的生成 开始,数据都在根节点 递归的进行数据分片 树的修剪 去掉一些可能是噪音或者异常的数据 决策树使用: 对未知数据进行分割 按照决策树上采用的分割属性逐层往下,直到一个叶子节点,决策树算法,基本算法(贪心算法) 自上而下分而治之的方法 开始时,所有的数据都在根节点 属性都是种类字段 (如果是连续的,将其离散化) 所有记录用所选属性递归的进行分割 属性的选择是基于一个启发式规则或者一个统计的度量 (如, information gain:信息增益) 停止分割的条件 一个节点上的数据都是属于同一个类别 没有属性可以再用于对数据进行

5、分割,伪代码(Building Tree),Procedure BuildTree(S) 用数据集S初始化根节点R 用根结点R初始化队列Q While Q is not Empty do 取出队列Q中的第一个节点N if N 不纯 (Pure) for 每一个属性 A 估计该节点在A上的信息增益 选出最佳的属性,将N分裂为N1、N2 ,信息增益度度量,任意样本分类的期望信息: I(s1,s2,sm)=Pi log2(pi) (i=1.m) 其中,数据集为S,m为S的分类数目, Pi Ci为某分类标号,Pi为任意样本属于Ci的概率, si为分类Ci上的样本数 由A划分为子集的熵: E(A)= (

6、s1j+ +smj)/s * I(s1j+ +smj) A为属性,具有V个不同的取值 信息增益:Gain(A)= I(s1,s2,sm) E(A),训练集(举例),使用信息增益进行属性选择,Class P: buys_computer = “yes” Class N: buys_computer = “no” I(p, n) = I(9, 5) =0.940 Compute the entropy for age:,Hence Similarly,使用信息增益进行属性选择,使用信息增益进行属性选择,使用信息增益进行属性选择,使用信息增益进行属性选择,使用信息增益进行属性选择,Decision

7、Tree (结果输出),age?,overcast,student?,credit rating?,no,yes,fair,excellent,=30,40,no,no,yes,yes,yes,30.40,20,1决策树,优点: 1)可以生成可以理解的规则; 2)计算量相对来说不是很大; 3) 可以处理连续和种类字段、对数据没有特殊要求; 4) 决策树可以清晰的显示哪些字段比较重要。 缺点: 1) 对连续性的字段比较难预测; 2) 对有时间顺序的数据,需要很多预处理的工作; 3) 当类别太多时,错误可能就会增加的比较快; 4) 一般的算法分类的时候,只是根据一个字段来分类。,21,1决策树,决

8、策树法属于风险型决策方法,不同于确定型决策方法,二者适用的条件也不同。 应用决策树决策方法必须具备以下条件: (1)具有决策者期望达到的明确目标; (2)存在决策者可以选择的两个以上的可行备选方案; (3)存在着决策者无法控制的两种以上的自然状态; (4)不同行动方案在不同自然状态下的收益值或损失值(简称损益值)可以计算出来; (5)决策者能估计出不同的自然状态发生概率。,22,1决策树案例,一家金融服务公司为客户提供房屋净值贷款。该公司在过去已经拓展了数千净值贷款服务。但是,在这些申请贷款的客户中,大约有20%的人拖欠贷款。通过使用地理、人口和金融变量,该公司希望为该项目建立预测模型判断客户

9、是否拖欠贷款。,23,1决策树案例,SAMPSIO.HMEQ数据集中的变量,分析数据之后,该公司选择了12个预测变量来建立模型判断贷款申请人是否拖欠。回应变量(目标变量)标识房屋净值贷款申请人是否会拖欠贷款。变量,以及它们的模型角色、度量水平、描述,在下表中已经显示。SAMPSIO.HMEQ数据集中的变量,,24,1决策树案例,聚类分析无处不在,挖掘有价值的客户,并制定相应的促销策略: 如,对经常购买酸奶的客户 对累计消费达到12个月的老客户 针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低!,2聚类分析,聚类分析无处不在,谁是银行信用卡的黄金客户? 利用储蓄额、刷卡消费金额、诚信

10、度等变量对客户分类,找出“黄金客户”! 这样银行可以 制定更吸引的服务,留住客户!比如: 一定额度和期限的免息透资服务! 百盛的贵宾打折卡! 在他或她生日的时候送上一个小蛋糕!,2聚类分析,27,2聚类分析,聚类就是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。目前常见的聚类算法有基于划分的算法、基于层次的算法、基于密度算法和基于网格的算法等等。 聚类对数据没有特殊要求:离散的、连续的数值型、字符型 不指定类别数:针对小样本 制定类别数:针对大样本 要注意变量之间的相关性(相对独立)

11、,数据矩阵:用m个变量(也称为属性)来表现n个对象 相异度矩阵:存储n个对象两两之间的近似度,通常用一个维的矩阵表示,聚类分析原理介绍,相似性Similar的度量(统计学角度) 距离Q型聚类(主要讨论) 主要用于对样本分类 常用的距离有(只适用于具有间隔尺度变量的聚类): 明考夫斯基距离(包括:绝对距离、欧式距离、切比雪夫距离) 兰氏距离 马氏距离 斜交空间距离 相似系数R型聚类 用于对变量分类,可以用变量之间的相似系数的变形如1rij定义距离,聚类分析条件,相似性Similar的度量(统计学角度) Q型聚类 主要用于对样本分类 常用的距离有(只适用于具有间隔尺度变量的聚类): 明考夫斯基距离

12、(包括:绝对距离、欧式距离、切比雪夫距离) 兰氏距离 马氏距离 斜交空间距离 R型聚类 用于对变量分类,可以用变量之间的相似系数的变形如1rij定义距离,30,客户关系管理是一个以客户为中心保持企业与客户互动的过程。销售客户是哪些客户层、哪些客户需要这样的产品、是否考虑客户生命周期、是否建立以客户为导向的客户关系、谁是公司最有价值的客户等等。要回答以上问题,综合各种数据,从不同角度对客户进行分群、分组划分。从与公司有较大业务联系的客户交易额出发:,2聚类分析举例说明,说明:与本公司交易额 2003年为X1, 2004年为X2, 2005年为X3,预计将来交易额为X4,31,利用proc fas

13、tclus语句来实现,程序如下:,2聚类分析举例说明,DATA glgz; input company $ X1 X2 X3 X4; CARDS; 1 18.2750.489.9978.74 222.2260.7711.7094.70 317.1645.0910.3272.56 417.3848.458.9574.78 520.4156.8611.4088.67 615.8041.3410.1867.32 718.6552.809.4480.89 820.8459.9911.6192.44 916.1749.188.2773.62 1015.4742.569.1767.20 1116.4150

14、.339.2275.96 1217.6841.518.8768.06 1317.8652.0210.1079.98 1412.0626.668.0046.72 1521.9361.0411.8194.78 1614.3139.548.3962.24 1716.3336.947.4060.67 1819.7552.169.0280.93 1912.8034.929.2456.96 2022.5159.3110.6592.47 ; RUN;,PROC FASTCLUS maxclusters=3 data=glgz list outtree=out1; var X1 X2 X3 X4; ID co

15、mpany; RUN;,2聚类分析举例说明,程序运行结果:,第一类:价值最高的客户2家:公司14、19 第二类:价值较高的客户有8家:公司2、5、7、8、13、15、18、20 第三类:价值偏低的客户有10家,33,关联规则挖掘是描述两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阈值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。,3.关联规则,关联规则的挖掘就是在事务数据库D中找出具有用户给定

16、的最小支持度minsup和最小置信度minconf的关联规则。 最小支持度minsup :用户规定的关联规则必须满足的最小支持度,它表示了一组物品集在统计意义上的需满足的最低程度。 最小置信度minconf :用户规定的关联规则必须满足的最小置信度,它反应了关联规则的最低可靠度。,34,3.关联规则,满足的条件: 1、基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型 例:性别=“女”=职业=“秘书”、性别=“女”=avg(收入)=2300 2、基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则 例:IBM台式机=Sony打印机、台式机=Sony打印机 3、基于规则中涉及到的

17、数据的维数,关联规则可以分为单维的和多维的 例:啤酒=尿布、性别=“女”=职业=“秘书”,35,3.关联规则,36,3.关联规则,37,3.关联规则,38,3.关联规则,39,3.关联规则,40,3.关联规则,41,3.关联规则,42,3.关联规则,43,假设I是项的集合。给定一个交易数据库,其中每个事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;置信度(confidence)是包含X的事务中同时又包含Y的百分比,即条件概率。关联规则是

18、有趣的,如果满足最小支持度阈值和最小置信度阈值。这些阈值是根据挖掘需要人为设定。,3.关联规则举例说明,左表中是顾客购买记录的数据库D,包含6个事务。 项集I=网球拍,网球,运动鞋,羽毛球。 考虑关联规则(频繁二项集):网球拍与网球,事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度(XY)/D=0.5,置信度(XY)/X=0.6。 若给定最小支持度 = 0.5,最小置信度 = 0.6,认为购买网球拍和购买网球之间存在关联。,44,问题:客户 时间 产品,即客户在什么时间点购买了什么产品,如果客户购买了多个产品则有多条记录。产品之间的关联性? 数据集:SAS EM自带

19、的数据集,SAMPSIO.ASSOCS,3.关联规则举例说明,45,预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常采用预测方差来度量。预测的主要方法有统计学中的回归分析等等。,4.预测,46,任何事物的变化都与其他事物是相互联系和相互影响的,用于描述事物数量特征的变量之间自然也存在一定的关系。变量之间的关系归纳起来可以分为两种类型,即函数关系和统计关系。 函数关系:当一个变量x取一定值时,另一变量y可以按照确定的函数公式取一个确定的值,记为y=f(x),则称y是x的函数,也就时说y与x两变量之间存在函数关系。 统计关系:衡量

20、事物之间或者变量之间的线性相关强弱程度用适当的统计指标表示出来,称为相关分析。比较直观的如散点图,但不精确! 统计线性相关关系度量:回归模型,4.预测:回归分析,47,回归模型条件: 1、确实存在显著相关关系 2、确实存在直线相关关系 3、应根据最小平方法 4、解释变量为非随机变量 5、同方差:各随机扰动项的方差相同 6、无自相关:各随机扰动项互不相关 7、误差项与解释变量不相关 8、随机扰动项均服从正态分布 9、残差项符合正态分布、被解释变量符合正态分布 数据要求: 一般解释变量和被解释变量为连续性变量,但对于离散型与定性变量有特殊处理方法,4.预测:回归分析,回归大类:线性回归、多元回归和

21、非线性回归,线性回归:Y = + X 其中和是回归系数,可以根据给定的数据点,通过最小二乘法来求得 多元回归:Y = + 1X1 + 2 X2 线性回归的扩展,设计多个预测变量,可以用最小二乘法求得上式中的,1 和2 非线性回归:Y = + 1X1 + 2 X22+ 3 X33 对不呈线性依赖的数据建模 使用多项式回归建模方法,然后进行变量变换,将非线性模型转换为线性模型,然后用最小二乘法求解,49,4.预测,logit分类预测模型:在自变量X1,X2,Xn作用下,某事件发生概率为P,则该事件不发生的概率为1-P,P/1-P为发生概率和不发生概率之比,记作“优势”(Odds)。可知:P与Odd

22、s一一对应! 对Odds取对数,得到 一般公式表现形式: 概率计算公式:,50,4. logit分类预测模型案例,问题:作为某商品类目公司的市场分析师,你可能需要为二值目标变量(purchase)建立逻辑回归模型,判断某个顾客是否会产生购买。输入数据集存放在SAS安装文件的SAMPSIO.DMEXA1中,该数据集包含1966个顾客观测值信息。它包含31个区间变量输入和18个分类变量输用于构建模型。该逻辑回归模型产生的打分公式应用在新的数据集中,就能产生购买的顾客名单。,51,4. logit分类预测模型案例,52,5.时序模式,时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样

23、,它也是用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。时间序列分析是一种动态数据处理的统计方法。该方法基于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律。,随机性变化:由许多不确定因素引起的序列变化。它所使用的分析方法就是时间序列分析。 确定性变化分析 趋势变化分析 周期变化分析 循环变化分析 时间序列分析 随机性变化分析 AR、MA、ARMA模型 协整分析,53,5.时序模式,平稳模型 线性模型: Yt = b0 + b1t + t 二次趋势模型: Yt = b0 + b1t + b2t2 + t,非平稳模型 自回归模型 AR( p ):,时间序列,平稳序列

24、,非平稳序列,54,6.主成分分析,主成分分析是把多个指标化为少数几个指标的一种统计分析方法。 在多指标(变量)的研究中,往往由于变量太多,且彼此之间存在着一定的相关性,因而使得所观测的数据在一定程度有信息的重叠。 主成分分析采取一种降维的方法,找出几个综合因子来代表原来众多的变量,使这些综合变量因子尽可能地反映原来变量的信息量,而且彼此之间互不相关,从而达到简化的目的。 主成分分析的一般目的是:(1)变量的降维;(2)主成分的解释。 注意:主成分分析是变量降维的一种重要、常用的方法,简单的说,该方法要应用得成功,一是靠原始变量的合理选取,二是靠“运气”。,主分量的几何解释,如果从研究总体中抽

25、取 N个样品,每个样品有两个指标。设N个样品在二维空间中的分布大致为一个椭圆。,x1,x2,6.主成分分析,将坐标系正交旋转一个角度,在椭圆长轴方向取坐标y1,在短轴方向取坐标y2,则旋转公式,y1,y2,N个点的坐标y1和y2的相关几乎为零;二维平面上N个点的方差大部分都归结在y1轴上,而y2轴上的方差较小。 Y1和y2是原始变量x1和x2的综合变量。,6.主成分分析,如果 N个样品中的每个样有p个指标x1, x2,xp,经过主成分分析,将它们综合成m个综合变量,即,并且满足,6.主成分分析,58,6.因子分析,因子分析(factor analysis)是一种数据简化的技术。它通过研究众多变

26、量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为因子。 例如,在企业形象或品牌形象的研究中,消费者可以通过一个有24个指标构成的评价体系,评价百货商场的24个方面的优劣。,59,但消费者主要关心的是三个方面,即商店的环境、商店的服务和商品的价格。因子分析方法可以通过24个变量,找出反映商店环境、商店服务水平和商品价格的三个潜在的因子,对商店进行综合评价。而这三个公共因子可以表示为:,称 是不可观测的潜在因子。24个变量共享这三个因子,但是每

27、个变量又有自己的个性,不被包含的部分 ,称为特殊因子。,6.因子分析,6.主成分分析案例,已知纽约上市的三只化学产业证券(AC、DP、UC)和两只石油产业证券(EX、TE)100周的收益率调查资料。各证券的收益率依次用X1、X2、X3、X4、X5表示,且样本的平均收益率和相关矩阵R如下,要求对证券收益率做主成分分析和因子分析,并解释其意义。,6.主成分分析案例,6.主成分分析案例,data one(type=corr); _type_=corr; input _name_ $ x1 x2 x3 x4 x5 ; cards; x1 1 . . . . x2 0.577 1 . . . x3 0.

28、509 0.599 1 . . x4 0.387 0.389 0.436 1 . x5 0.462 0.322 0.426 0.523 1 ; run; proc princomp; run;,data one(type=corr); _type_=corr; input _name_ $ x1 x2 x3 x4 x5 ; cards; x1 1 . . . . x2 0.577 1 . . . x3 0.509 0.599 1 . . x4 0.387 0.389 0.436 1 . x5 0.462 0.322 0.426 0.523 1 ; run; proc factor scree

29、nfact=2 score rotate=varimax; var x1-x5; run;,主成分分析结果:,因子分析结果(1),因子分析结果(3),67,注意: 1、因子分析与回归分析不同,因子分析中的因子是一个比较抽象的概念,而回归因子有非常明确的实际意义; 2、主成分分析分析与因子分析也有不同,主成分分析仅仅是变量变换,而因子分析需要构造因子模型。 主成分分析:原始变量的线性组合表示新的综合变量,即主成分; 因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。,6.因子分析,68,神经网络(Neural Networks,NN)是由大量的、简单的处理单元(称为神经元)广泛地互相

30、连接而形成的复杂网络系统,它反映了人脑功能的许多基本特征,是一个高度复杂的非线性动力学习系统。神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力,特别适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。神经网络的发展与神经科学、数理科学、认知科学、计算机科学、人工智能、信息科学、控制论、机器人学、微电子学、心理学、光计算、分子生物学等有关,是一门新兴的边缘交叉学科。,7.神经网络模型,神经网络结构,69,神经网络的基础在于神经元。 神经元是以生物神经系统的神经细胞为基础的生物模型。在人们对生物神经系统进行研究,以探讨人工智能的机制时,把神经元数学化,从而产生了神经

31、元数学模型。 大量的形式相同的神经元连结在起就组成了神经网络。神经网络是一个高度非线性动力学系统。虽然,每个神经元的结构和功能都不复杂,但是神经网络的动态行为则是十分复杂的;因此,用神经网络可以表达实际物理世界的各种现象。 神经网络模型是以神经元的数学模型为基础来描述的。神经网络模型由网络拓扑节点特点和学习规则来表示。神经网络对人们的巨大吸引力主要在下列几点: 1并行分布处理。 2高度鲁棒性和容错能力。 3分布存储及学习能力。 4能充分逼近复杂的非线性关系。,7.神经网络模型,70,目前,已有近40种神经网络模型。有反传网络、感知器、自组织映射、Hopfield网络、波耳兹曼机、适应谐振理论等。 根据连接的拓扑结构,神经网络模型可以分为: (1)前向网络:网络中各个神经元接受前一级的输入,并输出到下一级,网络中没有反馈,可以用一个有向无环路图表示。这种网络实现信号从输入空间到输出空间的变换,它的信息处理能力来自于简单非线性函数的多次复合。网络结构简单,易于实现。反传网络是一种典型的前向网络。 (2)反馈网络:网络内神经元间有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论