SPSS数据挖掘方法概述_第1页
SPSS数据挖掘方法概述_第2页
SPSS数据挖掘方法概述_第3页
SPSS数据挖掘方法概述_第4页
SPSS数据挖掘方法概述_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、精选文档数据挖掘方法概述一、主要概念1二、主要方法概述11、神经网络方法概述12、聚类方法概述93、主成分分析144、决策树概述175、关联分析216、遗传算法概述23一、主要概念1、数据挖掘(data mining,简记DM):实行特地算法对数据库中潜在的、不明显的数据关系进行分析与建模。2、CRISP-DM(CRoss-Industry Standard Process for Data Mining):各企业中被广泛接受的数据挖掘标准流程。包括6个步骤:商业理解、数据理解、数据预备、模型建立、结果评估、应用部署。3、Clementine:SPSS公司推出的企业级数据挖掘软件产品,其包括的

2、数据挖掘主要方法为:神经网络、聚类分析、主因子分析、决策树分析、关联分析、回归分析。二、主要方法概述1、神经网络方法概述 主要问题:(1)什么是神经网络? (2)神经网络有什么用? (3)如何建立神经网络? (4)如何应用神经网络?(1)人工神经网络“人工神经网络”(ARTIFICIAL NEURAL NETWORK,简称A.N.N.)是基于仿照大脑神经网络结构和功能而建立的一种信息处理系统。神经网络在肯定学习规章下,对供应的学习样本进行学习,从中猎取特征信息,并存储(记忆)在相应的权值及参数上。学习后,对于新的输入数据,网络可通过已猎取的权值及参数,计算网络的输出。神经网络具有高度的非线性、

3、容错性与自学习、自适应更新等功能,能够进行简单的规律操作和非线性关系实现。目前神经网络模型在帮助管理与决策中,应用广泛。(2)神经网络的作用已证明结论:对于函数,在满足肯定条件下,可以找到函数和实常数和,构造函数: 使对于任意小的,满足 (3)简洁神经网络模型(感知机模型)的建立问题引入:设想对购买手机的顾客制定销售方案,用购买量与购买频率两个指标来判别,即: 购买量大, 购买频率大,则赐予优待折扣 ; 购买量大, 购买频率小,则赐予优待折扣 ; 购买量小, 购买频率大,则赐予优待折扣 ; 购买量小, 购买频率小,则不赐予优待折扣 问题:这样的销售方案判别是否可以建立模型表示?设想:分别对购买

4、量、购买频率以及是否优待的两种取值定义为1,0,则上述四种方案可以用四个样本表示,设每一样本具有两个评价指标X1,X2,一个评价结果Y: 样本号 X1, X2 Y 1 1 1 1 2 1 0 1 3 0 1 1 4 0 0 0构造两个输入节点、一个输出节点、二层结构的神经网络模型:(*) O1=f( xj取值1或0, w1j(j=1,2)待求 作用函数:f(x)= 1 x>0 0 x0结构:X1 W11 X1 Y X2 W12 X2 学习样本:( x1(k),x2(k), Y1(k) ) , k是样本数, k=1,2,3,4关键问题:如何猎取模型(*)中的权数w1j,使计算结果与样本的评

5、价结果的误差最小?计算w1j方法:随机赐予w1j初始值,通过对每一样本的学习,猎取计算结果与样本评价结果的误差,修正w1j的取值,使经过肯定次数的学习后,总误差能达到期望值,此时修正得到的w1j就是所要猎取的权数,即设(k)=Y k -O k , Y k是第k个样本评价结果(称期望输出或实际输出),O k是计算结果。通过第k个样本的输出误差修正权数的公式为:(k +1)=(k)+( k), =(k)Xj 其中, >0 , 称收敛因子。 第k个样本的误差为: 误差 ek=|(k) |, 总误差 E(k)=E(k-1)+ ek计算过程:1)设=1,随机赐予w1j的初始值为0,即w11(k=1

6、)=0,w12(k=1)=02) 对第一个样本进行学习:把X1=1,X2=1代入(*),有 O= f(w11×X1+ w12×X2)=f(0×1+0×1)= f(0)=0 (k=1)= Y k -O k=1修正权数:w1j= (k) X j = (k=1) X 1=1×1=1w12 = (k=1) X 2=1×1=1(k=2)=(k=1)+=0+1=1, w12(k=2)= w12(k=1)+w12=0+1=1 总误差 E(K=1)= E(K=0)+ek=0+(k=1)=13)对第2个样本:X1=1 , X2=0, O=f(1

7、5;1+1×0)= f(1)=1 (k=2)= Y k -O k=0修正权数:w1j= (k) X j = (k=2) X 1=0×1=0w12 = (k=2) X 2=0×0=0(k=2)=(k=1)+=1+0=1, w12(k=2)= w12(k=1)+w12=1+0=1 总误差 E(K=2)= E(K=1)+ek=1+(k=2)=14)对于猎取的权数 =1,w12=1,有对第3个样本:X1=0,X2=1, O=f(1×0+1×1)= f(1)=1=Y对第4个样本:X1=0,X2=0, O=f(1×0+1×0)= f(0

8、)=0=Y5)结论:=1,w12=1是使计算结果与样本的评价结果误差最小的权数。将=1,w12=代入模型(*),则模型建立完毕。可以利用这个建立的模型,对任一组输入的X1,X2,在未知其输出(评价结果)时,通过(*)计算得到结果。(4)误差逆传播神经网络模型(Error Back-Propagation ,简记BP模型) 在简洁神经网络的基础上,进行形式推广,对多个输入、多个输出、多层结构,不同作用函数的状况进行建模分析。最常用的是BP神经网络。BP神经网络基本原理 BP神经网络模型是一种具有三层或三层以上的前馈型的、按梯度算法使计算输出与实际输出的误差沿逆传播修正各连接权的神经网络模型。网络

9、按有老师示教的方式进行学习,当一对学习模式供应应网络后,神经元的激活值,从输入层经各中间层向输出层传播,在输出层的各神经元获得网络的输入响应,并按削减期望输出与实际输出偏差的方向,从输出层经各中间层逐层修正各连接权,最终回到输入层,随着这种误差逆传播修正的不断进行,网络对输入模式响应的正确率不断上升。 x1 wi1 1 vti x2 wi2 i t 节点 x3 节点 vtm win M xn 输入信息 正向传播反向传播 实际输出与网络输出误差BP网络模型的特点:模型表示:Yi=f( i=1,2,3,m , xi取值(,) Ot= f ( t=1,2,3,q, Ot取值(0,1)模型结构:至少三

10、层(至少有一隐层),多个输入,一个或多个输出 作用函数(Sigmoid型函数) :f(x)= 1/(1+e) x(-,+) f(x)(0,1)学习样本:( x1(k),x2(k),x3(k),xm(k), D1(k), D2(k), D3(k), Dq(k) ) , k是样本数, k=1,2,3,P权值修正公式:设 i=Di-Oi , Di是期望输出(实际输出),Oi是网络计算输出1) 隐层与输出层连接权的修正:(K+1)=(K)+ , 是隐节点输出 2) 输入层与输出层连接权的修正:(K+1)=(K)+, ,是输入节点输入。 3) 第K个样本误差 总误差 E=(5)基于神经网络帮助医疗绩效的

11、评定案例:为了对城市医疗力量进行评价,收集一批有代表性的城市医疗数据,评价指标为病床数、医生数、工作人员数、诊所数、死亡率,并给出了专家的评价结果,旨在建立评价城市的医疗建设绩效的模型,应用于评价任意城市的医疗建设绩效。收集数据见表1.1(单位:万人)。 表1.1样本病床数医生数工作人员数诊所数死亡率专家评价的医疗力量上海gvvvbv北京avvvgv沈阳bbbagb武汉gggaba哈尔滨vgabaa重庆ggbbbb成都aggaaa兰州vgagvv青岛gbvvag鞍山gaabvg其中,v格外好, g好, a 一般, b差需要评价的城市数据见表1.2。 表1.2样本病床数医生数工作人员数诊所数死亡

12、率专家评价的医疗力量天津bgbga广州aggga南京bgggb西安ggagg长春gggag太原vgggv大连babag济南vvvga抚顺gbbbg建立评价的BP神经网络模型:1)将取得的10个样本分别量化:定义v、g、a、b的取值为v=1.5,g=0.5,a=-0.5,b=-1.5 (1)也可以定义: v=3,g=1,a= -1,b= -3 v=6,g=2,a=-2,b=-6 v=10,g=7,a=4,b=1由 (1)定义可得上海等10个城市样本取值见表1.3。 表1.3样本病床数医生数工作人员数诊所数死亡率专家评价的医疗力量转换值网络输出上海0.51.51.51.5-1.51.50.90.8

13、885北京-0.51.51.51.50.51.50.90.9581沈阳-1.5-1.5-1.5-0.50.5-1.50.10.1215武汉0.50.50.5-0.5-1.5-0.50.370.38266哈尔滨1.50.5-0.5-1.5-0.5-0.50.370.369重庆0.50.5-1.5-1.5-1.5-1.50.10.1168成都-0.50.50.5-0.5-0.5-0.50.370.34697兰州1.50.5-0.50.51.51.50.90.8998青岛0.5-1.51.51.5-0.50.50.6330.6419鞍山0.5-0.5-0.5-1.51.50.50.6330.6560

14、2)设计具有三层、五个输入节点、8个隐节点、一个输出节点的BP模型,输入为万人拥有病床数、医生数、工作人员数、诊所数、死亡率,输出为评价的医疗力量。3)由于选择的映射函数是S型函数: f(x)= 1/(1+e) , x(-,+) , f(x)(0,1)需要把样本输出转换为(0,1)之间的值。定义:输出转换值=0.1+0.8(样本输出值-最小值)/(最大值-最小值), 其中,这里最大值=1.5,最小值=-1.5, 转换后的样本输出见表1.3. 4) 网络学习35万次后,网络收敛,总误差为0.16,网络输出见表1.3所示,存储网络学习后的有关权数与参数。5)用学习后的网络,建立的城市医疗力量评价模

15、型:Yi=f(, i=1,2,3,8 xi取值(,),j=1,25Ot=f( , t=1 , Ot取值(0,1)其中,wij、Vti、rt已在学习中猎取,评价表2城市的医疗力量,评价结果见表1.4。 表1.4样本病床数医生数工作人员数诊所数死亡率网络输出网络评价的医疗力量天津-1.50.5-1.50.5-0.50.122b广州-0.50.50.50.5-0.50.6687g南京-1.50.50.50.5-0.50.6423g西安0.50.5-0.50.50.50.6011g长春0.50.50.5-0.50.50.6333g太原1.50.50.50.51.50.8851v大连-1.5-0.5-1

16、.5-0.50.50.1134b济南1.51.51.50.5-0.50.8996v抚顺0.5-1.5-1.5-1.50.50.3869a思考问题:(1)如何利用神经网络帮助客户分类,以制定相应的促销或销售策略?(2)如何利用神经网络对客户信誉等级进行评价?(3)在城市医疗力量评价中,直接用收集的五个指标的定量数据作为神经网络输入,是否可以?(4)在城市医疗力量评价中,评价结果有四个可能的取值,可否设计四个节点的输出?如何定义?作业: 拟建立神经网络进行肺病诊断,设每个病例有有五种症状:发烧(无、低、中度、高),咳嗽(稍微、中度、猛烈),X光所见阴影(点状、索条状、片状、空洞),血沉(正常、快)

17、,听诊(正常、干鸣音、水泡音),肺炎和肺结合饿部分病例集见下表: 肺病实示例集 病状病例号发烧咳嗽 X光所见血沉听诊肺炎1高猛烈片状正常水泡音2中度猛烈片状正常水泡音3低稍微点状正常干鸣音4高中度片状正常水泡音5中度稍微片状正常水泡音肺结核1无稍微索条状正常正常2高猛烈空洞快干鸣音3低稍微索条状正常正常4无稍微点状快干鸣音5低中度片状快正常2、聚类方法概述 主要问题:(1)如何定义两类之间的距离? (2)如何进行类归并? (3)如何表出谱系图? (4)聚类分析的应用? 聚类:依据事物的某些属性,把事物聚集成类,使类间相像性尽量少,类内相像性尽量大。问题引入:(1)四个同学要分成两类,如何分?

18、(2)设想对优势股进行投资,问优势股如何选择? 一般地,按已知属性对样品或对元素进行归并,称为分类,未知属性(没有先验学问)按距离大小对样品或元素进行归并称为聚类。常用聚类方法1)、系统聚类法:先将n个样本各自看成一类,规定样本之间和类与类之间的距离,选择距离最近的一对合并为一个新类,再将距离最近的两类合并,直至全部的样本都归为一类为止。聚类既可对样品进行聚类,也可以对变量进行聚类。若对样品的进行聚类,设第i样品表示为,则第A类与第B类的距离可以定义为:最常用的距离有:1最小距离:用两类中样品之间的距离最短者作为两类的距离。2最大距离:用两类中样品之间的距离最长者作为两类的距离。3重心距离:用

19、两类的重心之间的距离作为两类的距离。4类平均距离:用两类中全部两两样品之间的平均距离作为两类的距离。案例应用:设有5个股票,每个股票有8个指标X1,X2,X8,表示为股价波动率、股息率、资产负债率、资金周转率、流淌负债率、经营杠杆系数、财务杠杆系数、投资酬劳率),用xit表示第i个股票的第t个指标的值,则可得到股票样品的数据矩阵:变量样品 x1 x2 x8 1 x11 x12 x18 2 x21 x22 x28 . . . . . . . . . . . . . . . 5 x51 x52 x58将每一个样品作为一类,每个样品有8个变量,因此可以将每个样品视为8维空间中的一个点,5个样品就是8

20、维空间中的5个点,然后用欧氏距离度量样品点的相像性:两样品点间距离越大,其相像性越小。下面给出5个样品两两之间的欧氏距离阵D(0): 0 4 0D(0): 6 9 0 1 7 10 0 6 3 5 8 0接受最小的距离法,将样品1与样品4合并成新类=,则得到类 之类的距离阵D(1): 0 4 0D(1): 6 9 0 6 3 5 0 合并类与成一新类7。下面计算类6,7,3之间的距离阵 0 D(2): 4 0 5 6 0 合并类与成一新类=,最终计算与的距离为5,并合并为一大类。并化出相应的谱系图:1 2 3 4 5 1 4 2 5 3 五个样品的最小距离的谱系图5个股票样品的聚类挨次表合并次

21、序 合并的类 合并后类的元素 合并水平(距离) 1 1,4 6=1,4 1 2 2,5 7=2,5 3 3 6,7 8=1,2,4,5 4 4 3,8 9=1,2,3,4,5 5最小距离法也可以对变量进行系统聚类,仍通过例子来说明案例2:对某地超基性岩的一批样品,测试六个与矿化有关的元素:x1=镍,x2=钴,x3=铜,x4=铬,x5=硫,x6=砷,并假设它们的相关系数如矩阵R(0)所示。相关系数定义:设有n个个体,每个个体测量了p个变量,第i个变量x1与第k个变量xk的相关系数为: rik=/第A类与第B类的距离可以定义为: 1 0.8462 1 0.7579 0.9802 1 0.6431

22、0.2419 0.1811 1 0.5039 0.7370 0.7210 -0.3075 1 0.5603 0.4241 0.3920 0.1998 0.6802 1其中, i=1,2,6,试用系统聚类的最大距离法对六个变量进行聚类(负相关系数接受确定值)。由于接受的是相关系数矩阵,所以应找最大元素并类。其中最大的元素为0.9802,因此将与合并为。计算它与其它剩下的类的相关系数,相应地得到R(1): 1 0.7579 1 0.1811 0.6431 1 0.7210 0.5039 -0.3057 1 0.3920 0.5603 0.1998 0.6802 1R(1)中最大的元素为0.7579

23、,因此将与合并为,并计算它与其它剩下的类的相关系数,相应的得到R(2): 1 0.1811 1 0.5039 -0.3075 1 0.3920 0.1998 0.6802 1R(2)中的最大的元素为0.6802,因此将 与合并为,并计算它与其它剩下的类的相关系数,相应地得到R(3): 1 0.3920 1 -0.3075 0.1811 1R(3)中最大的元素为0.3920,因此将与合并为。六个变量的并类挨次表并次序 合并的类 合并后类的元素 合并的水平(相关系数) 1 2,3 7=x2,x3 0.9802 2 1,7 8=x2,x3,x1 0.7579 3 5,6 9=x5,x6 0.6802

24、 4 8,9 10=x2,x3,x1,x5,x6 0.3930 5 10,4 11=x2,x3,x1,x5,x6,x4 0.1811 1 0.8 0.6 0.4 0.2 0 x2 x3 x1 x5 x6 x4横坐标是并类的相关系数。2)K均值聚类法 K均值聚类法是一种已知类数的数据聚类和分类方法。过程如下: 选取聚类数K; 从训练样本中任意选择K个向量C1,C2,CK作为聚类中心,Ci=(Ci1,Ci2Cin); 将每个样本Xl=(Xl1,Xl2, ,Xln)按距离: P=1,2,3k, 归入距离最小的中心为Ci的类; 设属于Ci类的样本为Xj(j=1,2, q),计算新的聚类中心Ci=(Ci

25、1,Ci2Cin)其中: 若中的聚类中心不再变化,就终止,否则转。 思考问题:(1)假如分两类,谱系图如何? (2)假如分三类,谱系图如何?(3)如何确定适合的聚类数? (4)分析客户购买手机的数据,通过聚类分析客户流失状况。作业: 在城市医疗力量评价中,评价指标为五个,即X=(X1,X2,X3,X4,X5),每一指标取值四个(v,g,a,b),则Xi取值的各种可能为45,则可能有45的评价指标状况,要求通过聚类,从中选出15个有代表性的样本,比较聚类帮助建立神经网络与专家阅历帮助建立神经网络的不同。3、主成分分析主成分分析是一种多变量分析方法,通过变量变换把相关的变量变为不相关的、比原来少的

26、若干个新变量。问题引入:为了找出影响顾客购买手机的主要因素,抽查一部分人按性别和年龄分成10个小组,分别对100种手机类型进行打分评价,最受欢迎的手机赐予9分,最不受欢迎的手机给1分。设10组顾客对100类手机的评分数据为:指标 样本 手机1 手机2 手机100X1(男20岁以下) X11 X21 X1001X2(男2130岁) X12 X22 X1002X3(男3140岁) X4(男4150岁)X5(男50岁以上)X6(女20岁以下)X7(女2130岁)X8(女3140岁)X9(女4150岁)X10(女50岁以上) X110 X2 10 X 100 10Xij表示第j个顾客对第i款手机的偏好

27、评分,记A=(Xij)。设想通过主成分分析确定手机类型的主要影响因素。主成分分析步骤:1) 求A的相关系数矩阵R,R=R(), 的定义为: ,= 2) 求特征方程det(R-)=0的特征根i(i =1,2,n);3) 通过非零向量B满足(R-)B=0,计算相应的特征向量Bi=(Bi1,B i2, Bin);4) 从大到小排列i,不妨设1>2> >n ,由累计贡献率95%确定m个特征根1>2> >m,对应的特征向量为Bi=(Bi1,B i2, Bin),i=1,2,m;5) 计算主重量Z k,Z k=(k=1,2, m( m<n),即Z k是原影响因素X

28、i的线性组合。 Z k 的应用:1)通过Zi与Zj的对应取值变化,了解主要影响因素之间的关系和变化趋势;2)可以通过Z k对X1,X2,X100的贡献率,找出最大的指标Xi,视Xi为Z k影响最大的指标。 的定义:令Xij 与 Zij的关系为:组号指标 X1,X2, X n Z 1,Z 2 Z m 1 X11 X21 X n 1 Z11 Z21 Z m1 2 X12 X22 X n 2 Z12 Z22 Z m2 10 X110 X210 X n 10 Z110 Z210 Z m10 i=1,2, m, j=1,2, n案例分析:1):A(Xij)的相关系数矩阵R为:X1 X2 X3 X10X1

29、 1 0.871 0.516 0.37 0.172 0.936 0.811 0.015 0.5 0.33X2 1 0.7 0.64 0.4 0.821 1 1 1 1 1 1 1X10 1 2)用计算机求解特征方程 det(R-)=0的特征根i,其中累计贡献率达到93.4%的前三个特征根为:1=6.83,2=1.76,3=0.75;3)计算三个特征值的特征向量及累计贡献率见下表: 评价组特征向量B1特征向量B2特征向量B3 X1026804460194 X203110240336 X30323-01660442 X40229-03590375 X40261-05070128 X60309040

30、8-0084 X703440235-0171 X803480032-029 X90346-0164-0322 X100303-0267-0522 特征值i683176075 有效率i/10683%01760075累计贡献率683%859%934%4)计算主重量Z k,Z k=,即 Z1=0268X1+0311X2+0323X3+030X10Z2=0446X1+024X2 01663X3+0267X10Z3=0194X1+0336X2 +0442X3+0522X10 5)分析各特征向量的各重量的取值对B1,各重量取值差异不大,符号相同(都是正号),表明对哪一评价组合都是宠爱的,或者都是不宠爱的,

31、因此可以把新的综合指标Z1定义为偏好指标;对B2,从第1组到第5组,从第6组到第10组,有从大到小的变化相同的趋势,即随年龄的增长而取值由正变负,表示了年龄对偏好宠爱程度的影响,因此可以把综合指标Z2定义为年龄指标。对B3,各重量对于1到5组(男性)取正值,对于女性取负值,表示由于性别的不同而产生的偏好上的不同,所以可以把综合指标Z3定义为性别指标。可以归纳为:影响手机购买的主要因素是:偏好、年龄、性别。6) 可以通过X1X10的取值,猎取Zk的取值,分析偏好与年龄的变化关系;7)可以通过计算Zk对Xi的贡献率,确定贡献率最大的相应的评价组合,由此确定销售主要的对象策略。如计算得到的为: Xi

32、 10.910.320.010.93 * 20.70.230.080.55 30.62-0.530.180.7 40.910.290.040.92 * 50.860.320.040.85 * 60.760.44-0.030.77 * 70.780.310.030.71 80.5-0.6-0.190.65 90.230.110.80.7 100.42-0.23-0.670.7把大于0.75的用*表出,可见偏好、年龄以及性别对20岁以下的男、女组合、40岁以上的男性组合影响较大。思考问题:如何通过收集的客户有关数据,分析客户流失的主要因素?作业: 用随机赋分形式形成各年龄层的调查分数,借助SPSS

33、,求出各年龄层最感爱好的三款手机。4、决策树概述决策树:一种以实例为基础的归纳学习算法,它从一组无次序、无规章的实例中推理出树表示形式的分类规章。问题引入:设想影响气候的主要指标有四个: 天气:晴、多云、下雨;分别记为0,1,2温度:寒冷,暖和,热,分别记为0,1,2湿度:潮湿、正常,分别记为0,1, 风力:有风,没风,分别记为0,1。将气候分为两个级别:P,N,分别记为0,1。假如某一天的气候为多云,寒冷,湿度正常,没风,问气候是哪一级别? 思路:1)建立判别实例集; 2)由实例集建立一棵判别的决策树; 3)由决策树对任何组合气候特征进行推断。关键问题:如何建立决策树,树的属性判别次序如何选

34、择?C5.0系统决策树的算法(ID3)特点:首先找出最有判别力的因素,把数据分成两个子集,每个子集又选择最有判别力的因素进行划分,始终进行到全部子集仅包含同一类型的数据为止。决策树建立过程:设收集的气候实例集为:样本号天气温度湿度风力分类1晴热潮湿没风N2晴热潮湿有风N3多云热潮湿没风P4有雨暖和潮湿没风P5有雨寒冷正常没风P6有雨寒冷正常有风N7多云寒冷正常有风P8晴暖和潮湿没风N9晴寒冷正常没风P10有雨暖和正常没风P11晴暖和正常有风P12多云暖和潮湿有风P13多云热正常没风P14有雨暖和潮湿有风N 设想用获得信息量最大的特征作为决策树判别的标准。若U表示信息源,V表示收到的信息,I(U

35、,V)表示收到信息V后获得关于U的信息量,定义 I(U,V)=H(U)H(UV) 对于相同的U及不同的V,当I(U,V)最大时,将属性V(即收到的信息)作为决策树的推断点。 关于H(U)、H(UV)的计算,用上述实例说明。设Uj表示输出类别(j=1,2),即U1=P,U2=N;Vk表示判别特征,即V1=天气,V2=温度,V3=湿度,V4=风力,k=1,2,3,4,Vkj表示第K个判别特征的第j个取值,如V1=天气的取值为:V11=晴,V12=多云,V13=有雨。为了选择最有判别力的特征,需要分别计算I(U,Vk),从中取最大I(U,Vk0),相应的Vk0就是判别特征。1) H(U)的计算:依据

36、输出类别Uj的概率进行计算,即 由于 P(U1)=9/14, P(U2)=5/14 = 9/14log2(9/14)+ 5/14log2(5/14) =0.94 2) 计算H(UV1): , (1)由于P(V11)=5/14, P(V12)=4/14, P(V13)=5/14,P(U1V11)=2/5,P(U2V11)=3/5P(U1V12)=1,P(U2V11)=0P(U1V13)=3/5,P(U2V13)=2/5代入(1)得: =5/142/5 log2(5/2)+ 3/5 log2(5/3)+ 4/14log2(1)+ 0+ 5/143/5 log2(5/3)+ 2/5 log2(5/2

37、) =0.694,3) 计算I(U,V1):I(U,V1)=H(U)H(UV1)=0.94-0.694=0.2464) 同理计算I(U,Vk)(k=2,3,4),并求出最大I(U,Vk):可以计算得到:I(U,V2)=0.029,I(U,V3)=0.159,I(U,V4)=0.048与I(U,V1)=0.246相比,I(U,V1)最大,所以第一选择判别特征为V1=天气,作为决策树树根。5) 建立树根的分支:树根对应的三个属性值(晴、多云,有雨)作为分支,分别有相应晴的子集样本为F1=1,2,8,9,11,相应多云的子集样本为F2=3,7,12,13,相应有雨的子集样本为F3=4,5,6,10,

38、14,其中F1中2个取P,3个取N, F2中全部取N,F3中3个取P,2个取N。所以仅需对F1、F3进一步判别,对F2不需再判别。6) 递归建树:分别利用上述算法(ID3)对子集F1、F3连续判别,即对子集Fi(i=1,3)个特征求平均互信息最大的特征。可以得到:对F1,I(U,V3)最大,以其为该分支的结点再分支,由于取V3=湿度时,潮湿对应的类全是N类,正常对应的类全是P类,因而已有判别结果,不需连续再分。对F3,计算得到平均互信息最大的为I(U,V4),V4=风力,以其为结点再分枝,此时有风对应的是N类,无风对应的是P类,所以也有判别结果,不许连续再分。见图所示。天气风力湿度 晴 有雨

39、多云 P 潮湿 正常 有风 无风 N P N P7) 利用建立的决策树,对问题“某天气候为有雨,寒冷,湿度正常,没风”,进行判别,判别结果为“气候为P类”。8) 利用决策树,可以写出判别规章: IF “天气是晴” and “湿度潮湿”T hen “气候是N类” IF “天气是晴” and “湿度正常”T hen “气候是P类” IF “天气是多云” T hen “气候是P类” IF “天气是有雨” and “有风”T hen “气候是N类” IF “天气是有雨” and “无风”T hen “气候是P类”9) 决策树的存在问题:(1)依靠于特征取值较多的特征; (2)依靠于正、反例取值个数;

40、(3)当正、反例个数变化时,平均互信息也变化,决策树变化。思考问题:如何对顾客的数据进行判别,以作出最佳销售策略? 如何从一个决策树,转换为一个神经网络?5、关联分析关联分析:对事务中物品之间同时消灭的规律学问模式进行分析的方法。关联规章:通过量化的数字描述事务中物品之间同时消灭的规律的关联表示。问题引入:1)事务1中消灭了手机,事务2中消灭了电池、储值卡,事务3中消灭了手机和电池,问手机、电池、储值卡在事务中消灭,其相互之间有没规律可循? 2)开通的手机业务中,如语音信箱,移动秘书,信息点播,呼叫转移等,相互之间是否有关联关系?主要概念:1)可信度:(confidence)设W是一组事务集,每个事务T是一组物品。若W中支持物品集A的事务中,有C%的事务也支持物品集B,则C%称为关联规章A B的可信度,其中, A B表示A消灭则B也消灭,且AB=。可信度表示为P(B/A)。2)支持度(Support):设W中有S%的事务同时支持物品集A和B,则S%称为关联规章A B的支持度。支持度表示为P(AB)。3)期望可信度(expected confidence):设W中有E%的事务支持物品集B,则E%称为关联规章A B期望可信度。期望可信度表示为P(B

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论