版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
SPSSModeler数据挖掘方法及应用(第4版)第八章
SPSSModeler的人工神经网络第8章SPSSModeler的人工神经网络
神经网络起源于生物神经元的研究,研究对象是人脑。人脑是一个高度复杂的非线性并行处理系统,具有联想推理和判断决策的能力。对人脑活动机理的研究一直是一种挑战第8章SPSSModeler的人工神经网络
人工神经网络的概念和种类人脑类似,人工神经网络由相互连接的神经元,也称处理单元组成。如果将人工神经网络看作为一张图,则处理单元也称为节点。节点之间的连接称为边,反映了各节点之间的关联性,关联性的强弱体现在边的权值上。人工神经网络的种类繁多,可以从拓扑结构和连接方式等角度划分。二层网络和多层网络第8章SPSSModeler的人工神经网络
人工神经网络的概念和种类人工神经网络中的处理单元通常按层次分布于神经网络的输入层、隐层和输出层中,因而又分别称为输入节点、隐节点和输出节点。其中:输入节点负责接收和处理训练样本集中各输入变量值。输入节点的个数取决于输入变量的个数。隐节点负责实现非线性样本的线性变换,隐层的层数和节点个数可自行指定。输出节点给出关于目标变量的分类预测结果,输出节点个数依具体问题而定。第8章SPSSModeler的人工神经网络
人工神经网络的概念和种类人工神经网络连接包括层间连接和层内连接,连接强度用权值表示。根据层间连接方式,神经网络可分为:前馈式神经网络:前馈式神经网络的连接是单向的,上层节点的输出是下层节点的输入。B-P(Back-Propagation)反向传播网络和Kohonen网络都属于前馈式神经网络。目前数据挖掘软件中的神经网络大多为前馈式神经网络。反馈式神经网络:除单向连接外,输出节点的输出又作为输入节点的输入。如Hopfield网络,包括离散型反馈神经网络DHNN(DiscreteHopfieldNeuralNetwork)和连续型反馈神经网络CHNN(ContinuousHopfieldNeuralNetwork)等。第8章SPSSModeler的人工神经网络
人工神经网络中的节点和意义第8章SPSSModeler的人工神经网络
人工神经网络中的节点和意义加法器激活函数[0,1]阶跃函数第8章SPSSModeler的人工神经网络
人工神经网络中的节点和意义激活函数(0,1)型Sigmoid函数第8章SPSSModeler的人工神经网络
人工神经网络中的节点和意义节点1:加法器U:1×0.2+0.5×0.5=0.45;激活函数:y1=f(0.45)=0.61;节点2:加法器U:1×(-0.6)+0.5×(-1.0)=-1.1;激活函数:y2=f(-1.1)=0.25;节点3:加法器U:0.61×1.0+0.25×(-0.5)=0.735;激活函数:y3=f(0.735)=0.68。第8章SPSSModeler的人工神经网络
人工神经网络中的节点和意义节点将起到一个超平面的作用如何定位一个超平面:网络权值非常关键,它能够描述超平面,区分不同的超平面。由于超平面的最终目标是正确划分样本观测点,为此应找到该目标下的最恰当的网络权值。通常,由随机的网络权值所确定的超平面无法实现既定目标,所以,神经网络需要不断向训练样本学习,进而不断调整网络权值,使超平面不断向正确的方向移动,以最终定位到期望的位置上。节点中激活函数的作用是数值映射,它决定了超平面两侧的类别值,或者决定了取类别值的概率。第8章SPSSModeler的人工神经网络
人工神经网络建立的一般步骤第一,数据准备:第二,网络结构的确定:通常,神经网络的层数和每层的节点数决定了网络的复杂程度,其中的关键是隐层层数和隐层包含隐节点的个数。隐层层数和隐节点个数越多,网络的复杂程度也越高。第三,确定网络权值。第8章SPSSModeler的人工神经网络
第三,确定网络权值,基本步骤通常为:第一步,初始化网络权值一般网络权值的初始值默认为一个随机数,该随机数通常来自均值为0,取值范围是-0.5~0.5的正态分布。第二步,计算各处理单元的加法器和激活函数值,得到样本的分类预测值。第三步,比较样本的预测值与实际值并计算误差,根据误差值重新调整各网络权值。第四步,返回到第二步。网络权值的调整和相应的计算过程将反复进行,直到预测结果与目标变量实际值的误差达到一个较小值为止。此时,一组相对合理的网络权值便被确定下来,超平面也被确定下来。因此,网络权值的确定是一个不断迭代的过程。第8章SPSSModeler的人工神经网络SPSSModeler的B-P反向传播网络:是一种前馈式多层的感知机感知机模型:感知机模型属于前馈式神经网络,它是一个相对简单的双层网络模型,仅由输入层和输出层构成,所有输入节点和输出节点全部连接在一起。第8章SPSSModeler的人工神经网络
感知机模型:神经网络的训练过程是一个反不断向样本的学习过程,学习的目的是通过不断调整网络权值以得到较小的预测误差。由于每个样本观测都会提供关于输入目标变量数量关系的信息,因此神经网络需依次向每个样本观测学习。当向所有样本学习结束后,如果模型所给出的预测误差仍然较大,这时需重新开始新一轮的学习。如果经过第二轮的学习仍然不能给出理想的预测精度,则需进行第三轮、第四轮等的学习,直到满足学习的终止条件为止。无论感知机还是B-P反向传播网络都遵循这样的学习模式。第8章SPSSModeler的人工神经网络
感知机的学习过程:第一,开始时(即0时刻),初始化各个网络权值和输出节点的偏差,初始默认-0.5至0.5之间的随机数第二,输入训练样本,t时刻,根据样本输入变量值X=(X1(t),X2(t),…Xp(t))和网络权值,计算输出节点的预测值为第三,t时刻样本目标变量对应的输出节点上的期望值为Y(t),计算输出节点期望值与预测值的误差第8章SPSSModeler的人工神经网络
感知机的学习过程:第四,调整第i个输入节点和第j个输出节点之间的网络权值和以及第j个输出节点的偏差第五,判断是否满足迭代终止条件。如果满足,则算法终止,否则重新回到第二步,直到满足终止条件为止。迭代终止条件一般为:预测误差达到一个指定的较小值;或正确分类的样本达到一定比例;或已迭代次数等于指定的迭代次数;或网络权值基本稳定。第8章SPSSModeler的人工神经网络
感知机的学习过程计算示例:第8章SPSSModeler的人工神经网络B-P反向传播网络的特点包含隐层;反向传播;激活函数采用Sigmoid函数隐层的作用:实现非线性样本的线性化转化典型的非线性样本第8章SPSSModeler的人工神经网络隐层的作用:实现非线性样本的线性化转化第8章SPSSModeler的人工神经网络方向传播:是B-P反向传播网络的重要特点B-P反向传播网络算法包括正向传播和反向传播两个阶段所谓正向传播阶段是指,样本信息从输入层开始,由上至下逐层经隐节点计算处理,上层节点的输出为下层节点的输入,最终样本信息被传播到输出层节点,得到预测结果。正向传播期间所有网络权值保持不变。预测误差计算出来后便进入反向传播阶段反向传播阶段,即误差又被逐层反方向传回给输入节点。传播期间所有网络权值均得到调整。这种正向传播和反向传播过程将不断重复,直到满足终止条件为止。B-P反向传播网络正得名于此第8章SPSSModeler的人工神经网络采用Sigmoid激活函数模型训练开始阶段,由于网络权值在0附近,使得节点加法器结果也在0附近,此时Sigmoid函数的斜率近似为一个常数,输入输出间呈近似线性关系,模型比较简单;随着模型训练的进行,网络权数不断调整,节点加法器结果逐渐远离0,输入输出逐渐呈非线性关系,模型相对复杂Sigmoid函数较好地体现了网络权值修正过程中,模型从近似线性到非线性的渐进转变进程。Sigmoid函数不但具有非线性、单调特点,还具有无限次可微的特点,这使B-P反向传播网络采用梯度下降法调整网络权值成为可能第8章SPSSModeler的人工神经网络B-P反向传播算法采用梯度下降法,每个时刻都本着使损失函数减小最快的原则调整网络权值。不同类型问题的损失函数形式是不同的。一般预测问题的损失函数主要取决于预测模型和误差函数损失函数是k个输出节点的误差函数之和第j个输出节点t时刻的误差函数定义为:第8章SPSSModeler的人工神经网络
第8章SPSSModeler的人工神经网络B-P反向传播算法由于:所以:令:t时刻第l隐层的第j个节点的局部梯度定义为有:称为局部梯度第8章SPSSModeler的人工神经网络B-P反向传播算法中的学习率
例如:简单损失函数L=w2+1学习率的调整:如果参数w的初始值为4,即w(0)=4,学习率
为0.1。则3次迭代结果为:第8章SPSSModeler的人工神经网络B-P反向传播算法中敏感性分析神经网络中的敏感性分析用来研究输入变量变动对目标变量的影响程度。通常称影响程度的大小为敏感性系数。敏感性系数越大,则输入变量对目标变量的影响越大,反之影响就越小。敏感性分析的目的是要得到各输入变量对目标变量的敏感性系数,以及敏感性系数的排序结果基于网络权值的Garson算法第8章SPSSModeler的人工神经网络B-P反向传播算法的示例:以电信客户数据(文件名为Telephone.sav)为例,讨论SPSSModeler神经网络的具体操作。分别目标:建立客户流失的预测模型第8章SPSSModeler的人工神经网络径向基函数网络:B-P反向传播可以是更多层的网络结构,而径向基函数网络是三层网络结构,除输入层和输出层外,只包含一个隐层,因此网络结构相对简单。B-P反向传播网络中,隐节点和输出节点均有相同的加法器和激发函数,而径向基函数网络则不同,其中的隐节点采用径向基函数(因而得名径向基函数网络),输出节点采用线性加法器和Sigmoid激活函数,因此两者的分类预测机理有差异。B-P反向传播网络输入层和隐层、隐层和输出层之间网络权值都需调整,而径向基函数网络的输入层和隐层之间的网络权值固定为1,无需调整。只有隐层和输出层之间的网络权值需在学习过程调整,因此学习效率相对要高第8章SPSSModeler的人工神经网络径向基函数网络:隐节点和输出节点隐节点采用高斯核函数第j个输出节点的输出表示为:第8章SPSSModeler的人工神经网络径向基函数网络的学习过程:第一个学习阶段的目标是确定隐节点中核函数的中心xc和核宽
。采用K-Means聚类确定中心xc:第一步,指定聚类数目K,即用户自行给出聚类数目。在径向基函数网络中,就是给定隐节点的个数。第二步,确定K个初始类中心样本点,即由SPSSModeler随机指定K个样本观测点作为K个初始类中心。第三步,根据距离最近原则进行分类,即分别计算每个样本观测点到K个类中心点的欧氏距离,然后按照距离最短的原则,将每个样本观测分配到距自己最近的类中,形成K个类。第四步,重新确定K个类中心,即分别计算K类中输入变量的均值,并将类中心调整到K个均值点上。完成一次迭代过程。第五步,判断是否满足终止迭代的条件。核宽:第8章SPSSModeler的人工神经网络径向基函数网络的学习过程:第一个学习阶段目标是根据预测误差调整隐节点和输出节点间的网络权值不断迭代调整:第8章SPSSModeler的人工神经网络径向基函数网络的示例以电信客户数据(文件名为Telephone.sav)为例SPSSModeler数据挖掘方法及应用(第4版)第九章
SPSSModeler的支持向量机第9章SPSSModeler的支持向量机
第9章SPSSModeler的支持向量机支持向量分类的基本思路可将训练样本中的n个观测看成p维特征空间上的n个点,以点的不同形状(或颜色)代表输出变量的不同类别取值。支持向量分类的建模目的,就是以训练样本为研究对象,在p维特征空间中找到一个超平面,能将两类样本有效分开第9章SPSSModeler的支持向量机支持向量分类的基本思路会有多个超平面:最大边界超平面是支持向量分类的超平面。最大边界超平面,简单讲就是距两个类别(-1类和1类)的边界观测点最远的超平面。第9章SPSSModeler的支持向量机支持向量分类的几种种情况第一,线性可分样本:即样本观测点可被超平面线性分开的情况。进一步,还需考虑样本完全线性可分,以及样本无法完全线性可分两种情况。第二,线性不可分样本第9章SPSSModeler的支持向量机线性可分问题下的支持向量分类如何确定超平面得到凸多边形有多条这样的基准线和对应的平行线,找到相距最远且能正确分割类的一对平行线最大边界超平面即是平行线垂线的垂直平分线第9章SPSSModeler的支持向量机找到d最大时的超平面,且超平面应使不等式成立:对任意观测i:超平面参数的求解目标是使d最大第9章SPSSModeler的支持向量机几何角度理解,超平面正确分类意味着:凸多边形内或边上的点Xi,到超平面的距离M应大于等于d第9章SPSSModeler的支持向量机目标函数:约束条件:属凸二次型规划求解问题:采用拉格朗日乘子法拉格朗日函数,ai
0(i=1,2,…,n),n个约束条件求L取最小值下的W、b、a需满足KKT条件:第9章SPSSModeler的支持向量机对参数求偏导,且:由于ai
0,ai=0的样本对超平面没有作用;ai>0的样本点才对超平面的系数向量产生影响,这样的样本点称为支持向量对偶问题:第9章SPSSModeler的支持向量机结论:最大边界超平面由支持向量所决定支持向量是落在边界上的观测点若有l个支持向量,则:从l个支持向量中任选一个,计算由于最大边界超平面仅由支持向量决定,支持向量分类能够有效避免过拟合问题第9章SPSSModeler的支持向量机如何利用超平面进行分类预测决策函数:第9章SPSSModeler的支持向量机广义线性可分下的支持向量分类两个凸包重叠,超平面无法将它们全部正确分开,此时超平面确定采用“宽松”策略,引入松弛变量不导致预测错误导致预测错误通常应满足:第9章SPSSModeler的支持向量机广义线性可分问题下的支持向量分类的优化求解中,引入一个大于零的可调参数C。目标函数调整为约束条件:对偶问题:约束条件:第9章SPSSModeler的支持向量机线性不可分问题下的支持向量分类低维空间中的线性不可分问题,通过非线性转换,可转化为高维空间中的线性可分问题通过特定的非线性映射函数
(),将原低维空间中的样本X映射到高维空间H中后,再找超平面第9章SPSSModeler的支持向量机常见的非线性映射函数
():例:原有输入变量的n阶交乘形式:例:原有输入变量的高维空间中的维灾难(CurseofDimensionality)问题对于p维特征空间,产生d阶交乘多项式时,模型需估的参数个数为:2维特征空间3阶,超平面的被估参数个数410个输入5阶交乘,需估计2002个参数第9章SPSSModeler的支持向量机支持向量分类通过引入核函数克服维灾难问题再看超平面的参数求解:对偶问题:对X*的预测:预测值取决于X*与支持向量输入变量的内积支持向量输入变量的内积决定了超平面的参数第9章SPSSModeler的支持向量机支持向量分类通过引入核函数克服维灾难问题支持向量分类的思路是:希望找到一个函数第9章SPSSModeler的支持向量机常见的核函数多项式核(PolynomialKernel)径向基核(RadialBasisFunction,RBFKernel)第9章SPSSModeler的支持向量机支持向量回归:与一般线性回归的对比(目标和策略)第9章SPSSModeler的支持向量机支持向量回归:支持向量回归同样遵循损失函数最小原则下的超平面参数估计,但为降低过拟合风险,采用ε不敏感损失函数第9章SPSSModeler的支持向量机ε带和松弛变量第9章SPSSModeler的支持向量机支持向量回归的目标函数一般定义为约束条件:第9章SPSSModeler的支持向量机支持向量机的操作SPSSModeler数据挖掘方法及应用(第4版)第十章
SPSSModeler的Logistic回归第10章SPSSModeler的Logistic回归目标变量是二分类变量时,采用二项Logistic回归模型;当目标变量是多分类变量时,采用多项Logistic回归模型。Logistic回归分析是多元线性回归分析方法不断发展的成果二项Logistic回归分析第一,将P转换成Ω第二,Ω转换成lnΩLogistic回归模型第10章SPSSModeler的Logistic回归
第10章SPSSModeler的Logistic回归
第10章SPSSModeler的Logistic回归二项Logistic回归方程的显著性检验回归方程的拟合优度检验几个统计量第10章SPSSModeler的Logistic回归二项Logistic回归方程的拟合优度检验基于混淆矩阵的整体错判率第10章SPSSModeler的Logistic回归二项Logistic回归分析的基本操作第10章SPSSModeler的Logistic回归多项Logistic回归分析:当目标变量为多分类变量时,应采用多项Logistic回归分析方法。多项Logistic回归模型的基本思路类似于二项Logistic回归模型,其研究目的是分析目标变量各类别与参照类别的对比情况,即例如:第10章SPSSModeler的Logistic回归多项Logistic回归分析的操作:SPSSModeler数据挖掘方法及应用(第4版)第十一章
SPSSModeler的判别分析第11章SPSSModeler的判别分析判别分析可根据已有数据,确定类别变量与判别变量之间的数量关系,建立判别函数,并通过判别函数实现对新数据未知类别的判定和预测。可以从不同角度对判别分析方法进行分类。根据类别变量的类别个数,可将判别分析分为两组判别分析和多组判别分析;根据所采用的数学模型,可将判别分析分为线性判别分析和非线性判别分析;根据判别准则,可将判别分析分为距离判别法、Fisher判别法和Bayes判别法。第11章SPSSModeler的判别分析距离判别法:基本思路首先,将n个样本观测看成p维空间中的点;然后,分别对k个类别计算各判别变量的均值,作为类别中心点;最后,计算新数据点到各类别中心点的马氏(Mahalanobis)距离,并根据距离最近的原则,新数据点距离哪个类别中心点近则属于哪个类别。第11章SPSSModeler的判别分析距离判别法:判别函数的计算各总体的协差阵相等距离判别的判别函数W(X)整理为第11章SPSSModeler的判别分析距离判别法:判别函数的计算各总体的协差阵不相等:如果各总体协差阵不相等,马氏距离计算时采用各类别自身的协差阵距离判别的判别函数W(X)整理为第11章SPSSModeler的判别分析Fisher判别:基本思路Fisher判别也称典型判别,其基本思想是先投影再判别,其中投影是Fisher判别的核心第11章SPSSModeler的判别分析Fisher判别:基本思路首先,应在判别变量的p维空间中,找到某个线性组合,使各类别的平均值差异最大,作为第一维度,代表判别变量组间(类别变量不同类别间)方差中的最大部分,得到第一判别函数。然后,按照同样规则依次找到第二判别函数、第三判别函数等,且判别函数之间独立。由于得到的每个判别函数都可以反映判别变量组间方差的一部分,各判别函数所代表的组间方差比例之和为100%。显然,前面的判别函数对于分类来说相对重要,而后面的判别函数由于只代表很少一部分方差,可以被忽略。第11章SPSSModeler的判别分析Fisher判别:基本思路第11章SPSSModeler的判别分析Fisher判别:基本计算第11章SPSSModeler的判别分析Fisher判别:基本计算记方程|B-lE|=0的全部特征值为对应的特征向量为:v1,v2,…,vr,则判别函数即为可依据两个标准决定最终取几个判别函数:第一,特征值大于1的特征向量所对应的判别函数;第二,前m个判别函数的判别能力达到指定的百分比。第11章SPSSModeler的判别分析
第11章SPSSModeler的判别分析
第11章SPSSModeler的判别分析判别分析的操作采用一份某商学院招收MBA学生的数据说明SPSSModeler判别分析的具体操作。数据包括大学平均学分绩(X1)、管理才能得分(X2)以及录取结果(Y,1表示录取,2不录取,3待定)三个变量。建立该学院MBA学生录取的判别模型SPSSModeler数据挖掘方法及应用(第4版)第十二章
SPSSModeler的贝叶斯网络第12章SPSSModeler的贝叶斯网络贝叶斯概率和贝叶斯公式贝叶斯概率是一种主观概率。有别于经典概率的是,经典概率反映的是事件的客观特征,这个概率不会随人们主观意识的变化而变化。而贝叶斯概率是人们对事物发生概率的主观估计,取决于先验知识的正确性和后验知识的丰富性,会随人们主观意识的改变而改变,随人们掌握信息的变化而变化贝叶斯公式:第12章SPSSModeler的贝叶斯网络朴素贝叶斯分类法输入变量条件独立是朴素贝叶斯分类法应用的基本前提首先,在给定样本输入变量值的条件下,预测其目标变量的类别,根据贝叶斯公式有:其次,由于输入变量之间有条件独立的假设,有:第12章SPSSModeler的贝叶斯网络朴素贝叶斯分类法第12章SPSSModeler的贝叶斯网络贝叶斯网络概述:贝叶斯网络也称贝叶斯信念网络,20世纪80年代由Lauritzen和Spiegelhalter提出贝叶斯网络以图形方式直观表示了事物之间的因果关系,并利于进行相关的分类预测。由于专家系统中,各因素之间的因果关系和相关程度可从专家的领域知识中获得,是事先可知的,因此,这里的贝叶斯网络的意义更多在于因果关系的展示第12章SPSSModeler的贝叶斯网络
第12章SPSSModeler的贝叶斯网络贝叶斯网络由网络结构S和参数集合Ө两个部分组成第12章SPSSModeler的贝叶斯网络贝叶斯网络的分类预测:贝叶斯网络对新数据的分类预测的依据是贝叶斯网络结构S和参数集合Ө,其核心是联合概率的计算。与除父节点外的其他变量条件独立第12章SPSSModeler的贝叶斯网络TAN贝叶斯网络:TAN(TreeAugementedNaiveBayes)贝叶斯网络是朴素贝叶斯网络的一种拓展第12章SPSSModeler的贝叶斯网络TAN贝叶斯网络:TAN贝叶斯网络结构的学习SPSSModeler中的结构学习算法是对1968年Chow和Liu提出的最大权重跨度树(MaximalWeightedSpanningTree)算法的改进,基本步骤如下:第一,计算所有输入变量对Xi和Xj的条件互信息第二,依次找到与变量Xi具有最大条件互信息的变量Xj,并以无向弧线连接节点Xi和Xj,得到最大权重跨度树。第三,将无向弧线转为有向弧线。即任选一个输入变量节点作为根节点,所有弧线方向朝外。第四,目标变量节点作为父节点与所有输入变量节点相连。第12章SPSSModeler的贝叶斯网络TAN贝叶斯网络:TAN贝叶斯网络结构的学习第12章SPSSModeler的贝叶斯网络TAN贝叶斯网络:TAN贝叶斯网络的参数估计如果TAN贝叶斯网络中的每个节点对应的变量均为二分类变量,那么可视节点参数集合中的每个参数θ为“成功”的概率,服从二项分布。为此,参数θ的先验概率分布应选用二项分布的共轭分布。如:贝塔分布大多为具有ri个类别的多分类变量。此时,参数θ的先验分布可选用Dirichlet分布第12章SPSSModeler的贝叶斯网络马尔科夫毯网络的基本概念与朴素贝叶斯网络和TAN贝叶斯网络不同的是,马尔科夫毯网络不再要求目标变量必须是所有输入变量的父节点,目标变量不再一定为根节点,其上层允许有父节点。换句话说,在马尔科夫毯网络结构中,输入变量和目标变量具有同等的“地位”。确定马尔科夫毯网络结构S的核心是寻找各个变量的马尔科夫毯变量。对于节点Xi,不在其马尔科夫毯变量范围内的变量,是与变量Xi条件独立的变量。所以,构建马尔科夫毯网络结构S的首要任务就是确定独立变量对,它们均不在彼此的马尔科夫毯变量中第12章SPSSModeler的贝叶斯网络马尔科夫毯网络:条件独立检验卡方检验和条件卡方检验第12章SPSSModeler的贝叶斯网络马尔科夫毯网络:条件独立检验对数似然比检验和条件对数似然比检验第12章SPSSModeler的贝叶斯网络马尔科夫毯网络:结构的学习第一,起始的网络结构S是一个完全连接的无向网络。第二,如果I(Xi,Xj)大于指定的显著性水平α,则删除节点Xi和节点Xj间的连接弧线。第三,对每个节点Xi,在其剩余弧线中,寻找是否存在I(Xi,Xj,S)大于显著性水平α。如果存在,则删除节点Xi和节点Xj间的连接弧线。第四,将无向弧线转换为有向弧线。第12章SPSSModeler的贝叶斯网络马尔科夫毯网络:分类预测利用马尔科夫毯网络进行目标变量的分类预测时,将首先找到目标变量的马尔科夫毯变量,并得到马尔科夫毯变量的联合概率,从而完成分类预测。第12章SPSSModeler的贝叶斯网络贝叶斯网络的示例SPSSModeler数据挖掘方法及应用(第4版)第十三章
SPSSModeler的关联分析第13章SPSSModeler的关联分析关联分析的目的就是要寻找到事物之间的联系规律,发现它们之间的关联关系。事物之间的关联关系包括简单关联关系序列关联关系分析简单关联关系的技术称为简单关联规则;分析序列关联关系的技术称为序列关联规则。第13章SPSSModeler的关联分析简单关联规则及其有效性简单关联规则的基本概念:事务和项集不同存储格式:第13章SPSSModeler的关联分析简单关联规则及其有效性简单关联规则的基本概念:简单关联规则的形式规则置信度(Confidence)是对简单关联规则准确度的测量,描述了包含项目X的事务中同时也包含项目Y项的概率,反映X出现条件下Y出现的可能性规则支持度(Support)测度了简单关联规则的普遍性,表示项目X和项目Y项同时出现的概率第13章SPSSModeler的关联分析简单关联规则及其有效性简单关联规则实用性的测度指标规则提升度是置信度与后项支持度的比第13章SPSSModeler的关联分析简单关联规则:Apriori算法最早的Apriori算法是Agrawal和Srikant1994提出的,后经不断完善,现已成为数据挖掘中简单关联规则技术的核心算法。SPSSModeler采用的是ChristianBorgelt对Apriori算法的改进算法。其特点是:只能处理分类型变量,无法处理数值型变量数据可以按事务表方式存储,也可以按事实表方式存储算法是为提高关联规则的产生效率而设计的第13章SPSSModeler的关联分析简单关联规则:Apriori算法产生频繁项集:所谓频繁项集是指,对包含项目A的项集C,如果其支持度大于等于用户指定的最小支持度寻找频繁项集:Apriori寻找频繁项集的策略是自底向上,即从包含少量项目的项集开始依次向包含多个项目的项集搜索第13章SPSSModeler的关联分析简单关联规则:Apriori算法示例:第13章SPSSModeler的关联分析
第13章SPSSModeler的关联分析Apriori算法的应用示例第13章SPSSModeler的关联分析序列关联分析:序列和序列测度指标C(香肠,花生米)>C(饮料)>C(啤酒)C(花生米)>C(饮料)>C(啤酒)>C(香肠)序列长度和序列大小是准确描述一个序列的重要测度指标。序列长度是序列所包含的项集个数。序列大小是序列所包含的项目个数。第13章SPSSModeler的关联分析序列关联分析:序列关联规则的一般形式通常为:序列关联规则的支持度定义为包含某序列规则的事务数占总事务的比例。序列关联规则的置信度定义为同时包含前项和后项的事务数与仅包含前项的事务数的比,也是规则支持度与前项支持度的比。第13章SPSSModeler的关联分析序列关联分析:Sequence算法第一,产生频繁序列集:频繁序列集是包含所有频繁序列的集合。所谓频繁序列是指,序列的支持度大于等于用户指定的最小支持度的序列第13章SPSSModeler的关联分析序列关联分析:Sequence算法第二,依据频繁序列集生成序列关联规则第13章SPSSModeler的关联分析序列关联分析:Sequence算法序列关联分析中的时间约束主要包括以下两类持续时间也称时间窗口,或交易有效时间时间间隔是指序列中相邻子序列之间的时间间隔,应给定一个间隔区间[a,b],其中a
b,表示相邻行为或事物发生的时间间隔不小于a,且不大于b。第13章SPSSModeler的关联分析序列关联分析示例:以客户浏览网页的历史记录数据(文件名为WebData.xslx)为例SPSSModeler数据挖掘方法及应用(第4版)第十四章
SPSSModeler的聚类分析第14章SPSSModeler的聚类分析聚类分析:能够将一批样本数据,在没有先验知识的前提下,根据数据的诸多特征,按照其在性质上的亲疏程度进行自动分组,且使组内部个体的结构特征具有较大相似性,组之间个体的特征相似性较小。这里,所谓“没有先验知识”是指没有事先指定分组标准,所谓“亲疏程度”是指样本在变量取值上的总体相似程度或差异程度。第14章SPSSModeler的聚类分析聚类分析的算法从聚类结果角度划分:聚类算法可分为覆盖聚类算法与非覆盖聚类算法,即如果每个样本观测都至少属于一个类,则称为覆盖聚类,否则为非覆盖聚类另外,聚类算法还可分为层次聚类和非层次聚类,即如果存在两个类,其中一个类是另一个类的子集,则称为层次聚类,否则称为非层次聚类;再有,聚类算法还可分为确定聚类和模糊聚类,即如果任意两个类的交集为空,一个样本观测最多只属于一个类,则称为确定聚类(或硬聚类)。否则,如果至少一个样本观测属于一个以上的类,则称为模糊聚类。第14章SPSSModeler的聚类分析聚类分析的算法从聚类变量类型角度划分:聚类算法可分为数值型聚类算法、分类型聚类算法和混合型聚类算法,它们所处理的聚类变量分别是数值型、分类型以及数值分类混合型。从聚类的原理角度划分:聚类算法可分为划分聚类算法、层次聚类算法、基于密度的聚类算法以及网格聚类算法等。第14章SPSSModeler的聚类分析K-Means聚类:也称快速聚类,属于覆盖型数值划分聚类算法。它得到的聚类结果,每个样本观测都唯一属于一个类,而且聚类变量为数值型,并采用划分原理进行聚类。K-Means聚类涉及两个主要方面的问题:第一,如何测度样本的“亲疏程度”;第二,如何进行聚类K-Means对“亲疏程度”的测度:欧氏距离第14章SPSSModeler的聚类分析K-Means聚类:采用“划分”方式实现聚类。所谓划分是指,首先将样本空间随意划分为若干个区域(类),然后依据上述定义的距离,将所有数据点分配到与之“亲近”的区域(类)中,形成初始的聚类结果。良好的聚类应使类内部数据的结构相似,类间的结构差异显著,而由于初始聚类结果是在空间随意划分的基础上产生的,因而无法确保所给出的聚类解满足上述要求,所以多次反复是必须的K-Means聚类算法的具体过程第一步,指定聚类数目K第二步,确定K个初始类中心第三步,根据最近原则进行聚类第四步,重新确定K个类中心第五步,判断是否已经满足终止聚类的条件,如果没有满足则返回到第三步,不断反复上述过程,直到满足迭代终止条件第14章SPSSModeler的聚类分析K-Means聚类:迭代的必要性第14章SPSSModeler的聚类分析K-Means聚类:注意的问题聚类变量值不应有数量级上的差异对分类型变量的处理
第14章SPSSModeler的聚类分析K-Means聚类示例:以我国31个省市自治区某年各地区经济发展的数据为例。第14章SPSSModeler的聚类分析SPSSModeler的两步聚类两步聚类该算法尤其适合于大型数据集的聚类研究,有效克服了K-Means方法存在的遗憾,主要特点表现在:既可处理数值型聚类变量,也可同时处理分类型变量。能够根据一定准则确定聚类数目。能够诊断样本中的离群点和噪声数据。通过两步实现数据聚类第一步,预聚类第二步,聚类第14章SPSSModeler的聚类分析两步聚类:对“亲疏程度”的测度这里的对数似然函数反映了类内部变量取值的总体差异性,且数值型变量以方差测度,分类型变量以信息熵测度第14章SPSSModeler的聚类分析两步聚类:两步聚类过程预聚类:两步聚类算法是Zhang、Ramakrishnon和Livny在1996年所提出的BIRCH算法的改进算法,其预聚类过程与BIRCH算法相似BIRCH算法提出了一种巧妙的数据存储方案,即CF树(ClusteringFeatureTree)。首先,CF树是一种描述树结构的数据方式,它通过指针反映树中节点的上下层次关系。树中的叶节点为子类,具有同一父节点的若干子类合并为一个大类形成树的中间节点。若干大类可继续合并成更大的类形成更高层的中间节点,直到根节点表示所有数据形成一类。其次,CF树是一种数据的压缩存储方式。树中每个节点只存储聚类过程计算距离所必须的统计量,即充分统计量。第14章SPSSModeler的聚类分析
第14章SPSSModeler的聚类分析
第14章SPSSModeler的聚类分析聚类:在预聚类基础上进行,分析对象是预聚
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 初中道德与法治七年级《感念于心·躬行于途》主题班会教案
- 风成与海成地貌协同演化研学案(高中地理·必修第一册·2026版)
- 初中二年级主题班会·教案:以习惯之力赴卓越之约-初中生“行为·学习·思维”三维习惯养成系统
- 2026届高考地理二轮复习“开放性试题突破”教学设计
- 初中七年级(上册)第一次家长会:携手跨越“小升初”陡坡-生命护航与习惯奠基
- 劳动·六年级下册·第四单元·项目式学习示范课教案-移栽定植我能行
- 守护青春“轨迹”-初中道德与法治“中学生交通安全”单元教学设计
- 赋权·赋能·共生:初中班级自主管理的实践探索-基于班主任带班育人的行动研究
- 玉米秸秆固化成型燃料生物质能源化利用建设项目可行性研究报告
- 磷矿项目可行性研究报告
- 2026年广东教师公需课《人工智能赋能制造业高质量发展》习题附答案
- 老年人骨关节炎患者护理
- 东风汽车招聘在线测评题库
- 《切花北美冬青生产技术规范》
- 伐木清理施工方案(3篇)
- 2026上海安全员C3证考试题库
- 宠物美容与护理操作手册(标准版)
- 肾内科慢性肾病管理工作制度及操作规范
- 光伏项目现场制度规范
- 2026年时事政治测试题库100道附答案【满分必刷】
- 施工围挡资源配置方案
评论
0/150
提交评论