




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第2章2.1聚类分析概述2.2 相似性度量2.3 系统聚类2.4 K-Means聚类3u聚类分析是多元分析的主要方法之一,主要用来对大量的样品或变量进行分类。n同一类别内的个体具有尽可能高的同质性。同一类别内的个体具有尽可能高的同质性。n类别之间应具有尽可能高的异质性。类别之间应具有尽可能高的异质性。u聚类的实质n根据样品(变量)间的亲疏关系将样品(变量)分为根据样品(变量)间的亲疏关系将样品(变量)分为类,相近的归为一类,差别较大的归为另一类。所获类,相近的归为一类,差别较大的归为另一类。所获得的分类应有一定的意义。得的分类应有一定的意义。u聚类分析的一般规则n亲疏关系的判别:相似性与距离(
2、不相似性)亲疏关系的判别:相似性与距离(不相似性)n将相似性较大的点或距离较小的点归为同一类将相似性较大的点或距离较小的点归为同一类n将相似性较小的将相似性较小的点或距离较大的点归为不同类点或距离较大的点归为不同类u根据分类的对象n样品样品/记录聚类记录聚类(clustering for cases/individuals)n指标指标/变量聚类变量聚类(clustering for variables)ku连续变量和分类变量在聚类时常用的测量方式不同。n连续变量一般采用欧氏平方距离连续变量一般采用欧氏平方距离n分类变量一般用卡方作为距离指标分类变量一般用卡方作为距离指标n多数传统聚类方法只能使
3、用其中单一各类的变量进行多数传统聚类方法只能使用其中单一各类的变量进行分析分析n数据中如果同时有这两类变量,可考虑只采用连续变数据中如果同时有这两类变量,可考虑只采用连续变量进行分析;或者将分类变量转换成虚拟变量的形式,量进行分析;或者将分类变量转换成虚拟变量的形式,按照连续变量进行分析按照连续变量进行分析区域发展水平:根据经济及社会发展水平把全国各地市(县)分类产品市场细分:按照消费者的需求特征分成不同的细分市场客户分类:银行根据贷款者的收入水平、抵押状况、信用记录对信息,对贷款者的资信分类并给予相应的贷款额度 u 根据分类的方法:n系统系统/ /层次聚类层次聚类(hierarchical
4、clustering ) 开始将样品开始将样品/指标各视为一类指标各视为一类,根据类与类之间的距离根据类与类之间的距离/相相似程度似程度,将最相似的类加以合并将最相似的类加以合并,再计算新类与其他类之再计算新类与其他类之间的相似程度间的相似程度,并选择最相似的类加以合并并选择最相似的类加以合并,每合并一次每合并一次就减少一类就减少一类,不断重复不断重复,直到所有样本直到所有样本/指标都合并为一类。指标都合并为一类。n快速快速/K-均值均值/动态聚类动态聚类(k-means clustering) 开始按照一定方法选取一批聚类的中心,让样品向最近开始按照一定方法选取一批聚类的中心,让样品向最近的
5、聚心凝聚,然后按最近距离原则不断修改不合理分类,的聚心凝聚,然后按最近距离原则不断修改不合理分类,直到合理为止。直到合理为止。u聚类分析过程基本上与分布理论和显著性检验无关,一般不从样本推断总体。u聚类分析可通过将众多个体聚集成几个类别而简化数据,可作为其他多元统计的预备过程。u聚类分析主要用于探索性的研究,最终的解需要研究者的主观判断和后续分析。u聚类分析的解完全依赖于所选择的聚类变量,增删变量对于聚类解会产生实质性影响。11u在聚类分析技术的发展过程中,形成了很多种测度相似性的方法,主要分为三类:n相关测度相关测度n距离测度距离测度n关联测度关联测度u应用最广泛的相关测度是皮尔逊相关系数(
6、Pearson correlation),聚类分析中用它来测量案例之间的相似程度。案例案例变量变量x1x2x3X4x5125364287788368697432344523232原始数据原始数据相关测度更大程度上反映了案例在聚类变量上变化模式的相似性,变量值大小的差异对其影响不大,也被称为形状测度。u相关测度的缺点在于忽视了变量值大小的差异,高度相关的两个样本提供的信息可能相差甚远。u聚类分析的大部分应用中更重视变量值大小的差异,而不是值的变化模式,以此相关测度在聚类分析中的应用并不普遍。案例案例123420.0030.970.1440.190.760.1850.87-0.170.91-0.2
7、2相关测度:相关系数相关测度:相关系数u样品间的亲疏关系通常用距离描述nBlock距离距离n欧式距离欧式距离n明氏距离明氏距离n切比雪夫距离切比雪夫距离n马氏距离马氏距离n兰氏距离兰氏距离u距离的定义:n距离测度的出发点是把每个案例看成是距离测度的出发点是把每个案例看成是m维空间中维空间中(m 为变量个数)的一个点。为变量个数)的一个点。n在在m维空间中定义点与点的距离,距离越近的点,维空间中定义点与点的距离,距离越近的点,相似程度越高,越可能归为一类。相似程度越高,越可能归为一类。ndij满足下列条件满足下列条件 dij0 dii =0 dij = dji dij dik + dkju两样品
8、p个指标值绝对差的总和pkjkikijxxd1) 1 (21122222211)()()()(pkjkikjpipjijiijxxxxxxxxd两样品两样品p p个指标值之个指标值之差平方和的平方根差平方和的平方根x1x2x12x22x2x21x21- x2x22- x12212222112121)()(xxxxd欧式距离是最广泛使欧式距离是最广泛使用的距离指标。用的距离指标。jkikpkijxxd1max)(两样品两样品p p个指标值绝对差的最大值个指标值绝对差的最大值pkqqjkikijxxd11111(1)2( )maxpijikjkkijikjkkpqdxxqqdxx 当,为绝对距离;
9、当,即为欧氏距离;当,称为切比雪夫(Chebychey)距离两样品两样品p p个指标值绝对差个指标值绝对差的的q q次幂总和的次幂总和的q q次方根次方根u各指标同等对待(权数相同),不能反映各指标变异程度上的差异u距离的大小与各指标的观测单位有关,有时会出现不合理结果u没有考虑指标之间的相关性当各指标的测量值相差悬殊时,可以先对数据标当各指标的测量值相差悬殊时,可以先对数据标准化,然后用标准化后的数据计算准化,然后用标准化后的数据计算距离。距离。阵维随机向量的协方差矩为其中p)()(12jijiijdXXXX马氏距离既排除了各指标间相关性的干扰,并不受各指马氏距离既排除了各指标间相关性的干扰
10、,并不受各指标量纲的影响。标量纲的影响。u和相关测度不同,距离测度更侧重于变量值 的大小,不考虑案例在聚类上的变化模式,认为靠得近的案例为相似案例案例案例123428.7237.212.8343.749.909.3854.242.7510.862.83距离测度:欧式距离距离测度:欧式距离按照距离按照距离越近,相越近,相似度越高似度越高的原则,的原则,2 2和和3 3归为一归为一类,类,1 1、4 4、5 5归为一类。归为一类。u关联测度用于度量聚类变量为分类变量的相似性。n简单匹配系数简单匹配系数 对于二分类变量,关联测度是要估计研究对象在回答这些问对于二分类变量,关联测度是要估计研究对象在回
11、答这些问题时的一致程度。题时的一致程度。 简单匹配系数是两个案例在所有聚类变量上答案相同的情况简单匹配系数是两个案例在所有聚类变量上答案相同的情况出现的频率。出现的频率。n雅科比系数(雅科比系数(Jaccards CoefficientJaccards Coefficient) 对简单匹配系数的改进,同样适用于二分类变量对简单匹配系数的改进,同样适用于二分类变量案例案例2案例案例1101ab0cdu对于定距或定比变量:n欧氏距离(欧氏距离(Euclidean) n欧氏平方距离(欧氏平方距离(Squared Euclidean)n变量矢量的余弦变量矢量的余弦(Cosine)n皮尔逊相关距离(皮尔
12、逊相关距离(Pearson)n切比雪夫距离(切比雪夫距离(Chebychev)n绝对距离(绝对距离(Block)n明氏距离明氏距离(Minkowski)n设定距离(设定距离(Customized, 距离是一个绝对幂的度量,距离是一个绝对幂的度量,即变量绝对值的第即变量绝对值的第p次幂值和的第次幂值和的第r次根)次根)28u系统聚类也叫谱系聚类,一般用于待分类的个体(变量)数比较小的情况。可分为聚集法和分割法。n聚集法:把每一个案各看成一类,将最聚集法:把每一个案各看成一类,将最“靠近靠近”(距(距离最小或相似系数最大)的点首先聚类,然后逐步合离最小或相似系数最大)的点首先聚类,然后逐步合并,直
13、到合为一大类并,直到合为一大类n分割法:把所有个案看成一类,然后把最不相似的分分割法:把所有个案看成一类,然后把最不相似的分为两类,直到把每个个案都分成一类为两类,直到把每个个案都分成一类n聚集法比分割法更常用。聚集法比分割法更常用。聚集法与分割法图示类与类间的距离最长距离最短距离重心距离u最近邻元素n也叫最短距离法。类与类之间的距离是两类间两两样品间也叫最短距离法。类与类之间的距离是两类间两两样品间的最短距离。的最短距离。u最远邻元素n也叫最长距离法。类与类之间的距离是两类间两两样品间也叫最长距离法。类与类之间的距离是两类间两两样品间的最长距离。的最长距离。u中位数聚类法n计算两类之间所有配
14、对观测的距离,取距离的中位数代表计算两类之间所有配对观测的距离,取距离的中位数代表类的距离。类的距离。l最短距离法易造成链接聚合,形成一个大类。l最长距离法会加大合并后的类与其他类的距离。l两种方法都只用到部分观测,受极端值影响大。不常用 u组间联接法n在计算距离时只考虑两类之间样品之间距离的平均在计算距离时只考虑两类之间样品之间距离的平均u组内联接法n在计算距离时把两组所有样品之间的距离都考虑在内。在计算距离时把两组所有样品之间的距离都考虑在内。组间联接与组内联接都属于平均距离法,聚类时用到了全部的观测点,是常用的系统聚类方法。u质心聚类法n类与类间的距离用各自重心间的欧式距离表示。类与类间
15、的距离用各自重心间的欧式距离表示。u离差平方和法(Ward法)n其分类思想和方差分析类似。即在分类的过程中,使其分类思想和方差分析类似。即在分类的过程中,使类内元素间的变差平方和尽可能小,而类间元素的变类内元素间的变差平方和尽可能小,而类间元素的变差平方和尽可能大。差平方和尽可能大。l质心聚类法对类别有较好的代表性,但并未充分利用各样本的信息。l离差平方和法的分类效果较好,常用。u数据“国民经济数据.sav”选取了2002年中国31个省市的国民经济数据,要求运用系统聚类方法对地区差异进行研究。n(一)数据的初步分析(变量的描述统计)(一)数据的初步分析(变量的描述统计)描述统计结果描述统计结果
16、表明变量之间表明变量之间存在很大的量存在很大的量纲差异,聚类纲差异,聚类分析前首先应分析前首先应对数据进行标对数据进行标准化处理。准化处理。(二)层次聚类分析(二)层次聚类分析1 1、分析、分析分类分类系统聚类系统聚类选入要聚选入要聚类的变量类的变量标签变量,通标签变量,通常为定类变量常为定类变量聚类方式聚类方式(二)层次聚类分析(二)层次聚类分析1 1、分析、分析分类分类系统聚类系统聚类聚类方法:本例采聚类方法:本例采用离差平方和法用离差平方和法距离测量方法:距离测量方法:本例采用欧氏平本例采用欧氏平方距离方距离将变量标将变量标准化准化输出聚类输出聚类方案结果方案结果(二)层次聚类分析(二)
17、层次聚类分析分析分析分类分类系统聚类系统聚类绘制选项卡:用绘制选项卡:用于输出树状图和于输出树状图和冰柱图冰柱图保存选项卡:用保存选项卡:用于保存聚类数为于保存聚类数为3-8类情况下各省类情况下各省市所属的类。市所属的类。表1:聚类过程聚类表聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 213(河北) 17(湖北).1110 0223 12(安徽).2461015357.407004-241228.4120026254532.928211927261941.666240282742854.441252029281268.972262230293487.757232730
18、3013150.000282903此时代表此时代表 3、17两条记录两条记录组成的类别,因此第组成的类别,因此第2步是步是3、17、12三条纪录合并三条纪录合并第第1步:步:3、17两两条纪录合并。条纪录合并。聚类聚类过程过程的步的步骤号骤号表1:聚类过程聚类表聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 213(河北) 17(湖北).1110 0223 12(安徽).2461015357.407004-241228.4120026254532.928211927261941.666240282742854.441252029281268.972262230293487
19、.7572327303013150.00028290表示参与表示参与 合并的类别在第几合并的类别在第几步中第一次出现。步中第一次出现。0表示该记表示该记录第一次出现在聚类过程中。录第一次出现在聚类过程中。纪录纪录1在第在第24步中第步中第一次出现。纪录一次出现。纪录9在在本步(第本步(第26步)第步)第一次出现。一次出现。表示在这一步中合并的表示在这一步中合并的类别,下一次将在第几类别,下一次将在第几步中与其他类合并。步中与其他类合并。记录记录1和记录和记录2将在第将在第26步中参与合并。步中参与合并。表1:聚类过程聚类表聚类表阶群集组合系数首次出现阶群集下一阶群集 1群集 2群集 1群集 2
20、13(河北) 17(湖北).1110 0223 12(安徽).2461015357.407004-241228.4120026254532.928211927261941.666240282742854.441252029281268.972262230293487.7572327303013150.00028290聚类系数表示被合并聚类系数表示被合并类别间的距离大小类别间的距离大小聚类系数聚类系数l可以根据该系数的变化来可以根据该系数的变化来判断数据应该被分成多少判断数据应该被分成多少类。类。l当两个相邻步骤系数变化当两个相邻步骤系数变化远大于前面相邻步骤变化远大于前面相邻步骤变化时,便可以
21、大致确定从统时,便可以大致确定从统计意义上讲,应该将聚类计意义上讲,应该将聚类过程进行到那里的类别数过程进行到那里的类别数是较为合适的。是较为合适的。第第25步和第步和第26步之间系步之间系数差距出现大的变化。数差距出现大的变化。从而可以大致认为聚类从而可以大致认为聚类过程结束于第过程结束于第26步是合步是合理的。理的。表2 聚类方案图1 冰柱图纵轴表示分纵轴表示分类的个数类的个数如果选择五类,则高度小于如果选择五类,则高度小于5个个4个冰柱将记录分成五类。个冰柱将记录分成五类。横轴表示各类别之横轴表示各类别之间的相对距离大小。间的相对距离大小。图2:树状图划分类别:划分类别:从右往左,从右往
22、左,竖线断开。竖线断开。分成三类分类数的确定分类数的确定l确定分类数是聚类分析确定分类数是聚类分析迄今尚未完全解决的问题迄今尚未完全解决的问题之一。之一。l实际中主要根据研究的实际中主要根据研究的目的和需要,选择合适的目的和需要,选择合适的分类数分类数图2:树状图分成六类如果分成五类,北如果分成五类,北京、天津和上海在京、天津和上海在聚类过程中首先合聚类过程中首先合并,可归为一类。并,可归为一类。uDemirmen曾提出了根据树状结构图来分类的准则:n任何类都必须在邻近各类中是突出的,即各类任何类都必须在邻近各类中是突出的,即各类重心之间距离必须大。重心之间距离必须大。n各类所包含的元素都不要
23、过分地多。各类所包含的元素都不要过分地多。n分类的数目应该符合使用目的。分类的数目应该符合使用目的。n若采用几种不同的聚类方法处理,则在各自的若采用几种不同的聚类方法处理,则在各自的聚类图上应发现相同的类。聚类图上应发现相同的类。u系统聚类中每次合并的类与类之间的距离也可以作为确定类数的一个辅助工具。首先把离得近的类合并,在并类过程中聚合系数呈增加趋势,聚合系数小,表示合并的两类的相似程度较大,两个差异很大的类合到一起,会使该系数很大。 u如果以y轴为聚合系数,x轴表示分类数,画出聚合系数随分类数的变化曲线,会得到类似于因子分析中的碎石图,可以在曲线开始变得平缓的点选择合适的分类数。(三)聚类
24、结果的验证(三)聚类结果的验证1 1、对类别的进一步验证、对类别的进一步验证方法方法: :对于聚类结果输出变量对于聚类结果输出变量CLU8_1-CLU3_1CLU8_1-CLU3_1进行频数分析。进行频数分析。如果分成六类,如果分成六类,则第则第4类的类别类的类别过少。因此分成过少。因此分成五类更合适。五类更合适。(三)聚类结果的验证(三)聚类结果的验证2 2、对类别间的差异进行显著性检验、对类别间的差异进行显著性检验(1 1)使用)使用MeansMeans过程输出类别的描述性统计量过程输出类别的描述性统计量(三)聚类结果的验证(三)聚类结果的验证2 2、对类别间的差异进行显著性检验、对类别间
25、的差异进行显著性检验(2 2)一元方差分析)一元方差分析结果表明,各个结果表明,各个类别之间的五个类别之间的五个变量存在显著差变量存在显著差异。异。(三)聚类结(三)聚类结果的验证果的验证3 3、总结各类别、总结各类别的主要特征的主要特征方法方法: :将变量进将变量进行标准化处理行标准化处理后绘制线图。后绘制线图。54uK均值聚类法也叫快速聚类法。Macqueen于1967年提出的,其思想是把每个样品聚集到其最近(均值)类中去。u与系统聚类的主要区别:n非层次性递推过程非层次性递推过程n从初始分类开始不断优化的过程从初始分类开始不断优化的过程n当样本量很大时,用系统聚类法的计算工作量极大,当样
26、本量很大时,用系统聚类法的计算工作量极大,作出的树状图也十分复杂作出的树状图也十分复杂, , 不便于分析,用快速聚类不便于分析,用快速聚类较好。较好。uK均值聚类法的步骤:n1 1、把样品粗略分成、把样品粗略分成K K个初始类,将个初始类,将K K个类的重心作为个类的重心作为初始凝聚点,初始凝聚点,K K往往由研究者自己指定;往往由研究者自己指定;n2 2、对凝聚点以外的所有样品逐个归类,将每个样品、对凝聚点以外的所有样品逐个归类,将每个样品归入凝聚点离它最近的类中(通常用标准化数据或非归入凝聚点离它最近的类中(通常用标准化数据或非标准化数据计算欧氏距离)。重新计算接受新样品的标准化数据计算欧
27、氏距离)。重新计算接受新样品的类和失去样品的类的均值,作为凝聚点;类和失去样品的类的均值,作为凝聚点;n3 3、重复第、重复第2 2步,直到达到一定的收敛标准或达到分析步,直到达到一定的收敛标准或达到分析者事先指定的迭代次数。者事先指定的迭代次数。u样品的最终聚类在某种程度上依赖于最初的划分,或种子点的选择。u为了检验聚类的稳定性,可用一个新的初始分类重新检验整个聚类算法。如最终分类与原来一样,则不必再行计算;否则,须另行考虑聚类算法。容易产生局部最优而非全局最优,初始分类很重要u数据“移动电话.sav”反映了移动电话客户的通话情况,包含6个变量。现希望对移动用户进行细分,以了解他们不同的通话
28、消费习惯。根据前期的调研,研究者认为移动用户应当被分为5个主要群体。n(一)数据的初步分析(变量的描述统计)(一)数据的初步分析(变量的描述统计)变量的量纲虽变量的量纲虽然一致,但变然一致,但变量值的离散程量值的离散程度较高,因此度较高,因此先对数据进行先对数据进行标准化。标准化。(二)(二)K-MeansK-Means聚类分析聚类分析1 1、分析、分析分分类类KK均值聚均值聚类类指定分类数目指定分类数目(二)(二)K-MeansK-Means聚类分析聚类分析1 1、分析、分析分类分类KK均值聚类均值聚类通常指定最大迭通常指定最大迭代次数为代次数为100。即当迭代即当迭代100次次或收敛性为或
29、收敛性为0时,时,迭代中止。迭代中止。保存聚类成员,保存聚类成员,则在数据文件中则在数据文件中对每条记录给出对每条记录给出所属的类别。所属的类别。方差分析用于分方差分析用于分析聚类结果中各析聚类结果中各类别是否有显著类别是否有显著差异。差异。表1:初始聚类中心l初始聚类中心给出了每一类别初始定义的中心点。本例中初始聚类中心给出了每一类别初始定义的中心点。本例中的中心点由的中心点由SPSSSPSS自动生成。自动生成。l由由SPSSSPSS自动生成的初始中心点会与记录的排列顺序有关,自动生成的初始中心点会与记录的排列顺序有关,因此要尽量避免出现有规律的排列。必要时可能随机数排序因此要尽量避免出现有规律的排列。必要时可能随机数排序打乱顺序。打乱顺序。单元格内的值是各个类别在单元格内的值是各个类别在各个变量上的平均值。各个变量
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 城市更新项目基础设施拆迁补偿及环境修复协议
- 幼儿园高级教师岗位聘用合同(双语教学版)
- 商品标签信息存储与安全管理协议
- 物业管理合同变更确认及服务质量保证书
- 在线教育平台教师聘用与职业发展合作协议
- 抖音短视频IP授权与商业合作开发合同
- 新能源项目融资合作框架及风险评估服务协议
- 高端固态电池生产线运维与技术创新合作合同
- 港澳台青年实习兼职就业指导与实习实训合同
- 新能源汽车充电站项目建设与运营风险分担协议
- GA 1517-2018金银珠宝营业场所安全防范要求
- 2022年中国建筑集团有限公司招聘笔试题库及答案解析
- 小学苏教版六年级下册数学总复习《图形的运动》市级公开课教案
- WDM网络规划与设计指南
- 电子商务客户服务5套综合测试题带答案
- 微观经济学课件第二章(高鸿业)
- 医院科室6S管理制度
- 病历书写基本规范12021病历书写规范试题.doc
- 《山东省自然科学基金资助项目年度进展报告》
- 电厂保安人员管理制度
- ge核磁共振机房专用精密空调机技术要求
评论
0/150
提交评论