版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 聚类分析概述聚类分析概述 系统聚类分析系统聚类分析 动态聚类法动态聚类法 模糊聚类分析模糊聚类分析 图论聚类分析图论聚类分析 第五章第五章 聚类分析聚类分析 统计分组或分类可以深化人们的认识。统计分组或分类可以深化人们的认识。实际应用中,有些情况下进行统计分组比实际应用中,有些情况下进行统计分组比较容易,分组标志确定了,分组也就得到较容易,分组标志确定了,分组也就得到了,但是,有些情况下进行统计分组却比了,但是,有些情况下进行统计分组却比较困难,特别是当客观事物性质变化没有较困难,特别是当客观事物性质变化没有明显标志时,用于确定分组的标志和组别明显标志时,用于确定分组的标志和组别就很难确定。
2、聚类分析实际上给我们提供就很难确定。聚类分析实际上给我们提供了一种对于复杂问题如何分组的统计方法。了一种对于复杂问题如何分组的统计方法。 第一节第一节 聚类分析概述聚类分析概述 一、聚类分析的定义一、聚类分析的定义 二、聚类分析的种类二、聚类分析的种类 三、聚类分析中样品或变量亲疏三、聚类分析中样品或变量亲疏 程度的测定程度的测定聚类分析的定义聚类分析的定义 聚类分析是将样品或变量按照它们在性聚类分析是将样品或变量按照它们在性质上的亲疏程度进行分类的多元统计分析方质上的亲疏程度进行分类的多元统计分析方法。聚类分析时,用来描述样品或变量的亲法。聚类分析时,用来描述样品或变量的亲疏程度通常有两个途
3、径,一是把每个样品或疏程度通常有两个途径,一是把每个样品或变量看成是多维空间上的一个点,在多维坐变量看成是多维空间上的一个点,在多维坐标中,定义点与点,类和类之间的距离,用标中,定义点与点,类和类之间的距离,用点与点间距离来描述样品或变量之间的亲疏点与点间距离来描述样品或变量之间的亲疏程度;另一个是计算样品或变量的相似系数,程度;另一个是计算样品或变量的相似系数,用相似系数来描述样品或变量之间的亲疏程用相似系数来描述样品或变量之间的亲疏程度。度。 (一)聚类分析按照分组理论依据的不同,可分为系统聚类法,动态聚类法,模糊聚类、图论聚类、聚类预报等多种聚类方法。 1、系统聚类分析法。是在样品距离的
4、基础上定义类与类的距离,首先将个样品自成一类,然后每次将具有最小距离的两个类合并,合并后再重新计算类与类之间的距离,再并类,这个过程一直持续到所有的样品都归为一类为止。这种聚类方法称为系统聚类法。根据并类过程所做的样品并类过程图称为聚类谱系图。 2、动态聚类分析法。是将个样品初步分类,然后根据分类函数尽可能小的原则,对初步分类进行调整优化,直到分类合理为止。这种分类方法一般称为动态聚类法,也称为调优法。聚类分析的种类聚类分析的种类 3、模糊聚类分析法。是利用模糊数学中模糊集理论来处理分类问题的方法,它对经济领域中具有模糊特征的两态数据或多态数据具有明显的分类效果。 4、图论聚类分析法。是利用图
5、论中最小支撑树(MST)的概念来处理分类问题,是一种独具风格的方法。 5、聚类预报法。是利用聚类方法处理预报问题的方法。主要应用于处理一些出现异常数据的情况,如气象中的灾害性天气的预报,这些异常数据采用回归分析或判别分析处理的效果不好,而聚类预报可以弥补回归分析及判别分析方法之不足,是一个很值得重视的方法。 (二)按照分析对象不同,可以分为(二)按照分析对象不同,可以分为Q Q型聚类分型聚类分析和析和R R型聚类分析。型聚类分析。 Q Q型聚类分析法是对样品进行的分类处理,型聚类分析法是对样品进行的分类处理,可以揭示样品之间的亲疏程度。可以揭示样品之间的亲疏程度。R R型聚类分析法型聚类分析法
6、是对变量进行的分类处理,可以了解变量之间,是对变量进行的分类处理,可以了解变量之间,以及变量组合之间亲疏程度。以及变量组合之间亲疏程度。 根据根据R R型聚类的结果,可以选择最佳的变量型聚类的结果,可以选择最佳的变量组合进行回归分析或者组合进行回归分析或者Q Q型聚类分析。其中,选型聚类分析。其中,选择最佳变量的一般方法是择最佳变量的一般方法是, ,在聚合的每类变量中,在聚合的每类变量中,各选出一个具有代表性的变量作为典型变量,其各选出一个具有代表性的变量作为典型变量,其中选择的依据是中选择的依据是 。 2r :表示每个变量与其同类的其它变量的表示每个变量与其同类的其它变量的相关系数的平方的均
7、值。相关系数的平方的均值。k为该类中变量的为该类中变量的个数。应用中,挑选个数。应用中,挑选 值最大的变量值最大的变量 作作为该类的典型变量。为该类的典型变量。122krrii2r2rix聚类分析中样品或变量聚类分析中样品或变量亲疏程度的测定亲疏程度的测定 1 1、变量类型与数据变换、变量类型与数据变换 通常变量类型按照计量尺度的不同,分为定通常变量类型按照计量尺度的不同,分为定类尺度,定序尺度,定距尺度,定比尺度变量。类尺度,定序尺度,定距尺度,定比尺度变量。其中,前两者一般又称为定性资料,后两者一般其中,前两者一般又称为定性资料,后两者一般又称为定量资料。在进行聚类分析处理时,样品又称为定
8、量资料。在进行聚类分析处理时,样品间的相似系数和距离有许多不同的定义,这些定间的相似系数和距离有许多不同的定义,这些定义与变量的类型有着密切关系,不同类型的变量义与变量的类型有着密切关系,不同类型的变量在定义距离或相似性测度时具有很大的差异在定义距离或相似性测度时具有很大的差异。 另外,由于样本数据受量纲和数量级另外,由于样本数据受量纲和数量级的影响,在聚类分析处理过程中,首先应的影响,在聚类分析处理过程中,首先应对原始数据矩阵进行变换处理,以便使不对原始数据矩阵进行变换处理,以便使不同量纲、不同数量级的数据能放在一起比同量纲、不同数量级的数据能放在一起比较。常用的数据变换方法有以下几种:较。
9、常用的数据变换方法有以下几种: (1 1)中心化变换)中心化变换 中心化是一种标准化处理方法,它是中心化是一种标准化处理方法,它是先求出每个变量的样本均值,再从原始数先求出每个变量的样本均值,再从原始数据中减去该变量的均值,就得到中心化后据中减去该变量的均值,就得到中心化后的数据。即的数据。即 (2 2)规格化变换(极差规格变换)规格化变换(极差规格变换) 规格化变换是从数据矩阵的每一个变量中找出其规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每一个最大值和最小值,这两者之差称为极差,然后从每一个原始数据中减去该变量中的最小值,再除以极差就得到原始数据中减
10、去该变量中的最小值,再除以极差就得到规格化数据。规格化后的数据为:规格化数据。规格化后的数据为: 进行了规格化变换后的数据特点是,将每列的最大数据变进行了规格化变换后的数据特点是,将每列的最大数据变为为1 1,最小数据变为,最小数据变为0 0,其余数据取值在,其余数据取值在0 0,1 1之间。之间。 (3 3)标准化变换)标准化变换 标准化变换是对变量的属性进行变换处理,首先对数标准化变换是对变量的属性进行变换处理,首先对数据进行中心化然后再除以标准差,即据进行中心化然后再除以标准差,即 其中其中 进行了标准化变换后的数据特点是,每列数据的平均进行了标准化变换后的数据特点是,每列数据的平均值为
11、值为0 0,方差为,方差为1 1,同时消除了量纲的影响。使用标准差,同时消除了量纲的影响。使用标准差处理后,在抽样样本改变时,它仍保持相对稳定性。处理后,在抽样样本改变时,它仍保持相对稳定性。 (4 4)对数变换)对数变换 对数变换主要是对原始数据取对数。即对数变换主要是对原始数据取对数。即 对数变换后的数据特点是,可将具有指数特对数变换后的数据特点是,可将具有指数特征的数据结构化为线性数据结构。征的数据结构化为线性数据结构。 此外,还有平方根变换、立方根变换等。极差此外,还有平方根变换、立方根变换等。极差标准化变换和规格化变换类似。它是把每个变量标准化变换和规格化变换类似。它是把每个变量的样
12、本极差皆化为的样本极差皆化为1 1,排除量纲的干扰。立方根,排除量纲的干扰。立方根变换和平方根变换的主要作用是把非线性数据结变换和平方根变换的主要作用是把非线性数据结构变为线性数据结构,以适应某些统计方法的需构变为线性数据结构,以适应某些统计方法的需要。要。2 2、多维空间的距离、多维空间的距离 对于定量数据资料常用的距离有以下几种:对于定量数据资料常用的距离有以下几种: 欧氏距离是聚类分析中用得最广泛的距离,欧氏距离是聚类分析中用得最广泛的距离,但该距离与个变量的量纲有关,没有考虑指标间但该距离与个变量的量纲有关,没有考虑指标间的相关性;也没有考虑各变量方差的不同。的相关性;也没有考虑各变量
13、方差的不同。 则称为切比雪夫距离则称为切比雪夫距离. 由明氏距离公式可知,当各变量的单位不同由明氏距离公式可知,当各变量的单位不同或虽单位相同但各变量的测量值相差很大时,不或虽单位相同但各变量的测量值相差很大时,不应该直接使用明氏距离,而应该先对各变量的数应该直接使用明氏距离,而应该先对各变量的数据进行准化处理,然后再用标准化后的数据计算据进行准化处理,然后再用标准化后的数据计算距离。距离。 (2 2)兰氏()兰氏(LanceLance和和WilliamsWilliams)距离)距离 兰氏距离是由兰氏距离是由LanceLance和和WilliamsWilliams最早提出的,故称为最早提出的,
14、故称为兰氏距离。当全部数据大于零,即兰氏距离。当全部数据大于零,即 可见兰氏距离是一个无量纲的量,克服了明氏距离与可见兰氏距离是一个无量纲的量,克服了明氏距离与各指标的量纲有关的缺点,其受奇异值的影响较小,使各指标的量纲有关的缺点,其受奇异值的影响较小,使其适合应用于具有高度偏倚的数据。然而兰氏距离没有其适合应用于具有高度偏倚的数据。然而兰氏距离没有考虑变量间的相关性。考虑变量间的相关性。 明氏距离和兰氏距离的共同的特点是,假定变量之间明氏距离和兰氏距离的共同的特点是,假定变量之间相互独立,即均没有考虑变量之间的相关性,都是在正相互独立,即均没有考虑变量之间的相关性,都是在正交空间内讨论距离的
15、,而实际情况并非如此。但在实际交空间内讨论距离的,而实际情况并非如此。但在实际问题中,变量之间往往存在着一定的相关性,为克服变问题中,变量之间往往存在着一定的相关性,为克服变量之间的这种相关性影响,可以采用马氏距离。量之间的这种相关性影响,可以采用马氏距离。 马氏距离的优点是考虑到个变量之间马氏距离的优点是考虑到个变量之间的相关性,并且与个变量的单位无关。不的相关性,并且与个变量的单位无关。不足之处是在聚类分析过程中,如果用全部足之处是在聚类分析过程中,如果用全部数据计算的均值和协方差阵来计算马氏距数据计算的均值和协方差阵来计算马氏距离,并且始终保持不变,则显得不妥;然离,并且始终保持不变,则
16、显得不妥;然而若要随聚类过程而不断改变,计算将会而若要随聚类过程而不断改变,计算将会很困难。这样造成聚类效果不是很好的。很困难。这样造成聚类效果不是很好的。比较合理的办法是用各个类的样品来计算比较合理的办法是用各个类的样品来计算各自的协方差矩阵,同一类样本的马氏距各自的协方差矩阵,同一类样本的马氏距离应当用这一类的协方差矩阵来计算。离应当用这一类的协方差矩阵来计算。 (4)(4)斜交空间距离斜交空间距离 由于多个变量之间存在着不同程度的相关关系。由于多个变量之间存在着不同程度的相关关系。在这种情况下,用正交空间距离来计算样品间的距在这种情况下,用正交空间距离来计算样品间的距离,易产生变形,从而
17、使聚类分析时的谱系结构发离,易产生变形,从而使聚类分析时的谱系结构发生改变。为此,计算斜交空间距离,第个生改变。为此,计算斜交空间距离,第个i i样品与样品与第第j j个样品之间的斜交空间距离定义为,个样品之间的斜交空间距离定义为, 3 3、相似系数、相似系数 聚类分析方法不仅用来对样品进行分类,而聚类分析方法不仅用来对样品进行分类,而且有时需要对变量进行分类,在对变量进行聚分且有时需要对变量进行分类,在对变量进行聚分类析时,则通常采用相似系数来表示变量之间的类析时,则通常采用相似系数来表示变量之间的亲疏程度。相似系数定义如下:亲疏程度。相似系数定义如下: (1 1)夹角余弦)夹角余弦 (2
18、2)相关系数)相关系数(3 3)指数相似系数)指数相似系数 指数相似系数不受变量量纲的影响指数相似系数不受变量量纲的影响。(4 4)相似系数的非参数方法)相似系数的非参数方法 4 4、距离以及相似系数的选择原则、距离以及相似系数的选择原则 一般说来,同一批数据采用不同的相一般说来,同一批数据采用不同的相似性尺度,就会得到不同的分类结果。产似性尺度,就会得到不同的分类结果。产生不同分类结果的原因,主要是不同指标生不同分类结果的原因,主要是不同指标代表了不同意义上的相似性。因此我们在代表了不同意义上的相似性。因此我们在进行数值分类时,应注意相似性尺度的选进行数值分类时,应注意相似性尺度的选择,选择
19、的基本原则是:择,选择的基本原则是: (1) (1) 所选择的相似性尺度在实际应用中应有明确所选择的相似性尺度在实际应用中应有明确的意义。的意义。 (2) (2) 根据原始数据的性质,选择适当的变换方法,根据原始数据的性质,选择适当的变换方法,再根据不同的变换方法选择不同的距离或相似系再根据不同的变换方法选择不同的距离或相似系数。如标准化变换处理下,相关相似系数和夹角数。如标准化变换处理下,相关相似系数和夹角余弦一致;又如原始数据在进行聚类分析之前已余弦一致;又如原始数据在进行聚类分析之前已经对变量的相关性作了处理,则通常可采用欧氏经对变量的相关性作了处理,则通常可采用欧氏距离而不必选用斜交空
20、间距离。再如选择距离时,距离而不必选用斜交空间距离。再如选择距离时,还须和选用的聚类方法相一致,如聚类方法选用还须和选用的聚类方法相一致,如聚类方法选用离差平方和法时,距离只能选用欧氏距离。离差平方和法时,距离只能选用欧氏距离。 (3) (3) 适当地考虑计算量的大小,如对样品量较多适当地考虑计算量的大小,如对样品量较多的聚类问题,不适宜选择斜交空间距离,因采用的聚类问题,不适宜选择斜交空间距离,因采用该距离处理时,计算工作量太大。该距离处理时,计算工作量太大。 第二节第二节 系统聚类分析系统聚类分析 一、系统聚类分析的基本思想和分析步骤一、系统聚类分析的基本思想和分析步骤 二、常用系统聚类分
21、析方法二、常用系统聚类分析方法 三、系统聚类分析方法的统一公式三、系统聚类分析方法的统一公式 四、系统聚类分析方法的性质四、系统聚类分析方法的性质 五、型聚类分析时典型变量的选择与剩五、型聚类分析时典型变量的选择与剩 余信息的剔除余信息的剔除 六、谱系分类的确定六、谱系分类的确定 七、系统聚类分析在七、系统聚类分析在Excel下的实现下的实现系统聚类分析的基本思想系统聚类分析的基本思想和分析步骤和分析步骤 (一)基本思想(一)基本思想 系统聚类分析(Hierachical C1uster Analysis)是在样品距离的基础上,定义类与类之间的距离,首先将个样品自成一类,然后每次将具有最小距离
22、的两类合并,合并后重新计算类与类之间的距离,这个过程一直继续到所有样品归为一类为止,并把这个过程做成一个聚类谱系图。这种方法即系统聚类分析。 系统聚类分析的基本思想是系统聚类分析的基本思想是: : 把把n n个样品看成个样品看成p p维(维(p p个指标)空间的点,而把每个变量看成个指标)空间的点,而把每个变量看成p p维维空间的坐标轴,根据空间上点与点的距离来进行空间的坐标轴,根据空间上点与点的距离来进行分类。分类。 系统聚类分析的具体方法是系统聚类分析的具体方法是: : 将将n n个样品自成一个样品自成一类,先计算类,先计算 n(n-1)/2n(n-1)/2个相似性测度或距离个相似性测度或
23、距离, ,并且并且把具有最小测度的两个样品合并成两个元素的类,把具有最小测度的两个样品合并成两个元素的类,然后按照某种聚类方法计算这个类和其余然后按照某种聚类方法计算这个类和其余(n-2)(n-2)个样品之间的距离,这样一直持续下去,并类过个样品之间的距离,这样一直持续下去,并类过程中,每一步所做的并类(样品与样品,样品与程中,每一步所做的并类(样品与样品,样品与类、类与类)都要使测度在系统中保持最小,每类、类与类)都要使测度在系统中保持最小,每次减少一类,直到所有样品都归为一类为止。次减少一类,直到所有样品都归为一类为止。 (二)系统聚类分析的一般步骤(二)系统聚类分析的一般步骤 1 1、对
24、数据进行变换处理;、对数据进行变换处理; 2 2、计算各样品之间的距离,并将距离最近的、计算各样品之间的距离,并将距离最近的两个样品合并成一类;两个样品合并成一类; 3 3、选择并计算类与类之间的距离,并将距离、选择并计算类与类之间的距离,并将距离最近的两类合并,如果类的个数大于最近的两类合并,如果类的个数大于1 1,则继续,则继续并类,直至所有样品归为一类为止;并类,直至所有样品归为一类为止; 4 4、最后绘制系统聚类谱系图、最后绘制系统聚类谱系图 ,按不同的分类,按不同的分类标准或不同的分类原则,得出不同的分类结果;标准或不同的分类原则,得出不同的分类结果;常用系统聚类分析方法常用系统聚类
25、分析方法 进行聚类分析时,由于对类与类之间的距进行聚类分析时,由于对类与类之间的距离的定义和理解不同,并类的过程中又会产生离的定义和理解不同,并类的过程中又会产生不同的聚类方法。常用的系统聚类方法有不同的聚类方法。常用的系统聚类方法有8 8种。种。即最短距离法、最长距离法、中间距离法、重即最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法、离心法、类平均法、可变类平均法、可变法、离差平方和法等。尽管系统聚类分析方法很多,差平方和法等。尽管系统聚类分析方法很多,但每种方法的归类步骤基本是一样的,所不同但每种方法的归类步骤基本是一样的,所不同的主要是对类与类之间的距离的定义
26、不同。的主要是对类与类之间的距离的定义不同。 用最短距离法的聚类主要步骤如下:用最短距离法的聚类主要步骤如下:(二)最长距离法(二)最长距离法 最长距离法与最短距离法在并类步骤上最长距离法与最短距离法在并类步骤上是完全一致的,而是在定义类与类之间的距是完全一致的,而是在定义类与类之间的距离是相反的,类与类之间的距离定义为两类离是相反的,类与类之间的距离定义为两类之间所有样品间距离最大者,之间所有样品间距离最大者,(三)中间距离法(三)中间距离法(GowerGower,19661966年)年) 该法是在定义类与类之间的距离时,既不采用两该法是在定义类与类之间的距离时,既不采用两类样品之间的最近距
27、离,也不采用两类样品之间类样品之间的最近距离,也不采用两类样品之间最远距离,而是采用介于两者之间的中间距离,最远距离,而是采用介于两者之间的中间距离, 具体分类过程与前面最短和最长距离分类方法步骤相同,只是在定具体分类过程与前面最短和最长距离分类方法步骤相同,只是在定义的距离为中间距离。义的距离为中间距离。 (四)重心法(四)重心法 以上三种方法在定义类与类之间距离以上三种方法在定义类与类之间距离时,没有考虑每一类所包含的样品数。因时,没有考虑每一类所包含的样品数。因此,在定义类与类的距离时,把每一类中此,在定义类与类的距离时,把每一类中所包括的样品数目也考虑进去,把两个类所包括的样品数目也考
28、虑进去,把两个类重心之间的距离定义为类与类的距离,用重心之间的距离定义为类与类的距离,用这种距离分类的方法就称为重心法。这种距离分类的方法就称为重心法。 所谓每一类的重心就是该类样品的均所谓每一类的重心就是该类样品的均值。其中单个样品的重心就是它本身,两值。其中单个样品的重心就是它本身,两个样品的类的重心就是两点连线的中点。个样品的类的重心就是两点连线的中点。 重心法的归类步骤与以上三种方法基本一样,所不重心法的归类步骤与以上三种方法基本一样,所不同的是每合并一次类,就要重新计算一次新类的重心以同的是每合并一次类,就要重新计算一次新类的重心以及与与其他各类的距离。及与与其他各类的距离。 (五)
29、类平均法(五)类平均法 该方法定义类与类的距离时,不仅把每一类中所包括的样品数目该方法定义类与类的距离时,不仅把每一类中所包括的样品数目考虑进来,而且把各样品的信息都充分地考虑进来,而把两个类之考虑进来,而且把各样品的信息都充分地考虑进来,而把两个类之间的距离平方定义为两类元素两两之间距离平方的平均。间的距离平方定义为两类元素两两之间距离平方的平均。(六)可变类平均法(六)可变类平均法(七)可变法(七)可变法(八)离差平方和法(八)离差平方和法(WardWard法)法) 基本思想是,基于方差分析的思想,如果类分得合基本思想是,基于方差分析的思想,如果类分得合理,则同类样品之间离差平方和应当较小
30、,类与类之间理,则同类样品之间离差平方和应当较小,类与类之间的离差平方和应当较大。的离差平方和应当较大。 WardWard方法的基本思想是将两类合并后所增加的离差平方方法的基本思想是将两类合并后所增加的离差平方和看成类之间的距离,先将和看成类之间的距离,先将n n个样品各自成一类,然后每个样品各自成一类,然后每次缩小一类,每缩小一次离差平方和就会增加,选择使次缩小一类,每缩小一次离差平方和就会增加,选择使S S增加最小的两类合并,直到所有的样品归为一类为止。增加最小的两类合并,直到所有的样品归为一类为止。 实际应用中,离差平方和法应用比较广泛,分类效果比实际应用中,离差平方和法应用比较广泛,分
31、类效果比较好。离差平方和法要求样品之间的距离必须是欧氏距较好。离差平方和法要求样品之间的距离必须是欧氏距离。离。系统聚类分析方法的统一公式系统聚类分析方法的统一公式 由于上述聚类方法的合并类原则和步骤是完全一样由于上述聚类方法的合并类原则和步骤是完全一样的,所不同的是类与类之间的距离公式有不同的定义,的,所不同的是类与类之间的距离公式有不同的定义,所以可得到不同的递推公式。所以可得到不同的递推公式。19691969年维希特提出了统一年维希特提出了统一的公式,这为编制统一的计算机程序提供了极大的方便的公式,这为编制统一的计算机程序提供了极大的方便性。具体公式为:性。具体公式为:系统聚类分析方法的
32、性质系统聚类分析方法的性质 1 1、关于并类时距离的单调性、关于并类时距离的单调性 设设 是系统聚类法中第次并类时的距是系统聚类法中第次并类时的距离,如果离,如果 则称并类距离具有单调则称并类距离具有单调性。经过证明最短距离法、最长距离法、性。经过证明最短距离法、最长距离法、类平均法、离差平方和法、可变法和可变类平均法、离差平方和法、可变法和可变类平均法都具有单调性,只有重心法和中类平均法都具有单调性,只有重心法和中间距离法不具有单调性。具有单调性画出间距离法不具有单调性。具有单调性画出的聚类图符合系统聚类的思想,先并类的的聚类图符合系统聚类的思想,先并类的类关系较近,后并类的类关系较远。类关
33、系较近,后并类的类关系较远。 2 2、关于两种聚类方法之间距离矩阵的比较:、关于两种聚类方法之间距离矩阵的比较: 空间扩张、空间收缩空间扩张、空间收缩 由于作系统聚类图的时候,横坐标(并类距由于作系统聚类图的时候,横坐标(并类距离)的范围太小,对区分类的灵敏度就差,所以,离)的范围太小,对区分类的灵敏度就差,所以,也即太浓缩的聚类方法不够灵活,但太扩张的方也即太浓缩的聚类方法不够灵活,但太扩张的方法对分类不利。经过证明,都与类平均法比较,法对分类不利。经过证明,都与类平均法比较,结果是最短距离法、重心法使空间浓缩,最长距结果是最短距离法、重心法使空间浓缩,最长距离法、可变平均法、离差平方和法使
34、空间扩张,离法、可变平均法、离差平方和法使空间扩张,而类平均法比较适中,与其他方法比较,既不太而类平均法比较适中,与其他方法比较,既不太浓缩也不太夸张。浓缩也不太夸张。 一般作聚类图时横坐标一般作聚类图时横坐标( (并类距离并类距离) )的范围太的范围太小时对区别类的灵敏度就差些,也就是说太浓缩小时对区别类的灵敏度就差些,也就是说太浓缩的方法不够灵敏,但太扩张的方法对分类不利。的方法不够灵敏,但太扩张的方法对分类不利。和类平均法相比最短距离法、重心法使空间浓缩。和类平均法相比最短距离法、重心法使空间浓缩。最长距离法、可变类平均法、离差平方和法使空最长距离法、可变类平均法、离差平方和法使空间扩散
35、。而类平均法比较适中,与其它方法相比。间扩散。而类平均法比较适中,与其它方法相比。既不太浓缩也不太扩张。既不太浓缩也不太扩张。 型聚类分析时典型变量的选择型聚类分析时典型变量的选择与剩余信息的剔除与剩余信息的剔除 进行型聚类分析时,必须选择能够恰当反进行型聚类分析时,必须选择能够恰当反映样本的变量,选择对聚类效果较为显著的变量,映样本的变量,选择对聚类效果较为显著的变量,剔除对聚类分析效果影响较小的变量。选择变量剔除对聚类分析效果影响较小的变量。选择变量的一般原则是:选择对所研究问题密切相关的变的一般原则是:选择对所研究问题密切相关的变量;选择具有较强分辨能力的变量。具体选择变量;选择具有较强
36、分辨能力的变量。具体选择变量的方法有:量的方法有: 1 1、人为地挑选变量;、人为地挑选变量; 2 2、先用型聚类分析挑选主要变量,然后再进、先用型聚类分析挑选主要变量,然后再进行型聚类分析;行型聚类分析; 3 3、先进行主成分分析挑选主要变量,然后再进、先进行主成分分析挑选主要变量,然后再进行型聚类分析;行型聚类分析;谱系分类的确定谱系分类的确定 经过系统聚类法处理之后,得到聚类谱系图或叫聚类经过系统聚类法处理之后,得到聚类谱系图或叫聚类树,聚类树或谱系图只反映变量之间或样品之间的亲疏树,聚类树或谱系图只反映变量之间或样品之间的亲疏关系,它本身并不是分类,需要规定一个临界相似性尺关系,它本身
37、并不是分类,需要规定一个临界相似性尺度,用以分割谱系图而得到样品或变量的分类。对于如度,用以分割谱系图而得到样品或变量的分类。对于如何分类,何分类,Deminren(1972)Deminren(1972)提出了根据研究的目的来确定提出了根据研究的目的来确定适当的分类方法,并提出了一些根据谱系图来分类的准适当的分类方法,并提出了一些根据谱系图来分类的准则:则: 准则准则A A;任何类都必须在邻近各类中是突出的,即各;任何类都必须在邻近各类中是突出的,即各类重心之间距离必须极大;类重心之间距离必须极大; 准则准则B B,确定的类中,各类所包含的元素都不要过分,确定的类中,各类所包含的元素都不要过分
38、地多;地多; 准则准则C C:分类的数目必须符合实用目的;:分类的数目必须符合实用目的; 准则准则D D;若采用几种不同的聚类方法处理,则在各自;若采用几种不同的聚类方法处理,则在各自的聚类图中应发现相同的类;的聚类图中应发现相同的类;第三节第三节 动态聚类法动态聚类法 一、动态聚类法基本思想一、动态聚类法基本思想 二、动态聚类分析的基本原理二、动态聚类分析的基本原理 三、动态聚类分析主要计算步骤三、动态聚类分析主要计算步骤 四、动态聚类分析在四、动态聚类分析在Excel下的实现下的实现 动态聚类法基本思想动态聚类法基本思想 系统聚类分析需要计算距离矩阵,当系统聚类分析需要计算距离矩阵,当样本
39、容量很大时,距离矩阵的计算要占据样本容量很大时,距离矩阵的计算要占据较大的计算机内存空间和需要较长的计算较大的计算机内存空间和需要较长的计算时间。为了改进上述不足,一种想法就是时间。为了改进上述不足,一种想法就是先粗略的分下类,然后再按某种规则进行先粗略的分下类,然后再按某种规则进行修正,直到将样本分类分得比较合理为止。修正,直到将样本分类分得比较合理为止。基于此思想产生了动态聚类法,也称逐步基于此思想产生了动态聚类法,也称逐步聚类或快速聚类法。聚类或快速聚类法。 动态聚类法基本思想是动态聚类法基本思想是: 开始按照一定的方法选取一批凝聚点,然后开始按照一定的方法选取一批凝聚点,然后让样品向最
40、近的凝聚点靠近形成初始分类,得到让样品向最近的凝聚点靠近形成初始分类,得到初始分类。然而,初始分类不一定合理,需按最初始分类。然而,初始分类不一定合理,需按最近距离的原则进行修改不合理的分类,直到分类近距离的原则进行修改不合理的分类,直到分类比较合理为止,这样形成一个最终的分类结果。比较合理为止,这样形成一个最终的分类结果。 动态聚类法方法具有计算简单的特点,在计动态聚类法方法具有计算简单的特点,在计算机的处理过程中,不需要存储距离矩阵,占据算机的处理过程中,不需要存储距离矩阵,占据较小的内存空间,在很大程度上减少了计算机地较小的内存空间,在很大程度上减少了计算机地工作量,因而更适合于对具有较
41、大样品量的样本工作量,因而更适合于对具有较大样品量的样本进行聚类分析。进行聚类分析。 动态聚类法的聚类过程,可由图动态聚类法的聚类过程,可由图5.95.9表示。表示。 图图5.9 5.9 动态聚类过程图动态聚类过程图动态聚类分析的基本原理动态聚类分析的基本原理 (一)选择凝聚点(一)选择凝聚点 凝聚点就是一批有代表性的点,是待形成类的中心。凝聚点的选择直接决定初始分类,对分类结果也有很大影响,通常选择凝聚点的方法为: 1凭经验选择凝聚点。例如,对于具有经验的研究者,当拿到一批样品数据之后,可对于样品进行大体上的分类,分成几类。这时可以从每一类中选择一个有代表性的样品作为凝聚点来进行聚类分析。该
42、方法虽然具有一定主观性,但在实际应用中具有方便、简单等特点。 2根据数据情况将全部样品人为地凭经验分成类,之后计算每一类的重心,将这些重心作为凝聚点。这种方法比较常用,简单、适用。 3用密度法选择凝聚点。这里的密度是指以每个样品为球心,以某个正数d作为半径的形成一个球,此时落在这个球内的样品个数则称为以该样品为中心的空间中点的密度,称为样品点密度或简称为密度。当所有样品点的密度都计算好以后,首先选择密度较大的样品点作为第一凝聚点,并且人为地确定一个正数D,然后选出密度次之的样品点,并且它与第一凝聚点的距离大于D,则将其作为第二凝聚点,否则该样品点被取消。这样,按密度大小依次挑选凝聚点,直至全部
43、样品考查完毕为止,确定合理的凝聚点。 4. 用前k个样品作为凝聚点。 (二)初始分类(二)初始分类 有了凝聚点以后接下来就要进行初始分类,同样获得初始分类也有不同的方法。需要说明的是,初始分类不一定非通过凝聚点确定不可,也可以依据其他原则确定。下面介绍几种确定初始分类的方法。 1、人为地分类,凭经验将样品进行初步分类。 2、选择一批凝聚点以后,每个样品按与其距离最近的凝聚点归类。 3、选择一批凝聚点后,每个凝聚点自成一类,将样品依次归入与其距离最近的凝聚点的那一类,并立即重新计算该类的重心,以代替原来的凝聚点,再计算下一个样品的归类,直至所有的样品都划到相应的类中为止。(三)分类函数(三)分类
44、函数 按照修改分类的原则不同,动态聚类方法有按照修改分类的原则不同,动态聚类方法有按批修改法、逐个修改法、等混合法等。这里主按批修改法、逐个修改法、等混合法等。这里主要介绍逐步聚类法中按批修改法。所谓按批修改要介绍逐步聚类法中按批修改法。所谓按批修改法,其修改分类的原则是,在按批修改法中,每法,其修改分类的原则是,在按批修改法中,每一步修改都将是对应的分类函数缩小,趋于合理,一步修改都将是对应的分类函数缩小,趋于合理,并且分类函数最终趋于定值,即计算过程是收敛并且分类函数最终趋于定值,即计算过程是收敛的。按批修改法中一个重要的概念就是分类函数。的。按批修改法中一个重要的概念就是分类函数。动态聚
45、类分析主要计算步骤动态聚类分析主要计算步骤 1 1、首先将原始数据进行标准化处理。、首先将原始数据进行标准化处理。 2 2、选择预定数目的凝聚点进行初始分类。、选择预定数目的凝聚点进行初始分类。 3 3、计算每一类的重心,将重心作为凝聚点,然后计算每、计算每一类的重心,将重心作为凝聚点,然后计算每一个样品与重心凝聚点的距离,并将它归入与凝聚点距一个样品与重心凝聚点的距离,并将它归入与凝聚点距离最近的那一类别。每归入离最近的那一类别。每归入个样品之后,重新计算该个样品之后,重新计算该类的重心,并用新计算的重心替代原凝聚点。如果所有类的重心,并用新计算的重心替代原凝聚点。如果所有的新凝聚点与前一次
46、的老凝聚点重合,则分类过程终止,的新凝聚点与前一次的老凝聚点重合,则分类过程终止,否则重复上述步骤,直至分类过程终止。否则重复上述步骤,直至分类过程终止。 步骤步骤3 3的重复过程就是迭代过程,每一次迭代都是对的重复过程就是迭代过程,每一次迭代都是对应的分类函数缩小,当两次的重心完全相同时,计算过应的分类函数缩小,当两次的重心完全相同时,计算过程收敛,此时分类函数也趋于定值。按批修改法的最终程收敛,此时分类函数也趋于定值。按批修改法的最终分类结果受到初始分类的影响,这是动态聚类法的一个分类结果受到初始分类的影响,这是动态聚类法的一个缺点。缺点。第四节第四节 模糊聚类分析模糊聚类分析 一、模糊聚
47、类分析的基本思想一、模糊聚类分析的基本思想 二、模糊聚类分析的基本原理二、模糊聚类分析的基本原理 三、模糊聚类分析的主要步骤三、模糊聚类分析的主要步骤 四、模糊聚类分析在四、模糊聚类分析在Excel下的实现下的实现模糊聚类分析的基本思想模糊聚类分析的基本思想 系统聚类分析、动态聚类分析方法都是一种系统聚类分析、动态聚类分析方法都是一种硬划分,它把每个待归类的样品严格地划分到某硬划分,它把每个待归类的样品严格地划分到某类中去,具有类中去,具有“非此即彼非此即彼”的性质,因此这种类的性质,因此这种类别划分的界限是分明的。然而在实际经济社会中别划分的界限是分明的。然而在实际经济社会中大多数对象并没有
48、严格的属性,它们在分类中存大多数对象并没有严格的属性,它们在分类中存在着模糊性,具有在着模糊性,具有“亦此亦彼亦此亦彼”的性质,因此对的性质,因此对其应进行一种软划分,即模糊聚类分析的方法。其应进行一种软划分,即模糊聚类分析的方法。 模糊聚类法是将模糊集的概念用到聚类分析模糊聚类法是将模糊集的概念用到聚类分析中所产生的一种聚类方法。它是根据研究对象本中所产生的一种聚类方法。它是根据研究对象本身的属性而构造一个模糊矩阵,在此基础上根据身的属性而构造一个模糊矩阵,在此基础上根据一定的隶属度来确定其分类关系,根据分类关系一定的隶属度来确定其分类关系,根据分类关系得到相应的聚类结果。得到相应的聚类结果
49、。模糊聚类分析的基本原理模糊聚类分析的基本原理 (一)基本概念(一)基本概念 1 1、普通集合与特征函数、普通集合与特征函数 (二)模糊集合与隶属函数二)模糊集合与隶属函数 在现实生活中,当我们要了解某一地区的经济发展水平是否达到某一标准值时,用特征函数简单描述显得有些不足。这时在模糊数学中把它推广到0,1闭区间,即用0到1之间的一个数值去度量它达到某一水平的程度,则这个数称为隶属度。当用函数来表示隶属度的变化规律时就叫做隶属函数,即 模糊集转换为普通集的方法模糊集转换为普通集的方法 模糊集的运算模糊集的运算 (三)普通矩阵与模糊矩阵(三)普通矩阵与模糊矩阵 若一个矩阵的元素的取值在0,1区间内,则称该矩阵为模糊矩阵。同普通矩阵一样,模糊矩阵也有模糊单位阵,模糊零矩阵和元素皆
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 跨境电商海外仓服务承诺协议2025年
- 2025 小学六年级语文上册近义词细微差别课件
- 考研培训合同2025年补充条款
- 2025年AI智能客服系统开发合同协议
- 居家养老陪护合同2025年服务标准
- 深度解析(2026)《GBT 39366-2020皮革 色牢度试验 耐摩擦色牢度》
- 乐山护理面试题及答案
- 微创护士面试题及答案
- 深度解析(2026)《GBT 34256-2017农产品购销基本信息描述 热带和亚热带水果类》
- 深度解析(2026)《GBT 34220-2017耐火材料 高温抗拉强度试验方法》
- 智慧树知到《艺术与审美(北京大学)》期末考试附答案
- 绿色建材生产合作协议
- 2024-2025学年上海市长宁区初三一模语文试卷(含答案)
- 英语丨安徽省皖江名校联盟2025届高三12月联考英语试卷及答案
- 湖南省长沙市长2024年七年级上学期数学期末考试试卷【附答案】
- 钢管支撑强度及稳定性验算
- 《企业内部控制流程手册》
- DB 37T5061-2016 住宅小区供配电设施建设标准
- 全国医疗服务项目技术规范
- 六年级语文上册古诗和文言文默写
- 人教版六年级数学下册全册教案
评论
0/150
提交评论