聚类分析模型_第1页
聚类分析模型_第2页
聚类分析模型_第3页
聚类分析模型_第4页
聚类分析模型_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 聚类分析模型聚类分析模型 聚类分析研究一组多维样品的分类问题。聚类分析研究一组多维样品的分类问题。 但在分类之前,对类的个数、类的属性并不清楚,只是但在分类之前,对类的个数、类的属性并不清楚,只是希望通过样品间的相似、相近或相互关系的密切程度等较为希望通过样品间的相似、相近或相互关系的密切程度等较为模糊的概念将它们加以适当的归类。模糊的概念将它们加以适当的归类。 首先需要引入一个适当的规则来度量样品间的相似、相首先需要引入一个适当的规则来度量样品间的相似、相近或相关的程度。近或相关的程度。 “距离”是一个合适的选择。但这里的“距离”并不局限“距离”是一个合适的选择。但这里的“距离”并不局限于

2、传统意义上的欧氏距离,只要能在一定意义上刻划出样品于传统意义上的欧氏距离,只要能在一定意义上刻划出样品间的相似、相近或相互关系密切程度的量都可称为距离,因间的相似、相近或相互关系密切程度的量都可称为距离,因此距离的定义有很大的灵活性。此距离的定义有很大的灵活性。 下面的三条原则是任何一种合理的距离定义应满足的:下面的三条原则是任何一种合理的距离定义应满足的: 用用YXd,表示按某种方式定义的样品表示按某种方式定义的样品X与与Y间的距间的距离,则离,则 1 1 非负性非负性 0,YXd 且且YXYXd 0, 2 2 对称性对称性 XYdYXd, 3 3 三角不等式:对任意三个样品三角不等式:对任

3、意三个样品X、Y、Z,有,有ZYdYXdZXd, 有时为了某种特殊的需要而定义的距离可能不满足上有时为了某种特殊的需要而定义的距离可能不满足上面的三角不等式,特称为广义距离,在聚类分析中也会用面的三角不等式,特称为广义距离,在聚类分析中也会用到。到。 常用的距离有以下几种:常用的距离有以下几种:设设pxxX,1,pyyY,1是两个是两个p维样品,维样品, 1 1 绝对距离绝对距离 piiiyxYXd1, 2 2 欧氏距离欧氏距离 2112,piiiyxYXd 3 3 契比雪夫距离契比雪夫距离 iipiyxYXd1max, 4 4 闵可夫斯基距离闵可夫斯基距离 qpiqiiyxYXd11,,0q

4、 5 5 马氏距离马氏距离 211,YXYXYXd,其中,其中是所有样品的样本协差阵。是所有样品的样本协差阵。 6 6 兰氏兰氏(Lance-William)(Lance-William)距离距离 piiiiiyxyxpYXd11,, (适用于样品各分量皆非负的情形)(适用于样品各分量皆非负的情形)在在对对一一个个实实际际分分类类问问题题选选定定了了一一种种最最能能刻刻划划样样品品间间相相似似、相相近近程程度度的的距距离离(也也称称分分类类统统计计量量)以以后后,接接下下来来就就是是制制定定分分类类规规则则。 系系统统聚聚类类法法的的基基本本思思想想是是:先先将将n个个样样品品各各自自看看成成

5、一一类类,共共有有n个个类类。 然然后后计计算算类类与与类类间间的的距距离离, 选选择择距距离离最最小小的的两两类类合合并并成成一一个个新新类类, 使使总总类类数数减减少少为为1n。 接接着着再再计计算算这这1n类类两两两两间间的的距距离离,从从中中找找出出距距离离最最近近的的两两类类合合并并,总总类类数数又又减减少少一一个个,剩剩下下2n个个类类。照照此此下下去去,每每合合并并一一次次,减减少少一一类类,直直至至所所以以样样品品都都合合并并成成一一类类为为止止。 当然将全部样品合并成一类并不是我们当然将全部样品合并成一类并不是我们的目的,我们的目的在于,通过上述逐渐的目的,我们的目的在于,通

6、过上述逐渐并类的过程,我们有可能找到最佳的分类并类的过程,我们有可能找到最佳的分类方案。具体讲,通过上述并类过程,我们方案。具体讲,通过上述并类过程,我们可以根据聚类的先后以及并类时两类间的可以根据聚类的先后以及并类时两类间的距离,画出能直观反映各样品间相近和疏距离,画出能直观反映各样品间相近和疏远程度的聚类图远程度的聚类图(也称谱系图) 。根据这(也称谱系图) 。根据这张聚类图有可能找到最合适的分类方案。张聚类图有可能找到最合适的分类方案。为为了了实实现现上上述述思思想想,还还要要考考虑虑类类与与类类间间的的距距离离如如何何定定义义。 在在上上述述聚聚类类过过程程的的第第一一步步,由由于于每

7、每一一类类中中的的样样品品都都只只有有一一个个,因因此此可可以以用用样样品品间间的的距距离离来来定定义义类类间间的的距距离离。可可是是第第一一次次并并类类以以后后,某某些些类类中中所所包包含含的的样样品品数数将将多多于于一一个个,在在这这种种情情况况下下,如如何何合合理理的的定定义义类类间间的的距距离离就就是是一一个个必必须须解解决决的的问问题题。事事实实上上,用用不不同同的的方方式式定定义义类类间间的的距距离离就就随随之之产产生生了了不不同同的的系系统统聚聚类类法法。 4. 4. 重心法重心法每一类都有一个重心每一类都有一个重心(即该类样品的均值(即该类样品的均值点) ,将类与类间的距离定义

8、为它们重心间的距点) ,将类与类间的距离定义为它们重心间的距离。记离。记pG、qG的重心分别为的重心分别为px、qx则则qpxxpqdD, 4 4类平均法类平均法将两类距离的平方定义为两类中的样品两两将两类距离的平方定义为两类中的样品两两间距离平方的均值,即间距离平方的均值,即 piqjGxGxijqppqdNND221其中其中pN、qN分别表示类分别表示类pG、qG中样品的个数。中样品的个数。 在合理地选定在合理地选定(或定义)样品间的距离以(或定义)样品间的距离以后,再适当定义类间的距离,就确定了一种聚后,再适当定义类间的距离,就确定了一种聚类规则,接下来就可以按照系统聚类法的一般类规则,

9、接下来就可以按照系统聚类法的一般步骤加以聚类了。步骤加以聚类了。 下面通过一个简单的例子来具体说明聚类下面通过一个简单的例子来具体说明聚类过程以及聚类图的画法。过程以及聚类图的画法。 例例分分别别测测试试了了 1 10 0 名名运运动动员员的的 3 3 项项指指标标,如如表表所所示示。 (指指标标1v= =肩肩宽宽/ /髋髋宽宽1 10 00 0,指指标标2v= =胸胸厚厚/ /胸胸围围1 10 00 0,指指标标3v= =腿腿长长/ /身身长长1 10 00 0). .样样品品间间的的距距离离取取欧欧氏氏距距离离,类类间间的的距距离离取取最最短短距距离离,聚聚类类分分析析的的过过程程将将通通

10、过过列列表表的的形形式式给给出出。 样样本本数数据据表表:v v1 1v v2 2v v3 3X X1 11 12 25 52 20 04 44 4X X2 21 12 21 11 18 84 43 3X X3 31 12 20 01 17 74 42 2X X4 41 12 24 42 20 04 45 5X X5 51 12 22 21 18 84 43 3X X6 61 12 20 01 19 94 44 4X X7 71 12 21 11 17 74 41 1X X8 81 12 22 21 19 94 43 3X X9 91 12 22 21 17 74 42 2x x1 10 01

11、 12 21 11 19 94 45 5 样样品品间间的的距距离离矩矩阵阵:x x1 1x x2 2x x3 3x x4 4x x5 5x x6 6x x7 7x x8 8x x9 9x x1 10 0X X1 1. .0 00 04 4. .5 58 86 6. .1 16 61 1. .4 41 13 3. .7 74 45 5. .1 10 05 5. .8 83 33 3. .3 32 24 4. .6 69 94 4. .2 24 4X X2 24 4. .5 58 8. .0 00 01 1. .7 73 34 4. .1 12 21 1. .0 00 01 1. .7 73 32

12、 2. .2 24 41 1. .4 41 11 1. .7 73 32 2. .2 24 4X X3 36 6. .1 16 61 1. .7 73 3. .0 00 05 5. .8 83 32 2. .4 45 52 2. .8 83 31 1. .4 41 13 3. .0 00 02 2. .0 00 03 3. .7 74 4X X4 41 1. .4 41 14 4. .1 12 25 5. .8 83 3. .0 00 03 3. .4 46 64 4. .2 24 45 5. .8 83 33 3. .0 00 04 4. .6 69 93 3. .1 16 6X X5 53

13、 3. .7 74 41 1. .0 00 02 2. .4 45 53 3. .4 46 6. .0 00 02 2. .4 45 52 2. .4 45 51 1. .0 00 01 1. .4 41 12 2. .4 45 5X X6 65 5. .1 10 01 1. .7 73 32 2. .8 83 34 4. .2 24 42 2. .4 45 5. .0 00 03 3. .7 74 42 2. .2 24 43 3. .4 46 61 1. .4 41 1X X7 75 5. .8 83 32 2. .2 24 41 1. .4 41 15 5. .8 83 32 2. .4

14、 45 53 3. .7 74 4. .0 00 03 3. .0 00 01 1. .4 41 14 4. .4 47 7X X8 83 3. .3 32 21 1. .4 41 13 3. .0 00 03 3. .0 00 01 1. .0 00 02 2. .2 24 43 3. .0 00 0. .0 00 02 2. .2 24 42 2. .2 24 4X X9 94 4. .6 69 91 1. .7 73 32 2. .0 00 04 4. .6 69 91 1. .4 41 13 3. .4 46 61 1. .4 41 12 2. .2 24 4. .0 00 03 3.

15、 .7 74 4x x1 10 04 4. .2 24 42 2. .2 24 43 3. .7 74 43 3. .1 16 62 2. .4 45 51 1. .4 41 14 4. .4 47 72 2. .2 24 43 3. .7 74 4. .0 00 0聚类聚类顺序顺序类间类间距离距离1 11.0001.000 x2x2x5x52 21.0001.000 x2x2x5x5x8x83 31.4141.414x1x1x4x44 41.4141.414x2x2x5x5x8x8x9x95 51.4141.414x2x2x5x5x8x8x9x9x7x76 61.4141.414x2x2x5x5x8x8x9x9x7x7x3x37 71.4141.414x6x6x10 x108 81.7321.732x2x2x5x5x8x8x9x9x7x7x3x3x6x6x10 x109 93.0003.000 x1x1x4x4x2x2x5x5x8x8x9x9x7x7x3x3x6x6x10 x10最短距离法聚类图类间距离0.51.01.52.02.53.03.5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论