聚类分析 第一讲_第1页
聚类分析 第一讲_第2页
聚类分析 第一讲_第3页
聚类分析 第一讲_第4页
聚类分析 第一讲_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 第六章 聚类分析v聚类分析是定量研究分类问题的一种多元统计方法。所谓类,就是指相似元素的集合v聚类分析的研究目的 把相似的东西归成类,根据相似的程度将研究目标进行分类。1 什么是聚类分析什么是聚类分析Cluster AnalysisX186420-2-4-6X286420-2-4-6212019181716151413121110987654321X186420-2-4-6X286420-2-4-62120191817161514131211109876543211ijd X186420-2-4-6X286420-2-4-62120191817161514131211109876543212

2、ijd X186420-2-4-6X286420-2-4-62120191817161514131211109876543212ijd v聚类分析的研究对象vR型分析-对变量进行分类(相似系数)vQ型分析-对样品进行分类(距离)v聚类分析研究的主要内容n如何度量事物之间的相似性 ?n怎样构造聚类的具体方法以达到分类的目的? 分类统计量 数据分类(计量尺度):分类数据、顺序数据和数值型数据v一一. .数据资料矩阵的标准化处理数据资料矩阵的标准化处理变量分类 间隔尺度变量有序尺度变量名义尺度变量 本章重点介绍间隔尺度变量本章重点介绍间隔尺度变量的聚类分析方法的聚类分析方法 m个指标X1,X2,X3

3、,Xm,数据资料矩阵为 1111mnnmxxxxX1, , Xm1nm个指标n次观测距离和数量次序2 距离和相似系数距离和相似系数 例例 对10位应聘者做智能检验。3项指标X、Y和Z分别表示数学推理能力、空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行分类。应聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424我们的问题是如何来选择样品间相似性的测度指标,如何将相似的类连接起来?一、相似性的测度一、相似性的测度v距离距离:将每一个样品看作p 维空间的一个点,并用某种度量测量

4、点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。v相似系数相似系数:测度变量之间的亲疏程度距离是用来描述样品间亲疏程度的分类统计量v二二. 距离和相似系数距离和相似系数 v1距离:距离:此处我们将每个样品看成是m维空间中的一个点,并在空间中定义距离。 根据样本间距离的远近将样本进行划分。v聚类分析中常用的距离公式:聚类分析中常用的距离公式:v1) 闵氏(Minkowski )距离11mqqijikjkkdxxq=1时,绝对值距离 1mijikjkkdxxq=2时,欧氏(Euclidean )距离 21()mijikjkkdxx闵氏距离闵氏距离适用于一般p维欧氏空间。缺点缺点是

5、没有考虑变量之间的相关性。距离是用来描述样品间亲疏程度的分类统计量v2) 马氏(Mahalanobis)距离21()()()TijijijdMxxsxx11()()1nijkiikjjksxxxxns=(sij) ixjx分别为第i号样品和第j号样品各指标的均值 马氏距离适用于衡量来自正态总体的样品点之间接近程度的距离; 优点优点:马氏距离既排除了各指标间的相关性干扰,又消除了各指标的量纲1) Pearson相关系数12211()()()()ntiitjjtijnntiitjjttxxxxrxxxx两个变量相似系数的绝对值越接近于1,说明这两个变量的关系越密切,性质越接近。相似系数绝对值大的变

6、量归为一类,相似系数绝对值小的变量归属于不同的类。2相似系数相似系数相似系数相似系数是用来描述指标间亲疏程度的分类统计量。 正好是这两个向量的夹角余弦。若夹角余弦越大,则夹角越小,则两个变量越相似。相关系数实际上是对数据做标准化处理后的夹角余弦。2) 夹角余弦12211cosntitjtijijnntitjttx xCxx若将第i个变量的n个观测值(x1i,x2i,xni)T和第j个变量的n个观测值(x1j,x2j,xnj)T看成n维空间中的两个向量,则 1.用距离距离作为亲疏程度的度量值时,距离越小,样品之间的关联性越大;用相似系数相似系数作为亲疏程度的度量值时,相似系数的绝对值越大,意味着

7、指标之间的关联性越大。2.有时样品样品之间也可以用相似系数来描述它们的亲疏程度,变量之间也可以用距离来描述它们的亲疏程度。3.聚类分析时到底选择哪一种分类统计量,有时并无最优或唯一选择,通常也可尝试性地多选择几个不同的度量值进行聚类,通过比较分析确定。几点说明:几点说明:123452018104471055325.236.328.911.5171x2x3x3124224)(lllxxd222)5 .113 .36()510()418(欧氏距离欧氏距离切比雪夫距离切比雪夫距离lllxxd423124max8 .245 .113 .3624d计算闵氏距离有以下两个缺点:闵氏距离有以下两个缺点: 闵

8、氏距离的数值与指标的量纲量纲有关。当各变量的测量值相差悬殊时,常发生“大数吃小数”的现象,为消除量纲的影响,通常先将每个变量进行标准化。 闵氏距离的定义没有考虑各个变量之间相关性的影响。年龄收入家庭人口数甲3030001乙4032003222) 31 ()32003000()4030(d(2) 标准化的欧氏距离标准化的欧氏距离npnnppxxxxxxxxx212222111211设原始数据为ijd22222221111.ppjpipjijisxxsxxsxx222222211111.11jppippjijixxsxxsxxspllljlilsxx12 pppnpnnppppppppSxxSxx

9、SxxSxxSxxSxxSxxSxxSxx222211112222221112112221211111 (3)马氏距离马氏距离 由 印 度 著 名 统 计 学 家 马 哈 拉 诺 比 斯(Mahalanobis)所定义的一种距离,其计算公式为: ijd21221112211,pjpijijipjpijijixxxxxxSxxxxxx =211jijixxSxxn马氏距离又称为广义欧氏距离。n马氏距离考虑了观测变量之间的相关性。如果假定各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,此时马氏距离就是标准化的欧氏距离。n马氏距离不受指标量纲量纲及指标间指标间相关性相关性的影响 二、变量间相似

10、系数的算法二、变量间相似系数的算法yyxxxyninikikjijkiknijijjkssxxxxxxxxr2111221变量jx和kx的相关系数: 2111221 niniikijniikijjkxxxxc(2 2)夹角余弦)夹角余弦(1 1)相关系数)相关系数v系统聚类法系统聚类法 直观,易懂。v快速聚类法(动态聚类法)快速聚类法(动态聚类法) 快速,动态。v有序聚类法有序聚类法 保序(时间顺序或大小顺序)。各种聚类方法各种聚类方法3 系统聚类法系统聚类法系统聚类法的基本思想系统聚类法的基本思想 先将n个样品各自看成一类,然后规定样品之间的“距离”和类与类之间的距离。选择距距离最近离最近的

11、两类合并成一个新类,计算新类和其它类(各当前类)的距离,再将距离最近的两类合并。这样,每次合并减少一类,直至所有直至所有的样品都归成一类为止的样品都归成一类为止。 系统聚类法的基本步骤:系统聚类法的基本步骤:1. 计算n个样品两两间的距离 ,记作D= 。2. 构造n个类,每个类只包含一个样品。3. 合并距离最近合并距离最近的两类为一新类。4. 计算新类与各当前类的距离计算新类与各当前类的距离。5. 重复步骤3、4,合并距离最近的两类为新类,直到所有的类并为一类为止。6. 画聚类谱系图。7. 决定类的个数和类。ijd ijd1. 最短距离法2. 最长距离法3. 中间距离法4. 重心法5. 类平均

12、法 6.6. 离差平方和法(离差平方和法(WardWard法法)系统聚类方法:系统聚类方法: 上述 6 种方法归类的基本步骤一致基本步骤一致,只是类与类之间的距离类与类之间的距离有不同的定义。定义类p与q之间的距离为两类最近样品的距离,即 ijqjpipqdd,minxq1xp2xq2xp1pqdxq3一、最短距离法一、最短距离法qrprkrddd,min设类p与 q合并成一个新类,记为k,则k与任一类r 的距离是pqkr例例 最短距离法最短距离法 设抽取5个样品,每个样品观察2个指标 , :您每月大约喝多少瓶啤酒, :您对“饮酒是人生的快乐”这句话的看法如何?观察数据如下,对这5个样品分类。

13、1x2x12345201810447105531x2x 3.6 10.2 16.12 16.49 9.43 14.87 15.65 6 6.32 2ijdnnijdD)(1.计算5个样品两两之间的距离记为距离矩阵(采用欧氏距离),为最小,245d2. 合并距离最小的两类为新类,按顺序定为第类。5 , 487.1465.15,87.14min,min524262ddd6,min534363ddd12.1649.16,12.16min,min514161ddd3、计算新类与各当前类的距离,得距离矩阵如下:3.6 10.2 16.12 9.43 14.87 643. 9,min231373ddd87

14、.14,min261676ddd6 . 312d 2 , 1为最小, = 6 9 .43 14.87 4、重复步骤2、3,合并距离最近的两类为新类,直到所有的类并为一类为止。 43. 9,min673787ddd 636d6 , 3为最小,=5、6、按聚类的过程画聚类谱系图 45并类距离3127、决定类的个数与类。 观察此图,我们可以把5个样品分为3类, 2 , 1 35 , 4、。43. 966 . 328 ,76, 32, 15 , 4ddddx11x2112d二、最长距离法二、最长距离法定义类p与q之间的距离为两类最远样品的距离,即 ijqjpipqdd,max设类p与 q合并成一个新类

15、,记为k,则k与任一类r 的距离是pqkrqrprkrddd,max 3.6 10.2 16.12 16.49 9.43 14.87 15.65 6 6.32 2ijdnnijdD)(1.计算5个样品两两之间的距离记为距离矩阵(采用欧氏距离),为最小,245d2. 合并距离最小的两类为新类,按顺序定为第类。5 , 4例例 最长距离法最长距离法 65.1565.15,87.14max,max524262ddd32. 6,max534363ddd49.1649.16,12.16max,max514161ddd3、计算新类与各当前类的距离,得距离矩阵如下:3.6 10.2 16.49 9.43 15

16、.65 6.322 .10,max231373ddd49.16,max261676ddd6 . 312d 2 , 1为最小, = 6.32 10 .2 16.494、重复步骤2、3,合并距离最近的两类为新类,直到所有的类并为一类为止。 49.16,max673787ddd 32. 636d6 , 3为最小,=5、6、按聚类的过程画聚类谱系图 45并类距离3127、决定类的个数与类。 观察此图,我们可以把5个样品分为3类, 2 , 1 35 , 4、。49.1632. 66 . 328 ,76, 32, 15 , 4dddd三、中间距离法三、中间距离法定义类与类之间的距离既不采用两类之间最近的距

17、离,也不采用两类之间最远的距离,而是采用介于两者之间的距离,故称为中间距离法。 krdrpqk2222412121pqqrprkrdddd 13 104 260 272 89 221 245 36 40 4ijdnnijdD)(1.计算5个样品两两之间的距离记为距离矩阵(采用欧氏距离),为最小,4245d2. 合并距离最小的两类为新类,按顺序定为第类。5 , 4例例 中间距离法中间距离法 2ijd3、计算新类与各当前类的距离,得距离矩阵如下: 13 104 265 89 232 372654412722126021412121245251241261dddd232441245212212141

18、2121245252242262dddd3744140213621412121245253243263dddd2ijd13212d 2 , 1为最小, = 37 93.25 245.25 4、重复步骤2、3,合并距离最近的两类为新类,直到所有的类并为一类为止。 37236d6 , 3为最小,=5、25.931341892110421412121212223213273dddd25.24513412322126521412121212226216276dddd2ijd160374125.2452125.9321412121236267237287dddd6、按聚类的过程画聚类谱系图 45并类距离

19、3127、决定类的个数与类。 观察此图,我们可以把5个样品分为3类, 2 , 1 35 , 4、。65.1208. 66 . 328 ,76, 32, 15 , 4dddd四、重心法四、重心法(Centroid)11,x y22,xypx和qxqpxxpqdd类与类之间的距离就考虑用重心之间的距离表示。设p与q的重心分别是,则类p和q的距离为qpknnnqqppkkxnxnnx1rkrkkrxxxxd22222pqkqkpqrkqprkpkrdnnnndnndnnd将p和q合并为k,则k类的样品个数为它的重心是rx某一类 r 的重心是,它与新类k的距离是经推导可以得到如下递推公式:pnqn设聚

20、类到某一步,类p与 q分别有样品 、个, 13 104 260 272 89 221 245 36 40 4ijdnnijdD)(1.计算5个样品两两之间的距离记为距离矩阵(采用欧氏距离),为最小,4245d2. 合并距离最小的两类为新类,按顺序定为第类。5 , 42ijd3、计算新类与各当前类的距离,得距离矩阵如下: 13 104 265 89 232 372654412722126021412121245251241261dddd2324412452122121412121245252242262dddd3744140213621412121245253243263dddd2ijd1321

21、2d 2 , 1为最小, = 37 93.25 245.25 4、重复步骤2、3,合并距离最近的两类为新类,直到所有的类并为一类为止。 37236d6 , 3为最小,=5、25.931341892110421412121212223213273dddd25.24513412322126521412121212226216276dddd2ijd36.186379225.2453225.9331923231236267237287dddd6、按聚类的过程画聚类谱系图 45并类距离3127、决定类的个数与类。 观察此图,我们可以把5个样品分为3类, 2 , 1 35 , 4、。65.1308. 66

22、 . 328 ,76, 32, 15 , 4dddd五、类平均法五、类平均法(Average)定义两类之间的距离平方为这两类元素两两之间距离平方的平均 piqjijqppqdnnd221pq)(61262524232221ddddddqpknnn将p和q合并为k,则k类的样品个数为pnqn设聚类到某一步,类p与 q分别有样品、个,rikjijrkkrdnnd221ripjriqjijijrkddnn221)(122qrrqprrprkdnndnnnnk类与任一类 r 的距离为22qrkqprkpdnndnn 13 104 260 272 89 221 245 36 40 4ijdnnijdD)

23、(1.计算5个样品两两之间的距离记为距离矩阵(采用欧氏距离),为最小,4245d2. 合并距离最小的两类为新类,按顺序定为第类。5 , 4例例 类平均法类平均法 2ijd3、计算新类与各当前类的距离,得距离矩阵如下: 13 104 266 89 233 3826627221260212121251241261ddd23324521221212121252242262ddd38402136212121253243263ddd2ijd13212d 2 , 1为最小, = 38 96.5 249.5 4、重复步骤2、3,合并距离最近的两类为新类,直到所有的类并为一类为止。 38236d6 , 3为最

24、小,=5、5 .968921104212121223213273ddd5 .24923221265212121226216276ddd2ijd5 .19825.2453225.93313231267237287ddd6、按聚类的过程画聚类谱系图 45并类距离3127、决定类的个数与类。 观察此图,我们可以把5个样品分为3类, 2 , 1 35 , 4、。09.1416. 66 . 328 ,76, 32, 15 , 4dddd六、差平方和法(六、差平方和法(Ward法法 ) 2112221211)(nipipniiniixxxxxx)()(1XXXXinii反映样品之间的差异程度 npnnpp

25、xxxxxxxxx212222111211设变量X的n个样品观察值为:n个样品的离差平方和为:qpqSpSk设类p和q分别含有np、nq个样品,其离差平方和分别记为psqs和v直观上容易想到把两群样品聚为一大群,大群的离差平方和将超过原来两个群的离差平方和之和。 2qxpxdnnnnSSSqpqpqpk 如果将p和q并类得到新类k,则类k的离差平方和为pqs把增加的量记为定义类p和q之间的距离为:22qxpxdnnnnSdqpqppqpq设类p和q分别含有np、nq个样品,其离差平方和分别记为psqs和可以推得新类 k与任一类 r 的距离:2222pqrkrqrrkrqprrkrpkrdnnndnnnndnnnnd 6.5 52 130 136 44.5 110.5 122.5 18 20 2ijdnnijdD

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论