聚类分析之系统聚类法_第1页
聚类分析之系统聚类法_第2页
聚类分析之系统聚类法_第3页
聚类分析之系统聚类法_第4页
聚类分析之系统聚类法_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数学模型与数学建模之 聚类分析之系统聚类法及其SPSS实现于晶贤E-mail: 主要内容: 1. 样品与样品间的距离 2. 指标和指标间的“距离” 3. 类与类间的距离 4. 常用系统聚类法 5. 例子 聚类分析(物以类聚,人以群分) 引例1 下表是30个学生的六门课的成绩。根据这30个人的成绩,对这30个学生进行分类。 序号 数学 物理 化学 语文 历史 英语 1 65 61 72 84 81 79 2 77 77 76 64 70 55 3 67 63 49 65 67 57 28 77 90 85 68 73 76 29 91 82 84 54 62 6

2、0 30 78 84 100 51 60 60 引例2 下表是30个学生的六门课的成绩。根据这30个人的成绩,将六门课程分为两类。 序号 数学 物理 化学 语文 历史 英语 1 65 61 72 84 81 79 2 77 77 76 64 70 55 3 67 63 49 65 67 57 28 77 90 85 68 73 76 29 91 82 84 54 62 60 30 78 84 100 51 60 60 引例3 下表是中国大陆地区31个省级行政区域的月人均消费数据(单位:元),请根据消费水平对这31个省级行政区域进行分类。 城市 人均粮食支出 人均副食支出 人均烟、酒、饮料支出

3、人均衣着支出 人均日用杂品支出 人均水电燃料支出 人均其他非商品支出 北京 21.3124.8935.4393.0120.5843.97433.73天津 21.5122.3929.0855.0411.354.88288.13河北 18.2590.2124.4562.487.4547.5178.84青海 20.3375.6420.8853.8110.0632.82171.32 19.7570.2418.6761.7510.0840.26165.22 21.0378.5514.3564.989.8333.87161.67ID 数学 165 276 367 484 574 678 766 877 9

4、83 1086 如何分类 引例1中,如果只考虑数学成绩(取前十个学生的成绩来分析),可以将十个人的分数画在x轴上,然后把接近的点放入一类。 ID 数学 物理 165 61 276 77 367 63 484 95 574 70 678 84 766 71 877 71 983 100 1086 94 引例1中,如果考虑数学成绩和物理成绩 (取前十个学生的成绩来分析),可以将十个人的两个分数看作是 xoy 平面上的点,然后把接近的点分为一类。 距离近的样品聚为一类 分类准则 数据的一般的格式 样品与样品之间的常用距离(样品i与样品j) rr绝对值距离: = px-d (xi , x j )|ik

5、x jk |欧氏距离: rrd (xi , x j ) =rk =1p(x- xikjk)2r k=1 q1Minkowski距离: =p-qd (xi , x j )(xikx jk ) k =1Chebyshev距离:rd (xi , x j ) = max |1k pxik - x jk |马氏距离:rrrr-1rrd (xi , x j ) = (xi - x j ) S(xi - xj )其中:x= (x, x,L, x)x= (x, x,L, x)ii1i 2ipjj1j 2jpS 为样本的协方差矩阵 ID 数学 物理 1 65 61 2 76 77 3 67 63 4 84 95

6、 5 74 70 6 78 84 7 66 71 8 77 71 9 83 100 10 86 94 绝对值距离: rrpd (x1 , x2 )欧氏距离: rrd (x1 , x2 ) =Minkowski距离: = |k =1x1k - x2k | = 27(x 1k - x2k )p2k=1= 19.4161rr p33 d (x1, x2) = (x1kk =1- x2k ) = 17.573Chebyshev距离: rd (x1 , x2 ) =马氏距离: max |1k px1k - x2k |= 16rrrr-1rrd (x1, x2 ) = (x1 - x2 ) S(x1 -

7、x2 ) = 2.2305指标与指标之间的常用“距离”(指标i与指标j) p ( xki - xi )(xkj - x j )p(xki- xi)2k =1p(xkjk =1- x)j2相关系数: r( Xi , X j ) = k=1夹角余弦: r( Xi , X j ) = xki xkjk =1ppx2k =12kixkjp k =1序号 数学 物理 化学 语文 历史 英语 1 65 61 72 84 81 79 2 77 77 76 64 70 55 3 67 63 49 65 67 57 p(xki - xi)(xkj- x j )p( kix- xi)2k =1p( xkj- xj

8、)2k =1相关系数: r(数学,语文) = k=1 = - 0.663k=1ppx2kik =1x2kjk =1p夹角余弦:r(数学,语文) = xki xkj=0.983类与类之间的常用距离 1. 由一个样品组成的类是最基本的类;如果每一类都由一 个样品组成,那么样品间的距离就是类间距离。2. 如果某一类包含不止一个样品,那么就要确定类间距 离,类间距离是基于样品间距离定义的,大致有如下几种 定义方式:记号:Gr和 Gq 是两个类,D(Gp ,Gq )是这两个类的距离。 prxi Gpx j Gqd (xi , x j ) 是这两个样品的距离。 最 短 距 离 法 : (Nearest N

9、eighbor) D(G, G) = min d ( r , r)pqxix j D(Gp ,Gq ) 最 长 距 离 法 : (Furthest Neighbor) D(G,G) = max d ( r , r)pqxix j D(Gp ,Gq ) 组 间 平 均 连 接 法 : (Between-group Linkage) D(G,G) = d1 + d2 + d3 + d4pq4 组内平均连接法(Within-group Linkage) D(G,G) = d1 + d2 + d3 + d4 + d5 + d6pq6 重心法: D(Gp ,Gq ) = d (xp , xq )(Cen

10、troid clustering) 两个类的重心如下: rrrrx= xp1 + xp 2p2x=xq1 + xq 2q2xp 2 *p1rD(G,G)pq xrr* xq 2xq1r 系统聚类法过程1最短距离系统聚类法 根据五个学生的六门课的成绩,对这五个学生进行分类 ID 数学 物理 化学 语文 历史 英语 学生1 65 6172 84 81 79 学生2 77 7776 64 70 55 学生3 67 6349 65 67 57 学生4 80 6975 74 74 63 学生5 74 7080 84 81 74 1. 写出样品间的距离矩阵(以欧氏距离为例) 0 G138.90G2D0 =

11、 39.732.20 G3 26.515.932.40 G415.830.943.618.20G52. 将每一个样品看做是一个类,即 G1 ,G2 ,G3 ,G4 ,G5观察D(G1 ,G5 ) = 15.8最小,故将G1与G5聚为一类,记为G6 .计算新类与其余各类之间的距离,得到新的距离矩阵D1D(G6 ,G2 ) =D(G6 ,G3 ) =D(G6 ,G4 ) =minD(G1,G2 ), D(G5 ,G2 ) =minD(G1,G3 ), D(G5 ,G3 ) =minD(G1,G4 ), D(G5 ,G4 ) =min38.9,30.9 = 30.9min39.7, 43.6 = 3

12、9.7min26.5,18.2 =18.20 G630.90GD= 2G139.732.2018.215.932.40 G343. 观察 D(G2 ,G4 ) = 15.9最小,故将G2与G4聚为一类,记为G7 . 计算新类与其余各类之间的距离,得到新的距离矩阵D2D(G7 ,G6 ) =D(G7 ,G3 ) =minD(G2 ,G6 ), D(G4 ,G6 ) =minD(G2 ,G3 ), D(G4 ,G3 ) =min30.9,18.2 =18.2min32.2,32.4 = 32.20G7D= 18.20 G26 32.239.70 G34. 观察 D(G6 ,G7 ) = 18.2最

13、小,故将G6与G7聚为一类,记为G8 .计算新类与其余各类之间的距离,得到新的距离矩阵 D3GD(G8 ,G3 ) = minD(G6 ,G3 ), D(G7 ,G3 ) = min39.7,32.2 = 32.2D3 = 032.20G835. 最后将G8与G3聚为一类,记为G9. 聚类的谱系图 G1G5G6G8G2G4G7学生3 G3学生4学生2学生5学生1G9最长距离系统聚类法 1. 写出样品间的距离矩阵(以欧氏距离为例) 0 G1032.2015.932.430.943.638.9G2D0 = 39.7 G3 26.50 G415.80G18.252. 将每一个样品看做是一个类,即 G

14、1,G2 ,G3 ,G4 ,G5观察D(G1 ,G5 ) = 15.8最小,故将G1与G5聚为一类,记为G6 . 计算新类与其余各类之间的距离,得到新的距离矩阵 D1 D(G6 ,G2 ) = maxD(G1,G2 ), D(G5 ,G2 ) = max38.9,30.9 = 38.9D(G6 ,G3 ) =D(G6 ,G4 ) =maxD(G1,G3 ), D(G5 ,G3 ) =maxD(G1,G4 ), D(G5 ,G4 ) =max39.7,43.6 =max26.5,18.2 =43.626.50G638.90GD= 2G143.632.2026.515.932.40 G343. 观

15、察 D(G2 ,G4 ) = 15.9最小,故将G2与G4聚为一类,记为G7 . 计算新类与其余各类之间的距离,得到新的距离矩阵 D2D(G7 ,G6 ) =D(G7 ,G3 ) =maxD(G2 ,G6 ), D(G4 ,G6 ) =maxD(G2 ,G3 ), D(G4 ,G3 ) =max38.9, 26.5 = 38.9max32.2,32.4 = 32.40G7D= 38.90 G26 32.443.60 G34. 观察 D(G3 ,G7 ) = 32.4最小,故将G3与G7聚为一类,记为G8 .计算新类与其余各类之间的距离,得到新的距离矩阵 D3GD(G8 ,G6 ) = maxD

16、(G3 ,G6 ), D(G7 ,G6 ) = max43.6,38.9 = 43.6D3 = 043.60 G865. 最后将G8与G6聚为一类,记为G9. 聚类的谱系图 G1G5G6G2G4G7G8G3学生4学生2学生5学生1G9学生3 其它系统聚类法组间平均连接系统聚类法组内平均连接系统聚类法重心系统聚类法 注:这些方法的差别就是在计算新类与其余各类间的距离, 如需学习详细内容,可参考多元统计分析相关书籍。 参考教材:多元统计分析,何晓群,中国人民大学 ,2008.多元统计分析,于秀林,中 计 ,2006.聚 类 分 析 需 要 注 意 的 问 题 1. 对于一个实际问题要根据分类的目的来选取指标,指标选取的不同分类结果一般也不同

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论