环境统计学系统聚类_第1页
环境统计学系统聚类_第2页
环境统计学系统聚类_第3页
环境统计学系统聚类_第4页
环境统计学系统聚类_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、整理课件1环环 境境 统统 计计 学学(Environmental Statistics )整理课件2绪论绪论多元线性多元线性概率统计概率统计一元线性一元线性环 境 统 计 学整理课件3整理课件4聚类分析概述聚类分析概述聚类要素的数据处理聚类要素的数据处理距离的计算距离的计算系统聚类分析的常用方法系统聚类分析的常用方法SPSSSPSS计算方法计算方法 环境应用环境应用 整理课件5整理课件6俗话说:俗话说:“物以类聚,人以群分。物以类聚,人以群分。” 整理课件7聚类(聚类(Clustering)就是将数据分组成为多个类)就是将数据分组成为多个类(Cluster)。在同一个类内对象之间具有较高的)

2、。在同一个类内对象之间具有较高的相似度,不同类之间的对象差别较大。相似度,不同类之间的对象差别较大。整理课件8早在孩提时代,人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗,动物和植物,男人和女人。环境中如水质分类,污染类型,处理方法整理课件9聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征。聚类分析被用来动植物分类和对基因进行分类,获取对种群固有结构的认识聚类能够帮助在地球中被观察的数据库商趋于的相似性聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组聚类分析在电子商务中网站建设数据挖掘中也是很重要的

3、一个方面,通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,可以更好的帮助电子商务的用户了解自己的客户,向客户提供更合适的服务。整理课件10环境问题如何归类和分析已成为环境科学的一项重要课题。根据确定的标准对环境问题进行分级、分类,需要用到聚类分析。整理课件11根据对象间的相关程度进行类别的聚合。在进行聚类分析之前,这些类别是隐蔽的,能分为多少种类别事先也是不知道的。整理课件12聚类分析的原则是同一类中的个体有较大的相似性,不同类中的个差异很大。整理课件13 儿童生长发育研究儿童生长发育研究中,形态学为主指中,形态学为主指标归为一类,机能标归为一类,机能为主指标归为另一为主指标归为另

4、一类类聚类分析又分为样本聚类和变量聚类聚类分析又分为样本聚类和变量聚类解剖学上根据骨骼解剖学上根据骨骼大小形状,以确定大小形状,以确定样本是人是猿,性样本是人是猿,性别、年龄等别、年龄等整理课件14相似性Similar的度量(统计学角度)距离Q型聚类(主要讨论)主要用于对样本分类常用的距离有(只适用于具有间隔尺度变量的聚类):(包括:绝对距离、切比雪夫距离)兰氏距离马氏距离斜交空间距离此不详述,有兴趣可参考应用多元分析(第二版)王学民相似系数R型聚类用于对变量分类,可以用变量之间的相似系数的变形如1rij定义距离这里不详细介绍这种聚类度量方法整理课件15整理课件16 在聚类分析中,聚类要素的选

5、择是十分重在聚类分析中,聚类要素的选择是十分重要的,它直接影响分类结果的准确性和可靠性。要的,它直接影响分类结果的准确性和可靠性。 因此当分类要素的对象确定之后,在进行因此当分类要素的对象确定之后,在进行聚类分析之前,首先要对聚类要素进行数据处聚类分析之前,首先要对聚类要素进行数据处理。理。 整理课件17整理课件18整理课件19例例1 以长江流域水环境数据为例,以长江流域水环境数据为例,1993年年1月份月份6个站点水环境监测指标实测值如下表所示。个站点水环境监测指标实测值如下表所示。表1 1993年1月份各站点水环境监测指标实测值(单位:mg/L)整理课件20分别求出各聚类要素所对应的数据的

6、总和,以各要素的数据除以该要素的数据的总和,即 这种标准化方法所得到的新数据满足), 2 , 1;, 2 , 1(1njmixxxmiijijijmiijnjx1), 2 , 1(1整理课件21各站点各站点指标指标溶解氧溶解氧高锰酸钾指数高锰酸钾指数BOD5NH3-N挥发酚挥发酚攀枝花攀枝花10.0 0.8 2.0 0.10 0.003高场高场10.5 1.3 1.8 0.16 0.002津市津市10.4 1.9 1.2 0.16 0.003长沙长沙8.8 2.3 1.1 0.72 0.002中山桥中山桥13.0 3.5 2.9 0.30 0.019宣城宣城13.4 2.3 2.4 0.02

7、0.005各站点各站点指标指标溶解氧溶解氧高锰酸钾指数高锰酸钾指数BOD5NH3-N挥发酚挥发酚攀枝花攀枝花高场高场津市津市长沙长沙中山桥中山桥宣城宣城10.00.1513 0.0661 0.1754 0.0685 0.0882 0.1589 0.1074 0.1579 0.1096 0.0588 0.1573 0.1570 0.1053 0.1096 0.0882 0.1331 0.1901 0.0965 0.4932 0.0588 0.1967 0.2893 0.2544 0.2055 0.5588 0.2027 0.1901 0.2105 0.0137 0.1471 0.151366.1

8、整理课件22 ,即,即 由这种标准化方法所得到的新数据,各要素由这种标准化方法所得到的新数据,各要素的平均值为的平均值为0,标准差为,标准差为1,即有,即有),2, 1;,2, 1(njmisxxxjjijij1)(101121mijijjmiijjxxmsxmx整理课件23各站点各站点指标指标溶解氧溶解氧高锰酸钾指数高锰酸钾指数BOD5NH3-N挥发酚挥发酚攀枝花攀枝花10.0 0.8 2.0 0.10 0.003高场高场10.5 1.3 1.8 0.16 0.002津市津市10.4 1.9 1.2 0.16 0.003长沙长沙8.8 2.3 1.1 0.72 0.002中山桥中山桥13.0

9、 3.5 2.9 0.30 0.019宣城宣城13.4 2.3 2.4 0.02 0.005各站点各站点指标指标溶解氧溶解氧高锰酸钾指数高锰酸钾指数BOD5NH3-N挥发酚挥发酚攀枝花攀枝花高场高场津市津市长沙长沙中山桥中山桥宣城宣城10.0-0.6186 -1.4259 0.1581 -0.6257 -0.4411 -0.3144 -0.8400 -0.1581 -0.3637 -0.6065 -0.3752 -0.1368 -1.1068 -0.3637 -0.4411 -1.3487 0.3320 -1.2649 2.0814 -0.6065 1.2067 1.7384 1.5811 0

10、.2476 2.2053 1.4501 0.3320 0.7906 -0.9750 -0.1103 -1.0211.02平均值平均值标准差标准差1.644-0.6186=整理课件24), 2 , 1;, 2 , 1(maxnjmixxxijiijij整理课件25各站点各站点指标指标溶解氧溶解氧高锰酸钾指数高锰酸钾指数BOD5NH3-N挥发酚挥发酚攀枝花攀枝花10.0 0.8 2.0 0.10 0.003高场高场10.5 1.3 1.8 0.16 0.002津市津市10.4 1.9 1.2 0.16 0.003长沙长沙8.8 2.3 1.1 0.72 0.002中山桥中山桥13.0 3.5 2.

11、9 0.30 0.019宣城宣城13.4 2.3 2.4 0.02 0.005各站点各站点指标指标溶解氧溶解氧高锰酸钾指数高锰酸钾指数BOD5NH3-N挥发酚挥发酚攀枝花攀枝花高场高场津市津市长沙长沙中山桥中山桥宣城宣城10.00.7463 0.2286 0.6897 0.1389 0.1579 0.7836 0.3714 0.6207 0.2222 0.1053 0.7761 0.5429 0.4138 0.2222 0.1579 0.6567 0.6571 0.3793 1.0000 0.1053 0.9701 1.0000 1.0000 0.4167 1.0000 1.0000 0.65

12、71 0.8276 0.0278 0.2632 0.746313.4选选出出最最大大值值整理课件26 ), 2 , 1;, 2 , 1(minmaxminnjmixxxxxijiijiijiijij整理课件27各站点各站点指标指标溶解氧溶解氧高锰酸钾指数高锰酸钾指数BOD5NH3-N挥发酚挥发酚攀枝花攀枝花10.0 0.8 2.0 0.10 0.003高场高场10.5 1.3 1.8 0.16 0.002津市津市10.4 1.9 1.2 0.16 0.003长沙长沙8.8 2.3 1.1 0.72 0.002中山桥中山桥13.0 3.5 2.9 0.30 0.019宣城宣城13.4 2.3 2

13、.4 0.02 0.005各站点各站点指标指标溶解氧溶解氧高锰酸钾指数高锰酸钾指数BOD5NH3-N挥发酚挥发酚攀枝花攀枝花高场高场津市津市长沙长沙中山桥中山桥宣城宣城0.2609 0.0000 0.5000 0.1143 0.0588 0.3696 0.1852 -0.6111 0.2000 0.0000 0.3478 0.4074 -0.6667 0.2000 0.0588 0.0000 0.5556 -5.7222 1.0000 0.0000 0.9130 1.0000 1.6111 0.4000 1.0000 1.0000 0.5556 0.2778 0.0000 0.1765 0.2

14、6094.6相相减减1.2整理课件28整理课件29整理课件30样品样品1 1样品样品2 2样品样品n整理课件31 绝对值距离 欧氏距离 明科夫斯基距离 ), 2 , 1, (1mjixxdnijkikij), 2 , 1, ()(12mjixxdnkjkikij), 2 , 1, (11mjixxdpnkpjkikij整理课件32 切比雪夫距离。当明科夫斯基距切比雪夫距离。当明科夫斯基距 时,有时,有 ), 2 , 1,(maxmjixxdjkikkij(3.4.8) p整理课件33例例1 以长江流域水环境数据为例,以长江流域水环境数据为例,1993年年1月份月份6个站点水环境监测指标实测值如

15、下表所示。个站点水环境监测指标实测值如下表所示。表1 1993年1月份各站点水环境监测指标实测值 (单位:mg/L)各站点各站点指标指标溶解氧溶解氧高锰酸钾指数高锰酸钾指数BOD5NH3-N挥发酚挥发酚攀枝花攀枝花10.0 0.8 2.0 0.10 0.003高场高场10.5 1.3 1.8 0.16 0.002津市津市10.4 1.9 1.2 0.16 0.003长沙长沙8.8 2.3 1.1 0.72 0.002中山桥中山桥13.0 3.5 2.9 0.30 0.019宣城宣城13.4 2.3 2.4 0.02 0.005整理课件34各站点各站点指标指标溶解氧溶解氧高锰酸钾指数高锰酸钾指数

16、BOD5NH3-N挥发酚挥发酚攀枝花攀枝花高场高场津市津市长沙长沙中山桥中山桥宣城宣城-0.6186 -1.4259 0.1581 -0.6257 -0.4411 -0.3144 -0.8400 -0.1581 -0.3637 -0.6065 -0.3752 -0.1368 -1.1068 -0.3637 -0.4411 -1.3487 0.3320 -1.2649 2.0814 -0.6065 1.2067 1.7384 1.5811 0.2476 2.2053 1.4501 0.3320 0.7906 -0.9750 -0.1103 ), 2 , 1,(1mjixxdnijkikij0.3

17、042 0.5860 0.3162 0.2620 0.1654 1.6338 ), 2 , 1, ()(12mjixxdnkjkikij0.0925 0.3434 0.1000 0.0686 0.0274 0.7949整理课件35各站点各站点指标指标溶解氧溶解氧高锰酸钾指数高锰酸钾指数BOD5NH3-N挥发酚挥发酚攀枝花攀枝花高场高场津市津市长沙长沙中山桥中山桥宣城宣城-0.6186 -1.4259 0.1581 -0.6257 -0.4411 -0.3144 -0.8400 -0.1581 -0.3637 -0.6065 -0.3752 -0.1368 -1.1068 -0.3637 -0.

18、4411 -1.3487 0.3320 -1.2649 2.0814 -0.6065 1.2067 1.7384 1.5811 0.2476 2.2053 1.4501 0.3320 0.7906 -0.9750 -0.1103 1.6338 0000. 09783. 54067. 81335. 59925. 41393. 50000. 04532.114026. 92616. 99322. 90000. 02108. 47582. 57834. 60000. 08780. 10594. 30000. 06338. 10000. 0)(661ijdD整理课件36整理课件37整理课件38原理原理

19、 先把各个分类对象单独视为一类,然后根据距离最小的原则,依次选出一对分类对象,并成新类。如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类。每一次归并,都划去该对象所在的列与列序相同的行。经过m-1次就可以把全部分类对象归为一类,这样就可以根据归并的先后顺序作出聚类谱系图。 整理课件39原理原理 最短距离聚类法,是在原来的mm距离矩阵的非对角元素中找出 ,把分类对象Gp和Gq归并为一新类Gr,然后按计算公式 计算原来各类与新类之间的距离,这样就得到一个新的(m1)阶的距离矩阵; 再从新的距离矩阵中选出最小者dij,把Gi和Gj归并成新类

20、;再计算各类与新类的距离,这样一直下去,直至各分类对象被归为一类为止。),(,minqpkdddqkpkrkminijpqdd整理课件40整理课件41区代号人均耕地X1劳动耕地X2水田比生X3复种指数X4粮食亩产X5人均粮食X6稻谷比重X7G10.2941.0935.63113.64510.51036.412.2G20.3150.9710.3995.12773.5683.70.85G30.1230.3165.28148.56934.5611.16.49G40.1790.5270.391114458632.60.92G50.0810.21272.04217.812249791.180.38G60

21、.0820.21143.78179.68973636.548.17G70.0750.18165.15194.710689634.380.17G80.2930.6665.3594.93679.5771.77.8G90.1670.4142.994.84231.5574.61.17区代号人均耕地X1劳动耕地X2水田比生X3复种指数X4粮食亩产X5人均粮食X6稻谷比重X7G10.9125 1.0000 0.0731 0.1528 0.1833 1.0000 0.1427 G21.0000 0.8662 0.0000 0.0024 0.0000 0.2362 0.0000 G30.2000 0.1480

22、 0.0682 0.4366 0.4391 0.0790 0.0709 G40.4333 0.3794 0.0000 0.1317 0.1778 0.1256 0.0009 G50.0250 0.0340 1.0000 1.0000 1.0000 0.4688 1.0000 G60.0292 0.0329 0.6056 0.6894 0.6543 0.1340 0.5950 G70.0000 0.0000 0.9038 0.8122 0.8354 0.1293 0.9974 G80.9083 0.5318 0.0692 0.0008 0.0956 0.4268 0.0874 G90.3833

23、0.2555 0.0350 0.0000 0.1539 0.0000 0.0040 整理课件42040. 132. 306. 384. 451. 020. 166. 162. 2003. 596. 314. 529. 124. 288. 032. 1007. 183. 006. 493. 253. 579. 5078. 199. 286. 146. 472. 4077. 464. 302. 686. 5023. 147. 119. 2070. 210. 3052. 10)(99ijdD29. 140. 1 ,29. 1min,min32. 332. 3 ,06. 4min,min99. 206

24、. 3 ,99. 2min,min77. 477. 4 ,84. 4min,min20. 120. 1 ,23. 1min,min47. 166. 1 ,47. 1min,min19. 262. 2 ,19. 2min,min9 , 84, 810, 89 ,74,710,79 , 64, 610, 69 , 54, 510, 59 , 34, 310, 39 , 24, 210, 29 , 14, 110, 1ddddddddddddddddddddd029. 132. 399. 277. 420. 147. 119. 2003. 596. 314. 524. 288. 032. 1007.

25、 183. 093. 253. 579. 5078. 186. 146. 472. 4064. 302. 686. 5070. 210. 3052. 10)(88ijd整理课件43 最远距离聚类法与最短距离聚类法的区别在于计算原来的类与新类距离时采用的公式不同。 最远距离聚类法的计算公式是),(,maxqpkdddqkpkrk(3.4.11) 整理课件44区代号区代号人均耕地人均耕地X1劳动耕地劳动耕地X2水田比生水田比生X3复种指数复种指数X4粮食亩产粮食亩产X5人均粮食人均粮食X6稻谷比重稻谷比重X7G10.2941.0935.63113.64510.51036.412.2G20.3150

26、.9710.3995.12773.5683.70.85G30.1230.3165.28148.56934.5611.16.49G40.1790.5270.391114458632.60.92G50.0810.21272.04217.812249791.180.38G60.0820.21143.78179.68973636.548.17G70.0750.18165.15194.710689634.380.17G80.2930.6665.3594.93679.5771.77.8G90.1670.4142.994.84231.5574.61.17例例2 2 下表给出了某个地区九个农业区的七项指标。下

27、表给出了某个地区九个农业区的七项指标。请做聚类分析。请做聚类分析。某个地区九个农业区的七项指标某个地区九个农业区的七项指标整理课件45 例题例题:对于前面的例子,最远距离聚类法的聚类过程如下: (1) 在99阶距离矩阵中,非对角元素中最小者是d94=0.51,将第4区与第9区并为一类,记为G10,即G10=G4,G9。按照公式 分别计算G1,G2,G3,G5,G6,G7,G8与G10之间的距离,得到一个新的88阶距离矩阵),(,maxqpkdddqkpkrk整理课件46040. 106. 406. 384. 423. 166. 162. 2003. 596. 314. 524. 288. 03

28、2. 1007. 183. 093. 253. 579. 5078. 186. 146. 472. 4064. 302. 686. 5070. 210. 3052. 10108765321108765321GGGGGGGGGGGGGGGG整理课件47 (2) 在第1步所得到的88阶距离矩阵中,非对角线元素中最小者为d57=0.83,故将G5与G7归并为一类,记为G11,即G11=G5,G7。按照公式(3.4.11)式分别计算G1,G2,G3,G6,G8,G10与G11之间的距离,得到一个新的77阶距离矩阵如下 084. 414. 578. 164. 302. 686. 5040. 106. 3

29、23. 166. 162. 2096. 324. 288. 032. 1086. 146. 472. 4070. 210. 3052. 10111086321111086321GGGGGGGGGGGGGG整理课件48 (3) 在第2步所得到的77阶距离矩阵中,非对角线元素中最小者为d28=0.88,故将G2与G8归并为一类,记为G12,即G12=G2,G8。再按照公式(3.4.11)分别计算G1,G3,G6,G10,G11与G12之间的距离,得到一个新的66阶距离矩阵如下 002. 666. 146. 470. 252. 1084. 478. 164. 386. 5006. 323. 162.

30、 2086. 172. 4010. 30121110631121110631GGGGGGGGGGGG整理课件49 (4)在第3步所得的66阶距离矩阵中,非对角元素中最小者为d3,10=1.23,故将G3与G10归并为一类,记为G13,即G13=G3,G10=G3,(G4,G9)。再按照公式(3.4.11)计算G1,G6,G11,G12与G13之间的距离,得到一个新的55阶距离矩阵如下 070. 284. 406. 310. 3002. 646. 452. 1078. 186. 5072. 401312106113121061GGGGGGGGGG整理课件50 (5)在第4步所得的55阶距离矩阵中

31、,非对角线元素中最小者为d1,12=1.52,故将G1与G12归并为一类,记为G14,即G14=G1,G12=G1,(G2,G8)。再按照公式(3.4.11)分别计算G6,G11,G13与G14之间的距离,得到一个新的44阶距离矩阵如下 010.320.672.4084.406.3078.1014131161413116GGGGGGGG整理课件51 (6)在第5步所得的44阶距离矩阵中,非对角线元素中最小者为d6,11=1.78,故将G6与G11归并为一类,记为G15,即G15=G6,G11=G6,(G5,G7)。再按照公式(3.4.11)分别计算G13,G14和G15之间的距离,得到一个新的

32、33阶距离矩阵如下002.684.4010.30151413151413GGGGGG整理课件52 (7) 在第6步所得的33阶距离矩阵中,非对角线元素中最小者为d13,14=3.10,故将G13与G14归并为一类,记为G16,即G16=G13,G14=(G3,(G4,G9),(G1,(G2,G8)。再按照公式(3.4.11)计算G15与G16之间的距离,可得一个新的22阶距离矩阵如下002. 6016151615GGGG整理课件53 (8)将G15与G16归并为一类。此时,各个分类对象均已归并为一类。 综合上述聚类过程,可以作出最远距离聚类谱系图。 最远距离聚类谱系图G1G2G8G3G4G9G5G7G6整理

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论