




已阅读5页,还剩11页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
研究生地理数学方法(1) 第三章 多元统计分析(Part 3)第三章 多元统计分析4 聚类分析分类是人类认识世界的方式,也是管理世界的有效手段。在科学研究中非常重要,许多科学的研究都是从分类研究出发的。没有分类就没有效率;没有分类,这个世界就没有秩序。瑞典博物学家林奈(Carl von Linnaeus, 1707-1778)因为对植物的分类成就被后人誉为“分类学之父”,后人评价说“上帝创世,林奈分类”能与上帝的名字并列的人不多,另一个著名的科学家是牛顿。由此可见分类成果的重要性。最初分类都是定性了,后来随着科学的发展产生了定量分类技术,包括基于统计学的聚类方法和基于模糊数学的聚类技巧。本节主要讲述统计学意义的数字分类方法思想和过程。1 聚类的分类分类研究的成果的重要性决定了方法的重大实践意义。在任何一门语言的语法学中,都要对词词汇进行分类,词汇分类可以根据词性:名词,动词,形容词;英文还可以根据首字母分类:ABCD;汉字则还可以根据笔划,如此等等。在生物学中,将生物划分为:界,门,纲,目,科,属,种。例如白菜(种)属于油菜属、十字花科、十字花目、双子叶植物纲、被子植物亚门、种子植物门、植物界;老虎(种)则属于猫属、猫科、食肉目、哺乳动物纲、脊椎动物亚门、脊索动物门、动物界。这样,整个世界的生物就可以建立一个等级谱系,根据这个谱系,我们可以比较容易地判断那些生物已经认识了,哪些生物尚未发现,哪些生物已经灭绝了。如果发现了新的生物,就可以方便地将其归类。在天文学中,天体可以根据视觉区域分类,也可以根据发光性质与光谱特征进行分类。在地理学中,城市既可以根据地域空间分类,也可以根据城市的职能进行分类。表3-3-1 各种生物在分类学上的位置举例位置白菜虎界植物界动物界门种子植物门脊索动物门亚门被子植物亚门脊椎动物亚门纲 双子叶植物纲哺乳动物纲目十字花目食肉目科 十字花科猫科属 油菜属 猫属种 白菜 虎当我们走进一家图书馆,如果它们的图书没有分类编目,我们要找到一本图书与大海捞针没有什么区别。分类的方式也会影响工作的效率。书店的图书一般根据科学门类进行分类摆设,但有一段时间一家书店改为按照出版单位进行分类排列,结果读者很难找到所需图书,这家原本效益挺好的书店很快收到了消极影响。早期的分类,一般根据事物的属性与特征进行划分,属于定性分类的范畴。随着人们认识的深入和研究对象复杂程度的增加,单纯的定性分类方法就不能满足要求了,于是产生了定量分类技术,即所谓数字分类。本节要讲述的就是根据多个指标进行数字分类的一种多元统计分析技术。根据分类对象的不同,聚类分析又可以分为两类:一是在变量空间中根据变量特征或者指标性质对样本进行分类,这叫做Q型聚类分析;二是在样本空间中根据变量在样本上的观测值对变量进行分类,叫做R型距离分析。我们着重讲述的是对样本分类,即Q型距离分析。此外,由于现实世界的事物很难做到一分为二:许多测度是模糊的,因此产生了模糊聚类技术,基本思路与我们学习的统计分类一致(图3-3-1)。图3-3-1 关于分类的分类在地理学中,分类一般涉及到地域,基于地域的分类又可以分为两类,即同域分类和异域分类。一般意义的分类是同域分类:对同一个地域系统的要素进行分类;但有时候需要进行异域分类:对不同地域系统的要素进行分类。具体说明如下:同域分类: 经济建设与濒危生物保护:例如公路建设,不仅要考虑城市之间以及城乡联系,还要考虑文物保护、濒危物种的保护主要是保护生物基因库。 考察某种濒危物种,调查其生态环境的各种参数(变量)分区(样本)绘图调查落实范围确定提交给交通部。异域分类: 引进日本福冈甜桔,可供选择的引进地点有:合肥、武汉、长沙、桂林、温州、成都。与甜桔生活有关的分析变量包括:年平均气温,年平均降雨量,年日照时数,年极端最低温,一月份平均气温。利用上述变量,将日本福冈与候选城市放到一起聚类,就是所谓异域聚类。人们采用模糊数学中的相似优先比得到如下结果:长沙,温州,成都,武汉,桂林,合肥。我们采用异域聚类得到结果如下图(图3-3-2,由SPSS给出):可以选择的顺序依次是:长沙,成都,温州,桂林,武汉,合肥。可见,两种分析方法的结论是一样的:优先选择的地点是长沙,不宜选择的地点是合肥。图3-3-2 异域聚类分析结果一例3-13 基于相似系数的异域聚类结果:长沙,成都,温州,桂林,合肥,武汉在多元统计学中,聚类分析又叫群分析,乃是研究样本或指标的分类问题的一种多元统计方法。所谓类,通俗地讲,就是相似元素的集合。聚类方法有包括如下种类:系统聚类法,有序样品法,模糊聚类法,图论聚类法,聚类预报法。2 距离与相似系数聚类分析是根据相似性和差异性来进行的,相似性可以借助相似系数之类表征,差异性则可以通过距离反映。广义地将,距离和相似性是同一类别的数学问题。广义距离,有各种各样的定义,不同的距离有不同的优点和缺点。我们可以更加聚类分析的目的或者研究对象的特征选择距离,也可以自行定义一种距离。需要明确的是,定义任何一种距离,都不得违背距离公理。 距离公理设x1、x2、xn为n个样本,第i个样本xi与第j个样本xj之间建立一个函数关系式dij=d(xi, xj),如果它满足如下条件,则称dij为样本xi与xj之间的距离: 非负性:对所有的i、j成立; 规范性:当且仅当; 对称性:对所有的i、j成立; 三点不等式,在数学上叫做Cauchy不等式:对所有的i、j、k成立。距离的大小可以反映样本之间的差异程度。 常见距离 欧式距离(Euclid距离). (3-3-1)下面以一个最简单的实例进行说明。已知三个城市的三项指标,计算它们的欧式距离(表3-2-2)。表3-3-2 甲乙丙三城市的三个指标城市非农业人口工业总产值建成区面积城市甲(A)16060115城市乙(B)1104393城市丙(C)903575方 差866.667108.667267.556根据公式(3-3-1),甲、乙两城市的欧式距离为(注意,这不是地理或者交通意义的距离):. (3-3-1)欧式距离的优点:几何意义明确,简单,容易掌握,由于中学数学就已初步接触,数学知识不多的人也可以把握它的基本含义。缺点:从统计学的角度看,使用欧式距离要求一个向量的n个分量不相关,且具有相当的方差,或者说各个坐标对欧式距离的贡献同等且变差大小相同,此时使用欧式距离才合适,且效果良好,否则就不能如实反映情况且容易导致错误的结论。因此需要对坐标加权,化为统计距离(参见后面的精度加权距离)。 有时采用欧式距离平方(squared Euclid distance):, (3-3-2) 明氏距离(或译“闵氏距离”,Minkovski,Minkowski距离)设xi、xj均均为m为向量,且, , (), (3-3-4)则称, () (3-3-5) 当q=1时,得绝对距离(Block). (3-3-6)对于前面的例子,绝对距离为. (3-3-7) 当q=2时,得欧式距离, (3-3-8) 当q时,得切比雪夫距离(Chebychev距离)。明氏距离的有缺点如下:优点:人们使用较多,较熟悉,易于理解。缺点:a 受指标量纲的影响;b 没有考虑指标之间的相关性。 B模距离 对于任意的正定矩阵B,由下式确定的距离称为B模距离,() (3-3-9) 当B=I(单位矩阵)时,dij为欧式距离。给定两个向量, , (, ) (3-3-10)显然. (3-3-11)从而. (3-3-12)显然这正是欧式距离。对于前面的例子,我们有 , , . (3-3-13) 当,为精度加权距离。这里。下面以三样本为例说明:. (3-3-14)对于前面表3-3-2中的例子,容易得到. (3-3-15) 当时,为马氏距离(Mahalanobis距离)。设表示协方差阵. (3-3-16)其中, () (3-3-17)这里, . (3-3-18)如果逆矩阵-1存在,则两个样本之间的马氏距离可由下式定义; (3-3-19)样本X到总体G的马氏距离为. (3-3-20)式中为总体的均值向量。对于前面的例子,协方差矩阵为:表3-3-3 甲乙丙三城市的协方差矩阵类型协方差矩阵协差阵的逆矩阵变量人口产值面积人口产值面积人口866.667 306.667 473.333 -1.724E+136.099E+13-7.955E+12产值306.667 108.667 168.667 6.099E+13-2.158E+142.815E+13面积473.333 168.667 267.556 -7.955E+122.815E+13-3.671E+12即有,逆矩阵为.于是马氏距离为.这是一个复数的距离。由此可见,马氏距离不是在任何时候都可以在实数域取得的。马氏距离具有如下优点:a 排除了指标间的相关性干扰;b 不受指标量纲的影响;c 对原数据进行线性变换之后,马氏距离不变。 兰氏距离(Canberra距离)由Lance和Williams最早提出,定义如下:. (3-3-21)对于前面的例子,我们有, 于是得到兰氏距离. (3-3-22)兰氏距离的有缺点如下:优点:有助于克服各指标间的量纲的影响;缺点:a 仅适用于xij0的情况;b 没有考虑指标之间的相关性。 自定义距离(customized distance)在一些统计软件如SPSS中,可以根据研究的实际需要自己定义一个距离,定义的依据当然是距离公理,一般的自定义距离公式如下:, () (3-3-23)在统计软件中,允许适当地自主选择定义距离的参数,例如在SPSS中,选择自定义距离时,默认的幂(power, p)和根(root, r)为p=2,r=2,此时相当于欧式距离。但用户可以在14之间选择p值和r值,如取p=3,r=4,从而定义自己的距离,如何定义取决研究问题的特性和需要,这要求对距离概念具有较深的理解,否则还是采用比较熟悉的距离公式。3 距离矩阵设样本xi与xj之间的距离为dij,可得距离矩阵. (3-3-24)距离值越小,与越接近。例如,不管采用何种距离,前面三个城市之间两两距离求出之后,都可以构造一个距离矩阵. (3-3-25)4 相似系数相似系数包括两种相似的表示方法,即夹角余弦和相似系数。分别说明如下: 夹角余弦(Cosin), (). (3-3-26) 相似系数(Pearson correlation), () (3-3-27)当数据标准化以后,就有. (3-3-28)3 系统聚类的八种方法聚类分析不仅要甄别距离,而且要遴选方法。不同距离与方法的组合可以得到许多聚类途径。以SPSS软件为例,一共给了8种距离,7种方法,因此至少有78=56距离方式考虑到自定义距离,则聚类途径还要多。但是,考虑到我们的研究对象的性质和聚类目标之后,可供选择的途径并不太多。这就要求我们熟悉各种的距离的有缺点和聚类方法的基本思路。 最短距离法(Nearest neighbor)考虑n个样本构成的距离矩阵,定义Gi与Gj之间的距离为两类最近样品的距离,即. (3-3-29)现在设Gp与Gq合并为一个新类记为Gr,则任意一类Gk与Gr的距离为. (3-3-30)下面用实例说明最短距离法聚类的一般步骤和方法。例子是引进日本福冈甜桔,候选地点为:合肥、武汉、长沙、桂林、温州、成都;变量有5个:年平均气温,年平均降雨量,年日照时数,年极端最低温,一月份平均气温。原始数据见下表(表3-3-4):表3-3-4 七个地点五种变量的数据变量福岗合肥武汉长沙桂林温州成都年平均气温16.215.716.317.218.817.916.3年平均降雨量14929701260142218741698976年日照时数2000220920851726170918481239年极端最低气温-8.2-20.6-17.3-9.5-4.9-4.5-4.6一月份平均气温6.21.92.84.687.55.6来源:贺仲雄,王伟.决策科学:从最优到满意.重庆:重庆出版社,1988,p190。作者采用模糊数学中的“相似优先法”处理这个问题,我们采用距离处理同一组数据,并与相似优先法的结果比较。采用最短距离法聚类的过程如下: 计算样本之间两两距离,建立欧式距离矩阵D。由于对称性,可以只写出下三角部分。对样本进行编号,记为17:Case1:福岗2:合肥3:武汉4:长沙5:桂林6:温州7:成都1:福岗02:合肥562.4403:武汉247.27315.4204:长沙282.81661.61393.9405:桂林480.241033.20720.11452.3606:温州256.04812.77498.20301.82224.2707:成都919.45970.16892.49660.391013.57944.550 找出非对角线元素的最小值,d56=224.27,将第5个样本与第6个样本合并。首先合并第5列和第6列,保留最短距离944.55。合并方法可以在Word的表格中采用合并单元格的方式。Case1:福岗2:合肥3:武汉4:长沙5:桂林6:温州7:成都1:福岗02:合肥562.4403:武汉247.27315.4204:长沙282.81661.61393.9405:桂林480.241033.20720.11452.3606:温州256.04812.77498.20301.82224.2707:成都919.45970.16892.49660.391013.57944.550然后合并第5行和第6行,原则依然是“两数相遇取其短”。Case1:福岗2:合肥3:武汉4:长沙5:桂林6:温州7:成都1:福岗02:合肥562.4403:武汉247.27315.4204:长沙282.81661.61393.9405:桂林480.241033.20720.11452.3606:温州256.04812.77498.20301.82224.2707:成都919.45970.16892.49660.391013.57944.550 将合并的结果记为第8类,见下表:Case1:福岗2:合肥3:武汉4:长沙8:桂林,温州7:成都1:福岗02:合肥562.4403:武汉247.27315.4204:长沙282.81661.61393.9408:桂林温州256.04812.77498.20301.8207:成都919.45970.16892.49660.39944.550 在前述合并结果中找出对角线以外的最小距离,得到d13=247.27。然后重复上述合并过程。为了直观,首先将第3列剪贴到第2列的后面:Case1:福岗3:武汉2:合肥4:长沙8:桂林,温州7:成都1:福岗03:武汉247.270(315.42)2:合肥562.4404:长沙282.81393.94661.6108:桂林温州256.04498.20812.77301.8207:成都919.45892.49970.16660.39944.550将对角线以上的元素剪贴到对角线下对称的位置,然后合并列。为直观,不妨抹去较大的数:Case1:福岗3:武汉2:合肥4:长沙8:桂林,温州7:成都1:福岗03:武汉02:合肥315.4204:长沙282.81661.6108:桂林温州256.04812.77301.8207:成都892.49970.16660.39944.550 逐行按列合并单元格:Case1:福岗,3:武汉2:合肥4:长沙8:桂林,温州7:成都1:福岗03:武汉02:合肥315.4204:长沙282.81661.6108:桂林温州256.04812.77301.8207:成都892.49970.16660.39944.550 逐列按行合并单元格,将合并结果记为第9类:Case9:福岗,武汉2:合肥4:长沙8:桂林,温州7:成都9:福岗,武汉02:合肥315.4204:长沙282.81661.6108:桂林温州256.04812.77301.8207:成都892.49970.16660.39944.550 在第二次合并的结果中找到最小距离d89=256.04,重复前述合并过程。为了直观,首先将第8列剪贴到第9列后面,然后将第8行剪贴到第9行的后面:Case9:福岗,武汉8:桂林,温州2:合肥4:长沙7:成都9:福岗,武汉08:桂林,温州256.040(812.77)(301.82)2:合肥315.4204:长沙282.81661.6107:成都892.49944.55970.16660.390将出现在对角线以上的数据剪贴到对角线一线对应的单元格中:Case9:福岗,武汉8:桂林,温州2:合肥4:长沙7:成都9:福岗,武汉08:桂林,温州256.0402:合肥315.42812.7704:长沙282.81301.82661.6107:成都892.49944.55970.16660.390逐行按列合并单元格:Case9:福岗,武汉;8:桂林,温州2:合肥4:长沙7:成都9:福岗,武汉08:桂林,温州02:合肥315.4204:长沙282.81661.6107:成都892.49970.16660.390逐列按行合并单元格,将合并结果记为第10类:Case10: 9:福岗,武汉;8:桂林,温州2:合肥4:长沙7:成都 9:福岗,10: 武汉;8:桂林,温州02:合肥315.4204:长沙282.81661.6107:成都892.49970.16660.390 在第三步合并的结果中,找到最小距离d4,10=282.81,然后重复上述合并过程。首先将第4行第4列剪贴到第10行第10列之下(后):Case10: 9:福岗,武汉;8:桂林,温州4:长沙2:合肥7:成都9:福岗,10: 武汉8:桂林,温州04:长沙282.810(661.61)2:合肥315.4207:成都892.49660.39970.160将对角线以上的数据661.61剪贴到对角线以下对应的位置:Case10: 9:福岗,武汉;8:桂林,温州4:长沙2:合肥7:成都 9:福岗,10: 武汉;8:桂林,温州04:长沙282.8102:合肥315.42661.6107:成都892.49660.39970.160 先合并列,再合并行,将结果记为第11类:Case11: 10: 9:福岗,武汉;8:桂林,温州;4:长沙2:合肥7:成都9:福岗11: 武汉8:桂林10: 温州4:长沙02:合肥315.4207:成都660.39970.160 在第四步合并的结果中,找到最小距离d2,11=315.42,然后重复上述合并过程。先合并列,后合并行,将结果记为第12类:Case12: 11: 10: 9:福岗,武汉;8:桂林,温州;4:长沙;2:合肥7:成都9:福岗11: 武汉12:8:桂林10: 温州4:长沙2:合肥07:成都660.390 最后一步合并,非常明显:将第7类成都合并到前述结果中,记为第13类:Case13: 12: 11: 10: 9:福岗,武汉;8:桂林,温州;4:长沙;2:合肥;7:成都9:福岗11: 武汉12:8:桂林10: 温州4:长沙13:2:合肥7:成都0 总结合并的过程及其对应的最小距离:表3-3-5 最小距离法聚类过程总结步骤距离合并的样本第一步224.278:桂林,温州第二步247.279:福冈,武汉第三步256.0410:桂林,温州;福冈,武汉第三步282.8111:桂林,温州;福冈,武汉;长沙第五步315.4212:桂林,温州;福冈,武汉;长沙;合肥第六步660.3913:桂林,温州;福冈,武汉;长沙;合肥;成都根据总结的步骤绘出聚类结果的谱系图。下图由Matlab给出(图3-3-3):图3-3-3 基于欧式距离和最短距离法的聚类谱系图 最长距离法(Furthest neighbor)考虑n个样本构成的距离矩阵,定义Gi与Gj之间的距离为两类最近样品的距离,即. (3-3-31)现在设Gp与Gq合并为一个新类记为Gr,则任意一类Gk与Gr的距离为. (3-3-32)仍用前例说明利用最长距离法聚类的一般步骤和方法。在距离矩阵中,找出非对角线元素的最小值,d56=224.27,将第5个样本与第6个样本合并。Case1:福岗2:合肥3:武汉4:长沙5:桂林6:温州7:成都1:福岗02:合肥562.4403:武汉247.27315.4204:长沙282.81661.61393.9405:桂林480.241033.20720.11452.3606:温州256.04812.77498.20301.82224.2707:成都919.45970.16892.49660.391013.57944.550首先合并第5列和第6列,保留最长距离1013.57。Case1:福岗2:合肥3:武汉4:长沙8:桂林,温州7:成都1:福岗02:合肥562.4403:武汉247.27315.4204:长沙282.81661.61393.94
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 路运产业链整合-洞察阐释
- 鹅羊山社区生态运动广场建设工程项目可行性研究报告
- 第三节教学设计
- 2025至2030年中国特种尼龙滑轮行业投资前景及策略咨询报告
- 2025至2030年中国热轧角铁行业投资前景及策略咨询报告
- 高中文科数学跨学科教学资源共享与利用路径
- 2025至2030年中国清耳器行业投资前景及策略咨询报告
- 2025至2030年中国测绘图纸行业投资前景及策略咨询报告
- 2025至2030年中国汽车指示泡行业投资前景及策略咨询报告
- 2025至2030年中国欧洲锅行业投资前景及策略咨询报告
- 丝绸产业品牌建设-洞察分析
- 【机器人】2021年全球外骨骼机器人产业研究报告-CBInsights
- 智慧燃气系统建设方案
- 【MOOC】作物育种学-四川农业大学 中国大学慕课MOOC答案
- 2024年浙江绍兴诸暨市交通运输局下属事业单位招聘编外用工6人历年管理单位遴选500模拟题附带答案详解
- 学校保安保洁及宿管服务投标方案(技术方案)
- 临床成人失禁相关性皮炎的预防与护理团体标准解读
- 医疗器械公司组织机构图和部门设置说明
- 个人开车与单位免责协议书
- JGJT46-2024《建筑与市政工程施工现场临时用电安全技术标准》知识培训
- 动火作业施工方案5篇
评论
0/150
提交评论