快速聚类法与层次聚类法在佛山市水质综合评价中的应用

上传人：我*** IP属地：北京上传时间：2020-02-18 格式：DOC 页数：27 大小：480KB 积分：9.6 举报 版权申诉

已阅读5页，还剩22页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

快速聚类法与层次聚类法在佛山市水质综合评价中的应用 2006-4-10 华南农业大学大学生科技创新活动项目项目名称：快速聚类法与层次聚类法在佛山市水质综合评价中的应用申请人：黄永浩李启俊梁立聪所在院部：信息学院专业年级： 2002级信息管理与信息系统联系电话： 02038676829 指导教师: 陈联诚职称教授立项日期：二五年四月十四日结题日期：二六年四月十日华南农业大学大学生科技创新活动项目指导中心目录一、课题立项与研究的目的的意义4二、文献综述42.1 我国水质评判分析研究现状42.2 研究缺陷6三、水质评价资料说明6四、建立分析模型74.1数据预处理74.2 快速聚类法分析模型74.3 层次聚类法分析模型74.3.1常用的样品间距离公式84.3.2参数间的相似系数84.3.3.距离与相似系数选择原则84.4 两种聚类方法的比较104.4.1 两种聚类方法的优点104.4.2 两种聚类方法的缺点10五、应用快速聚类法进行水质分析评价115.1 丰水期水质的分类评价115.1.1 丰水期单因素方差分析（ANOVA）结果分析115.1.2 丰水期各类包含样本情况125.2平水期水质的分类评价135.2.1 平水期单因素方差分析（ANOVA）结果分析135.2.2 平水期各类包含样本情况135.3 枯水期水质的分类评价145.3.1 枯水期单因素方差分析（ANOVA）结果分析145.3.2枯水期各类包含样本情况145.4 全年水质的分类评价155.4.1 全年单因素方差分析（ANOVA）结果分析155.4.2 全年各类包含样本情况15六、应用层次聚类法对水质分类评价166.1 全年水质的分类评价166.2丰水期水质的分类评价166.3 平水期水质的分类评价176.4 枯水期水质的分类评价19七、结论207.1 使用两种聚类方法的结果分析207.2 水质综合评价217.3实际生活中的水质评定标准以及水质分类状况217.4聚类方法结果与实际情况的比较237.5聚类方法分析的结果对实际环境工作的帮助237.6两种聚类法的不足之处24致谢25参考文献26摘要本研究在阅读了大量文献的基础上，将数据挖掘技术应用于水质综合分析评判中。随着水质分析评判理论的不断完善和发展以及一系列先进分析仪器的诞生，在理论和手段上极大地丰富了水质分析技术。同时数据挖掘技术的应用和发展又为综合处理水质分析技术所能提供的大量信息提供了保证。数据挖掘技术在污染分类、水质趋势分析、水质量控制等水质管理研究方面，取得了显著的效果，获得了广泛的应用。数据挖掘技术是当今智能系统理论和技术的重要研究内容，它综合运用人工智能、计算智能(人工神经网等)、模式识别、数理统计等先进技术从大量数据中挖掘和发现有价值和隐含的知识，因而近年来得到国内外极大重视和研究。水质综合分析评判技术的研究方法、新技术、新理论、新方法不断得到发展。本项目把非系统聚类中的快速聚类法（K-means method）和系统聚类中的层次聚类法（Hierarchical method）用于佛山市南海区水质的分类评价，是佛山市南海区水质综合评价工作中的一次新的尝试。我们对现有的水质特征信息提取与处理进行了综合分析，把水质分析评判技术、SPSS、聚类分析、等手段结合起来，利用计算机建立的快速聚类模型和层次聚类模型两个聚类模型，通过使用SPSS 11.5统计分析软件对对水质的原始数据进行特征信息的深入挖掘，对两种聚类方法的算法、操作过程、聚类结果进行比较，可以很好地结合两种聚类方法的优点从多角度分析地表水质状况，发现水质随季节性变化的规律和更为科学的、有针对性的水质评价指标。研究的结果还提出了一条研究地表水地新思路，针对地表水系水质的时间季节变化规律，对过去的地表水质环境变化做出描述和对今后其变化做出科学的预测。是一种值得推广的环境综合评价方法。关键词快速聚类分析层次聚类分析聚类分析模型水质分类评价季节性变化规律水质评判指标一、课题立项与研究的目的的意义佛山市作为广东省水污染防治中的“排头兵”，近年来佛山市南海区环境保护局投入了大量的人力物力，进行关于水质的理化项目及生物项目的采样监测，全面地评价水质污染情况。目前有许多对理化项目或者生物项目进行综合评价的指标、方法，但没有一个得到公认的综合性评价指标和方法。而聚类方法是弥补这一空缺，这种方法直接对所有项目进行综合比较、分类评价，其中又以非系统聚类中的快速聚类法（K-means method）和系统聚类中的层次聚类法（Hierarchical method）最为常用。应用快速聚类分析（非系统聚类）或层次聚类分析（系统聚类）这两种数学统计手段来对河流水质进行分类评价，是近年来出现的一种新的环境综合评价方法。但是许多研究均是针对某一种方法的应用来展开讨论，而本文将非系统聚类法和系统聚类法用于水系水质分类评价，通过比较两者的聚类结果，选取对水质分类描述最为直观、准确的数据展示方法，进行水质分类的综合评价。特别地，这是佛山市水质综合评价工作中的一次新的尝试。要科学合理地做出河流水质进行的分类评价，可以把两种方法中的优点合起来对水质进行分析评价。本文从两种方法的实际操作和各自聚类结果的比较分析为出发点，探索聚类技术在佛山市南海区进行水质综合评价的实际应用效果。二、文献综述我国经济持续发展，随之而来的环境问题也越来越受到人们的关注。当前水资源紧缺、分类评价技术要求和准确性越来越高，无论在教育界还是理论界，都对水质的分析评价以极大的关注，因此各种有关水质分析评价就成为了当前的一个研究焦点。2.1 我国水质评判分析研究现状目前有关水质分析评判的研究的文献很多，在查阅的文献中应用聚类方法的研究，主要的研究有：吕爱琴（2003）发表佛山市北江下游水道水质评价及趋势分析研究报告，该研究根据多年所测水质资料及入河排污口调查成果，对佛山市境内北江干流水道(三水河口-紫洞)及其分支水道潭洲水道和平洲水道部分河段水质现状进行评价，并对河流水质变化趋势进行分析。经苏龙（2002）等发表水质污染大容量样本的快速模糊分级聚类法研究报告，该研究针对水质污染评价分级界限存在的模糊性.应用模糊数学理论建立模糊分级聚类法。介绍了模糊分级聚类在水质污染评价中的计算方法及步骤,并对某地区水质污染进行评价.最后对模糊聚类发计算结果进行对比.说明模糊分级聚类法是一种简单快速的好方法。胡小冬（2002）等发表应用系统聚类分析法进行水质分类评价研究报告，该研究把系统聚类法用于珠江三角洲水来水质的分类评价，是珠江三角洲水质综合评价工作中的一次新的尝试。并利用计茸机建立一个通用模型，使这一评价方法在使用中十分简便。分析结果反映出水质随季节变化较大等现律，这对于进一步研究三角洲水系水质的变化规律有一定作用，是一种值得推广的环境综合评价方法。王立新（2001）等发表模糊聚类法在我国城市内河水质污染分类研究中的应用研究论文，该研究运用模糊ISODATA分类方法对我国67个城市共87条主要城市内河(包括中小型河流城市区段)，选取了包括氧平衡参数、营养元素、重金属离子、等共12个指标进行水质污染程度的分类研究.在以上分类的基础上，选取污染超过地表水环境质量III类标准的53条城市内河计算污染分担率，对其按污染类型进行分类:并探讨了城市内河污染类型与城市产业结构之间的关系。费宇（1997）等发表聚类分析在滇池水质污染监测中的应用研究报告，该研究主要针对人称“高原明珠”，云南最大的淡水湖泊滇池进行深入的调查研究。由于城市生活及工农业生产给滇池造成了不同程度的污染，为综合治理滇池平方公里的水域，利用聚类分析法探讨将滇池水域按污染程度分区，以便治理。对滇池水质的综合治理取得良好的效果。沈德富（1993）发表了模糊贴近度、聚类分析模式在水质评价中的应用研究报告，该研究应用模糊贴近度、聚类分析模式对南通市十一条河流1990年度年监测均值进行了评价。评价过程中,对两种贴近度模式进行了实用性验证;分析了聚类分析模式传统立矩方法中的缺陷,提出了采用环境单元与水质标准单元相应参数的贴近度立矩聚类分析的方法;并将非归一化法、归一化法处理贴近度(或标准化数值)立矩聚类分析结果进行了比照;从数学角度阐明了非归一化法立矩聚类分析方法可行性。唐以剑（1986）发表了区域河流水质的模糊聚类分析研究研究报告，阐明水作为地表物质迁移的一种溶剂与媒介,尤如人体的“血液”一样,穿行于岩石、土壤与各种生物体之间。一个特定区域范围内的河流水质,不仅受自然因素的控制,而且也受人类社会经济活动的影响。因此,一个区域河流水质的变化过程,就是该区域自然环境变化和人文环境变化共同造成的。该研究利用模糊聚类分析水质，完善了聚类方法在水质分析评判中应用的理论研究。陈迪钊(1991)发表了怀化市太平溪21种水质监测对象的聚类分析研究报告，该研究用聚类分析的方法对环境监测样本进行解析,科学地区分了水中人为因素和自然因素所致的环境样本。张子安(1987)发表了应用系统聚类分析的方法评价珠江流域北江水系的水质状况研究报告，由于硅藻被认为是水体环境的良好指示藻类该研究利用着生硅藻结合水体中的物理、化学等因素,以系统聚类分析方法对珠江流域北江水系的8条河流的水质状况进行评价,证明这些河流的水质是清洁的。2.2 研究缺陷作为水质管理研究中的重点研究对象，水质分析评价方法的选定是决定水质管理科学性的一个很重要的环节。由于水质的情况随地域和季节的不同，会有明显的差异性，因此评价标准也应该有所不同，以根据水质的变化做出较科学合理的水质分类评判。然而上述研究均忽视了对于不同时期、不同用途的水质的污染原因是有所变化的，因此所适用的聚类方法并不是唯一不变的，不能只采用系统聚类的方法或者只采用非系统聚类的方法。本文拟以这两种方法的实际操作和各自聚类结果的比较分析为出发点，挖掘佛山市南海区河流水质随季节变化的规律并找出各类河流水质最为适用的评价标准。完善聚类技术在水质分析评判中的应用研究，为该地区进一步的水质分析评判方法研究提供一种参考。三、水质评价资料说明佛山市南海区主要有两间水厂（南海水厂和南海第二水厂）。南海水厂吸水点位于平洲水道石啃河段，供水范围为桂城、大沥镇得黄歧地区和盐步地区、狮山镇松岗地区。南海第二水厂得吸水点位于东平顺德水道狮山段。根据国家环境保护总局城市集中式饮用水源地水质检测、评价与公布方案，饮用水评价标准执行地表水环境质量标准（GB38382002）的III类标准。佛山市南海区环保局的工作之一是对区内水系中的15个监测断面进行了采样监测，其中包括PH、悬浮物、总硬度、溶解氧、高锰酸盐指数、五日生化需氧量、氨氮、非离子氨、亚硝酸盐氮、硝酸盐氮、挥发性酚、氰化物、砷、汞、六价鉻、铅镉、石油类、电导类、化学需氧量、锌、镍共22个理化项目指标。本次研究数据来源是在2001年1月至12月期间，对佛山市南海区七大河系15个断面分别在三个时期（枯水期、丰水期和平水期）各进行4次实地采样，共取得了45组22个项目的水质监测资料，统计后的测定数据。详见附表1。四、建立分析模型 4.1数据预处理设检测断面为M，检测项目为N，用这些数据可以构成M个N维向量。考虑到各个向量元素的量纲和数量级互不相同，不便统一比较，可用下式进行无量纲化。式中为第i个采样断面上第j个水质项目的实测数据。54.2 快速聚类法分析模型将M个向量各视为一类，采用欧氏距离公式，计算各类之间的距离: 式中为i类（）和j（）类之间的距离。在中找出最小值，这说明第i0j0类之间的距离最近，故可以将i0类和j0类合并成一个新类。当P类（）和Q类（）合并成新类时，可按下式计算新类与旧类之间得安距离： 8 式中为新类与旧类之间的距离，为新类中包含向量的个数，和分别为和、和的距离，、分别为、中包含向量的个数。重复步骤、，直到所有的向量被分类。5 4.3 层次聚类法分析模型研究变数或样本的亲疏程度的数量指标有两种，一种叫相似系数，性质越接近的样品，它们之间的相似系数越接近已1（或-1），在进行聚类处理时，将比较相似的样品归为一类，不怎么相似的样品归为不同的类，另一种是距离，它将每一个样品看成是m维空间（即有m个变量）的一个点，在这m维空间中定义距离，距离比较近的点归为同一类，距离较远的点归为不同的类。在聚类分析的重要元件为样品间的距离，聚类间的距离，并类的方式，聚类数目的判定。相似系数和距离。4.3.1常用的样品间距离公式 (1)明科夫斯基(Minkowski)距离 ( i,j=1,2,.,n ) (2)欧式距离(二阶Minkowski度量) 欧式距离的使用最为广泛。 ( i,j=1,2,.,n ) (3)绝对值距离(又称Manhattan度量或纲格度量)，這是一阶Minkowski度量。 ( i,j=1,2,.,n ) (4)切比雪夫距离(Chebychev) ( i,j=1,2,.,n ) 7 4.3.2参数间的相似系数在对变量进行分类时，通常采用相似系数来表现变量之间的亲疏关系。相似系数定义如下：設 Cij 表示变量 yi 与 yj 間的相似系数，则 Cij 应满足如下关系： (1) Cij= 1 yi = ayj (a0，a为常数) (2)1 对一切 i，j 成立。 (3) Cij = Cji 对一切i，j 成立。越接近于1，表示yi 与 yj 关系越密切，越接近于零，则yi与yj 关系越疏远。1 4.3.3.距离与相似系数选择原则距离的选择是比较复杂的，在初次进行聚类分析是，不妨多选择不同的距离，进行聚类，然后作比较分析，再确定合适的距离系数。在系统聚类法中，设第一次并类的两类距离为D1，第二次并类的两类距离为D2，如果满足D1D2，则称并类的距离具有单调性。 .最短距离法的并类方式均为把聚类间的最短距离者合并为一类。它的聚类算法是把两个类之间的距离定义为一个类的所有个体与另一个类的所有个体之间距离的最小者。即类 Gp 与 Gq 之间的距离Dpq定意为： Dpq = 例如：五个样品构成的距离矩阵为 D(0)：开始时这五个样品自称一类，由于D12 = d12 = 1 为D(0)中最小，则G1与G2合并成一新类，记作G6 = x1，x2然后重新计算每一类与新类G6的距离7，即 D63 = min (d13，d23) = min (3.5，2.5) = 2.5 D64 = min (d14，d24) = min (5，4) = 4 D65 = min (d15，d25) = min (7，6) = 6得距離矩陣D(1)。 D(1)中1.5为最小，將G3与G4合并为G7 = G3，G4，然后计算G7与其它各类的距离。 G67 = min d13，d23，d14，d24 = min D63，D64 = min 2.5，4 = 2.5D64 = min (d14，d24) = min (5，4) = 4 D65 = min (d15，d25) = min (7，6) = 6的距离矩阵D(1)。 D(1)中1.5为最小，將G3与G4合并为G7 = G3，G4，然后计算G7与其它各类的距离。 G67 = min d13，d23，d14，d24 = min D63，D64 = min 2.5，4 = 2.5之后以此类推最短距离法在两类合并后，它与其它类的距离是所有距离最小者，因此使距离空间很快收縮。74.4 两种聚类方法的比较4.4.1 两种聚类方法的优点对于快速聚类法来说，通过对前面的试验得到的结果的分析我们可以看出，它显著的优点是利用K-means聚类算法得到的对水质分类的结果基本达到了对水质进行聚类的目的。2而且即使我们选取了较多的样本，但是实现的速度较快。对于层次聚类法来说，层次方法对给定数据对象集合进行层次的分解。根据层次分解是自底向上还是自顶向下形成，层次聚类的方法可以进一步分为聚类的和分裂的。所得到的结果统计描述直观，过程描述清楚，可以追溯任何一个类的形成过程，结果关联性较强。4.4.2 两种聚类方法的缺点K-means算法得到的结果是有效的，但是得到的结果却是固定的、多个聚类之间是没有联系的。虽然可以采用层次聚类结果中的树形图观察水样和类之间的关系。3但是层次聚类方法的缺陷在于，一旦一个步骤(合并或分裂)完成，它就不能被撤消，因此不能更正错误的决定。因此通过改进聚类方法的来提高聚类质量的一个有希望的方向是将层次聚类和快速聚类技术进行集成，形成多阶段、快速准确聚类，结合起来对水质进行聚类分析综合评价。五、应用快速聚类法进行水质分析评价分别对三个时期与全年共45组监测数据进行层次聚类分析，为便于分析，可将结果绘制成快速聚类结果汇总表5.0。分析项目分析水样 Cluster Membership of丰水期Cluster Membership of平水期Cluster Membership of 枯水期Cluster Membership of 全年Case NameCase NOClusterDistanceClusterDistanceClusterDistanceClusterDistance官山桥1115.40254.00518.2281.000雅瑶大桥256.56421.81058.13926.253圣堂3511.7433.0003.0003.000桂江大桥414.61621.8104.00028.140泌冲大桥555.47757.00052.67446.450里水上舍655.07054.10455.01743.252凤岗7110.7844.0002.000213.967和顺大桥813.15159.99656.17146.483南海水厂947.11955.20514.09554.544五斗桥1031.38954.44114.7545.831平洲1137.73654.95616.75551.101沙头北村1224.05312.53811.87746.442狮山渡口1324.0531.18013.78346.260河岗1436.3751.57813.36355.440下东1547.11912.10216.9685.747表5.0 快速聚类结果汇总表*注：“Cluster” 是该水样所属类别，“Dsitance”是与该类中心的聚类分析距离。5.1 丰水期水质的分类评价5.1.1 丰水期单因素方差分析（ANOVA）结果分析 VariablesClusterErrorFSig. Mean SquareDfMean Squaredf 悬浮物7379.575471.41010103.341.000溶解氧18.7234.9971018.779.000五日生化需氧量71.343410.442106.832.006高锰酸盐10.32242.126104.855.020氨氮5.0904.832106.115.009表5.1 丰水期单因素方差分析（ANOVA）结果表*说明：表格中第六列F统计量其实是第二列（平均组间平方和）除以（平均组内平方和）的结果。根据表4.1，可以分析出，悬浮物变量的平均组间平方和（Mean Square）为7379.575，平均组内平方和为71.410，F统计量为103.341，F统计量的伴随概率为0。相伴概率小于显著水平0.01，因此可以认为对悬浮物变量，5个类的水样存在显著的差异。同样，对于溶解氧、五日生化需氧量和氨氮分别为0、0.006和0.009，相伴概率斗小于显著性水平0.01，因此5个类在这三个方面存在的显著的差异。对于高锰酸盐这一变量的F统计相伴概率为0.02，小于显著性水平0.05，可以认为在水样中存在比较显著的差异。因此，从5个类的单因素方差分析看，将样本划分为5类的快速聚类分析基本上是成功的，聚类效果比较理想。5.1.2 丰水期各类包含样本情况对丰水期15组监测数据进行快速聚类分析，其结果列于表4.0。从表4.0可以看出，这15个测次的水体，按其聚类结果可以大致分为5类不同的水质类别:2001年丰水期官山桥、桂江大桥、凤岗与和顺大桥水样(序号分别为1、4、7、8)为第1类;2001年丰水期沙头北村和狮山渡口两个水样(序号分别为12、13)为第2类;2001年丰水期五斗桥、平洲、河岗三个水样(序号分别为10、11、14)为第3类;2001年丰水期南海水厂和下东两个个水样(序号分别为5、6、8、12、13)为第4类;2001年丰水期雅瑶大桥、圣堂、泌冲大桥和里水上舍四个水样(序号分别为9、10、11、14、15)为第5类;通过观察各水样与该类的中心距离值可以判别相同类别水体之间的差异各不相同，其中以官山桥、圣堂和凤岗河段水体与其类内其它采样水体差异较大，与类中心距离值分别为15.402、11.743和10.784，都超过10，这时要重点分析这三个断面的水质分类准确性。（在下一章中进行检验）而对于桂江大桥、和顺大桥、五斗桥等与类中距离较小的断面样本水体，与内中心距离小于4，可以作为该类的标准样本与其他类成员进行比较。5.2平水期水质的分类评价5.2.1 平水期单因素方差分析（ANOVA）结果分析 VariablesClusterErrorFSig. Mean SquareDfMean Squaredf 悬浮物2500.300414.27510175.147.000溶解氧18.14842.339107.759.004五日生化需氧量88.10943.2211027.357.000高锰酸盐211.38146.7151031.477.000氨氮52.9314.5451097.189.000 表5.2 平水期单因素方差分析（ANOVA）结果表*说明：表格中第六列F统计量其实是第二列（平均组间平方和）除以（平均组内平方和）的结果。根据表4.2，可以分析出，悬浮物变量的平均组间平方和为2500.3，平均组内平方和为14.275，F统计量为175.147，F统计量的伴随概率为0。另外，五日生化需氧量、高锰酸盐和氨氮三个变量的伴随概率都为0，需氧量变量的伴随概率为0.004，相伴概率小于显著水平0.01，因此可以认为对悬浮物变量、五日生化需氧量变量、高锰酸盐变量和氨氮变量，5个类的水样存在显著的差异。因此，从5个类的单因素方差分析看，将样本划分为5类的快速聚类分析基本上是成功的，聚类效果比较理想。5.2.2 平水期各类包含样本情况对平水期15组监测数据进行快速聚类分析，其结果列于表4.0。从表4.0可以看出，这15个测次的水体，按其聚类结果可以大致分为5类不同的水质类别:2001年平水期沙头北村、狮山渡口、河岗和下东的水样(序号分别为12、13、14、15)为第1类; 2001年平水期雅瑶大桥、桂江大桥二者的水样(序号分别为2、4)为第2类; 2001年平水期圣堂水样(序号为3)为第3类; 2001年平水期凤岗水样(序号为7)为第4类; 2001年平水期泌冲大桥、里水上舍、和顺大桥、南海水厂、五斗桥、平洲这五个水样(序号为5、6、8、9、10、11)为第5类;通过观察各水样与该类的中心距离值可以判别聚类结果令人满意，其中狮山渡口与第一类中心距离为0.18、雅瑶大桥和桂江大桥与第二类中心距离均为1.81、圣堂和凤岗则分别是第三类和第四类的中心样本（因为只有一个样本，故中心距离为零），表明这三个断面水样与其类内其它采样水体差异很小，均可作为该类的中心样本标准值与同类水样进行比较分析。但和顺大桥与第五类中心距离接近10（为9.9996），这时要重点检验分析这个断面的水质分类，以确保分类的准确性。（在下一章中进行检验）5.3 枯水期水质的分类评价5.3.1 枯水期单因素方差分析（ANOVA）结果分析 VariablesClusterErrorFSig. Mean SquareDfMean Squaredf 悬浮物2698.817419.13110141.074.000溶解氧31.30643.174109.864.002五日生化需氧量105.47041.05310100.158.000高锰酸盐555.31346.9941079.402.000氨氮104.52946.3511016.460.000表5.1 枯水期单因素方差分析（ANOVA）结果表*说明：表格中第六列F统计量其实是第二列（平均组间平方和）除以（平均组内平方和）的结果。根据表4.1，可以分析出，悬浮物变量的平均组间平方和为2698.817，平均组内平方和为19.131，F统计量为141.074，F统计量的伴随概率为0。另外，五日生化需氧量、高锰酸盐和氨氮三个变量的伴随概率都为0，需氧量变量的伴随概率为0.002，相伴概率小于显著水平0.01，因此可以认为对悬浮物变量、五日生化需氧量变量、高锰酸盐变量和氨氮变量，5个类的水样存在显著的差异。因此，从5个类的单因素方差分析看，将样本划分为5类的快速聚类分析基本上是成功的，聚类效果比较理想。5.3.2枯水期各类包含样本情况对枯水期15组监测数据进行快速聚类分析，其结果列于表4.0。从表4.0可以看出，这15个测次的水体，按其聚类结果可以大致分为5类不同的水质类别: 2001年枯水期采样的官山桥、南海水厂、五斗桥、平洲、沙头北村、狮山渡口、河岗和下东水样(序号分别为1、8、9、10、11、12、13、14、15)为第1类;2001年枯水期采样的凤岗水样(序号为7)为第2类;2001年枯水期采样的圣堂水样(序号为3)为第3类；2001年枯水期采样的桂江大桥水样(序号为4)为第4类;2001年枯水期采样的泌冲大桥、里水上舍与和顺大桥个水样(序号分别为5、6、8)为第5类;通过观察各水样与该类的中心距离值可以判别各类的中心样本，其中第一类应以沙头北村的水样作为中心样本（与类中心聚类为1.877）；第二、三、四类分别以凤岗、圣堂和桂江大桥的水样作为中心样本（因为这三个断面分别为该类唯一的类成员）；第五类应以泌冲大桥的水样作为中心样本（与类中心聚类为2.674）。由于官山桥、雅瑶大桥、和顺大桥、平洲和下东这五个断面水样与类中心距离值偏大（均超过6），而总体聚类结果各类成员数目差异较大（其中三类只有一个类成员），因此余下的两类（第一类和第五类）中成员的差异性较小，这时要重点分析这两个类成员的水质分类准确性。（在下一章中进行检验）5.4 全年水质的分类评价5.4.1 全年单因素方差分析（ANOVA）结果分析 VariablesClusterErrorFSig. Mean SquareDfMean Squaredf 悬浮物1313.868437.1841035.335.000溶解氧18.15742.968106.118.009五日生化需氧量53.78643.2181016.716.000高锰酸盐232.03247.8441029.580.000氨氮43.50841.5911027.349.000表5.4 全年单因素方差分析（ANOVA）结果表*说明：表格中第六列F统计量其实是第二列（平均组间平方和）除以（平均组内平方和）的结果。根据表4.1，可以分析出，悬浮物变量的平均组间平方和为1313.868，平均组内平方和为37.184，F统计量为35.335，F统计量的伴随概率为0。另外，五日生化需氧量、高锰酸盐和氨氮三个变量的伴随概率都为0，需氧量变量的伴随概率为0.009，相伴概率小于显著水平0.01，因此可以认为对悬浮物变量、五日生化需氧量变量、高锰酸盐变量和氨氮变量，5个类的水样存在显著的差异。因此，从五个类的单因素方差分析看，将样本划分为5类的快速聚类分析基本上是成功的，聚类效果比较理想。5.4.2 全年各类包含样本情况对全年15组监测数据（年平均值）进行快速聚类分析，其结果列于表4.0。从表4.0可以看出，这15个测次的水体，按其聚类结果可以大致分为5类不同的水质类别:2001年全年官山桥水样(序号为1)为第1类;2001年全年雅瑶大桥、桂江大桥和凤岗三个水样(序号分别为2、4、7)为第2类;2001年全年圣堂水样(序号为3)为第3类;2001年全年泌冲大桥、里水上舍、和顺大桥、沙头北村和狮山渡口五个水样(序号分别为5、6、8、12、13)为第4类;2001年全年南海水厂、五斗桥、平洲、河岗和下东水样(序号分别为9、10、11、14、15)为第5类;通过观察各水样与该类的中心距离值可以发现，其中第一类和第三类分别以官山桥和圣堂作为类中心样本（因为两者分别为两类中的唯一成员），这两个水样与其他类水样差异性显著；雅瑶大桥是第二类中离类中心最近的样本（距离为6.253），另外类中凤岗的类中心聚类大于10（为13.967），因此较前面的聚类结果分类效果不明显，说明该类的断面水质稳定性较差，这与第四类的情况相当；而第五类中，应以下东断面的水样作为类中心标准值（该水样与类中心距离为0.747），用来对第五类的其他类成员进行比较观察。六、应用层次聚类法对水质分类评价分别对三个时期与全年共45组监测数据进行层次聚类分析，为便于分析，可将结果绘制成聚类分析图。 6.1 全年水质的分类评价以下是层聚类分析的树形图（Dendrogram）树形图6.1.1从树形图5.1.1中我们可以看出各类之间的距离在25的坐标内。可以清晰地看出是那些类先聚类，结合凝聚状态表进行判别。树形图能很直观的反映出整个聚类过程。全年的水质的分类共五类，其中官山桥为第1类；雅瑶大桥，桂江大桥，凤岗为第2类；圣堂为第3类；泌冲大桥，里水上舍和和顺大桥为第4类，其余的南海水厂，五斗桥，沙头北村，狮山渡口，河岗，下东为第5类。6.2丰水期水质的分类评价凝聚状态表 6.2.1 树形图 6.2.2从凝聚状态表 5.2.1中的数据结果我们可以看到，该表的第一列（Stage）表示聚类分析的步骤，可以看出本例子共进行了14个步骤的分析。样本10和14先进行聚类，样本距离为0.108，结果在第三步中使用到。第四列（Coefficients）表示两个样本或类之间的距离。距离小的样本之间先聚类。第五和第六列（Stage cluster first appears）表示某步分析中参与聚类的是样本还是类，第七列（Next stage）表示本步聚类结果在下面的聚类中第几步用到。如第一行中的结果在第三行中使用到。从树形图 5.2.2中我们可以看出各类之间的距离在25的坐标内。可以清晰地看出是哪些类先聚类，结合凝聚状态表进行判别。树形图能很直观的反映出整个聚类过程。在丰水期，官山桥、里水上舍、和顺大桥、桂江大桥、泌冲大桥为第1类；雅瑶大桥、凤岗为第2类；圣堂第3类；南海水厂、五斗桥、下东、平洲为第4类；沙头北村，狮山渡口为第5类。6.3 平水期水质的分类评价凝聚状态表6.3.1 冰柱图6.3.2从凝聚状态表5.3.1中的数据结果我们可以看到，该表的第一列（Stage）表示聚类分析的步骤，可以看出本例子共进行了14个步骤的分析。样本13和14先进行聚类，样本距离为0.058，结果在第二步中使用到，第四列（Coefficients）表示两个样本或类之间的距离。距离小的样本之间先聚类。第五和第六列（Stage cluster first appears）表示某步分析中参与聚类的是样本还是类，第七列（Next stage）表示本步聚类结果在下面的聚类中第几步用到。如第五行中的结果在第八行中使用到。对于冰柱图5.3.2，该表格的第一列表示类数，冰柱图一般从表格的最后一行开始观察。最后一行中类的数目为14，即样本聚集成14类，其中样本13和样本14用X连接在一起表示两个样本聚成一类，其余每个样本构成一类。倒数第二行中，类的数目为13，其中13，14和15聚成一类，其余每个样本构成一类。如此类推。如聚成5类时，样本2，4属于一类；样本9，10，11，12，13，14，15属于一类；样本1，5，6，8属于一类；样本3属于一类；样本7属于一类。在平水期，官山桥、里水上舍、和顺大桥、泌冲大桥为第1类；雅瑶大桥，桂江大桥为第2类；凤岗为第3类；南海水厂、五斗桥、下东、平洲、沙头北村、河岗为第4类；圣堂为第5类。6.4 枯水期水质的分类评价冰柱图6.4.1 树形图6.4.2在冰柱图5.4.1中该表格的第一列表示类数，冰柱图一般从表格的最后一行开始观察。最后一行中类的数目为14，即样本聚成14类，其中样本13和样本14用X连接在一起表示两个样本聚成一类，其余每个样本构成一类。倒数第四行中，类的数目为11，其中12、13、14和15聚成一类；样本9、10聚成一类；其余每个样本构成一类。如此类推。在树形图5.4.2中，从图中我们可以看出各类之间的距离在25的坐标内。可以清晰地看出是哪些类先聚类，结合凝聚状态表进行判别。树形图能很直观的反映出整个聚类过程。在枯水期，官山桥、里水上舍、和顺大桥、泌冲大桥、雅瑶大桥为第1类；桂江大桥为第2类；凤岗为第3类；南海水厂、五斗桥、下东、平洲、沙头北村、狮山渡口和河岗为第4类；圣堂为第5类。七、结论通过我们前面的研究，我们得出了这样的结论，具体内容如下:分析项目分析水样 Cluster Membership of丰水期Cluster Membership of平水期Cluster Membership of 枯水期Cluster Membership of 全年Case NameCase NOCluster1Cluster2Cluster1Cluster2Cluster1Cluster2Cluster1Cluster2官山桥11 1511 11 1雅瑶大桥2522 2512 2圣堂353353533桂江大桥41 12 2422 2泌冲大桥55 15 15 15 15 15 14 44 4里水上舍6凤岗71243232 2和顺大桥81 151514 4南海水厂94 45 45 45 41 41 41 41 41 41 41 45 55 55 5五斗桥103 43 4平洲11沙头北村122 52 51 41 41 41 445狮山渡口1345河岗14345 55 5下东154 4 表71 快速聚类和层次聚类综合结果表*说明：Cluster1和Cluster2分别代表通过应用快速聚类法和层次聚类法得到的聚类结果。7.1 使用两种聚类方法的结果分析通过上表6.1的分类状况可以观察到：. 无论在任何时期、采用何种方法进行聚类，泌冲大桥断面和里水上舍断面的水样均是同一类，在根据悬浮物、需氧量、五日生化需氧量、高锰酸盐和氨氮这五个变量进行水质评判分析时，可以认为这两个断面的综合水质状况相似。. 在丰水期时，南海水厂、五斗桥、下东、平洲、沙头北村、狮山渡口和河岗这七个断面所划分的分类类间差异较大，而在平水期时所划分的分类间差异开始缩小，到枯水期这七个断面的水质就被分为同一类，而综合全年的分类也接近同一类型，并且与所采用的聚类方法无关，因此可以认为这七个断面的水质在丰水期差异较大，但随季节趋于稳定、相似。 . 对于凤岗、和顺大桥这两个断面的水样来说，在各个时期所用的聚类方法对其分类影响较大，但在全年聚类分析中结果却一致，反应出这两个断面的水质随季节变化大，所以应该针对不同时期选取合适的评价指标变量。 .从官山桥这一断面的水样聚类结果可知，除了平水期以外，所采用的聚类方法对其分类不造成影响，而在平水期确有所不同，可以估计在该时期水质有所变化，有关部门在该时期应该重点针对这一情况进行实地的调查和分析，找出水质变化的原因。若是人为的因素，便要积极采取措施防止水质继续污染。. 从圣堂这一断面的水样聚类结果可知，该断面水样在三个时期中无论采取何种聚类方法均是独自成为一类的，反应出其水样特征具有独特性，因此在水质评价时因与其他水样区别开来，单独分析并设计适用的评价指标。7.2 水质综合评价对照地表水环境质量标准GB3838-2002对常规检测的七大河系15个检测断面进行水质判别分析3，计算出46.7的断面水质保持良好，包括西江干流水道、东平、顺德水道和平洲水道等饮用水源保护区的7个断面，均可达到II类水质标准，符合饮用水水源一级、二级保护区要求。20.0的断面为类水质，包括西南涌下游段和顺大桥断面（III类功能）、流溪河里水上庄断面（II类功能）、官山涌（类功能）官山桥断面。33.3的断面为劣于类，包括西南涌上有凤岗断面（类功能）、水口水道（III类功能），泌冲断面、佛山水道（类功能）桂江大桥断面、雅瑶水道（类功能）的雅瑶大桥、圣堂断面等5个断面。这些断面水质均不符合水体功能要求。另外，通过反复地从22个水质指标中选出检验变量来进行聚类分析，通过比较发现若水体是超标的，均为氨氮河好氧有机污染物指标超标，其中氨氮年平均值超标倍数最大

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

快速聚类法与层次聚类法在佛山市水质综合评价中的应用

文档简介

温馨提示

最新文档

评论

快速聚类法与层次聚类法在佛山市水质综合评价中的应用

文档简介

温馨提示

最新文档

评论

相关文档