聚类分析在城市大气质量数据挖掘中的应用研究.doc_第1页
聚类分析在城市大气质量数据挖掘中的应用研究.doc_第2页
聚类分析在城市大气质量数据挖掘中的应用研究.doc_第3页
聚类分析在城市大气质量数据挖掘中的应用研究.doc_第4页
聚类分析在城市大气质量数据挖掘中的应用研究.doc_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

聚类分析在城市大气质量数据挖掘中的应用研究聚类分析在城市大气质量数据挖掘中的应用研究The Research on Clustering Analysis and its Application in City Air Quality Data Mining摘 要:数据挖掘是指从数据库中发现隐含的、新颖的、有用的信息的过程,而聚类分析则是数据挖掘的主要技术手段之一,至今已在理论和方法上取得了丰硕的研究成果。近年来,大气环境污染问题日益严重。人们越来越关注环境保护与可持续发展,人类活动所排放的气体污染物将会受到严格限制。城市大气质量监测具有典型的数据密集型特征,而如何对监测到的城市大气质量数据进行分类、并针对不同的城市群制定和实施差异化发展战略,己成为当前大气环境保护的迫切要求。本文基于全国31个省会城市大气质量监测数据及其特性,提出利用聚类分析算法,并借助SPSS统计分析软件,进行全国省会城市群梯度分类的方法。关键字:数据挖掘、聚类分析、大气污染、城市细分Abstract:Data mining is the procedure of extracting of implicit, original, useful knowledge in the database, while clustering analysis is one of the main technology measures in the research on data mining with a mass of theories and methods achieved. In recent years, atmosphere pollution has become increasingly serious. With the more and more attention to environment and sustainable development, the gas pollutants of human activities will be strictly limited. The city air quality monitoring has the typical data intensive feature, as well as how to subdivide the monitored city air quality data and how to develop and implement different development strategies to different cities group, which has already become instant demand to protect the environment at the present time. A method is put forward that using clustering analysis subdivide the interior capital cities with the help of SPSS statistical analysis software based on the air quality monitoring data of 31 interior capital cities in this thesis.Key words: data mining, cluster analysis, atmosphere pollution, city subdivision第1章 绪论1.1 我国大气污染现状1大气污染是世界各国面临的最严峻环境问题,如何防止大气污染已被各国政府高度重视。随着经济快速发展及城市化和工业化发展加剧,能源消耗迅速增加,大气污染日益严重。中国大气环境面临的形势尤其严峻,中国已是世界少数大气污染最严重的国家之一,大气污染防治任务艰巨,任重而道远。中国大气污染的主要来源是生活和生产用煤,主要污染物是颗粒物和SO2。颗粒物是影响中国城市空气 质量的主要污染物,SO2污染也保持在较高水平。随着机动车辆迅猛增加,中国部分城市的大气污染特征正在由烟煤型向汽车尾气型转变,NOX呈加重趋势,有些城市已出现光化学烟雾现象。1.2 大气污染物的主要危害1.2.1 颗粒物的危害2目前,人们十分关注大气中的颗粒物污染,尤其是 PM2.5,它可以通过呼吸道,进入肺泡,在肺泡内积聚,引发各种疾病。大气中的颗粒物浓度对人体健康的危害是不完全一样的,浓度越高,危害越严重。此外,颗粒物的大小对人体健康的危害程度也不一样 。 颗粒愈小,对人体的危害愈大。100微米以上的颗粒物,在大气中滞留时间很短,可以很快沉落地面。对人体健康影响不普遍。100微米以下的颗粒物,可以长期在空气中滞留,对人体健康和空气的能见度,有不良影响;10微米以下的颗粒物,可以进入呼吸道,引发呼吸道疾病;2.5 微米以下的颗粒物,可进入肺泡,引发肺气肿等;1.0 微米以下的颗粒物,通过肺泡,进入血液系统,引发多种疾病。1.2.2 硫氧化物的危害3SOX是大气的主要污染物之一,在危害人体健康的同时,还会对设备、建筑物造成损害。SO2是无色、有刺激性臭味的气体,对人体的危害主要表现在对呼吸系统的刺激。人体吸入SO2后,会刺激上呼吸道粘膜表层的迷走神经末稍,使呼吸道的抵抗力减弱,诱发慢性呼吸道疾病,严重的可导致肺水肿和肺心性疾病。如果大气中同时有颗粒物质存在,颗粒物质吸附了高浓度的硫氧化物,可以进入肺的深部。因此当大气中同时存在硫氧化物和颗粒物质时其危害程度可增加34倍。第2章 数据挖掘和聚类分析2.1 数据挖掘数据挖掘的含义是指从大量的、模糊的、随机的实际应用数据中,提取隐藏在其内部中、人们原先不知晓的、却潜在有用的信息和知识的过程4。我们把提取出的信息和知识表示为规律、概念、模式、规则等形式。数据挖掘被认为是一门跨多知识领域和学科的新兴课题,它为我们使用数据从简单查询将变为在数据里挖掘与发现知识从而产生对决策行为提供支持。通常情况下,我们把数据挖掘方法分为两大方面:一是统计类型,有概率分析、相关性、聚类分析和判别分析等常用技术;二是人工智能领域中的机器学习型,通过训练和学习大量的样品集获得需要的模式或参数。2.2 聚类分析52.2.1 聚类分析基本概念聚类分析是数据挖掘的一项重要的方法。聚类就是对数据集中的数据应用某种方法进行分组,把具有相似性质的事物区分开加以分类。也就是将大量的数据划分成群组的过程,即把对象分成多个类,在同一个类中的数据对象之间具有较高的相似度,而不同类中的数据对象差别较大。它对发现数据集内在的结构起着非常重要的作用。聚类分析中用距离来表征不同类之间的相似程度,主要有欧氏距离和闵氏距离等,相似程度越大,距离越短。2.2.2 聚类分析的算法聚类分析的内容十分丰富,一般情况下按方法可以分为以下几种:非系统聚类法、系统聚类法、分解聚类法、动态聚类法、有序样品聚类法和降维法等。 非系统聚类法的典型代表是快速聚类法,即k值聚类法(K-Means Cluster), 该过程可完成由用户指定类别数的大样本资料的逐步聚类分析。所谓逐步聚类分析就是先把被聚对象进行初始分类,然后逐步调整,直到得到最终分类。系统聚类法的典型代表是分层聚类法(Hierarchical Cluster),按照分类对象的不同可以分为R型和Q型两大类,R型是对变量进行分类,Q型是对样品进行分类。其优点是既可以对观测量(样本)进行聚类,也可以对变量进行聚类,对象既可以是连续变量也可以是分类变量。下面章节就讲述了将聚类分析应用到国内31个省会城市大气质量监测数据的处理当中,并按照最终的计算结果对这31个省会城市进行聚类分组。第3章 聚类分析在城市大气质量数据分析中的应用3.1 运用k值聚类法分析城市大气质量数据3.1.1 k值聚类分析过程7首先在SPSS中激活的数据管理窗口中输入31个城市的名称、颗粒物年平均浓度、二氧化硫年平均浓度、二氧化碳年平均浓度和一年中空气质量达标天数,并进行标准化处理。设定聚类数k=5,最大迭代次数为10次,收敛标准值为0.02,计算机随机选择初始聚心。表3.1、3.2、3.3、3.4分别是初始聚类中心表、迭代历史记录表、最终聚类中心表和聚类结果表。表3.1 初始聚类中心聚 类12345颗粒物1.13536-2.60986-.698351.85773-2.08753二氧化硫-.00345-.217591.388441.13861-1.71655二氧化碳1.92011-.50421-1.07839-1.20598-1.78017天数-1.38581-.72026.93288-1.493161.55549表3.2 迭代历史记录迭代聚类中心内的更改1234511.439.0001.4991.2921.3442.105.000.204.486.0003.000.000.000.000.000表3.3 最终聚类中心聚 类12345颗粒物.31112-2.60986-.054701.141320-1.03731二氧化硫.24241-.21759.32073.59434-1.63803二氧化碳1.28213-.50421-.35003-.40851-1.04011天数-.29565-.72026.36215-1.702481.16904表3.4 k聚类分析结果聚类有效缺失123459.0001.00012.0004.0005.00031.000.0003.1.1 k值聚类结果讨论从k值聚类分析的结果中可以看到,31个省会城市共分为五类:第一类城市群里共包含有9个城市,分别是北京、天津、哈尔滨、上海、南京、杭州、武汉、广州、重庆;第二类城市群里只有一个城市,西安;第三类城市群里共包含有12个城市,分别是石家庄、呼和浩特、沈阳、南昌、郑州、南宁、成都、贵阳、昆明、西宁、乌鲁木齐、银川;第四类城市群共包含有4个城市,分别是太原、济南、长沙、兰州;第五类城市群共包含有5个城市,分别是长春、合肥、福州、海口、拉萨。第一类城市第二类城市第三类城市第四类城市第五类城市图3.1 全国省会城市大气质量监测数据k值聚类结果从上图我们不难看出,像北上广这样的大都市和哈尔滨等重工业城市的大气质量较差,并且都分布在东部沿海地区,而东部地区经济相对比较发达;而像拉萨、兰州等这些西部城市,经济发展相对滞后,所以大气质量相对要好些。可见,大气质量和环境的好坏与当地的经济发展水平的确有一定的联系。3.2 运用分层聚类法分析城市大气质量数据在城市大气质量数据中,现在有4个变量影响最后的城市群细分。那么这4个变量对不同城市大气质量排名结果的影响程度是否相同呢?哪个才是最主要的因素呢?针对于这个问题,我们有必要进行SPSS中的R型聚类(变量聚类)过程。3.2.1 R型聚类分析过程选用SPSS中R型聚类分析,输出相似性矩阵,度量标准选用Pearson相关性,聚类方法选择组间联接。表3.5、3.6分别是相似矩阵表和聚类结果表(组间平行联接),图3.2是聚类结果所输出的树状图。表3.5 R型聚类相似矩阵案例矩阵文件输入颗粒物二氧化硫二氧化碳天数颗粒物1.000.449.321-.712二氧化硫.4491.000.330-.477二氧化碳.321.3301.000-.291天数-.712-.477-.2911.000表3.6 R型聚类表阶群集组合系数首次出现阶群集下一阶群集1群集2群集1群集2112.449002213.326103314-.493200图3.2 R型聚类树状图3.2.2 R型聚类结果讨论如果两个变量的相似性系数接近于1或者-1,那么这两个变量可以相互替代。从表3.5相似性矩阵表中可以看到,任何两个变量相似性系数的绝对值都在0.29-0.72之间,所以均不可以相互替代。从表3.6聚类结果表和树状图中可以看出,这4个变量按照对最终城市大气质量综合排名的影响程度的大小可以分为三类:颗粒物年平均浓度和二氧化硫年平均浓度为一类,对最终的城市大气质量综合排名影响最小;二氧化碳年平均浓度为一类,其对最终的城市大气质量综合排名影响中等;全年空气质量达标天数为一类,对城市大气质量综合排名的影响最大,并且远远超过其他三个因素。3.2.3 Q型聚类分析过程之前进行的k值聚类分析得出了31个省会城市细分为五类的结果,而这个是我们在确定了分类数的基础上所得到的结论,它能够真实的反映在四因素影响下31个省会城市大气质量监测数据之间的内在关联吗?在知道了各个因素对结果影响程度的大小之后,我们可以通过Q型聚类分析来确定这些数据到底分为几类才能正确反映出它们之间的内在关联。进行Q型聚类分析之前要先对数据进行标准化,然后我们仍然选择输出相似性关系表和树状图,但是度量标准选用Euclidean距离,聚类方法选择最近距离法。附表A、B分别是相似矩阵表和聚类结果表,图3.3是聚类结果所输出的树状图。图3.3 Q型聚类树状图3.2.4 Q型聚类结果讨论从表3.8聚类结果表和树状图中,可以看到和k值聚类所不同的聚类结果。这里最终的聚类数则具有较大的变化空间,为了方便和k值聚类的结果进行对比,我们仍然确定聚类数为5,得到如下的聚类结果: 第一类城市群:南京、杭州、哈尔滨、天津、成都、南宁、昆明、上海、沈阳、郑州、银川、南昌;第二类城市群:武汉、广州、乌鲁木齐、呼和浩特、石家庄;第三类城市群:兰州、济南、北京、长沙、太原、西宁、合肥;第四类城市群:长春、福州、海口、拉萨;第五类城市群:西安、重庆、贵阳。图3.4 全国省会城市大气质量监测数据Q型聚类结果从上图我们依然可以看出,东部地区省会城市的大气质量普遍低于中西部地区省会城市的大气质量,经济越发达,大气质量越差,如东三省、京津冀、长三角等。但是具体城市的大气质量分布和k值聚类所得出的结果有一定的不同。尽管如此,由这两个结果可以看出,我国城市的大气环境质量具有一定的区域集中性,并且与经济发展水平也有一定的相关性。第4章 结果与讨论文章分别利用k值聚类分析、R型聚类分析和Q型聚类分析的方法,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论