我国主要城市空气质量的聚类分析和判别分析_第1页
我国主要城市空气质量的聚类分析和判别分析_第2页
我国主要城市空气质量的聚类分析和判别分析_第3页
我国主要城市空气质量的聚类分析和判别分析_第4页
我国主要城市空气质量的聚类分析和判别分析_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、对我国主要城市空气质量的聚类分析和判别分析 摘要本文应用多元统计分析中聚类分析和判别分析的理论,使用SPSS17.0软件和spss13.0对我国主要城市的空气质量进行了聚类分析,将31个城市按照空气质量的类型分为了四类。在此基础上,对这些城市的空气质量归属进行了回报判别,结果令人满意。关键词 :spss,聚类分析,判别分析,回报判别,空气质量类型Abstract:According to the theory of Cluster Analysis and Return Discrimination in the book of Multivariate Statistical Analysi

2、s and according to the software of SPSS17.0 and SPSS13.0 ,and processing the date of our mainly city in our county ,and classify 31 cities into four according to the air of quality .Based on the foundation ,according to Return Discrimination to make process about air quality to decide which rank bel

3、ong to, the outcome is satisfactory.Keyword: SPSS;Cluster Analysis;Discriminant Analysis;Return DiscriminationType of Air Quality1引言经济发展水平是衡量人民生活水平的重要指标。对各地区经济发展水平的充分认识与探究有利于调整经济发展战略,有利于各地区经济均衡发展。聚类分析的基本思想是:在样品之间定义距离,在变量之间定义相似系数,距离或相似系数代表样品或者变量之间的相似程度。按相似程度的大小,将样品逐一归类,关系密切的类聚集到一个小的分类单位,然后逐步扩大,使得关系疏远

4、的聚合到一个大的分类单位,直到所有的样品都聚集完毕,形成一个表示亲疏关系的谱系图,依次按照某些要求对样品进行分类。一般地,根据分类对象的不同,聚类分析可以分为Q型和R型两大类。Q型聚类分析是对样本进行分类处理,R型聚类分析是对变量进行分类处理。2判别分析也是一种数据的分析方法。在事先已经建立了样品分类,需要将新样本归入到已知分类的样本组中时,就可以使用判别分析。本文以8指标为变量,采用系统聚类分析Ward方法(离差平方和法),对我国31个主要城市的空气质量类型进行了聚类。并在此基础上,对这些城市的空气质量归属进行了回报判别。2聚类分析和主要城市空气质量类型的划分2.1指标的选取本文选取了全国3

5、1个城市的2008年的四项空气质量指标作为对空气质量类型划分的依据,所选数据全部来自中国统计年鉴,具体见下表。 主要城市空气质量指标 (2008年)单位:毫克/立方米城 市空气质量达到及可吸入颗粒物二氧化硫二氧化氮好于二级的天数(天) 北 京0.1230.0360.049274 天 津0.0880.0610.041322 石 家 庄0.1160.0460.031301 太 原0.0940.0730.021303 呼和浩特0.0700.0490.045340 沈 阳0.1180.0590.037323 长 春0.0960.0300.038342 哈 尔 滨0.1020.0430.055308 上

6、 海0.0840.0510.056328 南 京0.0980.0540.053322 杭 州0.1100.0520.053301 合 肥0.1340.0220.025257 福 州0.0710.0230.046354 南 昌0.0830.0500.036344 济 南0.1260.0520.022295 郑 州0.0940.0600.047325 武 汉0.1130.0510.054294 长 沙0.0970.0530.043329 广 州0.0710.0460.056345 南 宁0.0560.0400.044352 海 口0.0430.0090.017366 重 庆0.1060.0630.

7、043297 成 都0.1110.0490.052319 贵 阳0.0820.0640.023347 昆 明0.0670.0510.039366 拉 萨0.0510.0050.024353 西 安0.1130.0500.044301 兰 州0.1320.0700.054268 西 宁0.1180.0290.030296 银 川0.0840.0490.021330 乌鲁木齐0.1450.1050.0652612.2解决问题的方法和计算结果通过SPSS使用离差平和方法(Ward方法),计算样本的欧氏距离,样本变量按照Z得分进行标准化处理。离差平方和法,也称沃尔德法.思想是同一类内案例的离差平方和应

8、该较小,不同类之间案例的离差平方和应该较大.求解过程是首先使每个案例自成一类,每一步使离差平方和增加最小的两类合并为一类,直到所有的案例都归为一类为止.采用欧氏距离,它倾向于把案例数少的类聚到一起,发现规模和形状大致相同的类.此方法效果较好,使用较广.欧氏距离定义: 欧氏距离( Euclidean distance)是一个通常的距离定义,它是在m维空间中两个点之间的真实距离。 在二维和三维空间中的欧式距离的就是两点之间的距离,二维的公式是 :d = sprt   (x1-x2)2  +  (y1-y2)2  三维的公式是: d =&#

9、160;sprt    (x1-x2)2   +   (y1-y2)2   +   (z1-z2)2   推广到n维空间,欧式距离的公式是: d = sprt    (xi1-xi2) 2      这里 i=1,2.n xi1表示第一个点的第i 维坐标,  xi2表示第二个点的第i 维坐标 n维欧氏空间是一个点集,它的每个点可以表示为(x(1),x(2),.x(n),其中x(i)  (

10、i=1,2.n)  是实数,称为x的第i 个坐标,两个点x 和y = ( y(1), y(2). y(n) )之间的距离 d(x,y)定义为上面的公式.聚类结果将31个城市分成四种空气质量类型。聚类分析得到的聚类分析图谱如下图1所示。表1表2 Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +-+-+-+-+-+ 11 -+ 27 -+ 3 -+ 4 -+ 15 -+ 29 -+ 17 -+-+ 22 -+ | 8 -+ | 9 -+ +-+ 18 -+ | | 30 -+ | | 2 -+-+

11、| 10 -+ | 6 -+ +-+ 16 -+ | | 23 -+ | | 21 -+-+ | | 25 -+ | | | 13 -+ +-+ | 26 -+ | | 20 -+-+ | 5 -+ | 7 -+ | 14 -+ | 19 -+ | 24 -+ | 12 -+ | 31 -+-+ 1 -+ 28 -+表 3类型城市第一类合肥,兰州,太原,呼和浩特,郑州,银川,长沙,上海,成都第二类南京,广州,乌鲁木齐,石家庄,杭州,武汉,长春,贵阳第三类拉萨,重庆,南昌,西安,海口,哈尔滨,沈阳,济南,南宁,昆明第四类天津,西宁,福州,北京从图1,2中可以看出,全国31个城市可以分为四种空气质

12、量类型,如表3所示。2.3结果讨论按照表3聚类分析的分类结果,可以将我国31个城市的空气质量类型分为四类:优、良、污染和轻微污染。第一类型的城市空气质量良好。第二类型的城市属于轻微污染型,这些城市的工业类型多以轻工业为主,对大气环境的污染较轻。第三类型的城市空气质量优,尤其是拉萨,作为我国独具特色的一个旅游城市,在发展经济的同时,特别需要将环境保护的重要性提上日程,不可再走先污染后治理的道路。第四类型的城市属于污染型城市,这些城市人口密集、交通拥挤、工业发达,像北京是全国的政治文化中心,汽车拥有量很大,汽车尾气的排放对环境的污染十分严重。这些城市的大气质量急需改善。第三类型的城市空气质量优,尤

13、其是拉萨,作为我国独具特色的一个旅游城市,在发展经济的同时,特别需要将环境保护的重要性提上日程,不可再走先污染后治理的道路。总的来说,结合这些城市的工业等的发展状况,该聚类结果还是比较符合实际的。3判别分析定义: 判别分析产生于20世纪30年代,是利用已知类别的样本建立判别模型,为未知类别的样本判别的一种统计方法。近年来,判别分析在自然科学、社会学及经济管理学科中都有广泛的应用。判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。判别分析按照判

14、别的组数来区分,可以分为两组判别分析和多组判别分析。建立的判别规则为:计算自变量x到每一个组中心的广义平方距离,并把x判入最近的类。广义平方距离的计算可能使用合并的协方差阵估计或者单独的协方差阵估计,并与先验概率有关,定义为 : 其中 :Vt = St (使用单个类的协方差阵估计)或 Vt = S(使用合并的协方差阵估计)。mt可以用第t组的均值overlineX_t代替。在使用合并协方差阵时, 其中x'S 1x是共同的可以不考虑,于是在比较x到各组中心的义平方距离时,只要计算线性判别函数,当x到第t组的线性判别函数最大时把x对应观测判入第t组。在如果使用单个类的协方差阵估计Vt =

15、St则距离函数是x的二次函数,称为二次判别函数。 后验概率可以用广义距离表示为 :因此,参数方法的判别规则为:先决定是使用合并协方差阵还是单个类的协方差阵,计算x到各组的广义距离,把x判入最近的组;或者计算x属于各组的后验概率,把x判入后验概率最大的组。如果x的最大的后验概率都很小(小于一个给定的界限),则把它判入其它组。 非参数判别方法仍使用Bayes后验概率密度的大小来进行判别,但这时第t组在x处的密度值ft(x)不再具有参数形式,不象参数方法那样可以用mt和St(或St)表示出来。非参数方法用核方法或最近邻方法来估计概率密度ft(x)。 最近邻估计和核估计也都需要定义空间中的距离。除了可

16、以用欧氏距离外,还可以用马氏(Mahalanobis)距离,定义为: 其中Vt为以下形式之一: Vt = S合并协方差阵Vt = diag(S)合并协方差阵的对角阵Vt = St第t组内的协方差阵Vt = diag(St)第t组内的协方差阵的对角阵Vt = I单位阵,这时距离即普通欧氏距离来自""下面对这些城市的空气质量归属进行了回报判别,判别分析采用逐步选择判别分析Fisher判别法。本文采用WilkLambda(每步选择Wilk的统计量值最小的变量进行判别函数)方法进行样品分析及分类。表4表示对判别函数的显著行检验,其中Wilk的值很小,显著概率Sig=0.000,从而

17、认为判别函数有效。表 4显著性检验表函数检验Wilks 的 Lambda卡方dfSig.1 到 3.07967.2999.0002 到 3.45221.0464.0003.996.1031.748表5是逐步判别后给出的判别函数系数表,最后进入的自变量是可吸入颗粒物、二氧化硫和二氧化氮的含量,分别设这三个变量为x1、x2、x3,其判别函数如下:F1=687.606x1+573.39x2+325.217x365.827F2=433.725x1+488.629x2+422.513x342.275F3=573.032x1+400.508x2+189.123x340.646F4=274.6x1+119.

18、857x2+118.602x311.182表5分类函数系数Ward Method1234687.606433.725573.032274.600573.390488.629400.508119.857325.217422.513189.123118.602-65.827-42.275-40.646-11.182Fisher 的线性判别式函数表6为回报判别的结果。可以看到所有的回报率均为1,所以采用的判别分析方法是适用的。表 6分类结果a预测组成员合计12341700017060060060600022100.0.0.0.0100.0.0100.0.0.0100.0.0.0100.0.0100.

19、0.0.0.0100.0100.0a. 已对初始分组案例中的 100.0% 个进行了正确分类。4结论本文对我国31个主要城市的空气质量进行了聚类分析,将其空气质量的类型分为了四类:优、良、污染和轻微污染。通过对实际情况的分析,发现这种划分结果与实际比较相符。通过对这些城市的空气质量归属进行了回报判别,结果令人满意。5建议 随着社会的发展,城市的发展也越来越快,随之而来的环境问题越来越突出,环境污染严重。在附录表中可以看到工业废水排放量都超标。毕竟城市是很多人的居住环境,在运行费用多做些投入,废水治理设施多增加些,可能我的环境会变得更好,当然,这也需要市民的共同努力,使我们的城市居住环境更加美好

20、!参考文献 【1】2008 中华人民共和国国家统计局 中国统计年鉴2008 【2】潘丽军 陈锦权 ,实验设计与数据统计,东南大学出版社,2008 【3】薛薇 ,spss统计分析方法与应用,电子工业出版社,2009 【4】何晓群,多远统计分析第二版,中国人民大学出版社,2008 【5】王国梁,何晓群,多变量经济数据统计分析。西安:陕西科学出版社,1989附录主要城市工业废水排放及处理情况 (2008年)单位:万吨城 市工业废水工业废水工业废水中化学工业废水中氨氮废水治理本年运行费用排 放 量排放达标量需氧量排放量(吨)排放量 (吨)设施数(套)(万元) 北 京836782214918.3443.951440184 天 津2043320413278383440.187587264 石 家 庄2095720795533454192.854740320 太 原246819944725364.131038455 呼和浩特297728024552.6246.6747325.2 沈 阳733267069213.11355.135211989 长 春5487518119289460.11036003.7 哈 尔 滨36203367165202435.515617278 上 海4187141364276532428179022307

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论