【精品】6-石岩的论文_第1页
【精品】6-石岩的论文_第2页
【精品】6-石岩的论文_第3页
【精品】6-石岩的论文_第4页
【精品】6-石岩的论文_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一种顾及异常区域的海温多尺度分区方法石岩i,邓敏i,刘启亮2(1.中南大学测绘与国土信息工程系,长沙,410083;2.香港理工大学土地测量与地理资讯学系,香港九龙红砌)摘要:空间聚类分析是空间数据挖掘的主要方法之一,旨在发现海量数据屮潜在的空间分布模式和异常特 征。本文采用空间聚类分析和多尺度分析札i结合的策略对海温进行多尺度气候分区。首先,针对气候时间 序列特征和异常区域特征,提出一种顾及异常区域的多尺度分区方法。进而,分别采用传统方法和新方法 对海温进行多尺度气候分区,通过比较分析发现新方法更优越。最后,利用气候指数对分区结果进行验证, 说明本文方法有效。关键词:海表气温,尺度空间理论,

2、异常区域,多尺度分区1引言聚类分析是数据挖掘的-个主要方法,其既可以独立地作为一种数据挖掘方法使用, 又可以与其他方法相结合挖掘更深层次的知识。空间数据聚类分析的目的在于将空间数据集 划分为个有意义的簇,使得簇内相似性尽可能髙,簇间差界性尽可能明显,这与气候分区 的内涵高度一致,已成为气候分区的有效手段z。另外,对海洋气候要素进行多尺度 气候分区具有重要研究意义。例如,通过与已知气象指标进行相关性分析,可以找到与气象 指标最吻合结果对应的尺度,此尺度下的空间分布聚集模式具有重要研究价值。并且通过得 到的聚集模式,可以进一步与陆地气候要素进行关联分析,从而挖掘得到海陆气候关联机制, 期望发现未知

3、的气象指标指示陆地气候变化。近年来,许多学者在利用聚类手段进行气候分区方面做了大最研究,人致可归纳为三 类:基于划分的方法2、基于层次的方法以及基于密度的方法。通过分析现有研究可 以发现:(1)基于划分的方法和基于层次的方法严重依赖人为确定聚类数目,导致分区结果 主观性较强;(2)采用现有聚类有效性评价方法对聚类结果评价可靠性不强;(3)基丁密度 的方法仅对分布均质数据分区有效,而不能对所有数据侑效分区;(4)现有研究人都仅在单 一尺度下进行气候分区,耒顾及地理现彖的多尺度效应。现有的多尺度聚类方法主耍以尺度 空间理论为基础闱对社会经济数据设计,未顾及气候时讪宇列数据的特性和异常气候区域, 因

4、此无法直接准确用于气候分区。为此本文提出一种顾及界常区域的多尺度分区方法,对海 温数据进行多尺度分区,进而与el nino指标进行相关性分析找到最佳分区结果。该方法 充分顾及了气彖学的多尺度效应,对海洋区域进行有效分区。2. 顾及异常区域的海温多尺度分区方法2.1传统多尺度分区传统的多尺度分区方法冏顾及到空间邻近和属性相似两个方血,借助尺度空间理论思 想,将聚类系统类比为热力学系统中分子运动随温度变化的融合过程。基本思想为:将每个 空间单元看成一个光点,将一纟r空间数据抽象为一副图像,当模糊化这一图像时,每个光点 模糊为小光斑,进一步模糊化,则小光斑融合为人光斑。当尺度足够大时,整个图像融为一

5、 个光斑。在实际操作时,简化为空间单元之间的传递关系进行聚类,尺度增人时融合在一起 的空间单元作为卜一尺度的新单元进行聚类,直到所有空间单元聚为一类。根据这个算法的 基本思想,下面首先给出几个重要定义。定义1空间邻域:与空间单元,通过边相邻接的所有单元构成i的空间邻域,记为n (z); 定义2 “最小属性差异”规则:对于空间单元7,分别计算空间单元,与其相邻的单元丿z间 的属性差异,即:基金项目:教冇部新世纪优秀人才资助计划(批准号:nect-10()831);高等学校博士学科点专项科研基 金(批准号:20110162110056)。式中:d为属性维数;兀/和心分别为空间单元,和丿在第/维的属

6、性值。与空间单元, 属性差异最小的邻接单元记为乩则j与k建立连接关系。定义3连接方向:设0为空间单元的属性值加权平均值,如果,贝i打指向広反z, 丘指向/;定义4局部极小单元:对于空间单元,,其对应的连接方向均为/指向与其相连单元,那么 7称为局部极小单元;定义5局部极大单元:对于空i'可单元,,其对应的连接方向均为与其相连单元指向7,那么 7称为局部极大单元;对于一个给定的空间数据集,它是由一组多边形空间单元构成,那么传统的多尺度区域 划分方法的步骤可以描述为:(1)寻找一个极小单元作为初始单元必;(2)从s。开始根据连接方向进行扩展,直到扩展到某一极大单元(3)将s。到$路径上所冇

7、单元归为一类,以终止单元&作为类别标志;(4)对还未进行聚类的单元进行以上操作,直到所有单元归到某一个类里,从而得到第1 个尺度下 的聚类结果.(5)将第1个尺度下得到的每个簇作为新空间单元,将簇内空i'可单元的属性平均值作为新 空间单元的属性值,进行下一尺度的聚类,直到所有空间单元聚为一类。下面用一简例对算法进行详细说明,如图1所示。-xp25 一口/疗图1传统多尺度区域划分方法简例fig.l the example of the traditional scale-space theory based regionalization从图1中口j以看出,多边形1、6、8为极大

8、单元,多边形2、3、4为极小单元,多边形 5为其他类型单元,建立的连接关系如箭头所示。对于多边形4和7,虽然与7最相似的为 4,但与4最相似的为5,为了保证搜索路径的单向性,因此消除4与7 z间的连接关系。 根据连接方向进行传递,最终多边形1、2、3融为簇i,用1、2、3的属性平均值作为簇i 的属性值;多边形4、5、6融为簇ii,用4、5、6的属性平均值作为簇ii的属性值;7、8 融为簇iii,用7、8的属性平均值作为簇iii的属性值。进而,簇i、ii、iii作为新的空间单 元进行下一尺度的聚类,直到空间单元1-8融为一个大簇,划分结束。2.2顾及异常区域的多尺度分区由上节中传统的多尺度分区方

9、法可看出,中心单元与其相邻单元建立连接关系时采取的 相对属性差异最小原则,即找到所冇邻接单元中与中心单元属性差界授小者,与其建立连接 关系。假如中心单元为异常区域,则与其邻接单元存在较大差异,即使与最相似邻接单元合 并仍会影响簇的纯度。另外,气候吋间序列数据具有一些特性,主要包括:(1)高维特性, 传统的欧氏距离不能准确度量其相似性;(2)季节性(周期性),虽然季节性是一种重要的 模式,但是通常地球科学家更希望获得一些非季节性、未知的隐含模式。而传统的多尺度分 区方法未顾及气候时间序列的特性,因此针对传统多尺度分区方法存在的缺陷,本文发展了 一种顾及异常区域的多尺度分区方法,研究策略如图2所示

10、。公周期件相关系数度量气候时间 序列相似性图2本文研究策略与einin0指数进行关联,找到与el nino区域最吻介的结果顾及界常区域的多尺度气候分区fig.2 the strategy employed in this paper2.2.1去周期性相关系数首先采用月平均z-core法剔除时间序列的季节性周期进一步采用相关系数对两个 剔除季节性周期的时间序列进行度量。例如,对于t时间序列上某刀份的多年序列值,刀平 均z-core法表达为:(2)x-x(j式中:x和o分别表示该月份时间序列的平均值和标准差。已有研究表明相关系数可有 效顾及时间序列的高维与非线性特性】,因此,对于去周期性后的气候时

11、间序列,采用相 关系数度量序列间的相似性。对于两个d维时间序列x、r,其去周期相关系数记为 rd_s (x, y),表达为:r»s(x,y)=(3)式屮:尹?"分别表示去周期性后序列乩丫的任一元素;x»s、严“分别表 示去周期性后序列x、y的平均值。心_$(兀丫)的取值范围为卜1,1,r-s(x,y)越人,则 表明两个气候时间序列越相似。2.2.2顾及异常区域的多尺度分区木文引入文献12中的异常探测方法发现气候异常区域,进一步顾及异常区域进行多尺 度分区。下面首先介绍几个相关定义。定义6属性距离:给定空间单元0与0,它们z间的属性距离加”(0,。2)表达为:tzu

12、-z2idistattro, q) = ( 4)式中:d为时间序列维数;勾和z2,分别为q和。2的第i维属性。定义7邻域距离:给定空间单元0, 0与其空间邻域内所冇单元z间属性距离的平均值即 为o的邻域距离dist(o, n(o,表达为:disto,noy)=为 distattr0, p)pen(o)|n(o)|式屮:n(o)为空间单元o的空间邻域;p为n(o)内单元。在空间单元o与其邻域内单 元构成的所有属性距离屮,最大距离对应的邻域单元町能是离群单元为了不影响结果,将 最大距离剔除,从而式(4)改进为:如(o,n(o) =工 distattro, p) - max(dist(o, p)p

13、n(o) 产"(0)|n(o)|-1定义8离群系数slof:给定空间单元o,其离群系数slof(o)表示为:slofg f(o,n(o) + /工 dis*p、n(p)(7)甩v(o) , c为了保证分母不为(),同时保证不影响结果,在式(7)屮分了分母同时加一接近()的 常数/离群系数越大,则对应的空间单元的界常度越大,反z越小。鉴于此,对所有空间 单元的s厶of值进行由人到小排序,求得平均值°和标准差儿对每个单元的s厶of值与q+2初 进行比较。若大于等于。+2粘,则此单元视为界常区域。根据上而介绍的异常区域探测方法,进一步给出顾及异常区域的多尺度区域划分的具体 步骤:

14、(1) 对初始数据进行界常探测,找到界常区域;(2) 在对空间单元进行相似性分析时忽略异常区域,从而找到极人、极小单元;(3) 进行分区,得到第1个尺度下的分区结果;(4) 对得到的结果继续进行异常探测,找到新的异常区域;(5) 在分析空间单元时忽略异常区域,继而进行分区,直到所有非界常区域合为一类,算 法终止,得到所有尺度下的异常区域和分区结果。223基于相关性分析的分区结果分析多尺度分区得到的过小和过大尺度下的分区结果研究意义不大,所以若要对结果进行 深层次地分析,需要在各尺度结果屮选取一个适合相关气象分析的最佳结果。el nino指数 是较为成熟和认可的海温气候指数之一,用各尺度下的划分

15、结呆分别与el nino指数采用 相关系数法(见定义9)进行相关性分析,找到与已知einino区域最吻合的分区结果,以 验证本文提出的多尺度分区方法是否有效。定义9相关系数:给定两个d维序列x和y,它们z间的相关系数厂为:y(xk-x)(yk-y)k=0z(-n2k=q(8)式中:厂取值范围为-1,1, r越大,则x和丫相关性越大,反之x和丫相关性越小。3. 实验分析3.1实验数据木文采用西太平洋区域和太平洋区域刀均海表气温数据,此数据来源于美国气候诊断中 心(cdc)ncep再分析资料,时间范围为1982年1月至2007年12月,空间分辨率为1°x1° 的经纬度格网,如图

16、3所示。另外,采用cdc提供的四个表征el nino现象的气候指数 (nino1+2、nino3、nino3.4和nino4)对多尺度分区结果进行验证,其空间范围如表 1所示。数据1西太平洋区域数据2太平洋区域图3实验数据fig.3 the experimental data表1 el nino区域空间范围tab. 1 the spatial range of el nino regionnino regionrange longituderange latitude1+290°w-80°w10°s-0°3150°w-90°w5

17、76;s-5°n3.4170°w-120°w5°s-5°n4160°e-150°w5°s-5°n3.2实验比较下血将采用四太平洋区域数据作为小样本,对传统多尺度区域分区方法与本文提出的 顾及片常区域的多尺度分区方法进行比较,证明本文方法的优越性。两种多尺度分区得到的 结果包括簇数、簇内距离平均值以及簇内距离以及簇内簇间距离比平均值,结果列于表2。表2划分结果信息(“厂左侧为传统方法结果,右侧为本文方法结果) tb2 the infoimation of the regionalisation尺度簇数簇内距

18、离平均值簇间、簇内距离比平均值11687/16501.6744/1.66662.8385/2.8552762/7152.8172/2.78942.2909 / 2.32343347 / 3244.1016/42.0417/2.12024163/1545.6749/5.40331.6403/1.7931573/747.2718/6.68881.4792 / 1.788637/388.2539/7.54341.4911 / 1.9794718/219.1602 / &07841.5618/2.4101810/139.8661 / 8.01461.6805 / 2.99795/910.453

19、2/6.97011.8506/4.()481102/815.8659/6.41280 / 4.49811i /715.8661/6.41290 / 4.498簇内距离为簇内各单元到簇屮心(簇内各单元属性平均值)的属性距离平均值;对于任 簇7,簇间距离为其他簇中心到簇/中心之间属性距离的最小值。为了便于分析,本文収 簇内距离平均值和簇间、簇内距离比平均值进行分析。分区的目的在于使得簇内距离尽可能 小,而簇间距离尽可能人。从表屮可以看出,木文方法得到的各尺度下的簇内距离平均值比 传统方法小,簇间距离比传统方法大,由此说明木文方法得到的结果更为准确。3.3太平洋区域海温多尺度分区实验下面,采用木文方

20、法对太平洋区域海温数据进行多尺度分区,进而将各尺度下结果与 el nin0指数进行和关性分析,找到与el n1n0区域最吻合区域,以验证分区的有效性。 由于较人尺度下结果意义不人,故只列出前9个尺度下的异常区域和划分结果,分别如图4 和5所示。图4中蓝色区域即为探测得到的界常区域,图5中不同颜色代表得到的各个气候 区域,可以发现,随着尺度增大,簇数减少,簇内数目增多,视觉上图像更加模糊。4/尺度1尺度2尺度3尺度4尺度5尺度6尺度7尺度8尺度9图4各尺度下的异常区域(蓝色区域为异常)fig.4 the abnormal regions at each scale尺度1尺度2尺度3尺度4尺度5尺

21、度6尺度7尺度8尺度9图5各尺度下的划分结果fig.5 the abnormal regions at each scaleei nino区域是气象学领域公认的四个表征厄尔尼诺现象的海温区域,因此一个正确的 分区结果应该可以找到与这四个海域近似吻合的区域。对各尺度下的分区结果与ei nino 指数进行相关性分析,根据各尺度下与各einin0区域的最人相关系数绘制illi线图,如图6 所示,其中相关系数最大值对应的区域即为识别的ei nino区域,对应的尺度即为最佳尺 度。通过分析发现,尺度6识别的ei nino区域与已知四个ei nino区域平均相关系数(与 四个已知ei nino区域z间相关

22、系数均大于0.98)最大,因此认为尺度6的分区结果最能 反应四个ei nino气候指数特征。图7(a)为四个已知ei nino区域空i'可范围,图7(b)为本 文方法在尺度6识别的四个ei nino区域,由于已知的nino3与nino3.4以及nino3.4 与nino4之间有重合,而多尺度分区得到的区域互不重合,将此因索略去可以发现本文方 法在尺度6识别的ei nino区域与已知区域在空间范围上高度吻合,从而证明本文方法对 海表气温进行分区的结果与实际相符,具有一定有效性,因此可以研究不同尺度上的分区演 变规律,对于研究地理现象的多尺度特性具有重要意义。(a)已知的四个ei nino

23、区域 本文方法在尺度6识别的四个el n1n0区域el nino 1+2el nino4el n1no3el nino3.4图7 el nino区域fig.7 the el nino region at each scale4. 结论与展望本文対传统多尺度分区方法进行了有效改进,首先针対气候时间序列特性用去周期相关 系数度最序列间相似性,进而在分区过程屮顾及异常区域的存在,最终得到去异常区域的纯 净多尺度分区结果,通过实验分析证切了木文方法进行多尺度分区的准确性和有效性。与己 冇方法比较发现本文方法具冇三方面的优势,即:(1)不需要人为输入参数,使得分区结果 更加可靠;(2)适用于任意分布数据

24、,具有较好鲁棒性;(3)有效体现地理现象的多尺度动 态效应,因而,得到的结果更加科学。未来工作主要集中在三个方而:(1)进一步对海压、水汽等气候要素进行多尺度分区, 从而对海洋气候特征进行更详细分析;(1)针对陆地上的气候要索分布,进行海陆气候关联 分析;(3)顾及时间尺度的演变特征,进行气候要素时空多尺度探测和聚类。参考文献:i fovell r and fovell m. climate zones of the conterminous united states defined using cluster analysis j journal of climate, 1993, 6(1

25、1), 2103-2135. fovell r. consensus clustering of u.s. temperature and precipitation dataj. journal of climate, 1997, 10(6): 1405-1427.|3j steinbach m, tan p-n and kumar v. clustering earth science data: goals, issues and rcsultsr in proc of the 4lh kdd workshop on mining scientific dataseys, 2001.|4

26、 kumar v, steinbach m and tan p-n. mining scientific data: discovery of patterns in the global climate system!rl. in proc of the joint statistical meeting, 2001. steinbach m, tan p-n and kumar v. data mining for the discovery of ocean climate indicesr. in proc of the 5lh workshop on scientific data

27、mining, 2002.|6j gong x and richman 1v1. b. on the application of cluster analysis to growing season precipitation data in north america cast of the rochics j. journal of climate, 1995, 8(4): 897-931.7 degaetano t. spatial grouping of united states climate stations using a hybrid clustering approach

28、 j international journal of climatology, 2001, 21(7): 791-8078 birant d, kut a. st-dbscan: an algorithm for clustering spatial-temporal dataj. data & knowledge engineering, 2007, 60(1): 208-221.9 骆剑承,周成虎,梁怡.多尺度空间单元区域划分方法j.地理学报,2002,57(2): 167-173.10 tan p-n, steinbach m and kumar v. finding spat

29、iol-temporal patterns in earth science datar. in proc of kdd workshop temporal data mining, 2001 ii tan p, steinbach m, kumar v. introduction to data mining m. 2006, boston, addison wesley press.|12|薛安荣,鞠时光.基于空间约束的离群点挖掘j计算机科学,2007, 34(6): 207-209,230.a multi-scale regionalization method for sea surf

30、acetemperature by considering abnormal regiondeng min1, shi yan1, liu qi-liang2(1. department of surveying and geo-informatics, central south university, changsha 410083. china;2. department of land surveying and geo-informatics, the hong kong polytechnic university, kowloon, hongkong)abstract: spat

31、ial clustering is an important tool of spatial data mining and knowledge discovery. spatial clustering aims to find the potential patterns of the spatial distribution and some abnormal patterns in a large spatial dataset. so, spatial clustering is an effective approach for spatial regionalization based on the climate elements. for this puipose, a scale-space clustering method is proposed for multi-s

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论