(计算机应用技术专业论文)长三角遥感水质分类技术研究.pdf_第1页
(计算机应用技术专业论文)长三角遥感水质分类技术研究.pdf_第2页
(计算机应用技术专业论文)长三角遥感水质分类技术研究.pdf_第3页
(计算机应用技术专业论文)长三角遥感水质分类技术研究.pdf_第4页
(计算机应用技术专业论文)长三角遥感水质分类技术研究.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机应用技术专业论文)长三角遥感水质分类技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士论文长三角遥摩水质分类技术研究 摘要 运用卫星遥感技术的沿海水质实时监视与速报,对于国民经济有着重要的指导意 义。本文利用卫星m o d i s 提供的对长江三角洲沿海区域的五种水质因子数据,进行 聚类分析和比较研究,为沿海水质实时监视与速报提供了研究基础。 本文具体工作主要包括:( 1 ) 分析遥感卫星所提供的卫星遥感数据,开发对应的 卫星遥感数据分析和处理平台,介绍平台的功能模块和演示遥感数据的读取( 2 ) 在 基于k - 均值聚类算法的基础上进行海洋遥感数据的聚类分析,针对k 均值聚类算法 对初始化聚类中心的依赖性,根据同等聚类类别子向量之间存在相似性给出一种基于 初始化聚类中心优化的改进k - 均值聚类算法( 3 ) 基于模糊聚类算法理论,采用模 糊c 均值聚类算法进行对海洋水质遥感数据的“软划分”,实验证明模糊聚类算法在 收敛性和精确度上都优越于k 均值聚类算法,并结合两种算法,给出了一种避免模 糊c 均值聚类算法陷入局部优化的改进算法。( 4 ) 根据聚类类别尺度内和尺度间分 别的相似性,结合改进后的模糊c 均值能量函数,给出一种基于金字塔图像分层结 构的多分辨率模糊c 均值算法,并结合项目同模糊c 均值算法进行了实验分析和对 比,实验证明:新算法在局部遥感水质变化剧烈部分的聚类效果优于模糊c 均值算 法。 关键词:海洋遥感,数据聚类,模糊c - 均值,金字塔,多分辨率 硕士论文长三角遥感水质分类技术研究 a b s t r a c t t h ea p p l i c a t i o no ft h et e c h n o l o g yo fs a t e l l i t er e m o t es e n s i n go nt h er e a l - t i m e w a t c h i n g & f o r e c a s t i n go fi n s h o r es e a w a t e r sq u a l i t yi sv e r yi m p o r t a n tf o rn a t i o n a l e c o n o m y i nt h i sa r t i c l e ,w cu s ef i v ek i n d so fd a t af o rs e a w a t e r sq l l a l i t yf r o mt h ei n s h o r e d e l t ar e g i o no f t h ec h a n g j i a n gr i v e rs u p p l i e db yt h em o d i ss a t e l l i t et od ot h er e s e a r c ho f c l u s t e r i n g t h i sa r t i c l ei sm a i n l ya b o u tt h ef o l l o w i n gc o n t e n t :( 1 ) d e v e l o p i n gt h ep l a t f o r mf o rt h e a 血a l y s i sa n dp r o c e s s i n go ft h es a t e l l i t er e m o t es e n s i n gd a t a , a n dm a k i n gai n t r o d u c t i o n a b o u ti t sl e u n l f f i o n s ( 2 ) r e a l i z i n gt h ek - m e a n s c l u s t e r i n ga l g o r i t h m ,a n de s p e c i a l l yb r i n g i n g o u tai m p r o v i n gk - m e a n sc l u s t e r i n ga l g o r i t h mb a s e d0 1 1t h eo p t i m i z a t i o no ft h eb e g i n n i n g c :e l l t e ri nc l u s t e r i n g ( 3 ) r e a l i z i n gt h ef u z z yc - m e a n sc l u s t e r i n g0 1 1t h er e m o t es e n s i n gd a t a , w h i c hi sp r o v e dm u c hb e t t e rt h a nt h ek - m e a n sa l g o r i t h mi nb e t ha s t r i n g e n c ya n da c c u r a c y b ye x p c l _ i m e n t s , a n di n t e g r a t i n gb e t ho ft h e mt oai m p r o v i n ga l g o r i t h mf o ra v o i d i n gt h e p a r t i a lo p t i m i z a t i o n ( 4 ) b r i n g i n go u tam u l t i - r e s o l u t i o nf u z z ys e g m e n t a t i o nm e t h o db a s e d o nt h ep y r a m i dg r a p h i cd e l a m i n a t i n gs t r u c t u r ew h i c hi sa b o u tt h ec o m p a r a b i l i 臼jb o t hi nt h e c l a s s e sa n db e t 、v 嘲t h e mt oc l a s s i f yt h er e m o t es e n s i n gd a t ac l u s t e r i n g , a n dt h em e t h o di s p r o v e db ye x p e r i m e n t sb e 仳c ri nt h es h a r p l yc h a n g i n gp a r t st h a nt h ef u z z yc - m e a n s a l g o r i t h m k e y w o r d s :s e a w a t e rr e m o t e 站n s i n g ,d a t ac l u s t e r i n g , f u z z yc m 锄s ,p y r a m i d , m u l t i r e s o l u t i o n 声明 本学位论文是我在导师的指导下取得的研究成果,尽我所知,在 本学位论文中,除了加以标注和致谢的部分外,不包含其他人已经发 表或公布过的研究成果,也不包含我为获得任何教育机构的学位或学 历而使用过的材料。与我同工作的同事对本学位论文做出的贡献均 己在论文中作了明确的说明。 研究生签名: ! 妾、工跏( 年( 月7 日 f 学位论文使用授权声明 南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅 或上网公布本学位论文的全部或部分内容,可以向有关部门或机构送 交并授权其保存、借阅或上网公布本学位论文的全部或部分内容。对 于保密论文,按保密的有关规定和程序处理。 研究生签名: 虹。聪年6 月7 日 f 硕士论文长三角遥感水质分类技术研究 1 绪论 1 1 课题背景 遥感技术【l l 是本世纪6 0 年代发展起来的一门新兴综合性探测技术,是从地面到 空间各种对地球、天体观测的综合性技术系统的总称。它利用飞机、气球、火箭、卫 星等空间技术,以卫星、飞船、空间站、航天飞机等飞行器作遥感平台,从一个新的 高度来观测地球,然后通过光学、电子光线、红外线、微波、计算机来技术来处理所 得信息,从而探知和鉴定研究对象的各种性质目前遥感技术被广泛的应用于海洋渔 业及其相关领域的研究,通过海洋遥感技术所提供的数据,进行由定性到定量的分析, 所得的结果可以用于指导渔业生产、监测海水水质f 2 】、预警海洋灾害等方面,对国民 经济的发展起着举足轻重的影响。 论文的研究课题来源于项目“长三角沿海水质遥感实时监视和速报的关键技术研 究”的子项目,整个项目的总体目标是针对两省一市关注的长三角沿海水环境恶化现 状,应用高新卫星等遥感技术,完成长三角沿海水质遥感实时监视和速报的关键技术 攻关,包括:海洋水质因子定量化遥感提取技术、多颗卫星资料的融合处理与复合应 用技术、水质监视和速报的软件模块及集成技术和示范系统实验【3 】其中一个关键技 术是通过m o d i s 、n o a a 和f y - i 等卫星资料准实时定性和定量测量沿海的叶绿素浓 度、悬浮泥沙浓度,黄色物质浓度、c o d 、d o c 浓度、磷、氮浓度和温度,对长三 角沿海水质进行自动分类,为水质监视和速报提供关键功能模块。 长江三角洲处于我国东部沿海、黄金海岸和长江黄金水道的交汇处,地理区位优 越,是我国最大的综合经济区,已成为中国经济发展的“核动力”。然而,社会经济发 展滞后的矛盾日趋突出,海洋水环境问题已成为该区域经济发展的“瓶颈”近2 0 年 来,长江流域污染物排海量剧增,使得长江河口及其邻近海域生态环境恶化;产卵场 和育幼场严重退化,近海渔业生产能力下降,近海重要渔场功能渐失;海洋灾害( 赤 潮、溢油、风暴潮等) 频发【4 】;大型工程的负面影响正日益突显;海域使用及资源开 发管理无序无度。以上情况表明,长江三角洲近海海域生态环境的严重衰退、服务功 能的下降与可持续利用能力的降低己导致沿海地区社会就业压力剧增,社会安全和稳 定发生巨大震荡,逐渐成为制约长江三角渊地区经济进一步发展的重要因素。 该论文通过卫星遥感技术对长三角邻近海域进行海洋化学物质的聚类分析,有利 于对长三角邻近海域水质环境状况的监测和趋势的速报,也是总项目不可缺少的核心 组成部分。 颂士论文长三角遥感水质分类技术研究 1 2 目前国内外对海洋水质遥感的研究状况 目前国外对海洋水质的遥感和探测主要依靠海洋水色卫星来实现,海洋水色卫星 通过海洋水色遥感器探测浮游生物色素、悬浮泥沙和溶解有机物等海洋水色主要参数 四,从中提取海洋初级生产力、水团、流系、锋面、涡漩、上升流、沿岸水质、海洋 渔场状况等海洋环境信息。一台海洋水色卫星上往往携带多部遥感器,针对不同的遥 感对象进行采样和分析,诸如美国的s e a s t a t ( 1 9 9 7 年发射) 、日本的a d e o s ( 1 9 9 9 年 发射) 。 我国在九五、十五国家攻关和8 6 3 项目中都安排了利用卫星资料监测赤潮等 课题,侧重点在研究卫星接收到的辐射与赤潮问相关机理研究,或利用卫星资料发现 赤潮区水色和水温的异常,通常在赤潮频发时段的典型海区利用卫星资料进行大量人 工交互处理提供几张图,向上报告,处于头痛医头,脚痛医脚的被动局面。因此,在 国内并没有真正形成长期卫星沿海水质监测网更谈不上速报 我国海洋水质分类报至今还基本是依靠海上定点观察和船只按季调查的资料,按 水质参数画出等值线的传统方法定期发布。如水质分类月报、季报和年报。由于海洋 流、浪、潮等动力环境变化十分复杂,再加之国内财力、人力限制,无论定点布网观 察和定期船测的资料十分有限,当前海上水质分类报的精度和频度都受到很大限制, 很难客观地反映海洋水质环境的时空变化,限制了人们对海洋水质变化规律认识和成 因的系统分析从而影响决策。本研究利用九颗卫星每天大范围覆盖长三角沿海海区, 实现自动接收,多星融合处理,综合卫星信息提取温度、悬浮泥沙、透明度、c o d 、 d o c 和重金属等水质分类遥感参数,进行水质自动分类;向政府部门和沿海相关单 位速报,以及在网上发布,供公众查询。可以大大提高水质速报的范围、频度和精度, 逐步实现像利用气象卫星作天气预报一样的业务化运行方向发展 提供给课题的遥感数据是m o d i s 卫星所传回的数据,m o d i s 是当前世界上新 一代“图谱合一”的光学遥感仪器,有3 6 个离散光谱波段,光谱范围宽,从0 4 微米 ( 可见光) 到1 4 4 微米( 热红外) 全光谱覆盖。承载它的卫星轨道高度为距地球7 0 5 公里,其最大空间分辨率可达2 5 0 米,扫描宽度达2 3 3 0 公里 m o d i s 的多波段数据可以同时提供反映陆地表面状况,云边界、云特性、海洋 水色、浮游植物、生物地理、化学、大气中水汽、气溶胶、地表温度,云顶温度、大 气温度、臭氧和云顶高度等特征的信息。可用于对陆表,生物圈、固态地球、大气和 海洋进行长期全球观测。其提供的多波段数据可以同时提供反应陆地、云边界、云特 性、海洋水色、浮游植物、生物地理、化学、大气中水汽、地表温度、云顶温度、大 气温度、臭氧和云顶高度等特征的信息,用于对陆表、生物圈、固态地球、大气和海 洋进行长期全球观测。 2 硕士论文 长三角遥感水质分共技术研究 m o d i s 仪器与其他陆地卫星相比,有以下特点和优势: ( 1 ) 空间分辨率大幅提高。空间分辨率提高了一个量级,由n o a a 的千米级提高 到了m o d i s 的百米级。 ( 2 ) 时间分辨率有优势一天可过境4 次,对各种突发性、快速变化的自然灾害 有更强的实时监测能力 ( 3 ) 光谱分辨率大大提高有3 6 个波段,这种多通道观测大大增强了对地球复 杂系统的观测能力和对地表类型的识别能力。 1 3 目前国内外对数据聚类分析的研究状况 所谓聚类,是将物理或抽象的集合分组成为类似的对象组成的多个类的过程。由 聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与 其他簇中的对象相异。在许多应用中,可将一个簇中的数据对象作一个整体处理,但 是分类问题( 监督) 和聚类问题根本不同,分类是训练例子的分类属性值,而聚类则 是在训练例子中找到这个分类属性值。当分析一个较大的、复杂的、连续有许多变量 的数据库和完全未知的结构时,聚类是一个非常有用的工具。 数据聚类正在迅速发展,聚类分析应用于许多研究领域,包括数据挖掘、统计学、 生物学、市场营销、机器学习及空间数据库技术。聚类的典型应用包括生物学上的基 因分类和动植物的分类;商务上对客户群体的分析;地理数据的分析,有助于资源分 析和城市规划;i n t e r n e = t 上通过对w e b 文档的聚类分析能发现有用信息。作为对海洋 遥感数据的分析工具之一,聚类分析能作为一个独立的工具来获取数据的分布情况, 观察每个簇的特点,集中对特定的簇做进一步的分析。此外,聚类分析可以作为其他 算法( 如特征和分类等) 的预处理步骤,这些算法再在所生成的簇上进行处理。 聚类方法一般可以分为分割和分层两种方法嘲,如果从更一般的角度对聚类方法 进行分类,即可分为基于优化的聚类,基于关系的聚类,基于变换的聚类。以便人们 更易于找到研究的切入点。 1 3 1 基于优化的聚类方法 基于优化的思路可分为三种:基于有约束的优化,基于模型的优化,基于分层的 优化。 基于有约束的优化:对于给定的数据集x = 如,i = 1 ,2 埘 ,聚类问题就是要得到 一个划分c = 如,c 2 ) 满足彳= u e ,c ,og n q = m , f ,= 1 2 崩:f 办, 硕士论文 长三角遥感水质分类技术研究 并且使得总的类间离散度之和以= d ( 置,乙) 达到最小,其中互为第k 类的代 k - i 毛气 表,烈置,互) 为相关度,此聚类准则- ,。体现了类内相似性尽可能大而类间相似性尽 可能小的要求。k - m e a n s 方法讯、k - m e d o i d s 方法及其它们的改进属于这种思路,其 i 准则函数是e = 罗罗l p 一肌,i z ,它是一种基于爬山式两阶段的优化搜索算法,此方 百; 。 法以其简单、快速和有效而被广泛使用。 但此方法有几个明显不足:对初始值敏感,即不同的初始值可能会导致不同的聚 类结果;对输入顺序敏感;常常陷入局部最优;领域知识依赖性大( 即需选择k 值) ; 对噪声敏感;只能聚类球状类型。由于该思路一般用欧式距离来表示两数据点的关系, 用准则函数来评价算法,因此存在难以克服的不足:需要输入k 值;不能聚类任意 形状的簇;对类的大小、形状有依赖。为了适应大数据集的聚类分析,更好的有约束 优化方法有待探讨。 基于模型的优化:该方法试图优化给定的数据集和某些数学模型之间的适应性。 此方法常常基于这样的假设:数据是根据潜在的概率分布生成的。基于模型的优化方 法主要有两类:统计模型方法和神经网络方法。c o b w e b 算法i s 是一种比较流行的 统计模型方法,它是一种简单增量概念聚类算法。它的局限在于;对在每个属性上的 概率分布是彼此独立的这个假设并不总是成立,由于属性间经常是相关的;聚类的概 念分布表示使得更新存储聚类相当昂贵;分类树对于偏斜的输入数据不是高度平衡 的,可能导致复杂度的剧烈交化叨。 用于聚类的神经网络方法【1 0 1 主要是s o m ( s e l f - o r g a n i z i n gf e a t u r em a p ) i u l ,它由输 入层和竞争层组成。输入层由n 个输入神经元组成,竞争层由m x m = m 个输出神经 元组成,且形成一个二维平面阵列。输入层各神经元与竞争层各神经元之间实现全互 联。该网络根据其竞争学习原则,通过输入模式的反复学习,捕捉各个输入中所含的 模式特征,并对其进行自组织,在竞争层以一定的拓扑结构或顺序将聚类结果表现出 来,s o m 的最大不足在于;当学习模式较小时对输入顺序敏感;训练时间长。因此 基于模型的优化有待进一步研究来适应大数据集的挖掘和分析【1 2 】。 基于分层的优化:该方法试图以各层的最优来实现最后结果的最优。两种层次聚 类方法:凝聚的层次聚类方法和分裂的层次聚类方法。在每层寻优时,广泛采用最小 距离、最大距离、平均距离、平均值距离来度量簇阃距离。这种方法的最大困难在于 合并或分裂的选择。因为这种选择是不可逆的,故非常关键,如果一步没选好可能导 致低质量的聚类结果,而且伸缩性不好,合并或分裂的决定需要检查和估算大量的对 象和簇。现在一般是将基于层次的优化方法和其它聚类技术进行集成形成多阶段聚 4 硕士论文长三角遥感水质分类技术研究 类,从而提高聚类质量,如b i r c h 算法,c u r e 算法,r o c k 算法。 1 3 2 基于关系的聚类方法 这种思路是试图在大数据集d 的数据元素d i 之间建立一种关系r ,如果这个关 系是自反的、对称的、传递的,即等价关系,那么这个数据集上的一个等价关系就对 应一个划分c ( 聚类) 。如果这个等价关系是模糊等价关系,与之对应的划分c 即为模 糊聚类。这种思路的优点是:领域知识独立;可以聚类任意形状的类;对初始值、数 据顺序不敏感;抗噪声能力强;可以处理不同类型属性值。但如何定义数据集上的等 价关系是这种方法的难点。d b s c a n 算法是一种基于密度可达等价关系的聚类方法, 这里的密度是一个核心对象的6 - 领域内数据对象的个数。不足是该方法要对密度参数 和噪声阈值进行仔细选择。为了能满足聚类算法的标准,在数据集上构建有效的关系 有待进一步探讨。 1 3 3 基于变换的聚类方法 这种思路是在给定的大数据集空间上实施一种变换,使得在变化后的数据空间上 更易于聚类或直按得到聚类结果。可以从三种角度来考虑: 其一、通过将原数据集变换到高维空间( 如利用核函数方法) ,使得在新空间能克 服原空间的一些局限,更易于聚类。 其二、通过对原数据集空间实施某种变化或迭代,使同类内部距离缩小,甚至每 类缩小到一个核。这样聚类就很自然,凡是变换到同一个核( 或核域) 的就属于同一类。 其三、是通过变换来改变数据之间的区分度。基于变换的思路具有符合一个好的 聚类算法的许多标准:能有效的处理大数据集;发现任意形状的簇;成功地处理孤立 点;对输入顺序不敏感;不需要指定结果簇数日和领域半径等输入参数;而且能处理 高维数据。目前人们主要集中在第三种思路上,即基于多分辨率方法,这种方法的典 型例子有w a v e c l u s t e r 算法( 小波变换) 【”l ,s t i n g 算法( 网格) 综上所述,三种思路的聚类方法总体上比较如表1 3 3 1 所示: 表1 3 3 1 三种聚类思路的比较 比较 可伸缩性领域依赖对噪声的 对输入顺能发现的 处理高维 性敏感性序的敏感聚类形状 数据的能 思路 性 力 基于优化较低 大 敏感敏感凸状或球较低 形 基于关系 一般较小一般不敏感任意 一般 基于变换较高 小 不敏感 不敏感任意 较高 5 硕士论文 长三角遥感水质分类技术研究 由表1 3 3 1 可知:基于优化的思路比较容易实现,但有很多局限性,而基于关 系和基于变换的思路要更适合于大数据集的聚类分析,特别是基于变换的思路,满足 一个好的聚类方法的许多要求,值得进一步的研究。 1 4 本文的主要内容和安排 本课题将在一个遥感数据平台中实现对海洋水质的聚类分析和比较研究,最终实 现通过卫星这一先进技术综合卫星信息提取海表温度、水体悬浮泥沙浓度、海水透明 度、海水黄色物质吸收系数,叶绿素a 浓度等水质分类遥感参数,实现水质自动分类 的功能。 主要内容和安排如下: 第一章为“绪论”,主要阐述一下该课题的项目背景,介绍了当前国内外对海洋水 质遥感的研究现状以及当前数据聚类分析的研究状况。 第二章为“遥感数据分析”,主要分析了卫星所提供的遥感数据中含有的信息,并 且在m f c 环境下搭建了一个平台l 3 a t e s t ,用来为读取和进一步的聚类分析提供基 础。 第三章为“k - 均值聚类算法在遥感水质分类中的应用及改进”,介绍了k - 均值聚 类算法的思想,流程和特点,并将k - 均值算法同项目接合起来,结合项目分析k - 均 值算法的特点,并给出了一种基于初始化值优化的改进后的k 均值聚类算法 第四章为“模糊c 均值聚类算法在遥感水质分类中的应用及改进”,阐述了经典 的模糊c - 均值聚类方法的原理,并结合项目,分析了模糊c 均值算法在应用于海洋 遥感水质聚类分析上的特点,然后同k 均值算法结合起来,给出一种局部优化的改 进后的模糊c 均值算法。 第五章为“多分辨率模糊c 均值聚类算法在遥感水质分类中的应用”,通过对金 字塔图像分层结构理论和多分辨率思想的学习,结合项目给出了一种多分辨率模糊 c - 均值算法,分析和研究了该新算法在处理海洋遥感数据中的特点,总结了该聚类算 法在应用于海洋遥感水质聚类分析上局部特性优于模糊c 均值算法。 最后为“结束语”,对全文工作进行了总结与展望。 6 硕士论文 长三角遥感水质分类技术研究 2 遥感数据分析平台 对于遥感数据的分析,往往需要提供特定的平台来处理,一个优秀的平台不仅要 提供对海洋遥感数据的读取、显示和保存,还要具备一定的分析功能模块。该章针对 m o d i s 卫星所提供的遥感数据,介绍了遥感数据分析平台和对应的遥感数据文件。 2 1 遥感数据 m o d i s 卫星提供了5 种海洋化学物质的遥感数据。分别为海表温度( s s t ) 、水体 悬浮泥沙浓度( s s c ) 、海水透明度( s d d ) 、海水黄色物质吸收系数( a c d ) 和叶绿素a 浓 度( c h l ) 这些数据分别以特殊的格式封装成d a t 文件,这种格式被命名为l e v e l3 a 产品数据格式。 数据产品文件由两部分组成:文件头和图像数据块,即; 文件头( 1 0 2 4 子节) 图像数据块( 行列2 ) 文件头大小为1 0 2 4 子节,其结构为: t y p e d e f s m m tb a _ h e a d e r c h a r s a t 1 5 】;,卫星标识:s w f - s e a w i f s ,m o d - m o d i s ,f y i - m v i s r ,n o a - a v h r r c h a r p r o d u c t 2 0 1 胛2 品类别。如c h l ,s s c ,s d d ,o d d c h a r u n i t 1 5 :| 淖链 s h o r t y e a r ;| 每 s h o r t d a y ;,儒略日 s h o r t h o u r ;时 s h o r tm i n i ;| | 食 f l o a tl a t f l o a ti a tm i n :,最南纬度 f l o a tio n _ m a x :,最东经度 f l o a tio nm i n ;,最西经度 c h a r p r o j m 2 0 ;,投影类别t 目前均为等经纬度投影 f l o a t r j 砒,纬度分辨率,目前设置为一分 f l o a t p , _ l o n ,经度分辨率,目前设置为一分 m o r t r o w ;f i 行数 幽o r tc o l :| | ,q 数 f l o a t s l o p e :,f 斜率 f l o a t o f f s e t ;i 溅距 c h a r s p a r e 9 1 0 ;i 备甩子节 1 3 a h e a d e r ; 7 硕士论文 长三角遥感承质分类技术研究 图像数据块为二线数缀。其大小为r o w c o l ,数据类型为幽o f t 型。同时围家海 洋嚣第二海洋磷究所还瓣应每一释遥感数撵提供t8 整镰彩色魏豢类效采对耽强,蘑 于各种聚类方法的最终效果对比。 2 0 分耩平台 为支持对m o d i s 激屋遥感数据的读取和进一步的分析,在m f c 环境下针对子 项目开发了对应的操作平台,用以将s h o r t 类型的数据区域以图形用户的可视化界面 最示出大体戆轮廓,为避一步戆聚类分撰帮霹 究努一令坚实懿蒸硪。 就平台基于m f c 类痒开发,名为l 3 a t e s t ,糟一个文档类娥理所读取并殿待分 析的遥感数据,用两个视网类,分别盟示遥感数据区域的分类显承、边缘检测等效果, 另一个视图徽区域聚类补充说明,包戆最终的聚类中心以及聚类继果的颜色椽识。 平台撵供了读取、绦存( 经霾臻茂) 、保存( 遥熬数据格式) ,筏圈放大、缭小等零 规操作,并提供了查看图像任意点的色彩分量、坐标值、遥感数据的头文件信息等功 能。 考虑劐遥感数据戆庞大纛嚣余,瞧为了更舞熬辩毙吝秘聚类效果,还隽乎蠢孛对 卫星遥感数据的处理单独提供7 截存渤能,可】| ;i 单猿对某一区域的遥感数据进行保存 和分析。 图2 2 1 是该平台懿痿动画蘑: 网2 2 1u a 骶瓣平台启动画谢 塞 里生兰墨二一 墨三鱼墨壁查垦坌耋垫查堡壅 图2 2 2 是平台l 3 a t e s t 的功能模块; 图2 2 2l 3 a t e s t 平台的功能模块 l 3 a t e g 平台处理两种数据格式,一种为卫星所拍摄的海洋水质遥感数据,也是 项目主要分析的数据源;第二种为常见的b m p 位图格式,用来提供对常见位图的一 般操作对于海洋水质遥感数据的分析和显示,最终都是通过客户区视图反馈给用户 的,所以平台提供了对常见b m p 位图格式数据的简单操作,包括2 4 位位图同8 位灰 度位图之间的转换,以及显示任意坐标点的r g b 分量并且提供查看灰度直方图的功 能。方便用户可以随时保存聚类分析的结果用于研究和对比。 将卫星遥感数据读取后,以简单2 色视图的格式显示给用户: 9 硕士论文 长三角遥感承质分樊技术研究 图2 2 3 读墩遥感数攒后的2 色视图 其串,蓝色代表“海洋或者“努毒翡承辕”,熏色代表麓陆遣、云遮盖嚣域或者采在羹 星拍摄区域内。图2 2 4 是单独截取的客户区视图: 图2 2 4 特分析的慧感数据视图 硕士论文长三角遥感永赝分类技术研兜 现在的栈图比较渍暾,w 以看到我国大麟东岸散架构,橛黎l 娥为渤海,标示2 楚淹荑海,搽暴3 簸为豢海。蓑三角地区骛入海銎藏是襞蓬海浮燕产秀最毫、磊海数 量最多的搽潜。虽然m o d i s 遥感的溅罴数据分布的范围很广泛,但课题主要分析长 三燕藏嚣纛嚣区壤黪零域状藏,麴鬣2 , 2 。5 ,对予蕊镪海域瓣承瀵,将疑究翡绦暴瑶 终参考。 撼2 2 5 遥感数据主要努接嚣壤 硕士论文长三角遥感水质分类技术研究 3k - 均值聚类算法在遥感水质分类中的应用及改进 聚类方法一般可分为监督分类方法和非监督分类方法。监督分类方法是选择有代 表性的实验区来训练计算机,再按一定的统计判别规则对未知地区进行自动分类的方 法。监督分类方法过程中需要人为的不断指导,分类所依据的统计规则也需要人为的 修正和实验,所以这种分类方法被称为监督分类方法。非监督分类方法( 也称为聚类 分析) 是根据每类数据所固有的相似性( 特征值) ,按相似分割和概率统计理论,完 全由计算机自动分类的方法。由于在这一过程中没有人为的指导,故非监督分类由此 而得名。下面要介绍的k - 均值聚类算法就是这样一种非监督分类,该章介绍了经典 的k 均值算法,并结合项目进行了实验的对比和分析,最后给出了一种基于初始化 值优化的改进k - 均值算法。 3 1k - 均值算法的基本原理 k 均值聚类算法是由m a c q u e e n 于1 9 6 7 年首先提出的【1 4 1 ,是解决聚类问题的一 种经典算法。该算法具有简单、快速并且能够有效地处理大数据库的优点【瑚 k 均值聚类算法1 1 6 1 是一种基于样本间相似性度量的间接聚类方法,属于非监督 学习方法。k - 均值聚类算法在目前的聚类分析中应用最为广泛,具有算法简单且收敛 速度快的特点。这种算法的基本思想是:对于给定的聚类数目k ,首先随机创建个 初始划分,然后采用迭代方法通过将聚类中心不断移动来尝试着改进划分【m 为达到 最优,这种k 均值方法在理论上应该穷举所有可能的划分。但实际上,这里采用了 启发式方法,用每类的平均值来表示该类,大大降低了计算的复杂性,提高了运算速 度,使处理大规模数据集成为可能。 其原理是首先初始化中心e ,然后将输入样本z ( 一按最近邻规则分组。 最近邻规则分组也就是将 z o ) ,x ,z ( , 分配给中心为g o = l 2 。k ) 的输入 样本聚类集合s ( f = 1 ,2 ,。詹) 。要求满足: 噶= m i n ”一c j i l i = 1 ,2 ,k ,= l ,2 埘( 3 1 1 ) 然后,根据样本墨的平均值调整中心g 重复以上步骤,直到中心的分布不再 变化。 在k - 均值算法的实际运用上,往往在有限的迭代内达不到中心分布不再变化的 条件,可以通过引进阈值来判断中心的分布处于某一个波动范围内则聚类结果就收敛 了 3 2k - 均值算法实现与应用 3 2 1k - 均值算法的实现 下面是k - 均值算法的流程图: 图3 2 1 1k 均值算法的流程图 k 均值详细的算法步骤如下: 步骤( 1 ) :初始化 首先设置聚类的类别数为k ,然后适当选取c 个样本点作为c 个类别g g 的 初始聚类中心,即 c l ( 嘎c 2 ( 嘎,g ( ,) ,其中,q ( ,) 代表第1 次迭代的聚类中心值。, 并且令循环数j = 0 。 步骤( 2 ) :样本划分 硕士论文 长三角遥感水质分类技术研究 计算样本点丑与类别g q 之间的距离,把c 分配给与其有最小距离的类 q ( 1s ,七) 。即划分所有的样本矢量通过这一步使每个样本矢量x ,与k 类中之 一相联系,其划分条件为:石巴( f ) ,如果: 肛一c ,( 0 1 1 2 0 的情况下才能基本处于一个稳定的 平衡态。在迭代次数为2 0 的情况下,所需要的算法运行时间为1 7 2 1 9 秒,在迭代次 数为2 4 的情况下,所需要的算法运行时间为2 3 0 2 3 秒,而这只是对图3 2 2 4 长江三 角洲范围内的水域和邻近海域的数据的聚类分析,数据量不是很大,可见,如果需要 对数据进行比较精确的分析和观察,k - 均值需要提供高迭代次数和比较长时间的分 析,才能满足实验和实际运用的要求。但是,对于聚类分析要求不是很高的实验, k _ 均值则提供了一种高效短时的聚类工具 1 7 硕士论文 长三角遥感水质分类技术研究 下面分析初始设定值对k - 均值算法的影响,通过对海表温度中遥感数据的分析 和获取,可以得知,它的总遥感数据的个数为1 4 1 3 2 7 ,最大值为1 8 6 3 2 ,最小值为0 , 平均值为4 9 2 6 。 分别以不同的初始值进行k - 均值算法的聚类分析,设定分类值为5 ,迭代次数为 1 0 ,并且引进时间运算函数,计算每次执行k - 均值算法所花的时间。第一种情况初 始值都设为0 ,第二种情况初始值根据遥感数据范围从0 - - 1 8 6 3 2 内平均取值,采用公 式咖t e r 【i 】- m i n i + ( m a x - _ m i _ n i ) * 一( i + 1 ) ,m 戤是遥感数据中最大值,m i n i 是遥感数据中 n u i i l o i c l a s s 最小值,n u m o f _ c l a s s 是所要分类的类数目,这里取为5 ,数组c 七n t e r i 用来存放初 始化的聚类中心。第三种情况以第一种情况的聚类结果为初始值。分析比较如表 3 2 2 2 : 表3 2 2 2 初始值对k 均值算法的影响 对比项第一次 第二次第三次 分类数55 5 迭代数 1 01 01 0 oo1 0 5 7 1 o4 6 5 81 0 1 6 2 初始设定值09 3 1 66 9 2 2 四o1 3 9 7 43 4 1 8 五o1 8 6 3 2o 1 5 0 7 1 2 91 6 9 1 0 0 51 6 8 4 5 1 l 1 0 1 6 1 9 81 3 2 1 0 6 01 3 0 3 8 8 9 最终聚类中6 9 2 2 5 59 9 2 5 4 89 2 9 1 心 四3 4 1 8 3 67 5 “1 86 7 4 0 五 o 03 8 2 3 9 83 4 7 7 运算时间 0 7 0 5 4 s1 5 4 6 01 0 1 9 5 s 效果对比图图3 2 2 6图3 2 2 7图3 2 2 8 对应的聚类效果图如图3 2 2 6 、图3 2 27 图3 2 2 8 ,同时为了聚类结果对比分 析,将效果对比参考图3 2 2 5 一起列出: 硕士论文长三角遥蓐水质分类技术研究 翻3 2 2 5 对臼:参考图图3 2 2 6 初始值为0 的效果图 豳3 2 。2 7 耪始值倪纯过鲍效果图蹦3 2 2 ,8 扭始值为巴分类好盼 聚类中心的效果豳 邋过对图3 2 2 5 、图3 2 26 匿3 2 2 7 、图3 2 。2 8 的分析比较,可以得到如下 信息:初始亿值的设定对于k - 均值聚类算法有比较大的影响。从图3 2 2 6 和囤3 2 2 7 中比较得知,躁3 2 2 6 采用初始化值都为0 的k 均值聚类算法来分析遥感数据,蔗 图3 2 2 7 裰籀遥感数据中的分布,从最大值和最小值之间平均取值,图3 2 2 4 所提 供的遥感数据的最大假为1 8 6 3 2 ,最小值为0 ,并且设定了类别数为5 ,分别以0 ,4 6 5 8 , 9 3 1 6 ,1 3 9 7 4 ,1 8 6 3 2 设定裙始值,并藏提供爵等的迭代次数l o ,很显然,初始化值 经过简单优化的图3 2 2 。7 聚类效果更接近于圈3 2 2 4 ,同时也远远优胜于图3 2 2 6 豹聚类效采,弼看蚕3 2 2 8 ,初始纯值是盈3 2 2 6 聚类分拆绪束盾的最终聚类中心, 其效果等价于农已经执行了一定聚类分析的结果上再进行k - 均值聚类,效果已经同 1 9 硕士论文 长三角遥感水质分类技术研究 图3 2 2 7 很接近了,并且同3 2 2 7 相比,效果更接近于对比参考图3 2 2 4 。 综上的分析可得,k 均值聚类算法对初始值敏感【i s l 1 9 1 ,即不同的初始值可能会 导致不同的聚类结果;领域知识依赖性大( 即需选择k 值) 洌;只能聚类球状类型。由 于该思路一般用欧式距离来表示两个数据点的关系,用准则函数来评价算法,因此 存在难以克服的不足:需要输入k 值;不能聚类任意形状的簇;对类的大小、形状 有依赖。 3 3 基于初始化值优化的k - 均值改进算法与应用 3 3 1 基于初始值优化的k - 均值改进算法 通过对3 2 节的k 均值聚类算法在海洋遥感水质聚类分析上的应用,可以得知 k _ 均值算法对于输入的初始聚类中心较为敏感,特别是对一个样本集来说,用k - 均 值算法很难具体确定出合适的类别数和初始聚类中心【2 ”。聚类中心数、初始聚类中心 的选择、样本输入的次序,以及数据的几何特性等均影响k - 均值算法在海洋遥感水 质聚类分析上的进行过程。因此,通过改进k 均值聚类算法的初始聚类中心的生成, 就可以优化k - 均值聚类算法在海洋遥感水质聚类分析上的聚类效果。 一般而言,类别相同的样本会具有类似的特征,它们的子向量相互之间也会存在 一定的相似之处,若两样本的各个子向量近似相等,则可以将它们归划为同一种聚类 类别。另外,类别的中心也必然聚集着更多的样本,即类别中心的样本密度较大。根 据上面的理论,可以这样来选择初始化聚类中心的过程: 设样本x = ( 毛,而,) ,求出每一维向量而在所有样本中的最大值彳和最小值 x 则样本空间为 w = 嘎x 呢= 【百,芹】【巧,霹】 巧,菇】( 3 3 1 1 ) 其中i 和彩o = l ,2 ,万) 分别为毛在所有样本中的最小值和最大值。 设确定的聚类个数为k ,则可利用公式( 3 3 1 1 ) 将每维输入区间等分为k 个子区 间: :( 巧4 - 业掣,可+ 牮 ( 3 3 1 2 ) 其中歹= 1 ,2 ,k ,当_ ,= 1 时,式( 3 3 1 2 ) 中的相应的开区间改为闭区间。 睨为第i 维子空间的第,个子区间。 根据划分的区间,n 维超立方体论域被分成如下互不相交的超立方体 兀( ,】 j = l 2 ,七 j _ 1 ( 3 3 1 3 1 其中k 为区间的分割数;彳为第,维予向量的第,个分割点;当j = l 时,公式 硕士论文 长三角遥感水质分类技术研究 ( 3 3 1 3 ) 中的相应的开区间改为闭区间。 对于任一输入向i x e w ,必然有唯一的一组数“,之,) 使得了兀( 掣,矿1 】, 则( ,之,) 可作为样本所落入的超立方体的编码。 “ 综上理论,初始聚类中心确定的步骤如下: 求出所有样本的超立方体编码。超立方体编码相同的样本要落入同一 个超立方体中,可以归划为同一个聚类类别。 统计每组内所包含的样本,利用公式弓2 专萎z 9 = 1 ,2 ,”七计算各 组内样本的平均值作为超立方体的中心,并将中心距较近的超立方体 合并。 选出前k 组样本数多的超立方体。 ( 4 ) 继续利用公式毛= 上h i 量j - i x 9 f = l ,2 ,七计算k 组样本的聚类中心 ( 5 )将最后计算出的聚类中心,作为k - 均值聚类算法的初始聚类中心,开 始进行k 均值聚类算法。 考虑海洋遥感数据中d a 协 i 】啪所存放的遥感水质数据是一维数据,可以将上述的 步骤简化,根据原始样本中的所存放遥感水质数据的最大值和最小值,根据公式 ( 3 3 1 2 ) 分割为6 个数据点,也就是分为5 个聚类类别。然后依次将海洋遥感数据根 据分割点的数据范围,将它们存放进各自的聚类类别;最后再根据平均值公式计算出 每个聚类类别的中心值,作为k 均值聚类算法的初始化聚类中心参见图3 3 1 1 : li-il1 分割点 i - 7r - i 口f - ii - 1 分组 专 备组聚类中心 图3 3 i 1 优化初始化聚类中心 2 1 3 3 2 算法应髑及分析对比 考虑前簌靛聚类效采对魄分湃,聚魇露3 2 2 4 辩海洋遴撩隶蓑遥感数据逶嚣初 始聚鼹审惑魏傀鼷瓣k - 辫藿黎攫葬法。迭莰次数选择5 敬,黎类类裂数选蒡5 类, 最终凝类效果潮参考臻3 0 2 l 阁3 2 2 1 初始聚撵中心优化盾的鼬均值聚类算法散果黼r 慧竞,努辑下遮戴次数黠裙始聚癸串静後琵瑟静戤掰餐聚类雾法鹣彩确,髹 耩迭我蘩粪类掰不变,诿定务5 淡,嚣黉孛心嚣为采蘧7 後像密骤,誉爨瑟久骛懿予 颈鞠设定,掰敬,遮萋不需要簪芏懿输入。参照表3 3 + 2 1 : 鼯海蓬 迭浆类孛逶爨 算法聚代孵黼 突分析 数国 嚣纛 第一次 l1 6 8 6 识5 01 3 0 7 9 8 69 2 7 7 2 25 8 9 9 0 5 2 8 2 3 9 00 2 4 1 7 繁:凌 2l 稿7 s 9 l1 3 羽壁。7 5鸵6 2 。l 甜l 重l s3 2 5 6 7 0氇3 矗0 7 繁墨次 皇1 6 8 8 0 。9 4| 3 姆5 。8 99 3 6 0 ,3 46 菩5 。2 l3 4 2 。l 多0 6 6 2 臻 繁鞠次 霹 1 6 8 8 2 3 1 薰3 l | o 5 s9 4 7 7 。7 46 9 鳃繇3 5 铉6 4 3 s 第敷次 51 6 8 8 5 ,7 l1 3 1 3 2 9 l9 5 8 9 0 57 1 6 0 。4 23 6 2 8 7 0o 。s 2 4 l 第六次 辱1 6 s 登3 露61 3 1 5 6 。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论