




已阅读5页,还剩57页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于随机森林的遥感图像分类算法研究作者姓名韭迷霞专业名称测绘工程指导教师墓玉挂副指导教师廑塞奎入学时间2Q曼至生鱼目研究方向遥感拉本皇应用职称进痖职称副教授论文提交日期垄Q皇墨生墨且论文答辩日期垄Q皇墨生鱼目皇Q且授予学位日期RANDOMFOI遇STSFORREMOIESENS矾G眦GEA脚鼬廿ONSUBMI撖沾盍N如MLH蚰TOF蛆EREQUI舢蛆BOF伍EDEG嗽OFSHANDONGUNIVERSI姆OFSCIENCEANDIECHNOLOGYSUPERVISORINSTNLCTORCAI1啦SUDER们晦ORLNNNLCTORUALY眦MA踌OCIATEPMFESSORTANGJIAKUIMAY2013声明本人呈交给山东科技大学的这篇硕士学位论文,除了所列参考文献和世所公认的文献外,全部是本人在导师指导下的研究成果。该论文资料尚没有呈交于其它任何学术机关作鉴定。硕士生签名秘堡霄日期肋吗“FOIDEDAN也时伍缸D缸SEN曩60N,SUBM砒EDIN如L皿M蚰TOF也ENQUINM咖舡IBR也E蹦曩RDOFM埘EROFENGIN血GINSH蛆D蚰GUNIR啪姆OFSCI蛆CE蛐D瞰HNOLO秭砖WHO珂MY唧WORK吼L鹤S棚CEDOFACH删埘擎THEDO傩M叫TH鹤舯TBE阻SUBMMED如RQUA监C“叫“锄YO恤ERACADEMICINM恤TES讪托弛从翻DM上DF芗、乃、,仞山东科技大学工程硕士学位论文摘要摘要遥感图像分类一直是遥感研究领域的重要内容,如何解决多类别图像的分类识别并满足一定的精度,是遥感图像研究中的一个关键问题。随机森林R觚DOMFORESTS,I讧是一种统计学习理论,它是利用自助抽样法BOOTS仃印METLLOD从原始样本集中抽取多个样本集,抽取样本集的样本个数与原始样本集的样本个数相等,对每个BOOTSTIAP样本集进行决策树DECISION1REE,DT建模,每个样本的最后分类结果是通过多棵决策树的结果投票决定的。随机森林在遥感图像分类中的应用,国内还鲜有人研究,本研究就是在这个前提下开展的。本文首先研究了基于随机森林的遥感图像分类的国内外研究现状和进展,讨论了目前遥感图像分类存在的问题。然后以钱塘江流域为研究区域,利用2010年ETM、MODIS和DEM多源数据,主要进行了如下研究1详细介绍了随机森林的原理和目前常用的遥感图像分类算法的原理,最大似然MAIILLIUMLIKEHOOD,ML、人工神经网络ARTI6CIALNEURALNE觚ORKS,砧州、支持向量机SUPPONVECTORMACHINE,SVM、决策树、BAGGING和B00STING。2研究了随机森林参数设置对分类精度的影响程度,实验表明,分类精度对参数设置不敏感,通常情况下,使用默认参数,即可达到理想的分类效果。3研究了随机森林计算变量重要性的可靠性与实用价值,实验表明,随机森林计算的变量重要性可靠,且筛选重要变量后的分类精度较之前有所提高,且模型训练时间缩短,具有很好的实用价值。4对比分析了IU与ML、径向基函数神经网络RADICALBASISFUILCTIONNEURALNE柳ORKS,I出F小N、SVM、C45、BAGGING和ADABOOSTML的分类精度,实验表明,RF用于遥感图像分类时,分类精度明显高于ML、I出F二NN和C45算法,略高于SVM、BAGGING和ADABOOSTML算法。5分析比较了I心与ML、C45的分类结果的混淆矩阵和分类结果图像,进一步表明,随机森林应用于遥感图分类时,有很好的分类效能。6使用C撑语言,在VS2008开发环境下,通过调用WEL认软件中的类库,设计出基于随机森林的遥感图像分类软件。关键词遥感图像分类,随机森林,决策树,BAGGING,B00STING,分类精度山东科技大学工程硕士学位论文ABSTRACTREMOTESENSINGRSIMAGECLASSIFLCATIONISALWAYSAPIVOTALPANOFREINOTESENSINGSTUDYHOWTOIMPROVETHEACCURACYOFRSINTE印RETATIONISAJLURGENTPROBLEMINRSAPPLICATIONSRANDOMFORESTSRFISA虹NDOFSTATISTICALLEANLINGMEORY,USINGMEBOOTS的PMETLLODTOEXTRACTMULTIPLESAMPLEDATASETSFROMORIGINALS锄PLEDATASET,THENUMBEROFEACHBOOTSTRAPSAINPLEDATASETBEINGEQUALTOTHEORIGINALSAMPLEDATASET,EACHBOOTSTRAPS锄PLEDATASETBEINGMODELEDWITHDECISIONTREEDT,ANDTLLEFINALCLASSIFICATIONRESULTFOREVE巧S锄PLEBEINGCALCULATEDBYVOTINGT11ECLASSIFICATIONRESULTSOFT11EMULTIPLEDECISIONTREESTHEREAREFEWRESEARCHABOUTMEAPPLICATIONOFRAILDOMFORESTSINREMOTESENSINGCLASSIFICATIONATHOME,ANDMISSTLLDYISCARRIEDOUTUNDERTHISPREMLSETHISP印ERFIRSTLYINTRODUCEDTHEPRESENTSTATEA11DDEVELOPMENTOFREMOTESENSINGIMAGECLASSIFICATIONBASEDONR锄DOMFORESTSATHOMEAILDABROAD,ANDDISCUSSEDTHEPROBLEMSEXISTINGINREMOTESENSINGIMAGECLASSIFICATIONTHEN,LANDCOVERCLASSIFICATIONRESEARCHWASCONDUCTEDATQIAMAIL百IANGBASINUSINGLANDSATETM,MODISAILDDEMMAINCONTENTSAREASFOLLOWS1SEVERALREMOTESENSINGIMAGECLASSIFICATIONALGORIMMSAILDTHEPRINCIPLEOFTHERANDOMFORESTSWEREDESCRIBEDINDETAIL,INCLUDINGMAIM啪LIKELIHOODML,ANIFICIALNELLRALNE咖RKSANN,SUPPORTVECTORMACHINESSVM,DECISION1REEDT,BAGGINGANDBOOSTING2111ISPAPERSTUDIEDTHEINFLUENCEOFTLLERANDOMFORESTPARAMETERSETTINGSONCLASSIFICATIONACCURACYTHEEXPERIMENTRESULTSINDICATEDTHATTLLECLASSIFICATIONACCURACYISNOTSENSITIVETOPARAMETERSETTINGSASISORENTHECASE,USINGTLLEDEFAULTPARAMETERS,YOUCALLACLLIEVEIDEALCLASSI6CATIONE疏CT3RESEARCHESONTLLERELIABILI够ANDPRACTICALVALUEOFTHERANDOMFORESTSCALCULATIONOFV撕ABLEIMPOIRTAILCEWERECONDUCTEDAREREX仃ACTINGIMPORTAILTVARIABLES,THECLASSIFICATIONACCLLRACYWASBETTERTLLALLBEFORE,AILDTHEMODELS仃AININGTIMEWASSHORTENED。THEEXPERIMENTRESULTSSHOWED也ATTHEVARIABLEIMPONANCEIS山东科技大学工程硕士学位论文ABSTRACTRELIABLEANDOFGOODPFACTICALVALUE4NLECOMPARISONOFTHECLASSIFICATIONACCURACYBE铆EENRFAILDML,RADICALBASISFLHLCTIONNEURALNETWORKSRBF小N,SVM,DT,BAGGINGAILDADABOOSTMLTHEEXPERIMENTRESULTSSHOWEDTHATMECLASSIFICATIONACCURACYOFRFISMUCHBE舵RMALLML,RBFNN,C45AILDBETTERTHAILSVM,BAGGINGANDADAB00STM1SLIGHTLY5THECOMPARISONOFCON如SIONMA仃IXAILDCLASSIFICATIONIMAGEBE“旧ENI心,MLALLDC456】NHERINDICATEDTLLATRAILDOMFORESTHASAVERYGOODCLASSIFICATIONPERFOMANCEWHENAPPLIEDTOREMOTESENSJNGIMAGECLASSIFICATION6INVS2008DEVELOPMELLTENVIROMENT,USINGC拌LANGUAGE,THISPAPERDESIGNEDSOFH,AREOFREMOTESENSINGIMAGECLASSIFICATIONBASEDONRANDOMFORESTBYCALLINGTHECLASS1IBRAU眵INTHEWEKASOF时AREK碍WONLSREMOTESENSINGIMAGECLASSIFICATION;RAILDOMFORESTS;BAGGING;BOOSTING;C1ASSIFICATIONACCURACY山东科技大学工程硕士学位论文目录目录L绪论。111研究背景及意义112遥感图像分类的研究现状213随机森林及其在遥感图像分类的研究现状314研究内容与研究方法52数据预处理21研究区域概况922数据介绍1023数据预处理113特征选择及样本选取31土地利用类型分类原则1432土地利用分类体系的建立1433分类样本选取一1634分类特征的选择174遥感图像分类算法41随机森林一1942其他算法225随机森林参数选择及变量重要性计算51随机森林参数的选择3052随机森林计算变量重要性326随机森林与其他算法分类精度比较61分类算法的参数说明3662分类精度的比较3663分类结果影像的分析比较一377随机森林分类软件设计71系统需求分析4072系统设计4073系统开发与实施418总结与展望山东科技大学工程硕士学位论文目录81论文工作总结5082研究展望一51致谢参考文献攻读硕士期间主要研究成果457山东科技大学工程硕士学位论文C0NTENTSONTENTSLINTLRODUC60N。111SIGNIFICANCE112BACKGROUND213RANDOMF6RESTSANDDEVEIOPMENT314CONTENTANDMETHODS52DAHPIP撒嚣SING”921STUDYAREA922DATAINTRODUCTION1023DATAPREPROCESSING113卫IEATLL他SEL酬ON曩NDSAMPLESEL优60N1431LANDUSETYPECIASSIFICATIONPRINCIPIE1432ESTABIISHMENTOFTHELANDUSECLASSIFCATIONSYSTEM1433CIASSIFICATION0FSAMPIESEIECTION1634CLASSIFICATIONFEATURESEIECTION174REMOTESENSINGIMAGEDASSM伪UONAIGORI_恤M1941RANDOMF6RESTS1942OTHERALGORITHMS一22SLBNDOM1O嗽伍PANMETERSEL优60N3051RANDOMF6RESTSPARAMETERSEIECTION3052RANDOMFBRESTCAICUIATIONOFVARIABIEIMPONANCE326COMPAN伍ECIA鼹削ATIONACCUNCY3661CLASSIFICATIONAIGORITHMOFPARAMETERSPECIFICATION3662COMPARETHECIASSIFICATIONACCURACY3663ANAIYSISOFCIASSIFICATIONRESULTS377LHNDOMFO嗍TCL越嫡矗CA60NSO行WAREDESIGN”4071SYSTEMREQUIREMENTSANALYSIS4072SYSTEMDESIGN4073SYSTEMDEVEIOPMENTANDIMPIEMENTATION418SUMMARYANDOUUOOK。5;O山东科技大学工程硕士学位论文CONTENTS81SUMMARY5082PROSPECT51ACKN们订EDGEMENT。WBRKSANDACHIEVEMEN伍。6S7山东科技大学工程硕士学位论文绪论L绪论11研究背景及意义土地利用土地覆盖研究是全球环境变化研究的重要组成部分,土地利用土地覆盖变化驱动因子的研究也是目前研究的热点之一。以往由于一个地区缺乏现在和过去土地利用土地覆盖的最新地图以及缺乏处理大量资料的分析方法,土地利用和覆盖变化的研究工作工期长、误差大、费用高,使土地利用规划受到严重影响。遥感技术则以其快速、准确、准时、周期短等优点在大中尺度的土地利用土地覆盖动态监测中具有明显的优势,在国内外已经得到了广泛应用。利用遥感手段获得土地利用土地覆盖信息的一个重要的中间环节就是分类。最先出现的分类技术是图像目视解译分类,它可充分利用判读人员的知识,灵活性好,擅长提取空问相关信息,但定位不准确,时效性差,可重复性差,并存在个人差异。目视解译现在仍然被广泛地应用于对精度要求较高的应用中,特别是在对米级高分辨率遥感图像分类时,目视解译精度一般高于计算机分类精度。计算机遥感图像分类是计算机模式识别技术在遥感领域中的具体应用,其核心任务就是确定不同地物类别间的判别接口和判别准则,可重复性好,定位准确,处理时间短,时效性好。然而与其它的计算机模式识别不同的是,遥感影像数据类别多,含混度大,维数高,高精度的多类别分类识别具有较大难度。传统的计算机分类方法是基于像元光谱统计特性的硬分类,不善于提取空间信息,不容易解决同物异谱、异物同谱、混合像元等问题,常常出现错分、漏分,分类精度不高,且分出的图斑比较零乱,针对传统的计算机分类方法已出现了很多改进。土地覆盖的分类是遥感图像应用的一个重要方面,同时也是学者们研究的重点和热点。随着成像技术及相应数据产品不断的发展,遥感图像分类得到了越来越广泛的应用,由单波段的遥感图像到多光谱图像再到高光谱图像,其应用研究得到不断的扩展和深入。土地覆盖的分类是遥感数据在土地资源分析及应用的第一步,如何解决多类别图像的识别并满足一定的精度,是遥感图像研究中的一个关键问题,具有十分重要的理论意义和实际应用价值。山东科技大学工程硕士学位论文绪论12遥感图像分类的研究现状遥感图像分类就是将遥感图像中的每个像元划归到类别中去的过程。这一过程的核心是利用诸如最大似然估计等传统分类方法和诸如人工神经网络、支持向量机、决策树分类器、随机森林等机器学习分类方法对遥感数据分类。经过数十年细致研究,土地覆盖分类的方法N。33和综述性文章N刮有很多。根据研究的侧重点不同,土地覆盖分类方法可以被分为监督的和非监督的,有参数的和无参数,确定性的和模糊的,基于像素的、超像素的或面向对象的等等。监督分类法如基于最小错误概率的BAYES分类法平行六面体、最小距离、马氏距离、极大似然、BP神经网络和支持向量机,这些方法就是首先根据类别的先验知识确定判别函数和相应的判别准则,其中利用一定数量的已知类别的样本训练样本的观测值确定判别函数中的待定参数的过程称之为学习或者训练,然后将未知的样本的观测值代入判别函数,再根据判别准则来对该样本的所属类别做出判断。这种方法如果在分类过程中注意训练区的质量,可以达到较好的分类效果。但是以极大似然分类法为例,这种方法要求利用先验知己及概率,并且样本呈正态分布、具有良好的统计性等条件,有时无法满足,得不到足够的训练信息。尤其对于非高斯分布的样本数据会导致分类精度的大大降低。非监督分类包括ISODATA算法、K均值、K均值的改进算法模糊K均值以及近几年发展起来的一种崭新的全局优化算法遗传算法,它借助了生物遗传学的观点,通过自然选择遗传变异等作用机制,实现各个个体的适应性的提高。还有些通过在基于像素的传统的分类器中结合纹理和上下文信息来提高分类精度。这几种方法分类简单、易操作。但是,这些方法的缺点在于需要事先确定各个类别的初始聚类中心和聚类数目,自动设置个类别中心到现在为止还没有一个切实有效的方法,而且从肉眼观察很难获得一幅遥感图像中类别的数目。虽然近年来也发展了诸如人工神经网络模糊聚类、决策树分类、专家系统分类法以及其他一些纹理分类算法。这些算法能较好地改善中、低分辨率遥感图像分类精度。但是仍存在一些问题。而在实际的应用中,只能结合具体的情况,选择较为合适的分类方法。了为本文提供合适的背景和为未来工作提供基础和启示,本节集中介绍决策树方法的研究现状。决策树方法是土地覆盖分类中常用的与上两类不同的另一种机器学习方法。例如,HAILSEN等人徊1用决策树实现了土地覆盖分类,他们在L度L度全球数据上的试验表明了山东科技大学工程硕士学位论文绪论决策树可以达到与最大似然估计相当的分类准确率,还指出利用决策树可以确定特征对分类而言的重要性。FRIEDL等人N叩详细试验了在遥感图像中应用决策树分类器的土地覆盖分类。他们以单变量、多变量以及混合变量的决策树进行分类,并将其方法与传统的最大似然估计和线性判决函数方法对比,试验结果表明决策树方法在所有情况下比其它两种对比方法准确,而混合变量决策树又比其它两种决策树更准确。根据试验结果,FRIEDL等人进步指出由于决策树相对简单、直观的分类架构,严格的非参数属性带来的与输入数据无关性,以及其对含噪声数据的灵活性和稳定性,决策树非常适合于土地覆盖分类应用。蹦EDL等人N试验了几种提高决策树性能的方法,他们用BOOSTING集成决策树,并将其应用在全球尺度上的多时相的AVHRR数据上,获得了非常显著的性能增益。FRIEDL等人提出的这方法可以看成是2001年BREIMAIL等人提出的随机森林的先声,该方法与随机森林的主要不同在于随机森林中是用BOOTS仃印AGGREGATING方法集成决策树。DEFRIES等人N习应用决策树完成了NASAN眦气PAL数据上的8公里分辨率的全球土地覆盖分类,得到结果的准确率在814到903之间。该研究证明了决策树适用于大规模土地覆盖分类。根据主流研究结果看决策树方法在准确率方面劣于人工神经网络和支持向量机方法,它的优点在于能提供对分类来说数据特征的重要性,此外,决策树方法还是随机森林方法的基础。13随机森林及其在遥感图像分类的研究现状作为一种分类器,随机森林在遥感领域很自然地直接应用于土地覆盖利用分类、生物分布等分类应用中。随机森林是LEOBREIM锄于200L正式提出的,在国外,随机森林的应用研究开始的较早。在阅读大量国外文献的基础上,总结出随机森林在遥感图像分类中的应用中的数据源可分为四类LANDSAT等多光谱图像、高光谱图像、雷达影像和多源数据。在早期的文献N31中,随机森林被应用于LANDSATETM多光谱图像上的土地覆盖分类,分析比较了RANDOMFOREST、ADABOOST和BAGGING三种算法在分类精度、分类速度及抗噪性等方面的优劣,通过实验表明随机森林的分类精度较高、抗噪性强,非常适合于土地覆盖分类应用。在文献N钔中,利用LANDSATETM数据分析比较了RAILDOMFOREST和SVM在分类精度、分类速度和选参方面的优劣,实验表明随机森林在分类精度、分类速度和选参便捷性等方面都比SVM有优势,是一种很好的遥感图像分类算法。在文献N目中,随机森林用于LANDSATMSS多光谱数据和DEM、S10PE、ASPECT等辅助地理数据组成的多源数据上的土地覆盖分类,分析比较了RF、BAGGING、BOOSTING和CAI玎在分类精度和分类速度方面的优劣,得出的结论是I心在分类精度优于C6蝴,跟B00STING3山东科技大学工程硕士学位论文绪论和BAGGING相当;分类速度比BOOSTING和BAGGING快;不会过拟合,可以估计重要性,可以探测奇异值。在文献N“忙2心中,随机森林用于LANDSAT数据与地理辅助数据或纹理等组成的多源数据上的土地覆盖分类。与其它的多源数据上的聚合算法相比,随机森林表现出了对噪声与过训练不敏感,计算速度快的优势。在文献陋21中,随机森林用于基于高光谱数据的土地覆盖分类,研究以增强较差训练数据条件下分类器泛化能力为目的给出了两种改进,实验表明了它们相对于传统方法的优越性。文献口33比较了用于航空高光谱图像对生态区分类的三种分类方法,其中在准确率方面随机森林和ADABOOST都以相互接近的70的准确率,超过了神经网络的637。但同时随机森林在训练中比ADABOOST更快、更稳定。在文献心41中,随机森林共同提出者ADELECUTLER等人详细介绍了随机森林的优势,包括1随机森林有非常高的分类准确度;2可以确定变量对分类效果的重要性;3能够对预测变量之间复杂的互动建模;4能进行多种统计数据分析,包括回归分析、分类、生存分析、无监督学习;5能估算缺失数据值。在外来植物物种入侵问题中,作者将随机森林应用于分类以及特征的重要性推断,取得了与经验相符合的结果。在文献乜叫中,随机森林用于基于多时相C波段SAR数据的土地覆盖分类。此研究的实验表明,利用多时相数据信息可以有效的提到分类精度。在文献妇町中,随机森林被用于机载LIDAR数据与多光谱数据结合的城市量测,通过大量数据的训练验证过程,此研究给出了对各个类的各个特征的重要性量测,证实了联合运用光学多光谱数据和LIDAR数据的重要性。在国内,随机森林在遥感中的应用起步不久,武汉大学电子信息工程学院的孙洪研究团队在文献瞳刀中研究了利用随机森林在极化SAR图像上的地形分类问题,提出了两种特征组合策略,在ALOSPALSAR图像上取得了良好的效果。雷震乜町通过分析目标检测、土地覆盖分类和变化检测的研究特点,对随机森林纹元森林做了相应的改进,促进了更适应于相应的遥感应用特点的随机森林纹元森林的新的发展。刘毅等瞳叩研究了随机森林在国产小卫星影像分类中的分类效能。以上的众多研究表明随机森林在包括LANDSATETM数据、多光谱、高光谱数据、SAR数据、LIDAR数据和GIS数据,以及由它们组合得到的多源数据上,在遥感土地覆盖、生物物种分布等分类应用方面有非常优良的表现,因而在今后本领域的科学研究和社会生产生活中很有继续研究推广的价值。4山东科技大学工程硕士学位论文绪论141研究内容14研究内容与研究方法本文对基于随机森林的遥感图像分类进行了广泛而深入的研究,详细介绍了遥感图像分类算法,包括最大似然、人工神经网络、支持向量机、决策树、BAGGING、B00STING和随机森林。针对随机森林参数选择和变量重要性对分类精度的影响进行了试验,并比较了随机森林与其他几种常用算法的分类精度,并根据分类结果的混淆矩阵和分类结果图像,详细分析比较了随机森林与最大似然、C45的分类效果。最后实现了一个功能较为完善的随机森林分类软件。论文的组织结构如下第一章绪论。本章主要介绍本次研究的意义、遥感图像分类的研究现状、随机森林及其在遥感图像分类的研究现状,并提出本次研究的主要内容和创新点。第二章数据预处理。本章主要介绍研究区域的概况、研究数据的介绍和数据需要做的预处理。第三章特征选择及样本选取。本章主要介绍土地利用土地覆盖分类原则及、本研究分类体系的建立、分类样本选取方法和分类特征的选择。第四章遥感图像分类算法。介绍了随机森林的原理和目前常用的遥感图像分类算法的原理,包括最大似然、神经网络、支持向量机、决策树、BAGGING和BOOSTING。第五章随机森林参数选择及变量重要性计算。介绍随机森林算法需要设置的参数,参数对分类精度的影响并选取最优参数;介绍随机森林可以计算变量重要性的这一特性,并根据选取的重要变量做分类,实验表明根据选取的重要变量做的分类,模型训练时间缩短,分类精度有所提高。第六章随机森林与其他算法分类精度的比较。比较了I心与ML、I出F小附、SVM、C45、BAGGING和ADABOOSTML的分类精度,实验表明,RF用于遥感图像分类时,分类精度明显高于ML、RBF小N和C45算法,略高于SVM、BAGGING和ADAB00STML算法;分析比较了RF与ML、C45的混淆矩阵和分类结果图像,进一步表明,I心应用于遥感图分类时,有很好的分类效能。第七章随机森林分类的软件设计。使用C撑语言,在VS2008开发环境下,通过调用WEKA软件中的类库,设计出基于随机森林的遥感图像分类软件。山东科技大学工程硕士学位论文绪论第八章总结与展望。总结本次的研究工作和不足,对未来的研究展开思路打下铺垫。论文的设计思路如图11所示。142研究方法图11技术路线图FIGURE11TECHNICALROUTE1在广泛查阅国内外有关遥感影像特别是ETM影像分类的文献资料后,进一步了解遥感分类的研究进展和发展趋势,重点是决策树和随机数森林在遥感分类中的应用与研究现状。2熟练掌握基本的遥感图像分类方法和理论、以及RBF神经网络、支持向量机、决策树和组合分类器BAGGING、BOOSTING和RF的理论知识,确定研究中采用分类算法及相应参数;3熟练掌握混淆矩阵和KAPPA分析技术对分类结果进行精度计算方法。4通过野外的实地考察,收集各方面的数据资料包括影像图和实地采样数据,为提高分类精度提供基础。山东科技大学工程硕士学位论文绪论5熟练掌握遥感图像的处理软件ENVI中图像预处理、分析及分类等基本的操作功能;最大似然法分类、决策树分类在ENVI中实现;学会使用WEKA软件中的I也FNN、SVM、C45、BAGGING、ADABOOSTML和I心算法根据训练样本训练模型,并对测试样本进行分类,并计算分类精度。山东科技大学工程硕士学位论文数据预处理2数据预处理21研究区域概况钱塘江流域是浙江省八大水系之一,是浙江省第一大河,世代孕育着浙江文明。钱塘江流域位于浙江省西部,有南、北两源,均发源于安徽省休宁县,南源兰江与北源新安江流至建德梅城汇合后称富春江,向东北流经桐庐县、富阳市,在东江嘴揽入浦阳江后称钱塘江,向东汇入东海。钱塘江流域地势西南高,东北低。钱塘江干流长河长668公里,流域面积55558平方公里,其中浙江省境内面积48080平方公里,占全省陆域面积的47。富春江水电站坝下至入海口门长282KM的河段是感潮河段,是钱塘江的河口区。浙江省境内钱塘江水系流域面积100平方公里以上的支流有123条,其中一级支流5L条,二级支流46条,三级支流23条,四级支流3条。钱塘江流域位于亚热带季风气候区,年平均温度17度,冬季盛行西北风,天气晴冷干燥;夏季多东南风,气温高,光照强,空气湿润;春秋两季气旋活动频繁,冷暖变化大。春季及初夏多锋面雨,夏秋之际多台风,季风环流的方向与主要山脉走向基本正交,山脉起着阻滞北方寒流和台风的作用。年平均降水量1600MM,其中46月多雨,占50,易发生洪、涝灾害;79月占20,早灾频繁。河川径流年内、年际变化较大。钱塘江流域涉及省内杭州、衢州、金华、绍兴、丽水5个设区市,共20多个县市、区。现状人口约1607万,钱塘江河口独特的水沙条件,孕育了两岸的杭嘉湖、萧绍宁平原,使之成为一方不断成长的沃土,成为富庶的江南鱼米之乡、丝绸之府、文化之邦。本文的研究区域为钱塘江流域的一部分,区位图如图21所示山东科技大学工程硕士学位论文数据预处理221盯M数据一一图21研究区域区位图FIGURE21STUDYAREALOCATIONMAP22数据介绍遥感数据现如今已成为土地利用土地覆被研究的主要数据来源,本研究收集了覆盖钱塘江流域的四幅无云LANDSAT7ETM影像。其中影像WRS2PATH119,ROW39覆盖钱塘江流域的大部分,影像的获取时间是2010年9月21日,包含六个30米分辨率的波段BANDLBAILD5、BAND7。另三幅影像的条带号分别是PATHLL8ROW39,PATHLL9ROW40,PATH118ROW40;获取时间分别为2010年11月1日,2009年10月4日,2010年11月1日。ETME111AILCEDTHEMATICM印PERP1US是LANDSAT7卫星上搭载的主要传感器之一,ETM被动感应地表反射的太阳辐射和散发的热辐射,有8个波段的感应器,覆盖了从红外到可见光的不同波长范围。ETM比起在LANDSAT4、5上面装备的THEMATICMAPPERTM设备在红外波段的分辨率更高,因此有更高的准确性。222MODIS数据本研究收集了覆盖钱塘江流域的2010年12个月的TEMMODIS产品MODL3Q1EVI指数,该产品是3级产品,空间分辨率为250米。MODISMODERATERESOLUTIONIMAGINGSPECTRORADIOMETER是TENIA和AQUA卫星上搭载的主要传感器之一,两颗卫星相互配合每12天可对整个地球表面进行重复观测,得到36个波段的数据,其光谱范围较宽,从04微米可见光到144微米热红外全光谱覆盖,9山东科技大学工程硕士学位论文数据预处理有助于我们对全球表面的情况进行深入理解,可广泛用于气象、环境、林业、港口、自然灾害监测等领域。MODIS数据于2000年4月开始正式发布,NASA以广播X波段的方式将MODIS数据向全球免费发送,我国已建立了其接收站并于2001年3月左右开始接收MODIS数据。223A钉ER数据本研究收集了覆盖钱塘江流域的ASTER的90米分辨率的DEM数据。ASTER是搭载在TENA卫星上的星载热量散发和反辐射仪,该卫星于1999年12月18日发射升空的,ASTER传感器分成三个独立的子系统,分别处于可见光近红外、短波红外、热红外波段。ASTER影像的第一至第三波段位于可见光近红外部分,空问分辨率为15米;第四至第九波段位于短波红外部分,空间分辨率为30米;第十至第十四波段位于热红外部分,地面分辨率为90米。23数据预处理231数据去条带由于LANDSAT7ETM机载扫描行校正器SLC故障导致2003年5月31日之后获取的图像出现了数据条带丢失,严重影响了LANDSATETM遥感影像的使用。我们使用LANSDAT7ETM条带修复ENVI补丁TMDES埘PESAV。图22去条带前后比较图FIGURE22BEFOREANDANERSTRIPREPAJR10山东科技大学工程硕士学位论文数据预处理232数据辐射定标辐射定标就是将影像记录的原始像元亮度值D硒TALNULILBER,DN转换为大气外层表面反射率TOPOFANILOSPHEREREFLECTANCE,即表观反射率。目的是消除传感器本身产生的误差。本文用ENVI软件把DN值转换为表观反射率。233数据投影转换MODIS数据采用的ISININTEGERIZEDSINUSOIDAL投影方法进行投影的,而目前大部分软件包均不支持这种投影格式。将其重投影为高斯克拉克投影,WGS84坐标系下,使用的工具是MI汀MODISREPROJECTIONT001。MI汀是一种针对MODIS数据的处理工具,可以帮助用户把MODIS影像重新投影到更为标准的地图投影,而且可以选择影象中的空间子集和波段子集进行投影转换。软件输出格式为MWBINARY,GEOTIFF这两种数据格式为大多数软件所支持和HDFEOS,而且可以在好几种系统平台上进行运行,包括SLLLLSOL撕SWORKSTATIONS,SGIIX的RKSTATIONS,LINUX和MICROSORWINDOWS。本文要处理钱塘江流域全年的MODL3Q1产品,可以选择通过命令行输入的方式来操作这就是常说的利用MI盯对MODISHDFEOS文件进行批处理BATCHPROCESSING。命令行输入最大的好处就是可以大批量的处理相关的MODIS数据。232数据拼接影像拼接处理MOSAICIMAGE是要将具有地理参考的若干相邻图像合并成一幅图像或一组图像,拼接方法有基于像素和基于地理坐标两种方法。基于地理坐标的拼接需要拼接的输入图像必须含有地图投影信息,拼接精度较基于像元的方法高。在进行图像拼接时,需要确定一幅参考图像作为输出拼接图像的基准,决定拼接图像的对比度匹配、以及输出图像的地图投影、象元大小和数据类型。在本研究中,由于四幅ETM图像不是同一个月份的,所以色差比较大。为了保证拼接后图像颜色的均一性,我们使用EIAS软件进行图像拼接,该软件可以人为勾画拼接边界,使得拼接边界沿道路或者河流。山东科技大学工程硕士学位论文数据预处理233数据裁剪裁剪的目的是将研究去之外的区域剔除,以提高数据处理的效率。常用的是按照行政区划边界或自然区划边界进行图像的分幅裁剪。它的过程可分为两步矢量栅格化和掩膜计算MASK。矢量栅格化是将面状矢量数据转化成二值栅格图像文件,文件像元大小与被裁剪图像一致;把二值图像中的裁剪区域的值设为,区域外取值,与被裁剪图像做交集运算,计算所得图像就是图像裁剪结果。在ENVI中,根据钱塘江矢量图完成影像裁剪。裁剪结果如图23所示。图23裁剪结果FIGURE23CUNINGRESULTS山东科技大学工程硕士学位论文特征选择及样本选取3特征选择及样本选取31土地利用土地覆盖类型分类原则我国地形复杂、土地利用土地覆盖分类较难精确,为了减少土地利用土地覆盖分类的误差,本研究针对多源数据的特点及钱塘江流域的土地利用土地覆盖特征,建立土地覆盖类型分类原则1主导因子原则由于人们的需求日益多样、复杂,是土地利用土地覆盖布局也变得多样化及复杂化,如公园中有建筑用地、草地等土地利用土地覆盖类型,公路边有林地、农业用地等土地利用土地覆盖类型,使土地利用土地覆盖类型存在镶嵌、包裹等复杂的多样化形式,因此在多源数据中就存在混合象元,在土地利用土地覆盖分类时就需有一主导因素指标决定该象元的土地利用土地覆盖类型。2科学性、实用性原则土地利用土地覆盖类型信息是有关部门进行土地利用土地覆盖研究、规划等的依据,是做出科学、合理的土地利用土地覆盖决策的基础,因此土地利用土地覆盖分类应遵循科学性及实用性原则,从而反映出土地利用土地覆盖的真实性,为相关研究及决策服务。3先易后难原则在进行土地利用土地覆盖类型分类时先将容易区分的土地利用土地覆盖类型地物光谱与其他地物光谱区分较大区分出来,再对较难区分的土地利用土地覆盖类型进行分析,根据不同波段光谱特征及相关函数如NDVI进行分类。32土地利用土地覆盖分类体系的建立我国关于土地利用土地覆盖类型的分类体系还没有一致的意见,目前采用的土地分类体系主要是1984年全国农业区划委员会颁发的土地利用现状调查规章中所给出的土地利用分类方案8个大类、46个二级类型和2007年国土资源部推出的第二次土地调查的土地分类国家标准12个一级类,57个二级类。此外还有USGS和IGBP分类体系在国内得到广泛使用。本研究的项目来源中使用的是IGBP分类体系标准,因此本研究建立的分类标准将参考IGBP分类体系标准。山东科技大学工程硕士学位论文特征选择及样本选取表31IGBP分类体系标准TIABLE31THELANDUSECLASSIFICATIONSTANDARDOFICBP分类编号类型分类描述1常绿针叶林覆盖度60和高度超过2M,且常年绿色,针状叶片的乔木林地2常绿阔叶林覆盖度60和高度超过2M,且常年绿色,具有较宽叶片的乔木林地3落叶针叶林覆盖度60和高度超过2M,且有一定的落叶周期,针状叶片的乔木林地4落叶阔叶林覆盖度60和高度超过2M,且有一定的落叶周期,具有较宽叶片的乔木林地5混交林前四种森林类型的镶嵌体,且每种类型的覆盖度不超过606郁闭灌木林覆盖度60和高度低于2M,常绿或落叶的木本植被用地7稀疏灌木林覆盖度1060之间,高度低于2M,常绿或落叶的木本植被用地8有林草地森林覆盖度在3060之间,高度超过2M,和草本植被或其它林下植被系统组成的混合用地类型9稀树草地森林覆盖度在1030之间,高度超过2M,和草本植被或其它林下植被系统组成的混合用地类型10草地由草本植被类型覆盖,森林和灌木覆盖度小于101L永久湿地常年或经常覆盖着水淡水、半咸或咸水与草本或木本植被的广阔区域,是介于陆地和水体之间的过渡带12农田指由农作物覆盖,包括作物收割后的裸露土地;永久的草本农作物可归类与合适的林地或灌木覆盖类型13城镇与建成区被建筑物覆盖的土地类型14农田与自然植被指由农田、乔木、灌木和草地组成的混合用地类型,且镶嵌体任何一种类型的覆盖度不超过6015冰雪指常年由积雪或者冰覆盖的土地类型16裸地指裸地、沙地、岩石、植被覆盖度不超过1017水体海洋、湖泊、水库和河流,可以是淡水或咸水本论文研究内容主要是钱塘江流域的土地利用土地覆盖类型研究,针对钱塘江的土地利用特征、功能等进行大方向的土地利用土地覆盖分类,考虑ETM传感器的中空间分辨率和光谱分辨率以及不同地物类型的光谱区分程度,并参考LGBP分类体系标准建立了适用于本研究的土地分类体系14山东科技大学工程硕士学位论文特征选择及样本选取表32钱塘江土地利用土地覆盖类型分类体系TABLE32111EL蛐DUSECLASSIFICATIONSTANDARDOFQIANTAJL西IANGRIVERDELTA分类编号类型分类描述L常绿阔叶林覆盖度60和高度超过2M,且常年绿色,具有较宽叶片的乔木林地2城镇及建设用地被建筑物覆盖的土地类型3农田指由农作物覆盖,包括作物收割后的裸露土地;永久的草本农作物可归类与合适的林地或灌木覆盖类型4落叶阔叶林覆盖度60和高度超过2M,且有一定的落叶周期,具有较宽叶片的乔木林地5灌木林高度低于2M,常绿或落叶的木本植被用地6裸地7水体海洋、湖泊、水库和河流,可以是淡水或咸水33分类样本选取监督分类中训练样本的选择是非常重要的一步,在监督分类中由于训练样本的不同分类结果就会出现极大的差异。因此,遥感分类结果的好坏很大程度上取决于训练样本的正确选择。根据许多学者的研究发现,训练样本的选取包括两个方面,一是确定要分类的地物类型,二是确定训练样本的数量。然而对训练样本的如何选取并没有十分明确的方法,不同的分类方法及其不同的应用采用不同的选取方法。但是对训练样本的选取要求是一致的,其要求是不连续性训练场地各样本在物理空间上可以是不连续的。代表性训练场地样本应该在各类地物面积较大的中心部分进行选取,而不应在各类地物的混交地区和类别的边缘选取,以保证数据的单纯性。分布各类训练场地样本还必须与采用的分类方法所要求的分布一致,如最大似然法假设各变量是正态分布,训练样本应尽量满足这一要求。数量要使各类训练样本能够提供各类的足够信息和克服各种偶然因素的影响各类训练样本应该有足够样本数。训练样本的个数与所采用的分类方法、特征空间的维数、各类的大小和分布等有关。确定训练样本的方法有1实地采集样本点,即通过全球定位系统定位实地记录的样本。2屏幕选择,即通过近期的图件资料如土地利用类型图、地形图、植被图等或根据分析者对该区域的了解在屏幕上根据光谱色调、纹理、形状等直接选取有代表性的每类像元或区域。3遥感资料利用时相接近的高分辨率的遥感图作为低分辨率遥感分类选取样本的山东科技大学工程硕士学位论文特征选择及样本选取基础,通常在大面积的土地植被覆盖分类中使用。4样本特征库从已经建立的样本特征库中选取同样环境下的同种地物类别的数据。本文研究确定样本的方法是结合目视解译标志与高分辨率遥感影像,直接在遥感图像上选取样本的方法。每一类的训练样本和测试样本各为1000个像元,见表33。表33分类类别和样本个数7RABLE33CLASSINCATIONCATEGORIESANDTHENUMBEROFSAMPLES类别号类别信息训练样本个数测试样本个数1常绿林100010002城镇及建设用地100010003农田100010004落叶林100010005灌木丛100010006裸地100010007水体10001000样本总数70007000利用训练样本,对各地类类型进行ETM波段DN值均值统计。各地类光谱统计结果如图31。从图中以及对样本的可分离性分析得出所选样本中不同地物类别具有良好的分离性,满足分类要求。23456图31样本DN值统计FIGURE31S锄PJEDNVALUESTATISTICS34分类特征的选择特征选择FEATLLREEX仃ACTION是从众多特征中挑选可以参加分类运算的若干个特征。山东科技大学工程硕士学位论文特征选择及样本选取特征选择是对分类精度和可靠性影响最大的因素之一,因而研究者目前提出了许多方法。方法概括如下针对分类地物的特点,从所有波段中提取几个波段作为特征。波段选取可依经验,也可根据美国查维茨教授提出的最佳指数公式OIF利用主成分分析、KT变换、小波变换算法将所有波段进行变换,在提取前几项数据相关性小的分量作为特征。利用各波段间的数值运算作为特征即建立新通道。例如比值、植被指数等。利用遥感图像中地物的纹理特征作为模式特征。纹理的测度可应用共生矩阵法、半变差函数法、马尔可夫随机场、小波变换法和分形分维法。综合利用以上各种特征。特征的选择是针对特定的专题信息提取而言的,选择的特征少,分类器的设计和实现简单,但分类的精度不高;选择的特征太多,分类器的设计和实现复杂,分类效果也不一定好。因此在进行分类之前研究分类所用的特征的选取很有必要。本研究获取了20LO年LANDSAT7ETM光谱数据,并考虑到植被指数可以反映不同的植被类型和土地覆被类型,以及研究区域的地形多样化,选用20LO年MODIS增强型植被指数和DEM高程数据作为辅助数据。其中,选取2010年ETM30米分辨率的BAILDLBAND5、B锄D7六个波段,MODIS250米分辨率2010年1月至12月的12个增强型植被指数EVI产品,一个ASTER的90米分辨率的DEM数据,共19个数据层。山东科技大学工程硕士学位论文遥感图像分类算法411基本原理4遥感图像分类算法41随机森林随机森林是美国科学院院士LEOBREIMAN综合了由他提出的BAGGING集成,有很长研究历史的CART决策
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工业自动化技术及其应用案例分析
- 工业自动化技术的创新发展
- 工作之余的放松之道如何有效利用假期旅行
- 工作生活平衡与压力管理技巧
- 工业领域中的绿色制造策略
- 工作效率提升的科技趋势分析
- 工作场合英语口语提升方法
- 工程施工中的材料管理优化
- 工程机械在变载条件下的动力特性研究
- 工程测量中的数据智能处理技术
- 英语歌曲欣赏troubleisafriend
- 邮轮乘务员职业道德与素养PPT完整全套教学课件
- 有限责任公司章程两个及以上股东样本
- 山东开放大学工作人员招聘考试真题2022
- 夏季预防中暑及中暑急救培训PPT
- 地缘政治与中国的地缘战略
- DB11T 065-2022电气防火检测技术规范
- 2022年和政县政务中心综合窗口人员招聘笔试试题及答案解析
- 铝电解电容器
- GB/T 10653-2001高聚物多孔弹性材料压缩永久变形的测定
- 幼儿园突发事件应急处置流程图
评论
0/150
提交评论