《论文基于多示例学习方法的遥 感影像 分类(定稿)》.doc_第1页
《论文基于多示例学习方法的遥 感影像 分类(定稿)》.doc_第2页
《论文基于多示例学习方法的遥 感影像 分类(定稿)》.doc_第3页
《论文基于多示例学习方法的遥 感影像 分类(定稿)》.doc_第4页
《论文基于多示例学习方法的遥 感影像 分类(定稿)》.doc_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

论文基于多示例学习方法的遥 感影像 分类(定稿) 中国科技论文在线.paper.基于多示例学习方法的遥感影像分类阿里木赛买提,杜培军*(中国矿业大学地理信息与遥感科学系,江苏新徐州市,221116)摘要本文通过人为选择噪声强烈的训练样本,将Iterated-APR、MI-SVM、mi-Graph等多示例学习方法用于QuickBird、ALOS及ASTER等卫星影像的像素级分类。 试验结果表明,多示例学习方法能从噪声强烈的训练样本中学到性能优良的分类器,遥感影像分类精度较好,具有广泛的应用前景。 关键词多示例;Iterated-APR;MI-SVM;mi-Graph;分类TP391510152025303540Multiple InstanceLeraning basedRemote SensingImage ClassificationAlim.Samat,Du Peijun(Department ofRemote Sensingand GeographicalInformation Science,China Universityof Miningand Technology,Xuzhou CityJiangsu Province,221116)Abstract:In thispaper,Iterated-APR,MI-SVM andmi-Graph multiple instance learning method wasselected topixle basedclassify theimages ofQuickBird,ALOS,and ASTERremote sensingstalites withnoisy trainingsamples.The experimentshows that,multipleinstance learningmethodcan learnstrong classifierfrom thenoisy traingsamples,the classificationauracy of remote sensingimage ishigh,it haswidely persectin thisfield.Key words:Multple Instance Learning;Iterated-APR;MI-SVM;mi-Graph;Classification0引言在药物活性预测研究中,对于那些适于制药的分子来说,它们的某个低能形状和期望绑定区域将耦合的较紧,而对于不适于制药的分子来说,它们和期望绑定区域耦合的不好。 由于每个分子都有很多种可能的低能形状,而生物化学专家只知道哪些分子适于制药,但并不知道是哪一种低能形状起了决定性作用。 如果直接使用传统的监督学习方法,将适于制药分子的所有低能形状作为正例,将所有不适于制药分子的所有低能形状作为反例,会因正例中噪声太高而难以正确地学习。 为了解决这个难题,T.G.Dietterich等人将每个分子作为一个包,将分子的每一种低能形状作为包的一个示例,由此提出了多示例学习的概念1。 多示例学习(Multiple Instance Learning,MIL)以包为训练样本,包由无概念标记的若干示例组成,示例有多维属性特征,学习的目的是预测新包的类别。 MIL训练样本的歧义性与独特性使其具有处理歧义性问题的独特优势,而这种歧义性问题是以往机器学习方法研究的一个盲区,因此被视为与强化学习、监督学习、非监督学习并列的第4种机器学习框架,并成为近十多年来国际上机器学习研究的热点2-5。 作为一种新的机器学习框架,MIL所具有的优势最近也引起了高光谱遥感图像分析、遥感图像检索等专家们的兴趣,并表现出广泛的应用前景6-8。 本文将Iterated-APR、MI-SVM、mi-Graph等经典的多示例学习方法用于遥感影像分类,拓展机器学习新方法在遥感图像分类中的应用。 作者简介阿里木赛买提(1984年-),男,硕士在读,主要研究方向遥感图像处理与应用,机器学习通信联系人杜培军(1975年-),男,教授,博士生导师,主要研究方向遥感图像处理与模式识别,资源环境遥感与信息系统,高光谱遥感,地理空间分析与地学计算,地理信息技术集成与应用等.E-mail:dupjrs126.-1-中国科技论文在线.paper.1多示例学习多示例学习作为一种新的机器学习框架,其算法研究主要有三个方向根据多示例问题的特点建立能够直接处理多示例问题的新算法,如APR、DD、EMDD等1,5,9;转化多示例问题为传统监督学习问题,如MILES10;转化传统监督学习方法使其能够处理多示例问题,45如MI-SVM、mi-SVM、mi-Graph、BPMIP等11,12,13。 1.1Iterated-APR Dietterich等人在研究药物活性预测问题中提出了三个APR(Axis-Parallel Rectangles:GFS elim-count APR,GFS elim-kde APR,Iterated-APR)框架下的多示例学习算法,这些算法都是在属性空间中寻找合适的轴平行矩形,预测新包的准则是如果一包中至少一个示例落50入学到轴平行矩形内部,则标记该包为正包,否则为反包1。 Iterated-APR算法通过backfitting算法找出一个包含每个正包中至少一个示例的最小轴平行矩形,然后从中挑选出最具区别能力的一组示例,再通过核密度估计方法对可能出现正包示例的轴平行矩形不断扩展获得最优边界矩形。 551.2MI-SVM支持向量机(Support VectorMachine,SVM)是建立与统计学习理论中VC维和结构风险最小化原则基础之上的监督性机器学习方法,它将样本数据投影到更高维空间搜索最优超平面实现分类,核方法的引入保证了SVM的算法复杂度与其样本数据的维数无关。 多示例学习在包层面上属于监督学习框架,这为SVM与多示例学习方法的结合创造了可能,进而在后来的研究过程中研究者们提出了多种基于SVM的多示例学习方法。 其中,基于包的6065SVM(MI-SVM)和基于示例的SVM(mi-SVM)的方法是研究较早的经典SVM多示例学习方法11。 多示例学习中,正包的标记由哪一个或哪些示例决定是的,因此,在正包模式条件下引入最大边缘思想是困难的。 当把每个多示例包看作一个模式分布,根据多示例学习中包的定义,可以建立模式类别yi与包标记Y I间的关系YI=max iI yi。 基于多示例包的支持向量机算法MI-SVM则从每个样本正包中选取一个被视为对包标记决定性最大的示例,然后调用支持向量机算法构建多示例分类器。 MI-SVM的标准形式为111min minw,b,yi2i s.t.?I:YI max(w,xi+b)1?I,I0iI (1)1.3mi-Graph MI-Graph和mi-Graph是在假定多示例包服从非独立同分布假设条件下引入图论及核70方法来解决多示例问题,主要思想是把多示例包中的示例当作图中的结点,当结点间的距离小于事前设定的阈值则建立结点间的边来构建多示例包图,不同多示例包间的相似性用结点核、边核来度量,最后调用传统支持向量机方法处理进行学习与新包的预测。 与MI-Graph方法相比,mi-Graph方法放弃了边核的计算,使其更见简单、高效且有效、更加|w|2+Ci-2-中国科技论文在线.paper.适合处理实际问题。 在mi-Graph多示例学习方法中,假定现有包Bi,B j分别有mi,n j个示75例,mi-Graph中两包之间的相似性度量形式为12K g(Bi,B j)=mi nj a=1b=1mi na=1 (2)2mi nj,W上式中,W i通过计算Bi中示例间距离获取的相关矩阵,获取方式为waui=? (3) (4)80,x (5)waui表示Wi中第a行第u列的值,为预设的阈值。 2多示例学习遥感影像分类2.1可行性遥感图像分类是根据地物在不同波段的光谱特征、空间特征等信息,调用某种分类算法划分成不同地物类别的过程。 分类方法根据有无先验知识加入分类过程,可以分为监督学习8590分类和非监督学习分类。 多示例学习以包为训练样本,包由若干无概念标记的示例组成,学习的目的是实现新包的分类。 从包层面上来讲,多示例学习监督机器学习框架范畴。 作为一种特殊的监督性分类方法,多示例学习方法已用于自然场景图像分类、网页文本分类、股市、14-16用于遥感图像分类,关键是遥感图像分类问题的多示例转化,即,像素或对象到多示例包的转化。 在基于多示例学习方法的图像处理问题中,人恩提出了不同的包获取方法,研究结果也表明不同的包获取方法对分类结果的影响差异较大5。 在诸多图像多示例包获取方法中,基于聚类算法和图像分割方法的获取又最为常用。 总上所述,人工获取感兴趣区域为训练样本包,经聚类或分割获取的同质区域待预测新包,多示例学习方法就可以实现遥感影像分类。 2.2实现过程95基于传统监督学习方法的遥感影像像素级分类中,通过选择已知地物类别的像素作为训练示例。 在多示例学习的训练样本获取阶段,可以将像素作为示例,像素在各波段的光谱响应值作为示例特征,一定数量的示例则可以构成包(如表1)。 带预测新包则可以用K-均值聚类、模糊C均值聚类、SOM神经网络等聚类算法,或是分水岭变换、迭代条件模式Markov100模型等分割方法获取。 在聚类策略中,聚类数为待预测新包数。 在分割策略中,一个个对象Wia jbia jb)W iab=1W jbW k(x,x(x,x)=exp(?|x?x knodeia jbia jb|)Wia=1/u=1wau jb=1/v=1wbvj i?=1,if(dist(xia,xiu)?=0,if(dist(xia iu)预测等领域5。 因此,根据多示例学习的监督性特征及学习目的,多示例学习方法可以-3-中国科技论文在线.paper.作为待预测新包。 表1遥感图像分类问题多示例转化过程Table1Transfer flowof remotesensing problemto MIL根据以上内容,基于多示例学习方法的遥感影像分类步骤可以描述为第一步根据多示例学习方法的包特性人工选取感兴趣区域为训练样本包;第二步调用聚类算法或分割算法获取待预测新包;105110115第三步调用多示例学习方法对样本进行学习建立模型;第四步调用第三步建立的模型对新进行分类。 3试验与分析3.1试验数据为了体现试验的客观性,选择多种遥感卫星影像数据进行试验分析。 从xx年6月23日获取的青岛市四方区QuickBird卫星多光谱影像截取200200像素大小的区域为试验区1,QuickBird卫星多光谱影像空间分辨率为2.44米;从xx年11月12日获取的徐州市ALOS卫星多光谱影像截取400400像素大小的区域为试验区2,AlOS卫星多光谱影像空间分辨率为10米;从xx年3月16日获取的徐州市ASTER卫星影像可见近红外波段截取400400像素大小的区域为试验区3,ASTER卫星影像可见光近红外1-3波段空间分辨率为15米,短波红外4-9波段空间分辨率为30米,热红外10-14波段空间分辨率为90。 3.2试验与分析与其他的机器学习方法相比,多示例学习具有处理歧义性问题的特殊优势。 基于多示例学习方法的遥感影像分类中,训练样本数据中的噪声、混合像元、同物异谱和异物同谱等现象都可以认为是歧义性问题的表现形式。 因此,为了体现出多示例学习方法处理歧义性问题1xx5的优势,试验中选取的样本正包中含有较多的反示例。 选用的Iterated-APR、MI-SVM、mi-Graph等多示例学习方法跟绝大多数多示例学习方法一样,都只能处理二类问题。 针对遥感影像多类地物分类问题采取1-against all策略训练多个二值分类器,即每次学习从待预测新包中提取一类地物。 试验中用K-均值聚类算法获取待分类图像的多示例包,方法精度评价采取留一法。 跟Iterated-APR方法相比,MI-SVM、mi-Graph等方法的参数较多,而且核方法性能受其控制参数影响较大。 为此,试验中采取10交叉验证策略确定MI-SVM、mi-Graph多示例方法的核参数。 遥感影像地物类型样本包+正包B1,.,BN+?反包B1,.,BN?水体-4-中国科技论文在线.paper.试验区Iterated-APR mi-Graph MI-SVM图1基于多示例学习方法的遥感影像分类结果(mi-Graph、MI-SVM核RBF,惩罚系数:75,gamma:0.025,K-均值聚类数12)Figure1Classification resultsofremotesensing imagesbased onMIL(mi-Graph、MI-SVM kernel:RBF,Cost factor:75,gamma:0.025,K-Means clusternumbers:12)图1及表2的试验结果说明,基于Iterated-APR、MI-SVM、mi-Graph等多示例学习方法在强噪声样本训练条件下,遥感影像分类都取得了良好的分类效果,多示例学习方法在遥感影像分类中有较好的应用前景。 但在图中各试验区分类中也有一定错分现象,如在试验区1301351401中,主要的分类错误在于裸地与建筑用地之间,在试验区2中,在试验区 1、2中主要的分类错误在于水体和阴影区域之间。 发生这种错分现象的主要原因是,裸地与建筑用地、水体与阴影区在光谱响应值上具有较强的相似性,基于光谱特征的分类方法难以有效区分不同地物。 这也是遥感影像分类中常遇到的问题,是同物异谱、异物同谱现象造成分类结果不确定性的结果。 图1中,基于Iterated-APR、基于MI-SVM和基于mi-Graph多示例学习方法的分类结果间差异较大。 这主要由以下三个方面造成的一是,Iterated-APR、MI-SVM、mi-Graph等方法的算法结果及算法性能的差异性;二是,本试验中采用K-均值聚类算法获取多示例包,而K-均值聚类算法的聚类结果对其初始聚类中心的依赖性较大,K-均值聚类算法的初始聚类中心又是随机选的,这有可能造成各多示例学习方法对应的待预测新包间有一定差别;三是,多示例学习方法的正包判读规则(包中只要有一个正例就标记为正包)很有可能造成分类结果的多义性,即可能出现某一个或某些个新包同时属于两类或多类地物类别,针对这种情况试验中采取了随机划分的策略,因为Iterated-APR、MI-SVM、mi-Graph等多示-5-中国科技论文在线.paper.例学习方法都只能判断某一新包为正包或是反包,并不能标识出该包中那些示例属于这类地物,而另一些示例属于另一种地物。 表2试验区 1、3分类混淆矩阵及测试精度Table2Classification confusematrix andtest auracyof testarea1and3地物TP TN FP FN精度(%)TP水体1492285.19方法包示例TNFPFN精度(%)163182423581.75MI-SVM建筑,道路裸地植被水体9314131014730038790373.0865.3887.559.2677.67297166014676.03112343029760.42574xx0090.6317560149270.57277.25Iterated-APR建筑,道路1510裸地116081196.1565.3879.613221560698.763401262202165.9183.28植被水体1410161100001001006282980203222000100100建筑,道路16100010034616300100mi-Graph裸地8122476.994.182402985010176.9793.92植被14100010060425500100水体391118502174344380043.57MI-SVM林地1412居民地,道路208草地131419062.501100010096.5595.4586.14101966901961496729225146200010097.1595.8686.45水体92780429070.13Iterated-APR林地9居民地,道路18草地121491095.83129700252180.7693.186.3681.19703628032580.372092579013795.128764361074289.8685.87水体85545655095.97mi-Graph林地1412居民地,道路990010001162.0784.161134660001001047623083966.5683.12草地1263181.827843582664278.761451504结论与讨论本文将以像素作为多示例学习中的示例,像素在各波段的光谱响应值作为示例特征,人工选取感兴趣区域为训练样本包,用K-均值聚类算法获取待分类图像的多示例包,调用Iterated-APR、MI-SVM、mi-Graph等多示例学习方法实现QuickBrid、ALOS及ASTER等不同空间分辨率遥感影像的像素级分类。 经试验所的结论有1)基于Iterated-APR、MI-SVM、mi-Graph等多示例学习方法的多光谱遥感影像像素级分类效果较好,以上多示例学习方法能从强噪声训练样本中学到性能优良的分类器。 2)基于Iterated-APR、MI-SVM、mi-Graph等多示例学习方法的多光谱遥感影像像素级分类结果差异较大。 3)多示例学习方法包判断规则可能造成待预测新包标记的多义性,进而造成最终分类-6-中国科技论文在线结果的不确定性。 4)K-均值聚类结果对初始聚类中心的依赖性可能会给基于K-均值聚类获取多示例包方法的分类结果带来一定程度的影像。 多示例学习作为一种新的机器学习方法,目前几乎所有的多示例方法还只能处理二类问.paper.155160165170175180185190195题,而且在遥感图像处理中的应用还不够深入。 多示例学习方法在遥感图像分类中应用需要在以下几方面有待深入研究一是只能处理二类问题的多示例学习方法用于遥感影像多类地物分类时,如何组合各分类器的结果输出最终结果;二是如何建立遥感影像多类地物的多示例学习分类的性能测试方法;三是分析不同包获取方法对基于多示例学习方法的遥感影像分了结果的影像;四是如何抑制多示例学习包标记判断规则给最终分类结果带来的不确定性。 参考文献(References)1Dietterich TG,Lathrop RH,Lozano-Prez T.Solving themultiple-instance problemwith axis-parallel rectanglesJ.Artificial Intelligence,1997,89(1-2):31-71.2Maron O.Learning fromambiguityD.PhD dissertation,Department ofElectrical Engineeringand ComputerScience,MIT,Jun.1998,51-64.3Yu-Mei Chai,Zhi-Wu Yang.A Multi-Instance LearningAlgorithm Basedon NormalizedRadial BasisFunction NetworkA.Lecture Notesin ComputerScienceC,xx,Volume4491/xx,1162-1172.4Christian Leistner,Amir Saffari,et al.MIForests:Multiple-Instance Learningwith RandomizedTreesJ.ECCVxx,Part VI,LNCS6316,xx,29-42.5Oded Maron,Tomas Lozano-Perez.A Frameworkfor Multiple-Instance Learning.NeuralJ.Neural InformationProcessing Systems,1998.6Jeremy Bolton,Paul Gader.Application ofMultiple-Instance Learningfor Hyperspectral Image AnalysisJ.IEEE GeoscienceAnd RemoteSensing Letters,Vol.8,No.5,Septemberxx,889-893.7葛永,吴秀清,洪日昌.基于多示例学习的遥感图像检索.中国科学技术大学学报J.xx,2:132-136.8P.Torrione,C.Ratto,L.Collins.Multiple instanceand contextdependent learningin hyperspectraldataJ.IEEE WorkshopHyperspectralImageSignal Process:Evolution RemoteSens.,xx,1-4.9Zhang Q,Goldman SA.EM-DD:an improvedmultiple-instance learningtechnique.In:Dietterich TG,Becker S,Ghahramani Z,eds.Advances inNeural InformationProcessing Systems14,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论