地理加权回归基本原理_第1页
地理加权回归基本原理_第2页
地理加权回归基本原理_第3页
地理加权回归基本原理_第4页
地理加权回归基本原理_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ADDINCNKISM.UserStyle摘要气温是最重要的气象因子之一,空间插值为利用有限站点观测资料模拟一定空间内气温空间分布提供了有效途径。地理加权回归是近年来不断发展和完善的一种空间分析方法,它通过将空间结构嵌入线性回归模型中,以此来探测空间关系的非平稳性,其在方法上简单易行,且能将结果明确的解析表示,得到了越来越多的研究与应用。本文在地理加权回归模型已有的研究理论和应用成果上,将其应用于气温空间插值。首先分析了研究区与气温相关联的三种地形因子与两种遥感因子之间的空间相关性,最终选取高程,地表温度,NDVI三种因子作为相关变量引入高斯核函数模型参与计算,演算出研究区年气温均值与月气温均值的13幅结果,并探究了模型的核心参数:核函数和带宽,二者在建模结果上的精度影响。还利用克里金法对其进行相同时间尺度的插值计算。结果表明,高斯核函数相较于bi-square核函数更适合在本研究中建模;在带宽大小高于最佳带宽时,模型的拟合效果逐渐降低;引入了地理相关因素的地理加权回归模型比普通克里金模型具有更精准的插值结果,与实际空间分布情况具有较高的拟合程度。关键词:气温插值空间相关性地理加权回归核函数带宽普通克里金AbstractTemperatureisoneofthemostimportantmeteorologicalfactors.Spatialinterpolationprovidesaneffectivewaytosimulatethespatialdistributionoftemperatureinacertainspacebyusinglimitedstationobservationdata.Geographicallyweightedregressionisaspatialanalysismethodthathasbeencontinuouslydevelopedandimprovedinrecentyears.Itisusedtodetectthenon-stationarityofspatialrelationshipsbyembeddingspatialstructuresinlinearregressionmodels.Itissimpleandeasytoimplement.Theresultsareclearlyexpressedandanalyzed,andmoreandmoreresearchandapplicationareobtained.Inthispaper,theexistingresearchtheoriesandapplicationresultsofthegeo-weightedregressionmodelareappliedtothetemperaturespaceinterpolation.Firstly,thespatialcorrelationbetweenthethreetopographicfactorsassociatedwithtemperatureandthetworemotesensingfactorsinthestudyareaisanalyzed.Finally,thethreefactorsofelevation,surfacetemperatureandNDVIareselectedasrelatedvariablestointroduceGaussiankernelfunctionmodeltoparticipateinthecalculation.Theresultsoftheaverageannualtemperatureandthemeanmonthlytemperatureofthestudyareaare13results,andthecoreparametersofthemodel:kernelfunctionandbandwidth,theaccuracyofthetwoonthemodelingresultsareexplored.ItisalsointerpolatedonthesametimescaleusingtheKrigingmethod.TheresultsshowthattheGaussiankernelfunctionismoresuitableformodelinginthisstudythanthebi-squarekernelfunction;whenthebandwidthishigherthantheoptimalbandwidth,thefittingeffectofthemodelisgraduallyreduced;thegeographicallyweightedregressionofgeographicalcorrelationfactorsisintroduced.ThemodelhasmoreaccurateinterpolationresultsthantheordinaryKrigingmodel,andhasahigherdegreeoffittingwiththeactualspatialdistribution.Keywords:Temperatureinterpolation;Spatialcorrelation;Geographicallyweightedregression;Kernelfunction;bandwidth;Ordinarykriging;绪论1.1引言近地表气温是影响几乎一切生命和非生命过程的基本气象要素,对生态系统的结构和功能具有非常重要的影响。尽管在现有气象站的基础上,通过长期观测获得了大量的气温数据资料,但受限于地理因素的影响,气象站的分布不均匀,站点的观测数据只能表达有限范围内的气温状况,虽然近年来气象观测站的数量逐渐增加,但站点之间仍有较大空间距离,这显然无法满足对高精度高空间分辨率的气象资料的应用需求。在空间分析中,变量的观测值数据一般都是按照某给定的地理单位为抽样单位得到的,随着地理位置的变化,变量间的关系或者结构会发生变化,这种因地理位置的变化而引起的变量间关系或结构的变化称之为空间非平稳性。在地理统计及经济统计中,一般认为空间非平稳性至少是由下列三方面的原因引起的,第一,随机抽样误差引起的变化。由于抽样误差一般是不可避免的,也是不可观测的,因此统计上一般只假定它服从某一分布,探索这种变化对分析数据本身的固有关系作用不大第二,由于各地区的自然环境,人们的生活态度或习惯,各地的管理制度、政治和经济政策等等的差异所引起的变量间关系随地理位置的变化或“漂移”,这种变化反映了数据的本质特性,探索这种变化在空间数据的分析中是十分重要的第三,用于分析空间数据的模型与实际不符,或者忽略了模型中应有的一些回归变量而导致的空间非平稳性。目前,通过遥感反演地表温度,地面站点观测资料以及DEM数据插值是获取近地表气温分布的主要方法,但遥感反演受诸多因素影响在精度上得不到有效保障,因此通过对气象站点气温插值是获得较高精度地面气温分布的主要方法。但一些常规插值方法在地形地貌复杂多样、气象站点分布不均匀地区对气温空间分布状况的拟合程度不高,这就迫切需要研究一些能较好拟合气温分布的插值模型和方法,如考虑了气温与环境因子(如经度、纬度、海拔等)之间的线性回归关系的插值方法明显改善了精度,其中由于回归克里格(RK)在充分利用其他辅助变量的同时还能考虑变量的空间自相关性,在所有插值方法中具有较高的精度。但这些方法使用的线性回归是基于普通最小二乘法的全局回归,并没有顾及回归关系的空间非平稳性。然而,基于局部空间特征的地理加权回归模型则可以用来探测空间关系的非平稳性,该模型将数据的空间位置嵌入到回归参数中,利用局部加权最小二乘方法行逐点参数估计,其中权是回归点所在的地理空间位置到其他各观测点的地理空间位置之间的距离的函数。通过各地理空间位置上的参数估计值随地理空间位置的变化情况,可以非常直观地探测空间关系的非平稳性。这种估计方法不但简单易行,估计结果有明确的解析表示,而且得到的参数估计还能进行统计检验,因此一经提出,便得到了广泛关注和研究,成为探测空间关系非平稳性的一种主要方法,目前己被应用于社会经济学、城市地理学、气象学、森林学等诸多学科领域,将其与气温空间分布问题结合即成为现阶段利用气象观测资料插值解决预测未知地区气温分布研究的重要途径。1.2研究背景和意义气温是人们所关注的重要气象要素,是植物、农作物生长的重要影响因素,是农作物种植规划的重要依据,同时也是生态环境的影响因素,影响着人们的出行、工作和生活,因此精细拟合气温空间分布资料对人类生产生活具有重要意义,长期以来,国内外有关领域的众多研究学者采用不同的方法对不同地域、不同时间尺度近地面气温的不同统计量(均值、极大值、极小值)的空间分布插值问题进行了广泛和深入的研究。目前,天气模式分析、遥感反演、气象观测资料插值等是获取格点化日最低气温和最高气温资料的3种主要方式,前两种方法均只能粗略的反映近地表气温的大致分布,无法做到较高精度的气温拟合,地面观测资料空间插值是指根据有限的气象监测数据估算未知点处的气温,是获得较高精度地面气温分布的主要方法之一,其主要原理是用GIS的空间分布模型或空间插值方法推算空间格网的气象栅格值,这样可以大大减少以往人工分析、统计计算的复杂工序,提高了对气象问题分析的效率。空间插值方法多种多样,根据是否能确保创建的表面经过所有的插值采样点,可将空间插值方法分成两类:精确性插值法、非精确性插值法。精确性插值法的预测值在样点处的值与实测值相同,而非精确性插值法的预测值在样点处的值一般不相等。使用精确性插值法在一定程度上可以确保采样值的正确性,而使用非精确性插值法能够避免在输出表面上出现明显的波峰和波谷,两种插值方法在处理不同的空间数据时各有利弊,因此根据空间数据的不同选择对应较优的插值方法是实现高精度拟合空间气温分布的关键。近年来,随着国家经济和技术能力的提高,我国陆地气象观测站的密度不断加大,但站间距仍在几千米到几十千米甚至更大,特别是在偏远或自然条件恶劣的地区。这样的空间分辨率显然无法满足精准农业等应用对高空间分辨率气温资料的需求,针对这一问题,学者们开始从多学科相结合角度进行气象数据的研究,其中统计学、GIS技术和计算机等技术被广泛应用于气象研究。研究人员通过建立数学模型,根据已知观测站点的气象数据来获取研究区范围内的气温空间分布规律,因此,利用现有的少量气象站观测资料,完成广阔区域内气温的高精度插值,显然已成为当前气温空间插值的热点问题,而已在多个领域得到广泛应用的地理加权回归模型,不仅克服了传统基于全局模型掩盖变量间局部关系的缺点,同时利用其局部加权的特性,能够较好拟合因空间非平稳性带来的局部变化特征,保障插值结果的可靠性,本研究在已有基于地理加权回归相关应用的基础上,将其应用于气温插值方面,将现有的气温站点观测资料结合相关性分析结果,基于地理加权回归对气温空间分布进行插值预测,得出了较为理想的结果,经过与克里金法计算得出的结果进行比对,可见前者具有更高的拟合精度,为运用地理加权回归模型进行气温插值方面的研究提供了一定的借鉴和参考价值。1.3国内外研究现状随着GIS技术的不断发展和成熟应用,国内外在气温空间插值研究方面形成了一系列成熟的方法,主要基于统计学原理,如反距离平方、样条函数、全局和局部多项式等插值方法,如蔡福等[4]分别利用反距离权重法,普通克里格法,趋势面模拟等方法,进行月和年平均气温的插值。马秀霞[7]等选用常规的反距离权重法、普通克里金法与多元线性回归法进行空间插值,其结果表明,考虑了经度、纬度和高程的多元线性回归法的插值精度最高,普通克里金法次之,反距离权重法精度最低。张梦远等[8]选择普通克里金法、反距离权重法、样条函数法、自然邻域法和趋势面法这五种方法对气温和降水量的空间分布规律进行了插值研究。上述方法虽然克服了以往统计模型计算过程中的诸多缺点,提高了空间模拟精度,但忽视了气温的空间分布特性(例如海拔,经纬度,坡度,坡向等因素),将其视为同一平面上分布的离散点,得到的插值结果误差相对较大,较难获得高精度的插值结果。目前,已有大量确定或随机性的、单变量或多变量、准确或近似的插值方法被应用到气温插值的研究中,总的看来,考虑气温与辅助相关变量(如经纬度、海拔、海陆距离等)回归关系的方法通常能够取得较高的精度,如回归克里格,协同克里格,地理加权回归克里格等,前两者均已经广泛应用于现有的气温空间分布研究当中,如彭彬等[1]利用气象站资料和DEM数据,分别利用反距离权重法、张力样条插值法、普通克里格插值法和协同克里格插值法,对月和年平均气温进行插值;而后者则基于的地理加权回归模型亦在经济,地理,森林,气象等领域得到不断地拓展,如王惠[5]等采用地理加权回归模型定量分析不同区域耕地、林地、草地和建设用地变化对生境质量演变的影响;高峰等[6]通过构建GWR模型,研究了轨道交通不同区段各因素对沿线住房价格影响的差异程度及空间分异规律;和克俭等[9]采用地理加权回归模型评估流域特征对东江水质的影响,验证水质及流域影响空间差异是否与一二级水生态功能分区结果吻合,并对比了GWR模型与普通最小二乘(OLS)模型性能,讨论了GWR在分区验证方面的应用价值及不足;可见,GWR模型经过长期发展,已经成为空间分析研究领域内的重要工具,在其原理上加以改进的地理加权回归克里格和混合地理加权回归模型近年来在气温插值领域也得到逐步应用,如张国峰等[2]分别考虑不同的辅助变量对地理加权回归克里格、回归克里格插值法对海南岛日均气温进行插值,对变量数量对不同模型的插值结果的影响;聂磊等[3]研究了在地形地貌特征复杂、观测站点分布稀疏不均匀的情况下,用(混合)地理加权回归模型(m)GWRK和回归克里格(RK)对不同地区不同季节进行了气温插值,结果表明,GWRK、mGWRK对目标变量的解释能力以及插值精度都优于RK;GWRK、mGWRK相对于RK对月平均气温插值的改进具有季节与地区差异,冬半年的改进大于夏半年,在地形地貌变化大的地区改进大于地形地貌变化小的地区。上述研究无论是基于传统统计模型,还是运用结合了空间相关性的回归模型,均在气温插值研究领域内得到不断发展和完善,尤其是后者在一定程度上弥补了传统模型不考虑空间因素影响所带来的精度缺失问题的同时,运用其模型自身特点,完成了利用少部分观测资料去拟合复杂区域内气温空间分布的关键问题,这对当前气温空间分布规律的研究有重要意义。1.4本文组织架构地理加权回归基本原理2.1地理加权回归基本理论地理加权回归模型将数据的空间位置嵌入到回归参数中,利用局部加权最小二乘方法进行逐点参数估计,其中权是回归点所在的地理空间位置到其他各观测点的地理空间位置之间的距离的函数。通过各地理空间位置上的参数估计值随地理空间位置的变化情况,可以非常直观地探测空间关系的非平稳性在。位置x0处的目标变量对辅助变量的回归系数不再是利用全局信息和OLS获得的常量,而是用临近观测值进行局部加权回归估计得到的系数。对位置x0,GWR模型为:式中:y(x0)为位置x0处的目标变量;qk(x0)为x0处的第k个辅助变量;βk(x0)为第k个辅助变量的回归系数;p为辅助变量的个数;ε(x0)为x0处的误差项,服从正态分布。根据加权最小二乘法原理,在观测点i的回归系数ai由下式得到:其中,Wij为权函数,是回归点i与其相邻的某个观测点j之间距离的单调递减函数。空间权函数是地理加权回归模型的核心,它是通过选取不同的空间权函数来表达对数据间空间关系的不同认识。空间权函数的正确选取对地理加权回归模型参数的正确估计非常重要。2.1.1空间权函数常用的几种空间权重函数如下:①距离阈值法:距离阑值法是最简单的权函数选取方法,它的关键是选取合适的距离阈值D,然后将数据点i与回归点j之间的距离dij与其比较,若大于该阈值则权重为0,否则为1,即:此函数计算虽然简单,但却存在函数不连续的缺点,在具体应用中,会出现随着回归点的改变,参数估计因为一个观测值移入或移出而发生突变,所以在地理加权回归模型参数估计中不宜采用。②距离反比法:地理学第一定律认为空间相近的地物比相远的地物具有更强的相关性,因此在估计回归点的参数时,应对回归点的邻域给予更多的关注。即:这里α为合适的常数,当取值为1或2时,对应的是距离倒数和距离倒数的平方。这种方法简洁明了,但对于回归点本身也是样本数据点的情况,就会出现回归点观测值权重无穷大的情况,若要从样本数据中剔除却又会大大降低参数估计精度,所以距离反比法在地理加权回归模型参数估计中也不宜直接采用,需要对其进行修正。③Guass函数法:该方法的基本思想就是通过选取一个连续单调递减函数来表示wij与dij之间的关系,以此来克服以上两种方法的缺点。满足要求的函数有多个,Guass函数因其普适性而得到广泛应用,函数形式如下:式中b是描述权重与距离之间函数关系的非负衰减参数,称为带宽,带宽越大,权重随距离增加衰减的越慢,带宽越小,权重随距离增加衰减的越快。当带宽为0时,只有回归点i上的权值为1,其它各观测点的权值均趋于0,由局部加权最小二乘原理可知,这时只有估计值等于观测值,即估计过程只是数据的重新表示,当带宽趋于无穷大时,所有观测点的权都趋于1,局部加权最小二乘即为通常拟合普通线性回归模型的最小二乘方法。对于某个给定的带宽,当dij=0时,wij=1,权重达到最大,随着数据点离回归点距离的增加,wij逐渐减小,当点j离点i较远时,wij接近于0,即这些点对回归点的参数估计几乎没有影响。④bi-square函数法(近高斯函数):,bi-square函数法可以看成是距离阈值法和函数法的结合。如下式:在回归点i的带宽b范围内,通过近连续单调递减函数计算数据点权重,而在带宽之外数据点权重为0,并且带宽越大,权重随距离增加衰减的越慢,带宽越小,权重随距离增加衰减的越快。在距离为b附近的数据点权重接近0,因此个别数据点的移进移出对地理加权回归影响不大,不会出现像距离阈值法那样的剧变。综合上述,Guass函数和bi-square函数是目前地理加权回归模型最常用的两类权函数方法。2.1.2最优带宽在实际应用中,地理加权回归分析对Guass函数和bi-square函数的权函数的择并不是很敏感,但对特定权函数的带宽却很敏感,带宽过大回归参数估计的偏差过大,带宽过小又会导致回归参数估计的方差过大,因此选择最优带宽对精度至关重要。目前选择最优带宽的方法通常有3种:①交叉验证法CV:该方法可用于局部回归分析,在计算回归参数时,只根据回归点周围的数据点进行回归计算,公式:把不同的带宽和它对应的值绘制成趋势线,就可以非常直观地找到最小的CV值所对应的最优带宽b。②AIC准则:基于最大似然原理当AIC值最小时,即可获得最佳带宽b,公式为:K为未知参数的数量,L为似然函数。③贝叶斯信息准则BIC:该准则可以使自回归模型的阶数适中,故常被用来确定回归模型中的最优阶数,其与AIC非常相似,公式:式中θL为θ的极大似然估计,q为未知参数的个数,n为样本个数。2.2普通克里金基本理论克里金法属于地统计方法中的一种,该方法基于包含自相关(即测量点之间的统计关系)的统计模型。因此,地统计方法不仅具有产生预测表面的功能,而且能够对预测的确定性或准确性提供某种度量。克里金法假定采样点之间的距离或方向可以反映可用于说明表面变化的空间相关性。克里金模型可将数学函数与指定数量的点或指定半径内的所有点进行拟合以确定每个位置的输出值。由于克里金法可对周围的测量值进行加权以得出未测量位置的预测,因此它与反距离权重法类似。这两种插值器的常用公式均由数据的加权总和组成:其中:Z(si)

=第

i

个位置处的测量值,λi

=第

i

个位置处的测量值的未知权重,s0

=预测位置,N

=测量值数。在反距离权重法中,权重λi仅取决于预测位置的距离。但是使用克里金方法时,权重不仅取决于测量点之间的距离、预测位置,还取决于基于测量点的整体空间排列。要在权重中使用空间排列,必须量化空间自相关。因此,在普通克里金法中,权重λi取决于测量点、预测位置的距离和预测位置周围的测量值之间空间关系的拟合模型,该系数是通过对样本变异函数计算值进行模拟得到的。变异函数的理论模型有球状模型、指数模型、高斯模型、幂函数模型和DeWijsian模型等,选用何种模型进行变异函数的模拟由样本变异函数的计算值分布类型决定。2.1.2半变异函数克里金模型提供了以下函数,可以从中选择用于经验半变异函数建模的函数:①球面函数;②圆形函数;③指数函数;④高斯函数;⑤线性函数;半变异函数显示了测量样本点的空间自相关。由于地理的基本原则(距离越近的事物就越相似),通常,接近的测量点的差值平方比距离很远的测量点的差值平方小。各位置对经调整后进行绘制,然后模型根据这些位置进行拟合。通常使用变程、基台和块金描述这些模型。(1)变程和基台建立半变异函数的模型时,模型会在特定距离处呈现水平状态。模型首次呈现水平状态的距离称为变程。比该变程近的距离分隔的样本位置与空间自相关,而距离远于该变程的样本位置不与空间自相关。半变异函数模型在变程处所获得的值(y轴上的值)称为基台(2)块金理论上,在零间距(例如,步长=0)处,半变异函数值为0。但是,在无限小的间距处,半变异函数通常显示块金效应,即值大于0。如果半变异函数模型在y轴上的截距为2,则块金为2。块金效应可以归因于测量误差或小于采样间隔距离处的空间变化源(或两者)。图1.变程,基台和块金关系示意图研究过程与成果3.1研究区与数据3.1.1研究区概况研究区域为湖北省,介于北纬29°01′53″—33°6′47″、东经108°21′42″—116°07′50″之间,地势大致为东、西、北三面环山,中间低平,略呈向南敞开的不完整盆地。省年平均气温15℃—17℃,大部分地区冬冷、夏热,春季气温多变,秋季气温下降迅速。一年之中,1月最冷,大部分地区平均气温2℃—4℃;7月最热,除高山地区外,平均气温27℃—29℃,极端最高气温可达40℃以上。3.1.2气象数据本研究收集到66个气象站点的有效观测数据,每个站点数据包含2010年日均气温的所有观测值,本实验基于此将时间尺度分为月均气温和年均气温两类,计算整合后将其导入Arcgis,作为站点数据,气象站点分布情况如下图:图2.湖北省气象站点分布图3.1.3遥感数据分别下载了2010年Modis地表温度月合成产品,分辨率为1km,和NDVI月合成产品,分辨率为500m,为便于后续的实验处理,将NDVI数据重采样为1km分辨率,数据来源于中国科学院计算机网络信息中心下辖网站—地理空间数据云,利用湖北省行政边界矢量裁剪后得到所有研究区相关数据。3.1.4DEM数据该数据为ASTERGDEMV2版,对原有的GDEMV1影像进行了改进,提高了数据的空间分辨率精度和高程精度,空间分辨率为30m。3.2技术流程图3.本研究技术路线图本研究利用66个站点中的60个站点数据,进行地理加权回归建模以及克里金建模,基于SPSS软件对站点气温与地形因子(高程,坡度,坡向),遥感因子(地表温度,NDVI)进行相关性分析,筛选出相关性显著的三个因子:高程,地表温度,NDVI。并基于现有的影像数据,提取出所有站点的三个相关因子值和每个站点的月均温度和年均温度,整合成表,导入GWR4.0软件进行地理加权回归计算,同时将待插值的栅格影像以栅格单元为基础转换成栅格点数据,获取每个栅格点的坐标数据以及相关因子值,在基于60个气象站点数据建立的模型上,计算出全部505273个栅格点的每个因子的回归系数,导入matlab进行演算后得到每个栅格点的气温预测值,以改值为栅格属性转为栅格影像,得到最终的12幅月均气温插值结果和1幅年均气温插值结果图。基于Arcgis的地统计工具完成了普通克里金模型的建立和插值预测。3.2.1相关性分析两个连续变量的相关分析1、Pearson相关系数最常用的相关系数,又称积差相关系数,取值-1到1,绝对值越大,说明相关性越强。该系数的计算和检验为参数方法,适用条件如下:(1)两变量呈直线相关关系,如果是曲线相关可能不准确。(2)极端值会对结果造成较大的影响。(3)两变量符合双变量联合正态分布。2、Spearman秩相关系数对原始变量的分布不做要求,适用范围较Pearson相关系数广,即使是等级资料,也可适用。但其属于非参数方法,检验效能较Pearson系数低。本实验选用Person相关系数作为评价指标,完成了气温与高程,地表温度,NDVI的相关性分析,得到如下的分析结果:表1.气温与辅助变量之间的相关系数高程坡向坡度地表温度NDVI气温-0.555(0.01水平上显著相关)0.082-0.029-0.360(0.01水平上显著相关)0.299(0.05水平上显著相关)3.2.2地理加权回归模型建立(1)建模主要步骤:①确定局部窗口(即带宽)内受空间位置影响而不断变化的权重函数;②利用该权重函数,计入每个点位置要素在局部回归方程里的权重(回归系数);③确定所有要素的系数后即可得到回归模型;利用该模型,就可以对所有的样本点进行逐点的计算,每个样本点计算的时候,其他的参与计算的样本都会根据与这个样本点不同的空间关系赋予不同的权值,这样最后就可以得出每个不同点的相关回归系数。(2)计算流程:①为得到基于每个像元的回归计算,将研究区栅格影像转换为像元对应的点矢量数据,共计505273个像元点;②利用已有的DEM和遥感数据,提取每个像元点的高程,地表温度,NDVI三个相关因子值,并将其导出为后续计算做准备;③将已经提取相关因子及气温数据的站点数据导入GWR,以气温为独立变量,点高程,地表温度,NDVI为辅助变量,选用固定高斯作为核函数,关于核函数的选择,作以下说明:GWR的地理内核类型的经典选项是“高斯固定内核”和“自适应双平方内核”。高斯核重量从核心中心连续逐渐减小但从未达到零;高斯内核适用于固定内核,因为它可以避免或减轻内核中没有数据的风险。双平方内核具有明确的范围,其中内核加权不为零。在自适应内核的情况下,内核中包含的区域数保持不变,因此使用双平方内核较为合理。若选择固定内核,则用于估计地理局部系数的局部模型拟合的地理范围在空间上是恒定的。而自适应内核则通过控制每个回归位置的第k个最近邻距离来改变这样的局部范围。表2.核函数类型及其表达式其中:i是回归点指数;j是位置指数;wij是用于估计位置i处的系数的位置j处的观察的权重值。dij是i和j之间的欧几里德距离;θ是由距离度量量度定义的固定带宽大小。θi(k)是自适应带宽大小,定义为第k个最近邻距离。④选择黄金分割搜索作为带宽的搜索方法,以AICc准则作为最优带宽的确定标准;在GWR中,带宽的确定方法主要分为两类,自动和手动,自动搜索最佳带宽大小,有两种选择;黄金分割搜索和间隔搜索,在大多数情况下,黄金分割搜索将有效地识别最佳带宽大小,同时可以手动设置搜索范围。关于区间搜索,其是使用预定范围内的规则间隔大小带宽的简单穷举搜索。与黄金分割搜索相比,区间搜索更直观。手动方法则可以自主设置带宽大小;⑤将已经导出的像元点数据作为非回归点预测,即利用经过60个气象站点计算得到的GWR模型计算所有像元点对应因子的相关系数;⑥将像元点因子数据与像元点相关系数数据导入Matlab进行计算,计算得到每个像元点处的气温预测值。3.2.3计算结果导入与转换(1)将计算所得的像元气温数据以坐标为基准导入,并将其转换为点矢量数据;(2)在Arcgis转换工具下将上一步的点矢量数据转换为栅格数据,像元值即选择经过计算得到的气温预测值,最终得到经过地理加权回归计算后的湖北省气温插值结果图。3.2.4普通克里金建模及结果导出(1)建模过程:①利用Arcgis中的地统计工具,导入用于建模的60个气象站点数据,分别以年均温度及12个月均温度为数据字段,进行建模;②选择模型类型为普通克里金后继续选择半变异函数,最优半变异函数的选择标准为蓝点与蓝色曲线拟合效果实现最佳,下图以1月均气温为例,选用的半变异函数为指数函数,拟合效果如图所示图4.半变异函数拟合曲线图半变异函数的x轴为两个数据点之间的距离,y轴为两点的值之间的预期平方差。对于地图上的任意两个位置,可以使用半变异函数来评估两个位置的数据值方面的相似度。由于邻近的点比较远的点具有更高的相似度,因此半变异函数将随着距离增大而增大,直到最终变为水平③在邻域搜索类型中选择标准,最大,最小相邻要素数分别为5和2,扇区类型为4扇区且偏移45°。(2)结果导出:①完成建模计算后即可得到用于建模计算的60个气象站点的精度交叉验证结果,分别给出了预测误差的平均值,均方根,标准平均值,标准均方根以及平均标准误差五个参数。②完成建模后即可得到覆盖研究区的普通克里金插值结果图,将其转换为栅格数据并经过裁剪后即可得到湖北省气温普通克里金插值结果。3.4实验成果展示3.4.1GWR插值结果(1)2010年年均气温:(2)2010年各月均气温:①1月份:②2月份:③3月份:④4月份:⑤5月份:⑥6月份:⑦7月份:⑧8月份:⑨9月份:⑩10月份:11月份:12月份:3.4.2普通克里金插值结果(1)2010年年均气温:(2)各月份月均气温:1月份:2月份:3月份:4月份:5月份:6月份:7月份:8月份:9月份:10月份:11月份:12月份:结果分析与精度评价本研究采用了66个气象站点中的60个站点数据进行建模计算,除了比较各模型在建模过程中计算得到的残差平方和,AICc值,带宽大小以及决定系数R2和调整决定系数AdjustR2等重要评价指标外,还将对6个未参与计算的站点插值预测的气温值与观测值进行实际验证,并计算其平均绝对误差(MAE)和均方根误差(RMSE)值,作为精度指标。其中:AICc:是模型性能的一种度量,有助于比较不同的回归模型。考虑到模型复杂性,具有较低AICc值的模型将更好地拟合观测数据。R2及AdjustR2:R平方是拟合度的一种度量。其值在0.0到1.0范围内变化,值越大越好。此值可解释为回归模型所涵盖的因变量方差的比例,由于其计算的分母为因变量值平方和。所以增加一个解释变量的时候,分母不变,但是分子发生改变,这就有可能出现拟合度上升的情况,所以这个值仅作为参考,更准确的度量,大多数用AdjustR2,其计算将按分子和分母的自由度对它们进行正规化。这具有对模型中变量数进行补偿的效果,因此AdjustR2值通常小于R2值,其中,yi为第i个站点的观测值,y^i为其拟合值,n为验证站点的个数,二者值越小均表示精度越高。4.1GWR成果精度评价4.1.1月均温度精度评价(1)各月份建模结果重要参数比较;表3.上半年各月份建模结果参数1月2月3月4月5月6月残差平方和17.4716.1425.7510.6712.3411.16AICc126.51122.03140.0297.0789.0483.06带宽131.83131.83177.07131.84323.45323.45R20.670.690.500.800.860.88AdjustR20.570.590.400.730.840.87表4.下半年各月份建模结果参数7月8月9月10月11月12月残差平方和12.3215.1643.7914.9420.8738.07AICc105.28115.40169.53116.50136.78173.31带宽131.84138.44205.03131.84131.84131.84R20.900.870.660.840.720.53AdjustR20.870.830.610.790.630.38上述两表统计了12个月份各项重要参数,由于AICc及带宽值对各月份模型的精度比较意义不大,在此选用其它残差平方和及AdjustR2两项参数值,将其统计为折线图,便于观察各参数随月份增长还产生的波动影响。(2)结果分析与误差评价上述两折线图反映了残差平方和及AdjustR2(调整决定系数)随月份变化的趋势,可以看出3,9,12月份的残差平方和产生较大的突变,随之对应的调整决定系数也低于平均水平,从这两项参数可初步判断3,9,12月份的模型精度整体偏低,且1,2月份的模型拟合效果也未达到平均水平,下面将根据站点预测值与观测值的误差对所有12个模型进行精度比对。(单位:℃)1月2月3月4月5月6月MAE0.5940.3220.4750.3780.3980.349RMSE0.7660.4490.5650.4550.4350.4567月8月9月10月11月12月MAE0.3760.4080.4340.5150.5140.49RMSE0.4140.4430.5140.5670.5990.65结合MAE和RMSE折线图可见,1月份和12月份的模型误差偏高,未达到其余月份模型的平均水平,图中虚线部分为趋势线,可以看出中间10个月份模型的精度较为平稳,再与12个月模型的调整决定系数相比对,1月份和12月份的模型拟合效果确实不佳,在计算6个验证站点误差的过程中,也发现有1到2个站点受周围建模站点密集程度的影响,其观测值与拟合值在部分月份的误差较大,甚至达到1℃,而周围建模站点分布较密集的验证点则能达到较高的精度,误差可低至10-2级,由此可以看出,虽然能利用有限的站点观测资料较好的插值出未知地区的气温数据,但其精度仍然受到周围气象站点分布的影响,可用于参与计算的站点越多,最后的输出结果精度也相应较高。4.1.2年均温度精度评价(1)年均温度建模结果分析:残差平方和AICc带宽R2AdjustR2年均温度模型13.86113.08131.840.800.73将年均温度的残差平方和以及AdjustR2与上一节中各月份的两参数相比较,其值均能达到一般水平,未出现像部分月份那样产生的剧烈不平稳变化,可见年均温度的拟合效果整体平稳,月均温度受到一些不规律气候变化的影响,一个月内温度起伏较大是比较常见的,特别是前文所提到的3,9,12月效果差精度不理想的现象,其所处时节均为季节交替的转折点,温度所受到的气候影响要比其它月份更大,且从各月份的参数及误差趋势折线图中可以明显看出5-8月份的精度及拟合效果要更为稳定,没有急剧的误差变化,这与一年当中该时间段温度平稳上升的季节性气候特征相吻合,符合客观规律,而年均温度因为时间跨度长则不会太大受到一段时间内的不稳定气候产生的气温波动,这也是年均温度与各月份温度模型的拟合效果相比,其能达到稳定水平的因素。(2)年均温度站点误差精度评价:统计后的6个验证站点的年均温度观测值与拟合值以及其误差如下表:(单位:℃)黄梅武汉随州丹江口宜昌宣恩观测值17.42617.21615.93316.29517.14215.746拟合值17.18017.08816.76315.80516.81615.474残差0.2460.128-0.830.490.3260.272MAERMSE0.3820.445由上表可见,在年均气温插值结果中,6个验证站点的误差除“随州”以外,其余站点均保持在0.2-0.5的低水平,结合“随州”站点周围的建模点分布情况,可以明显发现其周围参与计算的站点相比其它5个站点数量稀少,这与前文分析的插值精度受周围站点分布情况影响的结果一致,综合6个站点的整体精度,其平均绝地误差(MAE)与均方根误差(RMSE)均维持在中低水平,结合前文,无论是其调整决定系数还是误差统计值,都能维持在12个月份模型系数及误差值的平均水平,从另一方面表明了年均气温的较好拟合水准与整体精度的可信度。4.1.2不同核函数(带宽)对年均气温结果的影响在上一节对月均气温和年均气温的结果进行分析并对其精度进行统计评价后,我们发现计算中心周围建模站点的分布情况会对其结果产生一定的影响,从地理加权回归模型核函数的计算原理可以发现,不同核函数的统计计算方法不一样,特别是受到带宽这个重要参数的影响,参与建模计算的站点数据会随着带宽的变化而变化,最终影响到插值结果的精度水平,所以本节将基于年均气温数据,在建模过程中尝试不同的核函数以及带宽,观察其对插值结果的影响大小。(1)两种核函数计算结果的比较:前一轮实验是基于高斯固定核函数,完成所有的统计计算,本小节将选用bi-square函数作为核函数参与年均气温的插值计算,其余参数保持不变。结果如图:从二者结果图中可以明显看出,基于高斯核函数的插值结果,其年均气温范围在5℃-18℃,而基于bi-square核函数的年均气温范围在7℃-17.7℃,下面将两个模型在建模结果参数上进行比对:残差平方和AICc带宽R2AdjustR2高斯模型bi-square13.8616.98113.08115.27131.8453.670.800.750.730.70从表中可见,二者在残差平方和以及调整决定系数上均略有差异,但基于高斯核函数的年均气温插值模型无论是在整体误差上还是模型的拟合效果上均要优于基于bi-square核函数的气温插值模型,为进一步了解二者在实际结果上的精度差异,统计了bi-square模型在6个验证站点中的精度表现,且以高斯模型的误差指标作为对比:黄梅武汉随州丹江口宜昌宣恩观测值17.42617.21615.93316.29517.14215.746拟合值16.98417.02216.71715.96016.79915.394残差0.4420.194-0.7840.3350.3430.352bi-square高斯模型MAERMSE0.4080.4470.3820.445综合上述两表的数据,结果表明基于高斯核函数的插值模型在总体精度,拟合效果以及实际插值精度上的表现均要优于bi-square核函数模型,显示了高斯核函数地理加权回归模型在本研究中的适用性。(2)不同带宽选择对插值结果的影响:本次分析将采用表现较好的高斯核函数模型进一步研究核心参数—带宽,其不同取值对计算结果的影响。前文的建模计算均是使用的自动搜索筛选最佳带宽,为避免人为设置带宽的盲目性,将在基于月尺度建模结果带宽的取值范围和已有的年均气温建模结果中带宽的值,再取另外两个不同的带宽值进行实验,分别为:①230;②330。插值结果如图:从图中可见,在带宽为230及330的情况下,年均气温的插值范围分别在6.76℃-17.76℃和6.55℃-17.81℃,而前文在带宽为131.84的情况下,年均气温的范围为5.67℃-18℃,存在不同程度的差异。下表统计三种带宽下的模型参数:残差平方和AICcR2AdjustR2带宽:131.84带宽:230带宽:33013.8619.1120.88113.08118.30120.640.800.720.690.730.680.66可以直观的看出,随着带宽的增大,模型的总体精度以及拟合效果逐步降低。统计得到的6个验证站点在不同带宽下的模型精度如下表:MAERMSE带宽:131.84带宽:230带宽:3300.3820.4280.4460.4450.5010.532各验证站点的精度也随着带宽的增长而逐渐降低,综合上述的模型参数,可见带宽在建模过程中起到的重要作用,对最终的结果有着明显的影响,由于带宽选择范围的限制,无法对带宽在精度上的影响给出决定性结论,但本研究中随着带宽的逐级增长,其拟合度和精度逐渐降低,可见带宽对建模结果的影响较大,是决定性因素之一。4.2普通克里金成果精度评价(1)月均温插值误差统计与分析:将气温插值结果按月提取至6个验证站点,并计算各月份平均绝对误差和均方根误差。1月2月3月4月5月6月MAE0.3790.3410.4360.3960.4530.389RMSE0.4010.3620.4730.4610.4820.4677月8月9月10月11月12月MAE0.4130.4660.4790.5330.4440.528RMSE0.4340.4910.5080.5740.4890.683为更直观的看出精度随月份变化,将其转换为折线图。由两种误差的折线图可知,普通克里金插值得到的结果在精度上整体较为平稳,随着月份的增长也有小的波动,无较大起伏,也有着较好的拟合效果,这与其成熟的算法原理密不可分,除去3月份与12月份有一定起伏外,其它月份均保持的较稳定的精度效果。(2)年均温插值误差统计与分析:与前文相同,在插值结果中统计了6个验证站点的观测值与拟合值,并计算验证站点的两种误差,以做对比。黄梅武汉随州丹江口宜昌宣恩观测值17.42617.21615.93316.29517.14215.746拟合值17.11316.91116.79515.84616.64415.393残差0.3130.305-0.8620.450.4980.353MAERMSE0.4640.502在普通克里金模型计算结果中,仍然是“随州”站点具有较大的残差,其他站点误差相对稳定,结合GWR模型的结果,可见站点周围的建模站点分布对结果有较大影响,越均匀且密集的站点,越能达到较好的拟合度。4.2两种模型精度对比与分析(1)月均温度模型精度对比:将两种模型的MAE和RMSE误差指标以折线图的方式进行比较,观察两模型在随月份增长的的过程中,误差值的整体趋势与差异点。其平均绝对误差MAE和均方根误差RMSE折线图如下::从两种模型的MAE和RMSE折现图中可以看出,在平均绝对误差上,除1,3,11月份外,其余月份的精度地理加权回归模型(GWR)均优于普通克里金模型(OK),在均方根误差上,普通克里金模型仅在1,2,3,11月份的精度上优于地理加权回归模型,从总体上看,GWR模型的拟合效果较普通克里金要好,但从精度的稳定性上看,普通克里金模型要比GWR模型更为稳定,没有产生较为剧烈的的起伏变化。(2)年均温度模型精度对比:为更完整的评价两个模型在年均温度模型上的精度表现,在原有的MAE和RMSE值中再引入两模型在6个验证站点上的残差平方和作为度量指标,如下表所示:地理加权回归模型普通克里金MAERMSE残差平方和0.3820.4451.1860.4640.5021.509从上述三个指标来看,GWR模型均要优于OK模型,两种模型的MAE和RMSE均能维持在中低水平,显示了本实验运用的两模型均能实现对该研究区气温空间分布的较好拟合,但是考虑了地形与遥感相关要素的地理加权回归模型具有更好的精度,这也充分彰显了GWR模型在空间插值上的良好表现,但其受到季节性气候的影响,在温度不稳定月份的拟合精度也不稳定,而从四月份开始至十月份,温度差异则逐步稳定下来,该模型的拟合效果也逐渐提升达到平均水平,同时其精度表现也好于整年精度都较为稳定的普通克里金模型。总结与展望5.1本研究的主要成果本文在已有空间气温插值以及地理加权回归(GWR)模型的理论基础和各方面应用成果上,引入多个地理要素和遥感要素,经过相关性分析处理,筛选出与气温值显著相关的高程,地表温度以及归一化植被指数(NDVI)三个因子,将其作为辅助变量导入地理加权回归模型,结合已有的60个气象站点观测资料,完成建模并计算拟合出整个研究区2010年12个月尺度均气温和2010年均气温的空间分布数据,同时为探究不同核函数以及不同带宽选择对插值结果精度的影响,选用了与高斯核函数常用的bi-square核函数以及在一定范围内选取了另外两种分别为230以及330的带宽对年均气温进行了多次试验,并比较几种不同参数下的模型插值结果精度,最后还运用普通克里金模型对相同时间尺度的气温数据进行了插值计算,并比较两种模型在6个验证站点下的精度表现。主要结论如下:(1)在以调整决定系数(AdjustR2)为GWR模型拟合效果的参考指标下,研究

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论