空间统计分析_第1页
空间统计分析_第2页
空间统计分析_第3页
空间统计分析_第4页
空间统计分析_第5页
已阅读5页,还剩147页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章空间统计分析

统计分析是空间分析的主要手段,贯穿于空间分析的各个主要环节。空间统计分析方法不仅仅限于常规统计方法,还包括利用空间位置的空间自相关分析。本章主要介绍常用统计量、数据特征分析(即探索性数据分析)、分级统计分析、空间插值和空间回归分析5方面内容。第一节概述1.1基本概念空间统计分析包括空间数据的统计分析及数据的空间统计分析。空间数据的统计分析着重于空间物体和现象的非空间特性的统计分析,而空间数据所描述的事物的空间位置在这些分析中不起制约作用。从这个意义上讲,空间数据的统计分析在很多方面与一般的数据分析并无本质差别,但是对于空间数据统计分析的结果的解释则要依托与地理空间进行,在很多情况下,分析的结果是以地图的方式描述和表达的。数据的空间统计分析是直接从空间物体的空间位置、联系等方面出发,研究既具有随机性又具有结构性,或具有空间相关性和依赖性的自然现象。数据的空间统计分析,其核心就是认识与地理位置相关的数据间的空间依赖、空间关联或空间自相关,通过空间位置建立数据间的统计关系。

空间统计分析的任务就是运用有关的统计分析方法,建立空间统计模型,从凌乱的数据中挖掘空间自相关和空间变异规律。数据的空间统计分析与经典统计分析方法的关系共同点:都是在大量采样的基础上,通过对样本的属性值的频率分布、均值、方差等关系及其相应规则分析,确定其空间分布格局与相关关系。不同点:数据的空间统计分析既考虑到样本的大小,又重视样本空间位置及样本间的距离。空间数据具有空间依赖性(空间自相关)和空间异质性,扭曲了经典统计分析的假设条件,使得经典统计分析对空间数据的分析会产生虚假的解释。经典统计分析模型是在观测结果相互独立的假设基础上建立的,但实际上地理现象之间大都不具有独立性。数据的空间统计学研究的基础是空间对象间的相关性和异质性,它们与距离有关,并随距离的增加而变化。这些问题为经典统计学所忽视,却成为数据空间统计分析的核心。

注意:在使用任何统计分析分析方法分析和空间位置有关的数据之前,我们都必须先测度和检验空间自相关的显著性。

这是因为如果所研究的空间数据具有空间自相关性,那么观测样本可能会包含相似的信息,从而导致有效样本容量的减小。相似或者自相关的观测单位会使变量间的关系重复或被夸大。第二节基本统计量2.1代表数据集中趋势的统计量代表数据集中趋势的统计量包括平均数、中位数、众数,它们都可以用来表示数据的分布位置和一般水平。

描述地理数据一般水平指标的选择当数据为对称分布或接近对称分布时,应选择平均数作为集中趋势的代表值,因为此时均值与众数、中位数的差异很小,而且平均数综合考虑了全部数据,具有很好的代表性。当数据呈偏态分布时,由于均值考虑了所有观察值,因此容易受极端数值的影响,而众数又缺乏良好的数学性质,依分组求得的众数不够精确,所以此时多选用中位数作为描述集中性趋势的统计量。当变量为名义尺度数据时通常只能用众数来描述集中趋势。2.2代表数据离散程度的统计量代表数据离散程度的统计量包括最大值、最小值、分位数、极差、离差、平均离差、离差平方和、方差、标准差、变差系数等。离散程度越大,数据波动性越大,以小样本数据代表数据总体的可靠性越低。2.3代表数据分布形态的统计量代表数据离散程度的统计量主要有偏度系数和峰度系数。图1偏度系数的三种情形

正偏态负偏态正态图2标准峰度系数的三种情形第三节探索性数据分析

探索性数据分析首先分析出数据的模式和特点,再根据数据特点选择合适的模型。探索性数据分析还可以用来揭示数据对于常见模型的意想不到的偏离。3.1基本分析工具直方图:SPSS,ARCGISQQplot分布图:SPSS,ARCGISVoronoi图:ARCGIS方差变异分析工具:GS+3.01用直方图检验数据的分布

1)在ArcMap目录表中单击需要进行数据检测分析的点要素层。

2)单击GeostatisticalAnalyst模块的下拉箭头选择ExploreData并单击Histogram2用QQPlot图检验数据的分布

1)NormalQQplot检验数据是否符合正态分布:单击GeostatisticalAnalyst模块的下拉箭头选择ExploreData并单击NormalQQplot2)generalQQplot评估两个数据集分布的相似性:单击GeostatisticalAnalyst模块的下拉箭头选择ExploreData并单击generalQQplot3Voronoi图单击GeostatisticalAnalyst模块的下拉箭头选择ExploreData并单击Voronoi图。Voronoi图中多边形值的几种分配方式和计算方法(见课本273页)使用ARCGIS进行探索性数据分析

半变异函数和协方差函数把统计相关系数的大小作为一个距离的函数,如果分别以h为横坐标,变异函数γ(0)

或协方差函数C(h)为纵坐标,就得到了变异函数曲线图和协方差函数图:4方差变异分析

协方差函数和半变异函数随着距离的加大基本呈反向变化特征,它们之间的近似关系表达式为:

变异函数曲线图和协方差函数图反应了采样点与其相邻采样点的空间关系,同时还能给出这种空间相关的范围,对异常采样点有很好的探测作用。我们通常选择半变异函数图来描述地理数据的空间变异特征。

在半变异曲线图中有两个非常重要的点:间隔为0时的点和半变异函数趋近平稳时的拐点,由这两个点产生四个相应的参数:块金值(Nugget)、变程(Range)、基台值(Sill)、偏基台值(PartialSill)变异函数的参数。※理论上,当采样点间的距离为0时,半变异函数值应为0,但由于存在测量误差和空间变异,使得两采样点非常接近时,它们的半变异函数值不为0,即存在块金值。测量误差是仪器内在误差引起的,空间变异是自然现象在一定空间范围内的变化。它们任意一方或两者共同作用产生了块金值。块金值(Nugget):当间隔距离h=0时,γ(0)=C0,该值称为块金值或块金方差(nuggetvariance)。※当半变异函数值超过基台值时,即函数值不随采样点间隔距离而改变时,空间相关性不存在。基台值(Sill):当采样点间的距离h增大时,半变异函数从初始的块金值达到一个相对稳定的常数时,该常数值称为基台值。

sill=C0+C偏基台值(PartialSill):基台值与块金值的差值:partialsill=C※在变程范围内,样点间的距离越小,其相似性,即空间相关性越大。当h>R时,区域化变量Z(x)的空间相关性不存在,即当某点与已知点的距离大于变程时,该点数据不能用于内插或外推。变程(Range):当半变异函数的取值由初始的块金值达到基台值时,采样点的间隔距离称为变程。变程表示了在某种观测尺度下,空间相关性的作用范围,其大小受观测尺度的限定。3.2检验数据分布

空间统计分析中检验数据分布的意义和主要方法:在空间统计分析中,许多统计分析模型,如地统计分析,都是建立在平稳假设的基础上的,这种假设一定程度上要求所有数据具有相同的变异性。另外,克里金插值都假设数据服从正态分布。如果数据不服从正态分布,需要进行一定的数据变换,从而使其服从正态分布。因此在进行地统计分析之前,检验数据分布特征,了解和认识数据具有非常重要的意义。数据的检验可以通过直方图和NormalQQplot图来完成。

3.3寻找数据离群值概念:全局离群值:局部离群值:离群值的出现可能是真实异常值,也可能是由于不正确的测量或记录引起的。如果是真实异常值,这个点可能就是研究和理解这个现象的最重要的点。反之,如果它是由于测量或数据输入的明显错误引起的,在生成表面之前,应对它们进行修正或剔除。寻找离群值的主要方式:利用直方图查找离群值用半变异/协方差函数云图识别离群值用Voronoi图查找局部离群值3.4全局趋势分析

全局趋势(空间趋势)反映了空间物体在空间区域上的变化的主题特征,它主要揭示了空间物体的总体规律,而忽略局部变异。趋势面分析单击GeostatisticalAnalyst模块的下拉箭头选择ExploreData并单击trendanlysis。3.5空间自相关分析(一)全局空间自相关全局空间自相关系数反映的是研究区域内所有区域单元的整体空间关系。Moran指数和Geary系数是最常用的两种测度全局自相关的指标。如果是位置(区域)的观测值,则该变量的全局Moran指数I,用如下公式计算式中:I为Moran指数;Wij为权重系数

;Moran’sI

Geary系数C计算公式如下

式中:C为Geary系数;其他变量同上式。Geary’sC

Moran’sI和Geary’sC

计算公式中的大部分项都可以直接根据点的属性值来计算,唯一无法根据属性值计算的是表示i与j之间空间接近度的权重系数Wij。

接下来我们就来看一下空间权重系数Wij的确定通常定义一个二元对称空间权重矩阵W,来表达n个位置的空间区域的邻近关系,其形式如下式中:Wij表示区域i与j的临近关系,它可以根据邻接标准或距离标准来度量。

空间权重矩阵

①简单的二进制邻接矩阵②基于距离的二进制空间权重矩阵

常用的确定空间权重矩阵的规则

反距离权重系数:假定随着两点之间距离的增加,它们之间关系的重要性会出现线性递减。常用的确定空间权重矩阵的规则(补充)

常用的确定空间权重矩阵的规则(补充)

而只体现了线性递减关系,当相关性随距离呈现非线性递减关系时则需引入参数α。上式改造为:

α=2广泛适用于许多地理现象。Moran’sI和Geary’sC

的取值区间空间模式Geary’sCMoran’sI邻近点具有相似特征的聚集模式0<C<1I>E(I)各点不具有特定相似性的随机模式C~=1I~=E(I)邻近点具有相异特征的分散模式1<C<2I<E(I)标注:E(I)=-1/n-1,n表示区域单元总数(样本总数)

需要指出的是,Geary’s比率的取值区间与相关系数的传统取值范围(-1,1)不符,而Moran’sI的取值区间更加接近于传统相关性指标的取值范围。但需要注意的是:不存在空间自相关时,

Moran’sI的值不是0,而是E(I)从某些实证研究的结果来看,Moran’sI的取值范围并不局限于(-1,1),尤其是上限并不局限于1。Moran’sI的期望值E(I)始终为负,其大小与区域单元个数n有关。当区域单元的数量n越多时,Moran’sI的期望值E(I)就越接近于0;当n较小时,Moran’sI的期望值E(I)是个绝对值较大的负值。因此当n较小时,负的Moran’sI未必意味着负的空间自相关或分散模式。空间自相关指标的显著性检验

空间自相关指标的显著性检验是通过标准化Z值来实现的。

Moran’sI的显著性检验为:

式中E(I)=1/n-1;VARN(I)为自由抽样方差;非自由抽样的方差另有公式,在此不做介绍了。参考《ArcViewGIS与ArcGIS地理信息系统统计分析》Geary’sC的显著性检验Z值公式为:

式中E(C)=1;其他参数的公式不做详述。参考《ArcViewGIS与ArcGIS地理信息系统统计分析》补充:假设检验假设检验是根据样本的信息来判断总体分布是否具有指定的特征,在管理方面有时称之为古典决策。在数理统计中,把需要用样本判断正确与否的命题称为一个假设。根据研究目的提出的假设称为原假设,记为H0;其对立面假设称为备择假设(或对立假设),记为H1。提出假设之后,要用适当的统计方法决定是否接受假设,称为假设检验或统计假设检验。根据研究目的提出的假设称为原假设,记为H0;其对立面假设称为备择假设(或对立假设),记为H1。设立零假设H0的目的通常是为了在有足够证据时拒绝它;提出假设之后,要用适当的统计方法决定是否接受假设,称为假设检验或统计假设检验。假设检验的基本步骤一般来说,假设检验需要经过以下操作步骤:(1)构造假设。(2)确定检验的统计量及其分布。(3)确定显著性水平。(4)确定决策规则。(5)判断决策。Z检验的拒绝与接受域(1)构造零假设H0。代表区域单元间不存在空间自相关关系。(2)确定检验的统计量及其分布。这里的标准化Z值就是假设检验的统计量。空间自相关系数显著性检验上图中横轴为Z值,纵轴代表置信水平α或显著性水平1-α。阴影部分代表拒绝域,空白部分代表接受域。0-zzαZ值检验一般的,如果确定了置信水平α,则Z值的接受域和拒绝域的范围也就被唯一的确定了。置信水平αZ值的接受域0.1-1.64<Z<1.640.05-1.96<Z<1.960.01-2.57<Z<2.57常用的置信水平α下,Z值的接受域的范围Z值为正且显著时,表明存在正的空间自相关,也就是说相似的观测值(高值或者低值)趋于空间集聚;当Z为负且显著时,表明存在负的空间自相关,相似的观测值趋于分散分布;当Z值为零时,观测值呈现随机分布。Moran’sI和Geary’sC具有一些相同的特征,两者都是以研究区域内相邻区域单元属性值的比较为基础的,但是它们的统计性质有所不同。大部分的分析人员喜欢使用Moran’sI,这主要是因为Moran’sI的数值分布特征比Geary’sC更理想。小结

如果进一步考虑到是否存在观测值的高值或低值的局部空间集聚,哪个区域单元对于全局空间自相关的贡献更大,以及在多大程度上空间自相关的全局评估掩盖了反常的局部状况或小范围的局部不稳定性时,因此需要局部空间自相关指标对研究区域进行分析。(二)局部空间自相关(选学)局部空间自相关分析方法包括3种:空间联系的局部指标(LISA);

G统计量

;Moran散点图。

1空间联系的局部指标(LISA)

空间联系的局部指标(localindicatorsofspatialassociation,缩写为LISA)满足下列两个条件:(1)每个区域单元的LISA,是描述该区域单元周围显著的相似值区域单元之间空间集聚程度的指标(2)所有区域单元LISA的总和与全局的空间联系指标成比例。局部Moran指数这里需要注意的是Wij通常指的是行标准化矩阵(也称为随机权重矩阵),但也可以是其他类型的空间权重矩阵。行标准化矩阵可以通过二元连接矩阵获得。01/31/301/31/201/2001/41/401/41/4001/201/21/301/31/300110110100110110010110110局部Moran指数检验的标准化统计量为

E(I)=-Wi

/n-1;VAR(Ii)公式参见《ArcViewGIS与ArcGIS地理信息系统统计分析》——戴维.W.S.黄(DavidW.S.Wong)&杰.李(jaylee)G统计量

全局G统计量的计算公式为对每一个区域单元的统计量为

对统计量的检验与局部Moran指数相似,其检验值为

与Moran指数只能发现相似值(正关联)或非相似性观测值(负关联)的空间集聚模式相比,具有能够探测出区域单元属于高值集聚还是低值集聚的空间分布模式。G统计量Z值的含义情形Z(Gi)高高相邻较大的正值高中相邻中等大小的正值中中相邻0随机0高低相邻负值中低相邻中等大小的负值低低相邻绝对值较大的负值Moran散点图

以(Wz,z)为坐标点的Moran散点图,常来研究局部的空间不稳定性,它对空间滞后因子Wz和z数据对进行了可视化的二维图示。全局Moran指数,可以看作是Wz对于z的线性回归系数,对界外值以及对Moran指数具有强烈影响的区域单元,可通过标准回归来诊断出。由于数据对(Wz,z)经过了标准化,因此界外值可易由2-sigma规则可视化地识别出来。Moran散点图的4个象限,分别对应于区域单元与其邻居之间4种类型的局部空间联系形式:第1象限代表了高观测值的区域单元被同是高值的区域所包围的空间联系形式;第2象限代表了低观测值的区域单元被高值的区域所包围的空间联系形式;第3象限代表了低观测值的区域单元被同是低值的区域所包围的空间联系形式;第4象限代表了高观测值的区域单元被低值的区域所包围的空间联系形式。

与局部Moran指数相比,其重要的优势在于能够进一步具体区分区域单元和其邻居之间属于高值和高值、低值和低值、高值和低值、低值和高值之中的哪种空间联系形式。并且,对应于Moran散点图的不同象限,可识别出空间分布中存在着哪几种不同的实体。将Moran散点图与LISA显著性水平相结合,也可以得到所谓的“Moran显著性水平图”,图中显示出显著的LISA区域,并分别标识出对应于Moran散点图中不同象限的相应区域。

应用实例

中国大陆30个省级行政区人均GDP的空间关联分析。根据各省(直辖市、自治区)之间的邻接关系,采用二进制邻接权重矩阵,选取各省(直辖市、自治区)1998—2002年人均GDP的自然对数,依照公式计算全局Moran指数I,计算其检验的标准化统计量Z(I),结果如下表所示。年份IZP19980.50014.50350.000019990.50694.55510.000020000.51124.59780.000020010.50594.55320.000020020.50134.53260.0000

从表中可以看出,在1998—2002年期间,中国大陆30个省级行政区人均GDP的全局Moran指数均为正值;在正态分布假设之上,对Moran指数检验的结果也高度显著。这就是说,在1998—2002年期间,中国大陆30个省级行政区人均GDP存在着显著的、正的空间自相关,也就是说各省级行政区人均GDP水平的空间分布并非表现出完全的随机性,而是表现出相似值之间的空间集聚,其空间联系的特征是:较高人均GDP水平的省级行政区相对地趋于和较高人均GDP水平的省级行政区相邻,或者较低人均GDP水平的省级行政区相对地趋于和较低人均GDP水平的省级行政区相邻。

选取2001年我国30个省级行政区人均GDP数据,计算局部Gi统计量和局部Gi统计量的检验值Z(Gi),并绘制统计地图如下。

检验结果表明,贵州、四川、云南西部3省的Z值在0.05的显著性水平下显著,重庆的Z值在0.1的显著性水平下显著,该4省市在空间上相连成片分布,而且从统计学意义上来说,与该区域相邻的省区,其人均GDP趋于为同样是人均GDP低值的省区所包围。由此形成人均GDP低值与低值的空间集聚,据此可认识到西部落后省区趋于空间集聚的分布特征。

东部的江苏、上海、浙江三省市的Z值在0.05的显著性水平下显著,天津的Z值在0.1的显著性水平下显著。而东部上海、江浙等发达省市趋于为一些相邻经济发展水平相对较高的省份所包围,东部发达地区的空间集聚分布特征也显现出来。

以(Wz,z)为坐标,进一步绘制Moran散点图可以发现,多数省(直辖市、自治区)位于第1和第3象限内,为正的空间联系,属于低低集聚和高高集聚类型,而且位于第3象限内的低低集聚类型的省(直辖市、自治区)比位于第1象限内的高高集聚类型的省(直辖市、自治区)更多一些。

上图进一步显示了30个省级行政区人均GDP局部集聚的空间结构。可以看出,从人均GDP水平相对地来看:高值被高值包围的高高集聚省(直辖市)有:北京、天津、河南、安徽、湖北、江西、海南、广东、福建、浙江、山东、上海、江苏;低值被低值包围的低低集聚省(自治区)有:黑龙江、内蒙古、新疆、吉林、甘肃、山西、陕西、青海、西藏、四川、云南、辽宁、贵州;被低值包围的高值省(直辖市)有:重庆、广西、河北;被高值包围的低值省份只有湖南。第四节分级统计分析4.1分级的概念和目的数据分级是根据一定的方法和标准把数据分成不同的级别,也就是把一个数据集划分为不同的子集,在此过程中,还可以设置分级精度和分级数目等。数据分级之后,仅使原来的数据重新归类,数据的属性没有发生改变,研究人员可以利用分级后的数据进行下一步的应用分析。

数据分级的目的:数据分级的根本目的在于区分数据集中个体的差别,分级统计的过程就是区别个体性质的过程。分级的应用目的有两点:一是为了分级后,图面制图效果好,有利于读图;二是用不同的分级方法来突出显示制图区域内不同地貌特征。4.2分级的原则科学性原则完整性原则适用性原则美观性原则4.3分级统计的方法按使用分级方法的多少分为单一分级法和复合分级法;按级差是否相等分为等值分级法和不等值分级法;按确定级差的方法可以分为自定义分级法和模式分级法。模式分级法主要有:等间距分级,分位数分级、等面积分级、标准差分级、自然裂点法分级等。等间距分级等间距分级原理简单易于操作,但当数据集中在某一小范围内时,各分级之间数据个数的差别太大时会造成图面配置不均衡,影响制图效果。分位数分级该方法是把数列划分为相等个数的分段,根据实际需要选择四分位、五分位等。处在分位数上的值作为分级值。分位数分级可以使每一级别的数据个数接近一致,往往能产生较好的制图效果。等面积分级这种方法的特点是只反映各级占有相同的面积,制图效果好,但没有充分利用图面表示级间差异。而对于栅格数据而言,一定区域内的面积可由该区域的栅格个数乘以栅格分辨率得到,所以按等面积分级只需考虑栅格个数即可。对于栅格数据等面积分级法与分位数分级法得到的结果基本上是一致的。标准差分级标准差分级首先要保证数据的分布具有正态分布规律。以算术平均值作为中间级别的一个分界点,其他分界点是以平均值为中心向两侧分别递增或递减标准差的倍数。自然裂点法分级任何统计数列都存在一些自然转折点、特征点,用这些点可以把研究的对象分成性质相似的群组,因此,裂点本身就是分级的良好界限。自然裂点法基本上是基于让各级别的变异综合达到最小的原则来选择分级断点的。

其他模式分级法:如有规律的不等间距分级法、按嵌套平均值分级、按面积正态分布分级等

由已知探索未知是一些科学研究的基础和最终目的,地理研究也同样如此,地理数据的一个重要特性就是数据量特别大,不可能获取某个区域的所有研究数据,因此需要采用某种方法根据已获取的数据来推算出未知的数据。

地理学中可能遇到的问题:

(1)了解北京大气质量宏观分布(2)了解我国某个地区的气候状况(3)某观测站因意外存在缺测、漏测第五节空间插值一、空间插值的概念空间插值:

是进行数据外推的基本方法。或句话说空间插值是一种由已知来推知未知的一种空间分析方法。已知数据函数关系式未知数据空间插值的理论依据Tobler地理学第一定律(WaldoTobler,1979)——邻近的区域比距离远的区域更相似。

地理数据的空间位置引起了两类空间效应,即空间依赖和空间异质(AnlisenL,1992),它们是地理空间的一般特性,反映了地理要素的空间分布规律。

空间依赖是空间插值研究的基本假设前提空间异质是空间插值研究的隐含前提

空间依赖:空间依赖也称为空间相关或空间关联,是空间相互作用的结果,它包括地理要素的空间自相关、空间异相关与空间秩相关三个方面。空间自相关——指地理要素自身在空间分布上的相关,直接遵循Tobler地理学第一定律(WaldoTobler,1979),根据这一定律,“任何事物都和其它事物相联系,距离近的事物相关程度要比距离远的事物高”;空间异相关——是不同的地理要素间在空间分布上的相关;空间秩相关——可看成空间异相关的一种特例,指地理要素间在空间分布上表现为序列相关(周国法,1998)

已有某研究区的某项数据,根据这些观测数据来估算研究区内位置点的数值的过程叫做内插。而估算研究区外未知点的数据值得过程叫做外推。空间插值的适用范围现有离散曲面的分辨率、像元大小或方向与所要求不符的情况,需要重新插值。现有连续曲面的数据模型与所需的数据模型不符,需要重新插值。如从TIN模型到栅格数据模型、栅格到TIN模型现有数据不能完全覆盖所要求的区域范围,需要插值。

空间插值最常用的数据源来自野外测量采样数据,其中应用最为广泛的就是通过离散的采样点数据插值,这些采样点在空间和时间上都是不规则分布的,其数据获取和量测基本上都以点数据的模式给出,空间插值用于将这些离散点的测量数据转换为连续的数据曲面,以便与其他的空间现象分布模式进行比较。各种不同的采样方式

应用举例高程DEM气象数据(气温、降水、蒸发量等)人口密度环境指标(噪声污染)

……DEMO空间插值方法可以分为整体插值和局部插值方法两类。整体插值方法用研究区所有采样点的数据进行全区特征拟合。局部插值方法是仅仅用邻近的数据点来估计未知点的值。空间插值方法精确插值和近似插值精确插值:产生通过所有观测点的曲面。

这意味着在精确插值中,插值点落在观测点上,内插值等于估计值。近似插值:插值产生的曲面不通过所有观测点。

当数据存在不确定性时,应该使用近似插值,由于估计值替代了已知变量值,近似插值可以平滑采样误差。整体插值方法边界内插方法

边界内插方法假设任何重要的变化发生在边界上,边界内的变化是均匀的,同质的,即在各个方向上是相同的。这种概念模型经常用于土壤和景观制图,可以通过定义“均质的”土壤单元,景观图斑,来表达其他的土壤、景观特征属性。

边界内插方法最简单的统计模型是标准方差分析(ANOVAR)模型边界内插方法的理论假设:属性值z在图斑或景观单元内是随机变化的,不是有规律的统一类别的所有图斑存在同样的类方差所有属性值符合正态分布所有的空间变化发生在边界上,是突变而不是渐变在使用边界内插时,应仔细考虑数据源是否符合这些理论假设。趋势面分析空间趋势反映了空间物体在空间区域上变化的主体特征,它主要揭示了空间物体的总体规律,而忽略局部的变异。趋势面分析是根据空间抽样数据,拟合一个数学曲面,用该数学曲面来反映空间分布的变化情况。理论假设:地理坐标是独立变量;属性值z也是独立变量且符合正态分布;同样回归误差也是与位置无关的独立变量。

用来计算趋势面的数学方程式有多项式函数和傅立叶级数,其中最为常用的是多项式函数形式。因为任何一个函数都可以在一个适当的范围内用多项式来逼近,而且调整多项式的次数,可使所求的回归方程适合实际问题的需要。

注意:并不是多项式的次数越高拟合的效果越好多项式趋势面的形式①一次趋势面模型②二次趋势面模型③三次趋势面模型(3.6.2)

(3.6.3)

(3.6.4)

需要注意的是,在实际应用中,往往用次数低的趋势面逼近变化比较小的地理要素数据,用次数高的趋势面逼近起伏变化比较复杂的地理要素数据。次数低的趋势面使用起来比较方便,但具体到某点拟合较差;次数较高的趋势面只在观测点附近效果较好,而在外推和内插时则效果较差。

趋势面分析应用实例

某流域1月份降水量与各观测点的坐标位置数据如表3.6.2所示。下面,我们以降水量为因变量z,地理位置的横坐标和纵坐标分别为自变量x、y,进行趋势面分析,并对趋势面方程进行适度F检验。

表3.6.2流域降水量及观测点的地理位置数据序号降水量Z/mm横坐标x/104m纵坐标y/104m12345678910111227.638.42424.73255.540.437.53131.75344.901.11.82.953.41.80.70.20.851.652.653.6510.6000.21.71.323.353.153.12.55建立趋势面模型

(1)

首先采用二次多项式进行趋势面拟合,用最小二乘法求得拟合方程为

图3.6.1某流域降水量的二次多项式趋势面

(2)再采用三次趋势面进行拟合,用最小二乘法求得拟合方程为

图3.6.2某流域降水量的三次多项式趋势面

ARCGIS趋势分析

变换函数插值根据一个或多个空间参量的经验方程进行整体插值,这种经验方程称为变换函数。变换函数的实质是经验回归模型。地理位置及其属性可以尽可能多的信息组合成需要的回归模型,然后进行空间插值。所有的回归转换函数插值都属于近似的空间插值

比如,冲积平原的土壤重金属污染与几个重要因子有关,其中距离污染源(河流)的距离和高程两个因子最重要,一般情况,携带重金属的粗粒泥沙沉积在河滩上,携带重金属的细粒泥沙沉淀在低洼的在洪水期容易被淹没的地方,而那些洪水频率低的地方,由于携带重金属克里比较少,受污染轻。由于距离河流的距离和高程是容易得到的空间变量,利益用各种重金属含量与它们的经验方程进行空间插值,以实现对未知区域重金属污染的预测。本例回归方程如下:

z(x)=b0+b1*p1+b2*p2+ξ

式中,z(x)为重金属含量,b0,b1是回归系数,p1为据河流的距离,p2为高程,ξ为随机变量。整体插值方法通常使用方差分析和回归方程等标准的统计方法,计算比较简单。其他的许多方法也可以用于整体空间插值,如傅立叶级数和小波变换,特别是遥感影像分析方面,但需要的数据量大。整体插值方法将短尺度的、局部的变化看作随机和非结构的噪声,从而丢失了这一部分信息。局部插值方法恰好能弥补整体插值方法的缺陷,可用于局部异常值,而且不受插值表面上其它点的内插值影响。整体插值方法通常不直接用于空间插值,而是用来检测不同于总趋势的最大偏离部分,在去除了宏观地物特征后,可用剩余残差来进行局部插值。整体插值注意的问题局部插值方法

局部插值方法只适用临近的数据点来估计未知点的值,包括以下几个步骤:定义一个邻域或搜索范围搜索落在此邻域范围的数据点选择表达这有限个点的空间变化的数学函数;为落在规则格网单元上的数据点赋值。常用的局部插值方法最邻近点法/泰森多边形法反距离加权法IDW样条插值spline克里金插值法kriging最邻近点法最近距离法也称泰森多边形法,是基于泰森多边形原理来进行数据插值运算的。原理:首先将已知的各个离散点连接成三角形,对这些三角形的每条边作垂直平分线,多条垂直平分线将研究区域划分为若干个多边形,离散点位于每个多边形中,某个多边形区域内的数据值就由其包含的离散点的值来确定。位于泰森多边形上的点到其两边的离散点的距离相等泰森多边形内的未知点到其内部离散点的距离比与其他离散点的距离短每个泰森多边形内仅有一个已知数据值的离散点泰森多边形(Voronoi图)的特征:图10.8Voronoi地图示例最邻近法评价用泰森多边形插值方法得到的结果图变化只发生在边界上,在边界内都是均质的和无变化的。适用于较小的区域内,变量空间变异性也不是很明显。符合人思维习惯,距离近的点比距离远的点更相似,对插值点的影响也更明显。最近邻法插值的优点是不需其他前提条件,方法简单,效率高。缺点是受样本点的影响较大,只考虑距离因素,对其他空间因素和变量所固有的某些规律没有过多地考虑。实际应用中,效果常不十分理想。距离反比法(InverseDistance)距离反比插值方法最早由Shepard

提出(RichardFranke,1982),并逐步得到发展。每个采样点都有局部影响,这种影响随距离增加而减弱,因此距目标点近的样点赋予的权重较大。属于距离权重系数方法系列,它们一个原则就是给予距离近的点的权重大于距离远的点的权重(Caruso,1998)。距离反比插值公式权重系数wj的计算是关键问题,不同类型的距离反比的差别就是权重系数的计算公式不同,因而最后的插值结果也有细微的差别。距离反比权重系数的确定权重权重过高,较近点的影响较大,拟合表面更细致(不光滑);权重过低,较远点的影响增加,拟合表面更光滑。缺省值常为2。搜索半径类型-规定化对固定型半径,搜索距离一定,所有在该半径内的样点参与计算。可预先设定一个阈值,当给定半径内搜索到的点小于该值时可扩大搜索半径,直到达到该阈值为止。

控制反距离加权的参数

——权重、搜索半径和障碍设置搜索半径类型-可变设定参与计算的样点数是固定的,则搜索的半径是可变的。这样对每个插值点的搜索半径可能都不同,因为要达到规定的点数所需要搜索的区域是不一样的。障碍可利用一线状和面状数据集来限制样点的搜索。线状数据集可作为平坦地表的悬崖或脊状障碍物-只有位于同侧的样点才符合要求。距离反比插值评价

优点——简便易行;可为变量值变化很大的数据集提供一个合理的插值结果;不会出现无意义的插值结果而无法解释。不足——对权重函数的选择十分敏感;易受数据点集群的影响,结果常出现一种孤立点数据明显高于周围数据点的“鸭蛋”分布模式;距离反比很少有预测的特点,全局最大和最小变量值都散布于数据之中。内插得到的插值点数据在样点数据取值范围内。

样条插值是用一种数学函数来估计值,最小化所有表面曲率,逼近曲面的一种方法。它的目标就是寻找一表面s(t),使它满足最优平滑原则,也就是说,利用样本点拟合光滑曲线,使其表面曲率最小。相当于扭曲一个橡皮,使它通过所有样点,同时曲率最小。样条插值(SplineSurface)样条:桩点:样条函数是灵活曲线规的数学等式,为分段函数,一次拟合只有少数数据点配准,同时保证曲线段的连接处为平滑连续曲线(任意点可导)。这就意味着样条函数可以修改曲线的某一段而不必重新计算整条曲线,插值速度快;保留了微地物特征,视觉上的满意效果。样条插值(SplineSurface)图示样条插值类型规则样条插值(Regularized)

拟合的曲面光滑、渐变,可能超出采样点的范围。

权重—在曲率最小化表达式中,定义曲面的3阶导权重,控制表面的平滑度。权重越大,曲面越光滑;权重必须大于或等于0,常取值为0,0.001,0.01,0.1,0.5等。张力样条(Tension)

拟合的曲面不似前者那样光滑。

权重-定义张力的权重。该系数越大,拟合表面越粗糙。权重必须大于或等于0,常取值为0,1,5,10等。样条插值插值评价样条函数易操作,每次只用少量数据点,插值速度快;同时,当表面很平滑时,也不牺牲精度;保留了微地物特征,视觉效果好;不需要对空间方差和结构做预先估计;不需要做统计建设,而这些假设往往是难以估计和验证的;一般要求有连续的一阶和二阶导数;它适合于根据很密的点内插等值线,特别是从不规则三角网内插等值线。不适用于在短距离内属性有较大变化的地区,否则估计结果偏大。样条内插的误差不能直接估算,同时在实践中要解决的问题是样条块的定义以及如何在三维空间中将这些块拼成复杂曲面而又不至于引入原始曲面中所没有的异常现象等问题Kriging插值克里金插值是地统计分析的一种方法,由南非采矿工程师D.G.克里格(D.G.Krige)于1951年首次提出,故命名为“克里金”法,后经法国著名地理数学学家G.Matheron发展深化。克里金插值:认为任何在空间连续性变化的属性是非常不规则的,不能用简单平滑数学函数进行模拟,可以用随机表面给予较恰当的描述。目的:提供确定权重系数最优的方法和并能描述误差信息

地统计分析,都是建立在平稳假设的基础上的,这种假设在一定程度上要求所有数据值具有相同的变异性。另外,大多数的克里金插值方法(如普通克里金法、简单克里金法和泛克里金法等)都假设数据服从正态分布。如果数据不服从正态分布,需要进行数据变换,从而使其服从正态分布。因此,在进行地统计分析之前,需要检验数据的分布特征。可以通过直方图和QQPlot分布图来判断数据是否符合正态分布。

地统计学是以区域化变量理论为基础,以变异函数为主要工具,研究那些在空间分布上既有随机性又有结构性,或空间相关和依赖性的自然现象的科学。

协方差函数和变异函数是以区域化变量理论为基础建立起来的地统计学的两个最基本的函数。地统计学的主要方法之一,克立格法就是建立在变异函数理论和结构分析基础之上的。

变异函数把方差的变异大小作为一个距离的函数,是地理学相近相似定理的定量化。用于定量的描述空间变异和空间相关性,为Kriging插值提供依据。半方差的估算公式:

变异函数(半方差)

例如:假设某地区降水量Z(x)(单位:mm)是二维区域化随机变量,满足二阶平稳假设,其观测值的空间正方形网格数据如图4.2.1所示(点与点之间的距离为h=1km)。试计算其南北方向及西北和东南方向的变异函数。图4.2.1空间正方形网格数据(点间距h=1km)

从图4.2.1可以看出,空间上有些点,由于某种原因没有采集到。如果没有缺失值,可直接对正方形网格数据结构计算变异函数;在有缺失值的情况下,也可以计算变异函数。只要“跳过”缺失点位置即可(图4.2.2)。首先计算南北方向上的变异函数值,由变异函数的计算公式可得

=385/72=5.35

图4.2.2缺失值情况下样本数对的组成和计算过程

☉为缺失值

同样计算出最后,得到南北方向和西北—东南方向上的变异函数计算结果见下表。同样可以计算东西方向上的变异函数。

50.0059.1330.8512.957.0622.9025.6917.559.265.3528132132N(h)

513212736N(h)

7.075.654.242.821

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论