GIS的核心之三:空间统计分析.doc_第1页
GIS的核心之三:空间统计分析.doc_第2页
GIS的核心之三:空间统计分析.doc_第3页
GIS的核心之三:空间统计分析.doc_第4页
GIS的核心之三:空间统计分析.doc_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第10章 空间统计分析统计分析是空间分析的主要手段,贯穿于空间分析的各个主要环节。空间统计分析方法不仅仅限于常规统计方法,还包括利用空间位置的空间自相关分析。本章主要介绍常用统计量、数据特征分析(即探索性数据分析)、分级统计分析、空间插值和空间回归分析五方面内容。10.1概述10.1.1基本概念空间统计分析可包括“空间数据的统计分析”及“数据的空间统计分析”,前者着重于空间物体和现象的非空间特性的统计分析,解决的一个中心议题就是如何以数学统计模型来描述和模拟空间现象和过程,即将地理模型转换成数学统计模型,以便于定量描述和计算机处理,着重于常规的统计分析方法,尤其是多元统计分析方法对空间数据的处理,而空间数据所描述的事物的空间位置在这些分析中不起制约作用。如趋势面拟合被广泛应用于地理数据的趋势分析中,但在这种分析中,仅考虑了样本值的大小,而并不考虑这些样本在地理空间的分布特征及其相互间的位置关系。从这个意义上讲,空间数据的统计分析在很多方面,与一般的数据分析并无本质差别,但是对空间数据的统计分析结果的解释则必然要依托于地理空间进行,在很多情况下,分析的结果以地图方式来描述和表达的。因此,空间数据的统计分析尽管在分析过程中没有考虑数据抽样点的空间位置,但描述的仍然是空间过程,揭示的也是空间规律和空间机制。数据的空间统计分析则是直接从空间物体的空间位置、联系等方面出发,研究既具有随机性又具有结构性,或具有空间相关性和依赖性的自然现象。凡是与空间数据的结构性和随机性,或空间相关性和依赖性,或空间格局与变异有关的研究,并对这些数据进行最优无偏内插估计,或模拟这些数据的离散性、波动性,都是数据的空间统计分析的研究内容。数据的空间统计分析不是抛弃了传统的统计学的理论和方法,它是在传统的统计学基础上发展起来的。数据的空间统计学与经典统计学的共同之处在于:它们都是在大量采样的基础上,通过对样本属性值的频率分布、均值、方差等关系及其相应规则的分析,确定其空间分布格局与相关关系。数据的空间统计学区别于经典统计学的最大特点是:数据的空间统计学既考虑到样本值的大小,又重视样本空间位置及样本间的距离。空间数据具有空间依赖性(空间自相关) 和空间非均质性(空间结构),扭曲了经典统计方法的假设条件,使得经典统计模型对空间数据的分析会产生虚假的解释。经典统计学模型是在观测结果相互独立的假设基础上建立的,但实际上地理现象之间大都不具有独立性。数据的空间统计学研究的基础是空间对象间的相关性和非独立的观测,它们与距离有关,并随着距离的增加而变化。这些问题为经典的统计学所忽视,但却成为数据的空间统计学的核心。10.1.2主要分析内容 空间统计分析与经典统计学的内容往往是交叉的。空间统计分析使用统计方法解释空间数据,分析数据在统计上是否是“典型”的,或“期望”的。同时,它又具有自己独有的空间自相关分析。主要分析内容包含以下几点:1. 基本统计量统计量是数据特征的反映,也是统计分析的基础。2. 探索性数据分析探索性数据分析能让用户更深入了解数据,认识研究对象,从而对与其数据相关的问题做出更好的决策。探索性数据分析主要包括确定统计数据属性、探测数据分布、全局和局部异常值(过大值或过小值)、寻求全局的变化趋势、研究空间自相关和理解多种数据集之间相关性。3. 分级统计分析分级统计是对数据的进一步处理分析,以便于更好得揭示数据规律或在制图中获得更好的效果。4. 空间插值基于探索性数据分析结果,选择合适的数据内插模型,由已知样点来创建表面,研究空间分布。5. 空间回归研究两个或两个以上的变量之间统计关系,通过空间关系,包括考虑空间的自相关性,把属性数据与空间位置关系结合起来,更好的解释地理事物的空间关系。6. 空间分类基于地图表达,采用与变量聚类分析相类似的方法来产生新的综合性或者简洁性专题地图。包括多变量统计分析,如主成分分析、层次分析,以及空间分类统计分析,如系统聚类分析、判别分析等。10.2 基本统计量平均数中位数众数分位数偏度峰度总和比率比例种类集中趋势描述数据特征的统计量离散程度基本统计量其他统计量分布形状极值极差离差平均离差离差平方和方差标准差变差系数常用的基本统计量主要包括:最大值、最小值、极差、均值、中值、总和、众数、种类、离差、方差、标准差、变差系数、峰度和偏度等。这些统计量反映了数据集的范围、集中情况、离散程度、空间分布等特征,对进一步的数据分析起着铺垫作用(见图10.1)。图10.1 基本统计量10.2.1 代表数据集中趋势的统计量代表数据集中趋势的统计量包括平均数、中位数、众数,它们都可以用来表示数据的分布位置和一般水平。表10.1中,列出了各统计量的含义以及在实际应用的作用。其中,表示数据集中的第i个变量,i=1,2,n。表10.1 代表集中趋势的统计量的含义、特点及作用统计量含义特点及作用平均数算术平均数简单算术平均数n个数据的总和与数据的总个数n的比值平均数是最常用的表示数据集中趋势的指标,平均数可分为三种:算术平均数、几何平均数、调和平均数。其中,前两者在GIS分析中最常用到。算术平均数代表了数据集的平均水平,不受总体范围的影响,因此可以作为比较分析的指标,还可作为评价事物的客观标准。如一个地区某一年的人均收入可以作为衡量该地区当年经济状况的指标;要比较该地区近几年的经济增长水平,也需要用该地区近几年的人均收入来比较,因为人均收入能代表该地区经济状况的平均水平,可以用来做比较分析。另外求取离差、平均离差、离差平方和、方差、标准差、变差系数、偏度系数和峰度系数等时,要先求得算术平均数;算术平均数也可用于图像处理中的平滑运算。加权平均数与算术平均数的应用是大致相同的,但加权平均数要考虑各数据点的贡献作用。加权算术平均数在求算术平均数时,考虑到数据集中的n个值有时会含有不同的比重,对平均数的影响也就不同。所以用加权平均法来计算其算术平均数。权重为出现的频数,加权平均数可以按下式计算: 其中,几何平均数n个数据的连乘积再开n次方所得的方根数几何平均数用于分析和研究平均改变率、平均增长率、平均定比等,还在偏相关系数里有应用。中位数若将数据值按大小顺序排列,位于中间的那个值就是中位数或称中值。当数据集中有奇数个数据时,数据按大小顺序排列,那么第位数就是中位数;当有偶数个数据时,中位数为第项与第项的平均数。中位数不受极端数值的影响,如果数据集的分布形状是左右对称的,则中位数等于平均数;当数据集的分布形状呈左偏或右偏,以中位数表示它们的集中趋势比算术平均数更合理。众数是数据集中最常出现的,因此一定是数据集中的某个值,代表了多少意见,不受极端值的影响,在频数分布曲线上位居最高点,即曲线的峰值。众数常用于投票选举。若数据集的分布并不是明显集中在某个数值上,用众数来代表集中情形就没有多大意义,甚至会有误导作用。众数众数是数据集中出现频数(次数)最多的某个(或某几个)数。10.2.2 代表数据离散程度的统计量平均数、中位数、众数在反映总体一般数量水平的同时,也掩盖了总体中各单位的数量差异。所以,只有这些统计量还不能充分说明一个数列中数值的分布情况和波动状态。有时虽然两个数据集的平均数相等,但各数据分布在平均数左右的疏密程度却不相同,也就是它们的离散程度不一样,为了把一个数据集的离散程度表现出来,就需要研究离散度。代表数据离散程度的统计量包括最大值、最小值、分位数、极差、离差、平均离差、离差平方和、方差、标准差、变差系数等。离散程度越大,数据波动性越大,以小样本数据代表数据总体的可靠性越低;离散程度越小,则数据波动性小,以小样本数据代表数据总体的可靠性越高。表10.2列出了表示离散程度各个统计量的含义及在实际应用的作用。表10.2 代表离散程度的统计量及其特点、作用统计量含义特点及作用最大值与最小值把数据从小到大排列,最前端的值就是最小值,最后一个就是最大值通过最大、最小值和极差,可以了解数据的取值范围、分散程度,易于计算,容易理解,但他们都易受极端数值的影响,漠视了其他值的存在,无法精确地反映所有数据的分散情形,因此可能会有误导作用。在地形分析中,极差主要用于求取一定区域内的高差。对于两个不同地区,虽然它们的平均高程相同,但最高点、最低点及高差不同,说明了这两个地区的高程分布状况有差异。极差一个数据集的最大值与最小值的差值称为极差,它表示这个数据集的取值范围分位数将数列按大小排列,把数列划分为相等个数的分段,处于分段点上的值就是分位数。分位数剔除了数据集中极端值的影响,但计算麻烦,且没有用到数据集中的所有数据点。分位数在数据分级中应用较多。离差离差表示各数值与其平均值的离散程度,其值等于某个数值与该数据集的平均值之差d= x-两个数据集的均值相同,但其离差可以有很大的差别,这说明这两个数据集与各自平均值的离散程度不同。平均离差和离差平方和可以克服恒等于零的缺点,还可以把负数消除,只剩正值,这样更易于描述离散程度,而且离差平方和得到的结果较大,使离散程度更明显。离差平方和用于相关分析中求取相关系数在回归分析中,对回归方程进行显著性检验时,需要对原始数据进行离差平方和的分解,即把离差平方和分解为剩余平方和与回归平方和两部分,这两部分的比值可以反映回归方程的显著性。在趋势面分析中,对于趋势面的拟合程度可以用离差平方和来检验,其方法也是将原始数据的离差平方和分解为剩余平方和与回归平方和两部分,回归平方和的值越大,表明拟合程度越高。平均离差平均离差是把离差取决对值,然后求和,再除以变量个数离差平方和离差平方和是把离差求平方,然后求和方差方差是均方差的简称。它是以离差平方和除以变量个数而得到的它们是表示一组数据对于平均值的离散程度的很重要的指标,为了应用上的方便,常对方差进行开方,即为标准差。方差和标准差都可应用于相关分析、回归分析、正态分布检验等,还可用于误差分析、评价数据精度、求取变差系数、偏度系数和峰度系数等。标准差还可用于数据分级。标准差对方差进行开方,即为标准差变差系数变差系数也称为离差系数或变异系数,是标准差与均值的比值,以表示100%式中为变差系数,其值为百分率;S是标准差;为平均值。变差系数是用相对数的形式来刻画数据离散程度的指标,它可以用来衡量数据在时间与空间上的相对变化(波动)的程度。变差系数可用来求算地形高程变异系数。10.2.3 代表数据分布形态的统计量分布形态可以从两个角度考虑,一是数据分布对称程度,另一个是数据分布集中程度。前者的测定参数称为偏度或偏斜度,后者的测定参数称为峰度。偏度和峰度是衡量数据分布特征的重要指标。表10.3 代表分布形态的统计量及其作用统计量含义作用偏度偏度是刻画数据在均值两侧的对称程度的参数,用偏度系数来衡量。标准偏度系数(g):g=当g0时,数据的分布情况如下图:f(x)f(x)f(x)f(x) f(x)f(x)f(x)是数据分布的密度函数,是数据的平均值偏度可以表示数据分布的不对称性,刻画出是向正的方向偏还是向负的方向偏(小于或大于)峰度可以表示数据频数分布曲线峰形的相对高耸程度或尖平程度。这两个指标主要用于分析数据的频率统计图以及评价正态分布性,当g=0且g=0时,数据是标准正态分布。峰度峰度是刻画数据在均值两侧的集中程度的参数,用峰度系数来衡量。标准峰度系数 g按下式计算:g=g0gR时,区域化变量Z(x)的空间相关性不存在,即当某点与已知点的距离大于变程时,该点数据不能用于内插或外推。4. Voronoi图Voronoi地图是由在样点周围形成的一系列多边形组成的。某一样点的Voronoi多边形的生成方法是:多边形内任何位置距这一样点的距离都比该多边形到其它样点的距离要近。Voronoi 多边形生成之后,相邻的点就被定义为具有相同连接边的样点。Voronoi 图中多边形值可以采用多种分配和计算方法:l 简化(Simple):分配到某个多边形单元的值是该多边形单元的值;l 平均(Mean):分配到某个多边形单元的值是这个单元与其相邻单元的平均值;l 模式(Mode):所有的多边形单元被分为五级区间,分配到某个多边形单元的值是这个单元与其相邻单元的模式(即出现频率最多的区间);l 聚类(Cluster):所有的多边形单元被分配到这五级区间中,如果某个多边形单元的级区间与它的相邻单元的级区间都有不同,这个单元用灰色表示,以区别于其它单元;l 熵(Entropy):所有单元都根据数据值的自然分组分配到这五级中。分配到某个多边形单元的值是根据该单元和其相邻单元计算出来的熵;l 中值(Median):分配给某多边形的值是根据该单元和其相邻单元的频率分布计算的中值;l 标准差(StDev):分配给某多边形的值是根据该单元和其相邻单元计算出的标准差;l 四分位数间间隔(IQR):第一和第三四分位数是根据某单元和其相邻单元的频率分布得出的。分配给某多边形单元的值是用第三四分位数减去第一四分位数得到的差。图10.7 简化(Simple)Voronoi地图图10.8 熵(Entropy)Voronoi地图图10.7为简化(Simple)Voronoi地图,图10.8为熵(Entropy)Voronoi地图,显然不同的多边形赋值方式,获取的Voronoi地图提供信息也不同。简化(Simple)Voronoi图可以了解到每个采样点控制的区域范围,也可以体现出每个采样点对区域内插的重要性。利用简化(Simple)Voronoi地图中就可以找出一些对区域内插作用不大且可能影响内插精度的采样点值,可以将它剔除。用聚类和熵的方法生成的Vonoroi图可用来帮助识别可能的离群值。熵值是量度相邻单元相异性的一个指标。自然界中,距离相近的事物比距离远的事物具有更大的相似性,因此,局部离群值可以通过高熵值的区域识别出来。同样,一般认为某个特定单元的值至少应与它周围单元中的某一个的值相近。因此聚类方法也能将那些与周围单元不相同的单元识别出来。10.3.2检验数据分布在空间统计的分析中,许多统计分析模型,如地统计分析,都是建立在平稳假设的基础上,这种假设在一定程度上要求所有数据值具有相同的变异性。另外,一些克里格插值(如普通克里格法、简单克里格法和泛克里格法等)都假设数据服从正态分布。如果数据不服从正态分布,需要进行一定的数据变换,从而使其服从正态分布。因此,在进行地统计分析前,检验数据分布特征,了解和认识数据具有非常重要的意义。数据的检验可以通过直方图和正态QQPlot分布图完成。如果数据服从正态分布,数据的直方图应该呈钟形曲线,在正态QQPlot图中,数据的分布近似成为一条直线。10.3.3寻找数据离群值数据离群值分为全局离群值和局部离群值两大类。全局离群值是指对于数据集中所有点来讲,具有很高或很低的值的观测样点。局部离群值值对于整个数据集来讲,观测样点的值处于正常范围,但与其相邻测量点比较,它又偏高或偏低。离群点的出现有可能就是真实异常值,也可能是由于不正确的测量或记录引起的。如果离群值是真实异常值,这个点可能就是研究和理解这个现象的最重要的点。反之,如果它是由于测量或数据输入的明显错误引起的,在生成表面之前,它们就需要改正或剔除。对于预测表面,离群值可能引起多方面的有害影响,包括影响半变异建模和邻域分析的取值。离群值的寻找可以通过三种方式实现:1. 利用直方图查找离群值离群值在直方图上表现为孤立存在或被一群显著不同的值包围。但需注意的是,在直方图中孤立存在或被一群显著不同的值包围的样点不一定是离群值。2. 用半变异/协方差函数云图识别离群值如果数据集中有一个异常高值的离群值,则与这个离群值形成的样点对,无论距离远近,在半变异/协方差函数云图中都具有很高的值。3. 用Voronoi图查找局部离群值用聚类和熵的方法生成的Voronoi图可用来帮助识别可能的离群值。熵值是量度相邻单元相异性的指标。通常,距离近的事物比距离远的事物具有更大的相似性。因此,局部离群值可以通过高熵值的区域识别出来。同理,聚类方法也可将那些与它们周围单元不相同的单元识别出来。图10.9 直方图查找离群值图如图10.9,直方图最右边被选中的一个柱状条即是该数据的离群值。相应地,数据点层面上对应的样点也被刷光。10.3.4全局趋势分析(a)图10.10 趋势面分析透视面图(b)通常一个表面主要由两部分组成:确定的全局趋势和随机的短程变异。空间趋势反映了空间物体在空间区域上变化的主体特征,它主要揭示了空间物体的总体规律,而忽略局部的变异。趋势面分析是根据空间抽样数据,拟合一个数学曲面,用该数学曲面来反映空间分布的变化情况。它可分为趋势面和偏差两大部分,其中趋势面反映了空间数据总体的变化趋势,受全局性、大范围的因素影响。如果能够准确识别和量化全局趋势,在空间分析统计建模中就可以方便的剔除全局趋势,从而能更准确地模拟短程随机变异。透视分析是探测全局趋势常用方法,准确的判定趋势特征关键在于选择合适的透视角度。同样的采样数据,透视角度不同,反映的趋势信息也不相同。图10.10(a)为显示某地区东西方向(X轴)和南北方向(Y轴)的高程趋势图。图10.10(b)逆时针旋转45度后,显示东南-西北方向和西南-东北方向的高程趋势图。趋势分析过程中,透视面的选择应尽可能使采样数据在透视面上的投影点分布比较集中,通过投影点拟合的趋势方程才具有代表性,才能有效反映采样数据集全局趋势。显然,图10.10(a)反映的趋势比图10.10(b)更为准确。10.3.5空间自相关及方向变异大部分的地理现象都具有空间相关特性,即距离越近的两事物越相似。这一特性也是空间地统计分析的基础。半变异/协方差函数云图就是这种相似性的定量化表示。空间自相关分析包括全程空间自相关分析和局部空间自相关分析,自相关分析的结果可用来解释和寻找存在的空间聚集性或“焦点”。 空间自相关分析需要的空间数据类型是点或面数据,分析的对象是具有点/面分布特征的特定属性。全程空间自相关用来分析在整个研究范围内指定的属性是否具有自相关性。局部空间自相关用来分析在特定的局部地点指定的属性是否具有自相关性。具有正自相关的属性,其相邻位置值与当前位置的值具有较高的相似性。下面介绍两个常用的分析空间自相关的参数:MoransI和GearyC。1. 空间权重矩阵地理事物在空间上的此起彼伏和相互影响是通过它们之间的相互联系得以实现的,空间权重矩阵是传载这一作用过程的实现方法。因此,构建空间权重矩阵是研究空间自相关的基本前提之一。空间数据中隐含的拓扑信息提供了空间邻近的基本度量。通常定义一个二元对称空间权重矩阵Wnn来表达n个空间对象的空间邻近关系,可根据邻接标准或距离标准来度量,还可以根据属性值xj和二元空间权重矩阵来定义一个加权空间邻近度量方法。空间权重矩阵的表达形式为 (10.1)根据邻接标准,当空间对象i和空间对象j相邻时,空间权重矩阵的元素wij为1,其他情况为0,表达式如下: (10.2)根据距离标准,当空间对象i和空间对象j在给定距离d之内时,空间权重矩阵的元素wij 为1,否则为0,表达式为 (10.3)如果采用属性值xj和二元空间权重矩阵来定义一个加权空间邻近度量方法,则对应的空间权重矩阵可以定义如下: (10.4)2. MoransI参数MoransI是应用最广的一个参数。对于全程空间自相关,MoransI定义是:Morans (10.5)对于局部位置i的空间自相关,MoransI定义是: (10.6)其中:n 是观察值的数目;xi 是在位置i的观察值;Zi 是xi 的标准化变换,。,。是对称的空间权重矩阵,如果i与j相邻,取值为,否则取值为。按照行和归一化后的权重矩阵(每行的和为1),非对称的空间权重矩阵。MoransI值介于-1到1之间,0为不相关。按照假定的空间数据分布可以计算Morans I的期望值和期望方差。对于正态分布假设, (10.7) (10.8)对于随机分布假设, (10.9) (10.10)其中, ,是第行权重值之和,是第列权重值之和。原假设是没有空间自相关。根据下面标准化统计量参照正态分布表可以进行假设检验。 (10.11)MoransI如果是正的而且显著,表明具有正的空间相关性。即在一定范围内各位置的值是相似的,如果是负值而且显著的,则具有负的空间相关性,数据之间不相似。接近于0则表明数据的空间分布是随机的,没有空间相关性。3. GerayC参数对于全局空间自相关: (10.12)对于局部位置i的空间自相关: (10.13)其中,Wij是空间权重矩阵。C的值总是正的。假设检验是如果没有空间自相关,C的均值为1。显著性的低值(0和1之间)表明具有正的空间自相关,显著性的高值(大于1)表明具有负的空间自相关。10.4分级统计分析分级是对数据进行加工处理的一种重要方法,通过分级可以把数据划分成不同的级别,体现数据自身的特征,为应用研究及专题制图提供基础。10.4.1 分级的概念与目的数据分级根据一定的方法或标准把数据分成不同的级别,也就是把一个数据集划分成不同的子集,在此过程中,还可设置分级精度和分级数目等。数据分级之后,仅使原来的数据重新归类,数据的属性没有发生改变,研究人员可以根据分级后的数据进行下一步的应用分析。数据分级的根本目的在于区分数据集中个体的差别,分级统计的过程就是区别个体性质的过程。分级的应用目的有两点:一是为了分级后,图面制图效果好,有利于用户读图;二是用不同的分级方法来突出显示制图区域内不同的地貌特征。10.4.2 分级的原则 科学性原则:分级指标的确定要遵循一定的科学规律; 完整性原则:整个数据集中的所有数据都应被分到不同的级别中,没有遗漏,而且同一数据集中的每一数据只能被分到某一级别中,不能同时分到两个或多个级别中; 适用性原则:对于一个数据集,应该根据研究或应用的需要选择合适的分级方法,使得分级结果能较好地满足目的; 美观性原则:分级方法及分级数目的确定不但要依据研究目的,还要注重制图效果,制作专题地图不仅要体现数据的空间分布特征,还要使得图面色彩平衡,特征明显,易于理解。10.4.3 分级统计的方法分级方法多种多样,在应用时应根据研究的需要选择合适的方法来突出需要的数据信息。分级方法的种类也很多,本书主要介绍以下三种: 按使用分级方法的多少可分为单一分级法和复合分级法:单一分级是指对于一个数据集只用了一种分级方法;复合分级是指由于数据自身的特点,需要对一部分数据使用某种分级方法,对另一部分数据使用另外一种分级方法,才能更好地满足研究的需要。如一组坡度数据,一部分较小(坡面平缓),而另一部分很大(地势陡峭),对这两部分数据,就应选用两种不同的分级方法,才能更好地突出变化特征。自定义分级模式分级等间距分级分位数分级等面积分级标准差分级自然裂点法其它分级方法有系统的不等间距分级面积正态分布分级嵌套平均值分级 按级差是否相等可分为等值分级法和不等值分级法:等值分级法又可以分为等面积分级、等间距分级、分位数分级等:不等值分级法可以分为自然裂点法、标准差分级、平均值嵌套分级等。 按确定级差的方法可分为自定义分级法和模式分级法。本节就是按这种分类体系展开讨论的,其结构图如下: 图10.11 分级方法的类型1. 自定义分级自定义分级即对一个数据集,根据自己的应用目的设定各个级别的数值范围来实现分级的方法。这种方法适用于研究者对该数据集比较了解,能够找到合适的分级临界点。在自定义分级中,临界点的选择非常重要,临界点选择得好,就能够增强同一级别区域间的同质性分级和各级之间的差异性,分级结果就能够很好地满足各种分析需求。如在对坡度进行分级的过程中,应根据应用目标的要求, 确定临界坡度。2. 模式分级模式分级就是指按固定模式进行分级,在固定模式中,级差由特定的算法自动设定。模式分级分为等间距分级、分位数分级、等面积分级、标准差分级、自然裂点法分级等。 等间距分级等间距分级是一种最简单的分级方法,它按某个恒定间隔来对数据进行分级。假定数据集里有最大值和最小值,那么间距D=。图10.13 分位数分级示意图图10.12 等间距分级示意图等间距方法原理简单、易操作,但当数据集中在某一小范围内时,各分级之间数据个数的差别太大会造成图面配置不均衡,影响了制图效果。可见,当数据具有均匀变化的分布特征时,等间距分级法就简明实用;若数据分布差异过大,将会以响制图与对统计结果的分析。图10.12为某一地区温度数据的等间距分级示意图。 分位数分级分位数分级是把数列划分为相等个数的分段,根据实际需要选择四分位、五分位、六分位十分位。为此,要先将数列按大小排列,从一端开始计算其分位数,把处于分位数上的那个值作为分级值。分位数分级可以使每一级别的数据个数接近一致,往往能产生较好的制图效果。图10.13为某地区温度数据的分位数分级示意图。 等面积分级对于矢量数据而言,对每个多边形都可以求出其面积,将面积的值按大小顺序排列并累加,把累加面积分为相等的几段,作为分级范围,这样,每个级别中包含的样本数目虽然不同,但总面积基本一致。等面积方法使得每一级在图上占据的面积相等(或大致相等)。这种方法的特点是在图面上只反映各级占有相同的面积,制图效果好,但是没有充分利用图面表示级间的差异。对于规则栅格数据而言,一定区域内的面积可由该区域内的栅格个数乘以栅格分辨率得到,所以按等面积分级只需考虑栅格个数即可。这时可以将数据按大小顺序排列,将数据个数累加,并把累加的个数分为相等的几段,这与分位数分级法得到的分级结果基本上是一致的。 标准差分级标准差可以反映各数据间的离散程度,按标准差分级,首先要保证数据的分布具有正态分布的规律,才可计算平均值和标准差Std.Dev,然后根据数据波动情况划分等级。以算术平均值作为中间级别的一个分界点,以一倍标准差参与分级时其余分界点为:Std.Dev,2Std.Dev,3Std.DeviStd.Dev。当然也可以采用1/2倍标准差参与分级,即1/2Std.Dev,2/2Std.Dev,3/2Std.Devi/2Std.Dev的形式,也可以用1/3倍标准差或1/4倍标准差。显然,分级数目是由数据本身所决定的,且对于同一数据集,采用一倍标准差时,分级数目最少,采用1/4倍标准差时,分级数目最多。图10.14为某地区温度数据的标准差分级示意图。 自然裂点法分级任何统计数列都存在一些自然转折点、特征点,用这些点可以把研究的对象分成性质相似的群组,因此,裂点本身就是分级的良好界限。将统计数据制成频率直方图、坡度曲线图、积累频率直方图,都有助于找出数据的自然裂点。如果频率最低点与峰值构成一个近似正态分布曲线,可以把任意两个正态分布曲线交点作为分级界线。图10.15 自然裂点法分级示意图图10.14 标准差分级示意图自然裂点法基本上是基于让各级别中的变异总和达到最小的原则来选择分级断点的。由于自然裂点法是根据数据本身特征找出一些自然裂点进行分级的。图10.15为某地区温度数据的自然裂点法分级示意图。 其他分级方法a. 有规律的不等间距分级这种方法与等间距分级法的区别在于它的间距是按一定规律变化的,而不是一个恒定的间隔。该方法采用的间隔或级差有算术级数和几何级数两种,每种又都可通过以下六种变化方法来确定各级的分级间隔:按某一恒定速率递增、按某一加速度递增、按某一减速度递增、按某一恒定速率递减、按某一加速度递减、按某一减速度递减。b. 按嵌套平均值分级该方法先计算整个数据集的平均值,它将数据集分为两部分,每部分中再计算平均值,又各自把所有的那一部分分成两段,以此类推,就可以把数据集区分为2个等级,即2的几何级数。n是计算中的平均值的嵌套序数,用这种方法只能得到偶数个级别,而不可能得到奇数个级别。c. 按面积正态分布分级按数据的大小排列,累加其面积,然后按正态分布的规则使中间级别所占的面积较大,往高端和低端的级别中所占的面积都依次减小,并由此来确定每级的分界线。显然,这种方法不仅使每个级别中样本的数目不相等,而且各级别的累加面积呈正态分布。总之,关于数据的统计分级的研究还很多,其目的都在于改善分级间隔的规则性、同级之中的同质性和不同级别之间的差异性等等。10.5 空间插值空间数据插值是进行数据外推的基本方法。常用的插值方法有很多,分类并没有统一的标准,例如从数据分布规律来讲,有基于规则分布数据的内插方法、基于不规则分布的内插方法和适合于等高线数据的内插方法等;从内插函数与参考点的关系方面,又分为曲面通过所有采样点的纯二维插值方法和曲面不通过参考点的曲面拟合插值方法;从内插曲面的数学性质来讲,有多项式内插、样条内插、最小二乘配置内插等内插函数;从对地形曲面理解的角度,内插方法有克立金法、 多层曲面叠加法、加权平均法、分形内插等;从内插点的分布范围,内插方法分为整体内插、局部内插和逐点内插法。空间内插的根本是对空间曲面特征的认识和理解,具体到方法上,则是内插点邻域范围的确定、权值确定方法(自相关程度)、内插函数的选择等三方面的问题。由于每一种内插方法都有其自身的特点和适用范围,了解方法的特点是本质所在。本书并不打算对各种内插算法从数学实现方法上进行分析讨论,而是从内插范围分类方法入手,对每一类内插方法的特点进行简要的分析归纳,同时为保证内容上的完整性和连续性,在本节只介绍概念上的东西,而具体的实现方法与相应内容请查阅相关文档。10.5.1整体内插整体内插,就是在整个区域用一个数学函数来表达地形曲面,如图10.16所示。整体内插函数通常是高次多项式,要求地形采样点的个数大于或等于多项式的系数数目。当地形采样点的个数与多项式的系数相等时,这时能得到一个唯一的解,多项式通过所有的地形采样点,属纯二维插值;而当采样点个数多于多项式系数时,没有唯一解,这时一般采用最小二乘法求解,即要求多项式曲面与地形采样点之间差值的平方和为最小,属曲面拟合插值或趋势面插值。从数学角度讲,任何复杂的曲面都可用多项式在任意精度上逼近,但由于以下原因,在空间内插中整体内插并不常用:曲面拟合Z=f (x,y )内插格网点高程图10.16 整体内插l 整体内插函数保凸性较差,高次多项式虽然能在任意精度上逼近地形曲面,并且能使数学曲面与实际地形曲面有更多的重合点,但由于多项式是自变量幂函数的和的形式,采样点的增减或移动都需要对多项式的系数作全面调整,从而采样点之间会出现难以控制的振荡现象,致使函数极不稳定,从而导致保凸性较差;l 不容易得到稳定的数值解解,高次多项式的系数求解一般要解算较高阶的线性方程组,计算的舍入误差和数据采样误差(平面位置误差),都有可能引起多项式系数发生较大变化,使高次多项式不容易得到稳定的数值解。而且这种微小的数据扰动影响,在二元高次多项式中更为严重,因为在一元函数插值时,自变量误差仅在一个方向上(x轴),而在二维平面上,采样点的偏移方向却是无限的。l 多项式系数物理意义不明显,在低阶多项式中,各个系数的物理意义非常明确,例如线性多项是中,a、b分别为两个坐标轴方向的斜率,而在高次多项式中,各个系数的物理意义一般不明确,容易导致无意义的地形起伏现象。l 解算速度慢且对计算机容量要求较高。l 不能提供内插区域的局部地形特征;a. 二次趋势拟合b. 三次趋势拟合图10.17 江苏某地区GDP全局多项式趋势拟合整体内插虽然有如上的缺点,但其优点也是明显的,例如整个区域上函数的唯一性、能得到全局光滑连续的空间曲面、充分反映宏观地形特征等。整体内插函数常常用来揭示整个区域内的地形宏观起伏态势。在空间内插中,一般是与局部内插方法配合使用,例如在使用局部内插方法前,利用整体内插去掉不符合总体趋势的宏观地物特征。图10.17(a)和图10.17(b)分别为江苏某地区GDP二次拟合及三次拟合的全局多项式拟合图。显然,次数越低,拟合的表面越粗糙,实际表面拟合的效果越差,大致代表了此区域的宏观趋势;次数越高,拟合面越光滑,拟合的结果更接近实际的表面。但并不是次数越高越好,次数过高使得计算量大大增加而精度提高不大,一般选用到三次即可。10.5.2局部分块内插利用数学曲面来模拟实际地形表面,是地形表达的一个常用的手段。例如一阶线性平面可模拟具有单一坡度的斜坡地形表面,二次曲面方程可表达山头、洼地区域,而三次曲面则能描述较为复杂的地形曲面。然而低阶多项式虽然可表达各种地形曲面,但一个地区确常常包含各种复杂的地貌形态,简单的曲面并不能很好的表达这些地形曲面。理论上任何复杂的曲面都可用多项式进行逼近,但高阶多项式的上述缺点,也不是理想的地形描述工具。解决这类问题的办法就是采取分而治之的办法,即将复杂的地形地貌分解成一系列的局部单元,在这些局部单元内部地形曲面具有单一的结构,由于范围的缩小和曲面形态的简化,用简单曲面就可较好的描述地形曲面。将地形区域按一定的方法进行分块,对每一块根据地形曲面特征单独进行曲面拟合和高程内插,称为空间分块内插(图10.18)。区域分块简化了地形的曲面形态,使得每一块都可用不同的曲面进行表达,但随之而来的是如何进行分块和如何保证各个分块之间的曲面的连续性。一般的可按地形结构线或规则区域进行分块,而分块大小取决于地形的复杂程度、地形采样点的密度和分布;为保证相邻分块之间的平滑连接,相邻分块之间要有一定宽度的重叠,另外一种分块之间的平滑连接是对内插曲面补充一定的连续性条件。图10.18 局部分块内插方法块内逐点内插格网点高程分块已知点格网点不同的分块单元可用不同的内插函数,常用的内插数函数有线性内插、双线性内插、多项式内插、样条函数、多层曲面叠加法等。l 线性内插和双线性内插形如的多项式称为线性平面,它将分块单元内部的地形曲面视为平面。如果在线性多项式中增加了交叉项,线性内插则变成双线性内插函数:,之所以称为双线性内插,是因为当y为常数时,表达的是x方向的线性函数,而当x为常数时,则为y方向的线性函数。线性内插函数中有三个未知数,需要三个采样点才能唯一确定,而双线性内插函数中有四个未知数,需要四个已知点。线性内插和双线性内插函数由于物理意义明确,计算简单,是基于TIN和基于正方形格网分布采样数据的DEM内插和分析应用的最常用的方法。l 二元样条函数内插所谓样条曲面,就是将一张具有弹性的薄板压定在各个采样点上,而其它的地方自由弯曲。从数学上讲,就是一个分段的低次多项式,多项式的次数一般不超过三阶。通过样条函数,可以获取在各个采样点上具有最小曲率的拟合曲面。二元样条函数首先对采样区域进行分块,对每一块用一个多项式进行拟合,为保证各个分块之间的平滑过渡,按照弹性力学条件设立分块之间的连续性条件,即公共边界上的导数连续条件。虽然样条函数可适合的任意形状的分块单元,但一般还是将其应用在规则格网分布的采样数据中。与整体内插函数相比较,样条函数不但保留了局部地形的细部特征,还能获取连续光滑的DEM。同时样条函数在拟合时,由于多项式的阶数比较低,对数据误差的响应不敏感,具有较好的保凸性和逼真性,同时也有良好的平滑性。图10.19为江苏某地区GDP的张力样条函数插值结果,图10.19(A)取权重为0,图10.19(B)取权重为5,图10.19(C)为两次插值结果的差值的绝对值。可以看出,权重越高,表面越粗糙,权重不同,局部地区插值结果变化比较剧烈。样条函数将地表分块视为弹性刚体,采取具有弹性力学条件的光滑连续条件。然后地形并不是一个狭义的刚体,也不具备满足弹性力学光滑性条件。因此虽然样条函数具有严密的理论基础,但未必是数字地形内插的理想数学模型。图10.19 张力样条函数插值结果A: Weig

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论