空间数据分析模型_第1页
空间数据分析模型_第2页
空间数据分析模型_第3页
空间数据分析模型_第4页
空间数据分析模型_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第 7 章 空间数据分析模型7.1 空间数据按照空间数据的维数划分,空间数据有四种基本类型:点数据、线数据、面数据和体数据。点是零维的。从理论上讲,点数据可以是以单独地物目标的抽象表达,也可以是地理单元的抽象表达。这类点数据种类很多,如水深点、高程点、道路交叉点、一座城市、一个区域。线数据是一维的。某些地物可能具有一定宽度,例如道路或河流,但其路线和相对长度是主要特征,也可以把它抽象为线。其他的线数据,有不可见的行政区划界,水陆分界的岸线,或物质运输或思想传播的路线等。面数据是二维的,指的是某种类型的地理实体或现象的区域范围。国家、气候类型和植被特征等,均属于面数据之列。真实的地物通常是三维的,体数据更能表现出地理实体的特征。一般而言,体数据被想象为从某一基准展开的向上下延伸的数,如相对于海水面的陆地或水域。在理论上,体数据可以是相当抽象的,如地理上的密度系指单位面积上某种现象的许多单元分布。在实际工作中常常根据研究的需要,将同一数据置于不同类别中。例如,北京市可以看作一个点(区别于天津),或者看作一个面(特殊行政区,区别于相邻地区),或者看作包括了人口的“体”。7.2 空间数据分析空间数据分析涉及到空间数据的各个方面,与此有关的内容至少包括四个领域。1)空间数据处理。空间数据处理的概念常出现在地理信息系统中,通常指的是空间分析。就涉及的内容而言,空间数据处理更多的偏重于空间位置及其关系的分析和管理。2)空间数据分析。空间数据分析是描述性和探索性的,通过对大量的复杂数据的处理来实现。在各种空间分析中,空间数据分析是重要的组成部分。空间数据分析更多的偏重于具有空间信息的属性数据的分析。3)空间统计分析。使用统计方法解释空间数据,分析数据在统计上是否是“典型 ”的,或“期望”的。与统计学类似,空间统计分析与空间数据分析的内容往往是交叉的。4)空间模型。空间模型涉及到模型构建和空间预测。在人文地理中,模型用来预测不同地方的人流和物流,以便进行区位的优化。在自然地理学中,模型可能是模拟自然过程的空间分异与随时间的变化过程。空间数据分析和空间统计分析是建立空间模型的基础。7.3 空间数据分析的一些基本问题空间数据不仅有其空间的定位特性,而且具有空间关系的连接属性。这些属性主要表现为空间自相关特点和与之相伴随的可变区域单位问题、尺度和边界效应。传统的统计学方法在对数据进行处理时有一些基本的假设,大多都要求“样本是随机的”,但空间数据可能不一定能满足有关假设,因此,空间数据的分析就有其特殊性(David,2003)。7.3.1 空间自相关空间自相关是空间位置上越靠近,事物或现象就越相似,即事物或现象具有对空间位置的依赖关系。如气温、湿度等的空间分布均体现了与海陆距离、海拔高程等的相关性。如果没有空间自相关,地理事物或地理现象的分布将是随意的,地理学中的空间分异规律就不能体现出来。空间自相关性使得传统的统计学方法不能直接用于分析地理现象的空间特征。因为传统的统计学方法的基本假设就是独立性和随机性。为了分析具有空间自相关性的地理现象,需要对传统的统计学方法进行改进与发展,空间统计学就应运而生了。如果我们想确定某个位置测定的属性值是否合适,自相关分析将帮助我们记述已知的观测位置在多大程度上是有用的。自相关有三种:正自相关,负自相关和无相关(零自相关)。正自相关是最常见的,指的是附近的观察值很可能是彼此相似的;负自相关较少见,指的是附近的观察值很可能是彼此不同的;零自相关指的是无法辨别空间效应,观察值在空间上似乎是随机变化的。区分这三种自相关是统计方法正确应用的前提。7.3.2 可变区域单位问题空间数据处理中存在的一个重要问题是空间范围对空间分析的影响。大区域的数据可能来自小区域详细数据的统计汇总。以国家级人口普查数据的统计汇总为例,人口调查以户为单位进行,而产生的人口调查报告中的数据则是不同区域层次人口数据汇总统计的结果。汇总单位与所研究的现象没有任何关系,但是汇总单位影响着由基层单位产生的统计结果。统计汇总的区域层次不同,统计结果间的关系也就不同,这就产生了可变区域单位问题(modifiable areal unit problem,MAUP)。如果在特定的研究中指定了不同的空间单位,观察到的格局和关系可能有很大的差异。这个问题可以参考图 7.1。图中使用了横向和纵向两种不同的汇总方法,形成了两种不同的回归分析结果,由此说明汇总单位对回归方程和确定系数的影响是很明显,回归关系通过汇总得到了加强。事实上,利用同样的数据通过不同的汇总方式可以使得相关系数在-1 和 1 之间任意变化。由汇总单位产生的影响有两个。第一个影响与分析的空间范围和汇总效应有关。汇总之后的平均值更接近于回归线,使得散点图的结果更接近于线性,导致相关系数增加。一般通过汇总往往产生更好的拟合结果。第二个影响是不同汇总方法得到的结果实质上是不同的。图 7.1 可变区域单位问题7.3.3 生态学谬误可变区域单位问题与更一般的统计问题生态学谬误相联系。当特定汇总层次的观察值之间的统计关系假定可以接受,然后在更细的层次接受同样关系的时候,就产生了这个问题。例如,在国家这个层次上,我们可能看到收入和犯罪之间有强烈的关系,即低收入往往伴随着高犯罪。但是,如果我们据此认为低收入的人更可能干坏事,那就犯了生态学谬误的错误。事实上,对于这样的数据,有效的精确的说法是:低收入国家倾向于经历较高的犯罪。是什么导致了这些观察到的现象,可能有很大的差异:有可能是低收入地区治安很差,夜贼很多;或者是这些地区的人经常酗酒;或者根本就与收入没有关系。重要的是,高层次汇总数据中出现的关系应该在底层汇总 数据中重现并得到解释。这个问题很普遍。如果你关注新闻,在每天的日常生活或媒体中都可以发现生态学谬误。犯罪率和死刑,枪支控制与关押率,车祸与车速限制等。不幸的是,生态学谬误在学术界也不少见。这个问题经常发生,其根本的原因可能是为了简化解释。事实上,特别在人文地理中,事情很少这么简单。生态学谬误和可变区域单位问题都要注意的是:统计关系会随着汇总层次而发生变化。7.3.4 空间尺度进行空间分析时,必须考虑空间尺度问题。不同对象的表现需要的不同尺度,例如,在大陆尺度,城市用点来表示。在区域尺度,城市用面来表示。在局部尺度,城市成为复杂的点、线、面和网络的集合体。研究对象的空间尺度影响空间分析。因此,应当选定正确的或合适的空间尺度。7.3.5 空间非均一性和边界效应区分空间分析与传统统计分析的重要标志是空间的不均一性。例如,搜集到城区犯罪位置的数据,并用点在地图上标绘出来,就能可视化地表示犯罪的空间分布规律。在居住区和工作密集的地方,犯罪会有明显的聚集性,在公园或道路的交叉口,可能会出现空缺。这些聚集或空缺只是城市内部不均一性的一个结果。类似的问题是考虑疾病发生率的时候,必须考虑从事高风险工作的人所在的位置。目前,处理这些问题的方法还很少。边界效应是不均一问题的一个特殊类型。边界效应问题是指在研究区的中心位置,各个方向上的观察值相接近;在研究区的边界,只有研究区内的观察值才是相接近的。因此,确定适当的边界才可能反映数据的真实性。7.4 空间数据的关系空间数据中蕴涵了丰富的信息,本章仅考虑空间数据的位置属性所能提供的信息。重要的空间概念是:距离(distance)、邻接(adjacency)和交互(interaction),与此密切相关的术语是近邻(neighborhood)。在空间数据分析中,我们不仅对属性数据的均值、方差等进行分析,也对空间上相联系的实体的分布进行分析。空间分布指的是空间实体之间的关系,可以通过距离、邻接和交互分析,获得对空间关系的认识。7.4.1 距离在空间数据中,距离是空间实体间的直线距离或球面距离。空间数据中的距离不同于数学上的距离(数学上的距离值两个变量/样本之间的距离,参阅模糊数学一章)。在小的地区(小尺度的研究),可以忽略地球曲率的影响,通常使用欧氏距离。对于空间上的两个点 i,j,其坐标分别为(x i,y i),(x j,y j),那么两点之间的直线距离为:在较大的区域(大尺度研究),距离的计算要考虑地球的曲率。除了直线距离外,实际应用中也可按照道路、铁路、河流或路网来计算距离;也可按照消耗的时间来计算距离。7.4.2 邻接邻接可以认为是名义的、双向的相等的距离。两个空间实体,或者相邻或者不相邻,没有中间状态。确定相邻有多种方式。最简单的确定方式是,如果两个实体在指定的空间距离内,那么它们是相邻的,否则不相邻。类似的,对于任一实体,确定出与其最相邻的其他实体。我们也可以认为只有最邻近的实体才是相邻的。与距离一样,对邻接的概念也可以进行扩展。邻接的实体不一定是相近的。例如,就机场而言,在考虑上海、北京和莫斯科机场的邻接关系时,可以认为上海机场与北京机场、北京机场与莫斯科机场是邻接的,但上海机场与莫斯科机场则不邻接的。邻接的概念主要应用在空间自相关分析、空间插值和网络分析中。7.4.3 交互交互可以认为是距离和邻接的综合,它来自于一个基本的想法:近处的事物关系更密切。从数学上讲,可将两个空间实体之间的交互度表示为 0(无交互)和 1(高度交互)之间的数。邻接也可以用类似的方式来表示,因为邻接是双向的。在空间分析中,典型的交互可用距离倒数加权来定义:其中,w 是距离为 d 的两个实体 i,j 之间的交互权重。k 控制着权重的变化率。距离越近,权重越大,交互越强。通用的交互计算中使用两个实体的属性值,例如人口的引力公式为:其中,p i,p j 是 i,j 两地的人口数量。此外,也可以在公式中加入面积来定义两个区域单位间的交互。除了空间距离外,也可以使用其它的距离定义。例如,可以使用两个国家的贸易量来定义交互程度。7.4.4 近邻近邻有多种表达方式。例如,特定空间实体的近邻是与该实体邻接的其他空间实体的集合,此时,近邻依赖于邻接的定义。此外,可以不考虑邻接性,将近邻定义为空间上相联系的区域,此时则需要使用距离的概念。近邻的概念经常被使用,主要是由于空间分布上邻近的区域更为相似。这是一种内部相似,不同于周边区域。例如,考虑海拔高度,山是一种近邻,其周围的海拔都较高。图 7.2 进一步揭示了这四个概念。左上角的图指明了研究区内 A 到其它点的距离。一般而言,总是可以确定两点之间的距离。在右上角的图中,按照距离指明了与 A 邻接的两点 E 和 F。这种邻接可以通过多种方法来定义。例如,以 50 米内为邻接的距离。注意,这种定义意味着 D没有邻接的对象。我们也可以定义最近的对象是邻接对象,这可以保证所有的对象都有两个邻接对象,虽然它同时意味着邻接不再是对称关系。例如,此时,D 与 E 邻接(最近的是 C 和 E),但 E 并不邻接 D(与 E 最近的是 A)。在左下角的图中,使用线宽指明 A 与其它对象的交互作用强度。这里,交互是距离的倒数,所以 A 与 E 交互作用强。在右下角的图中,给出了对象 A 的两个可能的近邻,曲线内是与 A 邻接的对象,包括了 A,E 和 F。另一个可能的近邻是带阴影的多边形,该空间也接近于 A。图 7.2 距离、邻接、交互和近邻的概念7.5 空间自相关分析空间自相关分析包括全程空间自相关分析和局部空间自相关分析两部分(Getis and Ord,1996),自相关分析的结果可用来解释和寻找存在的空间聚集性或“焦点” 。 空间自相关分析需要的空间数据类型是点或面数据,分析的对象是具有点/面分布特征的特定属性。全程空间自相关分析用来分析在整个研究范围内指定的属性是否具有自相关性。局部空间自相关分析用来分析在特定的局部地点指定的属性是否具有自相关性。具有正自相关的属性,其相邻位置值与当前位置的值具有较高的一致性。空间自相关分析,当前常用的参数有三个,即 MoransI,GearyC 和 G 统计量7.5.1 MoransI 参数MoransI 是应用最广的一个参数,可用来进行全程空间自相关分析和局部空间自相关分析。全程空间自相关分析参数的定义是:Morans 局部空间自相关分析参数的定义是:其中:n 是观察值的数目,x i 是在位置 i 的观察值, Zi 是 xi 的标准化形式。, 。w ij 是对称的二项分布空间权重矩阵,在以样点 i 为中心、距离为 d 的范围内,取值为,否则取值为。MoransI 值越大,表明数据正的空间相关性越强。7.5.2 GerayC 参数GerayC 参数用来分析局部空间相关性:作变换,C=1-C ( d),C 值大于 0,表明正值四周为高值,小于 0,则为低值, 0 则为无聚集特征。7.5.3 G 统计量G 统计量由 Ord 和 Getis 1992 年提出, 1994 年和 1995 年做了部分的修改,用来分析局部空间自相关性。空间统计量 Gi(d)定义为:, = Wi/(n - 1), , ; .为了便于解释,定义 Gi(d ) 的标准化形式为:i j,各变量的含义同上。模拟表明 (Ord 和 Getis 1994),在原假设 xi 周围不存在空间聚集的条件下, G 的分布接近于正态,所以,经常借助于正态分布检验 G 值的显著性。对于不同的观察值 N,在不同的显著性概率(水平)下 G 值各不相同,例如,在 0.1 的显著水平下,40 个样本对应的 G 值为 2.79,100 个样本对应的 G 值为 3.07。检验显著的 G 值说明位置 i 周围是较高的数据,即数据具有空间上的聚集性。7.6 空间变异分析7.6.1 空间变异空间变异指研究对象在空间上的变化,它是地理学研究的基本问题。空间变异的研究可借鉴空间分析的有关方法,通过对地理系统的特征进行分析,了解地理系统在空间上的分布和演替规律。图 7.3 指导传统地理制图的概念模型空间变异是比较复杂的。降水、风化、侵蚀、堆积、人类活动以及地球构造运动等地球的内外营力造成了物质组成的空间变化,是导致空间变异最基本的原因。同时,地理系统的不同属性随时间发生变化,具有不同的时间变异性,而且这种变异性有可能超过空间变异,从而增加了空间变异研究的难度。早期研究中,人们考虑到空间变异的复杂性以及有效研究工具的缺乏,往往通过定义系统分类单元和均质制图单元对空间变异进行系统分析,并假设所定义的空间单元由空间由均质的(homogeneous)或接近均质的块段构成,所有重要的变化都发生在边界处(图7.3)同样,如果研究性质的观察值被直接地划分为名义上的等级(例如植被中盖度、土壤中的质地),那么就很难考虑渐进的、单元内的变异。自 20 世纪 70 年代以来,随着研究的深入,人们逐渐认识到了空间的一些特性。大量的实验结果表明存在有不同尺度的空间变异。比如土壤的孔隙度,不仅随地点变化,还随采样样本的大小变化。极小空间范围的变异或时间变异也可能导致不可预料的属性测量值较大幅度的变化。大尺度的遥感研究,特别是使用红外辐射研究裸地可以清楚地表现出地表的变异性。探地雷达研究则表明地表在垂向短距离内也可以急剧地变异。空间变异的程度依赖于过程的类型和它们在空间和时间中的协同关系。7.6.2 空间变异模型考虑到地理过程对空间格局的影响,依据研究对象的空间分布形式划分出两种变异理论模型。7.6.2.1 常规模型常规模型为突变模型(图 7.4a)。假定属性在边界处突然变化,但边界之内属性变化很小。图上单元由具有相似性质的个体构成,代表均质的范围,至少在分类系统的最低分类单位水平上相同(地图上可辨别的最低分类单位与地图的比例尺有关,即与空间尺度有关)。边界可以通过采样来确定,或者直接地通过空间特征(如坡形、坡位、植被变化)来确定,或者通过航片、卫片上的相关特征来确定。7.6.2.2 连续模型连续模型(图 7.4b)假定属性在空间逐渐变化,而且这种变化可以用数学模拟来逼近。常规模型和连续模型在实际应用中是不同的。以污染为例,如果污染水平高于某一临界值,按照常规模型,就需要对整个地区进行净化处理,这无疑是十分昂贵的。按照连续模型的观点,污染常常是非均质的,临界位置上的采样点在污染水平上差异甚大,可以采取统计方法来估计区域内各个地方受污染的程度,这样就可以有针对性的进行治理,从而节省大量资源。变异模型可以通过确定性方法或随机方法来逼近。确定性方法不承认属性观测值的不确定性,其结果是,连续模型认为性质的变化是一个平稳的可微分过程,而常规模型认为地理现象没有内部变异。随机方法承认地理现象是一个复杂的自然体,必须通过采样方法来研究,我们只能估计其属性的量值而且这些估计受制于概率规则,即任何估计的准确性都只具有某种概率(图 7.4c、d、e、f)。用统计学语言来表达就是,每一个属性 Ai 在每个图上单元 j 中的数值都可以估计为 Aije,其中 e 是一个正态分布的随机误差。上述两种模型的进一步发展是不同类型的空间变异可以在不同尺度上发生(多尺度模型)。实际上,空间变异研究中存在两种明显不同、但原理上互相联系的观点。一种是实用地、当然地理解空间变异方式,认为观察点位的数据可以外推到更大的区域。第二种是科学探求式的,认为形成过程导致自然和人为的分布形式的多样性。但无论如何,过程的深入理解都有助于对空间分布形式作出合理的推断。图 7.4 空间变异的假想模型7.6.3 空间数据插值空间数据插值是进行数据外推的基本方法。常用的插值方法有:1)距离倒数插值( inverse distance weighted,IDW);2 )样条插值(spline);3 )三角网插值;4)最小曲线法插值;5)等方位加权法插值;6)多项式拟合(趋势面分析)插值;7)克里格插值 (Kriging)。基于样本值所代表的现象和样本点的空间分布方式,插值方法将生成与实际值相关性较好的预测值。不同的插值方法对于如何获得最佳估计值都给予了一定的假设,但无论你选哪种插值方法,样本点越多,样本点分布越均匀,插值结果越接近实际值。7.7 趋势面分析趋势面分析的基本功能,是把空间中分布的一个具体的或抽象的曲面分解成两部分:一部分主要由变化比较缓慢、影响遍及整个研究区的区域成分组成,称为趋势;另一部分是变化比较快,其影响在区内并非处处可见的成分,称为局部异常。趋势面分析的实质是进行数据的拟合,它对因变量无特别的要求,自变量一般总是由地理坐标(平面坐标,在特别的情况下,也可以用经纬度)组成。在三维趋势面分析中,则增加了高程或深度坐标值。 趋势面分析实际是回归分析的一种特殊应用,或者说是回归分析的一个变种。两者在数学原理、计算步骤等方面几乎完全相同,但是两者在应用上有较大的区别。回归分析的目的是研究变量之间的关系,并在此基础上进行预报或建立回归模型,趋势面分析是要分离出区域趋势和局部异常两个成分。在实际应用中,由于多项式函数对曲面拟合能力比较强,又由于地理上对拟合及分离的精度要求并不高,才使得趋势面分析法得到广泛的应用。从统计学中知道,回归分析有几个重要的假设条件,只有当这些条件都基本上得到满足之后,分析的结果在数学上才是精确可靠的,否则就可能产生虚假的结果。对于这些前提假设,趋势面分析可以严格地加以考虑,这时趋势面分析实际就成为回归分析,分析的目的,则是探讨因变量和地理位置的关系。当趋势面分析不考虑,或部分地考虑这些前提假设时,分析目的就有别于回归分析了。在趋势面分析中,如果照搬回归分析的上述假设,可能一无所获,而使局部异常的识别或分离无法实现。7.7.1 狭义趋势面分析与广义趋势面分析一般而言,趋势面分析基本上仅限于 Grant 和 Krumbein 提出的多项式趋势面分析法,即狭义的趋势面分析。由于趋势面分析的根本目的是要将观测面所包含的信息分解为趋势和局部异常两个成分,而具有类似的或相同功能的方法还有许多,如滑动平均、滑动中值、克里格法、谱分析、 自协方差分析及空间滤波等。这些方法不同于多项式趋势面法,称之为广义的趋势面分析法。广义趋势面分析中,各种方法本来的功能并不仅仅局限于分离趋势和局部异常,不同的方法各有其特殊的性质。如滑动平均法主要是用以消除随机干扰;克里格法是要在观测数据的基础上,对所分析的变量进行插值,并给出相应的估计误差;空间滤波则是根据情况,由分析者指定,分离出一定波长范围内的曲面组分。这些方法,或者要清除曲面中的一些组分,或者只提取曲面中的某些组分,和趋势面分析的要求是重叠的或者是相容的。因此,在一定的条件下,它们可以起到趋势面分析的作用。由于这些方法并非专用于分离趋势和局部异常,故若作为趋势面分析工具使用时,有的效果较好,如空间滤波,而多数的效果不如多项式趋势面分析方法。对趋势面分析法,虽然人们都把它归入统计学的范畴,但它在许多方面又不能严格地满足统计上的条件,因此只能认为是一种简单的断面拟合。趋势面分析的结果表现为趋势图和局部异常,人们从中可以解读出有意义的地理信息,而对趋势面方程及其系数,极少有人去探求其特定的含义,不同的函数可以产生几乎相同的结果,也在一定程度上使得有关参数的物理意义难以明确。7.7.2 趋势面模型从理论上说,属性数据的空间变化可以分解为三个部分;1)区域趋势;2)局部异常;3)随机干扰(即随机噪声)。所谓区域趋势是指遍及全区的、规模较大的地理过程的反映。局部异常是由规模比研究区小的地理过程所产生的,但其规模又至少大于两个观测点之间的距离。局部异常的规模和观测点间距离的这种关系,一般在观测点为规则网格时才是明确的。随机干扰,一般认为是由抽样误差和观测误差组成,不包括系统误差。随机干扰的影响范围很小,它仅限于单个观测点的控制区内,或者说其规模小于相 邻两观测点之间的距离。根据上述理论模型,有观测面=区域趋势+局部异常+随机干扰每一具体的属性值,都可以认为包含了上述三种成分。趋势面分析的目的,是如何对这三种成分进行有效的分离。随机成分的分析要求有重复抽样的观测数据,这在地理工作中往往难以满足。因此在实际工作中,往往并不要求分离三种成分,而只要求分离其中的两种成分。这样,理论模型在实际应用时就成为:观测面= 区域趋势+局部异常观测面= 区域趋势+随机干扰在上式中,局部异常成分必然包含随机干扰成分,只不过异常成分处于主导地位,而随机成分所占比重很小,以至于可以忽略不计。同理,随机干扰仍可能包含有局部异常成分,只是它相对于随机成分来说规模要小。由于随机成分有可能包含有异常成分,因此它有时仍可以有一定的地理意义。在具体工作中,随机成分里是否包含有局部异常成分,通过将分离开的各个成分分别作图(一般只作等值线图),进行对比,然后作地理解释后才能确定。趋势面分析结果可以使用下式来说明拟合的程度:其中,n 为样点数,z 是属性值,U 是回归平方和,S 是离差平方和,c 是拟合程度。c 值表明了趋势面反映原始数据的程度。当 c=100%时,则趋势值在所有的样点上与原有值相等,但这种情况很少出现,从趋势面分析的角度看失去了分解的意义。c 接近于 0,说明拟合程度低。如果设 W 为剩余平方和,即可以用 F 分布来检验结果的显著性。F 统计量为:其中 m 是趋势面中多项式的项数(不包括常数项)。在空间数据分析中,由于目的是分析趋势和异常,所以,并不追求高的拟合程度。一般的,拟合程度达到 60-80%,阶数在 1-4 之间就可以满足要求了。7.7.3 趋势面分析实例1目的和地区概况利用 1:2.5 万地形图对王家坡谷地形态进行分析,并与我国西部冈底斯山脉南坡的一条古冰川谷地进行形态对比,探讨庐山谷地是否具有冰川谷的特征,进而推断庐山是否曾发育过冰川。王家坡谷地为地质构造上的向斜谷地。谷地两侧山脊线之间宽度平均为 1300 米,长约 4000 米,西南向东北倾斜,海拔高度由1200 米降到 200 米。两翼岩层倾角西北翼为 30 度左右,东南翼为 35 度左右。谷形成不对称状态,谷底平缓。我们部分冰川学者认为,这是庐山最典型的古冰川谷地。在 1:2.5 万地形图上,对王家坡谷地布置了 341 个规则网点,密度为 8x8 毫米。分别计算了 1-3 阶的趋势面(给出的是 3 阶趋势面的结果,图 7.11 右),其中,3 阶趋势面的模拟程度为 98%。西藏东南部啊哪塘海洋冰川谷地 3 阶趋势面(左图)的模拟程度为 41%。两条谷底的趋势面图的部分见图 7.52趋势面分析图 7.5 中左图的等高距为 50 米,若插值为可与右图相对比的 25 米等高距,则相邻等高线之间距离变小,等高线密集,说明谷坡陡峭。同一高程的等高线在谷坡向谷底过渡中有明显的转折,说明坡麓清晰;过谷底的等高线较平直,说明谷底平缓;谷地两侧等高线大致都呈同一方向平直延伸(北-南);在东北部有一组等高线(4900 米)向东弯曲,而 4750 米、4800 米和 4850 米这组等高线在其下平直通过,谷地延伸与啊哪塘谷地近于直交,是一支冰川谷悬谷。右图的等高距为 20 米,谷坡则比左图平缓。同一高程等高线从谷坡向谷底舒缓过渡,无明显的转折,说明谷坡谷底无明显分界。过谷底的等高线都是圆弧状,数条等高线排列整齐,形状几乎相同,说明坡面倾角与岩层倾角基本一致。两个图相比较无明显相似处,表明王家坡谷地似未曾经历过冰川的强烈作用,谷地形态只是一个向斜谷地的典型地形特征。图 7.5 谷地趋势面图对比7.8 方差云图在实际应用中,人们更关心的对象的空间位置与其它属性数据之间的关系。通过绘制实体属性值的差异与其位置差异的图件,可以得到这种关系的一般描述。所形成的图件称为方差云图。首先看一下图 7.6 中的数据,这是 310x310 米调查区的高程点,其中绘制等值线是为了显示数据的总体空间变化特征。从北向南,总的趋势是上坡。南坡地形似乎更为复杂一些。图 7.5 高程点和等高线(注意等高线是人工勾绘的)对每个可能点对 ,我们按照点对高程差的平方根与点对的距离来绘图,得到图 7.7。图中点的分布比较杂乱,但从密集点的分布可以看出,高程点间距离越大,高程差异越大。从图 7.6 中可以看出,高度上的增加趋势是由北向南。事实上,可以只绘制近南北方向分离的点对。如果将方向精确地限制在南北方向上,可能没有绘图的点对。所以实际上取的范围是南北方向5 0。类似地可绘制东西方向的点对。图 7.8 给出了这些点对的分布,其中,南北方向的用空心圆表示,东西方向的用点表示。在上图中注意如下几个方面:1)绘图的点数减少。这是因为南北和东西两个方向上点的数目较少。实际上,我们可以推测每个方向上的点数大致是原来的 10/180=1/18(假如数据点的分布是均匀的)。2)可绘图的距离范围要小一些。因为研究区在两个方向上是 300 米,300 米就是最大的距离间隔。从空间分析来看,300 米构成了边界效应。3)虽然有部分重叠,但南北方向上的差异要大于东西方向上的差异,反映了调查点的真实趋势。4)不同方向上显示出的差异可以用各向异性(anisotropy)的概念来表示,即数据的空间变异与方向有关。相反,如果各个方向上没有差异,则用概念各向同性来表示。图 7.6 高程点的方差云图图 7.7 南北方向(圆圈)和东西向(点)的方差云图方差云图是有用的探索工具,但因为点数多,所以有时候难以解释。更简要的概括是把距离轴改为不同的间隔(lag),然后对每个间隔内的数据点进行概括。如图 7.9 所示,其中,有 10 个间隔,每个间隔是 50 米。在较大的距离间隔上,高程点的差异较大,这种趋势很清楚。对应于定义的研究区,边界效应也很明显,出现在间隔 6 和 7 中(对应于 300 米)。间隔 8,9,10 包括了不同的差异,更多的反映了研究区四个角的空间特征。如果增大研究区的范围,那么就不会出现这样的效应。图 7.8 不同距离间隔的高程点盒子图图 7.9 表明,距离越远,高程点之间的差异越大。这与我们熟知的地形变化是一致的。方差云图有助于揭示数据中的自相关结构,但更重要的是,还可通过估计属性的方差变异与间隔距离的函数关系,优化插值的结果。7.9 区域变量和克里格插值7.9.1 区域化变量一个变量的空间分布称为该变量的区域化。如果变量以三个空间坐标(x,y,z)为自变量,那么该变量就是区域化变量。区域化变量假定,在一定空间范围内,属性指标的变异可以用一个连续的、空间上相关的随机域来模拟。任何变量的空间变异可以表示为三个主要组分之和:确定性成份、区域成分和随机成分。设 x 为样点在 1,2 或 3 维空间的位置,x 点的随机变量 Z 值为:其中 m(x)是描述 Z 结构项的一个确定性数,c(x)是描述随机区域变异但空间相关的残余项,即区域变量,“是残余的空间不相关的高斯噪音项(服从标准正态分布,即平均值为 0,方差为 2)。如果没有趋势,那么 m(x)等于样区数据的平均值,而且任何两点 x 和 x+h(h 为间隔距离)之间的平均值或期望值的差为 0。使用 Z(x),Z (x+h)表示随机变量 Z 在位置 x,x+h 的观测值,区域化变量理论假设任意两点 Z 的差值的方差仅取决于位置间的距离 h。在有趋势的情况下,假设数据是弱平稳的,并假设对于所有的 h,增量 Z(x)-Z(x+h)的方差是有限的,而且只是相隔 h 的函数。在该假设成立的情况下,定义半方差为:其中,n 是相隔距离为 h 的样点对的个数。将 r(h)和 h 作为纵、横坐标作图即可获得实验半方差函数图(图 7.10)。实验方差函数图不受数据的非平稳性影响,是空间变异性研究中的一个有力工具,也是区域变量定量描述的第一步。图 7.9 实验半方差变异函数图在方差变异图上,如果样点具有空间关系,那么,空间上分布愈接近的点对(靠近 x 轴的左边)应该具有更相似的值(靠近 y 轴的下边),而距离愈远的点对(沿 x 轴方向向右移动),应该具有更多的不相似性和更高的方差(沿 y 轴方向向上移动)。7.9.2 方差变异函数7.9.2.1 基本概念图 7.11 是一个典型的实验方差函数和其理论方差函数曲线,它有下面几个重要的特征。1)随间隔增大,方差增大,并在一定的间隔后达到一个基本稳定的常数。这个方差常数称为基台( sill),在理论函数模型中用C+C0 表示。平稳数据的基台值近似于采样方差。基台值意味着在对应(或大于)距离的样点之间没有空间相关性,因为方差不再随距离变化。2)曲线从较低的方差值升高,到一定的间隔值时到达基台值,这一间隔称为变程( range)。在理论函数模型中,变程用 a 表示。变程是半方差函数中最重要的参数,它描述了该间隔内样点的空间相关特征。在变程内,样点越接近,两点之间相似性、即空间上的相关性越强。很明显,如果某点与已知点距离大于变程,那么该点数据不能用于数据内插(或外推),因为空间上的自相关性不复存在。变程的高低取决于观测的尺度,说明了相互作用所影响的范围。不同的属性,其变程值可以变化很大。图 7.10 典型试验方差函数和拟合曲线3)理论方差函数曲线不穿过原点,而是存在一个最小的方差值。理论上讲,当间隔 h=0 时,估值的方差应该为 0,因为任何一点与自身之差的值为 0。h 趋近于 0 时,r(h)轴上的正截距是残差的一个估计,该值称为块金(或基底,nugget )。在理论函数模型中,用 C0 表示。块金是在间隔距离小于采样间距时的测量误差或空间变异,或者是二者的和。测量误差是由仪器的内在误差引起的,空间变异是自然现象在一定空间范围内的变化。小于采样间距的微观尺度上空间变异是块金的一部分。当 r(h)值在所有的 h 值上都等于基台值时,实验半方差函数就表现为纯块金效应,这通常由于短间距内点与点的变异很大而引起,表明所使用的采样间隔内完全没有空间相关性,此时,可以认为各个样点是随机的,区域平均值就是各点的最佳估计值。此时,只有增大采样间隔才能揭示出空间相关性。块金与基台的比值(C0/(C+C0) ,基底效应)可以用来说明空间的变异特征,该值越大,说明空间变异更多的是随机成分引起的,否则,则是由特定的地理过程或多个过程综合引起的。空间相关性的强弱,可用 C/(C+C0)表示,该值越高,表明空间相关性越强。在实际的模型计算中,块金与基台两个参数是可以调整的,其取值取决于整体的拟合效果。7.9.2.2 理论变异函数模型理论变异函数模型用来拟合实验半方差图的离散点。常用的模型有如下几种。1线性模型(Linear model_)其中,w 是直线的斜率,此模型是最简单模型,但在一定范围内也是适用的。在某些情况下, w 可以为 0,这时就是纯块金效应模型。2球状模型(Spherical model)式中符号的意义与前面相同。球面模型最为常用,此外,由于球状模型是根据三维空间的随机移动平均过程推导获得,因此特别适用于三维空间。3指数模型(Exponential model)其中,d 是控制方程空间范围的距离参数。这里,仅在无穷远处相关性完全消失。变程为 3d。指数模型在统计理论中地位重要,它表示了空间随机性的要素,是一阶自回归和马尔可夫过程的半方差函数。作为自相关函数,它们是采样设计有效性的理论基础。4高斯模型(Gaussian model)变程为 。图 7.11 是球状模型、指数模型和高斯模型的比较,可以看出,球状模型的变程最小,指数的模型变程最大,高斯模型的变程介于二者之间。球状模型和指数模型过原点存在切线,高斯模型则没有。图 7.11 球状模型、指数模型和高斯模型的比较5双曲线模型6圆形模型在空间分析中,根据数据的空间自相关性和研究对象的先验知识,选择要使用的模型。选定了理论模型后,通常是用最小二乘法计算方程的各个参数,并用最大似然法(ML)来选择拟合效果最好的模型。此外,在拟合中可以叠加使用上面的模型,模型的参数也可以进行调节,以达到最大程度的拟合实验数据。7.9.2.3 空间插值计算理论方差函数是确定插值权重的基本过程,是预测未知位置属性值的克里格方法(Kriging)的基础。DGKrige 是南非采矿工程学家,在 1951 年提出了矿产品位和储量估值方法。法国地统计学家 Matheron(1971)命名了这种方法,并在此基础上提出了区域化变量理论,使传统的地学方法与统计方法相结合,形成了完整的方法体系。7.9.3 克里格插值克里格法是利用原始数据和半方差函数的结构性,对未采样点的区域化变量进行无偏最佳估计值的一种方法,这种方法的一个特点是能够计算出每个估计值的误差大小(估计值方差),从而能知道估计值的可靠性程度。克里格方法现已发展为多种类型,如简单克里格(simple Kriging),普通克里格( ordinary Kriging),点克里格(point Kriging),块段克里格(block Kriging),通用克里格(universal Kriging),协同克里格(co-kriging),不连续克里格及指标克里格等。如果变量满足平稳性假设,可直接用点或块段克里格方法,这两种方法也称普通克里格。如果是非平稳的,需要采用泛克里格方法。如果分析多个变量的协同区域化问题,要采用协同克里格方法。其他的各种克里格方法也各有其应用领域。克里格插值与距离倒数加权插值的相似之处在于,二者都通过给已知样本点赋权重来求其他点的预测值。两种内插方法的通用公式如下:其中,Z(s i)是已测得的第 i 个位置的属性值,w i 是在第 i 个位置上测得值的权重,s 0 是待插值的位置,n 是已知样点的数目。距离倒数加权插值中,权重 wi 仅取决于样点到待插值点的距离。在克里格插值中,权重不仅考虑了已知点与插值点间的距离,而且考虑了己知点的位置和属性值整体的空间分布和格局。克里格插值中的权重来自半方差函数模型(生成的表示地理现象连续表面的函数),在半方差函数模型和邻近已知点的空间分布的基础上,对研究区内的各个位置进行预测,权重 wi 取决于已知点的拟合模型、到插值点的距离和插值点周围的已知样点的空间关系。利用克里格方法进行预测,必须完成两个任务:(1)揭示空间相关规律;(2)进行预测。为此,克里格插值方法需要两个步骤:(1)生成变异函数和协方差函数,用于估算样点值间的统计相关(空间自相关)。变异函数和协方差函数取决于自相关模型(拟合模型)。(2)预测未知点的值。7.9.3.1 普通克里格方法普通克里格是满足假设的区域化变量的线性估计,它假设数据的变化呈正态分布,假设区域化变量 Z 的期望值是未知的(如果为已知的常数,则为简单克里格方法)。插值过程类似于加权滑动平均,只是权重值不是来自于确定性空间函数,而是来自于空间数据分析。1)点克里格简单的点估值是最常用的克里格法。克里格法可以说是一种局部估值方法,每一估值都是由其邻近观测值加权平均计算而得的。有实验表明,点克里格法比多项式和加权平均法的估值精度高。由克里格法估值产生的方差图,可以识别出需要进一步采样的地区。2)块段克里格AB图 7.12 半方差模型参数A:各向同性 B:各向异性块段克里格是对中心在 x0 的小区或块段进行估值。任一块段 V 中的属性 Z 的克里格值,是其邻近块段观测值 xi 的加权平均。块段克里格与点克里格法的区别仅在于权重系数的确定。当块段的大小等于原有平均点或样点所覆盖的范围时,克里格就是精确内插,因为内插值与数据点值相等,点克里格就成为块段克里格的特例。块段克里格的估值方差总是小于点克里格法。块段克里格法的最普通用途是绘制等值线图,而且图中的等值线较平滑,对揭示区域内的变化规律格局尤为有效。普通克里格分析需要给出如下的结果:半方差图(图 7.12),半方差模型参数,克里格插值结果图,插值结果的交叉检验(图7.13-图 7.15)。下面给出的是对青海省青海湖西侧铁卜加样区数据进行克里格分析得到的结果。数据样本数为 100,10x10 等间隔 30米采样。 指标为蚁蝗密度,单位是头/平方米。A B图 7.13 克里格分析的半方差图A:各向同性 B:各向异性半方差模型中参数使用回归方法估计(图 7.12)。对比确定系数 r2 和残差的标准差 RSS,选取指数模型为最佳半方差模型。这在各向同性和各向异性时均有较好的拟合效果。各向同性的模型获得的变程为 135.8m,各向异性模型获得的变程为 90-210 米,依计算的方向不同有所差异。从拟合效果看(RSS 最小),以 90 度方向的效果最好。图 7.14 是使用上述模型得到的插值结果,图 7.15 是克里格插值的交叉检验图。图 7.15 中,回归系数表示回归方程的拟合程度。最佳的回归系数为 1(图中的实线部分,虚线是当前的结果)。r2(图中表示为r2)是确定系数。SE 是标准差。当我们认为蚁蝗密度的变化具有各向同性时,得到回归系数高于各向异性,而且具有较低的预测标准误差。所以,就研究地区而言,虽然种群密度在不同方向上是有变化的,但不是非常显著。各向同性模型对于预测更为合适。图 7.14 各向同性的点克里格插值图 7.15 克里格插值的交叉检验A:各向同性 B:各向异性7.9.3.2 泛克里格方法普通克里格方法要求数据是二阶平稳的或准平稳的。如果数据在空间上存在明显的趋势,那么,普通克里格方法就不再适用。此时,应该使用泛克里格方法进行分析。泛克里格方法假设数据中有主导趋势,而且该趋势可以用一个确定性的函数或多项式来拟合。进行泛克里格方法分析的步骤为:1)趋势分析分析数据中存在的空间上的变化趋势,获得拟合模型。这部分内容与前面的趋势面分析相同。2)残差的克里格分析这部分的分析方法与前面的普通克里格分析相同,不同的是,计算使用的数据是原始数据减去趋势数据,即残差数据。3)泛克里格插值将趋势面分析和残差的克里格插值结果加和,即构成了泛克里格方法分析的结果(图 7.16)。图 7.16 泛克里格插值结果AIC 准则可以用来对比模型的拟合程度,下面是三个模型的 AIC 值:趋势面分析 500.08普通克里格方法 490.21泛克里格方法 470.31克里格方法明显的优于趋势面分析,泛克里格插值结果比普通克里格方法要更好一些。7.9.3.3 协同克里格方法通常同一个样点有多个属性值,某一属性的空间分布经常与其它属性密切相关,因为它们受同样的区域化现象或空间过程的影响,这些属性就称为协同区域化属性。某些属性 Z2 测定可能比较昂贵,所以数据点较稀,而另一些 Z1 则易于获得因而观测值较多。如果Z1 和 Z2 空间相关,那么就可以利用 Z1 的空间变异信息获取 Z2 的分布状况。除了描述各自非结构性变异之外,协同克里格还需要分析两个变量的联合交叉变异。两个变量 Z1,Z2 的协同区域化可以用它们的交叉半方差函数(cross-semivariogram)来表示:其中,n(h)是以距离间隔 h 内的样本数目。协同区域化属性的空间相关性也可以用交叉

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论