9-DEM的地形统计分析.doc_第1页
9-DEM的地形统计分析.doc_第2页
9-DEM的地形统计分析.doc_第3页
9-DEM的地形统计分析.doc_第4页
9-DEM的地形统计分析.doc_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

329 第九章 DEM的地形统计分析第九章 DEM的地形统计分析9.1 概 述地形统计分析是指应用统计方法对描述地形特征的各种可量化的因子或参数进行相关、回归、趋势面、聚类等统计分析,找出各因子或参数的变化规律和内在联系,并选择合适的因子或参数建立地学模型,从更深层次探讨地形演化及其空间变异规律。DEM作为一种空间数据,它具有抽样性、概括性、多态性、不确定性、空间性等特征。正是DEM的这些特征决定了基于DEM的地形分析的条件和任务,也决定了选择哪些手段和方法来展开分析。而统计方法就是其中最有效的手段之一,因为统计就是对大量离散数据的收集、取样、整理、总结和分析,并最终得出有价值和合理的结论。结合以往的研究不难发现,统计方法实际上贯穿了DEM从建立、分析到应用的整个过程,而统计方法也是DEM研究中不可或缺的一种手段。需要指出的是,在研究其它可用数字形式(编码)来描述的非地形要素的数字模型,如土壤类型、土地利用、地质、气候、温度、水资源、太阳辐射、降雨量、磁场、重力场分布、地区人口分布、工农业总产值、国民收入、教育程度等,即DTM时,统计方法也是必不可少的。因为DTM是在数字高程模型所确定的平面位置上用相应的地形特征值取代高程而形成的,所以无论是DEM还是DTM,在研究方法上是一致的。这样,基于DEM的地形统计分析的概念就可以扩展到DTM这个更广的范围了。统计本身是一门非常成熟的学科,包括了许多方法,从概率、抽样、假设检验,到相关分析、回归分析、趋势面分析等等,已经形成了一套非常完善的体系。基于DEM的地形统计分析利用各种统计方法探讨DEM数据本身及其派生地形因子的之间的相互关系,找出各因子或参数的变化规律和内在联系,是DEM的模型分析的前提和依据。从地形分析的内容和使用的统计方法来看,可大致分为以下几个部分:1. 原始DEM数据及派生地形因子基本统计特征的分析在地形分析中通常需要统计一些地形因子的最大值、最小值、极差、中值、总和、平均值、离差、方差、标准差、频数等基本统计量,必要时还需要对这些因子分组,以反映它们的空间分布规律。如统计原始DEM的最大值、最小值、极差等可以反映高程的离散程度;平均坡度可反映地表的大致起伏状况;而方差、标准差等不但可以反映地形因子值的离散程度,也是相关、回归等分析必不可少的计算步骤;又如对坡度按一定规则分级,并用坡谱(第11章)的形式表现出来,能更直观地反映坡度的变化规律,并可在此基础上展开更深层次的地学研究。在分析中还常常需要做分区统计,即对一个大区域按某种规则划分为若干个小区域,然后分别统计这些小区域内的地形因子的特征,从而探讨区域内部的差异性。2. 地形因子关联特征及空间分布规律的研究对地形因子分析的主要内容之一就是查明因子之间的相互关系和内在联系,并选定合适的因子建立地学模型,利用这种模型对地形的发展与动态做出数值预测。相关分析可以研究两个或多个地形因子之间是否存在关系及关系的密切程度。而回归分析主要是研究变量之间是哪种形式的关系,并确定描述这种关系的函数,用以预测、控制等。相关是回归分析的前提,在回归分析之前必须明确变量之间的关系及其密切程度。因为相关和回归都是通过样本去推断总体,所以都需要对结果进行检验。DEM数据获取地形建模与内插基本数据特征分析地形因子特征分析空间叠置分析不确定性分析和表达DEM可视化其它应用统计采样基本统计量相关分析回归分析趋势面分析系统聚类分析图9-1 在DEM建立与地形分析中用到的主要统计方法趋势面分析描述离散的空间数据的分布规律及其发展趋向。趋势面分析把地形要素的数值视为空间坐标的近似函数,用一次到高次多项式或周期函数(傅立叶函数)对要素数值与地理坐标间的关系进行最优拟合,把趋势部分理解为区域性因素所引起的有规律的变化,而把误差部分归纳为局部性因素或误差所引起的变化。通过趋势值与实际观测值的离差的分析,对要素的分布规律作预测或分析。本章将按照基本统计量、相关分析、回归分析、系统聚类分析的次序介绍各种统计方法在DEM地形分析中的应用。然而,在实际应用中各种方法并不是孤立的,在解决问题时通常需要综合应用多种分析方法,如图9.1所示,在地形因子特征分析时,不仅要理解它的一些基本统计特征,还要应用相关、回归、趋势面、聚类等多种统计方法才能达到目的;在DEM不确定性分析和表达中用到了相关分析和趋势面分析两种方法。因此,在实际应用中,多种方法相互融合使用才能够较为全面地理解数据自身的特性及其空间特征。9.2 基本统计量集中趋势描述数据特征的统计量离散程度分位数中位数平均数众数基本统计量其他统计量总和比率偏度分布形状峰度变差系数标准差平均离差方差极差最大值与最小值离差离差平方和比例种类DEM数据的基本统计量有:最大值、最小值、极差、均值、中值、总和、众数、种类、离差、方差、标准差、变差系数、峰度和偏度等。这些统计量反映了数据集的范围、集中情况、离散程度、空间分布特征等,它在DEM应用中有着重要的意义(见图9.2)。图9.2 基本统计量9.2.1 代表数据集中趋势的统计量代表数据集中趋势的统计量包括平均数、中位数、众数和分位数,它们都可以用来表示数据的分布位置和一般水平。表9.1中,列出了各统计量的含义以及在DEM地形分析中的应用。其中,表示数据集中的第i个变量,i=1,2,n。表9.1 代表集中趋势的统计量的含义及作用统计量含义作用平均数算术平均数简单算术平均数n个数据的总和与数据的总个数n的比值算术平均数代表了数据集的平均水平,不受总体范围的影响,因此具有比较分析的作用,还可作为评价事物的客观标准。如地面平均坡度是描述地面复杂程度的重要指标,也是衡量该地区坡度情况的指标;要比较两个地区的坡度情况,也需要用这两个地区的平均坡度来比较,因为平均坡度能代表该地区坡度的一般水平,可以用来做比较分析。算术平均数还能用于求取地表切割深度。一定区域内的DEM数据的平均值与最小高程值之差可以表示该区域的地表切割深度;另外求取离差、平均离差、离差平方和、方差、标准差、变差系数、偏度系数和峰度系数等时,要先求得算术平均数;算术平均数也可用于DEM平滑,嵌套平均值分级等计算中;加权平均数与算术平均数的应用是大致相同的,但加权平均数要考虑各值的不同权重。加权算术平均数在求算术平均数时,考虑到数据集中的n个值有时会含有不同的比重,对平均数的影响也就不同。所以用加权平均法来计算其算术平均数。权重为出现的频数,加权平均数可以按下式计算: 其中,几何平均数n个数据的连乘积再开n次方所得的方根数几何平均数用于分析和研究平均改变率、平均增长率、平均定比等,还在偏相关系数里有应用。中位数若将数据值按大小顺序排列,位于中间的那个值就是中位数或称中值。当数据集中有奇数个数据时,数据按大小顺序排列,那么第位数就是中位数;当有偶数个数据时,中位数为第项与第项的平均数。它们都是频数(出现次数)分布位置的代表值,不受极端数值的影响,主要应用于分析和研究直方图。中位数在直方图上位居正中央,并把面积等分为左右两个部分,在累积直方图上,累积频率为50%处所对应的特征值即是中位数,当一个数列变量值分布很偏时,以中位数表示它们的集中趋势比算术平均数更合理。众数在频数分布曲线上的位置正居最高点上,即曲线的峰值。分位数可用于数据分级。众数众数是一个数据集中出现频数(次数)最多的一个数。分位数将数列按大小排列,把数列划分为相等个数的分段,处于分段点上的值就是分位数。9.2.2 代表数据离散程度的统计量平均数、中位数、众数和分位数在反映总体一般数量水平的同时,也掩盖了总体各单位的数量差异。所以,只有这些统计量还不能充分说明一个数列中数值的分布情况和波动状态。有时虽然两个数据集的平均数相等,但各数据分布在平均数左右的疏密程度却不相同,也就是它们的离散程度不一样,为了把一个数据集的离散程度表现出来,就需要研究离散度。代表数据离散程度的统计量包括最大值、最小值、极差、离差、平均离差、离差平方和、方差、标准差、变差系数等。离散程度越大,数据越不稳定,代表性越差,用这些数据作试验的可靠性就越差;离散程度越小,则数据波动性小,用其作试验就相对可靠。 表9.2列出了表示离散程度各个统计量的含义及在DEM中的应用。表9.2 代表离散程度的统计量及其作用统计量含义作用最大值与最小值把数据从小到大排列,最前端的值就是最小值,最后一个就是最大值通过最大最小值,可以了解数据的取值范围,求取极差、地表切割深度。在不同地区的山地,虽然它们的平均高程相同,但是只要它们的极差不同,仍然说明它们之间存在着差别极差主要用于求取一定区域内的地形起伏度。地形起伏度是指,在所指定的分析区域内所有栅格中最大高程与最小高程的差。极差一个数据集的最大值与最小值的差值称为极差,它表示这个数据集的取值范围离差离差表示各数值与其平均值的离散程度,其值等于某个数值与该数据集的平均值之差d= x-两个数据集的均值相同,但其离差可以有很大的差别,这说明这两个数据集与各自平均值的离散程度不同。平均离差和离差平方和可以克服恒等于零的缺点,还可以把负数消除,只剩正值,这样更易于描述离散程度,而且离差平方和得到的结果较大,使离散程度更明显。离差平方和用于相关分析中求取相关系数在回归分析中,对回归方程进行显著性检验时,需要对原始数据进行离差平方和的分解,即把离差平方和分解为剩余平方和与回归平方和两部分,这两部分的比值可以反映回归方程的显著性。在趋势面分析中,对于趋势面的拟合程度可以用离差平方和来检验,其方法也是将原始数据的离差平方和分解为剩余平方和与回归平方和两部分,回归平方和的值越大,表明拟合程度越高。平均离差平均离差是把离差取决对值,然后求和,再除以变量个数离差平方和离差平方和是把离差求平方,然后求和方差方差是均方差的简称。它是以离差平方和除以变量个数而得到的它们是表示一组数据对于平均值的离散程度的很重要的指标,为了应用上的方便,常对方差进行开方,即为标准差。方差和标准差都可应用于相关分析、回归分析、正态分布检验等,还可用于误差分析、评价数据精度、求取变差系数、偏度系数和峰度系数等。标准差还可用于数据分级。标准差对方差进行开方,即为标准差变差系数变差系数也称为离差系数或变异系数,是标准差与均值的比值,以表示100%式中为变差系数,其值为百分率;S是标准差;为平均值。变差系数是用相对数的形式来刻画数据离散程度的指标,它可以用来衡量数据在时间与空间上的相对变化(波动)的程度。变差系数在DEM中可求算地形高程变异系数。9.2.3 代表数据分布形态的统计量分布形态可以从两个角度考虑,一是数据分布对称程度,另一个是数据分布集中程度。前者的测定参数称为偏度或偏斜度,后者的测定参数称为峰度。偏度和峰度是衡量数据分布特征的重要指标。表9.3 代表分布形态的统计量及其作用统计量含义作用偏度偏度是刻画数据在均值两侧的对称程度的参数,用偏度系数来衡量。标准偏度系数(g):g= 当g0时,数据的分布情况如下图:f(x)f(x)f(x)f(x) f(x)f(x)f(x)是数据分布的密度函数,是数据的平均值偏度可以表示数据分布的不对称性,刻画出是向正的方向偏还是向负的方向偏(小于或大于)峰度可以表示数据频数分布曲线峰形的相对高低程度或尖平程度。这两个指标主要用于分析数据的频率统计图以及评价正态分布性,当g=0且g=0时,数据是标准正态分布。偏度被用来描述某些地形因子统计值的数据分布,如地面坡谱的偏度等。峰度峰度是刻画数据在均值两侧的集中程度的参数,用峰度系数来衡量。标准峰度系数 g按下式计算:g=g0g0g=0 f(x)f(x)是数据分布的密度函数,是数据的平均值,S是标准差 峰度在地面坡谱的研究中对于描述地面坡度的组合程度有重要意义。9.2.4 其它统计量表9.4 其他统计量统计量含义作用总和数据集中所有数据相加得到的值总和一般用于求取总值及各种比值。通过求取一定流域内的沟壑总长度与总面积,可以获得该流域的沟壑密度。比率两类物体或现象的数值之比地表粗糙度即是以比率来表达的,它是地表单元的曲面面积与其在水平面上的投影面积之比。高程变异系数以某区域高程标准差和平均值的比值来表示。比例某类物体或现象的数值与其总数之比种类一定区域内,出现多少种不同的值。例如在不同高程区域内植物、动物或其它研究对象的种类的统计。反映区域生物的多样性。9.3分级统计分析分级是对数据进行加工处理的一种重要方法,通过分级可以把数据划分成不同的级别,体现数据自身的特征,为应用研究及专题制图提供基础。9.3.1 分级的概念与目的数据分级根据一定的方法或标准把数据分成不同的级别,也就是把一个数据集划分成不同的子集,在此过程中,还可设置分级精度和分级数目等。数据分级之后,仅使原来的数据重新归类,数据的属性没有发生改变,研究人员可以根据分级后的数据进行下一步的应用分析。 数据分级的根本目的在于区分数据集中个体的差别,分级统计的过程就是区别个体性质的过程。DEM数据分级的应用目的有两点:一是为了分级后,图面制图效果好,有利于用户读图;二是用不同的分级方法来突出显示制图区域内不同的地貌特征。9.3.2 分级的原则1) 科学性原则:分级指标的确定要遵循一定的科学规律;2) 完整性原则:整个数据集中的所有数据都应被分到不同的级别中,没有遗漏,而且同一数据集中的每一数据只能被分到某一级别中,不能同时分到两个或多个级别中;3) 适用性原则:对于一个数据集,应该根据研究或应用的需要选择合适的分级方法,使得分级结果能较好地满足目的;4) 美观性原则:分级方法及分级数目的确定不但要依据研究目的,还要注重制图效果,制作专题地图不仅要体现数据的空间分布特征,还要使得图面色彩平衡,特征明显,易于理解。9.3.3 分级统计的方法分级方法多种多样,在应用时应根据研究的需要选择合适的方法来突出需要的数据信息。分级方法的种类也很多,本书主要介绍以下三种:1) 按使用分级方法的多少可分为单一分级法和复合分级法:单一分级是指对于一个数据集只用了一种分级方法;复合分级是指由于数据自身的特点,需要对一部分数据使用某种分级方法,对另一部分数据使用另外一种分级方法,才能更好地满足研究的需要。如一组坡度数据,一部分较小(坡面平缓),而另一部分很大(地势陡峭),对这两部分数据,就应选用两种不同的分级方法,才能更好地突出变化特征。2) 按级差是否相等可分为等值分级法和不等值分级法:等值分级法又可以分为等面积分级、等间距分级、分位数分级等:不等值分级法可以分为自然裂点法、标准差分级、平均值嵌套分级等等。3) 按确定级差的方法可分为自定义分级法和模式分级法。本书就是按这种分类体系展开讨论的,其结构图如下: 分 级 方 法自定义分级模式分级等间距分级分位数分级等面积分级标准差分级自然裂点法其它分级方法有系统的不等间距分级面积正态分布分级嵌套平均值分级图9.3 分级方法的类型1. 自定义分级自定义分级即对一个数据集,根据自己的应用目的设定各个级别的数值范围来实现分级的方法。这种方法适用于研究者对该数据集比较了解,能够找到合适的分级临界点。在自定义分级中,临界点的选择非常重要,临界点选择得好,就能够增强同一级别区域间的同质性分级和各级之间的差异性,分级结果就能够很好地满足各种分析需求。如在对坡度进行分级的过程中,应根据应用目标的要求, 确定临界坡度。下面以黄土丘陵沟壑区为例,分别介绍不同的应用目的下不同的坡度的分级体系。1) 土壤侵蚀黄土丘陵沟壑区的土壤侵蚀以面蚀和沟蚀为主,其土壤侵蚀量的大小受地面坡度大小的制约。因为径流速度决定侵蚀量的大小,而径流速度又与坡度的平方根成正比,所以,地面的坡度值同土壤侵蚀量关系密切。黄土丘陵沟壑区在0-90的区间内3, 8, 15, 25,35, 45这几个坡度值是较明显的临界坡度值:3以下为无侵蚀区; 3-8有细沟、浅沟出现, 但15以下地面侵蚀相对较弱, 当坡度超过15时, 产沙量突然增大, 侵蚀渐趋加剧; 25是土壤侵蚀方式的一个转折点, 25以上重力侵蚀大量出现; 35是黄土堆积面的临界休止角, 35以上的坡面错落、滑坡、泻溜等重力侵蚀出现;45是整个坡度区间侵蚀作用的最大值点, 坡度超过45, 侵蚀作用又趋减弱。因此,以土壤侵蚀为临界指标的地面坡度分级系统为0-3-8-15-25-35-45-90。2) 农田灌溉在黄土丘陵沟壑区,农田灌溉一般只在坝地及沟底台地进行。对于自流灌溉,地面坡降要求均匀一致,一般以2以下为宜,当坡降大于2时,往往会使灌溉不均匀,造成灌溉困难。对于排水来说,大于3的坡段排水通畅,小于以上坡度的坡段,可能产生排水不良现象,小于1的田面易成涝灾,必须修建排水渠系。3) 农机具作业随着坡度的增大, 机具移动的阻力增加, 转弯困难, 耗油量和机具磨损增加, 作业质量下降。中、小型四轮机作业的临界坡度为15,大于15的坡地不利于农机具作业,一般来说,四轮拖拉机在小于6的坡地上作业最为适宜。4) 土壤分类坡度的大小与土层厚度及性状有着明显关系,坡度愈小,土层及腐殖质厚度愈厚。就黄土高原丘陵沟壑区而言, 25时, 则为料礓黄土善土、二色土等。5)土地利用及水保措施布设黄土丘陵沟壑区的地面由沟间地、沟坡地、沟底地三种不同的地貌部位组成。在这三个不同的地段内,水土流失的特点有较大差异,水土保持措施及土地利用方向也不一样。在沟缘线以上的沟间地,地势平坦,小于6的坡地,无强烈的侵蚀产生,可以作为农用旱地或牧草地;大于6的坡地,易产生强烈的侵蚀,需修筑梯田或采用水保耕作法等水保措施。沟间地除用作农旱地以外,还常辟为果园。25是退耕还林还牧界限,25以上常为林牧用地, 严禁陡坡开垦。由于所修的梯田田面狭窄,修地费工量大,土地利用率低, 所以也不宜修梯田。沟坡地的地面坡度大部分在35以上,该类土地应以种草造林为主要利用方式,以保护边坡的稳定性,防止崩塌、错落等重力侵蚀发生。45是植树造林的上限,45以上可种植柠条等能在陡坡上生长的灌木,以保护陡壁。沟底地地势平坦, 坡度大部分在0-6范围内,沟底流水线两旁的台地和已成坝地,坡度在2左右,适宜于灌溉,离居民地较近的地段常用作菜地。沟底地为上部沟间地和沟坡地侵蚀、冲刷下来水土的聚积地,在一定的坡降下将继续向下推移,所以在沟底地大于6的坡段,应采取水土保持措施。因此,综合坡度对多项农业生产的临界值, 确定了如下坡度分级系统:0-1-2-3-6-15-25-35-45-90。图9.4是对一典型黄土丘陵沟壑区采用以上五种分级指标体系分级得到的结果(a、b、c、d、e分别对应上述1、2、3、4、5类分级方法)。需要注意的是,在坡度的自定义分级中,分级是以临界坡度为依据的,这种方法应用目的明确, 但不容易反映出地面坡度的组合比例特征,地图制图效果往往不好。在实际应用中,也可以采用复合式坡度分级方法,即在不同的地貌部位,根据其主要应用目标不同而采用不同坡度分级指标体系。土壤侵蚀分级农田灌溉农机具作业土壤研究土地利用及水保措施布设0 300 600 m图9.4 不同分级体系下坡度的分级结果2. 模式分级模式分级就是指按固定模式进行分级,在固定模式中,级差由特定的算法自动设定。模式分级分为等间距分级、分位数分级、等面积分级、标准差分级、自然裂点法分级等。以某地区的坡度为例来介绍各种分级方法,表9.5包含两个字段VALUE和COUNT,VALUE代表每一个栅格的坡度值(已取整),COUNT代表栅格个数。在分级时,要注意选择需要分级的字段。1) 等间距分级等间距分级是一种最简单的分级方法,它按某个恒定间隔来对数据进行分级。假定数据集里有最大值和最小值,那么间距D=。表9.5 某地区坡度数据统计表VALUECOUNTVALUECOUNTVALUECOUNT07411204179401153124562214174419672253852241574282331257323391243687471252437634461855747253575454886470926357646406743062733554728783912283131482089374429289549146103584302820509711367831252951661236463223565230133580332250533614379534202454181538943519555511163899361799566174106371581574184022381459194164391296如图9.5所示分级图。等间距方法原理简单,但从直方图上可以看出,坡度在0-9之间的数据个数(栅格数)太多,在制图时占据了很大的幅面,影响了制图效果,且各级之间数据个数的差别太大。可见,当数据具有均匀变化的分布特征时,等间距分级法就简明实用;若数据分布差异过大,将会以响制图与对统计结果的分析。0 1000 2000 m占总栅格数的百分比 图9.5 等间距分级结果图2) 分位数分级分位数分级是把数列划分为相等个数的分段,根据实际需要选择四分位、五分位、六分位十分位。为此,要先将数列按大小排列,从一端开始计算其分位数,把处于分位数上的那个值作为分级值。将坡度值按六分位数分级,如表9.6所示,可以使每一级别所含的数据个数尽量相等,但是由于只有58个样本(0-57),使得分位数分级的优点没有体现出来,只有在样本很多的情况下,分位数分级才能使每一级别包含的数据个数几乎相等。所以,分位数分级能否使各级别所含数据个数相等,取决于数据集本身及分级的数目。例如,把原始坡度数据乘以1000,再四舍五入,数据范围由0-57.23变为0-57230,样本数变为57231个,对其进行六分位数分级,得到的分级结果如表9.7所示,各级所含的数据个数几乎相等,得到更理想的分类结果。表9.6 58个样本的分级结果 表9.7 57231个样本的分级结果级别栅格数占总栅格数的百分比0 - 25735828.583 - 63015415.037 - 143024515.0715 - 212843814.1722 - 292836414.1330 - 572612013.02级别栅格数占总栅格数的百分比0 -671568 - 31753345216.673176 - 97353344616.679736 - 185263344716.6718527 - 271033344416.6727104 - 572303344016.66图9.6分别是58个样本与57231个样本的分级结果。分位数分级可以使每一级别的数据个数接近一致,往往能产生较好的制图效果。占总栅格数的百分比占总栅格数的百分比0 1000 2000 m图9.6 分位数分级结果图 3) 等面积分级对于矢量数据而言,对每个多边形都可以求出其面积,将面积的值按大小顺序排列并累加,把累加面积分为相等的几段,作为分级范围,这样,每个级别中包含的样本数目虽然不同,但总面积基本一致。等面积方法使得每一级在图上占据的面积相等(或大致相等)。这种方法的特点是在图面上只反映各级占有相同的面积,制图效果好,但是没有充分利用图面表示级间的差异。对于规则栅格数据而言,一定区域内的面积可由该区域内的栅格个数乘以栅格分辨率得到,所以按等面积分级只需考虑栅格个数即可。这时可以将数据按大小顺序排列,将数据个数累加,并把累加的个数分为相等的几段,这与分位数分级法得到的分级结果基本上是一致的。4) 标准差分级标准差可以反映各数据间的离散程度,按标准差分级,首先要保证数据的分布具有正态分布的规律,才可计算平均值和标准差Std.Dev,然后根据数据波动情况划分等级。以算术平均值作为中间级别的一个分界点,以一倍标准差参与分级时其余分界点为:Std.Dev,2Std.Dev,3Std.DeviStd.Dev。当然也可以采用1/2倍标准差参与分级,即1/2Std.Dev,2/2Std.Dev,3/2Std.Devi/2Std.Dev的形式,也可以用1/3倍标准差或1/4倍标准差。显然,分级数目是由数据本身所决定的,且对于同一数据集,采用一倍标准差时,分级数目最少,采用1/4倍标准差时,分级数目最多。以一倍标准差参与分级得到的结果如图9.7所示。0 1000 2000 m占总栅格数的百分比图9.7 标准差分级结果图5) 自然裂点法分级任何统计数列都存在一些自然转折点、特征点,用这些点可以把研究的对象分成性质相似的群组,因此,裂点本身就是分级的良好界限。将统计数据制成频率直方图、坡度曲线图、积累频率直方图,都有助于找出数据的自然裂点。如果频率最低点与峰值构成一个近似正态分布曲线,可以把任意两个正态分布曲线交点作为分级界线。自然裂点法基本上是基于让各级别中的变异总和达到最小的原则来选择分级断点的。由于自然裂点法是根据数据本身特征找出一些自然裂点进行分级的。 自然裂点法把坡度值分为6级的结果如图9.8所示。0 1000 2000 m占总栅格数的百分比 图9.8 自然裂点法分级结果图6) 其他分级方法a. 有规律的不等间距分级这种方法与等间距分级法的区别在于它的间距是按一定规律变化的,而不是一个恒定的间隔。该方法采用的间隔或级差有算术级数和几何级数两种,每种又都可通过以下六种变化方法来确定各级的分级间隔:按某一恒定速率递增、按某一加速度递增、按某一减速度递增、按某一恒定速率递减、按某一加速度递减、按某一减速度递减。b. 按嵌套平均值分级该方法先计算整个数据集的平均值,它将数据集分为两部分,每部分中再计算平均值,又各自把所有的那一部分分成两段,以此类推,就可以把数据集区分为2个等级,即2的几何级数。n是计算中的平均值的嵌套序数,用这种方法只能得到偶数个级别,而不可能得到奇数个级别。c. 按面积正态分布分级按数据的大小排列,累加其面积,然后按正态分布的规则使中间级别所占的面积较大,往高端和低端的级别中所占的面积都依次减小,并由此来确定每级的分界线。显然,这种方法不仅使每个级别中样本的数目不相等,而且各级别的累加面积呈正态分布。总之,关于数据的统计分级的研究还很多,其目的都在于改善分级间隔的规则性、同级之中的同质性和不同级别之间的差异性等等。9.4 相关分析在DEM地形分析中,由于地貌的复杂性特征(Werner,1999),地形因子及其它变量间存在着各种不同的关系。一种是确定性关系,即函数关系,由于被研究对象或多或少具有随机性的缘故,这种关系在研究中很少见。另一种是相关关系,这种关系中的一个变量不能精确地由其它变量的值计算出,但通过分析能看出两者之间的某种联系或趋势。为了找出这些变量之间的相关性和内在联系,就需要对它们进行分析评价,并得出有用的结论,为下一步的研究提供有价值的参考。可见,相关分析在DEM地形分析中是必要的,也是重要的方法之一。在本节中,首先介绍变量自身的自相关问题,其次讨论两个或多个变量之间的相关性。9.4.1 空间自相关按照地理学第一定律,空间的事物总在不同程度上相互联系与制约,而相近的事物之间的影响通常大于较远事物的影响。这种现象被称为空间自相关。如地貌在一定空间范围内是具有空间自相关性的,即相似的。DEM地形分析为量化地貌的自相关性提供了很好的数据条件。DEM是以栅格形式存储的,格网单元遵循明确定义的空间排列,它所描述的空间自相关可以定义为某一栅格单元的值与其相邻栅格值的趋近程度。空间自相关常用莫兰指数(I)和居耶瑞指数(c)来度量。1. 莫兰指数(Moran I): (9.1)其中xi 、xj分别为在位置i、j的测量值,是在所有i、j位置点测量值的均值,n为所有测量点的数目;其中wij为赋予每一个栅格测量单元的权重。如果j是直接与i毗邻的四个单元之一,wij为1,如果是其它单元或单元为无数据(No Data),wij则为0。若计算区域有相似的属性值,I为正;若计算区域为不同数值,则为负;若属性值随机排列,则趋于0。2. 局耶瑞指数(Geary c): (9.2)式(2)的符号注释与I相同。不同的是,莫兰指数在计算中使用协方差,而局耶瑞使用方差。局耶瑞指数取1作为随机模型,小于1为正相关模式,大于1为负相关模式。Wood (1996) 的研究证明,对于栅格数据自相关的计算,莫兰指数的计算公式可以简化为: (9.3)根据以上原理,选取黄土高原沟壑区1:1万DEM,利用邻域统计法,分别以55、1313、2525的窗口提取正负地形,并计算其自相关系数。计算结果如图9.9,可见正负地形空间布局的空间自相关程度随着图形综合程度的增大而增大。55, I0.3840 正地形负地形1313, I0.394332525, I0.49697图9.9 正负地形空间自相关程度的变化3半变异函数和协方差函数在地统计学中用半变异函数和协方差函数来描述自相关,它们把相关系数的大小表示为距离的函数,其目的是检测数据的空间变异结构。在应用半变异函数和协方差函数时有两个假设前提:一是假设邻近事物比相隔远的事物会更加相似,二是邻近事物的相似性只与它们之间的距离有关而与它们所处的位置无关,即符合二阶平稳假设。如图9.10,A、B、a、b四点位于研究区的不同位置,但距离DABDab,且方向相同,那么相似系数(A、B)(a、b)。ABa0 1 2 km0b图9.10 二阶平稳假设示意图半变异函数定义为: (9.4)其中var是变异系数。如果两点之间按量测距离D(Si,Sj)计算彼此很接近,就断定两者是相似的,它们的数值之间的差异Z(Si )Z( Sj)就较小。反之,它们的相似性就降低,它们之间数值差异Z(Si )Z( Sj)就增大。如图9.11所示。图9.11 半变异函数示意图协方差函数定义为: (9.5)其中cov是协方差。协方差是对相关系数按一定比例的表现形式。因此,当两点Si与Sj彼此距离很接近时,可判断它们是相似的,因此它们的协方差就比较大。当Si与Sj之间的距离扩大时,它们的相似性降低,协方差也减小直至变为0(图9.12)。图9.12 协方差函数示意图9.4.2 地形因子相关分析地形因子是最基本的地貌要素,不同的地形因子从不同方面反映地面的起伏特征或空间变异,各因子之间所存在的相互关联、相互制约、相互影响的特性,直接表征着地表物质的移动与能量的转换,反映着地表基本环境格局的内在形成机理与发展态势。目前在DEM分析中应用到的相关分析主要包括两个地形因子之间相关程度的确定和多个地形因子间相关程度的测定,后者又包括偏相关和复相关两种。1. 单相关研究两个地形因子的相关关系称为单相关,用相关系数来表达相关关系的性质和紧密程度。相关系数由下式计算: (9.6) 相关系数的显著性检验是通过查相关系数表的临界值来完成。如表9.8,是某地12个丘陵的高程和平均坡度值:表9.8 12个丘陵样区的高程(m)和平均坡度(据黄镇国,1989)x(高程)236237232225210217215205200203180190y(平均坡度)242524.52221.221.52120.620.519.61918.5根据9.6式计算 r0.944,查相关系数检验表可知在99的置信度上,结果是可信的,即该丘陵地区的高程与坡度有很好的正相关关系。另外,还常常用散点图来体现两个因子之间的关系。把表9.8以图9.13表达后可以直观地看出该地区丘陵的高程与坡度具有较好的线性相关性。高程平均坡度图9.13 12个丘陵的高程(m)和平均坡度的散点图2. 偏相关因为地形的复杂性,在地形分析中要研究的常常不止两个因子,而是对多个因子的综合分析。一般地,当研究某一个因子对另一个因子的影响或相关程度时,把其他因子的影响视为常数(保持不变),即暂时不考虑其他因子的影响,而单独研究两个要素之间的相互关系的密切程度,这称为偏相关。偏相关的程度用偏相关系数来度量,偏相关系数的显著性检验,一般采用t检验法。例如对陕北甘泉的一幅1:1万DEM提取坡度、平面曲率、剖面曲率、高程极差和高程曲线积分值与地面起伏度等因子,然后随机采取30个22km2的样本,并分别统计该样本范围内的坡度、平面曲率、剖面曲率、高程极差和地面起伏度的平均值以及高程曲线积分值,为了消除量纲的影响,对这些统计值分别进行归一化处理得到表9.9的结果。利用回归方法计算各个自变量与起伏度因子的偏回归系数、和(其中1、2、3、4、5、6分别代表地面起伏度、坡度、平面曲率、剖面曲率、高程极差和高程曲线积分值,的含义是3、4、5、6号自变量保持不变时,2号自变量变化一个单位而使因变量平均变化的数值);同时以起伏度因子为自变量,计算它与另外五个因子的偏回归系数、和,最后,由公式计算自变量2相对与因变量的偏相关系数,公式的正负号与偏回归系数的一致,其它因子由此类推,得出各因子相对于起伏度因子的偏相关系数如表9.10。 表9.9 地形因子归一化处理结果表平均坡度平均剖面曲率平均平面曲率高程极差高程曲线积分平均地面起伏度10.63470.5110.63960.36850.52550.60420.6533100.269710.676630.73360.5020.56750.7850.60730.686940.78810.18920.7760.62370.38750.750250.72050.50790.55410.64390.58880.708860.71370.23580.78850.50550.42830.678670.61010.008310.28570.39690.57280.58570.69830.54070.39990.52540.464690.67790.8030.14270.52830.61670.6245100.41170.19990.83380.92020.4570.2945110.60240.53740.42350.68410.64640.51991200.35460.90590.424500130.693800.79610.6180.32440.6689140.72280.9670.08760.33210.81830.741150.40890.34840.88510.3240.53450.3805160.72010.64270.43560.40660.66760.6576170.73320.55790.51350.58840.96530.7008180.61630.21960.93760.5870.27130.5821190.72960.89990.39180.57030.76430.6997200.6110.32420.58290.90990.4220.5961210.75130.60250.522100.82140.6827220.6810.69510.418910.44340.614230.52330.70710.34910.46810.6850.4671240.22980.71480.36030.70310.59420.2012250.85940.38860.76690.54290.43590.8503260.70280.4460.44220.15110.68450.60652710.26060.78430.95840.36741280.64650.72850.31490.20520.84990.5982290.57890.58080.53750.31780.40950.5055300.81770.47670.71180.8730.61370.8028表9.10 偏相关系数表坡度剖面曲率平面曲率高程极差高程曲线积分地面起伏度0.9836377250.0192010.1210050.1207720.318014021结果显示坡度与地面起伏度呈现明显的正相关,即坡度值越大对应着地面起伏度的值也越大。3. 复相关实际上,一个因子的变化往往受多种要素的综合作用和影响,而单相关或偏相关分析的方法都不能反映各要素的综合影响,所以就必须用复相关的分析法来解释几个因子与某一个因子之间的复相关程度。复相关程度用复相关系数来度量,复相关系数介于0到1之间,复相关系数越接近于1,则表明要素之间的相关程度越密切。复相关系数必大于或至少等于单相关系数的绝对值。复相关系数的显著性检验,一般采用F检验法。仍以表9.9 的数据为例,采用多元回归的方法对这五个因子与起伏度因子进行多元回归,得到其可决系数R2= 0.9681,对可决系数取平方根就得到复相关系数R= 0.983934137。可见,坡度、平面曲率、剖面曲率、高程极差和高程曲线积分值五个因子对地形起伏度具有综合的影响。需要注意的是在本例中对偏相关和复相关的计算采用的都是回归的方法,因此对回归结果的检验如果显著的话就说明相关的结果是可信的。如需要了解其它计算方法和t检验法、F检验法可参阅相关统计文献。9.5 回归分析回归分析是利用回归方程来确定一个因变量和一个或多个自变量的关系,可用于预测和估算。在分析和处理DEM的工作中,很多学者都将回归分析的方法引入到实验分析中来,并通过回归分析方法来获得大量隐含在地理表象之下的空间规律。例如:DEM的误差研究,包括DEM的建立误差、地形因子的描述误差等;地形因子之间的定量相关关系的确定;基于DEM的各种地理现象与地形因子之间的定量关系的描述等等。在基于DEM的空间分析中,常用到的回归分析的方法主要有线性回归和非线性回归,具体所应用到的回归分析的方法如图9.14。根据所引入的自变量的来源

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论