ARCGIS空间统计分析_第1页
ARCGIS空间统计分析_第2页
ARCGIS空间统计分析_第3页
ARCGIS空间统计分析_第4页
ARCGIS空间统计分析_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ARCGIS空间统计分析.空间统计工具功能功能领域工具集工具地理分布测量度量地理分布平均中心、中心要素、标准距离、方向分布(标准差椭圆)、线性方向平均值地理模式分析分析模式平均最近邻、空间自相关(Moran'sI)、高/低聚类(Getis-OrdGeneralG)地理聚类分析聚类分布制图聚类和异常值分析(AnselinLocalMoran'sI)、热点分析(Getis-OrdGi*)回归分析空间关系建模普通最小二乘法、探索性回归、地理加权回归.ARCGIS“空间统计”工具箱概述工具集描述分析模式这些工具可用于评估要素(或与要素关联的值)是形成一个聚类空间模式、离散空间模式还是随机空间模式。聚类分布制图这些工具可用于识别具有统计显著性的热点、冷点或空间异常值。度量地理分布这些工具可以解决以下问题:中心在哪里?形状和方向如何?这些要素的离散程度如何?空间关系建模这些工具可利用回归分析来建立数据关系模型,也可以构建空间权重矩阵。渲染这些工具可用于渲染分析结果。工具这些实用工具可执行多种杂项功能:计算面积、评估最小距离、导出变量和几何、转换空间权重文件和采集重合点。.注意:ARCGIS“空间统计”工具箱,只要分析中涉及距离(对于空间统计总是如此),就应使用投影坐标系(而不是基于度、分、秒的地理坐标系)对数据进行投影。.1.ARCGIS空间统计任务汇总某分布模式的关键特征。标识具有统计显著性的空间聚类(热点/冷点)和空间异常值。评估聚类或分散的总体模式。对空间关系建模。.1.1汇总关键特征问题工具示例中心在哪里?平均中心或中位数中心

人口中心在哪里以及它如何随时间变化?哪个要素的地理位置最便利?中心要素应将新建的支持中心定址在哪里?主导方向或方位是什么?线性方向平均值冬季的主要风向是什么?在此地区如何确定断层线的方位?要素的分散程度、密集程度或融合程度如何?标准距离或方向分布(标准差椭圆)哪个犯罪团伙所涉及的地域最大?哪种疾病菌株的分布范围最广?根据动物选择的生活地点,各物种会达到什么样的融合程度?是否存在定向趋势?方向分布(标准差椭圆)残骸现场的方位在哪里?残骸的集中区域在哪里?.1.2标识具有统计显著性的聚类问题工具示例热点在哪里?冷点在哪里?聚类的集中程度如何?热点分析(Getis-OrdGi*)或聚类和异常值分析(AnselinLocalMoran'sI)富裕区与贫困区之间最清晰的界限在哪里?哪里是生物多样性和栖息地质量最高的地方?异常值在哪里?聚类和异常值分析(AnselinLocalMoran'sI)在济南的哪里我们会找到异常的消费模式?如何可以实现最有效的资源调配?热点分析(Getis-OrdGi*)哪里的糖尿病发病率异常高?哪里的厨房火灾占住宅火灾的比例高于预期值?白天发生的犯罪案件与夜晚发生的犯罪案件是否具有相同的空间模式?哪些位置与问题发生位置相距最远?热点分析(Getis-OrdGi*)应将避难场所设置在哪里?.1.3评估整体空间模式问题工具示例各空间特征之间是否存在差异?空间自相关(GlobalMoran'sI)哪一类犯罪的空间集中性最高?或平均最近邻哪些植物物种的分布在整个研究区域中最为分散?空间模式是否随着时间推移发生变化?空间自相关(GlobalMoran'sI)富裕区和贫困区是否或多或少地出现空间上的隔离?是否突然出现药品购买高峰?或高/低聚类(Getis-OrdGeneralG)随着时间推移,该疾病是保持固定在同一个地理位置,还是扩散到邻近的地方?

抑制措施是否有效?空间过程彼此之间是否类似?多距离空间聚类分析(Ripley'sK函数)该疾病的空间模式是否反映出高危人群的空间模式?商业入室盗窃的空间模式是否偏离商业场所的空间模式?数据是否在空间上相关?空间自相关(GlobalMoran'sI)回归残差是否表现出具有统计显著性的空间自相关?.1.4关系建模问题工具示例是否存在相关性?关系的稳固程度如何?这种关系在整个研究区域中是否一致?普通最小二乘法(OLS)教育程度与收入之间是什么关系?这种关系在整个研究区域中是否一致?和地理加权回归(GWR)破坏财产行为与入室盗窃之间是否存在明确的关系?

患病几率是否会随着接近水要素而增加?哪些因素可能导致发生特定的结果?还有什么地方可能有类似的反应?普通最小二乘法(OLS)有哪些关键可变因素可以解释森林火灾频发的原因?和地理加权回归(GWR)哪些人口特征导致了较高的公共交通工具使用率?

应保护哪些环境以促进濒危物种的再引入?缓解措施会在哪里最有效?普通最小二乘法(OLS)孩子会在哪些方面始终保持高的考试分数?似乎要与哪些特征联系在一起?每个特征分别在哪些方面最为重要?和地理加权回归(GWR)哪些因素与高于预期的交通事故发生比例相关?在每个事故高发地点,哪些因素是最强的预测因子?模式可能会发生什么样的变化?可以做哪些准备工作?普通最小二乘法(OLS)911报警电话的热点在哪里?哪些可变因素可有效预测通话量?鉴于对未来的预测,对应急资源的预期需求有哪些?和地理加权回归(GWR)为什么此位置会成为热点?为什么此位置会成为冷点?热点分析(Getis-OrdGi*)、为什么在某些特定区域癌症发病率如此高?普通最小二乘法(OLS)为什么在一些地区的识字率很低?和地理加权回归(GWR)美国是否有持续发生年轻人早逝的地方?原因是什么?.

2.“空间统计”分析工具

空间统计工具箱包含一系列用于分析空间分布、模式、过程和关系的统计工具。尽管空间统计和非空间统计(传统统计方法)在概念和目标方面可能存在某些相似性,但空间统计具有其固有的独特性,因为它们是专门为处理地理数据而开发的。与传统的非空间统计分析方法不同,空间统计方法是将地理空间(邻域、区域、连通性和/或其他空间关系)直接融入到数学逻辑中。.2.“空间统计”分析工具“分析模式”工具集中的工具都采用推论式统计,它们以零假设为起点,假设要素或与要素相关的值都表现成空间随机模式。然后它们再计算出一个p值用来表示零假设的正确概率(观测到的模式只不过是完整空间随机性的许多可能版本之一)。在制定特定决策时可能需要高置信度的数据,这时,计算概率就可能很重要。.2.1“分析模式”工具集工具描述多距离空间聚类分析(Ripley'sK函数)

确定要素(或与要素相关联的值)是否显示某一距离范围内统计意义显著的聚类或离散。平均最近邻根据每个要素与其最近邻要素之间的平均距离计算其最近邻指数。可从结果窗口访问结果。高/低聚类

使用Getis-OrdGeneralG统计可度量高值或低值的聚类程度。可从结果窗口访问结果。空间自相关根据要素位置和属性值使用GlobalMoran'sI统计量测量空间自相关性。可以从结果窗口访问结果。.2.2“分析模式”工具中各方法的工作原理(计算方法)与结果分析

.2.2.1.平均最近邻的计算.2.2.1平均最近的相邻要素“平均最近邻”工具将返回五个值:平均观测距离、预期平均距离、最近邻指数、z得分和p值。.2.2.1平均最近的相邻要素z得分和p值结果是统计显著性的量度,用来判断是否拒绝零假设。对于“平均最近邻”统计,零假设指明要素是随机分布的。“最近邻指数”的表示方式是“平均观测距离”与“预期平均距离”的比率。预期平均距离是假设随机分布中的邻域间的平均距离。如果指数小于1,所表现的模式为聚类;如果指数大于1,则所表现的模式趋向于离散或竞争。平均最近邻方法对“面积”值非常敏感(面积参数值的细微变化都能导致结果产生巨大变化)。因此,“平均最近邻”工具最适用于对固定研究区域中不同的要素进行比较。可对研究区域面使用“计算面积”工具以获得面积参数值。.2.2.2高/低聚类(Getis-OrdGeneralG)的计算.2.2.2高/低聚类(Getis-OrdGeneralG)的计算.2.2.2高/低聚类(Getis-OrdGeneralG)的计算.2.2.2高/低聚类(Getis-OrdGeneralG)“高/低聚类”工具可返回5个值:GeneralG观测值、GeneralG期望值、方差、z得分及p值。.2.2.2高/低聚类(Getis-OrdGeneralG)输入字段应包含多种非负值。如果输入字段包含负值,将显示错误消息。此外,此统计数学方法要求待分析的变量存在一定程度的变化;如,如果所有输入都是1便无法求解。如果要使用此工具分析事件数据的空间模式,应考虑聚合事件数据。z得分和p值是统计显著性的量度,用来判断是否拒绝零假设。对于此工具,零假设表示与要素相关的值随机分布。.2.2.2高/低聚类(Getis-OrdGeneralG)“高/低聚类”工具可返回5个值:GeneralG观测值、GeneralG期望值、方差、z得分及p值。.2.2.3多距离空间聚类分析(Ripley'sK函数)的计算.2.2.3多距离空间聚类分析(Ripley'sK函数)确定要素(或与要素相关联的值)是否显示某一距离范围内统计意义显著的聚类或离散。.2.2.3多距离空间聚类分析(Ripley'sK函数)确定要素(或与要素相关联的值)是否显示某一距离范围内统计意义显著的聚类或离散。.2.2.3多距离空间聚类分析(Ripley'sK函数)工具输出是一个包含以下字段的表:ExpectedK和ObservedK分别包含K预期值和K观测值。DiffK字段包含K观测值与K预期值的差值。如果指定了置信区间选项,则附加字段LwConfEnv和HiConfEnv也将包含在输出表中。这些字段包含工具的每个迭代(由距离段数量参数指定)的置信区间信息。K函数还可以创建图层汇总结果。如果特定距离的K观测值大于K预期值,则与该距离(分析规模)的随机分布相比,该分布的聚类程度更高。如果K观测值小于K预期值,则与该距离的随机分布相比,该分布的离散程度更高。如果K观测值大于HiConfEnv值,则该距离的空间聚类具有统计学上的显著性。如果K观测值小于LwConfEnv值,则该距离的空间离散具有统计学上的显著性。启用以图形方式显示结果参数可以创建汇总工具结果的折线图。预期结果以蓝线表示,而观测结果则以红线表示。观测线在预期线之上表明数据集在该距离内表现为聚类。观测线在预期线之下表明数据集在该距离内表现为离散。折线图以图层方式创建。.2.2.3多距离空间聚类分析(Ripley'sK函数)工具输出是一个包含以下字段的表:ExpectedK和ObservedK分别包含K预期值和K观测值。DiffK字段包含K观测值与K预期值的差值。如果指定了置信区间选项,则附加字段LwConfEnv和HiConfEnv也将包含在输出表中。这些字段包含工具的每个迭代(由距离段数量参数指定)的置信区间信息。K函数还可以创建图层汇总结果。如果特定距离的K观测值大于K预期值,则与该距离(分析规模)的随机分布相比,该分布的聚类程度更高。如果K观测值小于K预期值,则与该距离的随机分布相比,该分布的离散程度更高。如果K观测值大于HiConfEnv值,则该距离的空间聚类具有统计学上的显著性。如果K观测值小于LwConfEnv值,则该距离的空间离散具有统计学上的显著性。启用以图形方式显示结果参数可以创建汇总工具结果的折线图。预期结果以蓝线表示,而观测结果则以红线表示。观测线在预期线之上表明数据集在该距离内表现为聚类。观测线在预期线之下表明数据集在该距离内表现为离散。折线图以图层方式创建。.2.2.4空间自相关(GlobalMoran'sI)的计算.2.2.4空间自相关(GlobalMoran'sI)的计算.2.2.4空间自相关(GlobalMoran'sI)“空间自相关”工具将返回五个值:Moran'sI指数、预期指数、方差、z得分及p值。用z得分或p值指示统计显著性时,如果Moran‘sI指数值为正则指示聚类趋势,如果Moran’sI指数值为负则指示离散趋势。GlobalMoran'sI工具通过计算z得分和p值来指示您是否可以拒绝零假设。此种情况下,零假设表示要素值随机分布于研究区域中。.2.2.5z得分和p值大多数统计检验在开始时都首先确定一个零假设。模式分析工具(“分析模式”工具集和“聚类分布制图”工具集)的零假设是完全空间随机性(CSR),它或者是要素本身的完全空间随机性,或者是与这些要素关联的值的完全空间随机性。模式分析工具所返回的z得分和p值可以判断出是否可以拒绝零假设。通常,运行其中一种模式分析工具,同时希望z得分和p值会指明可以拒绝零假设,因为此工具将表明:要素(或与要素关联的值)会表现出具有统计显著性的聚类或分散,而不是随机模式。只要在空间数据中发现聚类这样的空间结构,就证明某些基础空间过程在发挥作用。p值表示概率。是所观测到的空间模式由某一随机过程创建的概率。当p很小时(足够小?),意味着所观测到的空间模式不太可能产生于随机过程(小概率),因此您可以拒绝零假设。Z得分是标准差的倍数。如返回的z得分为+2.5,我们就会说,结果是2.5倍标准差。z得分和p值都与标准正态分布相关联。.2.2.5z得分和p值在正态分布的尾部出现非常高或非常低的z得分(负值),这些得分与非常小的p值相关。当得到很小的p值以及非常高或非常低的z得分时,就表明观测到的空间模式不太可能反映出零假设(CSR)所表示的理论上的随机模式。.2.2.5z得分和p值z得分(标准差)p值(概率)置信度<-1.65或>+1.65<0.1090%<-1.96或>+1.96<0.0595%<-2.58或>+2.58<0.0199%.2.2.5z得分和p值结果高/低聚类空间自相关p值不具有统计学上的显著性。不能拒绝零假设。要素属性值的空间分布很有可能是随机空间过程的结果。也就是说,所观测到的值的空间模式很可能是完全空间随机性的众多可能结果之一。p值具有统计学上的显著性,且z得分为正值。可以拒绝零假设。如果基础空间过程是完全随机的,则数据集中高值的空间分布与预期的空间分布相比在空间上的聚类程度更高。可以拒绝零假设。如果基础空间过程是完全随机的,则数据集中高值和/或低值的空间分布在空间上聚类的程度要高于预期。p值具有统计学上的显著性,且z得分为负值。可以拒绝零假设。如果基础空间过程是完全随机的,则数据集中低值的空间分布与预期的空间分布相比在空间上的聚类程度更高。可以拒绝零假设。如果基础空间过程是随机的,则数据集中高值和低值的空间分布在空间上离散的程度要高于预期。离散的空间模式通常反映某种类型的竞争过程:具有高值的要素排斥具有高值的其他要素;类似地,具有低值的要素排斥具有低值的其他要素。.2.3“聚类分布制图”工具集工具描述聚类和异常值分析给定一组加权要素,使用AnselinLocalMoran'sI统计量来识别具有统计显著性的热点、冷点和空间异常值。热点分析如果给定一组加权要素,使用Getis-OrdGi*统计识别具有统计显著性的热点和冷点。“聚类分布制图”工具可通过执行聚类分析来识别具有统计显著性的热点、冷点和空间异常值的位置。当根据一个或多个聚类的位置需要执行行动时,“聚类分布制图”工具集的用途特别明显。.2.3.1“聚类和异常值分析(AnselinLocalMoran‘sI)”的计算.2.3.1“聚类和异常值分析(AnselinLocalMoran‘sI)”的计算.2.3.1“聚类和异常值分析(AnselinLocalMoran‘sI)”的计算.2.3.1“聚类和异常值分析(AnselinLocalMoran‘sI)”给定一组加权要素,使用AnselinLocalMoran'sI统计量来识别具有统计显著性的热点、冷点和空间异常值。正值

I表示要素具有包含同样高或同样低的属性值的邻近要素;该要素是聚类的一部分。负值I表示要素具有包含不同值的邻近要素;该要素是异常值。在任何一个实例中,要被视为具有统计学上的显著性的聚类和异常值,要素的p值必须足够小。.2.3.1“聚类和异常值分析(AnselinLocalMoran‘sI)”的计算基于欧氏距离或者曼哈顿距离的计算需要投影数据来准确测量距离。对于线和面要素,会在距离计算中使用要素质心。对于多点、折线(polyline)或由多部分组成的面,使用所有要素部分的加权平均中心来计算质心。点要素的加权项是1,线要素的加权项是长度,而面要素的加权项是面积。输入字段应包含多种值。此方法要求待分析的变量存在一定程度的变化;如果所有输入都是1便无法求解。如果要素的z得分是一个较高的正值,则表示周围的要素拥有相似值(高值或低值)。输出要素类中的COType字段会将具有统计显著性(0.05的显著水平)的高值聚类表示为HH,将具有统计学显著性(0.05的显著水平)的低值聚类表示为LL。如果要素的z得分是一个较低的负值(如<-1.96),则表示有一个具有统计显著性(0.05的显著水平)的空间异常值。输出要素类中的COType字段将指明要素是否是高值要素而四周围绕的是低值要素(HL),或者要素是否是低值要素而四周围绕的是高值要素(LH)。.2.3.2热点分析(Getis-OrdGi*)的计算.2.3.2热点分析(Getis-OrdGi*)的计算为数据集中的每个要素返回的Gi*统计就是z得分。对于具有显著统计学意义的正的z得分,z得分越高,高值(热点)的聚类就越紧密。对于统计学上的显著性负z得分,z得分越低,低值(冷点)的聚类就越紧密。此工具使用z得分和p值为输入要素类中的每个要素创建一个新的输出要素类。如果对于“输入要素类”应用了选择集,则只会对所选要素进行分析,且在“输出要素类”中也将仅显示所选要素。.2.3.2热点分析(Getis-OrdGi*)的计算z得分基于随机化零假设进行计算。基于欧氏距离或者曼哈顿距离的计算需要投影数据来准确测量距离。对于线和面要素,会在距离计算中使用要素质心。对于多点、折线(polyline)或由多部分组成的面,使用所有要素部分的加权平均中心来计算质心。点要素的加权项是1,线要素的加权项是长度,而面要素的加权项是面积。输入字段应包含多种值。此统计数学方法要求待分析的变量存在一定程度的变化。.2.4度量地理分布工具集工具描述中心要素识别点、线或面要素类中位于最中央的要素。方向分布创建标准差椭圆以汇总地理要素的空间特征:中心趋势、离散和方向趋势。线性方向平均值识别一组线的平均方向、长度和地理中心。平均中心识别一组要素的地理中心(或密度中心)。中位数中心识别使数据集中要素之间的总欧氏距离达到最小的位置点。标准距离测量要素在几何平均中心周围的集中或分散的程度。.2.4.1中心要素识别点、线或面要素类中位于最中央的要素。工具执行过程中会首先对数据集中每个要素质心与其他各要素质心之间的距离计算并求和。然后,选择与所有其他要素的最小累积距离相关联的要素(如果指定权重,则为加权),并将其复制到一个新创建的输出要素类中。中心要素工具用于创建一个包含了处于最中央位置的要素的新的要素类。.2.4.2方向分布(标准差椭圆)测量一组点或区域的趋势的一种常用方法便是分别计算x和y方向上的标准距离。这两个测量值可用于定义一个包含所有要素分布的椭圆的轴线。由于该方法是由平均中心作为起点对x坐标和y坐标的标准差进行计算,从而定义椭圆的轴,因此该椭圆被称为标准差椭圆。利用该椭圆,您可以查看要素的分布是否是狭长形的,并因此具有特定方向。.2.4.2方向分布(标准差椭圆)测量一组点或区域的趋势的一种常用方法便是分别计算x和y方向上的标准距离。这两个测量值可用于定义一个包含所有要素分布的椭圆的轴线。由于该方法是由平均中心作为起点对x坐标和y坐标的标准差进行计算,从而定义椭圆的轴,因此该椭圆被称为标准差椭圆。利用该椭圆,您可以查看要素的分布是否是狭长形的,并因此具有特定方向。.2.4.2方向分布(标准差椭圆).2.4.2方向分布(标准差椭圆).2.4.2方向分布(标准差椭圆)标准差椭圆工具可为每个案例(案例分组字段参数)都创建一个包含椭圆面的新输出要素类。这些椭圆面的属性值包括平均中心的X和Y坐标、两个标准距离(长轴和短轴)以及椭圆的方向。字段名分别为CenterX、CenterY、XStdDist、YStdDist和Rotation。如果提供了案例分组字段,同时也会将此字段添加到输出要素类。基于欧氏距离或者曼哈顿距离的计算需要投影数据来准确测量距离。如果要素的基础空间模式集中于中心且朝向外围的要素较少(一种空间正态分布),则一个标准差椭圆面约包含聚类中68%的要素,两个标准差约包含聚类中95%的要素,三个标准差约包含聚类中99%的要素。“旋转”输出字段中的值表示从顶点开始按顺时针方向对长轴测量的旋转度。.2.4.2方向分布(标准差椭圆)案例分组字段用于在进行分析前将要素分组。如果指定了案例分组字段,会首先根据案例分组字段值对输入要素进行分组,然后再计算每组的标准差椭圆。案例分组字段可以是整型、日期或字符串类型。可以根据可选的权重字段进行标准差椭圆计算(例如,获取按严重程度衡量的交通事故的椭圆)。“权重字段”应为数字。对于线和面要素,会在距离计算中使用要素质心。对于多点、折线(polyline)或由多部分组成的面,使用所有要素部分的加权平均中心来计算质心。点要素的加权项是1,线要素的加权项是长度,而面要素的加权项是面积。地图图层可用于定义输入要素类。在使用带有选择内容的图层时,分析只会包括所选的要素。.2.4.2方向分布(标准差椭圆)应用:在地图上标示一组犯罪行为的分布趋势可以确定该行为与特定要素(一系列酒吧或餐馆、某条特定街道等)的关系。在地图上标示地下水井样本的特定污染可以指示毒素的扩散方式,这在部署减灾策略时非常有用。对各个种族或民族所在区域的椭圆的大小、形状和重叠部分进行比较可以提供与种族隔离或民族隔离相关的深入信息。绘制一段时间内疾病爆发情况的椭圆可建立疾病传播的模型。.2.4.3线性方向平均值一组线要素的趋势可通过计算这些线的平均角度进行度量。用于计算该趋势的统计量称为方向平均值。尽管统计量本身被称为方向平均值,但它实际上用于测量方向或方位。许多线状要素指向某一方向(它们都具有一个起点和一个终点)。这类线通常可表示移动对象(例如飓风)的路径。而其他线状要素(例如断层线)则没有起点和终点。这些要素则被认为具有方位而不具有方向。例如,断层线可能具有西北-东南方位。.2.4.3线性方向平均值.2.4.3线性方向平均值输入必须是线要素类。输出线要素的属性值包括罗盘角的CompassA(以正北为基准方向按顺时针旋转)、方向平均值的DirMean(以正东为基准方向按逆时针旋转)、圆方差的CirVar(用于指示线方向偏离方向平均值的程度)、平均中心X和Y坐标的AveX和AveY,以及平均长度的AveLen。如果指定了案例分组字段,它还将被添加至输出要素类。与标准差测量类似,圆方差值指示方向平均值矢量表示输入矢量集的好坏程度。圆方差范围为0至1。如果所有输入矢量具有完全相同(或非常相似)的方向,则圆方差将很小(接近于0)。当输入矢量方向跨越整个罗盘时,圆方差将很大(接近于1)。.2.4.3线性方向平均值案例分组字段用于对要素进行分组,以进行独立的线性方向平均值计算。当指定了“案例分组字段”时,会首先根据案例分组字段值对输入线要素进行分组,然后为每个组创建输出线要素。案例分组字段可以为整型、日期型或字符串型。执行方向测量时,工具只会考虑线要素的第一个点和最后一个点,而不会考虑沿线的所有折点。地图图层可用于定义输入要素类。在使用带有选择内容的图层时,分析只会包括所选的要素。.2.4.4平均中心平均中心是研究区域中所有要素的平均x坐标和y坐标。平均中心对于分析追踪分布的变化,以及比较不同类型要素的分布非常有用。.2.4.4平均中心.2.4.4平均中心平均中心是一个根据输入要素质心的平均x和y值构造的点。平均中心点要素的x值和y值是输出要素类中的属性。这些值存储在XCOORD和YCOORD字段中。案例分组字段用于将要素进行分组以独立计算平均中心。当指定了“案例分组字段”时,会首先根据案例分组字段值对输入要素进行分组,然后计算每个组的平均中心。案例分组字段可以为整型、日期型或字符串型。尺寸字段是输入要素类中的任意数字字段。平均中心工具将计算该字段中所有值的平均值,并将结果包括在输出要素类中。对于线和面要素,会在距离计算中使用要素质心。对于多点、折线(polyline)或由多部分组成的面,使用所有要素部分的加权平均中心来计算质心。点要素的加权项是1,线要素的加权项是长度,而面要素的加权项是面积。地图图层可用于定义输入要素类。在使用带有选择内容的图层时,分析只会包括所选的要素。

.2.4.5中位数中心中位数中心工具是一种对异常值反应较为稳健的中心趋势的量度。该工具可标识数据集中到其他所有要素的行程最小的位置点。中位数中心工具可指定权重字段。您可将权重视为与每个要素关联的行程个数(例如,如果要素的权重为3.2,则行程数将为3.2)。加权中位数中心是所有行程的距离之和最小的位置点。.2.4.5中位数中心用于计算中位数中心的方法是一个迭代过程,由Kuhn和Kuenne(1962)提出,之后在Burt和Barber(1996)中进一步概括。在算法的每个步骤(t)中,都会找到一个候选“中位数中心”(Xt,Yt),然后对其进行优化,直到其表示的位置距数据集中的所有要素(或所有加权要素)(i)的“欧式距离”d最小。.2.4.5中位数中心平均中心和中位数中心均是中心趋势度量。但是,中位数中心工具的算法受数据异常值的影响较小。中位数中心要素的x值和y值是输出要素类中的属性。这些值存储在XCOORD和YCOORD字段中。案例分组字段用于将要素进行分组以独立计算中位数的中心。当指定了“案例分组字段”时,会首先根据案例分组字段值对输入要素进行分组,然后计算每个组的中位数中心。案例分组字段可以为整型、日期型或字符串型,并将以属性形式显示在输出要素类中。将对“属性字段”参数中指定的所有字段计算数据中位数。地图图层可用于定义输入要素类。在使用带有选择内容的图层时,分析只会包括所选的要素。.2.4.6标准距离度量分布的紧密度可以提供一个表示要素相对于中心的分散程度的值。该值表示距离,因此,可通过绘制一个半径等于标准距离值的圆在地图上体现一组要素的紧密度。标准距离工具用于创建圆面。.2.4.6标准距离.2.4.6标准距离标准距离工具可为每个案例创建包含以平均值为中心的圆面的新要素类。绘制每个圆面时使用的半径均等于标准距离。每个圆面的属性值即为其标准距离值。案例分组字段用于在进行分析前将要素分组。如果指定了案例分组字段,会首先根据案例分组字段值对输入要素进行分组,然后再计算每组的标准距离圆。可以根据可选的权重字段进行标准距离计算(例如,获得按工作人员衡量的企业标准距离)。“权重字段”应为数值。如果输入要素的基础空间模式集中于中心且朝向外围的要素较少(一种空间正态分布),则一个标准差圆面约包含聚类中68%的要素;两个标准差圆约包含聚类中95%的要素;三个标准差约包含聚类中99%的要素。地图图层可用于定义输入要素类。在使用带有选择内容的图层时,分析只会包括所选的要素。.2.5“空间关系建模”工具集工具描述生成网络空间权重使用网络数据集构建一个空间权重矩阵文件(.swm),从而在基础网络结构方向定义要素空间关系。生成空间权重矩阵构建一个空间权重矩阵(.swm)文件,以表示数据集中各要素间的空间关系。地理加权回归执行“地理加权回归(GWR)”,这是一种用于建模空间变化关系的线性回归的局部形式。普通最小二乘法执行全局“普通最小二乘法(OLS)”线性回归可生成预测,也可为一个因变量针对它与一组解释变量关系建模。.2.5.1生成网络空间权重创建网络空间权重工具可查找网络上的每一个点,并可以距离或时间为单位量化所有其他要素之间的邻域。任何两个要素的所得到的邻域求解结果还会考虑障碍和/或限制(例如道路封闭)。这些邻域关系使用稀疏矩阵法存储为小字节二进制格式。.2.5.1生成网络空间权重此工具的输出是空间权重矩阵文件(.swm)。需要指定空间关系的概念化选项的工具将接受空间权重矩阵文件;为空间关系的概念化参数选择GET_SPATIAL_WEIGHTS_FROM_FILE,并且为权重矩阵文件参数指定使用此工具创建的空间权重文件的完整路径名。此工具的设计初衷是仅用来处理输入要素类点数据。.2.5.2生成空间权重矩阵空间权重矩阵是数据空间结构的一种表现形式。它是对数据集要素之间存在的空间关系的一种量化。通过创建权重来量化数据要素之间的关系的策略有两种:二进制或可变权重。对于二进制策略(固定距离、K最近邻域或邻接),要素或者是邻域(1),或者不是(0)。对于权重策略(反距离或无差别的区域),邻近要素有不同量级的作用(或影响),并通过计算权重来反映该变化。.2.5.2生成空间权重矩阵此工具会报告所生成的空间权重矩阵文件的特征:要素数量、连通性以及最小相邻要素数、最大相邻要素数和平均相邻要素数。在使用基于距离的“空间关系概念化”时,数据应采用投影坐标系(而不是地理坐标系)。唯一ID字段与运行此工具后所获得的要素关系关联。空间关系的概念化参数的面邻接选项(CONTIGUITY_EDGES_ONLY和CONTIGUITY_EDGES_CORNERS)仅对面要素有效。相邻要素的数目参数可以覆盖“空间关系反距离或固定距离概念化”的阈值距离参数。如果指定的阈值距离为10英里,相邻要素数目为3,则所有要素都至少会接收3个相邻要素(即使必须增加该阈值才能找到它们)。只有在未达到最小相邻要素数时,才增加距离阈值。.2.5.3普通最小二乘法(OLS)执行全局“普通最小二乘法(OLS)”线性回归可生成预测,也可为一个因变量针对它与一组解释变量关系建模。此工具的主要输出为写入结果窗口的OLS汇总报表,还可以选择将此报表与其他图表一起写入您所指定的输出报表文件。.2.5.3普通最小二乘法(OLS)“OLS回归”工具生成的输出包括以下内容:.2.5.3普通最小二乘法(OLS)评估模型性能。R平方的倍数和校正R平方值都可以用来测量模型性能。可能值的范围从0.0到1.0。由于“校正R平方”值与数据相关,更能准确地测量出模型性能,能够反映模型的复杂性(变量数),因此“校正R平方”值始终要比“R平方的倍数”值略小。为模型额外添加一个解释变量可能会增大“R平方的倍数”值,但可能会减小“校正的R平方”值。评估模型是否具有显著性。联合F统计量和联合卡方统计量均用于测量整个模型的统计学显著性。只有在Koenker(BP)统计量(见下图)不具有统计学上的显著性时,“联合F统计量”才可信。如果Koenker(BP)统计量具有显著性,应参考“联合卡方统计量”来确定整个模型的显著性。这两种测试的零假设均为模型中的解释变量“不”起作用。对于大小为95%的置信度,p值(概率)小于0.05表示模型具有统计学上的显著性。.评估模型中的每一个解释变量:系数、概率、稳健概率和方差膨胀因子(VIF)。每个解释变量的系数既反映它与因变量之间关系的强度,也反映它与应变量之间关系的类型。当与系数关联的符号为负号时,该系数与因变量为负关系。当与系数关联的符号为正号时,该系数与因变量为正关系。系数的单位与其关联的解释变量的单位相同。系数反映了相对于与因变量关联的解释变量的每1个单位变化因变量所发生的预期变化,并保持所有其他解释变量不变。使用T测试来评估某个解释变量是否具有统计学上的显著性。零假设是指所有的意图和目的的系数值为零,因此零假设对于模型“没有”帮助。当概率或稳健概率(p值)很小时,系数实际为零的几率也会很小。如果Koenker测试具有统计学上的显著性,应使用稳健概率来评估解释变量的统计学显著性。对于具有统计学上显著性的概率,其旁边带有一个星号(*)。如果理论/常识支持某解释变量(与统计学上显著的系数相关)与因变量的有效关系,关系模型主要为线性模型,且该变量对模型中所有其他解释变量而言不是冗余变量,则该变量对回归模型而言是很重要的。VIF用于测量解释变量中的冗余。一般来说,与大于7.5的VIF值关联的解释变量应逐一从回归模型中移除。2.5.3普通最小二乘法(OLS).2.5.3普通最小二乘法(OLS)评估稳定性。Koenker(BP)统计量(Koenker的标准化Breusch-Pagan统计量)是一种测试,用于确定模型的解释变量是否在地理空间和数据空间中都与因变量具有一致的关系。如果模型在地理空间中一致,由解释变量表示的空间进程在研究区域(进程稳定)各位置处的行为也将一致。如果模型在数据空间中一致,则预测值与每个解释变量之间关系的变化不会随解释变量量值(模型没有异方差性)的变化而变化。假设要对犯罪情况进行预测,其中一个解释变量为收入。如果对收入中位值小的位置的预测比对收入中位值大的位置的预测更准确,则模型的异方差性就会出现问题。该测试的零假设为所测试的模型稳定。对于大小为95%的置信度,p值(概率)小于0.05表示模型具有统计学上的显著异方差性和/或不稳定性。如果该测试的结果具有统计学上的显著性,需参考稳健系数标准差和概率来评估每个解释变量的效果。具有统计学上显著不稳定性的回归模型通常很适合进行地理加权回归(GWR)分析。.2.5.3普通最小二乘法(OLS)评估模型偏差。Jarque-Bera统计量用于指示残差(已观测/已知的因变量值减去预测/估计值)是否呈正态分布。该测试的零假设为残差呈正态分布,因此,如果为这些残差建立直方图,这些残差的分布将与典型钟形曲线或高斯分布相似。当该测试的p值(概率)较小(例如,对于大小为95%的置信度,其值小于0.05)时,回归不会呈正态分布,并指示您的模型有偏差。如果残差还存在统计学上显著的空间自相关,则偏差可能是模型指定错误(该模型的某个关键变量缺失)的结果。从错误指定的OLS模型得到的结果是不可信的。如果尝试构建非线性关系模型、数据的某些异常值存在影响或者存在很强的异方差性也可进行统计学上显著的Jarque-Bera测试。评估残差空间自相关。始终对回归残差运行空间自相关(Moran'sI)工具可确保回归残差在空间上随机分布。高残差和/或低残差(模型偏高预计值和偏低预计值)在统计学上的显著聚类表明模型(指定错误)中的某

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论