




已阅读5页,还剩76页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.,1,ARCGIS空间统计分析,.,2,空间统计工具功能,.,3,ARCGIS“空间统计”工具箱概述,.,4,注意:ARCGIS“空间统计”工具箱,只要分析中涉及距离(对于空间统计总是如此),就应使用投影坐标系(而不是基于度、分、秒的地理坐标系)对数据进行投影。,.,5,1.ARCGIS空间统计任务,汇总某分布模式的关键特征。标识具有统计显著性的空间聚类(热点/冷点)和空间异常值。评估聚类或分散的总体模式。对空间关系建模。,.,6,1.1汇总关键特征,.,7,1.2标识具有统计显著性的聚类,.,8,1.3评估整体空间模式,.,9,1.4关系建模,.,10,2.“空间统计”分析工具,空间统计工具箱包含一系列用于分析空间分布、模式、过程和关系的统计工具。尽管空间统计和非空间统计(传统统计方法)在概念和目标方面可能存在某些相似性,但空间统计具有其固有的独特性,因为它们是专门为处理地理数据而开发的。与传统的非空间统计分析方法不同,空间统计方法是将地理空间(邻域、区域、连通性和/或其他空间关系)直接融入到数学逻辑中。,.,11,2.“空间统计”分析工具,“分析模式”工具集中的工具都采用推论式统计,它们以零假设为起点,假设要素或与要素相关的值都表现成空间随机模式。然后它们再计算出一个p值用来表示零假设的正确概率(观测到的模式只不过是完整空间随机性的许多可能版本之一)。在制定特定决策时可能需要高置信度的数据,这时,计算概率就可能很重要。,.,12,2.1“分析模式”工具集,.,13,2.2“分析模式”工具中各方法的工作原理(计算方法)与结果分析,.,14,2.2.1.平均最近邻的计算,.,15,2.2.1平均最近的相邻要素,“平均最近邻”工具将返回五个值:平均观测距离、预期平均距离、最近邻指数、z得分和p值。,.,16,2.2.1平均最近的相邻要素,z得分和p值结果是统计显著性的量度,用来判断是否拒绝零假设。对于“平均最近邻”统计,零假设指明要素是随机分布的。“最近邻指数”的表示方式是“平均观测距离”与“预期平均距离”的比率。预期平均距离是假设随机分布中的邻域间的平均距离。如果指数小于1,所表现的模式为聚类;如果指数大于1,则所表现的模式趋向于离散或竞争。平均最近邻方法对“面积”值非常敏感(面积参数值的细微变化都能导致结果产生巨大变化)。因此,“平均最近邻”工具最适用于对固定研究区域中不同的要素进行比较。可对研究区域面使用“计算面积”工具以获得面积参数值。,.,17,2.2.2高/低聚类(Getis-OrdGeneralG)的计算,.,18,2.2.2高/低聚类(Getis-OrdGeneralG)的计算,.,19,2.2.2高/低聚类(Getis-OrdGeneralG)的计算,.,20,2.2.2高/低聚类(Getis-OrdGeneralG),“高/低聚类”工具可返回5个值:GeneralG观测值、GeneralG期望值、方差、z得分及p值。,.,21,2.2.2高/低聚类(Getis-OrdGeneralG),输入字段应包含多种非负值。如果输入字段包含负值,将显示错误消息。此外,此统计数学方法要求待分析的变量存在一定程度的变化;如,如果所有输入都是1便无法求解。如果要使用此工具分析事件数据的空间模式,应考虑聚合事件数据。z得分和p值是统计显著性的量度,用来判断是否拒绝零假设。对于此工具,零假设表示与要素相关的值随机分布。,.,22,2.2.2高/低聚类(Getis-OrdGeneralG),“高/低聚类”工具可返回5个值:GeneralG观测值、GeneralG期望值、方差、z得分及p值。,.,23,2.2.3多距离空间聚类分析(RipleysK函数)的计算,.,24,2.2.3多距离空间聚类分析(RipleysK函数),确定要素(或与要素相关联的值)是否显示某一距离范围内统计意义显著的聚类或离散。,.,25,2.2.3多距离空间聚类分析(RipleysK函数),确定要素(或与要素相关联的值)是否显示某一距离范围内统计意义显著的聚类或离散。,.,26,2.2.3多距离空间聚类分析(RipleysK函数),工具输出是一个包含以下字段的表:ExpectedK和ObservedK分别包含K预期值和K观测值。DiffK字段包含K观测值与K预期值的差值。如果指定了置信区间选项,则附加字段LwConfEnv和HiConfEnv也将包含在输出表中。这些字段包含工具的每个迭代(由距离段数量参数指定)的置信区间信息。K函数还可以创建图层汇总结果。如果特定距离的K观测值大于K预期值,则与该距离(分析规模)的随机分布相比,该分布的聚类程度更高。如果K观测值小于K预期值,则与该距离的随机分布相比,该分布的离散程度更高。如果K观测值大于HiConfEnv值,则该距离的空间聚类具有统计学上的显著性。如果K观测值小于LwConfEnv值,则该距离的空间离散具有统计学上的显著性。启用以图形方式显示结果参数可以创建汇总工具结果的折线图。预期结果以蓝线表示,而观测结果则以红线表示。观测线在预期线之上表明数据集在该距离内表现为聚类。观测线在预期线之下表明数据集在该距离内表现为离散。折线图以图层方式创建。,.,27,2.2.3多距离空间聚类分析(RipleysK函数),工具输出是一个包含以下字段的表:ExpectedK和ObservedK分别包含K预期值和K观测值。DiffK字段包含K观测值与K预期值的差值。如果指定了置信区间选项,则附加字段LwConfEnv和HiConfEnv也将包含在输出表中。这些字段包含工具的每个迭代(由距离段数量参数指定)的置信区间信息。K函数还可以创建图层汇总结果。如果特定距离的K观测值大于K预期值,则与该距离(分析规模)的随机分布相比,该分布的聚类程度更高。如果K观测值小于K预期值,则与该距离的随机分布相比,该分布的离散程度更高。如果K观测值大于HiConfEnv值,则该距离的空间聚类具有统计学上的显著性。如果K观测值小于LwConfEnv值,则该距离的空间离散具有统计学上的显著性。启用以图形方式显示结果参数可以创建汇总工具结果的折线图。预期结果以蓝线表示,而观测结果则以红线表示。观测线在预期线之上表明数据集在该距离内表现为聚类。观测线在预期线之下表明数据集在该距离内表现为离散。折线图以图层方式创建。,.,28,2.2.4空间自相关(GlobalMoransI)的计算,.,29,2.2.4空间自相关(GlobalMoransI)的计算,.,30,2.2.4空间自相关(GlobalMoransI),“空间自相关”工具将返回五个值:MoransI指数、预期指数、方差、z得分及p值。用z得分或p值指示统计显著性时,如果MoransI指数值为正则指示聚类趋势,如果MoransI指数值为负则指示离散趋势。GlobalMoransI工具通过计算z得分和p值来指示您是否可以拒绝零假设。此种情况下,零假设表示要素值随机分布于研究区域中。,.,31,2.2.5z得分和p值,大多数统计检验在开始时都首先确定一个零假设。模式分析工具(“分析模式”工具集和“聚类分布制图”工具集)的零假设是完全空间随机性(CSR),它或者是要素本身的完全空间随机性,或者是与这些要素关联的值的完全空间随机性。模式分析工具所返回的z得分和p值可以判断出是否可以拒绝零假设。通常,运行其中一种模式分析工具,同时希望z得分和p值会指明可以拒绝零假设,因为此工具将表明:要素(或与要素关联的值)会表现出具有统计显著性的聚类或分散,而不是随机模式。只要在空间数据中发现聚类这样的空间结构,就证明某些基础空间过程在发挥作用。p值表示概率。是所观测到的空间模式由某一随机过程创建的概率。当p很小时(足够小?),意味着所观测到的空间模式不太可能产生于随机过程(小概率),因此您可以拒绝零假设。Z得分是标准差的倍数。如返回的z得分为+2.5,我们就会说,结果是2.5倍标准差。z得分和p值都与标准正态分布相关联。,.,32,2.2.5z得分和p值,在正态分布的尾部出现非常高或非常低的z得分(负值),这些得分与非常小的p值相关。当得到很小的p值以及非常高或非常低的z得分时,就表明观测到的空间模式不太可能反映出零假设(CSR)所表示的理论上的随机模式。,.,33,2.2.5z得分和p值,.,34,2.2.5z得分和p值,.,35,2.3“聚类分布制图”工具集,“聚类分布制图”工具可通过执行聚类分析来识别具有统计显著性的热点、冷点和空间异常值的位置。当根据一个或多个聚类的位置需要执行行动时,“聚类分布制图”工具集的用途特别明显。,.,36,2.3.1“聚类和异常值分析(AnselinLocalMoransI)”的计算,.,37,2.3.1“聚类和异常值分析(AnselinLocalMoransI)”的计算,.,38,2.3.1“聚类和异常值分析(AnselinLocalMoransI)”的计算,.,39,2.3.1“聚类和异常值分析(AnselinLocalMoransI)”,给定一组加权要素,使用AnselinLocalMoransI统计量来识别具有统计显著性的热点、冷点和空间异常值。正值I表示要素具有包含同样高或同样低的属性值的邻近要素;该要素是聚类的一部分。负值I表示要素具有包含不同值的邻近要素;该要素是异常值。在任何一个实例中,要被视为具有统计学上的显著性的聚类和异常值,要素的p值必须足够小。,.,40,2.3.1“聚类和异常值分析(AnselinLocalMoransI)”的计算,基于欧氏距离或者曼哈顿距离的计算需要投影数据来准确测量距离。对于线和面要素,会在距离计算中使用要素质心。对于多点、折线(polyline)或由多部分组成的面,使用所有要素部分的加权平均中心来计算质心。点要素的加权项是1,线要素的加权项是长度,而面要素的加权项是面积。输入字段应包含多种值。此方法要求待分析的变量存在一定程度的变化;如果所有输入都是1便无法求解。如果要素的z得分是一个较高的正值,则表示周围的要素拥有相似值(高值或低值)。输出要素类中的COType字段会将具有统计显著性(0.05的显著水平)的高值聚类表示为HH,将具有统计学显著性(0.05的显著水平)的低值聚类表示为LL。如果要素的z得分是一个较低的负值(如-1.96),则表示有一个具有统计显著性(0.05的显著水平)的空间异常值。输出要素类中的COType字段将指明要素是否是高值要素而四周围绕的是低值要素(HL),或者要素是否是低值要素而四周围绕的是高值要素(LH)。,.,41,2.3.2热点分析(Getis-OrdGi*)的计算,.,42,2.3.2热点分析(Getis-OrdGi*)的计算,为数据集中的每个要素返回的Gi*统计就是z得分。对于具有显著统计学意义的正的z得分,z得分越高,高值(热点)的聚类就越紧密。对于统计学上的显著性负z得分,z得分越低,低值(冷点)的聚类就越紧密。此工具使用z得分和p值为输入要素类中的每个要素创建一个新的输出要素类。如果对于“输入要素类”应用了选择集,则只会对所选要素进行分析,且在“输出要素类”中也将仅显示所选要素。,.,43,2.3.2热点分析(Getis-OrdGi*)的计算,z得分基于随机化零假设进行计算。基于欧氏距离或者曼哈顿距离的计算需要投影数据来准确测量距离。对于线和面要素,会在距离计算中使用要素质心。对于多点、折线(polyline)或由多部分组成的面,使用所有要素部分的加权平均中心来计算质心。点要素的加权项是1,线要素的加权项是长度,而面要素的加权项是面积。输入字段应包含多种值。此统计数学方法要求待分析的变量存在一定程度的变化。,.,44,2.4度量地理分布工具集,.,45,2.4.1中心要素,识别点、线或面要素类中位于最中央的要素。工具执行过程中会首先对数据集中每个要素质心与其他各要素质心之间的距离计算并求和。然后,选择与所有其他要素的最小累积距离相关联的要素(如果指定权重,则为加权),并将其复制到一个新创建的输出要素类中。中心要素工具用于创建一个包含了处于最中央位置的要素的新的要素类。,.,46,2.4.2方向分布(标准差椭圆),测量一组点或区域的趋势的一种常用方法便是分别计算x和y方向上的标准距离。这两个测量值可用于定义一个包含所有要素分布的椭圆的轴线。由于该方法是由平均中心作为起点对x坐标和y坐标的标准差进行计算,从而定义椭圆的轴,因此该椭圆被称为标准差椭圆。利用该椭圆,您可以查看要素的分布是否是狭长形的,并因此具有特定方向。,.,47,2.4.2方向分布(标准差椭圆),测量一组点或区域的趋势的一种常用方法便是分别计算x和y方向上的标准距离。这两个测量值可用于定义一个包含所有要素分布的椭圆的轴线。由于该方法是由平均中心作为起点对x坐标和y坐标的标准差进行计算,从而定义椭圆的轴,因此该椭圆被称为标准差椭圆。利用该椭圆,您可以查看要素的分布是否是狭长形的,并因此具有特定方向。,.,48,2.4.2方向分布(标准差椭圆),.,49,2.4.2方向分布(标准差椭圆),.,50,2.4.2方向分布(标准差椭圆),标准差椭圆工具可为每个案例(案例分组字段参数)都创建一个包含椭圆面的新输出要素类。这些椭圆面的属性值包括平均中心的X和Y坐标、两个标准距离(长轴和短轴)以及椭圆的方向。字段名分别为CenterX、CenterY、XStdDist、YStdDist和Rotation。如果提供了案例分组字段,同时也会将此字段添加到输出要素类。基于欧氏距离或者曼哈顿距离的计算需要投影数据来准确测量距离。如果要素的基础空间模式集中于中心且朝向外围的要素较少(一种空间正态分布),则一个标准差椭圆面约包含聚类中68的要素,两个标准差约包含聚类中95的要素,三个标准差约包含聚类中99的要素。“旋转”输出字段中的值表示从顶点开始按顺时针方向对长轴测量的旋转度。,.,51,2.4.2方向分布(标准差椭圆),案例分组字段用于在进行分析前将要素分组。如果指定了案例分组字段,会首先根据案例分组字段值对输入要素进行分组,然后再计算每组的标准差椭圆。案例分组字段可以是整型、日期或字符串类型。可以根据可选的权重字段进行标准差椭圆计算(例如,获取按严重程度衡量的交通事故的椭圆)。“权重字段”应为数字。对于线和面要素,会在距离计算中使用要素质心。对于多点、折线(polyline)或由多部分组成的面,使用所有要素部分的加权平均中心来计算质心。点要素的加权项是1,线要素的加权项是长度,而面要素的加权项是面积。地图图层可用于定义输入要素类。在使用带有选择内容的图层时,分析只会包括所选的要素。,.,52,2.4.2方向分布(标准差椭圆),应用:在地图上标示一组犯罪行为的分布趋势可以确定该行为与特定要素(一系列酒吧或餐馆、某条特定街道等)的关系。在地图上标示地下水井样本的特定污染可以指示毒素的扩散方式,这在部署减灾策略时非常有用。对各个种族或民族所在区域的椭圆的大小、形状和重叠部分进行比较可以提供与种族隔离或民族隔离相关的深入信息。绘制一段时间内疾病爆发情况的椭圆可建立疾病传播的模型。,.,53,2.4.3线性方向平均值,一组线要素的趋势可通过计算这些线的平均角度进行度量。用于计算该趋势的统计量称为方向平均值。尽管统计量本身被称为方向平均值,但它实际上用于测量方向或方位。许多线状要素指向某一方向(它们都具有一个起点和一个终点)。这类线通常可表示移动对象(例如飓风)的路径。而其他线状要素(例如断层线)则没有起点和终点。这些要素则被认为具有方位而不具有方向。例如,断层线可能具有西北-东南方位。,.,54,2.4.3线性方向平均值,.,55,2.4.3线性方向平均值,输入必须是线要素类。输出线要素的属性值包括罗盘角的CompassA(以正北为基准方向按顺时针旋转)、方向平均值的DirMean(以正东为基准方向按逆时针旋转)、圆方差的CirVar(用于指示线方向偏离方向平均值的程度)、平均中心X和Y坐标的AveX和AveY,以及平均长度的AveLen。如果指定了案例分组字段,它还将被添加至输出要素类。与标准差测量类似,圆方差值指示方向平均值矢量表示输入矢量集的好坏程度。圆方差范围为0至1。如果所有输入矢量具有完全相同(或非常相似)的方向,则圆方差将很小(接近于0)。当输入矢量方向跨越整个罗盘时,圆方差将很大(接近于1)。,.,56,2.4.3线性方向平均值,案例分组字段用于对要素进行分组,以进行独立的线性方向平均值计算。当指定了“案例分组字段”时,会首先根据案例分组字段值对输入线要素进行分组,然后为每个组创建输出线要素。案例分组字段可以为整型、日期型或字符串型。执行方向测量时,工具只会考虑线要素的第一个点和最后一个点,而不会考虑沿线的所有折点。地图图层可用于定义输入要素类。在使用带有选择内容的图层时,分析只会包括所选的要素。,.,57,2.4.4平均中心,平均中心是研究区域中所有要素的平均x坐标和y坐标。平均中心对于分析追踪分布的变化,以及比较不同类型要素的分布非常有用。,.,58,2.4.4平均中心,.,59,2.4.4平均中心,平均中心是一个根据输入要素质心的平均x和y值构造的点。平均中心点要素的x值和y值是输出要素类中的属性。这些值存储在XCOORD和YCOORD字段中。案例分组字段用于将要素进行分组以独立计算平均中心。当指定了“案例分组字段”时,会首先根据案例分组字段值对输入要素进行分组,然后计算每个组的平均中心。案例分组字段可以为整型、日期型或字符串型。尺寸字段是输入要素类中的任意数字字段。平均中心工具将计算该字段中所有值的平均值,并将结果包括在输出要素类中。对于线和面要素,会在距离计算中使用要素质心。对于多点、折线(polyline)或由多部分组成的面,使用所有要素部分的加权平均中心来计算质心。点要素的加权项是1,线要素的加权项是长度,而面要素的加权项是面积。地图图层可用于定义输入要素类。在使用带有选择内容的图层时,分析只会包括所选的要素。,.,60,2.4.5中位数中心,中位数中心工具是一种对异常值反应较为稳健的中心趋势的量度。该工具可标识数据集中到其他所有要素的行程最小的位置点。中位数中心工具可指定权重字段。您可将权重视为与每个要素关联的行程个数(例如,如果要素的权重为3.2,则行程数将为3.2)。加权中位数中心是所有行程的距离之和最小的位置点。,.,61,2.4.5中位数中心,用于计算中位数中心的方法是一个迭代过程,由Kuhn和Kuenne(1962)提出,之后在Burt和Barber(1996)中进一步概括。在算法的每个步骤(t)中,都会找到一个候选“中位数中心”(Xt,Yt),然后对其进行优化,直到其表示的位置距数据集中的所有要素(或所有加权要素)(i)的“欧式距离”d最小。,.,62,2.4.5中位数中心,平均中心和中位数中心均是中心趋势度量。但是,中位数中心工具的算法受数据异常值的影响较小。中位数中心要素的x值和y值是输出要素类中的属性。这些值存储在XCOORD和YCOORD字段中。案例分组字段用于将要素进行分组以独立计算中位数的中心。当指定了“案例分组字段”时,会首先根据案例分组字段值对输入要素进行分组,然后计算每个组的中位数中心。案例分组字段可以为整型、日期型或字符串型,并将以属性形式显示在输出要素类中。将对“属性字段”参数中指定的所有字段计算数据中位数。地图图层可用于定义输入要素类。在使用带有选择内容的图层时,分析只会包括所选的要素。,.,63,2.4.6标准距离,度量分布的紧密度可以提供一个表示要素相对于中心的分散程度的值。该值表示距离,因此,可通过绘制一个半径等于标准距离值的圆在地图上体现一组要素的紧密度。标准距离工具用于创建圆面。,.,64,2.4.6标准距离,.,65,2.4.6标准距离,标准距离工具可为每个案例创建包含以平均值为中心的圆面的新要素类。绘制每个圆面时使用的半径均等于标准距离。每个圆面的属性值即为其标准距离值。案例分组字段用于在进行分析前将要素分组。如果指定了案例分组字段,会首先根据案例分组字段值对输入要素进行分组,然后再计算每组的标准距离圆。可以根据可选的权重字段进行标准距离计算(例如,获得按工作人员衡量的企业标准距离)。“权重字段”应为数值。如果输入要素的基础空间模式集中于中心且朝向外围的要素较少(一种空间正态分布),则一个标准差圆面约包含聚类中68的要素;两个标准差圆约包含聚类中95的要素;三个标准差约包含聚类中99的要素。地图图层可用于定义输入要素类。在使用带有选择内容的图层时,分析只会包括所选的要素。,.,66,2.5“空间关系建模”工具集,.,67,2.5.1生成网络空间权重,创建网络空间权重工具可查找网络上的每一个点,并可以距离或时间为单位量化所有其他要素之间的邻域。任何两个要素的所得到的邻域求解结果还会考虑障碍和/或限制(例如道路封闭)。这些邻域关系使用稀疏矩阵法存储为小字节二进制格式。,.,68,2.5.1生成网络空间权重,此工具的输出是空间权重矩阵文件(.swm)。需要指定空间关系的概念化选项的工具将接受空间权重矩阵文件;为空间关系的概念化参数选择GET_SPATIAL_WEIGHTS_FROM_FILE,并且为权重矩阵文件参数指定使用此工具创建的空间权重文件的完整路径名。此工具的设计初衷是仅用来处理输入要素类点数据。,.,69,2.5.2生成空间权重矩阵,空间权重矩阵是数据空间结构的一种表现形式。它是对数据集要素之间存在的空间关系的一种量化。通过创建权重来量化数据要素之间的关系的策略有两种:二进制或可变权重。对于二进制策略(固定距离、K最近邻域或邻接),要素或者是邻域(1),或者不是(0)。对于权重策略(反距离或无差别的区域),邻近要素有不同量级的作用(或影响),并通过计算权重来反映该变化。,.,70,2.5.2生成空间权重矩阵,此工具会报告所生成的空间权重矩阵文件的特征:要素数量、连通性以及最小相邻要素数、最大相邻要素数和平均相邻要素数。在使用基于距离的“空间关系概念化”时,数据应采用投影坐标系(而不是地理坐标系)。唯一ID字段与运行此工具后所获得的要素关系关联。空间关系的概念化参数的面邻接选项(CONTIGUITY_EDGES_ONLY和CONTIGUITY_EDGES_CORNERS)仅对面要素有效。相邻要素的数目参数可以覆盖“空间关系反距离或固定距离概念化”的阈值距离参数。如果指定的阈值距离为10英里,相邻要素数目为3,则所有要素都至少会接收3个相邻要素(即使必须增加该阈值才能找到它们)。只有在未达到最小相邻要素数时,才增加距离阈值。,.,71,2.5.3普通最小二乘法(OLS),执行全局“普通最小二乘法(OLS)”线性回归可生成预测,也可为一个因变量针对它与一组解释变量关系建模。,此工具的主要输出为写入结果窗口的OLS汇总报表,还可以选择将此报表与其他图表一起写入您所指定的输出报表文件。,.,72,2.5.3普通最小二乘法(OLS),“OLS回归”工具生成的输出包括以下内容:,.,73,2.5.3普通最小二乘法(OLS),评估模型性能。R平方的倍数和校正R平方值都可以用来测量模型性能。可能值的范围从0.0到1.0。由于“校正R平方”值与数据相关,更能准确地测量出模型性能,能够反映模型的复杂性(变量数),因此“校正R平方”值始终要比“R平方的倍数”值略小。为模型额外添加一个解释变量可能会增大“R平方的倍数”值,但可能会减小“校正的R平方”值。评估模型是否具有显著性。联合F统计量和联合卡方统计量均用于测量整个模型的统计学显著性。只有在Koenker(BP)统计量(见下图)不具有统计学上的显著性时,“联合F统计量”才可信。如果Koenker(BP)统计量具有显著性,应参考“联合卡方统计量”来确定整个模型的显著性。这两种测试的零假设均为模型中的解释变量“不”起作用。对于大小为95%的置信度,p值(概率)小于0.05表示模型具有统计学上的显著性。,.,74,评估模型中的每一个解释变量:系数、概率、稳健概率和方差膨胀因子(VIF)。每个解释变量的系数既反映它与因变量之间关系的强度,也反映它与应变量之间关系的类型。当与系数关联的符号为负号时,该系数与因变量为负关系。当与系数关联的符号为正号时,该系数与因变量为正关系。系数的单位与其关联的解释变量的单位相同。系数反映了相对于与因变量关联的解释变量的每1个单位变化因变量所发生的预期变化,并保持所有其他解释变量不变。使用T测试来评估某个解释变量是否具有统计学上的显著性。零假设是指所有的意图和目的的系数值为零,因此零假设对于模型“没有”帮助。当概率或稳健概率(p值)很小时,系数实际为零的几率也会很小。如果Koenker测试具有统计学上的显著性,应使用稳健概率来评估解释变量的统计学显著性。对于具有统计学上显著性的概率,其旁边带有一个星号(*)。如果理论/常识支持某解释变量(与统计学上显著的系数相关)与因变量的有效关系,关系模型主要为线性模型,且该变量对模型中所有其他解释变量而言不是冗余变量,则该变量对回归模型而言是很重要的。VIF用于测量解释变量中的冗余。一般来说,与大于7.5的VIF值关联的解释变量应逐一从回归模型中移除。,2.5.3普通最小二乘法(OLS),.,75,2.5.3普通最小二乘法(OLS),评估稳定性。Koenker(BP)统计量(Koenker的标准化Breusch-Pagan统计量)是一种测试,用于确定模型的解释变量是否在地理空间和数据空间中都与因变量具有一致的关系。如果模型在地理空间中一致,由解释变量表示的空间进程在研究区域(进程稳定)各位置处的行为也将一致。如果模型在数据空间中一致,则预测值与每个解释变量之间关系的变化不会随解释变量量值(模型没有异方差性)的变化而变化。假设要对犯罪情况进行预测,其中一个解释变量为收入。如果对收入中位值小的位置的预测比对收入中位值大的位置的预测更准确,则模型的异方差性就会出现问题。该测试的零假设为所测试的模型稳定。对于大小为95%的置信度,p值(概率)小于0.05表示模型具有统计学上的显著异方差性和/或不稳定性。如果该测试的结果具有统计学上的显著性,需参考稳健系数标准差和概率来评估每个解释变量的效果。具有统计学上显著不稳定性的回归模型通常很适合进行地理加权回归(GWR)分析。,.,76,2.5.3普通最小二乘法(OLS),评估模型偏差。Jarque-Bera统计量用于指示残差(已观测/已知的因变量值减去预测/估计值)是否呈正态分布。该测试的零假设为残差呈正态分布,因此,如果为这些残差建立直方图,这些残差的分布将与典型钟形曲线或高斯分布相似。当该测试的p值(概率)较小(例如,对于大小为95%的置信度,其值小于0.05)时,回归不会呈正态分布,并指示您的模型有偏差。如果残差还存在统计学上显著的空间自相关,则偏差可能是模型指定错误(该模型的某个关键变量缺失)的结果。从错误指定的OLS模型得到的结果是不可信的。如果尝试构建非线性关系模型、数据的某些异常值存在影响或者存在很强的异方差性也可进行统计学上显著的Jarque-Bera测试。评估残差空间自相关。始终对回归残差运行空间自相关(MoransI)工具可确保回归残差在空间上随机分布。高残差和/或低残差(模型偏高预计值和偏低预计值)在统计学上的显著聚类表明模型(指定错误)中的某个关键变量缺失了。当错误指定了模型时,OLS结果不可信。,.,77,2.5.4地理加权回归(GWR),一种用于建模空间变化关系的线性回归的局部形式。在全局回归模型中(如OLS),当两个或更多变量具有多重共线性时(当存在两个或更多冗余变量或者这些变量共同提供同一“信息”时),结果并不可靠。GWR为数据集中的各要素构建了局部回归方程。如果用于特定解释变量的值出现空间聚类,则很可能存在局部多重共线性问题。,GWR为数据集中的各要素构建了一个独立的方程,用于将落在各目标要素的带宽范围内的要素的因变量和解释变量进行合并。带宽的形状和范围取决于用户输入的核类型、带宽方法、距离以及相邻点的数目等参数,但也存在一些限制:如果相邻要素的数目超过1000,则仅将最相邻的1000个要素合并到各局部方程中。GWR通常被要求用于处理包含数百个要素的数据集,以便获得最佳结果。而不适用于小型数据集。而且,此工具不能用于处理多点数据。,.,78,2.5.4地理加权回归(GWR),严重模型设计错误通常表示存在全局或局部共线性问题。要确定出现问题的位置,使用OLS运行模型,然后检查每个解释变量的VIF值。如果某些VIF值较大(例如,大于7.5),则全局多重共线性会阻止GWR解决问题。但局部多重共线性更有可能出现问题。请尝试为各解释变量创建专题地图。如果在地图上出现相同值的空间聚类,考虑将这些变量从模型中移除,或将这些变量与其他解释变量合并以便加大值的变化性。在构建GWR
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国镁矿砂市场深度调研分析及投资前景研究预测报告
- 2021-2026年中国防撞条市场深度分析及投资战略咨询报告
- 教育技术的未来趋势-虚拟现实在自适应教育中的应用研究
- 企业大厦的智能自控系统在运营中的优化与改进研究
- 头孢曲松钠球晶制备及膜辅助调控研究
- HS公司油轮船员流失及对策研究
- CLIL教学模式对高中生英语阅读认知能力影响的实证研究
- 西安明城墙以内区域语言景观研究
- 大肠杆菌转录因子arcA和iclR对L-异亮氨酸高效合成的调控作用研究
- 双渠道制造商产品差异化与定价决策研究
- 橡胶生产企业设备设施及作业活动风险分级管控清单
- 连带责任担保借条(四篇)
- 2023年计算机图形学试题级考试A卷
- GB/T 42104-2022游乐园安全安全管理体系
- 八年级下册人教版英语单项选择(50题)练习题含答案含答案
- 河北省大众滑雪等级标准(试行)
- GB/T 3863-2008工业氧
- GB/T 31125-2014胶粘带初粘性试验方法环形法
- 班主任班级管理(课堂)课件
- 学院辅导答疑情况记录表
- 31个级地区国家重点监控企业自行监测信息公开平台及污染源监督性监测信息公开网址
评论
0/150
提交评论