




已阅读5页,还剩16页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
学习资料收集于网络,仅供参考王庆喜等的书区域经济研究实用方法:基于ArcGIS、GeoDa和R的运用前两天聊了空间统计学里面的两个经典概念,今天来说说第一篇文章留下的大坑:Morans I。首先,Morans I这个东西,官方叫做:莫兰指数,是澳大利亚统计学家帕特里克阿尔弗雷德皮尔斯莫兰(Patrick Alfred PierceMoran)(好长的名字,不过一般都简称为:帕克莫兰,就是下图这位中年帅哥了),在1950年提出的。这一年,朝鲜战争爆发。莫兰同学1917年出生在澳大利亚的悉尼,后来考入了剑桥大学,第二次世界大战的时候,加入了盟军,并且因为在数学和物理学上面的特长,被安排在剑桥大学的外弹道学实验室(External Ballistics Laboratory)负责火箭的研究工作。战争结束后,任教于牛津大学,并且就在牛津任教期间,提出了关于莫兰指数的问题。另外再加一点点小花絮,莫兰同学终生未获得博士学位,但是据他晚年回忆,他似乎对这个事情一直感到骄傲(自己并非博士,但是带出了无数的博士生)。那么莫兰指数到底是个啥东西呢?莫兰指数一般是用来度量空间相关性的一个重要指标。一般说来,莫兰指数分为全局莫兰指数(GlobalMorans I)和安瑟伦局部莫兰指数(AnselinLocal Morans I)后者是美国亚利桑那州立大学地理与规划学院院长Luc Anselin教授在1995年提出的,后面我们会说到。今天就简单说说全局莫兰指数,也是狭义上的莫兰指数。莫兰指数是一个有理数,经过方差归一化之后,它的值会被归一化到-1.01.0之间。(如果有喜欢看数学公式的,我最后贴出了全局莫兰指数的计算公式,这里是科普性质的,我就不贴数学公式来虐待大家的大脑了。当然,这个归一化是一般的情况,根据某些特殊的情况,也会计算出一些不在这个范围内的值,最后来讨论为什么会超出这个范围。全局莫兰指数计算完成之后,全部的要素,就会给出你一个关于全部数据的相关性的数值(反之,局部莫兰指数,就每个要素都会给你一个相关性数值了,这个以后在说)。所以我们可以根据他给出的值,来看当前你需要计算的数据结果了。Morans I 0表示空间正相关性,其值越大,空间相关性越明显,Morans I 0表示空间负相关性,其值越小,空间差异越大,否则,Morans I = 0,空间呈随机性。这里需要注意一下啊,空间差异和空间异质性是不同的概念。空间差异(spatialdisparity)是指不同地域范畴因为(社会、经济等)发展水平及其结构不同,而产生的差异。而空间异质性(spatialheterogeneity)是指因为空间位置的不同而引发的获取到不同的数据。所以二者切不可混为一谈。最后,我们们来看看,什么叫做正相关,什么叫做负相关。所谓的相关,就是指相互关系,正相关,就是随着自变量的增长,应变量也随着增长,比如虾神的年纪和血压,就是标准的正相关。而负相关当然就是相反了,随着自变量的增长而减少,比如虾神的年纪和体力那么空间上面的正相关,就是指随着空间分布位置(距离)的聚集,相关性就也就越发显著。空间上的负相关就正好相反了,随着空间分布位置的离散,反而相关性变得显著了。像如下我采用中国行政区划计算出来的结果:整个图表可以看出来,人口数和患病的人数,都与空间信息成正相关,就是说,空间分布聚集度大的地方,人口数和患病人数也相应多。但是可以看见的,患病人数,随着时间推移,他的莫兰指数在上升,而人口数随着年份,莫兰指数在下降,这说明了中国人口的数量慢慢的与空间分布的相关性在减弱,而患病人数与空间分布的相关性在增加。当然,莫兰指数只是在衡量空间相关性时候的一个重要指标,并不完全能够代表空间相关性,还需要有其他的数据进行验证和综合考量。下面部分部分仅供不怕死脑细胞的同学参考:(来源于ArcGIS for Destkop的帮助文档)1、全局莫兰指数的公式:2、刚才讨论了,莫兰指数一般是在-11之间,那么有时候突然算出来超出这个区间的数据,是怎么回事呢?是不是软件出了bug?答案是和软件bug无关。通常,Global Morans I 指数介于 -1.0 到 1.0 之间。是只有对我们权重进行了行标准化(行标准化的意思,就是在做空间距离矩阵的时候,对矩阵中的每一行,求和后,每个元素除以所在行元素之和这种标准化操作)时才会这样。如果没有对权重进行行标准化处理,则指数值可能会落在-1.0 到 1.0 的范围之外,这表示参数设置有问题。最常见的问题如下:1. 输入的数据严重偏斜(创建数据值的直方图可了解此情况),空间关系的概念化或距离范围的设置使得某些要素的相邻要素非常少。Global Morans I 统计量是渐进正态的,这意味着,对于偏斜数据,每个要素至少需要具有 8 个相邻要素。为距离范围或距离阈值参数计算的默认值可确保每个要素至少具有 1 个相邻要素,但这可能不够,尤其是在输入数据中的有的值出现严重偏斜时。2. 使用反距离空间关系的概念化,并且反距离非常小。关于反距离过小的问题,是因为在选择反距离的幂的时候,为了突出拉伸,选择了一个过高的幂,这样就会把反距离(距离的倒数)变得非常的小。看下面关于反距离中幂的说明: 3.未选择行标准化,但应选择。除非聚合方案与所分析的字段直接相关,否则,只要对数据进行了聚合处理,就应选择行标准化。 好,关于全局莫兰值的介绍今天先到这里,下次我们来看看在ArcGIS里面如何使用这个工具来进行计算。白话空间统计番外:再谈莫兰指数(Morans I)原创2016年03月15日 14:38:03 标签: ArcGIS/ 空间统计/ Globe Morans I/ 全局空间自相关/ 莫兰指数 17328以前写文章的时候,有些过于草率,本来以为作为科普,把这个名词告诉大家就可以了,结果应该是这个东西国内的科普性文章太少,很多同学都拿来做入门读物了,而且还多次阅读,读着读着,就发现,虾神你文章里面好多坑啊该说的没有说清楚,关键还有很多说错的地方每次遇见这种情况,我都想这样:不过装死是不能解决问题的正所谓“教然后知不足”,这段时间以来很多同学跟我讨论了关于空间统计的一些内容,让我很受启发和教育,所以我决定把一起的一些漏洞和坑给补上。今天再来谈谈莫兰指数这个空间统计的入门概念。还有同学问过,说虾神你能不能说说在ArcGIS里面怎么用这个工具啊。遇见这个问题的时候,虾神首先表示:不过既然同学们有要求,那就写写呗。人类天然有归纳的习惯,比如看见一堆东西之后,会用很简单的一个字(词、句)来统合表达对整体的一个印象,比如:我们会说:“帅”!或者“酷”!或者“威武”!又另外:对于三哥的阅兵。米帝大统领也给出了一个字评语:赞所以,对于一票数据,我们首先也会给出一个综合性的评论。比如“这数据真尼玛的乱”。当然,这种评论更多是“定性”的,对于科学观测法来说,我们要给出一个量化的评定标准,所以就有了各种指数。那么这个所谓的莫兰指数,就是用来衡量空间自相关的程度的一个综合性评价特指全局莫兰指数。关于空间自相关,我以前也写过一篇文章,大家有兴趣就去翻历史文章吧,这里仅作简单的回顾。其实空间自相关要是把空间两个字去掉,就是经典统计学里面的相关性分析,加上空间之后,就变成了空间与属性共同作用的相关性分析了。自相关的这个“自”,表示你进行相关性观察统计量,是来源于不同对象的同一个属性,比如两学生(不同对象),同时对他们的数学成绩(统一属性)进行统计,如果他们同桌(空间邻接),而且A考得好B就考得好,A考不好B也考不好(高端相关),那么基本上就可以判定他们他们的空间自相关性很强有考试串通作弊的行为。如下图所示:所以我们可以看见,如果排除空间关系,A猫和B猫,以及情况2得A猫和X猫,都是相关的,特别是情况2,A猫和X猫简直是完全相关。但是加上空间关系之后,情况2计算出来的A猫和X猫,可能就是完全不相关了,最最关键得是定义他们的空间关系,这个远隔万水千山,也顶不住现代化通信工具啊这里排除这种情况,仅仅用常规意义上的空间邻接关系来定义。所以说,经典相关性分析是两条数据(属性维度)之间的相互依赖关系,那么空间自相关就是在空间范围内的相互依赖程度。全局的莫兰指数就是用来衡量空间自相关程度的。在ArcGIS的工具集里面,这个工具干脆就直接叫做“空间自相关”(Spatial Autocorrelation (Global Morans I) )。使用这个工具,首先来看一份数据,美国俄怀明州有关肺癌的一份统计数据,分别选取是68年、78年、88年三个年度的男性肺癌的记录进行可视化,(以下数据可以提供下载,见文章最后):从整体的情况来看,数据量是在不断上升的,当然,人口在增长,病患的数据也相应增长,是合乎情理的事情。那么接下,我们可以来计算一下空间自相关,空间自相关解释什么东西呢?解释的是,这些病患的数据,是否与空间分布又关系?也就是说,一个县本身的肺癌病患数量,是否与他周边的县的肺癌病患数量有关?这种判定,需要同时从空间上和属性上来判定。全局莫兰指数是一个在-11之间的数,如下所示:当然,解读的时候,还需要有P值和Z得分来判定,P值和Z得分的相关内容,也请看以前写过的博客。在ArcGIS中,工具在如下位置:Spatial Statistics Tools Analyzing Patterns Spatial Autocorrelation(Morans I)打开之后,相关参数说明如下:这里空间关系概念化我选择了CONTIGUITY_EDGES_CORNERS,也就是所谓的Queens Case,共边共点都被视为邻接要素。这个参数的选择非常重要,一定要注意选择。然后计算如下,如果不勾选生成图形结果报告,直接会弹出以下计算结果:很容易看出:P值大于0.05的95%置信度,而且Z得分也没有过1.65这个临界值,也就说这个数据偏向于随机了剩下的结果基本上不用读,解读的方法,请大家看以前写P值和Z得分。当然,如果你勾选了生成图形结果报告,还会生成一个html的页面,如下:这个报告就直接告诉,你的Z得分没有过临界值,所以数据显著的表现出了随机模式我们依次把78年、88年的数据都计算完成,计算结果如下:1978年:1988年:生成的图形报告如下:1978的数据刚刚跨过了1.65的临界值,所以系统告诉我们,这份数据仅有小于10%的可能是随机创建的;而1988年,Z得分是2.14,这份数据仅有小于5%是随机的可能,如果按照费希尔爵士对于拒绝零假设设定的阈值来看,只有1988年的数据拒绝了零假设,有显著的聚类和空间正相关的可能性。这可能性大于95%。通过以上分析,最后我们就可以编写分析报告了,数据分析人员很喜欢找一些自以为是的理由,这是一个很不好的习惯,虾神的个人建议是,如果写分析报告,最好就直接进行现象描述:数据说明:美国俄怀明州男子肺癌数据全局空间自相关计算结果。1968年,数据分布出现显著的随机分布特性,无法拒绝零假设,无分析价值。1978年,数据分布仅有小于10%的可能是随机分布的,出现数据聚集的可能性大于随机分布的可能性
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 储备库信息安全与数据保护方案
- 2025湖南郴州市安仁县城区学校(含县三中)选聘教师202人考试参考试题及答案解析
- 2025重庆渝湘复线高速公路有限公司社会招聘46人备考练习题库及答案解析
- 围挡工程施工合同-围挡施工2篇
- 2025重庆市南岸区天文街道公益性岗位招聘备考练习题库及答案解析
- 瑞昌市2025年选调农村中小学教师进城任教【94人】备考练习试题及答案解析
- 中考试卷数学及答案
- 北师大(2024)一上核心素养作业设计4.5 小鸡吃食(含解析)
- 2025网络工程师真题及答案
- 福建省城市道路照明节能改造项目合同能源管理合同3篇
- 运动营养学概述
- 04S520 埋地塑料排水管道施工
- 浙教版数学七年级上册全册优质课件
- 220kV××输电线路工程预算实例
- 空间向量及其线性运算课件 高二上学期数学人教A版(2019)选择性必修第一册
- 俄罗斯历史与文化课件
- 金矿汇报实用教案课件
- 个案分析-万科四季花城
- 年轻人群酒水消费洞察报告
- 社会化媒体全套教学课件
- 幼儿园绘本:《你真好》 PPT课件
评论
0/150
提交评论