基于R语言的地理国情监测空间点模式软件的实现_第1页
基于R语言的地理国情监测空间点模式软件的实现_第2页
基于R语言的地理国情监测空间点模式软件的实现_第3页
基于R语言的地理国情监测空间点模式软件的实现_第4页
基于R语言的地理国情监测空间点模式软件的实现_第5页
已阅读5页,还剩46页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要在地理国情监测工作中,其任务可以概括为三个主要方面:自然与人文地理要素信息的动态获取、综合分析与评估、产品生产与发布。其中综合分析与评估是在地理要素监测时空数据库的基础上,综合运用空间统计分析、探测性空间分析、时空数据挖掘与知识发现技术,对地理要素的数据与质量统计特征、时空分布模式、发扎趋势与演变规律等进行的地理国情时空特征的综合分析、时空变化的评估与趋势预测。目前,地理国情监测正处于普查阶段,除了做好基本的普查工作之外,还要在如黑龙江、浙江、海南等地开展试点研究,完成地理国情监测的主要任务,而依据空间统计学理论,构建相应的技术平台对试验区的地理要素信息进行综合分析与评估则是工作的重点内容之一。本文介绍了空间统计学的理论与方法,其中重点介绍了空间点模式的基础理论。然后基于R语言编写了空间点模式式软件,最后以浙江省德清县的居民点数据为例,使用空间点模式软件的各功能模块来进行具体分析,得到相应的结论。具体的研究内容如下:.绪论。阐述了论文的研究意义,空间统计学的历史与现状。本文的意义在于将空间统计学尤其是空间点模式理论引入地理国情监测的综合分析与评估中,基于R语言编写空间点模式软件,然后对具体符合点模式内在假设的地理数据进行分析。.空间点模式理论。介绍了产生空间点模式的各种应用背景,以及围绕点模式的分析目标,如密度、相互作用、协变量效应等,发展相应的建模及推断方法。.空间点模式软件的实现。介绍R语言的应用现状及其空间统计学相关的贡献包。然后基于空间点模式的理论,使用tcltk包与上述与空间统计学相关的贡献包,编写空间统计平台的图形化用户界面,即建立空间点模式软件。.在地理国情监测中的应用。以地理国情普查采集到的浙江省德清县居民点数据为例,提出了问题的分析目标,利用已编写的空间点模式软件进行了具体的分析,最后得出相应的结论。关键词:空间统计学;空间点模式;地统计学;面状数据;R语言AbstractIngeographicalconditionsmonitoringwork,thetaskcanbesummarizedasthreemainaspects:thenatureandhumangeographyelementdynamicacquisition,comprehensiveanalysisandevaluationofinformation,products,productionandrelease.Comprehensiveanalysisandevaluationofthemonthebasisofgeographicfactormonitoringspatio-temporaldatabase,integrateduseofspatialstatisticalanalysis,exploratoryspatialanalysis,spatio-temporaldataminingandknowledgediscoverytechnology,thegeographicelementsofthequalityofdataandstatisticalcharacteristic,space-timedistributionpatternandhairtrendsandevolutionlawofgeographicalconditionsofthespace-timecharacteristicsofspatialandtemporalvariationofcomprehensiveanalysis,evaluationandtrendprediction.Atpresent,thegeographicconditionsmonitoringisatthecensusstage,besidescompletesthebasiccensuswork,butalsoinsuchasHeilongjiang,Zhejiang,Hainanandotherplacestocarryoutthepilotstudy,completegeographicalconditionsofmonitoring,themaintaskoftheandonthebasisofspatialstatisticaltheory,thecorrespondingtechnologyplatformwasconstructedtotestthegeographicelementsofinformationcomprehensiveanalysisandevaluationisoneoftheimportantcontentofwork.Spatialstatisticaltheoriesandmethodshasbeenintroducedinthispaper,whichmainlyintroducesthebasictheoryofspatialpointpattern.ThenbasedonthespatialpointpatternRlanguagetowritethesoftware,finalsettlementdataofdeqingcountyinzhejiangprovinceasanexample,usingspatialpointpatterneachfunctionmoduleofsoftwaretomakeaconcreteanalysis,getthecorrespondingconclusions.Specificresearchcontentsareasfollows:Introduction.Elaboratedthepaperresearchsignificance,thehistoryandpresentsituationofspatialstatistics.Thesignificanceofthispaperistostatisticsespeciallyspatialpointpatterntheoryisintroducedintothespacegeographicalconditionsmonitoringandcomprehensiveanalysisandassessment,basedonthespatialpointpatternRlanguagesoftware,thentheconcreteconformstotheintrinsicpointmodelassumesgeographicdataforanalysis.Thetheoryofspatialpointpattern.Introducedtheapplicationofspatialpointpatternbackground,targetsinandaroundthepointpatternanalysis,suchasdensity,interactionandcovariateeffect,thedevelopmentofthecorrespondingmodelingandinferencemethod.Thespatialpointpatternsoftwareimplementation.IntroducesthestatusoftheRlanguageandspatialstatisticsrelatedtothecontribution.Basedonspatialpointpatterntheory,thenuseTCLTKpackagewiththeabovecontributionsassociatedwithspatialstatistics,writingspacestatisticsplatformgraphicaluserinterface,namely,toestablishspatialpointpatternsoftware.Intheapplicationofgeographicconditionsmonitoring.Deqingcountyofzhejiangprovincewerecollectedtogeographicalstateofthecensusdataofresidentialareaasanexample,putsforwardtheproblemsofanalysis,usingthespatialpointpatternsoftwarehasbeenwrittenontheconcreteanalysis,thecorrespondingconclusions.Keywords:SpatialStatisticas;SpatialPointPattern;Geostatistics;AreaData;RLanguage目录TOC\o"1-5"\h\z摘要IAbstractI1绪论6研究背景与意义6空间统计学的历史与现状7本文的研究内容与章节安排15研究内容15技术路线152空间点模式理论17探索密度18密度18密度对某个协变量的依赖20泊松模型20完全随机过程检验20密度对协变量依赖的检验21泊松过程的极大似然估计21拟合泊松过程22验证拟合的泊松模型22点之间的相互作用23距离方法23非泊松过程的简单模型25使用概括统计量拟合聚类模型26异质性引入27局部特征探索28吉布斯模型28吉布斯模型28拟合吉布斯模型33验证拟合的吉布斯模型33连续变化现象34离散变化现象错误!未定义书签。3空间点模式软件的实现37R语言及与空间统计相关的贡献包37R语言37与空间统计相关的贡献包38空间统计试验平台的实现40Tcl/tk40平台功能模块实现404在地理国情监测中的应用43数据来源43问题44探索性数据分析45密度45密度对协变量的依赖46点之间的相互作用48模型拟合48拟合泊松模型48诊断泊松模型51拟合吉布斯模型52模型诊断53结论545总结与展望55总结55展望55参考文献58致谢错误!未定义书签。附录A附录内容名称错误!未定义书签。

作者简历学位论文原创性声明错误!未定义书签错误!未定义书签错误!未定义书签错误!未定义书签错误!未定义书签1绪论研究背景与意义国情是指一个国家的社会经济发展状况、自然地理环境、文化历史传统以及国际关系等各个方面情况的总和,也是指某一个国家某个时期的基本情况,是国家制定发展战略和发展政策的依据,也是国家执行发展战略和发展政策的客观基础。地理国情是以地表自然和人文地理要素的空间分布、特征及其相互关系为主要内容、与国家经济社会发展密切相关的基本情况,是基本国情的重要组成部分。地理国情监测,就是综合利用全球导航卫星系统(GNSS)、航空航天遥感技术(RS)、地理信息系统技术(GIS)等现代测绘地理信息技术,利用各时期测绘成果档案,对自然、人文等地理要素进行动态和定量化、空间化的监测,并统计分析其变化量、变化频率、分布特征、地域差异、变化趋势等,形成反映各类资源、环境、生态、经济要素的空间分布及其发展变化规律的监测数据、图件和研究报告等,从地理空间的角度客观、综合展示国情国力。当今,经济全球化、贸易自由化不断发展,气候变化以及能源资源安全、粮食安全、公共安全等全球性问题更加突出,地理国情监测已成为动态掌握自然资源分布和生态环境变化、促进社会可持续发展以及科学决策的重要手段。世界主要发达国家纷纷将地理国情监测工作列为推进国家可持续发展的战略举措。美国测绘部门从2002年开始实施地理信息动态监测和分析规划(GAM)等项目,利用数字地形图、卫星影像及其他遥感数据,结合计算机建模和野外调查等技术手段,开展全美和全球重点地区的以地表覆盖、地表变化过程的分析与模拟为主要内容的地理国情监测,并积极筹备构建全球高分辨率和世界主要城市更高分辨率的地表覆盖数据库,为生态环境保护、灾害预防、气候变化研究、经济可持续发展等提供基础数据和决策支持。GAM已成为美国最为重要的战略性规划之一。同时,欧盟、加拿大、日本等国家和地区也开展了类似的地理国情监测工作。我国人多地少、资源短缺等问题异常突出。目前,我国正处在工业化、城镇化快速发展时期,地表自然和人文地理信息变化快速。多年来,受技术水平及认识局限性的制约,我国一直没有开展全国性、综合性、系统性的地理国情监测工作,造成对地理国情的掌握不全面、不及时、不协调、不一致。因此,在新时期尽快开展地理国情监测工作具有深远意义。在地理国情监测工作中,其任务可以概括为三个主要方面:自然与人文地理要素信息的动态获取、综合分析与评估、产品生产与发布。其中,自然与人文地理要素信息的动态获取主要是利用测绘技术手段对地理要素量测及其动态变化的发现、识别、提取与数据更新,形成地理要素监测时空数据库。综合分析与评估是在地理要素监测时空数据库的基础上,综合运用空间统计分析、探测性空间分析、时空数据挖掘与知识发现技术,对地理要素的数据与质量统计特征、时空分布模式、发扎趋势与演变规律等进行的地理国情时空特征的综合分析、时空变化的评估与趋势预测。产品生产与发布时面向国民经济与社会发展、重大工程与突发事件应急决策和国民地理国情教育等不同服务对象,设计的不同类型的权威、标准的地理国情信息产品,并通过新闻媒体、互联网等媒介进行产品发布,包括统计数据、图表、地图、影像、视屏动画、语音、文字报告等基本形式。从过程上来看,这三方面的任务不是按照顺序依次推进的,而在反复迭代中完成的,这种迭代可以在任意两个任务之间进行。例如,在获取局部区域的自然或人文地理要素信息之后,即可建立区域性地理要素监测时空数据库,然后进行利用空间统计分析等技术对其进行研究,在研究的过程中,可以根据实时的分析要求来继续获取地理要素信息。国务院于3月5日下发文件,决定与2013年至2015年开展第一次全国地理国情普查工作。地理国情普查是一项重大的国情国力调查,是全面获取地理国情信息的重要手段,是掌握地表自然、生态以及人类活动基本情况的基础性工作。普查的目的是查清我国自然和人文地理要素的现状和空间分布情况,为开展常态化地理国情监测奠定基础,满足经济社会发展和生态文明建设的需要,提高地理国情信息对政府、企业和公众的服务能力。在地理国情普查工作中,除了做好基本的普查工作之外,还要在如黑龙江、浙江、海南等地开展试点研究,完成地理国情监测的主要任务,而依据空间统计学理论,构建相应的技术平台对试验区的地理要素信息进行综合分析与评估则是工作的重点内容之一。空间统计学的历史与现状统计模型试图赋予数据更多的涵义,即使这样做有些不完美。设计、推断和诊断是与数据模型共生的自然结果,并且在统计学中起到重要作用。空间统计学,顾名思义,就是采用统计的方法描述和解释空间数据的性质以及数据对于统计模型是否典型或所期望。它的最基本特征就是:其所关注的或是现象的空间位置本身或是包含现象空间位置的随机模型。作为统计学的分支之一,空间统计学有着一段不寻常的历史。在数学领域中,概率学家推动着随机过程理论的发展,而随机过程是构成空间统计学许多内容的主要基础。反之,在早期其中许多统计方法都各自独立地发展着。事实上,这些统计方法的出现主要还是源于不同的应用领域,例如在采矿工程中,Matheron和他的同事们发展了地统计学;Fisher在农田试验中,采用随机化和斑块化的方法处理了空间相关性;在林业中,Matern在他的博士论文中详细研究了该领域的统计方法。因此,许多年后空间统计学仍然处于主流统计学的边缘。然而,过去的20年见证了对空问和时空问题的爆炸式的关注,这是由廉价的、高速度的计算得以不断地投入使用所推动的,而这种投入使用使得收集大的空间和时空数据集成为可能,也促进了能够生动显示数据的GIS软件的广泛传播,并增强了研究极具挑战的、更加实用的模型的能力。在这个过程中,与正规课程一样,书刊、会议和研讨会也不断开展,空间统计学已被引入主流的统计学研究之中。此外,自20世纪50年代以来,虽然对其系统的理论研究一直在进行,但可以很肯定地说,空间统计学已从一个有些专业的领域发展成一个更受模型驱动的领域。虽然整个邻域仍然在发展变化,但已经走向了成熟[13]0一般来说,空间统计学包含三个部分的内容:(1)空间点模式;(2)连续空间变化,即点参考数据;(3)离散空间变化,包括格单元数据和面单元数据。这遵循了NoelCressie's(1993)划分[14]。由于空间统计学的发展不是源于对数学研究的驱动,而是来自大量应用领域的需求,包括天文、农业、生态和采矿等。下面分别从这四个领域介绍空间统计学的起源。在空间统计学中,可能最早的例子是几何概率问题。布冯投针是这类问题中最有名的。假设一个长度为x的针被随机地投掷到标记有两条平行线的桌上,这两条平行线的间距为d,并且d>x。那么针与任意一条平行线相交的概率是多少呢?为了解决这个问题,首先要明确“随机”的含义。在该问题中,随机包含两个含义:一是针的中心点到其最近平行线的距离服从(0,d/2)的均匀分布;二是针与平行线所成的锐角服从(0,兀/2)的均匀分布。然而,这个定义的第一部分没有回答一个稍微敏感的问题:如果针被投掷到桌子边缘附近会发生什么样的情况呢?而什么才是我们随机地投掷针到桌上的物理意义呢?这个问题的数学解决方法就在点过程理论中。空问点过程首次出现是在物理学和天文学中,在1858年泊松过程被引入,那时RudolfClausius为了证明热力学的新分子理论,计算了大量气体中一个分子的平均自由移动路径,从中导出了泊松过程的性质。随后在天文中泊松过程被当作标准随机过程模型,与之相比较,运用显著性检验,将泊松过程看作原假设,可以得到许多天文数据的经验性质。现在,泊松过程仍然是判断空间点过程呈现规则或是不规则的标准界限。Hertz得出了在三维泊松过程的任意一点到其最邻近的其它点之间距离的概率分布,比较最邻近距离的理论分布与观测值分布可以检验观测模式是否与泊松过程模型相一致[16]0而这一方法直到许多年之后才被应用到生态学中[17][18]0其它早期工作考虑了由特定数量点构成的几何图像,在1859年到1960年之间,SimonNewcomb在刚刚创立的《MathematicalMonthly»期刊中撰写了一系列关于这方面的文章。例如,假设星星在天空中是随机分布的,即服从泊松过程,那么计算六颗星位于一个已知的正方形的概率[19]。对于这类几何概率问题的研究最终发展成为随机几何理论[20][21]。毫无疑问,齐次泊松过程不久就被应用到空间点模式中。然而还有两种最为广泛的泊松过程没能捕捉到的现象,一种是空间点呈现局部聚集的现象,另一种是空间规则的现象,在这种现象中,“点”通常是有限大小的非重叠实体的抽象,例如是生态组织中的单元或林业中的树木。最早尝试对空间聚类现象建立模型的是Neyman,他想用这个模型描述由泊松过程产生的昆虫卵子孵出昆虫幼体的分布模式[22]。再一次受到天文学的驱动,Neyman和Scott重新在三维空间中修改了这个模型,给出了能够描述以随机分布点作为母体所产生的空间聚类子体模式的真实模型[23]oRipleyandKelly在他们对马尔可夫过程的定义中加入了这种模型构造,由此产生最为广泛应用的模型可以用来描述空间规则的点模式[24]0在农业方面,空间依赖性问题在R.A.Fisher'研究关于农田试验数据的基于设计推断方法的开创性工作中已初见端倪[25],当时他在英格兰赫特福德的洛桑试验站工作。从1919年到1933年,他受聘于赫特福德大学,花费了毕生的精力致力于研究关于农田数据的一整套方法论。在农田试验中,首先将矩形试验区域划分成20行25列共500个小矩形单元。每个单元仅播种一粒种子,单元的产量用一个颜色值表示,这样该区域就形成了一幅栅格图像。500个单元中存在的变异性是由微观环境(如土壤肥力、坡度、坡向等)的空间变化所引起。为了处理这种变异性,首先假设它是随机的,即产生如下模型:丫口+Z»i=1,…,20;j=1,…,25(1Z这里亚是整体区域的平均产量,i和j分别代表行列号,Zij是相互独立的、均值Z一,八,为0的扰动项。用现在的方法对公式(1.1)进行推断,需要假设Zij是正态分布,然后运用极大似然估计作为基本推断方法。然而通过观察,Fisher意识到相邻近单Z元有着相似的产量,这样就违背了Zij是相互独立的假设。因此,他放弃基于模型的解决方法,提出采用斑块化作为基本设计原则来处理这种空间变化。将该区域从水平方向上划分成25个斑块,与公式(1.1)相比,更进一步的模型如下:Yj=卜十%十Zij,i=1,...,20;j=1,...,25(12)这里把明的总和限制为0,代表每个斑块的期望产量与整体区域的平均产量之差。公式(1.2)是最原始的空间模型,它假定系统的空间变化仅发生在水平方向上。事实上,在存在空间变化的情况下,斑块化可以看做一种协方差调整的方法,并且在斑块之间是分段连续的。另一种方法是以考虑邻居单元的平均产量为条件的,这种协方差调整的方法由Papadakis提出,结果证明与用于建模离散空间变化的马Y尔可夫随机场模型有着密切的联系[26]。对这种调整的现代解释是:在给定丫j的邻居单元的平均产量Yij的情况下,每个单元的产量丫j的条件分布模型如下:Yj|{Yki:(k,l)-(i,j))-N(1(Yij-l),2)(l.3)公式(1.3)就是马尔可夫随机场的一个特例[27]。当°=0时,公式(1.3)将退化成公式(1.1)。在Besag中SirDavidCox指出了Papadakis调整和马尔可夫随机场之间的联系[28]。后来Barllet详细说明了这种关系[29]。W.F.Gosset(Student)也仔细研究了这个问题中的空间相关性,但他想采用基于模型的解决方法。在1910年10月,给KarlPearson的信中,他写到:“一般地,相关性会随着时间单元或空间单元的增大而减弱,所以我认为如果能解决这个定律TOC\o"1-5"\h\z将会是一件很伟大的事情”[30]。Gosset应用了随机场理论使这种空间相关性“定律”规范化,假定一个平稳的空2\22问连续随机过程S(x),其协方差函数为CoWS(x),S(y)}=仃p(n),这里仙是位置x和y之间的距离。区域A和区域B的随机过程S(•)的空间均值之间的协方差是:[AB)=(A1B)」o2nP(|x-y|)dxdyAB(1.4)这里|•|表示面积,||•||表示距离。Gosset的这种方法表面确实存在一种与物理定律一样的关于空间变化的自然定律。基于同样的观点,FairfieldSmith提出相关性应该根据指数定律减弱[31],Whittle进一步研究了他的方法[32]oMcCullagh和Clifford回顾了近年来关于农田试验的随机建模方面的文献[33],其中重要的贡献包括:Wilkinson等[34],Besag和Kempton[35],Besag和Higdon[36]。与寻找一个普遍的定律,如公式(1.4)相比,一种更加现实的做法是发展一类能在诸多科学背景下捕捉空间变化的经验行为的理论模型。基于这样一个观点,假设空问现象可以被建模成空间高斯过程,即S(x),它的均值可以是一个合适的线性模型。然后需要指定任意两个位置x与x'上的S(x)与S(x)之间的协方差。为了简化问题,2假设该过程空间平稳,则协方差由一个标量参数。=Var{S(x)}和一个相关函数吁)=Corr(S(x),S(x'))组成,后者的以是x与x'之间的距离。上述思想在至少两个领域得以独立发展,即林业[37]和采矿工程[38]。在林业方面,BertilMatdn作出了突出的贡献,他的职业生涯的大部分时间是在瑞典皇家学校林业学院(现在是瑞典农业科学大学的一部分)度过的,1960年,他在斯德哥尔摩大学发表的博士论文中,对实值空间连续过程的相关结构,提出了以他的名字命名的一类模型。他的博士论文是一部出色的著作,在50多年后的今天仍然具有重大影响,被广泛引用。在六十年代后期,Matdn去伦敦做了一系列演讲,随后他的博士论文开始在英国新兴的空间统计学术团体中广泛传播。Matdn相关函数具有如下形式:(1.5):(」)={2a()}T(」/).(」/)(1.5)这里的.是尺度参数,时式)是父阶改进的贝塞尔函数。这类模型最具吸引力之一就是K的整数部分确定了随机过程的均平方可微性,但在小数据集中K很难被确定。另一方面,由于K在确定空间随机过程的平滑性有具体的解释,这将有助于确定它的选择或者在贝叶斯中选择有益的先验分布。Guttorp和Gneiting从学术角度解释了参数族(1.5)的多种起源和诸多应用领域[40]。Stein在《空间数据插值》一书的实用建议里,直截了当地说“请用Matdn模型”[41]。虽然有人觉得这种选择有些模糊,但Matern相关函数参数族在许多地统计应用中已成为首先。Matdn的博士论文也对空间点过程、随机集理论和空间采样理论作出了重要贡献。在空间点过程中,他仔细研究了能包含点过程中任意两点之间最短距离的模型,在这方面,他提出了现在被称为马尔可夫点过程的理论。在随机集理论方面,Matern也给出了许多模型实例。最后,论文也对空间采样方案的有效性进行了广泛的讨论,研究表明:在估计空间均值过程中,系统采样要优于随机采样。在采矿工程方面,D.G.Krige是一位非常具有影响力的人物,他在南非的金山大学担任教授,在他的文章中,提出在矿产勘探中使用统计方法。在Krige的研究工作基础之上,法国枫丹白露高等矿业学院的GeorgesMath<!ron和他的同事们将其发展成为空间统计学的分支之一一地统计学[42][43][44]。为了纪念Krige的杰出贡献,以他的名字命名该领域的空间预测方法。可以说,地统计学虽然起源于南非的采矿工业,但在法国枫丹白露高等矿业学院才发展成为一门独立的用于空间预测的方法论。有一段时期,枫丹白露大学的研究工作与主流的空间统计学没有任何关系。Watson指出了枫丹白露大学研究的地统计方法与更加理论化的随机过程预测之间的密切联系[45]。Ripley采用随机过程预测的理论,简洁但完整地导出了Kringing方法,从而进一步地证明了这种关联[46]。从上述内容可以看出,对连续空间变化现象的研究是怎样从最初一些毫无联系的工作中逐步走向成熟的。而在空间统计学的发展过程中,后两个分支的系统发展主要归功于上世纪70年代英国皇家统计学会会议上的两篇文章。Besag[46]对分析空间离散或“格”数据提出了许多模型和相关的推断方法[28]0同时,Ripley[47]也提出了针对空间点过程数据的系统的方法。在写本文之际,从谷歌学术上可以看到对两篇文章的引用次数分别为4575次和1527次。非常巧合的是,两篇文章都举例说明了对空间数据的统计建模和统计物理思想之间的联系。在评论Besag的文章时,M.S.Bartlett指出二进制格数据的自回归模型与铁磁体的伊辛模型之间的关系,而在Ripley的文章里,成对相互作用的点过程模型与流体的理想化模型相关[48]。从主流的统计学发展过程来看,首先是独立同分布模型,它假设对于同一现象的观测发生在相同的条件下,并且每次观测与其它观测互不影响。采集到的数据形成了一个随机样本,标准的统计技术可以用来建立统计模型并估计模型的参数。在上个世纪60年代后期,Nelder和Wedderburn[49]把之前分散的相似的回归方法都合并到广义线性回归模型的理论框架中。放宽同分布假设,如果数据存在异质性,要建立异质性数据模型,通常假设统计模型的均值为非常量,可以假设均值是一些解释变量的线性组合。然而即使大尺度变化得到了很好的解释,但还可能存在一些小尺度变化。Cressie在确定重力加速度的实验中,假定实验数据是来自均值为常量,但方差显著不同的统计分布,其中方差依赖于钟摆线的直径和刀刃类型之间的结构。标准的单样本理论不能得以应用,但仍可以基于一个加权的类似t的统计量对常量均值构造置信区问。独立性使很多数理统计理论得以应用,的确是一个非常方便的假设。然而,现实世界中依赖性普遍存在,因此,引入依赖性的统计模型更加符合现实;两类模型包含组内相关结构和序列相关结构。但这还不适用与空间数据,因为在空间数据中依赖性存在于各个方向,并且随着数据点之间距离的增大而减弱,但是这是很自然的经验定律,并且已经被统计学家成功地应用于解释自然和社会现象。在时间序列模型中,观测值通常是等时间间隔采样、相互依赖并且同分布的,而在空间数据中,任意两点的观测值之间都存在依赖性,并且简单地假设产生数据的空间位置是规则的也不合理。因此,空间模型需要比时序模型更加灵活。在处理空间数据中依赖性时,可以比较两种策略。或是对与独立性的偏离进行建模,或是编写统计程序能对这种偏离产生良好的鲁棒性。与Nelder和Wedderburn引入广义线性模型整合独立同分布回归模型相同,在现代统计方法中,分层指定随机效应模型(有时称为隐图形模型)和使用蒙特卡罗方法对这类模型推断能力的发展增强了处理依赖性数据的统计方法。图形模型的核心思想是:通过组合相对简单的局部依赖性,在高维的随机向量中建立复杂的内部相互依赖模式。在分层或隐图形建模中,所关注的随机过程并不能直接观察得到,只能间接地通过现有的随机变量得到,而这些随机变量的分布是在一个基础的、潜在的随机过程上条件指定的。关于这方面,Kalman滤波就是一个早期的非空间的实例[50]。现代空间统计学在疾病绘图[51]和图像重建等许多领域应用这类模型[52]。止匕外,由不同的应用领域需求的推动,现代空间统计学的内容除了包含上述三个部分之外,还发展了很多主题。近年来,在空间数据中,对分析多元观测值的需求不断增长。这类数据的依赖性不仅包括传统的位置之间空间依赖性,而且也有同一位置上的观测值之间的依赖性。例如在环境监测站中,需要观测不同的污染物(如,臭氧、PM2.5、含氮氧化物、一氧化氮等)。大气模型中,在给定地点,可以观测到温度、降雨量和风速等。在调查房地产市场时,对于给定地点的一个个体,可以收集到销售价格和全部租金收入。在多元空间过程建模的方法中,可以对传统的克里格方法进行扩展得到协同克里格,然后采用交叉方差图或交叉协方差函数进行推断。也可以采用移动平均法(也称为核卷积法),这种方法能够将平稳和非平稳空间过程细化很多的类型[53]0空间不一致和多尺度下的统计推断是空间统计,甚至空间分析长期关注的问题之一。通过处理空间不一致,可以在一个与最初采集数据时的尺度不同的尺度下分析空间数据。更加一般的问题是,随着空间数据图层的不断增加,这些图层的综合已经是空间数据分析的前沿问题。例如某个变量最初是在人口普查区上的尺度上获得的,现在想要分析得到它在县级尺度上的空间分布。对于面状数据,我们的目标是分析变量在一个新的空间聚集(可变面元问题,即MAUP)尺度上的分布情况,或者我们要将该变量与另一个在特定尺度下存在的变量(如在人口普查区采集的人口数据)关联起来。对于某个空间过程下产生的数据,可以在不同尺度下构建一个平均化的空间过程来建模该数据(变换支撑问题,即COSP)。GotwayandYoung采用传统的方法和贝叶斯方法对MAUP和COSP进行了详细的分析[54]。止匕外,在空间过程所形成的空间表面上,研究空间梯度[55][56][57]和Wombling(以Womble命名)[58]等也是近年来空间统计学中的热点问题。1.3本文的研究内容与章节安排研究内容与空间统计分析相似的概念有出现在不同领域文献中的空间数据操作、空间数据分析、空间分析等。空间数据操作主要出现在GIS中,一般包括缓冲区分析,包含分析,相交分析,叠加分析,距离、面积、路径计算,以及基于空间关系的空间查询等简单的数据分析功能;空间数据分析一般指对空间数据的描述性和探索性分析技术和方法[12];在几个概念中,空间分析的涵义最广,可以作为其它概念的同义词,然而严格地说,从空间分析所使用的技术和方法来看,除包含前两个概念以及空间统计分析之外,最重要的还包括计算方法。本文尽量避免讨论上述概念的内容,而是主要采用统计方法来研究空间问题,因此,研究的主要内容有:.介绍空间统计学的历史与发展现状,主要从不同的应用领域阐述空间统计学各个分支的起源,然后从主流统计学的角度介绍了现代统计学处理依赖性数据的主要方法,最后介绍了近来一些领域新的空间问题需求,以及相应的现代空间统计学处理方法。.阐述空间点模式的基础理论。在点模式分析中,常见的问题有密度、相互作用、协变量效应、不同标记点之间的分离和不同类型点之间的依赖性。重点介绍分析无标记点的基本方法,包括探索密度、泊松模型、点之间的相互作用和吉布斯模型四个重点问题。最后简要介绍了空间连续变化现象和离散变化现象的基本问题和基本分析方法。.介绍R语言的应用现状及其空间统计学相关的贡献包。然后基于空间点模式理论,使用tcltk包与上述与空间统计学相关的贡献包,编写空间点模式的图形化用户界面,即空间点模式软件。.以地理国情普查采集到的浙江省德清县居民点数据为例,通过演示空间点模式软件的各功能模块,从实践角度,进一步阐述这空间点模式的内容,提出问题的分析目标,最后得出相应的结论。技术路线本文的技术路线流程图如下所示

图1.1本文的技术路线流程图2空间点模式理论对空间点模式的研究出现在很多领域,如在生态学中,会关注所研究区域中某个树种的空间分布以及形成这种空间分布的原因。更进一步说,如果两个或更多的树种被记录,会关注这些树种是会均匀分布还是在它们之间会存在竞争关系,还会研究导致每个树种分布在特定区域的因素。在空间流行病学中,最常见的问题就是要确定某种疾病的案例是否呈现聚类模式,这可以通过比较疾病案例的空间分布与随机地从总体中获取的一套疾病控制的空间位置来评估。在地理学中,居民地、交通设施、商业零售点、旅游景点等也呈现点的分布特征,研究这些地理对象的空间分布模式对于城市规划、服务设施布局、商业选址等具有重要意义。一般来说,点过程就是随机过程,在这个随机过程中,我们能观测到给定区域A中一些感兴趣的事件的位置。Diggle将点过程定义为“产生一个可数事件集的随机机制”[59]。之后,Diggle、Moller和Waagepetersen又给出了不同类型点过程和它们性质的合适定义[60]。在给定区域A中,由点过程产生事件的空间位置称为空间点模式。有时,一些协变量会被记录,并且被添加到观测事件的空间位置上。在点模式分析中,最典型的科学问题如下[64]:(1)密度。即单位面积内期望的点的数量。它测度了按点记录事件的“丰富程度”或“频繁程度”。密度可以是常量(“同质”或“齐次”)的,也可以是随位置变化的(“异质”或“非齐次”)。(2)相互作用。内部点的相互作用是指点之间的随机依赖性。通常我们期望点之间的距离越近,这种依赖性越强。按照这种依赖性的大小,可以将点模式分为随机、均匀和聚类三种类型。(3)协变量效应。对于有协变量的点模式数据集,可以研究两类问题:一是探索密度对协变量的依赖性;二是在研究点之间相互作用之前,要对协变量对密度的影响作出解释。(4)不同标记点的分离。在标记点模式中,需要研究不同标记点之间是否是分离的。(5)不同类型点之间的依赖性。在有分类标记的点模式数据集中,不同类型点之间的依赖性的产生可能有两方面的来源:一是类型i点和类型j点的子模式之间的相互作用;二是在两个特定位置上不同标记点的之间的依赖性。对于点过程来说,虽然存在一个高度发展的概率论分支,但相应的统计方法却相对发展缓慢。直到最近,分析点模式的实用技术才在各个应用领域(森林,生态,地质,地理和天文)中起来。主要技术包括[64]:(1)概括统计量:在许多文献中,有专门的方法来估计某个统计量,如从一个点到其最邻近点的平均距离,但几乎没有很强的统计理论来支撑这些方法。(2)对比泊松过程:一般而言,随机空间过程产生的点模式遵循同质泊松过程。在分析中通过和这一基本的空间过程相比较就能评价点过程是均匀的、聚集的或随机的。用来检验过程是否是完全随机过程的方法有很多,包括%2检验、K-S检验、以及蒙特卡罗检验等。当然可用的标准随机过程模型不止泊松过程,还包括非齐次泊松过程、Cox过程、聚类泊松过程,和马尔可夫点过程等。(3)建模:仅仅在最近十年内对点模式建模才成为可能,但在如算法、模型选择和优度拟合等方面还有很多工作要做。本章围绕分析点模式的目标,重点介绍点模式的基础理论,为了保证空间统计理论的完整性,在第2.6和2.7节中简要介绍分析连续变化现象和离散变化现象的基本目标和基本方法。探索密度密度密度是单位面积内期望的点的数量。它测度了按点记录事件的“丰富程度”或“频繁程度”。密度可以是常量(“同质”或“齐次”)的,也可以是随位置变化的(“异质”或“非齐次”)。如果点过程X的密度是齐次的,则在任意二维空间的子区域B中,点的期望数量与区域B的面积成正比,即:E[N(X-B)]:area(B)(2.1)这里,比例常量入就是密度。如果已知点过程是齐次的,则点密度的经验估计是:7_n(x)(2.2)area(W)(2.2)公式(2.2)是真实密度大的无偏估计量

实际上,点过程的密度一般都随着位置变化而变化。假设点u处的面积为du的小区域内点的期望数量为Mu)du,则这里的人(u)是点过程的“密度函数”,对于所有的子区域B满足:E[N(X一B)]=B'(u)du(2.3)更常见的是密度可能会呈现单一集中的情况(如许多地震中心可能集中在一条断层线上),所以将不会存在密度函数。这里可以称为“密度测度”,用人表示。假设点的期望数量是有限的,则对每个子区域BuR2都有:上(B)=E[N(X-B)](2.4)为了检验点过程的密度是否均匀,可以采用如样方计数法和核函数平滑等非参方法估计密度函数或密度测度。在样方计数法中,区域W被划分成若干个相等的子区域(样方)Bl)...,Bmo然后计算落入每个样方的点的数量n=E[n(xcB)](广1,...m),这就是相应密度测度A(Bj)的无偏估计量[65]。密度函数的常用核估计是n〜一一一(2.5)1(u)=e(u)(u-X1)i1(2.5)(2.6)这里的VW就是核(任意的概率密度),而边缘效应的有偏校正是,i」e(u)=.1(u-v)dvW*(2.6)如果九(u)是真实密度函数Mu)的平滑版本,即*.(2.7),(u)=e(u),(u)(u-v),(v)dv(2.7)W显而易见,入(u显而易见,入(u)是的九(u)无偏估计量。选择平滑核父需要平衡偏差和方差[66]2.1.2密度对某个协变量的依赖如果点模式的数据集中含有协变量,则需要探索协变量是否对密度的变化产生影响。样方法和相对密度估计可以用来检查这种关系。在样方计数法中,理论上,样方不必是等面积的矩形,可以是任意形状。如果从实际问题出发选择样方,将更具有意义。可以采用协变量来确定样方,具体可以参见6.1.1小节示例的做法,通过高程和坡度的分级来确定样方。在相对密度估计中,假设点过程的密度是协变量Z的函数,在任意位置u上,用Mu)表示点过程的密度,Z(u)表示协变量。假设如下关系:(u)=:(Z(u))(2.8)这里的P就是待确定的依赖关系。核密度平滑方法可以用来估计函数P,因此这里采用相对分布或相对风险的方法[60][61]。2.2泊松模型2.2.1完全随机过程检验随机点模式的基本标准模型是齐次泊松过程,也称为完全随机过程(CSR)。它的基本性质如下:(1)落在任意子区域B的点的数量N(XcB)都是泊松随机变量;(2)落在任意子区域B的点的期望数量E[N(XcB)]=%area(B);(3)如果Bi和B2是两个不相交的子区域,那么N(XcBJ和N(XcB2)是两个相互独立的随机变量。(4)给定N(XcB)=n,则这n个点是独立的,并且在B中均匀分布。实际上,我们关注的是与CSR偏离的非完全随机过程。有两种方法可检验点过程是否是CSR。首先,对CSR这一空假设的一个经典检验是基于样方计数的i2检验。与第2.1.1小节中的样方计数法一样。设n=n(XcBj)是落入每个样方内点的数量,则72检验统计量为:

2%(nj-n/m)(2.9)X2=-(2.9)n/m这里,m是样方数,n是总点数。公式(2.9)可以解释为样本口的方差和均值之比。样方计数法检验也存在明显的缺陷。它是一个拟合优度检验,其中备择假设Hi仅仅简单地视为对H0的否定,即Hi的含义是“这个过程不是齐次泊松过程”。一个点过程不满足CSR上述性质(1)~(4),可能是因为它存在非均匀密度而不满足(2),或是因为它存在点之间的相互依赖性而不满足(3)和(4),也就是说违背原假设Ho会存在很多种情况。另外,样方计数法检验的结果会受到样方尺寸的影响,当样方尺寸过大或过小时,检验将会失效。Kolmogorov-Smirnov(K-S)检验是一个更加有效的CSR检验[67]。假设在特定窗口内,T(x,y)是定义在所有位置(x,y)的实值函数。然后采用K-S检验来比较T值得经验分布与CSR下T值的预测分布。密度对协变量依赖的检验在第2.1.2小节已经介绍,在样方计数法中,样方可以是任意形状。因此可以根据协变量信息来划分样方,再进行?2检验。K-S检验也可以检验密度对协变量的依赖性,但当协变量是离散变量时,该方法将会无效,只能采用基于样方计数的22检验。泊松过程的极大似然估计假设点模式中的数据点是相互独立的,则可以应用适当的统计方法研究密度。对于密度为人的齐次泊松过程,其对数似然函数是:logL「;x)=n(x)log,area(W)(2.10)这里的n(x)是点模式中数据点的总数。则九的极大似然估计量是:(2.11)n(x)

area(W)(2.11)这个估计量是无偏的,并且var{3=area(W)非齐次泊松过程是对齐次泊松过程的改进时,第2.2.1小节的性质(2)被修改为:E[N(X-B)]=旧(u)du(2.12)性质⑷被修改为:给定N(XcB)=n,则这n个点是独立的同分布的,密度函数是f(u)=Mu)/I,其中I=J(u)du。当齐次过程是非齐次泊松过程时,由于其密度儿虱u)依赖于参数e,则8的对数似然函数为:nlogL(u;x)=>,10g-式为)-W=(u)du(2.13)i1泊松过程对于齐次泊松过程,密度是一个常量;对于非齐次泊松过程,密度函数可以是对数线性,鼎((x,y))=e@也用y,也可以是对数平方,%((x,y))=e&坪母y弋3x2弋四增y2,也可以是依赖于协变量的函数。验证拟合的泊松模型检查拟合模型的方法可以是“正规”的,也可以是“非正规”的。正规的技术是在关于数据详细的统计假设的基础上,然后对结果做出统计说明。可用的技术包括假设检验(72检验,拟合优度检验,蒙特卡罗检验)和贝叶斯模型选择。相比之下,“非正规”技术不强加数据任何假设,并且用人的主观判断来解释产生的结果。例如残差二观测值一拟合值,如果模型被很好拟合,则残差应该是以0为中心的噪声。(1)拟合优度检验:?2拟合优度检验是基于样方计数法的,它可以应用于齐次的或非齐次的泊松模型。在空假设的情况下,样方计数是有着不同均值的独立的泊松变量,并且通过拟合好的模型来估计这些均值。除此之外,上面介绍的Kolmogorov-Smirnov检验也可以检核齐次的或非齐次的泊松模型。(2)使用残差验证:拟合后模型的残差是统计学中一种重要的诊断工具但在空间统计中直到最近才得到广泛应用[62][63[64],[58,pp.49-50],[12])0对于一个密度为比U)的拟合后的泊松模型,落在任意区域B的预测的点数是1p4u)du。因此在B区域B中的残差定义如下:R(B)=n(X-B)-?(u)du(2.14)B这里X是点模式,n(XcB)是落入区域B中的点数。可以绘制残差图和平滑残差图来可视化残差。2.3点之间的相互作用研究点之间相互作用的主要传统技术是距离方法。点模式中两点之间的距离有如下几类:点对距离:点模式中所有不同点对xi和xj之间的距离Sj=||x-Xj||。最近邻距离:每个点xi到其最邻近点之间的距离,即ti=mi、/Sj。真空距离:从一个固定的参考点u到它最近点的距离,即d(u)=mini||u-xi||距离方法(1)真空距离:F:假设点过程是平稳的,则真空距离的累积分布是:F(r)=P{d(u,X)Mr}(2.15)这里的u是任意参考点位置。由于过程是平稳的,那么公式(2.15)不依赖于u。在由位置uj(j=1,…,m)组成的格网上,真空距离的累积分布是:F(r)-e(uj,r){d(uj,x)三r}(2.16)其中e(u,r)是边缘纠正的一种形式。因此F(r)豌无偏的。为了解释估计量f?(r)?勺含义,需要建立泊松过程为标准参考模型。对密度为九?勺齐次泊松过程,设定以一个u为中心r为半径的圆b(u,r),则落入圆b(u,r)的个数满足均值是u〜area(b(u,r))=■二r2?勺泊松分布,因此泊松过程如下:Fpois(r)?1-eY2(2.17)过程的密度采用估计量然n(x)/area(W),当f?(r)>Fpois(r)?寸,说明点模式中的真空距离小于相应的泊松过程,表面该模式是规则的;反之,则表面该模式是聚类的[69]0(2)最邻近距离:G:假设点过程是平稳的,则最邻近距离的累积分布是:G(r)=P{d(u,X{u})<r|uX}(2.18)这里的u是一个任意的点,并且d(u,X{u})是从u到点模式中除u之外点的最短距离。由于过程是平稳的,则()不依赖于u。最近邻距离的经验分布函数是:(?(「)-e(Xj,r)1(ti三r}(2.19)其中e(u,r)是边缘纠正的一种形式。因此F?(r)?!无偏的。对密度为■?勺齐次泊松过程,最邻近距离的分布函数是:r2Gpois(r)?1-e-,(2.20)这与真空距离是相同的,这是因为泊松过程产生的点是相互独立的,因此G等价于F。对于G(r)的解释恰好与f?(r)相反。当(?(r)>Gpois(r)?寸,说明点模式中最近邻点的距离小于相应的泊松过程,表面该模式是聚类的;反之,则表面该模式是规则的[69]0(3)点对距离:K:假设点过程是平1I的,定义'K(「)加到一点u的距离小于r的期望的点数。则K函数有如下形式:

1…(2.21)K(r)=—E[n(X一b(u,r){u})|uX](2.21)对密度为人?勺齐次泊松过程,设定以一个u为中心r为半径的圆b(u,r),则落入圆b(u,r)的点的期望个数是九nr2,因此,有如下形式:(2.22)Kpois(r)?二r2(2.22)K函数有很多形式的估计量K函数有很多形式的估计量其中大多数是点对距离的加权并重新标准化的经验分布函数。一般的形式如下:area(W)iy一Xj"r}e(Xi;Xj;r)(2.23)这里的e(x;Xj;r)是边缘纠正的一种形式。当K?(r)area(W)iy一Xj"r}e(Xi;Xj;r)(2.23)这里的e(x;Xj;r)是边缘纠正的一种形式。当K?(r)?叮2时,表面点模式是聚类的;反之,则点模式是规则的[47](4)J函数:J函数是F和G的组合形式,即:(2.24)对于齐次泊松过程Fpois2Gpois,所以:Jpois(r)?1(2.25)当J(r)多1时,点模式是规则的;当J(r)21时,点模式是聚类的。在使用距离方法时,需要注意的是以齐次泊松过程为前提条件下定义并估计F、G、K和J函数的,并且这些方法不能概括过程的全部特征。如果过程是非平稳的,则不能够根据经验和理论函数(例如应和Kpois)之间的偏离来判断点之间相互作用的类型,因为这种相互作用可能是由变化的密度产生的。2.3.2非泊松过程的简单模型非泊松过程会在点之间表现出“相互作用”或依赖性。(1)泊松聚类过程:泊松聚类过程是这样形成的,首先用泊松过程Y产生“父”点,然后根据某种随机机制,每个“父”点ywY产生一个“子”点集合。这个包含所有“子”点的泊松聚类过程的具体实例有Matern聚类过程、Thomas过程、高斯-泊松过程和Neyman-Scott聚类过程等。(2)Cox过程:当泊松过程的密度函数是随机函数时,则这个相应的过程就是Cox过程。对于2所有位置uuR,令A(u)是一个非负的随机函数,X是以A为为密度函数的泊松过程。则X是Cox过程。Cox模型与随机效应模型类似。与泊松过程相比,Cox过程总是过度散布,即落在某区域点个数的方差大于相应的期望。在聚类点模式中,Cox过程是最方便的模型。其中最实用的模型就是对数-高斯Cox过程(LGCP),其中logA(u)是高斯随机函数。Matern聚类过程和Thomas过程都是Cox过程。(3)稀释过程:“稀释”就是在点模式中删除一些点。当采用“独立稀释”时,每个点的删除独立于其它的点。对一个泊松过程应用“独立稀释”后,得到的过程仍然是泊松过程。如果要得到非泊松过程,则需要使用某种“依赖稀释”的方法。2.3.3使用概括统计量拟合聚类模型概括统计量可以用来拟合点过程模型。通过求解公式(2.26)来估计参数日。(2.26)E「[S(X)]二S(x)

(2.26)这里的s(x)是点模式X的统计量S的观测值,并且公式左边是由参数日确定的模型的统计量s的理论平均值。例如可以通过对比k函数和它的理论值来求出参数e,进而确定点过程的模型。在第2.3.1节中,可以知道能从数据集中精确地求得点过程的K函数。以Thomas过程为例,它的K函数是:22142K_(r)=r-(1-e-)(2.27)这里的参数日=(k*,。)。通过确定参数日=(4匕。)来达到K£r)和待估计K函数的最佳匹配。这种最佳匹配是按照下式(2.28),即在区间[a,b]上,两个函数的最小化离差。bpD(「)=H^P-K式r)q|dr(2.28)a其中,0wa<b,p,q>0是指数。除K函数之外,还可以使用其他如F、G和J等函数确定模型的参数9,进而求出点过程的模型。异质性引入现实中,很多点模式的密度都是非齐次或异质的,因此在分析点模式中要考虑这种异质性。对于非齐次过程,K函数的一种改进版本是非齐次K函数。如果九(U)是点过程X的真实密度函数,则非齐次K函数会每个点Xi添加权重Wi=1/儿(%)。非齐次K函数定义如下:1,、Kinhom(r)=Er--1{0||u-Xj||^r}|uX](2.29)XjX(Xj)如果过程是齐次的,则K(u)是常量并且Kinhom(r)退化为公式()的K函数密度函数为Mu)的非齐次泊松过程,相应的非齐次K函数的理论值是:(2.30)2(2.30)Kinhom,pois(r)一一r这与齐次过程相同

非齐次K函数的估计量是:11{||x-%||三r}(2.31)一一1D2=工?、,i,(x)Kinhom(r)A(2.31)一一1D2=工?、,i,(x)这里的e(u,v,r)是边缘纠正,^u)是密度函数Mu)的估计量。公式(2.30)分母的D可以是研究区的面积D1=area(W),也可以是如果密度被正确估计,则D2是研究区面积的无偏估计。在具体操作中,为了避免过拟合现象发生,通常先用参数模型来获得密度估计量Mu),然后再估计非齐次K函数。局部特征探索探索点模式局部特征的技术包括LISA、最近邻整理法和数据锐化[70]。在LISA方法中,一个概括统计量被分配给每个数据点,例如K函数是每个数据点的局部K函数的总和。通过比较这些局部函数,然后用主成分分析等方法将这些函数分组。最近邻整理法是基于点模式中所有点的最近邻距离,将点分成两类:特征和噪声。这种方法非常快速并且实用。在数据锐化中,所有点之间相互施加吸引力,然后向着合力的方向移动。这种方法得到的每个分类呈现线性形态。2.4吉布斯模型吉布斯模型构建统计模型的一种方法就是写出它的概率密度函数。这样做的好处在于:概率密度函数反映了概率的性质;概率密度函数其中的项或因子可以解释为模型的“元素”;很容易引入能够反映模型对协变量依赖性的项。只要概率密度函数在实际中容易计算得出,那么这种方法非常实用。

通过写出概率密度函数而建立的空间点过程模型称为“吉布斯过程”在点过程中,概率密度函数是一个定义在一系列位置X={xi,,xn}(XiwW,n之0)的函数f(x)。其中点的数量n是不固定的,也可能是0,除了这个性质,点过程的概率密度函数与一般的概率密度函数极为相似。对于任意非负的积分函数h,点过程的概率密度如下:E[h(X)]=3.1()f()㊀W”1...h({为,..Xn})f({Xi,...Xn})d%..dXn(2.32)n=1n!WW|W|是研究区W的面积。特别地,包含n个点的点模式的概率是e"Pn=P{n(X)=n}...f({x1,...xn})dx1...dxn(2.33)n!WW对于n至1,则p0=P{n(X)=0}=e^f仲)。给定n个点,则位置x1「・xn的条件联合密度函数是f({x1,…xn})/pn。下面首先介绍泊松过程的概率密度函数,然后引入随机依赖性建立点对相互作用模型,最后根据条件密度而不是概率密度来确定吉布斯过程。.泊松过程的概率密度密度为1的齐次泊松过程的概率密度函数f(X)三1其中n(X)是点模式X的点的数量,并且常量”是(2.34)(2.35)(2.36)=e(1-')|W|(2.34)(2.35)(2.36)密度函数为Mu)的非齐次泊松过程的概率密度函数是nf(X)=:<7(x)其中常量是一_'w(1—'(u))du]一e概率密度函数(2.35)和(2.36)是每个点xi的结果。这反映了泊松过程的条件独立性。.点对相互作用模型:

为了建立能够表现点之间相互作用(点之间的随机依赖性)的空间过程,需要在概率密度函数中引入依赖于更多点的项。最简单的模型就是点对相互作用模型,它的概率密度函数如下:n(X)f(X)「二b(j)子(Xi,Xj)(2.37)这里的“是一个标准化常数,b(u)(uwW)是“一阶”项,并且c(u,v)(u,vwW)是“二阶”项或“点对相互作用”项。点对相互作用项引入了点c(u,v)=c(u,v)=c(v,u)。只要概率密度的结b和Co在实践中,可以选择如下相hardcore过程如果b(u)三P,则「1c(u,v)「1c(u,v)=<°||u-v11r||u-v||<r(2.38)其中||u-v||〉r是u和v之间的距离,并且r>0是一个固定的距离,则密度函数是faPn(X)f(X)faPn(X)f(X)=10反之||x^-Xj||,Si^jBt(2.39)(2.40)(2.41)(2.40)(2.41)这就是密度为P的泊松过程的概率密度函数。将这个过程称为hardcore过程[73]Strauss过程它是hardcore过程的广义形式,假定b(u)三P,则;1||u-v||>rc(u,v)='/||u-v|pr这里是一个参数。相应的概率密度函数变为f(X)_-n(X)s(X)其中s(X)是X中点对距离小于r的个数

参数不控制着点之间相互作用的“强度”。如果¥=1,则模型退化为密度为P的泊松模型。如果==0,则模型时hardcore过程。当0<?<1时,过程在点之间表现为抑制性(负相关性)。当¥>1时,公式(2.41)是不可积的。因此Strauss过程仅定义在0<?<1,并且它是一个抑制性模型,是典型的吉布斯模型[73]并且它是一个抑制性模型,是典型的吉布斯模型[73]o其它点对相互作用模型c(u,v)’0二,c(u,v)’0二,1||u-v||^hh=:||u-v卜r||u-v||r(2.42)Soft-core相互作用,当尺度>>0并且索引0<氐<1时c(u,v)=(||u-v||)2c(u,v)=(||u-v||)2八.(2.43)Diggle-Gates-Stibbard相互作用,相互作用值域是Psin(口u-U)2||u-v|ppc(u,v)=2:11"(2.44)1||u-v||:Diggle-Gratton相互作用,hardcore距离是6,相互作用距离是P,索引是0||u-v||£、<||u-v『:(2.45)i||u-v||-6)c(u,v)=《<||u-v『:(2.45)P-6)1||u-v||>P逐点连续相互作用c(||u-v||)是||u-v||的分段函数。3.条件密度分析吉布斯点过程的主要工具是条件密度K(u,X)。一般来说,在给定除位置u外其余点过程信息的条件下,才能确定位置u上点过程的条件概率密度。关于条件密度的正式定义参考[74]0非正式地,在位置u的无限维邻居中,如下图所示,位置u上点过程的条件概率密度是九(u,X)。图2.2条件概率定义的示意图位置u上的条件概率密度通过下式(2.46)能与概率密度函数f建立关系:这里uX■(u,X)=f(X一{u})

f(X)(2.46)密度九为齐次泊松过程的条件密度是■(u,X)=这里uX■(u,X)=f(X一{u})

f(X)(2.46)密度九为齐次泊松过程的条件密度是■(u,X)=■(2.47)而密度函数为Mu)的非齐次泊松过程的条件密度是■(u,X)='Nu)(2.48)因此对于一个泊松过程来说,其条件密度不依赖于X,因为泊松过程的点是相互独立的。对于一般的点对相互作用过程来说,条件密度如下n(X)■(u,X)=b(u)二c(u,xi)

i1(2.49)对于hardcore过程,条件密度是c(u,v)l|u-Vi||r反之(2.50)对于Strauss过程,条件密度是(2.51)(u,X)「:t(u,X)(2.51)这里t(u,X)=s(Xu{u})-s(X)是位于以位置u为中心半径为r的圆中点的数量,如下图。图2.3Strauss过程示意图通过公式(2.46),点过程的条件密度决定了其概率密度。因此,可以用条件密度来定义点过程。条件密度是吉布斯过程最主要的建模工具:它有直观的解释,并且比概率密度更易计算得到。拟合吉布斯模型对于大多数点过程模型来说,极大似然估计是很难处理的。至少要用蒙特卡罗模拟来估计似然函数。另一种解决方法是求对数伪似然函数的最大值,即logPLQX)八log(xi;X)-W(u,X)du(2.52)这与泊松过程的似然函数非常相似。一般地,它不是一个真正的似然函数,但是二10gPL(9)=0是一个无偏估计等式。因此极大伪似然函数的估计量是渐进无偏的、一致的并且在一定条件下渐进正态的。极大伪似然估计的最大优势在于条件密度Mu,x)是很容易计算的,这样伪似然函数就容易计算并能够最大化。最大的缺点是在小样本中极大伪似然估计的有偏性和无效性。验证拟合的吉布斯模型(1)拟合优度检验采用拟合优度检验吉布斯模型要比检验泊松模型困难很多。对于一个拟合好的吉布斯过程,没有理论可以支持72拟合优度检验或Kolmogorov-Smirnov检验。对于一个吉布斯过程而言,在一个给定区域所有点的预测平均数量在闭合表达式中是位置的。因此,在一个闭合表达式中,72检验的合适的检验统计量是不能够获得的,只能得到这个理论统计量的空分布。对于拟合好的吉布斯模型来说,可能的一种检验方法是使用依赖于概括统计量K和G的拟合优度方法。(2)残差验证吉布斯模型的残差直到最近才给出定义[76][77]0在区域BUR2中全部残差定义如下:R(B)=n(X-B)-旧4u,X)du(2.53)这里n(Xc8)池区域B中观测到的点的数量,并且,?(u,X)是拟合好的模型的条件密度,可以从点模式X中估计得到。如果拟合好的模型是正确的,残差的均值将是0.除了泊松过程的密度双u)被替换成与吉布斯过程的条件密度,?(u,X)之外,这个定义基本上与泊松过程的残差定义相似。具体的残差检验技术有绘制残差图、Q-Q图等。2.5连续变化现象与离散变化现象.连续变化现象许多空间现象都是连续变化的,例如地形测量中的高程、空气污染浓度、土壤有机质含量、降水量等。地统计是以这类空间问题为研究对象的理论。空间点模式主要关注事件空间位置的点分布模式,即主要研究空间随机场的属性。与之相比,虽然地统计中的空间连续数据是以样本点为基础,但其主要关注的是要素属性值的空间模式。在地统计分析中,有两个主要目标:估计与预测[77]0估计是指推断随机模型的参数。包括直接关注的参数,如定义一个响应变量和一个解释变量的回归关系的参数,还有间接关注的参数,如定义随机过程S(x)协方差结构的参数。预测是指推断随机过程S(x)的实现。在具体应用中,特定的预测目的包括预测任意位置的S(x)的真实值,还包括预测满足某种条件的完整的随机过程S(x),如预测S(x)的平均值,还可以在某个阈值以上或以下的S(x)0另外还可能有第三种推断问题,即假设检验。例如在回归建模时,是否采用某个解释变量。Diggle,Tawn和Moyeed在已假设的随机模型下基于正规的统计方法提出的一种处理地统计问题方法[78]0在地统计中,假设这个随机模型是广义线性高斯模型,它能够捕捉到大量的空间连续变化现象,并且可以采用Box-Cox、对数等转换对其进行扩展。在广义线性高斯模型下,相应的参数估计包括趋势估计、半方差图估计等。空间预测方法有简单克里格、普通克里格等,对于多变量模型还有协同克里格方法。上述是从经典的或非贝叶斯角度来讨论统计推断问题的,这种观点把参数估计与预测看做两个分开的问题。这样做有两个原因,第一,在非贝叶斯下,参数值与预测值有着根本的区别,一个参数有一个固定但未知的值,它反映了产生观测值的随机过程的某方面性质,而一个预测值是一个与相同随机过程相关的随机变量的真实值。第二,在具体的地统计操作中,估计与预测是分开进行的,首先要建立模型并估计参数,然后把已估计好的参数当作真实值代入预测公式中进行预测。因此,这样忽略参数的不确定性会对预测的精度产生影响。贝叶斯方法会很好的解决这个问题。一般来说,在实践中,贝叶斯方法应用更为广泛。.离散变化现象很多空间现象都发生在离散的单元上。这种单元可以是规则的格子或栅格,也可以是不规则的多边形。相应地就有格数据、像素数据和面积单元数据(指在尺寸和形状上不规则的面积单元)三种类型。对离散空间变化现象的分析在很多领域都有应用,例如影像分析、农田试验、疾病制图、环境过程、空间经济和对由空间随机过程产生的大数据集有关的有限维分布的近似。在地理方面,土壤类型区、土地利用类型区、行政区、人口普查区等是离散变化的,也可以归为此类研究问题。对于离散变化的分析与连续变化有显著的不同,其目标是解释与平滑而不是插值与预测[79]

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论