




已阅读5页,还剩89页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五讲空间点数据分析 引言点数据概述点数据分析 SpatialPointDataAnalysis 1 引言 点模式分析由植物学家和生态学家在1930s应用 但是 随后许多不同领域也开始应用点模式分析 如考古学 流行病学 天文学和犯罪学 一般来说 点模式分析可以用来描述任何类型的事件数据 incidentdata 因为每一事件都可以抽象化为空间上的一个位置点 抢劫案 Data 城市发展的空间演变模式 星罗棋布的村庄 http www sphere ad jp togen photo n html 来源 USGS Arp272是两个螺旋星云 NGC6050和IC1179相撞形成的 这两个星云的螺旋臂相互扭结在一起 它们是武仙座星群的一部分 武仙座星群是已知的宇宙中最大的结构 所谓的长城的一部分 Arp272距离地球大约4 5亿光年 Arp240是一对大小相似的螺旋星云 NGC5257和NGC5258 这两个星系显然通过一个暗淡的恒星桥相互作用 它们两个的中心都有超大质量黑洞 Arp240位于室女座内 距离地球大约3亿光年 ESO99 4是一个拥有奇特形状的星系 它可能是一个早期合并过程的残余物 没有成形 ESO99 4位于北三角座内 距离地球大约4亿光年 轧制钢横截面 100 100微米 573个碳化物颗粒中心 混凝土 10 10 10毫米 白色为切的刚玉颗粒 黑色为气孔 细胞表面的蛋白质位置矩形大小 107 119微米 血液样本 红细胞为黑色 矩形大小 225 182微米 点 模式在自然与社会经济中普遍存在 识别空间点模式 spatialpointpattern 的目的是为了更好地理解空间点过程 spatialpointprogress 揭示隐藏在空间模式表象之下的空间过程的机理 空间随机 聚集 均匀 过程建模 2 点数据概述 随机分布 任何一点在任何一个位置发生的概率相同 某点的存在不影响其它点的分布 又称泊松分布 Poissondistribution 均匀分布 个体间保持一定的距离 每一个点尽量地远离其周围的邻近点 在单位 样方 中个体出现与不出现的概率完全或几乎相等 聚集分布 许多点集中在一个或少数几个区域 大面积的区域没有或仅有少量点 总体中一个或多个点的存在影响其它点在同一取样单位中的出现概率 空间点数据的三种基本分布模式 点数据的三种基本空间分布模式 怎样描述点模式 一阶效应 First OrderEffects 事件间的绝对位置具有决定作用 单位面积的事件数量在空间上有比较清楚的变化 如 空间上平均值 密度的变化 二阶效应 Second OrderEffects 事件间的相对位置和距离具有决定作用 如 空间相互作用 3 1基于密度的方法 测度一阶效应 3 点数据分析 3 2基于距离的方法 测度二阶效应 最近邻距离 G函数 F函数最近邻距离的统计检验K函数 KFunction 样方分析样方分析的统计检验核密度估计 空间点数据分析架构 3 点数据分析 3 1基于密度的方法 样方分析 Quadratanalysis 样方分析的统计检验 核密度估计 KernelDensityEstimation 利用所有点 样方的形状 大小 方向对结果有影响如果样方太大 小 那么 随机抽样方法 有增加样本量的作用可以描述一个没有完全数据的空间点过程 样方分析 两种方式 样方形状 http psychology exeter ac uk lundy quadrat htm Theterm Quadrat strictlymeansafoursidedfigure butinpracticethistermisusedtomeananysamplingunit whethersquare rectangular circular hexagonalorevenirregularinoutline 样方分析步骤 a 研究区域中打上网格 建议方格大小为 QuadratSize 2A nA 研究区域面积 n 点的个数 b 确定每个网格中点的个数 c 计算均值 Mean 方差 Var 和方差均值比 VMR Var Mean 对于均匀分布 方差 0 因此VMR的期望值 0 对于随机分布 方差 均值 因此VMR的期望值 1 对于聚集分布 方差大于均值 因此VMR的期望值 1 注 N 样方数量 10 随机 随机 聚集 x 均匀 x x 样方分析的缺点 结果依赖于样方的大小和方向 总的模式是分散的 但局部有聚集现象 样方分析主要依据点密度 而不是点之间的相互关系 所以不能区别图示的两种情况 样方分析不能探测区域内的变化 密度 密度依赖于研究区域的大小 a a 4a 16a 64an 2 2 5 10 2 0 0 5 0 31 0 15 样方分析 K S检验 D检验 如何比较精确地检验零假设 H0 没有空间模式假设在一区域内通过随机放点来模拟零假设 并计算其方差 均值比 VMR 更进一步地 假如重复模拟1000次 得到模拟结果的直方图 当H0为真时 1000次VMR的均值将接近于1 直方图中VMR的尾部值 VMR的抽样分布 当零假设为真时相对稀少 样方分析的统计检验 方差均值比的x2检验 如果观测模式的VMR大于VMRH 则拒绝零假设 相对于随机模式而言观测值更趋于均匀分布 如果观测模式的VMR小于VMRL 也拒绝零假设 相对于随机模式而言观测值更趋于聚集分布 当H0为真时VMR的抽样分布 如果观测到VMR的极值 大于VMRH或小于VMRL 则拒绝没有空间模式的零假设 在这种情况下 1 零假设实际上是真的 而我们拒绝了它 犯了第I类错误 弃真 2 零假设不是真的 我们做了一个正确的决定 为了确定临界值点 VMRH VMRL 首先必须确定所容许犯第I类错误的概率 如果 0 05 那么1000次模拟当中50个较大的值用于获取临界值 50 1000 0 05 如果把1000次模拟的VMR值从小到大依次排序 第25个值将作为VMRL 当H0为真时1000次中有25次低于VMRL 相似地 第975个值将作为VMRH 当H0为真时1000次中有25次高于VMRH 这样 当采用该临界值时 1000次当中有50次 或5 的几率犯第I类错误 样方分析 假设检验示例 判断下图是否空间随机 共100个点 分布于10 10的样方内 均值 100 10 10 1含3个点的样方 6个含2个点的样方 20个含1个点的样方 42个含0个点的样方 32个 方差为 6 3 1 2 20 2 1 2 42 1 1 2 32 0 1 2 100 1 0 77 VMR 0 77 1 0 77 1 趋于均匀分布 如果H0为真 0 77是否小到可以拒绝原假设 方法 随机模拟 均值 1重复模拟1000次 建立VMR的抽样分布 得到的结果从小到大排序 第25个最小值VMRL 0 747 第975个值VMRH 1 313 由于VMRL 0 77 VMRH 接受原假设 即随机情况下VMR 0 77不是特别不正常 上述方法即所谓的蒙特卡罗模拟 MonteCarloSimulation 优点 易于理解和实现缺点 不同的人得到的模拟结果不同 e g 10个人可能得到10个不同的临界值 蒙特卡罗模拟方法的基本思想 圆的外切正方形的边长 蒙特卡罗模拟方法的基本思想 蒙特卡罗模拟方法的基本思想 当H0为真时 有一个简单的方法可以避免采用前述的模拟方法 临界值可用x2 m 1 VMR具有m 1个自由度的x2分布表确定 当自由度 df 比较大时 x2 m 1 VMR趋于正态分布 特别地 当H0为真 df 30的情况下 m 1 VMR具有均值为m 1 方差为2 m 1 的正态分布 这意味着 是均值为0 方差为1的标准正态分布 在 0 05的情况下 临界值分别为zL 1 96 zH 1 96 如果zzH 则拒绝原假设 上例中 自由度小于30的情况100个点 5 5样方 VMR 0 6875 x2 25 1 VMR 16 5 由于自由度 df 小于30 需要应用x2分布表 查找df 24 p 0 025和p 0 975 并进行插值 得到上 下临界值40 5 12 因为12 16 5 40 5 所以接受零假设 点模式为空间随机分布 基本思想 在研究区域内的任一点都有一个密度 而不仅仅是在事件点上 该密度通过计数一定区域内的事件点数量 或核 Kernel 进行估计 核以估计点为中心 一定距离为半径 其中 C p r 是以待估点p为圆心 r为半径的圆 带宽 r如果r太大 小 那么 r固定 r变化 核密度估计 KernelDensityEstimation KDE 边界 KernelWindows PaulBolstad GISFundamentals 带宽选择是核密度估计中一个具有挑战性的问题 可以采用不同的带宽对同一问题进行分析 探测模式的异质性 Analysis 密度估计 带宽700Km 密度估计 带宽300Km 密度估计 带宽500Km QuarticKernelFunktion A B C r 500m r 1000m r 3000m 核密度估计 KDE 用途 可视化点模式进行热点 hotspot 探测 离散 连续 如 疾病与污染 Spatialsmoothing Clusterdetection 3 1基于密度的方法 测度一阶效应 3 点数据分析 3 2基于距离的方法 测度二阶效应 最近邻距离 G函数 F函数最近邻距离的统计检验K函数 样方分析样方分析的统计检验核密度估计 3 2基于距离的方法 测度二阶效应 最近邻距离方法 计算每个点到其最近邻点之间的距离 然后计算所有点最近邻距离的平均值 对每一个点 根据其欧几里德距离最小确定其最近邻点 平均最近邻距离的大小 反映点在空间的分布特征 最近邻距离越小 说明点在空间分布越密集 反之 越离散 3 2基于距离的方法 最近邻距离方法 G函数 Event Event 欧几里德距离 3 2基于邻距离的方法 最近邻距离方法 G函数 Event Event 与最近邻距离只采用平均距离不同 G函数基于最近邻距离的所有频率分布 如果是聚集分布 的值是大是小 2020 4 20 河南大学环境与规划学院zhaoy 52 最近邻距离的最小值是9 00 即点4 8和点8 4之间的距离 有两个 2 12 0 167 所以G d 在距离等于9时的值为0 167 下一个最近邻距离的最小值是15 64 即点2的最近邻距离 有一个 加上前面的两个最近邻距离 即9 共有3个 3 12 0 25 所以G d 在距离等于15 64时的值为0 25 依次累积下去 得到G函数 如果点是聚集的 G d 在短距离内急速上升 如果点趋于均匀分布 G d 在一定距离内缓慢上升 在该距离内包含大多数点 之后G d 快速上升 3 2基于距离的方法 测度二阶效应 最近邻距离方法 F函数 Point Event 与G函数仅仅基于事件间最近邻距离的频率分布不同 F函数基于区域内任意位置点与事件间最近邻距离的频率分布 三个步骤 随机选择m个位置 p1 p2 pm 计算dmin pi s pi到点模式S中的任一事件的最小距离 计算 如果事件是聚集的 F d 先缓慢上升 而在远距离处急速上升 因为研究区的大部分地方没有事件点 如果点趋于均匀分布 F d 先快速上升 而在远距离处上升缓慢 G函数与F函数的比较 G函数与F函数的比较 3 2最近邻距离方法 最近邻距离统计量的统计检验 Clark Evans 1954 发展了一个最近邻分析用于分析植物种类的空间分布 采用最近邻距离的平均值与随机模式下的期望值之比构建一个所谓的最近邻统计量 其中 为平均最近邻距离 为单位面积的点数 R的取值从0 所有点聚集到一起 到理论最大值2 14 正六边形完全均匀 R 1表示随机模式 即观测值与随机分布下的期望值相等 方差 Clark P J EvansF C DistancetoNearestNeighborasaMeasureofSpatialRelationshipsinPopulations Ecology 1954 35 4 445 453 最近邻指数 NNI R的取值从0 所有点聚集到一起 到理论最大值2 14 正六边形完全均匀 如果 R 0 所有的点集中于同一位置 聚集分布 如果 R 1 无分布模式 随机分布 即观测值与随机分布下的期望值相等 如果 R 1 每个点趋近于等间距 均匀分布 60 60 61 61 Step1 计算每一个点到其最近邻的距离 通过计算直角三角形的斜边 62 62 Step2 计算不同条件下的距离如果模式是随机的 平均距离为 其中 密度 n 面积 6 88 0 068如果模式完全聚集 所有点在同一个位置 那么 如果模式完全分散 那么 BasedonaPoissondistribution 63 63 Step3 计算标准最近邻指数 NNI slightlymoredispersedthanrandom 0 1 2 14 完全聚集 Perfectlyclustered 随机 完全分散 Perfectlydispersed Moredispersedthanrandom Moreclusteredthanrandom 空间随机分布条件下 给定面积内恰有n个点的概率可以用泊松分布描述 Clark P J EvansF C DistancetoNearestNeighborasaMeasureofSpatialRelationshipsinPopulations J Ecology 1954 35 4 445 453 Clark P J EvansF C DistancetoNearestNeighborasaMeasureofSpatialRelationshipsinPopulations J Ecology 1954 35 4 445 453 假设给定面积是半径为r的圆k等分的一部分 令为分布的平均密度 那么有 表示任意给定面积内 恰有n个点的概率 而表示任意给定面积内不包含任何事件点的概率 n 0 如果圆心任意选取 那么给定面积中距圆心为r的距离内不包含点的概率也为 作为r的一个函数 它是到最近邻的距离 r的比例 相应地 是到最近邻距离 r的比例 对关于r微分 得到作为r的概率分布函数 r的期望 均值 即Re 可以通过r乘以其概率分布函数并从0到无穷大积分得到 若取圆为单位圆 即 则 r的二阶矩 E r2 可以通过r2乘以其概率分布函数 并从0到无穷大进行积分得到 若取圆为单位圆 即 则 r的方差为 若取圆为单位圆 即 则r的标准差为 因此 r的标准差为 最近邻距离统计量的构建 根据上述均值和标准差 可以构造出一个服从标准正态分布N 0 1 的统计量 当显著性水平为时 Z的置信区间为 如果或 则观测模式和完全空间随机 CSR 之间存在显著的差异 若Z的符号为负 则模式趋向于聚集 若Z的符号为正 则模式趋向于均匀分布 判断下图 7 6矩形 的空间分布模式 并进行统计检验 例子 最近邻统计量 Rogerson P A StatisticalMethodsforGeography SagePublicationsLtd 2001 p 163 平均最近邻距离 1 1 2 3 3 3 3 6 2 1676个点随机分布在7 6的矩形内的平均最近邻距离的期望值为 例子 最近邻统计量 近邻距离统计量为R 2 167 1 323 1 638 即观测模式的平均最近邻距离大于完全空间随机 CSR 模式下的值 模式趋于均匀分布 检验统计量 因此 在5 的显著性水平上 拒绝空间随机分布的零假设 例子 最近邻统计量 但我们忘记了对分析结果具有明显影响的边界效应 可以用MonteCarlo模拟方法 在x轴上 0 7 和y轴上 0 6 区间内随机选取6个点 并计算其最近邻距离 模拟10000次 然后计算其平均最近邻距离 比如为1 62 大于前述的Re 1 323 这主要是因为相对于假想的区域外的点而言 区域内靠近边界上的点与区域内其他点之间的距离较远 例子 最近邻统计量 对10000次模拟结果从小到大进行排序 显示第9500个值为2 29 平均最近邻距离仅有5 的机会大于2 29 我们的观测模式的平均最近邻距离为2 167 2 29 因此 在通过MonteCarlo模拟考虑边界效应后 接受空间分布模式为随机的零假设 3 2基于距离的方法 K函数 Ripley 1976 提出 TheKfunction variouslycalled Ripley sK function andthe reducedsecondmomentfunction Ripley sKfunctioncanbeusedtosummarizeapointpattern testhypothesesaboutthepattern estimateparametersandfitmodels Ripley B D TheSecond OrderAnalysisofStationaryPointProcesses JournalofAppliedProbability 1976 13 2 255 266 Volume3 pp 1796 1803inEncyclopediaofEnvironmetrics 与G函数 F函数只使用事件或点的最近邻距离不同 K函数基于事件间的所有距离 因此 K函数不仅能探测空间模式 而且可以给出空间模式和尺度的关系 K函数 定义 K d 可以在许多不同的距离尺度上描述点过程的特征 Manyecologicalpointpatternsshowacombinationofeffects e g clusteringatlargescalesandregularityatsmallscales ThecombinationcanbeseenasacharacteristicpatterninaplotoftheKfunction Volume3 pp 1796 1803inEncyclopediaofEnvironmetrics 假设 平稳性 Stationary 统计特征独立于绝对位置 特别地 均值和方差是不依赖于空间位置的常数 协方差仅依赖于两点之间的相对位置 距离和方向 而与空间上的绝对位置无关 各向同性 Isotropy Nodirectionaldetection Ripley sK函数 平稳 各向同性 Cov Y s1 Y s2 Cov Y s9 Y s10 Cov Y s1 Y s2 Cov Y s3 Y s4 Cov Y s1 Y s2 Cov Y s3 Y s4 K函数 经验K函数估计的四个步骤 对于每一个事件si 以si为圆心 d为半径画圆C si d 计算圆内其他事件点的数量 3 计算同一半径下所有事件的均值 4 均值除以研究区内事件密度得 聚集 均匀 K函数 每个圆的面积为 为单位面积的事件平均密度 因此 CSR下K d 的期望值为 K函数 当 平均点数高于CSR下的期望值 在尺度d上聚集 平均点数低于CSR下的期望值 在尺度d上分散 当 K函数 L函数 由于K d 基于平方距离进行计算 对于大的d其结果会变得非常大 为此 可将K d 的期望值转换为零 当L d 0 在尺度d上聚集 当L d 0 在尺度d上分散 K函数的检验 MonteCarlo模拟假设在CSR条件下 对n个事件进行m次独立的模拟 计算其经验L函数 并取其上 下界 边界校正 K函数 边界校正 1 Ripley校正 Ripley 1977 K函数 wi是圆C si d 位于研究区域内的比例 2 建立警戒区 位于警戒区内的点在计算K d 时采用 但不作为点模式的一部分 3 环形边缘校正 Toroidaledgecorrection 假设研究区的上部和左部分别与下部和右部连接 好像研究区域是一个圆环 torus 仅用于矩形研究区域 Yamada I RogersonP A AnEmpiricalComparisonofEdgeEffectCorrectionMethodsAppliedtoK functionAnalysis J GeographicalAnalysis 2003 35 2 97 109 例子 RpackagespatstatApointpatterngivingthelocationsof3605treesinatropicalrainforest Accompaniedbycovar
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025代表解除公司合同事宜
- 2025年中国工业安全鞋行业市场全景分析及前景机遇研判报告
- 面塑的艺术特点是什么
- 洞庭湖的什么特点
- 跨界融合企业劳动合同创新与产业升级
- 智能家居系统销售合同签订与用户体验优化流程图
- 2025年私募股权投资热点领域投资策略与退出模式创新研究全案研究报告
- 2025合同终止劳动合同证明
- 2025年中国高级婴儿车行业市场全景分析及前景机遇研判报告
- 碳足迹评估助力2025年循环经济产业升级报告
- USCAR培训资料完整版经典培训教材课件
- 涂漆检验报告(面漆)
- 制药工程专业导论03.中药制药课件
- 肿瘤生物免疫治疗及护理-课件
- 小学数学四年级上册《数对》课件
- 高中英语选择性必修一 Unit 2 Assessing your progress(34张)
- 液压传动全套ppt课件(完整版)
- 《基础统计》教学案例“郑州市大瓶装纯水市场调查”统计应用案例
- 建设工程施工合同(示范文本)解读课件
- 南瑞继保后台监控使用厂家培训版本
- 高中美术 《设计》艺术与技术的结合——产品设计 1 课件
评论
0/150
提交评论