地理加权回归gwr_第1页
地理加权回归gwr_第2页
地理加权回归gwr_第3页
地理加权回归gwr_第4页
地理加权回归gwr_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2012年 12月 24日基本框架 普通线性回归模型及估计 OLS工作的基本原理 解释 OLS结果 GWR提出的背景及意义 地理加权回归模型及估计 权函数选择 权函数宽带优化 诊断工具 膀胱癌死亡率实例OLS工作的基本原理 在我们国家 是否 有持续发生年轻人早逝的地方? 哪里为 犯罪或 火灾的高发地点? 城市中哪里的交通事故发生率比预期的要高 ? 在实际工作中,我们可能会遇到以下类似的问题911紧急呼叫数据的分析结果,显示了呼叫热点(红色)、呼叫冷点(蓝色)以及负责事故处理的消防和警察分队的位置(绿色十字)可以通过热点分析的方法弄清以上问题对于上面的每一个问题都询问了 “where”,但是我们自然会想到 “why”为什么国家会存在持续发生年轻人早逝的地方?是什么导致了这种情况?我们能否对犯罪、 911呼叫或火灾频发地区的特征进行建模,以帮助减少这些事件的发生?导致交通事故发生率比预期要高的因素有哪些,有没有相关政策或者措施来减少整个城市或特定事故高发区的交通事故?通过回归分析,我们可以对空间关系进行建模、检查和探究,还可以解释所观测到的空间模式背后的诸多因素。例如分析有些地区为什么会持续发生年轻人早逝或者糖尿病的发病率比预期的要高。通过空间关系建模,对这些现象进行预测。例如,对影响大学生毕业率的因素进行建模,可以对近期的劳动力技能和资源进行预测;因为监测站数量不足而无法进行充分插值的情况下(沿山脊地区和山谷内,雨量计通常会短缺),可以用回归法来预测这些地区的降雨量或者是空气质量。使用回归分析的主要原因 1.对 某一现象建模 ,测量 一个或多个变量的变化对另一变量变化的影响程度。 例如,了解某些特定濒危鸟类的主要栖息地特征(降水,食物源、植被、天敌),以协助通过立法来保护该物种。 2.对 某种现象建模以预测其他地点或其他时间的数值 ,构建 一个持续准确的预测模型。 例如,如果已知人口增长情况和典型的天气状况,那么明年的用电量将会是多少? 3.深入 探索某些假设情况 。 假设 您正在对住宅区的犯罪活动进行建模,以更好的了解犯罪活动并希望实施可能阻止犯罪活动的策略,开始分析时,就会有很多问题或想要检验的假设情况: 1).“破窗理论 ”表明公共财产的破坏(涂鸦、被毁坏的建筑物等)可招致其他犯罪行为,破坏财产行为与入世盗窃之间是否存在正关系? 2).非法使用毒品与盗窃行为之间存在某种关系吗(吸毒成瘾的人又可能通过偷取财物来维持他们吸毒的习惯吗)?OLS回归方程 1.遗 漏自 变 量 :如果模型中 丢 失了关 键 的自 变 量,其系数和相 应 的关 联 P值 将不可信 。通 过 映射并 检查 OLS残差和GWR系数或 对 回 归 残差 进 行 热 点分析,找出可能缺失的变 量 。 2.非 线 性关系 : OLS和 GWR都是 线 性方法,如果任一自 变量与因 变 量之 间 的关系存在非 线 性关系, 则获 得的模型质 量不佳。通 过创 建散点 图 矩 阵 来了解模型中所有自 变量之 间 的关系。 3.数据异常 值 :影响大的异常 值 可以使模型化的回 归 关系背离最佳 拟 合,从而使回 归 系数 发 生偏差。通 过创 建散点图 来 检验 数据的极 值 ,如果异常 值 存在, 则进 行修正或者移除。如果异常 值 正确或者有效 则 不能将其移除,需要对 有异常 值 和没有异常 值 的情况下分 别进 行回 归 , 查 看这 两种情况 对结 果的影响程度。回归模型中常见的问题4.不 稳 定性 : 一个 输 入 变 量在区域 A中具有很 强 的解 释 能力,但是在区域 B中却不 显 著。 如果因变量与自变量之间的关系在研究区域内不一致,将人为地扩大计算出的标准误差。用 Koenker测试关联的概率很小时,区域变化具有统计显著性。(地理加权回归改进)5.多重共 线 性: 一个自 变 量或多个自 变 量的 组 合冗余 。 多重共线性可导致模型不稳定,不可靠。可以通过 OLS工具自动检测冗余,每个自变量都被给定一个计算出的 VIF值,当这个值很大时,冗余便成了问题,通过创建交互变量或增大采样 间隔 从模型中移除冲突变量或对其进行修改 。6.残差的方差不一致 : 对 于 较 小的因 变 量 值 ,模型的 预测 效果 较 好,但 对 于 较 大的因 变 量 值 ,模型的 预测值变 得不可靠。7.空间自相关残差 : 注意模型偏低预计值(红色)出现空间聚类的方式。残差(模型的偏低预计值和偏高预计值)在统计学上的显著空间聚类表明模型缺失关键的因变量,可以使用空间自相关工具来确定模型残差的空间聚类是否有统计学上的显著性。8.正 态 分布偏差: 当回归 模型残差不服从均 值为 0的正 态 分布 时 ,与系数关 联 的 P值 将 变 得不可靠。可以用 OLS工具自 动检查 残差是否服从正 态 分布。当 Jarque-Bera统计 量 显 著(0.05) 时 ,很可能 错误选 定了 模型或 对 其建模的关系 为 非 线 性。通 过残差 图 和 GWR系数 图 来检查 是否缺少关 键变量, 查 看散点矩 阵图寻 找非 线 性关系。解释 OLS结果( 1)评估模型性能。 R 平方的倍数和校正 R 平方值都可以用来测量模型性能。取值范围从 0.0 - 1.0。由于 “校正 R 平方 ”值与数据相关,更能准确地测量出模型性能,能够反映模型的复杂性,因此 “校正 R 平方 ”值始终要比 “R 平方的倍数 ”值略小。为模型额外添加一个解释变量可能会增大 “R 平方的倍数 ”值,但可能会减小 “校正的 R 平方 ”值。假设正在创建一个入室盗窃(与每个人口普查区块相关的入室盗窃数量为因变量, y)的回归模型。如果 “校正 R 平方 ”值为 0.84,则表示该模型(使用线性回归建模的解释变量)可解释因变量中大约 84% 的变化。使用 R 平方值量化模型性能( 2) 评 估模型中的每一个解 释变 量:系数、概率、 稳 健概率和方差膨 胀 因子 (VIF)。系数 反映它与因 变 量之 间 关系的 强 度, 以及它 们 之 间 的 关系 类 型。当系数 为负时 , 表明自 变 量与因 变 量 负 相关 。当系数 为 正号 时 , 自 变 量 与因 变 量为 正 相关 。概率或 稳 健概率( p 值 ) P值 很小 时 , 系数 实际为 零的几率也会很小。如果 Koenker 测试 ( 见 下 图 )具有 统计 学上的 显 著性, 应 使用 稳 健概率来 评估 自 变 量的 统计 学 显 著性。 对 于具有 统计 学上 显 著性的概率,其旁 边带 有一个星号 (*)。VIF 测 量 自 变 量 中的冗余。一般来 说 , 与 大于 7.5 的 VIF 值 关 联 的 自 变 量应 逐一从回 归 模型中移除。( 3) 评 估模型是否具有 显 著性。联 合 F 统计 量 ( 联 合卡方 统计 量 ) 用于 测 量整个模型的 统计 学 显 著性。只有在 Koenker (BP) 统计 量( 见 下 图 )不具有 统计 学上的 显 著性 时 , “联 合 F 统计 量 ”才可信。如果 Koenker (BP) 统计 量具有 显 著性, 应 参考 “联 合卡方 统计量 ”来确定整个模型的 显 著性。 对 于大小 为 95% 的置信度, p 值 (概率)小于 0.05 表示模型具有 统计 学上的 显 著性。( 4) 评 估 稳 定性。Koenker (BP) 统计 量 ( Koenker 的 标 准化 Breusch-Pagan 统计 量)是一种 测试 ,用于确定模型的 自 变 量 是否在地理空 间 和数据空 间 中都与因 变 量具有一致的关系。如果模型在地理空 间 中一致,由 自 变 量 表示的空 间进 程在研究区域各位置处 的行 为 也将一致。如果模型在数据空 间 中一致, 则预测值 与每个 自 变 量 之间 关系的 变 化不会随 自 变 量 值 (模型没有异方差性)的 变 化而 变 化。 该测试的零假 设测试 模型 稳 定 性 。 对 于大小 为 95% 的置信度, p 值 (概率)小于 0.05 表示模型具有 统计 学上的 显 著异方差性和 /或不 稳 定性。如果 该测试 的 结 果具有 统计 学上的 显 著性,需参考 稳 健系数 标 准差和概率来 评 估每个解 释变 量的效果。具有 统计 学上 显 著不 稳 定性的回 归 模型通常很适合 进 行 地理加 权 回 归 分析。( 5) 评 估模型偏差。Jarque-Bera统计 量用于指示 残差 是否呈正 态 分布 。 该测试 的零假 设为残差呈正 态 分布 。 因此,如果 为这 些残差建立直方 图 , 这 些残差的分布将高斯分布相似。当 该测试 的 p 值 (概率) 较 小(例如, 对 于大小 为 95% 的置信度,其 值 小于 0.05) 时 ,回 归 不会呈正 态 分布,并指示您的模型有偏差。( 6) 评 估残差空 间 自相关。对 回 归 残差运行 空 间 自相关 (Morans I) 可确保回 归 残差在空 间 上随机分布。 高残差和 /或低残差(模型偏高 预计值 和偏低 预计值 )在 统计 学上的 显 著聚类 表明模型中的某个关 键变 量缺失了。当 错误 指定了模型 时 , OLS 结 果不可信。GWR提出的背景和意义 在空间分析( Spatial analysis)中,变量的观测值(数据)一般都是按照某给定的地理单位为抽样单位得到的,随着地理位置的变化,变量间的关系或者结构会发生变化,这种因地理位置的变化而引起的变量间关系或结构的变化称之为空间非平稳性( spatial nonstationarity)。 这种空间非平稳性普遍存在在空间数据中,如果采用通常的线性回归模型或莫伊特定形式的非线性回归函数来分析空间数据,一般很难得到满意的结果,因为全局模型(global model)在分析之前就假定了变量间的关系具有同质性( homogeneity),从而掩盖了变量间关系的局部特性,所得结果也只有研究区域内的某种 “平均 ”,因此需要对传统的分析方法进行改进。改进方法采用局部回归分析,根据回归区域的不同可以分为分区回归和移动窗口回归。变参数回归模型。全局模型中的参数是地理位置的某种函数,从而参数在空间中的变化趋势就可以被度量出来。但是这两种模型都没有充分考虑数据的空间结构,就有了 GWR的提出。在总结前人局部回归分析和变参数研究的基础上,Fortheringham等人( 1996)基于局部光滑的思想,提出了地理加权回归( Geographically Weighted Regression )模型,将数据的空间位置嵌入到回归参数中,利用局部加权最小二乘方法进行逐点参数估计,其中权是回归点所在的地理空间位置到其他各观测点的地理空间位置之间的距离函数。地理加权回归模型 地理加权回归模型是对普通线性回归模型的扩展,将数据的地理位置嵌入到回归参数中,即:这里的 为第 i个采样点的坐标(如经纬度), 是第 i个采样点上的第 k个回归参数,是地理位置的函数。简便记为:空间权函数的选择 地理加权回归模型的核心是空间权重矩阵,它是通过选取不同的空间权函数来表达对数据久安空间关系的不同认识。空间权函数的正确选取对地理加权回归模型参数的正确估计非常重要,介绍常用的几种空间全函数。1.距离阈值法2.距离反比法3.Gauss函数法4.截尾型函数法在实际应用中我们发现,地理加权回归分析对 Gauss函数和 bi-square函数的选择并不是很敏感,但是对特定权函数的宽带却很敏感,宽带过大回归参数估计的偏差过大,宽带过小又会导致回归参数估计的方差过大,那么如何选择一个合适的宽带呢?1.交叉验证法( CV)2.AIC准则1.空间自相关性( Autocorrelation)Morans I 和 Gearys c2.共线性容许度( Tolerance):越接近 1,共线性越小。方差膨胀因子( VIF):容许度的倒

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论