第四章-地理系统要素间的相关分析与回归分析.ppt_第1页
第四章-地理系统要素间的相关分析与回归分析.ppt_第2页
第四章-地理系统要素间的相关分析与回归分析.ppt_第3页
第四章-地理系统要素间的相关分析与回归分析.ppt_第4页
第四章-地理系统要素间的相关分析与回归分析.ppt_第5页
免费预览已结束,剩余92页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章地理系统要素间的相关分析与回归分析 教学目的与要求 掌握地理要素间相关分析与回归分析的基本原理 数学模型 检验方法及实例运算 特别要熟悉最小二乘法原理 教学内容 1地理要素间的相关分析 2地理要素间的回归分析 3地理系统的空间趋势面分析 1地理要素间的相关分析 地理相关的意义地理相关程度的度量方法相关系数的显著性检验多要素间相关程度的测度 地理要素之间的相关分析的任务 是揭示地理要素之间相互关系的密切程度 而地理要素之间相互关系的密切程度的测定 主要是通过对相关系数的计算与检验来完成的 一 地理相关的意义 相关与地理相关相关是指两个或两个以上变数间相互关系是否密切 在研究这种关系时并不专指哪一个是自变量 哪一个是因变量 而视实际需要确定 相关分析仅限于测定两个或两个以上变数具有相关关系者 其主要目的是计算出表示两个或两个以上变数间的相关程度和性质地理相关 就是应用相关分析法来研究各地理要素间的相互关系和联系强度的一种度量指标 地理要素间的关系函数关系 确定性的关系 这种关系在地理各要素间较少见 这是因为许多地理要素的变化具有随机性的缘故 相关关系 即要素间既存在密切的关系 但又不能由一个 或几个 要素 或变量 的值明确地求出另一个要素 变量 的值 二 地理相关程度的度量方法 一 简单直线相关程度的度量相关程度研究两个地理要素之间的相互关系是否密切相关方向正相关 y值随x的增加而变大或随x的减少而变小负相关 y值随x的增加而变小或随x的减少而增大 1 一般常用相关系数的计算 rxy为要素x与y之间的相关系数 它就是表示该两要素之间相关程度的统计指标 其值在 1 1 区间之内rxy 0 表示正相关 即两要素同向发展rxy 0 表示负相关 即两要素异向发展rxy的绝对值越接近于1 表示两要素的关系越密切 越接近于0 表示两要素的关系越不密切 举例 北京市多年各月平均气温与5cm深的平均地温 如表所示 请计算两者的相关系数 用导出公式 相关系数计算表 2 顺序 等级 相关系数计算 二 简单非线性相关程度的度量表示简单非线性相关程度的统计量 通常用相关指数Ryx来度量 相关指数的性质 随相关曲线形状的不同而异 相关指数的分布范围介于0到1之间 即0 Ryx 1相关指数的值大 两个要素 变量 间的相关程度越密切 当Ryx 1时 表示两个要素间为完全曲线相关 当Ryx 0时 表示两个要素间为完全无曲线相关相关指数必大于或至少等于用同一批资料所求得的相关系数的绝对值 即Ryx r Ryx的性质与上述情况基本相同 但在通常情况下 Ryx与Rxy不相等 仅当完全相关或完全无关时 两者才相等 三 多要素相关与相关矩阵如果问题涉及到多个要素 n个 则对于其中任何两个要素xi和xj 都可以按照下面的公式计算 得到多要素的相关系数矩阵 多要素的相关系数矩阵对角线数值为1的对称矩阵 三 相关系数的显著性检验 一般情况下 相关系数的检验 是在给定的置信水平下 通过查相关系数检验的临界值表来完成的 P202页附表七 检验相关系数 0的临界值 r 表左边的f值称为自由度 其数值为f n 2 这里n为样本数 上方的 代表不同的置信水平 表内的数值代表不同的置信水平下相关系数 0的临界值 即ra 公式p r r 的意思是当所计算的相关系数r的绝对值大于在a水平下的临界值r 时 两要素不相关 即 0 的可能性只有a 一般而言 当 r r 时 则认为两要素不相关 这时的样本相关系数就不能反映两要素之间的关系 四 多要素间相关程度的测度 地理系统是一种多要素的复杂巨系统 其中一个要素的变化必然影响到其它各要素的变化 在多要素所构成的地理系统中 当我们研究某一个要素对另一个要素的影响或相关程度时 把其它要素的影响视为常数 保持不变 即暂不考虑其它要素的影响 而单独研究那两个要素之间的相互关系的密切程度时 则称为偏相关 用以度量偏相关程度的统计量 称为偏相关系数 一 偏相关系数的计算与检验 1 偏相关系数的计算偏相关系数 可利用单相关系数来计算 假设有三个要素x1 x2 x3 其两两间单相关系数矩阵为 因为相关系数矩阵是对称的 故在实际计算时 只要计算出r12 r13和r23即可 在偏相关分析中 常称这些单相关系数为零级相关系数 对于上述三个要素x1 x2 x3 它们之间的偏相关系数共有三个 即r12 3 r13 2 r23 1 下标点后面的数字 代表在计算偏相关系数时 保持不变量 如r12 3即表示x3保持不变 一级偏相关系数 三个要素 二级偏相关系数 四个要素 偏相关系数的性质 偏相关系数具有下述性质 偏相关系数分布的范围在 1到1之间 如当r12 3为正值时 表示在X3固定时 X1与X2之间为正相关 当r12 3为负值时 表示在X3固定时 X1与X2之间为负相关 偏相关系数的绝对值越大 表示其偏相关程度越大 例如 r12 3 1 则表示当X3固定时 X1与X2之间完全相关 当 r12 3 0时 表示当X3固定时 X1与X2之间完全无关偏相关系数的绝对值必小于或最多等于由同一系列资料所求得的复相关系数 详见后述 即R1 23 r12 3 2 偏相关系数的显著性检验偏相关系数的显著性检验 一般采用t 检验法 其统计量计算公式为r12 34 m为偏相关系数 n为样本数 m为自变量个数 譬如 偏相关系数r24 13 0 821 由于n 23 m 3查t分布表 可得出不同显著水平上的临界值t 若t t 则表示偏相关显著 反之 t t 则偏相关不显著 在自由度为23 3 1 19时 查表得t0 001 3 883 所以t t 这表明在置信度水平a 0 001上 偏相关系数r24 13是显著的 二 复相关系数的计算与检验 1 复相关系数的计算复相关系数 可以利用单相关系数和偏相关系数求得设Y为因变量 X1 X2 Xk为自变量 则将Y与X1 X2 Xk之间的复相关系数记为Ry 12 k 其计算公式如下当有两个自变量时 当有3个自变量时当有k个自变量时 关于复相关系数的性质 可以概括为如下几点 复相关系数介于0到1之间 即0 Ry 12 k 1复相关系数越大 则表明要素 变量 之间的相关程度越密切 复相关系数为1 表示完全相关 复相关系数为0 表示完全无关复相关系数必大于或至少等于单相关系数的绝对值 2 复相关系数的显著性检验 F 检验法 n为样本数 K为自变量个数 如R4 123 0 974 n 23 k 3 故 查F 检验的临界值表 见本书附表六 可以得出不同显著水平上的临界值F 若F F0 01 则表示复相关在置信度水平a 0 01上显著 称为极显著若F0 05 F F0 01 则表示复相关在置信度水平a 0 05上显著若F0 10 F F0 05 则表示复相关在置信度水平a 0 10上显著若F F0 10 则表示复相关不显著 即因变量Y与K个自变量之间的关系不密切 在上例中 F 120 1907 F0 01 5 0103 故复相关达到了极显著水平 2地理要素间的回归分析 地理回归分析的意义和作用一元地理回归模型的建立多元地理回归模型的建立 一 地理回归分析的意义和作用 相关分析揭示了地理要素之间相互关系的密切程度 若能在某些难测难控的要素与其他易测易控的要素之间建立一种近似的函数表达式 可以比较容易地通过那些易测易控要素的变化情况 了解那些难测难控要素的变化情况回归分析方法 是研究要素之间具体的数量关系的强有力的工具 运用这种方法能够建立反映地理要素之间具体的数量关系的数学模型 即回归模型 回归分析就是对具有相互联系的要素 根据其联系的形态 选择一个合适的数学模式 用来近似地表达要素间平均变化关系 这个数学模式称为回归模型 回归方程 回归分析与相关分析的区别与联系研究对象和内容上 a 相关分析主要是研究要素 变量 之间是否存在关系和关系的密切程度 没有自变量与因变量之分b 回归分析主要是研究要素之间联系的形态 确定要素之间关系的方程式 即回归方程 可用于对未来进行预测 对某些要素进行控制 回归分析有自变量与因变量之分 回归分析尚有地理预测的性质从相关可以获得回归的一些重要信息 反之从回归也能获得相关的一些重要信息 故它们之间是紧密相连的两个概念 回归分析的主要内容从一组地理数据出发 确定这些要素 变量 间的定量数学表达式 即回归模型根据一个或几个要素 自变量 的值来预测或控制另一个要素 因变量 的取值从某一地理过程中的许多要素中 找出哪些要素 变量 是主要的 哪些要素是次要的 这些要素之间又有些什么关系回归分析的分类一元地理回归模型和多元地理回归模型 二 一元地理回归模型的建立 一 一元地理回归模型类型的判断方法作图法差分法曲度法计算器法等 作图法 若将地理要素 x y 的数据点绘在普通方格纸上 散点图呈直线 则一元地理回归模型为直线型 若将地理要素 x y 的数据点绘在双对数格纸上 散点图呈直线 则一元地理回归模型为幂函数型 若将地理要素 x y 的数据点绘在单对数格纸上 而其横坐标取对数分格 其纵坐标为普通分格时呈直线 则一元地理回归模型为对数函数型 若将地理要素 x y 的数据点绘在单对数格纸上 而其横坐标为普通分格 其纵坐标取对数分格时呈直线 则一元地理回归模型为指数函数型 二 一元线性地理回归模型的建立 假设有两个地理要素 变量 x和y x为自变量 y为因变量 则一元线性回归模型的基本结构形式为 A B为选定参数 1 2 n为n组观测数据 x1 y1 x2 y2 xn yn 为随机变量 设a b分别为参数A和B的最小二乘估计值 于是便得到一元线性回归模型 它是代表x与y之间关系的最佳拟合直线 通常称为回归直线 a为常数 它就是y的截距b为回归系数 也就是直线的斜率 它表示在x中变更一个单位则在y中变更b个单位b 0 表示要素一齐增加或一齐减小b 0 表示一个要素增加而另一个则要减小b值的大小 反映了变化率的大小 1 参数a和b的最小二乘估计 实际观测值yi与回归值 yi之差ei yi yi 刻画了yi与 yi的偏离程度 即表示实测值与回归估计值之间的误差大小 参数a与b的最小二乘拟合原则要求yi与 yi的误差ei的平方和达到最小 即 根据取极值的必要条件 要使Q取最小值 必须使Q对a b的一阶偏导数分别等于零 即 整理后可得 此方程通常称为正规方程组 又可写成矩阵形式 解此方程组 即可得到 2 一元线性回归模型的具体建立方法与步骤 将计算表中的相应数值代入参数计算公式得到a b 3 一元线性地理回归模型的效果检验 回归模型的估计误差回归模型的显著性检验 1 回归模型的估计误差 标准估计误差是一个非常重要的量 由于它的单位和y的单位相同 所以在实际地理问题中便于比较和检验 只要比较S与允许的偏差就行了 因此 它是检验回归效果的极其重要的标志 同时也是衡量地理预测精度的指标 2 回归模型的显著性检验 F检验法 在回归分析中 y的n次观测值y1 y2 yn之间的差异 可以用观测值yi与其算术平均值的离差平方和来表示 它称为总的离差平方和 Q是所有观测点yi离回归直线的残差平方和 它表示除x对y的线性影响以外的一切因素对y的变异影响 故称为剩余平方和 残差平方和 U反映了在y的总变差中由x与y的线性关系而引起y的变化部分 称为回归平方和 一个回归效果的好坏取决于U和Q的大小 或者说取决于U在总平方和lyy中所占的比例U lyy的大小 这个比值越大 回归效果越好 反之 则回归效果越不好 对每一个平方和都有一个自由度与它相联系 正如总平方和可分解成回归平方和与剩余平方和一样 总平方和的自由度f总也等于回归平方和的自由度fU与剩余平方和的自由度fQ之和把平方和与自由度同时进行分解 并用F检验法对整个回归方程进行显著性检验的方法 就称为方差分析法 附表六 方差分析表 以北京市气温与地温关系为例 时间序列的处理 2 1 0 1 2 处理3 1 5 4 y5 1999 0 4 3 Y4 1998 2 6 5 y6 2000 1 3 2 y3 1997 2 2 1 Y2 1996 3 1 0 y1 1995 处理4 处理2 处理1 y 年份 x 课堂练习题 为了规划某地区的商业网点 需要对其商品零售额进行预测 现将统计资料列于表中 如果今后几年影响该地区零售额诸因素无多大变化 试用一元线性回归方法建立回归模型 进行效果检验 并预测2002年的商品零售额 三 一元非线性回归模型的建立 选配曲线的方法根据理论分析 过去的经验或观测数据的分布趋势与特点 来确定两个要素之间的曲线类型及其函数形式 从而求非线性地理回归模型的过程及其方法叫做曲线选配 地理上常见的非线性回归模型的建立方法幂函数型y axb对上式两边取常用对数或自然对数Lny Lna bLnx或Y A bX例 长白山北麓熔岩地地貌形态的变化 指数函数型两个地理要素 变量 之间的指数函数表达式为Y aebx或y ae bx y abx两边取常用对数或自然对数 则得Lny Lna bx或Y A bx例 长白山北坡地形高度对年降水量的影响 对数函数型y a bLnx则y a bX例 径流系数与坡度的关系 一元非线性回归模型的效果检验 相关指数R2Q是剩余平方和 lyy是总平方和相关指数的平方根也可称为相关系数相关指数越大 表明选配的回归曲线效果越好 剩余标准差越小 其回归模型的预测精度就越高 例表5 8数据 一元线性回归模型内容复习 模型的基本形式模型参数的确定效果检验 三 多元地理回归模型的建立 一 多要素线性地理回归模型的建立1 方法设某一要素y受k个要素x1 x2 xk的影响 其内在联系是线性关系 通过N组观测 得到一组地理数据为 y x 1 x 2 x n 1 2 n 设其数学结构模型为 0 1 k为待定参数 为随机变量 为了估计 仍采用最小二乘法 则得回归模型为式中 b0为常数项 b1 b2 bk为偏回归系数偏回归系数的意义表明 当其它要素 自变量 都固定时 该自变量每变化一个单位而使y平均改变的数值 该模型在几何上表示一个超平面 也可称为y对x1 x2 xk的回归平面 参数的确定过程 依最小二乘法原理 将上式分别对b0 b1 bk求偏导数 并令其等于零 正规方程组的矩阵化 例如 某一国家某一经济区内木材生产指数y 以1955年为100 受该区森林蓄积量指数x1 木材价格指数x2和运输距离指数x3的影响 如表5 10所示 试建立三元线性回归模型 并检验其有无实际意义 原始数据表 设所求的线性回归模型为 其正规方程组可写成及 根据原始数据计算后得到正规方程组解此方程得出参数值 从而得到趋势面方程 2 多元线性回归模型的显著性检验 若F0 10 k n k 1 F F0 05 k n k 1 则反映线性回归在0 10水平上显著 并在F值右上角打上一个星号 若F F0 10 k n k 1 则称线

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论