第六章 空间统计分析.ppt_第1页
第六章 空间统计分析.ppt_第2页
第六章 空间统计分析.ppt_第3页
第六章 空间统计分析.ppt_第4页
第六章 空间统计分析.ppt_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章空间统计分析 6 1属性数据统计分析6 2回归分析6 3GIS数据内插方法6 4景观格局分析 6 1属性数据统计分析 1属性数据的集中特征数 1 频数和频率将变量xi i 1 n 按照大小顺序排列 并按一定的间距分组 变量在各组出现或发生的次数称为频数 各组频数与总频数之比叫做频率 计算出各组的频率后 可以作出频率分布图 若以纵轴表示频率 横轴表示分组 就可以作出频率直方图 用以表示事件发生的频率和分布状况 分组编号数值频数频率1 1 3 1 1 2 3 3 360 242 4 6 4 5 5 640 163 7 9 7 8 8 8 950 204 10 12 10 10 11 1240 165 13 15 13 13 14 14 15 1560 24 频率分布表 频率直方图 2 平均数平均数反映了数据取值的集中位置 对于数据Xi i 1 2 n 通常有简单算术平均数 加权算术平均数 调和平均数和集合平均数 简单算术平均数 将所有数据的数值相加 再除以数据的总数目 公式为 加权算术平均数 当数据对数据总体的影响的权重值不同时 计算该平均数 将每个数据乘以权值后再相加 所得到的和除以数据的总体权重数 计算公式为 调和平均数 各个数据的倒数的算术平均数的倒数 又称为倒数平均数 调和平均数也分简单调和平均数和加权调和平均数 其公式分别为 几何平均数 是n个数据连乘的积开n次方根 计算公式为 3 数学期望以概率为权值的加权平均数称为数学期望 其计算公式为 其中 Pi为事件发生的概率 4 中位数对于有序排列的数据集X 位于中间位置的数据即为中位数 中位数可以代替算术平均数反映某种现象变化的一般水平 不受极端值的影响 在有极大值和极小值的有序数据集中 当数据的个数n为奇数时 n 1 2位数为中位数 n为偶数时 n 2和 n 2 1位的两个数的平均值即为中位数 5 众数众数是一个数据集或一组变量中出现次数最多的数据或变量 众数可能不唯一 也不受极端值的影响 在总体数据数目或变量数目较多的情况下 它反映数据或变量分布的集中趋势 2属性数据的离散特征数 1 极差极差是一组数据中最大值与最小值之差 即R Max x1 x2 xn Min x1 x2 xn 根据定义 一个数据集的离差和恒等于0 若将离差取绝对值后求和 再取平均值 得到平均离差 2 离差 平均离差与离差平方和一组数据中的各数据值与其平均数之差称为离差 即 离差平方和 平均离差和和离差平方和是表示各数值相对于平均数得离散程度的重要统计量 3 方差与标准差方差是均方差的简称 是以离差平方和除以变量个数求得的 记为s2 即 4 变差系数变差系数用来衡量数据相对变化的程度 标准差是方差的平方根 记为 3属性数据的图表分析 1 直方图根据属性数据的某一属性特征值的分布区间将其标识在二维坐标系中 一个坐标轴代表了属性特征值的值域 另外一个坐标轴代表了对应每一属性特征值的数目 直方图可以很好地反映属性数据的分布趋势 2 散点图散点图一般是在二维平面上表示 以属性数据的两个属性特征值作为坐标轴 将属性数据标识在二维坐标系中 形成二维空间中的一些离散点 通过判断这些离散点的相互关系 进而确定两种属性的相互关系及其相关性 3 折线图以属性数据的两个属性特征值作为坐标轴 将属性数据标识在二维坐标系中 然后沿着一个坐标轴的方向 将这些属性数据连线 构成折线图 反映了一种属性随着另外一种属性持续变化的发展动态及变化趋势 4 柱状图柱状图是用长方形的条柱表示属性数据 而条柱的长度则表示为某一属性的大小 可以用条柱的颜色和文理来表示不同的属性特征 有水平条柱图和竖直条柱图之分 5 饼状图在表示属性数据的某些特征时 一个饼状图分为若干扇形 每个扇形代表了一个属性数据 该扇形的面积或者弧长则表示该属性数据的一个属性特征在众多属性数据中所占的比重 属性数据越多 用饼状图表示的效果越差 4属性数据的综合评价 1 主成分法在处理实际问题时 多个变量之间经常存在一定的相关性 为了降低分析时间和分析难度 提高分析效率 希望能够用较少的几个变量来代替原有的多个变量 且要求这较少的几个变量能够尽可能反映原有的多个变量的信息 主成分法就是这样一种降维方法 基本原理主成分分析是把多个变量划分为少数几个综合指标的一种统计分析方法 从数学角度看 是一种降维处理技术 假定有n个地理样本 每个样本都有p个变量 则构成一个n p矩阵 记原来的变量指标为x1 x2 xp 新变量指标为z1 z2 zm m p 则 当p较大时 如果在p维空间中考察问题 问题比较复杂 需要进行降维 系数aij确定原则 i zi和zj相互无关 ii z1是x1 xp的一切线性组合中方差最大者 z2是与z1不相关的x1 xp的所有线性组合中方差最大者 zm是与z1 xm 1不相关的x1 xp的所有线性组合中方差最大者 这样确定的新变量z1 z2 zm m p 分别称为原变量x1 x2 xp的第1 第2 第m主成分 其中z1在总方差中占的比例最大 z2 zm方差依次递减 找主成分就是确定原来变量xj在诸主成分zi上的荷载aij 他们分别是x1 x2 xp的相关矩阵的m个较大的特征值所对应的特征向量 计算步骤 i 计算相关系数矩阵 公式 1 ii 计算特征值与特征向量解特征方程 I R 0求出特征值 i i 1 p 并使其按照大小顺序排列 即 1 2 p 0 然后分别求出对应于特征值 i的特征向量ei i 1 p iii 计算主成分贡献率及累计贡献率 主成分zi的贡献率为 累计贡献率为 i 1 p 一般取累计贡献率85 95 的特征值 1 2 m所对应的第1 第2 第m个主成分 iv 计算主成分载荷 应用实例 i 计算相关系数矩阵 x1x2x3x4x5x6x7x8x9x11 000 0 327 0 714 0 3360 3090 4080 7090 1560 744x2 0 3271 000 0 0350 6440 4200 2550 009 0 0780 094x3 0 714 0 0351 0000 070 0 740 0 755 0 930 0 109 0 924x4 0 3360 6440 0701 0000 3830 069 0 046 0 0310 073x50 3090 420 0 7400 3831 0000 7340 6720 0980 747x60 4080 255 0 7550 0690 7341 0000 6580 2220 707x70 7090 009 0 930 0 0460 6720 6581 000 0 0300 890 x80 156 0 078 0 109 0 0310 0980 222 0 0301 0000 290 x90 7440 094 0 9240 0730 7470 7070 8900 2901 000 ii 由相关系数矩阵计算特征值 以及各个主成分的贡献率与累计贡献率 主成分特征值贡献率 累积贡献率 z14 66151 79151 791z22 08923 21675 007z31 04311 58986 596z40 5075 63892 234z50 3153 50295 736z60 1932 14097 876z70 1141 27199 147z80 0450 50499 650z90 0310 350100 00 根据上表中的数据 第一 第二 第三主成分的累积贡献率已经达到了86 596 因此只需要求出这三个主成分z1 z2 z3即可 iii 对于特征值 1 4 661 2 2 089 3 1 043分别求出其特征向量e1 e2 e3 再计算出各变量x1 x2 x9在主成分z1 z2 z3上的载荷 z1z2z3占方差的百分数 x10 739 0 532 0 00682 918x20 1230 887 0 00280 191x3 0 9640 0090 00992 948x40 0040 8680 00375 346x50 8130 444 0 00185 811x60 8190 1790 12571 843x70 933 0 133 0 25195 118x80 197 0 1000 97098 971x90 964 0 0020 00992 939 从表中可以看出 第一主成分z1与x1 人口密度 x5 人均粮食产量 x6 经济作物比例 x7 耕地比例 x9 灌溉田比例 呈现出较强的正相关 与x3呈现出较强的负相关 这几个变量综合反映了生态经济结构状态 因此可以认为z1是生态经济结构的代表 第二主成分z2与x2 人均耕地面积 x4 人均收入 x5 人均粮食产量 呈现出较强的正相关 与x1呈现出较强的负相关 除了x1 x2 x4 x5这几个变量都反映了人均资源占有量的情况 因此可以认为z2代表了人均资源量 第三主成分z3与x8 果园面积比例呈现的正相关程度最高 其次是x6 经济作物比例 而与x7 耕地比例 呈负相关 因此可以认为第三主成分在一定程度上代表了农业经济结构 表中最后一列 占方差的百分数 在一定程度上反映了三个主成分z1 z2 z3包含原变量的信息量多少 显然 用这三个主成分代替原来的9个变量 可以使问题简化 在实际应用中 一般只选择前几个主成分进行应用 因为前几个主成分的方差占总方差的95 以上 这样既降低了原始数据的数据量 又降低了原始数据的相关性 简化了处理问题的复杂性 例如 遥感TM多光谱图像具有七个波段 其中1 2 3均为可见光波段 彼此之间高度相关 波段4 5 6 7为红外线波段 也具有较高的相关性 对TM数据进行主成分分析 可以将原来相关的多个波段转换为较少的几个彼此不相关的主成分波段 2 层次分析法层次分析法由美国运筹学家Satty于20世纪70年代提出 该方法能够对一些模糊的和复杂的决策问题进行求解 层次分析法能将复杂的地理问题系统化 模型化 通过定性描述与定量分析相结合来解决多决策的地理问题 当人们面对一个由相互制约 相互关联的多因素构成的复杂的 缺少辅助信息和定量数据的决策问题时 可以使用层次分析法 层次分析法可以系统化 层次化地将一个复杂的决策问题分解为若干组成因素 并根据各个组成要素与决策目的 备选方案之间的支配关系形成层次结构 然后应用两两比较的方法来确定各个备选方法的相对重要性 将人的主观判断用定量化的形式表达出来并进行科学处理 进而得到决策问题的最终解 排序原理是层次分析法的基本原理 层次分析法形式简单 对复杂问题构建层次模型十分方便 容易被人理解和接受 应用较广 对复杂问题构建层次模型一般分为6个步骤 1 分析问题 明确问题的实现目标 组成因素 影响因子 权重 和备选方案 2 建立层次结构 层次结构由三层构成 最上层是目标层 将研究问题最终要得到的结论 目的 放入该层 中间层是准则层 将解决问题所需要的各个组成因素和与之对应的影响因子 权重 放入该层 最底层是决策层 将备选方案放入该层 层次分析法的结构 3 构建关联 将准则层的准则与决策层的备选方案之间建立关联 确定每一条备选方案受到哪些准则的影响 4 建立判断矩阵 判断准则层和决策层中的各个元素与本层中的其他元素之间的相对重要性 5 层次排序 分为层次单排序和层次总排序两种类型 层次单排序是指对于上一层中的每个元素 确定本层中与之有关联的多个元素之间的重要性 并进行排序 得到重要性权重 层次总排序是指当完成上一层中每个元素的单排序后 可以根据所有元素的重要性权重对本层中所有元素进行排序 6 一致性检验为了评价层次排序结果的一致性 需要进行一致性检验 检验公式为 如果一致性检验满足一定的条件 其结果即为当前的最优结果 6 2回归分析回归分析主要是探讨两个或两个以上变量之间关系的一种数据分析方法 变量之间的关系可以分为两类 函数关系 也称确定性关系 变量之间的关系可以用一个函数关系式精确表示 如长方形面积与周长的函数关系y ab 统计关系 也称为随机关系 是指多变量之间具有一定的关联性 但是不能用确定的函数关系式精确表示 即不能根据自变量完全确定因变量的值 如人的身高和体重之间的关系 回归分析是指对具有相关统计关系的多个变量 根据其关系形态 选择一个合适的数学模型 用来近似地表示多个变量之间的平均变化关系的一种统计分析方法 该数学模型用函数关系式表示为Y f x1 x2 xn 该方程称为回归方程 根据回归模型中变量的个数 回归曲线的形态和回归变量的特征分为一元线性回归 多元线性回归 非线性回归 趋势面分析和空间回归等 1一元线性回归分析 1 一元线性回归分析设因变量y与自变量x具有统计关系 现在获得n组独立的观测数据 xi yi 其中i 1 2 n 则一元线性回归分析模型的最通常的形式为 Yi xi i i 1 2 n 其中误差项 i相互独立 服从同一分布N 0 2 因此一元线性回归模型可以表示为 其中 和 称为模型的回归参数或回归系数 一元线性模型有两个部分 x的线性函数加上误差项 线性部分反映了由于x的变化而引起的Y的变化 误差项 i反映了随机因素对Y的影响 2 总体回归方程和样本回归方程总体回归直线为E Y X 方程的图示是一条直线 其中 是回归直线在y轴上的截距 是直线的斜率 表示当x每变动一个坐标轴单位时 y的平均变动值 样本回归直线为 E Y X 总体回归方程 t 1 n 是估计值 和是 的估计值 样本的回归模型为 其中et是残差 即样本估计值与样本实际值的差 3 一元线性回归模型的回归参数估计回归参数估计的基本思想是 根据大量已知样本值来确定回归方程时 总是希望y的估计值从整体来看尽可能接近其实际观测值 即残差e的总量越小越好 残差e的取值有正值也有负值 其代数和可能为零 因此采用残差平方和来衡量总体偏差的大小 对回归系数使用最小二乘法进行估计 设 将Q对和求偏导 并令其等于零 整理得 解此方程组可得 2多元线性回归分析 1 多元线性回归模型设因变量Y与自变量X1 X2 Xn之间共有n组观测数据 且假定因变量与自变量之间存在线性关系 则其数学模型为Y 0 1X1 2X2 mXm 多元回归模型除了满足一元回归模型的基本假定外 还要求多个自变量之间不能有较强的线性关系 多元回归模型的矩阵表示形式为 Y X 2 多元线性回归模型的参数估计设m元线性回归方程为y b0 b1x1 b2x2 bmxm其中b0 b1 b2 bm为最小二乘估计值 Q为关于b0 b1 b2 bm的m 1元函数 根据多元函数求极值的方法 得到回归系数 其中cij是系数矩阵A的逆矩阵的元素 3非线性回归分析 1 非线性回归分析常用的函数抛物线函数 Y a bX cX2双曲线函数 Y a b 1 X 幂函数 Y aX1b1X2b2 Xkbk指数函数 Y abX对数函数 Y a blnXS型曲线函数 Y L 1 ae bx L a b 0 多项式函数 Y b0 b1X b2X2 bkXk 2 非线性回归模型的估计非线性回归模型的参数估计 可将非线性函数通过改变因变量表达形式 将其转换为线性回归模型 从而求得回归参数 常用的变换有以下几种 倒数变换 对于双曲线方程Y a b 1 X 设X 1 X 则双曲线方程可以变换为一元线性方程Y a bX 半对数变换对于对数函数Y a blnX 设X lnX 则对数函数变换为函数Y a bX 双对数变换对于幂函数Y aX1b1X2b2 Xkbk 对两边求对数得到lnY lna b1lnX1 b2lnX2 bklnXk设Y lnY b0 lna X1 lnX1 Xk lnXk则幂函数可以转化为多元线性模型Y b0 b1X1 b2X2 bkXk 多项式变换对于多项式函数Y b0 b1X b2X2 bkXk设X1 X X2 X2 Xk Xk 则方程变换为Y b0 b1X1 b2X2 bkXk 4趋势面分析趋势面分析是利用数学曲面模拟现实世界地理要素在空间上的分布及变化趋势的一种方法 是一种线性多元多重统计分析方法 趋势面分析实质上是通过回归分析原理 利用最小二乘法拟合一个曲面函数 模拟地理要素在空间上的分布规律 展示地理要素在地域空间上的变化趋势 1 趋势面分析模型的建立趋势面模型包括两个部分 即趋势曲面和随机干扰 所以趋势面的理论模型为 趋势面 趋势曲面 随机干扰设z x y 表示研究对象的某一种特征值 即某地理要素的实际观测值 f x y 表示某一趋势面函数 表示随机干扰误差项 则趋势面分析模型为Zi x y fi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论