




已阅读5页,还剩50页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
GIS原理与方法 中国地质大学 武汉 信息工程学院郭际元 GIS原理与方法 1绪论2空间数据结构3地理信息系统的地理数学基础4地理信息系统的数据输入5地理信息系统的数据处理6空间数据管理8空间分析9数字高程模型11空间数据挖掘与空间决策支持系统12GIS输出与数字地图13地理信息系统工程14地理信息系统的发展趋势 11 1空间数据挖掘11 2空间决策支持系统11 3智能GIS 11空间数据挖掘与空间决策支持系统 11 1空间数据挖掘 11 1 1空间数据挖掘的概念11 1 2空间数据挖掘的方法与过程11 1 3空间数据挖掘的应用11 1 4空间数据挖掘的研究趋势 11 1 1空间数据挖掘的概念 1 空间数据挖掘的概念 1 概念空间数据挖掘 SpatialDataMining SDM 是指从空间数据库中提取隐含的 用户感兴趣的空间和非空间的模式和普遍特征 空间数据与非空间数据之间的普遍关系的过程 2 空间数据挖掘的特点 与传统数据挖掘的不同 1 传统数据挖掘处理的是数字和类别 而空间数据则是一些更为复杂的数据类型 例如 点 线 多边形等对象 2 传统数据挖掘通常具有显式的输入 而空间数据挖掘的输入则常常是隐式的 3 在传统数据挖掘中 有一个至关重要的前提假设 数据样品是独立生成的 而这一假设在空间分析中是不成立的 事实上 空间数据之间是高度自关联的 3 空间数据挖掘的产生 产生空间数据挖掘的推动力 1 空间信息正在逐步成为各种信息系统的主体和基础 它有着比一般关系数据库和事务数据库更加丰富和复杂的语义信息 包含着更丰富的知识 2 在地学领域 随着卫星和遥感技术的广泛应用 日益丰富的空间和非空间数据收集和存储在大空间数据库中 海量的地理数据在一定程度上已经超过了人们处理能力 同时传统地学分析难以胜任从这些海量的数据中提取和发现地学知识 因此 迫切需要增强GIS分析功能 提高GIS解决地学问题的能力 数据挖掘与知识发现的出现很好地满足了地球空间数据处理的需要 推动了传统地学空间分析的发展 4 空间数据挖掘的发展现状 武汉大学李德仁教授最早 1994年 关注到从GIS数据库中发现知识的问题 提出从GIS数据库可以发现包括普遍的几何知识 空间分布规律 空间关联规则 空间聚类规则 空间特征规则 空间区分规则 空间演变规则和面向对象的知识 目前 国际上最著名且有代表性的通用SDM系统有 GeoMiner Descartes和ArcViewGIS的S PLUS接口 以上SDM系统的共同优点是把传统DM与地图可视化结合起来 提供聚类 分类等多种挖掘模式 但它们在空间数据的操作上实现方式不尽相同 Descartes是专门的空间数据可视化工具 它和DM工具Kepler两者联合在一起才能完成SDM任务 GeoMiner是在MapInfo平台上进行二次开发而成 系统庞大 造成较大的资源浪费 S PLUS的局限在于 它是用一种解释性语言 Script 功能的实现比用C和C 直接实现要慢得多 所以只能使用于非常小的数据库应用 11 1 2空间数据挖掘的方法与过程 1 空间数据挖掘方法 1 空间分析方法空间分析能力是GIS的关键技术 是GIS系统区分于一般制图系统的主要标志之一 空间分析方法常作为数据预处理和特征提取方法与其他数据挖掘方法结合使用 2 统计分析方法统计方法一直是分析空间数据的常用方法 着重于空间物体和现象的非空间特性的分析 它具有较强的理论性和成熟的算法 多用于处理数字型数据 统计分析方法中的回归分析 方差分析 主成分分析 因子分析等方法经常用于规律和模式的提取 统计方法的最大缺点是要假设空间分布数据具有统计不相关性 但在空间数据挖掘中 由于空间对象属性的相关性很强 在一定程度上限制了统计分析方法在空间数据挖掘中的使用 实例 问题 某地区气象观测站的最优设置 某地区内有12个气象观测站 为了减少开支 计划减少气象观测站的数目 已知该地区12个气象站的位置 以及10年来测得的年降水量 考虑减少哪些观测站可以使所得的降水量的信息足够大 模型的假设条件 1 该地区的地理特性有一定的均匀性 而不是复杂多变的地理特性 2 相近地域的气象特性具有较大的相似性和相关性 可以近似为一种线性关系 3 在距离较远的条件下 由于地形 环境等因素而造成不同区域的年降水量相似的可能性很小 可以忽略 不同区域年降水量的差异主要与距离有关 建模分析在原始数据中 若有n个观测站可以反映同一规律 可认为这n个观测站相关性好 相似性好 可以去掉其中的n 1个观测站 只保留一个 以这个观测站得到的观测值作为所去掉的n 1个观测站的代表 反映相似区域的气象规律 在减少观测站后 所保留下的观测站仍能为预报工作提供足够的信息 数据模型任意两站的距离及平均降水量 年平均降水量 允许误差等 可以得出 一个站代替另一站的最小距离 只需设的站数 须保留的哪几个站点 应保留的观测站 8个 3 归纳学习方法归纳学习是从大量的己知数据中归纳抽取出一般的判断规则和模式 一般需要相应的背景知识 归纳学习在数据挖掘中的使用非常广泛 己经有了成熟的理论算法 如著名的C4 5算法 由ID3算法发展而来 具有分类快和适用于大型数据库的特点 AOI 面向属性的归纳方法 能归纳出高层次的模式或特征 4 空间关联规则挖掘方法关联规则反映一个事物与其他事物之间的相互依赖性或相互关联性 如果两个或多个事物之间存在关联 那么 其中一个事物就能从其他己知事物中预测得到 所谓关联规则是指数据集中支持度和信任度分别满足给定闭值的规则 经典的算法有R Agrawal等人提出的Apriori算法 以及对其的改进算法 AprioriTid APrioriHibrid等 空间关联分析 即空间关联规则发现 形式 A B s c A和B是空间和非空间谓词的集合 s 表示规则的支持度 c 表示规则的可信度 例 is a X school close to X sports center close to X park 0 5 80 此规则表明80 靠近体育中心的学校同时也靠近公园 并且有0 5 的数据符合这一规则 构成空间关联规则的谓词 距离信息 close to 临近 far away 远离 拓扑关系 intersect 交 overlap 重叠 disjoin 分离 空间方位 left of 左边 west of 西部 空间关联规则的挖掘需要在大量的空间对象中计算多种空间关系 代价极高 所以应采用逐步求精的挖掘优化方法 Koperski 1 通过空间查询从初始空间数据库中获得和任务相关的空间数据库 2 使用一些有效空间挖掘算法计算对象之间的空间联接 从而获得一个候选谓词集合 3 对 2 中所得到的谓词集合中的每一个谓词计算其支持度 并且将那些支持度小于最小支持度的谓词删除 4 对谓词集合进行进一步精化以决定准确的空间关系 5 以 4 所得的候选集作为输入 生成空间关联规则 5 聚类方法空间聚类分析是要将空间数据库中的对象按照某些特征划分为不同的有意义的子类 同一子类中的对象具有高度相似的某种特征 并与不同子类的特征具有明显的差异 巩华荣 2007 采用聚类分析的优点在于 想获取的结构或簇可以直接从数据中找到 不需要任何背景知识 主要聚类方法的分类 1 划分方法 给定一个n个对象或元组的数据库 一个划分方法构建数据的k个划分 每个划分表示一个簇 即k个组 k n 同时要求 1 每个划分至少包含一个对象 2 每个对象必须属于且只属于一个组 给定要构建的划分的数目k 划分方法首先创建一个初始划分 然后采用一种迭代的重定位技术 尝试通过对象在划分间移动来改进划分 一个好的划分的准则 在同一个类中的对象之间尽可能 接近 或相关 而不同类中的对象之间尽可能 远离 或不同 流行的启发式方法 1 k 平均算法 2 k 中心点算法 2 层次的方法 对给定数据对象集合进行层次的分解 凝聚的方法 自底向上的方法 一开始将每个对象作为单独的一个组 然后相继地合并相近的对象或组 直到所有的组合并为一个 层次的最上层 或者达到一个终止条件 分裂的方法 自顶向下的方法 一开始将所有的对象置于一个簇中 在迭代的每一步中一个簇被分裂为更小的簇 直到最终每个对象在单独的一个簇中 或者达到一个终止条件 3 基于密度的方法 只要临近区域的密度 对象或数据点的数目 超过某个阈值 就继续聚类 对给定类中的每个数据点 在一个给定范围的区域中必须至少包含某给定数目的点 这样的方法可以用来过滤 噪声 孤立点 发现任意形状的簇 4 基于网格的方法5 基于模型的方法 6 分类方法是指分析空间对象导出与一定空间特征有关的分类模式 空间分类的目的是在空间数据库对象的空间属性和非空间属性之间发现分类规则 分类方法 空间分类发现的规则在模式识别 基于内容的查询 图象分类等应用中具有重要应用 数据分类 dataclassification 是一个两步过程 1 建立一个模型 描述预定的数据类集或概念集 或称作分类器 要构造分类器 需要有一个训练样本数据集作为输入 训练集由一组数据库记录或元组构成 每个元组是一个由有关字段 又称属性或特征 值组成的特征向量 此外 训练样本还有一个类别标记 训练样本形式 v1 v2 vn c 其中vi表示字段值 c表示类别 2 使用模型进行分类 分类器的构造方法有统计方法 机器学习方法 神经网络方法等等 机器学习方法包括决策树法和规则归纳法 神经网络法主要是BP算法 决策树方法的分类稳定性优于神经网络方法 决策树分类Fayyed等人使用决策树方法对星形结构对象的图像进行分类 从而探测行星与银河系 他们的方法是使用FOCAS系统为选中的对象 例如天空图像 生成区域 方向等的基本属性 训练集中的对象由宇航员来分类 基于这些分类 构成用于决策树算法的10个训练集 决策树是通过学习算法得到的 最后 由决策树生成一个健壮 通用 正确的最小分类规则集合 该方法处理的是图像数据库 并应用于天文研究领域 但它却不善于处理常用于GIS中的向量数据格式 贝叶斯分类贝叶斯分类方法的关键是使用概率表示各种形式的不确定性 在选择某事件面临不确定性时在某一时刻假定此事件会发生的概率 然后根据不断获取的新的信息修正此概率 修正之前的概率称为先验概率 修正之后的概率称为后验概率 贝叶斯原理就是根据新的信息从先验概率得到后验概率的一种方法 贝叶斯方法在使用先验信息方面由于没有确定的理论依据 存在颇多争议 但是在大型数据集方面 贝叶斯分类方法具有高准确率和高运算速度 7 神经网络方法人工神经网络是近年来的一个研究热点 在信号处理 模式识别 人工智能 自适应控制 决策优化等众多领域得到了广泛的研究和应用 神经网络由多个非常简单的处理单元 神经元 按某种方式相互连接而形成 靠网络状态对外部输入信息的动态响应来处理信息 神经网络在数据挖掘中主要用于获取分类知识 优点是分类精度高 对噪声具有稳健性 缺点是获得的知识隐含在网络结构中 不容易被人们理解和解释 而且网络训练时间一般比较长 不易利用领域知识 8 粗集理论粗集理论是波兰华沙大学Z Pawlak教授在1982年提出的一种智能数据决策分析工具 被广泛研究并应用于不精确 不确定 不完全的信息的分类分析和知识获取 粗集理论为空间数据的属性分析和知识发现开辟了一条新途径 可用于空间数据库属性表的一致性分析 属性的重要性 属性依赖 属性表简化 最小决策和分类算法生成等 粗集理论与其它知识发现算法结合可以在空间数据库中数据不确定的情况下获取多种知识 9 模糊集理论模糊集理论是L A Zadeh教授在1965年提出的 它是经典集合理论的扩展 专门处理自然界和人类社会中的模糊现象和问题 利用模糊集合理论 对实际问题进行模糊判断 模糊决策 模糊模式识别 模糊簇聚分析 系统的复杂性越高 精确能力就越低 模糊性就越强 这是Zadeh总结出的互克性原理模糊集理论在遥感图像的模糊分类 GIS模糊查询 空间数据不确定性表达和处理等方面得到了广泛应用 10 云理论云理论是李德毅院士提出的用于处理不确定性的一种新理论 云理论由云模型 虚拟云 云运算 云变换和不确定性推理等内容构成 云模型将模糊性和随机性相结合 解决了作为模糊集理论基础的隶属函数概念的固有缺点 为数据挖掘中定量与定性相结合的处理方法奠定了基础 虚拟云和云变换用于概念层次结构删除和概念提升 云推理用于不确定性预测等 云理论在知识表达 知识发现 知识应用等方面都可以得到充分的应用 11 遗传算法遗传算法 简称GA 是模拟生物进化过程的算法 最先由美国的JohnHolland教授于20世纪60年代初提出 其本质是一种求解问题的高效并行全局搜索方法 它能在搜索过程中自动获取和积累有关搜索空间的知识 并自适应地控制搜索过程以求得最优解 遗传算法已在优化计算 分类 机器学习等方面发挥了显著作用 数据挖掘中的许多问题 如分类 聚类 预测等知识的获取 可以表达或转换成最优化问题 进而可以用遗传算法来求解 12 空间趋势分析空间趋势指离开一个给定的起始空间对象时 非空间属性的变化情况 例如 当离城市中心越来越远时经济形势的变化趋势 其分析结果可能是正向趋势 反向趋势或者没有趋势 一般在空间数据结构和空间访问方法之上分析空间趋势 需要使用回归和相关的分析方法 由于空间对象自身的特殊性 传统的回归模型可能并不合适 例如 传统的线性回归模型 y X 对空间对象就不适用 需要使用空间自回归SAR模型 y Wy X 公式11 1 13 概念格理论概念格是由R Wille在1982年首先提出的 作为数据分析的有力工具 概念格己经被广泛地应用于知识发现和数据挖掘领域 它的每一节点称为一个概念 每个概念由概念格的外延和内涵两部分组成 概念的外延表示属于这个概念所有对象的集合 而内涵则表示为所有这些对象所共有的属性集合 概念格描述了对象和属性之间的关系 概念格的哈斯图清晰地表明了概念间的泛化和特化关系 并实现了知识的可视化 因此 概念格理论已经被广泛地应用于知识工程 知识管理 数据挖掘 信息检索及软件工程等领域 14 支持向量机支持向量机 SupportVectorMachine SVM 是一种新的机器学习技术 由Vapnik和他的同事于1995年提出 刘叶青 2008 它能非常成功地处理回归问题 时间序列分析 和模式识别 分类问题 判别分析 等诸多问题 并可推广于预测和综合评价等领域 因此可应用于理科 工科和管理等多种学科 目前国际上支持向量机在理论研究和实际应用两方面都正处于飞速发展阶段 它广泛的应用于统计分类以及回归分析中 支持向量机属于一般化线性分类器 这族分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区 因此支持向量机也被称为最大边缘区分类器 2 空间数据挖掘过程空间数据挖掘是一个复杂的过程 这一过程分为三个阶段 空间数据的获取和预处理 空间数据挖掘 空间数据的评价和可视化解析 如图11 1所示 1 空间数据的获取和预处理空间数据的获取和预处理需要经历三个步骤 数据准备 了解空间数据挖掘相关领域的基本情况 学习该领域的先决知识 分析挖掘的目的 构造概念分层 数据选择 根据需要从空间数据库中提取与空间数据挖掘相关的数据 使用合适的空间数据结构和数据访问方法 数据预处理 消除噪声数据 统一数据格式和数据源 对丢失数据利用统计方法进行填补 确保数据的完整性和一致性 2 空间数据挖掘空间数据挖掘阶段又分为三个步骤 确定目标 对于空间数据挖掘的不同要求 会在具体的知识发现过程中采用不同的数据挖掘算法 所以首先要确定空间数据挖掘的目标 建立模型 根据空间数据挖掘的目标 选择合适的数据挖掘算法 建立空间数据挖掘的模型 并使得数据挖掘模型和整个空间数据挖掘的评判标准相一致 数据挖掘 运用选定的数据挖掘算法 从数据中提取用户所需要的知识 这些知识可以用特定的方式表示 也可以用常规的方式表示 3 空间数据的评价和可视化解析空间数据的评价和可视化解析阶段包括模式解释 知识评价和可视化展示 模式解释 对于数据挖掘的模式进行解释 有时为了取得更有效的知识 可能返回到前面的步骤进行反复提取 知识评价 将数据挖掘得到的知识以能理解的方式展现 包括对结果的一致性检查 以确保本次发现的知识不与领域的相关知识相抵触 可视化展示 将数据挖掘的知识用可视化的方法展示 如GIS技术 将空间数据挖掘的结果展布于空间地图上 3 GIS与空间数据挖掘的集成模式 1 松散耦合式 外部空间数据挖掘模式这种模式基本上将GIS作为一个空间数据库看待 在GIS环境外部借助其它软件或计算机语言进行空间数据挖掘 其与GIS之间采用数据通讯的方式联系 松散耦合式框架图 2 嵌入式 内部空间数据挖掘模式 在GIS中将空间数据挖掘技术融合到空间分析功能中去 3 混合型空间模型法是前两种方法的结合 即尽可能利用GIS提供的功能 最大限度的减少用户自行开发的工作量和难度 并保持外部空间数据挖掘模式的灵活性 11 1 3空间数据挖掘的应用 空间数据挖掘的应用概括起来主要有以下几个方面 1 可用于对空间数据的理解 发现显示或隐含的空间目标或现象空间关系 指导科研人员进行更有效的工作 2 可用于空间数据库管理系统中对空间数据库的数据集进行重组和空间查询的优化 3 可作为辅助决策支持和分析的工具 4 可为空间数据仓库提供比SOLAP SpatialOnlineAnalyticalProcess 更高级的分析工具 5 可与GIS和其它IT工具高度集成构成智能化软件包 11 1 4空间数据库挖掘的研究趋势 1 算法的效率空间数据的复杂性和数据的大量性 TB数量级的数据库出现 必然增大发现算法的搜索空间 增加了搜索的盲目性 提高算法效率成为空间挖掘算法在实际应用中的不可避免的巨大挑战 2 数据挖掘方法和任务的多样性现有空间挖掘方法与任务都是有限的 3 对复杂空间数据库的处理象面向对象空间数据库 时空数据库 多媒体空间数据库这样复杂的空间数据库在不断地涌现和发展 4 网络环境下空间数据挖掘跨入新的世纪 网络发展更加迅速 网络的资源也日益丰富 研究适应于网络环境下的空间数据挖掘技术 工具和系统是大势所趋 5 空间查询语言数据库技术的飞速发展的原因之一就是数据库查询语言的不断完善和发展 要不断完善和发展空间数据挖掘就必须发展空间查询语言 这样才能为高效快速的空间数据挖掘奠定坚实的基础 11 2空间决策支持系统 11 2 1空间决策支持系统的概念11 2 2空间决策支持系统的结构11 2 3空间决策支持系统的功能与应用 11 2 1空间决策支持系统的概念 空间决策支持系统 SpatialDecisionSupportSystem SDSS 是由空间决策支持 空间数据库等相互依存 相互作用的若干元素构成 并进行空间数据处理 分析和决策的有机整体 即具有地理数据管理 空间分析与模拟以及决策分析能力的交互式计算机系统 11 2 2空间决策支持系统的结构 11 2 3空间决策支持系统的功能与应用 1 空间决策支持系统的功能 1 及时 准确的向决策者提供信息 决策行为的实效性很强 必须在规定的时间内作出 因此 要求SDSS能及时地提供决策者信息 即使不能实时的提供信息 也要在允许范围内尽快地为决策者提供信息 信息的准确性就是反映客观事物的真实性 如果信息不准确 就会误
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 合同到期短期续租协议书
- 合同加名的补充协议模板
- 农村转房协议合同书模板
- 医院医生解聘合同协议书
- 临沂买卖按揭房合同范本
- 化肥厂收购废料合同范本
- 农村租地合同协议书范本
- 医院合作协议书合同模板
- 协议分割债务协议书模板
- ktv股份转让合同范本
- 项目部材料管理制度要点
- 消防安全检查记录表(完整详细版)1
- (完整)动画运动规律动物ppt
- 光伏电站项目监理旁站方案
- 2022年家用空调安装合同范本
- 二手车鉴定评估的报告书
- 教学课件 金属学与热处理-崔忠圻
- 多智能体系统教材课件汇总完整版ppt全套课件最全教学教程整本书电子教案全书教案课件合集
- 艺术欣赏完整版课件全套ppt教程(最新)
- 北师大版五年级数学上册全册教案含反思
- 有限空间作业考试题库600题含答案
评论
0/150
提交评论