GIS数据库中的数据挖掘_第1页
GIS数据库中的数据挖掘_第2页
GIS数据库中的数据挖掘_第3页
GIS数据库中的数据挖掘_第4页
GIS数据库中的数据挖掘_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、GIS数据库中的数据挖掘整理时间2009-07-21阅读次数1100来源:中国GIS资讯网 文字大小:【大】【中】【小】摘 要:首先探讨了 DM在GIS中应用的必要性和可能性,然后讨论了 GIS 数据库中的DM可以发现的知识类型、可以使用的方法,可以采用的DM系统原 型,最后简单介绍了 DM对GIS的贡献。关键词:数据挖掘(DM)地理信息系统(GIS)专家系统(ES)1引言DM(Data Mining数据挖掘)是指把人工智能、机器学习与数据库等技术结 合起来,由计算机自动地从数据库或数据仓库中的大量数据中揭示出隐含的、 先前未知的并具有潜在价值的信息或模式,以解决数据量大而知识贫乏这一 困扰专

2、家系统(ES)的知识瓶颈问题的非平凡过程。这一概念一经提出,立即引 起了学者、软件开发商和用户的极大兴趣,国外纷纷建立了许多专门研究知 识发现和数据挖掘的公司或部门,从数据挖掘的基本概念和原理开始,直到挖 掘方法、算法以及软件工具,进行了广泛深入的研究。到目前为止,已经形 成了比较完整的数据挖掘理论和方法体系,并且出现了许多实用的数据挖掘工 具,广泛应用于商业、金融、保险、医疗、化工、制造业、工程和科学等领 域,产生了巨大的效益。GIS(Geographic Information System地理信息系统)是以采集、存储、 描述、分析和应用与空间地理分布有关的数据的计算机系统。作为数据库管理

3、 技术、计算机图形学以及空间分析方法的共同产物,它已在社会、军事、经 济和管理部门得到了长足的发展和广泛的应用。目前,它正逐步与遥感(RS) 和全球定位系统(GPS)技术相结合,向集成 化、自动化及智能化迈进。专家系 统技术在遥感影像解释、地形数据的表达及语义和非语义信息的提取等方面的 应用,正是为了提高这种高集成度的地理信息系统的自动化和可靠性。然而, 尽管专家系统中的知识表达和知识应用的研究取得了不少的进展和成果,其知 识获取仍然主要依赖于专家和知识工程师,离知识自动生成还有相当大的差 距。因此,知识获取问题成了专家系统发展的瓶颈,也成了建立智能化遥感与 地理信息系统的瓶颈。事实上,GIS

4、数据库中含有丰富的数据和信息,是自 然界和人类活动的共同产物,专家系统所需的许多知识就隐含在这些数据和信 息之中。所以,如果能将计算机科学的DM技术用于GIS,从GIS数据库中自动 生成专家系统所需的知识,无疑将会给知识获取问题的解决带来无限生机。基于上述分析,该文旨在讨论MD技术在GIS中的应用。文章下面部分分 别就DM在GIS中应用的必要性和可能性、GIS数据库中的DM可以发现的知识 类型、可以使用的方法、可以采用的DM系统原型以及DM对GIS的贡献展开详 细的论述。2 DM在GIS中应用的必要性和可能性大千世界中,许多事物之间都存在着千丝万缕的联系,在描述客观世界的 数据中必然存在其内部

5、的相互依赖性。Tobler的第一地理规则就描述了这 样 一种空间依赖性:“所有的事物都是有联系的,一个地方发生的事件总是与它 附近发生的事件有关联,并且相距近的事物之间的联系一般比相距远的事物之 间的联系要紧密。”如果能从这些数据中找出其规律性或相互联系,就可以 反过来推断客观世界的情况。GIS是一个对地球表面及空间物体描述,的信息 系统,其数据库中丰富的数据和信息本身就是大自然和人类社会活动的双重 产物,专家系统中所需要的许多知识就可能隐藏在GIS数据库中。若能利用 DM技术,从GIS的空间和属性数据中得出有关自然界与人类活动的内在规律, 就必将为专家系统在GIS中的应用和发展提供新的手段和

6、方法,也将为GIS 自身的发展提供更广阔的前景。一方面,GIS的应用需要DM技术的帮助,这 种需要使得GIS必将成为DM的一个极好的应用领域。因为GIS数据库中不 仅包含了大量的属性数据,而 且还包含了大量的空间数据。社会上许多行 业需要GIS作决策支持和规划管理,而且各应用领域的特点互不相同,都存在 着许多显著的但又不充分的领域知识。另一方面,DM在GIS中的应用必将促 进DM自身的发展。因为GIS数据库中含有的大量的空间数据比DM已有的应用 领域中的数据类型更加丰富和复杂。3数据库中的DM可以发现的知识类型3.1有关目标的几何信息知识从GIS的图形数据库中,可以很方便地得到关于某一类目标的

7、位置、形状、 大小及结构等几何特征,通过归纳与演绎的方法就可得出关于该类地物目标 (如飞机场、运动场、果园等)的一般性(或规律性)的几何信息知识。3.2目标与目标之间的相连、相邻与共生关系的知识从GIS的图形和属性数据库中,不难发现目标间的相连(如火车站与铁路相连)、相邻(房屋与 道路相邻)及共生关系(如蒙古包与草场的关系)。3.3目标的几何性质与属性之间的关系的知识将GIS中的空间数据与属性数据对应起来,可发现目标的几何与属性之间 的对 应关系。如山区植被的垂直地带性,在不同的高度和坡度生长着不同的 植被。在郊区以植被为主,以建筑物为辅;在城市以建筑物为主,以植被为辅。 在北方以旱季作物为主

8、,在南方以水稻为主。这些知识对遥感影像的判读是 十分有效的。3.4面向对象的知识若GIS中采用了面向对象的数据模型,则可以很方便地提供超类一类一子 类目标之间的知识继承、传播和集成。因此,只要借助于GIS中有效的空间分 析工具、面向对象的数据模型和DM技术,便可以从GIS中提取对GIS分析、 应用、更新等方面所需要的知识。GIS数据库中的DM可以使用的方法尽管有不少的文献和研究者探讨过DM的方法,但关于GIS数据库中的DM 的方法的研究寥寥无几。笔者认为,在现阶段,至少有以下方法适用于GIS 数据库中的DM。4.1归纳与演绎的方法这是一种逻辑方法,是从数据库中获取知识的最基本的方法,即从多个已

9、 存在的事实中归纳出规则。在GIS中,无论是属性数据还是空间拓扑关系, 若进行抽象和概括时,均可用到此方法。如在对游牧民族地区草资源调查中, 通过相邻分析,便可归纳出只要有蒙古包,其周围都有草地,且附近必有淡 水湖泊。这样的规则完全可以从GIS数据库中发现,并用于以后的遥感调查和 建立新的GIS。4.2统计的方法统计的方法一直是DM中最主要的方法,在AI领域的关系数据库中它已经 得到了充分的利用,它还可以用于GIS中的属性和空间数据库中。如在遥感 影像分析中,对影像进行监督分类和非监督分类,都是利用统计的方法得出影 像模式后,再按此模式对影像分类。实际上,遥感影像的计算机自动分类也 可算是较简

10、单的DM过程,只是其数据为一些以栅格方式存储的影像数据,而 不是像关系数据库中的数据那样以关系元组的方式存储。因此,完全可以说 在GIS中早就有了 DM的思想。4.3 空间分析的方法空间分析是指一组技术,其结果取决于被分析对象的位置。这些技术不仅 需要获取对象的位置,还需要知道对象的属性。GIS数据库中的空间数据提 供了空间分析所需要的位置,非空间数据提供了对象的属性数据,因此GIS 数据库提供了空间分析所需要的各种数据,利用GIS数据库中的数据可以进 行空间分析。空间分析的主要目的是从空间关系中开发数据,以得到空间的内 部关系并加以理解。例如空间分析中的探测性空间分析方法不仅可以揭示空 间数

11、据库中许多非直观的内容,如空间异常点、层次关系、时域变化及空间交 互模型,还可以揭示用传统的地图不能辨明的数据模式和趋 势。为了达到此 目的,空间分析应利用和开发GIS及其数字环境。在这种数字环境中,数据的 比例尺寸能够很方便地改变,能放下层次间的不连续性,还能将不同的数据 媒介如文字、声音、图形和影像联结在一起。此外,数字环境要能提供物体间 更广泛的联系,因为地图上只是表明了物体空间上的接近及邻近关系,而不能 提供物体间的相互作用,以及文化、贸易和社会网络的联系。在面向对象的 环境中,属性和空间数据统一在一个对象中存储和管理,以上这些想法相对而 言更易于实现。从现实来看,地理位置与地形、土壤

12、、植被及气候等要素是 紧密相关的,相互制约的。所以说属性与空间数据是一对矛盾统一体,如果能 找到属性形成与空间分布的对应关系,那么若已知某一对象的属性则可知道 其相应的空间分布,若已知其空间分布情况,则也可以根据其对应关系知道其 相应的属性。4.4 Rough集方法Rough集理论(Rough Set Theory)是波兰华沙大学Z.Pawlak教授在1982 年提出的一种智能数据决策分析工具,被广泛研究并应用于不精确、不确定、 不完全的信息的分类 分析和知识获取。Rough集理论为GIS的属性分析和知 识发现开辟了一条新途径,可用于GIS数据库属性表的一致性分析、属性的重 要性、属性依赖、属

13、性表简化、最小决策和分类算法生成等。Rough集方法 与其它知识发现方法相结合,可以在GIS数据库中数据不确定情况下获取多种 知识。例如,在经过统计和归纳从原始数据得到普遍化数据的基础上,Rough 集用于普遍化数据的进一步简化和最小决策算法生成,使得在保持普遍化数据 内涵的前提下最大限度地精练知 识。当然,除了以上介绍的4种主要的方法外,还有其它的一些方法也可以用 于GIS数据库中的DM,比如神经元网络的方法、决策树的方法等。GIS数据库中的DM可以采用的DM系统原型加拿大Simon大学计算机科学系,在关系数据库挖掘系统DBMiner的基础 上,增加空间数据挖掘功能,开发出了一种空间数据挖掘

14、系统原型GeoMiner。 该系统能够在地理信息数据库中挖掘特征规则、判别规则和关联规则,扩充后 还包括分类规则和数据聚类。系统除了用SAND体系结构建立空间数据库模型 外,还有空间数据立方构造、空间OLAP等功能模块。此外,该系统还设计和 实现了空间数据挖掘语言GMQL,以及用户接口和空间知识的可视化工具。因 此,这一空间数据挖掘系统原型GeoMiner是可以采用的DM系统原型。5.1 GeoMiner的系统结构它包含有三大模块:空间数据立方体构建模块、空间联机分析处理(OLAP) 模块和空间数据挖掘模块,采用的空间数据挖掘语言是GMQL。目前已能挖掘 3种类型的规则:特征规则、判别规则和关

15、联规则。GeoMiner的体系结构如图 1所示,包含4个部分:(1)图形用户界面,用于进行交互式地挖掘并显示挖 掘结果;(2)发现模块集合,含有上述3个已实现的知识发现模块以及.个计 划实现的模块(分别以实线框和虚线框表示);(3)空间数据库服务器,包括 MapInfo,ESRI/Oracle, SDE,Informix- Illustra 以及其它空间数据库引擎; (4)存储非空间数据、空间数据和概念层次的数据库和知识库。5.2的数据挖掘语言Han等人为了挖掘地理空间数据库设计了一种地理数据挖掘查询语言 GMQL(Geo-Mining Query Language),它是对空间SQL的扩展,

16、并成功地应用 于空间数据挖掘系统原型GeoMiner中。它用于描述和执行空间数据库中的数 据挖掘。下面为一个用GMQL语言描述的挖掘空间互联规则的例子。例:找出某省pro-a范围内大城镇的空间互联规则Mine spatial associatinsAs 大城镇In relevance to , states.area-nameFrom towns, water, state, provincesWhere towns.population25000 and towns.geo inside province.geo and province.area-name = pro-

17、a and g-close-to (towns.geo, water.geo, 75, km) and state.area-name = USADM对GIS的贡献DM用于GIS,可使GIS在以下几个方面得到较大的进展或突破:使有限数据的GIS成为具有无限知识的GIS。尽管GIS中存储了大量 的数据,但其容量总是有限的,总是对客观世界的不完全描述。而DM利用机 器学习技术,能从这些有限的数 据库发现新的知识,将这些知识反作用于已 有的数据,就可得到更新的数据和知识,这样循环下去,GIS不仅是一个信息 系统,而且是一个数据源和知识源,也就使有限的GIS变成了无限的GIS,也 使静态的数据变成了动

18、态的数据和知识。可用于GIS的数据精练。现有的GIS数据库中存储了大量的数据,其 中有些数据是必需的,有些数据是冗余的,有些数据是最基本 的,有些数据 是可导出的。利用DM,可以寻找出数据间的相互依赖性,得到数据间的层次 和层次间的相互关系。因而,数据库中就可只存储那些必需的数据和关系, 而不必存储其它的数据,就可将GIS数据库进行精练。这样不仅可以节省存 储空间,而且可以提高数据库的管理效率和整个系统的运行速度。可用于GIS的数据更新。现有的GIS数据库中存储了描述客观世界的 大量数据,而客观世界在人类活动的影响下是时刻变化的,如何将这些变化 在GIS中进行快速地更新,也是一个十分棘手的问题。GIS数据库的更新通常 是利用新的航空或航天遥感数据,但这时需要解决的问题是哪些数据需要更 新,如何自动地从遥感影像中获取更新数据。用DM中的空间分析方法可以解 决此问题,它通过对不同时域的数据进行比较,得到事物随时间变化的规律, 并找 到影响此变化的主要因

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论