




已阅读5页,还剩51页未读, 继续免费阅读
(计算机应用技术专业论文)支持遥感图像处理与分析的数据库系统应用与研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中国科学技术大学硕七学位论文 摘要 遥感解译系统需要在图像实时处理过程中获取各种背景和专题数据以辅助 确定目标对象的性质并最终生成多种解译产品,其涉及数据类型繁多、数据量大、 尺度多样、空间实体类型数据较多,系统成败的关键之一在于各种类型数据的高 效组织和使用。 空间关联分析是数据挖掘的一个重要内容。利用模糊集合理论从具有不确定 的、模糊属性的空间对象数据库中找出人们感兴趣的关联规则,并用自然语言来 捕述,更符合人类的思维和推理习惯。此外,针对遥感数据和地面数据,设计出 高效率的空间关联规则挖掘算法也是值得探讨的问题。 本文即以建立面向遥感应用的数据库系统和空间关联分析作为研究内容,主 要做了以下工作: l 、根据遥感应用特点和图像数据库技术的现状,提出了“支持遥感图像解 泽的数据库系统”( r s i d ,r e m o t es e n s i n gi m a g ed a t a b a s e ) ,为遥感解译提供数 据支持。 2 、针对空间对象间距离关系难以用语言值描述的问题,提出了利用模糊理 论挖掘空间语言值关联规则的算法s l v a r m a _ f t ( s p a t i a ll i n g u i s t i c v a l u e a s s o c i a t i o nr u l e sm i n i n ga l g o r i t h mb a s e d f u z z yt h e o r y ) ,利用模糊理论和使用者自行 对距离属性的定义,产生空间语言值关联规则。 3 、以遥感图像作为挖掘研究的数据源,提出了一种基于图像分割的两阶段 空间关联规则挖掘算法( i s - t p s a r m a ,t w op h a s es p a t i a la s s o c i a t i o nr u l e m i n i n g a l g o r i t h m b a s e d i m a g es e g m e n t a t i o n ) ,通过采用量化属性离散化、图像分 割和分阶段挖掘等方法来提高挖掘的效率,得到的关联规则在农业、土地规划、 资源勘探、环境保护等领域有广泛的应用。 关键词:遥感图像,空间数据库,系统结构,模糊理论,图像分割,空间关联规 则 一! 里型兰垫查奎兰堡主堂焦堡塞 a b s t r a c t i ti sn e c e s s a r yt oa c c e s sn o n f o r m a t t e di n f o r m a t i o ns u c ha si m a g ea n dt op r o c e s sa m a s so fd a t af u s i o ni nt h er e m o t e s e n s i n gi n t e r p r e t a t i o ns y s t e m i nt h es y s t e m ,t y p e s o f d a t ai sv a r i o u s ,q u a n t i t yo f d a t ai sh l l g e ,s c a l e so f d a t ai sd i v e r s i f o r m ,d a t a o f s p a t i a l e n t i t yi sm u c h t h e r eh a v eb e e ns o m e i n t e r e s t i n g s t u d i e s r e l a t e dt ot h e m i n i n g o f s p a t i a l a s s o c i a t i o nr u l e s h o w e v e r ,a s s o c i a t i o nr u l e so f s p a t i a ld a t a b a s ei nf o r m e ra l g o r i t l u n s w e r er e p r e s e n t e di nt h ew a yo f1 0 9 i c l a n g u a g e o rl i k e s q l ,l a c ko fs t u d i e so n s e m a n t i cs p a t i a la s s o c i a t i o nr u l e sw h i c hc a l lr e f l e c tt h ew a yh u m a nt h i n k ,i tw e r en o t e a s i l yu n d e r s t o o db yu s e r s b e s i d e s ,d e s i g n i n ge f f i c i e n tm e t h o d sf u rm i n i n gs p a t i a l a s s o c i a t i o nr u l e sa l s od e m a n di m m e d i a t eo u ra t t e n t i o n sf r o mb e t t e rp e r f o r m a n c e t h i st h e s i sf o c u s e so nr e s e a r c h i n gt h ed a t a b a s e s y s t e m f o rr e m o t e s e n s i n g a p p l i c a t i o na n ds p a t i a la s s o c i a t i o nr u l e sa l g o r i t h m t h er e s e a r c hw o r k so f t h et h e s i s a r el i s t e da sf o l l o w i n g : 1 w eb u i l dad a t a b a s es y s t e mr e m o t es e n s i n gi m a g ed a t a b a s e ( r s i d ) f u rr e m o t e s e n s i n ga p p l i c a t i o nt om a n a g ed a t ae f f e c t i v e l ya n dt o a c c e s sd a t af r i e n d l y , a n dt h i s s y s t e mp r o v i d e sd a t af u rr e m o t es e n s i n gi n t e r p r e t a t i o ns y s t e m o u rr s i dp r o v i d e s t h es u p p o r to fd a t a b a s ef o ri m a g e i n t e r p r e t a t i o n 2 w ea p p l yf u z z yt h e o r yt om i n es e m a n t i ca s s o c i a t i o nr u l e sa n di n t r o d u c et h e m e t h o ds p a t i a ll i n g u i s t i cv a l u ea s s o c i a t i o nr u l e sm i n i n ga l g o r i t h mb a s e df u z z y t h e o r y ( s l v a r m a _ f t ) b e c a u s e a s s o c i m i o nr u l e sa s s o c i a t i o nr u l e sw h i c hg o tb yo u r m e t h o dc a nm o r en i c e l ye x p r e s st h ec o n c e p to fa b s t r a c t i o na n dm o r em a t c hh u m a n s t h i n k i n ga n de x p r e s s i o n a n da r eb e r e ru n d e r s t o o d , 3 t w op h a s e s p a t i a l a s s o c i a t i o nr u l e m i n i n ga l g o r i t h m b a s e d i m a g e s e g m e n t a t i o n ( i s - t p s a r m a ) a r ep r o p o s e df o ra d d r e s s i n gt h e a b o v ep r o b l e mb y d i s p e r s i n gc o n t i n u o u sa t t r i b u t e ,i m a g es e g m e n t a t i o na n dt w o p h a s e t h er u l e sh a v e g r e a ta p p l i c a t i o n i nt h ef i e l do fp r e c i s e a g r i c u l t u r e ,r e g i o nl a y o u t , p r o s p e c t f o r r e s o u r c ea n d p r o t e c t i n ge n v i r o n m e n t k e y w o r d s :r e m o t es e n s i n gi m a g e ,s p a t i a ld a t a b a s e s ,s y s t e ma r c h i t e c t u r e ,f u z z y t h e o r y ,i m a g es e g m e n t a t i o n ,s p a t i a l a s s o c i a t i o nr u l e s i l i 中固科学技术大学徊li 学位论文 致谢 本文的工作是在岳丽华教授的悉心指导下完成的。在三年的研究生学习生活 中,岳老师传授给我丰富的知识,在研究方向和方法上给我以耐心细致的指导, 在生活上给我以热情的关怀。岳老师渊博的知识,严谨的治学念度和平易近人的 工作作风给我酐f 深刻的印象,必将对我今后| 1 勺学习、工作和生活产生深远的影 响。在此向岳老师表示崇高的敬意和山衷的感谢。 在这罩,我还要真诚地感谢数据库课题组的龚育昌教授和金培权博士一直以 来对我的关心和指点,他们为我论文的选题和完成提供了宝赛的意见。 同时,我也要感谢空间实验室这个集体给我提供了良好的科研环境并使我有 机会结识诸多的老师和同学,三年的共同学习和项目丌发经历使我从他们那里学 到了很多知识,也使我的崽维更加开阔,他们的关心和帮助使我受益匪浅。他们 是徐守剐老师、谭勇老师咀及薄秋慧、李航、冯朝阳、周英华、刘斌、柳刘、魏 品品、韦鹏、陈安等同学。 感谢系里的领导和李胜柏老师,在学习期间给了我莫大的帮助。感谢室友杨 碧天、陈希军、杨宝德,很高* 同他们分享这段充实和愉快的时光,这三年中的 点点滴滴将牢b 在我的心中。 感谢我的家人,每当我学习和1 = 作遇到困难的时候,他们总是及时地鼓励我、 帮助我,他们的充分理解和二k 力支持给予我无穷的力量,正是他们的无私奉献才 使我顺利完成学业。他w j 的关爱、他们的期望使我时妄难忘,他们是我一生要感 谢和爱的人。 谢谢所有帮助过我和爱我的人。 2 0 0 5 年5 月,于中国科学技术火学 中周科学技术人学硕:l :学位论文 i i 引言 第一章绪论 遥感是本世纪六十年代发展起来的新兴综合技术。它与空问、电子、光学、 计算机、地学等科学技术紧密相关,是现代科学的一个重要组成部分,是研究地 球资源环境的最有力的技术手段之一。遥感技术在未来信息时代和数字地球构建 中的重要作用是毋庸质疑的,能够以“地球尺度”、“国家尺度”、“区域尺度”, 在限定的时间范围内,取得描述“地球系统”现状及其动态变化规律所需的主要 现时数字信息的各种技术中首推遥感技术 李树楷o o 。 随着地理信息系统与遥感技术的飞速发展,人类获得空间数据的能力得到极 大地提高。遥感技术在对地观测平台和传感器技术方面的进步尤为突出,获取同 一地区多时相数据的能力不断提高,数据波段数不断增加,形成了对地观测的多 级分辨率影像金字塔体系 余旭初9 7 】。与此同时,一些功能强大的遥感数据处理 商用软件系统如p c i 、e r m a p p e r ,e r d a s 等涌现市场,信息处理的智能化程度 也不断提高。 但可以看到,在遥感传感技术随用户霈求快速发展、数据急剧增多的同时, 用户对数据共享和快速方便的获取空间知谚 的迫切需要与现有的空间海量数据 的管理、分发、奁询、处理手段形成了非常突出的矛盾。面对遥感技术和数字摄 影测量技术带来的持续不断的海量图像数据,一方面部分研究机构和个人难以及 时方便地从大量空间数据集中获得领域相关的数据及其隐含的空间知识:另一方 面数据的直接生产者以近乎弃置的方式在闲置大量的宝贵图像资源。 由于空间数据本身的复杂性及其应用领域的多样性,建立一个通用的、灵活 的、具有较强扩展性、可定制的空间数据管理、查询与分析系统是一项极具挑战 性的工作。有效的空间数据管理、查询和分析工具,尤其是基于海量遥感图像数 据库的数据挖掘与知识获取方法和工具的缺乏是问题的根源。目前,在遥感数据 管理、查询,特别是在数据挖掘系统的研究方面,存在明显的滞后和技术方法的 不足。相对于关系型数据的分析和挖掘丽言,空间数据的分析与挖掘研究更是困 难重重,大量的理论和技术问题有待研究。 空问关联分析是数据挖掘的一个重要内容,它利用空问对象问的空问拓扑关 系、空间距离关系以及空间方位关系,甚至是非空间属性,作为所获取关联规则 的重要特征【c f k o o 【k h 9 5 】。以往空间数据库关联规则的研究主要集中在提高挖 掘算法的效率和发现多种形式的规则两方面 李德仁0 2 ,发现的规则一般用逻辑 语言或类s q l 语言方式描述,忽略了使用者对于规则在语义理解上的困难。例 中同科学技术大学顺i 二学位论文 如, h f 9 4 提出新的概念( 比如a d j a c e n t _ t o ) 来表示空问对象间的关系。但是在 现实情况中,有一些属性值很难去绝对的定义它。再者以往的集合是属于二值 ( b i n a r y ) 逻辑,明确的分辨元素属于其中哪一个集合,可以在“是”与“否” 之问作出清楚的判断,称之为明确集合( c r i s ps e t ) 。然而大多数的事务在语义表 达上通常难以作明确的区分辨别。例如:以二值逻辑来看,距离在1 0 公里以上 “是”远的话,甲的距离是9 9 公里,就不属于远的集合。在空间距离上,以二 值逻辑来界定距离的大小,不能明确的表达知识的内涵。 另外,遥感图像数据属于空间数据,也是应用关联分析的一个重要的领域。 d p d 0 0 d d p 0 2 1 p d d 0 1 d d p 0 2 2 针对遥感图像数据进行挖掘,从遥感图像 的反射比系数找出有意义的知识。 p d d 0 1 】 d d p 0 2 2 找出遥感图像的反射比系 数与农业产量的关联性,得到遥感图像反射系数分布与产量标准的关联规则,帮 助农业工作者。 1 2 遥感的基本概念 顾名思义,遥感是一种远离目标,通过非直接接触而判定、测量并分析目标 性质的技术。通常人们所说的遥感是从不伺高度的平台上,使用各种传感器,接 受来自地球表层的各种信息,从而对地物及其特性进行探测和识别的综合技术。 对地面目标进行采集是通过遥感传感器实现的,它主要利用了从目标反射或 辐射的电磁波。所以遥感也可以说是一种利用物体反射或辐射电磁波的固有特 性,通过观测、分析电磁波达到识别地物及其环境的技术。由于“大气窗口”和 技术水平的限制,遥感所利用的电磁波段主要分为可见光波段( 0 4 0 7 5 u r n ) 、近 红外波段( o 2 5 2 5 u m ) 、中红外波段( 3 - 5 u m ) 、热红外波段( 8 - 1 4 u m ) 、微波波 段( 1 m m l m ) 等类型。其中在可见光、近红外遥感中,电磁波的辐射源是太阳: 在中红外和热红外波段,辐射源是目标自身的热辐射;在微波波段,辐射源有目 标物( 被动) 和雷达( 主动) 两种。根据工作波段可以将遥感传感器分为以下类 型: ( 一) 可见光波段:光学摄影,如航空摄影机、多光谱相机。 ( 二) 红外波段:红外辐射计、红外热成像仪等。 ( 三) 多光谱:多光谱扫描仪、c c d 多波段扫描仪等。 ( 四) 微波:微波辐射计( 被动) 、侧向雷达( 主动) 。 由于遥感探测的是大范围地表的信息,因此需要在一定的高度才1 能工作。能 够携带遥感传感器到达工作高度的运载工具叫做遥感平台。按照遥感平台的工作 高度可以将遥感分成三大类: 中国科学技术人学硕十学位论文 ( 一) 航天遥感,遥感平台为卫星、宇宙飞船、航天飞机等航天器。 ( 二) 航空遥感,遥感平台为飞机、气球等。 ( 三) 地面遥感,通过伸壁汽车( 遥感车) 、铁塔等在地面进行。这类平台 探测范围有限,一般用于地面采样调查。 利用遥感技术获得地面信息的优越性在于: 1 ) 从宇宙空间来观测地球,扩大了观测范围。 2 ) 把大量由于受到人眼生理条件而不可见的信息记录下来转换成可见可处 理的图像,扩大了信息来源。 3 ) 可以重复的周期性的观测地球上的同一地区,从而可以对各种地表现象 进行动态观测。 几十年来,世界范围内遥感技术获得了巨大发展,表现出以下特点: 1 ) 从单一的遥感平台发展到航空航天多种遥感平台相结合,从单一的遥感 数据分析应用趋向于多种来源数据的综合分析。 2 ) 传感器的研制正向电磁波全波段可覆盖的方向发展,向全息遥感、器件 固体化、小型化、高分辨率、高灵敏度方向发展。 3 ) 借助于计算机技术,遥感信息处理已经从简单的定性分析发展到定性于 定量分析相结合,快速的实现图像的校正、增强、识别、存储、检索等等。计算 机技术和数字图像处理技术的高速发展使得遥感信息的处理正向着实时获取与 处理、自动模式识别、与地学数据库相结合、r s g p s g i s 一体化的方向发展。 4 ) 应用范围不断扩大。遥感技术在测绘、农业、地质、水文、海洋、环境 检测、军事侦察等方面都有着越来越广泛的应用。 1 3 空间数据库系统 1 3 1 空间数据的基本特点 地理空间数据有三个基本特征:空间性、属性和时间性( 图卜1 ) ( 1 ) 空问性反映现象的空间位置及空间位置的关系,通常以坐标数据的形式 来表达空间位置,用空间拓扑信息来表达空间位置的关系。 ( 2 ) 属性用以描述现象的特征,如空间实体的类别等。例如土壤类型可以包 括草甸土、沼泽土、石质土等。属性数据本身属于非空间属性,但它与空问数据 结合,用来表达空间实体的全貌。 ( 3 ) 时间性是指空问数据的空间特征和属性随时间而变化,它们可以同时随 时问变化,也可以分别独立随时间变化。如气压图,某点的气压随时问而变化, 中国科学技术大学硕一1 :学位论文 因而气压图也随时间变化。 1 3 2 空间数据结构 图1 - 1 ;地理数据的特征 空间数据结构是空间信息管理系统的基础。空间数据库中的数据结构主要有 两种:栅格( r a s t e r ) 数据结构和矢量( v e c t o r ) 数据结构。有些空间数据库同 时结合了这两种数据结构。形成矢量和栅格一体化的数据结构。 栅格数据结构是指地理实体使用网格单元的行列作为位置标识符,行与列的 数目取决于栅格的分辨率和实体的特征。栅格数据结构被广泛使用于遥感像片、 数字摄影图像以及各种网格化的空间数据。 矢量数据描述地理要素的空间特点是通过离散的位置坐标来表示,在城市分 区规划和详细规划、土地管理等公用事业的管理中有广泛的应用。矢量数据结构 较栅格数掘结构对空间关系描述更全面,对线状或网络状事务分析方便,空间属 性综合查询方便等诸多优点。 描述空间实体的要素有点、线、面等。点用来表示那些实体太小的地图上无 法用按比例描绘的地理要素。如消防栓、井、测量控制点等;线用来表示那些线 状或网络状的地理要素,如溪流、道路、管线等:面用来表示那些由一个封闭的 多边形包围的区域状的地理要素。如水系、地块、房屋建筑、行政边界等。 矢量数据结构通常有环状多边形数据结构和拓扑化数据结构两种基本形式。 环状多边形数据结构与平面解析几何对物体的描述十分相似,点是由一对坐标 ( x ,y ) 来表示,线表示成( x l y l , x 2 ,y 2 ,x 。,y n ) 的形式,面积对象则表示为。 ( x l ,y 1 ,x 2 ,y 2 ,x 。,y n ,x l ,y i ) 。环状多边形数据结构不能完整地描述空间实体间的 空间关系,而矢量空间数据的拓扑化数据结构可以克服这一缺陷。 例如一副具有森林、河流和住房的地图可以分别用这两种不同的数据结构 来描述。在栅格结构中,空间被有规则地分割成一个个小正方形。地理实体用它 中国科学技术大学碳士学位论文 们所占据的栅格的行、列号来定义,栅格可以同时附有属性值;在矢量结构中, 地理实体用点、线、面来表达,其位置由二维平面直角坐标系中的坐标来表达。 栅格结构有利于空间分析,但数据冗余量大;矢量结构存储量小,且能输出 精美的地图,但不便于进行空间分析;它们有其各自不同的特点与适用范围,例 如需要与遥感相结合的地理信息系统来说,栅格结构是必不可少的;而对于地图 数字化、拓扑关系检测等应用,矢量结构又是不可缺少的。目前栅格与矢量相结 合的混和数据结构正在研究之中,究竟采用何种数据结构,取决于地理现象本身 的特性以及表达数据的目的。 1 3 3 最小边界矩形m b r 最小边界矩形( m b r ,m i n i m u mb o u n d i n gr e c t a n g l e s ) 【b k 9 4 是存储空间对 象的近似关系和利用这些近似关系来作为数据空间索引的依据。m b r 利用两个 点表示空间对象,即将空间对象q 包含在一个矩形g 之中,以矩形q 酐j ( q t q 。:) 来表示空问对象的左边最低位嚣( 1 0 w e rl e f t ) 以及右边的最高位置( u p p e rf i g h t ) 。 针对m b r 建立空间索引( 如r - t r e e ) ,可以加速使用者在查询空间对象上的效 率。 1 3 4 空间数据的关联特性 有效地对空间数据库进行数据挖掘,必然要考虑到空间数据的一些特性特 别是空问对象的空问属性。空间数据库和传统的关系型数据库最大的区别在于相 邻空间对象之间存在相互影响,也就是对象的某个属性值依赖于相邻对象的属性 值。通常认为空间数据有三种基本的二元关系:拓扑关系、距离关系和方向关系 m h j 9 7 。 ( 1 ) 拓扑关系 通常,空间对象被抽象为点、线、面,表达为节点( n o t e ) 、弧段( a r c ) 和 多边形( p o l y g e n ) 。两物体之间的拓扑关系具有不因参照物的拓扑变换( 如放缩、 旋转) 而改变的特点,可通过相交矩阵模型定义。 在一个平面吼2 上,两个对象a 和口之间的二元拓扑关系要基于以下的相交 情况:即a 的内部( a 。) 、边界( 0 , 4 ) 和外部( a ) 与b 的内部( b 。) 、边界 ( 船) 和外部( b 一) 之间的交 e g e n h o f e r 9 4 】。对象的这六个部分构成九交 ( n i n e i n t e r s e c t i o n ) 矩阵,它定义了一个拓扑关系,可以用下面的矩阵来表达这 中国科学技术大学硕:j j 学位论文 个关系: fa 。n b 。a 。n o ba 。n b 一1 r 9 ( 一,口) = ia d n 口。o a n o bo a n b l la n b 。a n o ba n b j 考虑取值有空( 0 ) 和非空( 1 ) ,可以确定有2 9 = 5 1 2 种二元拓扑关系。对 于嵌在9 2 中的二维区域,有八个关系是可实现的,并且它们彼此互斥且完全覆 盖。这些关系为:相离( d i s j o i n t ) 、相接( m e e t ) 、交叠( o v e r l a p ) 、相等( e q u a l ) 、 包含( c o n t a i n ) 、在内部( i n s i d e ) 、覆盖( c o v e r ) 和被覆盖( c o v e r e db y ) 。 ( 2 ) 距离关系 在关系型数据库里,两个元组之间的“距离”关系是人为的概念上的定义, 即任取两个属性肖和y ,则元组a 和b 问的距离通常定义为 f ( a ,b ) = ( a x b x ) 2 + ( a y 一毋) 2 。但在空间数据库晕,距离函数f ( a ,b ) 是有实际 意义的。例如f ( a ,b ) = 1 0 0 可能指a b 两地的距离为1 0 0 k m 。可以定义基于距离 函数f ( a ,b ) e h k 0 0 的距离关系r 。r ( ,= 。ar 口当且仅当f ( t ,b ) r 髟, 其中k 为某个闽值。 ( 3 ) 方位关系 方位关系是指找准一个为参照对象a 和一个需定位的对象曰,设r e p 口) 是参 照对象a 中的一个特征点j e s t e r 0 0 ,则有: 口在a 的东北方向,i f f v b b :b x r e p ( a ) x 6 v r e p ( a ) v ,同理可得到 东南、西南、西北方向的确定条件。 b 在a 的北方,i f 6 b :b r r e p ( a ) 。,同理可得到南、西、东方向的确 定条件。 b 在i 的某一个方向,对于所有的4 和b ,此关系都为真。 1 3 5 空间数据库系统 数据通过数据库管理系统( d a t a b a s em a n a g e m e n ts y s t e m ,d b m s ) 进行存储 和管理。驻存在这些庞大数据库中的数据比较简单,通常包括数字、姓名、地址、 描述等信息。这些d b m s 能胜任那类为其量身设计的任务。比如,像“就销售 额而言,列出1 9 9 8 年前十位顾客”这样一个查询,d b m s 可以很快回答出来, 即是需要扫描一个很大的顾客数据库也是如此。数据库无需扫描所有的顾客,它 利用索引来缩小扫描范围。而另一方面,“列出居住在离公司总部5 0 英里以内的 顾客”这样一个相对简单的查询则会难住数据库。要处理这个查询,数据库就必 中国科学技术大学颂- i :学位论文 须把公司总部和顾客的地址变换到一个能够计算和比较距离的适当参照系统中, 可能是经纬度坐标系。然后,数据库扫描整个顾客列表,计算顾客住所和公司之 间的距离。如果距离小于5 0 英里,保存该顾客的名字。这个过程无法利用索引 来缩小搜索范围,因为传统的索引无法处理多维坐标数据的排序问题。因此迫切 需要能处理空间数据和空间查询的数据库。 空问数据库系统是用于采集、存储、管理、处理、检索、分析和表达空间数 据的计算机系统,能够对处理海量空间数据进行存储和管理,支持挖掘过程对空 间数据的访问。 早期的空间数据库系统建立在文件系统上,所有的空间数据定义和处理都由 应用软件完成,其缺点是实用性受到很大限制。随着关系型数据库管理系统 ( r d b m s ) 的日趋成熟,运用关系数据库作为空间数据库的基本载体,并辅以 特殊结构的空间信息数据文件已经成为空间数据库实现的主流。根据空间数据和 属性数据是否为一体化组织形式,可将目前较常用的以关系数据库为基础的空问 数据库系统归纳为集成型和混和型 陈皓9 8 】。 第一类,集成型空间数据库系统 在这类系统结构中,利用了关系数据库管理系统所支持的数据类型,并在它 的基础上增加一层结构,以实现空间数据类型及其操作。用关系数据库管理系统 所支持的数据类型表示空间数据有两种方法:第一种是用点、直线等简单空问数 据类型表示复杂的空间数据,而点、线等可以很方便地用关系数据模型表示。这 种方法的缺点是构造复杂空间数据的丌销很大、读写性能较差;第二种方法是以 摄小边界矩形( m b r ) 、栅格等方法表示空间数据,并以b l o b ( b i n a r yl a r g e o b j e c t ) 数据类型存于关系数据库中。这样可避免用点、直线等简单数据类型表 示所有空间数据,但b l o b 字段只能存放数据,对数据的解释还得依靠上一层 结构。 e s r i ( e n v i r o n m e n t a ls y s t e m sr e s e a r c hi n s t i t u t e ) g i s 原型系统中的空间数据 库引擎s d e ( s p a t i a l d a t a b a s ee n g i n e ) 是一种典型的集成型空间数据库系统。它在 现有商用关系型数据库关系系统的基础上进行了扩展,可以将空间和非空间数据 存贮在单一关系型数据库中。s d e 数据采用无缝数据连接方式,垂直方向上数 据按层次进行组织。s d e 中提供了一个名为特征处理引擎f m e ( f e a t u r e m a n i p u l a t i o ne n g i n e ) 的中间处理层,用以处理s d e 与前端应用的交互。f m e 实 质上是一个表驱动的数据交换层,它可以根据不同的前端应用进行数据处理,能 支持通过空间和非空问属性进行数据选取,同时支持多种常用数据格式。 第二类,混合型空间数据管理系统 混合型空间数据库的系统结构是在关系数据库系统基础上,增加一个专门管 中国科学技术大学硕士学位论文 理空间数据的子系统。即将空间对象数据视为两部分:空间属性数据和非空间属 性数据。它们分别存储在r d b m s 和空间数据子系统中,并采用逻辑指针( 即空 间属性标识符) 相互关联。 目前,最流行的空间数据库系统m a p i n f o 中的数据采用的就是混和型空间数 据结构,它分别使用不同的模块存储空间数据和属性数据。其空问数据在垂直方 向上是按层次结构进行组织,基本单位称为图层,在水平方向上是按图幅组织, 图幅大小不确定。在m a p i n f o 中每一图层山5 个文件组成,其后缀分别为t a b 、 d a t 、i n d 、i d 和m a p ,其中t a b 文件定义了图层属性数据的表结构,d a t 文 件存储该图层的每一个对象的属性数据,i n d 文件为交叉索引文件,i d 文件中 每4 个字符为一个对象的空间数据的索引,m a p 文件存储该图层的每一个对象 的空间数据。 通常,一个空间数据库包括一些图像和矢量图层,矢量图层包括地块、交通、 生态分区、土壤等。在一个关系数据库中,所有有明确标识的对象、实体以及概 念都表示为关系或者表。一个关系由一个名字和一组描述该关系特征的属性来定 义。该实体的所有实例都作为元组存储在表中。如何存放空间对象这样的复杂类 型是我们必须面对的,避开这个难题的一种方法是,创建一个带有交叠 ( o v e r l a p p i n g ) 属性的表的集合( 即将复杂空问对象用相交的点、线、面表示) 。 另一种方法是存储过程。显然创建这样的表和过程太过于复杂。为了缩小空间数 据的用户视图与数据库实现之间的语义鸿沟,我们还需要更多的处理空间信息的 构件。而向对象的软件方法提供了这方面的功能。集成了抽象数据类型( a b s t r a c t d a t at y p e ) a d t 和其他面向对象设计原则的关系数据库称为对象关系数据库管理 系统( o r d b m s ) 。 1 4 空间数据挖掘基本概念 1 4 1 空间数据挖掘的定义 空间数据挖掘与一般数据挖掘既有联系又有区别。对于数据挖掘( d a t a m i n i n g ,简称d m ) 与从数据库中发现知识( d i s c o v e r y f o rs p a t i a ld a t a b a s e ,简称 k d d ) 这两个概念,经常让人混淆。有些学者将d m 是作为k d d 的一个核心环 节。认为k d d 过程除了包括数据挖掘外还包括数据准备和发现结果解释评估等 诸多环节。有的人则认为二者本质是相同的,d m 只是经常用于统计、数据分析 和信息系统等工程领域,而k d d 多用于人工智能和机器学习等领域。还有人则 认为二者是难以分离的,应作为一个整体使用,即数据挖掘和知识发现( d m k d ) 中国科学技术大学硕士学位论文 才较为适宜。但术语“数据挖掘”比“在数据库中发现知识”和“数据挖掘和知 识发现”形式更简洁,因此广为流行。本文将这两个概念不加区别地使用。 空间数据挖掘( s p a t i a l d a t am i n i n g ,简称s d m ) ,或称从空间数据库中进行 知识发现( k n o w l e d g ed i s c o v e r yf r o ms p a t i a ld a t a b a s e ) ,定义为:在空间数据库 和数据仓库的基础上,综合利用统计学方法、模式识别技术、人工智能方法、神 经网络技术、粗集理论、模糊数学、机器学习、专家系统、可视化技术和其他相 关的信息技术作为手段,从大量的空间数据、管理数据、经营数据或遥感数据中 析取出可信的、新颖的、感兴趣的、隐藏的、事先未知的、潜在有用的和最终可 理解的知t ,从而揭示出蕴含在空间数据背后客观世界的本质规律、内在联系和 发展趋势,实现知识的自动或半自动获取,为管理和经营者提供依据f 李德仁0 1 。 在空间数据库中实施数据挖掘,首先要确定把什么作为处理的元组,我们称 之为空间数据挖掘的粒度问题。针对空间数据结构的特点,我们把空间数据的粒 度分为两种:一种是在空间对象粒度上发掘,另一种是直接在像元粒度上发掘。 空间对象可以是图形数据库中的面、线和点对象,也可以是遥感图像中经过处理 和分析得到的面特征( 如均质区多边形) 和线特征( 如边缘线) 。像元主要指遥 感图像的像元,也指栅格图形的单元。 空间数据挖掘粒度的确定取决于数据挖掘的目的,即发现的知识做什么用 也取决于空问数据库的结构。以空间对象作为数据挖掘的粒度,可以充分利用空 问对象的位胃、形态特征、空间关联等特征,得到空间分布规律、广义特征规则、 分类规则等多种知识,可用于g i s 智能化分析和决策支持,也可用于遥感图像分 类。这样的分类规则用于遥感图像分类时,必须先用其他分类方法形成线特征和 面特征,才可以进一步应用规则分类。以像元为粒度,可以充分地利用像元的位 置、多光谱值、商程、坡度等具体而详细的信息,得到的分类规则精确,适合用 于图像分类,但不便之间用于g i s 智能化分析和决策支持,可以作为它们的中间 过程。两种粒度的数据挖掘也各有缺点。 确定了空间数据库挖掘的粒度即元组后,需要确定元组的属性。在般的关 系数据库中,学习的属性直接取自字段或经过简单的数学或逻辑运算派生出学习 用的属性。空间数据库中图形的几何特征和空间关系等一般并不直接存储于数据 库中,而是隐含在多个图层的图形数据中,需要经过g i s 专有的空间运算和空问 分析才能得到归纳学习用的属性。比如要确定某空问对象所处的高程带。需要 应用叠筒分析;要确定某空间对象的相邻或相连对象,需要用到拓扑分析:要确 定空问对象靠近的对象及对象间的距离。需要缓冲区分析和距离分析;确定某一 像元处的坡度和坡向,需要用d e m 进行地形分析,等等。这些空问运算和空间 分析,有些以矢量格式进行,有些以栅格格式进行。空问对象粒度的数据挖掘更 一9 中国科学技术大学硕士学位论文 多地用到矢量格式的运算和分析,而像元粒度的数据挖掘更多地用到栅格格式的 运算和分析。这实际上是一个对图形数据的特征提取过程,这也是空间数据挖掘 区别于一般关系数据库和事务数据库数据挖掘的主要特征。 同空间数据库管理系统检测和查询出的信息相比,空问数据挖掘发现的知识 是隐含、精练、高水平的并且具有更大的价值,一方面可以提高空间数据分析和 应用的智能化水平,另一方面可用于支持遥感图像的自动解译和分类识别。促进 遥感与g i s 的智能化集成。 1 4 2 空间数据挖掘的任务 空问数据是比传统关系数据更复杂的类型,使得空间数据库中隐含更多的知 识。一般而言,空间数据挖掘的任务按照从空问数据库中能够发现的知识类型分 为以下几剩t : ( 1 ) 普遍的几何知识 普遍的几何知识是指某类目标的数量、大小、形态特征等普遍的几何特征。 计算和统计空问目标几何特征量的最小值、最大值、均值、方差,统计出特征量 的直方图。在足够样本的情况下,直方图数据可转换为先验概率使用。在此基础 上,可根据背景知识归纳出高层次的普遍几何知识。 ( 2 ) 规则型知识 空阃规则型知识包括空间关联规则、空间特征规则、空间区分规则和演变规 则等,用产生式规则表示。 空间关联规则是指空间目标间相邻、相连、共生、包含等空间关联规则。例 如,村落与道路相连,道路与河流的交叉处存在桥梁等。 空问特征规则是指某类或几类空i 自:j 目标几何和属性的普遍特征,集对空间对 象共性的描述。 空间区分规则指两类或多类目标之问在几何上的不同特征,即可以区分各类 目标的特征。正好与特征规则意义相反,它是用于区分不同对象类之间的特征差 别。 如果在空间数据库加入了时间维,则可以从中发现空间对象的演变规则。空 间演变规则是指空间目标随时间的变化规则。即哪些地区易变,哪些地区不易变, 哪些目标易变及怎么变,哪些目标固定不变等等。 ( 3 ) 空间聚类分析与异常检测 空间数据聚类按照某种度量作为准则,在大型、多维数据集中标识出聚类或 稠密分布的区域,从而发现数据集的整个空间中的分布模式。例如,精确农业中 中国科学技术人学硕i j 学位论文 的作物产量图可以聚类成高、中、低产量区。 在空间数据库中,也同样存在异常对象,这些对象的几何特点或者属性特征 与近邻对象的明显不同。 ( 4 ) 空间分布规律 空间分布规律用于描述目标在空间中的分布。如在二维空间中,分成垂直向、 水平向以及垂直向和水平向的联合分布规律。垂直向分布即地物沿高程带的分 布,如植被沿高程带分_ 布规律、植被沿坡度向分布规律等;水平方向分布指地物 在平面区域的分布规律,如不同区域农作物的差异、公共设施的城乡差异等;垂 直方向和水平方向的联合分布,即不同的区域中地物沿高程分布规律。 ( 5 ) 空问趋势分析 空间趋势分析是指在某个方向上,空间对象的属性呈现规律性的变换。 所有这些知谚 都可以在不同的空间概念层次上被发现,随着概念层次的提 升,从微观到宏观,以满足不同用户、不同层次决策的需要。从空间数据库中发 现的知识可以表示为:特征表、谓词逻辑、产生式规则、语义网络、面向对象、 可视化等表达方法,具体选择要根据不同的应用背景决定。 1 4 3 空间数据挖掘基本过程和系统结构 空间数据挖掘与传统数据挖掘的过程一样,可分成三个阶段:数据准备、数 据发掘、结果的评价与表达 邸凯昌o o _ v 1 6 。数据准备包括数据的选择、预处理 和变换等步骤。数据选择即定义感兴趣的对象及其属性;预处理一般是进行滤除 噪声、处理丢失数据等:变换是通过数学变换和降维技术进行特征提取,使变换 后数据更适合知识发现任务。数据发掘操作是整个过程的关键步骤,它从变换后 的目标数据中发现模式和普遍特征。模式的解释和评价采用人机交互的方式进 行,尽管发掘出的规则和模式带有某些置信度、兴趣度等测度,通过演绎推理可 以对规则进行验证,但这些模式和规则是否有价值,最终还需由人判断,若结果 不满意则返回到前面的步骤。可以看出,在整个挖掘过程中,人的作用贯穿始终, s d m 是一个人引导机器、机器帮助人的交互的理解数据的过程。具有如下几个 基本过程: ( 1 ) 数据清理清除原始数据中噪声或不一致的数据; ( 2 ) 数据集成将多种数据源按照主题组合在一起,构成空间数据仓库: ( 3 ) 数据选择从空间数据库或者数据仓库中检索出与分析任务相关的数 据: ( 4 ) 数据变换将数据变换或统一成适合挖掘的形式,如执行汇总或聚焦等 中国科学技术大学颂二i :学位论文 操作; ( 5 ) 模式提取根据空间数据挖掘发现任务的要求,选择统计方法、机器学 习或者其它智能计算的方法,或者把这些方法组合起来,并选择适当的参数,从 数据中提出任务相关的模型。 ( 6 ) 模式评价根据某种感兴趣度量如支持度、确信度、简洁性和新颖性, 识别真f 有趣模式: ( 7 ) 知识表示使用产生式规则、可视化等知识表示形式,向用户提供挖掘 的知识,或者将知识添加到知识库中。 图1 - 2 :空间数据挖掘系统体系结构 挖掘系统在执行这些基本过程时可以与用户或者知识库进行交互,将有趣的 模式提供给用户或作为新的知识存入知识库。在一次数据挖掘任务中,几个过程 并非顺心排序,而是一个不断循环往复的过程。图1 2 表示了空间数据挖掘系统 的一般体系结构。 1 4 4 空间数据挖掘的特点 空间对象之间具有空间方向和距离等关系,并且距离邻近的对象之间存在相 互影响,空间对象之问的关系因此也就更为复杂,不仅多了拓扑关系、方位关系, 而且度量关系还与空间位鼹和个体之间的距离有关,使空间数据挖掘与其他类型 数据的知识发现之间存在明显差异。空间数据库的复杂性特征决定了空间数据挖 掘的特点,具体如下: ( 1 ) 海量数据 海量数据常使一些方法因算法难度或计算量过大而无法得以实施,因而知识 中国科学技术大学硕士学位论文 发现的任务之一就是要创建新的计算策略,并发展新的高效算法克服由海量数据 造成的技术困难。 ( 2 ) 空间属性之间的非线性关系 空间属性之间的非线性关系是空间系统复杂的重要标志,其中蕴含着系统内 部作用的复杂机制,因而被作为空间数据知识发现的主要任务之。 ( 3 ) 空间数掘的多尺度特征 空间数掘的尺度性是指空间数据在不同观察层次上所遵循的规律,以及体现 出的特征不尽相同。尺度特征是空问数据复杂性
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 清廉医院建设培训课件
- 市场分析与预测工具集
- 2025年高考历史冲刺试卷:押题解析及错题分析
- 生活发型培训课件下载
- 设备技术部安全知识培训课件
- 疫情期间职工培训课件
- 2025年装配式建筑绿色建材供应与装配施工一体化合同
- 2025年企业信用评级与财务状况分析专业咨询服务合同
- 2025年建筑项目成本一口价合同环保节能低碳全面实施
- 2025年全球贸易电商平台跨境支付结算服务合同
- 二年级上册语文课内阅读理解每日一练(含答案)
- 苏式彩画古建181班授课郭佩锦37课件讲解
- 2025-2030年中国功率器件市场发展趋势规划研究报告
- 基层管理培训课程
- 宇宙飞船的发射与回收技术分析
- 2025农村租地合同农村租地合同范本
- 2024考研 政治 思维导图(马原)
- 物业小区安全生产管理制度
- 高血压性脑出血中国多学科诊治指南2020
- 心肺复苏术课件2024新版
- 孕产妇危重症评审实施方案解读课件
评论
0/150
提交评论