(模式识别与智能系统专业论文)空间数据挖掘技术及其应用研究.pdf_第1页
(模式识别与智能系统专业论文)空间数据挖掘技术及其应用研究.pdf_第2页
(模式识别与智能系统专业论文)空间数据挖掘技术及其应用研究.pdf_第3页
(模式识别与智能系统专业论文)空间数据挖掘技术及其应用研究.pdf_第4页
(模式识别与智能系统专业论文)空间数据挖掘技术及其应用研究.pdf_第5页
已阅读5页,还剩109页未读 继续免费阅读

(模式识别与智能系统专业论文)空间数据挖掘技术及其应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 近年来,雷达、红外、光电、卫星、电视摄像等数据采集技术逐渐成熟,并 广泛应于各个领域,空间数据的数量和复杂程度臼益增加,人类对这些数据的理 解能力面临巨大挑战。 空间数据挖掘利用统计学方法、模式识别技术、人工智能方法、神经网络技 术、粗集、模糊集、机器学习、可视化技术和其它相关信息技术作为手段,从大 量空1 j _ 数据中析取可信的、新颖的、感兴趣的、隐藏的、事先未知的、潜在有用 的和最终可理解的知识,从而揭示出蕴含在空间数据中客观世界的本质规律、内 在联系和发展趋势,实现知识的自动获取,为决策与经营决策的提供依据。目前, 空侧数据挖掘成为数据库和信息决策领域研究的方向之一。 空间数据有许多不同于非空间数据的特性,使得空间数据挖掘与一般数据挖 掘相比办有其鲜明的特征。首先,空问数据具有拓扑和距离信息,以复杂的多维 空间索引结构组织,通过空间数据存取方法存取;其次,关系型数据通常是独立 抽样的,而在空闯数据库中一个对象可能会受其邻近对象的影响,数据之间相互 依赖;另外,空间数据挖掘的结果一般包含空间对象,往往是图形或图像信息, 不同于一般关系数据库中的结果,难以用文字表示清楚,需要涉及空间知识的可 视化。考虑空间特性是空间数据挖掘的显著特点,使之成为挑战性的课题。 本研究系统分析了空间数据挖掘基本理论和技术,从实际问题出发,针对二 维空蒯多边形聚类、基于回归分类的空间划分、空间对象属性预测、从空间信息 表中提取分类规则以及结合应用问题的空间数据挖掘工具等问题展开了深入研 究,提出了相应的挖掘算法。 主要工作和创新点有: ( 1 ) 提出针对二维空问多边形对象的快速聚类算法,采用特征树保存所有聚 类信息。该算法列于对象的输入顺序不敏感,并能实现增量式聚类。 ( 2 ) 提出在子空间具有封闭约束下的空间对象聚类算法,为保证子空间封闭 性采用了区域增长实现初始聚类和调整边界类属性实现子空间的迭代重定位。浚 算法能在较短的时间内收敛,并使各空间对象属性值的拟合误差减小。 f 3 ) 提出将克星金和广义线性回归模型合并成空间广义线性回归模型,该模 型的输入不仅包括空间特征,而且还包括可观测的非空间特征,尽可能利用己知 信息,最终得到比单个模型更高的预测精度。 ( 4 ) 提出将粗集理论方法应用于从空间数据库中进行属性约简和提取分类规 则,采用多种规则评价指标。分析得出i _ 钡0 度和规则与样本的贴近度结合是最佳 的评价手段,而且,采用连续抽样对最优属性分类获得的规则集,比所有样本都 采用一个最有效属性子集获得规则集更具有效。 f 5 1 以精准农业为应用背景,设计了基于双库协同机制、面向农业的空间数 据挖掘工具的系统结构,并实现了系统原型,该系统利用农业背景知识库,指导 数据预处理过程以及数据挖掘算法。 关键词:空间数据,数据挖掘,空间聚类,区域增长,边界链码,回归分析,广 义线性模型,泛克里金,混合模型,属性约简,规则评价,精准农业 l l a b s t r a c t r e c e n t l yt e c h n o l o g i e so fd a t ac o l l e c t i o n s u c ha sr a d a r ,l a s e r , p h o t o e l e c t r i c i t y , s a t e l l i t e ,t e l e v i s i o nc a m e r ah a v eb e e nd e v e l o p e da n dw i d e l yu s e di nm a n ya r e a s t h e s i z ea n dc o m p l e x i t yo f t h es p a t i a ld a t a s e tc h a l l e n g e sh u m a n c o m p r e h e n s i o n s p a t i a ld a t am i n i n g ( s d m ) m a k e s u s eo f t e c h n o l o g i e sd e r i v e df r o ms t a t i s t i c s , p a t t e r nr e c o g n i t i o n ,a r t i f i c i a li n t e l l i g e n c e ,a r t i f i c i a ln e u r a ln e t w o r k ,r o u g hs e t , f u z z ys e t ,m a c h i n el e a r n i n g ,v i s u a l i z a t i o n a n do t h e ri n f o r m a t i o nt e c h n o l o g yi no r d e r t oe x t r a c t c r e d i b l e ,n o v e l ,i n t e r e s t i n g ,h i d d e n ,p o t e n t i a l l y u s e f u la n d u l t i m a t e l y u n d e r s t a n d a b l ek n o w l e d g ef r o ml a r g es p a t i a ld a t a b a s e ( s d b ) s d mi st od i s c o v e rt h e e s s e n c e i n n e rr e l a t i o na n dt r e n do ft h ew o r l dh i d d e ni ns d b i ta l s oc a nr e a l i z e a t t t o m a t i ck n o w l e d g ea c q u i s i t i o na n dm a k i n gd e c i s i o n n o w , s d mb e c o m et h ef o c u s a m o n g r e s e a r c ho nd a t a b a s ea n dd e c i s i o ns u p p o r t s d mi sd i f f e r e n tf r o mt h ec l a s s i c a ld a t am i n i n gi nt h a ts p a t i a ld a t a b a s eh a v ei t s o w nc h a r a c t e r sc o m p a r e dw i t hr e l a t i o n a ld a t a b a s e ( e d g s ) f i r s t l y ,s p a t i a ld a t aw i t h t o p o l o g y a n dm e t r i c si n f o r m a t i o ni s o r g a n i z e da n di n d e x e db ym u l t i d i m e n s i o n a l s p a t i a l s t r u c t u r ea n dv i s i t e db ys p e c i a la c c e s sm e t h o d ,s e c o n d l y ,d a t ai nr d ba r e s u p p o s e dt o b es a m p l e ds e p a r a t e l y h o w e v e r , s p a t i a lo b j e c t sa r ei n f l u e n c e db yi t s n e i g h b o r sa n dd e p e n do ne a c h o t h e r f u r t h e rm o r e ,p a t t e r n sm i n e df r o ms d bi n c l u d e g r a p h i c a li n f o r m a t i o na b o u ts p a t i a lo b j e c t s s ot h a ti ti sd i f f e r e n tf r o mt h er e s u l tm i n e d f r o mr d b ,a n dc a r l tb ed e s c r i b e di nt e x t s c o n s i d e r i n gs p a t i a la t t r i b u t ei st h eo b v i o u s c h a r a c t e ro fs d m ,w h i c hm a k e ss d mm o r e c h a l l e n g i n g t h i sr e s e a r c hs y s t e m a t i c a l l yr e v i e w st h eb a s i ct h e o r ya n dt e c h n o l o g y a i m i n gt o s o l v i n gp r a c t i c a lp r o b l e m s ,i t a d d r e s s e sr e s e a r c ho nc l u s t e r i n go fp o l y h e d r ai n 2 - d e m e n s i o ns p a c e ,r e g r e s s i o n b a s e dc l u s t e r i n g ,p r e d i c a t i o na n dr u l ee x t r a c t i n ga n d p r o p o s e sc o r r e s p o n d i n ga l g o r i t h m s t h i sr e s e a r c hc o n t r i b u t e st o t h e o r e t i c a lb a s i sa n d a p p l i c a t i o no fs p a t i a ld a t am i n i n g t h ew o r k sa n di n n o v a t ep o i n t so f t h i sr e s e a r c hi n c l u d e s : ( 1 ) p r o p o s ea na l g o r i t h m f o rf a s tc l u s t e r i n gp o l y b e d r ai n2 - d i m e n s i o n i ta d o p t sa i i i f e a t u r et r e et o p r e s e r v e c l u s t e r si n f o r m a t i o n t h e a l g o r i t h m i si n s e n s i t i v et ot h e s e q u e n c eo fo b j e c t sa n da b l et or e a l i z ei n c r e m e n t a lc l u s t e r i n g ( 2 ) p r o p o s e sa na l g o r i t h mf o rc l u s t e r i n gs p a t i a ld a t ao nt h ec o n s t r a i n to fc l o s u r e i ti n i t i a l i z e st h ec l u s t e r sw i t hr e g i o n g r o w i n ga n da d j u s t st h ec l a s s l a b e lo fe a c h b o u n d a r yo b j e c t si no r d e rt or e s h a p ec l u s t e r s t h ea l g o r i t h mw i l lc o n v e r g ei nf i n i t e r e p e t i t i o na n d r e d u c et h ef i r i n ge r r o rg r e a t l y ( 3 ) p r o p o s ec o m b i n i n g u n i v e r s a l k r i g i n g a n dg e n e r a ll i n e a r r e g r e s s i o n m o d e l st o g e t an e wp r e d i c t i o nm o d e l i tt a k e s s p a t i a l l o c a t i o na n d n o n s p a t i a l a t t r i b u t e sa si n p u t sv a r i a b l e ss 0t h a ti tc a ng a i nb e t t e rp r e d i c a t i o na c c u r a c yt h a nas o l e m o d e l , ( 4 ) p r o p o s ea d o p t i n gr o u g h s e t t oe x t r a c t c l a s s i f i c a t i o nr u l e sf r o ms p a t i a l d a t a b a s ea n d u s i n gs e v e r a lm e t r i c s t oe v a l u a t et h ee x t r a c t e dr u l e s e x p e r i m e n t si m p l y t h a t j o i n t so f t h ei - m e a s u r ea n dp r o x i m i t y m e a s u r ea r et h eb e s te v a l u a t i o nm e t r i c s ( 5 ) d e s i g n as y s t e mo fs p a t i a ld a t am i n i n gf o rp r e c i s i o nf a r m i n gb a s e do n d o u b l e b a s em e c h a n i s ma n dd e v e l o pas y s t e mp r o t o t y p e i tm a k e su s eo fa p p l i c a t i o n d o m a i n b a c k g r o u n dk n o w l e d g e t od i r e c tt h e p r e p r o c e s sa n d t h em i n i n g p r o c e s s k e y w a r d s :s p a t i a ld a t a ,d a t am i n i n g ,r e g i o ng r o w i n g ,b o u n d a r yl i n k s ,r e g r e s s i o n a n a l y s i s ,g e n e r a ll i n e a rm o d e l ,u n i v e r s a lk r i g i n g ,m i x e dm o d e l ,a t t r i b u t e r e d u c t i o n ,r u l ee v a l u a t i o n ,p r e c i s i o nf a r m i n g i v 中国科学技术大学博一l 学位论文第一章绪论 第一章绪论 1 1 空间数据挖掘的产生与发展 据统计,人类生活在地球上,8 0 以上的信息与地球上的空间位置有关。遥 感、卫星、雷达、红外、电视摄像、电子显微成像、c t 成像等各种宏观与微观 传感器和成像技术的发展,使得各种大小和复杂的空间数据采集成为可能。同时, 计算机存储技术和网络技术的发展,进一步提高了人类在不同地域收集和存储大 量数据的能力。地理空间信息系统萌芽于上世纪6 0 年代,用来存储、组织、查 询空间地理数据,经过半个世纪的发展,现在已经完全成熟,并广泛应用于遥感 图像、医学图像、城市交通、土地区划、精准农业等领域。 空问数据采集技术和空间信息管理系统的成功,使人类占用信息量能力大大 增强,必然导致空问数据量的剧增。空间数据的复杂性程度远远超出人类分析的 能力。基于数据的管理信息系统已不能满足决策者对数据质量的需求,面向决策 的知识管理系统正在蓬勃兴起,迫切需要管理信息系统与决策支持系统相互结 合。1 9 8 9 年8 月美国底特律市召开的第一届国际联合人工智能学术会议上,从事 数据库、人工智能、数理统计和可视化等技术的学者们,首次提出从数据库中发 现知识( k n o w l e d g ed i s c o v e r y i nd a t a b a s e ,k d d ) 。经过十多年的发展,数据挖掘 技术将数理统计、机器学习、人工智能等许多理论与技术成功地应用于从数据库 中发现用户感兴趣的知识。 最初提出的数据挖掘主要是针对关系型数据,而空间数据是一种复杂类型的 数据,包括了空间和非空间的属性数据。空间属性可以是物体在二维平面上的投 影,也可以是物体在三维空间中的抽象描述,空间属性可以表示为点、线、面或 者多面体。非空间属性则是除空间属性的其他属性数据,为结构化的关系型数据。 可以认为空间数据库是通用数据库,而传统关系数据库只是空间数据库的特殊形 式。此外,传统数据库中数据对象通常假定为独立抽样,数据对象之间不存在关 联,然而这一假设对于空间数据对象却并不成立。在空间数据库中,两相邻对象 存在相互影响,即空间相关性。因此,传统的数据挖掘已经不适用于从空间数据 中国科学技术火学博士学位论文 第一章绪论 库中有效地发现知识。 1 9 9 4 年,在加拿大渥太华举行的g i s 国际学术会议上,我国学者李德仁提 出从g i s 数据库中发现知识的概念,并系统分析了空间知识发现的特点和方法, 认为它能够把g i s 有限的数据变成无限的知识,并进一步用于精练和更新g i s 数掘,使g i s 成为智能化的信息系统。 目前空间数据挖掘已成为国际研究的一个热点,渗透到数据挖掘和知识发 现、地球空间信息学和一些综合性的学术活动中。由美国人工智能协会( a a a i ) 主办的国际k n o w l e d g ed i s c o v e r ya n dd a t am i n i n g ( d m k d ) 学术会议,规模不 断壮大,关于空间数据挖掘的论文比例快速增长。空间数据挖掘和知识发现起源 于国际g i s 会议,目前各种规模的g i s 学术会议都把它作为重要的研究主题, 国际摄影测量与遥感学会( i s p r s ) 也是如此。此外,还有相关的d a t am i n i n g 、 a d v a n c e ds p a t i a ld a t a b a s e s 、v e r yl a r g ed a t a b a s e s 、i n t e r n a t i o n a ls y m p o s i u mo n d i 2 i t a le a r t h 、a c m 、i f i s 和s i g m o d 等国际学术会议定期举行,在这些国际 学术会议中,空间数据挖掘和知识发现从无到有,已成为关注热点。目前,“d a t a m i n g a n d k n o w l e d g ed i s c o v e r y ”学术杂志已经被s c i ( s c i e n c e c i t a t i o ni n d e x ) 全 部收录,难度指数跃居信息领域的前列,空间数据挖掘和知识发现为该学术期刊 的重要研究内容。在i e e et r a n s a c t i o n so nk n o w l e d g e a n dd a t a e n g i n e e r i n g 、i n t j o fv e r yl a r g ed a t a b a s e s 、i n t j o fg e o g r a p h i c a li n f o r m a t i o ns c i e n c e 、a p p l i e d i n t e l l i g e n c e 、c o m p u t a t i o n a li n t e l l i g e n c e 、i n t e l l i g e n t d a t aa n a l y s i s 、i n t j o f i n t e l l i g e n ti n f o r m a t i o ns y s t e m s 、j o u r n a lo f i n t e l l i g e n ts y s t e m s 、m a c h i n el e a r n i n g 、 k n o w l e d g e a n di n f o r m a t i o ns y s t e m s 、l e c t u r en o t e si nc o m p u t e rs c i e n c e 和l e c t u r e n o t e si n a r t i f i c i a li n t e l l i g e n c e 等国际学术期刊或专著中,也出现了空间数据挖掘 的研究成果,部分还拥有自己的网站,如h t t p :w w w k d n u g g e t s c o m ( k n o w l e d g e d i s c o v e r yn u g g e t s ) 等。k l u w e rp u b l i c a t i o n 、s p r i n g e r v e r l a g 、a c a d e m i c p r e s s 、 w i t p r e s s 等著名的国际出版公司也开始出版发行空间数据挖掘的学术期刊、专 著或论文集。今年4 月在f l o r i d a 召开的“2 0 0 4s i a m i n t e r n a t i o n a lc o n f e r e n c eo n n a t am i n i n g ”把空间数据挖掘列为其中一个重要研究主题。 2 中国科学投术人学博i :学位论文 第一章绪论 1 2 空间数据库和数据仓库 空间数据库系统是用于采集、存储、管理、处理、检索、分析和表达空间数 据的计算机系统,能够对处理海量空间数据进行存储和管理,支持挖掘过程对空 间数据的访问。 1 2 1 空间数据结构 空间数掘结构是空间信息管理系统的基础。空间数据库中的数据结构主要有 两种:基于矢量的数据结构和栅格的数据结构。有些空间数据库同时结合了这两 种数据结构,形成矢量和栅格一体化的数据结构。 栅格数据结构是指地理实体使用网格单元的行列作为位置标识符,行与列的 数目取决于栅格的分辨率和实体的特征。栅格数据结构被广泛使用于遥感像片、 数字摄影图像以及各种网格化的空阳j 数据。 矢量数据描述地理要素的空间特点是通过离散的位置坐标来表示,在城市分 区规划和详细规划、土地管理等公用事业的管理中有广泛的应用。矢量数据结构 较栅格数据结构对空间关系描述更全面,对线状或网络状事务分析方便,空f 刮属 性综合查询方便等诸多优点。 描述空间实体的要素有点、线、面等。点用来表示那些实体太小的地图上无 法用按比例描绘的地理要素。如消防栓、井、测量控制点等;线用来表示那些线 状或网络状的地理要素,如溪流、道路、管线等;面用来表示那些由一个封闭的 多边形包围的区域状的地理要素。如水系、地块、房屋建筑、行政边界等。 矢量数据结构通常有环状多边形数据结构和拓扑化数据结构两种基本形式。 环状多边形数据结构与平面解析几何对物体的描述十分相似,点是由一对坐标 ( x , y ) 来表示的,线表示成( x l ,y l ,x a 如。) 的形式,面积对象则表示为 0 j y x 2 ,如,x n ,y 。x l ,y 小环状多边形数据结构不能完整地描述空间实体间的空 间关系,而矢量空间数据的拓扑化数据结构可以克服这一缺陷。 1 2 2 空间关系 有效地对空间数据库进行数据挖掘,必然要考虑到空间数据的一些特性, 特另i j 是空间对象的空问属性。空间数据库和传统的关系型数据库最大的区别在于 中国科学技术大学博士学位论文第一章绪论 lr a nr br a n b 。r a n b a 。nr b a 。n b 。 a 。n b a nr b a 。n b 。 a 。n b l 系,a 是参照源物体,b 是目标物体。方向关系的确定依赖于所考虑的构成物体的 点的个数。这里假定用源物体a 的某个具有代表意义的点r e p ( a ) 为中心a 来代表 an o r t hb 成立,当且仅当v b b ,b x r e p ( a ) x ,同理可以定义s o u t h ,w e s t , # an o r t h e a s tb 成立,当且仅当v b b ,b x r e p ( a ) xa b y r e p ( a ) y ,同理可 实际应用中对象之间空间关系往往比前面介绍的三种关系复杂,但通过这三 4 中国科学技术大学博十学位论文笫一帝绪论 种基本的空间邻接关系通过与、或运算可以表达复杂的空间关系。空间关系的示 例见图1 1 。 1 2 3 空间数据库系统 图1 1 对象的空间关系 早期的空间数据库系统建立在文件系统上,所有的空间数据定义和处理都由 应用软件完成,其缺点是实用性受到很大限制。随着关系型数据库管理系统 ( r d b m s ) 的同趋成熟,运用关系数据库作为空间数据库的基本载体,并辅以 特殊结构的空间信息数据文件已经成为空间数据库实现的主流。根据空间数据和 属性数据是否为一体化组织形式,可将目前较常用的空间数据库系统归纳为集成 型和混合型 陈晟9 8 。 第一类,集成型空间数据库系统 在这类系统结构中,利用了关系数据库管理系统所支持的数据类型,并在它 的基础上增加一层结构,以实现空间数据类型及其操作。用关系数据库管理系统 所支持的数据类型表示空间数据有两种方法:第一种是用点、直线等简单空间数 据类型表示复杂的空间数据,而点、线等可以很方便地用关系数据模型表示。这 种方法的缺点是构造复杂空间数据的开销很大、读写性能较差:第二种方法是以 最小边界矩阵( m b r ) 、栅格等方法表示空间数据,并以b l o b ( b i n a r yl a r g e o n e c t ) 数据类型存于关系数据库中。这样可避免用点、直线等简单数据类型表 示所有空间数据,但b l o b 字段只能存放数据,对数据的解释还得依靠上一层 结构。 e s r i ( e n v i r o n m e n t a ls y s t e m sr e s e a r c hi n s t i t u t e ) 的g i s 原型系统中的空间 数据库引擎s d e ( s p a t i a ld a t a b a s ee n g i n e ) ;是- - 种典型的集成型空间数据库系统。 中国科学技术大学博十学位论文 第一章绪论 它在现有商用关系型数据库管理系统的基础上进行了扩展,可以将空间和非空间 数据存贮在单一关系型数据库中。s d e 数据采用无缝数据连接方式,垂直方向 上数据按层次进行组织。s d e 中提供了一个名为特征处理引擎f m e ( f e a t u r e m a n i p u l a t i o ne n g i n e ) 的中间处理层,用以处理s d e 与前端应用的交互。f m e 实质l 是一个表驱动的数据交换层,它可以根据不同的前端应用进行数据处理, 能支持通过空间和非空间属性进行数据选取,同时支持多种常用数据格式。s d e 的结构如图1 2 所示。 图1 2 s d e 系统结构 第二类,混合型空间数据管理系统 混合型空间数据库的系统结构是在关系数据库系统基础上,增加一个专门管 理空问数据的子系统。即将空间对象数据视为两部分:空间属性数握和非空间属 性数据。它们分别存贮在r d b m s 和空间数据子系统中,并采用逻辑指针( 即空 间属性标识符) 相互关联。 目前,最流行的空间数据库系统m a p i n f o 中的数据采用的就是混合型空间数 据结构,它分别使用不同的模块存贮空间数据和属性数据。其空间数据在垂直方 向上是按层次结构进行组织,基本单位称为图层,在水平方向上是按图幅组织, 图幅大小不确定。在m a p i n f o 中每一图层由5 个文件组成,其后缀分别为t a b 、 d a t 、i n d 、i d 和m a p ,其中t a b 文件定义了图层属性数据的表结构,d a t 文件存贮该图层的每一个对象的属性数掘,i n d 文件为交叉索引文件,i d 文件 中每4 个字节为一个对象的空间数据的索引,m a p 文件存贮该图层的每一个对 6 中国科学技术大学博一j :学位论文第一诱绪论 象的空间数据。m a p i n f o 中的单一图层数据组织形式如图1 3 所示。 文件头 文件头 文件头 属性数据1索引1 空削数据1 属性数据2索引2 空间数据2 一l 交叉一_ - 属性数据n 索引 索引n 恪 空问数据n d a t 文件i n d 文件i d 文件m a p 文件 图13m a p i n f o 中数据的组织结构 1 , 2 4 空间数据仓库 同关系数据库一样,空间数据库只是用于保存信息。对数据的分析则需要建 立在数据仓库的基础之上。空间数据仓库( s p a t i a ld a t aw a r e h o u s e ) 是面向主 题的、集成的、具有时间序列特征的空间数据集合,以支持管理中的决策制定。 空问数据仓库是空间数据库技术和数据仓库技术相结合的产物,大大扩展了 空间数据库管理系统的应用功能。空间数据仓库和一般的空间数据库在物理本 质上均是对数据高效地存贮。空间数据仓库仍然是建立在数据库管理系统之上, 依靠它们对数据进行存贮管理,而不管它们是集中式的,还是分布式的,是松 耦合的,还是邦联式的。二者之间的差别在于它们面向的应用不同,因此在数 据的组织、集成上存在着较大的差异。空间数据库( 源数据库) 负责原始数据 的日常操作性应用,提供简单的空间查询和分析:空间数据仓库则根据主题通 过专业模型对不同源数据库中的原始数据进行抽取和聚集,形成一个多维视角, 为用户提供一个综合的、面向分析的决策支持环境。这样,空间数据仓库和空 间数据库各自只做自己所擅长的,系统的性能达到最佳。另外,空间数据仓库 较好地引入了时间维的概念,可根据不同的需要划分不同时间粒度等级,以便 进行各种复杂的趋势分析,如土地覆盖变化研究、全球气候的变化趋势等,以 支持政府部门的宏观决策。 空间数据仓库作为储存、管理空间数据的一种组织形式,其物理实质仍是计 算机存储数据的系统,只是由于使用目的不同,其存储的数掘在量和质以及前端 分析工具上与空间数据库应用系统有所不同。空间数据分析通常采用三层体系结 构,见图1 4 。 7 中国科学投术大学博士学位论文 鹅一章绪论 查询服告空间o l a p空间数据挖掘 画画囵瓣一具 岔 日曰日日 中问层:空间数据仓库 底层:空间数据库 图1 - 4 三层空间数据仓库结构 ( 1 ) 底层为源数据。空间数据仓库为了支持高层次的决策分析需要大量的 数据。这些数据可能分布在不同的已有应用中,存储在不同的平台和数据库中。 ( 2 ) 中间层是空间数据仓库。源数据经过变换避入空间数据仓库。空间数 据仓库以多维方式来组织数据和显示数据。维是人们观察现实世界的角度,但多 维数据库中的维并不是随意定义的,它是一种高层次的类型划分。为了获得较高 的系统性能,维屏蔽了许多原始数据,决策分析所需的综合数据预先被统计出来 放在其中。空间维和时间维是空间数据仓库反映现实世界动态变化的基础,它们 的数据组织方式是整个空间数据仓库技术的关键。在实际分析过程中,可按需要 把任一维与其它维进行组合,以多维方式显示数据,供分析人员从不同角度不同 方位认识世界。空间数据仓库的数据组织方式可分为基于关系表的存储方式和多 维数据库存储方式。基于关系表的数据模型主要有星型和雪花模型 z f g 0 1 ;多 维数据库数据模型主要是超立方体结构模型。空间维数据的具体表现形式为空间 对象的名称和指向空间对象的指针。空间数据仓库的大多数计算分析主要集中于 空间多边形的融合和分离。 ( 3 ) 顶层是客户端分析工具。空间数据仓库的目标是提供决策支持,它不 仅需要一般的空间数据查询和分析工具,更需要功能强大的分析工具,如联机在 线分析、空间数掘挖掘等,是空问数据仓库应用的重要部分。客户端分析工具按 照功能可以划分为查询型、验证型、挖掘型,主要采用旋转、嵌套、切片、钻取 和高维可视化等分析技术,以多维视图的形式展现给用户,使用户能直观地理解、 8 中国利学技术大学博i 学位论文 第一章绪论 分析数据,进行决策支持。 由于空间数据仓库管理的数据量非常大,支持决策的空间计算非常复杂,因 此空涮数据索引结构、多源数据的集成、空间数据的管理、空间数据挖掘等是空 间数据仓库研究的重要内容 j i a 0 0 】。 1 3 空间数据挖掘基本概念 1 3 1 空间数据挖掘定义 空间数据挖掘与一般数据挖掘既有联系又有区别。对于数据挖掘( d a t a m i n i n g ,简称d m ) 与从数据库中发现知识( d i s c o v e r yf o rs p a t i a ld a t a b a s e ,简 称k d d ) 这两个概念,经常让人混淆。有些学者将d m 是作为k d d 的一个核 心环节。认为k d d 过程除了包括数据挖掘外还包括数据准备和发现结果解释评 估等诸多环节。有的人则认为二者本质是相同的,d m 只是经常用于统计、数据 分析和信息系统等工程领域,而k d d 多用于人工智能和机器学习等领域。还有 人则认为二者是难以分离的,应作为一个整体使用,即数据挖掘和知识发现 f d m k d ) 才较为适宜。但术语“数据挖掘”比“在数据库中发现知识”和“数据 挖掘和知识发现”形式更简洁,因此广为流行。作者在文中将这两个概念不加区 别地使用。 空间数据挖掘( s p a t i a l d a t am i n i n g ,简称s d m ) ,或称从空间数据库中进行 知识发现( k n o w l e d g ed i s c o v e r y f r o m s p a t i a ld a t a b a s e ) ,定义为:在空间数据库 和数据仓库的基础上,综合利用统计学方法、模式识别技术、人工智能方法、神 经网络技术、粗集、模糊数学、机器学习、专家系统、可视化技术和其他相关的 信息技术作为手段,从大量的空间数据、管理数据、经营数据或遥感数据中析取 出可信的、新颖的、感兴趣的、隐藏的、事先未知的、潜在有用的和最终可理解 的知识,从而揭示出蕴含在空间数据背后客观世界的本质规律、内在联系和发展 趋势,实现知识的自动或半自动获取,为管理和经营决策提供依据 李德仁0 1 】。 1 3 2 空间数据挖掘的任务 空间数据是比传统关系数据更复杂的类型,使得空间数据库中隐含更多的知 识。一般而言,空间数据挖掘的任务按照从空间数据库中能够发现的知识类型分 9 中国科学技术大学博= 卜学位论文第一章绪论 为以下几种: ( 1 ) 普遍的几何知识 普遍的几何知识是指某类目标的数量、大小、形态特征等普遍的几何特征。 计算和统计空间目标几何特征量的最小值、最大值、均值、方差,统计出特征量 的直方图。在足够样本的情况下,直方图数据可转换为先验概率使用。在此基础 上,可根据背景知识归纳出高层次的普遍几何知识。 ( 2 ) 规则型知识 空间规则型知识包括空间关联规则、空间特征规则、空间区分规则和演变规 则等,用产生式规则表示。 空间关联规则是指空间目标间相邻、相连、共生、包含等空间关联规则。例 如,村落与道路相连,道路与河流的交叉处存在桥梁等。 空间特征规则是指某类或几类空间目标几何和属性的普遍特征,即对空间对 象共性的描述。 空间区分规则指两类或多类目标之问在几何上的不同特征,即可以区分各类 目标的特征。正好与特征规则意义相反,它是用于区分不同对象类之间的特征差 别。 如果在空间数据库加入了时间维,则可明从中发现空间对象的演变规则。空 间演变规则是指空问目标随时间的变化规则。即哪些地区易变,哪些地区不易变, 哪些目标易变及怎么变,哪些目标固定不变等等。 ( 3 ) 空间聚类分析与异常检测 空间数据聚类按照某种度量作为准则,在大型、多维数据集中标识出聚类或 稠密分卸的区域,从而发现数据集的整个空间中的分布模式。例如精确农业中 的作物产量图可以聚类成高、中、低产量区。 在空间数据库中,也同样存在异常对象,这些对象的几何特点或者属性特征 与近邻对象的明显不同。 ( 4 ) 空间分布规律 空间分布规律用于描述目标在空间中的分。如在二维空间中,分成在垂直向、 水平向以及垂直向和水平向的联合分布靓律。垂直肉分布即地物沿高程带的分 t o 中国科学技术大学博士学位论文笫一章绪论 布,如植被沿高程带分布规律、植被沿坡度坡向分布规律等;水平方向分布指地 物在平面区域的分布规律,如不同区域农作物的差异、公用设施的城乡差异等: 垂直方向和水平方向的联合分布,即不同的区域中地物沿高程分布规律。 ( 5 ) 空问趋势分析 空间趋势分析是指在某个方向上,空问对象的属性呈现规律性的变化。 所有这些知识都可以在不同的空间概念层次上被发现,随着概念树的提升, 从微观到宏观,以满足不同用户、不同层次决策的需要。从空间数据库中发现的 知识可以表示为:特征表、谓词逻辑、产生式规则、语义网络、面向对象、可视 化等表达方法,具体选择要根据不同的应用背景决定。 1 3 3 空间数据挖掘基本过程和系统结构 空间数据挖掘与传统数据挖掘样,具有如下几个基本过程: ( 1 ) 数据清理清除原始数据中噪声或不一致的数据: ( 2 ) 数据集成将多种数据源按照主题组合在一起,构成空间数据仓库: ( 3 ) 数据选择从空间数据库或者数据仓库中检索出与分析任务相关的 数据; ( 4 ) 数据变换将数据变换或统一成适合挖掘的形式,如执行汇总或聚焦 等操作; ( 5 ) 模式提取根据空间数据挖掘发现任务的要求,选择统计方法、机器 学习或者其它智能计算的方法,或者把这些方法组合起来,并选择适 当的参数,从数据中提出任务相关的模型。 ( 6 ) 模式评价根据某种感兴趣度量如支持度、确信度、简洁性和新颖性, 识别真正有趣模式; ( 7 ) 知识表示使用产生式规则、可视化等知识表示形式,向用户提供挖 掘的知识,或者将知识添加到知识库中。 挖掘系统在执行这些基本过程时可以与用户或者知识库进行交互,将有趣的 模式提供给用户或作为新的知识存入知识库。在一次数据挖掘任务中,几个过程 并非顺序执行,而是一个不断循环往复的过程。图1 5 表示了空间数据挖掘系统 中同科学技术火学博i j 学位论文 第一章绪论 的一般体系结构。 1 3 4 空间数据挖掘的特点 圈1 5 空间数据挖掘系统体系结构 空间对象之间具有空间方向和距离等关系,并且距离邻近的对象之间存在相 互影响,空间对象之间的关系因此也就更为复杂,不仅多了拓扑关系、方位关系, 而且度量关系还与空间位置和个体之间的距离有关,使空间数据挖掘与其他类型 数据的知识发现方法之f 刚存在明显差异。空间数据库的复杂性特征决定了空间数 据挖掘的特点,具体如下: ( 1 ) 海量数据 海量数据常使一些方法因算法难度或计算量过大而无法得以实施,因而知识 发现的任务之一就是要创建新的计算策略并发展新的高效算法克服由海量数据 造成的技术困难。 ( 2 ) 空间属性之间的非线性关系 空间属性之间的非线性关系是空间系统复杂性的重要标志,其中蕴含着系统 内部作用的复杂机制,因而被作为空间数据知识发现的主要任务之一。 ( 3 ) 空间数据的多尺度特征 空间数据的尺度性是指空间数据在不同观察层次上所遵循的规律,以及体现 出的特征不尽相同。尺度特征是空间数据复杂性的又一表现形式,利用该性质可 中国科学技术大学博= 【4 学位论文第一章绪论 以探索空间信息在概化和细化过程中所反映出的特征渐变规律。 ( 4 ) 空间信息的模糊性 空间数据复杂性特征还表现在数据的模糊性。模糊性几乎存在于各种类型的 空间信息中,如空间位置的模糊性、空间相关性的模糊性以及模糊的属性值等等。 ( 5 ) 空间维数增高 空间数据的属性增加极为迅速,如在遥感领域,由于感知器技术的飞速发展, 波段的数目也由几个增加到几十甚至上百个,如何从几十甚至几百维空间中提取 信息、发现知识则成为研究中的一个难点。 ( 6 ) 空间数据缺值严重 数据缺值现象源自于某种不可抗拒的外力使数据无法获得或发生丢失。如何 对丢失数据进行恢复并估计数据的固有分布参数,成为解决数据复杂性的难点之 一 1 4 空间数据挖掘研究现状 空问数据挖掘与传统数据挖掘不同点之一是它需要特殊的数据访问方式,需 要进行近邻查询、联接、覆盖等操作,在挖掘过程中需要频繁访问数据,因此空 间数据索引技术是空间数据挖掘的研究内容之一。此外,由于空间数据的复杂性 特点,挖掘方法成为空间数据挖掘的主要研究内容。下面针对空问数据索引技术、 挖掘方法、空间数据挖掘系统和应用等几个方面,对空间数据挖掘技术的研究现 状简要回顾。 1 4 1 空问数据索引技术 对于传统数据已经

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论