(环境科学专业论文)基于遗传算法的流域空间数据挖掘.pdf_第1页
(环境科学专业论文)基于遗传算法的流域空间数据挖掘.pdf_第2页
(环境科学专业论文)基于遗传算法的流域空间数据挖掘.pdf_第3页
(环境科学专业论文)基于遗传算法的流域空间数据挖掘.pdf_第4页
(环境科学专业论文)基于遗传算法的流域空间数据挖掘.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(环境科学专业论文)基于遗传算法的流域空间数据挖掘.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

a b s t r a c t c h i n ai si n s u f f i c i e n ti nf r e s h w a t e rr e s o u r c e s i ti ss i g n i f i c a n tt or i v e rr e s o n r c c sr a t i o n a l u t i l i z a t i o na n de x p l o i t a t i o n ,w h i c hc a nf i tt h ew h o l en a t i o n a le c o n o m i cd e v e l o p m e n t i no r d e rt o r e a l i z es u s t a i n a b l ed e v e l o p m e n to ff r e s h w a t e rr e s o u r c e s ,w em u s tg r a s pt h ei n n e rr o l e sa n d i n h e r e n tr e l a t i o no fe a c he s s e n t i a lc h a r a c t e r , s ot h a tw a t e r s h e dd a t af r o ma l lw a y si sd e e p l y a n a l y z e d ,a n dc h a r a c t e r i s t i c - i n f o r m a t i o nw h i c hr e f l e c t si n c i d e n c er e l a t i o n sb e t w e e nh y d r o l o g y a n dr e g i m eo nw a t e r s h e ds p a c ei so b t a i n e d h o w e v e r , t h er e s e a r c h e sr e l i e do ns p a t i a ld a t aa r e f e wa n da l s oac h a l l e n g i n gp r o b l e m t h et e c h n o l o g yo fs p a t i a ld a t am i n i n gp r o v i d e st h e p o s s i b i l i t y t os o l v et h ep r o b l e m h o w e v e r , s p a t i a ld a t am i n i n gi nb a s i ne n c o u n t e rm a n y d i f f i c u l t i e sf o rc o m p l e x i t i e so f w a t e r s h e d ss p a t i a ld a t aa n dt r a d i t i o n a lh y d r o l o g i c a lm o d e l b a s e du p o nt h en a t i o n a ln a t u r a ls c i e n c ef o u n d a t i o n ,am o d e lo fs p a c e - s e r i e ss p a t i a ld a t a m i n i n gi nb a s i ni sp r o p o s e di nt h i st h e s i s ,w h i c hi sb a s e d0 1 1t h ep r i n c i p l e sa n dm e t h o d so fs d e a n do v e r c o m e st h ed e f i c i e n c i e st h a tt r a d i t i o n a lh y d r o l o g i c a lm o d e lw a ss e p a r a t ef r o ms p a c e c h a r a c t e r i s t i c s m o r em a t u r eg e n e t i ca l g o r i t h mi s a d o p t e dt ob u i l dt h em o d e lw h i c hb a s e do n s p a c ec h a r a c t e r i s t i c s ,a n dt r yt of i n dt h ei n h e r e n tr e l a t i o no fh y d r o l o g i cd a t af r o mo b s e r v a t i o n s t a t i o n s t h ec a s eo fo i n g j i a n gr i v e rb a s i np r o v e st h ef e a s i b i l i t yo ft h i sm o d e li nt r a n s e c t r e d u c t i o na n dh y d r o l o g i cp r e d i c t i o n f i n a l l y , c o m b i n e dw i t ht h et e c h n o l o g yo fg e o g r a p h i c i n f o r m a t i o ns y s t e m ,t h er e s u l t so fs p a c ec h a r a c t e r i s t i c sd a t aa r es p r e a di nt h eb a s i ng i s ,w h i c h p r o v i d e sm o r ev s u a li n f o r m a t i o nf o rs c i e n t i f i cm a n a g e m e n ta n dd e c i s i o n m a i nr e s e a r c hw o r ki s l i s t e da sf o 1 0 w s : t h ep r o c e d u r e sa n df l o wo fs p a t i a ld a t am i n i n gi nb a s i na r es e tu pb a s e do nt h e g e n e r a l p r o c e s so f s d e ,c o m b i n e dw i t ht h ep a r t i c u l a r i t yo f w a t e r s h e d ss p a t i a ld a t a c o n s i d e r i n g t h ec o m p l e x i t i e so f w a t e r s h e d s s p a t i a ld a t a ,am o d e lo fs p a c e s e r i e s h y d r o l o g i c a lp r e d i c t i o nm o d e li sp r o p o s e di n s t e a do ft r a d i t i o n a lh y d r o l o g i c a lm o d e lb a s e do i l l i m e - s e r i e s t h em o d e lu s e sl e a s tp a r a m e t e r sa n dv a r i a b l e st or e f l e c tt h ec a l c u l a t i o na n dm u l t i p l y p r o b l e m si nh y d r o l o g i cd a t a ,a n da v o i d st h ec o m p l i c a t e dr e l a t i o n sa m o n gt h ei n f l u e n c i n gf a c t o r s o fs p a t i a li n f o r m a t i o n ,w h i c hi si m p o r t a n tf o rb u i l d i n gt h es p a t i a ld a t am i n i n gm o d e li nb a s i n t h ep r o c e s s e so fs p a t i a ld a t am i n i n ga r ed i s c u s s e di nd e t a i l g e n e t i c a l g o r i t h m ,a n o n n u m e r i c a lo p t i m i z a t i o na l g o r i t h m ,i su s e df o rt h em o d e l t h ea b i l i t yo fg l o b a ls e a r c h i n ga n d s o l v i n gn o n - l i n e a ro b j e c t i v eg u a r a n t e e st h ef e a s i b i l i t ya n de f f e c t i v e n e s so ft h em o d e l i i a c t u a lp r a c t i c eh a sp r o v e dt h ef e a s i b i l i t yo ft h es p a t i a ld a t am i n i n gm o d e li nt r a n s e c t r e d u c t i o na n dh y d r o l o g i cp r e d i c t i o n t h ea d v a n t a g ea n da p p l i c a b i l i t yo ft h em o d e la l ee v a l u a t e d f i n a l l y , t h et e c h n o l o g yo fg i si su s e df o rt h ev i s u a l i z a t i o ns p r e a do fs p a t i a ld a t am i n i n gi n b a s i n t h er e s u l t sa r ec l e a ra tg l a n c of o rt h er i s e r s ,a n dp r o v i d es c i e n t i f i ca n dr e a s o n a b l ed e c i s i o n i n f o r m a t i o nf o rt h ec o n s t r u c t i o no fd i g i t a lv a l l e y k e yw o r d s :s p a t i a ld a t am i n i n g , m o d e l , g e n e t i ca l g o r i t h m , g e o g r a p h i ci n f o r m a t i o n s y s t e m ,v i s u a l i z a t i o n h i 此页若属实。请申请人及导师签名。 独创性声明 本人声明,所呈交的论文是我个人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的 地方外,论文中不包含任何其他人已经发表或撰写过的研究成果, 也不包含未获得武汉理工大学或其它教育机构的学位或证书而使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在 论文中作了明确的说明并表示了谢意。 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定, 即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学 校可以公布论文的全部内容,可以采用影印、缩印或其他复制手段 保存论文。 ( 保密的论文在解密后应遵守此规定) 研究生签名:嚏函值导师签名 注:请将此声明装订在学位论文的目录i ; 。 同期:捌z ,- i o 武汉理 大宁硕士学位论文 第1 章绪论 本章首先对论文的选题背景进行了简要介绍,然后阐明空i 日j 数据挖掘在掌 握流域信息过程中所发挥的重要作用的基础上说明其研究意义,通过对国内外 研究现状的分析,对流域空间数据挖掘的现状进行了分析,对遗传算法在江河 流域中的应用进行了总结,说明了研究方向和所采用的研究方法。最后综述了 主要研究工作。 1 1 研究意义与研究内容 1 1 1 选题背景与研究意义 江河是人类文明的摇篮和发祥地,蕴含着无限的生机。我国淡水资源的人 均占有率仅为全世界人均占有率的四分之一,是一个淡水资源严重不足的国家, 所以江河资源的合理利用和开发在我国国民经济的发展中具有重要的战略意 义。对于生命之源的淡水资源来说,要想最大限度地合理利用,必须掌握其内 在规律和各种特征之间的内在联系,而对于江河资源来说,要掌握其内在规律 最有效的途径,就是在流域上设置各种水文水情观测站,并对观测的数据进行 深入的、适于现场生产的、便捷的时空一体化研究。 本论文的选题来源于导师主持的国家自然科学基金项目“基于混沌进化算 法的数字流域信息挖掘与复合”( n o 5 0 3 0 9 0 1 3 ) 。该项目通过考察数字流域建设 中多种空间和属性信息的内在联系,利用各种数掘挖掘方法,对多源信息的挖 掘机理进行研究,遗传算法是其中重要的比照方法。本论文依托该项目,在空 间数据挖掘的理论和方法指导下,考察多种流域水文预测模型,提出了基于空 间序列的流域水文预测模型,研究遗传算法在流域空间数据挖掘中的适定性, 并运用地理信息系统技术实现了流域空间及水文信息的一体化管理。 长期以来,流域上水文水情观测站的设置具有随机性,大多是根据经验进 行设置的,很多流域都是人为选定一个步长均匀设置站点,而一条河流的水文 情况是在不断变化的,在一些水流平缓、河谷形念变化不大的河段,这个步长 太小,会出现重复设冒的现象,造成人力和资会的浪费;而对于有些水流湍急、 河谷形态变化比较大的河段来说,这个步长又太大,会遗漏一些重要的观测数 据。因此,流域信息自身的复杂特点给人类认识和掌握流域的内在变化规律带 来了巨大的困难,也给水文观测站的设詈提出了更高的要求。 武汉理工大学硕十学位论文 1 1 2 研究内容 事实上流域信息是一个整体,每个观测站( 断面) 的水文信息之间是存在内在 联系的,如果能找出这些断面水文水情信息之间的内在联系,就可以通过其中 某几个关键的断面信息,来繁衍和推算其他断面的信息,这样既可以大大缩减 观测站的数量,同时又能保证信息的完整性,既为国家节省了人力和资金,又 能确保不遗漏重要的信息。问题的关键就在于找出各断面信息之问的内在联系, 而空间数据挖掘技术为这一问题的解决提供了可能。 空间数据挖掘是从空间数据库中提取隐含的、用户感兴趣的空问和非空间 的模式和普遍特征的过程【”。空间数据挖掘能够从空间数据库中发现空间分布规 律、空间关联规则、空间特征规则等,这为找出流域各断面之间的内在联系提 供了有力的技术支持。空间数据挖掘的方法也很多:关联规则、聚类、可视化、 神经网络、遗传算法、粗糙集等,我们可以从中比较并选择适合流域空间数掘 特点的方法对流域空间数据进行数掘挖掘。而以往对流域数据的研究更多的只 是集中在水文水情特征数据的研究上,应用的一些复杂优化算法也主要集中在 观测值本身,而没有顾及流域是个不可分割的空问实体,所有水文水情数据是 不能脱离空间而存在的,因此更为科学合理的做法应该是围绕空间维进行综合 性的研究。实际上目前引起广泛关注的数字流域体系研究就是在这种背景下产 生的口i1 3 。 因此,本文以空间数掘挖掘的原理和方法为基础,针对传统水文预测模型 的单一性,结合流域空间数据特点提出了一种基于空日j 序列的流域空间数据挖 掘方法,采用较为成熟的遗传算法建立模型,试图找出各观测站水文数据之问 的内在联系,并结合地理信息系统技术,将挖掘的结果直观展布于流域空间中, 并能实时根据分析结果动态更新信息,为流域科学管理和决策提供更加直观形 象的信息。 1 2 国内外研究现状分析 1 2 1 空间数据挖掘的研究现状 作为数据挖掘的一个分支领域,空间数据挖掘的研究是在遥感( r e m o t e s e n s i n g ,r s ) 、地理信息系统( g e o g r a p b i ci n f o r m a t i o ns y s t e m ,g i s ) 、全球定位系统 ( g l o b a lp o s i t i o n i n gs y s t e m ,g p s ) 以及数据挖掘的基础上发展起来的,它比一般关 系数据库和事务数据库中的数据挖掘的研究要晚,但近几年已引起广泛兴趣。 2 武汉理 大学硕七学位论文 m u r r a y 和e s t i v i l l c a s t r o 回顾了探测性空i 日j 数据分析的聚类发现技术,分析 了基于统计学、数据挖掘和地理信息系统的空间模式识别和知识发现。k o p e r s k i , a d h i k a y 和h a n 总结了空间数据挖掘的发展,认为巨量的空问数据来自从遥感到 g i s 、计算机制图、环境评价和规划等各种领域,空间数据的累积已经远远超出 人们的分析能力,数据挖掘已经从关系数据库和交易数据库扩展到空间数据库。 他们就空间数据生成、空间数据聚类和挖掘空间数据关联规则等方面总结了空 间数据挖掘的最近发展。h a n 和k a m b e r 在其数据挖掘专著中,系统讲述了空间 数据挖掘的概念和技术。汪闽和周成虎根据自己的认识讨论了空间数据挖掘的 研究进展【4 1 。李德仁院士分析了空间数据挖掘的内涵和外延,并归纳了空间数据 挖掘的1 4 种方法及进展,其中包括模糊集、神经网络、遗传算法、可视化等常 用的方法【5 1 。毛克彪、覃志豪等人阐明了空间数据挖掘与g i s 集成的优越性,并 结合实例将g i s 与空间数据挖掘工具进行集成应用1 6 。蓝荣钦、林丽霞等人分析 了空间数据挖掘涉及的两大关键技术:空间数据仓库技术和空间数据挖掘的各 种算法,并指出各种空间数据挖掘方法的优缺点和应用场合 7 1 。还有学者从不同 侧面对空间数据挖掘进行研究,李霖、应申从空问尺度集成的角度对空间数据 挖掘进行基础性的研究和探索【8 l ;吴加敏、孙连英等学者总结了空间分析中可视 化技术的研究成果,并对空间数据可视化技术的现状及发展趋势进行了探讨【9 j 。 这些学者的研究说明空间数据挖掘是目前空问信息领域研究的热点问题, 其中的方法、关键技术以及应用都引起了广泛关注。然而空间数据挖掘的理论 和方法还不十分成熟,将空间数据挖掘技术与具体领域相结合的研究还比较欠 缺,尤其是在流域水文预测中的应用研究还处于探索阶段,需要在实践中不断 发展和完善。 1 2 2 流域空间数据挖掘的研究现状 空间数掘挖掘在江河流域中的运用主要集中在径流预测、洪水预报和水库 调度中。阎俊爱、钟登华根据径流中长期预测的特点,将遗传算法和神经网络 相结合,提高了径流中长期预测模型的优化能力,有效地克服了人工神经网络 学习速度慢、存在局部极小点的固有缺陷i l 。周娜、周燕屏也用遗传算法和b p 算法相结合的改进神经网络模型来进行径流预报,即先通过遗传算法对仞始权 值分白进行优化,在解空间中定位出一个较好的搜索空间,然后采用b p 算法, 在这个较小的解空间中搜索出最优解,使网络收敛速度加快和避免局部极小i l “。 徐建新、李振全等应用狄色理论建立了g m ( 1 ,1 ) 模型,对华北地区某典型区地表 武汉理 大学硕士学位论文 径流量进行预测1 1 2 1 。张利平、王德智等将混沌重构相空间理论和神经网络模型 相结合,用于水文中长期预报中,具有很好的预报精度和应用价值【1 ”。刘晓安、 王金文等【1 4 】将一种基于小波分析的自回归滑动平均求和( a r i m a ) 模型用于月径 流的预测,利用小波变换良好的局部化特性,将月径流序列分解成不同时间尺 度上的子序列,然后对各个子序列利用a r i i v l a 模型进行预测,提高了月径流预 报精度。杨道辉、马光文等将粒子群优化算法用于b p 网络模型,对模型参数进 行优化,提高了模型的收敛速度和精度1 1 5 】。卢敏、张展羽等尝试将最小二乘支 持向量机技术用于径流预测,并与b p 神经网络方法的预测结果进行了对比,证 明支持向量机方法预测流量精度要优于b p 神经网络方、法1 1 6 1 。 这些学者将数据挖掘技术用于径流预测中都取得了较好的效果,相对于传 统的预测方法精度大大提高,为本文的研究提供了有益的借鉴价值。但是这些 预测都是以时间为序,利用以前的测量数据进行月预测、最大径流预测、中长 期预测等等,没有考虑流域的空间特性。而事实上流域体系具有较强的空间特 性,如果能从空间序列进行流域水文信息的预测,将为这一问题的研究提供一 种新思路。 1 2 3 遗传算法的应用现状 遗传算法提供了一种求解复杂系统优化问题的通用框架,它不依赖于问题 具体的领域,对问题的种类有很强的鲁棒性,所以广泛应用于许多学科。遗传 算法的应用按其方式可分为三大部分,即基于遗传算法的优化计算、基于遗传 算法的优化编程和基于遗传算法的机器学习,分别简称为遗传计算( g e n e t i c c o m p u t a t i o n ) 、遗传编程( g e n e t i cp r o g r a m m i n g ) 、遗传学习( g e n e t i cl e a r n i n g ) 。本 次研究主要将遗传算法用于函数优化,属于遗传计算。 陈娟、徐立鸿提出一种基于动态小生境技术的自适应遗传算法,通过物种 的辨识和保存过程确定小生境的峰值,引入个体趋向于高适应度的方向这一控 制参数控制搜索的方向,大大提高了搜索效率旧。蔡杰进、马晓茜将遗传算法 用于火电机组运行的目标函数模型优化中,取得了良好的效果1 1 。陈丽娟、杨 国军等对遗传算法应用于多峰值数值函数优化进行了研究,通过对算法的综合 和改进,克服了传统遗传算法计算多峰值函数时容易出现的遗传漂移问题,实 现了优化目的1 1 9 | 。刘淳安、王宇平给出了多目标优化的一种新解法r d m o e a , 并用实验表明该算法对不同的实验函数均可求出最优解集合中分白均匀且数鼍 充足的最优解【2 0 j 。这些研究都表明遗传算法在函数优化中具有优势。函数优化 4 武汉理工大学硕士学位论文 是遗传算法的经典应用领域,对于具有多峰的非线性优化问题,普通优化算法 一般很难达到全局最优解,而遗传算法可以克服这一缺点,在整个问题空间搜 索,找到全局最优解。 此外,遗传算法在流域径流预测中也得到了广泛应用。龚传利、康玲等用 遗传算法和b p 算法相结合来训练日径流神经网络预测模型的权值,提高了流域 日径流预测的精度【2 1 1 。袁晓辉、张勇传等应用遗传规划方法进行中长期径流预 测,将预测模型视为遗传规划中的个体加以处理,根据历史样本数据自动生成 最佳的径流预测模型,运用得到的预测模型进行预测,仿真结果表明该方法可 以明显提高径流预测精度i ”。 这些学者的研究说明遗传算法在流域对象研究中具有良好的应用效果,非 常适合流域对象的研究。当然遗传算法也存在早熟等缺陷,但本次研究主要针 对遗传算法在流域空间数据挖掘中的适定性,探索基于空间序列的流域水文预 测方法,为流域水文预测提供一种新思路。 1 3 主要研究工作 在空间数据挖掘的具体理论和方法流程指导下,考察多种手段获取的流域 水文信息的特点,从流域信息挖掘的遗传算法理论基础入手,分析评价现有流 域水文预测模型的缺陷,研究遗传算法在流域空问数据挖掘中的适定性,为流 域水文预测提供一种新思路,并运用地理信息系统技术,实现流域空间及水文 数据的一体化管理。流域空间数据挖掘的基本流程和技术路线如图1 - 1 所示。 流域空间及水文数据具有覆盖面积广、涉及变量多且实时变化等特点,因 此本次研究采用易于采集且使用频率最高的水文水情观测数据和遥感影像图为 主要数据来源,进行流域空间数据挖掘的研究。由于这些数据来源于不同的观 测站,因此数掘采集的时| 日j 问隔、保留的小数位数都可能不统一,为了研究问 题和建立模型的需要,必须进行数据预处理,使所有参与研究的数据都具有统 一的格式和时间步长。同时,需要从遥感影像图中提取相应的断面空间数据和 流域空日j 数据。所以,数据预处理后形成了三类数据水文数据( 包括各观测 断面的流量、水文、流速等) ,断面空问数据( 主要是指各断面离源头的距离) , 流域空间数据( 指整个流域的空间分布及断面的空问位置) 。运用水文数据和断面 空间数据建立基于遗传算法的空间数据挖掘模型进行数据挖掘,考察各观测断 面的水文信息之间是否存在内在联系,并比较模型模拟值与实际观测值之i 日j 的 拟合误差,如果误差大于经验值则认为该断面为控制断面,否则为非控制断面。 武汉理= 大学硕士学位论文 利用控制断面的水文信息预测其他非控制断面的水文信息,从而实现断面约简 和水文预测的目的,并对空间数据挖掘的结果进行评价,评价的结果可以作为 反馈信息进一步修正流域空间数据挖掘模型。同时运用断面空间数据和流域空 间数据建立基于g i s 软件平台的流域空问数据库,将断面约简和水文预测的结 果展布于流域地理信息系统中,实现流域空间及水文信息的一体化管理。 文水情观测数遥感影像图 数据预处理 水文数据 i 断面空问数据ll 流域空间数据 基丁遗传算法的 比较模型模拟值与真 实值之间的拟合误筹 若误芳小于ii 若误差人于 经验值ii 经验值 断面约简 丁 水文预测 结果评价 基于g i s 平台的 流域空间数据库 空间数据挖掘的 可视化展布 图1 - 1 技术路线流程图 6 武汉理工大学硕士学位论文 1 4 预期研究成果 本次研究主要以流域为研究对象,以空间关联特性研究为主线,以空间数 据挖掘技术为主要方法,预期的研究成果如下: 1 对通过各种手段获取的流域数据进行深层次的分析,考察流域的水文水 情数据与空间数据之间的关联关系,并采用空间数据挖掘的理论和方法,选取 遗传算法建立流域空间数据挖掘模型,获取反映流域空间地段水文水情关联性 的特征信息; 2 运用特征信息对流域同一时段的水文信息进行约简,并运用其他时段的 水文信息对约简的结果进行验证,并对该方法进行评价; 3 运用g i s 技术,建立流域地理信息系统,将各种流域空间数据、水文数 据、以及图片、影像等多种数据在同一平台上进行一体化管理,并对流域空间 数据挖掘的结果进行可视化展布。 4 遗传算法是项目研究中重要的比照方法,因此本次研究为整个课题的研 究提供具有参考价值的科学依据, 7 武汉理 大学硕士学位论文 第2 章空间数据挖掘的理论基础 空间数据挖掘( s p a t i a ld a t am i n i n g , s d m ) 是数据挖掘( d a t am i n i n g , d m ) 的分 支学科,但s d m 不同于一般的d m ,有别于常规的事务型数据库的数据挖掘, 在一般数据挖掘的理论中增加了空间尺度维瞄1 。本章首先概述了空间数据挖掘 的基本概念及其特点;在阐明了空间数据挖掘的一般过程的基础上,结合流域 空间数据挖掘的要求提出了流域空间数据挖掘的过程;并简要介绍了空间数据 挖掘可发现的知识以及空间数据挖掘的方法。 2 1 空间数据挖掘的理论 空间数据挖掘,也称基于空间数据库的数据挖掘和知识发现( s p a t i a ld a t a m i n i n ga n dk n o w l e d g ed i s c o v e r y , s d m k d ) ,作为数据挖掘的一个新分支,是指 从空间数据库中提取用户感兴趣的空间模式与特征、空间与非空间数据的普遍 关系及其它一些隐含在数据库中的普遍的数据特征( h a n ,1 9 9 6 ) 1 2 3 l 。具体而言,空 间数据挖掘是在空间数据库的基础上,综合利用统计学、模式识别、人工智能、 神经网络、粗糙集、模糊数学、机器学习、专家系统和相关信息等,从大量的 空间生产数据、管理数据或遥感数据中析取人们可信的、新颖的、感兴趣的、 隐藏的、事先未知的、潜在有用的和最终可理解的知识,从而揭示出蕴含在数 据背后的客观世界的本质规律、内在联系和发展趋势,实现知识的自动获取, 提供技术决策与经营决策的依据【5 j 。 由于空间数据的复杂性,空间数据挖掘不同于一般的事务数据挖掘,它具 有如下一些特点i “1 : 1 数据源十分丰富,数据量非常庞大,数据类型多,存取方法复杂; 2 应用领域十分广泛,只要与空间位詈相关的数据,都可对其进行挖掘; 3 挖掘方法和算法非常多,而且大多数算法比较复杂,难度大; 4 知识的表达方式多样,对知识的理解和评价依赖于人对客观世界的认知 程度。 图2 - 1 空问数据挖掘的一般流程 武汉理工大学硕十学位论文 空间数据挖掘是一个复杂的过程,这一过程分为三个阶段:空间数据的获 取和预处理、空间数据挖掘、空间数据的评价和可视化解析【吲,如图2 - 1 所示。 空间数据的获取和预处理需要经历三个步骤1 2 6 l1 2 7 】: 1 数据准备:了解空间数据挖掘相关领域的基本情况,学习该领域的先决 知识,分析挖掘的目的,构造概念分层。 2 数据选择:根据需要从空间数据库中提取与空问数据挖掘相关的数据, 使用合适的空间数据结构和数据访问方法。 3 数据预处理:消除噪声数据,统一数据格式和数据源,对丢失数据利用 统计方法进行填补,确保数据的完整性和一致性。 空问数据挖掘阶段又分为三个步骤: 1 确定目标:对于空间数据挖掘的不同要求,会在具体的知识发现过程中 采用不同的数据挖掘算法,所以首先要确定空间数据挖掘的目标。 2 建立模型:根据空间数据挖掘的目标,选择合适的数据挖掘算法,建立 空间数据挖掘的模型,并使得数据挖掘模型和整个空i 日j 数据挖掘的评判标准相 一致。 3 数据挖掘:运用选定的数据挖掘算法,从数据中提取用户所需要的知识, 这些知识可以用特定的方式表示,也可以用常规的方式表示。 空间数据的评价和可视化解析阶段包括模式解释、知识评价和可视化展示: 1 模式解释:对于数据挖掘的模式进行解释,有时为了取得更有效的知识, 可能返回到前面的步骤进行反复提取。 2 知识评价:将数据挖掘得到的知识以能理解的方式展现,包括对结果的 一致性检查,以确保本次发现的知识不与领域的相关知识相抵触。 3 可视化展示:将数据挖掘的知识用可视化的方法展示,如g i s 技术,将 空间数据挖掘的结果展布于空间地图上。 以上是空间数据挖掘的一般过程。 本次研究的研究对象是流域空间数据库,结合这一特定领域进行空间数据 挖掘的过程如图2 2 所示。 首先从流域空间数据库中选择两类数据水文数据和遥感数据,这两类 数据都是流域空间数据库中的基础数据,也是进行空间数据挖掘的重要数据源。 然后对选择的两类数据分别进行预处理,提取有用的信息。从水文数据中提取 水文特征信息,如水位、流量等;从遥感数据中提取地物特征信息,如地理坐 标、空问相对位置等。需要指出的是,遥感数据也是最后对空间数据进行可视 9 武汉理 大学硕十学位论文 化展示的重要数据源。处理完数据,就进入空间数据挖掘的第二阶段。根据空 间数据挖掘的目标,结合已经提取的特征信息,建立数字流域空间数据挖掘模 型,并且实现空间数据的知识发现。为了确保发现的知识的有效性,还要根据 挖掘的目标对知识进行检验,如果没有达到目标,需要对建立的模型进行修正, 直到满足预定的目标。对于满足预定目标的知识,需要将其返回到流域空间中, 对知识进行评价,给予知识合理的现实意义。最后,将经过评价的知识在g i s 中展布出来,为决策提供直观、方便的可视化依据。 图2 - 2 流域空| 日j 数据挖掘过程 2 2 空间数据挖掘可发现的知识类型 要对空间数据库进行数据挖掘和知识发现,首先要明确从空问数据库中可 以发现哪些知识,我们对前人的研究成果进行总结,归纳了空问数掘挖掘可发 1 0 武汉理工大学硕士学位论文 现的知识主要包括以下8 种1 1 1 2 4 l : 1 空间特征规贝, l j ( s p a t i a lc h a r a c t e r i s t i cr u l e s ) 空间特征规则是指某类或几类空间目标的几何的和属性的普遍特征,即对 共性的描述。空间几何特征是指目标的位置、形态特征、走向、连通性、坡度 等普遍的特征。空间属性特征是指目标的数量、大小、面积、周长、名称等定 量或定性的非几何特性。这类规则是最基本的,是发现其它类型知识的基础。 2 空间分布规律( s p a t i a ld i s t r i b u t i o nr e g u l a r i t i e s l 空间分布规律是指目标( 现象) 在地理空间的分布规律,分为在垂直向、水平 向以及垂直向和水平向的联合分布规律以及其它分布规律。垂直向分布即地物 沿高程带的分布;水平向分布指地物在平面区域的分布规律;垂直向和水平向 的联合分布即不同的区域中地物沿高程分稚规律。 3 空问关联规, t j ( s p a t i a la s s o c i a t i o nr u l e s ) 空间关联规则是指空间目标间相邻、相连、共生、包含等空间关联的规则。 空间分布规律本质上也是一种空间关联知识,它反映了所感兴趣的对象与空间 位置或高程的关联。 4 空间分类规j j ( s p a t i a lc l a s s i f i c a t i o nr u l e s ) 空间分类规则是根据对象的空间或非空间特征,利用分类分析将目标划分 为不同类别的规则。空间分类是有导i ) 币( s u p e r v i s e d ) 的,并且事先知道类别数和 各类的典型特征。 5 空j 日j 聚类规, t j ( s p a t i a lc l u s t e r i n gr u l e s ) 空间聚类是指根据空间对象特征的聚散程度将它们划分为不同类别的、可 用于g i s 的空间概括和综合。划分的标准是类别之间的差别尽可能大,类别内 部的差别尽可能小。 6 空间区分规贝j j ( s p a t i a ld i s c r i m i n a t er u l e s ) 空问区分规则是指两类或多类目标j 日j 几何的或属性的不同特征,即可以区 分不同类目标的特征,是对个体的描述。 7 空间演变规, l j ( s p a t i a le v o l u t i o nr u l e s ) 如果空| 日j 数据库中存有同地区不同时期数据的快照( s n a p s h o t ) ,将这些不 同时间的数据进行挖掘处理,就可以发现地理要素依时间的动态发展规律,即 目杯的空间演变规律。 8 面向对象的知识( o b j e c to r i e n t e dk n o w l e d g e ) 面向对象的知识是指某类复杂对象的子类构成及其普遍特征的知识。 武汉理工大学硕士学位论文 在本次流域空间数据挖掘中可能发现的知识主要有空间特征规则、空间关 联规则和空间分布规律。空间特征规则主要指流域空间目标的几何与属性特征; 空间关联规贝e j p p 流域各断面的属性特征与其几何特征之间的关联关系,这是本 次研究中最主要的内容;此外还能发现空间分布规律,即控制断面在流域空间 上的分布规律。 2 3 空间数据挖掘的方法 由于空间数据挖掘是多学科和多种技术交叉综合的新领域,它综合了机器 学习、数据库、专家系统、模式识别、统计、管理信息系统、基于知识的系统、 可视化等领域的有关技术,因而空间数据挖掘的方法是丰富多彩的,它主要用 于具有空间特性地物对象的研究。它的许多方法在地理信息系统、地理空间认 知、地图数据处理、地学数据分析领域内早已广泛应用。总的来说,空间数据 的挖掘方法主要有以下几种【1 】。 1 统计方法( s t a t i s t i c a la p p r o a c h ) 统计方法一直是分析空间数据的常用方法。统计方法有较强的理论基础, 拥有大量的算法,可有效地处理数字型数据。多元统计分析中的回归分析、方 差分析、主成分分析、因子分析等方法经常用于从数据中提取规律和模式。 2 归纳方法( i n d u c t i o n l 归纳学习( i n d u c t i v el e a r n i n g ) 是从大量的经验数据中归纳抽取一般的判定规 则和模式,是一种重要的数据发掘方法。 3 聚类方法( c l u s t e r i n g ) 聚类分析方法按一定的距离或相似性将数据分成一系列相互区分的组,它 与归纳法不同之处在于不需要背景知识而直接发现一些有意义的结构与模式。 4 关联规则发掘方法( a s s o c i a t i o nr u l em i n i n g ) 发掘关联规则的问题首先由a g r a w a l 等提出,主要是从超级市场销售事务数 据库中发现顾客购买多种商品时的搭配规律,即关联规则。最著名的关联规则 发掘算法a p r i o f i 也是由a g r a w a l 等提出的。 5 空间分析方法( s p a t i a la n a l y s i s ) 空间分析能力是地理信息系统的关键,是g i s 系统区别于一般数字制图系 统的主要标志之一。应用空问分析方法可以交互式地发现目标在空问上的相连、 相邻和共生等关联关系以及一些空间统计特征。空| 日j 分析方法常作为预处理和 特征提取方法与其他数据挖掘方法结合起来从空 日j 数据库发现知识。 武汉理r 大学硕士学位论文 6 探测性的数据分析( e x p l o r a t o r yd a t a a n a l y s i s ) 探测性的数据分析,简称e d a ,采用动态统计图形和动态链接窗口技术将 数据及其统计特征显示出来,可发现数据中非直观的数据特征及异常数据。 7 r o u i g h 集方法( r o u g hs e t ) r o u g h 集理论为g i s 的属性分析和知识发现开辟了一条新途径,可用于g i s 数据库属性的一致性分析、属性的重要性、属性依赖、属性表简化、最小决策 和分类算法生成等。r o u g l l 集方法与其他数据挖掘方法相结合,可以在g i s 数 据库中数据不确定情况下获取多种知识。 8 云理论( c l o u dt h e o r y ) 由云模型( c l o u dm o d e l ) 虚拟云( v i r t u a lc l o u d ) 、云运算( c l o u do p e r a t i o n ) 、云 变换( c l o u dt r a n s f o r m ) 和不确定性推理( r e a s o n i n gu n d e ru n c e r t a i n t y ) 等主要内容 构成。云理论在知识表达、知识发现、知识应用等方面都可以得到充分的应用。 9 图像分析和模式识另l j ( 1 m a g ea n a l y s i sa n dp a t t e r nr e c o g n i t i o n ) 空间数据库中含有大量的图形图像数据,一些行之有效的图像分析和模式 识别方法可直接用于发现知识,或作为其他知识发现方法的预处理手段。 1 0 神经网络( n e u r a ln e t w o r k ) 神经网络由多个非常简单的处理单元( 神经元) 按某种方式相互连接而形成, 靠网络状态对外部输入信息的动态响应来处理信息。人工神经网络在信号处理、 模式识别、人工智能、自适应控制、决策优化等众多领域得到了广泛的研究和 应用。 1 1 证据理论( e v i d e n c et h e o r y ) 证据理论又称d e m p s t e r - s c h a f e r 理论,是经典概率论的一种扩充形式。该理 论的一个重要贡献就是划清了不确定和不知的界限。 1 2 可视化( v i s u a l i z a t i o n ) 可视化是一种将数据( 特别是多维数据) 以图形方式显示的计算机技术,其最 新的发展为虚拟现实( v i r t u a lr e a l i t y ) 。人类对于图形的模式识别能力是非常强大 的,很容易从各种图形表示中直接发现规律或异常,远远超过现有的任何模式 识别和异常检测的计算机技术。因此,在数据挖掘和知识发现中充分发挥人的 智慧是行之有效的办法。具体方法就是把大量的多维的数据以多种方式可视化, 让人完成最终的知识发现。 事实上,g i s 系统就是一种空问数据可视化系统,充分吸收虚拟现实等最新 的可视化技术,不仅会大大增强g i s 系统的功能,也会给空| 日j 数据发掘和知识 武汉理 大学硕士学位论文 发现带来便利。 1 3 模糊集( f u z z ys e t s ) n 论 模糊集理论由l a z a d e h 教授于1 9 6 5 年提出的,在自然科学和社会科学的 许多领域都获得了成功的应用,在数据挖掘中,模糊集理论同样也获得了应用, 如用语言值概括数据、模糊知识表达等。 1 4 遗传算法( g e n e t i ca l g o r i t h m s ) 遗传算法( 简称g a ) ,最先由j o h nh o l l a n d 于1 9 7 5 提出,是一种有效的解决 最优化问题的方法。它仿效生物的进化与遗传,根据“生存竞争”和“优胜劣汰” 的原则,借助复制、交换、突变等操作,使所要解决的问题从初始解一步步地 逼近最优解。遗传算法具有智能式搜索,渐进式优化,易获得全局最优解,黑 箱式结构,适于并行计算和通用性强等优点。因此,近几年国际国内都掀起了 一股研究遗传算法的热潮,并将其应用到越来越广泛的领域,如机器学习、图 像处理、模式识别、自动控制和社会科学等

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论