(计算机应用技术专业论文)农产品产地污染综合知识挖掘系统的研究.pdf_第1页
(计算机应用技术专业论文)农产品产地污染综合知识挖掘系统的研究.pdf_第2页
(计算机应用技术专业论文)农产品产地污染综合知识挖掘系统的研究.pdf_第3页
(计算机应用技术专业论文)农产品产地污染综合知识挖掘系统的研究.pdf_第4页
(计算机应用技术专业论文)农产品产地污染综合知识挖掘系统的研究.pdf_第5页
已阅读5页,还剩103页未读 继续免费阅读

(计算机应用技术专业论文)农产品产地污染综合知识挖掘系统的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 为解决产地污染数据综合利用问题,开展产地污染分析与评估,特立此课题 进行研究。本课题的研究目标是:对农产品产地污染监测结果及相关空间数据进 行知识挖掘,建立一个产地污染综合知识挖掘系统。该系统由四部分组成:数据 清洗系统,非空间谓词挖掘系统、空间谓词的提取系统,空间一非空间关联规则 挖掘系统。 本文采用属性清洗和重复数据清洗技术完成产地污染数据清洗工作。针对属 性清洗,文中提出了统计分析清洗方法、聚类清洗方法、基于模式的清洗方法、 关联规则清洗方法;针对重复记录的清洗,运用了d b s c a n 聚类方法提取相似重 复记录集,然后采用蚁群算法进行合并和删除重复记录,创造了一种新的数据清 洗方法。 本文将产地土壤污染非空间谓词的提取分为两部分,一是非空间背景知识的 提取,二是产地污染原子命题集的提取。首先,采用了关系演算方式,以关系( 元 组、属性) 建立笛卡尔积的形式获取非空间背景知识;然后,建立了一种产地污 染预测与评估和原子命题集提取的新方法,即:利用p c a 主成分对污染数据降 维,采用r b f 网络对产地污染状况进行评估预测,最后运用s w m 相似权值法 抽取规则的形式,提取原子命题集。 本文建立了空间谓词提取新方法,引进了空间对象分层挖掘概念,改进了原有 的空间谓词九交矩阵提取方法,以粗糙集理论创建了粗糙九交矩阵,并利用c 址玎 决策树完成空间谓词的提取,最后建立约束规则,对空间谓词进行归并,使得生成 的分层谓词空间既精简又不丢失信息量,为后续关联规则挖掘奠定了基础。 本文引进了s p a d a 算法来挖掘空间非空间关联规则。在非空间谓词集和空 间谓词集的基础上建立空间观察集,在分层的基础上以口代换方式开展层内搜索 和层间搜索,从而建立空间非空间关联规则。同时,还建立了模式约束和关联 规则约束,从而提高了搜索和剪枝速度。 最后,本文建立了一个综合知识挖掘系统的实例。以湖北大冶的产地污染监 测数据为依据,对数据清洗算法、土壤污染非空间谓词提取算法、空间谓词提取 算法以及空间一非空间关联规则挖掘等进行了验证。验证结果表明,该系统挖掘 出的产地污染知识较好的反映了当地产地污染现状。 关键词:农产品产地数据挖掘谓词提取九交矩阵s p a d a 算法r b f 相似权 值法关联规则 a b s t r a c t w i t ht h ed e v e l o p m e n to fc h i n ae c o n o m y , t h es e r i o u sp o l l u t i o no nt h e a g r o - p r o d u c ta r e ah a sc a u g h ts om a n ye y e b a l l so ft h ep u b l i c a i m i n ga ti m p r 0 v i n g u t i l i z a t i o ne m c i e n c yo ft h ep o l l u t i o nd a t a ,w eh a v ead e e pr e s e a r c ho nt h ep o l l u t i o n a n a l y s i sa n de v a l u a t i o na n da sar e s u l tt h i sp a p e rc o m eo u t i nd e t a i l ,o u rr e s e a r c hh a s b u i l tu pa ni n t e g r a t e dk n o w l e d g em i n i n gs y s t e mf o rt h ep o l l u t i o n mt h ea g r o - p r o d u c t a r e a ,i nw h i c hak n o w l e d g em i n i n gp r o c e s sc a nb e 印p l i e dt 0t h ep o l l u t i o nm o n i t o r i n g r e s u l t sa n ds o m ec o r r e s p o n d i n gs p a t i a ld a t ao ft h ea g r o - p r o d u c ta r e a t h i ss y s t e m w o u l dc o n s i s to ff o u rp a r t s :d a t ac l e a r i n gs y s t e m ,n o n - s p a t i a lp r e d i c a t em i n i n gs y s t e m , s p a t i a lp r e d i c a t ee x t r a c t i n gs y s t e m ,a n ds p a t i a l & n o n s p a t i a la s s o c i a t i o nm l e sm i n i n g s y s t e m t h et e c h n o i o g i e sa d o p t e dt 0c l e a rt h ed a t ao ft h ea g r 0 一p r o d u c tp o l l u t e da r e ac a n b ed e s c r i b e da sa t t r i b u t e sc i e a r i n ga n dd u p i i c a t e dd a t ac l e a r i n g s t a t i s t i c s ,c l u s t e d n g , p a t t e m - b a s e da n da s s o c i a t i o n r u l e sh a v e b e e nd i s c u s s e da n do n eo fw h i c hw a s s e l e c t e da st h eo p t i m u mm e t h o df o rt h ea t t r i b u t e dc l e a r i n g an e wt e c l l l l o l o g yw a s d e v e i o p e dt 0c l e a rt h ed u p l i c a t e dr e c o r d s ,w h i c hc a nb ed e s c r i b e d 嬲:t h ed b s c a n c l u s t e r i n gm e t h o dw a sa d o p t e dt oe x t r a c tt h es i m i l a rd u p l i c a t e dr e c o r d s ,a n dt h e n 锄t c o l o n ya l g o r i t h mw a sm n t om e 唱ea n dd e l e t et h ed u p l i c a t e dr e c o r d s n o n - s p a t i a lp r e d i c a t e se x t r a c t i n gc a nb es p l i ti n t ot w os u b t a s k s ,o n eo fw h i c hi s n o n - s p a t i a lb a c k g r o u n dk n o w l e d g ee x t r a c t i n g ,t h eo t h e ri st h ea t o m i cp r o p o s i t i o ns e t s e x t r a c t i n g 。f i r s t l y t h en o n - s p a t i a lb a c k g r o u n dk n o w l e d g ew a se x t r a c t e dm t h ef o mo f ac a r t e s a i np r o d u c tw h i c hw o u l db eb u i l ta sr e l a t i o n p l e ,a t t r i b u t e ) a r e rr e l a t i o n a l a n a l y s i s w h e nw ee x t r a c tt h ea t o m i cp r o p o s i t i o ns e t ,t h ep r e d i c t i o ne s t i m a t i o no f t h e p o l l u t i o ni nt h ea g r o - p r o d u c ta r e aw o u l db ep e 响咖e da tt h es a m et i m e n a m e l y ,t h e p r i n c i p a lc 0 m p o n e n ta n a l y s i sw a sa p p l i e dt 0r e d u c et h ed i m e n s i o n s0 ft h ep o l l “o n d a t a t h er b fn e u r a ln e t w o r kw a sa d o p t e dt og e tt h ep r e d i c t i o ne s t i m a t i o n a n dt h e n t h es i m i l a rw e i g h tm e t h o dw a su s e dt 0e x n a c tt h em l e st 0f - o n nt h ea t o m i c p r o p o s i t i o n s e t 1 nt h i sp a p e r ,an e wt e c h n o l o g yo fe 舭t i n gs p a t i a lp r e d i c a :t e sw a sd e l i v e r e d f i r s t l y , t l l ec o n c e p to fs p a t i a io b j e c t sh i e r a r c h y 、a sm n 硼u c e d ,a n dm e i lw eu s et l l er o u 曲s e t s t e c h n o l o g ) r0 nt 1 1 eb a s eo ft h e9 一i n t e r s e 嘶o nm o d e it ob u i l dan e w u g h9 - i n t e r s e c t i o n m a t r i ) 【,o nw h i c hm ec ak rd e c i s i o n 臼e ew a sa d o p t e dt oe x 仃a c tm es p a t i a lp r e d i c a t e s a r e 1 n e d8 p a t l a ip r e d i c a t e s 哪) a c e 、v a so b t a i n e da rt h em e 画n go 删i o n t 0t h es p a t i a l r u l e sw a sp e 晌r n l e du n d e rt h ei i m i t a t i o no f m e c o n s 们i nb 酞 j no r d e rt 0 m m l n gt h es p a t i a la s s o c i a t i o nr u l e s ,t h es 呦a a l g o r i t h mw a l s i n t r o d u c e dmt h i sp 印e r t h e s p a t i a lo b s e n ,a t i o n sw a sb u i j tu po nt h eb a s e so f n o n 。s p a t l a lp r e d i c a t e ss p a c ea n dt h es p a t i a lp r e d i c a t e ss p a c e t h ei n n a 1 e v e ja n dt h e m t e 卜j e v e ls e a r c hw e r ei m p j e m e n t i n ga c c o r d i n gt ot h e 伊s u b s u m p t i o ni nt h e 蛐r u c t u r e o tt h ep r e d l c a t e ss p a c e h i e r a r c h i e s t 1 1 es p a t i a la s s o c i a t i o nr u l e ss e tw o u i db ep r e s e n t e di n t h ee n d a tt h e 跚et i m e ,廿1 e 眦咖l e sc o n s 呖i n tb i a s e sw e r e a p p l i e dt oi n l p r o v e 出e s e a l h i n ga n dp r u n i n gs p e e di nt h em e c h a n i s m 1 nt h el a s ts e c t l o no ft h ep a p e rw ed e s c r i b ea p r a c t i c a le x a m p l et h a ts h o w sh o wi t 1 sp o s s lb l et o p e r f 0 n nas p a t i a la n a l y s i so nt 1 1 e p o l l u t i o nd a t ai nd a y eo fh u b e i p r 0 v 1 n c e w ee x 锄a nt h ea l g o r i t h m sw em e n t i o n e da ta b o v e 柚dt h e r e s u l t ss h o wt h a t t h i s i n t e g r a t e dk n o w l e d g em i n i n gs y s t e mw o r k s 、v e l la n dt h em i n i n gr e s u i t s a r e k e yw o r d s : a g r o 巾r o d u c t a r e a ,d a t a m j n i n g ,p r e d i c a t e e x t r a c t i n g , 9 _ i n t e r s e c t i o nm o d e i ,s p a d a ,r b f ,s w m ,a s s o c i a t i o nr u l e 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得:叁鲞盘堂或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中 作了明确的说明并表示了谢意。 一躲鲫砰一g 年夕月7 日 学位论文版权使用授权书 本学位论文作者完全了解墨盗盘堂有关保留、使用学位论文的规定。 特授权墨盗盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名 签字日期:谢年哆月 导师签名: 签字同期: 笊妇 沙据夕月 日 第一章绪论 1 1 选题背景和研究思路 1 1 1 选题背景 第一章绪论 随着我国工农业的快速发展,城市和工业“三废 排放问题日益突出,工厂 排出的废水、废气、废渣都直接污染着农田,污染负荷高,排放强度大,污染物 排放量远远超过环境容量,对农产品产地的污染正在由局部向整体蔓延。特别是 不少农民还用没有经过净化的工业废水浇地,更加重了对土地的污染。此外,在 公路沿线,铁路两旁,汽车尾气及运输垃圾泼洒都对农田造成了污染。由于工业 和生活污染物通过水体、交通等途径进入农田,使污染物在土壤中大量残留,直 接影响土壤生态系统的结构和功能,使生物种群结构发生改变,生物多样性减少, 土壤生产力下降,造成农作物减产和农产品质量下降,对生态环境、食品安全和 农业可持续发展构成威胁。据不完全调查,目前中国受污染的耕地约有1 5 亿亩, 占耕地总面积的1 1 0 以上,其中多数集中在经济较发达地区。农产品产地的污 染直接影响到食品安全和人体健康,大批污染区生产的农产品的污染物含量已经 严重超过食品卫生标准。为此,我国于2 0 0 5 年出台了农产品质量安全法,规 定必须按照产地土壤污染程度对农产品产地进行区域划分,把已经遭受严重污 染、不适宜种植农产品的区域设为禁产区。然而,我国农产品产地污染状况长期 处于底数不清、情况不明状况,工厂、交通、居民生活区对农田污染的贡献程度 也无定论,严重阻碍了农产品质量安全法的贯彻实施。因此,掌握我国产地 污染现状,摸清产地污染来源,刻不容缓。 为此,我国在近几年大力开展产地土壤监测工作,获得了海量数据,但是, 单凭这些测量数据,仍然无法解决产地污染摸底问题,其原因在于: ( 1 ) 数据质量难以保证,随着数据量的爆炸式增长,数据存储和分析缺乏 统一标准,再加上采样、检测过程无法进行统一质量控制,形成了大量非法数据, 以及冗余数据; ( 2 ) 产地监测数据难以说明产地污染问题,目前,我国土壤污染评价标准 一直饱受诟病,土壤监测数据超过国家标准,并不见得就对农产品构成危害; ( 3 ) 污染物的溯源问题无法解决,由于农田周边环境复杂,居民点、工厂、 道路星罗棋布,各污染源对农田产地污染的贡献率都不一样,在污染源众多的情 第一章绪论 况下,如何确定农田污染物的主要来源,尚没有一个准确的说法; ( 4 ) 全国产地污染缺乏预测系统支持,土壤监测工作其实是一个抽样工作, 不可能做到任何一片农田,因此,单凭现有的监测数据,难以从宏观上对全国产 地划分提供支持,急需一个产地污染预测和评估系统,基于现有监测数据,可以 对没有开展监测的产地区域进行污染评估。 为此,急需一套产地污染分析与评估系统,在现有数据的基础上解决上述问 题。 1 1 2 研究思路 从数据挖掘的角度来讲,对上述问题可以提出很好的解决方案,特提出研究 思路如下:以数据清洗技术解决数据质量难以保证问题,以神经网络预测和相似 权值技术来解决产地污染评价问题,以粗糙集、决策树方法提取空间知识,并结 合空间非空间关联规则推理技术解决污染溯源和分析未知区域产地污染状况问 题。 具体研究思路见图1 1 : 图1 1 农产品产地污染综合知识挖掘系统研究思路 第一章绪论 在产地污染评估方面,综合利用多种数据挖掘方法,国内外尚没有见过关于 此研究领域的完整描述,这是一个非常吸引人的课题,具有十分重要的意义。 1 2 国内外研究现状 目前国内开展产地污染数据挖掘的研究尚处于经典挖掘方法的实例应用方 面,应用较多的挖掘方法主要有数理统计、神经网络、决策树、模糊聚类、地统 计等等,本文作者在2 0 0 3 年就对对这方面的工作做了比较全面的描趔。统计 分析技术是最早引入土壤环境监测数据挖掘领域的挖掘方法之一,也是目前应用 最广、最成熟的挖掘方法,大量土壤监测数据分析研究成果均基于统计分析完成。 相对统计分析而言,其他计算机挖掘算法的土壤环境质量研究相对较少,例如, 中科院南京土壤所的檀满枝等人利用模糊c 一均值聚类法对土壤进行了重金属污 染空间分布的预测等1 2 】。而相对较多的是在土壤面源污染上的一些应用,例如, 西安理工大学的李家科等人利用支持矢量机技术预测面源污染负荷p j ,南京大学 的钟晓兰等人利用地统计技术分析长江三角洲地区的土壤重金属空间分异特征 等【4 】,同时也有部分学者开始利用多种数据挖掘模型进行面源污染的空间模拟研 究【5 1 。 空间信息正在逐步成为各种信息系统的主体和基础,随着卫星和遥感技术的 广泛应用,日益丰富的空间和非空间数据收集和存储在大空间数据库中,海量的 地理数据在一定程度上已经超过了人们处理能力,同时传统地学分析难以胜任从 这些海量的数据中提取和发现地学知识。因此,迫切需要增强g i s 分析功能,提 高g i s 解决地学问题的能力。数据挖掘与知识发现的出现很好地满足了地球空间 数据处理的需要,推动了传统地学空间分析的发展。 在1 9 9 4 年,在加拿大渥太华举行的g i s 国际学术会议上,李德仁院士首次提 出了从g i s 数据库中发现知识( 1 ( i l o w l e d g ed i s c o v e 拶f r o mg i s ,k d g ) 的概念,并系 统分析了空间知识发现的特点和方法,认为它能够把g i s 有限的数据变成无限的 知识,使g i s 成为智能化的信息系统【6 ,7 1 。随后,在传统数据挖掘发展与海量空间 数据积累的推动下,国内外都在空间数据挖掘展开了积极的研究。 在空间统计学方面,c r e s s i e 利用地理统计数据、栅格数据和点数据三种空间 数据描述现实世界,并据此提出了个通用模型瞵,卅。由于大部分空间数据挖掘 的研究偏重于提高静态数据查询的效率,所以w a n g 、y a n g 和m u n t z l lo j 基于统计信 息,研究了一种由用户定义的主动空间数据抽取的方法。应用空间统计学的克吕 格方法,由一组已分类的观测点直接估计出观测点位的属于各类别的验后概率, 求得类别变量在任一位置上所观测到的各类别的概率知识,就可以从影像上获取 第一章绪论 模糊分类信息【6 】。冯建生【l l 】也利用空间统计学揭示了影响冲击韧性的因素知识。 空间分类和预测方面,由于分类与预测具有很大的相似性,在数据挖掘界广 泛接受的观点是:用预测法预测类标号为分类,用预测法预测连续值为预测【l 引。 e s t e r 等人【1 3 】最早提出了一种空间对象分类方法,该方法采用i d 3 算法,并使用邻 域图的概念,分类标准基于分类对象的非空间属性以及描述分类对象与其邻近位 置相关对象间空间关系的属性、谓词和函数。k o p e r s k i 和h a n 提出了空间数据的 两步决策分类法【1 4 】。 石云等人提出的基于r o u 曲s e t 的空间数据分类方法【1 5 j , s h e k h a rs 等人【1 6 】提出了用空间自相关模型和马尔科夫随机域两种方法进行空间 分类和预测,并且从理论和实验两个方面对这两种方法进行了比较。然后,他们 又提出了一个框架,使用图相似度去预测沼泽地中鸟巢的位置7 惜】。h ut a n m i n g 等人针对径向基函数不适合用于空间数据预测的特点,提出了分别在输入层、中 间层和输出层中加入空间信息来进行空间数据预测圳。 。 空间关联分析方面,k o p e r s k i 和h a n 提出了一种在地理信息数据库中挖掘强空 间关联规则( 空间数据库中使用频率较高的模式或关系) 的算法,并给出了两步式 的空间优化技术【1 4 】。w a n gl iz h e n 等人【2 0 j 提出了利用划分来挖掘多层空间关联规 则的算法,并且引入了等价划分树的概念,使得挖掘多层空间关联规则既容易又 有效。lk s h 猢a 等人【2 1 】提出了挖掘多层空间正负关联规则的算法。a n n a l i s a a p p i c e 等人【2 2 】利用在归纳逻辑规划( i n d u c t i v el o g i cp r o g m m m i n g ,i l p ) 领域中的 表达和推理技术,提出了在人口普查数据库中挖掘空间关联规则的算法。丁祥武 【2 3 】在关联规则模型中增加了描述关联规则时效性的时态信息。何彬彬将空间统计 分析应用于空间关联挖掘领域,给出空间权重矩阵、空间自相关和空间关联的度 量函数,并以中国有代表性的3 7 个大中城市的地理空间数据为例,进行空间关 联研究。根据空间数据的地理位置构造其v o r o n o i 图、d e l a u n a y 图,计算空间对象 之间的距离并构造其邻域图和空间自相关矩阵,在此基础上计算空间对象间的空 间自相关系数和局部空间关联系数,包括m n r a n sl 、g e r e a y sc 、局部m o r 肌g 统计,并依据这些系数发现空间对象间的空间关联知识【2 4 1 。刘大有以定性空间推 理理论为基础,结合模糊逻辑,提出了一种面向空间数据库的近似区域空间关系 模型,在此基础上给出了多层空间关联规则的挖掘算法q s r s a r l 2 5 j 。该算法使用 了m b r 多边形优先判定、顶点近似等手段针对大型空间数据库进行优化处理。 袁红春1 2 6 】提出了元规则指导下逐步求精的多层空间关联规则挖掘算法,以挖掘农 产品市场的芝麻价格与铁路、国道和河流间的空间关联关系为例进行应用。陈江 平【27 】提出了一种基于空间分析的空间关联规则的挖掘算法,并给出了实例分析。 c l e m e n t i n 等人【2 8 】提出了在宽边界的空间实体中挖掘多层次的空间关联规则的算 法。e s e nk a c a r 等人1 2 9 j 提出了挖掘空间模糊关联规则的方法。s h a s h is 等人提 第章绪论 出了基于空间相关的同位模式,它把事务概念泛化,以包括邻域集合,并且将关 联规则的概念泛化为同位规则,在获取同位模式时,很好地考虑了空间相关性。 h u a n gy 等人在s h a s h i 的基础上,提出了不需要支持度剪枝,挖掘可信空间同位 规则的方法p 。h u a n gh 等又提出了在扩展的空间对象( 例如线和多边形) 上挖 掘空间同位规则的框架【3 2 j 。j i ns o u n gy o o 在对s h a s h is 提出的挖掘空间同位规则 的时间效率上进行了改进,首先提出了基于半连接操作挖掘空间同位规则的算法 【3 3 】,然后又提出了基于更少连接操作的空间同位规则挖掘方法【3 4 1 。 空间聚类方面,典型的划分算法如k - m e a n s 算法、k m e d o i d s 算法和c l a r a n s 算法等。t u n g 等人最早提出了一种在空间数据挖掘中实行空间聚类时,处理河流、 高速公路等阻隔的c o d c l a r a n s 算法【3 5 j 。c o d c l a 凡n s 算法是在c l a 凡n s 算法基础上的改进,主要的思想是用两个点间阻隔距离( o b s t l l j c t e dd i s t a n c e ) 代替 欧氏距离。a u l l o c l u s t + 算法1 3 6 j 是基于v o r o n o i 图和d e l a u n a y 三角剖分基础上的 空间障碍聚类算法,它是a u t o c l u s t 算法【37 j 的改进版,其优点是不需要用户 输入参数。af o s s 和z a l a n e 【3 8 l 等人第一次提出了能够处理障碍物和连接设施的空 间聚类d b c l u c 算法,它来源于d b s c a n 算法。w a n gx i n 等人提出了基于d b r s 算法的空间障碍聚类d b r s + 算法l j ,该算法也能够处理障碍物和连接设施,而 且在这4 个能够处理空间约束的聚类算法中它的效率最高。此外,还有基于密度 的d b s c a n 算法、针对栅格数据的基于数学形态学的算法、模糊聚类和神经 网络聚类方法等。缅因大学对空间聚类、空间变化探测、空间相似性探测等进行 了研刭4 1 ,4 2 1 。 在空间分析方面,邸凯昌【4 3 】把探测性的数据分析与空间分析相结合,构成探 测性的空间分析,再与属性数据泛化方法结合,则形成了探测性的归纳学习,在 s d m 中聚焦数据,初步发现隐含在数据中的某些特征和规律。王树良】提出了 滑坡监测数据挖掘视角,研究了宝塔滑坡监测数据挖掘的视角及其泛层次关系, 从宝塔滑坡监测数据中挖掘得到定量、定性和可视化的知识。朱阿兴等人1 4 5 】也运 用专家知识对滑坡危险度进行了模糊评价。高韬m 】设计了一种基于空间数据库的 s d m 语言s d m l ,详细阐述了s d m l 的设计思想及其设计方案,针对空间泛化和 空间关联这两个典型的s d m 问题,给出了s d m l 学术研究解决方案。 在空间挖掘系统的构建方面,加拿大s i m o n 大学计算机科学系,在著名的数 据挖掘软件d b m i n e r 的基础上,增加空间数据挖掘功能,开发出了一种空间数据 挖掘系统原型g e o m i n e r 【4 丌。g e o m i n e r 用s a n d 体系结构建立空间数据库模型,包 含有三大模块:空间数据立方体构建模块、空间联机分析处理( o l a p ) 模块和 空间数据采掘模块【4 & 5 0 】。g e o m i n e r 能够进行交互式地采掘并显示采掘结果、空间 数据采掘模块目前已经能挖掘三种类型的规则:特征规则、判别规则和关联规则 第一章绪论 【5 1 ,5 2 】,扩充后还包括分类规则和数据聚类。空间数据库服务器包括m 印i n f o , e s 刚o m c l es d e ,i n f o r n l i x i l l u s 帆以及其它空间数据库引擎。由美国著名的e s r i 公司开发的a r c v i e wg i s 的s p l u s 接口,提供了用来分析空间数据中指定的类的 工具。但是,s p l u s 采用的是一种解释型的脚本语言,它的功能的实现比用c + + 慢,因此只适合小型数据库应用系统。d e s c a n e s 可支持可视化的分析空间数据, 它与开发此软件的公司所开发的数据挖掘工具k e p l e r 结合使用,k e p l e r 完成数据 挖掘任务且拥有自己的表现数据挖掘结果的非图形界面。k e p l e r 和d e s c a n e 动态 链接,把传统d m 与自动作图可视化和图形表现操作结合起来,实现c 4 5 决策树 算法、聚类、关联规则的挖掘【5 3 1 。除了以上空间数据挖掘系统外,还有g w i m 等 系统。国内有代表性的系统由中国科学技术大学开发的是g i s m i n e r 【5 4 】,它以 m 印l n f o 为空间数据管理平台,采用v b 和v c 开发挖掘算法模块通过o l e 自动 化方式进行集成。 综合上述各类专家学者的研究成果,我们发现目前产地污染数据挖掘技术仅 仅只限于某个挖掘算法的具体应用,而如何对充分利用空间和非空间数据,实现 环境监测综合挖掘的研究尚未见报道。 1 3 本文研究内容 针对上述的研究现状与存在问题,本文围绕农产品产地污染综合知识挖掘系 统这一课题进行了全面而深入的研究和探讨,确定主要研究内容包括;产地土壤 的数据清洗技术研究、产地土壤污染非空间知识挖掘研究、产地土壤污染空间知 识提取研究、基于s p a d a 算法的空间非空间关联规则提取研究,最后建立实例, 对具体研究内容进行验证。 l 、产地土壤污染数据清洗技术研究 针对农产品产地污染数据质量问题,本文首先分析了产地污染数据清洗的具 体内容,并将其划分为属性数据清洗和重复记录清洗两部分。 对于属性清洗,本文综合比较了统计分析清洗方法、聚类清洗方法、基于模 式的清洗方法、关联规则清洗方法,最后,进行实验验证,择优选定合适的方法; 对于重复记录清洗,本文试图将d b s c a n 聚类方法和蚁群算法相结合,利 用前者发现相似重复记录,利用后者对相似重复记录进行合并和删除,以图达到 清洗重复记录的目的。 2 、产地土壤污染非空间知识挖掘的研究 农产品产地的非空间属性主要是指产地污染数据,为参与空间数据挖掘过 第一章绪论 程,必须先对其进行知识表达,知识表达分两部分内容:一是产地环境背景知识; 二是产地污染命题知识。首先,确定了产地非空间背景知识提取方法,然后依据 现有的产地土壤监测数据,以主成分分析和神经网络方法预测产地污染状况,预 测结果形成的数据集进行离散和编码后,采用s w m 相似权值法方法生成产地污 染命题知识。 3 、产地土壤污染空间知识提取研究 本章首先研究了空间谓词的特性,分析了空间谓词的传统九交矩阵提取方 法,然后,基于传统九交矩阵方法的不足,提出了空间对象分层概念,最后建立 粗糙九交矩阵,利用c a i 盯算法提取空间谓词,同时,为了增加空间谓词集合的 表达能力,删减一些对我们后续关联规则提取没有价值的谓词,又提出了空间谓 词归并方法,缩减了谓词空间,从而为下一步提取空间非空间关联规则创造条 件。 4 、基于s p a d a 算法的空间非空间关联规则提取研究 以前两部分的研究结果为基础,综合提取的产地污染非空间谓词以及空间知 识,引进s p a d a 算法建立空间非空间关联规则。首先,描述了空间非空间关 联规则的特性,然后,针对研究对象建立空间观察集,在分层的基础上以口代换 方式开展层内搜索和层间搜索,从而建立空间非空间关联规则。同时,本章还 建立了模式约束和关联规则约束,从而提高了搜索和剪枝速度。最后,本章给出 了整个空间非空间关联规则挖掘算法。 5 、建立农产品产地污染综合知识挖掘应用实例 综合上述研究成果,建立一个验证实例,以湖北大冶的产地污染数据为例, 验证数据清洗、非空间谓词提取、空间谓词提取,以及空间非空间关联规则的 生成等算法。 1 4 主要创新点 本论文的创新点主要有: ( 1 ) 本文首次提出了产地污染综合挖掘概念,从数据清洗、非空间知识提取、 空间知识提取、空间非空间关联规则的建立等四个方面建立了产地污染数据综 合挖掘系统,目前,这种研究思路和方法在国内尚未见报道。 ( 2 ) 本文在重复记录清洗方面,首次提出了基于蚁群算法的d b s c a n 聚类方 法,通过跟传统s n m 排序邻居方法比较,该方法在召回率和出错率方面均有明 显优势。 第一章绪论 ( 3 ) 本文建立了p c a + r b f + s w m 的非空间数据预测和原子命题提取方法,同 步解决了产地污染状况的预测,以及产地污染原子命题提取问题。 ( 4 ) 本文将粗糙集概念引进空间关系获取领域,提出了基于粗糙九交矩阵的 空间谓词c a r t 提取方法,解决了空间对象关系的模糊性和不确定性问题。 1 5 本文组织结构 本文共分八章: 第一章,绪论。介绍了本文的研究背景、国内外研究现状、主要研究内容、 主要创新点以及全文的组织结构。 第二章,空间数据挖掘理论分析。介绍了空间数据挖掘相关知识,分析了空 间数据挖掘的意义、特点和基本技术方法,最后介绍了多关系数据挖掘的基本内 容和特点,指出了多关系数据挖掘一种较适合开展空间数据挖掘的新理念。 第三章,产地土壤污染数据清洗技术研究。本章指出产地土壤污染数据清洗 主要分为属性清洗和重复数据清洗。针对属性清洗,比较了统计分析清洗方法、 聚类清洗方法、基于模式的清洗方法,以及关联规则清洗方法;针对重复数据清 洗,本章提出了一种基于蚁群算法的d b s c a n 聚类清洗新方法。 第四章,产地土壤污染非空间谓词挖掘研究。本章分别提出了非空间背景知 识提取方法,以及原子命题集的提取方法。采用关系演算方式,以关系( 元组、 属性) 建立笛卡尔积的形式获取非空间背景知识;采用p c a 主成分降维,利用 r b f 网络对产地污染状况进行评估预测,最后利用s w m 相似权值法抽取规则的 形式,提取原子命题集。 第五章,产地土壤污染空间谓词提取研究。本章针对空间谓词的特性,提出 空间对象分层概念,然后以粗糙集理论建立粗糙九交矩阵,以c a r t 决策树技术 提取空间谓词,最后对空间谓词进行归并,建立谓词空间集合。 第六章,基于s p a d a 算法的空间非空间关联规则提取研究。本章首先描述 了空间非空间关联规则的特性,然后以s p a d a 算法为基础,建立空间观察集, 最后以p 代换的形式开展层内和层间搜索,最后抽取空间非空间关联规则。同 时,为了提高搜索和剪枝速度,本章还定义了搜索过程中的模式约束和关联规则 约束,实现对非频繁集的过滤。最后给出了整个算法的代码描述。 第七章,农产品产地污染综合知识挖掘系统应用实例。本章以湖北大冶农产 品产地污染数据为基础建立了一个研究实例,对数据清洗算法、土壤污染非空间 谓词提取算法、空间谓词提取算法以及空间一非空间关联规则挖掘等进行了验证。 第一章绪论 验证结果表明,该系统挖掘出的产地土壤污染知识较好的反映了当地产地污染现 状,为我国农产品产地污染防治和管理提供了技术支持。 第八章,总结与展望。对全文研究内容和成果进行总结,并指出了本研究将 要继续深入的方向。 第二章空间数据挖掘理论分析 第二章空间数据挖掘理论分析 数据挖掘起源于数据库发现知识( k n o w l e d g ed i s c o v e 巧i nd a t a b a s e s ,简称 k d d ) ,1 9 8 9 年8 月美国底特律市召开的第一届国际联合人工智能学术会议上, 从事数据库、人工智能、数理统计和可视化等技术的学者们,首次提出从数据库 中发现知识( k n o w l e d g ed i s c o v e 巧i nd a t a b a s e ,i d d ) 矧,标志着数据挖掘技术的 诞生。空间数据挖掘( s p a t i a l d a t a m i n i n g ,s d m ) 是数据挖掘和知识发现的分支学科, 但s d m 不同于普通的d m k d ,它的对象是空间数据库或空间数据仓库,有别于 常规的事务型数据库,比一般数据挖掘的发现状态空间理论增加尺度维( s a l e ) 陋, 5 6 】。机器学习侧重于设计新的方法从数据库中提取知识的技术行为,而s d m k d 是从已经存在于空间数据库中的数据内挖掘知识的过程。与传统的地学数据分析 相比,s d m k d 更强调在隐含未知情形下对空间数据本身分析上的规律挖掘,空 间知识分析工具获取的信息更加概括、精练。高于空间数据库的空间数据仓库, 遵循一定的原则用多维数据库来组织和显示数据,将不同数据库中的数据粗品汇 集精化成为半成品或成品( 数据件) ,稍加整理可被直接用于s d m k d 【6 j 。 2 1 空间数据库的相关知识 空间数据挖掘的主要对象是空间数据库,空间数据库是空间数据集合,它实 现对具有一定地理要素特征的相关空间数据集合的统一管理,空间数据间紧密联 系共同反映现实世界中某一区域内综合信息或专题信息间的联系,主要应用于地 理空间数据处理和分析【57 1 。空间数据库管理的是空间数据对象【5 引。空间数据对 象具备以下三个特征( 1 ) 空间特征:对空间实体的分布位置、几何特征和空间 关系的定义。( 2 ) 属性特征:对空间实体的属性定义和说明信息。( 3 ) 时间特征: 空间实体的时间尺度p 圳。 2 1 1 空间特征分析 反映空间对象的空间特征的数据是空间数据,空间数据是描述地理数据中空 间特征部分的数据,即描述地理现象或地理实体的空间位置、形状、大小以及他 们之间的关系( 如拓扑关系等) 的数据。空间数据是一种较复杂的数据类型,涉及 到空间特征、属性特征及它们之间关系的描述,基于空间参考与地球表面建立位 第二章空间数据挖掘理论分析 置联系,结构主要有矢量数据结构和栅格数据结构。 l 、空间数据的特点 随着多维数据在计算机应用方面的数量的增长,空间数据管理的研究成了当 前的热点。空间数据( 多维数据) 包括:点、线段、区域,三维或更高维中的多面 体。严格来讲,空间数据库包含带有对象的外在知识、对象的扩展以及对象在空 间的位置等多维数据。这些对象是用矢量格式或栅格格式进行描述的。空间数据 被视为一种特殊的数据,它们具有要求用非标准数据库管理方法的几个特点【6 0 , 6 1 】:海量的数据。空间属性之间的非线性关系。空间数据的尺度特征。 空间维数的增高。空间信息的模糊性。空间数据的缺失。空间数据的复杂 性。这些特点表明,s d m 技术不是单纯的数据挖掘技术在空间数据库或空间数 据方面的应用。空间数据的复杂性特征使空间数据与其他类型数据的挖掘方法之 间存在明显的差异,而且s d m 比一般的数据挖掘更复杂。所以,由于空间数据 的复杂性以及应用上的专业性,不能简单地把s d m 视为数据挖掘的应用领域, 而应该在一般的数据挖掘的基本理论基础上,研究s d m 特有的理论、方法和应 用【6 2 1 。 2 、矢量数据模型 矢量数据是利用欧几里得几何学中的点、线、面及其组合体来表示地理实体 空间分布的一种数据组织方式。可以看出,矢量数据其实是地理实体的一种抽象 化表示,本质是用拓扑描述来体现真实物体的形状、大小、位置和相互关系,一 个地理实体要转化为矢量数据,必须要经过数据处理目标转换、实体信息的数据 化,以及建立拓扑结构三个阶段1 5 川。 ( 1 ) 地理实体向数据处理目标的转化 地理实体是指含义完整的物体,而地图数据库中所处理的独立逻辑单元是目 标( e d g e o b j e c t ) 。目标的特点是在整个线段范围内只能有同一类属性,不允许其 中一段具有属性a ,另一段具有属性c 等。例如在图2 1 中一条道路划分成三个 目标:a b 、c d 两段的特征码均为“道路,b c 段有“道路 和“境界”两个特 征码。 第二章空间数据挖掘理论分析 图2 1 目标的划分 ( 2 ) 实体信息的数据化 有关地理实体的各种信息内容,可表示为描述实体记录数据项的集合,这样 便形成一种信息框架,表示实体信息的逻辑构成。其中,图形信息用来描述实体 的图形特征,如实体为一条线,则其图形信息描述的是该线的线型、线宽、线色 等信息。专题属性信息表明该实体属于哪一类物体,即表明该目标“是什么 , 如为水系、道路、居民点、境界、地貌及土质植被

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论