时空数据挖掘在环境保护中的应用探讨论文_第1页
时空数据挖掘在环境保护中的应用探讨论文_第2页
时空数据挖掘在环境保护中的应用探讨论文_第3页
时空数据挖掘在环境保护中的应用探讨论文_第4页
时空数据挖掘在环境保护中的应用探讨论文_第5页
已阅读5页,还剩67页未读 继续免费阅读

时空数据挖掘在环境保护中的应用探讨论文.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中南大学 硕士学位论文 时空数据挖掘在环境保护中的应用研究 姓名:李晶晶 申请学位级别:硕士 专业:地图学与地理信息系统 指导教师:朱建军;李光强 20081101 中南大学硕士学位论文摘要 摘要 近年来,环境变化实时动态监测系统采集了大量的数据,日益丰富的环境监 测数据在一定程度上已超过了传统数据处理方法所能处理的程度,发现隐藏在海 量数据中有用的知识,不仅是时空数据挖掘研究领域的重要任务,而且能够为环 保工作者提供环境规划、决策的科学依据。 数据挖掘是指抽取隐藏在海量数据中的有用知识的过程与方法,研究内容包 括关联规则挖掘、聚类与分类等。时空数据挖掘是抽取时空数据中知识的过程与 方法,通常包括时空关联规则挖掘、时空聚类分析、时空预测等。 针对环境保护应用领域,论文研究时空数据挖掘理论在抽取大气环境保护相 关知识中的应用方法。论文首先在总结时空数据挖掘研究成果的基础上,系统地 阐述了时空数据挖掘的理论、框架和过程。由于传统的环境统计分析方法仅能简 单分析环境变化与相关因素的关系,不能直观表示环境指标变化规律,论文利用 经典算法挖掘出空气质量与气象条件的关联规则,定量、直观地表达了空气质量 与气象条件变化的关系。 为了发掘污染源空间分布与空气污染指数间的关系,论文研究了基于 V o r o n o i 图的空间关联规则挖掘方法,该方法首先依据空气质量监测点位建立 V o r o n o i 图,将研究区域进行离散化,并使用空f o l N 词构建空间事务数据库,然 后在空间事务数据库中利用经典的关联规则挖掘算法抽取空气质量与污染源空 间分布之间的空问关联规则。 论文还研究了基于时空事件的空气质量变化的时空关联规则挖掘方法,该方 法依据时空事件影响的时空域,将研究的时空区域离散成时空事务单元,然后在 时空事务单元中,利用时间谓词、空问谓词构建基于时空事件的时空事务数据库, 最后在事务数据库中挖掘空气污染指数与时空事件的时空关联规则。 论文最后总结了研究成果,讨论了需进一步研究的工作。 关键词时空数据挖掘,关联规则,空间关联规则,时空关联规则, 环境保护 中南大学硕士学位论文 A B S T R A C T A B S T R A C T I nr e c e n ty e a r s ,t h ee n v i r o n m e n td y m a t i cm o n i t o r i n gs y s t e m sh a d c o l l e c t e dv o l u m i n o u sd a t a T h et r a d i t i o n a ld a t aa n a l y s i st o o l sc o u l d h a r d l ya n a l y z et h e s ed a t a T od e t e c tt h ek n o w l e d g ei nt h ev a s td a t ai s a i m p o r t a n t t a s to f s p a t i o - t e m p o r a ld a t am i n i n g ,a n di sv e r ys i g n i f i c e n tf o ra e n v i r o n m e n t p r o t e c t i o nw o r k e rt om a k ee n v i r o n m e n tp l a n sa n do t h e r d e c i s i o n D a t aM i n i n g ( D M ) i sap r o c e d u r eo fe x t r a c t i n gi m p l i c i tk n o w l e d g e h i d i n gi nt h el a r g ed a t a b a s e s ,w h i c hi n c l u d sa s s o c i a t i o nr u l e sd e t e c t i o n , c l u s t e r i n g ,c l a s s i f i c a t i o n a n dS O o n S p a t i o T e m p o r a lD a t aM i n i n g ( S T D M )i st oe x t r a c tk n o w l e d g ef r o ms p a t i a l t e m p o r a lD a t a ,w h i c h c o n t a i n ss p a t i a l t e m p o r a la s s o c i a t i o na n a l y s i s ,s p a t i a l - t e m p o r a lc l u s t e r i n g , s p a t i a l - t e m p o r a lp r e d i c t e c t i o ne t c T h ew o r ko ft h i st h e s i si st oe m p l o yt h e o r yo fS T D Mi nt h e e n v i r o n m e n tf i e l da n dt om i n et h ep e r t i n e n tk n o w l e d g ea b o u tt h ea i r p o ll u t i o n O v e r v i e w i n ga c h i e v e m e n t so fS T D M ,t h e o r y , p r o c e s sa n d t e c h n i q u e f r a m eo fS T D Ma r e e x p o u n d e d Si n c e t h et r a d i t i o n a l e n v i r o n m e n ts t a t i s t i ca n a l y s i sm e t h o d sc a no n l ya n a l y s i sr e l a t i o n s h i po f e n v i r o n m e n tv a r y i n ga n di n f e c t i o n f a c t o r s ,w h i c hd o s n ti n t u i t i v e l y e x p r e s st h ep o l l u t i o nd i v e r s t y , t h i sp a p e ru s e sac l a s s i c a la l g o r i t h mt o m i n ea s s o c i a t i o nr u l e sb e t w e e na i rp o l l u t a n t sa n dm e t e o r o l o g i c a lf a c t o r s , a n dq u a n t i j f i c a t i o n a l l ye x p r e s s e st h e i rr e l a t i o n s h i p I no r d e rt of i n d i n gr e l a t i o n s h i pb e t w e e nt h es p a t i a ld i s t r i b u t i o no f p o l l u t i o ns o u r c e sa n da i r p o ll u t a n t si n d i c e s ,aV o r o n o i b a s e ds p a t i a l a s s o c i a t i o nr u l e sm i n i n gm e t h o d si sp r o p o s e d F i r s t ,V o r o n o id i a g r a mi s c r e a t e da c c o r d i n gt om o n i t o rs t a t i o n s ,w h i c hd i s c r e t e st h es t u d yr e g i o n s A n dt h e n ,as p a t i a lt r a n s a c t i o nd a t a b a s ei sb u i l dd e p e n d i n go nt h es p a t i a l p r e d i c t i o n I nt h es p a t i a lt r a n s a c t i o nd a t a b a s e ,t h ec l a s s i c a la l o g o r i t h mi s c a r r i e do u tt oe x t r a c ts p a t i a la s s o c i a t i o nr u l e sb e t w e e na i rq u a l i t ya n d p o l l u t i o ns o u r c e s As p a t i o - t e m p o r a le v e n t ( S T Ef o rs h o r t ) b a s e ds p a t i o - t e m p o r a l a s s o c i a t i o nr u l e s m i n i n g m e t h o di s s t u d i e d A c c o r d i n g t ot h e s p a t i o t e m p o r a l d o m a i no fS T E ,t h er e s e a r c hs p a t i o t e m p o r a lf i e l d 中南大学硕士学位论文 A B S T R A C T d i v i d e di n t ol o t so fs p a t i o t e m p o r a lt r a n s a c t i o nc e l l s N e x t ,d e p e n d i n go n s p a t i o t e m p o r a lt r a n s a c t i o nc e l l s ,t h es p a t i o t e m p o r a lt r a n s a c t i o nd a t a b a s e i sb u i l du t i l i z i n gt i m ea n ds p a t i a lp r e d i c t i o nw o r d s F i n a l l y , a s s o c i a t i o n r u l e sb e t w e e na i rp o l l u t i o na n ds p a t i o t e m p o r a le v e n t sa lem i n e di nt h e t r a n s a c t i o nd a t a b a s e I nt h el a s tc h a r t e r , t h et h e s i sc o n c l u d e st h ec o n t r i b u t i o n sa n ds o m e l i m i t a t i o n ,a n dp o i n t so u tt h a ti nt h er e p r e s e n t a t i o na n de v a l u a t i o no f s p a t i o - t e m p o r a la s s o c i a t i o nr u l e sa r et h ef u t u r ew o r k s K E YW O R D S s p a t i o - t e m p o r a ld a t am i n i n g ,a s s o c i a t i o nr u l e s , s p a t i a la s s o c i a t i o nr u l e s ,s p a t i o - t e m p o r a la s s o c i a t i o nr u l e s ,e n v i r o n m e n t p r o t e c t i o n 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。 作者签名:兰塑陋塑 太妇,咱 学位论文版权使用授权书 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文并根据国家或湖南省有关部门规定送交学位论文, 允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内 容,可以采用复印、缩印或其它手段保存学位论文。同时授权中国科 学技术信息研究所将本学位论文收录到中国学位论文全文数据库, 并通过网络向社会公众提供信息服务。 中南大学硕士学位论文第一章绪论 第一章绪论 本章首先对数据挖掘、空间数据挖掘和时空数据挖掘的研究现状进行了总结 和分析并指出了存在的问题。最后对本文的研究思路及研究内容进行了论述。 I 1 课题背景和意义 目前,我国经济正处在高速发展期,如能源、交通( 特别是城市汽车尾气) 规模的扩大、城市人口的膨胀、大型工业开发区的发展等造成的大气污染已不再 是一个工厂范围的局部污染问题,环境污染物排放总量不断增加,污染范围继续 扩大。而在全球范围内,近二三十年,我们的地球上出现了一些影响生态平衡和 人类生存的重大环境问题,其中极为突出并带有全球性潜在威胁的三个问题是: 酸雨的加重和蔓延、臭氧层的破坏及气候变暖。这三个环境问题都和空气污染有 关。 在J H S e i n f e l d 在空气污染一物理和化学基础一书中给空气污染下了 如下的定义: “空气污染可定义为一种大气状况,即在这种大气状况下,大气中存在的某 种污染物质的浓度超过正常值并对人类、动物、植物及原材料产生可测量出的影 响。”因而可把空气污染问题简单地表示为图I - I : ABC 污染物质物理作川及 污染源 叫人气_ 函事矿接受体 图1 1 空气污染问题描述 大气中的污染物质主要包括二氧化硫( S O z ) 、氮氧化物( N O x ) 和可I 吸入颗 粒物( P M , o ) 。污染物危害人类健康,吸入人体后会引发严重的呼吸系统疾病; S 0 z 形成的酸雨腐蚀建筑,使土壤湖水酸化,减缓农作物及鱼虾生长;N O x 主要包 括N O 、N O z 及N z 0 ,会导致酸雨和城市光化学烟雾;P M t o 是悬浮在大气中,粒径在 l O u m 以下的固念或液态的颗粒物,又称飘尘,P M l o 在空气环境中持续的时间很长, 对人体健康和大气能见度影响都很大,并且会损坏建筑物表面。 随着国家对保护环境、防治污染问题的重视,国内各城市陆续建立起了城市 坏境空气质量监控系统,实现环境空气质量的实时监测和重点污染源的在线监 控。随着时间的推移,积累了大量的大气污染物浓度和气象数据。但目前对获取 中南大学硕士学位论文 第一章绪论 的监测数据的利用仍停留在查询统计、大气环境质量评价、污染扩散制图等方面。 没有形成较好的决策支持功能。这仅可以满足低层次的需求,人们迫切需要的是 从大量数据中挖掘出对决策具有指导意义的知识。这些知识比简单的查询和统计 获取的信息更加概括、更加浓缩和精炼,是对数据的更深刻的认识。 时空数据挖掘技术的介入,使得从监测数据中挖掘出知识变成可能,一方面 可充分发挥信息潜力及价值,提高城市环境空气质量管理水平,为防治大气污染、 保护城市生态环境提供科学依据,另一方面为空气污染问题的研究提供了新的解 决方法和思路。因此,如何从大量的,有噪声的环境数据中挖掘出隐含的、有价 值的知识,具有重要的现实意义。 1 2 国内外研究现状 1 2 1 数据挖掘的研究现状 数据挖掘起源于从数据库中发现知识( K n o w l e d g eD is c o v e r yi nD a t a b a s e , 简称K D D ) 。它首次出现在1 9 8 9 年8 月举行的第十一届国际联合人工智能学术会 议上。K D D 的定义乜1 为“从数据库中发现隐含的、未知的、潜在有用的信息的非 平凡过程。 1 9 9 6 年以前,对从数据库中发现知识的提法不尽相同,有数据挖掘( D a t a M i n i n g ) 、数据融合( D a t aF u s i o n ) 、知识提取( K n o w l e d g eE x t r a c t i o n ) 、信息 收获( I n f o r m a t i o nH a r v e s t i n g ) 等等。为了统一认识,在1 9 9 6 年出版的总结 该领域进展的权威论文集知识发现与数据挖掘研究进展中,重新定义了K D D 和数据挖掘,将二者加以区分。”。数据挖掘成为K D D 的一部分,指通过特定的算 法在可接受的计算效率限制内生成特定模式的一个步骤。尽管做了区分,在产业 界、媒体和数据库研究界,还是经常把两者等同起束,“数据挖掘”甚至比“从 数据库中发现知识”更流行,数据挖掘在广义上即等同于K D D 。 随着各种国际会议和专题会议的召开,数据挖掘已成为当前计算机科学界最 活跃的研究领域之一。在学术出版界,数据库、人工智能、信息处理、知识工程 等领域的国际学术刊物纷纷开辟了K D D 专题或专刊。I E E E 的K n o w l e d g ea n dD a t a E n g i n e e r i n g 会刊领先在1 9 9 3 年出版了K D D 技术专刊,所发表的5 篇论文代表 了当时K D D 研究的最新成果和动态,较全面地论述了K D D 系统方法论、发现结果 的评价、K D D 系统设计的逻辑方法,集中讨论了数据库的动态性冗余、高噪声和 不确定性、不完备性等问题,K D D 系统与其他传统的机器学习、专家系统、人工 神经网络系统的联系和区别,以及相应的基本对策。 迄今为止,对关系数据库和事务数据库中数据挖掘的研究已经取得了不少迸 中南大学硕士学位论文第一章绪论 展,代表性工作有:用面向属性的归纳方法在关系数据库中发现特征规则和区分 规则H 1 在事务数据库中发现关联规则陌1 ;基于距离的和基于密度的聚类分析的优 化“ 1 等。R o u g h 集和模糊集理论被广泛应用于处理数据库中不确定性问题,另外, 决策树、神经网络、遗传算法、支持向量机等方法也在数据挖掘中得到了研究与 应用。其中,最有影响的挖掘算法有韩家炜教授的概念树提升算法呻1 、R A g r a w a l 的关联算法A p r i o r i 陆1 、J R Q u i n l a n 的分类算法C 4 5 c 5 0 呻1 、Z h a n g 等的B I R C H 聚类算法等等。 在应用方面,数据挖掘商业软件工具不断产生和完善,注重建立解决问题的 整体系统,而不是孤立的过程。用户主要集中在大型银行、保险公司、电信公司 和销售业。国外很多计算机公司非常重视数据挖掘的开发应用,I B M 和微软都成 立了相应的研究中心进行这方面的工作,此外一些比较有影响的典型数据挖掘系 统相继开发出来,代表性的有I B M 开发的Q u e s t 系统、加拿大S i m o nF r a s e r 大 学开发的D B M i n e r 、S P S S 公司的C 1 e m e n t i n e 以及新西兰W a i k a t o 大学开发的W e k a 在智 号乎。 与国外相比,国内对数据挖掘的研究稍晚,但是,目前国内的许多科研单位 和高等院校正在竞相丌展知识发现的基础理论及其应用研究。其中,北京系统工 程研究所对模糊方法在知识发现中的应用进行了较深入的研究,复旦大学、浙江 大学、中国科技大学等单位丌展了对关联规则挖掘算法的优化和改造;南京大学、 四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及 W e b 数据挖掘。此外,南京大学数据库知识发现方法研究组创建的K n i g h t 系统、 复旦大学计算机系数据库组研制的A M I N E R 数据挖掘工具集、香港大学丌发的 A l p h a M i n e r 开源数据挖掘平台等都具有与众不同的特点,如K n i g h t 引入了遗传 算法和信息论思想,提高了挖掘的效率的质量,A M I N E R 可发现递归的规则,增 强了知识表达能力。宝钢是为数不多的被报道采用数据挖掘技术的厂商之一。宝 钢的B G M i n e r 已经成功应用于宝钢配矿优化。 1 2 2 空间数据挖掘研究现状 空间数据挖掘的研究比一般的关系数据库和事务数据库的研究要晚,但近几 年已经引起广泛的兴趣。专门处理空间数据的G I S 技术在近十几年来虽然得到广 泛应用,空间数据的存储、查询、显示特别是分析功能有了较快发展,但这些分 析仍多以图形操作为主,如缓冲区分析、叠置分析、邻近分析等,而隐藏在空间 数据中的许多知识或有用信息的提取和发现方法的功能仍相对薄弱。为了解决 “数据丰富,知识贫乏”的问题,空间数据挖掘作为数据挖掘的一个新的分枝, 就是在这样的背景下提出和发展起来的。空间数据挖掘是空间信息技术发展的必 然结果。目前国内外都已经丌展了地球空间数据挖掘与知识发现方面的研究。 中南大学硕士学位论文第一章绪论 美国、加拿大、德国以及芬兰、澳大利亚等国家的许多大学和研究所,都有 空间数据挖掘的成果报道。这些研究者大多具有计算机科学背景,他们一般把空 间数据挖掘作为数据挖掘的一个应用领域,研究的重点是提高原有数据挖掘算法 在空间数据库的执行效率。测绘遥感界的学者们在特征提取、模式识别等研究中 已经作了许多空间数据挖掘的工作。 李德仁1 1 、王家耀12 | 、李德毅13 1 、周成虎1 、汤家法n 5 、H a n 1 引、E s t e r 17 1 、 M i l l e r n 引、M a r t i n n 等学者从不同层面和角度分别对空间数据挖掘的理论基础、 方法体系、技术框架和应用前景进行了探索和研究。由于空间数据挖掘的处理对 象是空间要素和空间实体,迫切需要建立一种空间关系与属性特征一体化的封装 性的空间对象概念模型,并探讨把空间对象纳入数据挖掘计算的方法,这是空间 数据挖掘取得突破的关键之一。目前,空间数据挖掘的研究主要集中在,传统的 数据挖掘算法在空间数据挖掘中的应用;面向海量空间数据的挖掘算法研究;遥 感数据挖掘( 信息提取) ; 目前,在空间数据挖掘系统的丌发方面,国际上有代表性的通用S D M 系统有: G e o M i n e t ,D e s c a r t e s 和A r c V i e wG I S 的S P L U S 接口。国内有代表性的是 G I S M i n e r 心。加拿大S i m o nF r a s e r 大学计算机科学系的数据挖掘研究小组,在 M a p l n f o 平台上建立了空间数据挖掘的原型系统G e o M i n e r ,实现了空间数据特征 描述、空间区分、空间关联、空间聚类和空间分类等空1 1 自J 数据挖掘方法。 A r c V i e w G I S 的S P L U S 接口是著名的E S R I 公司开发的,它提供工具分析空问数 据中指定的类。G I S M i n e r 是中国科学技术大学丌发的S D M 系统。主要功能是挖 掘农F f l 利用特征规则和农产品价格关联规则。 1 2 3 时空数据挖掘研究现状 时窄数据挖掘是建立在地学信息共享的基础之上,单独或综合运用统计、归 纳、聚类、时空分析、探测性数据分析、R o u g h 集方法、云理论、模式识别、决 策树以及神经网络、遗传算法等去挖掘数据库中隐含的丰富的知识,用以进行可 行性研究、决策分析以及宏观管理1 。 在对时空数据挖掘的研究方面,目前大多数研究工作还处于起步阶段,而且 都是面向特定、具体的应用领域。不过由于时空数据的普遍存在以及时空数据挖 掘的重要现实意义使它已受到国内外学术界和工业界的广泛关注。时空数据挖掘 的理论研究主要受到时序数据挖掘和空问数据挖掘的影响,并以经典的数据挖掘 理论为基础,同时受到时空数据表示和存取方式的限制。 时空数据挖掘是建立在合适的时空数据模型基础之上的。时空数据模型通常 由数据结构、数据操作和完整性约束三部分组成,目的是对时空数据进行表示、 存储、操作、查询和时空分析。各相关领域已提出了不少模型,如快照模型、基 中南大学硕士学位论文第一章绪论 态修正模型、时空复合模型、面向对象的模型以及时空立方体模型等。它们来自 不同的背景并能够满足各自不同的需求和限制乜。 由于G I S 及时间快照的可获取性,将时间信息直接嵌入空间数据库的时空数 据挖掘研究方法在现阶段较为流行,从而可以将部分空间数据的挖掘算法扩展到 时空数据挖掘中。对时空数据的规则挖掘有时空元规则、时空泛化、时空聚类、 时空关联、演化规则以及时空预测等。P o k j a j a c 在文聆羽中对时空预测的相关文 献进行了总结,并提出了基于均匀采样网络的预测算法。基于O P H 模型的基础上, 通过几何点集的差、并、交,研究得出O P H 的递归计算和更新策略,通过分析对 象之间的空间拓补关系和时间关系,得出两个平面对象在重叠时间区间上的时空 拓补关系,利用O P H 模型,定义了平面移动对象的速度、方向、影响范围等空间 方法,然后利用时空拓扑关系和空阳J 方法,确定时空查询和空间触发事件。该方 法可以用在如下实例:一个平面移动的降雨带A ,在A 上定义一个触发 A r e a R e p o r t ,则当在一个地区降雨到目前为止已经连续超过时间长度t l e n g t h 时就会产生一个关于该地区的报告。苏奋振将一般关联规则概念推广到地学( 时 空) 关联规则,强调空间关联规则中空间关系的表达,强调时空关联规则中空间 配置变化过程的表达,使用拳H 糙集理论实现决策规则中前提属性和决策属性的化 简( 不影响分类等价划分能力下的冗余属性去除) ,并对中国黄海区域的鱼群分 布进行了实例分析心3 1 。F l o r i a n 讨论了移动对象数据库中时空关联规则的表示、 兴趣度度量和不同语义时念区域乜钔。M e n n i s 研究了多专题概念层次时空关联规 则在土地利用与城市扩展数据挖掘中的应用心引。 在时空数据的理论方面( 包括时空数据模型和时空数据索引) 已有大量的研 究成果,应用主要集中在地球科学心矿2 刚、交通运输心机鞭”、基于位置服务。”1 和环境 保护等领域。 1 2 4 时空数据挖掘在环境保护中的应用 目前,环境保护研究及环境管理中使用的数据挖掘技术主要有关联规则挖 掘、分类分析、聚类分析和预测分析等。 E k l u n d 。坦1 等选择多个自然地理要素产生了土壤二次盐碱化类型分类规则和 关联度规则挖掘;在精准农业领域,由于作物产量与产量影响因子的关系十分复 杂,简单的线性回归和非线性回归往往不能正确反映它们之间的关系。近几年国 内外多采用数据挖掘方法( 如人工神经网络、决策树、模糊集等) 进行产量影向 因子分析,较好地体现了土壤养分等和产量之间的复杂关系。州。 上海长江口潮滩环境信息系统能对潮滩环境监测数据进行深层挖掘,找出导 致污染的直接或间接因素,为污染治理提供决策依据。北京城区污染源管理信 息系统可从大量排污记录中发现“8 0 的排污企业排放的污染物主要是废气还是 中南大学硕士学位论文第一章绪论 废水“ 之类的知识;通过聚类分析,从排污企业的基本库中发现不同的排污群, 并且用排污模式来刻画不同的企业群特征汹1 。 许多的空气质量评估决策系统中都集成了时空数据挖掘方法,如挪威的 A i r Q U I S 系统、丹麦的A i r G I S 系统等汹1 ,主要功能有用机器学习方法实现短期 污染指数预测或未来某一时段小尺度范围内污染物空间分布,用分类器实现实时 空气质量评估以及气象资料时空关联规则挖掘,如地区A 和B 的温度高,地区A 和C 的气压低= 同时地区D 的湿度中等。 1 3 论文研究思路 空气污染物浓度受多种因素的影响,既随着时间变化发生动态变化,也随空 间位置更移而变化,具有明显的时空特征。空气污染物数据的时空复杂性特征主 要表现在以下几个方面:海量的数据,空间非线性分布,数据空间的尺度特征, 污染物数据信息的模糊性,污染物数据的时问属性等。由于大气污染物数据属性 的特殊性和复杂性,本文主要研究思路如图I - 2 。 1 4 论文研究内容及组织 图I - 2 论文研究思路图 本文的内容组织如下: 第一章主要说明课题研究的背景的意义,介绍国内外研究现状,论文研究的 中南人学硕士学位论文第一章绪论 思路及主要内容; 第二章主要介绍时空数据挖掘的基础理论,包括数据挖掘、空间数据挖掘、 时空数据挖掘的相关概念、过程和研究内容。 第三章主要研究空气质量与气象条件关联规则挖掘,首先介绍环境监测数据 清理和离散化的方法,以及关联规则的定义和挖掘算法,详细阐述了基于统计学 的气象条件和污染指数相关性分析方法,并分析存在的局限性,进而研究了气象 条件与污染指数关联规则挖掘的具体实现过程。 第四章主要研究空气质量与污染源分布的空间关联规则挖掘,介绍了空间关 联规则定义及挖掘过程,总结了空间关系和空间谓词表达,提出基于V o r o n o i 图的空间事务数据库构建方法,在此基础上实现了污染源分布与空气污染指数的 关联规则挖掘。 第五章主要研究基于事件的空气质量时空关联规则挖掘,介绍了时空关联规 则挖掘的定义和方法,总结了时间关系和时间谓词表达,提出基于时空事件的时 空事务数据库构建方法,在此基础上实现了基于时空事件的空气质量关联规则挖 掘方法。 第六章总结本论文的主要工作和创新点,提出需要进一步丌展的研究工作。 中南火学硕士学位论文第二章时空数据挖掘的基础理论与技术框架 第二章时空数据挖掘的基础理论与技术框架 时空数据挖掘是数据挖掘的一个分支,本章首先系统地总结了数据挖掘的体 系结构和过程,然后阐述了空间关联规则和时空关联规则挖掘的主要研究内容、 方法和步骤。 2 1 数据挖掘概述 数据挖掘( D a t aM i n i n g ,D M ) ,指的是从大量、部分、模糊、随机的实际应 用数据中,提取隐含其中、人们事先不知道、但又有用的信息,同时用能被人理 解的模式进行高级处理的过程n 引。 2 1 1 数据挖掘过程 数据挖掘的一般过程如图2 - 1 所示,它不是一个简单的线性过程,包括很多 的反馈回路在内,其中的每一个步骤都有可能回到前面的一个或者几个步骤往复 执行。数据挖掘过程一般可以分为5 个步骤: 知识 图2 - 1 数据挖掘的一般过程 1 选择和采样 了解应用的范围,预先准备相关的知识,了解最终用户的目标。一般来说, 目标可以是关联规则发现,数据分类,回归,聚类,数据汇总,相关分析建模或 者误差检测等等。如果把用户或者分析者的经验和知识结合起来,既可以减少工 中南大学硕士学位论文 第二章时空数据挖掘的基础理论与技术框架 作量,又能使挖掘工作更有目的性,更有成效。 生成目标数据集。选择一个数据集,或者针对个变量或数据样本的子集, 在这个集合上进行数据挖掘工作。选取同类数据,处理过程中的动态情况和变化、 采样策略等; 2 清理和集成 数据清理通过正确去除噪声和奇异值改进数据质量。数据集成将数据从多个 数据源抽出融合在一起。这些数据源可能包括多种数据库、数据仓库和平面文件。 3 转换和化简 进行数据转换的目的是使变化后的数据更适于进行数据挖掘。利用正规化可 以将数据属性值从原来的耿值区间映射到适当的区L l J 。数据化简毛要用于去除数 据集中相对挖掘目标而言冗余的信息。 第二步和第i 步也可合并称为数据预处理”( 图2 - 2 ) 。 f 一二 , c 一= = ? j 数据消理一 、 一 脏敷据,干挣数据、 数据集成 数据转换 数据化简 箭 孟广 ”2 ,03 2 ,0 005 9 ,C4 8 一翼霸 图2 - 2 数据预处理形式 1 数据挖掘 1 ) 选择数据挖掘方法。根据D M 过程的目标,选择相应的数据挖掘方法,统 计分析,机器学习,模式识别,支持向量机等等。数据挖掘方法必须和目标匹配; 2 ) 选择数据挖掘算法。选择用来查找模式或符合数据的模型算法,确定合 适的模型和参数: 3 ) 数据挖掘。查找感兴趣的模式。 5 评价与表达 1 ) 结果表达。尽量直观地表示挖掘结果,便于用户理解和使用可利用可 中南人学硕士学位论文第二章时空数据挖掘的基础理论与技术框架 视化方法表示为图表等方式; 2 ) 结果评价。筛选和评价挖掘结果中的有用部分,查找可接受的结果。可 以定义兴趣度指标,考虑结果的正确度、新颖度,把知识从输出中过滤出来。利 用可视化方法帮助用户解决所提取知识的有效性或对基本的数据和现象做出结 论; 3 ) 知识巩固。把挖掘出的知识结合到执行系统中,了解这些知识的作用。 用预先知道且可信的知识来检查和验证新挖掘的知识,解决可能存在的矛盾或者 把它报告给用户,由用户进步分析。 在整个挖掘过程中,真正采用数据挖掘算法进行分析的工作量并不大,项目 目标确定以及全部数据准备工作占了绝大部分的工作。 2 1 2 数据挖掘研究内容 通过数据挖掘,可以从数据库或数据仓库中提取有趣的知识、规律或高层信 息。原则上讲,数据挖掘可以在任何类型的信息存储上进行。这包括关系型数据 库、数据仓库、事务数据库、面向对象的数据库、时念数据库、多媒体数据库、 主动数据库、空间数据库、移动数据库、异质数据库等。 数据挖掘的任务一般可以分为描述和预测。描述性挖掘任务刻画了数据库中 数据的一般特征。预测性挖掘任务是在当前数据上进行推断并预测。下面就数据 挖掘的功能以及由此可以发现的规则模式类型介绍如下: 1 概念类描述:特征化和区分 数据特征化( D a t aC h a r a c t e r i z a t i o n ) 是目标类数据的一般特征或特性的 汇总。如对一年内在某一大型超市花费6 0 0 0 元以上的顾客特征汇总的描述:年 龄在4 0 - 4 5 、有工作、有很好的信用等级。 数据区分( D a t aD is c r i m i n a t i o n ) 是将目标类对象的一般特性与一个或多 个对比类对象的一般特性比较。如对定期购买计算机产品的顾客和偶尔购买顾客 的区分:经常购买这种产品的顾客8 0 在2 0 - 4 0 岁之间,受过大学教育;而不经 常购买的顾客6 0 要不太年老,要不太年轻,没有大学学历。州。 2 关联分析 关联分析( A s s o c i a t i o nA n a l y s i S ) 是发现关联规则,这些规则展示属性一 值频繁地在给定的数据集中一起出现的条件。关联分析广泛应用于购物篮或事务 数据分析中。从大量商务事务记录中发现有趣的关联关系,可以帮助许多商务决 策的制定,如分类设计、交叉购物等。 3 分类与预测 分类( C l a s s i f i c a t i o n ) 是找出描述并区分数据类或概念的函数,以便能够 使用函数预测类标记未知的对象类。数据分类方法有粗集方法、决策树分类方法、 中南大学硕士学位论文第二章时空数据挖掘的基础理论与技术框架 统计方法、神经网络方法等。例如,利用当前病历数据建立各种疾病的分类规则, 将瓤来的病人的症状及分类规则来诊断此人所患病的种类。 4 聚类分析 聚类( C l u s t e r i n g ) 就是将数据对象分组成多个类或簇,使同一个类或簇中 的对象之间的相似度尽可能的高,而不同的类或簇中的对象的相异度尽可能的 高。它与分类不同,其所要划分的类是未知的。如对超市的顾客群进行聚类分析, 得到若干类或簇,然后由这些类或簇导出对应的规则。 5 孤立点分析 数据库中可能包含一些与其他数据所表现的一般行为或模型不一致的数据 对象,这些对象被称为孤立点( O u t l i e r ) 。在一些应用中( 如移动通信中捕捉盗 用行为) ,罕见的事件可能比正常事件更能引起注意,更有利用价值。 6 演变分析 数据演变分析( E v o l u t i o nA n a l y s i s ) 是描述行为随时间变化的对象的规律 或趋势,并对其建模n 引。如对股票交易所的数据进行挖掘研究可以得出某些公司 股票的演变规律,这些规律可以辅助我们作出股票的投资决策。 2 2 空间数据挖掘概述 空问数据挖掘( S p a t i a lD a t aM i n i n g ,S D M ) 是指从空间数据库中提取用户 感兴趣的空间模式与特征、空间与非空间数据的普遍关系及其它一些隐含在数据 库中的普遍的数据特征。驯。关于空I 日J 数据挖掘案例在计算机发明很久之前就发生 了,如1 8 5 5 年关于霍乱具有传播性的证实;R L e n z 的冈瓦那大陆理论( 地球大 陆为一整块大陆) 等,以及现在的动植物生态分布、火灾等都说明空间特征之间 是相互关系的,一个特征变化会导致本身其他特征或者其周围特征的变化。 2 2 1 空间数据挖掘的过程和体系结构 空| 日J 数据挖掘系统大致可以分为三层结构,如图2 - 3 所示。其中,第一层是 数据源,指利用空问数据库或数据仓库管理系统提供的索引、查询优化等功能获 取和提炼与问题领域相关的数据。在这个过程中,用户直接通过空间数据库管理 工具交互地选取与任务相关的数据,并将查询和检索的结果进行必要的可视化分 析,多次反复,提炼出与问题领域有关的数据,然后再丌始进行数据挖掘和知识 发现过程。第二层是挖掘器,利用空问数据挖掘系统中的各种数据挖掘方法分析 被提取的空l B J 数据,一般采用交互方式,由用户根据问题的类型以及数据的类型 和规模,选用合适的数据挖掘方法,但对于某些特定专门的数据挖掘系统,可采 用系统自动地选用挖掘方法的方式。第三层是用户界面,使用多种方式( 如可视 中南大学硕士学位论文第二章时空数据挖掘的基础理论与技术框架 化工具) 将获取的信息和发现的知识以偏于用户理解和观察的方式反映给用户, 用户对发现的知识进行分析和评价,并将知识提供给空间决策支持使用,或将有 用的知识存入领域知识库中。在整个空间数据挖掘过程中,用户能够控制每一步。 一般说来,空间数据挖掘的多个步骤相互连接,需要反复进行人机交互,才能得 到最终满意的结果。显然,在整个过程中,良好的人机交互用户界面是顺利进行 空间数据挖掘并取得满意结果的基础。 甩户 界面 数据挖掘 模块 数据源 专指令流一数据流 图2 - 3 典型的空间数据挖掘体系结构 知 识 信 息 应 用 环 1 了 2 2 2 空间数据挖掘的方法 空间数据库中的数据具有丰富的隐含信息,如数字高程模型( O E M 或T I N ) 除了载荷高度信息外,还隐含了地质岩性与构造方面的信息;植物的种类是显示 信息,但植物的类型还隐含了气候的水平地带性和垂直地带性的信息,等等。这 些隐含的信息只有通过数据挖掘才能发现。然而,由于空间数据的复杂性及其应 用的专业性,不能简单地把空间数据挖掘视为数据挖掘的应用领域,而应该在一 般的数据挖掘的基本理论的基础上,借助空间推理、地理计算和空间知识表达技 术,研究空问数据挖掘特有的理论、方法和应用。 数据挖掘中的关联规则算法、聚类算法、神经网络、遗传算法等经过一定的 改进后可以适用于空间数据挖掘。空间数据挖掘特有的方法有空I 日J 分析方法、空 中南人学硕士学位论文第二章时空数据挖掘的基础理论与技术框架 间统计学方法、云理论、地学信息图谱法等。 空间分析方法是利用G I S 的各种空间分析模型和空间操作对空间数据库中 的数据进行深加工,主要发现空间数据的分布模式,以揭示数据的空间依赖性与 空间异质型;以变异( 差) 函数和K r i g i n g 方法为代表的空间统计学方法是地学 领域特有的统计分析方法,由于考虑了空间数据的自相关,空间统计学在S D M 中可以充分发挥作用;云理论是用于处理不确定性的一种新理论,云理论与关联 规则算法结合可用于对空间数据进行软离散化和规则表达H 引。 2 3 时空数据挖掘概述 时空数据挖掘( S p a t i o T e m p o r a lD a t aM i n i n g ,S T D M ) 是指从时空数据库 中提取用户感兴趣的时空模式与特征、时空与非时空数据的普遍关系及其他一些 隐含在数据库中的普遍的数据特征。它是数据挖掘技术在时空数据库方面应用的 延伸川。 2 3 1 时空数据挖掘的特殊性 时空数据是同时包括时间、空间、非空I 日J ( 即属性) 类型的数据,能表达空 间对象随时间变化的过程。为了深入研究时空数据挖掘,首先应该找出时空数据 与传统数据所不同的特点。时空数据具有以下特征: 1 存在空间和时间尺度 时空数据在不同时间尺度( 时间粒度) 和不同空间尺度( 空间分辨率) 上所 遵循的规律及体现出的特征不尽相同。利用该性质可以研究时空信息在概化和细 化过程中所反映出的特征渐变规律引。 2 存在空间和时间关系 不同尺度的空间实体中存在空间关系和时间关系,空I 、日J 关系和时问关系显式 或隐式地保存在时空数据库中。时空数据挖掘的目的之一就是表现这些关系。因 此这些关系作为必要的信息应被考虑进时空数据挖掘技术中。 3 存在时空相关性和空间异构性 对象在时间或空I 日J 上相互关联,时空数据分别又受到空间结构差异的影响, 存在空间异构性。 与空间数据中存在的空间自相关性类似,在时空数据中也应该存在时空白相 关性。空间位置邻近的事件的影响要大于空间距离较远的时间,同样时间邻近的 事件的影响也要大于时间距离较远的事件。例如,温度同时具有时问和空间白相 关性。此外,时空数据具有生命期,时空对象有产生、发展和消亡的过程n :1 。时 空数据具有时念上的相似性和周期性,随时I 日J 变化的事件或对象往往具有一定的 中南大学硕士学位论文第二章时空数据挖掘的基础理论与

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论