




已阅读5页,还剩53页未读, 继续免费阅读
(计算机应用技术专业论文)海洋环境数据挖掘系统的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
东北大学硕士学位论文 摘要 海洋环境数据挖掘系统的研究与实现 摘要 随着计算机与网络技术的飞速发展以及海洋观察测量手段的不断进步,国家海洋信 息中心已经收集到大量的原始海洋信息资料,却未能得到充分的利用。这导致了“数据 丰富”而“信息贫乏”现象的产生,因此,“人类正被数据淹没,却饥渴于知识”。如 何有效地管理和利用这些海洋资料,是海洋信息管理面临的重要课题。 海洋环境数据挖掘技术正是解决这一问题的答案之一,它能够有效地处理大量海洋 数据信息的管理和利用问题,并从中获得有关知识。由于海洋信息的复杂性和重要性, 分析海洋数据信息具有重要的学术价值和广阔的应用前景。 针对国家海洋信息中心对海洋数据的实际应用,我们初步实现了以海洋应用为主题 的、基于o r a c l e 的数据挖掘系统一w e b o d m ,完成了关联规则和聚类两个重要的算法。 本系统的建设实施不但能够实现海洋信息的计算机处理,而且能够为国家海洋信息中心 和相关政府部门提供方便、快捷的数据信息服务与强有力的战略决策支持。同时将使海 洋信息管理更加现代化,从而为我国海洋事业的发展做出积极、重要的贡献,具有现实 意义和战略意义。 本论文以海洋环境数据挖掘系统的分析、设计、研究与实现为主体,主要讨论基于 海洋环境数据库或水文气象数据仓库( 集市) 的数据挖掘技术的研究,以o r a c l e 数据挖 掘工具为基础,对其工作机制、使用技术、实现方法等方面进行了详尽而全面的分析与 研究,开发了一个以海洋应用为主题的、基于o r a c l e 的数据挖掘系统一w e b o d m 。目前 本系统已经在国家海洋信息中心进行了实际的使用和测试工作,通过对该系统的测试和 评价,可以得出“该海洋环境数据挖掘系统具有较强的可行性和实用性”的结论。最后 我们总结了已经完成的工作和对未来研究工作的分析与展望。 关键词:w e b o d m 海洋环境数据数据挖掘关联规则聚类分析可视化 东北大学硕士学位论文 a b s t r a c t s t u d ya n di m p l e m e n t a t i o no f t h em a r i n e e n v i r o n m e n td a t am i n i n gs y s t e m a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fc o m p u t e ra n di n t e r n e tt e c h n o l o g y , a sw e l la st h e i n c r e a s i n ga d v a n c e m e n to f m a r i n em e a s u r em e t h o d s t h en a t i o n a lm a r i n ed a t a & i n f o r m a t i o n s e r v i c eh a sc o l l e c t e dal a r g en u m b e ro fo r i g i n a lm a r i n ei n f o r m a t i o n h o w e v e r , t h ed a t ah a v e n o tb e e nu s e de f f i c i e n t l y s oi ta p p e a r sap h e n o m e n o nt h a ti sd a t ar i c h & i n f o r m a t i o np o o r p e o p l ea r es u b m e r g e di nd a t ab u tt h i r s tf o rk n o w l e d g e h o wt oe f f i c i e n t l ya d m i n i s t e ra n d u t i l i z et h e s em a r i n ed a t ai sa l li m p o r t a n ti s s u ef o rm a r i n ei n f o r m a t i o nm a n a g e m e n t m a r i n ee n v i r o n m e n td a t am i n i n gt e c h n i q u ei st h er i g h ta n s w e rt os o l v et h ep r o b l e m i t c a ne f f e c t i v e l yd i s p o s eo f t h ep r o b l e mo f m a n a g i n ga n dm a k i n gu s eo f m a r i n ed a t aa n da c q u i r e c o r r e l a t i v ek n o w l e d g e b e c a u s eo f t h ec o m p l e x i t ya n di m p o r t a n c eo f m a r i n ed a t a ,t oa n a l y z i n g d i g i t a lm a r i n ei n f o r m a t i o nh a sas i g n i f i c a n ts c i e n t i f i cv a l u ea n db r o a da p p l i c a t i o np r o s p e c t i nv i e wo ft h ea c t u a la p p l i c a t i o no fd i g i t a lm a r i n es y s t e mi nt h en a t i o n a lm a r i n ed a t a & i n f o r m a t i o ns e r v i c e ,w eh a v ei m p l e m e n t e da no r a e l e - b a s e dd a t am i n i n gs y s t e m w e b o d m , w i t ht h et h e m eo f m a r i n ea p p l i c a t i o na n dp r o v i d i n gt w om a i na l g o r i t h m so f a s s o c i a t i o nr u l e s a n d c l u s t e r i n g ,t h i sw e b o d ms y s t e md o e sn o to n l yk e e pm a r i n ed a t ad i s p o s i n gb yc o m p u t e r , b u ta l s op r o v i d ec o n v e n i e n ta n dr a p i dd a t ai n f o r m a t i o ns e r v i c ea n ds t r o n gd e c i s i o ns u p p o r tf o r t h en a t i o n a lm a r i n ed a t a i n f o r m a t i o ns e r v i c ea n dr e l a t i o n a lb r a n c h e s a tt h es a m et i m e i t c o u l dm a k et h em a r i n ei n f o r m a t i o n m a n a g e m e n tm o r em o d e r np o s i t i v e a n dc r i t i c a l c o n t r i b u t i o nt ot h ed e v e l o p m e n to fn a t i o n a lm a r i n ei n f o r m a t i o n ,a n da c c o r d i n g l yh a sp r a c t i c a l a n ds t r a t e g i cs i g n i f i c a n c e t h i st h e s i si sm a i n l yb a s e do na n a l y s i s ,d e s i g n ,s t u d ya n di m p l e m e n t a t i o no fm a r i n e e n v i r o n m e n td a t am i n i n gs y s t e m ,m o s t l yd i s c u s s e st h er e s e a r c ho fd a t am i n i n gt e c h n o l o g yo f m a r i n ee n v i r o n m e n td a t a b a s eo rw a t e r w e a t h e rd a t aw a r e h o u s e ( m a r k e t ) w eu s eo r a c l ed a t a m i n i n gt o o la st h ef o u n d a t i o n a lw o r k ,a n dg e n e r a l l ya n a l y z ea n dr e s e a r c hi t sw o r km e c h a n i s m , u s a g ea n di m p l e m e n t a t i o n t h e nw ed e v e l o pa no r a c l e b a s e dd a t am i n i n gs y s t e m w e b o d m f o rd i g i t a lm a r i n ea p p l i c a t i o n a tp r e s e n t t h i ss y s t e mh a sl q l ni nt h en a t i o n a lm a r i n ed a t a & i n f o r m a t i o ns e r v i c ef o rt h ew o r ko f p r a c t i c a lu s ea n dt e s t b yt e s t i n ga n de v a l u a t i n g ,w ec o u l d i 东北大学硕士学位论文 a b s 订a c t d r a wac o n c l u s i o nt h a tt h i sm a r i n ee n v i r o n m e n td a t am i n i n gs y s t e mh a sg o o df e a s i b i l i t ya n d p r a c t i c a b i l i t y a tl a s t ,w es u m m a r i z eo u ra c c o m p l i s h e dw o r ka n dd e m o n s t r a t ef u r t h e rs t u d y a n dr e s e a r c h k e yw o r d s :w e b o d m ,m a r i n ee n v i r o n m e n td a t a ,d a t am i n i n g ,a s s o c i a t i o nr u l e s ,c l u s t e r i n g a n a l y s i s ,v i s u a l i z a t i o n i v 独创声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果除加 以标注和致谢的地方外,不包含其他人已经发表或撰写过的研究成果,也不包括本人为 获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论 文中作了明确的说明并表示诚挚的谢意。 学位论文作者签名:女寇,旁 签字日期:6 牟ih2 l 且 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的规定:即 学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借 阅。本人同意东北大学可以将学位论文的全部或部分内容编入有关数据库进行检索、交 流。 ( 如作者和导师同意网上交流,请在下方签名:否则视为不同意) 学位论文作者签名:导师签名 签字日期:签字日期: 东北大学硕士学位论文 第一章前言 1 1 项目来源 第一章前言 本文的研究内容来源于国家重点专项基金项目“海洋环境数据仓库与数据挖掘技术 研究”,该项目研究面向海洋数据环境的数据库结构设计以及在此基础上的数据加载、数 据查询、维护、数据质量控制、访问权限控制、日志管理以及数据导航技术;海洋环境 数据仓库设计方案及面向水文气象主题的数据集市的建立、相关的e t l 程序设计、元数 据管理及o l a p 分析;基于海洋环境数据库和水文气象数据集市的数据分析及数据挖掘 算法。开发了一套基于数据仓库和数据挖掘技术的、集成的、面向分析的海洋信息系统。 本文主要讨论基于海洋环境数据库或水文气象数据仓库( 集市) 的数据挖掘技术的 研究,具体研究针对海洋环境的数据挖掘软件w e b o d m 的设计与实现。其中,w e b o d m 是指使用w e b 方式访问的o r a c l e 数据挖掘( d a t am i n i n g ) 系统。因此,在本论文中, 我们使用w e b o d m 作为海洋环境的数据挖掘系统软件的名称。 1 2 问题提出 随着海洋观察测量手段的不断进步,相关部门可以收集到大量的原始海洋信息资料。 国民经济的发展和国防现代化的建设,迫切需要使用这些资料。如何有效地管理和利用 这些一手资料,为国民经济发展和国防现代化建设服务,以及更好地参与全球信息的交 换,是海洋信息管理面临的重要课题。本课题的目的就是为了解决大量海洋信息的管理 和利用的问题。由于海洋信息的复杂性和重要性,开发该项目具有重要的学术价值和广 阔的应用前景。 国家海洋信息中心工作的对象包含海洋水文、海洋表面气象、海洋生物、海洋化学、 海洋环境质量、海洋地质、海洋地球物理、海洋基础地理、海洋航空与卫星遥感、海洋 经济、海洋资源等数据内容,数据总量多达千亿字节以上,内容涵盖全球范围的海洋各 学科领域的科学数据。 国家海洋局作为国家海洋主管部门,为了充分发挥海洋资料的作用,急需收集国内 外海洋资料及其元数据信息,建设世界海洋资料元数据库;改造、更新和建立国家海洋 资料数据库群;继续拓宽国外海洋资料交换收集渠道,做好海洋资料交换与服务,开发 高水平的海洋资料基础产品,建立海洋资料管理和传输网络共享服务系统,最大限度地 实现海洋资料共享。 东北大学硕士学位论文 第一章前言 海洋环境信息管理系统是由国家海洋信息中心与东北大学软件与理论研究所共同合 作开发建设的。本系统的建设实施不但能够实现海洋信息的计算机处理,而且能够为国 家海洋信息中心和相关政府n f - j 提供方便、快捷的数据信息服务与强有力的战略决策支 持。同时将使海洋信息管理更加现代化,从而为我国海洋事业的发展做出积极、重要的 贡献,具有重大的现实意义和战略意义。 1 3 本文的研究工作 海洋环境数据仓库与数据挖掘技术研究项目是由国家海洋局信息中心相关人员提 出,由东北大学软件理论研究所设计实施,针对的用户是海洋局数据中心的办公人员。 本文所研究的内容是该项目的一个重要模块数据挖掘,主要讨论基于海洋环境 数据库或水文气象数据仓库( 集市) 的数据挖掘技术的研究,具体针对海洋环境的数据 挖掘系统软件w e b o d m 进行研究、设计与实现。研究的问题主要包括: ( 1 ) 为什么要研究与实现海洋环境数据挖掘系统? ( 2 ) 数据挖掘系统是如何对海洋环境数据源进行处理的? ( 3 ) 如何研究、设计与实现海洋环境数据挖掘系统? ( 4 ) 数据挖掘系统以何种形式将挖掘信息返回给用户? ( 5 ) 怎样对数据挖掘系统的性能进行评估? 1 4 本文的内容和组织结构 根据上述研究内容,可将本文的内容分为六章,每一章的具体内容如下: 第一章为“前言”部分。本章主要介绍本文研究工作的项目来源,并通过分析当前 海洋信息管理所面临的大量数据问题,引出了本文的研究课题“海洋环境数据仓库与数 据挖掘技术研究”,并对本文围绕“海洋环境数据挖掘系统的研究与实现”进行的主要研 究工作进行概况性的介绍。 第二章为“海洋环境数据挖掘相关技术简介”部分。本章主要介绍海洋环境数据挖 掘技术的相关技术背景知识和研究动态,具体内容包括数据挖掘的背景、概念和方法, 海洋环境数据挖掘的特点,o r a c l e 数据挖掘模块简介等。 第三章为“海洋环境数据挖掘系统设计技术的研究”部分。本章首先对海洋环境数 据挖掘系统的目标与任务进行了介绍与分析,然后着重阐述了系统分析和系统结构设计 的原则和方法再次对所使用的数据挖掘算法、程序结构和系统界面进行了详细设计, 最后总结了系统设计中的一些关键技术。 第四章为“海洋环境数据挖掘系统实现技术的研究”部分。本章对海洋环境数据挖 掘系统w e b o d m 的实现过程进行了详细介绍。具体内容包括对系统配簧的介绍,对 2 东北大学硕士学位论文 第一章前言 海洋环境信息管理系统是由国家海洋信息中心与东北大学软件与理论研究所共同合 作开发建设的。本系统的建设实施不但能够实现海洋信息的计算机处理,l f i i 且能够为国 家海洋信息中心和相关政府部门提供方便、快捷的数据信息服务与强有力的战略决策支 持。同时将使海洋信息管理史加现代化,从而为我国海洋事业的发展做出积极、重要的 贡献,具有重大的现实意义和战略意义。 1 3 本文的研究工作 海洋环境数据仓库与数据挖掘技术研究项目是由国家海洋局信息中心相关人员提 出,由东北大学软件理论研究所设计实施,针对的用户是海洋局数据中心的办公人员。 本文所研究的内容是该项目的一个重要模块数据挖掘,主要讨论基于海洋环境 数据库或水文气象数据仓库( 集市) 的数据挖掘技术的研究,具体针对海洋环境的数据 挖掘系统软件w 曲o d m 进行研究、设计与实现。研究的问题主要包括: ( 1 ) 为什么要研究与实现海洋环境数据挖掘系统? ( 2 ) 数据挖掘系统是如何对海洋环境数据源进行处理的? ( 3 ) 如何研究、设计与实现海洋环境数据挖掘系统? ( 4 ) 数据挖掘系统以何种形式将挖掘信息返回给用户? ( 5 ) 怎样对数据挖掘系统的性能进行评估? 1 4 本文的内容和组织结构 根据上述研究内容,可将本文的内容分为六章,每一章的具体内容如下: 第一章为“前言”部分。本章主要介绍本文研究工作的项目来源,并通过分析当前 海洋信息管理所面临的大量数据问题,引出了本文的研究课题“海洋环境数据仓库与数 据挖掘技术研究”,并对本文围绕“海洋环境数据挖掘系统的研究与实现”进行的主要研 究工作进行概况性的介绍。 第二章为“海洋环境数据挖掘相关技术简介”部分。本章主要介绍海洋环境数据挖 掘技术的相关技术背景知识和研究动态,具体内容包括数据挖掘的背景、概念和方法, 海洋环境数据挖掘的特点,o r a c l e 数据挖掘模块简介等。 第三章为“海洋环境数据挖掘系统设计技术的研究”部分。水章首先对海洋环境数 据挖掘系统的目标与任务进行了介绍与分析,然后着重阐述了系统分析和系统结构设计 的原则和方法,再次对所使用的数据挖掘算法、程序结构和系统界面进行了详细设计, 最后总结了系统设计中的一些关键技术。 第四章为“海洋环境数据挖掘系统实现技术的研究”部分。本章对海洋环境数据挖 掘系统w e b o d m 的实现过程进行了详细介绍。具体内容包括对系统配置的介绍,对 掘系统w e b o d m 的实现过程进行了详细介绍。具体内容包括对系统配置的介绍,对 2 东北大学硕士学位论文 第一聿前言 o r a c l e 数据库和数据挖掘基本使用方法的介绍以及程序代码的实现过程,最后总结了系 统实现中的一些关键技术。 第五章为“数据挖掘系统的实际应用及性能评价”部分。本章首先介绍了系统运行 的应用环境,然后介绍了o r a c l e 数据挖掘工具的使用步骤,再次通过系统测试和挖掘结 果的可视化展示介绍了系统的实际应用情况,最后从系统运行的时间方面对数据挖掘系 统的性能进行测试和评价,并最终得出了“该海洋环境数据挖掘系统具有较强的可行性 和实用性”的结论。 第六章为“总结及展望”部分。本章对本文目前所做的工作和贡献进行了总结,并 指出了将来进一步研究工作的方向。最后简要介绍了系统维护与管理方面的内容,主要 用来确保该系统能正常使用和升级等工作。 3 东北大学硪士学位论交 第二章海洋环境数据挖掘相关技术简介 第二章海洋环境数据挖掘相关技术简介 数据挖掘作为一个只有十几年研究历史的较新研究领域,许多概念和技术是逐步发 展起来的。因此,本章将主要介绍海洋环境数据挖掘技术的相关技术背景知识和研究动 态,具体内容包括数据挖掘的产生背景、概念和方法,海洋环境数掘挖掘的特点,o r a c l e 数据挖掘简介等。 2 1 数据挖掘技术的产生背景 本节将从商业需求和技术背景两个方面阐述数据挖掘技术的产生背景。 2 1 1 商业需求 数据挖掘之所以吸引专家学者的研究兴趣和引起商业厂家的广泛关注,主要在于大 型数据系统的广泛使用和把数据转换成有用知识的迫切需要。目前,关系数据库技术的 发展已经成熟,但是,数据库的应用都是以实时查询处理技术为基础的。从本质上说, 简单查询是对数据库的被动使用和选择性输出。因此它和人们期望的分析预测、决策支 持等高级应用仍有很大距离。 新的需求推动新的技术的诞生。数据挖掘的灵魂是深层次的数据分析方法。事实上, 数据( d a t a ) 、信息( i n f o r m a t i o n ) 和知识( k n o w l e d g e ) 可以看作是广义数据表现的不 同形式1 1 】。毫不夸张地说,人们对于数据的拥有欲是贪婪的,这导致了“数据丰富而信 息贫乏( d a t ar i c h & i n f o r m a t i o np o o r ) ”现象的产生。数据库是目前组织和存储数据的 最有效方法之一,但是面对计算机中日益膨胀的海量的数据,人们也处于同样的尴尬境 地,缺乏获取有效信息的手段。因此,在二十世 t j t 十年代后期,产生了数据仓库和数 据挖掘等信息处理思想。 2 1 2 技术背景 任何技术的产生总是有它的技术背景的。数据挖掘产生的技术背景主要是以计算机 及其相关技术的发展为基础的,总结如下: ( 1 ) 数据库、数据仓库和i n t e m e t 等信息技术的发展 数据库技术从二十世纪8 0 年代开始,已经得到广泛的普及和应用。数据仓库作为一 种新型的数据存储和处理手段,被数据库厂商普遍接受并且相关辅助建模和管理工具快 速推向市场,成为多数据源集成的一种有效的技术支撑环境。另外,i n t e m e t 的普及也为 人们提供了丰富的数据源。因此,这些海量数据存储、管理以及访问技术的发展,为数 据挖掘技术的研究和应用提供了基础。 5 东北大学硕士学位论文 第二章海洋环境数据挖掘相关技术简分 ( 2 ) 计算机性能的提高和先进的体系结构的发展 计算机芯片技术的发展,使计算机的处理和存储能力日益提高。摩尔定律告诉我们, 计算机硬件的关键指标大约以每1 8 个月翻一番的速度在增长。经过几十年的发展计算 机的体系结构,特别是并行处理技术已经逐渐成熟和普遍应用,并成为支持大型数据处 理应用的基础。计算机性能的提高和先进的体系结构的发展使数据挖掘技术的研究和应 用成为可能。 ( 3 统计学和人工智能等方法在数据分析中的研究和应用 经过十几年的发展,包括基于统计学、人工智能等在内的理论与技术性成果已经被 成功地应用到商业处理和分析中。这些应用从某种程度上为数据挖掘技术的提出和发展 起到了极大地推动作用。数据挖掘系统的核心模块技术和算法都离不开这些理论和技术 的支持。从某种意义上讲,这些理论本身发展和应用为数据挖掘提供了有价值的理论和 应用积累。 2 2 数据挖掘的概念 本节将从不同角度系统地介绍数据挖掘的相关概念。 2 2 1 商业角度 数据挖掘从本质上说是一种新的商业信息处理技术。从决策、分析和预测等高级商 业目的看,原始数据只是未被开采的矿山,需要挖掘和提炼才能获得对商业目的有用的 规律性知识。这正是数据挖掘这个名字的由来。所以,从商业角度看,数据挖掘就是按 企业的既定业务目标,对大量的企业数据进行深层次分析以揭示隐藏的、未知的规律性 并将其模型化,从而支持商业决策活动。数据挖掘具有很强的商业应用目的,只有面向 特定的商业领域才有应用价值, 2 2 。2 技术含义 为了深入了解数据挖掘的技术含义,必须掌握数据库中的知识发现( k d d : k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ) 和数据挖掘之间的关系,主要有如下观点: ( 1 ) k d d 看成数据挖掘的一个特例 既然数据挖掘系统可以在关系数据库、事务数据库、数据仓库、空闯数据库( s p a t a d a t a b a s e ) 、文本数据( t e x t d a t a ) 以及诸如w e b 等多种数据组织形式中挖掘知识,那么 数据库中的知识发现只是数据挖掘的个方西。这是早期比较流行的观点,在许多文献 可以看到这种说法 2 ,3 】。因此,从这个意义说,数据挖掘就是从数据库、数据仓库以及其 它数据存储方式中挖掘有用知识的过程。这种描述强调了数据挖掘在源数据形式上的多 样性。 - 6 东北大学硕士学位论文 第二章海洋环境数据挖掘相关技术简介 ( 2 ) 数据挖掘是k d d 过程的一个步骤 其核心思想是:k d d 是从数据库中发现知识的全部过程,而数据挖掘则是此全部过 程的一个特定的、关键步骤f 4 】。因此,k d d 是一个更广义的范畴,它包括数据清洗、数 据集成、数据选择、数据转换、数据挖掘、模式生成及评估等一系列步骤。从这种狭义 的观点上,我们可以定义数据挖掘是从特定形式的数据集中提炼知识的过程。数据挖掘 作为k d d 的一个重要步骤看待,可以使我们更容易聚焦研究重点,有效解决问题。目 前。人们在数据挖掘算法的研究上,基本属于这样的范畴。 ( 3 ) k d d 与数据挖掘含义相同 有些人认为,k d d 与数据挖掘只是叫法不一样,它们的含义基本相同。事实上,在 现今的文献中,许多场合,如技术综述等,这两个术语仍然不加区分地使用着。也有人 说,k d d 在人工智能界更流行;而数据挖掘在数据库界使用更多。所以,从广义的观点, 数据挖掘是从大型数据集( 可能是不完全的、有噪声的、不确定性的、各种存储形式的) 中,挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程。 从上面的描述中可以看出,数据挖掘概念可以在不同的技术层面上来理解,但是, 其核心仍然是从数据中挖掘知识。所以,有人说叫知识挖掘更合适垆j 。 2 2 3 理论基础 数据挖掘方法可以是基于数学理论的,也可以是非数学的;可以是演绎的,也可以 是归纳的。从研究的历史看,它们可能是数据库、人工智能、数理统计、计算机科学以 及其它方面的理论体系。归纳数据挖掘的理论框架,主要有: ( 1 ) 模式发现( p a t t e r nd i s c o v e r y ) 架构 在这种理论框架下,数据挖掘技术被认为是从源数据集中发现知识模式的过程f 2 , s , 6 i 。 这是对机器学习方法的继承和发展,是目前比较流行的数据挖掘研究与系统开发架构。 目前,在关联规则、分类,聚类模型、序列模式以及决策树归纳等模式发现的技术与方法 上取得了丰硕的成果。 ( 2 ) 规则发现( r u l ed i s c o v e r y ) 架构 a g r a w a l 等综合机器学习与数据库技术,将三类数据挖掘目标即分类、关联及序列 作为一个统一的规则发现问题来处理f 3 ,6 1 。这种基于规则发现的数据挖掘构架也是目前数 据挖掘研究的常用方法。 ( 3 ) 基于概率和统计理论 在这种理论框架下,数据挖掘技术被看作是从大量源数据集中发现随机变量的概率 分布情况的过程】。 ( 4 ) 微观经济学观点( m i c r o e c o n o m i c e w ) 在这种理论框架下,数据挖掘技术被看作是一个问题的优化过程【8 1 。 ( 5 ) 基于数据压缩( d a t a c o m p r e s s i o n ) 理论 7 东北大学硕士学位论文 第二章海洋环境数据挖掘相关技术简介 在这种理论框架下,数据挖掘技术被看作是对数据的压缩的过程f 9 l 。按着这种观点, 关联规则、决策树、聚类等算法实际上都是对大型数据集的不断概念化或抽象的压缩过 程 1 0 , 1 1 】。 ( 6 ) 基于归纳数据库( i n d u c t i v ed a t a b a s e ) 理论 在这种理论框架下,数据挖掘技术被看作是对数据库的归纳的问题1 5 , 1 2 。这种构架 也是目前研究者和系统研制者倾向的理论框架。 ( 7 ) 可视化数据挖掘( m s u a ld a t a m i n i n g ) 1 9 9 7 年,k e i m 等对可视化数据挖掘的相关技术给出了综述 1 ”。目前,以可视化数 据处理为中心来实现数据挖掘的交互式过程以及更好地展示挖掘结果等方面,已经成为 数据挖掘的热点问题。 2 3 数据挖掘方法简介 本节将详细介绍有关数据挖掘的相关知识。 2 3 1 技术分类 数据挖掘涉及的学科领域和方法很多,因此,它有多种分类方法。 根据挖掘任务可以分为:分类或预测模型发现、数据总结与聚类发现、关联规则发 现、序列模式发现、相似模式发现、混沌模式发现、依赖关系或依赖模型发现、异常和 趋势发现等。 根据挖掘对象可以分为:关系数据库、面向对象数据库、空间数据库、时态数据库、 文本数据源、多媒体数据库、异质数据库以及w e b 等对象的挖掘。 根据挖掘方法可以分为:机器学习方法、统计方法、聚类分析方法、神经网络方法、 遗传算法、数据库方法、近似推理和不确定性推理方法、粗糙集方法等。 根据数据挖掘所能发现的知识可以分为:广义型知识挖掘、关联型知识挖掘、类知 识挖掘、预测型知识挖掘、偏离型( 异常) 知识挖掘、不确定性知识挖掘等。 当然,这些分类方法都从不同角度刻画了数据挖掘研究的策略和范畴,它们并不是 孤立存在的,而是互相交叉、相互补充的。 2 3 2 表示模式和方法 本节我们以数据挖掘的知识类型为主线介绍数据挖掘表示模式的主要技术和方法。 ( i ) 广义知识挖掘 广义知识( g e n e r a l i z a t i o n ) 是指描述类别特征的概括性知识。它是对数据的所蕴涵 的概念特征信息、汇总信息和比较信息等的概括、精炼和抽象的过程。被挖掘出的广义 知识可以结合可视化技术以直观的图表( 如饼图、柱状图、曲线图、立方体等) 形式展 8 东北大学硕士学位论丈 第二章海洋环境数据挖掘相关技术简介 示给用户,也可以作为其它应用( 如分类、预测) 的基础知识。概念描述是广义知识挖 掘的重要方法,目前已经得到广泛研究。 ( 2 ) 关联知识挖掘 关联知识( a s s o c i a t i o n ) 反映一个事件和其它事件之闯的依赖或关联。关联知识挖 掘的目的就是找出数据库中隐藏的关联信息。关联可分为简单关联、时序关联、因果关 联、数量关联等。从广义上讲,关联分析是数据挖掘的本质。 关联规则挖掘是关联知识发现的最常用方法。最为著名的是a g r a w a l 等提出的 a p r i o r i 及其改进算法 6 , 1 4 , 1 5 l 。为了发现有意义的关联规则,需要给定两个闽值:最小支 持度( m i n i m u ms u p p o r t ) 和最小置信度( m i n i m u mc o n f i d e n c e ) 。数据挖掘系统的目的 就是从源数据库中挖掘出满足最小支持度和最小置信度的关联规则。关联规则的研究和 应用是数据挖掘中最活跃和比较深入的分支。 ( 3 ) 类知识挖掘 类知识( c l a s s ) 刻画了一类事物,这类事物具有某种意义上的共同特征,并且和其 它类事物有明显的区别。这里的类知识是指数据挖掘的分类和聚类两类知识。 分类 分类是数据挖掘中的一个重要的目标和任务,目前的研究和在商业上应用最多。分 类的目的是学会一个分类模型( 称作分类器) ,该模型能把数据库中的数据项映射到给定 类别中。要构造分类器,需要有一个来自源数据的训练样本数据集作为输入。从机器学 习的观点,分类技术是一种有指导的学习( s u p e r v i s e dl e a r n i n g ) ,即每个调练样本的数 据对象已经有类标识,通过学习可以形成表达数据对象与类标识间对应的知识l l “。从这 个意义上说,数据挖掘的目标就是根据样本数据形成的类知识并对源数据进行分类、进 而也可以预测未来数据的归类。目前,主要普遍使用的分类方法有:决策树、贝叶斯分 类、神经网络分类、遗传算法、类比学习和案例学习等。 聚类 聚类是把一组个体按照相似性划分成若干类别,它的目的是使得属于同一类别的个 体之间的差别尽可能的小,而不同类别上的个体间的差别尽可能的大旧蚓。聚类和分类 技术不同,聚类属于无指导学习( u n s u p e r v i s e dl e a r n i n g ) 。因此,聚类没有训练实例和 预先定义的类标识。分类总是在特定的类标识下寻求新元素属于哪个类,而聚类则是通 过对数据的分析比较生成新的类标识。目前,数据挖掘研究中的聚类技术研究也是一个 热点问题。聚类技术主要是以统计方法、机器学习、神经网络等方法为基础的。 2 0 0 0 年,h a n 等归纳了基于划分、层次、密度、网格和模型五大类聚类算法1 5 j 。最 近的研究倾向于利用多种技术的综合性聚类方法探索,以解决大型数据库或高维数据库 等聚类挖掘问题。 ( 4 ) 预测型知识挖掘 预;9 1 4 型知识( p r e d i c t i o n ) 是指由历史的和当前的数据产生的并能擢测未来数据趋势 9 东北大学硕士学位论文 第二章海洋环境数据挖掘相关技术简介 的知识。这类知识可以被认为是以时间为关键属性的关联知识。从预测的主要功能上看, 主要是对未来数据的概念分类和趋势输出。 ( 5 ) 特异型知识挖掘 特异型知识( e x c e p t i o n ) 是源数据中所蕴涵的极端特例或明显区别于其它数据的知 识描述,它揭示了事物偏离常规的异常规律。特异型知识挖掘主要有:孤立点分析、序 列异常分析、特异规则发现等。 2 3 3 数据挖掘的基本过程 数据挖掘过程的关键步骡为:首先从数据源中抽取感兴趣的数据,并把它组织成适 合挖掘的数据组织形式,然后,调用相应的算法生成所需的知识,最后对生成的知识模 式进行评估,并把有价值的知识集成到企业的智能系统中。因此,数据挖掘的基本过程 可以概括为: ( 1 ) 数据的清洗和抽取 数据清洗是指去除或修补源数据中的不完整、不致、含噪音的数据。在源数据中, 需要修补不完整的数据,转换不一致的数据,以及采用数据平滑( d a t as m o o t h i n g ) 技 术【l9 j 来处理噪音数据,这样可以提高挖掘结果的准确性。 数据抽取是知识发现的关键性工作。在数据抽取过程中,必须要全面掌握源数据的 结构特点,界定所选取的数据源和抽取原则,然后将源数据的结构和转换信息应该作为 元数据( m e t a d a t a ) 被存储起来。 ( 2 ) 数据的选择与整理 没有高质量的数据就不可能有高质量的挖掘结果。我们认为,数据选择可以采用对 目标数据加以正面限制或条件约束,挑选那些符合条件的数据,也可以通过对不感兴趣 的数据加以排除,只保留那些可能感兴趣的数据。必须深入分析应用目标对数据的要求, 确定合适的数据选择或数据过滤策略,才能保证目标数据的质量。被挑选的数据必须整 理成适当的存储形式才能被挖掘算法所使用。 ( 3 ) 数据挖掘与模式评估 经过数据清洗、抽取、选择和整理后,就可以进入数据挖掘阶段了。数据挖掘是知 识发现的一个重要步骤,它是通过建立挖掘模型并通过实施对应算法来完成知识形成的。 数据挖掘是一个反复的过程,通过反复和用户交互式地执行和验证才能找到解决问题的 最好途径。通过不断地对挖掘产生的模式进行评估、筛选和验证,才能把有意义的知识 集成到企业的知识库或商业智能系统中去。 2 3 4 数据挖掘系统的基本构架 随着数据挖掘技术的发展,只有构建一个良好的系统应用构架。才能高效而精确地 实现企业的商业目标。在本项目的实际应用中,我们使用了个通用的支持多数据源、 1 0 东北大学硕士学位论文 第二章海洋环境数据挖掘相关技术简介 多知识模式的数据挖掘原型系统的应用构架【20 1 ,如图2 1 所示。对于该系统构架,我们 将从数据实体和基本软件组成部件角度来加以解释。 ( 1 ) 源数据与数据抽取部件 源数据可以是一个或多个数据库、数据仓库及像w e b 等这样的其它信息存储源。对 这样的多异构数据源,首先需要进行有针对性的预处理工作,然后使用数据抽取部件完 成备选数据生成。数据抽取应该自动地把备选数据的结构和对应的转换信息以元数据形 式存储下来。数据抽取是一个反复的过程。 ( 2 ) 数据选择部件与目标数据集 备选数据是对大量源数据的初步筛选,进一步的工作需要分析用户的挖掘目标和分 解挖掘任务确定针对应用的数据选择策略和规则。所以,数据选择部件应该能根据用 户的挖掘目标,交互式地完成备选数据的裁减,使生成的目标数据只集中在与挖掘目标 相一致的数据上。目标数据应该以适合于挖掘的形式组织,常用的是关系数据库或多维 数据立方体等形式。对于一个多模式挖掘系统来说,可能需要多种形式的目标数据集。 图2 1 数据挖掘系统的体系结构 f i g ,2 1t h ea r c h i t e c t u r eo f d a t am i n i n gs y s t e m ( 3 ) 数据挖掘部件与知识库 数据挖掘是数据抽象成知识的重要部件。它总是根据特定的模型和算法,在规格化 的目标数据集中,完成知识的提炼工作。一般地,它应能反复利用己获得的知识和用户 1 1 知识一目标数据一备选数据一 数据源 东北大学硕士学位论文第= 章海洋环境数据挖掘相关技术简介 互动,达到最终形成用户满意的知识模式。对于一个多策略挖掘系统来说,应该设计或 选择包含诸如关联、描述、分类、簇类分析以及进化和偏差分析等功能在内的数据挖掘 工具。被挖掘出来的中间或最终知识存储在知识库中。通过k d d 软件系统进行挖掘后, 知识库将不断地得到完善与丰富,它将成为一个企业进行科学的决策的基础。 ( 4 ) 模式评估部件与模式库 对于一个多策略挖掘系统来说,探索并最终选定知识模式是一件重要的工作。可以 结合现在广泛采用的兴趣测度1 5 j 2 1 】等方法,达到和数据挖掘工具和知识库相互作用以比 较和验证模式的有效性。模式评估功能也可以集成到数据挖掘工具中。为了提高挖掘效 率,模式评估工作应尽可能深入到挖掘的不同层次中,这样可以保证搜索限制在感兴趣 的模式中。 ( 5 ) 用户与可视化用户界面 这里的用户不能简单地认为是知识发现系统的最终用户,他们也包括各类设计、丌 发以及测试的技术人员。在系统开发和测试结束后,需要对用户进行必要的培训。 系统的可视化是用户方便而正确地使用系统的保证。对于这样一个集成化的应用环 境,一般需要有高质量的图形化用户接口( g u i ) ,便于用户进行交互和探索性挖掘。可 视化数据挖掘闯题一致是研究者和商业厂商关注的焦点,它的解决涉及到可用的数据挖 掘语言以及和现有标准的接1 :3 等诸多问题1 5 , 2 2 】。 2 _ 3 5 应用分析 麻省理工学院的科技评论杂志提出未来几十年对人类产生重大影响的1 0 大新兴 技术,“数据挖掘”位居第三【2 3 】。数据挖掘的应用成为高层次数据分析和决策支持的骨 干技术。目前,数据挖掘在诸如银行、电信、保险、交通、零售( 如超级市场) 等商业 领域中,已经有了广泛的应用。 近年来,数据挖掘已经被应用c r m ( c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t 客户关系 管理) 的实践中,成为解决商业分析问题的典范。这种结合所能解决的典型商业问题包 括:数据库营销、客户群体划分、客户背景分析、交叉销售、客户流失性分析、客户信 用记分、欺诈发现等等| 2 4 】。因此,把数据挖掘和c r m 结合起来进行研究和实践,是一 个有很大应用前景的工作。 2 4 海洋环境数据挖掘 本节将要具体介绍项目所要完成的海洋环境数据挖掘任务的相关背景信息。 2 4 1 海洋环境数据管理的层次结构 本着“尊重事实,面向服务”的思想,整个海洋数据的管理分五个阶段:原始资料 - 1 2 一 东北大学硕士学位论文 第二章海洋环境数据挖掘相关技术简介 的收集及数字化、整理成各类数据文件、原始资料的有序管理、原始数据的分主题管理 以及面向用户的服务五个阶段。其系统的总体结构如图2 2 所示。 ( 1 ) 原始资料的收集及数字化 这是原始海洋数据的收集阶段,首先要收集岸滨、浮标、台站、考察船、各站位等 的数据资料。目前,这些资料主要以两种形式保存,一种是原始观测结果,根据数据来 源和时间等,它们被保存在不同的介质中;另一种是这些原始资料的数字化形式,并记 录了相关的项目和观测手段等,它们以文档的形式存放。 孓畏畏 三主喜ii镢据集市,数据z l 、 ,j 按主题组织的数据仓月已 ! 坐鬻掣! ! 罗吐一 。一 f = i原始瓷料数据库l k r l p 1 一 蚕三= ! ! 塑竺壮哆l r 各类数据文件 f 原始资料收集及数字化 ffffff 岸滨jl 浮标 i 台站ji 考察船i 南森站 图2 2 海
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 银行入营考试题及答案
- 幼儿园清明课件
- 涉外法治面试题及答案
- 外出进修培训
- 物理乙卷试题及答案
- 会计实物考试题库及答案
- 胃癌微创治疗围手术期护理
- 2025年元宇宙社交平台虚拟社交空间设计与用户体验研究报告
- 数字化营销视角下运动品牌用户体验提升与市场拓展研究报告
- 2025年现场演艺市场复苏趋势与创新演出形式前瞻研究报告
- 2025-2030工程监理行业市场深度分析及竞争格局与投资价值研究报告
- 2024-2025学年度高中物理期中考试卷
- 福州一号线盾构法地铁工程整体施工组织设计
- GB 10770-2025食品安全国家标准婴幼儿罐装辅助食品
- 临时锅炉工用工合同标准文本
- 单病种质量管理实施方案
- 结构检测员考试题及答案
- 旅游保险产品讲解
- 装修业务居间推广合同
- 卵巢交界性肿瘤诊治进展
- 持续葡萄糖监测临床应用专家共识2024解读
评论
0/150
提交评论