




已阅读5页,还剩55页未读, 继续免费阅读
(计算机应用技术专业论文)海洋环境数据库构建及数据挖掘系统的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
东北大学硕士学位论文摘要 海洋环境数据库构建及数据挖掘系统的研究和实现 摘要 数据挖掘是在海量数据中发现模式和数据问关系、并利用这些模式和关系进行预测 的过程。为迎接海洋2 1 世纪,我国从国家发展战略的高度出发,将发展“数字海洋” 列入“十五”和2 0 1 5 年国家海洋科学技术发展计划,其目标是广泛收集海洋立体监测 信息,全面完成海洋信息化工程和海洋空间数据基础设施建设,基本实现海洋信息共享 和“数字海洋”基础工程建设。随着“数字海洋”的提出,如何对海量的海洋数据进行 挖掘,将传统的数据挖掘技术应用于海洋环境数据,从中得到有价值的模式和关系,使 海洋环境数据更好地发挥其作用,已成为一些研究人员关注的焦点。 本文介绍了海洋信息系统的体系结构,阐述了海洋环境数据库的构建方法,提出了 海洋环境数据挖掘系统结构,设计了针对海洋环境数据各个主题的关联规则、聚类、分 类算法、以及挖掘结果展示方法。在此基础上,针对海洋环境数据分析的需求,讨论了 跨海洋数据各个主题之间的相关挖掘,提出了两种方法来解决跨主题挖掘问题。 本文描述的系统基于b s 模式的体系框架,应用x m l 技术和o r a c l e 9 i 数据挖掘模 块对海洋环境的各个主题数据进行挖掘,用户可以灵活地选择挖掘数据的条件和属性。 系统具有动态添加挖掘模块的功能和良好的人机交互界面,并对挖掘结果进行充分的展 示和解释。 【关键字】:海洋数据数据挖掘质检导入导出关联规则聚类分析 一i i 东北大学硕士学位论文 a b s t r a c t c o n s t r u c t i o no fd a t a b a s e & s t u d ya n di m p l e m e n t a t i o n o fd a t am i n i n gs y s t e mf o ro c e a ni n f o r m a t i o n a b s t r a c t d a t am i n i n gi st h ep r o c e s so fd i s c o v e r i n gt h ep a t t e r n sa n dt h er e l a t i o n s h i p si nt h eh u g e d a t a ,a n dp r e d i c t i n gu s i n gt h er e l a t i o n s h i p sa n dp a t t e r n s w i t ht h ec o m i n go f2 1 c e n t u r yo f o c e a n ,f r o mt h en a t i o n a ld e v e l o p m e n ts t r a t e g i c ,c h i n ah a sp u tt h e ”d i g i t a lo c e a n ”i n t ot h e t e n t hf i v ea n dn a t i o n a lo c e a nd e v e l o p m e n tp l a no f 2 0 1 5 t h ed e s t i n a t i o no f ”d i g i t a lo c e a n ”i s t oc o l l e c to c e a nt h r e e d i m e n s i o n a lm o n i t o r i n gi n f o r m a t i o ne x t e n s i v e l ya n dc o m p l e t eo c e a n i n f o r m a t i o ne n g i n e e r i n ga n dt h ei n f r a s t r u c t u r ec o n s t r u c t i o no fo c e a nd a t a i tw i l li m p l e m e n t t h es h a r eo fo c e a ni n f o r m a t i o na n dt h eb a s i cp r o j e c tc o n s t r u c t i o no f ”d i g i t a lo c e a n ”t h e p r o p o s a lo f ”d i g i t a lo c e a n ”m a k e si tb e c o m eaf o c u so fr e s e a r c h e r st oh o w t om i n eh u g e o c e a nd a t a ,a p p l yt h et r a d i t i o n a ld a t am i n i n gt e c h n i q u e st oo c e a ne n v i r o n m e n t a ld a t a ,o b t a i n t h ev a l u a b l ep a t t e r na n dr e l a t i o n s h i p s ,a n dm a k eo c e a nd a t ap l a ym o r er o l e s i nt h i st h e s i s ,w ei n t r o d u c et h ea r c h i t e c t u r eo fo c e a ni n f o r m a t i o ns y s t e m ,e x p a t i a t ct h e m e t h o do fc o n s t r u c t i n go c e a nd a t a b a s e ,p r o p o s et h ea r c h i t e c t u r eo fo c e a nd a t am i n i n g ,a n d d e s i g nt h ea l g o r i t h m so fa s s o c i a t i o nr u l e sm i n i n g ,c l u s t e r i n g ,c l a s s i f i c a t i o n ,a n dt h ed i s p l a y m e t h o do fm i n e dr e s u l t s f o rs o m es u b j e c t so fo c e a nd a t a f o rt h er e q u i r e m e n to fa n a l y z i n g o c e a ne n v i r o n m e n t ,w ed i s c u s st h er e l a t i o nm i n i n ga m o n gs u b j e c t so fo c e a nd a t a ,a n dp r o p o s e t w os o l u t i o n st om i n et h ed a t aa c r o s st h es u b j e c t so fo c e a n t h es y s t e mi sb a s e do nb sm o d e l ,a n du s e sx m lt e c h n i q u ea n do r a c l e 9 id a t am i n i n g m o d u l et om i n et h es u b j e c t so fo c e a ne n v i r o n m e n td a t a t h eu s e r sc a nf l e x i b l ys e l e c tt h e c o n d i t i o n sa n da t t r i b u t e sf o rm i n i n g t h es y s t e mh a st h ef u n c t i o no fa d d i n gt h em i n i n g m o d u l e sd y n a m i c a l l ya n df r i e n d l yg r a p h i c a lu s e ri n t e r f a c e i tc a nf u l l yd i s p l a ya n di n t e r p r e t s t h er e s u l t 【k e y w o r d o c e a nd a t a ,d a t am i n i n g ,q u a l i t yc h e c k ,i m p o r ta n de x p o r t , a s s o c i a t i o nr u l e ,c u s t e r i n ga n a l y s i s i l i 独创声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中取得的 研究成果除加以标注和致谢的地方外,不包含其他人已经发表或撰写过的 研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工作 的同志对本研究所傲的任何贡献均已在论文巾作了明确的说明并表示谢 意。 学位论文作者签名:卜m 香1j e t期:溯6 身j 司目 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人授权东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。 ( 如作者和导师同意网上交流,请在下方签名;否则视为不同意。) 学位论文作者签名: 签字日期: 导师签名 签字日期 东北大学硕士学位论文 第一章引言 第一章引言 海洋是人类生存环境的重要组成部分,被誉为生命的摇篮、风雨的故乡和环境的调 节器。在广阔的海洋中,蕴藏着种类丰富、数量巨大的资源,合理开发利用这些资源是 解决人类当今面i 临人口剧增、陆地资源短缺以及环境恶化的重要途径。 l - 1 课题背景及任务 本文的研究来源于课题“海洋环境数据仓库与数据挖掘技术研究”,这是国家重点 专项基金项目。该课题对以往文本形式的海洋环境数据按海洋科学领域的主题进行划 分,进行关系化建模并保存到数据库中。该课题研究面向海洋数据环境的数据库构建以 及在此基础上的数据质检、数据导入、数据管理及数据统计,并在海洋环境数据库的基 础上,实现海洋环境数据仓库设计方案及面向水文气象主题的数据集市的建立、相关的 e t l 设计及o l a p 分析;以及基于海洋环境数据库和海洋环境数据仓库的数据分析及数 据挖掘算法;实现基于数据仓库和数据挖掘技术的、集成的、面向分析的海洋信息系统。 国家海洋信息中心工作的对象包含海洋水文、海洋表面气象、海洋生物、海洋化学、 海洋环境质量、海洋地质、海洋地球物理、海洋基础地理、海洋航空与卫星遥感、海洋 经济、海洋资源等数据内容,数据总量多达千亿字节以上全球范围的海洋各学科领域的 科学数据。 国家海洋局作为国家海洋主管部门,为了充分发挥海洋资料的作用,急需收集国内 外海洋资料及其元数据信息,建设世界海洋资料元数据库;改造、更新和建立国家海洋 资料数据库群;继续拓宽国外海洋资料交换收集渠道,做好海洋资料交换与服务,开发 高水平的海洋资料基础产品,建立海洋资料管理和传输网络共享服务系统,最大限度地 实现海洋资料共享。 海洋环境信息管理系统是国家海洋信息中心与东北大学软件与理论研究所共同合 作开发建设的。海洋信息系统的建设实施不但能够实现海洋信息的计算机处理,而且能 够为国家海洋信息中心和相关政府部门提供方便、快捷的数据信息服务与强有力的战略 决策支持。将使海洋信息管理更加现代化,从而为我国海洋事业的发展做出积极、重要 的贡献,具有重大的现实意义和战略意义。 东北大学硕士学位论文 第一章引言 1 2 海洋信息系统的体系结构 海洋信息系统在原始海洋数据文件的基础上,结合海洋数据特点进行分析和关系数 据库建模,构建原始资料数据库。通过质检模块将数据清洗和规范化,之后利用导入模 块导入到关系数据库中。在原始资料数据库的基础上,构建按主题划分的数据仓库,通 过e t l 将原始资料数据导入到数据仓库中,建立数据仓库、数据集市和数据立方,实 现海洋数据o l a p 分析和基于海洋环境数据库和数据仓库上的数据挖掘、探索分折。海 洋信息系统的体系结构如图1 1 所示。 曰曰日目囝燃舅 e 蝴库 囤圈融显褊 毒祭 - 清洗、转换、装载、集成 r f 1 。一3 卜伺 焉触曩晶嚣鬻 l 睦塑窭型垫堡目上j 广眇l z 数据导入 i 。备类数据文件l j j 圆彩移鬻勰1 一。 原始资料收集及数字化 的圜目原始资料保存 数据层 操作层 图1 1 海洋信息系统体系结构 f i g 1 1a r c h i t e c t u r eo f m a r i n ei n f o r m a t i o ns y s t e m 1 3 本文的研究内容 随着海洋观察测量手段的不断进步,可以收集到大量的原始海洋信息资料。国民经 济的发展和国防现代化的建设,追切需要使用这些资料。如何有效地管理和利用这些一 一2 东北大学硕士学位论文 第一章引言 手资料,为国民经济发展和国防现代化建设服务,以及更好地参与全球信息的交换,是 海洋信息管理面i 临的重要课题。“海洋环境数据仓库与数据挖掘技术研究”课题就是为 解决大量海洋信息的管理和利用问题而立项的。由于海洋信息的复杂性和重要性,该课 题具有重要的学术价值和广阔的应用前景。 由上图1 1 可见,该课题的数据层涉及数据文件、数据库和数据仓库部分,而相关 操作层涉及针对数据文件的数据交换、针对数据库的数据维护和管理、针对数据仓库的 多维分析和数掘挖掘。 本文包括两个方面的工作,一方面就是海洋环境数据库的构建,即以文本形式保存 的大量海洋信息数据,通过适当的清洗、规范化以及关系数据库建模,保存在o r a c l e 9 i 数据库中。在这个过程中,主要包括质检、导入和导出模块。本文提出了整个海洋数据 库构建的体系结构,以及具体的质检,导入及导出模块的设计与实现。另一方面,本文 提出了基于o r a c l e 9 id a t am i n i n g 的b s 模式海洋数据挖掘系统的相关研究和实现过程, 详细描述了系统的设计、组成以及实现的功能,并对于挖掘结果进行了较好的展示。针 对现阶段海洋挖掘系统只能在子主题内部进行挖掘的局限性,本文提出了跨主题挖掘问 题以及基于知识的跨主题挖掘和基于数据仓库的跨主题挖掘两种解决方法。通过跨主题 挖掘,使海洋数据挖掘更加全面,准确,从而能够为国家海洋信息中心和相关政府部门 提供方便、快捷的数据信息服务与强有力的战略决策支持。 1 4 本文的组织结构 本文其它章节内容的结构安排如下: 第二章主要介绍数据挖掘的相关理论和技术,数据挖掘的任务、常用方法、数据挖 掘过程、数据挖掘的应用以及未来的方向。由于挖掘系统主要采用o r a c l e 9 i 的作为底层 开发,对o r a c l e 9 i 的数据挖掘方面技术支持作了介绍,包括o r a c l e 9 i 数据挖掘概念、挖 掘组件、可以实现的功能以及使用的挖掘算法。 第三章主要介绍海洋环境数据库的构建。因为海洋环境数据仓库和数据挖掘都是以 原始资料数据库为基础的,数据库的构建是海洋信息系统的一个重要环节。本章阐述了 海洋环境数据库的特点以及基于这些特点的海洋环境数据库的设计,介绍海洋环境数据 质检模块、数据导入模块及数据导出的整体设计和具体的实现。 第四章主要介绍海洋环境挖掘系统设计与实现,提出海洋环境数据挖掘目标及挖掘 3 东北大学硕士学位论文第一章引言 手资料,为国民经济发展和国防现代化建设服务,以及更好地参与全球信息的交换,是 海洋信息管理面临的重要课题。“海洋环境数据仓库与数据挖掘技术研究”课题就是为 解决大量海洋信息的管理和利用问题i 叮立项的。由于海洋信息的复杂性和重要性,该课 题具有重要的学术价值和广阔的应用前景。 由上图11 可见,该课题的数据层涉及数据文件、数据库和数据仓库部分,而相关 操作层涉及针对数据文件的数据交换、针对数据库的数据维护和管理、针对数据仓库的 多维分析和数据挖搋。 本文包括两个方丽的 。作,一方面就是海洋环境数据库的构建,即以文本形式保存 的大量海洋信息数据,通过适当的清洗、规范化以及关系数据库建模,保存在o r a c l e 9 i 数据库中。在这个过程中,主要包括质检、导入和导出模块。本文提出了整个海洋数据 库构建的体系结构,以及具体的质检,导入及导出模块的设计与实现,另一方面,本文 提出r 基于o r a c l c 9 id a t am i n i n g 的b s 模式海洋数据挖掘系统的相关研究和实现过程, 详细描述了系统的设计、组成以及实现的功能,并对于挖掘结果进行了较好的展示。针 对现阶段海洋挖掘系统只能杠子主题内部进行挖掘的局限性,本文提出了跨丰题挖掘问 题以及基于知识的跨主题挖掘和基于数据仓库的跨主题挖掘两种解决方法。通过跨主题 挖掘,使海洋数据挖掘更加全面,准确,从而能够为国家海洋信息巾心和相关政府部、 提供方便、快捷的数据信息服务与强有力的战略决策支持。 1 4 本文的组织结构 本文其它章节内容的结构安排如下; 第二章主要介绍数据挖掘的相关理沦和技术,数据挖掘的任务、常用方法、数据挖 掘过程、数据挖掘的应用吼及未来的方向。由于挖掘系统主要采用o r a c l c 9 i 的作为底层 开发,对o r a c l e 9 i 的数据挖掘方面技术支持作了介绍,包括o r a c l e 9 i 数据挖掘概念、挖 掘组件,可以实现的功能以及使用的挖掘算法。 第= 章主要介绍海洋环境数据库的构建。因为海洋环境数据仓库和数据挖掘部是以 原始资料数据库为基础的,数据库的构建是海洋信息系统的一个重要环节。本章阐述了 海洋环境数据厍的特点以及基于这些特点的海洋环境数据库的设计,介绍海洋巧境数据 质检模块、数据导入模块及数据导出的整体设计和具体的实现。 第四章主要介绍海洋环境挖掘系统设计与实现,提出海洋环境数据挖掘目标及挖掘 第四章主要介绍海洋环境挖掘系统设汁与实现,提出海洋环境数据挖掘目标及挖掘 3 东北大学硕士学位论文第一章引言 采用的方法,介绍基于o r a c l e 9 i 数据挖掘组件的挖掘系统的设计以及挖掘系统的各个组 成部分和挖掘系统实现的功能。 第五章提出海洋数据跨主题挖掘研究。由于单个环境主题挖掘忽视了一些蕴含在各 个主题之间的联系与知识,所以本文阐述了跨主题的海洋数据挖掘以及研究的意义,提 出了两种解决跨主题挖掘问题的方法,一种是基于知识的跨主题挖掘,另一种是基于数 据仓库的跨主题挖掘。 第六章主要总结了本文的工作并提出了有待进一步研究和改善的方面。 一d 东北大学硕士学位论文 第二章数据挖掘理论与技术 第二章数据挖掘理论与技术 随着数据库技术的飞速发展以及数据库管理系统的广泛应用,各个企业和部门应用 自己的数据库管理系统,经过长年努力,已经积累了越来越多的数据。于是,人们开始 渴望通过对这些庞大的数据分析得到更多的有助于决策的信息。虽然,目前的数据库系 统可以高效率地实现数据得录入、查询、统计等功能,但由于数据量庞大以及数据库系 统中分析方法的严重缺乏,使得用户无法发现数据中隐藏的相互联系,更无法根据当前 的数据去预测未来的发展趋势。因此,出现了所谓“数据多,知识少”的现象,造成了 严重的资源浪费。 建立在数据库系统之上的计算机决策支持系统出现,为进行高层次的数据决策和分 析提供了好的思路和方法。但由于决策支持系统在数据的采集、分析方法上的灵活性等 方面存在局限性,使得人们不得不寻求更有效的途径去丌拓数据决策分析的思路。机器 学习、人工智能理论为此做出了巨大贡献。人工智能经历了媾弈、自然语言理解、知识 工程等阶段,已经进入了机器学习的热点阶段。机器学习能够模拟人类的学习方式,通 过对数据对象之间关系的分析,提取出隐含在数据中的模式,即知识。 正是由于实际工作的需要和相关技术的发展,利用数据库技术来存储管理数据,利 用机器学习的方法来分析数据,从而挖掘出大量的隐藏在数据背后的知识,这种思想的 结合形成了现在深受人们关注的非常热门的研究领域:数据库中的知识发现( k d d : k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ) 。其中,数据挖掘技术便是k d d 中的一个最为关键 的环节。 1 9 9 5 年,在加拿大蒙特利尔召开了第一届知识发现和数据挖掘国际学术会议,数据 挖掘一词被很快流传丌来。人们将存储在数据库中的数据看作是形成知识的源泉,形象 将它们比喻成矿石。数据挖掘( d a t a m i n i n g ) 就是从大量的、不完全的、有噪声的、模糊 的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和 知识的过程j 。 总体来讲,数据挖掘是按照一定的规则对数据库和数据仓库中已有的数掘进行信息 开采、挖掘和分析,从中识别和抽取隐含的模式和有趣知识,并利用它们为决策者提供 决策依据。由于数据挖掘的价值在于扫描数据仓库或建立非常复杂的查询,数据和文本 挖掘工具必须提供很高的吞吐量,并拥有并行处理功能,而数据挖掘的产生与数据库技 5 一 东北大学硕士学位论文第二章数据挖掘理论与技术 术密切相关。数据库技术在经过了8 0 年代的辉煌之后,人们逐渐认识到,查询是数据 库的奴隶,发现才是数据库的主人。专家系统曾经是人工智能研究工作者的骄傲,但由 于其在知识获取、知识表示、缺乏常识等方面的瓶颈,使得专家系统目前还停留在构造 诸如发动机故障论断一类的水平上。这自然促使人工智能学者开始正视现实生活中大量 的、不完全的、有噪声的、模糊的、随机的大数据样本,走上了数据挖掘的道路。数理 统计是应用数学中最重要、最活跃的学科之一,它在计算机发明之前就诞生了,迄今已 有几百年的发展历史,然而,数理统计和数据库技术结合得并不算快。在人们有了从数 据查询到知识发现、从数据演绎到数据归纳的要求之后,概率论和数理统计才获得了新 的生命力。 从进化的角度来看,数据挖掘技术的产生过程实际上反映了数据库技术的演化过 程,表2 1 | 2 】清楚地蜕明了这一点。 表21 数据挖掘技术产生过程 ! ! ! 堡! :! ! ! ! ! ! ! ! 堕! ! i ! 垫坐塑坚! ! 些! ! g 坚型! 唑i ! ! 进化阶段商业问题支持技术产品厂家产品特点 数据挖掘技术是人们长期对数据库技术进行研究和开发的结果,同时,也是信息技 术自然演化的结果。从机器学习到知识工程,从知识工程到专家系统,8 0 年代人们又在 新的神经网络理论的指导下重新回到机器学习,随后又进入到数据库中的知识发现,接 着又相辅相成地产生数据挖掘。在此期间,数据仓库技术的出现和逐步成熟,为数据挖 掘技术的繁荣注入了强劲的动力,最近人们又认识到把统计分析方法和数据挖掘有机地 结合将是最好的策略。因此数据挖掘是一门交叉学科,它汇聚了数据库、人工智能、统 6 东北大学硕士学位论文 第二章数据挖掘理论与技术 计学、可视化、并行计算等不同学科和领域,其发展是一个螺旋上升的过程,近年来受 到各界的广泛关注。 2 1 数据挖掘任务 数据挖掘通过预测未来趋势及行为,做出前瞻的、基于知识的决策。数据挖掘的目 标是从大量数据中,发现隐藏于其后的规律或数据间的关系,从而服务于决策。数掘挖 掘一般有以下几类主要任务。 ( 1 ) 关联分析 关联规贝1 ( a s s o c i a t i o nr u l e s ) 挖掘是数据挖掘的一个重要挖掘内容,a g r a w a l l 3 1 等在 1 9 9 3 年首先提出了挖掘顾客交易数据库中项集间的关联规则问题。数据库中的数据一般 都存在着关联关系,也就是说,两个或多个变量的取值之间存在某种规律性,这种关联 关系有简单关联和时序关联两种。简单关联,例如:购买面包的顾客中有9 0 的人同时 购买牛奶。时序关联,例如:若a t & t 股票连续上涨两天且d e c 股票不下跌,则第三 天i b m 股票上涨的可能性为7 5 。它在简单关联中增加了时间属性。 关联分析的目的是找出数据库中隐藏的关联网,描述一组数据项目的密切度或关 系。有时并不知道数据库中数据的关联是否存在精确的关联函数,即使知道也是不确定 的,因此关联分析生成的规则带有置信度,置信度级别度量了关联规则的强度。 关联模型的一个典型例子是市场菜篮分析( m a r k e t i n gb a s k e ta n a l y s i s ) ,通过挖掘数 据派生关联规则,可以了解客户的行为。采用关联模型的成功典型案例是总部位于美国 阿肯色州的w a l * m a r t 零售商的“尿布与啤酒”的故事。w a l * m a r t 拥有世界上最大的数 据仓库系统,它利用数据挖掘工具对数据仓库中的原始交易数据进行分析,得到了一个 意外发现:跟尿布一起购买最多的商品竟然是啤酒。直u 果不是借助于数据仓库和数扼挖 掘,商家决不可能发现这个隐藏在背后的事实:在美国,一些年轻的父亲下班后经常要 到超市去买婴儿尿布,而他们中有3 0 4 0 的人同时也为自己买一些啤酒。有了这个 发现后,超市调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销售额。 ( 2 ) 聚类 当要分析的数据缺乏描述信息,或者是无法组织成任何分类模式时,可以采用聚类 分析。聚类分析是按照某种相近程度度量方法,将用户数据分成一系列有意义的子集合。 每一个集合中的数据性质相近,不同集合之间的数据性质相差较大。 7 一 东北大学硕士学位论文 第二章数据挖掘理论与技术 统计方法中的聚类分析是实现聚类的一种手段,它主要研究基于几何距离的聚类。 人工智能中的聚类是基于概念描述的。概念描述就是对某类对象的内涵进行描述,并概 括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的 共同特征,后者描述不同类对象之问的区别。 ( 3 ) 分类 分类的主要功能是学会一个分类函数或分类模型( 也常常称作分类器) ,该模型能 够根据数据的属性将数据分派到不同的组中。即:分析数据的各种属性,并找出数据的 属性模型,确定哪些数据属于哪些组。这样我们就可以利用该模型来分析已有数据,并 预测新数据将属于哪一个组。 分类应用的实例很多。例如,我们可以将银行网点分为好、一般和较差三种类型, 并以此分析这三种类型银行网点的各种属性,特别是位置、盈利情况等属性,并决定它 们分类的关键属性及相互问关系。此后就可以根据这些关键属性对每一个预期的银行网 点进行分析,以便决定预期银行网点属于哪一种类型。 ( 4 ) 偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括 很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的 偏差、量值随时问的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意 义的差别。 2 2 数据挖掘常用方法 目前,国外有许多研究机构、公司和学术组织在从事数据挖掘工具的研究和开发。 这些数据挖掘工具采用的主要方法包括决策树、神经网络、遗传算法,以及可视化、o l a p 联机分析处理等。另外也采用了传统的统计方法。 ( 1 ) 决策树( d e c i s i o nt r e e ) 利用信息论中的信息增益寻找数据库中具有最大信息量的字段,建立决策树的一个 结点,再根据字段的不同取值建立树的分支:在每个分支子集中重复建树的下层结点和 分支的过程,即可建立决策树。国际上最有影响和最早的决策树的q u i u l a n 研制的i d 3 方法n i ,数据库越大这种方法运行的效果越好。在i d 3 方的基础上,又产生了许多决策 树方法。1 d 3 方法一般用在静态数据库的环境中,在数据流的挖掘环境中,还有人提出 8 东北大学硕士学位论文 第二章数据挖掘理论与扶术 了h o e f f d i n g t r e e s 5 1 ,这是一种在数据流上构建的决策树,其核心的内容就是对于数据流 数据,在选择当前节点的分类属性的时候采用h o e f f d i n g 约束。进而提出了v f d t 系统 6 1 。 ( 2 ) k 均值( k m e a n s ) k m e a n s 是一种典型的聚类算法,聚类被人们认为是数据挖掘和知识学习中的一种 基本工具,在处理模式识别和图像处理方面发挥着重要的作用。k m e a n s 7 1 算法的主要 过程:首先从n 数据中任意选取k 对象作为初始聚类中心,而对于剩下的其它刘象, 则根据它们与这些聚类中心点的相似度( 距离) ,分别将它们分配给与其最相似的( 聚 类中心所代表的) 聚类;然后再计算每个所获得新聚类的聚类中心( 每个聚类中所有对 象的均值) ,不断重复这个过程直到标准测度函数j 收敛为止。k m e a n s 算法得到的聚类 结果一般是较优的解,要得到全局最优解的算法是n p h a r d 问题i 引。对于知道将数据集 合分为几类的时候,k m e a n s 划分方法是一个较好的方法。因此有一些它的变化版本, 主要在初始k 聚类中心点的选择、差异程度计算和聚类中心值计算方法等方面的不同。 ( 2 ) 神经网络( n e u r a ln e t w o r k ) 它模拟人脑神经元结构,以m p 模型和h e b b 规则为基础,建立了三大类多种神经 网络模型f 9 】= ( 1 ) 前馈式网络它以感知机、反向传播模型、函数网络为代表,可用于预测、模式 识别等方面。 ( 2 ) 反馈式网络它以h o p f i e l d 的离散模型和连续模型为代表,分别用于联想和优化 计算。 ( 3 ) 自组织网络它以a r t 模型、k o h o l o n 模型为代表,用于聚类。 神经网络的知识体现在网络连接的权值上,是一个分布式矩阵结构:神经网络的学 习体现在神经网络权值的逐步计算上( 包括反复迭代或累加计算) 。运用神经网络的方法 产生许多分类器。 ( 4 ) 粗糙集( r o u g hs e t s ) 在数据库中,将每个元组看成一个对象,列元素看成属性( 分为条件属性和决策属 性) 等价关系r 定义为不同对象在某个( 或几个) 属性上取值相同,这些满足等价关系的 对象组成的集合称为该等价关系r 的等价类。条件属性上的等价类e 与决策属性上的 等价类y 之问有三种情况:1 下近似:y 包含e ;2 上近似:y 和e 的交非空:3 无 关:y 和e 的交为空。对下近似建立确定性规则,对以上近似建立不确定性规则( 含可 9 东北大学硕士学位论文第二章数据挖掘理论与技术 信度1 ,对无关的情况则不存在规则旧1 。 ( 5 ) 概念树( c o n c e p tt r e e 、 对数据库记录的属性字段按归类方式进行抽象,建立起来的层次结构称为概念树。 如:“城市”概念树的最下层是具体市名或县名( 如:南京、合肥等) ,它的直接上层是 省名( 如:江苏、安徽等) ,省名的直接上层是国家行政区( 如:华东、华北等) ,再上层 是国名( 如:中国、美国等) 。利用概念树提升的方法可以大大地浓缩数据库中的记录。 对多个属性字段的概念树进行提升,将得到高度概括的知识基表,然后再将知识基表转 换为规则。 ( 6 ) 遗传算法( i n h e r i t a n c ea l g o r i t h m l 这是模拟生物进化过程的算法川,有三个算子组成: 繁殖( 选择) 是从一个旧种群( 父代) 选出生命力强的个体,产生新种群( 后 代) 的过程。 交叉( 重组) 选择两个不同个体( 染色体) 的部分( 基因) 进行交换,形成新 个体。 变异( 突变) 对某些个体的某些基因进行变异( 1 变o ,o 变1 ) 。 这种遗传算法可起到产生优良后代的作用。这些后代需满足适应值,经过若干代的 遗传,将得到满足要求的后代( 问题的解) 。遗传算法己在优化计算和分类机器学习方 法方面发挥了显著的作用。 ( 7 ) 统计分析方法( s t a t i s t i c sa n a l y s i s l 在数据库字段项之间存在两种关系:函数关系( 能用函数公式表示的确定性关系) ; 相关关系( 不能用函数公式表示,但仍是相关确定关系) 。对它们的分析采用如下方法: 回归分析、相关分析、主成分分析,从中可以发现有用的关联规则。 ( 8 ) 模糊论方法( f u z z yt h e o r y ) 利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类 分析。模糊性是客观存在的。系统的复杂性越高,精确化能力就越低,即模糊性越强。 这是z a d e h 总结出的互克性原理。 ( 9 ) 联机分析处理( o l a p ) 联机分析处理( o n l i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 1 1 2 1 主要通过多维的方式来对数据 进行分析、查询和报表。它不同于传统的联机事物处n ( o n l i n et r a n s a c t i o np r o c e s s i n g , o l t p ) 应用。o l t p 应用主要是用来完成用户的事务处理,如民航订票系统、银行储蓄 1 0 东北大学硕士学位论文 第二章数据挖掘理论与技术 进行分析、查询和报表。它不同于传统的联机事物处理( o n l i n et r a n s a c t i o np r o c e s s i n g , o l t p ) 应用。o l t p 应用主要是用来完成用户的事务处理,如民航订票系统、银行储蓄 系统等等,通常要进行大量的更新操作,同时对响应时间要求比较高。而o l a p 应用 主要是对用户当前及历史数据进行分析,辅助领导决策。其典型的应用有对银行信用卡 风险的分析与预测、公司市场营销策略的制定等,主要是进行大量的查询操作,对时阳j 的要求不太严格。o l a p 一般是基于数据立方( d a t ac u b e ) 来进行的。 2 3 数据挖掘过程 数据挖掘一般有以下的步骤1 1 3 】: ( 1 ) 数据收集 大量全面丰富的数据是数据挖掘的前提,没有数据,数据挖掘也就无从作起。因此, 数据收集是数据挖掘的首要步骤。数据可以来自于现有事务处理系统,也可以从数据仓 库中得到。 ( 2 ) 数据整理 数据整理是数据挖掘的必要环节。由数据收集阶段得到的数据可能有一定的污染, 表现在数据可能存在自身的不一致性,或者有缺失数据的存在等,因此数据的整理是必 须的。同时,通过数据整理,可以对数据做简单的泛化处理,从而在原始数据的基础之 上得到更为丰富的数据信息,进而便于下一步数据挖掘的顺利进行。 ( 3 ) 数据挖掘 利用各种数据挖掘方法对数据进行分析。 ( 4 ) 数据挖掘结果的评估 数据挖掘的结果有些是有实际意义的,而有些是没有实际意义的,或是与实际情况 相违背的,这就需要进行评估。评估可以根据用户多年的经验,也可以直接用实际数据 来验证模型的正确性,进而调整挖掘模型,不断重复进行数据挖掘。 ( 5 ) 分析决策 数据挖掘的最终目的是辅助决策。决策者可以根据数据挖掘的结果,结合实际情况, 调整竞争策略等。总之,数据挖掘过程需要多次的循环反复,才有可能达到预期的效果。 数据挖掘的一个典型过程如图2 2 所示。 东北大学硕士学位论文第二章数据挖掘理论与技术 2 4 数据挖掘应用 图2 2 数据挖掘过程模型 f i g 2 2m o d e lo fd a t am i n i n gp r o c e d u r e 目前,数据挖掘的研究和应用非常热门,应用主要集中在以下几个领域1 4 】: ( 1 ) 金融 数据挖掘在金融领域应用广泛,包括:金融市场分析和预测、账户分类、银行担保 和信用评估等。这些金融业务都需要收集和处理大量数据,很难通过人工或小软件进行 分析预测。而数据挖掘可以通过对已有数据的处理,找到数据对象的特征和对象之间的 关系,观察到会融市场的变化趋势。然后利用学习到的模式进行合理的分析预测,进而 发现某个客户、消费群体或组织的金融和商业兴趣等。 ( 2 ) 市场业 市场业应用是利用数据挖掘技术进行市场定位和消费者分析,辅助制定市场策略。 由于管理信息信息系统和p o s 系统在市场业的广泛普及,人们很容易得到顾客购买情 况的数据。利用数据挖掘技术,如:相关规则、模糊推理及统计方法等,通过对顾客历 史数据的分析,可以得到关于顾客购买取向和兴趣的信息,无疑为商业决策提供了可靠 的依据。 ( 3 ) 工程科学研究 数据挖掘技术可应用于各种工程与科学数据分析。随着先进的科学数据收集工具的 1 2 东北大学硕士学位论文第二章数据挖掘理论与技术 使用,如观测卫星、遥感器、d n a 分子技术等,面对庞大的数据,传统的数据分析工 具无能为力。数据挖掘技术以其强大的智能性和自动性,在工程和科学研究中得到广泛 应用。数据挖掘在天文学和生物学中都有极为成功的案例。例如:在天文学应用中,j e t p r o p u l s i o n 实验室利用决策树方法对上百万天体进行分类,效果比人工更快、更准确。 这个系统还帮助发现了1 0 个新的类星体。 2 5 数据挖掘未来的方向 尽管数据挖掘的研究取得了一些成果,然而其研究还很不成熟,其应用还有较大的 局限性,正是这些局限促使数据挖掘研究进一步发展。目前,数据挖掘研究和应用面临 的主要挑战有以下几点5 l : ( 1 ) 处理不同种类的数据:由于在不同的应用中有很多不同种类的数据及数据库, 因此,期望知识发现系统能够对不同种类的数据有效地执行挖掘任务。因为大部分可用 的数据库是关系型的,故在关系型数据库上数据挖掘系统进行高效及有效的知识发现是 非常迫切的任务。许多可用的数据库含有复杂的数据类型。如结构化的数据、复杂的数 据对象、混合文本、多媒体数据、时空数据、事务数据及历史数据等。一个功能强大的 系统应能在这些复杂数据类型的数据上进行有效的数据挖掘任务。 ( 2 ) 数据挖掘算法的效率及扩展性:为了从数据库大量的数据中有效地抽取信息, 知识发现算法运行大数据库必须是高效且可扩展的,即数据挖掘算法的运行时间必须是 可预见的并且是可接受的。指数级甚至是中等级的多项式的复杂性在实际应用中将是不 可接受的。 ( 3 ) 数据挖掘结果的可用性、确定性及可表达性:所发现的知识需精确地描绘数据 库的内容并对己明确的应用是有用的。不完美的结果借助于不确定性来表达,以相近的 规则或多个规则来表达。噪声及应去除的数据在数据挖掘系统中应仔细处理。这也说明 自动对发现的知识如何来表示是一个系统性的研究项目,包括通过构造统计的、分析的 及模拟的模型及工具集来对兴趣度及可靠性的研究。 ( 4 ) 各种数据挖掘结果的表达:从大量的数据中可发现不同种类的知识,既可以从 不同的角度来检验发现的知识,也可以用不同的形式来表示这些知识。这就要求既要表 达对数据挖掘的要求,也要以高级语言或图形用户界面来表达发现的知识,所以数据挖 掘任务可由非专家来说明,发现的知识是容易理解的并且直接由用户来使用。这就要求 。1 3 东北大学硕士学位论文第二章数据挖掘理论与技术 知识发现系统适合表达知识的表示技术。 ( 5 ) 多抽象层交互挖掘知识:由于预言从数据库中能够确切地发现何种知识是非常 困难的,高水平数据挖掘查询语言将被用来作为一个查询工具,而这种工具可能封闭了 进一步探索的有用踪迹。应鼓励交互式发现,它允许用户交互式定义一个数据挖掘的查 询,动态地改变数据焦点,进一步深化一个数据挖掘处理,从不同角度及多个抽象层面 上灵活地查看数据及数据挖掘的结果。 ( 6 ) 从不同的数据源中挖掘信息:大量局域及广域计算机网络,包括因特网,连接 了许多的数据源并且形成了海量的分布式、不均匀的数据库。从不同的格式化或非格式 化并有不同语义的数据中挖掘知识对数据挖掘提出了新的挑战。更进一步说,海量数据 库、数据的分布性及某些数据挖掘方法的计算复杂性都是并行及分布式数据挖掘算法发 展的动力。 ( 7 ) 隐私保护及数据安全:当数据能从不同角度及不同抽象层查看时,严重地威胁 了保护数据安全及禁止侵犯隐私的目标。知识发现何时可能导致侵犯隐私及为了保护敏 感信息而开发何种安全措施,这些研究工作都是非常重要的。 研究焦点集中到以下几个方面: ( 1 ) 实现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,也许会像 s q l 语言一样走向形式化和标准化; ( 2 ) 寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便 于在知识发现的过程中进行人机交互; ( 3 ) 研究在网络环境下的数据挖掘技术,特别是在因特网上建立d m k d 服务器, 并且与数据库服务器配合,实现基于w e b 挖掘; ( 4 ) 加强对各种非结构化数据的开采( d a t am i n i n gf o ra u d i o & v i d e o ) ,如对文本数 据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采;处理的数据将会 涉及到更多的数据类型,这些数据类型或者比较复杂,或者是结构比较独特。为了处理 这些复杂的数据,就需要一些新的和更好的分析和建立模型的方法,同时还会涉及到为 处理这些复杂或独特数据所做的费时和复杂数据准备的一些工具和软件。 2 6 本章小结 本章总结了数据库和数据挖掘的相关技术,介绍了数据挖掘的任务,常用方法,以 1 4 东北大学硕士学位论文第二章数据挖掘理论与技术 及数据挖掘的过程和应用背景,并总结了当前数据挖掘的研究方向。本章的内容将为后 面将阐述的海洋数据挖掘奠定技术基础。 1 5 东北大学硕士学位论文第三章海洋环境数据库构建 第三章海洋环境数据库构建 海洋环境数据仓库与数据挖掘是基于海洋环境数据库来进行的,国家海洋数据中心 的原始数据是以文本文件的形式来提供的,首先要做的就是将原始的海洋数据导入到海 洋环境数据库,在此基础上,才能进行数据仓库的构建以及数据挖掘的研究,因此,如 何根据海洋数据设计海洋环境数据库的模式,对数据进行质量控制,导入数据成为了我 们要解决的首要问题。 本章从海洋数据的特点出发,结合数据库的理论技术,阐述了海洋数据库模式的设 计方法,海洋环
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- DB23-T 3561-2023 城市桥梁自复位拉索减震支座技术规程
- 年产7350吨农用摇臂轴项目可行性研究报告
- 汽车水性抗紫外涂料项目可行性研究报告
- 防汛知识培训课件医院
- AbMole小课堂丨Staurosporine(星孢菌素):广谱激酶抑制剂的作用 机制及其在肿瘤、神经生物学上的研究应用
- DB65T 4100-2018 羊肺丝虫病的诊断与治疗规程
- 防意外伤害自救知识培训课件
- 建材买卖合同2篇
- 2025年信托合同2篇
- 部队军事体能训练教学课件
- 2025四川蜀道建筑科技有限公司招聘16人备考练习题库及答案解析
- 80年血火淬炼此刻亮剑正当时:纪念中国人民抗日战争暨世界反法西斯战争胜利80周年阅兵仪式对初中生的启示-2025-2026学年初中主题班会
- 2025-2026学年西师大版(2024)小学数学一年级上册(全册)教学设计(附目录P227)
- 2025年大型集团财务审计外包服务合同风险防控条款规范
- 2025年国家保安员资格考试复习题库(附答案)
- GB/T 45777-2025水泥中石膏掺量评估方法
- 任务一切中断时的接发列车办法授课颜保凡课件
- 情侣合伙开店合同范例
- 山东大学工程流体力学(杜广生)课件第5章 粘性流体的一维流动
- 底拖法在管道施工中的应用
- Toeic托业考试真习题及答案
评论
0/150
提交评论