(管理科学与工程专业论文)基于可拓聚类方法的数据挖掘研究.pdf_第1页
(管理科学与工程专业论文)基于可拓聚类方法的数据挖掘研究.pdf_第2页
(管理科学与工程专业论文)基于可拓聚类方法的数据挖掘研究.pdf_第3页
(管理科学与工程专业论文)基于可拓聚类方法的数据挖掘研究.pdf_第4页
(管理科学与工程专业论文)基于可拓聚类方法的数据挖掘研究.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于可拓聚类方法的数据挖掘研究 摘+要 目前,人们使用计算机网络等高级技术发现数据信息的能力比以前大大提高 了,很多数据信息被运用于商务决策、市场分析、科学研究和工程项目的开发等, 这一趋势将得到持续发展。现代社会的信息等技术的高速发展以及数据库应用的 规模和范围的不断扩大,使得人们能够获得的数据量也越来越大了,数据的种类 也变得日渐繁多。特别是互联网的快速发展发展为我们带来大量的数据和信息, 面对这么大规模的、而且存在着异常数据的数据库信息,如何从其中提取出隐含 的、有用的、对商业等的决策有用的信息或知识,进一步提高信息利用率,成为 现今世界急切需要解决的一个重要问题。在这种情况下对于数据挖掘及其方法的 研究就变得极为重要了。本文就是基于这一点,在对数据挖掘的方法及其算法分 析研究的基础上提出一种新的可拓聚类方法。 本文研究的问题是属于可拓工程和数据挖掘方面的。在借鉴和综合国内外前 人的相关研究成果的基础上,在分析研究了目前数据挖掘理论基础及其聚类方法 的基础上,将可拓学的理论知识引入到了数据挖掘中去,从可拓学研究的基本思 想、工具和方法出发,将问题进行了形式化的描述,建立了以可拓集合和关联函 数为核心的可拓聚类方法。该方法以物元为基础,将知识定义为物元,首先将知 识以物元的形式模型化,形成进行数据挖掘的最初知识模板,然后用要分析的数 据信息形成可拓集合,确定物元分析的经典域和节域,最后建立解决问题所需要 的关联函数,用关联函数值的大小来判断待分析的知识信息属于某集合的程度, 从而进行聚类。 本文所做的研究工作主要包括以下几个方面: ( 1 ) 比较详尽地论述了目前国内外对数据挖掘相关理论及其应用研究的总 体情况,包括数据挖掘的概况、挖掘数据的特点、数据挖掘的过程、挖掘中常用 的几种方法以及在科学研究、金融业、医疗等领域的应用。 ( 2 ) 对数据挖掘中的聚类分析方法进行了比较深入的研究,包括聚类分析概 述、常用的五种聚类方法的内容、优点、缺点和几种主要聚类算法的描述,同时 对其从时间复杂度、目标数据属性、发现聚类形状、对噪声数据的敏感性、对数 据输入顺序的敏感性、高维性和算法效率7 个性能进行了比较。 ( 3 ) 论述了建立可拓聚类方法中所使用的可拓学方面的理论、定义和公式, 包括基于理论、可拓集合论和关联函数;在此基础上提出了建立可拓聚类方法模 型的一般过程,并对其具体内容进行了详细的描述:最后以具体的数据为基础, 通过地震分类识别实例研究对验证了可拓聚类方法模型的有效性。 关键词:数据挖掘;聚类分析;关联函数:可拓集合;可拓学;物元 n d a t aminin gr e s e ar c hb a s e do nt h ee x t e n sio no ft h e c lu s t e rin gm e t h o d a b s t r a c t a tp r e s e n t , t h ea b i l i t yt h a tw eu s ea d v a n c e dt e c h n o l o g ys u c ha sc o m p u t e r i n t e r a c ti sg r e a t l yi m p r o v e dt h a ti tu s e dt ob e m u c hd a t aa n dk n o w l e d g ew e r ea p p l i e d i nc o m m e r c e s t r a t e g i cd e c i s i o n ,m a r k e t i n ga n a l y s i s ,s c i e n c es t u d y , a n dp r o j e c t d e v e l o p m e n ta n ds oo n ,a n dt h i st r e n dw i l lg e ts u s t a i n a b l ed e v e l o p m e n t a st h e m o d e ms o c i e t yi n f o r m a t i o nt e c h n o l o g yf a s td e v e l o p sa n dt h es c a l ea n ds c o p eo fd a t a a p p l i c a t i o ne x p a n d su n c e a s i n g l y , t h ed a t at h a tp e o p l eg e ti sb e c o m i n gm o r ea n dm o r e a n dt h ek i n d so ft h ed a t aa l s ob e c o m ei n c r e a s i n g l y e s p e c i a l l yt h er a p i dd e v e l o p m e n t o ft h ei n t e m e tb r o u g h tal o to fd a t aa n di n f o r m a t i o nf o rw e ,i tb e c o m e sau r g e n tn e e d t os o l v ei m p o r t a n tp r o b l e mt h a th o wt og e ti m p l i e d ,u s e f u li n f o r m a t i o no rk n o w l e d g e f o rc o m m e r c i a ld e c i s i o nf r o ms u c hl a r g e s c a l ea n dc o n t a i n i n ga b n o r m a ld a t ad a t a b a s e i n f o r m a t i o na n df u r t h e ri m p r o v et h ei n f o r m a t i o nu t i l i z a t i o n i nt h i sc a s e ,i tb e c o m e s e x t r e m e l yi m p o r t a n tt os t u d yd a t am i n i n ga n di t sm e t h o d s t l l i st h e s i si sb a s e do nt h i s p o i n t ;i tp r o p o s e san e wm e t h o dc a l l e dt h ee x t e n s i o no f t h ec l u s t e r i n gm e t h o da r e r a n a l y z i n ga n ds t u d y i n gt h em e t h o d sa n da l g o r i t h mo ft h ed a t am i n i n g t k st h e s i si ss t u d y i n go nk n o w l e d g ea b o u tt h ee x t e n s i o np r o j e c ta n dd a t am i n i n g i ti sb a s e do nt h er e l a t e dr e s e a r c ha c h i e v e m e n t so fp r e d e c e s s o rb o t ha th o m ea n d a b r o a d ,a n a l y z i n gd mb a s i ct h e o r ya n dc l u s t e rm e t h o d s ,i n t r o d u c i n gt h ee x t e n s i o n t h e o r ya n dk n o w l e d g ei n t od a t am i n i n g ,s t a r tf r o mb a s i ct h o u g h t ,t o o l sa n dm e t h o d m a k i n gt h ep r o b l e mf o r m a l ,a n df o u n de x t e n s i o nc l u s t e rm e t h o d 砥sm e t h o di s b a s e do nt h em a t t e re l e m e n t ,d e f i n i n gt h ek n o w l e d g ea st h em a t t e re l e m e n t f i r 吼 c o n v e r t i n gt h ek n o w l e d g ei n t ot h ef o r mo fm a t t e r - e l e m e n tm o d e l ,t h e nf o r m i n g e x t e n s i o ns e t ,a n dd e f i n i t ec l a s s i c a ld o m a i na n dj o i n td o m a i n ,f i n a l l yf o u n dd e p e n d e n t f u n c t i o n ,a n du s i n gt h es i z eo fv a l u eo fd e p e n d e n tf u n c t i o nt oj u d g et h ed e g r e et h a tt h e k n o w l e d g ei n f o r m a t i o nb e l o n gt ot h ec l a s s i f i c a t i o n ,a n df i n i s h i n gt h ec l u s t e r : 砀ew o r k st h i st h e s i ss t u d i e sa l ei n c l u d i n gt h ef o l l o w i n ga s p e c t s : i i i ( 1 ) i th a sm o r ed e t a i l e dd i s c u s s e da b o u tg e n e r a ls t a t eo f t h ed a t am i n i n gr e l a t e dt h e o r y a n di t sa p p l i c a t i o nr e s e a r c hb o t ha th o m ea n da b r o a d ,i n c l u d i n gt h eg e n e r a ls i t u a t i o n , c h a r a c t e r i s t i c s ,p r o c e s s ,s e v e r a lk i n d so fd mm e t h o d s ,a n dt h ea p p l i c a t i o n so fd m i n s c i e n c er e s e a r c h ,f i n a n c e ,m e d i c a lt r e a t m e n ta n ds oo n ( 2 ) d o i n gf u r t h e rr e s e a r c ho nc l u s t e ra n a l y s i sm e t h o do fd a t am i n i n g ,i n c l u d i n gt h e g e n e r a ls t a t eo fc l u s t e ra n a l y s i s ,t h ec o n t e n t ,a d v a n t a g e ,d i s a d v a n t a g eo ff i v ek i n d so f c o m m o nc l u s t e ra n a l y s i s ,d e s c r i b i n gs e v e r a lk i n d so fm a i nc l u s t e ra r i t h m e t i ca n d c o m p a r i n gt h e mf r o mt h et i m ec o m p l e x i t y ,t h ea t t r i b u t e so ft a r g e td a t a , t h es h a p e f o u n db yc l u s t e r , t h es e n s i t i v i t yo fa b n o r m a ld a t at h es e n s i t i v i t yo fd a t ai n p u t s e q u e n c e ,t h eh i g hs e n s i t i v i t ya n dt h ee f f i c i e n c yo ft h ea l g o r i t h m ( 3 ) d i s c u s s i n ga b o u tt h et h e o r i e s ,d e f i n i t i o n sa n df o r m u l a so fe x t e n s i o nw h i c h a r e u s e di n s e t t i n gu pe x t e n s i o nc l u s t e rm e t h o d s ,i n c l u d i n gb a s i c e l e m e n tt h e o r y , e x t e n s i o ns e tt h e o r ya n dd e p e n d e n tf u n c t i o n ;t h e nr a i s i n gt h eg e n e r a lp r o c e s sd u r i n g b u i l d i n ge x t e n s i o nc l u s t e rm e t h o dm o d e la n de l a b o r a t i n gt od e s c r i b e i t sc o n t e n t ; f i n a l l yb a s e do nt h ed e t a i ld a t a , v e r i f y i n gt h ev a l i d i t yo fe x t e n s i o nc l u s t e rm e t h o d m o d e lb yu s i n ge a r t h q 岫l ( ec l a s s i f i c a t i o nd i s t i n g u i s h i n gi n s t a n c e k e yw o r d :d a t am i n i n g ;c l u s t e ra n a l y s i s ;d e p e n d e n tf u n c t i o n ;e x t e n s i o ns e t ; e x t e n i c s ;m a t t e r - e l e m e n t i v 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含未获得 ( 注;垫遗直基丝益蔓缱别座盟数:奎拦互窒或其他教育机构的学位或证书使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 学位论文作者签名:癔快签字日期:1 呷年多月脚 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,有权保留并 向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人 授权学校可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用 影印、缩印或扫描等复制手段保存、汇编学位论文。同时授权中国科学技术信息 研究所将本学位论文收录到中国学位论文全文数据库,并通过网络向社会公 众提供信息服务。( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 杏饬 导师签字: 签字日期:叫年多月? 签字日 多桃 年r r0 v 基于可拓聚类方法的数据挖掘研究 u 刖置 随着计算机技术的发展,各行各业都开始采用计算机及相应的信息技术进行 管理和运营,这使得企业生成、收集、存贮和处理数据的能力大大提高,数据量 也与日俱增。此外,互联网的发展更是为我们带来了海量的数据和信息。但存储 在各种数据媒介中的海量的数据,在缺乏强有力的工具的情况下,已经远远的超 出了人的理解和概括的能力。在这样的背景下,人们迫切需要新一代的计算技术 和工具来开采数据库中蕴藏的宝藏,使其成为有用的知识。另一方面,近十余年 来,计算机和信息技术也有了长足的进展,产生了许多新概念和新技术,如更高 性能的计算机和操作系统、因特网、数据仓库、神经网络等等。在市场需求和技 术基础这两个因素都具备的环境下,对数据挖掘技术的研究就显得尤为重要了。 目前国内外许多学者对这个领域的研究已经投入了很大的力量。但是,在数 据挖掘的基础理论基础及其算法方面的研究还不成熟,还有待于人们去进行研 究。2 0 世纪8 0 年代初,以蔡文教授为首的我国学者们创立了一门新学科可 拓学。可拓学的发展应用为数据挖掘提供了更加新颖的思路和途径。可拓学的基 本逻辑细胞是物元,它将现实事物抽象为事物、特征及事物关于该特征的量值所 组成的一个三元组,它利用物元和事元的可拓性研究信息和知识,为数据挖掘提 供了有效的工具。本文利用可拓学中的可拓集合理论和关联函数,结合聚类分析 提出了一种新的方法一可拓聚类方法。该方法以物元为基础,将知识定义为物 元,首先将知识以物元的形式模型化,形成进行数据挖掘的最初知识模板,然后 用要分析的数据信息形成可拓集合,确定物元分析的经典域和节域,最后建立解 决问题所需要的关联函数,用关联函数值的大小来判断待分析的知识信息属于某 集合的程度,从而进行聚类。 基于可拓聚类方法的数据挖掘研究 1 绪论 1 1 研究背景及其意义 本节主要阐释了论文的选题背景和研究意义。首先,说明了本文选题的大背 景;其次,介绍了本文研究的理论意义与实践意义。 1 1 1 研究背景及其依据 目前,人们使用计算机网络等高级技术发现数据信息的能力比以前大大提高 了,很多数据信息被运用于商务决策、市场分析、科学研究和工程项目的开发等, 这一趋势将得到持续发展现代社会的信息等技术的高速发展以及数据库应用的 规模和范伟的不断扩大,使得人们能够获得的数据量也越来越大了,数据的种类 也变得日渐繁多。特别是w w w 互联网的快速发展发展为我们带来大量的数据和信 息。面对这么大规模的、而且存在着异常数据的数据库信息,如何从其中提取出 隐含的、有用的、对商业等的决策有用的信息或知识,进一步提高信息利用率, 成为现今世界急切需要解决的一个重要问题。数据挖掘正是在这种背景下出现 的,而且已经成为最近十几年出现的一个很热门的研究领域。数据挖掘( d a t a m i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐 含在其中、人们事先不知道的、但又是潜在有用的信息和知识的过程。 目前国内外许多学者对这个领域的研究已经投入了很大的力量。但是,在数 据挖掘的基础理论基础及其算法方面的研究还不成熟,还有待于人们去进行研 究。国外关于数据挖掘方面的研究重点已经从对数据挖掘的算法方面的研究转向 了对数据挖掘系统应用方面的研究,更加注重了各种技术和策略的集成发展,以 及各种学科之间的相互交叉和渗透;国内有关数据挖掘的研究则主要集中在数据 挖掘的算法、实际应用和挖掘的理论方法方面的研究。目前有关数据挖掘方面的 研究发展非常快,估计对数据挖掘的研究在未来若干年还会有更大的高潮。2 2 0 世纪8 0 年代初,以蔡文教授为首的我国学者们创立了一门新学科可 拓学。可拓学的发展应用为数据挖掘提供了更加新颖的思路和途径。研究表明, 可拓学在数据挖掘中的应用是多方面的:物元的可拓性可以成为挖掘的规则;可 以用发散分析方法进行分类、聚类方面的问题,利用相关分析与蕴含分析方法提 基于可拓聚类方法的数据挖掘研究 出某些关联规则;利用可拓集合的方法挖掘“不行变行的规律”;利用物元、事 元和关系元为基础的挖掘工具进行数据挖掘;利用物元变换特别是传导变换设计 成数据挖掘工具等。 可拓学使知识创新、新产品构思、策略集的生成等创造性思维活动能够形式 化描述。可拓学与管理科学、控制论、信息论和计算机科学相结合,使可拓工程 方法开始应用于经济、管理、决策和过程控制中,开始进入人工智能以及与人工 智能相关的学科中。 1 1 2 研究意义 目前,有关数据挖掘( d a t am i n i n g ) 方面的问题引起了企业界的极大关注,究 其原因主要是有大量的、可以广泛使用的数据,并且需要将这些大量数据转换成 能够为人们所用的有用的信息知识。可以将得到的这些信息知识广泛运用于各种 领域,如商务管理、信用分析和科学研究等方面。在过去的几十年里,计算机软 硬件的稳步发展直接导致了功能强大的计算机、数据收集设备以及存储介质的大 量使用。这些技术极大地推动了数据库技术和信息产业的快速、健康发展,使得 大量的数据库和信息存储应用于事务管理、信息检索和数据分析等方面,从而使 得现实世界中的数据量越来越大。大量的数据使得对强有力的数据分析工具的需 求更大。这些快速增长的大量数据被人们收集和存放在大型数据库中,如果没有 强有力的应用工具,人们很难以理解它们,也就无法应用它们。这样,重要的决 定常常不是取决于数据库中隐含有丰富信息的数据,而是取决与决策者们的直 觉,而决策者往往缺乏从大量的数据中提取出有用的数据和信息的工具。4 因此, 运用数据挖掘工具对数据进行分析,可以发现大量的数据模式,从而对商业决策、 发现知识库、科学研究和医学研究做出重要的贡献。 1 2 国内外研究现状及发展动态 本部分主要综述了国内外关于数据挖掘理论、方法应用的研究成果和可拓学 的研究现状。首先,综述了国内外数据挖掘研究的现状:其次,介绍了可拓学的 研究现状;最后介绍了未来几年数据挖掘的发展动态。 1 2 1 数据挖掘研究现状 l 国外研究现状 4 基于可拓聚类方法的数据挖掘研究 目前,在国外数据挖掘的发展应用及其研究方法大多集中在对知识发现 ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e s ,即k d d ) 方面的研究。数据挖掘的知识发现 ( g o d ) 这种说法首次出现在1 9 8 9 年在美国底特律举行的第1 1 届国际联合人工智 能学术会上。截止目前为止,由美国人工智能协会举办的有关知识发现( k d d ) 方面的国际学术研讨会已经举办了很多次,其会议的规模也由原来的专题讨论会 扩展到了国际型学术大会类型。同时,数据库、人工智能、信息处理等领域的国 际学术刊物也建立了知识发现( k d d ) 专题或专刊等。电气与电子工程师协会的 k n o w l e d g ea n dd a t ae n g i n e e r i n g 专刊在九十年代初第一次在发行了有关知识发 现( k d d ) 技术方面的刊物,在其上面的几篇论文代表了那个时候知识发现( k d d ) 和数据挖掘研究领域中比较新的成果和发展动态,这些论文比较准确地概括了知 识发现( k d d ) 和数据挖掘系统的方法论和发现结果的评价以及知识发现( k d d ) 系统设计的逻辑方法等。计算机网络应用、并行计算技术和信息工程等领域的国 际学会、期刊也把数据挖掘( d m ) 和知识发现( k d d ) 方面的研究问题作为专题和 专刊来进行研究和讨论,其研究的着重点也慢慢地从数据挖掘和知识发现方法方 面的研究转向了其系统应用方面的应用研究。最近这些年在数据挖掘和知识方面 的研究比较注重对挖掘和发现方法的研究和提高、统计学中的回归分析法在知识 发现( k d d ) 中的应用以及数据库技术和知识发现( k d d ) 方面的知识相结合等。在 应用方面,对知识发现( k d d ) 方面的相关软件工具不断地开发和完善,建立解决 问题比较完善的系统体系,这不是个孤立的过程,而是一个系统的过程。数据挖 掘和知识发现的使用者主要集中在一些银行业、通讯也、制造业和销售行业等。 在国外,数据挖掘和知识发现( k d d ) 技术也已经广泛地应用于零售业、银行业、 商业管理、通讯业、销售制造业以及医疗服务等信息化要求程度相对比较高的行 业。同时数据挖掘和知识发现( k d d ) 在网络中的应用发展也成为了商业界大都关 注的一个焦点。数据挖掘在网络方面的应用已经涉及到了搜索引擎服务、电子商 务和网站建设等方面。此外,在国外很多公司都非常重视数据挖掘和知识发现 ( k d d ) 的应用开发,微软和i b m 一些计算机公司现在都已经成立了研究这方面 内容的相应的研究中心对这方面进行更为深入的研究,同时这些公司的相应的软 件也逐渐在国内的商场上进行销售。4 2 国内研究现状 5 基于可拓聚类方法的数据挖掘研究 与国外的数据挖掘迅速成长相比,国内对数据挖掘( d m ) 和知识发现( k d d ) 方面的研究相对来说比较晚点。1 9 9 3 年,国家自然科学基金第一次支持对数据 挖掘( d m ) 和知识发现( k d d ) 领域方面的研究项目。最近这些年有关数据挖掘和 知识发现这方面的研究迅猛发展,而进行的很多这方面的研究项目都是由政府出 资进行研究工作的,如国家自然科学基金、8 6 3 计划、“九五 计划等等一系列 政府扶持的项目。国内对数据挖掘的研究所涉及的领域也非常多,这大多体现在 数据挖掘方法和算法的研究、数据挖掘和知识发现的实际应用方面以及数据挖掘 的基本理论研究等方面。1 9 9 9 年,亚太地区在北京召开的第三届p a k d d 会议收 录到许多文章,其关注程度空前热烈,因而对于数据挖掘和知识发现的研究和应 用已经受到了各界和政府部门等领域越来越多的关注。目前,数据挖掘( d m ) 已 经成为了各个领域的一个研究热点。在国内,大多大学都在进行数据挖掘方面研 究,也有少数在公司或者研究所也在从事这方面的研究。这些单位机构包括中科 院计算技术研究所、空军第三研究所、清华大学、海军装备论证中心等。其中, 对模糊方法在知识发现( k d d ) 中的应用北京系统工程研究所进行了比较深入的 研究,北京大学也开展了对数据立方体代数方面的研究,复旦大学、华中理工大 学、中国科技大学、浙江大学、吉林大学、中科院数学研究所等研究单位进行了 对关联规则挖掘算法的优化和改造;四川联合大学、南京大学和上海交通大学等 研究单位探讨、研究了在非结构化数据方面的知识发现( k d d ) 以及w e b 数据挖掘 鸯譬 5 守。 尽管目前有关数据挖掘方面的论文数量比较多,但是国内的数据挖掘应用还 处在试探性的萌芽阶段,企业中还没有较大规模地使用数据挖掘和知识发现方面 技术,而个别的企业或部门也只是能够简单地运用一些比较简单的数据挖掘技术 和工具,并没有形成比较完善的应用体系。 1 2 2 可拓学研究现状 经过多年的迅速发展,可拓学不仅已经逐渐形成了一个系统的体系可拓 学的理论框架体系,而且已经逐渐的从刚_ 歹| :始的基本理论知识方面的研究转向了 应用领域的研究6 。 可拓学的研究是以物元理论和可拓集合理论为基础的,它的发展主要经过了 三个阶段。第一个阶段是孕育阶段( 1 9 7 6 - - 1 9 8 3 ) ,提出了研究事物的可拓性和处 6 基于可拓聚类方法的数据挖掘研究 理不相容问题这一方向,以1 9 8 3 年发表的“可拓集合和不相容问题”为标志。 第二阶段是初创阶段( 1 9 8 3 - - 1 9 9 2 ) ,初步确定了学科的研究范围,必须采取的研 究范畴,解决问题的技术手段和研究途径,形成了解决问题的初步方法。这一阶 段的成果为可拓论及其应用、可拓工程研究等一批论文和物元分析、 物元模型及其应用、从物元分析到可拓学、- q - 拓工程方法等专著和论文 集。近年,学科的研究进入应用研究与普及推广的阶段。这一阶段将对近年来从 可拓集合到物元理论的研究进行系统化,完成可拓论的理论体系,阐明可拓学在 科学研究中的意义,研究它的应用方法,并逐步朝着软件化、硬件化和智能化的 方向前进。这一阶段以“可拓学丛书”、( ( 0 - i 拓逻辑初步、“可拓检测”、“可拓控 制等为标志,开始了可拓学在计算机与人工智能、控制与信息、管理与决策等 领域的应用研究。7 1 2 3 发展动态 近些年来对数据挖掘的相关理论和应用的研究发展得非常迅猛,在未来几 年,数据挖掘的研究和发展还将会很热,其研究的发展方向很有可能会集中在以 下几个方面: ( 1 ) 比较专业的开发语言的出现。主要是研究专门用于知识发现( k d d ) 方面的数据 挖掘语言,并且使数据挖掘的相关语言向形式化和标准化的语言发展。 ( 2 ) 发现和挖掘数据挖掘的过程中更加可视化的方法。在知识发现( k d d ) 的过程中 实现人机交互,图像、文字、数字相集中,以便于在知识发现( k d d ) 的过程能够 更加容易的被用户所理解。 ( 3 ) 研究w e b 挖掘,即基于网络环境下的数据挖掘技术,特别是在i n t e r n e t 网上 建立相应的服务器与数据库服务器配合,从而实现远程数据的挖掘。 ( 4 ) 加强开发各种非结构化数据,如对图形、视频图像、声音以及综合多媒体数 据的挖掘和应用,这些数据类型比较复杂,结构比较独特。为了处理这些特殊的 数据,需要创建一些新的、更好的分析建模方法和软件工具。 ( 5 ) 挖掘软件的适用性更加灵活。如果一次挖掘不能实现相应的目标,可以进行 交互式、动态性、分层挖掘等,即交互挖掘技术的发展。 ( 6 ) 研究功能强大的专用数据挖掘软件。就目前来看,将来的几个热点发展方向 包括i n t e r n e t 的数据挖掘、大型数据库数据的挖掘和文本的数据挖掘等,这些 7 基于可拓聚类方法的数据挖掘研究 领域由于其所涉及的数据有独特的数据性质,需要用专用软件来进行挖掘。 ( 7 ) 空间数据挖掘( s p a c ed a t am i n i n g ) 在某些方面将会有新的进展。在空间数据 挖掘的理论和方法方面研究的主要方向有:自动生成背景知识概念树、挖掘不确 定情况下的数据、递增式数据挖掘、数据挖掘的多层次、并行数据挖掘、查询 空间数据挖掘的相关语言、可视化表达等等。在空间数据挖掘的实现方面主要集 中在空间数据挖掘系统中的人机交互和可视化技术、空间数据挖掘系统与g i s 系统和空间决策支持系统的集成等。 ( 8 ) 研究更加有效的数据挖掘方法,保护数据挖掘过程中的数据的安全性。8 1 3 研究方法和和主要内容 国内外的众多学者已经对传统的各种聚类分析方法进行了深入广泛的研究, 取得了丰硕的成果。本文研究的问题是属于可拓工程和数据挖掘方面的。本文在 借鉴和综合国内外前人的相关研究成果的基础上,在分析研究了目前数据挖掘理 论基础及其聚类方法的基础上,将可拓学的理论及其方法引入到数据挖掘的挖掘 方法中,将从可拓学研究的基本思想、工具和方法出发,将问题进行形式化的描 述,将数据集合看成是物元的可拓集合,建立了条件物元和目的物元,从可拓集 合和关联函数的角度进行分析研究,建立可拓聚类方法模型,试图通过可拓工程 理论解决数据挖掘应用中有关聚类分析方面的问题。 本文的研究的内容主要包括以几个部分: ( 1 ) 第一部分绪论,首先论述了选题的背景和研究意义,综述了国内外有关 数据挖掘方面的研究及其发展动态;其次,介绍了本文的所用的研究方法和所要 研究的主要内容。最后,指出了本论文的创新之处。 ( 2 ) 第二部分数据挖掘的研究综述,是对第一部分的国内外数据挖掘研究综 述的具体介绍。首先论述了数据挖掘的基本概况,然后介绍了数据挖掘的特点、 挖掘的过程和数据挖掘的常见的几种方法,最后介绍了数据挖掘在科学研究、金 融投资、通讯、医药和产品制造等领域里的应用。 ( 3 ) 第三部分是聚类分析的相关概念及其主要算法。在这部分中,首先论述 了聚类分析概述和划分方法、层次方法、基于密度的方法、基于网格的方法、基 于模型的方法这五种主要的聚类方法及其优点和缺点。其次,介绍了在数据挖掘 中常用的几种主要聚类算法,并对其性能进行了比较分析。 8 基于可拓聚类方法的数据挖掘研究 ( 4 ) 第四部分是可拓聚类方法理论。首先介绍了可拓学的基本理论,包括基 元理论、可拓集合论、可拓逻辑,以及可拓学方法论体系中可拓方法的基本特征 及六种主要的分析方法。其次,详细介绍了可拓集合论中的可拓集合的定义、特 点。最后,介绍了与建立关联函数时所需的距、位值和侧距以及关联函数的基本 公式和几种特殊的关联函数。 ( 5 ) 第五部分可拓聚类方法模型,该部分首先论述了可拓聚类方法模型建立 的步骤以及模型的具体内容,然后通过其在具体实例中的应用来验证所建立的模 型。 ( 6 ) 第六部分是结论,主要总结本文所做的研究工作以及不足之处和有待于 进一步研究的地方。 1 4 本文的创新之处 传统的聚类分析把每个待分类的对象严格地划分到某个类中,体现了非此及 彼的性质,因此这种分类的类别界限是分明的。本文建立的可拓聚类方法突破了 使用传统聚类方法时聚类结果非此即彼的问题。 本文的创新之处在于分析研究了目前数据挖掘理论基础及其聚类方法的基 础上将可拓学的理论知识引入到了数据挖掘中去,从可拓学研究的基本思想、工 具和方法出发,将问题进行了形式化的描述,建立了以可拓集合和关联函数为核 心的可拓聚类方法。该方法以物元为基础,将知识定义为物元,首先将知识以物 元的形式模型化,形成进行数据挖掘的最初知识模板,然后用要分析的数据信息 形成可拓集合,确定物元分析的经典域和节域,最后建立解决问题所需要的关联 函数,用关联函数值的大小来判断待分析知识信息属于某集合的程度,从而进行 聚类。 1 5 本章小结 本章共分四节,分别介绍选题背景与意义、相关理论的文献综述、研究内容 及方法和创新之处。首先论述了本文的选题背景和研究意义,综述了国内外有关 数据挖掘方面的研究及其发展动态;其次,介绍了本文的所用的研究方法和所要 研究的主要内容。最后,指出了本论文的创新之处。 9 基于可拓聚类方法的数据挖掘研究 2 数据挖掘相关理论及其研究综述 本章承接上一章国内外研究现状,对数据挖掘的一些概念、理论、方法等进 行具体介绍。 从进化的角度来看,数据挖掘技术的产生过程实际上反映了数据库技术的演 化过程。随着计算机硬件和软件的飞速发展,尤其是数据库技术及其应用的日益 普及,人们面临着急速增长的数据海洋,如何有效利用丰富数据信息为人类服务, 已经成为很多信息技术工作者们所重点关注的焦点之一。与日趋成熟的数据管理 技术与软件工具相比,人们所依赖的数据分析工具功能,却无法有效地为决策者 们提供其决策支持所需要的相关信息知识,从而形成了一种独特的现象“丰 富的数据,贫乏的知识 9 。 为了能够有效解决这一问题,从2 0 世纪8 0 年代开始,数据挖掘技术逐步发展 起来了。目前全世界所拥有的巨大数据资源以及对将这些数据资源转换为信息和 知识资源的巨大需求使得数据挖掘技术得到了快速稳定的发展。对信息和知识的 需求来自各行各业,从商业管理、生产控制、市场分析到工程设计、科学探索等。 数据挖掘可以视为是数据管理与分析技术的自然进化产物。 2 1 数据挖掘的基本概况 数据挖掘( d a t am i n i n g ,简称d m ) 简单地讲就是从大量数据中挖掘或抽取出 知识,它有多种表述形式m ,如“知识发现 ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) , “探索式数据分析”( e x p l o r i n gd a t aa n a l y s i s ) ,“数据模式分析 ( d a t a m o d e la n a l y s i s ) ,“知识提取”( i n f o r m a t i o ne x t r a c t i o n ) 等。“知识发现( k n o w l e d g e d i s c o v e r yi nd a t a b a s e ) ,简称k d d ,就是从数据集中识别出有效的、新颖的、潜 在有用的以及最终可理解的模式的高级处理过程。它是从大量的数据集合中发现 有用的信息和知识的整个过程。而数据挖掘是k d d 过程中的一个特定步骤,它 用专门算法从数据中抽取模式 。数据挖掘的广义观点:数据挖掘就是从存放 在数据库,数据仓库或其他信息库中的大量的数据中“挖掘 有趣知识的 过程u 。数据挖掘,又称为数据库中知识发现( k n o w l e d g ed is c o v e r yi n d a t a b a s e ,简称k d d ) ,也有人把数据挖掘看成是为数据库中知识发现过程 的一个基本步骤。知识发现过程以下步骤组成:( 1 ) 数据清理,( 2 ) 数据 1 0 基于可拓聚类方法的数据挖掘研究 集成,( 3 ) 数据选择,( 4 ) 数据变换,( 5 ) 数据挖掘,( 6 ) 模式评估,( 7 ) 知识表示。数据挖掘可以与用户或知识库交互。从商业的角度来讲,数据挖 掘是一种新型的信息处理技术,其主要特点是对商业数据库中的大量业务数据进 行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据1 2 。 而更广泛的说法是数据挖掘,又称为数据库中知识发现( k n o w l e d g ed i s c o v e r yi n d a t a b a s e s ,简称k d d ) ,它是一个从大量数据中挖掘出未知的、隐含在数据中的 有价值的模式或规律等知识的复杂过程u 。数据挖掘和知识发现是9 0 年代初期 新崛起的一个活跃的研究领域。数据挖掘和知识发现( k d d ) 有密切的联系。知识 发现是指从数据库中发现有用知识的整个过程,数据挖掘是知识发现过程中的 个关键步骤,它利用特定的数据挖掘算法从数据中抽取模式,不包括数据的预处 理、领域知识结合及发现结果的评价等步骤。 在最近几年里数据挖掘已被数据库领域广泛研究,并在多个实际领域中得到 应用,开辟了数据库技术的新领域:开辟了人工智能与机器学习新的应用研究前 沿;它提高了数据利用的效率从而最终产生巨大的社会效益和经济效益。数据挖 掘的常见技术有以下六类:分类( c l a s s i f i c a t i o n ) 、聚类( c l u s t e r i n g ) 、估值 ( e s t i m a t i o n ) 、预澳s ( p r e d i c t i o n ) 、关联规贝j j ( a s s o c i a t i o nr u l e s ) 、描述和可视化 ( d e s c r i p t i o na n dv i s u a l i z a t i o n ) 等技术,可以看出聚类技术是其中非常重要的一个 研究课题。 2 2 数据挖掘的特点 数据挖掘和机器学习都是从数据中提取知识,其主要区别在于:机器学习主 要针对特定模式的数据进行学习;数据挖掘则是从实际的海量数据源中抽取知 识,这些海量数据源通常是一些大型数据库。由于数据挖掘使用的数据直接来自 数据库或数据仓库,数据的组织形式、数据规模都依赖数据库的特点。另外,数 据挖掘处理的数据量非常巨大,数据的完整性、一致性和正确性都难以保证。所 以,数据挖掘算法的效率、有效性和可扩充性都显得至关重要。然而充分利用现 代数据库技术优势也是提高数据挖掘的算法效率的有效途径。 与传统的数据库查询系统相比较,数据挖掘存在着明显的特点,具体如下: 第一,传统的数据库查询一般都具有严格的查询表达式,可以用s q l 语句 基于w 拓寨粪方法的数据挖掘研究 描述。而数据挖掘则不一定具有严格的要求,常常表现出即时、随机的特点,查 询的要求也不确定,整个发现过程也无法仅用s q l 语占就能完整表达出来。实 际上,知识发现常常用一种类s q l 语言来描述。 第二,传统的数据库查询一般生成严格的结果集,但知识发现可能并不生成 严格的结果集。发现过程往往基于统计规律产生的规则并不要求对所有的数据 项总是成立,而是只要达到一定的事先给定的阈值就可以了。 第三,通常情况下,数据库查询只对数据库的原始字段进行,而知识发现则 可能在数据库的不同层次上挖掘知识或规则。 第四,数据库查询只是把数据库中的某些数据抽取出来,或经过一些数学运 算,最终以特定格式呈现给用户。而k d d 则是对数据背后隐藏的特征和趋势进 行分析,最终给出关于数据的总体特征和发展趋势”。 23 数据挖掘的过程 数据挖掘的过程可以粗略地分为:问题定义( t a s k d e f i n i t i o n l 、数据准备( d a t a p r e p a r a t i o n ) 、数据挖掘( d a t am i n i n g ) 算法执行,以及结果的解释和评估 ( i n t e r p r e t a t i o na n de v a l u a t i o n ) ,其基本过程如图所示: 圄 ( 1 恫题的定义 图2 3 l 数据挖掘的过程 愁型 画一 琴 基于可拓聚类方法的数据挖掘研究 之所以进行数据挖掘就是为了能够从大量现有的数据库集合中挖掘出潜在 的、有用的信息数据,所以确定挖掘的知识的类型和种类也就成为数据挖掘过程 中的首要的、也是最重要的阶段。在进行问题定义的过程中,所有的挖掘人员都 必须同各个领域的相关专家和最终使用者通力合作,一方面要准确地了解在实际 的工作中对数据挖掘的一些要求,另一方面要通过对各种挖掘方法和学习算法进 行相应的对比,从而选择确定相应的适合的数据挖掘方法和算法。后面进行的数 据挖掘方法及其算法的选择和挖掘过程中相应的数据准备都是在这个基础上进 行的。 ( 2 ) 数据准备阶段 数据准备又可分为四个子步骤:数据清洗( d a t ac l e a n i n g ) 、数据选取(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论