(计算机应用技术专业论文)基于插件架构的数据挖掘系统平台研究与设计.pdf_第1页
(计算机应用技术专业论文)基于插件架构的数据挖掘系统平台研究与设计.pdf_第2页
(计算机应用技术专业论文)基于插件架构的数据挖掘系统平台研究与设计.pdf_第3页
(计算机应用技术专业论文)基于插件架构的数据挖掘系统平台研究与设计.pdf_第4页
(计算机应用技术专业论文)基于插件架构的数据挖掘系统平台研究与设计.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(计算机应用技术专业论文)基于插件架构的数据挖掘系统平台研究与设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

江苏大学硕士学位论文 摘要 由于数据挖掘所带来的湿著的经济效益,而受到了学术界和产业界的广泛关 注。目前,已经有很多数据挖掘系统得到丌发和应用,大都是针对数据挖掘和数 据分析领域专家的,其集成的算法功能和数目固定,而且存在功能组件可扩展性 较差等问题,制约了数据挖掘系统的推广应用。因此,研究具有较强的可扩展的 数据挖掘系统及其集成技术,对提高数据挖掘系统的应用价值具有十分重要的理 论意义和实用价值。 基于插件架构的系统具有支持可扩展性的重要特性,引入插件架构方法到数 据挖掘系统构建领域,将能够较好的满足该领域对扩展性方面的需求。本文基于 插件架构的思想,对当前数据挖掘系统领域中既有的成果进行了较为全面的分析 和总结,从数据挖掘过程模型入手,着重分析了数据挖掘系统领域需求中的主要 特征,提出了基于插件的数据挖掘系统,并从横向和纵向对系统该架构的功能扩 展进行了详细的分析。 结合面向对缘思想与设计模式,在捅件架构设计模型的基础上对基于该架构 模裂的数据挖掘系统进行了体系结构设计,描述了该系统的工作机制,并对其核 心功能包、数据对象模型、插件算法配置、数据与算法对接等主要的功能组件进 行了设计。通过引入抽象:l 厂设计模式,解决各个组件的可扩展性机制,设计了 适合多数据源的处理以及多挖掘算法集成的适配框架。针对该框架中插件算法的 封装、加载和管理等关键问题,提出了相应的解决方法。 在完成系统主要功能组件的分析与设计的基础上,对课题提出的基于插件架 构的数据挖掘系统平台进行了原型系统实现。该原型系统展现了基本界面结构和 主要功能,通过一个实际的数据集的测试,验证了本课题提出的模型和方法,初 步达到理论研究与实际应用结合之目的。 关键词:数据挖掘,可扩展,架构设计模型,插件,设计模式 江苏大学硕士学位论文 a b s t r a c t w i t ht h eg r e a te c o n o m i cb e n e f i t sp r o d u c e db yd a t am i n i n gt e c h n o l o g y ,a t t e n t i o n f r o ma c a d e m i c sa n di n d u s t r i e si sc o m p r e h e n s i v e l yp a i dt oi t n o w a d a y s ,s e v e r a ld a t a m i n i n gs y s t e m sh a v eb e e nd e v e l o p e da n du s e dp r a c t i c a l l y h o w e v e r , t h e s es y s t e m s a r eg e n e r a l l yf i tf o re x p e r t sf r o md a t am i n i n ga n dd a t aa n a l y s i sd o m a i n ,c a p a b i l i t i e s a n dq u a n t i t i e so ft h e s ei n t e g r a t e da l g o r i t h m sa r ef i x e da n dt h es y s t e mc o m p o n e n t sa r e n o te a s yt oe x t e n d ,r e s u l t i n gi n t ol i m i t a t i o n si nd a t am i n i n gs y s t e ma p p l i c a t i o n t h e r e f o r e ,t or e s e a r c hi n t e g r a t i o nt e c h n i q u e sa n dm e t h o d sf o rs u p p o r t i n gc o n s i d e r a b l e e x t e n s i b l ed a t am i n i n gs y s t e m si st h e o r e t i c a l l yi m p o r t a n ta n dp r a c t i c a l l yv a l u a b l e s y s t e m sb a s e do np l u g i na r c h i t e c t u r eh a v et h em a j o rf e a t u r eo fs u p p o r t i n g e x t e n s i b i l i t y ,i n t r o d u c i n g t h i sa r c h i t e c t u r e a p p r o a c h i n t od a t am i n i n g s y s t e m c o n s t r u c t i o na r e aw i l lc o n s i d e r a b l ym e e tt h ee x t e n s i b i l i t yn e e d so ft h ea r e a t h ec u r r e n te x i s t i n ga c h i e v e m e n t si nd a t am i n i n gs y s t e mr e s e a r c ha r e aa r e g e n e r a l l ya n a l y z e da n ds u m m a r i z e db yt h i sd i s s e r t a t i o n ,s t a r t i n gt h es t u d yw i t hd a t a m i n i n gp r o c e s sm o d e l ,t h em a i nf e a t u r e so ft h ed a t am i n i n gs y s t e md o m a i nn e e da r e a n a l y z e da n d ap l u g i n - b a s e da r c h i t e c t u r em o d e li sp r o p o s e dt of u l f i l lt h ee x t e n s i b i l i t y r e q u i r e m e n t s t h ea r c h i t e c t u r em o d e lc a ns u p p o r ts y s t e me x t e n s i b i l i t yh o r i z o n t a l l y a n dv e r t i c a l l ya n dl a y e r e ds y s t e ma n a l y s i sa n dd e s i g n ,l e a d i n gt oq u i t eo p t i m i z e da n d r a i s e dp e r f o r m a n c eo ft h ed a t am i n i n gs y s t e mb a s e do nt h ea r c h i t e c t u r em o d e l o nt h eb a s i so ft h ep l u g i na r c h i t e c t u r em o d e l ,c o m b i n i n gw i t ho b j e c t o r i e n t a t i o n i d e a sa n dr e l a t e dd e s i g np a t t e m s ,t h i sd i s s e r t a t i o nc a r r i e so u tt h es t r u c t u r ed e s i g no f p l u g i n - b a s e dd a t am i n i n gs y s t e m ,d e s c r i b e st h ew o r k i n gm e c h a n i s mo f t h es y s t e ma n d c o n d u c t sd e s i g no ni t sm a j o rc o m p o n e n t ss u c ha sc o r ef u n c t i o np a c k a g e s ,d a t ao b j e c t m o d e l ,p l u g i na l g o r i t h mc o n f i g u r a t i o na n dt h ed a t a s e ta n da l g o r i t h mc o n t r a c t i n t e r m so ft h ee x t e n s i b i l i t ym e c h a n i s mo ft h e s ev a r i o u ss y s t e mc o m p o n e n t s ,a na d a p t e r f r a m e w o r kf o rm u l t i d a t as o u r c ed e a l i n ga n dm u l t i - - a l g o r i t h mi n t e g r a t i o ni sp r o p o s e d b yi n t r o d u c e dt h ea b s t r a c tf a c t o r yp a t t e r na n dt h ec o r r e s p o n d i n gm e t h o d sa i m i n ga t 江苏大学硕士学位论文 t h ek e yp r o b l e m si nt h ep r o c e s so fe n c a p s u l a t i n g ,l o a d i n ga n dm a n a g i n gt h e s ep l u g i n a l g o r i t h m s a c c o r d i n gt ot h ep r e v i o u s l yf i n i s h e ds y s t e mc o m p o n e n t sa n a l y s i sa n dd e s i g n ,t h e p r o t o t y p es y s t e mo ft h ep r o p o s e dp l u g i na r c h i t e c t u r eb a s e dd a t am i n i n gs y s t e m p l a t f o r mi si m p l e m e n t e do nt h ej a v ap l a t f o r m t h ep r o t o t y p es y s t e ms h o w si t sb a s i c i n t e r f a c es t r u c t u r ea n dm a i nc o m p o n e n t s ,a n dt h ep r o t o t y p ei sa p p l i e dt oar e a l w o r l d d a t a s e tt o t e s ta n dt of u r t h e rv e r i f yt h ep r o p o s e dm o d e l sa n dm e t h o d s ,a c h i e v i n gt h e p r e l i m i n a r yg o a lo fl i n k a g eb e t w e e nt h e o r e t i c a ls t u d ya n dp r a c t i c a la p p l i c a t i o n k e yw o r d s :d a t am i n i n g ,e x t e n s i b i l i t y ,a r c h i t e c t u r ed e s i g nm o d e l ,p l u g i n ,d e s i g n p a t t e r n 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文 的规定,同意学校保留并向国家有关部门或机构送交论文的 复印件和电子版,允许论文被查阅和借阅。本人授权江苏大 学可以将本学位论文的全部内容或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存和 汇编本学位论文。 保密口,在年解密后适用本授权书。 本学位论文属于 不保密d 。 学位论文作者签名:降蠢叶指导教师签名:彤蛾忍 年6 月节日 年月f 日 独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指 导下,独立进行研究工作所取得的成果。除文中已注明引用 的内容以外,本论文不包含任何其他个人或集体已经发表或 撰写过的作品成果。对本文的研究做出重要贡献的个人和集 体,均已在文中以明确方式标明。本人完全意识到本声明的 法律结果由本人承担。 学位论文作者签名:i 奇、- 五七专 h 其, j i :q 年6 月叶日 江苏大学硕士学位论文 1 1 研究背景 第一章绪论 随着社会信息化的快速推进,导致了各企业组织数据集存储规模呈爆炸式增 长。现代计算机技术与数据库技术的发展,虽然已经能够支持快速检索这些大规 模的数据集。但是,面对如此的海量数据,无论从时间意义上还是空间丌销上, 这些数据分析手段还是难以应付,只是人们无法理解并有效利用这些数据隐含的 价值,而导致“数据爆炸而知识贫乏”的境地【l l 。这样,便迫切需要新的技术智 能地、自动地挖掘这些遗留数据中的潜在的知识。伴随着数据挖掘技术发展,各 种各样的数据挖掘系统工具便为人们解决这一难题提供了有力的手段忙j 。 g r a h a mw i l l i a m s ,e ta 1 和m i c h a e lg o e b e l ,e ta 1 3 - 4 1 分别就当前数据挖掘领域 中的开源和商业数据挖掘系统的应用开发、运算能力、可扩展性以及分布式应用 等方面,进行了详细的分析和论述,并讨论了今后数据挖掘系统的发展方向和演 化趋势。数据挖掘发展到目前的阶段,其研究重点逐渐地从方法论转向了系统应 用,更加注重多策略知识发现和技术集成以及多学科的交叉渗透1 5j 。数据挖掘系 统是数据挖掘研究和应用的桥梁,对数据挖掘的推广起到非常大的作用。 当前一些数据挖掘系统存在着以下几个方面的问题1 6 。8 j :首先,这螳系统集 成的分析算法的功z h 匕l c , 和数目固定而且系统组件可扩展性较差。尽管一些数据挖掘 工具中采用了多种数据挖掘方法,但是实际问题总是比方法多,而月这些工具普 遍规模较大,价格昂贵,并且有较长的学习曲线,需要有专业的知识才能够掌握 运用;其次,大部分数据挖掘系统和数据挖掘工具不能够很好的支持数据挖掘的 标准过程,使用时不能够单独完成用户的预期目标,也给用户的使用造成了诸多 的不便,不利于其的推广应用;再者,这些系统很多只是实现了多种数据挖掘算 法的工具集,导致了其与实际的业务领域之间不能够很好平滑的衔接,因而得到 的挖掘结果难以理解,已经不能满足数据挖掘发展的应用需求。特别是,数据挖 掘用户的需求也是根据不同的应用而变化的,数据源的数据类型、数据挖掘算法 适用范围以及数据挖掘结果的表现形式都不足一成不变的,能够应对不变的需求 变化的能力更是一个优秀的数据挖捌系统的必备要素。 因此,基于上述的实际背景,研究具有较强的【l 丁扩展功能的数据挖掘系统集 成技术和方法,保持系统的可扩展性和灵活性,实现对小同的数据源,不同数据 挖掘算法和不同挖掘结果展现形式的统一处理,从而构建适合普通用户应用的数 江苏大学硕士学位论文 据挖掘系统平台已经成为数据挖掘领域的重要研究热点。 1 2 研究现状 数据挖掘从上世纪九十年代开始便作为一种新的知识获取技术从众多的学 科理论中脱颖而出,引起了学术界和工业界的广泛关注。它可以从大量的数据集 中获取潜在的知识和规则,从而解决了专家系统知识获取的瓶颈,并且得到的是 显式的知识和规则,避免了专家系统中获得的知识可解释性和可移植性差的问 题,所以数据挖掘技术的出现成为当今机器学习领域中一个十分活跃的领域。 世界著名i t 系统项目论证与决策权威机构,g a r t n e r 公司【9 1 在一份最近的报 告中,列举了今后一段时期内最重要的五项关键技术,数据挖掘和人工智能便排 名第一位。同时,将数据挖掘技术列为今后五年内公司应该投资的1 0 个新技术 领域。当前,随着数据挖掘算法研究的成熟,市场重心开始逐渐转向数据挖掘应 用。 从数据挖掘技术的出现到当前时期,无沦在其技术研究还是市场发展方面均 取得了巨大的进步,众多研究人员和商、i k 机构对这一领域的研究做了细致大量的 工作,研发出了一批新的应用系统和原型。m a r t i ns c h o l z 等人【1 0 1 设计开发了支持 组件可复用的具有快速集成能力的数据挖掘原型系统y a l e 。通过继承已有的数 据挖掘算法和图形丌发工具,w a i k a t ou n i v e r s i t y 的w e k a 项目研究团队,基于j a v a 平台和而向对象的设计方法开发了w e k a 数据挖掘实用工具包t j 。此外,还有针 对生物序列数据、w e bs e r v i c e s 等特定应用领域的数据挖掘系统。如b i o w e k a 通 过对w e k a 工具进行特化,实现了对生物信息的挖掘分析2 1 。w e k a 4 w s 基于w e b s e r v i c e s 技术,它实现了一个支持网格环境下的分御式数据挖掘框架【1 3 j ;a l i s h a i k ha l i 等人在也论述了基于w e bs e r v i c e s 的分布式数据挖掘系统构建方法i l 引。 f r a s e ru n i v e r s i t y 数据挖掘专家j i a w e ih 及其研究团队研制了支持关系数据库的 数据挖掘系统d b m i n e r 和多媒体数据挖掘工具m u l t i m e d i a m i n e r 1 5 - 1 6 1 。d o r g i v a l g u e d e s e ta 1 在中论述了一个面向服务架构s o a 的高性能数据挖掘系统的设计方 法l l7 1 。香港大学x i n g w e nw a n ge ta 1 在提出了基于案例的数据挖掘系统平台构建 思路。此外,还有s a se n t e r p r i s em i n e r ,s p s sc l e m e n t i n e ,i b mi n t e l l i g e n tm i n e r , m ss q ls e r v e r 2 0 0 8 等一批商用挖掘系统平台l 垅l 。国内主要的数据挖掘产品有 中科院开发的多策略数据挖掘系统m s m i n e r l 2 3 1 。此外,还有上海复旦德门软 件公司推出的d m i n e r 数据挖掘系统和客户智能分析系统c i a s 等。 数据挖掘和知识发现理论的各个方面,如皋础理论,有效的数据挖掘算法, 江苏大学硕士学位论文 数据仓库,可视化技术,数据挖掘模型交互,知识表示评价方法,文本挖掘, w e b 挖掘以及不同的数据挖掘系统等已经得到了广泛的研究。其主要的集中点 主要包含以下这些方面: 第一,新的数据挖掘方法的研究开发,主要集中在管理规则发现算法、聚类 算法、分类方法和偏差分析与预测等方面。 第二,数据挖掘与数据仓库结合,主要集中在基于数据仓库的数据挖掘技术。 第三,文本挖掘,主要集中在文本聚类、文档自动文摘和实体关系抽取等方 面。 第四,w e b 数据挖掘,主要是对非结构化或半结构化的、动态异构的w e b 网页上的数据进行数据挖掘。 第五,在对数据挖掘实用算法研究的同时,研究人员对于数据挖掘系统体系 结构的研究也越来越多【2 4 甾】。 以上这些方面的发展进步为数据挖掘应用系统的进步和更新构建了强有力 的基础,也为数据挖掘应用的市场化提供了必要的推动力,促进了商用系统的产 生与发展,加深了数据挖掘系统和行业领域应用的紧密联系。 1 3 研究内容 本课题的研究内容主要是对当前数据挖掘系统的架构设计模型、功能可扩展 性以及扩展实现及复用等方面进行研究,主要技术路线以及研究内容包括以下几 个方面: ( 1 ) 首先全面研究当前数据挖掘领域相关的背景和发展现状,特别是有关数 据挖掘系统的发展所取得的一些成果,着重分析研究这些已有的数据挖掘系统的 不足之处,并提出相关的改进方法。 ( 2 ) 研究分析数据挖掘过程模型,对已有的数据挖掘系统中存在的不足,如 分析算法数目固定且不易扩展、组件可复用性、功能可扩展性和灵活性较差等问 题进行分析,提出基于捅件架构的设计思路,并结合面向对象思想、设计模式等 来解决其中存在的上述问题。 ( 3 ) 分析研究数据挖掘系统应用领域,对该领域需求的一些主要特点进行探 讨;重点研究插件数据挖掘系统结构模型的没计,并对其主要功能组件如多数据 源处理、数据挖掘插件算法集成以及结果模式展示方面能够实现呵扩展能力进行 详细的分析;结合插件架构、m v c 模式等技术,给出可扩展性没计方法,为系 统实现可扩展性之目标提供可行方案。 江苏大学硕士学位论文 ( 4 ) 对原型系统设计与实现的工作机制和关键技米进行比较深入的研究。探 讨涉及到的系统数据模型、插件算法配置定义以及系统结构的核心功能包、类、 接口及其之间的组织架构等相关的问题,构建并实现原型系统的核心功能,在此 基础上进行基于插件架构的数据挖掘系统平台原型的实现,最后将该原型系统通 过一个应用实例进行正确性和可行性验证。 1 3 结构组织 根据要进行的工作内容,本文按照以下章节组织: 第一章简要介绍了与本课题有关的背景知识、相关的研究现状和发展趋势 等,并通过简要分析其中的存在的一些不足之处,引入了本文主要工作的必要性。 第二章介绍了数据挖掘相关概念,数据挖掘相关技术和数据挖掘系统的发 展。本章首先说明了数据挖掘的概念和技术发展,并分别就统计方法和数据挖掘 技术,o l a p 技术和数据挖掘技术进行了比较分析;其次介绍了数据挖掘的一些 主要功能模型,接下来讨论了数据挖掘的过程的基本构成要素,并在此基础上分 析了三代数据挖掘系统的发展演进,最后,描述了数据挖掘系统评价的一些度量 标准。 第三章对面向数据挖掘系统领域需求中的一些相关问题进行了分析和研 究,指出了该领域需求具有的主要特点,并通过插件架构的引入对该问题域的需 求进行求解。介绍了插件技术相关的原理、开发方法和插件应用开发的特点;并 对捅件架构涉及到的相关问题,如架构相关的定义、软件架构模式、软件架构设 计过程和设计方法进行了阐述,讨论了插件架构模型;最后研究了相关的插件架 构系统实例,为数据挖掘系统的插件架构设计提供了依据并确立了方向。 第 q 章分析了基于插件架构模型架构数据挖掘系统平台的相关问题。首先 从横向和纵向两个视角对该数据挖掘系统平台架构进行了详细的分析探讨,并从 层次卜对系统平台的各个层次进行了详细的论述,指出了各个层次的可扩展性分 析以及结果模式的处理,重点分析了可扩展的挖掘算法层的相关问题,并总结阐 述了系统达到的一些f 1 标性能和特点。 第五章基于本文所提出了插件数据挖掘系统架构设计模型,进行了基于该 系统架构模型的数据挖掘系统平台p l u g i n d m t o o l 原型的设计与实现。对系统体 系结构和工作机制进行了描述,设计了系统组成的主要功能组件,讨论了各组件 的关键技术实现方法,最后给出了原型系统的实现,验证了本文提出了模型和方 法的i f 确性。 4 江苏大学硕士学位论文 第六章介绍了本课题实现的数据挖掘原型系统在一个真实的数据集信息挖 掘中的应用实例,通过对该实际的数据进行测试不仅说明了该系统的实用性和可 行性,也初步达到了理论研究与实际应用相结合的设计目标。 第七章对本文的工作进行了总结和概括,并对进一步的工作做出了展望。 江苏大学硕士学位论文 第二章数据挖掘相关知识 本章主要介绍与数据挖掘相关的一些基本知识和概念。首先说明了数据挖掘 是如何随着关系数据库系统的发展和大规模应用,而逐步成为应用需求的主要目 标对象的,并由此引出了数据挖掘和其相关技术介绍,讨论了数据挖掘的主要功 能、数据挖掘系统的基本构成和发展过程,并描述了数据挖掘系统的评价标准。 2 1 数据挖掘技术 2 1 1 数据挖掘概念 数据挖掘足从大量的数据中发现有意义的知识的过程,其中知识的形式可能 是模式、关联、变化、异常以及其他有意义的结构,数据可能存储在数据库、数 据仓库和其他信息资料库中。数据挖掘作为一门新兴的交叉学科,涉及到诸如数 据库系统、数据仓库、统计学、机器学习、数据可视化、信息检索和高性能计算 等领域;其他有关领域包括神经网络、模式识别、立体数据分析、图像数据库、 信号处理、概率图理论和归纳逻辑编程。概括的说,数据挖掘技术是人t 智能和 数据库两个分支学科发展和演进的结果:用数据库管理系统来存储和管理数据, 用人工智能中机器学习技术来分析数据,挖掘大量数据背后的知谚3 ,这两者的结 合促成了数据挖掘技术的产生【2 引。 二十世纪六十年代,数据库和信息技术从最初的文件处理发展到了功能强大 的复杂的数据库管理系统。从七十年代开始,数据库管理系统由层次型和网状结 构发展为关系裂、对象型以及对象关系型数据库管理系统。通过一系列的数据索 引和组织技术的优化发展,用户可以通过s q l 语言或者界面的方式方便灵活的 对数据进行各种操作。技术的进步大大推动了数据库在信息产业的各个方面的应 用,由此带来了人们对海量数据和海量数据的存储分析的困难,产生了数据资源 丰富,但是知识贫乏的矛盾对立。怎样将这些数据坟墓变为u 以被人们利用的数 据宝库成为了人们关注的焦点,由此也推动了数据仓库技术和数据挖掘技术的产 生和发展。数据仓库技术足这一发展趋势的先行者,它主要包括数据清理、数据 集成和联机分析处理( o l a p ) 。o l a p 实际上足一种分析技术,具有汇总、合并 和聚集功能,以及从不i j 的角度观察信息的能力1 2 。尽管o l a p 工具支持多维 分析和决策,对于深层次的分析,如数据分类、聚类和数据随时间变化的特征, 6 江苏大学硕士学位论文 但仍然需要其他分析工具的配合。 2 1 2 数据挖掘与统计学 数据挖掘不是为了替代传统的统计分析技术。相反,数据挖掘技术作为一种 数据分析方法是在传统的统计方法的延伸和扩展,与这些传统的数据分析方法相 比较,数据挖掘技术具有很多自己的特点1 2 引。 首先,作为数据分析的对象数据源已经远远超过了传统分析方法的处理能力 了,面临着数据爆炸的海量数据处理的难题。对于如此大规模的数据量,传统的 数据分析方法可能根本不能处理,即使能够处理,效率也是必须考虑的严重i 、u j 题。 因此需要对原有的数据分析方法重新检验,加以改进。 再者,传统数据分析方法处理的都是一些结构化的规整数据,数据的结构比 较单一;而数据挖掘则需要从残缺的的、有i 噪声的和模糊的数据中探索知识和模 式。由此,数据抽取、数据转换和数据装载便成为了数据挖掘的重要操作步骤, 也即是数据的预处理操作。 另外,传统的数据分析方法一般都遵循验证性的模式,根据假设作m 相应的 验证操作;相反,数据挖掘则是通过对大量数据进行复杂深入的分析筛选提取出 隐含的有意义的知识,所得到的信息一般具有预先未知的特征。这一点是数据挖 掘技术最根本区别于统计分析方法的特性。也即是数据挖掘是要发现那螳不能靠 直觉发现的信息或知识,甚至足违背一般常理或直觉的信息或知识,挖掘出的信 息越是出乎意料,就有可能越具有较高的价值。 2 1 3 数据挖掘与o l a p 数据挖掘和o l a p 技术主要都是对大量的数据进行有针对性和目的性的分 析,o l a p 技术的理论基础主要由多维数据库和数据立方体理论的支持1 2 。o l a p 在实际应用中主要是作为一种验证性的工具,用于响应非专业数据处理人员的复 杂查洵要求,要求对用户的需求有更深刻的了解;而数据挖掘是一种探索性的具 有发现新知能力的技术,它利用复杂的数据模型和数据分析算法对人量的数据进 行更深层次上的挖掘和探索,能够在人工指导下自动地发现在数据巾隐含的、未 知的、有趣的知识和模式,是现有人工智能、统计学等成熟技术在一定的数据领 域的综合应用。因此,从数据分析的深度和角度来看,o l a p 位于数据分析的 较浅的层次,而数据挖掘则处于数据分析的较深层次。具体来说o l a p 技术和 7 江苏大学硕士学位论文 数据挖掘技术在分析数据时的差异主要体现在以下四个方面【3 0 】: ( 1 ) 数据模型o l a p 采用的数据模型是多维数据模型,多维数据的每个维代 表的是某一个满足不同条件的属性值,它是现有的数据库管理系统的检索、查询、 报表功能和多维分析的综合,能支持数据的旋转、上钻、下钻、切片以及切块等 操作;而数据挖掘目前还不存在一个统一的数据模型。 ( 2 ) 运行方式o l a p 系统按用户提出的问题域假设,从上至下地提取出关于 给定问题或假设的详细信息,并以用户可理解的形式旱现给用户。而数据挖掘的 i h 动化程度较高,挖掘的结果更多的依赖于数据挖掘算法,它能自动地从大量数 据中发现隐藏的数据模式并经用户测试后形成有用的知识。 ( 3 ) 分析数据的层次o l a p 技术对数据的分析处于一个较浅的层次,它没有 数据挖掘技术对数据分析的深刻。实际上o l a p 对数据执行的是一种静态分析, 它是通过对数据预先聚集和存储来保证较好的查询响应性能;而数据挖掘则是一 种动态数据分析技术,它不停留在对数据的解释阶段,而是从数据中获得创新性 的术知的知识和模式,是对数据的分析和理解具有深入性和探索性。 ( 4 ) 目标定义o l a p 技术和数据挖掘技术对数据分析层次的不同决定了它 们所能解决的问题不同。o l a p 技术通常用来解决对数据的多角度,多侧面的查 询,从基于对数据的分析提取出存在其中的数据事实;数据挖掘技术则,h j 来发现 较高抽象层次的知识。o l a p 一般服务的目标埘缘足初中级决策人员,辅助他们 进行有效的决策分析;而数据挖掘面对的则是中高级决策人员,从战略的角度辅 助他们进行分析决策。按照e f c o d d 的数据分析模型来区分,应该说o l a p 实 现了解释模型和思考模型,而d m 则实现了公式模型。 尽管o l a p 技术和数据挖掘技术存在以上诸方面的不同,但总体来说它们 均属于数据分析技术的框架范围之内,在针对数据的分析过程中可以相互结合, 互为补充。作为一种浅层次上的知识发现或者况是一种广义数据挖掘方法, o l a p 技术与数据挖掘技术在满足决策支持的需要e - j 。以起到相互协作之作用。 2 2 数据挖掘主要功能 一般说来,数据挖掘的功能任务主要分为描述型数据挖掘和预测型数据挖掘 两类,并且这两类数据挖掘功能类别之间还存在着一定程度卜的关联关系。描述 型数据挖掘任务主要是用于了解系统实际数据存在的特陆和特征,其目的是为后 续的预测任务做准备。预测型数据挖掘在当前数据上进行推断,以进行预测。通 过预测型数据挖掘我们能够得到最终需要的结果,为决策者提供直接的依据。具 江苏大学硕士学位论文 体功能可以表现在以下方面。 2 2 1 关联分析 关联分析从字面意义上理解就是发现事物之间有意义的联系和规则。如果事 物若干属性中的两项或多项之间存在关联,那么其中一项的属性值就可以依据其 他的属性值进行预测。 关联规则展示了属性与值频繁地在给定数据集中一起出现的条件,反映一个 事件和其他事件之问的依赖或关联。关联规则的挖掘首先由a g r a w a l 等人提出的 a p f i o f i 算法,该算法发现关联规则分为两步,第一步是迭代识别所有的频繁大 项目集,要求频繁大项目集的支持度不低于用户设定的最小支持度;第二步足从 频繁大项目集中找出置信度不低于用户设定的最小置信度的关联规则,构成规则 集。发现所有的频繁大项目集是关联规则算法的核心,也是计算量最大的部分。 在每一个关联规则中都会包含每一个关联的关系程度,通过此关联程度町以知道 关联规则之间的关系程度大小。 2 2 2 序列模式 序列模式挖掘最早是由a g r a w a l r 等人【3 l 】提出来的,它的最初动机通过在 带有交易时n i j 属性的交易数据库中发现频繁项日序列以发现某一时间段内客户 的购买活动规律。序列模式定义为给定一个由不同序列组成的集合,其中,每个 序列由不同的元素按顺序有序排列,每个元素由不同项目组成,同时给定一个用 户指定的最小支持度阂值。给定序列数据库和最小支持度闽值,序列模式挖掘就 是找出所有的频繁子序列,即该子序列在序列集中的出现频率不低于用户指定的 最小支持度阂值。 序列模式挖掘算法基本可以分为两大类,第一类是基于a p f i o f i 特性的、逐 层的发现方法,包括a p r i o r i a l l 、g s p 算法1 3 2 1 等,s p a m 则兼具了模式扩展式生长 方式【3 3 1 。而s p a d e 算法基于垂直数据方式,并且使用一种格搜索技术和简币时 序连接操作米发现所有的序列模式【3 4 1 。另一类方法是由h a n 等人提出的称为基 于序列模式增长的方法,包括f r e e s p a n 、p r e f i x s p a n 算法等1 3 5 j 。这类方法采取了 一种分而治之的思想,跟基于a p f i o f i 特性方法的最大区别就是过程中f i 生成候 选序列。 9 江苏大学硕士学位论文 2 2 3 聚类分析 聚类是指将目标数据对象的集合分组成为相对同源的或类似的组的过程。这 一过程要达到在同一类中使得数据对象的相似性最大,而不同的类之间的相似性 最小的目标。聚类处理的数据与分类相似,但与分类不同的是其要处理的数据没 有类的标识,是一种无监督的学习过程,可以根据样本问的相似度自动地进行分 类。 聚类分析是数据挖掘中的一个很活跃的研究领域,提出了许多聚类算法【3 引。 这些算法可以被分为划分方法、层次方法、基于密度方法、基于网格方法和基于 模型方法。基于划分的方法如k m e a n s 、p a m 、c l a r a e m 以及c l a r a n s ;基 于层次的方法如b i r c h 、r o c k 和c h a m e l e o n ;基于密度的方法如d b s c a n 、 o p t i c s 和d e n c l u e ;基于网格的方法如s t i n g 和w a v e c l u s t e r 等。 聚类分析应用包括市场研究、客户分类、销售数据分类和模式识别等。在电 子商务中网站中,通过分组聚类出具有相似浏览行为的客户,更好的帮助电子商 务的用户了解客户,以提供个性化的服务。 2 2 4 分类预测 分类是数据挖掘中的一个重要的目标和任务。分类的目的是产生一个分类模 型,亦称作分类器,该模型能把数据集中的数据项映射到给定类别中。 分类过程一般经历模型训练、模型评估和分类三个阶段。在模型训练阶段确 定能描述并区分数据类或概念模型( 或函数) 的输入数据或称训练集。训练集是 由一条条的记录( r e c o r d ) 组成的,每一条记录是由若干个属性项加上一个特定的 类标签组成的一个特征向黾。该类标签足系统的输入,通常是以往的一些经验数 据。其次,通过在训练集中的数据表现出来的特降,为每一个类找到一种准确的 描述或者模型。这种描述常常用谓词表示,由此生成的类描述用来对未来的测试 数据进行分类。对于模型评估阶段它是用来评判分类模型的好坏。可以使用测试 集( 测试集中的每个元素的类别标志也是已知的) 评估模型。主要涉及到的评估指 标有模型的准确率、计算复杂度、强壮性、可伸缩性、模型描述的简洁度等。最 后,在分类阶段运用分类模型对未知其类别属性值的数据进行分类处理。 在上述三个阶段中,第一阶段是重点,办是难点,分类的主要工作将集中在 分类器的构造上。目前常用的分类器构造方法包括【37 】:基于决策树模型的分类 器构造方法,如i d 3 、c 4 5 、i b l e 、s l i o 、s p r i n t 等、基于统计模型的分类器 1 0 江苏大学硕士学位论文 构造方法如贝叶斯方法、基于神经网络模型的分类构造方法、k 最近邻分类构造 方法、基于案例的推理方法、基于遗传算法的分类器构造方法、基于粗糙集的分 类器构造方法等。 2 3 数据挖掘过程模型及系统构成 2 3 1 过程模型 从整体上来看,一个典型的数据挖掘过程应包括包括数据预处理,数据挖掘 和结果分析三大步骤【3 8 】,并且在每一个步骤里包含有很多子任务完成每一步的 具体工作。其过程由图l 描述。该过程模型对应于数据挖掘的三大阶段,并且展 现了在每一个阶段所要完成的不同工作以及用到的不同方法,清楚的展示了一个 完整的知识发现和知识表达的过程。 图2 1 数据挖掘过程模型 数据挖掘过程模型建模方面,比较有名的有s p s s 的5 a 模型和c r i s p d m 模型1 3 9 1 。其中后者是由欧洲一些数据挖掘系统开发厂商和数掘挖掘系统应用组 织协会联合制订的,它几乎完整的反映了数据挖掘的整个环境,在数据挖掘过程 模型中具有广泛的代表性,并在行业中得到了广泛的采用,已经成为了事实上的 标准模型。下面简要讨论一下c r i s p d m 过程模型的相关内容。 c r i s p d m 过程模型以业务分析为起点,以挖掘知识的应用为目标,采用了 分层方法将一个完整的数据挖掘周期分成六个不同的阶段,并且在每个阶段对应 着有不同的仟务类型。这六个阶段分别足:业务理解( b u s i n e s su n d e r s t a n d i n g ) ,数 据理解( d a t au n d e r s t a n d i n g ) ,数据准备( d a t ap r e p a r a t i o n ) ,模型构建( m o d e l i n g ) ,模 型评估( e v a l u a t i o n ) ,结果部署( d e p l o y m e n t ) 。其中,在业务理解阶段,集中于从 江苏大学硕士学位论文 业务的角度理解项日的目标和需求,将这种业务知识转换成对应的数据挖掘问题 定义,并为达到目标建立初步的计划。对于数据理解,其主要工作是完成原始数 据的收集,熟悉数据特点,明确要进行预测的目标属性,并对数据质量进行初步 的检验。数据准备这一阶段要完成数据清洗,数据集成,数据转换和数据规约等 工作,最终将数据处理成能够满足数据挖掘模型需要的数据集形式。有时这一过 程需要迭代进行多次,其工作量要占到整个数据挖掘过程的7 0 左右工作量,数 据准备的数据质量直接关系到数据挖掘的成败。接下来是建立模型阶段,运用不 同的建模技术对要处理的数据挖掘问题进行建模,并将模型的参数进行调整优化 到比较合适的数值。在模型评,f l l i 阶段,对前期建模工作进行再分析以确定预先的 关键目标是否达到,并由此确立下一步的工作。最后是数据挖掘结果的发布,这 一阶段一般要产生最终的报告,对整个工作过程进行检查回顾,而且挖掘结果也 可以进行保存。 通过数据挖掘过程模型可以为我们开发、应用数据挖掘系统提供技术路线上 的指引。但是对实际的挖掘项目时,每个阶段的执行和任务的输出可以根据实际 的问题进行调整。通过对实际问题的关键点进行分析综合之后,再进行模型任务 到具体任务和挖掘实例的映射。 2 3 2 系统构成 通过数据挖掘过程模型的定义和描述,可以将数据挖掘系统的完整构成要件 分为以下几个部分构成,分别是数据的选择、数据预处理与数据转换、数据挖掘 算法执行、数据挖掘结果的解释和评估,最后足知识表达。数据挖掘完整的构成 要件如图2 2 所示。基于数据挖掘模型定义和数据挖掘基本模块要求,本文所讨 论的数据挖掘平台j 下是在这一定义和要求下进行的,这对保证平台的设计架构的 完备性和完整性以及系统开发进度和质量都具有积极的影响。 下面分别就每一组成部分进行简单的讨论。 在数据选择阶段,主要是根据不同的业务需求选择相应的数据集,以满足具 体_ p 务的f 1 标和需求,将这种对业务知识的理解和抽象定义转换成对应的数据挖 掘事物需求,并为达到目标制定相应的计划。在数据收集和预处理阶段,来自于 数据库、数据仓库、电子表格或其他类型的信息要进行必要的整合集成,根据不 同的主题构建相应的数据仓库,并通过耷h 应的数据预处理方法在数据上进行数据 清理为数据挖掘的执行准备干净、完备和一致的数据集。 江苏犬学硕士学位论丈 ”。7 丽 回国国 uf r “ j 1 i 。 幽2 2 数据挖掘系统构成璎什 进入数据挖掘执行引擎这是数据挖捌系统摹本的、核心的l ! ;l 【分。它f _ 1 组 相应的功能模块组成,分别用丁完成不刊的目标如特化、关联分析、分类、聚类 分析以及序列模式发现和孤立点分析等。通过数据挖捌引擎的执行,得到了一系 列的挖捌鲇果,电可以称为结果模。这些结粜或辑模j l _ l = 有叫候不利于人的 解, 造成了知识利丌j 的不方便,向儿这些已得到的模式不定就足最终的知泌,它柯 z u 能足j 余的,无效的,聃生是锚暝的,所以订必蠼通过模弘参数的稠螺,或者 足重新选择模型束加以修if - , n 优化,将挖掘结粜进1 j 比较,通过模式评价模块的 兆同参i 使挖掘过程遗代进行不断精化,最终帮助片| j 、使用高敞的挖掘模型得 到最佳的挖掘模式。常用的方法足将模式评估模块0 挖掘模块集成存起,将模 止评仙深入到数槲挖捌过样之巾;或择足使j j 兴趣度度量,斤与数扼挖掘模块交 五:,将关注点放在订趣的模式l i 。 在最后阶段知口婊达,小模块竹:用户干【| 数据挖捌系统之间通信,允许用,、和 系统进 r 史直脱的交叱返需婴一个比较直观的方式将结果j 行解释井展现出 柬,以帮助片jj

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论