(计算机应用技术专业论文)组件式数据挖掘系统的研究与实现.pdf_第1页
(计算机应用技术专业论文)组件式数据挖掘系统的研究与实现.pdf_第2页
(计算机应用技术专业论文)组件式数据挖掘系统的研究与实现.pdf_第3页
(计算机应用技术专业论文)组件式数据挖掘系统的研究与实现.pdf_第4页
(计算机应用技术专业论文)组件式数据挖掘系统的研究与实现.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(计算机应用技术专业论文)组件式数据挖掘系统的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔滨 二程大学硕士学位论文 摘要 基于组件的开发提供了一种灵活、高效的开发应用程序方法。在本文中, 作者采用了组件化的思想,设计和实现了一个分布式数据挖掘系统中完成局 部挖掘的基挖掘服务器。并在此基础上进一步提出了分布式数据挖掘系统的 架构。只要遵循我们的数据模型接口和挖掘模型接口,新的功能、算法可以 很容易地集成到系统中来。在系统开发中应用组件技术司以有效地减少软件 开发的工作量,使系统具有良好的开放性和可维护性。 本文首先简单介绍了数据挖掘的概念和功能,并对数据挖掘系统和相关 技术的发展进行了分析与讨论。分析了现阶段主要几个系统的优缺点,明确 了系统的改进方向。介绍并分析了组件的实现技术,然后从系统的体系结构、 功能设计、模块划分、实现技术等方面进行了详细的分析和讨论。最后在此 基础上提出了分布式数据挖掘系统的架构。 为了便于系统的扩展,在设计中考虑到了j 2 e e 接口。系统包括数据服务 器、数据挖掘任务服务器、组件库管理器、元数据库管理器,各服务器各司 其职。利用了r a t i o n a l 公司的r o s e 工具进行系统的u m l 面向对象可视化建模, 开发过程遵循r u p 。 关键词:数据挖掘;组件;挖掘任务;分布式 ! 窒j 鎏:! :堡釜主譬主主堡笙苎 a b s t r a c t am e t h o df o rb u i l d i n ga p p l i c a t i o n st h a ta r ef l e x i b l ea n da b l et oa c c o m m o d a t e t h ee v e r c h a n g i n gd e m a n d so fu s e r si nac o s t e f f i c i e n t a n dt i m e l ym a n n e ri s p r o v i d e db yc o m p o n e n tb a s e dd e v e l o p m e n t i nt h i st h e s i s ,t h ed e s i g no fal o c a l d a t am i n i n gp l a t f o r mu s i n gc o m p o n e n t - b a s e da p p r o a c hi sp r e s e n t e d b a s e do ni t , t h ea r c h i t e c t u r eo fad i s t r i b u t e dd a t am i n i n gs y s t e mi sg i v e n c o m p l y i n gw i t ho u r d a t ao b j e c ti n t e r f a c ea n dm i n i n gm o d e li n t e r f a c e ,n e wm i n i n ga l g o r i t h m sc a l lb e e a s i l yi n t e g r a t e dt oo u rs y s t e m :u s i n gc o m p o n e n t o r i e n t e dt e c h n o l o g yc a nr e d u c e w o r k l o a de f f i c i e n t l y , a l s og i v eo p e n n e s sa n de a s y m a i n t e n a n c et ot h es y s t e m i nt h eb e g i n n i n g ,a l li n t r o d u c t i o no ft h ec o n c e p t i o na n dm e t h o do fd a t a m i n i n gi sg i v e ni nt h et h e s i s a n dt h e nt h ed e v e l o p m e n to fd a t a m i n i n gs y s t e m s o f t w a r ea n ds o m ei m p o r t a n tt e c h n o l o g i e st h a ta r eb o u n du pw i t hd a t a r n i n i n g s y s t e ma r eb r i e f l yi n t r o d u c e da n da n a l y z e d t h ec h a r a c t e r i s t i c so fs e v e r a lm o d e m d a t am i n i n gs y s t e m sa r ea n a l y z e dt om a k ec l e a rt h ei m p r o v e m e n td i r e c t i o no ft h e s y s t e m a f t e rt h a tc o m p o n e n ti sa n a l y z e d t h ea u t h o rp u te m p h a s i so nt h e a r c h i t e c t u r ed e s i g n ,f u n c t i o nd e s i g n ,c o m p o n e n td e s i g na n dt h ei m p l e m e n t a t i o n t e c h n o l o g i e so ft h es y s t e m i nt h ee n dt h ea r c h i t e c t u r eo ft h ed i s t r i b u t e dd a t a m i n i n gs y s t e mi sp r e s e n t e d j 2 e ei n t e r f a c ei sc o n s i d e r e dd u r i n gt h es y s t e m d e s i g n t h es y s t e mi s m a d e u po ff o u rs e r v e r :d a t a s e r v e r 、d a t a m i n i n g s e r v e r 、c o m p o n e n t s e r v e ra n d m e t a d a t a s e r v e r r o s et o o li su s e dt om a k et h eo b j e c t o r i e n t e dv i s i b l em o d e l i n g o fu m l i t sd e v e l o p i n gp r o c e d u r ef o l l o w sr u e k e y w o r d s :d a t am i n i n g ,c o m p o n e n t ,m i n i n gt a s k ,d i s t r i b u t e 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导 下,由作者本人独立完成的。有关观点、方法、数据和文 献的引用已在文中指出,并与参考文献相对应。除文中已 注明引用的内容外,本论文不包含任何其他个人或集体已 经公开发表的作品成果。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式标明。本人完全意识到 本声明的法律结果由本人承担。 作者( 签字) :型 日期:跏6 年弓月 1 1 课题背景 第1 章绪论 随着网络技术发展和计算机使用同益广泛,电子化数据越来越多,人们 正面临“数据丰富雨知识贫乏”的问题。上个世纪八十年代末兴起的数据挖 掘( d a t am i n i n g ) 技术或称数据库中知识发现( k n o w l e d g ed i s c o v e r yi n d a t a b a s e ,k d d ) 技术为解决此问题开辟了一条道路。数据挖掘是在大量数 据中发现潜在的、有价值的模式和数据间关系( 知识) 的过程。它是当今计 算机领域研究热点之一。 历经十几年,数据挖掘的研究有了很大进展。已由传统集中式数据挖掘 转向分布式数据挖掘的研究。数据挖掘系统也从第一、二代转向第三、四代 的研制。在数据挖掘研究过程中,关于技术发展综述很多,但是关于数据挖 掘系统发展的研究相对较少。 基于组件的分布式数据挖掘系统的研究与实现课题是哈尔滨工程大学校 基金项目,旨在对分布式数据挖掘及其系统展开研究。本论文在对分布式数 据挖掘工具的基数据挖掘服务器的研究实现基础上提出了分布式数据挖掘工 具原型。 1 2 课题的目的、意义 随着各学科的飞速发展,特别是网络技术广泛的应用,传统的集中式数 据挖掘已经不能满足需要。集中式数据挖掘存在以下问题: 1 现有的数据挖掘算法和模型主要采用集中式,即使在数据分布式存储 情况下,也要求把这些数据重新收集到一个集中的地方( 如数据仓库) 。这就 要求有高速的数据通信网络。虽然网络带宽在增加,但还是比不上数据增长 的速度,若通过有限的网络带宽来移动大容量的数据,会导致响应时间变长、 数据的私有性和安全性被破坏。 l 哈尔滨t 程大学硕士学位论文 2 现有的集中式数据挖掘算法不适合分析应用大容量、分布式的数据。 3 由于数据的私有性和保密性、系统的不兼容性等方面的原因,把所有 的数据都综合到一个集中式平台中也是不现实,具有一定的难度。 这样设计出一套分布式数据挖掘工具就显得尤为重要。本课题主要是针 对数据分布式存储并且不可以用或者不适合用集中式数据挖掘的情况,对分 布式数据挖掘系统的体系结构进行研究,力争形成一套完整的企业分布式数 据挖掘系统的设计方案,并在此基础上,实现基于组件技术的分布式数掘挖 掘原型系统。 本课题的研究意义主要在于以下几个方面: 1 针对数据分布式存储情况下,对分布式数据挖掘系统进行探索,弥补 传统集中式数据挖掘的缺陷和不足。 2 现有的一些数据挖掘工具面向特定的商业应用,限制了工具的应用范 围,而在本课题中研究的系统注重了通用性。 3 应用组件技术,有效地减少了软件开发所需要的费用和时间,提高系 统的性能、安全性和可维护性和可扩充性。 4 系统的设计过程中采用了先进的持久性对象技术与可视化技术,解决 了一些数据挖掘工具中的单步骤、数据驱动的缺点,方便了系统的再次数据 挖掘,提高了系统的效率、灵活性,方便了用户的操作。 5 考虑到普通用户与面向高级用户的操作相分离,方便了普通用户的操 作,也不妨碍高级用户进行深度的数据挖掘。 6 分布式挖掘系统架构中采用了c o r b a 技术与x m l 技术,真正实现 了跨越平台性。 7 为数据挖掘研究提供了一个实验性的平台。 1 3 本文研究的内容 本课题的研究分为两个阶段:第一个阶段是针对分布式数据挖掘系统中 完成局部挖掘的基挖掘服务器系统进行研究,第二个阶段在第一阶段的基础 上提出了分布式数据挖掘系统原型。本文所做的具体的工作有以下几点: 1 阐述数据挖掘和数据挖掘系统基本知识,分析了研究历史和现状。 2 哈尔滨i 群大学硕士学位论文 2 分析了现有主要数据挖掘系统优缺点,明确了系统改进的方向。 3 阐述了现有的组件开发规范,明确组件应用意义。 4 针对目前数据挖掘系统的不足明确了基于组件的数据挖掘工具 ( d m t b c ) 要实现的功能特性。据此得到系统的数掘挖掘模型与体系结构。 5 分析了d m t b c 各个子服务器并给出了它们的解决方案。其中明确了 数据服务器的职责,给出了数据源对象的形式化定义。提出数据挖掘任务服 务器的结构,给出任务模型的形式化定义、编辑任务模型的流程与任务模型 的规划、解析与执行方案。明确了组件库管理器的职责并着重分析了添加组 件的流程。给出了元数据管理器中元数据的内容,提出了面向对象的层次型 元数据结构。 6 在对系统各个服务器分析的基础上完成了对它们的设计与实现工作。 完成对各个子服务器的框架设计,并给出了设计类图,实现了部分重要的算 法。最后给出了一个应用的实例。 7 提出了分布式数据挖掘系统的设计理念和设计架构,为下一步工作奠 定基础。 1 4 本文结构和组织 全文共分五章。具体的结构如下: 第1 章绪论 该章介绍本文的研究背景、目的、意义、主要内容以及结构组织。 第2 章数据挖掘及组件技术 该章主要介绍了三个方面内容,首先简单的介绍了数据挖掘的定义、功 能模式、挖掘过程等基本知识,并阐述了数据挖掘研究的历史和现状。其次 介绍了数据挖掘系统的发展,典型数据挖掘系统的体系结构,并对现有的数 据挖掘系统进行了简要介绍和优缺点分析,明确了系统改进方向。然后阐述 了组件技术特点,介绍三种当前流行的组件规范:c o r b a 、e j b 、c o m ,并 说明了组件在构造数据挖掘系统中的意义。最后对该章的内容做了小结。 第3 章d m t b c 数据挖掘系统的总体架构 该章主要分为两大部分,第一部分根据第二章提出现有系统的缺点,明 3 哈尔滨工程火学硕士学位论文 确了d m t b c 改进方向。首先给出了d m t b c 的数据挖掘模型,分析了系统 所要实现的功能特性,据此给出了系统的体系结构。d m t b c 主要包括四个 服务器:数据服务器、数据挖掘任务服务器、组件库管理器、元数据库管理 器。第二部分依次分析了d m t b c 系统的各个服务器的功能、特点,给出了 它们的设计与实现方案。在该章的最后对本章的内容进行了小结。 第4 章d m t b c 数据挖掘系统的设计实现 该章根据第三章对d m t b c 的分析,给出了各个服务器的设计框架和它 们f 的设计类图,以及主要算法的实现。与上一章对应,首先介绍数据服务器 中数据源对象的设计,然后给出了数据挖掘任务服务器中的任务模型的设计 类图,并给出了任务规划算法。而后对组件管理器设计类进行了介绍,简要 说明了元数据管理器。为了更好的说明系统的设计,给出了一个调用新增组 件来执行任务模型的具体实例,并给出了系统的开发环境。最后对该章的内 容做了小结。 第5 章分布式数据挖掘系统原型 该章在d m t b c 系统的设计实现的基础上提出了分布式数据挖掘系统的 原型。介绍了分布式数据挖掘系统的体系结构与设计思想,为下一步分布式 数据挖掘系统的开发奠定了基础。最后对该章的内容做了小结。 哈尔滨“i 程大学硕士学位论文 第2 章数据挖掘及组件技术 本章首先阐述了数据挖掘技术和数据挖掘系统中的些基本理论和相关 的研究。然后对现有数据挖掘系统进行了简要介绍和优缺点分析,明确了系 统改进和发展的方向。最后介绍了组件技术以及在数据挖掘系统中应用组件 的意义。 2 1 数据挖掘技术概述 2 。1 1 数据挖掘技术研究的历史和现状 千百年来,人类的思想家、科学家们一直在从数据中发现知识,现在又 称为数据挖掘。他们观测自然和社会现象、积累数据、分析数掘,总结出定 律、公式,把天体、动物、植物分类并预测趋势。他们在方法论方面的著作 早已涉及到如今数据挖掘的各个领域,如关联规则、总结性知识、分类、聚 类规则、预测以及偏差分析知识等等。 1 9 8 9 年8 月,在美国底特律召开的第1 1 届国际人工智能联合会议的专 题讨论会上首次出现k d d 这个术语,随后在1 9 9 1 、1 9 9 3 、1 9 9 4 年都举行 了k d d 专题讨论会,集中讨论数据统计、海量数据分析算法、知识表示、 知识运用等问题。从1 9 9 5 年以来,由美国人工智能协会主办的k d d 国际研 讨会的规模已经出原来的专题讨论会发展到国际学术大会,研究重点也逐渐 从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种 学科之间的相互渗透。i e e e 的k n o w l e d g ea n dd a t ae n g i n e e r i n g 会刊率先在 1 9 9 3 年出版了k d d 技术专刊。1 9 9 9 年,亚太地区在北京召开的第三届 p a k d d 会议收到1 5 8 篇论文,空前热烈。并行计算、计算机网络和信息工 程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨 论,甚至到了脍炙人口的程度。最近,g a r t n e rg r o u p 的一次高级技术调查将 数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关 哈尔滨l 栏人学硕十学位论文 键技术”之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦点 的十大新兴技术的前两位。 国外的数据挖掘产业正迅速成长,国内也迓步由提供方案转向具体实现。 1 9 9 3 年国家自然科学基会首次支持对该领域的研究项目。l 訇内自从2 0 0 0 年 以来,对于数据挖掘的研究不断提高,人们的关注也不断提升,许多专家的 看法使人们螺信,数据挖掘是信息化最高应用点的价值所在。2 0 0 2 年,在创 智c r m ( 客户关系管理) 事业部任副总裁的鲁百年博士曾多次表示,分析型 才是c r m 最终目标,数据挖掘是信息化的更高层次。目前,国内的许多科 研单位和高等院校竞相开展知识发现的基础理论及其应用研究,这些单位包 括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心 等。其中,北京系统工程研究所对模糊方法在知识发现中的应用进行了较深 入的研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复 旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开 展了对关联规则开采算法的优化和改造;南京大学、四川联合大学和上海交 通大学等单位探讨、研究了非结构化数据的知识发现以及w e b 数据挖掘。 2 。1 2 数据挖掘基本概念 2 12 1 数据挖掘的定义 日前对数据挖掘n “还没有一个统一的定义,但一般认为,它的基本含义 指的是,综合利用统计学方法、模式识别技术、人工智能方法、人工神经网 络技术以及相关信息技术等,对各行各业大量的生产数据、管理数据和经营 数据等进行组织、处理、分析、综合和解释,以期从这些数据中挖掘出揭示 客观规律、反映内在联系和预测发展趋势的知识,使企业在激烈的市场竞争 中,能够“早想到,先发现,快半拍,常创新”,从丽永远立于不败之地。 一种比较公认的定义是wj f r a w l e y , gp i a t e t s k y s h a p i r o 等人提出的 d m ( 数据挖掘) 的定义u :d m 就是从大型数据库的数据中,提取人们感兴 趣的知识,即正确的、非平凡的、未知的、有潜在应用价值的并最终可为用 户理解的模式。 哈尔滨j 程人学硕士! 学位论文 这种定义把数据挖掘的对象定义为数据库。而更广义的说法是:数据挖掘 意味着在一些事实或观察数掘的集合中寻找模式的决策支持过程。数据挖掘 的对象不仅是数据库,也可以是文件系统,或其它任何组织在一起的数据集 合,例如w w w 信息资源,最新的更有意义的对象是数据仓库。 简而言之,数据挖掘可以理解为是从大量的、不完全的、有噪声的、模 糊的和随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但 又是潜在有用的信息和知识的过程。而从商业角度来看,其又可以描述为按 企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知 的或验证已知的规律性,并进一步将其模型化的先进有效的方法。 数据挖掘可以达到提高市场决策能力,检测异常模式,在过去的经验基 础上预言未来趋势等的目的。在最近几年里己被数据库界所广泛研究,并在 多个实际领域得到应用。 21 2 2 挖掘知识的类型 在传统的决策支持系统中,知识库中的知识和规则( 挖掘模式) 是由专 家或程序人员建立的,是由外部输入的。而数据挖掘的任务是发现大量数据 中尚未被发现的知识,是从系统内部自动获取知识的过程。对于那些决策者 明确了解的信息,可以用查询、联机分析处理或其它工具直接获取,比如“列 出各子公司在上个月的销售情况”。而另外一些隐藏在大量数据中的关系、 趋势,即使是管理这些数据的专家也是没有能力发现的,这些信息对于决策 可能又是至关重要的,现在就可以利用数据挖掘来对付。 根据数据挖掘所能发现的知识类型“”可以将数据挖掘分成两类:预测性 ( p r e d i c a t i o n ) 和描述性( d e s c r i p t i o n ) 。预测性数据挖掘是在当前数据上进 行推断,以进行对未知数据的预测。描述性数据挖掘用于发现数据的一般特 性,能对数据进行一般性描述。 一般数据挖掘发现的知识通常是用以下形式表示: 1 总结规则:从用户指定的数据库中挖掘出( 以不同的角度或在不同的 层次上的) 平均最小最大值、总和、百分比等等。与传统统计技术不同点 在于,d m 通常基于数据立方挖掘总结知识,相应的可视化工具有如现代医疗 7 哈尔滨j 程人学硕士学位论文 透视扫描手段,在屏幕上为决策者展现出被考察对象在选定维上的立体解剖 形象,当从宏观上发现某一局部较特殊时,可聚焦于该局部,上查、下访、 切片、切块、旋转观察,从不同角度和不同的概念层次上观察总结性知识。 2 关联规则:数据关联是数据库中存在的一类重要的司被发现的知识。 若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简 单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联 网。有时并不知道数据库中数据的关联函数,即使知遭乜是不确定的,因此 关联分析生成的规则带有可信度。关联规则形如“a = b ,支持度= s ,置 信度= c ”,其中s 和c 是用户指定的支持度和置信度的阂值。这种关联规则 挖掘可以在不同的抽象概念层次上进行。 3 分类规则:分类是这样的过程,通过对己知类别的个体进行归纳,找 出描述并区分数据类或概念的模型( 或函数) ,即分类模式。分类模型找出各 类的特征属性,以便能够使用模型预测类标记未知的对象类。分类分为分类 和预测两种数据分析形式,可以用于提取描述重要数据类的模型或预测未来 的数据趋势。分类和预测的不同之处在于分类是预测离散型分类标号,而预 测建立连续值函数模型,用于预测连续型的未知值。 4 聚类规则:它又称为无指导的分类,其宗旨在于实事求是地按被处理 对象的特征分类,有相同特征的对象被归为一类。聚类增强了人们对客观现 实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统模式 识别方法和数学分类学。与分类不同,聚类分析数据对象本身。它既不知道 具体的数据的分类标准,也不知道会有些什么类。一般情况下,数据中不提 供类标记,而聚类可以用于产生这种类标记。数据可以看成是对象,对象根 据最大化类内的相似性、最小化类间的相似性的原则按照给定的聚类参数进 行分解、合并。最后形成对象的聚类,使得在一个簇中的对象具有很高的相 似性,而与其它簇中的对象不相似。得到的结果由用户进行鉴别,如果不满 足目标,需要改动聚类参数,重新聚。 5 预测分析和趋势分析:当分类的工作偏向于插入漏掉的数据、预测数 据分类或发展的趋势时,这时的工作就叫作预测分析。其指导思想是“历史+ 现在一 未来”,对已有的历史性数据( 或称时间序列) 进行分析,发现事物 的周期性质( 包括拟周期性,部分周期,片段周期) 、分布特性,以预测事物 8 哈尔滨i 群人学硕士学位论文 未来的形态或发展趋势。本质上,预测分析可看成是一种特殊的、对历史性 数据的分类分析。趋势分析又叫时间序列分析,它是从相当长的时间内的发 展趋势中发现规律和趋势。 6 偏差分析:又叫比较分析,它将找出一系列判别式的规则,以区别用 户设定的两个不同类。 这些知识可以直接提供给决策者,用以辅助决策过程,或者提供给领域 专家,修正专家已有的知识体系:也可以作为新的知识转存到应用系统的知 识存储机构中,比如专家系统等。 2 1 3 数据挖掘过程 一般情况下,可以将数据挖掘的整个过程1 吩为三个阶段:数据的准备, 数据的挖掘,数据挖掘的结果表达和解释。并且在整个挖掘过程中,离不开 用户的参与,整个过程是个反复精炼的过程。 数 图2 1 数据挖掘的过程 1 数掘的准备 这个阶段又可进一步分成三个子步骤:数据集成、数据选择、数据预处 9 喻尔滨一l 。:程人学硕士学位论文 理。数据集成将多文件或多数据库运行环境中的数据进行合并处理,解决语 义模糊性,处理数据中的遗漏和清洗脏数据等。数据选择的目的是辨别出需 要分析的数据集合,缩小处理范围,提高数据挖掘的质量。数据预处理是为 了克服目前数据挖掘工具的局限性,检查数据的完整性和一致性,对噪音数 据进行统计处理,丢失数据用统计方法补充,并且将数据转化为适合特定算 法的形式。这一阶段的工作花费的时间和精力较大,可能占到整个数据挖掘 过程的6 0 左右。 2 数据的挖掘 进行数据挖掘前决策者要决定获得知识的类型:分类规则、关联规则、 聚类规则、总结规则、预测分析、趋势分析或偏差分析等。根据知识类型建 立数据挖掘任务:选择挖掘功能、挖掘算法,设置相应参数信息,设定结果 表达方式等。执行挖掘任务即可对准备好的数据进行挖掘,得到挖掘模式。 3 结果表达和解释 根据最终用户的决策目的,对提取的信息进行分析,把最有价值的信息 区分出来,并且通过决策支持工具提交给决策者,在对挖掘的知识进行评测 ( 进行可证明性检测、矛盾性检测、命题包含检测、冗余检测,进而决定是 否将获取的规则增加到知识库中) 后,根据结果可以决定是否重新进行某些 处理过程,在处理的任意阶段都可以返回以前的阶段进行再处理。 关于数据挖掘的预处理过程,还有其它的看法,有人更注重领域专家的 作用,在问题的理解和定义,数据的选取和清理上争取专家的同意,才进行 挖掘,结果的评价和优化也都基于专家的意见。还有的更注重用户在整个过 程中的支持。 目前,人们对整个处理过程并没有给出十分清楚的划分,而建立合适的 处理过程模型能将各个处理阶段有机地结合在一起,便于人们开发和使用系 统。数据的理解、收集和准备、建立数据挖掘模型、评价所建的模型、应用 所建的模型等一系列任务中,数据挖掘系统应该提供支持所有这些任务的必 要手段和功能,并最大限度地为用户使用这些功能提供方便的接口、选择和 操作。 譬2 :鎏:;耋盔:筌圭主生堕兰 2 2 数据挖掘系统概述 2 2 1 数据挖掘系统的发展 自数掘挖掘技术提出以来,数掘挖掘软件的发展己经经历了二十几个年 头。目前较为流行和公认的说法是( 美国) 国家数据挖掘中心的r o b e r t g r o s s m a n 提出数据挖掘系统划分为四代的观点m ”w ,如表2 1 所示。 第一代数据挖掘软件一般是针对某个特定应用,编写一个或几个算法进 行挖掘,就构成一个挖掘系统。数据的表示、提取、整理、过滤以及挖掘结 果的表示统统集成在一起。数据一般采用向量模型来表示。该类系统通常缺 乏数掘管理手段,挖掘的数据一次调入内存。其主要的缺点是当数据量比较 大时,特别是变化比较频繁时,就需要数据库或者数据仓库技术进行管理, 第一代挖掘系统显然不能满足要求。第一代数据挖掘软件的代表产品是新加 坡国立大学丌发的c b a 系统。它实现的是基于关联规则的分类算法,能从 关系数据或者交易数据中挖掘关联规则,使用关联规则进行分类和预测。 表2 1 数据挖掘系统的划分 数据挖掘分布式计算 代特征集成数据模型 算法模型 作为一个独支持一个或 第代独立的系统单个机器向量数据 立的应用者多个算法 有些系统支 雨1 数据库以 多个算法;能 数据管理系 同质、局部区持对象,文本 及够挖掘一次统包括数据 第二代域的计算机 雨】 数据仓库集不能放进内库和数据仓 群集连续媒体数 成 存的数据 库 据 和语言系统数据管理霸i i n t r a n e t e x 支持半结构 第三代多个算法 t r a n e t 网络化数据和w e b 集成语言系统 计算数据 干移动数据 数据管理、预 各种计掉设 穆动番j 各神普遍存在的 第四代多个算法言模型、移动 备的数据联计算设备计算模型 系统 第二代数据挖掘软件的特点是与数据库管理系统的集成,能够支持数据 库和数据仓库,和它们之间具有高性能的接口,可扩展性大大提高。由于使 哈尔滨工程大学硕十学位论文 用了数据库系统管理数据,所以该类系统能够挖掘大型数据集以及更加复杂 的数蓣i 集。第二代系统的另一个显著的进步是用户与系统之矧可以通过数据 挖掘语言进行交互,定义数据挖掘任务和返回数据挖掘结果。其主要缺点在 于,由于没有统一的模型描述标准,不同厂商的产品无法兼容。这一代的数 据挖掘产品比较多,象s f u 的d b m i n e r 和s a s 的s a se n t e r p r i s em i n e r 等。 第三代数据挖掘软件的特点是预言模型标记语言的广泛支持,数据挖掘 系统能够与预吉模型系统无缝集成,使得数据挖掘软件产生的模型变化能够 及时地反映到预言模型系统中。由数据挖掘软件产生地预言模型能够自动地 被操作型系统接收,从而与操作型系统中的预言模型相联合提供决策支持的 功能。这个时期的另一个特点是网络数据挖掘和异质数据挖掘。s p s s 公司的 s p s sc l e m e n t i n e 属于第三代数据挖掘系统,它能够以p m m l 格式提供与预 言模型系统的接口。 信息技术的发展使得移动计算愈发重要,将数据挖掘与移动计算结合成为当 前的一个重要的研究领域。第四代数据挖掘软件是指能够挖掘各种嵌入系统、 移动系统和普遍存在计算设备产生的各种类型的数据。 第四代数据挖掘原型或者商业系统尚未见报。p k d d 2 0 0 1 上k a r g u p t a 发 表了一篇移动环境下挖掘决策树的论文,k a r g u p t a 是u n i v e r s i t yo fm a r y l a n d b a l t i m o r ec o u n t y 正在研制的c a r e e r 数据挖掘项目的负责入。该项目研究 期限是2 0 0 1 年4 月到2 0 0 6 年4 月,目的是开发挖掘分布式和异质数据的 ( u b i q u i t o u s 设备) 的第四代数据挖掘系统。 目前,随着新的挖掘算法的研究和开发,第一代数据挖掘系统仍然会出 现,第二代系统是商业软件的主流,部分第二代系统开发商开始研制相应的 第三代数据挖掘系统,比如i b mi n t e l l i g e n ts c o r es e r v i c e 。第四代数据挖掘 原型或商业系统尚未见报导。 目前,在国外,已经具有数百个数据挖掘产品,数据挖掘有不少成功案 例。世界上比较有影响的典型数据挖掘系统有:s a s 公司的e n t e r p r i s em i n e r 、 i b m 公司的i n t e l l i g e n tm i n e r 、s g i 公司的s e t m i n e r 、s p s s 公司的c l e m e n t i n e 、 s y b a s e 公司的w a r e h o u s es t u d i o 、r u l e q u e s tr e s e a r c h 公司的s e e 5 、还有 d b m i n e r 、q u e s t 、o r a c l e 9 id a t am i n i n g 等。这些产品各有特色:i b m 、o r a c l e 等数掘挖掘工具可以直接在数据库上进行挖掘;s a s 提供了数据获取、取样、 1 2 呤尔滨:【:稚大学硕士学位论文 筛选、转换工具来构造要挖掘的数据集:s p s s 针对具体应用领域推出了多个 应用模版,以简化应用开发过程。这些工具都得到了很好的利用。 与国外企业数据挖掘工程的蓬勃发展相比,中国的数据挖掘进程显得十 分落后。国内的具有以下特点:尽管数据挖掘的优点已经引起国内许多企业 的重视,但是大部分处于科研阶段,各大学和科研机构从事数据挖掘算法的研 究,国内著作的数据挖掘方面的书较少( 翻译的有) 。有一些公司在国外产品 基础上丌发的特定的应用,例如:i b mi n t e l l i g e n tm i n e r 、s a se n t e r p r i s em i n e r 。 国内也出现了具有自主版权像复旦德门软件的d m i n e r 这样的实用工具,但 实施的企业并不多,更多的企业是在观望和考虑。 2 2 2 典型数据挖掘系统体系结构 本论文从数掘挖掘的一般过程出发,分析数据挖掘系统的组成部分,作 为本文的挖掘平台研究的基础。典型的数据挖掘系统结构n ”如图2 2 所示。 图2 2 典型的数据挖掘系统体系结构 下面对系统中各主要成分做一简单介绍: 数据库、数据仓库或者其它信息库:这是一个或者一组数据库、数据仓库、 电子表格或其它类型的信息库。可以在数据上进行数据清理和集成。 1 3 哈尔滨i :程人学硕+ 学位论文 数据库或者数据仓库服务器:根据用户的数据挖掘请求,数据库或数据仓 库服务器负责提取相关数据。 知识库:这是领域知识,用于指导搜索,或者评估结果模式的兴趣度。这 知识可能包括概念分层,用于将属性或者属性值组织成不同的抽象层。用户 确信的知识也可以包含在内。 数据挖掘引擎:这是数据挖掘系统基本的部分,由一组功能模块组成, 用于特征化、关联、分类、聚类分析以及演变和偏差分析。 模式评估模块:通常,此模块使用兴趣度度量,并与数据挖掘模块交互, 以便将搜索聚焦在有趣的模式上。它可能使用兴趣度阀值过滤发现的模式。 模式评估模块也可以与挖掘模块集成在一起,这依赖于所用的数据挖掘方法 的实现。 图形用户界丽:本模块在用户和数据挖掘系统之间通信,允许用户与系 统交互,指定数据挖掘查询和任务,提供信息、帮助搜索聚焦,根据数据挖 掘的中间结果进行搜索式数据挖掘。此外,此成分还允许用户浏览数据库和 数据仓库模式或数据结构,评估挖掘的模式,以不同的形式对模式可视化。 2 2 3 现有的数据挖掘系统分析 随着数据挖掘技术的广泛应用,数据挖掘软件工具的开发也方兴未艾。 各大软件公司纷纷瞄准这一潜在的巨大市场,投巨资研究开发数据挖掘工具。 2 2 3 1 现有的数据挖掘系统特点分析 目前,数据挖掘工具市场分为3 个部分“。一是通用数据挖掘工具包括: s a se n t e r p r i s em i n e r 、i b mi n t e l l i g e n tm i n e r 、u n i c a p r w 、s p s sc l e m e n t i n e 、 s g im i n e s e t 、o r a c l ed a r w i n 干n a n g o s sk n o w l e d g e s e k e r :二是综合数据挖掘工 具能提供管理报告、在线分析处理和在普通结构中的数据挖掘能力。如: c o g n o ss c e n a r i o 年l l b u s i n e s so b j e c t s ;三是面向特定应用的数据挖掘工具包括 k d i ( 零售) 、o p t i o n s & c h o i c e s ( 保险) 、h n c ( 欺i 乍行为探查) 和u n i c a m o d e l i ( 市场) 。 1 4 哈尔滨:l 程大学硕士学位论文 现阶段市场中存在的几个主要的数据挖掘工具m “的特点如下: 1 s a s 公司f l e n t e r p r i s em i n e r :完全阻统计理论为基础,它的演示版, 界面友好,功能强大,有完备的数据探索功能。但难以掌握,要求是高级统 计分析专业人员,结果难以理解。价格也极其昂贵,而且是租赁模式。 2 i b m 的i n t e l l i g e n t m i n e r 简单易用,是理解数据挖掘的好的开始。能处 理大数据量的挖掘,功能一般,可能仅满足要求,没有数据探索功能,与其 他软件接口差,只能用d b 2 ,难以发布,结果美观,但同样不好理解。 3 q u e s t 系统由i b ma l m a d e n 研究中心开发,能完成多种挖掘任务,包 括关联规则、时序模式、分类规则、模式匹配等等。其特色技术有:增量挖 掘,适合大规模数据库、并行算法等。 4 m i n e s e t 是由s g i 公司和s t a n f o r d 大学联合开发的多挖掘任务系统, 包括关联规则,回归模式、聚类、分类规则,等等。其特色技术有:支持多 种数据库、直接连通w e b 、支持中文国标字符、可视化工具,包括上访、下 查,树、统计、簇等,可旋转、缩放。 5 o r a c l e 功能较弱,使用不方便,没有数据探索功能,市场份额也小。 6 s p s s 是s a s 的强有力竞争对手,也以统计理论为基础,功能强大,有 完备的数据探索功能,也较易掌握,性价比较高,有能力处理大数据量,而 且s p s s 具有方便的发布和集成功能,使得结果形式完全在系统设计人员掌握 之中。 7 d b m i n e r 是加拿大s i m o nf r a s e r 大学智能数据库研究所开发的商品化 的数据仓库与知识发现集成系统。 2 2 3 2 现有数据挖掘系统的缺点 当前市场上虽然存在各种各样的数据挖掘工具软件,但是也存在着一些 问题: 1 高级数据挖掘工具软件的价格比较昂贵,售价高达2 0 万美元。 2 通用程度比较高的数据挖掘软件往往需要较多人工干预。 3 启动化程度较高的数据挖掘软件往往局限于某一个特定的应用领域。 4 数据挖掘的一系列基本概念和基础知识还比较新,比较难,如关联规 l5 哈尔滨:【:程大学硕士学位论文 则、支持度、置信度、聚簇等,难为一般用户理解。 5 数据挖掘算法又在不断的更新中,很多的数据挖掘工具不能动态的维 护系统的算法,不具有可维护性和可扩展性。 所以,目前数据挖掘工具软件总的发展趋势是努力使数据挖掘技术进一 步适合企事业单位的特点和需要,并被它们接受和使用,使系统具有良好的 可维护性和可扩展性。组件技术可以满足后一个需求并且弥补系统的第五个 缺点。 2 3 组件技术概述 2 3 1 组件技术及组件的开发方法特点 组件技术是近二十年来兴起的,是面向对象技术进入到成熟的实用化阶 段,是面向对象方法的更高层次的发展。它是近年来发展迅速的一项软件工 程技术。所谓组件是按照预定义好的、能完成一定功能的服务和接口的规范 标准来实现,它是面向对象技术的扩展和延伸“8 。 组件化程序设计方法的思想是将复杂的应用程序设计成一些小的、功能 单一的组件模块,这些组件是被封装的、可被其他代码使用( 可复用) 的二进 制代码。组件通过接口来定义其所能提供的服务,接口则是通过一种与平台 无关的i d l ( 接口定义语言1 ) 来定义。组件的实现是二进制兼容的,不限于 某种语言。可以按照其外部二迸制的连接标准,以任何方式实现软件组件。 基于组件技术的开发方法遵循组件的规范,依照该组件的二进制标准使 用组件提供的服务,像使用机械零件组装机器一样地构建应用系统软件。在 这种开发方法中,应用程序与组件、组件与组件之间可以跨进程、跨机器、 跨语言甚至跨操作平台进行通信和互操作。与其他的开发方法相比,基于组 件技术的开发方法具有一下的优点: 1 组件的开发与语言无关。组件可以用任何种编程语言( c ,c + + ,d e l p h i , b a s i c j a v a 等) 编写,也可以被任何一种编程语言所使用。组件的开发和使用 人员不会被束缚于单一的编程语言和开发工具,能随意使用他们熟悉的或最 适合特定任务的语言和开发工具。 哈尔滨1 群人学硕+ 学位论文 2 组件运行效率高、便于使用和管理。因为组件是二进制代码,运行效 率高。组件在网络上的位置是可以被透明分配,组件和使用它的程序可以在 同一个进程中,也可以在不同的进程中或不同的机器上。 3 组件的可重用性好。一个组件可以有一个或多个接口,每个接口代表 组件的某些属性和方法。应用程序或其他组件可以设置或调用这些属性和方 法来完成特定的逻辑处理。对于组件的可重用性,起决定作用的不是组件本 身,而是组件的接口,只要组件的接口保持不变,组件可以任意升级和替换, 而应用程序则不需要做任何修改。 4 系统实施灵活方便。组件可以部署在网络的任意位置上,通常可以根 据网络的通信带宽和应用的实际需要进行部署。组件开发人员和使用组件的 应用程序开发人员都不需要考虑组件位于何处,组件的这种位置无关性为应 用程序的部署提供了很大的灵活性。 2 3 2 软件组件规范 要实现基于组件的应用软件,组件规范是基础。组件和程序之间必须要 遵循严格的规范,整个软件系统才能正常运行。目前已制定的组件实现规范 主要有m i c r o s o f t 公司的c o m ,o m g 组织推荐的c o r b a 和s u n 公司的 e j b m w 。这三种组件规范皆是针对二进制代码组件制定的,都在逻辑总线上 实现了组件对象逻辑分层和位置分布的透明性以及相关服务,为基于维件的 软件开发提供了一个对象管理的基础设施。 2 3 2 1c o r b a c o r b a ( c o m m o no b j e c tr e q u e s tb r o k e ra r c h i t e c t u r e ,通用对象请求代理 体系结构) 是由o m o ( o b j e c tm a n a g e m e n tg r o u p ,对象管理组织) 开发和维护 的一种开放的组件标准,跨越异种平台的基于对象的分布式应用体系结构参 考模型。其解决了平台的异构性问题,并为解决数据库系统的异构性提供了 基础结构。c o r b a 的核心o r b ( o b j e c tr e q u e s t b r o k e r ,对象请求代理) ,提 供了一种对对象可以透明地发出请求和接收响应的软件总线机制,使用户可 哈尔滨f 程人学硕十学位论文 以在不了解实现交互细节的情况下,建立共享资源的应用,从而能充分利用 分布的、可以互操作的对象构造可以互操作的应用系统。 c o r b a 的优点是与开发语言无关的独立性、与丌发者无关的独立性和 与操作系统无关的独立性。c o r b a 的o r b 在当前每一种主流操作系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论