(计算机应用技术专业论文)多策略数据挖掘平台msminer构建中若干问题的研究.pdf_第1页
(计算机应用技术专业论文)多策略数据挖掘平台msminer构建中若干问题的研究.pdf_第2页
(计算机应用技术专业论文)多策略数据挖掘平台msminer构建中若干问题的研究.pdf_第3页
(计算机应用技术专业论文)多策略数据挖掘平台msminer构建中若干问题的研究.pdf_第4页
(计算机应用技术专业论文)多策略数据挖掘平台msminer构建中若干问题的研究.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东科技走学硕士学位论文 摘要 摘要 本文首先叙述了数据挖掘软件的发展历史,分析每一阶段软件产品的优缺点, 并将其与m s m i n e r ( 一个由中科院计算所信息智能国家重点实验室开发的多策略数 据挖掘平台) 相比较,以此展示了m s m i n e r 的优点。接着详述了m s m i n e r 的体系 结构及主要使用的技术,然后又分模块介绍了各模块的主要功能。本文还重点研 究了如何设计和实现一个面向对象的元数据模型,讨论了这种模型的优点及元数 据是怎样在整个系统中起到核心的作用的;讨论了e t l 在数据仓库中的重要位置, 并对设计e t l 工具模块要考虑的问题做了研究。以上这些问题的研究为数据仓库 的建构提供了一个总体的思路,而建构一个易用、稳定的数据仓库正是进行联机 分析处理和数据挖掘的重要基础。最后,本文对数据挖掘的两种基本算法:a p r i o r i 算法和b p 算法的计算机实现与优化做了探讨。通过大量的实验及几个应用的实 例可以得出结论:经过计算机优化后的算法比原先的算法在大数据集的处理中有 着更高的效率和更高的准确性。 关键词:数据仓库,联机分析处理,抽取、转换与装载,元数据,关联规则 b p 算法 些翌苎查主堡圭兰竺笙圭 塑墨 a b s t r a c t t h em s m i n e rs y s t e mi sam u l d - s t r a t e g yd a 诅m m i n gp l a t f o 册t l l a td e v e l o p e db y i n t e l l 远e ms c i e n c el a b o r a t o r yo f i n s t i t u t co f c o 刀叩u t i r 培t e c h n o l o g y ,c 1 1 i n e s ea c a d e m y o fs c i e n c e s t m sp a p e rf i r s ti n 仃0 d u c e st h ed e v e l o p m e m m s t o r yo f d a t am i n 洫gs o f t 、盯e , p o i m e s o u tm e s h d n gp o i n t sa i l dn a w s o ft l l e s es o f t 、r ei ne a c hp h 雒e s t bd i s p l a y 血e s t r o n g p o i n t s o fm s m i n e r ,ia l s o c o m p a r et l l e s e s o f h 张r e 、i t hm s m i n e r a f t e r i 地r o d u c i n gt h ea r c h i 蛔m 雌o fm s m i n 豇a f l ds o m ei m p o n a n tt e c h n o l o 西e su s e di nt h i s s y s t e m ,劬c t i o n so fe a c hm o d u l ew e r ed e s c 曲e d t h e nis t i l d yh o wt ob u i l du pa i l o b j e c to r i e m e dm o d e lo fm c t a d a 诅,a n dd i s c u s st h es t r o n g p o i n t so fi t ,缸dh o wt om a k e m 如i d a c at ob eac o r eo fm s m 妇l n e x t ,t l l i sp a p e re x p l a i n sn l ci m p o n a i l c e0 fe t li n d a 船w a r e h o u s e 锄dt a l k sa b o u ts o m ek c yq u e s 廿o n st l l a tm u s tb ec o n s i d e r e dme t l m o d u l e sd e s i g n i n g a um e q u e s t i o n st h a th “eb e e nd i s c u s s e dg i v eag e r a li d e ao f b u i l d i n gu pd a t a 、愀h o t l s e ,a l l db u i i d m gu p 孤e x c e l l e n td a t aw a r e h o u s ei s 恤 i m p o r t a i l tf 0 岫d a t i o no fo n l i n e 锄l y t i c a lp r o c e s s i n g 趾dd a t am i n i n g f i n a l l y ir e a l i z e a i l do p t i m i z et v m a l g o r i t l l m s :a p r i o r ia l g o r i m ma n db a c 呻p a g a t i o na l g o r i 血m f 砌a 1 0 to fe x p 刚m e n t sa 芏l ds 0 i n ea p p l i c a t 主o no f l e 撕oa _ l g o d m n s ac o n c l u s i o nc a nb e d i 孙n :t b eo 叫m i z e d a l g o r i t l l m sh a v eb e t t e re f 五c i e n c y 趾da c c u r a c y t h a no r i g i n a lo n e s i n l a r g ed a :t as c t s k e y w o r d s :d a t aw 盯e h o 璐e ,0 1 1 l 证ea i l a l y t i c a lp r o c e s s i n g e t l ,m e t 批, a s s o c i a t i o n r u l e s ,b a c k p m p a g a t i o na l g o r i t l l m 声明 本人呈交给山东科技大学的这篇硕士学位论文,除了所列参考文献和世所公认 的文献外,全部是本人在导师指导下的研究成果。该论文尚没有呈交于其它任何 学术机关作鉴定。 研究生签名: 日 期:细。c a f f i r m a t l 0 n id e c l a r e 也a t 吐l - sd i s s e i t a t i o n ,s u b m i n e dl nf u l 矗1 1 m e n to f1 h er e q m r 锄e m sf o rt h e a w a r do fm t e ro f p o s o p h y ,i ns h 锄d o n gu n i v e r s 时o f s c i e n c ea n d 融i l n o l o g y i s w h o l l ym yo w n w o r ku n l e s sr e f c r c e do f a c k i l o w l e d g e t h ed o c u m e n th 丛n o tb e e n s u b m i t c e df o r q u a l i f i c a t i o n8 t 缸y o t l l e ra c a d e m i cm s t i t i i t e s i 驴。m :z k 易、 d a t e :弘都、0 兰查! ! 垫苎兰坚圭兰竺丝苎 墨二主竺垒 第一章绪论 1 1 什么是数据挖掘 1 1 1 数据挖掘是信息产业发展的要求 在过去的数十年中,产生和收集数据的能力已经迅速提高,我们已经被淹没在数据和信息 的汪洋大海中。存储数据的爆炸性增长业已激起对新技术和自动工具的需求,以便帮助我们将 海量数据转换成信息和知识。 大量的数据被描述为“数据丰富,但信息贫乏”。快速增长的海量数据收集、存放在大型 和大量数据库中,没有强有力的工具,理解它们已经远远超出了人的能力。结果,收集在大型 数据库中的数据变成了“数据坟墓”一一难得再访问的数据档案。这样,重要的决定常常不是 基于数据库中信息丰富的数据,而是基于决策者的直觉,因为决策者缺乏从海量数据中提取有 价值知识的工具。此外,考虑当前的专家系统技术,通常,这种系统依赖用户或领域专家人工 地将知识输入知识库。不幸的是,这一过程常常有偏差和错误,并且耗时、费用高。 数据挖掘,顾名思义就是从大量的数据中挖掘出有用的信息。 数据挖掘的目的是从大量数据中寻找有用的信息,它起先主要应用于商业活动,例如市场 管理、风险管理和欺诈管理。它应用于对数据的加工。并从已有的数据库中寻找出新的知识或 规律从大量积累的数据中挖掘出我们还未掌握的知识,印新的发现。 用数据挖掘工具进行数据分析,可以发现重要的数据模式。对商务决策、知识库、科学和 医学研究做出了巨大贡献。数据和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓 转换成知识“金块”。 1 1 2 什么是数据挖掘 数据挖掘技术能从大量数据中提取或“挖掘”知识。它是从大量数据中寻找其规律的技术 是统计学、数据库技术和人工智能技术的综合。数据挖掘是一个完整的过程,该过程从大型数 据库中挖掘先前未知的、有效的、可实用的信息,并使用这些信息做出决镱或丰富知识。它的 环境如图1 1 所示: 图1 1 数据挖掘环境框图 数据挖掘与传统的数据分析( 如查询、报表、联机应用分析) 的本质区别是数据挖掘是在没 有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和 可实用三个特征。 先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是耍发现那些不能靠直觉发 现的信息或知识,甚至是违背直觉的信息或知识。挖掘出的信息越是出乎意料,就可能越有价 值。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着 惊人的联系。 山东科技大学硕士学位论文第一章绪论 信息的有效是指要求在挖掘前要对被挖掘的数据进行仔细检查,保证它们的有效性,才能 保证挖掘出来的信息的有效性。 最为重要的是要求所得的信息具有可实用性,即这些信息或知识对于所讨论的业务或研究 领域是有效的,是有实用价值和可实用的。常识性的结论,或己被人们或竞争对手早已掌握的 或无法实现的事实都是没有意义的。 1 1 3 数据挖掘的基本步骤 数据挖掘的基本步骤1 3 】包括 数据清理( 消除噪声或不一致数据) 数据集成( 多种数据源可以组合在一起) 数据选择( 从数据库中检索与分析任务相关的数据) 数据变换( 数据变换或统一成适合挖掘的形式) 数据挖掘( 基本步骤,使用智能方法提取数据模式) - 模式评估( 根据某种兴趣度度量,识别表示知识的真正有趣的模式) 知识表示( 使用可视化和知识表示技术,向用户提供挖掘的知识) 数据挖掘步骤可以与用户或知识库交互。有趣的模式提供给用户,或作为新的知识存放在 知识库中。 1 1 4 在何种数据上进行挖掘 原则上讲。数据挖掘可以在任何类型的信息存储上进行。这包括关系数据库、数据仓库、 事务数据库、高级数据库系统、展开文件和w l i w 。但是在数据仓库上进行挖掘有着更多的优点。 因此数据挖掘最好以数据仓库为信息存储。关于数据仓库的具体内容将在1 2 节详细讲述。 1 1 5 数据挖掘能做什么 数据挖掘所涉及的学科领域和方法很多。以下四种是非常重要的发现任务a 数据概化,其目的是对数据进行浓缩,给出它的紧凑描述。数据挖掘主要关心从数据概 化的角度来讨论数据。数据概化是一种把数据库中的有关数据从低层次抽象到高层次上的过 程。 分类,其目的是学会一个分类函数或分类模型( 也称作分类器) ,该模型能把数据库的数 据项映射到给定类别中的某一个。 聚类,是把一组个体按照相似性归类,即”物以类聚”。它的目的是使属于同一类别的个 体之间的距离尽可能地小,而不同类别的个体间的距离尽可能地大。 关联规则,是形式如下的一种规则,在购买面包和黄油的顾客中- 有9 0 的人同时也买 了牛奶”( 面包+ 黄油+ 牛奶) 。关联规则发现的思路还可以用于序列模式发现。用户在购买物品 时,除了具有上述关联规律。还有时间或序列上的规律。 1 2 数据仓库 1 2 1 什么是数据仓库 目前,数据仓库一词尚没有一个统一的定义,著名的数据仓库专家百h i o n 在其著作 b u i l d i n gt h ed a t aw a r e h o u s e 一书中给予如下描述:数据仓库( d a t aw a r e h o u s e ) 是一 个面向主题的( s u b j e c to r i e n t e d ) 、集成的( i n t e g r a t e ) 、相对稳定的( n 0 n _ v o l a t i l e ) 、反 映历史变化( t i m ev a r i a n t ) 的数据集合,用于支持管理决策。对于数据仓库的概念我们可以 山东科技大擘硕士学位论文第一章堵论 从两个层次予以理解,首先数据仓库用于支持决策,面向分析型数据处理,它不同于企业现 有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了 重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。 1 2 1 1 数据仓厍的特点 根据数据仓库概念的含义,数据仓库拥有以下四个特点: 1 、面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离, 而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数 据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。 2 、集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互 独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基 础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的 信息是关于整个企业的一致的全局信息。 3 、相对稳定的。操作型数据库中的数据通常实时更新数据根据需要及时发生变化。数 据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进 入数据仓库以后,一般情况下将被长期保留也就是数据仓库中一般有大量的查询操作,但修 改和删除操作很少,通常只需要定期的加载、刷薪。 4 、反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的 数据通常包含历史信息,系统记录了企业从过去某一时点( 如开始应用数据仓库的时点) 到目前 的各个阶段的信息,通过这些信息。可以对企业的发展历程和未来趋势做出定量分析和预测。 企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不 是静态的概念。只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决 策,信息才能发挥作用。信息才有意义。而把信息加以整理归纳和重组。并及时提供给相应的 管理决策人员,是数据仓库的根本任务。因此,数据仓库建设是一个工程,是一个过程。 1 2 1 2 数据仓库的体系结构 整个数据仓库系统是一个包含四个层次的体系结。四个层次具体如图l _ 2 所示,从左到右 是数据源、数据的存储与管理、联机分析处理服务器、前端工具 啊,l 再 薹垂叠询工具 j 簟 蓝酝誊警 琶溢具 霉b 越工具 _ 凰 j i 1 、数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外 3 - 9 酋口暾 l 山东科技大学硕士学住论文 第一章绪论 部信息。内部信息包括存放于r d 酬s 中的各种业务处理数据和各类文档数据。外部信息包括各 类法律法规、市场信息和竞争对手的信息等等。 2 、数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储 和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的 表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点 着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。 数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库( 通常称为数据集 市) 。 3 、联机分析处理服务器;联机分析处理( o n l i n ea r i a l y t i c a lp r o c e s s i n g ,0 l a p ) 服务 器对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析, 并发现趋势。其具体实现可以分为:r o l a p ( r e l a t i o n a lo l a p ) 、m o l a p ( m u l t i d i m e n s i o n a l0 l a p ) 和h o l a p ( h y b r i do l a p ) 。r o l a p 基本数据和聚合数据均存放在r d 阴s ( r e l a t i o n a ld a t a b a s e m a n a g e m e n ts y s t e m s ) 之中;m o l a p 基本数据和聚合数据均存放于多维数据库中:h o l a p 基本 数据存放于嗍s 之中,聚合数据存放于多维数据库中。 4 、前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各 种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对o l a p 服务器,报表 工具、数据挖掘工具主要针对数据仓库。 1 2 2 如何建立数据仓库 数据仓库的实现主要以关系数据库( r e l a t i o n a ld a t a b a s e ) 技术为基础,因为关系数据 库的数据存储和管理技术发展得较为成熟,其成本和复杂性较低。已开发成功的大型事务数据 库多为关系数据库,但关系数据库系统并不能满足数据仓库的数据存储要求,需要通过使用一 些技术,如动态分区、位图索引、优化查询等,使关系数据库管理系统在数据仓库应用环境中 的性能得到大幅度的提高。 数据仓库在构建之初应明确其主题,主题是一个在较高层次将数据归类的标准,每一个主 题对应一个宏观的分析领域。针对具体决策需求可细化为多个主题表,具体来说就是确定决策 涉及的范围和所要解决的问题。但是主题的确定必须建立在现有联机事务处理( 0 n l i n e t r a n s a c t i o np r o c e s s i n g ,0 l t p ) 系统基础上,否则按此主题设计的数据仓库存储结构将成为 一个空壳,缺少可存储的数据。但一味注重o l t p 数据信息,也将导致迷失数据提取方向,偏 离主题。需要在o l t p 数据和主题之间找到个“平衡点”,根据主题的需要完整地收集数据, 这样构建的数据仓库才能满足决燕和分析的需要。 建立一个数据仓库需要经过以下几个处理过程: ( 1 ) 数据仓库设计 根据决策主题设计数据仓库结构,一般采用星型模型和雪花模型设计其数据模型,在设计 过程中应保证数据仓库的规范化和体现各元素的必要联系。 ( 2 ) 数据抽取、转换、装入 该过程是根据元数据库中的主题表定义、数据源定义、数据抽取规则定义对异地异构数据 源( 包括各平台的数据库、文本文件、h 聊l 文件、知识库等) 进行清理、转换,对数据进行 重新组织和加工,装载到数据仓库的目标库中。 ( 3 ) 数据维护 该过程又分为目标数据维护和元数据维护两方面。目标数据维护是根据元数据库所定义的 更新颏率、更新数据项等更新计划任务来刷新数据仓库以反映数据源的变化,且对时间相关 性进行处理。更新操作有两种情况,即在仓库的原有数据表中进行某些数据的更新和产生一个 新的时间区间的数据,因为汇总数据与数据仓库中的许多信息元素有关系,必需完整地汇总 这样才能保证全体信息的一致性。 j 山末科技大学硕士学住论丈 第一章耋 论 1 3 数据挖掘软件发展及现状分析 代特征数据挖掘算法集成分布计算模型数据模型 作为一个独立 支持一个或者独立的系统单个机器向量数据 第一代 的应用 多个算法 和数据库以及多个算法:能数据管理系同质、局部区有些系统支 数据仓库集成够挖掘一次不统,包括数据域的计算机群持对象文 第二代 能放进内存的库和数据仓 集 本和连续的 数据库媒体数据 和预言模型系多个算法数据管理和 i n t r a n e t ,e x 打a n e 支持半结构 第三代统集成预言模型系 t 网络计算 化数据和 统 w e b 数据 和移动数据多个算法数据管理、预 移动和各种计普遍存在的 第四代 各种计算设备言模型、移动算设备计算模型 的数据联合系统 表1 1 数据挖掘软件的发展历程 1 3 1 数据挖掘软件的发展 数据挖掘软件的发展到现在为止,大体经历了四代,如表1 1 所示。第一代数据挖掘软 件( 1 9 9 5 年以前) 的主要特点是它一般是作为一个独立的应用并且支持一个或少数几个数据 挖掘算法。第二代数据挖掘软件( 1 9 9 5 1 9 9 9 ) 可以支持数据库和数据仓库。第三代数据挖掘 软件( 1 9 9 9 一现在) 支持与预言模型系统之间的无缝集成。第四代数据挖掘软件应当可以支 持与移动数据及各种计算设备的数据联合第四代软件现在正处于研究阶段。 1 3 1 1 第一代数据挖掘软件 第一代数据挖掘软件主要是对向量数据( v e c t o r v a l u e dd a t a ) 进行挖掘,这些数据一 般一次性调进内存进行处理。但是如果数据足够大。并且频繁的变化,这就需要利用数据库或 者数据仓库技术进行管理。此时,第一代数据挖掘软件显然不能满足需求。 图1 3c b a 界面 山东科技大学硕士学位论文 第一章绪论 在第一代数据挖掘软件中比较典型的系统有s a l f o r ds y s t e m s 公司早期的c a r t 系统 ( ! 塑:丛q g 二z l 墅:! q 匝以及由新加坡国立大学开发的c b a 系统。其中,c b a 系统能从关 系数据或者交易数据中挖掘关联规则使用关联规则进行分类和预测。如图1 3 所示是c 队 的使用界面。 l _ 3 1 2 第二代数据挖掘软件 第二代数据挖掘软件的主要特点是:与数据库管理系统( d 叫s ) 集成,支持数据库和数据 仓库,具有高的可扩展性;能够挖掘大数据集、以及更复杂的数据集:通过支持数据挖掘模式 ( d a t am i n i n gs c h e m a ) 和数据挖掘查询语言增加系统的灵活性。在第二代数据挖掘软件中, 较典型的系统有d b m i n e r 及s a se n 把巾r i s em i n e r 它们的使用界面如图1 4 及图1 ,5 所示。 图1 4 第二代数据挖掘软件d 蹦i n e r 图1 s 第二代数据挖掘软件s a se r 鹏r p r i m i n e r 山东科技走学硕士学位论丈第一章绪论 1 3 1 3 第三代数据挖掘软件 第三代数据挖掘软件支持与预言模型系统之间的无缝集成,使得由数据挖掘软件产生的模 型的变化能够及时反映到预言模型系统中。在第三代软件中由数据挖掘软件产生的预言模型能 够自动地被操作型系统吸收,从而与操作型系统中的预宫模型相联合提供决策支持的功能;能 够挖掘网络环境下( i n t e r n e t e x t r a n e t ) 的分布式和高度异质的数据,弗且能够有效地和操 作型系统集成。第三代软件的缺陷是;不能支持移动环境。 第三代软件的典型代表;s p s sc l e m e n t i n e 图1 6 第三代数据挖掘软件s p s s 1 3 。1 。4 第四代数据挖掘软件 目前移动计算越发显得重要,将数据挖掘和移动计算相结台是当前数据挖掘软件的一个研 究领域。第四代软件预计能够挖掘嵌入式系统、移动系统、和普适计算( u b i q u i t o u sc o m p u t i n g ) 设备产生的各种类型的数据。 第四代数据挖掘原型或商业系统尚未见报导,p k d d 2 0 0 1 上妇叼u p t a 发表了一篇在移动环 境下挖掘决策树的论文,妇r 9 u p 油是马里兰巴尔的摩州立大学( u n e 嚼蹿o fm a r y l a n d b a i t i m o 陀c o u n 砷) 正在研制的o i r e e r 数据挖掘项目的负责人,该项目研究期限是2 0 0 1 年4 月到2 0 0 6 年4 月,目的是开发挖掘分布式和异质数据( u b l q u i t o u s 设备) 的第四代数据挖掘系 统。 1 3 1 5 数据挖掘软件发展小结 通过以上的描述。我们可以看到:第一代系统与第二代相比因为不具有和数据管理系统之 间有效的接口,所以在数据预处理方面有一定缺陷:第二代系统提供了数据管理系统和数据挖 掘系统之间的有效接口;第三、四代系统强调预言模型的使用和在操作型环境的部署;第三代 系统另外还提供数据挖掘系统和预言模型系统之间的有效的接口。目前,随着新的挖掘算法的 研究和开发第一代数据挖掘系统仍然会出现,第二代系统是商业软件的主流,部分第二代系 统开发商开始研制相应的第三代数据挖掘系统,比如i 跚i n t e l l i g e n ts c o r es e r v i c e 。第四 代数据挖掘原型或商业系统尚未见报导。 山东科技太季硕士学往论文 第一章绪论 1 3 2 数据挖掘软件的现状 目前世界范围内有数百个数据挖掘软件产品( 幽避e d n g g 鳇照q 趣】,到2 0 0 2 年9 月为止, a m a n 上关于数据挖掘的书有2 5 1 本( 塑型燮虫a z 地点q 盟) ,由此可见数据挖掘应用已经相对比 较广泛了。图1 _ 7 及图1 8 分别显示了数据挖掘在各行业的预测的应用情况及实际应用情况的对 比( 复旦大学计算机与信息技术系所做的工作) : 图1 7 数据挖掘在各行业的应用( 预测) 图1 8 数据挖掘在各行业的应用( 实际) 山东科技走学硕士学位论文 第一章绪论 图1 9 显示了几种主要数据挖掘软件的使用情况,可以看出s p s s 基本上是最流行的数据挖掘 软件系统。 图1 9 几种主要数据挖掘软件的应用情况( 2 0 0 2 6 3 6 1 6 ) 虽然从世界范围来看,数据挖掘软件在一定范围内的应用已经比较广泛,但是国内的数据 挖掘系统大部分处于科研阶段。虽然有许多大学和科研机构从事数据挖掘算法的研究,但是具 有自主知识产权的数据挖掘软件还很少;同时国内著作的数据挖掘方面的书也较少( 翻译的 有) 。国内比较有名的数据挖掘方面的组织有数据挖掘讨论组( w w w d m g r o u p o r g c n ) 。 1 4 论文的目的和意义 随着国家信息基础结构建设目标的实施,企业在备种活动中普遍采用现代信息技术来提高 竞争力。传统的基于数据的管理信息系统已不能满足决策者对数据质量的需求,面向决策的知 识管理系统正在蓬勃兴起。管理信息系统与决策支持系统的结合是目前最为迫切需要的系统软 件。为适应这一要求,中科院计算所信息智能国家重点实验室准备开发一个适合于中国企业需 要的数据挖掘平台一一多策略数据挖掘平台m s m i n e r ( m u l t i - s 订a t e 科m i n e r ) 。多策略数据挖 掘平台的建设目标是开发具有自主版权的、多策略的通用数据挖掘平台,为企业决策和智能信 息处理提供数据挖掘总体解决方案。系统采用功能强大的元数据作为调度中心,实现了数据仓 库与数据抽取、转换、装载( e t l 即e x t r a c t 、t r a n s f o r m 、l o a d i n g ) 、数据挖掘、联机分 析处理( o l a p ) 的有机集成和各种数据挖掘算法的无缝连接。系统还提供了多种数据转换规则 和数据挖掘算法,全面支持企业的生产、销售、市场营销、财务管理、企业决策等领域活动, 具有广阔的应用前景。同时,多策略的数据挖掘工具也可以应用于其他一些国民经济的关键领 域,如税务稽查、商业营销决策、金融部门等。在本系统的研究过程和软件开发过程中充分考 虑我国企业的需求和产业化问题,在国民经济的各个领域中推广应用,开发具有自主知识版权 的数据挖掘软件。 笔者参加了这一平台的部分开发过程,并将在论文中详述这一平台的体系结构、关键算法、 主要使用的技术及几个基本挖掘算法的优化。 山东科技大学硕士擘住论文 第二幸m s m i n c r 的体系结构 第二章m s m in e r 的体系结构 2 1 m s m i n e r 的体系结构 m s m i n e r 由四个子系统组成:元数据管理子系统、m s e t l ( m u l t i - s t r a t e g ye t l ) 子系统、 联机分析处理子系统和数据挖掘子系统各子系统都有相应的执行程序。下面将详细介绍 m s m i n 目的特点及各子系统的功能。m s m i n e r 的体系结构如图2 1 所示 图2 1m s m i n e r 体系结构 2 2m s m i n e r 的功能特点 m s m i n e r 的主要特点有: 基于数据仓库和新颖的元数据管理,按照主题创建数据仓库,并通过元数据进行管理和维 护。 1 0 山东科技大学硕士学位论文 第二章m s m i n e r 的体系缝掏 数据的抽取、转换、装载等预处理方便,并支持o l a p 查询。 提供决策树、支持向量机、粗糙集、模糊聚类、基于范例推理、统计方法、神经计算等多 种数据挖掘算法,支持特征抽取、分类、聚类、预测、关联规则发现、统计分析等数据挖 掘功能,并支持高屡次的决策分析功能。 实现了可视化的任务编辑环境以及功能强大的任务处理引擎。能够快捷有效地实现各种数 据转换和数据挖掘任务。 可扩展性好。转换规则和挖掘算法是封装的、模块化的系统提供了一个开放的、灵活通 用的接口,使用户能够加入新的规则和算法。 容易进行二次开发。将m s m i n e r 与具体的领域相结合,能方便地、快速地、灵活地、高 效地构造实际的应用系统。 2 2 1 强大的元数据管理 元数据就是关于数据的数据。系统利用数据仓库中元数据的管理思想,扩展了元数据的作 用范围,使它不仅管理数据仓库中的数据,而且管理数据转换规则和数据挖掘算法,便于数据 的一致性维护和操作。元数据居于整个系统的核心地位,统一管理数据仓库和数据挖掘工具, 并控制整个数据挖掘流程,包括数据准备、挖掘、表述以及评价,使数据和数据挖掘任务有机 地结合在一起。同时,系统采用面向对象的方法对复杂的元数据进行管理和维护,保证了元数 据的一致性和系统的健壮性。 m s m i n c r 元数据的内容。m s m i n e r 系统的元数据用来描述整个系统的状态和行为方式, 主要包括以下几方面内容:外部数据源描述、数据仓库信息描述、用户信息描述、主题描述、 e t l 任务描述、数据转换规则库管理、数据立方体描述、数据挖掘任务描述和数据挖掘算法 库的管理。 m s m j n e r 元数据库。元数据库中包含多个元数据表,分别存储各类元数据的详细信息, 是m s m i n e r 数据仓库中的核心数据库。为了保证元数据的一致性这些元数据表互相关联 遵循一定的约束关系。 m s m i n e r 元数据对象模型。m s m j n e r 的元数据数量庞大并且关系复杂,很自然的想法 是,通过一种相对独立的模块专门负责对元数据的存取管理,这个模块必须符合一致性、完各 性、易维护性的设计要求。m s m i n e r 采用一种面向对象的元数据结构:即将各种元数据封装 在相应的元数据类中,将这些元数据类的对象实例通过层次结构有机地组织起来,构成一种层 次型对象模型。系统通过这些对象对各元数据表进行操作管理。系统通过这种对象模型访问元 数据,而不需要直接接触元数据库。在经过良好封装的元数据类中包含各种属性和方法,属性 表达了相应的元数据值,而方法定义了对相关元数据的各种操作。并负责维护元数据之间的一 致性。元数据的存取、更新和管理通过访问这些属性和方法来实现。 元数据的管理。m s m i n e r 元数据的管理是在各功能模块的管理维护中实现的。在通过 m s m i n 日各个功能模块对数据仓库各部分、e t l 任务和数据挖掘任务进行建立、修改和日常 维护时,元数据中的相应内容也同时得到新增、修改和维护。实际上用户就是通过在各个功 能模块中对后台元数据进行维护来实现对整个系统的管理。对元数据各部分内容的管理,分布 在系统中e t l 任务管理、转换规则库管理、主题组织、o l a p 、数据挖掘任务管理及算法库管 理等各个模块之中。 2 2 2 高效的e t l 解决方案 智能信息处理需要从现有数据源、包括企业o l t p 系统、数据仓库和外部数据源中抽取数 据,并根据决策要求加工和转换数据。由于这些数据具有多重数据格式,从源系统移动适当的 数据到应用系统是一个非常复杂、需要消耗大量资源的工作。 m s m i r 的e t l 解决方案采用简洁的e t l 任务定制技术,可以方便地从多个数据源提取 生垄! 鳖苎兰塑主兰竺垒查 苎三主翌型垫竺塑堡垒竺苎 数据、完成复杂的数据转换功能,并且将数据转载到最终目的地。 强大的数据抽取功能 m s m i n 日支持多种数据源,几乎对所有的关系数据库提供直连接口和o d b c 访问接口。 通过简单的任务定制,用户可以将多种数据源中的数据放进e t l 任务中。 灵活的转换规则 旦数据被抽取出来,必须经过数据转换。在转换过程中进行数据清洗、一致性检查和数 据格式转换以及决策支持要求。 m s m i n c r 提供了一个非常强大的转换规则库,其中包含了3 0 个常用规则。这些预定义的 转换规则是带参数的c + + 函数( c o mo b j e c t s ) ,并且经过严格的铡试。这些规则集成在一个友 好的界面中,开发人员可以方便地将这些规则加入到e t l 任务中。使用预定义的转换规则可 以大量缩短开发人员的开发和测试时间。 m s m i r 支持用户自己开发转换规则。用户可以使用c + + 创建自己的转换规则( c o m o b j 呦,同时将自定义的转换规则注册到m s m i n e r 转换规则库中,以便代码重用和共享。 2 2 3 联机分析处理子系统 2 2 3 1 数据仓库管理器 m s m i n e r 中通过数据仓库管理器为数据挖掘工具提供数据平台,其主要目标是通过建立 和维护数据仓库,为数据挖掘提供经过清洗、整合、转换的数据来源。完成数据挖掘过程中数 据预处理的部分任务。m s m i n e r 数据仓库中的数据按主题组织主题中包含多个事实表、维 表、中闻表以及数据立方体。数据仓库主题按星型模式建摸,在此基础之上实现多维数据立方 体和各种o l p 操作,并为数据挖掘任务提供经过适当预处理和良好组织的数据源。最后结 果可由可视化工具显示,或咀报表的形式输出。整个数据仓库,包括数据的抽取及主题的组织 等,均通过元数据来管理和维护。 2 2 3 2 基于关系数据库的数据仓库实现 根据m s m i n e r 的设计目标,我们更注重实现数据仓库的易用性和集成性,所以m s m i l l ” 数据仓库的构建仍是基于传统的关系型数据库管理系统,其核心数据库由o r a c l e8 i 实现。 m s m i n e r 的外部数据源也主要是各种关系型数据库。m s m i n e r 通过a d 0 f o r o d b c 接口可 与各种流行的数据库产品连接,包括o r a c e 、s y b a s e 、m i c r o s o e 等众多厂商的大型数据库系统 和小型的桌面数据库产品,保证了系统的开放性。 2 2 3 3 联机分析处理 、一 联机分析处理( o l a p ) 是指对以多维形式组织起来的数据( 数据立方体】采取切片、切块、 旋转、钻取等各种分析动作,咀求分析数据,使用户能从多个角度、多侧面地观察数据库中的 数据,从而深入了解包含在数据中的信息、内涵。多维分析的基本操作有:切片( s l i c e ) 、切 块( d j c e ) 、旋转( p i v o t ) 、向上综合( r o l lu p ) 和向下钻取( d 棚d o w n ) 等。m s m i n e r 的 o l a p 在关系型数据表上实现f 即采用r o l a p 方式。在主题中事实表关联多个维表构成的星 型结构之上模拟多维数据立方体,然后在数据立方体之上实现o 一操作。各种o l a p 操作 请求将通过一个r o l a p 引擎动态地翻译成s o l 语句,再在数据仓库中的综合数据表( 事实 表) 中进行查询得到结果。 2 2 4 灵活、方便的数据挖掘集成工具 数据挖掘集成工具的主要部分包括两个模块:数据挖掘任务模型编辑模块和任务处理引 擎。任务模型编辑模块提供任务模型编辑向导以及可视化任务模型编辑图板,以一种可视化的 - 1 2 - 生墨翌垫苎兰塑圭堂堡垒兰 苎三主坚! 坚垫! ! 壁堡墨苎垫 方式引导用户选择数据源和算法。逐步构造适当的任务模型。任务处理引擎负责对数据挖掘任 务进行规划解释执行各个步骤,得到数据挖掘结果。挖掘结果经过解释和评估。可以存入数 据仓库,并以报表和可视化方式输出。 2 2 4 1 面向对象的数据挖掘任务模型 如何有效地集成数据和算法,灵活地组织数据挖掘流程是数据挖掘的一个重要问题。现 有的许多数据挖掘工具都是采用数据驱动的、单步骤的任务处理方式,难以描述复杂任务和进 行复杂流程控制无法满足各种数据挖掘任务的需要。 m s m i m r 引入了一种通用的面向对象的数据挖掘任务模型表示方法来描述和控制数据 挖掘任务流程,能够集成多种数据挖掘算法,以多种灵活的方式描述和组织各种数据挖掘任务, 并在一定程度上实现了数据挖掘流程控制的自动化。实现了多策略的数据挖掘。 数据挖掘任务模型的定义。m s m i n e r 数据挖掘任务由多个对象组成,每个对象代表数 据挖掘流程的一个步骤或一个子任务。每个对象都拥有定义自身特征的属性( a t 嘶b u c e s ) 和定 义自身行为的方法( m e t h o d s ) 。对象的属性可以存贮整型、浮点型或字符型的值。方法用来存 贮在这个对象对应的数据挖掘步骤中所要执行的操作。这些操作可以是访问对象的属性,调用 算法,或控制执行流程等。这些对象有序地组成种有向图结构。这种由多个对象组成的有序 对象模型表达了整个数据挖掘任务的组织和流程。 数据挖掘任务模型的元数据。数据挖掘任务模型的各种数据都存储在元数据中形成一 个任务模型库并主要通过元数据类s k 和c s t e p 进行管理。c 伽k 包含了整个数据挖掘任 务的信息,c s t e p 描述数据挖掘各步骤的信息。元数据类c s t 印中的s t e p a n 曲u t 酷和s t e p m e t h o d 分别存储了步骤对象所包含的各种属性及d m l 方法脚本。 数据挖掘任务模型的编辑。数据挖掘集成工具中的任务模型编辑模块,提供了一个功能 强大并且便捷易用的建立、编辑和存储任务模型的环境。建立数据挖掘任务模型是一个比较复 杂的过程,往往需要用户具备一定的相关知识和技能。所以系统设计提供了一个任务模型编辑 向导和一个可视化的任务模型编辑图板,帮助用户可视化地构造数据挖掘任务。通过任务模型 编辑向导,可以引导用户逐步建立数据挖掘任务的各个步骤,指定各步骤之间的联系。最终生 成整个数据挖掘任务。 2 2 4 2 数据挖掘任务模型的处理 数据挖掘任务模型由任务处理引擎进行规划和解释执行,它的两个主要功能模块是任务规 划器和解释器。 执行数据挖掘任务时,需要先将任务有向图模型转化为各个步骤结点的一个有序序列,即 进行任务的规划后再逐步解释执行各个挖掘步骤,得到结果。任务规划的过程,就是对任务 有向图模型做拓扑排序的过程。 任务规划得到各个步骤的有序序列后由解释器依次解释执行各个步骤中的d m l 方法脚 本,完成整个数据挖掘任务的处理。 在默认控制下,这个过程从起始结点开始。任务模型中所有步骤结点都将被访问,结点中 的方法逐步获得解释执行,最后得到数据挖掘结果。 2 。2 。4 。3 数据挖掘算法的动态加载 算法是数据挖掘的核心。有效集成各种高效率的数据挖掘算法。是成功实施数据挖掘任务 的关键。m s m i n e r 系统中各种数据挖掘核心算法以动态链接库d l l 的形式实现,并在元数据 中登记注册。采用d l l 方式实现各数据挖掘算法有两个主要的优点; 以d l l 可执行代码实现的算法在系统运行时动态载入保证了算法的执行效率。 d l l 算法库独立于m s m ,n e f 系统而存在,便于维护、升级和扩展,同时具有良好的避 1 3 - 山东科技大学硕士学位论文第二章m s m i n e r 的体系结构 用性。 m s m i n e r 系统提供专门的算法管理模块来查看和维护各种算法的有关信息。为了提供 尽可能全面的数据挖掘解决方案。我们将集成适用于不同任务的多种数据挖掘算法但对于有 些特定的数据挖掘任务,系统提供的算法将可能难以胜任,此时用户往往希望能够加入自己的 处理方案。因此系统提供一个开放的、灵活通用的接口使用户能够加入新的算法。用户可 以按照这一规范,开发自己的算法d l l ,井在算法管理模块中进行注册。使数据挖掘任务能 够使用新的算法,从而实现算法库的可扩展性。使整个数据挖掘系统具有很强的灵活性和通用 性。 2 z 5 丰富的数据挖掘算法 m s m i n e r 中集成了丰富的数据挖掘算法。如图2 2 所示。这些算法都已经做成了d l l 的形 式供用户选用。下面对每一种算法做一下简单的介绍

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论