




已阅读5页,还剩69页未读, 继续免费阅读
(通信与信息系统专业论文)面向电子商务的数据挖掘系统的研究与设计.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
武汉理丁大学硕士学位论文 摘要 近年来,随着人们利用信息技术生产和收集数据的能力大幅度提高,千千 万万个数据库被用于企业管理、政府办公、科学研究和工程开发等等。但是与 此同时,众多的数据也面临着一个严重的问题:激增的数据背后隐藏着许多重 要的信息,但是人们如何才能更好的利用这些数据,避免“数据爆炸但知识贫 乏”现象的发生呢? 数据挖掘技术是计算机技术发展的热点之一。通过对历史积累的大量数据 的有效挖掘,可以发现隐藏的规律或模式,为决策提供支持,而这些规律或模 式是不能够依靠简单的数据查询得到,或者是不能在可接受的时间内得到。这 些规律或模式可以进一步在专业人员的识别下成为知识。数据挖掘面对的任务 是复杂的,通常包括分类、预测、关联规则发现和聚类分析等。 随着互联网技术的迅速发展,电子商务的应用越来越广泛,其功能和范畴 也逐渐由狭义的在线交易延伸到广义的基于网络的各种商务活动。电子商务系统构 建技术不仅要支持系统的快速开发和重用,而且能通过数据挖掘等各种商业智能技 术为企业的商务活动提供全面支持。因此研究如何提高软件系统的可重用性,并以 可重用的组件和模式为基础构建通用电子商务系统开发平台,以及研究数据挖掘在 电子商务系统中的应用具有重要意义。这也是论文的主要目的。 在论文中,主要讨论了以下几个方面的问题: 1 首先介绍了数据挖掘的基本概念及其和数据仓库、o l a p ( 联机分析处 理) 的关系。然后,结合电子商务给出了利用m i c r o s o f t s q l s e r v e r2 0 0 0 的数据 仓库和0 l a p 技术来建立客户行为历史数据仓库的方案,为基于决策树算法的 数据挖掘提供干净的数据。 2 在论文的研究中,首先介绍了面向电子商务的数据挖掘的原型系统。然 后,通过o l a p 得到的数据集利用i d 3 算法的理论求解出决策树,最后通过客 户端对数据挖掘模型进行分析和实现,为进一步构建完善的基于数据挖掘的电 子商务系统做了准备。 最后总结了课题的主要工作和未来的研究方向。 关键词:电子商务,数据仓库,数据挖掘,决策树 武汉理工大学硕士学位论文 a b s t r a c t i nr e c e n ty e a r s ,a sp e o p l er a p i d l yi m p r o v et h e i ra b i l i t yt ou t i l i z et h ei n f o r m a t i o n t e c h n o l o g yp r o d u c t i o na n dc o l l e c td a t a , 血o u s a n d so fd a t a b a s e sa r eu s e di nb u s i n e s s m a n a g e r , g o v e r n m e n t s0 衔c i a lb u s s i n e s s s c i e n t i f i cr e s e a r c ha n dp r o j e c td e v e l o p m e n t e t c b u ta tt h es a m et i m e ,m a n yd a t am e e tas e r i o u sp r o b l e m :p r o l i f e r a t i v ed a t ah a v e m a n yi m p o r t a n ti n f o r m a t i o nb e h i n d b u tp e o p l eh o w t om a k eb e t e ru s eo ft h e s ed a t a a v o i d i n gp h e n o m e n ao f ”e x p l o s i v ed a t aa n dp o o rk n o w l e d g e ”? t h ed a t am i n i n gt e c h n o l o g yi st h en e wh o ts p o ti nt h ec o m p u t e rw o r l d t h r o u g ht h e e f f e c t i v ee x c a v a t i n go fal a r g ea m o u n to fd a t ai nh i s t o r y , c a nf i n dt h ep o t e n t i a l k n o w l e d g ei nt h e sd a t aw h i c hm a y b ev e r yh e l p f u lt ot h ed e c i s i o ns u p p o r t ,b u tt h e s e m o d e sc a nn o tr e l yo nt h es i m p l ei n q u i r e ,o rc a nn o tg e tw i t h i na c c e p t a b l et i m e t h e s e m o d e sb e c o m ek n o w l e d g eu n d e rt h ed i s c e r n m e n to fp r o f e s s i o n a l p e r s o n i t i s c o m p l i c a t e dt h a t t h et a s k so fd a t am i m n gu s u a l l yi n c l u d ec l a s s i f 3 r i n g ,p r e d i c t i n g , a s s o c i a t i o nr u l e sd i s c o v e r ya n dc l u s t e r i n g ,e r e w i t ht h er a p i dd e v e l o p m e n to fi n t e m e t ,e - c o m m e r c es y s t e mi su s e dm o r ea n dm o r e w i d e l yi nn o w a d a y sl i f e i t sf u n c t i o nh a se x t e n d e df r o mo r d i n et r a n s a c t i o n st o a l l k i n d so f b u s i n e s so nt h en e t w o r k t h eb u i l d i n gt e c h n o l o g yo f 也ee - c o m m e r c es y s t e m s h o u l dn o to n l ys u p p o r tt h ed e v e l o p m e n ta n dr e u s eo fs y s t e m ,b u ta l s op r o v i d et h e a b i l i t yo fi n t e l l i g e n ta n a l y s i sb a s e do nd a t am i n i n ga n do t h e rt e c h n o l o g i e s ,w h i c hc a r l h e l p t h e e n t e r p r i s e t o i m p r o v e t h e i r c u s t o m e r s ,r e l a t i o n s h i pm a n a g e m e n t a n d m a r k e t i n ga c t i v i t i e s t h e r ea r es o m eq u e s t i o n s s h o u l db er e s e a r c h e do n h o wt o i m p r o v et h er e u s a b i l i t yo fs o f t w a r e ? h o wt o b u i l dt h ed e v e l o p m e n tp l a t f o r mo f e - c o m m e r c es y s t e mb a s e do nr e u s a b l ec o m p o n e n t sa n dd e s i g np a t e r n s ? h o wt oa p p l y d a t am i n i n gi n t oe c o m m e r c es y s t e m ? r e s e a r c h e so nt h e s eq u e s t i o n sa r ep r o v e dt ob e v a l u a b l e t h i sp a d e ri sm a i n l ya b o u tt h e s eq u e s t i o n s t h i sp a p e rd i s c u s st w o p a r t sa sf o l l o w : 1 a tf i r s ti n t r o d u c eb a s i cc o n c e p t i o no fd a t am i n i n ga n dr e l a t i o n s h i pw i t hd a t a w a r e h o u s ea n do l a p , t h e n ,w ec o m b i n ee c o l n y n e r c ea n ds e tu pt h es c h e m eo f c u s t o m e r sb e h a v i o rh i s t o r yb a s e do nm i c r o s o f is q ls e r v e r2 0 0 0a n dt h e0 l a p t e c h n o l o g y , o f f e rt h e c l e a nd a t af o rd a t am i n i n gb a s e do nt h e a l g o r i t h mo f d e c i s i o nt r e e 2 i nt h i sp a p e r , w ei n t r o d u c et h ep r o t o t y p eo fd a t am i n i n gs y s t e mb a s e do nt h e e - c o m m e r c e t h e n ,w eg e tt h ed e c i s i o nt r e eb y t h ei d 3a l g o r i t h mt h e o r yt h r o u g h t h eo l a pd a t as e t a n dd e c i s i o nt r e ew a sd i r e c t l yr e a l i z e di nc l i e n tp r o g r a m m i n g 武汉理工大学硕士学位论文 t h i s p r o v i d e ss o m e r e f e r e n c ef o rr e s e a r c ho fo t h e rd a t am i n i n gm e t h o d s a tl a s tw eg i v et h em a i nc o n t r i b u t i o n so ft h i s p a p e ra n do t l l f u t u r ew o r ka s a s u m m a r i z a t i o n k e y w o r d :e c o m m e r c e ,d a t am i n i n g ,d a t aw a r e h o u s e ,d e c i s i o nt r e e i i 武汉理工大学硕士学位论文 1 1 研究背景 第l 章绪论 近几十年来,伴随着信息技术的进步,人们生产和收集数据的能力得到大 幅度提高。无数个数据库系统被应用于商业管理、政府办公、科学研究和工程 开发中,而且这一势头仍将持续发展下去。但是,由于信息过多,真正有用的 知识却被隐藏在众多的信息中。在这被称之为信息爆炸的时代,信息过量几乎 成为人人需要面对的问题。1 1 1 如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信 息利用率昵? 要想使数据真正成为一个公司的资源,只有充分利用它为公司自 身的业务决策和战略发展服务才行,否则大量的数据可能成为垃圾,甚至成为 包袱。尤其是近些年来,随着网络通信技术的不断发展和社会信息化建设水平 的不断提高,电子商务系统在社会生活和经济生活中得到了越来越广泛的应用。 1 2 】电子商务大大改变了企业的经营方式,规范了内部流程和交易手续,减少了交 易的中间环节,降低了企业的经营成本;并使经营活动不再受地域和时间的限 制,方便了客户,密切了企业和客户的关系。因此越来越多的企业采纳电子商 务作为交易模式。互联网上的电子商务网站大量出现。电子商务作为一种交易 形式将在社会经济生活中占据越来越重要的地位,前景十分广阔。 电子商务的定义不尽一致。许多专家学者曾经从不同的角度给出定义。总 的来讲,大体可以分为狭义和广义两类。【3 】狭义的电子商务也称为电子贸易,主 要是指借助网络技术进行的在线交易活动;广义的电子商务则指包括电子交易 在内的、借助网络技术手段进行的各种商务活动。可以认为随着电子商务系统 的不断进步,它的功能和范畴已经由狭义的单一的在线交易延伸到广义的支持 企业通过网络进行各种商务活动。 作者认为目前电子商务系统构建技术主要有两个方面需要深入研究: 一是如何构建高效率、高性能、可重用的系统。网络通信技术和计算机硬 件技术的显著进步不仅有力的支持了电子商务应用的飞跃式发展,同时也大大 提高了大型分布式商务软件系统的规模和复杂度,使企业级电子商务系统的构 武汉理工大学硕士学位论文 建技术面i 每新的挑战。人们迫切希望构建的企业级电子商务系统既具有高性能、 高效率、易部署、易维护和高可靠性的优点;又能灵活的适应企业业务需求的 不断变化,方便的支持系统的扩展、移植和重用。该方面的研究工作包括分布 式软件系统结构的研究改进、软件设计过程中设计模式和基于组件的开发等思 想的提出和发展。 二是由于电子商务系统功能的扩张,完善的电子商务系统构建技术不应当 满足于支持在线交易,而且应该能够通过商业智能分析等技术为企业的客户关 系管理、市场营销等提供全面的辅助支持。尤其是在这样一个信息爆炸的时代, 企业迫切希望能够从已经累积的大量信息数据中获取有用的模式和规律以指导 经营实践,改善客户关系。【4 l 业界的迫切需求推动了用于电子商务系统的o l a p 和数据挖掘等商业智能分析技术的研究的深入。我国的电子商务自9 0 年代中期 以来发展十分迅速,出现了当当、8 8 4 8 等一批著名的电子商务网站,网上安全 支付等配套手段也已建立。但是很多电子商务还不够成熟和完善,不少系统平 台扩展、维护、移植、重用都比较困难,不能够适应企业快速变化的且具备基 于数据挖掘技术的商业智能分析能力的电子商务系统也比较少。因此对相关技 术的研究不仅具有理论意义,而且也具有重要的应用价值。 1 2 国内外研究现状 数据挖掘的概念最初是从“从数据库中发现知识”( k d d :k n o w l e d g e d i s c o v e r y i nd a t a b a s e s ) 发展雨来的。而k d d 一词首次出现在1 9 8 9 年举行的第 十一届国际联合人工智能学术会议上。由美国人工智能协会主办的k d d 国际研 讨会每年固定召开,规模由原来的专题讨论会发展到国际学术大会。 5 1 1 9 9 9 年, 亚太地区在北京召开的第三届p a k d d 会议收到1 5 8 篇论文,空前热烈。i e e e 的k n o w l e d g e a n dd a t ae n g i n e e r i n g 会刊率先在1 9 9 3 年出版了k d d 技术专刊。 并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘 和知识发现列为专题和专刊讨论。 目前,国外对于数据挖掘的研究重点逐渐从发现方法转向系统应用,注重 多种发现策略和技术的集成,以及多种学科之间的相互渗透。【6 j 当前,世界上比 较有影响的典型数据挖掘系统有c o v e rs t o r y 、e x p l o r a 、k n o w l e d g ed i s c o v e r y w o r k b e n c h 、d bm i n e r 、q u e s t 等。在应用方面包括:k d d 商业软件工具不断产 武汉理工人学硕士学位论文 生和完善,注重建立解决问题的整体系统,而不是孤立的过程。用户主要集中 在大型银行、保险公司、电信公司和销售业。国外很多计算机公司非常注重数 据挖掘的开发应用,i b m 和微软都成立了相应的研究中心进行这方面的工作。 此外,一些公司的相关软件也开始在国内销售,如i b m 公司的i n t e l l i g e n t m i n e r , s a s 公司的e n t e r p r i s em i n e r 。 国内从事数据挖掘研究的人员主要在大学,也有研究所和公司在从事这方 面的研究。1 6 j 这些工作一般集中于学习算法和有关数据挖掘理论方面的研究。例 如,复旦大学、南京大学、西安交通大学、东南大学、国防科大等单位已经在 挖掘算法效率改进等方面做了不少的工作。在具体应用方面,中科院计算所智 能处理开放实验室的史忠植等人设计了一个数据挖掘工具m s m i n e r ,使用决策 树算法为广东地税提供纳税人异常情况检测,复旦德门公司开发的“天眼”数 据挖掘工具集d m i n e r 集成了多种数据挖掘算法,取得了较好的挖掘效果。 面向电子商务的数据挖掘是数据挖掘在电子商务领域中的应用。在电子商 务中使用数据挖掘技术来发现隐藏知识,提高企业竞争力。【7 】目前,越来越多企 业使用数据挖掘来加强电子商务的智能,许多企业都在其具体的应用中使用数 据挖掘技术。 随着信息技术在国际贸易和商业领域中的广泛应用,利用计算机技术、网 络通信技术和i n t e m e t 实现商务活动,这是国际市场出现和发展起来的新兴贸易 方式,借助i n t e m e t ,电子商务将信息网络、金融网络实现国际化、信息化和无 纸化,这已经成为各国商务发展的一大趋势。1 8 】电子商务正是为了适应这种全球 网络,把事物活动和贸易活动中发生关系的各方有机地联系起来,使得信息流、 资金流、实物流能够迅速地流动,极大地方便了各种事务活动和贸易活动。 建立起一个电子商务网站并不困难,困难的是如何让电子商务网站有效益。 要想有效益就必须吸引客户,增加能带来效益的客户兴趣度。在i n t e r n e t 时代, 客户变得具有决定权。w e b 给客户巨大的能力来决定购买谁的产品。w e b 创造 了一个近似完美的市场空间,使客户没有任何时间和空间的限制与花费就能够 了解许多企业的产品。客户能够通过w e b 很容易知道供应商的情况、供应商竞 争对手的情况,以及所有供应商的产品和服务情况,从而使客户能够以最底的 价格购买到合适的产品。f 9 】一个企业已经不能够单独管理、引导和控制市场。这 样一来,电子商务业务的竞争就要比传统的业务竞争更加激烈,因为客户从一 个电子商务网站转换到竞争对手那边,只需点击几下鼠标即可。网站的内容和 武汉理工大学硕士学位论文 层次、用词、标题、奖励方案、服务等任何一个地方都有可能成为吸引客户、 同时也可能成为失去客户的因素。在竞争剧烈的网络经济发展中,网上商家必 须更好地考虑顾客的需求和利益。 而同时电子商务网站每天都可能有上百万次的在线交易,生成大量的记录 文件和登记表,这些数据都是和客户行为有关的,对商家来说是非常重要的。 但是数据并不是信息。l l0 虽然电子商务网站能够记录下来丰富的交易信息、访 问信息和客户相关的数据,但是这些数据资源中所蕴涵的大量有益信息至今却 未能得到充分的挖掘和利用。对于电子商务网站的海量数据,理解它们已经远 远超过了人的能力。要想使数据真正成为一个公司的资源,只有充分利用它为 公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚 至成为垃圾。信息过量几乎成为人人需要面对的问题。如何才能不被数据的汪 洋大海所淹没,从中及时发现有用的知识,提高数据利用率,变得非常重要。 近年来兴起的数据挖掘技术为解决这个问题带来了一线曙光。简单地说, 数据挖掘就是从大量数据中提取或“挖掘”知识。数据挖掘是从海量的数据中 提取有价值的知识的工具。将数据挖掘技术应用于电子商务,对这些数据进行 挖掘,就可以找到有价值的“知识”。企业用户可以根据这些“知识”,把握客 户动态,追踪市场变化,做出正确的针对性的决策,比如改进网站、向各类客 户推进个性化的页面,或者向高流失客户群提供优惠政策进行挽留等。 为电子商务建立以数据挖掘为核心的客户关系管理系统,挖掘电子商务系 统积累的大量数据,将使企业能够及时应对市场变化,占领市场的制高点。 1 3 研究内容和目标 本课题分析一个基于i n t e m e t 的网上商品在线电子交易原型系统,它支持固 定价格交易、招投标、集中采购、拍买拍卖、交易自动撮合等交易模式。除了 以上的交易支持系统外,还包括客户关系管理子系统。该电子商务的客户关系 管理子系统基于数据挖掘技术,实现客户兴趣度分析等功能。 在本课题中,我的工作成果主要有如下几点: ( 一) 描述数据挖掘的一般性过程模型。 ( - - ) 分析面向电子商务的数据挖掘系统的特点并描述了其系统结构。 ( 三) 使用分层、组件化的技术建立电子商务原型系统。 4 武汉理工大学硕士学位论文 ( 四) 利用s q ls e r v e r 2 0 0 0 数据仓库和o l a p 技术进行分析,得到训练集, 在此基础上进行客户兴趣度分析。在挖掘过程中,研究并实现决策树算法。 根据企业的需求,建立面向电子商务的数据挖掘系统,有助于提高企业的 竞争力。这在客观上将会推动电子商务的进一步发展。由于数据挖掘具有与应 用背景紧密结合的特点,研究数据挖掘的一般方法和电子商务的特点,并分析 面向电子商务的数据挖掘的一般特点和方法,对于如何实施商业智能、建立基 于数据挖掘的客户关系管理具有重要的指导意义。 1 4 论文结构 论文首先介绍了数据挖掘了基本理论,然后描述了一个通用的数据挖掘过 程模型,并在这个模型的指导下,为电子商务系统上进行了客户兴趣度分析。 另外,论文还以电子商务系统的开发为例,描述了企业级软件开发的关键技术 和过程。论文具体组织如下: 第一章探讨了课题的背景及其研究意义,介绍了数据挖掘在国内外以及 在电子商务的研究现状,阐述了本论文主要的研究工作及取得的主要研究成果。 最后,给出了论文的整体组织结构。 第二章主要介绍数据挖掘的基本知识,包括数据挖掘的定义、分类、体 系结构等。 第三章介绍电子商务理论及其开发技术,并分析面向电子商务的数据挖 掘的主要特点及其体系结构。 第四章介绍了数据挖掘的应用背景,并描述了如何使用j 2 e e ( j a v e2 p l a t f o r m e n t e r p r i s ee d i t i o n ) 技术研究与设计本系统。 第五章描述了基于决镣树算法的电子商务的数据挖掘任务一客户兴趣度 分析的逻辑实现过程。 第六章介绍利用s q l s e r v e r 2 0 0 0 研究与设计数据挖掘模型。 第七章总结,指出论文研究成果及后续工作。 武汉理工大学硕士学位论文 第2 章数据挖掘与相关技术 2 1 数据挖掘简介 近年来,随着越来越多的企业将通信、计算机和网络技术引入企业的日常 工作和业务处理当中,企业的信息化程度不断提高。现代信息技术的广泛应用 显著的提高了企业的工作效率和经济效益。 然而,在享用信息技术带来的方便、快捷的同时,新的问题和需求也在不 断涌现。j 其中比较突出的有:第一,企业积累了大量的历史数据,这些数据 对企业当前的日常经营活动几乎没有任何的使用价值。完全储藏这些历史数据 会对企业造成很大的困难和开销。但其中显然蕴涵着对企业高层次的决策有着 宝贵价值的信息,简单的将它们丢弃是很大的浪费。希望能够对其进行更高层 次的分析,以便利用好这些数据。虽然目前的数据库系统可以高效的实现数据 的录入、查询、统计等功能,但是这些功能都是对企业的宏观经营决策没有多 大帮助的低层次的、微观的功能。 12 j 无法发现海量数据中存在的关系和规则, 无法根据现有的数据预测未来的发展趋势,缺乏发现数据背后隐藏的知识的手 段,导致了“数据丰富,但信息贫乏”。理解这些海量历史数据已经远远超出了 人的能力。结果这些数据变成了“数据坟墓”一难得再访问的数据档案。第二, 上述的大量历史数据是以各种各样的形式存在着的,直接在其上进行高层次的 分析是几乎无法实现的。必须对上述信息做初加工,使高层次分析能够顺利进 行。 有需求就有供给。为解决上述问题,数据挖掘技术应运而生,许多研究成 果和虚用产品不断涌现。该课题依然是当前信息技术领域的热门研究方向之一。 那么到底什么是数据挖掘( d m :d a t a m i n i n g ) 昵? 许多文献对其有着不同的 定义。但其共同点都大致为:数据挖掘是从大量的、不完全的、有噪声的、模 糊的、随机的数据中,提取隐含在其中、人们事先不知道的但又是潜在有用的 信息和知识的过程。u 3 数据挖掘提取的知识可以表示为概念、规律、模式、约 束、可视化。数据挖掘算法的好坏将直接影响到所发现知识的好坏。数据挖掘 的任务是从数据中发现模式。 武汉理工大学硕士学位论文 2 2 数据挖掘的功能 数据挖掘功能用于制定数据挖掘任务中要找的模式类型。数据挖掘任务一般 可以分为两类:描述和预测。描述性挖掘任务刻画数据库中数据的一般特性。i i 4 1 下面介绍一下数据挖掘功能以及它们可以发现的模式类型。 ( 1 ) 特征化和区分 数据特征化是目标类( 所研究的对象) 数据的一般特征或特征的汇总。数 据特征的输出可以用多种形式提供。包括饼图、条图、曲线、多维数据立方体 和包括交叉表在内的多维表。 数据区分是将目标类对象的一般特征与一个或多个对比类对象的一般特征 比较。区分描述的形式类似与特征描述,但区分描述应当包括比较度量,帮助 区分目标类和对比类。用户应当能够对特征和区分描述的输出进行操作。 ( 2 ) 关联分析 关联分析用于发现关联规则。若两个或多个数据项的取值重复出现且概率 很高时,它就存在着某种关联,可以建立起这些数据项的关联规则。关联分析 的目的是找出数据库中隐藏的关联网。在大型数据库中,这种关联规则是很多 的,般用“支持度”和“置信度”两个阈值来淘汰那些无用的关联规则。 ( 3 ) 分类 分类是数据挖掘中应用得最多的方法。分类是找出一卜类别的概念描述, 它代表了这类数据的整体信息,即该类的内涵描述,一般用规则或决策树模式 表示。一个类的内涵描述分为特征性描述和区别性描述。特征性描述是对类中 对象的共同特征的描述,区别性描述是对两个或多个类之间的区别的描述。 ( 4 ) 聚类分析 数据库中的数据可以分为一系列有意义的子集,或称为类。在同一类别中, 个体之间的距离较小,而不同类别的个体之间距离较大。待划分的对象根据最 大化类内的相似性,最小化类间的相似性的原则进行聚类或分组。 ( 5 ) 序贯模式 通过时间序列搜索出重复发生概率较高的模式。这里强调时间序列的影响。 例如,在所有购买激光打印机的人中,半年后有8 0 的人再购买新硒鼓,2 0 的人用旧硒鼓装碳粉。 f 6 1 孤立点分析 武汉理工大学硕士学位论文 数据库中的数据常有一些异常记录,这些记录称为孤立点。从数据库中检 测出这些孤立点很有意义。孤立点包括很多潜在的知识,如分类中的反常实例、 不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。孤 立点分析基本方法是寻找观测结果与参照之间的差别。 2 3 数据挖掘的体系结构 数据挖掘是一个复杂的过程,通常的数据挖掘的结构也比较复杂。典型的 数据挖掘体系结构如图2 一l 。这是一个三层的结构,从下向上分别是:数据,挖 掘引擎,用户界面。1 1 5 1 图2 - 1数据挖掘系统的体系结构 ( 1 ) 数据层。数据挖掘的对象是数据。为了便于挖掘,各种来源的数据 经过预处理( 包括数据清洗、数据集成、数据过滤等) 以后,将置于一个统一 模式的数据库或者数据仓库内。这个模式的设计综合考虑了挖掘任务、实施算 法、数据的特点等各种因素,使得挖掘能够最优化。 ( 2 ) 挖掘引擎。数据挖掘引擎内集成了数据挖掘的算法。它参考知识库, 武汉理工大学硕士学位论文 对数据库或者数据仓库中的数据进行挖掘,得到许多模式,并对这些模式进行 评估、筛选,得到有意义的、用户感兴趣的模式。 ( 3 ) 用户界面。用户界面是人机交互的界面。用户界面将这些模式用直观 的、易于用户理解的方式表现给用户。另外,用户可以( 有时也必须) 通过用 户界面对模式评估、挖掘引擎、数据的组织模式进行指导。 2 4 数据挖掘的算法研究 数据挖掘的核心技术算法主要有统计分析方法,神经元网络,决策树方法, 遗传算法等。【l6 j 其中决策树是一种常用于预测模型的算法,它通过将大量的数 据有目的地分类,从中找到一些具有商业价值的,潜在的信息。在所建立的电 子商务平台中,将采用决策树算法建立一个基于数据仓库的数据挖掘模型,从 而试图挖掘出有关客户,供应商以及产品等信息之间的潜在关系,为客户兴趣 度的评估做出建议。 2 4 1 决策树的基本思想和技术难点 决策树的结构,就像一棵树。【1 7 】它利用树的结构将数据记录进行分类,树 的一个节点就代表某个条件下的一个记录集,根据记录字段的不同取值建立树 的分支;在每个分支子集中重复建立下层节点和分支,便可以成为一棵决策树。 利用决策树进行分析,可以很容易地找到一些具有商业价值的潜在的规则信息。 建决策树的关键在于建立分支时对记录字段不同取值的选择。选择不同的 字段值,会使划分出来的记录子集不同,影响决策树生长的快慢以及决策树结 构的好坏,从而导致找到的规则信息的优劣。 可见,决笫树算法的技术难点也就是选择一个好的分支取值。利用一个好 的取值来产生分支,不但可以加快决策树的生长,而且最重要的是,产生的决 策树结构好,可以找到较好的规则信息。i l8 】相反,如果根据一个差的取值来产 生分支,不但减慢决策树的生长速度,而且会使产生的决策树分支过细,结构 性差,从而难以发现一些本来可以找到的有用的规则信息。怎么的取值才算一 个好的取值呢? 一个好的取值,就是决策树根据此值分裂时,产生的分支子集 中的记录在预测内容上尽可能一致。 武汉理工大学硕士学位论文 2 4 2i d 3 分类树算法 几乎所有的树的分类算法都是涉及到类变量和属性发生的概率,也就是变 量计数值的函数。因此,利用定义的s q l 抽取器,完全能够得出决策树算法所 需要的概率。【l9 i d 3 决策树算法是一个被广泛使用的数据挖掘算法,它借用信息 论的原理,将一棵决策树看作一个信源,通过依次将每一属性的不同属性值作 为信宿的表现状态,来判断哪一个属性的信息量最大,从而得到对产生分类规 则影响最关键的属性,并以此类推,得到整个最小花费树。 设某表由对象集u 构成,共有t 个属性( a 1 ,a 2 a j a 。) ,其中属性a i 有 w 个取值 码1 ,a j 2 ,a j ”) ,这w 个取值可将对象集u 分化为 u j l ,v i 2 ,u j ” 。 若实例学习的目的是形成n 个分类,其中p i 表示发生第1 类( 1 i n ) 信 息的概率( 在i d 3 中用相对概率来近似表示) ,则预期信息量 h ( u ) = - p i l 0 9 2 p i公式2 1 若用属性a j 对对象集u 的分化 u j l ,u j 2 ,u i ”) 做信宿,则后期信息量 h ( u la j ) = e p ( u j m ) h ( u j )公式2 2 所以信息增益i ( u ,a j ) = h ( u ) 一h ( u la j ) ,其中使得i ( u ,a j ) = m a x i ( u ,a j ) ) 的属 性加含信息量最大,为决策树的根,下面对每一个分支的其他属性循环使用该 方法,即可得最小花费树。 2 5 数据仓库 2 5 1 基于主题域的数据仓库 当数据库分布于多个节点时,进行全局的分析将是一个困难与费时的事情, 而且得到的结果有可能不准确。【2 0 因此,需要建立数据仓库,将各个节点、各 个来源的数据经过清洗、集成、统一,存放在一个统一的模式下。为了便于做 出决策,数据仓库中的数据将按照各个主题组织,从历史的角度提供汇总信息。 随着c s 技术的成熟和并行数据库的发展,信息处理技术的发展趋势已变 为:从大量的事务型数据库中抽取数据,并将其清理、转换为新的存储格式, 也就是为决策目标把数据聚合在一种特殊的格式中。随着此过程的发展和完善, 这种支持决策的、特殊的数据存储即被称为数据仓库( d w :d a t aw a r e h o u s e ) 。 1 0 武汉理工大学硕士学位论文 数据仓库是一种管理技术,它能够将分布在企业网络中不同站点的商业数 据集成到一起,为决策者提供各种类型的、有效的数据分析,起到决策支持的 作用。美国著名信息工程学家w h ,i n m o n 在建立数据仓库一书中对数据仓 库做了如下定义。“数据仓库是一个面向主题的、集成的、稳定的、包含历史数 据的数据集合,它用于支持管理中的决策制定过程。” 所谓主题,它是数据归类的标准,每个主题对应一个客观分析领域,如销 售状况、人事状况、整个企业的利润状况等。f 2 1 】它可以辅助决策集成多个部门 不同系统的大量数据。面向主题,是指数据仓库内的信息是按主题进行组织的, 为按主题进行决策的过程提供信息。以保险公司为例,传统的操作型系统是围 绕公司的应用进行组织的。应用问题可能是汽车保险、健康保险、人寿保险与 意外伤亡保险。而公司的主要主题范围可能是顾客、保险单、保险费与索赔。 又如,企业经营过程中,与“商品”有关的数据有“商品种类、型号、产地、等级、 品质等数据”、“进货方面的数据”、“销售方面的数据”和“库存方面的数据”等, 这些数据在面向应用的数据组织方式下被分散到不同的应用系统中:“进货管理 系统”、“销售管理系统”、“库存管理系统”等。而采用面向“商品”主题的数据组 织方式则上述数据都被集中放置在一起,形成对商品较为完整的说明,以便为 与商品有关的各类分折处理提供丰富的数据。显然“客户”也是企业数据仓库中的 重要主题,其中包含着企业经营决策所需的顾客信息。同样,在论文中,主题 包括用户、商品、分类、购买、相关度信息、规则等,因此数据库的建立是以 这些主题为中心进行组织的,以形成对主题的较为完整的说明。 所谓集成,是指数据仓库中的信息不是从各个业务处理系统中简单抽取出 来的,而是经过系统加工、汇总和整理,以确保数据仓库内的信息是关于整个 企业的一致的全局信息。在数据仓库的所有特性中,这是最重要的。当数据进 入数据仓库时,要采用某种方法来消除应用问题中的许多不一致性。例如,考 虑关于“性别”的编码,在数据仓库中是编码为m f 还是i 0 并不重要,重要的是, 无论什么原始应用问题,无论数据仓库如何进行编码,在数据仓库中应该一致 地进行编码。如果应用数据编码为x y ,当其进入数据仓库时对其进行转换。对 所有的应用设计问题都要考虑同样的一致性处理,比如命名习惯、键码结构、 属性度量以及数据特点等。 圈所谓稳定,是指一旦某个数据进入数据仓库,一般情况下将被长期保留, 也就是数据仓库中一般有大量的插入和查询操作,但修改和删除操作很少。 武汉理工大学硕士学位论文 所谓包含历史数据,是指数据仓库内的信息并不只是关于企业当时或某一 时点的信息,而是系统记录了企业从过去某一时点( 如开始应用数据仓库的时 点) 到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来 趋势做出定量分析和预测。 操作型环境操作型环境 数据的逐个记录方式处理数据的批量载入肋问 2 5 2 元数据管理 图2 2 数据仓库与操作型环境的区别 访问 构筑数据仓库过程中的最重要步骤之一,就是定义和创建元数据 ( m e t a d a t a ) ,元数据有二个级别:数据源、数据仓库和用户。数据仓库中的元数据 管理主要涉及数据仓库的定义、数据抽取和数据维护。 田】对于数据仓库的定义,主要是根据决策主题设计数据仓库结构,即定义 该主题所需各数据源的详细情况,包括所在计算机平台、拥有者、数据结构、 使用该数据源的处理过程、仓库更新计划等。定义数据抽取原则,以便从每个 数据源中抽取所需数据。定义数据如何转换、装载到主题的哪个数据表中。将 一个主题细化为多个业务主题,形成主题表,据此从数据仓库中选出多个数据 子集,即数据集市( d a t am a r t ) 。【2 4 】数据集市通常针对部门级的决策或某个特定业 务需求,它开发周期短,费用低,能在较短时间内满足用户决策的需要。因此, 在实际开发过程中可以选择在成功建立几个数据集市后再构建数据仓库这种策 略。这些数据定义直接输入系统中,作为元数据存储,供数据管理模块和分析 使用。元数据存储在元数据库中,它不仅是数据仓库的文档资料,供管理、维 护人员使用,而且亦可供用户查询,使之更好地了解数据仓库结构,提高自己 武汉理工大学硕士学位论文 的使用水平。 对于数据抽取模块,主要是根据元数据库中的主题表定义、数据源定义、 数据抽取规则定义对异地异构数据源( 包括各平台的数据库、文论文件、h t m l 文件、知识库等) 进行清理、转换,对数据进行重新组织和加工,装载到数据 仓库的目标库中。在组织不同来源的数据过程中,先将数据转换成一种中间模 式,再把它移至临时工作区。【2 5 】加工数据是保证目标数据库中数据的完整性、 一致性。在数据抽取过程中,必须在最终用户的密切配合下,才能实现数据的 真正统一。早期数据抽取是依靠手工编程和程序生成器实现,现在则通过高效 的工具来实现,如a r d e n t 公司的i n f o m o t e r 产品、s a s 的数据仓库产品s a s w a ( w a :w a r e h o u s e a d m i n i s t r a t o r ) 及各大数据仓库厂商推出的、完整的数据仓库解决 方案。 对于数据维护模块,该模块分为目标数据维护和元数据维护两方面。目标 数据维护是根据元数据库所定义的更新频率、更新数据项等更新计划任务来刷 新数据仓库,以反映数据源的变化,且对时间相关性进行处理。嘶1 更新操作有 两种情况。即在仓库的原有数据表中进行某些数据的更新和产生一个新的时间 区间的数据,因为汇总数据与数据仓库中的许多信息元素有关系必须完整地汇 总,这样才能保证全体信息的致性。 数据仓库规模一般都惊人,从建立之初就要保证它的可管理性,一个企业 可能建立几个数据仓库或数据集市,但他们可共用一个元数据库对其进行管理。 首先从元数据库查询所需元数据,然后进行数据仓库更新作业,更新结束后, 将更新情况记录于元数据库中。1 27 l 当数据源的运行环境、结构及目标数据的维 护计划发生变化时,需要修改元数据。元数据是数据仓库的重要组成部分,元 数据的质量决定整个数据仓库的质量。例如,将元数据用作目录,帮助决策支 持系统分析者对数据仓库的内容定位;当数据由操作环境到数据仓库环境转换 时,作为数据映射指南;对于汇总的算法,它也是指南。汇总算法将当前细节 数据汇总成稍加综合的数据,或将稍加综合的数据汇总成高度综合的数据。 2 6 联机分析处理( o l a p ) 联机分析处理( 0 l a p :o n - l i n ea n a l y t i c a lp r o c e s s i n g ) 是一种针对特定问题的 联机数据访问和分析的软件技术。它使决策者能够迅速、一致、交互地从各个 武汉理工大学硕士学位论文 角度蕊察穰怠f 这些信恿已放琢始靛数据进露了转换,反浚了蠲户所麓理熬静企 业真实的各个方面) ,达到深入理解数据的目的。 典型的o l a p 运作包含数据的切片、切块、旋转、钻取等。o l a p 的应用程 序在透 爹褥爨分辑帮羧定分辑对涉及裂多维上懿诗算鄂建模,同时戆对藏瑟数 据和可能性的细节数据进行从高水平至0 低7 k 平的细化展示,鬣是由于o l a p 使 用户可以从多角度、多侧面地观察d w 中的数据,从而深入了解包含在数据中 信息、内涵,因此驶称为“多维分聿斤”( m d a :m u l t i p l e d i m e n s i o n a n a l y s i s ) 。 2 6 1 多维分析的慕本功麓 【2 8 l 多维分析的基本动作分为:切片,在多维数组的某一维上选定一组成员的 凄 睾零錾为锯片。餐块,在多维数缝戆菜维主选定菜一速闻瓣壤藏贾静动僚称为 切块,即限制多维数级的某一维的取值区间。照然,当这一鼷间只取一个维成 员时,即得到一个切片。从另一角度讲,切片可以看成是在切块的基础上,进 一步确定器个维成员鹃区溺褥至l 豹砖+ 段体,也帮由多个切片蚕台起来。如霪2 3 甄示。 旋转,是改变一个报告或页筒履示的维方向。例如,旋转可能包含了交换 行和y i j :戡是把某一行维移到列维中去,或是把页丽显示中的一个维和页面外的 缍送霉交换。链取毯旗两下链取( r o l l d o w n ) 帮氪羔链取( r o l l u p ) 操器。 产品维产品维产品维 睦维 客户维客户维客户缎 圈2 - 3 拐y r 与翻浃 2 6 2o l a p 技术的实现方式 赡 o l a p 麓在交互式套谗窝对数掭分羲熬墓綦囊上,绘爨数据会疼串鼗撂懿多壤 逻辑视阕,它的物理结构涉及到数据的存储技术是多维数据存储还是关系数据 存储。正因为如此,o l a p 分为纂于多维数据库的o l a p 和熬于关系数据库的 j 4 武汉理工大学硕士学位论文 u l a p 。 基于多维数据库的o l
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论