(通信与信息系统专业论文)基于soa构建电信行业数据挖掘应用平台.pdf_第1页
(通信与信息系统专业论文)基于soa构建电信行业数据挖掘应用平台.pdf_第2页
(通信与信息系统专业论文)基于soa构建电信行业数据挖掘应用平台.pdf_第3页
(通信与信息系统专业论文)基于soa构建电信行业数据挖掘应用平台.pdf_第4页
(通信与信息系统专业论文)基于soa构建电信行业数据挖掘应用平台.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(通信与信息系统专业论文)基于soa构建电信行业数据挖掘应用平台.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京邮电大学硕士学位论文 基于s o a 构件电信行业数据挖掘应用平台 摘要 中国电信行业面临着激烈的行业竞争,虽然目前已经建立起大量 的计算机应用系统,如计费、营业、账务、网管等,使电信企业的生 产效率得到了大幅度的提高,为满足高质量的服务提供了有效的保 证。但这些系统仍然有许多不足之处,如系统孤立、数据不能得到很 好的利用、缺乏动态捕捉市场机会和及时发现企业所存在问题的机制 等,企业在面临竞争时就无法做出快速正确的决策。 同时,电信运营商的经营模式也逐渐从“技术驱动 向“市场驱 动 、“客户驱动转化。面对客户的多样化、层次化、个性化的需求, 大众化营销已经失去了其优势,基于客户信息、客户价值和行为,深 入数据分析的洞察力营销、精确化营销的理念也逐渐被各大电信运营 商所接受,并渴望通过从诸多应用系统的数据中挖掘价值来减少营销 成本、提高营销效益。 满足电信需求的解决方案就是在电信行业中构建数据挖掘平台。 直接将现有的数据挖掘技术应用到电信行业中还存在一定的局限性, 比如说开发周期长、不够灵活等。s o a 是构建新一代企业应用的技术 标准,能够整合现有系统,实现灵活流程。本文针对电信行业数据挖 掘需求,结合现有数据挖掘技术,提出了一个基于s o a 的电信行业数 据挖掘解决方案,能够满足电信数据挖掘集成化、灵活性、定制性的 要求。 北京邮电大学硕士学位论文 本文的主要研究内容如下: 1 、对数据挖掘的基本原理、流程进行了研究,研究了数据挖 掘算法分类,并主要对聚类分析、关联分析、决策树、神经网络 等算法进行了研究。分析总结了数据挖掘算法应用领域。 l 、在此基础上研究了电信数据挖掘流程和体系结构,分析了 电信数据挖掘需求及算法应用。在电信数据挖掘结构加入商业逻 辑层和模型管理层,并加入了业务数据映射模块,从而能够是电 信数据挖掘更加灵活。 2 、研究ys o a 的基本原理、技术,分析- 了 s o a 实现方法。引 用并分析了i b ms o a 基础构建,并提出了s o a 技术的几个关键问 题。 3 、结合电信数据挖掘需求、体系结构,划分了电信数据挖掘 基本服务,在研究了s c a 、s d o 、b p e l 等s o a 技术的基础之上, 基于s o a 提出了电信数据挖掘应用平台解决方案。 4 、在解决方案的指导下,详细设计并部署实现电信行业用户 行为分析案例。主要实现了用户群聚类分析这个应用,设计了用 户群聚类分析s o a 服务实现方案,并对该应用进行了展示。 关键词:数据挖掘,s o a ,电信行业,商业逻辑,业务数据映射 n 北京邮电大学硕士学位论文 r e s e a r c ho fs o a b a s e dd a t am i n i n g a p p l i c a t i o np l a t f o r m t e l e c o m m u n i c a t i o n si ndustryin 1 e l e c o m m n nn si nu s t r v a b s t r a c t c h i n a st e l e c o m m u n i c a t i o n s i n d u s t r y f a c e s f i e r c e i n d u s t r y c o m p e t i t i o n s a l t h o u g ha tp r e s e n tt h e yh a v ee s t a b l i s h e dal a r g en u m b e ro f c o m p u t e ra p p l i c a t i o ns y s t e m s ,s u c ha sb i l l i n g ,b u s i n e s s ,a c c o u n t i n g ,a n d n e t w o r km a n a g e m e n t ,w h i c h s i g n i f i c a n t l yi m p r o v et h ep r o d u c t i o n e f f i c i e n c yo ft e l e c o m m u n i c a t i o ne n t e r p r i s e sa n dp r o v i d ea ne f f e c t i v e g u a r a n t e et om e e th i g hq u a l i t ys e r v i c e h o w e v e r , t h e s es y s t e m ss t i l lh a v e m a n yd e f i c i e n c i e s ,s u c ha si s o l a t i o ns y s t e m ,d a t ac a nn o tb eg o o du s e ,a l a c ko fm e c h a n i s mt o d y n a m i c a l l yc a p t u r em a r k e to p p o r t u n i t i e sa n d d e t e c te x i s t i n gp r o b l e m s ,e n t e r p r i s e sw i l ln o tb ea b l et om a k eq u i c k l y c o r r e c td e c i s i o ni nf a c eo f c o m p e t i t i o n a tt h es a m et i m e ,b u s i n e s sm o d e lo ft e l e c o mo p e r a t o r st r a n s f o r m g r a d u a l l y f r o m t e c h n o l o g y d r i v e n t o m a r k e t - d r i v e n a n d c u s t o m e r - d r i v e n m a s sm a r k e t i n gh a sl o s ti t se d g ef a c i n gt h ed i v e r s i f i e d , h i e r a r c h i c a la n dp e r s o n a l i z e dn e e d so fc u s t o m e r s m a r k e t i n gc o n c e p to f i n s i g h tm a r k e t i n ga n dp r e c i s i o nm a r k e t i n gt h r o u g hi n d e p t hd a t aa n a l y s i s b a s e do nc u s t o m e ri n f o r m a t i o n ,v a l u ea n db e h a v i o rh a sg r a d u a l l yb e e n a c c e p t e db ym a j o rt e l e c o mo p e r a t o r s t h e ya l s od e s i r eal o tt om i n i n g v a l u ef r o md a t ao fv a r i o u sa p p l i c a t i o n s y s t e m s ,w h i c hc a nr e d u c e m a r k e t i n gc o s t sa n di m p r o v em a r k e t i n ge f f e c t i v e n e s s t h es o l u t i o nm e e t i n gn e e d so ft e l e c o mi sb u i l d i n gd a t am i n i n g p l a t f o r mi nt e l e c o m m u n i c a t i o n si n d u s t r y t h e r ea r es t i l ls o m el i m i t a t i o n s t ou s ee x i s t i n gd a t am i n i n gt e c h n o l o g yi nt e l e c o m m u n i c a t i o n si n d u s t r y d i r e c t l y , s u c ha sal o n gd e v e l o p m e n tc y c l e ,n o te n o u g hf l e x i b i l i t y s o ai s t h et e c h n i c a ls t a n d a r d st ob u i l dn e wg e n e r a t i o ne n t e r p r i s ea p p l i c a t i o n s i t c a ni n t e g r a t ee x i s t i n gs y s t e m sa n da c h i e v ef l e x i b l ef l o w i nt h i sp a p e r , b a s e do nd a t am i n i n gr e q u i r e m e n t so ft e l e c o m m u n i c a t i o n si n d u s t r y , c o m b i n e dw i t he x i s t i n gd a t am i n i n gt e c h n o l o g y , w ep u tf o r w a r da s o a b a s e dd a t am i n i n go ft h et e l e c o mi n d u s t r ys o l u t i o n sw h i c hc a nm e e t i i i 北京邮电大学硕士学位论文 i n t e g r a t i o n , f l e x i b i l i t y a n d c u s t o m i z a b i l i t yr e q u i r e m e n t s o f t e l e c o m m u n i c a t i o n sd a t am i n i n g t h em a i nr e s e a r c hc o n t e n t sa r ea s f o l l o w s : 1 、g i v eas t u d yo nt h eb a s i cp r i n c i p l e sa n df l o wo fd a t am i n i n g ,d o s o m er e s e a r c ho nt h ec l a s s i f i c a t i o no fd a t am i n i n ga l g o r i t h m s ,a n dm a i n l y o nt h ea l g o r i t h m so fc l u s t e ra n a l y s i s ,c o r r e l a t i o na n a l y s i s ,d e c i s i o nt r e e a n dn e u r a ln e t w o r k a n a l y z i n ga n ds u m m i n gu pa p p l i c a t i o na r e a so f v a r i o u sd a t am i n i n ga l g o r i t h m s 2 、d os o m es t u d i e so i lt h et e l e c o m m u n i c a t i o n sd a t am i n i n gf l o wa n d a r c h i t e c t u r e ,a n a l y z i n gt h ed a t am i n i n gn e e d so ft e l e c o m m u n i c a t i o n sa n d a l g o r i t h ma p p l i c a t i o n s a d db u s i n e s sl o g i cl a y e r , m o d e lm a n a g e m e n t l a y e ra n db u s i n e s sd a t am a p p i n gm o d u l eo nt h es t r u c t u r e ,w h i c hc a n i m p l e m e n tam o r ef l e x i b l et e l e c o md a t am i n i n g 3 、s t u d i e so nb a s i cp r i n c i p l e s ,t e c h n o l o g ya n di m p l e m e n t a t i o no f s e a q u o t e da n da n a l y z e dm ms e af o u n d a t i o na r c h i t e c t u r e ,a n d p r o p o s e ds e v e r a lk e y i s s u e so fs e a t e c h n o l o g y 4 、d i v i d i n g b a s i cs e r v i c e so ft e l e c o m m u n i c a t i o n sd a t am i n i n gb a s e d o nd e m a n da n da r c h i t e c t u r eo ft e l e c o m m u n i c a t i o n sd a t am i n i n g b a s e do n t h es t u d yo fs c a ,s d o ,b p e la n do t h e rs e at e c h n o l o g i e s ,p u tf o r w a r d as o l u t i o no fs e a b a s e dd a t am i n i n ga p p l i c a t i o np l a t f o r mi nt e l e c o m 5 、u n d e rg u i d a n c eo ft h es o l u t i o n ,d e s i g n ,d e p l o ya n dr e a l i z ea u s e r b e h a v i o u ra n a l y s i sc a s eo ft e l e c o m m u n i c a t i o n si n d u s t r y m a i na c h i e v e s t h ea p p l i c a t i o no fu s e rc l u s t e r i n ga n a l y s i s ,a n dd e s i g ns o l u t i o no fu s e r c l u s t e r i n g s e as e r v i c e s a tt h es a m et i m e ,g i v ead i s p l a yo ft h e a p p l i c a t i o n k e yw o r d s :d a t am i n i n g ,s e a ,t e l e c o m m u n i c a t i o n si n d u s t r y , a p p l i c a t i o np l a t f o r m ,b u s i n e s sl o g i c ,m a p p i n go fb u s i n e s sa n dd a t a 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:日期:! 羔至:! ! 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅:学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名: 导师签名: 日期:盟! :! ! 日期: k 斗 北京邮电大学硕士学位论文 1 1 课题背景 第一章前言 无论是在国内还是在国外,各个行业都面临着激烈的竞争,趋势分析以及正 确及时的决策是企业生存与发展的关键环节。中国电信行业同样面临着激烈的竞 争,虽然目前已经建立起大量的计算机应用系统,如计费、营业、账务、网管等, 使电信企业的生产效率得到了大幅度的提高,为满足高质量的服务提供了有效的 保证。但这些系统仍然有许多不足之处,如系统孤立、数据不能得到很好的利用、 缺乏动态捕捉市场机会和及时发现企业所存在问题的机制等,企业在面临竞争时 就无法做出快速正确的决策。 随着国内电信市场竞争的日趋激烈,电信运营商的经营模式逐渐从“技术驱 动 向“市场驱动 、“客户驱动一转化。面对客户的多样化、层次化、个性化的 需求,大众化营销已经失去了其优势,基于客户信息、客户价值和行为,深入数 据分析的洞察力营销、精确化营销的理念也逐渐被各大电信运营商所接受,并渴 望通过从诸多应用系统的数据中挖掘价值来减少营销成本、提高营销效益。 面对这些情况,电信企业采用了构建商业智能平台的方式来满足需求。它能 有效整合现有业务数据,通过分析数据并预测未来,发现客户价值,建立精确营 销,重构企业的核心竞争力。随着商业智能的发展,作为商业智能实现的关键技 术,数据挖掘的作用越来越凸现出来。数据挖掘是从数据集中识别出有效的、新 颖的、潜在有用的以及最终可理解模式的高级处理过程,它注重的是事物潜在规 律的分析和挖掘,并能实现对问题和未来的预测,而并不是基于人们提出的假设, 从而能对企业决策提供更有力的帮助。 所以,在电信行业中构建数据挖掘应用平台是十分必要的。 1 2 数据挖掘发展现状 研究据挖掘技术的重大意义已经被人们广泛地认识,数据挖掘被列为数据库 研究领域中重要的课题之一。许多公司和企业也都充分认识到了深层次的分析本 企业数据库中的数据能带来更多的商业机会,帮助其进一步的掌握和了解客户的 信誉,习惯和消费心理,以便相应的调整市场策略,扩展市场。 北京邮电大学硕士学位论文 1 9 8 9 年8 月,国际上第一次关于数据挖掘和知识发现的讨论会在美国底特律 召开。知识发现一词就在这次会议上正式形成 1 。此后,1 9 9 5 年在加拿大召开 了第一届知识发现和数据挖掘的国际学术会议( i n t e r n a t i o n a lc o n f e r e n c eo n d a t am i n i n g k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 。这次会议明确了知识发现 的概念,并确定了知识发现过程和数据挖掘的关系,从此数据挖掘开始流行。可 以说,数据挖掘是知识发现概念的深化,数据挖掘是人工智能、机器学习与数据 库技术相结合的产物。 数据挖掘方法的提出,让人们有能力最终认识数据的真正价值,即蕴藏在数 据中的信息和知识。目前,数据挖掘技术已成为研究的热点,机器学习和数据研 究的理论及实践成为数据挖掘研究的铺垫。广阔的商业应用前景则又吸引了大量 的研究人员和商业机构,极大地推动了数据挖掘研究的发展。一批综合了数据库、 专家系统、模式识别、机器学习、统计学、科学发现和数据分析等领域的研究成 果的数据挖掘系统工具被开发出来,并在商业、经济、电信、金融等领域取得应 用性成果,如i b mi n t e l l i g e n tm i n e r 、s a se n t e r p r i s em i n e r 、s p s sc l e m e n t i n e 、 m i c r o s o f ts q ls e r v e r 等,它们都能够提供常规的挖掘过程和挖掘模式。 目前,数据挖掘工具软件主要可以分为两类:特定领域的数据挖掘工具和通 用的数据挖掘工具。特定领域的数据挖掘工具针对某个特定领域的问题提供解决 方案。在设计算法的时候,充分考虑到数据、需求的特殊性,并作了优化。对任 何领域,都可以开发特定的数据挖掘工具。例如,i b m 公司的a d v a n c e d s c o u t 系统 针对n b a 的数据,帮助教练优化战术组合;加州理工学院喷气推进实验室与天文 科学家合作开发的s k i c a t 系统,帮助天文学家发现遥远的类星体;芬兰赫尔辛 基大学计算机科学系开发的t a s a ,帮助预测网络通信中的警报。特定领域的数据 挖掘工具针对性比较强,只能用于一种应用;也正因为针对性强,往往采用特殊 的算法,可以处理特殊的数据,实现特殊的目的,发现的知识可靠度也比较高。 通用的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常 见的数据类型,一般提供六种模式。例如,i b m 公司a l m a d e n 研究中心开发的q u e s t 系统,i b m 公司的d b 2d a t am i n e r ,s g i 公司开发的m i n e s e t 系统,加拿大 s i m o n f r a s e r 大学开发的d b m i n e r 系统。 不过以上的数据挖掘工具和解决方案仍然存在一些问题,如 ( 1 ) 有些数据挖掘解决方案只是将常用的数据挖掘算法集成在一起,对每 种算法提供应用程序的接f 3 a p i ,这些算法a p i 需要使用复杂接口和数据结构来调 用,一般的程序员和用户很难完全掌握。这类方案被称为横向的数据挖掘解决方 案,它的缺点是集成化不够,不易掌握。 ( 2 ) 有些则只提供针对几种固定主题的数据挖掘,当出现新的主题挖掘需 2 北京邮电大学硕士学位论文 求时,需要重复数据挖掘的诸多流程,企业用户不经过长时间的培训无法充分掌 握。由工程人员实施,周期长而无法满足实时的需求。所以这类方案的缺点是应 用狭隘,灵活度不够,被称为纵向的数据挖掘解决方案。 ( 3 ) 而且,在很多情况下,企业用户也不能很清楚的提出挖掘需求,从而 增加了数据挖掘应用的难度。现有的一些数据挖掘解决方案无法解决自动产生有 价值信息的问题,也不能自动指导用户进行挖掘分析。 1 3 数据挖掘电信应用现状 目前数据挖掘技术已经被国内外大型企业所接受,一个企业要保持竞争优势 并不断获得企业盈利,关键是要决策科学化。决策科学化可从四方面入手:一是 提高分析的速度和灵活性;二是集成企业范围内所有数据并将这些数据转化成有 用的信息;三是改进企业业务流程、促进或再创造商业进程:四是明确顾客的需 求。在当今信息爆炸的时代,如何从浩瀚的数据中挖掘出有价值的信息己经越来 越成为人们关注的焦点。 在电信行业中,对市场和客户的更好把握会带来巨大的业务提升和经济收 益。图1 1 所的几个应用领域是证明数据挖掘具有良好的商业价值: odbb 臣至回 团 i 产品组合,交叉铜鲁 ll 市场研究i o _ - _ _ _ _ _ - _ _ - - _ _ - - _ _ - _ _ _ _ - - - _ - _ - _ - - _ _ _ _ _ _ _ _ _ 至互 困 l 喜誓分忻 ii 信息管理 l _ - - - _ _ _ _ _ _ _ _ _ _ 一- - _ _ _ - - _ - _ _ _ - _ _ - o - 一 亟巫 团 i 曩务辱级分析 li 拖欠f 麓 l o 。o o 。_ _ _ _ _ - _ _ _ o - _ - o - _ _ _ _ - 一 臣团 三匠 卫 图1 1 数据挖掘电信应用领域 在国内,有亚信科技研发的中国移动经营分析系统就将电信多维分析和数据 挖掘集成在一起,有效实现了业务分析、营销分析等,并提供了预测功能,它涉 及到了图1 1 中电信客户管理、网络产品服务管理、市场财务管理,客户分群, 市场研究,网络分析,套餐分析等方面,但是对客户行为分析、客户流失分析、 交叉销售等领域的研究应用不足。 随着市场及营销观念的改变,以人为本、客户中心的思想也逐渐被电信企业 所接受并运用。这样,用户及需求的多样性,业务的多样性造成了新的应用领域 北京邮电大学硕士学位论文 的出现,需要新的数据挖掘能够尽快的部署和应用。而目前的数据挖掘系统并不 能满足这一要求,无法实现快速、灵活、用户可以定制的数据挖掘。 1 4s o a 发展现状 s o a 领导厂商i b m 对s o a 的定义如下: 面向服务的体系结构( s o a ) 是一种用于创建企业i t 体系结构样式,利用 了面向服务的原则来实现业务和支持业务的信息系统之间更为紧密的关系。 企业信息化的下一个阶段就是基于互联网的信息整合,解决企业内部部门之 间和外部企业与关联企业、企业和客户之间的信息沟通。但也不可能因此要求所 有企业都用一个厂商的软件,并且一步到位实施完成所有的业务流程,即使这个 流程真的被一个厂商完全实现,那也不代表这个企业不和外部企业进行信息交 互,要和外部进行信息的交互就意味着接口的标准:企业的业务也不可能永远不 变,业务改变就意味着系统有升级的需求,就意味着原有系统的处理问题。s o a 是一种理念,使我们的互联网能支持更广泛的平台和环境,扩展网络应用的使用 范围,它代表着互联网的未来。 随着s c a 及s d o 标准的出现,s o a 真正实现了落地。随着企业部署s o a 的热情和 需求增强,s o a 发展也如火如荼。s o a 领导厂商i b m 推出了w e b s p h e r e 系列s o a 产品, o r a c l e 、m i c r o s o f t 等也在大力发展s o a 技术力量。i b m 第二届s o a i m p a c t 全球大会 的6 3 0 0 多位客户的调查结果显示,s o a 部署正在加速成长,s o a 正在从i t 部门主导 转向业务部门主导。各个行业也正在加速部署s o a ,s o a 项目成翻番式的增长,银 行与保险业在s o a 成熟度方面居领先地位。 s o a 的作用,简单来说,一个是连接异构系统,共享数据信息,另一个是整 合流程,加快部署。这两个特点,也使得利用s o a 来构建电信行业中的数据挖掘 平台成为一个很好的解决方案。电信行业业务繁多,系统种类多样,业务和数据 也很复杂,需要s o a 进行梳理和流程管理。利用s o a ,新的数据挖掘流程也很容易 部署和应用,从而加快数据挖掘的速度,进一步为商业决策贡献力量。s o a 使得 实现能够满足集成化、灵活性、定制性的电信数据挖掘应用平台成为可能。 1 5 本文主要研究工作 本文的主要研究工作如下: 4 北京邮电大学硕士学位论文 ( 1 ) 对数据挖掘的基本原理、过程、算法及应用进行了研究。 ( 2 ) 在此基础上研究了电信数据挖掘流程和体系结构,分析了电信数据挖 掘需求及算法应用。 ( 3 ) 研究了s o a 的基本原理、技术,分析y s o a 实现方法。 ( 4 ) 结合电信数据挖掘需求、体系结构,基于s o a 提出了电信数据挖掘应用 平台解决方案。 ( 5 ) 在解决方案的指导下,详细设计并部署实现电信行业用户行为分析案 例。 本文下面的所有内容都是围绕上面提到的五大方面的内容展开的。最终目标 是实现一个基于s o a 的具备有集成性、灵活性、定制性的电信行业数据挖掘应用 平台解决方案。 1 6 本文的组织 本文第一章概述了数据挖掘的发展现状、其在电信行业的应用现状及s o a 的 发展现状,同时确定了本文的研究工作是基于s o a 的电信行业数据挖掘应用平台 解决方案。第二章就数据挖掘技术原理、流程、结构、算法及应用进行了研究和 分析。第三章在数据挖掘研究的基础之上,提出了一个电信行业数据挖掘体系结 构,研究了数据挖掘在电信行业中的应用,进行了需求分析。第四章在分析s o a 技术的基础之上,提出了基于s o a 的电信行业数据挖掘解决方案。第五章详细设 计并实现了电信行业用户行为分析数据挖掘案例。第六章,对本文所做研究进行 了总结,并对下一步工作进行了展望。 北京邮电大学硕士学位论文 2 1 数据挖掘原理 第二章数据挖掘技术研究 数据挖掘( d a t am i n i n g ) 是从海量数据中提取隐含在其中的有用信息和知识 的过程。它能从大量的数据中抽取出潜在的、不为人知的有用信息、模式和趋势, 是一种更深层次的数据分析。这个定义包括好几层含义:数据源必须是真实的、 海量的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用。 数据是形成知识的源泉,原始数据可以是结构化的,如关系数据库中的数据; 也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型 数据。方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。 发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用 于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从 低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引 下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、 可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴 的研究领域,形成新的技术热点。 1 9 9 5 年在加拿大召开了第一届知识发现和数据挖掘的国际学术会议 ( i n t e r n a t i o n a lc o n f e r e n c eo nd a t am i n i n g k n o w l e d g ed i s c o v e r yi n d a t a b a s e ) 。这次会议明确了知识发现的概念,并确定了知识发现过程和数据挖 掘的关系,从此数据挖掘开始流行。可以认为数据挖掘和知识发现是同一概念, 也可以将数据挖掘看作是知识发现的一个阶段。知识发现的处理过程模型如图 2 1 所示: 6 乜鲰 北京邮电大学硕士学位论文 图2 1 知识发现的处理过程模型 数据挖掘提供了从数据到价值的解决方案:“数据+ 工具+ 方法+ 目标+ 行动= 价 值 。数据挖掘目前已有一系列应用:分类分析、聚类分析、预测分析、偏差分 析、关联分析和时序模式等,这些应用涉及到的技术和工具各不相同,然而却可 以依据统一的方法论来实行,并可以协同作战,解决许多有价值的商业问题。由 s p s s 、n c r 和d a i m l e r b e n z d 在1 9 9 6 年提出的c r i s p - d m 方法论是国际上数据挖掘行 业流行的标准,其成功之处在于源于实践,是实际数据挖掘项目的智慧和经验的 结晶。c r i s p - d m 定义了数据挖掘项目的标准化流程,和知识发现的过程模型相差 不多,如图2 2 所示。 图2 2c r i s p d m 数据挖掘流程 数据挖掘流程中各步骤的大体内容如下: ( 1 ) 商业理解:清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘 的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为 了数据挖掘而数据挖掘则带有盲目性,是不会成功的。 ( 2 ) 数据理解:定义了商业和业务问题之后,需要对业务对应数据有所理 解。商业和业务中的模式和知识,是从数据中挖掘出来的,所以对数据的理解也 是数据挖掘的基础。 ( 3 ) 数据准备:在这个环节中,首先进行数据的选择,即搜索所有与业务 对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。然 后进行数据的预处理,研究数据的质量,进行数据的转换操作,为进一步的分 析做准备,并确定将要进行的挖掘操作的类型。 ( 4 ) 模型建立:将数据转换成一个分析模型,这个分析模型是针对挖掘算 法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。这样, 就可以对经过转换的数据进行数据挖掘了。 ( 5 ) 模型评估:对数据挖掘的结果进行分析,解释并评估结果。其使用的 分析方法一般应作数据挖掘操作而定,通常会用到可视化技术。 ( 6 ) 模型发布:评估结束后,满足决策分析并明细可靠的知识,将被集成 到业务信息系统的组织结构中去。这样,业务人员就可以根据数据挖掘所得到的 知识进行业务操作。 数据挖掘流程是分步实现的,不同的阶段会需要有不同的人员参与。整个的 数据挖掘流程中所涉及到的人员大致可以分为三类: ( 1 ) 业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对 象确定出用于数据定义和挖掘算法的业务需求。 北京邮电大学硕士学位论文 ( 2 ) 挖掘分析人员:精通数据分析与挖掘技术,熟练掌握数据挖掘算法, 有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术。 ( 3 ) 数据管理人员:精通数据管理技术,并从数据库、数据仓库或外部数 据源中整理收集数据。 这样,数据管理人员将数据准备好之后,挖掘分析人员根据业务分析人员提 出的业务数据挖掘需求,将业务与数据进行联系,选择好对应的数据挖掘算法, 进行挖掘计算,形成知识。数据挖掘得到的知识和模式,再通过业务分析人员形 成企业决策关键信息。 从上可见,数据挖掘是一个多专家合作的过程,也是一个在资金上和技术上 高投入的过程。这一过程要反复进行,在反复过程中不断地优化问题,不断地趋 近事物的本质。 2 2 数据挖掘算法 2 2 1 数据挖掘分类 数据挖掘技术的核心是数据挖掘算法,不同的数据挖掘算法有不同的应用范 围。根据算法,可以将数据挖掘技术分为两大类:描述型数据挖掘和预测型数据 挖掘。 描述型数据挖掘包括一系列在预先未知任何现有模式的情况下,在数据内查 找模式的技术。它主要用来刻画数据库中数据的一般特征,下面是描述型挖掘技 术的一些示例。 ( 1 ) 聚类:分群是描述一系列技术的术语,该技术尝试根据数据记录的相 似性对其进行归组。比如,数据记录可能包含对每个顾客的描述。这种情况下, 分群将把类似的顾客归组到一起,同时最大程度地体现按此方式组成的不同顾客 组之间的差异。正如本文的示例中所描述的那样,有许多不同的,每种技术都有 自己的方法。 ( 2 ) 关联分析:关联分析用来描述确定数据记录间关联的一系列技术。最 熟知的关联分析类型是市场购物篮分析。该情况下数据记录是顾客在同义词事务 中购买的物品,由于该技术来源于超市数据的分析,因此称这些物品在同一个购 物篮中。市场购物篮分析可发现不同顾客所购买的物品组合,通过互关联( 或链 接) ,您可以总结出那些类型的产品是在一起购买的。关系分析不仅限于市场购 物篮分析。如果您将市场购物篮看作是一组数据记录,那么在任何情况下只要存 北京邮电大学硕士学位论文 在大量数据记录,就可以使用该技术。 ( 3 ) 频度分析:频度分析中所包含的数据挖掘技术适用于对有时间顺序的 数据记录的分析或可视为有顺序的任何实际数据集的分析。这些数据挖掘技术尝 试在顺序数据中检测类似的序列或子序列。 预测型数据挖掘包括一系列在您的数据中查找特定变量( 称为“目标变量 ) 与其他变量之间关系的技术。通过发现变量之间的关系实现在当前数据上进行推 断,以进行预测。下面是预测型挖掘技术的一些示例。 ( 1 ) 分类:分类是将数据记录分配到预先定义的类别中。例如,将顾客分 配到市场区。这种情况下,目标变量就是类别,该技术发现其他变量和类别之间 的关系。当对新的记录归类时,该技术可确定类别和记录属于该类别的可能性。 分类技术包括决策树、神经网络和( r b f ) 分类挖掘等技术。 ( 2 ) 数值预测:数值预测指的是根据数据记录中的变量预测某个连续变量 的值。例如,根据顾客的年龄、性别和收入组来预测他的大概支出。最常用的数 值预测技术包括线性和多项式回归,数据挖掘将这些技术扩展到其他技术,比如 神经元和r b f 值预测。 在以上数据挖掘技术中,最有应用价值的是聚类分析、关联分析和预测。以 下对这三项所涉及到的聚类分析算法、关联分析算法、决策树及神经网络算法进 行详细分析和研究。 2 2 2 聚类分析算法 在数据挖掘算法中,聚类分析( c l u s t e r i n g ) 是一个很活跃的研究领域。聚 类分析是指将物理或抽象对象的集合分组成为有类似对象组成的多个类的过程。 简单地说,就是识别出一组聚类规则,将数据分成若干类。与分类不同的是,聚 类在实际划分之前并不明确知道划分的规则,划分规则需要通过聚类分析才能得 到。由于聚类所生成的簇( c l u s t e r ) 是一组数据对象的集合,其特点是簇内对 象差异较小,簇间间距差距较大。数据挖掘对聚类提出了典型的要求如下: ( 1 ) 具有良好的可伸缩性:可以处理海量数据的能力,在小数据集合上工 作得很好的聚类算法,随着数据对象的增加,其处理能力不应明显降低。 ( 2 ) 处理不同类型数据的能力:当前的聚类算法一般只是针对某种数据类 型,但是聚类作为一种分析工具,应该能够对不同类型数据进行分析,或者对多 种类型的混合数据进行分析。 ( 3 ) 能够发现任意形状聚类:许多聚类算法采用欧式距离来决定相似度, 这种度量方式趋向于发现球( 超球) 簇,而现实中有着大量各类形状的簇,因此 9 北京邮电大学硕士学位论文 需要聚类能够发现任意形状的簇。 ( 4 ) 处理噪声的能力:现实的数据中不可避免的存在各类噪声,这些噪声 的出现不应该对聚类产生较强的影响,但是有些聚类算法对噪声是敏感的。 ( 5 ) 对输入记录的顺序不敏感:在聚类过程中要求聚类算法对于同一个数 据集合,当以不同的顺序输入时,不能产生差别很大的聚类结果。 ( 6 ) 处理高维数据的能力:当前的数据集合具有各类不同属性,这就使得 数据处于高维空间中,人们对于三维以下的数据聚类情况能够较好的判别聚类结 果的好坏,但是在高维情况下,考虑到数据分布可能很稀疏,而且高度倾斜,所 以聚类这样的数据对象是一个具有挑战性的课题。 ( 7 ) 聚类结果的可解释性和可用性t 聚类是为分析数据服务的,用户期望 通过聚类从数据中抽取给出某种特定语义的解释,也就是聚类的结果应该是可解 释的、可理解的和可利用的。 目前存在着大量的聚类算法,大体可以分为: ( 1 ) 基于划分的方法( p a m :p a r t i t i o n i n gm e t h o d ) :首先创建k 个划分,k 为要创建的划分个数。然后利用一个循环定位技术通过将对象从一个划分移到另 一个划分来帮助改善划分质量。典型的划分方法包括:k 平均值算法( k - m e a n s m e t h o d ) 、k 中心点算法等。 ( 2 ) 基于层次的方法( h i e r a r c h i c a lm e t h o d ) :创建一个层次以分解给定 的数据集。该方法可以分为自上而下( 分解) 和自下而上( 合并) 两种操作方式。 为弥补分解与合并的不足,层次合并经常要与其它聚类方法相结合,如循环定位。 典型的算法包括:b i r c h ( b a l a n c e di t e r a t i v er e d u c i n ga n dc l u s t e r i n gu s i n g h i e r a r c h i e s ) 方法,它首先利用树的结构对对象集进行划分;然后再利用其它 聚类方法对这些聚类进行优化;c u r e ( c l u s t e r i n gu s i n gr e p r e s e n t a t i v e s ) 方 法,它利用固定数目代表对象来表示相应聚类;然后对各聚类按照指定量( 向聚 类中心) 进行收缩;r o c k 方法,它利用聚类间的连接进行聚类合并;c h e m a l o e n , 它则是在层次聚类时构造动态模型。 ( 3 ) 基于密度的方法( d e n s i t y _ b a s e dm e t h o d ) :根据密度完成对象的聚类。 它根据对象周围的密度( 如d b s c a n ) 不断增长聚类。典型的基于密度方法包括: d b s c a n ( d e n s i t y b a s e ds p a t i a lc l u s t e r i n go fa p p li c a t i o nw i t hn o i s e ) 方 法。该算法通过不断生长足够高密度区域来进行聚类。它能从含有噪声的空间数 据库中发现任意形状的聚类。此方法将一个聚类定义为一组“密度连接”的点集; o p t i c s ( o r d e r i n gp o i n t st oi d e n t i f yt h ec l u s t e r i n gs t r u c t u r e ) 算法,并 不明确产生一个聚类,而是为自动交互的聚类分析计算出一个增强聚类顺序。 ( 4 ) 基于网格的方法( g r i d b a s e dm e t h o d ) :首先将对象空间划分为有限 1 0 北京邮电大学硕

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论