(计算机软件与理论专业论文)crm系统中数据挖掘算法与应用研究.pdf_第1页
(计算机软件与理论专业论文)crm系统中数据挖掘算法与应用研究.pdf_第2页
(计算机软件与理论专业论文)crm系统中数据挖掘算法与应用研究.pdf_第3页
(计算机软件与理论专业论文)crm系统中数据挖掘算法与应用研究.pdf_第4页
(计算机软件与理论专业论文)crm系统中数据挖掘算法与应用研究.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(计算机软件与理论专业论文)crm系统中数据挖掘算法与应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东大学硕士学位论文 摘要 c t u v l 系统的运用,可以有效地帮助企业开展营销活动,全面迎合用户的需求, 从而为其提供合适的产品与服务。然而当企业发展了多年,拥有了大量的客户数据, 如何有效地利用这些数据,分析出对予企业有用的知识,进面采取恰当的市场活动 来改善客户关系、实现利润最大化,则是每家企业所面临的最大问题。 针对上述问题,本文开展了两个不同两又紧密耦台的研究工作:第一是如何在 c r m 中有效地挖掘出客户分类知识? 依据市场细分的原则,只有获得客户分类知识, 才能使企业的市场活动有针对性,脱离无痔状态。第二是如何有效利用挖掘出来的 分类知识? 具体来讲就是如何用这些知识来指导企业的客户关系改善计划,并从中 实现净利润最大化。 本文研究的第一个方面,即如何在c r m 中挖掘客户分类知识。根据组合分类方 法的思想,本文提出一种基予遗传算法的决策森林并行组合分类法( g a d f c 方法) , 此方法的模型包括由多株决策树组成的决策森林以及对决策森林分类结果进行组合 的投值网络两部分。方法分析和试验诞髓,g a - d f c 方法可以利用决策森林中各决策 树之间的信息互补能力来进一步提高分类的准确率,可以处理有噪声数据和具有犬 属性集的数据,此外本方法具有内在的并行性,具有较好的运行效率。围时本文探 讨了g a d f c 方法在c r m 中的具体应用。 本文磋究的第二个方蓖,郄如何有效利用从e 黝中挖掘出来的知识,实现有利 润的客户关系改善计划。目前数据挖掘已经运用到c r m 系统中。但是现有的数据挖 掘把重点放在建立模型和解辣模型上,就是指专著于发现知识。瘟该说,挖掘出此 类知识是很有用,但是这些知识本身并不能指导企业的客户改善计划,企业无法直 接判断出什么样的客户关系改善可以实现利润最大化。基于此,本文采用决策树模 烈来考察如何在一定代价的前提下,寻找具有最佳盈利效果的行动,提出了一种基 于决策树豹挖掘最佳活动的算法( d t a c t s m ) ,瓣对还考察了在企业资源有限条j 孛下 的挖掘多个最佳活动的情况。 本文的两个工作是毒萋看褶继、紧密相关豹,针对c r m 系统戆整个挖掇过程是一 个完整的从数据中挖掘知识,再利用挖掘到的知识进一步挖掘应采取的市场活动, 山东大掌硕士掌位论文 扶焉最终实现金监裂润最大纯这么一个过程。 本文的主疆创毅点肖: 提密了耱决策森熬酾稳建算法。 ( 2 ) 提出了一种旗于遗传算法的决策森林并行缀合分类方法( g a - d f c ) ,拽方法 可班商效的解决分类闯题。 ( 3 ) 关予挖掘最佳溪动,本文提撼了一茅申基予抉策挺摸澄挖撼最佳活动驰算法 ( d t a c t s m ) ,此算法可以用于企业的改善辑户关系活动。 在电子亵务时代,骢着数据挖羧在c r m 系统中熬深入瘦鼹,必然镬e 搿系绫其 有广泛的市场价值,带来c r m 更为广阔的应用前景,因此本文的研究具有璧要的理 论价燕窝实黢意义。 关键词:数箍毙越,c r m ,凌策森棼,g a ,g a - d f c ,d t - a c t s m 山东大掌硕士学位论文 矗e s 霉| 溘e t w i t ht h ew i d ea p p l i c a t i o no fc r m s y s t e m ,e n t e r p r i s ec o u l du n f o l da c t i v i t i e st om e e t t h ed e m a n do ft h e i rc u s t o m e r sa n dp r o v i d et h e mw i 也t h er i g h tp r o d u c t sa n ds e r v i c e s a f t e rt h er u n n i n go fc r ms y s t e m sf o rs o m et i m e , h o w e v e r , t h ee n t e r p r i s em a yh a v e e n o r m o u sa m o u n to fc u s t o m e rr e l a t e dd a t a t h i sp o s e st h eq u e s t i o nf o rd e c i s i o nm a k e r s : h o wt oc o n v e r tl a r g ev o l u m eo f d a t ai n t ov a l u a b l ek n o w l e d g e ? h o wt ou s et h ek n o w l e d g e t og u i d ee n t e r p r i s ea c t i v i t i e s ? t h o s ea r eb i g c h a l l e n g e s 。 s o ,t h i sp a p e rd o e s2 d i f i e r e n tb u tc l o s e l yc o u p l e dr e s e a r c ht oa n s w e rt h o s e q u e s t i o n s t h ef i r s to n e i sa b o u th o wt oe f f e c t i v e l yf m du s e f u lk n o w l e d g ea m o n gt h ed a t a , k n o w l e d g ea b o u tc u s t o m e rc l a s s i f i c a t i o nt ob ee x a c t l y t h es e c o n dr e s e a r c hi sa b o u th o w 撼d r a wo nt h ek n o w l e d g ef o u n dt og u i d ee n t e r p r i s ei nt h e i rc u s t o m e rr e l a t i o n s h i p i m p r o v e m e n tp l a na n dt h ep l a nc a n m a x i m i z et h ee n t e r p r i s ep r o f i t c u s t o m e rc l a s s i f i c a t i o ni so n eo ft h em o s ti m p o r t a n tr e s e a r c ha r e a so f d a t am i n i n g 。 i te x t r a c t sd a t at y p em o d e lf r o mh u g ea m o u n to f d a t a , a n dt h em o d e lc a nb er e u s e di nl a t e r c u s t o m e rc l a s s i f i c a t i o na n dd e e i s i o n - m a k l n g ,i no r d e rt od r a wo nt h em e r i t so fd i f f e r e m a l g o r i t h m s , t h i sp a p e rp u tf o r w a r d s 黯a l g o r i t h mc a l l e dg a - d f c ( g e n e t i ca l g o r i t h m b a s e dd e c i s i o nf o r e s tp a r a l l e lc o m b i n a t i o na l g o r i t h m ) b a s e do nt h et h o u g h to f c o m b i n a t i o na l g o r i t h m 。t h ea l g o r i t h mm o d e lc o n t a i n s2 p a l 乜:o nt h eu p p e rp a r ti s t h e d e c i s i o nf o r e s tc o n s i s t so f m u l t i - d e c i s i o nt r e e s o nt h el o w e rp a r ti st h ew e i g h t e dn e t w o r k t oc o m b i n et h ec l a s s i f i c a t i o nr e s u l to fd e c i s i o nf o r e s t b ya n a l y s i sa n dt e s t ,t h i sm e t h o di s p r o v e dt ob em o r ea c c u r a t et h a nt r a d i t i o n a lm e t h o da n dc a nh a n d l ed a t a 诚t hn o i s ea n d l a r g ea t t r i b u t es e t t h ea l g o r i t h mc a nb ep a ti n t oc r m a n a l y s i s 。 m o s td a t am i n i n ga l g o r i t h m sa n dt o o l s s t o p a td i s c o v e r e dc u s t o m e rm o d e l s , p r o d u c i n gd i s t r i b u t i o ni n f o r m a t i o no nc u s t o m e rp r o f i l e s s u c ht e c h n i q u e s ,w h e na p p l i e d 协c i h mp r o b l e m s , a r eu s e f u li np o i n t i n go u tc u s t o m e r s a t t r i b u t e sb u tt h e yr e q u i r eh u m a n e x p e r t st op r o c e s st h em i n e di n f o r m a t i o nm a n u a l l ya n dt h e yd on o td i r e c t l ys u g g e s t a c t i o n so fi m p r o v i n gc u s t o m e rr e l a t i o n s h i p , a n dl e a dt oa 嚣i n c r e a s ei np r o f i t 。t h i sp a p e r p r e s e n tan o v e la l g o r i t h mc a l l e dd t - a c t s m ( d e c i s i o n - t r e eb a s e da c t i v i t i e sm i n i n g 1 1 1 山东大学硕士学位r e 文 a l g o r i t h m ) t h a ts u g g e s ta c t i o n st oc h a n g ec u s t o m e r sf r o ma l lu n d e s i r e ds t a t u st oad e s i r e d o n ew h i l em a x i m i z i n go b j e c t i v ef u n c t i o n :t h ee x p e c t e dn e tp r o f i t w ea l s op o n d e rt h e s e a l g o r i t h m su n d e rr e s o u r c ec o n s t r a i n t s t h i sp a p e rc o n t a i n s2c o n s e c u t i v ea n dc l o s e l yc o u p l e dw o r k s ,w h i c hc a nr e a l i z et h e m i n i n gp r o c e s sf r o md a t at ok n o w l e d g e ,f r o mk n o w l e d g et oa c t i v i t i e s ,a n du l t i m a t e l y e n t e r p r i s ep r o f i t s m a j o ri n n o v a t i o n si nt h i sp a p e r : ( 1 ) p r o p o s e a l la l g o r i t h mf o rd e c i s i o nf o r e s tg r o w i n g ( 2 ) p u tf o r w a r dag a b a s e dd e c i s i o nf o r e s tc o m b i n a t i o na l g o r i t h m ( g a - d f c ) ,w h i c h i sp r o v e da c c u r a t ei nc l a s s i f i c a t i o np r o b l e m s ( 3 ) g i v eo u ta i la l g o r i t h mn a m e dd t - a c t s mt h a tc a nb eu s e f u li nt h ec u s t o m e r r e l a t i o n s h i pi m p r o v e m e n ta c t i v i t i e s i nt h ee r ao fe b u s i n e s s ,d a t am i n i n gw i l lp l a ym o r ea n dm o r ei m p o r t a n tr o l ea n d w i l l b r i n gc r m e v e nf o r w a r d sf u r t h e r m o r e s ot h er e s e a r c hw o r ko ft h i sp a p e rh a s e n o r m o u st h e o r e t i c a la n dp r a c t i c a ls i g n i f i c a n c e k e y w o r d s :d a t am i n i n g ,c r m ,d e c i s i o nf o r e s t ,g a ,g a - d f c ,d t o a c t s m v 原创性声明和关于论文使用授权的说明 原锱性声骥 本人郑重声明:所呈交蚋学位论文,是本人在导烯的指导下,独 立进彳i j 磷究所取褥的成采。除文中已经滚嘴弓 埔酶离容辨,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究擞懑重要贡献豹个人和集体,均基在文中叛窝确方式掭竣。本声疆 的法徽责任由本人承担。 论文作者签名:虿支+ 羔金一 曷丝妻缸堕境 关于学位论文使用授权的声明 本人完全了解山东大学有关傈留、使用学位论文的规定,同意学校保留或向嗣家有关 部门硪机构送交论文的复印件和电子版,允许论文被赭阅和借阅;本人授权山东大学可以将 零学使论文豹全嚣藏攥分内容缡入有关数撵痒避霄检索,胃强来爝彩印、续毽】或黧穗复隶l 手 段保存论文鞫汇编本学经论文。 ( 保密论文在髂密后应遵守此规定) 论文作者签名:蜘师签名:避日期烨 山东大学硕士学位论文 1 引言 本章简要介绍了课题提出的背景, 结构进行了说明。 1 1 课题研究的背景 本文开展的主要工作及其意义,并对本文的 随着社会的发展和科技的进步,特别是网络技术的发展,企业产品的差异逐步 减小,高质量的客户服务成为企业竞争优势,企业的经营机制正在由以产品为中心 向以客户为中心转变,客户关系成为企业发展生死攸关的资源。在当今的发展过程 中,企业需要知道: 谁是将是企业最有价值的客户? 什么是将是企业最有价值的产品? 那里是将是最有价值的市场? , 如何采取评价市场策略? 全面了解成本和利润? 信息是否全面和正确? c r “1 】【2 】就是围绕这些问题展开的。c k m ( c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t , 客 户关系管理) 是一项营销策略,透过选择和管理客户达到最大的长期价值。c r m 需 要用以客户为中心的营销哲学和文化,来支持有效的市场推广、营销和服务过程。 企业只要具备了合适的领导、策略和文化,应用c r m 可促成高效益的客户关系管理。 c r m 带来了企业发展的契机,自从这一概念提出后,首先在国外掀起了热潮,许多 厂商开始开发客户关系管理系统,如o r a c l e ,a p p l i x ,s i e b e l ,i 踟,p e o p l e s o f t 等,大部分都是数据库厂商,从这也看出了客户关系管理与数据库的关系密切。这 两年,c r m 市场在国内也开始火爆,大中小软件企业纷纷开始开发c r m 系统。c r m 系统运用的行业范围从银行、电信、保险、证券等客户密集型企业到制药、零售、 制造等产品密集型行业企业无论巨细,都在着手准备实施自己的c r m 系统。可以 看到这样一些数据:企业获得一个新客户的成本是保持一个老客户的成本的5 倍,企 业8 0 的利润来自2 0 9 6 的客户,而6 8 的客户会由于客户服务质量不好而流失成为竞争 对手的客户。根据对那些成功地实现客户关系管理的企业的调查表明,每个销售员 山东大学硕士学位论文 的销售额增) j 1 5 1 ,顾客的满意度增) j 1 2 4 ,销售和服务的成本降低2 1 ,销售周期减 少了三分之一,利润增加2 。 数据挖掘1 3 】f 4 】技术在c r m 中的应用,使得c r m 向更智能的方向发展。然而当企 业发展了多年,拥有了大量的客户数据,如何有效地利用这些数据,分析出对于企 业有用的知识,进而采取恰当的市场活动来实现利润最大化,则是每家企业所面临 的最大问题。数据挖掘从大量的客户数据中,抽取出潜在的、有价值的知识,为企 业的中长期发展提供了战略性的、决策性的支持。对于企业而言,数据挖掘在c r m 中的应用可以有助于发现业务发展的趋势,预测未知的结果,并帮助企业分析出完 成任务所需的关键因素,以达到增加收入、降低成本,使企业处于更有利的竞争位 置的目的。本课题就是在这一背景下提出的。 1 2 课题提出和意义 数据挖掘技术帮助企业管理客户生命周期的各个阶段,包括争取新的客户,让 已有的客户创造更多的利润、保持住有价值的客户等等。它能够帮助企业确定客户 的特点,使企业能够为客户提供有针对性的服务。数据挖掘可以把大量的客户分成 不同的类,每类的客户拥有相似的属性,而不同类里的客户的属性不同。企业可以 给不同类别客户提供特殊定制的服务来提高客户的满意度。客户分类的好处显而易 见,即使很简单的分类也可以给企业带来一个令人满意的结果。所以课题研究的第 一个工作就是如何在c r m 系统的大量数据中有效地挖掘出客户分类知识。挖掘出此 类知识,企业就可以根据客户的类别采取不同的市场行动,旨在持续提高顾客满意 度,增强企业的盈利能力。 课题研究的第二个工作是第一个工作的延续。前一阶段挖掘出来的知识可以指 导企业采取市场行动,但是这种指导是宏观层面、战略层面的,不够细致。因此本 文的第二的工作是如何有效利用已经挖掘出来的分类知识,也就是如何用这些知识 为企业的市场行为以具体战术层面的指导,从而可以改善客户关系,把盈利能力低 的客户通过改善计划向相反的方向转变,最终使企业从中获利。 第一方面的工作集中于分类方法研究,通过对现有的决策树分类法和组合方法 的研究,提出了一种基于遗传算法的决策森林的并行组合法( g a - d f c 方法) ,通过分 析和试验证明这个算法比常规算法具有较高的分类精度,而且可以处理噪声数据、 山东大学硕士学位论文 有大量属性集的数据,同时这个算法的运行效率也较高。第二方面,关于如何有效 的利用挖掘出来的分类知识,本文提出了一种基于决策树挖掘最佳活动的算法 ( d t a c t s m 算法) ,通过此算法挖掘出来的市场活动可以直接用于指导企业的具体决 策行为,使企业实现利润的最大化。 本文的两个工作是前后相继、紧密相关的,针对c r m 系统的整个挖掘过程是一 个完整的从数据中挖掘知识,再利用挖掘到的知识进一步挖掘应采取的市场活动, 从而最终实现企业利润最大化这么一个过程。随着数据挖掘在电子商务时代c r m 中 的进一步深入的应用,必然使c r m 具有广泛的市场价值,带来c r y 更为广阔的应用 前景,因此本文的研究具有重要的理论价值和实践意义。 1 3 本文结构 本文第一部分为引言,首先介绍了课题的研究背景,然后介绍了课题研究的主 要工作意义,以及本文的结构。 本文第二部分为背景知识,首先介绍了数据挖掘技术,包括数据挖掘的概念、 分类、挖掘过程、常用技术以及数据挖掘的应用领域其次介绍了c r m 的内涵以 及管理思想,c r m 系统的整体结构以及内容。最后着重介绍了如何把数据挖掘技术 应用到c r m 系统中的问题。 第三章和第四章是本文的核心,课题研究的工作主要是通过这两章展开的在 第三章,首先分析了当前的决策树分类法和组合分类法的特点和不足之处,然后依 据组合分类法的思想,提出了一种基于决策森林和遗传算法的并行组合分类算法 ( g a - d f c ) ,并分析了此算法在c r a m 中的应用问题。 第四章针对目前数据挖掘在c r m 应用中的不足之处:只挖掘出来知识,这些 知识本身并不能明确告诉企业采取什么样的行动才能使企业获利最大,提出了一种 基于决策树的挖掘最优活动的算法( d t - a c t s l v l ) ,此算法以企业净利润的最大化为目 标,所以挖掘出来的活动对企业具有实际的应用价值。 本文最后对课题研究工作做了总结 山东大掌硕士学位论文 2 数据挖掘与c r m 2 1 数据挖掘技术 i n t e r n e t 正以令人难以置信的速度飞速发展,网络已经成为一个巨大的全球性 信息服务中心,越来越多的机构、团体和个人在i n t e r n e t 上发布信息、查找信息, 大量信息在给人们带来方便的同时,也带来很多问题:第一是信息过量,难以消化: 第二是信息真假难以辨识:第三是信息安全难以保证;第四是信息形式不一致,难 以统一处理。人们开始考虑:“如何才能不被信息淹没,而是从中及时发现有用的知 识、提高信息利用率。 另一方面,由于数据库技术的迅速发展以及数据库管理系统的广泛应用,人们 积累的数据越来越多,但传统的数据分析方法陷入困境,无法发现数据中潜在的关 系和规则,无法根据现有的数据预测未来的发展趋势,缺乏发现数据背后隐藏知识 的手段,从而导致了“数据爆炸但知识贫乏”的现象。 面对这种来源于实际应用的迫切需求,数据库中的知识发现( k d d ) 技术应运而 生。其研究目标就是如何从数据库中自动地发现规律性,所使用的技术主要来源于 数理统计、人工智能、机器学习和神经网络等领域。从9 0 年代中期开始,人们逐渐 把注意力放在如何将已有的k 叻技术与数据库技术以及新兴的数据仓库技术结合起 来,解决各行业中的实际问题。为了区别前期的研究工作,数据库领域的研究者引 入了数据挖掘( d a t am i n i n g ) 的概念。经过几年的研究和实践,数据挖掘的概念己基 本确立起来。 2 1 1 概述 数据挖掘【4 】f 5 1 ,顾名思义就是从大量的数据中挖掘出有用的信息,即从大量的、 不完全的、有噪声的、模糊的、随机的实际应用数据中发现隐含的、规律性的、人 们事先未知的,但又是潜在的有用的并且最终可理解的信息和知识的非平凡过程。 数据挖掘就是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息和 知识挖掘出的信息越是出乎意料,就可能越有价值。所挖掘的知识类型包括模型、 规律、规则、模式、约束等。 4 山东大学硕士学位论文 数据挖掘是- f - j 交叉学科,融合了数据库、人工智能、机器学习、统计学等多 个领域的理论和技术,数据库、人工智能和数理统计是数据挖掘研究的三根强大的 技术支柱。数据挖掘利用各种分析工具在海量数据中发现模型和数据间关系的过程, 使用这些模型和关系可以进行预测,它帮助决策者寻找数据间潜在的关联,发现被 忽略的因素,因而被认为是解决当今时代所面临的数据爆炸而信息匮乏问题的一种 有效方法。数据挖掘将数据转化为知识,是数据管理、信息处理领域研究和应用的 最活跃的分支之一。 数据挖掘是一个交叉学科领域,受多个学科影响,包括数据库系统、统计学、 机器学习、可视化和信息科学,因此就产生了大量的、各种不同类型数据挖掘系统。 清楚地对数据挖掘系统进行分类可以帮助用户区分数据挖掘系统,确定最适合其需 要的数据挖掘系统。 根据不同的标准,数据挖掘系统可以分类1 6 l 如下: 根据挖掘的数据类型分类 数据挖掘系统可以根据挖掘的数据类型分类。根据所处理的数据的特定类型分 类,有空间的、时间序列的、文本的或多媒体的数据挖掘系统,或w e b 数据挖掘系统。 根据挖掘的知识类型分类 数据挖掘系统可以根据所挖掘的知识类型分类。即根据数据挖掘的功能,如特 征化、区分、关联、分类、聚类、孤立点分析和演变分析、偏差分析、类似性分析 等分类。一个全面的数据挖掘系统应当提供多种或集成的数据挖掘功能。 根据应用分类 ” 数据挖掘系统可以根据其应用分类。例如,可能有些数据挖掘系统特别适合金 融、电信、d n a ,股票市场、e - t r a i l ,等等。不同的应用通常需要集成对于该应用特 别有效的方法。因此,普通的、全能的数据挖掘系统可能并不适合特定领域的挖掘 任务。 2 1 2 过程、功能与技术 在实施数据挖掘之前,先制定采取什么样的步骤,每一步都做什么,达到什么 样的目标是必要的,有了好的计划才能保证数据挖掘有条不紊的实施并取得成功。 一般地,数据挖掘在任何一个应用问题上的应用,都可以大致分为三个阶段1 8 】: 山东大学硕士掌位论文 卜_ _ 数壬l 讳_ 簪一卜一擞据挖握1 渤果表达和解释1 图2 1 知识发现的过程 第一阶段,即数据准备阶段,确定分析目标,以及与该问题相关的数据库。包 括:数据清理( 清除噪声或不一致数据) ;数据集成( 多种数据源可以组合在一起) ;数 据选择( 从数据库中检索与分析任务相关的数据) ;数据变换( 数据变换或统一成适合 挖掘的形式) 。上述操作又常称为e t l ( e x t r a c t i o nt r a n s f o r m a t i o nl o a d ) 操作。 第二阶段,即数据挖掘阶段,借助各种数据挖掘工具,从数据库中找出有可能 解决问题的知识。 第三阶段,即结果表示及解释阶段,将发现的知识用于解决问题,并根据问题 解决程度决定下一步行动。包括:模式评估( 根据某种兴趣度来度量,识别表示知识的 真正模式) i 知识表示( 使用可视化和知识表示技术,向用户提供挖掘的知识) 上面三个阶段的工作,在实际运作中,一般都存在反复。也有人把上述整个过 程称为数据库知识发现( f l f i k d d ) ,而仅把第二阶段称为数据挖掘,认为它是知识发现 过程的一个步骤。 数据挖掘功能: 数据挖掘通过预测未来趋势及行为,做出基于知识的决策。数据挖掘的目标是 从数据库中发现隐含的、有意义的知识,主要可以分为六类功能0 9 1 。 自动预测趋势和行为: 以往需要进行大量手工分析的问题,现在可以借助数据挖掘自动在大型数据库 中寻找预测性信息。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销 的数据来寻找未来投资回报最大的用户。 关联分析: 若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单 关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网,关联 6 山东大掌硕士掌位论文 分析生成的规则一般带有可信度。关联分析广泛用于购物篮分析。 分类: 分类可以找出描述并区分数据类或概念的模型( 或函数) ,以便能够使用模型预 测类标记未知的对象。导出模型是基于对训练数据集的分析。一般利用判定树归纳、 , b a y e s 分类、神经网络、k - 最临近、遗传算法、粗糙集等技术进行分类。 聚类 数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对 客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模 式识别方法和数学分类学。m c h a l s k i 提出了概念聚类技术要求在划分对象时不仅考 虑对象之间的距离,还要求划分出的类具有某种内涵描述。 概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征概念 描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同 类之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成 区别性描述的方法很多,如决策树方法、遗传算法等。 偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义偏差 包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型 预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参 照值之间有意义的差别。 数据挖掘常用的技术【6 】1 8 】嘲有: 1 人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ) 它从结构上模仿生物神经网络,是一种通过训练来学习的非线性预测模型,可 以完成分类、聚类、特征挖掘等多种数据挖掘任务。 2 决策树( d e c i s i o nt r e e ) 用树形结构来表示决策集合,这些决策集合通过对数据集的分类产生规则。典 型的决策方法有分类回归树( 如c a r t 算法) ,一般用于分类规则的挖掘。 3 遗传算法( g e n e t i ca l g o r i t h m ) 基于生物进化的概念设计一系列的过程来达到优化的目的,这些过程有交叉、 山东大学硕士学位论文 遗传变异和自然选择。为了应用遗传算法,需要把数据挖掘任务表达为一种搜索问 题而发挥遗传算法的优化搜索能力。 4 近邻算法( n e a r e s tn e i g h b o r ) 将数据集合中的每一个记录进行分类的方法。通过k 个最与之相近的历史记录 的组合来辨别新的记录,有时也称这种技术为k 一最近邻方法。这种技术可以用作聚 类、偏差分析等挖掘任务。 5 规则归纳( r u l ei n d u c t i o n ) 通过统计方法归纳、提取有价值的i f t h e n 规则。规则归纳技术在数据挖掘 中广泛使用,例如关联规则的挖掘、分类规则的挖掘等。 6 可视化( v i s u a l i z a t i o n ) 采用直观的图形方式将信息模式、数据关联或趋势呈现给决策者,决策者可以 通过可视化技术直观地分析数据关系。 此外,还有一些技术,如粗糙集、模糊集等。 2 1 3 数据挖掘的应用 目前,数据挖掘技术已经在很多领域得烈了广泛应甩【1 0 1 1 1 】,包括商务管理、生 产控制、电子商务、市场分析和科学探索等。这里仅对这些领域的应用情况作一个 简单而系统的概括: 1 科学研究 科学研究,特别是计算科学研究,涉及大量的实验或观测数据分析。先进的数 据采集工具的使用,如观测卫星、遥感器、显微技术,使传统的数据分析工具和数 据分析方法面临困境,必须要有强大的智能数据分析工具。数据挖掘在生物学上的 应用上主要集中于分子生物学特别是基因工程的研究上;随着各类g i s 系统的建立, 数据挖掘目前还被应用于空间数据库中的知识发现。 2 商业应用 数据挖掘技术在企业市场营销中得到了比较普遍的应用,它是以市场营销学的 市场细分原理为基础,通过收集、加工和处理涉及消费者消费行为的大量信息,确 定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应 消费群体或个体下一步的消费行为,然后以此为基础,对所识别出来的消费群体进 8 山东大学硕士掌位论文 行特定内容的定向营销,这与传统的不区分消费者对象特征的大规模营销手段相比, 大大节省了营销成本,提高了营销效果,从而为企业带来更多的利润。 数据挖掘在营销上的应用分为两类:c r m 和购物篮分析。本文的研究重点就是放 在了数据挖掘在c r m 中的应用上。c r m 利用数据挖掘分析己有顾客数据,将用户区分 为不同类型( 比如,哪些客户是高利润客户? 哪些顾客可能流失? ) 。针对不同类型的 客户,制订相应的销售政策( 比如,给高利润客户特殊的折扣率) ,或进一步分析并 识别客户的消费个性,为客户提供个性化服务等。 3 基于w e b 的应用 近年来,伴随i n t e r n e t 的发展,越来越多的行业加速了电子化、网络化的进程, 网络数据正面临新的剧增。w e b 目前是一个巨大的、分布广泛的、全球性的信息服务 中心,还包含了丰富和动态的超级链接信息,以及w e b 页面的访问和使用信息,这为 数据挖掘提供了丰富的资源。然而,w e b 挖掘不仅仅是数据挖掘算法在w e b 数据上的 应用,同传统的数据库数据相比,w e b 数据具有其特殊性,其特点就是数据没有严格 的结构模式、含有不同格式的数据( 文本、声音、图像等) 、面向显示的h t m l 文本无 法区分数据类型,并且存在大量的冗余和噪声,同时w e b 是一个动态性极强的信息源, 所以面晦 w e b 的数据挖掘研究极具挑战性。 w e b 挖掘【1 7 】是对w e b 文档的内容、w e b 上可利用资源的使用情况以及资源之间的关 系进行分析,并从中发现有效的、新颖的、潜在有用的、并且最终可理解的模式。 根据研究内容的不同,基于w e b 的数据挖掘目前主要分为两大类:w e b 上的信息发现 和用户模式发现。前者本质上就是网上信息搜索;而后者理解用户的访问模式,支 持网上营销中的客户定位和个性化的信息服务:改善w e b 应用的组织和设计以及站点 的导航能力;为站点管理员提供各种利于w e b 站点改进或可以带来经济效益的信息; 评估站点的“收视率”,改善市场营销决策,如把广告放在适当的w e b 页面上等。通 过对网站流量模式的分析,能够找到网站最重要的部分;发现系统性能瓶颈,找出 安全漏洞;测定广告和促销计划的成功度以及测定投资回报率;测定合作和结盟网 站对自身的价值,因此,对网站的维护更加有目的、有依据。同时,还可以及时恰 当地发现用户的需要和兴趣,从而稳步提高用户的满意度。 9 山东大学硕士学位论文 2 2 客户关系管理( c r m ) 随着信息技术的发展和网络技术的快速进步,传统的商业模式发生了根本性的 变化。在很多行业,所提供的产品和服务日益商品化,产品同质化趋势越来越强, 独特的竞争优势越来越难以获得,业务比以前更具有竞争性。与此同时,客户的期 望也在快速变化。由于计算机、通讯技术和网络的飞速发展,客户完全可以控制要 选择谁、何时选择和如何选择,客户选择摆脱了传统的地理关系的限制,变成了“点 击鼠标的一瞬间”,客户对随时随地得到服务的要求更高,对质量、个性化和价值 的要求更挑剔。在这种环境下,客户的亲和力和忠诚度成为取得成功的重要因素, 建立和维持客户关系成为企业取得竞争优势的最重要的基础。 为了提高客户满意度,企业必须完整掌握客户信息,准确把握客户要求,快速 响应个性化需求,提供便捷的购买渠道、良好的售后服务与经常性的客户关怀等。 而在传统的企业管理中,来自销售、客户服务、市场、制造、库存等部门的信息分 散在企业内,客户信息的分散性和片段性使得无法对客户有全面的了解,就是在同 一个企业内部对客户的定义和理解也极不相同,各部门难以在统一的信息的基础上 面对客户。这种客户信息的分散性和片段性对企业的经营活动造成了极大的困扰, 浪费了很多的资源,失去了很多的机会,在市场竞争中处于不利的地位而客户关 系管理( c r m ) 系统正是解决这一难题的一套高效信息管理系统,因此c r m 应运而生成 为这一时代的世纪宠儿 2 2 1c r i i 的管理思想 c r m ( c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t 客户关系管理) i 那川的概念最早由 g a r n e rg r o u p 提出,即认为为企业提供全方位的管理视角,赋予企业更完善的客户 交流能力,最大化客户的收益率。 企业管理思想发展到c r m 经历了如图2 2 的发展。c r m 是一种以客户为中心的 市场营销理念和策略【”】它以信息技术为手段,对业务功能进行重新设计,并对工 作流程进行重组。它集合了现代信息技术包括:i n t e r n e t 和电子商务、多媒体技术、 数据仓库和数据挖掘、专家系统和人工智能、呼叫中心等。c r m 的焦点是自动化并 改善与销售、市场营销、客户服务和支持等领域的与客户关系有关的商业流程。它 山东大学硕- a 学位论文 的目标是缩减销售周期和销售成本、增加收入、寻找扩展业务所需的新市场和渠道 以及提高客户的价值、满意度、盈利性和忠诚度。 图2 - 2 企业管理思想的发展历程 2 2 2c 刚整体结构及其内容 c r m 的体系结构r 刀如图2 - 3 所示: 鲞 互 希 叫甲甲牛一一 ,一 一 ;卜1 := := :一 i 馘蚺触蚍叫 一弋c 晨, :啐h 奇宙。 l 簟措控矗 l m m _ 豳豳自 i 矗t 童符t d s s ) t i l l t 臂匏瞳 圈圈 曰圜图一点 图2 3 描述了c 跚的体系结构 从体系结构角度看,整个c r m 架构可以分为三个关键部分:1 接触中心:接触中 心将传统的电话呼叫中心与网站、电子邮件、传真信件、直接接触和客户喜欢使用 器蜜 山东大学硕士学位论文 的其它方式有机整合,形成可以处理各种通讯媒介的客户服务中心。客户可以采用 任何一种自己喜欢的方式与企业进行有效的信息沟通和互动。 2 操作层次的c r m :操作层次的c r m 即企业业务流程处理,无论客户以哪种形式 接入到企业,企业总要通过一定业务流程来满足客户的需求。具体来讲有三方面, 分别是销售管理、市场营销管理、客户服务管理。 ( 1 ) 销售管理 , 销售力量自动化( s a l e f o r c e a u t o m a t i o n ) 是c r m 系统的一个重要组成部分。销售 力量自动化使得销售活动流程更为科学化、合理化,从而提高销售活动的效益。销 售过程实际上是个漏斗过程。潜在客户从漏斗的大头进去,经过一系列的筛选、联 系与洽谈,最终只有一部分从漏斗的小头出来,成为购买客户。要想提高购买客户 的数量,一是要增加进入漏斗大头的潜在客户数量,二是改进漏斗过程,使漏斗小 头变大。c r m 系统使得企业能够实时跟踪客户在漏斗中的每一个过程,从而能够采 取一些相应的措施以达到增大漏斗小头的目的。销售管理一般包括销售信息管理、 销售过程定制、销售过程跟踪监控、销售预测、销售信息分析等。 ( 2 ) 市场营销管理 市场营销活动是当前商业活动中不可缺少的一环。其目的是为了尽多尽快地销 售产品。传统的市场营销活动包括各种媒体的广告,展销会等等c r m 系统提供了更 为个性化的市场营销活动。它可以针对人们的年龄,性别,习惯,爱好甚至收入情 况来促销不同的产品。同时c r m 系统对通过不同途径搜集来的信息进行分析,筛选出 一批潜在客户进行进一步的联系,从而进入售前阶段。一般来说c r m 市场营销管理 部分还包括自动履行服务,它能自动处理客户索取资料的要求,将客户所要索取的 资料( 如产品详细介绍,报价单等) 以各种不同途径快速无误地送到客户手中。 ( 3 ) 客户服务管理 客户服务支持为客户提供了客户关怀以及其它服务。它是企业提高客户满意度、 忠诚度从而达到留住老客户、发展新客户的一个重要手段。客户服务支持管理一般 包括了客户账号管理,服务合约管理,服务请求管理,联系活动管理,以及客户普 查等功能。通过这些功能,服务人员能快速地查询客户的服务合约确定客户的服务 级别,并创建、分配客户的服务请求。同时服务人员还可以随时查询与客户的联系 记录以及服务请求的执行情况呼叫中心( c a l l c e n t e r ) 是一个能够快速、有效提供客 山东大学硕士学位论文 户服务支持管理的一套系统,它使得企业能够通过各种途径( e e 话,传真,电子邮件 等) 给客户提供服务支持。当客户通过电话请求服务或投诉时,服务人员可以根据客 户名字调出客户的信息以及所购产品。对一些不能马上解决的问题或投诉,系统会 创建一个任务并分配给适当的人员去解决。当然,客户也可以通过网络提交服务请 求或投诉。系统收到这些请求或投诉后会自动创建一个任务并分配给适当的人员去 解决。客户还可以根据任务号跟踪任务的解决状态。在提供服务支持的同时,服务 人员还可以根据客户己购产品的信息,建议客户购买相关产品或升级产品,以达到 增加销售,扩大利润的目的。 3 分析层次的c r m 分析层次的c r m 将接触中心和操作层次的c r m 产生的信息通过共享的客户数据仓 库把销售、营销和客户服务连接起来。横跨整个企业集成客户互动信息会使企业从 部门化的客户联络转向所有的客户互动行为都协调一致。如果一个企业的信息来源 相互独立,那么这些信息会有重复、互相冲突并且会过时。这对企业的整体运作效 率将产生负面影响。基于统一的客户数据和融入所有企业业务应用系统的分析环境, c r m 就可以对其进行加工处理,产生客户智能,提供既定量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论