(计算机软件与理论专业论文)数据挖掘技术在客户关系管理中的应用研究.pdf_第1页
(计算机软件与理论专业论文)数据挖掘技术在客户关系管理中的应用研究.pdf_第2页
(计算机软件与理论专业论文)数据挖掘技术在客户关系管理中的应用研究.pdf_第3页
(计算机软件与理论专业论文)数据挖掘技术在客户关系管理中的应用研究.pdf_第4页
(计算机软件与理论专业论文)数据挖掘技术在客户关系管理中的应用研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机软件与理论专业论文)数据挖掘技术在客户关系管理中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔滨工程大学硕士学位论文 摘要 目前,将数据挖掘技术引入客户关系管理是企业提高决策效率的关键, 它能从企业大量数据中抽取有用的信息,预测客户的行为趋势,更好地支持 企业决策。本文对数据挖掘技术和客户关系管理的基本理论知识进行了全面 的分析和研究。在客户关系管理领域范围内,分析了数据挖掘算法的基本原 理和特点,论证了数据挖掘算法在企业客户关系管理中的具体应用。 本文着重研究了决策树分类算法的优化问题在分析了经典i d 3 决策树 分类算法的不足之后,提出一种新的决策树优化构建算法:o d t - b i d 3 算法。 o d t - b i d 3 算法以属性的最大信息增益平均值作为测试属性的选择标准,从 而解决了1 1 3 3 偏向于选择取值较多的属性问题:该算法利用构建决策树的同 时合并冗余分支的思想解决了i d 3 决策树重复数据过多问题。在证明了 o d t - b i d 3 算法的理论正确性之后,本文对算法的性能、时间复杂度和计算 复杂度等进行了多方面的分析。算法实例测试以及与m i d 3 算法建树效果的 对比分析表明,经o d t - b i d 3 算法优化构建的决策树要明显优于经m i d 3 算 法构建的决策树,树的规模相对减小,树的结构得到了较大改善。便于更好 地挖掘出有用的规则信息,最终为企业更好地提供决策支持。最后,通过建 立分类模型。本文对o d t - b i d 3 算法在客户关系管理中客户分类领域的应用 进行了一定程度的研究和探讨。 关键词:客户关系管理;数据挖掘;1 1 ) 3 算法;m 1 d 3 算法;o d t - b i d 3 算法 哈尔滨 :程大学硕士学位论文 a b s t r a c t p r e s e n t l y , a p p l y i n gd a t am i n i n gt e c h n o l o g yt oc u s t o m e rr e l a t i o n s h i p m a n a g e m e n ti st h ek e yt ea d v a n c e t h ed e c i s i o n - m a k i n ge f f i c i a n c yo fe n t e r p r i s e s w h i c hm a ye x t r a c tu s e f u li n f o r m a t i o nf r o ml a r g en u m b e r so fc u s t o m e rd a t a , h e l p e n t e r p r i 螂p r e d i c to j s t e m e r s a c t i o nt r e n da n ds u p p o r tm a n a g e m e n ts t x a t e g y a n d a l s ob yu s i n gt h i st e c h n o l o g ye n t e l p d s e sc o u l du n f o l da c t i v i t i e st om e e tt h e d e m a n do f t h e i rc u 翻d m e 璐a n dp r o v i d et h e mw i t ht h er i g h tp r o d u c t sa n ds e r v i c e s t h et h e s i sr o u n d l ya n a l y z e sa n dr e s e a r c h e st h et h e o r ya n dk n o w l e d g eo fd a t a m i n i n ga n dc u s t o m e rr e l a t i o n s h i pm a n a g u m e n t , c o n s t t u e st h eb a s i cp r i n c i p l e a n dc h a r a c t e r i s t i co f d a t am i n i n ga l g o r i t h m si nm a n yf i e l d s ,a n dd e m o n s t r a t e st h e i d i o g r a p h i ca p p l i c a t i o no fd a t am i n i n ga l g o r i t h m s i nc l l s t o m e rr e l a t i o n s h i p m a n a g e m e n t t h eo p t i m i z a t i o no fd e c i s i o nt r e ec l a s s i f i c a t i o na l g o r i t h mi st h em o s t i m p o r t a n tr e s e a r c hc o n t e n to ft h i st h e s i s a f t e rs o m ed i s a d v a n t a g eo ft h ec l a s s i c d e c i s i o nt r e ec l a s s i f i c a t i o na l g o r i t h mo fi d 3i sa n a l y z e d , an e wa l g o r i t h mo f o d t - b i d 3 ,w h i c hc a l lo p t i m a l l yb u i l dad e c i s i o nt r e e ,i sg i 吼b ys e l e c t i n gt h e m a x i m a la v e r a g ev a l u eo f i n f o r m a t i o ng a i na st h es t a n d a r do f t e s t i n ga t t r i b u t e ,t h e a l g o r i t h mg e t so v e rt h eq u e s t i o nt h a tt h ei d 3a l g o r i t h mt e n d st oc h o o s ea n a t t r i b u t eh a v i n gm o r ev a l u e b e s i d e sb yc o m b i n i n gs o m er e p e a t e db r a n c h e so fa d e c i s i o nt r e ei nt h ec a u o fb u i l d i n gi t , t h ea l g o r i t h mc o n q u e r sa n o t h e rq u e s t i o n t h a tt h e r ee x i s t sm a n yr e d u p l i c a t ed a t ai nad e c i s i o nl r e eb u i ab yi d 3 a f t e rt h e t h e o r e t i c a lc o e s so ft h eo d t - b i d 3a l g o r i t h mi sp r o v e d , t h et h e s i sa n a l y z e s i t sp e r f o r m a n c e ,t i m ea n dc a l c u l a t i o nc o m p l e x i t yd e g r e ei nm a n ga s p e c t s f i n a l l y , t h ei n s t a n c et e s t i n gi si m p l e m e n t e dt oe x a m i n et h e0 d t b ) 3a n dt oc o n t r a s ti t 谢t lt h ea l g o r i t h mo fm l d 3w h i c hi sa l s o 缸i m p r o v e da l g o r i t h mo nt h eb a s eo f i d 3 t h et e s t i n gr e s u l t si n d i c a l et h a tt h ed e c i s i o nt r e eo p t i m a l l yb u i l tb yt h e a l g o r i t h mo fo d t - b i d 3i sd i s t i n c t l yb e t t e rt h a nt h et r e ep r o d u c e db ym i d 3 a n d 哈尔滨t 程大学硕士学位论文 t h ea l g o r i t h mn o to n l yc a nb u i l dad e c i s i o nt r o ew i t ht h eo p t i m i z e ds t r t l c t u r ea n d 朔l l l e rs c a l e , b u ta l s oc a nh e l 口e n t e r p r i s e sm i n eo u tb e t t e rr u l e si n f o r m a t i o na n d s e q u e n t i a l l yo f f e rd e c i s i o n - m a k i n gs u p p o r t f o rt h e m f u r t h e r m o r e ,t h r o u g h e s t a b l i s h i n gac l a s s i f i c a t i o nm o d e l ,t h et h e s i sr e s e a r c h e sa n dd i s c u s s e sh o w t o a p p l yt h ea l g o r i t h mo f o d t - b i d 3t oc u s t o m e rr e l a t i o n s h i pm a n a g e m e n t g e y w o r d s :c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ;d a t am i n i n g , i d 3a l g o r i t h m ; m i d 3a l g o r i t h m ;o d t - b i d 3a l g o r i t h m 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导 下,由作者本人独立完成的。有关观点、方法、数据和文 献的引用已在文中指出,并与参考文献相对应。除文中已 注明引用的内容外,本论文不包含任何其他个人或集体已 经公开发表的作品成果。对本文的研究做出重要贡献的个 人和集体,均已在文中以明确方式标明。本人完全意识到 本声明的法律结果由本人承担。 作者( 签字) :叠盘呈 日期:三川年2 月易日 哈尔滨i :程大学硕士学位论文 1 1 课题背景和意义 第1 章绪论 客户关系管理( c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t , c r m ) 就是企业为了 保持竞争力而采用的,以客户为驱动、以客户为中心的决策技术。c r m 需要 用以客户为中心的营销哲学和理念来支持有效的市场推广、营销和服务过程。 企业要想与客户建立一种持久的关系,从每个客户身上获取最大的利润,降 低企业运营成本,减少因客户的离去而产生的损失和因无效的经营决策丽产 生的浪费,就要求各企业正确地估计到客户对企业产品的各种需求,并在最 短的时阋内满足客户的需求。要做到这些,就要对客户与企业交互过程中的 各种客户数掘收集、整理和分析,然后根据收集到的数据,挖掘出隐含在这 些数据中的有用信息和知识“”。 数据挖掘( d a t am i n i n g , d m ) 就是从数据库数据中提取人们感兴趣的知 识的过程。这些知识是隐含的、事先未知的、潜在有用的信息,提取的知识 表示为概念( c o n c e p t s ) 、规则( r u l e s ) ,规律( r e g u l a r i t i e s ) 、模式( p a t t e r n s ) 等形式“,。 数据挖掘技术是帮助企业解决在与客户交互过程中遇到的各种问题的重 要的技术,也是在c r m 应用中发展最快的技术。数据挖掘技术在c r m 中的 应用,为企业的发展提供了战略性和决策性的支持,使得c r m 能够向更智 能的方向发展。对于企业而言,数据挖掘技术在c r m 中的实际应用可以有 助于企业发现业务发展趋势,预测未知结果。并帮助企业分析完成任务所需 要的关键因素,以达到增加收入、降低成本。使企业处于有利竞争位置的目 的。 因此,研究将数据挖掘尤其分类挖掘技术有效地应用到c r m 中,提高 c r m 对企业的决策支持能力,建立系统完善的c r m 是极其有意义的,也是 促进c r m 管理理念的发展和国内c r m 软件产业的重要研究课题。 哈尔滨工程大学硕士学位论文 1 2 国内外相关领域研究与应用现状 1 2 1c r m 的研究与应用现状 随着市场经济的不断发展和完善,企业的经营模式逐渐由以产品为核心 向客户为中心转变“,。为了赢得客户,几乎所有企业都在探询各种有利于增加 企业利润、拓展企业业务的管理方法和技术,并利用这些技术对客户数据进 行分析和研究,从丽指导产品的营销和研发,以满足客户的实际需求,这种 以客户为中心的管理方法受到越来越多的管理专家的青睐。c r m 不是一个产 品。而是一种商业全新的理念”,。 c r m 是一种能够改善企业与客户之间关系的管理机制。早期的c r m 偏 重于管理业务流程,称为操作型c r m 。操作型c r m 是在市场、销售、服务 等方面对企业的| j i 端业务流程进行重新规划和调整,以最佳工作方式为企业 带束最好效应。但伴随着客户数据的大量积累,数据分析问题逐渐变成了企 业的负担。因此,通过建立数据仓库,对客户数据进行统一管理,并利用分 析和数据挖掘工具进行数据分析和处理,成为c r m 发展的重要趋势,即c r m 由操作型向分析型发展。 c r m 自1 9 9 7 年以来一直处于爆炸式的快速发展之中,其主要的应用领 域集中在制造业、医疗卫生业、公共事业、金融服务业和零售业等行业,许 多新兴的企业都己经率先成为c r m 的使用者和受益者。在c r m 软件开发领 域,o r a c l e 、i b m 、s a s 、m i c r o s o f t 等i t 企业已视c r m 为未来的重要发展 方向,并且成为c r m 系统开放的主流厂商,占据前沿的位置。同时,众多 的c r m 渠道和咨询公司也力争占领市场的份额,普华永道、安盛、德勤等 咨询公司都已经开始提供c r m 咨询服务。对他们来说,这一潜在市场的服 务收入将发展成为收入增长的重要来源。 中国加入w t o 后,激烈的竞争使企业开始考虑有挽留高价值客户的必 要。据有关调查,企业获得一个新客户的成本是保持一个老客户的成本的5 倍,企业7 8 的利润来自2 0 e 的客户,而5 6 的客户会由于客户服务质量不 2 哈尔滨t 程大学硕七学位论文 好而流失,成为竞争对手的客户。在此形势下国内企业纷纷借鉴国外企业对 数据挖掘和c r m 的成功应用。在互联网的推动下,c r m 迅速得到国内软件 业、企业界和理论界的关注。c r m 在国内市场开始火爆,大中小软件企业纷 纷开始开发c r m 系统。c r m 系统运用的行业范围包括银行、电信、保险、 证券等客户密集型企业以及制药、零售、制造等产品密集型行业。国内外企 业都在着手实施自己的c r m 系统。但c r m 在中国市场仍然处于市场培育阶 段,无论是从区域结构、产品结构、行业结构,还是从销售渠道来看,整个 c r m 市场还不够完善、不够健全。c r m 的潜在市场价值使得众多的c r m 软、硬件厂商、系统集成公司纷纷进入c r m 市场,专业c r m 培训机构、 c r m 软件代理服务公司、c 贼咨询公司也随之涌现。极大地推动了国内c r m 市场的发展。 1 2 2 数据挖掘技术在c r m 中的研究与应用现状 数据挖掘被企业c r m 广泛采用,并取得了良好的效果,为企业的正确 决策提供了极大的帮助,具有较为广泛的应用前景。数据挖掘作为成功实施 c r m 的技术在不断的探索研究中,最初应用于c r m 中的联机分析处理也已 经被数据挖掘技术所替代,融合。数据挖掘能把企业数据集中起来获取所需 的信息和知识,是成功实施c r m 的关键技术m 。 目前,数据挖掘技术在企业c r m 系统中的应用主要集中在银行、保险 公司、电信公司和销售业等大型企业。国内外c r a m 中数据挖掘技术的研究 方向主要是对知识发现方法的迸一步研究,如对遗传算法的研究,统计学回 归方法在数据挖掘中的应用研究,数据挖掘与数据库的结合研究等等。就数 据挖掘技术在企业c r m 的具体应用现状和研究方向而言,可总结为以下几 方面”。: ( i ) 新挖掘技术的应用研究。数据挖掘技术随着其它的相关学科如计算 机技术、统计技术等学科的发展而不断发展,新挖掘技术有效性和可伸缩性 的研究己成为当前研究的方向。 ( 2 ) 大数据集的处理研究。c r m 中的大量数据包括很多待处理的不完 善、有躁声数据,寻找合适的数据挖掘技术对这些数据进行处理使其显露潜 3 哈尔滨工程大学硕士学位论文 在有用知识办成为近年来研究的热点。 ( 3 ) 对数据挖掘结果的研究。数据挖掘挖掘出来的结果知识必须容易被 用户理解,因此可视化技术和模型简化的研究也吸引了众多学者的关注。 具体而言,数据挖掘技术在c r m 中的各个领域的应用包括:统计挖掘 技术用于客户流失预测分析;决策树分类挖掘方法用于客户细分,租糙集技 术用于客户获得和保持,关联规则挖掘方法用于交叉销售,贝叶斯网络用于 客户信用度分析等等 1 3 论文研究的内容及总体结构 1 3 1 论文研究的内容 本课题通过对c r m 和数据挖掘技术基本理论的研究,将企业的需要与 c r m 、数据挖掘等相关理论技术相结合,构建适合于企业的c r m 系统。全 面论述企业c i l m 的系统功能与架构,重点突出其中的数据挖掘子系统,论 述其数据挖掘策略及内容,研究数据挖掘算法尤其决策树方法在解决企业 c r m 时的具体应用。 本文针对现有的i d 3 决策树分类算法的不足,提出一种新的i d 3 决策树 优化构建方法:0 d t - b i d 3 算法。该算法的提出是基于以下两个方面的考虑: 第一方面,为克服d 3 算法偏向于选择取值较多的属性这一缺点,引入信息 增益平均值作为算法选择测试属性的标准;第二方面,为减少由i d 3 决策树 中的较多冗余分支,在算法中引入在构建决策树的同时合并冗余属性分支的 思想,即o d t - b i d 3 算法在构建决策树的同时对已生成的冗余属性分支进行 合并。通过对比分析o d * b i d 3 算法与m i d 3 算法( 一种i d 3 决策树算法的 改进算法) ,论文在算法的时间复杂度、计算复杂度以及算法性能、总体效应 等方面进行了合理性分析和论证。此外,论文通过建立分类模型,对 o d t - b i d 3 算法在c r a m 中的实际应用进行了相关的研究和探讨。 4 哈尔滨1 :程大学硕士学位论文 1 3 2 论文的组织 本论文按照如下结构组织: 第1 章,为绪论部分,首先介绍了课题的研究背景,然后介绍了国内外 c r m 与数据挖掘相关领域的研究与应用现状,课题研究的内容,以及本文的 内容和结构。 第2 章,首先介绍了c r m 系统,包括c r m 的概念、内涵、管理思想等 等。通过对企业c r m 系统的分析,说明c r m 对企业发展的重要性;其次, 介绍了数据挖掘技术,包括数据挖掘的概念、分类、挖掘过程、常用技术以 及数据挖掘的应用领域;最后阐述了在c r m 系统中实施数据挖掘技术的过 程。 第3 章。首先,简述了c r m 中的客户分类知识;其次,详述了决策树 分类算法的基本理论和优缺点;最后,基于对i d 3 决策树分类算法原理的深 入分析,指出i d 3 分类算法在实际应用中存在的问题和缺点。 第4 章,是本文的重点部分。针对传统i d 3 算法的缺点,提出了一种新 的i d 3 决策树优化构造算法:o d t - b i d 3 算法。在对算法理论上的正确性进 行了证明之后,本文分析了算法的时间复杂度。 第5 章,首先,通过实例对第4 章提出的o d t - b i d 3 算法进行了性能测 试分析,展示了该算法从实例集中优化构造决策树的具体步骤。其次,对 o d t - b i d 3 算法构建决策树的效率以及算法的时间、计算复杂度进行了分析。 再次,通过对比分析o d t - b i d 3 算法和m i d 3 算法从同一实例集构建的不同 决策树的规模和结构,得出o d t - b i d 3 算法构建决策树时能够更大程度地减 小决策树的规模,优化决策树的结构。即o d t - b i d 3 算法能够构建具有相对 较少叶结点和非终结结点以及较小树高的决策树。最后对o d t - b i d 3 算法在 c r m 中的应用进行了一定程度的研究和探讨。 哈尔滨工程大学硕士学位论文 第2 章o r m 与数据挖掘 c r m 面对的是企业的客户市场,核心内容是管理分析与客户行为相关的 信息,构建与客户的交流渠道,为客户提供周到完善的针对性服务。应用c i l m 重构企业管理模式是企业信息化发展的必然趋势。同时,c r m 中引入数据挖 掘等先进技术为企业的经营决策提供了科学准确的依据。在企业管理客户生 命周期的每个阶段都会用到数据挖掘技术。它能够帮助企业确定客户的特点, 从而可以为客户提供个性服务。 2 1c r m 2 1 1c r m 概述 c r m 就是为企业提供全方位的管理视角,赋予企业更完善的客户交流能 力,最大化企业的利润率。c r m 核心管理思想就是:客户是企业最重要的资 源,企业必须由过去的产品导向朝客户导向转变,对企业与客户之间的各种 关系进行全面的管理,不断改进对客户服务的水平,提高客户的忠诚度,从 而为企业带来更多利润。c r m 是现代管理科学与先进信息技术相结合的产 物,是企业以客户关系为重点的发展战略。c r m 能够帮助企业优化业务流程, 通过系统的客户研究提高客户满意度和忠诚度,提高运营效率和利润收益m 。 c r b t 首先是一种管理理念,其核心是将企业的客户作为企业最重要的资 源,通过完善的客服和深入的客户分析来满足客户的需求。其次,c r m 是一 种改善企业与客户关系的新型管理系统。c r i v i 要求以客户为中心来构架企 业,追求信息共享,是为完善对客户需求快速响应而搭建的新型管理系统。 最后,c r m 也是一套管理软件。它将最佳商业实践与数据挖掘、数据仓库、 销售自动化以及其他相关信息技术紧密结合在一起,为企业的销售、客服和 决策支持等提供一个业务自动化的解决方案” 6 哈尔滨:l i 程大学硕士学位论文 一i i i i i | i | | i 自_ 2 1 2c r m 的模型及体系结构 1 c 刚模型 一个良好的模型是c r m 得以充分发挥作用的保障,c r m 系统的一般模 型概括了c r m 软件系统的功能、结构、业务流程及各个模块如( 客户、市 场、销售、服务等) 之间的关系,如图2 1 所示。 豳2 1c r m 软件系统一般模型 在c r m 模型中,底层为数据源,包括联系历史、交易历史、客户数据 库及其他外部数据,通过数据抽取工具提取数据形成数据仓库和数据集市, 以形成面向全局的数据视图,从而形成整个系统的数据基础。在此基础上, 通过联机分析处理和数据挖掘工具进行数据分析处理,包括:查询报表、活 7 一 妲豁规则和几教掰管辟 一 哈尔滨工程人学硕士学位论文 动管理和数据挖掘分析等,并将分析结果用于客户互动渠道以实现企业c r m 中的商业智能和决策支挣”,。 2 c 阴系统体系结构 c r m 系统一般包含接入管理、流程管理和关系管理三部分。按目前市场 上流行的功能分类方法,c r m 系统可以分为操作型c r m 、分析型c r m 和 协作型c i t m 三类。如图2 2 所示。 ( 1 ) 操作型c r m 。操作型c r m 是在市场、销售、服务等方面对企业 的前端业务流程进行重新规划和调整,以最佳工作方式为企业创造最好效应。 操作型c r m 的销售、服务和营销等等模块具有一定的数据分析能力,但同 以数据仓库、数据挖掘为基础的分析型c r m 有很大区别。 龠 舟 r 一一 一一生 ;fe r p ) ( 供成硅jf 所女信息秉境) ! 一一一n b 聃习i i 梳h 、蔬h 魏卜 _ 一= t f 现均般备)f ( 咎动稍售)采皤l 蕞据挖一j l 管理j 图2 2c r m 系统体系结构图 ( 2 ) 分析型c r m 。分析型c r m 将接触中心以及操作型c r m 产生的信 息通过共享的客户数据库把销售、营销和客服连接起来,集成客户互动信息 从而使企业从部门化的客户联络转向与所有客户的互动行为都协调一致。基 于客户数据和融入所有业务系统的分析环境,c r m 就可以对客户数据进行处 0 哈尔滨工程大学硕十学位论文 理,提供定量、定性的即时分析,然后将分析结果反馈给企业管理层。这样 便增加了信息分析的价值,为企业的战略决策提供了支持,企业决策者会权 衡这些信息做出更加全面、更加及时的商业决策n 。“。 ( 3 ) 协作型c r m 。协作型c r m 能够让企业客户服务人员同客户一起 协作完成某项活动。而前面的两种c r m 类型都是企业员工自己单方面的业 务工具,在进行某项活动时,客户并未直接参与。协作型c r m 主要包括呼 叫中心、自助服务帮助导航、客户渠道联络中心等等,其实现有赖于客户的 积极参与。具有多媒体多渠道整合能力的客户联络中心是今后协作型c r m 的主要发展趋势“”。 2 2 数据挖掘技术 2 2 1 数据挖掘的定义、功能及分类 1 数据挖掘的定义 数据挖掘就是从大量的数据中挖掘出有用的信息和知识的过程,即从大 量的、不完全的、有噪声的、模糊的、随机的实际应用数据中发现隐含的、 规律性的、人们事先未知的,但又是潜在的有用的并且最终可理解的信息和 知识的非平凡过程。数据挖掘就是要发现那些不能靠直觉发现的信息或知识, 甚至是违背直觉的信息和知识n 一。 数据挖掘也是一种崭新的商业处理技术。其主要特征是对商业数据库中 的大量业务数据进行抽取分析和模式化处理,从中挖掘出辅助商业决策的关 键信息和知识,即从一个数据库中自动发现相关商业模式m 。数据挖掘是目 前非常活跃的研究领域,其研究涉及人工智能、统计分析和数据库等多门学 科,多学科的相互交融与促进,使得数据挖掘技术得到了积极蓬勃的发展。 2 数据挖掘的功能 数据挖掘通过预测未来趋势及行为,做出基于知识的决策。数据挖掘的 目标是从数据库中发现隐含的、有意义的知识,主要可分为以下六类功能: ( 1 ) 自动预测趋势和行为。以往需要进行大量手工分析的问题,借助数 9 哈尔滨i i 程人学硕十学位论文 掘挖掘可自动在大型数据库中寻找预测性信息。 ( 2 ) 关联分析。若两个或多个变量的取值之间存在某种规律性,就称为 关联。关联可分为简单关联、时序关联、因果关联等。关联分析的目的是找 出数据库中隐藏的关联网,生成的规则一般带有一定的可信度。 ( 3 ) 分类。分类可以找出描述并区分数据类别或概念的属性或模型,以 便能够使用模型预测未知的对象,导出模型基于对训练数据集的分类分析。 一般利用决策树归纳、粗糙集、b a y e s 分类、神经网络、遗传算法等技术进 行分类 ( 4 ) 聚类。数据库中的数据记录可被划分为一系列的子集,即聚类。聚 类增强了对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术 主要包括模式识别方法和数学分类学等。 ( 5 ) 概念描述。概念描述就是对对象内涵进行描述,并概括对象的相关 特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共性, 后者描述不同类的区别。生成一个类的特征性描述只涉及该类对象的共性。 生成区别性描述的方法包括决策树方法和遗传算法等。 ( 6 ) 偏差检测。偏差检测指从数据库中检测出一些异常记录的偏差。偏 差包括很多知识,如分类中的反常实例、不满足规则的特例、模型预测值与 观测结果的偏差等等。偏差检测的基本方法是寻找观测结果与参照值之间有 意义的差别一”。 3 数据挖掘的分类 数据挖掘的分类如下: ( i ) 归纳学习类。归纳学习类可分为基于信息论方法挖掘类( 如决策树 分类方法等) 和基于集合论方法挖掘类( 如粗糙集理论方法等) 。 ( 2 ) 仿生物技术类。可分为神经网络方法类和遗传算法类。 ( 3 ) 公式发现类。在科学实验与工程数据库中,用人工智能方法寻找和 发现连续属性之间的关系,建立变量之间的公式,从而把大量的数据概括在 公式中。 ( 4 ) 统计分析类。由于统计分析能对数据库中数据求出各种不同的统计 信息和知识,所以也构成了数据挖掘中的一大类方法。 ( 5 ) 模糊数学类。模糊数学是反映人类思维方式的数学概念。将模糊数 1 0 哈尔滨工程大学硕+ 学位论文 学应用于数据挖掘中,就形成了模糊数据挖掘类。如模糊聚类、模糊分类和 模糊关联规则等。 ( 6 ) 可视化技术类。可视化技术是一种图形显示技术。对数据的分布规 律进行可视化显示或对数据挖掘过程进行可视化显示,会明显提高人们对数 据挖掘的兴趣和挖掘效果“。 2 2 2 数据挖掘的过程 一般地,数据挖掘在任何一个应用问题上的应用,均可以大致分为以下 三个阶段,如图2 3 所示。 图2 3 数据挖掘过程 ( 1 ) 数据准备阶段。确定分析目标,以及与该问题相关的数据库。包括 数据清理,其作用是清除噪声或不一致数据;数据集成,目的是将多种数据 源组合在一起;数据选择,是为了从数据库中检索与分析任务相关的数据: 数据变换,是将数据变换或统一成适合挖掘的形式的过程。 ( 2 ) 数据挖掘阶段。借助各种数据挖掘工具,从数据库中找出有可能解 决问题的知识。 ( 3 ) 结果表示和解释阶段。将发现的知识表示成容易被为用户理解的形 式,以便于解决实际问题,并根据问题解决程度决定下一步行动。包括:模 式评估,指根据某种兴趣度来度量、识别表示知识的真正模式;知识表示, 指使用可视化和知识表示技术,向用户提供挖掘出来的知识n ”。 在实际数据的挖掘过程中,以上三个阶段的工作一般都存在反复。因此 上述整个过程也被称为知识发现,而仅把第二阶段称为数据挖掘,认为它是 知识发现过程的一个步骤。 在数据挖掘中被研究的问题是整个过程的基础,它是整个数据挖掘过程 l l 哈尔滨一i :程大学硕士学位论文 的驱动,也是检验最后结果并指引分析人员完成数据挖掘的依据。图2 3 的 步骤是按顺序完成的,而且数据挖掘是周而复始、不断反复的过程,即对一 个问题产生的想法深入分析。导致新的问题。新的问题可能产生下一个新的 闯题。因此数据挖掘的过程并不是完全自动的,许多工作需要人工来完成。 2 2 3 数据挖掘经典技术概述 数据挖掘经典技术包括决策树、统计挖掘技术,人工神经网络、可视化、 遗传算法、粗糙集、关联规则等等。 ( 1 ) 决策树。在数据挖掘中,决策树分类方法是一种从数据集中以决策 树形式构造分类模型的方法。这种方法具有计算复杂性小,分类精度高,对 有噪声数据的处理能力好等优点 ( 2 ) 统计挖掘技术。统计挖掘技术是目前数据挖掘技术中应用最多最成 熟的方法之,包括相关分析、回归分析、单变量分析、多变量分析、聚类 分析、判别分析、主成分分析、因子分析等等。 ( 3 ) 人工神经网络。人工神经网络是在生物神经网络研究的基础上模拟 人类的形象知觉思维,根据生物神经元和神经网的特点,通过简化归纳提炼 总结出来的类并行处理网络。 ( 4 ) 可视化。可视化是一种将抽象符号转化为几何图形的计算方法,以 便研究者能够观察其模拟和计算的过程和结果。它主要研究人和计算机怎样 协调一致地接受、使用和交流视觉信息。数据可视化主要包括数据、模型和 过程三方面的可视化 ( 5 ) 遗传算法。遗传算法是一种模拟达尔文生物进化的自然选择过程的 计算机模型,它是一种新的全局优化搜索算法,主要是模拟生物进化的过程。 它由4 个算予组成:繁殖、交叉、变异和自然选择。 ( 6 ) 粗糙集。糨糙集理论是基于等价类的思想,等价类中的元素在粗糙 集中被视为不可区分的,基本原理是用粗糙集近似的方法将信息系统中的属 性值进行离散化,对每一个属性划分等价类,利用集合的等价关系进行信息 系统的约简,得到最小决策关系,从而便于获得规则。 ( 7 ) 关联规则。关联规则挖掘方法是一种从大量的数据中挖掘出有价值 1 2 哈尔滨l :程大学硕士学位论文 描述数据项之间相互联系的有关知识的方法。其核心方法是频集理论的递推 方法。关联规则反映了数据库中数据项目之间的关联关系,而其中发现频繁 项目集是关联规则挖掘应用中的关键技术和步骤t 一- 。 2 3c r h 中的数据挖掘 c r m 系统与数据挖掘有着不可分离的密切关系,可以说数据挖掘是 c r m 系统的支柱和灵魂。c r m 的许多工作都是以数据挖掘为基础而展开的。 利用数据挖掘工具企业可以制定正确的市场策略与合适的促销活动。c r m 充 分利用数据挖掘的分析结果制定市场策略,并通过销售和服务等部门与客户 积极沟通交流,从而提高企业的收益和利润。 2 3 1c r h 中数据挖掘的应用领域 c r m 中有丰富的数据资源,而且数据相对比较完整、质量较高。可以将 数据的挖掘结果转化为c r m 的商务行为。但要充分地发挥数据挖掘技术在 c i t m 的作用,除了利用上节介绍的几种基本方法外,还必须将业务处理阶段 的数据转储到大型数据库或数据仓库中,并与c r m 的行为有机集成。因此。 从c r m 角度出发,数据挖掘在c r m 中的应用包括但不局限于以下几个领域: ( 1 ) 客户细分。它是将企业面对的不同客户按需求的不同,划分为不同 的群体的过程。在了解了相同群体的需求之后,营销人员就容易进行营销组 合,有针对性地实施营销策略。在数据挖掘技术中,决策树和聚类是典型的 进行客户细分的算法。 ( 2 ) 开发新客户。对大多数企业而言,开发新客户是一种新的赢利方式, 也是实现企业增长的主要方式。在开发新客户的过程中,利用数据挖掘技术 挖掘潜在客户的消费行为模式,预测潜在客户对业务开发活动的反应,从中 识别出有积极反应的客户,帮助市场人员对潜在的客户进行筛选,然后有针 对性地实施营销活动。 ( 3 ) 客户保持。随着市场竞争的日益激烈,保持原有客户的价值也显得 越来越重要。企业可通过数据挖掘技术对客户数据库中大量的客户数据进行 1 3 哈尔滨 程大学硕七学位论文 分析和处理,针对性研究流失客户群体,分析其特征,建立流失客户模型, 识别导致客户流失的模式。然后根据分析结果找出可能转移的客户,并结合 流失客户模型,分析模型和数据的挖掘结果,预测哪些客户可能会离开,以 便使企业制定一些可以诱使这些潜在离开者留下来的最适宜的计划和方案, 改善企业与客户的关系,争取保持客户并提高收益。 ( 4 ) 交叉营销。交叉营销是指企业为客户提供现在消费商品之外的其他 商品的营销活动。利用数据挖掘工具挖掘出不同的顾客在不同产品和服务上 的消费模式,从而达到既满足企业的需求,又满足客户的需求,使双方之间 达到双赢的状态。 ( 5 ) 客户盈利能力分析。不同客户的盈利能力对企业的利润贡献是不同 的。企业可以设置一些计算盈利能力的参数,利用数据挖掘对客户信息和客 户历史交易记录、售后服务等进行分析,得出每位客户的盈利能力。对客户 进行分类,预测客户未来的购买模式和购买行为。这样就可以在市场营销过 程中对那些有价值和有潜在价值的客户投入较多资金,向其提供及时的个性 化服务,留住这类客户,并有针对性地对其采用交叉销售等手段提高客户的 盈利能力。从而可以使企业有效她降低成本,提高收益* m 。 2 3 2c r m 中实旋数据挖掘过程 由于看待和解决问题的角度不同,c r m 中的数据挖掘过程可分为以技术 为中心的数据挖掘过程和以商业为中心的数据挖掘过程。前者强调主要精力 应该用在保证数据的处理和从不断的试验中改进数据挖掘技术上。而后者将 重点放在商业问题的定义、投资回报率( r o i ) 和对数据的理解上。图2 4 和图2 5 分别描述了以技术为中心的数据挖掘过程和以商业为中心的数据挖 掘过程。 图2 4c r m 中以技术为中心的数据挖掘过程 哈尔滨工程大学硕士学位论文 一i i | 目j 图2 5c r m 中以商业为中心的数据挖掘过程 以技术为中心的数据挖掘过程主要描述从技术角度进行数据清理、集成、 选择和变换等数据处理,使用智能方法提取数据模式,并依据兴趣度度量和 识别有价值的模式,最后使用可视化和知识来表示技术,向用户提供挖掘的 结果信息。 以商业为中心的数据挖掘过程主要描述从业务问题角度进行数据定义和 r o i 定义,在此基础上进行数据挖掘和知识模式的应用,并预测r o i ,根据 结果选择配置挖掘模式并测试实际r o i “”。 2 4 本章小结 本章是数掘挖掘技术在c r m 中应用的基础部分,首先介绍了c r m 的特 点、模型以及体系结构。然后,本章对数据挖掘理论及经典技术进行了阐述, 分别概述了决策树、神经网络、遗传算法、粗糙集理论等典型的数据挖掘技 术。最后概括论述7 数据挖掘在c r m 申的应用和实施过程。通过本章的论述, 为以后数据挖掘算法在c r a m 中的应用及研究奠定了理论基础。 哈尔滨一r 程大学硕七学位论文 第3 章c r m 中的决策树分类方法 3 1c r m 中的客户分类 c r m 中的客户分类指根据企业客户的信用度等级、客户的消费行为等相 关信息,将客户划分成不同的客户类剐,以便采取不同的营销策略和对客户 采取相关针对性的服务:大多情况下,客户对企业带来的利润是不同的,因 此企业不能对所有客户都一样对待,而应该根据客户对企业的利润贡献程度 来采取不同的对待策略。在c r m 中引入数据挖掘技术尤其决策树分类挖掘 技术。j f 是基于企业能够对不同客户进行正确分类的考虑。 3 1 1 客户分类知识 采用决策树分类方法对客户进行分类,其目的是建立一个客户分类器“, 该分类器能把企业客户映射到某一特定的客户类别中。构造客户分类器的前 提是存在一个作为分类输入的训练样本数据集。训练样本数据集简称为训练 集,由多个不同客户的记录组成,每条记录组成一个包含若干条属性的特征 向量。训练集中的每条客户记录都对应着一个特定的客户类别标识。一个客 户样本的形式为样本向量:( 巧,c ) ,k 表示属性字段值,c 表示客 户类别标识属性的值m ,。 设( 五,k ,k ,c ) 是随机变晕,其中置的域为d o m ( x ,) 。为不失一般 性,设z o m ( c 3 = l ,2 ,七,。一个分类器实质上就是函数d : 删五) d o m ( x 2 ) g d o m ( x , ) _ d o m ( c ) 。设p ( x :c ) 是在 d o m ( x 1 ) d o m ( x 2 ) g d o m ( x ) d o m ( c ) 上的概率分布,定义 f - - - - 是一个随机地从p 中得到的记录,即t 有概率 p ( x :c ) ,其中 仨r ,t c e c 。定义分类器且d 的误分类 率为:e ( d f c ) 。以p 分布的随机样本集就是训练数据 哈尔滨工程大学硕七学位论文 库d ,x 为对应属性,成为非类别属性,c 称为类别属性,也称为类标号属 性。 给定一客户数据训练集乃r 中的客户记录由若干个属性描述。在所有 属性中有且仅有一个属性作为客户类别属性,属性集合用矢量 x = ( 蜀,工2 。,j 0 ) 表示,其中x ,( 1 i s n ) 对应各客户类别属性,可以具 有不同的值域,即对于任一属性墨e ( x i ,k n ,j 0 ) ,所随属性的不同而 变化。称取值为连续值的属性为连续属性,否则称为离散属性;用c 表示客 户类别属性,c = ( c 。c 2 ,q ) 即数据集有眉个不同的客户类别。于是,r 就隐含地确定了一个从矢量x 到类别属性c 的映射函数n ,( x ) 啼c ,客 户分类的目的就是采用某一种或几种方法将隐含函数f 表示出来。客户分类 的第一步是在客户数据训练集中学习的过程。用分类算法分析训练集数据, 然后生成客户分类器;第二步是分类模型评估并投入实际运行的过程。测试 集用来评估分类模型的分类准确率。如果准确率能被接受,则分类规则将用 来对新客户数据进行分类m “。 3 1 2c 酬对客户分类的管理过程 c r m 中的客户分类是为了分析企业客户数据,并通过训练集中的客户数 据特性,为每一个客户类别找到一种准确的描述。客户类别描述可用于客户 数据测试和分类预测,以便获得对各个客户类别的规则的正确理解。最终为 企业提供决策支持。但企业要想实现从客户分类到获得规则、最终再到制定 针对性策略的过程,必须要用c i t m 系统进行分类管理。对企业客户进行分 类管理正是c r m 的核心

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论