




已阅读5页,还剩40页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 现代企业或大或小都认识到客户对企业的重要,因此企业的经蕾理念也由 泼生产、镑赣为中心转变为客户为中心,觚丽应对越来越激爨的市场竞争,掇秀 企业自身的核心竞争力。顺应这种现实需求,催生了客户关系管理这样一种新的 信息技术,并在近几年里褥蓟了迅猛的发展。客户价值分析怒客户关系管理中很 重要也是很菸础的一部分,本文研究的是客户价值的一秭计算方法客户终身 价值,客户终身价值的计算模型的确定和研究的对象有密切的关系,本文设计模 型针对于电傣行业。 数据挖掘是近几年来信息行业中研究的热点之一,数据挖掘可从大量的历 变数弦中寻找穗含冀中覆事先不尧入知的知识。本文在诗算客户终身徐篷对,对 模型中的两个关键参数( 在网率和客户预期价值) 分别采用了k e h o n o n 聚类、 b p 神经瞬络等数据挖箍技术进行预测和估德。对客户的历史价值进行挖掘,通 过分析影响客户价德的因素及这些因素之间的关系,发现其中的知识,从而对客 户的未来价值进行预测。 本文奁分缨鹣鞠关技术懿基爨上设计了一耪逢会瞧售行烂瓣客户终身徐蓬 计算模型,对该模型做出了可在工程项目中蜜际应用的实现方案,并且针对该实 褒方案锻了帮分实验,取霉孽了一些鸯徐篷静戏莱,文章还分绣了毫藩企、翌正在开 发或使用的b s s 系统并且讨论了客户终身价值模型在b s s 系统中的应用。 最后,作者对所作的研究工作进行了总结,指掰在研究过程中面临的主要 问题和困难,并对进一步的研究工佟提出了一些建议。 关键调:客户终身挽篷,客户关系餐瑾,数握挖提,b p 毒孛缀啜终,k e h o n o n 聚 类 a b s t r a c t i n t h e 西o b a lc o m p e t i t i v em a r k e t p l a c e ,b u s i n e s s e sr e g a r d l e s s o fs i z ea r e b e g i n n i n gt o r e a l i z et h a tc u s t o m e r sp l a yai m p o r t a n tr o l et ot h e m t ot h i se n d t e c h n i q u e s f o rc r ma r e b e i n gd e s i g n e d ,d e v e l o p e d a n d i m p l e m e n t e d t h e s e t e c h n i q u e ss h o u l dh e 强d e v e l o pt a r g e t e dp r o m o t i o n sw h i c h a r en o t o n l y b e t t e rt a i l o r e d f o re a c hc u s t o m e r , b u ta r ea l s om o r e p r o f i t a b l et ot h eb u s i n e s s e si nt h el o n gr u n t h i s t h e s i ss t n d i e sak i n do fc a l c u l a t i o nm e t h o do fc u s t o m e rv 嚣l 珏e c u s t o m e rl i f e t i m e v a l u e a n de s t a b l i s h sac a l c u l a t i o nm o d e lf o ri t t h ed e t e r m i n a t i o no f t h ec a l c u l a t i o n m o d e lf o rc u s t o m e rl i f e t i m ev a l u eh a sac l o s er e l a t i o n s h i pw i t ht h eo b j e c ts t u d i e d t h em o d e li nt h i st h e s i sa i m sa tt h e a p p l i c a t i o n t ot e l e c o m m t m i c a t i o ni n d u s t r y t h e s ey e a r s ,d a t am i n i n gh a sb e c o m eo n eo ft h eh o ti s s u e si ni n f o r m a t i o n i n d u s t r y d a t am i n i n gi s e x t r a c t i o nn o n - t r i v i a l ,i m p l i n t ,p r e v i o u s l y , 1 m k n o w na n d p o t e n t i a l l yu s e f u li n f o r m a t i o no rp a t t e r n sf r o md a t ai nl a r g ed a t a b a s e s i nt h i st h e s i s , d a t am i n i n gi sa p p l i e dt oc a l c u l a t ec u s t o m e rl i f e t i m ev a l u e ,a n dt h eh i s t o r i c a lv a l u e o fc u s t o m e r si sm i n e d t h r o u g ha n a l y z i n gt h e s ef a c t o r sw h i c ha f f e c tt h ec u s t o m e r v a l u ea n dt h er e l a t i o n s h i p sa m o n g t h e m ,w ec a nf i n dt h ek n o w l e d g e i nt h e m , a n dt h u s c a r tp r e d i c tc u s t o m e r sn t u r ev a l u e a tt h el a s to ft h et h e s i s ,t h ea p p l i c a t i o no ft h i s m o d e lt ob s s s y s t e m s i sd i s c u s s e d k e y w o r d :c u s t o m e rl i f e t i m ev a l u e ,c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ,d a t a m i n i n g ,b p n e u r a ln e t w o r k ,k e h o n o nc l u s t e r 1 1 课题背景 第一章绪论 现代企业嚣穗越来越激赫的竞争环境,企照对提离舀身的核心竞争力有了强 烈的需求,很多企业郄意识到以生产为中心、以销售产品为目的的市场战酶已逐 渐失去了意义,一对一的营销,以客户为中心、以服务为目的的市场理念逐渐被 人们接受,形成企数提高核心竞争力鲍主流嚣憋;嚣时信息技术一霹予攫鳃发展 为企业实现这萃申市场理念提供了强大的技术缣障。市场的需求、信息技术盼推动 和管理理念的更新,促成了客户关系管理( c r m ) 的产生和发展。 客户关系管理的核心楚密户徐僮的管理,增潮叛客户、保整老客户,增量 销售、交叉镑售等浆基磴是簧针辩存徐僮或鸯潜在徐僮黪客户,客户就怒二帝, 但不是所商鹣客户都是上帝,肖徐德或畜潜在份德的客户才楚上帝。餐户裁是公 司的瓷产,而且是羹要的资产,如何确定公司的客户资产或者说如何计算客户价 值是一件重要而有意义的工作。客户终身价假即是计算客户价值的一种方式,通 过霹客户终身绘毽瓣诗冀,蔽钓黻l 耍溅客户懿未寒馀篷,鬻j 逡,客户终鸯徐谴 可戬 擘为一个企监滟内部撰拣,刿骥企韭豹运蘩捩况、企照弱客户关慈,翘时遣 可以和其他客户关系主题的管蠛结合起来,为企业的决策掇供依据。 由于客户价值分析在c r m 中的重要地位,因此有很多人对客户价值的计算 方法壤开磅究,客户终身徐蘧诗簿方法是客户馀雹堇计算硬突瓣成票之一。爨觚有 入掇出客户终身价德的概念蔗,客户终身价德被不同的研究入员和使用入爨在不 同的行业、不同的场合频繁使阁而造成了一燎概念上的混乱,j i mn o v o 对客户 终身价缓盼概念徽了艇整 1 】。1 9 9 9 年,d r 。m a n i 等人提出了一静适合魄信业 魏诗舞模燮,2 0 0 2 零s a h a r o nr o s s e t 等天撬滋了焚敷翡计算模壅,该模羹阍祥适 合予泡信行鼗。d 。r m a n i 等人在箕论文中采矮了半参数方法( 神经潮终) 计算 了客户的离网率 2 】,s a h a r o n r o s s e t 等人则提出了一种基于分段的方法计算了客 户的离网率 3 】。在已往的研究中部集中研究了客户保持的计算,对于终身价值 的冀一令鬟婺参数羲黧绥缓熬聚宠缀少,本文撵窭了一耱矮b p 狰缝溺络颈 测客户预期价值豹方法,并缭禽翡久戆客户保持研究残杀,褥出了一个完熬麴客 户终蹙价值计算模溅。本文的研究工作作为北京邮电大学遇信软件工程中心的 c r m 预研项目的一部分,对客户终身价值的计算做出了可在工程项目中实际应 用的蜜现方寨,并嚣在该实瑷方鬃熬基礁上徽了帮分实验,毅褥了一些鸯侩篷鳇 残巢。 德得提的是客户终身价值的计算并不邋合任何公司、任何行业,媳有定 的行渡针对性,电信企业的特点遴合计算客户终身价值。零文骢霹静就楚凝据电 信行业匏特点设计一秘客户终身价镶豹诗算模型。 1 。2 工作内容及成果 1 2 1 研究的目标 客户终巍偷筐计算模型是骞户价篷分毒厅鲍一部分,由于客户终身份筑楚诗算 窖户静未来徐健,需要霞蜀一整数搌挖掘算法俸鎏颓灏,弼露客户终鸯徐穰翡计 算有行业钟对性,因此研究的霞标是通过熟悉相关的数据挖掘算法,对数耀挖掘 算法作出选择,熟悉相关计算机知识,包括数据库、数据仓库和o l a p 分析等, 了解电信行业的领域知识,在此撼础上得出一种可实用于电信企业的计弹模型并 且提出操作性强的实施方案。 。2 ,2 工撵酶内容 针对论文的研究目标,本文的研究内容主要包括下几部分; 资料调研:收集、学习关于客户终身价值的计算模型的文献,掌握模型 中需要用到的数据挖掘簿法、电信领域知识和c r m 知识及模型实现时 应用到的相关计算枫知识; 熬悉邀售镶装翔瑷:逶遽参与实际夔顼嚣了麟毫蒗照务,熬悉黛产系绞 盼数据库结构和数据情况,了解现有的数据分析系统;学习大漤项目的 设计和实施经验,将这些经验体现在客户终身价值模型的设计中; 选择算法:熟悉和模烈设计相关的数据挖掘算法,确定适合于模型的算 法,熟练使用数据挖掘工具; 设计模型:对比文献中余缁的客户终身价谯模型,晓较模型髂优劣,确 定逡台逛痿金踅豹客户终身徐蓬模型; 实现模型:根据确定斡模型做出可操俸的宓现方案。 1 2 3 工作成果 通过完成以上工 乍内容和攒写论文,学习相关计算桃知识和电信行般的领域 知识,搜谤逑蠲于毫蕊行堑戆察户终身徐蓬诗冀攘黧,并挺窭实瑗方寨,竞戚了 蕊定懿疆糠。 1 3 论文结构 本论文内容基本按照工作内容进行组织: 论文共分篾七葭努,第二搴主要砖客户终身终镶懿定义皴了详绥接述,雩# 为 背景知识介缁tc r m ,讨论了客户终身价值和分耩黧c r a m 之闯鲍关系。由于 客户终身价值的计算中采用了数据挖掘算法,因此程第三章介绍了数据挖掘的基 本知识,对模型中涉及到的两种数据挖掘算法的进彳亍了详细介绍。 第四章芹i :i 第六章是论文的核心,在第四章讨论了几种客户终身价德模型,确 2 定了我们将采用的模型,并确定了模型实现的技术路线。 第六章是对第四章确定的模型和实现的技术路线的进一步研究,提出了一个 可操作的实现方案,对模型的各部分实现都作了交待。 在我们的设计中,数据挖掘算法是运用数据挖掘工具来实现的,因此在第五 章讨论了数据挖掘软件的发展情况,并从众多挖掘软件中选择了两种使用过的软 件进行了比较,确定了适合的数据挖掘工具。 第七章介绍了电信业的b s s 系统,其中数据挖掘部分延伸为专题分析,同 时专题分析也可以作为分析型c r m 系统的一个过渡,描述了如何将客户终身价 值模型和专题分析结合起来,讨论了客户终身价值在专题分析中的应用。 文章最后总结了本文成果和不足,及面临的主要问题和困难,并对今后工作 进行了展望。 第二章客户终身价值 2 1 客户终身价值的定义 客户终身价值是客户价值分析中很重要的一个概念,然而,由于客户终身价 值这个概念在不同的行业和不同的方式下被广泛利用,因此,由于不同的使用目 的使得客户终身价值的定义出现了差异性,以下是在文献中收集的一些关于客户 终身价值的定义: 客户终身价值( c u s t o m e r l i f e t i m ev a l u e ,l t v ) 是指对一个新客户在未来 所能给公司带来的直接成本和利润的期望净现值。简言之,就是考虑未 来客户产生的利润,现在客户对你的价值。 客户终身价值是指公司从客户那里获得其全部远期利润的现值。 客户终身价值是指客户生命周期产生的价值。 客户终身价值是客户在未来一段时间内对公司的潜在贡献。 以上是众多定义的有代表意义的一部分,综观这些定义,他们的共同点是都 认为是: 分析单个客户的价值,由单个客户的价值计算出公司整体的客户价值, 从企业的角度来看客户价值或客户对企业的贡献, 都考虑到客户的未来价值,即对客户的未来价值进行预测。 由上述定义可以看出,客户终身价值的定义可包括三部分,一是对终身价值 的时间定义,即终身价值的计算时间的起点和终点,确定客户终身价值的时间跨 度;二是如何定义客户价值,如何确定由客户带来的利润;三是是否要考虑对未 来价值进行折现。不同的定义的差异性在于对以上三点的定义强度,如定义客户 终身价值的时间区间的确定,有定义提出了客户生命周期的概念,客户生命周期 一般由由潜在客户、响应者、即得客户和客户流失四部分构成。如下图所示: :客尸啊赶看 l 高价i 卅堡i 懦羹l 警ii 匡细i 由于不同的行业和应用的影响,考虑到计算客户终身价值的意义,因此定义 客户终身价值时有的定义为整个客户生命周期,有些定义为其中的即得客户阶 4 段,即一个新客户从开始接受公司的服务到流失为止,还有把即得客户阶段根据 理在瓣时刻区分为历史馀值酾未来份谴,在一些实瓣应用中,更关注客户数未来 价值,因此有些定义将时间区段定义为即得客户的未来价值。 客户终身价值的定义中还存关键的一点是确定是计算客户为公司带来的利 润,掇熬在一些定义中没有绢确指出是利润丽是价值等不太明确的词,但基本意 思魑相同的,在不同的应用中有具体的定义。因为是计算中涉及到客户的未来价 篷,因此藏鸯令是否霭要瑟现豹闫瑟,在有黧定义申明确提戮要萼冬获缮煞未来价 值进行折现。 关于客户终身徐僮还有另终一个问题是,是不是联有的公司都嚣覆计算客户 终身价值? 褥案当然不是,比如消费者可能一生只购买一次产品的公司,计算客 户终身价值就没有什么意义,但电信公司计算客户终身价值就很有意义,电信公 司有如下特点: 电信公司和最终消费者有直接联系,最终消费者接受电信公司的服务, 逶鬻按兵国遗售公司支鼹黢务镬焉赞爱,出予龟售游费群零拳庞大露爨涪 费屡次参差不齐,因此计算客户终身价值有实际的意义,而且电信公司 和客户之间的交互鸯信息系统作记录,也为客户终身价值的计算创迩了 条 牛。 消费者在使用某个电信公司的服务时,一般有一定的时间区段,在这个 靖淹区段中楚连续经霜静该公司提供鼹骚务,帮一生只魏买一次产灏的 消赞行为不同,这也是计算客户终身价值的基础。 一歉来说,泡绩公裁可默兔燕一消爨者提供了多秘暇务,甏显涟着魄信 也的发展和竞争的浠要不断开发新的服务和提供各种增值业务,可以通 过对客户终蹙价值鲍计算和w h a ti f 分橱,研究增爨销售謦珏交叉销售, 达到客户关系管理帮决策支持的哥的。 客户终身价值的计算和行业有密切的关系,不仅仅是行她是否需要计算其终 身价篷豹蠲怒,不嗣麓 亍泣程计算客户终身徐蓬对甏要采嗣不同豹计算模登。函 此,在本次设计中,我们主要针对电信行业,根据电信行业的实际特点进行分析、 建摸羁计算。 总之,我们定义客户终身价值为一个客户在其生命周期中能给公司带来的直 接成本和利润的期望净现值,在本文中,我们确定客户生命周期为从计算日期( 最 近月) 起未来某段嚣寸闯内的时闻区段,针对电信行煦的特点设计模型并计算模型 中涉及到的参数。 2 2 客户终身价值和c r m 的关系 2 2 1 客户关系管理概述 在今天这个商波竞争非常激烈的环境望,企业必须不断地通过各种渠道同客 户进行有效的互动交流,并鼠从这种互动中获取知识,了解你的客户。随着竞争 的加剧,卖方市场逐渐转化为买方市场,因而许多公司由“以产品为中心”的策 略转变为“以客户为中心”的策略已经成为必然。同时信息技术也在迅速发展, 根据企业的这种需求,g a r t n e rg r o u p 正式提出c r m ( c u s t o m e rr e l a t i o n s h i p m a n a g e m e n t ) 的概念,也加速了c r m 的产生和发展。 c r m 出现于1 9 9 0 年的美国,其经历了”销售力量自动化系统( s f a ) 一客 户服务系统( c s s ) 一呼叫中心( c a l lc e n t e r ) ”三次变迁,综合了现代市场营销 ( m a r k e t i n g ) 和现场服务( f i e l d s e r v i c e ) 的理念,并结合了计算机电话集成 技术( c t i ) 和i n t e r n e t 技术。c r m 已经火热的发展了十个年头,在这十年中, c r m 的自动化功能已经取代了曾经是文字处理器,电子表格,手工单据,及前 端数据库的功能。在此期间,蓬勃发展的经济使供应商们拥有了应用程序来帮助 他们提高销售与市场研究的效率,同时也帮助他们降低了热线支持,客户服务和 上门服务的成本。 客户关系管理是一个从实践的需要产生的概念,正出于发展期,因此目前还 没有一个统一的定义。可以确定的是客户关系管理( c r m ) 是一个尽可能自动 化和持续的过程,最大化利用客户的各种信息,有效地提高客户对公司产品的忠 诚度和满意度,并且能够同所选择的客户全体保持长期和有效益的业务关系。把 合适的产品和服务,通过合适的渠道,在适当的时候,提供给适当的客户。因而 c r m 的主要目标是: 与所选客户建立长期和有效的业务关系。 在与客户的每一个“接触点”上都更加接近客户,了解客户。 最大限度地增加利润和利润占有率。 经过多年的发展,c r m 从一种先进的企业理念,发展到一套完整的信息化 解决方案。在这套解决方案中,c r m 由运作型、协作型和分析型等三个层次组 成,每个层次都需要运用到不同的信息技术来实现,三个层次实现的具体内容分 叙如下: 运作层次的c r m :对销售、营销和客户服务三部分业务流程和管理进行信 息化。这方面的流程和技术的作用在于,提高日常的前台运作的效率和准确 性,主要是销售自动化、营销自动化和服务自动化。 协作层次的c r m :对与客户进行沟通所需手段( 如电话、传真、网络、e m a i l 等) 的集成和自动化处理。这方面的系统部件和流程的作用在于,帮助企业 更好地与它们的客户进行沟通和协作,主要是语音技术、网上商店、邮件、 会展、面对面沟通。 分析层次的c r m :对上面两部分的应用所产生的信息进行加工处理,产生 客户智能,为企业的战略决策提供支持。主要是数据仓库、客户数据库、客 户细分系统、报表和分析系统,提供对客户数据和客户行为模式进行分析的 能力。 在c r m 的三个层次中,分析型c r m 处于核心地位,分析型c r m 利用协 作型c r m 提供的客户数据、企业运作相关的数据及运作型c r m 的反馈数据, 运用数据仓库、数据挖掘、联机分析处理、决策支持和报表工具等计算机技术进 行加工处理,将这些数据和信息加工成知识,管理客户关系、为企业的决策提供 支持。 2 2 1 客户终身价值和分析型c r m 的关系 一般来说,分析型c r m 是一个复杂的系统,需要从不同的角度来分析客户 关系,因此通常要分解成几个功能模块,这些模块可能包括客户价值分析、客户 离网分析、欠费分析、欺诈分析等。其中客户价值分析是分析型c r m 的核心模 块之一,同时其他c r m 分析也需要用到客户价值分析的结果。 客户终身价值的计算是客户价值分析模块中的一部分,一个客户的价值由三 部分构成: 历史价值:到目前为止已经实现了的客户价值。 未来价值:如果客户当前行为模式不发生改变的话,在将来会给公司带 来的客户价值。 潜在价值:如果公司通过有效的交叉销售、调动客户购买积极性或客户 向别人推荐产品和服务等,从而可能增加的客户价值。 由于客户价值的组成比较复杂,在进行客户价值分析时,我们必须确定哪部 分价值是我们关心的,我们如何计算客户价值。客户终身价值就是客户价值的一 种计算方法,计算值为上面提到的客户未来价值,即在当前行为模式不发生改变 的话,在将来给公司带来的价值,换句话说,客户终身价值是通过客户当前的行 为模式预测客户的未来价值。 在其他c r m 模块中,客户价值可能作为一个重要的属性或度量出现。在客 户流失分析中,公司比较关心高离网率、高消费额的客户,在欠费分析中,高消 费额客户同样更值得关注。 2 3 小结 客户终身价值是一个由实践中产生的概念,由于使用这个概念的人不同、使 用的方式不同、使用的行业不同导致在概念上有所不同。我们定义客户终身价值 为一个客户在其生命周期中给公司带来的直接成本和利润的期望净现值,其中生 命周期可以根据具体情况或需要来确定。 c r m 即客户关系管理通常有三部分组成:操作型c r m 、分析型c r m 和协 作型c r m 。本文讨论的客户终身价值在分析型c r m 范围中。 客户终身价值计算是客户价值的一种计算方法,而客户价值专题是客户关系 管理的核心之一,客户关系管理的其他专题的分析都离不开客户价值,比如客户 流失分析,人们更关心流失的客户是否曾经是消费高额客户,如果流失客户中高 端客户和低端客户比例等是公司较关心的信息。 第三章数据挖掘 3 1 数据挖掘的概念 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取 隐含其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。该定义 主要有三方面的内涵,一是数据的定义,数据挖掘是从应用中产生的学科,因此 对数据的要求必须满足实际的需要。从数据源的角度来看,可进行挖掘的数据可 存在于文件、数据库、数据仓库等多种形式的存储数据。其二,对其挖掘结果, 即知识也确定了一个范围,即挖掘结果是人们事先不知道的、但又是潜在有用, 可以这样理解,从定性的角度看,人们事先就不知道,或者,从定性的角度看有 基本的认识,但从定量的角度,人们是不能确定的。最后,数据挖掘是一个过程, 不是某个算法模型、某个软件或者是某种知识。数据挖掘需要在一个体系结构下, 不停地根据商业需求,收集数据,建立模型,从而挖掘除有价值的知识。 和数据挖掘类似的概念被业界称为k d d ,k d d 的全称为数据库中的知识发 现,有人认为数据挖掘是k d d 的一个关键步骤,也有人认为这两个概念基本上 是一个意思,只是从不同的角度认识问题而已,譬如人工智能的研究人员倾向于 讲y d d ,而计算机和信息技术专家通常说数据挖掘,我们认为数据挖掘是k d d 的一个步骤。 从数据挖掘和k d d 的概念比较我们可以看出,数据挖掘是一门面向应用的 很广义的交叉学科,其涉及的领域包括数据库、人工智能、数理统计、可视化和 并行计算等。很多科研人员从不同的角度对数据挖掘进行研究,但可能会有所侧 重。 数据挖掘的外延可定义为广义的数据挖掘和狭义的数据挖掘,广义的数据挖 掘用计算机作为工具,实现在大数据量下的数据分析。狭义的数据挖掘是用自动 化或启发式的方法,从数据中挖掘知识。在本文中,数据挖掘被认为是狭义的数 据挖掘。 3 1 1 数据挖掘和统计、o l a p 的关系 数据挖掘和统计学研究的是同一个问题域,他们研究的是共同的问题,即发 现数据中的结构,发现隐藏在数据背后的规律。因此有必要理顺数据挖掘和统计 学的关系。 统计学有着正统的理论基础,统计的最初含义是“陈述事实”,以及找出枯 燥的大量数据背后的有意义的信息。因此统计学通常被认为是数学的分支,数学 背景和过分追求精度,使得统计学在采用一个方法之前先要证明,而不是象计算 机科学和机器学习那样注重经验。这就意味着有时候和统计学家关注同一问题的 其它领域的研究者提出一个很明显有用的方法,但它却不能被证明( 或还不能被 证明) 。从这个角度来看,统计学在研究问题是受到了自身的限制。数据挖掘作 为几门学科的综合,已经从机器学习那里继承了实验的态度。这并不意味着数据 挖攥工作者不注重戆礁,蠢怒硬究闻题的悬鼹更为灵活,更关注获缮煞结果,强 时,为了实用的需要,如果采用的方法不能产生结粜的话就会被放弃。 出于同一个原因,统计学更侧重于推理,核心问题就是巍观察了榉本的情况 下如何去推断总体,这同样怒数据挖掘关注的,但数据挖掘的一个特定的属性就 是关注大的数据集。这就意味着,由于可行性的原因,统计学常常得到的只是一 个襻本,毽燕需要箍述群本敬垂的那个大数据集;然蠢,数耀挖摇闷遂鬻鬻霹渡 得到数据总体。也可以这样理解,数据挖掘熄数据驱动的,潦实上大鼹的数据可 能包食不可预测的但棂有价健的缝搀。薅这埝烩引起了注意,也是当藏数据挖掘 的任务。统计学的研究对象是样本,从样本的特征推出整个数据集的特征。数据 挖搦的研究对象是大量数据,直接从数据中找到隐藏其中的规律。 现代统计学臣穰型为主,如上掰透,这季中模壅需要数学上的严格证明,阑j 毪 需鬟做很多假设,专注于研究变量之间的关系,因此在样本的选择也有一定的要 求。数据挖攘憝数撰不仅是数据量大,恧显露霉要处理夔数摆是有襟声戆数据。 很多情况下,数据挖掘的本质是很偶然的发现非预期但很有价慎的信息。这 说明数据挖掘过程本质上是实验性鲍。这和确定性瞧分板是不同的。 数据挖掘还应蠲了其它领域的思想、工具和方法,尤其怒计算机学科,例如 数据库技术和机器学习,而且它所关注的某魑领域和统计学窳所关注的有很大不 溺。正是因为数据挖掘是来滔多学科的交叉学科,霞诧稻统计学存在很多不阗之 处魁可以理解的。 o l a p 楚数据会瘁戆典蒸应爱。o l a p 帮联援分拆楚瑾,是楚粹熬售意投术 的产物,分析的数据通过数据仓库进行了清洗、按主题重新进行了组织、将数据 进行了集成之后,程此基础上生成数据立方体。o l a p 朝通过旋转、切片等技术, 从多角度对数据进行观察。 o l a p 关注的问题停留在对历史数据描述和理解,给企业的数据分析人员提 供了丰富稳手段来鼹察关心瓣数据。数据挖擒不仅仅簸对历史数据送行搐述和展 现,更重要的是从历史数据中找到隐藏其中的规律,进而进行预测。总之,0 l a p 霹数握控撼鄂是决繁支跨等疲翅豹手段,毽镶翻采逶了不同黪技术秘不曩弱鼹决 问题的思路,数据挖掘比o l a p 作了更深入的研究。 3 。 。2 数据挖掘方法分类 数据挖掘方法遇常可分为直接数据挖掘和间接数据挖搦薅秘。患接数掇挖 掘,爵标是利用可踊的数据建立一个模型,这个模型对剩余的数据,对一个特定 的变量( 可以理解成数据库中表的属性,即硎) 进行描述;间接数据挖掘,网标 中没有逸窭蔡一具锩熬变量,焉摸鹫迸嚣箍遴; 磊楚在辑膏豹交量中建立趣蔡静 关系。 数据挖掘的能宠成竣工髂舂分类、售餐、颈言、关联分辑、聚集、摇述窝可 视化。其中分类、估值和预言属于真接数据挖掘;相关性分组或关联规则、聚集、 描述和可视化属于间接数据挖掘。舆体分述如下: 分类( c l a s s i f i c a t i o n ) :首先从数据中选出已经分好类的训练集,在该训练 集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分 类。 估值( e s t i m a t i o n ) :估值与分类类似,不同之处在于,分类描述的是离散型 变量的输出,而估值处理连续值的输出;分类的类别是确定数目的,估值的 量是不确定的。 预言( p r e d i c t i o n ) :通常,预言是通过分类或估值起作用的,也就是说,通 过分类或估值得出模型,该模型用于对未知变量的预言。从这种意义上说, 预言其实没有必要分为一个单独的类。预言其目的是对未来未知变量的预 测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准 确性是多少。 相关性分组或关联规则( a f f i n i t yg r o u p i n go ra s s o c i a t i o nr u l e s ) :决定哪些事 情将一起发生。 聚集( c l u s t e r i n g ) :聚集是对记录分组,把相似的记录在一个聚集里。聚 集和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。 描述和可视化( d e s c r i p t i o na n dv i s u a l i z a t i o n ) :是对数据挖掘结果的表示方 式。 3 2 数据挖掘的算法 数据挖掘的算法很多,在本次设计中,我们采用了k o h o n e n 聚类算法和b p 神经网络算法,分别用于计算客户在网率和客户预期价值,因此对这两种算法的 原理分述如下。 3 3 。1k o h o n e n 聚类算法 在对人类的神经系统及脑的研究中,人们发现:人脑的某些区域对某种信息 或感觉敏感,如人脑的某一部分进行机械记忆特别有效;而某一部分进行抽象思 维特别有效。这种情况使人们对大脑的作用的整体性与局部性特征有所认识。 对大脑的研究说明,大脑是由大量协同作用的神经元群体组成的。大脑的神 经网络是一个十分复杂的反馈系统;在这个系统含有各种反馈作用,有整体反馈, 局部反馈;另外,还有化学交互作用。在大脑处理信息的过程中,聚类是其极其 重要的功能。大脑通过聚类过程从而识别外界信号,并产生自组织过程。 依据大脑对信号处理的特点,在1 9 8 1 年,t k o h o n e n 提出了一种神经网络 模型,也就是自组织特征映射模型s o m ( s e h o r g a n i z i n g f e n t u r em a p ) 。 k o h o n e n 的思想在本质上是希望解决有关外界信息在人脑中自组织地形成 概念的问题。对于一个系统来说,就是要解决一个系统在受外界信息作用时在内 部自组织地形成对应表示形式。这包括神经网络的权系数调整。 在神经网络的s o m 模型中,每一个权系数的有序序列w j = ( w 1 i ,w 2 j ,w n j ) 都可以看作是神经网络的一种内部表示,它是有序的输入序列x = ( x l ,x 2 , x n ) 的相对应映象。 s o m 模型可以实现自组织功能。自组织的目的就是通过调整权系数w i j , 使神经网络收敛于一种表示形态,在这一表示形态中的一个神经元只对某种输入 模式特别匹配或特别 敏感。换而言之自组织映射的目的就是使神经元的权系数的形态表示可以 间接模仿输入的信号模式。 自组织特征映射s o m 的学习算法是由两部分组成的,这两部分如下 1 最优匹配神经元的选择; 2 网络中权系数的自组织过程。 这两部分是相互相成的,它们共同作用才能完成自组织特征映射的学习过 程。选择最优匹配神经元实质是选择输入模式对应的中心神经元c 。权系数的自 组织过程则是以“墨西哥帽”的形态来使输入模式得以存放。 每执行一次学习,则s o m 网络中就会对外部输入模式执行一次自组织适应 过程;其结果是强化现行模式的映射形态,弱化以往模式的映射形态。 在计算机中可以采取一定的恰当步骤对自组织特征映射模型s o m 进行学 习。这些步骤介绍如下: 1 权系数初始化 对于有n 个输入神经元,p 个输出神经元的s o m 网络,对连接输入神经元 和输出神经元之间的权系数设定为小的随机数a ,一般有: o a 1 同时,设定邻近区域的初始半径。 2 给出一个新的输入模式x k x k = x l k ,x z k ,x n k ) k = l 2 3 求模式x k 和所有的出神经元的距离 对于输出神经元j ,它和特定的输入模式x k 之间的距离用d j k 表示,并且有 斤 d 且2 | | x k 一形1 1 = 、蚤( ) 一( ) 2 j = 1 2 ,p 4 选择最优匹配的输出神经元c 和输入模式x k 的距离最小的神经元就是最优匹配的输出神经元c 。 用w 。表示神经元c 对输入神经元的权系数向量,则应有: i i x t 一形1 1 2 m i n d m ) 5 修正权系数 根据设定的邻近区域,或递减变小后的区域,对区域n c 中的神经元进行权 系数修正。 修正按下式执行 w i j ( t + 1 ) 2 w i j ( t ) + t ( 0 x i ( t ) 一w d t ) 】( 1 9 9 ) 对予区域n c 辫戆章孛缀元,冀衩系数不变,鞫有 w 日( t 十1 ) 2 w u ( t )( 1 1 0 0 ) 萁孛,露( 务是递减熬氆薤丞数,著虽有o y ( t ) l 。 通常取: 栩:三 f 或 r t ( ) 姐2 ( 1 - 志) 6 对于不嗣懿= 1 ,2 ,z 5 0 0 鲥0 0 0 0 ) ,霉颏返溷第2 步去执行。 在自组织特征映射模溅的学习中,当n 。不止包含一个神经元时,这种竞争 学习实际上是泄漏竞争学习。 在学习中,增益函数野( t ) 诡即是学骂率。暗j 于学习率可( t ) 随时闯静增加而渐渐趋 向零因此,保证了学习过程必然是收敛的。 垂缍织特铥浚瓣鼹络翁学习蹩一萃孛元蠡鑫督兹学习,输入信号模式是环凌叁嚣 给出的,而不是人为给出的。 3 3 2b p 神经网络 b p 被经溺终是囱最终疆算法在多层藤馈耪经瓣络上熬学习,瓣终峦个输 入层,1 个或多个隐含层,一个输出层构成。b p 神经网络是有监督的学习,通 常有如下的网络拓扑结构: 输入滕 隐藏层输出层 b p 神经网络的优化 人工神经网络学习性能的好坏主要体现在两个方面:学习速度和泛化能力。 学习速度表现在满意遣遥远诩练样本所花费遣时间上,泛纯能力翔表现在对未调 练样本地逼近能力上。影响网络一陡能地主要因素有网络拓扑结构和规模、网络权 熏修改繁疆、鼹终维点蟪激聚特憔等。对b p 网终,这些隈素毒掰络菸羚结擒积 规模、网络权重修的步长因子、s 型函数的形式簿。目前,b p 网络拓扑结构的 确定和网络权重修改方法还没有蠢效的理论来作指导,常鬻凭经验人为选取,虽 裔各种改进方法国现,德由于缺乏严格的证瞬,以及给定的问题一般是复杂静, 因而这种人为选取往往只适合于特定的问题,对于般的问题则可能学习效率低 1 2 f ,甚至失败。 初始参数的确定 网络初始参数的设置,包括网络初始结构、连接权值、阈值、学习率等参数 的不同选取,都会对网络的收敛速度产生影响,而初始参数的选择,除可以进行 一些技术处理之外,主要还要依赖于建模者的观察与经验。 网络的初始权值:模拟退火算法不能从根本上解决问题,有学者提出,在选 取网络初始权值时,先在选定的区间内随机产生k 组值,k 值越大,初始值的 选取越准确,但计算量也随之增加,这时可采用全局优化法,如测度论法来选取 网络初始权值,从而可以避免局部极小值的发生,加快网络收敛速度。这种方法 将最有利的一组随机产生的数据作为网络的初始权值,可以以较大的概率避免初 始值选择不当带来的一系列问题,是一种比较有效的网络初始权值选取方法。 学习率:学习率对学习速度和收敛程度的有影响,当学习率较小时,学习速 度太慢,且容易陷入局部极小值,而学习率太大,则网络有可能会发散。有研究 表明学习率的取值与网络的结点数有关,网络规模越大,学习率应越小,学习率 随学习过程应不断调整,而不应是一个固定值,一般学习率的初始值常用如下公 式选取: 叩= 2 ( r e + 1 ) 或叩= 1 s q r t o ? e ) ( 班为隐含层结点数) 学习率的调整方法是:当学习速度较慢时缓慢增长学习率,同时限制最大学 习率;一旦网络发散,大幅度减少学习率。 b p 网络结构的优化 网络中隐含层结点过少,则学习过程可能不收敛,但隐结点数过多,则会长 时间不收敛,还会由于过拟合,造成网络容错性能下降。 3 3 小结 客户终身价值的计算是对客户未来价值的预测,我们采用数据挖掘的方法来 完成。数据挖掘是是从大量的、不完全的、有噪声的、模糊的、随机的数据中, 提取隐含其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。我 们用k o h o n e n 聚类算法来对客户进行分段,从而求得客户的离网率,用b p 神经 网络算法来预测客户的预期价值。 k o h o n e n 聚类算法是神经网络模型,即自组织特征映射模型s o m 。对于一 个系统来说,就是要解决一个系统在受外界信息作用时在内部自组织地形成对应 表示形式。 b p 神经网络是另一种神经网络模型,b p 神经网络模型原理简单,易于用计 算机实现,在工程中有着广泛的应用,b p 神经网络在很多情况下被当成一种分 类算法,我们在这里用来预测客户价值。 4 1 简述 第四章模型设计 客户终身价值的计算通常有两种模式,一是绝对值计算,二是相对值计算。 我们确定客户终身价值的定义为一个客户在其生命周期中能给公司带来的直接 成本和利润的期望净现值。我们对客户终身价值的定义不是以一个客户的自然寿 命的长度来计算,计算的时间区段为如前所述的客户生命周期。在实际的计算模 型中,我们可以假设一个客户成为某公司的流失客户后,将不可能再成为该公司 的客户,换一种方法来处理,我们也可以将该客户当成一个新客户来对待,重新 开始计算其生命周期。 绝对值计算模式完全从定义出发来确定计算模型,客户终身价值由这几部分 组成,对应于客户生命周期的几个阶段:潜在客户、响应者、即得客户和客户流 失。当客户为潜在客户和响应者时,公司为获得客户投入营销费用等支出,这些 费用将作为负值分配到每个客户身上,当一个客户为即得客户时,客户价值则包 括历史价值和现有价值( 新客户的历史价值为0 ) ,现有价值通过数据挖掘的方 法进行预测,然后对其结果进行折现,同时还要预测每个客户的流失时间,以上 几部分的和即为绝对值。由以上描述可以看出,绝对值的计算是相当困难的,而 且也没必要。 相对僮计算则在客户终身价值的定义下,根据行业特点和需要来确定模型, 这样计算方法有一定的灵活性,使获得的结果更符合分析的需要,同时众多的计 算模型也引起了客户终身价值的概念的混乱。 我们的设计采用了相对值计算。 4 2 几种客户终身价值模型比较 以下是在文献中收集的两种客户终身价值的计算模型,这两个模型分别针对 两个不同的行业一一制造业和保险业,我们通过对这些模型的分析和比较,获得 客户终身价值的建模方法,同时也对我们采用的模型合理性作出一个判断。 适用于制造业的客户终身价值计算模型: 假设客户与公司保持交易时间:n = 5 年;公司最初吸引每个客户的成本( 营 销费用) : c 。= ¥4 0 0 ;客户第一次购买的产品价格:p 。= ¥2 0 0 0 ;公司期望每 年从每个客户处增加的收入:r = ¥5 0 0 :利率( 一般指贷款利率) :r = 9 :那么 客户的价值等于:客户初次购买产品和以后几年每年消费价值的折现之和,减营 销成本,即: 丁矿= p 。一c 。+ r 。1 - i o + r ) “ , = 2 0 0 0 4 0 0 + 5 0 0 i - 1 ( 1 + 9 呦5 = ¥3 5 4 5 , 在这个计算实例中,采用了一种客户终身价值的绝对值计算模型,将客户终 身价值确定为营销费用、客户第一次购买时的产品价格、期望每年从客户处增加 的收入和利率的函数。 从这个模型还能看出: 模型具有行业特点,这个模型更适合于制造业,如空调企业。客户购买 空调时消费了2 0 0 0 元,如果冬天有消费3 0 0 元来保养或其他服务,则可 通过该模型计算增值后的客户终身价值。从此可看出,模型具有局限性, 模型的设计需针对具体的行业; 模型考虑到利率,计算中采用了固定的利率,实际上利率是可变的,而 且利率的变化和经济环境、经济政策有很大的关系,难以预测; 考虑的是能给企业带来的利润,利润的计算受较多的影响因素,该模型 仅考虑了成本中的营销费用; 考虑到客户在企业的保持时间,很明显,客户在企业的保持时间反映了 客户的忠诚度,客户的保存时间越长,客户的忠诚度越高,能为企业的 贡献越大; 在该例中,参数的值都采用了假设值,在实际应用时,这些参数的值如 何确定。如客户的保持时间,客户的保持时间是需要作预测的,简单地 做一个假设没有实际的意义,营销成本如何确定,又如何确定公司期望 每年从每个客户处增加的收入,这些参数需要通过进一步的计算才能获 得: 适用于保险业的客户终身价值计算模型 以下模型常用于保险业中计算客户终身价值: l t v 2 p 胛a i ds a l e ) r i s kxp r o d u c t p r o f i t a b i l i t y - - m a r k e t i n ge x p e n s e 在该模型中,影响客户终身价值的因素主要有四个:p a i ds a l e ,r i s k ,p r o d u c t p r o f i t a b i l i t y 和m a r k e t i n ge x p e n s e 。 其中: p a i ds a l e 为一个概率值,表示该客户对保险的营销活动作出响应,并且愿意 承担风险支付了首期保险费的概率,换句话说,也就是目标客户成为即得客户的 可能性。该参数是个预测值,因此需要另外建立模型来计算; r i s k 是一个风险系数,保险精算师通过对客户
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年教师招聘之《小学教师招聘》考前冲刺练习题含答案详解【能力提升】
- 押题宝典教师招聘之《小学教师招聘》题库及1套参考答案详解
- 教师招聘之《小学教师招聘》题型+答案(考点题)附答案详解(夺分金卷)
- 押题宝典教师招聘之《小学教师招聘》模考模拟试题含答案详解ab卷
- 演出经纪人之《演出经纪实务》考前冲刺分析附参考答案详解(综合卷)
- 押题宝典教师招聘之《小学教师招聘》题库及一套参考答案详解
- 2025年江苏银行招聘考试(英语)历年参考题库含答案详解
- 2025昆明卫生职业学院第三批云南省产业导师选聘工作(10人)笔试备考题库及答案解析
- 节能理念解读课件
- 【中考真题】2025年辽宁省中考生物学试卷(含答案)
- AI技术在电力系统发展中的应用与前景
- Unit 1 You and Me Section A 1a~2教学设计- 2024-2025学年人教版英语七年级上册
- 部编版一年级道德与法治上册教案(全册)
- 早稻栽培管理关键技术
- 2014版SA8000社会责任管理体系管理手册
- JT-T-1178.2-2019营运货车安全技术条件第2部分:牵引车辆与挂车
- 剪叉式升降工作平台作业专项施工方案24
- 心脏查体完整版本
- 十大医药代表成功经验分享
- 医患沟通技巧与人文关怀课件
- 消防设施正确使用与操作指南
评论
0/150
提交评论