(管理科学与工程专业论文)数据挖掘在电信客户流失预测中的应用.pdf_第1页
(管理科学与工程专业论文)数据挖掘在电信客户流失预测中的应用.pdf_第2页
(管理科学与工程专业论文)数据挖掘在电信客户流失预测中的应用.pdf_第3页
(管理科学与工程专业论文)数据挖掘在电信客户流失预测中的应用.pdf_第4页
(管理科学与工程专业论文)数据挖掘在电信客户流失预测中的应用.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘在电信客户流失预测中的应用 摘要 随着中国加入w t o ,国际化的市场环境要求国内的公众电信运营企业在经 营管理上向国外先进的电信运营企业看齐,以迎接电信运营业的国际化竞争。电 信企业的经营模式和服务体系正以客户的价值取向和消费心理为导向,真正体现 “创造需求”、“引导消费”的现代客户服务意识与理念。同时随着电信市场日趋 饱和,成功挽留一个即将离网的客户比重新发展一个客户节约大量成本。如何预 测f : 些客户在不夕、的将来可能会从您公司流失,从而最大程度的降低客户的流失 率呢? 常用的方法之一就是利用数据挖掘技术。 数据挖掘技术是目前数据仓库领域最强大的数据分析手段。它的分析方法是 利用已知的数据通过建立数学模型的方法找出隐含的业务规则,在很多的行业己 经具有成功的应用。在电信行业的应用领域主要有客户关系管理,客户欺诈分析, 客户流失分析,客户消费模式分析,市场推广分析等。 本文的目的就是研究数据挖掘的实现技术,并将此技术运用于电信行业客户 流失预测系统中。本文首先介绍了数据挖掘的基础理论,其次介绍如何通过数据 挖掘算法归纳分类,然后研究运用数据挖掘技术实现电信行业客户流失预警,用 流失模型预测客户流失率。 本文研究的主要成果有:针对电信客户流失预测的特点建立了流失预测的系 统解决方案,将预测过程划分为了5 个阶段,在属性转换和属性选择这两个流失 预测最为重要的关键阶段,提出了一个全新的完整解决方法,并建立了一个指标 体系来衡量不同模型的预测效果,最后,详细阐述了如何利用流失预测结果来提 高客户挽留工作的效果。 本文介绍的预测模型是通过逐步完善的数据挖掘建模过程建立的,有较高的 准确性,为客户挽留活动预留了足够的时间,并提供了大量有价值的信息来帮助 市场营销人员制定可行的客户挽留方案,具有广泛的行业应用前景。 关键词:数据挖掘、时间窗口、属性转换、属性选择、流失预测模型 t h ea p p l i c a t l o no fd a t am i n i n g i nt e l e c o m ec u s t o m e r sc h u r n p r e d l c t i o n a b s t r a c t m a r k e tl nt e l e c o m s l n d u s t 巧 i sm u c hm a t u r i n g t o d a y a n d t h e y r e c o g n i z et h ei m p o r t a l l c eo fp r o a c t i v ec u s t o m e rr e l a t i o n s h i pm a n a g e m e n t j f o c u s i n go ne x i s t i n gc u s t o m e rc a r e h o wt ok e e pv a l u a b l ec u s t o m e r sa n d h o wt om a k et h e mm o r ep r o 矗t a b l et ot h ec o m p a n y ? c h u mp r e d i c t i o ni su s u a l l yt h eb i g g e s tc o n c e mi nt e l e c o m sc o m p a n y d u et oi t s t y p i c a lm a r k e tc h a r a c t e r i s t i c ss u c ha sm a r k e ts a t u r a t i o na n d d y n a m i cm a r k e tc h a n g e s a st h et e l e c o m sm a r k e tb e c o m e ss a t u r a t e d , a c q u 讲n g t h en e we u s t o m e ri s g e t t i n gm u c hm o r ee x p e n s i v et h a n r e t a i n i n gt h ee x i s t i n gc u s t o m e rb a s ea n da l s od y n a m i cm a r l ( e tc h a n g e si n c o m p e t i t o r s ,t e c h n o l o g i e sa n dr e g u l a t i o n sc o u l dc a u s eg r e a ,to p p o r t u n i t i e s f o rt h ec u s t o m e r st o1 e a v ef o ra n o t h e rc o m p a n y t h ea i mo ft h et h e s i si st h a tb yu s i n gd a t am i n i n g ,y o uc a n g e tt h ed a t a m i n i n gm o d e lb a s e do ny o u rh i s t o r i c a lc u s t o m e rd a t aw h i c hc a ng e n e r a t e t h ec u s t o m e r1 i s tw i t hh i g hp r o b a b i l i t yt ol e a v et h ec o m p a n y e v e n t u a l l y i tw mg i v e y o u t h ev a l u a b l e b u s i n e s s i n s 培h t s t 6 s e t u p e f f e c t i v e m a r k e t i n gs t r a t e g i e s t o p r e v e n ty o u r c u s t o m e r矗o m l e a v i n gy o u r c o m p a n y t h ef l r s ta c h i e v e m e n to ft h et h e s i si st h ep r o c e s so fc h u mp r e d i c t i o n d e s c r i b e di nt h i s c h a p t e ri sb a s e do nt h ep r e d i c t i v em o d e l i n gi nd a c a m i n i n gm e t h o d ;t h es e c o n disu s i n gt h em e t h o di nt h ei n d u s t r yt og i v et h e p r e d i c t i o no fc h u m k e yw o r d s :d a t am i n i n g ,t i m ew i n d o w s ,d a t at r a n s f e r ,d a t ac u l l i n g , c h u r np r e d i c t i v em o d e l 北京邮电大学数据挖掘在电信客户流失预测中的应用 1 1 概述 第一章前言 1 1 1 客户流失预测对电信企业的意义 随着国民经济的发展,中国电信事业有了突飞猛进的发展。目前,我国电信 运营已经进入“全面竞争时代”i ,在国内一举打破移动独家垄断局j 在外部环 境上,随着中国加入w t o 这个战略政策实施进程,中国电信市场将进一步向世 界开放,因此电信企业将面临更严峻的市场压力。随着市场竞争越来越激烈,各 大运营商都面临着客户状态不稳定,客户生命周期缩短等问题。 在通信普及率已经很高的情况下,在继续努力发展新客户的同时,如何维持 现有客户群,避免客户流失,成为通信企业越来越关注的焦点。客户流失是移动 经营面临的一个基本问题,也是影响经营状况的重要因素。客户流失一方面会造 成收入的下降,市场占有率下降,营销成本增加、收入降低的问题;另一方面, 恶意流失会造成客户恶意欠费,带来不必要的经济损失。移动市场竞争日趋激烈, 中国移动、中国联通之间对市场的争夺战愈演愈烈,小灵通的异军突起更加剧了 市场争夺的残酷性,三家之间的争夺加剧了客户的流失。 面对激烈的市场竞争,各大运营商正在寻找一种最有效的方法,通过维护与 客户的关系,创造客户价值来保留和竞争优质客户。客户流失预测,就是使用数 据挖掘的方法,整合客户历史海量数据,通过对客户基本状态属性与历史行为属 性等数据进行深入分析,提炼出已流失客户在流失前具有的特征,建立流失模型, 预测出将在近期流失的客户。 客户流失预测给电信企业的经营决策提供了大量信息。客户流失预测是一个 系统的工程,需要对企业的市场情况进行深入分析,如竞争对手分析、客户群细 分,客户心理研究,并对企业的历史经营数据进行深入的数据挖掘。客户流失预 测提供给企业的并不仅仅是一个流失预测名单,还会给企业带来大量有价值的市 场信息、。 客户流失预测能显著提高企业的赢利能力。通过客户流失预测,通信企业开 展有针对性的市场营销活动,可以提高大客户挽留的成功率,降低客户流失率, 降低挽留服务的成本,做到有的放矢,减少由于客户流失带来的收入损失。 客户流失预测能显著的提高企业的市场竞争力。通过客户流失预测,企业能 第3 页共5 0 页 北京邮电大学数据挖掘在电信客户流失预测中的应用 开展有真独行的市场营销活动,能极大地提高客户满意度,从而提高企业的市场 竞争力。 1 1 2 数据挖掘在电信客户流失预测中的应用现状 电信行业有着自己的特殊性,主要有以下2 点: 全程全网作业,产品与销售一体化1 2 j 电信行业是一个全程全网的作业,需要一个完善的网络支撑。电信企业 的产品就是企业提供的电信服务。这些服务提供给客户的同时也就销售 了出去,具有不可逆转性。 e 数据量大、数据结构复杂 电信企业的用户数量巨大。信息产业部2 0 0 6 年1 月报表显示【2 5 】,全国 固定电话用户达到3 5 2 9 9 1 万户,移动电话用户达到3 9 8 7 9 9 万户。每一 个客户每天都会发生各种业务行为,所有这些数据都保存在电信企业的 各种业务支撑系统中,其数据量是非常惊人的。此外,电信业务众多, 市场营销活动频繁,导致数了客户数据结构复杂。 电信行业的这些特点对数据挖据的应用提出了远高于其他行业的要求。 近几年,各大电信企业都加大了对业务支撑系统的投入,纷纷建立起各种数 据仓库平台,如移动的业务与运营支撑系统b o s s ,电信的b s s 系统、新9 7 系 统、计费系统、客户服务支撑系统c 3 s 等等。在数据仓库平台上,电信企业都 广泛的使用了数据挖掘技术,开发了各种专题应用,客户流失预测就是其中非常 重要的一个专题。 经过了前几年的火热炒作,泡沫散去,现在数据挖掘的应用已经逐渐的开始 变得实在起来。人们不再去追逐一些所谓的“先进”的理念,人们需要的实实在 在的看到数据挖掘带来的效果。 目前,数据挖掘,特别是客户流失预测,还有这些方面的不足: 缺乏一个公认的系统的建模框架,在一些阶段还没有解决方案 从流失预测的研究领域来说,目前很多的研究都集中于算法方面,提出了很 多改进的算法。但是我们知道,数据挖据是一个与行业实际情况紧密相连的应用, 特别是客户流失预测,制约它得到广泛应用的瓶颈并不是算法,而且如何确定一 个有效的建模方法。只有存在一个有效的建模方法,我们才+ 能保证每一次的客户 流失预测效果。 目前,客户流失预测已经形成了一些方法论,在一些阶段已经形成了得到大 众认可的最佳实践,但还没有一个完整的流失预测框架来指导。在某些流失预测 阶段还存在着不少困难,如数据转换与属性选择,还没有一个好的方法,很多时 第4 页共5 0 页 北京邮电大学数据挖掘在电信客户流失预测中的应用 候只能采用“摸着石头过河”的方法,人工一次一次的试验。此外,在客户流失 预测的应用方法,也存在着一些不足,导致很多流失预测没有对电信企业的经营 活动带来实实在在的效果。 缺乏一个合理的模型评价方法 目前,业界还没有一个好的模型评价方法。我们知道,不同地方的具体市场 情况差异很大。一个相同的建模方法,一个一样的模型,可能在不同地方的预测 效果却相差很大。这对于评价模型带来了很大的困难。不同的公司往往采用不同 的模型评价方法,导致不同模型效果很难比较,这严重影响了流失预测的广泛应 用。 本文在研究了大量前人成果的基础上,建立了一个模型评价系统,包括数值 化评价指标与图形化评价指标这两类。通过不同评价指标的综合评估,我们就能 对不同预测模型的表现有一个合理且公平的评份。 对客户挽留活动的指导作用没有完全体现出来 目前,很多客户流失预测只是完成了一半的工作,就是把流失客户预测出来。 但是这是不够的。客户流失预测给出的不仅仅是一份名单,我们还要针对在流失 预测中挖掘的信息帮助市场营销人员建立有效的合理的挽留策略。 精确预测与合理挽留策略,这两者缺一不可,双剑合并才能发挥出巨大威力。 在如何利用客户流失预测才帮助客户挽留策略的制定,目前还没有一个非常合理 的办法。我们知道,一个市场策略的制定是一个非常复杂的过程,需要综合考虑 各方面的信息和反馈,经过周密的考虑后才能出台。本文结合笔者在这一方面丰 富的项目经验,提出了一些自己总结的技巧。灵活使用这些技巧,会让我们在制 定营销方案时有的放矢,事半功倍。 1 2 论文的主要工作与结构 1 2 1 论文的研究目的与方向 个: 针对数据挖据在电信客户流失预测中的应用现状,本文的研究目的有如下三 1 如何提高客户流失预测模型的预测效果。本文尝试建立一个客户流失预 测整体框架来规范预测模型的设计,从而提高模型的预测效果。这是客 户流失预测的根本价值所在。 2 在实际情况千差万别的情况下,如何衡量不同模型的预测效果。 3 如何利用客户流失预测实实在在的提高电信企业的经营状况。客户流失 北京邮电大学 数据挖掘在电信客户流失预测中的应用 预测给企业带来的不仅仅是流失预测预测名单,还有很多很多有价值的 信息。如何利用这些信息来支撑企业的市场决策,是本文的另一个研究 重点。 流失预测的原理是通过对了客户的建立的挖掘分析模型获得客户流失量较 大的客户群的特征描述,从而预测出即将在近期流失的预测,并帮助企业制定出 具体的有效的挽留策略,减少实际的客户流失。 但如何将数据挖掘技术应用到客户流失预测中呢? 数据挖掘技术发展至今, 各种的算法层出不穷,挖掘的过程也不断成熟,但在移动行业的实际应用价值还 是受到很大的限制,这主要由于业务理解的偏差及数据源杂乱所造成挖掘技术难 以实施应有成效。本文针对电信行业的特点,以某地小灵通客户流失预测的实际 工程为背景,从以下几个方向进行研究: 客户流失预测整体框架 客户流失预测是数据挖掘的一项应用,它的整个流程符合数据挖掘的一 般流程。本文尝试建立一个客户流失预测整体框架来知道预测模型的设 计、开发与应用,从而提高模型的效率。 属性转换架构 目前行业中常用的属性转换架构很多,各有优缺点。本文将仔细的研究 现有方法的各自特点,寻找最适合最有效的客户流失属性转换架构。 e 属性选择 目前,针对客户流失预测的属性选择,业界还没有一个好的解决方法。 很多时候只能采用_ 次又一次的“穷举”实验方法。本文尝试建立一个 规则与方法,使得属性选择尽可能的科学。 建模过程优化 目前,在客户流失预测的算法方面,业界已经有了较为成熟的最佳实践。 本文的重点并不在于此。我们知道,在建立预测模型时,我们必须要针 对不同的算法与软件设定不同的模型参数。这些参数的设计对模型的效 果有着直接的影响。本文将重点研究决策树算法与神经网络算法的参数 设计与模型优化。 模型评价指标体系 本文在参考了大量前人的经验后,建立了一个系统的预测模型评价指标 体系,包括数值化指标与图形化指标,使得对模型预测效果的评价更加 公正公平。 本文的主要研究方法是通过理论联系实际,采用大量的类比,并用实际的结 果来验证。主要方式是利用已知的未来数据环境因素对客户的历史数据进行修 第6 页共5 0 页 北京邮电大学数据挖掘在电信客户流失预测中的应用 正,建立客户属性、服务属性和客户消费数据与客户流失可能性关联的模型,找 出客户属性、服务属性和客户消费数据与客户流失的最终状态的关系,并用此关 系建立不同的算法的挖掘模型,最后分析、验证不同模型的优缺点,给出挖掘的 最佳方案,并用于实际的预测中。 需要说明的是,本文中很多的方法都产生自笔者参与的多个数据挖掘项目实 践。不少同学、朋友、同事都给了我很多帮助与启发,在此向他们表示感谢! 1 2 2 论文的结构 本文主要分为这么几个部分: 第一章主要介绍论文的研究意义与研究方向使得读者能快速了解论文的意 义与主要内容。 第二章主要介绍数据挖据的基本概念:包括常用的数据挖掘软件与算法, o l 钟与数据仓库等内容,使得读者能对数据挖据有一个较为全面的认识。 第三章主要介绍客户流失预测的分析过程。这一章是本文的重点,也是本文 的精华所在。笔者在长期数据挖掘项目中,结合前人的研究成果,形成了创新的 客户流失预测分析框架,并针对客户流失预测的每一个阶段提出了一套完善的解 决方案。这一部分对这个流失预测分析框架进行了项目的介绍。 第四章介绍了笔者从事过的一个客户挽留策划的实际例子,介绍了如何利用 客户流失预测来提高客户挽留效率,如何利用客户流失预测的信息来支撑企业市 场决策。 最后第五章对整个论文的内容作了总结陈述。 第7 贝共5 0 页 北京邮电大学数据挖掘在电信客户流失预测中的应用 第二章数据挖掘与客户流失预测 2 1 数据挖掘基础知识 数据挖掘【3j 用于辨认大量数据中所反映的有价值信息。数据挖掘从机器学习 的途径获取信息,使它能使用在决策支持、预测、估计等领域中。数据通常是庞 大而信息含量很低,在它未经加工时只有很小的直接使用价值。有用的信息往往 是隐藏在数据背后的。数据挖掘就是从杂乱无章的数据中找出规律,把数据转化 为信息的一个过程。 数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据问关系的 过程,这些模型和关系可以用来做出预测。对企业来说,数据挖掘就是在“数据 矿山”中找到蕴藏的“知识金块”,帮助企业减少不必要投资的同时提高资金回 报。 数据挖掘不是数据分析。数据分析一般面对的数据量较小;人们对数据分析 所得出的结论有着较为成熟、全面的预期;其过程常常受到人为因素强烈的影响。 数据挖掘一般面对的都是“海量”数据,因此其对算法的效率要比分析类高出很 多;数据挖掘所得出的大多是隐性的信息,这些信息通常人力是很难发现的;数 据挖掘某些过程也要受到人为因素的影响,但大多数时候,数据挖掘是较为客观 的,它是一种机器性的学习结果,与人为因素关系不大。 数据挖掘不是有魔力的权杖,而是个工具。数据挖掘只是帮助商业人士更 深入、更容易的分析数据。它无法告诉你客户流失模型对你的企业的实际价值, 并且数据挖掘中得到的模型必须要在现实生活中进行验证。数据挖掘也不会在缺 乏指导的情况下自动的发现模型,所以需要一个科学的挖掘过程。 值得重视的是,数据挖掘的从业人员不仅仅需要对数据挖掘的概念、算法、 软件、模型有着清楚的认识,还要对数据挖掘所应用的行业有些深入的理解。因 为数据挖掘所挖掘的是较为深入的信息。一个没有深厚行业背景的人在理解、应 用这些信息时会不可避免的产生困难。人们常说“做一个行业的数据挖掘,首先 要成为那个行业的市场专家”就是这个道理。 2 2 与客户流失预测相关的数据挖掘算法 数据挖掘中大部分算法都不是专为解决某个问题而特制的,算法之间也并不 互相排斥。不能说一个问题一定要采用某种算法,别的就不行。一般来说并不存 在所谓的最好的算法,在最终决定选取那种模型或算法之前,各种模型都试一下, 第8 页共5 0 页 北京邮电大学数据挖掘在电信客户流失预测中的应用 然后再选取一个较好的。各种算法在不同的数据环境中,优劣会有所不同。如神 经网络为解决大复杂度问题提供了一种相对来说比较有效的简单方法,神经网络 可以很容易的解决具有上百个参数的问题,但挖出的结果却很难解释,挖掘时所 耗的资源也是最大的;而决策树相对来说,其结构,和规则推理的过程是开放的、 清楚的,可浏览的。 数据挖掘的算法较多,我在这主要针对客户流失预测常用的算法作些介绍。 2 2 1 聚类 “物以类聚,人以群分”,聚类是一项基本的认识活动。所谓聚类【3 】,就是按 照事物的某些属性聚集成类,使得类问的相似性尽可能的小,类间的相似性尽可 能的大。通过适当聚类,事物才便于研究,事物间的规律才可能为人掌握。聚类 是一个无监督的学习过程,分类是一个有监督的学习过程。聚类与分类的根本区 别在于:分类时需要实现知道分类所依据的属性值,而聚类是要找到这个分类属 性值。对现实事物的聚类,首先是把事物的属性抽象出来。一般有两类属性值, 一类是数值属性,一类是符号属性。对这两类属性的处理方法有较大的不同。 常用的聚类方法有系统聚类法、传递闭包法以及与此等价的最大值成熟p r i m 算法及k m s k a l 算法、动态直接聚类法,基于摄动的模糊聚类方法f c m b p 、 k m e a n 聚类法、人工神经网络模糊聚类法等等。 聚类算法分为分割和分层两种。分割聚类算法通过优化目标函数,把数据机 分割成若干部分。分层聚类是由不同层次的分割聚类组成,层次之间的分割具有 嵌套关系。 2 2 2 神经网络 神经网络【4 j 现在己广泛用于人工智能与专家系统,因为它为解决大复杂度问 题提供了一种相对来说比较有效的简单方法。神经网络可以很容易的解决二县有上 百个参数的问题。 在结构上,可以把一个神经网络划分为输入层、输出层和隐含层。输入层的 每个节点对应一个个的预测变量。输出层的节点对应目标变量,可有多个。在输 入层和输出层之间是隐含层( 对神经网络使用者来说不可见) ,隐含层的层数和 每层节点的个数决定了神经网络的复杂度。 除了输入层的节点,神经网络的每个节点都与很多它前面的节点( 称为此节 点的输入节点) 连接在一起,每个连接对应一个权重w x v ,此节点的值就是通过 它所有输入节点的值与对应连接权重乘积的和作为一个函数的输入而得到,我们 第9 页共5 0 负 北京邮电大学数据挖掘在电信客户流失预测中的应用 把这个函数称为活动函数或挤压函数。 神经网络的每个节点都可表示成预测变量的值或值的组合。注意节点6 的值 已经不再是节点1 ,2 的线性组合,因为数据在隐含层中传递时使用了活动函数。 实际上如果没有活动函数的话,神经元网络就等价于一个线性回归函数,如果此 活动函数是某种特定的非线性函数,那神经网络又等价于逻辑回归。 调整节点间连接的权重就是在建立( 也称训练) 神经网络时要做的工作。最早 的也是最基本的权重调整方法是错误回馈法,现在较新的有变化坡度法、类牛顿 法k v e n b e r g m a r q u a r d t 法、和遗传算法等。无论采用那种训练方法,都需要有 一些参数来控制训练的过程,如防止训练过度和控制训练的速度。 决定神经网络拓扑结构或体系结构是隐含层及其所含节点的个数,以及节点 之间的连接方式。要从头开始设计一个神经网络,必须要决定隐含层和节点的数 目,活动函数的形式等等。 在诸多类型的神经网络中,最常用的是前向传播式神经网络,也就是我们前 面图示中所描绘的那种。我们下面详细讨论一下,为讨论方便假定只含有一层隐 含节点。 可以认为错误回馈式训练法是变化坡度法的简化,其过程如下:前向传播: 数据从输入到输出的过程是一个从前向后的传播过程,后一节点的值通过它前面 相连的节点传过来,然后把值按照各个连接权重的大小加权输入活动函数再得到 新的值,进一步传播到下一个节点。 当节点的输出值与我们预期的值不同,也就是发生错误时,神经网络就要“学 习”( 从错误中学习) 。我们可以把节点间连接的权重看成后一节点对前一节点的 “信任”程度( 它自己向下一个节点的输出更容易受他前面哪个节点输入的影 响1 。学习的方法是采用惩罚的方法,过程如下:如果某一节点输出发生错误,那 么它看它的错误是受哪个( 些、) 输入节点的影响而造成的,是不是它最信任的节点 ( 权重最高的节点) 陷害了它( 使它出错) ,如果是则要降低对它的信任值( 降低权 重) ,惩罚它们,同时升高那些做出正确建议节点的信任值。对那些收到惩罚的 节点来说,它也需要用同样的方法来进一步惩罚它前面的节点。就这样把惩罚一 步步向前传播直到输入节点为止。 对训练集中的每一条记录都要重复这个步骤,用前向传播得到输出值,如果 发生错误,则用回馈法进行学习。当把训练集中的每一条记录都运行过一遍之后, 我们称这为完成一个训练周期。要完成神经网络的训练可能需要很多个训练周 期,经常是几百个。训练完成之后得到的神经网络就是在通过训练集发现的模型, 描述了训练集中响应变量受预测变量影响的变化规律。 由于神经网络隐含层中的可变参数太多,如果训练时间足够长的话,神经网 第1 0 页共5 0 页 北京邮电大学数据挖掘在电信客户流失预测中的应用 络很可能把训练集的所有细节信息都“记”下来,而不是建立一个忽略细节只具 有规律性的模型,我们称这种情况为训练过度。显然这种“模型”对训练集会有 很高的准确率,而一旦离开训练集应用到其他数据,很可能准确度急剧下降。为 了防止这种训练过度的情况,我们必须知道在什么时候要停止训练。在有些软件 实现中会在训练的同时用一个测试集来计算神经网络在此测试集上的正确率,一 旦这个正确率不再升高甚至开始下降时,那么就认为现在神经网络已经达到做好 的状态了可以停止训练。 神经元网络和统计方法在本质上有很多差别。神经网络的参数可以比统计方 法多很多。由于参数如此之多,参数通过各种各样的组合方式来影响输出结果, 以至于很难对一个神经网络表示的模型做出直观的解释口实际上神经网络也正 是当作“黑盒”来用的,不用去管“盒子”里面是什么,只管用就行了。在大部 分情况下,这种限制条件是可以接受的。比如银行可能需要一个笔迹识别软件, 但他没必要知道为什么这些线条组合在一起就是一个人的签名,而另外一个相似 的则不是。在很多复杂度很高的问题如化学试验、机器人、金融市场的模拟、和 语言图像的识别,等 领域神经网络都取得了很好的效果。神 经网络的另一个优点是很容易在并行计算机上实现,可以把他的节点分配到不同 的c p u 上并行计算。 在使用神经网络时有几点需要注意1 5 j = 第一,神经网络很难解释,目前还没有能对神经网络做出显而易见解释的方 法学。 第二,神经网络会学习过度,在训练神经网络时一定要恰当的使用一些能严 格衡量神经网络的方法,如前面提到的测试集方法和交叉验证法等。这主要是由 于神经网络太灵活、可变参数太多。如果给足够的时间,他几乎可以“记住”任 何事情。 第三,除非问题非常简单,训练一个神经网络可能需要相当可观的时间才能 完成。当然,一旦神经网络建立好了,在用它做预测、运行还是很快得。 第四,建立神经网络需要做的数据准备工作量很大。一个很有误导性的神话 就是不管用什么数据神经网络都能很好的工作井做出准确的预测。这是不确切 的,要想得到准确度高的模型必须认真的进行数据清洗、整理、转换、选择等工 作,对任何数据挖掘技术都是这样,神经网络尤其注重这一点。比如某些工具的 神经网络要求所有的输入变量都必须是0 或1 ,因此文本数据必须先做必要的处 理之后才能用作神经网络的输入。 第1 1 负共5 0 页 北京邮电大学 数据挖掘在电信客户流失预测中的应用 2 2 3 决策树 决策树| 16 j 提供了一种展示类似在什么条件下会得到什么值这类规则的方 法。决策树的基本组成部分:决策节点、分支和叶子。 决策树是一个树形的结构。决策树在内部节点上各选用一个属性进行分割, 每个分叉都是分割的一个部分,而叶子节点表示一个分布。决策树生成算法分成 两个步骤:开始,数据都在根节点递归的进行数据分片。随后,进行树的修剪, 去掉一些可能是噪音或者异常的数据。 决策树使用,既利用生成的决策树对未知数据进行分割,按照决策树上采用 的分割属性逐层往下,直到一个叶子节点。 决策树中最上面的节点称为根节点,是整个决策树的开始。本例中根节点是 “年龄 2 5 岁”,对此问题的不同回答产生了“是”和“否”两个分支。 决策树的每个节点子节点的个数与决策树在用的算法有关。如c & r 算法得 到的决策树每个节点有两个分支,这种树称为二叉树。允许节点含有多于两个子 节点的树称为多叉树。 每个分支要么是一个新的决策节点,要么是树的结尾,称为叶子。在沿着决 策树从上到下遍历的过程中,在每个节点都会遇到一个问题,对每个节点上问题 的不同回答导致不同的分支,最后会到达一个叶子节点。这个过程就是利用决策 树进行分类的过程,利用几个变量( 每个变量对应一个问题) 来判断所属的类别, 最后每个叶子会对应一个类别。 决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作为 预测。常用的算法有c & r ,q u e s t 和c 5 0 等 建立决策树的过程,即树的生长过程是不断的把数据进行切分的过程,每次 切分对应一个问题,也对应着一个节点。对每个切分都要求分成的组之间的“差 异”最大。 各种决策树算法之间的主要区别就是对这个“差异 衡量方式的区别。对具 体衡量方式算法的讨论超出了本文的范围,在此我们只需要把切分看成是把一组 数据分成几部份,每部分之间尽量不同,而同一份内的数据尽量相同。这个切分 的过程也可称为数据的“纯化”。看我们的例子,包含两个类别一离网和不离网。 如果经过一次切分后得到的分组,每个分组中的数据都属于同一个类别,显然达 到这样效果的切分方法就是我们所追求的。 到现在为止我们所讨论的例子都是非常简单的,树也容易理解,当然实际中 应用的决策树可能非常复杂。假定我们利用历史数据建立了一个包含几百个属 性、输出的类有十几种的决策树,这样的一棵树对人来说可能太复杂了,但每一 第1 2 页共5 0 虹 北京邮电大学数据挖掘在电信客户流失预测中的应用 条从根结点到叶子节点的路径所描述的含义仍然是可以理解的。 决策树的这种易理解性对数据挖掘的使用者来说是一个显著的优点。 然而决策树的这种明确性可能带来误导。比如,决策树每个节点对应分割的 定义都是非常明确毫不含糊的,但在实际生活中这种明确可能带来麻烦。 建立一颗决策树可能只要对数据库进行几遍扫描之后就能完成,这也意味着 需要的计算资源较少,而且可以很容易的处理包含很多预测变量的情况,因此决 策树模型可以建立得很快,并适合应用到大量的数据上。 对最终要拿给人看的决策树来说,在建立过程中让其生长的太“枝繁叶茂”。 是没有必要的,这样既降低了树的可理解性和可用性,同时也使决策树本身对历 史数据的依赖性增大,也就是说这是这棵决策树对此历史数据可能非常准确,一 旦应用到新的数据时准确性却急剧下降,我们称这种情况为训练过度。为了使得 到的决策树所蕴含的规则具有普遍意义,必须防止训练过度,同时也减少了训l 练 的时间。因此我们需要有一种方法能让我们在适当的时候停止树的生长。常用的 方法是设定决策树的最大高度( 层数) 来限制树的生长。还有一种方法是设定每个 节点必须包含的最少记录数,当节点中记录的个数小于这个数值时就停止分 割。 与设置停止增长条件相对应的是在树建立好之后对其进行修剪。先允许树尽 量生长,然后再把树修剪到较小的尺寸,当然在修剪的同时要求尽量保持决策树 的准确度尽量不要下降太多。 对决策树常见的批评是说其在为一个节点选择怎样进行分割时使用“贪心” 算法。此种算法在决定当前这个分割时根本不考虑此次选择会对将来的分割造成 什么样的影响。换句话说,所有的分割都是顺序完成的,一个节点完成分割之后 不可能以后再有机会回过头来再考察此次分割的合理性,每次分割都是依赖于他 前面的分割方法,也就是说决策树中所有的分割都受到根结点的第一次分割的影 响,只要第一次分割有一点点不同,那么由此得到的整个决策树就会完全不同。 那么是否在选择一个节点的分割的同时向后考虑两层甚至更多的方法,会具 有更好的结果呢? 目前我们知道的还不是很清楚,但至少这种方法使建立决策树 的计算量成倍的增长,因此现在还没有哪个产品使用这种方法。而且,通常的分 割算法在决定怎么在一个节点进行分割时,都只考察一个预测变量,即节点用于 分割的问题只与一个变量有关。这样生成的决策树在有些本应很明确的情况下可 能变得复杂而且意义含混,为此目前新提出的一些算法开始在一个节点同时用多 个变量来决定分割的方法。 决策树很擅长处理非数值型数据,这与神经网络只能处理数值型数据比起 来,就免去了很多数据预处理工作。甚至有些决策树算法专为处理非数值型数据 第1 3 页共5 0 火 北京邮电大学 数据挖掘在电信客户流失预测中的应用 而设计,因此当采用此种方法建立决策树同时又要处理数值型数据时,反而要做 把数值型数据映射到非数值型数 据的预处理。 2 2 4 关联规则 关联规则【3 j 的挖掘问题就是从事物数据中找出具有用户给定最小支持度和 最小可信度的规则。设尺= ,j ,。 是一组物品集,w 是一组事物集。w 中 的每个事物t 是一组物品,丁c 尺。假设有一个物品集a ,一个事务t ,如果彳c 丁, 则称事务t 支持物品集a 。关联规则是如下形式的一个蕴含:4 _ b ,其中a 、b 是两组物品,彳c ,bc ,且彳nb :f 2 j 。 一般可以采用以下2 个参数来描述一个关联规则的属性: 可信度( c o n f i d e n c e ) 设w 中支持物品集a 的事务中,有c 的事务同 时支持也支持物品集b ,则c 为关联规则4 一b 的可信度。简单的说, 可信度就是指在出现了物品集a 的事务t 中,物品集b 出现的概率。 支持度( s u p p o n ) 设w 中有s 的事务同时支持物品集a 与b ,s 成为 关联规则彳一b 的支持度。支持度描述了a 与b 这两个物品集的并集在 所有事务中出现的概率。 这两个参数是所有关联规则最核心的评价属性。可信度是对关联规则准确度 的一个衡量,支持度是对关联规则使用范围的衡量。可信度越高,j 则说明该关联 规则有比较强的准确性。支持度越高,说明该关联规则使用范围越大,也越重要。 “啤酒与尿布”是一个经典的关联规则例子,也正是这条规则的发现,让人 们认识到了关联规则的巨大应用前景。有一个超市,每天的营业额非常大,购买 商品的人特别多。某一天,营业经理突然发现,在柜台结帐的很多男士都同时购 买了啤酒与尿布这两个看起来风马牛不相及的产品。他对此非常感兴趣,进行了 仔细的市场调研后发现,很多女士有了小宝宝后都要在家休养,于是购买尿布的 任务大多落在了丈夫身上。男人们都比较喜欢喝啤酒,因此在购买尿布的同时常 会购买一定量的啤酒。因此,该经理决定改变货架的摆放方式,将啤酒与尿布的 摆放位置靠近,果然这两样商品的销售量都大大提高。 啤酒与尿布就是一个典型的关联规则。这个规则的可信度就是购买了啤酒的 客户同时也购买了尿布的概率。这个规则的支持度就是在所有客户中同时购买了 啤酒与尿布的客户比例。可信度越高,就说明购买了啤酒的客户越有可能同时购 买尿布。支持度越高,就说明同时购买啤酒与尿布占总客户中的比率越高。一个 第】4 页共5 0 页 北京邮电大学数据挖掘在电信客户流失预测中的应用 有价值的关联规则应该同时具有令人满意的可信度与支持度。 关联规则的挖掘过程可以分解为下面2 个问题: 1 找出存在于事务数据库中所有大物品集,该物品集的支持度不小于用户 指定的最小支持度。 2 利用大物品集形成关联规则。对于每个大物品集,观察他们的可信度是 否大于用户指定的最小可信度。如果大于,则关联规则成立。 我们可以看到,第一个问题是整个关联规则挖掘的关键。这个阶段常用的算 法有著名的a p r i o r j 算法。这个算法利用了大物品集的向下封闭性,即大物品集 的子集必须也是大物品集。因此,它从最小的物品集开始寻找,逐步替代,最终 找到所有的大物品集。 关联规则在市场营销中最典型的应用就是交叉销售。通过关联规则算法找到 满足一定支持度与可信度的规则后,可以利用这些规则向老客户进行深入销售, 或将现有某些业务打包销售,能显著的促进销售。 2 3 数据挖掘与o l a p 、数据仓库 关于数据挖掘与o l 心,一个经常问的问题是,两者到底有何不同。下面将 会解释,他们是完全不同的工具,基于的技术也大相径庭。 o l 镭,即联机分析处理,o n 一“n e a n a l y t i c a lp r o c e s s i n g1 6 j 是针对特定问题的 联机数据访问和分析。通过对信息( 维数据) 的多种可能的观察形式进行快速、稳 定一致和交互性的存取,允许管理决策人员对数据进行深入观察。0 l 钾使分析 人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真 正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取, 从而获得对数据的更深入了解。o l 廿的目标是满足决策支持或多维环境特定的 查询和报表需求,它的技术核心是“维”这个概念,因此o l 廿也可以说是多 维数据分析工具的集合。 o l p 是决策支持领域的一部分。传统的查询和报表工具是告诉你数据库中 都有什么,o l 姐则更进一步告诉你下一步会怎么样、和如果我采取这样的措施 又会怎么样。用户首先建立一个假设,然后用o l a p 检索数据库来验证这个假 设是否正确。比如,一个分析师想找到什么原因导致了贷款拖欠,他可能先做一 个初始的假定,认为低收入的人信用度也低,然后用o l 钾来验证他这个假设。 如果这个假设没有被证实,他可能去察看那些高负债的账户,如果还不行,他也 许要把收入和负债一起考虑,一直进行下去,直到找到他想要的结果或放弃。也 就是说,o l 廿分析师是建立一系列的假设,然后通过o l a p 来证实或推翻这些 假设来最终得到自己的结论。o l a p 分析过程在本质上是一个演绎推理的过程。 第】5 页共5 0 页 北京邮电大学数据挖掘在电信客户流失预测中的应用 但是如果分析的变量达到几十或上百个,那么再用o l a p 手动分析验证这些假 设将是一件非常困难和痛苦的事情。 数据挖掘与o l 蛔不同的地方是,数据挖掘不是用于验证某个假定的模式 ( 模型) 的正确性,而是在数据库中自己寻找模型。他在本质上是一个归纳的过程。 比如,一个用数据挖掘工具的分析师想找到引起贷款拖欠的风险因素。数据挖掘 工具可能帮他找到高负债和低收入是引起这个问题的因素,甚至还可能发现一些 分析师从来没有想过或试过的其他因素,比如年龄。 数据挖掘和o l a p 具有一定的互补性。在利用数据挖掘出来的结论采取行 动之前,你也许要验证一下如果采取这样的行动会给公司带来什么样的影响,那 o l a p 工具能回答你的这些问题。而且在知识发现的早期阶段,o l 神工具还有 其他一些用途。可以帮你探索数据,找到哪些是对一个问题比较重要的变量,发 现异常数据和互相影响的变量。这都能帮你更好的理解你的数据,加快知识发现 的过程。除此,在我们的挖掘过程中,还可以利用o l 心的趋势分析,修正挖 掘的原数据,从而提高模型准确性。 数据仓库1 6 j ( d a t aw a r e h o u s e ) 是一个面向主题的( s u b i e c to r i e n t e d ) 、集成 的( i n t e g r a t e ) 、相对稳定的( n o n 、,0 l a t i l e ) 、反映历史变化( t i m ev a r i a n t ) 的数 据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解, 首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作 型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进 行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。 数据挖掘一般建立在数据仓库之上,特别是类似电信、移动这些需要处理大 数据量的行业中,必要时,最好建立专门的数据挖掘集市。在没有数据仓库前, 所有的客户数据都保存在业务运营支持系统中。这些系统设计的主要目的是支持 业务运营。数据挖掘常常需要多数据进行大量处理,因此直接在业务系统中进行 数据操作可能会影响业务运营。此外,业务运营系统中的数据常常是即时变化的, 给数据处理带来了很大的困难。 从数据仓库中直接取得进行数据挖掘的数据有许多好处。数据仓库的数据清 理和数据挖掘的数据清理差不多,如果数据在导入数据仓库时已经清理过,那很 可能在做数据挖掘时就没必要再清理一次了,而且所有的数据不一致的问题都已 经在数据仓库中解决了。 根据数据仓库概念的含义,数据仓库拥有以下四个特点: 1 、面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统 之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个 抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通 第1 6 页共5 0 页 北京邮电大学数据挖掘在电信客户流失预测中的应用 常与多个操作型信息系统相关。 2 、集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数 据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的 数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源 数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信 息。 3 、相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时 发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是 数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是 数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的 加载、刷新。 4 、反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而 数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点f 如开始 应用数据仓库的时点) 到目前的各个阶段的信启、,通过这些信息,可以对企业的 发展历程和未来趋势做出定量分析和预测。 企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基 础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的伎用者,供 他们做出改善其业务经营的决策,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论