本文通过对某运营商的客户数据进行分析_第1页
本文通过对某运营商的客户数据进行分析_第2页
本文通过对某运营商的客户数据进行分析_第3页
本文通过对某运营商的客户数据进行分析_第4页
本文通过对某运营商的客户数据进行分析_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、本文通过对某运营商的客户数据进行分析,提出了一个新的基于社交网络变量的客户流失预警模型。模型分析发现,个体的度、联系的强度以及个体的信息熵都对预测客户流失有显著的效果。具体的,个体的度越大、联系的强度越强,个体的信息熵越大,客户越不容易流失。模型的预测精度可以达到利用30%左右的覆盖率获得70%左右的捕获率。在具体的业务实践中模型也表现出了非常好的效果。本文的研究方法可以扩展到其他相关领域,用以解决相似的问题。正文一、业务介绍(一)行业背景介绍本文立足于移动通讯行业,关注该行业的客户流失问题。如果时间倒退20年,回到20世纪90年代,那么该行业绝对不存在客户流失问题,相反在那个年代,只有消费者

2、求着运营商的份。举个例子,在笔者还是小学生的时候,如果看见有谁在大街上拿了个手机在打电话,那简直是羡慕的不要的不要的。在那个年代,首先手机就是一个昂贵的电子设备,其次有了手机,你还得选号,那个时候的手机号可是要花钱买的,而且一个好的号码还会花更多的钱。所以在当时,运营商并不缺客户,他们缺的只是能够支付得起话费的高价值客户。转眼20年过去了,这个行业可以说是发生了翻天覆地的变化,整个行业被三大运营商垄断(中国移动、中国联通和中国电信),市场份额趋于饱和,新客户的增长十分缓慢,所以对于运营商来说如果要继续保持自身的市场竞争力,就必须从两方面着手,一是不断“挖墙脚”,即想尽一切办法攫取竞争对手的客户

3、;二是尽最大努力保留现有客户,防止客户流失。笔者整理了20102014五年间国内三大运营商的年报数据,在此分享给读者两个重要的数字。图1  移动用户数(单位:亿人)图2  营业收入(单位:十亿元)从图1我们可以看到各大运营商近几年的用户增长是十分缓慢的,这也说明在获取新用户上企业基本无计可施。在三大运营商中,中国移动以绝对的优势占据第一的位置,其移动用户数比另外两大运营商的总数还要多。图2刻画的是三大运营商的营业收入,可以看到收入的增长也是十分缓慢的,中国联通甚至在2014年出现了负增长。中国移动依然稳居第一,其营业收入超过了另外两家运营商收入的总和。俗话说三十年河东三十年

4、河西,这个行业都不用30年,短短十几年就让我们看到了格局的变化。从之前的“不愁用户”到现在想尽一切办法“挽留客户”,客户流失预警已经成为了这个行业的管理者一个普遍关心的问题。(二)业务背景介绍在一个偶然的机会,笔者遇到了一位供职于南方某三线城市的某运营商的市场部经理,他向笔者讲述了他当前的一个困惑。在他所管辖的地区,平均每个月面临着1.5%左右的客户流失率,这对他来说是相当可怕的一个数字。他当时对笔者提出的一个问题是:能否做到客户流失的提前预警?即是否可以通过一些方法帮助他们提前识别出高风险流失客户,这样做的一个好处是可以给企业有充足的时间对这些客户进行“安抚”,通过客户关怀或者提供优惠促销的

5、方式挽留这些客户。当然他们公司内部也曾经尝试过各种客户关怀,然而遗憾的是并没有一套标准的体系指导他们如何去做,传统的做法是:如果看到某些客户本月的花费减少了,那么客服可能一个电话就打点过去询问状况了,再者如果看到某些客户好几个月都延迟缴费,那么这时候客服一个电话又打过去了。这样做的弊端是成本高、准确度低,最重要的是很可能会打扰到正常的客户(即那些非流失客户)。所以我们要解决的业务问题很明确,即构建一个综合的客户流失预警体系,能够快速、高效并且运用较低的成本去识别高风险流失客户。基于这样一个研究目标,本文准备从以下几个方面着手。首先,预测客户是否流失,这是一个标准的0-1回归问题,所以我们探索的

6、方向就是要建立一个逻辑回归模型,寻找能够显著影响客户流失的因素(即我们通常所说的自变量),通过模型的计算,我们可以给出每个客户的流失概率,然后将这些客户按照流失概率的大小从高到低进行排序,企业实际工作者可以根据经验选择某一个阈值来判断流失概率超过多少即被认定为高风险流失客户,从而仅对这些筛选出来的客户进行针对营销。此外该模型还可以衡量在给定成本预算的前提下,得到的“捕获率”(即真正抓到那些流失客户的占比)是多少。最终我们希望通过本文的研究,我们所提出的方法能够真正在企业进行落地实践,而事实上,我们确实做到了这一点,并且获得了不错的反馈效果。在此笔者还想再啰嗦几句,对于解决实际业务问题,我们的出

7、发点一定是利用最简单有效的模型,因为复杂的模型复杂的算法根本无法适应商业的需求。本文也仅是运用了统计中最常见的逻辑回归,但是模型建立的关键来源于自变量的构建,自变量的构建绝对是一门技术活,他要求研究人员对业务知识有非常扎实的理解与见解,所以在这个过程中笔者会和企业的人员不断沟通,了解业务知识,充分理解消费者的流失行为。如果说流失是我们最后看到的一个行为,那么影响这个行为的因素就像是一个黑箱,我们所要做的就是不断分离出黑箱里的东西使之能够看得见摸得着,而这就需要我们对业务问题有充分的理解,因为只有这样才能找到关键变量。二、数据描述(一)原始数据介绍本文用于研究的数据全部来自该客户经理供职的企业,

8、我们随机选取了5万个左右VIP(平均每月ARPPU值大于80元)客户的从2014年3月到8月六个月的数据,其中用于标识每一个用户ID的是脱敏过的设备号编码。基于研究的需要,我们收集了两部分数据,第一部分是按月份统计的客户基础通信数据表,这部分数据包括用户的入网时间、当月花费、话费情况等等,具体的字段及各个变量的类型详见附录中的表1。第二部分是按月份统计的客户点对点通信数据,也就是我们通常所说的通话详单。这部分数据可以说是本研究中量级最大且最重要的数据,因为通过客户的点对点通信情况我们可以刻画出一个用户的社交网络,进而可以计算一些和网络相关的变量。该部分数据的具体字段及各个变量的意义详见附录中的

9、表2。从数据量上来看,平均每月客户的点对点通信数据在500万条左右,文件大小在380M左右。(二)数据清理在拿到原始数据后,我们需要对数据进行初步的清理,主要遵循以下几个原则:首先对于缺失值的处理,由于用于本文研究的样本量较大,且缺失值的情况较少,所以对于个别缺失值的情况采取删除该条观测的处理。其次对于一些不合乎正常值范围的观测(例如花费金额出现了负数的情况)也采取删除该条观测的处理方式。最后,数据中还存在重复观测问题(即同一条记录被记录了多次),采取删除重复观测的处理。此外关于一些异常值的处理将在第三部分数据建模的描述性分析中进行阐述。(三)变量生成除了数据当中可用的一些现有变量(如入网时长

10、、当月花费),我们根据研究问题进行深入探索,开发出了一些重要的解释变量,在本节中笔者将对这些重要的变量进行详细阐述。在传统的客户关系管理文献中,有众多关于客户流失因素分析的研究,但是这些因素基本都只涉及到客户本身的一些信息(例如有关客户自身的人口统计信息等)。而作为个体的我们并不是独立存在于这个社会中,我们会和周围的人交往,从而形成各种各样的社交网络,这样每一个个体在每一个社交网络中其实都被赋予了不同的角色与社会地位。所以,当我们分析消费者行为时,有必要把这种来自“好友”的信息考虑进来。近年来,无论是在学术界还是企业界,有关社交网络的研究越来越受到大家的关注,网络结构数据蕴藏着巨大的研究价值。

11、在本文中,客户的通话详单向我们呈现了一个通信网络,在这个网络中,我们可以清晰的看到每个用户都和谁通过电话,通过几次电话以及每次的通话时间。基于这样的一个数据,我们可以进一步的总结出一些和网络相关的变量,并且这些变量对于解释客户流失有着很重要的意义。在具体解释新生成的变量前,笔者先做一些简单的符号定义。在社交网络分析中,通常用“节点”和“边”来表示网络中的个体和存在的关系,在本研究中,每个用户可以被看做是通信网络中的一个节点,用i表示,其中i=1,2,3.,N,N为样本量。假设任给两个用户i和j,如果发现i和j通过电话,那么定义aij=aji=1,表示i和j之间存在一条边。接下来笔者将逐一解释每

12、个新变量的计算方式及其背后的业务逻辑。1、个体的度。首先解释一下什么是“度”。度(Degree)是社交网络分析中最基础的概念,它可以进一步分为出度(Outdegree)和入度(Indegree)。出度指的是从个体i出发可以连出多少条边,入度指的是从其他个体出发,一共接入i多少条边,即有多少条指向i的边。在本文中,我们将个体i的度定义为和i有过通话记录(包括呼入与呼出)的不同用户的总数。假设用Di表示,那么。个体i的度越大说明与i通话的人数就越多,反之越少。对于一个度很大的用户,他换号(即流失)的成本很高,因为一旦换号就意味着他要通知很多人他的新号码,也许还会因为换号码而失去和一些朋友的联系。由

13、此我们可以推断,个体的度越大,越不容易换号,即流失的概率越低。2、联系的强度。也许有人会说个体的度大未必流失的概率就低,如果和用户通话的都是送快递、送外卖的怎么办?为了弥补个体的度这一变量的不足,笔者提出了第二个变量,即联系的强度(Tightness)。在社交网络分析中关系的强弱(Tie Strength)也是一个非常重要的变量,它衡量了两个节点间联系的紧密程度。在本文中,我们用平均通话时长来类比联系的强度。具体的,我们仍然用Di表示和用户i通话的总人数,用Ti表示用户i一共的通话时间,那么用户i的联系强度Tiei(即平均通话时长)表示为Tiei=Ti/Di 。在通话人数一定的前提下,如果平均

14、通话时长越长,说明用户和他的联系人之间的关系越紧密,换言之如果联系密切的人很多,那么对于换号的成本也是很高的。由此我们可以产生第二个推断,个体的联系强度越强,越不容易换号,即流失的概率越低。3、个体的信息熵。试想这样一个场景,假设用户A和用户B某个月都只和10个人通过电话,总的通话时长都是100分钟,那么可以看到我们构建的前两个变量个体的度和联系的强度在A用户和b用户之间是一样的,那是不是就说明两个用户的流失概率是一样的呢?也许一样,也许不一样。这就需要我们寻找第三个变量,来进一步区分两个用户的差别。假设我们发现其中A用户的90分钟都是打给同一个人,剩下的10分钟用于和其他9个人通话,而B用户

15、恰恰相反,只有10分钟打给同一个人,剩下的90分钟用于和其他9个人通话,那么可以看到和A紧密相连的其实仅有1人,那么对于A来说其换号的成本是很低的,因为也许他只需要把新号码告诉和他紧密联系的人即可。因而我们可以推断,在这种情况下,A的流失概率要大于B的流失概率。那么我们应该用一个什么样的指标来刻画上面所描述的呢?本文借鉴了信息论中的信息熵(Entropy)的概念来刻画这一现象。信息熵最初用于描述信息源的不确定性,通常,一个信息源发出什么样的信号是不确定的,可以根据它出现的概率来进行度量,概率大,出现机会多,不确定性小。在本文中,我们将个体i的信息熵定义为:,其中,表示个体j和个体i通话的时间占

16、i总通话时间的比例。因此从直观上看,该公式刻画的是与个体i通话的所有客户的平均通话时长的分布,如果信息熵越大,说明平均通话时长的分布越分散,客户离网时付出的成本较大,流失概率较低;信息熵越小,说明平均通话时长的分布越集中,客户离网时付出的成本较低,因而流失概率也较大。以上三个变量是本文重点探索研究的变量,除此之外通过与公司业务人员的沟通,我们的模型中还加入了通常被认为比较重要的变量,分别是:入网时长,入网时长从某种程度上反应了客户的忠诚度;当月花费,该指标可以反应用户的使用度;本月相比上月的花费变化,这是一个变化率的指标,它刻画的是用户花费的变化趋势,可以反应出用户对该号码的依赖程度;本月相比

17、上月通话人数的变化,这也是一个变化率的指标,度量的是通话人数的变化趋势,可以反应出用户通话朋友圈的变化。在接下来的第三部分,我们将用节中提到的所有变量进行数据建模,探索他们和客户流失之间的关系。三、数据建模(一)描述性分析在进行数据建模前,我们有必要对所有变量进行描述性分析,为了描述的方便,我们对变量进行一些符号的命名。入网时长:Tenure(单位:天),当月花费:Expense(单位:元),个体的度:Degree(单位:人数),联系的强度:Tightness(单位:分钟/人),个体的信息熵:Entropy,本月相比上月花费的变化:Chgexpense(单位:%),本月相比上月通话人数的变化:

18、Chgcount(单位:%)。由于我们的数据是分月份进行统计(从3月到8月),在此,笔者以8月份的数据为例给出描述性分析结果(其他月份的结果与该月份基本相似)。表1  8月份数据的描述性分析(样本量:47549)表1展示的是描述性分析结果,从表中我们可以总结出以下信息。首先在我们这个样本中用户的平均入网时长在3.8年左右,最长的有12年,最短的才入网10天。第二,花费这个指标,可以看到平均每个人的花费在170元左右,但是我们看到最大值居然有4446元!这对我们的样本来说显然是一个异常值,因此在后续的建模中我们会将异常值剔除,这里尤为要注意,如果不剔除异常值,在本案例中,对建模的结果会

19、有很大的影响。再看个体的度这一指标,平均来说每个用户要和75个左右不同的人通电话,但是我们依然发现这个指标的最大值是1763!如果按1个月30天计算,也就是说这个最大值的用户每天要和60个不同的人通电话,这看起来似乎是一件疯狂的事,但也许这个人是个电话销售或送外卖或送快递的。在本文的分析中,我们把这样的数字也作为异常值处理。我们再来看表格中的另一个指标,联系的强度,我们的样本数据中,用户和每个人的平均通话时长不超过10分钟,但是最大值居然有5015分钟!毫无疑问,这又是一个异常值。剩下的几个变量笔者就不在此一一赘述了。总之,描述分析可以帮我们看到每个变量的一个大致分布情况,最主要的是可以帮助识

20、别一些特别重要的异常值。在本文中,我们以均值加减三倍标准差作为识别异常值的标准,如果取值在这个范围之外,则被认为是异常值,那么在后续的建模分析中予以删除。本文研究的因变量是客户是否流失,是一个典型的1-0变量。关于流失的定义,公司认为只要符合以下三条中的一条即被认为是流失(本文中1表示流失,0表示非流失)。1、客户主动申报离网;2、当月未出账;3、累积三个月延迟缴费。本文所使用的数据每个月的离网率统计如下表2。表2  2014年3月到8月每月离网率统计从表2的统计来看,该公司平均每月的客户流失率基本维持在1.2%左右。接下来我们想看看流失客户与非流失客户之间到底存在哪些差异?举个例子

21、,是不是流失客户的平均入网时长要小于非流失客户?因此我们对所有自变量根据流失/非流失进行了分组箱型图的描述性分析。在此,笔者以Tenure、Expense、Degree、Tightness和Entropy做举例说明。以下箱型图中churn代表流失组,NoChurn代表非流失组。图3  Tenure对比箱型图图4  Expense对比箱型图图5  Degree对比箱型图图6  Tightness对比箱型图图7  Entropy对比箱型图从以上五张图的对比,我们可以发现,非流失客户和流失客户相比,平均来说拥有更长的入网时长(图3)、更高的花费(图4

22、)、和更多的人通话(图5)、人均通话时长越长(图6)以及更加分散的通话时长分布(图7)。我们注意到图5,这种差异显得更为明显,说明Degree这个指标在判断流失与否这个问题上占有很重要的地位。其他四个指标在判断客户流失与否的问题也具有一定的意义。接下来在本章的第二部分,笔者将重点阐述模型的建立、估计结果及预测精度。(二)模型分析结果因为本文的因变量为是否流失,这是一个典型的0-1变量,所以我们采取逻辑回归进行分析,其中1代表流失,0代表非流失。又因为我们关心的是预测问题,所以在分析中所有自变量来自当期(即当前月份),而因变量是否流失来自下一期(即下一个月份),为了检验模型结果的稳健性,我们重复

23、了四次这样的逻辑回归,即用4月份的因变量对3月份的自变量建模,5月份的因变量对4月份的自变量建模,以此类推。逻辑回归的结果见表3。其中April表示用3月份的自变量预测4月份因变量,以此类推。对于每一个变量,第一行为标准化的参数估计结果,第二行为参数估计的标准误。从回归结果中我们可以得到以下结论:首先入网时长越长,客户越不容易流失,而且该结果在四个回归中的表现都比较稳定。其次,花费越多,客户也越不容易流失,表现稳定。第三,通话的人数越多,客户越不容易流失,表现稳定。第四,平均通话时长越长,客户越不容易流失,表现稳定。第五,平均通话时长的分布越分散,用户的流失概率越低,表现相对稳定。最后关于两个

24、变化率的变量,随着通话人数的增加,客户越容易流失,随着花费的增加,客户也越不容易流失。表现相对稳定。综上,我们可以看到本文提出的解释变量对预测用户是否流失都是显著的,这说明在考虑用户流失的问题上,除了一些传统的解释变量(如入网时长、每月花费),还应该考察和用户社交圈相关的变量,因为这些变量对预测一个用户是否离网有着重要的作用。表3  逻辑回归结果(三)模型预测精度在建完该模型后,我们希望知道该模型的预测精度可以达到多少,在学术领域,我们可以用ROC曲线以及AUC值来评判一个逻辑回归的预测效果如何,但是在商业实践中,这样比较专业的术语很难直观的给出一个具体的解释。所以在本研究中我们采取

25、覆盖率-捕获率这样的一个指标评判模型的预测精度。那么什么是覆盖率,什么是捕获率呢?举个例子,假设我们总共有100个客户,其中有20个客户在下个月会流失,如果我们不用任何模型,想要抓住这20个“坏蛋”,那么就需要将营销成本花费在100个客户身上,这时覆盖率就是100/100*100%=100%,捕获率是20/20*100%=100%。如果我们通过模型可以识别出一些高风险流失的客户,那么就可以有针对性的去实施营销策略。比如我们可以只对40个客户进行营销,然后在这40个客户中可以抓到15个“坏蛋”,那么这时候的覆盖率就是40/100*100%=40%,捕获率就是15/20*100%=75%,也就是说

26、只需覆盖40%的客户,就可以抓到75%的真实流失客户。换句话说企业只要付出40%的成本,就可以得到75%的收益。这样做虽然不能100%抓住所有要流失的客户,但是可以保证用较低的成本识别出相对较多的流失客户。在本研究中,我们可以针对每一个逻辑回归绘制覆盖率-捕获率曲线,为了说明,我们以6月自变量预测7月因变量为例进行说明。具体的,拟合完模型之后,可以根据参数估计结果算出每一个客户的流失概率,将这些客户的流失概率按照从高到低的顺序进行排列,然后我们可以根据经验确定一些阈值,利用这些阈值来把现有的客户分类,比如利用分位数(20%、40%、60%、80%),对于每一部分客户,我们都可以相应的计算出覆盖

27、率和捕获率,在研究中,我们得到的覆盖率与捕获率的曲线如图8所示:图8  覆盖率-捕获率曲线从图8我们可以大致得出,根据我们的模型,只需覆盖20%的用户,就可以达到60%的捕获率,在和企业的相关负责人汇报了这一数字后,他们认为这是一个相当好的结果。该图还有另一个优点,就是企业可以根据自身的情况(比如营销预算成本)来自主选择要覆盖多少用户。四、业务实施建立了模型,有了拟合结果,并且也计算了模型的预测精度,那么下面一个问题是如何进行业务实施?其实对于企业来说,他们真正想看的就是在实践中该模型是不是真的能起到作用,帮助企业提前识别高风险流失的客户。所以,我们和企业商议,做了下面这样一个现场试

28、验。我们以8月份的客户作为试验对象,因为8月份的这些客户他们9月份的流失状况在当时是未知的,所以我们的目标就是根据我们的模型,给出8月份的这些客户中高风险流失客户,然后企业的客服专员对这些识别出的高风险客户进行电话回访,看看究竟可以抓到多少即将要流失的客户。具体做法如下:首先我们根据模型的参数估计结果计算出8月份还在网的客户的流失概率,并按照流失概率从高到低对客户进行排序,因为月平均流失率大概维持在1%左右,所以我们选择1%作为阈值,认为计算出的流失概率大于1%的即为高风险流失客户,小于1%的为低风险流失客户。经统计高风险流失客户有16128人,由于电话回访还需要一定的人力成本的,所以最终公司在这1万6千中随机选取了4997个客户进行电话回访,回访的主要目的是询问客户对当前的服务是否满意,是否有些抱怨。最终的统计结果显示,电话接通率为62%,在接通的人群里有348人表达了不同程度的抱怨情绪,抱怨率为7.0%。从电话回访的结果看,已经有部分客户对服务感到不满意了,这可以说是流失之前的一个很重要的预警,而且电话的接通率也相对较低,这也是流失前的一个重要预警。为了更加精确的统计流失客户,在9月份结束后,我们又从公司获得了9月最新的客户流失情况,经统计如下:表4  九月份客户真实流失情况从之后的统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论