电信行业案例研究.doc_第1页
电信行业案例研究.doc_第2页
电信行业案例研究.doc_第3页
电信行业案例研究.doc_第4页
电信行业案例研究.doc_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

案例研究:电信行业市场研究将以台湾电信业手机购买情况和大众对电信公司的满意程度的调查,进行客户市场的细分和流失模型的建立,由于本案例的特点是数据量相当庞大,异常数据参差不齐。因此,研究这一数据分析方法具有重要的现实意义。 消费者行为研究-6W+2H:购买什么(what)?为什么要购买(why)?购买者是谁(who)?何时购买(when)?何处购买(where)?信息管道来自何处(where)?购买多少(how much)?如何决策购买(how)? 电信流失模型的基本概念电信行业中的流失(churn)一词专指客户的流失,它通过影响客户流失可能的原因分析,预测哪些客户不久将流失。建立客户流失模型是数据挖掘在许多不同行业的共同的应用。特别对电信而言,全球几乎每一家电信企业(只要置身于市场竞争中)都正在或将要建立客户流失模型,如果哪一个企业不想,或还没有准备建立流失模型,将使企业逐渐丧失竞争力。此外,流失模型中的流失评分,除了帮助设计促销活动,保留客户的用途以外,短期目标是提供一份可能流失者的名单。之后,建模技术可以自动地用于客户流失管理系统的应用。进一步,客户流失管理系统又是更大的客户关系管理系统的子模块。显然,要实现如此内容丰富的三个目标,建立流失模型是建立一套流失管理系统的第一步。建立流失管理程系统是将数据挖掘应用于商业活动的优秀范例。数据挖掘从一开始就在引导建模工作,而不是在最后才被引入。因此,一个流失模型主要研究的内容包括:1、影响流失的变量;2、易流失人群的特征提取;3、预测流失的得分模型的建立三部分内容。无论对电信公司还是手机的经销商来说,在市场竞争中采取怎样的决策,都是具有重要意义的。过去对流失模型的建立主要依赖于电信公司的通话流数据,主要依赖的测量指标是客户的通话时间。这些数据无法反映客户流失的主、客观原因,易流失人群的特征也不容易得到,因此仅仅利用通话时间的长与短,来判断哪些客户容易流失的可能性,是有局限的。我们试图从用户使用产品和感受服务的角度,探索客户流失模型的建立,解释客户流失的不同性,为电信行业客户流失模型的建立提供新的参考模型。电信行业的特点电话公司和金融业、保险业以及公共服务业一样,都属于典型的服务业。但是从另一些方面看,电信服务营销更像零售产品的营销,电信客户市场具有以下几个特点:1 相对独立的服务供应商(“客户垄断”)。电信公司具有垄断客户的倾向。也就是说,每一名客户都有只享用某家电信公司特定服务的倾向(尽管他们可能有几种选择)。而在其他行业,客户每购买一次产品就做出一次选择,客户的钱分流向两个甚至更多的竞争对手。作为垄断经营者也意味着电信业比其他行业更能充分了解其客户与产品相关的行为。在我们的数据中74%的手机用户有过更换电信公司的记录,而相比之下,更换过手机的用户有35%之多。2 争取客户的成本相对较高。手机的折扣以及信用卡结算,提高了争取客户的成本,这超过了通常的营销成本。而每一名客户的服务支出决定了其对公司的价值。这意味着留住一名现有客户比吸引一名新客户更具价值,因为挽留客户就避免了预先争取客户的开销。3 没有直接的客户合同。电信客户与其服务供应商之间没有直接面对面的合同。事实上,唯一的电信合同只是针对客户服务通常仅当服务出现问题时才履行。这表明,电信公司主要通过品牌管理和营销活动来树立公司形象。4 手机,同其他零售产品一样,无线通信业也有其外部载体手机。新款手机更加轻巧,拥有更多功能,因而也更具吸引力。结果是,手机在客户流失管理中扮演越来越重要的角色。流失按照客户流失意愿,应分为被动流失和主动流失两大类。区别这两种不同的流失非常重要。客户连续几个月不付费,则引发被动流失,原因可能是手机被盗、手机损坏或客户离开服务区等,在被动流失中,客户流失的原因相对复杂,很多变量更突出地表现为社会问题,大多不能依靠企业来加以改进。与被动流失相对的是主动流失。促成主动流失与非主动流失的动机很不相同,不能用被动流失模型去预测主动流失。特别是在服务竞争激烈的市场,找到影响主动流失的变量,是企业客户流失模型的核心所在。另一个明显不同的应用是预先对客户群进行分类。如果某一客户群体明显可能会流失,或许他们就不应该享受为新装机用户推出的惊人的折扣因为这要到几个月后才会开始盈利。定义流失变量包括了下列几种不同的情况:1. 迁出服务区的客户。2. 已经去世的客户。3. 无力承担电话费的客户。4. 为其他服务供应商所拉走的客户。5. 想买新手机的客户。(一) 其中最后两类值得重视,为其他服务供应商所拉走的客户,以及被称作手机转移族的最后一类。如果其他公司为客户提供更好的服务。或为新客户提供的手机折扣比现有客户要多。就可能会鼓励现有客户先流失再重新加入,以获得更多折扣。而这两者通常可以从为客户对现有公司服务满意程度、手机物理性能的满意度、手机的收讯情况、手机外型的满意度等经营指标反映出来。MuIIer(1991)认为顾客满意度有助于企业竞争优势的达成。当产品价格优势不显著,顾客满意度将是唯一有意义的竞争优势,而拥有愈高的顾客满意度,公司将会获得持久竞争优势。KotIer(I997)认为顾客满意度是增加企业竞争力的利器,顾客满意度是公司未来获利能力的最好评价根据。案例分析数据挖掘的核心是将数据转换成可以操作的结果,在案例研究中,我们将具体按照数据挖掘的DM流程,对分析数据的每一重要步骤进行说明。我们要强调的是,数据挖掘过程一个互动往复的过程。6.2.1 数据的预准备一、数据的来源和组织结构4、更换手机情况7、更换电信公司情况现状层满意层流失层1、使用现状2、收讯满意情况5、服务现状6、电信公司满意程度8、消费者特征3、物理特性的满意程度手机的满意情况手机使用者 服务公司客户层论文实证研究的数据是台湾电话调查数据,共有1,313,206笔电信市场调查数据,变量32个,以*.dat的形式存在。问题按照用户使用手机的情况和服务公司展开,分别考察了在手机使用情况和接受电信公司服务两个结构面上的基本使用(或服务)情况、更换情况、满意程度,以及消费者的基本特征:数据结构如图1所示,组织结构对应的问项如表2。图1 数据组织结构框图1 1、消费者使用手机的基本情况 A3 目前使用手机的品牌 A4 手机的付费方式A6 手机的收讯情况A17目前所使用手机的品牌A18目前所使用手机的型号2、手机的收讯情况A5 在室内(不包括电梯和地下室)A6 在室外A7 在郊外A8 在车上 3、对手机物理特性的满意程度: A22 外形是否满意 A23 目前手机功能是否满意 A24 手机整体是否满意 A25 是否担心手机电磁波的危险4、更换手机的情况A19 是否更换手机A20 更换次数A21 再次购买的考虑因素5、服务公司A2 目前使用的移动电话所属的服务公司6、对电信公司的满意程度:A9 通话清晰度的大、A10 计费方式合理、A11 服务效率A12 服务人员的态度。A13 整体服务态度7、更换电信公司A14 是否更换A15 更换次数A16 上次服务公司(90%缺失)8、消费者的基本特征A26性别A27年龄A28政治信仰A29教育程度A30籍贯A31政治主张A32职业A33户籍 表2 数据组织结构所对应的问项以及题目编号列表二、研究假设和研究主题(一)主题的物理概念分析定义业务问题是成功数据挖掘过程中最有技巧的一个阶段,因为它需要不断地对问题进行交流,以得到对问题正确的理解。从结构图上,已经发现数据中存在横向和纵向,外部和内部的复杂关系,这无疑是进行关联分析研究的非常好的数据。如果我们从企业的角度来看数据结构图,则不同层面上的数据有着不同的分析用途。比如:手机经销商客户关系管理的角度来看,流失层的作用非常关键。首先,由流失层和现状层的综合分析,可以告知潜在客户“名单”,当前客户“名单”,竞争对手“名单”,唯一不能回答的是新老客户的区分。其次,对三类客户“名单”,可以进行不同的分析目的,如图2所示: 现状 新客户未知潜在客户问题:客户偏好客户忠诚度竞争对手客户问题:客户偏好客户购买意愿问题:客户细分目标市场定位流失层老客户问题:交叉销售风险管理图2从生产和销售手机的企业,看市场研究和客户关系管理的关系首先, 对当前的手机客户,主要可以集中在研究满意度评价模型,也就是说通过研究客户对电信公司以及手机的满意度,建立手机或电信公司主动流失模型。在我们的数据中,事实上,大部分用户都会倾向于对服务满意的状态,而对商家来讲,重点在于找到不满意的人群,并针对这些人群,提出新的战略。分析的过程分为两步:首先,比较不同的满意程度之间互相影响程度,找到有意义的不满意组合,提取不满意指标,降低变量的个数,然后,建立不满意因素与人口特征方面的客户细分模型,通过这个模型的建立,来定位目标市场,或进行一些有利于业务拓展的促销活动,抵御客户流失的风险。 其次,竞争对手的客户。虽然也可以类似研究客户的满意程度,找到不满意客户的族群,这些客户将是可以拉动需求的潜在客户。但是,在电信行业,争取客户的成本相对较高。手机的折扣以及信用卡结算,可能构成提高争取客户的成本的原因,这超过了通常的营销成本。而每一名客户的服务支出决定了其对公司的价值。这意味着留住一名现有客户比吸引一名新客户更具价值。因此,对于竞争对手,选择重点研究客户对不同手机的认知差异程度,来帮助企业做到知己知彼。最后,潜在客户的研究。这些客户虽然表面看来,调查问卷中并没有他们的信息。但是,频繁更换手机者以及部分没有手机者构成了这一族的大部分成员。同其他零售产品一样,电信产品也有其外部载体手机。新款手机更加轻巧,拥有更多功能,因而也更具吸引力。结果是,手机的频繁更换就为制造商制造了一个竞争的空间。另外,没有手机的用户大多都填写了背景资料,因此这也是可以挖掘的领域。所以,对品牌偏好的客户,主要研究可以集中在品牌偏好研究,而对于目前还没有手机的客户来说,注重研究客户的特征提取。由于问卷调查数据的类型基本为定性或定序数据,数据之间的关系分析主要依赖关联分析的结果。本案例将重点集中在下面四个问题中:(1) 客户在对手机功能、服务、电信公司的不满意变量的研究,找到影响电信公司易流失客户的数量模型。(2) 易流失客户的流失预测得分模型的建立。(3) 潜在手机客户的特征研究。(4) 频繁更换手机的客户对手机品牌偏好研究。(二)研究假设本研究的主要目的是探讨影响手机使用情况的客户满意度的因素有哪些,并希望借助满意度得分建立客户流失模型,探讨不同背景的客户在满意度方面的差异如何。为验证上面这些问题,本研究提出如下两条重要假设:1、 手机用户对手机性能、手机整体满意度以及对电信公司的满意程度是影响用户主动更换电信公司的直接原因。2、 不同背景的客户由于年龄、性别、教育程度、户籍、政治信仰、政治主张、职业的不同,会造成用户对手机满意度上的感受存在差异。(三)数据质量的考察和主题进一步确定本案例研究的调查数据,所以数据中会有大量的缺失和异常现象,缺失数据的严重情况如图3所示。按照缺失数据的提示和缺失情况,来确定主题、主题数据库和分析的整体框架,是本案例的最大的特点。图3从数据的行看缺失数据个数的分布情况我们首先从110万条数据中,随机产生3808笔数据,研究缺失数据的结构和分布情况。图3表示的是每条数据上缺失数据个数的整体分布情况,我们从图上很容易发现,缺失数据个数的众数比较明显,从缺失的个数相对集中,可以推断数据的缺失情况大致可以分为4类,也就是缺失个数较多的2,3,23和31。原因如表3所示:缺失数据的个数原 因缺失率=缺失记录条数/总样本容量2a15,a16没有填答,这些项目涉及更换电信公司的详细信息9.5%3a15,a16,a20没有填答,这些项目涉及更换手机和电信公司的详细信息24%23a2 上回答目前没有手机,但是它们都填答了个人背景资料31%31a1上资料有问题,因此后面的选项均未填答5%表3缺失个数较多的原因分析首先,问项中有三道题目是筛选题目,它们构成了无回答数据的主要原因。其中a1表示数据是否有问题,a1=1的后续题目全部空白,这样的记录占总数据的10.5%,这些数据首先被删除,同时变量a1也被删除,因为它只有一个值。变量a2表示被访问者目前拥有手机的情况,1表示拥有手机,而2表示目前没有手机,所幸的是,在a2=2的被访问者在个人资料方面填答的完整率高达89%,因此,为手机潜在客户的研究提供了宝贵的数据。按照a2的取值,将数据分为潜在客户群和当前手机客户群,这样操作之后的缺失数据和整理之前的缺失数据情况如表4所示:NameValuesMissing %删除a1=1NameValuesMissing %删除a1=1NameValuesMissing %删除a1=1A120%A12553%43%A23555%44%A2212%1.3%A13553%43%A24555%45%A3850%40%A14354%43%A25556%45%A4351%40%A15390%80%A26218%6%A5351%41%A16*890%79%A27717%6%A6351%41%A17954%43%A28727%15%A7351%41%A181254%43%A29421%8%A8352%41%A19254%44%A30522%9%A9552%42%A201083%72%A31722%9%A10553%42%A21254%44%A321022%10%A11553%42%A22555%44%A332422%10%表4 缺失数据情况表(*表失该变量缺失严重)(四)研究框架下一步,确定分析的主题,商家提出的问题是否可行,数据挖掘的目的就是要让数据说话。用来建立客户满意度模型的数据分布在5个层面的数据:用户对手机的满意评价、用户对电信公司服务的满意情况、手机用户的收讯情况等等。由于变量之间的关系复杂,直接建立模型,所以首要的问题是减少分析的变量,将有关系的变量组成主题,研究框架如图6.4所示: 图4 确定主题和主题数据立方体生成三、整理数据和准备建模数据集(一)、软件使用说明:由于所有的发现过程都只依赖于数据,这与传统、早期的数据分析一样,数据挖掘的每一个步骤都面临着同样的挑战,需要经验和专业技术。上面这些步骤在后面的案例中很清楚地描述。在我们的工作中,相当大的努力投入到这些数据挖掘的前期工作,而不是仅仅用于建立模型,模型是否成功依赖于前面的对数据的探索。只有对数据有着良好的理解,数据挖掘的过程,以及由数据挖掘技术发展出来的模型的才是有价值的。虽然发现过程的很多工作已经由机器来代替,通过可视化的大大简化了上述的步骤,但是在半自动化的操作中,人的因素起到关键的作用,特别是在建立模型和执行效率方面,最新发展起来的很多工具,依然有很多限制。基于上述诸多因素的考虑,我们对本案例的分析采用的主要工具是S-plus2000和SASEM(试用版)。S-plus的优点是统计计算效率高,很多S库函数在设计的时候,已经考虑了缺失值和异常数值按用户指定的方式进行处理。它的缺点是不能容纳超过5X106的数据量,即内存中不能一次性滞留50万笔以上的数据。但是,如果数据一旦进入数据库,则其执行效率非常高。由于我们在分析中使用的是SASEM是由网络上下载的试用版本,因此具有不可编程的特点(尽管SAS的其它模块都可以编写程序),这样阻碍了我们分析的自由度,而s-plus本身的编程自由度相对较大,所以我们在本案例的所有数据的预处理,都是在s-plus之下进行的,而只是在建立模型阶段,才使用了SASEM,SASEM的优势在于,它设计了很友好的图形可视化界面,通过图形传达了数据挖掘对模型表达和模型评价的基本概念。另外,由于关联规则的计算涉及到非项目集上的运算,而这一功能试用版本SASEM中也不具备。为了提高运算效率,笔者首先将110万条数据拆分成11万条一组,共计10个分段数据集(最后一组的数据量超过10万条)。由于本研究中,并未涉及到抽样的方式,只用到随机抽样。因此,这样的拆分并不影响计算的结果,如果忽略在不同的数据集上转换抽样所花费的时间,则在S-plus上的计算效率是很高的。总之,本案例结合了S-plus自由的编程能力和SASEM的数据挖掘流程的良好输出功能,来辅助完成本案例的研究,为数据挖掘软件的实践提供重要参考。(二)、缺失、异常数据处理当确认了我们的数据适合问题的研究之后,就是复杂而琐碎的数据的清理。在建模的时候,我们需要尽可能完整的数据。 首先计算缺失数据的情况,从表2中,比如:感兴趣的评价满意度的三个变量a22,a23,a24,a25,缺失比例超过40%。接下来,是有关缺失值的处理工作。怎样对付缺失数据呢?通常情况下,有下面的几种方法:u 漠然处之: 当使用决策树建立模型的时候,少量的缺失数据是可以被允许的。因为在决策树建模过程中,为了防止过度拟合,都会假定训练样本的每个节点所允许的最少的样本点的个数不能低于某个域值,我们在本案例中,选择目标变量的缺失率不超过1%,则不对训练数据做任何处理。u 删除含有异常值的行:这样做,可能意味着对数据进行了带有歧视性的抽样,如果删除的数据很多,就会影响数据的分布,可能会造成数据的有偏,因此应该谨慎使用。这里,首要的问题是缺失数据质量的判断。如果某条记录上数据缺失相当严重,那么就应该采取删除的办法,删除最坏的影响就是样本代表性问题。因为我们的数据是电话调查的数据,样本是根据各个地区人口的比例,分层抽样得到的,因此在删除的时候,应该对比删除以后和删除以前各个地区删除的号码比例(计算公式=删除个数/地区人口数)是否一致。在各个地区内数据的一致性问题。图5显示了删除a1=1之前和之后的数据在各地区的分布情况,由图上,很容易发现号码代表性比例基本保持不变。事实上,只要在可能删除的地方,插入t检验,就有可能避免错误的删除操作。 图5 删除数据以后的比例和删除以前的比例比较图u 忽略相应的变量:忽略掉含有缺失值较高的变量,将注意力集中到完整的数据上。如果仅有少量的列含有缺失值。通常,忽略掉它们是可以接受的,或者用一个显示数据是否缺失的标示变量来替代这些变量。u 采用预测值:一个较为粗糙的办法是将列均值或众数值插入缺失的列。当研究单一变量的时候,这样做是可能的。而在多变量的情况下,可能造成不公平。另外,在已有的SOLAS for Missing Data Analysis 1.0标准中,主张利用变量之间的关系,比如:采用回归分析插补数据,而对于定性数据,可能通过关联规则插补。如果定性变量较多,可以尝试使用决策树或神经网络算法值来预测缺失列中的值。这里,由于我们的目标是预测,因此,将三种方法对比,从中选择表现较好的方法,筛选模型的方法采用累积增长图。三种方法的预测效果在客户对手机性能和手机使用情况,删除缺失数据,并保持抽样随机性不变的情况下,目标变量中仍然存在少量的异常数据。因此采用首先忽略异常数值,建立模型之后,又将预测的结果用于目标变量的估计。u 建立独立的模型:更换电信公司较为频繁的客户,可以作为一类特殊的群体来对待,因为这部分的数据只有6万条,应该将这些数据单独提取出来,进行模型的建构。根据所能获得的各个消费者的数据对他们进行划分可以消除许多棘手的问题。该方法对取值不存在的缺失数据尤为有效。如果将所有的缺失数据都除掉,也就是说,将会有怎样的后果。因为剔除哪一个数值和剔除哪些变量,是和变量、以及记录之间的关系有关。本文这里剔除异常值和剔除缺失数据,都采用了插补法,具体将在下面的关联规则中仔细叙述。除此之外,由于a19问项“是否有更换手机历史”是筛选题,它用来筛选a20,因此,对前一题目作出否定回答的被访问者,在此a20上造成缺失数据者,恰恰是企业的忠实客户。这也解释了为什么a20的缺失率达到83%。从单变量分布的观察来看,由于问题中还有拒绝回答项,拒绝回答的数据显示为“88”或“99”这样的数据,如果量不多,比如只占到1%,可以考虑删除个别,或将无回答数据用其它的变量按照取值的比例赋权重,分配到其它的回答中间。反之,如果客户的变量相对无回答数据较多,则可以将无回答数据用其它的变量按照取值的比例赋权重,必须将这些数值重新赋值,分配到其它的回答中间。从我们的问题来看,有关手机满意度的5个指标拒答率极高,超过5%,最高达到26%,因此需要进行处理。而客户特征变量相对较少。清理完的数据集用于满意度模型的数据只有10万笔,而用于客户细分的数据只有4万笔。粒度是指建模数据的级别大小。通常情况下,数据挖掘算法作用于原始数据的每一行。所有关于一个客户(或者其他我们感兴趣的对象)的数据资料都应该放在同一行中,这些数据通常会根据粒度的大小来汇总,如图6。比如,在更换手机这个变量上,由于变量取值较多,而缺失数据又比较多,因此就可能造成某些取值的记录过分稀少,不利于抽样和推断。因此,将数据合并处理。1234560.3910.3020.1790.050.0350.01778910880.0020.0060.00030.0170合并数据,整理成合适粒度012以上0.3910.3020.307图6 将a20 合并汇总(三)、在线抽样算法在关联规则计算中的应用关联规则在本案例的作用主要表现在以下两个方面:首先,用于数据的分割和变量的选择,也就是说,哪些变量之间的关系值得研究,得到的结果是有意义的,这称为变量的选择。使用手机物理性能、更换手机情况、以及对电信公司的满意程度三组变量:a5、a6、a7、a8、 a22、a23、a24、a25、a9、a10、a11、a12、a13变量建立客户对于电信公司的满意度模型,首先,不考虑关联性如果将所有的对数据不实施分割,则计算得到的不满意度指数,在不同的用户上没有太大的区别。将变量引入模型,由于a5_a8仅取两个数值,将数据2倍,消除量纲,然后提取主成分,将主成分上的得分作为目标变量,建立客户细分模型,发现只有a33上有明显不同。事实上,在没有选择变量的基础上,各满意度变量在用户的背景上没有显著差异,表5显示的是各影响变量上满意的用户背景和不满意的用户背景之间的t.test检验p-值: a5a6a7A8a9a10A111.001.001.000.980.850.970.96a12a13a22a23A24a251.001.000.961.000.960.86表5各影响变量用户背景差异的最小的t.test检验p-值主要原因,是没有进行变量的选择和数据的分割。我们限制输出为不满意的变量值,采用关联分析,发现排列有意义的二、三元规则如表6:序号关联规则支持度可信度所用到的样本容量1A8=2-a7=120%2.51872A7=2-a6=120%2.32543A6=2-a5=120%1.63424A8=2,a7=1-a33=420%87%4725A8=2,a7=1-a27=320%82%4326A7=2,a6=1-a26=120%80%5727A7=2,a6=1-a33=1020%80%6628A6=2,a5=1-a27=420%80%6899A6=2,a5=1-a29=220%81%739 表6关联分析部分结果按照a8、a7、a6上的取值,将数据分成三类,分别建立不满意度模型。第二、将挂念分析用于缺失数据处理方法的选择上。虽然理论上可以用没有缺失的变量估计缺失变量,但是,如果用于预测的变量上仍然缺失,即便回答数据的关联性非常强,也无法做出预测。因此应该选择被预测的变量和预测变量之间缺失数量上关联性较差,作为进入预测缺失数据的输入条件。也就是说,通过计算不同变量上缺失数据的关联情况,可以推算用哪些变量进行预测,因为并由此推算出哪些变量上的缺失数据可以由与它关联性较强的同行的数据来替代。第三,可以利用变量之间的关联性进行估计。比如:更换过手机的用户相对于没有更换过手机的客户更容易在手机的性能上回答满意,因此可以利用变量的关联性进行插补。如果变量之间多元规则成立较多,也就是说缺失数据关联性强,那么就可以将这些数据删除。如果缺失数据关联性差,如果将数据全部删除,则可能导致数据量的不足,一般统计软件内设的成批删除(list-wise deletion)缺失值和异常数值。但若遗漏值较多则会损失大量的资料,导致样本偏误这一标准如何制订,现在尚没有标准。已有的SOLAS for Missing Data Analysis 1.0标准中,主张采用回归分析来插补数据,其实也就是利用了连续变量要间的关联性,而对于定性数据,需要通过关联规则的建立插补规则。为简单起见,我们仅仅考察了二元关联规则的建立。以手机满意程度和手机的收讯情况和手机的更换情况为例,所有可能的关联规则为8*5=40。因此,将所有变量采用ASAR算法和Apriori算法相结合,去除缺失缺失的情况,就是我们需要的结果。为提高运行效率,我们仅仅取前10位表现最好的规则,按照前一章符号表示,首先,我们规定最小支持度为15%,最小支持度的下界为=10%,也就是说,置信度取值为0.1,按照第六章的定理2,可以计算批量抽样的样本容量,另外,为提高计算效率,将取值较多的变量a33,a32,a20暂时没有计算在内,原因是这两个变量的密度比较分散,这样的分布情况,很难表现出高支持度成立的规则。计算可能的二元关联规则为|C|=798,由Hoeffding不等式计算所需要的样本容量为:=7188而超过15%的规则中,超过的部分越多,算法的执行效率越高,比如:某规则的支持度在15%以上,则只要3594个样本就足够达到以90%的可能性,接受规则超过15%,由于规则的实际支持度和所需要的样本容量成正比,因此,从规则出现的先后顺序就可以决定插补原则的顺序,比如规则1和规则2都支持a19=1,但选择的先后顺序以前者为优先考虑。最后的结果是在线产生了4,718笔数据,得到了近似的关联规则,这些关联规则均以90%的置信度成立,和理想值的支持度上差异在0.05左右,而置信度在90%。在线抽样的结果显示最先产生的10个关联规则,以及他们所用到的样本容量,以及支持度的反估计如下:序号关联规则支持度可信度所用到的样本容量支持度的反估计1A8=2-a19=120%89%13421.5%2A8=2-a19=220%87%12321.5%3A6=2-a19=120%91%20321.3%4A6=2-a19=220%83%30420.3%5A2=1-a19=520%87%20420%6A5=2-a19=120%80%32020%7A8=2-a19=120%80%59119.6%8A6=2-a19=120%80%60719.5%9A5=2-a19=220%81%65318.7%10A5=1-a19=220%79%66818.3%表7 在线抽样算法排名前10位强关联规则 假定ax与a19的可信度为按照可信度,则如下建立估计原则如下: 。这些变量与a19不同时缺失的比例如表8所示:序号解释变量P(A19缺失|不缺失)1A80.972A70.97 3A60.97 4A50.97 5A24100%6A22100%7A25100%8A23100%表8与a19不同时缺失的变量比例实验中对a19进行插补的原则基本按上述强关联规则进行,插补以后的a19缺失率为14%,和其他变量的强关联关系基本保持不变,插补前和插补后各个取值的比例如图6所示,图中显示了插补后a19的取值和插补前基本比例没有改变。 图6 插补前后数据分布变化不大由图中,可以明显发现插补变量的分布没有造成巨大的有偏现象出现,表示插补基本成功。我们的实验再次展示了在线抽样算法计算的效率,只要700个样本,就基本可以完成我们的任务,而批量抽样则需要8843个样本,才能将好的规则挑选出来。 建立模型和分析结果1、电信公司满意度关联分析:调查问卷中有关手机和电信公司服务方面的满意度的评测,共计10个题目,被调查对象需要对他们的回答从5-1进行排序,意思表示非常满意到不满意。一共有136,0260份问卷。回答是一次的。这样大量的样本在数据库中,每个问答的问题的大代表着一种属性,属性的取值从1到4。除此之外,数据中的缺失数据平均达到50%以上,对每个属性来讲。其中的一些属性语义相关(独立),比如,只有当客户从竞争对手中购买了服务,客户对竞争对手的评价才会出现在回答问卷中。理解这些互相的关系对于分类问题是至关重要。这个数据集里的数据是定序数据所构成的。这些数据可以用传统的统计技术来测量客户的满意程度。而我们现在的任务是要分析这些数据,提出建议的方案,得到客户的不满意程度。在建立不同的模型的时候,将采用不同的整合数据的方法:1、首先是模型的选择,电信因变量和自变量关系的研究,电信公司有7个,满意度影响方式有5个变量,我们在线随机抽取了50000笔数据,得到下面的结果。在分析之前,我们仍然像传统分析方法一样,将在线抽取部分数据和母体做适合度检验,得知样本与母体间的结构相符,表示我们下面的分析是有效的。支持中华电信 (0932 0933)清晰度、计费方式、服务效率和服务人员态度和整体服务品质基本满意成立,支持度依次为12%,12%,13%,8%,11%;支持台湾大哥大(0920 0922)清晰度、计费方式、服务效率整体服务品质基本满意成立10%,7%,7%,9%,其中服务效率规则表现不明显。同时,从最先淘汰的规则是对五种服务完全不满意,而从不满意的维度来看,对中华电信公司不满意的规则最后淘汰,说明对中华电信公司的满意程度存在两种,其中大部分的观点是满意的,而有一小部分不满意的意见。到底哪些对象对台湾大哥大(09200922)的哪些服务指标不满意,是我们下面要深入探讨的问题,这一问题的解决有助于帮助企业找到他们服务方面的问题症结,从而为企业提供更有利的决策支持。进一步分析发现,在满意度评价方面,下面三种规则得到支持:1、对通话清晰度基本满意,但对计费方式认为有不合理倾向。(6%,90%)2、对通话计费基本满意,但对电信公司的服务效率认为不满意倾向。(7%,90%)3、对通话计费表示满意,但对整体服务表示不满。(6.5%)2、不满意客户细分由于篇幅所限,我们仅列出a8=2,a7=1分类上的不满意模型。通过关联分析得到的不满意变量组合: a22、a23、a24、a25、a9、a10、a11、a12、a13变量建立满意度模型。提取满意度指数的方法是主成分分析方法,在采用主成分分析方法之前,首先,先考察缺失数据的分布情况,以及删除缺失数据对样本有偏性的影响。通过类似于前面的关联分析和t检验,并没有发现删除后各个地区变量上的数值分布有很大的变化。事实上,两两比例之间的比较,最小的t检验p值是0.67,最大的是0.99。主成分分析结果如图7:图7:主成分分析结果从中提取三个主成分:prin1=0. 31*a22+0.32*a23+0.41*a24+0.19*a25+0.53*a9 prin2=0. 11*a22+0.07*a23+0.03*a24-5.19*a25+0.11*a9+0.21*a10+0.11*a12 prin3=0. 35*a10+0.41*a11+0.56*a12+0.51*a13prin1反映用户对手机使用的不满意情况,prin2反映的是用户对电磁波的影响,prin3则主要反映用户对电信公司的不满意情况。按不满意度指数(prin1,prin2,prin3)进行分类,分类权重为三个变量对方差的贡献率,手机在车上没有收讯正常,但在郊外有问题的用户的类型如表9所示:项目第1群第2群第3群教育程度a29职业a32白领级上班族学生、党派a28年龄a2730-3940-49岁20以下民族闽南、原住客家、外省户籍地理所在地a33 (4,10,13)(5,11,1,3)对电磁辐射关心程度a25非常人数比例53%32%15%表9 手机在车上没有收讯正常,但在郊外有问题的用户的类型从上面的分析中,第一群人的特征非常明显,这类人年龄中年,事业成功,有财力进行野外旅游,因此会对郊外的手机使用较为敏感,是一类应该注意的群体。 3、客户流失模型的建立找到对台湾大哥大不满意的群体类型。因此,以该变量上是否满意为类别,问卷中第26-33题是对客户对手机健康的重视程度、心理能力、性别、年龄、教育程度、职业、政治信仰和地区五个变量进行的决策判断。 图8 建立模型的步骤图由于政治信仰两个题目均有90%的数据反映有中立倾向,又由于台湾政治信仰方面的信息了解不完善等原因。所以在分析满意度模型的时候,暂时将这两个变量去掉。由于数据是定性的数据。首先,这里,有25103条记录接受中华电信的服务。而对中华电信不满意的记录条数约占总记录的12%,占中华电信客户的68%,那么这部分人群有怎样的特征。在抽样方法上,选择重抽样的,它的基本原理是少数全抽,多数的少抽。7.5%, 10,5053图9 待分析的数据比例太少我们采用了类神经网络、逻辑斯回归和决策树模型,进行预测模型的建立,图中发现,身体健康、性别和教育程度三个变量表现比较显著,图10 SASEM所呈现出来的预测模型的累积增益图比较4、频繁更换手机的目标人群的客户细分模型:这类潜在客户定义为所有数据记录中,更换次数多于2次的客户,我们采用CART决策树建立模型的方法,建立如下模型: 图11 决策树预测模型结果精度较高深度为5的树状图如图12 :图12 树形图如果用深度为6的树型图分析,则可以得到如表10所示的七个类别特征:项目第1群第2群第3群第4群教育程度a29高中职中居多职业a32退休、家庭主妇上班族学生、白领级党派a28国民党、亲民党国民党、亲民党146年龄20-29岁、30-39岁、40-49岁20以下、30-39岁、40-49岁民族外省、原住客家、闽南户籍地理所在地a33南部(4,9,14)北部、中部、东部(2,3,10,11,12,17,19)北部居多2,11,17对电磁辐射关心程度a25非常不太关心政治主张民进、中立更换频繁率93.2%95.368.7%70%人数5656214187项目第5群第6群第7群教育程度a29高中及以上、大专大学及以上高中、大专以上职业a32主妇、白领白领、专业技术学生1347党派a28年龄20-29,40-49民族户籍地理所在地a337,13,16,20,224571568,15,18对电磁辐射关心程度a25不关心政治主张新党更换频繁率70.4%68.4%100%人数886716表10 频繁更换手机的客户细分从树形图中容易得到下面的分析结果:对手机更换次数来讲,表现显著的变量有:地理位置、职业、民族、教育程度、健康状况的影响以及党派观念六个变量,由于我们的目标在于更换手机较为频繁的人群。因此,容易我们找到下面三种特征的人群(重度更换人群):1、 地处台中和台南、无党派或对政治不感兴趣的家庭主妇或退休人员,为更换两次以上手机的高发人群,具体倾向估计为88.1% 。2、 原住民、外省籍,稍有政治倾向的学生、白领、公务员,有较高的对更换两次以上手机有较高的更换倾向。3、 台北一带学生、白领人员,是对电磁辐射较为敏感的人群,他们有较高的更换倾向。4、 拥护民进,以及保持中立的高雄等南方一带。5、 居住在台南、台中、云村、台东等地,学历一般,对政治不感兴趣的家庭主妇和白领人员。6、 居住在新竹、台中、台南,大学及以上,20-29,40-49岁的白领和高级技术人员。7、 居住在北部,拥护新党的人群。5、目前没有手机的潜在客户项目第1群第3群第3群教育程度a29高中、大专及以上职业a32军公教、民营企业白领上班族、专业技术人员医师、律劳力工作者包括技工党派a28年龄a2730-39、40-49,50-5940-49,50-59政治信仰a31主流党派4、5、6非主流党派主流党派民族a30本省闽南 外省籍客家、外省户籍地理所在地a33 人数比例61%12%27% 表11 目前没有手机的潜在客户类型从上面的分类中,发现88%的非手机用户的年龄在中年,政治信仰集中在主流党派,这个年龄群体值得注意。6、目标客户群的偏好分析 在这一部分,我们将重点研究不同品牌的手机和他们在手机功能上的满意度评价之间的关系,首先,我们在上一节分析的基础上,找到我们感兴趣的潜在客户群,比如对于第6组,女性小资类我们使用的工具是多维标度法,分别找到这类人群在手机各满意度上的平均得分(平均的计算按中位数),如表1。各个不同品牌的手机和他们在手机功能上的满意度评价:MOTOROLANOKIAERICSSONSAGENPANASONICACER功能21365 4收讯能力413265整体256134外型412365辐射3125641) 各变量评价总平均整合如下图:根据变量总平均计算距离矩阵如下:Proximity MatrixMOTOROLANOKIAERICSSONSAGENPANASONICACERMOTOROLA2.088

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论