【银行营销数据分析处理方法分析6000字】_第1页
【银行营销数据分析处理方法分析6000字】_第2页
【银行营销数据分析处理方法分析6000字】_第3页
【银行营销数据分析处理方法分析6000字】_第4页
【银行营销数据分析处理方法分析6000字】_第5页
已阅读5页,还剩8页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

银行营销数据分析处理方法分析综述目录TOC\o"1-3"\h\u24428银行营销数据分析处理方法分析综述 184621.1数据来源 1291761.2数据描述 238411.3数据分析 384391.4数据处理 12137031.4.1数据预处理 12231331.4.2缺失值填补 1245451.4.3转换哑变量 131.1数据来源本文所采用的数据来源于UCI网站,包含从2008年5月至2010年11月的葡萄牙某商业银行的直接营销活动所涉及到的客户信息和经济社会背景信息等。数据集共有41188条有效样本,包含21个属性,涉及客户个人信息、上一次营销活动记录、社会和经济背景以及其它信息共四个大方面,以期望利用这些信息对客户是否会通过电话营销渠道认购定期存款作出分类和预测。1.2数据描述对数据集各属性的数据类型分类,其取值共包含四种类别,分别为数值属性、分类属性、序数属性和二元属性。表3-1是对各变量的含义解释:表3-1变量解释变量名称变量含义数据类型age年龄数值属性job职业分类属性marital婚姻状况分类属性education受教育背景分类属性default信用情况二元属性housing住房贷款二元属性loan个人贷款二元属性contact通信类型分类属性month最后联系月份序数属性day_of_week最后联系日序数属性duration通话持续时间数值属性campaign本次营销活动中联系的次数数值属性pdays最后一次接触距离上一次接触的时间数值属性previous以前的营销活动中联系的次数数值属性poutcome上一次营销活动成功与否分类属性emp.var.rate就业变化率数值属性cons.price.idx消费者价格指数数值属性cons.conf.idx消费者信心指数数值属性euribor3m欧元银行同业拆借利率3个月利率数值属性nr.employed就业人数数值属性y客户是否认购了定期存款二元属性对表3-1中各变量还包含的其他信息作进一步的说明和解释:1.变量属性可分为四种,依次为:客户个人资料、关于营销活动的最后一次联系记录、社会和经济属性和其他。2.在社会和经济背景属性中,各数值类型指标的时间测度不等。就业变化率和就业人数为季度指标,消费者价格指数和消费者信心指数为月度指标,而欧元银行同业拆借利率3个月利率为每日指标,在结果解释时需要对这些时间单位特别注意。1.在变量“最后一次接触距离上一次接触的时间”中,数值“999”具有具体含义,它表示以前从未联系过客户的标记,并非为异常值,故不能盲目对其直接做异常值处理。4.变量“职业属性”共包含12种分类。分别是,“行政”、“蓝领”、“企业家”、“女佣”、“管理”、“退休”、“自营”、“服务”、“学生”、“技术人员”、“失业”和“未知”。5.变量“婚姻状况”包括4种分类:“离婚”、“已婚”、“单身”、“未知”,其中,“离婚”选项既包含离婚情况,同时也指丧偶的情况。6.变量“受教育背景”包含“小学四年级”、“小学毕业”、“初中毕业”、“高中毕业”、“文盲”、“职业教育”、“大学毕业”以及“未知”这8种类别。1.3数据分析1.1.1数值型变量为了对数值型变量的数值分布得到初步把握,首先对原数据集中所包含的所有数值型变量进行描述性统计分析,得到其均值、标准差、最值和中位数,整理为表格如下所示:

表3-2数值型变量描述性统计变量均值标准差最小值中位数最大值年龄40.0210.42173898通话持续时间258.29259.2801804918本次营销联系次数2.572.771256距离上一次接触的时间间隔962.48186.910999999过往营销的联系次数0.170.49007就业变化率0.081.57-1.41.11.4消费者价格指数91.580.5892.291.7594.77消费者信心指数-40.54.63-50.8-41.8-26.9欧元银行同业拆借利率1.621.730.634.865.05就业人数5167.0472.254961.651915228.1从表3-2中可以看到,以上10个表示不同含义的数值型变量中,除了“消费者信心指数”和“就业变化率”这两个变量存在负值,其余变量的数值均全部分布在正轴。其中,“消费者信心指数”的两个最值均为负数,而“就业变化率”的最大值为正数,最小值为负数。联系现实意义,两者的负值均可以进行解释:当消费者信心指数为负时,表示消费者对经济状况的评估和大规模购买的意欲不佳,意味着有较多的悲观者。而就业变化率为负,则表明就业率呈负增长变化趋势,此时就业形式较为严峻,社会经济情况也不容乐观。在表格中还可以注意到,“以前的营销活动中联系的次数”和“消费者价格指数”这两个变量有较小的标准差。说明两者数值分布均较集中,整体数值保持稳定,不同的客户样本在这个变量上的取值波动较小。为了进一步了解,本文利用各类可视化工具对不同数值型变量的基本情况作直观的展示。将通过饼图、热力图、箱图等各具长处的数据可视化图像,依照图像传达出的信息作出相应推测,并通过后续建模分类结果进行分析验证。联系实际生活中的场景,本文首先猜测定期存款产品是否能够营销成功的结果与年龄这一因素具有联系。因为我们了解到在去银行办理业务时,往往在营业部和网点办理业务的老年人比重较大。为消除量纲的影响,这里将该类样本中正项样本与该类样本的总数之比,设为营销成功率或认购成功率,用来探究不同年龄阶段的客户群体与营销成功率之间的关系。图3-1年龄与营销成功率的关系从图3-1中可以看出,在[10,40]这个年龄区间内,曲线呈下凹形态,说明在此区间内产品营销成功率是较低的。而当客户年龄层到40岁以上时,其成功率呈现出通过一个陡峭的绝对上升后保持平稳的趋势,这能够说明在年龄40岁以上的客户群体对定期存款产品的购买偏好是强烈的。通过分析可得,这类客户群体往往趋向于规避风险,而银行产品呈现出稳健性的风格,定期存款类型的产品的风险更是较小,可以满足其对收益可控性的要求,这与前面的推测是相符的。而70岁以上的成功率波动非常大,故推测是由于此类客户数量较小、样本区间不连续所造成的。接下来对关于上次项目的营销联系的信息进行分析:由现实经验,理财经理与客户的联系频率、客户的购买经历等会对客户认购的心理和体验感产生影响。客户往往更愿意在自己熟识的理财经理或客户认为可靠的银行购买产品,而对自己不了解的产品或营销人员的说辞保持存疑的态度。正是由于这一道心理防线,大大增加营销的难度系数。这里选择“营销通话持续时间”和“以前营销活动中联系的次数”两个变量,绘制变量与期望目标间的分布关系箱线图,如下所示:图3-2、图3-3通话持续时间、过去营销活动联系次数与目标变量的关系从图3-2可以看出,“通话持续时间”在客户是否认购营销产品上有非常明显的区分。未能成功认购的客户的通话时间的箱接近于零秒,而成功认购产品的客户的通话时间显然是不为零的,这可以推测成功认购产品的客户与通话时间具有较强联系。现实中当客户在接到营销电话后,确定认购产品之前,首先需要对产品得到足够了解,才会依照自身情况作出是否认购的决策。而部分对电话营销持较为反感态度的客户往往在接听电话后了解到其致电目的为营销商品时,会果断选择直接挂断电话。这里的信息与该项数据呈现出的分布趋势是一致的。而在“以前营销的活动中联系的次数”这个变量上,能否营销成功也有非常显著的区别:图3-3中显示,不能使得客户成功认购时的联系次数分布贴近于零,而能使客户成功认购时的过去练习次数分布在零次以上会更多。由此可以猜测,当某个客户首次收到营销电话时,其成功率是较低的。而当客户曾经购买过该银行的产品后,若得到了良好的购买或服务体验,那么这类客户对在此银行继续了解和购买其他产品的态度会更积极,更愿意去尝试该银行的其他类型产品。与之相应的,营销成功率也就会随之上升。图3-4—图3-7社会经济背景相关变量与目标变量的关系在社会和经济背景的属性上,是否能够营销成功也有显著差别的表现。联系图3-4至图3-7中的信息,通过对比可以推测:当就业人数更多,欧元银行同业拆借利率3个月利率越高,消费者价格指数和消费者信心指数更高的时候,客户会更愿意去认购定期存款,营销成功率会更高。而当就业人数更少,就业形势越差,欧元银行同业拆借利率3个月利率更低,消费者价格指数和消费者信心指数更低的时候,客户表现出消极的消费态度,往往对认购定期存款的积极性也就更差,营销效果相应越差,成功率会下降。通过上述推测,这些变量的变化方向存在一些相似或相反的趋势。本文猜测某些数值型变量之间可能存在一定相关性,所以对各数值变量间的相关性进行可视化分析,欲通过热力图对其进行非常直观的展示:图3-8数值型变量相关性热力图从图3-8中可以看到,就业变化率和欧元银行同业拆借利率3个月利率间有非常强的正相关性,就业人数和就业变化率、欧元银行同业拆借利率3个月利率两个变量间也存在较强的正相关性。与实际情况相联系,能够联想到生活中经济形式和就业形式之间的同向变化关系,此条推测即可以得到验证。而以前的营销活动中联系的次数这一变量,与最后一次接触距离上一次接触的时间、就业变化率、欧元银行同业拆借利率3个月利率、就业人数这几个变量均存在一定的负相关性。联系实际情况,不难发现,这一相关性也是符合逻辑的:过去和客户联系次数越多,联系越频繁,则最近一次联系的间隔时间就会越短。1.1.2分类型变量本文继续对另一大类型的变量——分类型变量的分布信息进行探究。容易知道,本文所使用数据集的期望目标即是一个分类型变量。当对原数据集中客户各类型信息所对应的期望目标正负比例进行统计整理时,可以发现,其二分类期望目标的正负项数量分别为4640和26548,比例约为0.11:0.89,这里负类样本(否)的数量远大于正类样本(是)的数量,由此可以得出:此银行直接营销数据集是一个不平衡数据集。表3-3目标变量正负项分布目标变量计数占比正项46400.11负项265480.89合计311881.00训练数据不平衡的现象在实际中十分常见:在欺诈交易识别中,绝大部分交易都是正常进行的,只有极少部分的交易属于欺诈交易。在客户流失问题中,绝大部分的客户是会保持原有选择,即作为非流失对象,只有极少数部分的客户不会再继续保持原选择,即称作流失对象。类似数值型变量的做法,这里也对一些可能对目标变量取值产生影响的分类型变量作探究。从实际经验中考虑,由于不同职业的客户收入水平及其消费偏好是呈现出显著区别的,故本文推测职业对客户是否会认购定期存款类产品这一决策可能起着重要作用,于是首先对职业因素在目标变量上的影响做可视化分析:图3-9、图3-10职业与营销结果的关系从图3-9和图3-10中可以看到,当考虑认购成功的情况时,客户职业占比最高的是行政管理人员,其次是技术人员和蓝领。而在考虑认购失败的情况时,职业降序排名前三也是如此。为进一步探究职业与营销结果之间的关系,想要得到更加直接清晰的结论,本文这里同样进行消除量纲的处理,利用各职业中营销成功的样本数量与样本中该职业的总人数的比值,作为样本里各职业的认购成功率,并进行整理统计,结果如下所示:图3-11职业与营销成功率的关系容易看出,营销成功率最高的为学生群体,其成功率可以达到31%左右,其次是退休人员,成功率约为25%,随后是行政管理和无业人员,这四类职业的客户群体的认购成功率均高于全体客户的平均成功率。由此可得,当客户职业为学生、退休人员、行政管理人员和无业人员时,会更愿意认购定期存款产品,银行在今后的定期存款营销活动中应重点关注到在职业为这四类的客户。接下来对客户婚姻状况与是否对定期存款产品的购买有偏好进行探究。本文推测,已婚客户由于家庭限制,风险承受能力稍弱,其理财选择可能倾向于收益稳定风险较低的产品。这里同样使用消除量纲后的成功率作为评判指标:图3-12婚姻状况与认购成功率的关系图3-12中数值表示所有样本中处于当前婚姻状况的客户的认购成功比例。可以看出,婚姻状况为单身和未知的客户的认购成功率分别为14%和15%,略高于结婚和离婚客户的10%。但由于图中四种颜色比例差别较小,故仅从这里的可视化分析不能够得出婚姻状况可以对客户认购行为产生影响的结论。图3-13受教育程度与认购成功率的关系在图3-13受教育程度与认购成功率的关系条形图中有一类成功率明显很高的客户群体类型,查阅属性可以知道这是受教育程度为文盲类型的客户群体,这里他们对定期存款的认购偏好较为明显。其次是受教育程度未知和大学文凭的客户。本文推测,这是由于文盲类型的客户受教育程度较低,故其理财方式会偏向于风险较低稳定收益的产品。而银行可靠性高,在传统客户中的信誉口碑也较为优秀,所以银行定期存款类产品是此类客户的首选。最后,本文还考虑到有部分客户可能参与了上一次的营销活动,经过对其推销的产品认购后的个人亲身体验和消费感受,可能会对下一次是否选择认购产生直接且主观的影响。图3-14上次活动成功与否与认购成功率的关系从图3-14中可以明显看出,上一次成功认购的客户在下一次营销活动中继续选择认购的可能性非常大,其成功率高达65%。而上一次营销活动未能参与过的客户的认购成功率最低,甚至低于上一次营销失败的客户。这说明客户在经过亲身了解和感受过该银行的产品之后,会更愿意相信该银行的其它产品,其尝试的积极性也更高。而要让一位从来没有参与过该银行的营销活动的客户选择认购其产品,是比较困难的。由此也从侧面证实,银行对老客户的维系是非常重要且必要的。1.4数据处理1.4.1数据预处理在本数据集的各变量分析中,本文关注到通话持续时间属性对期望输出目标客户是否会认购定期存款存在很大影响。例如,通话持续时间为0,那么客户不会认购营销的定期存款,而当通话持续时间不为0,则有营销成功才存在可能性,这其中可能存在比较强烈的因果关系因此,由于本文旨在建立和对比各模型在银行营销产品方面的预测效果,通过客户各方面的信息来预测其认购行为。所以,为了保证模型的预测有效性,应当对此变量进行删除后,再进行建模。1.4.2缺失值填补在对数据进行描述性分析时不难发现,数据集不直接存在有缺失值的情况,但却存在许多未知值,这些未知值应当被视作缺失值进

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论