银行客户满意度分析论.doc_第1页
银行客户满意度分析论.doc_第2页
银行客户满意度分析论.doc_第3页
银行客户满意度分析论.doc_第4页
银行客户满意度分析论.doc_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学宁波理工学院 银行服务客户满意度分析 综合评定成绩: 评委评语评委评语: 评委签名:评委签名: 浙江大学宁波理工学院数据挖掘竞赛论文报告 1 / 16 银行服务客户满意度分析银行服务客户满意度分析 摘要摘要: 随着全球银行业市场竞争的日趋激烈,提升客户的满意度,培养忠诚客户 已成为各大商业银行开拓市场,增加盈利的重要手段之一。通过数据挖掘技术 对客户满意度进行分析已成为研究热点。 桑坦德银行(Santander Bank)是欧洲第二大银行,他们提供了一个数据集 要求通过数据挖掘技术在早期就能识别对其服务不满意的客户,以便及时采取 合适的改进措施以提升客户的体验。 关键词:关键词: 数据挖掘技术 顾客满意度 PCA 主成分分析法 决策树 预测 浙江大学宁波理工学院数据挖掘竞赛论文报告 2 / 16 The thesis title Abstract: A brief description of the abstract Key words: The keyword extraction 浙江大学宁波理工学院数据挖掘竞赛论文报告 3 / 16 目 录 1.研究目标研究目标 .6 2.分析方法与过程分析方法与过程6 2.1. 总体流程.6 2.2. 具体步骤.6 2.3. 结果分析.7 3.结论结论.7 4.参考文献参考文献 .7 浙江大学宁波理工学院数据挖掘竞赛论文报告 4 / 16 1. 挖掘目标挖掘目标 (1)背景: 随着全球银行业市场竞争的日趋激烈,提升客户的满意度,培养忠诚客户 已成为各大商业银行开拓市场,增加盈利的重要手段之一。通过数据挖掘技术 对客户满意度进行分析已成为研究热点。 桑坦德银行(Santander Bank)是欧洲第二大银行,他们提供了一个数据集 要求通过数据挖掘技术在早期就能识别对其服务不满意的客户,以便及时采取 合适的改进措施以提升客户的体验。在本次竞赛中,参赛者需要通过分析匿名 用户的上百个特征来预测用户对其银行服务的满意程度(满意或不满意) 。在数 据集中 ID 表示客户的匿名 ID,TARGET 是需要预测的变量,1 表示不满意,0 表 示满意,剩余的列是已提取的跟客户满意度相关的观测指标(属性) ; 需求:需求: 1、 分析哪些特征或特征组合能较好的对银行服务满意程度进行分析; 2、 建立合适的银行服务客户满意度模型; 3、 预测在测试集中每个客户的满意程度(属于不满意客户的概率) ; 4、 建立合适的评价指标,验证你的预测结果。 说明:说明: 附件共分三个文件:Train.csv 中是训练数据,其中包含预测量 TARGET,Test.csv 是测试数据,只包含属性数据。Sample_submission.csv 是 需要与源代码一起上传的最后结果样式,要求输出对 Test.csv 的测试结果。 (2)目标: 本次数据挖掘建模要达到的目标是利用银行关于客户信息建立下来的数据, 采用数据挖掘技术,进行已知数据以及结果的相关分析测试找到规律建立模型, 之后利用测试数据带入模型进行预测得到你结果。 题目给出的大数据的属性以及维度都比较大,所以会有一些冗余和无效数 据,首先要先将高维大数据进行预处理,利用 weka 的元学习器,通过与 NativeBayes 方法一起使用,测试软件自带的属性选择方法,选择得到一些最 浙江大学宁波理工学院数据挖掘竞赛论文报告 5 / 16 具影响力的属性进行作为训练子集,并且运用进算法里面。这个方法可以将数 据进行降维,保留相应比较主要的影响因素属性。随后将数据和人属性一起放 入决策树分类算法,建立合理的模型,可以找到不同属性对目标决定影响程度, 建立完成比较合理的分类系统。随后将题目给出的测试数据放入模型,利用已 知的模型进行预测,可以推算出客户满意情况,银行可以对于这个预测结果对 相应用户可以提早对其采取相应措施。 2. 分析方法与过程分析方法与过程 2.1. 总体流程总体流程 2.1.12.1.1 问题问题 1 1 原始数据 算法分析 分析最大影响特征 2.1.22.1.2 问题问题 2 2、3 3、4 4 2.2. 具体步骤具体步骤 原始数据数据预处理建模&预测 0 结果&评估 数据筛选 浙江大学宁波理工学院数据挖掘竞赛论文报告 6 / 16 2.2.12.2.1 解问题解问题 1 1 将 excel 数据进行转化得 weka 可以识别的 csv 格式,利用 weka 的另存功 能得到 arff 格式,这个过程得到的数据还是不能直接进入决策树运用的。需要 打开 arff 格式的数据,将数据类别的一栏修改为银行需要的 0、1 满意度类别, 将数据加载计入决策树可以得到一个枝节繁茂的树,由此可以从这棵树的模型 之中得到影响因素中最大的特征或特征组合为根节点以及靠近根节点的几个特 征。 使用 wake 通过决策树 J48 算法 ,验证训练集,结果如图: 图 1 浙江大学宁波理工学院数据挖掘竞赛论文报告 7 / 16 图 2 2.2.2 解问题解问题 2、3、4 本用例主要包括如下步骤: 步骤步骤 1 1:数据筛选:数据筛选& &数据预处理数据预处理 从原始数据分析得到,题目给出的原始数据属性太多,并且都是未知属性, 此外表格的大部门数据值为 0,面对这个训练集,里面特征很多是和类标签有 关的,但里面存在噪声或者冗余。在这种情况下,需要一种特征降维的方法来 减少特征数,减少噪音和冗余,减少过度拟合的可能性。 所以我们利用 weka 深入研究自动属性选择,它允许指定属性选择方法和学 习算法,作为分类器的一部分。该分类器确保选择属性子集仅基于训练数据。 该算法的好处: 提高数据准确估计 在选择属性过程中避免了因为有监督的过滤器的使用而而导致减少后的 一部分数据用于模型测试的过程中,在选择属性中回导致已经看到了测试 浙江大学宁波理工学院数据挖掘竞赛论文报告 8 / 16 数据中要使用的属性,从而影响模型构建有偏倚的准确性估计。 提高属性选择效率 该方法是利用算法,让学习器对数据进行自己学习选择,提取重要影响 因素,这种软件自己学习选择得到的数据结果比手工选择相关属性具有更 加高的准确率。 我们想要利用上面的方法筛选得到需要的训练子集,这个训练子集对总体 的影响程度相关性比较大。利用这些对模型训练起较大作用的数据,从而建立 一个更科学的决策树模型,使得这个模型可以应用于测试数据,从而进行相关 的结果预测。最后我们得到的训练子集为如下 10 个: 图 3 图 4 步骤步骤 2 2:建模:建模& &预测预测 1、建模 将上面预处理得到的训练子集,打开分类面板,利用 weka 的分类算 浙江大学宁波理工学院数据挖掘竞赛论文报告 9 / 16 法决策树(J48) 。采取预剪枝的的优化方法,设定枝节的阈值为 10, 置信区间为 0.55 的决策树预设,进行分类处理。 该算法的原理是通过对属性的信息熵的计算,以信息增益量为度量进 行划分分裂结点,选取信息增益量最小的作为根节点,下面就重复上面的 步骤依次将节点分裂完全,最终知道该节点只有一个分裂方向或者该节点 的分裂枝节小于阈值,则停止分裂。 建模过程中,我们一决策目标 TARGET 为样本的类别,属性值具体如下: attributeattribute TARGETTARGET 00 , , 11 为了知道不同特征属性的银行客户最终满意程度,我们需要做的是建 立一个合理的决策树模型,筛选出需要的属性特征作为决策节点。其中决 策树的核心算法是 J48,他不是一个算法,而是一组算法,其中包括剪枝 与非剪枝 J48。可是,一个元组本身有很多属性,我们怎么知道首先要对 哪个属性进行判断,接下来要对哪个属性进行判断?这个时候算法原理是 利用了属性选择度量来解决这个问题的。 属性选择度量又称分裂规则,因为它们决定给定节点上的元组如何分 裂。属性选择度量提供了每个属性描述给定训练元组的秩评定,具有最好 度量得分的属性被选作给定元组的分裂属性。目前比较流行的属性选择度 量有-信息增益、增益率和 Gini 指标。 因为 J48 与 C4.5 相同,这里我们利用 C4.5 进行数据挖掘分析,该算 法主要包括有如下一个公式: (1)信息熵:pi 表示该节点上类别 i 的训练记录所占的比例; (2)划分信息熵:现在假定按照属性 A 划分 D 中的元组,且属性 A 将 D 划分成 v 个不同的类。在该划分之后,为了得到准确的分类还需要的信 息由下面的式子度量: 浙江大学宁波理工学院数据挖掘竞赛论文报告 10 / 16 (3)信息增益:信息增益定义为原来的信息需求(即仅基于类比例) 与新需求(即对 A 划分之后得到的)之间的差; (4)分裂信息: C4.5 引入属性的分裂信息来调节信息增益 一般说来,对于一个具有多个属性的元组,用一个属性就将它们完全 分开几乎不可能,否则的话,决策树的深度就只能是 2 了。从这里可以看 出,一旦选择一个属性 A,假设将元组分成了两个部分 A1 和 A2,由于 A1 和 A2 还可以用其它属性接着再分,所以又引出一个新的问题:接下来我们 要选择哪个属性来分类?对 D 中元组分类所需的期望信息是 Info(D) ,那 么同理,当我们通过 A 将 D 划分成 v 个子集 Dj(j=1,2,v)之后,我们要 对 Dj 的元组进行分类,需要的期望信息就是 Info(Dj),而一共有 v 个类, 所以对 v 个集合再分类,需要的信息就是公式(2)了。 但是,使用信息增益的话其实是有一个缺点,那就是它偏向于具有大 量值的属性。 正是基于此,信息增益率这样一个概念。信息增益率使用“分裂信息” 值将信息增益规范化,分类信息类似于 Info(D) (5)信息增益率:这里选择具有最大增益率的属性作为分裂属性 2、 预测 将题目给出的测试集带入训练得到的决策树模型,可以根据属性进 行进行分类决策,最终在输出的结果中看到在待预测的总的待分析实例 中有 49 个为不满意客户。 步骤步骤 3 3:结果:结果& &评估评估 1、结果 有训练子集得到的较大影响因素的训练子集,利用主要可替代全部变量 属性的 10 个替代属性和一个决策属性,在 J48 分类器下得到有 27 树节 浙江大学宁波理工学院数据挖掘竞赛论文报告 11 / 16 点,14 叶子节点的决策树模型,其准确率为 96.026 %,建立该模型 的大部分数据预测还是比较准确的。具体参数如下: = Run information = Scheme: weka.classifiers.trees.J48 -C 0.5 -M 10 Relation: train-weka.filters.unsupervised.attribute.Remove-R1- weka.filters.unsupervised.attribute.Remove-R1,3-88,90-138,140-147,149-164,166-182,184- 190,192-280,282-328,330-331,333-369 Instances: 76020 Attributes: 11 var15 num_var4 num_var30 num_var35 saldo_var5 saldo_var30 saldo_var42 num_meses_var5_ult3 saldo_medio_var5_hace2 saldo_medio_var5_ult3 TARGET Test mode: 10-fold cross-validation = Classifier model (full training set) = J48 pruned tree - saldo_var30 27 | | saldo_var30 36 | | | | saldo_var5 -220.92: 0 (10.0/4.0) | | saldo_var30 -184.44: 0 (10118.0/1601.0) saldo_var30 2.94 | saldo_medio_var5_ult3 1 | | | | var15 36 | | | | | num_meses_var5_ult3 2 | | | | | | | saldo_var30 18.99: 0 (10.0/1.0) | | | | | num_meses_var5_ult3 0 | | | | | | num_var4 2: 0 (153.0/31.0) | | saldo_var30 189.03: 0 (4350.0/79.0) | saldo_medio_var5_ult3 1.95: 0 (49736.0/957.0) Number of Leaves : 14 Size of the tree : 27 Time taken to build model: 1.54 seconds = Stratified cross-validation = = Summary = Correctly Classified Instances 72999 96.026 % Incorrectly Classified Instances 3021 3.974 % Kappa statistic 0.0039 Mean absolute error 0.073 Root mean squared error 0.1911 Relative absolute error 96.0326 % Root relative squared error 98.0271 % Coverage of cases (0.95 level) 98.1518 % Mean rel. region size (0.95 level) 59.3081 % Total Number of Instances 76020 = Detailed Accuracy By Class = TP Rate FP Rate Precision Recall F-Measure MCC ROC Area P

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论