数据挖掘外文翻译_第1页
数据挖掘外文翻译_第2页
数据挖掘外文翻译_第3页
数据挖掘外文翻译_第4页
数据挖掘外文翻译_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

济南大学毕业论文外文资料翻译 Applied intelligence, 2005, 22,47-60. 一种用于零售银行客户流失分析的数据挖掘方法作者:胡晓华作者单位:美国费城卓克索大学信息科学学院摘 要 在金融服务业中解除管制,和新技术的广泛运用在金融市场上增加了竞争优势。每一个金融服务公司的经营策略的关键是保留现有客户,和挖掘新的潜在客户。数据挖掘技术在这些方面发挥了重要的作用。在本文中,我们采用数据挖掘方法对零售银行客户流失进行分析。我们讨论了具有挑战性的问题,如倾向性数据、数据按时序展开、字段遗漏检测等,以及一项零售银行损失分析数据挖掘任务的步骤。我们使用枚举法作为损失分析的适当方法,用枚举法比较了决策树,选择条件下的贝叶斯网络,神经网络和上述分类的集成的数据挖掘模型。一些有趣的调查结果被报道。而我们的研究结果表明,数据挖掘技术在零售业银行中的有效性。关键词 数据挖掘 分类方法 损失分析1. 简介在金融服务业中解除管制,和新技术的广泛运用在金融市场上增加了竞争优势。每一个金融服务公司经营策略的关键是保留现有客户,和挖掘新的潜在客户。数据挖掘技术在这些方面中发挥了重要的作用。数据挖掘是一个结合商业知识,机器学习方法,工具和大量相关的准确信息的反复过程,使隐藏在组织中的企业数据的非直观见解被发现。这个技术可以改善现有的进程,发现趋势和帮助制定公司的客户和员工的关系政策。在金融领域,数据挖掘技术已成功地被应用。谁可能成为下两个月的流失客户?谁可能变成你的盈利客户?你的盈利客户经济行为是什么?什么产品的不同部分可能被购买?不同的群体的价值观是什么?不同部分的特征是什么和每个部分在个人利益中扮演的角色是什么?在本论文中,我们关注的是应用数据挖掘技术来帮助分析零售银行损失分析。损失分析的目的是确定一组高流失率的客户,然后公司可以控制市场活动来改变所需方向的行为(改变他们的行为,降低流失率)。在直接营销活动的数据挖掘中,每一个目标客户是无利可图的,无效的,这个概念很容易被理解。因为有限的营销预算和员工,所以数据挖掘模型过去常常被用来排列客户组成,且只有一定比例的客户通过邮件,电话等联系。如果建立更完善的数据挖掘模型和定义正确的目标,该公司便就能够接触潜在的高密度客户流失的集中群体。下面描述了银行流失分析的数据挖掘过程的步骤:1.商业问题的定义:在客户保留的领域中商业问题的明确说明2.数据审查和初步筛选3.在现有的数据方面问题的说明4.数据集成,编目和格式化5.数据预处理:(a)数据清洗,数据展开和定义时间敏感度的变量定义,定义目标变量,(b)统计分析,(C)敏感度分析,(d)漏泄检测,(e)特征选择6.通过分类模型建立数据模型:决策树,神经网络,促进朴素贝叶斯网络,自然选择条件下的贝叶斯网络,分类器的集成7.结果表达与分析:用数据挖掘模型来预测当前用户中可能的流失客户8.调度展示:定义可能成为流失客户的对象(称为正式)这篇论文描述了一种用来分析零售银行客户流失的数据挖掘方法。目的是确认规则、趋向、模式和能够被作为潜在的流失指标的群体和提前确定潜在流失客户,因此银行能够采取积极主动地预防措施来降低流失指数。本论文安排如下:首先我们在第二部分定义客户保留区域上的问题和商业问题的说明,接着我们在第三部分讨论数据选择、数据审查和初步筛选,然后是数据集成、数据目录的编辑和数据格式化、数据演变和时间敏感度变量的定义。接着我们讨论敏感度分析、遗漏侦测和特征选择。在第四部分我们通过决策树,神经网络和贝叶斯网络和自然选择条件下的贝叶斯网络和上述四种分类器的集成来描述数据模型。在第五部分,我们主要讨论调查结果、字段检测结果。最后,我们在第六部分得出结论。2. 商业问题2.1. 主要问题的解释我们的客户是世界十大零售银行之一,这些银行根据不同的客户提供各种种类的金融产品。本论文中讨论的产品属于一项特定的贷款服务。目前超过750,000的客户正在使用这项仍有150亿美元的资金未解决的产品,这项产品已经有了显著的的高流失率。由于高流失率,税收受到了挑战:每个月呼叫中心会受到超过4500个要求注销银行账户的电话;另外接近1200条记录属于缓慢流失(连续超过12个月以上处于不平衡状态),同时非法账户对于产品收益率构成了一系列的挑战,由于指数、贷款限额以及佣金的影响,每月零售银行的流失指数总计达到5700。另外,很多客户只在优惠价时才使用该产品,过期后便作废。每一个账户都有客户管理项目成本和客户获得成本,邮递需要在每个客户上花1美元,电话营销需要在每个客户上花5美元。而刺激成本(比如降低利率来留住客户)能够被考虑,主要取决于你提供了什么样的产品。我们的客户没有主动性的或者反应性。在大多数情况下,尽管有人认为价格下降并不是仅有的或者最好的策略,但是这还是一种主要的方法。我们以上描述的情况已经使得我们客户的商务和技术部门的管理者们开始审视采取相关知识为基础通过一系列有效的客户分类、客户概况了解、数据挖掘和信用积分的结合来保留更多的客户以达到收益最大化的可能性。在下文中,我们将描述首次使用这个计划的结果。2.2. 问题定义在这个部分描述了在基于现有的数据,时间周期以及目标字段如何理解和定义问题的步骤。在此步骤上,所有数据挖掘中,最冗长和最费力的部分是数据选择、数据准备、数据结构1, 6, 7。在生产线上有五种流失因素:缓慢流失客户:指到冻结帐户时才还款的客户。自主性流失因素有多种行为表现而在此处可以被全面地理解。快速流失客户:指快速还款后立即通过电话或写信销户的客户。交叉销售:指的是可能购买现有贷款客户提供的诸如人生保险之类的替代产品的客户。不断增加的联系被认为是减少客户流失的一种手段。高风险:可能变成高风险的客户。客户挖掘:可能放弃我们的产品而选择我们竞争对手产品的客户。这种情况不是单一的个例:一个客户能够在贷款周期中显示这类情况的子集。此时,他/她能够通过有效的被刺激手段和策略影响来改变他们的行为。鉴于此,这些客户的态度可以被量化表现在状态图表1上。表1表达了客户管理的优势以及预测问题。1.确定缓慢客户流失。2.交叉销售产品。3.确定高风险客户。4.确定客户可能被竞争对手挖掘。如上图中所示,一个客户通过他的行为,能够按组别属性在每个状态被定义时,在活跃和流失之间活动。基础上图,我们决定聚焦到两个流失问题上:(1)利用过去连续4个月所开的账户为数据,在提前60天的情况下,预测特定客户是否会自主通过电话或写信注销她/他的账户。(2)利用过去连续4个月所开的账户为数据,在提前60天情况下,预测一个特定客户是否可能会将他的账户转移到竞争对手手上。而账户不一定仍保持开通。模型的发展和随后的活动焦点将会聚集到提高产品线业务及改善该项产品客户维持度和客户活跃度的问题上:问题1:保留现有客户为了划分不同客户层这个问题需要如下规则来制定模型:在连续30-60天的基础上建立一个能够预测损失的客户模型。识别出最具盈利可能性/最值得拥有的客户群体的特征以便开发一种好的策略使他们对我们的持续支持得到保证以及获得更多拥有同样优质客户特征的客户。问题2:客户激励政策区分出从潜在客户和非营利性客户变成盈利客户的群体的特征。一旦找到了这些因素,我们能借助这些因素来发展风险、维护和机会等各项策略来促成客户可盈利化的成功转变。3. 数据选择像所有的数据挖掘活动一样,正确的数量和超过重要时间段里的相关数据的区分对于模型的进展是很关键的1, 8, 9。鉴于此,且与这个领域的专家合作,我们采集了经过识别和初步审查后所需的数据源。表1概括了确定的数据源和它们的预期功能。表 一 :描述确定的(潜在的)相关数据来源。图表描述了数据挖掘来源以及它们的概述以及相关的流失模型。DDS数据仓库:信用卡数据仓库包含约200个产品的具体字段。起源于不同的点(写入数据,外部数据库,分数等),数据根据一系列可操作的规则(即在不变化字段的情况下减小了字段的大小)进行压缩。这个仓库包含6个月的数据,且在每月的基础上交替循环。在当前的情况下,这个周期包含4个月的历史信息。信用卡数据仓库是保留数据建模问题的主要来源。第三方数据:一组相关的人口和信用局的信息。数据可从外部供应商得到,例如,丹麦公司。连接DDS数据库的数据提供额外的预测数据。分割文件:基于客户的分割的方案设立账户相关的分割值,结合风险,盈利和外部潜在能力。该段数据结合DDS数据提取与模型结果覆盖。支付数据库:数据库存储了所有的进程。数据库能够分类检查。这样的数据库允许集允许日期的检测,平衡和开户者和用来检查识别客户挖掘账户。3.1数据预处理目标数据预处理包括一系列必要活动来创建一个压缩文件,如下所示:反映数据随时间而变化。识别和移除统计中不重要的字段。定义与介绍“目标”字段。允许第二领域的预处理和统计分析,这个将通过三个步骤来完成,在下面的章节详细介绍。通过时间顺序来展开。目标值的定义。第一阶段的统计分析。3.1.1. 确定数据周期在给定有效数据以及时间周期后,我们决定选取一项状态为“开通”的账户的记录的子集开始数据选择,例子是选取周期在12/20013/2002间的合法客户。另外为了对比,我们还获取在11/2001之后状态是“保密”或者是“注销”的账户数据。这将使得我们能够检测出流失客户的特征以及能够形成自愿型流失客户。基于这个考虑,45814条随机记录被选择,每一项代表一个账户,其中42547个是公开的,剩下的3267个是自2001年以来是保密的。获得的数据被放入一个临时的表格中,连接到所有产生的包含每个账户、账户的状态、每月的和过去四个月的相关表格。这意味着我们能够重新建立从2001年11月开始的所有字段而不仅仅是2002年3月的数据。3.1.2. 通过时间顺序展开在数据源中的每个账户中每月都有一列。在操作中,历史客户数据被划分为流失客户和保留客户。为了数据节省空间,每个月我们都核对先前一个月的数据。如果没有变化,我们就不增加列,有效开始日期的值保持和最后一次修改时的数据(即新的一列被插入)保持一致。如果属性发生了改变,一个新的有效起始日期列就会被相应的增加。因此一些账户记录会少于标准月的数量,因为有些月份没有活动被记录下来。如,如果一个账户直到2001年12月都没有变化,最后一列将会成为当前月的一列,被用来推算当前的这个月的结论。在理解这些的基础后,创建客户流失模型。鉴于数据文件中的数据记录是每月每户一列,我们需要使用过去四个月的历史数据来建立一个预测模型。为了表示数据随时间和季节性的行为而变化,我们需把过去独立的四个月的数据结合在一个数据文件里,而在数据文件里每个账户有一个包含过去四个月金融信息的列。使用的数据格式,要求隐性数据成为显形,而时序被分为单独的字段。为了完成这一点,我们将变量分成静态变量和时间敏感度的变量1。静态变量不随时间而变化。例子如下:账号,母姓,住址和爱好。时间敏感值每月而变化且为了找到季节性/时间相关性行为保留在过去4个月的不同值。时间敏感值被分配到一个时间前缀(TO意味着最近一个月,T1意味着前二个月,T2意味着三个月前,T3意味着四个月前)。因此,例如,在2001年12月到2002年3月当前账户余额反映在表二中定义。鉴于此,下一个任务是包含了在“干净”的格式化文件生成额外的文件以及将它们添加到结果文件。时间序列数据显示于表三,数据值设置从250增加到870。表二:以四个月为周期的时间敏感度DDS数据库。周期与命名:上个月(2002.3),TO当前账户余额;一个月前(2002.2),T1当前账户余额;二个月前(2002.1),T2当前账户余额;三个月前(2001.12),T3当前账户余额。表三:按时间顺序展开的数据集。3.1.3. 目标值的定义像很多真实的数据挖掘应用程序一样,通常在数据仓库中是不会直接定义数据挖掘目标字段的,因此,定义合适的商业领域研究的目标字段也是数据挖掘工作的一部分。在商业领域专家的帮助下,我们在一些存在的数据中定义数据目标值,并籍此定义目标变量的值,换言之,变量能够测量流失客户,因此定义会计账户中价值分析(1为客户流失;0为保留客户)。定义如下:1. 状态代码 (CRD ST CD)2. 状态更改日期 (CRD STATUS CHANGEDATE)3. 注销原因代码 (CRD CLS REA CD)公式定义为:CRD ST CD=C(注销);状态更改日期在2001年12月和2002年3月31日之间;CRD CLS REA CD(注销原因代码)在0 1 23 25 26 28 29 30 35 36 40 41 42 80 81 82 83 84 97 98 31 32 33 34之间。自主客户流失的原因代码是(客户需求):“0 1 23 25 26 28 29 30 35 36 40 41 42”,自主客户流失的原因代码(客户需求)的相关价格是:“31 32 33 34”。根据定义,在四个月内所有的客户的平均折损率为2.2%。3.1.4. 第一步骤:数据统计分析在时序数据集中的870个字段中,一个重要的部分是常量、空字段。在早期阶段中,把他们过滤掉能大大减少数据挖掘的时间以及提高模型准确性。据统计分析,序列中的第一步,是为了获得对数据质量的初步理解:未知字段的数量,相关的频率,早期的指示,平均值和目标数据的分布。在最初的字段分辨中,一个单值在所有记录中出现超过99.95%或者为空将被认为是无价值的,然后从属性集中移除字段。这些字段将在数据和源数据文件中被移除,来确保从建模步骤中被移除,因此,减少了计算的时间。3.2. 数据预模型化数据预模型化阶段是下一步模型文件生成的关键步骤,这一步有三个主要阶段构成:(1)对低关联度过滤字段的敏感度分析以此来确定字段目标和检测数据是否遗漏。(2)字段简练以此来增加高关联度字段成为更紧凑的文件。(3)所有平衡和不平衡文件的生成设置了对测试的整枝、测试、对于结果的迭代证明以及模型的精炼。3.2.1. 字段敏感度分析和字段修减字段敏感度分析用来测试每一个属性对于模型处理的“促进作用”。我们使用一个粗略集的字段选择算法4。我们的算法为每一个字段生成一个价值,考虑到字段之间的联系/相关性,从全部字段里选出字段的最小子集。而从另一方面来说,如果一个字段的值过高,它将被认为是潜在的遗漏10。遗漏是目标“遗漏”信息的字段。例如,一个有账户注销价值的字段会使客户流失信息遗漏,也会混乱模型效果。我们发现当一些流失立即被发现时,很多时候他们被包含在与目标关系不明显的商业规则里。因此,确立一个字段是否是遗漏点的最好方法是讨论相似情况,对数据图表和对商业问题的调查。一些我们从数据集中区分出来的遗漏的字段是破产数值、风险等级、破产理由代码、使用卡的时间次数、卖的次数、关闭账户里原因代码等等。在很多循环中,字段名和字段值是不会经常直接表现出他们功能,而是需要解释。从另一方面来说,预测失误的字段最后组成了模型的潜力预测。因此,字段的值是恒定的(即标准零误差),而优点的值就是零。为了提高数据发掘的速度和产生更完美的模型,这些字段将被移除。在流失字段分析后,我们将对数据集运用到新的特征选择算法4,来鉴定出与目标特征字段关联度最小的子集。比如,通过努力,数据集中的665个属性的初始集在加工后减少到了242个值。3.2.2. 产生文件集我们的样本文件中包含45814个记录,而每月的流失指数是0.55%,过去四个月累积的流失指数大概是在2.2%。为了在这样一个高度不对称的数据集中建立一个好的模型,我们需要来建立一个更加平衡的流失客户和保留客户在数据集中的描述。理由是在原始数据集中,我们有相当高的保留客户比例和极少的流失客户比例(97.8% VS 2.2%),而一个学术模型能够通过经常预测每个客户是否是未流失客户来达到较高的准确性。显然,这样一个高准确率的模型对流失分析是没什么用的10, 11。我们建立了一个包含938个流失客户的随机样本文件,然后我们在其中增加了足够多的未流失客户来使得我们的数据集达到两方50%-50%(客户流失VS保留客户)的比例,然后文件将被划分为平衡的文件、行列文件和测试文件就像原始文件一样(换言之,是不平衡文件),用来说明注释文件。平衡的一系列文件中50%的记录包含目标值,换言之VA ACCTS=1。而平衡测试、原始测试、原始旁释文件组成了大约每个目标的1/6。在前面3.1.3的定义中,原始文件的目标表现出所有被审查文件的2.2%。这些文件被数据挖掘用来下一步的统计分析,数据挖掘和聚类分析工作。4. 数据挖掘模型建立步骤4.1. 评价准则:枚举法就像 4,5,11,12中所说的那样,预测精度被用来评估挖掘算法,这不是一个合适的评价准则,例如流失分析。主要的理由如下:1.分类错误(错误的正面和错误的负面)被平等对待的,但是在流失分析时错误的正面和错误的负面因素会产生不同的影响和后果,因此他们需要被区别对待。2.准确度被用来衡量所学算法在数据集上的表现,流失分析的目的不是预测每个客户的行为,而是找到流失几率很大的客户的一个好的子集。流失分析是高度不平衡而且高噪音的,因此很难建立一个准确的模型。在流失分析中,我们的目的是使用历史信息来建立一个有效的数据挖掘模型,然后用使用数据挖掘模型来预测可能性最大的流失客户,接下来采取预先措施来防止客户流失。因此,学术算法需要被划分入一个可信赖的度量,如:一个可能的评估因素和确定的因素(也被称为流失分析的分值)。分值能使得我们为推广中的市场和目标市场的客户来排序。替代预测准确率的枚举法可被用来作为评价标准。像9中所指出的那样,如果数据挖掘模型足够好,我们应该在列表顶端找到一个高集中度的流失客户群体,这个更高的客户流失比例可以用枚举法衡量,来查看基于这个模型的目标比随机的有多好。总的来说,枚举法能够通过累积性的目标完成到p%来被计算。如,分类表中前10%的数据可能包含了35%的客户流失,这个模型枚举了35/10=3.5的例子。一个枚举反映了测试中在测试样本被分级后测试响应者的重新划分。学术算法将所有从最有可能回应到最不可能回应的测试样本排位后,我们把已经排序的列表分为一些十分位数(前10%在经验中是最精良的部分:我们在每个百分比中用枚举法测试),接着我们观察最初回应者在这些十分位数里如何分布。枚举法在模型得分排序表的基础上衡量目标子集已经增加的准确性。使用过去几个月收集的金融服务的信息,我们的任务是建立一个为了预测接下来两个月客户类并且把它应用到所有客户上。预测模型在基于流失的可能性来排列客户。在这部分中显示,我们的客户流失率是低的(2.2%),精确预测所有客户是不可能或者是很难的,且对于客户流失分析来说通常这样做在实践中没有必要,联系小部分客户并希望这部分客户拥有比随机样本高的集中流失比率要好得多。4.2. 基于不同算法的数据挖掘模型我们对于最大字段模型感兴趣。在我们的分析中,一个好的模型对产生客户流失的模型列表的顶端那些可能成为流失客户的重点关注。我们需要使用的算法是为了排列测试样而产生数值。算法,例如:自然条件下的贝叶斯,决策树,神经网络来满足我们的需求。我们需要使用四种不同的数据挖掘算法来进行分析,并对上述4种算法的分类进行集成4:1.促进朴素贝叶斯网络(BNB)2.神经网络(人工神经网络预测:一种商业性神经网络,来自人工神经网络公司)3.决策树4.自然选择条件下的贝叶斯(SNB)5.对上诉四种分类的集成44.2. 1促进自然条件下的贝叶斯网络(BNB)朴素贝叶斯网络数据库挖掘方法结合了促进和朴素贝叶斯的学习6,13-15。促进是一种连续两个阶段的一般算法,这种算法改进了两类学习算法的准确性。在第一阶段中,所有的测试样本权重相同且两类学习算法用来获得一个分类器。在第二阶段,第一分类器中错误分类的测试样本变得权重不同。在第三阶段中,第二分类器中的错误分类的样本也变得权重不同,第三分类器形成。促进过程可以重复所需的步骤。应用于朴素贝叶斯的学习,通常进行5-20个步骤是有益的,这里所描述的结果只使用了五个步骤。像其他软件一样,朴素贝叶斯网络确定了一个目标样本的哪些属性石最具预测价值的。不像大多数其它软件,朴素贝叶斯的值(或数值范围)的属性石最预测性的。例如,朴素贝叶斯自动识别T1的CRD账目格式化的属性值2是一个重要预测。根据所提供的资料,此值2表示“账户一直活跃但目前不活跃”。也不想其他软件,朴素贝叶斯网络评估这个已经报道的预测的统计意义。一个预测的意义取决于它的字段(即预期效益)和它的覆盖率(即一些应用例子)。朴素贝叶斯网络因为地覆盖率和低字段,所以可能被认为是虚假的预测。朴素贝叶斯网络的字段值在图解2中显示。Figure 2. Boosted Nave Bayesian model lift chart.图解2:枚举柱状图:促进贝叶斯模型的图解。横轴为账户百分比,纵轴为流失客户数量。结果如上图所示。利益的可变因素自然条件下的贝叶斯网络发现14个最重要的正向预测目标类。前4个属性将在下面按次序被展开。每一个预测的属性都有确定值(或数值范围)。值“Z”在原始数据集意味着零。“计数”是与目标相对的非目标值的属性。“z值”是一种重要的统计措施。属性84 T0 经常项目差额经常项目差额带来数百美分数值在 1840.52和1277.62之间:计数209 / 86,比值2.43418,z数为: 7.17529。属性119 T1_CRD帐户格式化帐户记录格式化,值是:1 =不活跃的帐户,2 =账户一直活跃但目前不活跃,3 =当前活跃帐户,4 =拖欠帐款 值在1.9和2.2之间,计数281154,概率为1.82764,z数为6.10613。属性56 T0非转换系数的最小应付总额Z值这个数字相当于在最后陈述的最低付款。这是用在与累计拖欠和周期数偏差允许时自动调整。计数为353 / 214,比值1.65221,z数为 5.8568。属性40 T0非转换系数的订货单的平衡 它出现在持卡人最新声明中的现行的最后平衡中,字段没有被调整所影响。 值在1840.52和1277.62之间:计数189 / 98,比值1.93171,z数为 5.38532。4.2.2. 决策树决策树方法是一个建立规则的集合的预测模型 10,16,17 。决策树方法的优势是:规则容易被理解,且有助于发现潜在的业务流程。决策树方法的劣势是:决策树模型通常不像其他模型一样运算。我们已经开发出一种决策树专有的算法用来解决“枚举”问题 10 ,例如:我们要尽量减少前25%的预测数据。这是一种常见的问题,例如:客户流失和目标邮件。决策树的柱状图如图3所示。一些规则如下:规则8:(枚举值=5.347,1-保险值=0.029)T0 一个月重载的转换系数 2T3 客户需求日 = A1-等级1 0.889规则 12: (枚举值= 4.102, 1-保险值 = 0.162)T0 当前账目余额转换系数 407.06T2 日期最后结算单转换系数 1998.055T3客户需求日 = A2-等级 1 0.859规则 14: (枚举值 = 3.927, 1-保险值 = 0.318)T2 人工神经网络电荷研制试验转换系数 1998.164T0 未购买网络的转换系数 0T0当前账目余额转换系数 407.06T3 客户需求日= A1- 等级 1 0.812规则9: (枚举值 = 3.868, 1-保险值 = 0.385)T0 当前账户余额转换系数 407.06T3 自上而下抽样控制寄存转换系数 606T3 客户需求日= A3T3 是否使用计算机会计信息处理转换系数 3 9260-等级 1 0.889Figure 3. Decision tree model lift chart图解3:决策树模型柱状图。红色为:决策树;白色为:没有模型。横轴为账户百分比,纵轴为流失客户数量。上图为决策树结果。4.2.3. 神经网络神经网络对于模型建立来说是一种完善的建模方法7,14,18。这种方法的优势是:神经网络模型可能成为最精确的预测模型。神经网络模型的劣势是:它的输出可能很难被理解。为了我们的调查,我们使用了一个商业软件包(人工神经网络软件): 对于字段选择适当的输入转移功能选择变量自己的数据模型 建立“有建设性”的神经网络模型图解4中枚举了神经网络柱状图。Figure 4. Neural net model lift chart.图解四:神经网络模型柱状图 。图示为每个百分比账户中,客户流失的数量。结果如上图所示。4.2.4. 自然选择下的朴素贝叶斯网络朴素贝叶斯分类器是一种概率预测模型,假设所有的属性都是有条件的相互独立的目标变量19,即在每个分类器中的属性是没有关系的。朴素贝叶斯分类器是简单的,内在的强大的噪音,并能很好地进行扩展功能,包括许多不相关的功能。此外,尽管它的简单性和在每个独立分类器的属性有着强大的假设性,它已被证明在许多自然领域中,能够得到高准确性。自然条件下的朴素贝叶斯分类器是一种扩展的朴素贝叶斯分类器的设计,有更好的高度相关(冗余)功能性。直觉是高度相关的功能,如果不选择,分类应该有更好的表现其特征独立性假设。属性中选择一个空集的属性开始,然后逐步增加,单个属性(由未选择的属性的组)的属性,该属性最提高所得的分类器的精确度上的测试集。属性中选择,直到添加任何其他属性的查询结果中的分类器的精确度下降。自然选择条件下的朴素贝叶斯网络如图解5所示。Figure 5. Selective Nave Bayesian network model lift chart.图解5:选择贝叶斯网络模型的柱状图。结果如上图所示。4.2.5. 一种混合方法: 一种分类器集成方法一种分类器的集成是生成一组分类器而不是新项目分类的一种分类器,希望多种分类器的结合从而得到更精确的值 4,15,20,21 。分类器的集成已被证明是提高分类精度的一个非常有效的方法,因为个体分类器所犯的不相关的错误能够通过投票从而被删除。一种分类器,利用分类规则中一组最小分类来区分未来的例子,可能会导致错误。分类器的集成是一系列的分类器,这些分类器在一些方面来划分新样本。为构建分类器的集成创建了一些方法,有些是一般的算法和有些特定的算法 4,8 。我们采用了一种混合的方法:首先,我们用自然条件下的贝叶斯网络(BNB)来建立4种分类器,人工神经网络的预测,决策树,自然选择条件下的贝叶斯网络(SNB),然后我们在主要通过投票将从4个分类集合成一个分类器4。集成分类器比任何4个个体分类器得到更精确的字段。上图是集成分类器所得到的结果。5. 数据挖掘发现最初的研究揭露了一系列变量之间的关系以及临界值来进一步的探讨与分析。如下总结了重要的观点和一些可能的含义:上表显示,一些特定的值(或数值范围)的属性是来预测保留客户和/流失客户。这些解释增加了我们的信心,而这些属性值将继续在未来继续预测。字段检测为了检测数据挖掘的有效性,我们的客户采取了字段检测。测试要显示出两个要点:1.客户流失率包含了集中的流失客户。2.基于营销方法的数据挖掘对于保留目标是有效的。他们对现有客户的分类方法从而生成的模型,然后将客户流失比率再次进行分类。他们决定与列表中的前4的现有客户进行联系(大约750000名),其中有大约30000名客户。他们把客户随机分为2组,每一组大约有15000名,然后对不同组的客户采取积极主动地行动:第一组,市场营销部门接触每一个客户,并提供了一些优惠措施来鼓励客户留在公司;而第二组,没有采取任何联系。经过2个月后,他们检查列表然后发现,在第一组中,流失率非常低(0.12),而在第二组中,流失率非常高,几乎是5.6,在两个月累积平均流失率为1.1,因此获得了5.0的字段(在测试数据段中,列表中始终保持着数据4.6)。在第一组中较低的流失率显示,如果积极主动的行动是及时的和适当的,这对客户行为确实有影响,而第二组的高流失率证明,我们的数据挖掘模型是正确和前4 高比例的流失率被捕捉。6. 结论在此篇论文中,我们演示了一种零售银行客户损失分析数据挖掘方法。我们讨论了关于倾向性数据、时序数据展开、遗漏检测和一项零售银行损失分析数据挖掘任务的步骤。我们讨论枚举法在作为损失分析的适当方法上的用处,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论