CH10数据挖掘与客户关系管理.ppt_第1页
CH10数据挖掘与客户关系管理.ppt_第2页
CH10数据挖掘与客户关系管理.ppt_第3页
CH10数据挖掘与客户关系管理.ppt_第4页
CH10数据挖掘与客户关系管理.ppt_第5页
已阅读5页,还剩120页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第10章 数据挖掘与客户关系管理,案例 卓越亚马逊的推荐系统,学习目标,通过本章的学习,将能够: 理解数据挖掘的含义 熟悉数据挖掘的功能 熟悉数据挖掘的主要技术 掌握数据挖掘的业务流程 了解客户关系管理对数据挖掘的需求 理解数据挖掘在客户关系管理中的作用,第10章 CRM与数据挖掘,10.1 数据挖掘概述 10.2 数据挖掘的任务、技术和实施过程 10.3 数据挖掘在CRM中应用 10.4 CRM数据挖掘应用实例 10.5 数据挖掘软件在CRM中的应用示例,10.1 数据挖掘概述,10.1.1 数据挖掘的产生 10.1.2 数据挖掘的定义 10.1.3 数据挖掘的技术 10.1.4 数据挖掘的功能 10.1.5 数据挖掘的流程 10.1.6 数据挖掘的发展方向,10.1.1 数据挖掘的产生,数据爆炸但知识贫乏 支持数据挖掘技术的基础 数据挖掘逐渐演变的过程,有价值的知识,可怕的数据,数据爆炸但知识贫乏,数据挖掘的出现,数据爆炸,知识贫乏,苦恼: 淹没在数据中 ; 不能制定合适的决策!,数据,知识,决策,数据爆炸但知识贫乏,更大,更便宜的存储器 - 磁盘密度以Moores law增长 - 存储器价格飞快 下降更快,更便宜的信息处理器 - 分析更多的数据 - 适应更多复杂的模型 - 引起更多查询技术 - 激起更强的可视化技术 数据挖掘处理技术 - 数理统计 - 人工智能 - 机器学习,支持数据挖掘技术的基础,数据挖掘的演化,机器学习 数据库中的知识发现 数据挖掘,10.1.2 数据挖掘的定义,SAS研究所(19910):“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”。 Bhavani(1999):“使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程”。 Hand et al(2000):“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程”。,数据挖掘的定义,技术角度的含义 商业角度的含义 与传统方法的区别,数据挖掘的技术上的定义,数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 这个定义包括好几层含义(1)数据源必须是真实的、大量的、含噪声的;(2)发现的是用户感兴趣的知识;(3)发现的知识要可接受、可理解、可运用;(4)并不要求发现放之四海皆准的知识,仅支持特定的发现问题。,数据挖掘的商业角度的定义,按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。,客户接触,客户信息,客户数据库,统计分析与数据挖掘,客户知识发现,客户管理,知识发现:从数据中深入抽取隐含的、未知的和有潜在用途的信息,从商业数据到商业智能,数据挖掘与传统分析方法的区别,数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识.。数据挖掘所得到的信息应具有先未知,有效和可实用三个特征. 先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系,10.1.3 数据挖掘的功能,自动预测趋势和行为 关联分析 对象分类 聚类分析 概念描述 偏差检测,数据挖掘功能预测,数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。,数据挖掘功能关联分析,数据关联是数据库中存在的一类重要的可被发现的知识。 若两个或多个变量的取值之间存在某种规律性,就称为关联。 关联可分为简单关联、时序关联、因果关联。 关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。 关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。 时序关联是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。,数据挖掘功能分类,按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。,数据挖掘功能聚类,数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。聚类技术在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。,数据挖掘功能概念描述,概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。,数据挖掘功能偏差检测,数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。 偏差检测对分析对象的少数的、极端的特例的描述,揭示内在的原因。例如:在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减小以后经营的风险。,10.1.4 数据挖掘应用,应用领域:银行、电信、保险、交通、零售等商业领域 能解决的典型商业问题包括: 数据库营销(Database Marketing) 客户群体划分(Customer Segmentation&Classification) 背景分析(Profile Analysis) 交叉销售(Cross-selling) 客户流失性分析(Churn Analysis) 客户信用记分(Credit Scoring) 欺诈发现(Fraud Detection),数据挖掘的应用,神经网络 Neural Networks,聚类分析 Clustering,序列分析 Sequence Analysis,决策树 Decision Trees,倾向性分析,客户保留 客户生命周期管理 目标市场 价格弹性分析,客户细分 市场细分,倾向性分析 客户保留 目标市场 欺诈检测,关联分析 Association,市场组合分析 套装产品分析 目录设计 交叉销售,数据挖掘的应用,10.1.5 数据挖掘未来研究方向,发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化; 寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便于在知识发现的过程中进行人机交互; 研究在网络环境下的数据挖掘技术(WebMining),特别是在因特网上建立DMKD服务器,并且与数据库服务器配合,实现WebMining; 加强对各种非结构化数据的开采(DataMiningforAudioVideo),如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采; 处理的数据将会涉及到更多的数据类型,这些数据类型或者比较复杂,或者是结构比较独特。为了处理这些复杂的数据,就需要一些新的和更好的分析和建立模型的方法,同时还会涉及到为处理这些复杂或独特数据所做的费时和复杂数据准备的一些工具和软件。 交互式发现和知识的维护更新。,10.2 数据挖掘的任务、技术、方法和实施过程,10.2.1 数据挖掘任务 数据总结 分类发现 聚类分析 关联规则发现,10.2.2 数据挖掘技术,数据挖掘的方法很多,大致可分为:统计方法、机器学习方法、神经网络方法和数据库方法。其中,统计方法可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)、以及模糊集、粗糙集、支持向量机等。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例的推理CBR、遗传算法、贝叶斯信念网络等。神经网络方法,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是基于可视化的多维数据分析或OLAP方法,另外还有面向属性的归纳方法。,数据挖掘技术的分类,回顾分析:注重解决过去和现在的问题,如:两年来不同地区、人口和产品情况下的各销售部门销售业绩分析,预测分析:在历史信息的基础上预测某些事件和行为,如:建立预测模型来描述客户的流失率,分类:根据某种标准将数据库记录分类到许多预先定义好的类别,如:信用卡公司将客户记录分为好、中、差三类 分类可以产生规则:如果一个客户收入超过5000万元,年龄在4555岁之间,居住在某地区,那么他的信用等级为好。,数据挖掘技术,数据挖掘技术的分类,聚类:根据某些属性将数据库分割为一些子集和簇,如:在了解客户的过程中,尝试使用从未使用过的属性分割人群以发现潜在客户的簇,关联:通过考察记录来识别数据间的密切关系,关联关系常常表现为规则,常用于超市购物篮分析 如:所有包含A和B的记录中有60同时包含C。,时间序列:用于帮助识别与时间有关的模式,如:通过对客户多次购物行为的分析可以发现购物行为在时间上的关系 常用于产品目录营销的分析,数据挖掘的一般目的就是检测、解释和预测数据中定性的和或定量的模式,数据挖掘技术,数据挖掘方法学,模式,数据库中一个事件或事件的结合,这些事件比预期的要经常发生,其实际发生率明显不同于随机情况下的可期望发生率。,模式是数据驱动的,一般只反映数据本身,模型,对构建事件的源时的历史数据库的描述,并且能够成功地应用于新的数据,以便对缺少的数据作出预测或对期望的数据作出说明。,模型的一般表现形式,数学方程式,描述各客户段的规则集,计算机表示方式,模式可视化,数据挖掘技术,数据挖掘方法学,取样,根据问题的需要采用随机取样的方法从数据库中抽取数据进行挖掘,有助于迅速发现模式、创建模型,数据本身的处理过程需要验证,验证模型,模型创建过程需要保证正确,模型应用的验证,在依据一些历史数据建造模型后,将模型应用于未参与建造模型的其他类似的历史数据,比较其模型输出结果与实际结果。,数据挖掘技术,人工神经网络,神经网络近来越来越受到人们的关注,因为它为解决大复杂度问题提供了一种相对来说比较有效的简单方法。神经网络可以很容易的解决具有上百个参数的问题(当然实际生物体中存在的神经网络要比我们这里所说的程序模拟的神经网络要复杂的多)。神经网络常用于两类问题:分类和回归。,决策树,决策树把数据归入可能对一个目标变量有不同效果的规则组。例如,我们希望发现可能会对直邮有反应的个人特点。这些特点可以解释为一组规则。,决策树,假设您是一个销售一种新的银行服务的直邮计划研究的负责人。为最大程度地获益,您希望确定基于前次促销活动的家庭细分最有可能响应相似的促销活动。通常这可以通过查找最能把响应前次促销的家庭和没有响应的家庭区分开的人口统计信息变量的组合来实现。 决策树为您提供诸如谁会最好地响应新的促销等重要线索,并通过只邮寄给最有可能响应的人来最大程度地获得直邮效益,提高整体响应率,并极有希望同时增加销售。,决策树建立,决策树中最上面的节点称为根节点,是整个决策树的开始。本例把响应客户作为根节点。可以看到所有收到直邮信件的人中有10%有响应。 然后根据记录字段的不同取值建立树的分支, 如分为有住房和无住房两组,则15%的租户有响应,而房主则只有5%。 还可以在每个分支子集中重复建立下层结点和分支。我们可以继续分组来发现最有可能响应的组群。这一组群可以表示为一个规则,如“如果收件人是租户,有较高的家庭收入,没有储蓄存款账户,那么他有45%的响应概率”。简单地说,有这些特点的组群中有45%可能会对直邮有响应。,决策树图,决策树应用,决策树也是分析消耗(流线性生产)、发现交叉销售机会、进行促销、信用风险或破产分析和发觉欺诈行为的得力工具。,聚类分析,聚类如同通常所说的“物以类聚”,是把一组个体按照相似性归成若干类别。 它的目的是使属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。它反映同类事物共同性质的特征型知识和不同事物之间的差异性质的特征型知识。 通过聚类,数据库中的记录可被划分为一系列有意义的子集。聚类增强了人们对客观现实的认识,是进行概念描述和偏差分析的先决条件。,聚类分析,簇(Cluster):一个数据对象的集合 在同一个类中,对象之间具有相似性; 不同类的对象之间是相异的。 聚类分析 把一个给定的数据对象集合分成不同的簇; 聚类是一种无监督分类法: 没有预先指定的类别; 典型的应用 作为一个独立的分析工具,用于了解数据的分布; 作为其它算法的一个数据预处理步骤;,聚类分析应用,市场销售: 帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划; 土地使用: 在一个陆地观察数据库中标识那些土地使用相似的地区; 保险: 对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户; 城市规划: 根据类型、价格、地理位置等来划分不同类型的住宅; 地震研究: 根据地质断层的特点把已观察到的地震中心分成不同的类;,聚类分析的评判,一个好的聚类方法要能产生高质量的聚类结果簇,这些簇要具备以下两个特点: 高的簇内相似性 低的簇间相似性 聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现; 聚类方法的好坏还取决与该方法是能发现某些还是所有的隐含模式;,遗传算法,遗传算法(Genetic Algorithms)是J.H.Holland根据生物进化的模型提出的一种优化算法。虽然GA刚提出时没有受到重视,但近年来,人们把它应用于学习、优化、自适应等问题中。模拟生物进化过程的算法,由繁殖(选择)、交叉(重组)、 变异(突变)三个基本算子组成。遗传算法已在优化计算、分类、机器学习等方面发挥了显著作用。遗传算法是基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。,遗传算法,GA的算法首先在解空间中取一群点,作为遗传开始的第一代。每个点(基因)用一二进制的数字串表示,其优劣程度用一目标函数(Fitness function)来衡量。在向下一代的遗传演变中,首先把前一代中的每个数字串根据由其目标函数值决定的概率分配到配对池中。好的数字串以高的概率被复制下来,劣的数字串被淘汰掉。然后将配对池中的数字任意配对,并对每一数字串进行交叉操作,产生新的子孙(数字串)。最后对新的数字串的某一位进行变异。这样就产生了新的一代。按照同样的方法,经过数代的遗传演变后,在最后一代中得到全局最优解或近似最优解。,规则推导,规则推导,从统计意义上对数据中的“如果-那么”规则进行寻找和推导,得到关联规则。 关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。,可视化技术,用图表等方式把数据特征用直观地表述出来,如直方图等,这其中运用的许多描述统计的方法。可视化技术面对的一个难题是高维数据的可视化。 信息可视化和数据挖掘是两个可互为补充利用的相关研究领域。当信息可视化作为数据挖掘的技术之一时,同其它技术相比,它有一个独特之处:能极大地发挥用户的主动参预性。由于对数据进行了可视化,用户愿意进行探索(Explore),在探索过程中有可能发现意外的知识。,其他技术,近邻算法,将数据集合中每一个记录进行分类的方法。 统计分析方法,在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用回归分析、相关分析、主成分分析等方法。 模糊论方法,利用模糊集合理论,对实际问题进行模糊判断、模糊决策、模糊模式识别、模糊簇聚分析。,经典方法,统计,统计可以通过对类似下列问题的回答获得模式,在我的数据库中存在什么模式,某个事件发生的可能性是什么,那些模式是重要的模式,统计的一个重要价值就是它提供了对数据库的高层视图,这种视图提供了有用的信息,但不要求在细节上理解数据库的每一条记录。,10.2.3 数据挖掘方法,经典方法,最近邻,通过检测与预测对象最接近的对象的状况对预测对象进行预测,原理:,某一特定对象可能与其他某一或某些对象比其 它一些第三对象更接近;,相互之间“接近”的对象会有相似的取值,根据其中一个对象的取值,预测其最近邻对象的预测值,商业 应用:,文献检索,市场篮子分析,应用 评价:,最近邻的数量,最近邻的距离,决定最近邻预测的可信度,数据挖掘方法,现代方法,基础理论,有指导的学习(Supervised Learning),归纳 概念 分类标准与模型 分类,有指导的学习的目的:建立分类模型,用模型确定新数据实例的类别,训练数据(Training Data)与检验集(Test Set),用于创建模型的数据实例称为训练数据,用于检验模型的准确度的数据实例称为检验集,数据挖掘方法,有指导的学习(Supervised Learning),淋巴肿,数据挖掘方法,有指导的学习(Supervised Learning),淋巴肿,发 烧,No,No,Yes,Yes,咽炎,敏感症,感冒,淋巴肿、发烧是有意义的属性,嗓子痛、充血、头痛是无意义的属性,数据挖掘方法,有指导的学习(Supervised Learning),淋巴肿,发 烧,No,No,Yes,Yes,咽炎,敏感症,感冒,未知分类的数据实例(检验集),数据挖掘方法,无指导的学习(Unsupervised Learning),为没有预先定义分类标准的数据建立模型,ABC投资公司客户表,数据挖掘方法,无指导的学习(Unsupervised Learning),区分在线投资者和经纪人投资者的特征是什么,一个新客户未开设交易保证金帐户,如何确定其将来是否会开设这种帐户,能建立一个预测新投资者月均交易数的模型吗,女性和男性投资者有什么不同的特征,交易方式,交易保证金帐户,月均交易数,性别,数 据 挖 掘 问 题,属 性,哪些属性相似性决定ABC公司的客户分组,属性值的哪些不同之处分隔了客户数据库,有指导的学习,无指导的学习,数据挖掘方法,现代方法,决策树(Decision Tree),决策树是一种有指导学习的数据挖掘方法,决策树的组成,决策节点、分支、叶子,根节点,分支,叶子,Debt10% of Income,Debt=0%,Good Credit Risks,Bad Credit Risks,Good Credit Risks,Yes,Yes,Yes,NO,NO,NO,Income$40K,节点,决策树的分支过程就是对数据进行分类的过程,利用几个变量(每个变量对应一个问题)来判断数据所属的类别。在分支后,要使不同分支之间数据的差异尽可能大、同一分支内的数据尽量相同。这一分割过程也就是数据的“纯化”过程。,数据挖掘方法,决 策 树 的 算 法 步 骤,假设T为训练实例集 选择一个最能区别T中实例的属性 创建一个决策节点,它的值为所选择的属性 创建该节点的分支,每个分支代表所选属性的一个唯一值 使用分支的值,将数据实例分割为子类 对于步骤5所创建的各个子类: 如果子类中的数据实例满足以下条件,可按此决策树对新数据实例指定类别 分割中只包含一条数据实例 分割中所有数据实例的属性都相同 继续分割得到的改进不明显 如果子类不满足上述条件,则设T为当前子类数据实例集合,返回步骤 2,数据挖掘方法,决策树的属性选取,属性选取标准:,最大化反映数据差异,使树的层次和节点数最小,淋巴肿,发 烧,No,No,Yes,Yes,咽炎,敏感症,感冒,数据挖掘方法,淋巴肿,发 烧,No,No,Yes,Yes,敏感症,敏感症,咽炎,No,Yes,头 痛,淋巴肿,感冒,发 烧,淋巴肿,No,Yes,咽炎,No,Yes,数据挖掘方法,决策树的属性选取,属性选取标准:,最大化反映数据差异,使树的层次和节点数最小,信用卡促销数据库,选取收入段为根节点,选取寿险促销为输出属性,沿着每个分支有两个类,选取最频繁出现的类,收入段,2Yes2No,4Yes1No,3No 1Yes,2Yes,23万,34万,45万,56万,训练集分类的正确性为1115103,数据挖掘方法,决策树(Decision Tree):例,信用卡促销数据库,选取信用卡保险为根节点,选取寿险促销为输出属性,沿着每个分支有两个类,选取最频繁出现的类,信用卡保险,6Yes6No,3Yes 0No,No,Yes,训练集分类的正确性为91560,数据挖掘方法,决策树(Decision Tree):例,信用卡促销数据库,选取数值型属性年龄为根节点,选取寿险促销为输出属性,依照年龄排序,对照输出属性进行数据分割,选择数据分割点,年 龄,9Yes3No,0Yes 3No,43,43,以年龄43结合寿险促销Yes,训练集分类的正确性为121580,数据挖掘方法,决策树(Decision Tree):例,信用卡促销数据库,年 龄,Yes(61),No(21),43,43,性 别,F M,信用卡保险,Yes(20),No(30),No Yes,信用卡数据库的三节点决策树,训练集分类的正确性为1315810,数据挖掘方法,决策树(DecisionTree):例,信用卡促销数据库,信用卡保险,Yes(52),No(41),No,Yes,性 别,F M,Yes(30),信用卡数据库的两节点决策树,训练集分类的正确性为121580,数据挖掘方法,决策树(Decision Tree):例,信用卡促销数据库检验集,年 龄,Yes(61),No(21),43,43,性 别,F M,信用卡保险,Yes(20),No(30),No Yes,信用卡数据库的三节点决策树,数据挖掘方法,现代方法,K平均值算法,K-平均值算法是一种简单而有效的无指导学习的统计聚类方法,将一组数据划分为不相关的簇,算 法 步 骤,选择一个K值,用以确定簇的总数,在数据集中任意选择K个数据实例,作为初始的簇中心,试用简单的欧氏距离将其它数据实例赋予距离它们最近的簇中心,试用每个簇中的数据实例,计算每个簇的新的平均值,如果新的平均值等于次迭代的平均值,终止该过程。否则,用新平均值作为簇中心并重复步骤35。,点A(x1,y1)与点B(x2,y2)之间的欧氏距离计算式为,数据挖掘方法,K平均值算法:例,K-平均值输入属性,1.选择K=2,即将所有数据实例分为两个簇,2.选择实例1作为第1个簇的中心,实例3作为第2个簇的中心,3.计算各数据实例与C1、C2之间的欧氏距离,Dist(C11)=0.00 Dist(C21)=1.00 C1 Dist(C12)=3.00 Dist(C22)=3.16 C1 Dist(C13)=1.00 Dist(C23)=0.00 C2 Dist(C14)=2.24 Dist(C24)=2.00 C2 Dist(C15)=2.24 Dist(C25)=1.41 C2 Dist(C16)=6.02 Dist(C26)=5.41 C2,4.迭代结果得到以下两个簇 簇C1包含实例1、2,簇C2包含实例3、4、5、6,Y,X,数据挖掘方法,K平均值算法:例,K-平均值输入属性,5.重新计算每个簇的中心,对于C1:x=(1.0+1.0)/2=1.0 y=(1.5+4.5)/2=3.0 对于C2:x=(2.0+2.0+3.0+5.0)/4=3.0 y=(1.5+3.5+2.5+6.0)/4=3.3105 因此,新的簇中心为C1=(1.0,3.0) C2=(3.0,3.3105),Y,X,6.由于簇中心改变,进行第2次迭代,K平均值算法:例,K-平均值输入属性,Dist(C11)=1.50 Dist(C21)=2.104 C1 Dist(C12)=1.50 Dist(C22)=2.29 C1 Dist(C13)=1.80 Dist(C23)=2.125 C1 Dist(C14)=1.12 Dist(C24)=1.01 C2 Dist(C15)=2.06 Dist(C25)=0.8105 C2 Dist(C16)=5.00 Dist(C26)=3.30 C2,第2次迭代的结果导致了簇的变化: C1包含实例1、2和3,C2包含4、5和6,Y,X,K平均值算法:例,K-平均值输入属性,10.重新计算每个簇的中心,对于C1:x=(1.0+1.02.0)/3=1.33 y=(1.5+4.51.5)/3=2.50 对于C2:x=(2.0+3.0+5.0)/3=3.33 y=(3.5+2.5+6.0)/3=4.00 因此,新的簇中心为C1=(1.33,2.50) C2=(3.33,4.00),8.由于簇中心改变,继续进行第3次迭代,Y,X,K平均值算法:例,数据实例与它们所对应的簇中心之间的误差平方和最小,K平均值算法的几个应用,K平均值算法的最优聚类标准,Y,X,Y,X,Y,X,现代方法,关联规则(Association Rules),关联规则的表现形式,关联规则是一种无指导学习的数据挖掘中最普遍的知识发现,是指在行为上具有某种关联的多个事物在一次事件中可能同时出现,从而在多个事物中建立联系规则的方法。,“如果怎么样、怎么样、怎么样,那么就会怎么样”,关联规则的构成,前件“如果怎么样、怎么样、怎么样”,后件“那么就怎么样”,如果买了西装,就会买领带,如果买精显彩电,就会买家庭影院系统,规则的构成,如果怎么样、怎么样、怎么样,就会怎么样,前件,激发条件,后件,结果,规则表现为在前件所有条件成立的前提下,后件结果会以某一正确概率出现,关联规则(Association Rules),规则的置信度和支持度,关联规则(Association Rules),规则的置信度又称为规则的正确率,是指在前提出现的情况下,后件出现的概率,规则的支持度又称为规则的覆盖率,是指包含规则出现的属性值的交易占所有交易的百分比,例:如果客户买牛奶,那么他们也会买面包,置信度:在10000次交易中客户购买了牛奶,而且其中的5000个交易也同时购买了面包,则上述规则的置信度为50001000050 支持度:在超市一个月的客户交易中,共有600000次交易,其中购买牛奶的交易为60000次,支持度为6000060000010,规则的生成,关联规则(Association Rules),决策树方法,规则1:如果客户参加了信用卡保险,那么他就会参加寿险促销(置信度33100,支持度31520),规则2:如果一个男性客户没有参加信用卡保险,那么他也不会参加寿险 促销(置信度4580,支持度51533) 规则3:如果一个女性客户没有参加信用卡保险,那么她可能会参加寿险促销(置信度510101,支持度1015410) 规则4:如果是一个女性客户,那么她可能会参加寿险促销(置信度68105,支持度81553),信用卡保险,Yes(52),No(41),No,Yes,性 别,F M,Yes(30),规则的生成,现代方法,关联规则(Association Rules),最近邻方法,规则:如果一个客户处于的状况,那么他可能是一个逃款者,关联规则可以使用传统的方法生成,但适当提供的属性很多时,因为每条规则的结果可能包含大量的前提条件,使用传统方法会变得不切实际。,规则的生成,现代方法,关联规则(Association Rules),apriori方法,apriori方法步骤:,1.设置最小的属性值支持度要求,apriori方法是通过生成条目集,按照一定的准则要求从中选择规则的方法。,条目集是指符合一定支持度要求的“属性值”的组合,2.生成条目集,3.使用生成的条目集来创建规则,规则的生成,现代方法,关联规则(Association Rules),apriori方法:例,1.设置最小的属性值支持度要求(30),2.生成条目集,单项条目集合,规则的生成,现代方法,关联规则(Association Rules),apriori方法:例,双项条目集合,规则的生成,现代方法,关联规则(Association Rules),apriori方法:例,确定最小置信度(如50),利用双项条目集合生成规则,3.使用生成的条目集来创建规则,规则1:如果杂志促销Y,那么寿险促销Y(510) 置信度510101,支持度1010100,规则2:如果寿险促销Y,那么杂志促销Y(55) 置信度55100,支持度51050,规则的生成,关联规则(Association Rules),市场篮子分析就是一种关联规则的表现,时间序列分析是一种反映客户行为在时间上的关联性的关联规则,规则的应用,关联规则(Association Rules),以前件为目标,归纳所有前件一样的规则,分析后件的营销效果,设计促销方案(完善前件),例,收集所有前件为文具、复读机的规则,分析这些商品打折是否促进其他高利润商品的销售,从而调整商品结构、设计促销方案,规则的应用,关联规则(Association Rules),以后件为目标,归纳所有后件一样的规则,分析什么因素与后件有关或对后件有影响,设计前件促成后件,例,收集到所有后件为西装的规则,可以帮助我们了解西装的销售受哪些因素的影响或与哪些因素相关,从而可以考虑将这些因素集合在一起而产生促销效果。,规则的应用,关联规则(Association Rules),规则的置信度和支持度,规则很少是正确的,但可以经常使用,规则很少是正确的,而且很少被使用,规则多数情况下是正确,但很少被使用,规则多数情况下是正确的,而且可以经常使用,以置信度或支持度为目标,10.2.4 数据挖掘的流程,数据挖掘的流程,确定业务对象 数据准备 数据挖掘 结果分析和知识同化,数据挖掘的流程-确定业务对象,清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。,数据挖掘的流程-数据准备,数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。 数据的预处理:研究数据的质量,为进一步的分析作准备.并确定将要进行的挖掘操作的类型。 数据的转换:将数据转换成一个分析模型.这个分析模型是针对挖掘算法建立的.建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。,数据挖掘的流程-数据挖掘,对所得到的经过转换的数据进行挖掘.除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成。,数据挖掘的流程-分析和同化,结果分析:解释并评估结果,其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术。 知识的同化:将分析所得到的知识集成到业务信息系统的组织结构中去。,数据挖掘过程工作量,在数据挖掘中被研究的业务对象是整个过程的基础,它驱动了整个数据挖掘过程,也是检验最后结果和指引分析人员完成数据挖掘的依据。数据挖掘的过程并不是自动的,绝大多数的工作需要人工完成。其中60%的时间用在数据准备上,这说明了数据挖掘对数据的严格要求,而后挖掘工作仅占总工作量的10%.,数据挖掘过程工作量,数据挖掘需要的人员,数据挖掘过程的分步实现,不同的步会需要是有不同专长的人员,他们大体可以分为三类。 业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求。 数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术。 数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据。,10.3 数据挖掘在CRM中的应用,从客户生命周期角度分析数据挖掘技术的应用 从行业角度分析数据挖掘技术的应用,从客户生命周期角度分析,在客户生命周期的过程中,各个不同的阶段包含了许多重要的事件。数据挖掘技术可以应用于客户生命周期的各个阶段提高企业客户关系管理能力,包括争取新的客户,让已有的客户创造更多的利润、保持住有价值的客户等等。,从客户各生命周期角度分析,潜在客户期市场活动及数据挖掘应用,潜在客户获得活动是针对目标市场的营销活动,寻找对企业产品或服务感兴趣的人。值得注意的是,在这个阶段缺乏客户数据。 数据挖掘可以把以前的客户对类似活动的响应进行挖掘,从而把市场活动重点锁定在以前的响应者身上。 一个更好的方法就是寻找和高价值的客户类似的潜在客户只要一次就获得正确的客户。通常,获得活动使用广告和其它市场宣传媒体。无论何种渠道,数据挖掘在发现最重要的客户特定市场中发挥重要作用,决定着市场活动的类型、广告空间等一些宣传问题。,客户响应期市场活动及数据挖掘应用,潜在客户通过以下几种途径成为响应者:登陆企业网站;拨打免费电话;填写申请表等。 把潜在客户改变成为确定的客户、能够被锁定和跟踪的客户。虽然响应者还没有购买任何产品或服务,但他们有很大的可能性成为购买者,并成为企业客户。 数据挖掘通常被用来判定哪些潜在客户会变成响应者。预测模型也用来判定哪些响应者会成为企业即得客户。,即得客户市场活动及数据挖应用(1),响应者购买企业产品的时候就变成了企业即得客户。这意味着他们已经进行了第一次的购买活动。在即得客户阶段包括许多活动。 最重要的活动可以划分为三:刺激使用(使用展现了客户行为,当使用是企业收入的主要来源,刺激使用就成为企业的重要目标。使用模式因不同的客户市场而有所不同);交叉销售(鼓励客户购买与第一次购买不同的产品或服务的市场营销活动); 升级销售(鼓励客户升级现有的产品和服务的市场营销活动)。,即得客户市场活动及应用(2),即得客户是数据挖掘的重要区域。客户使用活动提供了客户行为模式的最本质的东西。预测什么时候会发生客户活动,判定哪个客户可能对交叉销售和升级销售活动做出响应对企业来讲是极具价值的。但既得客户的行为经常被大量详细的交易信息所淹没。使用数据挖掘要求从其中抽出其特点。客户早期的购买和使用模式是对企业来讲是非常具有价值的,在一些行业,首次行为预示了未来的使用信息。这些客户可以是高消费者或低消费者,他们可能对一个或多个产品感兴趣。这类行为通常在早期的购买行为中明显的表现出来。,客户流失期市场活动及数据挖掘应用,在一些情况下,客户停止购买企业产品。对此,有两种基本不同的流失原因,第一种是主动离开,指的是不再是客户的既得客户。了解主动离开出现的原因非常重要,以下是客户主动离开的一些基本原因:客户离开了企业服务的地区;客户的生活方式发生了变化,并不再需要企业的产品和服务;客户已经获得了竞争者提供的更好的产品或服务;客户不再认为使用企业产品有任何价值。 第二种是非主动离开,既被动离开。指的是即得客户不再是一个好的客户,通常因为他们停止支付他们的帐单。区别主动离开和被动离开对企业来说是非常重要的。数据挖掘可以通过分析以前的客户数据得出什么样的客户会在将来同样的离开。即使客户离开,也不是所有流失的客户就完全失去了。赢得客户活动的目标就是重新获得失去的客户。,从行业角度分析数据挖掘技术的应用,中数据挖掘应用的深度和广度针对行业的不同而有所不同,特别是针对与客户交流频繁、客户支持要求高的行业,如银行、证券、保险、电信、税务、零售、旅游、航空、医疗保健等。 零售业中数据挖掘的应用 电信业中数据挖掘的应用 金融业中数据挖掘的应用,零售业中数据挖掘的应用,零售业是数据挖掘的主要应用领域,特别是由于日益增长的Web或电子商务方式的兴起零售数据挖掘可有助于识别客户购买行为,发现客户购买模式和趋势,改进服务质量,取得更好的客户保持力和满意度,提高货品销量比率,设计更好的货品运输与分销策略,减少商业成本。例如: 使用多特征数据立方体进行销售、客户、产品、时间和地区的多维分析; 使用多维分析和关联分析进行促销活动的有效性分析; 序列模式挖掘可用于客户忠诚分析; 利用关联分析挖掘关联信息进行购买推荐和商品参照。,电信业中的数据挖掘,电信业已经迅速地从单纯的提供市话服务演变为提供综合电信服务。电信网、因特网和各种其他方式的通信和计算的融合是目前的大势所趋。利用数据挖掘技术可帮助理解商业行为、确定电信模式、捕捉盗用行为、更好的利用资源和提高服务质量。例如: 电信数据的多维分析有助于识别和比较数据通信情况、系统负载、资源使用、用户组行为、利润等; 通过多维分析、聚类分析和孤立点分析进行盗用模式分析和异常模式识别; 通过多维关联和序列模式分析进行电信服务组合和个性化服务; 电信数据分析中可视化工具的使用。,金融业中的数据挖掘,大部分银行和金融机构除提供丰富多样的储蓄服务、信用服务、投资服务外,还提供保险服务和股票投资服务。在银行和金融机构中产生的金融数据通常相对比较完整、可靠,这大大方便了系统化的数据分析和数据挖掘。以下给出几种典型的应用情况: 为多维数据分析和数据挖掘设计和构造数据仓库; 特征选择和属性相关性计算有助于贷款偿还预测和客户信用政策分析; 分类和聚类的方法可用于客户群体的识别和目标市场的分析6; 通过数据可视化、链接分析、分类、聚类分析、孤立点分析、序列分析等分析工具帮助进行洗黑钱和其他金融犯罪的侦破。,10.4 CRM数据挖掘应用案例,10.4.1 案例背景简介 公众电信运营企业 10.4.2 业务问题的定义 10.4.3数据选择 目标变量的选择 输入变量的选择 建模数据的选择,10.4.4 数据清洗和预处理 10.4.5 模型选择和预建立 10.4.6 模型建立与调整 10.4.10 模型的评估与检验 10.4.8 模型解释与应用,案例: Bell Atlantic公司,Bell Atlantic的数据挖掘系统非常成功,不仅为他们的业务开展带来很大的方便,而且节省了许多开支。Bell Atlantic的电话服务目前已经覆盖了美国14个州,拥有商业电话、住家电话帐户近亿个。 Bell Atlantic 数据挖掘系统的首要任务就是尽快地追收拖欠的电话费,同时尽量减少收债部门的成本。,案例: Bell A

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论