客户数据挖掘PPT课件

上传人：优*** IP属地：广东上传时间：2020-04-17 格式：PPT 页数：65 大小：4.43MB 积分：68 举报 版权申诉

已阅读5页，还剩60页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

项目四客户信息的数据挖掘案例卓越亚马逊的推荐系统学习目标通过本章的学习将能够理解数据挖掘的含义熟悉数据挖掘的功能熟悉数据挖掘的主要技术掌握数据挖掘的业务流程了解客户关系管理对数据挖掘的需求理解数据挖掘在客户关系管理中的作用有价值的知识可怕的数据数据挖掘背景数据爆炸知识贫乏苦恼淹没在数据中不能制定合适的决策数据知识决策数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程这些模型和关系可以用来做出预测数据挖掘 DataMining 数据挖掘就是从大量的不完全的有噪声的模糊的随机的实际应用数据中提取隐含在其中的人们事先不知道的但又是潜在有用的信息和知识的过程数据挖掘是一种新的商业信息处理技术其主要特点是对商业数据库中的大量业务数据进行抽取转换分析和其他模型化处理从中提取辅助商业决策的关键性数据数据挖掘数据挖掘的特点数据挖掘与传统分析方法的区别数据挖掘是在没有明确假设的前提下去挖掘信息发现知识数据挖掘所得到的信息应具有先未知有效和可实用三个特征先前未知的信息是指该信息是预先未曾预料到的既数据挖掘是要发现那些不能靠直觉发现的信息或知识甚至是违背直觉的信息或知识有效信息是指符合实际情况且具有一定的代表性可实用是指可以指导企业的营销决策数据挖掘的特点数据挖掘是在没有明确假设的前提下去挖掘信息发现知识数据挖掘所得到的信息应具有先未知有效和可实用三个特征数据源必须是大量的真实的有噪声的发现的是用户感兴趣的知识发现的知识要可接受可理解可运用并不要求发现放之四海皆准的知识仅支持特定的发现问题数据挖掘任务描述和预测描述可以通过下述方法得到 1 数据特征化2 数据区分3 数据特征化和比较客户接触客户信息客户数据库统计分析与数据挖掘客户知识发现客户管理知识发现从数据中深入抽取隐含的未知的和有潜在用途的信息从商业数据到商业智能数据挖掘的应用神经网络NeuralNetworks 聚类分析Clustering 序列分析SequenceAnalysis 决策树DecisionTrees 倾向性分析客户保留客户生命周期管理目标市场价格弹性分析客户细分市场细分倾向性分析客户保留目标市场欺诈检测关联分析Association 市场组合分析套装产品分析目录设计交叉销售数据挖掘的应用数据挖掘技术的分类回顾分析注重解决过去和现在的问题如两年来不同地区人口和产品情况下的各销售部门销售业绩分析预测分析在历史信息的基础上预测某些事件和行为如建立预测模型来描述客户的流失率分类根据某种标准将数据库记录分类到许多预先定义好的类别如信用卡公司将客户记录分为好中差三类分类可以产生规则如果一个客户收入超过5000万元年龄在45 55岁之间居住在某地区那么他的信用等级为好数据挖掘技术数据挖掘技术的分类聚类根据某些属性将数据库分割为一些子集和簇如在了解客户的过程中尝试使用从未使用过的属性分割人群以发现潜在客户的簇关联通过考察记录来识别数据间的密切关系关联关系常常表现为规则常用于超市购物篮分析如所有包含A和B的记录中有60 同时包含C 演变分析描述行为随时间变化的对象的规律或趋势如通过对客户多次购物行为的分析可以发现购物行为在时间上的关系常用于产品目录营销的分析数据挖掘的一般目的就是检测解释和预测数据中定性的和或定量的模式数据挖掘技术四孤立点分析数据库中包含一些数据对象他们与数据的一般行为或模型不一致五分类和预测找出描述并区分数据类或概念的模型以便能够使用模型预测和分类标志未知的对象类现代方法关联规则 AssociationRules 关联规则的表现形式关联规则是一种无指导学习的数据挖掘中最普遍的知识发现是指在行为上具有某种关联的多个事物在一次事件中可能同时出现从而在多个事物中建立联系规则的方法如果怎么样怎么样怎么样那么就会怎么样关联规则的构成前件如果怎么样怎么样怎么样后件那么就怎么样如果买了西装就会买领带如果买精显彩电就会买家庭影院系统规则的构成如果怎么样怎么样怎么样就会怎么样前件激发条件后件结果规则表现为在前件所有条件成立的前提下后件结果会以某一正确概率出现关联规则 AssociationRules 规则的置信度和支持度关联规则 AssociationRules 规则的置信度又称为规则的正确率是指在前提出现的情况下后件出现的概率规则的支持度又称为规则的覆盖率是指包含规则出现的属性值的交易占所有交易的百分比例如果客户买牛奶那么他们也会买面包置信度在10000次交易中客户购买了牛奶而且其中的5000个交易也同时购买了面包则上述规则的置信度为5000 10000 50 支持度在超市一个月的客户交易中共有600000次交易其中购买牛奶的交易为60000次支持度为60000 600000 10 规则的生成现代方法关联规则 AssociationRules 最近邻方法规则如果一个客户处于的状况那么他可能是一个逃款者关联规则可以使用传统的方法生成但适当提供的属性很多时因为每条规则的结果可能包含大量的前提条件使用传统方法会变得不切实际规则的生成关联规则 AssociationRules 市场篮子分析就是一种关联规则的表现时间序列分析是一种反映客户行为在时间上的关联性的关联规则商业银行的客户细分规则的应用关联规则 AssociationRules 以前件为目标归纳所有前件一样的规则分析后件的营销效果设计促销方案完善前件例收集所有前件为文具复读机的规则分析这些商品打折是否促进其他高利润商品的销售从而调整商品结构设计促销方案规则的应用关联规则 AssociationRules 以后件为目标归纳所有后件一样的规则分析什么因素与后件有关或对后件有影响设计前件促成后件例收集到所有后件为西装的规则可以帮助我们了解西装的销售受哪些因素的影响或与哪些因素相关从而可以考虑将这些因素集合在一起而产生促销效果规则的应用关联规则 AssociationRules 规则的置信度和支持度规则很少是正确的但可以经常使用规则很少是正确的而且很少被使用规则多数情况下是正确但很少被使用规则多数情况下是正确的而且可以经常使用以置信度或支持度为目标案例 BellAtlantic公司 BellAtlantic的数据挖掘系统非常成功不仅为他们的业务开展带来很大的方便而且节省了许多开支 BellAtlantic的电话服务目前已经覆盖了美国14个州拥有商业电话住家电话帐户近亿个 BellAtlantic数据挖掘系统的首要任务就是尽快地追收拖欠的电话费同时尽量减少收债部门的成本案例 BellAtlantic公司软件系统的选择非常重要经过反复挑选后 BellAtlantic采用了SAS统计软件系统建立数据挖掘系统然后在SAS环境中利用SAS宏程序建立挖掘系统然后是建立SAS格式库许多数据需要格式化比如年龄可以从20到100岁需要分成不同的组这都需要利用模式来进行数据转换有的数据不是连续变量比如婚姻状况单身已婚也需要进行一些变换才可以进行计算日期也是需要模式化的不同计算机系统记录日期方法不同需要把日期转换成一致的方法在金融保险行业日期这个变量非常重要因为很多客户的行为都记录在日期里面了电话公司里记帐付款的日期也非常重要数据挖掘方法学模式数据库中一个事件或事件的结合这些事件比预期的要经常发生其实际发生率明显不同于随机情况下的可期望发生率模式是数据驱动的一般只反映数据本身模型对构建事件的源时的历史数据库的描述并且能够成功地应用于新的数据以便对缺少的数据作出预测或对期望的数据作出说明模型的一般表现形式数学方程式描述各客户段的规则集计算机表示方式模式可视化数据挖掘技术数据挖掘方法学取样根据问题的需要采用随机取样的方法从数据库中抽取数据进行挖掘有助于迅速发现模式创建模型数据本身的处理过程需要验证验证模型模型创建过程需要保证正确模型应用的验证在依据一些历史数据建造模型后将模型应用于未参与建造模型的其他类似的历史数据比较其模型输出结果与实际结果数据挖掘技术经典方法统计统计可以通过对类似下列问题的回答获得模式在我的数据库中存在什么模式某个事件发生的可能性是什么那些模式是重要的模式统计的一个重要价值就是它提供了对数据库的高层视图这种视图提供了有用的信息但不要求在细节上理解数据库的每一条记录数据挖掘方法经典方法最近邻通过检测与预测对象最接近的对象的状况对预测对象进行预测原理某一特定对象可能与其他某一或某些对象比其它一些第三对象更接近相互之间接近的对象会有相似的取值根据其中一个对象的取值预测其最近邻对象的预测值商业应用文献检索市场篮子分析应用评价最近邻的数量最近邻的距离决定最近邻预测的可信度数据挖掘方法现代方法基础理论有指导的学习 SupervisedLearning 归纳概念分类标准与模型分类有指导的学习的目的建立分类模型用模型确定新数据实例的类别训练数据 TrainingData 与检验集 TestSet 用于创建模型的数据实例称为训练数据用于检验模型的准确度的数据实例称为检验集数据挖掘方法有指导的学习 SupervisedLearning 淋巴肿数据挖掘方法有指导的学习 SupervisedLearning 淋巴肿发烧 No No Yes Yes 咽炎敏感症感冒淋巴肿发烧是有意义的属性嗓子痛充血头痛是无意义的属性数据挖掘方法有指导的学习 SupervisedLearning 淋巴肿发烧 No No Yes Yes 咽炎敏感症感冒未知分类的数据实例检验集数据挖掘方法无指导的学习 UnsupervisedLearning 为没有预先定义分类标准的数据建立模型 ABC投资公司客户表数据挖掘方法无指导的学习 UnsupervisedLearning 区分在线投资者和经纪人投资者的特征是什么一个新客户未开设交易保证金帐户如何确定其将来是否会开设这种帐户能建立一个预测新投资者月均交易数的模型吗女性和男性投资者有什么不同的特征交易方式交易保证金帐户月均交易数性别数据挖掘问题属性哪些属性相似性决定ABC公司的客户分组属性值的哪些不同之处分隔了客户数据库有指导的学习无指导的学习数据挖掘方法现代方法决策树 DecisionTree 决策树是一种有指导学习的数据挖掘方法决策树的组成决策节点分支叶子根节点分支叶子 Debt 10 ofIncome Debt 0 GoodCreditRisks BadCreditRisks GoodCreditRisks Yes Yes Yes NO NO NO Income 40K 节点决策树的分支过程就是对数据进行分类的过程利用几个变量每个变量对应一个问题来判断数据所属的类别在分支后要使不同分支之间数据的差异尽可能大同一分支内的数据尽量相同这一分割过程也就是数据的纯化过程数据挖掘方法决策树的算法步骤假设T为训练实例集选择一个最能区别T中实例的属性创建一个决策节点它的值为所选择的属性创建该节点的分支每个分支代表所选属性的一个唯一值使用分支的值将数据实例分割为子类对于步骤5所创建的各个子类如果子类中的数据实例满足以下条件可按此决策树对新数据实例指定类别分割中只包含一条数据实例分割中所有数据实例的属性都相同继续分割得到的改进不明显如果子类不满足上述条件则设T 为当前子类数据实例集合返回步骤2 数据挖掘方法决策树的属性选取属性选取标准最大化反映数据差异使树的层次和节点数最小淋巴肿发烧 No No Yes Yes 咽炎敏感症感冒数据挖掘方法淋巴肿发烧 No No Yes Yes 敏感症敏感症咽炎 No Yes 头痛淋巴肿感冒发烧淋巴肿 No Yes 咽炎 No Yes 数据挖掘方法决策树的属性选取属性选取标准最大化反映数据差异使树的层次和节点数最小信用卡促销数据库选取收入段为根节点选取寿险促销为输出属性沿着每个分支有两个类选取最频繁出现的类收入段 2Yes2No 4Yes1No 3No1Yes 2Yes 2 3万 3 4万 4 5万 5 6万训练集分类的正确性为11 15 73 数据挖掘方法决策树 DecisionTree 例信用卡促销数据库选取信用卡保险为根节点选取寿险促销为输出属性沿着每个分支有两个类选取最频繁出现的类信用卡保险 6Yes6No 3Yes0No No Yes 训练集分类的正确性为9 15 60 数据挖掘方法决策树 DecisionTree 例信用卡促销数据库选取数值型属性年龄为根节点选取寿险促销为输出属性依照年龄排序对照输出属性进行数据分割选择数据分割点年龄 9Yes3No 0Yes3No 43 43 以年龄 43结合寿险促销 Yes 训练集分类的正确性为12 15 80 数据挖掘方法决策树 DecisionTree 例信用卡促销数据库年龄 Yes 6 1 No 2 1 43 43 性别 FM 信用卡保险 Yes 2 0 No 3 0 NoYes 信用卡数据库的三节点决策树训练集分类的正确性为13 15 87 数据挖掘方法决策树 DecisionTree 例信用卡促销数据库信用卡保险 Yes 5 2 No 4 1 No Yes 性别 FM Yes 3 0 信用卡数据库的两节点决策树训练集分类的正确性为12 15 80 数据挖掘方法决策树 DecisionTree 例信用卡促销数据库检验集年龄 Yes 6 1 No 2 1 43 43 性别 FM 信用卡保险 Yes 2 0 No 3 0 NoYes 信用卡数据库的三节点决策树数据挖掘方法现代方法 K 平均值算法 K 平均值算法是一种简单而有效的无指导学习的统计聚类方法将一组数据划分为不相关的簇算法步骤选择一个K值用以确定簇的总数在数据集中任意选择K个数据实例作为初始的簇中心试用简单的欧氏距离将其它数据实例赋予距离它们最近的簇中心试用每个簇中的数据实例计算每个簇的新的平均值如果新的平均值等于次迭代的平均值终止该过程否则用新平均值作为簇中心并重复步骤3 5 点A x1 y1 与点B x2 y2 之间的欧氏距离计算式为数据挖掘方法 K 平均值算法例 K 平均值输入属性 1 选择K 2 即将所有数据实例分为两个簇 2 选择实例1作为第1个簇的中心实例3作为第2个簇的中心 3 计算各数据实例与C1 C2之间的欧氏距离 Dist C1 1 0 00Dist C2 1 1 00C1Dist C1 2 3 00Dist C2 2 3 16C1Dist C1 3 1 00Dist C2 3 0 00C2Dist C1 4 2 24Dist C2 4 2 00C2Dist C1 5 2 24Dist C2 5 1 41C2Dist C1 6 6 02Dist C2 6 5 41C2 4 迭代结果

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

客户数据挖掘PPT课件

文档简介

温馨提示

最新文档

评论

客户数据挖掘PPT课件

文档简介

温馨提示

最新文档

评论

相关文档