客户数据挖掘PPT课件_第1页
客户数据挖掘PPT课件_第2页
客户数据挖掘PPT课件_第3页
客户数据挖掘PPT课件_第4页
客户数据挖掘PPT课件_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目四客户信息的数据挖掘 案例卓越亚马逊的推荐系统 学习目标 通过本章的学习 将能够 理解数据挖掘的含义熟悉数据挖掘的功能熟悉数据挖掘的主要技术掌握数据挖掘的业务流程了解客户关系管理对数据挖掘的需求理解数据挖掘在客户关系管理中的作用 有价值的知识 可怕的数据 数据挖掘背景 数据爆炸 知识贫乏 苦恼 淹没在数据中 不能制定合适的决策 数据 知识 决策 数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程 这些模型和关系可以用来做出预测 数据挖掘 DataMining 数据挖掘就是从大量的 不完全的 有噪声的 模糊的 随机的实际应用数据中 提取隐含在其中的 人们事先不知道的 但又是潜在有用的信息和知识的过程 数据挖掘是一种新的商业信息处理技术 其主要特点是对商业数据库中的大量业务数据进行抽取 转换 分析和其他模型化处理 从中提取辅助商业决策的关键性数据 数据挖掘 数据挖掘的特点 数据挖掘与传统分析方法的区别 数据挖掘是在没有明确假设的前提下去挖掘信息 发现知识 数据挖掘所得到的信息应具有先未知 有效和可实用三个特征 先前未知的信息是指该信息是预先未曾预料到的 既数据挖掘是要发现那些不能靠直觉发现的信息或知识 甚至是违背直觉的信息或知识 有效信息是指符合实际情况且具有一定的代表性 可实用是指可以指导企业的营销决策 数据挖掘的特点 数据挖掘是在没有明确假设的前提下去挖掘信息 发现知识数据挖掘所得到的信息应具有先未知 有效和可实用三个特征数据源必须是大量的 真实的 有噪声的发现的是用户感兴趣的知识发现的知识要可接受 可理解 可运用并不要求发现放之四海皆准的知识 仅支持特定的发现问题 数据挖掘任务 描述和预测描述可以通过下述方法得到 1 数据特征化2 数据区分3 数据特征化和比较 客户接触 客户信息 客户数据库 统计分析与数据挖掘 客户知识发现 客户管理 知识发现 从数据中深入抽取隐含的 未知的和有潜在用途的信息 从商业数据到商业智能 数据挖掘的应用 神经网络NeuralNetworks 聚类分析Clustering 序列分析SequenceAnalysis 决策树DecisionTrees 倾向性分析 客户保留客户生命周期管理目标市场价格弹性分析 客户细分市场细分 倾向性分析客户保留目标市场欺诈检测 关联分析Association 市场组合分析套装产品分析目录设计交叉销售 数据挖掘的应用 数据挖掘技术的分类 回顾分析 注重解决过去和现在的问题 如 两年来不同地区 人口和产品情况下的各销售部门销售业绩分析 预测分析 在历史信息的基础上预测某些事件和行为 如 建立预测模型来描述客户的流失率 分类 根据某种标准将数据库记录分类到许多预先定义好的类别 如 信用卡公司将客户记录分为好 中 差三类分类可以产生规则 如果一个客户收入超过5000万元 年龄在45 55岁之间 居住在某地区 那么他的信用等级为好 数据挖掘技术 数据挖掘技术的分类 聚类 根据某些属性将数据库分割为一些子集和簇 如 在了解客户的过程中 尝试使用从未使用过的属性分割人群以发现潜在客户的簇 关联 通过考察记录来识别数据间的密切关系 关联关系常常表现为规则 常用于超市购物篮分析如 所有包含A和B的记录中有60 同时包含C 演变分析 描述行为随时间变化的对象的规律或趋势 如 通过对客户多次购物行为的分析可以发现购物行为在时间上的关系常用于产品目录营销的分析 数据挖掘的一般目的就是检测 解释和预测数据中定性的和 或定量的模式 数据挖掘技术 四 孤立点分析数据库中包含一些数据对象 他们与数据的一般行为或模型不一致 五 分类和预测找出描述并区分数据类或概念的模型 以便能够使用模型预测和分类标志未知的对象类 现代方法 关联规则 AssociationRules 关联规则的表现形式 关联规则是一种无指导学习的数据挖掘中最普遍的知识发现 是指在行为上具有某种关联的多个事物在一次事件中可能同时出现 从而在多个事物中建立联系规则的方法 如果怎么样 怎么样 怎么样 那么就会怎么样 关联规则的构成 前件 如果怎么样 怎么样 怎么样 后件 那么就怎么样 如果买了西装 就会买领带 如果买精显彩电 就会买家庭影院系统 规则的构成 如果怎么样 怎么样 怎么样 就会怎么样 前件 激发条件 后件 结果 规则表现为在前件所有条件成立的前提下 后件结果会以某一正确概率出现 关联规则 AssociationRules 规则的置信度和支持度 关联规则 AssociationRules 规则的置信度又称为规则的正确率 是指在前提出现的情况下 后件出现的概率 规则的支持度又称为规则的覆盖率 是指包含规则出现的属性值的交易占所有交易的百分比 例 如果客户买牛奶 那么他们也会买面包 置信度 在10000次交易中客户购买了牛奶 而且其中的5000个交易也同时购买了面包 则上述规则的置信度为5000 10000 50 支持度 在超市一个月的客户交易中 共有600000次交易 其中购买牛奶的交易为60000次 支持度为60000 600000 10 规则的生成 现代方法 关联规则 AssociationRules 最近邻方法 规则 如果一个客户处于 的状况 那么他可能是一个逃款者 关联规则可以使用传统的方法生成 但适当提供的属性很多时 因为每条规则的结果可能包含大量的前提条件 使用传统方法会变得不切实际 规则的生成 关联规则 AssociationRules 市场篮子分析就是一种关联规则的表现 时间序列分析是一种反映客户行为在时间上的关联性的关联规则 商业银行的客户细分 规则的应用 关联规则 AssociationRules 以前件为目标 归纳所有前件一样的规则 分析后件的营销效果 设计促销方案 完善前件 例 收集所有前件为文具 复读机的规则 分析这些商品打折是否促进其他高利润商品的销售 从而调整商品结构 设计促销方案 规则的应用 关联规则 AssociationRules 以后件为目标 归纳所有后件一样的规则 分析什么因素与后件有关或对后件有影响 设计前件促成后件 例 收集到所有后件为西装的规则 可以帮助我们了解西装的销售受哪些因素的影响或与哪些因素相关 从而可以考虑将这些因素集合在一起而产生促销效果 规则的应用 关联规则 AssociationRules 规则的置信度和支持度 规则很少是正确的 但可以经常使用 规则很少是正确的 而且很少被使用 规则多数情况下是正确 但很少被使用 规则多数情况下是正确的 而且可以经常使用 以置信度或支持度为目标 案例 BellAtlantic公司 BellAtlantic的数据挖掘系统非常成功 不仅为他们的业务开展带来很大的方便 而且节省了许多开支 BellAtlantic的电话服务目前已经覆盖了美国14个州 拥有商业电话 住家电话帐户近亿个 BellAtlantic数据挖掘系统的首要任务就是尽快地追收拖欠的电话费 同时尽量减少收债部门的成本 案例 BellAtlantic公司 软件系统的选择非常重要 经过反复挑选后 BellAtlantic采用了SAS统计软件系统建立数据挖掘系统 然后在SAS环境中利用SAS宏程序建立挖掘系统 然后是建立SAS格式库 许多数据需要格式化 比如年龄 可以从20到100岁 需要分成不同的组 这都需要利用模式来进行数据转换 有的数据不是连续变量 比如婚姻状况 单身 已婚 也需要进行一些变换才可以进行计算 日期也是需要模式化的 不同计算机系统记录日期方法不同 需要把日期转换成一致的方法 在金融保险行业日期这个变量非常重要 因为很多客户的行为都记录在日期里面了 电话公司里记帐 付款的日期也非常重要 数据挖掘方法学 模式 数据库中一个事件或事件的结合 这些事件比预期的要经常发生 其实际发生率明显不同于随机情况下的可期望发生率 模式是数据驱动的 一般只反映数据本身 模型 对构建事件的源时的历史数据库的描述 并且能够成功地应用于新的数据 以便对缺少的数据作出预测或对期望的数据作出说明 模型的一般表现形式 数学方程式 描述各客户段的规则集 计算机表示方式 模式可视化 数据挖掘技术 数据挖掘方法学 取样 根据问题的需要采用随机取样的方法从数据库中抽取数据进行挖掘 有助于迅速发现模式 创建模型 数据本身的处理过程需要验证 验证模型 模型创建过程需要保证正确 模型应用的验证 在依据一些历史数据建造模型后 将模型应用于未参与建造模型的其他类似的历史数据 比较其模型输出结果与实际结果 数据挖掘技术 经典方法 统计 统计可以通过对类似下列问题的回答获得模式 在我的数据库中存在什么模式 某个事件发生的可能性是什么 那些模式是重要的模式 统计的一个重要价值就是它提供了对数据库的高层视图 这种视图提供了有用的信息 但不要求在细节上理解数据库的每一条记录 数据挖掘方法 经典方法 最近邻 通过检测与预测对象最接近的对象的状况对预测对象进行预测 原理 某一特定对象可能与其他某一或某些对象比其它一些第三对象更接近 相互之间 接近 的对象会有相似的取值 根据其中一个对象的取值 预测其最近邻对象的预测值 商业应用 文献检索 市场篮子分析 应用评价 最近邻的数量 最近邻的距离 决定最近邻预测的可信度 数据挖掘方法 现代方法 基础理论 有指导的学习 SupervisedLearning 归纳概念分类标准与模型分类 有指导的学习的目的 建立分类模型 用模型确定新数据实例的类别 训练数据 TrainingData 与检验集 TestSet 用于创建模型的数据实例称为训练数据 用于检验模型的准确度的数据实例称为检验集 数据挖掘方法 有指导的学习 SupervisedLearning 淋巴肿 数据挖掘方法 有指导的学习 SupervisedLearning 淋巴肿 发烧 No No Yes Yes 咽炎 敏感症 感冒 淋巴肿 发烧是有意义的属性 嗓子痛 充血 头痛是无意义的属性 数据挖掘方法 有指导的学习 SupervisedLearning 淋巴肿 发烧 No No Yes Yes 咽炎 敏感症 感冒 未知分类的数据实例 检验集 数据挖掘方法 无指导的学习 UnsupervisedLearning 为没有预先定义分类标准的数据建立模型 ABC投资公司客户表 数据挖掘方法 无指导的学习 UnsupervisedLearning 区分在线投资者和经纪人投资者的特征是什么 一个新客户未开设交易保证金帐户 如何确定其将来是否会开设这种帐户 能建立一个预测新投资者月均交易数的模型吗 女性和男性投资者有什么不同的特征 交易方式 交易保证金帐户 月均交易数 性别 数据挖掘问题 属性 哪些属性相似性决定ABC公司的客户分组 属性值的哪些不同之处分隔了客户数据库 有指导的学习 无指导的学习 数据挖掘方法 现代方法 决策树 DecisionTree 决策树是一种有指导学习的数据挖掘方法 决策树的组成 决策节点 分支 叶子 根节点 分支 叶子 Debt 10 ofIncome Debt 0 GoodCreditRisks BadCreditRisks GoodCreditRisks Yes Yes Yes NO NO NO Income 40K 节点 决策树的分支过程就是对数据进行分类的过程 利用几个变量 每个变量对应一个问题 来判断数据所属的类别 在分支后 要使不同分支之间数据的差异尽可能大 同一分支内的数据尽量相同 这一分割过程也就是数据的 纯化 过程 数据挖掘方法 决策树的算法步骤 假设T为训练实例集 选择一个最能区别T中实例的属性 创建一个决策节点 它的值为所选择的属性 创建该节点的分支 每个分支代表所选属性的一个唯一值 使用分支的值 将数据实例分割为子类 对于步骤5所创建的各个子类 如果子类中的数据实例满足以下条件 可按此决策树对新数据实例指定类别 分割中只包含一条数据实例 分割中所有数据实例的属性都相同 继续分割得到的改进不明显 如果子类不满足上述条件 则设T 为当前子类数据实例集合 返回步骤2 数据挖掘方法 决策树的属性选取 属性选取标准 最大化反映数据差异 使树的层次和节点数最小 淋巴肿 发烧 No No Yes Yes 咽炎 敏感症 感冒 数据挖掘方法 淋巴肿 发烧 No No Yes Yes 敏感症 敏感症 咽炎 No Yes 头痛 淋巴肿 感冒 发烧 淋巴肿 No Yes 咽炎 No Yes 数据挖掘方法 决策树的属性选取 属性选取标准 最大化反映数据差异 使树的层次和节点数最小 信用卡促销数据库 选取收入段为根节点 选取寿险促销为输出属性 沿着每个分支有两个类 选取最频繁出现的类 收入段 2Yes2No 4Yes1No 3No1Yes 2Yes 2 3万 3 4万 4 5万 5 6万 训练集分类的正确性为11 15 73 数据挖掘方法 决策树 DecisionTree 例 信用卡促销数据库 选取信用卡保险为根节点 选取寿险促销为输出属性 沿着每个分支有两个类 选取最频繁出现的类 信用卡保险 6Yes6No 3Yes0No No Yes 训练集分类的正确性为9 15 60 数据挖掘方法 决策树 DecisionTree 例 信用卡促销数据库 选取数值型属性年龄为根节点 选取寿险促销为输出属性 依照年龄排序 对照输出属性进行数据分割 选择数据分割点 年龄 9Yes3No 0Yes3No 43 43 以年龄 43结合寿险促销 Yes 训练集分类的正确性为12 15 80 数据挖掘方法 决策树 DecisionTree 例 信用卡促销数据库 年龄 Yes 6 1 No 2 1 43 43 性别 FM 信用卡保险 Yes 2 0 No 3 0 NoYes 信用卡数据库的三节点决策树 训练集分类的正确性为13 15 87 数据挖掘方法 决策树 DecisionTree 例 信用卡促销数据库 信用卡保险 Yes 5 2 No 4 1 No Yes 性别 FM Yes 3 0 信用卡数据库的两节点决策树 训练集分类的正确性为12 15 80 数据挖掘方法 决策树 DecisionTree 例 信用卡促销数据库检验集 年龄 Yes 6 1 No 2 1 43 43 性别 FM 信用卡保险 Yes 2 0 No 3 0 NoYes 信用卡数据库的三节点决策树 数据挖掘方法 现代方法 K 平均值算法 K 平均值算法是一种简单而有效的无指导学习的统计聚类方法 将一组数据划分为不相关的簇 算法步骤 选择一个K值 用以确定簇的总数 在数据集中任意选择K个数据实例 作为初始的簇中心 试用简单的欧氏距离将其它数据实例赋予距离它们最近的簇中心 试用每个簇中的数据实例 计算每个簇的新的平均值 如果新的平均值等于次迭代的平均值 终止该过程 否则 用新平均值作为簇中心并重复步骤3 5 点A x1 y1 与点B x2 y2 之间的欧氏距离计算式为 数据挖掘方法 K 平均值算法 例 K 平均值输入属性 1 选择K 2 即将所有数据实例分为两个簇 2 选择实例1作为第1个簇的中心 实例3作为第2个簇的中心 3 计算各数据实例与C1 C2之间的欧氏距离 Dist C1 1 0 00Dist C2 1 1 00C1Dist C1 2 3 00Dist C2 2 3 16C1Dist C1 3 1 00Dist C2 3 0 00C2Dist C1 4 2 24Dist C2 4 2 00C2Dist C1 5 2 24Dist C2 5 1 41C2Dist C1 6 6 02Dist C2 6 5 41C2 4 迭代结果

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论