第10章数据挖掘与客户关系管理素材.ppt_第1页
第10章数据挖掘与客户关系管理素材.ppt_第2页
第10章数据挖掘与客户关系管理素材.ppt_第3页
第10章数据挖掘与客户关系管理素材.ppt_第4页
第10章数据挖掘与客户关系管理素材.ppt_第5页
免费预览已结束,剩余57页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第九章数据挖掘与客户关系管理,案例卓越亚马逊的推荐系统,学习目标,通过本章的学习,你将能够:了解数据挖掘的含义,熟悉数据挖掘的功能,熟悉数据挖掘的主要技术,掌握数据挖掘的业务流程,了解客户关系管理对数据挖掘的要求,了解数据挖掘在客户关系管理中的作用,有价值的知识,可怕的数据,数据挖掘背景,数据爆炸,知识匮乏,以及淹没在数据中的苦恼3360;不能做出正确的决定!数据、知识、决策和数据挖掘是利用各种分析工具发现海量数据中模型和数据之间关系的过程,可以用来进行预测。数据挖掘是一个提取隐藏在大量不完整、有噪声、模糊和随机的实际应用数据中的信息和知识的过程,人们事先并不知道这些数据,但它们具有潜在的用途

2、。数据挖掘是一种新的商业信息处理技术。它的主要功能是提取、转换、分析和建模业务数据库中的大量业务数据,并提取关键数据来辅助业务决策。数据挖掘,数据挖掘的特点,数据挖掘与传统分析方法的区别,数据挖掘是在没有明确假设的情况下挖掘信息和发现知识。数据挖掘所获得的信息应具备三个特征:第一,未知、有效和实用:先前未知的信息意味着信息是事先没有预料到的,因为数据挖掘是寻找那些无法直观发现的信息或知识,甚至是违反直觉的信息或知识,有效的信息意味着它符合实际情况并具有一定的代表性,实用的信息意味着它可以指导企业的营销决策,以及数据挖掘的特点。数据挖掘是在没有明确假设的情况下挖掘信息和发现知识。从数据挖掘中获得

3、的信息应该具有三个特征:未知性、有效性和实用性。数据源必须是丰富的、真实的和嘈杂的。用户发现的知识是可接受的、可理解的和适用的。它不需要查找通用知识,但只支持特定的发现问题、客户联系、客户信息和客户数据库。统计分析和数据挖掘,客户知识发现,客户管理,知识发现:从数据中提取隐藏的、未知的和潜在有用的信息,从商业数据到商业智能,数据挖掘的应用,神经网络,聚类分析,序列分析,决策树,倾向分析,客户保留,客户生命周期管理,目标市场价格弹性分析,客户细分,倾向分析,客户保留目标市场欺诈检测,关联分析,市场组合分析,产品分析,产品分析,目录设计,交叉销售,数据挖掘的应用, 数据挖掘技术的分类,回顾性分析:

4、注意解决过去和现在的问题,如:不同地区、不同人群、不同产品的各个销售部门在过去两年的销售业绩分析,预测分析:根据历史信息预测某些事件和行为,如:建立一个预测模型来描述客户流失率,分类:根据一定的标准将数据库记录分为许多预定义的类别,例如,信用卡公司将客户记录分为好的、 中等和差的类别,这可以产生规则:数据挖掘技术,数据挖掘技术的分类,聚类:根据一些属性将数据库划分为一些子集和聚类,如:在了解客户的过程中,尝试使用未使用的属性来划分人群,以找到潜在客户的聚类,关联:通过检查记录来识别数据之间的密切关系,并且关联关系通常表示为规则,这在超市购物篮分析中经常使用,如:60的所有记录同时包含A和B包含

5、C。时间序列:用于帮助识别与时间相关的模式。例如,通过对顾客多重购物行为的分析,可以发现购物行为的时间关系在产品目录营销分析中经常被使用。数据挖掘的一般目的是检测、解释和预测数据库中数据、数据挖掘技术、数据挖掘方法、模式、事件或事件组合的定性和/或定量模式。这些事件发生的频率高于预期,它们的实际发生率明显不同于随机情况下的发生率。模式是数据驱动的,在构建事件源时通常只反映数据本身、模型和历史数据库的描述,并且可以成功地应用于新数据,从而预测缺失数据或解释预期数据。模型的一般表达式、数学方程、描述每个客户细分的规则集、计算机表示、模式可视化、数据挖掘技术、数据挖掘方法、抽样,并根据问题的需要使用

6、随机抽样方法从数据库中提取数据进行挖掘,这有助于快速发现模式并创建模型。需要验证数据本身的处理过程,并且需要保证模型创建过程是正确的。在根据一些历史数据、数据挖掘技术、经典方法、统计学建立模型之后,统计学可以通过回答以下问题来获得模式:我的数据库中存在什么模式,事件的可能性是什么,这些模式是重要的模式。统计学的一个重要价值在于,它提供了数据库的高级视图,提供了有用的信息,但不需要详细了解数据库的每条记录。数据挖掘方法,经典方法,最近邻,通过检测最接近预测对象的对象的状态来预测预测对象。原理是一个特定的物体可能比其他第三个物体更接近其他一个或一些物体;彼此“靠近”的对象将具有相似的值。根据一个对

7、象的值,预测其最近邻的预测值。商业应用:文献检索,市场篮子分析,应用评估:最近邻数,最近邻距离,确定最近邻预测的可信度。数据挖掘方法,现代方法,基础理论,监督学习。归纳概念分类标准和模型分类,引导学习的目的:建立分类模型,利用模型确定新数据样本的类别,训练数据和测试集,用于创建模型的数据样本称为训练数据,用于测试模型准确性的数据样本称为测试集,数据挖掘方法,监督学习,淋巴瘤,数据挖掘方法,监督学习,淋巴瘤,发热,咽炎,过敏,感冒,淋巴瘤和发热是有意义的属性,而喉咙痛, 充血和头痛是无意义的属性监督学习,淋巴结病,发烧,不,不,是,是,咽炎,过敏,感冒,未知分类的数据示例(测试集),数据挖掘方法

8、,无监督学习,为没有预先定义的分类标准的数据建立模型,ABC投资公司客户表,数据挖掘方法,无监督学习,区分在线投资者和经纪投资者的特征是什么,如何确定新客户将来是否会开立交易保证金账户, 可以建立一个模型来预测新投资者的月平均交易数量,女性和男性投资者的不同特征是什么,交易方法,交易保证金账户,月平均交易数量,性别,数据挖掘问题,属,哪些属性相似性决定了ABC的客户分组,哪些属性值的差异分隔了客户数据库,引导学习,无监督学习,数据挖掘方法,现代方法,决策树,这是一种具有引导学习的数据挖掘方法,决策树的组成,决策节点, 分支,叶,根节点,分支,叶,收入的10%,债务=0%,良好信用风险,不良信用

9、风险,良好信用风险,是,否,否,收入$ 40k,节点,决策树的分支过程是对数据进行分类的过程,使用几个变量分支后,使不同分支之间的数据差异尽可能大,同一分支中的数据尽可能相同。 这种分割过程也是数据的“净化”过程。,数据挖掘方法,决策树的计算步骤,假设t为训练实例集选择一个最能区分t中实例的属性来创建一个决策节点,它的值为所选属性创建节点的分支,每个分支代表所选属性的唯一值,并使用分支的值将数据实例划分为子类。对于在步骤5中创建的每个子类,如果子类中的数据实例满足以下条件,根据该决策树,可以为新的数据实例分配一个类别。分段中只包含一个数据实例。分段中所有数据实例的属性都是相同的。如果子类不满足

10、上述条件,让t成为当前子类数据实例集,并返回到步骤2。数据挖掘方法,决策树的属性选择,属性选择标准:最大化数据差异的反映,最小化树的层次和节点数,并使淋巴液肿胀、灼烧、否、否、是、是、咽炎、过敏、感冒,数据挖掘方法,淋巴瘤、灼烧、否、是、过敏、咽炎、否、是、头痛、淋巴瘤、感冒、感冒。属性选择标准:最大化数据差异,最小化树层次和节点数;信用卡推广数据库,选择收入段作为根节点,选择人寿保险推广作为输出属性,每个分支有两个类,并选择最频繁的类,收入段,2是2否,4是1否,3否1是,2是,230,000,340,400训练集分类精度为111573,数据挖掘方法,决策树:例如,在信用卡推广数据库中,选择

11、信用卡保险作为根节点, 选择人寿保险推广作为输出属性,沿每个分支有两个类,并选择最频繁出现的类,信用卡保险,6是6否,3是0否,是,训练集分类的准确率为91560数据挖掘方法决策树:例如,在信用卡推广数据库中,选择数字属性年龄作为根节点,选择人寿保险推广作为输出属性,按年龄排序, 根据输出属性对数据进行划分,选择数据划分点,年龄、9Yes3No、0Yes 3No、43、43,年龄43与人寿保险促销结合是。 训练集分类精度为121580,数据挖掘方法,决策树:例如,信用卡推广数据库,年龄,是(61),否(21),43,43,性别,男,女,信用卡保险,是(20),否年龄、是(61)、否(21)、4

12、3、43、性别、F M、信用卡保险、是(20)、否(30)、否是、信用卡数据库三节点K均值算法是一种简单有效的统计聚类方法,无需指导学习。 它将一组数据划分为不相关的聚类,并逐步计算方法,选择一个K值来确定聚类总数,随机选择数据集中的K个数据实例作为初始聚类中心,利用简单的欧氏距离将其他数据实例赋予最近的聚类中心,利用每个聚类中的数据实例计算每个聚类的新平均值。如果新平均值等于迭代,否则,使用新平均值作为聚类中心,并重复步骤35。点A(x1,y1)和点B(x2,y2)之间的欧几里德距离计算如下:数据挖掘方法,k-均值算法:例如,k-均值输入属性,1。选择K=2,也就是说,将所有数据实例分成两个

13、集群,2。选择实例1作为第一个群集的中心,实例3作为第二个群集的中心,以及实例3。计算每个数据实例Dist(C11)=0.00 Dist(C21)=1.00 C1 Dist(C12)=3.00 Dist(C22)=3.16 C1 Dist(C13)=1.00 Dist(C23)=0.00 C2 Dist(C14)=2.24 Dist(C24)=2.00 C2 Dist(C15)=2.24 Dist(c25)=1.41 C2 Dist(C16)=6.02 Dist(c26)=5.41 C2对于C1:x=(1 . 01 . 0)/2=1.0y=(1 . 54 . 5)/2=3.0对于C2:x=(2

14、 . 02 . 03 . 05 . 0)/4=3.0y=(1 . 53 . 52 . 56 . 0)/4=3.375因此,新的6。由于聚类中心的变化,进行第二次迭代。K均值算法:例如,K均值输入属性,Dist(C11)=1.50 Dist(C21)=2.74 C1 Dist(C12)=1.50 Dist(C22)=2.29 C1 Dist(C13)=1.80 Dist(C23)=2.125 C1 Dist(C14)=1.12 Dist(C24)=1.01 C2 Dist(C15)=2.06 Dist(c25)=0.875 C2 Dist(C16)=5.001x=(1 . 01 . 02 . 0)/3=1.33y=(1 . 54 . 51 . 5)/3=2.50 C1:x=(2 . 03 . 05

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论