客户关系管理4-ModelerIntroduction_第1页
客户关系管理4-ModelerIntroduction_第2页
客户关系管理4-ModelerIntroduction_第3页
客户关系管理4-ModelerIntroduction_第4页
客户关系管理4-ModelerIntroduction_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、应用Modeler进行客户数据挖掘分析Modeler界面四个工作作区域:数据流流区、节节点区(选项板板)、管管理器区区、工程程管理区区建模:通通过连接接节点构构成数据据流建立立模型节点类型型数据源节节点:将数据引引入SPSS Modeler记录处理理节点:对数据记录执行操作作,如选选择、合合并和追追加等字段选项项节点:对数据字段执行操作作,如过过滤、导导出新字字段等图形节点点:在建模前前后以图图表形式式显示数数据建模节点点:使用SPSS Modeler中提供的的建模算算法输出节点点:生成可在在SPSS Modeler中查看的的数据、图表和和模型等等多种输输出结果果导出节点点:生成可在在外部应应

2、用程序序中查看看的多种种输出2Modeler数据分析析步骤读取数据据数据整理理字段和记记录:数据初处处理数据理解解建模模型评估估结果发布布3构建数据据流的基基本操作作节点增加加节点删除除节点的编编辑节点连接接:以形形成数据据流4一、数据据源可变文件件:从自自由格式式文本文文件(其记录包包含的字字段数不不变,但但包含的的字符数数可改变变)中读资资料;固定文件件:从固固定字段段文本文文件中读读入资料料(其字段没没有被分分隔,但但开始位位置相同同且长度度固定);数据库:使用ODBC来源节点点从其它它各种数数据库中中导入资资料Excel用户输入入:字段段名、字字段类型型、值,生成所所有组合合或按顺顺序

3、的数数据序列列5数据类型型数据存储储类型:字符串串型、整整数型、实数型型、日期期型、时时间型等等;数据类型型:连续续型、离离散型、标志型型、集合合型、有有序集合合、无类类型;标志:用用于只取取两个具具体值的的数据(Yes/No,0/1)集合:用用于描述述带有多多个具体体值的数数据(地地区);有序集合合:用于于描述带带有多个个具体值值且有顺顺序的数数据(教教育程度度)6二、记录录选项选择:根根据具体体条件从从资料流流程中选选择或排排除某一一记录子子集;抽样:限限制通过过流的记记录数或或排除一一定比例例的记录录;汇总:把把一系列列输入记记录变换换成汇总总性输出出记录;排序:根根据一个个或多个个字段

4、值值对记录录进行升升序或降降序排列列7三、字段段选项类型:指指定字段段的一系系列重要要属性;过滤:(1)从通过的的记录中中过滤或或剔除字字段;(2)重命名字字段;(3)把字段从从一个来来源节点点映射到到另一个个填充:替替换字段段值以及及改变存存储类型型8Modeler模型的类类型(1)决策树模模型用于于分类,基于一一组决策策规则来来预测或或分类未未来的观观测值。C&RT(分类和和回归树树)节点点生成可可用于预预测和分分类未来来观测值值的决策策树CHAID使用卡方方统计量量来生成成决策树树,以确确定最佳佳的分割割。CHAID与C&RT节点不一一样,它它可以生生成非二二元树,这意味味着有些些分割将

5、将有多于于两个的分分支。C5.0节点构建建决策树树或规则集。目标字字段必须须为分类类字段。9Modeler模型的类类型(2)神经网络络模型神经网络络节点使使用的模模型是对对人类大大脑处理理信息的的方式简简化了的的模型。只需要要最少的的统计或或数学知知识就可可以对其进行训训练或应应用。10Modeler模型的类类型(3)聚类模型型K-Means节点将数数据集聚聚类到不不同分组组(或聚聚类)TwoStep节点使用用两步聚聚类方法法。第一一步完成成简单数数据处理理,以便便将原始始输入数数据压缩缩为可管管理的子子聚类集集合。第第二步使使用层级级聚类方方法将子子聚类一一步一步步合并为为更大的的聚类。Ko

6、honen节点会生生成一种种神经网网络,此此神经网网络可用用于将数数据集聚聚类到各各个差异异组。11Modeler模型的类类型(4)关联模型型将一组组条件与与一个特特定结论论(例如如决定购购买某样样东西)相关联联广义规则则归纳法法(GRI)节点将将发现数数据关联联规则。例如,购买了了剔须刀刀的客户户在购买买剔须膏膏之后,还可能能会购买买剔须霜霜。Apriori(先验)节点从从数据抽抽取一组组规则,即抽取取信息内内容最多多的规则则。序列节点点可发现现连续数数据或与与时间有有关的数数据中的的关联规规则。例例如,一一个购买买了剃刀刀和须后后水的顾顾客可能能在下次次购物时时购买剃剃须膏。12四、图形形

7、使用图形形节点对对数据进进行探索索性分析析散点图分布图直方图集合网络图13建模分析析(1):CHAID决策树背景:某某电话公公司的数数据仓库库包含有有关该公公司的5000名客户对对特定促促销活动动响应的的信息。数据中中包括客客户年龄龄、职业业、收入入和电话话使用统统计量。其中有有三个“目标”字段,显示客客户是否否响应这这三种促促销。公公司希望望利用此此数据帮帮助预测未来中最最有可能能对类似似的促销销活动作作出响应应的客户户。数据源:customer_dbase.sav14使用CHAID决策树开开发模型型,用以以预测最最有可能能响应某某一次促促销活动动(Response_01)的客户户。方法:不

8、使用特特征选择择。数据据集中的的所有预预测变量量字段用用作CHAID树的输入入。使用特征征选择模模型。使使用特征征选择节节点选择择最佳的的10个预测变变量,然然后将其其输入到到CHAID树中。15添加类型型节点并并将response_01的方向设设置为输输出;将客户ID(custid)和其他响响应字段段(response_02和response_03)的方向设设置为无无;将所有其其他字段段的方向向设置为为输入;添加特征征选择建建模节点点;执行流以以生成特特征选择择模型。16数据流生成的特特征选择择模型显显示了所所找到的的对预测测非常有有用的字字段,选选择前10个预测变变量17CHAID分析结果

9、果18结果解释释查看器-生成树第二个树树比第一一个树包包含的树树节点要要少,但但其是否否能够有有效分出出对于促促销活动动相应的的客户?有效性比比较-收益选择目标标类别为为1(即响应应营销活活动的),将树树的终端端节点分分组为四四分位数数。要比比较两个个模型的的有效性性,可查查看每个个表中四四分位位数的提提升(即即指数值值的变化化)。同时考虑虑终端叶叶子节点点的数量量19建模分析析(2):C&RT决策树分类和回回归树节节点(C&RT)是一种基基于树的的分类和和预测方方法,此此方法使使用递归归分区将将训练记记录分割割为多个个具有相相似的输输出字段段值的段段。背景:将C&RT决策树模模型应用用于有线

10、线电视销销售的客客户分析析,其中中的目标标字段为为是否有有意预订订有线电电视交互互服务。预测变变量字段段包括年年龄、性性别、教教育、收收入类别别、每天天看电视视的时间间和子女女数(按按有序集集合编码码,值5表示5个或更多多)。数据源: NewsChan.sav20类型节点点设置NEWSCHAN设置为标标志,方方向设置置为输出出;其他他所有字字段用作作预测变变量(输输入)。模型参数数设置交互会话话选择专家家模式,修剪树树和使用用标准误误规则,最小杂杂质改变变值设置置为0.003(增加此此值可倾倾向于生生成较简简单的树树)。停止标准准:最小小绝对临临界值为为25和10。21执行节点点。此时时将出现

11、现交互树树窗口,在其中中可以生生成并编编辑树。生成树和和修剪(五层和五五个终端端节点)根据当前前树生成成模型可使用此此流生成成模型,将生成成的NEWSCHAN1模型连接接到类型型节点。并将其其连接表表节点并并执行流流。22数据流23结果解释释单击交互互树窗口口底部的的收益选选项卡,选择1为目标类类别以查查看响应应“是”的收益益。收益:节节点中具具有目标标类别的的数量/占总体的的百分比比响应:节节点中具具有目标标类别的的百分比比指数值:大于100%的节点表表示,通通过从这这些节点点中选择择记录而而不是从从整个样样本中随随机选择择记录,能够有有更多的的机会找找到愿意意接受预预订的用用户。选中目标标

12、节点,生成“选择节节点”从总体数数据中生生成满足足目标类类别的样样本生成模型型导出到表表(预测测值、置置信度)24建模分析析(3):关联分析与客客户描述述关联规则则分析的的两种方方法:可视化技技术(例例如Web图节点)关联规则则模型背景:超超市客户户数据,包括客客户基本本信息和和购买商商品信息息,通过过关联分分析寻找找客户购购买产品品之间的的关系并并且按人人口统计计信息(年龄、收入等等)刻画画其目标标客户群群体的特特征数据源:BASKETS1n文本数据据25数据流构构建类型节点点设置读取值设置类型型:将用用户卡号号cardid的类型设设置为无无类型,统计数数据的方方向均设设置为无无(在模模型中

13、不不使用),产品品类别设设置为标标志类型型,并将将方向设设置为双双向(同同时作为为模型的的输入和和输出变变量)。加入表节节点:进进行数据据浏览三大类型型数据:购物篮篮信息(卡号、购买价价格、支支付方式式),持持卡人信信息(性性别、住住房、收收入、年年龄),商品类类型信息息(蔬菜菜水果类类、鲜肉肉类、奶奶制品、罐头蔬蔬菜类等等等)26模型建立立加入web图节点加入关联联分析AprioriCARMAGRI模型(一一般规则则归纳法法)Apriori模型可以以接受两两种数据据排列方方式,GRI和CARMA只接受一一种排列列方式;只接受受名义字字段,且且字段在在方向设设定时必必须为双双向。设置模型型参数

14、支持度S=P(AB)置信度C=P(B|A)Lift=P(AUB) /P(A)P(B)2728结果解释释GRI关联分析析结果:多种商商品之间间存在关关联;Web图29设置web图选择全部部产品类类型字段段,仅显显示真值值标志(同时为为T的购买记记录)拉动链接接数显示示滑块,当显示示链接高高于100时,可获获得三个个强链接接Web输出控件件的对话话框中可可指定弱弱连接和和强连接接(单击工工具栏上上的黄色色双箭头头按钮,展开显显示)在web图设置选选项中可可预设30结果解释释三类关联联商品突突出显示示:鱼和果蔬蔬;酒和糖果果;啤酒、冷冷冻肉和和罐装蔬蔬菜决策建议议:商品陈列列:在摆摆放货架架时,应应

15、该把罐罐装蔬菜菜、冷冻冻肉品和和啤酒放放在相邻邻的位置置,把酒酒和糖果果放在一一起;客户细分分:三种种关联产产品类别别意味着着三种不不同购买买习惯的的客户31客户细分分和描述述根据客户户购买的的产品类类型标识识了三个个客户群群,但是是还要知知道这些些客户是是谁,即即识别他他们的人人口统计计学特征征,需要要为每个个群中的的每名客客户添加加标志使用规则则归纳(C5.0模型,除除了生成成决策树树外还可可以生成成规则)来基于规规则描绘绘这些标标志的特特征,可可以实现现这一点点。32构建数据据流使用创建建的Web图,可以以自动生生成每个个群的标标志。使使用鼠标标右键,单击fruitveg和fish之间的

16、链链接,并并选择为为链接生生成导出出节点。加入新类类型节点点,并进进行参数数设置:输入、输出变变量。加入C5.0模型节点点,设置置为输出出规则集集33数据流34结果解释释规则1用于Tifincome=16900andsex =Mthen T购买“非非健康食食品”的的客户特特征为收收入小于于16900且性别为为Male决策建议议:在零售领领域,可可能会使使用这种种客户组组确定特特殊优惠惠目标,以提高高促销响响应率。35建模分析析(4):Logistic回归分析析Logistic回归可根根据输入入字段的的值对记记录进行行分类。这种统统计方法法类似于于线性回回归,但但是它使使用的是是分类目目标字段段

17、而非数数值目标标字段。背景:假假设某个个电信服服务提供供商非常常关心流流失到竞竞争对手手那里的的客户数数。如果果可以使使用服务务使用数数据预测测有可能能转移到到其他提提供商的的客户,则可通通过定制制服务使使用数据据来尽可可能多地地保留这这些客户户。因为目标标含有两两个截然然不同的的类别,因此将将使用二二项模型型。如果果目标中中含有多多个类别别,则会会转而创创建多项项模型。数据源:telco.sav36类型节点点设置添加类型型节点以以定义字字段,确确保所有有类型都都已正确确设置。例如,值为0和1的大多数数字段都都可看作作是标志志字段。流失字段段(churn)的类型设设置为标标志,并并将其方方向设

18、置置为输出出。所有有其他字字段的方方向应设设置为输输入。37数据流构构建将特征选选择节点点添加到到SPSS文件节点点并运行行,从生生成的模模型节点点中创建建过滤节节点,使使用过滤滤节点选选择被认认为很重重要的数数据来用用作预测测变量。将Logistic节点添加加到超节节点。在在Logistic节点上,单击“模型”选项卡卡并选择择二项过过程。在在二项过过程区域域,选择择前进法法(逐步步向模型型中增加加预测变变量)。38数据流39结果解释释获得客户户流失的的五个关关键性影影响变量量分类表:识别流流失客户户的准确确率42.4%,识别非非流失客客户的准准确率92.3%,总体准准确率79.2%方程中的的

19、变量:回归系系数、显显著性输出表节节点:每每个客户户的流失失与否的的概率40建模分析析(4):Logistic回归分析析背景:假假设该电电信服务务提供商商已按照照服务使使用模式式对其客客户群进进行了划划分(custcat字段),将这些些客户分分类到四四个组中中。使用用人口统统计数据据预测客客户的所所属类别别。数据源:telco.sav类型节点点设置:客户类类别字段段(custcat)的方向向设置为为输出。所有其其他字段段的方向向都应设设置为输输入。过滤节点点设置:使用过过滤节点点以选取取相关字字段(地地区、年年龄、婚婚姻状况况、地址址、收入入、教育育程度、行业、退休、性别、居住地地和客户户类别

20、)。其他他字段可可以排除除在此分分析之外外。41数据流构构建添加Logistic节点,参参数设置置:选择择多项式式Logistic,单击模模型选项项卡并选选择逐步步法。在“专家家”选项项卡上,选中专专家模式式,选中中输出,然后在在“高级级输出”对话框框中选中中分类表表。42数据流43结果解释释回归方程程显示在人口统统计指标标中,模模型识别别出可用用于预测测客户分分组的主主要指标标包括:地址、教育程程度、行行业、居居住地。分类表显显示了此此模型的的结果,其总体体分类正正确率为为39.9%。特别是是,此模模型在识识别类别别4客户时表表现优异异(56.8%),而在在识别类类别2客户时表表现很差差(4

21、.6%)。44建模分析析(5):神经网网络神经网络络节点用用于创建建并训练练神经网网络,通通过学习习过程(检查单单个记录录、为每每个记录录生成预预测、发发现错误误预测便便对模型型权值进进行调整整),神神经网络络可不断断提高预预测效果果。神经网络络的三层层:输入入层、隐隐藏层、输出层层隐藏层与与神经单单元越多多,神经经网络越越利于分分析复杂杂关系45构建数据据流预测零售售产品类类型和促促销活动动对销售售的影响响数据源节节点:GOODS1n和GOODS2n字段选项项节点:导出节点点:增加加Increase字段类型节点点加入散点点图节点点:探索索Increase与Promotion之间的变变化关系系

22、。加入神经经网络模模型,并并通过表表节点输输出结果果46数据流47结果解释释-散点图促销投入入与销量量增长之之间的潜潜在线性性关系48结果解释释-神经网络络估计的准准确性: 91.892输入层: 7个神经元元隐藏层1:3个神经元元输出层: 1个神经元元输入的相相对重要要性Class0.4626Promotion0.282694Cost0.0247975Before0.013556949模型应用用可以将该该神经网网络模型型用于预预测促销销投入对对于销售售增长的的拉动效效果。导入数据据GOOD2n,进行预预测,将将预测结结果输出出为表,生成的的$N-Increase为预测值值50建模分析析(6):

23、聚类分分析Modeler中聚类分分析模型型包括Kohonen、Kmeans、TwoStep。Kohonen由一个输输入单元元层和一一个处理理单元组组成的神神经网络络生成聚聚类映像像。K-Means通过定义义一组起起始聚类类中心进进行分类类,然后后根据记记录的输输入阈值值把每个个记录分分到与其其最相似似的聚类类。TwoStep是一种分分两步进进行的聚聚类方法法,第一一步单独独通过数数据,第第二步使使用层次次聚类方方法。51聚类分析析数据背景景:对目目标人群群的健康康情况进进行分析析,主要要测量数数据包括括胆固醇醇、Na、Ka元素的含含量,从从而分为为不同类类别数据源:DRUG1n52类型节点点:

24、由于于事先不不知道数数据的分分类情况况,聚类类模型中中参与分分类的所所有的字字段方向向均设置置为输入入,Drug方向设置置为无。加入聚类类模型Kmeans节点:设置聚类类数生成距离离字段:某记录录与该类类中心的的距离显示相似似度:类类与类间间的距离离执行,生生成模型型结果节节点加入图形形节点:分布图图53数据流54结果解释释55决策列表表通过目标标变量(yes或no)标识了了子组或或段,例例如,寻寻找那些些最不可可能流失失的客户户或最有有可能对对某个商商业活动动作出积积极响应应的客户户。段、规则则和条件件:模型型由段列列表组成成,每个个段由选选择匹配配记录的的规则进进行定义义,给定定的规则则可

25、以有有多个条条件要求:目目标变量量为标志志类型或或集合的的分类目目标字段段,至少少一个预预测变量量(输入入)字段段。当目目标字段段类型为为集合时时,必须须手动选选择一个个值作为为匹配或或响应;所有其其他值集集中在一一起作为为不匹配配。56案例以某金融融公司为为例,该该公司希希望通过过为每个个客户提提供最适适合的报报价以在在未来的的商业竞竞争中取取得更大大收益。数据文件件pm_customer_train1.sav,客户类类型campaign字段表征征客户所所属类型型(普通通客户、银卡客客户、金金卡客户户、白金金卡客户户)。数据探索索性分析析:通过过图形查查看客户户类型的的分布情情况(分分布图节节点)57类型节点点:respon

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论