电信业客户分类_第1页
电信业客户分类_第2页
电信业客户分类_第3页
电信业客户分类_第4页
电信业客户分类_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、电信业客户分类(多项Logistic回归)Logistic回归是一种统计方法,它可根据输入字段的值对记录进行分类。这种 统计方法类似于线性回归,但是它使用的是分类目标字段而非数值目标字段。例如,假设某个电信服务提供商已按照服务使用模式对其客户群进行了划分,将 这些客户分类到四个组中。如果可使用人口数据预测组成员,则可以为单个预期 客户定制服务使用模式。此示例使用名为telco_custcat.str的流,此流引用名为telco.sav的数据文 件。可以从任何Clementine Client安装软件的Demos目录下找到这些文件, 也可以通过从Windows的“开始”菜单下选择Start Al

2、l Programs SPSS Clementine 11.1 Demos 来访问这些文件。文件 telco_custcat.str 位于 Classification_Module 目录下。本示例将焦点集中于使用人口数据预测使用模式。目标字段custcat有四个可 能的值对应于四个客户组,如下所示:值标签1基本服务2电子服务3附加服务4全套服务因为目标含有多个类别,因此将使用多项模型。如果目标含有两个截然不同的分 类,例如是/否,真/假,或流失/保持,则会转而创建二项模型。请参阅电信 客户流失(二项 Logistic 回归)详细信息。在Demos文件夹中添加指向telco.sav的SPSS文

3、件源节点。添加一个用来定义字段的类型节点,读取值,确保所有类型均设置正确。例 如,可以将值为0和1的大多数字段视为标志字段,但对于某些字段(如性别), 将其视为具有两个值的集合字段更为准确。提示:要更改具有相似值(如0/1)的多个字段,请单击值列标题,以便按值对 字段进行排序,然后按住Shift键的同时使用鼠标或箭头键选择所有要更改的 字段。然后您可以右键单击这些选择,以更改所选字段的类型或其他特性。因为将性别视为集合比视为标志更精确一些,所以请单击其“类型”值,然后将 其更改为集合。将客户类别custcat字段的方向设置为输出。所有其他字段的方向都应设置 为输入。因为此示例主要关注人口统计,

4、所以请使用过滤节点以选取相关字段(地区、年 龄、婚姻状况、地址、收入、教育程度、行业、退休、性别、居住地和客户类别)。 其他字段可以排除在此分析之外。callidX广callidcallwaitcallwaitforwardforwardconferconferebillebillloglonglaglonglogtoll*lagtolllogequi*lagequilogcard*lagcardlogwirelagwireInincIninccusttatcustcatchurn*4churn(另外,您可以将这些字段的方向更改为无,而不要排除这些字段,或者选择要 在建模节点中使用的字段。)在

5、Logistic节点上,单击模型选项卡并选择逐步法。选中多项、主效应和 将常量纳入方程式。将目标的底数类别保留为1。模型将对其他客户与预订基本服务的客户进行比较。在“专家”选项卡上,选中专家模式,选中输出,然后在“高级输出”对话 框中选中分类表。运行节点以生成模型,该模型会添加到右上角的模型选项板中。要查看其详 细信息,请在生成的模型节点上用右键单击并选择浏览。“模型”选项卡中显示了用于将记录分配到目标字段的每个类别的方程式。因为 共有四个可能的类别,而其中之一是底数类别,因此选项卡中有三个方程式,其 中类别3表示附加服务,等等。custca-tC3文件。生成始 园圆倒厘至容全部折叠厂部展开回

6、I|-卜等式用于510.021 57 * address 十0.5556 *ed=1 +071 85 *ed=2 +0.6729 *ed=3 +M 0.4547 *ed=4 + 0.051 33 * employ + 0.03447 * reside +|浏览模型皓第+ -1.551-等式用于20.03685 * address +-2.17*ed=1 +-1.508 ed=2 +-0.9709 *ed=3 +-0.6764 *ed=4 +0.02635 + employe 0.1 477 * reside + + 0.049011+等式用于4模型汇总设置注解确定。)职消(C)应用模型汇总设置

7、注解确定。)职消(C)应用重置“汇总”选项卡显示了(包括其他内容)模型中使用的目标字段和输入字段(预 测变量字段)。注意,这些字段是根据逐步法实际选择出来的字段,不是为进行 分析而提交的完整列表。c u.st cat13文件(D 打生成淄I司赤全部折叠C2) |明 全部展开旧:“白勿析-3另段I-&目标 custcat-&输入?罗 address:/ ed欢 employ罗 reside【+卜口构建设置田口训孤根要“高级”选项卡上显示的项目取决于在建模节点的“高级输出”对话框中选中 的选项。其中通常显示的一个项目是观测值处理概要,它显示了落在目标字段每 个类别中的记录的百分比。这将生成一个空模

8、型用作比较的基础。在不构建使用 预测变量的模型的情况下,最好的预计结果可能是将所有的客户分配到最普通的组3 (附加服务组)中。如果基于训练数据将所有客户分配到空模型,则得到的正确率将是281/1000 = 28.1%。“高级”选项卡还包括其他信息,使您能够检查模型的预测。然后,可custcat将这些预测与空模型的结果相比,以查看使用此数据的模型的执行效果。Nominal RegressionPercentage23.6%12文件吏)生成囱26.5%28.1H32.2%regian33.4%高缀庄解34 一 custcat将这些预测与空模型的结果相比,以查看使用此数据的模型的执行效果。Nomin

9、al RegressionPercentage23.6%12文件吏)生成囱26.5%28.1H32.2%regian33.4%高缀庄解34 一 4%嘛定(Q)取消(C)应用四重置(E)在“高级”选项卡底部,分类表显示了此模型的结果,其正确率为39.9%。特别 是,此模型在识别全套服务客户(类别4)时表现优异,而在识别电子服务客户 (类别2)时表现很差。如果想提高预测类别2中客户的准确性,可能需要再找到一个预测变量来识别此类客户。13 custcat12苴件0生成圈凰1*111111a.参专类别是:I.oaab,因为此手数冗余,所以将耳设为零-分美观察值预测值1.002.003.004.00百分

10、此校正1.001228756145.P%2.00581058814.6%8981335147.3%4.0047124313456.8%总百分比31.6%3.8%31.9%32.7%39.9%模型汇总高皱注解确定(0)依赖于您所期望的预测,模型可充分满足您的需求。例如,如果您对识别类别2 中的客户并不关心,那么该模型的准确性足以满足需求。这种情况可能是,电子 服务仅是一种为吸引顾客而出售且获利微薄的产品。例如,如果投资的最高回报来自于落在类别3或类别4中的客户,则该模型能 够提供所需的信息。当构建模型时,可使用“高级输出”对话框中的大量诊断信息来评估模型实际拟 合数据的程度。请参阅Logisti

11、c回归模型高级输出详细信息。Clementine中 用到的建模方法的数据原理的说明在Clementine算法指南中列出,该指南 位于任何Clementine Client安装软件的文档目录下;也可以通过从Windows 的“开始”菜单下选择 Start All Programs SPSS Clementine 11.1 文 档来访问此文档。还请注意,这些结果仅基于训练数据产生。要评估模型对实际应用中的其他数据 的拟合程度,可使用分区节点保留部分记录,以便于测试和验证。请参阅分区 节点详细信息。电信业客户分类(二项Logistic回归)Logistic回归是一种统计方法,它可根据输入字段的值对记

12、录进行分类。这种 统计方法类似于线性回归,但是它使用的是分类目标字段而非数值目标字段。此示例使用名为telco_churn.str的流,此流引用名为telco.sav的数据文件。 可以从任何Clementine Client安装软件的Demos目录下找到这些文件,也可 以通过从Windows的“开始”菜单下选择Start All Programs SPSS Clementine 11.1 Demos 来访问这些文件。文件 telco_churn.str 位于 Classification_Module 目录下。例如,假设某个电信服务提供商非常关心流失到竞争对于那里的客户数。如果可 以使用服务使

13、用数据预测有可能转移到其他提供商的客户,则可通过定制服务使 用数据来尽可能多地保留这些客户。本示例将焦点集中于利用使用数据预测客户的丢失(流失)。因为目标含有两个 截然不同的类别,因此将使用二项模型。如果目标中含有多个类别,则会转而创 建多项模型。请参阅电信业客户分类(多项Logistic回归)详细信息。在Demos文件夹中添加指向telco.sav的SPSS文件源节点。添加类型节点以定义字段,读取值,确保所有类型都已正确设置。例如,值 为0和1的大多数字段都可看作是标志字段,但对于某些字段,例如性别,则 将其看作是含有两个值的集合字段会更准确些。53 叵叵I 、牌、值ififWS涪隔所有佰g

14、o- employ retire gender reside tolltree equip csllcsrd wirelessifi1I10=0,1 UD. I53 叵叵I 、牌、值ififWS涪隔所有佰go- employ retire gender reside tolltree equip csllcsrd wirelessifi1I10=0,1 UD. In .bi1/D1/01/D1/D10.2,91 9、I国 to DI mon 混 equipmon 澎 cardmon VKlremDn 念 longten tcdllen cqulsteri 惫 carcften 澎 wirete

15、n 0 mullllne 0 voltepagr O inlernetD0.77Y0.0.109.250.0.111.95 9.7257.E.0.0.59-16.0IO.D.5028.65I 0,751 5.DO.DJ:5.:;5|1/0canidI/O1/D1/D!/:查看当前手歆兰看未侵用的字段设置髡型I榕式I注藉确定口) 职谓。)因为将性别看作集合而不是标志会更准确,所以可单击该字段的类型值并将其更 改为集合。将流失字段的类型设置为标志,并将其方向设置为输出。所有其他字段的方 向应设置为输入。将特征选择节点添加到SPSS文件节点并运行。通过使用特征选择节点,对于不能为预测变量/目标之间的

16、关系添加任何有用信 息的预测变量或数据,可以将其删除。将模型结果节点放入流程区,双击,从生成的模型节点中创建过滤节点。churn13支件(E)o生成圈画回回目回o建模节点模型至选项拔姻回口匝秩 过滤。,秩J重要性回1 tenure 妙连续1.0回 m2 禽 I叫Icing ,连续|-| rd 1 1 I haI Ii1 1.0-1 n不是telco.sav文件中的所有数据都对预测客户 流失有用。可以使用过滤器仅选择被认为很重要的 数据来用作预测变量。在“生成过滤”对话框中,选择所有标记的字段: 重要并单击确定。将生成过滤节点附加到类型节点。将数据审核节点附加到生成过滤节点,然后执 行数据审核节

17、点。在“数据审核”浏览器的“质量”选项卡上,单击%完成列以便按数值升序 顺序对此列进行排序。这样就可以识别所有含有大量缺失数据的字段;在本示例 中,唯一需要修改的字段是logtoll,其完成值比例小于50%。在logtoll的归因于缺失列中,单击指定。对于归因条件,选择空白值和Null值。对于固定为,选择平均值。口归因设置冈字段:lei gtcill 存储类型:碾实数字段:lei gtcill 存储类型:碾实数归因方法:选择平均值可确保归因值不会反过来影响总数据中所有值的平均值。在“数据审核”浏览器的“质量”选项卡上,生成缺失值超节点。为完成此 操作,可从菜单中选择以下项:生成缺失值超节点在“

18、缺失值超节点”对话框中,将样本大小增加到50%,然后单击确定。此时超节点将显示在流工作区中,其标题为:缺失值归因。将超节点附加到过滤节点上。将Logistic节点添加到超节点。在Logistic节点上,单击“模型”选项卡并选择二项过程。在二项过程区域, 选择前进法。在“专家”选项卡上,选择专家模式,然后单击输出。此时显示“高级输出” 对话框。在“高级输出”对话框中,选择“在每个步骤”作为显示类型。选择迭代历史 和参数估计,然后单击确定。Logistic回归:高缜第出15生成画倒|E: 样全部折叠%全部展开旧?B分析-目标 39 churn-3输入 疹 tenure 疥 employP c eq

19、uip? callcard 疥 cardmon voice internet岁 Ininc+ 口构建设置 口训缘概要汇总高级注解“汇总”选项卡显示了(包括其他内容)模型中使用的目标字段和输入字段(预 测变量字段)。注意,这些字段是根据前进法实际选择出来的字段,不是为进行 分析而提交的完整列表。“高级”选项卡上显示的项目取决于在Logistic节点的“高级输出”对话框 中选中的选项。其中通常显示的一个项目是观测值处理概要,它显示了包括在分 析中的记录数及百分比。此外,在此汇总中还列出了其中有一个或多个输入字段 不可用的缺失观测值的数目(如果有的话),及所有未选定的观测值数。向下滚动观测值处理概要以显示块0下的分类表:起始块。开始使用前进逐步法时会有一个空模型(即,没有预测变量的模型),可将此空 模型用作与最终构建的模型进行比较的基础。空模型按常规将所有值预测为0, 因此空模型的准确性为72.6%,这仅仅是因为已正确预测到有726个没有流失 的客户。但是,根本没有正确预测到已流失的客户。现在向下滚动以显示块1(方法二前进逐步)下的分类表。此分类表显示了模型在每个步骤中添加的预测变量。在第一个步骤中(在仅使用 了一个预测变量之后),模型预测流失的准确性就已从0.0%增加到29.9%。确定(口)观演值简测值churn百分比校正.001.00步骤1.00砌58P2.0murn1.0019

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论