




已阅读5页,还剩28页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
网上电信客户洞察系统技术方案 网上电信客户洞察系统网上电信客户洞察系统 技术方案技术方案 网上电信客户洞察系统技术方案 1 目目 录录 1引言引言 2 1 1项目背景 3 1 2项目出发点 5 2系统技术框架系统技术框架 6 2 1技术方法和路线 6 2 2数据仓库的体系结构 8 2 3分析维度 9 3项目内容项目内容 10 3 1项目概述 10 3 2电信客户细分模型 10 3 2 1客户细分的意义 11 3 2 2客户特征属性选择 11 3 2 3电信客户细分数据结构与流程设计 13 3 2 4电信客户细分建模方法与实验性能评测 15 3 2 5电信客户细分建模分析小结 18 3 3电信客户流失预警模型 19 3 3 1电信客户流失预警的意义 19 3 3 2客户流失预警建模方法与实验性能评测 19 3 3 3客户流失预警建模分析小结 21 3 4客户信用度评分 21 3 4 1电信客户信用度评分的意义 21 3 4 2客户信用度信息 21 3 4 3客户信用评分和实验性能评测 22 4项目的关键技术项目的关键技术 23 4 1基于联机分析 OLAP 技术的细分算法 23 4 2基于数据挖掘的聚类算法 23 4 3基于数据挖掘的分类技术 27 4 4基于层次分析法的信用度评分算法 28 5系统建设周期系统建设周期 31 网上电信客户洞察系统技术方案 2 1 引言引言 自1999年以来 由于电信重组 中国电信市场逐步形成竞争格局 竞争的出现并愈演愈烈 运 营商开始关注自身的核心竞争力 这个阶段企业开始以市场为中心 将产品的增量市场和话务量经 营 作为市场经营管理的重心所在 此阶段在中国电信一直持续到2004年王晓初总经理 精确营销 理念的提出 这个阶段属于产品导向型 随着市场竞争的进一步恶化 客户由于运营商和产品的可选择性越来越丰富 个性化的需求也 随之越来越多样 电信企业开始注重以客户为中心 把握客户需求 并作出及时准确的响应 适应 客户不断变化并越来越个性化的需求 2004年王晓初总经理提出 精确营销 的理念 预示着中国 电信以营销为导向的经营理念转变 而客户品牌的明确划分和部署 则意味着中国电信真正以客户 导向为核心营销时代的正式到来 经历了从技术导向向产品导向 目前又在朝客户导向转型 聚焦客户 道出了转型的核心 所在 聚焦客户 观念的自上至下宣贯 企业组织架构的调整优化 均是企业落实 聚焦客户 的具体举措 2003年中国电信完成的营销再造 MR 项目 提出了洞察力营销这一重要营销理念 其核心内容在于两个方面 一是规范了包括客户洞察 营销策划 营销执行 营销评估等4个环节的 闭环的营销活动流程 如图1所示 二是强调了客户洞察作为营销管理流程的起始环节 也即强调 了 聚焦客户 在企业营销管理中的关键核心地位 图1 MR的四环节营销活动流程 MR的营销活动流程在一定程度上规范了各电信企业的营销管理工作 但在实践过程中 发现存 在以下两个问题 由于缺乏IT手段的有效支撑 营销活动流程闭环管理仅停留于理念层面 并未真正落实 比 如 营销审批和监控基本靠手工操作 导致营销管理效率不高 且易出错 营销闭环流程在企业并 未真正流转起来 网上电信客户洞察系统技术方案 3 客户洞察环节 主要完成分析 刻画客户消费需求及行为特征的工作 由于要处理海量的客 户消费数据 必须借助数据挖掘技术 目前电信企业的数据仓库架构以支撑传统的OLAP分析为主 导致数据挖掘项目过程中数据抽取 整合 变量生成耗时过长 企业缺乏数据挖掘专业人员等问题 均直接影响数据挖掘在企业的高效执行 客户洞察在整个营销闭环流程中关键核心地位未能真正发 挥 这两个致命问题的存在 营销闭环管理各环节之间不能环环相扣 数据挖掘成果不能普及 导 致洞察力营销这一先进营销理念在企业的落实受到严重影响 从而使 聚焦客户 流于形式 1 1项目背景项目背景 要真正地实现 聚焦客户 首先要分解营销管理流程各环节工作 并将其依据IT支撑功能类 别进行归纳总结 设计 聚焦客户 的营销管理IT支撑系统功能 要保证 聚焦客户 营销管理流程在企业的真正落实 须建立相应的IT系统 固化相关管理流 程 同时解决数据挖掘采集耗时长和客户洞察成果在营销推广应用工作中因为没有系统支撑而效率 低的问题 基于以上目标 细化营销管理流程各环节所包含的各项工作 将这些细化后的工作内容 根据IT支撑功能的性质归类 可以归纳总结为3种性质的支撑 第一类 工作流的支撑 此类支撑贯穿并衔接4大环节以及组成各大环节的内部各小环节之间 比如 构成营销策划的营销目标确定 营销方案设计 方案审批和营销测试等细化环节之间需要工 作流支撑 方可实现环节间的衔接和连贯 第二类 数据流的支撑 此类支撑主要针对营销管理流程中对于数据查询 报表查询或数据获 取的环节 比如 在执行客户洞察工作中客户分群挖掘模型的建立 需要客户统一特征视图和套餐 资料库的数据采集支撑 第三类 分析模型的支撑 此类支撑主要针对各环节中需要运行数据挖掘模型 获取客户洞察 结果的环节 比如 在营销执行环节 需要对营销活动进行目标客户定位 则可以直接运行系统中 已经建立的目标客户定位模型 获得相关的目标客户名单 实行有的放矢的营销执行 提高营销活 动的命中率 依据上述思路 聚焦客户 营销管理流程的IT系统功能架构可设计如下 如图2所示 网上电信客户洞察系统技术方案 4 图2 聚焦客户 营销管理流程IT支撑功能设计 要真正地实现 聚焦客户 还要建立并优化相应IT支撑系统 保证 聚焦客户 营销管理流 程在企业的真正落实 根据以上系统功能设计思路 并结合目前企业IT支撑系统现状 可设计 聚 焦客户 营销管理IT支撑系统架构如图3所示 图3 聚焦客户 营销管理流程IT支撑系统架构 建立客户洞察系统 主要支撑营销管理流程中各环节所涉及的客户分群 流失预警 目标客 户定位 营销评估等客户洞察 数据挖掘工作 客户洞察系统包括两部分功能 以客户统一特征视图 套餐资料库为主要内容的数据集市 主要支撑客户洞察 数据挖掘 工作的数据采集以及营销管理流程各环节中的数据查询 数据挖掘模型 并将模型模板化 以高效推动数据挖掘技术对企业各层级营销工作的应用 网上电信客户洞察系统技术方案 5 支撑 建立营销管控平台 帮助实现营销活动流程中四大环节之间以及构成各大环节的小环节之间 的工作流的贯穿和衔接 实现流程自动化和过程监控 及时发现问题和解决问题 从根本上提高营 销流程效率 实现营销工作的闭环管理 建立客户洞察系统 营销管控平台与各客户接触界面系统 以及其与企业内部办公网OA之间 的接口关系 保证数据挖掘结果能够直接指导一线客户经理的营销执行工作 同时 营销活动结果 信息也能及时反馈到客户洞察系统 帮助更新数据集市的数据 支撑营销效果评估并调优原有的数 据挖掘模型 洞察力营销理念于2003年提出 而 聚焦客户 营销管理IT支撑系统的全面提出则在2008年 如果企业缺乏贯穿整个营销流程各环节的IT系统支撑 客户洞察系统与企业的IBSS CMMS 10000等 客户接触界面系统没能建立数据接口 数据挖掘结果不能实现系统间的自动高效传送 只能通过文 件的方式给到一线营销经理 仍然达不到客户洞察对整个营销流程高效支撑的目的 这与电信企业 营销工作中反应出来对客户洞察的迫切需求形成强烈反差 目前 营销管理IT支撑系统的建设已经全面开展 某分公司率先立项 和网上电信营业系统的 开发商 某市某数码科技有限公司合作 于2008年 开发和实施电信客户特征视图系统项目 按 照已定义的客户特征要素 自动化生成客户特征库 实现为营业员 客户经理 10000号等一线客服 人员提供快捷的 方便的 灵活的 安全的客户特征视图展现服务 系统性能为实时响应时间小于3 秒 客户特征要素包括基本信息 温馨提示 客户联系和决策信息 客户经理 产品结构 客户协 议 语音分析 产品订购 协议签订 客户抱怨 客户催缴 客户关怀 主动营销 客户价值 客 户信用 客户预测 客户风险和电信事件十八类属性的数据集市 为建设电信客户洞察系统打下了 牢固的基础 1 2项目出发点项目出发点 建设电信客户洞察系统 项目开发方还须注重以下方面的工作 方可真正落实 聚焦客户 的 目标 1 充分利用某分公司内部数据的资源优势 开展客户洞察工作 电信与其他行业相比 内部数据资源方面有极大的优势 因为计费的需要 电信客户每次电话 呼叫 每次上网 每次短信等电信消费行为均在企业内部系统中留下记录 依据这些记录 可以分 析刻画所有客户的消费习惯 消费特征 比如大到分析客户所属价值段 电信消费结构和变化趋势 消费是否出现异常 小到分析客户习惯什么时段打电话 通话方向的集中度如何 客户是否习惯 网上电信客户洞察系统技术方案 6 煲电话粥 等等 因为电信企业内部数据具备外部市场调查数据所不可比拟的全面性 完整性 真实性等特点 因此 从国内外电信运营商客户洞察 数据挖掘的工作开展来看 均是充分利用企 业内部数据 建立数据仓库 作为支撑客户洞察工作长期开展 持续优化并直接应用于营销推广的 重要数据来源 2 数据挖掘模型研发的持续性优化 从原始数据到有用的信息 需要数据加工 数据分析的过程 与传统的统计分析技术不同 数 据挖掘是一种高效处理海量数据 并从纷繁复杂的数据中发现规律和可用信息的技术 与统计分析 工作相比 数据挖掘模型的研发耗时长 技术含量高 工作量大 占用资源也更多 同为营销支撑 统计分析工作的最终结果是判断营销问题 发现营销机会 支撑到分产品分客户群的营销策略 而 数据挖掘模型的结果则可以到最细粒度的营销支撑 直接支撑到每个客户的差异化营销策略 一个 自商业理解开始 至模型部署结束 经过CRISP DM六环节的数据挖掘模型研发工作 通常需历时两 个月才能完成 加强模型研发的持续性优化 无论从完善模型的推广应用效果 还是提高研发资源 的效率 都极具意义 3 数据挖掘专业队伍的培养 数据挖掘是一门专业性较强的技术 从事电信数据挖掘研究的人员 不仅需要有统计分析 数 据库管理的专业背景 更需要对电信客户 营销工作以及企业内部数据资源有充分的了解 优秀的 数据挖掘研究人员不是一朝一夕就能成就 通常需要大概三年的培养期 一项数据挖掘模型研发工 作决不是单打独斗就能完成 需要分工合作 群策群力 团队作战 方可最终完成 客户洞察系统 作为营销管理流程IT支撑系统的起点子系统和核心子系统 并非一个功能性的系统 而是应用型系 统 需要持续的模型研发和优化 才能发挥其作用 这就要求有一支稳定的数据挖掘团队的长期支 撑 假若没有稳定的专业团队 就不可能有持续性的模型研发和优化 假若没有持续性的模型研发 和优化 便不能解决企业不断出现的营销新问题 客户洞察系统将形同虚设 那么 聚焦客户 的目标也将越来越远 2 系统技术框架系统技术框架 2 12 1技术方法和路线技术方法和路线 技术路线采用J2EE XML 应用服务器采用WebLogic 数据库采用Oracle 10G 中间件服务器采 用BEA Tuxedo 8 开发框架采用Spring Hibernate Struts Ajax 结构 如图4所示 网上电信客户洞察系统技术方案 7 图4 J2EE系统结构逻辑图 StrutsStruts 技术技术 Struts 是典型的基于MVC 模式应用架构的框架 MVC是模型 Model 视图 Viewer 控 制 Controller 的缩写 Struts 分别对这三个类提供了实现组件 HibernateHibernate 技术技术 Hibernate 是一个数据持久层框架 是一种实现对象和关系之间映射的工具 对JDBC 进行了 轻量级的对象封装 使程序员可以使用对象编程思想来操作数据库 不仅提供了从Java 类到数据表 的映射 也提供了数据查询和恢复机制 相对于使用JDBC 和SQL 来操作数据库 使用Hibernate能 大大地提高实现的效率 Hibernate 框架用配置文件的形式来定义Java 对象和数据表之间的映射关 系 同时在更深的层面将数据表之间的关系解释为Java 对象之间的继承及包含等关系 通过使用 HQL 语句将复杂的关系算法用对象的方式描述 在很大程度上简化了对数据的查询 加快了开发的 效率 在Hibernate 中有一个简单而直观的API 用于对数据库所表示的对象执行查询 要创建或修 改这些对象 只需在程序中与其交互 然后告诉Hibernate 保存即可 SpringSpring 技术技术 Spring 是一个轻型容器 其核心是Bean 工厂 用以构造所需要的M Mode1 在此基础之上 Spring 提供了AOP的实现 用它来提供非管理环境下申明方式的事务 安全等服务 对Bean 工厂的 扩展ApplicationContext 更方便实现J2EE 的应用 DAO ORM 的实现方便进行数据库的开发 Web MVC 和Spring Web 提供了Java Web 应用的框架或与其他流行的Web 框架进行集成 采用采用AJAXAJAX减少生成图表的页面延迟减少生成图表的页面延迟 由于采用的是B S 结构 不可能像C S 结构那样在客户端时实生成图表 B S 结构必须由客户 端向服务器端提出请求 由服务器端生成图表 再传递给客户端 这样就牵扯到页面刷新的问题 网上电信客户洞察系统技术方案 8 会使使用者有延迟的感觉 这里必须采用AJAX 技术 减少这种延迟 2 22 2数据仓库的体系结构数据仓库的体系结构 数据仓库不是软件产品或应用程序 而是一种系统体系结构 它提供了一种模式 在这种模式 中 应用程序之间相互紧密链接 而且与硬件 操作系统 数据库 网络及接口软件集成起来 并 与业务过程进行交叉引用 作为一个完整的系统 数据仓库应该包括四大模块 数据获取模块 数据存储模块 管理模块 和数据访问模块 如图5所示 图5 电信客户洞察系统的数据仓库体系结构图 数据获取模块数据获取模块 数据获取模块用于从外部数据源 如各个业务系统中提取数据 然后进行转换并加载到数据仓 库中去 在这个过程中 要对数据进行检验和整理 包括记录或字段重组以及检查数据的完整性和 一致性 保证数据是干净的 准确的 并且有通用的含义 然后 要按照数据仓库的设计要求 对 网上电信客户洞察系统技术方案 9 数据进行重新组织和加工 装载到数据仓库中 并能周期性的刷新数据仓库以反映数据源的变化 数据存储模块数据存储模块 数据仓库中的数据既可以存储在关系型数据库 也可以存储在多维数据库中 基于关系数据库 的存储方式是将数据仓库的数据存储在关系型数据库的表结构中 在元数据的管理下完成数据仓库 的功能 多维数据库其数据组织采用多维数组结构文件进行数据存储 并有维护索引及相应的元数据 管理文件与数据相对应 管理模块管理模块 管理模块包括一整套用于监控 维护数据仓库环境的系统管理服务 这些服务包括管理 数据获取操作 将仓库数据归档 备份和恢复数据 访问仓库数据的授权 以及管理和调试数 据访问操作等 目前专门为管理数据仓库而设计的工具很少 大多数数据仓库管理者都是运用管理 传统数据库的工具来完成这些工作的 管理模块还包括了元数据的存储和管理模块 元数据描述了数据仓库中的源数据和目标数据本 身的信息 并定义了源数据到目标数据的转换过程 能帮助技术用户和业务用户访问和利用数据仓 库系统 它通过提供一整套用来维护和观察数据仓库元数据的工具来实现这一功能 数据访问模块数据访问模块 数据访问模块所提供的数据访问工具使最终用户能够访问和分析仓库中的数据 这些数据访问 工具分为以下几类 1 查询 报表生成和数据分析工具 2 访问关系数据库管理系统的多维数据分析工具 3 访问多维数据库管理系统的多维数据分析工具 4 运用了4GL或可视程序设计语言的Dss应用程序开发工具 2 32 3分析维度分析维度 数据仓库的分析维度是开展多维分析的必要因素 维度的设计影响到分析所能达到的效果 在 电信客户数据仓库中 分析的维度一般两大类 一类是客户的自然属性 特征 状态等基本保持不 变的维度 如性别 教育程度 职业 居住地区等 另外一类是与客户的消费行为相关的维度 这些 维度经常会随着时间发生变化 如客户的缴费时间 消费金额等 由于历史的原因 目前信息系统 中存储的客户资料与真实情况有较大偏差 可信程度较差 这些字段的缺失或失实大大影响了数据 质量 在很大程度上制约了数据仓库基础上的OLAP和数据挖掘 根据电信客户数据仓库集成数据模 型的数据特征 可以建立以下几个分析维度 如表1所示 网上电信客户洞察系统技术方案 10 表1 电信客户数据仓库主要分析维度表所示 3 项目内容项目内容 3 13 1项目概述项目概述 网上电信客户洞察系统 是结合我公司和某市某数码科技有限公司多年来在某电信网上营业 IT支撑领域上的数据采集和挖掘技术 采用目前最流行的J2EE分布式体系结构 融合联机分析 聚 类 分类和层次分析法的数据挖掘技术 实现电信客户细分 电信客户流失预警和客户价值的分析 模型的IT支撑 即 主要解决营销管理流程中各环节所涉及的客户分群 流失预警 目标客户定位 营销评估等客户洞察和数据挖掘工作 为建立未来的营销管控平台打下牢固的基础 3 2电信客户细分模型电信客户细分模型 作为客户洞察系统的核心理念之一 电信客户细分已经成为一种基础性的分析功能 并将为包 括操作层 战术层以及战略层在内的企业管理和营销提供全面的信息支持 客户细分是指企业在明 网上电信客户洞察系统技术方案 11 确的战略 业务模式和特定的市场中 根据客户的属性 行为 需求 偏好等因素对客户进行分类 并提供有针对性的产品 服务和营销模式的过程 3 2 1客户细分的意义客户细分的意义 电信客户细分的意义在于 1 获取潜在客户 根据对现有客户分析 识别潜在客户 提高市场反应速度 优化销售渠道结 构 提供差异化产品 2 减少客户流失 了解流失率较高的客户群特征 特别是获利较多客户的个性特征 通过客户 细分监控具有类似个性特征的客户发展动态 提高客户流失预测准确率 提前预防客户流失 3 降低服务成本 提高企业的运营效率 通过细致地分析用于各个用户群的服务成本 用最优 投资方案定位于目标市场 设计出针对各个细分市场的目标策略 例如将呼叫转移功能与非高峰时 段服务进行捆绑就可以满足那些相对固定在办公室上班的用户的基本产品消费需求 4 提升客户价值 客户细分带来了更精准的营销信息传递 更好的渠道策略 更多的捆绑服务 及打包服务 更及时的产品需求变化 更好的合作 服务策略及其管理 提高了增值和交叉销售的 可能性 5 提高满意度 监控每个客户群的产品使用和获利情况 建立不同的销售渠道 根据客户需求 定制个性化服务产品 及时洞悉客户的产品使用情况 提高客户产品使用满意度 6 制定精确化营销策略 通过熟悉各个细分客户群的特征 为其定制专门的价格 渠道 促销 和个性化产品 3 2 2客户特征属性选择客户特征属性选择 细分属性取自于已建立的电信客户特征数据集市 目前所建立的客户特征数据库的属性多达数 百个 系统依据细分的挖掘算法和细分目标要求 对数据库中的众多属性进行选择 在现有的属性 集中 属性的均值 波动和趋势无法体现 因此在已有属性的基础上要设计一些衍生属性 输入属 性的选择直接决定了生成模型的质量 属性选择是科学加艺术的活动 需要有丰富的经验 并在实 践中反复探索验证 最终才能作出合理的选择并达到理想的效果 参与细分的属性既不宜太多也不 宜太少 让最能决定细分目的的属性参与细分 其它属性用于特征刻画和辅助分析 属性选择应结合业务意义 细分目的 数据质量 数据探索来选择 主要原则 1 从业务的角度看 无分析意义的属性不参与细分 2 离散属性 取值个数较少的及数据质量较差的属性不参与细分 网上电信客户洞察系统技术方案 12 3 互相之间可以派生 相关性太强 的属性不全部参与细分 4 总量和分量不一起参与细分 5 属性选择要尽可能地涵盖电信用户所选择的各种电信业务 基于数据挖掘技术的客户细分在属性选择上主要从三个维度考虑 即客户基本属性 客户消费 行为属性和客户价值属性 如图6所示 图6 细分三维属性 客户基本属性 客户基本属性包括年龄 性别 家庭 种族 职业 教育状况 收入等多种内容 这种反 映客户统计学特征的细分属性为多数电信企业在早期所采用 而后各个电信企业根据各自的实 际情况再进行细化 以人口统计学等静态属性为细分属性 在市场竞争的初期 对电信行业的营销策略具有一 定的成效 但随着电信市场的进一步发展和完善 这些方法表现出明显的局限性 研究表明 客户的基本属性特征对客户消费行为的预测存在信息放大 偏离的可能 从而导致信息失真 对营销决策产生误导 同时 客户的基本属性在电信系统中信息不完备 且是离散属性 在细 分过程中主要作为客户群的特征刻画的辅助分析 因此 在电信客户细分属性选择上重点考虑 的是客户行为属性和价值属性 价值属性 价值属性包括客户给电信企业带来的收入c电话费 上网费等等 为客户提供服务所需要 的成本 为了获取客户所需要的成本 客户能够给电信企业带来的生命周期价值等等 考虑到 获取数据的难易程度 收入是最常用的一个属性 同时 成本和生命周期价值等也是非常重要 的属性 应该尽量获取 当然这和电信企业的IT系统有密切关系 网上电信客户洞察系统技术方案 13 价值维度主要包含以下属性 1 电信收入 如电话费 月租费 上网费 增值服务费等等 2 为客户提供服务所带来的成本 如网络费用 安装费用 客户拨打呼叫中心咨询业务 所发生的费用 当然对于客户来说这是免费的 等等 3 为了获取客户所需要的成本 如广告费用 促销费用等等 4 客户生命周期价值 根据客户带给公司的利润以及客户接受公司服务的时间长短 用 现金流折现法得出客户对于公司的价值 行为属性 行为属性描述的是客户在使用电信企业产品时所表现出来的行为特点 比如说使用量 MOU 就 是最常见的行为属性 不同的客户月使用量是不同的 而且使用量的变化率也常常是不同的 另外 客户对某种产品的使用 如长途电话 本地电话 宽带等 客户对某种销售渠道的使用 如呼叫中心 营业厅 网上营业等 都是客户行为的反映 显然 行为维度所需要的数据对于 电信企业来说是比较容易获得的 而且对于市场营销也有很强的指导意义 行为维度主要包含以下属性 1 使用量 各个产品和服务的使用量 如长话 市话 宽带 小灵通等 2 根据使用量推导出的各种属性 如使用量变化率 长话和市话的比例等等 3 欠费情况 客户缴费的及时性 3 2 3电信客户细分数据结构与流程设计电信客户细分数据结构与流程设计 在对某电信客户的各种通话行为 消费行为进行数据采集和分析的基础上 通过确定细分变量 与描述变量 基于客户细分需求 并结合以上数据行为特征选取的方向 定义几组数据作为细分变 量 其中 为了使分群保持一定的稳定性 使用用户的三个月行为数据的均值来代替用户当月的行 为数据 为了更好地总结各个群体的特征 使用描述变量来辅助描述群体特征 细分变量数据结构 如表2所示 网上电信客户洞察系统技术方案 14 表2 细分变量 除了细分变量 再选择描述变量 在分群后 计算各个用户群中变量的均值 辅助解释用户群 体的特征 如表3所示 表3 描述变量 电信客户细分基础数据包括 用户基本资料 用户资料各变量描述的是用户的静态属性 这部分数据主要存储了用户购买移动服务的一些信息 用户帐务类数据 以用户为单位对清单进 行合并后形成的明细费用项集合 记录了用户的费用信息 可作为预测主题中的用户行为数据的一 部分 用户通话行为数据 描述的是用户语音服务使用的详细记录 数据的质量相对较高 但数 据量巨大 用户群选择只考虑最近连续3个月出账用户 去掉测试 公免 无线公话 无线固话 商务电 话用户 生成模型预选变量的数据聚合过程如下 用户基本资料准备程序流程 抽取合约用户基 本资料 删除无线公话 无线固话和商务电话用户 用户通话行为类数据准备程序流程 具体过 程如图7所示 生成挖掘宽表 将当月的数据插入临时表 将前一月的数据插入临时表 将前两个 月的数据插入临时表 汇总3个月的数据 计算平均值 最大值和最小值 网上电信客户洞察系统技术方案 15 图7 用户通话行为类数据程序流程 3 2 4电信客户细分建模方法与实验性能评测电信客户细分建模方法与实验性能评测 1 基于基于OLAP技术的电信客户细分技术的电信客户细分 传统的客户细分是根据客户某方面的属性进行OLAP分析 OLAP的目标是满足决策支持或者满 足在多维环境下特定的查询和报表需求 它的技术核心是 维 dimension 这个概念 通过把一个 实体的多项重要属性定义为多个维 使用户能对不同维上的数据进行比较 选择客户细分的维度为 用户ARPU Average Revenue Per User 值 根据每用户平均收入ARPU 值进行分类 根据客户的消费 额高低将客户分成高中低几档客户 ARPU值维度的用户细分如表4所示 表4 ARPU 值维度的用户细分 2 采用数据挖掘技术的电信客户细分建模过程采用数据挖掘技术的电信客户细分建模过程 应用K means快速聚类算法 采用TABLE 模式从数据库中表里面读取应用数据 过滤掉描 述变量和需要在结果中显示的字段 仅保留细分变量 因为K means 建模只是对用户的细分变量进 网上电信客户洞察系统技术方案 16 行聚类 描述变量等不需要进入K means聚类 读取数值 Read Values 保持默认设置 使用 K means 模型节点进行聚类以生成Kmeans聚类模型 在K means 模型节点的 模型 Model 选项 卡中 在 指定的聚类数 栏中填写聚类的数目 用户行为细分模型聚成了10 类 在聚类标签栏中 选择数值10 在K means 模型节点的 专家 Expert选项卡中 模式选择专家 停止条件选择定制 最大迭代次数选择50 差异容忍度选择0 001 集合编码值保持默认0 70711 将生成的K means 聚类模型代入到数据中 剔除异常用户后再进行聚类 不断重复进行代入模型 剔除异常群体的操 作 直到得到比较理想的聚类结果 使得各个群体有一定的人数 群体特征比较明显 有营销价值 为止 3 电信客户细分结果对比分析电信客户细分结果对比分析 1 基于OLAP 的电信客户细分方法评估基于OLAP 技术的细分模型的结果精度采用如表4 所示的细分得到的最近若干个月的各群体人数及标准差来表述 在电信客户特征视图系统项目中 系统建设目标在于按照从电信客户洞察角度定义的客户特征要素 采集生成客户特征库 而使用基 于OLAP的电信客户细分方法评估 得出实验样本的分析结果精度如表4 表5 基于OLAP 技术的细分情况 2 基于融合联机分析和数据挖掘聚类的电信客户细分方法评估客户细分模型的精度采用细 分得到的最近若干个月的各群体人数均值及标准差来表示 如表5 融合联机分析和数据挖掘技术 进行电信客户细分方法对客户的行为特征进行客户细分 将客户的几十个甚至上百个变量纳入客户 细分过程 充分考虑消费结构 消费行为等因素 同时 客户细分不需要依赖经验 采用K means 聚类算法自动地根据消费结果 消费行为等属性将客户分群 每个组的客户的特性表现相对接近 而不同组的客户的特性又很不相同 并且各群体人数之间比较均衡 各群体人数逐月变化较小 即 模型性能稳定 因此更具实用价值 网上电信客户洞察系统技术方案 17 表6 基于联机分析和聚类方法的细分情况 实验在4CPU 8GB 内存的数据库服务器环境下进行 操作系统为64位windows 2003 Server 操 作系统 数据库管理系统为Orcale 应用服务器为双CPU 内存4GB 硬盘存储空间200GB以上的高 性能PC Server 系统安装数据挖掘算法服务端软件 经过数据整理 聚类建模 分析评估等过程 我们实现了以客户行为的电信客户细分 图8和 图9给出了实验的部分交互查询结果 低迷组 节俭组的群体人数非常多 但是ARPU 值相对较低 需要重点营销 提高这部分 人群的消费额度 是重要的收入提升点 高端组 长途组 活跃组的群体人数较少 但是这部分人 群的收入贡献很高 需要重点关注 其他群体属于较稳定的用户 需要适度关注 继续保持 被 网上电信客户洞察系统技术方案 18 叫通话组内用户主要以被叫通话为主 高端组和长途组内用户主 被叫通话都非常多 是使用非常 活跃的用户 低迷组和节俭组内用户主被叫通话非常少 是不活跃的用户 这部分用户要重点营销 提高活跃度 实验结果业务解释如下 客户群1 这类用户ARPU值仅有17 8 元 通话行为非常少 通话小区数和交往圈人数都很 少 定义为低迷组 客户群2 这类用户被叫通话很多 是一类以被叫通话为主的用户 定义为被叫通话组 客户群3 这类用户ARPU 值高达132 4 元 通话行为非常多 长途通话非常多 通话小区 数和交往圈人数都非常多 定义为高端组 客户群4 这类用户漫游通话较多 是一类经常去往外地的用户 定义为漫游组 客户群5 这类用户长途通话非常多 定义为长途组 客户群6 这类用户以网内通话为主 发送短信也较多 定义为网内通话组 客户群7 这类用户以漫游通话为主 以网外通话为主 拨打移动和联通客服电话很多 发 送短信也很多 定义为活跃组 客户群8 这类用户通话行为少 发送短信也少 通话小区数和交往圈人数较小 定义为节 俭组 客户群9 这类用户通话行为比较活跃 属于中上水平 定义为普通组1 客户群10 这类用户绝大多数通话行为 发送点对点短信接近各个群体的平均值 定义为普 通组2 3 2 5电信客户细分建模分析小结电信客户细分建模分析小结 融合联机分析和聚类的电信客户细分建模方法以客户的行为特征进行客户细分 将客户的几十 个甚至上百个变量纳入客户细分过程 充分考虑消费结构 消费行为等因素 客户细分不需要依赖 经验 采用Kmeans聚类算法自动地根据消费结果 消费行为等属性将客户分群 每个组的客户的特 性表现相对接近 而不同组的客户的特性又很不相同 并且各群体人数之间比较均衡 各群体人数 逐月变化较小 模型性能稳定 实验结果表明这种方法具有更好的实用价值 下一步的研究工作是 将数据挖掘技术应用于电信客户流失预警模型 客户价值模型 客户信用度评估 交叉销售模型和 提升销售模型的建立与分析 网上电信客户洞察系统技术方案 19 3 33 3电信客户流失预警模型电信客户流失预警模型 3 3 1电信客户流失预警的意义电信客户流失预警的意义 Gartner公司的调查数据表明 开发一个新客户的费用是维持一个老客户成本的4一5倍 对于每 个运营商这个数字可能会有或多或少的差别 但可以肯定的是在现阶段激烈竞争的市场环境下 降 低客户流失率已成为各运营商需要考虑的重要问题 如何挽留客户 这是一个复杂而系统的问题 回答这个问题首先需要做的就是找出哪些客户是 易于流失的 客户在使用运营商服务的同时在各种各样的系统留下了大量的数据 这些数据是否能 告诉我们一些客户的消费习惯 体现客户的一些消费特征 对于这样的命题 国内外运营商已经广 泛地引人数据挖掘方法来进行分析研究 3 3 2客户流失预警建模方法与实验性能评测客户流失预警建模方法与实验性能评测 1 数据样本对象数据样本对象 在业务支撑系统提取市区a月份主动拆机b套餐用户387人 该月份在用用户18779人 拆机率为 2 06 为了得到分类模型 首先准备训练样本数据 样本数据包括样本拆机用户和样本未拆机用户 样本拆机用户使用上述主动拆机用户387人 而样本未拆机用户取上述在用用户18779人中的800人 训练样本浓度为32 6 样本浓度需要在建模中反复调整以得到最佳模型 样本浓度过浓会导致过度 训练 而低了则会导致流失客户在样本中被淹没 这个浓度的选取是参考后面测试结果和实际拆机 率2 06 这个指标选定的 2 数据样本对象选取数据样本对象选取 选定样本对象后需要选取样本对象的考察纬度 就是说需要选取能够体现易流失客户特征的纬 度 基于一定的商业理解 我们在计费系统和账务选取本地移动联通次数 b mobile cnt 本地移动 联通时长 ls mobile sc 本地区内次数 ls zone cnt 本地区内时长 ls zone sc 信息费 PHS点对 点短消息网内 sms fee 信息费 PHS点对点短消息网间 mobile sms fee 在网时间 stay year 等21 个纬度 并追加flag字段用来标示类 流失客户为1 未流失客户为0 因为样本对象是a月的流失的 所以考察其a 2月的纬度 空下一个月用于进行挽留活动 3 建模建模 考虑使用决策树来建立需要的分类模型 决策树通过计算节点的纯度来对样本进行切分 比如 CART以Gini C4 5以信息增益 CHAID以卡方 各种算法形成模型树的形状也不同 网上电信客户洞察系统技术方案 20 以CART算法为例 分析计算输入样本可以得到图10所示的分类树 图10 CART算法形成分类方法 可见stay year对实际的分类效果起了决定性的作用 可以看出stay year是易流失客户的一个比 较重要的特征 另一方面其他属性完全被这个属性淹没 所以第二步剔除stay year进行第二次建模 得到分类树如下图所示 图11 除去stay一year字段的分类方法 网上电信客户洞察系统技术方案 21 由于易流失客户占全量客户的比例很小 所以使用特征来精确提取是很困难的 本项目采用排 除法 根据模型生成一些高价值路径形成SQL在全量客户中进行排除 剩余的客户就是疑似易流失 客户群 测试数据集使用a 1月份流失用户和在用用户计算好纬度后在数据库建表testing 根据模型的有 价值路径使用SQL进行排除 例如 Delete from testing where stay year not in 3 4 5 可以使用不同的分类方法建立模型 使用合理的价值路径进行多步删除 4 测试测试 实验对测试数据集提供了10步排除最后得到结果 a 1月份市区主动拆机b套餐用户和在用用户 分别为307人 19621人 a 2月份市区主动拆机b套餐用户和在用用户分别为330人 19819人 经过 模型后 a 1月取出了b套餐全量的23 29 覆盖b套餐流失客户48 18 a 2月取出了b套餐全量的 23 24 覆盖b套餐流失客户47 23 模型在选取较少量的全量用户集合的情况下覆盖了较多的流 失客户 具有一定的应用价值 网上电信客户洞察系统技术方案 22 3 3 3客户流失预警建模分析小结客户流失预警建模分析小结 在建立分类的过程中纬度的选取始终是最重要的工作之一 在选择纬度时不仅需要考虑到数据 的统计要的是考虑纬度的商业特征 比如 用户投诉次数这种纬度就有可能会对流失产生比较大的 影响 另外模型是需要进行比较长时间的测试与完善才可以进行使用的 3 43 4客户信用度评分客户信用度评分 3 4 1电信客户信用度评分的意义电信客户信用度评分的意义 客户信用管理机制是对客户信用相关信息进行收集 管理在对客户信用信息有效的管理基础之 上 通过一定算法进行运算 得到客户实际的信用度评分以及信用等级评价 对信用等级高的客户 就可以实施特殊的服务 客户的信用度可以针对某一客户 分个人客户和单位客户 而言 也可以针 对某一客户群体而言 客户的信用度也是动态变化的 3 4 2客户信用度信息客户信用度信息 客户信用度信息是指影响客户信用度的因素信息 影响客户信用度的具体因素包括以下几个方 面 客户性质 包括党政军机关客户 社会公益事业客户 其他重要客户 其他大客户 其他公 众客户 交费方式 包括逐月交费方式 预交费方式 银行托收代扣 邮政代扣 信用卡交费 网上 交费 通信设备 包括普通电话 中继线 公用电话 ISDN 800卡电话等 交费及时情况 包括按时交费 延期交费 通信费用 包括50元以下 50 100元 100 200元 200 500元 500 1000元 1000 5000元 5000 10000元 10000元以上 并对其进行权值划分 污点行为 包括欠费原因造成停机 违章使用电信产品 破坏通信设施行为 因此 客户信用度信息包括上述这六种影响客户信用度的因素信息 这些信息要定期进行更新 从而确定客户在不同时期的信用度 网上电信客户洞察系统技术方案 23 3 4 3客户信用评分和实验性能评测客户信用评分和实验性能评测 由于各种复杂因素对信用度的分析有着不同的影响 因此 将这些因素之间的关系加以条理化 并以此为依据测算出各具体因素对信用度的权值大小 为此 需要一个综合评价方法体系加以分析 以便可以综合考虑可量化和非量化因素的影响力 使用定性定量相结合的层次分析法 AHP 来对各 具体因素对信用度的权值大小进行估算 采用层次分析法的优点在于 能够将定量分析和定性分析有机地结合起来 达到定量地分析一 些难以精确定量的定性决策问题 并且 在分析过程中 决策者 决策分析者 专家之间可以进行 相互交流 利用大家所共同认可的评价标准来做出最终的决策 试验样例 选取政企客户省军区 邮政和市政府三个客户作为信用对比的对象 依次 建立层 次结构模型 构造成对比较矩阵 进行层次单排序及其一致性检验 进行层次总排序及其一 致性检验 通过排序结果分析 解决实际问题 结果如下 根据不同客户在不同准则上的比较 应用层次分析法的步骤可以得到表7的结果 根据表1的数据可以看出 所选择的三个用户在某电信的信用度从高到低的顺序依次是省军区 0 462 市邮政 0 309 市政府 0 221 通过分析可以看出以上三个企业对某电信的信用度是不同 的 要对信用度高的用户提供更好的服务 使其对某电信的忠诚度更加牢固 对其信用度低的用户 采取相应的政策使其提高对某电信的信用度 4 项目的关键技术项目的关键技术 融合联机分析 聚类 分类和层次分析法的数据挖掘技术 实现电信客户细分 电信客户流失 预警和客户价值的分析模型的IT支撑 此类支撑主要针对各环节中需要运行数据挖掘模型 获取客 户洞察结果的环节 另外 还可以将数据挖掘技术应用于交叉销售模型和提升销售模型的建立与分 析 网上电信客户洞察系统技术方案 24 4 14 1基于联机分析基于联机分析 OLAP OLAP 技术的细分算法技术的细分算法 传统的客户细分是根据客户某方面的属性进行OLAP分析 OLAP的目标是满足决策支持或者满 足在多维环境下特定的查询和报表需求 它的技术核心是 维 dimension 这个概念 通过把一个 实体的多项重要属性定义为多个维 使用户能对不同维上的数据进行比较 选择客户细分的维度为 用户ARPU Average Revenue Per User 值 根据每用户平均收入ARPU 值进行分类 根据客户的消费 额高低将客户分成高中低几档客户 基于OLAP 的细分算法的优点是比较简单 易操作 但是这种分类方法比较粗糙 用户的消费 结构 消费行为等因素没有得到充分考虑 没有真正将整个客户群体分出几个客观的 反映内在特 性的客户分组 而且细分的成功过分依赖经验 随着客户需求的日趋多样化 以及移动运营商新业 务的不断创新 这种以客户消费额度进行客户细分的方法就显现出明显的缺点 4 24 2基于数据挖掘的聚类算法基于数据挖掘的聚类算法 目前 聚类算法在客户细分问题中得到大量的应用 聚类算法的选择取决于数据的类型 细分 的目的和应用 对于一般聚类问题 综合考虑下面几个问题 处理不同类型属性的能力 任意数据分布的聚类 初始参数的敏感性 处理噪声数据的能力 高维性 以下介绍K means和LKM两种算法 可以参照对比使用其分析效果 主要适应于数据样本特性 去匹配 K means算法是简单而有效的统计聚类技术 但对噪声数据和初始中心敏感的缺陷 局部 搜索K means LKM 来解决噪声数据的敏感性和解决初始中心的选择 1 K means算法算法 K means算法是简单而有效的统计聚类技术 将样本集根据它们之间的相似程度分为预先制定 的K个组 若定义n为样本个数 K为聚类数 则算法的基本步骤可表述如下 网上电信客户洞察系统技术方案 25 K means算法具有很高的效率 但无法解决噪声敏感问题 通过一种局部搜索算法 Local Search LS 来改进K means算法 解决聚类结果对噪声的敏感性问题 该算法简称LKM算法 LKM算法与 K means算法的主要区别在于移动数据的标准不同 2 LKM算法算法 由于LKM是建立在局部搜索算法基础上 为了描述方便 首先给出局部搜索算法 LS 的主要过 程 LS算法 LS是一种常用的寻找函数局部最优解的算法 对于一个定义在有限集合的效用函数 采用 强力搜索方法从理论上是可以找到全局最优解的 但是实际中往往不采用这种方法 因为运用 此方法的成本太高 如果搜索局限于一个小区域 此区域可以通过指定每个点的邻居集来定义 这样采用强力搜索方法就可以找到局部最优解 通过重复此过程 就可以发现函数的一个局部 最优解 网上电信客户洞察系统技术方案 26 显然 上述算法最终收敛到了一个局部最优解 此时没有数据从一类移到另一类可以降低 目标函数值 LKM算法 考虑LS算法样本移动的增量变化来计算K means算法的最优准则函数 记 p X1 X2 L Xk p X1 L Xk x0 X 是被考虑要移动的样本 则 网上电信客户洞察系统技术方案 27 否则 转 2 网上电信客户洞察系统技术方案 28 5 最近一次没有数据移动 则算法停止 3 算法比较算法比较 LKM和K一menas都是局部寻优算法 对于LKM而言 样本划分的标准是 通过算法比较 LKM算法在消除噪声问题方面优于K一mena算法 4 34 3基于数据挖掘的分类技术基于数据挖掘的分类技术 数据挖掘方法具有极其广泛的范畴 可对应于易流失客户分析这一命题的分支称做分类技术 分类是一个标准的数据挖掘过程 需要遵循数据挖掘的基本流程 现阶段流行的数据挖掘方法论很 多 如SPSS的CRISP DM SAS的SEMMA等 其中SPSS的CRISP DM以其商用领域的广泛应用已经 成为了事实上的工业标准 CRISP DM标准将一个数据挖掘过程归纳成以下的过程 业务理解 数 据理解 数据准备 建模 评估 部署 为了便于理解和说明 可以不考虑细节地把一个分类过程分为以下几个阶段 结合预测客户流失 命题 l 选取一些确定已流失的客户 如拆机用户 和一些确定没流失的用户 如在网用户 作为样本数据 2 为这些用户选取考察纬度 例如通话时长 在网时间 费用等 3 将用户对应其纬度信息来形成一个集合 使用特定分类算法来分析记录集合并建立模型 比 如分类树 4 把未分类用户的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论