数据挖掘在客户关系管理系统中的应用研究.pdf_第1页
数据挖掘在客户关系管理系统中的应用研究.pdf_第2页
数据挖掘在客户关系管理系统中的应用研究.pdf_第3页
数据挖掘在客户关系管理系统中的应用研究.pdf_第4页
数据挖掘在客户关系管理系统中的应用研究.pdf_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第 3 5卷第 4期 2 0 1 5年 8月 东北电力大学学报 J o u r n a l Of N o r t h e a s t Dia n li U n iv e r s it y Vo 1 3 5 No 4 Au g , 2 01 5 文章编号 : 1 0 0 5 - 2 9 9 2 ( 2 0 1 5 ) 0 4 - 0 0 0 7 3 - 0 6 数据挖掘在客户关系管理系统中的应用研究 王 欣 , 薛 雯, 魏 源彤 ( 东北电力大学 经济管理学 院, 吉林 吉林 1 3 2 0 1 2 ) 摘 要: 随着“ 以客户为中心” 经销模式的应用, 企业越来越重视客户关系建设。企业积累了大量 的客户数据, 建立了客户关系管理系统, 数据挖掘技术为客户关系深层次分析提供了技术保证。利用数 据挖掘可以进行客户细分、 客户流失率分析、 客户满意度分析和市场交叉营销等分析。结合客户关系的 特点, 研究了基于数据挖掘的客户关系管理智能系统的体系结构, 提出数据挖掘在客户关系管理系统中 的实施流程, 研究了 I D 3算法的不足和改进算法。利用 K - m e a n s 对客户进行聚类分析, 并用改进的 I D 3 决策树进行解释, 可以更好地为管理者提供客户的有用信息, 可以指导企业更好地开展有针对性的低成 本服务, 可以提高企业的市场竞争力和客户的满意度。 关键词: 客户关系管理; 数据挖掘; K m e a n s 算法 ; I D 3算法 中图分类号 : T P 3 1 1 文献标 识码 : A 客户关系管理( C u s t o m e r R e la t i o n s h ip Ma n a g e me n t , C R M) 是利用现代信息技术 , 通过对客户进行深 层次地跟踪 , 分析客户 的需求 , 以留住老客户 、 吸引新客户 , 并且可 以及时地发现忠诚度可能会发生 变化的客户 , 及时地采取措施 , 维 护企业 的利益。随着企业经营模式从 以“ 产 品” 为核心转变为 以“ 客 户” 为核心 , 客户关系管理的重要性 日益显现 _ 2 J 。客户关系管理是工业发达国家对 以客户为中心的营 销的整体解决方案 j , C R M是从客户实际需求出发, 利用现代信息工具, 增强企业在客户服务、 客户开 发及客户发展等方面的执行能力 , 从而提高企业盈利及客户 的满意度 , 实现客户和企业“ 双赢 ” 的管理 理念。客户关系管理系统是 目前正在兴起 的一种 旨在健全 、 改善企业 与客户之 间关 系的新 型管理 系 统 4 J 。客户关系管理系统不仅仅要对客户信息进行管理 , 更重 要的是要利用 客户关 系进行数据 的挖 掘 , 以便更好地了解营销市场的结构 、 客户的喜好等 , 以便开发新产品及调整营销策略等 。目前 , 企业对 积累的大量客户数据缺乏深层次的挖掘 , 使得客户 的服务处于落后 的地位 。为了更好地对客户关系 进行研究, 将数据挖掘引入到客户关系管理系统中是非常必要的。利用数据挖掘可以找出潜在的客户 需求模式和消费行为模型, 帮助企业提高客户的满意度, 降低客户的流失率 , 提高销售业绩, 真正体现企 业“ 以客户为中心” 的服务理念。本文研究客户关系管理智能系统的体系结构 、 数据挖掘 的应用流程以 及 K m e a n s 算法和 I D 3算法的在客户关系管理系统中的应用。 1 数据挖掘技术 数据挖掘( D a ta M i n i n g ) 也称为数据库中的知识发现, 它是一种处理大量数据的数据分析技术。主 要是从大量的、 有噪声的、 模糊的、 不完全的随机数据中提取隐含的、 未知的、 潜在的但有使用价值的信 收稿 日期 : 2 0 1 5 - 0 5 - 2 0 基金项 目: 吉林省教育厅“ 十二五 ” 科学技术研究项 目( 吉教科合字 2 0 1 3第 1 1 9号 ) 作者简介: 王欣( 1 9 6 4 一 ) , 女, 河北省乐亭市人, 东北电力大学经济管理学院教授, 博士, 主要研究方向: 信息管理与信息系统 7 4 东北 电力 大学学报 第 3 5卷 息和知识的复杂过程。数据挖掘技术应用 了统计学知识 、 机器学 习、 模式识别理论 、 数据库及数据仓库 理论、 信息检索理论 、 可视化理论 、 数学算法以及高性能计算等知识和技术。数据挖掘 的方法有神经元 网络、 遗传算法、 粗糙集方法、 覆盖正例排斥反例方法、 统计分析方法和模糊集方法等。数据挖掘是数据 库 中知识发现的关键技术 , 它利用特定 的知识发现算法 , 从大量的数据中搜索 隐含在数据 中的知识 。 2 基于数据挖掘 的客户关 系管理智 能系统 的体系结构 客户关系管理就是 以“ 客户为中心” , 使企业走出以“ 产品为中心” 的经营理念 , 它是一种企业经营 模式 。客户关系管理把客户的需要作为企业发展 的宗 旨, 这种观念将推动企业最大 限度地利用其与客 户的相关资料 , 实现企业有效的服务和立体化管理 , 从而最大化企业 的整体利益。传统的 C R M 系统一 般包括市场管理 、 销售管理 、 产 品与交货管理、 服务与支持管理、 呼叫中心等部分功能。为了便于企业做 出快速 、 有效的决策 , 可以将 C R M、 企业资源计划( E n t e r p r i s e R e s o u r c e P l a n n i n g , E R P) 、 供应链管理系统 ( S u p p l y C h a i n Ma n a g e m e n t , S C M) 及其他应用系统集成起来 。E R P、 S C M等可作为 C R M 的数据仓库的 数据源。 。 J , C R M可以将市场分析预测 的结果及时反馈给 E R P系统 , E R P系统根据对市场 的预测情况 , 及时地调整产品生产和营销策略。E R P、 S C M 和 C R M的链接使企业 的生产、 销售等部 门可以根据市场 预i 贝 0 做出快速敏捷 的反应 。获得客户的关键是寻找客户信息与行为模式之间的关系 , 将数据挖 掘应用 于客户关系管理系统中, 就可以及时的发现客户的需求及客户忠诚度等信息, 企业就可以及时地调整企 业的生产和营销策略。 图 1 基于数据挖掘 的 C R M智能系统体系结构 从 图 1 基于数据挖掘的 C R M智能系统的体系结构可 以看 出, 数据层是客户关系管理 系统的物理基 础 , 是客户数据的源泉 , 它包括企业 内部和外部的各种信息平 台和数据库系统。不同数据源 中的数据经 过整合 , 存放于数据仓库中。数据集市是中心数 据信 息库 的逻辑子集 , 也称为 “ 部 门级 的数据仓库 ” 。 数据集市按照业务领域组织数据 , 一个数据集市包含一个特定 的业务分析领域数据, 如客户互动信息集 + 一 丁一 7 6 东北电力大学学报 第 3 5卷 根据帕累托法则 , 对 目标市场客户群进行识别 , 根据客户群识别的结果 , 有针对性地 向少数客户推送营 销短信, 并采用电话呼叫等方式通知少量客户, 这样既可以节省通信费用, 又可以节省人力, 同时银行也 可以得到很高的利润回报。 以往的客户价值分析多是单纯利用聚类分析来进行 , 这些聚类 的方法虽然可以将客户划分成不 同的价值群 , 但是缺少判断的标准 , 对不同类的客户价值规律不能很好地进行解释, 需要决策者 自己去 进行判断 , 因此 , 主观性会很强 , 不同的决策者会做出不同的决策。客户价值 的分析有很多的方法 , 为了 减少决策者的主观意愿 , 可 以采用聚类分析和分类分析相结合 的方法 。本文主要利用 K me a n s 算法和 I D 3决策树对客户进行细分。利用 K - me a n s 算法对客户样 本的客户价值进行聚类分析 , 合理地划分客 户记录集合 , 从而确定每个记录所归的类别 。再利用改进 的 I D 3决策树对客户聚类结果进行解释 , 找出 每类客户群 的价值分布规律 , 从而使分析结果更加有意义。 4 1 K - me a n s算法聚类分析 K m e a n s 算法是以距离值的平均值来对客户进行聚类的, 它通过欧氏距离、 绝对距离、 类平均距离、 离差距离等进行度量 。由于每一个客户只能被分 配到一个 聚类 中, 该方法又称 为硬聚类。K m e a n s 算 法处理过程如下 : 设数据集 D具有 凡个样本 , 每个样本有 m维 , 对 t 个样本 m维进行聚类。 n个样本集表示为 X: X , X , , , ( 1 ) 其 中, 置 为 X = , , , ( 2 ) 聚集成 k 个分类 : C= C , C , , C , ( 3 ) 聚类 中心为 z : 1 ni = , i= 1 2一 , k ( 4 ) i Ji 1 在数据集 D中随机选 k 个样本点 , 这些样本点作为一个簇的初始平均值 , 对剩余的 mk 个样本点 , 计算它们与各个簇 中心的距离 , 将这个值赋予最近的簇 , 然后 , 再重新计算每个簇的中心距离 , 到准则 函 数收敛为止。本研究采用平方误差准则 , 公式如下 : k E: X , ( 5 )i E C I X 2 I 其中 : E为数据集 D中所有点的平方误差总和, k 为分类的个数 , 及簇 的个数 , C 代表第 i个簇 , z 代表第 i 个簇 的聚类 中心。 聚类分析步骤如下 : ( 1 ) 在数据集 D中选择 k个样本点 , 将 k个样本点值分别赋给初始 的聚类中心 ; ( 2 ) 对样本集 D中的所有点 =1 , 2, , ) , 依次计算其到各簇中心 2 的距离 : d = l 置 一z l ( 6 ) ( 3 )找出 =1 , 2, , r t )对于 的最小距离 Min , 将 , 归入到和 z 距离最小的簇 中; ( 4 )重新计算各簇 的聚类 中心 ; ( 5 )按照公式( 5 )计算数据集 D中的所用点的平方误差 E ( t ) , 并与前一次的误差 E( t一1 )进行 比较 ; ( 6 )如果 E( t )一E( t 1 )0 , 则转 ( 2 ) , 否则算法结束 。 在使用 Km e a n s 进行聚类分析时, 聚类之间不得相互连接 , 不得相互重叠 。 4 2 用 I D 3决策树解释聚类分析结果 I D 3算法是 1 9 8 6年 Q u in la n提 出的, 用于决策树 的构造。其核心思想是 , 利用信息增益值作为决策 第 4期 王欣等 : 数据挖 掘在 客户关 系管理 系统中的应 用研 究 77 树 中每个节点所对应的分裂属性的度量标准 。利用信息增益最大的属性来划分训练样本集合 , 使得划 分后的训练样本集所需的信息量最小。I D 3 算法的描述如下: 设 P 为训练集, 尸 中有P 个正例和 个反例, 对于一个样本集, 正例集的P E的概率为_ , 反 L p 十 nJ 例集 N E的概率为_ _。 L p 十 n 一 颗决策树可以被看做是具有正、 反例集的消息源 , 消息源产生的消息期望信息 I ( p , n ) = 一 l o g 2 一 圭l o g 2 圭 , ( 7 ) P 1 n P n P 广 n P 1 。 n 设属性A的取值为 , A , , A ) , 将P 分类为Ii 个子集 P N P 2 , P ) 。设P 有P 个正例, n 个 反例, 子树 所需要的期望信息为I ( p , n ) 。且根为4的树所需要的期望信息为各子树所需的期望信 息的加权平均值 , 即 ) = , ( p ( 8 ) 以根为 A的树进行分类得到的信息增益为 G a in ( A) =I ( p, n )一E( A) , ( 9 ) I D 3算法选择 G a in ( A) 最大的属性作为该节点的分支属性 , 对于决策树的每个节点都使用这条原则 , 直 到建立出完整的决策树为止。 I D 3决策树生成算法如下 : 输入: S : 训练样本集, 主要由离散属性值描述; C a n d i d a t e - a t t r i b u t e : 候选属性集合。 输出: 一颗决策树。 方法 : ( 1 ) 创建节点 N; ( 2 ) I F S都在一个类 C T H E N; ( 3 ) 返 回 N作为叶结点 , 标记为类 C; ( 4 ) I F C a n d id a t e - a t t rib u t e为 N u ll T H E N; ( 5 ) 返 回 N作为叶结点 , 标记为 S中的普通类 ; 多数表决 ; ( 6 ) 选择 C a n d i d a t e a t tr i b u t e 中具有最高信息增益的属性A ; ( 7 ) 标记节点 N为 A; ( 8 ) F O R E a c h A中的已知值 a i; q 分训练样本 ; ( 9 ) 由节点 N长出一个条件为 A= n 的分支 ; ( 1 0 ) 设 S 是训练样本 S中的分支; 一个划分 ; ( 1 1 ) I F A= o 为 N u ll T HE N; ( 1 2 ) 加上一个树叶 , 标记为 s中最普通的类 ; ( 1 3 ) E L S E加上一个由 G e n e r a t e d e c is io n t r e e ( S , c a n d id a t e A) 返 回的节点。 采用 I D 3 算法分类的精确度较高, 层数和叶子数很少。但是, I D 3算法存在一些不足: 如 I D 3 算法 的分裂度量标准使用的是信息增益, 通过实践发现该算法对于选择的属性值个数比较多的属性比较适 用, 而属性值个数较多的属性不一定是最优的属性 。I D 3算法适用于处理离散属性 , 对于连续的属 性需要进行离散化处理, I D 3 算法不适合处理某个属性缺少具体属性值的情况。鉴于以上缺点, 对 I D 3 算法进行了改进 , 在改进的算法 中引入了一个修正 的参数。在求 出每个属性的信息增益后 , 利用函数箅 出参数 , 去修正该信息增益 , 将其作为属性选择及样本划分子集的分裂度量标准。对于缺少属性值 的那 些样本 , 利用相对频率随机概率

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论