




已阅读5页,还剩53页未读, 继续免费阅读
(计算机应用技术专业论文)基于crm的数据挖掘技术研究及应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于c r m 的数据挖掘技术研究及应用 摘要 海量数据的存在,从海量数据中提取信息的应用需求,以及信息对企业战 略决策的影响,使得数据挖掘无论是理论研究还是应用实践都是有意义的。本 文研究了数据挖掘技术在客户关系管理( c r m ) 中的应用。 关联规则在数据挖掘中是一个重要的研究领域,它具有通俗易懂、可理解 性强、简洁性好、应用范围广等优点,主要任务是发现大量数据中项集之间的 关联或相关关系。频繁项集的发现是产生关联规则的最为关键的一步,主要的 方法是采用a p r i o r i 算法来寻找频繁项集,但是该算法的时间效率有待提高。 由于最大频繁项目集中已经隐含了所有频繁项目集,c r m 中某些数据挖掘 应用仅需要发现最大频繁项集,所以研究最大频繁项集的挖掘具有重要价值。 本文针对c r m 系统中数据的特点,提出了一个挖掘最大频繁项集的算法 m f i av t l 算法。该算法采用垂直事务标识列表( v e r t i c a lt i d l i s t ,v t l ) 结 构的数据库表示形式,按照自底向上深度优先的策略对项集空间进行搜索,采 用基于前缀的搜索空间划分技术,将搜索空间划分为较小的子空间,每个子空 间就是一个潜在的最大频繁集,这样发现最大频繁顼集的工作即在一个尽可能 小的、包含最大频繁集的超集上进行,因此将明显降低i o 开销。v t l 结构的 数据库表示形式使得项集的支持度计算可以通过简单的集合交集运算来完成, 从而避免了对数据库的多次扫描。实验分析表明,m f i av t l 算法性能稳定, 可扩展性好,效率高。 关键词:数据挖掘关联规则最大频繁项集客户关系管理 r e s e a r c ha n da p p l i c a t i o no fd a t am i n i n gt e c h n i q u e sb a s e do nc r m a b s t r a c t n l er e q u i r e m e n to fa p p l i c a t i o nf o rm i m n gi n f o r m a t i o nf r o mt h ea m o u n to fd a t a ,a n d t h ei n f l u e n c ew h i c ht h ei n f o r m a t i o nh a so nt h es t r a t e g i cd e c i s i o n so fe n t e r p r i s e s ,m a k ed a t a m i n i n gs i g n i f i c a t i v ee i t h e rt h et h e o r i c a lr e s e a r c ho rt h ep r a c t i c e t h i sd i s s e r t a t i o ns t u d i e s d a t am i n i n gt e c h n i q u ea n di t sa p p l i c a t i o ni nc u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ( c r m ) m i n i n gf o ra s s o c i a t i o nr u l e si sa ni m p o r t a n te m b r a n c h m e n to f d a t am i n i n g i th a sa l o t o fa d v a n t a g e ss u c ha s u n d e r s t a n d a b i l i t y ,i n t e l l i g i b i l i t y , s e n t e n t i o u s n e s s ,a n db r o a d a p p l i c a t i o n t h em a i ns u b j e c ti st of i n di n t e r e s t i n ga s s o c i a t i o no rc o r r e l a t i o nr e l a t i o n s h i p s a m o n gal a r g es e to fd a t ai t e m s f i n d i n ga l lf r e q u e n ti t e m s e t si st h ef i r s ts t e po fa s s o c i a t i o n r u l em i n i n g 1 1 1 em a i nm e t h o do fr e a l i z a t i o nu s u a l l yi sa l g o r i t h ml i k ea p r i o r it of i n d f r e q u e n ti t e m s e t s b u te f f i c i e n c yo f t h ea p r i o r ia l g o r i t h mn e e d st ob ei m p r o v e d t h er e s e a r c ha b o u tm i n i n gm a x i m a lf r e q u e n ti t e m s e t si sv e r yi m p o r t a n tb e c a u s e m a x i m a lf r e q u e n ti t e m s e t sc o n t a i na l lf r e q u e n ti t e m s e t sa n ds o m ea p p l i c a t i o no n l yn e e dt o f i n dm a x i m a lf r e q u e n ti t e m s e t s a na l g o r i t h mf o rm i n i n gm a x i m a lf r e q u e n ti t e m s e t s ,c a l l e d m f i k ,n ( m a x i m a lf r e q u e n ti t e m s e t sa l g o r i t h m ,e r t i c a lt i d - l i s t ) ,i sp r e s e n t e di nt h i s d i s s e r t a t i o na i m i n ga tt h ec h a r a c t e r i s t i co fc r md a t a m f i a v t le m p l o y sav e r t i c a l t i d l i s td a t a b a s el a y o u ts c h e m e a l o n gw i t hd e p t hf i r s ts e a r c hs t r a t e g y , i tu s e sap a r t i t i o n s m e t h o db a s e do np r e f i xt od i v i d eu ps e a r c hs p a c ei n t ol e s s e rs u b s p a c e as u b s p a c ei sa p o t e n t i a lm a x i m a lf r e q u e n ti t e m s e t f i n d i n gm a x i m u mf r e q u e n ti t e m s e t sc a nb ee x e c u t e di n as u l c l e r s e tt h a tc o n t a i n sm a x i m u mf r e q u e n ti t e m s e t sa sf a ra sp o s s i a b l es m a l l _ i tw i l lr e d u c e i 0s p e n d i n go b v i o u s l y n l ev e r t i c a lt i d l i s td a t a b a s el a y o u ts c h e m em a k e si ta v a i l a b l et o c o u n tt h es u p p o r to fi t e m s e t ss i m p l yb ys e ti n t e r s e c t i o no p e r a t i o n si n s t e a do fs c a n n i n g d a t a b a s er e p e a t e d l y t h ee x p e r i m e n ts h o w st h a tt h em f i a v t la l g o r i t h mi ss t a b l e , s e a l a b l ea n de f f e c t i v e k e yw o r d s :d a t am i n i n g , a s s o c i a t i o nr u l e ,m a x i m u mf r e q u e n ti t e m s e t ,c r m ( c u s t o m e rr e l a t i o n s h i p m a n a g e m e n t ) 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所 知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得 金目b 王些太堂 或其他教育机构的学位或证书而使用过的材料。与我一同 工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:牟如锄毒l 签字日期;p 年j 月p 日 学位论文版权使用授权书 本学位论文作者完全了解盒目b 王些太堂有关保留、使用学位论文的规定,有权保留并向国 家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权盒目l 王些太堂可 以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手 段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: i j l ;洒翔 签字日期: ”年1 月i v 日 学位论文作者毕业后去向 工作单位: 通讯地址: 导师签名利喜 签字日期:p ( 年月i o 日 电话: 邮编: 致谢 本论文能顺利完成,首先感谢我的导师袁兆山教授的悉心指导,从论文选 题开始直到论文成稿,都倾注了袁兆山老师的心血。袁老师严谨的治学态度、 平易近人的学者风范令我受益非浅,由衷感谢袁老师在学业指导及各方面所给 予我的关心以及从言传身教中学到的为人品质和道德情操,老师广博的学识、 严谨的治学作风、诲人不倦的教育情怀和对事业的忠诚,必将使我终身受益, 并激励我勇往直前。 同时,真诚感谢滁州卷烟厂营销部门,他们为本文的研究提供了基础,并 创造了许多必要条件和学习机会:感谢我的家人,在我论文撰写期间给予我的 大力支持和帮助。 感谢所有曾经关心和帮助过我的人。 作者:崔海莉 2 0 0 6 年5 月l o 日 第一章绪论 1 1 研究背景 客户概念诞生于2 0 世纪,然而真正意识到客户的重要性让人们花费了近 1 0 0 年的时间。上个世纪9 0 年代,随着竞争的加剧,买卖双方的角色地位发生 了逆转,买方市场占据了统治地位,产品同质化趋势也越来越明显,客户开始 在企业中占据统治地位。统计数据表明,现代企业5 7 的销售额来自1 2 的重要 客户,而其余8 8 中的大部分客户使企业获利甚微或无利可图,甚至带来亏损。 开发一个新客户的成本是留住一个老客户的5 倍,而流失一个有价值客户的所 带来的损失,就是争取到1 0 个新客户也无法弥补。企业要想获得最大程度的 利润,就必须把握客户行为,对不同类型的客户采取不同的策略:必须拥有长 期的客户。这一切使得企业的经营逐步从“以产品为中心”的模式向“以客户 为中心”的模式转移,以客户为中心的经营理念开始流行。19 9 7 年美国计算机 技术咨询集团g a r m e rg r o u p 第一次提出c r m ( c u s t o m e rr e l a t i o n s h i p m a n a g e m e n t ) 的概念。c r m 的出现使得以客户为中心的经营理念从空洞的口号走 向了能够进行量化的操作。从2 0 0 0 年开始,c r m 成为国内企业应用领域的热 点之一。 计算机、通讯技术、网络应用的的飞速发展为c r m 的实现提供了强大的技 术推动,相关的技术知识如:数据库和数据仓库、数据挖掘、知识发现、决策 支持、i n t e r n e t 和电子商务技术、面向对象技术、客户机服务器体系、图形用 户界面、呼叫中心等等,使得很多c r m 理想中的功能实现成为可能。现在,经 过近1 0 年的发展,客户关系管理综合了现代市场营销和现场服务的理念,集成 了c t i ( 计算机电话集成技术) 和i n t e r n e t 技术,正式进入了它的成长、壮大期。 企业实施c r m ,首先显露的是其运营特性,企业同常的营销业务得以流 程化和自动化管理。但是随着客户信息的日趋复杂,客户数据的大量积累,企 业开始不满足仅限于营销流程的管理,进而期望对客户的行为方式进行深入地 分析,寻找其中的规律,为客户提供更好、更个性化的服务,为企业的综合经 营决策、市场策划提供依据。这需要借助各种分析方法,透过无序的、表层的 信息挖出内在的知识和规律,再利用这些规律和信息设计数学模型,对未来发 生的行为做出结果预测,这正是数据挖掘技术所致力研究的。数据挖掘开始成 为客户关系管理中不可缺少的工具。 1 2 课题来由 数据挖掘技术作为多学科的集成,已成为最重要的信息处理技术和方法。 数据挖掘技术就是从大量的数据中去发现有趣、有价值的模式,为决策提供强 大有效的支持。 随着该项技术的发展,数据挖掘的研究开始将注意力越来越多地集中在实 际应用上。企业信息化的发展使企业客户关系管理收集客户数据的能力正在迅 速提高。客户数据的爆炸性的增长激起企业客户关系管理对数据挖掘技术的需 求,企业希望将海量数据转化为简练的知识。因此,在c r m 中构建有效的数 据挖掘应用,研究有助于提高c r m 决策支持功能的数据挖掘技术和理论,是 非常有意义也是非常重要的课题。 对于国内企业来说,无论是客户关系管理还是数据挖掘都还起步不久,对 于数据挖掘应用子客户管理方面更是一个新的应用点,本文试图就这方面的内 容作一点尝试性的讨论与研究。 1 3 本文主要工作 论文较系统地论述与分析了数据挖掘技术以及关联规则的挖掘。重点研究 了关联规则挖掘中发现频繁集的关键环节,通过分析与研究,发现在大型数据 库中寻找频繁项集对时间和空间的要求太大,而在客户关系管理的某些应用中 产生最大频繁项集就能满足挖掘需要。因此针对c r m 中数据的特点,提出了寻 找最大频繁项集相应的算法。 主要做了以下工作: l 、阐述了课题提出的背景和意义,分析数据挖掘技术在客户关系管理中 应用的重要意义; 2 、阐述了客户关系管理和数据挖掘的基本概念,详细分析了c r m 系统中 的数据库,探讨了在c r m 中进行数据挖掘的有关问题: 3 、分析了几种典型的频繁项集挖掘算法和关联规则挖掘的扩展,讨论了 针对关系型数据库的关联规则挖掘问题。 4 、针对传统a p r i o r i 算法的缺陷,提出一种挖掘最大频繁项集的算法 m f i av t l ,利用基于前级的搜索空间划分方法将搜索空间划分为较小的子空 间,每个子空间就是一个潜在的最大频繁集,这样发现最大频繁项集的工作即 在一个尽可能小的、包含最大频繁集的超集上进行,因此将明显降低i o 开销。 采用v t l 结构的数据库表示形式使得项集的支持度计算可以通过简单的集合交 集运算来完成,从而避免了对数据库的多次扫描。并通过实验分析证明, m f i av t l 算法性能稳定,可扩展性好,效率高。 5 、针对在现有的“支持度可信度”框架下发现规则的冗余性较大的情况, 基于所发现的最大频繁项集,讨论了可信度单调性和源关联规则性质,给出发 现有效规则的步骤以减少规则的冗余性。 1 4 论文结构 关联规则挖掘是数据挖掘中应用广泛的技术,其中a p r i o r i 算法是最经典 的算法。本文通过对该技术全面深入的研究,提出了针对c r m 系统的改进算法, 并设计实现了一个算法模型,实验结果表明了算法的有效性。本文的组织结构 如下: 第一章绪论,介绍了论文的研究背景,课题来由,全文的组织结构。 第二章介绍了客户关系管理的概念、c r m 系统的体系结构,分析了c r m 中数据库的特点,以及c r m 的主要技术要求。 第三章介绍了数据挖掘产生的背景,分尉从技术和商业角度给出数据挖掘 的定义,数据挖掘系统必须注意要解决的问题以及相关技术,数据挖掘的过程, 数据挖掘的任务,讨论了数据挖掘和客户关系管理的关系,数据挖掘在c r m 中的应用及在c r m 实施数据挖掘需考虑的问题。 第四章介绍关联规则挖掘技术。首先介绍关联规则的基本概念、分类、挖 掘关联规则的一般步骤以及关联规则挖掘的优缺点,然后从经典的a p r i o r i 算法 入手,分析该算法的不足,围绕该算法讨论几种典型的算法改进方向,探讨了 关联规则挖掘的扩展和改进及研究方向,最后分析了在关系型数据库进行关联 规则所面临的问题。 第五章本文重点,最大频繁项集挖掘。结台c r m 系统的数据特点,在频 集算法的基础上,针对频集算法的不足,提出了挖掘最大频繁项集的挖掘算法 m f i av t l 。该算法通过构造数据库的垂直事务标识列表和对项集搜索空间进 行基于前缀的划分来发现晟大频繁项集,给出了该算法的有效性验证。对于挖 掘结果的衡量,针对“支持度可信度”衡量标准的不足,讨论了对规则衡量 标准的改进。 第六章结束语,总结全文的内容,并提出了今后研究的展望。 第二章客户关系管理概述 自2 0 0 0 年末,客户关系管理开始引起中国企业的重视,并以迅猛的速度 发展。c r m “以客户为中心”的经营理念,强调客户在企业提高竞争力中的中 心位置,这一思想非常适合正在急于寻找不同于价格战、广告战的竞争策略的 中国企业。c r m 因而成为发展最快的管理类软件。 2 1 客户关系管理的基本概念 尽管c r m 已经被社会各界认可,而且已经被很多企业应用到日常的企业 管理之中,但是围绕着c r m 的定义却并没有一个统一的、权威的、达成共识 的观点,不同的研究机构有着不同的表述。以下是其中的一个比较典型的定义: c r m 是辨识、获取、保持和增加“可获利客户”的理论、实践和技术手 段的总称。它既是一种国际领先的、以“客户价值”为中心的企业管理理论、 商业策略和企业运作实践,也是一种以信息技术为手段、有效提高企业收益、 客户满意度、雇员生产力的管理软件。 理解c r m 的概念可以从以下三个层次进行:( 1 ) c r m 是一种现代的经营 管理理念;( 2 ) c r m 包含的是一整套解决方案;( 3 ) c r m 意味着一套应用软件系 统。【1 1 作为管理理念,c r m 其核心思想是将企业的客户( 包括最终客户、分销 商和合作伙伴) 作为最重要的企业资源,通过完善的客户服务和深入的客户分 析来满足客户的需求,保证实现客户的终生价值, 作为解决方案,c r m 综合应用了数据库和数据仓库技术、o l a p 、数据挖 掘技术、i n t e r n e t 技术、面向对象技术、客户机n 务器体系、图形用户界厩、 网络通讯等信息产业成果,既包含了硬件平台和软件环境的集成,也包括了有 关c r m 项目实施的顾问咨询服务等等。 作为一个应用软件系统,c r m 系统是将企业的流程固化到一个i t 的系统 之上。 2 2 c r m 的体系结构1 2 1 作为一个应用软件,c r m 为企业与客户的联系建立了新的手段与工具, 它将企业与客户有关的所有活动、业务管理起来。而这些功能的实现都围绕着 客户数据库。客户数据库可以看作是一个数据中心,企业利用它记录在整个市 场与销售的过程中和客户发生的各种活动,跟踪各类活动的状态建立各类数 据的统计模型用于后期的分析和决策支持。可以说c r m 的基础就是企业积累的 客户数据。 信 息 渠 道 决 策 支 持 数 据 管 = j l 活动管理jb 析数据集剑k 表数据集剑 i 堑竺垫塑叁型 图2 1 是c r m 的体系结构整体视图,在这个体系结构图中,有很多用于 产生和使用信息的客户接触点和发送渠道,这样,企业就可以按照客户的喜好 使用适当的渠道及沟通方式与之进行交流,确保企业能够通过各种客户交互渠 道收集到所需要的客户信息,以便建立客户档案,存储在中央客户数据库中。 经过集成和分析这些信息,可以完整、正确地得出客户的大概情况一一他 们的喜好、需求、抱怨和使他们成为企业产品和服务网的终生会员的特性。这 是c r m 的核心部分。如果企业不能够分析出准确的客户知识,c r m 的强大功 能将不会发挥作用。 2 3c r m 与数据库 根据c r m 的定义,一个c r m 系统一般大都具备以下几个功能:基本信 息管理;销售与营销管理;客户服务与支持;决策支持等。因此也可以将c r m 看成是一个完整的数据库应用系统:其底层是由d b m s 管理的数据库层,它是 c r m 的基础,提供c r m 所需的基本数据,对数据进行基本管理,实现基本信 息管理功能;而其上层则是基于这个数据库层的两个应用层:一个称之为应用 层,实际上是一个数据库应用系统( 可用相关的开发工具如j a v a ,v b ,j s p 等 实现) ,完成c r m 系统中的销售与营销管理、客户服务与支持功能:另一个 称之为分析层,主要通过o l a p 及数据挖掘工具对数据作进一步的加工、处理 与分析,它实际上也是数据库的扩充应用,完成c r m 系统中的决策支持部分。 作为c r m 的基础,数据库在c r m 系统中有着举足轻重的地位,它除了 存储和客户有关的所有数据外,还要考虑有利于在其上进行应用开发和数据挖 掘,尤其是数据挖掘,这可以说是c r m 能否发挥强大功能的关键。因此有必 要对其有一个清楚的认识。 c r m 系统的数据库中主要用到三种类型的数据阻1 : 描述性数据 描述客户或者消费者的数据。它通常是表格型的摘要数据,在关系数据库 中就是一个客户信息表中的不同列,它们可以包括客户的年龄、性别、孩子个 数、收入等信息。这些数据不会变动得非常快,一般情况下每年最多改变一次。 当然,客户的地址或者电话号码信息可能每季度或者半年变化一次。 促销活动数据 描述对客户进行的营销或者促销活动。这类数据的多少通常取决于c r m 系统的复杂度,最简单的形式就是一个列表,它列出了对该客户进行过的促销 活动( 例如免费样品或者赠券等) :还可以是一些不太精确的促销活动,比如报 纸和杂志上的广告;也可以是非常精确的个性化信息,比如非匿名用户的e m a i l 发送情况和他在网站的点击情况。 交易数据 描述企业和客户相互作用的所有数据都属于客户交易数据。从与客户的通 话到服务台所得的数据以及客户所购商品的描述都包括在内。 c r m 系统收集的数据大多具有多值属性,而且后两类数据受时间影响较 大,因此通常是将它们存放在特殊的数据库结构中,以支持带有时闻标记的交 易数据的更新和改变。 6 从一个完整的数据库应用系统角度来看,这个系统具有自己的一些特点; c r m 所需要收集的数据范围广、种类多,因此需借助网络设施( 特别 是i n t e r n e t ) ,故c r m 数据库应用系统是有关建立在网络上的系统,其相应的 d b m s 应与网络有方便的接口。 c r m 中的大量数据如客户数据,商业策划数据等均涉及企业的商业机 密,因此,这种数据库应用系统的安全问题是极其重要的,故其相应的d b m s 应具有c 2 级或以上级别,而相关的网络传递也应具有一定的安全级别。 c r m 的应用内容涉及到基本操作和数据分析,因此这种数据库系统与 相应的d b m s 应有多种类型开发工具:基于c s 的开发工具、基于b s 的开发 工具和基于数据仓库、o l a p 、d m 及相应的展示工具。 一项对主流c r m 产品的技术状况的调查报告指出【3 】,目前c r m 厂商支 持的数据库以o r a c l e 、m i c r o s o f ts q ls e r v e r 等大型关系型数据库为主,它们分 别占到了8 l 、1 0 0 的比例。其次是d b 2 ,占据3 8 的比例。从这个结果可 以看出,o r a c l e 、m i c r o s o f t 公司的数据库将成为c r m 厂商支持的主流数据库。 之所以成为主流,不仅是因为它们具有很强大的功能,更重要的是,这两种数 据库更有利于c r m 系统与其它应用系统的集成。 2 4c r m 的主要技术要求 l 、融会贯通的联系渠道 不管客户是通过w e b ,还是通过与具备销售自动化功能的便携电脑的销售 人员,或者通过呼叫中心与企业联系,客户与企业的交流都必须是无缝的、统 一的和有效率的。集成的渠道可以大大提高企业内部和外部的工作效率。集成 也对数据收集的设计工作提出了更高的要求。 2 、信息分析 尽管c r m 的主要目标之一是改善与客户相关的业务流程和流程自动化, 但是商业智能和分析能力才是c r m 功能的充分发挥。c r m 系统中有大量关于 客户和潜在客户的信息,企业应该充分利用和分析这些信息,使决策者所掌握 的信息更全面深入,从而做出更为明智和及时的商业决策。作为商业智能解决 方案它应使c r m 和e r p 两种系统协同工作,这样企业才能把利润创造和成本 联系在一起。作为分析决策工具,这自然离不开数据挖掘。 3 、基于i n t e r n e t 技术的应用体系结构 随着网络技术的发展,w e b 的作用越来越大,这使得c r m 的网络功能越 来越重要。它可以实现网上自动服务,可以利用w e b 内容管理( w c m ) 系统有效 帮助企业发现潜在客户,及时获得客户互动信息。而且对于一个c r m 应用系 统来说,提供标准化的w e b 浏览器,可以大大减少系统在配置、维护和更新方 面的工作量以及对客户和雇员的培训费用。 4 、客户信息的集中式管理 7 c r m 解决方案采用集中化的信息库,这样所有与客户接触的雇员可以获 得实时的客户信息,而且集中式的客户信息库还能保证在不同的业务部门和不 同的功能模块之间的数据的一致性。 5 、与e r p 应用软件的集成 c r m 要与财务、制造、库存、分配、物流和人力资源管理等e r p 应用模块 无缝地集成在一起才能真正地发挥作用,提供一个闭环的客户交流循环。这种 集成包括底层数据的同步和业务流程的集成,这样才能在各系统间维持整个业 务规则的完整性,保证工作流任务在各系统间的流动。二者的集成还可确保企 业实现跨系统的商业智能。 8 第三章数据挖掘概述 3 1 数据挖掘出现的背景 数据挖掘是从大型数据库或数据仓库中发现并提取隐藏在其中的信息的 种新技术,它能自动分析,进行归纳性推理,从中提取出有用的信息和知 识,应用于管理决策、商务管理、生产控制、市场分析、工程设计和探索等领 域。数据挖掘技术涉及数据库、人工智能( a i ) 、模式识别、机器学习和统计分 析等多种技术。 数据挖掘的出现和发展有着其自身的必然性,这主要是由于以下三方面的 原因: ( 1 ) 数据的快速积累。二十一世纪是信息时代,而且随着计算机技术和互 联网技术的发展,人类面临着快速扩张的数据海洋,大量信息在给人们带来方 便的同时也带来了一大堆问题:信息过量,难以消化;信息的真假难以辨识; 信息的安全难以保证;信息的形式不一致,难以统一处理。而现有的、人们所 依赖的数据分析工具功能却无法有效地为人们从信息中提取所需的相关知识, 从而形成一种“丰富的数据,贫乏的知识”的独特现象。 ( 2 ) 商业需求的驱动。随着数据库技术的迅速发展以及数据库管理系统的 广泛应用,企业积累的数据越来越多,例如超市每天都会积累大量的销售数据, 超市经营者不仅关心商品的销量,还想知道经常被购买的商品之间有什么内在 关系,这样在超市进货、商品摆放方面更有目标性,以引导顾客消费;银行不 仅关心每位顾客的存款情况,更想知道哪些顾客在将来有可能放弃本银行转而 去别家银行,对于那些大客户,银行提供什么样的服务更能使他们满意等等。 目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发 现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。企业 要提高竞争力,需要大量的有价值的信息来辅助决策。为了更好地对企业战略 决策提供支持,必须对数据进行更高层次的分析。 ( 3 ) 数据挖掘技术的基础技术的发展。起初各种商业数据是存储在计算机 的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库 的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过 去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进 信息的传递。现在对数据挖掘技术进行支持的三种基础技术:海量数据搜集、 强大的多处理器计算机、数据挖掘算法已经发展成熟,使得数据挖掘技术在商 业应用中已经可以投入使用。 1 9 9 5 年美国计算机学会( a c m ) 会议提出了数据挖掘( d a t am i n i n g ) 概念, 它形象地把大型数据库看成是存放有价值信息的矿藏,通过有效的知识发现技 术,从中挖掘或开采出有用的信息。 9 3 2 数据挖掘定义 数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、随 机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又潜在有用 的信息和知识的过程1 4 。 原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的, 如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方 法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现 的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于 数据自身的维护。 3 3 数据挖掘的基本任务 数据挖掘的基本任务有: 概念描述:一项附加的描述方法,寻找对数据集或数据子集的简单描述 方法。该方法简单直观,注重解决过去和现在的问题:例如机构可能需要两年 来在不同地区、人口和产品的情况下,各销售部门的业绩分析,或者对不同区 域的销售量进行比较等等。 关联分析:从给定数据集中发现频繁出现的项集模式知识,即关联规则。 关联规则从本质上讲是条件概率:a 发生时,b 同时也出现的概率是多大? 它 通过考察记录来识别数据间的密切关系。这些关系常常表现为规则。该方法常 用于超市购物篮分析,利用销售点事务数据来识别商品间的关系。 分类与预测:分类即找出一组能描述数据集合典型特征的模型( 或函数) , 以便能够分类识别未知数据的归属或类别。该模型从一组训练样本数据( 已知类 别归属) 中学习获得,模型可以用如分类规则、决策树、数据公式或神经网络来 表示。在需要预测某数值属性的值时,这样的分类称为预测。 聚类分析:根据某些属性将数据库分割为一些子集和簇。簇可以利用统 计学或人工智能的方法产生,并由程序或利用可视化技术自动分析。聚类和分 类的最大区别就是,分类是有监督的,聚类是无监督的。监督就是标准,即分 类中获取分类预测模型所使用的数据是己知类别归属,聚类所分析处理的数据 是无( 事先确定) 类别归属。 异类分析:不符合大多数数据对象所构成的规律( 模型) 的数据对象称为 异类。该方法用于在数据库找出异常数据。例如银行业中金融欺诈分析。 演化分析:对随时间变化的数据对象的变化规律和趋势进行建模描述。 通过时间序列搜索出重复发生概率较高的模式,这里强调时间序列的影响。 因此数据挖掘所发现的知识最常见的有以下四类:广义知识 ( g e n e r a l i z a t i o n ) 、关联知识( a s s o c i a t i o n ) 、分类知识( c l a s s i f i c a t i o n c l u s t e r i n g ) 、预测型知识( p r e d i c t i o n ) 此外,还可以发现其他类型的知识,如 偏差型知识( d e v i a t i o n ) 等。所有这些知识都可以在不同的概念层次上被发现, 1 0 并随着概念层次的提升,从微观到中观、到宏观,阻满足不同用户不同层次决 策的需要。 3 4 数据挖掘与c r m 3 4 1数据挖掘在c r m 中的应用 c r m 的研究重点是留住老顾客、发展新顾客、锁定利润率最高的客户,并 最有效率地把这种关系转化为利润。为了实现这个目标,企业就需要尽可能地 了解客户的行为,但这种了解不可能通过与客户接触直接获得,因为企业不可 能挨个与客户交谈,而且单个客户也往往无法提供所需信息。企业所能做的, 就是尽可能收集客户信惠,借助于数据挖掘技术来达到上述目的: ( 1 ) 客户盈利能力分析:一个企业如果不知道客户的价值,就很难做出合适 的市场策略,而且不同客户对于企业来讲其价值是不同的。数据挖掘技术可以 从客户的交易历史纪录中发现一些行为模式,并使用这些行为模式来预测客户 盈利能力的高低,或者发现盈利能力较高的新客户以及应该为获得这些顾客 “付”多少钱,从而帮助企业制定适合的市场策略。 f 2 ) 交叉销售:交叉营销就是向现有的客户提供新的产品和服务的营销过 程。“啤酒+ 尿布”的故事我们都熟悉,但是只有找到非常精确的模型后,才 可能从中获利。因此对企业来说真正关心的问题在于如何发现这其中内在的微 妙关系。借助于数据挖掘技术就能帮助企业分析出最优的合理的销售匹配。例 如根据历史信息可以得出购买频率较高的商品组合,找出那些购买了组合中大 部分商品的顾客,向他们推销“遗漏的”商品;或是对每个顾客找出比较适用 的相关规律,向他们推销对应的商品系列。 ( 3 ) 客户获取:企业的增长和发展壮大需要不断获得新客户。新的客户包括 以前没有听说过本企业产品的人、以前不需要产品的人和竞争对手的客户,通 过对这些用户的细分,数据挖掘可以帮助企业识别出潜在的客户群,提高市场 活动如广告的针对性、有效性和响应率,使企业做到心中有数,有的放矢。 ( 4 ) 客户保持:随着竞争的越来越激烈,企业获得新客户的成本不断地上 升,因此保持原有客户就显得越来越重要,这样做会降低企业运营成本。数据 挖掘可以帮助发现易流失的客户,企业就可以针对客户的需求采取相应措施。 ( 5 ) 客户细分:细分可以让企业从比较高的层次上来察看整个数据库中的数 据,也使得企业可以用不同的方法对待处于不同细分群中的客户。借助数据挖 掘技术可对大量的客户进行分类,每个类里的客户拥有相似的属性,不同类里 的客户的属性不同。企业可以提供针对性的产品和服务提高客户的满意度。即 使是很简单的分类也可以给企业带来一个令人满意的结果。比如说如果企业知 道它的客户有8 5 是老年人,或者只有2 0 是女性,那么它的市场策略肯定会 随之而不同。 3 4 2c r m 中数据挖掘的过程 图3 - 2 数据挖掘过程的步骤 数据挖掘是一个多步骤的处理过程,步骤之间相互影响反复调整,形成了 一个螺旋式上升的过程,图3 2 描述的是数据挖掘的基本过程和主要步骤。从 客户关系管理的角度来看,c r m 中的数据挖掘过程是通过客户数据获得客户知 识改善客户关系管理,它的针对性和目的性更强。它的主要步骤有: l 、明确问题类型 要想充分发挥数据挖掘的价值,必须要对客户关系管理的目标有一个清晰 明确的定义,这个目标是建立数据挖掘模型的依据,它需要领域内详尽的知识 和经验。缺少了这些背景知识,就无法明确定义要解决的问题,不能为挖掘准 备数据,也很难正确的解释得到的结果。例如,如果要提高直接邮件推销的用 户回应,想做的可能是“提高用户响应率”,也可能是“提高一次用户回应的 价值”,要解决这两个问题,建立的模型几乎是完全不同的。 2 、建立客户数据挖掘库 建立独立的数据挖掘库是因为:其一,数据仓库不大可能包括所有为了解 决业务问题需要输入给数据挖掘系统的数据,而且可能不支持挖掘中对数据进 行的各种复杂分析所需的数据结构。其二,数据挖掘对于数据的使用非常活跃, 直接在数据仓库上进行数据挖掘可能会带来一些资源申请上的问题。其三,大 部分情况下可能需要修改要挖掘的数据,这对数据仓库显然不合适。最后,人 们发现使用d b m s 本身很好的支持数据挖掘的数据库程序能使数据挖掘工作 进行的更容易一些,所以把这些要挖掘的数据存贮在与数据仓库在物理设计上 不同的d b m s 上更好一些。但这并不是说一定要使用一个数据库管理系统,根 据要挖掘的数据量的大小、数据的复杂程度、使用方式的不同,有时一个简单 的平面文件或电子表格就足够了。 3 、研究数据 认识数据就是理解所使用数据的含义。最基本的方法是计算各种统计变量 ( 平均值、方差等) 和察看数据分布情况。也可以用数据透视表察看多维数据。 4 、数据准备 这是建立模型前的最后一个步骤,可以分成四步: 1 ) 选择建立模型所需的变量。按问题要求对数据进行增删或组合生成新的 变量,以体现对问题状态的有效描述。 2 ) 从已有变量中得到新的预测变量。常用方法有从原始数据中衍生一些新 的变量作为预测变量,比如用负债占收入百分比而不是直接用负债和收入来预 测信用风险;或是将很多变量组合起来( 加、减、比率等) ;或是扩大些变 量的范围,比如用一段时间内收入变化情况代替一个单一的收入数据。 3 ) 从原始数据中选择数据样本集。通过采样的方法,从大量的企业客户数 据中找到与分析问题有关的样本数据子集( 必须保证样本子集具有典型的代表 性) 。 4 ) 将变量转换成适合建立模型时所选算法要求的变量形式。根据所选算法 和工具决定要对数据做哪些转换工作。如神经网络要求所有的变量都在0 1 之 间,因此在这些数据被提交到算法之前就必须先对不在 0 ,1 1 内的变量进行映射。 以上三个步骤构成了数据预处理的核心。 5 、建立模型 主要任务是选择并实现适当的数据挖掘技术。这是数据挖掘的核心环节。 许多c r m 应用中这一过程是有监督学习,需要将数据分为训练集和测试 集。依据所得到的模型和对模型的预期结果,可能需要修改参数建立新的模型, 甚至采用其他算法建立模型。 6 、评估结果 从测试集中得到的准确率只能说明相似的数据用此模型会得出相似的结 果。在实际应用中,随着应用数据的不同,模型的准确率肯定会变化。更重要 的是,在模型建立中往往隐含了各种假设,忽略了一些次要因素。所以用模拟 的方法建立起来的模型无论正确率有多高,都不能保证该模型在实际应用中会 取得好的结果,因此需要在实际中测试模型。可先在小范围内取实际运行中的 新鲜数据进行检验,取得满意结果后再扩大推广。 7 、实施 模型建立并经验证之后,通常是作为某个商业过程的组成部分,如风险分 析,信用授权,或欺诈检测。在这些情况下,模型一般都合并到应用程序的内 部。例如,在抵押贷款应用程序内部可能集成了一个预测模型,来向贷款官员 提供一项贷款申请风险大小的建议。 模型在应用之后还要不断监控他的效果。因为事物在不断发展变化,要不 断的对模型做重新测试,有时甚者需要重新建立模型。 3 5 3 在c r m 中应用数据挖掘需要解决的问题 当前数据挖掘在c r m 应用主要有以下几个需要解决的问题: 客户数据的质量问题 企业可以通过各种各样的渠道和客户进行交互,这些事件称为“接触点 ( t o u c hp o i n t ) ”1 。大量的接触点使得c r m 系统收集数据变得简单,但同 时也存在以下问题:每个接触点所提供的信息往往都是不完全的,它往往只反 应了客户某一方面的信息,同时各种与客户交互的活动往往是独立进行的,没 有一个统一的标志符来标识来自不同接触点的同一客户,更重要的这些数据的 收集的起始目的并不是为了进行数据挖掘。数据的质量决定着挖掘的成败,由 于客户数据存在上述种种问题,导致挖掘结果往往不适合实际情况,因此需要 在数据收集进行针对性的设计,而不是有什么就拿什么数据,这往往就会造成 “杂而不详,繁而无序”的结果,一旦要分析某个客户的某些相关问题时可能 就会发现缺少针对性的数据,或者说是缺失了过程的细节。同时对收集到数据 进行预处理。 挖掘规则的冗余问题 数据挖掘往往产生大量的客户规则,但其中只有很小部分的规则才是真正 的知识,大部分规则都是没有意义甚至是错误的。如何在数据挖掘过程中鉴别 出无效的规则,让数据挖掘所产生的规则都是有效的,提高挖掘效率,减少挖 掘后的检验成本,是数据挖掘应用在c r m 中的另一个需考虑的问题。 客户数据的动态问题 传统的挖掘方法处理的数据一般是静态的,即对已有的数据进行挖掘,然 后将获得的结构应用在最新的数据当中。这种挖掘方法对于一些变化缓慢的企 业来说是比较合适的,但是客户关系变化是非常迅速的,使用静态的挖掘方法 产生的往往并不适合于客户关系管理。如何用最新的数据改变数据挖掘的结果, 将最新的挖掘结果运用到新的客户中也是数据挖掘需考虑的问题。 数据挖掘的有效性衡量问题 一般情况下数据挖掘的结果只有经过一段时间的检验后,以挖掘结果对于 商业活动预测的正确率来衡量,但是仅靠这个来衡量往往过于简单,对于客户 关系管理来说还有很多其它因素需要考虑。 要数据挖掘在客户关系管理活动中起到核心作用,就要将它与基本的客户 关系管理活动关联起来。因为数据挖掘影响商业活动的方式取决于数据挖掘和 商业过程的紧密的结合,而不是数据挖掘过程。所以,客户关系管理中数据挖 掘的主要问题就是数据的预处理、数据挖掘的方法以及挖掘衡量等问题。这也 是本文后面所要讨论的。 1 4 第四章关联规则挖掘技术 传统的企业信息系统由于缺乏数据挖掘功能,最多只能对数据作一些统计 工作,所获得的统计数据从表面上看是合理的,但有时它们并不能反映本质情 况
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 厦门市保安考试试题及答案
- springcloud面试题总结及答案
- 皮皮鲁传考试题及答案
- 化工合成面试题及答案
- 土路汽车测试题及答案
- 风控部员工面试题及答案
- 广西单招试题及答案
- 临床医学专升本试题数学及答案2025版
- 临床医学编辑笔试题及答案2025版
- 药品召回管理办法及药品追溯培训专项测试题有答案
- 医院综合门诊部综合管理体系建设
- 2025年中医师承出师考试题库
- uom无人机考试题库及答案2025
- 预防接种基础知识课件
- 护栏生产及安装方案(3篇)
- 陕西省专业技术人员继续教育2025公需课《党的二十届三中全会精神解读与高质量发展》20学时题库及答案
- 医德医风建设培训课件
- 通信工程竣工资料模板(通用版)
- 中国半导体行业投资深度分析与展望
- 应急中心组织架构
- 教练技术探索课程一阶段导师讲义
评论
0/150
提交评论