(计算机应用技术专业论文)数据挖掘在客户关系管理中的研究及应用.pdf_第1页
(计算机应用技术专业论文)数据挖掘在客户关系管理中的研究及应用.pdf_第2页
(计算机应用技术专业论文)数据挖掘在客户关系管理中的研究及应用.pdf_第3页
(计算机应用技术专业论文)数据挖掘在客户关系管理中的研究及应用.pdf_第4页
(计算机应用技术专业论文)数据挖掘在客户关系管理中的研究及应用.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(计算机应用技术专业论文)数据挖掘在客户关系管理中的研究及应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 在电子商务时代的今天,企业与客户之间的交互方式发生了显著的变化,谁也不能 保证客户会对你从一而终,企业要想保留住客户,就必须更多的了解客户的需求。c r m 就是企业为了保持企业竞争力,采取面向客户、客户驱动和以客户为中心的发展策略。 企业要想与客户建立持久的关系,从每个客户身上获取最大利润,降低市场营销费用, 减少由于客户离去和无效的经营策略产生的浪费,就要求企业能深入了解客户的习惯, 喜好要在最短的时间里满足客户的需要,就必须对客户在与企业交互过程中的各种客 户数据进行收集、分析,挖掘出隐含在数据中的有用的信息才能实现c r m 的目标既 在正确的时间里通过正确的渠道给正确的客户提供恰当的服务,数据挖掘技术就是帮 助我们解决同客户在交互过程中遇到的各种问题的最重要的技术之一。 数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、随机的数 据中,提取隐含在其中的、人们未知的、但又是潜在有用的信息和知识的过程。 本文主要介绍了数据挖掘技术及客户关系管理的基本概念原理,以及数据挖掘在各 方面的应用。着重论述了数据挖掘在客户关系管理的作用及实施过程。并分析了在分 类和预测中常用的各种决策树算法优缺点。最后基于广告传媒业自身的特点,设计并 实现了a d c p 珈,并讲述了在a d c r m 系统上实施数据挖掘的算法细节,设计细节以及实 现细节。 关键字数据挖掘客户关系管理决策树 a b s t r a c t n o w a d a y s ,i nt h ee r ao fe - c o m m e r c e ,t h ei n t e r a c t i o nb e t w e e ne n t e r p r i s ea n dc u s t o m e r s h a sb e e n s i g n i f i c a n tc h a n g e s ,n o o n ec a l l g u a r a n t e et h a ty o u w i l l c o n g y i e r z h o n g c u s t o m e r s ( n o b o d yc a ng u a r a n t e et h a tt h ec u s t o m e rw i l lb ef a i t h f u lu n t i ld e a t ht oy o u ) ,i n o r d e rt or e t a i nc u s t o m e r s ,e n t e r p r i s e sm u s tk n o wm o r ec u s t o m e rn e e d s c r mi st h a tt h e b u s i n e s st om a i n t a i nt h e c o m p e t i t i v e n e s s o fe n t e r p r i s e sa n d a d o p t ac l i e n t - o r i e n t e d , c u s t o m e r - d r i v e na n dc u s t o m e r - f o c u s e dd e v e l o p m e n ts t r a t e g y i no r d e rt oe s t a b l i s hal a s t i n g r e l a t i o n s h i p 、i t hc u s t o m e r s ,m a x i m i z ep r o f i t sf r o me a c hc u s t o m e r ,r e d u c em a r k e t i n gc o s t s a n dt h ew a s t eo fc u s t o m e r sl e a v i n ga n di n v a l i dm a n a g e m e n ts t r a t e g y ,w i l lr e q u i r e e n t e r p r i s e st og a i ni n s i g h ti n t oc u s t o m e rh a b i t s ,p r e f e r e n c e s ,i no r d e rt om e e tc u s t o m e r n e e d si nt h es h o r t e s tp e r i o do ft i m e ,i tn e e d st oc o l l e c t , a n a l y s i sa l lk i n do fc u s t o m e rd a t a f r o mt h ec u s t o m e rw i t ht h ei n t e r a c t i v ep r o c e s sb e t w e e nc u s t o m e ra n de n t e r p r i s e ,e x c a v a t e d t h ei m p l i c i tu s e f u li n f o r m a t i o nf r o mi t i ta l s oc a l la c h i e v et h eg o a lo f c r m - - 一一t h r o u g ht h e r i g h tc h a n n e lt ot h er i g h tc u s t o m e r sw i t ha p p r o p r i a t es e r v i c e s d a t am i n i n gt e c h n o l o g yi so n e o ft h em o s ti m p o r t a n tt e c h n o l o g y e st oh e l ps o l v ew i t ho ft h ev a r i o u sp r o b l e m se n c o u n t e r e d d u r i n gt h ei n t e r a c t i o nw i t ht h ec u s t o m e r d a t am i n i n g ( d a t am i n i n g ) ,w h i c hi sap r o c e s s ,t oe x t r a c tp o t e n t i a l l yu s e f u li n f o r m a t i o n a n dk n o w l e d g ei m p l i c i ti nw h i c hp e o p l eb n k n o w nf r o mal a r g eq u a n t i t yo fi n c o m p l e t e , n o i s e ,a n db l u r r i n g ,r a n d o md a t a t h i st h e s i sm i a n l yc l a r i f i e st h ep r i n c i p l ea n dc o n c e p t so fd a t am i n i n ga n dc u s t o m e r r e l a t i o n s h i pm a n a g e m e n t i ta l s os t u d ya l la s p e c t so fd a t am i n i n ga p p l i c a t i o n s f o c u s e d o n t h er o l eo fd a t am i n i n gi nc u s t o m e rr e l a t i o n s h i pm a n a g e m e n ta n dt h e p r o c e s so f i m p l e m e n t a t i o n a n a l y s i st h ev a r i o u sa d v a n t a g e sa n dd i s a d v a n t a g e so fd e c i s i o nt r e e a l g o r i t h m f i n a l l yb a s e do nt h ec h a r a c t e r i s t i c so fa d v e r t i s i n gm e d i ai n d u s t r y ,w ed e s i g na n d r e a l i z et h ea d c r ms y s t e ma n dd e s c r i b e dt h ed e t a i l so fd a t am i n i n ga l g o r i t h m s ,d e s i g n a n dt h er e a l i z a t i o n k e y w o r d s :d a t am i n i n g c l i e n tr e l a t i o n s h i pm a n a g e m e n td e c i s i o nt r e e 长春理工大学硕士学位论文原创性声明 本人郑重声明:所呈交的硕士学位论文,数据挖掘在客户关系管 理中的研究及应用是本人在指导教师的指导下,独立进行研究工作 所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其 他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要 贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本 声明的法律结果由本人承担。 ,1 1 一 作者签名:美,垄垂墨星舞月互妇 长春理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“长春理工大学硕士、博士 学位论文版权使用规定”,同意长春理工大学保留并向国家有关部门或 机构送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人 授权长春理工大学可以将本学位论文的全部或部分内容编入有关数据 库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位 论文。 作者签名:遂丞墓么堑年三月三臼 师签彩龇号月哕日 1 1 题目的目的和意义 第一章绪论 随着计算机、通讯等信息技术的迅猛发展,信息及信息技术在企业发展中的关键 地位得到越来越多的关注。企业的信息是其生存的关键。在这个全新的信息时代,赢 家往往是那些能成功的收集、分析、理解并根据信息决策的企业。同时随着数据库技 术的迅速发展以及数据库管理系统的广泛应用,许多企业搜集和存储的关于客户、供 应商和商业伙伴的宝贵数据越来越多。激增的数据背后隐藏着许多重要的信息,人们 希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可 以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则, 无法根据现有的数据预测未来的发展趋势,进而无法为企业决策提供有用的信息。缺 乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。所以, 企业希望从庞大的数据库中抽取有效的、未知的和能理解的信息,用来提高效益。为 了实现这个目标,需要1 用全局的观点来获取和集成来自企业内部和外部的数据2 挖 掘集成的数据来获取信息3 用能加速复杂的决策过程的方式来组织和表示这些信息和 知识。为了完成这些工作。企业要集成多种决策科学应用程序,以便用分析的方式组 织数据。客户关系管理系统应运而生,为各行各业带来了希望。 客户关系管理系统( c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ) 是决策科学技术和数据 挖掘应用中发展最快的领域之一。客户关系管理( c r m ) 已成为很多企业的基本商务战 略,它与企业资源规划( e r p ) 、供应链管理( s c m ) 一起,是企业提高竞争力的三大法 宝。 在电子商务时代的今天,企业与客户之间的交互方式发生了显著的变化,谁也不能 保证客户会对你从一而终,企业要想保留住客户,就必须更多的了解客户的需求。c r m 就是企业为了保持企业竞争力,采取面向客户、客户驱动和以客户为中心的发展策略。 企业要想与客户建立持久的关系,从每个客户身上获取最大利润,降低市场营销费用, 减少由于客户离去和无效的经营策略产生的浪费,就要求企业能深入了解客户的习惯, 喜好,最好能估计到客户的需求,要在最短的时间里满足客户的需要,要做到这些, 就必须对客户在与企业交互过程中的各种客户数据进行收集、分析、挖掘出隐含在数 据中的有用的信息。只有如此才能实现c r m 的目标一既在正确的时间里通过正确的渠 道给正确的客户提供恰当的服务,数据挖掘技术就是帮助我们解决同客户在交互过程 中遇到的各种问题的最重要的技术之一。 c r m 是9 0 年代西方发展起来的新型的管理策略它通过信息技术手段来实现其管理 目标,已经在西方获得了极大的成功。在进入w t o 后,中国将面临来在国外企业的竞 争压力,要想在竞争中立于不败之地,就必须加快企业信息化建设的步伐,采用国外 先进的管理思想和技术手段。由于数据挖掘技术在c r m 中所起的核心作用,因此对于 它的研究对企业能否成功实施c r m 战略、以及提高我国企业的决策支持水平有着重要 的意义。 1 2 国内外研究现状 在当今电子商务经济时代,全世界范围内的各个企业都在经历一场深刻的变革,它 关系到企业在未来怎样与客户和潜在的客户进行交流和互动。随着社会的发展,技术 的提高,对于公司来说,相互之间的竞争也从产品质量上的竞争转到了争夺客户的竞 争上来了。所以,企业关注的焦点逐渐从改进企业内部运作机制转移到更多地关注客 户上来了,如何留住现有的客户,如何发展新的客户,谁是潜在的客户,哪些客户会 有转移的倾向,这些己成了企业关注的主要问题。于是企业开始寻求技术的帮助,即 求助于客户关系管理系统( c r m ) 软件,作为专门管理企业前台的客户关系管理为企业提 供了一个收集、分析和利用各种客户信息的系统,帮助企业充分利用其客户管理资源, 也为企业在电子商务时代从容自如地面对客户提供了科学手段和方法。 在c r m 中,必不可少的要素是将海量的、复杂的客户行为数据集中起来形成整合的、 结构化的数据仓库( d a t aw a r e h o u s e ) ,这是数据挖掘的基础。在此基础上,需要借助 大量的数据挖掘方法和技术( 典型的方法技术:关联分析、序列模式分析、分类分析、 聚类分析,遗传算法,神经网络,粗糙集,模糊集,可视化,统计学等) 把表面的、 无序的信息整合,揭示潜在的关联性和规律,应用到以客户为中心的企业决策分析和 管理的各个不同领域和阶段。数据挖掘能够帮助企业确定客户的特点,从而可以为客 户提供有针对性的服务。 通过调查研究发现,数据挖掘在c r m 中的典型应用有: 1 在市场营销中的应用:( 1 ) 在商品促销活动中,企业利用数据挖掘技术可以通过 从销售记录中挖掘关联信息。( 2 ) 在一对一营销活动中,企业可以利用数据挖掘中的分 类与聚类技术把大量的客户分成不同的类,使企业给每个不同类的客户提供完全不同 的服务,最终提高客户的满意程度。( 3 ) 在交叉营销活动中,数据挖掘可以帮助企业寻 找影响客户购买行为的因素,帮助营销人员了解哪些客户最有可能购买新产品以及哪 些产品通常被一同购买,进而提高交叉营销的效果。 2 在客户获取中的应用,在发展新客户的过程中,应用数据挖掘的目的是建立一个 预测分析模型。 3 在客户保持中的应用。利用数据挖掘工具为己经流失的客户建模,识别导致他们 转移的模式,然后用这些模式找出当前客户中类似的流失客户,以便企业针对客户的 需要,采取相应的措施防止这些客户的流失,进而达到保持原有客户的目的。 2 4 在客户细分中的应用,数据挖掘可以根据客户的预测行为来定义客户细分群。 5 在客户盈利能力分析中的应用。数据挖掘技术可以用来预测在不同的市场活动情 况下客户盈利能力的变化。 6 在风险评估和防止诈骗中的应用。利用数据挖掘中的神经网络分析模型可以探察 具有诈骗倾向的客户,这就有可能使企业对这此客户加强监控防止诈骗的发生。数据 挖掘中的孤立点分析也可识别那些具有诈骗倾向的客户。 数据挖掘技术是开发客户关系管理( c r m ) 系统的主要技术之一,数据挖掘技术包含 了一系列旨在从数据集中发现有用的而尚未发现的知识的技术,目的是为决策建模, 即根据过去活动的分析预测将来的行为。 目前在c r m 中进行有效数据挖掘的研究主要有以下几个方面“: 1 通用且合理的c r m 系统体系结构的研究。主要考虑应用对象、应用目标、企业规 模等等实际问题: 2 数据挖掘与数据库、数据仓库的有机结合: 3 c r m 中的复杂数据挖掘模型的研究。这方面主要集中在挖掘的知识类型、多个抽 象层的交互知识挖掘算法的研究: 4 数据的研究。这方面主要包括数据库类型的多样性问题、复杂数据类型的处理、 噪声数据和缺失数据的处理,以及异种数据库和w e b 上的数据挖掘等: 5 与用户交互的研究。这方面主要研究数据挖掘结果的可视化和可理解性,领域知 识的运用等。 在今天的商务环境中,越来越的公司需要优先考虑来管理客户关系,在这些行业领 先的c p a i 解决方案中,企业可以根据自身的需求来选择最适合的c p a i 解决方案。 国外研究机构预测在未来的5 年中,c r m 市场能够获得足够的增长。在国内c r m 市 场上,我们看到了一个很好的市场反弹现象,伴随着微软开始高姿态的正式进入c r m 市场,o r a c l e 并购p e o p l e s o f t 和s i e b e l ,s a g e 并购b e s ts o f t ,c r m 厂商的合并和兼 并将会不断。而这些企业并购动作可以推动c r m 市场出现更多新的c r m 技术,包括无 线技术、x m l 、w e b 服务以及流程导向的产品设计等。所有这些都是推动c r m 市场增长 的重要因素。在激烈的市场竞争中,c p a i 正在逐渐成为现代企业生存的根本和制胜的关 键。 c r m 产品的未来走向预测:未来的c r m 产品前台和后台的信息系统将进一步融合。 呼叫中心的功能将大大扩充,真正地实现电话、w w w 、e m a i l 、传真、无线通讯、直接 接触等的融合,成为联系中心;基于网络的自助服务将成为企业向用户提供服务的重 要方式;作为一个跨知识管理、业务运作和电子商务等系统的融合概念,客户关系管 理正以前所未有的速度发展,并且扩大着用户群体,在激烈的市场竞争中,c r m 正在逐 渐成为现代企业生存的根本和制胜的关键 3 1 3 本文主要研究内容及组织安排 本文主要研究决策树算法在c r m 中的应用,并设计实现了一个c r m 系统a d c r m 本文组织安排如下: 第一章“绪论”主要介绍了本文的研究背景及意义,国内外对c r m 的研究及应用现 状。 第二章“客户关系管理和数据挖掘”,主要论述客户关系管理的基本定义、功能、 作用及其体系结构,数据挖掘的基本概念及其在各方面的应用。数据挖掘在c r m 中的 应用,及在c r m 中实施数据挖掘的步骤。 第三章“决策树算法分析”主要介绍了分类的概念及决策树算法在分类和预测中 的应用。主要讨论各种决策树算法的特点并指出不足。并举例用决策树i d 3 算法找到 潜在客户的特征 第四章“a d c p 瑚原型的设计”主要分析我们开发的基于r u b yo nr a i l s 技术的a d c r m 的特点和设计细节,并介绍了系统的各个功能模块设计和设置等,详细描述了其中各 主要模块的设计细节。 第五章“广告位智能推荐子系统的分析与实现“,详细描述了广告位智能推荐子 系统相关模块的分析设计及实现,并讲述了在a d c r m 系统上实施广告位智能推荐数据 挖掘算法原理及实例。 第六章“结论与展望”,总结全文得出研究结论,并指出系统的下一步开发方向及 需要改进和加强的地方。 4 第二章客户关系管理与数据挖掘 2 1 客户关系管理( c r m ) 随着客户需求日益多样化、个性化及市场竞争的多元化,企业要想在以客户为中 心的竞争中取胜,借助信息技术发掘新客户和保持并改善老客户的关系已成为企业的 迫切需求。 客户关系管理( c 删,c u s t o m e rr e l a t i o n s h i pm a n - - a g e m e n t ) 。萌芽于2 0 世纪6 0 年代,是一种“以客户为核心,以服务为根本”的管理思想,曾被认为是推动电子商 务发展的主要力量之一。最初由g a r t n e rg r o u p ”m 1 提出,c r m 是迄今为止规模最大的 i t 概念,它将看待客户的概念从独立分散的单个部门提升到了企业的层面,虽然与每 个客户的具体交互行为是由每个部门来完成的,但是却是企业对客户负全面的责任。 c r m 的核心思想是以“客户为中心”,提高客户满意度,改善客户关系,从而提高 企业的竞争力。客户关系管理不仅是一种管理理念,通过完善的客户服务和深入的客 户分析来满足客户的需求,保证实现客户的终生价值,而且是一种旨在改善企业与客 户之间关系的新型管理机制,使企业从以产品为中心的模式向以客户为中心的 模式转移,即企业关注的焦点从内部运作转移到客户关系上来。简言之,就是通过对 客户资料的详细分析,来提高客户的满意度,从而提高企业的竞争力的一种手段。 c r m 中的数据挖掘,是高层次上的主动式自动发现方法,被称为发现驱动型数据挖 掘。w j f r a w l e y ,g p i a t e t s k y 给出的定义是:数据挖掘,就是从大型数据库中的数 据中提取人们感兴趣的知识。这些知识是隐含的、事先未知的、潜在有用的信息,提 取的知识表示为概念( c o n c e p t s ) ,规则( r u l e s ) ,规律( r e g u l a t i o n s ) ,模式( p a t t e r n s ) 等形式。数据挖掘是实现从客户数据、信息到客户知识转变的有力的工具。数据挖掘 技术是开发客户关系管理( c r m ) 系统的主要技术之一,数据挖掘技术包含了一系列旨在 从数据集中发现有用的而尚未发现的知识的技术,目的是为决策建模,即根据过去活 动的分析预测将来的行为。 2 1 1c r m 定义及作用 客户关系管理( c r m ) 源于以“客户为中心”的新型商业模式,是一种旨在改善企业 与客户之间关系的新型管理机制。通过向企业的销售、市场和客户服务的专业人士提 供全面、个性化的客户资料,并强化跟踪服务、信息分析的能力,使他们能够协同建 立和维护一系列与客户和生意伙伴之间卓有成效的“一对一关系”,从而使企业得以 提供更快捷和周到的优质服务、提高客户满意度、吸引和保持更多的客户,从而增加 营业额;并通过信息共享和优化商业流程有效的降低企业经营成本。 客户关系管理( c r m ) 首先是一种管理理念,起源于西方的市场营销理论,产生和 发展在美国。其核心思想是将企业的客户( 包括最终客户、分销商和合作伙伴) 作为 最重要的企业资源,通过完善的客户服务和深入的客户分析来满足客户的需求,保证 实现客户的终生价值。、 客户关系管理( c 跚) 又是一种旨在改善企业与客户之间关系的新型管理机制,它 实施于企业的市场营销、销售、服务与技术支持等与客户相关的领域,要求企业从”以 产品为中心”的模式向”以客户为中心”的模式转移,也就是说,企业关注的焦点应从内 部运作转移到客户关系上来。 客户关系管理( c r m ) 也是一种管理软件和技术,它将最佳的商业实践与数据挖掘、 数据仓库、一对一营销、销售自动化以及其它信息技术紧密结合在一起,为企业的销 售、客户服务和决策支持等领域提供了一个业务自动化的解决方案,使企业有了一个 基于电子商务的面对客户的前沿,从而顺利实现由传统企业模式到以电子商务为基础 的现代企业模式的转化。 c r m 的目标是一方面通过提供更快速和周到的优质服务吸引和保持更多的客户;另 一方面通过对业务流程的全面管理减低企业的成本。设计完善的c r m 解决方案可以帮 助企业在拓展新收入来源的同时,改进与现有客户的交流方式。 传统的内资企业由于缺乏对客户信息的管理,使客户信息收集工作不完全,从而 导致对客户的服务不到位,进而使客户的忠诚度降低,直至流失。c r m 的作用就是有效 地解决上述这些问题,主要作用有以下凡方面”: 1 开拓市场 通过电话、邮箱、传真等多种手段,与客户频繁交往,增加与客户往来的信息, 使得企业掌握市场最新动态,把握竞争的最好时机。 2 改善服务 c r m 在知识库的支持下向客户提供专业化的服务,严密的客户纠纷跟踪,这些都成 为企业改善服务的有力保证。 3 吸引客户 由于客户与企业有较多的渠道进行交流,企业联系客户比较方便,客户满意度得 到提高,这样有利于企业吸引客户。 4 减少中间环节 c r m 系统汇集来自各方面的客户信息,全面了解客户的情况,并把所得到的客户信 息添加到系统,这样将使销售渠道更为畅通,信息传递的中间环节减少,销售的中间 环节也相应地减少。 5 降低销售成本 6 c r m 的运用使得团队销售的效率和准确率大大提高,服务质量的提高也使得服务时 间和工作量大大降低,同时销售的中间环节减少,企业的销售费用将大大降低,销售 成本也跟着降低。这些都无形中降低了企业的运作成本。 6 提高企业运行效率 由于c r m 建立了客户与企业打交道的统一平台,企业可以利用客户关系信息对客 户和销售业绩进行动态跟踪分析,及时处理客户方面的问题。 2 1 2c r m 体系结构 按照体系结构把c r m 系统分为三类蛳,即协作型、操作性和分析性c r m 。 i 协作型c r m 又称渠道型c 跚。将市场、销售和服务三个部门紧密的结合在一起, 支持他们之间的协作。使企业内各个部门之间协作畅通,数据一致,从而使c r m 为企 业发挥更大的作用。 目前我们与客户的接触渠道日益多样,除了传统的电话、面对面的现场接触外, e l i l a i l 、传真、呼叫中心、互联网等其它渠道也成为我们与客户之间沟通的重要途径。 如何将客户与我们的各种接触渠道进行整合,通过统一的标准化接口与后台的支撑系 统,使客户的同一服务请求在各个相关系统平台上得到统一的展示是协作型c r m 所要 完成的任务。 2 操作性c r m 通过基于角色的关系管理工作平台实现员工授权和个性化,使前台 系统和后台订单执行系统可以无缝集成链接,以此使相关部门的业务人员在日常的工 作中能够共享客户资源,大大的减少客户在与企业接触过程中产生的种种不协调。 可以帮助我们实现营销、销售、服务等环节的流程自动化,达到利用i t 技术来提 高我们的运营效率、降低运作成本的目的。通过实施操作型c r m 运营商最终将建立一 套以客户为中心的运作流程及管理制度,同时有助于培养员工的服务意识,销售、服 务、营销部门的业绩也将得到明显提升。 3 分析型c r m ,也叫做b i ( 商业智能) ,利用数据仓库、数据挖掘技术,支持发 掘和理解客户行为。即将交易操作积累的大量数据进行过滤,存储到数据仓库中,运, 用数据挖掘技术建立各种行为预测模型,最后生产各种报表、曲线等达到成功决策 的目的。 包括以上两种系统的功能,并同时提供商业智能的能力,最终使得我们将宝贵的 客户信息转变为客户知识,将企业原有的客户信息管理系统提升到客户知识管理管理 系统的高度。通过建立数据仓库、应用数据挖掘、商业智能等技术手段,对大量的客 户信息进行分析,可以让运营商更好地了解客户的消费模式,并对客户进行分类( 如 根据客户的当前贡献与潜在贡献,寻找对我们最为重要的大客户) ,从而能针对客户 的实际需求制定相应的营销战略,开发出相应的产品和服务,更好的满足客户的需求。 这也是业界经常谈的“大规模定制”及“一对一营销”模式的核心思想。 7 如图2 1 所示,从客户接触中心收集来的信息,经过集成和分析,可以完整、正确 地得出客户的基本情况。所有这些信息,都被分类存储在数据仓库中,然后可以针对 数据仓库进行深层次的分析,乃至数据挖掘,对企业商业决策提供有力支持 客户接触中心 图2 1c 删体系结构 从c r m 软件所搜集的数据是最能帮助企业了解客户的,所谓的“一对一行”销也是 注重在了解客户的需求,以便投其所好,以促成交易。数据是死的,但是如果能运用 一些数学或统计模式,发现数据中存在的关系和规则,根据现有的数据预测未来的发 展趋势,那么就可成为管理者的决策参考。 数据挖掘工具能够对将来的趋势和行为进行预测,从而很好地支持人们的决策, 比如经过对公司整个数据库系统的分析,数据挖掘工具可以回答诸如”哪个客户对我们 公司的产品推销活动最有可能做出反应,为什么”等类似的问题。有些数据挖掘工具还 能够解决一些很消耗人工时间的传统问题,因为它们能够快速地浏览整个数据库,找 出一些专家们不易察觉的极有用的信息。因此可以说c r m 的成功在于成功的数据仓库、 数据挖掘及知识发现。 c r m 中的数据挖掘指通过高等统计工具等的使用,利用分类、关联性、序列分析、 群集分析、机器自我学习及其他统计方法,从数据库中庞大的数据中,收集与顾客相 关的数据,对这些数据进行筛选、推演与模型建造等程序,找出隐藏的、未知的、但 却对企业经营十分有用的信息,或者说是在数据与模式中的可把原始数据转换成商机 并成为决策依据的新知识。从c r m 的整体结构来说,数据挖掘是整个c r m 的核心,也 是构成商业智能的基础 8 2 2 数据挖掘 2 2 1 定义和功能 1 技术上的定义 数据挖掘( d a t am i n i n g ) “”就是从大量的、不完全的、有噪声的、模糊的、随机 的数据中,提取隐含在其中的、人们未知的、但又是潜在有用的信息和知识的过程。 和从数据库中发现知识( k d d ) 、数据分析、数据融合( d a t af u s i o n ) 以及决策支持等是 同义词。 定义包括三层含义: ( 1 ) 数据源必须是真实的、大量的、含噪声的; ( 2 ) 发现的是用户感兴趣的知识; ( 3 ) 发现的知识要可接受、可理解、可运用; 并不是要求发现放之四海皆准的知识,仅需支持特定的发现问题。也不是要去发 现崭新的自然科学定理和纯数学公式,更不是机器定理证明。所有发现的知识都是相 对的、有特定前提和约束条件、面向特定领域的,同时还要能够易于被用户理解,最 好能用自然语言表达发现结果。 2 商业角度的定义 数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业 务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数 据。 简而言之,数据挖掘其实是一类深层次的数据分析方法。数据分析本身已经有很 多年的历史,只不过在过去数据收集和分析的目的是用于科学研究,另外,由于当时 计算能力的限制,对大数据量进行分析的复杂数据分析方法受到很大限制。现在,由 于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据不再是为了 分析的目的而收集的,而是由于纯机会的( o p p o r t u n i s t i c ) 商业运作而产生。分析这 些数据也不再是单纯为了研究的需要,更主要是为商业决策提供真正有价值的信息, 进而获得利润。但所有企业面临的一个共同问题是:企业数据量非常大,而其中真正 有价值的信息却很少,因此从大量的数据中经过深层分析,获得有利于商业运作、提 高竞争力的信息,就像从矿石中淘金一样,数据挖掘也因此而得名 因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索 和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效 的方法。 数据挖掘是一个交叉学科领域“”,受多个学科影响( 见图2 2 ) ,包括数据库系统、 统计学、机器学习、可视化和信息科学。此外,依赖于所用的数据挖掘方法,可以使 用其他学科的技术,如神经网络、模糊和或粗糙集合论、知识表示、归纳逻辑程序设 9 计或高性能计算。依赖于所挖掘的数据类型或给定的数据挖掘应用,数据挖掘系统也 可能集成空间数据分析、信息检索、模式识别、图像分析、信号处理、计算机图形学、 w e b 技术、经济学、商业、生物信息学或心理学领域的技术。 图2 2 数据挖掘受多学科影响 2 2 2 主要技术、方法及工具 1 常用数据挖掘技术 ( 1 ) 关联分析“:就是从给定的数据集中发现频繁出现的项集模式知识。简单的解 释就是某种事物发生时其他事物会发生的这样一种联系。关联分析又称为关联规则。 关联规则挖掘发现大量数据中项集其目的就是挖掘出隐藏在数据间的相互关系。 关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据 库中不同商品( 项) 之间的联系,找出顾客购买行为模式,如购买了某一商品对购买 其他商品的影响。分析结果可以应用于商品货架布局、货存安排以及根据购买模式对 用户进行分类。 ( 2 ) 时序模式:在许多现实数据库中,数据常常与时间密切相关,对象的属性值可 能会随时间而改变,为了进行预测,我们必须首先建立适当的预测模型这样,如何 从时序数据中挖掘出时序模式,就成为一个具有十分重要的理论与实践意义的课题。 与关联分析类似,目的也是为了挖掘出数据之间的联系,但时间序列分析更加侧重于 数据在时间先后上的因果关系。例如,购买了打印机的人中,3 个月后7 0 的人会再买 打印机。 时间序列是指随时间变化的序列值,处理时序数据包括趋势分析( 长期或趋势变 化、循环变动或循环变化、季节性变动或季节性变化、非规则或随机变化) 、相似性 搜索、序列模式挖掘和周期分析等内容。 1 0 ( 3 ) 分类与预测:分类就是找出一组能够描述数据集合典型特征的模型( 函数) , 以便能够分类识别未知数据的归属或类别。预测:利用历史数据找出规律,建立模型, 并用此模型预测未来数据的种类、特征等。 分类和预测在现实生活中应用广泛,包括信誉证实,医疗诊断,性能预测,选择 购物等。 , 分类和回归都可用于预测。预测的目的是从利用历史数据纪录中自动推导出对给 定数据的推广描述,从而能对未来数据进行预测。和回归方法不同的是,分类的输出 是离散的类别值,而回归的输出则是连续数值。 ( 4 ) 聚类:按一定规则将数据分为一系列有意义的子集。同一聚类中,个体之间差 距较小,不同聚类中,个体之间的差距较大。 聚类是把一组个体按照相似性归成若干类别,即”物以类聚”。它的目的是使得属 于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。 聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法。 聚类的常规应用:模式识别;空间数据分析,在g i s 中,通过聚类发现特征空间 来建立主题索引,在空间数据挖掘中,检测并解释空间中的簇;图象处理;经济学( 尤 其是市场研究方面) ;w 啊方面有文档分类和分析w e b 日志数据来发现相似的访问模式 ( 5 ) 偏差分析:从数据库中找出异常数据。 即孤立点分析,孤立点分析是数据挖掘中一个重要方面,用来发现“小的模式”( 相 对于聚类而言) ,即数据集中显著不同于其它数据的对象。 h a w k i n s ( 1 9 8 0 ) 给出的孤立点( o u t l i e r ) 的定义:孤立点是在数据集中与众不同 的数据,使人怀疑这些数据并非随机孤立点,而是产生于完全不同的机制。 0 u t l i e r s 可能在聚集运行或者检测的时候被发现,比如一个人的年龄是9 9 9 ,这 在对数据库进行检测的时候就会被发现。还有,就是o u t l i e r 可能是本身就固有的, 而不是一个错误,比如c e o 的工资就比一般员工的工资高出很多。 其应用领域主要有:电信和信用卡欺骗( 检查购买金额或购买次数异常等) ,贷 款审批,药物研究,气象预报,金融领域( 检查洗钱等异常行为) ,客户分类,网络 入侵检测等。 2 典型方法和工具 ( 1 ) 神经网络( n e u r a l n e t w o r k ) 神经网络建立在可以自学习的数学模型的基础之上。它可以对大量复杂的数据进 行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析。神经 网络系统由一系列类似于人脑神经元一样的处理单元组成,我们称之为节点( n o d e ) 。 这些节点通过网络彼此互连,如果有数据输入,它们便可以进行确定数据模式的工作。 神经网络系统也存在着如下问题:首先,神经网络对分类模型比较适合。但是, 神经网络的隐藏层可以说是一个黑盒子,得出结论的因素并不十分明显。同时其输出 结果也没有任何解释,这将影响结果的可信度及可接受程度。其次,神经网络需要较 长的学习时间,因此当数据量很大时,性能可能会出现问题。 ( 2 ) 决策树方法( d e c i s i o n t r e e ) 决策树o ”是通过一系列规则对数据进行分类的过程。采用决策树,可以将数据规 则可视化,其输出结果也容易理解。决策树方法精确度比较高,不像神经网络那样不 易理解,同时系统也不需要长时间的构造过程,因此比较常用。然而,采用决策树方 法也有其缺点。决策数方法很难基于多个变量组合发现规则。不同决策树分支之间的 分裂也不平滑。 ( 3 ) 联机分析处理( o l a p ) 联机分析处理( 0 n l i n e a n a l y t i c a l p r o c e s s i n g ,0 l a p ) 主要通过多维的方式来对数 据进行分析查询和报表。它不同于传统的联机事物处理o l t p ( 0 n l i n e t r a n s a c t i o n p r o c e s s i n g ) ,o l t p 应用主要是用来完成用户的事务处理,如民航订票系统、银行储蓄 系统等等,通常要进行大量的更新操作,同时对响应时间要求比较高。而o l a p 应用主 要是对用户当前及历史数据进行分析,辅助领导决策。其典型的应用有对银行信用卡 风险的分析与预测、公司市场营销策略的制定等,主要是进行大量的查询操作,对时 间的要求不太严格。目前常见的o l a p 主要有基于多维数据库的m o l a p 及基于关系数据 库的r o l a p 。在数据仓库应用中,o l a p 应用一般是数据仓库应用的前端工具,同时o l a p 工具还可以同数据挖掘工具、统计分析工具配合使用,增强决策分析功能。 ( 4 ) 数据可视化( d a t av i s u a l i z a t i o n ) 数据仓库中包含大量的数据,并且充实着各种数据模型,将如此大量的数据可 视化需要复杂的数据可视化工具。数据挖掘和数据可视化可以很好地协作。就数据可 视化系统本身而言,由于数据仓库中的数据量很大,很容易使分析人员变得不知所措, 数据挖掘工具可以设定通过富有成效的探索的起点并按恰当的隐喻来表示数据,为数 据分析人员提供很好的帮助。 ( 5 ) 遗传算法 遗传算法“”是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全 局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据 挖掘中被加以应用。 s u n i l 已成功地开发了一个基于遗传算法的数据挖掘工具,利用该工具对两个飞机 失事的真实数据库进行了数据挖掘实验,结果表明遗传算法是进行数据挖掘的有效方 法之一。遗传算法的应用还体现在与神经网络、粗集等技术的结合上。如利用遗传算 法优化神经网络结构,在不增加错误率的前提下,删除多余的连接和隐层单元;用遗 传算法和b p 算法结合训练神经网络,然后从网络提取规则等。但遗传算法的算法较复 杂,收敛于局部极小的较早收敛问题尚未解决。 ( 6 ) 粗集方法 粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点:不 需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗集处理的对 1 2 象是类似二维关系表的信息表。目前成熟的关系数据库管理系统和新发展起来的数据 仓库管理系统,为粗集的数据挖掘奠定了坚实的基础。但粗集的数学基础是集合论, 难以直接处理连续的属性。而现实信息表中连续属性是普遍存在的。因此连续属性的 离散化是制约粗集理论实用化的难点。现在国际上已经研制出来了一些基于粗集的工 具应用软件,如加拿大r e g i n a 大学开发的k d d r :美国k a n s a s 大学开发的l e r s 等。 ( 7 ) 覆盖正例排斥反例方法 它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任 选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则 保留。按此思想循环所有正例种子,将得到正例的规则( 选择子的合取式) 。比较典型 的算法有m i c h a l s k i 的a q l l 方法、洪家荣改进的a q l 5 方法以及他的a e 5 方法。 ( 8 ) 统计分析方法 在数据库字段项之间存在两种关系:函数关系( 能用函数公式表示的确定性关系) 和相关关系( 不能用函数公式表示,但仍是相关确定性关系) ,对它们的分析可采用统 计学方法,即利用统计学原理对数据库中的信息进行分析。可进行常用统计( 求大量数 据中的最大值、最小值、总和、平均值等) 、回归分析( 用回归方程来表示变量间的数 量关系) 、相关分析( 用相关系数来度量变量间的相关程度) 、差异分析( 从样本统计量 的值得出差异来确定总体参数之间是否存在差异) 等。 ( 9 ) 模糊集方法 即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊 聚类分析。系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属度来刻画模 糊事物的亦此亦彼性的。李德毅等人在传统模糊理论和概率统计的基础上,提出了定 性定量不确定性转换模型一云模型,并形成了云理论。 2 2 3 数据挖掘在各方面的应用 需要强调的是,数据挖掘技术从一开始就是面向应用的“。目前,在很多领域, 数据挖掘( d a t am i n i n g ) 都是一个很流行的词,尤其是在如银行,证券、电信、保险、 交通、零售( 如超级市场) 等商业领域。数据挖掘所能解决的典型商业问题包括:数 据库营销( d a t a b a s em a r k e t i n g ) 、客户群体划分( c u s t o m e rs e g m e n t a t

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论