




已阅读5页,还剩53页未读, 继续免费阅读
(计算机软件与理论专业论文)基于数据挖掘的酒店crm客户获取的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 客户关系管理c r m ( c u s t o m e r r e l a t i o n s h i p m a n a g e m e n t ) 是对企业和客户的交 互活动进行管理的过程,是一整套先进理念、方法和解决方案,能帮助找到并锁 定最好的客户,以正确的价格,在正确的时间,通过正确的渠道,提供正确的产 品或服务,从而最有效地满足客户的需要和愿望。但由于缺乏发现隐含在数据中 的有用信息的能力,企业无法将数据转化为知识。数据挖掘技术则提供了从庞大 的数据库中抽取有效的、未知的和能理解的信息的手段,帮助企业实现数据到知 识的转换,为企业提供决策支持。 我国国民经济迅速增长的势头,为酒店行业的发展带来极大的商机,酒店如 何抓住这一机遇,提高自身实力是最关键的。实施基于数据挖掘的c r m 无疑是 酒店提高竞争力的一条重要途径。 本文针对基于数据挖掘的酒店c r m 客户获取分析技术进行研究,主要目的 是寻求建立酒店潜在客户的挖掘模型的方法,并结合广东工业大学横向科研项目 “军山大酒店客户关系管理系统”实现其客户获取,即把潜在客户转变为酒店真 正的客户。本文的主要研究工作如下:完成数据的准备工作,它涉及到了对数据 的清洗、抽取、转化和派生,其中着重探讨如何在酒店c r m 中构建数据仓库的 问题。然后研究聚类和分类技术,比较了现有的聚类和分类算法,根据算法的准 确性、简便性、易理解性,选择】【一m e a s 聚类算法和i d 3 决策树分类算法作为潜 在客户建模的算法,并针对算法弊端进行一定程度的改进。提出采用三角形三边 关系定律预先判断是否要计算样本点之间的距离,当符合一定条件时才计算样本 点间距离的改进k m e a n s 聚类算法;对i d 3 算法启发式函数进行研究,提出了采 用属性熵均值来选择决策树的最佳分裂属性。通过理论与实验研究,验证了以上 算法的可行性和有效性。 本文对于如何在酒店客户关系管理中进行客户获取有一定的指导价值和实 践意义,对于其他行业的客户获取也有借鉴作用。 关键字:数据挖掘;酒店c r m ;客户获取;聚类;决策树 ! 垂三些奎兰三主堡圭兰堡堡三 a b s t r a c t c r m ( c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ) i sap r o c e s so fm a i l a 舀n gi n c e r a c t i o n a c t i v i t yb e t w b e ne n t e r p r i s ea n dc u s t o m e r s i ti s as e to fa d v a n c e di d e a s ,m e t h o d sa n d s o l u t i o s ,w h i c hc a nh e l pt of i n do u ta n dl o c kt h eb e s tc u s t o l e r s ,a n ds a t i s f ,t h e i r e e d sa n df h i f i l lt h e i rw i s h e se f f 色c t i v e l yo nt h er i g h tp r i c e s ,t h er i g h tt i m e ,t h er i g h t w a ya n dt h eg o o dp r o d u c ta n ds e r v i c e b e c a u s eo fl a c k i n gc a p a c i t yo fd i s c o v e r i n g u s e f u ii n f o m a t i o w h i c hi sc o n c e a l e di nd a t a ,i ti s v e r yd i m c u l tf o re n t e r p r i s e st o c o n v e r td a t ai n t o k n o w l e d g e w i t ht h e i c r e a s i n gd e v e l o p m e t o fd a t a m i n i n g t e c h n o l o g y ,e n t e r p r i s e sh a v et h ep o s s i b i l i t yt oc o n v e r td a t ai n t ok n o w l e d g eb yu s i n g t h ev a l i d ,u n k n o w na n du n d e r s t a n d i n gi n f o m a t i o e x t r a c t e df r o mh u g ed a t a b a s e i t c a np r o v i d ed e c i s i o ns u p p o r tf b re n t e r p r i s e s t h es u b s t a n t i a l i n c r e a s e t e n d e n c y o fo u rn a t i o n a l e c o n o m yb r i n g sg r e a t d e v e l o p m e n tc h a i l c ef o rh o t e l i n d u s t r y i ti s c n 】c i a lf o rh o t e lh o wt o g e th o l do ft h i s o p p o r t u n i t yt oi n l p r o v eo w ns t r e n g t h u n d o u b t e d l yi m p l e m e n t i gc r m b a s e do nd a t a m i n i n g i sa ni m p o r t a n ta p p r o a c ht oi m p r o v e c o m p e t i t i v ea b i l i t yi ni t s e l f t h et e c h n o l o g yo fc u s t o m e r a c q u i s i t i o ni nt h eh o t e lc r m b a s e do nd a t am i n i n gi s s t u d i e di nt h i sd i s s e r t a t i o t h eg o a lo ft h i sd i s s e r t a t i o i ss e e k i n gf o ra na p p r o a c ht o c o n s t r u c tah o t e lp o t e n t i a lc u s t o m e rm o d e l c o m b i n i n gw i t ht h ei t e mo f g u a g d o n g u n i v e r s i t yo ft e c h n o l o g y 一“t h ec r ms y s t e mo fj u n s h a nh o t e l ”,c u s t o m e ra c q u i s i t i o n i sr e a l i z e d c u s t o m e ra c q u i s i t i o ni st r a n s f o r m i n gt h ep o t e n t i a lc u s t o m e ri n t og e n u i n e c u s t o m er t h e s t u d y c o n t e n t sa r ed e s c r i b e da s f 0 1 l o w s f i r s t l y ,t h ew o r ko fd a t a p r e p a r i g t h a ti n v o l v e sd a t ac l e a n i n g ,d a t ae x t r a c t i n g ,d a t at r a n s f o r m i n ga n dd a t a d e r i v i n gi sc o m p l e t e d i na d d i t i o n ,t h eq u e s t i o no nh o wt ob u i l dd a t aw a r e h o u s ei n h o t e lc r mi sf o c u s e d s e c o n d l y ,w es t u d yt h ec l a s s i f i c a t i o na n d c l u s t e r i n gt e c h n o l o g y a n dc o n l p a r e 、v i t h e x i s t i n g c l a s s i f i c a t i o a n d c l u s t e f i n ga l g o r i t h m s a c c o r d i n g t o a l g o r i t h m sa c c u r a c y ,s i m p l i c i t ya n di n t e l l i g i b i l i t y w es e l e c tk - m e a n sa l g o r i t h ma n d i d 3d e c i s i o nt r e e a l g o r i t h mt o b u i l dp o t e n t i a lc u s t o m e rm o d e l ,a i l dp r o p o s es o m e i m p r o v e m e n t s w eb r i n gf o r w a r d am o d i f i e dk m e a n sa l g o r i t h mt h a tu s i n gt h e t r i a n 9 1 e i n e q u a l i t yt oj u d g eb e f o r e h a n dw h e t h e r t h ed i s t a n c eb e t w e e nt w od a t a s a m p l e ss h o u l d b ec a l c u l a t e d ,t h e nt h i sd i s t a n c es h o u l db ec a l c u l a t e dw h e ns a t i s f i e ds o m ed e s i g n c o n d i t i o n s a l s ow es t u d i e dh e u r i s t i cf u n c t i o no fi d 3a l g o r i t h ma n dp r e s e n tan e w a p p r o a c ht h a t s e l e c t s p l i t a t t r i b u t eb yt h e a v e r a g eo fa t t f i b u t ee n t r o p yg a i n t h e s e m o d i f i e da l g o r i t h m sa r ep r o v e df e a s i b l ea i l de f 诧c t i v eb yt h e o r ya n d e x p e r i m e n t t h i sd i s s e r t a t i o ns h o u l dh a v ec o n s t r u c t i v ee f f e c ta dp r a c t i c em e a n i n go nh o w t o a c q u i r i n gc u s t o m e ri nh o t e lc u s t o m e rr e l a t i o n s h i pm a n a g e m e n t i a d d i t i o n ,i tw o u l d p e r f 0 nar e f e f e n t i a lf u n c t i o ni no t h e ri n d u s t r i e s k e y w o r d s :d a t a 血i n g ;h o t e lc r m ;c u s t o m e ra c q u i s i t i o n ;c l u s t e r i n g ;d e c i s i o nt r e e m 第一章绪论 1 1 研究背景及选题意义 第一章绪论 在网络社会化,社会网络化的信息时代,面对越来越多迅速膨胀的超级数据 库时,人们却难以获得有价值的知识。数据挖掘概念的提出,使人们有能力克服 这些困难,去发掘出蕴藏在数据中的信息和知识。对于企业而言,原有的决策支 持系统d s s ( d e c i s i o ns u p p o f ts y s t e m ) 和领导执行系统e i s ( e n t e r p r i s e i n f o r m a t i o n s y s t e m ) 已不能满足需要。数据挖掘可以帮助企业发现业务发展的趋势,揭示已 知的事实。预测未知的结果,分析完成任务所需的关键因素,以增加收入、降低 成本,使企业处于更有利的竞争位置。数据挖掘是目前国际上数据库和信息决策 领域的最前沿研究方向之一,引起了学术界和工业界的广泛关注m 。 客户关系管理c r m ( c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ) 是一种新颖的管理 机制,目的是为了改善企业与客户之间的关系,使企业在营销、销售、服务与支 持各个方面形成一种协调的关系“3 。c r m 始终以客户为中心,建立、收集有关老 客户、新客户、潜在客户的档案,分析所有客户信息,使企业各部门都能共享,从 中找出有价值的客户,挖掘客户的潜力,开拓企业的市场,最终获得更多客户和 取得最大的利润。 c r m 可以帮助企业建立起庞大的数据仓库,利用数据挖掘技术帮助企业管理 客户生命周期的各个阶段。在数据仓库中进行数据挖掘正逐渐成为c r m 中最核 心的部分。一方面,c r m 的目的和使命要求对客户信息、销售信息、经营信息等 数据进行全面的掌握;另一方面,随着企业信息化的不断进展,在收集了大量数 据之后,如何将这些数据进行整理、分析,为企业进行科学决策提供支持,是企 业普遍面临的一个问题。 在酒店行业,传统的计算机管理系统主要包括前台管理系统和后台管理系统 两大部分,基本涵盖酒店主要业务部门,实现了客户服务和进行财务核算所需要 的各个功能。1 。但传统的酒店管理系统基于财务管理为主线的设计理念,无法满 足酒店全面信息化管理的需要,在营销管理上也存在不足。其客户管理部分主要 是对客户资料的整理与统计,采用的工具也主要是传统的统计分析工具,注重的 广东工业大学工学硕士学位论文 是对历史数据的分析总结。缺乏对未来情况的预测。这样一方面没有充分的利用 大量的客户历史数据,造成信息资源的浪费;另一方面由于缺乏对客户的充分认 知,造成企业决策的盲目。比如可能存在以下问题: ( 1 ) 工作人员不负责任的离职,恶意带走大量的客人资料等。 ( 2 ) 天天不断的盲目地寻找新客人。 把客户关系管理( c r m ) 引入酒店管理系统是一个很好的选择。现代酒店计 算机管理系统是一个具有c r m 管理机制的系统。目前,我国在酒店客户关系管 理方面的研究工作做得比较少,仅有华仪软件系统工程有限公司、杭州西湖电脑 有限公司等少数几家企业的产品在国内几家高星级酒店试用n ,。 本文的工作正是基于这样一个背景展开的,以酒店行业为应用背景,通过分 析客户的基本数据、交易数据和行为模式,建立客户获取预测模型,即挖掘潜在 客户。潜在客户的发现是有意义的。潜在客户的培养和挖掘现在被认为是企业获 得进一步成功的关键,资料显示发展一个新客户要比保留一个老客户多出5 倍的 成本投入,因此识别那些能转变成现实客户的潜在客户对企业是很有帮助的,一 则改进企业的营销策略,二则避免企业获取客户时的盲目性,为企业节省不少争 取新客户所付出的无谓的费用。因此本文的研究具有一定的指导价值和实践意义。 1 2 国内外相关领域的研究现状 1 2 1 数据挖掘技术 计算机技术的迅猛发展以及网络的普及,使人们有更多机会使用便捷的方式 与外界进行信息交流。可是,数据大量的涌入,增加了我们获取有用信息的难度。 如何从大量的数据中获取有价值的信息,采用传统的数据库技术已显得无能为力。 数据的迅速增加与数据的分析处理方法滞后的矛盾越来越大,人们希望能够在已 有的大量数据分析的基础上进行科学研究、商业决策或企业管理,数据挖掘因此诞 生w 。数据挖掘( d a t am i n i n g ) ,又称为数据库中的知识发现k d d ( k n o w l e d g e d i s c o v e ri nd a t a b a s e ) ,是从大量的、不完全的、有噪声的、模糊的、随机的数据 中,提取隐含的、未知的、有潜在应用价值的信息或模式的过程。它是一门新兴 的交叉学科,汇集了来自数据库技术、统计学、机器学习、高性能计算、模式识 别、神经网络、数据可视化、信息检索、图像与信号处理和空间数据分析等各领 2 第一章绪论 域的研究成果。 数据挖掘在国外己经有较长时间的研究、应用历史,有较多的数据挖掘软件 可供选择。目前,在数据挖掘领域比较著名的工具软件有i b m 的i n t e l l i g e n t m i n e r 和s a s 的e n t e r p r i s em i n e r ,s p s s 公司的c l e m e n t i n e ,他们都是基于客户机服务 器结构的,具有较高处理能力,通常支持多种平台。这类数据挖掘工具的另一个 特点是它通常提供了多种数据挖掘算法,并有能力解决多种应用问题,是一个面 向各个应用领域的数据挖掘软件平台。但是该类产品却有着严重的缺憾:易用性 不强,需要较专业的、熟悉统计分析和预测建模方式的业务人员与i t 人员共同配 合才能发挥产品的功能。 数据挖掘已经成功地用于大型数据仓库的知识挖掘,它被广泛应用于市场营 销、银行业、生产销售、零售业、制造业、保险业、国家安全部门、医药业、电 信业等,通过挖掘获取有价值的知识,以此来辅助决策。但是,应用于c r m 的 数据挖掘研究还不是很多。目前,国外数据挖掘的研究方面主要有:对数据挖掘 方法的研究进一步发展。如近年来注重对b a y e s ( 贝叶斯) 方法以及b o o s t i n g 方法 的研究和提高;数据挖掘与数据库的紧密结合、数据挖掘商业软件工具不断产生 和完善、建立解决问题的整体系统等等。 由于我国企业信息化起步相对较晚,信息系统建设没有形成规模,国内企业 实现数据挖掘的主要困难在于缺少数据积累、难于构建业务模型、各类人员之间 的沟通存在障碍、缺少有经验的实施者、初期资金投入较大。所以数据挖掘在国 内还处于研究、消化和积累经验阶段,应用较少。很多行业构建的数据挖掘应用 都是采用国外技术和方案,建成的数据挖掘项目效果如何还有待检验。影响我国 数据挖掘发展的因素主要有: ( 1 ) 企业信息化建设和数据积累水平不高; ( 2 ) 需要进一步培育数据挖掘市场; ( 3 ) 相关技术人员缺乏; ( 4 ) 没有完全消化国外技术和产品; ( 5 ) 数据挖掘技术本身还缺乏统一的标准。 尽管我国数据挖掘技术同国外相比还有很大差距,但是很多科技工作者对相 关技术进行了深入研究,并发表了很多有价值的论文。国内对数据挖掘的研究主 要是吸收和借鉴,在此基础上提出适合国内需求的技术方案。现在,国内公司的 广东工业大学工学硕士学位论文 相关软件也已逐渐成熟,有一些数据挖掘方面的软件产品,如赛迪数据就已经可 以提供成熟的金融行业数据挖掘解决方案m ;商业指南针( b u s i n e s s c o m p a s s ) 实 现了0 l a p 的所有分析功能,并内嵌了多种常用的统计分析方法,支持多种关系 型数据库与o l a ps e r v e r m ;上海复旦德门软件有限公司的企业级智能分析平台 d m i n e r e n t e r p r i s es u i t e 是一个数据挖掘算法的工具集,该产品集成了数种流行的 数据挖掘算法,可处理各种类型的数据源,分析巨量数据,同时提供可视化工具 来观察和解释数据挖掘结果,2 0 0 4 年该产品获第六届中国国际高新技术成果交易 会优秀产品奖一,。调查显示,国内2 0 0 4 年数据挖掘需求凸现。卫生部、国家环保 局、国家统计局、中国民生银行等部门都表示正在或将要开展数据挖掘应用。尽 管国内数据挖掘方面的成功案例是凤毛麟角,但国家地质调查总局、重庆港务局、 湖南统计局、南宁地税等单位已经在摸索实践,不仅获得发成效,还积累了不少 经验m ,。相信随着国内各个企业、单位的各种各样的数据量和对数据深入分析的 需求不断增长,这门学科终会发挥它强大的作用。 1 2 2c 酬发展综述 客户关系管理c r m ,指的是对企业和客户的交互活动进行管理的过程,最终 实现提高客户获取、客户保留、客户忠诚度和客户赢利的目的。在市场经济条件 下,企业正在以产品为中心的思想向以客户为中心的思想转变,在与客户的交互 过程中,企业必须及时回答以下问题: 哪些客户最有价值,为什么? 什么样的促销活动对哪些客户最有效? 哪些客户有可能会倒向竞争对手? 最有利可图的发展方向在哪里? 客户信息正在成为企业回答这些问题时要用到的最有价值的东西。企业经过 长期的积累收集和存储了关于客户的大量的宝贵数据,c r m 则提供了分析客户有 利性和提高市场营销有效性的手段。 c r m 是一种经营管理的理念,对客户关系的生命周期积极地介入和控制,使 得这种关系能最大限度地帮助企业实现它所确定的目标。c r m 也是一种计算机技 术应用。信息技术是当代c r m 的基础,计算机软件技术人员利用信息技术,针 对“营销、销售、客户服务、客户交互和客户分析”等面向客户的业务领域而设 4 第一章绪论 计出的各种软件功能模块的组合,最大限度地支持c r m 的经营理念在企业范围内 的具体实现。 c r m 在国外的发展已有十余年的历史背景,最早开始发展c r m 的国家是美 国。大约在9 0 年代初,最初的c r m 应用开始投入市场。二十一世纪初,全球的 c r m 市场一直处于爆炸性的快速增长之中,企业重视争取客户和保持客户,是 c r m 市场增长的原因。市场研究机构j u p i t e rm e d i am e t r i x 估计到2 0 0 6 年北美 中低端c r m 、电子商务和财务管理应用软件的购买量将从2 0 0 1 年的9 7 1 亿美金 攀升到3 4 亿美金。a m r r e s e a r c h 认为中低端市场和企业部门级市场在以后的1 0 年中将有4 4 1 亿美金的需求。根据调查显示,2 ,3 以上的企业期望在未来5 年内 改变其客户关系的管理模式,3 ,4 以上的企业计划集成“面对客户”的信息管理 系统及其组织的其他部分m ,。当今,基于数据挖掘的客户关系管理方案已经被广 泛而且成功地应用于电子商务、电信业、银行业、证券业、保险业、制造业和零 售业等领域。 从地域来看,目前c r m 商机最大的市场是北美,其次是西欧市场,其中西欧 市场正以全球最快的速度飞速发展。而其使用的c r m 产品都是欧美国家软件公 司的产品。根据m e t a g r o u p 最近对商业c r m 应用套件的“频谱评估”报告,对 a m d o c s c l a r i f y c r m l 2 5 、e p i p h 蛐y e 6 、k a n a i c 盯e 8 0 、0 n y x e n t e r p f i s e c r m 5 0 、 o r a c l e c r m l l 5 1 0 、p e o p l e s o f 也n t e r p r i s e c r m 8 9 、p i v o t a l c r m 5 0 、m y s a p c r m 4 和 s i e b e l 7 7 共9 家商业软件供应商的产品评估结果是,s i e b e l 仍然在c r m 应用套 件市场中独占鳌头。s i e b e l 在多个核心域中展示了其一贯的优越性:远景,战略、 定位份额、生态系统投资战略、特性,功能深度以及垂直行业覆盖度“”。 c r m 进入中国的时间大约是在2 0 世纪末,在中国这还属于一个非常新的领 域,经过了几年的发展虽有了一定的进步,但由于业务流程自动化程度不高、管 理理念滞后以及客户数据库不完整,致使c r m 在传统行业和新兴产业中的应用 仍处于初期发展阶段。图1 1 描述了c r m 大致的发展阶段m 1 。从图l 一1 可以看出 保险、电信行业对c r m 比较重视,而且得到了一定的应用,但是在其他行业中 的发展仍然比较缓慢。 广东工业大学工学硕士学位论文 图1 一lc r m 发展阶段 f i g 1 - 1t h ed e v e l o p m e n tp h a s eo fc r m 目前,我国大、中型企业正在接受c r m 的理念并建立自己的c r m 系统。上 海通用汽车公司的c r m 系统被称为中国第一套企业级的c r m 系统,它是由在全 世界c r m 市场上占有率最高的美国s i e b e l 公司开发的产品。按i t 界权威调查机 构c c i d ( 中国电子信息产业发展研究院) 的预测,未来5 年中国c r m 软件市场的 平均增长率为4 4 6 ,预计2 0 0 5 年销售额可达4 3 9 亿元m ,。但是国内的企业比 较注重加强与客户的交流互动能力,因此其功能大多只是停留在操作型c r m 的 水平上。 c r m 是数据挖掘重要的应用领域,包括客户获取、客户保持、客户价值提升 等客户关系管理的各个方面。有了数据挖掘技术的支持,才使c r m 的理念和目标 得以实现。目前,面向c r m 的数据挖掘应用研究是数据挖掘应用领域研究的一 个重要课题,具有广泛的市场价值和研究价值,研究涉及应用功能、应用方法、 算法、模型、数据处理、系统设计和开发等方面。无论是从技术角度,还是从市 场角度而言,c r m 都将具有更广阔的前景m ,。 1 3 本文研究的主要内容与创新 本文主要是借鉴当前的c r m 理论研究,结合酒店行业的现状,研究利用聚 类技术和决策树分类技术在酒店c r m 中的应用,实现酒店客户获取。 本文针对基于数据挖掘的酒店c r m 客户获取技术研究的主要内容如下: 首先,完成数据的准备工作,它涉及到对数据的清洗、抽取、转化和派生, 其中着重探讨如何在酒店c r m 中构建数据仓库的问题。然后,研究聚类和分类 技术,比较现有的聚类和分类算法,根据算法的准确性、简便性、易理解性,选 6 第一章绪论 择k m e a n s 聚类算法和i d 3 决策树分类算法作为潜在客户建模的算法,并针对算 法的弊端进行一定程度上的改进。采用三角形三边关系定律预先判断是否要计算 样本点之间的距离,当符合一定条件时才计算样本点之间的距离的改进的 k m e a n s 聚类算法;提出采用属性熵均值来选择决策树的最佳分裂属性,对启发 式函数进行研究,实现酒店潜在客户的获取。 论文的创新之处在于: ( 1 ) 把c r m 理念用于酒店行业,c r m 为酒店企业提供了一种崭新的思路。 c r m 在我国的起步比较晚,应用于酒店行业的更少。目前研究较多的是c r m 整 体架构的建立,客户保持模型的建立、客户流失模型的建立等等,对于客户获取 即挖掘潜在客户方面,系统论述的文献并不多。通过使用数据仓库与数据挖掘工 具对客户信息进行分析挖掘,找出其中的潜在客户,达到客户获取的目的,节约 了酒店的运作成本,有一定的实用参考价值。 ( 2 ) 由于k m e a n s 算法以几何距离为度量,所以提出了根据三角形三边关系定 律预先判断是否要计算样本点之间的距离,当符合一定条件时才计算样本点之间 距离的改进的k m e a n s 聚类算法。k m e a n s 聚类算法是一种应用广泛的经典算法, 但它本身也存在一些缺陷。k m e a n s 算法需要不断地进行样本分类调整,不断地 计算调整后的新的聚类中心,因此当数据量大时,算法的时间开销是非常大的。 本文提出的改进方法减少了算法的时间开销。 ( 3 ) 提出采用属性熵均值来选择决策树的最佳分裂属性,对启发式函数进行 改进。i d 3 决策树算法是一种简单易用的分类算法,分类结果易于解释,应用领 域非常广。但由于i d 3 算法采用信息增益作为生成树的启发式函数,就存在一个 偏向于选择取值较多的测试属性的问题。而本文的目的是要建立潜在客户的反应 行为模型,其中涉及的测试属性存在有取值较多的情况,所以我们对启发式函数 进行改进,以得到结构好的决策树,便于从中挖掘好的规则信息。 1 4 本文组织 本文的内容安排如下:第二章,介绍了数据仓库、数据挖掘技术的基本概念 和方法,讨论了c r m 在酒店行业中的应用。第三章,描述了本论文挖掘任务的 主题定义和数据定义,阐述了如何在酒店c r m 中建立数据仓库,并讨论了d t s 7 广东工业大学工学硕士学位论文 的应用。第四章,介绍并分析了k m e a n s 聚类算法和i d 3 决策树算法,并指出其 存在的主要问题,根据本文的具体任务提出了一定的改进。第五章,介绍了酒店 客户价值r f m 分析模型,以第三章建立的数据仓库为基础,以第四章介绍的 k m e a n s 聚类算法建立现有客户的r f m 模型,以i d 3 决策树算法建立潜在客户反 应行为模型,实现酒店客户获取。 第二章数据挖掘与客户关系管理 第二章数据挖掘和客户关系管理 在介绍了数据挖掘和c r m 的研究现状和发展趋势的基础上,将对本文所需 使用的相关技术,包括数据仓库、数据挖掘中的聚类技术和分类技术、c r m 和酒 店在c r m 中的应用进行分析和讨论。 2 1 数据仓库 2 1 1 数据仓库的概念和主要特征 数据仓库一般采用w h i n m o n 在b u i l d i n gt h ed a t aw a r e h o u s e 书中的定 义:数据仓库就是一个面向主题的、集成的、不可更新的、随时间不断变化的数 据集合“”。它建立在数据库技术之上,提供集成化和历史化的数据,集成不同种 类的应用系统,从历史和发展的角度来组织和存储数据,以提供信息化和分析处 理之用。 1 9 9 1 年,i b m 宣布了一项计划“信息仓库构架”i n d e p t h ,给数据库产业带 来很大的震动。w h i n m o n 认为,数据仓库是9 0 年代以来信息技术( i n f o m a t i o n t e c h n 0 1 0 9 y ) 体系结构中的一个重要组成部分,是数据库产业发展的重点。按照 i n m o n 的观点,数据仓库是按应用组织的、动态的、集成化的数据集合,用于支持 管理中的分析和决策。将数据仓库与传统联机事务处理数据库进行对比,可以揭示 两者的不同,如表2 1 所示。 数据仓库有以下三个方面的特征: ( 1 ) 存储面向管理应用和综合分析的集成化和综合性的信息,从历史的角度描 述系统结构和状态的变化,采用能够反映时间维特征的数据结构。 ( 2 ) 以传统的面向事务( o p e r a t i o n a l ) 的数据库或外界数据库作为数据源,经过 提炼、加工、汇总和归一化整理( c o n s o l i d a t i o n ) ,生成符合数据应用语义规范要求 的数据集合。 ( 3 ) 能够支持多种复杂的数据应用和综合性的管理决策分析。 9 广东工业大学硕士学位论文 表2 1 联机事务数据库与数据仓库的区别 t a b l e2 1d i f f e r e n c e sb e t w e e n o p e r a t i o n a ld a t a b a s ea n dd a t aw a r e h o u s e 比较项目联机事务处理数据库数据仓库 数据内容当前值存档、归纳数据和经计算得出 的数据 数据组织面向应用程序根据全局有效主体域 数据性质动态静态( 刷新时除外) 数据结构和格式复杂:适用操作型计算简单:适用商业分析 访问概率局中到低 数据更新按字段更新访问和生成:没有直接更新 用途高度结构化、重复处理分析处理:利用具有广泛数据 和事务处理范围的d s s 辨别发展趋势 对时间响应的要低于3 秒几秒到几分,到几小时 求 对性能的需求高 由 2 1 2 数据仓库系统 数据仓库系统可以分为3 个组成部分:数据源、后台管理、前端服务。 数据仓库的数据来源比较复杂,可以是企业内部的e r p ( e n t e r p r i s er e s o u r c e p l a ) 系统,也可以是外部的c r m 系统等等。由于数据源的多样性,所以必须使用 e t l ( e x t r a c t i o nt r a n s f o 珊a t i o nl o a d ) 工具将原始数据进行抽取,将多余的数据删 除,给必要但缺乏的数据提供默认值,然后将数据转换,保持数据的一致性,最后将 数据加载到数据仓库中, 后台管理是系统管理员进行日常维护和管理的环境,其主要管理任务包括批 处理作业管理,数据安全管理,数据冲突管理,数据质量核查,元数据管理和数据的 备份与恢复等。数据管理平台为数据仓库的正常运行提供了基本保障。 前端服务是面向用户的数据需求,完成数据提取和计算分析等功能。 数据仓库首先是一个数据库系统,可以视为一种满足数据仓库管理数据要求 的特殊的数据库系统,数据仓库的基本体系结构如图2 1 所示: 1 0 第二章数据挖掘与客户关系管理 2 2 数据挖掘 图2 1 数据仓库体系结构 f i g 2 1a r c h i t e c t u r eo fd a t a b a s ew a r e h o u s e 2 2 1 数据挖掘的概念和任务 数据挖掘就是从大型数据库中提取人们感兴趣的知识,这些知识是隐含的、 事先未知的、潜在有用的信息,提取的知识表示为概念、规则、规律、模式等形 式m ! 。由于数据挖掘是一门受到来自各种不同领域的研究者关注的交叉性学科, 因此导致了许多不同的术语名称,如:知识抽取、信息发现、智能数据分析、探 索式数据分析、信息获取、数据考古、数据库中的知识发现等等。其中,最常用 的术语是“知识发现”和“数据挖掘”。相对来讲,数据挖掘主要流行于统计界、 数据分析、数据库和管理信息系统界;而知识发现则主要流行于人工智能和机器 学习界。 数据挖掘的任务一般分为两类:描述和预测。描述性任务刻划数据库中数据 的一般特性,包括概念描述、关联规则。预测性任务在当前数据上进行推断,以 广东工业大学硕士学位论文 进行预测,包括分类和预测、序列分析。以下是对这些任务的简单阐述。 ( 1 ) 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。 概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描 述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象 的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。 ( 2 ) 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个 变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、 因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库 中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信 度。 ( 3 ) 分类和预测是自动在大型数据库中寻找预测性信息,以往需要进行大量 手工分析的问题,如今可以迅速直接由数据本身得出结论。一个典型的例子是市 场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用 户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。 ( 4 ) 时间序列分析是用变量过去的值来预测未来的值。与回归一样,也是用 已知的值来预测未来的值,只不过这些值的区别是变量所处时间的不同。时间序 列采用的方法一般是在连续的时间流中截取。个时间窗口,窗口内的数据作为一 个数据单元,然后让这个时间窗口在时间上流动,以获得建立模型所需要的训练 集。 一个数据挖掘原型系统如图2 2 所示。 1 2 第二章数据挖掘与客户关系管理 2 2 2 聚类技术 图2 2 数据挖掘原型系统 f i g 2 2a no r i g i n a ls y s t e mo fd a t am i n i n g 聚类是数据挖掘中的一种重要技术,是分析数据并从中发现有用信息的一种 有效手段。基于“物以类聚”的朴素思想,它将数据对象分组成为若干个类或簇, 使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别很大。 通过聚类,人们能够识别密集和稀疏的区域,发现全局的分布模式以及数据属性 之间有趣的相互关系。聚类分析在客户分类、基因识别、w w w 文本分类、空间 数据处理、卫星照片分析、医疗图像自动检测等领域有着广泛的应用。数据挖掘、 统计学、机器学习、空间数据库技术、生物学和市场学的发展推动着聚类分析研 究的进展,使它已成为数据挖掘研究中的一个热点。与其他数据挖掘方法不同, 在进行聚类分析前用户一般并不知道数据集的特征。因此,聚类分析是一种无监 督的学习过程,是基于观察的学习而不是基于实例的学习。 作为数据挖掘中的一个功能,聚类分析可作为一个独立的工具来获取数据分 布的情况,观察每个簇的特点,集中对特定的某些簇做进一步分析。如在商务上, 聚类分析可以帮助市场分析人员从客户基本库中发现不同的客户群,并且用购买 模式来刻画不同的客户群的特征。聚类分析也可以作为数据挖掘中其他算法( 如 特征和分类等) 的预处理步骤,这些算法再在生成的簇上进行处理;此外它还可 以完成孤立点挖掘。许多数据挖掘算法试图使孤立点影响最小化,或者排除它们。 广东工业大学硕士学位论文 然而孤立点本身可能是非常有用的,如在欺诈探测中,孤立点有可能预示着欺诈 行为。迄今为止,人们提出了大量的聚类算法,算法的选择取决于数据的类型、 聚类的目的和应用。如果聚类分析用于描述或探索的工具,可以对同样的数据尝 试多种算法,以便发现数据可能隐含的规律与结果。 聚类算法主要有五大类:基于划分的算法( p a n i t i o n i 譬m e t h o d s ) 、基于层 次的算法( h i e r a r c h i c a lm e t h o d s ) 、基于密度的算法( d e n s i t v b a s e dm e t h o d s ) 、 基于网格的算法( g r i d b a s e dm e t h o d s ) 、基于模型的算法( m o d e l b a s e dc l u s t e r i n g m e t h o d s ) 。 在这里主要介绍基于划分的算法。这种算法是在距离函数的基础上,根据实 际的需要,对所得的距离数值做相应的划分。给定n 个对象或元组的数据库,一 个划分方法通过优化一个评价函数构建数据的k 个划分,每个划分表示一个聚类, 并且k 曼n 。也就是说,它将数据划分为k 个组,同时满足如下的要求:( 1 ) 每个组 至少包括一个对象,( 2 ) 每个对象必须属于且只属于一个组。但是在某些模糊划分 技术中第二个要求可以放宽。一个好的划分的一般准则是:在同一个类中的对象之 间尽可能“接近”或相关,而不同类中的对象之间尽可能“远离”或不同。绝大 多数应用采用了以下两个比较流行的启发式方法:1 ) k m e a n s 算法,每个簇用 该簇中对象的平均值来表示。2 ) k m e d o i d 算法n t ,每个簇用接近聚类中心的一 个对象来表示。这些启发式聚类方法对在中小规模的数据库中发现球状簇很适用。 划分算法典型地采用两阶段反复循环过程:1 ) 指定聚类,即指定一个数据对 象到某一个簇,使它与这个簇的聚类中心距离比它与其它聚类中心的距离近;2 ) 修改聚类中心。算法的结束条件是不再有数据被重新分配。可以选择一个反映聚 类效果的目标函数,当函数达到最优解时满足终止标准。这一类算法中,有的算 法在对每一个数据对象的每一次指定后就修改一次聚类中心( 如s 0 m 方法) ,有 的算法当对所有的数据对象都指定完后才修改一次聚类中心( 如k m e a n s , k m e d o i d 方法) ,所以对这一类方法来说,存在两个基本问题。即:如何计算距 离和如何修改聚类中心。在计算距离时,对数值属性主要的方法是采用明考夫斯 基距离中的欧氏距离,而对符号属性则可以采用海明距离。 假设r 是一相关集合,x ,y 是其中两个有效集合,n 是相关记录的条数。 x l ,x 2 x 。x ,y l ,y 2 ,y 。y ,w j 为x 。,y i 的权重,i = 1 ,2 ,n 。距离函数定义为: 1 4 第二章数据挖掘与客户关系管理 以= ( i 一y 社i ) 7 4 ( 2 - 1 ) 1 ( 1 ) 当q = 2 ,w k = l 时,表示欧氏距离函数。这种情况主要适用于相关集合中的 有效集合属于同样的空间,即欧几里德空间,或者经过转化后可以在欧氏空间中 求出有意义的距离。其中欧氏空间中的点被默认为具有相同的重要性( 权重) 。而 在实际的应用领域中,有效集合中的相关记录必须根据需要来确定权重。 ( 2 ) 当q = l ,w k = 1 时,表示曼哈顿距离函数。 ( 3 ) 当q 为一个正整数,w k - 1 时,表示明考斯基距离函数。 2 2 3 分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年学前教育机构师资队伍素质提升与管理策略报告
- 2025年护士资格考试试题范围总结试题及答案
- 2025年大学华文教育专业题库- 语文学科发展趋势与教学实践
- 2025年高中信息技术学业水平测试题(含答案)
- 2025年工业互联网在新能源行业人才培养中的应用报告
- 新能源行业绿色信贷政策下2025年企业研发投入的优化路径研究报告
- 2025年北京公务员考试行测判断推理模拟题2025年(附含答案)
- 2025年大学科学教育专业题库- 科学教育的多元文化视角
- 2025年地理模拟试题型:初中学业水平考试人文地理专项卷及答案解析
- 2025年大学人文教育专业题库- 人文教育与学生个性发展培养
- 康复伦理问题
- 配位化学-本科生版智慧树知到答案章节测试2023年兰州大学
- 华北电力大学授予本科生学士学位名单
- 学生休学证明模板
- 机电安装工程技术标书(模板)
- 无机及分析化学第2章-化学热力学基础1
- GB/T 2930.1-2017草种子检验规程扦样
- 会计学原理模拟试题一套
- 第一章-宗教社会学的发展和主要理论范式课件
- 国内外新能源现状及发展趋势课件
- 高速公路改扩建桥梁拼宽施工技术及质量控制
评论
0/150
提交评论