




已阅读5页,还剩65页未读, 继续免费阅读
(计算机软件与理论专业论文)crm中数据挖掘应用策略及其关键技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 本文主要论述了c r m 系统中数据挖掘技术的应用。文章首先对现有的数据挖 掘过程及c r i s p d m 标准进行了的详细分析,并结合实例介绍了c r m 系统中数 据挖掘技术的应用过程。在此基础上,根据软件过程复用的观点,提出了特定领 域一般模型的概念,为数据挖掘过程的自动化提供了一定的理论支持。本文通过 对数据挖掘系统发展的研究,针对数据挖掘系统与应用领域结合的发展趋势,设 计了集针对性和灵活性于一体的多层数据挖掘体系结构,并将其应用于分析型 c r m 系统中。文章对部分应用于c r m 的数据挖掘算法进行了深入研究,提出根 据数据特征和细分目的选择算法,并给出了用于不同标准的客户细分聚类算法。 最后对数据挖掘结果模式的价值进行了深入分析,利用模糊逻辑技术,在现有的 兴趣度测量方式的基础上,介绍了一种新的模式兴趣度测量算法。 关键词:数据挖掘客户关系管理过程模型聚类兴趣度 a b s t r a c t t h i sp a p e rm a i n l yd e a l sw i t ht h ea p p l i c a t i o no fd a t am i n i n gi nc r m d e t a i l e d a n a l y s i so fd a t am i n i n gp r o c e s sa v a i l a b l ea n dd a t am i n i n gs t a n d a r dc r i s p d ma r e g i v e nf i r s t l y , t h e nap r o c e s so fd a t am i n i n ga p p l i c a t i o ni sp r e s e n t e db yap r o j e c ti n s t a n c e a c c o r d i n gt ot h ev i e wo fs o f t w a r ep r o c e s sr e u s e ,t h ec o n c e p to fg e n e r a lm o d e li n s p e c i f i cd o m a i no fd a t am i n i n gi sp u tf o r w a r di nt h i sp a p e r , w h i c hp r o v i d ec e r t a i n t e c h n o l o g ys u p p o r tt o d a t am i n i n gp r o c e s sa u t o m a t i o n t h r o u g ht h er e s e a r c ho ft h e d e v e l o p m e n to fd a t am i n i n g s y s t e ma n dt h et e n d e n c yo fc o m b i n a t i o nd a t am i n i n g s y s t e mw i t ha p p l i c a t i o nd o m a i n ,am u l t i l a y e rd a t am i n i n ga r c h i t e c t u r ec h a r a c t e r i z e db y c u s t o m i z a t i o na n df l e x i b i l i t yi sd e s i g n e d t h i sp a p e ra l s of o c u s e so nt h ed a t am i n i n g a l g o r i t h m i nc r m i ti sr e c o m m e n d e dt oc h o o s ec u s t o m e rs u b d i v i s i o na l g o r i t h m a c c o r d i n gt od a t ac h a r a c t e ra n du s e ri n t e n t i o n l a s t l ya na l g o r i t h mo fm e a s u r i n g i n t e r e s t i n g n e s so fd a t am i n i n gs c h e m ab a s e do nu s e re x p e c t a t i o na n df u z z yl o g i ci s p r e s e n t e d k e y w o r d s :d a t am i n i n gc r mp r o c e s sm o d e lc l u s t e r i n g i n i e r e s t i n g n e s s 创新性声明 5 8 3 4 1 5 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果:也不包含为获得西安电子科技大学或 其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均已在论文中做了明确的说明并表示了谓 意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 盔撇 同期巡厶生 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕 业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。 学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全 部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文 摘解密后遵守此规定) 本学位论文属于保密,在一年解密后适用本授权书。 本人签名 盈妆 日期砌址 6 导师签名: :泐 日期乙鲤生! ! :兰 导师签名:馥 日期:殛生! ! :兰 第一章绪论 第一章绪论 1 1 论文背景 自2 0 世纪9 0 年代初,数据仓库( d a t aw a r e h o u s e ,d w ) 技术的兴起,促进了 o l a p 技术和数据挖掘( d a t am i n i n g ,d m ) 技术的发展,这些技术的成熟和发展表 现为基于这些技术的产品研制蓬勃开展。数以百计的数据仓库、o l a p 和数据挖 掘软件产品走向市场、走向应用,支撑起了商业智能( b u s i n e s si n t e l l i g e n c e ,b i ) 这一新兴领域。b i 已经成为继企业m i s 之后更高层次、更具战略意义的应用。 c r m ( c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ) 作为企业的一项商业策略,它按照客 户的分割情况有效地组织企业资源,培养以客户为中心的经营行为以及实施以客 户为中心的业务流程,并以此为手段来提高企业的获利能力、收入以及客户满意 度。c r m “以客户为中心”的理念要求企业对自己的客户有最全面深入的了解。 b i 技术恰好为c r m 提供了分析与决策的技术支持。o l a p 和数据挖掘技术作为 对客户信息进行深入分析的手段,是c r m 系统中的核心技术。其中,数据挖掘 是其最高层次、最深入的分析工具,也是b i 最吸引人的亮点。 信息时代的大多数企业会面临“数据爆炸而知识贫乏”的窘境,数据挖掘正 是在这个环境下发展起来的一门交叉学科,其目的是在大量的数据中发现潜在规 律,它是当前计算机科学研究的热点之一。经过十多年的发展,大量有效的数据 挖掘算法被研制出来,可以帮助人们发现隐藏在海量数据后的“秘密”。数据挖 掘最终是要应用于解决实际商业问题的,因此如何利用数据挖掘技术解决特定领 域的问题,是研究数据挖掘应用的核心。无规划、不合理的使用数据挖掘技术不 会给企业决策提供任何有意义的信息,反而可能使人怀疑数据挖掘的能力。纵观 数据挖掘技术的发展历史,现今其研究重点逐渐从发现方法转向系统应用,注重 多种发现策略和技术的集成,以及多学科之问的相互渗透。数据挖掘系统也从第 一、二代系统转向第三、四代系统的研制。 1 2 研究工作的目的和内容 作者在近一年多时间参与了陕西邮政c r m 系统的丌发工作,负责c r m 中数 据挖掘技术的应用。在开发过程中,深刻体会到将数据挖掘技术嵌入到商业应用 中是一个复杂的过程,需要对各式各样的问题和数据进行深刻的理解和正确的处 , 理,任何一步,都会对结果产生重大的影响。本文主要就数据挖掘技术在c r m c r m 中数据挖拓i 应用策略及其关键技术的研究 中的应用进行研究,包括数据挖掘应用于c r m 的过程,c r m 中数据挖掘系统的 体系结构及其实现,适用于c r m 中客户细分的算法等。 如何将数据挖掘技术应用到c r m 系统中是本文主要讨论的问题。本文围绕 以下三个问题展开: c r m 中一个完整的数据挖掘过程是怎样的? c r m 中数据挖掘系统的采用什么样的体系结构,如何实现? c r m 中如何选择合适的数据挖掘算法? 具体工作如下: 1 ) 根据数据挖掘过程模型以及c r i s p d m 数据挖掘过程标准,得出一般情况 下c r m 系统中数据挖掘的过程,劳提出了数据挖掘过程的特定领域一般 模型的思想,为数据挖掘过程的自动化提供了一定的理论基础; 2 ) 根据将数掘挖掘系统从技术角度划分为四代,从发展角度经历三个阶段的 论断,归纳出数据挖掘系统与应用平滑集成的趋势,提出将数据挖掘横向 解决方案和纵向解决方案结合,形成个既具有领域针对性,又有较高的 灵活性和扩展性的数据挖掘环境。并设计了一种具有一定的集灵活性和通 用的数据挖掘应用体系结构,并基于构件技术对该体系结构进行实现。这 种结构已经应用于陕西邮政c r m 系统的开发。同时对基于x m l 的各项 新技术在数据挖掘中的应用进行了介绍; 3 ) 对c r m 中的客户细分进行了深入的研究,归纳出客户细分的标准,并提 出根据细分标准特征选择客户细分算法的思想。设计并引用了三种不同的 算法作为客户细分的依据,对算法的原理、适用范围等做了全面的分析: 4 )在海量数据源的背景下,数据挖掘的结果往往是成于上万条模式,远远超 出了人可以接受的范围。这其中有一大部分对用户来说是没有意义的,本 文提出了一种减少无意义模式和对模式兴趣度进行度量的算法,能大大减 少无意义模式的产生,并可以对已经产生的结果进行科学准确的评判。该 算法基于模糊逻辑,具有一定的可行性。 1 3 章节安排 本文其余部分的章节安排如下: 第二章:c r m 中的数据挖掘过程首先简要提及了数据挖掘、c r m 的特点, 数据挖掘与c r m 的关系以及数据挖掘技术在c r m 中的作用。然后介绍现有的经 典的数据挖掘过程模型,提出并详细论述了c r m 中的数据挖掘过程。在此基础上 论述了数据挖掘过程的特定领域一般模型的思想,并通过实例详细介绍了c r m 数 据挖掘系统的开发过程。 第一章绪论 第三章:c r m 中数据挖掘系统体系结构及其实现首先介绍数据挖掘系统及 数据挖掘工具的发展概况,分析当前应用对数据挖掘系统的要求,以及被现代数 据挖掘系统所广泛使用的新技术。其次介绍了c r m 中数据挖掘系统体系结构及实 现。结合项目实例,详细论述了c r m 系统中数据挖掘系统的实现机制和方法。 第四章:客户细分算法的研究主要讨论了c r m 中的客户细分算法,提出了 适用于不同客户细分标准的算法。 第五章:数据挖掘模式的兴趣度测量从客观度量、主观评判等多方面讨沦 了如何从数据挖掘系统所发现的模式中找到用户感兴趣的模式。介绍了一种基于 模糊理论的模式兴趣度测量算法。 第二章c r m 中的数据挖掘过程 第二章c r m 中的数据挖掘过程 从海量的数据中发掘出有价值的信息是一个复杂的过程。本章首先简要介绍 数据挖掘和c r m 的概念,然后主要讨论进行成功的数据挖掘所必需的方法和步 骤,并归纳出将数据挖掘应用于c r m 的步骤。 本章的丌始,首先明确几个术语的涵义。数据挖掘( d m ,d a t am i n i n g ) 、数 据库中的知识发现( k d d ,k n o w l e d g e d i s c o v e r y i n d a t a b a s e ) 、d m k d ( d a t a m i n i n g a n dk n o w l e d g ed i s c o v e r y ) 是谈论数据挖掘时常用的几个术语。它们包含着从大 量数据中发现其隐藏信息的涵义,但又有区别。通常认为:数据挖掘( d m ) 是 知识发现( k d d ) 的一个步骤,该步骤使用数据挖掘算法提取数据模式。d m k d 可作为k d d 的同义围。在本文中,研究数据挖掘过程时,为了表述的清楚,使 用术语k d d ;在研究关j :数据挖掘的应用时,数据挖掘代表一种,“义的观点:数 据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有意义的 知识的过程。 2 1 数据挖掘技术及c r m 2 1 1 数据挖掘技术 数据挖掘( d a t am i n i n g ) ,又称数据库中的知识发现( k n o w l e d g ed i s c o v e r yi n d a t a b a s e ,k d d ) ,是指从大型数据库或数据仓库中提取隐含的、未知的、非平儿 的及有潜在应用价值的信息或模式,它是数据库研究中的一个很有应用价值的新 领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。 数据挖掘工具能够对将来的趋势和行为进行预测,从而给人们提供决策的支持。 比如,经过对企业整个数据库系统的分析,数据挖掘工具可以回答诸如“哪个客 户对公司的邮件推销活动最有可能做出反应,为什么”等类型的问题。数据挖掘 工具还能够解决一些很消耗人工时间的传统问题,因为它们能够快速地浏览整个 数据库,找出一些专家们不易察觉的极有用的信息。目前在银行业、电信业、证 券业、零售业等多种行业中都有大量的数据挖掘应用成功案例,数据挖掘技术作 为企业信息决策支持系统中的核心技术,得到了越来越广泛的应用。 第二章c r m 中的数据挖掘过程 2 1 2 c r m 系统 从经营理念方面理解,客户关系管理是一种以客户为中心的新型管理机制, 属于管理学的研究范畴。从软件系统的角度理解,客户关系管理是对以客户为中 心的商业模型提供支持的一整套软件系统。这套系统通过对以客户为中心的业务 流程的支持和扩展,达到提高客户满意度及忠诚度,进而提高仓业效益的目的。 一个能有效的实现c r m 经营理念的c r m 应用解决方案应该具有以下特征p j : 基于一个统一的客户数据库;具有整合各种客户联系渠道的能力;能将信息以快 速、方便的方式向系统用户传递;提供销售、服务和营销三个业务的自动化工具, 并在三者之间能够进行无缝的整合:具有一定的从大量交易数据库中提炼决策信 息的能力;有基于丌放标准的与其他企业应用系统的整合能力。根据以上观点, 一个c r m 应用系统模型可以表示如图2 1 : 幽2 ,1c r m 系统模型 尽管目前对c r m 的分类还不存在一个统一的标准,但普遍采用的一种方式是 根据功能,将c r m 系统分为运营型( 或操作型) 、协作型和分析型。如果说运营 与协作型c r m 是企业的臂膀,那么分析型c r m ( a n a l y t i c a lc r m ) 就是企业的 大脑,它能够建立全面的客户信息系统并通过一切可能的渠道与客户进行持续性 的沟通,从而为企业赢得更大的竞争优势。分析型c r m 以数据仓库为基础,通过 统计分析、o l a p 、数据挖掘等分析方法,对客户的行为、期望、需求等进行准确 深入的分析,为提高客户忠诚度、客户价值等方面的决策提供支持。本文将主要 讨论分析型c r m 的技术核心。 c r m 中数据挖掘应用策略及其关键技术的研究 2 1 3 数据挖掘技术在c r m 中的作用 自古以来任何商家都深知客户的重要性,只要能同时保留老客户并吸引新客 户,企业就有发展的空i h 】。因此对客户的管理与研究并不是一个新概念,而“c r m ( 客户关系管理) ”这个名词在近些年才被广泛谈论。其原因就在于信息技术、网 络技术的发展,以客户为中心的商业管理理念与现代信息技术的结合成为可能, 这种环境促使了c r m 理念的明确提出。图2 2 展示了一个完整的c r m 概念。 图2 2c r m “三角”模型 图2 2 中的斜边代表c r m 计算机应用模块。c r m 经营理念、信息技术和 c r m 计算机应用模型这三条边组成了一个完整的c r m 系统。从技术的角度看, 数据仓库、0 l a p 和数据挖掘是分析型c r m 的核心,本文就数据挖掘技术应用在 c r m 系统中所面临的问题进行深入分析。数据挖掘在c r m 中的作用主要体现在 以下几个方面: 1 客户利润回报预测 “建立、发展和维持重要客户关系”是c r m 理念的精髓,如果无法知道哪 些是重要客户,哪些是非重要客户,就失去了维持关系的对象。因此预测哪些客 户可能是高利润、高忠诚度的客户对企业来讲是客户关系维持的一个重要依据。 这并不是说对高利润的客户企业就一定要在他们身上花更多的钱,但定要根据 这些客户的特点,投其所好。客户利润回报预测中另一个目标是找出客户回报大 小的变化趋势。客户的回报不是一成不变的,如果可以预测出哪些客户有可能从 低回报到高回报转变,或者有从高回报想低回报滑落的趋势,企业就可以适时采 取相应的对策,促进好的转化,避免坏的转化。 2 客户细分 客户细分就是将一个大的用户群体化分成多个“小群体”,每个小群体内的 第r 二章c r m 中的数据挖掘过程 客户特征相似,而不同小群体之间的特征则不一样。这同数据挖掘中聚类的概念 是一致的。客户细分的作用在于可以让企业对客户群体看得很清楚,可以从不同 群体的特点推测其行为特征。决策树和聚类是细分的常用方法。 3 赢得新客户 赢得新客户就是“说服”潜在的客户使用你的产品或服务。在进行各种“说 服”之前,必须确定哪些客户是值得你努力的,因此预测他们对说服的反应情况 是提高销售成功率的前提。与客户细分不同,赢得新客户数据挖掘行为是对未来 的预测,而不是对历史数据的显示和报告。这种数据挖掘要建立的是“客户反应” 行为预测模型,即给定一系列客户资料以及其他输入,这个模型要计算出他们对 某个销售建议的“反应程度”。一般可以将反应分为三种,“无反应”、“矿反应” 和“负反应”。无反应是根本就不理睬这个销售建议;正反应表示对你的产品感兴 趣( 但并不意味着他们会购买) ;负反应是晚明了对这个销售不感兴趣。在数据挖 掘时,可以用“0 ”表示无反应,“】”表示正反应,“一l ”表示负反应。通过对大 量历史数据的挖掘,计算出相关的输入系数,从而确定反应模型。然后应用到一 个潜在名单上,分别计算他们的预测反应结果,选择j 下反应的群体进行推销。 4 连带或增值销售 连带或增值销售是客户关系发展的重要环节,是企业同客户关系向深度和广 度拓宽的主要措施之一,目的就是要最大化现有客户的利益回报。连带销售是让 客户买企业的其他产品或服务,增值销售是让客户所买的产品向高价值方向发展。 两种销售都具有延长客户关系的效果。同赢得新客户预测类似,一个连带销售数 据挖掘过程也是一种客户反应行为预测。当然,它的输出可以是1 到1 0 的分数, 也可以是连带销售最高额度。假如企业a 有意向现有的产品a 的顾客销售b 和c 产品,那么,必须对b 和c 两种产品分别建立预测模型,根据输出的反应分数高 低,再分别确定连带销售b 和c 产品的客户群体。 5 客户维持 客户维持的任务是留住可能流失的客户。首先要找出哪些客户可能流失,这 就是数据挖掘要解决的问题。发现可能流失客户的工作类似于市场分割。决策树 是通常使用的方法。 2 2 数据挖掘过程理论研究的必要性 进行k d d 研究的目的是将知识发现的研究成果应用于实际数据,为决策制 定提供科学的支持。观察k d d 领域的研究内容,大部分成果都集中于数据挖掘 技术( 如对数据挖掘算法的研究,空间数据挖掘,w e b 数据挖掘等) 。尽管数据挖 掘及其应用已经提出了一段时间,但它在商业上的成功仍得不到保证。早些时期, c r m 中数据挖掘应川策略及其关键技术的研究 如果一个数据挖掘项目的失败,丌发者都不会认为这是没有恰当的使用数据挖掘 技术所致,而怀疑数据挖掘本身的能力。这些问题都涉及到数据挖掘过程的组织。 首先,k d d 是一个由若干个步骤组成的处理过程,每一步都是下一步的基础, 其处理结果直接影响到最终挖掘结果的质量;k d d 的复杂性需要各种类型工具和 不同角色的人的参与。如果仅仅着重于数据挖掘而忽视诸如问题定义与理解、数 据预处理等这些过程,就不能认识到k d d 过程的复杂性和难度,因此制定出的 k d d 项目实施方案往往不可行。一个项目的成功需要将好的工具和熟练的分析者 有机的结合起来。 其次,每一种k d d 技术方法( 算法及技术要求) 都有其自身的特点和实现 步骤( 例如,对输入输出数据形式的要求、结构、参数设置、训练、测试和模型 评价方式各自有不同的要求,算法适用领域的含义和能力存在差异) ik d d 与具 体应用问题的密切相关性( 应用k d d 所要达到的目标、数据收集完整程度、问 题领域专家支持程度、算法选择等) ,因此,成功应用k d d 技术、以达到目标的 过程本身就是一件很复杂的事情。数据挖掘所完成的工作对于整个知识发现过程 来说只是较小的一部分,所以对k d d 中其他阶段及处理过程的研究也非常重要。 总之,k d d 需要合理的方法论指导和有效的项目管理。而过程模型有助于这 个复杂过程中各种因素相互作用的理解和管理,为了使k d d 能够更好地应用于 实践,对k d d 处理过程模型的研究必不可少。 f a y y a d ”1 ,b r a c h m a n 和a n a n d 【15 1 及g e o r g eh i j o l l l l e 等人均从不同的角度对 k d d 的过程进行了深入的分析。参考文献【1 3 【1 4 1 1 5 】【1 7 【1 8 1 1 1 9 1 聚集了大部分得 研究成果。分析他们的研究成果,我们发现无论从什么角度研究k d d 过程,其 最突出的特点就是:k d d 是一个多步的迭代过程,并且表现出高度的人机交互性。 图2 3 展示了通常的k d d 过程。从宏观上看,k d d 需要完成的任务主要有三部 分:数据抽取、数据分析和应用结果:数据抽取完成从各种数据源中选择提取需 要分析的数据,用于k d d 过程的数据源主要有原始数据、元数据和聚合数据及 领域知识这三种形式。k d d 过程的核心部分是数据分析,一般在k d s e ( k n o w l e d g ed i s c o v e r ys u p p o r te n v i r o n m e n t ) 中完成,它是一个各种分析工具的 集成环境,在这个环境中进行知识发现( 对大多系统来说就是进行o l a p 、数据 挖掘) 。k d d 最后一部分是k d a ( k n o w l e d g ed i s c o v e r ya p p l i c a t i o n ) ,这一步将 实现人们进行k d d 的初衷,这个过程中对k d d 结果进行验证,将k d d 的结果 应用于实践。k d d 过程的迭代性体现在每一阶段的使用情况都会周期性的反馈到 其它的步骤中。k d d 过程中每一步之间的连接都是双向的,可能是指向前面一步 或返回到前面的阶段。k d d 这种动态的特性使得该过程具有自我调整的能力。整 个过程中,始终需要用户的紧密参与。 第二章c r m 中的数据挖掘过程9 2 3 数据挖掘过程模型 数据挖掘过程的分析可以从多个角度来考虑。综合现有的对k d d 过程的研 究成果,我们将k d d 过程分为两大类:多阶段处理模型和以用户为中心的模型。 2 3 1 多阶段处理过程模型 多阶段处理模型将数据库中的知识发现看作是一个多阶段的处理过程,在整 个知识发现的过程中包括很多处理阶段。下面是两种主要的面向多阶段处理过程 的k d d 处理过程模型。图2 4 的模型由u s a m am f a y y a 1 3 】等人提出,通常在介绍 k d d 步骤时使用该模型。 图2 4 多阶段k d d 过程模型( 1 ) 根据图2 4 的处理模型,k d d 处理过程共分为九个处理阶段,这九个处理阶 段分别是数据准备、数据选择、数据预处理、数据缩减、k d d 目标确定、挖掘算 法确定、数据挖掘、模式解释及知识评价。 图2 5 的多阶段处理模型是g e o r g eh j o h n e 哺】提出的。这种模型强调由数据 挖掘人员和领域专家共同参与k d d 的全过程。领域专家对该领域内需要解决的问 c r m 中数据挖掘应用策略及其关键技术的研究 题非常清楚,在问题的定义阶段由领域专家向数据挖掘人员解释,数据挖掘人员 将数据挖掘采用的技术及能解决的问题介绍给领域专家。双方经过互相了解,对 要解决的问题有一致的处理意见,包括问题的定义及数据的处理方式。 鬯拿嚣盏黼黜憾盖 图2 5 多阶段k d d 过程模型( 2 ) 在数据挖掘人员得到准确的问题定义和分析后,开始收集需要使用的数据, 进行再加工以使数据更适合后面步骤的挖掘算法使用。根据解决问题的需要选择 合适的挖掘算法。提取出来的知识需要向领域专家进行解释,以对知识及整个过 程进行评价。 2 3 2 以用户为中心的过程模型 b r a c h m a n a n a n d 1 从用户的角度对k d d 处理过程进行了分析。他们强调 数据库中的知识发现应该更着重于对用户进行知识发现的整个过程的支持,而不 是仅仅限于在数据挖掘的一个阶段上。通过对很多k d d 用户在实际工作中遇到 的问题的了解,可以看到用户的很大一部分工作量是与数据库的交互上。所以他 们在开发数据挖掘系统i m a c s ( i n t e r a c t i v em a r k e t i n ga n a l y s i sa n dc l a s s i f i c a t i o n s y s t e m ) 时特别强调对用户与数据库交互的支持。图2 6 给出了该模型的框图。 p r o t :e s s n w 【h o w t o o l e 图2 6以用户为中心的处理过程模型 第二章c r m 中的数据挖掘过程 该模型特别注重对用户与数据库的交互,用户根据数据库中的数据,提出一 种假设模型,然后选择有关数据进行知识的挖掘,并不断对模型的数据进行调整 优化。 2 4 数据挖掘过程的标准化 k d d 过程模型的多样化使开发者在项目设计时有更多的选择,可以根据实际 情况选择适合的过程模型。然而它也给各个项目之间、项目_ 丌发人员和用户之削 的交流带来不便。对同一个问题不同的人习惯用4 i 同的表达方式,这会增加沟通 的难度,甚至产生歧异。因此k d d 过程模型也需要标准的统一。 从市场的角度出发,一个公共的过程模型可以带来许多好处。这个模型可以 作为讨论数据挖掘的一个共同参照点,增强参与者之间对数据挖掘关键问题的理 解,尤其是客户方。更重要的是,它将使人们深刻认识到数据挖掘是一个确定的 工程实践。 对数据挖掘工具提供商来说,他们不必反复教用户数据挖掘方面的通用问 题。问题的焦点从是否使用数据挖掘工具转变为如何使用数据挖掘来解决商业问 题。厂商也可以在他们的产品上添加附加值。 对进行数据挖掘项目的分析者来说,也可从公共过程模型中受益。对于初次 进行数据挖掘项目开发的新手,可以提供指导,给出完成过程中的每一项任务的 建议。对于有经验的分析者,公共模型可以作为一个每项任务的检查列表,保证 没有重要的工作被遗忘。更重要的是它可以用于结果的沟通和记录。 一些厂商纷纷提出了自己的数据挖掘过程模型,如s a s 的s e m m a 模型,s p s s 的5 a 模型等。在数据挖掘过程标准化的过程中,c r i s p d m 是已被广泛接受的一 种标准。 c r i s p d m 模型1 0 版【2 3 】是由几家相关开发和应用行业的跨国公司集团所 支持( 并由欧洲委员会部分支持) 的一个特别兴趣小组在1 9 9 7 年7 月到1 9 9 9 年 4 月间研究后提出的。由于其直接动机是将数据挖掘技术转化为商业应用,所提 出的过程模型均在d a i m l e r - b e n z a g 和o h r a 的项目中进行实际实践和验证,因 此具有一定的代表性。c r i s p d m 模型可表示如图2 7 。2 。7 ( a ) 体现了数据挖掘 过程循环迭代的特定,2 7 ( b ) 体现了从通用到特殊的过程方法。 c r m 中数据挖掘应川策略及其芙键技术的研究 ( a )( b ) 蚓2 7c r i s p d m 过稗模型 c r i s p - d m 采用分层方法将一个数据挖掘项目的生存周期定义为6 个阶段 ( p h a s e ) 和4 个层次( 1 e v e ) 。6 个阶段为:b u s i n e s su n d e r s t a n d i n g ,d a t a u n d e r s t a n d i n g ,d a t ap r e p a r a t i o n ,m o d e l i n g ,e v a l u a t i o n ,d e p l o y m e n t ,阶段问的 顺序并不严格,阶段阳j 有循环( 内层循环,见实线箭头方向) ,项目的总体实施是 按阶段循环进行的( 外层循环,见虚线箭头方向) 。4 个层次是:p h a s e ,g e n e r i ct a s k , s p e c i a l i z e dt a s k ,p r o c e s si n s t a n c e 。每个p h a s e 由若干g e n e r i ct a s k 组成,每个g e n e r i c t a s k 又实施若干s p e c i a l i z e dt a s k ,每个s p e c i a l i z e dt a s k 山若干p r o c e s si n s t a n c e 来完 成。其中,上两层独立于具体数据挖掘方法,即是一般数据挖掘项目均需实施的 步骤( w h a tt od o ? ) ,这两层的任务将结合具体数据挖掘项目的“上下 文”( c o n t e x t ) 映像到下两层的具体任务和过程。所谓项目的“上下文”是指项目 丌发中密切相关、需要综合考虑的一些关键问题,如,应用领域、数据挖掘问题 类型、技术难点、工具及其提供的技术等。如何完成每个阶段所要完成的任务及 任务的输出所要求的必要映像活动( h o wt od o ? ) 在c r i s p d ml _ 0 用户指南中 作了较为具体的描述。下面简要介绍c r i s p - d m 的6 个阶段所要完成的任务: b u s i n e s su n d e r s t a n d i n g :开始阶段专注于从商业的角度理解项目目标和需 求,然后将这种知识转换成一种数据挖掘的问题定义,并设计出达到目标的一个 初步计划。 d a t au n d e r s t a n d i n g :在数据理解阶段,先收集初步的数据,然后进行熟悉 数据的各种活动,包括识别数据的质量问题、找到对数据的基本观察、或假设隐 含的信息来检测出感兴趣的资料子集。 d a t ap r e p a r a t i o n :数据预处理阶段覆盖了从初步粗数据构造最终数据集合 ( 将要输入建模工具的数据) 的所有活动。资料预处理任务很可能要执行多次, 并且没有任何规定的顺序。任务包括表、记录属性的选择以及为了适合建模工具 的要求对数据进行的转换和净化( t r a n s f o r m a t i o na n dc l e a n i n g ) 。 第二章c r m 中的数据挖掘过程 m o d e l i n g :在建模阶段,可以选择和应用各种建模技术,并将其参数校正到 优化值。通常,对同一个数据挖掘问题类型有几种可用的技术。某些技术对数掘 的形式有具体的要求。因此,常常要退回到数据准备阶段。 e v a l u a t i o n :从数据分析的观点看,在开始进入这个阶段时已经建立了看上 去是高质量的模型。但在最终扩展模型之前,更彻底地评价模型、对所建模型再 次考察其执行的步骤、并确信其正确地达到了商业目标是很重要的。这里,一个 重要的目的是检查是否有某些重要的商业问题还没有充分地考虑。在这个阶段的 结尾,应该获得使用数据挖掘结果的判定。 d e p l o y m e n t :一般地,创建完模型并不意味着项目结束。即使模型的目的是 增加数据的知识,所获得的知识也要用一种用户可以使用的方式来组织和表示。 根据要求,扩展阶段可以简单到只生成一份报告,或复杂到实现一个可重复的数 据挖掘过程。在许多情况下,这将由客户,而不是分析员来实施。因为分析员来 实施扩展将达不到预期的扩展效果,因此在这之前,客户理解实际利用所建模型 所耍实旖的动作很重要。 c r i s p d m 数据挖掘过程模型提供了构建数据挖掘项目的指南,它是个一股 模型( g e n e r a lm o d e l ) ,所提出方法适用于任何领域。但是当处理特定领域的问题 时,还需要考虑许多与领域相关的特殊问题,即项目上下文。因此,以c r i s p d m 模型为基准,每一个领域都可以有一个自己的公共的项目模型。例如,数据挖掘 源数据来自一个有特定目的数据仓库的企业,它们的公共数据挖掘模型可以为: s e l e c td a t a - - c o n s t r u c td a t a - - s e l e c tm o d e l l i n g 可以看出,在这类企业的数据挖掘工程中,所有的项目在处理过程中都不需 要对数据进行净化,它可以看作特定领域的一般模型。显然,在实际工程中,就 指导一个新的项目开发来说,这种针对特定领域的一般模型比直接使用通用的 c r i s p d m 模型更有帮助:然而,这种针对特定领域的一般模型的产生需要项目 专家和领域专家的共同努力,它是特定领域实际的数据挖掘项目经验的高度总结 和抽象。 2 5 特定领域数据挖掘过程模型 特定领域一般模型的想法来源于软件复用中的过程复用。事实上对数据挖掘 过程研究的主要目的就是能够复用其过程。 软件复用强调复用的目的,它是一种系统化的方法,为了复用而进行设计, 为了复用而开发,并且要有效地组织和管理这些复用产品,方便人们查找和使用, 基于复用品进行开发。软件复用一定要有积累,首先要为了复用目的设计很多的 复用产品,有了一定的积累后才能进行软件复用。总的来说,软件复用有3 个基 c r m 中数据挖掘应川策略及其芙键技术的研究 本问题:一是必须有可以复用的对象,二是所复用的对象必须是有用的,三是复 用者需要知道如何去使用被复用的对象。可复用的对象可以是各种类型的,如果 我们将复用看成是一个系统工程的话,从需求分析阶段开始,到设计、编码及测 试,包括测试案例和测试脚本等,都可以成为复用的对象。软件复用可以从多个 方面进行考察。依据复用的对象,可以将软件复用分为产品复用和过程复用。产 品复用是指复用已有的软件构件,通过构件集成组装得到新系统。过程复用是指 复用已有的软件丌发过程,使用可复用的应用生成器来自动或半自动地生成所需 系统。过程复用的难度较大,它依赖于软件自动化技术的发展,因此目前只适用 于一些特殊的应用领域。在数据挖掘项目实施的各个领域,除了遵循c r i s p - d m , 每个领域都有一些特征使得数据挖掘过程表现 人量的相似性,这种相似性完全 可以在c r i s p - - d m 的基础上进步进行抽象,产生我们称之为“特定领域一般 模型”的复用对象。 下面进一步分析特定领域一般模型的产生和使用。使用浚模型的数据挖掘项 目可以分为两大部分:般化和特殊化。一般化过程即分析、选择并学习之前的 项目所产生的特定领域一般模型,清楚当前的新项目所要经历的一般过程。特殊 化即学习先前项目一般模型的实例,研究它们是如何应用一般模型的,进而分析 在新项目中如何使用一般模型。这就带给我们一个问题,如何米建立一般过程模 型? 过程模型是处理过程的抽象表示,首先我们定义数据挖掘过程的形式化表 示。一个数据挖掘项目可以用一个六元组 以zs 丘d 来表示,每一元的涵义如 下: g :数据挖掘的目标。它反映了项目的意图,必须在项目的开始就确定。可 以是各种类型的数据挖掘,分类、聚类等。 d :数据集,用于数据挖掘的数据源。数据源可以看作一个通用的关系表。 特定的项目可能只用到这个关系表的部分属性。 t :项目中涉及到的任务。在一个特定的项目中,t 代表过程实例。当从不同 的抽象级别考虑项目时,可以用c r i s p p h a s e 或c r i s pg e n e r i ct a s k 来得到项目 的更抽象的表示。 s :任务之间的相互关系。用于确定项目过程中的数据流和控制。也可以元 组的方式来表示,如 代表t l 的后继任务是t 2 。 k :项目发现的知识。可以用数据挖掘算法的结果模型来表示。 e :模型和项目的评价。用于表示知识发现的性能和度量项目是否成功。 以上六个方面基本概括了数据挖掘工程的特征,因此每一项数据挖掘工程, 都可以按照以上六个方面来进行描述。该六元组可以以关系表的方式存储在数据 库中。存储六元组的关系表可以根据用户需求设计,只要包含着六个方面的信息 第二章c r m 中的数据挖掘过程 即可。我们给出特殊领域一般模型的建立和使用的流程如图2 8 幽2 , 8 特定领域一般模型建立与使川过稗 说明: 1 模型库是存储之前数据挖掘项目已使用过的过程模型的仓库。它对存 储到模型库中的模型进行聚类分析,将模型按聚类结果存储: 2 模型库为特定领域的数据挖掘过程模型库,存储对象为特殊领域一般 模型; 3 进行一个新项目,首先从模型库中查找是否有模型适合于该项目,如 果有,则使用该模型,没有则为当前项目构建新的处理模型; 4 模型一般化指当前项目遵循模型的处理过程,特殊化指根据项目的特 殊要求,确定具体实施方案; 模型库的产生和发展,是一个不断进化的过程。时间越长,项目越多,存储 在模型库中的模型也越多,越完善。从模型库中选择模型的过程,实际上是一个 推理的过程。根据当前项目的需求和特点,使用一定的规则从模型库中挑选适合 于该项目的模型。从中选择模型的过程可表示如图2 9 : 当前项目 图2 9 特定领域一般模型的选择过程 c r m 中数据挖掘鹿川策略及其关键技术的研究 其中,推理规则用于记忆每次的选择模型所采用的规则和控制策略。好的推 理规则能够根据模型库中的知识和新的需求特征推导出该项目适合的模型,而不 仅仅足搜索现有的模型。 2 6 基于c r i s p d m 的c r m 数据挖掘 将数据挖掘技术应用到c r m 巾,为c r m 系统建立良好的模型,一些步骤必 须遵从。以c r i s p d m 为基础,c r m 中通用的有效的数据挖掘步骤为:( 1 ) 定 义商业问题;( 2 ) 建立行销数据库、( 3 ) 探索数掘、( 4 ) 为建模准备和数据、( 5 ) 建立模型、( 6 ) 评价模型和部署模型获得结果。其中( 2 ) 到( 4 ) 步为数据准备 阶段,其工作量占到全部数据挖掘过程的5 0 到9 0 。本文以丌发陕西邮政c r m 系统为例,介绍c r m 系统中一个完整的数据挖掘过程。首先使用用例图表示邮 政c r m 数据挖掘系统的功能。如图2 ,1 0 。 t :凡 系缝 图2 1 0 邮政c r m 数据挖掘系统功能 图2 1 0 中的每一个用例都代表数据挖掘过程中的一个完整的步骤。在数据挖 掘过程中的关键步骤数据准备由e t l 和d a t as t o r a g e 、d a t a p r o c e s s i n g 完成,模型 建立出d a t ae n g i n e 完成。下面详细讨论c r m 系统数据挖掘的开发过程。 第二章c r a m 中的数据挖捌过程 2 6 1 问题定义 每一个c r m 应用都有一个或多个商业目标,为此需要建立恰当的模型。根 据特殊的目标,如“提高客户响应率”和“提高每个响应的价值”,需要建立完 全不同的模型。确定c r m 系统的目标不仅是数据挖掘应用的第一步,在将模型 用于实际分析之后所进行的结果评价也是以系统的最初目标为参照点的。 邮政业务种类繁多,传统业务包括函件、包裹、汇票、发行、机要、储蓄、 邮品等,近年来一些新业务像e m s 特快、商函广告、电子信函、混合邮件、电 子邮购、代收代缴、邮政信息服务、物流配送等等也迅速发展起来。邮政客户遍 御全国各地,几乎每一个人、每一家公司都是邮政的客户。利用信息技术对邮政 客户信息进行组织、管理和挖掘,是邮政部门可以在激烈的市场竞争中稳步发展 的必要条件。邮政业务的多样性,使得如果要对所有业务、所有客户的信息进行 挖掘,难度会很大。根据邮政目前的需求,我们所刀:发的c r m 系统的主要分折 对象为报刊客户,因此数据挖掘的目标就是探索报刊客户的特征,分析其用邮的 行为特点。确定需要完成以下功能: 交叉用邮分析:相应建立交叉用邮模型。根据客户已经订阅的报刊向其推荐 可能感兴趣的其它报刊,属于关联分析; 客户响应分析:相应建立客户响应模型。寻找对特定类型报刊感兴趣的客户 的特征,再预测一个客户对报刊推荐的响应结果; 客户细分:相应的奖建立户细分模型。基于客户内在特征的客户自动分类。 使用聚类分析对客户进行划分,将有着类似的行为特征的根据客户分为类,为 个性化服务提供依据; 客户流失分析:相应建立客户流失模型。得到流失客户的特征,影响客户流 失的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论