(计算机应用技术专业论文)聚类技术在客户关系管理中的应用研究.pdf_第1页
(计算机应用技术专业论文)聚类技术在客户关系管理中的应用研究.pdf_第2页
(计算机应用技术专业论文)聚类技术在客户关系管理中的应用研究.pdf_第3页
(计算机应用技术专业论文)聚类技术在客户关系管理中的应用研究.pdf_第4页
(计算机应用技术专业论文)聚类技术在客户关系管理中的应用研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机应用技术专业论文)聚类技术在客户关系管理中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 客户关系管理( c r m ) 是最近几年兴起的一个概念,可以从三个层面来理 解c r m ,它是一种现代的经营管理理念,也是整套解决方案,同时又是一套 应用软件系统。c r m 从功能上可以分为三类:运营型c r m 、分析型c r m 和协 作型c r m 。其中分析型c r m 是c r m 的核心,丽实现分析型c r m 的核心技术 是数据挖掘和数据仓库技术。数据挖掘,简单地说,就是从大量数据中提取或“挖 掘”知识。数据挖掘是一门交叉学科,涉及到许多学科,它从一开始就是面向应 用的,c r m 是数据挖掘的一个重要研究与应用领域。数据仓库是一个面向主题 的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程。数据仓库 是实施c r m 的基础。数据挖掘和数据仓库是融合与互动发展的,它们的应用可 以大大提升c r m 的效率,给企业带来更多利润。 聚类分析是数据挖掘的一个重要分支,本文着重于划分算法和高属性维稀疏 聚类算法的研究,并研究其在连锁超市c r m 中的应用。为了数据挖掘的需要, 本文首先构建了一个数据仓库,这也是数据预处理的一部分。接着研究了划分算 法,针对划分算法对输入顺序和初始值敏感等缺陷,提出了一种动态的聚类算法 ( p a r t i t i o n - b a s e dd y n a m i cc l u s t e r i n ga l g o r i t h m ,缩写为p d c a ) :根据数据对象 的密度大小排序,选取相隔较远的数据对象作为初始值,并根据给定的参数,在 聚类的过程中动态地调整聚类个数,从而使聚类结果更加稳定、合理。然后将 p d c a 算法应用于客户细分,进行客户价值分析。本文还对基于稀疏特征向量的 聚类算法( c l u s t e r i n ga l g o r i t h m b a s e do ns p a r s ef e a t u r ev e c t o r ,缩写为 c a b o s f v ) 进行了研究,发现其对输入顺序敏感、算法很不稳定、聚类质量不 高等不足之处,因此,本文提出了集合的相似属性的概念,并且扩展了差异度的 计算方法。最后将改进算法应用于客户购物模式分析,实践表明改进算法能够发 现更好的知识。 关键词:数据挖掘,聚类,客户关系管理,划分算法,数据仓库,客户细分 知识发现 a b s t r a c t c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ( c r m ) i san e w c o n c e p ts p r u n gu p i nr e c e n t y e a r s i ti sam o d e mm a n a g e m e n tc o n c e p ta n daw h o l ep r o j e c t ,a tt h es a n l et i m e ,a l l a p p l i c a t i o ns o f t w a r es y s t e m c r mc a nb ec l a s s i f i e da st h r e eb yf u n c t i o n :o p e r a t i o n a l c r m a n a l y t i c a lc r m a n dc o l l a b o r a t i o nc r m t h ea n a l y t i c a lc r mi st h ec o r eo f c r m ,w h i l e d a t a m i n i n g a n dd a t aw a r e h o u s ea r et h ec o r e t e c h n o l o g i e s o f i m p l e m e n t i n ga n a l y t i c a l c r m d a t am i n i n g ,w h i c hi sd e f i n e da st h ep r o c e s so f d i s c o v e r i n gp a t t e r n s i n d a t a ,i s af o c u so fm u l t i d i s c i p l i n er e s e a r c h c r mi sa n a p p l i c a t i o nd o m a i no f d a t am i n i n g d a t aw a r e h o u s ei sas u b j e c t o r i e n t e d ,i n t e g r a t e d , t i m e - v a r i a n t ,a n dn o n v o l a t i l ec o l l e c t i o no fd a t ai ns u p p o r to fm a n a g e m e n td e c i s i o n m a k i n gp r o c e s s e s c r m i so nt h eb a s i so fd a t aw a r e h o u s e w i md a t am i n i n ga n dd a t a w a r e h o u s ei n t e r a c t i n ga n dd e v e l o p i n gt o g e t h e ri nc r m ,t h e yc a r lb r i n gc o r p o r a t i o n s g r e a tp r o f i t s c l u s t e r i n gi sa ni m p o r t a n tp a r to f d a t am i n i n g i nt h i sp a p e r , p a r t i t i o nm e t h o da n d h i g hd i m e n s i o n a ls p a r s ec l u s t e r i n ga l g o r i t h ma r em a i n l yr e s e a r c h e d ,i n c l u d i n gt h e i r a p p l i c a t i o ni nc r m o fac h a i ns t o r e f i r s t l y , ad a t aw a r e h o u s e ,a sap a r to fd a t a p r e t r e a t m e n t ,i sc o n s t r u c t e d s e c o n d l y , t h ep a r t i t i o nm e t h o d ,w h i c hi s s e n s i t i v et o i n p u ts e q u e n c e ,i n i t i a lp a r t i t i o n s ( v a l u e so fk ) a n di n i t i a lv a l u e s ,i sp r e s e n t e d t o o v e r c o m et h es h o r t c o m i n g s ,ap a r t i t i o n - b a s e dd y n a m i cc l u s t e r i n ga l g o r i t h m ( f o r s h o r tp d c a ) i s d e v e l o p e d a tf i r s t ,s o r tt h ed a t ao b j e c t sb y t h e i rd e n s i t i e s t h e ns e l e c t s o m ed i s p e r s i v ed a t ao b j e c t sa si n i t i a lc l u s t e r i n gc e n t e r sa c c o r d i n gt op r i o r i t y a tt h e s a m et i m e ,t h eo u t l i e r sc a nb ef i l t r a t e d a n di t c h a n g e st h en u m b e r so fp a r t i t i o n s d u r i n g t h e c l u s t e r i n gp r o c e s s i n g a tl a s t ,t h e p d c ai s a p p l i e d t oc u s t o m e r s e g m e n t a t i o nb yt h e i rv a l u e s t h i r d l y , b a s e do nc a b o s f v ( c l u s t e r i n ga l g o r i t h m b a s e do n s p a r s ef e a t u r ev e c t o r , ah i g hd i m e n s i o n a ls p a r s ec l u s t e r i n ga l g o r i t h m ) ,t h i s p a p e rp u t sf o r w a r da ni d e aa b o u tt h es i m i l a ra t t r i b u t eo f t h ec o l l e c t i o na n dr e d e f i n e s d i s s i m i l a r i t y m e a s u r e s t h ei m p r o v e da l g o r i t h mi s a p p l i e d t oc u s t o m e rb e h a v i o r a n a l y s i sa n d t h er e s u l ti sb e t t e rt h a nc a b o s f v k e yw o r d :d a t am i n i n g ,c l u s t e r i n g ,p a r t i t i o nm e t h o d ,c u s t o m e rs e g m e n t a t i o n , c r m ,d a t aw a r e h o u s e ,k d d i i 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人己发表 或撰写过的研究成果。参与同一工作的其他同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即:学校有权保留 论文及送交论文复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容。 ( 保密的论文在解密后应遵守此规定) 鏖! 坠日期: ) t t , i ¥ 上海大学硕士学位论文 一! 丛旦! 錾墅塑! 型! ! ! 型! ! ! 兰! 婴业型型! ! 堡望j 立 第一章绪论 1 1 研究背景 随着经济全球化的迅速发展,企业竞争也日益加剧,放眼全球市场,可以 清晰地看到买方市场占据着统治的地位,为适应这一发展趋势,越来越多的企 业纷纷把关注的目光由过去聚焦在“产品”上,逐渐转移到“客户”上。客户关系 管理( c r m ) 逐渐成为各企业管理者所耳熟能详的一个重要概念。 企业竞争无处不在,而客户资源无疑已经成为各企业争夺的最重要的战略 资源之一。拥有客户就意味着企业拥有了在市场中继续生存的理由,而拥有并 想办法保留住客户是企业获得可持续发展的动力源泉。这要求企业在广泛关注 所有的竞争环境的同时,必须加大投入到关注客户这一因素的力度。当前企业 的核心任务是一方面提升企业核心竞争力适应客户需求的变化,以提高市场竞 争力,另一方面以先进的管理思想为指导,采取科学的技术手段,科学地处理 企业与客户之间的关系来提高和维持较高的客户占有率。 为了实现这个目标,企业就需要尽可能地了解客户的行为,但是企业的客 户成千上万,这种了解不可能通过与客户接触直接获得,因为企业不可能挨个 与客户交谈,而且他们所需要的信息单个客户往往无法提供。企业所能做的, 就是尽可能收集顾客的信息,借助各种分析方法,透过无序的、表层的信息挖 出内在的知识和规律,而这正是数据挖掘技术所研究的内容。在挖出大量信息 之后,企业就可以根据这些规律或用这些信息设计数学模型,对未发生行为做 出结果预测,为企业的综合经营决策、市场策划提供依据。 数据挖掘是一门很广义的交叉学科,涉及的主要学科有数据库、人工智能、 数理统计、可视化、并行计算等。数据挖掘技术从一开始就是面向应用的。它 不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中 观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事 件间的相互关联,甚至利用已有的数据对未来的活动进行预测。聚类分析是数 据挖掘领域最为常见的技术之一,其在统计数据分析、模式识别、图像处理、 市场细分、生物种群划分、客户细分等领域有广泛的应用前景。本文主要研究 聚类技术,并将其应用于客户细分及客户购物模式分析。 1 2 国内外研究现状 k d d 一词首次出现在1 9 8 9 年8 月举行的第l l 届国际联合人工智能学术会 议上【3 5 】,由美国人工智能协会主办的k d d 国际研讨会规模由原来的专题讨论 第1 页 上海大学硕士学位论文 些! 望! 堡型! 坐卫墅! 堕i 磐g 型坚型! 型立 会发展到国际学术大会,研究重点也逐渐从发现方法转向系统应用,并且注重 多种发现策略和技术的集成,以及多种学科之问的相互渗透。其他内容的专题 会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热 点。此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也 纷纷开辟了k d d 专题或专刊。不仅如此,在i n t e m e t 上还有不少k d d 电子出 版物,其中以半月刊k n o w l e d g e d i s c o v e r y n u g g e t s 最为权威,另一份在线周于q 为 d s * ( d s 代表决策支持) ,1 9 9 7 年1 0 月7 日开始出版,可向d s t r i a l t g c t o m 提 出免费订阅申请。在网上,还有一个自由论坛d m e m a i l c l u b ,人们通过电子邮 件相互讨论d m k d 的热点问题。而领导整个潮流的d m k d 开发和研究中心, 当数设在美国e m d e n 的i b m 公司开发部。 随着理论探讨的不断深入,一些大型的软件公司推出了自己的c r m 解决方 案。下面简要介绍一下几家代表性公司的c r m 系统中数据挖掘工具的研究和 应用成果。 ( 1 ) s p s s 系列产品。c l e m e n t i n e 是s p s s 的核心产品。它所使用的分析技 术包括神经元网络、关联规则和规则归纳技术。s p s s 的另外一个重要的产品 a n s w e r t r e e 可以帮助用户确认细分市场及其模式,建立顾客档案资料,挖掘隐 藏市场趋势。a n s w e r t r e e 运用的分析运算法则:两类c h a f f ) 、分类和回归树、 q u e s t 。 ( 2 ) i b md b 2 i n t e l l i g e n tm i n e r 。它采用了多种统计和挖掘算法,主要有: 单变量曲线、双变量统计、线性回归、因子分析、主变量分析、分类、聚类、 关联、相似序列、序列模式、预测等。大多数算法是由i b m 研究所研发出来的, 是m m 专有技术,只存在于i n t e l l i g e n t m i n e r 中。 ( 3 ) o r a c l e 9 id a t am i n i n g 。它包括了神经元网络、决策树、k 近邻和关 联规则等挖掘工具,可以用于客户细分、查找客户群和发现关联规则等。 ( 4 ) e n t e r p r i s em i n e r s 是s a s 公司推出的数据挖掘工具【2 2 】。它支持关联、 聚类、决策树、神经元网络和经典回归技术。 ( 5 ) d b m i n e r :它是由加拿大大不列颠哥伦比亚省s i m o nf r a s e r 大学“智能 数据库系统研究实验室”创建,由d b m i n e rt e c h n o l o g y 公司做进一步的开发而 形成的产品。其独特之处在于紧密集成了联机分析处理( o l a p :o n l i n e a n a l y s i s p r o c e s s i n g ) 和多种数据挖掘功能,包括特征化、关联、分类、预测和聚类等。 ( 6 ) 目前有不少国内的软件公司也开发出了自己的c r m 产品。例如长沙 创智公司的p o w e r c r m 、上海t u r b o c r m 信息科技公司的t u r b o c r m 、北京联成互 动软件公司的m y c r m 、复旦德门软件公司的天眼数据挖掘工具集d m i n e r 。但他 们的c r m 产品大部分停留在对客户信息的分析统计上,对数据挖掘部分比较 弱化。 第2 页 上海大学硕士学位论文 堡! ! ! 塑塑! 坐卫箜! ! ! ! ! ! 塑g 墅垃! ! ! ! ! 照 1 3 本文研究内容 本文的课题来源于一家上海软件公司,这家软件公司的老客户是一家小型 连锁超市,超市的高层领导希望能够开发一套软件来辅助他们进行决策支持, 根据需求,软件公司提出了一套客户关系管理方案。本文所研究的内容仅仅是 这套方案中一小部分,本文并不侧重于客户关系管理系统的构建,而在于算法 的研究与应用,主要是聚类算法的研究与应用,另外,作为数据预处理的一部 分,还构建了一个小型数据仓库。 本文所做的工作和研究的内容如下: ( 1 ) 为了数据分析和挖掘的需要,花了大量时间熟悉原有系统的业务流程, 在理解数据的基础上,构建了一个小型数据仓库,这也可以看作是数据预处理 的部分。 ( 2 ) 将聚类算法应用于客户细分,着重研究了划分算法,根据其对输入顺 序和初始值敏感等缺陷,提出一种动态的聚类算法:根据数据对象的密度大小 排序,选取相隔较远的数据对象作为初始值,并根据给定的参数,在聚类的过 程中动态地调整聚类个数使得聚类结果更加稳定、合理、有效。 ( 3 ) 将高属性维稀疏聚类应用于客户购物模式分析,着重研究了c a b o s f v 算法。针对这一算法对输入顺序敏感、算法很不稳定、聚类质量不高等不足之 处,提出了集合的相似属性的概念,并对差异度的计算方法进行了扩展。最后 将改进算法应用于客户购物模式分析,实践表明改进算法能够发现更好的知识。 第3 页 上海大学硕士学位论文 一 ! 址里! ! 蝗! 鲤竺型! ! 塾! ! 堡! ! ! b 塑g ! ! i 婪翌i 堡! ! 旦 第二章客户关系管理( c r m ) 与数据挖掘 2 1 客户关系管理( c r m ) 2 1 1 客户关系管理概念的产生 c r m 这个概念是由世界著名i t 系统项目论证与决策权威机构一g a n l l e r g r o u p 率先提出来的。g a r t n e rg r o u p 认为c r m 产生的背景是与新经济和新技 术有关系。新经济的挑战包括经济环境的自由化,打破了国家的垄断,打破了 行业的垄断,打破了对资源的垄断。带来的是竞争更加激烈。导致了产品的生 命周期更短,客户的需求更加个性化。企业如何保持竞争能力并求得发展,悠 关重要。 考察企业的生存环境,可以清楚地看到下述条件至关重要【3 3 l 。一、有最好 的产品,这个好是由客户来评判的,并不是由企业来评判的。为什么样的客户 提供更加好的产品。二、经营效率高,使得企业交付产品与服务的时候能够比 竞争对手价格更低。如何管理企业内部的流程才能够使企业的效率更高。三、 能否与客户建立亲密的关系,使客户对你依赖到不可分离的地步。能够做到这 三个,所付出的代价是非常高的。这三个部分都是与企业的客户密切相关的。 对企业而言,客户是最宝贵的资源,你失去了客户就失去了一切。你失去了老 客户,就意昧着业务无法进行,你失去了新的客户,即潜在客户,就意昧着停 滞不前,无法向前发展。 2 1 2 客户关系管理的定义 关于c r m 的定义,不同的研究机构有着不同的表述。我国著名学者田同生 先生归纳众多国外著名研究机构和跨国公司对c r m 的诠释,认为在现实当中 c r m 的概念是从三含层面来表述的 3 2 】:一、c r m 是一种现代的经营管理理念, 即宏观概念;二、c r m 包含的是一整套解决方案,即中观概念;三、c r m 则 意味着一套应用软件系统,即微观概念。 c r m 首先是一个建筑在市场经济相对发达基础之上的管理理念,其源于西 方的市场营销理论,强调一切以客户为中心( 之前强调以产品为中心) ,i t 技 术只是c r m 理念的表现方式而已。 c r m 作为解决方案( s o l u t i o n ) ,它集合了当今最新的信息技术,它们包括: i n t e m e t 和电子商务、多媒体技术、数据仓库和数据挖掘、专家系统和人工智能、 第4 页 上海大学硕士学位论文 ! 堕! 型g ! 盟业! ! 坠! i ! ! ! i ! 垫g ! ! i 型! i ! 型立 一 呼叫中心以及相应的硬件环境,同时还包括与c r m 相关的专业咨询等等。 c r m 作为一个应用软件系统,它凝聚了市场营销等管理科学的管理理念。 市场营销、销售管理、客户关怀、服务和支持等构成了c r m 软件模块基石。 2 1 3 客户关系管理的功能结构 整个c r m 从功能上可以分为以下三大块( 如图2 1 ) : ( 1 ) 运营型c r m :使企业完成从市场、销售到服务的全部业务流程的自动 化。这一功能可以采集客户数据,进而为分析型c r m 提供分析数据。 ( 2 ) 分析型c r m :主要分析运营型c r m 和原有系统中获得的各种数据, 进而为企业经营和决策支持提供可靠的量化依据。这是最难的也是最重要的功 能,数据挖掘技术在此发挥了核心作用。 ( 3 ) 协作型c r m :将多种与客户交流的渠道( 如电话、传真、网络、e m a i l 等) 紧密集成在一起,保障了渠道的有效性和一致性。 图2 1c r a m 的功能结构 霸 运 r 协作型c r m r 一一一一? 第5 页 上海大学硕士学位论文 堕业! ! g r 型坠型! ! j ! ! 望鲤墨堕塑g b ! i 型! i 堡! ! ! 生 对于c r m 解决方案,不仅要将上述三块紧密地联系起来,还要和企业的核 心业务应用,包括和e r p 结合起来。 2 2 数据挖掘 2 2 1 数据挖掘的定义 数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、有噪声的、模糊的、 随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在 有用的信息和知识的过程。 2 2 2 数据挖掘研究的内容 目前数据挖掘的主要研究内容包括基础理论、发现算法、数据仓库、可视 化技术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、半结 构化和非结构化数据中的知识发现以及网上数据挖掘等。 数据挖掘所发现的知识最常见的有以下五种; ( 1 ) 广义知识:指类别特征的概括性描述知识。根据数据的微观特性发现 其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反 映同类事物共同性质,是对数据的概括、精炼和抽象。 ( 2 ) 关联知识:它反映一个事件和其他事件之间依赖或关联的知识。如果 两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其 他属性值进行预测。 ( 3 ) 分类知识:它反映同类事物共同性质的特征型知识和不同事物之间的 差异型特征知识。 ( 4 ) 预测型知识:它根据时间序列型数据,由历史的和当前的数据去推测 未来的数据,也可以认为是以时间为关键属性的关联知识。 ( 5 ) 偏差型知识:它是对差异和极端特例的描述,揭示事物偏离常规的异 常现象,如标准类外的特例,数据聚类外的离群值等。 2 2 3 数据挖掘的功能 数据挖掘功能用于指定数据挖掘任务中要寻找的模式类型。数据挖掘任务 一般可以分为两类:描述和预测。描述性挖掘任务刻划数据库中数据的一般特 性。预测性挖掘任务在当前数据上进行推断,以进行预测。 第6 页 上海大学硕- k 学位论文 ! 堕! ! ! 蝗! ! ! 坚! ! ! ! ! ! 堡! ! b ! n 些型女! ! ! ! 竖i 生 数据挖掘系统能够挖掘多种类型和各种粒度的模式,以适应不同的用户需 求或不同的应用。其功能主要如下: ( 1 ) 概念描述:特征化和区分 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。 概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者 描述不同类对象之间的区别。 概念描述有两种基本实现方法:基于数据立方体o l a p 的方法和面向属性 归纳的方法。对基本方法稍加扩充,概念描述挖掘可以用增量方式、并行方式 或分布方式进行。 ( 2 ) 关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变 量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、 因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据 库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有 可信度。 关联规则发现方法主要有a p r i o r i 算法及其变形和频繁模式增长( f p 增长) 法。a 鲥o r i 算法及其变形是一种产生大量候选频繁项集的方法,而f p 增长法 是一种不产生候选频繁项集的方法。 ( 3 ) 分类和预测 分类和预测是数据分析的两种形式,可以用于提取描述重要数据类的模型 或预测未来的数据趋势。分类预测分类标号( 或离散值) ,而预测建立连续值函 数模型。 分类技术主要有:判定树归纳分类、贝叶斯分类、向后传播分类、基于关 联规则挖掘概念的分类。预测技术主要有回归统计建模,包括线性回归建模、 非线性回归建模、多元回归建模、广义回归建模等。 ( 4 ) 聚类 聚类是将物理或抽象对象的集合划分为由类似的对象组成的多个类的过 程。它与分类不同,聚类没有类标记作为指导,类标记由它本身产生。由聚类 所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似, 与其他簇中的对象相异。在许多应用中,可以将个簇中的数据对象作为一个 整体来对待。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先 决条件。 聚类算法主要有:划分方法、层次方法、基于密度的方法、基于网格的方 法和基于模型的方法。 ( 5 ) 孤立点分析 第7 页 上海大学硕士学位论文 些! ! ! 坚四! ! 塑坠墅! 垡! ! 塑g 墅坐监! ! 型 孤立点是这样一些数据对象,它们不符合数据的一般模型,或者说它们与 数据的其他部分不同或不一致。孤立点可能是度量或执行错误所导致的,因此 许多挖掘算法试图使孤立点的影响最小化,或者干脆排除它们。但是孤立点也 可能蕴涵着重要信息,比如在欺诈探测中,孤立点可能预示着欺诈行为。因而 孤立点探测和分析是一个有趣的数据挖掘任务,被称为孤立点挖掘。 孤立点挖掘方法可分为三类:第一种统计学方法,此方法对给定的数据集 合假设了一个分布或概率模型,然后根据模型采用不致检验来确定孤立点。 第二种基于距离的孤立点检测。第三种基于偏离的孤立点检测,它通过一组对 象的主要特征来确定孤立点,与给出的描述“偏离”的对象被认为是孤立点。 ( 6 ) 演变分析 数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。包 括趋势分析、相似性搜索、与时间有关的序列模式挖掘和周期模式挖掘。 有四种主要的变化和元素用于特化时序数据:长期或趋势变化、循环变化、 季节性交化、非规则性或随机变化。通过对趋势、循环、季节和非规则成分的 变动的系统分析,使人们可以在较合理的情况下制定出长期或短期的预测。 2 2 4 数据挖掘的应用领域 数据挖掘技术从一开始就是面向应用的,它能够发现以前未知的模式,预 测未来趋势和行为,因此其应用领域相当广泛。以下是其典型应用: 商业应用:包括银行、电信、保险、交通、零售( 如超市) 等商业领域, 其能解决的典型商业问题包括:数据库营销( d a m b a s em a r k e t i n g ) 、客 户群体划分( c u s t o m e rs e g m e n t a t i o n & c l a s s i f i c a t i o n ) 、背景分析( p r o f i l e a n a l y s i s ) 、交叉销售( c r o s s s e l l i n g ) 等市场分析行为,以及客户流失性 分析( c h u ma n a l y s i s ) 、客户信用记分( c r e d i ts c o r i n g ) 、欺诈发现( f r a u d d e t e c t i o n ) 等等。 生物医学和d n a 数据分析:如d n a 序列间相似搜索和比较、同时出 现的基因序列的识别、发现在疾病不同阶段的致病基因、可视化工具和 遗传数据分析等。 w e b 挖掘:w e b 文本内容分类和聚类挖掘、w e b 组织结构和链接关系挖 掘、w e b 使用记录挖掘等。 此外,数据挖掘还在化工、制造、司法、军事、城市交通、工程与科学数 据分析、多媒体挖掘等领域有广泛研究与应用。 第8 页 上海大学硕士学位论文 ! 坐! ! ! 塑望! ! ! ! ! ! ! ! 堡! ! ! j 垫吐型! ! ! ! ! ! ! 旦 2 2 5 数据挖掘在c r m 中的作用 数据挖掘技术帮助企业管理客户生命周期的各个阶段,包括争取新的客户, 让已有的客户创造更多的利润、保持住有价值的客户等等。它能够帮助企业确 定客户的特点,使企业能够为客户提供有针对性的服务。具体来说,它可以应 用在以下几个方面: ( 1 ) 客户细分 不同的客户群必然存在着不同的特征,利用数据挖掘中的聚类分析,根据 客户的消费模式、消费习惯、消费频度等特征对客户进行分类,在每个类里的 客户有相似的属性,而不同类里的客户的属性也不同。这样企业可以根据不同 类的客户提供完全不同的服务来降低成本、提高客户的满意度,从而达到企业 利润的最大化。 ( 2 ) 客户获取 客户是企业的生命,所有企业都在不遗余力地争取新客户。传统的获得客 户的途径一般包括广泛的媒体广告、大量的电话行销、市中心及车站码头的广 告牌等。做广告,大多选择读者群和直接目标客户群重叠最大的主流媒体。但 数据挖掘可以改变这些。利用分类技术,根据客户的属性,来预测客户属于哪 一类客户群,从中挖掘出潜在的客户,并针对这些潜在客户采取合适的行销手 段。这样广告的有效性和客户的响应度都得到大幅度地提高,降低了获取客户 的成本,同时也获得了更多利润。 ( 3 ) 提高客户的价值 现在企业和客户之间的关系是不断发展变动的,一旦一个人或者一个公司 成为你的客户,你就要尽力使这种客户关系对你趋于完美。一般来说可以通过 三种方法使之达至完善:最长时间地保持这种关系;最多次数地和你的 客户交易;最大数量地保证每次交易的利润。所有这些可以通过交叉销售来 实现。交叉销售是指企业向原有客户销售新的产品或服务的营销过程。通过交 叉销售,客户可得到更多更好的产品和服务,因此对企业的忠诚度提高了,同 时企业也会因销售额的增长而获益。 然而从实际上看,多数企业对交叉销售多以企业整体客户群为基础,由于 不同的客户群对于商品喜好与服务程度不一,传统的交叉销售往往并没有什么 效果,部分商品甚至引起客户反感而产生反作用。运用了数据挖掘后的交叉销 售,效果大为改观。 首先,通过对商品进行关联规则挖掘,可以发现商品间的相互关系,比如 哪些商品同时经常被一起购买。在交叉销售中,对于那些购买频率较高的商品 组合,找出那些购买了组合中大部分商品的顾客,向他们推销组合中的其他商 第9 页 上海大学硕士学位论文 ! 旦! 芏! 塾臣鲴坚坠! 坠! ! 堡! ! 璺堕碰型堕旦! ! 笪! i 型 品。其次,利用序列模式挖掘,找出商品被购买的先后次序,比如在购买商品 a 后,一段时间里顾客会接着购买商品b ,而后购买商品c ,在交叉销售时, 如果有顾客买了商品a ,就可以向他推销商品b ,而后再向其推销商品c 。另 外,利用聚类技术通过对客户进行细分,可以确定某一类客户经常购买的商品, 并对没有购买的此类客户推销这些商品,同时,如果有类似的新产品推出,也 可以向此类客户推销。采用了数据挖掘技术后,由于针对不同的客户采用不同 的策略,交叉销售得到了显著改观,客户满意度也大大提高。 ( 4 ) 客户保持 现在各个行业的竞争都越来越激烈,企业获得新客户的成本正不断地上升, 调查发现【 6 】,开发一个新顾客的成本是留住老顾客的6 倍,而流失一个老顾客 的损失,只有争取1 0 个新顾客才能弥补,而且往往失去的客户比新得到的客户 要贡献更多的利润。因此保持原有客户对所有企业来说就显得越来越重要。 调查发现1 3 ”,大部分企业每年有2 0 5 0 的客户是交动的。通过数据挖 掘技术,对历史数据库中流失客户建模,分析其行为特征与属性,然后利用分 类技术对现有客户进行预测,找出具有类似特征的客户,并根据这些客户所属 类别,在这些客户还没有流失之前采取相应的措施,吸引客户继续与企业保持 良好的商务关系。 第l o 页 上海大学硕士学位论文 些! ! 鲤g 幽鲤! 旦墅! 堕i ! ! ! 些型型巫! 墅亚 第三章数据仓库的构建 构造数据仓库涉及数据清理和数据集成,可以看作数据挖掘的一个重要预 处理步骤。此外,数据仓库提供联机分析处理( o l a p ) 工具,用于各种粒度的 多维数据分析,有利于有效的数据挖掘。进一步讲,许多数据挖掘功能,如分 类、预测、关联和聚类,都可以与o l a p 操作集成,以加强多个抽象层上的交 互知识挖掘。因此,数据仓库已经成为数据分析和联机分析处理日趋重要的平 台,并将为数据挖掘提供有效的平台。 本章首先介绍数据仓库的基本概念和特征,多维数据模型的三种模式,然 后分析一下数据仓库和数据挖掘的关系,最后根据挖掘与分析的需要构建一个 数据仓库。 3 1 数据仓库的概念与特征 数据仓库是一种新型的面向数据应用的数据管理技术,它以关系数据库管 理系统( r d b m s ) 为基础,数据在从操作型数据库进入数据仓库之前必须经过 清理、集成、选择、变换,从而使数据仓库能够提供集成的、历史化的数据管 理功能,并支持综合性的数据分析,特别是战略分析。 到目前为止,有关数据仓库的定义还没有统一的说法,比较公认的是 w , h i r m o n 的描述,“数据仓库就是面向主题的、集成的、时变的、非易失的数 据集合,用以支持经营管理中的决策制定过程。”这个简短而又全面的定义指出 了数据仓库的主要特征。四个关键词,面向主题的、集成的、时变的、非易失 的,将数据仓库与其他数据存储系统( 如关系数据库系统、事务处理系统和文 件系统) 相区别。 ( 1 ) 面向主题的 与传统数据库面向应用进行数据组织的特点相对应,数据仓库中的数据是 面向主题进行组织的。主题是一个在较高层次上将企业信息系统中的数据综合、 归类后进行分析利用的抽象。在逻辑意义上,它对应于企业某一宏观分析领域 所涉及的分析对象。面向主题的数据组织方式可在较高层次上对分析对象的数 据给出完整、一致的描述,能完整、统地刻划各个分析对象所涉及的企业的 各项数据以及数据之间的联系,从而适应企业各个部门的业务活动特点和企业 内数据的动态特征,从根本上实现数据与应用的分离。 ( 2 ) 集成的 数据仓库的集成特性是指在进入数据仓库之前,数据是从原来分散的各个 第1 1 页 上拇大学硕士学位论文 ! 生! ! g ! 型! 坐! ! 鲤! 垡i 塑也! l ! ! i :! 型蔓 子系统中提取出来的,所以必须经过数据加工和集成,这是建立数据仓库的关 键步骤。首先要统一原始数据中的矛盾之处,还要将原始数据结构做一个从面 向应用到面向主题的转变。其中,对源数据的集成是数据仓库建设中最关键, 也是最复杂的一步。 ( 3 ) 时变的 数据仓库中的数据是随时间变化的,数据仓库中的数据操作虽然不涉及数 据的更新,但并不是说数据在进入数据仓库到数据被删除这段时间,所有数据 仓库中的数据都是永远不变的。首先,数据仓库必须捕捉o l t p 数据库中变化 的数据,经过统一、集成以后加入到数据仓库中;其次,数据仓库内的数据都 有一定的存储期限,数据一旦超过了它的存储期限就要被从数据仓库中删除; 再次,数据仓库中的综合数据必须要随着时间的变化不断地进行重新综合。 ( 4 ) 非易失的 数据仓库中的数据主要提供企业决策分析之用,主要涉及数据的查询而不 涉及数据的修改。因此数据仓库中的数据反映的是一段时间内历史数据的内容, 是不同时间点的数据库快照的集合,以及基于这些快照进行统计、综合和重组 的导出数据,而不是联机处理的数据。数据一旦存放入数据仓库以后仅当超过 规定的存储期限,才将其从数据仓库中删除,提取新的数据经集成后输入数据 仓库。由于数据仓库涉及的数据查询量很大,所以它需要有复杂的索引技术来 支持;同时数据仓库面向高层决策,他们会对查询界面的友好性和数据表示提 出更高的要求。 3 2 多维数据模型 数据仓库和o l a p 工具是基于多维数据模型的,该模型将数据看成数据立 方体的形式。这就要求在逻辑上采用多维的方式来组织和处理数据。同时,在 多维数据模型中,维度和度量是它的重要组成部分。 3 2 1 多维数据模型中的维度 维就是相同类数据的集合,也可以理解为变量。多维数据模型中的维具有 独立性,它往往决定了多维数据模型中数据对象的属性。每一个维都有个表 与之相关联,该表称为维表,它进一步描述维。维有自己固有的属性,如层次 结构( 对数据进行聚合分析时要用到) 、排序( 定义变量时要用到) 、计算逻辑 ( 是基于矩阵的算法,可有效地指定规则) 。这些属性对进行决策支持是非常有 用的。 维的层次结构是用来表述维中成员的集合以及这些成员之间的相对位置。 第1 2 页 上海大学硕士学位论文 j 堡! ! ! g 躔! ! 坐! ! 塑! ! ! ! ! ! 篮堕! 唑幽丝 层次结构可以用来定义数据聚集,例如,在时间维度中,层次结构能够聚集从 m o n t h 层到q u a r t e r 层到y e a r 层的数据。维度中的等级是维度层次结构的一个元 素,描述了数据的层次结构,从数据的最高( 汇总程度最大) 等级直到最低( 最 详细) 等级。等级仅存在于维度内且基于维表中的列或维度中的成员属性。 3 2 2 多维数据模型中的度量 多维数据模型中的度量具有依赖性,它和多维数据模型中的维度起用来 反驶多维数据集对象。其中,维度具有静态变量性质,而度量具有动态变量性 质。在多维数据模型中,度量是一组值。这些值通常是基于多维数据集的事实 表中的一列,而且通常为数字。此外,度量是所分析的多维数据集的中心值, 所选择的度量取决于最终用户所请求的信患类型,比如一些常见的度量有s a l e s , c o s t 等。 在多维数据模型中,每个度量都是从事实衷中的一列获得的,因为常规的 多维数据集的结构中只能有一个事实表,所以事实表中必须包含多维数据集的 所有度量值。 数据仓库一般都需要对度量进行汇总。在创建了度量和多维数据集结构后, 接下来需要通过对多维数据模型中的数据立方体的每一个点求值,通过对给定 点的各维值对聚集数据,计算该点的度量值。 3 2 3 多维数据模型的三种模式 e r 模型广泛用于关系数据库设计,它适用于联机事务处理。但是,数据仓 库需要面向主题的模式,便于联机数据分析。多维数据模型就成为适合于数据 仓库的数据模型。 多维数据模型有三种常见的类型:星型模式、雪花模式和事实星座模式。 ( 1 ) 星型模式:最常见的模型范例是星型模式,其中数据仓库包括一个 大的包含大批数据和不含冗余的中心表( 事实表) 和一组小的附属 表( 维表) 。每个维度对应一张独立的维表保存该维度的信息。这种 模式图很象星星,维表围绕中心表显示在射线上。在星型模式中, 每维只用一张表表示,每张表包含一组属性。 ( 2 ) 雪花模式:雪花模式是星型模式的变种。在雪花模式中,有一个或 多个维表连接到其他维表上,而不是事实表上。雪花模式的某些维 表是规范化的,因而把数据进一步分解到附加的维表中。这使得模 式图形成类似于雪花的形状。雪花模式和星型模式的主要不同在于, 雪花模式的维表可能是规范化形式,用以减少冗余。这种表易于维 第1 3 页 j 坠旦壁幽! :! 堡墅业! 兰! ! ! 吐坠堕! 监! ! 盟 护,并节省存储空间。但是,由于执行查询需要更多的连接操作, 雪花模式可能会降低浏览的速度。 ( 3 ) 事实星座模式:复杂的应用可能需要多个事实表共享维表。这种模 式可以看作星型模式集,因此称为星系模式或事实星座。 3 2 4 多维数据模型上的操作 在多维数据模型中,数据是以数据立方体的形式来展现的。因此,多维数 据模型上的操作包含对数据立方体进行查询和o l a p 分析。 由于在多维数据模型中,数据被组织成多维,并且每个维又有其自身的层 次结构。所以,通过对数据立方体进行查询操作,用户可以从不同的角度来观 察数据。 在数据立方体上,用户还可以进行o l a p 分析操作。o l a p 的基本数据分 析操作有上卷( r o l l u p ) 、下钻( d r i l l d o w n ) 、切片( s l i c e ) 、切块( d i c e ) 、旋转 ( r o t a t e ) 等操作。 3 3 数据仓库与数据挖掘的关系 从对数据分析的深度的角度

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论