(计算机应用技术专业论文)聚类分析在客户细分领域中的研究与应用.pdf_第1页
(计算机应用技术专业论文)聚类分析在客户细分领域中的研究与应用.pdf_第2页
(计算机应用技术专业论文)聚类分析在客户细分领域中的研究与应用.pdf_第3页
(计算机应用技术专业论文)聚类分析在客户细分领域中的研究与应用.pdf_第4页
(计算机应用技术专业论文)聚类分析在客户细分领域中的研究与应用.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(计算机应用技术专业论文)聚类分析在客户细分领域中的研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华北电力大学硕士学位论文摘要 摘要 本文分析了数据挖掘中的聚类技术以及聚类技术在客户细分领域中的研究现 状。深入研究和分析了基于划分的k m e a n s 算法和基于密度的d b s c a n 算法,结 合两种算法的优点和不足给出了一种改进的算法d b s k 算法。该算法由于划分 了数据集,降低了对主存的要求;算法中给出了计算各局部数据集参数的方法;对 于分布不均匀的数据集,由于各个局部采用不同的参数值,使得算法对全局参数的 依赖性降低,聚类质量更好。进行了仿真计算,仿真结果证明了算法的可行性和有 效性。文章最后介绍了客户细分的相关概念和细分方法,并详细阐述了基于聚类技 术的客户细分系统的设计以及实现。 关键字:数据挖掘,聚类技术,k m e a n s ,d b s c a n ,客户细分 a b s t r a c t t h i sp a p e ra n a l y s e st h ec l u s t e r i n gt e c h n o l o g yi nd a t am i n i n ga n di t sc u r r e n t r e s e a r c hs t a t u si nc u s t o m e rs e g m e n t a t i o n a d d i t i o n a l l y , t h ek m e a n sa l g o r i t h mb a s e do n p a r t i t i o na n dt h ed b s c a na l g o r i t h mb a s e do nd e n s i t yh a v eb e e ns t u d i e da n da n a l y z e d t h o r o u g h l y c o m b i n i n ga d v a n t a g e sw i t hd i s a d v a n t a g e so ft h e t w oa l g o r i t h m s ,t h e i m p r o v e da l g o r i t h md b s ki sp r o p o s e d b e c a u s eo ft h ep a r t i t i o no fd a t as e t ,d b s k r e d u c e st h er e q u i r e m e n to fm e m o r y ;t h em e t h o do fc o m p u t i n gv a r i a b l ev a l u ei sp u t f o r w a r d ;t ot h eu n e v e nd a t as e t ,b e c a u s eo fa d o p t i n gd i f f e r e n tv a r i a b l ev a l u e si ne a c h l o c a ld a t as e t ,t h ed e p e n d e n c eo ng l o b a lp a r a m e t e r si sr e d u c e d ,s ot h ec l u s t e r i n gr e s u l ti s b e a e r e m u l a t i o n e x p e r i m e n t h a sb e e nc a r r i e do u t ,w h i c hp r o v e st h ea l g o r i t h m s f e a s i b i l i t ya n dv a l i d i t y a tl a s t ,t h ep a p e ri n t r o d u c e sc o r r e l a t i v ec o n c e p t so fc u s t o m e r s e g m e n t a t i o n ,e x p a t i a t e st h ed e s i g na n dr e a l i z a t i o no fc u s t o m e rs e g m e n t a t i o ns y s t e m b a s e do nc l u s t e r i n gt e c h n o l o g y d u oc h u n h o n g ( c o m p u t e ra p p l i c a t i o nt e c h n o l o g y ) d i r e c t e db yp r o f w a n gc u i r u k e y w o r d s :d a t am i n i n g ,c l u s t e r i n gt e c h n o l o g y ,k - m e a n s ,d b s c a n ,c u s t o m e r s e g m e n t a t i o n 华北电力大学硕士学位论文摘要 摘要 本文分析了数据挖掘中的聚类技术以及聚类技术在客户细分领域中的研究现 状。深入研究和分析了基于划分的k m e a n s 算法和基于密度的d b s c a n 算法,结 合两种算法的优点和不足给出了一种改进的算法d b s k 算法。该算法由于划分 了数据集,降低了对主存的要求;算法中给出了计算各局部数据集参数的方法;对 于分布不均匀的数据集,由于各个局部采用不同的参数值,使得算法对全局参数的 依赖性降低,聚类质量更好。进行了仿真计算,仿真结果证明了算法的可行性和有 效性。文章最后介绍了客户细分的相关概念和细分方法,并详细阐述了基于聚类技 术的客户细分系统的设计以及实现。 关键字:数据挖掘,聚类技术,k m e a n s ,d b s c a n ,客户细分 a b s t r a c t t h i sp a p e ra n a l y s e st h ec l u s t e r i n gt e c h n o l o g yi nd a t am i n i n ga n di t sc u r r e n t r e s e a r c hs t a t u si nc u s t o m e rs e g m e n t a t i o n a d d i t i o n a l l y , t h ek m e a n sa l g o r i t h mb a s e do n p a r t i t i o na n dt h ed b s c a na l g o r i t h mb a s e do nd e n s i t yh a v eb e e ns t u d i e da n da n a l y z e d t h o r o u g h l y c o m b i n i n ga d v a n t a g e sw i t hd i s a d v a n t a g e so ft h e t w oa l g o r i t h m s ,t h e i m p r o v e da l g o r i t h md b s ki sp r o p o s e d b e c a u s eo ft h ep a r t i t i o no fd a t as e t ,d b s k r e d u c e st h er e q u i r e m e n to fm e m o r y ;t h em e t h o do fc o m p u t i n gv a r i a b l ev a l u ei sp u t f o r w a r d ;t ot h eu n e v e nd a t as e t ,b e c a u s eo fa d o p t i n gd i f f e r e n tv a r i a b l ev a l u e si ne a c h l o c a ld a t as e t ,t h ed e p e n d e n c eo ng l o b a lp a r a m e t e r si sr e d u c e d ,s ot h ec l u s t e r i n gr e s u l ti s b e a e r e m u l a t i o n e x p e r i m e n t h a sb e e nc a r r i e do u t ,w h i c hp r o v e st h ea l g o r i t h m s f e a s i b i l i t ya n dv a l i d i t y a tl a s t ,t h ep a p e ri n t r o d u c e sc o r r e l a t i v ec o n c e p t so fc u s t o m e r s e g m e n t a t i o n ,e x p a t i a t e st h ed e s i g na n dr e a l i z a t i o no fc u s t o m e rs e g m e n t a t i o ns y s t e m b a s e do nc l u s t e r i n gt e c h n o l o g y d u oc h u n h o n g ( c o m p u t e ra p p l i c a t i o nt e c h n o l o g y ) d i r e c t e db yp r o f w a n gc u i r u k e y w o r d s :d a t am i n i n g ,c l u s t e r i n gt e c h n o l o g y ,k - m e a n s ,d b s c a n ,c u s t o m e r s e g m e n t a t i o n 声明尸明 本人郑重声明:此处所提交的硕士学位论文聚类分析在客户细分领域中的研究与 应用,是本人在华北电力大学攻读硕士学位期间,在导师指导下进行的研究工作和取 得的研究成果。据本人所知,除了文中特别加以标注和致谢之处外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得华北电力大学或其他教育机构的学位 或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 学位论文作者签名:一魅丝 e l期:丝丝! 垒:! 关于学位论文使用授权的说明 本人完全了解华北电力大学有关保留、使用学位论文的规定,即:学校有权保管、 并向有关部门送交学位论文的原件与复印件:学校可以采用影印、缩印或其它复制手 段复制并保存学位论文:学校可允许学位论文被查阅或借阅:学校可以学术交流为 目的,复制赠送和交换学位论文;同意学校可以用不同方式在不同媒体上发表、传播学 位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 作者签名: 犀鑫丝 导师签名: 华北电力大学硕士学位论文 1 1 选题背景 第一章引言 随着计算机、网络和通讯等信息技术的高速发展,信息处理迅速产业化。先前 的数据库系统虽然能高效地实现数据的录入、查询、统计等功能,但无法准确发现 数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。近些年来, 商务贸易电子化、企业和政府事务电子化的迅速普及都产生了大规模的数据源,同 时日益增长的科学计算和大规模的工业生产过程也提供了海量数据。由于数据量的 不断扩张,现今数据库系统已经从原始的数据收集、存储以及对联机事务处理的支 持转向了大规模数据重组、联机分析处理、数据仓库以及与此相关的数据库中知识 发现、数据挖掘等等更深层次利用数据的阶段【l j 。存储数据的爆炸性增长已激起对 新技术和智能工具的需求。因此,面对“被数据淹没,却饥饿于知识的挑战,数 据挖掘技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。它的出现 为自动和智能地把海量的数据转化成有用的信息和知识提供了有效的手段。 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐 含在其中的、人们事先不知道的、但是潜在有用的信息和知识的过程【2 j 。它是一门 广义的交叉学科,涉及人工智能技术,统计技术与数据库技术等多种技术,汇聚了 不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方 面的学者和工程技术人员。数据挖掘可以从海量数据中发现有用信息并抽取出人们 关心的模式,找出数据变化的规律和数据之间的相互依存关系,使人们能够从宏观 高层次的角度来审视数据,充分发掘数据的潜藏价值,指导人们的行为,为决策和 科学发现提供有力的支持。数据挖掘能够帮助企业确定客户的特点,从而可以为客 户提供有针对性的服务,其在c r m 方面有着广泛的应用,如客户细分、客户获得、 客户保持、客户服务等。 聚类分析是数据挖掘中的一个重要研究方向。聚类是指将物理或抽象对象的集 合分组,成为由类似的对象组成的多个类的过程。通过聚类,人们能够识别密集的 和稀疏的区域,因而发现全局的分布模式。因为目前的许多领域活动中,多数情况 是无先验规律和程式的,数据划分的类是未知的,无成功模式可供提取和套用,因 而聚类分析就拥有了广阔的市场,包括模式识别、数据分析、图像处理以及市场研 究等。迄今为止,人们提出了很多聚类算法,例如划分的方法、层次的方法、基于 密度的方法、基于网格的方法和基于模型的方法 3 4 】。不同的算法有着不同的应用背 景,有的适用于大数据集,可以发现任意形状的聚类;有的算法思想简单,适用于 小数据集。总的说来,算法都试图从不同的途径对数据集进行高效、可靠的聚类。 l 华北电力大学硕士学位论文 鉴于聚类算法具有上述特点,商业上常常采用这种技术进行市场细分、客户细分等。 聚类技术很早就被广泛地应用于动植物的分类、基因的分类、岩石的分类等领域, 应用于商业研究还是一个比较新的领域。企业通过采用聚类算法来细分客户,得到 具有不同特征的客户群,从而帮助营销人员制定出针对客户的营销策略,提高客户 的价值贡献。 网络的兴起和迅速发展、市场的不断成熟,将世界经济推进到了电子商务时代。 与此同时,企业的产品、质量和服务的差异越来越小,客户更加挑剔,市场竞争更 加激烈,以生产为中心、以销售为目的的市场战略逐渐被以客户为中心、以服务为 目的的市场战略所取代。据c u s t o m e rr e t e n t i o np r a c t i c en e wl e t t e r 报道:典型的企 业中有8 0 的利润是由2 0 的顾客所创造的。为了进行有效的竞争,企业必须进行 客户细分,选择最有利可图的目标客户群体,集中企业资源,制定有效的竞争策略, 增强自身的优势。 客户细分是企业在收集和整理客户信息资料的基础上,依据客户的需求特点、 购买行为、购买习惯、信誉状况等方面的明显差异,把客户整体划分成为若干个客 户群的客户分类过程。这样每一细分客户群都是由在某一方面具有类似特点的客户 构成的群体,分属不同细分客户群的客户具有明显的差异性【6 刁j 。客户细分是分门别 类研究客户、进行有效客户评估、合理分配服务资源、成功实施客户策略的基本原 则之一,它能为企业充分获取客户价值、制定营销策略提供理论和方法指导。经过 若干年的发展,客户细分已经从基于客户消费额度的细分方法,演进到基于客户购 买行为的细分方法。客户细分的理论和方法不断完善,而且被广泛地应用于营销实 践,客户细分已成为客户关系管理的重要手段。企业在多年的经营中已经积累了大 量宝贵的历史数据,而在这大量数据内所包含的隐式模式和知识也是不可估量的, 传统的客户细分已经很难适应现今客户分析的要求。人们迫切希望具有智能分析功 能的、更高性能的客户细分系统实现。 基于聚类技术的客户细分系统是利用聚类技术发现隐藏在客户数据库中的潜 在知识,将客户分成若干个具有相似特征的客户群,并对客户群进行有效地客户价 值评估的系统。基于聚类技术的客户细分可以有效地解决多种市场问题,实现高效 的、差异化的精确营销,在银行业、电信业、证券业、制造业、零售业等有广泛的 应用价值和商业前景。 2 华北电力火学硕十学位论文 1 2 课题在国内外研究的现状 1 2 1 聚类算法研究现状 聚类是在预先不知道目标数据库到底有多少类的情况下,希望将所有记录组成 不同的聚类,使得在这种分类情况下,以某种度量为标准的相似性在同一聚类之间 最小,而在不同聚类之间最大。 大体上聚类分析的方法有以下几类: ( 1 ) 划分法,如k m e a l l s 算法、p a m 、c l a r a 、c l a r a n s 等; ( 2 ) 层次法,如b i r c h 、c u r e 、r o c k 、c h a m e l e o n 等; ( 3 ) 基于密度的方法,如d b s c a n 、o p t i c s 、d e n c l u e 等: ( 4 ) 基于网格的方法,如s t i n g 、w a v e c l u s t e r 等: ( 5 ) 基于模型的方法,如c o b w e b 等; 本文主要涉及了k m e a n s 算法和d b s c a n 算法,下面详细介绍这两种算法的 研究现状。 k m e a l l s 算法是一种典型的基于划分的聚类分析算法。该算法的主要优点是算 法简单、快速而且能有效地处理大数据库。然而这种算法对于不同的初始值可能会 导致不同的聚类结果。其次,这种算法采用了所谓爬山式技术来寻找最优解,因此 易陷入局部极小值。这两大缺陷较大地限制了它的应用范围。针对k m e a n s 算法对 初始聚类中心选择的依赖性,众多研究者提出了种种解决方法:( 1 ) 把全部混合样本 直观地分成k 类,计算各类均值作为初始聚类中心;( 2 ) 通过“密度法”选择代表点 作为初始聚类中心:( 3 ) 由( k 1 ) 类聚类问题解出k 类问题的代表点;( 4 ) 按最大最小 聚类法中寻找聚类中心的方法确定初始聚类中心;( 5 ) 进行多次初值选择、聚类,找 出一组最优的聚类结果;( 6 ) 采用遗传算法或者免疫规划方法进行混合聚类。文献【8 】 介绍了数据挖掘领域中对聚类分析的典型要求,研究分析了聚类的主要算法及其改 进方法和特点,并对其改进的各种方法进行了对比,讨论了数据挖掘领域中的聚类 质量,指出了聚类分析的发展趋势。文献【9 】对用于聚类中心初始化的势函数的几个 参数选择问题进行了讨论,给出了这些参数的两种形式。同时,提出了一种新的使 用密度函数法进行聚类中心初始化的方法。密度函数初始化方法与势函数算法相 比,在初始化性能相当的情况下,其运算量大大减少。文献【1 0 】以k 均值算子代替 交叉算子,设计出了一种混合遗传算法,又根据g u n t e r 引入的有限状态齐次马尔可 夫链方法证明了该算法是以概率为l 收敛于全局最优解。文献【1 1 】为了提高收敛速 华北电力大学硕士学位论文 度,减少早熟现象,采用遗传搜索与k 均值局部优化相结合的混合遗传算法,并结 合聚类问题的实际问题,设计了一种有效的基于最近基因匹配的交叉算子,使得交 叉过程能不断产生有意义的新个体,保证了群体的多样性,在一定程度上减小了早 熟现象的发生。文献【1 2 】给出了一种基于遗传算法的聚类分析方法。采用二进制编 码方式对聚类中心进行了编码,并用特征向量与相应聚类中心的欧式距离的和来判 断聚类划分的质量,通过选择、交叉和变异操作对聚类中心的编码进行优化,得到 使聚类划分效果更好的聚类中心,该算法所得到的聚类中心明显优于传统的 k m c a i l $ 算法。文献【1 3 】对基于自适应遗传算法进行聚类分析的基本原理和实现方 法进行了研究。 d b s c a n 算法是基于密度的聚类分析算法,针对d b s c a n 算法的改进主要希 望能够解决的问题如下:当待聚类的数据集较大时,算法对主存的需求较高,1 1 0 消耗较大;算法对参数m i n p t s 和e p s 的依赖性;当数据分布不均匀时,全局变量的 使用对聚类质量的影响。文献 1 4 】针对d b s c a n 算法在处理大规模数据库时的内存 和i o 瓶颈,提出了一种基于数据抽样的d b s c a n 算法。该算法利用数据抽样来扩 展d b s c a n 算法,使之能够有效地对大规模数据库进行聚类分析。其中,采用了 一种快速的聚类标注方法,使得对抽样数据的聚类计算和对未被抽样数据的聚类标 注能够快速同步地进行,从而较大幅度地提高整个聚类过程的速度和效率。文献【l5 】 中提出了一种基于数据分区的d b s c a n 算法。文献【1 6 】针对d b s c a n 算法对参数 敏感的问题,提出了一种改进的算法d b s c a n c c ( d b s c a nw i t h c l u s t e r c o n n e c t i o n ) ,纠正了由于输入参数e p s 选择不当造成的聚类结果不佳的问题,从而 屏蔽了算法对输入参数的敏感性。文献【1 7 】提出了基于数据交叠分区的并行 d b s c a n 算法。 1 2 2 聚类算法在客户细分领域中的研究现状 目前的客户细分方法有以下四种: ( 1 ) 基于客户消费额度的细分方法 依据客户消费额度的不同将客户划分为高、中、低端客户,这种细分方法是使 用比较普遍的客户细分方法。 ( 2 )基于统计的简单多维度细分方法 基于统计的客户细分方法是通过一个或几个变量将客户群体分为不同的组, 的意义在于通过对客户群体不同侧面的了解来对客户群体做一些基本的认识。 ( 3 ) 基于客户社会属性的细分方法 4 华北电力大学硕士学位论文 这种细分方法着眼于更广泛的消费者属性研究,通过研究消费者的生活习惯、 价值观、心理特点、文化程度等特征来对客户群体进行细分,并塑造不同的品牌应 对不同的客户群体,通过品牌竞争来超越价格竞争。这种分类方法往往是描述性的、 非定量化的。 ( 4 ) 基于行为的客户细分方法 这种细分方法首先产生几十个整体描述客户的变量,然后将客户群体通过聚类 算法分成几个或十几个客户组。组内客户具有较高的相似性,组间客户具有较低的 相似性。组的个数非人为决定,而取决于客户内在特性。 目前来说,基于客户社会属性的细分方法和基于行为的客户细分方法性能较好 且应用成熟。基于数据挖掘的客户细分具有许多传统的客户细分方法所没有的优 点:( 1 ) 能够客观反映客户群体内在的特性;( 2 ) 综合反映对客户多方面特征的认 识;( 3 ) 利于营销人员更加深入细致地了解客户价值;( 4 ) 营销实践上易于操作; ( 5 ) 便于实现对客户的动态跟踪。通过基于客户行为的细分,企业领导层可以更 加深入细致地了解客户的行为特征和价值组成,从而制定出更加有效的营销战略及 营销战术。 由于客户关系管理在国外已经发展了一段时间,因此已经有一些聚类分析算法 应用于客户细分的探索和实践,比如采用p m e d i a n 聚类算法对购物商场的客户进行 细分;采用k m e a n s ,s o m ,f u z z yk m e a n s 聚类算法对股票交易客户进行细分;运 用模糊聚类算法对在线音乐用户进行细分;n a t t e r 提出了应用聚类和分割判别式的 人工神经网络方法,并使用该方法测量了人e l 统计学因素之间的相互关系【l8 】:c h o u 等使用人口统计学因素识别预期客户,提供了一种直观的目标市场选择方法i i9 】:k u o 等提出了自组织特征映射和k m e a n s 组成的两阶段方法,其中使用自组织特征映射 选取k 个中心点,然后使用k m e a n s 进行聚类1 2 0 j ;c y t s a i 提出了基于k m e a n s 算法的客户行为细分模型【2 1 1 ,他采用了遗传算法对k m e a n s 的初始点选择进行了改 进:闰相斌等提出了基于遗传算法的客户行为细分模型【2 2 。等。 国内也有人提出采用聚类分析方法来分析,预测客户行为。比如湖南移动通信 采用s p s s 统计软件提供的k m e a n s 算法对客户进行细分以辅助营销决策;另外还 有一些将k 均值聚类,系统聚类法,减法聚类法,模糊c 均值聚类算法应用于银行 客户细分的实验等。 1 3 本文的主要研究内容 本课题主要研究聚类技术及其在客户细分领域中的应用,本文将从以下几方面 展开研究: 华北电力人学硕士! 学位论文 ( 1 )研究分析了当前聚类技术和客户细分的现状,进而提出了本文的研究课 题。 ( 2 )简单介绍了数据挖掘的相关概念,包括数据挖掘的产生背景,数据挖掘 的定义,数据挖掘的过程、分类、功能和主要应用领域。 ( 3 )详细介绍了基于划分的k - m e a n s 聚类算法。该算法需要不断地进行样本 分类调整,不断地计算调整后的新的聚类中心,因此当数据量非常大时,算法的时 间开销是非常大的。所以需要对算法的时间复杂度进行分析、改进,提高算法应用 范围。本文使用的k - m e a n s 算法是对抽样数据进行聚类,无论是初始点的选择还 是一次迭代完成时对数据的调整,都是建立在随机选取的样本数据的基础之上,这 样可以提高算法的收敛速度。 ( 4 ) 详细介绍了基于密度的d b s c a n 聚类算法。该算法直接对整个数据集进行 操作,当数据量较大时,对主存要求较高。若将待处理数据按照一定的规则进行划 分,就可以降低算法对内存的要求和i o 消耗。通过划分数据,将大数据集划分 为多个小数据集,可以减少时间消耗。在整个的数据集中,数据分布可能是不均匀 的,而根据一定规则划分得到的多个局部小数据集,其数据量远小于原始的未划分 的数据集,然后根据各个局部数据集的情况,选择该局部数据集的参数值,这可以 使得到的聚类结果更好。但是对数据集的划分,可能将大的聚类划分到两个不同的 局部数据集中,也可能将本应属于某个类的点划分到其他的局部数据集中,从而使 得该点成为孤立点,故应该对局部数据集的聚类结果进行处理,消除划分数据集对 聚类结果的影响。 ( 5 ) 给出了改进的聚类算法d b s k 算法。该算法首先采用抽样技术优化k - m e a n s 算法并划分数据集;然后根据每个数据集的情况,分别选取每个局部数据集的 m i n p t s ;并进行d b s c a n 聚类;最后合并各个局部数据集的聚类结果,得到整个数据 集的聚类结果。仿真实验证明了改进算法在聚类质量上优于d b s c a n 算法。对三种 算法的时间复杂度进行了分析比较,当数据量很大时,综合考虑三种算法的聚类质 量和运行时间,改进的算法是最好的选择。 ( 6 ) 简单介绍了客户细分的理论依据,客户细分的概念,客户细分的基本要 求和客户细分的两种方法:基于价值的客户细分和基于行为的客户细分。 ( 7 )详细介绍了建立客户细分系统的过程。数掘获取层将企业内部数据库和 其它外部来源数据进行抽取、清洗、转换,并加载到数据仓库;数据存储层实现对 数据仓库中数据和元数据的集中存储和管理,并可根据需要建立面向部门和主题的 数据集市:数据应用层实现对数据仓库中数据的分析和处理,进行数据挖掘,分析 客户价值,建立客户细分模型,形成市场经营和决策工作所需要的科学、准确、及 6 华北电力大学硕+ 学位论文 时的业务信息和知识。 ( 8 ) 应用聚类算法进行客户细分。该实验采用一组零售业中的数据,通过对 数据集中的数据进行汇总和预处理,得到样本数据,实验结果证明了本文给出的改 进算法在聚类质量上优于d b s c a n 算法和k - m e a n s 算法。 ( 9 ) 对所研究的问题进行总结和分析,在此基础上,给出了进一步研究的方 向。 1 4 小结 本章首先介绍了数据挖掘、聚类分析和客户细分的相关概念;然后分析了聚类 算法的研究现状以及聚类算法在客户细分领域的应用,提出了本文的研究课题:最 后阐述了本文的主要工作。 华北电力大学硕十学位论文 第二章数据挖掘技术 2 1 数据挖掘的基本概念 随着信息技术的高速发展,各种形式的数据库中的数据呈海量急剧增长,在这 些海量的数据中隐藏着大量的、有用的知识,而只靠人工阅读或简单的数据检索, 远不能够及时提取出那些不同层次的知识,由此数据的生成和理解之间出现了越来 越大的差距。这不仅造成了信息的浪费,而且在商业上和科学研究中很可能因此错 失良机,造成经济损失。为了避免这种情况,减少损失,必须要有一种能分析大量 数据的新型的数据分析技术,数据挖掘正是这样一种技术,它使得海量的数据被自 动地和智能地转化为有用的信息和知识成为可能。 数据挖掘是信息技术自然演化的结果。在2 0 世纪6 0 年代,数据收集和数据 库创建早期阶段,可以提供数据存储、查询检索和简单的事务处理。到7 0 年代, 数据库系统的研究和发展从层次和网状系统发展到关系数据库系统,用户可以通过 查询语言、用户界面、优化的查询处理和事务处理,方便、灵活地访问数据,这时 的联机事务处理对大量数据的有效存储、检索和管理做出了巨大的贡献。8 0 年代 中期,出现了数据仓库,这是一种多个异种数据源在单个站点以统一的模式组织存 储,可以支持管理决策。包括数据清理、数据集成和联机分析处理( o l a p ) 。o l a p 具有汇总、合并和聚集的功能,并可以从不同的角度观察信息。8 0 年代末9 0 年 代初,产生了数据库中的知识发现,而数据挖掘是它其中的一个基本步骤。但习惯 上人们采用数据挖掘的广义概念,用其来代替数据库中知识发现这个长的术语【2 3 1 。 数据挖掘( d m ,d a t am i n i n g ) 是指从数据库的大量数据中提取隐含的、先前未 知的并有潜在价值的信息和知识的过程1 2 训。数据挖掘的定义有很多,表达方式虽然 不同,但本质都是一样的。从技术角度看,数据挖掘是从大量的、不完全的、有噪 声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、但是潜在 有用的信息和知识的过程。从商业应用角度看,数据挖掘是一种崭新的商业信息处 理技术。其主要特点是对商业数据库中大量业务数据进行抽取、转化、分析和模式 化处理,从中提取辅助商业决策的关键知识,即从一个数据库中自动发现相关商业 模式。数据挖掘与传统的数据分析( 如查询、报表、联机分析) 的本质区别是数据挖 掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具 有先前未知、有效和实用三个特征。先日,j 未知的信息是指该信息是预先未曾预料到 的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信 息或知识,挖掘出的信息越是出乎意料,就可能越有价值。在商业应用中最典型的 例子就是一家连锁店通过数据挖掘发现了小孩尿御和啤酒之间有着惊人的联系。 8 华北电力人学硕士学位论文 数据挖掘是利用统计学和机器学习的技术,探求那些符合市场、客户行为的模 式。目前,数据挖掘已经可使挖掘技术自动化,将数据挖掘和商业数据仓库相结合, 以适当的形式将挖掘结果展示给企业经营管理人员。 2 2 数据挖掘的过程 数据挖掘是一个完整的过程,该过程从大型数据库或数据仓库中挖掘先前未知的、 有效的、可实用的信息,并使用这些信息做出决策或丰富知识。数据挖掘的过程可以分 为三个主要阶段:数据准备,数据挖掘以及结果表达和理解【2 钔,如图2 1 所示。 图2 - 1 数据挖掘过程 数据准备阶段包括 ( 1 ) 数据集成:将多文件或多数据库运行环境中的数据进行合并处理,解决语义 模糊性,处理数据中的遗漏和清洗脏数据等。 ( 2 )数据选择:为知识发现的目标搜索和选择有关的数据,这包括不同模式 数据的转换和数据的统一和汇总。数据选择的目的是辨别出需要分析的数据集合, 缩小处理范围,提高数据挖掘的质量。 ( 3 ) 数据预处理:对数据进行清理和充实等预处理工作。也包括对数据编码, 数据库中字段的不同取值转换成数码形式将有利于搜索。 数据挖掘阶段进行实际的挖掘操作,利用机器学习、统计分析等方法,从数据 库中发现有用的模式或知识。 结果的表达与转换根据最终用户的决策目的对提取的信息进行分析,把最有价 值的信息区分出来,并且通过决策支持工具提交给决策者。这一步骤的任务不仅是 把结果表达出来,还要对信息进行过滤处理。如果不能令决策者满意,需要重复以 上数据挖掘的过程。 9 华北电力大学硕士学位论文 2 3 数据挖掘的分类 常用的数据挖掘技术可以分成统计分析类、知识发现类、和其他类型的数据 挖掘技术三大类【2 6 - 2 7 1 。 ( 1 ) 统计分析类 统计是数据搜集和描述数学的一个分支。统计推断分析一般借助统计数学模型 完成,它用已有信息推断未知信息的工作过程,如用过去的资料来推测未来,利用 局部资料推断总体等等。统计分析工具可以用于一系列的商业活动,例如使用统计 工具进行数据分析,以寻求最佳机会,增加市场份额和利润等。统计类数据挖掘技 术已经成为目前最成熟的数据挖掘技术。其中有: 数据的聚集与度量技术 该技术需要用到数据库中常用的聚集函数。例如:c o u n t ( ) ,s u n ( ) ,a v g ( ) , m a x ( ) 等。 柱状图数据挖掘技术 该技术能直观的显示该数据库中的一些重要信息。 线性回归数据挖掘技术 回归是研究自变量与因变量之间关系的分析方法,其目的在于根据已知自变量 来估计和预测因变量的总平均值。 非线性回归数据挖掘技术 当判定变量间的关系大致是一条直线反映其变动关系时,可以拟合一条直线反 映其变动关系。然而在很多情况下,变量间的关系呈曲线形式,即非线性的,这时 就拟合一条曲线来反映变量间的关系。非线性回归有多种模型:双曲线模型、二次 曲线模型、对数模型、三角函数模型等。 聚类数据挖掘技术 该技术是将数据对象分组为多个类或簇的数据挖掘技术,是本文的研究重点, 后面章节将作详细介绍。 最近邻数据挖掘技术 用该方法进行预测的基本概念是相互之间接近的对象具有相似的预测值,如果 知道其中一个对象的预测值后,可以预测其最近的邻居对象。 ( 2 ) 知识发现类 1 0 华北电力入学硕士学位论文 知识发现类数据挖掘技术可以从数据仓库的大量数据中筛选信息,寻找市场可 能出现的运营模式,发掘人们所不知道的事实。知识发现是用一种间接的方式从数 据中抽取信息的一种技术,而这些信息是隐含的、未知的,并且具有潜在应用价值。 知识发现是一种有价值信息的搜寻过程,它不必预先假设或提出问题,但仍能找到 那些非预期的令人关注的信息,这些信息表示数据元素之间的关系和模式,它也能 通过完整的、全面的信息发现和数据分析,找到有价值的商业规则。其中可分为: 关联规则型知识挖掘技术 这种技术是数据挖掘的一种主要形式,而且是无教师学习中最普遍的知识发现 形式。它也是与大多数人想象的数据挖掘过程最为相似的一种数据挖掘形式,即在 大型数据仓库中发掘出一些原先不知道,或者不能明确表达出来的有关数据库的信 息。 神经网络型知识挖掘技术 这种技术主要由“神经元 的互联,或按层组织的节点构成。通常,神经网络 模型由三个层次组成:输入层,中间层和输出层。在每个神经元求得输入值后,再 汇总计算总输入值;由过滤机制比较输入值,确定网络的输出值。 遗传算法型知识挖掘技术 遗传算法是模拟生物进化过程的计算模型,是自然遗传学与计算机科学相互结 合渗透的计算方法。遗传分析应用搜索技术,先找出两个合适的父样本,通过交叉、 变异等带有生物遗传特点的操作产生下一代样本,对子样本反复进行交叉、变异操 作直到子样本收敛为止,再找另外两个合适的父样本重复上述过程,就能得到下一 代的样本集,由此得到当前样本集较为可能的发展方向。 粗糙集型知识挖掘技术 粗糙集是波兰学者p a w l a kz 在1 9 8 2 年提出的,这是一种研究不确定性问题 的数学工具。它作为集合论的扩展,主要用于研究不完全和不完整信息描述的数据 挖掘技术。它能够在缺少关于数据先验知识的情况下,以考察数据的分类能力为基 础,解决模糊或不确定数据的分析和处理。 ( 3 ) 其他数据挖掘技术 其他数据挖掘技术中包含文本数据挖掘、w e b 数据挖掘、分类系统、可视化系 统、空间数据挖掘和分布式数据挖掘等。 华北电力大学硕士学位论文 2 4 数据挖掘的功能 数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖掘 的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能。 ( 1 )自动预测趋势和行为 数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的 问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数 据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的 问题包括预报破产以及认定对指定事件最可能做出反应的群体。 ( 2 ) 关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的 取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关 联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的 关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。 ( 3 )聚类 数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对 客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模 式识别方法和数学分类学。8 0 年代初,m c h a l s k i 提出了概念聚类技术,其要点是, 在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从 而避免了传统技术的某些片面性。本文用到的数据挖掘技术就是聚类。 ( 4 ) 概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念 描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同 类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。 生成区别性描述的方法很多,如决策树方法、遗传算法等。 ( 5 ) 偏差检测 偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结 果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测 结果与参照值之间有意义的差别。 1 2 华北电力大学硕士学位论文 2 5 数据挖掘的主要应用领域 随着数据挖掘研究的不断深入,数据挖掘技术己逐渐成熟,它的应用也越来越 广泛【2 们。 ( 1 )针对生物医学和数据分析的数据挖掘 对于人类基因及其排序模式的海量数据,数据挖掘中的序列模式分析和相似性 检索技术成为基因分析的有用工具,并在以下方面起着重要作用:异构、分布式基 因数据库的语义集成;基因序列间相似搜索和比较;关联分析;路径分析;可视化 工具和遗传数据分析等。 ( 2 )针对金融数据分析的数据挖掘 由于金融行业的高风险,在已有数据上的全面的分析就成为监测、预测和进一 步决策的前提。银行和金融机构中产生的金融数据通常相对比较完整可靠,方便系 统化的数据分析和数据挖掘。数据挖掘在金融业的应用具体包括以下方面:多维数 据分析和数据挖掘;设计和构造数据仓库;客户信用:预测目标市场;客户的分类 与聚类以及金融犯罪的监测等。 ( 3 ) 零售业中的数据挖掘 零售业的数据挖掘有助于识别客户的购买行为,能够发现顾客购买模式和趋 势,改进服务质量,取得更好的顾客保持力和满意度,提高货品销量比率,设计更 好的货品运输与分销策略,减少商业成本等。例如设计和构造数据仓库;对顾客、 产品、时间和地区的多维分析;促销活动的有效性分析;忠诚度分析以及购买推荐 和商品参照等。 ( 4 ) 电信业中的数据挖掘 电信、计算机网络、因特网和各种其它方式的通信和计算的融合是目前的大势 所趋。随着业务量的不断增长,数据挖掘技术被用来帮助理解商业行为、确定服务 模式、捕捉网络异常,以便更好的利用资源,提高服务质量。典型的应用有数据的 多维分析;用户模式分析;识别网络异常监测;多维关联和序列模式分析等。 2 6 小结 本章主要介绍了数据挖掘的相关技术,首先介绍了数据挖掘的产生背景和定义; 然后介绍了数据挖掘的过程、分类和功能;最后介绍了数据挖掘的主要应用领域。 华北电力人学硕士学位论文 3 1 聚类概述 第三章数据挖掘中的聚类算法分析 3 1 1 聚类分析的基本概念 将物理或抽象对象的集合分组成为类似的对象组成的多个类的过程称为聚类 3 0 - 3 1 l 。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼 此相似,与其它簇中的对象相异。在许多应用中,可以将一个簇中的数据对象作为 一个整体来对待。聚类也可起到分类的作用,但聚类和分类有着十分重要的区别。 在分类中,目标数据库中存在的那些类是知道的,要做的就是将每一条记录分别属 于那一类标记出来;在聚类中,预先不知道目标数据库中到底有多少类,需要将所 有的记录组成不同的类,从数据库中找出相似的数据并出成不同的组,如果以某种 度量为标准,满足同一聚类之家最小化,不同聚类之间最大化【3 2 羽】。在聚类过程中, 由于没有明显的目标变量作为数据的属性存在,所以聚类算法需要通过检测数据判 断“隐藏属性”,将数据库分成若干相似的组,每组包含若干相似的记录,得到可 供决策者使用的规则或知识。 聚类应用中一般要考虑以下主要问题: ( 1 ) 算法的效率 由于现在数据库的数量和单个数据库的规模都大大增加了,如何对以惊人速度 增长的数据量进行聚类,如何提高算法的执行效率是许多算法需要解决的问题。 ( 2 ) 初值的选择 初值的选择对聚类算法的最终结果有很大的影响。 ( 3 )输入顺序 许多算法对数据的输入顺序非常敏感。 ( 4 ) 最优解问题 聚类问题本质是一个优化问题,是通过一种迭代运算使得系统的目标函数达到 一个极小值,算法优化的目标是达到全局最优而非局部最优。 ( 5 ) 算法对输入参数的依赖 许多聚类算法在进行聚类前都需要人工指定一些参数,这些参数很多时候需要 指定者具有专业的先验知识,一旦参数选取的不合理,就会误导聚类过程,影响聚 1 4 华北电力人学硕士学位论文 类质量。 3 1 2 对聚类算法的要求 聚类分析作为数据挖掘的一种方法,已经成为数据挖掘研究领域中一个非常活 跃的研究课题,其研究领域还有统计学、机器学习、空间数据库技术、生物学等。 聚类的潜在应用对聚类算法提出了各种特殊的要求3 5 】: ( 1 )可伸缩性 聚

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论