硕士论文-基于聚类技术的客户细分研究与应用.pdf

上传人：努*** IP属地：江西上传时间：2020-03-01 格式：PDF 页数：68 大小：3.58MB 积分：0 举报 版权申诉

已阅读5页，还剩63页未读，继续免费阅读

硕士论文-基于聚类技术的客户细分研究与应用.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

南京邮电大学硕士学位论文摘要学科专业管理学管理科学与工程研究方向企业集成管理与企业信息化酗4 1 1 9 3 9 作者二堕级研究生毛晓晨指导教师塑塞麴题目基于聚类技术的客户细分研究与应用英文题目 C u s t o m e rS e g m e n t a t i o nb a s e do nC l u s t e r i n gT e c h n i q u e s R e s e a r c h A p p l i c a t i o n 主题词聚类分析K 均值二分K 均值 W a r d 氏聚类客户细分移动通信市场 K e y w o r t l s C l u s t e r i n gA n a l y s i s K M e a n s B i s e c t i n gK M e a l l s W a r d sC l u s t e r i n gC u s t o m e rS e g m e n t a t i o n M o b i l eC o m m u n i c a t i o nM a r k e t 南京邮电大学硕士研究生论文摘要摘要近年来随着手机终端价格和移动通信业务资费的大幅降低我国移动通信客户数持续高速增长至2 0 0 6 年底移动电话客户规模达到4 6 亿与此同时随着通信技术的日新月异客户对移动通信产品的消费需求也愈趋复杂多样显然面对规模庞大的移动通信客户群体以及巨大的消费需求差别传统基于人口统计数据的客户细分方法已经难以深入了解客户需求和有效识别高价值的客户而基于聚类技术的客户细分是通过对蕴含客户消费行为模式的运营数据进行多维分析可以深入刻画客户消费特征清晰显示客户消费的差别该细分方法已经引起市场研究人员的广为认同在大量有关基于聚类技术的客户细分的论文中 K 均值算法由于原理简单具有可伸缩性应用最为普遍然而传统K 均值算法存在一些缺陷主要是需人为指定聚类个数距离度量测度单一和聚类结果易受初始质心的影响等缺陷这些缺陷严重影响了算法的实际使用效果基于此本文首先对K 均值聚类算法进行了研究以K 均值算法的三个缺陷为切入点尝试做相应的改进具体包括尝试利用W a r d 氏层次聚类算法确定簇个数的方法以及基于四分位相对离差系数的加权方法提高聚类质量在前人研究初始质心思路的基础上设计实现了二分K 均值降低聚类结果易受初始质心的影响并通过实验数据验证改进效果在改进方法的基础上提出了一套完整的聚类分析方法流程B K W W B i s e c t i n gK 玉 l e a n s b a s e dO nW e i g h ta n dW a r d s 然后本文以移动通信行业为背景收集了江西某地移动公司的客户资料和消费数据应用B K W W 聚类方法分别对在网和离网客户进行了细分并将聚类细分结果与传统K 均值聚类结果通过凝聚分离系数进行了效果比较结果表明 B K W W 聚类方法有效地提高了聚类效果南京邮电大学硕士研究生学位论文 A b s t r a c t W i t ht h ep r i c eo fm o b i l ep h o n et e r m i n a l sa n dm o b i l eb u s i n e s sl a r g e l yr e d u c e d t h en u m b e r o fm o b i l ep h o n ec u s t o m e r sh a sg r o w na th i g hs p e e df o rt h ep a s tt w oy e a r s T h en u m b e ro fm o b i l e p h o n ec u s t o m e r sh a ss c a l e dt O4 6 0m i l l i o na tt h ee n do f2 0 0 6 M e a n w h i l e W i t l lt h er a p i d d e v e l o p m e n to fc o m m u n i c a t i o nt e c h n o l o g y c u s t o m e rd e m a n d so fm o b i l ec o m m u n i c a t i o n p r o d u c t sa r eb e c o m i n gm o r ec o m p l e xa n dd i v e r s e F a c e dw i t hal a r g eg r o u po fc u s t o m e r sa n d h u g ed i f f e r e n c e si nc u s t o m e rd e m a n d s c e n s u sd a t as e g m e n t a t i o nm e t h o di sd i f f i c u l tt Oo b t a i n g o o dr e s u l t s T h es e g m e n t a t i o ns t i l lr e m a i n st h el e v e lo fr o u g hs e g m e n t a t i o n C u s t o m e rs e g m e n t a t i o n w i t hc l u s t e r i n gt e c h n i q u e sa u t o m a t i c a l l yc o n d u c t sm u l t i d i m e n s i n a la n a l y s i sa b o u tc u s t o m e r s d a t at o o b t a i nt h ec u s t o m e rb e h a v i o rp a R e r n I tc o n t r i b u t e st Oc h a r a c t e r i z i n gc u s t o m e rb e h a v i o ra n d u n d e r s t a n d sc u s t o m e rd e m a n d S oc u s t o m e rs e g m e n t a t i o nw i t hc l u s t e r i n gt e c h n i q u eh a sb e e n w i d e l yr e c o g n i z e db ym a r k e t i n gr e s e a r c h e r s K M e a r l sa l g o r i t h mi sac l a s s i ca l g o r i t h m T h ep r i n c i p l ei ss i m p l ea n ds a c a l e d S oK J V l e a n s h a su n i v e r s a la p p l i c a t i o n N e v e r t h e l e s s K J V I e a n sh a st h r e ed e f e c t s i n c l u d i n gs u b j e c t i v e d e t e r m i n a t i o no fc l u s t e r Sn u m b e r s i n g l ea t t r i b u t er o l e a n dc l u s t e rg r e a t l ya f f e c t e db yi n i t i a l c e n 仃o i d s T h i sp a p e ra t t e m p t st oi m p r o v et h ed e f e c t s T h ei m p r o v e m e n t si n c l u d ea p p l y i n gW a r d S h i e r a r c h i c a lc l u s t e r i n gi n t od e t e r m i n i n gt h en u m b e ro fc l u s t e r w e i g h t e da t t r i b u t e si m p r o v et h e q u a l i t yo fc l u s t e r a n db i s e c t i n gK M e a n sa l g o r i t h mr e d u c e st h ee f f e c to fi n i t i a lc e n t r o i d s T h i s p a p e rd e v e l o p san e wc l u s t e r i n gt e c h n i q u eb a s e do nt h r e ei m p r o v e m e n t T h et e c h n i q u ei sc a l l e d B i s e c t i n gK l V e a n sb a s e do nW e i g h ta n dW a r d S T h e nt h ep a p e ra p p l i e sB K W Wc l u s t e r i n g t e c h n i q u e i n t o b u i l d i n gm o d e lo fc u s t o m e rs e g m e n t a t i o n 而t h m o b i l ec o m m u n i c a t i o n b a c k g r o u n da n dm a k e st h em a r k e t i n ge x p l a n a t i o na b o u tt h em o d e l T h ep a p e rc o m p a r e sB K W W m o d e l 杭t l lK 1 V l e a n sm o d e lb ye v a l u a t i o nf u n c t i o n Sa p p l i c a t i o n T h ee v a l u a t i o ns h o w st h e B K W Wm e t h o di m p r o v e sK 1 V l e a n sc l u s t e r i n gq u a l i t y I I 南京邮电大学学位论文独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果尽我所知除了文中特别加以标注和致谢的地方外论文中不包含其他人已经发表或撰写过的研究成果也不包含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材料与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意研究生签名缢吼j V 南京邮电大学学位论文使用授权声明南京邮电大学中国科学技术信息研究所国家图书馆有权保留本人所送交学位论文的复印件和电子文档可以采用影印缩印或其他复制手段保存论文本人电子文档的内容和纸质论文的内容相一致除在保密期内的保密论文外允许论文被查阅和借阅可以公布包括刊登论文的全部或部分内容论文的公布包括刊登授权南京邮电大学研究生部办理研究生签名乏磁赫师签名日期以6 矿南京邮电大学硕士学位论文摘要学科专业管理学管理科学与工程研究方向企业集成管理与企业信息化作2 0 0 4 级研究生毛晓晨指导教师郑惠莉题目基于聚类技术的客户细分研究与应用英文题目 C u s t o m e rS e g m e n t a t i o nb a s e do nC l u s t e r i n gT e c h n i q u e s R e s e a r c h A p p l i c a t i o n 主题词聚类分析K 均值二分K 均值W a r d 氏聚类客户细分移动通信市场 K e y w o r d s C l u s t e r i n gA n a l y s i s K M e a n s B i s e c t i n gK M e a n s W a r d SC l u s t e r i n gC u s t o m e rS e g m e n t a t i o n M o b i l eC o m m u n i c a t i o nM a r k e t 南京邮电大学硕士研究生学位论文第一章绪论 1 1 研究背景第一章绪论近年来随着手机终端价格和移动业务资费的大幅降低移动手机客户数持续高速增长至2 0 0 6 年底移动电话客户数规模达到4 6 亿规模庞大的客户群体覆盖了各个年龄段职业种类和收入层次客户背景的巨大差别造成了其需求偏好也存在着巨大差异而这样的差异往往表现在消费行为模式上如果缺少对不同客户的认识和细分采用大一统的营销方式不仅造成了高额的营销成本而且难以收得明显的营销效果客户细分辅助营销的重要性已成为各大运营商的共识当前各大通信运营商运用的客户细分方法以人口统计细分和心理细分为主通常按照客户一维或二维的自然属性进行客户分群来帮助企业识别客户的消费需求合理配置服务资源这种细分依靠人工手段多以一维二维的维度细分粒度较粗划分为同一群体客户的需求往往存在很大偏差进而造成根据细分方法制定的营销方案的效果大打折扣为了以更深入的视角细分客户群相关研究人员尝试基于客户消费行为的细分方法基于客户消费行为的细分方法主要分析反映客户消费行为的数据这些数据多是电信行业各类业务系统 B S S O S S 等积累的事务型数据这些数据规模大维度高传统分析技术面对这些数据已经显得力不从心一而聚类技术对大量运营数据自动化地多维分析发现数据中蕴含的客户消费模式辅助企业制定针对性的营销方案因此基于聚类技术的客户细分的研究日益受到国内研究人员的重视电信行业相关的研究人员纷纷开展基于聚类技术的研究与应用如范英等人采用K J e a i l 算法分析通信客户的消费帐单进行细分 2 l 王军在S P S SC e l e m e n t i n e 的平台上利用T w o S t e p 算法分析客户使用各种通信服务的行为数据p J 在聚类技术中 K 均值算法是聚类算法中的经典算法其原理简单具有可伸缩性在大量有关基于聚类技术的客户细分研究的论文中 K 均值 K M e a n s 算法应用最为普遍但K 均值算法本身具有许多缺点如需要人为指定聚类个数度量测度采用单一的距离公式聚类结果易受初始质心的影响等直接应用K 均值算法进行客户细分会严重影响聚类效果本文的工作正是基于这样一个背景下开展的首先针对细分方法中所用K 均值聚类技 l 南京邮电大学硕士研究生学位论文第一章绪论术的多个不足提出相应的改进方法并验证改进效果在若干个改进方法的基础上提出一个完整的聚类方法B K W W B i s e c t i n gK M e a l l sb a s e d o nW e i g h ta n dW 莉 s 然后以移动通信行业为背景收集江西某地移动公司客户的基本资料消费数据应用聚类方法流程建立在网离网客户细分模型解释细分后客户群体之间的差异并与传统的K 均值聚类模型进行比较 1 2 国内外相关研究与应用现状 1 2 1 客户细分理论研究市场细分是由美国市场营销学家W e n d e l lS m i t h 4 于2 0 世纪5 0 年代中期首次提出来的所谓市场细分是指按照消费者欲望与需求把一个总体市场总体市场通常太大以致企业很难为之服务划分成若干具有共同特征的子市场的过程因此分属于同一细分市场的消费者他们的需要和欲望极为相似分属于不同细分市场的消费者对同一产品的需要和欲望存在着明显的差别自从市场细分的概念被提出以来大量的学者和实践人员加入到有关的研究中来他们依据所处的时代和行业提出相应的市场细分方法这些方法依据两种不同的市场理念产生了两个分支以产品为导向的细分和以客户为导向的细分以产品为导向的细分主要为营销实践人员所采用他们根据不同营销决策目标产品定位定价广告定位等围绕产品或品牌的特定消费情境对客户细分细分变量包括产品使用率消费态度追求的利益目的是要了解消费者对产品或品牌的心理需求和消费行为差异选择最有利的目标客户群以及恰当的营销策略以客户导向的细分主要为营销研究人员所采用他们以顾客总体特征为细分维度对消费者分群运用分析解剖方法论从个体心理社会文化环境和行为决策过程等三个不同侧面对消费者进行细分随着从关注产品到关注客户的理念转换使得后者更具吸引力 5 通常谈到的客户细分概念主要来源于以消费者为导向的市场细分以客户为视角的各种细分方法其基本的维度范围主要包括人口特征行为特征和心理特征具体的说人口特征包含了客户展现出来的外部特征行为因素则表现为客户的具体购买行为心理特征则反映客户行为决策中的兴趣和态度依据维度的不同细分方法分为人口统计细分行为细分和心理细分三类 1 人口统计细分人口统计细分方法的理论以人口特征地理特征与客户需求之间 2 南京邮电大学硕士研究生学位论文第一章绪论具有一定的联系的前提细分方法主要从地理区域人口统计性别年龄职业收入等外部特征对潜在客户细分这种方法的细分粒度较粗并且许多实践表明具有相同人口地理特征的消费群在面对相同的营销时反应不一因此目前人口统计细分方法很少单独使用更多的是跟其他细分方法综合使用 2 心理细分对客户心理细分的研究源于一种假设客户购买决策表现的心理因素决定客户购买行为细分方法根据客户所处的社会阶层生活方式个性特点等心理因素细分客户总体由于客户购买决策表现的心理与客户购买情景相关心理因素易受情景发生变化难以把握因此细分效果往往大打折扣 3 行为细分行为细分的理论假设是根据客户以往和现在的行为可以预测将来的行为细分方法通过统计和r r 工具分析数据库中蕴含已有客户的消费行为模式将客户分类随着信息化不断地深入不少企业积累了大量蕴含客户消费行为模式的数据为客户行为细分提供广阔的平台近些年该领域吸引了越来越多的来自各个背景的研究人员他们结合自己本身的理论背景统计数据挖掘等提出许多定量的行为细分技术主要包括R F M 技术客户价值矩阵分析数据挖掘方法 1 R F M 分析 H u g h e s 在1 9 9 4 年提出的R F M 分析是以三个行为变量来描述和区分客户 6 1 R r e c e n c y 指上次购买到现在的时间间隔 F f r e q u e n c y 为某一期间内购买的次数 M m o n e t a r y 是某一期间购买的金额 R F M 分析针对每个客户的每个指标打分然后计算三个指标的乘积再按所得结果排序在此基础上将所有的客户按照2 0 6 0 2 0 分类最后对不同类型的客户实施不同的策略 R F M 分析的因素都是行为方面的这些数据对拥有数据库的公司比较容易得到但是其分析过程复杂非常耗时且细分结果中的客户群过多 2 客户价值矩阵分析为了回避R F M 分析的缺点 M a r c u s 在1 9 9 8 年提出用购买次数F 与平均购买额A 构造二维的客户价值矩阵模型用来修正R F M 方法 7 1 该矩阵需要的信息包括客户代码购买日期日购买额购买次数由不同购买日期的数目来确定平均购买额等于在指定时间间隔内总购买额日购买额的总和与购买次数的比值最终所以客户都分散在事先确定的二维矩阵的四个象限中针对每一个客户群或跨越客户群产生不同的营销战术 3 数据挖掘方法数据挖掘是从海量不完全的有噪声的数据中利用数据挖掘算法挖据出隐含的未知的用户可能感兴趣的和对决策有潜在价值的知识和规则f 引当前数据挖掘广泛深入 3 南京邮电大学硕士研究生学位论文第一苹绪论地应用到客户细分客户保持和交叉销售等方面的分析为市场营销客户关系管理提供有力的支持数据挖掘技术典型的分析手段有分类聚类关联等每类方法有很多不同特点的算法如分类方法有决策树算法神经网络算法聚类算法有划分聚类算法分层聚类算法等在客户细分中聚类技术是最为常用的技术由于能够处理高维度和类型复杂的数据且自动化地产生各个类聚类技术可以更加深入全面地细分客户 1 2 2 基于聚类技术的客户细分研究聚类分析是数据挖掘中最重要的方法之一聚类分析将一组数据分类使其具有最大的簇内相似性和最小的簇间相似性即分析结果达到不同簇中的数据尽可能地不同而同一簇中的数据尽可能地相似聚类分析的思想与客户细分的思想非常吻合因此聚类分析在商业上应用地非常广泛比如在电信领域从市话长途漫游短信等多个维度细分客户消费行为帮助企业了解客户需求的差异识别高价值的客户 9 1 在金融领域聚类分析不仅用于细分客户还用于侦测客户欺诈欺诈客户在众多客户中只是极个别在大量的交易数据中与其他数据明显不同表现为数值明显不符现实或与普通客户差异很大聚类分析在划分各个类的同时也能够发现异常对象这些异常对象有可能是欺诈者 l 们有关基于聚类技术的客户细分研究在国外已经有了一定的发展比如M e l o d yY K i a n g 等采用S O M s e l f o r g a n i z i n gm a p 聚类算法细分电信客户f l l l G e o r g i o sP P a p a m i c h a i l 等采用K M e a n 划分聚类算法结合空间数据结构对购物网站用户的浏览网页和搜索数据进行细分 1 2 1 P a w a nL i n g r a s 等结合模糊集理论改进S O M 聚类算法并将其应用到研究超市各个顾客群特征以2 4 个星期为时间段中的周期变化1 1 3 相对来说国内有关这方面的研究还处于起步阶段主要是使用典型的聚类算法分析范英等采用K M e a n 分析通信客户的消费帐单进行细分 2 刘群采用模糊聚类从分析银行个人客户的基本属性和R F M 指标入手细分银行个人客户I l 卅陈伯成等将S O M 算法分析客户R F M 指标根据综合指标的计算和各个指标的相对学习结果变化趋势将客户分类1 1 5 当前基于聚类技术的客户细分研究大致思路是根据所分析的主题和所在行业确定细分指标然后探索指标数据集的特点依据算法的适用范围确定合适的聚类算法由于典型的聚类算法存在一定的缺陷需要针对处理数据集特点和建模中的问题进行改进有时也会综合应用多个聚类算法比如分阶段应用将前一个聚类算法分析结果作为下一个聚类算法的分析基础在建立客户细分模型之后分析人员研究每个细分客户群的特征以及相互间的差异制定针对各个客户群的营销方案聚类具有自动化处理高维大规模数 4 南京邮电大学硕士研究生学位论文第一章绪论据集的优势使基于聚类的客户细分可以综合利用多方面的指标大规模的数据来定量化得描述细分市场的特征和差异性从而便于设计针对性的营销方案因此聚类细分方法更多地应用在拥有大量客户属性和消费数据的行业如电信业银行业等 1 2 3 基于聚类的客户细分在我国电信行业的应用客户细分在我国电信行业的应用从9 0 年代末就已经开始了主要是定性的角度采用的方法主要是人口统计细分心理细分 2 0 0 2 年中国移动建设经营分析系统基于聚类的客户细分开始逐渐引起了研究和实践人员的关注 1 6 1 7 1 近两年国内研究人员纷纷开展聚类技术在电信客户细分中的应用尝试应用各种聚类算法进行细分如范英等采用K M e a l l s 分析通信客户的消费帐单进行细分1 2 1 王军在S P S S C e l e m e n t i n e 的平台上利用T w o S t e p 分析客户使用各种通信服务的行为数据 3 郭明则采用基于混合高斯分布的E M 算法分析离网客户离网前一时间段的平均消费行为数据 1 8 K 均值算法是聚类算法中的经典算法原理简单具有可伸缩性很多著名的商用数据挖掘软件实现该算法比如S P S S 公司的C l e m e n t i n e I B M 公司的I n t e l l i g e n tM i n e r 在大量相关论文中 K 均值 K M e a n s 算法应用最为普遍但K 均值算法本身具有许多缺点其中包括聚类结果易受初始质心的影响一般采用多次试验运行算法来避免较差的聚类结果出现这种方法在一定程度上可以减少随机化初始质心的影响但付出相当大的代价特别是对大规模数据集多次运行必然带来巨大的开销并且多次运行仍具有随机性不能有效减小影响另外 K 均值算法需要人为指定聚类个数前人多是通过多次设置簇个数的试验以及自身分析经验确定这无疑影响了细分的科学性从行业应用的角度来看国内研究人员多以在网客户作为细分对象主要从在网客户若干个月的平均各项消费费用入手进行细分 2 3 1 s 有关离网客户细分的研究不是很多有关离网客户细分的研究中郭明石永华以在网客户细分的静态视角看待离网客户细分客户离网前若干个月的平均费用 1 8 1 9 1 另外在确定分析离网前的哪几个月时间窗1 2 上研究人员主要通过经验选取如石永华选取离网前3 个月消费的平均值这样主观地选取处于较粗的层面掩盖了一些客户在离网前波动行为特征难以深入地刻画客户群之间的波动差异 1 3 研究内容与结构安排结合以上选题背景和国内外相关领域的研究现状本文将关注基于聚类技术的客户细 5 南京邮电大学硕士研究生学位论文第一章绪论分研究和应用为主题对聚类技术进行系统深入研究并结合应用主题的特点选择适合主题分析的聚类算法分别建立在网客户和离网客户的细分模型文章的主要思路如下首先对典型的聚类技术作系统全面地介绍包括划分聚类K 均值层次聚类时序聚类然后深入研究应用最为普遍的K 均值算法详细分析其算法的优缺点针对有关人为指定聚类个数度量测度采用单一的距离公式聚类结果易受初始质心的影响等问题提出改进方法接着在K 均值多个改进方法的基础上形成B K W W B i s e c t i n gK i X l e a n sb a s e do nW e i g h ta n dW a r d s 聚类方法最后根据分析主题制定相应的细分流程应用B K W W 聚类方法建立在网离网客户细分模型并评价和比较B K W W 聚类模型和传统K 均值模型论文由六部分组成第一章概述本文的研究背景研究目的以及总体的研究思路第二章概述聚类技术基本理论以及聚类算法原理主要涉及聚类相关概念算法类型簇的类型以及K 均值层次聚类时序聚类等算法的原理第三章首先深入研究K 均值算法初始质心属性加权以及聚类数目的问题针对聚类结果易受初试质心的问题在前人研究思路的基础上设计并实现验证T 分K 均值算法接着分析属性在聚类中的作用提出采用四分位相对离差系数作为属性权值然后分析 W a r d 法凝聚聚类和K 均值原理的相似点提出利用W a r d 凝聚聚类确定聚类数目最后在前面研究的基础上提出基于K 均值的B K W W 聚类方法第四章建立在网客户细分模型首先介绍数据挖掘标准流程制定在网客户细分流程应用B K W W 聚类方法建立细分模型最后解释聚类结果制定针对性营销方案并通过凝聚分离系数比较B K W W 聚类模型和传统K 均值聚类模型第五章建立离网客户细分模型首先比较离网客户与在网客户细分的区别制定离网客户细分流程然后通过基于滑动窗口的时序聚类确定离网客户的分析窗口选取客户细分指标最后应用B K W W 聚类方法建模解释模型第六章对全文进行总结并且根据自己切身实践感受提出有关基于聚类技术的客户细分研究及应用的建议以及本文研究的局限和进一步的工作本文的重点在第三四五章 6 南京邮电大学硕士研究生学位论文第二章聚类技术概述 2 1 聚类分析的概念第二章聚类技术概述物以类聚人以群分聚类分析是人类一项最基本的认识活动聚类分析将一组数据分组使其具有最大的组内相似性和最小的组间相似性即分析结果达到不同聚类中的数据尽可能地不同而同一聚类中的数据尽可能地相似 2 2 常用聚类算法的类型聚类算法的类型种类很多本章主要介绍典型的聚类算法类型层次与划分互斥与模糊完全与部分增量与非增量 2 2 1 层次与划分层次与划分是聚类分析中两种最为典型的对立的聚类类型划分聚类 p a r t i t i o n a l c l u s t e r i n g 简单地将数据对象集划分成不重叠的子集使得每个数据对象有且仅有一个子集层次聚类 h i e r a r c h i c a lc l u s t e r i n g 对给定的数据对象集合进行层次的分解它通过将数据对象组织为若干组并形成一个相应的树来进行聚类的根据层次分解是自顶向下还是自底向上形成层次的聚类方法进一步分为凝聚的和分裂的层次聚类 2 2 2 互斥与模糊大部分聚类技术属于互斥聚类 h a r dc l u s t e r i n g 互斥聚类在算法处理和输出始终将每个对象分配到唯一个子集模糊聚类 f u z z yc l u s t e r i n g 计算每个对象与每个簇的隶属权值隶属权值的范围从0 绝对不属于到1 绝对属于模糊聚类施加一个约束条件每个对象的权值之和必须等于l 类似地概率聚类 p r o b i l i t yc l u s t e r i n g 计算每个点属于每个簇的概率且这些概率的和必须为1 模糊聚类和概率聚类的优点是有效避免了像其他聚类算法随意将某接近多个簇的对象随意指派到其中一个簇模糊聚类通过将每个对象指派到其最大隶属权值的簇可以转化为互斥聚类 2 2 3 完全与部分完全聚类 c o m p l e t ec l u s t e r i n g 处理所有的对象将每个对象指派到一个簇而部分聚类 p a r t i a lc l u s t e r i n g 只指派其中一部分部分聚类主要用在数据集的某些对 7 南京邮电大学硕士研究生学位论文第二章聚类技术概述象可能不属于明确定义的簇这些对象可能代表噪声离群点或无兴趣对象 2 2 4 增量与非增量这种分法适合在聚类的对象集规模很大受时间和空间限制早期的聚类算法处理的数据集规模不是很大在数据挖掘领域处理的数据规模海量每次进行聚类的时间较长而有的时候要进行聚类计算时数据比上一次聚类变化不大如果重新进行聚类所需时间太长而且原来的聚类结果难以利用就产生了增量聚类增量聚类建立数据更新表和簇表进行监控在适当的时候进行增量更新 2 3 常见簇的类型聚类的目的是发现有用的对象组簇有用的标准由聚类分析的目标定义反映现实的数据集存在许多不同的簇概念而这些簇也是有用的为了以可视方式说明这些簇类型之间的差别同常使用二维数据点作为处理的数据对象如图2 1 所示 a 明显分离的簇每个点到同簇中任意点的距离比到不同簇中所有点的距离更近 b 基于中心的簇每个点到其簇中心的距离比到任何其他簇中心的距离更近 c 基于邻近的簇每个点到该簇中至少一个点的距离比到不同簇中任意点的距离更近 d 基于密度的簇簇是被低密度区域分开的高密度区域 e 概念簇簇中的点具有有整个点集导出的某种一般共同性质图2 一l 用二维点集图示的不同簇类型 8 南京邮电大学硕士研究生学位论文第二章聚类技术概述 1 明显分离的簇簇是对象的集合其中每个对象到同簇中每个对象的距离比到不同簇中任意对象的聚类更近或更加相似有时使用一个阀值来具体说明簇中所有对象相互之间必须充分接近或相似仅当数据包含相互远离的自然簇时簇的这种理想定义才能满足图2 1 a 给出一个由二维空间的两组点组成的明显分离的簇的例子不同组中的任意两点之间的距离都大于组内任意两点之间的距离明显分离的簇不一定是球形的可以具有任意形状 2 基于原型的簇簇是对象的集合其中每个对象到定义该簇的原型的距离比到其他簇的原型的距离更近或更加相似对于具有连续属性的数据簇的原型通常是质心即簇中所有点的平均值当质心没有意义时例如当数据具有分类属性时原型通常是中心点即簇中最有代表性的点对于许多数据类型原型可以视为最靠近中心的点在这种情况下通常把基于原型的簇看作基于中心的簇在聚类过程中每个对象都被指派到最邻近的中心因此得到簇趋向于呈球状图2 1 b 给出一个基于中心的簇的例子 3 基于图的簇如果数据用图表示其中图中的点代表对象而边代表对象之间的联系则簇可以定义位连通分支即互相连通但不与组对象连通的对象组基于图的簇的一个重要例子是基于邻近的簇其中两个对象是相连的比到不同簇中任意点的距离更近以二维点的形式给出这种簇的例子当簇不规则或缠绕时簇的这种定义是可用的但是当数据具有噪声时就可能出现问题因为如图2 1 c 两个球形簇所示一个小的点桥就可能合并两个不同的簇 4 基于密度的簇点的密度是指以空间中的一点单位体积内点的个数直观的看簇的内部点的密度较大而簇边界上点的密度较小簇是由具有相似密度的相邻的点作为一个聚类图2 1 d 显示的是基于密度的簇当簇不规则或互相交叉并且有噪声和离群点时常常使用基于密度的簇定义 5 基于共性的簇概念簇更一般地把簇定义为有某种共同性质的对象的集合这个定义包括前面的所有簇定义例如基于中心的簇中的对象都具有共同的性质各个簇都离相同的质心或中心点的距离最近除了这个测量标准共同性质的方法还包含新的簇类型图2 1 e 所示的簇是环形区域以及被其包围的矩形区域在这种情况下聚类算法都需要非常具体的簇概念来成功地检测出这些簇发现这样的簇的过程称为概念聚类 9 南京邮电大学硕士研究生学位论文第二章聚类技术概述 2 4 典型聚类算法的性能分析 2 4 1 划分聚类对于一组数据集合给定聚类数目和目标函数划分聚类 p a r t i t i o n a lc l u s t e r i n g 把数据集划分为给定数目的簇使得目标函数在此划分下达到最优 2 l 划分算法把聚类问题转化成一个组合优化问题通常从一个初始划分或者一个初始聚点集合开始利用迭代控制策略优化目标这种聚类技术很多最典型的是基于原型的K 均值 K M e a n s 和K 中心点 K M e d o i d s K 均值用质心定义原型其中质心是一组点的均值通常 K 均值聚类用于n 维连续空间中的对象 K 中心点使用中心点定义原型其中中心点是一组点中最有代表性的点 K 中心点聚类可以用于广泛的数据因为它只需要对象之间的邻近性度量质心不对应实际的数据点中心点根据定义必须是实际数据点 1 聊e a n s 算法描速 l Q e a n s 数学定义 1 对象集合X x x x 集合元素x 表示对象 x v v 2 v v j 表示对象的属性 2 聚类得到的簇集用C 表示 C C l C 2 C k 集合的元素C i i l 2 k 是各个簇由于划分算法是互斥的所以C uC u uC k X C nC n nC w 0 K 均值算法描述输入簇的数目K 和包含m 个对象的数据库输出 K 个簇使平方误差准则最小 l A s s i g ni n i t i a lv a l u ef o rm e a n 5 任意选择K 个对象作为初始的簇中心 2 R E P E A T 3 F o n j 1t o m D O 4 A s s i g ne a c h 筠t Ot h ec l u s t e rw h i c hh a st h ec l o s e s tm e a n 根据簇中对象的平均值将每个对象指派到最近的簇 5 F o R i lt o K D 0 6 i x IC fl 更新簇的平均值即计算每个对象簇中对象的平均值 x e C J 七 7 C o m p u t e S S E x lx 一蜀1 2 i IM G 8 U N T I LS S Eh a sc o n v e r g e d3 l O 计算目标函数S S E S S E 不再发生明显地变化南京邮电大学硕士研究生学位论文第二章聚类技术概述 K 均值算法原理比较简单首先选择K 个初始质心其中K 是用户指定的参数即所期望簇的个数行1 每个点指派到最近的质心邻近度最大指派到一个质心的点集为一个簇行3 4 然后根据指派到簇的点更新每个簇的质心行5 6 重复指派和更新步骤直到簇不发生变化目标函数收敛行7 对于邻近性函数和质心类型的某些组合 K 均值总是收敛到一个解即K 均值到达一种状态其中所有点都不会从一个簇转移到另一个因此质心不再改变然而由于大部分收敛都发生在早期阶段经过前面的多次迭代后面是较少的簇边界上的点发生变动因此通常用较弱的条件替换算法迭代终止条件比如将簇的点不变动的数目比例达到某一阀值作为终止条件上面算法描述中的邻近度定义为两个对象的欧式距离目标函数定义为误差的平方和 S S E s u mo f t h es q u a r e de r r o r K 均值算法步骤4 和步骤5 试图直接最小化S S E 步骤4 通过将点指派到最近的质心形成簇最小化关于给定质心集的S S E 而步骤4 重新计算质心进一步最小化S S E 然而 K 均值的步骤3 和步骤4 只能确保找到关于S S E 的局部最优因为它们是对选定的质心和簇而不是对所有可能的选择来优化S S E 2 时间复杂性和空间复杂性 K 均值的空间需求是适度的因为只需要存放数据点和质心具体所需要的存储量为p 耐幻而其中2 7 1 是点数刀是属性数 K 均值的时间需求也是适度的基本上与数据点个数线性相关具体所需要的时间为O I X l X m X 刀其中是收敛所需要的迭代次数如前所述通常很小可以是有界的因为大部分变化通常出现在前几次迭代因此只要簇个数K 显著小于数据点个数历则K 均值的计算时间与历线性相关具有可伸缩性 2 4 2 层次聚类层次聚类 h i e r a r c h i c a lc l u s t e f i n g 递归地对对象进行凝聚或者分裂直到满足某一终止条件为止层次聚类的结果可以用一个谱系图或二分树表示树中的每个结点都是一个聚类下层的聚类是上层聚类的嵌套每一层结点构成一组划分根据谱系图生成的顺序可以把层次聚类方法分为凝聚型 a g g l o m e r a t i v e 层次聚类和分解型 d i v i s i v e 层次聚类两种凝聚型层次聚类是一种自底向上的方法将每一个对象看作一个簇把他们逐渐合并成越来越大的簇直到所有的对象都在一个簇中或者某个终结条件被满足绝大多数层次聚类方法属于这一类只是在簇间相似度的定义上有所 l l 南京邮电大学硕士研究生学位论文第二章聚类技术概述不同分解型则与凝聚型的聚类过程相反采用自顶向下的策略首先将所有对象助于一个簇中然后逐渐细分为越来越小的簇直到每个对象自成一簇或者达到了某一终结条件 2 2 1 图2 2 是两种类型聚类过程的示意图 0S t e p1s t e p2s t e p3s t 印4s t e p 凝聚型 4S t e p 3s t e P2S t e pls t e I 0s e P 分解型图2 2层次聚类示意图 1 凝聚型层次聚类原理算法描述给定1 1 个对象的数据集合D 凝聚型层次聚类得到D 的一系列划分 P n 艮l P 1 其中P n 有1 1 个但成员簇 P 1 只有1 个包含所有对象的簇输入包含n 个对象的数据库D 终止条件簇的数目k 输出 k 个簇达到终止条件规定的簇的数目 1 如果需要计算邻近度矩阵 2 l 比P E A T 3 合并最接近的两个簇 4 更新邻近性矩阵以反映新的簇与原来的簇之间的邻近性 5 U N T I L 达到定义的簇的数目各种凝聚型层次聚类算法的基本步骤相同差别在于簇间邻近度的定义不同两个簇间的邻近度计算方法主要有单个聚类用历另表示 1 最小距离或称单链图2 3 a 所示邻近度以簇间的最小距离来度量簇间的最小距离定义为分别属于两个簇的最近对象间的距离即刃 c j m i n 以p 彩 P C i q C j 1 2 南京邮电大学硕士研究生学位论文第二苹聚荚技术概述 2 最大距离或称全链图2 3 b 所示邻近度以簇间的最大距离来度量簇间的最大距离定义为分别属于两个簇的最远对象间的距离即刃阪 C Q m a x d p D P E C q C 3 簇平均距离或称平均链图2 3 c 所示邻近度以簇平均距离来度量簇间的类平均距离定义为分别属于两个簇的对象间的平均距离即刃 G 0 二 d p g 刀i 刀 p e C i q e C i 7 尸l c l 胪l c 一 4 W a r d 氏方法图2 3 d 所示邻近度以两个簇凝聚时导致的平方误差S S E 增量来度量若记历 p 一明 p m 驴 p m j p m 历沪 p m j j p m 州其中励产缶饨繇则D D铲盼历一明羔 m my m myrt 言jr l l r t j n j 繇c l 七 a 最小距离法 c 平均距离法 b 最大距离法簇1簇2 d W 砷氏法图2 3 凝聚聚类各类型的邻近度采用不同度量方式的邻近度产生的聚类效果存在很大不同单链技术擅长处理非椭圆形状的簇但对噪声和离群点很敏感全链对噪声和离群点不太敏感但是它可能使大的簇破裂并且偏好球形平均链技术是一种界于单链和全链之间的折中方法 W a r d 氏技术使用的目标函数与K 均值相同 W a r

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

硕士论文-基于聚类技术的客户细分研究与应用.pdf

文档简介

温馨提示

最新文档

评论

硕士论文-基于聚类技术的客户细分研究与应用.pdf

文档简介

温馨提示

最新文档

评论

相关文档