(管理科学与工程专业论文)基于导向性动态聚类算法的电信客户细分研究.pdf_第1页
(管理科学与工程专业论文)基于导向性动态聚类算法的电信客户细分研究.pdf_第2页
(管理科学与工程专业论文)基于导向性动态聚类算法的电信客户细分研究.pdf_第3页
(管理科学与工程专业论文)基于导向性动态聚类算法的电信客户细分研究.pdf_第4页
(管理科学与工程专业论文)基于导向性动态聚类算法的电信客户细分研究.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(管理科学与工程专业论文)基于导向性动态聚类算法的电信客户细分研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着电信行业的高速发展,尤其是2 0 0 8 年底3 g 牌照发放以后,中国电信 市场竞争更为激烈,而客户资源是竞争的主要对象。通过分析所掌握的客户信息, 进行客户细分已经成为电信企业实施营销战略最为迫切和首要的任务。通过对大 量的客户进行细分,可以了解不同客户群体的消费特性,从而对市场结构有宏观 的把握。客户细分已经成为电信企业市场营销策略制定、品牌推荐、新套餐研发 的基础。 信息熵理论己在管理科学、数据挖掘等研究领域中发挥作用,成为度量系统 不确定性、复杂度的有力工具。聚类分析技术不断完善和进步,从单纯的硬划分 转向更能反映自然属性的软划分,其中基于目标函数的模糊聚类算法研究正成为 当前的热点,并通过计算机的高速运算能力广泛的应用于客户细分领域。 本文提出了以市场营销为目标的导向性模糊聚类的客户细分模型,解决了评 价指标与市场脱节、模糊聚类的原型初始化参数等问题。首先引入了市场营销为 目标的导向性评价体系,具体采用a h p 来实现其过程,利用i d f ( 信息熵与类距 函数) 目标函数来初始化类中心,利用改进的动态模糊聚类算法应用于电信客户 的细分上,并在传统聚类测试数据集上进行了测试,最后结合电信客户的大样本 数据进行了实际分析,与传统方法相比,取得了较好的效果。 关键词:导向性动态聚类电信客户细分 摘要 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to ft e l e c o m 洫d u s 仃y ,p a n i c u l a u r l yt l l el i c e n s ei s s u e d o fc h i n a t s3 g ,t h et e l e c o mo p e r a t o r sf i n a l l ys t a n e dt oc l o s ec o n t a c t so fm ew a r t h e m o s tc t l l c i a ll i m (i n c o m p e t i t i o ni ss c m m b l i n gc u s t o m e rr e s o u r c e u n d e rt 1 1 i s b a c k g r o u n d , t o i m p l e m e n t c l i e n t s e g m e n t a t i o nb ya 1 1 a l y z i n g m a s sc u s t o m e r i n f o n n a t i o nm a l s t e r e di st h em o s tp r e s s i n ga n dp r i m a r yt a s ko fm a r k e t i n gs 仃a t e g yo f e n t e 叩r i s e b ys e g m e n t i n gm a s sc u s t o m e r s ,、牝c a nu 1 1 d e r s 胁dc o n s u m p t i o nf e a t u r eo f e a c h ,t h u sw ec a nh a v eag e n e r a lc o n c e p to fm a r k e ts t n 】c t u r e c u s t o m e rs e g m e n t a t i o n h a sb e c o m eab a s eo ft e l e c o m m u i l i c a t i o n sc o m p a n yt od e v e l o pm a r k e t i n gs t r a t e g y b r 趾dr e c o i m e n da n dr e s e a r c ha n dd e v e l o p m e n to fn e w p a c k a g e s m e a j l 州l e ,i d fp l a y sac r u c i a lr o l ei i lm es t u d yo nm a j l a g e m e ms c i e n c ea n d d a t am i 血n g ,i th 2 l sa l r e a d yb e c o m eap o w e r f h lt o o lo fm e a s u r i n gu n c e n a i n 田a n d c o m p l e x i t yo fs y s t e m ;f w r t h e m o r e ,c l u s t e ra n a l y s i st e c l l l l o l o g yi si i n p r o v e di i lt h j s w a ) ,i te x p a n d sf o ms i m p l ec r i s pp a i r t i t i o nt os o rp a r t i t i o nw m c hc a nb eu s e dt o r e n e c tn a t u r a l q u a l i t y r e c e n t l yf u z z yc l u s t e r i n ga l g o r i t l u i l s b a s e do no b je c t i v e f l l n c t i o nh a sb e c o m eaf o c u so fa c a d e m i cr e s e a r c h ;m o r e o v e ri ti sa d o p t e dt oc l i e m s e g m e n t a t i o ne x t e n s i v e l yw i t hi t sh i g h l yo p e r a t i o n a la b i l i t ) ,o fc o m p u t e r s t h ea u t h o ro ft h i st h e s i s 鹕u e st h a tn e wo r i e n t e da l g o r i t h mo fc l u s t e r i n gb a s e do n m a r k e t i n go b j e c t t h ea u t h o r6 r s t l yi n t r o d u c e ss o r i e n t e de v a l u a t i o ns y s t e mt 1 1 a tt a l r g e t m a r k e t i n g ,u s i n ga h p t oa c h i e v ei t sp r o c e s s ,u s i n gi d f 丘o mt l l eo b j e c t i v e 如n c t i o nt 0 r e m o v ei s o l a t e dp o i n t s ,t h e ni n t r o d u c e si m p r 0 v e dd y n 锄i c 如z z yc l u s t e r i n ga l g o r i t i n t o 如z z ) ,c l u s t e r i n ga n da n a l y z e si t b ye m p l o y i n gi t i 1 1t 1 1 er e s e a r c ho nt e l e c o m c l i e n ts e g m e n t a t i o n ,t 1 1 ea u t h o rp r o v e si t sc o n v e 唱e n c eb yt e s t i n gw i t l l 仃:l d i t i o n a l c l u s t e r i n gt e s td a t as e t s f i n a l l y ,t l l el a r g es 锄p l ed a t aa b o u tt e l e c o mc l i e n t si s a i l a l y z e dc o m p a n n gw i mt l l e t r a d i t i o n a jm e t h o d t h ed y n 锄i c 如z z yc l u s t e r i n g a l g o r i m mi sp r o v e dw i t l lb e t t e rr e s u l t k e yw o r d s :o r i e n t e da l g o r i t l u n ,d y n 锄i cc l u s t e r i n g ,t e l e c o m ,c u s t o m e rs e g m e n t a t i o n ; 中国科学技术大学学位论文原创性声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成 果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写 过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确 的说明。 储躲辑 签字嘲理:乏:z 中国科学技术大学学位论文授权使用声明 作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥 有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交 论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人 提交的电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 眺开口保密( 年) 作者签名 丞自 签字日期: 递三2 :z :! 导师虢豫 签翔期:掣 第1 章绪论 1 1 论文背景 第1 章绪论 2 0 0 9 年1 月7 日,工业和信息化部向国内三家电信运营商发放了中国第三代移 动通信( 3 g ) 牌照。中金报告预计,今年3 g 相关投资将达2 0 0 0 亿元。业内人士认 为,这巨大的投资将撬动超过万亿的电信市场投资,也将带来日趋激烈的市场竞 争,电信运营商为巩固和扩大市场份额,通过把握客户消费行为的差异性,不断 推出3 g 品牌套餐、个性化服务、数据业务支持以期吸引更多客户加入网络。 电信企业进行客户细分,已经成为其实施营销战略最为迫切和首要的任务。 通过对客户进行细分,可以划分相似消费群体,宏观地把握市场结构,客户细分 已经成为电信企业市场营销策略制定,品牌推荐系统,新套餐研发的基础。 模糊聚类是数据挖掘中的一项主要技术,是建立在模糊数学理论的基础上, 通过模糊分割,使样本点对不同类别具有不同的隶属度,突破了传统聚类方法的 硬划分,从而达到无监督分类的效果。这种方法无需先验知识,得到了样本属于 各个类别的不确定程度,表达了样本类属的中介性,达到了客观反映现实世界的 目的。在此基础之上,本文引入了市场营销为目标的导向性评价体系,具体采用 a h p ( 层次分析法) 来实现其过程,利用i d f 目标函数来初始化类中心,利用改进的 动态模糊聚类算法迭代得到最终客户分类结果,再从各个类中提取类属性特征, 为以后的具体营销策略作准备。 第j 章绪论 1 2 论文主要工作 本文首先介绍电信客户市场细分的研究现状及模糊聚类算法的发展情况,然 后提出了以市场营销为目标的导向性模糊聚类的客户细分模型并加以测试,最后 采用某省电信客户消费数据进行分析。 论文工作内容主要包括: 理论研究:导向性的客户细分理论,i d f 理论,k 均值聚类算法,聚类 初始类个数和初始类中心的确定,改进的模糊聚类算法。 电信客户细分指标的设计,模糊聚类算法在电信客户细分中的应用,动 态模糊聚类算法模型设计。 动态模糊聚类算法的编码,测试及实际应用。 1 3 论文结构 本文的组织结构如下: 第1 章:绪论,介绍本文的研究背景以及论文主要内容。 第2 章:电信客户细分理论和方法的研究现状,介绍客户细分理论的研 究现状及其在电信市场领域内的发展。 第3 章:国内外模糊聚类方法的研究现状介绍,先概述模糊聚类算法, 然后对类初始个数及类中心的确定进行了分析。 第4 章:提出以市场营销为目标的导向性模糊聚类的客户细分模型,首 先引入了市场营销为目标的导向性评价体系,具体采用a h p ( 层次分析法) 来实现 其过程,利用i d f 目标函数来初始化类中心,利用改进的动态模糊聚类算法迭代 得到最终客户分类结果,最后通过测试将本文所提出算法与原有传统聚类算法进 行比较。 第5 章:将动态模糊聚类算法应用于某省电信客户细分中,并对最终聚 类结果进行分析和评价,针对具体类特点提出相应营销策略。 第6 章:全文总结。 第2 章客户细分理论及方法概述 第2 章客户细分理论及方法概述 2 :1 客户细分理论的产生和发展 2 1 1 客户细分理论的产生 市场营销学于2 0 世纪初期产生于美国,自诞生以来,其发展经历了五个阶 段,实现了营销理论的历史性进步,客户细分便是在此背景下的产物。 客户细分( m a r k e ts e g m e n t a t i o n ) 的概念是美国营销学家温德尔史密斯 ( w e n d e ds m i t h ) 在1 9 5 6 年提出的:客户细分是以消费者需求为出发点,根据消 费者购买行为的差异性,把消费者总体划分为类似性购买群体的过程乜1 。企业在 明确的战略、业务模式和专注市场中根据客户的价值、需求和偏好等综合因素对 客户进行分类,可以更好的识别不同的客户群体,区别对待不同的客户,采取不 同的客户战略,对不同的客户群提供具有针对性的产品、服务和营销模式,达到 最优化配置客户资源的目的。此后,美国营销学家菲利浦科特勒发展和完善了 温德尔史密斯的理论并最终形成了成熟的s t p 理论:市场细分( s e g m e n t a t i o n ) 目标市场选择( t a r g e t i n g ) 和定位( p o s i t i o n i n g ) 。 2 1 2 客户细分理论的发展 美国学者c h o 仔a y 和c a r yl i l i e n 在上世纪9 0 年代初期,提出了著名的两阶段论 口1 :市场细分要分为两个阶段进行。产业市场细分的全部过程是从宏观市场细分 开始,再到微观市场细分,进而形成一个两阶段的复合的市场细分过程。 近期客户细分的研究,根据导向视角的不同主要形成了两大流派:一派是消 费者导向的细分,主要为理论界采用,y o r a mw i n d 认为客户细分重点应当是对 消费者的需求和行为特征进行分类,主要以顾客总体特征为细分标准去对消费者 分群,运用分析解剖方法论,从个体心理( 包括感知、认知、动机、个性等) 、社 会文化环境以及行为决策过程等三个不同侧面对消费者进行细分。另一派是产品 第2 章客户细分理论及方法概述 导向的市场细分,主要为营销决策者采用。他们根据不同营销决策目标( 产品定 位、定价、广告定位等) ,围绕某产品或品牌的特定消费情境对消费者细分,细 分变量包括产品品牌使用率、消费态度、寻求的利益等,目的是要了解消费者 对某产品或品牌的心理需求和消费行为差异,以选择最有利的目标顾客群及恰当 的营销策略。 长尾理论由美国人克里斯安德森提出,是当前网络时代兴起的一种新理论。 “长尾理论”被认为是对传统的“二八定律”的彻底叛逆n 1 。长尾理论认为,由 于成本和效率的因素,过去人们只能关注重要的人或重要的事,如果正态分布曲 线来描绘这些人或事,人们只能关注曲线的“头部 ,而将处于曲线“尾部”、 需要更多的精力和成本才能关注到的大多数人或事忽略。例如,在销售产品时, 厂商关注的是少数几个所谓“v i p ”客户,“无暇”顾及在人数上居于大多数的 普通消费者。而在网络时代,由于关注的成本大大降低,人们有可能以很低的成 本关注正态分布曲线的“尾部 ,关注“尾部”产生的总体效益甚至会超过“头 部 。 2 2 客户细分方法概述 2 2 1 数据挖掘 数据挖掘( d a t am i n i n g ,d m ) 是随着计算机的广泛应用和数据的大量积累而 发展起来的n 1 ,它同数据库知识发现( k j l o w l e d g ed i s c o v e 巧i nd a l b a s e ,k d d ) 和 数据仓库有着密切的联系。数据挖掘是指从存放在数据库、数据仓库或其他信息 库中的大量数据中,自动地发现相关模式、提取有潜在价值的信息、挖掘所需知 识的过程。从c i 洲的角度,数据挖掘就是从大量数据中挖掘出隐含的、先前未 知的、对决策有潜在价值的知识和规则,并能够根据已有的信息,对未来发生行 为做出结果预测,为企业经营决策、市场策划提供依据。 数据挖掘根据挖掘任务分,有如下几种知识发现任务:分类知识发现、数据 总结、数据聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异 常发现和趋势预测等。客户细分是企业开展客户关系管理的第一步,能够根据客 户价值细分客户,是客户关系管理成功实施的前提条件。 4 第2 章客户细分理论及方法概述 客户关系管理( c i w ) 是对企业和客户之间的交互活动进行管理的过程, 是一种旨在改善企业与客户之间关系的新型管理机制,其核心思想是将企业的客 户( 包括最终客户、分销商和合作伙伴) 作为最重要的企业资源,通过完善的客户 服务和深入的客户分析来满足客户的要求,保证实现客户的终生价值。 在c r m 中应用的主要技术有:统计、聚类、决策书、神经网络和关联规则。 对于要挖掘的数据,可以是来自传统的关系数据库,也可以建立面向主题的、采 用多维数据立方体组织数据的数据仓库。电信行业数据本身具有多维性,如呼叫 时长、通话时长、呼叫类型等维度,对此类数据的多维分析有助于识别和比较数 据通信情况、用户组行为等,因此用数据仓库组织电信行业数据十分有效,可以 经常使用联机分析处理和可视化上进行多维分析。 2 2 2 基于r f m 的客户细分 i 江m 分析是广泛应用于数据库营销的一种客户细分方法。r ( r e c e n c y ) 指上次 购买至今之期间,该时期越短,则r 越大。研究发现,r 越大的客户越有可能与 企业达成新的交易,企业保存的该客户的数据就越准确,因为企业拥有的数据会 迅速失效,每隔一年约有5 0 的信息变得不准确了。f ( 行e q u e n c y ) 指在某一期间内 购买的次数,交易次数越多的客户越有可能与企业达成新的交易。m ( m o n e t 指在某一期间内购买的金额。m 越大,越有可能再次响应企业的产品与服务。i 疆m 分析的所有成分都是行为方面的,应用这些容易获得的因素,能够预测客户的购 买行为。以最近的行为预测客户的购买行为,比用其他任何一种因素进行预测更 加准确和有效。进行r f m 分析,所有的客户记录都必须包含特定的交易历史数 据,并准确的标号。i 强m 分析给客户的每个指标打分,然后计算r f m 。在确 定r 、f 、m 时,不能采取主观赋值的办法。 2 2 3 基于客户价值矩阵的客户细分 为了消除购买次数与总购买额间的多重共线性,m a r c u s 提出对传统的i 玎m 分析进行修正,用平均购买额代替总购买额。另外,为了解决传统i 讧m 分析过 多细分客户群的缺陷,他提出用购买次数( f ) 与平均购买额( a ) 构造的客户价值矩 阵简化细分的结果( 图2 1 ) 所示。第三个变量r e c e n c y 在客户价值矩阵中被剔除, 5 第2 章客户细分理论及方法概述 r e c e n c y 与其他的变量( 如交易类型、关系的长度与客户价值矩阵) 结合使用。 形成客户价值矩阵需要的信息有:客户代码、购买日期、日购买额、购买次 数由不同的购买日期的数目确定,日购买额用来计算平均购买额。r e c e n c y 可以 由最近的购买日期确定,其可以用最近的购买日期减最早的购买日期计算得到。 交易类型需要收集产品信息。地理、人口统计学、偏好方面的信息也可以与客户 价值矩阵结合使用。 高 平均 购买 金额 低 购买次数 高 图2 1 基于购买金额及次数的客户价值矩阵 在m a r c u s 提出的客户价值矩阵中,确定购买次数与平均购买额的基准是各自 的平均值,一旦确定每一个坐标轴的平均值,每个客户就被定位于客户价值矩阵 的每个象限里。然后,分析每个象限中的客户群的关键差异。 客户价值矩阵的优点在于这种细分方法产生针对每一个客户群的及跨越客 户群的营销战略战术。最好的客户代表了企业的基础,保持是必要的;对于乐 于消费型,最适合的战略是增加他们的购买频率:对于经常性客户,他们通过不 断的购买证明了自己的忠诚,最好的战略是通过交叉销售、向上销售增加他们的 平均购买额;对于不确定型客户,最好的战略可以描述为慎重的精选,把营销努 力集中于不确定型的新客户和那些对某种具体的产品感兴趣的客户。结合其他的 客户信息,客户价值矩阵能够制定跨越客户群的营销战略战术,强化客户保持。 2 3 客户细分理论在电信业的应用 2 3 1 国外电信客户细分方法 基于用户组织特点的用户群细分方法:海外通信运营企业通常都按照用户的 组织形式特点,将用户群划分为两个基本部分,即消费者和组织用户。如英国电 6 第2 章客户细分理论及方法概述 信( b 1 ) 、新加坡电信公司( s i n g t e l ) 、美国( v c r i z o n ) 和英国沃达丰( v o d a f o n e ) 等公司 都是采用这种策略。消费者市场是个人或家庭为了生活消费而购买产品和服务的 市场,我们经常所说的个人用户和住宅用户都属于此类市场中的用户。组织市场 是各种组织机构形成的对企业产品和劳务需求的总和。中小企业、大企业、中间 商和政府都是这类市场的用户。此外,从事国际化经营的企业还包括国际用户。 从目前的发展趋势来看,越来越多的电信企业也很注意提高企业形象,对社会特 殊群体也表现出特别的关爱,如将老年人、残疾人、低收入者等弱势群体作为重 要的用户,英国电信公司是运用这类划分方法的典型代表。 基于用户价值的用户群细分方法:一般来说,海外通信运营企业通常都按照 用户给企业带来的价值将用户群也划分为两个基本部分,即低端用户和高端用 户,根据具体公司的特定情况可能增加一些中间等级。任何一家运营商的服务资 源都是有限的,不可能为所有的商业用户提供同等水平的服务。从有效分配和使 用服务资源来讲,按用户价值大小分配服务资源显然是最明智、最符合收益最大 化原则的选择。因此,根据不同用户的不同价值提供相应等级的服务也就成了进 一步细分商业用户市场的当然理由。 基于用户人口变量的用户群细分方法:海外一些公司采用了按照年龄、性别、 收入、职业等人口变量和社会经济因素来细分用户的人口细分标准。这一标准方 便使用且具备可测量性。将性别和年龄作为细分化的标准,很容易通过国家统计 部门得知有关数据;通过抽样调查。同样能够确定采访对象的性别和年龄,因而 能够研究和比较对于指定的产品各个“年龄一性别“细分市场特有的行为与态度。 另外,人口、社会和经济标准总体上非常具有操作价值,学生、职员、经理等不 同职业对购买行为影响很大,人们因而可以较好地了解借助这些标准确定的细分 市场的购买和通信习惯,从而能够选择有针对性的分销渠道和传播渠道。s k 电 讯把用户按年龄段进行了细化,策略和目的是在仔细研究了每个年龄段的用户特 点后,相应地建立一个品牌化的服务。通过这些产品和服务,提供适合顾客个人 生活方式的服务,从而巩固并扩大用户规模哺1 。 2 3 2 国内电信客户细分方法 ( 1 ) 中国电信行业客户细分 7 第2 章客户细分理论及方法概述 中国电信客户细分研究开展得非常广泛,内容十分丰富。基于c r m 的客户细 分方法可概括为两个方面:一是以单一指标作为细分标准的细分,二是以两个或 两个以上指标作为细分标准的细分。 目前电信主要通过基于用户属性和a r p u 值的客户群细分( 如图2 2 ) ,已经无 法满足电信业务部门日益增长的市场营销需求。 目标群共性特征 以顶级服务享受 满足和稳固 以领先业务刺激 和带动 图2 2 用户属性和a r p u 值的客户群细分 根据电信客户细分标准,现在对电信进行客户细分的主要常用指标有四种: 人口统计、客户价值、消费行为及消费态度( 如图2 3 ) 。 图2 3 电信客户细分指标实施难易程度 1 人口统计:整理客户群的背景资料以便市场营销人员能找到目标客户群。 2 客户价值:通过客户帐单,识别不同价值客户群,根据营销需要划分不通 的目标客户群。 3 客户消费行为:如何针对目标客户群,根据客户行为分析,扩展及保留客 户群,提供服务满足客户需求。 第2 章客户细分理论及方法概述 4 客户购买产品态度。是影响需求差异的一个重要因素。根据目前客户购买 电信产品种类:长途产品、数据产品、市话产品及增值业务产品等来分析客户的 购买态度。 ( 2 ) 中国某省移动客户细分方法 中国某省移动考虑不同客户细分方法的有效性及实施的难易程度,并结 合移动所提供的数据资源和移动用户特点,采用用户行为方式进行客户细分, 再结合人口统计和客户价值准确定位细分人群。 人口统计 行为万式 图2 4 三维分析体系所带来的业务利益 人口统计:整理客户群的背景资料以便市场营销人员能找到目标客户群。 行为方式:如何针对目标客户群,根据客户行为分析,扩展及保留客户群,提供 服务满足客户需求。 客户价值:识别高价值客户群,成为目标客户群。 2 3 3 国内外电信客户细分方法的评价 国外电信客户细分研究主要基于用户特点、人口变量、用户价值三个方面, 对于电信企业的产品特性和客户需求之间的关系已经有了相应程度的研究,基于 用户组织特点细分方法考虑到了弱势群体的电信服务消费特点,相应的推出服 务。基于用户价值的细分方法从不同的用户价值入手,提出有效充分的利用自身 9 第2 章客户细分理论及方法概述 企业的资源,为不同价值的客户提供不同等级的电信服务,用户人口变量的细分 方法从基本的人口变量入手,通过对人口变量的数理统计,得出规律,从而为企 业营销策略提供可靠的数据基础。而我国电信企业客户细分的标准不科学,不能 准确分析和掌握客户的需求、态度和偏好,仍然采用基于c r m 的单一指标或多指 标方法,这种客户细分方法大多是单维的,对电信这种市场竞争日益激烈的企业 来说并不适用。而中国移动提出三维分析体系则是较为成熟的客户细分方法,但 是其度量的各维指标还有待与进一步深化与完善。 1 0 第3 章模糊聚类方法及应用 第3 章模糊聚类方法及应用 3 1 模糊聚类理论及其发展 2 0 世纪3 0 年代早期,波兰逻辑学家卢卡塞维克兹首次正式提出了三值逻辑 体系,把逻辑真值的值域由 0 ,l 二值扩展到 0 ,1 2 ,1 ) 三值,其中1 2 表示 不确定。后来,他又把真值范围从 0 ,1 2 ,1 ) 进一步扩展到 0 ,1 之间的有理 数,并最终扩展为 o ,1 区间阻1 。逻辑学家们利用常用的真值函数t : 命题) 一 0 , 1 来定义连续或“模糊 逻辑,并将该体系命名为l l 。量子哲学家马克思布 莱克利用连续逻辑为集合中的成员赋值,可以说,他在历史上第一个构造了模糊 集的隶属度函数。 1 9 6 5 年,美国自动控制专家、数学家扎德( l a z n d e h ) 发表了他的论文模 糊集( p u z z ys e t s ) ,正式提出了多值集合理论,并把“f u z z y ( 模糊) 一词引入 技术文献中,从而掀起了多值数学结构研究的第二次浪潮,研究兴趣遍及模帕系 统到模糊拓扑的各个方面。此后的二三十年随着模糊商业产品和新理论、新应 用的不断涌现,形成了多值系统研究的第三次浪潮。 当前,模糊数学的研究领域可大体分为三个方面:模糊数学理论及其与经 典数学、统计数学的关系,模糊语言和模糊逻辑,模糊数学的应用等。尽管模糊 数学诞生很晚,但其发展十分迅速。1 9 7 8 年,z a d e h 教授提出了可能性理论,阐 述了随机性和可能性的区别。这被认为是模糊数学发展的第二个里程碑。可能性 理论的出现,为模糊数学更广泛地应用于模式识别和其他领域提供了强有力的理 论基础和有效的工具。 目前,尽管模糊数学已在自然科学及社会科学领域内获得了较为广泛的应 用,但它的理论体系和实际推广应用仍处于发展之中。这就需要我们从理论和实 践两个方面进一步深入研究、完善它。 3 2 模糊聚类方法研究 第3 章模糊聚类方法及应用 3 2 1 模糊集相关定义 现实世界中很多事物的分类边界是不分明的,而这种不分明的划分在人们的 识别、判断和认知过程中起着重要的作用阳1 。我们提出了模糊集合的概念,使得 使用数学的方法来处理这种问题成为可能,用隶属度函数( m e m b e r s h i pf u n c t i o n ) 来刻画处于中介过渡的事物对差异双方所具有的倾向性,可以认为隶属函数是普 通集合中特征函数的推广。当将特征函数的值域由 o ,1 ) 二值扩展到 0 ,l 】区间时, 就描述了一个模糊集合。模糊集相关定义如下n 们: 定义2 1 模糊集合:论域x 上的模糊集合彳由隶属函数j ( x ) 来表征,其中 j ( x ) 在实轴的闭区间【o ,1 】上取值,j ( x ) 的值反映了x 中的元素x 对于彳的 隶属程度。 定义2 2 口截集:设彳为z 中的模糊集,对于任意的口 o ,1 】,集合 ( j ) 口= 彳口= xi j ( x ) 口) 称为彳的口截集,或称a 水平截集。 定义2 3 凸模糊集:设彳为x 中的模糊集,若对于v x l ,x 2 x ,都有 彳( 咒工。+ ( 1 一a ) x :) m in j ( x 。) ,j ( 石:) ) 则称彳是论域x 上的 凸模糊集。 定义2 4 模糊数:模糊数,是实轴r 上的凸的正规模糊集。 定义2 5 模糊等价关系:设天是x 中的模糊关系,若j i i 同时具有自反性,对称性 和传递性,则称辰为模糊等价关系。 定义2 6 模糊关系合成:设辰是双y 中的模糊关系,季是】厂z 中的模糊关 系,定义模糊关系辰与的合成d = r 。s 具有隶属度函数 膏。j ( x ,少) = 名】,( 詹( x ,少) 八j ( 少,z ) ) ,v 工x ,v 少】,v z z 亘是x z 中的模糊关系。 定义2 7 传递闭包:模糊关系r 的传递闭包f ( r ) 定义为: 1 2 第3 章模糊聚类方法及应用 f ( 页) = 厦u 兵2u u 兵加u = 0 灭小,且 ,雄= 1 f ( 膏) 2 = f ( 膏) 。f ( i ) = 膏2u 豆3u ,可得 f ( 兵) 。f ( 兵) f ( 应) ,所以任何模糊关系无论其本身是否具有传递性,其传 递闭包总具有传递性。 3 2 2 模糊聚类方法 l 、谱系聚类法又称作系统聚类法,在实际工作中当待分析的样本较少时 经常被采用。设样本集x 如聚类分析的数学模型所述有n 个样本,我们要将这n 个 样本划分为c 类。谱系聚类法将模式样本按距离准则逐步聚类,类别由多到少, 直到满足合适的分类要求为止。该算法由以下步骤迭代实现叫。 初始化:令n 个模式样本自成一类,即建立n 个子集x p ,x ,z ! o 。计 算各类之间的距离,可得到一个n n 维的距离矩阵d ( 们,其中右上角标号( 0 ) 表示聚类开始运算前的状态。设定迭代次数计数器为b = 0 : 步骤一:求距离矩阵d ( 6 ) 中的最小元素( 对角线元素除外) ,如果该最小元 素为x 夕和x 多两类之间的距离,则将x 夕和x 岁合并为一类x 善+ 1 ,并由此建 立新的分类:x r “) ,石:6 + , 步骤二:计算合并后的新类别之间的距离,得距离矩阵d ( 6 ) ( 注意:计算 x 0 + 1 与其他没有发生合并的x r + 1 ,x i 6 十,之间的距离时,有多种不同的 计算准则。 步骤三:令b = b 十l ,跳转到步骤一,重复计算及合并,可一直将全部样本 聚集成类为止;也可取阀值d ,当d ( 6 的最小分量超过阀值d 时,算法停止, 所得到的分类结果即为聚类结果。 显然,对于任意两个样本x ,和x ,它们必然会在某个层次上( 比如说b ) 被聚合到同一类中,在更高的层6 6 上这两个样本也仍然处在同一类中。 第3 章模糊聚类方法及应用 其实,谱系聚类算法具有两种类型:聚集法和分裂法。聚集法从 个只含单 一样本的聚类开始,然后逐步将这些类合并。聚集法的过程是从下往上。分裂法 的过程则是从上往下。 2 、基于模糊图论的最大支撑树方法 基于模糊图论的最大支撑树方法的思想是利用图论中的有关理论,在计算各 个数据对象之间的相似度后,用图来表示模糊相似关系,然后求该图的最大支撑 树【1 6 】。在给定的给定阈值口下,截断最大支撑树中权值小于口的边,得到的若干 连通子图就构成了口上的聚类。以下给出基于模糊图论的最大支撑树方法的一般 步骤。 算法描述: 计算数据对象之间的模糊相似度,建立模糊相似矩阵兵; 将膏,表示成由刀个结点所构成的模糊图g = 【x ,e 】,使g 中任意两结点 x f ,x _ ,之间都有一条边相连接,且赋该边权值为勺; 将图g 中最大权值的边勺放入集合c 中,将乃边上的新结点放入集合丁中; 从丁中每一结点与丁外的结点组成的边权值中找出其中最大的名,放入c 中, 重复迭代直至丁中含有所有以个结点,则停止,此时g 中的边就构成了最大模糊 支撑树z 给定阈值口,口 o ,1 】,求口。截集,将乙。x 中小于口的边断开,使相连各结点构 成一类在各种口水平上进行分类,所得分类由细变粗,各结点对象逐渐归并,从而 形成动态聚类谱系图。 3 、基于目标函数的模糊聚类方法 伴随着模糊集理论的形成、发展和深化,r u s p i n i 率先提出了模糊划分的概 念。以此为起点和基础,模糊聚类理论和方法迅速蓬勃发展起来。针对不同的应 用,人们提出很多模糊聚类算法比较典型的有基于相似性关系和模糊关系的方 法、基于模糊等价关系的传递闭包方法、基于模糊图论的最大支撑树方法,以及 基于数据集的凸分解、动态规划和难以辨识关系等方份。然而,上述方法均不能 适用于大数据量的情况,难以满足实时性要求较高的场合,因此实际应用并非广 1 4 第3 章模糊聚类方法及应用 泛,现在该方面的研究正在逐步减少。 实际中受到普遍欢迎的是基于目标函数的模糊聚类方法,也就是说,把聚类 归结成一个带约束的非线性规划问题,通过优化求解获得数据集的模糊划分和聚 类。该方法设计简单,解决问题的范围广,还可以转化为优化问题而借助经典数 学的非线性规划理论求解,芬易于在计算机上实现。因此,随着计算机的应用和 发展,基于目标函数的模糊聚类算法成为新的研究热点。 在基于目标函数的聚类算法中模糊c 均值( f c m ,f u z z yc m e a j l s ) 类型算法的 理论最为完善、应用最为广泛。模糊c 均值类型的算法最早是从硬聚类目标函 数的优化中导出的。为了借助目标函数法求解聚类问题,人们利用均方逼近理论 构造了带约束的非线性规划函数,从此类内平方误差和,成为聚类目标函数的 普遍形式。为极小化该目标函数面采取的p i k 莉迭代优化方案就是著名的c 均值 ( h c m ) 算法和i s o d a t a 算法。模糊划分概念提出后,d 啪首先把w g s s 函数1 扩展到z 一类内加权平均误差和函数,后来b e z d e k 又引人一个参数m ,把j 2 推广到一个目标函数的无限族,并给出了交替优化( a o ) 算法,即为人们所熟知 的f c m 算法。从此,奠定了f c m 算法在模糊聚类中的地位。 3 2 3 模糊聚类方法评价 谱系聚类法及基于模糊图论的的最大支撑树方法不能适应大数据量的情况, 难以满足实时性要求较高的场合,因此实际应用并不广泛,该方面的研究正逐步 减少;基于目标函数的模糊聚类方法,设计简单,解决问题范围广,还可有转化 为优化问题而借助经典数学的非线性规划理论求解,并易于在计算机上实现。因 此,随着计算机的飞速发展,基于目标函数的模糊聚类算法成为新的研究热点1 : 3 3 模糊聚类方法在客户细分中的应用 模糊聚类方法在客户细分中的应用,国外目前有通过应用多向综合模糊等级 聚类方法对客户特征进行定性和定量的研究,进行客户细分。h 屿t 叽g l a i 提 出将客户等级分类方法用于日益繁杂多变的商务物流市场的高端物流方面。提出 运用此方法,为在按行程进行物流运作前,将客户群进行聚类。该方法是在模糊 1 5 第3 章模糊聚类方法及应用 聚类技术的基础上发展而来的,包括:二进制转换,模糊相关矩阵的产生,客户 聚类分析。像这样的客户群体聚类方法已被应用于在物流过程中的行程安排运算 之前。该研究将促进对于时点基准的物流控制和物流管理的进步研究。d e v i l l e z 通过对最佳阈值的选择研究,确定基于模糊聚类分析的最优分类数目,r j 提出新 二阶段法,应用聚类方法和k 均值法进行客户细分,并通过人工神经网络加以实 现。h m s c h k a 提出一种最大似然聚类方法对客户的价格弹性指标、销售满意度指 标、品牌忠诚度指标等指标因素建立模型q 一m n lc h o i c e m o d e l s ) 进行细分。 c h u l l 争y u a n “u 提出应用层次分析法决定r f m 变量( 赋予权重的) 的相对重 要性,来评估客户终身价值c l v ;并应用聚类方法根据赋有权重的r f m 值对客 户进行分类。这个简单的计算加权和的方法被用来推导客户终身价值c l v 的分类 计算,从而完成客户细分。h u 曲s 提出了计算r f m 分值的方法;同时,s t o n e 假定 了r f m 变量具有不同的权重,它们依赖于企业特征。为了分析使用信用卡支付 的客户价值,s t o n e 建议将最高的权重赋予购买数上,然后是购买时间段,然后 是购买时间,而将最小的权重赋予购买总数。当各种各样的组合和权重被假定, 判定和权衡r f m 变量仍是一个主要问题。因此,c h u n g y r u a nl i u 运用层次分析 法( a h p ) 通过决定实施者的比例评估每个i 江m 变量的权重指数。同时k 一近邻平 均法,作为聚类方法中最为普遍应用的方法,在计算i 讧m 值的基础上,被用来 将客户分成具有相似终身价值或忠诚度的一类。这样每个目标客户市场可被进一 步用简单的权重加和的方法细分。 国内模糊聚类方法在客户细分中的应用,目前在数据仓库中进行数据挖掘正 逐渐成为c i 蝴中最为核心的部分。从c i 洲中数据分析的不确定性,国内有提 出采用模糊聚类的分析方法来分析、预测客户行为另有在分析传统模糊聚类分 析方法的基础上,卢宗华提出种建立模糊相似矩阵r 的新方法,以及能够充分 体现决策者偏好和经验的多向综合模糊聚类方法。该方法简单、实用,能够全面 反映事物的特征,具有一定的实用价值。此外,国内还提出一种用于数据挖掘的 基于模糊集的聚类分析方法,其中将聚类分析的实例和程序模块流程用于整个聚 类的全过程。再有,国内又提出在研究客户关系评价和数据挖掘过程中常见的数 据聚类方法的基础上,在数据挖掘中引入了模糊聚类分析的方法,其中分析了该 方法在数据挖掘过程中的特性,并讨论了其在大型数据库中的应用。因为客户的 1 6 第3 章模糊聚类方法及应用 价值对每个企业来说衡量的标准是不同的, 所以提出首先将企业现有的客户进 行聚类,利用聚类结果按客户价值给客户赋以类标记,类标记总共有四种,即高 价值客户、最具增长性客户、普通客户、负价值客户。再利用c 4 5 决策树算法, 建立分类模型,描述出高价值客户的具体特征。 1 7 第4 章导向性动态聚类算法与电信客户细分研究 第4 章导向性动态聚类算法与电信客户细分研究 4 1 导向性与a h p 方法 4 1 1 导向性概念 电信客户数据有着数量巨大,属性众多的特点n 刭。在运用传统的聚类算法来 进行电信客户细分时发现有以下不足:一是聚类算法结果完全由聚类属性和算法 决定,无法保证能得到某个特定的类。一些包含重要信息的特征类往往在聚类结 果中无法体现:二是聚类算法使用的属性不宜过多,否则将导致信息利用不充分。 一般来说,聚类属性在1 0 个以内时,能得出特征明显的类。1 0 个后,聚类 结果中无特征类的比重快速上升。属性的选择直接导致了客户信息利用不充分。 这些不足是由于聚类算法与电信客户数据不完全适应导致的。因此,普通聚类算 法得出的客户细分,在指导实际市场工作中往往出现聚类结果难以解释、市场针 对性不强、与企业战略联系不紧密等诸多缺陷。 为了弥补以上不足,我们针对电信客户细分,设计了一种带有导向性的聚类 方法。本方法以市场营销为导向,将进行市场营销复杂问题的决策过程模型化、 数量化,可以将市场营销的总目标分解为若干层次和若干因素,在各因素之间进 行简单的比较和计算,就可以得出不同电信数据各种属性重要性程度的权重,从 而为决策方案的选择提供依据。 4 1 2a h p 方法 具体采用a h p ( 层次分析法) 方法实现,我们首先确定为市场营销服务的 总目标,再由市场营销中4 p 的要素派生出二级指标,也就是产品质量稳定性、 潜在价值、利于促销、价格敏感,最后由二级指标派生出三级指标:信号强度、 网络拥塞、稳定性、即时性增值性、方便度、可提升性大众化、优惠度、宣传影 响力、同类产品影响度、价格下调影响、套餐影响度。这样就构造出反映有利于 市场营销总指标的本质属性和内在联系的递阶层次结构。 1 8 第4 章导向性动态聚类算法与电信客户细分研究 图4 1a h p 决策分析法层次结构示意图 灿 p 决策分析法,是一种将决策者对复杂问题的决策过程模型化、数量化 的过程n3 1 。通过这种方法,可以将复杂问题分解为若干层次和若干因素,在各因 素之间进行简单的比较和计算,就可以得出不同方案重要性程度的权重,从而为 决策方案的选择提供依据。 a h p 决策分析方法的基本过程,大体可以分为如下

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论