(计算机软件与理论专业论文)模糊聚类算法研究及在crm中的应用.pdf_第1页
(计算机软件与理论专业论文)模糊聚类算法研究及在crm中的应用.pdf_第2页
(计算机软件与理论专业论文)模糊聚类算法研究及在crm中的应用.pdf_第3页
(计算机软件与理论专业论文)模糊聚类算法研究及在crm中的应用.pdf_第4页
(计算机软件与理论专业论文)模糊聚类算法研究及在crm中的应用.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

(计算机软件与理论专业论文)模糊聚类算法研究及在crm中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西矧太攀矮学霞论文 模糊聚类算法研究及在c r m 中静应用 计算税较佟与蓬论专韭 研究生:何敏攒辱教辩:张洪伟教授 聚类分桥,是在凭凭骏知识无措导下进行数据分析的种数据挖掘技术。 逶道先进舞法馥猃当采霜,敬箍潜藏靛有侨稳兹信息,提高数据分析帮瓣释滟 质量,也为箭续其它数据分析和整理工具对数据的再处理或理解提供科学的判 纛手段。在现实整器中,许多骞溪事镶之闻躺秀疆毽轾是模糊静,对事凌运行 分类时就必然伴随着模糊性,由抗产难了模糊聚类分析。 零文在介缮聚粪分裾玖及貘餐理论蘩蒸奉虢念籁褥美黧谖黪鏊麓之主,瓣 述了模糊i s o d a t a 聚类算法的基本原理和步骤,详细说明了邋过迭代过程完成 聚类豹遘疆。莠盈分耩了冀箨法,愆伐瑶实虢。零文怼模赣i s o d a t a 舞法中禳 值的选取方法遴行了分析和研究,采用模糊聚豢最大矩阵元法确定分类数和彳霉 妥嵇始菇分簿;蘧终,还逶遗理论分辑藉爱复试验,谯伲了模穰i s o d a t a 算法 中其它参数纳取值;最后,褥到了改谶的模糊i s o d a t a 算法。该算法减小了辩 勰蕊麓敏蘧蛙,蒙鬟器裹效,结莱雯稳定。 客户关系管理f c 昶m ) 是一种管理壤念,也是对以客户为中心的商妲模型提 供支持戆一整套软系统。在客户关系警瑾熬滚程中,客户枣凌蔑摸庞大,必 须根据客户的特点对客户进行细分,并在j 筠:瑟础上对不同的客户类剐提供有针 对瞧兹差异纯鼹务。 本文针对e 蹦系统中迪甥要解决的客户分类问题,基于改进的模糊i s o d a t a 算法,秘蘧了客户分类模鍪。系统焉a s p 黧m i c r o s o f ts 麓s e r v e r 实堍,莠灌 过大鬣现实数据的训练,得列了比较理想的聚类结果,验证了模型的合理性、 有效装器实嚣整,荛企鲎蓑辩讫对德客户提供了释学依蠢。 关键调:聚炎分摄模凝聚类搂襁i s o d a t ac r m 客户分类 毂川大学预士学位论文 t h er e s e a r c ho ff u z z y c l u s t e r i n ga n a l y s i s a n dt h ea p p l i c a t i o ni nc r m m a j o r :c o m p u t e rs o f t w a r ea n dt h e o r y p o s t g r a d u a t e :m i nh es u p e r v i s o r :p r o f h o n g w e iz h a n g a so l l eo fd a t am i n i n gt e c h n o l o g i e s , t h ec i u s t e ra n a l y s i s 淄a n a l y z et h ed a t a w i t h o u tp r e e x i s t e n tk n o w l e d g ea n dd i r e c t i o n t h r o u g h 璐协gt h ea d v a n c e da l g o r i t h m a p p r o p r i a t e l y , i t 啪f i n dt h ev a l u a b l ei n f o r m a t i o nh i d d e ni nt h ea b u n d a n td a t aa n d i m p r o v et h eq u a l i t yo ft h ea n a l y s i sa n de x p l a n a t i o n i na d d i t i o n t h i su s a g ec a n p r o v i d et h e s c i e n t i f i cj u d g m e n tf o rs u b s e q u e n td a t aa n a l y s i sa n dp r o c e s s i n g i m p l e m e n t i nt h i sp a p e r , t h eb a s i cc o n 唧t sa n dr e l a t e dk n o w l e d g eo fc l u s t e r i n ga n df u z z y t h e o r yi sp r e s e n t e d t h cp r i n c i p l e sa n dp r o c e d u r e so ft h ec l u s t e r i n gb a s e do i lf u z z y i s o d a t aa r ea n a l y z e di nd e t a i l t h e nt h e c l u s t e r i n ga l g o r i t h ma n dp r o g r a m d e v e l o p e dt or e a l i z ei t 鞭趣p a p e ra n a l y z e da n ds t u d i e dt h es t a r t i n gv a l u es e l e c t i o n m e t h o di nt h ef u z z yi s o d 加 aa l g o r i t l u u , a n du s e dt h em e t h o do fm a x i m a lm a r x e l e m e 黯lt oa s c e r t a i nt h en u m b e ro fc l a s s i f i c a t i o n t h r o u 馥t h et h e o r e t i c a la n a l y s i s a n dt h er e p e a t e dt e s t , i to p t i m i z e do t h e rp a r a m e t e r sv a l u e si nt h ef u z z yi s o d a t a a l g o r i t h m f i n a l l y , t h ei m p r o v e df u z z yi s o d a t aa l g o r i t h m i so b t a i n e d t h e a l g o r i t h mr e d u c e ds e n s i t i v i t y t ot h es t a r t i n gv a l u e 髓ea l g o r i t h mc a nh i g h l y e f f e c t i v ec l u s t e r i n ga n a l y z ea n do b t a i n sas t a b l er e s u l t 。 c u s t o m e rr e l a t i o n s h i pm a n a g e m e m ( c r m ) i sac o n c e p to fm a n a g e m e n t ,a l s oi s as o f t w a r es y s t e m 幻p 约v i d et h es u p p o r tf o rc o m m e r c i a lm o d e lt a k i n gt h ec u s t o m e r a st h ec e n t r a l i nt h ep r o c e s s i n go fc r m ,d u et ot h ed i f f e r e n t i ao fc u s t o m e r s b a c k g r o u n d , i tm u s tc l a s s i 每t h ea :i s t o m e rb a s e do ni n d i v i d u a l 抟q h 髂t ,a n dp r o v i d e t h ed i f f e r e n ts e r v i c et ot h ed i f f e r e n ts e g m e n t a t i o nc u s t o m e r s n 、 笋 f 靼j l | 大学磁士学位论文 t h ep a p e ra i m e dt ot h eu r g e n t l yp r o b l e mo fc u s t o m e rc l a s s i f i c a t i o na n d d e s i g n e dam o d e lb a s e do nt h e 瓤l 擎磷秘f u z z yi s o d a t aa l g o r i t h mi nc r ms y s t e m t t h es y s t e mw a sr e a l i z e dw i t ha s pa n dm i c r o s o f ts q ls o w e r a tt h es a m et i m e ,t h e s y s t e mg a i n e dp e r f e c td a s s i f i c a t i o nr e s u l tt h r o u g hag r e a td e a lp r a c t i c a ld a t a i t v a l i d a t e dm t i o n a l i t y , v a l i d i t ya n dp r a c t i c a b i l i t yo ft h ec u s t o m e rc l a s s i f i c a t i o nm o d e l , p r o v i d e dt h es c i e n t i f i cb a s i st ot r e a tc u s t o m e r sd i f f e r e n t l y k e yw o r d 匿:c l u s t e r i n ga n a l y s i s ;f u z z yc l u s t e r i n g ;f u z z yi s o d a t a ;c r m ;c u s t o m e r c l a s s i l i c a t i o n m 四川大学硕士学位论文 1 引言 1 1 问题的提出 客户关系管理c 贼( c u s t o m e rr e l a t i o n s h i pm a n a g e m e n t ) 是正在兴起的一 种旨在改善企业与客户之间关系的新型管理机制。随着市场竞争的日趋激烈, 已有越来越多的企业不得不把关注的焦点由企业内部的产品转移到企业外部的 客户关系上,传统企业基于4 p ( p r o d u c t 产品,p l a c e 渠道,p r i c e 价格, p r o m o t i o n 促销) 的竞争模式已逐渐被基于客户关系的经营理念所取代,以此为 特征的客户关系管理技术与相关系统已经成为企业赢得竞争优势的重要手段 ”。c r m 是一套先进的管理思想及技术手段,它通过将人力资源、业务流程与专 业技术进行有效的整合,最终为企业涉及到客户或消费者的各个领域提供了完 美的集成,使得企业可以更低成本、更高效率地满足客户的需求,并与客户建 立起基于学习型关系基础上的一对一营销模式,从而让企业可以最大程度的提 高客户满意度及忠诚度,挽回失去的客户,保留现有的客户,不断发展新的客 户,发掘并牢牢地把握住能给企业带来最大价值的客户群。 准确的客户分类是企业有效地实施客户关系管理的基础。客户分类是根据客 户属性来划分客户集合,通过获得的客户类别来分析和预测客户的消费模式, 建立起一对一的客户服务体系,实行差异化客户管理。 由于客户分类问题涉及的因素众多,许多因素带有模糊性,并且分类的标准 因为分类目的的不同而有所不同,因此没有一种通用的方法适合各种客户分类 问题。各企业可根据客户数据库中已有的类型信息的不同和自身管理的需要进 行具体的分类。 选择模糊聚类算法的原因是由于模糊聚类相对于硬聚类( 任一元素只能属于 某一类,是非此即彼的) 能更好地体现客户特征。因为在对客户分类分析的时候, 并不能指出某个客户一定属于或一定不属于某一客户群体。恰恰相反,一个客 户样本可以属于不同的客户群模糊聚类引入了隶属度的概念,就很好地体现 了这一事实。如果采用硬聚类就不能反映出客户在属性方面的特征。而模糊聚 四川大学硕士学位论文 类则可以给出客户分别属于各类的隶属度,从而帮助营销人员制定出针对客户 的营销策略,以提高客户的价值贡献。 1 2 论文研究背景 本文涉及到聚类技术和模糊理论,在两个领域的知识飞速发展和现实实际 应用的要求不断提高的情况下,这两个领域的矩识融合到一起,形成了新的交 叉理论。在这里,有必要简单介绍一下这两个领域的背景知识。 1 2 1 聚类技术的发展 所谓聚类,就是将物理或抽象对象的集合组成为由类似的对象组成的多个 类或簇的过程“”。由聚类所生成的簇是一组数据对象的集合,同一簇中的对象 尽可能相似,而不同簇中的对象尽可能相异。通过聚类,人们能够识别密集的 和稀疏的区域,发现全局的分布模式和数据属性之间有趣的相互关系。在数据 挖掘中,聚类分析能作为一个独立的工具来获得数据分布的情况,观察每个簇 的特点,集中对特定的某些簇做进一步的分析。比如:在商务上,聚类能帮助 市场分析人员从客户基本库中发现不同类型的客户群,并且用对各类服务的满 意度来刻画不同的客户群的特征,帮助从事电子商务活动的决策者在进行决策 分析过程中能及时、准确地了解客户当前的服务需求趋势,从而给商家带来巨 大的潜在利润。此外,聚类分析还可以作为其它算法( 如特征和分类等) 的预处 理步骤,这些算法再在生成的簇上进行处理。聚类源于许多研究领域,包括数 据挖掘,统计学,机器学习,空间数据库,生物学和市场营销等,由于数据库 中收集了大量的数据,聚类分析已经成为数据挖掘领域一个非常活跃的研究课 题。 2 四川大学硕士学位论文 i 2 2 模糊理论的现状 模糊理论是在美国加州大学伯克利分校电气工程系的l a z a d e h 教授于 1 9 6 5 年创立的模糊集合理论的数学基础上发展起来的,主要包括模糊集合理论、 模糊逻辑、模糊推理和模糊控制等方面的内容。 早在2 0 世纪2 0 年代,著名的哲学家和数学家b r u s s e l l 就写出了有关“含 糊性”的论文他认为所有的自然语言均是模糊的,比如“红的”和“老的” 等概念没有明确的内涵和外延,因而是不明确的和模糊的。可是,在特定的环 境中,人们用这些概念来描述某个具体对象时却又能心领神会,很少引起误解 和歧义 美国加州大学的l a z a d e h 教授在1 9 6 5 年发表了著名的论文。文中首次提 出表达事物模糊性的重要概念:隶属函数,从而突破了1 9 世纪末笛卡尔的经典 集合理论,奠定模糊理论的基础。 1 9 6 6 年,p n m a r i n o s 发表模糊逻辑的研究报告,1 9 7 4 年,l a z a d e h 发表 模糊推理的研究报告,从此,模糊理论成了一个热门的课题。 模糊数学的基础大致朝着两个方向发展,一个方向是形式化系统,即同普 通数学的公理化一样,用逻辑语言和形式公理来攒述模糊数学。1 9 8 1 年,美国 宾夕法尼亚统计大学的w e i d u e r 通过分析对比模糊集与布尔值论域的相似性, 利用一阶逻辑提出了模糊集论的形式公理化体系。另一个方向是范畴论描述, 范畴最早是拓扑学中的概念。所谓范畴,是指一个由个体与个体之间关系所成 的一种数学体系,例如群、代数等都可以看成是范畴。用范畴论研究模糊数学 的目的是希望把模糊集论定义成某种特定的范畴。较早把用范畴论来研究模糊 集论的是加利福尼亚大学计算机科学系的教授g o g u e n o 。g o g u e n 把模糊集论的 一些特点描述成范畴论公理,从而得出模糊集论的范畴。在g o g u e n 提出的范 畴中,模糊集不再是一定要用区间【o ,1 】来描述隶属度,而可以用任意的格来描 述。这就是后来被称为l 型模糊集论的一种广义的模糊集论。 在侧重于应用的模糊数学分析中,经常应用到聚类分析、模式识别和综合 评判等方法。 3 四川大学硕士学位论文 1 3 主要研究内容 本文主要侧重于对模糊关系型数据进行聚类分析的研究。模糊聚类分析就 是把模糊数学的概念引入聚类分析中,以用来研究“物以类聚”的一种多元统 计分析方法,即用数学方法把原来样品之闻模糊关系定量地确定关系,从而客 观地进行分型划类,以便对未来事物的发生状态做出预测。 通过对模糊i s o d a t a 聚类算法的研究,分析其优点和不足,并提出改进 的方法,在验证新算法合理性的基础上,应用到实际系统中针对具体问题做以 浅析。 一、研究聚类分析技术的基本原理和一般方法,对相关技术进行了分析和 综合。 二、研究模糊聚类,分析模糊i s o d a t a 聚类算法的特点、优点和问题,并 在程序上实现,参照具体数据进行了测试和实例运行针对问题,对模糊 i s o d 期r a 聚类算法进行了改进:主要是对算法中初始划分阵和分类数的确定, 提出了使用最大矩阵元法;同时,优化了算法中的其它参数的取值。 三、研究c r m ( 客户关系管理) 的相关理论、功能,以及客户分类的概念 和实现。在c r m 系统中,实现了基于改进的模糊i s o d a t a 聚类算法的客户分 类模块,并对得到的聚类结果进行了验证和分析 1 4 论文的结构安排 本文将模糊理论融合到数据挖掘中的聚类分析方法中,研究内容侧重于模 糊聚类分析算法一模糊i s o d 触隗及算法的改进和在c r m 系统中应用。 论文共分为六章,内容安排如下: 第一章:引言部分。主要概述了论文的研究目的、课题的研究背景、论文 的主要研究工作和文章的结构安排。 第二章:聚类分析技术部分。介绍数据挖掘技术的发展,聚类分析的定义、 要求、数据类型及应用方面,并详细介绍和分析了聚类算法的分类,以及不同 算法的思想以及特点。 4 四川大学顽士学位论文 第三章:模糊聚类部分首先,介绍了模糊理论的基础知识,分析了模糊 聚类的理论发展。然后,详述了模糊i s o d a t a 算法的思想、特点以及判定算 法性能的有效性函数和样本的归属判断原则,并用代码实现了算法接着,针 对算法面临的问题,提出了改进:使用模糊聚类最大矩阵元法确定分类数和初 始划分阵,并对算法中的其它参数进行了优化,使得改进后的算法得到的聚类 结果更加稳定,算法聚类更加有效。 第四章:c r m 系统与客户分类部分。叙述了c r m 系统的历史和定义,分 析了c r m 系统的功能结构和发展。接着,针对诹m 中的客户分类,介绍了相 关理论和概念,分析了客户细分的方法和用途。 第五章:应用部分。在改进的算法基础上,实现了c r m 系统中的客户分类 模块,并对具体数据得到的客户类别进行分析,验证了改进算法的有效性。 第六章:结论部分。总结研究成果和展望下一步需要完成的工作。 四川大学硕士学位论文 2 聚类分析 聚类分析是多元统计分析的一种,也是非监督模式识别的一个重要分支。 它把一个没有类别标记的样本集按某种准则划分成若干个子集( 类) ,使相似的 样本尽可能归为一类,而不相似的样本尽量划分到不同的类中。作为一种无监 督分类方法,聚类分析己经被广泛地应用于模式识别、数据挖掘、计算机视觉 和模糊控制等许多领域。“人以群分,物以类聚”。聚类是一个古老的问题,它 伴随着人类社会的产生和发展而不断深化,人类要认识世界就必须区别不同的 事物并认识事物问的相似性,而每个概念的最初形成无不借助于事物的聚类分 析因此,聚类分析的研究不仅具有重要的理论意义,也具有重要的工程应用 价值和人文价值。 2 i 数据挖掘技术的发展 数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据 越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更 高层次的分析,以便更好地利用这些数据。日前的数据库系统可以高效地实现 数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法 根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段, 导致了“数据爆炸但知识贫乏”的现象。 用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量 数据背后的知识,这两者的结合促成了数据库中的知识发现( k d d k n o w l e d g e d i s c o v e r yi nd a t a b a s e s ) 的产生实际上,数据库中的知识发现是一门交叉性 学科,涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可 视化、高性能计算、专家系统等多个领域。从数据库中发现出来的知识可以用 在信息管理、过程控制、科学研究、决策支持等许多方面。 数据挖掘是k d d 中最核心的部分,是采用机器学习、统计等方法进行知识 学习的阶段。数据挖掘算法的好坏将直接影响到所发现知识的好坏。目前大多 数的研究都集中在数据挖掘算法和应用上。人们往往不严格区分数据挖掘和数 6 四川大学硕士学位论文 据库中的知识发现,把两者混淆使用。一般在科研领域中称为k d d ,而在工程 领域则称为数据挖掘。它泛指所有从源数据中发掘模式或联系的方法。人们接 受了这个术语,并用k d d 来描述整个数据发掘的过程,包括最开始的制定业务 目标到最终的结果分析,而用数据挖掘( d a t am i n i n g ) 来描述使用挖掘算法进行 数据挖掘的子过程。数据仓库技术的发展与数据挖掘有着密切的关系。数据仓 库的发展是促进数据挖掘越来越热的原因之一但是,数据仓库并不是数据挖 掘的先决条件,因为有很多数据挖掘可直接从操作数据源中挖掘信息。 数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种 商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访 问,进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高 级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之 间的潜在联系,从而促进信息的传递。现在数据挖掘技术在商业应用中已经可 以马上投入使用,因为对这种技术进行支持的三种基础技术己经发展成熟,他 们是嗍:海量数据搜集、强大的多处理器计算机、数据挖掘算法 近年来,数据挖掘逐渐成为数据库和人工智能等研究领域的一个热点聚 类( c l u s t e r i n g ) 是数据挖掘中重要的研究课题之一。 2 2 聚类分析的定义 将物理或抽象对象的集合分组成为类似的对象组成的多个类的过程被称为 聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对 象彼此相似,与其他簇中的对象相异“”。在许多应用中,可以将一个簇中的数 据对象作为一个整体来对待。 聚类分析是数据挖掘的一项重要功能,而聚类算法是目前研究的核心,聚 类分析就是使用聚类算法来发现有意义的聚类,即“物以类聚”。虽然聚类也可 起到分类的作用,但和大多数分类或预测不同。大多数分类方法都是演绎的, 即人们事先确定某种事物分类的准则或各类别的标准,分类的过程就是比较分 类的要素与各类别标准,然后将各要素划归于各类别中。确定事物的分类准则 或各类别的标准或多或少带有主观色彩。 7 四川大学硕士学位论文 聚类分析是归纳的,不需要事先确定分类的准则来分析数据对象,不考虑 己知的类标记。一般情况下,训练数据中不提供类标记,因为不知道从何开始, 聚类可以用于产生这种标记。对象根据最大化类内的相似性,最小化类间的相 似性的原则进行聚类或分组,它通过一些计算来把观测进行合理的分类,使得 同类的双铡比较接近,不同类的观测相差较多,即对象的聚类这样形成。所形 成的每个簇可看成一个对象类,由它可以导出规则。聚类增强了人们对客观现 实的认识,是概念描述和偏差分析的先决条件。 2 3 聚类算法要求 采用基于聚类分析方法的数据挖掘在实践中已取得了较好的效果,在实际 操作中往往不是采用单一的手段,而是采用多种手段和方法相结合。根据潜在 的各项应用,数据挖掘对聚类的典型要求有以下几方面: 可伸缩性:即不论对于小数据集还是对于大数据集,算法都应是有效的。在 很多聚类算法当中,数据对象小于2 0 0 个的小数据集合上鲁棒性很好,而对于 包含成千上万个数据对象的大规模数据库进行聚类时,将会导致有不同的偏差 结果嘲。 处理不同类型属性的能力:即既可处理数值型数据,又可处理非数值型数据 的,既可以处理离散数据,又可以处理连续域内的数据,如分类标称类型 ( c a t e g o r i c a l n o m i n a l ) ,序数型( o r d i n a l ) 。二元类型( b i n a r y ) ,或者这些数 据类型的混合。 能够发现任意形状的聚类:我们经常使用欧几里德距离或者曼哈坦距离的 许多聚类算法来确定聚类,但基于这样的距离度量的算法趋向于发现具有相近 密度和尺寸的球状簇。但对于个簇可能是任意形状的情况,提出能发现任意 形状簇的算法是很重要的n ”。 用于决定输入参数的领域知识最小化:在聚类分析当中,许多聚类算法要求 用户输入一定的参数,如希望簇的数目。聚类结果对于输入参数很敏感,通常 参数较难确定,尤其是对于含有高维对象的数据集更是如此。要求用人工输入 参数不但加重了用户的负担,也使得聚类质量难以控制。 8 四川大学硕士学位论文 处理噪声数据的能力:绝大多数现实世界中的数据库都包含了孤立点、空 缺,未知数据或有错误的数据。一些聚类算法对于这样的数据敏感,可能导致 低质量的聚类结果。 对于输入记录顺序不敏感:一些聚类算法对于输入数据的顺序是敏感的。例 如对于同一个数据集合,以不同的顺序提交给同一个算法时,可能产生差别很 大的聚类结果。研究和开发对数据输入顺序不敏感的算法具有重要的意义。 高维性:既可处理属性较少的数据,又能处理属性较多的数据。很多聚类算 法擅长处理低维数据,一般只涉及两到三维,通常最多再加二维的情况下能够 很好地判断聚类的质量。聚类数据对象在高位空间是非常具有挑战性的,尤其 是考虑到这样的数据可能高度偏斜并且非常稀疏。 基于约束的聚类嗍:在实际应用当中可能需要在各种约束条件下进行聚类。 既要找到满足特定的约束,又要具有良好聚类特性的数据分组是一项具有挑战 性的任务。 可解释性和可用性:用户期望聚类得到的信息是可理解和可用的,但是在 实际挖掘中有时往往不能令人满意。 2 4 聚类分析中的数据类型 我们研究在聚类分析中经常出现的数据类型,以及如何对其进行预处理。 假设要聚类的数据集包含n 个数据对象,这些数据对象可能表示人、房子、文 档,国家等。许多基于内存的聚类算法选择如下两种有代表性的数据结构: 数据矩阵( d a t am a t r i x ,或称为对象与变量结构) 它用p 个变量( 也称为度 量或属性) 来表现n 个对象,例如用年龄、身高、体重、性别、种族等属性来表 现对象“人”。这种数据结构是关系表的形式,或者看成n p ( n 个对象p 个 变量) 的矩阵。 x t l x t p 粕x t x m x 岫1 9 札; 四川大学硕士学位论文 相异度矩阵( d i s s i m i l a r i t ym a t r i x ,或称为对象一对象结构) 存储n 个对 象两两之间的近似性,表现形式是n x n 维的矩阵。 0 d ( 2 舯0 d ( 3 舯d ( 3 ,2 ) 0 ; a ( n 国a ( n 山0 其中d ( i ,j ) 是对象i 和对象j 之间相异性的量化表示,通常为非负数, d ( i ,j ) = d ( j ,i ) ,d ( i ,i ) = o 。对象i 和对象j 越相似或“接近”,则以d ( i ,j ) 越 接近于0 ,对象i 和对象j 的差异越大,则d ( i ,j ) 越大 因为数据矩阵的行和列含义不同,所以它经常被称为二模矩阵嘲1 ,而相异 度矩阵的行和列代表同一个实体,所以它经常被称为单模矩阵。 许多聚类算法是以相异度矩阵为基础的。如果数据是以数据矩阵的形式给 出,可以将数据矩阵转化为相异度矩阵。有的聚类算法以相似度矩阵为基础, 而不是相异度矩阵。相似度矩阵通常用距离公式计算得到。 相似度度量方法 那么对不同的变量应该如何估量相异度呢? 不同的变量估量方法是不一样 的。 区间标度变量是一个粗略线性标度的连续变量。典型的例子包括重量和高 度,经度和纬度坐标以及大气温度。 选用的度量单位将直接影响聚类分析的结果一般而言,选用的单位越小, 变量可能的值域就越大,这样对聚类结果的影响就越大因此为了避免聚类结 果对单位选择的依赖,数据应当标准化。标准化处理后,对象间的相异度是基 于距离来计算的。最常用的距离度量方法是欧几里得距离,它的定义为: d ( i ,) 一k 。一和1 2 + k :一稚j 2 ”+ i x t , 一x h , 1 2 ( 2 - 1 ) 其中f - “。,而:,) 和- ( x m x 2 ,b ) 是两个p 维的数据对象。在使 用欧几里得距离时,要特别注意样本诸测量值的选取,应是有效地反映类别属 性的特征。 另外两个著名的度量方法是曼哈坦距离( 绝对值距离) 1 0 四川大学硕士学位论文 d ( i ,) 一k 。一z ,。| + k :一x j 2j ”+ k 一l ( 2 2 ) 和明考斯基距离( 闵可夫斯基距离) a ( i ,) 一叫l x 。一z 口1 4 + 。:一x ,:1 9 + + l x ,- x p 。 ( 2 3 ) 可以看出,明考斯基距离是欧几里得距离和曼哈坦距离的概化,当q = l 时, 它表示曼哈坦距离;当q = 2 时它表示欧几里得距离。 如果对每个变量根据其重要性赋予一个权重,加权的欧几里得距离可以计 算如下: d ( ,) - m k ,一z ,。1 2 + w :k :一工托1 2 + + k 一x 扣1 2 ( 2 - 4 ) 加权也可以用于曼啥坦距离和明考斯基距离。 二元变量一个二元变量只有两个状态:o 或者1 。0 表示该变量为空,1 表 示该变量存在。例如,给出一个描述病人的变量s m o k e r ,1 表示病人抽烟,而 0 表示病人不抽烟。 如果二元变量有相同的权重,则可以得到一个两行两列的可能性表2 1 ,这 个表反映了两个对象的变量取值可能性情况。在表中,q 是对象i 和对象j 值 都为1 的变量的数目,r 是对象i 值为1 而对象j 为o 的变量的数目,s 是对象 i 值为o 而对于对象j 为l 的变量的数目,t 是对象i 和j 值都为0 的变量的数 目变量的总数是p ,p = q + r + s + t 。 表2 1 二元变量可能性表 如果二元变量的两个状态是同等价值的,并有相同的权重,则二元变量是 对称的。基于对称二元变量的相似度称为恒定的相似度。对恒定的相似度来说, 评价两个对象i 和j 的相异度的最著名的系数是简单匹配系数洲,其定义如下: 1 】 4 四川大学硕士学位论文 d ( i ,) 生 q + ,+ $ + f ( 2 - 5 ) 如果二元变量的两个状态的输出不是同样重要,那么该二元变量是不对称 的。例如一个疾病检查的肯定和否定的结果。根据惯例我们将比较重要的输出 结果,通常也是出现几率比较小的结果编码为l ,而将另一种结果编码为0 。给 定两个不对称的二元变量,两个都取1 的情况被认为比两个都取0 的情况更有 意义。基于这样变量的相似度被称为非恒定的相似度。对非恒定的相似度,最 著名的评价系数是j a c c a r d 系数删,其定义为: d ( i ,) 旦 g + ,+ s ( 2 - 6 ) 标称型、序数型和比例标度型变量 ( 1 ) 标称变量是二元变量的推广,它可以具有多于两个的状态值。例如 m a p _ c o l o r 是一个标称变量,它可能有五个状态:红色,黄色,绿色,粉红色和 蓝色。 假设一个标称变量的状态数目是m o 每一个状态值可以用字母、符号或者一 组整数来表示,则两个对象i 和j 之间的相异度可以用简单匹配方法来计算: m ,) 卫旦 ( 2 7 ) p 这里m 是匹配数即i 和j 取值相同的变量的数目而p 是全部变量的数目。 ( 2 ) 序数型变量序数型变量可以是离散的,也可以是连续的。在连续型的 序数变量中,值的相对顺序是必要的,而其实际的大小则不重要在相异度的 计算中,需要把每个变量的值域映射到 0 0 ,1 0 上,以便每个变量都有相同 的权重。然后可以采用距离的计算方法进行相异度的计算。 ( 3 ) 比例标度型变量比例标度型变量是非线性的标度取正的度量值。计算 时可以采用与处理区间标度变量相同的方法;也可以先进行对数变换,再进行 计算;也可以借用序数性变量,采用秩作为区间标度的值来对待嘲 混合类型的变量在许多真实的数据库中,对象是由混合类型的变量描述 的。一般来说,一个数据库可能包含上面列出的全部类型计算相异度时,一 种方法是将变量按类型分组,对每种类型的变量进行单独聚类分析,如果这些 四川大学硕士学位论文 分析得到兼容的结果,这种方法是可行的。但是在实际的应用中,这种情况是 不大可能的,因为数据对象可能包含多种变量类型。另一种方法是将所有的变 量一起处理,只进行一次聚类分析。但是这需要将不同类型的变量组合在单个 相异度矩阵中,把所有有意义的变量转换到共同的值域区间 0 0 ,1 0 上,这 样,当描述对象的变量是不同类型时,对象之间的相异度也能够进行计算。 2 5 主要聚类算法的分类 作为统计学的一个分支,聚类分析已经被广泛地研究了许多年,主要集中 在基于距离的聚类分析。基于k - m e a n s ,k - m e d o i d s 和其他一些方法的聚类分 析工具己具备加入到许多统计分析软件包或系统中,例如s - p l u s ,s p s s ,以及 s a s 。在机器学习领域,聚类是无指导学习( u n s u p e r v i s e dl e a r n i n g ) 的一个例 子。与分类不同,聚类和无指导学习不依赖预先定义的类和带类标号的训练事 例。由于这个原因,聚类是观察式学习,而不是事例式学习。 在数据挖掘领域,研究工作集中在为大型数据库的有效和实际的聚类分析 寻找适当的方法。活跃的研究主题集中在聚类方法的可伸缩性,方法对聚类复 杂形状和类型的数据的有效性,高维聚类分析技术,以及针对大型数据库中混 合数值和分类数据的聚类方法。 目前在文献中存在大量的聚类算法。算法的选择取决于数据的类型、聚类 的目的和应用。如果聚类分析被用作描述或探查的工具,可以对同样的数据尝 试多种算法,以发现数据可能解释的结果。 大体上,主要的聚类算法可以划分为如下几类“”: 2 ,5 1 划分方法( p a r t i t i o n i n gm e t h o d ) 嘲 给定一个n 个对象或元组的数据库,一个划分方法构建数据的k 个划分, 每个划分表示一个聚簇,并且七 。也就是说,它将数据划分为k 个组,同时 满足如下的要求:( i ) 每个组至少包含一个对象:( i i ) 每个对象必须属于且只属 于一个组,同时某些模糊划分技术中的第一个要求可以放宽。 四川大学硕士学位论文 给定要构建的划分的数目k ,划分方法首先创建一个初始划分。然后才有一 种迭代的重定位技术,尝试通过对象的划分兼移动来改进划分。一个好的划分 的一般原贝是:在同一个类中的对象之间尽可能。接近”或相关,而不同类中的 对象之问尽可能“远离”或不同。还有许多其它划分质量的评判准则。为了达 到全局最优,基于划分的聚类会要求穷举所有可能的划分。实际上,绝大多数 应用采用了以下两个比较流行的启发式方法:( i ) k - m e a n s 算法,在该算法中, 每个簇用该簇中对象的平均值来表示。( i i ) k - m e d o i d s 算法,在该算法中,每 个簇用接近聚类中心的一个对象来表示。这些启发式聚类方法对于在中小规模 的数据库中发现球状簇很适用。为了对大规模的数据集进行聚类,以及和处理 复杂形状的聚类,基于划分的方法需要进一步的扩展。 2 5 2 层次方法( h i e r a r c h i c a lm e t h o d ) 啪1 层次的方法对给定数据对象集合进行层次的分解。根据层次的分解如何形 成,层次的方法可以分为凝聚的和分裂的凝聚的方法,也成为自底向上的方 法,一开始将每个对象作为单独的一个组,然后把离得近的对象合并到一起, 直至所有的组合合并为一个( 层次的最上层) ,或者到达一个终止条件。分裂的 方法,也成为自顶向下的方法,一开始将所有的对象置于一个簇中。再迭代的 每一步中,一个簇被分裂为更小的簇,直到最终每个对象在单独的一个簇中, 或者达到一个终止条件。 层次的方法缺陷在于,一旦一个步骤( 合并或分裂) 完成,它就不能被撤销。 这个严格规定是有用的,由于不用担心组合数目的不同选择,算法代价会比较 小但是,该技术的一个主要问题是它不能更正错误的决定。有两种方法可以 改进层次聚类的结果:( i ) 在每层划分中,仔细分析对象间的“联接”,例如c u r e 和c h a m e l e o n 中的做法( i i ) 综合层次凝聚和迭代的重定位方法。首先用自底 向上的层次算法,然后用迭代的重定位来改进结果。例如在b i r c h 中的方法 典型的层次聚类算法有b i r c h , c u r e ,r o c k 等聚类算法。 1 4 四川大学硕士学位论文 2 5 3 基于密度的方法( d e n s i t y - b a s e dm e t h o d ) 嘲 绝大多数划分方法基于对象之间的距离进行聚类。这样的方法只能发现球 状的簇,而在发现任意形状的簇上遇到了困难。随之提出了基于密度的另一类 聚类方法,其主要思想是:只要邻近区域的密度( 对象或数据点的数目) 超过某一 个阈值,就继续聚类。也就是说,对给定类中的每个数据点,在一个给定范围 的区域中必须至少包含某个数目的点。这样的方法可以用来过滤“噪声”孤立 点数据,发现任意形状的簇代表算法有d b s c a n 算法、o p t i c s 算法、d e n c l u e 算法等。 2 5 4 基于网格的方( g r i d - b a s e dm e t h o d ) 咖 基于网格的方法把对象空间量化为有限数目的单元,形成了一个网格结构。 所用的聚类操作都在这个网格结构( 即量化的空间) 上进行。这种方法的主要优 点是它的处理速度很快,其处理时间独立于数据对象的数目,只与量化空间中 的每一维的单元数目有关。代表算法有s t i n g 算法、c l i q u e 算法、w a v e c l u s t e r 算法。 2 5 5 基于模型的方法( m o d e l - b a s e dm e t h o d ) 咖 基于模型的方法试图优化给定的数据和某些数学模型之间的适应性。这样 的方法经常是基于这样的假设:数据是根据潜在的概率分布生成的。基于模型的 方法主要有两类:统计学方法和神经网络方法。 概念聚类是一种统计学方法。概念聚类是机器学习中的一种聚类方法,给 出一组未标记的对象,它产生对象的一个分类模式。与传统的聚类不同,概念 聚类除了确定相似对象的分组外,还向前走了一步,为每组对象发现了特征描 述,即每组对象代表了一个概念或类。因此,概念聚类是一个两步的过程:首先 进行聚类,然后给出特征描述。概念聚类的绝大多数方法采用了统计学的途径, 在决定概念或聚类时使用概率度量。 1 5 四川大学硕士学位论文 神经网络方法将每个类描述为一个标本,标本作为聚类的原型,不一定对 应一个特定的数据实例或对象。根据某些距离度量,新的对象可以被分配给标 本与其最相似的类,被分配给一个类的对象的属性可以根据该类的标本的属性 来预测。 基于模型的方法为每个簇假定了一个模型,寻找数据对给定模型的最佳拟 合。一个基于模型的算法可能通过构建反映数据点空间分布的密度函数来定位 聚类。它也基于标准的统计数字自动决定聚类数目,考虑“噪声”数据或孤立 点,从而产生健壮的聚类方法。 2 5 6 模糊聚类方法( f u z z yc l u s t e r i n g ) 传统的聚类把每个样本严格地划分到某一类随着模糊集理论的提出,传 统聚类被推广为模糊聚类。在模糊聚类中,每个样本不再仅属于某一类,而是 以一定的隶属度属于每一类。换句话说,通过模糊聚类分析,得到了样本属于 各个类别的不确定性程度,即建立起了样本对于类别的不确定性的描述,这样 就更能准确地反映现实世界。 基于目标函数的模糊聚类方法首先由r u s p i n i m l 提出,但真正有效的算法 f 伽却是由d u n n 给出,b e z d e k 嘲又将其进一步扩展,建立起了模糊聚类理论。 从此,该类模糊聚类蓬勃发展起来,目前已经形成了庞大的体系。 前面介绍了不同的聚类方法,现在许多的方法都是将不同的方法进行综合, 以此来获得不同算法的优点。一些聚类算法集成了多种聚类方法的思想,所以 有时将某个给定的算法划分为属于某类聚类方法是很困难的。此外,某些应用 可能有特定的聚类标准,要求综合多个聚类技术在现在交叉学科蓬勃发展的 今天,不同算法之间的融和也必将持续发展。 2 6 聚类分析在数据挖掘中的应用 聚类分析可以作为其他算法的预处理步骤,这些算法再在生成的簇上进行 1 6 四j 大学硕士学位论文 处理。可作为特征和分类算法的预处理步骤,也可将聚类结果用于进一步关联 分析。 可以作为一个独立的工具来获得数据的分布情况,观察每个簇的特点,集 中对特定的某些簇作进一步分析可以用在市场细分、目标顾客定位、业绩估 评、生物种群划分等方面。如在c r m 系统中,聚类分析可以帮助市场分析人员 从客户基本库当中发现不同的客户群,并且用购买模式来刻画不同的客户群的 特征。 聚类分析可以完成孤立点挖掘。许多数据挖掘算法试图使孤立点影响最小 化,或者排除他们。然而孤立点本身可能是非常有用的。如在欺诈探测中,孤 立点可能预示着欺诈行为的存在。 四川大学硕士学位论文 3 模糊聚类算法 3 1 模糊理论 3 1 1 模糊理论的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论