系统工程3-2聚类分析.ppt_第1页
系统工程3-2聚类分析.ppt_第2页
系统工程3-2聚类分析.ppt_第3页
系统工程3-2聚类分析.ppt_第4页
系统工程3-2聚类分析.ppt_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

系统工程(System Engineering),3-2 聚类分析 Cluster Analysis,什么是聚类分析 聚类分析是根据“物以类聚”的道理,对样品(观测量)或指标(变量)进行分类的一种多元统计分析方法。 将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。 聚类分析的目的: 使类内对象的同质性最大化和类间对象的异质性最大化。 原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。,聚类分析的基本思想,聚类分析的应用:无处不在 早在孩提时代,人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗,动物和植物 谁经常光顾商店,谁买什么东西,买多少? 按忠诚卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类 这样商店可以. 识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购) 刻画不同的客户群的特征(用变量来刻画,就象刻画猫和狗的特征一样),聚类分析的基本思想,为什么这样分类?(分类的好处) 因为每一个类别里面的人消费方式都不一样,需要针对不同的人群,制定不同的关系管理方式,以提高客户对公司商业活动的参与率。 挖掘有价值的客户,并制定相应的促销策略: 如,对经常购买酸奶的客户 对累计消费达到12个月的老客户 针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低!,聚类分析的基本思想,如:对企业的经济效益进行评价时,建立了一个由多个指标组成的指标体系,由于信息的重叠,一些指标之间存在很强的相关性,所以需要将相似的指标聚为一类,从而达到简化指标体系的目的。,聚类分析的基本思想,基本思想: 是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完毕. 相似样本或指标的集合称为类。 问题:如何来选择样品(或指标)间相似的测度指标,如何将有相似性的类连接起来?,聚类分析的基本思想,聚类分析的类型有: 对样本分类,称为Q型聚类分析 对变量分类,称为R型聚类分析 Q型聚类是对样本进行聚类,它使具有相似性特征的样本聚集在一起,使差异性大的样本分离开来。 R型聚类是对变量进行聚类,它使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的。,聚类分析的类型及方法,样品聚类:对观测量(Case)进行聚类(不同的目的选用不同的指标作为分类的依据,如选拔运动员与分课外活动小组)。 变量聚类:找出彼此独立且有代表性的自变量,而又不丢失大部分信息。在生产活动中不乏有变量聚类的实例,如:衣服号码(身长、胸围、裤长、腰围)、鞋的号码。变量聚类使批量生产成为可能。,聚类分析的类型及方法,聚类分析的方法: 系统聚类(层次聚类) 非系统聚类(非层次聚类) 系统聚类法包括:凝聚方式聚类、分解方式聚类 非系统聚类法包括:模糊聚类法、K均值法(快速聚类法)等等,聚类分析的类型及方法,以系统聚类法为例,聚类分析的类型及方法,样本或变量的相似性程度的数量指标: 距离 它是将每一个样品看作p维空间的一个点,并用某种度量方法测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。 相似系数 性质越接近的变量或样品,它们的相似系数越接近于1或一l,而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类; 样本分类(Q型聚类)常以距离刻画相似性 指标分类(R型聚类)常以相似系数刻画相似性,相似性度量,常用距离 明考夫斯基距离(Minkowski distance) 明氏距离有三种特殊形式: 绝对距离(Block距离):当q=1时,相似性度量,常用距离 明氏距离有三种特殊形式: 欧氏距离(Euclidean distance):当q=2时 切比雪夫距离:当 q= 时,相似性度量,明考夫斯基距离主要有以下两个缺点: 明氏距离的值与各指标的量纲有关,而各指标计量单位的选择有一定的人为性和随意性,各变量计量单位的不同不仅使此距离的实际意义难以说清,而且,任何一个变量计量单位的改变都会使此距离的数值改变从而使该距离的数值依赖于各变量计量单位的选择。 明氏距离的定义没有考虑各个变量之间的相关性和重要性。实际上,明考夫斯基距离是把各个变量都同等看待,将两个样品在各个变量上的离差简单地进行了综合。,相似性度量,当各变量的单位不同或测量值范围相差很大时,不应直接采用明氏距离,而应先对各变量的数据作标准化处理,然后用标准化后的数据计算距离。 常用的标准化处理: 其中 为第j个变量的样本均值; 为第j个变量的样本方差。,相似性度量,二、相似系数 相似系数(或其绝对值)越大,变量之间的相似性程度越高;反之,越低。聚类时,比较相似的变量归为一类,不太相似的变量归为不同的类。 变量xi与xj的相似系数用cij表示,满足以下三个条件,相似性度量,相似系数的表示方法 夹角余弦:-1cos1 相关系数:-1rij1 变量间的距离: 利用相似系数来定义距离 利用样本协差阵来定义距离 把变量Xi的n次观测值看成n维空间的点,在n维空间中定义m个变量间的距离。,相似性度量,相关系数 设 和 是第i和j个样品的观测值,则二者之间的相似测度为:,相似性度量,相似系数除常用来度量变量之间的相似性外有时也用来度量样品之间的相似性,同样,距离有时也用来度量变量之间的相似性。 由距离来构造相似系数总是可能的,如令 这里dij 为第i 个样品与第j个样品的距离,显然cij 满足定义相似系数的三个条件,故可作为相似系数.,相似性度量,系统聚类法,系统聚类法是聚类分析诸方法中用得最多的一种。 基本思想:开始将个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其他类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样品合并为一类。 常用的系统聚类方法: 最短距离法 最长举例法 中间举例法 重心法,系统聚类法基本步骤,1. 选择样本间距离的定义及类间距离的定义; 2. 计算n个样本两两之间的距离,得到距离矩阵 3. 构造个类,每类只含有一个样本; 4. 合并符合类间距离定义要求的两类为一个新类; 5. 计算新类与当前各类的距离。若类的个数为1,则转到步骤6,否则回到步骤4; 6.画出聚类图; 7.决定类的个数和类。,例: 为了研究辽宁等5省1991年城镇居民生活消费的分布规律,根据调查资料做类型分类,用最短距离做类间分类。资料如下:,聚类分析,将每一个省区视为一个样本: G1=辽宁,G2=浙江,G3=河南,G4=甘肃,G5=青海 采用欧氏距离: d12 =(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94- 13.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)20.5=11.67 d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21,聚类分析,根据5个省区之间的欧式距离,用D0表示距离矩阵(对称阵,故给出下三角阵) 因此将3.4合并为一类,为类6,替代了3、4两类 类6与剩余的1、2、5之间的距离分别为: d(3,4)1=min(d31,d41)=min(13.80,13.12)=13.12 d(3,4)2=min(d32,d42)=min(24.63,24.06)=24.06 d(3,4)5=min(d35,d45)=min(3.51,2.21)=2.21,得到新矩阵 合并类6和类5,得到新类7 类7与剩余的1、2之间的距离分别为: d(5,6)1=min(d51,d61)=min(12.80,13.12)=12.80 d(5,6)2=min(d52,d62)=min(23.54,24.06)=23.54

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论