研究样品或变量的亲疏程度的数量指标有两种一种叫距离.ppt_第1页
研究样品或变量的亲疏程度的数量指标有两种一种叫距离.ppt_第2页
研究样品或变量的亲疏程度的数量指标有两种一种叫距离.ppt_第3页
研究样品或变量的亲疏程度的数量指标有两种一种叫距离.ppt_第4页
研究样品或变量的亲疏程度的数量指标有两种一种叫距离.ppt_第5页
免费预览已结束,剩余71页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第10章聚类分析ClusterAnalysis,1聚类分析问题2相似性度量3聚类的准则4聚类方法,1聚类分析的基本问题,1)聚类问题2)对象特征的描述3)数据的预处理,1)聚类问题,俗语说,“物以类聚、人以群分”,其含义是:具有类似特性的对象聚集成一类,聚类分析(ClusterAnalysis)是研究“物以类聚”的一种多元统计分析方法。,分类学是人类认识世界的基础科学,在实际问题中经常需要分类:,古生物研究中,通过挖掘出来的一些骨骼的形状和大小将它们进行科学的分类;地址勘探中,通过矿石标本的物探、化探指标要将样本进行分类;,1)聚类问题,随着人们对自然、社会问题研究的不断深入,对分类的技术要求越来越高,仅凭专业知识和经验已经不能满足要求,促使人们研究更为精确的数值分类方法,多元统计分析方法被引入到分类中来,于是从数值分类学逐渐分离出一个新的分支:聚类分析。,聚类分析研究的目的将相似的对象归并成类。聚类分析研究的主要内容如何度量相似性;如何构造聚类方法。,1)聚类问题,聚类分析的基本思想是认为我们所研究的样本或指标(变量)之间存在着程度不同的相似性(亲疏关系)。于是根据一批样本的多个观测指标,具体找出一些彼此之间相似程度较大的样本(或指标)聚合为一类。,分类:用已知类别的样本训练集来设计分类器(监督学习)聚类(集群):事先不知样本的类别,而利用样本的先验知识来构造分类器(无监督学习),分类与聚类的区别,1)聚类问题,自然条件?-降水、土地、日照、湿度等特性。发展水平?-收入、教育水准、医疗条件、基础设施等指标。,如:要将中国的县划分成若干类型,如何分?,需要考虑以下问题1)用什么来描述对象“县”的特性?对象的特征描述问题,既可以用某一项来分类,也可以同时考虑多项指标来分类。,2)如何度量两个县类似或者相似的程度?相似度描述问题,3)类似到什么程度两个县可以聚到同一类?成类准则问题,4)如何聚类?聚类策略与方法问题,1)聚类问题,如果想要对100个学生进行分类,如果仅仅知道他们的数学成绩,则只好按照数学成绩来分类;这些成绩在直线上形成100个点。这样就可以把接近的点放到一类。,如果还知道他们的语文成绩,这样数学和语文成绩就形成二维平面上的100个点。,聚类分析要解决的问题,需要考虑以下问题,2)相似度描述问题,3)成类准则问题,4)聚类策略与方法问题,1)对象的特征描述问题,假设有n个对象,每一个对象都有p个特征值。它们所对应的特征数据可用下表给出。,2)对象特征的描述,2)对象特征的描述,为了将样本进行分类,就需要研究样品之间的关系;而为了将变量进行分类,就需要研究变量之间的关系。但无论是样品之间的关系,还是变量之间的关系,都是用变量来描述的,变量的类型不同,描述方法也就不同。通常,变量按照测量它们的尺度不同,可以分为三类。,(1)间隔尺度。指标度量时用数量来表示,其数值由测量或计数、统计得到,如长度、重量、收入、支出等。一般来说,计数得到的数量是离散数量,测量得到的数量是连续数量。在间隔尺度中如果存在绝对零点,又称比例尺度。,2)对象特征的描述,(2)顺序尺度。指标度量时没有明确的数量表示,只有次序关系,或虽用数量表示,但相邻两数值之间的差距并不相等,它只表示一个有序状态序列。如评价酒的味道,分成好、中、次三等,三等有次序关系,但没有数量表示。,(3)名义尺度。指标度量时既没有数量表示也没有次序关系,只有一些特性状态,如眼睛的颜色,化学中催化剂的种类等。在名义尺度中只取两种特性状态的变量是很重要的,如电路的开和关,天气的有雨和无雨,人口性别的男和女,医疗诊断中的“十”和“一”,市场交易中的买和卖等都是此类变量。,3)数据的预处理,描述对象的特征常常需要多个特性值。不同的特性值数据往往具有不同的单位(量纲),其数值的变异范围可能差别很大,这就会对分类结果产生影响。因此当待聚类对象的特征确定之后,在进行聚类分析之前,首先要对聚类用到的特征进行数据的归一化处理。,3)数据的预处理,总和标准化,这种标准化方法所得到的新数据满足,3)数据的预处理,标准差标准化,其中,这种标准化方法所得到的新数据满足,3)数据的预处理,极大值标准化,经过这种标准化所得的新数据,各分量的极大值为1,其余各数值小于1。,极差的标准化,经过这种标准化所得的新数据,各分量的极大值为1,极小值为0,其余的数值均在0与1之间。,2相似性度量,1)样本之间的相似性度量2)类之间的相似性度量,另一种叫相似系数,性质越接近的变量或样品,它们的相似系数越接近于1或一l,而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类。,研究样品或变量的亲疏程度的数量指标有两种,一种叫距离,它是将每一个样品看作p维空间的一个点,并用某种计算方法来度量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。,用d(x,y)表示样本x与样本y之间的距离.用dij=d(xi,xj)表示第样本xi与样本xj之间的距离.,1)样本之间的相似性度量,明科夫斯基距离,欧氏距离,绝对值距离,切比雪夫距离,其中0,明考夫斯基距离主要有以下两个缺点明氏距离的值与各指标的量纲有关,而各指标计量单位的选择有一定的人为性和随意性,各变量计量单位的不同不仅使此距离的实际意义难以说清,而且,任何一个变量计量单位的改变都会使此距离的数值改变从而使该距离的数值依赖于各变量计量单位的选择。明氏距离的定义没有考虑各个变量之间的相关性和重要性。实际上,明考夫斯基距离是把各个变量都同等看待,将两个样品在各个变量上的离差简单地进行了综合。,1)样本之间的相似性度量,杰氏距离(Jffreys确定评价聚类结果的准则函数;给出某种初始分类,用迭代法找出使准则函数取极值的最好的聚类结果。,选凝聚点,初始分类,分类合理否,最终分类,修改分类,Y,N,动态聚类框图,凝聚点就是初始分类的聚类中心凭经验选凝聚点,根据问题的性质、数据分布,从直观上看来较合理的凝聚点k;将全部样本随机分成k类,计算每类重心,把这些重心作为每类的凝聚点;,凝聚点的选取方法,按密度大小选凝聚点以每个样本作为球心,以d为半径做球形;落在球内的样本数称为该点的密度,并按密度大小排序。首先选密度最大的作为第一个凝聚点,即第一个聚类中心。再考虑第二大密度点,若第二大密度点与第一凝聚点的距离大于d1(人为规定的正数)则把第二大密度点作为第二凝聚点,否则不能作为凝聚点,这样按密度大小考察下去,所选凝聚点间的距离都大于d1。d1太小,凝聚点太多,d1太大,凝聚点太小,一般选d12d。对凝聚点内的密度一般要求大于T。T0为规定的一个正数。用前k个样本点作为凝聚点。,凝聚点就是聚类中心,计算其它样本到聚类中心的距离,把所有样本归于最近的聚类中心点,形成初始分类,再重新计算各聚类中心,称为成批处理法。选一批凝聚点后,依次计算其它样本的归类,当计算完第一个样本时,把它归于最近的一类,形成新的分类。再计算新的聚类中心,再计算第二个样本到新的聚类中心的距离,对第二个样本归类。即每个样本的归类都改变一次聚类中心。此法称为逐个处理法。,初始分类和调整,直接用样本进行初始分类,先规定距离d,把第一个样品作为第一类的聚类中心,考察第二个样本,若第二个样本距第一个聚类中心距离小于d,就把第二个样本归于第一类,否则第二个样本就成为第二类的聚类中心,再考虑其它样本,根据样本到聚类中心距离大于还是小于d,决定分裂还是合并。,初始分类和调整,如图所示,随着初始分类的类数k的增大,准则函数J下降很快,经过拐点A后,下降速度减慢。拐点A的k值k*就是最佳初始分类。,最佳初始分类,4)k均值法,又称为快速样本聚类法,是非系统聚类中最常用的聚类法。优点:占内存少、计算量小、处理速度快,特别适合大样本的聚类分析。缺点:应用范围有限,要求用户制定分类数目(要告知),只能对观测量(样本)聚类,而不能对变量聚类,且所使用的聚类变量必须都是连续性变量。,1)初始化。输入样本集,指定聚类的数目k,按某种方法选择k个凝聚点,作为初始聚心。2)分类。将其它样本按照与聚心就近的原则归类,3)计算新的聚心。计算各个类的中心位置,即均值,作为新的聚心。4)判断。若聚类结果没有达到要求,转到步骤2),否则,停止迭代。5)输出聚类结果。,k均值法计算步骤,1)聚类结果的要求,(1)由专业知识判定。(2)聚类结果使某个准则函数达到最值。(3)两次迭代计算的聚心之间距离的平均改变量小于某个给定的值。(4)迭代达到规定的次数。,k均值法说明,2)k值的确定,由专业知识确定。,饮料数据(drink.sav),16种饮料的热量、咖啡因、钠及价格四种变量,SPSS实现(K-均值聚类),以数据drink.sav为例,在SPSS中选择AnalyzeClassifyK-MenasCluster,然后把calorie(热量)、caffeine(咖啡因)、sodium(钠)、price(价格)选入Variables,在NumberofClusters处选择3(想要分的类数),如果想要知道哪种饮料分到哪类,则选Save,再选ClusterMembership等。注意k-均值聚类只能做

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论