误差分析课件聚类分析之快速聚类法.ppt_第1页
误差分析课件聚类分析之快速聚类法.ppt_第2页
误差分析课件聚类分析之快速聚类法.ppt_第3页
误差分析课件聚类分析之快速聚类法.ppt_第4页
误差分析课件聚类分析之快速聚类法.ppt_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,聚类分析的快速聚类法,目录,分类,俗语说,物以类聚、人以群分。 但什么是分类的根据呢? 比如,要想把中国的县分成若干类,就有很 多种分类法; 可以按照自然条件来分, 比如考虑降水、土地、日照、湿度等各方面; 也可以考虑收入、教育水准、医疗条件、基础设施等指标; 既可以用某一项来分类,也可以同时考虑多项指标来分类。,基本思想是:通过定义样品或变量间“接近程度”的度量,以此为基础,将“相近”的样品或变量归为一类 。,聚类分析和判别分析是研究分类问题的数据分析方法。 聚类分析和判别分析的比较,引入:如何度量远近?,如果想要对100个学生进行分类,如果仅仅知道他 们的数学成绩,则只好按照数学成绩来分类;这些成绩在直线上形成100个点。这样就可以把接近的点放到一类。 如果还知道他们的物理成绩,这样数学和物理成绩就形成二维平面上的100个点,也可以按照距离远近来分类。 三维或者更高维的情况也是类似;只不过三维以上的图形无法直观地画出来而已。,设X= 为所关心的p个指 标,对此指标作n次观测得n组观测值 称这n组观测数据为n个样品。这样,每个样品可看成p维空间的一个点,n个样品组成p维空间的n个点,我们可以用各点之间的距离来衡量个样品点之间的靠近程度。,样品间相似性的度量,广义的“距离”:,由于不同指标通常有不同的量纲,这会引起各取值的分散程度差异 较大,有时会造成很不合理的结果,为了消除此种影响,常需要在 分析前对数据进行标准化处理。,的欧氏距离就是方差加权距离。,?,6 马氏距离,=,=,-,=,-,-,-,=,-,-,=,-,n,i,i,T,n,i,i,i,n,j,i,T,j,i,j,i,x,n,x,x,x,x,x,n,S,x,x,x,S,x,x,S,x,x,x,x,d,1,1,2,1,1,1,),)(,(,1,1,),(,),(,),(,其中,算得的协方差矩阵:,是由样品,其中,L,令,形成n个样品,两两之间的距离矩阵:,其中,思想:首先将样品粗糙得分类,然后再依据样品间的距离按一定规则逐步调整,直至不能再调整为止。 适合于:样本数目较大的数据集的聚类分析 局限性:需要事先指定分类的数目,而且此数目对最终分类结果有较大影响。,解决办法:实际中一般要对多个分类的数目进行尝试,以找出合理的分类结果,快速聚类分析及实例,1 选择聚点(聚类中心点) 经验选择 将n个样品人为地(或随机地)分为k类, 以每类的均值向量(称为重心)作为聚点。 最大最小原则,先选择所有样品中相距最远的两个样品为初始的两个聚点,然后,选择第3个聚点(与前两个聚点的距离最小者 ), 按相同的原则依次选取下去,直至选出k个聚点。,(1)随机选择聚类种子点或中心点; (2)将每个观察样本分配给最近的种子; (3)重新把每个聚集中的中心点作为种子; (4)不断重复上述过程直到种子的变化 足够小为止。,快速聚类法的步骤,快速聚类法的步骤,2.从,出发,计算新的聚点集合,,以,的重心作为新的聚点:,其中,是类,中的样品数。这样,得到新的聚点集合,从,出发,将样品作新的分类。记,得到分类,这样依次进行下去。,3.设在第m步得到分类,实例:国产轿车市场竞争格局的快速聚类分析,通过几个主要的汽车网站,收集2006年11 月6- 12 日 目前汽车产品的车型主要参数和厂家指导价.利用SPSS 软件, 采用聚类分析的方法, 对目前主要的轿车产品进行了聚类处理。,车型的生产企业和企业所属集团代码的说明,按照上述的方法和分类原则进行数据收集,共产生了158个车型及其相关数据涵盖了轿车市场绝大部分生产企业和车型,可视为国产轿车的总体,所以该研究能反映出目前国产轿车竞争的全貌。,聚类分析过程及结果,由研究者指定聚类成多少类( 如k个) SPSS 确定k个初始类中心点 迭代过程( Iteration History) 聚类结果,在确定聚类数目的过程中, 尝试了聚类数为8- 15 个共8 个聚类方案, 以有助于识别相竞争的车型, 并尽可能与轿车级别的划分相一致为判断依据, 13 个聚类数所得到的结果是最为令人满意的。,SPSS 根据样本数据的情况选择k 个有代表性的样本数据作为初始类中心, 初始类中心也可以由用户自行指定。,SPSS 逐一计算每一个记录到各个类别中心点的欧氏距离, 把各个记录按照距离最近的原则归入各个类别, 并计算新形成的类别中心点; 按照新的中心位置, 重新计算每一记录距离新的类别中心点的距离, 并重新进行归类, 更新类别中心点; 重复, 直到达到终止迭代的判断要求为止。,聚类结果,直观上我们可以发现: 11类和12类间距离最小,说明低端产品的差异相对较小 10类和7类类间的距离最大,说明高端产品之间差异增大 第11类主要为普及型轿车,这类产品是市场竞争最为激烈的领域,为进一步展示各车型间的竞争关系,应对其进行再次聚类。,排

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论