聚类分析与判别分析资料_第1页
聚类分析与判别分析资料_第2页
聚类分析与判别分析资料_第3页
聚类分析与判别分析资料_第4页
聚类分析与判别分析资料_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

聚类分析与判别分析第一页,共28页。7.1K-均值(jūnzhí)聚类分析聚类分析简介做什么?把没有分类信息的资料按照相似(xiānɡsì)程度归类怎么做?系统聚类法和非系统聚类法第二页,共28页。K-均值(jūnzhí)聚类法基本原理第三页,共28页。K均值(jūnzhí)聚类法迭代终止条件两次迭代计算的聚心之间距离的最大改变量小于初始聚心间最小距离的倍到达迭代次数的上限第四页,共28页。K均值聚类的优缺点优点:占有内存少、计算量小、处理速度快,特别适合大样本的聚类分析缺点:1、应用(yìngyòng)范围有限,要求用户指定分类数目;2、只能对观测量聚类,而不能对变量聚类;3、所使用的聚类变量必须都是连续性变量。第五页,共28页。利用如下数据将以下城市(chéngshì)按照空气指标分类第六页,共28页。执行(zhíxíng)【Analyze】/【Classify】/【K-meansCluster】命令,弹出如图所示对话框第七页,共28页。结果(jiēguǒ)解读初始聚类中心表第八页,共28页。迭代(diédài)史表6次终止(zhōngzhǐ)迭代第九页,共28页。最终(zuìzhōnɡ)聚类中心表第十页,共28页。7.2系统(xìtǒng)聚类法系统聚类法的基本思想是:视观测量(或者变量)各自成为一类;找性质最接近的两个类合并成一个(yīɡè)新类,计算在新的类别分划下各类之间的距离;再将性质最接近的两类合并,直到所有模式聚成一类为止。第十一页,共28页。逐步判别法:逐步判别法与逐步回归法的基本(jīběn)思想类似,都是逐步引入变量,每引入一个“最重要”的变量进入判别式,同时也考虑较早引入判别式的某些变量,若其判别能力不显著了,应及时从判别式中剔除去,直到判别式中没有不重要的变量需要剔除,且也没有重要的变量要引入为止。视观测量(或者变量)各自成为一类;系统聚类法优点:既可以(kěyǐ)对观测量也可以(kěyǐ)对变量进行聚类;系统聚类法和非系统聚类法结果(jiēguǒ)解读但当总体个数较多时,计算比较麻烦。第二十五页,共28页。3判别分析——Discriminant过程(guòchéng)系统聚类法的基本思想是:第二十一页,共28页。第二十七页,共28页。既可以(kěyǐ)对观测量也可以(kěyǐ)对变量进行聚类;逐步判别法:逐步判别法与逐步回归法的基本(jīběn)思想类似,都是逐步引入变量,每引入一个“最重要”的变量进入判别式,同时也考虑较早引入判别式的某些变量,若其判别能力不显著了,应及时从判别式中剔除去,直到判别式中没有不重要的变量需要剔除,且也没有重要的变量要引入为止。结果(jiēguǒ)解读判别样品所属类型(lèixíng)的一种统计方法

系统聚类法优点:既可以(kěyǐ)对观测量也可以(kěyǐ)对变量进行聚类;所使用的变量既可以(kěyǐ)是连续变量也可以(kěyǐ)是分类变量;提供的距离计算方法和结果显示方法也很丰富。第十二页,共28页。观测量聚类:按照交通(jiāotōng)情况对各地进行聚类第十三页,共28页。执行(zhíxíng)【Analyze】/【Classify】/【HierarchicalCluster】命令,弹出如图所示的对话框第十四页,共28页。结果(jiēguǒ)解读聚类进度表第十五页,共28页。龙骨(lónggǔ)图第十六页,共28页。变量聚类:按照(ànzhào)日照数对月份进行聚类

第十七页,共28页。结果解读聚类进度表垂直(chuízhí)冰柱图从下往上看第十八页,共28页。龙骨(lónggǔ)图第十九页,共28页。7.3判别分析——Discriminant过程(guòchéng)判别分析简介干什么?判别样品所属类型(lèixíng)的一种统计方法与聚类分析的关系相同点:解决分类问题不同点:判别分析是在已知研究对象分成若干类型(lèixíng),对未知类型(lèixíng)的样品进行判别分类第二十页,共28页。判别分析的一般(yībān)步骤第二十一页,共28页。常用判别法距离判别法:根据已知分类的数据,分别计算各类的均值(jūnzhí)(重心),判别准则是任给一次观测,若它与第i类的重心距离最近,就认为它来自第i类。

◆注意:距离一般采用马氏距离;距离判别适合对自变量均为连续变量的情况进行分类;距离判别对各类的分布无特定的要求。第二十二页,共28页。Fisher判别法:借助方差分析的思想构造一个判别函数,其中判别系数的确定原则是使得类间的区别最大,而且类内的离差最小,利用判别函数计算出待判样品的判别指标,然后与判别临界值进行比较,判别它的类属。Fisher判别对各类分布、方差都没有(méiyǒu)限制。但当总体个数较多时,计算比较麻烦。第二十三页,共28页。Bayes判别法:在考虑(kǎolǜ)先验概率的前提下,利用Bayes公式计算样品来自第i类的后验概率,使用错判损失最小的概念作判别准则,建立判别函数,将待判样品归入来自概率最大类。Bayes判别主要用于多类判别,它要求总体呈多元正态分布.第二十四页,共28页。逐步判别法:逐步判别法与逐步回归法的基本(jīběn)思想类似,都是逐步引入变量,每引入一个“最重要”的变量进入判别式,同时也考虑较早引入判别式的某些变量,若其判别能力不显著了,应及时从判别式中剔除去,直到

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论