多元统计分析 第五章聚类分析.doc_第1页
多元统计分析 第五章聚类分析.doc_第2页
多元统计分析 第五章聚类分析.doc_第3页
多元统计分析 第五章聚类分析.doc_第4页
多元统计分析 第五章聚类分析.doc_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章 聚类分析5.1聚类分析的基本问题一、概念是在样品(变量)之间结构不明确情况下建立一个定量尺度,借以度量样品(变量)间的亲疏程度,从而实现对样品(变量)进行分组的目的。注:描述亲疏程度有两种尺度(1)距离:将样品视为P维空间的一个“点”,点与点间可定义距离将变量视为n维空间的一个“点”,点与点间可定义距离(2)相似系数:可将样品视为P维空间的一个“向量”,向量间可定义相似系数二、聚类分析的思路开始,n个样品(P个变量)各自成类每次,按样品(变量)间的亲疏程度,将最近(最相似)的两个样品(变量)聚成一类最终将n个样品(P个变量)聚成一个大类实际目的是聚成若干类,有利于分析问题三、聚类分析的种类 按聚类对象分:样品分类 (Q型分类) 变量(指标)分类 (R型分类)5.2距离和相似系数一、样品(Q型)聚类的距离和相似系数(一)距离1、背景:视一个样品为P维空间中的一个点2、距离应满足的公认条件 设用表示样品间的距离,则应满足 (1)非负性: (2)对称性: (3)三角不等式关系:3、几种常见的距离定义 (1)明氏距离: 这里 特例: (2)马氏距离 设n个样品,收集到数据阵,生成协差阵 定义: (3)兰氏距离 n个样品两两计算距离,生成距离阵 特点: (二)相似系数 1、背景:视一个样品为P维空间中的一个向量 2、相似系数应满足的公认条件 记为样品的相似系数,应有 (1) (2) (3) 3、常用的相似系数 (1)夹角余弦 说明:当 一般情况下, 两两计算夹角余弦,生成相似阵: 特点:; (2)相关系数 生成相关阵 特点:;二、变量(R型)聚类的距离和相似系数注:(1)视指标为n维空间的一个点或一个向量 (2)的定义同Q型聚类5.3 系统聚类方法提示: (1)类是样品(或变量)的集合,一般以G表示(2)关键是如何定义类与类之间距离,不同的距离定义,产生不同的聚类方法(3)不同聚类方法,聚类过程完全相同。初始,每个样品各自成类依据选取的距离定义(最常用欧氏距离),选择最近(最相似)的两类聚合,类的个数少一个重复进行直到所有样品聚成一类。一、最短距离法 记为样品间的距离,为类间的距离,则 定义: 设己聚合成新类,到其余任一类的距离为: 聚类步骤:(1)选择样品间距离计算公式,各样品各自成类,计算,生成距离阵(2)在的非主对角线上找最小的元素,设为,则把聚成一新类,(3)按,计算新类到其余任一类的距离,生成新的距离阵(4)对重复(2)、(3)步,反复进行,直到所有样品聚成一个大类例5.1 n=5,p=1的数据阵样品12345123.579解:(1)按欧氏距离计算,生成 (2)在非主对角线上找出最小,将合为, (3)计算 生成 (4)在中找到最小,将合成新类,计算 生成重复(2)步,最小,合为计算生成聚类树形图1234G6G7G8二、最长距离法关于、的意义同上定义:聚类过程中距离的确定:设己聚合成新类,到其余类的距离为: 例5.1解: 1234G6G7G88三、中间距离法聚类过程中距离的确定 (1)(1)公式导出-利用夹角余弦公式(图示略)2得: (2)聚类步骤同上,但需要用距离的平方 解例5.1 简单记忆法:以最小距离为项点的直角三角形 如 四、离差平方和法(Word法)设n个样品己聚成k类:其中含有个样品:,其重心为类的离差平方和定义为:所有k类的总离差平方和为:Ward法的聚类步骤:1、n个样品各自成类,有,这时2、在己聚成的n类中,两两相聚合成新类,并计算,找出,将对应的两类相聚合3、在余下的n-1类中,重复第2步五、其它系统聚类方法简介1、重心法 定义 聚类过程中距离的确定: 这里分别为中的样品数,且2、类平均法 定义:聚类过程中距离的确定:3、可变类平均法 定义: 聚类过程中距离的确定: 4、可变法 定义: 距离的调整公式:5.4 样品聚类应注意的问题一、聚类前指标变量的选择1、选择原则 (1)要求所选中的指标变量与聚类问题密切相关 (2)所选指标变量间具有较强的分辨能力2、选择方法 (1)先进行指标的聚类,然后从每类中筛选出代表性指标 (2)先进行主成分分析,从中筛选出起主要作用的指标二、聚类后(生成聚类树形图)的工作 1、在聚类树形图上,确定类的数目。分类数目的确定原则 (1)要求分出的类应具有实际问题的背景 (2)类的数目不宜过多 (3)类与类之间应有明显差异,才能突

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论