聚类分析简单例子.ppt

上传人：y*** IP属地：广东上传时间：2019-12-29 格式：PPT 页数：38 大小：1.49MB 积分：28 举报 版权申诉

已阅读5页，还剩33页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

一系统聚类的基本思想系统聚类的基本思想是距离相近的样品或变量先聚成类距离相远的后聚成类过程一直进行下去每个样品或变量总能聚到合适的类中系统聚类过程是假设总共有n个样品或变量第一步将每个样品或变量独自聚成一类共有n类第二步根据所确定的样品或变量距离公式把距离较近的两个样品或变量聚合为一类其它的样品或变量仍各自聚为一类共聚成n 1类第三步将距离最近的两个类进一步聚成一类共聚成n 2类以上步骤一直进行下去最后将所有的样品或变量全聚成一类为了直观地反映以上的系统聚类过程可以把整个分类系统画成一张谱系图所以有时系统聚类也称为谱系分析除系统聚类法外还有有序聚类法动态聚类法图论聚类法模糊聚类法等限于篇幅我们只介绍系统聚类方法二类间距离与系统聚类法在进行系统聚类之前我们首先要定义类与类之间的距离由类间距离定义的不同产生了不同的系统聚类法常用的类间距离定义有8种之多与之相应的系统聚类法也有8种分别为最短距离法最长距离法中间距离法重心法类平均法可变类平均法可变法和离差平方和法它们的归类步骤基本上是一致的主要差异是类间距离的计算方法不同以下用dij表示样品Xi与Xj之间距离用Dij表示类Gi与Gj之间的距离 1 最短距离法定义类Gi与Gj之间的距离为两类最近样品的距离即为 5 11 设Gk类与合并成一个新类记为Gr 则任一类与的距离为 5 12 最短距离法进行聚类分析的步骤如下 1 定义样品之间距离计算样品的两两距离得一距离阵记为D 0 开始每个样品自成一类显然这时Dij dij 2 找出距离最小元素设为Dpq 则将Gp和Gq合并成一个新类记为Gr 即Gr Gp Gq 3 按 5 12 计算新类与其它类的距离 4 重复 2 3 两步直到所有元素并成一类为止如果某一步距离最小的元素不止一个则对应这些最小元素的类可以同时合并例5 1 设有六个样品每个只测量一个指标分别是1 2 5 7 9 10 试用最短距离法将它们分类 1 样品采用绝对值距离计算样品间的距离阵D 0 见表5 1 表5 1 2 D 0 中最小的元素是D12 D56 1 于是将G1和G2合并成G7 G5和G6合并成G8 并利用 5 12 式计算新类与其它类的距离D 1 见表5 2 表5 2 3 在D 1 中最小值是D34 D48 2 由于G4与G3合并又与G8合并因此G3 G4 G8合并成一个新类G9 其与其它类的距离D 2 见表5 3 表5 3 4 最后将G7和G9合并成G10 这时所有的六个样品聚为一类其过程终止上述聚类的可视化过程见图5 1所示横坐标的刻度表示并类的距离这里我们应该注意聚类的个数要以实际情况所定其详细内容将在后面讨论图5 1最短距离聚类法的过程再找距离最小两类并类直至所有的样品全归为一类为止可以看出最长距离法与最短距离法只有两点不同一是类与类之间的距离定义不同另一是计算新类与其它类的距离所用的公式不同 3 中间距离法最短最长距离定义表示都是极端情况我们定义类间距离可以既不采用两类之间最近的距离也不采用两类之间最远的距离而是采用介于两者之间的距离称为中间距离法中间距离将类Gp与Gq类合并为类Gr 则任意的类Gk和Gr的距离公式为 1 4 0 5 15 设Dkr Dkp 如果采用最短距离法则Dkr Dkp 如果采用最长距离法则Dkr Dkq 如图5 2所示 5 15 式就是取它们最长距离与最短距离的中间一点作为计算Dkr的根据特别当 1 4 它表示取中间点算距离公式为 5 16 图5 2中间距离法例5 2 针对例5 1的数据试用重心法将它们聚类 1 样品采用欧氏距离计算样品间的平方距离阵D2 0 见表5 4所示表5 4 2 D2 0 中最小的元素是D212 D256 1 于是将G1和G2合并成G7 G5和G6合并成G8 并利用 5 18 式计算新类与其它类的距离得到距离阵D2 1 见表5 5 其中其它结果类似可以求得 3 在D2 1 中最小值是D234 4 那么G3与G4合并一个新类G9 其与与其它类的距离D2 2 见表5 6 表5 6 4 在中最小值是 12 5 那么与合并一个新类其与与其它类的距离见表5 7 表5 7 5 最后将G7和G10合并成G11 这时所有的六个样品聚为一类其过程终止上述重心法聚类的可视化过程见图5 3所示横坐标的刻度表示并类的距离图5 3重心聚类法的过程 6 可变类平均法由于类平均法中没有反映出Gp和Gq之间的距离Dpq的影响因此将类平均法进一步推广如果将Gp和Gq合并为新类Gr 类Gk与新并类Gr的距离公式为 5 22 其中是可变的且 1 称这种系统聚类法为可变类平均法 8 离差平方和法该方法是Ward提出来的所以又称为Ward法该方法的基本思想来自于方差分析如果分类正确同类样品的离差平方和应当较小类与类的离差平方和较大具体做法是先将n个样品各自成一类然后每次缩小一类每缩小一类离差平方和就要增大选择使方差增加最小的两类合并直到所有的样品归为一类为止设将n个样品分成k类G1 G2 Gk 用Xit表示Gt中的第I个样品 nt表示Gt中样品的个数是Gt的重心则Gt的样品离差平方和为这种系统聚类法称为离差平方和法或Ward方法下面论证离差平方和法的距离递推 5 26 式由于三类间距离的统一性上述八种系统聚类法的步骤完全一样只是距离的递推公式不同兰斯 Lance 和威廉姆斯 Williams 于1967年给出了一个统一的公式 5 28 其中ap aq 是参数不同的系统聚类法它们取不同的数详见表5 8 这里应该注意不同的聚类方法结果不一定完全相同一般只是大致相似如果有很大的差异则应该仔细考查找到问题所在另外可将聚类结果与实际问题对照看哪一个结果更符合经验表5 8系统聚类法参数表例5 3 假定我们对A B C D四个样品分别测量两个变量和得到结果见表5 9 试将以上的样品聚成两类表5 9样品测量结果动态聚类法第一步按要求取K 2 为了实施均值法聚类我们将这些样品随意分成两类比如 A B 和 C D 然后计算这两个聚类的中心坐标见表5 10所示表5 10中的中心坐标是通过原始数据计算得来的比如 A B 类的等等表5 10中心坐标第二步计算某个样品到各类中心的欧氏平方距离然后将该样品分配给最近的一类对于样品有变动的类重新计算它们的中心坐标为下一步聚类做准备先计算A到两个类的平方距离由于A到 A B 的距离小于到 C D 的距离因此A不用重新分配计算B到两类的平方距离由于B到 A B 的距离大于到 C D 的距离因此B要分配给 C D 类得到新的聚类是 A 和 B C D 更新中心

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

聚类分析简单例子.ppt

文档简介

温馨提示

最新文档

评论

聚类分析简单例子.ppt

文档简介

温馨提示

最新文档

评论

相关文档