




已阅读5页,还剩33页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一 系统聚类的基本思想 系统聚类的基本思想是 距离相近的样品 或变量 先聚成类 距离相远的后聚成类 过程一直进行下去 每个样品 或变量 总能聚到合适的类中 系统聚类过程是 假设总共有n个样品 或变量 第一步将每个样品 或变量 独自聚成一类 共有n类 第二步根据所确定的样品 或变量 距离 公式 把距离较近的两个样品 或变量 聚合为一类 其它的样品 或变量 仍各自聚为一类 共聚成n 1类 第三步将 距离 最近的两个类进一步聚成一类 共聚成n 2类 以上步骤一直进行下去 最后将所有的样品 或变量 全聚成一类 为了直观地反映以上的系统聚类过程 可以把整个分类系统画成一张谱系图 所以有时系统聚类也称为谱系分析 除系统聚类法外 还有有序聚类法 动态聚类法 图论聚类法 模糊聚类法等 限于篇幅 我们只介绍系统聚类方法 二 类间距离与系统聚类法 在进行系统聚类之前 我们首先要定义类与类之间的距离 由类间距离定义的不同产生了不同的系统聚类法 常用的类间距离定义有8种之多 与之相应的系统聚类法也有8种 分别为最短距离法 最长距离法 中间距离法 重心法 类平均法 可变类平均法 可变法和离差平方和法 它们的归类步骤基本上是一致的 主要差异是类间距离的计算方法不同 以下用dij表示样品Xi与Xj之间距离 用Dij表示类Gi与Gj之间的距离 1 最短距离法定义类Gi与Gj之间的距离为两类最近样品的距离 即为 5 11 设Gk类与合并成一个新类记为Gr 则任一类与的距离为 5 12 最短距离法进行聚类分析的步骤如下 1 定义样品之间距离 计算样品的两两距离 得一距离阵记为D 0 开始每个样品自成一类 显然这时Dij dij 2 找出距离最小元素 设为Dpq 则将Gp和Gq合并成一个新类 记为Gr 即Gr Gp Gq 3 按 5 12 计算新类与其它类的距离 4 重复 2 3 两步 直到所有元素 并成一类为止 如果某一步距离最小的元素不止一个 则对应这些最小元素的类可以同时合并 例5 1 设有六个样品 每个只测量一个指标 分别是1 2 5 7 9 10 试用最短距离法将它们分类 1 样品采用绝对值距离 计算样品间的距离阵D 0 见表5 1 表5 1 2 D 0 中最小的元素是D12 D56 1 于是将G1和G2合并成G7 G5和G6合并成G8 并利用 5 12 式计算新类与其它类的距离D 1 见表5 2 表5 2 3 在D 1 中最小值是D34 D48 2 由于G4与G3合并 又与G8合并 因此G3 G4 G8合并成一个新类G9 其与其它类的距离D 2 见表5 3 表5 3 4 最后将G7和G9合并成G10 这时所有的六个样品聚为一类 其过程终止 上述聚类的可视化过程见图5 1所示 横坐标的刻度表示并类的距离 这里我们应该注意 聚类的个数要以实际情况所定 其详细内容将在后面讨论 图5 1最短距离聚类法的过程 再找距离最小两类并类 直至所有的样品全归为一类为止 可以看出最长距离法与最短距离法只有两点不同 一是类与类之间的距离定义不同 另一是计算新类与其它类的距离所用的公式不同 3 中间距离法最短 最长距离定义表示都是极端情况 我们定义类间距离可以既不采用两类之间最近的距离也不采用两类之间最远的距离 而是采用介于两者之间的距离 称为中间距离法 中间距离将类Gp与Gq类合并为类Gr 则任意的类Gk和Gr的距离公式为 1 4 0 5 15 设Dkr Dkp 如果采用最短距离法 则Dkr Dkp 如果采用最长距离法 则Dkr Dkq 如图5 2所示 5 15 式就是取它们 最长距离与最短距离 的中间一点作为计算Dkr的根据 特别当 1 4 它表示取中间点算距离 公式为 5 16 图5 2中间距离法 例5 2 针对例5 1的数据 试用重心法将它们聚类 1 样品采用欧氏距离 计算样品间的平方距离阵D2 0 见表5 4所示 表5 4 2 D2 0 中最小的元素是D212 D256 1 于是将G1和G2合并成G7 G5和G6合并成G8 并利用 5 18 式计算新类与其它类的距离得到距离阵D2 1 见表5 5 其中 其它结果类似可以求得 3 在D2 1 中最小值是D234 4 那么G3与G4合并一个新类G9 其与与其它类的距离D2 2 见表5 6 表5 6 4 在中最小值是 12 5 那么与合并一个新类 其与与其它类的距离 见表5 7 表5 7 5 最后将G7和G10合并成G11 这时所有的六个样品聚为一类 其过程终止 上述重心法聚类的可视化过程见图5 3所示 横坐标的刻度表示并类的距离 图5 3重心聚类法的过程 6 可变类平均法由于类平均法中没有反映出Gp和Gq之间的距离Dpq的影响 因此将类平均法进一步推广 如果将Gp和Gq合并为新类Gr 类Gk与新并类Gr的距离公式为 5 22 其中 是可变的且 1 称这种系统聚类法为可变类平均法 8 离差平方和法该方法是Ward提出来的 所以又称为Ward法 该方法的基本思想来自于方差分析 如果分类正确 同类样品的离差平方和应当较小 类与类的离差平方和较大 具体做法是先将n个样品各自成一类 然后每次缩小一类 每缩小一类 离差平方和就要增大 选择使方差增加最小的两类合并 直到所有的样品归为一类为止 设将n个样品分成k类G1 G2 Gk 用Xit表示Gt中的第I个样品 nt表示Gt中样品的个数 是Gt的重心 则Gt的样品离差平方和为 这种系统聚类法称为离差平方和法或Ward方法 下面论证离差平方和法的距离递推 5 26 式 由于 三 类间距离的统一性 上述八种系统聚类法的步骤完全一样 只是距离的递推公式不同 兰斯 Lance 和威廉姆斯 Williams 于1967年给出了一个统一的公式 5 28 其中ap aq 是参数 不同的系统聚类法 它们取不同的数 详见表5 8 这里应该注意 不同的聚类方法结果不一定完全相同 一般只是大致相似 如果有很大的差异 则应该仔细考查 找到问题所在 另外 可将聚类结果与实际问题对照 看哪一个结果更符合经验 表5 8系统聚类法参数表 例5 3 假定我们对A B C D四个样品分别测量两个变量和得到结果见表5 9 试将以上的样品聚成两类 表5 9样品测量结果 动态聚类法 第一步 按要求取K 2 为了实施均值法聚类 我们将这些样品随意分成两类 比如 A B 和 C D 然后计算这两个聚类的中心坐标 见表5 10所示 表5 10中的中心坐标是通过原始数据计算得来的 比如 A B 类的 等等 表5 10中心坐标 第二步 计算某个样品到各类中心的欧氏平方距离 然后将该样品分配给最近的一类 对于样品有变动的类 重新计算它们的中心坐标 为下一步聚类做准备 先计算A到两个类的平方距离 由于A到 A B 的距离小于到 C D 的距离 因此A不用重新分配 计算B到两类的平方距离 由于B到 A B 的距离大于到 C D 的距离 因此B要分配给 C D 类 得到新的聚类是 A 和 B C D 更新中心
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 媒体融合下的教育品牌传播新模式
- 心理健康干预在校园教育中的实践与探索
- 抖音商户直播库存同步更新管理制度
- 抖音商户预算外支出特别审批流程制度
- 八大行业物流成本控制与交通运输优化方案研究报告
- 公交优先视角下城市交通拥堵治理的公共交通出行行为引导研究报告
- 2024-2025学年广西陆川县联考数学七上期末调研模拟试题含解析
- 公共交通优化:2025年智慧交通系统交通流量预测技术应用分析报告
- 陕西省榆林市定边县2024年九上化学期末达标测试试题含解析
- 中国美术学院《中国画现代材料技法研究》2023-2024学年第一学期期末试卷
- 苗木种植专项方案(3篇)
- 监督检查酒店管理制度
- 河南省郑州市巩义市2023-2024学年六年级下学期科学6月期末试卷(含答案)
- 业务外包费用管理制度
- 痛风的康复护理课件
- 2024年山西特岗教师招聘笔试真题
- 【英语 北京版】2025年普通高等学校招生选择性考试含答案
- 黑龙江省哈尔滨市第九中学校2024-2025学年高一下学期6月月考化学试题(含答案)
- 公司自供自产品管理制度
- 2025-2030年中国低温超导材料行业市场深度调研及发展前景与投资战略研究报告
- 二手车跨境交易平台创新创业项目商业计划书
评论
0/150
提交评论