




已阅读5页,还剩24页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
AGNES算法 10 3层次聚类方法 2 层次聚类AGNES方法 凝聚的层次聚类 一种自底向上的策略 首先将每个对象作为一个簇 然后合并这些原子簇为越来越大的簇 逐步合并 直到某个终结条件被满足 层次凝聚的代表是AGNES算法 3 AGNES算法 AGNES AgglomerativeNESting 算法最初将每个对象作为一个簇 然后这些簇根据某些准则被一步步地合并 使用单链接方法 两个簇间的相似度由这两个不同簇中距离最近的数据点对的相似度来确定 此外当两个簇最近距离超过用户给定的阈值时聚类过程就会终止 聚类的合并过程反复进行直到所有的对象最终满足簇数目 AGNES算法 例如 如果簇C1中的一个对象和簇C2中的一个对象之间的距离是所属不同簇的对象间欧式距离中最小的 则C1和C2可能被合并 两个簇之间的相似度计算公式为 dist m1 m2 m3 m4 min dist m1 m3 dist m1 m4 dist m2 m3 dist m2 m4 4 2020 4 16 5 簇间距离 最小距离 6 AGNES算法 输入 n个对象 终止条件簇的数目k 输出 k个簇 达到终止条件规定簇数目 1 将每个对象当成一个初始簇 2 重复 3 根据两个簇中最近的数据点找到最近的两个簇 4 合并两个簇 生成新的簇的集合 5 直到达到定义的簇的数目 7 AGNES算法例题 序号属性1属性2111212321422534635744845 第1步 根据初始簇计算每个簇之间的距离 随机找出距离最小的两个簇 进行合并 最小距离为1 合并后1 2两个点合并为一个簇 第2步 对上一次合并后的簇计算簇间距离 找出距离最近的两个簇进行合并 合并后3 4点成为一簇 第3步 重复第2步的工作 5 6点成为一簇 第4步 重复第2步的工作 7 8点成为一簇 第5步 合并 1 2 3 4 成为一个包含四个点的簇 第6步 合并 5 6 7 8 由于合并后的簇的数目已经达到了用户输入的终止条件 程序终止 步骤最近的簇距离最近的两个簇合并后的新簇11 1 2 1 2 3 4 5 6 7 8 1 3 4 1 2 3 4 5 6 7 8 1 5 6 1 2 3 4 5 6 7 8 1 7 8 1 2 3 4 5 6 7 8 1 1 2 3 4 1 2 3 4 5 6 7 8 1 5 6 7 8 1 2 3 4 5 6 7 8 结束 AGNES算法缺点 1 简单 但遇到合并点选择困难的情况 2 一旦一组对象被合并 下一步的处理将在新生成的簇上进行 已做处理不能撤销 聚类之间也不能交换对象 3 算法的复杂度为O n的平方 不适合大数据集计算 8 2020 4 16 9 2020 4 16 10 2020 4 16 11 2020 4 16 12 2020 4 16 13 2020 4 16 14 2020 4 16 15 2020 4 16 运行结果 16 2020 4 16 17 2020 4 16 层次聚类其它算法 1 分裂的层次聚类 采用自顶向下的策略 它首先将所有对象置于一个簇中 然后逐渐细分为越来越小的簇 直到达到了某个终结条件 层次分裂的代表是DIANA算法 2 BIRCH算法 聚类特征 聚类特征树3 ROCK 近邻 链接数4 Chameleon 相对互边度 相对接近度 18 2020 4 16 DIANA算法 DIANA DivisiveANAlysis 算法是典型的分裂聚类方法 在聚类中 用户能定义希望得到的簇数目作为一个结束条件 19 算法DIANA 自顶向下分裂算法 输入 n个对象 终止条件簇的数目k 输出 k个簇 达到终止条件规定簇数目 1 将所有对象整个当成一个初始簇 2 FOR i 1 i k i DOBEGIN 3 在所有簇中挑出具有最大直径的簇C 4 找出C中与其它点平均相异度最大的一个点p并把p放入splintergroup 剩余的放在oldparty中 5 REPEAT 6 在oldparty里找出到最近的splintergroup中的点的距离不大于到oldparty中最近点的距离的点 并将该点加入splintergroup 7 UNTIL没有新的oldparty的点被分配给splintergroup 8 splintergroup和oldparty为被选中的簇分裂成的两个簇 与其它簇一起组成新的簇集合 9 END 20 2020 4 16 序号属性1属性2111212321422534635744845 DIANA算法例题 第1步 找到具有最大直径的簇 对簇中的每个点计算平均相异度 假定采用是欧式距离 1的平均距离 1 1 1 414 3 6 4 24 4 47 5 7 2 96类似地 2的平均距离为2 526 3的平均距离为2 68 4的平均距离为2 18 5的平均距离为2 18 6的平均距离为2 68 7的平均距离为2 526 8的平均距离为2 96 找出平均相异度最大的点1放到splintergroup中 剩余点在oldparty中 第2步 在oldparty里找出到最近的splintergroup中的点的距离不大于到oldparty中最近的点的距离的点 将该点放入splintergroup中 该点是2 第3步 重复第2步的工作 splintergroup中放入点3 第4步 重复第2步的工作 splintergroup中放入点4 第5步 没有在oldparty中的点放入了splintergroup中且达到终止条件 k 2 程序终止 如果没有到终止条件 因该从分裂好的簇中选一个直径最大的簇继续分裂 步骤具有最大直径的簇splintergroupOldparty1 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 2 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 3 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 4 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 5 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 终止 21 2020 4 16 层次聚类方法的改进 层次聚类方法尽管简单 但经常会遇到合并或分裂点的选择的困难 改进层次方法的聚类质量的一个有希望的方向是将层次聚类和其他聚类技术进行集成 形成多阶段聚类 下面介绍1个改进的层次聚类方法BIRTH 22 23 BIRCH算法 BIRCH BalancedIterativeReducingandClustering 利用层次方法的平衡迭代归约和聚类用聚类特征 CF 和聚类特征树来概括聚类描述 该算法通过聚类特征可以方便地进行形心X0 半径R 直径D 聚类特征 CF CF ClusteringFeature 包含簇信息的三元组 N LS SS N 簇的数据点 LS n个点的线性和 SS 数据点的平方和例如 簇C1中有三个数据点 2 3 4 5 5 6 则CF1 3 2 4 5 3 5 6 2 2 4 2 5 2 3 2 5 2 6 2 3 11 14 45 70 同样的 簇C2的CF2 4 40 42 100 101 那么 由簇C1和簇C2合并而来的簇C3的聚类特征CF3计算如下 CF3 3 4 11 40 14 42 45 100 70 101 7 51 56 145 171 24 聚类特征树 CF树是一个具有两个参数分支因子B和阈值T的高度平衡树 分支因子B 非叶节点可以拥有的孩子数 阈值T 叶子节点中的子聚类的最大直径 这两个参数影响结果数的大小 25 阶段一 扫描数据库 建立一个初始的CF树 它可以被看作一个数据的多层压缩 试图保留数据内在的聚类结构 当一个对象被插入到最近的叶节点 子聚类 中时 随着对象的插入 CF树被动态地构造 因此 BIRTH方法对增量或动态聚类也非常有效 阶段二 采用某个聚类算法对CF树的叶节点进行聚类 把稀疏的簇当做离群点删除 而把稠密的簇合并为更大的簇 在这个阶段可以执行任何聚类算法 BIRCH算法 26 BIRCH优点 1 节省内在 叶子节点放在磁盘分区上 非叶子节点仅仅是存储了一个CF值 外加指向父节点和孩子节点的指针 2 快 合并两个两簇只需要两个CF算术相加即可 计算两个簇的距离只需要用到 N LS SS 这三个值足矣 3 一遍扫描数据库即可建立B树 4 由于B树是高度平衡的 所以在树上进行插入或查找操作很快 27 2020 4 16 BIRC
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030二手车交易平台运营模式与市场渗透率分析报告
- 2025-2030中国青年公寓行业人口结构变化与需求预测报告
- 元宇宙社交信任机制研究-洞察及研究
- 2025年耗尽关机传感器项目立项申请报告
- 河北省沧州任丘市2026届化学九上期中预测试题含解析
- 2026届四川省广安市岳池县化学九年级第一学期期末联考试题含解析
- 安徽省淮北市杜集区2025届八年级物理第一学期期末质量检测模拟试题含解析
- 2026届浙江省杭州大江东各学校英语九上期末调研模拟试题含解析
- 2026届黑龙江省哈尔滨市六十中学化学九年级第一学期期末教学质量检测模拟试题含解析
- 安徽省涡阳县2026届英语九上期末学业质量监测试题含解析
- 大学门户网站及站群管理系统规划与建设指南
- 中学生青春期恋爱教育主题班会
- 叙事护理案例汇报
- 2025年广东省中考地理试卷(含2025年答案及考点分析)
- 债务加入还款协议书
- 《纯电动汽车构造与检修》课件-任务2 比亚迪E5电机驱动系统构造与检修
- 2024年企业所得税年度纳税申报表(A类2017 年版2025年01月修订)-(2025 0323)
- 派单业务合同模版模板
- 2025年体育与健康初中学业水平考试体育综合知识考试题库(附答案)
- 2024装配式碳纤维增强免拆底模钢筋桁架楼承板建筑构造
- 文化传媒公司抖音代运营合同
评论
0/150
提交评论