版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第7章聚类分析层次聚类层次聚类层次聚类(HierarchicalClustering),即按照一定的规则,对给定的数据集进行分层次的聚集或分解,直到满足某种事先设定的条件。按聚类的次序:凝聚的层次聚类分裂的层次聚类凝聚的层次聚类a,b,c,d,ec,d,ed,ea,bedcba第4步第3步第2步第1步第0步凝聚的(AGENS)凝聚的层次聚类采用自底向上的策略,开始时把每个对象作为一个单独的簇,然后逐次对各个簇进行适当合并,直到满足某个终止条件。分裂的层次聚类a,b,c,d,ec,d,ed,ea,bedcba第0步第1步第2步第3步第4步分裂的(DIANA)分裂的层次聚类采用自顶向下的策略,与凝聚的层次聚类相反,开始时将所有对象置于同一个簇中,然后逐次将簇分裂为更小的簇,直到满足某个终止条件。层次聚类按数据分层建立簇,形成一棵以簇为节点的树,称为聚类图。13254600.050.10.150.2基本凝聚层次聚类方法凝聚层次聚类算法计算邻近度矩阵让每个点作为一个ClusterRepeat
合并最近的两个类
更新邻近度矩阵,以反映新的簇与原来的簇之间的邻近性Until仅剩下一个簇
传统的算法利用相似性或相异性的邻近度矩阵进行凝聚的或分裂的层次聚类关键的操作是2个簇的邻近度计算不同的邻近度的定义区分了各种不同的凝聚层次技术[例1]1.将每单个数据聚为一个簇;p7p12p3p9p5p1p8p10p11p2p6p4p7p12p3p9p5p1p8p10p11p2p6p4
xyp11310p21411p3165p41822p51817p6194p72122p8307p9314p103420p113515p123622[例]2.将最邻近的两个簇聚为一个簇;1.将每单个数据聚为一个簇;
xyp11310p21411p3165p41822p51817p6194p72122p8307p9314p103420p113515p123622p1p2p3p6p4p7p5p8p9p10p12p11C1,2C3,6C4,7C8,9C10,12p10p3p7p5p4p9p8p6p11p12p1p2p1p2p3p6p4p7p5p8p9p10p12p11C1,2C3,6C4,7C8,9C10,12C1,2,3,6C4,7,5C10,12,11p10p3p7p5p4p9p8p6p11p12p1p2p1p2p3p6p4p7p5p8p9p10p12p11C1,2C3,6C4,7C8,9C10,12C1,2,3,6C4,7,5C10,12,11C1,2,3,6,4,7,5C8,9,10,12,11C1,2,3,6,4,7,5,8,9,10,12,11p10p3p7p5p4p9p8p6p11p12p1p2[例2]2.将最邻近的两个簇聚为一个簇;1.将每单个数据聚为一个簇;ptxyp11822p22122p31817p43622p53420p63515p71411p81310p9165p10194p11307p12314改进的算法充分利用邻近度矩阵进行聚类?示例2.将最邻近的两个簇聚为一个簇;1.将每单个数据聚为一个簇;ptxyp11822p22122p31817p43622p53420p63515p71411p81310p9165p10194p11307p123143.迭代进行,直至聚类为一个簇。示例ptxyp11822p22122p31817p43622p53420p63515p71411p81310p9165p10194p11307p12314示例ptxyp11822p22122p31817p43622p53420p63515p71411p81310p9165p10194p11307p12314示例ptxyp11822p22122p31817p43622p53420p63515p71411p81310p9165p10194p11307p12314Cluster间的相似性相似性?p3p6p4p1p2p5MIN(单链)MAX(全链)GroupAverage组平均DistanceBetweenCentroids质心距ObjectiveFunction目标函数类Cluster间的相似性MINp3p6p4p1p2p5MIN(单链)两个Cluster的相似性定义为基于
这两个Cluster中最大相似度(最近距离)由一对最近邻点决定p1p2p5p4p3p6p1
p215.6
p518.4
p42613.320.6
p3169.818.410.8
p620.61725.613
p2p5p3p6p4p1dist({3,6},{2,5})=min(dist(3,2),dist(3,5),dist(6,2),dist(6,5))
=min(9.8,18.4,17,25.6)
=9.8Cluster间的相似性MIN(单链)p2p5p3p6p4p1p1p2p3p5p6p4p1p4p2p5p3p6p1
p426
p215.613.3
p518.420.6
p31610.8
p620.613
p1p4p2p5p3p6p1
p426
p215.6
p518.4
p316
p620.6
Cluster间的相似性MIN(单链)单链技术可以处理非椭圆形状的簇Cluster间的相似性MIN(单链)单链技术可以处理非椭圆形状的簇但对噪音和离群点很敏感Cluster间的相似性MAXp3p6p4p1p2p5MAX(全链)两个Cluster的相似性定义为基于
这两个Cluster中最小相似度(最远距离)由一对最远离点决定p1p2p5p4p3p6p1
p215.6
p518.4
p42613.320.6
p3169.818.410.8
p620.61725.613
p2p5p3p6p4p1dist({3,6},{2,5})=max(dist(3,2),dist(3,5),dist(6,2),dist(6,5))
=min(9.8,18.4,17,25.6)=25.6Cluster间的相似性MAX(全链)p2p5p3p6p4p1p1p2p3p5p6p4p1p2p5p4p3p6p1
p215.6
p518.4
p42613.320.6
p3169.818.4
p620.61725.6
p1p2p5p4p3p6p1
p2
p5
p42613.320.6
p3169.818.4
p620.61725.6
Cluster间的相似性MAX(全链)对噪音和离群不敏感Cluster间的相似性MAX(全链)对噪音和离群不敏感可能使大的簇破裂,偏好球型簇Cluster间的相似性GroupAverage组平均两个簇的邻近度定义为不同的所有点
对的平均逐对邻近度是一种单链与全链的折中算法p2p5p3p6p4p1p1p2p3p5p6p4组平均Cluster间的相似性GroupAverage组平均两个簇的邻近度定义为不同簇的所有点
对的平均逐对邻近度是一种单链与全链的折中算法p2p5p3p6p4p1p1p2p3p5p6p4p1p2p5p4p3p6p1
p217
p5
p42616.9
p318.317.711.9
p6
组平均Cluster间的相似性GroupAverage组平均p2p5p3p6p4p1p1p2p5p4p3p6p1
p217
p5
p420.917.5
p3
p6
p1p2p5p4p3p6p1
p2
p5
p418.6
p3
p6
p1p2p3p5p6p4Cluster间的相似性GroupAverage组平均对噪音和极端值影响小偏好球型簇Cluster间的相似性DistanceBetweenCentroids质心距两个簇的邻近度定义为不同簇的质心
的邻近度p2p5p3p6p4p1p1p2p3p5p6p4质心距p1p2,5p4p3,6p1
p2,516.5
p42616.8
p3,618.117.711.4
Cluster间的相似性DistanceBetweenCentroids质心距两个簇的邻近度定义为不同簇的质心
的邻近度p2p5p3p6p4p1p1p2,5p4,3,6p1
p2,516.51
p4,3,620.3616.54
p1p2p3p5p6p4p1,2,5p4,3,6p1,2,5
p4,3,616.12Cluster间的相似性ObjectiveFunction目标函数类Ward算法两个簇的邻近度定义为两个簇合并时导致的平方误差的增量p2p5p3p6p4p1p1p2p3p5p6p4C1C2SSEp1p27.8p1p38.0p1p413.0p1p59.2p1p610.3p2p34.9p2p46.7p2p54.3p2p68.5p3p45.4p3p59.2p3p63.6p4p66.5p4p510.3p5p612.8C1C2SSEp1p27.8p1p3,69.1p1p413.0p1p59.2p2p3,66.7p2p46.7p2P54.3p4p3,65.7p4p510.3p5p3,611.0C1C2SSEp1p2,58.3p1p3,69.1p1p413.0p2,5p3,68.8p3,6p2,58.8p4p3,65.7p4p2,58.4C1C2SSEp1p2,58.3p1p4,3,610.2p2,5p4,3,68.3C1C2SSEp1,2,5p4,3,68.1Cluster间的相似性ObjectiveFunction目标函数类Ward算法两个簇的邻近度定义为两个簇合并时导致的平方误差增量当邻近度取它们之间的平方时,ward与组平均类似噪音和极端值影响小偏好球型簇Cluster间的相似性MIN单链MAX全链组平均W
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年高考北京卷政治题库试题附答案
- 2026年保密考试简答题基础培训考试综合试卷
- 2026年安徽省宿州市重点学校小升初语文考试真题和答案
- 高中人教A版 (2019)4.3 对数教案
- 初中化学鲁教版九年级下册第七单元 常见的酸和碱第四节 酸碱中和反应教学设计及反思
- 活动4 打扫校园教学设计-2025-2026学年小学劳动三年级(2017)粤教版《劳动与技术》
- 2026年委托贷借款合同(1篇)
- 第13课 对外开放格局的初步形成教学设计高中历史人教版2007必修2-人教版2007
- 四川省绵阳市普明中学2025-2026学年度高2023级高三上期末地理试卷( 含答案)
- 人教部编版八年级下册第一单元 坚持宪法至上第一课 维护宪法权威治国安邦的总章程教案设计
- 降低呼吸机肺炎-降低呼吸机管路积水的发生率PDCA
- 成人心理健康教育讲座
- 生猪屠宰厂可行性方案
- 景区旅游经营预测研究报告
- JB-T 14179-2022 带式输送机用托辊冲压轴承座
- 溢洪河大桥防洪评价报告
- 第四节喀斯特地貌最全课件
- 断绝亲情关系协议书
- 产褥期母婴的护理-产褥期妇女的生理变化(妇产科护理学课件)
- 安徽马鞍山市横望人力资源有限公司招考聘用劳务外包人员笔试题库含答案解析
- 低压电工试题库-含答案
评论
0/150
提交评论