版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
11.4算法总结11.1算法概述11.2算法原理11.3算法案例目录第十一章K-Means算法人工智能算法与实践—1
—
01算法概述PartTHREE—2
—
K-Means算法是一种基于距离的聚类算法。因为该算法具有分类速度快、分类准确率高等优点,至今仍有许多人使用和改进它,K-Means算法在聚类算法中始终占据着非常重要的地位。K-Means算法是一种聚类算法。提到聚类,首先想到的是一个与之相似的概念,那就是分类。那么分类和聚类是否为同一个概念呢?答案显然是否定的。聚类是指事先没有“标签”而通过某种分析找出事物之间存在聚集性原因的过程,而分类是按照某种标准给对象贴标签,再根据标签来区分归类。通俗地讲,聚类就是将相似的事物放在一起,而分类更像是给事物分配标签。11.1算法概述—3
—
11.1算法概述—4
—
分类和聚类的区别02算法原理PartTWO—5
—
K-Means算法中的K代表的是K个簇,Means意为均值,即代表着每个簇中都选取各个数据的均值作为该簇的质心,代表着整个簇。该算法的思想就是输入簇数K和包含n个数据对象的数据集,最终输出结果为K个簇,每个簇都满足方差最小标准。划分后的每个簇内各个数据的相似性较高,而不同簇的各个数据之间的相似性较低。算法的定义如下:给定样本集D={x1,x2,…,xi,…,xn},xi代表一个数据样本,其中每个数据样本由m个属性构成。聚类就是为了将所有样本集划分为一定数量的簇,簇用字母G表示,簇的个数用K表示。每个簇都有一个中心点即质心,用μk表示。因此K-Means算法的原理就是将D={x1,x2,...xi,…,xn}通过聚类划分为G={G1,G2,…,Gu,…,Gk}的过程。11.2算法原理—6
—
误差平方和(SumofSquaredError,SSE)是簇内样本相似性大小的代表,划分好的某个簇Gu的误差平方和越小,说明该簇内的样本相似性越大;相反,Gu的误差平方和越大,说明该簇内的样本相似性越小。误差平方和的计算公式如下:评价指标—7
—
11.2算法原理(1)选择合适的K值。(2)在样本集D中随机地选择K个数据点,作为K个簇各自的质心。(3)计算D中每个样本到步骤(2)中选取的各个质心的距离,选出每个样本和所有质心的距离中的最小值,并将该样本归类到该质心所代表的簇中去。(4)根据步骤(3)中所得的聚类结果,重新计算K个簇各自的质心,计算方法是计算每个簇中所有元素的平均值。(5)比较前后两次SSE的差值和设定的阈值,若大于阈值,则重复步骤(3)和步骤(4)。(6)如果前后两次的SSE的差值小于设定的阈值,则说明聚类完成。算法流程—8
—
11.2算法原理K值的选取—9
—
1经验法根据经验选择代表点,然后根据问题的性质和数值的分布以直观的方式寻找较为合适的K值。2手肘法手肘法的核心指标就是SSE的值,思想就是逐步增大K的值,每个簇内的聚合程度也会大幅度增加,即SSE的值会大幅度减少。当K值逐渐取接近合适的值时,SSE值的减小幅度会越来越小,逐渐趋于平缓。11.2算法原理质心的选择—10
—
1随机法多次运行,每次运行都使用一组不同的随机样本作为初始质心,然后选择具有最小SSE值的簇集。2层次聚类法取一个样本,并使用层次聚类方法对其进行聚类。从层次聚类中提取K个簇,并用这些簇的质心作为初始的质心。3取最远点法取所有点的质心作为第一个质心。然后,每个后继质心都选择离已经选择过的初始质心最远的点。11.2算法原理距离的选择—11
—
1欧式距离2曼哈顿距离3余弦相似度11.2算法原理03算法案例PartTHREE—12
—
数据集的选择—13
—
本实验采用的数据集来自Python的sklearn包中自带的Iris数据集。Iris数据集是常用的分类实验数据集,由Fisher,1936收集整理。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据样本,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度、花萼宽度、花瓣长度、花瓣宽度4个属性预测鸢尾花卉属于3个种类(Setosa、Versicolour、Virginica)中的哪一类。11.3算法案例核心代码—14
—
11.3算法案例1.计算距离(距离通常使用欧几里得距离)2.初始化质心3.K-Means算法实现过程—15
—
观察图11-6可以看到聚类效果明显。当聚类效果不佳时,可以通过改变K值的选取方式,如手肘法、轮廓系数法等,或者改变初始质心的选择方式来使聚类效果更佳,也可以使用二分K-Means聚类算法来加强聚类效果11.3算法案例04算法总结PartFOUR—16
—
11.4算法总结—17
—
K-Means算法有着原理简单、容易实现、分类速度快和分类准确率高等优点,但同时该算法也有如下缺点。(1)K值很难确定。通常需要靠经验来估计一个大概的K值,K值的选择直接决定了聚类的结果。(2)对噪声和异常点敏感。K-Means算法很容易受到噪声以及孤立点的影响,导致下一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【完整版】消防工程质量评估报告完整版
- 校园广告牌坠落应急演练脚本
- 2026年青岛银行校园招聘笔试试题及答案解析
- 2026年公司离职率分析报告以及解决方案
- 母婴护理学专业培训
- 流产后饮食调整建议
- 护患沟通中的情绪管理技巧
- 母婴护理专业培训在线直播
- 不良资产信托中的信托受益权转让规定
- (正式版)DB43∕T 1717-2019 《湖南异常气候事件判别方法》
- 保险转账委托书模板
- 云南省公路工程试验检测费用指导价
- 期中测试卷(试题)-2023-2024学年六年级下册数学苏教版
- 2024年赣州市国投集团招聘笔试参考题库附带答案详解
- 护士培训课程 药物计算和药物剂量调整技能
- 二手房交易资金监管协议书
- 凡口建模工作报告
- 药用植物的引种驯化PPT
- 乙二醛填充脱水法在饱水竹漆中的应用
- 血液内科疾病诊疗常规指南
- 学前儿童社会认知和教育活动
评论
0/150
提交评论