




已阅读5页,还剩13页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
K means算法及在图像分割中的简单应用 1 主要内容 算法简介算法要点实例性能分析算法改进在图像分割中的简单应用 2 算法简介 k means算法 一种得到最广泛使用的聚类算法算法的主要思想 将各个聚类子集内的所有数据样本的均值作为该聚类的代表点通过迭代过程把数据集划分为不同的类别使得评价聚类性能的准则函数达到最优 从而使生成的每个聚类内紧凑 类间独立 使用范围 不适合处理离散型属性 但是对于连续型具有较好的聚类效果 3 k means算法 输入 簇的数目k和包含n个对象的数据库 输出 k个簇 使平方误差准则最小 算法步骤 1 为每个聚类确定一个初始聚类中心 这样就有K个初始聚类中心 2 将样本集中的样本按照最小距离原则分配到最邻近聚类3 使用每个聚类中的样本均值作为新的聚类中心 4 重复步骤2 3直到聚类中心不再变化 5 结束 得到K个聚类 4 将样本分配给距离它们最近的中心向量 并使目标函数值减小 更新簇平均值 计算准则函数E 5 算法要点 1 选定某种距离作为数据样本间的相似性度量在计算数据样本之间的距离时 可以根据实际需要选择欧式距离 曼哈顿距离或者明考斯距离中的一种来作为算法的相似性度量 其中最常用的是欧式距离 6 距离越小 样本xi和xj越相似 差异度越小 距离越大 样本xi和xj越不相似 差异度越大 2 选择评价聚类性能的准则函数 误差平方和准则函数给定数据集X 假设X包含k个聚类子集X1 X2 XK 各个聚类子集中的样本数量分别为n1 n2 nk 各个聚类子集的均值代表点 也称聚类中心 分别为m1 m2 mk 则误差平方和准则函数公式为 7 3 相似度的计算根据一个类中对象的平均值来进行 将所有对象随机分配到k个非空的类中 计算每个类的平均值 并用该平均值代表相应的类 根据每个对象与各个类中心的距离 分配给最近的类 然后转 2 重新计算每个类的平均值 这个过程不断重复直到满足某个准则函数才停止 8 数据对象集合S如表所示 作为一个聚类分析的二维样本 要求聚类的数量k 2 1 选择 为初始的类中心 即 2 对剩余的每个对象 根据其与各个类中心的距离 将它赋给最近的类 对 显然 故将分配给 例子 9 对于 因为 所以将分配给对于 因为 所以将分配给更新 得到新类和计算平方误差准则 单个方差为 10 总体平均方差是 3 计算新的聚类的中心 重复 2 和 3 得到O1分配给C1 O2分配给C2 O3分配给C2 O4分配给C2 O5分配给C1 更新 得到新类和 中心为 单个方差分别为 总体平均误差是 由上可以看出 第一次迭代后 总体平均误差值52 25降到25 65 显著减小 由于在这次迭代中 类中心不变 所以停止迭代过程 算法停止 11 性能分析 主要优点 是解决聚类问题的一种经典算法 简单 快速 对处理大数据集 该算法是相对可伸缩和高效率的 当结果类是密集的 而类与类之间区别明显时 它的效果较好 主要缺点在类的平均值被定义的情况下才能使用 这对于处理符号属性的数据不适用 必须事先给出k 要生成的类的数目 而且对初值敏感 对于不同的初始值 可能会导致不同结果 它对于 躁声 和孤立点数据是敏感的 少量的该类数据能够对平均值产生极大的影响 12 针对K means算法缺点的改进方法 1 对于不同的初始值 可能会导致不同结果 多设置一些不同的初值 但比较耗时和浪费资源 2 分类数目K不确定 通过类的自动合并和分裂 得到较为合理的类型数目K 例如ISODATA算法 相同点 聚类中心都是通过样本均值的迭代运算来决定的 不同点 主要是在选代过程中可将一类一分为二 亦可能二类合二为一 即 自组织 这种算法具有启发式的特点 由于算法有自我调整的能力 因而需要设置若干个控制用参数 如聚类数期望值K 最小类内样本数 类间中心距离参数 每次迭代允许合并的最大聚类对数L及允许迭代次数I等 13 k center算法 解决k means算法对于孤立点是敏感的问题不采用簇中的平均值作为参照点 可以选用类中位置最中心的对象 即中心点作为参照点 划分方法仍然是基于最小化所有对象与其参照点之间的相异度之和的原则来执行的 k means算法的改进方法 k center算法 14 k modes算法 实现对离散数据的快速聚类 处理分类属性型数据 例如 姓名 性别 年龄等 采用差异度D来代替k means算法中的距离 差异度越小 则表示距离越小 一个样本和一个聚类中心的差异度就是它们各个属性不相同的个数 属性相同为0 不同为1 并计算1的总和 因此D越大 即他的不相关程度越强 k means算法的改进方法 k modes算法 15 16 K m
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 音乐教育试题及答案
- 贵州省黔东南州从江县宰便中学2023-2024学年七年级上学期数学期中考试试卷(含答案)
- 1.2.2数轴教学设计 人教版(2024版) 数学七年级上册
- 演唱 我们是春天 春天又来临※ 春之歌说课稿-2025-2026学年初中音乐湘教版简谱 五线谱七年级下册-湘教版
- 2.2 构成物质的微粒(Ⅰ)-分子说课稿-2023-2024学年九年级化学科粤版(2012)上册
- 疫情门诊防护知识培训课件
- 疫情返岗前安全培训内容课件
- 河南省南阳市六校2025-2026学年高二上学期第一次联考英语
- 2.8 百家争鸣 说课稿 2023-2024学年统编版七年级历史上册
- 第6课《信息交流与安全》(教学设计)苏少版六年级上册综合实践活动
- 2025至2030中国智慧供暖行业产业运行态势及投资规划深度研究报告
- 四讲四有课件
- 沪教3起五年级上册Module 2 Relationships 单元整体作业设计
- 出租物业安全协议书
- AP微积分BC2024-2025年真题汇编试卷(积分与级数深度解析与挑战)
- GB/T 45637-2025电动牙刷性能测试方法
- 【中国信通院】eSIM产业热点问题研究报告(2025年)
- 2024-2025学年河北省石家庄市新华区四年级(上)期末数学试卷(含答案)
- 2024年陕西省学业水平考试地理试题分析 课件
- GB/T 25820-2025包装用钢带
- 小学生消防安全课件图片
评论
0/150
提交评论