




已阅读5页,还剩13页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘算法 原理与实践 1 八 K means聚类算法 1 简介K means聚类算法就是基于距离的聚类算法 clusteralgorithm 主要通过不断地取离种子点最近均值的算法 2个中心点的kmeans 2 八 K means聚类算法 2 K means聚类算法原理K means聚类算法的基本思想 一 指定需要划分的簇的个数k值 二 随机地选择k个初始数据对象点作为初始的聚类中心 三 计算其余的各个数据对象到这k个初始聚类中心的距离 把数据对象划归到距离它最近的那个中心所处在的簇类中 四 调整新类并且重新计算出新类的中心 五 计算聚类准则函数E 若E不满足收敛条件 重复二 三 四 六 结束 3 八 K means聚类算法 2 K means聚类算法原理K Means算法的工作框架 4 八 K means聚类算法 2 K means聚类算法原理 K means算法的工作流程 5 补充 距离的算法的选择一般 我们都是以欧拉距离来计算与种子点的距离 但是 还有几种可以用于k means的距离计算方法 1 闵可夫斯基距离 可以随意取值 可以是负数 也可以是正数 或是无穷大 2 欧拉距离 也就是第一个公式 2的情况3 市郊区距离公式 也就是第一个公式 1的情况4 余弦距离 常用于文本 6 补充 距离的算法的选择 闵可夫斯基距离 欧拉距离 市郊区距离公式 7 八 K means聚类算法 3K means聚类算法特点及应用3 1K means聚类算法特点优点 1 算法简单 快速 2 对处理大数据集 该算法是相对可伸缩的和高效率的 3 算法尝试找出使平方误差函数值最小的k个划分 缺点 1 K means聚类算法只有在簇的平均值被定义的情况下才能使用 2 要求用户必须事先给出要生成的簇的数目k 3 对初值敏感 4 不适合于发现非凸面形状的簇 或者大小差别很大的簇 5 对于 噪声 和孤立点数据敏感 8 K means缺点以及改进 1 要求用户必须事先给出要生成的簇的数目k 这个k并不是最好的 解决 肘部算法肘部算法是一种启发式方法来估计最优聚类数量 称为肘部法则 ElbowMethod 从图中可以看出 K值从1到3时 平均畸变程度变化最大 超过3以后 平均畸变程度变化显著降低 因此肘部就是K 3 各个类畸变程度 distortions 之和 每个类的畸变程度等于该类重心与其内部成员位置距离的平方和 最优解以成本函数最小化为目标 其中uk是第k个类的重心位置 9 K means缺点以及改进 2 K Means算法需要用初始随机种子点来搞 不同是起点结果不同 可能导致算法陷入局部最优 解决 K Means 算法 初始的聚类中心之间的相互距离要尽可能的远 1 先从我们的数据库随机挑个随机点当 种子点 2 对于每个点 我们都计算其和最近的一个 种子点 的距离D x 并保存在一个数组里 然后把这些距离加起来得到Sum D x 3 然后 再取一个随机值 用权重的方式来取计算下一个 种子点 这个算法的实现是 先取一个能落在Sum D x 中的随机值Random 然后用Random D x 直到其 0 此时的点就是下一个 种子点 4 重复2和3直到k个聚类中心被选出来5 利用这k个初始的聚类中心来运行标准的k means算法 假设A B C D的D x 如上图所示 当算法取值Sum D x random时 该值会以较大的概率落入D x 较大的区间内 所以对应的点会以较大的概率被选中作为新的聚类中心 10 八 K means聚类算法 3K means聚类算法特点及应用3 2K means聚类算法应用 1 K means算法在散货船代货运系统中的应用 2 K Means算法在客户细分中的应用补充 K means适用于各种各样的领域 比如文本分析 路径规划 神经网络 用户行为 生物信息等 11 八 K means聚类算法 实例分析一利用K mean方法 对A L12个数据分成两类 初始的随机点指定为M1 20 60 M2 80 80 列出每一次分类结果及每一类中的平均值 中心点 i 1 2 12 八 K means聚类算法 13 八 K means聚类算法 14 八 K means聚类算法 15 八 K means聚类算法 16 八 K means聚类算法 实例分析二设有数据样本集合为X 1 5 10 9 26 32 16 21 14 将X聚为3类 即K 3 随即选择前三个数值为初始的聚类中心 即z1 1 z2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 制定未来蓝图:学科建设的战略规划与实施路径探索
- 小学道德教育课程标准解读
- 2025年9月移动互联网支付安全调查报告范文
- 健康状况对中老年人家庭资产配置策略的影响研究
- 山东外事职业大学《设计材料与工艺》2023-2024学年第一学期期末试卷
- 江苏食品药品职业技术学院《亲属法理论与实务》2023-2024学年第一学期期末试卷
- 鲁东大学《建筑工程施工与组织管理》2023-2024学年第一学期期末试卷
- 初中七年级美术课程教学计划
- 三、四年级趣味数学社团家长参与计划
- 2025三年级数学思维训练计划
- 健身房托管协议
- 2024年4月自考04184线性代数(经管类)答案及评分参考
- 2023中国中青年心脑血管健康白皮书
- 车辆运输保障方案
- 地铁保安服务项目概况及重难点分析
- 附表二-工程进度率计划(斜率图)
- 护理不良事件处置流程课件
- 10KV配电室交接试验报告大全
- 印章(印鉴)交接单模板
- 煤矿绞车司机安全操作规程
- 英语四级单词4500
评论
0/150
提交评论