R语言的kmeans客户细分模型聚类

上传人：b*** IP属地：贵州上传时间：2020-03-29 格式：DOC 页数：21 大小：24KB 积分：20 举报 版权申诉

已阅读5页，还剩16页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

R 语言的 kmeans 客户细分模型聚类来源 bourneli 李伯韬的技术博客前言 kmeans 是最简单的聚类算法之一但是运用十分广泛最近在工作中也经常遇到这个算法 kmeans 一般在数据分析前期使用选取适当的 k 将数据分类后然后分类研究不同聚类下数据的特点本文记录学习 kmeans 算法相关的内容包括算法原理收敛性效果评估聚最后带上 R 语言的例子作为备忘算法原理 kmeans 的计算方法如下 1 随机选取 k 个中心点 2 遍历所有数据将每个数据划分到最近的中心点中 3 计算每个聚类的平均值并作为新的中心点 4 重复 2 3 直到这 k 个中线点不再变化收敛了或执行了足够多的迭代时间复杂度 O I n k m 空间复杂度 O n m 其中 m 为每个元素字段个数 n 为数据量 I 为跌打个数一般 I k m 均可认为是常量所以时间和空间复杂度可以简化为 O n 即线性的算法收敛也就是当前聚类的均值就是当前方向的最优解最小值这与 kmeans 的每一次迭代过程一样所以这样保证 SSE 每一次迭代时都会减小最终使 SSE 收敛由于 SSE 是一个非凸函数 non convex function 所以 SSE 不能保证找到全局最优解只能确保局部最优解但是可以重复执行几次 kmeans 选取 SSE 最小的一次作为最终的聚类结果 0 1 规格化由于数据之间量纲的不相同不方便比较举个例子比如游戏用户的在线时长和活跃天数前者单位是秒数值一般都是几千而后者单位是天数值一般在个位或十位如果用这两个变量来表征用户的活跃情况显然活跃天数的作用基本上可以忽略所以需要将数据统一放到 0 1 的范围将其转化为无量纲的纯数值便于不同单位或量级的指标能够进行比较和加权具体计算方法如下轮廓系数轮廓系数 Silhouette Coefficient 结合了聚类的凝聚度 Cohesion 和分离度 Separation 用于评估聚类的效果该值处于 1 1 之间值越大表示聚类效果越好具体计算方法如下对于第 i 个元素 x i 计算 x i 与其同一个簇内的所有其他元素距离的平均值记作 a i 用于量化簇内的凝聚度选取 x i 外的一个簇 b 计算 x i 与 b 中所有点的平均距离遍历所有其他簇找到最近的这个平均距离记作 b i 用于量化簇之间分离度对于元素 x i 轮廓系数 s i b i a i max a i b i 计算所有 x 的轮廓系数求出平均值即为当前聚类的整体轮廓系数从上面的公式不难发现若 s i 小于 0 说明 x i 与其簇内元素的平均距离小于最近的其他簇表示聚类效果不好如果 a i 趋于 0 或者 b i 足够大那么 s i 趋近与 1 说明聚类效果比较好 K 值选取在实际应用中由于 Kmean 一般作为数据预处理或者用于辅助分类贴标签所以 k 一般不会设置很大可以通过枚举令 k 从 2 到一个固定值如 10 在每个 k 值上重复运行数次 kmeans 避免局部最优解并计算当前 k 的平均轮廓系数最后选取轮廓系数最大的值对应的 k 作为最终的集群数目实际应用下面通过例子 R 实现完整代码见附件讲解 kmeans 使用方法会将上面提到的内容全部串起来 1 library fpc install packages fpc 2 data iris 3 head iris 加载实验数据 iris 这个数据在机器学习领域使用比较频繁主要是通过画的几个部分的大小对花的品种分类实验中需要使用 fpc 库估计轮廓系数如果没有可以通过 install packages 安装 1 0 1 正规化数据 2 min max norm function x 3 x min x max x min x 4 5 raw data iris 1 4 6 norm data data frame sl min max norm raw data 1 7 sw min max norm raw data 2 8 pl min max norm raw data 3 9 pw min max norm raw data 4 对 iris 的 4 个 feature 做数据正规化每个 feature 均是花的某个不为的尺寸 1 k 取 2 到 8 评估 K 2 K 2 8 3 round 30 每次迭代 30 次避免局部最优 4 rst sapply K function i 5 print paste K i 6 mean sapply 1 round function r 7 print paste Round r 8 result kmeans norm data i 9 stats cluster stats dist norm data result cluster 10 stats avg silwidth 11 12 13 plot K rst type l main 轮廓系数与 K 的关系 ylab 轮廓系数评估 k 由于一般 K 不会太大太大了也不易于理解所以遍历 K 为 2 到 8 由于 kmeans 具有一定随机性并不是每次都收敛到全局最小所以针对每一个 k 值重复执行 30 次取并计算轮廓系数最终取平均作为最终评价标准可以看到如下的示意图当 k 取 2 时有最大的轮廓系数虽然实际上有 3 个种类 1 降纬度观察 2 old par par mfrow c 1 2 3 k 2 根据上面的评估 k 2 最优 4 clu kmeans norm data k 5 mds cmdscale dist norm data method euclidean 6 plot mds col clu cluster main kmeans 聚类 k 2 pch 19 7 plot mds col iris Species main 原始聚类 pch 19 8 par old par 聚类完成后有源原始数据是 4 纬无法可视化所以通过多维定标 Multidimensional scaling 将纬度将至 2 为查看聚类效果如下可以发现原始分类中和聚类中左边那一簇的效果还是拟合的很好的右测原始数据就连在一起 kmeans 无法很好的区分需要寻求其他方法 kmeans 最佳实践 1 随机选取训练数据中的 k 个点作为起始点 2 当 k 值选定后随机计算 n 次取得到最小开销函数值的 k 作为最终聚类结果避免随机引起的局部最优解 3 手肘法选取 k 值绘制出 k 开销函数闪点图看到有明显拐点如下的地方设为 k 值可以结合轮廓系数 4 k 值有时候需要根据应用场景选取而不能完全的依据评估参数选取参考 1

人人文库> 全部分类> 应用文书 > 事务文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

R语言的kmeans客户细分模型聚类

文档简介

温馨提示

最新文档

评论

R语言的kmeans客户细分模型聚类

文档简介

温馨提示

最新文档

评论

相关文档