聚类算法讲解.ppt

上传人：油*** IP属地：浙江上传时间：2020-03-22 格式：PPT 页数：32 大小：4.58MB 积分：25 举报 版权申诉

已阅读5页，还剩27页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

主要内容 Kmeans实战聚类算法简介 Kmeans算法详解 Kmeans算法的缺陷及若干改进 Kmeans的单机实现与分布式实现策略聚类算法简介 1 2 3 聚类的目标将一组向量分成若干组组内数据是相似的而组间数据是有较明显差异与分类区别分类与聚类最大的区别在于分类的目标事先已知聚类也被称为无监督机器学习聚类手段传统聚类算法划分法层次方法基于密度方法基于网络方法基于模型方法什么是Kmeans算法 Q1 K是什么 A1 k是聚类算法当中类的个数 Summary Kmeans是用均值算法把数据分成K个类的算法 Q2 means是什么 A2 means是均值算法 Kmeans算法详解 1 步骤一取得k个初始初始中心点 Kmeans算法详解 2 MinofthreeduetotheEuclidDistance 步骤二把每个点划分进相应的簇 Kmeans算法详解 3 MinofthreeduetotheEuclidDistance 步骤三重新计算中心点 Kmeans算法详解 4 步骤四迭代计算中心点 Kmeans算法详解 5 步骤五收敛 Kmeans算法流程从数据中随机抽取k个点作为初始聚类的中心由这个中心代表各个聚类计算数据中所有的点到这k个点的距离将点归到离其最近的聚类里调整聚类中心即将聚类的中心移动到聚类的几何中心即平均值处也就是k means中的mean的含义重复第2步直到聚类的中心不再移动此时算法收敛最后kmeans算法时间空间复杂度是时间复杂度上限为O tKmn 下限为 Kmn 其中 t为迭代次数 K为簇的数目 m为记录数 n为维数空间复杂度 O m K n 其中 K为簇的数目 m为记录数 n为维数决定性因素 Input centroids Selectedk MaxIterations Convergence Meassures 数据的采集和抽象初始的中心选择最大迭代次数收敛值 k值的选定度量距离的手段 factors 主要讨论初始中心点输入的数据及K值的选择距离度量我们主要研究的三个方面因素初始中心点的划分讨论初始中心点意义何在下面的例子一目了然吧初始中心点收敛后你懂的如何衡量Kmeans算法的精确度在进一步阐述初始中心点选择之前我们应该先确定度量kmeans的算法精确度的方法一种度量聚类效果的标准是 SSE SumofSquareError 误差平方和 SSE越小表示数据点越接近于它们的质心聚类效果也就越好因为对误差取了平方所以更重视那些远离中心的点一种可以肯定降低SSE的方法是增加簇的个数但这违背了聚类的目标因为聚类是在保持目标簇不变的情况下提高聚类的质量现在思路明了了我们首先以缩小SSE为目标改进算法改进的算法二分Kmeans算法为了克服k均值算法收敛于局部的问题提出了二分k均值算法该算法首先将所有的点作为一个簇然后将该簇一分为二之后选择其中一个簇继续划分选择哪个簇进行划分取决于对其划分是否可以最大程度降低SSE值伪代码如下将所有的点看成一个簇当簇数目小于k时对于每一个簇计算总误差在给定的簇上面进行K均值聚类 K 2 计算将该簇一分为二后的总误差选择使得误差最小的那个簇进行划分操作二分Kmeans算法的效果双击此处添加文字内容既然是改进算法就要体现改进算法的优越性为此控制变量在相同的实验环境下取相同的k值取选取相同的的距离度量标准欧氏距离在相同的数据集下进行测试一组实验结果一组不好的初始点产生的Kmeans算法结果二分kmeans产生的结果要强调的是尽管只是这一组实验不得以得出二分kmeans的优越性但是经过大量实验得出的结论却是在大多数情况下二分kmeans确实优于朴素的kmeans算法全局最小值二分kmeans真的能使SSE达到全局最小值吗从前面的讲解可以看到二分kmeans算法的思想有点类似于贪心思想但是我们会发现贪心的过程中有不确定的因素比如二分一个聚类时选取的两个中间点是随机的这会对我们的策略造成影响那么如此一来二分kmeans算法会不会达到全局最优解呢答案是会尽管你可能惊诧于下面的说法但全局最小值的定义却是可能的最好结果 K值的选择以及坏点的剔除讨论k值剔除坏点的意义何在下面以一个例子来说明k值的重要性为什么会出错上面的例子当中出错的原因很明显凭直觉我们很容易知道不可能有这样的天气它的气温是100 湿度是1100 可见坏点对kmeans的影响之大另一方面季节有春夏秋冬之分而我们强行的把它们分为夏冬两个类也是不太合理的如果分为四个类我们也许可以中和掉坏点的影响究竟哪里错了带canopy预处理的kmeans算法 1 将数据集向量化得到一个list后放入内存选择两个距离阈值 T1和T2 2 从list中任取一点P 用低计算成本方法快速计算点P与所有Canopy之间的距离如果当前不存在Canopy 则把点P作为一个Canopy 如果点P与某个Canopy距离在T1以内则将点P加入到这个Canopy 3 如果点P曾经与某个Canopy的距离在T2以内则需要把点P从list中删除这一步是认为点P此时与这个Canopy已经够近了因此它不可以再做其它Canopy的中心了 4 重复步骤2 3 直到list为空结束带canopy预处理的kmeans算法的优点带canopy预处理的kmeans算法的新挑战 Canopy预处理这么好我们以后就用它好了我看不见得它虽然解决kmeans当中的一些问题但其自身也引进了新的问题 t1 t2的选取大数据下kmeans算法的并行策略 VS 单挑OR群殴大数据下kmeans算法的并行策略面对海量数据时传统的聚类算法存在着单位时间内处理量小面对大量的数据时处理时间较长难以达到预期效果的缺陷以上算法都是假设数据都是在内存中存储的随着数据集的增大基于内存的就难以适应是一个为并行处理大量数据而设计的编程模型 Kmeans算法都是假设数据都是在内存中存储的随着数据集的增大基于内存的就难以适应是一个为并行处理大量数据而设计的编程模型它将工作划分为独立任务组成的集合 Map reduce的过程简介 Map函数设计函数的设计框架中函数的输入为对其中为输入数据记录的偏移量为当前样本的各维坐标值组成的向量首先计算该向量到各个聚簇中心点的距离然后选择最小的距离的聚簇作为该样本所属的簇之后输出其中是距最近的聚簇的标识符为表示该样本的向量 Combine函数设计函数的设计函数的输入为对即函数的输出首先从中解析出各个向量然后将解析出的向量相加并记录集合中向量的个数输出是对其中是聚簇的标识符是以上集合中所有的向量相加所得的向量及集合中向量的数目 Reduce函数设计函数的输入是键值对其中为聚簇的标识符为节点处理的聚簇中含有的样本的个数及用向量表示的聚簇的中心点输出为对其中为聚簇的标识符为新的聚簇中心函数首先从函数的输入中解析出属于同一个聚簇的样本的个数及各个节点传过来的然后将个数及各个相加之后将所得到的向量除以个数得到新的中心点坐标一个运行结果一个实验所有实验都是在实验室搭建的平台上运行的平台有台机器都是四核处理器内存版本版本每台机器之间用千兆以太网卡通过交换机连接实验

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

聚类算法讲解.ppt

文档简介

温馨提示

最新文档

评论

聚类算法讲解.ppt

文档简介

温馨提示

最新文档

评论

相关文档