大数据十大经典算法讲解1资料_第1页
大数据十大经典算法讲解1资料_第2页
大数据十大经典算法讲解1资料_第3页
大数据十大经典算法讲解1资料_第4页
大数据十大经典算法讲解1资料_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、ThealgorithmofKmeans,组成员:徐佳、张俊飞、刘志伟、孔祥玉、主要内容:kameans实战、聚类算法的概要、kameans算法的缺陷和一些改进、kameans单独实现聚类算法概述,1、2、3,聚类目标:将组向量分成几个组,组内数据相似,但组间数据有明显差异。 分类差异:分类和聚类的最大区别在于分类的目标是事先已知的,也称为聚类未被监视的机器学习,聚类手段:传统的聚类算法分类法的分层法是基于密度法基于网络法基于模型法,k 、Q1:K是什么?A1:k是聚类算法中的类的数量。 Summary:Kmeans是用平均算法将数据分成k类的算法! Q2:means是什么?A2:means是

2、平均算法。 kameans算法详细解(1)、步骤1 :获取k个初始中心点,kameans算法详细解(2)、minofthresheduetotheeuclidistance、步骤2 :将各点分割成对应的聚类,并生成ka minofthresholdeduetotheeuclidistance,step3:重新计算中心点,kameans算法详细解(4),step4:反复计算中心点,kameans算法详细解(5),step5:收敛,ka mea 从数据中随机提取k点作为初始集群的中心的该中心代表各集群,计算从数据中的所有点到k点的距离,向最近的集群汇总点,即使集群的中心向集群的几何中心(即平均值)

3、移动,即k-means 重复第二步骤直到集群中心不再移动,时,该算法收敛最后k均值算法的时间、空间复杂度为时间复杂度:上限为O(tKmn ),下限为(Kmn )。 其中,t是重复次数,k是簇的数量,m是记录数,n是维度空间复杂度: O(m K)n )。 其中k是簇的数量,m是记录数,n是维数,决定性的要素Selectedk、MaxIterationsConvergence、Meassures,数据的收集和抽象的初始中心选择,最大反复次数的收敛值,k值的选定,测量距离的手段,factors 、主要是、初始中心点、输入的数据和k值的选择、距离测量,主要研究了三个要素。 讨论初期中心点的区分、初期中

4、心点的意义是什么? 下面的例子一目了然吗?初始中心点,收敛后,你知道如何测量Kmeans算法的精度吗? 在详细描述初始中心点的选择之前,必须决定测量kmeans算法精度的方法。 测量聚类效果的一个标准表示SSSE(sumofsquarreeerror,误差平方和) SSE越小,数据点越接近重心,聚类效果越好。 因为把误差平方了,所以更重视远离中心的点。 一种确保减少SSE的方法是增加集群的数量。 但是,这违背了集群的目标。 集群是为了使目标集群保持不变以提高集群的质量。 现在,我们首先可以考虑以缩小SSE为目标来改进算法。 另外,改进的算法二分k均值算法提出了二分k均值算法,以克服k均值算法收

5、敛到局部问题。 该算法首先将所有的点分割成一个簇,然后将该簇分割成两个。 然后,选择一个集群来继续分割,根据该分割是否能够使SSE值最小化来决定选择哪个集群。 伪代码将所有的点都视为一个集群,并且集群数目小于k,则针对每个集群计算总和误差,在预定集群上计算k平均集群(K=2),并对所选择的集群进行分割操作,以使得将该集群分割成两部分的总和误差最小双击这里添加文字内容,既要改进算法,就要表现算法的优势。 因此控制变量,在相同的实验环境中取相同的k值。 选择相同的距离测量标准(欧几里得距离),在相同的数据集下进行测试。一组实验结果,一组不良的初期点产生的kameans算法的结果,两点kameans

6、产生的结果,光靠这一组实验不能得到两点kameans的优势,但是很多实验得到的结论,很多情况下,两点kameans是确实的全局最小值、二分kmeans真的能使SSE为全局最小值吗? 从前面的说明可以看出,二分kmeans算法的思想和贪婪的思想相似。 但是,发现贪婪的过程中有不确定的因素。 例如,在每两个建立一个集群时选择的两个中间点是随机的,这影响我们的策略。 那么,这样两分钟k均值算法能否达到全局最佳解?答案是“是! 全局最小值的定义是可能的最佳结果,也许会对以下说法感到吃惊。 k值的选择和坏点的删除,k值、坏点的删除的意思是? 下面,用一个例子说明k值的重要性。 为什么错了呢?上面的例子清

7、楚了错误的原因。 直观上很容易看到这种天气不可能是气温100 %,湿度1100%。 可知不好的地方对kmeans的影响很大。 另一方面,季节虽然有春夏秋冬的区别,但强行分成夏冬也是不可能的。 如果分为四个类别,也许我们能“中和”坏点的影响。 哪里错了呢! 啊! 啊! 带canopy预处理的kmeans算法:(1)将数据集量化成一个列表后,装入存储器,选择两个距离阈值: T1和T2。 (从列表中任意取点p,用低计算成本法迅速计算点p和所有的Canopy的距离(现在不存在Canopy时,设点p为Canopy ),如果点p和某Canopy的距离在T1以内,则将点p加到该Canopy上如果点p和一个C

8、anopy之间的距离在T2以内,就需要从list中删除点p,因为该步骤被认为点p接近该Canopy,所以不能制作另一个Canopy的中心(重复步骤2,3直到list变空为止) 带canopy预处理的kameans算法的新挑战,canopy预处理进行得很顺利,今后再用吧,我想并不一定如此。 解决了kmeans中的几个问题,但其本身也引入了新问题: t1、t2的选择。 大数据下kmeans算法的并行策略,VS,单选OR集体殴打? 啊! 另外,在大数据下kmeans算法的并行策略是,当面对大数据时,传统的聚类算法在单位时间内处理量少,当面对大量数据时处理时间长,不能达到预期效果的缺陷以上的算法,其数

9、据都是随着数据集的增加,基于存储器的自适应是被设计用于并行处理大量数据的编程模型。 假设所有数据都存储在存储器中,并且随着数据集的增加,基于存储器的自适应是被设计用于并行处理大量数据的编程模型,并且将工作分成独立任务的集合。另外,Map-reduce处理的概要、Map函数的设计、函数的设计框架中的函数的输入,其中,由针对输入数据记录的偏移当前样本的各维坐标值构成的向量首先表示从该向量到各集群的中心点的距离选择最小距离的簇作为样本所属的簇来输出,Combine函数被设计为表示样本的向量,其中Combine函数的输入被设计为配对,即函数的输出,首先从配对中产生每个贝的输出在此,是将作为簇的识别符的以上的集合中的所有向量相加后的向量和集合中的向量的数目,Reduce函数设计、函数的输入是键值对。 其中,含有在要处理的集群中或者节点作为集群标识符的样本的数目和向量所表示的集群中心点的输出是。 现在,对于作为集群标识符的新集群中心函数,首先从函数输入来分析属于同一集群的样本的数目和各节点传入的函数,将该数目与各节点相加,并且将得到的向量除以个数以获得新的中心点坐标。 一个运行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论