【基于划分的聚类算法概述2800字】_第1页
【基于划分的聚类算法概述2800字】_第2页
【基于划分的聚类算法概述2800字】_第3页
【基于划分的聚类算法概述2800字】_第4页
【基于划分的聚类算法概述2800字】_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

]。可伸缩性算法的伸缩性亦指算法的扩展性。随着大数据时代的到来,数据集的规模也不断增大,致使许多适用于小数据集的聚类算法在相对较大的数据集上进行聚类时会出现聚类结果与实际偏差较大的情况。因此,我们需要开发稳定可靠的高度可扩展性基于划分的聚类算法来解决这一问题。处理不同属性类型的能力在信息技术快速发展的推动下,数据的属性类型也变得丰富多彩,比如,图形图像数据、文本数据、混合数据和多源异构数据等。因此,对基于划分的聚类算法也提出更高的要求,使其适应复杂数据类型的分析。对于确定输入参数的领域知识的要求目前,两种经典的划分聚类算法K-means和K-medoids都需要用户主动输入参数来干预聚类过程,比如:期望聚类簇数K。这些参数的输入通常基于用户对领域知识的认识,如果用户缺乏领域知识,参数的输入将直接影响聚类效果。此外,在对高维海量或用户未知分布的数据集进行聚类时,参数的确定将更加重要。因此,如何避免参数的输入或者削弱参数的影响不仅可以提高聚类的性能还可以减轻用户参数选择的困惑。处理噪声的能力通常情况下,原始数据为非标准数据。因为在数据的采集、传输、存储和调用阶段都有可能发生错误或故障产生噪声数据。为了避免因噪声数据产生低质量的聚类结果,我们常常会排除数据集中的噪声数据。噪声对不同的聚类算法影响程度不同(K-means和K-medoids对噪声尤其敏感),所以排除噪声数据的干扰是基于划分的聚类算法研究的重要部分。聚类高维数据的能力目前,越来越多的数据包含数十维甚至更多的属性特征,例如LAMOST获取的恒星光谱数据就高达三千维。然而多数的基于划分的聚类算法善于聚类低维数据,在对高维数据特别是特征稀疏、含有噪声且不平衡的数据进行聚类分析时该类算法却略显吃力。因此,如何提高基于划分的聚类算法在高维数据中的发掘能力将是我们进一步研究的方向。相似性度量基于划分的聚类算法是根据数据对象间的相似性将数据集划分成若干子集的过程,即根据“距离”远近进行数据分组。不同的方法所反映的数据间“距离”层面不同。基于此,相似性方法选择的好坏将直接影响聚类的划分结果。聚类空间大数据不仅体现在数量的庞大上,还体现在数据维度的增加。在高维数据集中,可能会因为属性空间中的各属性相关性依赖较小,致使传统的相似度度量不能真实的反映数据对象间的“距离”。所以在整个数据空间中寻觅聚类通常效果不佳。因此人们提出了子空间搜索、特征提取等方法来改进聚类效果。可解释性聚类不是目的,从聚类中获取有价值的信息才是人们研究聚类算法的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论