面向大数据集的递增聚类方法研究

上传人：月*** IP属地：贵州上传时间：2018-12-01 格式：DOC 页数：12 大小：52KB 积分：12 举报 版权申诉

已阅读5页，还剩7页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

-精选财经经济类资料- -最新财经经济资料-感谢阅读- 1 面向大数据集的递增聚类方法研究摘要：以往提出的面向大数据集的递增聚类方法直接将多维度的大数据集转换成一维大数据集，导致聚类成果不佳，故提出面向大数据集的递增聚类新方法。为取得高聚类效率，在高度保留原始数据维度的情况下，简化了大数据集递增聚类步骤，构建出大数据处理集合，对集合中的标志样本进行局部递增聚类，将未能成功聚类的大数据平均分配到局部递增聚类结果中，使用高斯概率密度函数和证据理论检测其中的错误坐标并进行改正，获取最终的递增聚类结果。实验结果证明该方法具有优越的聚类成果和聚类效率。中国论文网 /8/view-12925038.htm -精选财经经济类资料- -最新财经经济资料-感谢阅读- 2 关键词：大数据集；递增聚类方法；高斯概率密度函数；证据理论中图分类号： TN911?34； TP311.13 文献标识码： A 文章编号： 1004?373X（ 2017）09?0176?03 Abstract： Since the clustering effect is poor because the previously?proposed incremental clustering method converts the multi?dimensional large dataset into the one?dimensional large dataset directly， a new incremental clustering method for large dataset is put forward. In order to obtain the high clustering efficiency， the incremental clustering step of the large dataset was simplified while highly maintaining the original data dimensions to construct a large data processing set. The local incremental clustering is performed for the logo samples in the set. The large data with failed clustering is distributed into the local incremental -精选财经经济类资料- -最新财经经济资料-感谢阅读- 3 clustering results equally， and its fault coordinate is detected with Gaussian probability density function and coordinate evidence theory and modified. The final incremental clustering results are obtained. The experiment results prove that the proposed method has superior clustering effect and clustering efficiency. Keywords ： large dataset； incremental clustering method； Gaussian probability density function； evidence theory 0 引言聚类的实质就是把大数据分层，同层中的大数据特征拥有共通性，而不同层中的大数据特征存在明显差异，并且大数据特征是可以被提取和描述的1。递增聚类是其中一种无监督式的分析手段，在语音识别、色彩分类和纹理提取等搜索层面中均有涉及，受到了广泛的关注。递增聚类的基本原理类似于度衡量技术和最优函数，它依据特定标准在 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 4 未经处理过的大数据集中挖掘隐晦的递增聚类架构2。在实际应用中，类似度衡量技术的稳定性不佳，经常受到大数据递增结构、聚类密度、大数据维度等方面的s 束，致使递增聚类达不到目标聚类的成果3。增强递增聚类中类似度衡量技术的稳定性一直是科研人员的研究基础，一些优秀的类似度衡量技术的稳定性解决方法，如相邻大数据共享策略、密度敏感性度量等均是在大数据维度不高的情况下被提出的，在高维度应用中上述方法的迭代次数过多，大幅度降低了聚类效率。综上所述，以往提出的面向大数据集的递增聚类方法常受限于类似度衡量技术的稳定性，并没有取得优越的聚类成果和聚类效率4。解决这一问题的主要方式就是构建出能够有效平衡大数据维度的大数据处理集合，在此基础上分层次地获取到递增聚类结果，再对各层次的递增聚类结果进行汇总，使用合理的处理手段给出统一的递增聚类结果。 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 5 基于上述分析，提出一种面向大数据集的递增聚类新方法。 1 大数据处理集合的构建以往提出的面向大数据集的递增聚类方法为了提高聚类效率，直接将多维度的大数据集转换成一维大数据集，导致聚类成果不佳，在实际应用中具有局限性5。为此，提出面向大数据集的递增聚类新方法在对运算量高的大数据进行维度简化的同时，补充了递增聚类步骤，保留了大数据集的多维度特性，取得了高聚类效率。在多维坐标系中选择一个含有个数据的大数据集，用表示，提取出其中的目标大数据，用表示。如果的维度为则可将转换为一个矩阵6。递增聚类大数据集的实质就是获取集合矩阵中各层大数据特征的类似度，依据类似度的具体数值为目标大数据定义出一个识别码是递增聚类总数量。一般来讲，在递增聚类中大数据集中的所有大数据都是目标大数据，则可组建出目标大数据识别 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 6 码集合，用表示7。递增聚类的最终目的是无限增大相同层次中大数据特征的类似度。本文提出的面向大数据集的递增聚类新方法以多维坐标系中的中心坐标点为圆心、离差平方和为半径构建大数据处理集合。假设大数据处理集合中拥有个大数据层次，那么的圆心和半径可表示成： 2 大数据集局部递增聚类方法由于大数据集同层中的大数据特征拥有共通性，为了提高聚类效率，所提面向大数据集的递增聚类新方法先在大数据集中选择出各层大数据特征的标志颖荆将样本的大数据特征平均值标记为标志坐标，对以标志坐标为圆心的大数据处理集合进行递增聚类9。每取得一次递增聚类结果，需要将聚类成功后的大数据删除，避免大数据特征的不断累计增加运算量，其聚类流程如图 1 所示。大数据集局部递增聚类方法的思 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 7 想是在大数据集中任意提取一个样本，如果中涵盖了本层中所有大数据特征，则将其定义为标志样本，并从中提取一个坐标点定义成初值，令初值的半径为初值与本层中大数据特征的密度阈值为 MI，要求经由初值构建出的大数据处理集合中，所有大数据的特征密度均大于 MI。标志样本的标志坐标使用公式进行计算，表示拥有标志坐标的标志大数据。从标志坐标开始依次向外进行递增聚类，计算出大数据处理集合中其他大数据坐标与之间的距离：式中：分别表示到和的轴位移。当某一大数据的小于或证明局部递增聚类成功。大数据处理集合的每个层次都需要进行多次递增聚类才能取得聚类结果，聚类结果中的大数据是按照递增聚类成功的先后次序排列的10 。本文方法将事先给出每个层次的聚类结果文件，初始文件均为空集，每取得一个小于或的 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 8 大数据，聚类结果文件便会自动将大数据引入并为其赋予编号。产生了第一个聚类结果并将聚类成功大数据删除后，方法才会开始进行第二个聚类结果的提取工作，以防止聚类结果文件对大数据的错误引入，增强了方法的聚类成果。分层次将大数据处理集合中的所有大数据聚类成功后，可得到个聚类结果，将结果汇总，用集合表示。对于大于、等于或的大数据，大数据集局部递增聚类方法会把这些为数不多的大数据平均分到集合中，得到，并利用大数据整体递增聚类方法进行统一处理。 3 大数据整体递增聚类方法考虑到局部聚类结果中仍存在递增聚类不成功的大数据，若面向大数据集的递增聚类新方法使用单一的高斯概率密度函数进行整体递增聚类将得不到优越的聚类成果，所以需要在高斯概率密度函数中融合证据理论。给定一个集合作为大数据集局部递增聚类结果集合的幂数集合，幂数集 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 9 合中的数据可表示的聚类证据，是证据数量，。证据是指递增聚类中数据点的归属度，在一定程度上代表了聚类成果，是衡量大数据特征类似度的标准。幂数集合的高斯概率密度函数被定义为：面向大数据集的递增聚类新方法的使用步骤整理如下： Step1：输入原始大数据集，无需变更数据维度； Step2：使用式（1）式（3）构建大数据处理集合，使用式（4），式（5）修正集合； Step3：选取标志样本，计算标志坐标，进行局部递增聚类，汇总局部递增聚类结果； Step4：平均分配未成功进行递增聚类的大数据； Step5：使用式（7）检测错误坐标并修改； Step6：使用式（8）增强方法类似度衡量技术稳定性； Step7：使用式（9）计算信任函 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 10 数，推导出方法目标函数，给出最终的递增聚类结果。 4 仿真实验 4.1 实验设置为了精准验证本文提出的面向大数据集的递增聚类新方法的聚类成果和聚类效率，需要在不同维度的大数据集中进行实验，并尽可能采取对比策略，给出具有说服力的验证结果。为此，实验利用计算机模拟出了 Tris 和 KDD64Bio 两种大数据集，第一种是二维坐标点大数据集，第二种是多维图像大数据集。与本文方法相对应的对比方法在文献5和文献 9中进行了详细介绍，这两种方法的市场需求和用户反馈均是比较优越的。 4.2 实验结果与分析由于 Tris 大数据集拥有精确的数据坐标点信息，因此可从递增聚类准确度中看出三种方法的聚类成果，如图 2 所示。KDD64Bio 大数据集由于数据维度复杂，故需要从聚类结果的数据间隔 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 11 入手分析聚类成果，数据间隔越短，聚类成果越好，如表 1 所示。数据间隔包括同层间隔和异层间隔。实验设置三种方法的聚类时间结果将与聚类成果共同输出，如表 2 所示。从表 1，表 2 中能够非常明显地看出，实验中对比方法的聚类成果均要远低于本文方法的

人人文库> 全部分类> 应用文书 > 事务文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

面向大数据集的递增聚类方法研究

文档简介

温馨提示

最新文档

评论

面向大数据集的递增聚类方法研究

文档简介

温馨提示

最新文档

评论

相关文档