面向大数据集的递增聚类方法研究_第1页
面向大数据集的递增聚类方法研究_第2页
面向大数据集的递增聚类方法研究_第3页
面向大数据集的递增聚类方法研究_第4页
面向大数据集的递增聚类方法研究_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

-精选财经经济类资料- -最新财经经济资料-感谢阅读- 1 面向大数据集的递增聚类方法研究 摘 要: 以往提出的面向大数据 集的递增聚类方法直接将多维度的大数 据集转换成一维大数据集,导致聚类成 果不佳,故提出面向大数据集的递增聚 类新方法。为取得高聚类效率,在高度 保留原始数据维度的情况下,简化了大 数据集递增聚类步骤,构建出大数据处 理集合,对集合中的标志样本进行局部 递增聚类,将未能成功聚类的大数据平 均分配到局部递增聚类结果中,使用高 斯概率密度函数和证据理论检测其中的 错误坐标并进行改正,获取最终的递增 聚类结果。实验结果证明该方法具有优 越的聚类成果和聚类效率。 中国论文网 /8/view-12925038.htm -精选财经经济类资料- -最新财经经济资料-感谢阅读- 2 关键词: 大数据集; 递增聚类 方法; 高斯概率密度函数; 证据理论 中图分类号: TN911?34; TP311.13 文献标识码: A 文章编号: 1004?373X( 2017)09?0176?03 Abstract: Since the clustering effect is poor because the previously?proposed incremental clustering method converts the multi?dimensional large dataset into the one?dimensional large dataset directly, a new incremental clustering method for large dataset is put forward. In order to obtain the high clustering efficiency, the incremental clustering step of the large dataset was simplified while highly maintaining the original data dimensions to construct a large data processing set. The local incremental clustering is performed for the logo samples in the set. The large data with failed clustering is distributed into the local incremental -精选财经经济类资料- -最新财经经济资料-感谢阅读- 3 clustering results equally, and its fault coordinate is detected with Gaussian probability density function and coordinate evidence theory and modified. The final incremental clustering results are obtained. The experiment results prove that the proposed method has superior clustering effect and clustering efficiency. Keywords : large dataset; incremental clustering method; Gaussian probability density function; evidence theory 0 引 言 聚类的实质就是把大数据分层, 同层中的大数据特征拥有共通性,而不 同层中的大数据特征存在明显差异,并 且大数据特征是可以被提取和描述的1。 递增聚类是其中一种无监督式的分析手 段,在语音识别、色彩分类和纹理提取 等搜索层面中均有涉及,受到了广泛的 关注。递增聚类的基本原理类似于度衡 量技术和最优函数,它依据特定标准在 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 4 未经处理过的大数据集中挖掘隐晦的递 增聚类架构2。在实际应用中,类似度 衡量技术的稳定性不佳,经常受到大数 据递增结构、聚类密度、大数据维度等 方面的s 束,致使递增聚类达不到目 标聚类的成果3。增强递增聚类中类似 度衡量技术的稳定性一直是科研人员的 研究基础,一些优秀的类似度衡量技术 的稳定性解决方法,如相邻大数据共享 策略、密度敏感性度量等均是在大数据 维度不高的情况下被提出的,在高维度 应用中上述方法的迭代次数过多,大幅 度降低了聚类效率。 综上所述,以往提出的面向大数 据集的递增聚类方法常受限于类似度衡 量技术的稳定性,并没有取得优越的聚 类成果和聚类效率4。解决这一问题的 主要方式就是构建出能够有效平衡大数 据维度的大数据处理集合,在此基础上 分层次地获取到递增聚类结果,再对各 层次的递增聚类结果进行汇总,使用合 理的处理手段给出统一的递增聚类结果。 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 5 基于上述分析,提出一种面向大数据集 的递增聚类新方法。 1 大数据处理集合的构建 以往提出的面向大数据集的递增 聚类方法为了提高聚类效率,直接将多 维度的大数据集转换成一维大数据集, 导致聚类成果不佳,在实际应用中具有 局限性5。为此,提出面向大数据集的 递增聚类新方法在对运算量高的大数据 进行维度简化的同时,补充了递增聚类 步骤,保留了大数据集的多维度特性, 取得了高聚类效率。 在多维坐标系中选择一个含有个 数据的大数据集,用表示,提取出其中 的目标大数据,用表示。如果的维度为 则可将转换为一个矩阵6。递增聚类大 数据集的实质就是获取集合矩阵中各层 大数据特征的类似度,依据类似度的具 体数值为目标大数据定义出一个识别码 是递增聚类总数量。一般来讲,在递增 聚类中大数据集中的所有大数据都是目 标大数据,则可组建出目标大数据识别 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 6 码集合,用表示7。递增聚类的最终目 的是无限增大相同层次中大数据特征的 类似度。 本文提出的面向大数据集的递增 聚类新方法以多维坐标系中的中心坐标 点为圆心、离差平方和为半径构建大数 据处理集合。假设大数据处理集合中拥 有个大数据层次,那么的圆心和半径可 表示成: 2 大数据集局部递增 聚类方法 由于大数据集同层中的大数据特 征拥有共通性,为了提高聚类效率,所 提面向大数据集的递增聚类新方法先在 大数据集中选择出各层大数据特征的标 志颖荆将样本的大数据特征平均值 标记为标志坐标,对以标志坐标为圆心 的大数据处理集合进行递增聚类9。每 取得一次递增聚类结果,需要将聚类成 功后的大数据删除,避免大数据特征的 不断累计增加运算量,其聚类流程如图 1 所示。 大数据集局部递增聚类方法的思 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 7 想是在大数据集中任意提取一个样本, 如果中涵盖了本层中所有大数据特征, 则将其定义为标志样本,并从中提取一 个坐标点定义成初值,令初值的半径为 初值与本层中大数据特征的密度阈值为 MI,要求经由初值构建出的大数据处理 集合中,所有大数据的特征密度均大于 MI。标志样本的标志坐标使用公式进行 计算,表示拥有标志坐标的标志大数据。 从标志坐标开始依次向外进行递 增聚类,计算出大数据处理集合中其他 大数据坐标与之间的距离: 式中:分别表示到和的轴位移。 当某一大数据的小于或证明局部 递增聚类成功。 大数据处理集合的每个层次都需 要进行多次递增聚类才能取得聚类结果, 聚类结果中的大数据是按照递增聚类成 功的先后次序排列的10 。本文方法将 事先给出每个层次的聚类结果文件,初 始文件均为空集,每取得一个小于或的 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 8 大数据,聚类结果文件便会自动将大数 据引入并为其赋予编号。产生了第一个 聚类结果并将聚类成功大数据删除后, 方法才会开始进行第二个聚类结果的提 取工作,以防止聚类结果文件对大数据 的错误引入,增强了方法的聚类成果。 分层次将大数据处理集合中的所 有大数据聚类成功后,可得到个聚类结 果,将结果汇总,用集合表示。对于大 于、等于或的大数据,大数据集局部递 增聚类方法会把这些为数不多的大数据 平均分到集合中,得到,并利用大数据 整体递增聚类方法进行统一处理。 3 大数据整体递增聚类方法 考虑到局部聚类结果中仍存在递 增聚类不成功的大数据,若面向大数据 集的递增聚类新方法使用单一的高斯概 率密度函数进行整体递增聚类将得不到 优越的聚类成果,所以需要在高斯概率 密度函数中融合证据理论。 给定一个集合作为大数据集局部 递增聚类结果集合的幂数集合,幂数集 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 9 合中的数据可表示的聚类证据,是证据 数量, 。证据是指递增聚类中数据点的 归属度,在一定程度上代表了聚类成果, 是衡量大数据特征类似度的标准。幂数 集合的高斯概率密度函数被定义为: 面向大数据集的递增聚类新方法 的使用步骤整理如下: Step1: 输入原始大数据集,无 需变更数据维度; Step2: 使用式(1)式(3) 构建大数据处理集合,使用式(4) ,式 (5)修正集合; Step3: 选取标志样本,计算标 志坐标,进行局部递增聚类,汇总局部 递增聚类结果; Step4: 平均分配未成功进行递 增聚类的大数据; Step5: 使用式(7)检测错误坐 标并修改; Step6: 使用式(8)增强方法类 似度衡量技术稳定性; Step7: 使用式(9)计算信任函 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 10 数,推导出方法目标函数,给出最终的 递增聚类结果。 4 仿真实验 4.1 实验设置 为了精准验证本文提出的面向大 数据集的递增聚类新方法的聚类成果和 聚类效率,需要在不同维度的大数据集 中进行实验,并尽可能采取对比策略, 给出具有说服力的验证结果。为此,实 验利用计算机模拟出了 Tris 和 KDD64Bio 两种大数据集,第一种是二 维坐标点大数据集,第二种是多维图像 大数据集。与本文方法相对应的对比方 法在文献5和文献 9中进行了详细介 绍,这两种方法的市场需求和用户反馈 均是比较优越的。 4.2 实验结果与分析 由于 Tris 大数据集拥有精确的数 据坐标点信息,因此可从递增聚类准确 度中看出三种方法的聚类成果,如图 2 所示。KDD64Bio 大数据集由于数据维 度复杂,故需要从聚类结果的数据间隔 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 11 入手分析聚类成果,数据间隔越短,聚 类成果越好,如表 1 所示。数据间隔包 括同层间隔和异层间隔。实验设置三种 方法的聚类时间结果将与聚类成果共同 输出,如表 2 所示。 从表 1,表 2 中能够非常明显地 看出,实验中对比方法的聚类成果均要 远低于本文方法的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论