CN112989047B 一种文本聚类方法、装置、计算机设备及存储介质 (华润数字科技有限公司)_第1页
CN112989047B 一种文本聚类方法、装置、计算机设备及存储介质 (华润数字科技有限公司)_第2页
CN112989047B 一种文本聚类方法、装置、计算机设备及存储介质 (华润数字科技有限公司)_第3页
CN112989047B 一种文本聚类方法、装置、计算机设备及存储介质 (华润数字科技有限公司)_第4页
CN112989047B 一种文本聚类方法、装置、计算机设备及存储介质 (华润数字科技有限公司)_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

道梅都社区中康路136号深圳新一代2对待分类的文本序列进行预处理并得到对应的表征向量,根据所述确认每一簇的当前质心,根据每一簇内的所有节点到自身簇的针对每一簇,执行判断是否扩充所述当前边缘节点队列和更换簇的当前质心的最小距离以及所述当前边缘节点队列中的节点到其他簇的质心的最大距边缘节点队列中的节点到自身簇的当前质心的最大距离以及所述当前边缘节点队列中的采用聚类算法对所述表征向量进行分类,并随机指定初始质心,使所据每一簇内的所有节点到自身簇的当前质心的距离,对所有节点进行排列并形成节点队根据每一簇中的所有节点到自身簇的初始质心的欧氏距离,重新根据每一簇内的所有节点到自身簇的当前质心的的节点作为当前边缘节点队列。中的节点到自身簇的当前质心的最小距离以及所述当前边缘节点队列中的节点到其他簇针对每一簇,对比所述当前边缘节点队列中的节点到自身队列中的节点到自身簇的当前质心的最小距离大于所述当前边缘节点队列中的节点到其3列顺序从所述节点队列的剩余节点中选出预设比例的节根据所述下一边缘节点队列中的节点到自身簇的继续对比所述下一边缘节点队列中的节点到自身簇的下一质心的最小距离以及所述队列中的节点到自身簇的下一质心的最大距离小于所述下一边缘节点队列中的节点到其列中的节点到自身簇的当前质心的最大距离以及所述当前边缘节点队列中的节点到其他对比所述当前边缘节点队列中的节点到自身簇的质心的最大距离以及所述当前边缘重新执行判断是否扩充所述当前边缘节点队列和更换新质心预处理单元,用于对待分类的文本序列进行预处理并得到对应队列单元,用于确认每一簇的当前质心,根据每一簇内的的节点到自身簇的当前质心的最小距离以及所述当前边缘节点队列中的节点到其他簇的则对比所述当前边缘节点队列中的节点到自身簇的当前质心的最大距离以及所述当前边8.一种计算机设备,包括存储器、处理器及存储在49.一种计算机可读存储介质,其特征在于,5[0003]总体而言,K_Means方法易受到离群点或其他极端值影响;而现有技术针对该问[0007]确认每一簇的当前质心,根据每一簇内的所有节点到自6每一簇内的所有节点到自身簇的当前质心的距离,对所有节点进行排列并形成节点队列,7氏距离,这样即可根据当前的欧氏距离对自身簇中的所有节点进行排列并形成节点队列,前的排列方式,按排列顺序从所述节点队列中选出预设比例的节点作为当前边缘节点队队列得到下一边缘节点队列,并根据所述下一边缘节点队列重新确认自身簇的下一质心,8前边缘节点队列中的节点到自身簇的当前质心的最小距离大于所述当前边缘节点队列中列;边缘节点队列中的节点到自身簇的下一质心的最大距离小于所述下一边缘节点队列中的前质心Ci_com的最小距离大于到所述当前边缘节点队列Ci_mq中的节点到簇Cj的当前质心Cj_com的最大距离,则说明当前边缘节点队列Ci_mq中的所有节点都需要重新划分到簇Cj,里的预设比例的取值可以是5%或10%或其他比i的下一边缘节点队列中的节点到簇Ci的下一质心的最大距离小于所述下一边缘节点队列中所有节点都不需要重新划分到簇Cj,同理簇Ci内的非边缘节点队列中节点也不9前边缘节点队列Ci_mq中的节点到自身簇的质心的最大距离小于到簇Cj的当前质心Cj_com[0062]若所述当前边缘节点队列未能满足扩充边缘节点队列的条件以及重新更换当前到自身簇的当前质心的最小距离大于所述当前边缘节点队列中的节点到其他簇的当前质据所述表征向量将所述文本序列划分至不同的簇,其中每一文本序列对应簇内的一个节缘节点队列;[0069]该装置通过深层次提取文本序列的特征后进行聚类操作,并通过不断的迭代更[0074]第一确认单元,用于根据每一簇中的所有节点到自身簇队列中选出预设比例的节点作为当前边缘节点队列。并得到自身簇的新质心,并重新执行判断是否扩充当前边缘节点队列和更换新质心的流身簇的当前质心的最小距离以及所述当前边缘节点队列中的节点到其他簇的当前质心的的剩余节点中选出预设比例的节点作为下一边缘节点满足所述下一边缘节点队列中的节点到自身簇的下一质心的最大距离小于所述下一边缘[0094]该内存储器1004为非易失性存储介质1003中的计算机程序10032的运行提供环[0097]应当理解,在本发明实施例中,处理器1002可以是中央处理单元(CentralProcessingUnit,CPU),该处理器1002还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegrated处理器或者该处理器也可以是任何常规的处机程序被处理器执行时实现本发明实施例的文

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论