CN110162630B 一种文本去重的方法、装置及设备 (深圳市腾讯信息技术有限公司)_第1页
CN110162630B 一种文本去重的方法、装置及设备 (深圳市腾讯信息技术有限公司)_第2页
CN110162630B 一种文本去重的方法、装置及设备 (深圳市腾讯信息技术有限公司)_第3页
CN110162630B 一种文本去重的方法、装置及设备 (深圳市腾讯信息技术有限公司)_第4页
CN110162630B 一种文本去重的方法、装置及设备 (深圳市腾讯信息技术有限公司)_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

实体关键词的第一词向量以及所述描述关键词所述第一反馈文本的句向量与预设文本向量库标对象反馈的第一反馈文本与预设文本向量库2通过预设的关键词库,获取目标对象反馈的第一反馈文本中的原始基于预设同义词库,对所述原始实体关键词和所述原始描述关键述关键词;将所述标准实体关键词作为实体关键词,将所述标准描述基于文本分类模型,确定所述实体关键词的第一词向量以及所述描述关通过以下公式确定所述实体关键词的第一概率权重以及所述描述关键词的第二概率确定所述实体关键词的第一类型权重;所述第一类型权重确定所述描述关键词的第二类型权重;所述第二类型权重基于所述第一概率权重、所述第一类型权重与所述第一词向量,确定所基于所述第二概率权重、所述第二类型权重与所述第二词向量,确定所计算所述实体关键词和所述描述关键词的权重词向量将所述权重词向量平均值作为所述第一词向量与所述第二词向量的计算所述第一反馈文本的句向量与预设文本向量库中第二反馈文本的句向量之间的将与所述预设文本向量库中第二反馈文本的句向量之间的相似度大于等于预设阈值将与所述预设文本向量库中第二反馈文本的句向量之间的相似度小于所述预设阈值3关键词确定模块,用于基于目标对象反馈的第一反馈文本,确定所述词向量确定模块,用于基于文本分类模型,确定所述实体句向量确定模块,用于基于所述第一词向量相似度计算模块,用于计算所述第一反馈文本的句向量与预设关键词获取子模块,用于通过预设的关键词库,获取所述第一标准关键词获取子模块,用于基于预设同义词库,对所述原始实体关关键词确定子模块,用于将所述标准实体关键词作为所述实体关键词概率权重计算模块,用于通过以下公式确定所述实体关键词的第一所述句向量确定模块包括:加权平均值计算子模块,用于计算所所述加权平均值计算子模块包括:第一权重词向量确定单元以及第所述第一权重词向量确定单元包括:第一权重词向量确定子单元,用于所述第二权重词向量确定单元包括:第二权重词向量确定子单元,用于4重复文本确定子模块,用于将与所述预设文本向量库中第二非重复文本确定模块,用于将与所述预设文本向量库中第二反程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-3任一所述的文由处理器加载并执行以实现如权利要求1-3任一所5[0009]计算所述第一反馈文本的句向量与预设文本向量库中第二反馈文本的句向量之6[0018]另一方面提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指指令集由处理器加载并执行以实现如上所述[0024]图3是本申请实施例提供的一种基于目标对象反馈的第一反馈文本,确定所述第一反馈文本中的实体关键词和描述关键词的方[0025]图4是本申请实施例提供的一种计算所述第一词向量与所述第二词向量的加权平[0026]图5是本申请实施例提供的基于第一反馈文本确定实体关键词和描述关键词的结7[0040]以下介绍本申请的一种文本去重的方法,图2是本申请实施例提供的一种文本去产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理8[0049]所述获取所述第一反馈文本中的原始实体关键词和原始描述关键词的步骤之前同义词库可以包括如下表1所示的映射关系,所述同义词库可以将关联同义词替换成标准9[0062]在本说明书实施例中,所述确定所述目标对象反馈的第[0069]N-gram是计算机语言学和概率论范畴内的概念,是指给定的一段文本或语音中Nj的概率P(yj)计算公式如下:[0074]可以以1个G的用户反馈文本作为训练文本,训练fastText[0097]在实际应用中,所述第一词向量与所述第二词向量的加权平均值的计算公式如s为加权平均值,s为反馈文本中的关键词集为第二反馈文本s2对应的句向量,θ表示句向量x与y之间的夹角;其中sim的全称为[0121]将与所述预设文本向量库中第二反馈文本的句向量之间的相似度大于等于预设[0125]将与所述预设文本向量库中第二反馈文本的句向量之间的相似度小于所述预设[0130]获取所述预设文本向量库中与所述第一反馈文本的句向量的相似度由高到低的[0138]获取所述预设文本向量库中与游戏玩家的第一反馈文本的句向量的相似度由高第一反馈文本的相似度最高的五个第二反馈文本对应的的标题与相似度的映射关系;显示界面中显示了五个第二反馈文本的标题以及第二反馈文本与第一反馈文本相似度;其中的“[界面]进入技能升级或第八感界面后返回会卡死”、反馈文本内容不同;二反馈文本的标题以及第二反馈文本与第一反馈一词向量以及所述描述关键词的第二词向量;然后基于所述第一词向量与所述第二词向率权重用于表征所述描述关键词在所述预设文本向量[0166]第一权重词向量确定单元1210,用于基于所述第一概率[0167]第二权重词向量确定单元1220,用于基于所述第二概率不同而产生比较大的差异,可以包括一个或一个以上中央处理器(CentralProcessingUnits,CPU)1310(处理器1310可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的与存储介质1320通信,在服务器1300上执行存储介质1320中的一系列指令操作。服务器个或一个以上输入输出接口1340,和/或,一个或一个以上操作系统1321,例如Windows相连从而可与互联网进行通讯。在一个实例中,输入输出接口1340可以为射频(Radio[0198]本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论