CN113139374B 一种文档相似段落的标记查询方法、系统、设备及存储介质 (北京明略昭辉科技有限公司)_第1页
CN113139374B 一种文档相似段落的标记查询方法、系统、设备及存储介质 (北京明略昭辉科技有限公司)_第2页
CN113139374B 一种文档相似段落的标记查询方法、系统、设备及存储介质 (北京明略昭辉科技有限公司)_第3页
CN113139374B 一种文档相似段落的标记查询方法、系统、设备及存储介质 (北京明略昭辉科技有限公司)_第4页
CN113139374B 一种文档相似段落的标记查询方法、系统、设备及存储介质 (北京明略昭辉科技有限公司)_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

CA3151834A1,2021.02.25本发明公开了一种文档相似段落的标记查文本对文档库中的文档进行匹配获得查询结果2查询结果获得步骤S2:若所述标记文本的长度小于所述相似度计算步骤S22':根据所述标记文本的长度对所述标相似度比较步骤S23':将多个所述相似度与一相似度阈值进行比第二长度阈值,通过计算所述标记文本与所述分割文本段落的embedding词向量得到所述主题模型得到所述标记文本与所述分割文本查询结果获得单元:若所述标记文本的长度小于所述第一长分割模块:根据所述标记文本的长度对所述文档进行段落分割获得多个分割文本段相似度计算模块:根据所述标记文本的长度对所述标记文本与所述相似度比较模块:将多个所述相似度与一相似度阈值进行比较若所述标记文本长度大于所述第一长度阈值,且小于第二长3模块通过计算所述标记文本与所述分割文本段落的embedding词向量得到所述标记文本与算模块通过LAD主题模型得到所述标记文本与所述分割文5.一种电子设备,包括存储器、处理器以及行时实现如权利要求1至2中任一项所述的文档相似段落的标4可以根据匹配结果找到内容相似的段落或文本作为[0003]现有技术大部分是类似于文本查重的解决方案。例如SimHash,大致计算过程如[0010]本发明针对上述的现有技术无法针对较短的文本段落进行相似性计算以及没有5库中的文档进行段落分割后通过相似度比较获得小于第二长度阈值,通过计算所述标记文本与所述分割文本段落的embedding词向量得到LAD主题模型得到所述标记文本与所述分割文6本段落的embedding词向量得到所述标记文本与所述分割文本段落的相似度;若所述标记文本长度大于所述第二长度阈值,所述相似度计算模块通过LAD主题模型得到所述标记文7列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单[0053]图1为本发明提供的一种文档相似段落的标记查询方法的步骤示意图,如图1所8通过计算所述标记文本与所述分割文本段落的embedding词向量得到所述标记文本与所述别将标记文本与分割文本段落中所有embedding词向量按照维度计算平均值,得到平均词[0068]具体而言,若标记文本长度大于第二长度阈值,则视为长文本。长文本使用embedding词向量方法来计算相似度效果不佳,原因是在求词向量均值时因为文本过长削9[0075]首先进行段落分割。段落分割的作用是将文档分成与标记文本长度相近的若干平均词向量作为文本段落的向量表示。分别求出标记文本段落和分割文本段落的向量表训练好的LDA模型分别得到标记文本段落和分割文本段落的主题分布。计算两个主题分布述相似度计算模块22通过计算所述标记文本与所述分割文本段落的embedding词向量得到所述标记文本与所述分割文本段落的相似度;若所述标记文本长度大于所述第二长度阈值,所述相似度计算模块22通过LAD主题模型得到所述标记文本与所述分割文本段落的相[0093]本实施例所揭示的一种文档相似段落的标记查询系统与实施例一所揭示的一种可以包括处理器81以及存储有计算机程序指令(ProgrammableRead-OnlyMemory,简称为PROM)、可擦除PROM(ErasableProgrammableRead-OnlyMemory,简称为EEPROM)、电可改写ROM(ElectricallyAlterableRead-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况页模式动态随机存取存储器(FastPageModeDynamicRandomAccessMemory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDateOutDynamicRandom[0098]存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及但不限于以下至少之一:数据总线(DataBus)、地址总线(AddressBus)、控制总线引脚数(LowPinCount,简称为LPC)总线、存储器总线、微信道架构(MicroChannel称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SerialAdvancedStandardsAssociationLocalBus,简称为VLB)总线或其他合适的总线或者两个或更多算机程序指令被处理器执行时实现上

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论