CN110442760A 一种问答检索系统的同义词挖掘方法及装置 (银江股份有限公司)_第1页
CN110442760A 一种问答检索系统的同义词挖掘方法及装置 (银江股份有限公司)_第2页
CN110442760A 一种问答检索系统的同义词挖掘方法及装置 (银江股份有限公司)_第3页
CN110442760A 一种问答检索系统的同义词挖掘方法及装置 (银江股份有限公司)_第4页
CN110442760A 一种问答检索系统的同义词挖掘方法及装置 (银江股份有限公司)_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一种问答检索系统的同义词挖掘方法及装置本发明涉及一种问答检索系统的同义词挖相关词集,再计算缩略相关词集合内的欧式距2(1)爬取和收集垂直领域不同类别的问答语料数据集A和该领域用于训练的大语料数3骤(4.3)中,检索并返回相似度最高的问答检索结果,具体指基于Postgre所述反馈修正模块用于根据同义词对替换后的检索召回45[0001]本发明涉及信息检索领域,尤其涉及一种问答检索系统的同义词挖掘方法及装申请号CN201811345950.2提出一种同义词挖掘方法及装置,它是基于搜索点掘方法,通过对用户在一个预定时长的时间窗口内的历史搜索行为所对应多个的搜索词,6[0011]本发明是通过以下技术方案达到上述目的:一种问答检索系统的同义词挖掘方[0012](1)爬取和收集垂直领域不同类别的问答语料数据集A和该领域用于训练的大语[0022](1.6)关键词提取:将数据集A中的7[0041]所述数据获取模块用于爬取和收集垂直领域不同类别的问答语料和作为训练语8加权得分后的权值小于预先设定的阈值S的,则记录替换的同义词对,待后验修正同义词9[0056]所述数据获取模块用于爬取和收集垂直领域不同类别的问答语料和作为训练语加权得分后的权值小于预先设定的阈值S的,则记录替换的同义词对,待后验修正同义词[0063](1)爬取和收集垂直领域不同类别的问答语料数据集A和该领域用于训练的大语[0066](1.2)数据清洗:由于数据文[0070](1.5)统计词频并排序:根据步骤(1.4)数据分词得到的结果,利用Python的[0077](2)对数据集A和数据集B进行词向量训练,采用余弦相似度计算方法提取文本中点的个体特征维度的数值直接相关的。其中n维空间里两个向量X(x1,x2,…,xn)与Y(y1,[0090](3)采用统计同义词对的方法提取同义词对的共现频次,并根据共现频次计算确[0096]根据公式(3)计算同义词对的共现频次在某个词的所对应的词语的共现总次数中的词语进行同义词替换,将替换后的结果去进行检索,得到PostgreSQL全文检索和基于[0118](a)pg_score计算并按分数排序:进行全文检索有两种情况,(1)当关键词J存在到pg_score,根据pg_score筛选出result;(2)当关键词J不存在时,则用关键词H在中筛选出result是根据pg分数进行排序,选取前top30,返回的result是数据库中的原问中bert_score计算是将用户输入的原问题与p

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论