版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本申请提出了一种动态摘要确定方法和装选未包括在所述当前文档的标题部分的关键词2提取所述搜索内容中的多个关键词;从所述多个关键词中筛选未包括在所述当前文档的标题部分的关键词作为第一关键对当前文档的正文部分的每个句子提取关键词,以对应地形成针对每遍历所述正文部分中的句子,确定所述第一关键词集合与所遍历到的句基于所述第一关键词集合中各关键词的词向量,确定所述第一基于所述第二关键词集合中各关键词的词向量,确定所述第二基于所述第一特征向量和第二特征向量,确定所述第一关键词集合对所述第一关键词集合中各关键词的词向量进行按位累加,得到所对所述第二关键词集合中各关键词的词向量进行按位累加,得到所基于所述第一特征向量和第二特征向量间的距离,确定所述第一关遍历所述正文部分中的句子,并且在动态摘要的当前字数小于字数第一关键词集合与所遍历到的句子的第二关键词集3从所述第二分词集合中去除词权重小于词权重阈值的词,以得到所述搜将第二分词集合中每个词的逆文档频率值确定为该基于第二分词集合中每个词的词性、在搜索内容中的词位置、历10.根据权利要求8或9所述的方法,其中确定第二分词集合中每个词的逆文档频率值针对第二分词集合中每个相应的词,确定查询日志中包含所确定查询日志包含的搜索内容的总条数D与查询日志中包含所述相应的词的搜索内容通过以所述多个分词中的各个相应的分词为词嵌入模型的输入并且以所述相应的分第一关键词集合确定模块,被配置成从所述多个关键词4第二关键词提取模块,被配置成对当前文档的正文部分的每个句子提取关相似度确定模块,被配置成遍历所述正文部分中的句子,确定所动态摘要确定模块,被配置成响应于所述相似度大于处理器,其被配置成当所述计算机可执行指令被处理器执行时执行如权利要5各语句所包含的搜索内容的关键词的数目来确定文档中哪些句子应当作为该文档的动态的句子确定针对当前文档的动态摘要中的一6中每个词的逆文档频率值;将第二分词集合中每个词的逆文档频率值确定为该词的词权7历到的句子确定针对当前文档的动态摘要中的一[0019]在本公开要求保护的动态摘要确定方法和装置、计算设备以及计算机存储介质些关键词在文档标题和动态摘要中反复出现的同时,提高了所确定的动态摘要的准确性,使得文档标题和所述动态摘要足以呈现与搜索内容整体相关的信息,进而提升了用户体[0024]图3图示了根据本公开的一个实施例的确定本公开中涉及的两个关键词集合间的[0025]图4图示了根据本公开的一个实施例提取搜索内容中的多个关键词的方法的示意[0028]图7图示了利用根据本公开的一个实施例的动态摘要确定方法所确定的动态摘要[0029]图8图示了根据本公开的一个实施例的一种动态摘要确定装置的示例性结构框[0030]图9图示了一个示例系统,其包括代表可以实现本文描述的各种技术的一个或多8以识别出其中的停用词,即不影响语意的词。常用的分词器如jieba分词、Mmseg4j分词、[0038]自然语言处理:自然语言处理(NaturalLanguageProcessing,NLP)是计算机间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。9是一个基于全局词频统计(count-based&overallstatistics)的词表征(word下加快了训练速度和测试速度以及不需要预训[0040]逆文档频率(inversedocumentfrequency逆文档频率(inversedocument[0041]人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控[0045]图1图示了根据本公开的实施例的技术方案可以实施在其中的示例性应用场景多个关键词中筛选未包括在所述当前文档的标题部分的关键词作为第一关键词集合;然相似度阈值,终端110可以基于所述遍历到的句子确定针对当前文档的动态摘要中的一部能平台等基础云计算服务的云服务器。终端以及服务器可以通过有线或无线通信方式进行[0051]在一些实施例中,上述的应用场景100可以是由终端110的集群和服务器120构成[0055]在步骤230,从所述多个关键词中筛选未包括在所述当前文档的标题部分的关键内容作为整体在标题和动态摘要的命中率为75%-100%。作为对比,常规的相关技术中根据索内容作为整体在标题和动态摘要的命中率为25%-50%。索内容中的某些关键词在文档标题和动态摘要中反复出现而其他的关键词在文档标题和230考虑了搜索内容整体在文章标题和动态摘要中的命中率,使得文档标题和以本公开方[0058]在一些实施例中,对当前文档的正文部分的每个句子提取关键词可以与步骤220第二分词集合中每个词的词权重(其例如可以根据历史出现次数被计算得到如这里确定第二分词集合中去除词权重小于预定阈值的词,例如这里的预定阈值设为0.4,则将去除集合与第二关键词集合同时包含的词语的数量与第一关键词集合包含的词语数量的比值,于第一关键词集合中各词语对应的词向量与第二关键词集合中各词语对应的词向量,确定与所遍历到的句子的第二关键词集合之间的部分时,可以将所述遍历到的句子的一部分或全部确定为当前文档的动态摘要的一部分。[0065]所述方法200通过考虑当前文档中的标题中已包含的搜索内容的关键词,在确定[0066]图3图示了根据本公开的一个实施例的确定两个关键词集合间的相似度的方法300的示意性流程图。所述两个关键词集合包括所述第一关键词集合与所遍历到的句子的所述多个分词中的各个相应的分词为词嵌入模型的输入并且以所述相应的分词的上下文关键词集合的第一特征向量,包括:对所述第一关键词集合中各关键词的词向量进行按位累加,得到所述第一关键词集合的第一特征向量。作为示例,所述第一关键词集合包含词二关键词集合中各关键词的词向量可以利用上面所述的经训练的词嵌入模型或者其它合所述余弦相似度作为所述第一关键词集合与所遍历到的句子的第二关键词集合之间的相B1其中所述距离可以选择欧氏距离,即计算所述第一特征向量和第二特征向量的欧氏距离,将所述欧氏距离作为所述第一关键词集合与所遍历到的句子的第二关键词集合之间的相[0080]所述方法300通过比较基于第一关键词集合的第一特征向量和基于第二关键词集合的第二特征向量确定第一关键词集合和所遍历到的句子的第二关键词集合之间的相似[0081]图4图示了根据本公开的一个实施例的提取搜索内容中的多个关键词的方法400[0083]在步骤420,从所述第一分词集合中的多个词中去除停用词,以得到第二分词集[0089]其中分子|D|表示查询日志中搜索内容的总条数,分母表示包含词ti的搜索内容[0092]图5示出了根据本公开的一个实施例的词嵌入模型的示例性的具体原理框架图。设置节点处理输入的向量,例如想用300个特征来表示一个单词(即每个词可以被表示为技术在遍历正文中的句子以确定动态摘要时,只考虑了遍历到的句子与搜索内容的相似[0097]图7图示了利用根据本公开的一个实施例的动态摘要确定方法所确定的动态摘要[0100]图8图示了根据本公开的一个实施例的一种动态摘要确定装置800的示例性结构[0103]第一关键词集合确定模块830,被配置成从所述多个关键词中筛选未包括在所述[0104]第二关键词提取模块840,被配置成对当前文档的正文部分的每个句子提取关键总线、和/或利用各种总线架构中的任何一种的处理器或局部总线。还构思了各种其他示成电路或使用一个或多个半导体形成的其它逻辑器件。硬件元件914不受其形成的材料或[0110]计算机可读介质912被图示为包括存储器/存储装置915。存储器/存储装置915表示与一个或多个计算机可读介质相关联的存储器/存储容量。存储器/存储装置915可以包[0111]一个或多个I/O接口913代表允许用户使用各种输入设备向计算设备910输入命令和信息并且可选地还允许使用各种输出设备将信息呈现给用户和/或其他组件或设备的功[0114]所描述的模块和技术的实现可以存储在某种形式的计算机可读介质上或者跨某种形式的计算机可读介质传输。计算机可读介质可以包括可由计算设备910访问的各种介可编程器件逻辑和/或固定器件逻辑,其在一些实施例中可以用于实现本文描述的技术的或程序模块和其它程序模块实现为在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件914体现的一个或多个指令和/或逻辑。计算设备910可以被配置为实现与软件存储介质和/或硬件元件914,可以至少部分地以硬件来实现将模块实现为可由计算设备[0120]本文描述的技术可以由计算设备910的这些各种配置来支持,并且不限于本文所机处理时可以使用的应用和/或数据。资源924还可以包括通过因特网和/或通过诸如蜂窝[0122]平台922可以抽象资源和功能以将计算设备910与其他计算设备连接。平台922还可以用于抽象资源的分级以提供遇到的对于经由平台922实现的资源924的需求的相应水中不暗示特征的组合不是可行的和/或有利的。特征在权利要求中的次序不暗示特征必须
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年常州市中西医结合医院常州市广化医院医护人员招聘笔试题库及答案详解
- 2026年和田地区教师招聘补充笔试参考题库及答案详解
- 2026年合肥市中市区人民医院医护人员招聘考试模拟试题及答案详解
- 2026年贺兰县暖泉区人民医院医护人员招聘考试模拟试题及答案详解
- 2026年合肥淝泗汽车制造厂医院医护人员招聘考试参考题库附答案详解
- 2026湖南株洲市市直单位下半年公益性岗位招聘13人考试参考题库及答案详解
- 2025年北京市通州区潞河医院医护人员招聘笔试题库及答案详解
- 2025年铁道部第二工程局第二工程处医院医护人员招聘笔试题库及答案详解
- 2026云南昆明市晋宁区自然资源局招聘1人笔试模拟试题及答案详解
- 2026年辽宁省中医研究院医护人员招聘考试模拟试题及答案详解
- 实验:探究加速度与力、质量的关系 说课课件-2024-2025学年高一上学期物理人教版(2019)必修第一册
- 施工电梯基础方案
- HYT 118-2010 海洋特别保护区功能分区和总体规划编制技术导则(正式版)
- 小学六年级下册数学期末测试卷及答案(各地真题)
- 恒风量油烟机油烟逃逸性能技术规范
- GIS操作机构(断路器油压操作机构)的动作原理、维护项目和要求
- 浙江省建设工程施工现场安全管理台帐(新版)
- 五年级下学期作文范文沪教牛津版(深圳)
- 2023年街道办人员招聘笔试考试题及答案
- GB/T 17492-2019工业用金属丝编织网技术要求和检验
- GB/T 12474-2008空气中可燃气体爆炸极限测定方法
评论
0/150
提交评论