CN114138936B 一种文本摘要的生成方法、装置、电子设备和存储介质 (完美世界控股集团有限公司)_第1页
CN114138936B 一种文本摘要的生成方法、装置、电子设备和存储介质 (完美世界控股集团有限公司)_第2页
CN114138936B 一种文本摘要的生成方法、装置、电子设备和存储介质 (完美世界控股集团有限公司)_第3页
CN114138936B 一种文本摘要的生成方法、装置、电子设备和存储介质 (完美世界控股集团有限公司)_第4页
CN114138936B 一种文本摘要的生成方法、装置、电子设备和存储介质 (完美世界控股集团有限公司)_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

输入的目标文本进行预处理,得到多个第一句子;在所述多个第一句子满足预设条件的情况所述多个第一句子中选择满足预设长度范围的个第二句子中选择排序靠前的预设数量的第三2在所述多个第一句子满足预设条件的情况下,生成与所述第一句子对应的句特征向根据所述权重对所述多个第一句子进行排序,并从对排序后的所基于所述多个第二句子中选择排序靠前的预设数量的第三句子化后得到的多个词向量相加后求平均得到所述句其中,所述句特征向量包括所述目标文本中与标题对应的权重和所述第四权重确定所述句特征向量对应的将分词后的所述多个第四句子中的第一目标词和目标字符将所述第一乘积结果、所述第二乘积结果、所述第三乘积结果从预设数量的所述第三句子中选择满足预设长度的第五3在所述多个第一句子不满足所述预设条件的情况下,基于不第二处理模块,用于在所述多个第一句子满足预设条件的情况第三处理模块,用于根据所述权重对所述多个第一句子进行第一生成模块,用于基于所述多个第二句子中选择排序靠前的预设数量的第三句子,其中,所述句特征向量包括所述目标文本中与标题对应的行时实现如权利要求1-5中任一所述的文本摘要45述第三权重和所述第四权重确定所述句特征向量对分词后的所述多个第四句子中的第一目标词和目标字符进行去除,得到所述多个第一句6标题特征向量确定对应的句子在所述目标文本中的位置,并基于所述位置确定第二权重;7[0029]图2为依本申请实施例的基于改进图模型与深度学习的联合模型实现端到端抽取[0039]在本申请实施例中该权重用于表征与句特征向量对应的第一句子在目标文本中8[0043]在本申请实施例的可选实施方式中,对于上述步骤102中涉及到的对输入的目标也可以通过实际处理对原停用词表进行补充。在完成第一目标词及目标字符的去除之后,目标文本中对于摘要生成不重要的文本内容进行过滤,提升了后续文本摘要生成的准确[0049]在本申请实施例的再一个可选实施方式中,对于上述步骤104中涉及到的生成与[0052]在本申请实施例的示例中,可以基于BERT(BidirectionalEncoder9句子所处的位置对句子的权重进行调整,对目标文本中越靠前的句子赋予越大的权重提总结性词汇,而这些特殊词(即第二目标词)通常是对新闻或者文章的主要概括,因此包括此类特殊词语的句子其重要性更高,可对该类句子设置更高的权重,句子特殊词权重计算式表示为:[0073]在本申请实施例的可选实施方式中,对于上述步骤35中涉及到的基于第一权重、[0080]Wfinal=λsWs,j+λposWpos,j+λtopicWtop[0083]在本申请实施例的再一个可选实施方式中,对于上述步骤108中涉及到的基于多为单元进行训练,在一定程度上能够克服Word2Vec面临的未登录词难题,最终可提高[0105]其中,T5-PEGASUS模型,是以mT5为基础架构和初始权重,在中文语料上使用训练包含了有监督和无监督两部分,而训练目标则跟BERT类似,只不过改成了Seq2Seq版[0106]PEGASUS则是为摘要定制的预训练模型,它可以作为通用的生成式预训练任务,PEGASUS是一个标准的Transformer(前序编解码预测器),既有encoder也有decoder,预训练目标包括GSG(GapSentencesGeneration,生成间隙句子)和MLM(MaskedLanguage个句子(可以不连续),使得这n/4个句子拼起来的文本,跟剩下的3n/4个句子拼起来的文的比例来确定生成摘要的长度,若模型训练所指定摘要长度小于实际需要生成的摘要长[0121]第一生成模块38,用于基于多个第二句子中选择排序靠前的预设数量的第三句用于基于非标题特征向量确定对应的句子在目标文本中的位置,并基于位置确定第二权[0129]可选地,本申请实施例中的预设条件是指句子的数量小[0133]上述终端提到的通信总线可以是外设部件互连标准(PeripheralComponentInterconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandard[0136]上述的处理器可以是通用处理器,包括中央处理器(CentralProce简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论