CN113822047B 一种文本增强方法、装置、电子设备和存储介质 (腾讯科技(深圳)有限公司)_第1页
CN113822047B 一种文本增强方法、装置、电子设备和存储介质 (腾讯科技(深圳)有限公司)_第2页
CN113822047B 一种文本增强方法、装置、电子设备和存储介质 (腾讯科技(深圳)有限公司)_第3页
CN113822047B 一种文本增强方法、装置、电子设备和存储介质 (腾讯科技(深圳)有限公司)_第4页
CN113822047B 一种文本增强方法、装置、电子设备和存储介质 (腾讯科技(深圳)有限公司)_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

选文本单元中选取所述目标文本单元的相似文本单元;基于各个目标文本单元的相似文本单2获取目标文本,并从所述目标文本的文本单元中选取至少一个待替换的目标文本单述候选文本单元中选取所述目标文本单元的相基于各个目标文本单元的相似文本单元,对所述目标文本中的目标文本单元进行替对所述目标文本中各个文本单元进行频次分析,确定所述目标文基于所述重要性参数,从所述目标文本的各文本单元中选取至少针对所述目标文本中各个文本单元,对所述文本单元在所述目根据所述文本单元的参考权重以及在所述目标文本中的权重,确文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元,将字符数量大于预设数量,且语言类型为目标语言的目标文本单元添基于所述目标替换文本单元与候选文本单元之间的相似度,从所将字符数量不大于预设数量,或语言类型为非目标语言的目标文3根据所述目标替换文本单元的上下文信息和候选文本单元之间的分别对所述目标文本单元和候选文本单元进行特征提基于所述目标文本单元的特征信息和所述候选文本单元的特征信获取所述目标文本中参考文本单元的特征信息,所述参考文本单根据所述权重,对各个参考文本单元的特征信息进行融合,得根据所述上下文特征信息和候选文本单元的特征信息之间的相获取单元,用于获取目标文本,并从所述目标文本的文本单元中第一选取单元,用于当所述目标文本单元的字符数量大所述候选文本单元中选取所述目标文本单元的相似第二选取单元,用于当所述目标文本单元的字符数量不大替换单元,用于基于各个目标文本单元的相似文本单元,45型为非目标语言时,根据所述目标文本单元的上下文信息和候选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单元的语言类型为目标语言时,基于所述目标文本单元与候选文本单元之间的相似6[0024]第三选取子单元,用于基于所述目标替换文本单元与候选文本单元之间的相似[0030]所述提取子单元,用于分别对所述目标文本单元和候选得到所述目标文本单元的特征信息和所述候选文本7文本单元为所述目标文本中除所述目标文本单元算机程序被处理器执行时实现本申请实施例提供的文本基于文本单元的字符数量和语言类型,采取不同的方式获取目标文本单元的相似文本单8目标文本单元的字符数量大于预设数量,且所述目标文本单元的语言类型为目标语言时,9[0066]本申请实施例的文本增强方法可以应用于各种需要生成相似文本的场景中。例是通过对已有数据的副本稍加修改,或从现有数据中创建新的合成数据来增加样本数量。目标文本也即对目标文本进行数据增强(具体所述分词模型是基于样本文本以及所述样本文本中文本单元对应的位置标签序列训练得[0076]其中,分词模型可以是神经网络,具体可以是双向编码器表示模型(Bert,[0079]在具体场景中,可以使用上述分词模型(具体可以是Bert模型)对中文文本(如一序列标注结果存在不合理的跳转情况,可以在Bert模型之后接了一层CRF模型,如图1c所[0092]其中,文本单元在目标文本中出现的频次具体即该文本单元在目标文本中的词[0099]对所述文本单元的参考权重以及所述文本单元在所述目标文本中的权重进行融[0113]根据所述相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单特征提取可以包括卷积处理和池化处理。可选地,该语义模型可以是Word2vec(wordto再将排序后的候选文本单元中的前n个候选文本单元作为该目标文本单元的相似文本单选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单候选文本单元中选取所述目标替换文本单元的相似候选文本单元中选取所述目标替换文本单元的相似将当前文本单元的ID加入序列s2(具体可用WordPiece算法进行切分后长度大于1,则将当前文本单元的ID加入序列s3(具体可以是token数SUBCNT,若SUBRATIO参数为[0,1]间的浮点数,则SUBCNT=len(token)*SUBRATIO;若r),比如可以设置SUBRATIO=[0168]其中,可以通过语义模型来获取目标文本的上下文信息义模型可以是BERT(双向编码器表示,BidirectionalEncoderRepresentationsfrom调(fine-tune)是深度学习领域中常用的迁移学习技术,通过微调可以使模型更好地适用[0170]其中,由于BERT中的selfattention(自注意力)机制在预测时考虑了上下文信[0177]将与上下文特征信息的相似度大于预设相似度阈值的候选文本单元选取为所述[0190]本申请提供的文本增强方法可以在不改变句子整体情感的前提下对输入句子中据TF-IDF和文本单元的类型生成三种待替换序列(具体可以是上述实施例中的序列s1、s2[0204]对所述文本单元的参考权重以及所述文本单元在所述目标文本中的权重进行融候选文本单元中选取所述目标文本单元的相似[0217]根据所述相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单特征提取可以包括卷积处理和池化处理。可选地,该语义模型可以是Word2vec(wordto[0224]其中,可以通过语义模型来获取目标文本的上下文信息义模型可以是BERT(双向编码器表示,BidirectionalEncoderRepresentationsfrom文本单元的字符数量不大于预设数量,或所述目标文本单元的语言类型为非目标语言时,[0248]第三选取子单元,用于基于所述目标替换文本单元与候选文本单元之间的相似[0250]所述提取子单元,用于分别对所述目标文本单元和候选得到所述目标文本单元的特征信息和所述候选文本文本单元为所述目标文本中除所述目标文本单元单元中选取至少一个待替换的目标文本单元;通过识别单元302识别所述目标文本单元的元的语言类型为目标语言时,通过第一选取单元303基于所述目标文本单元与候选文本单时,通过第二选取单元304根据所述目标文本单元的上下文信息和候选文本单元之间的相[0268]该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上[0269]处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的[0270]存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单选文本单元之间的相似度,从所述候选文本单元中选取所述目标文本单元的相似文本单得该计算机设备执行上述文本增强方面的各种可选实现方式中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论