CN113392180B 文本处理方法、装置、设备及存储介质 (腾讯科技(深圳)有限公司)_第1页
CN113392180B 文本处理方法、装置、设备及存储介质 (腾讯科技(深圳)有限公司)_第2页
CN113392180B 文本处理方法、装置、设备及存储介质 (腾讯科技(深圳)有限公司)_第3页
CN113392180B 文本处理方法、装置、设备及存储介质 (腾讯科技(深圳)有限公司)_第4页
CN113392180B 文本处理方法、装置、设备及存储介质 (腾讯科技(深圳)有限公司)_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

者具有关联关系的文本的目标特征向量则会比2获取语义特征向量条件下目标特征向量的条件分布,所述条少两个样本文本之间的关联关系信息得到的基于所述目标文本的语义特征向量,从所述条件分布中,确定所其中,基于目标特征向量的先验分布联合所述至少得到所述语义特征向量条件下目标特征向量的条件分基于所述目标特征向量的先验分布,获取第一初始条件分布和第分布为目标特征向量条件下语义特征向量的条基于所述语义特征向量、所述重构语义特征向量、所述候选目标获取至少两个样本文本和所述至少两个样本文基于所述至少两个样本文本之间的引用关系或所述至少两个样本文本之间的相似度,基于所述至少两个样本文本之间的关联关系信息,获取所述目标特征向量的先验分执行所述基于目标特征向量的先验分布联合所述至少两个样本文本的语义特征向量获取所述至少两个样本文本之间的引用关系;基于所述引用关获取所述至少两个样本文本的嵌入向量;基于所述至少两个样本一位置上的嵌入向量与所述位置的上下文向量,确定所述至少两个样本文本的特征向量;对所述至少两个样本文本的特征向量进行对比,得到所述至少两个样本文本之间的相似3响应于第一样本文本与第二样本文本之间不述至少两个样本文本的语义特征向量训练得到所述语义特征向量条件下目标特征向量的基于所述至少两个样本文本的语义特征向量,从所述第一初从所述第一初始条件分布中采样得到所述语义特征向量对应的候选目标基于所述候选目标特征向量、所述均值和所述协方差,从所述第样得到所述候选目标特征向量对应的重构语基于所述语义特征向量、所述重构语义特征向量、所述候选目标基于所述至少两个样本文本之间的关联关系信息,生成图节点之间的边用于指示所述两个文本节点对应的两个样本文本之间的关联关系信息为非基于所述生成树,获取所述目标特征向量的先验分布,所述目标特述至少两个样本文本的语义特征向量训练得到所述语义特征向量条件下目标特征向量的基于所述目标特征向量的先验分布,获取所述至少两个样本文基于所述任意两个样本文本的语义特征向量,确定所述任意两个样基于所述候选目标特征向量、所述均值和所述协方差,从所述第样得到所述候选目标特征向量对应的重构语4基于所述任意两个样本文本的语义特征向量、所述重构语义特特征向量以及所述先验分布,对所述第一初始条件分布和所述第二初始条件分布进行更所述基于所述目标文本的语义特征向量,从所述条件分布中,确将所述目标文本的语义特征向量输入所述向量生成模型,由所述向量对所述目标文本进行分词,得到所述目标文本包括的单词;基于对所述目标文本进行分词,得到所述目标文本包括的单词;基于对所述目标文本进行分词,得到所述目标文本包括的单词;确定对所述哈希码与其他文本的哈希码进行对比,确定所述目标文本与所述其获取至少两个样本文本和所述至少两个样本文基于所述至少两个样本文本之间的引用关系或所述至少两个样本文本之间的相似度,基于所述目标特征向量的先验分布,获取第一初始条件5基于所述语义特征向量、所述重构语义特征向量、所述候选目标基于所述目标文本的语义特征向量,从所述条件分布中,确定所所述获取模块,还用于获取语义特征向量条件下目标特征向量的条件其中,基于目标特征向量的先验分布联合所述至少得到所述语义特征向量条件下目标特征向量的条件分基于所述目标特征向量的先验分布,获取第一初始条件分布和第分布为目标特征向量条件下语义特征向量的条基于所述语义特征向量、所述重构语义特征向量、所述候选目标6获取至少两个样本文本和所述至少两个样本文基于所述至少两个样本文本之间的引用关系或所述至少两个样本文本之间的相似度,基于所述至少两个样本文本之间的关联关系信息,获取所述目标特征向量的先验分执行所述基于目标特征向量的先验分布联合所述至少两个样本文本的语义特征向量获取所述至少两个样本文本之间的引用关系;基于所述引用关获取所述至少两个样本文本的嵌入向量;基于所述至少两个样本一位置上的嵌入向量与所述位置的上下文向量,确定所述至少两个样本文本的特征向量;对所述至少两个样本文本的特征向量进行对比,得到所述至少两个样本文本之间的相似信息为关联矩阵;所述关联矩阵中的一个元素用于指示两个样本文本之间的关联关系信响应于第一样本文本与第二样本文本之间不所述至少两个样本文本的语义特征向量训练得到所述语义特征向量条件下目标特征向量基于所述至少两个样本文本的语义特征向量,从所述第一初从所述第一初始条件分布中采样得到所述语义特征向量对应的候选目标基于所述候选目标特征向量、所述均值和所述协方差,从所述第样得到所述候选目标特征向量对应的重构语基于所述语义特征向量、所述重构语义特征向量、所述候选目标基于所述至少两个样本文本之间的关联关系信息,生成图7节点之间的边用于指示所述两个文本节点对应的两个样本文本之间的关联关系信息为非基于所述生成树,获取所述目标特征向量的先验分布,所述目标特所述至少两个样本文本的语义特征向量训练得到所述语义特征向量条件下目标特征向量基于所述目标特征向量的先验分布,获取所述至少两个样本文基于所述任意两个样本文本的语义特征向量,确定所述任意两个样基于所述候选目标特征向量、所述均值和所述协方差,从所述第样得到所述候选目标特征向量对应的重构语基于所述任意两个样本文本的语义特征向量、所述重构语义特特征向量以及所述先验分布,对所述第一初始条件分布和所述第二初始条件分布进行更所述确定模块用于将所述目标文本的语义特征向量输入所述向量生成对所述目标文本进行分词,得到所述目标文本包括的单词;基于对所述目标文本进行分词,得到所述目标文本包括的单词;基于对所述目标文本进行分词,得到所述目标文本包括的单词;确定编码模块,用于对所述目标文本的目标特征向量对比模块,用于对所述哈希码与其他文本的哈希码进行对比,确定所8向量获取模块,用于获取至少两个样本文本和所述至少两个样本文本的语义特征向信息获取模块,用于基于所述至少两个样本文本之间分布获取模块,用于基于所述至少两个样本文本之间基于所述目标特征向量的先验分布,获取第一初始条件分布和第分布为目标特征向量条件下语义特征向量的条基于所述语义特征向量、所述重构语义特征向量、所述候选目标所述向量获取模块,还用于响应于目标文本的向量获取指令,获所述一个或多个处理器加载并执行以实现如权利要求1至权利要求13任一项所述的文本处序,所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至权利要求13任一处理器执行所述一条或多条计算机程序,使得所述电子设备能够执行如权利要求1至权利9于所述至少两个样本文本之间的关联关系信息得到的目标[0015]基于所述至少两个样本文本之间的引用关系或所述至少两个样本文本之间的相[0016]基于所述至少两个样本文本之间的关联关系信息,获取目标特征向量的先验分条件分布基于目标特征向量的先验分布联合所述至少两个样本文本的语义特征向量训练关联矩阵中的一个元素用于指示两个样本文本之间的述第一样本文本和所述第二样本文本之间的关联关系布中采样得到所述语义特征向量对应的候选目标特征向量;基于所述候选目标特征向量、的第一初始条件分布和第二初始条件分布;基于所述任意两个样本文本的语义特征向量,序由所述一个或多个处理器加载并执行以实现上述文本处理方法的各种[0073]应理解,在本文中对各种所述示例的描述中所使用的术语只是为了描述特定示或其分组。得新空间向量的汉明距离反映原空间向量相[0085]人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控[0087]自然语言处理(NatureLanguageprocessing,NLP)是计算机科学领域与人工智[0093]图1是本申请实施例提供的一种文本处理方法的实施环境的示意图。该实施环境(MovingPictureExpertsGroupAudioLayerIII,动态影像专家压缩标准音频层面3)播放器或MP4(MovingPictureExpertsGroupAudioLayerIV,动态影像专家压缩标准行对比。然后智能家居设备将相似度最高的种子语句对应的意图作为该目标文本505的意[0107]图6是本申请实施例提供的一种文本处理方法的流程图,该方法应用于电子设备布为基于该至少两个样本文本之间的关联关系信息得到的目标特征向[0114]联合分布:也称为联合分布函数(jointdistributionfunction)或多维分布函信息能够从关联关系这个角度来表征文本之间的相似度,以该关联关系信息确定先验分量则考虑到了文本之间关联关系这一因素,再通过语义特征向量来表征语义方面的特征,[0117]该语义特征向量条件下目标特征向量的条件分布可以提[0124]702、电子设备基于所述至少两个样本文本之间的引用关系或所述至少两个样本[0129]704、电子设备基于目标特征向量的先验分布和所述至少两个样本文本的语义特标特征向量能够作为该目标文本与其他文本确定相似度w|x|}文本包括的单词在所述样本文本中的出现频率,以及所述单词在语料库中的逆向文件频以每个单词在样本文本中的出现概率以及该单词在语料库中所有文件中的逆向文件频率,进而得到语义特征向量。例如,该语义特征向量可以为词频(termfrequency–inverse[0145]802、电子设备基于所述至少两个样本文本之间的引用关系或所述至少两个样本[0147]下面提供两种获取关联关系信息的方式,本申请实施例对具体采用哪种不作限关联矩阵中的一个元素用于指示两个样本文本之间的[0159]电子设备获取到关联关系信息后,可以以此来获取到目标特征向量的先验分[0177]804、电子设备基于目标特征向量的先验分布和所述至少两个样本文本的语义特二初始条件分布中采样得到所述候选目标特征向量对应的特征向量以及所述先验分布,对所述第一初始条件分布和所述第二初始条件分布进行更征向量以及所述先验分布,电子设备可以确定该联合分布或者条件分布的证据下界φqφijii[0216]对于该向量获取指令,该向量获取指令可以由用户对该目标文本的搜索操作触[0217]该步骤806中获取语义特征向量的过程与上述步骤801中获取语义特征向量的过文本包括的单词在所述目标文本中的出现频率,以及所述单词在语料库中的逆向文件频的哈希码与已有文本的哈希码之间的汉明距离1007,进而确定出该目标文本的相似文本[0232]在一个示例中,分别通过数据集合Reuters21578和20Newsgroups来执行各个方行了分析。其中,本申请提供的方法用ours(我们的)来标识。作为对比的方法还有SpH[0242]所述获取模块1101,还用于获取语义特征向量条件下目所述条件分布基于至少两个样本文本之间的关联关系信息得到目标特征向量的分布为先关联矩阵中的一个元素用于指示两个样本文本之间的述第一样本文本和所述第二样本文本之间的关联关系布中采样得到所述语义特征向量对应的候选目标特征向量;基于所述候选目标特征向量、的第一初始条件分布和第二初始条件分布;基于所述任意两个样本文本的语义特征向量,[0255]所述确定模块1102用于将所述目标文本的语义特征向量[0269]在一些实施例中,所述向量获取模块1201还用于响应于目标文本的向量获取指理器1401可以采用DSP(DigitalSignalProcessing,数字信号处理)、FPGA(Field-处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(CentralProcessing以采用LCD(Liqui

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论