CN113821593B 一种语料处理的方法、相关装置及设备（腾讯科技（深圳）有限公司）

上传人：1*** IP属地：山西上传时间：2026-06-23 格式：DOCX 页数：45 大小：1.51MB 积分：9.6 举报 版权申诉

CN113821593B 一种语料处理的方法、相关装置及设备（腾讯科技（深圳）有限公司）_第2页

CN113821593B 一种语料处理的方法、相关装置及设备（腾讯科技（深圳）有限公司）_第3页

CN113821593B 一种语料处理的方法、相关装置及设备（腾讯科技（深圳）有限公司）_第4页

CN113821593B 一种语料处理的方法、相关装置及设备（腾讯科技（深圳）有限公司）_第5页

已阅读5页，还剩40页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

A,2021.03.23A,2020.03.20A,2019.06.21A,2019.02.22待扩充语料输入至语义识别模型，以得到K个语若K个语义识别结果中存在至少一个语义识别结2将所述K个候选语料以及所述待扩充语料输入至语义识别模型间的语义所属类别；若所述K个语义识别结果中存在至少一个语义识别结果满足语料提取条件，则将所述若所述K个语义识别结果中不存在语义识别结果满足语料提取条件，则将所述待扩充若所述K个语义识别结果中不存在语义识别结果满足语料提取j均为大于1小于K的整数；所述第一候选语料集合与所述待扩充语料的相似度大于所述第将所述i个第一候选语料分别与所述j个第二候选语料进行两两组合，得到i*j个目标对所述正样本语料进行特征提取，得到正样本语料特征，并对将所述正样本语料特征以及所述负样本语料特征输入至所述语对所述正样本语料以及所述负样本语料分别进行分词处理，得到至将所述至少两个待处理正样本词语，以及所述至少两个待处理负样将所述至少两个正样本词向量进行向量拼接，得到所述正样本语料3将所述至少一个目标语料以及所述至少N个回译语料确定为多个待若所述匹配相似度分值大于或等于预设的匹配阈值，则将所述将所述待标注语料、所述待标注语料对应的目标槽位以及目标槽位值进行去重复处若所述每个语义识别结果为相似度分值，则将大于或等于预设的若所述每个语义识别结果为相似度分类，则将大于或等于确定单元，用于若所述K个语义识别结果中存在至少一个语义识别结果满足语料提取所述处理单元，还用于若所述K个语义识别结果中不存在语义识别结果满足语料提取所述处理单元，还用于根据所述待扩充语料的语种，将所述N个语种所述处理单元，还用于若所述K个语义识别结果中不存在语义识别结果满足语料提取语料的相似度大于所述第二候选语料集合与所述待扩充语料的所述处理单元，还用于将所述i个第一候选语料分别与所述j个第二候选语4处理单元，还用于将所述正样本语料特征以及所述负样本语料特征输处理单元，还用于根据所述语义预测结果以及所述标注标签，对所述对所述正样本语料以及所述负样本语料分别进行分词处理，得到至将所述至少两个待处理正样本词语，以及所述至少两个待处理负样将所述至少两个正样本词向量进行向量拼接，得到所述正样本语料料以及所述至少N个回译语料确定为多个待处理单元，还用于对每个待标注语料进行槽位匹配，得到每个待标确定单元，还用于若所述匹配相似度分值大于或等于预设处理单元，还用于将所述待标注语料、所述待标注语料对应的目若所述每个语义识别结果为相似度分值，则将大于或等于预设的若所述每个语义识别结果为相似度分类，则将大于或等于所述处理器用于执行所述存储器中的程序时实现如权利要求1至5中任一项所述的方所述总线系统用于连接所述存储器以及所述处理器，以使所述存储5[0009]若K个语义识别结果中存在至少一个语义识别结果满足语料提取条件，则将至少6[0014]确定单元，用于若K个语义识别结果中存在至少一个语义识别结果满足语料提取[0018]处理单元，还用于将正样本语料特征以及负样本语料特[0028]确定单元，还用于将至少一个目标语料以及至少N个回译语料确定为多个待标注个待标注语料中的每个待标注词语之间的语义789实施例通过从数据库中获取到每个技能对应少量技能语料中的每个技能语料作为待扩充该音乐技能可以用于代表对话系统能够理解与音乐相关的短文本(query)，并对短文本进续的服务便于对话系统做出相应的反馈，从而实现对话系统与用户语音完成一次交互流中的每个技能语料作为待扩充语料，以使后续能够通过自然语言处理(naturelanguage[0077]其中，候选语料可以理解为是从字面命中的角度从索引体可以是通过将待扩充语料中提取语料中的特征词，再将提取到的特征词转化为文本向[0083]在本实施例中，由于候选语料包含有与待扩充语料语义表达较为相似的目标语分值或相似度分类来对获取到的K个候选语料进行过滤，以准确获取与待扩充语料表达的料与待扩充语料输入至逻辑回归模型中，可以得到包含有该待扩充语料与这些候选语料之[0087]在步骤S104中，若K个语义识别结果中存在至少一个语义识别结果满足语料提取出满足语料提取条件的语义识别结果，即K个语义识别结果中存在至少一个语义识别结果义识别模型的学习能力，使得后续将K个候选语料以及待扩充语料输入至经过训练优化的语言理解(NaturalLanguageUnderstanding，NLU)服务对正样本语料或负样本语料分别施例可以采用通用的基于二元词模型来对句子进行切分，得到至少两个待处理正样本词同维度的词向量，如输入至Transformer的双向编码器表示(BidirectionalEncoder征，能够在一定程度上考虑整个句子的上下文特征，以及输入至快速文本分类模型者是glove模型等，此处不作具体限制，能够获取到同一个词语的各种不同维度的向量表示，即可以获取到待处理正样本词语以及待处理负样本词语的各种不同维度的向量表示，来表示正样本语料以及负样本语料各种不同维型以及fasttext模型中，能够获取到同一个待处理正样本词语的各种不同维度的向量表本实施例可以通语料回译的处理方式，来获取与待扩充语料语义相似的大量的回译语料，到的是一个或多个与待扩充语料相似或一致的中文语料，即N个语种语料可以翻译得到至[0121]在步骤S601中，将至少一个目标语料以及至少N个回译语料确定为多个待标注语待标注语料中的每个待标注词语之间的语义少一个目标语料以及至少N个回译语料进行槽位匹配，可以理解为对至少一个目标语料以能够更好地更精细准确地对语料进行识别或解析，本实施例可以将至少一个目标语料以及的槽位库中每个预设槽位进行匹配相似度计算，以获取每个词语与预设槽位之间匹配相似相似度分值对应的预设槽位与词语是理解为是相适配的，则可以将该预设槽位确定为目标如果每个词语与预设槽位之间匹配相似度分值均小于预设的匹配阈值，则可以理解为该词本实施例可以通语料聚类的处理方式，先将K个候选语料分成第一候选语料集合以及第二候选语料集中包括的i个第一候选语料是与待扩充语料较为相似的语料，如语料字数相同待扩充语料不太相似的语料集合，即第二候选语料集中包括的j个第二候选语料是与待扩多于K个候选语料的且与候选语料相似的的目标语料对，能够挖掘到更多地与待扩充语料度阈值的相似度分值对应的候选语料确定为概率阈值的相似度分类对应的候选语料确定为目语义所属类别；[0155]处理单元202，还用于将正样本语料特征以及负样本语料特征输入至语义识别模[0156]处理单元202，还用于根据语义预测结果以及标注标签，对语义识别模型进行训每个待标注语料中的每个待标注词语之间的语施例提供的一种计算机设备结构示意图，该计算机设备300可因配置或性能不同而产生比[0179]本申请的另一方面提供了一种包含指令的计算机程序产品当其在计算机或处理[0185]所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN113821593B 一种语料处理的方法、相关装置及设备（腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

CN113821593B 一种语料处理的方法、相关装置及设备 （腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN113821593B 一种语料处理的方法、相关装置及设备（腾讯科技（深圳）有限公司）