CN114091595B 样本处理方法、设备及计算机可读存储介质 (南京中兴新软件有限责任公司)_第1页
CN114091595B 样本处理方法、设备及计算机可读存储介质 (南京中兴新软件有限责任公司)_第2页
CN114091595B 样本处理方法、设备及计算机可读存储介质 (南京中兴新软件有限责任公司)_第3页
CN114091595B 样本处理方法、设备及计算机可读存储介质 (南京中兴新软件有限责任公司)_第4页
CN114091595B 样本处理方法、设备及计算机可读存储介质 (南京中兴新软件有限责任公司)_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

标注训练样本和预设的训练集对所述分类预测2将所述扰动样本和所述未标注样本确定为未将所述扰动样本和所述未标注样本输入至分类预测模型,得到扰根据第一稳定性算法、所述扰动概率分布数据和所述未标注概率分布数据利用所述预标注训练样本和预设的训练集对;述为所述扰动概率分布数据,所述为所述未标注概率分布数据,i=1,2…,N,。次之后的下一训练轮次对应的预设的未标注样本确定为所述下一训练轮次的未标注目标对于当前训练轮次,将对应的所述未标注目标样本输入至所述分类预对于下一训练轮次,将对应的所述未标注目标样本输入至所述分类预根据第二稳定性算法、所述当前轮次概率分利用所述预标注训练样本和预设的训练集对3;x=r-k+l,r-k+2r……r。对排序后的所述未标注样本进行筛选得到待7.根据权利要求1至5任一项所述的方法将预设的预标注样本输入至所述分类预测模型,得到所述预标注样本预标注训练样本对应的置信度大于或等于预8.根据权利要求1至5任一项所述的方法,其特根据符合所述停止训练条件的分类预测模型对所述待标注目标样本进在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求14[0003]相关技术的数据分类中,通常采用已标注样本来训练一并利用主动学习方法来对未标注样本进行边缘采样,以进一步对采样的样本进行人工标56本数据对应的数量比例在10%-30%之间,又或者可根据原始样本数据的数量作适应性调标样本数据,即三个类别的原始目标样本数据对应的样本数分别为500*10%、300*10%、7发明对训练的分类预测模型的类型不作具体限定。由于分类预测模型是不断迭代更新的,试数据即精确率为82而设定的预期的测试结果为85则表示当前的分类预测模型不8以从预设的未标注样本A(未标注样本A可以为未标注样本数据的集合)中挑选未标注样本可以为未标注样本数据的集合)中挑选一个未标注样本数据,对未标注样本数据进行分词[0069]2.翻译扰动处理:从预设的未标注样9的是,本实施例的扰动样本可能和翻译前的未标注样本数据一模一样,故可以采用Beamsearch(束搜索)方法,来保证扰动样本和翻译前的未标注样本数据不相同。Beamsearch样本数据中的部分未标注词数据设置成MASK,以得到未标注掩码数据。如随机将不超过[0073]可以理解的是,还可以采用其他数据扰动处理方法代替据为对应于未标注样本A的分类预测的概率分的稳定性数据。可以理解的是,未标注样本A中的每一未标注样本数据均对应有稳定性数例如得到N+1个句子。假设是m分类问题,m具体为分类预测模型输出的分类预测类别的个而未标注概率分布数据R,中,如可理解为未标注样本A中该未标注样本数据属于第1类率分布数据为对应于未标注样本A的分类预样本A中的每一未标注样本数据均可对应有未标注概率分[0084]定义第一稳定性算法,可计算得到未标注样本A对于数据扰动处理后的第一稳定的个数不统一的问题,上述第一稳定性算法中有个1/N系数可以调节,以保证数据的准确[0090]可以理解的是,对未标注样本A中的每一未标注样本数据都可以计算其对应的稳到未标注样本中的每一未标注样本数据对应的稳定[0096]具体地,本发明实施例通过在未标注样本中挑选出稳定对排序后的未标注样本进行筛选得到待标注训练样本,即挑选TDS即第一稳定性参数最小[0098]可以理解的是,本发明实施例充分考虑了未标注样本A中每一未标注样本数据对轮次之后的下一训练轮次对应的预设的未标注样本确定为下一训练轮次的未标注目标样[0101]本发明实施例通过获取分类预测模型进行训练的最后k轮,来计算得到稳定性数[0110]本发明实施例在分类预测模型进行训练的最后k轮中,每一轮均对当前训练轮次次概率分布数据,以及下一训练轮次的分类预测的概率分布数据即下一轮次概率分布数[0111]可以理解的是,利用所有的训练样本对分类预测模型训[0116]更具体地,对于将对应的未标注目标样本输入至训练了1Qr-k+2,...,Qr),记其为当前轮次概率分布数据,即Q,,则下一轮次概率分布数据表示为数据。[0119]定义第二稳定性算法,可计算得到未标注目标样本中未标注样本数据对于最后k500个数据量的待标注训练样本。之后,根据分类预测模型对待标注训练样本进行标注处但其并没有对人工标注的真实标签和根据未训练完成的分类预测模型进行预测得到的伪[0143]实现上述第一方面实施例的样本处理方法所需的非暂态软件程序以及指令存储可以根据实际的需要选择其中的部分或者全部模块来实现本方法,例如,执行以上描述的图1中的方法步骤S100至S500、图2中的方法步骤S101至至[0147]以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论