CN113807098B 模型训练方法和装置、电子设备以及存储介质 (北京百度网讯科技有限公司)_第1页
CN113807098B 模型训练方法和装置、电子设备以及存储介质 (北京百度网讯科技有限公司)_第2页
CN113807098B 模型训练方法和装置、电子设备以及存储介质 (北京百度网讯科技有限公司)_第3页
CN113807098B 模型训练方法和装置、电子设备以及存储介质 (北京百度网讯科技有限公司)_第4页
CN113807098B 模型训练方法和装置、电子设备以及存储介质 (北京百度网讯科技有限公司)_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

质2基于目标算法集合包含的算法对所述初始训练语料进行数据增强,得到目标训练语上下文算法,用于将所述初始训练语料中满足预设窗口大小的连续多个语句进行组词变换算法,用于将初始训练语料中的第一目标词替换为语义和/或词性相同的第一模型算法,用于将所述初始训练语料中的第三目标词基于输入的第一选择指令确定所述目标算法集合,3基于输入的第二选择指令确定目标组合策略,并确定所基于输入的语义损失度和/或数据增强复杂度基于所述序列标注模型对目标文本进行信息抽取,得到所述目标文本的信息抽取结基于所述每个字的标注结果对所述目标语句中的字进行基于所述每个实体对应的预测结果将所述目标语句中的在所述三元组的数量为一个的情况下,将所述目在所述三元组的数量为多个的情况下,基于每个每个三元组对应的类别,并基于多个三元组对应的类别对所述目标语句中的实体进行组在所述多个三元组对应的类别均不同的情况下,将所在所述多个三元组对应的类别均相同,且不同三元组在所述多个三元组对应的类别均相同,且不同三元组4数据增强模块,用于基于目标算法集合包含的算法对所述初始训练语料进行数据增所述存储器存储有可被所述至少一个处理器执行理器执行,以使所述至少一个处理器能够执行权利要求1-11中任一项所述的模型训练方56[0010]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特7等小样本场景下的文本信息抽取。该方法的执行主体可以是用户使用的电子设备(包括移[0037]以如图1所示的合同文档为例进行说明,以语句为单位进行切割后得到的语句如分)”,最后通过形态学特征进行切分,最终得到的初始训练语料包括:“总租赁金额为文本分类,在本公开实施例中将文本信息抽取任务转换为序列标注任务,其本质上是个8覆盖更多可能性,语句构造算法集合可以进一步包括如下4种中的至少一种:随机打乱算[0044]上下文算法用于将初始训练语料中满足预设窗口大小的连续多[0045]字替换算法用于将初始训练语料中第二目标语句中的目标字替换为相同标签的[0046]实体替换算法用于将初始训练语料中第三目标语句中的实体替换为相同标签的[0049]其中,词变换算法用于将初始训练语料中的第一目标词替换为词表中语义和/或9[0051]词向量算法用于基于词向量确定初始训练语料中的第二目标词对应的第二替换换,如图4所示,实心矩形框表示当前语句中的原始词,空心矩形表示第三目标词且已用[0063]实体与其他实体的关联关系可以是该实体与其他实体是否指示同一个物体,例并引入第三标签EXTRACTION(key,answer),例如,目标训练语料为“总租赁金额为属于同一个实体的字进行组合,然后基于第三标签将存在key-answer关系的实体进行匹[0074]图6是根据本公开的基于序列标注模型进行信息抽取方法的流结果为user_class2_key,“壹拾叁万壹仟捌佰伍拾贰元伍角贰分”的预测结果为user_目标语句中实体之间的距离对目标语句中的实体进行补充,并将补充后的实体进行组合,将多个三元组划分为多个三元组集合,同一个三元组集合包含的三元组对应的类别相同,不同三元组集合包含的三元组对应的类别不同;对每个三元组集合包含的实体进行组合,[0085]多实体关系场景下,一个语句中包含多个三元组,即多个key-value对。例如,组关系类型相同,且某个实体存在于多种关系中,可以采用关系重叠原则,选择class1_[0088]上述步骤中的携带有标签的文本可以是人工标注的文本,为了减少人工标注成然后对训练语句进行segment过滤,将与目标任务无关以及不含有标签的segment过滤掉,[0091]图8是根据本公开第二实施例的模型训练方法的流程图,以合同文档的信息抽取[0107]如图10所示,设备1000包括计算单元1001,其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程通过诸如因特网的计算机网络和/或各种电信网络与其他设备[0109]计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算部分或者全部可以经由ROM1002和/或通信单元1009而被载入和/或安装到设备1000上。当机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器[0111]用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的包部分地在机器上执行且部分地在远程机器上执行或完全在[0114]可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论