CN113836895B 一种基于大规模问题自学习的无监督机器阅读理解方法 (穹界智能科技(杭州)有限公司)_第1页
CN113836895B 一种基于大规模问题自学习的无监督机器阅读理解方法 (穹界智能科技(杭州)有限公司)_第2页
CN113836895B 一种基于大规模问题自学习的无监督机器阅读理解方法 (穹界智能科技(杭州)有限公司)_第3页
CN113836895B 一种基于大规模问题自学习的无监督机器阅读理解方法 (穹界智能科技(杭州)有限公司)_第4页
CN113836895B 一种基于大规模问题自学习的无监督机器阅读理解方法 (穹界智能科技(杭州)有限公司)_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一种基于大规模问题自学习的无监督机器本发明公开了一种基于大规模问题自学习用数据使用标准预训练模型进行训练得到预训的高质量的合成的域内数据集进行训练得到新得到的低质量的合成数据集进行混合并标记答2S2、针对已标注的通用数据,使用步骤SS4、针对已标注的域内数据,通过过滤得到基于训练后的GPT-2模型进行问题生成具体为:给定语言的自然顺序,将序列s=2.根据权利要求1所述的一种基于大规模问题自学习的无监督机器阅读理解方法,其3.根据权利要求2所述的一种基于大规模问题自学习的无监督机器阅读理解方法,其34[0002]许多用于自然语言处理(NLP)任务的最新算法都需要人工标注的数据。在早期我Transformer语言模型进行预训练,并在手动标注的QA数据集上对预训练的模型进行了微Transformer的预训练语言模型作5[0028]本发明带来的实质性效果是,适用于没有任何标记和非[0031]实施例:我们使用多种预训练语言模型(例如GPT-2和T5)从域内文本的未标记段6落生成大量的潜在问题和答案数据,有这种方法让我们可以在一个全新的领域实现冷启[0032]尽管在SQuAD1.1训练数据集上进行了特定领域训练的模型在SQuAD1.1Dev数据集上达到了最先进的性能(EM分数为85%),但完全无法在全新的领域进行同样水准的推[0034]问题生成是一个有悠久历史的研究课题,使用生成的问答对来改善质量保证体[0036]QG被用于扩充用于回答问题的训练数据,并且专注于基[0038]使用SyntheticQACorporaGeneration可以通过往返一致性改善总体MRC任[0043]4.如果预测的答案不同,我们通过对生成的问题进行主动学习来进一步提高性7[0044]根据不同数据集,我们的总体流程分为四个阶段。首先对于任何NLP领域或者任此外,我们使用标记的领域通用数据集来使任务特定的(本工作中的MRC任务)成为通用领[0052]第三步(未标注的行业数据):我们使用步骤2中构建的问题生成器生成许多合成方法由GPT-2提出。GPT-2是OpenAI于2019年2月发布的基于transformer的大型语言模型,8合理的合成数据。我们使用了现成的最强大的生成方法:基于T5的生成和基于GPT-2的生积[0063]在上述概率模型训练完成后,问题生成的部分可以通过9[0074]在获得上述问题生成模型之后,我们可以用基于T5或者GPT-2的问题模生成模型[0090]我们使用大量生成的质量检查数据集进行预训练。我们使用了SpanBert架构进着使用相同的数据集进行问题生成和跨度预测模型。为了验证与QG模型源完全不同的新[0096]SQuADl.l训练数据集是使用训练问题生成和预训练的域内数据集。我们使用问题生成时包括了在SQuAD1.1训练工程中行为测试的原理,可以引入了CheckList,一种用于测试NLP模型的与任务无关的方[0099]生成数据大小的影响我们发现使用基于T5的生成的预训练模型比基

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论