CN113254599B 一种基于半监督学习的多标签微博文本分类方法 (浙江大学)_第1页
CN113254599B 一种基于半监督学习的多标签微博文本分类方法 (浙江大学)_第2页
CN113254599B 一种基于半监督学习的多标签微博文本分类方法 (浙江大学)_第3页
CN113254599B 一种基于半监督学习的多标签微博文本分类方法 (浙江大学)_第4页
CN113254599B 一种基于半监督学习的多标签微博文本分类方法 (浙江大学)_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

US2021/0124993A1,2021.0FengZhang等.Deep-LearningApproachforPredictionofAlgalBlooms. 12页.KevinJLiang等.MixKD:EfficientDistillationofLarg一种基于半监督学习的多标签微博文本分本发明公开了一种基于半监督学习的多标本发明对微博文本的细粒度信息提取具有重要2S1:对原始微博文本进行预处理得到用于分类S3:对无标注数据集使用同义词替换和随机噪声注S4:以增广标注数据集中的标注样本和增广无标注2.如权利要求1所述的基于半监督学习的多标签微博文本分类方法,其特征在于,S1对无标注数据集中每一条原始无标注样本xiu_ori,将文本中部分词语用同义词进行替注样本xiu_aug合并形成增广无标注数据集样本记为xiu,无标注样本xiu均以原始无标注样本xiu_ori和增强无标注样本xiu_aug配对的样3每一个二分类器均采用由第一预训练语言模型ELECTRA构造的分类网络,用于预测一所述样本混合分类网络采用由第二预训练语言模型ELECTRA结合样本混合技术构造的插值后得到混合特征向量h*,混合特征向量h*再通过第二预训练语言模型ELECTRA的后L-mSTCM的形式为:4式中:M为当前迭代中第二样本来源于增广标注数据集10.根据权利要求6所述的基于半监督学习的多标签微博文本分类方法,其特征在于,5要昂贵的成本。因此如何降低训练数据集创建成本且能充分提取未标注文本的语义信息,[0005]在另一方面,一种重要的样本混合技术Mixup已经在计算机视觉领域得到广泛应然可以利用到未标注数据中的语义信息,但是模型仍然容易过拟合于有限的标注数据中,而Mixup样本混合技术可以将标注数据和未标注数据进行混合以生成新的样本数据,而且由于Mixup采用的是线性插值法,理论上可以生成无限多的不重复样本从而避免过拟合问6中随机抽取一个第一样本,从输入的无标注样本或标注样本中随机抽取另一个第二样本,[0019]对无标注数据集中每一条原始无标注样本xiu_ori,将文本中部分词语用同义词进无标注样本xiu_aug合并形成增广无标注标注样本记为xiu,无标注样本xiu均以原始无标注样本xiu_ori和增强无标注样本xiu_aug配对[0021]每一个二分类器均采用由第一预训练语言模型ELECTRA构造的分类网络,用于预7[0022]所述样本混合分类网络采用由第二预训练语言模型ELECTRA结合样本混合技术构第二样本xi输入后,均各自经过第二预训练语言8发明的构思是引入Mixup样本混合技术,基于预训练语言模型ELECTRA提取通用语义特征,损失函数,对包含样本混合分类网络ETMix和多个二分类器的半监督微博文本分类模型进9续在进行神经网络训练时引入了能在海量语料库上进行自监督训练充分学习文本通用语[0064]考虑单条微博文本中往往存在不止一种特征,因此本发明需要对其进行多再考虑到无标注样本的数量庞大,因此如果每条样本均进行多分类标注将消耗大量的资[0067]这一类的文本增强技术就是期望在不改变句子主要意思的前提下替换句子中的同义词词典替换的方式需要首先自行构造同义词词典或者采用开源的同义词数据库如WordNet,可能会存在词汇量不够的问题。基于词向量空间距离相似度替换的方式是使用Word2Vec或Glove等早期预训练语言模型在指定语料库上进行训练后得到词向量,再用词法有添加随机单词的拼写错误比如模拟因为拼音输入或五笔输入时因为键盘键位相似而[0080]反向翻译是一种利用训练好的语言翻译模型将一种语言翻译到另一种或另一些文翻译成英文和日语再将翻译好的英文和日语分别翻译回中文以实现中文文本的数据增[0086]对无标注数据集中每一条原始无标注样本xiu_ori,将文本中部分词语用同义词进增强无标注样本xiu_aug合并形成增单个无标注样本记为xiu,无标注样本以原始无标注样本xiu_ori和增强无标注样本xiu_aug配对的样本对形式输入半监督微博文本在后续实施例1的情感分类任务中设置了多种情绪类别。每一个二分类器均采用由第一预训练语言模型ELECTRA构造的分类网络,用于预测一种类别标签,第一预训练语言模型ELECTRA采用ELECTRA(EfficientlyLearninganEncoderthatClassifiesToken方法Mixup,其使用了线性插值的方法叠加两幅输入图像和以及对标签进行组合来构建新离散性做一定解释,例如将一幅图像中一个特征点像素值以1.0进行表示,将其改为结合样本混合技术构造的分类网络,其中第二预训练语言模型ELECTRA的隐藏层总数记为的隐藏表示进行Mixup操作,因此ETMix中样本混合分类网络内的样本混合和分类过程可行加权线性插值后得到混合特征向量h*,混合特征向量h*再通过第二预训练语言模型m[0105]式中:λ表示线性插值时权重。在进行线性插值时权重λ符合贝塔分布(Beta的标签也会按照同样的权重值进行线性插值从而得到类别层隐藏层中的一层作为ETMix中执行Mixup操预测结果yi*,即yi*相比于yiu所混入的微小扰动的表现应与标注数据给无标签数据带来的为从无标签数据中提取语义信息的主要方法,其数学形式大致分为均方误差(Mean得模型对于无标签数据的预测错误具有更低的敏感度,因此本实施例采用MSE作为一致性另外,为了使分类器的分类结果尽可能准确,本发明还单独对无标签数据的预测概率分布使用了最小化熵损失LEntMin来计算损失值。最小化熵限定分类器的分类边界不应该穿过边际分布的高密度区域,强迫分类器对未标记数据作出低熵预测,本研究选用合页

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论