版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据自动增值方案机器学习的核心问题最小化泛化误差:衡量一个模型预测未知数据的能力机器学习的核心问题机器学习的理论基础M泛化误差假设空间大小数据量是否数据越多越好关于数据量的2个基本问题1. Wide2. DeepPurchasing power除掉Noise data, outlier/biased dataWe always need more dataOtherwise, it requires better approaches数据量的大致估计关于数据量的2个基本问题10 EPV rule: 10 events per predictor variable1. 数据量的大致估计:Eg1:
2、 图片2分类任务特征提取1024维度,则约需要1024102 张图片Eg2: NMT QE任务的训练数据量估计:Source: Several flavors of theLinux kernel exist for each portMT:每个OK端口OK都 有OKLinux 内核OK OK的 几种 味道OK OK BADOK每个词的context presentation : 1024假设:每个词的正负分类均衡,上下文窗口310需要60K200K训练样本 (i.e. ( 10241023 ) ( 102410210 ) )数据的增值空间生数据 标注数据节约Labeling10%-50%据
3、Labeling: 指示出最值得标注的生数据待标数据标注数据 Enhancement: 对标注数据进行增强,提标注平台升模型泛化性以及测试集上表现 提升模型性能低资源 5%-15%高资源 1%-5% Denoise: 对标注数据或者增强数据进行EnhancementDenoise去噪,提升模型训练效果去噪数据增强数据 数据划分:和测试集分布更接近的训练 提升模型性能 提升和线上测试的一致性数据划分数据训练数据数据增强为什么会有好处数据自动增值方案 Neural networks are universal function approximators - very easy to overfi
4、t To make models invariant to arbitrary transforms beyond the ones built into the architecture 观察多张输入图片的不同层feature map, 发现模型从2-5layer都可以学到复杂的不变性 数据增强的目的,不是增加数量,而是让他更多样化数据增强等效于方差的正则化,可以使分类器更健壮线上增强Or线下增强?数据增强Neural network training is non-convexoptimizationNon-ConvexDoDo Not数据自动增值方案自动数据增强 现阶段数据增强存在的问题
5、:不同模型需要不同的增强手段,每个模型手动研发增强策略,费时费力,且增强策略迁移性没有挖掘 LED的解决方案:构建、积累统一的增强库,通过搜索策略自动获取特定模型适用的增强手段增强库搜索策略输出增强策略搜索空间构造:增强方法, 概率, 强度 Typo EDA适应增强搜索的算法: TF-IDF TreeEDA Back-translation CBERT Denoise PB2PBABananaFastAARL前向搜索9NLP 增强库增强方法应用TextText LabelPair Text LabelTree AugSeq2SeqSeq Label输出层Label independentLab
6、el dependentChar AugWord AugSentence AugCVAELAMBADA数据增强层Main,Delete,Add,BackTranslationSwappositionSynonyVAECBERTGPT2HypernymmHomophonicTypoSwap,EDAParaphraseNoiseBARTEDATF-IDF LMOtherknowledgebase资源依赖层Word Dict (antonym、synonym、hypernym)Pre-train LMmodelNLP ParserNLP增强库项目结构 (led-textaug)【目前已涵盖19种方案
7、】10NLP增强方案介绍Tree EDAEDATree EDA (Based on Dependency Tree) SR(同义词替换) RI(随机插入) RS(随机交换) RD(随机删除)以句法树子Tree为单元进行如下5种操作: Change Add Swap Delete Main部分词语涵盖的语义粒度过低,经过操作后,对原文无实质性作用以句子枝干成分作为处理粒度来进行交互,部分case上能够聚焦更关键的语义点,提升泛化性11NLP增强方案介绍Tree EDA句法树子Tree拆分: Main Tree:我们迎来一年 ADV Tree(状语):以昂扬的斗志;即将 ATT Tree(修饰语)
8、:新的 CMP Tree(动词补语): 其他:。ADVADVATT原句:我们即将以昂扬的斗志迎来新的一年。增强数据:1. Change: 我们即将以昂扬的斗志迎来具有重大意义的一年。2. Add: 我们在北京即将一昂扬的斗志迎来新的一年。3. Swap: 我们以昂扬的斗志即将迎来新的一年4. Delete: 我们即将迎来新的一年。5. Main: 我们迎来一年。12NLP增强方案介绍CBERTConditional BERT Contextual Augmentation1. Finetune:条件语言模型从label的语料中随机MASK部分Tokens,目的是希望预测原始Tokens要考虑上
9、下文和它的label;Token: , context , label !Aiming to calculating ( |, ) ,Instead of calculating!( | )!训练Conditional MLM,基于BERT模型进行Finetune,修改segmentation embeddings = label embeddings2.Contextual Augmentation:给定一个已标注的句子,随机MASK句子中几个字或词,然后通过conditional BERT模型对 MASK位置的字词进行预测。其预测的结果考虑了句子的label,例如右图的caseThe ac
10、tor is good positive= The actor is funny positive如果单纯只用BERT,有可能生成噪音数据:= The actor is unnatural positive13CV 增强库增强方法应用输出层图像分类图像相似度匹配视频分类Label independent、Label dependentEnhanceContrast、EnhanceColorEnhanceBrightnessEqualiEnhanceSharpness数据增强层AutoContrastRotateCutoutTranslateX/YAddWords AddBlock AddOve
11、rlapBlockzeAbreastMergeAddMark AddExtraBlock InvertShearX/YLOGO库字幕库字体库边框库资源依赖层色彩库其他素材CV增强库项目 (Imageaug)【目前已涵盖21种方案】14自动数据增强的一些新思路Label Aware的增强基于类别的数据增强方法问题背景:不同的数据所适用的增强操作应该是有差异的。如:在分类任务中,使用色彩类增强将“橘子”转变为粉色、蓝色等不符合常识。?现状:现有的增强方法往往是对任务中的所有数据使用统一的增强策略来完成数据增强,而忽略不同类别的数据自身的特性。方法:通过贝叶斯优化、预测器、策略构建方法,对不同类别的
12、数据搜索其适用的增强操作。Label-Aware AutoAugment算法流程阶段一: 通过密度匹配的方法,快速获取给定增强对特定类别的效果 使用“贝叶斯优化+预测器”的组合,对候选增强的搜索空间进行搜索,准确预测已探索和未探索的增强效果阶段二: 使用mRMR算法构建最终的增强策略,同时考虑策略中增强的有效性和冗余性16Label-Aware AutoAugment算法效果ImageNet 精度 & 搜索时间精度:ImageNet上准确度达到79.97%,是增强搜索目前的SOTA搜索用时:搜索+训练的总时长为 189.3 GPU hour,与目前最快方法相当静态策略:LA3生成静态增强策略,
13、相比动态策略搜索用时更少,且更易集成入已有的训练代码17自动Denoise的技术路线梳理数据自动增值方案以NLP领域为例标记形式ClassificationNMT:Annotation1: OKAnnotation2: BADAnnotation3: OKAnnotatio4: OKSource: several flavors of the linux kernel exist for each portTarget:每个端口都有Linux 内核的几种 味道 .PE:每个端口都有不同种类的Linux内核摘要生成:Rank / Ordinal ClassificationAnnotation1
14、: 2 分Annotation2: 4 分Annotation3: 3 分Annotation3: 5 分Doc:海湾报刊对美国新当选总统克林顿,能否帮助振兴中东和平进程感到怀疑,但也确实看到了一丝希望。Summary:海湾对克林顿恢复和平进程的前景,持怀疑态度标注语料NER:RegressionAnnotation1: HTER = 0.3Annotation2: HTER = 0.22Annotation3: HTER = 0.46Annotation4: HTER = 0.01上个月30号,王先生在自己家里边看流浪地球边吃煲仔饭NER:上个月30号(时间),王先生(人物),流浪地球(电影
15、),煲仔(产品)自动Denoise-技术路线梳理数据自动增值方案1. 实际中分类阈值很难确定;2. confidence作为排序标准,信息损失大以NLP领域为例ClassificationNMT:Annotation1: OKAnnotation2: BADAnnotation3: OKAnnotatio4: OKSource: several flavors of the linux kernel exist for each portTarget:每个端口都有Linux 内核的几种 味道 .PE:每个端口都有不同种类的Linux内核摘要生成:Rank / Ordinal Classific
16、ationAnnotation1: 2 分Annotation2: 4 分Annotation3: 3 分Annotation3: 5 分Doc:海湾报刊对美国新当选总统克林顿,能否帮助振兴中东和平进程感到怀疑,但也确实看到了一丝希望。Summary:海湾对克林顿恢复和平进程的前景,持怀疑态度标注语料NER:RegressionAnnotation1: HTER = 0.3Annotation2: HTER = 0.22Annotation3: HTER = 0.46Annotation4: HTER = 0.01上个月30号,王先生在自己家里边看流浪地球边吃煲仔饭NER:上个月30号(时间)
17、,王先生(人物),流浪地球(电影),煲仔(产品)自动Denoise-技术路线梳理数据自动增值方案1. 主观打分标注一致性稍差(cronb. = 0.75);2. 作为数据筛选的依据,粒度偏粗糙以NLP领域为例ClassificationNMT:Annotation1: OKAnnotation2: BADAnnotation3: OKAnnotatio4: OKSource: several flavors of the linux kernel exist for each portTarget:每个端口都有Linux 内核的几种 味道 .PE:每个端口都有不同种类的Linux内核摘要生成:
18、Rank / Ordinal ClassificationAnnotation1: 2 分Annotation2: 4 分Annotation3: 3 分Annotation3: 5 分Doc:海湾报刊对美国新当选总统克林顿,能否帮助振兴中东和平进程感到怀疑,但也确实看到了一丝希望。Summary:海湾对克林顿恢复和平进程的前景,持怀疑态度标注语料NER:RegressionAnnotation1: HTER = 0.3Annotation2: HTER = 0.22Annotation3: HTER = 0.46Annotation4: HTER = 0.01上个月30号,王先生在自己家里边
19、看流浪地球边吃煲仔饭NER:上个月30号(时间),王先生(人物),流浪地球(电影),煲仔(产品)数据自动增值方案自动Denoise-技术路线梳理1. 标注数据更客观,信息损失少;以NLP领域为例ClassificationNMT:Annotation1: OKAnnotation2: BADAnnotation3: OKAnnotatio4: OKSource: several flavors of the linux kernel exist for each portTarget:每个端口都有Linux 内核的几种 味道 .PE:每个端口都有不同种类的Linux内核摘要生成:Rank /
20、Ordinal ClassificationAnnotation1: 2 分Annotation2: 4 分Annotation3: 3 分Annotation3: 5 分Doc:海湾报刊对美国新当选总统克林顿,能否帮助振兴中东和平进程感到怀疑,但也确实看到了一丝希望。Summary:海湾对克林顿恢复和平进程的前景,持怀疑态度标注语料NER:RegressionAnnotation1: HTER = 0.3Annotation2: HTER = 0.22Annotation3: HTER = 0.46Annotation4: HTER = 0.01上个月30号,王先生在自己家里边看流浪地球边吃
21、煲仔饭NER:上个月30号(时间),王先生(人物),流浪地球(电影),煲仔(产品)自动Denoise方案框架数据自动增值方案 数据去噪方案 Predictor-Estimator方案 Predictor:特征提取器,提取出input embedding,label embedding,以及概率相关的mismatchfeature (即 _, _max,以及两者差值) Estimator:质量评估器,接受predictor提供的特征,最终对数据质量进行评分。应用场景 Predictor结 Estimator结构构机器翻译 Bert or XmlBi-gru, Bi-lstm orattentio
22、nNER BertBi-gru, Bi-lstm文本分类 Bert图片分类 BiTdnndnn22ImageNet去噪数据自动增值方案ImageNet数据集现存问题以及解决手段 标签错误:通过多个模型交叉验证去噪 图片包含多目标:多模型预测提供图片候选标签后人工判断,将数据扩展为多标签 相似标签:标签融合训练优化 优化目标:多分类任务变成多标签分类 修改loss函数:CE变成MixupCrossEntropy,#! log( ):图片有k个label时,将标签除以k 1, 0, 1, 0, 0, 0 - 0.5, 0, 0.5, 0, 0, 0Loss = -!$%!#backbone模型原始
23、验证集76.908去噪验证集86.34下游任务Oxford pets分类 Stanford cars分类原始数据resnet50去噪数据resnet50原始resnest5094.3994.9395.1393.1393.6393.8877.93287.451去噪resnest50去噪数据resnet50+MixupCE78.4687.956去噪resnest50+标签融合原始数据resnet5080.66480.9490.16590.82490.975去噪数据resnet50去噪数据resnet50+MixupCE81.182ImageNet 噪声示例1. 标签错误:2. 多标签:3. 相似标签:标签名标签A index标签B index笔记本电脑 n03832673 (notebook compute)n03642806 (laptop computer)n04090263 (rifle)步枪n02749479 (assult rifle)n02895154 (breastplate)n15075141 (toilet tissue)n03782006 (monitor)n04370456 (swea
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 机电传动与控制 课件全套 第0-7章 课程介绍+要求、绪论、机电传动系统的动力学基础 - 电气控制系统设计
- 乳化机检修规程
- 中医竹罐技术操作规范
- 食堂餐具清洗消毒和维修保养制度
- 环卫作业车辆伤害应急演练脚本
- 2026年医用设备使用人员业务能力考评题库及答案
- 农村雷电伤人应急演练脚本
- 蒲公英林下生态栽培技术规程
- 2025年天水市麦积区网格员招聘考试试题及答案解析
- 2026年柳州市城中区网格员招聘笔试参考题库及答案解析
- 2026年广东省高三二模高考模拟英语试卷试题(含答案)
- 2026湖北武汉市特种设备检验检测研究院招聘工作人员15人笔试参考题库及答案解析
- 2026江西吉安市吉安县文化馆招聘派遣工作人员1人备考题库及答案详解参考
- (2025年)公务员经典面试真题及答案
- 2026广东外语外贸大学招聘事业编制工作人员31人备考题库附答案详解(轻巧夺冠)
- 2026年高考物理复习备考策略讲座
- 2026年大数据在过程控制中的应用实例
- 2026年科技日报社招聘笔试科技政策与科普写作专项练习
- 公安联控申请书(参考式样版)
- 金山文档课件
- 2026年防爆电气设备事故案例分析
评论
0/150
提交评论