版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据工程------面向智能网联车
六、基于生成式的数据增强概述图像数据增强文本数据增强其他数据增强挑战概述01数据增强技术概述数据增强是训练机器学习模型时使用的技术,通过变换、扰动或组合原始数据生成额外训练样本。数据增强的定义01数据增强的目的是扩充训练数据集,提高模型的泛化能力。数据增强的目的02包括对数据进行不同方向的扰动处理或使用深度学习模型在原始数据的潜在空间中生成新数据点。数据增强的方法03数据增强的作用省钱·省时·省心数据增强技术减轻工作量,削减开支,解决隐私和异常场景数据问题。提升模型性能CNN和Transformer均依赖数据支持,数据增强帮助防止过拟合,提升模型性能。偏差-方差权衡机器学习模型的泛化误差可以分解为偏差、方差和噪声三部分。偏差衡量了模型对真实关系的拟合程度,而方差衡量了模型对不同训练数据的敏感性。在实际应用中,我们需要在偏差和方差之间找到一个平衡点。数据增强可以增加训练样本的多样性,降低模型对特定训练数据的依赖,从而降低方差。降低模型方差数据多样性数据增强可以帮助模型学习到不同视角、尺度、光照等条件下的数据特征,提高模型在不同场景下的性能。这种多样性有助于模型更好地捕捉数据的本质特征,降低过拟合的风险。数据增强提高模型性能不变性学习与数据增强在许多任务中,数据的某些变换或噪声对任务目标没有影响。例如,在图像分类任务中,物体的位置、尺度、旋转等变换不会改变其类别。不变性概念通过数据增强,模型可以学习到这些变换和噪声下的不变性,从而提高泛化性能。数据增强作用共同学习(Co-learning)在某些情况下,数据增强可以帮助模型学习到更多有关数据间关系的信息。例如,在半监督学习中,通过数据增强和一致性约束,模型可以在未标记数据上学习到有用的信息,提高泛化性能。数据增强提高泛化性能图像数据增强02图像数据增强探讨了强化学习、非强化学习、风格迁移和生成对抗网络等数据增强方法。基于机器学习的图像数据增强通过几何变换、色彩变换、图像混合等技术对图像进行增强,提高模型性能。基于传统图像处理的图像数据增强基于传统图像处理技术的图像数据增强像素变换几何变换0103对图像的像素值进行加噪、模糊等处理,模拟真实场景中的噪声和模糊,增强模型的鲁棒性。通过旋转、缩放、裁剪等几何操作,改变图像的空间位置关系,增加数据多样性。02调整图像的亮度、对比度、饱和度等色彩属性,优化图像质量,提高模型泛化能力。色彩变换几何变换-图像翻转与旋转01图像翻转包括垂直和水平翻转,垂直翻转需水平翻转后180˚旋转,水平翻转应用更广。图像翻转02图像翻转易于实现,在CIFAR-10数据集上效果好,但MNIST数据集会更改标签信息。图像翻转效果03旋转后图像维数取决于旋转度数和原始图像形状,特定旋转度数可保持维数一致。图像旋转维数04图像旋转安全性取决于旋转度数,随度数增加,MNIST数据集图片不再保留原标签信息。图像旋转安全性几何变换-图像剪裁与缩放图像的随机剪裁可视为从原始图像上进行随机抽样,再将抽样获得的图像数据样本恢复为原始图像大小。图像剪裁01图像缩放02图像缩放分为向外缩放和向内缩放。向外缩放得到更大尺寸图像再剪裁,向内缩放缩小图像并填充边界。几何变换-图像移位与边缘填充图像移位指不改变图像尺寸,在坐标轴上移动横轴和纵轴,并对边缘进行填充处理。图像移位01图像移位使深度学习模型关注焦点转移到任意位置,提高模型鲁棒性。提高模型鲁棒性02变换后图像需恢复到原始尺寸,通过边缘填充实现。恢复图像尺寸03常数填充使用常数值填充边缘,适用于单色背景;边界值填充使用边界像素值填充,适用于短距离移位。图像填充方法04色彩变换数字图像数据通过长、宽和通道表示,常用色彩空间有RGB、YUV、HSV等。色彩空间色彩空间转换是色彩特征提取的有效方式,可互相转换以提高模型性能,但需注意内存和时间消耗及可能的不良效果。色彩空间转换在色彩通道上调节亮度和色度是数据增强的有效方式,Gamma变换和直方图均衡化是常用方法。色彩空间数据增强ZeLu等人提出色彩空间LuC1C2框架,用于面部识别任务,结合CNN特征显著提高面部验证性能。色彩空间转换应用噪声模糊01图像噪声是随机叠加像素点或块,扰乱图像信息,提高模型泛化能力。常见噪声有椒盐噪声、高斯噪声、CoarseDropout、SimplexNoiseAlpha、FrequencyNoiseAlpha等。02模糊通过卷积操作实现,常用高斯模糊,减少像素差异,平滑图像,模糊半径越大图像越模糊。像素变换图像混合03图像融合技术,通过求两张图像的像素值的均值将两张图片混合在一起,或者是随机裁剪图像并将裁剪后的图像拼接在一起形成新图像。当混合来自整个训练集的图像而不是仅来自同一类别的实例的图像时,可以获得更好的结果。图像融合方法从人的视角看毫无意义,但从实验的角度上观察,确实能够提升精度。像素变换像素变换-图像混合单一图像混合技术顾名思义便是仅使用一个图像,并从不同的视角对其进行处理。最近在单图增强方面做了很多工作,比如LocalAugment、SelfAugmentation、SalfMix等01单图像混合将Mixup、CutMix、CopyPaste等混合增强技术进行混合,生成新图像。混合数据增强不仅在准确性方面而且在鲁棒性方面都可持续地提高了性能。02非单图像混合单图像混合局部增强将图像切分成小块,应用不同类型的数据增强,改变目标偏差属性,产生显着的局部特征。LocalAugment01随机裁剪图像区域并粘贴到图像中,提高小样本学习的泛化能力。SelfAugmentation02通过显着性图裁剪图像显著区域并放入非显着区域,关注单图像混合增强的神经网络泛化。SalfMix03保留图像显着特征,增强非显着区域,提高保真度,增加多样性而不改变分布。KeepAugment04从部分信息中识别对象,提高增强多样性,鼓励神经网络表现更好,无参数且易用。YOCO05将图像调整到小尺寸,用调整后的图像替换随机区域,减轻网络形状偏差,保留全局信息。Cut-Thumbnail06非单图像混合Mixup根据混合因子混合任意两个随机图像,标签也按相同方式混合,提高准确性和鲁棒性。Mixup01CutMix用另一图像的补丁填充随机区域,解决信息丢失和区域丢失问题,标签按比例混合。CutMix02SaliencyMix选择图像的显着部分进行混合,避免学习不必要信息,提高数据增强效果。SaliencyMix03PuzzleMix利用图像的显着信息和基本统计数据,打破误导监督,确保包含目标类信息并保留局部统计。PuzzleMix04SnapMix基于语义比例混合数据,利用类激活图降低标签噪声,确保增强图像和混合标签的语义对应。SnapMix05FMix利用随机二分类掩码进行混合样本数据增强,掩码通过傅立叶空间低频图像应用阈值获得,应用不同颜色区域。FMix06非单图像混合MixMo侧重于通过子网络学习多输入多输出,采用更可靠的机制代替直接的隐藏求和操作,将M个输入嵌入到共享空间中混合并传递。MixMo07StyleMix针对不区分内容和样式特征的问题,提出styleMix和StyleCutMix方法,分别处理图像的内容和样式特征,性能优异。StyleMix08RandomMix提高模型泛化能力,从一组增强中随机选择混合增强并应用于图像,使模型查看不同样本。RandomMix09MixMatch是半监督学习数据增强技术,将单个图像增加K次并传递,对预测进行平均,调整分布温度项增强预测。MixMatch10ReMixMatch是MixMatch的扩展,引入分布对齐和增强锚定,使未标记数据预测边缘分布接近groundtruth,增强版本输出接近弱增强版本预测。ReMixMatch11FixMatch在有限标记数据上训练,使用模型分配伪标签给未标记数据,对强增强版本预测与伪标签匹配,使用交叉熵损失。FixMatch12非单图像混合AugMix通过随机调整增强幅度,结合多种图像变换生成新图像,有效缩小数据分布差异,提升模型泛化能力。AugMix13Copy-Paste通过复制图像中的掩码实例并粘贴到不同位置,特别适用于小目标检测,显著提升检测精度。Copy-Paste14RICAP创新性地切割并混合四张图像,同时混合图像标签,为数据增强领域带来新视角,增强模型适应性。RICAP15CutBlur将高分辨率图像块切割并粘贴到低分辨率图像中,结合超分辨率技术,实现高效的数据增强,提升图像质量。CutBlur16ResizeMix在混合数据的同时保留对象信息,通过四种精心设计的剪切粘贴方式,为图像增强提供新思路。ResizeMix17ClassMix基于分割的半监督学习,通过混合未标记样本并考虑对象边界,有效扩充训练样本,提升模型性能。ClassMix18非单图像混合CDA针对WSSS领域,通过多样化对象位置打破上下文依赖,增强识别能力,利用算法随机变化对象位置,保持特征不变,提高模型泛化能力。CDA19ObjectAug是对象级增强技术,分离对象与背景,多种变换增强对象后重新耦合,显著提升图像分割性能,尤其在复杂场景和多样对象下表现优异,广泛应用于图像识别、语义分割等领域,提升模型训练效果,加速AI落地。ObjectAug20随机擦除与添加噪声方法相似,通过随机选取图像中的矩形区域,并使用随机像素值对其遮盖,迫使模型学习更多描述性特征,防止过拟合。CUTOUT在图像随机位置用正方形path进行0-mask剪裁,蒋芸等人提出AR算法,遮盖关键特征图,提高性能。GRIDMASKGridMask平衡删除与保留区域面积,网格覆盖图像,优化cutout和随机擦除,快速灵活,效果优于无监督策略。像素变换-信息删除基于强化学习数据增强基于强化学习的数据增强技术,通过智能体学习最优策略来生成增强数据。。基于特征空间数据增强在特征空间中进行数据增强,通过变换特征表示来生成新的数据样本。基于非强化学习数据增强非强化学习方法,如随机变换、插值等,用于生成多样化的增强数据。基于风格迁移数据增强将不同风格的数据特征迁移至目标数据,丰富数据表现,提高模型对不同风格的适应性。基于机器学习的图像数据增强1.基于强化学习数据增强通过自动搜索策略找到最佳数据扩充,设计搜索空间,包含多个子策略,使用强化学习作为搜索算法。AutoAugment解决AutoAugment耗时问题,利用基于密度匹配的高效搜索策略,减少高阶训练时间。FastAutoaugment基于可区分的增强搜索策略,为离散参数转换操作估计梯度,提供有效选择操作机制,引入可微训练目标函数,增强参数在反向传播期间更新。FasterAutoAugment1.基于强化学习数据增强RAD,即增强数据强化学习,其易于插入有效提升提升强化学习性能,关注数据效率与新环境泛化能力。RADMARL,即多代理强化学习,是一种基于多代理协作的局部补丁自动增强方法,该方法首先将图像分成小块,然后共同为每个小块找到最佳数据增强策略。MARLLDAS建议使用自动增强来学习目标检测的最佳策略,解决分类学习策略不能直接应用于检测任务,为用于目标检测的增强提供有效增强方案。LDAS1.基于强化学习数据增强ADA基于数据的博弈论解释,即纳什均衡,提供最佳边界框预测器和数据扩充的最佳设计,迫使框预测器从最困难的样本分布中学习。ADA一种新的R-CNN模型变体,使用几个不同的CNN模型作为R-CNN中的集成器,用MicrosoftCOCO数据增强PASCALVOC训练示例。DeepCNNEnsembleDADA,即深度对抗性数据增强,将数据增强表述为训练类条件和监督GAN的问题,引入新的鉴别器损失保证数据扩充的真实性和在寻找决策边界时一致性。DADARADA通过对抗性学习提高目标检测性能,在微调阶段探索对抗性样本来增强示例,依赖模型的数据增强,选择随检测器变化的更强对抗样本,提升准确性和鲁棒性。RADAPTDA,即深度对抗性数据增强,一种用于目标检测的新数据增强,简称透视变换,模仿不同角度拍摄的效果生成新图像,在多个目标检测数据集上显示出有效性。PTDA1.基于强化学习数据增强以前的最佳增强方法大都是一些使用强化学习或一些复杂的学习策略,因此需要花费大量时间才能找到合适的增强方法和确定增强因子。这些方法消除了单独搜索阶段的障碍,这使得训练更加复杂,从而增加了计算成本开销。为了打破这一点,RandAugment是一种新的数据增强方法,比AutoAugment简单又好用。主要思想是随机选择变换,并调整它们的大小:RandAugment2.基于非强化学习数据增强3.基于风格迁移数据增强STaDA,StyleTransferasDataAugmentation,评估了不同的SOTA神经风格转移算法作为图像分类任务的数据增强。STaDANSTDA,NeuralStyleTransferasDataAugmentation,用于改进COVID-19诊断分类,通过CycleGAN增强图像以平衡数据集并增加多样性。NSTDA提出基于风格神经转移的风格增强,SA随机化颜色、对比度和纹理,同时保持形状和语义内容,提高分类、回归和域适应性能。SAAS基于深度神经网络,分离图像风格和内容,重新组合生成艺术图像,提升数据多样性ASStyPath减少偏见风格,用于稳健组织学图像分类的数据增强。StyPath3.基于风格迁移数据增强使用编码器-解码器学习表示,在表示上应用变换如噪声、插值或外推,提升静态和顺序数据性能。DatasetAugmentationinFeatureSpace01基于特征空间新数据增强解决长尾问题,通过类激活图分类特征,注入混淆类通用特征生成新样本。FeatureSpaceAugmentationforLong-TailedData02GAN在无监督域适应中扩展,强制特征提取器域不变,通过特征空间数据增强训练,探索GAN在特征层面的数据增强。AdversarialFeatureAugmentationforUnsupervisedDomainAdaptation03结合图像增强和一致性正则化,利用聚类提取的类内和类间表示信息,在min-Imagenet上显著性能增益,对分布外样本鲁棒。FeatMatch044.基于特征空间数据增强数据在自动驾驶中的重要性自动驾驶数据需要准确无误,以保证模型的预测和决策的准确性。数据准确性自动驾驶系统需要处理各种复杂的路况和环境,因此需要大量的多样化数据来训练和测试。数据多样性自动驾驶系统需要实时处理数据,以应对各种突发情况,因此数据的实时性对于系统的安全性至关重要。数据实时性数据在自动驾驶中的应用感知系统数据增强物体检测与识别数据增强方法:图像增强(光照变化、模糊处理、颜色空间变换)、仿射变换(旋转、平移、缩放)。目的:提高在各种光线条件下的识别准确性,改善对遮挡物体的检测能力。路面条件分析数据增强方法:模拟不同的天气条件(雨天、雪天),添加不同的纹理到路面上。目的:使模型能够准确识别湿滑或覆盖物的路面,改进对特殊路面标志的识别能力。行人与骑行者检测数据增强方法:在不同背景下合成行人和骑行者的图像,通过变换姿势和动作来增加样本多样性。目的:提升对行人和骑行者的行为理解,改善对低光照条件下的人形检测。预测与决策的数据增强动态环境建模数据增强方法:模拟不同时间段的交通流量,合成不同交通参与者的交互模式。目的:加强模型对复杂交通流的理解,提升预测不同交通密度下车辆移动的能力。0102交通参与者行为预测数据增强方法:改变速度、方向模拟不同驾驶风格,添加突发行为。目的:提高对其他车辆或行人的行为预测准确性,减少意外情况下的反应时间。03应急情况下的决策制定数据增强方法:生成交通事故场景,模拟紧急避障情况。目的:训练模型做出快速且安全的决策,提高紧急情况下自动驾驶系统的安全性。仿真测试与数据增强创建虚拟环境中的极端情况数据增强方法:合成极端天气条件(暴风雪、暴雨),生成复杂的道路布局。目的:评估自动驾驶系统在罕见情况下的性能,验证系统在极端条件下的稳定性和可靠性。0102测试自动驾驶系统在复杂场景下的表现数据增强方法:在虚拟环境中加入大量交通参与者,设计复杂的交叉口和环岛。目的:评估系统在高密度交通中的表现,测试系统的决策逻辑和路径规划能力。03快速迭代和优化自动驾驶算法数据增强方法:利用强化学习来生成最优决策路径,模拟不同类型的障碍物和动态对象。目的:加快算法迭代周期,不断优化自动驾驶算法的性能和鲁棒性。数据闭环对于自动驾驶而言,数据具有至关重要的技术驱动作用,通过数据闭环高效收集、利用海量的真实数据,是自动驾驶研发和落地的一项核心能力。与此同时,在无法充分获得所需真实数据的情况下,大规模地生成虚拟样本也是一种可行的方式。Nullmax的数据闭环,名为MaxFlow自主成长系统。它包含了车端、云端两大部分,车端源源不断地获取数据,云端对数据进行分析,完成获取、清洗、标注、训练以及模型验证的整个闭环。数据闭环的数据来源
Offline方式收集全量数据后,通过datafilter机制筛选出感兴趣的数据,送到云端参与训练等任务。Online方式在车端运用trigger机制,通过影子模式等方法,自主收集感兴趣的数据,包括困难样本。标题:影子模式与数据提升感知层面应用如AEB误触发时,回收视觉传感器数据,送到云端分析处理,提升自动驾驶系统性能。学习方式包含被动学习(如影子模式)和主动学习(如通过不确定性筛选样本)。影子模式通过对比人类司机和自动驾驶系统的驾驶差异,获得数据,提升自动驾驶系统的驾驶能力。在线Trigger与数据增强01在线Trigger类型包括人机一致性、时序一致性、多传感器一致性、多算法一致性、指定特殊场景等。02时序一致性障碍物在时间维度上不可能凭空消失或出现,漏检是典型问题。03多算法一致性校验freespace和障碍物相互校验,可行驶区域不应有障碍物,否则为漏检。04难样本筛选多种算法校验筛选难样本,如只检测出车轮未检测出车辆,可能是罕见车辆。05特殊场景数据筛选筛选极近距离大车数据,如油罐车、拖车等。06行人检测校验通过头部和身体检测校验结果,筛选困难案例。针对少见目标检测的数据增强Nullmax的感知团队提出了一种基于交通场景信息的数据增强方法,通过Copy-Paste方式零成本生成高度逼真的训练样本,解决少见目标检测的数据难题。实验结果显示,Nullmax的新方法可以显著提升少见目标检测的任务效果。Nullmax提出的方法包括了3个主要环节:(1)收集目标实例掩膜和背景图像。在Nullmax的研究中,所有的背景图像来自于不同的真实交通场景。以锥形筒为例,它会涵盖不同的类型、颜色和大小。(2)通过理解交通场景信息,计算实例掩膜的粘贴位置。在背景图像上随机粘贴目标,效率低下,而且目标之间的关联可能与真实交通场景不符。Nullmax的方法以交通环境信息为约束,考虑相机内外参,进行实例掩膜的叠加。(3)对实例掩膜进行局部自适应转换。为了确保目标掩膜无缝粘贴到背景图像中,Nullmax使用了一系列局部自适应的数据增强策略:基于感知的景深,缩放粘贴对象;应用多种实例级混合策略,确保图像接缝尽量平滑;以及局部自适应的颜色变换(HSV)。实验显示,Nullmax提出的数据增强方法在锥形筒检测中取得了出色效果,并且这一方法也能够推广至其他类型的少见物体检测任务当中。自动驾驶数据增强实践建议数据标注对采集到的数据进行标注,包括目标检测、语义分割、实例分割等,以提高模型的泛化能力和鲁棒性。数据采集在自动驾驶数据增强中,需要采集大量的真实道路数据,包括各种天气、路况、车辆类型等。模型训练使用标注好的数据训练自动驾驶模型,包括感知、预测、决策等模块,以提高自动驾驶系统的性能和安全性。夜间检测数据增强背景:夜间物体检测是自动驾驶汽车面临的一项挑战,因为照明条件差会降低视觉传感器的性能。成果:提升夜间检测率:经过训练后的模型在夜间环境下对物体的检测准确率显著提高。减少误报:数据增强减少了模型对非目标物体的误报。方法:数据集增强:通过对白天拍摄的图像应用光照调整、添加噪声等技术,模拟夜间环境。模拟夜间条件:使用图像处理技术将白天的图像转换为夜间效果,包括降低亮度、增加噪点和模拟车灯照射。案例1:夜间物体检测改进恶劣天气数据增强01背景自动驾驶汽车需应对各种天气,包括雨、雪、雾等恶劣天气。。02方法1:合成恶劣天气效果使用图像合成技术为现有数据集添加雨滴、雪花、雾气等效果。03方法2:模拟多种天气条件通过调整雨滴密度、雪花大小、雾浓度等参数,创建多样化的恶劣天气场景。04成果1:提高恶劣天气下的感知精度模型在雨、雪、雾等恶劣天气条件下的物体检测准确度有显著提升。05成果2:增强系统鲁棒性即使在极端天气条件下,自动驾驶系统也能保持较高的稳定性和安全性。仿真环境测试数据增强应急情况下的决策能力对于确保乘客和其他道路使用者的安全至关重要。背景1.创建虚拟环境:构建一个高度真实的虚拟环境,包括城市街道、高速公路等。2.模拟紧急避障场景:在虚拟环境中设置紧急避障测试,例如前方突然出现障碍物、行人横穿马路等。3.使用数据增强技术:通过改变障碍物的位置、速度以及周围环境的条件来生成更多样化的测试场景。方法改善决策逻辑:通过反复测试和优化,自动驾驶系统能够在遇到紧急情况时迅速做出最佳决策。提高安全性:在实际道路上遇到类似情况时,系统可以有效地避免碰撞事故。成果案例分析总结与启示数据增强在自动驾驶中的重要性通过案例分析,我们可以看出数据增强在自动驾驶中的重要性,它可以提高自动驾驶系统的准确性和可靠性。数据增强技术的挑战与机遇案例分析也揭示了数据增强技术在自动驾驶应用中的挑战和机遇,如数据收集、标注和模型训练等。未来发展方向通过案例分析,我们可以预测数据增强技术在自动驾驶领域的未来发展方向,如更高效的数据收集方法、更准确的标注技术和更先进的模型训练算法等。文本数据增强03文本数据增强数据增强缓解了深度学习中数据不足的场景,在图像领域首先得到广泛使用,进而延伸到NLP领域,并在许多任务上取得效果。一个主要的方向是增加训练数据的多样性,从而提高模型泛化能力。paraphrasing-based方法:生成原始数据的释义作为增强数据。有限的语义不同,与原始数据很相近。noise-based方法:保证结果有效的前提下对原始数据增加噪声。提升模型鲁棒性。sample-based方法:掌握原始数据的分布,采样新数据作为增强数据。基于人工启发式和训练模型输出更多样化的数据并满足下游任务的更多需求。文本数据增强方法通过同义词替换、句子重组等方式,生成与原文意思相近但表述不同的新数据。释义法在原始数据中添加随机噪声,如拼写错误、标点变动等,模拟真实场景中的错误数据。噪声法从原始数据中随机抽取部分样本,或进行回译、回写等操作,生成新的训练数据。采样法释义法释义的重点是使增强数据的语义尽可能与原始数据相似。可能出现在多个层次:词汇、短语和句子。释义法1.同义词做法一:对每个句子获取所有可替换的词,并随机选择r个进行替换,与原始词越像越有可能被选择。做法二:EDA,随机选择n个非停用词,随机选择每个词的同义词进行替换。做法三:使用上位词替换原始词,按照难度从高到低的顺序推荐了可用作词替换的候选词类型:副词、形容词、名词和动词。2.语义嵌入做法一:使用预训练的词向量找近义词:Glove、Word2Vec、FastText等。做法二:同时使用词向量和语义帧向量。3.语言模型做法一:将词Token化成词片段,如果片段不是完整的词,使用词向量构建候选集,否则使用MLM,然后按0.4的概率决定每个片段是否被候选集中一个随机词替换。做法二:Mask多个词然后用模型预测生成,有时候也会用RNN生成。释义法4.语法规则做法一:使用现有的词典或固定的启发式方法来生成词级和短语级的释义,如缩写、动词、情态动词和否定词的原型等。做法二:用一些规则为原始句子生成句子级的释义,如依存关系树。也就是句子结构变了但语义不变(类似把字句改成被字句)。5.机器翻译做法一:回译。回译+系列softmax温度设置,以确保多样性,同时保留语义。回译+对抗训练,通过有机地集成多个转换来合成多样化和信息丰富的增强数据。回译+鉴别器过滤反向翻译结果中的句子,提升了增强数据的质量。做法二:单向翻译,常用在多语场景。6.模型生成做法一:将去词法化的输入话语和指定的不同等级k作为输入提供给Seq2Seq模型以生成新的话语。做法二:通过L层转换器对连接的多个输入话语进行编码,使用重复感知注意力和面向多样化的正则化来生成更多样的句子。做法三:掩码原始句子及其标签序列用于训练模型M,该模型将掩码片段重建为增强数据。做法四:使用GAN生成增强数据。做法五:采用预训练模型来共享问题嵌入和所提出的基于Transformer的模型的指导。然后,所提出的模型可以生成与上下文相关的可回答问题和不可回答的问题。释义法噪声法基于噪声的方法添加了不严重影响语义的微弱噪声,使其适当偏离原始数据。人类可以通过对语言现象和先验知识的掌握,大大降低弱噪声对语义理解的影响,但这种噪声可能会给模型带来挑战。因此,该方法不仅扩大了训练数据量,而且提高了模型的鲁棒性。噪声法1.交换做法一:随机选择两个词交换位置,重复n次,n与句子长度成比例。做法二:将token根据label切成段,随机选择一些段,对其中的token进行shuffle。做法三:实例和句子级别交换。将句子分成两部分,对同一个label的句子集,随机组合第一部分和第二部分。随机shuffledoc中的句子。2.插入词级别:选择一个句子中非停用词的随机词的一个随机近义词,插入句子的随机位置。重复n次。对话理解中,通过插入槽值来增加输入对话行为以获得更多组合。句级别:从其他文件(防止句子过于相似)中随机选择具有相同标签的句子来获得增强数据。在词级使用标签独立的外部资源。在句子层面使用与原始数据具有相同标签的其他样本。噪声法3.删除词级别:根据概率p随机删除句子中的词。对话理解中删除槽值来增加输入对话行为以获得更多组合。句级别:同词级别,删除的是句子。二者结合:将注意力机制用于词级和句子级随机删除。4.混合第一个称为wordMixup:在词嵌入空间中进行样本插值。第二个称为senMixup:对句子编码器的隐藏状态进行插值。首先构建对抗样本,然后应用两种名为Padv和Paut的Mixup策略:前者在对抗样本之间进行插值,后者在两个对应的原始样本之间进行插值;将Mixup与机遇transformer的预训练架构相结合;将Mixup引入NER的Intra-LADA和Inter-LADA;Mixup引入了连续噪声而不是离散噪声,它可以在不同标签之间生成增强数据。与上述基于噪声的方法相比,该方法的可解释性较差且难度更大;BtiBtj表示两个原始句子的第t个词,f(Bi)f(Bj)表示隐层句子表示,yiyj表示相应的原始标签。噪声法5.替换(通常避免使用语义上与原始数据相似的字符串)做法一:使用已有的外部资源拼写错误的词生成包含拼写错误的增强数据。使用占位符_随机替换词表示该位置为空。使用伪IND并行语料库嵌入来创建字典并生成增强数据。做法二:使用任务相关资源或生成随机字符表中的其他词替换原始词。分别使用TF-IDF值和unigram频率从词表中选择词。将输入和目标句子中的单词随机替换为词汇表中的其他单词。NER中,用训练集中具有相同标签的随机Token替换原始Token。用其他语言的词替换源语言中的原始词。做法三:面向任务的对话中,随机替换是生成增强数据的有用方法通过替换槽值来增强输入对话行为,以获得更多的口语理解组合。根据插槽标签进行插槽替换。通过复制用户话语并用生成的随机字符串替换相应的真实槽值,来增加对话状态跟踪的训练数据。采样法与基于释义的模型类似,它们也涉及规则和已训练的模型来生成增强数据。不同之处在于基于采样的方法是特定于任务的,需要任务信息,如标签和数据格式。采样法1.规则与释义方法不同,不保证结果与原始数据相似(甚至不同标签)做法一:交换主宾,将谓语动词转为被动形式,新样本的标签取决于规则。做法二:公式变换(数学问题)。做法三:前n个对话对作为对话历史进行洗牌,并将第n+1个问题作为需要回答的问题。做法四:NLI中,应用外部资源构造新句子,然后根据规则将新句子与原始句子组合为增广对。做法五:定义一些规则来使用形容词-名词和名词-名词复合词来构建正负对。做法六:通过三个属性(包括自反性、对称性和传递性)构建释义注释和非释义注释。做法七:使用对称一致性和传递一致性两种规则,以及逻辑引导的DA方法来生成DA样本。采样法2.Seq2Seq模型做法一:先训练一个翻译模型,然后用它翻译目标语料生成对应的译文。做法二:每个标签训练一个模型,对给定句子生成对应的新数据。做法三:采用Transformer架构,将“重写话语→请求话语”映射视为机器翻译过程。做法四:使用Transformer作为编码器,将知识从语法错误纠正转移到形式风格转移。做法五:Edit-transformer,一个基于Transformer的跨域模型。做法六:使用VAE模型来输出语义槽序列和给定话语的意图标签。采样法3.语言模型做法一:LAMBDA,使用在训练集上预先进行了微调的GPT-2生成标注的增强句子,然后通过分类器过滤增强的句子以确保数据质量。做法二:使用MLM构建毁坏的模型和重建模型。给定输入数据点,最初使用损坏模型生成远离原始数据流形的数据。然后重建模型用于将数据点拉回原始数据流形作为最终的增强数据。做法三:采用自回归模型获得增强数据。使用预训练的SC-GPT和SC-GPT-NLP分别生成话语和对话行为。在原始句子上微调DistilBERT以生成合成句子。使用条件标签GPT-2生成增强数据。使用GPT-2生成增强数据并将它们重新Token化为统计派生的子词,以避免在形态丰富的语言中词汇爆炸。使用GPT-2在极端多标签分类中生成大量多样化的增强数据。采样法4.自训练(自标注)做法一:在gold数据集上训练模型来预测未标注数据的标签在gold数据上微调BERT,然后使用微调的BERT标注未标注的句子对。将数据蒸馏引入自训练过程,通过迭代更新的教师模型输出未标注数据的标签。基于交叉注意力的教师模型用于确定每个QA对的标签。从标注数据中计算特定于任务的查询嵌入,以从网络爬取的数十亿个未标注的句子中检索句子。做法二:直接从其他任务中转移现有模型来生成伪并行语料库。使用斯坦福OpenIE包来提取给定维基百科句子的三元组。直接使用微调的BERT来预测OP和OA样本的标签。优缺点对比方法优点不足释义:同义词1.易于使用。1.替换词的范围和词性是有限的。
2.不能解决二义性问题。
3.替换过多可能会影响句子语义。释义:语义嵌入1.易于使用。
2.更换命中率更高,更换范围更广。1.不能解决二义性问题。
2.替换过多可能会影响句子语义。释义:语言模型1.缓解了歧义的问题。
2.考虑了上下文语义。1.还是限于词语级别。
2.替换过多可能会影响句子语义。释义:语法规则1.使用方便。
2.保留了原始句子语义。1.需要人工启发式。
2.覆盖率低,变化有限。释义:机器翻译1.使用方便。
2.适用性强。
3.保证了正确的语法和不变的语义。1.机器翻译模型固定,可控性差,多样性有限。释义:模型生成1.多样性强。
2.应用性强。1.需要训练数据。
2.训练难度大。噪声:所有1.提高了模型的鲁棒性。
2.易于使用(在大多数情况下)。1.扭曲的语法和语义。
2.每种方法的多样性有限。采样:规则1.易于使用。1.这种方法需要人工启发式。
2.覆盖率低,变化有限。采样:Seq2Seq1.多样性强。
2.应用性强。1.需要训练数据。
2.训练难度大。采样:语言模型1.应用性强。1.需要训练数据。采样:自训练1.比生成模型更容易。
2.适用于数据稀疏的场景。1.需要未标注的数据。
2.应用不佳文本数据增强方法分析1.可学习的方法常常更加复杂,因此基于采样的方法可以生成更加多样和流畅的数据。2.Mixup是唯一的在线学习方法,就是说增强数据的生成不依赖下游任务训练。因此,Mixup是唯一一种从增强数据中输出交叉标签和离散嵌入的方法。3.大多数不可学习的方法需要超出原始数据集和任务定义的外部知识资源。除了外部资源之外,预训练或非预训练模型被广泛用作DA方法。4.在释义和噪声两大类中,几乎所有方法都与任务无关。它们可以仅在没有标签或任务定义的情况下生成原始数据的增强数据。但是,所有采样方法都是与任务相关的,因为它们采用启发式和模型训练来满足特定任务的需求。5.基于释义的方法处于文本级别。基于噪声的方法(除了Mixup,因为它改变了嵌入和标签)也是如此。所有基于采样的方法都在文本和标签级别,因为在增强过程中也会考虑和构建标签。6.几乎所有不可学习的方法都可以用于词级和短语级的DA,但所有可学习的方法都只能用于句子级的DA。尽管可学习的方法能生成高质量的增强句子,但不幸的是,它们不适用于文档增强,因为它们对文档的处理能力较弱。因此,文档增强仍然依赖于简单的不可学习的方法,这也是观察到的现状文本数据增强策略与技巧1.方法融合同类型方法:组合不同的基于释义的方法获取不同的释义。组合使用多种基于噪声的方法。还有使用不同的资源。无监督方法:EDA:同义词替换+随机插入+随机交换+随机删除。UDA:回译+基于噪声的无监督方法。多粒度:词向量+语义帧向量;词+句级别的Mixup;一系列词+句级别基于噪声的方法。2.过滤在初始阶段过滤一些输入数据,以避免不适当的输入影响增强效果。典型的例子是句子长度——过滤掉太短的句子。在最后阶段过滤合成的增强数据,一般是通过模型来实现的。文本数据增强策略与技巧3.最优化增强数据的使用质量角度:如果质量不高,可以使用增强数据对模型进行预训练;否则可直接用于模型训练。数量角度:如果增广数据量远高于原始数据,通常不会直接将它们一起用于模型训练。相反,一些常见的做法包括(1)在训练模型之前对原始数据过采样;(2)使用增强数据预训练模型并在原始数据上微调。超参数:见Figure12。训练策略回译+对抗学习。预训练转为优化问题最大化生成输出的有用性。使用预训练模型生成增强数据,并将这些进展转化为强化学习。采用生成对抗网络的想法来生成具有挑战性的增强数据。训练目标一系列softmax温度设置,以确保多样性,同时保留语义。使用重复感知注意力和面向多样化的正则化来生成更多样化的句子。采用课程学习来鼓励模型专注于困难的训练示例。文本数据增强在NLP任务上的应用1、DA方法在文本分类中的应用更广泛。每个单独的DA方法都可以应用于文本分类。2、文本生成更喜欢基于采样的方法,可以带来更多的语义多样性。3、结构化预测更喜欢基于释义的方法,因为它对数据格式很敏感。因此对数据的有效性提出了更高的要求。4、简单有效的无监督方法,包括机器翻译、基于词库(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年亳州市涡阳县机关事业单位类就业见习岗位备考题库及完整答案详解一套
- 2026西安市大雁塔小学招聘备考题库附答案详解
- 2026四川九洲电器集团有限责任公司招聘8人备考题库及答案详解1套
- 2026陕西西安蓝田县人民医院招聘执业医师3人备考题库及答案详解1套
- 2025年邢台平乡县招乡村公益性岗位人员真题
- 本溪市消防救援支队招聘政府专职消防员笔试真题2025
- 2026云南昆明供电局项目制用工招聘48人备考题库完整答案详解
- 2026山东省交通规划设计院集团有限公司上半年校园招聘5人备考题库完整答案详解
- 2026杭州文化投资发展有限公司招聘1人备考题库及1套参考答案详解
- 2026年咸阳彬州市企事业单位引进高层次人才招聘备考题库(33人)及一套完整答案详解
- 2026云南黄金矿业集团股份有限公司第一次招聘工作人员13人备考题库及完整答案详解1套
- 简易物业服务合同模板
- 人教版新教材八年级数学下册期末模拟卷
- 2026年音乐教师招聘面试模拟题库
- 名著阅读:《简爱》复习资料
- 2026年人教版小学一年级数学下册全册教案
- 2026年社区工作者物业管理知识测试题
- 小腿肌肉静脉血栓诊疗护理共识2026
- 部编版三年级道德与法治下册全册背诵知识点(含教材习题参考答案)
- 2026年湖北高考物理真题试卷+解析及答案
- GA/T 1740.1-2020旅游景区安全防范要求第1部分:山岳型
评论
0/150
提交评论