CN120220731A 基于音频潜在特征对比学习的音频伪造检测方法及系统_第1页
CN120220731A 基于音频潜在特征对比学习的音频伪造检测方法及系统_第2页
CN120220731A 基于音频潜在特征对比学习的音频伪造检测方法及系统_第3页
CN120220731A 基于音频潜在特征对比学习的音频伪造检测方法及系统_第4页
CN120220731A 基于音频潜在特征对比学习的音频伪造检测方法及系统_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(19)国家知识产权局(71)申请人杭州市滨江区浙工大人工智能创新地址310056浙江省杭州市滨江区长河街道湖西路575号GO6N(74)专利代理机构杭州研基专利代理事务所(普通合伙)33389专利代理师刘然(54)发明名称对原始数据进行数据增强,生成伪造音频数据集;构建音频检测模型,音频检测模型包括对比学习模型;对原始数据进行数据增强,生成伪造音频数据集;构建音频检测模型,音频检测模型包括对比学习模型;基于伪造音频数据集对音频检测模型进行初步训练;完成初步训练后,使用对比学习模型进行第二阶段的训练;基于完成两次训练的音频检测模型对音频进行伪造检测。本发明公开了一种基于音频潜在特征对比学习的音频伪造检测方法及系统,属于音频伪造检测技术领域,本发明首先对原始音频数据进行数据增强,生成伪造音频数据集,其次构建音频检测模型,所述音频检测模型包括对比学习模型,然后基于所述伪造音频数据集对所述音频检测模型进行第一阶段训练,完成第一阶段训练后,使用对比学习模型进行第二阶段的训练,最后基于完成所述第一阶段训练和第二阶段训练21.一种基于音频潜在特征对比学习的音频伪造检测方法,其特征在于,包括以下步骤:对原始音频数据进行数据增强,生成伪造音频数据集;构建音频检测模型,所述音频检测模型包括对比学习模型;基于所述伪造音频数据集对所述音频检测模型进行第一阶段训练;完成第一阶段训练后,使用对比学习模型进行第二阶段的训练;基于完成所述第一阶段训练和第二阶段训练的音频检测模型对音频进行伪造检测。2.根据权利要求1所述的方法,其特征在于,对原始音频数据进行数据增强,生成伪造音频数据集的过程包括:确认数据集的正负样本分布比例,若正负样本比例不等于1:1,则对数据进行调整;对调整完毕后的原始音频数据进行数据增强,生成伪造音频数据集。3.根据权利要求1所述的方法,其特征在于,对调整完毕后的原始音频数据进行数据增强的过程包括:对调整完毕后的原始音频数据进行高斯噪声增强、波形位移、波形拉伸和音高修正。4.根据权利要求1所述的方法,其特征在于,构建音频检测模型,所述音频检测模型还5.根据权利要求1所述的方法,其特征在于,基于所述伪造音频数据集对所述音频检测模型进行第一阶段训练,第一阶段训练的训练轮数为N,训练轮数执行完毕后第一阶段训练基于交叉熵损失函数训练模型。对比学习模型进行第二阶段的训练的过程中包括:基于交叉熵损失函数和对比学习的损失函数进行第二阶段的训练。7.一种基于音频潜在特征对比学习的音频伪造检测系统,其特征在于,所述系统包括:数据处理模块,用于对原始音频数据进行数据增强,生成伪造音频数据集;模型构建模块,用于构建音频检测模型,所述音频检测模型包括对比学习模型、Sinc模型训练模块,用于基于所述伪造音频数据集对所述音频检测模型进行第一阶段训练,并在完成第一阶段训练后,使用对比学习模型进行第二阶段的训练;检测模块,用于基于完成所述第一阶段训练和第二阶段训练的音频检测模型对音频进行伪造检测。8.根据权利要求7所述的系统,其特征在于,所述数据处理模块包括:数据增强单元,用于对原始音频数据进行高斯噪声增强、波形位移、波形拉伸和音高修数据分布调整单元,用于确认数据集的正负样本分布比例,并在不等于1:1时对数据进行调整。一个或多个处理器;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实3被处理器执行时,实现如权利要求1-6中任一项所述的基于音频潜在特征对比学习的音频4基于音频潜在特征对比学习的音频伪造检测方法及系统技术领域[0001]本发明属于音频伪造检测技术领域,尤其涉及一种基于音频潜在特征对比学习的音频伪造检测方法及系统。背景技术[0002]随着音频信息服务迅速发展,用户规模不断壮大。当前,我国网络音乐用户规模已达6.08亿。特别是随着生成式人工智能(AIGC)等人工智能新技术新应用在音频领域的运用,基于深度学习的音频生成与克隆算法输出的音频日益逼近真实音频,导致音频在传播过程中的一些法律风险进一步集聚、放大,因此,对音频数据的合法使用是目前社会上所重视的问题。[0003]现阶段针对音频伪造检测的方法主要有:基于音频信号特征的伪造检测方法,例如使用相位谱、梅尔谱图、频谱图和改进时延等音频特征的检测方法;基于机器学习的伪造检测方法,例如使用线性SVM,加权K近邻和增强树集成等方法;但是,现阶段的技术仍存在梅尔谱图等特征难以全面覆盖音频伪造的复杂变化,在面对高级伪造技术时,难以区分真类方法对新出现的伪造模式敏感度低,难以及时适应。基于机器学习的方法,模型严重依赖训练数据的质量与多样性,样本不全面或标注偏差易造成大量误判,对罕见特殊场景的伪造音频检测效果差。并且其泛化能力不足,难以应对不断演进的新型伪造技术,计算资源消耗大,在资源受限场景应用困难,还容易受到对抗攻击,使检测结果失效。因此亟须一种方法解决上述问题。发明内容[0004]为解决上述技术问题,本发明提出了一种基于音频潜在特征对比学习的音频伪造检测方法及系统,以解决上述现有技术存在的问题。[0005]第一方面,为实现上述目的,本发明提供了一种基于音频潜在特征对比学习的音[0006]对原始音频数据进行数据增强,生成伪造音频数据集;[0007]构建音频检测模型,所述音频检测模型包括对比学习模型;[0008]基于所述伪造音频数据集对所述音频检测模型进行第一阶段训练;[0009]完成第一阶段训练后,使用对比学习模型进行第二阶段的训练;[0010]基于完成所述第一阶段训练和第二阶段训练的音频检测模型对音频进行伪造检[0011]可选的,对原始音频数据进行数据增强,生成伪造音频数据集的过程包括:[0012]确认数据集的正负样本分布比例,如正负样本比例不等于1:1,则对数据进行调5[0013]对调整完毕后的原始音频数据进行数据增强,生成伪造音频数据集。[0014]可选的,对调整完毕后的原始音频数据进行数据增强的过程包括:对调整完毕后的原始音频数据进行高斯噪声增强、波形位移、波形拉伸和音高修正。全连接层。[0016]可选的,基于所述伪造音频数据集对所述音频检测模型进行第一阶段训练,第一阶段训练的训练轮数为N,训练轮数执行完毕后第一阶段训练结束,第一阶段训练的过程中包括:[0017]基于交叉熵损失函数训练模型。[0018]可选的,完成第一阶段训练后,使用对比学习模型进行第二阶段的训练的过程中包括:[0019]基于交叉熵损失函数和对比学习的损失函数进行第二阶段的训练。[0020]第二方面,本发明还提供了一种基于音频潜在特征对比学习的音频伪造检测系统,用于实施一种基于音频潜在特征对比学习的音频伪造检测方法,所述系统包括:[0021]数据处理模块,用于对原始音频数据进行数据增强,生成伪造音频数据集;[0022]模型构建模块,用于构建音频检测模型,所述音频检测模型包括对比学习模型、[0023]模型训练模块,用于基于所述伪造音频数据集对所述音频检测模型进行第一阶段训练,并在完成第一阶段训练后,使用对比学习模型进行第二阶段的训练;[0024]检测模块,用于基于完成所述第一阶段训练和第二阶段训练的音频检测模型对音频进行伪造检测。[0026]数据增强单元,用于对原始音频数据进行高斯噪声增强、波形位移、波形拉伸和音高修正。[0030]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如一种基于音频潜在特征对比学习的音频伪造检测方法。[0031]第四方面,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如一种基于音频潜在特征对比学习的音频伪造检测方[0032]与现有技术相比,本发明具有如下优点和技术效果:[0033]本发明提供的一种基于音频潜在特征对比学习的音频伪造检测方法及系统,首先通过对原始数据进行多维度数据增强(包括高斯噪声添加、波形位移、拉伸及音高修正),生成覆盖复杂场景的伪造音频数据集;其次构建融合Sinc卷积层、残差块及特征缩放映射的音频检测模型RawNet2-C,并集成对比学习模块;基于增强数据对模型进行第一阶段训练后,进一步通过两阶段训练策略联合优化分类与特征判别能力,最终显著提升模型对高逼真伪造音频的检测精度。通过数据增强与分阶段训练,模型可有效增强对背景噪声、语速/6音调变化的适应性,同时直接从原始波形中提取深层潜在特征,避免传统人工特征设计的局限性,强化了复杂场景下的鲁棒性和判别能力。附图说明[0034]构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:[0035]图1为本发明实施例的音频增强示意图;[0036]图2为本发明实施例的残差连接示意图;[0037]图3为本发明实施例的FMS特征缩放示意图;[0038]图4为本发明实施例的方法流程图。具体实施方式[0039]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。[0040]需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。[0041]实施例一[0042]如图4所示,本实施例中提供一种基于音频潜在特征对比学习的音频伪造检测方[0043]对原始音频数据进行数据增强,生成伪造音频数据集;[0044]构建音频检测模型,所述音频检测模型包括对比学习模型;[0045]基于所述伪造音频数据集对所述音频检测模型进行第一阶段训练;[0046]完成第一阶段训练后,使用对比学习模型进行第二阶段的训练;[0047]基于完成所述第一阶段训练和第二阶段训练的音频检测模型对音频进行伪造检[0048]具体的,上述过程包括:[0049]步骤1:基于原始音频数据与数据增强方法生成增强数据,构建伪造音频数据集。[0050]步骤2:基于音频潜在特征结合对比学习构建模型RawNet2-C。[0051]步骤3:基于增强的数据集对RawNet2-C进行第一阶段训练,初步实现伪造音频的检测。[0052]步骤4:待RawNet2-C模型的第一阶段训练结束后,融合对比学习,基于对比学习的作用机制,进行第二阶段训练,优化提升模型的检测效果。[0053]作为本实施例中的一种实施方式,对原始音频数据进行数据增强,生成伪造音频数据集的过程包括:[0054]确认数据集的正负样本分布比例,如正负样本比例不等于1:1,则对数据进行调[0055]对调整完毕后的原始音频数据进行数据增强,生成伪造音频数据集,所述伪造音频数据集包含真实与伪造音频。7[0057]确认数据集的正负样本分布比例,如分布正负样本的分布比例不等于1:1,则对数据进行调整;[0058]使用增强方法对音频信号进行数据增强,音频增强结果如图1所示。[0059]作为本实施例中的一种实施方式,对调整完毕后的原始音频数据进行数据增强的过程包括:对调整完毕后的原始音频数据进行高斯噪声增强、波形位移、波形拉伸和音高修[0061](1)高斯噪声增强:向原始音频信号中添加均值为0,标准差可调的高斯分布噪声,模拟真实环境中的背景噪声。[0062](2)波形位移:将音频信号在时间轴上进行平移,不改变信号的频率内容,模拟信号在时间上的微小变化,如说话人的微小延迟或提前。[0063](3)波形拉伸:通过改变信号中每个样本点之间的时间间隔来调整信号的持续时[0064](4)音高修正:通过改变信号的基频来调整音高,同时保持其他频率成分的相对位[0065]作为本实施例中的一种实施方式,构建音频检测模型,所述音频检测模型还包括:[0067]首先Sinc卷积使用直接处理音频的时序信号。Sinc卷积是一种可解释的卷积滤波器结构,它通过参数化的带通滤波器特性,可在深度学习框架中直接从原始波形提取帧率相关信息,位于网络的第一层。这种结构提供了一种替代传统频谱提取方法,例如MFCC、感知线性预测、滤波器组提取等。[0068]对于音频信号,Sinc卷积使用一个预定义的函数g提取音频信号特征,其中g只包含很少的可学习变量θ,基于Sinc函数进行卷积操作的定义如下:矩形带通滤波的形式,其频域特性如下:[0074]g[f,f₁,f₂]经过傅里叶变换转换为时域表达式形式如下:[0075]g[n,f,f₂]=2f₂sinc(2πf₂n)-2f₁sinc(2πf₁n)(4)8[0076]其中sinc(·)函征缩放映射FMS的尺度向量。通过将尺度向量表示为s=[s₁,S₂…SF],之后设计了一个尺度9块输出特征的表达能力,最后使用对比学习最大化真实音频数据特征和伪造音频数据特征之间的相似度提升模型的判别能力。模型的结构如表1所示。[0094]表1RawNet2-C模型结构表[0095]层输入64000个样本SincNet层卷积(129,1,128)最大池化(3)归一化和LeakyReLU(21290,128)残差块×2归一化和LeakyReLU卷积(3,1,128)归一化和LeakyReLU卷积(3,1,128)最大池化(3)FMS(2365,128)残差块×4归一化和LeakyReLU卷积(3,1,512)归一化和LeakyReLU卷积(3,1,512)最大池化(3)FMS(29,512)GRUGRU(1024)(1024) 输出10244[0096]表1中,针对表格中各个层级的函数以及函数参数含义进行以下说明:[0097]针对SincNet卷积层其中的卷积(129,1,128):[0098]这是一个一维卷积操作。卷积核的大小是129(即在时间轴上的长度为129),输入通道数为1(假设输入数据是一个一维信号,如语音信号等),输出通道数为128.它主要用于提取输入信号的局部特征,通过卷积核在输入信号上滑动进行特征计算。[0099]针对SincNet卷积层其中的最大池化(3):[0100]最大池化是一种下采样操作。这里的池化窗口大小为3,即每隔3个单位取一个最大值。它的作用是减少数据的维度,同时保留局部区域内的最大特征值,有助于降低计算复杂度,并且可以一定程度上防止过拟合。[0101]针对SincNet卷积层其中的归一化和LeakyReLU:[0102]归一化(如批量归一化等)可以加速网络的训练过程,通过调整和缩放神经元的输入,使每一层的输入具有零均值和单位方差,使网络的训练更加稳定。[0103]LeakyReLU是一种激活函数。它解决了传统ReLU函数在输入为负数时梯度为零的问题。LeakyReLU在输入为负数时,输出一个很小的值(由负斜率参数决定),使得神经元在输入为负数时也能有微小的梯度,避免神经元“死亡”。[0104]针对残差块×2其中的归一化和LeakyReLU:[0105]作用同上,在残差块的开始部分对输入进行归一化和激活操作。[0106]针对残差块×2其中的卷积(3,1,128):[0107]卷积核大小为3,输入通道数为1,输出通道数为128。继续对特征进行提取和变换。[0108]针对残差块×2其中的归一化和LeakyReLU:[0109]对卷积后得到的特征进行映射和归一化操作。[0110]针对残差块×2其中的卷积(3,1,128):[0111]再次进行卷积操作,进一步提取更深层次的特征。[0112]针对残差块×2其中的最大池化(3):[0113]进行下采样操作,减少数据维度,保留关键特征。[0114]针对残差块×2其中的FMS:[0115]进行特征缩放。[0116]针对残差块×4其中的归一化和LeakyReLU:[0117]对卷积后的特征进行映射和归一化处理。[0118]针对残差块×4其中的卷积(3,1,512):[0119]卷积核大小为3,输入通道数为1,输出通道数为512,用于提取更复杂的特征,随着通道数的增加,特征的表达能力增强。[0120]针对残差块×4其中的归一化和LeakyReLU:[0121]对卷积后的特征进行映射和归一化处理。[0122]针对残差块×4其中的卷积(3,1,512):[0123]继续进行卷积操作,加深特征的提取层次。[0124]针对残差块×4其中的最大池化(3):[0125]降低数据维度。[0126]针对残差块×4其中的FMS:[0127]进行特征缩放。[0128]针对GRU(GatedRecurrentUnit,门控循环单元)其中的GRU(1024):[0129]GRU是一种循环神经网络结构,用于处理序列数据。这里的1024表示GRU隐藏单元的维度。它通过更新门和重置门来控制信息的流动,能够更好地处理序列中的长期依赖关系,将前面时间步的信息传递到后面时间步。[0130]针对全连接层其中的1024:[0131]全连接层将前面提取到的特征(维度为1024)进行线性变换,每个神经元与前一层的所有神经元相连,用于将特征映射到新的空间,进一步进行分类或回归等任务。[0133]输出层的维度为4,这可能是一个四分类问题,每个输出单元对应一个类别的概率(如果是分类任务并且使用softmax激活函数),或者表示四个不同的输出特征(如果是回归等其他任务)。[0134]作为本实施例中的一种实施方式,基于所述伪造音频数据集对所述音频检测模型进行第一阶段训练,第一阶段训练的训练轮数为N,训练轮数执行完毕后第一阶段训练结[0135]基于交叉熵损失函数训练模型。[0137]首先在不使用对比学习的情况下,对RawNet2-C进行第一阶段的训练,使模型具有初步的音频鉴伪能力,在第一阶段其损失函数如下所示:[0138]L=-[ylog(p)+(1-y)log[0139]其中,Lb为交叉熵损失函数,y为标签,对于真实音频数据标签为1,伪造音频数据标签为0,p为对于输入音频数据为真实数据的预测概率。[0140]作为本实施例中的一种实施方式,完成第一阶段训练后,使用对比学习模型进行第二阶段的训练的过程中包括:[0141]基于交叉熵损失函数和对比学习的损失函数进行第二阶段的训练。[0143]使用对比学习对模型进行第二阶段的训练,提升模型的判别能力,第二阶段使用语音增强的数据集进行训练,由于经过第一轮的训练模型已经具备基本的识别能力,因此第二阶段训练轮数较少,这里训练了30轮,收敛过程在前期较为稳定,后续会产生波动最终选取了在验证集上效果最好的模型。一类音频数据时k为1,否则k为0,c′和c分别为与c不同一类和同一类的音频数据特征,完成所述第一阶段训练和第二阶段训练的音频检测模型对音频进行伪造检测。本申请在的敏感度。器实现以上实施例中的方法。[0161]在本实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现以上实施例中的方法。[0162]在本实施例中,还提供一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行以上实施例中的方法。[0163]上述程序可以运行在处理器中,或者也可以存储在存储器中(或称为计算机可读介质),计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动随字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。[0164]这些计算机程序也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤,对应与不同的步骤可以通过不同的模块来实现。[0165]该本实施例中就提供了这样的一种装置或系统。该系统被称为基于音频潜在特征[0167]模型构建模块,用于构建音

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论