版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
(19)国家知识产权局(12)发明专利(10)授权公告号CN114238849B(21)申请号202111481834.5(22)申请日2021.12.06(65)同一申请的已公布的文献号申请公布号CN114238849A(43)申请公布日2022.03.25(73)专利权人安徽大学地址230601安徽省合肥市经济技术开发区九龙路111号(74)专利代理机构合肥市上嘉专利代理事务所(56)对比文件审查员徐生芹权利要求书2页说明书5页附图1页(54)发明名称基于复数谱子带融合的虚假音频检测方法及其系统(57)摘要本发明公开了一种基于复数谱子带融合的虚假音频检测方法,包括以下步骤:S1:提取原始语音波形的复数谱特征和对数功率谱特征,作为输入特征;S2:将复数谱特征分为低频和高频两个子带频段,分别对复数谱的高、低频段进行建模,并获得相对应的预测结果;S3:对对数功率谱的低频段特征进行建模,并获得相对应的预测结果;S4:将复数谱的高、低两个子带频段的预测结果通过一级融合算法进行融合,得到一级融合结果;S5:将对数功率谱的低频段特征得到的预测结果和一级融合结果通过二级融合算法进行融合,得到最终结果。还公开了一种基于复数谱子21.一种基于复数谱子带融合的虚假音频检测方法,其特征在于,包括以下步骤:S1:提取原始语音波形的复数谱特征和对数功率谱特征,作为输入特征;S2:将复数谱特征分为低频和高频两个子带频段,分别对复数谱的高、低频段进行建模,并获得相对应的预测结果;S3:对对数功率谱的低频段特征进行建模,并获得相对应的预测结果;S4:将复数谱的高、低两个子带频段的预测结果通过一级融合算法进行融合,得到一级融合结果;定义复数谱特征的低频子带频段为,复数谱特征的高频子带频段为其I深度神经网络分类器训练评估得到的结S5:将对数功率谱的低频段特征得到的预测结果和一级融合结果通过二级融合算法进其中,SLps是对数功率谱的低频段特征经过深度神经网络分类器得到的预测结果,β是2.根据权利要求1所述的基于复数谱子带融合的虚假音频检测方法,其特征在于,在步骤S1中,提取原始语音波形的复数谱特征包括以下步骤:S101:利用短时傅里叶变换STFT将时域语音转换为T-F域:其中,x[k]表示时域中的原始语音波形,k是语音信号的时间索引,Xr∈RF×T和S102:将STFT的实数部分和虚数部分拼接在一起,得到需要的复数谱特征,表示为:3.根据权利要求1所述的基于复数谱子带融合的虚假音频检测方法,其特征在于,在步骤S1中,提取原始语音波形的对数功率谱特征包括以下步骤:S111:通过短时傅里叶变换STFT将原始语音波形转换为复数谱:其中,x[k]表示时域中的原始语音波形,k是语音信号的时间索引,D表示转换后的复数S112:依次对复数谱进行取绝对值和取对数操作,得到对数功率谱特征:其中,abs和log分别代表取绝对值和取对数操作,LPS即为需要的对数功率谱特征。4.根据权利要求1所述的基于复数谱子带融合的虚假音频检测方法,其特征在于,所述低频子带频段的频率范围为0-4KHz,高频子带频段的频率范围为4-8KHz。5.一种复数谱子带融合的虚假音频检测系统,其特征在于,包括:3语音特征输入模块,用于提取原始语音波形的复数谱特征和对数功率谱特征,作为输入特征;复数谱特征处理模块,用于将复数谱特征分为低频和高频两个子带频段,分别对复数谱的高、低频段进行建模,并获得相对应的预测结果;对数功率谱处理模块,用于对对数功率谱的低频段特征进行建模,并获得相对应的预测结果;一级融合模块,用于将复数谱特征处理模块得到的预测结果通过一级融合算法进行融合,得到一级融合结果;定义复数谱特征的低频子带频段为Xcompex,复数谱特征的高频子带频段为,一级融合公式如下:其中,过深度神经网络分类器训练评估得到的结二级融合模块,用于将对数功率谱处理模块得到的预测结果和一级融合模块得到的结果,通过二级融合算法进行融合得到最终结果,二级融合算法的公式如下:其中,SLps是对数功率谱的低频段特征经过深度神经网络分类器得到的预测结果,β是二级融合算法的权重系数,Scoplex为一级融合结果,S为最终结果。4基于复数谱子带融合的虚假音频检测方法及其系统技术领域[0001]本发明涉及音频伪造检测技术领域,特别是涉及一种基于复数谱子带融合的虚假音频检测方法及其系统。背景技术[0002]自动说话人验证(Automaticspeakerverification,ASV)系统是一个典型的生物识别系统,主要用于门禁控制、电话银行、司法取证和军事侦察等领域,该系统可以使用特定的算法对输入语音进行模式识别和匹配,判断出该待验证的说话人语音是否为合法用户的声音。随着语音技术的发展,目前ASV系统面临着各种虚假音频攻击的问题,常见的虚假音频可以分为4种形式:语音模仿、录音重放、语音合成和语音转换。因此研究人员开发出有效的反欺骗系统,以保护ASV系统免受伪造语音的欺骗攻击。[0003]音频伪造检测技术可以有效提高反欺骗系统的性能,目前的工作主要集中在两个方面:1)改善音频的声学特征;2)设计新的分类模型。相比于设计新模型,提取更具有代表性的特征尤为关键。幅度谱和相位谱是基于傅里叶变换得到的两种基本的声学特征,反映音频的不同特性。在早期研究中,主要对幅度谱进行处理而忽视相位信息,相位信息对于音频伪造检测任务非常重要,与幅度谱相比,相位谱的分布更不规则,因此如何有效利用相位信息是一个具有挑战性的问题。现在虚假音频在被检测过程中通常使用全频带信息作为特征进行建模,实际上虚假音频在低频带(0-4KHz)和高频带(4KHz-8KHz)有不同的表现,分频带处理可以大幅降低虚假音频检测的错误率,提高反欺骗系统的性能。[0004]因此亟需提供一种新型的虚假音频检测方法来解决上述问题。发明内容[0005]本发明所要解决的技术问题是提供一种基于复数谱子带融合的虚假音频检测方法及其系统,能够显著提高音频伪造检测技术的准确率。[0006]为解决上述技术问题,本发明采用的一个技术方案是:提供一种基于复数谱子带融合的虚假音频检测方法,包括以下步骤:[0007]S1:提取原始语音波形的复数谱特征和对数功率谱特征,作为输入特征;[0008]S2:将复数谱特征分为低频和高频两个子带频段,分别对复数谱的高、低频段进行[0009]S3:对对数功率谱的低频段特征进行建模,并获得相对应的预测结果;[0010]S4:将复数谱的高、低两个子带频段的预测结果通过一级融合算法进行融合,得到一级融合结果;[0011]S5:将对数功率谱的低频段特征得到的预测结果和一级融合结果通过二级融合算[0012]在本发明一个较佳实施例中,在步骤S1中,提取原始语音波形的复数谱特征包括以下步骤:5[0013]S101:利用短时傅里叶变换STFT将时域语音转换为T-F域:[0014]X[t,f]+i*X[0015]其中,x[k]表示时域中的原始语音波形,k是语音信号的时间索引,Xr∈RF×T和Xi∈RF×T是STFT的相应实部和虚部,t是时间帧数的索引,f是频率单元的索引;[0016]S102:将STFT的实数部分和虚数部分拼接在一起,得到需要的复数谱特征,表示[0018]其中,stack表示拼接操作,F和T分别为频率和时间帧数。[0019]在本发明一个较佳实施例中,在步骤S1中,提取原始语音波形的对数功率谱特征包括以下步骤:[0020]S111:通过短时傅里叶变换STFT将原始语音波形转换为复数谱:[0022]其中,x[k]表示时域中的原始语音波形,k是语音信号的时间索引,D表示转换后的复数谱。[0023]S112:依次对复数谱进行取绝对值和取对数操作,得到对数功率谱特征:[0025]其中,abs和log分别代表取绝对值和取对数操作,LPS即为需要的对数功率谱特[0026]在本发明一个较佳实施例中,所述低频子带频段的频率范围为0-4KHz,高频子带频段的频率范围为4-8KHz。[0027]在本发明一个较佳实施例中,在步骤S4中,定义复数谱特征的低频子带频段为,复数谱特征的高频子带频段为[0029]其中,过深度神经网络分类器训练评估得到[0030]在本发明一个较佳实施例中,在步骤S5中,二级融合算法的公式如下:[0032]其中,对数功率谱的低频段特征经过深度神经网络分类器得到的预测结果,β是二级融合算法的权重系数,一级融合结果,S为最终结果。[0033]为解决上述技术问题,本发明采用的另一个技术方案是:提供一种复数谱子带融合的虚假音频检测系统,包括:[0034]语音特征输入模块,用于提取原始语音波形的复数谱特征和对数功率谱特征,作为输入特征;[0035]复数谱特征处理模块,用于将复数谱特征分为低频和高频两个子带频段,分别对复数谱的高、低频段进行建模,并获得相对应的预测结果;[0036]对数功率谱处理模块,用于对对数功率谱的低频段特征进行建模,并获得相对应的预测结果;6[0037]一级融合模块,用于将复数谱特征处理模块得到的预测结果通过一级融合算法进[0038]二级融合模块,用于将对数功率谱处理模块得到的预测结果和一级融合模块得到的结果,通过二级融合算法进行融合得到最终结果。[0039]本发明的有益效果是:本发明将虚假音频分频带处理,可以大幅降低虚假音频检测的错误率,提高反欺骗系统的性能,与全频带的系统相比,将复数谱的低、高频两个子带融合,可以提高虚假音频检测系统的性能以及音频伪造检测技术的准确率。附图说明[0040]图1是本发明基于复数谱子带融合的虚假音频检测方法的流程图;[0041]图2是所述基于复数谱子带融合的虚假音频检测系统的结构框图。具体实施方式[0042]下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。[0043]请参阅图1和图2,本发明实施例包括:[0044]一种基于复数谱子带融合的虚假音频检测方法,包括以下步骤:[0045]S1:提取原始语音波形的复数谱特征和对数功率谱(LPS)特征,作为输入特征;[0046]提取原始语音波形的复数谱特征包括以下步骤:[0047]S101:利用短时傅里叶变换STFT将时域语音转换为T-F域:[0049]其中,x[k]表示时域中的原始语音波形,k是语音信号的时间索引,Xr∈RF×T和STFT时使用窗长为1728的BlackmanWindow,帧移为130。[0050]S102:将STFT的实数部分和虚数部分拼接在一起,得到需要的复数谱特征,表示[0053]提取原始语音波形的对数功率谱特征包括以下步骤:[0054]S111:通过短时傅里叶变换STFT将原始语音波形转换为复数谱:[0056]其中,x[k]表示时域中的原始语音波形,k是语音信号的时间索引,D表示转换后的复数谱。[0057]S112:依次对复数谱进行取绝对值和取对数操作,得到对数功率谱特征:[0059]其中,abs和log分别代表取绝对值和取对数操作,LPS即为需要的对数功率谱特[0060]S2:将复数谱特征分为低频和高频两个子带频段,分别对复数谱的高、低频段进行7[0061]优选的,所述低频子带频段的频率范围为0-4KHz,高频子带频段的频率范围为4-8KHz。本示例中,定义复数谱特征的低频子带频段为Xcompe,复数谱特征的高频子带频段为[0062]需要说明的是,在步骤S1中可得到维度为865的复数谱,取前0-433维作为低频子带,后433-865为高频子带。因此,输入的复数谱特征的低频子带和高频子带的大小分别为433×600和432×600。再分别将复数谱的高、低频特征作为深度神经网络分类器的输入,再对深度神经网络分类器设置一定的训练轮数进行训练,最后选取训练中最好的模型进行测试,得到的测试结果作为相对应的预测结果。[0063]S3:对对数功率谱的低频段特征进行建模,并获得相对应的预测结果;[0064]需要说明的是,在步骤S3中首先通过对原始语音波形进行对数功率谱的特征提取,可得到维度为865的对数功率谱,取前0-433维作为对数功率谱的低频段特征,将该特征作为深度神经网络分类器的输入,再对深度神经网络分类器设置一定的训练轮数进行训练,最后选取训练中最好的模型进行测试,得到的测试结果作为相对应的预测结果。[0065]S4:将复数谱的高、低两个子带频段的预测结果通过一级融合算法进行融合,得到一级融合结果;[0068]其中过深度神经网络分类器训练评估得到[0069]S5:将对数功率谱的低频段特征得到的预测结果和一级融合结果通过二级融合算[0070]由于LPS低频段特征对音频伪造检测任务非常有效,因此本示例中二级融合算法的公式如下:[0072]其中SLps是LPS低频段特征经过深度神经网络分类器得到的预测结果,β是二级融合算法的权重系数,本示例中设置为0.5,S为最终结果。[0073]本发明实施例中,参阅图2,还提供一种复数谱子带融合的虚假音频检测系统,包[0074]语音特征输入模块,用于提取原始语音波形的复数谱特征和对数功率谱特征,作为输入特征;[0075]复数谱特征处理模块,用于将复数谱特征分为低频和高频两个子带频段,分别对复数谱的高、低频段进行建模,并获得相对应的预测结果;[0076]对数功率谱处理模块,用于对对数功率谱的低频段特征进行
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026重庆医科大学附属永川医院第一批编外人员招聘90人建设笔试模拟试题及答案解析
- 2026年校园食品安全事故应急处置演练方案
- 无人机视觉系统校准流程
- 污水处理厂先进氧化技术应用方案
- 2026九江市寻金置业有限公司招聘工作人员6人建设考试参考题库及答案解析
- 2026年事业单位环保岗招聘考试题及答案
- 2026年医院导医招聘考试题库及答案
- 水库库区道路与施工便道方案
- 2025年注册岩土工程师之《岩土基础知识》试题一及答案详解一套
- 施工期间噪声控制方案
- 新高考教学教研联盟(长郡二十校)2026届高三年级4月第二次联考英语试卷(含答案详解)
- 聘任委员会工作制度
- 浙江省杭州二中2025学年第二学期高三年级三月月考语文+答案
- 2026年3月山东济南轨道交通集团运营有限公司社会招聘备考题库附完整答案详解(考点梳理)
- 山东省潍坊市寿光市、安丘市2026届中考适应性考试数学试题含解析
- 2023年中国水产科学研究院东海水产研究所招聘21人笔试备考试题及答案解析
- 2023年医技类-微生物检验技术(副高)考试历年真题拔高带答案必考
- 小儿体液平衡特点与液体疗法
- GB/T 9792-2003金属材料上的转化膜单位面积膜质量的测定重量法
- GB/T 12689.1-2010锌及锌合金化学分析方法第1部分:铝量的测定铬天青S-聚乙二醇辛基苯基醚-溴化十六烷基吡啶分光光度法、CAS分光光度法和EDTA滴定法
- 超声生物显微镜及临床应用优质讲课课件
评论
0/150
提交评论