《基于深度学习的声纹识别技术研究》14000字_第1页
《基于深度学习的声纹识别技术研究》14000字_第2页
《基于深度学习的声纹识别技术研究》14000字_第3页
《基于深度学习的声纹识别技术研究》14000字_第4页
《基于深度学习的声纹识别技术研究》14000字_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第基于深度学习的声纹识别技术研究摘要随着信息探究方面的科学技术的不断进步,充满信息的时代来临,需要面对一个很重要的问题-信息安全。而不同的身份对应着不同的信息,身份确认成为信息安全的一个重要部分。在身份确认中,声纹与指纹、面貌等身份特征信息相似,不同的人具有不同的特征并且具有唯一性。因此只要能够不断完善提取的特征值,就有足够的信息来识别身份,故通过提取声纹中的特征参数进行模型匹配的声纹识别技术不断发展,从而被国内外的学者广泛研究关注。声纹识别中涉及到了语音预处理、特征提取、模型训练及匹配等关键技术。本文针对声纹识别系统,主要研究了特征提取这部分的关键技术及算法。在声纹识别的特征提取部分,为了对比研究不同参数对声纹识别结果的影响,本文重点分析介绍了梅尔倒谱系数(Mel-FrequencyCepstralCoefficients,MFCC)以及伽玛通频率倒谱系数(GFCC)的概念以及提取算法,其次,从身份人识别模型入手,为了保证声纹识别结果的对比性,声纹识别系统的模型训练部分研究描述了高斯混合模型(GMM),并统一采用了高斯混合模型(GMM)进行语音的训练识别,通过MATLAB程序仿真实现了声纹识别。针对不同说话人进行训练识别,并对不同情况下的声纹识别情况进行对比,选择更有效的参数提高系统的识别准确率和抗噪性能。实验表明,在相同条件下的参数对比,GFCC的声纹识别率更高,并且参数GFCC能够有效提高系统的抗噪鲁棒性。关键词:声纹识别、MFCC、GFCC、高斯混合模型目录1绪论 11.1研究背景及意义 11.1.1研究背景 11.1.2研究意义 11.2国内外研究现状及应用前景 21.3编程语言选择 21.4本文主要研究内容与结构安排 32声纹识别系统的概述 32.1声纹识别的基本概念 32.2声纹识别系统的结构 53语音预处理 53.1预加重 53.2分帧 63.3加窗 73.4端点检测 84特征参数的提取 94.1特征参数选择 94.2Mel倒谱系数(MFCC) 94.2.1Mel倒谱系数概念 94.2.2Mel倒谱系数的提取 104.3Gammatone频率倒谱系数(GFCC) 124.3.1Gammatone频率倒谱系数概念 124.3.2Gammatone频率倒谱系数的提取 125特征参数在高斯混合模型的声纹识别 145.1模型介绍及选择 145.2高斯混合模型 155.3基于高斯混合模型的声纹识别 166基于MATLAB环境下的仿真实验 166.1声纹识别系统框架 166.2声纹识别过程及结果 176.3参数对比 197结论与展望 207.1结论 207.2展望 21参考文献 23第1绪论1.1研究背景及意义1.1.1研究背景时代不断发展,伴随着小康社会的普及,全民生活水平的不断抬高,各行各业技术不断更新迭代,人类在各方面都已经进入了全面信息化的时代。信息安全问题的发展形势也非常严峻,在各行业中都会涉及到信息安全问题,例如银行证券、公安司法、军队国防等都离不开信息,并且经常会在人机交互过程中涉及到身份验证等问题。而传统的身份验证方法和手段例如证件、钥匙等表明身份,那么一旦出现表明身份的物品被盗取的现象,则身份就有可能被冒充或者取代。为解决传统身份识别中出现的一系列问题,身份识别领域的逐渐引起研究人员的广泛关注(陈慧敏,刘志强,2025)。随着信息科技领域的技术不断发展与生物领域技术的不断完善,两者发展过程中逐渐融合,鉴于当下的具体情形有关生物识别方面的技术不断出现,基于生物特征的身份认证和识别技术成为现代身份人识别的关键技术。生物技术与光学、声学、生物传感器等科学技术手段密切相关,利用生物统计数据等使用者固有的生理特征,如指纹、面部、虹膜和行为特征,如笔迹、声音和行走身份进行识别[1]。语音作为人类的说话传递信息的方式,隐藏着特有的声纹信息,鉴于语音的在人类生活中应用的普遍性与便捷性,正因如此,语音身份识别的技术即声纹识别随即产生(林晓阳,马瑞雪,2023)。声纹识别从语音处理的技术角度考虑也属于语音识别。从根本上探究说话人鉴别和语音识别,两者都是属于语音处理,都包含着信号处理的知识,都具有相通的理论基础和技术作为支撑,鉴于当前环境但是语音识别更注重的是语音的内容,忽略了发声者的个性特征(侯俊豪,常泽楷,2021);而声纹识别更注重的是说话人的身份鉴定,人类脑中的神经中枢与身体的器官交互作用于肢体上使得人与人之间产生了可以相互交流的语言。其中发生器官在生理上存在的形状大小的差异,导致了不同的人说相同的语言和文字内容所发出的声音不同,声纹识别正是运用了这点因此可以实现身份识别的功能。1.1.2研究意义说话人识别在现代社会逐步成熟,并适用于安全、司法、通信、军队多个领域。在各方面技术不断成熟的同时,语音识别技术也在理论研究领域不断发展。在理论研究领域,基于MFCC、GMM、UBN-MAP背景模型等理论的声纹识别系统更加成熟。声纹识别作为一项生物识别技术,面对这种情况与传统的身份识别技术相比较具有便捷性、相对性识别性价比高、网络实用远程识别、与内容识别融合等优势。与其他的生物识别技术相比较也有着很多独特的优势,例如获取语音的价格比较低廉,声纹识别过程中的特征提取部分比较简单容易,在识别过程中的模型训练以及匹配部分也较为简单容易,便于开发,配合语音的降噪技术可以有效提高识别率(汤睿渊,王嘉诚,2021)。声纹识别作为现代几大身份人识别技术之一,在此类场景里技术不断的在发展,通过声纹识别技术拓展的相关产品也在不断走向成熟,并推向大众逐渐应用到了人们的生活中。现声纹识别的发展的重点为提升识别的方式,使其可靠性不断增强,朝着深度学习以及端到端的方向发展,理论上的工作致力于不同特征参数的提取以及不同模型的匹配来达到更高的识别率(黄志霖,赵思琪,2023)。1.2国内外研究现状及应用前景声纹识别即说话人识别的技术最早被发掘于二十世纪的三十年代,一开始主要研究的是人的耳朵的听力以及辨别不同发音的原理和通过语音进行说话人识别的可能。随着算法函数以及各方面技术的不断完善,才逐步迈入了说话人识别的领域。在1962年,贝尔的实验室研究基于语谱图的人工说话人识别工作,并将语谱图称为声纹(林启超,朱泽楷,2023)。[9]说话人识别自此快速发展,越来越多的特征参数以及模型建立方法被应用到这个领域,使得识别的效果越来越稳定。在众多的模型发展过程中,矢量量化模型、动态时间规划模型、隐马尔可夫模型、高斯混合模型、支持向量机等各种模型层出不穷(林泽昊,唐振宇,2020)。这明显地揭示了意图以高斯混合模型为代表的模型以其模型建立具有强大的声学特征而被广泛应用,并且在声纹识别领域取得了良好的效果。并且以GMM为基础发展的高斯混合模型-通用背景模型(GMM-UBM)在原基础上大幅度改进了识别效果。于数据分析方法的抉择过程中,本文不但采用了传统的统计分析方式,诸如描述性统计、回归分析等,同时还引入了近年来快速发展的数据挖掘技术与算法。举例而言,通过运用聚类分析来识别数据中的潜在规律,或者利用决策树算法对未来趋势进行预测。这些先进的手段为深入理解复杂的现象给予了强大的助力,有助于挖掘出海量数据背后的深层次联系。并且,本文特别突出了混合方法的运用,即把定量研究和定性研究有机结合,从而获得更为全面的研究视野。模型的发展不断推进说话人识别的发展,并逐渐走向了高潮。近年来人工神经网络(ANN)的出现,。使得图像识别、语音识别等领域的发展迈出了一大步,引起学者的广泛关注并运用到了声纹识别系统中并且大幅的提升了识别率(彭博宇,曾泽楷,2022)。1.3编程语言选择MATLAB(matrixlaboratory)作为一个强大的编程环境模拟软件,同时也是一种编程语言,依据此理论框架深入探究可得出可以实现函数计算、函数图形绘画、GUI界面设计、软件开发等多种功能,并且MATLAB可以与多种编程语言进行交汇,实现MATLAB中的代码、数据代入,做到互通效果。编程语言Python设计于90年代,可以提供高效的高级数据结构。在功能方面对比,Python在可视化方面更为美观,Python依靠着pytorch和TensorFlow在深度学习方面更为强大(段子墨,黎雨馨,2019)。两者对比来看,虽然Python在做深度学习方面的功能比较强大,但是MATLAB在信号处理上比较优越,这在某种程度上标明本文的主题也是依据在特征参数提取相关方面,因此设计深度学习的要求较少,并且本人有着一定的MATLAB语言的基础,故选择MATLAB作为编程语言来完成相关任务程序(陈旭福,付玉倩,2020)。1.4本文主要研究内容与结构安排本文首先从总体上研究了声纹识别系统,对声纹识别系统的概念进行解析阐述,然后具体解析了声纹识别系统的结构,对特征参数提取以及模型训练及匹配进行解析,最后用MATLAB针对声纹识别系统进行仿真,并通过对程序的调试进行识别率的检测。论文章节具体安排如下:第一章主要说明了该课题的背景与发展现状以及研究该课题的意义。与声纹识别领域在国内外的研究现状以及应用前景,针对设计的编程语言进行窜则,并说明了文本的结构安排。第二章主要说明声纹识别系统的概念。介绍了什么是声纹识别,对声纹识别系统的结构框架进行解析。第三章研究了声纹识别系统中预处理部分,并以作者语音为例进行处理并做记录,探究了预处理的算法实现。第四章研究了特征提取技术,重点介绍了几种特征参数并对将要研究的特征参数进行选择。讲述了梅尔频率倒谱系数(MFCC)以及基于Gammatone的倒谱系数(GFCC)的概念以及参数提取过程中涉及到的算法。第五章研究了模型匹配。介绍多种模型并选择算法中所要使用的模型-高斯混合模型(GMM)模型,对GMM模型的算法实现进行了讲解。设计了基于GMM模型的声纹识别系统。第六章将完成的声纹识别系统程序进行呈现,完成了代码的仿真调试,并针对不同参数对识别结果进行对比,选择识别结果比较优异的参数。第七章总结与展望。这在某种程度上标明结合仿真实验的结果进行总结,并进一步探究了在此设计中的不足与可以进一步发展的空间,展望前景。2声纹识别系统的概述2.1声纹识别的基本概念声纹,简单来讲就是人在说话时引起的语音,可以通过声谱的一种仪器显示,并且可以包含说话人本身的个性信息以及话语所要表达的信息,是一种生物特征(蔡嘉欣,林泽羽,2020)。图2.SEQ图_2.\*ARABIC1说话人语音声纹识别是一种根据说话人语音波形识别说话人身份的生物识别技术。相对比其他的身份人识别技术,声纹识别可以通过手机等设备录音进行识别,用户不必和生物特征采集设备接触,即可完成识别过程(栾景深,宓清欢,2018)。图2.SEQ图_2.\*ARABIC2说话人识别分类说话人识别即声纹识别的应用可分为身份人辨识和身份人确认,身份辨识指的是从一个集合中选择可以匹配的声纹,在对象角度来分析是一对多的一个过程。集合分为开集和闭集,吸纳已有成果可以推导出新的结论闭集即为从一个语音数据库文件中识别身份人,开集即为从线上的数据集中寻找身份人,身份识别的难度随着识别数据库的基数增加而增加,因此开集的识别难度往往要比闭集的识别难度要大的多(付云飞,魏晓月,2022);身份确认是指根据一段语音确认是否为目标用户,是1:1的过程,说话人确认即需要匹配说话人与数据库的参数是否匹配即可识别,不会受到未识别语音数量以及说话人集合基数的影响(付奇敏,郑文昊,2021)。以上阶段性研究收获的成果以及计算结果,与前文综述的结果基本一致。这一现象首先显示出本研究在方法论上的有效性与可靠性。这种一致性,既验证了以往研究的成果,又为当下的理论框架增添了助力。借助精心设计的研究方案、细致的数据收集以及恰当的分析方法,本文能够复现前人研究中的关键要点,进而深入挖掘。这不仅提升了对研究假设的认可,也证实了所选用研究方法的科学性。此外,该一致性为不同研究间的对比提供了基础,有助于搭建更为全面、系统的理论体系。鉴于前面所展开的分析情况因此相对来讲说话人确认技术比说话人辨认技术更为稳定。针对说话人语音内容,也可以分为识别文本相关与识别文本无关两个方面,文本相关概念为在声纹识别过程中会对说话人的说话内容有要求;文本无关值得是在识别过程中只要考虑到说话人声纹特征参数,因此文本相关对比文本无关更易识别。本文主要研究的是文本无关的说话人确认技术。2.2声纹识别系统的结构如下图所示,说话人识别系统的主要板块有三个,第一个为预处理模块,第二个为特征提取模块,第三个为模型训练与匹配模块。对于在声纹识别系统中要识别的说话人,要在系统中提前录入语音并在模型中进行处理得到此说话人的特征数据并储存于系统中(朱奇远,邵嘉怡,2019)。从上述分析来看出通过之前的导入得到的说话人声纹特征,在识别阶段再次导入要识别的说话人语音并通过模型处理,与之前的声纹特征进行匹配则就可以得到识别结果。即声纹识别技术过程主要包括语音预处理、特征提取、模型匹配三部分(孙博宇,李佳慧,2018)。图2.SEQ图_2.\*ARABIC3声纹识别框图3语音预处理在进行特征提取前,都要对语音的原始序列做一系列的处理,目的是为了消除人类发声器官本身由于采集语音信号的设备带来的混叠、高次谐波失真、高频等等因素,对语音信号质量的影响(吕建华,汪思远,2021)。鉴于当下的具体情形尽可能保证后续语音处理得到的信号更为平滑流畅,为后期处理提供比较好信号质量,更是为保证信号参数提取的参数能够更加具有代表性,以此来提高语音处理的质量。考虑到时间因素的重要性,此处暂不详尽阐释上文结论的验证情况。科学研究一般而言是一个漫长的过程,特别是在攻克复杂问题或者探索新兴领域时,需要足够的时间来观察现象、剖析数据,以获取可靠的结论。尽管本研究已取得一定的初步成果,然而要对全部结论进行全面且细致的验证,还需要长期的跟踪研究以及反复的实验操作。这不仅有助于消除偶然因素的干扰,还能确保研究成果具备更强的可信度与广泛的应用价值。再者,技术手段的发展水平对结论的验证进程也有着不可忽视的影响。在预处理阶段常用到的预处理过程如下图:图3.SEQ图_3.\*ARABIC1预处理过程3.1预加重预加重主要目的是对语音的高频部分进行加重,去除高频部分的影响,增加语音在高频部分的分辨率。高频成分在约800Hz以上按照6dB/倍频程衰减,频率越小相对应的成分越小,鉴于当前环境为此要在语音信号进行分析之前对高频的部分加以提示。一般通过传递函数为Hz=1−αz以个人的语音处理为例,下面进行语音处理过程,首先将语音导入进行语音预加重处理。下面为预加重处理前后的信号图,前后处理的信号图进行对比可以看出,在语音的高频部分的分量出现减少的情况(杨舒婷,张浩然,2022)。此即为预加重带来的效果,在预加重作用下,不难推断得出语音信号高频减少带来语音高频分辨率增加的效果。图3.SEQ图_3.\*ARABIC2语音原采样图图3.SEQ图_3.\*ARABIC3预加重处理3.2分帧傅里叶变换要求输入较为平稳的信号,但语音信号从真题来讲为不平稳信号,因此需要将信号变为在短时间内的平稳信号。此时就运用到了分帧的处理方式,将一段语音进行分断操作,面对这种情况每一段的时间长度为10ms到30ms,一小段为一帧,将处理的语音信号改为处理每一帧的平稳信号(谢志豪,陈从君,2022)。相邻的信号可能会出现信息量差距过大的情况,因此我们在分帧时候,采用相邻的帧重叠的方法来减少信息差距,称为交叠分帧法如下图:图3.SEQ图_3.\*ARABIC4语音信号分帧图M-帧移N-帧长经过预加重处理后的语音信号需要进行分帧处理,同样以作者的语音处理为例,继预加重处理后,下面进行分帧处理。在信息收集阶段,本文采用了多种手段,如问卷调研、现场访谈以及资料汇总等,旨在从不同角度获取全面且真实的数据。通过对这些数据的深入分析和整理,本文成功验证了研究假设,并发现了其中的规律性和潜在联系。尽管本研究取得了一定成效,但本文深知每项研究都有其局限。未来研究可在现有基础上进一步深化,特别是在样本选择、研究方法优化及理论模型完善等方面仍有很大的提升空间。分帧处理后的信号图如下(杨心怡,刘建辉,2022):图3.SEQ图_3.\*ARABIC5分帧处理3.3加窗通过分帧,语音信号就从非平稳信号变换为了短时的平稳信号,通过快速傅里叶变换从时域将信号转化为频域(王宇涛,赵怡彤,2021)。但是会存在转换过程中的频率谱会出现泄漏的问题,所以在转换前先做滤波器处理,也就是加窗。对分帧后的每一段帧通过滤波器,对语音信号进行加强处理,在此类场景里而对非语音信号做减弱处理,这样就可以突出语音信号更容易进行识别。常用的函数有以下几种,其分别定义为:(1)矩形窗w(3.1)(2)汉明窗w(3.2)汉明窗的频谱较为平滑。(3)汉宁窗w(3.3)窗函数的种类多样,选择一个好的窗函数对语音的处理效果会有很大的好处,而窗函数选择上需要满足以下几个条件:首先在频域上,带宽要足够宽,而且频域边缘的最大值要比较小,这明显地揭示了意图其次要满足时域上的窗函数X轴跨度要比较小,使得时间窗的变化是平滑的变化并不会产生突变(杨茜雯,王家铭,2022)。因此综合几种窗函数,结合时域与频域来看,Hamming窗比较适合此语音处理过程。图3.SEQ图_3.\*ARABIC6加Hamming窗处理将上文分帧处理后的信号进行加窗处理。得到以上的加窗处理后的信号图。3.4端点检测语音经过以上的预加重、分帧加窗处理后即要进行端点检测。端点检测是说话人识别中的一个重要部分。端点检测的目的就是为了检测数分帧后的语音信号的开端与结束部分,依据此理论框架深入探究可得出使得语音在后期处理时处理的都是有用信号,而去除那些无用的信号。在语音识别过程中,端点检测可以大量减少数据的运行时间和运行的数据数量,能够有效提升后期语音处理信号的效率(陈慧君,张志杰,2020)。4特征参数的提取在语音信号中,包含有各式各样的特征参数,不同的特征参数代表着不同的数学意义。特征参数的选择对声纹识别的识别结果有重要的意义,特征参数的算法比较成熟或者特征参数的表现较为明显与识别效果将会有很大的提升。特征提取就是尽量去除或者削减语音信号中与识别无关的信息影响,减少后续识别阶段需要处理的数据,这在某种程度上标明生成表征语音信号中携带的说话人信息的特征参数(唐志豪,陈梓萱,2023)[4]。根据语音特征的不同用途,需要提取不同的特征参数,从而保证识别率。在声纹识别中的特征参数有多种,下面将介绍MFCC和GFCC两种特征参数的概念以及提取过程。于数据处理环节,已有研究的经历启示本文要加大对新兴分析工具与技术的应用力度。随着信息技术日新月异的发展,诸如大数据处理、机器学习算法等先进手段,正渐渐成为科学研究的重要构成要素。这些技术不仅能够协助本文更有效地处理大量数据,还能够发掘出传统办法难以探寻到的深层次信息和规律。故而,在后续研究当中,本文应主动探索如何将这些先进技术纳入本文的分析体系,以提高研究结果的准确性和深度。4.1特征参数选择声纹识别领域不断在发展,也不断在优化特征参数提取部分,通过查阅文献可以了解到,声纹识别技术发展早期,利用的是线性预测系数(LPC),1973年后LPC在原来的基础上加以改进发展为线性预测倒谱系数(LPCC)从而提升了声纹识别的准确度,吸纳已有成果可以推导出新的结论随后在1980年研究者提出了Mel倒谱系数(Mel-FrequencyCepstralCoefficients,MFCC)并成功应用到了说话人识别领域,并取得了较好的效果,自此特征参数MFCC被广泛应用在声纹识别中。MFCC的应用将说话人识别的技术推向了高潮,并成为特征参数的主流算法(龚启航,汪灵犀,2022)。之后人们基于LPCC和MFCC不断改进和开拓创新,又提出了伽玛通倒谱系数(GFCC)和幂归一化倒谱系数(PNCC)等特征参数,在应用到声纹识别系统中后,声纹识别系统的识别率得到了一定的提升,抗噪性能鲁棒性也得到了一定的优化。本文主要研究的是声纹识别系统的特征参数的提取的设计与选择。在选取特征参数过程中,选择的特征参数应该具备差异性、相对稳定性、简易型等特征,保证选择的参数的提取过程和算法不同提取方法比较简易并且在声纹识别过程中随着说话人年龄的增长,鉴于前面所展开的分析情况以及环境的改变参数提取能够保持相对的稳定性(李志明,赵雅琪,2020)。因此在特征参数提取部分将会选择较为经典的特征参数梅尔频率倒谱系数(MFCC)以及最近新型发展的特征参数伽玛通倒谱系数(GFCC)两种参数进行声纹识别系统的构建,并将两种特征参数识别过程以及最终声纹识别参数进行对比,研究在特征参数改变的情况下对声纹系统识别的结果有何影响。下面将逐次介绍Mel倒谱系数及Gammatone倒谱系数。4.2Mel倒谱系数(MFCC)4.2.1Mel倒谱系数概念MFCC(Mel-frequencycepstralcoefficients)梅尔倒谱系数。梅尔频率倒谱系数依据于人听到声音的原理而被设计的,系数仿照人的耳朵对不同频段的听觉不同,从上述分析来看出并且仿照人的耳朵对声音的处理系数算法进行相似的处理(任泽凯,吴雅琴,2023)。MFCC与频率成非线性对称关系,梅尔频率倒谱系数利用了这一层关系经过算法设计计算得到了Mel特征参数的特征,被广泛应用于语音处理或者图像处理当中。4.2.2Mel倒谱系数的提取在信号进行时域处理后,信号的前端处理部分即已经完成,下面Mel倒谱系数将通过以下几个步骤完成提取,流程图如下:图4.SEQ图_4.\*ARABIC1Mel倒谱系数特征提取流程图在原始语音信号经过上一章的预加重、分帧、加窗处理后,变为时域信号。将时域的信号进行补零操作变为产生长度为N序列,再利用快速傅里叶变换将时域信号转化为频谱信号。接下来将频谱信号通过Mel滤波器,这样频谱就转化为了Mel频谱,进行取对数操作后得到对数频谱。将对数频谱通过离散余弦变换(DCT)就可得到MFCC的参数(刘思远,周雅,2022)[11]。下面将对MFCC中间过程涉及到的算法以及步骤进行逐一讲解。(1)快速傅里叶变换(FFT)由于不同的信号有不同的特性,面对这种情况但信号处于时域上时其特性很难被观察出来,因此就要运用FFT,目的为了将时域信号转换为频域。对预处理后得到的每一小帧的语音都要做快速傅里叶变换处理,才能得到每一段小帧的时域到频域转换后的信号(陈靖萱,李泽宇,2021)。在理论框架的核实与优化过程中,本文汇聚了充足且准确的数据资料。这些数据所涉及的研究对象范畴宽广,时间跨度大,且包含多种社会背景情况,为理论框架的充分验证提供了稳固的基石。利用统计分析工具对量化数据进行深入处理,能够有效检验原理论框架中的各项假设,察觉其中的薄弱环节。后续研究将考虑增添更多变量因素,或选取更大规模的样本,以此进一步强化理论框架的解释能力与预测水平。离散傅里叶变换公式如下:X(4.1)其中Xn(2)梅尔滤波器由于人耳的对不同频率的敏感程度不同,而且呈非线性关系,因此我们将频谱按人耳敏感程度分为多个Mel滤波器组,在Mel范围刻度内,各个滤波器的中心频率是相等间隔的线性分布,在此类场景里但在频率范围不是等间隔的,这是由于频率与Mel频率转换的公式形成(邓慧君,徐博文,2022)。[5]Mel(4.2)Mel(f)为Mel频率,f为实际的频率,单位为Hz。将能量谱通过一组Mel尺度的三角形滤波器组,定义有M个滤波器的滤波器组,采用的滤波器为三角滤波器,中心频率为发f(m),中心频率之间的距离会随着滤波器个数增大而增大,这明显地揭示了意图随着滤波器个数的减小而减小(周嘉豪,张梓琳,2022)。如下图:图4.SEQ图_4.\*ARABIC2Mel频率滤波器组Mel滤波器的每个带通滤波器的传递函数如下:H(4.3)在式子中k为滤波器的输入频率,其中:m=0(4.4)(3)离散余弦变换通过FFT后我们将基带信息与声道信息变成了加性,下一步要分离我们就要用到离散余弦变换(DCT)。大多数的自然信号的能量在离散余弦变换后都会集中在低频部分,因此也在数据压缩中得到广泛应用。DCT是对实信号的一种变换,变换后在频域中得到的也是实信号,依据此理论框架深入探究可得出我们称之为“倒谱域”,倒谱域的低频部分包含了声道信息,而高频部分包含了基带语音信息(蒋文昊,高雅琳,2023)。离散余弦变换公式如下:C(4.5)s(m)为滤波器组输出对数能量;L为MFCC系数阶数,通常为12-16;M为三角滤波器的个数。(4)动态差分参数提取MFCC只表述了一帧语音上的谱的包络,但是由于语音信号中包含了一些动态上的信息,因此引入了一阶差分与二阶差分。MFCC在提取特征时使用的是三角波滤波器,而三角波滤波器对人耳朵的模型仿真效果较差。这在某种程度上标明因此比较安静的环境下MFCC的识别效果比较稳定,而当处于噪声比较大,识别环境比较差的情况下MFCC特征的识别效果就会收到噪声的影响出现识别率降低的结果,并且Mel频率倒谱系数在高频段的分辨率较低。下面介绍GFCC特征参数(王欣然,陈嘉悦,2020)。4.3Gammatone频率倒谱系数(GFCC)4.3.1Gammatone频率倒谱系数概念特征参数的选择不仅要观察说话人识别的识别率性能,更要有一定的抗干扰能力。众多的学者在特征参数抗噪声性能方面都做了相当多的研究并提出了基于各式滤波器的特征参数。吸纳已有成果可以推导出新的结论学者Johannesma在研究猫的听觉神经时提出了Gammatone函数波形,因为其在听觉方面取得的良好效果,因此后期被应用在声纹识别中,并得到了大幅度推广(王博文,陈玉洁,2023)。而GFCC就是基于Gammatone滤波器的特征参数,语音识别的原理即为根据人耳的模型设计进而得到滤波器后,提取有效的频率响应参数。Gammatone滤波器运用到了数字信号处理中的时域频域转换的方法。与MFCC特征参数对比,GFCC运用的Gammatone滤波器比MFCC所用滤波器的波峰会更加平缓,鉴于前面所展开的分析情况在识别效果上,GFCC的抗噪声性能会比较优异,有更高的鲁棒性(李婷婷,马德华,2020)。本文基于已有的理论体系搭建起此次的框架模型。在信息流的各个环节以及数据分析的方法选用上,均体现出对前人研究成果的尊重与沿用,同时也实现了创新发展。在信息流的设计方面,本文汲取经典信息处理理论的精华,确保信息从收集、传递到分析的整个过程,都能高效、准确地运行。通过严格把控数据来源,采用标准化的处理流程,切实保障了信息质量,进一步强化了对信息流透明度与可追溯性的关注。Gammatone滤波器组在实际上类似于一种短时的傅里叶变换,可以将时域的函数转换到频域中。并且Gammatone滤波器可以针对一种特定的频率进行语音的加强或者减弱,以此来得到与人耳朵拟合效果比较好的参数,起到对环境的降噪效果。GFCC的提取过程与Mel频率倒谱系数的提取过程相似,下面将介绍GFCC的提取过程。4.3.2Gammatone频率倒谱系数的提取在特征提取过程中特征参数GFCC与特征参数MFCC的区别主要为滤波器部分,Mel特征参数提取过程中使用的是Mel滤波器,从上述分析来看出而GFCC提取过程使用的是Gammatone滤波器。在Mel频率倒谱系数提取过程中,我们介绍了FFT以及DCT步骤,下面将重点说明MFCC与GFCC特征参数在滤波器部分的区别。以下为GFCC特征提取的框图,语音在经过预处理后进去GFCC的提取,首先经过快速傅里叶变换将时域信号转换为频域信号,下面通过Gammatone通滤波器,取对数处理后进如离散余弦变换处理,鉴于当下的具体情形最终得到GFCC的特征向量(程志豪,余梦琳,2017)。图4.SEQ图_4.\*ARABIC3GFCC特征参数提取过程图4.SEQ图_4.\*ARABIC4Gammatone幅频特性图在经过滤波器阶段,Gammatone滤波器的时域表达式如下:g(4.6)A为滤波器的增益;fi为滤波器的中心频率;U(t)为阶跃函数;φi为偏移相位;n为滤波器的阶数(宋明辉,魏丽敏,2017);N为滤波器数目;bi为滤波器衰减因子[6],衰减因子决定了滤波器对脉冲响应的速度,因此滤波器的带宽也是由bb(4.7)ERB(fi)为等效矩形带宽。等效矩形带宽指的是等一个矩形来描述滤波器,矩形的高度与滤波器的高度最大值相同,鉴于当前环境其谱功率与所要求解的滤波器也相同。因此所需求的滤波器均可以用矩形来表述,而矩形的BPF扩大倍数就是所需求的功率谱的最大值。ERB(ERB(4.8)图4.SEQ图_4.\*ARABIC5ERB等效矩形滤波器5特征参数在高斯混合模型的声纹识别5.1模型介绍及选择关于声纹识别在实质上就是模型的训练以及匹配问题,预处理的过程最终要归结到模型的匹配,即测试的参数与库中的模型参数进行对比问题。根据不同的模型,那么匹配的方式方法也将不同,不难推断得出则匹配的方式将决定识别效果的好坏。下面将简单介绍一下声纹识别发展过程中出现的集中模型,并做出选择(宋浩然,魏琪,2022):(1)矢量量化模型(VQ)把每个人的特定文本编程码本,识别使将测试的文本按照码本进行编码,以量化产生的失真度作为判决标准,具有识别精度高、判断速度快的特点。[2](2)动态时间规划模型(DTW)从算法上看DTW模型,就是将时间划度和长度测量相结合,用动态的规划,对比多个不同的模型,通过构建一个邻接矩阵,寻求最短路径总和(宋天俊,魏梦瑶,2022)。(3)隐马尔可夫模型(HMM)隐马尔可夫模型是结构最为简单的动态贝叶斯网络,是一种带有方向的结构图,在语音识别、自然语言处理等领域有广泛应用,HMM经常运用到数据中,通过学习将不同领域的名词名称识别出来。面对这种情况具有广泛的应用场景。当我们的问题为基于序列的例如时间序列、状态序列等问题时,就可以运用HMM算法进行解决。在数据解析阶段,本文采用了多种统计方法来验证数据的准确性,并识别出潜在的异常值。通过对数据分布特征的深入探究,本文有效地剔除了那些明显偏离常规的数据点,同时保留了具有代表性的样本信息。此外,本文还利用敏感性分析来评估不同参数变化对研究结论的影响力度,确保了最终结论的稳健性和普遍适用性。(4)高斯混合模型(GMM)高斯混合模型是一个参数概率密度函数,他是多个正态分布的函数进行系数相乘求和(系数和为1)。高斯混合模型可以使用迭代的EM算法或者最大后验概率法估计参数。高斯混合模型在生物统计系统中常被应用,最常见的为会话者识别。高斯混合模型具备有很好的数学性质以及良好的计算性能(张晨阳,王钰涵,2022)。在测试时,将要测试的语音模型与模拟库中的模型进行对比,在此类场景里求出与每个人相应的似然函数,似然函数值最大说话人为识别结果。GMM以其简单、灵活、有效以及较好的鲁棒性,迅速成了当时与文本无关的说话人识别中的主流技术,将说话人识别研究带入一个新的阶段。(5)人工神经网络(ANN)人工神经网络为仿生学概念,人们发现神经元之间可以互相协作完成信息的处理和传递,因此提出了人工神经网络的概念,这明显地揭示了意图便于进行信息的处理。ANN模型以其自主学习能力的强大和在处理信息方面优秀的鲁棒性而被应用到声纹识别领域(吴学翔,杨佳琪,2020)。(6)支持向量机(SVM)支持向量机是机器学习领域一种结合了很多方法的全新技术,这项技术的应用,使很多问题迎刃而解。支持向量机以分类的优势在模型中得到广泛应用。而近年来,SVM也成为了声纹识别领域的一个热点。本文的声纹识别系统模型匹配方面,在简易、灵活、有效的基础上要保持一个较好的鲁棒性,不必过于深度研究(王嘉琪,郑宇阳,2020)。因此在众多的模型中,本设计选择了GMM作为设计的声纹识别系统模型。在研究过程中对误差的控制,本文主要通过一系列严格的方法措施,来保障数据的精确性与结果的可靠性。认真制定了详细周全的研究方案,对可能导致误差的各种因素,如环境变量、人为操作差异、数据计算精度等,进行了全面的分析与评价。采取标准化的操作流程和技术手段,保证数据的一致性与可重复性。为进一步提高数据质量,还建立了双重数据录入与交叉验证机制,有效防止了因人为疏忽或输入错误造成的数据偏差。5.2高斯混合模型高斯混合模型(GaussianMixtureModel,GMM)是概率统计模型。分开来观察高斯混合模型,首先高斯分布为正态分布,依据此理论框架深入探究可得出正态分布在数学等专业领域是一种重要的基础,众多的随机变量组成的分布都可以由高斯分布来表示。混合代表着不同的函数图形都可以由多个高斯分布来拟合出。GMM模型是由单一高斯密度函数的一种扩展,由于高斯混合模型可以根据一定的系数加权拟合为不同的概率密度分布函数,因此GMM被广泛应用到声纹识别、图像处理等各种不同的领域中,并在不同的领域中发挥了重要的作用(刘雅文,冯子健,2022)。图5.SEQ图_5.\*ARABIC1高斯混合模型5.3基于高斯混合模型的声纹识别高斯混合模型即为多个高斯函数的混合,这在某种程度上标明则在通过M个高维的高斯混合分布加权叠加而成的公式如下:P(5.1)X为高维随机语音特征向量;biX是高维的高斯分布函数;wi为b可以把一个GMM模型简单记为(陈浩宇,邹诗琪,2022):λ=(M,(5.2)M为高阶混合模型的阶数;μ代表子高斯概率密度函数的均值;代表子概率密度函数的方差;w代表子高斯概率密度函数的加权系数,简单来讲可以由四个参数代表说话人模型。[7]模型参数的计算就运用到极大似然估计法与最大期望算法(王子和,邓瑞雪,2020)。6基于MATLAB环境下的仿真实验6.1声纹识别系统框架本设计采用的是MATLAB软件进行声纹识别系统的设计,所设计的完整的声纹识别系统中包括语音预处理、MFCC特征提取、GFCC特征提取,GMM模型训练、GMM模型说话人匹配。框图如下:图6.SEQ图_6.\*ARABIC1声纹识别框架6.2声纹识别过程及结果在设计的声纹识别系统中,所要设计的训练模式与识别模式为从导入的语音数据库中进行识别,主要的操作交互界面为所设计的GUI,设计GUI界面如下图所示:图6.SEQ图_6.\*ARABIC2GUI交互界面.在进行语音识别之前,我们首先准备的工作就是搜集语音数据库,以便对语音进行训练和匹配。为了保证声纹识别的实验准确性,语音数据库的搜集不仅局限于男性,同时应该搜集一定的女性语音,吸纳已有成果可以推导出新的结论并不局限与年龄,广泛收集各个年龄阶段的声纹,以保证实验结论的精准(龚文涛,贾志明,2023)。语音运行GUI界面,我们可以看到设计的交互界面,此时可以进行语音的训练,点击载入语音。图6.SEQ图_6.\*ARABIC3语音数据库可以打开语音数据库如上图所示,此时点击说话人训练数据导入训练的语音,将语音进行特征注册,输入注册语音的名称。此时可播放导入的语音,测试时是否为所导入的语音,如下图例所示,将语音命名为学号1700200711,可见下图:图6.SEQ图_6.\*ARABIC4特征注册点击特征注册按钮,鉴于前面所展开的分析情况出现提醒框,提示是否要注册为该名称(林晨曦,李梓涵,2021):图6.SEQ图_6.\*ARABIC5名称保存点击YES后声纹识别系统依次进行MFCC与GFCC的特征提取的算法技术,并将特征注册的名称存入系统中。图6.SEQ图_6.\*ARABIC6MFCC特征计算图6.SEQ图_6.\*ARABIC7GFCC特征计算等待特征参数计算完成后,此时导入的语音的声纹特征已被记录。如要进行识别步骤,则同时需要从语音数据库中导入所要识别语音,点击识别测试数据,导入识别语音(张文静,林雨婷,2024)。再次计算所要识别的语音特征与数据库中的模型进行匹配。图6.SEQ图_6.\*ARABIC8特征计算等待特征计算完毕后识别结果将展示在GUI界面上,识别结果即为特征注册时的语音数据。对已有的阶段性研究进行复盘,这对后续研究的开展有着重要的启示意义。在研究方法的考量上,本文能够发现众多可以优化升级的空间。之前的研究过程为本文提供了深刻的经验教训,让本文清晰地认识到哪些方法行之有效,哪些方法需要进一步改进或直接摒弃。以数据收集为例,本文要着重强调样本的多样性和代表性,保证所选取的样本能够如实呈现目标群体的总体特征。此外,针对不同的研究问题,巧妙地运用多种数据收集方式,能够显著提高数据的全面性与可信度。图6.SEQ图_6.\*ARABIC9识别结果如要利用特征参数GFCC进行识别,则要在选择使用的特征参数中选择GFCC。并再次进行特征参数的计算。图6.SEQ图_6.\*ARABIC10GFCC特征计算识别结果同样如图6.9所示,至此完成了语音声纹识别。6.3参数对比在进行语音识别后,可以在mat文件中观察到有关识别人的数据,以1700200711语音为例,从上述分析来看出当将说话人语音进行导入后将在mat文件中计算出特征参数,MFCC_feature.mat与GFCC_feature.mat文件,特征参数文件中可以看到包含如下的文件(雷晓兰,程志远,2024):在文件名为fea的文件中可以看到为两个8*12的矩阵和一个12*1的矩阵即为1700200711语音识别后得到的特征参数数据。根据所选语音库的语音识别,进行重复试验,首先针对同一个语音声纹,录入安静环境下的作者的语音,并计算声纹特征存入数据库。在此基础下,录入安静环境与噪声较为严重环境下的语音并做随机识别,做MFCC与GFCC各50次重复识别试验,在实验后统计后可以得到,鉴于当下的具体情形在安静环境下MFCC与GFCC特征参数识别率均比较高。本文提出的框架模型,其一个重要优势在于灵活性与可扩展性。由于不同研究背景以及需求的多样性,本文在设计模型时,努力让各组件保持模块化特点。这使得本文能够根据实际需求,灵活地调整或替换特定部分,同时保证整体架构的稳定性和有效性不受影响。这种设计理念,不仅提升了模型在实际应用中的实用性,还为后续研究者提供了一个开放性的平台,吸引他们在现有基础上进行二次开发,以实现更好的改进。而在噪声环境下的识别可以明显看出两者受到噪声环境影响均比较大,但是对比下MFCC出错次数比GFCC出错次数较多,因此可以看出GFCC相比于MFCC的抗噪声性能较强(侯俊豪,常泽楷,2021)。从识别速度上观察,可以明显观察出MFCC特征计算的速度比GFCC的计算速度要快,但是从识别的结果进行统计观察可以得到提取MFCC特征的识别率低于特征参数GFCC。同样的环境下进行试验,MFCC特征受噪声影响较大,相比下GFCC特征受到噪声的影响较小。7结论与展望7.1结论科学技术的发展,人们在各方面的需求也不断增加,人机交流逐渐迈进智能化,各方面的发展促使研究者们加强了语音识别技术的理解和认识,加快了语音识别技术的发展。为更深度理解语音识别技术,对应声纹识别发展的趋势,本文研究了MFCC与GFCC的特征参数,从特征参数提取的角度中重点研究了关于不同的特征参数的提取方法以及对声纹识别系统的不同方面的影响。首先重点讲解了声纹识别系统的发展背景以及声纹识别系统对比其他身份人识别的优势。然后对本文将要研究的声纹识别系统设计程序语言进行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论