




免费预览已结束,剩余10页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
环境声音识别方法的比较摘要:本论文结合环境声音的平稳/非平稳特征提取,对人工神经网络,学习向量量化和动态时间规划分类的方法进行综合比较研究。结果显示,应用梅尔频谱倒谱系数或动态时间规划连续小波变换方法,识别正确率可达70%。关键字:非语音识别;环境声音识别;音频信号处理;声信号处理;联合视频特征提取1、 引言本论文对语音识别与乐器识别的典型方法进行综合研究比较,并探讨这些方法的环境声信号识别中的适应性。结果表明,在传统的语音识别与乐器声识别中得到很好应用的技术,在环境声信号的识别中并不适合。而在环境声信号识别领域,公开发表的研究并不多。本实验中,动态时间规划的非平稳连续小波变换显示出最好的效果。在之前的工作中,本作者(Cowing和Sitte,2000,2001,2002a,b)对环境声信号识别中的平稳特征提取技术进行研究。虽然比较实验的结果很明显,但由于大多数环境声信号的固有非平稳特性,平稳特征提取技术在其中的应用不是很理想。然而,Orr et al.(2001)在语音识别中的新研究成果表明,非平稳(即时域)技术可用于声音研究且效果不错。因为,我们对该方法在环境声信号中的适应性进行试验。本文分析讨论了固定频率和非固定技术的特征提取技术在环境声音分类中的应用,并与一些常用的分类技术进行比较(语音识别与乐器识别中的传统技术)。本文为声信号处理领域,尤其是计算声音场景分析方面做出一定的贡献。环境声音识别系统的发展,又有助于声音理解智能机器的发展。其中,该技术最新的应用便是作为安全系统中的一个核心元素。在监视系统中,由于在声音监视中,不存在检测视线上的问题,一定程度上来说,这比只有视频的监视系统有优势。另外,声音系统可以与视频系统相结合,如用声强来触发摄像头采集数据。以下文章分为四部分,第二部分(即接下来的第一部分)讨论特征提取技术和分类技术的选择,尤其突出了可用于非语音识别的方法。第三部分阐述了这些技术的具体实施。第四部分对实验结果进行比较,估计了各种方法在监视系统中的适应性。最后,第五部分对全文进行总结,并展望了环境声音识别领域的未来研究发展情况。2、 声信号分析方法选择此部分分析了一系列方法对环境声音识别的适应性。声音识别(包括语音与非语音)包括特征提取与分类(运用人工智能技术)。特征提取指从声音中获取一系列该声音的特征特性,如高音调或低音调。分类则是对声音的识别,通过对已有声音样本进行特征训练,再将测试的声音与其比较。特征提取可被分为两大类:固定(频域)特征提取与非固定(时域)特征提取。固定特征提取包含了整个信号中详细的总体频率信息,而无法判别该频率发生在信号何处发生。相反地,非固定特征提取将信号在时域上分成各个小单元,可辨别各频率信号具体的位置,更有利于对信号的直接理解。2.1特征提取(固定)对于固定的特征提取而言,语音和乐器识别仅有几种不同类型的特征提取方法(每种方法有若干不同的差异)。首先,我们考虑8种流行的方法(其中有两种方法在乐器识别中广泛应用,而所有方法均可用于语音识别)作为非语音特征提取的备选方法。各方法如以下所列:频谱提取(乐器与语音)同态倒谱系数梅尔频率倒谱系数(乐器与语音)线性预测倒谱(以下简写为LPC)系数梅尔频率LPC系数巴尔克频率倒谱系数巴尔克频率LPC系数感知线性预测(PLP)特征需要指出的是,频谱提取的方法为固定技术,而其他运用倒谱系数的方法,由于将信号分成时间片,可被称为“伪平稳”技术。而每个时间片又将与其他时间片相结合,产生相关信息,因此这些方法不是真正的时域提取技术。基于LPC系数的方法以模拟人类声道的声码器为基础。而人的声道不能发出环境中的一些声音,所以这些方法不能突出声音中典型的唯一特征,因此不适合于非语音识别。根据Lilly(2000),梅尔频率滤波器和巴尔克频率滤波器的性质相似,因此两者的滤波效果相近。Gold et al.(2000)也提到,PLP和梅尔频率的两种方法技术相类似。基于以上的了解,我们选择较为流行的梅尔频率方法进行试验。2.2特征提取(非固定)已知大多数文献中,主要的时频方法有:短时傅立叶变换(STFT)快速(离散)小波变换(FWT)连续小波变换(CWT)WingnerVille分布(WVD)所有这些方法用不同的算法来产生一个信号的时域表示。例如,STFT在加若干个窗口的基础上,运用标准傅立叶变换;而基于小波技术的方法将母波应用于波的变换中,避免了STFT中存在的固有问题所带来的影响;WVD是一种双线性时域分布,并用一些先进的技术来解决难点。相比STFT,WVD有更好的解决方案,但产生一一些交叉干扰,且结果的粒度比小波技术粗糙。对于两种小波技术,FWT常用于信号的编码解码,而CWT常用于各种识别工作。FWT在语音声音编码中有广泛应用,并能成功适用于识别工作,所以可将其归于比较研究中。然而,Wigner-Ville分布早期的试验显示,变换得到的序列超出环境声音信号的典型长度5分钟。要实现实时监测系统,这种期限超出是不允许的。基于此,STFT,FWT,CWT三种方法将被用于对非语音信号分类的试验中。2.3分类特征提取以后,用分类技术对各种特征进行编排。测试样本的特征将与数据库中样本的特征进行比较。以下是常用的语音识别分类方法:动态时间规划(DTW)隐马尔可夫模型(HMM)学习向量量化(LVQ)自组织图(SOM)遍历隐马尔可夫人工神经网络(ANN)长期统计除了这些方法,我们又着重研究了三种常用于乐器实际录音的识别方法(不仅仅是单个音):最大似然估计(MLE)高斯混合模型(GMM)支持向量机(SVM)为了选择合适的方法,我们通过建立表格,对不同的特征提取与分类方法进行比较。由表格显示可知,一些技术方法,限于本身的一些特性,不适合于非语音识别。例如,由于环境声音中没有像语音中的清辅音,也没有特征的字母可以将其分成许多小块,所以利用了分字符特征的方法,便不适合于环境声音的鉴定。由于没有用于表示环境声音的字母,基于隐马尔可夫模型的方法不可在此处实现。但这并不意味着这些方法在未来不可实现,如果能找到一种方式,把环境声音分割成易于处理的小单元,这些方法或许还能适用,然这并未在本文的研究范围之内。SOM和LVQ是互补的两种方法。Kohonen在提出这两种方法时,便将其用于特定的应用中。对于分类,Kohonen提出将LVQ用于SOM之上,则LVQ方法主要在测试中应用。长期统计方法无法与非固定特征提取技术结合使用,所以此分类方法只能与其对应的特征提取方法相结合。用于乐器识别的所有方法都在非监督分类的情况下进行实验,为了提高效率,我们选择应用最广泛的高斯混合模型进行测试。3、 实验比较文章的本部分对各种方法进行实验与比较,包括实验设备的搭建,比较研究方法和具体的实验过程。所有的计算用Matlab6软件,在内存为528MB的41.6GHz的奔腾台式机上进行。3.1实验设备首先,声音的采集需要在安静的环境下进行。用双电容麦克风进行录音,最大采样频率为44100Hz,每个样本为16位,将采集到的声音存入索尼迷你光碟中。需要注意的是,索尼迷你光碟用的是有损AATRAC3压缩格式,但不能让有损压缩影响识别效果。实验对8种不同类型的声音进行采集,每种声音采集6个样本。表一中列出的8种类型的声音主要是监测系统中须监测的典型声音。表一:实验声音声音类型钥匙吵闹声近距离脚步声远距离脚步声树木摆动声硬币落地声落叶上的脚步声草地上脚步声玻璃打碎声实验应用Goldhor(1993)用到的折刀法。折刀法即用除了测试样本外的所有声音样本进行分类训练,然后将测试样本与分类得到的系统进行比较,将分类保存下来。为了消除最初权重的设置对分类结果的影响(如LVQ和ANN方法便存在这个问题),将设置5个不同的最初权重,分别进行训练。至少三次以上正确的训练才可判定分类的可靠性。此折刀法应用于8类声音中的每一个样本。3.2比较研究方法将用于比较研究的各种方法通过来两方式来测试对于非语音分类的适用性。首先,用这些方法对非语音信号及其数据参数进行测试,记录下测试的时间和最终的分类率。然后,将结果与该方法用于语音和乐器识别时的结果相比较,由此可对不同的方法进行比较,并估计在非语音应用中的效果。在一个识别系统中,特征提取与分类是不可或缺的两部分,每种特征提取方法需要与每种分类方法相结合进行实验,以获得最佳的组合方式。唯一例外的是长期统计方法,它可自己产生特征,而不需要特征提取。基于以上的讨论与第二部分中方法的选择,将一系列方法的实验总结于表二中。表二:特征提取方法与分类方法的结合长期统计频谱提取梅尔频率倒谱系数同态倒谱系数短时傅立叶变换快速小波变换连续小波变换学习向量量化人工神经网络动态时间规划高斯混合模型长期统计3.3特征提取方法固定比较中,我们测试了三种固定特征提取方法,以下讲具体说明。3.3.1频谱提取用快速傅立叶变换(FFT)对频谱进行提取,离散傅立叶(DFT)公式为:其中,是要检验的频率,j计算了信号中的所有样本,N是被测信号的长度。快速傅立叶变换的结果被窗口函数分成几个长度一定的序列段,每段序列的平均能量作为FFT变换产生的特征,并作为训练分类系统的输入。多次实验表明将频域信号分成256段的效果最佳。由于环境声音的频率范围比较宽(一般为0-20050Hz,几乎超出了人类的听觉范围),固选择FFT序列长度为44100,以在需要的频率范围内尽可能提高分辨率。3.3.2梅尔频率倒谱系数应用Interval研究公司的Malcolm Slaney开发的听觉工具箱实现MFCC算法。听觉工具箱在此领域内广泛应用,它通过三个步骤来实现MFCC算法。首先,通过汉明窗口将信号分成几部分(具体分成几部分取决于信号的系数,本实验中为13段)。汉明窗口函数公式为: (2)其中,N表示信号子序列的长度。接着,将每段子序列通过一系列梅尔频率滤波器,滤波器m通过频率对数映射得到:其中,f为原信号频率,通过每个滤波器分别可得到一个幅度值。最后,利用得到的幅度值,由一个倒谱系数式子(见下一个部分)来得到梅尔频率倒谱系数,作为信号特征向量中的特征值,有利于对网络的训练。尤其关键的是对向量中第一个向量值的处理,它包含整个信号的能量,对信号的振幅敏感。3.3.3同态倒谱系数对同态倒谱系数(HCC)的处理是基于听觉工具箱中的MFCC算法。通过除去MFCC中与梅尔频率滤波器的卷积得到HCC。实验中,先用汉明窗将信号分成子序列,再计算每段子序列的倒谱。倒谱即是对数幅度谱的傅立叶变换。倒谱系数计算公式为:其中,n是窗口的长度。将得到的前13个系数作为特征向量注释,以便利于网络的训练。对于MFCC,要除去向量的第一个量,以避免信号幅度带来的干扰。3.4特征提取方法非固定此部分将三种不同的特征提取方法进行了比较研究。在短时傅立叶变换法和连续小波变换法中,特征提取之后,用主要成分分析法(PCA)来降低维数,用自适应算法计算所需要的主成分最大个数(主要取决于每一维的能量和变量阈值)。对于此两种特征提取方法,取1%的阈值最为精确。在短时傅立叶变换法中,将矩阵从128*67(共8643个特征值)降到18*67(共1206个特征值)。在连续小波变换法中,矩阵从8820*55(共485100个特征值)到12*55(共660个特征值)。3.4.1短时傅立叶变换短时傅立叶变换运用Matlab中常规的FFT变换和矩形窗口。此方法可通过有条理地改变时域与频域上的样本数,对STFT进行更好的控制。先通过窗口函数将信号进行分割,再对每段子序列进行FFT变换。所实现的STFT变换公式为:其中,为频率,为信号长度,s(t)为信号,h(t)为窗口函数。此算法,结合一个窗口大小变量参数(以便对STFT的决议仅关注于时域或者频域),用Matlab进行实现。反复实验表明,样本频率缩放为100的效果最好。3.4.2快速小波变换快速小波变换用斯坦福大学的Matlab小波工具箱中的FWT_PO算法来实现。该算法具有周期性和正交性。正如所有的FWT算法,此算法用滤波器对信号进行卷积,并利用抽样公式:在信号的下半部分(或上半部分)重复采样公式,如:实验中所用到的滤波器选择Daubechies,可实现FWT后信号的完整重建。对于每一代的滤波器可设置一个瞬时变量,而这些系数的值对分类率的影响不大。由于FWT的基本特性,无须主要成分分析法来实现矩阵降维,因此FWT的结果可直接用于分类系统。3.4.3连续小波变换应用小波变换工具箱中的离散CWT算法实现连续小波变换。其中,为转换量,s为尺度,为Morlet母波,表达式为:其中a是调制参数,s为尺度。此母波曾被用于识别系统,且效果良好。3.5分类实验研究比较了四种分类计数,将在此部分中进行讨论。3.5.1学习向量量化应用Matlab神经网络工具箱中的内置的常规LVQ方法实现学习向量量化。初始化神经元为50个,学习率为0.05,此设置可使网络在50次迭代中收敛,得到最精确的分类率。3.5.2人工神经网络应用Matlab神经网络工具箱中的快速反向传播算法(BPA)来实现ANN,利用Levenberg-Marquardt的BP算子和tansig激活功能进行实验。初始化隐藏神经元为50个,学习率为0.05,平方误差总和限制为0.001,动量设为0.95,这样可使网络收敛于500次迭代。3.5.3动态时间规划应用听觉工具箱中的DTW功能实现动态时间规划。利用动态编程法使信号长度与相关信号长度对齐,通过在每个全局优化功能可能升级处采用连续优化策略,使全局错误最小化。假设中的设置保留足够的信息,以便在最后重建最小全局错误。可见,与经线性时间处理的信号相比,用DTW处理后的信号与原信号更接近。实验中,首先对每个信号进行特征提取,接着测试信号再与每个参考信号进行比较,记下两者间的误差。最小的误差则表明两类的距离最近。3.5.4长期统计长期统计应用了Matlab中的均值和协方差计算功能。计算每个参考信号的均值和协方差,写成矩阵形式。将测试信号的均值和协方差与该矩阵相比较,相关最近的便属于同一类。如果最接近的均值和协方差分别位于两个类中,测试被视为无结果。3.5.5 高斯混合模型应用Ian Nabney开发的Netlab工具箱实现高斯混合模型。用非监督学习方法获取聚类的中心和方差。在Netlab中,用k均值分类方法进行初始化,以期望最大化算法进行训练。用高斯混合模型对研究中的每个声音聚类进行训练,再求得各个模型对这些数据的可能性。由于每个类的优先级相同,对系统的测试便涉及到寻找一个能得到最大的类,其中为测试数据。4、 结果与讨论此部分对实验的结果进行阐述和比较分析,并讨论了各方法在环境声音识别系统中的应用合理性。所有的结果分别由各个特征提取方法得到,包含了所有声音的分类速率,且所有的样本采用半切法处理(见表3-7;图1-5)。表三:学习向量量化(LVQ)方法正确百分比FT50MFCC37.5HCC12.5STFT0FWT12.5CWT54表四:人工神经网络(ANN)方法正确百分比FT0MFCC4HCC0STFT0FWT0CWT41表五:动态时间规划方法正确百分比FT66MFCC70HCC29STFT58FWT12CWT70表六:长期统计方法正确百分比FT29功率FT29表七:高斯混合模型(GMM)方法正确百分比FT21MFCC46HCC12STFT46FWT25CWT21图一 环境声音识别中LVQ与各方法结合的比较图二 环境声音识别中ANN与各方法结合的比较图三 环境声音识别中DTW与各方法结合的比较图四 环境声音识别中长期统计与各方法结合的比较图五 环境声音识别中GMM与各方法结合的比较4.1语音与音乐的分类结果比较选择几种方法(LVQ,ANN,GMM)在语音识别和乐器识别中进行应用实验,来比较几种方法在不同方面应用的异同。4.1.1语音识别考虑到实验的完整性,将LVQ与ANN应用于语音与非语音系统的结果相比较。鉴于现在最流行于语音识别中的方法为HMM,且DTW的实验结果数据不好寻找,所以DTW数据不再列出。对于ANN方法,Castro和Perez(1993)等人的部分实验结果在图六中列出。这些结果采用独立词识别得到,分类误差较大,西班牙EE设置。Castro和Perez利用20个隐神经元,结合反向传播算法,采用多层感知器(MLP),对大量的输入数据进行2000次的迭代。表八的数据MLP估计误差的置信区间为95%。对于LVQ方法,Van de Wouver et al.(1996)的结果见图六,其中包括女性声音与男性声音,标准的LVQ实验结果与模糊逻辑LVQ。表9中可见,LVQ的识别效果较差。图六 语音识别结果比较表八 ANN应用于语音识别输入个数正确百分比55080.322083.7表九 LVQ应用于语音识别方法正确百分比(女性)正确百分比(男性)标准LVQ3629FILVQ6064与图1、图2的结果相比较,这些结果很是有趣。图1中,LVQ在语音中与CWT相结合时,效果最好,正确率为54%。而此处,LVQ在语音中的实验效果在6%到10%之间,即使应用了模糊逻辑。不应用模糊逻辑,LVQ在语音识别中正确率仅为18%,比非语音识别中的效果还低18%。对于ANN法应用中,语音识别的效果比非语音的好许多。对非语音识别,结合CWT特征提取方法,最好的结果是41%,而对语音识别,结果可达到83.7%。经研究,我们认为这是由于非语音数据的非线性可分性,下文中将有更具体的阐述。4.1.2乐器识别乐器识别中应用的技术方法,可能比语音识别更适合于环境声音识别。在此领域研究中,两项应用了高斯混合模型的研究特为突出。Marques和Moreno(1999)通过多种特征提取和分类方法的比较研究,发现梅尔频率倒谱系数特征提取与高斯混合模型或者支持向量机分类方法结合的效果最好。Martin(1999)表明Marques最初得到的专业录音的分类正确率为72%,非专业录音为45%。之后,剑桥大学研究实验室的进一步研究显示,采用混合数据,可得70%的分类正确率,若用单一数据源,则可达98%(见表11)。这表明要增强系统(包括语音)的鲁棒性,以解决训练/测试数据变换的问题。Brown利用倒谱系数提出了一种系统(Brown,1999)。该系统中,采用Q值倒谱系数与高斯混合模型分类方法结合。单独对双簧管和萨克斯管的声音样本进行识别时,系统的分类正确率为94%。然而,当在双簧管、萨克斯管、长笛和单簧管的音乐中识别时,分类正确率仅为84%(见表10)。将图7的数据与图5的数据相比较,可知GMM更适用于乐器识别。GMM在非语音应用中最好的效果为46%,而在乐器识别中可达94%。但在环境声音识别中,是对8类声音进行识别,而乐器识别系统仅对4种乐器进行识别,这对分类正确度有一定的影响。Brown也指出,随着聚类数的增加,分类正确率急剧下降。假使Brown在8种乐器声音上作测试,所得到的结果和环境声音相类似。表10 Q值倒谱/GMM应用于乐器识别的结果2种乐器4种乐器94%84%表11 MFCC/GMM应用于乐器识别的结果混合数据单一数据源70%98%图7 乐器识别系统中各方法的比较4.2结果讨论总结环境声音识别中各方法最理想的实验效果(见图8),我们发现令人惊奇的结果。虽然语音识别中ANN方法比LVQ效果好,在环境声音识别中效果却相反。我们认为原因在于实验中各种环境声音比较接近。研究证实,LVQ相比ANN的优势在于,LVQ更能适应各聚类接近的情况。例如,近距离的脚步声与远距离的脚步声,声音特性上相近,只是强度不同。LVQ便可识别,ANN却不能。进一步分析结果,发现ANN总是将近距离的脚步声识别为远距离的,反之亦如此。为进一步论述此结论,改变MSE的值(使训练时间加长),用ANN方法进行测试。结果见表12与图9。可见,MSE的改变不影响ANN方法的结果,表明ANN不适合于训练这些样本声音,可能由于这些样本声音是非线性可分的。基于傅立叶变换频谱提取的MFCC特征提取法的实验结果也很有趣。除了用DTW或者GMM进行分类的情况,傅立叶变换(FT)的效果比MFCC好。然而,在相同效果下,FT的训练时间是MFCC的10倍。图8 环境声音识别中不同最好效果的比较表12 环境声音识别中ANN进一步研究结果方法正确率(MSE-0.001)正确率(MSE-0.0001)FT00MFCC44图9 环境声音识别中改变MSE值,应用ANN的分类结果比较在LVQ和ANN的测试中,MFCC算法的正确率可接近37.5%,而FT算法的最好效果可达50%左右。DTW也产生令人吃惊的结果:此算法在与MFCC结合的测试中,和其与FT算法结合的测试差别不大,这与LVQ和ANN中的实验效果相反,而DTW的分类速率明显快于LVQ和ANN。此原因可能在于DTW依靠于一系列可参考模型,不需要任何训练。此方法的缺点在于空间的严重不足。与Lilly(2000)的实验结果相反,本试验结果在HCC与MFCC方法间有很大不同。而其他研究表明这两者的分类正确率相近,可见该方法需要改进。而MFCC一贯被更广泛的使用,且效果更佳,因此我们将继续沿用现有的方法。在时域方法中,结果显
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年潍坊滨海经济技术开发区公开招聘中学教师(12人)模拟试卷附答案详解(突破训练)
- 2025江苏南京市第一医院药学部静配中心岗位招聘2人模拟试卷及1套完整答案详解
- 2025辽宁能源控股集团所属阜矿集团招聘90人考前自测高频考点模拟试题及答案详解(全优)
- 2025年哈尔滨石化分公司春季高校毕业生招聘模拟试卷及答案详解(有一套)
- 2025内蒙古呼和浩特市新城区中医蒙医医院(新城区保合少镇卫生院)招聘1人考前自测高频考点模拟试题及一套答案详解
- 2025年德州宁津房开建设投资有限公司公开招聘工作人员拟聘用人员考前自测高频考点模拟试题及完整答案详解
- 2025年河北沧州海兴县公开招聘社区工作者27名模拟试卷含答案详解
- 2025福建福州市仓山区司法局一名编外人员情况模拟试卷及完整答案详解1套
- 2025国有四大银行远程银行中心诚聘客服代表招聘考前自测高频考点模拟试题及答案详解(夺冠系列)
- 2025年海西州行政执法机构面向社会公开招聘工作人员考前自测高频考点模拟试题附答案详解(完整版)
- 人教部编版六年级语文上册郝晓怡《盼》名师教学课件
- 【义乌小商品市场出口贸易的现状与对策探析8100字(论文)】
- 义务教育劳动课程标准2022年版考试题库及答案5
- 心速宁胶囊的抗心肌纤维化
- 沟通的艺术智慧树知到期末考试答案章节答案2024年湖南师范大学
- DB32-T 4757-2024 连栋塑料薄膜温室建造技术规范
- 实验室安全与防护智慧树知到期末考试答案2024年
- EPC工程总承包项目项目管理要点
- 智慧河道管理平台整体解决方案
- 水利机械电器检测培训课件
- 城轨专业职业生涯规划
评论
0/150
提交评论