




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第9期 康广玉 等:基于子带能量的GMM含噪语音分类算法 1623基于子带能量的GMM含噪语音分类算法康广玉1,郭世泽2,孙圣和1(1哈尔滨工业大学自动化测试与控制系哈尔滨150001;2总参54所北京100001)摘要:语音分类是语音信号处理的重要组成部分。准确快速地对语音进行分类在语音编码、语音合成中有着重要的意义。针对当前一些常用分类特征和分类算法的不足,本文提出一种利用语音的Mel频率子带能量作为分类特征,建立高斯混合模型(GMM),运用最大后验概率准则对清音、浊辅音、元音分类的算法。仿真实验表明,在噪音环境下该算法仍可准确进行语音信号分类。关键词:语音分类;能量分布;高斯混合模型;最大后验概率中图分类号:TP1923文献标识码:A国家标准学科分类代码:510.4040Band energy based GMM speech with noise classification algorithmKang Guangyu1, Guo Shize2, Sun Shenghe1(1 Department of Automatic Test and Control, Harbin Institute of Technology, Harbin 150001, China;2 No. 54 Institute from Headquarters of the General Staff, Beijing 100001, China )Abstract:Speech classification is an important research topic in speech signal processing area. Rapid and precise speech classification is meaningful for speech coding and speech synthesis. Aiming at the deficiency of currently available classification features and classification algorithms, this paper proposes a novel algorithm through using the energy distribution within each frequency band in Mel-frequency scale as the classification feature and creating Gaussian mixture model and classifying the speech signal into voiced consonant, vowel and voiceless parts with the maximum a posterior probability. Simulation shows that the proposed algorithm is able to provide accurate classification result even in noisy environment.Key words:speech classification; energy distribution; Gaussian mixture model; maximum a posterior probability第9期 康广玉 等:基于子带能量的GMM含噪语音分类算法 19511引言语音分类是将语音按其声门激励形式的不同分为浊音和清音,浊音又分为元音和浊辅音,语音分类事语音信号处理中的重要组成部分。在语音编码中可以根据这几类信号的不同特点,采用不同的处理方式以提高效率和节省资源;语音合成中也要进行语音分类,以提高合成语音的自然度。由于这几类信号的许多特征参数的动态取值范围在各类之间通常都是交叠的(例如,短时能量参数和过零率参数),故不可能通过提取某一特征参数将其线性分开,尤其是参数在受到噪音干扰的情况下就更难以区分。传统方法是通过提取某些特征参数,然后进行线性的处理和预定阈值来进行判断,阈值一般是靠人工经验来确定,方法简单,容易实现,但无法保证可靠精确的判断结果1。还有许多学者提出了一些应用不同特征参数和神经网络结构的分类方法2-3。但传统的人工神经网络(如BP网络)方法在网络训练和网络设计上存在着训练速度慢、易陷入局部极小点和网络学习的推广性能差等缺陷,且这种非线性方法在网络结构的选择和权重的初值设定方面仍需依靠使用者的工程经验,缺乏统一的数学理论基础。随着一种新的模式识别方法支持向量机的出现,一些学者将其引入语音分类工作中来,文献4将两个二分类支持向量机进行组合来实现语音信号分类。但算法复杂,而且也没有对浊音信号进一步分类。收稿日期:2008-09Received Date:2008-09高斯混合模型(gaussian mixture model,GMM)是一个多变量概率密度函数(PDF)模型,其核心思想是用多个高斯分布的概率密度函数组合来描述特征矢量空间分布状况,该概率密度函数的个数称为高斯模型的阶数。高斯混合模型是近年来模式识别算法的研究热点,在语音信号处理领域得到广泛的应用,取得了良好的效果5。文献6采用高斯混合模型,提取Mel倒谱系数(mel frequency cepstral coefficient,MFCC)对语音信号进行浊音、清音分类,取得了较好的效果。根据2003年美国国家标准技术研究所(NIST)进行的自动语言辨识评估结果表明,在目前现有的语言辨识系统中,基于高斯混合模型的系统具有最好的语言辨识性能7。文献6采用MFCC作为特征矢量,MFCC分析是同态解卷积处理方法,它反映了语音信号的声道冲激响应;但语音信号不仅和声道冲激响应相关,而且与声门激励相关,只用MFCC作为语音信号分类的特征矢量是不充分的。人是通过对语音信号的能量、频率和时间来感知语音信号的8,其中和语音信号类型相关的是能量和频率,因此本文利用人的听觉系统对频率的感知具有非线性的特点,来计算语音信号在频谱各子带上能量分布的比例,并将这个比例作为特征矢量来建立高斯混合模型。通过计算语音信号对应高斯混合模型的最大后验概率(maximum a posterior,MAP),对语音信号进行分类;并进一步将浊音信号分类为元音和浊辅音。实验证明,该方法可在信噪比低的环境中实现较精确的分类。 2算法描述基于GMM的语音类型分类系统原理如图1所示。图1基于GMM的语音类型分类系统原理Fig.1 The principle of speech classification systembased on GMM2.1提取语音信号特征参数语音的产生由两个部分构成,声门激励和声道冲激响应。语音按其声门激励形式的不同分为浊音和清音,浊音又分为元音和浊辅音。发浊音时声带振动,声门激励频率约为100500 Hz,发清音时声带不振动,声门激励为近似高斯分布的噪声;声道冲激响应对声门激励信号进行处理,对某些频带声门激励信号能量进行加强或衰减,表现出共振峰特性。人在发不同的语音时共振峰的位置和带宽是不同的,不同人发相同语音共振峰位置和带宽是相近的8,即相同语音在各个频带能能量分布是近似的。统计分析表明浊音和清音信号具有不同的频谱特征,其中浊音信号存在明显的共振峰结构,在整个频带范围内功率谱起伏大,能量主要分布在几个共振峰区域。同属于浊音的浊辅音和元音的声门激励相似,发音时声带都振动,但元音和浊辅音的声道冲激响应不同,因此,它们的能量分布也不相同。清音的情况要复杂的多,它们的频谱共振峰受发音方式的影响,能量分布在一个比较宽的范围内,形成一定的能量集中区,而不像浊音信号那样具有明显的共振峰结构。因为人耳所感知的声音高低与声音的频率并不成线性关系,所以在科学研究中经常采用Mel频率尺度来处理,因为Mel频率尺度更符合人耳的听觉特性9。本文按照Mel频率尺度划分频带,计算带内归一化能量,并将其作为特征矢量来对语音进行分类。Mel频率与实际频率的关系可用式(1)表示。 (1)语音信号的频谱是非平坦的,且对人耳听觉的贡献也不均匀,语音信号中不同频率段能量分布反映各类语音特征8。通过对不同Mel子带中的能量分布特征进行分析,可对语音信号进行分类。为此本文提出Mel频率子带归一化能量(mel frequency subband energy,MFSE)。MFSE的提取方法如图2所示。图2MFSE的计算框图Fig.2 The block diagram of MFSE calculation提取MFSE的步骤为:对语音信号进行加窗、预加重处理;将语音信号进行短时傅里叶变换得到其频谱;求语音信号能量谱,并用一组三角形滤波器在频域对能量谱进行带通滤波。这组带通滤波器的中心频率是按Mel频率刻度均匀排列的,每个滤波器的下限、上限频率分别等于相邻的两个滤波器的中心频率;将滤波器组的输出归一化,即可得Mel子带归一化能量。2.2建立高斯混合模型语音信号特征矢量样本在概率空间的分布状况可用GMM表示,一个具有M个阶数的多维矢量的GMM,可以表示为: (2) (3)式中:xt为多维特征矢量;i为混合权重,且满足;pi(xt,i=1,2,M)表示GMM模型的第i个高斯成分的概率密度函数;i为高斯分量的均值矢量;为高斯分量的协方差矩阵。整个高斯混合模型(GMM)由各混合分量的均值矢量、协方差矩阵以及混合权重来描述,用来表示该模型,有:。2.3确定GMM模型参数GMM模型参数的训练采用最大似然(maximum likelihood,ML)估计的方法。训练的目的是找到一组模型参数,使得:本文中GMM参数是通过期望最大化(expectation maximization,EM)算法的迭代计算进行的6,该算法有两个主要步骤:期望E步和最大化M步。E步利用当前的参数集计算完整数据的似然度函数的期望值,M步通过最大化期望函数获取新的参数,E步和M步一直迭代直至收敛。为了说明EM算法,首先定义Q函数: (4)式中:i为高斯分量序号,为已有的模型参数;为待计算的新参数。定义了上述Q函数以后,EM算法可以简单描述如下:1)E步:求训练数据xt落在第i个高斯模型的后验概率为p(i|xi,):X为所有的多维特征矢量。2)M步:最大化Q函数,求Q(,)相对于i,i,i = 1,2,M的偏导数为0时的参数值,有: (5) (6) (7)确定初始值,本文采用聚类方法将特征矢量用K-均值进行聚类,分别确定各个类的协方差和均值,并以此作为初始矩阵协方差和均值,权值是各类包含的特征矢量的个数占总特征失量的百分比。考虑到语音的特征矢量样本总是有限的,训练过程中,GMM的协方差矩阵的一些分量可能会很小,而这些模型参数对似然函数的影响较大,有可能严重影响系统的性能,所以在算法迭代计算中,对协方差的取值通常设置一个门限,即训练过程中若协方差的值小于设定的门限值,则用门限值来代替。2.4噪声环境下的特征提取含有噪声的语音信号,在提取特征时要考虑噪声的影响,若环境噪声属于加性噪声,含噪语音信号的FFT为: (8)式中:S(n)为语音信号,N(n)为噪声信号。假设噪声信号是短时不变的,计算出静音时噪声的MFSE,在实际语音信号的MFSE中减去静音时噪声的MFSE即可求出纯语音信号的MFSE,以此来消除噪声的影响。汉语语速一般是150300字/分钟,新闻联播播音员的语速是200字/分钟左右,每个字前后都有静音,照此计算,静音和语音所占的时间是非常短暂的,所以我们用静音时噪声的MFSE去估计含噪语音信号的噪声干扰是可行的。静音的提取采用端点检测的方法10,流程图如图3所示。图3噪声环境下算法流程图Fig.3 The flowchart of the proposed algorithmunder noisy environment具体计算步骤是:提取每个字前面的静音,计算出MFSE参数;通过静音的MFSE参数,对含噪语音信号的MFSE第9期 康广玉 等:基于子带能量的GMM含噪语音分类算法 1953参数进行修正;将修正后的参数送入高斯混合模型,计算后验概率,进行分类。2.5GMM识别算法在识别时,目的是找到一种语音模型i使得特征矢量x具有最大后验概率p(i|x)。根据Bayes理论,最大后验概率表示为: (9)式中:N表示语音类别数。假设每种语音出现的先验概率p(i)相等,p(x)对每种语音都是相同的,因此上式可以简化为: (10)3实验结果及分析3.1实验样本的选择实验中所用的说话人语音样本均使用Sennheisere828s传声器和Aureon 7.1 Space专业数字音频卡采集,其采样频率为PCM 22.05 kHz,16Bit量化。录音在普通实验室安静环境下进行,语音信号按照每帧512点进行分帧,帧交叠30%,频域加Hamming窗:影响语音子带能量分布的因素很多,包括话者的年龄、情绪、身体状况、所使用的方言等。本文的实验样本选择了男女各5名年龄2224岁身体健康的大学生进行实验,录制了他们在平静时汉语普通话,发音约10 min,包含汉语所有的音素,包括10个汉语元音和22个汉语辅音,汉语拼音的所有声母和韵母都由这些音素构成11。语音的分类是人工通过其时域波形特性、频域频谱特性综合判断的。提取样本总数为7 500帧,浊辅音、元音、清音各占1/3。3.2确定模型阶数确定语音模型需要的混合模型阶数M是重要的,但不困难。没有公认的方法来事先估计混合模型阶数。下面的实验进行测试不同模型阶次的GMM语音分类识别系统性能。为了研究GMM语音分类性能与阶数M的关系,训练具有1,2,4,8,16,24,32阶的GMM。训练样本为浊辅音、元音、清音各1 500帧,测试样本为浊辅音、元音、清音各1 000帧,图4为模型阶数和正确率、训练时间的关系。当模型阶数为16阶时,分类正确率达到96.8%,继续增加模型阶数,正确率增长很小,但模型训练时间增加较大,通过对分类速度和准确率进行综合考虑,在本分类方法中采用16阶高斯混合模型。图4模型阶数和正确率、训练时间的关系Fig.4 The relationship of the order of the model vs.the accuracy and training time3.3分类性能比较取浊辅音、元音、清音各1 500帧对两种分类算法分别进行训练,对于GMM-MFCC分类算法,提取24维MFCC特征矢量;对于GMM-MFSE分类算法,提取24维MFSE特征矢量,进行高斯混合模型训练,浊辅音、元音、清音各1 000帧分别用两种算法进行分类测试,按最大后验概率原则进行分类,结果如表1所示。表1不同分类方法识别正确率Table 1 The identification accuracy of differentclassification methods元音判决正确率(%)浊辅音判决正确率(%)清音判决正确率(%)GMM-MFCC94.692.594.2GMM-MFSE96.894.596.4实验证明只采用MFCC,导致语音特征矢量信息缺失,造成分类正确率下降。MFSE参数包含了和语音信号相关的全部信息,因而有较高的分类正确率。3.4含噪声的语音信号判决实验实验噪声数据均来自NOISEX-92噪声库,根据不同信噪比调整幅度与原始语音进行加性混合,得到在各种噪声环境下不同信噪比的语音信号,进行语音分类抗噪声实验。3.4.1加入白噪声的语音信号判决实验白噪声,是指噪声的功率谱密度函数是常数的一类噪声。按图3所示,对MFSE参数进行修正,将含白噪声的浊辅音、元音、清音各1 000帧分别用两种算法进行分类测试,送入高斯混合模型进行判决,结果如表2所示。表2加入白噪声的语音信号判决实验Table 2 The decision experiments of speechsignal added white noise分类方法噪声能量(dB)元音判别正确率()浊辅音判别正确率()清音判别正确率()GMM-MFCC3092.589.190.62087.685.386.21080.579.180.6572.671.371.2067.665.366.23093.790.792.9GMM-MFSE2089.587.488.61084.583.185.6581.680.381.2077.675.376.23.4.2加入汽车噪声的语音信号判决实验汽车噪声采集自雨天以120 km/h速度行驶的volvo汽车内。能量主要集中在01 kHz。按图3所示,对MFSE参数进行修正,将浊辅音、元音、清音各1 000帧分别用两种算法进行分类测试,送入高斯混合模型进行判决,结果如表3所示。表3加入汽车噪声的语音信号判决实验Table 3 The decision experiments of speechsignal added automobile noise分类方法噪声能量(dB)元音判别正确率()浊辅音判别正确率()清音判别正确率()GMM-MFCC3092.389.290.52087.485.486.31082.579.180.6577.675.376.2068.367.366.73093.890.893.0GMM-MFSE2089.887.388.51085.283.684.6582.4815.380.2077.574.376.63.4.3加入嘈杂人声的语音信号判决实验嘈杂人声是100人在酒会上的混杂谈话,能量主要集中在04 kHz,这种噪声和语音信号的能量分布近似。按图3所示,对MFSE参数进行修正,将浊辅音、元音、清音各1 000帧分别用两种算法进行分类测试,送入高斯混合模型进行判决,结果如表4所示。表4加入嘈杂人声的语音信号判决实验Table 4 The decision experiments of speech signal added crowd noise分类方法噪声能量(dB)元音判别正确率()浊辅音判别正确率()清音判别正确率()GMM-MFCC3090.388.789.32085.884.685.01081.579.180.6575.472.374.2062.658.360.23092.690.791.8GMM-MFSE2087.386.386.91082.580.181.6577.374.376.2071.868.370.2从实验数据结果可以看出,在噪声环境下本算法的分类正确率高于GMM-MFCC分类算法,验证了本算法的噪声鲁棒性。4结论本文提出了一种基于高斯混合模型的语音分类算法,利用清音、浊辅音、元音在Mel频率子带上能量分布的差异,提取MFSE特征参数。使用高斯混合模型描述特征参数分布,运用最大后验概率准则对语音信号进行分类。在本算法中,高斯混合模型刻划了语音信号的能谱特征,能谱特征包含了和语音类型相关的所有信息,因此比采用MFCC方法具有更好的分类效果。本文中将GMM-MFSE与GMM-MFCC的分类效果进行了对比,实验数据表明,在安静环境下GMM-MFSE有较高的正确分辨率;在其他噪声的环境下,通过对特征提取算法进行修正,本文所提出的GMM-MFSE算法也具有较高的噪声鲁棒性。参考文献1 ATAL B, RABINER L. A pattern recognition approach to voiced-unvoiced-silence classification with applications to speech recognitionJ. IEEE Transactions on A coustic, Speech and Signal Processing, 1976,24(3):201-212.2 QI Y, HUNT B R. Voiced-unvoiced-silence classification of speech using hybrid features and a network classifierJ. IEEE Transactions on Speech and Audio Proc-第9期 康广玉 等:基于子带能量的GMM含噪语音分类算法 1955essing, 1993,1(2):250-255.3 AHN R, HOLMES W H. Voiced/ unvoiced/ silence classification of speech using 2-Stage neural networks with delayed decision inputA. B Boashash, et al. Proc ISSPA96C. B risbane, Australia: Queensland University of Technology, 1996:389-390.4 齐峰岩,鲍长春. 一种基于支持向量机的含噪语音的清/浊/静音分类的新方法J. 电子学报, 2006,4(34),605-611.QI F Y, BAO CH CH. A method for voiced/ unvoiced/ silence classification of speech with noise using SVMJ. Acta Electronica Sinica, 2006,34(4):605-611. 5 REYNOLDS D, ROSE R C. Robust text-independent speaker identification using gaussian mixture speaker modelsJ. IEEE Transactions on Speech and Audio Processing January, 1995,3(1):72-83.6 SHAH J K, IYER A N, BRETT Y. Robust voiced/ unvoiced classification using novel features and gaussian mixtureJ. Model IEEE International Conference on Acoustics, Speech, & Signal Processing (ICASSP), Montreal, Canada, 2004:17-21.7 ALUIN F M, PRZYBOCKI M A. NIST 2003 language recognition evaluationC. Proc. Eurospeech 03, September 2003:1341-1344.8 吴宗济,林茂灿. 实验语言学概要M. 北京:高等教育出版社, 1989.W
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- it故障管理制度
- yy工会管理制度
- 上班服饰管理制度
- 不同网点管理制度
- 专人专责管理制度
- 专科人员管理制度
- 专车服务管理制度
- 世华地产管理制度
- 业务工单管理制度
- 业务票据管理制度
- 上海市嘉定区2023-2024学年三年级下学期期末数学试卷
- DL-T5181-2017水电水利工程锚喷支护施工规范
- 走近核科学技术智慧树知到期末考试答案2024年
- 西铁城操作说明书
- 福建省泉州市晋江市2024年中考生物模试卷含解析
- 智能建造理论与实践 课件全套 第1-6章 智能建造概述- 智慧城市
- 年产10万吨12度葡萄酒工厂设计说明书样本
- 视频监控系统验收测试报告
- 金属表面处理的安全与环保要求
- 新生儿二便的观察课件
- 四川省普通高中2024届高三上学期学业水平考试数学试题(解析版)
评论
0/150
提交评论