基于语音信号时变特性的说话人辨认汉语语音字典

上传人：小*** IP属地：四川上传时间：2020-05-14 格式：DOC 页数：17 大小：24.69KB 积分：15 举报 版权申诉

已阅读5页，还剩12页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于语音信号时变特性的说话人辨认汉语语音字典摘要: 在平均Mel倒谱基础上提取随时间变化的特征频率,由此得到了由各个语音信号特征频率倒谱值序列构成的时间序列。运用时间序列预处理和数理统计的方法,分离时间序列的趋势量和波动量。波动量是零均值自协方差非平稳的时间序列,利用满阶时变参数自回归TVPAR(Time-Varying Parameter Autoregressive)模型对波动量序列进行分析,进一步提取说话人语音信号的特征参数。在波动量序列和用满阶TVPAR模型分析的基础上分别进行说话人识别。实验表明,用满阶TVPAR模型进行识别,识别率比波动量序列上的识别率有较大提高,一个特征频率上平均识别率达到99.68%,取两个特征频率时达到100%。关键词: 特征频率非平稳性 TVPAR模型马氏距离说话人识别 : :A:1007-9416(xx)01-0000-00 Speaker Identification on the base of time-varying characteristics of speech signal XU Liangjun,FEI Wanchun,ZHANG Weijie,LU Xingxing (College of Textile and Clothing Engineering, Soochow University, Suzhou, 215006, China) Abstract: Time-varying characteristic frequency was extracted from the average Mel cepstrum, and the cepstrum value series of characteristic frequency were gained. The deterministic and stochastic parts of the time series were separated by use of time series pretreatment and statistical methods. As zero mean autocovariance nonstationary time series, the stochastic parts were analyzed by the full order TVPAR(Time-Varying Parameter Autoregressive)model, and the characteristic parameters were extracted from speech signals of the speaker. Then the speech signals were recognized on the stochastic parts of the time series and analysis with the full order TVPAR model. The experimental results manifest that the recognition rate obtained by full order TVPAR model are higher than only on stochastic parts of the time series, with one or two characteristic frequencies, the average recognition rate reaches 99.68% and 100% respectively. Key words: characteristic frequency; nonstationarity; TVPAR model; Mahalanobis distance; speaker recognition 引言说话人识别的主要目的是从待识语音中寻找说话人信息并根据要求给以判定或分类。说话人确认和说话人辨认是说话人识别中的两大任务。判定待识语音是否是指定个体的语音称为说话人确认,判断出待识语音是语音模板中哪个说话人的语音称为说话人辨认。说话人识别的关键问题是,用语音信号的哪些特征描述说话人语音是最有效可靠的。近年来有许多这方面的研究,目前最常用的特征参数有基音周期、共振峰频率、谱相关特征、LPCC(线性预测倒谱系数)和MFCC(Mel频率倒谱系数)等等1,其中MFCC是一种比较常用且性能较好的特征参数。这是由于MFCC反映了人耳对频率高低的非线性感觉,和传统的线性预测倒谱系数LPCC相比,其识别性能和抗噪性能有着明显的优势2。而谱相关特征分析中,短时倒谱里同频率谱线随时间的相关性特征按说话人不同区别较大,已经得到把同一频率Mel倒谱值序列作为时间序列进行分析,取3个特征频率,平均识别率为97.94%3。本文在Mel短时倒谱的基础上进行谱相关性分析,分析语音信号时变的特性,获得了识别效果更好的特征参数。茧丝纤度序列中蕴含着有趣的统计数理问题4-5,在研究茧丝纤度序列时,得出了分析非平稳时间序列的时变参数自回归模型(TVPAR模型)理论6-7。本文把语音信号序列看作非平稳的时间序列,分析其时变特性,在Mel短时倒谱序列上寻找到特征频率倒谱值序列,并结合统计学方法建立不同时间特征频率倒谱值与Mel倒谱平均值之间的线性回归方程,提取特征频率倒谱值序列的趋势量和波动量。根据波动量的大小进行说话人辨认,再对波动量用TVPAR模型进行分析,进行说话人识别,并进行对比分析。 1 自协方差非平稳时间序列某随机过程经过若干次采样得到时间序列 , , ,其中为取样序列数,在统计意义上充分大, 的大小与实际的时间序列值的偏差有关, 为一正整数。在时间点的平均值可由下式得到: , 其自协方差可以由下式得到: , 其中。如果 ,则通常有 , 这种序列被定义为自协方差非平稳时间序列7。如果 ,则这种序列为零均值自协方差非平稳时间序列。 2 语音信号的时变特性语音信号是非平稳时间序列,它的重要特性是具有时变性,但是在1030ms时间范围内可近似看作平稳的,可以将语音信号分帧来处理。本文研究的是与文本有关的说话人识别,样本语音是/wei/(喂)。语音信号采样时,选用采样频率为11025Hz。分帧处理时,选帧长为23.2ms,帧移为5.8ms。经过采样和量化得到时域上的语音信号。在对语音信号分析和处理之前,需要对其进行预处理。语音信号的预处理一般包括预加重、分帧、加窗以及端点检测等。预加重的作用在于滤除低频干扰,便于频谱分析。在进行分帧处理时,窗函数选用汉宁窗,经过端点检测去除静音段,得到语音段信号。为了便于后面的谱相关特征分析,通过调整帧移,对同一说话人同一文本内容的若干个语音的分帧数进行归一化处理,使其统一成该说话人文本语音的平均分帧数。对语音段信号每一帧进行倒谱分析之后,可以将倒谱的实际频率变换到Mel频率,得到Mel频率短时倒谱。说话人每个语音都有Mel短时倒谱,其中, 表示该说话人语音在频率上第帧的倒谱值,对说话人若干个语音的Mel倒谱求平均,就得到平均的Mel短时倒谱。如图1所示为某说话人文本语音的平均Mel短时倒谱三维时序图。从图中可以看出语音信号同一个频率上的对数幅度随时间变化,Mel倒谱峰值对应频率也随时间变化,这些体现了语音信号典型的时变特性。本文为全文原貌未安装PDF浏览器用户请先下载安装原版全文 3 特征参数的提取 3.1 特征频率的提取为了建立时间序列,已有的方法是用各帧同一频率的Mel倒谱值建立时间序列3。本研究从语音信号的时变特性着手,考虑Mel倒谱峰值对应频率随时间变化,找出Mel倒谱峰值对应频率为特征频率。如图2为某说话人平均Mel倒谱上标出的,4个随时间变化的特征频率对应的倒谱峰值序列。把特征频率对应的Mel倒谱值序列看成非平稳时间序列。可以看出这4个倒谱峰值序列中,特征频率是随时间变化的,如图3所示。我们把它也看成是语音信号在短时Mel倒谱上的一个时变特性。 3.2 特征频率对应Mel倒谱值序列的选择说话人每个语音的特征频率都有对应的Mel倒谱值序列,把每个语音相同特征频率的倒谱值放在一起,组成Mel倒谱值序列8。图2对应的特征频率Mel倒谱值序列如图4所示。图4 特征频率Mel倒谱值序列我们认为特征频率随时间变化越大,则频率特征表述越好。本文把变化最大的频率作为特征频率。某说话人若干个相同语音的特征频率Mel倒谱值序列构成的时间序列如图5所示,设为 ( ),其中代表第个语音第帧特征频率Mel倒谱值: 图5 某说话人特征频率Mel倒谱值序列 3.3 特征频率Mel倒谱值序列的回归分析对于均值和自协方差皆非平稳的时间序列,其序列的均值与某时间的值之间,存在较好的相关性4。通过实验分析得知,第语音信号的Mel倒谱序列的均值与该语音某时间点某特征频率的倒谱值之间存在良好的相关性。设某特征频率Mel倒谱值序列每一列的特征频率倒谱值用列向量表示,说话人个语音Mel倒谱序列的均值用列向量表示为 ,可以建立趋势量与之间的线性回归方程。用矩阵形式表示为 ,其中 , , 。应用最小二乘法可以得到线性回归方程的参数和的估计值,则波动量序列为。如图6所示为图5中序列经过分离得到趋势量和波动量。计算波动量序列中各列向量的标准差为 ,将、与作为特征参数保存。图6 分离后图5所示序列的趋势分量和波动分量如图7所示为图6所示序列的自协方差三维图,其中 ,一般地,如果 ,则。从图中可以看出特征频率Mel倒谱值序列的自协方差随帧号的变化而变化,这是语音信号最重要的时变特性之一。 3.4 自协方差非平稳时间序列的模型分析 TVPAR模型首先是为了分析有限长度自协方差非平稳时间序列而提出的7,它有满阶、定阶、变阶之分,区别就在于模型系数的阶次6。特征频率Mel倒谱值序列的波动量是一个零均值的自协方差非平稳的时间序列,可以使用TVPAR模型进行分析。本文选用满阶TVPAR模型对波动量序列进一步分析,以便更好地提取特征参数。满阶TVPAR模型如式(1)所示: (1) 其中自回归系数和误差项的方差都随时间点变化,误差项是均值为零、方差有限的白噪声。将波动量序列代入满阶TVPAR模型,利用最小二乘法,使误差项方差最小的估计值,得到的自回归系数和误差项方差 ,保存为特征参数和。 4 基于语音信号时变特性的识别方法及算法本文提取特征频率随时间变化的Mel倒谱值序列,用Mel倒谱序列均值作为线性回归方程的自变量,分离出波动量序列,并采用满阶TVPAR模型对波动量序列进行分析,在波动量序列和满阶TVPAR模型分析的基础上分别进行说话人识别。 4.1 识别指标本文采用马氏距离作为识别指标9 (2) 用于对波动量序列进行识别。 (3) 用于对波动量序列在满阶TVPAR模型分析之后得到的误差项序列进行识别。 4.2 波动量基础上的说话人辨认由于不同说话人的平均帧数不同,所以特征频率Mel倒谱值序列的时间不同。设第个人的帧数为 , , ,则该说话人的特征频率为。为分离后波动量序列,它的标准差为 ,每个说话人都有线性回归系数、和标准差。不妨设第n个人的回归系数为、 ,标准差为。待识别语音分别代入以上所有的语音模板参数最后得到波动量序列 ,把它与代入马氏距离公式算得 ,距离最小的语音模板所对应的被判别为该语音的说话人。识别流程的基本结构如图8所示。图8 波动量上说话人识别流程 4.3 满阶TVPAR模型基础上的说话人辨认每个说话人都有自回归系数和误差项方差 ,用矩阵形式分别表示为、。不妨设第个人的模型系数和误差项方差分别为和 , ,将待识别语音的波动分量序列代对应模板语音的模型系数,求得误差项序列。同样以马氏距离作为识别指标,距离最小的判为该语音模板对应的说话人。如图9所示为满阶TVPAR模型基础上的识别流程。图9 满阶TVPAR模型上的说话人识别流程 5 识别结果与分析本实验自建简单语音库,采用Windows中的录音机录制语音,共6人,5男1女,每人语音数大于等于80,语音统一为/wei/(喂)。录音时要求说话人语气平和,语速均匀。本文采用的方法为,一次录制个语音/wei/(喂),轮流取出1个语音作为待识别语音,剩余的( )个语音用于建立语音模板和提取特征参数。语音模板的样本容量至少是79。不同语音模板样本数在一个特征频率上的识别率如表1所示。增加特征频率有助于提高识别率进一步得到了验证,表2为相同语音模板下的两个特征频率的识别率。设在只对波动量序列进行的识别为方法,用满阶TVPAR模型对波动量分析后进行的识别为方法。表1 不同样本容量的语音一个特征频率下的识别率 (%) 实验方法8085 9095 100 平均方法 81.97 87.2584.8184.74 85.6784.89 方法 99.801199.12 99.5099.68 表2 不同样本容量的语音两个特征频率下的识别率 (%) 实验方法80 85 90 95100 平均方法 97.1399.2299.44 98.7799.5098.81 方法11111 1 本文为全文原貌未安装PDF浏览器用户请先下载安装原版全文实验结果表明基于语音信号时变特性在波动量上进行的识别,识别率较特征频率不随时间变化的识别率要高3。而用满阶TVPAR模型对波动量分析后的识别率又有较大提高。选用一个特征频率,在满阶TVPAR模型基础上的识别率已经接近100%,两个特征频率都达到100%。我们也考察了说话人确认的拒识率问题。拒识率是指将同一说话人的语音认为是不同说话人的,而加以拒绝的出错率。由于同一语音到本人语音模型的距离一般小于到他人语音模型的距离,通过选择合适的阈值,可以得到比较正确的判断,但是,有极少数会出现拒识现象。本文语音模板采用6人,每人100语音,选择合适的阈值时,两个特征频率在满阶TVPAR模型基础上的拒识率为1.67%。通过增加特征频率,相信拒识率会进一步减小。所以应用时间序列分析的方法,利用满阶TVPAR模型对语音信号进行分析,为说话人的识别提供了新的思路,理论分析和实验结果表明,这种分析方法是可行的。 6 结语本文基于语音信号的时变特性,在Mel倒谱上提取随时间变化的特征频率,把各特征频率对应的Mel倒谱值作为时间序列。用Mel倒谱的平均值作为回归方程的自变量,提取特征频率Mel倒谱值序列的趋势量和波动量,对波动量序列进行识别。把波动量序列当作一个零均值自协方差非平稳的时间序列,使用满阶TVPAR模型对波动量序列进一步分析,对得到的误差项再进行说话人识别。用马氏距离作为识别指标进行识别,比较波动量序列和满阶TVPAR模型上的识别结果,两个特征频率上平均识别率分别为98.81%和100%。如何在不影响识别效果的前提下,适当减少特征参数,缩短识别时间,有待于进一步研究。 _ 1 胡航. 语音信号处理M.哈尔滨: 哈尔滨工业大学出版社,2000,178-180. 2 SHAO Yang, LIU Bingzhe, LI Zongge. A speaker recognition system using MFCC features and weighted vector quantization J. Computer Engineering and Applications, xx,

人人文库> 全部分类> 应用文书 > 年终总结

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于语音信号时变特性的说话人辨认汉语语音字典

文档简介

温馨提示

最新文档

评论

基于语音信号时变特性的说话人辨认 汉语语音字典

文档简介

温馨提示

最新文档

评论

相关文档

基于语音信号时变特性的说话人辨认汉语语音字典