




已阅读5页,还剩47页未读, 继续免费阅读
(模式识别与智能系统专业论文)基于动态mfcc的说话人识别研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
董志峰中国科学技术大学硕士学位论文 致谢 首先,我要感谢我的导师,汪增福教授他活跃的学术思想,开拓的思路,循 循善诱的教导,敏锐的洞察力,深厚的理论功底和严谨的逻辑思维都使我受益 匪浅。生活上,他平易近人,令我倍感亲切。在视听觉信息处理和模式识别实验 室三年学习工作的时间里,汪老师的教导和关怀是我不断前进的保障,在此我 向他致以衷心的感谢。 感谢4 1 5 实验室的郑志刚老师,范斌,文沁,王龚,胡元奎同学。感谢他们在研 究工作中对我的帮助,同他们的合作是愉快的和令人难忘的,感谢其他所有实验 室成员,同他们在一起让我感到快乐。 感谢9 6 1 0 班的全体同学,感谢他们在八年中给予我的关心,帮助和爱护,使我 度过了一个充实进取的大学生活。 最后,感谢我的家人,他们对我的关怀和爱,是我前进的动力。 董志峰 中国秘学技术大学硕士学位论文 摘要 本文是作者于攻读硕士学位期间在说话人识别方面所做研究工作的总结。 说话人识别是通过对说话人的语音进行分析,从而对说话人身份做出正确识 别、判断的一个研究方向。说话人识别系统一般由特征提取和模式分类两个主要 部分组成。其中,从语音信号中提取出表征说话人身份的语音特征一直是说话人 识别的关键和难点。 在实际应用中,一般多选取m f c c ( m e lf r e q u e n c yc e p s t r a lc o e f f i c i e n t s ) 作为 表征说话人身份的语音特征,其原因是由于m f c c 从人耳对频率高低的非线性 心理感觉角度反映了语音短时幅度谱的特征。但是,在传统的基于m f c c 的特 征抽取算法设计中,构成m e l 滤波器的三角滤波器组所包含的三角滤波器的个 数以及各三角滤波器的中心频率是固定不变的。这种设计方法没有充分考虑到语 音信号的时变特性,不能有效地根据计算得到的m f c c 在不同说话人之间进行 区分。此外,基音频率也可以作为系统进行说话人识别时的特征来使用,它表征 了说话人发浊音时声带振动产生的周期性,可以较好地刻画出不同人各自的声带 特性。 为了有效地抽取表征说话人身份的语音特征,本文根据m f c c 和基音频率 各自从不同的侧面反映了说话人身份的特点,提出一种基于基音频率的动态 m f c c 特征提取方法。该算法根据说话人的基音频率随语境变化的特点,以及人 耳对基音频率变化的敏感感知,通过检测说话人语音中基音频率的变化,动态地 构建基于说话人基音频率的m e l 一滤波器组,以抽取可以表征说话人身份特征随 时间、语境等因素动态变化的m f c c 参数,提高说话人辨识的准确性和鲁棒性。 本文还讨论了基于高斯混合模型( g m m ,g a u s s i a nm i x t u r em o d e l ) 的分类 器设计问题。高斯混合模型是说话人识别系统中常用的一种分类模型。一般情况 下,用g m m 进行统计建模的优劣不仅取决于其参数值,还与模型结构密切相关。 2 董志峰中国科学技术大学硕士学位论文 特别地,当训练的数据较少时,g m m 模型结构的选择变得非常关键。而在实际系 统中,可获得的语音数据是有限的,使用预先确定的统一结构会使部分g i “m i 缺乏 合适的结构及相应的参数,导致系统的辨识性能下降。针对上述问题,本文提出 在作期望最大化估计前,通过对不同说话人的训练用特征矢量进行聚类分析,以 解决有限训练数据情况下说话人g m m 模型混合度选择、估计参数初始值选定等问 题,获得有效的g 删模型。 实验结果表明,论文中所提出的方法在实际中能够获得很好的识别性能。和 基于传统的固定m f c c 特征设计的说话人识别系统相比,基于说话人动态m f c c 特征设计的说话人识别系统的性能有较大提高,尤其是它对嗓音的鲁棒性有明显 的改进。此外,相关实验也验证了本文所提出的运用聚类分析确定g m m 分类器 最佳混合度方法的有效性。 关键词:说话人识别;m e l - 频率倒谱系数:基音检测;高斯混合模型 董志峰中国科学技术大学硕士学位论文 a b s t r a c t t h i st h e s i si n c l u d e s 山em a i nr e s e a r c hw o r ko ft h ea u t h o rf o rh i sm a s t e ro f e n g i n e e r i n gd e g r e e s p e a k e rr e c o g n i t i o n s p e a k e rr e c o g n i t i o ni s ar e s e a r c hf i e l do fr e c o g n i z i n gt h es p e a k e r si d e n t i t yo nt h e b a s i so fi n d i v i d u a li n f o r m a t i o ni n c l u d e di nt h es p e e c h s i g n a l s as p e a k e rr e c o g n i t i o n s y s t e mg e n e r a l l yi n c l u d e st w o m a i n p a r t s :f e a t u r ee x t r a c t i o na n ds p e a k e r c l a s s i f i c a t i o n , h o wt os e l e c tt h ep r o p e ra c o u s t i cf e a t u r e so fas p e a k e ri so n eo ft h em o s ti m p o r t a n t t a s k si nt h ed e s i g no ft h es p e a k e r r e c o g n i t i o ns y s t e m i nt h i st h e s i s ,w ep r o p o s e dan e w s p e a k e rr e c o g n i t i o na l g o r i t h m b a s e do nt h ed y n a m i c m f c cp a r a m e t e r s ( m e lf r e q u e n c yc e p s t r a lc o e f f i c i e n t s ) t h em f c ci sas e to f p a r a m e t e r s ,w h i c h a r et h em o s ti m p o r t a n tf e a t u r e so fr e p r e s e n t i n gt h e s p e a k e r s i d e n t i t y m f c ca n a l y z e s t h e s p e e c h sf r e q u e n c ys p e c t r u m b a s e dt h ea c o u s t i c a l c h a r a c t e r i s t i c ,a st h eh u m a na u d i t o r ys y s t e mo b v i o u s l yp e r c e i v ep h y s i c a lf r e q u e n c yi n n o n l i n e a rs c a l e ,b u tt h et r a d i t i o n a lm f c c p a r a m e t e r s a r eo b t a i n e da c c o r d i n gt oas e t o fs t a t i cm e i f i l t e r s ,t h ed i f f e r e n ts p e a k e r sc a n n o tb ed i s t i n g u i s h e df r o mt h es t a t i c m f c c p a r a m e t e r s b e s i d et h em f c c ,t h ep i t c hi sav e r yi m p o r t a n tf e a t u r e su s e di n t h es p e a k e rr e c o g n i t i o n ,i tr e p r e s e n t st h es p e a k e r sg l o t t i sp e r i o d i c a lv i b r a n c y ,a n d d e p i c t se x a c t l yt h ed i f f e r e n ts p e a k e r s g l o t t i sc h a r a c t e r i s t i c s a st h eh u m a na u d i t o r y s y s t e mc a ns e n s i t i v e l yp e r c e i v e t h ep i t c h c h a n g e s i nt h es p e e c h ,c o m b i n i n gt h e s p e a k e ri n f o r m a t i o n i n c l u d e di nt h em f c ca n dt h ep i t c h ,t h ea l g o r i t h mp r e s e n t e di n t h i st h e s i sc a nd y n a m i c a l l yc o n s t r u c tas e to fm e l f i l t e r sa c c o r d i n gt ot h er e s u l t so f p i t c h d e t e c t i o n t h em e l - f i l t e r sa r et h e nu s e dt oe x t r a c ta s e to f m f c c p a r a m e t e r s t h i st h e s i sa l s oa d d r e s s e dt h ep r o b l e mo fg m m ( g a u s s i a nm i x t u r em o d e l ) b a s e d c l a s s i f i e rd e s i g n t h eu s eo fg m m f o rm o d e l i n gs p e a k e ri d e n t i t yi sm o t i v a t e db yt h e i n t e r p r e t a t i o n t h a tt h eg a u s s i a n c o m p o n e n t sr e p r e s e n t s o m e g e n e r a l s p e a k e r - d e p e n d e n ts p e c t r a ls h a p e sa n d t h ec a p a b i l i t yo fg a u s s i a nm i x t u r e st om o d e a r b i t r a r y d e n s i t i e s a n di t s p e r f o r m a n c e i sc l o s er e l a t e dt ot h e p a r a m e t e r s a n d 4 董志峰中国葶 学技术大学硬士学位论文 s t r u c t u r e w eg e tt h ed i f f e r e n ts p e a k e r sg m mm o d e lp a r a m e t e r sb yt h ee s t i m a t i n g a l g o r i t h m o f e x p e c t a t i o nm a x i m i z a t i o n ( e m ) ,b u t t h ee m e s t i m a t i n ga l g o r i t h m n e e da l a r g ea m o u n to ff e a t u r e sf o rt r a i n i n gt og e tt h eg m mp a r a m e t e r s i nt h ep r a c t i c a l a p p l i c a t i o no fs p e a k e rr e c o g n i t i o ns y s t e m ,w ec a l ln o tg e te n o u g h t h es p e e c hf e a t u r e s o ft h ed i f f e r e n ts p e a k e r s i ft h ef e a t u r e sa r el i m i t e df o rt r a i n i n g ,t h eg m m s t r u c t u r e s e l e c t i o nb e c o m e s v e r yi m p o r t a n t t ot h e s p e a k e rr e c o g n i t i o n t h e s a m eg m m s t r u c t u r es e l e c t i o nf o rd i f f e r e n ts p e a k e r s g m mm o d e lm a k e st h es p e a k e rr e c o g n i t i o n s y s t e m sp e r f o r m a n c ew o r s e t os o l v et h i sp r o b l e m ,i n t h et h e s i sac l u s t e r i n gb a s e d m e t h o df o rs e l e c t i o no f o p t i m a lo r d e rn u m b e ra n di n i t i a le s t i m a t i o n so f t h ep a r a m e t e r s o fg m mi sp r e s e n t e d t h ee x p e r i m e n t a lr e s u l t ss h o wt 1 1 a tt h em e t h o dp r e s e n t e di nt h i st h e s i sc a no b t a i na g o o dp e r f o r m a n c e i nar e a le n v i r o n m e n t t h ed y n a m i cm f c cb a s e dt h ep i t c h p e r f o r m a n c eb e t t e rt h a nt h et r a d i t i o n a lm f c c i nt h ep r a c t i c a la p p l i c a t i o no fs p e a k e r r e c o g n i t i o ns y s t e m ,b u ta l s oi m p r o v e s m u c ho nr o b u s t n e s si nn o i s ye n v i r o n m e n t i ti s a l s op r o v e st h ev a l i d i t yo ft h ec l u s t e r i n gb a s e dm e t h o dt og e tt h ed i f f e r e n ts p e a k e r s g m m p a r a m e t e r sa n d s t r u c t u r eb yt h ec o r r e l a t i v ee x p e r i m e n t k e y w o r d s :s p e a k e rr e c o g n i t i o n ;m e l f r e q u e n c y c e p s t r a lc o e f f i c i e n t s ;p i t c h d e t e c t i o n ;g a u s s i a n m i x t u r em o d e l 董志峰 中国科学技术大学硕士学位论文 1 1 研究背景 第一章绪论 说话人识别是通过对说话人的语音进行分析,对说话人身份做出正确识别、 判断的一个研究方向,它涉及了模式识另1 ( p a t t e r nr e c o g n i t i o n ) 、信号处理( s i g n a l p r o c e s s i n g ) 、语言学( l i n g u i s t i c s ) 、生理学( p h y s i o l o g y ) 、听觉心理学 ( p s y c h o a c o u s t i c s ) 、神经网络( n e u r a l n e t w o r k s ) 和人工智能( a r t 莎c i a l i n t e l l i g e n c e ) 等多种学科领域。和其他身份识别一样,说话人识别在需要对身份进行自动鉴别 等领域具有重要的现实意义,特别是随着i n t e r n e t 和电信业的迅猛发展,说话人 确认系统在i n t e r n e t 的访问控制和无线电话认证等领域具有广泛的应用前景。 对说话人识别的研究始于2 0 世纪3 0 年代。早期的工作主要集中在人耳听辨 实验和探讨听音识别的可能性方面。b e l l 实验室的lgk e s t a 首先用目视观察语 谱图的方法进行识别,提出了“声纹”( v o i c e p r i n t ) 的概念。之后随着电子技术 和计算机技术的发展,使得通过计算机自动识别人的声音成为可能。b e l l 实验室 的s p r u z a n s k y 提出了基于模式匹配的和概率统计方差分析的说话人识别方法, 从而引起信号处理领域许多学者的注意,形成一个说话人识别研究的高潮。其间 的工作主要集中在各种识别参数的提取、选择和实验上,并将倒谱和线性预测分 析等方法应用于说话人识别。目前,说话人识别研究的重点主要还是在语音中说 话人个性特征分离提取、个性特征的增强、对各种反映说话人特征的声学参数的 线性和非线性处理以及新的说话人识别模式匹配方法等领域【1 5 。 按照所执行任务性质的不同,说话人识别又可进一步分为说话人确认 ( s p e a k e r v e r i f i c a t i o n ,s v ) 和说话人辨认( s p e a k e r i d e n t i f i c a t i o n ,s i ) 。说话人 确认是通过说话人的语音来判断说话人与其声明的身份是否相符,说话人辨识则 先判断说话人是否属于已知的一说话人集合,如果是,再进一步从该集合中找出 说话人的正确身份。在进行说话人识别时。根据输入的识别用测试语音来分,说 话人识别系统又可分为与文本无关的( t e x t i n d e p e n d e n t ) 和与文本有关的 6 董志蜂中国科学技本大学硕士学位论文 ( t e x t d e p e n d e n 0 ,前者是不规定说话内容的说话人识别,在识别时不限定所用的 语音内容;后者是规定说话内容的说话人识别,在识别时只能用规定的语音内容。 一般而言,说话人识别系统如图1 1 所示,由特征提取和模式分类两个主要 部分组成。其中,特征提取的任务是从输入的说话人语音信号中提取能够区分不 同说话人个体特征的参数序列:而模式分类的任务则包含了两个方面,一是在训 练时用能够反映说话人身份特征的参数序列,为每个说话人建立相应的说话人模 型:二是在测试或识别时根据所得到的待识别语音信号的特征参数序列,由系统 对这些参数和己知说话人模型之间的相似程度进行评估,并根据评估的结果判断 输入语音信号的归属,即决定接受或是拒绝说话人。 测试 过程 训练 过程 特征提取模式分类 图1 1 说话人识别系统 1 2语音特征量的提取 人的语音信号是一个短时平稳的随机过程,同一个说话人在不同时间相同的 发音也是随机变化的。在对说话人进行分类的时候,就不能直接用语音信号作为 分类的标准。说话人识别系统的关键在于从说话人的语音中提取出能够表征说话 人身份的特征量,这就需要所提取的特征满足以下几个特点:一是表征作为说话 人身份的特征量,要能有效地区分不同的说话人,同时对于同一说话人在不同的 时间发音所提取的特征量要能保持相对稳定性;二是容易从说话入的语音信号中 提取、易于系统计算,同时方便于进行模式分类;三是不同说话人的特征量不易 被他人模仿。同时,语音特征量中既包含有说话人的身份特征,同时也包含有说 话人所说语音的语义特征。为了提高说话人识别的准确性,需要在提取语音特征 7 董志峰中国科学技术大学硕士学位论文 的时候,突出语音信号中说话人的身份特性,尽量消除相应的语义特征,实现与 文本无关的说话人识别,这是目前说话人识别的主要研究方向【6 8 。 说话人识别常用的特征量有:基音( p i t c h ) 、共振峰频率( f o r m a n tf r e q u e n c y ) 、 线性预测系数( l i n e a rp r e d i c t i v ec o e f f i c i e n t s ,l p c ) 、线性预测倒谱系数( l i n e a r p r e d i c t i v e c e p s t r u mc o e f f i c i e n t s ,l p c c ) 、m e l 频率倒谱系数( m e i f r e q u e n c y c e p s t r u mc o e f f i c i e n t s m f c c ) 等。 1 基音( p i t c h ) 基音频率检测是语音处理中的一个主要问题,它运用于声码器、说话人识别 系统以及发音校正等方面。基音频率表征了说话人在发音( 主要是浊音) 对, 声门产生振动的周期性。因此,基音频率作为语音特征量可以较好地刻画出 不同人各自的声带特性 9 1 2 。 2 共振峰( f o r m a n t ) 共振峰参数包括共振峰频率和频带宽度。当准周期的基音脉冲激励进入声道 时会引起声道的共鸣,产生组共振频率,称为共振峰频率或简称共振峰。 声道可以看作根具有非均匀截面的声管,在说话人发音的时候起共鸣器的 作用。共振峰频率及其频带宽度很好的刻画了说话人声道的这种共振特性, 因此共振峰变化与说话人有着密切的联系,即使进行同样的发音,因为说话 人不同,共振峰也会发生很大的变化 1 3 】。 3 线性预测系数( l p c ) 及l p c 倒谱系数( l p c c ) 线性预测系数( l p c ) 是通过语音数据对说话人的声道模型参数进行线性预测 得到的,l p c 倒谱系数( l p c c ) 则在计算出l p c 基础上的功率谱所对应的倒谱 系数。因为不同说话人生理结构的差异,通过语音数据估计得到的声道模型 参数也能够表征不同说话人的身份差异,所以l p c 、l p c c 不仅广泛运用于 语音识别及语音合成中,也是说话人识别中的一个重要参量 1 4 3 5 3 7 。 4 m e l 频率倒谱系数( m f c c ) 研究表明,人耳对声音的感知随频率的变化而变化,在低频部分( 1 0 0 0 h z 以 董志峰 中国科学技术大学硕士学位论文 下) 呈线性增长,高频部分( 1 0 0 0 h z 以上) 呈指数增长的趋势。m e l 频率倒谱系 数( m f c c ) i _ | e 是从人耳对频率高低的非线性心理感觉角度反映了语音短时幅 度谱的特征。和传统的线性预测倒谱系数l p c c 相比,其识别性能和抗噪性 能具有明显的优势,因此目前广泛的运用于语音信号处理中 1 5 2 5 1 1 2 6 2 8 2 9 。 1 3 说话人模式分类方法 从说话人语音信号中提取出特征参数序列之后,需要通过这些能够表征说话 人身份特征的参数序列,为每个说话人建立相应的说话人分类模型。在进行说话 人识别的时候,对输入的待识别说话人语音信号的特征参数和已有的说话人分类 模型根据一定的规则进行相似性的评估,根据评估结果对待说话人的身份相应判 断。在说话人识别技术中,目前常用的模式分类方法有: 1 模板匹配法一个语音特征矢量对应于多维特征空间中的一个点,对 于不同的说话人特征矢量就可以通过在特征空间的欧氏距离大小对其进 行分类。其中最常用的方法是动态时间规整法( d t w ) ,在动态时间规整 的过程中,同时计算两个模板的距离尺度并形成判决函数。这种方法算 法简单、容易计算,但只适合于小词汇量的孤立词、基于文本的说话人 识别系统 1 6 ,1 7 。 2 高斯混合模型( g m m )高斯混合模型( g m m ) 是说话人识别系统中常用 的一种分类模型。高斯混合模型可以平滑地逼近任意形状的概率密度函 数,且具有比较容易处理的特点。对所有待识别人建立统一的g m m 模 型结构,通过期望最大化( e m ) 重估对g m m 参数进行最大似然估计来建 立说话人的概率模型,该模型能较好地反映说话人语音特征在特征空间 上的分布,从而获得很好的识别性能 1 8 ,3 0 1 。 3 隐马尔可夫模型( h m m )语音信号是一个短时平稳、整体时变的随机 过程,h m m 能够成功地描述这种短时平稳信号的统计特性,短时平稳 段的信号由对应的状态观测值的随机过程描述,而短时平稳段向下一短 时平稳段的转变则由隐含的马尔可夫链的状态转移概率来描述。因此, 藿志峰 中国科学技术大学硬士学位论文 h m m 技术已经在语音识别及说话人识别系统中得到了应用【1 9 ,2 0 】。 4 人工神经网络法( a n n ) 人工神经网络( 主要是聚类人工神经网络) 具有 很好的聚类能力和静态分类能力,因此可将它运用于特征提取和说话人 特征分类判决。目前人工神经网络在说话人识别中的应用还处于初步阶 段,主要工作还是在于合理的网络结构、更有效的训练方法以及更有强 的鲁棒性,同时a n n 还与其他的分类方法结合,将a n n 运用于模式分 类的预处理及后处理 2 1 1 。 1 4说话人识别系统性能评价 一个说话人识别系统的好坏是由许多因素决定。其中主要有正确识别率( 或 出错率) 、训练时间的长短、识别时间、对训练数据存储量的要求、使用者的方 便程度、实用系统还有价格因素等。各种性能要求彼此相互影响、相互制约,如 为了提高正确识别率,训练和识别时间必然需要增加,训练时间过长有可能会造 成使用者的厌烦情绪,而识别时间过长在某些应用场合是不能接受的,这些因素 在系统设计中还要根据具体需要加以折衷。 对于说话人确认,系统只需做出“是”与“非”的判断:说话人与其声明身 份相符即为“是”,与其声明的身份不符即为“非”。因此,对于说话人确认系统, 表征系统性能的最重要的两个参数在于错误拒绝率( f a l s er e j e c t i o n ,f r ) 及错误接 受率( f a l s ea c c e p t a n c e ,f a ) 。它们与系统判决阈值有关:阈值设得高,有可能把 身份相符的说话人加以拒绝,f r 会随之提高;反之,阈值设得低,又可能接受 身份不符的假冒者,f a 会随之提高。因此,根据实际系统的需要来设定说话人 确认的判决闽值非常重要。 对于说话人辨识,系统首先要判断说话人是否属于已知的一个说话人集合: 如果不是,加以拒绝,如果是,还要进一步从已知说话人集合中找出该说话人的 正确身份。对于说话人辨识系统,随着待识别人数的增加,系统识别难度增加, 训练及识别所需要的时间也会随之增加。说话人的语音会随时间的变化而变化, 而且会受到健康和感情等因素的影响,系统的识别性能也会随之下降,为了维持 系统性能,需要分不同时段、不同环境对待识别人的语音进行采样,通过增大训 1 0 董志峰中国科学技术大学硕士学位论文 练语音数据量,可以提高系统识别性能,但随着训练语音数据的增加,系统运算 消耗增加,说话人分类模型的复杂程度也会随之增加,因此对于实际运用的说话 人识别系统根据需要,有必要在识别率与系统运算消耗和复杂程度之间做出折衷 的选择。 对于说话人识别,通过不同的语音处理方法得到的语音特征量反映了语音信 号不同的特性,如基音频率刻画了说话人在发声时声门的周期性振动的特性, m e l 一频率倒谱系数则是根据人耳的听觉特性提出倒谱特征,不同的语音特征量在 各自的特征空间有着与说话人身份相关的分布,它们对说话人身份特性的描述有 很大的互补性,因此综合考虑语音信号的各种特征,充分挖掘语音信号中的说话 人信息是目前说话人识别研究的一个重要课题。 1 5本文的主要内容 本文是这样安排的,第二章介绍语音信号的预处理以及基于语音信号短时能 量和短时过零率的语音月 语音判断,第三章提出基于基音频率的动态m f c c 算 法,根据说话人的基音频率随语境变化的特点,通过动态地构建基于说话人基音 频率的m e l 一滤波器组,以提取可以表征说话人身份特征的动态m f c c 参数,提高 说话人辨识的准确性和鲁棒性;第四章介绍运用于说话人识别的高斯混合模型, 并给出了一个通过聚类分析获得高斯混合模型的最优混合度与相关模型参数的 初始估计的方法;在第五章中对实验结果进行讨论,第六章结言。 董志峰 中国季车学技术大学硕士学位论文 第二章语音信号的预处理及端点检测 语音信号分析是语音信号处理的前提和基础,只有分析出可表示语音信号本 质特征的参数,才有可能利用这些参数进行有效的语音通信、语音合成、语音识 别以及说话人识别等处理。特别的对于说话人识别技术,识别性能的好坏也都取 决于对语音信号分析的准确性和精确度。因此,语音信号分析在语音信号处理应 用中具有举足轻重的地位。为了更有效提取语音信号特征量,在进行语音分析之 前,需要对语音信号进行预处理,如:预加重、分帧、加窗等,而且系统需要把 语音信号部分从输入的录音采样信号中找出来,即对采样信号做出语音段非语 音段判断,也称为语音信号的端点检测。 本章首先介绍语音信号预处理的基本概念,再介绍基于短时能量和短时过零 率的端点检测方法 3 7 3 8 1 。 2 1 语音信号的预处理 1 预加重 语音信号的平均功率谱受声门激励和口鼻辐射影响 3 5 ,高频端大约在 8 0 0 h z 以上按6 d b 倍频程跌落,即6 d b o c t ( 2 倍频) 或2 0 d b d e c ( 1 0 倍频) , 所以对于求得的语音信号频谱,频率越高相应的成分就越少,高频部分的频谱比 低频部分难求,为此要在语音预处理中进行预加重( p r e e m p h a s i s ) 处理。预加重 处理的目的是提升高频部分,信号的频谱变得平坦,保持在低频到高频的整个频 带中能用同样的信噪比求得频谱,以便于频谱分析或声道参数分析。预加重可在 语音信号数字化时在反混叠滤波器之前进行,这样不仅可以进行预加重,而且还 可压缩信号的动态范围,有效地提高信噪比。对于已经数字化处理的语音信号, 预加重可在对语音信号进一步分析前通过预加重数字滤波器来实现,它一般是一 阶的数字滤波器: 留矽= 1 一胆1( 2 1 ) 董志蜂 中国科学技术大学硕士学位论文 其中为接近1 的常量。 有时要恢复原信号,需要从预加重的语音频谱来求实际的频谱时,要对信号 进行去加重处理( d e e m p h a s i s ) ,即加上6 d b 倍频程的下降的频率特性来还原成原 语音信号的特性。 2 预加窗 语音信号具有时变性,主要反映在声道响应的部分,其变化的随机性很强; 另一部分则是受发音器官控制的,这部分的变化则是相对缓慢的,因而可以把语 音信号进行分段处理来分析,并假定在每一段内其性质是相对平稳的,而从整体 来看是时变的,也就是假定它具有短时平稳性,这些语音段常称为分析帧,满足 短时平稳性的帧长一般为1 0 m s 至3 0 m s 之间( 即每秒3 3 1 0 0 帧) 。分帧时,为了 使帧与帧之间平滑过渡,保持其连续性,一般采用交替分段的方法。前一帧与后 一帧的交叠部分称为帧移,帧移与帧长的比值范围一般取为0 - 0 5 。而分帧是 用可移动的有限长度的窗口进行加权的方式( 即加窗) 来实现的,即用一定的窗 函数吖圳来乘可圳语音信号,从而形成加窗语音信号s j n ) = 驯+ 吖训。在语音 信号数字处理中常用的窗函数是矩形窗和汉明窗等 3 8 】,它们的表达式如下( 其 中为帧长) : 矩形窗: w 川: 1 05 鬈。n ,。1 、 州州2 10 :其他 【_ 2 - z ) 汉明窗: 删= r 。0 4 舒。c o s 但础肛u ”当箍叫( 2 - 3 ) 窗函数蛳,的选择( 形状和长度) ,对于短时分析参数的特性影响很大,因 此应该选择合适的窗口,使其短时参数更好的反应语音信号的特性变化。虽然, 不同的短时分析方法( 时域、频域、倒谱域分析等) 以及求取不同的语音特征参 数可能对窗函数的要求各不一样,但一般的,一个好的窗函数的标准是:在时域, 因为是语音波形乘以窗函数,所以要减小时域窗两端的坡度,使窗口边缘两端不 引起急剧变化而平滑过渡到零,这样可以使截取出的语音信号波形缓慢降为零, 董志峰 中国科学技术大学硕士学位论文 减小语音帧的截断效应:在频域要有较宽的3 d b 带宽以及较小的边带最大值。 表2 1 给出了矩形窗和汉明窗的一些频域参数比较。 i窗类型旁瓣峰值主瓣宽度最小带阻衰减 矩形窗 1 3 d b4 x n 2 l d b i汉明窗 4 1 d b8 万n5 3 d b 表2 - 1 矩形窗与汉明窗的比较 从上表可以看出,汉明窗的主瓣宽度比矩形窗大一倍,即带宽约增加一倍,而且 其带外衰减也比矩形窗大一倍多。矩形窗的谱平滑性能较好,但损失了高频成分, 使波形细节丢失;而汉明窗则相反,从这一方面来看汉明窗比矩形窗更为合适。 当语音数字信号的采样率为z 时,窗口长度和频率分辨率可之间存在下 列关系: 鲈= f i n( 2 - 4 ) 箩表示在频域上,每两个数据点之间的频率跨度。当z 一定时,鲈随窗口宽度 的增加而减小,即频率分辨率相应得到提高,但同时,时间分辨率降低;如果 窗口取得短,时间分辨率提高,而频率分辨率下降,因而二者是矛盾的。因此, 应该根据不同的需要选择合适的窗口长度。一般的,为满足语音信号的短时平稳 性,在2 2 0 5 k h z 的采样率情况下,窗口长度选为3 0 0 - - 一5 0 0 ( 即帧长1 3 6 - - 2 2 6 m s ) 。 2 2 基于短时能量和短时过零率的语音端点检测 从一段录音采样中提取出说话人的语音特征量,首先应该对录音采样做出语 音非语音的判断,只有从语音段中提取出的语音特征量才能有效地表征说话人 的身份特征。语音端点检测,就是从一段录音采样中找出语音信号的开始位置点 和终止位置点。语音端点检测也是对语音信号预处理的主要步骤之一。 图2 1 给出了一段录音采样的时域波形以及相应的语音段( 包括清音、浊音) 和非语音段的界限。从图上可以看到,语音信号的幅度是随时间变化的,特别是 1 4 董志峰 中国科学技术大学硕士学位论文 清音段的幅度比浊音段的幅度小得多,而且语音段的幅度比非语音段的背景音幅 度大。 # 蚀音段 k 嘶乙: k 非语章语 。1 d 音段音段 1 n i 呵l 胛4 清_ 爹 音 段 段 对于离散时间的语音信号,如果相邻的采样点具有不同的代数符号就称为发 生了过零。产生过零的速率是信号频率的一个简单度量,即高频率意味着高过零 率,低频率意味着低过零率。语音信号中的浊音段谱能量主要集中在3 k h z 以下, 而对于清音段,多数能量却出现在较高频段上,因此一般的,可以认为浊音段具 有低过零率,清音段的具有高过零率。基于语音信号过零率的这一特性,可以运 用语音信号的短时过零率近似语音信号过零率,来进行清音浊音判断。语音信 号s 俐的短时过零率定义为: 乙= f s 猷s ( , , o l - s g n s ( r n - 叫卿一州( 2 7 ) | | | | | | | | | | | | | | 藿志峰 中国科学技术大学硕士学位论文 = l 罐邢。r 删增帆m 一圳 m 曲 式中,s g n 是符号函数,定义为: j20 0 ( 2 8 ) ( 2 9 ) 图2 2 、图2 3 分别给出图2 一l 所示录音采样信号( 采样率2 2 0 5 k i - z ) 的短 时能量、短时过零率。从图上可以看出语音段的短时能量要比非语音段的短时能 量高,而清音段的短时过零率比浊音段的高,通过设定一定的能量闽值和过零率 阂值,就能很好的进行语音段非语音段检测,如图2 - 4 。 图2 - 2 录音采样的短时能量 图2 - 3 录音采样的短时过零率 重查竺生生型兰燮堂堡兰堂丝墼 图2 - 4 基于短时能量、短时过零率的语音信号端点检测( 浊音部分) 2 3 小结 语音信号端点检测方法很多,可以分为时域处理、频率处理、复频域处理等 方法,同时通过基音频率、线性预测系数l p c 、语音倒谱等语音特性都可以作为 判断语音非语音的重要依据。本章介绍的基于短时能量、短时过零率的端点检 测方法简单,易于计算,在一定的信噪比条件下,对语音月 语音的判断能够获 得很好的结果。 在对录音采样做出语音段非语音段的判断之后,我们才+ 能有效地提取说话人 语音信号的特征量、建立说话人分类模型等下一步工作。 董志蜂中国科学技术大学硕士学位论文 第三章基于基音频率的 动态m f c c 特征提取 语音信号中既包含了说话人所要表达的信息,同时也包含了说话人个人身份 的特征,如何从语音信号中提取出有效的说话人的身份特征信息,一直都是说话 人识别研究的关键所在,特别是对于与文本无关的说话人识别研究,需要在提取 语音特征的时候,突出语音信号中说话人的身份特性,尽量消除相应的语义特征。 说话人识别常用的特征量有:基音( p i t c h ) 、共振峰频率及带宽、线性预测系数 ( l i n e a r p r e d i c t i v ec o e f f 五c i e n t s l p c ) 、线性预测倒谱系数( l i n e a r p r e d i c t i v e c e p s t r u m c o e f f i c i e n t s l p c c ) 、m e l 频率倒谱系数( m e l - f r e q u e n c yc e p s t r u m c o e f f i c i e n t s m f c c ) 等。其中的共振峰、l p c 、l p c c 都与声道模型有关,在信 噪比较高时能够很好的表征说话人的身份特征:在信噪比较低时,由带噪语音信 号估计得到的声道参数就不能正确反映说话人的声道特性。m f c c 分析是基于人 耳听觉特性m e l 频率尺度,比l p c 等声道参数有较好的抗噪声能力。本章所提 出的方法就是根据说话人语音信号的基音频率随语境变化的特点,通过动态地构 建基于说话人基音频率的m e l 滤波器组,以抽取可以表征说话人身份特征的动 态m f c c 参数,提高说话人辨识的准确性。 3 1 基于声道模型的语音特征 图3 1 给出语音信号产生的基本离散时间模型 3 7 】,它适用于线性预测分析 的讨论。其中的声道模型可用一个全极点系统函数h 来表示: 月“j = i l 一 ( 3 一1 ) 1 一q :。 对于语音的浊音部分,这个系统受到周期性的冲击串激励;对于语音的清音部分, 系统受随机噪声序列激励。因此这个模型的参数有:浊艚音分类、对于浊音信 号的基音周期以及声道参数娩f = l z ,谚。基音周期检测的方法很多,下文会 藿志峰中国科学技术大学硕士学位论文 进行详细的讨论;通过基音检测,还可以进行浊音清音的分类。而这个模型的 特点就是可以通过线性预测分析的方法对声道参数娩f = l z 西进行直接而有 效的估计计算。 基者频率 图3 - 1 简化语音产生模型方块图 1 线性预测系数( l p c ) 精 s 缸 语音信号线性预测分析 3 5 基本思想是:由于语音采样点之间存在着相关性, 语音的每个采样值均可由过去若干个采样值的线性组合来逼近,同时采用使实际 语音采样与线性预测采样之间的均方差最小的方式,来得到预测系数。预测信号 时域的表达式为: j r ”j = ,s ( n - i ) ( 3 - 2 ) 即语音信号j m 可由p 个过去采样值s ( n 一一,i = 1 ,z 一p 来预测,其中 “,i = l 一2 p ) 为加权系数,即线性预测系数l p c ,预测的误差为: 8 r 月,= s r 月j j r ”j = j r n j 一,s ( n - i ) ( 3 - 3 ) 使p 例在均方误差最小的条件下,可求得唯一的 a ,= 1 2 - p ) ,此过程即为l p c 分析过程。 线性预测应用于语音信号处理中,主要是因为它能提供一个很好的声道模型 及模型参数估计方法( 即在均方误差最小的条件下 q 。i = 1 2 拼可作为声道模 型参数娩f = l z 访的有效估计) ,因此线性预测系数 i = 1 2 肼能够很好的 表征说话人声道模型特征。 1 9 董志蜂中国科学技术大学硬士学位论文 2 线性预测倒谱 通过线性预测分析得到的声道模型系统函数为: “,:三一 ( 3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 临沂2025年山东临沂高新区部分事业单位招聘综合类岗位10人笔试历年参考题库附带答案详解
- 习作例文:《鲸》教学设计-五年级上册语文统编版
- 2025年湖南公务员考试《行测》真题模拟试题及答案解析
- 2025年甘肃陕煤集团韩城煤矿招聘笔试题库含答案详解(基础题)
- 第四节 群落的演替教学设计高中生物北师大版2019选择性必修2 生物与环境-北师大版2019
- 2025年妇产科疾病护理常规题库及答案
- 2025年基础护理学题库及答案蓝基因
- 人教版道德与法治九年级下册第二课第二框谋求互利共赢 说课稿001
- 2025银行保安考试题库及答案
- 输变电工程建设知识2025年度相关考点测试试卷含答案
- 2025年“10.13建队日”分批入队活动总结:强国复兴有我争当新时代好少年
- 2024年服装时装项目资金筹措计划书代可行性研究报告
- 施工三方协议7篇
- 2025年数字娱乐行业数字化娱乐内容与虚拟现实体验研究报告
- 水生产处理工三级安全教育(班组级)考核试卷及答案
- 2025年贵州省贵阳市辅警考试题库(附答案)
- 电厂安全教育培训课件
- 小学科学新教科版三年级上册全册教案(2025秋新版)
- MCN机构签约合同范本
- 2025至2030中国魔芋行业项目调研及市场前景预测评估报告
- 2024新译林版英语八年级上Unit 3 To be a good learner单词表(开学版)
评论
0/150
提交评论