




已阅读5页,还剩73页未读, 继续免费阅读
(信号与信息处理专业论文)不匹配信道下耳语音说话人识别研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
不匹配信道下耳语音说话人识别研究中文摘要 不匹配信道下耳语音说话人识别研究 中文摘要 耳语音作为人类的一种辅助发音方式,在同常生活中起着较为广泛的作用,尤 其是在金融领域,公安司法领域中各种身份的确认。说话者为了保证信息的私密性, 常常会用到耳语音。 正因如此,耳语音说话人识别也作为一个新的课题被提出来。耳语音主要是用在 手机通话中,语音必然会受到信道畸变的影响。传统的识别模型遇ni ) l l 练和测试的信 道环境差异变大时,识别率就会大大受到影响。因此,必然需要一种稳健的信道补偿 算法来增强这个说话人识别系统。为了解决这个问题,本文做了以下几个方面的工作: 一、将各种信道的耳语音数据混合在一起训练通用背景模型( u b m ) ,然后在此 基础上进行最大后验概率( m a p ) 自适应获得说话人模型,将此模型和常规的g m m 模型进行识别率的比较。实验证明,u b m 模型优于普通的g m m 。 二、将联合因子分析( j f a ) 应用到耳语识别中,根据耳语数据库的特性,采取分 开估计和省略残差空间的方法。具体在识别过程中,通过将训练所得的说话人因子 和测试所得的信道因子相结合的方式,达到说话人不断适应测试信道环境的目的。 实验结果显示修改后j f a 的识别效果大大提升。另外,根据j f a 在短时识别方面效 果不理想,提出了一种在模型上保持说话人因子不变,而将信道因子用到特征方面, 对每一帧特征矢量进行补偿的混合补偿法,该方法相对于j f a 来说补偿的更为细致, 实验显示h h 信道训练时l s 和2 s 平均识别率分别提高4 3 6 和3 8 9 ,e p 信道训 练时l s 和2 s 平均识别率分别提高4 1 4 和2 6 4 。 三、根据支持向量机( s v m ) 的区分性,将说话人超向量输入到s v m 中,结果系 统性能不如u b m m a p 系统。这时将说话人因子矢量输入到s v m 中,由于说话人 因子在辨认系统中特征维数低,易线性可分,获得了良好的识别效果。然后经过三 种信道补偿方法进一步去冗余,取得了和j f a 相当的识别结果。 关键词:耳语音,说话认识别,联合因子分析,混合补偿,支持向量机 作者:顾晓江 指导老师:赵鹤鸣 a b s t r a c tr e s e a r c ho nw h i s p e r e ds p e a k e ri d e n t i f i c a t i o ni nc h a n n e lm i s m a t c hc o n d i t i o n s r e s e a r c ho nw h i s p e r e ds p e a k e ri d e n t i f i c a t i o ni n c h a n n e lm i s m a t c hc o n d i t i o n s a b s t r a c t t h ew h i s p e r e ds p e e c hi sa c t e da sa na u x i l i a r yw a yo fc o m m u n i c a t i o na n di ti sw i d e l y u s e di nh u m a nl i f ea tt h es a r t l et i m e ,e s p e c i a l l yi nt h ea l lk i n d so fi d e n t i t yr e c o g n i t i o no f f i n a n c ea r e aa n dj u s t i c ea r e a s p e a k e ru s u a l l yc a nu s ew h i s p e r e ds p e e c hi no r d e rt ok e e p i n f o r m a t i o ns e c r e t s o ,t h ew h i s p e r e ds p e a k e ri d e n t i f i c a t i o ni s a l s on o t i c e da san e wp r o j e c t t h e w h i s p e r e ds p e e c hi so f t e nu s e di nm o b i l ep h o n ee n v i r o n m e n t ,w h i c hi sa f f e c t e db yc h a n n e l d i s t o r t i o n t h et r a d i t i o n a lm o d e lg e t sl o wr e c o g n i t i o n a c c u r a c yw h e nt h e c h a n n e l e n v i r o n m e n td i f f e r e n c eb e t w e e nt r a i n i n ga n dt e s t i n gi so b v i o u s t h e r e f o r e ,ar o b u s t c h a n n e lc o m p e n s a t i o na l g o r i t h mm u s te n h a n c et h es p e a k e rr e c o g n i t i o ns y s t e m i no r d e rt o s o l v et h i sp r o b l e m ,t h ea r t i c l e sw o r ki sa sf o l l o w s : 1 m i xa l lt h ek i n d so fc h a n n e lw h i s p e r e ds p e e c ht ot r a i nau n i v e r s a lb a c k g r o u n d m o d e l ( u b m ) ,t h e no nt h i sb a s e ,m a x i m u map o s t e r i o r ia d a p t a t i o ni sa d o p t e dt ot r a i nt h e s p e a k e rm o d e l c o m p a r et h i sm o d e lw i t hg m m t h ee x p e r i m e n tr e s u l tp r o v e st h a tt h e u b m p e r f o r m sb e t t e rt h a nn o r m a lg m m 2 j o i n tf a c t o ra n a l y s i s ( j f a ) i si n t r o d u c e di nw h i s p e r e ds p e a k e ri d e n t i f i c a t i o n a c c o r d i n gt h es p e e c hd a t a b a s e sc h a r a c t e r i s t i c ,d e c o u p l e de s t i m a t i o na n do m i t t i n gr e s i d u a l s u b s p a c ea r ea p p l i e d i nt h es p e c i f i ci d e n t i f i c a t i o np r o c e s s ,t h es p e a k e rf a c t o rf r o mt r a i n i n g u t t e r a n c ea n dc h a n n e lf a c t o rf r o mt e s t i n gu t t e r a n c ea r ec o m b i n e dt of i tt h et e s tc h a n n e l d y n a m i c a l l y t h ee x p e r i m e n ts h o w st h a ti m p r o v e m e n tj f a a c h i e v e sh i g hr e c o g n i t i o nr e s u l t i na d d i t i o n ,j f ai sn o ti d e a li nt h es h o r t t i m ei d e n t i f i c a t i o n an e wh y b r i dc o m p e n s a t i o n m e t h o dw h i c hk e e p ss p e a k e rf a c t o ri nm o d e ld o m a i na n da p p l i e sc h a n n e lf a c t o ri nf e a t u r e d o m a i ni sp r o p o s e d t h i sm e t h o di st oc o m p e n s a t ee a c hf r a m ef e a t u r ev e c t o ra n dm o r e m e t i c u l o u st h a nj f a t h ee x p e r i m e n ts h o w slsa n d2 sa v e r a g ei d e n t i f i c a t i o nr a t e s e p a r a t e l yi m p r o v e4 3 6 a n d3 8 9 w h e nh h c h a n n e li st r a i n e d i na d d i t i o n e pc h a n n e l s e p a r a t e l yi m p r o v e4 14 a n d2 6 4 3 a c c o r d i n gt os u p p o r tv e c t o rm a c h i n e ( s v m ) sd i s c r i m i n a b i l i t y , t h es p e a k e r s u p e r v e c t o ri si n p u ti n t ot h es v m b u tt h es y s t e mp e r f o r m a n c ei s n o ta sg o o da s u b m m a p t h e nt h es p e a k e rf a c t o rv e c t o ri si n p u ti n t ot h es v m b e c a u s et h es p e a k e r i l r e s e a r c ho nw h i s p e r e ds p e a k e ri d e n t i f i c a t i o ni nc h a n n e lm i s m a t c hc o n d i t i o n sa b s t r a c t f a c t o rh a st h ep r o p e r t yo fl o wd i m e n s i o na n dl i n e a rd i s c r i m i n a n ta v a i l a b i l i t y , i ta c h i e v e s e x c e l l e n ta c c u r a c yr e s u l t a f t e rt h a t ,t h r e ek i n d so fc h a n n e lc o m p e n s a t i o nt e c h n i q u ef i r e u s e dt oi m p r o v et h es y s t e m sr o b u s t n e s sf u r t h e ra n do b t a i nq u i t ei d e n t i f i c a t i o nr e s u l t c o m p a r e dt oj f a k e y w o r d s :w h i s p e r e ds p e e c h ;s p e a k e ri d e n t i f i c a t i o n ;j o i n t f a c t o r a n a l y s i s ;h y b r i d c o m p e n s a t i o n ;s u p p o r tv e c t o rm a c h i n e i i i w r i t t e nb yg ux i a o j i a n g s u p e r v i s e db yz h a oh e m i n g 不匹配信道下耳语爵说活人识别研究 第一章绪论 1 1 耳语音研究背景 第一章绪论 语音作为人类交流的一种重要方式,为了探究这种重要的交流方式,人们从它的 发声,传输,甚至到人耳的听觉感知这一系列的过程都做了深入的研究,比如人的发 声过程,提出了各种各样的发音模型,如l p c 全极点模型l ij ,调频调i 昌( a m f m ) 模 型【2 】等,但目前这些模型也都是在假设某种情况下做出的,并不是十分完善。在听觉 感知方面,目前的研究还仅限于耳蜗对于声信号的时频分析特性,另外一个是人耳听 觉掩蔽效应,但是人的听觉系统对声音的感知是一个极为复杂的过程,不仅包括对声 音所包含的信息的理解,还需要一些先验知识来加以引导。因此,研究人类自身的生 理发音、心罩以及听觉感知在数字信号处理领域内如何进行表示及应用,仍然是当今 科技难以逾越克服的障碍。 语音除了正常的发音之外,还有一种发音方式,称之为耳语音。耳语音在语音学 中的定义为【3 】:耳语音是一种单一的发音类型,有别于正常语音,其主要特点是声门 韧带完全合拢,勺状软骨形成较宽的三角裂隙,肺部气流通过开放区产生摩擦噪声, 形成耳语音。简单来讲,耳语音发声时需要保持声带不能振动,这就导致发声时发出 的音量就比较低。根据这个特性,耳语音的主要用途在于:公共场合手机通话中,为 了不影响他人、保证通话的私密性或者进行某种网络上业务的身份确认( 例如在金融 行业中,需要用户说出自己口令密码的同时,还要再鉴别说话人) ,常使用耳语音进 行通讯。在公安司法领域鉴别当事人或者犯人身份时,犯罪分子通常会用耳语音来伪 装自己的身份,来阻碍判决案件的进程。总的来说,耳语音用作说话人识别还是有相 当广泛的用途。 1 2 耳语音说话人识别研究现状 目前耳语音说话人识别相对于正常音说话人识别来说,还处于起步发展的阶段, 但己取得了丰硕的成果。其中对耳语音的基础性研究有了长足的发展,为后续的耳语 第一章绪论不匹配信道下耳语音说话人识别研究 音说话人识别提供了坚实的基础。由于耳语音的信噪比比较低,给端点检测带来了困 难,目前有南京大学栗学丽根据耳语音频域熵值法进行耳语音的分割【4 】,苏州大学陈 雪勤利用分形方法,估计耳语音的计盒维数进行端点检测【5 】,潘欣裕根据经验模态分 解( e m p i r i c a lm o d ed e c o m p o s i t i o n ,e m d ) ,将语音信号分解成若干个本征模态函数 ( i n t r i n s i cm o d ef u n c t i o n ,i m f ) ,再利用这几个i m f 能量归一化后的分段拟合特征作 为耳语音端点检测的特征参数【6 】。在共振峰方面,有国外j o v i c i c 等研究塞尔维亚语的 耳语音和正常音在元音上之间的共振峰差异【7 j ,t a i s u k ei t o 等人在展开对耳语音识别 的研究工作的同时,根据谱幅度分析了耳语音和j 下常音共振峰之间的差异,得出共振 峰的频率相对于正常音有偏移【8 j 。国内吕岗,刘建新等提出基于极点交互因子修正共 振峰的带宽,从而正确地提出耳语音的共振峰1 9 】。由于耳语音发声时声带不振动,就 不能再用基音的方法进行耳语音声调识别,这里主要国外有加拿大维多利亚大学语言 学系研究汉语耳语音的声调感知问题【1 0 1 ,国内有东南大学赵力课题组研究汉语耳语音 情感识别的自然基金课题l l1 1 ,苏州大学陈雪勤基于听觉外周模型耳语音声调检测的课 题【12 1 。 耳语说话人识别目前的主要工作集中在特征方面的处理,美国卡耐基梅隆大学的 q i nj i n 等人,使用喉麦( t h r o a tm i c ) 收集少量耳语音进行训练和特征弯折( f e a t u r e w a r p i n g ) 来提高系统对噪声的鲁棒性,识别效果获得了改善【1 3 】。美国乔治亚州技术学 院的m o m s 在他的博士论文中用g m m 模型做文本无关的耳语音说话人识别时,提 出采用马尔可夫跳跃线性系统降低识别模型阶数,虽然降低了识别的时间,但是识别 率也有一定的降低【l4 1 。南京大学林玮等人采用修正的m f c c 参数以及改进的隐马尔 科夫模型( h i d d e nm a r k o vm o d e l ,h m m ) ,提高了耳语音说话人的识别掣1 5 1 。苏州大 学王敏根据语音产生的a m f m 模型,采取多带解调分析( m u l t i b a n dd e m o d u l a t i o n a n a l y s i s ,m d a ) 获得语音的瞬时包络和频率,根据包络幅度和频率的加权估计,得到 语音的瞬时频率特征估计( i n s t a n t a n e o u sf r e q u e n c ye s t i m a t e ,i f e ) 作为新的特征参数,在 不同信道下获得了比m f c c 较好的识别掣1 6 j 。x i nf a n 等在用j 下常音训练,耳语音来 测试的实验中,提出在线性频率尺度下刻画三角滤波器组来提取语音的线性频率倒谱 参数( l i n e a rf r e q u e n c yc e p s t r a lc o e f f i c i e n t ,l f c c ) 并结合特征映射补偿技术,同样 取得的效果比m f c c 要好1 1 7 j 。 2 不匹配信道下耳语音说话人识别研究 第一章绪论 至于在模型方面,目前这方面的报道不是特别的多。主要是针对于正常音条件下 抗噪声的语音识别,主流的模型是认为语音信号先经过信道卷积噪声,后再经过背景 叠加噪声,输出的语音信号才是要处理的对象,具体的情况如图1 1 所示【1 8 】: 背景裤加噪声球) 原始 图i 1 背景噪声和信道对语音的影响 输i l j 后的语音y ( t ) 输出后的语音可表示为:y ( f ) = x ( ,) 宰j l z ( f ) + z ( t ) ,因为该式里面含有卷积运算,需要 转化到倒谱域中进行,然后根据一阶矢量泰勒序歹u ( v e c t o rt a y l o rs e r i e s ,v t s ) 【1 9 】进行 逼近分别求得信道卷积和背景噪声的模型参数,从而获得稳健的说话人训练模型,但 该方法的缺点在于需要额外的静音段数据作为先验知识。另外一种模型是联合因子分 析( j o i n tf a c t o r a n a l y s i s ,j f a ) 模型1 2 0 ,它是在超向量的基础上推导出来的,认为一段 语音就代表这一个超向量,而这个超向量是由说话人超向量和信道超向量线性组合而 成的,需要估计的是说话人空间和信道空间,这里有联合估计的方法或者是分开估计 的方法,各有各的优势。总的来说,模型方面的补偿方法主要侧重于语音信号从唇部 发出后所经历的一系列过程,那么这些方法按照理论上来说也同样适用于耳语音的说 话人识别,尤其是在不匹配信道下的实验,这可以说是一个新的研究领域,因为在现 实生活中用到的耳语音主要是用在通讯环境下,必然会遇到各种各样的复杂信道情 况,这就需要提高耳语说话人识别的鲁棒性。 1 3 耳语音数据库介绍 语音数据库是整个耳语音说话人识别研究的基础和对象。一个好的数据库需要从 很多方面进行考虑规范设计,例如,发音人规范,数据采集环境规范,音段长短规范, 声学及语音学特征平衡规范( 数据库中语音应包含各种音素) 等。 本文所有的实验结果都是基于课题组所录制的耳语音数据库,下面对该数据库做 第一章绪论 不匹配信道下耳语音说话人识别研究 一个简单的介绍。 录音采用普通笔记本电脑和c o o le d i t 软件,8 k h z 采样,采样精度为1 6 b i t 。由于 耳语音的能量较低,信噪比较低,因此选择在安静环境下进行录制。 语音数据库包括1 0 0 名不同的说话人,其中男性8 0 人,女性2 0 人,每个人采用 耳语发音的方式分别在8 种不同的信道环境下录制语音段,共有8 0 0 段耳语音,每段 耳语音长度范围在7 0 s 9 0 s 之间。 8 种信道类型的标注分别表示为:手机信道m o ( m o b i l ep h o n e ) ,手机通讯信道 m c ( m o b i l ec o m m u n i c a t i o n ) ,桌置话筒d t ( d e s kt o p ) ,手持式麦克风h h ( h a n dh o l d ) , 头戴式麦克风w e ( w e a r ) ,耳塞式麦克风e p ( e a r p l u g ) ,录音笔r p l ( r e c o r dp e n ) ,录音 笔+ 手持式麦克风r p 2 ( r e c o r dp e n + h a n dh o l d ) 。 1 4 本文的主要工作 本文属于国家自然科学基金项目“基于j f a 的耳语发音方式下说话人识别研究” 中的模型建立这一子部分。主要工作如下: ( 1 ) 首先通过l b g 算法和e m 算法获得了通用背景模型( u n i v e r s a lb a c k g r o u n dm o d e l , u b m ) 2 1 】。然后在u b m 的基础上根掘最大后验概率准贝a ( m a x i m u m a p o s t e r i o r ,m a p ) 进行说话人的自适应,获得所需要的说话人模型。实验结果表明基于u b m 的说话人 识别系统效果优于常规的g m m l 2 2 1 说话人识别系统。 ( 2 ) 将联合因子分析( j o i n tf a c t o r a n a l y s i s ,j f a ) u9 】应用到耳语说话人识别系统中,根 据本数据库的实际情况,做了两点修改,第一,根据实验的效果省略了残差空间的估 计;第二,在估计说话人空间和信道空间的时候,采取的是分开估计的方法,不采用 复杂的联合估计法。其中说话人因子描述的是说话人自身健康状况( 生病或健康) 、心 理状态( 紧张或高兴或愤怒) 等变化因素。信道因子描述通话信道以及环境等变化因 素。所构建的说话人识别系统相对于u b m 有了大大的提高。根据j f a 在短时测试方 面存在不足,提出了一种在模型和特征上混合补偿的方法,主要在模型上固定说话人 因子,特征上采取所估计的信道因子对每一帧特征矢量进行补偿,尽可能在模型和特 征两方面消除信道信息,保留说话人信息,实验结果证明该方法在短时方面取得了比 联合因子分析要好的效果,在长时测试方面的识别效果虽低于j f a ,但在测试的时候 4 不匹配信道下耳语音说话人识别研究第一章绪论 可根据具体的时长选择合适的方法进行识别。 ( 3 ) 由于支持向量机【2 习( s u p p o r tv e c t o rm a c h i n e ,s v m ) 良好的可区分性,将s v m 引 入到耳语说话人识别系统当中。首先用说话人超向量( g m ms u p e r v e c t o r ) 输入到支持向 量机中,发现所获得效果不如u b m 的说话人识别系统。根据联合因子分析原理,将 说话人因子取代说话人超向量,作为新的说话人表征特征;输入到支持向量机中,效 果明显取得了提升,在说话人辨认系统中更适合用说话人因子矢量作为特征参数。然 后在此基础上,分别采用了类内协方差规整【2 4 1 ,线性判别分析【2 5 1 ,冗余属性投影【2 6 】 这三种不同的信道补偿技术,进行进一步提升,其中将线性判别分析,冗余属性投影 这两者结合起来的特征矢量获得的识别效果相当于联合因子分析所取的效果,而且这 是在没有采取信道因子的情况下进行的。 1 5 论文结构 本文分为六章,按照以下顺序组织内容: 第一章,介绍了目前在耳语音方面所做的一些基础性工作以及在此基础上简单介绍了 常用的耳语音说话人识别的方法,主要从特征和模型这两方面讲述,重点讲述了两种 模型补偿方法在不匹配信道环境下的应用。 第二章,概述了耳语音的声学特性,分析耳语音在不同信道的时频域特点。 第三章,简要介绍了l b g 和e m 算法训练g m m 模型的过程,然后在此基础上详细 介绍了u b m 和m a p 的具体实现过程。并比较了g m m 和u b m 两个说话人识别系 统的性能。 第四章,对原有的联合因子分析进行简化,针对本课题所用的耳语音数据库改进联合 因子分析模型。对联合因子分析模型在短时方面测试的不足,提出了自己的改进方法, 并和原方法做出了比较。 第五章,讲述了支持向量机的原理及其核函数的构造,分别将说话人超向量和说话人 因子输入到支持向量机中,比较两者的识别率:然后在说话人因子的基础上,采用三 种不同的方法进行去冗余,获得进一步的识别结果。 第六章,总结与展望。总结全文,指出本文存在的不足及今后的研究方向。 5 第一二章耳语爵发青特点不匹配信道下耳语音说话人识别研究 第二章耳语音发音特点 2 1 耳语音的声理特性 人的发音器官主要包括肺,气管,喉,咽,鼻腔,口腔和唇部。肺部产生的气流 经过气管传递到喉部,喉部将其调制成为周期脉冲或者类似随机噪声的激励声源,并 将其送入到声道。声道包括咽腔,鼻腔,口腔,作用是对在这个声道腔内的声源起 到共振作用,即对声源的频谱进行整形从而产生所需要的各种语音。从信号处理的角 度可以说,声源相当于系统的输入,而声道作为系统的响应函数,系统的输出可认为 就是语音信号。 肺作为呼吸气管,起着吸入空气和呼出空气的作用。人不说话时两者所占用的时 间比相同,当人需要说话时,呼吸时间达到整个呼吸周期的8 5 左右,而且此时的肺 部气压基本保持在一个略大于外部气压的水平。讲话时通过气压的差异将气流压缩至 喉部,可以说肺部是空气的存储和释放之处,保证发音时有一个稳定的气流源。 喉上接咽部,下接气管,是一个由软骨、肌肉和韧带构成的复杂系统,喉的主要 作用是控制声带的运动,声带是两片带有肌肉及韧带的组织,它的长度仅约 1 0 1 4 m m ,比较微小。声带之间的裂缝称之为声门,声门的开启和关闭是由前面的甲 状软骨和后面的杓状软骨组成,具体结构如图2 1 所示【2 7 1 ,从声门出来的气流就可认 为是声源信号。一般来说声门总共有4 种状态,具体的状态如图2 2 所示【2 7 】:图( a ) 表示一般呼吸状态,声门打开,图( b ) 表示深呼吸状态,声门打开更大,图( c ) 表 示耳语发声的状态,声门基本闭合,但杓状软骨之间形成三角形的空隙,空间经肺部 从这个缝隙流出,产生摩擦,图( d ) 表示正常的发音状态,声带绷紧,肺部气流被 阻断,当积聚到一定程度时声门打开,然后声门再闭合,如此反复开闭形成在声门处 的周期性气流,并进入声道境内。 6 不匹配信道下耳语爵说活人识j j 0 研究 第二章耳语音发音特点 甲杓 掣状软昔 环状软骨 图2 1 喉的俯视削面图 ( a )( b )( c )( d ) 图2 2 常见的四种声门状态示意图 声道包括口腔和鼻腔,口腔从喉部一直延伸至嘴唇,鼻腔则通过软腭与口腔融合。 当发鼻音时,软腭连接鼻腔和喉部,口腔保持封闭。声道的作用形式是通过舌、牙、 唇及腭的运动形成声道不同的形状,从而对声源的气流产生调整,相当于进行频谱整 形,这罩用共振峰频率指代对语音频谱的影响。唇部具有辐射的功能,提升语音信号 的高频成分,其提升幅度大约为每倍频程6 d b t 。 从语音学上主要将语音分为清音和浊音两部分,两者在于:( 1 ) 两者的激励源不 同,发浊音是声带振动,激励源是准周期脉冲,发清音是声带不振动,激励信号类似 于噪声。( 2 ) 浊音的共振峰比较明显,一般主要是取前3 个共振峰来表示语音特征, 而清音的共振峰不明显,但有强频区,持续时间比较固定。 耳语音的发音特征在于它发音时声带不振动,气流从软骨的缝隙中流出,因此声 源可认为是随机的无序噪声,而且它的声道形状与发正常音时的也有所不同。因为耳 语音是属于气声发音,发音时需要大量的气流和较低的气管压力,所以语速较慢,信 噪比要比正常音低2 0 d b l 2 8 j 。 7 第一二章耳语音发音特点不匹配信道下耳语音说话人识别研究 2 2 耳语音不同信道的时频特点 本文主要研究的是不匹配信道环境下的耳语音说话人识别,因此有必要先了解不 同信道环境下的耳语音在时域,频域方面上的特点。 2 2 1 时域特点 耳语音的时域特征主要包括了短时过零率,短时能量这两个特征。图2 3 是语料 “我阿姨不是去的哈尔滨”8 种信道环境下的时域波形,短时过零率,短时能量的特 征曲线。 t - o 霉0t 一 00 511 5 时间( s a c ) x1 0 。 r 。 1 i 尘l l 5 ,:j j 1 0 。 一、一7 。i 。 j ”一 :,一:一二一,、:! 时间( s a c ) i 一丁_ i t 叱5 0 ;l 。1 。n 7 : it 。”。, 7 : i “1 0 一f 王、:一。:l :z : 一j 时间( s e c ) 图( a ) d 1 信道时域特征 1 一 舌 $ 0 j 一一_ c , 1 l 一一 00 511 5 时间( s e c ) “。j i 一0 ,7 一。一 山 ;,- r ,、一? ,一i 时间( s e c ) 厂一一 1 5 ; j j- : 0 , :i 0 。,l ,。一一 00 511 5 时间( s e c ) 图( b ) e p 信道时域特征 小匹配信道下耳语音说话人识别研究 第二章耳语音发音特点 舌 $ 0 t 口 c ,) 1 一一 00 5 时 1 一 1 0 扣 一+ 二 1 11 5 f s j ( s e c ) 5 巳 , 、? t - 山 o j 二一:一一 00 51 时间( s e c ) 叱 o n 5 0 _ 一1 一 ,y 0 二一l 一一 00 511 5 时间( s e c ) 图( c ) h h 信道时域特征 1 0 呻扣“- 叫嗍神- 帅嘶印懈蚰扣惭 - 1 一一 00 51 时间( s e c ) x 罨1 0 j 27 i | 一 f c。 ? i l l +,。 , 0 一,一二 00 51 时间( s e c ) 叱5 0 o n 0一一一一一一 1 5 0o 5 1 1 5 时间( s e c ) 图( e ) m 0 信道时域特征 9 00 511 5 时间( s e c ) 0 二 00 511 5 时问( s e c ) 2 0 0 0 1 。: :一二i j i 3 0 511 5 时间( s e c ) 图( d ) m c 信道时域特征 0 - 如_ ,m h 。h _ * - w 抖m ” - 1 一 00 511 5 时间( s e c ) 1 0 5 0 0 5 0 、,:二 0 51 时间( s e c ) 0 一二 0o 5 1 5 时间( s e c ) 图r p l 信道时域特征 r 3 a m q 几 i | 二 l , 、 5 x 6 j m c 山 c。毛击c o m c i x 6 j m c 山 第- 二章耳语爵发音特点不匹配信道下耳语哿说话人识别研究 1 ,一 e - t- 蓉o 州,一忡+ 硝p _ 舢惭一蓉0重o 训一一* _ m 神莹 a c ,)c ,) 1 一一一 00 51 1 5 时间( s e c ) x 箬2 0 j 、 u j ,一、,、”、 0 一二h 一一二一一一二一: 00 5 11 5 时间( s e c ) 0 ,二l 二_ 一 , 00 5 1 时间( s e c ) 00 51 时间( s e c ) 0 00 511 5 时间( s e c ) 图( g ) r p 2 信道时域特征图( h ) w e 信道时域特征 图2 38 种信道下耳语音时域特征比较 可以看出,由于信道环境的不同( 即录制环境的差异) ,相同的一句话的所表现 时域波形差异很大。有的信道( 录音设备) 具有内部增益放大作用,如m o ,r p ,r p 2 信道,而有的信道就没有这方面的功能,如h i - i ,e p ,m c ,w e 信道。从它们的短时能量, 短时过零率曲线也可以看出这方面的特征。 2 2 2 频域特点 由于耳语音是属于气声发声,所以不存在基频这个概念,共振峰就成了在频域上 研究的重要特征。通过对语音进行短时傅旱叶变化,可以清楚地看到耳语音的共振峰 频率的分布图。主要配置参数如下:窗长取2 5 6 点,窗移取8 0 点,加汉明窗,5 1 2 点f f t 变化,采样频率为8 k 。图2 4 同样是耳语音“我阿姨不是去的哈尔滨”在8 中不同信道下的时频分析特性( 即语谱图) 。 1 0 一 一一 05 叱o n 不匹配信道下耳语音说话人识别研究 第二章耳语音发音特点 4 0 0 0 3 0 0 0 x u c 当2 0 0 0 口 虫 u 。1 0 0 0 0 4 0 0 0 3 0 0 0 x u c 当2 0 0 0 叮 尘 u - 一0 0 0 0 4 0 0 0 3 0 0 0 x u c 当2 0 0 0 叮 虫 u 1 0 0 0 0 d t 信道 o 4 0 0 0 3 0 0 0 x u t - 当2 0 0 0 叮 o l 1 0 0 0 0 e p 信道 0 511 50 - 5 m e h h 信道 4 0 0 0 3 0 0 0 ) 、 u 亡 当2 0 0 0 叮 尘 l 1 0 0 0 0 0 511 5 1 3 m e m c 信道 00 51 1 5o0 51 1 5 1 3 m e m o 信道 4 0 0 0 3 0 0 0 x u t - 当2 0 0 0 叮 翌 l l 1 0 0 0 0 - 5 m e r p l 信道 0 o 5 1 1 50 1 1 m e r p 2 信道 喜裹一 3 0 0 0 鬈。露蘩器鬣辫! 琵瓣害鬻鐾 ,、:鬈纨罄攀黪8 毫势。 0 0 5 可m e 4 0 0 0 3 0 0 0 x o t - 当2 0 0 0 口 巴 u 1 0 0 0 0 o 511 5 - 1 3 m e w e 信道 1 50051 15 l q m e 图2 48 种信道卜耳语音语谱图比较 从图中看出,各个信道的耳语音频谱分布差异比较大。d t 、e p 、h i - 、w e 信道 1 1 第一二章耳语音发音特点不匹配信道下耳语音说话人识别研究 低频段的成分比较丰富,而其余四种信道就不存在这样的情况。经分析可能因为d t 等4 种信道是通过笔记本电脑录制的,电脑内部结构中如风扇作用产生的噪声,导致 了上述频谱的变化。共振峰是通过语谱图中的深色程度来表示的,在这8 种信道中, 大致的共振峰分布趋势是相同的,但伴随着信道的不同有的也有一定的差异,比如 m c 信道是通话状态下录制的,语音经过编码,解码之后受到了一定程度的损失,因 而它的频谱成分没有其余7 种信道来的丰富,但是从听觉特性上来看,m c 信道的耳 语音似乎没有经过什么大的变化,但对以后的耳语音说话人识别效果的好坏带来了某 种程度的影响。 通过分析不同信道下的耳语音的时域特征和频域特征,可以得出存在着相当大的 差异,因此不匹配信道下耳语音说话人识别是属于一个新的课题。本课题研究的就是 如何消除这种差异,进而信道补偿,从耳语音中提取出属于说话人的信息,构建说话 人识别系统,使该系统在复杂信道环境下有较强的鲁棒性,进而希望在现实生活中所 采用。 1 2 不匹配信道下耳语奇说话人识别研究第三章基于g m m 的耳语说话人识别系统 第三章基于g m m 的耳语说话人识别系统 说话人识别按照任务可分为说话人辨认( s p e a k e ri d e n t i f i c a t i o n ) 和说话人确认 ( s p e a k e rv e r i f i c a t i o n ) ,说话人辨认是指从给定用户集中把测试语音所属的说话人区分。 出来,系统必须辨认测试语音属于哪一个说话人,因此属于一对多的问题。说话人确 认是给定一个测试语音,然后判断该语音是否为该目标说话人所说,所得的结果为是 还是不是的问题,因此属于一对一的问题。 说话人辨认容易受系统容量的影响,当这个用户集注册的说话人数目越多,那么 它比较的次数也会增加,识别的效果就会下降。说话人确认主要涉及到阈值选取的问 题,取合适的阈值对系统的识别率有着重要的影响,其中有两个重要的指标【2 9 】:一个 是漏警错误率,指目标说话人未被检出的次数比上目标说话人实验的次数,另外一个 是虚警错误率,指非目标说话人被错误检出的次数比上非目标说话人实验的次数。当 阈值变化时,这两个指标也相应变化。当这两个值取相同的值时称之为等错误率 ( e q u a le r r o rr a t e ,e e r ) 。另外,漏警率,虚警率在具体说话人识别任务中两者的 加权相加所得的值称为检测代价函数( d e t e c tc o s tf u n c t i o n ,d c f ) ,所以经常用e e r 和d c f 来判断说话人确认系统的好坏。 说话人识别的大致框架如图3 1 所示,主要分两个阶段,即训练和测试。训练阶 段,系统的每个使用者说出若干训练语句,经过特征提取后,系统据此建立每个使用 者的模板或模型参数。识别阶段,由待识别人说的语音经特征提取后与系统训练时产 生的模板或模型参数进行比较。 图3 1 说话人识别系统基本框图 第三章基于g m m 的耳语说话人识别系统 不匹配信道下耳语音说话人识别研究 3 1 常用的模型训练方法 说话人识别系统关键的步骤是模型的建立,一般模型的建立主要从以下三个方面 分别来考虑,分别是模板匹配法,概率统计法,辨认分类器法。 ( 1 ) 模板匹配法 模板匹配法在训练过程中提取出主要反应说话人的特征向量,这些特征向量能充 分反应说话人的个性特征信息。主要包括动态时间规整法( d t w ) 和基于聚类分析 的矢量量化法( v q ) 【1 1 。两者的区别在于动态规整法在于寻找训练语音特征序列和 测试语音特征序列中的一条最佳匹配序列,然后计算在该匹配状况下的欧氏距离。矢 量量化法类似于标量量化,只是量化的对象变成了矢量,它将训练特征向量通过某种 方式聚类成多个码本,测试时同样对测试特征向量进行量化,计算量化误差,获得识 别结果。 ( 2 ) 概率统计法 概率统计法认为说话人的短时特征如基音、声门增益、低阶反射系数等是模型。 h m m 模型通过训练转移概率矩阵和状态概率分布矩阵,模拟说话人的发音过程,这 里需要充足的语料才能保证模型的稳定性,识别时计算测试语音在状态转移过程中的 最大概率,从而判决说话人。而g m m 模型可认为是单个状态的h m m ,它不需要考 虑状态转移矩阵,训练所需的计算量略低于h m m 。其中g m m u b m 模型是目前的 主流算法,在与文本无关的说话人识别中效果较好。本章对g m m 和u b m 模型将有 详细的阐述。 ( 3 ) 辨认分类器法 辨认分类器法通过对输入数据进行分析,按照一定的规则,建立合适的分类器, 输出所需要的结果。常用的方法有人工神经网络( a n n ) 3 0 1 和支持向量机( s v m ) 【3 l 】。人工神经网络模拟生物感知特性,具有自组织和自学习能力,很强的复杂分类边 界区分能力以及对不完全信息的稳健性,但随着人数的增加可能大到难以训练的程 度,而且训练时可能会得到局部最优,而不是全局最优。支持向量机是建立在统计学 习v c 维理论和结构风险最小原理的基础上,根据有限的样本信息在模型的复杂性和 学习能力之间寻求最佳折中,以期获得最好的推广能力,理论上说支持向量机可以获 得全局最优点,避免局部极值问题。 1 4 不匹配信道下耳语音说话人识别研究第三章基于g m m 的耳语说话人识别系统 3 2 特征参数 常用的语音特征参数一般有l p c 系数,l p c c 参数,m f c c 参数。其中m f c c 参数是基于人耳听觉特性所提取的一种特征参数,广泛运用于正常音说话人识别系统 当中。另外在耳语说话人识别系统当中,该特征参数也可使用。 3 2 1 特征预处理 耳语音的特征预处理主要包括归一化,预加重,分帧,加窗等操作。 ( 1 ) 归一化 由于各个信道的耳语音幅度差异比较大,因此有必要对其先进行归一化操作,相 当于在时域上做了规整。 ( 2 ) 预加重 预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年康复站管理笔试模拟题含答案解析
- 课件《天目》教学课件
- 2025年增强现实技术笔试模拟题集
- 年产2万套分布式驱动及10万套EMB项目可行性研究报告模板-立项备案
- 2025年媒体编辑初级面试题及答案
- 2025年电子商务市场推广考核试题及答案解析
- 2025年安全员考试复习技巧
- 2025年教师安全知识测试题库含答案
- 《道德经》少儿教学课件
- 制作教学音乐课件的意义
- 《带状疱疹》课件
- 神经康复学教案
- 2025年中考作文试题预测及范文
- 2021年秋新教科版六年级上册科学全册表格式教案
- 2025高二政治开学第一课《政好有你 再创佳绩》
- 碳谱定量分析方法
- 机械购销合同电子版
- 2024-2034年中国女式情趣内衣市场发展现状及战略咨询报告
- 五星级酒店总投资估算表及其投资占比
- 【小学体育教学中学生自主学习研究-以S区小学为例(附量表)21000字(论文)】
- 【初中数学】你有多少种画平行线的方法课件 2023-2024学年人教版数学七年级下册
评论
0/150
提交评论