




已阅读5页,还剩58页未读, 继续免费阅读
(通信与信息系统专业论文)语音特征空间映射提高说话人识别性能.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
语音特f i = 空问映匀l 提高蜕话人以, | l 性能摘喽捅要说话人识别就是从说话人的一段语音中提取出说话人的个性特征,通过对这些个性特征的分析和识别,从而达到对说话人进行辨认或者确认的目的。g 煳方法是目前文本无关的说话人识别广泛应用的方法。本文使用g m m 方法,通过实验分析得出了基于g 姗的汉语说话人识别的一些概括性结论。分析了在不同的混合模型数、特征参数m f c c 及l p c c 、不同训练语音长度、不同测试语音长度及不同的预处理条件下的识别性能。由实验结果得出:m f c c 的识别性能优于l p c c :用3 0 秒的训练语音长度去建立说话人模型就足够了,并且m f c c 及l p c c 分别在4 秒和5 秒测试语音长度时误识率达到了0 。接着本文提出了语音特征空间映射的方法并应用于基于g m m 的说话人识别中。实验中采用了1 2 维和1 4 维的l p c c 及m f c c 作为语音特征参数,根据各维语音特征分量在说话人识别中的相对重要性得出初始的映射因子,然后通过本文提出的算法依据最低误识率的准则修正此映射因子以寻求其特征空间的最佳映射。映射后的语音特征空间更具类别的可分性,增强了语音特征中说话人的个性特征,从而提高了识别性能。在本文最后还提出了特征参数子分量分析的4 s 方法,该方法可以分析和评价语音特征参数中语义和说话人个体特征信息。通过d t w 实验分析了l p c 、l p c c 及m f c c 特征参数中语义及说话人特征信息两个子分量的一些特性。关键词:说话人识别g m m 特性分析语音特征空间映射映射因子4 s 方法特征参数子分量作者:许允喜指导教师:俞一彪语音特征空阃映射提高说话人识别性能a b s t r a e ta b s t r a c ts p e a k e rr e c o g n i t i o ni st a s ko fi d e n t i f y i n go rv e r i f y i n gw h oi ss p e a k i n gb ya n a l y z i n ga n dr e c o g n i z i n gs p e a k e r - s p e c i f i ci n f o r m a t i o na b s t r a c t e df r o ms p e e c hw a v e so ft h es p e a k e r g a u s s i o nm i x t u r em o d e li sap o p u l a rs p e a k e rm o d e lf o rt e x t - i n d e p e n d e n ts p e a k e ri d e n t i f i c a t i o na tc u r r e n t t h i sp a p e rp r e s e n t e ds o m ec o n c l u s i v er e s u l t sf o rc h i n e s es p e a k e ri d e n t i f i c a t i o nu s i n gg m mb a s e do ne x p e r i m e n t a la n a l y s i s i nf e a t u r ea n a l y s i s ,t h el p c ca n dm f c cw e r ec o m p a r e df o rt h e i rp e r f o r m a n c e ,t h er e c o g n i t i o np e r f o r m a n c ew a sa l s oa n a l y z e dw i t hd i f f e r e n tm i x t u r ec o m p o n e n t sa n dd i f f e r e n tt r a i ns p e e c hl e n g t ha n dv a r i o u st e s ts p e e c hl e n g t ha n da n o t h e rp r e p r o c e s s i n gc o n d i t i o n a l s a st h er e s u l t ,t h em f c cw a sb e t t e rt h a l ll p c c ,a n da3 0s e c o n d st r a i n i n gs p e e c hl e n g t hi se n o u g hf o rm o d e lc o n s t r u c t i o n ,a n dt h ee r r o rr a t eb e c o m ez e r ow h e nt e s ts p e e c hl e n g t ha r r i v et o4s e c o n d sf o rm f c ca n d5s e c o n d sf o rl p c cr e s p e c t i v e l y - t h e n ,t h i sp a p e rp r e s e n t sap r o e c f i o nm e a s u r eo ns p e e c hf e a t u r e ss p a c ea n di ti sa p p l i e dt os p e a k e ri d e n t i f i c a t i o nb a s e do ng m m i nt h ee x p e r i m e n t ,w eu s e dl p c ca n dm f c co ft w e l v ea n df o u r t e e nd i m e n s i o n sa ss p e e c hf e a t u r e s ,a n db ya n a l y z i n gt h er e l a t i v ei m p o r t a n c eo fs p e e c hf e a t u r e sc o m p o n e n t sf o rs p e a k e ri d e n t i f i c a t i o no b t a i n e di n i t i a lp r o j e c t i o nm o d u l u s a f t e r w a r d s ,a c c o r d i n ga st h ec r i t e r i o no fm o s tl o we r r o rr a t eo fs p e a k e ri d e n t i f i c a t i o nw er e v i s e dt h ep r o j e c t i o nm o d u l u st of i n do p t i m u mp r o j e c t i o no ns p e e c hf e a t u r e ss p a c eb yt h ea l g o r i t h mp r o p o s e di n t h i sp a p e r t h es p e e c hf e a t u r e ss p a c ep r o j e c t e dc a ne a s i l yd i s t i n g u i s hd i f f e r e n ts o r t sa n de n h a n c ei n d i v i d u a l i t yf e a t u r e so fs p e a k e ri ns p e e c hf e a t u r e s s o ,b s eo ft h em e a s u r ei m p r o v e st h er e c o g n i t i o np e r f o r m a n c e i nt h ee n do ft h i sp a p e r , an o v e lm e a s u r ef o ra n a l y z i n gs u b c o m p o n e n to ff e a t u r ep a r a m e t e r ,n a m e d4 s ,i sp r e s e n t e d t h i sm e a s u r ei su s e dt oa n a l y z ea n de v a l u a t es e m a n t i ck n o w l e d g ea n ds p e a k e rf e a t u r ei n f o r m a t i o n a tl a s t , w en堕童堑堡皇塑坚盟堡壹塑重塑型丝壁垒! ! ! 型a n a l y z e ds o m ep r o p e r t yo fs e m a n t i ck n o w l e d g ea n ds p e a k e rf e a t u r ei n f o r m a t i o n ,t w os u b c o m p o n e n t so fl p c ,m f c c ,a n dl p c c ,b yd t we x p e r i m e n t k e y w o r d s :s p e a k e rr e c o g n i t i o n ,g a u s s i o nm i x t u r em o d e l s ,p r o p e r t ya n a l y s i s ,a r o j e c t i o no ns p e e c hf e a t u r e ss p a c e ,a r o j e c t i o nm o d u l u s ,m e a s u r eo f4 s ,s u b c o m p o n e n to ff e a t u r ep a r a m e t e rw r i t t e nb yx uy u n x is u p e r v i s e db yy uy i b i a om邵4 5 9 2 4苏州大学学位论文独创性声明及使用授权声明学位论文独刨性声明本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏少i l ;k 学或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律责任。研究生签名:盗避口期:笙丝竺型学位论文使用授权声明苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。研究生签名:鲨垒蔓日洲签磁:挚日期:沙z 忙“期:汕 2 0 s ) 的语音才能获得稳定的长时语音统计。第二类方法是为对应语音内容的说话人相关特征建模。识别时,将测试语句中的语音声学特征和特定说话者的包含相同语音内容的模型相比较,这种比较主要体现的是说话人差异。一般的与文本有关的说话人汉别方法比如d t w 、h m m 等都可归入这一类。而对于无限制文本来讲,必须在训练或识别之前进行语音切分,不管这种切分是显式的还是非显式的。显式的切分可以用一个基于h m m 的连续语音识别系统作为前端处理,但这种切分几乎没有带来性能的提高,但却增加了计算的复杂度。非显式的切分方法则依赖于非监督的聚类,这种聚类不必给出每类的语音内容,因而对训练来讲不必切分。基于模板的匹配方法,比如矢量量化和k 最邻近原则都可归入这一类。v q 方法在限定说话者使用较小词汇( 比如数字) 时,效果相当好,但由于码书大小的限制,不易直接扩展到无限制文本的情况。和语音识别相似,概率模型法能较好地为声学特征建模并有一定的处理噪声和信道变异的能力,因此h m m 及其各种变化形式在文本相关及无关的说话人识别中都获得很好的应用。与文本相关的说话人识别中,h m m 与语音识别中的应用基本一致。在与文本无关的说话人识别任务中,去掉h m m 中的状态转移概率对识别没有影响,同时,在说话语音特征空间映射提高说话人识别性能第三章说话人识别的模式匹配矗法人识别中使用的h m m 模型结构一般采用各态历经的。第三种方法也是最新的方法就是利用神经网络。神经网络不是为每个说话人训练一个模型,而是训练出一个判决函数来区分一个训练集内的不同说话人。多层感知器( m l p ) 、时延神经网络( ) n n ) t 4 、径向基函数网络( r b f ) 及其改进方法 1 5 ,1 6 1 都在说话人识别中获得很好的应用。另外,文献【1 7 】研究了使用多项式分类器的说话人识别,具有较高的识别性能。一般地讲,神经网络要比每个说话人有一个独立的模型需要的参数少,且识别性能也好,与v q 相当。其主要缺点提,对大多数神经网络来讲,当需要增加一个新的说话人时,整个网络要重新训练。目前,v q 、d t w 、g m m 、h m m 、a n n 等方法都被说话人识别广泛使用。文献 18 对d t w 、g m m 、a n n 的说话人识别进行了性能比较。下面几节分别介绍基于d t w 、v q 及h m m 的说话人识别。下一章将详细介绍基于g m m 的说话人识别。第二节基于d t w 的说话人识别动态时间弯折( d y n a m i ct i m ew a r p i n g ) 是采用动态规划技术( d y n a m i cp r o g r a m m i n g ,即d p ) 将一个复杂的全局最优化问题转化为很多的局部最优化问题一步步的决策。具体的思想是,设参考模式特征矢量序列为r = ,r 2 , ,输入的待识别语音特征矢量序列为t = ( f l ,f 2 一,) ,其中,d t w 算法就是要寻找到一个最佳的时间规整函数,使得待识别语音模式的时间轴,非线性的映射到参考模式的时间轴,最终的目标是使总的累计失真量最小,如图3 1 为时间归整过程示意图,图中的格点为参考模式和测试模式的交会点,要找到一条若干交会点的路径使的总的失真最小。语音特征空问映射提高说话人识别性能第三章说话人识别的模式匹配方法图3 1时间规整过程设时间规整函数为:c = c o ) ,“2 ) ,c ( ) )其中为匹配路径长度,c ( 九) = ( f i n ) ,_ ,( 以) ) 表示第i 个匹配点对是由参考模式的第f i n ) 个特征矢量与待识别的模式第歹( h ) 个特征矢量构成的。两者间的失真值d ( ( 雄) f ,( 疗) ) 称为局部匹配距离,d t w 算法就是通过局部优化的方法实现加权距离总和最小,即:p ( 【舻t j ( 。) ) + 呒】d = m i n 旦矿一。h 2 i加权函数的选取考虑两个因素:1 、根据第n 对匹配点前一步局部路径的走向来选取,惩罚4 5 度方向的局部路径,以适应,的情况。2 、考虑语音各部分给不同权值加强某些区别特征。为了保证匹配路径不违背语音信号各部分特征的时间顺序,对规整函数需要做以下约束:( 1 ) 单调性:如) i ( n 一1 ) ,_ ,( 疗) j ( n 一1 )( 2 ) 起点和终点的约束:一般是要求f ( 1 ) = j o ) = 坂) = ,;_ ,( ) = ,( 3 ) 连续性:一般路径不允许跳过任何一点,即:f ( 珂) 一f i n 1 ) s 1 ( 拧) 一j ( n 1 ) 1( 4 ) 最大的规整量不超过某一极限,即l 如) 一,( ) 1 m ,m 称为窗宽,另外还会对搜索区域进行限制,如限制在平行四边形内等。基于上述的这些概念,给出d t w 算法的基本步骤:语音特征空阃映射提高说话人识别性能第三章说话人识别的模式匹配方法首先,定义最小累计失真函数g ( f ,) ,函数表示到匹配点对( f ,) 为止前面所有可能的路径中最佳路径的累计匹配距离,有如下的等式,g ( f ,) = m i n g o l ,1 ) + d ( f ,屯) )( f 1 ,问表示局部路径( f 1 1 ) 茳芬钓起点,为路径的权值,与局部路径的选取有关。( 1 ) 初始化:令i ( o = 朋) = 1 ,g ( 1 ,1 ) = 2 d ( a , ,6 1 )、10当( f ,) r烈7 j 2 1 h靴,) 畦r h u g e【当u ,) 畦r 为平行四边形的约束区域,顶点为( 1 ,1 ) 和( i ,j ) 。( 2 ) 递推求累计距离:g ( j ,) = m i n g ( i 一1 ) + d ( 口f i ;6 ,) + w a o ;g ( j i 一】,一1 ) + d ( 口f ;6 ,) + ( 2 ) ;g ( i ,一1 ) + d ( a i ,6 ,) + ( 3 ) f = 2 , 3 ,;j = 2 , 3 j ;( 1 ,_ ,) r最终的加权距离一般要用嵋来补偿,当加权函数取得合适时,有嵋= ,+ ,因此最终距离为:d = g ( i ,d ) ( i + j )( 3 ) 回溯求出匹配点对,根据上面求出的路径,由( ,) 向前回溯到起点( 1 ,1 ) 。不过该过程对于识别并没有必要,得出匹配距离即可,只有在求聚类中心时才必须回溯。d t w 算法能够保证参考模式和待识别的模式沿着时间轴动态的匹配,实现最优非线性时间对齐,使得匹配的距离最小,距离最小的参考模式所对应的类即是识别的结果。第三节基于v q 的说话人识别矢量量化的基本原理:将若干个标量数据组成一个矢量( 或者是从一帧语音数据中提取的特征矢量) 在多维空间给予整体量化,从而可以在信息量损失较小的情况下压缩数据量。量化区间对应于胞腔( v o r o n o ic e l l ) ,胞腔是多维空间中的一个区域;量化值则对应于量化矢量,它是各个胞腔的形芯。设矢量维语音特征空间映射提高说话人识别性能第三章说话人识别的模式匹配方法数为k ,则n 个胞腔各有一个k 维的量化矢量,即j ,。,y 2 儿y 。r 。量化矢量也称为码字,这n 个码字的集合则称为一个码本。显然,对于编码输出为b 比特二进制数的矢量量化器,其码本大小为n = 2 6 ,即码本为:k = 弘,i = l 2 ,n 利用矢量量化技术时,设计一个好的码本是很重要。这关键是如何划分n 个区域边界。这需要用大量的输入信号矢量,经过统计实验才能确定。这个过程称为“训练”或“学习”,它的任务是建立码本。它应用聚类算法,按照一定的失真准则,对训练数据进行分类,从而把训练数据在多维空间中划分成一个个以形心( 码字) 为中心的胞腔,常用l b g 算法来实现。下面给出以欧氏距离计算两个矢量之间的畸变时,l b g 算法的框架 1 4 。( 1 ) 将形成v q 码本所需全部输入矢量x 存储于计算机内存中。全部x 的集合用s 表示。( 2 ) 设置迭代算法的最大迭代次数l 。( 3 ) 设置畸变改进阂值6 。( 4 ) 设置m 个码字的初值o ,y 2 0 o 。( 5 ) 设置畸变初值d ) = o o 。( 6 ) 设置迭代初值m = l 。( 7 ) 根据最近邻准则将s 分成m 个子集s l c ) , s :,。即当x s i _ 时,下式应成立:d ( x ,y ,”。) d ( x ,t ”。) ,v i ,i ,( 8 ) 计算总畸变d ( 卅j :m、d ”- - z d ( x ,y ( m - i ) )1 = 1t e _ ( 9 ) 计算畸变改进量a d 的相对值6 ( ”) :j t 呻:丝竖:! 望! = 竺d ”d c “( 1 0 ) 计算新码字y i _ 1 ,l 帅,似1 :语音特征空间映l 时提高说话人识趴性能第三章说话人识别的模式匹配方法e 佃) = 告xv lx e 引。( 1 1 ) 占( 卅 占?若回答为是,转入( 1 3 ) 执行。若回答为否,转入( 1 2 ) 执行。( 1 2 ) m l ? 若回答为否,转入( 1 3 ) 执行。若回答为是,令m = m + 1 ,转入( 7 ) 执行。( 1 3 ) 迭代终止,输出一佃,y 2 忡,押,作为码字,并且输出总畸变d ( 。( 1 4 ) 结束。对于上列算法,需要做一些说明和进一步的讨论。第一,为了使迭代计算不致无限循环4 卜去,设置了艿和l 两个闽值参数。万的值设的远小于l ,当6 州 占时,表明再进行迭代运算畸变的减小是极有限的,这时可停止运算。l 是限制最大迭代次数的参数,以防止占设置的较低时迭代次数过多。第二,此算法的关键是第( 7 ) 和第( 1 0 )两项。第( 7 ) 项完成的工作是以第( m - 1 ) 步形成的m 个码字e 汩。为基准,将全部x 的集合按照最近邻准则划分为m 个子集s ,_ ,一1 m 。每一个子集可以看成一个小区,在模式识别理论中称为“聚类区”。由此形成的划分一般也称为v o r o n o i 划分,对于t 佃。而言,它所给出的总畸变j d 忡,是最小的。第( 1 0 ) 项完成的工作是按照第( 7 ) 项得到的v o r o n o i 划分求出新的码字f 忡,。当采用欧氏距离来计算畸变时,t 押,应是s j 哪中所有矢量的质心。由于y j 卅。不一定是s ;忡,矢量的质心,用y 伸,替代i “,必然能使总畸变下降。下一轮迭代计算中,以枷为基准形成新的v o r o n o i 划分s i ( 卅+ ”时,总畸变显然又低于前一步的划分s 。卅,。这样,每完成一次迭代计算,总畸变必然有所降低。因此这个算法是种使总畸变单调下降的算法。按照v o r o n o i 划分,一个v q 系统的总畸变是它的m 个码字决定的状态空间点的函数。如果这是一个凸函数,也就是说此函数只有一个全局最小点而没有局部最小点,那么这一使总畸变单调下降的算法将使迭代计算得到的解收敛到全局最小点上。然而在绝大部分实际情况中,该函数并非凸函数,即语音特征空问映射提高说话人识别性能第三章说话人识别的模式匹配方法有全局最小点又有多个局部最小点。迭代算法的解收敛到哪个最小点取决于m 个码字初值。虽然随即将给出若干初值设置的方法,但没有_ 种方法能够保证能收敛到全局最佳解。一种解决的方法是设置多组不同的初值,分别进行迭代计算,从中找出一个最佳解。这虽然增加了得到最佳解的机会,但是计算量庞大且不能保汪必然获得最佳解。彻底解决的方法是采用模拟退火的算法,其代价是付出非常大的计算量。应用v q 的说话人识别有两个步骤:一是利用每个说话人的训练语音,建立参考模型码本;二是对待识别话者的语音的每一帧和码本码字之间进行匹配。由于v q 码本保存了说话人个性特征,这样我们就可以利用v q 法来进行说话人识别。在v q 法中模型匹配不依赖于参数的时间顺序,因而匹配过程中无需采用d t w 技术,而且这种方法比应用d t w 方法的参考模型存储量小,即码本码字小。我们可以将每个待识别的说话人看做是一个信源,用一个码本来表征,码本是从该说话人的训练序列中提取的特征矢量聚类而生成,只要训练的数据量足够,就可以认为这个码本有效地包含了说话人的个性特征,而与说话的内容无关。识别时,首先对待识别的语音段提取特征矢量序列,然后用系统已有的每个码本依此进行矢量量化,计算各自的平均量化矢量。选择平均量化矢量最小的那个码本所对应的说话人作为系统识别的结果。应用v q 的说话人识别过程的步骤如下:1 洲练过程( 1 ) 从训练语音提取特征矢量,得到特征矢量集:( 2 ) 通过l b g 算法生成码本;( 3 ) 重复训练修正优化码本;2 识别过程( 1 ) 从测试语音提取特征矢量序列墨,五x 。;( 2 ) 由每个模板依次对特征矢量序列进行矢量量化,计算各自的平均量化误差:语音特i d :空问映射提商说话人识另4 性能第三章说话人识别的模式匹配方法b = - - 埘- 1 石亏- m 。i 。n d ( x 一,咖式中,y , ,= 1 , 2 ,工,f - 1 , 2 ,n 是第i 个码本中第,个码本矢量,而d ( x 。,) 是待测矢量z 。和码矢量之间的距离;( 3 ) 选择平均量化误差最小的码本所对应的说话人作为系统的识别结果。v q 方法已成功应用于说话人识别中,是目前文本无关的说话人识别方法的评估基准。近期研究主要集中在v q 的改进算法中e 1 9 2 0 。第四节基于i - i m m 的说话人识别h m m ( 隐马尔科夫模型) 作为描述随机过程的模型,早已经为数学家和工程师所熟悉,不过它用于语音识别或说话人识别还是近几十年的事情。它成功应用于语音识别或说话人识别的关键在于较好的描述了语音信号的随机特性,表征了语音信号的声学特性的本质,并且有了有效的应用这一模型的训练和识别算法,使得h 姒理论在实际工作中的应用成为可能。语音的产生是由于声门处的气流冲击声带产生振动,再通过声道的调制变成声音。声道的变化决定了语音信号的非平稳随机特性,声道的下一时刻仅与当前状况有关,而与历史无关,所以可以用一个一阶马尔科夫过程来描述语音信号。对于观察者来说,只能观察到语音信号的状态输出而不能直接观测到马尔科夫过程的内部状态序列及转移过程,因此这种过程称为隐马尔科夫过程。h m m 模型的描述用符号丑= ( 爿,鼠石) ,设一个模型有n 个状态,删模型一般可以分为离散删( d i - i 姗) 模型、连续删模型( c 删) 和半连续h m m ( s c h 栅) 模型,本文仅以d i - i 埘为例简要介绍一下相关基础知识。图3 2 为算法的示意图,状态为s ,s ,观察序列为q ,q qo语音特征空间映射提高说话人识抑j 性能第三章说话人识别的模式匹配方法图3 2h m m 算法示意图石_ 【雹,】为初始状态分布,巧= j ) ( 吼= f ) ,i = 1 ,2 n爿= ) 。为状态转移概率矩阵,a 口= j d ( g 。= ,iq t l = f ) ,1 ,_ ,s nb = 舻。 。为观察值的概率矩阵,6 = j d ( 圪( f ) l 吼= )1 _ ,n ,1 兰k s mm 为矢量量化器的码书大小,z a t ) 表示t 时刻的观察符号为k 。h m m 模型用于语音识别,要解决三个基本问题,1 识别问题:对于给定的观察序列o = ( d l ,d 2 q ) ,求模型 产生。的概率p ( 0 1 名) 。常用算法为v i t e r b i 算法和前后向算法。前向算法:定义前向变量( f ) ,q ( f ) = 尸( o t ,d 2 口q l = f | 五)初始化:口l ( f ) = x , b , ( 0 01 i n递归:;i t t + 1 ( j ) = f a , ( o l b j ( o , + 1 )1 - t 蔓t - i1 s ,蔓n终止:j ( o l 旯) = 铆( t )后向算法:定义后向变量屈( f ) = 尸( c i 。q 。qi 吼= f ,z ) ,初始化:屏( f ) = 1 ,1 f nn递归:屈( i ) = 吩6 ( ) 段;( ) f = ,一1 ,t - 2 ,1 ,1 醒。1k 。矿e 2 醒。门限值设置可通过观察协方差矩阵来定。4 1 3g m m 模型的识别算法给定一个语音样本,说话人辨认的目的是要确定这个语音属于n个说话人中的哪一个。在一个封闭的说话人集合里,只需要确认该语音属于语音库中的哪一个说话人。在辨认任务中,目的是找到一个说话者i ,其对应的模型丑使得待识别语音特征矢量组x 具有最大后验概率p o t , x ) 。基于g m m 的说话人辨认系统图4 1 所示:图4 1根据b a y e s 理论,最大后验概率可表示为:p ( 旯,) :e ( x 4 ) e ( 4 )一7h z 、语音特征空间映射提高说话人识别性能第四章基于g m m 的汉语说话人识别特性分析在这里:rp ( x l x ) = e ( x ,i x )其对数形式为:l o g p ( x 1 ;l ) = l o g p ( x ,五)因为j p ( 丑) 的先验概率未知,我们假定该语音出自封闭集里的每个人的可能性相等,也就是说:1尸( 五) 2 万t ,1 兰s n对于一个确定的观察值矢量x ,p ( x ) 是一个确定的常数值,对所有说话人都相等。因此,求取后验概率的最大值可以通过求取p ( x 1 2 , ) 获得,这样,辨认该语音属于语音库中的哪一个说话人可以表示为:,= a r g m a x p ( x 2 , )在这里,i 即为识别出的说话人。第二节基于g m m 的说话人识别的模式训练本实验使用c 一均值法( c - m e a n s ) 来初始化模型参数。该算法的步骤为:( 1 ) 任选c 个模式特征矢量作为初始聚类中心:毛,z :,0 。,令k :o 。( 2 ) 将待分类的模式特征矢量集h ) 中的模式逐个按最小距离原则分划给c 类中某一类,即如果d ”“= m ! n t d f 】,i = 1 , 2 ,nj则判坼壮+ 。式中d q ( k ) 表示和缈,的中心z ,n 的距离,上角标表示迭代次数。于是产生新的聚类,肚“1 ( = 1 , 2 c ) 。( 3 ) 计算重新分类后的各类心语音特征空问映射提高说话人识甜性能第四章基于g m m 的汉语说话人识别特性分析“) = 古。奢,一,2 ,c式中疗,枷为国,耻“,类中所含模式的个数。( 4 ) 如果z ,忙“= z j ( k ) ( = 1 , 2 ,- c ) ,则结束;否则,k = k + 1 ,转至( 2 ) 。本文实验时设计了一个结构体a c l u s t e r 和一个类c o m c l u s t e r 实现了该聚类算法。s t r u c ta c l u s t e rd o u b l ec e n t e r :用来存放每一类中心的模式下标d o u b l ec e n t e r v e c t o r m a x f r a m e d i m :用来存放每一类中心的各维矢量i n tm e m b e r m a x p a f 1 e r n ;存放该类中所有模式下标i n tn u m m e m b e r s :存放该类中的样本数目) :c i a s sc o m c l u s t e rfp r i r a t e :d o u b l ex m a x f r a m e d i m :待分类的模式矢量a c l u s t e rc l u s t e r m a x c l u s t 脉 :聚类参数数组i n td e m e n s i o n :矢量维数i n tn u m p a t t e r n s :给模式矢量分类的类别数d o u b l ed i s t m a x p a t t e r n m a x p a i t e r n :距离矩阵v o i dd i s t r i b u t e s a m p l e s ( ) :将样本分到相应的类中v o i dc a l c n e w c u s t c e n t e r ( ) :计算新的聚类中心d e u b l ec a l c d i s t a n c e ( i n t ,i n t ) ;1 1 计算输入样本到聚类中心的距离i n tf i n d c l o s e s t c l u s t e r ( i n t ) :找虽小的距离返回属于第几类p u b l i c :s e t c l u s e r p a r a ( ) :计算最后得到的各个类中的样本数占总样本数的比值、均值、方差d a r a p u t o u t ( ) :参数输出j :接着e m 算法使用c 一均值法得到的初始模型参数再进行迭代聚类。本实验设计了一个a p a r a m e t e r 结构体和e m t r a i n 类s t r u t ta p a r a m e l e t d o u b l ep it 儿m :口i i 练数据落在假定的高斯分量序号的概率d o u b l eu d 1 】:模型参数的均值d o u b l ee 】 d 1 :模型参数的方差d e u b l ep :模型参数的混合权值)语音特征空间映射提高说话入识剐性能第四章基于g m m 的汉语说话人识别特性分析c l a s se m t r a l nf p r i v a t e :a p a r a m e t e ra c h a r a c t e r ;模型参数d o u b l ex 】 d1 :用来存放语音特征参数序列i n tt r a i n l e n g t h :语音特征参数序列的帧长j u ts t a t e :高斯分量序号i n tt :语音特征参数序列中的第几帧数i n td e m e n s i o n :语音特征参数的维数v o i dc o m p o d e n s i t y ( ) :计算高斯函数值v o i dp o s t e r i o r i ( ) :计算训练数据落在假定的高斯分量序号的概率v o i dw e i g t h ( ) :计算混合权值v o i dm e a n s 0 :计算均值v o i dv a r i a n c e 0 :计算方差p u b l i c :v o i dg e t ( 1 e tb e m e n s i o n ,i n tt r a i n l e n g t h ) :得到语音特征参数序列的帧长和矢量维数i mr e a d p a t t e m s ( d o u b l ex 【】【d 1 ) ;读入需训练的特征参数v o i dg e t l n i t c l u s t e r s 0 ;,得到由k 一均值算法计算所得的初始参数v o i di t e r a t i o n ( ) ;i j i i 练迭代v o i ds h o w c l u s t e r s0 :显示v o i dw r i t e c l u s t e r s ( ) ;写入文件d o u b l eg a u s s i a n d e n s i t y ( d o u b l ex i d 1 l , i n tt , d o u b l ep 【1 ,d o u b l eu t 1 d i l ,d o u b l ee l 【l ( d 1 】) 计算最大后验概率)最后输入3 0 秒语音的l p c c 特征参数x 1 4 、参数维数d e m e n s i o n = 1 4 和帧长f r a m e c o u n t = 2 5 8 3 得出的结果见附录。第三节基于g m m 的说话人识别实验与分析4 3 1 实验系统介绍实验中训练和测试语音数据在普通实验室环境下,用普通声卡分别进行录制,采样率为1 1 0 2 5 h z ,量化为1 6 b i t 。参加实验的人数共有4 0 人( 2 0 个男生,2 0 个女生) ,每个人录了7 段1 2 秒的语音。前3 段训练,后4 段识别。软件环境:系统在w i n d o w s 2 0 0 0 平台上,利用v i s u a l c + + 5 0 完成语音特征空阃映射提高说话人识剐性能第四章基于g m m 的汉语说话人识别特性分折l 2 7 j 。硬件环境:程序在p 4 机器上完成,语音采用c r e a t i v e 公司声卡录入,外加带有话筒的耳机。预处理部分:输入的语音信号取每帧长2 5 6 点,帧移1 2 8 点,加h a m m i n g 窗,预加重系数取0 9 5 。实验中尽可能的去掉了语音中的那些无声段,协方差矩阵取为对角矩阵。附程序的运行界面:例1 :参考模式训练模块,训练第一个人的运行情况。例2 :程序主界面。语音特征空间映射提高说话人识别性能第四章基于g m m 的汉语说话人识别特性分析4 3 2 实验结果与分析国内研究者也做了一些基于g m m 模型的说话人识别方面的研究 2 2 ,2 8 】,但对其识别性能的全砸分析与研究的文章还未见报道。本文使用g m m 模型建立了一个4 0 个说话人辨认的实验。实验使用不同的混合模型数、l p c c 和m f c c 作为说话人特征参数、不同训练语音长度、不同测试语音长度及不同语音预处理条件下得出了说话人识别的误识率,分析了混合模型数、特征参数l p c c 和m f c c 、训练语音长度、测试语音长度及语音预处理对说话人识别特性的影响,得出了基于g m m 的汉语说话人识别的一些概括性结论。不同混合模型数的识别特性比较:语音特征空间映射提高说话人识别性能第四章基于g m m 的汉语谗话人嘲0 壁j 篷兰逝2 521 51o 501 21 62 0图4 2图4 2 是在l p c c 下不同混合模型数的误识率( ) ,是在3 0 秒训练时间下及2 秒和3 秒测试时间下得到的。由图可得出在1 6 个混合模型数下误识率最低。这说明存在一个足够能建立说话人模型的最小混合模型数。再增加混合模型数误识率会提高。以一f 的实验数据均在1 6 个混合模型数下得出的。m f c c 参数与l p c c 参数的识别性能比较:+ m f c c 一一。眦k,= :,、lz345图4 3图4 3 是在3 0 秒训练时间下的不同测试时间的误识率。由图1可得,m f c c 的误识率明显小于l p c c 的误识率。虽然l p c c 和m f c c反映的都是说话人的短时频谱,但m f c c 是基于听觉特性的。可知m f c c 在说话人识别中更能区分不同说话人的短时频谱特征。而且,m f c c 在有噪环境下也工作得比较好【2 1 】。另外,1 5 、2 0 、2 5 秒的f f65432l0语音特征空间映射提高蜕话人识别性能第四章基于g m m 的汉语说话人识别特性分折练时间下也得到同样的结论。不同训练时间时识别性能分析:图4 4 是在m f c c 参数和一定测试时间下误识率随训练时间的变化图:3 532 521 5lo 5o1 52 02 53 03 5图4 4增加训练时间或增加测试时问可以降低识别率,这是显然的。但训练时间和测试时间在实际应用中受到限制。所以在满足一定误识率的条件下,训练时间或测试时问越短越好。所以在满足系统的一定性能要求下,在一定训练时间下存在一个最佳测试时间及在一定测试时间下存在一个最佳训练时间。在较长测试时间下,即使用较短的语音去训练说话人模型也能得到较高的识别性能,如在5 秒测试时问一卜- ,2 0 秒的训练语音误识率就达到了o 。实验还可得,对于汉语,3 0 秒的训练时问对建立说话人模型就足够了,再增加训练时间识别率几乎没有降低。不同测试时间时识别性能分析:语音特征空问映射提高说话人识别性能第四章基于g m m 的汉语说话人识别特性分析2 521 51o 5o:篇一3 啡一os 、。一2345图4 5图4 5 是在m f c c 参数和一定训练时间下误识率随测试时间的变化图。从图3 看出在2 0 、2 5 、3 0 秒训练时问下,5 秒的测试时间时误识率都达到了0 。图2 在3 0 秒的训练时间下,m f c c 及l p c c 分别在4 秒和5 秒测试语音长度时误识率达到了0 ,再增加测试时间就没有意义了。所以这时最佳测试时间分别为4 秒和5 秒。由此可得,对于汉语,5 秒的测试时问就足够了。在不同预处理条件下的识别性能分析:一3v 承。i t i 一。一尔1 ,十z 、ll“一卜一_ ,。一一2345图4 6图4 6 是在不同预处理条件下1 到5 秒测试时间的误识率。实验使用m f c c 特征参数。条件l 是上述的预处理条件。条件2 为:没有预加重,加矩形窗,每帧长2 0 0 点,无交叉。预处理条件l 下的误识率明显低于预处理条件2 下的误识率。这说明了h a m m i n g 窗、预语音特征空间映射提高说话人识别性能第四章基于g m m 的汉语说话人识别特性分析加重系数及帧重叠对误识率的影响程度。从实验结果看,m f c c 参数的误识率明显低于l p c c 参数;并得出了基于g m m 的汉语说话人识别在不同性能要求下最合适的训练时间及测试时间及语音预处理部分对识别率的影响程度。g m m 模型有效地解决了模型说话人语音特征矢量的概率分布问题。从实验效果来看,它的性能明显高于传统方法。但g m m 也存在一些缺点,如它不能模型说话人动态特征参数等。今后,可在特征参数方面或结合其它说话人模型进行改进。如特征参数结合小波变换、对特征参数进行某种变化等。下面一章即通过语音特征空间映射的方法提高了基于g m m 的说话人识别的性能。语音特征空问映射提高说话人识别性能第五章特征空间映射用于说话人识别第五章特征空间映射用于说话人识别说话人识别的最根本问题是如何从语音信号中提取表征说话人的个性特征。它能够有效地区分不同的说话人,但又能在同一说话人的话音变化时相对保持稳定。语音的特征提取本质上起到了降维的作用,用较少的维度表现时域上的语音信号。目前,常用的语音特征包括p i t c h ( 基音) 、f o r m a n t ( 共振峰) 、m f c c ( m e l 频率倒谱系数) 、l p c c( 线性预测倒谱系数) 、以及l s p ( 线谱对系数) 等等,其中m f c c和l p c c 是说话人识别中广泛使用的语音特征参数。这些特征参数都是从语音信号中得到的,它们既包含说话人的语音特征,又包含说话人的个性特征,并且相互交织在一起,以复杂形式存在于语音参数中。语音特征参数在不同程度上反映了这些对刻画说话人的身份特征是很有用的声道结构。本文通过对这些特征参数组成的特征空间进行某种映射,提高特征空间中类别的可分性以更好地区分不同的说话人,从而提高了识别率。第一节特征空间映射方法语音特征参数各维矢量对识别率的贡献是不同的。每个说话人的语音特征空问具有概率统计特性。说话人识别的任务就是对这些特征空间中的特征矢量进行模式分类。而对说话人识别来说,目前所采用的语音特征参数组成的特征空问不是最优的。那么通过把语音特征空问变换或映射成能最佳地区分不同说话人的特征空问,说话人识别的最终目标就是设计一个把语音特征矢量分成不同类别的模式识别系统。映射的目的就在于加强语音特征空间中类别的可分性,减小特征空间的类内距
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 关于雇佣司机的合同协议
- 出租屋低价装修合同协议
- 三人行课件教学课件
- 农村建房木工支模协议合同范本
- 小儿推拿app课件
- 小儿手足口病的护理
- 期货从业资格之《期货法律法规》综合提升练习试题带答案详解(黄金题型)
- 期货从业资格之《期货法律法规》自测题库及答案详解【必刷】
- 难点详解湖北省武穴市中考数学真题分类(数据分析)汇编达标测试试卷(含答案详解)
- 期货从业资格之《期货法律法规》考试综合练习带答案详解(模拟题)
- 物流园区安全管理制度
- (2025)事业单位考试(面试)试题附答案
- 生物信息学基础知识与应用考试题及答案2025年
- 2025年国际档案日知识竞赛试题库300题(含答案)
- 遗体整形协议书
- 特斯拉MODEL X用户手册
- 江苏南通2025年公开招聘农村(村务)工作者笔试题带答案分析
- 2025-2030中国太阳能电池板清洁系统行业市场现状供需分析及投资评估规划分析研究报告
- 2025年初中语文教师招聘面试八年级下册逐字稿大自然的语言
- 2025-2030加工芒果产品行业市场现状供需分析及投资评估规划分析研究报告
- 章义伍流程管理
评论
0/150
提交评论