(信号与信息处理专业论文)基于高斯混合模型的与文本无关说话人识别的研究.pdf_第1页
(信号与信息处理专业论文)基于高斯混合模型的与文本无关说话人识别的研究.pdf_第2页
(信号与信息处理专业论文)基于高斯混合模型的与文本无关说话人识别的研究.pdf_第3页
(信号与信息处理专业论文)基于高斯混合模型的与文本无关说话人识别的研究.pdf_第4页
(信号与信息处理专业论文)基于高斯混合模型的与文本无关说话人识别的研究.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要摘要说话人识别始于2 0 世纪3 0 年代,从2 0 世纪6 0 年代开始日益成为当今的一个研究热点。说话人识别具有广泛的应用前景,如保安、公安司法、军事、财经和信息服务等领域。正因为说话人识别具有如此广阔的应用前景,国内外许许多多的工作者投身于这一领域的研究中,使得说话人识别方面出现巨大发展。但它还远远没有成熟。本文主要从识别模型的训练、判别方法和语音降噪等方面作研究探讨。在识别模型的训练方面,主要研究高斯混合模型的模型训练。第一,利用最大似然估计获取初始模型,然后用e m 算法的重估结果对初始模型按一定比例进行修正,最终获得较优模型。第二,把第一种方法获得的部分最优个体作为遗传算法的初始种群,通过交叉、变异和选择,最后收敛到最优模型。遗传算法采用浮点编码,交叉和变异在一个种群的胜者组和败者组同时进行,最后改选择为优胜劣汰。判别方法方面,对一段语音中的帧得分进行不同变换,然后获得最终的得分,从而改善识别效果。语音降噪方面,先用谱减法对语音作轻度的消减,避免出现音乐噪声,然后用小波降噪方法对它作进一步的噪声消减。关键词:说话人识别,高斯混合模型,改进e m 算法、改进遗传算法、语音降噪。a b s t r a c ta bs t r a c ts t a r t i n gi n1 9 3 0 s ,s p e a k e rr e c o g n i t i o nh a si n c r e a s i n g l yb e c o m eah o t s p o to fr e s e a r c hs i n c e1 9 6 0 s i tc a nb ea p p l i e dt oan u m b e ro ff i e l d s ,s u c ha ss e c u r i t y , j u s t i c e ,m i l i t a r ya f f a i r s ,f i n a n c ea n ds e r v i c e s b e c a u s eo ft h a t ,l o t so fs c i e n t i f i cr e s e a r c h e r sa r ei n v o l v e di nt h er e s e a r c h ,m a k i n gg r e a td e v e l o p m e n t h o w e v e ri ti sn o tr i p ev e r ym u c h t h i sp a p e rm o s t l ye x p l o r e si nt h et r a i n i n go fs p e a k e rr e c o g n i t i o nm o d e l s ,t h em e t h o do fd e c i s i o na n dt h en o i s er e d u c t i o no fs p e e c h i nt h et r a i n i n go fs p e a k e rr e c o g n i t i o nm o d e l s ,w ei n v e s t i g a t et h et r a i n i n go fg a u s s i a nm i x t u r em o d e l s t h ef i r s t ,u t i l i z i n gt h em a x i m u ml i k e l i h o o de s t i m a t et og a i ni n i t i a lm o d e l s ,w em o d i f yt h e s ei n i t i a lm o d e l sw i t ht h ee x p e c t a t i o nm a x i m u ma l g o r i t h ma c c o r d i n gt oar a t i o t h e nw eo b t a i nm o r eo p t i m a lm o d e l s s e c o n d l y , u s i n gs o m eo fr e s u l t st h a tt h ef i r s tm e t h o da t t a i n sf o rt h ei n i t i a lg r o u p ,t h eg e n e t i ca l g o r i t h mc o n v e r g e st ot h em o s to p t i m a lm o d e l sb yc r o s s o v e r s ,m u t a t i o n sa n ds e l e c t i o n s t h eg e n e t i ca l g o r i t h mu t i l i z e st h ef l o a t i n g - p o i n te n c o d i n g c r o s s o v e r sa n dm u t a t i o n sa r ee x e c u t e di nt h ew i n n i n gg r o u pa n dt h ef a i l i n gg r o u po fag e n e r a t i o ns i m u l t a n e o u s l y f i n a l l y , t h eo p t i m a lw i na n dt h ep o o rf a i l i nt h em e t h o do f d e c i s i o n ,m a k i n gt r a n s f o r m st ot h ef r a m es c o r e so f t h et e s tu t c e r a n c e ,w ec o m p u t et h ef i n a ls c o r e ,i m p r o v i n gt h er e s u l to fs p e a k e rr e c o g n i t i o n i nt h en o i s er e d u c t i o no fs p e e c h ,s p e c t r u ms u b t r a c t i o ne l i m i n a t e st h en o i s es l i g h t l yf i r s t l y ,a v o i d i n gt h em u s i cn o i s e t h e n , n o i s er e d u c t i o nm e t h o dt h a tu s e st h ew a v e l e tr e d u c e st h en o i s ef a r t h e r k e yw o r d s :s p e a k e rr e c o g n i t i o n ,g a u s s i a nm i x t u r em o d e l s ,a d v a n c e de x p e c t a t i o nm a x i m u ma l g o r i t h m ,a d v a n c e dg e n e t i ca l g o r i t h m ,n o i s er e d u c t i o no fs p e e c h 菊爵潭丽再夏i i学位论文独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意,签名:里室堑墨日期:址矽关于学位论文使用授权的说明东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致,除在保密期内的保密论文外,允许论文被查阅和借阅可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办理。签名:阻导师签名:兰业日期:业东南大学硕士毕业论文第一章绪言1 1 研究说话人识别的意义语音是人的自然属性之一,由于各个说话人发音器官的生理差异以及后天形成的行为差异,每个人的语音都带有强烈的个人色彩。因此每个人的语音中蕴含着与众不同的个人特征如果能从每个人的语音中提取出他或她的个人特征那么我们就可以把这些作为他们的标识,从而在不同场合利用他们的语音来鉴别他们的身份。那么利用语音鉴别他们的身份有什么好处呢?用语音来鉴别说话人的身份有着许多独特的优点。对于正常人来说语音是人的固有特征,不会丢失或遗忘;每个人的声带、咽喉、口腔和鼻腔的构造不同,而且每个人在肺部收缩,压迫气流由支气管经过声门和声道的方式不同,导致每个人的语音特征有极强的个性很难模仿具有个人特性的唯一性;语音信号采集方便,系统设备成本低;另外利用电话网络还可实现远程客户服务等等。上述的种种优点使得说话人识别在许多领域具有广泛的应用前景。在保安领域,可以利用说话人识别作为出入的凭证,如用特定人的声音实现机密场所的出入人员的检查;用工厂职工的口令实现职工签名管理等。在公安司法领域可以利用说话人识别作为罪犯身份鉴定的手段如判断犯罪现场记录的声音是多个嫌疑犯中的哪一个人的声音,有时还可以判断出嫌疑犯中并不包含真正的罪犯,从而使公安司法领域在鉴别罪犯和破案中有了更强的能力。获得更好的效果。在军事领域,可以利用说话人识别进行指挥员鉴别,然后判断不同的指挥员所处的位鼍,获取敌方作战部署的意图从而在战争中可以知已知彼为最终的胜利增加筹码。在财经领域,可以利用说话人识别作为身份确认的有效手段,如电话预约业务中的声音确认自动转账会馆、余额通知和股票行情咨询等等。在信息服务领域,同样可以利用说话人识别作为身份确认的工具,如自动信息检索或电子商务等i n t e r e e t 信息服务中的声音身份确认等等。在医学应用中,可利用说话人识别系统响应患者的要求,从而实现对机器假肢的控制,避免任何都能控制该假肢的弊病。1 2 说话人识别的概念及其分类自动说话人识别( a u t o m a t i cs p e a k e rr e c o g n i t i o n :a s r ) ,是从说话人的一段语音中分析和提取出说话人的个性特征,自动确定说话人是否在所登记的说话人的集合中以及说话的人是谁的过程。很久以来它就是一个既有巨大吸引力而又有相当难度的课题。说话人识别又可以划分为两个范畴,即说话人辨认( s p e a k e ri d e n t i f i c a t i o n ) 私i 说话人确认( s p e a k e rv e r i f i c a t i o n ) 。前者是把待测说话人的语音判定为属于语音库中多个参考人之中的某一个,是多者择一的问题。后者则是根据待测说话人的语音,确定是否与其所声称的参考说话人相符,这种确认只有两个结果或是肯定( 即得到确认) ,或是否定( 拒绝承认) 。另外对于说话人认识别来说不管是辨认还是确认,都可以按照话语的文本可分为与文本有关( t e x d e p e n d e n t ) 的说话人识别和与文本无关( t e x t i n d e p e n d e n t ) 的说话人识别。其中与文本有关话者识别可以采用很多方法。由于己知文本,提供了大量的信息因此这些方法能获得较好的效果。然而,对于用户来说固定的文本可能很不方便。而且,当说话人不合作或在日常会议中进行确认时与文本有关的话者识别就不起作用。为了避免这个问题,发展与文本无关的话者识别方法显得尤为重要。东南大学硕士毕业论文1 ,3 说话人识别的基本原理图1 1 说明了说话人识别系统的基本过程图1 1说话入识别系统框图说话人识别主要由以下几部分组成:1 预处理预处理包括对语音数据进行降噪、预加重、分帧和加窗等的处理。2 特征提取在说话人识别系统中特征提取是最重要的一环,特征提取就是从说话人的语音信号中提取出表示说话人的个性特征。提取的特征应能有效地区分不同地说话人,并且对同一说话人保持相对稳定。说话人识别系统中常用的特征有:1 )由语音信号直接导出的参数:短时能量、短时平均幅度、短时平均过零率和基音额率。2 )由于语音的短时谱中包含有激励源和声道的特性因而可以反映说话人的差别。所以分析语音频谱导出说话人个人特征的参数:功率谱、基因轮廓、共振峰频率带宽及其轨迹、复倒谱、m e i 倒谱系数等等。3 )由语音信号的线性预测分析也可得一些表示说话人特征的参数:基因频率、声道冲激响应、自相关函数、声道面积函数、线性预测系数( i p c ) 、i p c 倒谱系数和线谱对参数( i s p ) 等,其中i 陀倒谱系数有晟好的识别效果。4 )混合参数:为了提高系统的识别率,部分原因也许是因为究竟哪些参数是关键因素把握不充分,相当多的系统采用了混合参量构成的矢量。m a t s u i 和f l m l i 在与文本无关的说话人识别系统中利用倒谱系数、差值倒谱系数、基音频率、差值基因频率作为特征矢量,得到了比单用任意一个参数好得多的识别效果。3 识别方法目前针对各种特征而提出的模式匹配方法的研究越来越深入。这些方法大体可归为下述几种:1 ) 概率统计方法语音中说话人信息在短时内较为平稳,通过对稳态特征如基音、声门增益、低阶反射系数的统计分析可以利用均值、方差等统计量和概率密度函数进行分类判决。其优点是不用对特征参量在时域上进行规整,比较适台文本无关的说话人识别。2 )动态时间规整方法( d t w )说话人信息不仅有稳定因素( 发声器官的结构和发声习惯) 。而且有时变因素( 语速、语调、重音和韵律) 。将识别模板与参考模板进行时间对比。按照某种距离测定得出两模板间的相似程度。常用的方法是基于最近邻原则的动态时间规整d t w 。3 )矢量量化方法( v q )2东南大学硕士毕业论文矢量量化最早是基于聚类分析的数据压缩编码技术。h e lm s 首次将其用于说话人识别,把每个人的特定文本编成码本,识别时将测试文本按此码本进行编码以量化产生的失真度作为判决标准。b e l1 实验室的r o s e n b e r g 和s o o n g 用v q 进行了孤立数字文本的说话人识别研究。这种方法的识别精度较高,且判断速度快。4 )隐马尔可夫模型方法( 哪眦)隐马尔可夫模型是一种基于转移概率和传输概率的随机模型,最早在e m i l 和t b m 被用于语音识别。它把语音看成由可观察到的符号序列组成的随机过程,符号序列则是发声系统状态序列的输出。在使用洲识别时。为每个说话人建立发声模型,通过训练得到状态转移概率矩阵和符号输出概率矩阵。识别时计算未知语音在状态转移过程中的最大概率,根据最大概率对应的模型进行判决。h 洲不需要时间规整,可节约判决时的计算时间和存储量在目前被广泛应用。缺点是训练时计算量较大。5 )人工神经网络方法( a n n )人工神经网络在某种程度上模拟了生物的感知特性,它是一种分布式并行处理结构的网络模型,具有自组织和自学习能力、很强的复杂分类边界区分能力以及对不完全信息的鲁棒性,其性能近似理想的分类器。其缺点是训练时间长,动态时间规整能力弱,网络规模随说话人数目增加时可能大到难以训练的程度。1 4 说话人识别的发展和现状说话人识别的研究始于2 0 世纪3 0 年代。早期的工作主要集中在人耳听辨实验和探讨听音识别的可能性方面。随着研究手段和工具的改进,研究工作逐渐脱离了单纯的人耳听辨。b e l l 实验室的l g k e r t a 目视观察语谱图进行识别,提出了“声纹( v o i c e p r i n t ) ”的概念。之后,电子技术和计算机技术的发展,使通过机器自动识别人的声音成为可能。从2 0 世纪6 0 年代开始,说话人识别的研究分别在参数的提取和选用、识别方法和匹配的测度等方面蓬勃发展。在说话人识别的参数方面,1 9 6 3 年b e l1 实验室的s p r u z a n s k y l l l 和1 9 7 1 年p d b r e a k e re ta 1 “1 提出了短时谱中的信息提供说话人特征。随后在1 9 6 9 年b s a t a l p l 采用基音频率、1 9 7 1 年g d o d d i n g t o n ”1 提出共振峰频率、1 9 7 2 年m r s a m b u r i ,1 的线性预测系数( i , p c ) 、1 9 7 3年c l u m m i s ”1 的时域音栓配合法的语音响度、1 9 7 3 年s f r u r u i 和f i t a k u r a ”1 的语音对数域比例、1 9 7 2 年t j w o l f “1 和1 9 7 5 年m r s a m b u r p l 从元音和鼻音中提取出最好的说话人个人特征、1 9 7 4 年b a t a l ”通过比较各种参数得出倒谱系数为说话人识别提供最好的结果。如今倒谱系数已经逐步成为说话人识别中的主打参数 t l - t3 。在识别方法方面,1 9 8 3 年k l i 和e w r e n c h 【i 钉和1 9 8 5,一年f k s o o n g 、a e r o s e n b e r g 、l r r a b i n e r 和& h j u a n g “把矢量量化方法从语音识别中移至说话人识别并成为当时与文本无关说话人识别的基准方法、随后出现经典的统计形式的识别方法:1 9 8 8 年j b h t t i l l i 的贝叶斯辨别分析【l ”和1 9 9 3 年a l h i g g i n s 、l g b a h l e r 和j e p o r t e r的晟近邻分类器”j 、接着有各种人工神经网络( a n n ) 方法:1 9 9 0 年j o g l e s b y 和t s m a s o n 的多层感知器( m | j p ) 【l 、1 9 9 0 年y b e n n a n i 和p g a l l l i n a r i 的学习矢量量化( l v q ) 【“1 、1 9 9 1 年j o g l e s b y 和t s m a s o n 的放射状基函数( r b f ) 【”1 和1 9 9 1 年y b e n n a n i 和p 6 a 1 1 】i n a r i 的时延神经网络( t d n n ) ”、在这期间提出了利用说话人识别模型来进行说话人识别:1 9 9 0 年m s a v i c3东南大学预士毕业论文和s k o u p t a 【2 2 】和1 9 9 1 年n z t i s h b y t 2 ”的离散隐马尔可夫模型( d h m m ) 、1 9 9 1 年a e r o s e n b e r g 、c h l e e 和s 。g o k e e n t ”1 的连续密度的隐马尔可夫模型( c d h 嘲) 和1 9 9 0 年r c r o s e 秘d a r e y n o l d s 的高斯混合模型( g 洲) 。在匹配的测度方面,1 9 8 3 年s p r u z a n s k y 1 1 提出测试语音和参考语音的特征的欧氏距离测度、1 9 7 2 年m rs a m h u r 7 1 和1 9 9 0 年w r e n h 1 巩、h l i n s h e n 和h f u j i s a k i 的m a h a l a n o b is 及加权距离测度。1 5 本论文的内容安排第一章主要介绍说话人识别的研究意义、基本概念、分类和基本原理,并简述说话人识别的发展和研究现状。第二章从语音的发声原理开始,分析了语音参数对说话人识别性能的影响,并详细介绍了基音频率、共振峰频率、l p c 系数、复倒谱、倒谱和m e l 倒谱等参数特征。第三章主要说话人识别的识别方法,讲述了矢量量化( v q ) 、人工神经网络( a n n ) 、隐马尔可夫模型( h m m ) 和混合高斯模型( g m m ) 的等识别理论。第四章给出一些高斯混合模型的模型训练方法,最大似然概率算法、最大期望( e m ) 算法、改进附算法和改进遗传算法。第五章阐述说话人识别中判决方法。欧氏距离( 均方误差) 测度、加权欧氏距离( 均方误差) 测度、t t a k u r a - - s a t i 0 距离测度、似然比失真、条件概率和使用条件概率时的各种帧概率变换。第六章论述说话人识别中的噪声处理。第七章介绍各试验结果及其结论。4东南大学硕士毕业论文第二章说话人识别的特征参数和特征参数的选取2 1 概述1 9 6 3 年b e l l 实验室的s p r u z a n s k y ”1 和1 9 7 1 年p d b r e a k e re ta 1 【2 1 提出了短时谱中的信息提供说话人特征。随后在1 9 6 8 年b s h t a l 3 1 采用基音频率、1 9 7 1 年g d o d d i n g t o n 4 1 提出共振峰频率、1 9 7 2 年m r s a m b u r l 7 1 的线性预测系数( l p c ) 、1 9 7 3 年c l u m m i s h l 的时域音栓配合法的语音响度、1 9 7 3 年s f r u r u i 和f i t a k u r a l 叫的语音对数域比例、1 9 7 2 年j t w o l f 8 1 和1 9 7 5 年m r s a m b u r l 9 1 从元音和鼻音中提取出最好的说话人个人特征、1 9 7 4 年b h t a l 【1 通过比较各种参数得出倒谱系数为说话人识别提供最好的结果。如今倒谱系数已经逐步成为说话人识别中的主打参数f “一吲2 2 语音的发声原理 2 6 】人类的发声过程是由于肺部的收缩,压迫气流由支气管经过声门和声道引起音频振荡而产生的,其中声道起始于声门处而终止于嘴唇,包括咽喉、口腔。鼻道则是从小舌开始到鼻孔为止。当小舌下垂时,鼻道与声道发生耦合而产生语音中的鼻音。发音过程中,声道各处的截面积会随不同语音发生不同变化,且不同的人的声道各处的截面积也不一样。而声道各处的截面积取决于舌、唇、颌以及小舌的位置。声道截面积随纵向位置而变的函数,称为声道截面积函数。声道的共振峰特性主要决定于声道截面积函数。而声道的共振峰特性又决定了所发声音的频谱特性,即音色。图2 1语音产生模型调制嚣分图2 1 给出一个离散时域的语音产生模型。这个模型是许多研究和应用的基础,它由激励源、声道模型和辐射模型三个部分组成。激励源分为淌音和浊音两个分支。声道模型改出了离散时域的声5东南大学硕士毕业论文道传输函数v ( z ) ,把实际声道等效成一个变截面管加以研究,在大多数情况下可以看成一个全极点函数。人类发音过程有三类不同的激励方式,因而能产生三类不同的声音,即浊音、清音和爆破音。当气流通过声门时声带的张力刚好使声带发生较低频率的张驰振荡形成准周期性的空气脉冲。这些空气脉冲激励声道便产生浊音。若声道中某处截面积很小。气流高速冲过此处时而产生湍流,当气流速度与横截面积之比大于某个门限值时便产生摩擦音即清音。而声道某处完全闭合建立起气压,然后突然释放而产生的声音就是爆破音。由发音方式和声道形状的不同,人类可以发出无穷多种、听觉系统可以将它们相互区分的声音。但语音又可以分割成可辨别的基本语音单位即音素,且这样的音素是有限的。这样一个语句就可以分解为一串音素,但一串音素不等于一个语句,语句中还含有反映语义、语感的韵律信息。这里的韵律信息包括各音索的相对强度、相对时长、相对音高、音高之间的停顿以及音素之间相互影响而产生音素的变异等。2 3 基音频率基音周期是语音信号最重要的参数之一。基音周期估计的方法很多,本设计采用了基于求短时自相关函数的算法。语音按其发生方式分为清音和浊音。发清音时声道完全封闭,声道不受声门周期脉冲的激励而是利用口腔内存有的空气释放出来而发声,因而清音并没有基音。在作基音周期的估计时,必须先去除清音。本设计中利用语音信号的短时过零率z o ( 见2 - 1 式) 来区分清浊音,一般而言,在相同条件下,清音的短时过零率分布的平均值最高。利用这一点可以设- - 限区分清浊音。z 。= 去 is g n s 。( n ) 卜s g n s 。( n 1 ) 】i )( 2 黼跳,= :。鬟。lo 【工j。- q+ c l图2 2 中心削波函数c x 短时自相关函数在基音周期的整数倍点上有很大的峰值,只要找到第一个最大值点的位置,便可估计出基音周期。作基音周期估计时,窗长至少应大于两个基音周期,才可能有较好的效果。另一方面,为了克服声道的共振峰特性的干扰,可以对语音信号进行非线性变换后再求自相关函数。一种有效的非线性变换是“中心削波”。若输入信号为x ( n ) ,中心削波的输出为y ( n ) = c x ( n ) ,函数c x 如图2 - 2 所示。经过削波后的y ( n ) 的自相关函数在基音周期点上的峰起更尖锐突山,因此用它来进6东南大学硕士毕业论文行基音周期估计的效果可以好很多。求得的基音周期轨迹与真实的基音周期轨迹不可能完全吻合,实际上在一些局部段落或区域中有一个或几个基音周期估值偏离了正常轨迹( 称为野点) ,可以采用中值平滑算法和线性平滑算法去除这些野点。本设计中使用的是3 点的中值平滑法,即用长度为3 的窗口内的中值代替窗口中间点的值。2 4 线性预测编码( l p c ) 分析将线性预测( l i n e rp r e d i c t i o n ) 分析应用于语音信号处理,不仅是为了利用其预测功能,而且是它为我们提供了一个非常好的声道模型。线性预测系数( l i n e rp r e d i c t i o nc o e f f i c l e n t , ) 是语音信号处理( 语音编码、语音识别和说话人识别等) 的非常重要的参数之一。按照图2 1 所示的语音产生模型,采用全极点模型,声道、声门激励及辐射的全部谱效应可以简化为一个时变的数字滤波器。其稳态系统响应函数为:m ) = 揣浯z )现在对这个模型在加以一些限制以便于得到一种高效的求解算法。假定声道函数是一个全极点( a u t o r e g r e s s i v e ,a r ) 模型,不考虑辐射的影响,则式2 - 2 可表示成:矿( z ) = ;! 二为实数( 2 3 )1 一q z 。其中p 是预测阶数,巩为 p c 系数:g 是声道滤波器增益。由此,语音抽样值s ( n ) 和激励信号8 ( h ) 之间的关系可以用下面的差分方程表示:s ( h ) = ( 以) + q s ( n - i )( 2 4 )即语音样点之间有相关性,可以用过去的样点值来预测未来样点值。对于浊音,激励p 0 ) 是以基因周期重复的单位冲激;对手清音,e ( n ) 是白噪声。4 ( z ) 称作逆滤波器,传输函数为:彳乜) = 1 - - z a i $ 伽- i )( 2 5 )设增益为1 ,预测误差( n ) 为:s ( n ) = s ( n ) 一q s ( n - i )( 2 6 )要解决的问题是:给定语音序列j ( n ) ,根据特定的准则求预测系数的最佳估计值a i ,现在以是小均方误差准则作为估计模型参数的准则求a ;。短时平均误差定义为:e 2c n ,) = e s c 一,一喜盘,s c 弗一。 2 c z 一,对a 。求偏导,并且令其为零,有7东南大学硕士毕业论文e s c 一,一芸a j s ( n - j ) s c 一一r ,) = 。;,= ,z ,pc z s ,上式表明采用最佳预测系数时,预测系数与过去的语音样点正交。记o ( i ,j ) 为:o ( i ,_ ,) = 占矗q i ) s ( n 一) ) = e 扭。j( 2 9 )则有:4 ,m ( f ,) = o ( i ,o ) ,i = l 2 一,p( 2 1 0 )上式称为i p c 正则方程,希望找到一种有效的方法求解这组包含p 个未知数的p 个方程就可以得到在语音段上使均方误差最小的预测系数如,) 。_ ,= 1 ,p 利用式( 2 - - 6 ) 和( 2 - - 7 ) ,最小均方预测误差可以表示成:占。= e b c 以,2 一兰= 1 d ,s c 一,s c 一一,c z 一,、,il或e 。= 西( o ,o ) 一a j 西( 0 ,)( 2 1 2 )语音信号具有短时平稳性。在一个短时段( 般2 0 m s 左右) 上可以认为是平稳的。一般可分帧求取语音序列的i , p c 系数。对于式( 2 - - 7 ) 的1 , p c 正则方程,已经有了一些高效的递推算法求解。其中主要有杜宾( d u r b i n ) 算法、格型算法和舒尔递推算法( s c h u r ) 。下面给出文本采用的杜宾算法的计算步骤,详细推导过程可以参考文献。”给定预测阶数p2 ) 计算r ( f ) = j 。o + ,沁。( ”) ,l = 0 , 1 ,p ,其中。j 。是加窗后的语音序列3 ) 计算k 1 = 一r ( 1 ) r ( 0 14 ) 计算d j l ) = k ( 1 5 ) 计算:= 【1 一 k m ) 2 】尺( o )6 ) 令m = 2 :7 ) 计算世“= 一j r ( m ) + 口,_ 1 - ( 1 i m 1 ) 】? _ 1 8 ) 计算口? = k 卅q ) 州= + k 枷n 翁“,i = 1 , 2 ,m 一11 0 ) 计算? = 1 一 k ) 2 】亨。1 1 ) 判断m 0( 2 - 2 3 )月 0根据上述结果可得复倒谱的性质:1 复倒谱曼( h ) 总是一个无限长的序列。它在正负两个方向至少有一个方向是无限伸展的。2 宝0 ) 是一个有界的衰减序列:i j 屺彳| ,”_ 一( 2 _ 2 4 )其中a = m a x i a 。i , i b i ,f qi , i d kf 卢为某常数。因此复倒谱曼( h ) 是个衰减序列,且衰减速度比彳ni 更快- 因而主( n ) 比工) 更集中于原点附近,或者说王( n ) 更具有短时性。所以用短时窗提取语音序列的复倒谱是非常有效的。3 若b = o ,d t = 0 ,则x ( z ) 在单位圆外无极零点,称为最小相位信号。此时复倒谱和倒谱间的关系为:0王q ) :j c o )【2 c ( 刀)n 04 若吼= o ,c t = 0 ,则z ( z ) 仅在单位圆外有极零点称为最大相位信号。此时复倒谱和倒谱间的关系为:2 e ( n )疗 05 若信号x o ) 为一串有限长周期性的冲激信号,即j ( 刀) = a ,6 ( 行一以)( 2 2 7 )其中a ,振幅因子,n p 为周期。则其z 变换为:x ( z ) = 妻x ( n ) z 一= 羔【兰q 6 。一州,) 】:一:宝c c z - 悱两边取对数并用泰勒展开如下+ 堕z 批( 2 2 8 )a 0州口,广+雌0一zq一卜叶。:三|嘶m=东南大学硕士毕业论文j ( z ) = l o g x ( z ) = l o g o e 。+ l o g 1 - ( a ,z ) 。】。 ,。i 一( 2 2 9 )= l o g c c 。一 睾】( z ) 。:ni 1 口,i根据雪( z ) = 量( n k ,且两边恒等。则土o ) 为:曼( n ) = l o g a 。6 ( n ) 一挚( n 一埘p )( 2 _ 3 0 )r = l从上式可以看出曼0 ) 也是一个周期为n p 的冲激序列,所以一个周期冲激的有限序列,其复倒谱也是一个周期的冲激序列,而且周期。不变。只是序列长度变为无限长,其振幅随i 值的增大而减少,且衰减度等价于坛,因此衰减速度比原来的序列要快这个性质对于语言信号的分析极为有用。因为浊音的声门激励信号就是周期性冲激信号所以除原点外,我们可采用“高时窗”来从语言信号的倒谱中提取浊音激励信号的倒谱( 对于清音激励情况,这也只是损失0sn n 的一部分激励信息) 。从而使得用倒谱法提取基音周期成为现实。最后我们根据确保定义的唯一性( 即避免相位卷绕) 而强加的不同的约束条件分析得出不同的复倒谱的求取方法:1 限制法:限制各倒谱分量的总相位在筇范围之内,即一万s 妒( 。曲 ,r 。但语言信号是随机的,因此这个限制不科学。所以这不是解决相位卷绕的有效方法。2 微商法:利用傅立叶变换的微商特性和对数微商特性的避开求复对数而又能求复倒谱的方法:由( z ) = x ( n ) z 一”( 2 3 1 )按微商特性可得:一z 兰邶卜z 芝c 奎z 1 = 喜删z ”( 2 - 3 2 )对于傅立叶变换只需用z = e j ”替换即可:叫卅专徘1 = ,未酢个萤嘶m 咖( 2 - 3 3 )所以,若工( n ) + 4 x ( z ) o r x ( e j ”) ,则珊( h ) d x ( z ) d ;x j w ) 。同样这对于复倒谱主) 和j 0 一) 之间也适用:未肌个妻嘶m 一( 2 - 3 4 )利用对数的微商特件可得:1 2东南大学硕士毕业论文,导膏。加) = ,; 1 0 9 x ( p 一) 】a wa w,善x j w )。化- 3 = 警i 万- = 【衙( 月) 】b 一爿( e 一) ,盖才图2 5 微商法求复倒谱上图的d f t 为离散傅立叶变换,实际操作中一般用快速傅立叶变换( f f 下) 。由于n x ( n ) 的频谱的高频分量比工0 ) 的增加,因此仍然采用工0 ) 的原取样率必定会引起混叠。这样求出的章) 并非z 0 ) 的复倒谱。3 最小相位法:由于语言信号模型一般都是极点在单位圆内的全极系统或极零点在单位圆内的最小相位系统。所以我们可以利用最小相位信号序列的复倒谱性质和希尔伯特变换的性质导出新的求解方法:砌变换可写腓琊) = 器,则加) - l 。嘲z ) _ l 。掣器 再利用微商特性可得:萤嘶) z - = - z d x ( z ) _ _ :扣g 器】、( 2 3 6 )一n 。( z ) d ( z ) 一n ( z ) d 。( z )( z ) d ( z )所以由于n ) 是最小相位所以叠( n ) 必定为稳定因果序列。荐由希尔伯特变换的任一因果序列都可分解为偶对称分量和奇对称分量之和可知:量0 ) = 童。0 ) + 主。( n ) 。同样偶对称分量和奇对称分量可写成;置。( n ) = 争曼( n ) + 主( 一n ) 】,丸( ”) = 去 王( ,1 ) 一i ( _ n ) 】。依照复倒谱的性质3 可得:on 0写成i 0 ) = 9 0 ) 。( 弹) 形式,则东南大学硕士毕业论文n 0( 2 3 8 )j 忙归) = 安。弦一”7 = j 。扣一) + 谚,扣一)( 2 3 9 )且量。0 一) 为偶对称,j ,( e j w ) 为奇对称。因此可得:毫( 。一) = 曼。( 咖一舯”(2-40)膏心p ) = 量。( n ) e 一舯然而y 0 p ) = l o g x ( e 加) = l o glx ( e 加) l + j 4 x ( e 一) 】( 2 4 1 )对照式( 2 3 9 ) 可知耍 0 加) = l o g t x ( d w ) l ,雪,( e j w ) = 4 2 0 一) 】。所以可得复倒谱的求法由下图表示:图2 - 6 最小相位法求复倒谱上图的i ) f t 为离散傅立叶变换,实际操作中一般用快速傅立叶变换( f f t ) 所以上述方法所求复倒谱也称为f f t 倒谱。4 递归法:同样根据语言信号模型一般都是极点在单位圆内的全极系统或极零点在单位圆内的最小相位系蛾一:如卜每卜:梁得:一搿( z ) 芝讹) 一z a x ( z ) ( 2 - 4 2 )两边求z “变换可得:【威0 ) 】+ x ) = n x ( n )( 2 4 3 )瞄( 七) 工o - k ) = n x ( n ) = 一再由x ( n ) 为最小相位信号序列:x ( n ) = 0 0 得土( n ) = 01 4( 2 4 4 )h og ( n ) = 1n = 0【2” 0如,= 器一熹,等删其中圣( 0 ) = l o g x ( o ) 。5 通过1 , p c 参数直接求i , p c 倒谱:根据倒谱的定义。对语音序列x 0 ) ,有( 2 4 8 )( 2 - 4 9 )( 2 - 5 0 )l o g i x ( 驯= c ( z ) = c 。z ”( 2 5 1 )= l当语音的激励源是单位冲激序列时,可得x 0 ) 的z 变换x ( z ) 为1x ( z ) = 一( 2 5 2 )1 一q z 。i = l其中口f ,i = 1 , 2 ,p 为p 阶线性预测的系数。将式( 2 - 5 2 ) 代入式( 2 5 1 ) 。并两边对z + 1 求导即刍i 毒暑l = 告扣。驴1 0 9 i 珏了1 2 矿驴。k a 。z “一。号f = 慨z + l 一z “11 5( 2 - 5 3 )( 2 5 4 )东南大学硕士毕业论文将上式左侧的分布移到右侧,并令两侧z 1 的同幂项系数相等,可得c i2 口jc 。= 薹c t 一约a 以。媳铲茎c 一咖以一。n = 11 p根据上式即可由1 p c 系数推导出倒谱系数,这样的倒谱称为1 p c 倒谱。2 6m e l 倒谱参数( m f c c )在8 0 年代,倒谱类型的参数由于具有两个明显的优势而逐渐取代线性预测( 1 p ) 分析而成为隐m a r k o v 的首选参数。其中一个优势是可以通过对倒谱域的滤波和加权来对基于1 p 的频率进行处理,第二个优势就是可以方便地应用l d e l 倒谱( 1 e l - - b a s e dc e p s t r u m ) 理论。与普通倒谱分析不同的是,m f c c 的分析着眼于人耳的听觉原理,人耳所听到的声音的高低与声音的频率并不成正比关系,m e l频率刻度,在1 0 0 0 h z 以下与声音频率的关系,大致是线性的了:在1 0 0 0 h z 以上呈对数分布。m e l频率与声音频率的具体关系可用式( 2 5 6 ) 表示m e l ( f ) = 2 5 9 5 l o g l o ( 1 + f 7 0 0 )( 2 - 5 f i )在解释m f c c 的提取过程以前,首先说明一下临界带宽( c r i t i c a 一b a n d ) 的概念。研究发现:在声压恒定的情况下,当噪声被限制在某个带宽时,其人耳感觉的主观响度在该带宽内是恒定的。同样地,当声压恒定时,在这个带宽内地一个具有复杂包络的信号的响度等价于在这个带宽中心频率位置上的一个纯音的响度,而与信号本身的频率分布无关。根据z w i e k e r 的工作,临界带宽随着频率的变化而变化,并与m e l 频率的增长一致,在1 0 0 0 h z 一以下。大致里线性分布,带宽为1 0 0 h z 左右:在1 0 0 0 h z 以上呈对数增长。根据临界带的划分,可以将语音频率划分成一系列三角形的滤波器序列,即m e 滤波器组( 如图2 - 3 所示) ,取每个临界带宽内所有信号幅度加权和作为某个临界带通滤波器的输出,然后对所有滤波器输出做对数运算,形成一个矢量,然后做离散余弦变换( d c t ) 即得到m p c c 。本实验的临界带通滤波器的个数d = 1 4 ,所覆盖的最高频率为4 k i t z ,m f c c 参数的具体计算过程可以参考图2 - 2 ,其中n l 为帧标号,n 为一帧内的采样点数。有关m 队倒谱的j l 点补充1 在m e i 倒谱的提取过程中要进行f f t 运算,如果f f t 的点数选取过大,则运算复杂度增大,使系统响应时间变慢,不能满足系统的实时性;如果f f t 的点数选取太小,则可能造成频率分辨率过低,提取的参数的误差过犬。一般要根据系统的具体情况选择f f t 的点数,在本论文的实验中,f f t 的点数取2 5 f i ,这样在8 千赫兹采样频率时,对应的频率分辨率为3 1 2 5赫兹,而一个共振峰的带宽为几百赫兹。2 一般在m e ! ,滤波器的选择中,m 孔滤波器组都选择三角形的滤波器。但是m n 滤波器组也可以是其他形状,如正弦形的滤波组等等。本文所采用的是三角形滤波器组合。1 6东南大学硕士毕业论文粼舱瓜入。m e l 频谱图2 7m e l 倒谱求解图2 7选取参数方法!在给定了一种识别方法后识别的效果主要取决于特征参数的选取。对于某一维单个的参数而言,可以用f 比来表征它在说话人识别中的有效性。同一说话人的不同的语音会在参数空间映射出不同的点,若对同一人这些点分布比较集中,而对不同说话人的分布相距较远,则选取的参数就是有效的。可以选取两种分布的方差之比( f 比) 作为有效性准则。不同说话人特征参数均值的方差同一说话人特征方差的均值:三睦= 固:三!, 。( 2 5 7 )这里f 大表示有效,即不同说话人的特征量的均值分布的离散程度分布得越散越好;而同一说话人的越集中越好。式中, ,是指对说话人作平均, 。是指对某说话人各次的某语音特征作平均,x :为第f 个说话人的第a 次语音特征。肛i = 。( 2 5 8 )是第f 个说话人的各次特征的估计平均值,而p = 1 7( 2 5 9 )东南大学硕士毕业论文是将所有说话人的肛。平均所得的均值。需要说明的是,在f 比的定义过程中是假定差别分布是正态分布的,这是基本符合实际情况的。可以看出,虽然f 比不能直接得到误差概率,但是显然f 比越大误差概率越小,所以f 比可以作为所选特征参数的有效性准则。可阻把f 比的概念推广到多个特征参量构成的参量集中,通过增减参量集中的参量对识别率造成的影响来确定各参量的效果。文献 4 8 中对此给出了详细的论述,并指出最优的n 特征参量集并不是由n 个最优的特征参量组成的”,这其中存在一个特征相关的问题。所以定义说话人内( w i t hj 1 3s p e a k e r ) 特征矢量的协方差矩阵矿和说话人间( b e t w e e ns p e a k e r s ) 特征矢量的协方差矩阵四分别为:w = : “( 2 6 0 )b = ( 2 6 1 )其中“和口的定义同上,只是对于多维特征得到的是矢量。这样,我们就可以得到可分性测度( 或d比) 的定义:d = i( 2 6 2 )所以利用d 比可以评价多维特征矢量的有效性。1 8东南大学硕士毕业论文3 1 概述第三章说话人识别的识别方法1 9 8 3 年k l i 和e w r e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论