




已阅读5页,还剩52页未读, 继续免费阅读
(计算机应用技术专业论文)基于mfcc与imfcc的说话人识别研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
哈尔滨工程大学硕士学位论文 捅芰 说话人识别是指利用语音信号包含的信息来辨认说话人是谁或者确认此 说话人是否为所声言的说话人。如今在低噪声,低失真环境下说话人识别已 经达到较高的识别性能,但说话人识别的实际应用环境中却充满了噪声,导 致说话人识别系统的识别率急剧下降。因此,目前的研究热点已转为提取噪 声环境下仍能达到较好性能的鲁棒性特征和设计更加有效的分类器,从而真 正实现说话人识别系统走出实验室,走向实际应用场合。 针对以上需求,设计了一个以短波信道为背景的说话人识别系统,即以 在短波信道环境下获得的语音信号为数据进行实验。在特征提取阶段,剖析 了基于人耳听觉机理的美尔倒谱系数( m f c c ) ,从美尔滤波器组的结构上看, m f c c 只在信号的低频区域具有较高的分辨率,在高频部分分辨率却较低, 这样必然会遗失一些包含在高频区域的信息。本文应用翻转的美尔滤波器组 提取出一组特征i m f c c ,弥补了传统的m f c c 在高频提取特征信息薄弱的 不足,与原始m f c c 形成互补关系。鉴于两种特征的互补关系,设计多分类 融合系统,以支持向量机为分类器,分别以m f c c 和i m - f c c 为特征单独执 行分类,将得到结果按某种方式融合,取两者之长,最后做出判决来提高说 话人识别系统的性能。 另外应用自适应动态阈值的开集说话人识别算法,建立一个综合所有参 考说话人语音特性的非特定说话人胤+ l ,将其列入参考说话人之中,。识别时 以其得分作为阈值判定待识说话人是否在集内,若在集内给出识别结果,若 在集外则将待测者自动加入参考说话人集中。 经实验证明,以m f c c & i m f c c 为特征进行多分类融合的方法能够在短 波信道环境下获得较好的识别效果。 关键词:说话人识别:美尔倒谱系数;翻转美尔倒谱系数;多分类融合;支 持向量机 哈尔滨工程大学硕士学位论文 a bs t r a c t s p e a k e rr e c o g n i t i o ni s ak i n do ft e c h n o l o g yt h a tt a k et h eu s eo ft h e i n f o r m a t i o nc o n t a i n e di nt h es p e e c hs i g n a lt oi d e n t i f yw h oi st h es p e a k e ro rt o c o n f i r mw h e t h e rt h es p e a k e ri st h ec l a i m e do n e 。n o wi nl o w - n o i s ea n dl o w d i s t o r t i o ne n v i r o n m e n t ,s p e a k e rr e c o g n i t i o nh a sp e r f o r m e dq u i t ep e r f e c t b u t n o i s ei se v e r y w h e r ei nt h ep r a c t i c a la p p l i c a t i o ne n v i r o n m e n t ,w h i c hm a k et h e s p e a k e rr e c o g n i t i o nr a t ed r a m a t i c a l l yd e c l i n e d a sar e s u l t , e x t r a c t i n gt h er o b u s t f e a t u r ea n dd e s i g n i n gt h ee f f e c t i v ec l a s s i f i e rt og e tag o o dp e r f o r m a n c ei nt h e n o i s ee n v i r o n m e n th a v eb e c o m eah o t s p o t , a n dt h e nr e a l i z i n gt h es p e a k e r r e c o g n i t i o ns y s t e mc o m et op r a c t i c ef r o ml a b o r a t o r y i nt h ev i e wo ft h ea b o v er e q u i r e m e n t s ,t h i sp a p e rd e s i g nas y s t e mi nt h e b a c k g r o u n do fs h o r t w a v ec h a n n e l ,u s et h es p e e c hs i g n a lo b t a i n e df r o mt h e s h o r t w a v e - c h a n n e le n v i r o n m e n ta st h ee x p e r i m e n t a ld a t a i nt h ef e a t u r ee x t r a c t i o n p a r t , a n a l y z em f c cw h i c hb a s e do nt h eh u m a na u d i t o r ym e c h a n i s m , d u e t ot h e s t r u c t u r eo fi t sf i l t e rb a n k , i tc a p t u r e sc h a r a c t e r i s t i c si n f o r m a t i o nm o r ee f f e c t i v e l y i nt h el o w e rf r e q u e n c yr e g i o n st h a nt h eh i g h e rr e g i o n s t h u s ,t h e r em u s tb e i n f o r m a t i o nc o n t a i n e di nt h eh i g hf r e q u e n c yi sm i s s e d t m sw o r kg e t san e ws e t o ff e a t u r e sb yi n v e r t i n gt h ef i l t e rb a n ks t r u c t u r ew h i c hc a nm a k eu pt h el a c ko f m f c c c o n s i d e r i n gt h ec o m p l e m e n t a r yr e l a t i o n s h i po ft h et w of e a t u r e s ,d e s i g na c o m b i n i n gc l a s s i f i e rd e c i s i o ns y s t e m ,w h i c hc o n t a i n st w os u b c l a s s i f i e r s ,u s e s m f c ca n di m f c ca st h ef e a t u r e sr e s p e c t i v e l y , s v ma st h ec l a s s i f i e r ,t h e n c o m b i n et h ed e c i s i o n so ft h et w os u b c l a s s i f i e r sb yu s i n gaf u n c t i o n f i n a l l y , a c h i e v e st h ea i mt oi m p r o v et h ep e r f o r m a n c eo ft h es p e a k e rr e c o g n i t i o ns y s t e m i na d d i t i o n , p r e s e n t sa no p e n s e ts p e a k e r - r e c o g n i t i o na r i t h m e t i cb a s e do n s p e a k e ra d a p t i v ed y n a m i c t h r e s h o l d m a k eam o d e lo fa n o n s p e c i f i cs p e a k e rr n + 1 w h i c hi n t e g r a t e da l lt h er e f e r e n c es p e a k e r s c h a r a c t e r s ,a d di tt ot h es e to ft h e r e f e r e n c es p e a k e r s ,w h e t h e rt h es p e a k e ri si no ro u tt h es e td e p e n d so nt h es c o r eo f l n + l ,i fi ng i v et h er e s u l to ft h er e c o g n i t i o n ,o t h e r w i s ea d di tt ot h es e to ft h e r e f e r e n c es p e a k e r s t h ee x p e r i m e n t ss h o wt h em e t h o dp r o p o s e dg e tab e u e rp e r f o r m a n c ei nt h e n o i s ee n v i r o n m e n t k e y w o r d s :s p e a k e rr e c o g n i t i o n , m f c c ,i m f c c ,c o m b i n ec l a s s i f i e rd e c i s i o n s , s v m 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导 下,由作者本人独立完成的。有关观点、方法、数据和文 献的引用已在文中指出,并与参考文献相对应。除文中已 注明引用的内容外,本论文不包含任何其他个人或集体己 经公开发表的作品成果。对本文的研究做出重要贡献的个 人和集体,均己在文中以明确方式标明。本人完全意识到 本声明的法律结果由本人承担。 作者( 签字) 一塞i 面整 日期:硼年月2 - 1 e l 哈尔滨1 二程大学硕十学位论文 1 1 研究背景和现状 第1 章绪论 人类生活在信息高度交互的社会里,判定入的身份是一个非常重要问题。 随着科技的迅猛发展,传统的身份鉴别方法如:钥匙、证件、口令等已远不 能满足社会的需要。基于生物特征的身份鉴别技术,即生物认证技术为我们 提供了更可靠和方便的方法,引起了国内外的极大关注。 生物认证技术( b i o m e t r i ci d e n t i f i c a t i o nt e c h n o l o g y ) 也称为生物识别技 术、生物测定学,是利用人体特征进行身份验证的一种方法。生物认证技术 从根本上区别于“你所拥有的东西 或者“你所知道的东西”的认证技术, 真正以人自身特征作为身份认证的依据,自己真正代表了自己。用于生物识 别的生物特征有手形、指纹、脸型、虹膜、视网膜、脉搏、耳廓等,行为特 征有签字、声音、按键力度等。基于这些特征,人们已经发展了手形识别、 指纹识别、面部识别、语音识别、虹膜识别、签名识别等多种生物认证技术。 语音作为信息交流的最自然、最有效、最方便的途径,近年来在生物认 证技术领域中越来越受到研究者们的关注。说话人识别技术即是着眼于语音 的这些特点以人的声音作为生物特征的一种生物认证技术。 说话人识别最初是在第二次世界大战期间由美国国防部长向贝尔实验室 提出的课题,目的是根据窃听到的电话语音来判断说话人是哪一位德军高级 将领,这对分析当时的德军战略部署具有重要的意义。b e l l 实验室l g k e r s t a 在1 9 6 2 年研究了通过可见的语谱图( s p e c t r o g r a m ) 进行人工的说话 人识别,并声称在1 2 个人的系统上得到了极好的识别性能,并将语谱图称为 声纹( v o i c e p r i n t ) 。紧接着,b e l l 实验室的s p r u z a n s k y 提出了基于模式匹 配和统计方差分析的声纹识别方法,引起了信号处理领域许多学者的关注, 形成了说话人识别研究的一个高潮。并在1 9 6 6 年,美国法院第一次采用此方 法进行了取证。 随着计算机技术的发展,7 0 年代中期b s a t a l 研究了l p c 系数、声道 哈尔滨工程大学硕士学位论文 i i 的冲激响应、自相关系数、声道面积函数以及倒谱系数等不同的特征参数在 自动说话人识别系统中的有效性,并指出倒谱系数是较为有效的语音特征【。 其后,倒谱系数及其各种变形被广泛应用。后来r o s e n b e r g 、s o o n g 、f u r u i 、 p o d t z 等人将v q 、h m m 和a n n 这样一些用在语音识别中的技术成功地 引入到了说话人识别研究中,大大地推动了自动说话人识别技术的发展。 如今,说话人识别技术已逐渐走入实际应用,a t & t 应用说话人识别技 术研制出了智慧卡( s m a r tc a r d ) ,已应用于自动提款机。欧洲电信联盟在电信 与金融结合领域应用说话人识别技术,于1 9 9 8 年完成了c a v e ( c a l l e r v e r i f i c a t i o n i nb a n k i n ga n dt e l e c o m m u n i c a t i o n ) 计划,并于同年又启动了 p i c a s s o ( p i o n e e r i n gc a l la u t h e n t i c a t i o nf o rs e c u r es e r v i c eo p e r m i o n ) 计划, 在电信网上完成了说话人识别。同时,m o t o r o l a 和v i s a 等公司成立了 v - c o m m e r c e 联盟,希望实现电子交易的自动化,其中通过声音确定人的身份 是此项目的重要组成部分。其他的一些商用系统还包括:i t t 公司的s p e a k e r k e y 、k e y w a r e 公司的v o i c eg u a r d i a n 、t - n e t i x 公司的s p e a ke z 等。 虽然说话人识别技术已经在某些领域得到了成功的应用,但目前的应用 仍受到环境等因素的制约,仍然有许多问题需要解决,尤其是在噪声或失真 环境下的r o b u s t 性能问题严重阻碍了说话人识别技术的进一步应用【2 。1 。 总的说来,说话人识别主要存在以下问题: ( 1 ) 尚未找到简单可靠的说话人语音特征参数。语音信号中既包含了讲话 内容的语义信息,又包含了说话人发音特征的个性信息,是语音特征和说话 入特征的混合体,到目前为止,还没有很好的方法将说话人的个体特征从语 音特征中分离出来,也没有找到简单的声学参数能够可靠地识别说话人。 ( 2 ) 语音信号的变异性。即使对同一说话入和同一文本,语音信号也有很 大的变异性。说话人的语音特征不是静态的、固定不变的,它具有时变特性, 并常常与说话人所处的环境、情绪、健康状况有密切关系,会随着时间的推 移和年龄的变化而变化。另外传输语音的通信信道的时变效应问题也是语音 信号产生变异的主要方面。语音信号的变异性从本质上使说话人特征空间发 生移动,说话人模式产生变异,从而增加识别过程中的不确定性。此外,说 话人识别的应用还受到伪装发音、播放录音等问题的困扰。 ( 3 ) 需要找到快速可靠的识别算法。此算法不仅要达到良好的识别率,而 哈尔滨丁程大学硕士学位论文 且也要具有较少的复杂度。 ( 4 ) 如何获得充分的训练语音和充分的模拟说话人语音的时变性问题,或 者是说,如何用最少的训练数据就能达到良好的识别效果。 1 2 说话人识别的基本原理 1 。2 1 说话人识别的基本概念 说话人识别是根据说话人所发的语音来确定说话人身份的过程,也就是 将声音这种生物特征作为身份认证依据的识别技术。它着眼于包含在语音信 号中的个人特征信息,提取说话人的这些个人信息特征,以达到识别说话人 的目的。语音是人的自然属性之一,由于说话人发音器官的生理差异以及后 天形成的行为差异,每个人的语音都带有强烈的个人色彩,这使得通过分析 语音信号来识别说话人成为可能。说话人识别是交叉运用心理学、生理学、 语音信号处理、模式识别、统计学习理论和人工智能的综合性研究课题。 说话人识别可以看作是语音识别中的一种,它和语音识别一样都由特征 提取和模式分类两部分组成,都是通过对所接收的语音信号进行处理,提取 相应的特征,建立相应的模型,然后据此做出判断。它们的区别在于说话人 识别希望从语音信号中提取出人的个性特征,希望挖掘出包含在语音中的个 性因素,因此在处理方法上力图强调不同人之间的差别;而语音识别注意语 音信号中的语义内容,希望从不同的语音信号中寻找共同因素,因而力图对 不同说话人的差别加以归一化。 图1 1 给出了说话人识别系统框图。 图1 1 说话人识别系统框图 哈尔滨- t 程大学硕士学位论文 m_ii i_ 建立完整的说话人识别系统可分为两个阶段,训练阶段和识别阶段。在 训练阶段,用每个训练者的若干语句进行一系列处理,提取出特征参数,建 立模型。在识别阶段,再对待识者的语句进行与训练过程相同的处理,提取 出特征与系统中存储的模型根据一定的相似性准则进行比对,最终给出判决。 1 2 2 说话人识别的分类 说话人识别按照其最终完成的任务可以分为两类:说话人确认( s p e a k e r v e r i f i c a t i o n ) 和说话人辨认( s p e a k e ri d e n t i f i c a t i o n ) 。本质上它们都是根据分析 说话人所说的测试语句或关键词,从中提取与说话人有关的特征信息,再与 存储的参考模型比较,做出正确的判断。不过说话人确认是确认一个人的身 份的过程,只涉及一个特定的参考模型和待识别模式之间的比较,系统只做 出“是”或“不是”的二元判决;而对于说话入辨认,系统则必须辨认出待 识别的语音是来自参考说话人中的哪一个,有时还要对参考说话人以外的语 音做出拒绝的判别。由于需要比较和判决,所以说话人辨认的误识率要大于 说话人确认,并且随着数量的增加,其性能将会逐渐下降。 此外,在进行说话人识别时,按照测试语音的输入方式来分,还可将说 话人识别分为三类,即与文本无关的( t e x t i n d e p e n d e n t ) ,与文本有关的 ( t e x t d e p e n d e n t ) 和文本指定型的( t e x t d e p e n d ) 。前二类,一种是不规定说话 内容的说话人识别( 识别时不限定所用的语音的语句内容) ,另一种是规定内 容的说话人识别( 只能用规定内容的语句进行识别) 。然而,只有这二种类型 是不完全的,因为如果其他入用录音装置把说话人本人的讲话内容记录下来, 然后用于识别,则往往有被识别装置错误接受的危险。而在指定文本的说活 人识别中,每一次识别时必须先由识别装置向说话人指定需发音的文本内容, 只有在系统确认说话人对指定文本内容正确发音时才可以被接受,这样做可 以防止本人的语声被盗用。 进一步,按照测试集的范围,可分为开集说话人辨认和闭集说话人辨认。 顾名思义,丌集说话人辨认是指待测试说话人可能在训练集之外,闭集说话 人辨认是指待测试说话人必在训练集之中。由此可见,开集说话人辨认增大 了说话人辨认的难度,它实质上完成了待测试说话人相对于一个集合的确认 过程和在一个集合中的辨认过程1 4 - 6 j 。本论文主要完成开集说话入辨识。 4 哈尔滨1 _ 程大学硕十学位论文 1 3 说话人识别的应用与前景 说话人识别可以用于说话人的身份未知,而说话人的身份又很重要的场 合。下面给出说话人识别的基本应用类型和一些典型应用。 ( 1 ) 各种门禁系统:说话人识别可用于电话预约服务、计算机人机界面等, 使其只响应合法使用者。 ( 2 ) 司法鉴定:对于各种电话勒索、绑架、身份攻击、骚扰等案件,可以 根据电话录音查找嫌疑人范围;声纹识别还可以在法庭上提供身份确认的旁 证。 ( 3 ) 军队和国防:声纹辨认技术可以察觉在电话交谈过程中的人物身份, 继而对交谈内容进行跟踪,目前该技术在国外军事方面已经有所应用,据报 道,迫降在我国海南机场的美军e p 一3 侦察机中就载有类似的声纹识别侦听 模块:在伊拉克战争期间,美国f b i 和德国科学家也采用了说话人识别技术 来确认在电视上讲话的是否为萨达姆本人。 ( 4 ) 医学应用:说话人识别的主要依据是说话人声道生理结构的差异,一 方面生理学和解剖学的进展可促进说话人识别问题的研究,另一方面也可借 助说话人识别方法进行声道特性的研究。 ( 5 ) 语音检索:电话录音等设备每天产生大量信息,而人们常常仅对某些 特定身份的说话人感兴趣,将说话人识别技术与连续语音识别技术相结合, 就可检索出录音中特定人所说的内容。 ( 6 ) 语音控制:根据说话人的语音能够自动完成某些行为,比如语音拨号, 语音控制台等。 总之,说话人识别是在信息高速公路、多媒体技术、办公自动化、现代 通信、智能系统、银行金融、医学工程、公安司法及机要保密等众多领域应 用的核心技术之一。因而,实用化的说话人识别系统在国际上受到了极大的 关注和重视。 1 4 本文所做的工作与论文结构 说话人识别技术在大量学者的不断研究下已取得了很大进展,并出现了 哈尔滨工程大学硕士学位论文 1 1m11 较成功的产品。但是说话人识别技术还存在着很多的问题,仍有很大的研究 空间。本文在现有成果和理论的基础上,以短波信道环境为应用背景,以飞 行员在飞行过程中与陆地通信的对话录音为实验数据,实现了一个文本无关 的开集说话人辨识系统。由于短波信道环镜复杂,所以本文的研究对提高噪 声环境下的说话人识别系统的性能有一定意义,而目前提高噪声环境下的说 话入识别系统的性能也是说话人识别系统从实验室迈向实用的关键,也是当 前说话人识别技术研究的热点。 本文主要对以下几个方面做了探索和研究: ( 1 ) 系统实现与文本无关的开集说话人辨认,即系统经一定的学习后,识 别时不需对说话人的范围和说话内容做出限制。 ( 2 ) 研究了基于人耳听觉机理的特征参数m f c c ,应用翻转的美尔滤波 器组提取出了一组能够弥补传统m f c c 不足的新特征i m f c c 。 ( 3 ) 利用m f c c 与i m f c c 互补的特性,提出多分类融合的分类方法,用 支持向量机分别以m f c c 和i m f c c 为特征单独执行分类,将得到结果按某 种方式融合,取两者之长,最后做出判决。 ( 4 ) 提出基于动态阈值的开集识别算法,实现开集说话人识别。 ( 5 ) 设计功能更加完善的系统,对判为集外的语音,自动将其加入到系统 模板中,不断扩大识别范围。 论文章节安排如下: 第l 章介绍了说话人识别的研究背景、现状、基本原理、应用和前景。 第2 章主要介绍语音特征提取的方法,包括语音的前端处理和常用的特 征参数的提取方法,并深入探讨了这些特征的性能。并在本章介绍了翻转美 尔倒谱系数i m f c c 及其特点。 第3 章介绍了说话人识别的方法,着重介绍了模式分类领域性能较好的 支持向量机的原理及实现。 第4 章提出了可以有效提高说话人识别性能的多分类融合系统和基于动 态阈值的开集说话人识别算法。 第5 章具体介绍了系统的实现过程,给出试验结果并对之进一步分析讨 论。 最后总结了所做工作并对今后的工作做了展望。 6 哈尔滨:r 程大学硕十学位论文 第2 章说话人语音特征提取 说话人识别的本质实际上是利用人的语音对人进行个性的识别。如同指 纹一样,语音也是人的自然属性,每个人都有自己的发音器官特征,以及特 殊的发音习惯,这些个性特征会反映在说话人的语音信号中。因此从语音信 号中提取能反映说话人个性的特征参数是说话人识别的关键,如何选取能更 好地表征说话人个性的特征参数,也是说话人识别系统面临的基本问题。 说话人识别研究中已经使用过的特征参数主要有基音及其共振峰 8 1 ,线 性预测系数 9 1 ,倒谱系数1 1 0 j ,以及对这些参数的组合、变换。不同的特征参 数的物理意义不同。基音及其共振峰是表征说话人固有特征的参数,代表了 人的声带特征。以全极点模型为基础的线性预测参数可以较为精确地反映语 音信号的频谱幅度,代表了人的声道特征。把语音信号每一段看成准周期脉 冲或随机噪声激励一个线性时不变系统的输出,解卷积的方法将激励信号和 系统冲激响应分开,将得到声道的共振性能。 在文本自由的情况下,说话人特征一般用倒谱参数表征。倒谱是信号的 能量谱取对数后的逆傅立叶变换,它可将信息量较小的峰值信息和更重要的 声道形状信息相分离,是目前普遍采用的说话人特征参数。倒谱系数也可由 线性预测系数推得,称为线性预测倒谱,它是语音帧倒谱的自相关序列。与 直接计算倒谱相比,线性预测倒谱的计算量较小。对大多数语音信号来说, 全极点模型能很好地模拟声道的效应,然而对于鼻音和摩擦音,往往需要零 极点模型才能更好地模拟声道的效应,所以a r m a i ij 模型和加权倒谱 a c w i l 2 】也已经被用来提取说话人语音特征。在说话人识别中,基于听觉机理 的美尔倒谱川和感知线性预测则已被证明为是较有效的说话入特征,这些 特征被证明要好于传统的线性预测系数。 目前大多数的说话人特征提取方法都利用了语音信号的短时平稳特性, 并认为语音信号的相邻帧间相互独立,这样的特征提取方法丢失了语音信号 的动态特征,随着时频分析、小波分析等信号处理方法的出现,人们研究了 利用说话人语音动态特性的说话人特征提取方法。 7 哈尔滨工程大学硕士学位论文 2 1 特征提取的原则及评价标准 2 1 1 特征提取的原则 在理想的情况下,为了获得良好的识别性能,选取的特征应满足如下准 则: ( 1 ) 具有很高的区别说话人的能力,能够充分体现说话人个体间的较大 的差异,而在同一说话人本身语音发生变化时保持相对稳定; ( 2 ) 输入语音受到传输通道和噪声的影响时,能够具有较好的顽健性; ( 3 ) 易于提取、易于计算,并且在特征各维参数之间应有良好的独立性, 在保持高识别率的情况下,应有尽可能少的特征维数; ( 4 ) 不易被模仿i 引。 2 1 2 特征提取评价标准 评价特征对识别的贡献可以用f 比和d 比1 5 j 来分别表征单个参数和多维 特征矢量在特征空间中的区分能力,以衡量特征参数的有效性。 对于某一维单个的参数而言,可以用f 比来表征它在说话人识别系统中 的有效性。同一说话人的不同语音会在参数空间映射出不同的点,若对于同 一个人这些点分布比较集中,而对不同说话人的分布相距较远,则选取的参 数就是有效的。可以选取两种分布的方差之比,即f 比作为有效性准则。 卜警禚鬻= 薄静。 t1=一=-7- 厶一l , 同一说话人特征方差的均值r ,( j ) 2 、。 这里f 值越大表示特征参数越有效,即不同说话人的特征量的均值分布 的离散程度越好;而同一说话人的越集中。式中,( ) 。是指对不同说话人作 平均,( ) 。是指对某个说话人各次的某语音特征作平均,石为第i 个说话人 的第t 次语音特征。;= ( z 。i ) 。是第i 个说话人的各次特征的估计平均值, 哈尔滨t 程大学硕十学位论文 而= ( z i ) ;是将所有的z ;平均所得的均值。 需要说明的是,在f 比的定义过程中是假定差别分布是正态分布的,这 是基本符合实际的。虽然f 比不能直接得到误差概率,但显然f 比越大误差 概率越小,因此,f 比可以作为选择特征参数的有效性准则。 把f 比的概念推广到多维的情况,人们定义了d 比,用以衡量多维特征 矢量在说话人识别系统中的有效性。定义两个协方差矩阵,即说话人间的协 方差矩阵b 和说话人内协方差矩阵w ,分别表示为 b = ( 一一万 “一石 t ) ( 2 - 2 ) w = ( 沙。一鸽矽。一群耽( 2 - 3 ) 式中,z 。i 为第i 个说话人第t 次语音特征。一= ( 而) 。是第i 个说话人的各 次特征的估计平均值,而= ( 1 i ) i 是将所有的“平均所得的均值。 根据这两个协方差矩阵,。可以定义对多维特征矢量的可分性测度,成为 “散度 ( d i v e r g e n c e ) ,即d 比,可表示为: d = ( 1 i 氆pk ,m 耽( 2 - 4 ) 式中,为第j 个说话人特征矢量的估值。上式也可写为: d = t r w b ( 2 - 5 ) 式中,t r 为矩阵的迹。d 比考虑到了特征矢量中各维参量中各维参量之间的 相关性,更适于作为一组特征有效性的度量。在特征矢量维数为一维时,d 比即装化为f 比。 2 2 语音信号的前端处理 在对语音信号进行特征提取前,首先要进行一系列的前端处理,语音信 号的预处理包括:预加重、端点检测、加窗和分帧几个步骤。 9 哈尔滨工程大学硕士学位论文 ( 1 ) 预加重。发声过程中声带和嘴唇的效应,使得高频共振峰的振幅低 于低频共振峰的振幅,所以在语音数据在处理之自玎,首先要通过一个一阶高 通滤波器1 一舷,通常称为预加重滤波器。进行预加重的目的就是为了消 除声带和嘴唇的效应,将有用的高频部分的频谱进行提升,来补偿语音信号 的高频部分。 其中式中的口为预加重系数,一般为0 9 5 、0 9 7 或0 9 8 。下图2 1 为口取 o 9 8 时语音原始信号与预加重后的信号的时域波形图的比较。 q 4 0 2 型。 翟 - 0 2 0 。 i l 。ji l 一i t , _l- il 7 1 lr 一1 了_rr i r _ - , 0 0t 0 2 篇 。 - 0 _ 2 0 上 3 时间 ( a ) 原始波形 56 m1 口一 _ - l l 。j 。j llli 山 l i l i j r1 _。1 _ vlw 孵 -_-_ _ _- 0, , 时间 5! ! | m1 0 i ( b ) 预加重处理后波形 图2 1 语音原始信号与预加重后信号的比较 ( 2 ) 分帧。由于语音信号的短时平稳特性,使得在短时段上才可视为是 一个平稳过程,可以用平稳过程的分析方法进行分析,因此需要将语音信号 划分为一个个的短时段,每一短时段称为一帧,每一帧的长度约为l o m s 3 0 m s 。分帧可以采用连续分段的方法,但为了使帧与帧之间平滑过渡,保持其 连贯性,一般采用交叠分段的方法,即每一帧的帧尾与下一帧的帧头是重叠 的。 哈尔滨丁程大学硕士学位论文 mi i ( 3 ) 加窗。为减小语音帧的截断效应,降低帧两端的坡度,使语音帧的 两端不引起急剧变化而平滑过渡n o ,就要让语音帧乘以一个窗函数。设帧信 号为x ( n ) ,窗函数为w ( n ) ,则加窗后的信号y ( n ) 为: y ( n ) = x ( 玎) w ( 甩) ( 2 6 ) 式中:0 n n 一1 :n 为每帧的取样点数。 目前常用的窗函数是h a m m i n g 窗: w ( n 1 :0 5 4 0 4 6c o s 竺生( 2 7 ) 、 一1 ( 4 ) 端点检测 端点检测( e n d p o i n td e t e c t i o n ) 的功能是在输入信号中检测语音的起止 点。在说话人识别系统中,正确确定语音段端点不仅可以减少计算量,而且 可以提高说话人识别的正确率,具有重要作用。 本质上,端点检测就是利用信号的某种特征来区分噪声和语音。语音端 点检测算法的一般步骤如下: 语音信号分成相邻有重叠的语音段,称为语音帧; 对每一语音帧,选取一种特征向量: 采用一种判决准测,来检测语音帧和非语音帧; 对上述结果进行后处理,得到语音的全部区间。 可以用作端点检测的语音特性有很多,如能量【1 5 一9 。、过零率【1 8 l 、熵 2 0 - 2 1 l 、 倒谱1 2 2 】、频率特性和高阶统计量等,利用这些特性的语音端点检测算 法都达到了较好的性能。 考虑到广泛应用于编码理论的信息熵代表信源的平均不定性导致语音的 熵必定和噪声的熵存在较大差异,本文采用了基于熵函数的语音端点检测方 法,较能量法,谱熵法在信噪比较低和非平稳噪声下,尤其是机器声,更为 有效。 谱熵 2 5 - 2 6 】的计算方法如下,首先通过快速傅立叶变换( f f t ) 来得到每一 帧信号的频谱其中每个频谱向量的各系数表明了该帧信号在该频率点的大小 分布。然后计算每一帧的每个频谱分量在每帧的总能量中所占的比例,将其 作为代表信号能量集中在某频率点的概率。即计算熵所需的概率密度函数通 哈尔滨工程大学硕士学位论文 过下式得: p :盟l 姚m ( 2 - 8 ) s 魄) k = 1 其中,s ) 为第i 个频率点的谱能量,表示f f t 计算所取的点数,只 表示相应帧的概率。由于语音的大部分能量集中在3 0 0 3 4 0 0 h z 之间,所以 为了集中计算熵以增加语音和非语音在概率密度函数上的区分性,我们把处 于3 0 0 3 4 0 0 h z 之外的频率分量置为0 。即: s ) = 0,3 0 0 h z 或,3 4 0 0 h z ( 2 9 ) 谱熵计算如下: 日= 一bl o g ) ( 2 - 1 0 ) 一4 k = l 仿真结果如图2 2 所示。 ( a ) 纯净语音 ( b )混有白噪声的语音信号s n r = s d b ( a ) 谱熵曲线 图2 2 基于谱熵的端点检测 有了谱熵的计算方法后就要设定个门限阂值来区分语音段和非语音 哈尔滨丁程大学硕+ 学位论文 段。阈值的设定首先要在录音中截取一段非语音断,可选择截取大小为5 帧。 具体步骤如下: 计算5 帧非语音段的谱熵,利用这些熵值的平均作为初始门限,这个值 用c 表示。最大熵值为,最小熵值为h m i i i 。 对此门限值进行更新,更新公式如下: c ,= 口g l + ( 1 一口溉( 2 - 1 1 ) 口为调整因子,随每一帧动态变化。经实验论证口取值为: 口= 0 9 9 6 “一 啊 c f - 1( 2 1 2 ) 口= o 9 9 h , - h i c h ( 2 - 1 3 ) 以此阈值作为判别门限,如连续5 帧以上均小于此门限,则判定这一段 为非语音段。 2 3 常用特征参数 目前最常用和较为有效的特征主要有线性预测倒谱系数和美尔倒谱系 数,另外通常添加一维的能量参数作为辅助。下面详细介绍这几种特征的 原理和提取方法。 2 3 1 线性预测倒谱系数 线性预测编码( l p c ) 是当今语音信号分析的重要方法之一,它的主要思 想就是用语音帧过去若干值来推导当前值,使用最小均方算法实现,表征了 说话人的声道特征。即通过这种方法从语音信号中提取出与声道相关的参数。 对于多种l p c 语音特征量,包括l p c 系数、l p c 反射系数、l p c 自相关函 数、l p c 面积函数和l p c 倒谱系数,实验表明倒谱系数对说话人识别效果最 好。它的主要优点是它比较彻底地去掉了语音产生过程中的激励信息,主要 反映声道响应,而且往往只需十几个倒谱系数就能较好地描述语音的共振降 特性,因此在话音识别应用中获得了良好的效果。 语音信号可以看成是声门激励和声道频率响应卷积的结果,即 s 。= ,f 。为激励信号,h 。为声道响应函数。而说话人的个性特征很大 程度上取决于说话人的发声声道,即声道响应,故需将f 。和厅。分离。 哈尔滨t 程大学硕士学位论文 通常采用同态分析的方法,将相卷积的两部分信号解卷分离,即先求s 。的短 时傅立叶变换,再取对数,然后再作傅立叶逆变换,这样在倒谱域上可获得 加性的两部分信号厶和h 。因为它们各占有不同的时段,故对低时段滤波, 便可得到代表说话人声道特征的倒谱h 。,即f f t 倒谱,但该方法计算繁琐。 可以证明,语音的f f t 倒谱与l p c 倒谱代表的特征基本一致,并且后 者更好地描述了频域的共振峰特性,而计算量仅仅是f f t 倒谱的一半。利用 线性预测中声道系统模型的最小相位特性,则不难导出l p c c 系数的求解公 式。 设线性预测分析得到的声道模型为: 1 h ( z ) = l ( 2 1 4 ) 1 一口女z _ k = l 其冲激响应为j l z o ) ,此处要计算的就是其倒谱办。o ) 。根据倒谱的定义, l n h ( z ) = h 。( z ) = 厅。g ) z ” ( 2 - 1 5 ) n - i 将其两边对z 。1 求导数,即有: 即 = 刍挚o ) z ” ( 2 - 1 6 ) p 。c a i z 4 “ n h 。g p “= 旦一 (217)p z 一 、,、7 ”2 1 l 口女z 一 七= i 因而有 ,p、p l1 - ) f a 。z 以i ,z h g 矿“= 妇。z 小1 ( 2 - 1 8 ) k = l n = l k = l 令其左右两边的常数项和z 一各次幂的系数分别相等,即得到 。g ) 和a iz r a j 的递地推关系: 1 4 方 h 旦 哈尔滨工程大学硕士学位论文 h ( 1 ) = a 。 办鸹+ 善n - i ( 一铷帕哪疗p ( 2 1 9 ) 办。o ) = 喜( 一言) 口。是。( 玎一七) 以 p l p c c 反映的是说话人声道特征,实验发现倒谱分析阶数取1 6 能较好地 表征语音的特征参数。这个倒谱是从一帧短时语音段中获取的,是语音在某 一时刻某一帧的倒谱。 2 3 2 美尔频率倒谱系数 在8 0 年代,倒谱类型的参数由于具有两个明显的优势而逐渐取代了线 性预测分析而成为说话人模型的首选参数,其中一个优势是可以通过对倒谱 域的滤波和加权来对基于线性的频谱进行处理,第二个优势就是可以方便地 应用m e l 倒谱理论【”j 。与普通倒谱分析不同的是,m e l 频率倒谱参数( 或感 知频域倒谱参数,m f c c ) 的分析着眼于人耳的听觉机理,依据听觉实验结果 来分析语音的频谱,获得了较高的识别率和较好的噪声鲁棒性。 现实生活中,人的听觉系统在没有主观倾向影响的情况下,可以说是一 个比较好的说话人识别系统,具有很高的识别率。虽然人的听觉系统分辨说 话人的机理不一定是最好的说话人识别方法,但是在目前的技术条件系,如 果能够达到人类分辨说话人的水平,也是相当可观的。美尔倒谱系数 m f c c ( m e l f r e q u e n c yc e p s m n r tc o e f f i c i e n t s ) 就是模仿人耳的听觉机理得到 的。 根据对人耳听觉系统特性的分析,人耳听到的声音的高低与声音频率并 不成线性正比关系,故人耳对声音的感受不能用频率来描述。语音学中为了 描述听觉上分辨声音高低的感受,引入了音调( p i t c h ) 的概念,人们对频率低 的声音,听起来感觉它的音调低,对于频率高的声音,听起来感觉它的音调 高。但是音调与声音频率并不成f 比关系,为了描写音调,人们采用美尔( m e l ) 、 标度,即音调的单位为m e l t 2 8 j 。m f c c 正是利用音调特性来提取的,即用m e l 刻度对频率轴进行弯折,计算听觉的主观频率( m e l 频率) 上的倒谱系数。 哈尔滨工程大学硕士学位论文 实际频率屿m e l 频率之间的转换关系【2 9 】可由下式近似表示: f m d = 2 5 9 5 1 0 9 l o ( 1 + f 7 0 0 ) ( 2 - 2 0 ) 其中频率f 的单位是h z ,美尔频率f 眦的单位是m e l 。 它们关系的下图2 3 所示: 图2 3m e l 标度与频率的关系 在求取m f c c 的过程中,根据m e l 频率与h z 的对应关系,类似临界频带 的划分,可以将语音频率划分成一系列三角形滤波器序列,即m e l 频率滤波 器组,每个滤波器在以m e l 为单位的频率轴上是等间距的,在以h z 为单位的 频率轴上是不等间距的,而是符合临界带宽的分布特性。 m e l 滤波器组的结构如下图2 4 所示: ”下: 1f 嫩 ;f _ f 1i l f 上一上一 图2 4m e l 滤波器组结构 通常滤波器组有着2 0 个三角形的频率响应,大致近似于一个频率范围为 4 0 0 0 h z 的听觉临近边带滤波器组。 表2 1 给出了临界带滤波器组的一种典型的中心频率和带宽参数【2 9 】。 1 6 哈尔滨丁程大学硕士学位论文 表2 1m e l 滤波器组的频带划分 滤波中心频率临界带宽滤波中心频率临界带宽 器号( h z )( h z )器号( h z ) ( h z ) l1 0 0 1 0 0 1 1 1 1 4 91 6 0 22 0 01 0 01 21 3 2 01 8 4 33 0 01 0 0 1 31 5 1 6 2 1 1 44 0 01 0 01 41 7 4 l2 4 2 55 0 01 0 01 52 0 0 02 7 8 66 0 01 0 0 1 62 2 9 73 2 0 7 7 0 01 0 0 1 7 2 6 3 93 6 7 88 0 01 0 01 83 0 3 1 4 2 2 99 0 01 0 01 93 4 8 24 8 4 1 01 0 0 01
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 手绘透明杯子课件
- 剪纸艺术入门
- 如何快速做课件
- 二零二五年个人自建房钢结构安装承包协议
- 2025版环保科技项目认购协议书
- 二零二五年度建筑给排水工程纠纷调解合同范本
- 二零二五年度WPS办公软件批量采购借款协议样本
- 2025版范文大全智能交通固定资产租赁合同
- 2025版市政道路施工三方合作协议书模板下载
- 2025版个人旅游贷款合同范本大全
- 2025年空军专业技能类文职人员招聘考试(档案)历年参考题库含答案详解(5套)
- 上海虹桥新港商业策划过程稿
- 文秘考试题库及答案
- T-CECC 37-2025 公共数据资源授权运营合规要求
- 读书分享读书交流会《人生海海》
- 微小灶外卖订餐系统
- 上海市建设工程勘察合同(示范文本)
- 机电安装施工界面划分电气
- 起重设备安装工程施工及验收规范
- esicm血流动力学共识 课件
- 焊接工艺不锈钢的焊接
评论
0/150
提交评论