




已阅读5页,还剩52页未读, 继续免费阅读
(计算机软件与理论专业论文)鲁棒性的与文本无关的开集说话人辨识方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
哈尔滨工程大学硕士学位论文 手两要 语言是人类交流最重要的工具,作为语言载体的语音信号在不同的层面 包含了大量的信息。其中与说话人相关的信息可以辨认说话人是谁或者确认 此说话人是否为所声言的说话人。如今自动说话人识别技术在低噪声、低失 真环境下的性能已经相当的高,但实际环境中无处不在的噪声带来了训练模 型和测试语音之间的失配,这使得噪声环境中说话人识别系统的识别率急剧 下降。因此提高噪声环境下说话人识别系统的性能是说话人识别系统从实验 室走向实用的关键,也是当前的研究热点。 说话人识别技术主要包括特征提取和模式识别两大模块,本文分别从人 的发音器官和听觉器官研究了特征参数的提取和抗噪性能,并对当今主流分 类器做了深入的研究。所有工作主要针对噪声环境下文本无关的开集说话人 辨识展开。 在预处理阶段考虑到广泛应用于编码理论的信息熵代表信源的平均不定 性导致语音的熵必定和噪声的熵存在较大差异,本文采用了基于熵函数的语 音端点检测方法,试验表明谱熵法在信噪比较低和非平稳噪声下具有良好的 性能,并进而针对本文提出了一种动态阈值的方法检测语音端点。 考虑到语音在整个频带上是非均匀分布的,本文采用多子带特征提取, 并在每个频带内使用基于t e a g e r 能量的子倒谱特征。并提出了一种支持向量 机与高斯混合模型相结合的系统。首先用支持向量机对每个子带分别决策, 筛选出训练集之外的说话者,然后对集内人用判别结果归一化值进行特征加 权以突出对识别结果影响较大的子带特征。试验结果表明,本文系统在低信 噪比环境下仍然具有较好的识别性能。 关键词:说话人识别;美尔标度;子倒谱:支持向量机;高斯混合模型 堕签堡三堡盔堂堡主堂垡笙塞 a b s t r a c t l a n g u a g ei st h em o s ti m p o r t a n tt o o l f o rh u m a ni n t e r c o m m u n i o n s p e e c h s i g n a la st h ec a r r i e ro fl a n g u a g ee m b o d i e sm u c hi n f o r m a t i o ni nd i f f e r e n t1 e v e l b y t h ei n f o r m a t i o no fs p e a k e r , w h oi st h es p e a k e rc a nb ei d e n t i f i e do rw h e t h e rt h e s p e a k e ri st h ec l a i m e do n ec a nb ev e r i f i e d i nm o d e md a y , a u t o m a t i cs p e a k e r r e c o g n i t i o nh a sp e r f o r m e dq u i t ep e r f e c t b u tt h em i s m a t c hb e t w e e nt h et r a i n i n g d a t aa n dt 1 1 et e s td a t at h a tr e s u l tf r o ma l lk i n d so fn o i s ei nr e a le n v i r o n m e n tm a k e t h es p e a k e rr e c o g n i t i o nr a t ed r a m a t i c a l l yd e c l i n e d a sar e s u l t ,i m p r o v i n gt h e p e r f o r m a n c ew h e ns i g n a l - t o - n o i s e ( s n r ) i sm u c hl o w e ri st h ek e yf o rt h es y s t e m c o m et op r a c t i c ef r o ml a b o r a t o r y n l et e c h n o l o g yo fs p e a k e rr e c o g n i t i o ni sc o m p o s e do ff e a t u r ee x t r a c t i o na n d p a t t e mc l a s s i f i c a t i o n t l l i sp a p e rr e s e a r c h e dp r o n u n c i a t i o no r g a na n dh e a r i n g o r g a nt ou n d e r s t a n ds p e e c hr o b u s t n e s s i na d d i t i o n ,s o m ep r i m a r yc l a s s i f i e r sa r e i n t e n s i v e l yr e s e a r c h e d a l lo fw o r k sa r ee x t e n d e df o rt e x t i n d e p e n d e n to p e n s e t s p e a k e rr e c o g n i t i o ni nn o i s ye n v i r o n m e n t c o n s i d e r i n gi n f o r m a t i o ne n t r o p yt h a ti sc o m p r e h e n s i v e l ya p p l i e dt oc o d e t h e o r yr e p r e s e n ta v e r a g eu n c o n f i r m e di n f o r m a t i o ns o u r c e ,t h ee n t r o p yo fs p e e c h a n dt h ee n t r o p yo fn o i s em u s tb ed i f f e r e n t t 1 1 i sp a p e ra p p l i e de n t r o p yf u n c t i o nt o s p e e c hs e g m e n t a t i o n n l ee x p e r i m e n tr e s u l t s h o w st h e s p e c t r u me n t r o p y p e r f o r m e dm u c hw e l li nl o ws n r a n du n c o n f i r m e dn o i s yc o n d i t i o n f u r t h e r , a d y n a m i ct h r e s h o l di sb r o u g h tf o r w a r dt oe x e c u t ep h o n e t i cs e g m e n t a t i o n c o n s i d e r i n gn o i s ef r e q u e n c ys p e c t r u mr a r e l yo v e r l a ya l lt h a to fs p e e c h ,t i f f s p a p e ru s e sm u l t i s u b b a n df e a t u r ee x t r a c t i o na n du s e ss u b c e p s t r u mb a s e dt e a g e r e n e r g yi ne v e r ys u b b a n d f u r t h e r m o r e ,ah y b r i ds y s t e m o fs u p p o r tv e c t o r m a c h i n e ( s v m 、a n dg a u s s i a nm i x e dm o d e l ( g m m ) i si n t r o d u c e d f i r s t l y , t h i s s y s t e ma p p l i e ss v m t oe v e r ys u b b a n d t h u st h es p e a k e rt h a td o e sn o tb eb e l o n gt o t r a i n i n gs e ti sf i l t e r e do u t t h e n , t h ef b a t l l r ev e c t o r so fs p e a k e r si nt r a i n i n gs e ta r e w e i 曲e db yt h es c o r et h a ti sd e t e r m i n e db ys v m ,s ot h es u b b a n df e a t u r e st h a t i n f l u e n c er e c o g n i t i o nm o r ea r eg i v e np r o m i n e n c et o f i n a l l y , t h ew e i g h e df e a t u r e s t 1 1 a tc o m b i n et o g e t h e ra r ep r o v i d e dt og m mf o rf i n a ld e c i s i o n t h ee x p e r i m e n t r e s u l ts h o w st h i ss y s t e mp e r f o r m e ds f i l lw e l l i nl o w e rs n rc o n d i t i o n k e y w o r d s :s p e a k e rr e c o g n i t i o n ,m e ls c a l e ,s u b - c e p s t r u m ,s v m ,g m m 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导 下,由作者本人独立完成的。有关观点、方法、数据和文 献等的引用已在文中指出,并与参考文献相对应。除文中 已经注明引用的内容外,本论文不包含任何其他个人或集 体已经公开发表的作品成果。对本文的研究做出重要贡献 的个人和集体,均已在文中以明确方式标明。本人完全意 识到本声明的法律结果由本人承担。 作者( 签字) :盘盎宝 日 期:2 年2 月- z y f j 哈尔滨工程大学硕士学位论文 1 1 引言 第1 章绪论 语言是人类交流最重要的工具,作为语言载体的语音信号在不同的层面 包含了大量的信息。随着科学技术的进步,语音信号处理在最近2 0 多年中取 得了巨大进展,其四大分支一一语音合成、语音编码、语音识别和说话人 识别都在蓬勃发展。语音信号处理是以语音学和数字信号处理为基础而形成 的一门综合性学科。由于其学术思想的综合性和实用性,一直深深地吸引着 众多学者。 说话人识别是一种自动识别说话人的过程,它着眼于包含在语音信号中 的个人特征,提取说话人的这些个人信息特征,以达到识别说话人的目的。 语音是人的自然属性之一,由于说话人发音器宫的生理差异以及后天形成的 行为差异,每个人的语音都带有强烈的个人色彩,这使得通过分析语音信号 来识别说话人成为可能。用语音来鉴别说话入的身份有着许多独特的优点, 如语音是人的固有特征不会被丢失或遗忘;语音信号的采集方便,系统设备 成本低。现今,说话人识别系统已被应用到了生产生活的诸多领域,正作为 一门古老而又时新的技术推动着社会的发展。 说话人识别按照其最终完成的任务可以分为两类:说话人确认( s p e a k e r v e r i f i c a t i o n ) 和说话人辨认( s p e a k e ri d e n t i f i c a t i o n ) 。本质上它们都是 根据说话人所说的测试语句或关键词,从中提取与说后人本人特征有关的信 息,再与存储的参考模型比较,做出正确的判断。不过说话人确认是确认一 个人的身份,只涉及一个特定的参考模型和待识别模式之间的比较,系统只 做出“是”或“不是”的二元判决;而对于说话人辨认,系统则必须辨认出 待识别的语音是来自待考察的个人中的哪一个,有时还要对这个人以外的语 音做出拒绝的判别。由于需要比较和判决,所以说话人辨认的误识率要大于 说话人确认,并且随着数量的增加,其性能将会逐渐下降。此外,在进行说 话人识别时,按照测试语音的输入方式来分,还可将说话人识别分为三类, 哈尔滨工程大学硕士学位论文 即与文本无关的( t e x t i n d e p e n d e n t ) ,与文本有关的( t e x t d e d e n d e n t ) 和 文本指定型的( t e x t d e p e n d ) 。前二类,一种是不规定说话内容的说话人识 别( 识别时不限定所用的语音的语句内容) ,另一种是规定内容的说话人识别 ( 只能用规定内容的语句进行识别) 。然而,只有这二种类型是不完全的,因 为如果没法防止其他人用录音装置把说话人本人的讲话内容记录下来,然后 用于识别,则往往有被识别装置错误接受的危险。而在指定文本的说活人识 别中,每一次识别时必须先由识别装置向说话人指定需发音的文本内容,只 有在系统确认说话人对指定文本内容正确发音时才可以被接受,这样做可以 防止本人的语声被盗用。迸一步,按照测试集的范围,可分为开集说话人辨 认和闭集说话人辨认。顾名思义,开集说话人辨认是指待测试说话人可能在 训练集之外,闭集说话人辨认是指待测试说话人必在训练集之中。由此可见, 开集说话人辨认增大了说话人辨认的难度,它实质上完成了待测试说话人相 对于一个集合的确认过程和在一个集合中的辨认过程1 1 _ 3 j 。本论文主要完成开 集说话人辨识。 1 2 说话人识别技术的研究与发展 说话人识别最初是在第二次世界大战期间由美国国防部长向贝尔实验室 提出的课题,目的是根据窃听到的电话语音来判断说话人是哪一位德军高级 将领,这对分析当时的德军战略部署具有重要的意义。b e l l 实验室l g k e r s t a 在1 9 6 2 年研究了通过可见的语谱图( s p e c t r o g r a m ) 进行人工的说 话人识别,并声称在1 2 个人的系统上得到了极好的识别性能,并将语谱图称 为声纹( v o i c e p r i n t ) 。紧接着,b e l l 实验室的s p r u z a n s k y 提出了基于 模式匹配和统计方差分析的声纹识别方法,引起了信号处理领域许多学者的 关注,形成了说话人识别研究的一个高潮。并在1 9 6 6 年,美国法院第一次采 用此方法进行了取证。 随着计算机技术的发展,7 0 年代中期b s a t a l 研究了l p c 系数、声道 的冲激响应、自相关系数、声道面积函数以及倒谱系数等不同的特征参数在 自动说话人识别系统中的有效性,并指出倒谱系数是较为有效的语音特征【4 】。 其后,倒谱系数及其各种变形被广泛应用。后来r o s e n b e r g 、s o o n g 、f u r u i 、 2 哈尔滨工程大学硕士学位论文 p o r i t z 等人将v e 、h m m 和a n n 这样一些用在语音识别中的技术成功地 引入到了说话人识别研究中,大大地推动了自动说话人识别技术的发展。 如今,说话人识别技术已逐渐走入实际应用,a t & t 应用说话人识别技术 研制出了智慧卡( s m a r tc a r d ) ,已应用于自动提款机。欧洲电信联盟在电信 与金融结合领域应用说话人识别技术,于1 9 9 8 年完成了c a v e ( c a l l e r v e r i f i c a t i o ni nb a n k i n ga n dt e l e c o m m u n i c a t i o n ) 计划,并于同年又启动 了p i c a s s o ( p i o n e e r i n gc a l la u t h e n t i c a t i o nf o rs e c u r es e r v i c e o p e r a t i o n ) 计划,在电信网上完成了说话人识别。同时,m o t o r o l a 和v i s a 等公司成立了v c o m m e r c e 联盟,希望实现电子交易的自动化,其中通过声 音确定人的身份是此项目的重要组成部分。其他的一些商用系统还包括:i t t 公司的s p e a k e rk e y 、k e y w a r e 公司的v o i c eg u a r d i a n 、t - n e t i x 公司的 s p e a ke z 等。但在迅速发展的过程中仍然有许多问题需要解决,特别是系 统的r o b u s t 性能问题严重阻碍了说话人识别技术的进一步应用 s 圳。 目前,国际上一些知名大学和研究机构都在进行噪声环境下说话人识别 的研究,如n i t 的f u r u i 研究所、卡内基梅隆大学的顽健语音识别小组、俄 勒冈研究生院的人类信号处理小组、瑞士的感知人工智能研究院。此外,国 际声学、语音与信号处理协会也专门设有顽健语音识别的专题。总的说来, 说话人识别主要存在以下问题: 1 ) 尚未找到简单可靠的说话人语音特征参数。语音信号中既包含了讲话 内容的语义信息,又包含了说话人发音特征的个性信息,是语音特征和说话 人特征的混合体,到目前为止,还没有很好的方法将说话人的个体特征从语 音特征中分离出来,也没有找到简单的声学参数能够可靠地识别说话人。 2 ) 语音信号的变异性。即使对同一说话人和同一文本,语音信号也有很 大的变异性。说话人的语音特征不是静态的、固定不变的,它具有时变特性, 并常常与说话人所处的环境、情绪、健康状况有密切关系,会随着时间的推 移和年龄的变化而变化。另外传输语音的通信信道的时变效应问题也是语音 信号产生变异的主要方面。语音信号的变异性从本质上使说话人特征空间发 生移动,说话人模式产生变异,从而增加识别过程中的不确定性。此外,说 话人识别的应用还受到伪装发音、播放录音等问题的困扰。 3 ) 需要找到快速可靠的识别算法。此算法不仅要达到良好的识别率,而 哈尔滨工程大学硕士学位论文 且也要具有较少的复杂度。 4 ) 如何获得充分的训练语音和充分的模拟说话人语音的时变性问题,或 者是说,如何用最少的训练数据就能达到良好的识别效果。 1 3 噪声的分类及影响 在现实社会中,由于噪声的存在使得语音发生畸变,造成了训练环境与 测试环境的不匹配,严重影响了识别率。我们可将噪声按照如下方式来分类: 1 ) 根据噪声干扰语音的方式,可以把噪声分为加性噪声,卷积噪声和非 线性叠加噪声。 2 ) 根据噪声的统计特性随时间变化的程度,可以将噪声分为平稳噪声, 缓变噪声与非平稳噪声。 ( 1 ) 平稳噪声是指噪声的统计特性不随时间变化,典型的平稳噪声是人 为产生的加性高斯白噪声。 ( 2 ) 缓变噪声的统计特性随时间变化,但是,统计特性的变化并不是非 常迅速。这种噪声在实际环境中经常遇到,如地铁噪声和人群噪声。 ( 3 ) 非平稳噪声也是我们在日常生活中经常遇到的,比如周围人的走动 声和关门的声音等。 当存在噪声干扰时,我们接收到的是噪声和纯净语音混合在一起的信号。 噪声语音的统计特性会发生变化,如纯净语音的特征原来是高斯的,现在可 能是非高斯的,原来是单峰的,现在可能是多峰的,原来是平稳的,现在可 能是非平稳的。总之,噪声的影响使得原来语音的训练模型对于含噪语音来 说将不再匹配,从而造成识别性能的急剧下降。 1 4 说话人识别的应用领域与应用前景 说话人识别可以用于说话人的身份未知,而说话人的身份又很重要的场 合。下面给出说话人识别的基本应用类型和一些典型应用。 1 ) 各种门禁系统:说话人识别可用于电话预约服务、计算机人机界面等, 使其只响应合法使用者。 4 哈尔滨工程大学硕士学位论文 2 ) 司法鉴定:对于各种电话勒索、绑架、身份攻击、骚扰等案件,可以 根据电话录音查找嫌疑人范围;声纹识别还可以在法庭上提供身份确认的旁 证。 3 ) 军队和国防:声纹辨认技术可以察觉在电话交谈过程中的人物身份, 继而对交谈内容进行跟踪,目前该技术在国外军事方面已经有所应用,据报 道,迫降在我国海南机场的美军e p 一3 侦察机中就载有类似的声纹识别侦听 模块;在伊拉克战争期间,美国f b i 和德国科学家也采用了说话人识别技术 来确认在电视上讲话的是否为萨达姆本人。 4 ) 医学应用:说话人识别的主要依据是说话人声道生理结构的差异,一 方面生理学和解剖学的进展可促进说话人识别问题的研究,另一方面也可借 助说话人识别方法进行声道特性的研究。 5 ) 语音检索:电话录音等设备每天产生大量信息,而人们常常仅对某些 特定身份的说话人感兴趣,将说话人识别技术与连续语音识别技术相结合, 就可检索出录音中特定人所说的内容。 6 ) 语音控制:根据说话人的语音能够自动完成某些行为,比如语音拨号, 语音控制台等。 总之,说话人识别是在信息高速公路、多媒体技术、办公自动化、现代 通信、智能系统、银行金融、医学工程、公安司法及机要保密等众多领域应 用的核心技术之一。因而,实用化的说话人识别系统在国际上受到了极大的 关注和重视1 7 j 。 1 5 本文所做的工作与论文结构 语音信号的处理,特别是语音信号的识别,从五十年代开始,走过了几 十年的风雨历程。随着硬件的发展,新的数学模型的引入,不断拓展着语音 识别的研究领域,提高了语音信号识别的性能。本文在以下几个方面作了一 些大胆而有益的探索与尝试工作: 1 ) 系统只对说话人的身份进行识别,而对语音信号中包含的语言内容不 作识别。 2 ) 系统实现的是语文本无关的开集说话人识别,即系统经一定的学习后, 哈尔滨工程大学硕士学位论文 识别是不需对说话人的范围和说话内容做出限制。 3 ) 建立了一个包含5 0 个说话人的语音库,其中,4 0 人用于目标说话人, l o 人用于集外人测试;每人训练语句为1 5 秒,测试语句大约为9 秒,包含5 段测试语句。 4 ) 研究了噪声对说话人识别的影响。 5 ) 研究了说话人的语音特征,并对它们进行了噪声鲁棒性的研究。 6 ) 改进了基于谱熵的端点检测算法,针对本文提出了动态闽值的端点检 测。 7 ) 提出了一种支持向量机与高斯混合模型相结合的系统。首先用支持向 量机对每个子带分别决策,筛选出训练集之外的说话者,然后对集内人用判 别结果的归一化值进行特征加权以突出对识别结果影响较大的子带特征。 论文章节安排:第2 章主要介绍一些语音特征提取,并深入探讨了这些 特征的性能。特别是在与处理阶段提出了一种动态端点检测方法用于说话人 识别;第3 章主要介绍了说话人识别领域应用最广的高斯混合模型及模式分 类领域性能较好的支持向量机的原理及实现;第4 章在前面知识的基础上提 出了一种支持向量机与高斯混合模型相结合的系统;第5 章给出试验结果并 对之进一步讨论。 堕叠堡三里奎兰堡主堂垡堡壅 第2 章说话人语音特征提取方法 一个完整的说话人识别系统包括两部分,首先从语音信号中提取出理想 的特征,然后把提取的特征输入到分类器并做出最终判决。为了获得良好的 识别性能,从语音信号中提取的说话人特征参数应满足以下准则:对说话人 的健康状况和情绪、测试的环境不敏感;能够长期地保持稳定;可以经常表 现出来;易于对之进行测量;与其它特征不相关;便于机器提取。同时满足 以上要求的特征通常不易找到,一般要采取一些折中措施。 说话人识别研究中已经使用过的特征参数主要有基音及其共振峰i s j ,线 性预测系数1 9 j ,倒谱系数,以及对这些参数的组合,变换。不同的特征参 数的物理意义不同。基音及其共振峰是表征说话人固有特征的参数,代表了 人的声带特征。以全极点模型为基础的线性预测参数可以较为精确地反映语 音信号的频谱幅度,代表了人的声道特征。把语音信号每一段看成准周期脉 冲或随机噪声激励一个线性时不变系统的输出,解卷积的方法将激励信号和 系统冲激响应分开,将得到声道的共振性能。 在文本自由的情况下,说话人特征一般用倒谱参数表征。倒谱是信号的 能量谱取对数后的逆傅立叶变换,它可将信息量较小的峰值信息和更重要的 声道形状信息相分离,是目前普遍采用的说话人特征参数。倒谱系数也可由 线性预测系数推得,称为线性预测倒谱,它是语音帧倒谱的自相关序列。与 直接计算倒谱相比,线性预测倒谱的计算量较小。对大多数语音信号来说, 全极点模型能很好地模拟声道的效应,然而对于鼻音和摩擦音,往往需要零 极点模型才能更好地模拟声道的效应,所以a r m a “j 模型和加权倒谱a c w ”j 也 已经被用来提取说话人语音特征。在说话人识别中,基于听觉机理的美尔倒 谱 1 3 j 和感知线性预测则 1 4 j 已被证明为是较有效的说话人特征,这些特征被证 明要好于传统的线性预测系数。 目前大多数的说话人特征提取方法都利用了语音信号的短时平稳特性, 并认为语音信号的相邻帧间相互独立,这样的特征提取方法丢失了语音信号 的动态特征,随着时频分析、小波分析等信号处理方法的出现,人们研究了 7 哈尔滨工程大学硕士学位论文 利用说话人语音动态特性的说话人特征提取方法。 本文使用的特征参数有线性预测倒谱系数( l p c c ) ,m e l 频率倒谱系数 ( m f c c ) 等。特征参数提取的好坏直接影响说话人识别系统的识别率。其中鲁 棒性特征参数的提取是关键问题,到目前为止,还没有一种很好的方法能将 说话人的个性特征从语音特征中完全分离出来。只能通过对现有的特征进行 优化和不断的改善。子倒谱将m e l 刻度滤波器的冲激响应与一帧信号x m 直 接作卷积运算,增强了语音在高频的分辨率。此外,t e a g e r 能量算子已经成 功地应用在各种语音处理中,它的能量分离算法使用非线性能量算子来跟踪 语音信号,所得到的能量是幅度和频率的函数,从而得到了更多的信息。而 且,由于不同的倒谱系数项对识别的贡献是不同的,因此可对倒谱参数进行 加权减少噪声影响,突出说话人的个性特点。 虽然说话人语音特征提取已由简单统计特征的提取发展到涉及倒谱分 析、时频分析、小波分析、模糊、混沌、遗传算法等现代信号处理方法,但 说话人特征提取仍是一个有待解决的重要问题。 2 1 语音数据的前端处理 语音数据在处理之前,首先要通过一个阶高通滤波器1 0 9 5 z ,通 常称为预加重滤波器。它的目的在于滤除低频干扰,尤其是5 0h z 或6 0h z 的工作频率干扰,将对于说话人识别更为有用的高频部分的频谱进行提升。 整个语音信号包括静音段、过渡段和语音段。在说话人识别系统中,正确确 定语音段端点不仅可以减少计算量,而且可以提高说话人识别的正确率。语 音端点检测的传统方法通常采用语音的短时能量,这些方法在高信噪比时具 有良好的性能,而在低信噪比时性能很差。然而说话人识别系统通常工作在 不同的噪声环境下,在语音处理系统中采用的端点检测应当适应最不利的情 况,在实际应用中到达好的性能。 语音端点检测算法的一般步骤如下: 1 ) 语音信号分成相邻有重叠的语音段,称为语音帧。 2 ) 对每一语音帧,选取一种度量方式。 3 ) 采用一种判决准测,例如门限判决或模式分类,来检测语音帧和非语 哈尔滨工程大学硕士学位论文 音帧。 4 ) 对上述结果进行后处理,得到语音的全部区间。 通常的语音端点检测方法采用测试信号的短时能量或短时对数能量作为 特征参数,并采用门限判定法来检测语音。在这些方法中,当测试信号帧的 短时能量超过噪声能量门限并持续一段时间,则第一次超过能量门限的点被 判定为语音段的起点。而当测试信号帧的能量低于另一个噪声能量门限并持 续一定时间,就可测定语音段的终止点。噪声能量门限的估计对这种方法的 性能影响很大。在低信噪比环境下,由于难以确定适当的门限值,基于能量 的端点检测不能很好地工作,这种方法也会舍弃一些低能量的清音,并且难 以处理非平稳噪声。即使应用过零率准则以改进端点检测也很难在高噪声情 况下具备良好的性能。 2 1 1 基于谱熵的端点检测 考虑到广泛应用于编码理论的信息熵代表信源的平均不定性导致语音的 熵必定和噪声的熵存在较大差异,本文采用了基于熵函数的语音端点检测方 法,较能量法,谱熵法在信噪比较低和非平稳噪声下,尤其是机器声,更为 有效。 谱熵1 1 5 - 1 6j 的计算方法如下,首先通过快速傅立叶变换( f f t ) 来得到每一帧 信号的频谱其中每个频谱向量的各系数表明了该帧信号在该频率点的大小分 布。然后计算每一帧的每个频谱分量在每帧的总能量中所占的比例,将其作 为代表信号能量集中在某频率点的概率。即计算熵所需的概率密度函数通过 下式得: 只:掣 1 f m ( 2 1 ) s ) k = l 其中,s ) 为第f 个频率点的谱能量,表示f f t 计算所取的点数,只表 示相应帧的概率。由于语音的大部分能量集中在3 0 0 3 4 0 0 h z 之间,所以为了 集中计算熵以增加语音和非语音在概率密度函数上的区分性,我们把处于 3 0 0 3 4 0 0 h z 之外的频率分量置为0 。即: j ) = 0,3 0 0 h z 或,3 4 0 0 h z ( 2 - 2 ) 9 哈尔滨工程大学硕士学位论文 谱熵计算如下: h = 一最1 0 9 慨) ( 2 3 ) = 1 仿真结果如图2 1 所示。 罨 棼 髻。 骨 。l e t 纯净语音 1 09 e 口9 6 09 b 混有白噪声的语音信号s n r = 8 d b c 谱熵曲线 图2 1 基于谱熵的端点检测 2 1 2 阈值的设定 由于本文使用高斯混合模型进行识别,它能很好的描述各种声学类,所 以词与词之间的非语音段可以不必检测,相反这种韵律特征还将有助于识别。 但句子与句子之间的非语音段较长,将严重影响识别。本文端点检测的目的 就是去除这种语音段。考虑到句子间的停顿较长,可以认为非语音段至少为 5 帧。判别步骤如下: 1 ) 假定信号前5 帧为非语音帧,利用这些熵值的平均作为初始门限,这 个值用c 表示。最大熵值为厅一,最小熵值为 。 2 ) 对此门限值进行更新,更新公式如下: 1 0 哈尔滨工程大学硕士学位论文 c 。= 嵋一1 + 0 一口肛, ( 2 - 4 ) 口为调整因子,随每一帧动态变化。经实验论证口取值为: 口= o 9 9 一h 。 c ,1 ( 2 - 5 ) 睇= 0 9 9 4 “一h ,蔓c ( 2 - 6 ) 3 ) 以此闽值作为判别门限,如连续5 帧以上均小于此门限,则这一段为 非语音段。 2 2 线性预测倒谱系数( l p c c ) 的提取方法 线性预测编码( l p c ) 是当今语音信号分析的重要方法之一,它的主要思想 就是用语音帧过去若干值来推导当前值,使用最小均方算法实现,表征了说 话人的声道特征。即通过这种方法从语音信号中提取出与声道相关的参数。 对于多种l p c 语音特征量,包括l p c 系数、l p c 反射系数、l p c 自相关函数、 l p c 面积函数和l p c 倒谱系数,实验表明倒谱系数对说话人识别效果最好。 它的主要优点是它比较彻底地去掉了语音产生过程中的激励信息,主要反映 声道响应,而且往往只需十几个倒谱系数就能较好地描述语音的共振降特性, 因此在话音识别应用中获得了良好的效果。 语音信号可以看成是声门激励和声道频率响应卷积的结果,即 j 。= i 。+ h 。,i 。为激励信号,h 。为声道响应函数。而说话人的个性特征很大 程度上取决于说话人的发声声道,即声道响应矗。,故需将i 。和h 。分离。 通常采用同态分析的方法,将相卷积的两部分信号解卷分离,即先求s 。的短 时傅立叶变换,再取对数,然后再作傅立叶逆变换,这样在倒谱域上可获得 加性的两部分信号i 。和h 。因为它们各占有不同的时段,故对低时段滤波, 便可得到代表说话人声道特征的倒谱h 。,即f f t 倒谱,但该方法计算繁琐。 可以证明,语音的f f t 倒谱与l p c 倒谱代表的特征基本一致,并且后者 更好地描述了频域的共振峰特性,而计算量仅是f f t 倒谱的一半。利用线性 预测中声道系统模型的最小相位特性,不难导出l p c c 系数的求解公式。 设线性预测分析得到的声道模型为: 哈尔滨工程大学硕士学位论文 日( z ) 1 1 一a k g “ ( 2 - 7 ) 其冲激响应为 0 ) ,此处要计算的就是其倒谱 0 ) 。根据倒谱的定义, i n h ( z ) = h g ) = h 0 ) z ” ( 2 - 8 ) n = l 将其两边对z 1 求导数,即有: 即 因而有 p l 一a k 9 4 i = l 参争啡“ ( 2 _ ,) p k a z 。“ 上l 一 ( 2 - 10 )p 、, 1 一吼z 。 k = l f 1 一杰吼z “ 妻砌。o ) z - :圭施。z “( 2 - 1 1 ) 、 k = l ,n = l k = l 令其左右两边的常数项和z 。1 各次幂的系数分别相等,即得到 1 0 ) 和吼z i b q 的地推关系 电) = 口 + 0 ) = 矗o ) :圭 ( 2 - 1 2 ) l p c c 反映的是说话人声道特征,实验发现倒谱分析阶数取1 6 能较好地 表征语音的特征参数。这个倒谱是从一帧短时语音段中获取的,是语音在某 一时刻某一帧的倒谱。 1 2 ,i叫j0 旦护 p 耋玎 一咖 冲 一 聆 0 硪 一 、严b拧啪 l、 ll七一聆 h + ,、 哈尔滨工程大学硕士学位论文 语音的基音频率是声带振动的基本频率,它反映了声带激励源的特点。 基音容易被模仿,不宜单独使用,但它可以与倒谱参数相结合。由于倒谱参 数和基音参数分别描述了说话人声道、声带特征,从而可以充分反映说话人 特征。基音检测方法,采用基于l p c 预测误差的方法,即利用逆滤波法, 根据预测误差的自相关函数的峰点位置,得出浊音的基音周期。尽管基因频 率对说话人识别性能的提高也有好处,但考虑到方法的复杂度和语音特征的 简单性,论文中将不再详述基音频率的提取过程。 2 3 美尔频率倒谱系数( m f c c ) 的提取方法 在8 0 年代,倒谱类型的参数由于具有两个明显的优势而逐渐取代了线 性预测分析而成为说话人模型的首选参数,其中一个优势是可以通过对倒谱 域的滤波和加权来对基于线性的频谱进行处理,第二个优势就是可以方便地 应用m e l 倒谱理论n ”。与普通倒谱分析不同的是,m e l 频率倒谱参数( 或感 知频域倒谱参数,m f c c ) 的分析着眼于人耳的听觉机理,依据听觉实验结果来 分析语音的频谱,获得了较高的识别率和较好的噪声鲁棒性。 为了解释m f c c 的提取过程,首先要解释一下临界频带( c r i t i c a l b a n d ) 的概念。研究发现,在声压恒定的情况下,当噪声被限制在某个带宽内时, 其人耳感觉的主观响度是恒定的,而一旦噪声突破了这个带宽,则主观响应 的变化便会被感知。同样地,当声压恒定时,在这个带宽内的一个具有复杂 包络的信号的响度等价于在这个带宽中心频率位置的一个纯音的响度,而与 信号本身的频率分布无关;但是当信号的带宽突破了临界带宽时,其响度便 不再等价。根据z w i c k e r 的工作,临界带宽随着频率的变化而变化,并与感 知频率( m e l 频率) 的增长一致,在1 0 0 0h z 以下,大致呈线性分布,带宽为1 0 0 h z 左右;在1 0 0 0h z 以上带宽呈对数增长。根据临界带的划分,可将语音 频域划分成一系列三角形的滤波器序列,即m c l 滤波器组,取每个临界带内 所有信号幅度加权和作为某个临界带滤波器的输出,然后对所有滤波器输出 作对数运算,形成一个矢量,然后作离散余弦变换即得到美尔频率倒谱系数 ( m e l f r e q u e n c yc e p s t r u mc o e f f i c i e n t s ,i f c c ) 。m f c c 从人耳对频率高低 的非线性心理感觉角度反映了语音短时幅度谱的特征,因而识别性能和抗噪 哈尔滨工程大学硕士学位论文 性能均明显优于传统的线性预测倒谱参数l p c c 。大量实验也表明,m f c c 能 够比l p c c 更好地提高系统的识别能力。 m e l 标度描述了人耳对频率感知的非线性特性,它与频率的关系可用下 式近似表示: m e l = 2 5 9 5 1 0 9 2 ( 1 + f 7 0 0 ) ( 2 1 3 ) 其中f 为频率,单位是h z 。m e l 标度与频率的关系如图2 2 所示。 图2 2m e l 标度与频率的关系 m f c c 参数的提取过程n 8 】如下图2 3 所示: 图2 3m f c c 参数的提取过程 假定x ( n ) 是输入语音信号,语音波形首先被一个分析窗w m 加权并进行 离散短时傅立叶变换,得到j g ,) ,计算如下: z o ,仇) = x k h k m k 一胁” ( 2 1 4 ) 其中,= 等_ j ,n :是d f t 的长度,x ( n ,吼) 的幅度接下来会被一系列 滤波器的频率响应加权,这些滤波器即为m e l 刻度的滤波器,其组合则被称 为m e l 刻度滤波器组,通常滤波器组有着2 4 个三角形的频率响应,大致近 哈尔滨工程大学硕士学位论文 似于一个频率范围为4 0 0 0 h z 的听觉临近边带滤波器组。如图2 4 所示。 揪黝叭 l | 】| + i二, 1 1 1 1 im ji l m r f e hf w e l s p e c n “ l n a n d 图2 4m e l 刻度滤波器组 确定m e l 倒谱的下一步是计算s t f t 中经m e l 刻度滤波器频率响应加权 后的能量值,以及表示第z 个m e l 刻度滤波器巧0 ) 的频率响应。那么位于时 刻胛的语音帧的第,个m e l 刻度滤波器输出的能量为: e m e i ( g l ,) = 了1 v i 巧如。沙0 ,】2 ( 2 - 1 5 ) n lk = b 其中厶和u ,表示各个滤波器在非零取值区间的最低频率和最高频率,且 有: a ,= e i v , ( a 2 ( 2 _ 1 6 ) k = l t 它的作用是根据各滤波器的贷款对滤波器进行归一化处理,使得对于有 着平坦频谱的输入,各滤波器将输出相等的能量 1 8 j 。位于时刻n 的m e l 倒谱 用下式来计算: c 小州= 去陋小,zl e o s 悟砌 ,) 其中r 是滤波器的个数,而且在该式中我们利用了实倒谱的偶对称性质, 因此求倒谱的反变换公式是基于余弦函数写的,即离散余弦变换。从识别算 法的角度说,离散余弦变换的一个优势是它和k a r h u n e n l o e v e 变换很接 近,因此它能够对原始的m e l 刻度滤波器的对数能量解相关。实验表明,对 于概率统计模型而言,解相关系数比相关系数更加适用。 哈尔滨工程大学硕士学位论文 在实际应用环境中,识别系统将会遇到测试环境和训练环境失配的问题, 而这将显著影响到一个识别系统的识别率。尽管m f c c 可以在干净语音情况 下获得较高的识别率,而且相对于l p c c 其噪声鲁棒性获得了若干提高,但 当语音信号信噪比较低时,其识别性能往往不能令人满意。动态参数( 如 d e l t a 参数) 则具有明显的环境鲁棒性,并且尽管单独采用动态参数在干净语 音环境下的识别率不能令人满意,但是将动态参数和静态参数相结合可以提 高其在干净语音环境下的识别性能 2 0 j 。 从m f c c 的提取过程可以看出,经过解卷积后的对数倒频谱将声道响应和 声源激励响应分离,并且声道响应大多集中在倒谱参数的低阶部分,而声源 激励响应则相对集中在倒谱参数的高阶部分。在语义识别中,通常选取与声 道响应密切相关的低阶倒谱参数作为特征矢量。然而,对于说话人识别而言, 除了声道响应信息外,声源激励响应信息对于表征不同说话人的个人身份特 征也是十分重要的。可以说对于m f c c 参数而言,并不是所有的系数对于说话 人识别的重要性都是一样的,并且各阶系数对参数本身噪声鲁棒性的贡献不 同。因此,本文将对m e l 频域进行子带分割,然后对各个子带的系数分别加 权,试验表明这种方法显著减少了噪声的影响。而且由d c t 的性质可以知道, m f c c 的第零阶分量所代表的是该帧语音对数幅度谱的直流电平和慢变信号, 因此反映的是语音的能量信息,而代表说话人个人特征信息的成分较少。特 别是当测试语音与训练语音能量差别较大,或者语音带噪后能量电平变化较 大时,此分量对于识别性能会带来严重的负面影响,因此在训练和识别中都 摈弃了此特征分量。 2 4 子倒谱的提取方法 在上一节中,我们用m e l 刻度滤波器巧( 吼) 的频率响应对s t f t 力n 权存在 着明显的不足,因为它降低了时间分辨率,并且这种分辨率不能动态的改变。 我们把s t f t 看成一个滤波器组,则有: 0 ,嘶) = e - j “n ( x n l * h 。 n d ( 2 1 8 ) 其中,m = w k 一”,相当于把w m 调制到峨处,然后再对x m 进行 带通滤波,而滤波器的长度就等于分析窗的长度,从而m e l 亥u 度滤波器能量 1 6 哈尔滨工程大学硕士学位论文 的时间分辨率就受限于分析窗的长度,进而,时间分辨率也不会动态改变。 子带倒谱【2 1 】克服了m e l 倒谱的不足,并更好的利用了听觉原理,它将m e l 刻度滤波器的冲激响应与一帧信号x m 直接作卷积运算,其卷积结果可以表 示如下: x ( n ,) = x n l + q m ( 2 1 9 ) 其中v ,m
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 外包运输劳务合同范本
- 房产365租房合同范本
- 大件搬运维修合同范本
- 食堂档口合同范本
- 农产品溯源体系在2025年农业产业扶贫中的应用报告
- 图书漂流试题及答案
- 锅炉制造试题及答案
- 写材料短语题目及答案
- 2025年初二函数题库及答案
- 光伏组件技能考试试题及答案
- JJG 539-2016数字指示秤
- 辽宁盘锦浩业化工“1.15”泄漏爆炸着火事故警示教育
- GB 25585-2010食品安全国家标准食品添加剂氯化钾
- 小学信息技术人工智能教学案例
- 服装零售业概况
- sg1000系列光伏并网箱式逆变器通信协议
- 专升本03297企业文化历年试题题库(考试必备)
- 第四讲大学生就业权益及其法律保障课件
- 重庆大学介绍课件
- 学校开展校园欺凌专项治理情况自查表
- 电能表生产流程
评论
0/150
提交评论