(信号与信息处理专业论文)噪声环境下说话人识别方法研究.pdf_第1页
(信号与信息处理专业论文)噪声环境下说话人识别方法研究.pdf_第2页
(信号与信息处理专业论文)噪声环境下说话人识别方法研究.pdf_第3页
(信号与信息处理专业论文)噪声环境下说话人识别方法研究.pdf_第4页
(信号与信息处理专业论文)噪声环境下说话人识别方法研究.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 目前,说话人识别在纯净语音的环境下识别率相当高,但在噪声条件下识 别性能急剧下降。现在,人们提出了多种方法去提高说话人识别的性能,但仍 有很多问题需要解决,如训练环境与测试环境之间不匹配等,本文主要对环境 不匹配问题展开讨论。 目前解决环境之间不匹配的方法主要分成两种:前端特征降噪处理,包括 鲁棒性特征提取;后端的特征、模型、得分补偿方法等。 本文对目前常用的前端降噪方法和鲁棒性特征进行了介绍,分析了其对说 话人识别的性能改善程度和缺陷。文章的重点在后端的特征分析上,主要从特 征补偿和得分补偿两方面进行改进。 特征补偿:利用泰勒多项式进行模型参数补偿的原理,本文在考虑加性噪声的 环境下,采用自回归多项式,以信噪比作为自变量,进行特征参数的补偿,改 善了说话人识别率,并提高了系统的执行效率,为说话人识别的实时性应用提 供了一种思路。 得分补偿:文中分析发现,在噪声的环境下,导致说话人识别率下降的原 因之一为,说话人的某些受噪声干扰严重的帧与训练时的纯净帧的不匹配,对 说话人的得分起了畸变作用,从而使得识别性能降低。由于信噪比可作为语音 帧信号畸变程度的衡量指标之一,文章采用帧信噪比参数对说话人识别中的帧 得分进行加权,以改善说话人识别的性能。同时,说话人识别中高层特征信息 抗噪性能要明显优于低层的倒谱特征信息,说话人的基音周期的分布可作为高 层信息的一种,但单纯的高层信息由于其易于被模仿。因此本文结合倒谱特征 参数,利用帧信噪比作为融合权重,对高低层信息进行融合,改善了说话人识 别的性能。 关键词:说话人识别信噪比泰勒级数展开式自回归多项式特征补 偿得分补偿 a b s t r a c t t h ep e r f o 姗a n c eo fs p e a k e ri d e n t i f i c a t i o ni nc l e a ns p e e c hc i r c u m s t a n c e l se x c e 儿e n t , b u ti ti sd e g r a d e dv e r yr a p i d l yi nn o i s yc o n d i t i o n s a 1 t h o u 曲m a n ya 筋r d sb e 西v e n t 0 i m p r o v et l l ep e r f o m l a n c eo fs p e a k e ri d e n t i f i c a t i o n ,t 1 1 e r ea r es o m ep r o b l e m s t ob e s o l v e d s u c ha sm em i s m a t c hb e t w e e nt h ec i r c u m s t 觚l c eo ft r a l na n dt e s t l os o l v e t h e s ed r o b l e m s ,t h e r ea r em om e t h o d st ob ep r o p o s e d ,o n ea p p r o a c h l st 0d e n 0 1 s e f r o n t e n df e a t u r ev e c t o r sw h i l ek e e p i n gn l ec l e a nm o d e l su n c h a n g e d o rd e v e l o pn o l s e r o b u s tf e 锄j r e s t h eo t h e ra p p r o a c hi n v o l v e sa d a p t i n gt h eb a c k e n da c o u s t l cm o d e l s a c c o r d i n g t on o i s ye n v i r o n m e n t s i nt h ep a p e r ,t h er o b u s tf e a t u r e sa n d 舶n t _ e n ds p e e c hs i g n a lp r o c e s s l n gm e t h o d s a r ei m r o d u c e d ,a n dt h ep a p e rm a k e s 铲e a te 硒i r t st of e a t u r ec o m p e n s a t l o n ,m o d e i c o m p e n s a t i o na i l ds c o r ec o m p e n s a t l o n f e 绷c o m p e n s a t i o n :i n “sp a r tw ei n t r o d u c et h et 对l o r s e r i e se x p a l l s l o nt o c h a r a c t e r i z em en o i s ys p e e c hf e a n 】r em o d e l sc o e 伍c i e n t s w ea i l a l y s l sm et l a :w o i t a y l o fs e r i e se x p a i l s i o nm 弛o d t h e np o l y n o m i a lr e g r e s s i o n o ft h eu 弛r a n c e s n r ( s i g n a ln o i s er a t i o ) i sa p p i i e dt 0c o m p e n s a t en o i s yf e a t u r e sb yr e m o v l n gt h eb l a s r e s p e c tt ot h ec l e a nf e a t u r e sw h i l e 也ec l e a l lm o d e l sr e m a i nu n c h a n g e d e x p e n m e n t s s h o wt 1 1 i sm e t h o ds a t i s f i e st h es y s t e m r e a lt i m ea n di m p r 0 v e st h er e c o g n l t l o n p e 哟n n a n c e s c o r ec o m p e n s a t i o n :t h i sp a p e ri m e g r a t e st h ec h a r a c t e r so fm f c c c o e 衔c i e n t sa n d p i t c h e sb yt 1 1 es i g n a ln o i s er a t i o s ( s n r ) 0 f t h es p e e c h ,a tt h es a m et l m e ,w e l g h t s t i l e m f c cl i k e l i h o o ds c o r e sf 1 0 rd i 蜀盹r e n to b s e r v a t i o nv e c t o r sb a s e do n t h es i g n a ln 0 1 s e r a t i oo ft h ec o 仃e s p o n d i n gs p e e c hf r 锄e s t l l ep a p e r a l s oc o m p a r e st h l sa p p r o a c hw l t n t r a d i t i o n a lc o m b i n a t i o no fm f c ca n dp i t c h e s s i m u l a t i o na n de x p e n m e n t a lr e s u n s i n ( 1 i c a t et h a t , i nt h en o i s yc o n d i t i o n s , t h ep r o p o s e ds c h e m ei ss u p e n o rt o t h e t r a d i t i o n a lm e t h o d s ,a n di nc l e 龇c i r c u m s t a n c e ,t h ep e r f o 舯a n c e l sc o m p a r a b l e k e yw o r d s :s p e a k e rr e c o 印i t i o n ;s i g n a l r e g r e s s i o ne x p a n s i o n ;f e a t u r e n o i s er a t i o ;1 a y l o re x p a n s i o n ;p 0 1 ) ,1 1 0 m i a l c o m p e n s a t i o n ;s c o r ec o m p e n s a t i o n 中国科学技术大学学位论文原创性和授权使用声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作 所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任 何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究 所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即:学 校有权按有关规定向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名: 佛年 第1 章绪论 1 1 选题背景及研究意义 第l 章绪论 随着信息技术的发展,生物特征识别技术在军事、司法、电子商务以及人 们的日常生活中扮演着日益重要的作用。生物特征识别主要根据人体自身的生 理特征( 如:指纹、手形、脸部、虹膜、视网膜、气味等) 和行为特征( 如: 声音、签名、步态、击键方式等) 来达到身份的识别,它是集光学、传感技术、 红外扫描和计算机技术于一身的第三代身份验证技术,能满足现代社会对于身 份鉴别的准确性、安全性与实用性的更高要求。生物认证技术的崛起得益于信 号检测与处理、模式识别、人工智能、机器学习等理论与技术的发展,出于它 为身份识别提供了一个可靠的解决方案,其应用前景必定广阔,并能为构筑2 l 世纪基于自主研究开发的国家信息安全体系提供强有力的技术支持。 自1 9 4 6 年世界上第一台冯诺依曼计算机面世以来,在半个多世纪的时间 里,计算机技术、通信技术、自动化技术等等许多相关技术都不断的以惊人的 速度迅猛发展,人类刚一跨入信息时代就立刻被它同新月异的变化所吸引。层 出不穷的新技术、新产品不断地渗入人们的生活,改变着人类社会,改变着我 们的学习、工作、生活习惯。然而与信息社会的便利形成鲜明对比的是,人们 不得不携带各种各样的卡片,记太多各种各样的口令和密码,为了获得服务必 须为证明自己身份而花费大量的精力。不知读者是否有过这样的经历? 由于密码 被遗忘,无法登录服务器或自己的计算机,无法领取自己的汇款,无法查阅所 需的信息;由于i c 卡、身份证的丢失,不但平添了无数麻烦,而且还可能导致 个人财产蒙受损失;或者明明已经是某某企业呼叫中心的常客了,但拨通该呼 叫中心的号码时,还是必须向客服人员解释你是他们某某产品的用户,从而获 得他们的维修服务,这个自报家门的工作也许足够繁琐到令你放弃这次呼叫。 以电话卡为例,在美国,每年都会有大量的假冒电话卡,一九九五年的损失估 计是1 0 亿美元。而几年前深圳、上海、北京等地许多股民苦心经营多年的股票, 一夜之间全被换成了垃圾股“银广厦”,共计损失二百五十多万元,其共同特点都 是密码被盗用。2 0 0 2 年1 1 月2 9 日北京青年报报道“京城第一税案开审, 第l 章绪论 三税官玩忽职守损失2 8 亿”。由于当事人经常把进入系统的专用i c 卡随意放 在抽屉里、桌子上,导致罪犯趁机非法操作增值税防伪税控系统。这一个个惨 痛的教训给我国安全认证系统敲响了警钟。这些事实促使人们考虑这样一个问 题:在信息化时代如何保护个人隐私? 在提高工作效率和生活质量的同时,如 何才能防止系统被非法或非授权闯入? 如何才能有效地防止记录下来的个人资 料被窃? 现在,为了防止身份证明资料的遗失和被盗,同时保证用户服务的便 利性,利用人自身的生物特征进行用户身份认证的技术一生物特征识别技术越 来越引起人们的重视。 生物特征识别包括人的生理特征识别和行为特征识别,生理特征指相对稳 定的人的物理特征,如指纹、手形、视网膜、虹膜、面像等,这些特征基本不 变,除非损伤造成变化。行为特征则指某些建立在生理特征基础上的,在一段 时间内相对稳定的统计学特征,如签名、键盘打字、声音等。目前,在某些安 全保密的重要场所,指纹识别系统和虹膜识别系统等己经得到了成功的应用, 然而这些系统并没有得到大量的推广,原因在于: ( 1 ) 必须依赖特定设备,如指纹扫描仪或虹膜扫描仪。这样用户必须到特定 的地方去才能进行认证,缺乏灵活性; ( 2 ) 价格较贵,整个扫描仪系统加上相应软件,一般价格不菲,因而无法替 代传统的身份卡,不易普及和推广; ( 3 ) 光学设备要经常维护,使用寿命也有限。例如扫描仪脏了会严重影响j f 确辨识率,而使用率越高,设备脏的就越快: ( 4 ) 使用方式不够人性化。在公共场合,用户必须用手触摸指纹扫描仪,或 把眼睛贴近虹膜扫描仪,这样不符合卫生标准,用户也未必会接受。 与其他生物识别技术相比,说话人识别( 或声纹识别) 具有更为简便、准确、 经济及可扩展性良好等众多优势,可广泛应用于安全验证、控制等各方面。另 一方面,随着移动通信技术以及互联网的飞速发展,尤其是网络和电子商务的 繁荣,电话的使用率空前增长,远程身份认证越来越频繁。如果仅需要张口打 一个电话就可以获得服务、进行交易,将是何等的方便和快捷。归纳起来,说 话人识别的独特优点在于: ( 1 ) 认证方式易于接受。用户只需拿起电话或手机打个电话即可,不必像指 纹识别或虹膜识别那样,把手或眼睛贴近扫描仪; ( 2 ) 不需昂贵的易损的硬件设备,如各种指纹、掌纹、或虹膜扫描仪,只要 2 第l 章绪论 简单的声音输入设备即可; ( 3 ) 在基于电信网络的身份识别应用中,如电话银行、电话炒股、电子购物 等,与其他生物识别技术相比,声纹识别更易于应用,得天独厚。 ( 4 ) 说话人识别技术利用人的语音数据,在军事司法的应用中优势更为明显 说话人识别技术有着广阔的市场应用前景。例如电话网络的银行账目的交 易、电话购物、信息服务、保密业务、电话服务、数据库访问、语音e m a i l 、安 全控制、计算机远程登录等领域;另外说话人识别系统的识别还可以应用在保 密通信、保密部门的身份验证、法庭鉴别( 包括电话信道罪犯缉拿、法庭中电话 录音信息的身份确认、电话语音跟踪) 等方面。在呼叫中心应用上,说话人识别 技术同样可以提供更加个性化的人机交互界面。当顾客以电话方式对呼叫中心 进行请求时,系统能够根据话音判断出来者的身份,从而提供更个性化、更贴 心的服务。比尔盖茨认为:“以人类生物特征( 指纹、语音、脸像等) 进行身份验 证的生物识别技术,在今后数年内将成为产业最为重要的技术革命。”说话人识 别技术则以其独特的方便性、经济性和准确性等优势受到世人瞩目,并日益成 为人们日常生活和工作中重要且容易普及的安全验证方式。总之,说话人识别 技术是当前安全认证系统研究和发展的必然趋势,具有很强的科学研究意义和 广阔的市场应用前景。 1 2 说话人识别技术 说话人识别技术主要指通过语音来提取说话人的个性信息【j o s e p h9 7 】,并判 断或确认该声音是谁,有时也称为话者识别技术。广义上,说话人识别可以看 作语音识别的一个分支,但它们之间的区别在于:语音识别的任务是要知道说 话人说的是什么,并力图对不同人发声的差别加以归一化;而说话人识别的目 的则是识别说话的人是谁,而不关注语音信号的语义内容,在处理过程中强调 说话人之间的差别。由于说话人之间的差异涉及到说话人发音器官之间的差异、 声道之间的差异和发音习惯之间的差异,因此说话人识别是一门应用生理学、 语音信号处理、模式识别与人工智能技术的跨越多学科的交叉研究课题。 1 2 1 语音产生的机理及说话人特征体现 第l 章绪论 语音产生是一个复杂的生理过程 王炳锡0 5 韩纪庆0 4 ,:语音中枢下达 命令,这些命令表现为神经脉冲信号,指挥发音器官的肌肉产生运动,因此就 产生了气流气压的变化,该气流激励声道,包括引发声门的动作,最后从嘴唇 或鼻孔,或同时从嘴唇和鼻孔辐射出去,产生可懂的语音。传统的基于声道的 语音产生模型就是从这一角度来描述语音的产生过程,包括激励模型、声道模 型和辐射模型,这三个模型分别与肺部的气流和声带共同作用而形成的激励、 声道的调音运动及嘴唇和鼻孑l 的辐射效应一一对应。它们之问的关系如图1 1 所 副蔫 厂一一1i 厂一一j 雕声i 酋参: i 冲i 句锣蝴岩 声f 删捌 f :ix t 二1 j| | 。数。: :。 ” i 黼i jl 揪! ,l 信弓辐 1 开关l i型r 1 删裂f 一 晤蔬型,l 爻e = = 型 一图1 示。 下面讨论该模型的各个组成部分。 1 2 1 1 声源模型 研究证实:发不同声音时,激励情况也不同。这些不同大致可以分成两大 类: a ) 发浊音的情况 这里的浊音包括所有的元音和浊辅音。此时气流在通过绷紧的声带时,冲 击声带产生振动,使声门处形成准周期性的脉冲串( 声门波) ,在用它去激励声 道。声带绷紧的程度不同,振动的频率也就不同。这个频率就是基音频率,它 的倒数就是基音周期。 生理学及声学的研究结果表明,自然语音的声门波有点类似于三角波。开 始时声门闭合,幅度为零,接着缓慢上升,然后迅速下降,当下降到零时有一 4 第1 章绪论 个倒数不连续点。其频谱特性在高频部分以1 2 d b ,o c t 变化。语音合成的实验表 明,对声门波形状的选择并不是很苛刻,仅要求它们的频谱具有正确的特性。 常用的声门波有r o s e n b e r g 声门波和三角波等。一个完整的浊音激励源模型如图 1 2 所示。 图1 2 浊音激励源模型 b ) 发清音的情况 在发清音时,声带处于松弛状态,不产生振动,气流通过声门直接进入声 道,所有的清辅音都属于这种情况。这时来自肺部的湍流为具有平坦频谱的压 力波,而它与压力的关系是相当复杂的,通常的做法是用低通滤波关系简化它。 图1 3 是一个较完整的清音激励源模型。 图1 3 清音激励源模型 清塞音( 即爆破的清音) 是一类特殊的清音。发爆破音时,声带在一段时 间内是关闭的,随后就建立起气压,而声带并不振动。当这一障碍去除时,空 气即以高速冲出,从而产生湍流。准确模拟这类爆破音比较困难的,一种简单 的方法是使上图中的幅度控制发生突变来模拟爆破音源。 1 2 1 2 声道模型 发浊音时,激励源的位置固定不变,均在声门处。对于非鼻化的元音,鼻 腔完全关闭,声道对某些频率发生谐振,谐振点对应于声道传递函数中的极点, 所以对这类浊音用全极点模型就可以很好地模拟声道特性。对于鼻辅音和鼻化 的元音,由于鼻腔的耦合作用,除了谐振点外,还存在反谐振,所以声道传递 第1 章绪论 函数除了极点外,还要引入零点,需要零极点模型来模拟。 发清音时,由于阻碍点的位置不同,激励源的位置也不同,声道的长短差 异特别大,所以声道的传递函数也就存在较大的差异。如送气清音,激励源仍 位于喉部,故声道的传递函数具有与非鼻化元音相同的形式。而发清擦音时, 由于声道的收缩作用,把声道划分为前后两个腔,前腔起谐振作用,后腔起反 谐振作用,故声道传递函数中要外加零点。 另外,在发音过程中由于声道形状发生改变,声道的传输特性也随之改变, 所以声道的传递函数是时变的,一般情况下用时变的线性滤波器模拟声道,如 图1 4 所示。 图1 4 声遭模型 1 2 1 3 辐射模型 经过声道传输后,语音就由嘴唇开口处或鼻孔处辐射到四周。嘴的张开形 状会影响到语音频谱的形状,但是其作用较之声道而言是次要的。在声学语音 学中,将人头近似成一个圆球,辐射开口就看成是一个镶嵌在球面上的一个振 动活塞。其幅频响应r ( z ) 相当于一个6 d b o c t 的高通滤波器。 1 2 2 说话人识别的原理 说话人识别原理如图1 5 所示,主要包括训练和识别两个阶段 j o s e p h9 7 】。 在训练阶段,每个使用者说出若干训练语句,系统据此建立每个使用者的模板 或模型参数;识别阶段,提取待识别人语音的特征,与系统训练时产生的模板 或模型参数进行比较,其中在说话人辨认中,取与测试音匹配距离最小的说话 人模型所对应的说话人作为识别结果:而在说话人确认中,则通过判断测试音 与所声称的说话人模型之间匹配距离是否小于系统定义的阂值来做出判断。由 此可见,说话人辨认与确认并没有本质的区别。 由图1 5 可以看出,要实现说话人识别,应解决如下基本问题: ( 1 ) 语音信号的预处理和特征提取,即提取能够有效表征说话人特征的参 6 第1 章绪论 数且能对噪声和信道有良好的鲁棒性。实际上现在采用的特征参数大多从语音 信号模型中得到的,它们既包含了说话人的语音特征,又包含说话人的个性特 征,且互相交织在一起,以复杂的形式存在于语音参数中,目前还没有建立起 准确分离和提取这两种特征的技术; ( 2 ) 说话人模型的建立和模型参数的训练,目前常用模型主要是基于统计 概率的方法。 ( 3 ) 测试语音的特征向量与说话人模型之间的匹配距离的计算,其中匹配 距离与系统所采用的训练、识别模型紧密相连。 ( 4 ) 识别或判决策略。根据匹配距离的计算结果判决说话是否是所声称的 说话人( 说话人确认) 或说话入到底是谁( 说话人辨认) : ( 5 ) 自适应部分。由于用户环境以及说话人自身的改变,导致训练与测试 之间匹配失衡,采用该部分可对说话入模型参数更新,以克服系统的匹配失衡, 若系统的使用环境理想,则该部分可省略。 训练阶段 图1 5 说话人识别的原理图 1 3 说话人识别的国内外研究现状 随着计算机和信息技术的飞速发展,以及对快速有效身份验证的迫切要求, 基于说话人语音的身份识别得到了广泛的应用。现有文献中 f u r u i9 7 】用于说话 人识别的特征许多是建立在短时频谱基础上。它们主要有m e l 频率倒谱系数 ( m e l f r e q u e n c yc e p s t r a lc o e m c i e n t s ,m f c c ) ,l p c 倒谱系数,差值倒谱等。另 外d y n o l d s 等人也提出了利用人的韵律,习惯用语等特性做为说话人识别的高 层特征f r e y n o l d s0 3 】,但由于这些特征易于模仿,所以一般都用高低层信息融合 第l 章绪论 的机制来实现 c a m p b e 0 3 】。在说话人识别模型中,目前研究最多的方法有:模 板匹配法,概率模型法和人工神经网络法。s 0 0 n g 等人将矢量量化技术用于与 文本无关的说话人识别系统。在训练阶段,从语音中提取特征矢量集,根据v q 码本生成算法( l b g 算法) 为每个说话人建立一个v q 的码本。在识别阶段, 从测试语音中提取特征矢量,并参照每一个说话人的v q 码本,根据最小化失 真准则进行判决,总的量化失真最小的码本对应的说话人即为判决的说话人。 r o s e n b e r g 等人利用子词单元构成的隐马尔可夫模型( h m m ) 【r a b i n e r8 9 ,建立 了一个说话人确认系统。每个子词单元用一个从左至右的h m m 描述,每个模 型包含2 个到3 个状态,每个状态的特征矢量用一个连续的概率密度函数描述, 然后用概率描述h m m 的状态转移。在训练阶段,从子词单元取出特征矢量, 各h m m 参数的估计算法一b a u m w e l c h 算法,为每个说话人建立一个h m m 。 在识别阶段,从测试提取出特征矢量,并参照各个说话人的h m m ,根据最大似 然准则作出判决。此外,还有基于整个词h m m 的说话人确认等。 d e l e s b v 等人利用径向基函数神经网络方法进行说话人识别。这种方法以 高斯函数作为基函数,神经网络采用多输入、单输出的结构。在训练阶段,从 语音中提取特征矢量,根据k 均值聚类算法和最小均方( l m s ) 算法估计模型 参数,为每个说话人建立一个神经网络模型。在识别阶段,从测试语音中提取 特征矢量集,并参照各个说话人的神经网络模型,将每个特征矢量作为输入计 算出输出总量,选择累计输出最大的神经网络所对应的说话人即为判决的说话 人。2 0 世纪6 0 年代,v a p n i k 等人针对小样本数据下的机器学习问题【3 0 】,经过 数十年的研究提出了统计学习理论( s l t ) ,并在此基础上于己1 9 9 5 年建立了 支持向量机( s v m ) f i n e0 1 】。d y n o l d s 等人提出了利用高斯混合模型的方法 ( g m m ) 来进行说话人识别 r e y n o l d s9 5 】,在文本无关的情况下也获得了不错 的性能。最近5 年,国外已将s l t 和s v m 作为一大研究热点,但目前的主要 工作集中在完善理论,如说话人识别。尽管如此,s l t 和s v m 所表现出来的 理论和应用上的优势令从事相关研究的专家学者兴奋不已。 我国的北京大学以迟惠生为领导的说话人识别研究团体、清华大学以杨行 峻为领导的研究团体以及中国科学技术大学、中国科学院声学所和东南大学也 在这个方面取得了非常优秀的科研成果。 目前,说话人识别的研究主要集中在以下几个方面:从本质上理解人的大 脑是如何分辨说话人将是一个值得深究的课题;如何增强特征矢量的鲁棒性和 8 第l 章绪论 辨识能力,如何提取在复杂噪声环境和信道条件下依然有效的特征参数;如何 选择分类器和决策规则;如何有效充分的利用数据:以及怎样将新算法、新思 路和其他领域和学科的成果与传统的识别方法结合起来,以改正系统的性能。 近来,与文本无关的说话人识别的研究正在向广度和深度发展,从国内外文献 看来,有的着重于特征提取,有的着重距离测度,但是大多数均朝着几种方法 融合的方向发展如h m m 、g m m 、s v m 和a n n 的混合等。 1 4 噪声环境下说话人识别 目前,大多数说话人识别系统都只适合“干净 的语音,当应用到噪声环 境下时,性能将急剧下降,甚至使用不同于训练时的麦克风或不同的训练环境, 即便在安静的办公环境下,性能都会严重下降,而对电话语音,工厂或室外环 境下的语音信号,现有识别系统的鲁棒性将更差 m i n g0 7 】。 信号空间特征空间模型空间 训练 测试 图1 6 训练环境与测试环境失配的影响 由加性噪声和未知线性滤波效应引起的训练与识别环境的失配对识别系统 的影响可以从信号空间、特征空间和模型空间三个层次来分析,如图1 6 所示。 其中s 是原始的训练语音,x 是从训练数据中提取出的语音特征,人,是根据训 练数据得到的统计模型参数。类似的t 、y 、人。分别是测试语音、测试语音特 征和测试语音模型。当训练环境与测试环境失配时,干扰使t 、y 、a 。发生畸 变,畸变的影响用s 、x 、人。到t 、y 、人,的畸变函数q ( ) 、d 2 ( ) 、b ( ) 来模 拟。可以发现,许多鲁棒性的处理技术力图从信号空间、特征空间、模型空间 三个层次消除畸变的影响。 针对上述问题,噪声环境下鲁棒性说话人识别方法主要分成三类:语音增 强技术:鲁棒性说话人特征;特征及模型补偿技术。 a ) 语音增强技术 9 第l 章绪论 鲁棒性说话人识别技术早期曾一度受到语音增强技术的增强技术的影响。 在处理未知噪声和线性滤波干扰的道路上,有两种语音增强技术非常重要。其 中之一就是b o n 为补偿加性噪声而提出的谱减( s p e c t r a ls u b s t r a c t i o n ) 算法。该 算法试图在没有语音的信号中估计加性噪声的功率谱,然后从实际语音信号的 功率谱估计中将其减去,以增强说话人识别的稳健性。b e r o u t i 等进一步扩展了 这个算法,主要通过“过度减去”噪声功率谱以达到避免“音乐”噪声的目的。 另外一种重要的语音增强技术是s t o c k h a m 等提出的谱归一化( s p e c t r a l n o 肌a l i z a t i o n ) 技术。一般来说,谱归一化技术首先估计语音在训练和测试坏境 中的平均功率谱,然后用线性滤波器将测试语音功率谱“最优”地转换为训练 语音功率谱。至今,谱减和谱归一化技术仍受到广泛的关注。 其他的语音增强方法如小波去噪等,这些主要采用数学的方法,当前利用 人耳听觉的屏蔽效应进行语音增强也受到相当的重视。尽管语音增强可以大幅 提高语音的信噪比,但增强后的语音信号,由于其频率特性改变了,相对于识 别器来说,其最佳语音特征被破坏了,因此采用语音增强技术不一定能获得更 高的识别率。 b ) 鲁棒性说话人特征 长期以来,鲁棒性的说话人、语音特征的研究从未停止过。说话人识别系 统希望提取出鲁棒性的特征,该特征即使在噪声的环境下也能保持说话人的个 性特征,且能最大限度的摒弃那些无用的、冗余的信息。另外鲁棒性的特征提 取也要求对噪声源没有任何假设或很弱的假设。 目前用于说话人识别的特征一般与用于语音识别的特征基本相同,也就是 说语音特征和说话人的特征并没有完全分开。研究表明,人耳即使在嘈杂的环 境下,也能较好的辨识说话人,因此利用人耳的特性,来做为说话人识别的特 征目前日益受到重视。最近很多鲁棒性的特征如美尔频率倒谱系数( m f c c m e l s c a l e df r e q u e n c yc e p s n a lc o e 筒c i e n t s ) 、感知线性预测( p l p p e r c e p t u a l l i n e a rp r e d i c t i o n ) 系数【h e r9 0 、符合时域屏蔽效应的掩蔽谱、调制谱( m o d u l a t i o n s p e c t r u m ) 、听觉谱( p e r c e p t u a ls p e c t m m ) 等等都被证明具有良好的噪声屏蔽效 应。 m e l 倒谱系数用m e l 系数划分中频段,并采用反映谱动态信息的一阶、二阶 倒谱系数作为特征信息。p l p 模拟了人耳听觉感知的三方面的特点,即人耳听觉 感知和频率的非线性关系,响度和频率的非线性关系,响度和声强的关系。 l o 第l 章绪论 掩蔽谱利用了入耳的掩蔽效应,即一个很窄的频带刺激,消失后,还会对 后续的时间和周围的频带产生影响。掩蔽效应消失的时间越长,掩蔽阂幅度越 小,但掩蔽频带越宽。掩蔽阈可看作一个相对时间、频率可变的函数。利用时 间一频率掩蔽的掩蔽谱因此而得名。 说话入识别中,由于短时谱易于受噪声的干扰,因此有人提出了调制谱的 概念,来消除噪声的干扰。 c ) 基于补偿技术的说话人识别 许多情况下,语音增强和鲁棒性的语音特征并不能完全消除测试和训练环 境之间的匹配失衡,如图1 6 所示,因此补偿技术成为必要。该方法通常是在特 征空间中修改测试语音的特征y ,使得测试语音的模型能够更加接近训练模型 人。;或反过来,动态修改训练模型的参数、结构,使得到的补偿训练模型更加 接近测试语音。特征及模型补偿技术可初略的分成三类: 1 经验补偿技术 a c e n o9 3 1 基于经验的补偿技术( 亦称为基于训练的补偿技术) 方案一般需要训练一 组双声道立体声训练数据集。两个数据集是同时采集的,其中一个声道记录清 晰的无畸变干扰的高质量语音,另一个记录有畸变干扰的退化语音信号。通过 比较两个训练数据集中语音的特征或模型的差异,利用经验设计补偿方法在识 别过程中补偿训练和测试之间的差异。 s t e m 等提出的经验倒谱补偿( e m p i r i c a ic e p s 舰lc o m p e n s a t i o n ) 是最经典的 例子。环境的变化可看作为对语音特征的加性扰动,为了消除这种加性扰动, 一般采用一个经验校正矢量修正输入语音的特征或识别系统内语音模板的统计 参数。若校正矢量能随着信噪比或特定信噪比下的语音特征的特征空间内位置 的变化而变化,则可进一步提高系统的鲁棒性。当事先无法确定测试环境时, 可预先训练一个对应于不同测试条件的校正矢量集合,测试时通过比较找到最 可能的那个校正矢量:若无法找到,则可以通过对集合内相邻元素的内插来构 造一个新的校正矢量,从而完成补偿。基于经验比较的补偿过程非常简单,并 且在测试条件与校正矢量的某个训练条件非常相似时特别有效。然而,这种方 法最大的问题在于,它需要在训练和测试环境下同时录得的立体声语音数据库。 2 盲补偿技术 盲补偿的方法与经验补偿法不同,它对于训练与测试环境的差异不需要准 确的描述,并且摆脱了训练模型必须准确表示训练样本的前提。例如1 9 9 3 年 第1 章绪论 m e r h a v 和l e e 提出的最小最大分类方法( m i n i m a xc l a s s i f i c a t i o n ) 假设测试是在 与训练环境最不匹配的环境下完成的,并且认为对应于测试样本的最优判据和 判决参数( 人。,y ) ,该算法在低信噪比的环境下具有较好的补偿能力【m e r h a v 9 3 】。1 9 9 5 年m o o n 进一步发展了最小最大分类方法,提出了盲特征补偿和递推 特征补偿。 3 特征、模型补偿技术 目前,基于特征及模型的补偿算法是补偿技术中最丰富的一类。与盲补偿 对环境失配的保守假设不同,它利用的先验知识为失配误差建立模型,然后通 过该模型来进行补偿。这类方法一般同时调整失配误差模型的所有参数,由于 参数很少,所以可以直接在给定的训练模型和测试数据中通过最优估计得到, 而不需要进行额外的训练。下面将其分成特征参数补偿、模型补偿、得分补偿。 1 ) 特征参数补偿法 当语音是在不同的语音环境和通讯环境下收集时,训练语音和测试语音会 产生不匹配。解决的方法大体有以下几种:根据人耳感知特性提取语音特征参 数,对噪声或畸变具有一定的不敏感性,从而达到对环境的稳健性:通过对特 征参数本身进行处理,使之具有稳健性,称做特征的帧内处理技术,包括去除 倒谱系数的零阶系数、倒谱加权法和倒谱后置滤波( c p f ) 等方法;通过对邻近 的语音特征帧进行处理的方法称作为帧间处理技术,包括倒谱差分( 差分倒谱) 、 倒谱均值减( c m s ) 、相关滤波( r a s t a ) 处理技术和信号偏置移除法等。 2 ) 模型补偿方法【w 6 n go l 】 基于模型的补偿技术是通过背景分布模型进行增强从而达到减少信道、噪 声的干扰。该方法可以利用两种环境下录音来训练模型参数变量的变换关系, 将模型参数变换到合适的模型下;或者利用一个话筒识别器来判断测试语音所 属的信道。如果与测试语音的类型不同,则对模型参数进行合适的变换。模型 补偿方法可以看作是模型参数对信道的自适应。 常用的模型补偿方法有:基于预测的模型补偿方法,该方法一般假设训练 模型由在安静的环境下高质量的语音数据训练得到的,其主要目的是将训练模 型人。转换成污染的测试语音的模型人,:自适应模型补偿,该方法与预测模型补 偿法的区别在于前者在真正测试前,用大量标注好的增量数据来自动提高训练 而后者只使用测试语音的自适应过程。 3 ) 得分补偿法 h 锄s e0 6 】 1 2 第l 章绪论 由于信道的影响,在测试时模型对测试语音给出的最终得分往往会产生一 个固定的偏差。基于得分的补偿方法如z n o m ( z e r 0n o r m a l i z a t i o no rc e n t e r e d n o n n a l i z a t i o n ) 和h n o m ( h a n d s e tn o m a l i z a t i o n ) 方法通过对得分进行补偿, 在电话信道下说话人识别测试中表现出很好的性能。z n o 姗的优点是补偿参数 可以在训练过程中直接求出。由于常常难以得到充足的说话人的训练和测试语 音数据,因此可以采用非目标说话人的语音数据来估计补偿参数。即用大量的 非目标说话人( 或冒充者) 的语音来测试说话人模型,所得的对数似然值用来 估计特定说话人对非目标说话人分布的均值和方差。 1 5 论文的研究内容及组织结构 本文第一章为绪论。 第二章介绍基于高斯混合模型的说话人识别系统,主要分成两大部分:语 音预处理方法,包括语音增强技术、噪声条件下语音端点检测方法、鲁棒性的 特征提取等;说话人识别的模型技术,对当前用于说话人识别的主流模型;高 斯混合模型和支持向量机模型做了阐述。 第三章通过自回归多项式策略,结合信噪比,对说话人的特征进行补偿, 实验表明,在噪声环境下,提高了说话人识别的性能。 第四章利用信噪比权重因子,对说话人的特征进行加权,并结合说话人的 高层信息相比低层信息而言,具有好的抗噪性这一特点,进行高低层信息的融 合,提高了说话人识别的鲁棒性。 最后对本文进行总结与展望。 第2 章基于高斯混合模型的说话识别系统 第2 章基于高斯混合模型的说话识别系统 说话人识别系统主要分成两大部分:说话人识别的前端处理和况话人模型 技术。本章将首先介绍说话人识别常用的前端处理方法,然后对说话人识别的 模型技术进行阐述,重点对高斯混合模型技术予以介绍。 2 1 说话人识别的前端处理 说话人识别的前端处理,是说话人识别的一个重要的研究课题,是说话人 识别的基础,它涉及到语音增强、端点检测、说话人的特征提取等领域。其中 语音增强主要是从源信号上抑制噪声的干扰;端点检测用来去除静音信息,提 高系统的效率,在用低层信息作为特征进行识别时,可提高系统的识别率:说 话人特征的提取是说话人识别中最关键的一步,如何选取唯一表征说话人特性 的特征直是说话人识别领域的一个热门话题。 2 1 1 语音增强 现实中我们得到的语音信号不可避免的受到来自周围的环境噪声、传输介 质噪声和通讯设备内部噪声的干扰。因此在这种情况下,需要引入语音增强技 术,以消除背景噪声,提高语音系统的清晰度、可懂度、自然度和舒适度,使 人易于接受并提高系统的处理性能,在本文中主要用来改善训练语音与测试语 音之间的不匹配度,提高系统的识别性能。 常用的语音增强方法均基于短时幅度谱的估计,般有如下假设: ( 1 ) 噪声是局部平稳的,也就是根据语音开始的那段噪声统计信息来估计整 个语音中所叠加的噪声的信息。 ( 2 1 噪声与语音之间是独立不相关的。 ( 3 ) 人耳对语音的相位不敏感,长期的研究表明人耳对语音的感知主要通过 幅度谱,而对相位的误差几乎可忽略不计。 ( 4 ) 在增强的过程中可利用的仅有含噪的语音信号。 基于上述假设,语音增强实现的方法谱减法和维纳滤波法,下面分别予以 第2 章基于高斯混合模帮的说话识别系统 介绍。 2 1 1 1 谱减法 含加性噪声的语音信号如( 2 1 ) 式所示,其中x 【n 】表示需要的信号,即目标信 号,b 【n 】表示背景噪声,y 【n 】表示含噪的语音信号 b o l7 9 。 y 【n 】= x n 】+ b 【n 】( 2 1 ) 在这里假设,我们假设x 【n 】和b 【n 】是广义平稳不相关的随机序列,它们的功率谱 密度分别表示为最( w ) 和瓯( w ) 。恢复目标信号x n 】的方法就是利用功率谱的相 加特性,如( 2 2 ) 所示。 s ,( w ) = s ( w ) + s ( w ) ( 2 2 ) 一般情况利用语音开始段的静音信息来估计噪声的功率谱瓯( w ) ,则由式( 2 2 ) 可 以得到目标信号幅度谱平方的一种估计【5 l ,如式( 2 3 ) 所示。 阻刊咿莉:一 亿3 , 根据引言中的假设,利用y ( 础,w ) 的相位估计作为目标信号的估计,则目标 信号的短时傅立叶变换( s t f t ) 估计如式( 2 4 ) 所示: 妞帕: 缸刊帕( 2 4 ) 2 1 1 2 维纳滤波 维纳滤波作为一种改进的谱减法 l i m7 9 ,常用于语音增强,其主要准则 为:构造一个最优化滤波器凰( w ) ,使得理论输出与实际输出之间均方误差最 小。在目标信号x n 】与加性噪声信号b 【n 】不相关的假设前提下,根据最小均方误 差准则,最优化滤波器的可表示为式( 2 5 ) : ( 咖揣 ( 2 5 ) 在信号x n 】与b 【n 】满足以上的假设条件时,维纳滤波的方法能够实现噪声 抑制,且不会引起很大的目标估计失真和背景残留噪声。实际应用中,目标信 号和背景噪声都是非平稳的,即其功率谱会随着时间变化,分别表示成时变函 数( n ,) 和瓦( 即,) 。本文中需要对每帧信号的s t f t 采用不同的维纳滤波 第2 章基于高斯混合模型的说话识别系统 器进行滤波,考虑平稳背景噪声的情况,时变维纳滤波器可以表示成式( 2 6 ) : 驰,= 意筹耘 仁6 , 其中炙( 础,缈) 是对x 【n 】的时变功率谱( 惕甜) 的估计,瓯( 缈) 是对平稳噪 声的功率谱瓯( ,? ,m ) 的估计,若噪声非平稳时,用气( 肚,) 来代替气( 甜) 。实际 处理中利用静音段或低能量段,来估计毛( 珊) ,结合含噪语音的功率谱估计初始 的( 础,缈) 。 维纳滤波的效果如图2 1 所示。 世 1 a 吾 型 1 a 匝 号 图2 1 维纳滤波效果图 2 1 2 说话人识别的特征选择 语音信号是十分复杂的非平稳信号,它不仅包含语义信息,还有个人特征 信息,对其特征参数的研究是说话人识别的基础。也就是说,特征参数应能完 全、准确地表达语音信号所携带的全部说话人的特征信息。实验语音学的研究 1 6 第2 章基于高斯混合模型的说话识别系统 从语音信号本质上给出的特征参数是科学的、合理的,但又是不完全的。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论