(通信与信息系统专业论文)基于jfa的汉语耳语音说话人识别.pdf_第1页
(通信与信息系统专业论文)基于jfa的汉语耳语音说话人识别.pdf_第2页
(通信与信息系统专业论文)基于jfa的汉语耳语音说话人识别.pdf_第3页
(通信与信息系统专业论文)基于jfa的汉语耳语音说话人识别.pdf_第4页
(通信与信息系统专业论文)基于jfa的汉语耳语音说话人识别.pdf_第5页
已阅读5页,还剩78页未读 继续免费阅读

(通信与信息系统专业论文)基于jfa的汉语耳语音说话人识别.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

f y 删脚1 胛7 舢3 舢2 舢2 舢f f f f f 9 f f f f 3 删 苏州大学学位论文使用授权声明、 本人完全了解苏州大学关于收集、保存和使用学位论文的规定, 即:学位论文著作权归属苏州大学。本学位论文电子文档的内容和纸 质论文的内容相一致。苏州大学有权向国家图书馆、中国社科院文献 信息情报中心、中国科学技术信息研究所( 含万方数据电子出版社) 、 中国学术期刊( 光盘版) 电子杂志社送交本学位论文的复印件和电子 文档,允许论文被查阅和借阅,可以采用影印、缩印或其他复制手段 保存和汇编学位论文,可以将学位论文的全部或部分内容编入有关数 据库进行检索。 涉密论文口 本学位论文属 在年一月解密后适用本规定。 非涉密论删 论文作者签名:互琏 日 导师签名:碰日 期:丝丝! ! 至 基于j f a 的汉语耳语音说话人识别摘要 基于j f a 的汉语耳语音说话人识别 摘要 耳语音说话人识别在公共场合下的通讯、安全场所的身份鉴定、罪犯识别、电话 网络查询与电话银行等领域都有着一定的实用价值。它是一个较新的研究课题,有许 多问题尚待解决。 由于耳语发音方式的特殊性加上耳语通话常常在手机方式下进行,耳语音说话人 识别受说话人发音状态、健康状况、心理因素及信道环境因素的影响变得更为突出。 因此,用正常音建立的说话人识别系统对耳语音说话人识别基本不适用,识别性能将 大为下降。 目前已有的自适应补偿方法都将说话人变化和信道环境变化这两种因素混在一 起,不加区分,这样的处理方式必然会影响耳语音说话人识别的识别效果。为此,有 必要针对耳语音的特点,建立合适的识别模型来实现文本无关的耳语音说话人识别。 本文提出采用联合因子分析( j f a ) 的方法来解决耳语发音时受多种因素影响说话 人语音特征变异大的问题,该方法针对耳语音的特点引入了两类变化因子:说话人自 身变化因子和通话信道环境变化因子。 鉴于联合因子分析的难点,本文提出了一种适用于耳语音说话人识别的简化的联 合因子分析方法,其最主要的特点是分开估计说话人空间和信道空间,因此在算法的 复杂度和语音数据的需求量上都有很大的下降,从而大大降低了运算量和运算时间。 本文建立了一种基于简化的j f a 方法的识别模型,并且给出了相应的算法,在此 基础上实现了耳语发音方式下与文本无关的说话人辨认。 对本文提出的简化的j f a 识别模型在8 种不同的信道环境情况下分别进行测试,实 验证明,该模型在信道失配的情况下也能有效地辨认耳语音说话人,并与已有的采用 m a p 、特征映射( f e a t u r em a p p i n g ) 和说话人模型合成( s m s ) 方法的g m m 模型进行比 较,识别正确率有了明显的提高。 此外,还研究了说话人因子数和信道因子数对该识别模型性能的影响,实验发现, 适当地增加说话人因子数和信道因子数有助于提高识别的正确率,但是两者均存在着 摘要基于j f a 的汉语耳语音说话人识别 一定的饱和问题,即继续增加说话人因子数和信道因子数对识别模型的性能几乎没有 任何提高。 关键词:耳语音;说话人识别;联合因子分析;说话人因子;信道因子 作者:王琰蕾 指导教师:赵鹤鸣 s p e a k e ri d e n t i f i c a t i o ni nc h i n e s ew h i s p e r e ds p e e c hb a s e do ns i m p l i f i e dj o i n tf a c t o ra n a l y s i s s p e a k e r i d e n t i f i c a t i o ni nc h i n e s e w h i s p e r e ds p e e c h b a s e do ns i m p l i f i e dj o i n tf a c t o r a n a l y s i s a b s t r a c t w h i s p e r e ds p e e c hi st h em o d eo fs p e e c hd e f i n e da ss p e a k i n gs o f t l yw i t hn ov i b r a t i o n o ft h ev o c a lc o r d st oa v o i db e i n go v e r h e a r d t h ew h i s p e r i n gs p e a k e rr e c o g n i t i o nc a nb e a p p l i e di ns e v e r a lf i e l d s ,s u c ha st h ep r i v a t es p e e c hc o m m u n i c a t i o ni np u b l i c ,t h es p e c i a l n e e df o rt h ef o r e n s i cw o r k ,e t c s i n c es p e a k e rr e c o g n i t i o no fw h i s p e r e ds p e e c hi si nt h ee a r l ys t a g er e s e a r c h ,m a n y m o d e l sw h i c ha r eo f t e nu s e di nn o r m a ls p e e c ha r es t i l lu s e d h o w e v e r ,m o s to ft h e ma r e n o ts u i t a b l ef o rw h i s p e r e ds p e e c hb e c a u s eo fi t sc h a r a c t e r i s t i c s a tp r e s e n t ,t h ea v a i l a b l ea d a p t i v ec o m p e n s a t i o nm e t h o d sm a k en od i s t i n c t i o nb e t w e e n t h es p e a k e rh e a l t h ,p s y c h o l o g i c a lf a c t o r sa n dt h ec h a n n e le n v i r o n m e n tf a c t o r s ,w h i c hw i l l d e f i n i t e l ya f f e c tt h er e c o g n i t i o nr e s u l t so fw h i s p e r e ds p e e c h a st ow h i s p e r e ds p e e c h ,w i t h o u tt h ev i b r a t i o no ft h ev o c a lc o r d s ,i ti sa l w a y si nl o w s n r t h el o c a t i o n s ,e n e r g yo ft h ef o r m a n t sa n dt h ea u d i t o r ym o d e li nw h i s p e r e ds p e e c h a r ed i f f e r e n tf r o mt h o s ei nn o r m a ls p e e c h w h e nw h i s p e r i n g ,t h em e n t a l i t yo ft h e e n u n c i a t o ri sv a r i e da n ds u s c e p t i b l e h e n c e ,s p e a k e rr e c o g n i t i o no fw h i s p e r e ds p e e c h b e c o m e sm o r es o p h i s t i c a t e dc o m p a r e dt ot h en o r m a ls p e e c h c o n c e r n sa r eh o wt od e c r e a s e t h ei n f l u e n c eo fs p e a k i n ge n v i r o n m e n t ,e s p e c i a l l yt h ev a r i a t i o n so fs p e e c hc h a n n e l s ;a n d h o wt or e m o v et h em e n t a lo re m o t i o n a la f f e c t i o n s f o rt h ec h a r a c t e r i s t i c so fw h i s p e r e ds p e e c h ,t h i sp a p e rp r e s e n t san e wa p p r o a c ht o s p e a k e ri d e n t i f i c a t i o no fc h i n e s ew h i s p e r ds p e e c hw h i c hc a l l e ds i m p l i f i e dj o i n tf a c t o r a n a l y s i s n l em a i ni d e ao ft h ep r o p o s e dt e c h n i q u ed e c o u p l e de s t i m a t e st h es p e a k e rs p a c e a n dc h a n n e ls p a c e ,w h i c hr e m o v e st h en e c e s s i t yo fl a b e l i n gd a t a b a s e sf o rc h a n n e l , s i m p l i f i e st h et r a i n i n gp r o c e d u r ea n da l s or e d u c e st h ec o m p u t a t i o na n dt h ed e m a n d i n go f d a t as e t s e x p e r i m e n t sa r ec a r r i e do no u ro w nd a t a b a s e 1 1 1 i sc o r p u sc o n s i s t so f10 0t a r g e t s p e a k e r s ,8 0m a l ea n d2 0f e m a l e ,i nw h i c he a c hs p e a k e ri sr e c o r d e do v e r8t y p i c a lc h a n n e l s c o m p a r e dw i md i f f e r e n tr e c o g n i t i o nm e t h o d s ,s u c ha s 脚,f e a t u r em a p p i n g + m a pa n d 1 1 1 a b s t r a c t s p e a k e ri d e n t i f i c a t i o ni nc h i n e s ew h i s p e r e ds p e e c hb a s e do ns i m p l i f i e dj o i n tf a c t o ra n a l y s i s s m s ,t h ep r o p o s e dj f at e c h n i q u ew h i c hw ep r e s e n t e di nt h i sp a p e rd o e sp r o v i d es u p e r i o r p e r f o r m a n c ea n ds i g n i f i c a n ts p e e d u pi ns p e a k e ri d e n t i f i c a t i o no fc h i n e s ew h i s p e r e ds p e e c h e s p e c i a l l y ,i td o e sg r e a t l yi m p r o v et h er e c o g n i t i o na c c u r a c yw h e n t h ee n r o l l m e n ta n dt e s t c o n d i t i o n sa r em i s m a t c h e d s t u d y i n go nt h en u m b e ro fs p e a k e rf a c t o r sa n dc h a n n e lf a c t o r ss h o w st h a ti n c r e a s et h e n u m b e ro ft h ef a c t o r sp r o p e r l yc a ni m p r o v et h er e c o g n i t i o na c c u r a c ye f f e c t i v e l y ,b u tt h e r e i sap r o b l e mc a l l e ds a t u r a t i o n t h a ti st os a yk e e p i n go ni n c r e a s i n gt h en u m b e ro ft h e f a c t o r sc a nn o ti m p r o v et h ep e r f o r m a n c eo ft h ew h i s p e r e ds p e a k e rr e c o g n i t i o ns y s t e m k e yw o r d s :w h i s p e r e ds p e e c h ;s p e a k e rr e c o g n i t i o n ;j o i n tf a c t o ra n a l y s i s ;s p e a k e r f a c t o r s ;c h a n n e lf a c t o r s w r i t t e n b y :w a n gy a n l e i s u p e r v i s e db y :z h a oh e m i n g 目录 第一章绪论1 1 1 研究的意义1 1 2 研究的背景和现状3 1 3 说话人识别的关键问题6 1 3 1 数据库6 1 3 2 特征参数7 1 3 3 模式识别模型8 1 4 本文的主要工作1 0 1 5 论文结构安排1 l 第二章耳语音的特征参数1 3 2 1 语音的发音系到5 6 1 1 3 2 2 语音特征参数的分析1 4 2 2 1 语音信号产生的数学模型【5 6 】1 5 2 2 2 基音频率。l6 2 2 3 共振峰17 2 2 4 线性预测倒谱系数( l p c c ) 18 2 2 5 美尔频率倒谱系数( m f c c ) 2 0 2 3 特征参数优化的方法2 3 2 3 1 高阶差分参数2 4 2 3 2 倒谱均值减( c m s ) 2 4 2 4 耳语音的特点2 5 2 4 1 生理特点2 5 2 4 2 声学特性2 6 2 5 耳语音特征参数的分析2 7 2 5 1 耳语音产生的数学模型2 7 2 5 2m f c c 修正参数5 4 1 2 8 2 6 本文采用的特征参数2 9 第三章基于g m m 模型的说话人识别3 0 3 1 说话人识别的分类3 0 3 2g m m 模型的基本概念。3 0 3 3 主成分分析( p c a ) 3 2 3 4 通用背景模型( u b m ) 3 3 3 4 1 分裂法。3 4 3 4 2k - m e a n s 算法3 4 3 4 3e m 算法3 6 3 4 4u b m 训练中需要注意的问题3 6 3 5 说话人模型的自适应3 8 3 6 基于对数似然度的辨认算法3 9 3 7 实验结果及分析4 0 第四章信道失配下的说话人识别4 2 4 1g m m 均值超矢量4 2 4 2 说话人超矢量的p c a 映射4 3 4 3 信道问题典型的两种解决方法4 4 4 3 1 特征映射( f e a t u r em a p p i n g ) 4 4 4 3 2 说话人模型合成( s m s ) 4 5 4 4 因子分析4 6 4 4 1 因子分析的基本概念4 7 4 4 2 联合因子分析( j f a ) 4 8 4 4 3 本征信道【2 5 】f 9 7 1 。4 9 第五章简化的联合因子分析5 1 5 1 联合因子分析的难点5 1 5 2 简化的联合因子分析方法5 l 5 3 基于简化的j f a 方法的说话人辨认模型5 2 5 3 1u b m 的训练5 2 5 3 2b a u m w e l c h 统计量的计算5 2 5 3 3 说话人空间和信道空间的分开估计5 3 5 3 4 说话人模型的训练5 5 5 3 5 基于线性得分的辨认算法5 6 5 4 实验结果及分析5 6 第六章总结与展望6 4 6 1 论文工作总结一6 4 6 2 今后研究展望6 4 参考文献6 5 攻读硕士学位期间公开发表的论文7 1 致谢7 2 基于j f a 的汉语耳语音说话人识别 第一章绪论 1 1 研究的意义 第一章绪论 耳语发音方式下的说话人识别是一个较新的研究课题,有许多问题尚待解决。下 面分别从说话人识别和耳语音两方面来阐述其研究的意义。 说话人识别( 也称声纹识别) 是一项根据语音信号中反映说话人生理特征( 先天的 发音器官的差异) 和行为特征( 后天的发音与言语习惯的差异) 的语音参数,自动识别说 话人身份的技术。说话人识舅j w ( s p e a k e rr e c o g n i t i o n ) 并不注重包含在语音信号中的文字 符号以及语义内容信息,而是着眼于包含在语音信号中的个人信息特征,目的是希望 从语音信号中提取出说话人的这些代表个人身份的个性特征,识别出说话人的身份。 在众多的生物认证技术中,说话人识别有着许多独特的优点,表现出很多应用上 的优势。首先,蕴含声纹特征的语音不会遗失、无须记忆,因其非接触性和自然性, 用户容易接受;其次,获取语音的设备成本低廉,使用简单,只需要一个麦克风和一 台普通的计算机即可;此外,适合远程应用和移动互联环境,如通过电话、移动设备 进行身份验证。因此,说话人识别有着广泛的应用前景,如: ( 1 ) 机密场所的门禁系统。可以把含有某人声纹特征的芯片嵌入到证件之中,例 如信用卡、银行自动取款机,防盗门、汽车的钥匙卡,授权使用的电脑、声纹锁以及 特殊通道口的身份卡。 ( 2 ) 在互联网应用及通信领域,说话人识别技术可以应用于诸如声音拨号、电话 银行、电话购物、数据库访问、信息服务、语音电子邮件、安全控制、计算机远程登 录等领域。 ( 3 ) 在银行、证券等金融或网上支付领域。随着电话银行、远程炒股等业务的不 断增加,这些业务对用户所作的身份认证只是采用密码方式,由于目前网络木马病毒 流行,窃取个人金融密码的行为越来越严重,因此密码的安全性令人担忧。如果采用 说话人识别技术并结合密码这样的双保险,就可以有效地防止复制和剽窃。 ( 4 ) 在公安司法中,说话人识别技术还可以为法庭上提供身份确认的旁证。对于 各种电话勒索、绑架、电话人身攻击等案件,声纹识别技术可以在一段录音中查找出 第一章绪论基于j f a 的汉语耳语音说话人识别 嫌疑人,帮助对嫌疑人的查证。 ( 5 ) 在军事上的应用。声纹识别技术可以辨认出电话交谈过程中是否有关键说话 人的出现,继而对交谈的内容进行处理。另外,当通过电话发出军事指令时,可以对 发出命令的人的身份进行确认,鉴别出敌我指战员。在国家安全方面,对国际恐怖主 义相关信息进行监控,从各种通信中发现有价值的迹象和情报,阻止恐怖事件的发生, 维护国家的安全。 随着互联网的蓬勃发展以及数字音频数据的增长,说话人识别也应用到语音检索 和信息检索中,并得到越来越广泛和深入的研究。在图像、语音识别等模仿人类机能 的模式识别领域中,唯有自动说话人识别的性能在某些条件下可以与人类的能力相 当,甚至超过人类f 2 1 。 耳语音是一种不同于正常音的低声级发音模式,其最主要的特征是声带不振动, 没有基频,在公共场合中,其信噪比更低。在会场、音乐厅、图书馆和影剧院等禁止 大声喧哗的场所,人们为了避免打扰他人,不便于大声讲话;或者为了通话的保密性, 不让语音内容泄露给第三者;更有甚者为了刻意隐瞒说话人自身的身份信息,都有可 能采用耳语发音的方式。无喉病人或者其他有喉部疾病的患者也将耳语音作为一种重 要的交流方式。在移动通信广泛普及的今天,人们在公共场合中常常采用耳语发音的 方式通话以避免对他人的干扰或为了保证通话内容的保密性。此外,在公安、司法等 部门,在破译语音内容、鉴别当事人或罪犯身份时,耳语音也常常会涉及。因此,耳 语音作为人们的一种特殊而常见的语音交流方式,有着广泛的应用前景。 本文所研究的耳语音说话人识别在公共场合下的通讯、安全场所的身份鉴定、罪 犯识别、电话网络查询与电话银行等领域都有着一定的实用价值。但是,由于耳语音 特殊的发音机理( 主要是韵母) ,耳语音说话人识别必然会面临更大的难度,因此照搬 正常音建立的说话人识别系统,识别性能将大为下降。 耳语音的激励源为噪声,声带不振动,因而没有基频;耳语音是气声发音,能量 低,信噪比低;声道传输函数发生改变,产生了附加的零极点,导致耳语音共振峰的 位置相对于正常音向高频偏移,且带宽变宽;耳语音频谱较正常音平坦,低频段衰减 大。此外,采用耳语方式发音时,容易受到说话人发音状态、心理因素及信道环境因 素的影响,语音特征变化大,随机性强。 因此,有必要针对耳语音的特点,建立合适的模型识别方法来实现文本无关的耳 2 基于j f a 的汉语耳语音说话人识别第一章绪论 语音说话人识别。该方法应在不同信道环境情况下能够有效地辨认耳语音说话人并将 识别率显著地提高,使耳语音说话人识别能够得到广泛的应用。 1 2 研究的背景和现状 下面分别从说话人识别和耳语音两方面来阐述其研究的背景和现状。 对说话人识别的研究始于2 0 世纪3 0 年代【3 】。早期的工作主要集中在人耳辨听实 验和探讨听音识别的可能性方面。随着研究手段和工具的改进,研究工作逐渐脱离了 单纯的人耳辨听。1 9 4 5 年,b e l l 实验室的l qk e s t a 用目视观察语谱图的方法进行 匹配,提出了“声纹”( v o i c e p r i n t ) 的概念。1 9 6 2 年,b e l l 实验室的l gk e s t a 第一次介 绍了采用上述方法进行说话人识别的可能性,同年年底,b e l l 实验室的s p r u z a n s k y 采用模板匹配原则把三维语谱图( 时间频率能量) 应用到说话人识别研究。1 9 6 4 年, p r u z a n s k y & m a t h e w s 利用统计方差分析的方法进行说话人识别研究,提出了有名的衡 量说话人特征参数有效性的f 比值公式。之后,随着电子技术和计算机技术的发展, 使通过机器自动识别人的声音成为可能。 起初的工作重点主要集中在各种反映说话人个性特征的识别参数的提取、选择、 线性或非线性处理和实验上。1 9 6 9 年l u c kj e 首先将倒谱( c e p s t r u m ) 技术用于说话人 识别,得到了较好的结果。b sa t a l 将线性预测倒谱系数( l p c c ) 用于说话人识别,提 高了识别系统的精度【4 1 。s t e v e nb d a v i s 最早提出了美尔频率倒谱系数( m f c c ) 的概 念。m f c c 由于考虑到了人耳的听觉感知机理,具有较好的识别效果和噪声鲁棒性, 因此成为了语音识别中使用的主流参数。1 9 8 3 年l i & w r e n c h 采用l p c c ,1 9 9 5 年 r e y n o l d s 采用m f c c ,1 9 9 6 年r e y n o l d s 采用m f c c 和一阶差分m f c c 相结合 ( m f c c + a m f c c ) 进行说话人识别,均取得了很好的效果。 2 0 世纪8 0 年代以来,说话人识别的重点转向新的模式匹配方法上,如动态时间 规整( d t w ) 、主成分分析( p c a ) 、矢量量化q ) 、隐马尔可夫模型( h m m ) 5 1 、人工神 经网络( 砧州) 【6 】【7 】【8 】方法以及这些方法的组合技术等。 进入2 0 世纪9 0 年代以后,特别是r e y n o l d s 对高斯混合模型( g m m ) 【9 】【1 0 1 和通用 背景模型( u b m ) i 】做了详尽的介绍后,g m m u b m 以其简单、灵活、有效及较好的 鲁棒性,迅速成为目前与文本无关的说话人识别中的主流技术,将说话人识别研究带 第一章绪论基于j f a 的汉语耳语音说话人识别 入一个新的阶段。2 0 0 0 年左右,r e y n o l d s 在说话人确认任务中提出了u b m m a p 结 构【】,为说话人识别从实验室走向实用做出了重要贡献。u b m m a p 降低了统计模型 g m m 对训练集的依赖,说话人模型训练只需要少量的自适应语音,并且增强了对训 练条件和测试条件失配的鲁棒性。 目前,新的说话人识别技术层出不穷,如大词表连续语音识另i j ( l v c s r ) 应用于与 文本无关的说话人识别12 1 、支持向量机( s v m ) 和g m m 的结合【1 3 】【1 4 】【1 5 j 、语音信号中 高层信息的应用【1 2 】【1 6 1 、基于评分的说话人规整技术h n o r m t l l l 、z n o r m t l 7 l 和 t n o r m t l 5 】【1 引,潜因子分析( l f a ) 【1 9 】技术,以及针对信道失配问题的说话人模型合成 f 2 0 】【2 1 】【2 2 1 ( s m s ) 技术和特征映射【2 3 ( f e a t u r em a p p i n g ) 等等,近几年来又在g m m 模型域 提出了联合因子分析【2 4 ( j o i n tf a c t o ra n a l y s i s ) 以及本征信道【2 5 1 ( e i g e n c h a n n e l ) 的概念, 从而对信道失配问题有了比较好的解决方案,取得了识别性能的大幅度提高。 自2 0 世纪6 0 年代以来,说话人识别所处理的语音已经从小规模语料库( 包含较 少的说话人) 、干净语音和受限文本发展到今天的大规模语料库( 包含很多的说话人) , 任意内容的文本以及各种真实环境下的语音。经过4 0 多年的研究,说话人识别的研 究重点也己经从实验室系统转移到实用系统。2 0 世纪8 0 年代以来,有很多商用的说 话人识别系统产品问世,如美国的h o m es h o p p i n gn e t w o r k ,同时采用与文本有关的 说话人确认和语音识别来进行基于电话语音的订货;苹果公司于1 9 9 9 年1 0 月份在 m a co s9 中加入v o i c e p r i n tp a s s w o r d 功能,利用语音进行个人计算机的使用控制; a t & t 等公司都在开发新一代的v o i c e m a i l 集成管理系统,利用连续语音识别和说话 人识别技术将音频形式的语音邮件转换为文本,并自动识别发送人的名字,便于收信 人浏览。a t & t 应用声纹识别技术研制出了智慧卡( s m a r tc a r d ) ,已经应用于自动提款 机。欧洲电信联盟在电信与金融结合领域应用声纹识别技术,完成了c a v e 计划,并 启动p i c a s s o 计划,在电信网上完成了声纹的识别。同时m o t o r o l a 和v i s a 等公司成 立了v - c o m m e r c e 联盟,希望实现电子交易的自助化,其中确定说话人的身份是该项 目的重要组成部分。此外还有i m a g i n en m i o n 公司的v o i c ea c t i v a t e du n l o c k t e c h n o l o g y ,k e y w a r et e c h n o l o g i e s 公司的v o i c eg u a r d i a n 和s 2s e c u r i t ys e r v e r ,i t t i n d u s t r i e s 公司的s p e a k e r k e y ,t - n e t i x 公司的s p e a k e r e z 等产品【2 引。美国德州仪器 公司( t i ) 与美国著名的通讯公司s p r i n t 已经开始了在声音识别领域的实验和实际的应 用。国内的说话人识别产品包括言丰一声纹识别器、模识p a a e ka s r 3 0 t s p 说话人识 4 基于j f a 的汉语耳语音说话人识别 第一章绪论 别、得意声纹识别引擎、中科信利说话人识别引擎( t s i e ) 、北极星声纹识别技术等。 以前对耳语音的研究主要为了语音基础研究和医学工作的需要。例如语音方面, 研究能否从耳语音中辨听出发音人的性别【2 7 】【2 8 1 和辨昕出辅音与元音 2 9 1 3 0 1 ,研究耳语 音高的感知【3 i 】【3 2 】1 3 3 】,耳语音与正常音的比较,特别是共振峰的比较【3 4 】【3 5 】【3 6 】【3 7 1 等等。 医学方面,语言临床医学家研究耳语模式来帮助失音患者,以及研究耳语音是否有利 于喉部手术病人嗓音的治疗和恢复1 3 引。随着科技的发展,耳语的研究也从声学理论的 研究走向实际应用的研究,如耳语音的自动识别和转换【3 9 】【4 0 】【4 1 】。 由于耳语音声带不振动,没有基频,能量低。因此耳语音的研究特别是识别,相 对于正常音要困难许多。目前耳语音方面的研究相对较少,但现在它已经受到国内外 研究机构的日益重视,其研究内容主要集中在耳语音声学分析特性比较、耳语音转换 与识别、耳语音说话人识别等几个方面。近几年来,国外从事耳语音研究的主要有: 美国乔治亚州技术学院信号与图像处理中心,m o r r i s 博士所从事的耳语音转换与识别 的研究f 4 0 1 1 4 1 j ;日本宇都宫大学工程系及名古屋大学综合声学信息研究中心进行的耳 语音声学分析和识别的研究【3 7 】【3 9 】;美国卡耐基梅隆大学关于耳语音说话人辨认的研 究【4 2 】;英国牛津大学语音实验室关于耳语音喉部运动与语调关系的研究【4 3 】;英国爱 丁堡大学语音技术研究中心,语言学理论及应用系关于耳语音声学特性的研究】;加 拿大维多利亚大学语言学系关于汉语耳语音声调感知问题的研究【4 习;南斯拉夫贝尔格 莱德大学和土耳其安卡拉大学的学者分别以塞尔维亚语和土耳其语为基础对耳语音 共振峰结构、清浊音特性分析展开的研究【4 6 1 4 7 ,最近另一些学者报道了耳语音转换 方面新的研究成果【4 8 】【4 9 】。目前国内这方面的研究主要有南京大学声学所进行的耳语 音信号处理、耳语音话者识别的研究【5 0 】【5 1 1 ,苏州大学电子信息学院关于耳语音声学 分析以及耳语音转换方面的研究【5 2 】【5 3 】,东南大学正开展耳语音情感分析的研究,南 开大学关于伪装语音的声学研究也涉及耳语音分析。 总体来说,耳语音的研究是一个较新的研究课题,无论在国内还是国外,都处于探 索研究的初步阶段,研究还很不充分,有许多参数与理论还是沿用现有正常音的模型, 这种做法在实际应用中存在着一定的问题。 有关耳语音说话人识别的研究更是一个全新的课题。美国卡耐基梅隆大学的最新 研究表吲4 2 】:耳语发音方式下能对说话人进行识别,但比正常音的说话人识别困难。 他们采用典型的m f c c 参数作为说话人耳语音的特征、基于帧得分竞争g m m 作为识 第一章绪论基于j f a 的汉语耳语音说话人识别 别模型,在与训练模型匹配与失配两种情况下给出了多种实验结果。实验表明,对耳 语音说话人识别使用目前常用的g m m 模型,识别性能大为下降。 目前,对耳语音说话人识别的研究主要集中在将正常音识别方法做出修正后用于 耳语音识别的方面。美国卡耐基梅隆大学的q i nj i n 等人,使用喉麦( t h r o a tm i c ) 和特征 弯折( f e a t u r ew a r p i n g ) 来提高系统对噪声的鲁棒性,识别效果获得了改善【4 2 】;南京大 学的林玮博士,通过对耳语音频率特性的研究修改了频谱弯折曲线,提出了两种修正 m f c c 参数:m f c c m 、c c 脚l o g ,并结合改进f l 向h m m 模型,在文本相关的说话人 识别中获得了较好的识别效果【5 4 】;美国乔治亚州技术学院的m o r r i s 在他的博士论文中 用g m m 模型做文本无关的耳语音说话人识别时,提出采用马尔可夫跳跃线性系统降 低识别模型数,虽然降低了识别的时间,但是识别率也有一定的降低【4 0 1 。 由于耳语发音方式的特殊性,耳语音说话人识别受说话人发音状态、心理因素及 信道环境因素的影响变得更为突出。因此,用正常音建立的说话入识别系统对耳语音 说话人识别基本不适用,识别性能将大为下降。 目前,在正常音的说话人识别模型中,说话人每次发音状态、心理变化和信道环 境变化对识别效果的影响都采用自适应补偿的方法来解决。主要从三个方面进行研 究:特征域的特征参数补偿法、模型域的识别模型补偿法、得分域的得分补偿法。具 体内容将在第四章详细介绍。但已有的自适应补偿方法都将说话人因素和信道环境因 素混在一起,不加区分,这样的处理方式必然会影响耳语发音方式下说话人识别的识 别效果。尽管说话人每次发音状态、心理变化和信道环境变化对说话人识别而言是非 常重要的,但是如何分别反映这些变化然后联合各变化因素应用到说话人识别模型 中,目前几乎没有深入研究。 本文提出采用联合因子分析( j f a ) 的方法来探索解决这方面的问题。 1 3 说话人识别的关键问题 1 3 1 数据库 语音数据库是整个耳语音说话人识别研究的基础和对象。一个好的数据库需要考 虑很多方面进行规范设计,例如,发音人规范( 语种,数量,年龄、教育水平、性别、 地区分布等) ,数据采集环境规范( 信道一固话、移动,环境一室内、室外、办公) , 6 基于j f a 的汉语耳语音说话人识别第一章绪论 音段长短规范,声学及语音学特征平衡规范等。 本文所有的实验结果都是基于本语音课题组录制的耳语音数据库【5 5 1 之上的。下面 对该数据库做一个简单的介绍。 录音采用普通笔记本电脑和c o o le d i t 软件,8k h z 采样,采样精度为1 6b i t 。由 于耳语音的能量较低,信噪比较低,因此选择在隔音室进行录制。 语音数据库包括1 0 0 名不同的说话人,其中男性8 0 人,女性2 0 人,每个人采用 耳语发音的方式分别在8 种不同的通话信道环境下录制的语音段,共有8 0 0 段耳语音, 每段耳语音音长在9 0 s 左右。 本文在实验中将每段耳语音的后5 0 s 作为测试语音段,余下的语音部分作为训练 语音段,以此来保证文本无关性。每段耳语音测试1 5 次,共1 2 0 0 0 次测试。 8 种信道类型的标注分别表示为:手机信道m o ( m o b i l ep h o n e ) ,手机通讯信道 m c ( m o b i l ec o m m u n i c a t i o n ) ,桌置麦克风d t ( d e s kt o p ) ,手持式麦克风h h ( h a n d h o l d ) ,头戴式麦克风w e ( w e a r ) ,耳塞式麦克风e p ( e a r p l u g ) ,录音笔r p l ( r e c o r dp e m , 录音笔+ 手持式麦克风r p 2 ( r e c o r dp e n + h a n dh o l d ) 。 1 3 2 特征参数 与语音识别不同,说话人识别中提取的特征必须是“个性”特征,而语音识别的 特征对说话人来讲必须是“共性 特征。但是,目前在说话人识别中还是采用语音识 别中的特征参数能够取得比较好的识别效果。 说话人识别的特征提取分为4 个阶段:采样与量化、预加重处理、分帧加窗和特 征提取,其中,前三个阶段统称为语音信号的预处理。 在采样与量化阶段,将语音模拟信号转变成数字形式,并对振幅值进行量化编码, 保存为语音文件。采样时满足奈奎斯特采样定理,量化时不可避免会产生量化噪声。 假设语音信号的幅度服从l a p l a c e 分布,b 表示量化字长,则量化信噪比s n r ( 信号与 量化噪声的功率比) 为: s n r ( d b ) = 6 0 2 b 7 2( 1 1 ) 上式表明量化器中每b i t 字长对s n r 的贡献约为6 d b 。为了在语音信号变化的范 围内保持3 5 d b 的信噪比,常用1 2 b i t 来量化,其中附加的5 b i t 用于补偿3 0 d b 左右的 7 第一章绪论基于j f a 的汉语耳语音说话人识别 输入动态范围的变化。 在预加重处理阶段,通过对语音中高频信号的加强,使语音信号的频谱便于统一 的分析和处理。由唇端辐射引起的能量损耗,使得语音信号能量在高频处要明显地小 于低频和中频处,高频端大约在8 0 0 h z 以上按6 d b 倍频程跌落。预加重的目的就是 提升高频部分,使信号的频谱变得平坦。在计算机里应采用具有6 d b 倍频程的提升 高频特性的预加重数字滤波器来实现,它的传递函数为: h ( z ) = 1 - l z _ ( 1 - 2 ) 式中,称为预加重系数,其值接近于1 ,如取= 0 9 3 7 5 。 在分帧阶段,基于语音信号的短时平稳特性,将语音分成一系列的语音帧,帧长 为1 0 3 0 m s 。虽然可以采用连续分段的方法,但为了使帧与帧之间平滑过渡,保持其 连续性,一般要采用交叠分段方法。此外,还要将语音帧乘以一个汉明窗,这是为了 减小语音帧的截断效应,使语音帧的两端不引起急剧变化而平滑过渡到零。 在特征提取阶段,对经过加窗得到的语音帧进行时域或频域分析,并用相应的特 征参数描述。目前,主流的说话人特征主要有美尔频率倒谱系数( m

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论