(信号与信息处理专业论文)基于因子分析和支持向量机的耳语说话人识别.pdf_第1页
(信号与信息处理专业论文)基于因子分析和支持向量机的耳语说话人识别.pdf_第2页
(信号与信息处理专业论文)基于因子分析和支持向量机的耳语说话人识别.pdf_第3页
(信号与信息处理专业论文)基于因子分析和支持向量机的耳语说话人识别.pdf_第4页
(信号与信息处理专业论文)基于因子分析和支持向量机的耳语说话人识别.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(信号与信息处理专业论文)基于因子分析和支持向量机的耳语说话人识别.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

苏州大学学位论文使用授权声明 本人完全了解苏州大学关于收集、保存和使用学位论文的规定, 即。学位论文著作权归属苏州大学。本学位论文电子文档的内容和纸 质论文的内容相一致苏州大学有权向国家图书馆、中国社科院文献 信息情报中心、中国科学技术信息研究所( 含万方数据电子出版社) 、 中国学术期刊( 光盘版) 电子杂志社送交本学位论文的复印件和电子 文档,允许论文被查阅和借阅,可以采用影印、缩印或其他复制手段 保存和汇编学位论文,可以将学位论文的全部或部分内容编入有关数 据库进行检索 涉密论文口 本学位论文属 在年一月解密后适用本规定 非涉密论文口 论文作者签名:苤鑫日期:苎竺竺:生:三, 导师签名:巡日期:= ! 三:7 基于冈了分析和支持向量机的耳语说话人识别 中文摘要 基于因子分析和支持向量机的耳语说话人识别 中文摘要 耳语音说话人识别在公共场合下的通讯,安全场所的身份鉴定以及罪犯识别,电 话网络查询与电话银行等领域都有着广泛的实用价值。耳语音的说话人识别技术在日 常生活中越来越被重视。 由于耳语发音方式的特殊性,耳语音说话人识别受说话人的健康状况、心理变化、 发音状态和信道环境等因素的影响尤为突出。用j 下常音建立的说话人识别系统应用到 耳语音,识别性能将大为下降。 联合因子分析( j f a ) 在不匹配信道环境下耳语说话人识别已经取得了很好的效 果,它能够从模型方面分离出说话人和信道信息,从而进行信道补偿。本文只采取了 联合因子分析方法中的一部分,只估计说话人空间,并从中提取出所包含的说话人因 子,将说话人因子与支持向量机( s v m ) 结合起来构建一个基于因子分析- 支持向量机 ( f a - s v m ) 的耳语说话人识别系统。 本文在该识别系统的基础上增加了类内协方差规整( w c c n ) ,线性判别分析( l d a ) 和冗余属性投影( n a p ) - - 种信道补偿技术,并将经过信道补偿之后的说话人因子输入 到支持向量机系统中进行识别。实验证明采用信道补偿之后的系统获得了比基线系统 更好的识别结果。 因为估计出的说话人因子仍然会包含信道信息的特点,本文对上述三种方法进行 了相应的改进。针对类内协方差规整,本文采用平滑的类内规整矩阵取代原来的矩阵 以改进识别效果。针对冗余属性投影,本文分析了冗余属性投影和基线系统之间的关 联,提出了一种介于两者之间的差异补偿沉余属性投影( v c - n a p ) 系统,该系统实现 了一种可调的信道补偿,避免了因完全的n a p 所带来的补偿误差,实验证明基于 v c - - n a p 的系统比基于n a p 的系统的识别效果要好。 关键词:耳语音:说话人识别:因子分析;支持向量机;差异补偿 作者:袁磊 指导老师:赵鹤鸣 w h i s p e r e ds p e a k e rr e c o g n i t i o nb a s e d o n f a c t o r a n a l y s i sa n ds v m a b s t r a c t w h i s p e r e ds p e e c hh a sb e e nw i d e l yu s e di ns p e e c hc o m m u n i c a t i o ni np u b l i c , i d e n t i f i c a t i o n ,t e l e p h o n en e t w o r kq u e r ya n dt e l e p h o n eb a n k i n g ,e t c a sar e s u l t ,m o r e a t t e n t i o nh a sb e e np a i dt ot h ew h i s p e r e ds p e a k e r r e c o g n i t i o n d u et ot h es p e c i a lw a yo fw h i s p e r i n g p r o n u n c i a t i o n ,w h i s p e r e ds p e e c hs p e a k e r r e c o g n i t i o ni ss e r i o u s l ya f f e c t e db yt h es p e a k e r sh e a l t hs t a t u s ,p s y c h o l o g i c a lc h a n g e ,t h e p r o n u n c i a t i o no fs t a t u sa n dc h a n n e le n v i r o n m e n tf a c t o r s s p e a k e rr e c o g n i t i o ns y s t e mb a s e d o nn o r m a ls p e e c hi sn o ts u i t a b l et ow h i s p e r e ds p e e c h j o i n tf a c t o ra n a l y s i s ( j f a ) h a sg o t9 0 0 dr e c o g n i t i o na c c u r a c yi nw h i s p e r e ds p e a k e r r e c o g n i t i o nu n d e rm i s m a t c hc h a n n e le n v i r o n m e n t ,w h i c hc a ns e p a r a t es p e a k e ra n dc h a n n e l i n f o r m a t i o ni nm o d e ld o m a i nt oe n g a g ei nc h a n n e lc o m p e n s a t i o n t h i sp a p e ra d o p t so n e p a r to fj f a ,o n l ye s t i m a t e ss p e a k e rs p a c e ,e x t r a c t si n t e r n a ls p e a k e rf a c t o ra n dc o m b i n e s s p e a k e rf a c t o rw i t hs u p p o r tv e c t o rm a c h i n e ( s v m ) t of o r maf a c t o ra n a l y s i s - s u p p o r tv e c t o r m a c h i n e ( f a - s v m ) w h i s p e r e ds p e e c hs p e a k e rr e c o g n i t i o ns y s t e m t h i s p a p e r a d d sc l a s sc o v a r i a n c en o r m a l i z a t i o n ( w c c n ) ,l i n e a rd i s c r i m i n a n t a n a l y s i s ( l d a ) a n dn u i s a n c ea t t r i b u t ep r o j e c t i o n ( n a p ) t ot h eb a s i so fs y s t e m t h es p e a k e r f a c t o r sw h i c ha r ep r o c e s s e db yt h r e ek i n d sc h a n n e lc o m p e n s a t i o nt e c h n i q u ea r ei n p u ti n t o t h es v ms y s t e m t h er e s u l tp r o v e st h a tt h es y s t e mt h a tu s e sc h a n n e lc o m p e n s a t i o nh a s b e t t e rr e c o g n i t i o nr e s u l tt h a nb a s e l i n es y s t e m b e c a u s eo ft h ep r o b l e mt h a ts p e a k e rf a c t o rs t i l li n c l u d e sc h a n n e li n f o r m a t i o n ,t h i s p a p e rm a k e sc o r r e s p o n d i n gi m p r o v e m e n to nt h ea b o v em e t h o d s f o rw i t h i nc l a s s c o v a r i a n c en o r m a l i z a t i o n ,t h ep a p e rr e p l a c e st h eo r i g i n a lm a t r i xw i t hs m o o t hn o r m a l i z a t i o n m a t t i x f o rn u i s a n c ea t t r i b u t ep r o j e c t i o n , t h ep a p e ra n a l y z e st h er e l a t i o n s h i pb e t w e e nn a p a n db a s e l i n e s y s t e m , a n dp r o p o s e s av a r i a b i l i t y c o m p e n s a t i o n - n u i s a n c e a t t r i b u t e p r o j e c t i o n ( v c n a p ) s y s t e m i nb e t w e e n t h i s s y s t e m r e a l i z e sat u n a b l ec h a n n e l c o m p e n s a t i o nw h i c hc o u l da v o i dt h ec h a n n e lc o m p e n s a t i o ne r r o rc a u s e db yw h o l en a p t h ee x p e r i m e n tp r o v e st h a tt h i st h e o r yi sc o r r e c ta n d g e t sb e t t e rr e s u l tt h a nn a p k e y w o r d s :w h i s p e r e ds p e e c h ;s p e a k e rr e c o g n i t i o n ;f a c t o ra n a l y s i s ;s u p p o r tv e c t o r m a c h i n e ;v a r i a b i l i t yc o m p e n s a t i o n m w r i t t e nb y :l e iy u a n s u p e r v i s e db y :h e m i n gz h a o 目录 第一章绪论:1 1 1 研究背景l 1 2 耳语音研究现状2 1 2 1 耳语音的研究2 1 2 2 说话人识别的研究3 1 2 3 说话人识别的关键问题4 1 2 4 耳语说话人识别的研究5 1 2 5 本文的数据库6 1 3 本课题研究的主要工作6 1 4 论文的结构安排8 第二章耳语音的特征参数9 2 1 语音信号产生的数学模型9 2 2 线性预测系数( l p c ) l l 2 3 美尔倒谱系数( m f c c ) 的提取1 3 2 4 耳语音特征参数的分析1 6 2 5m f c c 修正参数1 6 2 6 本文采用的特征参数1 8 第三章基于s v m - - f a 的说话人识别系统1 9 3 1 支持向量机( s v m ) 1 9 3 2 传统的说话人识别模型2 3 3 2 1v q 说话人模型2 3 3 2 2 隐马尔可夫模型2 4 3 2 3 高斯混合模型2 6 3 2 4 通用背景模型3 0 3 3 联合因子分析。3 0 3 3 1 g m m 均值超向量3 0 3 3 2 联合因子分析简述3 l 3 3 3 简化的因子分析过程3 2 3 4 系统的总体流程。3 3 第四章信道补偿技术在s v m - f a 系统中的应用。3 6 4 1 类内协方差规整( w c c n ) 3 6 4 2 线性判别分析( l d a ) 3 7 4 3 冗余属性投影( n a p ) 3 8 4 4 差异化补偿的冗余属性投影( v c - - n a p ) 4 0 4 5 实验配置4 3 4 5 1 联合因子分析简述4 3 4 5 2f a _ s v m 训练集和测试集4 3 4 6 实验结果和分析4 4 第五章总结与展望5 2 5 1 论文工作总结5 2 5 2 今后研究展望5 2 参考文献5 3 攻读硕士学位期间公开发表的论文一5 7 致j 射5 8 缩略语中英文注释对照表 a n n 人工神经网络 d t w 动态时间规整 f a 因子分析 e m 期望最大 g m m 高斯混合模型 h m m 隐马尔科夫模型 j f a 联合因子分析 l d a 线性判别分析 l p c 线性预测系数 l p c c 线性预测倒谱系数 m a p 最大后验概率 m f c c 美尔频率倒谱系数 n a p 冗余属性投影 p c a 主成分分析 q p 二次规划 s v m 支持向量机 u b m 通用背景模型 v c - n a p 差异补偿玩余属性投影 v q 矢量量化 w c c n 类内协方差规整 a r t i f i c i a ln e u r a ln e t w o r k s d y n a m i ct i m ew a r p i n g f a c t o ra n a l y s i s e x p e c t a t i o nm a x i m u m g a u s s i a nm i x t u r em o d e l h i d d e nm a r k o vm o d e l j o i n tf a c t o ra n a l y s i s l i n e a rd i s c r i m i n a n ta n a l y s i s l i n e a rp r e d i c t i o nc o e f f i c i e n t l i n e a rp r e d i c t i o nc e p s t r a lc o e f f i c i e n t s m a x i m u map o s t e r i o r i m e lf r e q u e n c yc e p s t r a lc o e f f i c i e n t s n u i s a n c ea t t r i b u t ep r o j e c t i o n p r i n c i p a lc o m p o n e n ta n a l y s i s q u a d r a t i cp r o g a m m i n g s u p p o r tv e c t o rm a c h i n e u n i v e r s a lb a c k g r o u n dm o d e l v a r i a b i l i t yc o m p e n s a t i o nn a p v e c t o rq u a n t i z a t i o n w i t h i nc l a s sc o v a r i a n c en o r m a l i z a t i o n 基十【大1 了分析和支持向量机的耳语说话人识另u 第一章绪论 1 1 研究背景 第一章绪论 语音是人与人之间进行沟通交流最自然、最直接的方式之一。人类的语音信号中 包含着非常丰富的信息,从语音学和社会学的角度来看,语音信号本身不仅包含了语 言学的信息( 比如说讲的什么内容,用什么语言讲的) ,还包括了说话人本身的特征 ( 如说话人的性别、年龄以及讲话时的心理状态等) 。从语音感知的角度来看,语音 信号中还包含着语音产生时所受到的外界影响以及传输信道环境等方面的信息。奇妙 的是,人类的大脑能够从信息量庞大而又复杂的语音信号中很容易的提取出自身感兴 趣的信息。由于人类大脑对语言信号超强的处理能力,越来越多的科学家投入到智能 语音信号领域的研究,希望从中发现人脑处理语音信号的机理,并研发出能够模拟这 种机理的系统,使得机器听懂人类说的话成为可能,从而为人类造福。 2 0 世纪以来,从第一台计算机诞生起,计算机和与之相应的网络信息技术的发展 同新月异,人们获得各种信息的途径越来越多。在人们方便快捷的获取信息的同时, 个人隐私信息被窃取现象越来越严重。为保护个人的隐私不被不法分子获取,各种各 样的身份认证技术丌始被社会各界重视并同渐发展成熟,比如指纹识别、声音识别、 人脸识别等技术。在一些涉及安全保密的场所,人脸和指纹识别系统已经得到了较为 成功的应用。美中不足的是一些识别技术需要复杂的硬件设备支持,而且操作的人机 界面非常繁琐。随着伪装技术的不断兴起,人脸以及虹膜特征很容易被模仿,使得人 脸和指纹识别等认证技术存在着很大的安全漏洞。入的语音本身所具有的动态变化 件、特征难模仿等优撒特件仲得说话人的语音币适合用作自动身份认讦的载体。 现阶段,说话人识别应用领域j 下在不断扩大,比如:( 1 ) 机密场所的门禁系统, 可以在证件中嵌入含有某人声纹特征的信息,例如信用卡、银行a t m 自动取款机、防 盗门、汽车的钥匙卡,设置使用权限的电脑、声纹锁以及特殊关道口的身份卡。( 2 ) 在 互联网应用及通信领域,诸如声音拨号、电话银行、电话购物、数据库访问、信息服 务、语音电子邮件、安全控制、计算机远程登录等领域都可以使用得到说话人识别技 术。( 3 ) 在银行、证券等金融等网上支付领域。目前网络银行、网上购物、远程炒股 l 第一章绪论基于因子分析和支持向量机的耳语说话人识别 等业务应用越来越广泛,如果这些业务单单使用密码验证的方式,由于网络上层出不 穷的木马和病毒,个人金融密码被窃取的情况越来越严重,使用密码验证的安全性令 人担忧。如果在认证的时候同时采用说话人识别技术和手动密码这两种方式,就能较 为有效的防止信息被复制和剽窃。( 4 ) 在公安和司法领域里,说话人识别技术能够提 供身份确认的证据。对于使用电话作为作案工具的案件,采用声纹识别技术能够在某 一段特定的录音中查找出嫌疑人,从而缩小对嫌疑人侦查的范围,提高破案效率。( 5 ) 在军事领域,运用声纹识别技术能够准确判断出在电话交谈的过程中关键说话人是否 出现,继而有针对性的监听电话中的内容。比如应用声纹识别技术对国际恐怖主义相 关信息进行监控,从各种通信中发现有价值的迹象和情报,搜索关键恐怖分子的行踪, 阻止恐怖事件的发生,保护国家的安全。 1 2 耳语音研究现状 1 2 1 耳语音的研究 耳语音的发音类型是单一的,发耳语音时声门的前部完全靠拢,后部会形成一个 宽三角裂隙。气流通过丌放区时产生摩擦噪声,从而形成耳语音l i j 。耳语音和气声不 同之处在于,耳语发音时喉紧闭,声门部分关闭,因此气体体积速度比较大,所以声 音就比较轻微。耳语音最主要的特征是声带不振动,没有基频,声级低。 虽然语音学是门很古老的学科,但是对于耳语音的研究目前来说相对较少,随着 信号处理技术的不断发展,耳语音的研究进入了一个新阶段,这个领域越来越受到国 内外的重视。国外从事耳语音领域研究的单位有:美国乔治亚州科技学院语音与图像 分析处理研究所m o r r i s 博士进行的耳语音识别的研究 2 1 1 3 1 ;同本名古屋大学声学研究 中心进行的耳语音声学特性分析研究f 4 j f 5 l ;英国爱丁堡大学语音研究中心从事的关于 耳语音声学性质方面的研究【6 】;加拿大维多利亚大学语音研究所m g a o 教授专门针对 耳语音中声调感知方面的研究 7 1 :英国牛津大学c o l e m a n 教授领衔的课题组进行的关 于耳语音发音时喉部运动与说话人语调两者之间关系的研究【8 l ;中国南京大学声学研 究中心进行的在公共场合使用手机通话如何降低语音噪声的研究【9 l f l o i l l l l ;苏州大学语 音研究所承担的国家自然基金项目实现耳语音和正常语音之间的转换【1 2 】【1 3 】,目前提出 2 摹子冈了分析和支持向量机的耳语说话人识别第一章绪论 了完整的汉语耳语音转换为正常音的整体方案,还有“基于j f a 耳语说话方式下的说 话人识别研究【1 4 】【1 5 】的国家项目,主要从特征和模型这两个方面来研究复杂信道环境 下的耳语音说话人识别。东南大学在耳语音情感分析方面丌展的研究,目的是深层次 挖掘耳语音的特性【16 1 ,南开大学目前j 下在开展的伪装语音的声学研究也同样涉及到耳 语音分析。 1 2 2 说话人识别的研究 说话人识别的研究是从2 0 世纪3 0 年代开始的【1 刀。1 9 4 5 年,b e l l 实验室的l g k e s t a 用目视观察语谱图的方法进行匹配,提出“声纹”( v o i c e p r i n t ) 的概念。1 9 6 2 年底, b e l l 实验室的s p r u z a n s k y 根据模板匹配原则在说话人识别中引入三维语谱图( 时间一 频率- 胄皂量) 。1 9 6 4 年,p r u z a n s k y & m a t h e w s 将统计方差模型分析方法运用到说话人识 别研究中,并提出判断说话人特征参数是否有效的f 比值公式。在这之后,随着计算 机技术和电子技术和的迅猛发展,机器自动识别人的声音成为现实。 说话人识别最初的研究主要是对反映说话人特性的特征参数进行提取、筛选和处 理。2 0 世纪6 0 年代l u c kj e 提出了倒谱( c e p s t r u m ) 分析方法,并将此方法应用于说话 人识别中,取得了较好的识别效果。在此基础上,b sa t a l 对倒谱分析法进行改进,提 出了线性预测倒谱系数( l p c c ) ,进一步提高了识别系统的j 下确率。s t e v e nb d a v i s 最 早提出了美尔频率轴的概念,并推导出了美尔频率倒谱系数( m f c c ) 。m f c c 由于考 虑到了人耳对不同频带的信号感应程度不同,具有较好的识别效果和噪声鲁棒性,因 此成为了说话人识别中使用的主流参数,并沿用至今。 2 0 世纪8 0 年代以来,说话人识别的重点转向模型建立以及匹配方法上,如动态 时间规整( d t w ) 、主成分分析( p c a ) 、矢量量化( v q ) 、隐马尔可夫模型( h m m ) 、高斯 混合模型( g m m ) 、人工神经网络( a n n ) 方法以及这些方法的融合技术等。 进入2 0 世纪9 0 年代以后,特别是r e y n o l d s 详尽地介绍了高斯混合模型( g m m ) 【1 明 和通用背景模型( u b m ) t 1 9 l ,g m m 模型以其简单、灵活、有效及较强的鲁棒性,迅速 成为与文本无关的说话人识别中的主流技术,将说话人识别研究带入一个新的阶段。 2 0 0 0 年左右,r e y n o l d s 在说话人确认识别中提出了u b m - m a p 结构,为说话人识别 从实验室走向实用做出了重要贡献,n i s t 说话人评测任务大多以此为蓝本进行评测。 3 第一章绪论 基于凶了分析和支持向量机的耳语说话人识别 u b m - - m a p 的特点在于只要能够获得好的通用背景模型,就能够降低统计模型 g m m 对训练集的依赖,并且说话人模型训练仅仅需要少量的自适应语料,加强了对 训练条件和测试条件失配的鲁棒性。 目前,新的说话人识别技术层出不穷,如说话人识别评分规整技术h n o r m l l 9 1 、 z n o r m l 2 4 1 和t n o r m i 2 5 1 ,大词表连续语音识另i j ( l v c s r ) 技术、语音信号中高层次信 息的应用【2 3 1 、g m m 和支持向量机( s v m ) i 拘结合【2 l 】【2 2 1 、潜在因子分析( l f a ) t 2 6 1 ,针对 信道不匹配问题提出的特征映射2 8 i f f e a t u r em a o o i m z ) 和说话人模型合成1 2 7 1 ( s m s ) 技 术等,近几年最新提出的联合因子分析2 9 i ( j o i n tf a c t o ra n a l y s i s ) 方法和本征信道 t a o l ( e i g e n c h a n n e l ) ,后者主要应用于信道不匹配的情况,其识别性能已得到了各家研 究机构的认同。 目前说话人识别所处理的语音已经从小规模语料库、文本相关、干净语音发展到 现在的大规模语料库、文本内容不相关以及真实环境里( 如信道失配情况) 的语音。 经过几十年的研究,说话人识别的理论研究成果已经成功转化为很多商用产品。如 a t & t 公司应用声纹识别技术研制出了智慧卡( s m a r tc a r d ) ,已经成功应用到银行自动 提款机中。欧洲电信联盟将声纹识别技术应用在电信与金融结合领域,完成了c a v e 计划,并启动p i c a s s o 计划,目标在电信网上完成声纹的识别。此外还有k e y w a r e t e c h n o l o g i e s 公司的v o i c eg u a r d i a n ,i m a g i n en a t i o n 公司的v o i c ea c t i v a t e du n l o c k t e c h n o l o g y 和r r ri n d u s t r i e s 公司的s p e a k e r k e y ,s 2s e c u r i t ys e r v e r ,t - n e t i x 公司的 s p e a k e r e z 等产品1 3 1 1 。国内的说话人识别虽然在2 0 世纪9 0 年代刚刚起步,但也已经 开发了一些产品包括言丰- 声纹识别器、得意声纹识别引擎、模识p a t t e ka s r 3 0 t s p 说话人识别、北极星声纹识别技术、中科信利说话人识别引擎( t s i e ) 等。 1 2 3 说话人识别的关键问题 含噪信道干扰问题:说话人识别的“噪声”是指广义上的噪声,即各种声音传输 信道的干扰,如移动电话、固定电话等不同通讯设备之间信道的不同会使得信号传输 受到影响。此外因为说话人心理、年龄、情绪等的变化或者波动使得说话人语音特性 产生暂时漂移等。这些因素的存在会引起训练和测试数据的环境发生不匹配,从而迅 速降低模型的区分能力,降低系统的识别性能。因此,在区分性模型训练过程中,如 4 基于闶了分析和支持向量机的耳语说话人识另第一章 绪论 何消除“噪声”的混淆和干扰,提升分类器输入样本的区分纯度是一个重要的技术难 题,目前为止很多机构都投入了大量的精力来研究这个问题。 语音信号源本身的区分性特征挖掘:目前说话人识别使用的主流特征参数几乎都 是在语音识别中使用的特征参数,这些特征参数大多并不是针对说话人分类的目标而 提出的。包含信息量最大的载体无疑是信号源,反映话者个性的关键因素几乎都在信 号源中,如何最大限度的挖掘信号源本身的这些区分度信息是说话人识别应用中需要 持续深入研究的关键问题。 子系统之l 日j 的互补信息充分利用问题1 3 2 1 :随着说话入识别系统的同益成熟,各种 各样的分类器层出不穷,研究者为了追求更好的分类性能,分别从不同特征层面和不 同的角度构建各种不同的子系统,并将这些子系统融合起来以充分结合各自的优点达 到提升系统整体性能的目的。然而,由于目前的技术对语音的高层特征还难以精确提 取,因此如果直接采取简单线性的方式将基于韵律高层特征的子系统和已经相当成熟 的基于底层声学特征参数系统组合在一起,往往都达不到我们的预期效果,相反有时 可能起到负面作用。因此,如何充分挖掘底层子系统和上层子系统之间的相互信息以 提高目标说话者模型的识别率,这个关键问题同益成为研究的重点方向。 1 2 4 耳语说话人识别的研究 耳语最基本的特点:声带不振动,没有基频,声级低。所以耳语的说话人识别率 和j 下常音相比有所下降。在语音识别中,耳语识别也异于正常音识别。一般在训练和 识别过程中,采用耳语音训练、耳语音识别。卡内基梅隆大学的q i nj i n 等人1 3 3 】,使 用喉麦( t h r o a tm i c ) 来提高系统对噪声的鲁棒性,在噪声较高的情况下仍可以达到较好 的识别率。 耳语音的说话人识别主要受到以下因素的制约: 1 耳语发声时声带不振动,没有基频。正常音基频中包含了说话人的很多信息, 在噪声和信道失真的情况下仍然具有稳健性。而耳语音中没有基频部分,因此其识别 就失去了一个重要的特征,这也是耳语音识别率下降的主要原因。在没有基频的情况 下,我们可以尝试寻找出频谱中被基频掩蔽的那部分信息,通过找出的这部分信息来 补全一个说话人的特征。 5 第一章绪论基于冈子分析和支持向量机的耳语说话人识别 2 耳语的共振峰相对于正常语音向高频偏移,而且带宽变长。在没有基频的条件 下,共振峰是一个很重要的说话人特征。因为耳语的共振峰向高频漂移,因此在特 征设计的过程中,可以考虑降低低频的权重,提高高频的权重,以达到改善识别效 果的目的。 3 耳语音是送气发音,能量较小,声级较低,信噪比偏低。由于耳语音不同于正 常音,它的激励源不是周期性的谐波,而是类似噪声的激励源,这样的音源自然信 噪比较低,会对识别效果产生影响。 1 2 5 本文的数据库 本文所有的实验结果都是基于苏州大学电子信息学院语音研究所录制的耳语音 数据库【蚓之上的。下面简明介绍数据库的情况。 语音数据库由1 0 0 名不同的说话人的耳语音组成,其中女性2 0 人,男性8 0 人, 被录音者分别在8 种不同的通话信道环境下采用耳语发音方式说话,每段录音时长为 9 0 s ,一共录有8 0 0 段。 录音选择在安静环境下进行,设备主要是装有c o o le d i t 软件的笔记本电脑,采 样频率为8 k h z ,采样精度为1 6 b i t 。 为保证文本无关性,实验中测试语音段选取每一段耳语音的后半部分,其他剩余 的部分作为训练语音段。具体测试方法在第四章详细讲述。 8 种信道类型的标注分别表示为:桌置麦克风d t ( d e s kt o p ) ,手持式麦克风 h h ( h a n dh o l d ) ,手机通讯信道m c ( m o b i l ec o m m u n i c a t i o n ) ,耳塞式麦克风 e p ( e a r p l u g ) ,头戴式麦克风w e ( w e a r ) ,手机信道m o ( m o b i l ep h o n e ) ,录音笔 r p l ( r e c o r dp e n ) ,录音笔+ 手持式麦克风r p 2 ( r e c o r dp e n + h a n dh o l d ) 。 1 3 本课题研究的主要工作 目前耳语发音下的说话人识别受说话人和信道环境两种因素的影响非常大,现阶 段已有的自适应补偿方法并没有将这两种因素区分开来,使得识别效果不理想,文献 【1 5 】中的实验证明了这一点。针对这一问题需要新的建模方法。 6 基于冈了分析和支持向量机的耳语说话人识别第一章绪论 目前广泛应用的基于g m m 模型的说话人识别系统中,以下两种情况对识别效果 影响较大:一是通话信道及环境的多样性和随机性:二是说话人每次发音的差异性。 在耳语发音方式下这两个问题尤为突出。传统的g m m 模型不能够很好地处理这两个 问题。 本文提出因子分析( f a ) 和支持向量机( s v m ) 结合的方法来解决上述两个问题。该 方法中的因子分析法是从联合因子分析( j f a ) 演变出来的,针对耳语音说话人识别的特 点将通话信道环境变化因子和说话人自身变化因子引入j f a 系统中( 分别简称信道因 子和说话人因子) 。外界环境以及通话信道变化等因素主要由信道因子反映;说话入 耳语发音时的健康状况以及心理状态变化等因素主要由说话人因子体现。目前j f a 模 型能够很好地处理不匹配信道下耳语音的说话人识别,而且提高的效果明显。为了探 究j f a 模型中说话人因子的具体作用,本文将因子分析和支持向量机( s v m ) 结合起来, 深层次挖掘说话人因子的特性。 为了能在不同信道环境下有效的辨认耳语音说话人,提高识别效果,本文主要做 了以下三方面的工作: ( 1 ) 首先简要介绍了支持向量机( s v m ) 的基本原理,主要分为硬分类和软分类两 种情况,并且给出了该模型相应的推导算法和常用的核函数。然后介绍了联合因子分 析( j f a ) 的基本框架,着重讲述了说话人空间的估计过程。 ( 2 ) 构建了因子分析( f a ) 和支持向量机( s v m ) 结合的系统,该系统分别在8 种不 同的信道环境情况下分别进行l s ,2 s 和6 s 测试,实验证明,采用说话人因子作为新 的说话人特征能够有效的辨认说话人。但是由于说话人空间是分开估计的,所以说话 人因子必然包含着冗余因素,因此又采取了类内协方差规整( w c c n ) ,线性判别分析 ( l d a ) 和冗余属性投影( n a p ) 这三种信道补偿手段进行处理,实验结果显示这三种方 法均取得了比传统线性核要好的识别结果,而且提高的幅度明显。 ( 3 ) 针对w c c n 和n a p 这两种信道补偿方式的不足,本文对这两种补偿技术做 了相应的改进。对于w c c n ,将平滑过后的类内协方差规整矩阵取代原来的矩阵。 对于n a p ,本文分析了n a p 和传统的线性核之间的关系,考虑到用n a p 完全去除 说话人因子内部所包含的冗余实际上是不太可能达到的,因此提出了一种介于n a p 和传统线性核之间的差异补偿法,实验结果证明该方法的识别率能在n a p 的基础上 7 第一章绪论基于因子分析和支持向量机的耳语说话人识别 有所提高。 1 4 论文的结构安排 特征参数和识别模型是进行耳语音说话人识别处理过程中必须要解决的两个重 要问题。本文研究的主要目标是建立合适的模型识别方法来提高文本无关条件下耳语 音说话人识别率。文中选取m f c c 和它的一阶差分参数作为特征参数;并在因子分 析( f a ) 方法的基础上建立识别模型。本文的内容架构如下: 第一章,绪论。阐明了耳语音说话人识别的研究意义,介绍了耳语音的概念和研 究现状,此外还介绍了本实验运用的耳语音数据库。 第二章,耳语音的特征参数。简要介绍说话人识别中常用的语音声学特征参数及 其提取方法,分析了耳语音的特点,对比了耳语音与正常语音信号产生的数学模型。 第三章,分两部分介绍联合因子分析( j f a ) 和支持向量机( s v m ) 。支持向量机主 要讲述了它的基本推导过程,联合因子分析介绍了其基本的构造,详细给出了说话人 空间的估计过程,并给出了s v m 和因子分析( f a c t o r a n a l y s i s ) 结合的基本框架。 第四章,运用上一章建立的系统,分别对8 种不同的信道进行耳语说话人识别。实验 证明,该模型在信道失配的情况下能够有效地辨认耳语音说话人,识别j 下确率有了明 显的提高。在此基础上分别采用类内协方差规整,线性判别分析,冗余属性投影这三 种方法对说话人因子进行信道补偿。针对w c c n 和n a p 在信道补偿方面的不足, 分别做出相应的改进。其中,w c c n 采用了平滑过后的类内协方差规整矩阵,n a p 采用了差异化补偿( v a r i a b i l i t yc o m p e n s a t i o nn a p ) 方法,实验结果显示识别j 下确率在 原有的基础上都获得了提高。 第五章,总结与展望。总结全文,提出本文存在的问题及今后的研究方向。 8 基于i 大1 了分析和支持向量机的耳语说话人识别第二章耳语音的特征参数 第二章耳语音的特征参数 构建一个耳语说话人识别系统的首要任务是要提取出耳语信号的特征参数,然后 根据这些参数建立相应的模型。耳语的声学特性不同于正常音,它没有基频、激励源 是噪声、能量低、共振峰向高频偏移,其中的每一条都可以影响到耳语音的说话人识 别,导致识别率的下降。本章首先描述了正常音语音信号的产生机理以及常用的 l p c c 参数,m f c c 参数,然后分析耳语音的特点及其特征参数。 2 1 语音信号产生的数学模型 产生语音信号的数学模型【3 5 1 ,该模型的基础是人的语音产生的机理和发音器官的 特点。只要能建立语音信号这一套数学模型,计算机就能够用定量的参数对语音信号 进行处理和模拟,通过这个模型模拟人的发音过程,因此如何建立语音信号的数学模 型是整个语音信号处理的基础。 从人的发音器官的构造来看,发不同种类的音素时,声道的形状是不同的。另外, 声道和声门的相互连接,还会形成语音信号的非线性特性。所以,语音信号总体来说 是非平稳随机过程,其特征分布是随着时间变化的,模型中的参数也是随时问而变化 的。然而,语音信号有其短时的平稳特性,在短时间内可以认为其特性保持不变,所 以可将语音信号分为一些连续的短段,即术语所说的语音分帧处理。在这些语音帧中 可以假设语音信号的特征分布是一种不随着时间的变化而变化的平稳随机过程。这 样,在这些语音帧时间内可以采用线性时不变系统来分析处理语音信号。 根据上面对语音产生机理和发音器官的分析,可以将语音的产生过程分成三个部 分,第一部分在声门( 声带) 以下,这一块区域专门负责产生激励源信号,是“激励系 统 ,又称声门系统;第二部分是声道,位置是从声f - i n 嘴唇的呼气通道,是“声道 系统 ,声音在声道里面进行传播;第三部分,语音是从嘴唇部位辐射出去,所以嘴 唇以外是“辐射系统 。下面分别讨论语音产生过程的这三个模型,然后再根据信号 系统的原理推导出数学模型公式。 激励模型一般可以分为浊音激励和清音激励这两类。发浊音时,由于声带的不断 9 第二章耳语音的特征参数 基于冈子分析和支持向量机的耳语说话人识别 振动,造成声门的打开和关闭,从而产生不间断的斜三角脉冲波,所以浊音激励源是 一个以基音周期为间隔的斜三角形脉冲串。发清音时,不管是发摩擦音或阻塞音,声 门关闭,气流被阻碍而形成湍流,因此,可把清音激励认作是随机白噪声。 有两种建模方法来描述声道模型。一种是把声道当作为一个谐振腔,即“共振峰 模型;另一种方法是把声道比作由多个等长的不同横截面积的管子串接形成的系统, 即“声管模型。 速度波从声道模型输出,声压波从辐射模型所输出,速度波和声压波之间的倒比 值称为辐射阻抗。它表征的是嘴唇的辐射效应以及圆形的头部的绕射效应等。如果认 为头部的表面积远大于口唇张开的面积,这种情况可近似地看成平板开槽辐射。辐射 阻抗的实部正比于辐射引起的能量损耗,所以辐射模型是一阶高通滤波器。因此,在 实际语音信号处理时,“预加重技术是一种有效的预处理手段,即在语音信号取样 之后,插入一个一阶的高通滤波器,这样就能提升语音的高频部分,便于声道的完整 参数分析。 基于上面的分析,可以用三个子模型串联起来完整的描述语音信号数学模型:分 别为激励模型u ( z ) 、声道模型v ( z ) 和辐射模型r ( z ) ,如图2 - 1 所示。该数学模型可以 表示为如式( 2 一1 ) 所示的传输函数h ( z ) :

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论