(信息与通信工程专业论文)噪声环境下说话人识别算法研究.pdf_第1页
(信息与通信工程专业论文)噪声环境下说话人识别算法研究.pdf_第2页
(信息与通信工程专业论文)噪声环境下说话人识别算法研究.pdf_第3页
(信息与通信工程专业论文)噪声环境下说话人识别算法研究.pdf_第4页
(信息与通信工程专业论文)噪声环境下说话人识别算法研究.pdf_第5页
已阅读5页,还剩90页未读 继续免费阅读

(信息与通信工程专业论文)噪声环境下说话人识别算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

独创性声明 1 i i i i l lii i ii i i i l l l l l l l l i1 1 1iii y 17 8 8 5 8 2 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名省大记 关于论文使用授权的说明 日期:竺坐 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:省士记导师签名 缝始嗍竺缉 一 摘要 摘要 说话人识别系统在噪声环境下的鲁棒性是关系到说话人识别能否走向完全 实用化的关键,也是当前说话人识别技术研究的热点和难点。噪声鲁棒性问题的 根源为说话人识别训练和测试坏境之间的不匹配,而抗噪声说话人识别的目的就 是减小不匹配对识别系统造成的负面影响,在噪声环境下达到很好的识别性能。 现有的抗噪声说话人识别技术可以简单的归为基于信号空间的语音增强、基于特 征空间的鲁棒性特征参数提取及基于模型空间的模型补偿三类。本文主要针对加 性噪声的影响,在信号空间和特征空间对问题进行了深入的研究和探讨,提出了 几种新的抗噪声说话人识别技术。 首先,研究了基于信号空间的抗噪声说话人识别技术语音增强。语音增 强技术一般都作为预处理模块存在于说话人识别系统中,尽可能的将纯净语音送 入识别系统输入端,因此,无需改变现有的识别系统就能增强其鲁棒性。现有的 基于离散余弦变换的语音增强算法无法解决语音信息丢失与消除信号中的噪声 二者之间的矛盾,而本文提出的模拟人耳听觉选择性的基于离散余弦变换的动态 阈值语音增强算法很好的解决了这一问题,实现了低信噪比下语音增强的目的, 并且增强后的语音在时域和频域上失真度小,非常适用于抗噪声说话人识别系统 的前端处理器。 其次,研究了基于特征空间的抗噪声说话人识别技术具有鲁棒性的特征 参数提取。在实际应用中,这是说话人识别中最至关重要的一种技术,其目的是 从带噪语音信号中抽取简洁、有突出代表性的相关特征参数用于判别分析。本文 以m f c c 为基础,提出了两种改进策略:l 、根据语音信号的特性,应用d c t 提取刻画说话人声源特性的谱特征参数s s c 、s b e 等,与m f c c 组成混合特征 参数;2 、根据不同的信噪比及噪声背景下,噪声对语音信号的干扰各不相同, 从而应用f i s h e r 准则对声道特征参数m f c c 进行降维。 最后,研究了支持向量机中核函数对分类性能的影响。核函数是支持向量机 模型的核心机制,函数类型的选择和参数的确定对于分类的准确度至关重要。论 文阐述了核函数的基本理论,对目前常用的多项式核函数和径向基核函数进行了 仿真和分析,测试了它们在噪声环境下的系统识别率和稳健度,可作为一般应用 s v m 进行说话人识别问题选择核函数及核函数参数范围的依据。 关键词:说话人识别;语音增强;离散余弦变换;谱特征参数:支持向量机 a b s t r a c t a b s t r a c t r o b u s t n e s sf o rs p e a k e rr e c o g n i t i o ns y s t e mi nn o i s ye n v i r o n m e n ti st h ek e yo f s p e a k e rr e c o g n i t i o nu t i l i t y i ti sah o ts p o ta n dd i f f i c u l t yo ft h es p e a k e rr e c o g n i t i o n r e s e a r c hf i e l d t h er o o to ft h en o i s er o b u s t n e s sp r o b l e mc a nb ea t t r i b u t e dt ot h e s p e a k e rr e c o g n i t i o nt r a i n i n ga n dt e s t i n ge n v i r o n m e n td o e sn o tm a t c h n o i s er o b u s t s p e a k e rr e c o g n i t i o ni sd e s i g n e dt oe l i m i n a t en o i s ec a u s e db yt h et r a i n i n ge n v i r o n m e n t a n dt e s te n v i r o n m e n td o e sn o tm a t c h e x i s t i n ga n t i n o i s es p e a k e rr e c o g n i t i o n t e c h n o l o g yc a nb es i m p l yc l a s s i f i e da ss p e e c he n h a n c e m e n tb a s e do ns i g n a ls p a c e , r o b u s t n e s so ff e a t u r ee x t r a c t i o nb a s e do nf e a t u r es p a c e , a n dm o d e lc o m p e n s a t i o n b a s e do nm o d e ls p a c e t h ea r t i c l em a i n l yf o c u s e so nt h ei m p a c to fa d d i t i v en o i s e ,h a s c o n d u c t e dt h et h o r o u g hr e s e a r c ha n dt h ed i s c u s s i o nt oi nt h es i g n a ls p a c ea n df e a t u r e s p a c e t ot h e q u e s t i o n ,a n dp r o p o s e d s e v e r a lk i n do fn e wa n t i n o i s es p e a k e r r e c o g n i t i o n f i r s t ,ih a v es t u d i e dt h ea l g o r i t h mo fa n t i n o i s es p e a k e rr e c o g n i t i o nb a s e do n s i g n a ls p a c e s p e e c h e n h a n c e m e n t f o rr o b u s t s p e a k e rr e c o g n i t i o n , s p e e c h e n h a n c e m e n to f t e ne x i s t sa sap r e p r o c e s s o ra n dp r o d u c e sa na l m o s tc l e a ns p e e c h s i g n a lt ot h es y s t e m c o n s e q u e n t l y , i ti sn o tn e c e s s a r yt om a k ea n yc h a n g e si nt h e r e c o g n i t i o ns y s t e mt om a k ei tr o b u s t t h ee x i s t i n gs p e e c he n h a n c e m e n ta l g o r i t h m b a s e do nd c tc a nn o tr e s o l v et h ec o n t r a d i c t i o nb e t w e e nt h em i s s i n go fs p e e c h i n f o r m a t i o na n de l i m i n a t i n gt h en o i s ei n t h es i g n a l h o w e v e r , t h ea l g o r i t h mo f s i m u l a t i n gt h eh u m a n sa u d i t o r ys e l e c t i v ed y n a m i ct h r e s h o l ds p e e c he n h a n c e m e n t b a s e do nd c tc a ns o l v et h i sp r o b l e mw e l l ,a n da c h i e v i n gt h ep u r p o s eo fs p e e c h e n h a n c e m e n ti nl o ws n r f u r t h r e m o r e ,t h ed i s t o r t i o no ft h ee n h a n c e ds p e e c hi sl o w i nt h et i m ed o m a i na n df r e q u e n c yd o m a i n ,s o ,i ti si d e a lf o rt h ea n t i - n o i s es p e a k e r r e c o g n i t i o ns y s t e mt ob et h ef r o n t e n dp r o c e s s o r s e c o n d l y , ih a v es t u d i e dt h ea l g o r i t h mo fa n t i - n o i s es p e a k e rr e c o g n i t i o nb a s e do n f e a t u r es p a c e ,t h er o b u s tc h a r a c t e r i s t i cp a r a m e t e re x t r a c t i o n i nr e a lw o r l d ,i ti so n eo f t h em o s tc r u c i a li s s u e s i nt h ef i e l do fs p e a k e rr e c o g n i t i o na p p l i c a t i o n s i ta i m sa t f i n d i n gs u c c i n c t , s l i e n t ,a n dr e p r e s e n t a t i v er e l e v a n tc h a r a c t e r i s t i c sf r o mn o s ys p e e c h u t t e r a n c et od i s c r i m i n a t e i nt h i sp a p e r , ip r o p o s et w ok i n d so fi m p r o v e m e n ts t r a t e g i e s b a s e do nm f c c :1 a c c o r d i n gt ot h e c h a r a c t e r i s t i c so fs p e e c hs i g n a l ,e x t r a c tt h e s p e c t r a lf e a t u r e s ,s u c h a ss s c ,s b e ,e t c ,w h i c hc a nq u a n t i f ys o m eo ft h e c h a r a c t e r i s t i e so ft h ev o c a ls o u r c eu s i n gd c t , a n dc o m b i n e dw i t hm f c c 2 a c c o r d i n gt ot h en o i s ei sv a r i o u st ot h ei n t e r f e r e n c eo fs p e e c hs i g n a l ,t h u s ,c a r r yo n t h ed i m e n s i o n a l i t yr e d u c t i o nt om f c cu s i n gf i s h e rc r i t e r i o n f i n a l l y , ih a v es t u d i e dt h ee f f e c tt ot h ec l a s s i f i c a t i o np e r f o r m a n c eo fk e m e l i l l 北京工业大学工学硕士学位论文 f u n c t i o ni ns v m k e m e lf u n c t i o ni st h ec o r em e c h a n i s mi ns v m ,i ti se s s e n t i a lf o r t h ea c c u r a t yo fc l a s s i f i c a t i o nt ot h ec h o i c eo ff u n c t i o nt y p ea n dt h ed e c i s i o no f p a r a m e t e r s t h ea r t i c l ed e s c r i b e st h eb a s i ct h e o r yo fk e m e lf u n c t i o n ,a n dc a r r i e so n t h es i m u l a t i o na n da n a l y s i st ot h ec u r r e n tc o m m o n l yu s e dp o l y n o m i a la n dr b fk e m e l k u n c t i o n ,t e s t st h e i rr e c o g n i t i o nr a t ea n dr o b u s t n e s su n d e rn o i s ee n v i r o n m e n t t h e r e b y , i tc a nb es e r v e d 嬲t h eb a s i sf o rt h ec h o i c eo fk e m e lf u n c t i o na n dt h es c o p eo f p a r e m e t e r si ns p e a k e rr e c o g n i t i o nb a s e do ns v m k e y w o r d s :s p e a k e rr e c o g n i t i o n ;s p e e c he n h a n c e m e n t ;d c t ;s p e c t r a lf e a t u r e s ;s v m 2 1 引言9 2 2 语音信号处理基础9 2 2 1 语音信号产生的数字模型9 2 2 2 语音特性l0 2 2 3 噪声特性11 2 2 4 人耳的感知特性1 2 2 3 说话人识别基本理论1 3 2 3 1 说话人识别分类1 3 2 3 2 说话人识别系统结构1 4 2 4 噪声环境下说话人识别研究概述1 5 2 4 1 噪声对说话人识别的影响1 5 2 4 2 噪声环境下说话人识别研究内容1 6 2 4 3 噪声环境下说话人识别的基本方法17 2 5 本章小结2 2 第3 章基于语音增强的噪声环境下说话人识别2 5 3 1 引言2 5 3 2 语音增强效果的评价方法2 5 3 2 1 语音质量的主观评价方法2 5 3 2 2 语音质量的客观评价方法2 6 3 3 基于d c t 的语音增强理论一2 8 3 3 1 离散余弦变换定义2 8 3 3 2 噪声估计2 9 3 3 3 传统的基于d c t 阈值语音增强算法o 3 0 3 3 4 基于d c t 的动态阈值语音增强算法一3 2 3 4 实验结果及分析3 3 3 4 1 实验条件3 3 3 4 2 语音增强算法对加性噪声抑制效果比较3 4 3 4 3 端点检测实验结果3 9 3 4 4 语音增强应用于说话人识别算法实验结果4 0 3 5 本章小结4 2 北京t 业大学工学硕土:学位论文 第4 章基于鲁棒性特征参数提取的噪声环境下说话人识别4 3 4 1 引言4 3 4 2 声道特征参数提取4 3 4 2 1m f c c 特征参数提取4 4 4 2 2d e l t a 特征参数提取4 6 4 2 3m f c c 及其d e l t a 特征参数噪声鲁棒性分析4 6 4 3 声源特征参数提取4 9 4 3 1 谱特征参数提取4 9 4 3 2 谱特征参数噪声鲁棒性分析5 0 4 4 基于f i s h e r 准则的特征选取5 l 4 5 特征参数的组合方式5 3 4 6 实验结果及分析5 4 4 6 1m f c c + m f c c 与m f c cf + a m f c cf 的性能比较5 4 4 6 2 混合特征参数识别性能分析5 6 4 7 本章小结6 0 第5 章支持向量机中核函数对分类结果的影响6 1 5 1 弓l 言6 1 5 2 支持向量机基本理论6 l 5 2 1 统计学习理论一6 l 5 2 2v c 维理论6 2 5 2 3 经验风险最小化原则6 2 5 2 4 结构风险最小化原则:6 3 5 3 支持向量机方法6 3 5 4 核函数理论6 6 5 4 1 核函数定义6 6 5 4 2 核函数本质6 6 5 4 3 几种常见的核函数6 7 5 5 实验结果及分析6 8 5 5 1 径向基核函数中。对识别性能的影响6 8 5 5 2 多项式核函数中d 对识别性能的影响6 9 5 5 3 两种核函数最优识别性能对比6 9 5 6 本章小结7 1 结论7 3 参考文献7 5 攻读硕士学位期间所发表和递交的学术论文8l 攻读硕士学位期间参加的科研项目和获奖情况8 3 致 射8 5 v i 第1 章绪论 第1 章绪论 1 1 说话人识别研究背景和意义 语音是实现人们之间沟通交流的最直接与方便的手段,而实现计算机与人之 间畅通无阻的语音交流,一直是人类不懈追求的一个梦想,语音识别则是实现这 一梦想的关键性技术。语音识别是指计算机对人类语音进行正确响应的技术。广 义的语音识别( s p e e c hr e c o g n i t i o n ,s r ) 技术具体包括:语音识别( 识别说话内 容) 、说话人识别( 识别说话人是谁) 、语种识别( 识别说话语言种类) 、语音评 分( 评价发音的标准程度) 。 说话人识别( s p e a k e rr e c o g n i t i o n ,s r ) 又称声纹识别,属于生物认证技术的 一种,是项根据语音波形中反映说话人生理和行为特征的语音参数,自动识别 说话人身份的技术。说话人识别技术核心是通过预先录入说话人的声音样本,提一 取说话人独一无二的语音特征并保存在数据库中,应用时将待验证的声音与数据 库中的特征进行匹配,从而决定说话人的身份。说话人识别技术以其独特的方便 性、经济性和准确性受到世人瞩目。 语音中既包含说话人的生理特征,即先天器官的差异,又包含说话人的行为 特征,即后天的发音与言语习惯的特殊征象。说话人识别与语音识别之间有很大 的差别,前者从语音中提取说话人的信息,而不考虑其说话内容,提取的是说话 人的个性特征;后者从语音中提取说话的内容,并不考虑说话人是谁,提取的是 说话人的共性特征。说话人识别涉及说话人发音器官上的个体差异、发音声道之 间的个性差异、发音习惯之间的特性差异等,因此是一种交叉运用心理学、生理 学、语音信号处理、模式识别、统计学习理论和人工智能的综合性研究课题。 与其他生物认证技术如指纹识别、掌形识别、虹膜识别等一样,声纹识别又 不会遗失、无需记忆和使用方便等优点。在生物认证技术领域中,说话人识别技 术以其独特的方便性、经济性和准确性受到世人瞩目,并日益成为人们日常生活 和工作中重要且普及的安全验证方式。 在众多的生物认证技术中,说话人识别技术表现出很多应用上的优势。首先, 说话人识别有着先天的优点:以声音作为识别特征,因其非接触性和自然性,用 户容易接受:其次,说话人识别所用的设备成本很低。对输入设备如麦克风、电 话送话器等没有特别的要求。声音的采样与量化对芯片的要求也不高。特征提取、 模型训练和匹配只需普通计算机即可完成;再次,其他生物特征识别技术各有其 比较劣势。指纹识别技术虽然已经比较成熟,但用户的接受程度不高,人们经常 的研究已经越来越受到人们的重视,获得了计算机科学技术领域越来越广泛的关 注。 1 2 说话人识别的国内外研究历史及现状 随着社会、军事以及安全等领域需求的增长,美国、日本、欧洲等一些发达 国家都相继加强了说话人识别的研究工作,我国一些高校和研究机构也对说话人 识别进行了深入研究,并取得了一定的研究成果。 1 2 1 说话人识别技术研究历史 1 9 4 5 年b e l l 实验室的l g k e s m 目视观察语谱图匹配( s p e c t r o g r a m 2 第1 章绪论 m a t c h i n g ) ,提出了“声纹( v o i c e p r i n t ) ”的概念。1 9 6 2 年,l qk e s t a 第一次介 绍了采用上述方法进行说话人识别的可能性。早期的工作主要集中在人耳听辨 ( a u r a l ) 实验和探讨听音识别的可能性方面。随着研究手段和工具的改进,研究工 作逐渐脱离了单纯的入耳听辨。b e l l 实验室的s p r u z a n s k y 提出的基于模板匹配 r t e m p l a t em a t c h i n g ) 和统计方差分析的说话人识别方法,引起信号处理领域许多 学者的注意,掀起了说话人识别研究的一个高潮。其间的工作主要集中在各种识 别参数的提取、选择和实验上,包括从声学角度,对反映语音特征的物理参数的 提取方法进行研究。1 9 6 9 年l u c kj e 首先将倒谱( c e p s t r u m ) 技术用于说话人的识 别,得到了较好的结果。 从2 0 世纪7 0 年代至8 0 年代末,说话人识别的研究重点转向对各种声学参 数的线性或非线性处理以及新的模式匹配方法上。1 9 7 2 年,b s a t a l 用提取出的 基因轮廓进行说话人识别。将数字信号处理技术应用到语音信号处理上,人们提 取出了间接反映语音特征的参数,如线性预测系数( l i n e a rp r e d i c t i v ec o e f f i c i e n t s , l p c ) d 1 j 部分相关系数。接着,b sa t a l 将线性预测倒谱系数( l i n e a r p r e d i c t i v e c e p s t m mc o e f f i c i e n t s l p c c ) 用于说话人识别,提高了识别系统的精度h 1 。 d o d d i n g t o n 提出利用共振峰进行说话人确认。s t e v e nb d a v i s 最早提出了美尔倒 谱系数( m e lf r e q u e n c yc e p s t r a lc o e f f i c i e n t ,m f c c ) 的概念h 1 。m f c c 是将信号 的短时频谱,首先在频域将频率轴变为美尔倒谱刻度,再变换到倒谱域得到的。 m f c c 由于考虑到了人耳的听觉感知机理,具有较好的识别效果和噪声鲁棒性, 因此成为了说话人识别中使用的主流参数。此时,动态时间规整( d y n a m i c t i m e w a r p i n g ,d t w ) 值1 、矢量量化( v e c t o rq u a n t i z a t i o n , v q ) c 8 c 7 、隐马尔可夫模型 ( h i d d e nm a r k o vm o d e l h m m ) 喁1 、人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k , a n n ) 阳1 等技术也在说话人识别领域得到了广泛的应用,成为说话人识别的核心 技术。 进入2 0 世纪9 0 年代以后,特别是r e y n o l d s 对高斯混合模型( g a u s s i a nm i x t u r e m o d e l ,g m m ) 做了详尽的介绍后n0 1 ,g m m 以其简单、灵活、有效以及较好的鲁 棒性,迅速成为当今与文本无关的说话人识别中的主流技术,将说话人识别带到 了一个新的阶段。1 9 9 5 年以来,各种新的说话人识别技术层出不穷,如 g m m u b m 结构、大规模连续语音识另i ( l v c s r ) 应用于与文本无关的说话人识 别、s v m 和g m m 的结合n 、语音高层信息的探讨、新的特征参数的提取n 2 儿1 3 、 特征参数的组合n 5 1 6 1 以及针对通道失真问题的s m s ( s p e a k e rm o d e ls y n t h e s i s ) 技 术等。 北京丁业大学t 学硕十学位论文 1 2 2 噪声环境下说话人识别技术研究现状 近年来,抗噪声说话人识别研究逐渐成为热点,其中具有代表性的有:2 0 0 6 年,中科院的白俊梅等采用维纳滤波对语音信号进行前端处理,以m f c c 声道 特征结合基频凡韵律特征,来提高识别系统的鲁棒性n7 1 。2 0 0 9 年,为了解决通 道变化对说话人识别系统性能的影响,将最大后验概率方法应用到具体的通道补 偿中。实验结果表明,在l s 自适应数据时,该方法的识别率达到8 9 1 ,和倒 谱平均减方法相比识别率提高4 2 ,随着自适应数据的增加,采用该方法的系 统性能可进一步提高8 i 。2 0 0 9 年,王琳琳等以一个含有多种发音方式变化的数 据库为基础,对于不限定发音方式变化类型的情形,在分数域提出了一系列发音 方式分数规整( s n o r m ) 的解决方法。实验结果表明:s z n o r m 、s t - n o r m 、 s z t n o 肌的做法均使系统的整体性能在基线基础上有了明显提高n 引。2 0 0 7 年, m o r e n o d a n i e l a 等人提出了一种噪声环境下基于声学模型自适应方法的说话人 确认技术,与传统方法不同,这种算法是语音增强阶段完成的,称之为声学模型 增强( a m e ) ,采用t i m i t 语音库,在信噪比为5 d b 时,等误差率由4 7 降到 了5 啪1 。2 0 0 6 年,j i a - c h i n gw a n g 等人基于子空间感知信噪比增强技术,应用 概率支持向量机进行训练和识别,采用a u r o r a 2 语音库,获得了很好的效果 口。2 0 0 7 年,e 1 s o l h ,a 等人研究了两种基于语音增强的噪声环境下说话人识 别算法,分别为:改进的谱减法和感知小波增强技术,采用t i m i t 语音库,在 5 d b 汽车噪声背景下,说话人识别率分别达到了8 9 3 和9 1 4 陴1 。 综上所述,只是一些新的,具有代表性的算法。有关噪声环境下说话人识别 鲁棒性研究一直是国内外的研究热点,近年来,新技术、新算法层出不穷,这就 需要我们及时把握时代脉搏,紧跟技术前沿。另外,针对一些实用算法已经有一 些成型的产品出现,为我们日常生活造福。 1 2 3 噪声环境下说话人识别应用研究现状 经过4 0 多年的研究,说话人识别所处理的语音已经从小规模语料库( 包含 较少的说话人) 、干净语音和受限文本发展到今天的大规模语料库( 包含很多的 说话人) 、任意内容的文本以及各种真实环境下的语音。研究重点也从实验室系 统转移到实用系统。2 0 世纪8 0 年代以来,有很多商用的说话人识别系统产品问 世,如美国的h o m es h o p p i n gn e t w o r k ,同时采用与文本有关的说话人确认和语 音识别来进行基于电话语音的订货,目前已有4 5 0 0 0 0 个注册用户;苹果公司于 1 9 9 9 年1 0 月份在m a co s 9 中加入v o i c e p r i n tp a s s w o r d 功能,利用语音进行个人 计算机的使用控制;另外,a t & t 等公司都在开发新一代的v o i c e m a i l 的集成管 第l 章绪论 理系统( 如a t & t 的s c a n m a i l ) ,利用连续语音识别和说话人识别技术将音频 形式的语音邮件转换为文本,并自动识别发送人的名字,便于收信人浏览。此外 还有i m a g i n e n a t i o n 公司的v o i c e a c t i v a t e du n l o c kt e c h n o l o g y ,k e y w a r e t e c h n o l o g i e s 公司的v o i c e g u a r d i a n 和s 2s e c u r i t ys e r v e r ,i t ti n d u s t r y 公司的 s p e a k e r k e y ,t - n e t i x 公司的s p e a k e z 等产品3 1 。 我国自执行8 6 3 计划以来,对说话人识别技术的研究不断深入,研究水平已 经基本与国外同步。包括上海思壮信息技术有限公司的v i s 说话人分析鉴定系 统、中科院自动化所模式识别公司的p a t t e ks v 声纹识别产品、得意声纹识别 引擎、中科信利说话人识别引擎( t s i e ) 和北极星声纹识别技术等。 1 3 说话人识别技术难点 尽管目前针对某些说话人识别实用性算法已经开发出了一些相对成熟的产 品,但将该技术应用到日常生活中仍有很长的一段路要走,主要难点包括以下几 个方面: l 、语音信号特征中的说话人的个性特征难以分离和提取: 说话人识别的信息来源是说话人所说的话,其语音信号中既包含了说话人所 说话的内容信息,也包含了说话人的个性信息,是话音特征和说话人个性特征的 混合体。目前还没有很好的方法把说话人的个性特征和说话人的语音特征分离开 来。关于语音中语义内容和说话人个性的分离,系统全面地进行研究的人还很少。 现在语音内容和其声学特性的关系已经较明确,但是有关说话人个人特性和其语 音声学特性的关系还没有完全搞清楚。目前对于人是怎样通过语音来识别他人的 这一点尚无基本的了解,还不清楚究竟是何种语音特征( 或其变换) 能够唯一地 携带说话人识别所需的特征,什么特征对说话人识别最有效,如何有效地利用非 声道特性,是说话人识别中参数提取首要考虑的问题;由于缺少对上述问题的基 本了解,因此在这样做的过程中,很可能不自觉地丢失了许多本质的东西。 2 、实际环境下的说话人识别系统性能还很有待提高: 说话人识别系统应用于实际环境中,除了说话人因素外,还需要面对声学环 境噪声对系统的影响。说话人识别系统在实际噪声环境下性能不稳定,在大多数 实际环境中,存在各式各样的噪声,例如风扇转动的声音、汽车引擎发出的声音、 关门声音以及语音数据在信道传输时产生的噪声。噪声也会随时间经常发生变 化,有些噪声类型的出现存在不可预测性,因此会经常遇至, j i j l l 练环境与识别环境 的不匹配问题,对识别性能产生很大的影响。环境噪声类型对语音污染的程度也 大不相同,在一些嘈杂的环境下,语音几乎被淹没。另外对语音污染形式也存在 着不同,有些噪声与语音存在明显的相关性,有些噪声表现为与语音不相关。要 北京工业大学工学硕士学位论文 让说话人识别系统应用于实际环境中,噪声是必须要面对的问题之一。 3 、说话人个性特征的变化和样本选择问题: 对于由时间、特别是病变引起的说话人特征的变化研究的还很少。感冒引起 鼻塞时,鼻音的频率特性会有很大的变化;喉头有炎症时会发生基音周期的变化。 因此,由于感冒而不能进公司大门,这是一个大问题。另外对于样本选择的系统 研究还很少。根据听音实验,不同的音素所包含的个人信息是不同的,所以样本 的合理选择对识别率也有很大影响。现有的说话人识别系统还不能很好解决由时 间、病变引起的说话人特征变化带来的问题。 1 4 本文的主要工作 本文主要针对噪声环境下的说话人识别算法进行了研究,研究目标集中在上 节所述的技术难点,涉及到识别系统前端的增强处理及噪声下的具有鲁棒性的特 征参数提取两方面,并基于支持向量机( s v m ) 和m e l 频谱特征参数( m f c c ) 的识别系统进行了这两方面的改进。 具体来说,本论文的主要工作包括: l 、提出了一种模拟人耳听觉响应选择性的基于离散余弦变换( d c t ) 的动 态阈值语音增强算法,实现了低信噪比环境下的语音增强; 2 、通过分析语音信号产生的数字模型,提取了几种刻画说话人声源特性的 谱特征参数,作为刻画说话人声道特征参数m f c c 的补充特征,从而构成了完 整的描述语音信号的特征矢量: 3 、由于语音信息多集中在低频部分,其高频部分易受到环境噪声的干扰。 应用d c t 提取谱特征参数,强调语音的低频信息,从而突出了有利于识别的信 息,一定程度上屏蔽了噪声的干扰; 4 、根据不同的信噪比及噪声背景下,噪声对语音信号的干扰各不相同,从 而应用f i s h e r 准则对m f c c 进行特征参数选择; 5 、从实验角度对支持向量机的几种核函数进行了比较与分析,可作为一般 应 研 作 识 第1 章绪论 要探讨了几种主流的抗噪声说话人识别处理方法,为后面的研究奠定了基础。 第三章从信号空间研究了语音增强在抗噪声说话人识别技术中的应用,首先 介绍了语音增强效果主、客观评价方法。然后,通过分析前人的基于d c t 的增 强算法,指出了其中不足,从而形成了本文的一种模拟入耳听觉选择性的基于 d c t 的动态阈值语音增强算法。 第四章从特征空间研究了抗噪声说话人识别特征参数的提取问题,在最为常 用的m f c c 参数基础上,提出了两种改进策略:谱特征参数提取和基于f i s h e r 准则的特征参数选择。并给出了采用新的特征参数后,系统在不同噪声背景及信 噪比下识别率的改善程度和性能分析。 第五章对支持向量机理论和算法进行了介绍和研究,从支持向量机核函数入 手,探讨了核函数的本质,说明了核函数与所映射空间之间的关系,进一步从实 验角度对常见的几种核函数进行了比较分析。 北京工业大学工学硕士学位论文 8 性或声学特性在训练和测试环境中不同时,说话人识别系统仍然保持较高识别率 的性质。近年来,由于各种识别环境的需要,说话人识别系统的噪声鲁棒性已经 成为一个研究热点,研究人员提出了各种方法来提高系统性能。但是由于语音信 号和噪音信号之间作用关系的复杂性,至今噪声鲁棒性问题也没有完美的解决方 案。本章首先将简要的回顾一下语音信号处理基础及说话人识别理论,然后总结 在抗噪声说话人识别研究方面已经提出的各种方法,为后面的工作打下基础。 2 2 语音信号处理基础 2 2 1 语音信号产生的数字模型 根据发声器官和语音的产生过程,语音信号可由图2 1 所示的源系统模型 产生乜引,即把激励特性和声道及辐射特性分离开来,声道及辐射的影响用一个时 变线性系统来考虑,激励发生器则产生一种信号,它或是一串( 声门) 脉冲,或 是随机变化( 噪声) 的信号。源和系统参数的选择使所得的输出具有所要求的类 似语音的性质。 图2 - 1 语音产生的源系统模型 上述源一系统模型可展开为可实现的数学模型,如图2 2 所示。激励源分为 浊音和清音两个分支,按照浊音清音开关所处的位置来决定产生的语音是浊音 还是清音。浊音清音开关模拟了加在声道上的激励的改变情况。 北京工业大学工学硕士学位论文 s g ) 图2 - 2 语音信号产生的数字模型 当开关接在浊音位置时,激励信号是由周期脉冲发生器产生的周期为n o 的 冲激序列,即每隔n o 便有一个样值为l ,而其它样值均为o 。 当开关接在清音位置时,激励信号时随机噪声发生器产生的序列,可令该序 列服从均值为o ,方差为1 的高斯分布。 声门脉冲模型滤波器g ( z ) :使浊音的激励信号具有声门脉冲的实际波形。 增益因子a ,和a 。分别用于调节浊音语音和清音语音的幅度或能量。 声道模型v ( z ) 给出了声道的传输函数,把实际声道作为一个变截面声管加 以研究。 辐射模型r ( z ) 与嘴有关。 2 2 2 语音特性 通过分析语音信号产生的数字模型,可以发现语音具有以下特性: l 、语音信号为非平稳的随机过程,但具有短时平稳性 人类发声系统产生不同语音时的生理结构并不相同,产生的信号也是一个非 平稳信号。但由于生理结构的变化速度是有一定限度的,在一段时间内 ( 1 0 - - - 3 0 m s ) 可以认为人的声带、声道等特征基本不变,因而语音的短时谱分析 也有相对稳定性。语音信号的分析和处理一般建立在短时性基础上,即对语音信 号流采用分段或分帧来处理。 2 、语音信号的频谱比较集中 通过研究语音信号的发声过程以及观察记录的语音波形,可以发现语音信号 的频率分量主要集中在3 0 0 - - , 3 4 0 0 h z 的范围内,这是因为人类声道的变化不可能 太快。这一点给语音的研究和计算带来了很大的便利。 3 、语音主要由浊音和清音组成 从语音产生的机理上看,两者有明显的差异,因而在特征上也有明显区别。 浊音在时域上呈现出明显的周期性,在频域上有共振峰结构,因而能量大部分集 1 0 第2 章说话人识别的基本原理与抗噪声说话人识别 中在较低频域内。清音则完全不同,它没有明显的时域和频域特征,类似于白噪 声。在语音增强中,可以利用浊音的周期性特征,采用梳状滤波器提取语音分量 或抑制非语音分量,而清音则难以与宽带噪声区分。 4 、语音信号可以用统计分析特性来描述 语音信号的统计特性可以用它的波形振幅概率密度函数和一些统计量( 如均值和 自相关函数) 来描述。 2 2 3 噪声特性 噪声来源取决于实际的应用环境,因而噪声特性可以说是变化无穷。噪声可 以是加性的也可以是非加性的。对于非加性噪声,有些可以通过变换而转变为加 性

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论