已阅读5页,还剩95页未读, 继续免费阅读
(信号与信息处理专业论文)噪声环境下说话人识别的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 作为一种基于生物特征信息的身份识别方法,说话人识别通过语音来识别说话人的身份,说话人识别 在电子商务、消费、银行等远程客户服务的身份认证、军事安全领域的说话人身份自动检测和认证中具有 极大的应用价值和广泛的应用前景,是当今语音信号处理和生物特征信息检测和识别领域的重要研究方 向。 由于说话人个性以及实际应用环境的复杂性,说话人识别技术虽然取得了一定的进步,其瓶颈效应也 逐步显现,进一步提高比较困难离真正的实际应用还有一段距离。 本文从端点检测、语音增强、特征提取、后端处理等角度对说话人识别进行了研究,取得了一些研究 成果。 本文首先回顾了说话人识别的研究发展历程,指出了目前说话人识别研究的热点和难点。 语音信号具有混沌的特征,分形维理论是描述混沌信号的一种手段,本文从分形维的定义出发,提出 了一种新的基于波形的算法( i m p r o v e m e n t f r a c t a l d i m e n s i o n a l g o r i t h m b a s e d o n w a v e :i 肼一f d ) 。该算法只 需计算波形长度,与盒维、k a t z 维相比,计算更加简单。通过分形布朗曲线验证了该算法比盒维和k a t z 维具有更高的精确度,在高斯白噪声和三种非平稳噪声下该算法与盒维、k a t z 维相比抗干扰能力更强。 端点检测是说话人识别系统的第一步,一直是语音信号处理研究的热点。本文根据语音和噪声的特点, 将前面提出的i b w 分形维引入端点检测,将之与能量的方法相结合,提出了一种基于能量和分维的联合 端点检测方法( v a dw a yo f u n i t ee n e r g ya n df t a c t a ld i m e n s i o n :u e f d ) 。 寻找新的有效的说话人识别特征参数和已有特征参数的有效组合是说话人识别参数提取研究的热点。 本文将前面提出的i b w 分形维与g f c c 特征参数有机结合,作为说话人识别系统的混合特征参数。通过实 验发现,新的混合特征具有一定优势。 基于离散余弦变换的语音增强方法是目前国内外语音增强领域内研究的热点,而对于离散分数余弦交 换的研究国际上还比较少,而国内外对于离散分数余弦变换的应用研究就更少,本文基于态函数,提出了 两种基于态函数的离散分数余弦变换方法一二周期离散分数余弦变换和三周期离散分数余弦变换;并把 它们应用于语音增强中,结合了语音增强的特点,提出了四种基于离散分数余弦变换的语音增强方法一 基于二周期离散分数余弦变换的语音增强算法( s p e e c he n h a n c e m e n tb a s e do i lt w oc y c l e sd i s c r e t ef r a c t i o n a l c o s i n et r a n s f o r m :f d c t 2 ) 、改进的基于二周期离散分数余弦变换的语音增强算法( s p e e c he n h a n c e m e n tb a s e d o nm o d i f i e dt w oc y c l e sd i s c r e t ef r a c t i o n a lc o s i n et r a n s f o r m :g f d c t 2 ) 、基于三周期离散分数余弦交换的语音 增强算法( s p e e c he n h a n c e m e n tb a s e d0 1 1t h r e ec y c l e sd i s c r e t ef r a c t i o n a lc o s i n et r a n s f o r m :f d c t 3 ) 和改进的基 于三周期离散分数余弦变换的语音增强算法( s p e e c hc n h r i l g e i l l e i l tb a s e do nm o d i f i e dt h r e ec y c l e sd i s c r e t e f r a c t i o n a lc o s i n et r a n s f o r m :g f d c t 3 ) 等四种算法,结果表明本文提出的几种算法要优于常规的d c t 算法。 在噪声环境下语音增强的研究中多级滤波方法具有明显的优势,其中欧洲电信标准化协会提出的两级 m e l 域维纳滤波结构具有较优良的降噪效果。但缺点是结构复杂,反复的时域一频域转换带来计算量的急剧 上升;研究发现,单纯地从时域或变换域很难消除语音中存在的噪声和干扰,而分数余弦变换是一种非常 优良的分析工具,本文将前面提出的基于态函数的分数余弦变换应用于语音增强中,提出了分数余弦变换 i 东南大学博士学位论文 域上的两级最优滤波和分数余弦变换域上的分频段并联滤波两种语音增强方法,该方法直接在分数余弦变 换域上进行滤波,避免了由于m e i 域参数较少导致的额域不连续性带来的时域截断噪声。不仅系统结构得 到了简化,而且性能得到了提高,实验证明,这两种方法在高斯白噪声和几种非平稳噪声下性能优于两级 l l e l 域维纳滤波器。 在基于g 删的与文本无关的说话人识别中,噪声和干扰一直是影响识别率提高的原因,大多数研究集 中在前端处理,但在说话人识别后端处理方面,国内外研究不多。本文从各模型帧似然概率的统计特性出 发,并提出了一种新的非线性变换方法一归一化补偿变换,该方法对帧似然概率进行变换得到帧得分, 将前几帧得分进行平均,作为当前帧得分的权值。理论分析表明,与最大似然变换相比,归化补偿变换 能够拉大目标模型与其它非目标模型的帧得分比,从而提高识别率。实验结果表明,归一化指数变换能够 降低误识率达2 0 7 。也就是说对说话入识别系统的后端处理也能够提高系统性能。如果说话入识别的前 端和后端都能够有效地降低噪声和干扰带来的影响,则整个系统的性能就可以有明显的提高,这种思路不 仅适用于说话人识别。而且适用于语音识别、情感语音识别等相关领域。 关键词:说话人识别分形维端点检测特征提取离散分数余弦变换语音增强归化补偿变换 i i a b s t r a e t a b s t r a c t s p e a k e rr e c o g n i t i o nd e a l sw i t hr e c o g n i z i n gt h ei d e n t i t yo ft h ep c r $ o l ls p e a k i n gu t r e r a n c e ,i ti st h ep r o c e s so f a u t o m a t i c a l l yr e c o g n i z i n gw h oi ss p g a k i n gb a s e do nt h ei n f o r m a t i o no b t a i n e df r o mt h es p e e c h s p e a k e r r e c o g n i t i o n h a saw i d er a n g eo f a p p l i c a t i o n sw h i c h i n c l u d e b a n k i n g o rc r e d i tc a r dt r a n s c t i o n sb y t e l e p h o n e ,i n f o r m a t i o na n dr e s e r v a t i o ns e r v i c e s ,a c c 鹤sc o n t r o li nl l i g hs e c u r i t ya r e a sa n df o r e n s i ci n v e s t i g a t i o n s t h o u g hs p e a k e rr e c o g n i t i o ns y s t e m sp e r f o r mw e l lw h e nc l e a ns p e e c hi su s e df o rt r a i n i n ga n dt e s t i n g , t h e p e r f o r m a n c ed e g r a d e sr a p i d l yw h e ns p e e c hu s e di nr e a l - w o r l dc o n d i t i o n s t h ef o c u so ft h i sr e s e a r c he f f o r ti st o d e v e l o pt e c h n i q u e sf o rn o i s ec a n c e l l a t i o nw i t he m p h a s i so nt h ep r o b l e mo fs p e a k e rr e c o g n i t i o ni nn o i s ew h i c h i n c l u d es p e e c ha n d p o i n td e t e c t i o n , s p e e c he n h a n c e m e n l f e a t u r ee x t r a c t i o na n db a c k - e n dp r o c e s s i n g , a n ds o f t i e r e s e a r c hr e s u l t sw e r eo b t a i n e d a h i s t o r yr e v i e wo fs p e a k e rr e c o g n i t i o nt h e o r yi si n t r o d u c e di nt h i sp a p e ra tf i r s t b a s e do nt h er e s u l tc o m e f r o mt h er e s e a r c hw i t ht h es p e a k e rr e c o g n i t i o n ,h o t s p o ta n dn o d u so f t h er e s e a r c ha r el i s t f o rs p e e c hs i g n a lh a st h ec h a r a c t e r i s t i c so fc h a o s , f r a c t a ld i m e n s i o nt h e o r yi sak i n do fm e e a - l $ t od e s c r i b e c h a o ss i g n a l a c c o r d i n gt os i m p l ec o m p u t a t i o n , g o o da n t i - n o i s ea b i l i t ya n dl o wp r e c i s i o no fk a t za l g o r i t h ma n d c o m p l e xc o m p u t a t i o na n dg o o dp r e c i s i o no fb o x - c o e n t i n gd i m e n s i o n , ai m p r o v e m e n tf r a c t a la l g o r i t h mb a s e do n w a v e ( i b w ) w a sp r e s e n t e da n da n a l y z e dw i t ht h ef r a c t a lb r o w nc u r v ea n dn o i s ys p e e c hc o m p a r ew i t hb o x d i m e n s i o na n dk a t zd i m e n s i o n t h et h e o r ya n a l y s ea n de x p e r i m e n ts h o w e dt h a ti b w - f dh a sl o w e rc o m p u t a t i o n a n dh i g h e rp r e c i s i o nt h a nk a t zd i m e n s i o na n db o x - c o u n t i n gd i m e n s i o n i b w - f da l s oh a ds t r o n g e ra b i l i t yo f a n t i - n o i s ea n dd i s t i n g u i s hg a u s sn o i s ew i t hs p e e c ht h a nt h eo t h e r s t h er e s u l ts h o w e dt h a ti b w - f dw a st h eg o o d s p e e c hf r a c t a la l g o r i t h mb e c a u s eo f l o wc o m p l e x i t y , g o o dp r e c i s i o na n dn i c ea n t i - n o i s ea b i l i t y a sah m s p e to fr e s e a r c ho ns p e e c hs i g n a lp r o c e s s i n g , s p e e c he n d p o i n td e t e c t i o ni st h ef i r s ts t e e po fs p e a k e r r e c o g n i t i o ns y s t e m s a c c o r d i n gt ot h ec h a r a c t e r i s t i c so fs p e e c ha n dn o i s e ,i m p r o v e m e n tf r a c t a la l g o r i t h mb a s e do n w a v e ( m w ) i si n t r o d u c ei ns p e e c ha n d p o i md e t e c t i o na n dak i n do fn e wm e t h o di sp r o p o s e dw h i c hn a m e d 私 v a dw a yo f u n i me n e r g ya n df r a c t a ld i m e n s i o n ( u e f d ) f i n d i n gn e ws p e e c hf e a t u r ea n dc o m b i n a t i o no f o l ds p e e c hf e a t u r e si sh o t s p o to f r e s e a r c ho f fs p e e c h f e a t u r e e x t r a c t i o n t h i sp a g ec o m b i n et h ei b w - f da n dm f c ca sm i xs p e e c hf e a t u r eo fs p e a k e rr e c o g n i t i o n e x p e r i m e n t s w g r ec o n d a c t e dt h a tt h en e wm i x s p e e c hf e a t u r es h o w sb e r e tp e r f o r m a n c et h a nf o r m e rm e t h o d s t w on e wm e t h o df o rd i s c r e t ef r a c t i o n a lc o s i n et r a n s f o r ma g ep r o p o s e da n dt h et w om e t h o di si n t r o d u c e di n s p e e c he n h a n c e m e n t a c c o r d i n gt ot h ec h a r a c t e r i s t i co fs p e e c he n h a n c e m e n t , f o u rc o n s t r u c t i o n sa r ep r o p o s e da s s p e e c he n h a n c e m e n tb a s e do nt w oc y c l e sd i s c r e t ef r a c t i o n a lc o s i n et r a n s f o r m ( f d c t 2 ) ,s p e e c he n h a n c e m e n t b a s e do nm o d i f i e dt w oc y c l e sd i s c r e t ef r a c t i o n a lc o s i n et r a n s f o r m ( m f d c t 2 ) ,s p e e c he n h a n c e m e n tb a s e do n t h r e ec y c l e sd i s c r e t ef r a c t i o n a lc o s i n et r a n s f o r m ( f d c t 3 ) a n ds p e e c he n h a n c e m e n tb a s e do nm o d i f i e dt h r e e c y c l e sd i s c r e t ef r a c t i o n a lc o s i n et r a n s f o r m ( m f d c t 3 ) c o m p a r e dw i t hd c ta l g o r i t h m , o n ra l g o r i t h m sp e r f o r m l n 东南大学博十学钽论文 t l l eb e t t e rr e s u l t e u r o p e a nt e l e c o m m u n i c a t i o n ss t a n d a r d si n s t i t u t e ( e t s i ) s t a n d a r d i z e di t sr o b u s tf e a t u re x t r a c t i o na l g n r t h m f o rd i s t r i b u t e ds p e e c hr e c o g n i t i o nw h i c hp a r a m e t e ri sm o r er o b u s tt h a nm f c c o nt h eb a s i so f t w o s t a g ew i e n e r f i l t e r i n ga l g o r i t h mi ne t s is t a n d a r d ,f r a c t i o n a lc o s i n et r a n s f o r mi si n t r o d u c e di ns p e e c he n h a n c e m e n ti nt h i s p a p e ra n dt w o - s t a g eo p t i m a lf i l t e rb a s e do n f r a c t i o n a lc o s i n et r a n s f o r ma n dp a r a l l e lf i l t e rb a s e do nf r a c t i o n a l f o u r i e rt r a n s f o r ma r ep r o p o s e da n dt h et w o - s t a g ef i l t e ri sa p p l i e dd i r e c t l yo nf r a c t i o n a l c o s i n et r a n s f o r m t h e e x p e r i m e n t ss h o tt h a tt h er e wa p p r o a c hc a l lr e d u c et h ec o m p u t a t i o n a ls i g n i f i c a n t l yw h i l ep r e s e r v i n gt h ee x c e l l e n t p e r f o r m a n c eo f e t s it w o - s t a g ew i e n e rf i l t e r i n ga l g o r i t h m b a s e do nt h ea c o u s t i c sc h a r a c t e r i s t i co ff l a m el i k e l i h o o dp r o b a b i l i t yo u t p u tb yg a n s s i a nm i x t u r em o d e l ( g m m ) w h i c hw a st h eb e s tt e x t - i n d e p a n d e n ts p e a k e rr e c o g n i t i o nm o d e l ,n o r m a l i z a t i o nc o m p e n s a t i o n t r a n s f o r m a t i o na san o n - l i n e a rt r a n s f o r mm e t h o dw a s p r e s e n t e d t h et h e o r ya n a l y s ea n de x p e r i m e n ts h o w e dt h a ti t c o u l dr e d u c et h ee r r o rr e c o g n i t i o nr a t i o2 0 7 t h a nm a x i m u m l i k e l i h o o d ( m e lt r a n s f o r m a t i o t lt h er e s u l ts h o w e d t h a tn o r m a l i z a t i o nc o m p e n s a t i o nt r a n s f o r m a t i o ns h o u l db ea d o p t e df o rt h ei n f l u e n c eo fv a r i m i o n si ns p e e c h c h a r a c t e r i s t i c s ,n o i s ea n dm o d e lm i s m a t c h t h er e s u l ta l s os h o w e dt h a tp r o c e s so l lf y a m el i k e l i h o o dp r o b a b i l i t y o u t p u tb yg m mi se f f e c t u a lw a yo f d e c r e a s et h ei n f l u e n c eo f n o i s ea n di m p r o v e m e n tt h er e c o g n i t i o nr a t i o k e yw o r d :s p e a k e rr e c o g n i t i o n , f r a e t a | d i m e n s i o n , e n d p o i n td e t e c t i o n , f e a t u r ee x t r a c t i o n , f r a c t i o n a lo c t , s p e e c he n h a n c e m e n t , n o r m a l i z a t i o nc o m p e n s a t i o nt r a n s f o r m a t i o n 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过 的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我 一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名:盥:日期:丝雩一j 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印 件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质 论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括 刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办理。 日期 第1 章绪论 第1 章绪论 1 1 说话人识别研究的背景和意义 说话人识别”l 又称声纹识别,它利用语音信号来识别出说话人的身份,与指纹识别、人脸识别、 虹膜识别、掌形识别、姿态识别等同属于生物识别的范畴。语音是人的自然属性之,由于各个说 话人发音器官的生理差异以及后天形成的行为差异,每个人的语音都带有强烈的个人色彩。因此每 个人的语音中蕴含着与众不同的个人特征。用语音来鉴别说话人的身份有着许多独特的优点:对于 正常人来说,语音是人的固有特征,不会丢失或遗忘,具有随身携带性;每个人的声带、咽喉、口 腔和鼻腔的构造不同。而且每个人在肺部收缩,压迫气流由支气管经过声门和声道的方式不同,导 致每个人的语音特征有极强的个性,很难模仿,具有个人特性的唯一性;语音信号的采集简易方便, 系统设各成本低。因此,语音不仅具有自然唯一性、随身携带性、不会遗忘等特点,还具有数据采 集设备的非接触性和简易性等其它生物特征所不具备的优点。 语音信号的这些优点使得说话人识别在许多领域具有广泛的应用前景。说话人识别在电子商务、 消费、银行等远程客户服务的身份认证、军事安全领域的说话人身份自动检测和认证中具有极大的 应用价值和广泛的应用前景,是当今语音信号处理和生物特征信息检测和识别领域的重要研究方向。 在保安领域,可以利用说话人识别作为出入的凭证,如用特定人的声音是实现机密场所的出入人员 的检查:在工厂,职工的口令可以实现职工签名管理等。在公安司法领域,可以利用说话人识别作 为罪犯身份鉴定的手段,如判断犯罪现场记录的声音是多个嫌疑犯中的哪一个人的声音,将说话人 辨认和确认结合起来还可以判断出嫌疑犯中是否包含真正的罪犯。日本警方研究人员经过长期研究 表明说话人识别可以作为可信的法庭证据。在军事领域,可以利用说话人识别进行指挥员鉴别,然 后判断不同的指挥员所处的位置,获取敌方作战部署的意图,从而在战争中可以知己知彼为最终的 胜利增加筹码。在财经领域,可以利用说话人识别作为身份确认的有效手段,如电话预约业务中的 声音确认自动转账会馆、余额通知和股票行情咨询等等。在信息服务领域,同样可以利用说话人识 别作为身份确认的工具,如自动信息检索或电子商务等i n t e r n e t 信息服务中的声音身份确认等等。 在医学应用中,可利用说话人识别系统响应患者的要求,从而实现对机器假肢的控制。 对说话人识别的研究始于2 0 世纪6 0 年代。早期的工作主要集中在入耳听辨实验和探讨听音识 别的可能性方面。随着研究手段和工具的改进,研究工作逐渐脱离了单纯的人耳听辨。b e l l 实验室 的l g k e s t a 用目视观察语谱图的方法进行识别,提出了“声纹”( v o i c e p r i n t ) 的概念。此后,随着 电子技术和计算机技术的发展,说话人识别的研究取得了突飞猛进的发展,动态规划、线性预测、 矢量量化、隐马尔科夫模型等技术先后成功廊用于说话人识别。识别的模型从单模板模型发展到多 模板模型,从多模板模型发展到v q 模型、高斯混合模型、隐马尔科夫模型,再到人工神经网络模 型。识别环境从无噪声环境下对少数说话人的识别发展到复杂环境下对大量说话人的识别。所采用 东南大学博士学位论文 的识别技术从仅涉及动态规划发展到涉及统计信号处理、矢量量化与编码、模糊系统理论与方法、 最优估计理论、人工神经网络、灰色系统分析等多科学领域。 1 2 国内外研究现状和存在的问题 随着社会、军事以及安全等领域需求的增长,美国、日本、欧洲等一些发达国家都相继加强了 说话人识别的研究工作,我国一些高校和研究机构也对说话人识别进行了深入研究,并取得了一定 的研究成果。 在说话人识别的特征参数提取方面,1 9 6 3 年b e l l 实验室的s p r u z a n s k y m 和1 9 7 1 年e d b r e a k 0 3 j 提出了用短时谱中的信息作为说话人特征;1 9 6 8 年b s a t a # 采用基音频率、1 9 7 1 年g d o d d i n g t o n ”j 采用共振峰频率、1 9 7 2 年m 1 l s a m b “6 用线性预测系数( l p c ) 、1 9 7 3 年s f r u r u i 和e i t a k u r a 用语 音对数域比例 7 1 、1 9 7 2 年j j w o l 产1 和1 9 7 5 年m r s a m b u r 【9 从元音和鼻音中提取出较好的说话人特 征、1 9 7 4 年b a t m ”】通过比较各种参数得出倒谱系数的性能最优,倒谱成为说话人识别系统的首选 参数;1 9 8 3 年l ia n dw r e n c h 采用l p c 倒谱参数“1 、1 9 9 5 年r e y n o l d s 等人【1 2 】【1 3 】采用了m e l 倒谱, 取得了较好的效果,a t t i l i “】于1 9 8 8 年采用倒谱,l p c 系数和自相关系数作为特征参数获得了很好 豹效果,倒谱参数与其他特征参数相组合的研究成为了说话人识别参数提取的研究热点1 1 6 1 1 1 i l l l 目; 1 9 9 6 年c o l o m b i i ”1 将倒谱、差分倒谱相结合作为混合特征参数;r e y n o l d s t “1 采用了m e l 倒谱和差分 m e l 倒谱相结合;j u n g p as e o ”l 、p e a t 等人f 1 8 1 于2 0 0 1 年将分形维数与差分l p c 倒谱参数相结合均取 锝了很好的效果。 在识别方法方面,七十年代到八十年代初,大多数说话人识别系统都采用模板匹配法( p a t t e r n m a t c h ) 1 0 l l ”】l 】9 1 ,如1 9 7 4 年,a t t 的a t a l 用模板匹配法研究了l o 人的与文本有关的说话人识别,其 说话人辨识( o 5 s ) 的误识率及说话人确认( 1 s ) 的等差错率都是2 i l w :同属a t & t 的f u r u i 将倒谱矢量 规格化。仍然用模板匹配法对说话人确认进行了研究,获得了0 2 的等差错率l n l ;1 9 7 9 年m a r k e l 和d a v i s m 采用线性预测n i n e ”p r e d i c f i v e :l p ) 系数和长时统计的方法建立了1 7 人的与文本无关的说 话人辨认系统,测试语音长度为3 9 秒,其误识率为2 ;a t t i l i 等人l “1 在此基础上加入了投影的方法 将测试语音的长度缩短为3 秒。1 9 8 2 年s c h w a r t z t :) ! 等人利用功率谱密度估计的方法分析了对数面积 比系数( l o g a r e ar a t i o :l a r ) 在与文本无关说话人辨认中的应用,当用户数为2 1 人时误识率为2 5 。此 后矢量量化( v e c t o rq i 此哦i o n :v q ) 方法在说话人识别中得到了广泛应用【1 1 1 1 2 2 1 2 3 1 ,如s o o n g e 等人 吲提取孤立数字语音的l p 系数并使用矢量量化进行说话人辨认实验,得到了5 ( 1 5 秒) 和1 5 ( 3 5 秒) 的误识率,矢量量化逐渐成为与文本无关说话入识别系统的主要方法,同时统计形式的识别方 法也开始出现:1 9 8 8 年的j b a t t i l l i 的贝叶斯辨别分析【1 4 1 和1 9 9 3 年的a l h i g g i n s l 2 4 j 等人的最近邻分 类器。进入九十年代以来,神经网络技术开始应用于说话人识别,1 9 9 0 年j o g l c s b y 和j a m a s o n 的 多层感知器( m l p ) 和1 9 9 1 年的放射状基函数 2 6 1 ,1 9 9 1 年y b e n n a n i 和e g a l l l i n a r i 的时延神经网络 o d n l 田【2 ,1 。混合高斯模型( g a u s s i a nm i x 仰em o d e l :gm ) 1 2 5 】1 2 9 】和隐马尔科夫模型( h i d d 朗m a r k o v 2 第1 章绪论 m o c l e l s :h m m ) 也逐渐应用于说话人识别中【3 1 j 【”1 。 在产业化方面,美国的s p r i n t 公司推出了语音电话卡业务,用户直接对着电话念出对方号码, 系统就可识别出说话人并作出是否拨通的决定,欧洲电信联盟在电信与金融结合领域应用说话人识 别技术,于1 9 9 8 年完成了c a v e ( c a l l e rv e r i f i c a t i o ni nb a n k i n ga n dt e l e c o m m u n i c a t i o n :c a v e ) 计划, 在电信网上完成了说话人识别。同时m o t o r o l a 和v i s a 等公司成立了v - c o m m e r c e 联盟,希望实行电 子交易的自动化,其中通过声音确认人的身份是该项目的重要组成部分。其他一些商用系统还包括: i t t 公司的s p e a k e r k e y 、k c y w a r e 公司的v o i c e g u a r d i a n 、t - n e t i x 公司的s p c a k e z 等。 我国自执行8 6 3 计划以来,对说话人识别技术的研究不断深入,研究水平已经基本与国外同步。 中国科学院自动化所模式识别公司成功推出了p a i q e ks v 声纹识别产品,是目前国内推出的同类产 品中最优秀的产品之一,具有良好的性能。北极星软件公司、北京中科信利等公司也推出了自己的 说话人识别系统。 尽管目前说话人识别技术已经取得了相当大的迸展,但将说话人识别技术大规模地应用到实际 生活中仍有很长的一段路要走,这主要是因为实验室条件和实际条件的差异很大。一方面,实验室 条件较少考虑到噪声的问题,而在实际应用中,噪声是不可避免的尤其在一些特殊应用中,如犯 罪现场录制的犯罪嫌疑人的声音不可能很清晰;又如i n l m n e t 信息服务中,声音在通过通讯线路的传 播时不可避免的会引入噪声。另一方面,实验室使用的说话人集合往往比较小的,而在实际应用中 说话人集合可能非常大,当说话人集合扩大时,无论是系统效率,还是识别率往往会急剧下降。主 要难点包括以下几个方面: l 、语音信号特征中的说话人的个性特征难以分离和提取。 说话人识别的信息来源是说话人所说的话,其语音信号中既包含了说话人所说话的内容信息, 也包含了说话人的个性信息,是话音特征和说话人个性特征的混合体。目前还没有很好的方法把 说话人的个性特征和说话人的语音特征分离开来。关于语音中语义内容和说话人个人性的分离, 系统全面地进行研究的人还很少。现在语音内容和其声学特性的关系已经较明确,但是有关说话 人个人特性和其语音声学特性的关系还没有完全搞清楚。目前对于人是怎样通过语音来识别他人 的这一点尚无基本的了解。还不清楚究竟是何种语音特征( 或其变换) 能够唯一地携带说话人识别 所需的特征,什么特征对说话人识别最有效,如何有效地利用非声道特性,是说话人识别中参数提 取首要考虑的问题;由于缺少对上述问题的基本了解,因此在这样做的过程中,很可能不自觉地 丢失了许多本质的东西。 2 、实际环境下的说话人识别系统性能还很有待提高 实际环境中,噪声和干扰远比实验室环境来的复杂,目前常用降噪算法对平稳嗓声能够取得 较好的效果,对非平稳噪声的降嗓往往效果不佳,如何有效地针对实际环境,去除各种加性噪声 和乘性噪声的干扰,是噪声环境下说话人识别面临的问题;目前常用降噪算法都是基于语音识别 的,这些算法虽然有效地提高了信噪比,却往往丢失了说话人的特征。使得降噪后识别率没有明 显的提高。 东南大学博士学位论文 3 、说话人个性特征的变化和样本选择问题。 对于由时间、特别是病变引起的说话人特征的变化研究的还很少。感冒引起鼻塞时,各种音 尤其是鼻音的频率特性会有很大的变化;喉头有炎症时会发生基音周期的变化。因此,由于感冒 而不能进公司大门,这是一个大问题。另外对于样本选择的系统研究还很少。根据听音实验,不 同的音素所包含的个人信息是不同的,所以样本的合理选择对识别率也有很大影响。现有的说话 人识别系统还不能很好解决由时间、病变引起的说话人特征变化带来的问题。 1 3 本文主要工作 本文主要是对噪声环境下的说话人识别系统进行研究,主要内容有: 1 3 1 噪声环境下语音分形特征的提取和分析 语音信号具有混沌的特征,分形维理论是描述混沌信号的一种手段,针对目前的分维计算方法 盒维、关联维等精度虽高,但计算复杂,k a t z 维计算简单、抗噪性能好、但精度不高的现状, 提出了一种改进的基于波形的算法( i m p r o v e m e n tf r a c t a ld i m e n s i o na l g o r i t h mb a s e do i lw a v e : i b w - f d ) ,分析了对分形布朗曲线、含噪语音( 高斯白噪声,三种非平稳噪声) 的性能。理论分析 和实验结果表明:i b w - f d 算法具有更强区分高斯白噪声和语音信号的能力;i b w - f d 算法抗平稳和 非平稳噪声能力要普遍好于盒维和k a t z 维。结果表明i b w - f d 算法在复杂度、精确度和抗噪性能方 面均优于现有的分维算法,是一种比较好的分维计算方法,不仅可以应用在语音处理中,而且也可 应用于其它信号处理中。 1 3 2m w 分维在噪声环境下说话人识别中的应用 根据语音和噪声的特点,将前面提出的i b w 分形维引入端点检测,将之与能量的方法相结合, 提出了一种基于能量和分维的联合端点检测方法( v a dw a yo fu n i t ee n e r g ya n d 妇t a l d i m v n s i o n :u e f d ) 。 语音中存在着混沌,混沌可以用分形维来描述,已有研究发现,同一音素对于不同说话人而言 其分维值不同,因此,分维值可以作为说话人识别的特征参数。 寻找新的有效的说话人识别特征参数和已有特征参数的有效组合是说话人识别特征参数研究的 热点。本文将上面提出的m w 分形维与i v i f c c 特征参数相混合,作为说话人识别系统的混合特征 参数。通过实验发现,新的混合特征具有一定优势。 1 3 3 基于态函数的分数余弦变换的提出及在说话人识别系统语音增强中的应用 基于离散余弦变换的语音增强方法是目前国内外语音增强领域内研究的热点之一,而对于离散 分数余弦变换的研究国际上还比较少,而国内外对于离散分数余弦变换的应用研究就更少,本文基 于态函数,提出了两种基于态函数的离散分数余弦变换方法一二周期离散分数余弦变换和三周期 离散分数余弦变换;并把他们应用于说话人识别的语音增强中,结合了语音增强的特点,提出了四 4 第1 章绪论 种基于离散分数余弦变换的语音增强方法一一基于二周期离散分数余弦变换的语音增强算法 ( s p e e c he n h a n c e m e n tb a s e do nt w oc y c l e sd i s c r e t ef r a c t i o n a lc o s i n et r a n s f o r m ,f d c t 2 ) 、改进的基于二 周期离散分数余弦变换的语音增强算法( s p e e c he n h a n c e m e n tb a s e do nm o d i f i e dt w oc y c l e sd i s c r e t e f r a c t i o n a lc o s i n et r a n s f o r m ,郴 d c t 2 ) 、基于三周期离散分数余弦变换的语音增强算法( s p e e c h e n h a n c e m e n tb a s e do i lt h r e ec y c l e sd i s c r e t ef r a c t i o n a lc o s i n et r a n s f o r m ,f d c t 3 ) 和改进的基于三周期离 散分数余弦变换的语音增强算法( s p e e c he n h a n c e m e n tb a s e do nm o d i f i e dt h r e ec y c l e sd i s c r e t e f r a c t i o n a lc o s i n et r a n s f o r m ,嘲3 ) 等四种算法:并将之在平稳噪声环境和非平稳噪声环境下进行
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- Unit 2 What time do you go to school Section B 3a-3b Self check-教学设计 2023-2024学年人教版英语七年级下册
- 电子商务客户服务管理
- 2025企划工作总结
- 第15课 横折折折钩和横撇弯钩教学设计-2025-2026学年小学书法练习指导三年级下册西泠版
- 毒麻药品使用及管理
- 百威啤酒品牌战略解析
- 《陈情表》课文讲解
- 扁桃体术前术后护理
- 布氏菌病护理教学查房
- 大班愤怒情绪管理
- 智能化宽带网络网关(iBNG)技术白皮书
- 固定资产明细表模板
- 工程合同续签协议范本
- 检验科标本溢洒处理流程与规范
- 起重机培训课件桥式起重机
- 《秋季腹泻》课件
- 《病区护理人文关怀管理规范》团体标准解读
- 2025春季学期国开电大本科《现代汉语专题》一平台在线形考(任务1至5)试题及答案
- 新版青海省事业单位专业技术人员考核登记表
- 设备损坏赔偿协议书
- 介词的用法课件
评论
0/150
提交评论