




已阅读5页,还剩101页未读, 继续免费阅读
(模式识别与智能系统专业论文)基于汉语元音映射的说话人识别技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
博士论文 基于汉语元音映射的说话人识别技术研究 摘要 语音是人类获取信息的主要来源之一,也是最方便、最有效、最自然的交流工具。 说话人识别技术在近三十多年的时间里取得了很大的进步,这种技术的应用为人类的 日常生活带来很大的便利。但是,随着说话人识别的实用化,不同应用领域对其要求 也越来越高。一方面,发音的多变性使说话人识别系统的适应性还有待提高;另一方 面,噪声、训练时间以及通信信道失真等问题也会产生很大的影响。对于说话人识别 来说,最主要的两个问题是如何从语音中提取单纯反映说话人身份信息的鲁棒特征, 以及如何建立有效的识别模型达到实际应用中对速度、数据量、使用条件等方面的要 求。本文针对汉语语音的特点,从分离身份信息和提高系统鲁棒性两个方面出发对汉 语说话人识别展开研究,提出了新的说话人识别框架、模型和算法,主要取得了以下 创新性成果。 本文的核心是提出了一种新的基于汉语元音映射的说话人识别框架。该框架的基 础是将汉语韵母中的元音部分以单元音音素为单位进行分解,对此我们使用频谱对 比、特征对比、单元音滑动统计分布、分类器识别率等方式证实了从短时帧角度出发, 汉语韵母可以分解为单元音音素的组合,并通过大量的实验建立了汉语韵母到单元音 的映射表。相对于传统的说话人识别模型,新框架增加了汉语单元音音素分类模块进 行韵母分解,并将多个针对单元音的说话人识别器组织起来代替传统的匹配或统计模 块对帧特征进行处理。根据这个框架,每个针对单元音的说话人识别器进行说话人识 别时避免了语义信息的干扰,增强了分类的针对性;同时,整个系统以短时帧作为基 本识别单位,更易于达到实时处理的目标。 根据基于汉语元音映射的说话人识别框架,提出了基于汉语元音分类的矢量量化 说话人识别方法。由于每个矢量量化分类器在训练和识别过程中避免了语义信息的影 响,该方法利用较小的码本就可以获得较高的识别率。然而,为了保证码本质量,需 要大量的训练数据和识别数据。针对说话人识别方法需要大量数据参与训练和识别的 缺点,结合新框架,本文又提出了基于仿生模式识别的汉语说话人识别方法。该方法 在训练过程中为每个说话人的每个单元音音素帧特征在特征空间中建立一个包络:识 别时通过分析测试帧特征与包络的关系进行判决,大大缩减了对训练和识别数据量的 需求。在研究过程中,我们发现基于汉语元音映射的说话人识别框架由于增加了单元 音分类模块,会带来分类误差并导致识别速度下降。对此,结合集成学习理论,我们 提出了基于汉语元音映射的神经网络集成说话人识别方法。该方法在识别过程中不需 要预先对测试语音帧进行元音分类,省略了元音分类模块,从而避免引入元音分类误 摘要 博士论文 差,加快了识别速度。 此外,针对新的说话人识别框架的特点,本文在预处理和抗噪方面也进行了研究 和改进,主要包括:提出了基于频谱特征的自适应元音帧提取算法,在损失端点检测 准确性的前提下提高元音帧提取的速度和正确率;结合谐波积谱思想改进了基音提取 算法:提出了基于背景估计的自适应抗噪方法,实现g m m 模型下数据噪声背景不同 时特征的提取、修正和识别;针对测试数据与训练数据背景不同的情况,从特征值处 理和模型补偿两方面考虑,提出了基于高斯混合模型的加权特征补偿变换的抗噪方 法,进一步改善了系统的性能。 从本文一系列仿真实验的结果分析可得,基于本文新框架、模型和算法实现的说 话人识别系统在识别率、识别速度和抗噪能力上都有所提高。特别是基于汉语元音分 类的思想为分离语音特征中的语义信息和话者身份信息,将文本无关的说话人识别转 变为文本有关的说话人识别提供了新的思路。 关键字:说话人识别、元音分类、汉语元音映射、矢量量化、仿生识别、b p 神经 网络、神经网络集成、元音帧检测、基音频率、噪声处理技术、高斯混合模型、特征 补偿 a b s t r a c t s p e e c hi st h em o s tc o n v e n i e n t ,f a s ta n dn a t u r a lt o o lt oc o m m u n i c a t ew i t ho t h e rp e o p l e i nr e c e n t 岫y e a r s ,a l o n gw i t ht h ed e v e l o p m e n to fs c i e n c ea n dt e c h n o l o g y t h er e s e a r c h o fs p e a k e rr e c o g n i t i o nt e c h n i q u eh a sa c h i e v e dm a n y p r o d u c t i o n s ,w h i c hw i l lb r i n gu sm o r e c o n v e n i e n c ei n0 1 1 1 d a i l yl i f e h o w e v e r ,i nd i f f e r e n ta p p l i c a t i o n , t h es t a n d a r d sa n d r e q u i r e m e n t sb e c o m em u c hm o r eh i g h e ra n dt h es y s t e mi s s u s c e p t i b l et od i f f e r e n t i n f l u e n c e o no n eh a n d ,s p e e c hs i g n a li sn o n s t a t i o n a r y ,w h i c hr e q u i r e sh i g ha d a p t a b i l i t yi n r e a ls y s t e m ;o nt h eo t h e rh a n d ,s p e a k e rr e c o g n i t i o ns y s t e mw i l lb ei n f l u e n c e db ym a n y f a c t o r s ,s u c ha sn o i s e s ,t r a i n i n gt i m ea n dt h ed i s t o r t i o no fc o m m u n i c a t i o nc h a n n e l s t h e f o r e m o s tt h i n gi ns p e a k e rr e c o g n i t i o ni sh o wt oe x t r a c ta p p r o p r i a t ef e a t u r e s ,w h i c ho n l y r e f l e c ts p e a k e r si d e n t i t yi n f o r m a t i o na n da v o i dt h es e m a n t i cd i s t u r b a n c e ,a n dh o wt o e s t a b l i s ha ne f f e c t i v em o d e l ,w h i c hc a ne f f e c t i v e l ym a k en s eo ft h ea v a i l a b l ed a t aa n db e r o b u s tt oa c t u a ld i f f e r e n te n v i r o n m e n t s i nt h i sp a p e r , w er e s e a r c h e do ns p e a k e r r e c o g n i t i o n s y s t e mf r o mt w oa s p e c t s ,s e p a r a t i n ge x a c t l yi d e n t i t yi n f o r m a t i o na n di m p r o v i n gt h e r o b u s t n e s so fs y s t e mb a s e do nc h i n e s em a n d a r i n , a n dp r o p o s e dn o v e la l g o r i t h m sa n d m o d e l s f i r s t l y ,i nt h i sp a p e r ,w ep r e s e n t e dan o v e lf r a m e w o r ko fs p e a k e rr e c o g n i t i o nb a s e do n c h i n e s ev o w e lm a p p i n gt e c h n i q u e t h eb a s eo ft h i sf r a m e w o r ki st h ed e c o m p o s i t i o no f c h i n e s em u l t i v o w e lw i t hs i n g l e - v o w e lp h o n e m e s a c c o r d i n gt oc o n t r a s tt h e s p e c t r u m , f e a t u r e s ,s i n g l e - v o w e lp h o n e m eg l i d es t a t i s t i c a ld i s t r i b u t i o na n dt h ep e r f o r m a n c eo fv o w e l c l a s s i f i c a t i o n , w ec o n f i r m e dt h a tc h i n e s ev o w e lc o u l db e s e p a r a t e d i n t os e v e r a l s i n g l e - v o w e lp h o n e m e sb a s e do nt h es h o r tt i m ec h a r a c t e r i s t i c t h e nw eb u i l tu pan e w m a p p i n gt a b l ef r o mm u l t i v o w e lt os i n g l e - v o w e lp h o n e m ea st h ea s s i s t a n to ft h el a t t e r r e s e a r c ht h r o u g hag r e a td e a lo fe x p e r i m e n ta n dt h e o r y t h en e wf r a m e w o r ka d d e da s p e c i a lm o d e lt oi m p l e m e n tt h es e p a r a t i n ga n do r g a n i z e ds e v e r a ls i n g l e - v o w e lc l a s s i f i e r st o r e p l a c et h et r a d i t i o n a lc l a s s i f i c a t i o nm o d u l e ,w h i c hc a nn o to n l ya v o i dt h ed i s t u r b a n c eo f s e m a n t i ci n f o r m a t i o na n da c h i e v eh i g h e rp e r f o r m a n c e ,b u ta l s oi n t e n s i f yt h ep e r t i n e n c eo f c l a s s i f i e r sc o m p a r e dw i t ht h et r a d i t i o n a lc l a s s i f i e r s i nt h en e wf r a m e w o r k , i ta d o p t ss h o r t t i m ef r a m ea st h eb a s i ci d e n t i f yu n i t ,w h i c hm a k e si tm o r ec o m p a t i b l et or e a lt i m es y s t e m u n d e rt h en e wf r a m e w o r k , w ei m p r o v e dt h em e t h o do fv e c t o rq u a n t i z a t i o nb a s e do n t h ec l a s s i f i e ro fc h i n e s ev o w e l b e c a u s ee a c hv qc l a s s i f i e ro n l yd e a l sw i t ho n ec e r t a i n k i n do fp h o n e m e ,i tc a l la v o i dt h ei n f l u e n c eo fs e m a n t i ci n f o r m a t i o n , a n da c h i e v eh i g h e r a c c u r a c ya n dp e r f o r m a n c ew i t hs m a l l e rc o d e b o o kt h a nt r a d i t i o n a lv qm e t h o d ;h o w e v e r , i no r d e rt of i s s u r et h eq u a l i t yo fc o d e b o o k , i tn e e d sa g r e a td e a lo fd a t ad u r i n gt r a i n i n ga n d t e s t i n gp h a s e ,s ow ep r o p o s e dan e wc h i n e s es p e a k e ri d e n t i f i c a t i o ns y s t e mb a s e do n b i o m i m e t i cp a t t e r nr e c o g n i t i o nc o m b i n i n gf o r e g o i n gn e wf r a m e w o r k w ei m p r o v e dt h e n e a r e s tn e i g h b o ra l g o r i t h mt of i n dt h ec o v e to fe a c hp h o n e m ei nt h ee i g e n s p a c ef o r e v e r y s p e a k e r d u r i n gt h ei d e n t i f i c a t i o np h a s e ,t h ef i n a ld e c i s i o nw i l lb em a d ea c c o r d i n gt ot h e r e l a t i o n s h i p b e t w e e nt h ec o v e ra n dt h ef e a t u r e c h a r a c t e r i s t i c e x p e r i m e n t a lr e s u l t s d e m o n s t r a t et h a tt h es y s t e mc a ne f f i c i e n t l yr e d u c et h er e q u i r e m e n to fd a t a d u r i n gt h e r e s e a r c h , w ef i n dt h a tt h en e ws y s t e mw i l li n t r o d u c ei nc l a s s i f y i n ge r r o rm o r eo rl e s sa n d d e c e l e r a t et h er e c o g n i t i o ns p e e db e c a u s et h en e wf r a m e w o r ki n c r e a s e das p e c i a lv o w e l c l a s s i f i c a t i o nm o d u l e o w i n gt ot h i s ,w ep r o p o s e dan o v e ln e u r a ln e t w o r ke n s e m b l es y s t e m b a s e do nc h i n e s ev o w e lm a p p i n gt e c h n i q u eu s i n gt h ee n s e m b l el e a r n i n gt h e o r y d u r i n g r e c o g n i z i n gp h a s e ,t h es y s t e mn e e d n ts p e c i a lv o w e lc l a s s i f i c a t i o n s oi tc a na v o i de l i o ri n s o m es e n s ea n ds p e e du pt h ew h o l e s y s t e m f u r t h e r m o r e , w es t i l lr e s e a r c ho np r e p r o c e s s i n gm o d u l ea n dd e c r e a s et h ed i s t u r b a n c e o fn o i s ef o ro u rn e wf r a m e w o r k as e l f - a d a p t i v ev o w e l f r a m ed e t e c t i o na l g o r i t h mb a s e do n e n e r g yd i s t r i b u t i o na n a l y s i si nf r e q u e n c yd o m a i nw a sp r e s e n t e dt oe x t r a c tv o w e lf r a m e m o r ea c c u r a t e l y w ea l s op r o p o s e dan e wm e t h o db ym o d e l i n gt h eb a c k g r o u n dn o i s et o s t a t i s t i c a l l ye s t i m a t eg a u s s i a nm i x t u r em o d e lf o rt h ep u r es p e a k e ri n f o r m a t i o n a tt h ee n d , ar o b u s t s p e a k e r v e r i f i c a t i o nm e t h o db a s e do n w e i g h t e d f e a t u r e c o m p e n s a t i o n t r a n s f o r m a t i o ni sp r e s e n t e dd u r i n gt h ef e a t u r ep r o c e s s i n ga n dm o d e l c o m p e n s a t i o n t h es u f f i c i e n t t h e o r ya n a l y s i s a n d e x p e r i m e n t a l r e s u l t sd e m o n s t r a t e dt h a t t h e p r e s e n t e dm o d e la n da l g o r i t h m sb a s e do nn o v e lf r a m e w o r kh a v ea c h i e v e dh i g h e ra c c u r a c y , s p e e da n de n h a n c e dt h er o b u s t n e s si nd i f f e r e n tc o n d i t i o n sc o m p a r e dw i t hm a n yt r a d i t i o n a l m e t h o d s s p e c i a l l y , w es u c c e e di ns e p a r a t i n gp e r s o n a li d e n t i f i c a t i o ni n f o r m a t i o nf r o m s e m a n t i ci n f o r m a t i o nb a s e do nc l a s s i f y i n gt h ec h i n e s e v o w e l ,w h i c hw i l lb ean e ww a yt o t r a n s f o r mt h et e x t i n d e p e n d e n ts y s t e mi n t ot e x t d e p e n d e n ts p e a k e rr e c o g n i t i o ns y s t e m k e y w o r d :s p e a k e rr e c o g n i t i o n 、v o w e lc l a s s i f i c a t i o n 、c h i n e s ev o w e l m a p p i n g t e c h n i q u e ,v e c t o rq u a n t i z a t i o n ,b i o m i m e t i cp a t t e r nr e c o g n i t i o n ,b pn e u r a ln e t w o r k , n e u r a ln e t w o r ke n s e m b l e 、v o w e lf r a m ed e t e c t i o n 、p i t c hd e t e c t i o n 、g a u s s i a nm i x t u r e m o d e l 、f e a t u r ec o m p e n s a t i o n i v 声明尸明 本学位论文是我在导师的指导下取得的研究成果,尽我所知,在 本学位论文中,除了加以标注和致谢的部分外,不包含其他人已经发 表或公布过的研究成果,也不包含我为获得任何教育机构的学位或学 历而使用过的材料。与我一同工作的同事对本学位论文做出的贡献均 已在论文中作了明确的说明。 研究生签名:年月日 学位论文使用授权声明 南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅 或上网公布本学位论文的部分或全部内容,可以向有关部门或机构送 交并授权其保存、借阅或上网公布本学位论文的部分或全部内容。对 于保密论文,按保密的有关规定和程序处理。 研究生签名:年月日 博士论文 基于汉语元音映射的说话人识别技术研究 第一章绪论 1 1 引言 语音是人类最自然的通信方式,它不仅包含了语义信息,还包含了发音者的身份 信息。例如有人敲门时,主人会询问来客的身份,此时来客只要发出声音,主人就能 判断出对方是否是熟悉的人,如果熟悉的话还能够知道是哪一位。这个典型的说话人 识别事件说明:人具有通过声音鉴别身份的能力。说话人识别研究的目标就是使机器 能够通过语音来判断说话人的身份。 从上世纪5 0 年代起,随着计算机的处理能力和存储能力的不断增强,逐渐达到 了对音频信息进行实时处理的要求,促进了基于数字语音信号的说话人识别的研究。 然而由于说话人识别研究自身的特点和难点,使得相关技术远没有成熟,但说话人识 别技术的应用前景却是不可估量的。汉语语音具有按音节发音、音节中元音位置稳定、 单元音音素少等特性。因此,本文希望通过对汉语语音信号特征的分析,建立有针对 性的汉语说话人语音模型以及识别算法,并对预处理和后处理中的相关技术进行改 进。这些工作将有助于汉语语音说话人识别技术的完善、发展和提高,对识别系统的 实用化研究有重要意义。 本章首先阐述了进行说话人识别研究的动机:一方面该技术具有广阔的应用领 域,另一方面还存在很多困难。其次对说话人识别的研究现状进行了简单的概括( 具 体的综述作为技术背景在第二章中介绍) ,并分析了该领域未来的发展方向。接下来 根据研究现状和发展方向提出了研究思路以及获得的主要成果。最后是全文章节的安 排。 1 2 说话人识别技术的应用 实际应用的价值是推动科学研究的主要动力。在信息化社会中,人们的活动范围 更加广阔,信息交流更加频繁,需要进行身份认证的领域也越来越多。基于生物特征 的身份鉴定和识别方法应运而生,其中包括反映生理特征的指纹、人脸,以及反映行 为特征的语音和签名等【l 翻。这些特征都具有随身携带、不会丢失遗忘、不易被冒充 等特点,逐渐成为重要的认证手段。虽然相对于指纹等特征,利用语音进行身份识别 的分类能力较弱,但作为基于生物特征的身份识别方法之一,说话人识别因其自身特 点也在许多领域中被广泛应用。总的来说,说话人识别技术的应用主要包括以下几个 方面:( 1 ) 个人身份认证鉴定:( 2 ) 电子侦听与司法鉴定:( 3 ) 多说话人环境下的话者检 测;( 4 ) 语音识别系统的话者自适应;( 5 ) 个性化的人机界面。个人身份认证鉴定是所 有生物特征识别技术的最主要应用,目前,说话人识别技术已经与人脸识别技术等相 结合,应用于银行信用交易,计算机和数据库系统登录,安全部门的身份检查等。司 第一章绪论博士论文 法鉴定是说话人识别的另一个重要应用:如果犯人的声音在作案期间被记录,采用说 话人识别技术就可以通过对比犯罪嫌疑人的声音和作案声音记录来判断两者是否一 致【3 1 。此外,基于说话人识别技术的说话人自适应技术可以应用到语音识别系统中, 以减少说话人变化的影响,提高语音识别系统的性能【4 】。多说话人环境下的说话人识 别比较复杂,根据功能目标可以分成三种情况【5 】:( 1 ) 说话人检测;( 2 ) 说话人跟踪;( 3 ) 说话人分割。说话人检测的目的是判断某个说话人是否正在说话;说话人跟踪是判断 说话人的语音持续轨迹;说话人分割则是检测每一个说话人的语音片段位置。目前, 有关说话人交替分割的技术已经被应用于新闻播音的语音分割中【6 7 1 。随着语音信号 处理技术的发展,语音人机界面正变得越来越普遍,例如语音电子邮件、语音登陆和 语音搜索等。通过说话人识别技术,系统不仅可以认证用户的身份,还可以自动地进 行调节以适应不同用户的需要和喜好。 1 3 说话人识别技术的特点和难点 语音是人类最自然的通信方式,并且一般不属于个人隐私,因此说话人识别技术 在具体应用中是最友好和最容易被接受的。说话人识别的另一个优点是低成本:指纹 识别和虹膜识别等其它生物特征识别方法都需要特殊的扫描输入设备,而说话人识别 只需要一个话筒。从处理器的角度考虑,由于语音信号的容量远小于图像信号,说话 人识别中的信号处理和匹配计算需要的资源更少,适合移动通信终端设备的应用。 然而,声音特征相对虹膜、指纹等其它生物特征具有不稳定性:即使是同一个人 发出相同的声音,前后两次发音过程中发声器官的运动和生成的语音信号都不可能绝 对一致。这成为语音处理技术难以突破的主要原因之一。但是语音和其它生物特征相 结合的多模态身份识别技术将会大大提高识别性能【8 】。在2 0 0 3 年的a v b p a 会议上, 语音和人脸、指纹一起成为生物特征识别的三大热点研究内科9 1 。会议上还介绍了九 种不同的多模态生物特征识别系统,说话人识别系统就是其中之一。 1 3 1 说话人发音的不稳定性 一个人生理上和心理上的变化会引起声音的改变【1 0 】,情绪、刺激和药物同样影响 人的发音,如图1 1 为同一说话人连续两次发汉字“一音的语谱图,在很多细节上 已经出现了差异( 如圈中部分) 。一般来说,同一说话人发出相同声音时,发音时间 间隔越大,声音的频谱细节差距越大。 声音还会随着年龄的增长,体重的增加以及其它生理特征的变化而变化。这些变 化都是导致说话人声音不稳定的影响因素。因此,训练数据应考虑到语音的平衡性, 使其包含所有语言单元在不同发音情况以及不同上下文时的所有样本,这样才能够确 保使用任意语音输入时系统的识别能力。 2 博i 论文革十镕元音映射的说话 识别技术研究 t i m e ( s ) m e ( s 】 图ii 相同说话人连续发汉字音的语谱图 1 3 2 声音的掩饰和模仿 声音掩饰指故意改变声音,使其不能与同一个说话人的正常语音很好地匹配。例 如,当犯罪嫌疑人打匿名电话时会刻意通过改变发音器官的自然形态来掩饰真实的声 音,或在警方调查时改变声音,包括增加鼻音、提高或降低音调等。有关这方面的研 究己经有了一些成果如m a i 钾s h 等人对三种特征参数的抗掩饰能力进行了分析比 较】,对比了不同情况下各种参数的鲁棒性。 仿冒说话人是声音掩饰的一个特殊形式,仿冒者企图模仿另一个说话人的发音方 式,达到以假乱真的目的,从而通过身份验证系统获取相关权限。显然无论是刻意 地声音掩饰,还是仿冒,都会影响说话人识别系统的性能。研究结果表明通过声音 掩饰将声音变换为另一个人的声音确实会降低说话人识别的性能1 1 2 。1 :i 。 1 3 3 采集设备与环境影响 单纯的语音可以很好地表现说话人的特征,但是在实际语音采集过程中会遇到很 多问题。首先,语音通过话简或电话信道录制时,反射特性将引起一个延迟语音信号 与所录制的语音信号产生叠加”,而低质量话筒会引起语音频谱非线性失真:q u a t i e r i 等通过对高质量话筒和低质量话筒下所录制的一组相同文本语音进行对比后发现,低 质量话筒会引起假共振峰等畸变”。其次,a d 转换器本身存在失真,录音设备也容 易受到移动电话电波的干扰。如果语音通过电话线传输,有损数据压缩技术( 数字传 输时) 同样会带来噪声。语音信号编码也会引起说话人识别性能的大幅下降”7 】。因 此,在采集、传输、变换过程中,信号质量会不同程度地降低,人耳听到的语音与识 别系统所得到的语音信号是不完全一样的。 不同的环境是影响识别性能的另一个重要的因素”9 删,由于系统训练和识别处 于不同时期,不仅说话人本身的特征发生了变化( 如基音、声调) ,采集条件也发生 3 0 日 b 4 2 d nr邑h白nf仁 第一章绪论博士论文 了变化。这些变化的因素包括:环境声学特性不一致;背景噪声能量和形式不一致: 话筒不一致;录音质量不一致。这些不一致性会导致系统性能的迅速下降,目前还没 有成熟的算法统一解决上述问题,主要的研究还集中在具有针对性的噪声或者失配环 境的处理上。因此,关于噪声环境下的识别算法研究和鲁棒性特征参数提取的算法研 究一般在以下假设下进行【2 l 】:噪声是短时平稳的;噪声的均值为零:噪声与语音信号 是独立的。 1 4 国内外研究现状和发展方向 由于具有广阔的应用前景和较为复杂的技术特点和难点,说话人识别技术越来越 受到广泛的关注,也成为我们研究的目标。而对说话人识别进行系统性的研究始于 2 0 世纪8 0 年代,此时主要针对文本有关的语音信号进行特征匹配计算。进入9 0 年 代后,随着模式识别和机器学习等领域科学研究的不断发展,美国的a t & t ,m i t - l l 以及日本的n 1 v r 、a t r 、名古屋大学等研究机构都相继投入大量资金和人员开展研究, 并取得了一定的成果f 2 2 4 】。我国在这方面的起步较晚,但是目前中科院声学所、北 京大学、清华大学、中国科技大学、解放军信息工程大学、吉林大学等多个高校和研 究机构都在说话人识别领域开展了研究工作【2 5 舶加。 由于语音信号的复杂性,说话人识别技术远未成熟,主要的原因有:( 1 ) 难以分 离和提取单纯表征说话人身份信息的特征;( 2 ) 缺乏可靠的、鲁棒性好的说话人模型; ( 3 ) 缺乏精确高效的似然度或失真度计算方法。 语音是一种复杂信号,包含了语义、语言、声学和韵律学等多种信息,而说话人 的特征主要反映在声学和韵律这两个方面,前者由说话人的声道结构、声源激励特性 决定,后者由发音习惯决定。一般来说,语音识别需要提取信号中所包含的语义和语 言特征信息,而说话人识别需要提取有关说话人身份特征的信息。但是目前主要采用 的特征参数如线形预测倒谱系数、m e l 标度倒谱系数、频谱包络等,均同时表征了 语义和说话人的特征信息,无法实现两者的分离描述【2 8 瑚】。因此,只有解决特征分离 问题才能从根本上使语音处理和说话人识别技术产生重大的突破。 对于说话人识别系统,基本上都需要经历训练和识别两个阶段,训练阶段的主要 目标是根据采集的数据和已有知识估计说话人的模型参数,识别阶段则根据训练好的 模型参数判决测试语音的类别。目前采用的几种说话人识别模型包括:( 1 ) 模板结构 模型( t e m p l a t em o d e l ) ;( 2 ) 码本模型( c o d e b o o km o d e l ) ;( 3 ) 统计模型( s t a t i s t i c a lm o d e l ) ; ( 4 ) 人工神经网络模型( a r t i f i c i a ln e u r a ln e t w o r km o d e l ) ;( 5 ) 支持向量机模型( s u p p o r t v e c t o rm a c h i n e ) 。前两类模型训练简单,对数据量要求不高,但没有考虑语音的统计 特征;后两类模型对训练数据量要求较高,训练时间较长,对新的应用环境适应能力 差,但考虑了语音的统计特征,识别准确性更高。与各类模型相对应的模式匹配算法 4 博士论文基于汉语元音映射的说话人识别技术研究 有:( 1 ) 动态规划方法d t w ( d y n a m i et i m ew a r p i n g ) ,适用于模板结构模型t 3 0 1 :( 2 ) 矢 量量化匹配方法v q ( v e c t o rq u a n t i z a t i o n ) ,适用于码本模型 3 1 1 ;( 3 ) 隐马尔可夫模型 高斯混合模型( h i d d e nm a r k o vm o d e l g a u s s i a nm i x t u r em o d e l ) ,适用于统计模型【3 2 】;( 4 ) 径向基函数网络r b f n 方法( r a d i a lb a s i sf u n c t i o nn e t w o r k ) ,适用于神经网络模型 3 3 】; ( 5 ) 支持向量机模型对于有限样本、非线性及高维模式识别中有着更强的处理能力 1 7 0 , 1 7 1 。d t w 没有考虑语音信号统计特征,仅适合文本有关的说话人识别;v q 也没 有考虑语音信号统计特征,但可以实现语义的归一化,因此,适用于文本有关和文本 无关两种情况;h m m g m m 通过v i t e r b i 算法计算似然度得分,完全依赖统计特征, 没有考虑说话人发音的时变特征,计算时间较长,适合文本无关的说话人识别;r b f n 通过对两层前向径向基函数网络的输出计算似然度得分,利用了语音的统计特征,训 练时间较长,但识别时间非常短。这些技术都是本文工作的基点,其结构和算法将在 第二章中详细介绍。 通过对说话人识别技术的简单回顾和难点分析,以及n i s t 年度评测结果m 】,我 们可以大致预测说话人识别技术未来几年的发展方向。 首先是特征描述问题。n i s t 测试结果显示,尽管有些特征对系统性能的提高比 较有限,但是引入新的特征能够稳定提高识别效果。由于现在使用的特征基本都是基 于语音频谱的,而这些特征很容易受到背景噪声、麦克风和信道传输质量的影响【3 5 1 , 因此需要寻找更稳健的特征,例如基音频率特征、韵律特征、习惯语,以及其它一些 更高层表征的特征等。 其次是噪声问题。d o b r o t h 等人【3 6 】从电话呼叫中心的个人查询服务中所录制的语 音信号显示,3 9 3 的对话过程中含有其他的语音信号干扰、音乐以及街道中的各种 噪声。r c r o s e 等人【3 7 】的实验也表明,通常的说话人识别系统在噪声条件发生变化时 效果会明显下降。因此,如何解决噪声环境下的识别问题也成为一个重要的研究方向。 实际上这里需要解决两个不同的问题,一个是在特征提取阶段消除噪声的影响,另一 个是在匹配和评分阶段保证得分的正确性。 再次是训练和测试时间问题。当训练数据和测试数据不足时,说话人识别系统的 性能会迅速下降,尤其对统计模型而言,只有充足的训练数据才能保证模型参数的正 确性【3 町,而实际应用中不可能要求用户为注册和登录花费太多的时间。因此,如何在 有限的语音数据条件下保证识别率也是一个重要的研究课题。 最后是训练条件和测试条件不匹配问题,这也是目前亟待解决的主要问题之一。 不匹配的原因很多,凡是会引起同一个人的声音发生不同变化的情况都在其中,例如 噪声、麦克风质量、传输信道等等。这里主要强调的是补偿技术,即采用何种手段把 这种不匹配现象补偿掉。关于补偿技术的研究是现在的研究热点,目前实现该技术主 要通过三种途径,即分别从特征角度【3 9 1 、模型角度【加】和似然比得分角度进行补偿。 第一章绪论 博士论文 此外,对于汉语语音说话人识别研究来说,如何有效利用汉语语音的特性提高说 话人识别的性能也是一个需要思考的问题。汉语语音具有规则的音节结构和有限的音 节数量,这些特性在汉语语音识别研究中都被很好地利用,但目前说话人识别研究主 要考虑语音的统计特性,忽略了汉语语音的结构特点。由于汉语音节数量有限,一旦 可以从音节角度提取特征和建立模型,那么上述的特征描述问题和数据量的问题都可 以迎刃而解。 总之,说话人识别技术在三十多年的时间里取得了惊人的成果。目前大多数机器 自动识别领域中,机器的识别效果远远不及人类的识别能力,但是在说话人识别领域, 当训练和测试条件匹配时机器的能力已经接近甚至超过了人的能力。然而,当训练和 测试条件不匹配时,人的识别效果会高出机器约4 4 t 4 2 1 。一个明显的例子是在嘈杂的 环境中,人可以捕捉到需要的说话人并进行跟踪,这说明人的抗干扰能力比机器强, 但是机器却能捕捉频谱细节,甚至可以分辨声音很相似的双胞胎的声音。因此说话人 识别技术具有良好的基础和广阔的前景,但是仍然存在很多问题等待解决,需要研究 工作者的不断努力。 1 5 研究思路和创新点 1 5 1 研究思路 在研究过程中,我们发现目前说话人识别领域主要采用了长时平均和统计模型进 行处理,因此研究工作的重心主要跟随了国外科研( 特别是欧美先进技术) 的导向, 忽略了汉语语音自身结构的特点。众所周知,作为东方语系代表的汉语语音和英语语 音具有较大的差掣4 3 】:汉语以音节为发音单位,而音节一般由声母、韵母、声调三个 部分组成。如果不计声调,可以组成约4 0 0 个音节,而有声调的独立音节也只有1 2 6 8 个。相对于英语来说,汉语的语音结构相对简单统一,音节发音相对独立,且具有相 近的时长和能量分布【删。这些特性在汉语语音识别领域已经被广泛利用。此外,统计 模型需要大量的训练数据和识别数据,但是在实际应用中不可能让用户提供这么多信 息,这成为说话人识别技术投入实际应用的障碍之一。如果从汉语音节的角度考虑, 为每个音节建立模型时利用其特征的规整性,就可以大大降低训练模型参数所需的数 据量。我们希望从汉语的这些特点入手,建立新的汉语说话人识别模型,在提高识别 率的同时降低对训练和测试数据量的依赖性。 如果为每个音节建立分类器,即使只有4 0 0 个音节也过于庞大,需要寻找更简单 的分类方式。通过分析可得,一方面,人脑进行说话人识别的过程中,语音信号中的 元音部分更易于分辨:比如对发音 a 】和 s 】进行判别,显然根据前者更容易确定发音 者。另一方面,由于汉语音节结构中单字发音是相对独立的,而音节中元音部分占据 了主要的时长和能量。汉语仅仅具有3 8 个韵母( 由于鼻韵母中包含辅音,实际上对 6 博士论文基于汉语元音映射的说话人识别技术研究 应3 8 个元音组合) ,因此1 个韵母分类器结合3 8 个针对单个韵母的说话人分类器就 可以实现文本无关说话人识别到文本有关说话人识别的转换。在实际操作中,3 9 个 分类器的数量仍然过大,因此希望实现韵母到单元音音素的映射。由于汉语元音部分 持续时间较长,一般对于复元音中的每个音位都存在短时稳定过程,从短时角度将其 分解就能够大大减少元音类型,降低分类器的数量。此外,语音频谱反映了声门信息 和声道信息,这说明即使很短的语音仍然包含了说话人的身份特征。 根据上述思路,本文通过实验和分析得出了汉语元音映射理论,根据该理论,从 短时帧角度可以将韵母中的元音部分分解为单元音音素的组合。从而使文本无关的说 话人识别转变为若干个单元音音素有关的说话人识别问题。由于整个训练和识别过程 是在短时帧特征上进行的,每一帧都可以进行训练和判决,这就大大减少了对训练和 识别数据的需求。根据这一理论我们建立了一种新的汉语说话人识别框架,并按照框 架需要对传统算法进行了改进。对于相关的预处理和后处理技术,如元音帧提取、去 噪、特征提取等部分也作了相应的研究工作。 1 5 2 主要创新点 本文工作主要是基于汉语元音映射技术提出新的说话人识别框架,以及在新框架 下对相关模型的建立和算法改进。主要包括: 1 ) 针对汉语的音节结构规整、元音占据主要时长和能量、韵母中各个组成音素 具有短时稳定性的特点,从短时帧角度将汉语韵母中的元音部
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年空运面试试题及答案
- 区域竞争力与种子市场布局-洞察及研究
- 绿色债券市场透明度提升路径-洞察及研究
- 海洋旅游经济学分析-洞察及研究
- 2024-2025学年云南省曲靖市部分学校高二下学期阶段性诊断考试英语试题
- 2024-2025学年Unit4HistoryandTraditions期末复习基础测试题-高中英语人教版(2019)必修第二册
- 2025年呼吸内科肺部疾病影像学诊断模拟试题答案及解析
- 2025年科目四广州考试题及答案
- 2025年市政工程质量员资格考试试题库及答案
- 2025年中医处方考试试题及答案
- 植物生理学植物的抗逆境生理
- 渔业资源与渔场学PPT完整全套教学课件
- 不同持股比例的“母、子、孙”结构的合并报表处理
- GB/T 1871.1-1995磷矿石和磷精矿中五氧化二磷含量的测定磷钼酸喹啉重量法和容量法
- 第五节 重力流输水管线设计计算
- 元数据教学讲解课件
- CCP与备货0403 (华为培训)课件
- 小学数学西南师大四年级上册二加减法的关系和加法运算律简便计算综合练习PPT
- ASCVD时代总体心血管风险评估工具的更新ppt参考课件
- GB 15579.3-2014 弧焊设备 第3部分:引弧和稳弧装置
- 世界经济史课件PPT
评论
0/150
提交评论