(信号与信息处理专业论文)基于若干声纹信息空间的说话人识别技术研究.pdf_第1页
(信号与信息处理专业论文)基于若干声纹信息空间的说话人识别技术研究.pdf_第2页
(信号与信息处理专业论文)基于若干声纹信息空间的说话人识别技术研究.pdf_第3页
(信号与信息处理专业论文)基于若干声纹信息空间的说话人识别技术研究.pdf_第4页
(信号与信息处理专业论文)基于若干声纹信息空间的说话人识别技术研究.pdf_第5页
已阅读5页,还剩102页未读 继续免费阅读

(信号与信息处理专业论文)基于若干声纹信息空间的说话人识别技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

u n i v e r s i t yo fs c i e n c ea n dt e c h n o l o g y o fc h i n a adi s s e r t a t i o nf o rd o c t o r sd e g r e e r e s e a r c ho ns p e a k e r r e c o g n i t i o n t e c h n o l o g yb a s e d o n v o i c e p r i n t in f o r m a t i o ns p a c e a u t h o r sn a m e : e r y uw a n g s p e c i a l i t y : s i g n a la n di n f o r m a t i o np r o c e s s i n g s u p e r v i s o r :p r o f l i r o n g d a i f i n i s h e dt i m e : m a y1 虬,2 0 1 2 中国科学技术大学学位论文原创性声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的 成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或 撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均己在论文宁作 了明确的说明。 作者签名:掘签字目期: 垫隆:垒 中国科学技术大学学位论文授权使用声明 作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学 拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构 送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入中 国学位论文全文数据库等有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内 容相一致。 保密的学位论文在解密后也遵守此规定。 母公开 作者签名:互王 翮繇盈绥圣强!翮繇猩垒刍重 签字日期:2 受】21 垒! 曼签字日期:勿f 乙石舌 摘要 摘要 随着说话人识别技术的日臻成熟,研究人员开始专注于实际应用中面临的 各种闽题,提出合理的解决方案,以不断的提升系统性能,将说话人识别技术 真正地推向实用化。而在研究和应用当中,如何获取体现说话人身份的声纹信 息,以及如何应用这些信息进行辨识都是当前的热点研究问题。声纹信息是一 种超音段信息,承载这种信息的载体分布于对应说话人所说的全部语音数据当 中,但是不同的声纹信息载体反映说话人信息的能力并不相同。本文将承载说 话人身份信息的某种载体所能表征的所有相关声纹信息,称为声纹信息空间。 于是在语音数据中,就存在若干个能够用于说话人识别技术的声纹信息空间。 本文将从音素空间,时域空间,频率空间,深层特征空间这四个层面的声纹信 息空间入手,展开深入的研究,以求在相应的声纹空间中获得合适的特征表述, 确定合适的建模方法。本论文主要的工作如下: 1 基于音素空间的说话人识别技术 音素片段当中不仅包含文本信息,同时也包含有说话人身份的信息,因此 音素片段是一种声纹信息的载体。可以通过这个载体表征的所有声纹信息,被 称之为音素空间。本文目的在于,在这个独特的声纹信息空间当中,提取并应 用反映说话人身份特性的信息。首先本文借助音素级别的谱包络模版集合,来 揭示不同说话人之间的身份差异。进一步的,为了消除单一谱包络模版集合表 征的音素空间不完备,造成的声纹信息遗漏的问题,因此本文引进了多组谱包 络模版集合来刻画声纹信息。使用音素模版集合刻画声纹信息,类似于在音素 空间中进行声纹信息的编码过程,因此我们称这种方法为多语言编码的说话人 识别系统。为了量化音素模版代表的说话人信息,本文同时使用最大似然线性 回归准则估计出来的映射矩阵和偏移向量来体现这些声纹信息。最后,为了获 取多个音素空间中谱包络模版集合之间的信息互补能力,本文尝试了多种合理 的信息融合策略。实验表明,在音素空间中,本文提出的方法获得了系统性能 上的提升,达到了本文的预期目的。 2 基于时域空间的说话人识别技术 相同说话人在不同的通信环境下,以及不同的自身状态下,产生的语音数 据在表达形式上差异很大。而体现说话人特性的声纹信息,却蕴藏在这些产生 在不同时间点的表达形式当中。本文把蕴藏在来自不同时间段语音内部的声纹 信息,称为时域空间。常用的说话人识别系统在这种变化的环境下,识别性能 会遭受较大的衰减。传统的方法使用因子分析或者扰动属性映射来消除这些不 利的影响,而本文试图用非监督自适应模型的方法来解决时域空间中的这一问 摘要 题。非监督自适应的方法,在模型训练的过程中,不停地使用采集自不同时间 段的语音数据来更新模型,这有效的利用了分布在不同时间段上的声纹信息。 本文首先回顾了非监督自适应方法在模型域上的实现,介绍了硬判决和软判决 这两种更新策略。然后提出了非监督自适应在得分域上的改进算法。通过定义 得分先验分布,以及得分置信度,最终得到针对得分规整的种非监督算法。 这种时域空间上说话人识别技术,避免了模型域更新带来的大规模的计算复杂 度,同时也可以获得不错的识别性能。 3 基于频域空间的说话人识别技术 语音信号频谱上的各个频带之间存在着一定的相关特性,这种相关特性不 仅揭示了语音的文本信息,同时也反映着说话人身份的信息。这种说话人信息 载体所体现的所有声纹信息被称为频域空间。为了揭示频域空间中包含的声纹 信息,以及它们所具有的话者识别能力,本文首先通过实验,证明了协方差建 模对于描述声纹信息分布起着的较为重要的作用。由于协方差矩阵在真实环境 中,面临着参数估计较为困难的情况,本文提出了两种稳定的参数估计方法。 在获得了协方差估计之后,通过构造与均值超级向量相似的信息表达方式,得 到了协方差超级矩阵。随后,本文提出了两种超级矩阵的距离度量公式,来表 征频域空间上的声纹信息的相似程度。最后通过合理的分类器设计,在频域空 间获得了与主流均值超级向量系统相似的识别性能,并且与之有一定的互补能 力。 4 基于深层特征空间的说话人识别技术 传统的识别系统中,无论是建模过程还是特征提取,均可以使用浅层结构 来解释。本文试图利用深层神经网络结构,来探索蕴藏在频谱信息当中,深层 特征空间上的声纹信息。本文首先通过深层神经网络结构,来模拟人类对于声 纹信息的感知。深层神经网络结构的训练分为两个部分:一个是非监督的特征 扩展操作,在这个阶段中,网络结构将原始的语音数据映射为具有抽象概括能 力的深层特征表示。但是经由深层网络结构获得的深层特征表征,并没有清楚 的分离说话人信息与其他非说话人的信息。于是本文提出了网络训练的另一个 重要步骤,即精细调节操作。这个步骤作用在深层特征空间中,目的是进一步 提取声纹信息。为此本文提出了两个限制条件,即通过稀疏编码限制以及说话 人距离限制。在深层特征空间,精细调节网络结构,尽可能地分离说话人相关 和无关这两部分信息。为了避免深层特征空间中的声纹信息被其他因素干扰, 本文选择干净的t i m i t 数据库进行实验验证。目前的实验结果表明,基于深层 网络结构获取的深层特征空间上声纹信息,具有很好的识别性能,并且与传统 的声学特征有很强的信息互补能力。在深层特征空间中获取的实验结果,为进 i i 摘要 一步研究说话人身份感知的机理提供了有力的支持。 关键词:说话人确认支持向量机最大似然线性回归非监督自适应协方 差超级矩阵深层神经网络 i i i a b s t r a c t w i t ht h ed e v e l o p m e n to fs p e a k e rr e c o g n i t i o nt e c h n o l o g i e s ,r e s e a r c h e r ss t a r tt o f o c u so np r a c t i c a lp r o b l e m si nr e a la p p l i c a t i o no ft h e s et e c h n o l o g i e s t ot a k eg o o d a d v a n t a g eo fs p e a k e rr e c o g n i t i o nt e c h n o l o g i e s ,m o r ea n dm o r ee f f e c t i v es o l u t i o n s a r ei n t r o d u c e dt om e e td i f f e r e n ta c t u a lr e q u i r e m e n t s ,a n dt oi m p r o v er e c o g n i t i o n p e r f o r m a n c e h o wt oe x t r a c tr e p r e s e n t a t i v e v o i c e p r i n tf e a t u r ea n dh o wt o m o d e l a c c u r a t es p e a k e rm o d e la r es t i l lt h ek e yp r o b l e m si nn o w a d a y sr e s e a r c h v o i c e p r i n t f e a t u r ei sak i n do fs u p r a s e g m e n t a li n f o r m a t i o nw h i c hi sl o c a t e di nt h ew h o l es p e e c h d a t a , b u tn o tu n i f o r m l yc o n t a i n e di ne a c f id e t a i l e dc u eo ft h ec o r r e s p o f i d i n gs p e e c h d a t a t h ec a r r i e r so ft h ev o i c e p r i n tf e a t u r eo r i g i n a t ef r o md i f f e r e n ti n f o r m a t i o ns p a c e d u et od i f f e r e n ti n t e r p r e t a t i o no fs p e a k e rd e p e n d e n ti n f o r m a t i o n i nt h i sd i s s e r t a t i o n , w ed e f i n ev o i c e p r i n ti n f o r m a t i o ns p a c ea sa l ls p e a k e rd e p e n d e n ti n f o r m a t i o nw h i c ha k i n do fc a r r i e rc a no b t a i n w ew i l le x p l o r ep h o n e t i cv o i c e p r i n ts p a c e ,t e m p o r a l v o i c e p r i n ts p a c e ,f r e q u e n c yv o i c e p r i n ts p a c ea n dd e e ps t r u c t u r e df e a t u r es p a c e i n t h e s es p a c e s ,w ew i l lf o c u so na c q u i r i n ge f f e c t i v er e p r e s e n t a t i o no fv o i c e p r i n ta n d s e t t i n gu pm o d e l i n gm e t h o d f i r s t l y , w eb u i l du pam u l t i l i n g u a lc o d i n gb a s e ds p e a k e rr e c o g n i t i o ns y s t e mi n p h o n e t i cv o i c e p r i n ts p a c e p h o n e t i cs e g m e n t sc o n t a i nn o to n l yt e x t u a li n f o r m a t i o n b u ta l s os p e a k e rd e p e n d e n ti n f o r m a t i o n i ti sa ne f f e c t i v ec a r r i e rf o rv o i c e p r i n t f e a t u r e i nt h i sp a r to fw o r k ,w et r yt oe x t r a c ta n da p p l yv o i c e p r i n tf e a t u r er e s i d e di n t h i ss p a c e t oo b t a i nv o i c e p r i n tf e a t u r e ,as e to fp h o n e t i cp a t t e m si su s e dt or e v e a l t h es p e a k e rd e p e n d e n ti n f o r m a t i o n e x t r a c t i n gs p e a k e ri n f o r m a t i o nw i t hp h o n e t i c p a t t e r n sw o r k sl i k ec o d i n gp r o c e s si n t h i su n i q u ep h o n e t i cs p a c e f u r t h e r m o r e , m u l t i s e t so fp h o n e t i cp a r e m sa r ei n t r o d u c e dt om a k et h i sp h o n e t i cv o i c e p r i n ts p a c e m o r e c o m p l e t e d l i k e t r a d i t i o n a lm l l r - s v ms y s t e m ,w ea l s ou s em l l r t r a n s f o r m st or e p r e s e n tv o i c e p r i n tf e a t u r ef r o mp h o n e t i cp a t t e r n sf o re a c hs p e e c h s e g m e n t b e c a u s et h e s es e t s o fp h o n e t i cp a t t e m sa r eu s e dp a r a l l e l e di na c q u i r i n g s p e a k e ri n f o r m a t i o n ,w ec a l lt h i sm e t h o da sm u l t i l i n g u a lc o d i n gb a s e dm l l r s v m s p e a k e rr e c o g n i t i o ns y s t e m a l s o ,s e v e r a lc o m b i n a t i o ns t r a t e g i e s a r ea p p l i e dt o g a t h e rs p e a k e ri n f o r m a t i o nf r o md i f f e r e n tp h o n e t i cv o i c e p r i n ts p a c ei no r d e rt o i m p r o v et h ep e r f o r m a n c e s e c o n d l y , s p e a k e rd e p e n d e n ti n f o r m a t i o ni s c o n t a i n e di nv a r i a b l e s p e e c h i v a b s t r a c t r e a l i z a t i o n sw h i c hi n c l u d es p e e c hs e g m e n t sf r o md i f f e r e n tc o m m u n i c a t i o nc h a n n e l s , a n do n e sf r o md i f f e r e n tp e r s o n a lf e e l i n g s s i n c ed i f f e r e n ts p e e c hr e a l i z a t i o n sa r e f o r m e di nd i f f e r e n tt i m e ,v o i c e p r i n tf e a t u r ei nt h e s es p e e c hs e g m e n t sa r ec a l l e d t e m p o r a lv o i c e p r i n ts p a c e i nt h i ss i t u a t i o n ,s p e a k e rr e c o g n i t i o ns y s t e mc o u l ds u f f e r g r e a tp e r f o r m a n c ea t t e n u a t i o n t r a d i t i o n a l l y , r e s e a r c h e r s u s ej o i n tf a c t o ra n a l y s i s ( j f a ) a n dn u i s a n c ea t t r i b u t ep r o j e c t i o n ( n a p ) t os o l v et h ep r o b l e m s i nt h i s d i s s e r t a t i o n ,w et r yt ow o r ko u tt h i sp r o b l e mb yu s i n gu n s u p e r v i s e da d a p t a t i o n m e t h o d i tc o u l du p d a t ep a r a m e t e r sa l lt h et i m ew h e nt h e r ei san e wa v a i l a b l e t r a i n i n gd a t a i ti se f f e c t i v ed u e t oc a p t u r i n gv o i c e p r i n tf e a t u r ei nt h et e m p o r a ls p a c e c o m p a r i n gm o d e l b a s e dm e t h o d ,w ei n t r o d u c es c o r e b a s e du n s u p e r v i s e dm e t h o d w i t hh a r da n ds o f td e c i s i o ns t r a t e g y b yd e f i n i n gp r i o rs c o r ed i s t r i b u t i o na n ds c o r e c o n f i d e n c e ,w ef i n a l l yg e ta nu n s u p e r v i s e ds c o r en o r m a l i z a t i o nm e t h o d t h i sm e t h o d c a nb r i n gn i c ep e r f o r m a n c ea n dr e d u c et h ec o m p u t a t i o n a lc o s t 。 t h i r d l y , t h e r e a r ei n s i d ec o r r e l a t i o na m o n gd i f f e r e n tf r e q u e n c yb a n d s t h i sk i n d o fr e l a t i o n s h i pn o to n l yr e f l e c t st e x t u a li n f o r m a t i o nb u ta l s oc o n t a i n ss p e a k e r d e p e n d e n ti n f o r m a t i o n w ed e f i n et h e s ei n f o r m a t i o nc o m ef r o mf r e q u e n c yv o i c e p r i n t s p a c e ,a n da l s oi nt h i ss p a c e ,t h i sd i s s e r t a t i o nw i l lt r yo u tp e r f o r m a n c eo fs p e a k e r r e c o g n i t i o ns y s t e m c o v a r i a n c em a t r i c e sa r ei n t r o d u c e dt od e s c r i b et h ev o i c e p r i n ti n f r e q u e n c yb a n d s d u et od i f f i c u l t yi ne s t i m a t i o no ft h ec o v a r i a n c e ,w ep r o v i d et w o k i n d so fs t a b l ee s t i m a t i o nm e t h o d s l i k et r a d i t i o n a lm e a ns u p p e r - v e c t o r , w e c o n s t r u c tac o v a r i a n c es u p p e r - m a t r i xt or e p r e s e n tt h ev o i c e p r i n t t om e a s u r et h e s i m i l a r i t yo ft h e s ei n f o r m a t i o nc a r r i e r s ,t w od i s t a n c em e t r i c sa r eg i v e n f i n a l l y , w i t h s u p p o r tv e c t o rm a c h i n ea n dl i n e a ri n n e rc l a s s i f i e r s ,w es e tu pas p e a k e rr e c o g n i t i o n s y s t e mi nf r e q u e n c yv o i c e p r i n ts p a c ew h i c hp e r f o r m se q u a l l yw e l l a st r a d i t i o n a l m e a ns u p p e r - v e c t o rs y s t e m s f i n a l l y , w ee x p l o r ev o i c e p r i n tf e a t u r ei nd e e ps t r u c t u r e ds p a c e i nn o w a d a y s r e s e a r c h ,f e a t u r ea n dm o d e lm e t h o dc a nb o t hb ee x p l a i n e db ys h a l l o ws t r u c t u r e d e e ps t r u c t u r ec o u l dr e v e a li n f o r m a t i o nw h i c h i sc o n s t r u c t e db ym o r et h a nt w oo r t h r e el a y e r so fn o n l i n e a rn o d e s i nt h i sd i s s e r t a t i o n ,w ew i l lt r yt of i n do u tv o i c e p r i n t i nd e e ps t r u c t u r e ds p a c ew i t hd e e pn e u r a ln e t w o r k s t h e r ea r et w os t e p si nt r a i n i n g d e e p n e u r a ln e t w o r k s o n ei sp r e t r a i n i n gs t e pw h i c hi sas u p e r v i s e df e a t u r e e x p a n d i n gm e t h o dw i t hd e e ps t r u c t u r e s t h ee x p a n d e df e a t u r ew h i c hc o m e sf r o m d e e ps t r u c t u r e df e a t u r es p a c ec o n t a i n sm o r eg e n e r a la n da b s t r a c ti n f o r m a t i o n i n t h i s s t e p ,t h e f e a t u r ec o u l d n tt e l ls p e a k e rd e p e n d e n ti n f o r m a t i o nf r o ms p e a k e r v i n d e d e n d e n ti n f o r m a t i o n ,b e c a u s ei n f o r m a t i o nf r o mv o i c e p r i n ts p a c e l se q u a lt oo n e f r o mo t h e rs p a c e s ow ei n t r o d u c e t h eo t h e rs t e pw h i c hi sc a l l e d e 觚1 n gt o s e d a r a t ev o i c e p r i n tf e a t u r e f r o mo t h e r s i nt h i sd i s s e r t a t i o n , w ep r o v l d e铆o c o n s t r a i n tc o n d i t i o n st oa c h i e v et h i sa i m t h e y a r es p a r s ec o d i n gm e t h o da n ds p e a k e d i s t a n c eb a s e dm e t h o d t ov e r i f y t h ee f f e c t i v e n e s so ft h ev o i c e p r i n t i nd e e p s t r u c t u r e ds p a c e ,a n da l s ot oa v o i dt h ei n t e r f e r e n c ef r o mo t h e ri n f o r m a t i o n ,w e u 5 e t i m i ta so u rd a t a b a s e i ne x p e r i m e n t s p r e l i m i n a r y r e s u l t sh a v es h o 啪t h a t v o i c e p r i n ti nd e e p s t r u c t u r e ds p a c ec o u l dg i v em u c hb e t t e rp e r f o r m a n c e t h a n t r a d i t i o n a lm e t h o d a l s oo u rp r o v i d e ds y s t e mc a n b ec o m b i n e dw i t hb a s e l l n es y s t 锄 t or e c e i v es i g n i f i c a n ti m p r o v e m e n t k e yw o r d s :s p e a k e rv e r i f i c a t i o n ,s u p p o r t v e c t o rm a c h i n e ,m a x i m u m l i k e l i h o o d l i n e a rr e g r e s s i o n ,c o v a r i a n c es u p p e rm a t r i x ,d e e pn e u r a ln e t w o r k v i 目录 目录 摘要i a b s t r a c t i v 第1 章绪论1 1 1 说话人识别及其发展历史1 1 1 1 背景1 1 1 2 说话人识别技术概述2 1 1 3 说话人识别技术的应用3 1 1 4 说话人识别技术历史回顾5 1 2 说话人确认系统基线系统( g m m u b m ) 7 1 2 1 特征提取8 1 2 2 说话人模型建立9 1 2 3 测试得分及得分规整1 0 1 3 说话人确认系统的评价标准一11 1 4 标准数据库1 2 1 4 1n i s ts r e 数据库1 3 1 4 2t i m i t 数据库1 4 1 5n i s ts r e2 0 0 6 年核心测试性能1 4 1 6 论文研究问题以及组织结构1 6 第2 章基于音素空间的说话人识别技术研究1 8 2 1 引言1 8 2 2 最大似然线性回归2 l 2 3 多语言编码2 3 2 3 1 离散无记忆源2 3 2 3 2 两阶段声纹信息提取2 4 2 - 3 3 多语言编码声纹识别系统2 6 2 3 4 得分端的融合策略2 7 目录 2 4 实验以及结果2 9 2 4 1 多语言编码说话人识别系统的配置2 9 2 4 2 结果以及分析3 0 2 5 本章小结3 4 第3 章基于时域空间的说话人识别技术研究3 6 3 1 引言3 6 3 2 混合高斯模型通用背景模型和联合因子分析一3 8 3 3 非监督自适应模式3 9 3 3 1 模型域的非监督自适应算法3 9 3 3 2 得分域的非监督自适应算法4 0 3 4 实验以及结果4 3 3 4 1 系统实验配置4 3 3 4 2 结果以及分析4 4 3 5 本章小结4 7 第4 章基于频域空间的说话人识别技术研究4 8 4 1 引言4 8 4 2 满方差矩阵的建模方法5 0 4 2 1 最大后验概率估计。5 0 4 2 2 因子分析估计一5 l 4 3 构造超级协方差矩阵一5 3 4 4 度量准则5 4 4 4 1 弗罗宾尼斯角度5 4 4 4 2 对数欧拉距离度量5 5 4 4 3 支持向量机5 7 4 4 4 线性内积分类器5 8 4 5 实验以及结果5 8 4 5 1 系统实验配置5 8 4 5 2 结果以及分析5 9 4 6 本章小结6 2 第5 章基于深层特征空间的说话人识别技术研究6 3 i i 目录 5 1 引言6 3 5 2 深层神经网络6 5 5 3 层叠的自动编码器6 6 5 4 提取声纹信息的网络结构7 0 5 4 1 稀疏编码限制7 i 5 4 2 说话人距离限制7 3 5 5 实验及结果7 6 5 5 1 深层神经网络特征扩展系统的参数配置一7 7 5 5 2 实验以及结果7 7 5 6 本章小结8 4 第6 章总结8 5 6 1 论文的主要贡献8 5 6 2 进一步的研究方向8 6 参考文献8 8 致谢一9 4 在读期间发表的学术论文与取得的其他研究成果9 5 i i i 第1 章绪论 第1 章绪论 1 1 说话人识别及其发展历史 1 1 1 背景 语音是人们交流沟通的时候,最重要,最自然,同时也是最直接的方式之 一。语音作为传递人们的思想意图的媒介,语音信号之中蕴藏着大量的信息。 从语音信号的产生机制来看,我们将语音信号从人类的意识层面,通过生理层 面,最终到声学层面这一个过程,运用信号与信道的数学模型( s o u r c e c h a n n e l m a t h e m a t i c a lm o d e l ) ( h u a n ge ta 1 ,2 0 0 1 ) 来解释其中包含的信息。在产生语音 信号的源端,激励中包含了人类大脑中需要表达的文本信息,这其中包括了词 法,句法,语法,以及语义等内容信息。语音信号产生过程中需要传输信道, 这又包含了整个发音过程中涉及到发音器官的相关信息,包括发音器官的运动 方式,所在位置,以及它们之间的协作关系。在语音信号生成之后,语音信号 要经过外在的环境,会进一步受到客观环境的影响,其中又携带了背景噪声, 真实传输信道以及采集麦克风种类这些信息。语音信号从人脑的意念,经过物 理的生成过程,到最后形成真实的存在。单就语音信号本身携带的信息而言, 其中就包含了文本信息,以及与说话人身份相关的情感,年龄,种族,方言以 及社会地位等信息。面对内涵丰富复杂的语音信号,人类大脑可以很容易的从 语音信号之中提取出感兴趣的信息部分。而在现实生活中,为了使人们的生活 更方便舒适,就需要使用大量的语音技术,可以按照人们的要求,自动地从语 音信号中提取出各种有用的信息。这个客观需求就使得智能语音信号处理的技 术领域发展迅速,大量的研究机构和研究学者从事这个领域的研究,最近几年 涌现出大量的新技术新方法,在一定程度上加快了研究转化为应用的进程。 智能语音信号处理领域根据研究课题的差异,包络语音合成( s p e e c h s y n t h e s i s ) ( d u t o i t ,2 0 0 1 ) ,语音识别( s p e e c hr e c o g n i t i o n ) ( a c e r oa ,1 9 9 3 ) , 语音评测( s p e e c ha s s e s s m e n t ) ( w i t t ,19 9 9 ) ,以及语音检索( s p e e c hr e t r i e v a l ) ( w h i t t a k e re ta 1 ,1 9 9 9 ) 等几个大的方向。其中语音识别领域,按照关注的信 息内容的不同,一般分为语音识别( a u t o m a t i cs p e e c hr e c o g n i t i o n ,a s r ) ,说 话人识别( 即声纹识别) ( s p e a k e rr e c o g n i t i o no rv o i c e p r i n tr e c o g n i t i o n ) ( r e y n o l d se ta 1 ,2 0 0 0 ) ,以及语种方言识别( l a n g u a g ea n d d i a l e c tr e c o g n i t i o n ) 第1 章绪论 ( t o r r e s - c a r r a s q u i l l oe ta 1 ,2 0 0 2 ) 。语音识别的目的在于提取语音信号中传递的 文本信息,语种识别目的在于分析语音信号来自于哪个语言种类以及哪个方言 地区,而说话人识别则是关注说话人本身的身份信息。 随着计算机处理能力的增强,以及互联网技术的发展,人们在日常生活中, 接触到的语音数据越来越多,同时人们对于语音数据的依赖也越来越强。对于 说话人识别技术而言,由于越来越多的应用场合需要使用个人的身份信息,而 人类的说话声音作为代表身份的重要载体,自然地成为人们关注的焦点。同时, 其他涉及人类身份信息的技术,包括指纹( f i n g e r p r i n tr e c o g n i t i o n ) ,掌纹( p a l m p r i n t r e c o g n i t i o n ) ,人脸( f a c er e c o g n i t i o n ) ,虹膜( i r i sr e c o g n i t i o n ) 以及手写 签名识别( h a n d w r i t i n gr e c o g n i t i o n ) 等技术,都在应用的需求下,得到了很大 的发展。对比其他的身份识别技术,说话人识别技术,具有生物信息特征获取 方便简单,对于采集存储识别的设备要求没有任何的依赖性,生物特征本身难 以被:模仿等特点,具有极大的优势。并且在信噪比( s i g n a lt on o i s er a t i o ,s n r ) 比较差的应用场合下,声音这种生物特征也可以通过有效的信道补偿技术,获 得不错的识别性能。在某些特定的场合中,说话人识别技术的识别能力甚至高 于人类本身的识别能力。基于以上这些优点,说话人识别技术是一种较为合理 的身份识别技术。 1 1 2 说话人识别技术概述 说话人识别技术一般分为两大类问题:说话人辨识问题( s p e a k e r i d e n t i f i c a t i o n ) 和说话人确认问题( s p e a k e rv e r i f i c a t i o n ) 。在给定一段语音数据 之后,在确定的说话人集合中,寻找这句语音数据来自于其中哪一个说话人, 或者判断其是否来自于集合的外部。这个问题是说话人辨识,从模式识别的角 度看,它是一个多分类的问题。由于这个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论