(信号与信息处理专业论文)说话人识别方法与策略的研究.pdf_第1页
(信号与信息处理专业论文)说话人识别方法与策略的研究.pdf_第2页
(信号与信息处理专业论文)说话人识别方法与策略的研究.pdf_第3页
(信号与信息处理专业论文)说话人识别方法与策略的研究.pdf_第4页
(信号与信息处理专业论文)说话人识别方法与策略的研究.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(信号与信息处理专业论文)说话人识别方法与策略的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

碍 q 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究作出重要贡献的个人和集体,均已在文中以明确方式标明。本声明 的法律责任由本人承担。 论文作者签名:盔! 垒丝 日 期: w - ,- 枷 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学 、_ 。一一 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 ,) u 文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:盛! 鱼经导师签名:! 乏! 氲日期: 雎 0s 。1 ;。如 一 11卜-卜-|旷k叫b i ,“r 山东大学硕士学位论文 中文摘要 随着信息技术的发展,如何鉴定个人身份,保护信息安全越来越 重要。说话人识别作为生物特征认证技术的一种,和传统的认证方式 相比,具有使用方便、安全性高、不易被遗忘等优点,在电话金融交 易、军事侦察和信息检索等领域有着广泛的应用前景。 本文首先回顾了说话人识别技术的发展历史和研究现状,对说话人 识别系统的组成、原理进行了介绍,然后阐述了说话人识别的三种主 要识别方法:非参数模型方法、参数模型方法和人工神经网络方法。 每种方法都有各自的特点,由于h m m 模型成功描述了语音信号的统 计特性,已成为目前最佳的说话人识别处理模型。此外,在与文本无 关的说话人识别中,g m m 也常被采用。 本文对说话人识别中所涉及的两个关键问题,即说话人的特征提 取和说话人识别模型的建立进行了重点研究。目前常用的代表说话人 特征的参数除了传统的长时统计参数以外,主要是使用l p c 参数和 m f c c 倒谱参数,相对来说m f c c 参数的鲁棒性效果更好些。在说话 人模型方面,可以采用的方法很多,我们主要考察研究了模板匹配法、 矢量量化法、隐马尔可夫模型法以及高斯混合模型法,其中在模板匹 配法中分别对基音特征和长时谱特征的模板匹配方法作了分析研究。 在此基础上,本文提出两种改进识别方法并在m a t l a b 上进行了 系统仿真。一种是基于子带的v q 话者识别方法,通过与通常的宽频 带话者识别方法进行对比实验,发现子带结构的分类器能够有效增加 系统的正确识别率和对窄带噪声的鲁棒性,并且在子带数目为1 6 时, 系统的识别性能最好。另一种话者识别方法是基于复合策略和参数模 型的,系统采用复合策略综合了声源和声道信息,建立基音周期和 m f c c 参数的联合测度,利用模板匹配法进行初级判决,有效缩小了 待识别的候选集大小,第二级细判采用基于统计模型的c h m m 分类器 进行,保证了系统的识别率。在使用复合策略和c h m m 模型来建立说 4 山东大学硕士学位论文 话人识别系统的基础上,我们还通过采用混合训练的方法来增强系统 对各种噪声的适应能力,提高了系统的鲁棒性和实用性。实验表明, 采用复合策略和序贯判决的话者识别系统在识别的精度和效率上均得 到了好的效果。 本文的最后对自己所做的工作进行了总结,并指出了存在的问题 和下一步继续研究的思路。 关键词:说话人识别矢量量化h m m 子带处理复合策略 山东大学硕士学位论文 a b s t r a c t w i t ht h e d e v e l o p m e n t o fi n f o r m a t i o n t e c h n o l o g y ,i n d i v i d u a l i d e n t i f i c a t i o na n di n f o r m a t i o ns e c u r i t yb e c o m em o r ea n dm o r ei m p o r t a n t s p e a k e rr e c o g n i t i o n ( s r ) t e c h n i q u ei so n eo fb i o l o g i c a lt e c h n o l o g i e sw i t h w h i c hc o m p u t e rc a na u t o m a t i c a l l yi d e n t i f yt h ei n d i v i d u a lb a s e do nh u m a n c h a r a c t e r i s t i c s c o m p a r e dw i t ht r a d i t i o n a lm e t h o d s t h en e wm e t h o d p r o p o s e di n t h i sp a p e ri sm o r ec o n v e n i e n t ,s a f e r ,a n dn o te a s yt oh e f o r g o t t e no rr e p l a c e d s p e a k e rr e c o g n i t i o nc a nb e u s e du n d e ral o to f c i r c u m s t a n c e s ,s u c ha st h et e l e p h o n ee l e c t r o n i cc o m m e r c e ,m i l i t a r y w i r e t a p p i n g ,i n f o r m a t i o nr e t r i e v a l ,a n ds oo n i nt h i sp a p e r ,t h ed e v e l o p m e n th i s t o r yo fs p e a k e r r e c o g n i t i o na n dt h e r e s e a r c hs t a t u sa r eo u t l i n e d f i r s t l y ,t h e n t h e t h e o r y a n d s y s t e m c o m p o s i t i o n o fs rs y s t e ma r es t u d i e da n dt h r e e p r i m a r ym e t h o d s i n c l u d i n gn o n p a r a m e t e rm o d e l ,p a r a m e t e rm o d e la n dn e u r a ln e t w o r k s m e t h o da r e s u m m a r i z e d e v e r ym e t h o dh a s i t so w na d v a n t a g e sa n d d i s a d v a n t a g e s b e c a u s et h eh m md e s c r i b e st h es t a t i s t i c a lc h a r a c t e r i s t i c s o fs p e e c hs i g n a l ss u c c e s s f u l l ya n dc a ng e tt h eg o o dr e c o g n i t i o nr e s u l t s ,i t i st h em o s tp o p u l a rm e t h o da tp r e s e n t t h eg m mi so f t e nu s e di nt h e t e x t i n d e p e n d e n ts r t h ea t t e n t i o no ft h ep a p e ri sc o n c e n t r a t e do nt h es p e a k e rf e a t u r e e x t r a c t i o na n ds p e a k e r m o d e l i n gw h i c ha r et h et w ok e yp r o b l e m si n s p e a k e rr e c o g n i t i o n t h em o s tp o p u l a rf e a t u r ep a r a m e t e rs e t sa r et h el p c a n dm f c c ,a n dt h ep e r f o r m a n c eo ft h el a t t e ri sal i t t l eb e t t e rt h a nt h e f o r m e r i na d d i t i o n ,s o m ef e a t u r e sb a s e dl o n g t e r ms p e e c ha n a l y s e sa r e u s e d t h e r ea r em a n ym e t h o d st h a tc a nb eu s e dt oc o n s t r u c tt h es p e a k e r m o d e l t h ep a p e r m o s t l yi n t r o d u c es o m em e t h o d ss u c ha st e m p l a t e m a t c h i n g ,v e c t o rq u a n t i z a t i o n ,h i d d e nm a r k o vm o d e l sa n dg a u s s i a n 6 山东大学硕士学位论文 m i x t u r em o d e l s ,a n dt h et e m p l a t em a t c h i n gm e t h o di su s e di nt h ep i t c h p e r i o dt e m p l a t em a t c h i n ga n dl o n g t e r ms p e c t r u mt e m p l a t em a t c h i n g i nt h ee x p e r i m e n tp a r t ,t w or e c o g n i t i o na p p r o a c h e sw eb r o u g h t f o r w a r da r es i m u l a t e do nm a t l a bp l a t f o r m o n ei st h e s p e a k e r r e c o g n i t i o na p p r o a c h b a s e do nt h es u b b a n d p r o c e s s i n g a n d v q c o m p a r e dw i t ht h ew i d e - b a n ds r ,t h ee x p e r i m e n t ss h o wt h a ts u b - b a n d a p p r o a c hc a ne n h a n c et h es y s t e mr e c o g n i t i o nr a t ea n dr o b u s t n e s sf o r n a r r o w - b a n dn o i s ee f f e c t i v e l y ,a n dw h e nt h en u m b e ro fs u b - b a n di s16 , t h es y s t e mh a st h eb e s tp e r f o r m a n c e t h eo t h e ra p p r o a c hi sb a s e do nt h e m u l t i p l es t r a t e g i e sa n dp a r a m e t e rm o d e l h e r ev o c a ls o u r c ea n dv o c a l t r a c ti n f o r m a t i o na r ei n t e g r a t e d ,a n daj o i n tm e a s u r i n gi se s t a b l i s h e di n t h ef i r s t l e v e l d e c i s i o n ,a n dt h e nt h ec a n d i d a t ec o r p u sc a nb er e d u c e d e f f e c t i v e l y c h m mr e c o g n i z e rb a s e do ns t o c h a s t i cm o d e l si sa d o p t e di n t h es e c o n dd e c i s i o n ,b yw h i c ht h es y s t e mr e c o g n i t i o nr a t ec a nb ee n s u r e d i no r d e rt or a i s et h er o b u s t n e s sa n dt h ep r a c t i c a b i l i t yf u r t h e r ,t h em i x e d s p e e c ht r a i n i n gm e t h o di su s e dt o o t h ee x p e r i m e n tr e s u l t ss h o wt h a tt h e s y s t e mb a s e do nt h em u l t i p l es t r a t e g i e sa n ds e q u e n c e - o r d e rd e c i s i o nc a n n o to n l ye n s u r et h er e c o g n i t i o nr a t e ,b u ta l s or a i s et h er e s p o n s es p e e d v i r t u a l l y a tl a s t ,t h et h e s i sg i v e sas u m m a r yo fm yw o r ka n dp o i n t so u ts o m e p r o b l e m sa n di d e a sf o rf u r t h e rr e s e a r c h k e y w o r d :s p e a k e rr e c o g n i t i o n ,v e c t o rq u a n t i z a t i o n ,h i d d e n m a r k o v m o d e l s ,s u b b a n dp r o c e s s i n g ,m u l t i p l es t r a t e g i e s 7 山东大学硕士学位论文 一般变量: j ( 拧) p ( 玎) 矗( 一) 日( z ) j ( 刀) 口,( f = 1 , 2 ,p ) p ( x ,】,) x n z d ( 以,e ) 咧 n m 万 彳 b 吼 q d q + 喜( f ,_ ,) 喜( f ) p ( o l 五) 符号说明 语音序列 准周期脉冲或者白噪声 声道脉冲响应 声道频率响应 s ( h ) 的倒谱 p 阶的线性预测系数 相似度 待测矢量 码字矢量 待测矢量x 。和码字矢量巧之间的距离。 第f 个话者的第k 个特征分量的权重 h m m 的模型参数 模型的状态数 模型的混和数 初始状态的概率矢量 转移概率矩阵 概率分布矩阵 t 时刻所处的状态 f 时刻观测到的观察值 观察序列 最佳状态序列 t 时刻从状态只转移到口,的转移概率 t 时刻m a r k o v 链处于只状态的概率 输出概率 山东大学硕士学位论文 。 均值矢量, 。 协方差矩阵 c 。 混合系数 6 m ( x ) 分歧密度 混合加权值 p ( x l 五) 似然概率 缩略名词索引: s r s p e a k e rr e c o g n i t i o n 说话人识别 v p r v o i c e p r i n tr e c o g n i t i o n 声纹识别 s v s p e a k e rv e r i f i c a t i o n 说话人确认 s i s p e a k e ri d e n t i f i c a t i o n 说话人辨认 d t w d y n a m i ct i m ew a r p i n g动态时间规整 p c a p r i n c i p a lc o m p o n e n ta n a l y s i s 主分量分析 v q v e c t o rq u a n t i z a t i o n 矢量量化 h m mh i d d e nm a r k o vm o d e l s 隐马尔可夫模型 d h m md i s c r e t eh i d d e nm a r k o vm o d e l s离散h m m c h m mc o n t i n u o u sh i d d e nm a r k o vm o d e l s连续h m m s c h m ms e m i c o n t i n u o u sh i d d e nm a r k o vm o d e l s 半连续h m m g m mg a u s s i a nm i x t u r em o d e l 高斯混合模型 a n na r t i f i c i a ln e u r a ln e t w o r k人工神经元网络 m l p m u l t i l a y e rp e r c e p t i o n多层感知机函数 r b fr a d i a lb a s i sf u n c t i o n 径向基函数 l pl i n e a rp r e d i c t i o n 线性预测 l p cl i n e a rp r e d i c t i o nc o e f f i c i e n t 线性预测系数 l p c c m f c c d c t f f t l i n e a rp r e d i c t i o nc e p s t r a lc o e f f i c i e n t 线性预测倒谱系数 m e lf r e q u e n c yc e p s t r a lc o e f f i c i e n tm e l 倒谱系数 d i s c r e t ec o s i n et r a n s f o r m 离散余弦变换 f a s tf o u r i e rt r a n s f o r m快速傅立叶变换 9 山东大学硕士学位论文 第一章绪论 通过语音传递信息是人类最重要、最有效、最常用和最方便的信 息交换形式。因此,语音信号处理的研究也日益显示出它的重要性。 大体上说,语音处理的研究可以分为以下几个方面:即语音分析、语 音编码、语音合成和语音识别等。其中,语音分析是从时域、频域或 变换域对语音信号的参数进行分析,是语音处理的基本手段;语音编 码是压缩语音信号便于传输通信和保密;语音合成是让机器模仿和代 替人的发音功能;语音识别则是让机器模仿或代替人的听觉功能,又 可以分为说话语音内容的识别( 一般称为语音识别) 、说话人的识别和 语种识别三种。说话人识别属于生物特征识别技术的一种,就是从说 话人的一段语音中提取说话人的个性特征,通过对这些个性特征的分 析和识别,从而达到对说话人进行辨认或者确认的目的。 说话人识别的应用有一些特殊的优势:比如使用者的接受程度高; 获取语音的识别成本低廉,使用简单;适合远程身份确认;配合一些 其他措施,如语义识别等,可以进一步提高准确率等。随着现代数字 通讯、多媒体系统、信息高速公路等技术的应用和发展,说话人识别 已经越来越深入地影响并改变着我们每个人的生活和工作方式,同时 也对语音信号处理的研究工作提出了更高的要求,它在各方面的进展 也更加令人瞩目。 1 1 说话人识别的研究与进展 对说话人识别的研究始于2 0 世纪3 0 年代,早期的工作主要集中在 人耳听辨实验和探讨听音识别的可能性方面。随着研究手段和工具的 改进,研究工作逐渐脱离了单纯的人耳听辨。b e l l 实验室的l g k e s t a 用目视观察语谱图的方法进行识别,提出了“声纹”( v o i c e p r i n t ) 的概 念。之后,随着电子技术和计算机技术的发展,使通过机器自动识别 山东大学硕士学位论文 人的声音成为可能。b e l l 实验室的s p r u z a n s k y 提出了基于模式匹配和 概率统计方差分析的说话人识别方法,引起信号处理领域许多学者的 注意,形成了声纹识别研究的一个高潮,其间的工作主要集中在各种 识别参数的提取、选择和实验上,并将倒谱和线性预测分析等方法应 用于说话人识别。 现在,说话人识别的研究重点转向语音中说话人个性特征的分离提 取、个性特征的增强、对各种反映说话人特征的声学参数的线性或非 线性处理以及新的说话人识别模式匹配方法上,如动态时间规整 ( d t w ) 、主分量分析( p c a ) 、矢量量化( v q ) 、隐马尔可夫模型( h m m ) 和人工神经元网络方法( a n n ) 以及这些方法的组合技术等【l 】。 1 2 说话人识别的概念 人具有根据声音来识别说话人的能力,那么计算机能否模仿人的这 种能力来自动识别说话人呢? 让计算机根据语音信号来自动识别说话 人的技术,就称为“说话人识别”( s r ) 或者称为“声纹识别”( v p r ) 。 j l i l 练 预特 r i 处征 理提 、i 取 7 l 识别 图1 1 说话人识别系统框图 果 说话人识别是从说话人的一段语音中提取说话人的个性特征,通过 对这些个人特征的分析和识别,达到对说话人进行辨认或者确认的目 的。图1 1 是说话人识别系统的结构框图,它由预处理、特征提取、模 式匹配和判断几个部分组成。 山东大学硕士学位论文 建立一个说话人识别系统可以分为两个阶段:训练阶段和识别阶 段。训练阶段的目的是抽取话者的特征参数,建立每个说话人的模板 或者模型参数参考集。识别阶段的目的则是把待识别语音的特征参数 和训练好的模板集进行比较,并根据一定的相似性准则进行判定,给 出识别结果。 根据识别目的的不同,可以将说话人识别分为说话人确认( s v ) 和说话人辨认( s i ) 两类。说话人确认是指确认一个人的身份,只涉 及一个特定的参考模型和待识别模板的比较,只作出“是”或“不是” 的二元判决,属于“二选一”的问题。而说话人辨认,系统必须辨认 出待识别的语音是来自待考察的个人中的哪一个,有时还要作出拒绝 的判别,是一个“多选一”的问题。由于需要比较和判别,所以说话 人辨认的误识率要大于说话人确认,并且随着说话人数量的增加,其 识别性能也将会逐渐下降,即说话人集合的大小,对于二者的影响是 不同的。 从对集外说话人的处理方式看,说话人辨认又分为闭集( c l o s e s e t ) 和开集( o p e n - s e t ) 两种情况。闭集是指待识别的话者语音均来自于给 定的说话人集合。与闭集的说话人辨认不同的是,对于开集的说话人 辨认,测试语音有可能不是说话人集合中的任何一个人的语音。开集 的说话人辨认不但要从集合中找到最相似的说话人,而且要判断测试 语音是否真正属于这个最相似的说话人。也就是说,开集的说话人辨 认是闭集的说话人辨认同说话人确认的结合。显而易见,闭集辨认的 正确识别率要高于开集辨认,但开集辨认系统具有一定的“拒识”功 能,与实际情况更为一致,显然也具有更广的应用范围。 根据对训练和测试语音内容的要求不同,还可以将说话人识别分为 与文本有关( t e x t - d e p e n d e n t ) 、与文本无关( t e x t i n d e p e n d e n t ) 和文本 指定型( t e x t - d e p e n d ) 三种情况。与文本有关的说话人识别系统中,要 求用户按照规定的内容发音,例如“0 9 ”的数字,每个人的声纹模 型也就逐个被精确地建立,而识别时也必须按规定的内容发音,因此 可以达到较好的识别效果,但系统需要用户配合,如果用户的发音与 山东大学硕士学位论文 规定的内容不相符,则无法正确识别该用户,在应用中带来一定的局 限性。与文本无关的识别系统则不规定说话人的发音内容,模型建立 相对困难,但用户使用方便,可应用的范围较宽,它不依赖特定的语 句,而主要依据语音的长时统计特性来识别说话人。一般来讲,与文 本有关的系统的正确识别率要高于与文本无关的系统。与文本无关的 系统一般需要更多的语音数据来更准确地提取与说话人有关的信息。 无论是与文本有关还是与文本无关的说话人识别,系统都无法区分 一个发音是现场发音还是录音回放。但文本指定型的说话人识别系统 可以有效地解决这一问题。每一次识别都必须先由识别装置向说话人 指定要发音的文本内容,只有在系统确认说话人对指定文本内容正确 发音时,系统才给予接受,以使假冒者无法事先录音,有效防止了话 者本人的语声被盗情况的发生。 1 3 说话人识别技术的分类 前面也提到了说话人识别系统主要包括两部分,即特征提取和模式 识别。特征提取的任务是提取并选择对说话人的声纹具有可分性强、 稳定性高等特性的声学或语言特征。与语音识别不同,声纹识别的特 征必须是“个性化”特征。模式识别的任务是对训练和识别时的特征 模式作相似性匹配。 说话人识别是国际上的热点问题,近年来人们尝试了多种说话人 识别方法,使说话人识别的正确率逐步得到了提高。按照模式匹配方 法的不同,可大致分为三类2 ,3 ) :非参数模型方法、参数模型方法和人 工神经网络方法。这三类方法之间也常被相互结合,构成更高效的说 话人识别方法。 1 ) 非参数模型方法 所谓非参数模型,是指用从说话人的语音信号中提取出的一组特征 矢量来直接代表说话人。常用的有模板匹配方法和矢量量化方法。 模板匹配方法 山东大学硕士学位论文 模板匹配方法是通过求语音信号某些声学特征的长时平均来进行 说话人的辨认,这一平均也称统计均值,是一种早期的说话人识别技 术。使用模板匹配方法时,首先计算每一个说话人声学特征的均值作 为参考模板,然后再对待测语音计算均值,与所有说话人的模板进行 比较,根据晟小距离准则或者某个相似性测度,进行说话人的识别。 其基本思想是经过长时平均后的频谱参数或基音周期等声学特征滤除 了语音内容变化对声学特征的影响,从而主要反映的是说话人的个性 特征。对于与文本无关的说话人辨认,语音的长度应该有数秒到数十 秒,以保证系统能够进行有效的识别。在模板匹配方法中可使用多种 距离尺度,欧氏距离和马氏距离是经常使用的两种。 不过,使用特征统计平均的识别结果通常并不是最好的,这种方法 对信号或背景噪声的变化较为敏感。在一些比较难的与文本无关的说 话人辨识系统中应用得比较成功。 矢量量化方法 矢量量化模型是非参数模型法中最常用的一种,方法简单,实时性 和效果也比较好,比较适合训练数据量较小时的说话人识别。从语音 信号中提取的说话人特征,是一个多维矢量的时间序列,首先,对每 一个话者训练样本的特征矢量序列聚类求平均,作为其参考模型码本; 识别时,从待测语音中提取特征矢量序列,用系统已有的码本依次对 之进行矢量量化,计算各自的平均量化失真,平均量化误差最小的码 本对应的话者即为识别结果。该方法的缺点是对模型的刻画还不够精 细,由于码书大小的限制,直接扩展到大数据量的时候,效果不如参 数模型法里的h m m 和g m m ,但是和h m m 方法配合使用会收到更好 的效果”j 。 2 ) 参数模型方法 参数模型是指采用某种概率密度函数来描述说话人语音特征的空 间分布,并以该概率密度函数的一组参数作为说话人的模型。这些参 数可以用从训练语音中提取的特征参量来进行估计。典型的参数模型 方法是隐马尔可夫模型( h m m ) 5 1 和高斯混合模型( g m m ) 【3 ,6 ,7 1 。 山东大学硕士学位论文 h m m 由两个随机过程组成,一个描述语音的准平稳性,一个描述短时 平稳段向下一个短时平稳段的转变,该模型成功描述了语音信号的统 计特性,已成为目前最佳的识别模型。近十几年以来一直是语音识别, 特别是连续语音识别的一项核心技术,适合处理利用大量语音数据的 情况,在与文本有关的说话人识别中,最好的结果就是由c h m m 取得 的。在与文本无关的说话人识别中,各态历经h m m 常被采用,1 个状 态的连续h m m ( 也称g m m ) 效果也特别好,是当今与文本无关的说 话人识别中的主流技术。 3 ) 神经网络方法 8 1 人工神经网络在一定程度上反映了人脑功能的若干基本特性,是一 种更接近于人的认知过程的计算模型,为说话人识别提供了一个新的 途径。神经网络方法不是为每一个话者训练一个模型,而是训练出一 个判决函数来区分一个训练集内的不同话者。常用的有多层感知机函 数( m l p ) 和径向基函数( r b f ) ,该方法具有非线性、鲁棒性和自学 习特性等优点,性能近似理想的分类器,识别效果与v q 相当,近来 逐渐受到人们的重视。缺点是对于大多数的神经网络来说,增加一个 说话人,整个网络都要重新进行训练,并且训练时间长,网络的规模 随着说话人数目的增加,可能大到难以训练的程度。 实际使用时,针对具体应用情况,可以将各种方法加以结合,充分 利用各方法的优点,以改善说话人识别的性能【9 】。 1 4 本文主要工作 本文研究对象是说话人识别的方法和策略,并针对系统抗噪、参数 选取、提高响应速度等问题提出改进方案和措施,对本论文提出的两 种改进识别算法在m a t l a b 上进行系统仿真,最后对系统的鲁棒性进 行了一些实验性研究。 第一章由说话人识别的研究历史和发展现状引入,对说话人识别系 统的组成、原理和技术分类进行了介绍。 山东大学硕士学位论文 第二章介绍了说话人识别中常用的基本特征参数,如基音周期、线 性预测系数和倒谱系数等,并对每一种参数的提取方法进行了具体分 析。 第三章阐述了常用的非参数模型的建模方法,主要是模板匹配法和 矢量量化法等。 第四章讨论了参数模型的建模方法,着重介绍了隐马尔可夫模型的 概念、算法、分类和具体实现中要注意的问题以及高斯混合模型的使 用方法和算法等。 第五章是本论文提出的两种改进识别方法的介绍,并在m a t l a b 平台上进行了系统仿真。一个是基于子带和v q 的话者识别方法,另 一个是复合策略和序贯判决的c h m m 说话人识别,并对系统的鲁棒性 问题进行了探讨。 第六章对全文进行了总结和展望。 山东大学硕士学位论文 第二章特征提取 特征提取和模式识别是影响系统识别性能的两个重要方面,声学特 征的提取与选择是说话人识别系统面临的基本问题和重要环节。 语音信号是一个随机非平稳信号,但在一个短时间范围内,其特性 基本保持不变,即具有短时平稳性,所以对语音的分析也必须建立在 “短时”的基础上进行分帧处理,帧长一般取为1 0 3 0 m s 。分帧时既 可以连续分帧,也可以交叠分帧。 作为说话人识别的语音特征,一般来说应满足如下准则1 1 】: 1 ) 能有效区分不同的说话人;但又能在同一说话人的语音发生变 化时相对保持稳定。 2 ) 易于从语音信号中提取。 3 1 不易被模仿。 4 1 尽量不随时间和空间变化。 一般来说,同时满足上述全部要求的特征通常是不可能找到的( 至 少目前是这样的) ,只能使用折中方案,。本章将介绍在说话人识 别研究中常用的一些说话人特征参数,比如基音周期、线性预测系数 和倒谱系数的提取方法和步骤。 2 1 基音周期 基音是指发浊音时声带振动所引起的周期性,而基音周期是指声带 振动频率的倒数。基音周期是语音信号最重要的参数之一,它描述了 语音激励源的重要特征,在许多领域有着广泛的应用。由于人的声道 特性具有时变性,且基音周期的范围很宽,还有语音信号的准周期性 和声道共振峰的影响等,均导致不容易精确提取基音周期参数。虽然 其提取有许多困难,但由于其重要性,所以基音的检测【1 2 】一直是重要 研究课题。 山东大学硕士学位论文 音调特征在实际语音信号中并非独立存在,总是混杂在话者声道特 性和讲话内容信号当中,要想准确地提取该信号,需采用适当的检测 算法。基音周期检测方法大体上可以分为三大类:时域方法、频域方 法和综合利用信号的时、频域特性的方法。时域方法典型的是并行处 理方法( p p r o c ) ,其优点是运算简单,硬件实现容易。频域方法精度 要高于时域的方法,典型的有中央削波自相关法( a u t o c ) 、平均幅度 差分函数法( a m d f ) 和倒谱法( c e p ) 等。近些年来,又提出了一些 精度更高、抗噪能力强的检测算法,但计算量都很大。这里着重介绍 常用的中心削波自相关法和倒谱法。 2 1 1 中心削波自相关法 自相关法是利用自相关函数序列能够反映原始信号的周期性特性, 通过检测语音( 或浊音) 的短时自相关函数在基音周期的整数倍点上 出现的峰值位置,估计基音周期的。实际利用自相关法估计基音周期 时,首先要考虑加什么窗的问题,一般采用矩形窗,窗长至少要大于 两个基音周期,根据一般音调范围,采用大于4 0 m s 的窗长为宜;其次 要考虑的问题是与声道特性的影响有关。为了解决这个问题,可以从 如下两条途径着手: 第一是减少共振峰的影响。将语音信号通过一个6 0 h z 9 0 0 h z 的 带通滤波器。9 0 0 h z 的高端截止频率,既可以去除大部分共振峰的影 响,又可以当最大基音频率为4 5 0 h z 时仍可以保留其一、二次的谐波。 低端截止频率定为6 0 h z ,可以抑制5 0 h z 的工频电源干扰。第二是对 语音信号进行非线性处理后,再求自相关函数。一种有效的非线性处 理方法就是“中心削波法 ,。削波函数可采用如图2 1 所示形式。 削波电平c 。的数值大小根据语音信号的峰值幅度来确定,可以等 于语音段的最大幅度乘以一个固定百分数( 一般取为最大信号幅度的 6 0 7 0 ) ,这个门限的选择是重要的,一般在不损失基音信息的情况 下,应尽可能选得高些,可达到好的效果。中心削波后的语音通过自 山东大学硕士学位论文 相关运算,这样在自相关序列里的基音周期位置呈现大而尖的峰值, 而其余的次要峰值幅度都很小,如图2 1 ( c ) 所示。 c o r ) 一 + q :培籼姝。 c , 图2 1 语音信号经过中心削波处理的示意图 图2 1 中,a ) 为中心削波函数的波形,b ) 为处理前的语音信号时域 波形和自相关函数的波形,c ) 为经过中心削波处理后的语音信号时域波 形和自相关函数的波形。可以看到,经过中心削波处理后的语音信号 的自相关函数的峰起变得更明显了,用它来进行基音周期估计的效果 可以好得多。 2 1 2 倒谱法 信号的“倒谱”( c e p s t r u m ) 定义为信号频谱的自然对数的逆傅立 叶变换,实际是一个类时域的概念。 语音s ( n ) 是由声门脉冲激励e ( n ) 经声道响应v ( n ) 滤波而得到: s ( 珂) = e ( 一) + v ( 玎)( 2 一1 ) 设三者的倒谱分别为s ( ”) 、e ( n ) 及v ( 一) ,则有: 山东大学硕士学位论文 s ( 玎) = p ( 月) + v ( 刀)( 2 - 2 ) 经分析可知【1 3 】,倒谱域中基音信息与声道信息可以认为是相对分 离的,即基音信息与声道信息大都分布在不同的类时间区段,采取简 单的倒滤波方法【“,1 5 1 就可以分离恢复出声门激励信号p ( ”) 和声道响应 信号v ( n ) ,根据声门激励信号e ( n ) 及其倒谱的特征就可以求出基音周 期。 倒谱基音检测中,语音加窗的选择也是很重要的,窗口函数要选择 缓变窗,一般是选用汉明窗。从倒谱波形序列中检出基音可能出现范 围内的峰值点位置,便认为就是对应激励源的基音周期。 在实际的基音检测中,检测前要首先通过一个带通滤波器,再分帧 加窗、进行能量判断以去除静寂段和噪声,计算出每帧的基音周期以 后,一般还要进行基音轨迹的平滑处理,以去除偏离基音轨迹的“野 点”。平滑的方法有中值平滑、线性平滑和组合平滑三类,常用的是前 两类。图2 2 是基音轨迹的平滑处理效果图。 图2 2 基音检测中的平滑处理 中值平滑处理一般分为3 点平滑或5 点平滑,其优点是既可以有效 去除少量的野点,又不会破坏基音周期轨迹中两个平滑段之间的阶跃 2 2 线性预测系数 线性预测( l p ) 是一种很重要的分析技术,于2 0 世纪7 0 年代中 期被应用于语音信号处理的研究中。线性预测分析的基本思想是:语 音样点之间存在相关性,所以一个语音的抽样能够用过去若干个语音 抽样或者它们的线性组合来逼近。通过使实际语音抽样和线性预测抽 样之间的误差在某个准则下达到最小值来唯一确定一组预测系数,就 是线性预测系数( l p c ) 。这组系数反映了语音信号的特征,可以作为 语音信号的特征参数用于语音合成和语音识别中。 假设一个已知的语音序列s ( ”) 是一个准周期脉冲或者白噪声e ( n ) 激 励一个线性时不变系统( 声道) h ( z ) 所产生的输出。 p ( 行) 厂 s ( ”1 一日( z l 斗 叫、7 卜+ 图2 3 语音模型 若系统以全极点模型( a r 模型) 进行构造,因模型中只包含极点 其系统的传输函数可写为: 黔丽1 2 矗t 了 仁3 ) 则语音信号的采样值j ( n ) 可以用下式进行预测: p s ( h ) = p ( 疗) + 口,s ( n f ) ( 2 - 4 ) t - - 1 预测误差为: 2 l 山东大学硕士学位论文 p p ( 疗) = s ( 玎) 一口f s ( n f ) ( 2 5 ) 我们把能够使预测误差的均方值达到最小值的一组预测系数的估 值口,作为最佳的线性预测系数。其中,p 为预测阶数,a ,( f = 1 , 2 ,p ) 为 p 阶的线性预测系数。 对l p c 的计算,经典的算法有自相关法( l e v i n s o n d u r b i n 法) 、 协方差法和格型法等,计算上的快速有效,保证了这一声学特征的广 泛使用。 l e v i n s o n d u r b i n 算法的递归过程如下: ( 1 ) e = b ( o ) ,- 1 ( 2 ) t = r 。( 力一a , y 1 r 。( f m e ;- 1 ( 3 ) a 净k , ( 4 ) 口:= 口,i - 1 一t 口2 , 1 ,i - 1 ( 5 ) f 4 = ( 1 一砰) e f l i fi p g ot o ( i ) ( 6 ) 口j = 够, 1 j 茎p 2 3 倒谱系数 语音信号的倒谱分析,就是求取语音倒谱特征参数的过程,它可 以通过同态处理来实现。同态处理实现了将卷积关系的信号,经变换 运算转化为求和关系,并加以分离处理,即信号的解卷。对语音信号 进行解卷,可将语音信号的声门激励信息及声道响应信息分离开来, 从而求得声道共振特性和基音周期,用于语音的编码、合成及识别等。 对语音信号进行解卷,求取倒谱特征参数的方法有两种,一种是线性 预测分析,一种是同态分析处理。 山东大学硕士学位论文 2 3 1l p c 倒谱 在语音识别和说话人识别系统中,很少直接使用线性预测系数 ( l p c ) ,而是由l p c 系数推导出另一种参数:线性预测倒谱系数 ( l p c c ) 。l p c 倒谱一般是将线性预测系数l p c 带入一个递推公式计 算出来的。研究表明,使用倒谱能提高特征参数的稳定性1 6 i 。 设通过线性预测分析得到的声道模型的系统函数为: 眦) = 去 p l 一叩。 ,_ l 式中,p 为预测阶数,口,( f = 1 , 2 ,p ) 为p 阶线性预测阶数。 ( 2 - 6 ) 其冲激响应为厅( h ) ,设表示 ( ”) 的复倒谱,则有: 台( ”) :1 n 日( z ) :妻z ( n 矿( 2 - 7 ) 将( 2 6 ) 式代入( 2 7 ) 式,并将其两边对z - 1 求导数,得: ( 1 + zk ) 妻”o ) z - 舯- :一p 肠。z 一 ( 2 8 ) t = ln - 1i = j 令上式左右两边的常数项和z 。1 各次幂的系数分别相等,从而可由 a 求出 ( ”) : h o ) = 一口l 盒( n ) = - a n - n - i ( 卜) 吼岔( ”一t ) k = l 岔= 蔫( 1 一伽t ( “) ( 1 p ) 按照上式求出的复倒谱 ( m ,就是l p c 倒谱。 ( 2 9 ) 山东大学硕士学位论文 2 3 2m e l 倒谱 由上述可知,l p c 模型是基于发。音模型建立的,l p c c 系数是一种 变换得到的参数,这种参数没有充分利用人耳的听觉特性。实际上, 人耳是一个特殊的非线性系统,它听到的声音的高低与声音的频率并 不成线性正比关系,而m e l 频率尺度更符合人耳的听觉特性。l p c 参 数等是通过对人的发声机理的研究而得到的声学特征,而m e l 倒谱系 数( m f c c ) 是考虑了人的听觉系统效果而导出的声学特征,其分析着 眼于人耳的听觉机理,依据听觉实验的结果来分割语音的频谱,比一 般实际频率尺度分割有更高的正确识别率和噪声鲁棒性f 1 7 】。 m f c c 参数的计算过程如图2 4 所示。 图2 4l v i f c c 的计算过程 h 盯c c

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论