(信号与信息处理专业论文)孤立词识别中的说话人归一化技术.pdf_第1页
(信号与信息处理专业论文)孤立词识别中的说话人归一化技术.pdf_第2页
(信号与信息处理专业论文)孤立词识别中的说话人归一化技术.pdf_第3页
(信号与信息处理专业论文)孤立词识别中的说话人归一化技术.pdf_第4页
(信号与信息处理专业论文)孤立词识别中的说话人归一化技术.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(信号与信息处理专业论文)孤立词识别中的说话人归一化技术.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

j 二海大学硕上学位论文 孤立训识别- | 的说话人归一化技术 摘要 随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益 凸现出来。语音识别技术开发的产品,应用领域非常广泛,几乎深入到了社会 的各个行业、各个方面。对于应用十分广泛的孤立词语音识别系统,怎样更通 用,快速地适应各类人群的语音识别系统成为语音识别的研究关键。 九十年代以来,大规模词汇的特定人的连续语音识别取得了很大进展,但 对非特定人情况,识别性能急剧下降。丰要问题是由于非特定人之间的差异造 成的。说话人语音的差异,主要来源于说话人的发音生理结构的差异。 但是尽管说话人的差异很大,人却可以很轻松的理解不同口音和性别的各 种人的语音。这就说明人的大脑可以进行一些归一化过程,去除语音个性化的 特征。说话人归一化技术的思想就是源于人的识别过程,说话人归一化目的是 建立一个归一化的说话人空间,使得任何人的语音可以映射其中。 在语音识别系统中,大多前期处理提取的都是声道参数,因此对说话人的 归一化丰要集中于归一化说话人声道长度的差异。一般而言,精确的归一化函 数是保证归一化效果的前提,但过于复杂的方法,计算量就大,对实际应用场 合是不适用的。因此为了简化处理,常采用统一的归一化函数来进行处理,但 这种方法与实际语音统计结果并不相符。因此本文提出用说话人转换中的动态 频率规整的方法实现说话人语音的归一化,这种方法避免了单一的归一化函数 的处理,实验证明这种方法能有效地提高孤立词识别系统的识别率。 另一方面,以往的说话人归一化技术关注于对声道响应的差异的归一化, 但近期的研究证明,声门共鸣也同样影响着说话人的频谱特性。因此本文进一 步提取鲁棒性能和抗噪性能优于m f c c 参数的感知最小方差无失真参数 ( p m v d r ) 来进行说话人归一化,同时为了能够对不同说话人进行更准确更快速 地感知折叠变换,本文提出采用基于下声门声道非线性耦合作用的第二声门共 鸣频率来估算感知折叠因子,与采用第三共振峰的估算方法比较,它能滤除语 义信息的影响,更好地体现说话人的个性特征。具体应用时,本文首先提取语 音的m v d r 频谱包络求出第二声门共鸣频率,并由此估算感知折叠因子,然后 上海大学硕十学位论文孤寺词识别l l 的说话人归1 化技术 利用所得到的折叠因子对感知最小方差无失真参数进行归一化,最后将归一化 的参数用来进行语音模型训练与识别。实验证明,这种方法能够有效地提高非 特定人的语音识别系统的识别率。 最后,本文通过具体的实验对影响系统识别性能的因素进行深入的分析, 并加以总结和归纳,并指出今后努力的方向。 关键词:孤立词识别,声道长度归一化,动态频率规整,声门共 鸣,感知最小方差无失真参数 e 海大学硕1 :学位论文孤立词识别叶1 的说话人归一一化技术 a b s t r a c t a l o n gw i t h t h eb r e a k t h r o u g hi n s p e e c hr e c o g n i t i o nf i e l d ,c o m p u t a t i o n a u t o i m m u n i z a t i o nb e c o m e sm o r ea n dm o r ei m p o r t a n tf o rc o m p u t e rt e c h n o l o g y d e v e l o p m e n ta n ds o c i e t yl i f e t h ep r o d u c t sb a s e do ns p e e c hr e c o g n i t i o nt e c h n o l o g y a r ev e r yp o p u l a r , a n di m p l e m e n ti n t oa l lk i n d so fi n d u s t r i e sa n ds o c i e t yl i f e f o r p o p u l a ri s o l a t e dw o r dr e c o g n i t i o ns y s t e m ,t h em a i nr e s e a r c hp o i n ti sh o w t ob em o r e u n i v e r s a l ,a n da d a p ta l lk i n d so fp u b l i c f r o mn i n e t i e t hd e c a d e s ,t h ed e p e n d e n c ea n dc o n t i n u o u sr e c o g n i t i o ns y s t e m h a v em a d ep r o g r e s s ,b u tf o ri n d e p e n d e n c es y s t e m ,t h ew o r de r r o ro fr e c o g n i t i o n i n c r e a s em u c hm o r et h a nd e p e n d e n c es i t u a t i o n t h ep e r f o r m a n c eg a pb e t w e e n s p e a k e rd e p e n d e n ta n di n d e p e n d e n ts e t t i n g s i s s i g n i f i c a n t ,t h em a j o rc a u s ea l e i n t e r - s p e a k e ra c o u s t i cv a r i a t i o n s s p e e c hd i f f e r e n c ef r o ms p e a k e rm a i ni so r i g i n a l f r o mt h ed i f f e r e n c eo fp h y s i o l o g i c a ls t r u c t u r eo fd i f f e r e n ts p e a k e r b u tp e o p l ec a n c o m p r e h e n ds p e e c ho fd i f f e r e n ta c c e n ta n dd i f f e r e n tg e n d e re a s i l y ;i tm e a n st h a t h u m a nc e r e b r ac a nn o r m a l i z es p e e c h ,a n de l i m i n a t ep e r s o n a lc h a r a c t e r so fs p e e c h s p e a k e rn o r m a l i z a t i o nr o o tf r o mh u m a nr e c o g n i t i o np r o c e s s ,i t sa i mi sf o u n d i n ga n o r m a l i z a t i o ns p a c et om a pd i f f e r e n ts p e e c h i na u t o m a t i cr e c o g n i t i o ns y s t e m ,m o s to fa c o u s t i cf r o n t e n dp r o c e s si sb a s e do n v o c a lc h a r a c t e rp a r a m e t e r s ,s ot h er e s e a r c h e so fs p e a k e rn o r m a l i z a t i o nf o c u so nt h e v o c a ll e n g t ho fd i f f e r e n ts p e a k e r g e n e r a l l y ,a c c u r a t en o r m a l i z a t i o nf u n c t i o ni sv e r y i m p o r t a n t ,b u tw h e ni ti m p l e m e n ti n t op r a c t i c es y s t e m ,t h ec o m p l i c a t e dm e t h o d m e a n sm u c hc o m p u t a t i o n ,s oi tc a n tb ea p p l i e d i nt h i sp a p e r , d f wm e t h o di su s e d t on o r m a l i z et h ef r e q u e n c ys c a l eo fs p e e c ha n da p p l yi tt oa ni s o l a t e dw o r d r e c o g n i t i o ns y s t e m t h er e s u l t ss h o wal a r g ei m p r o v e m e n ti na c c u r a c yo v e rt h e e x i s t i n gm e t h o d s s p e a k e rn o r m a l i z a t i o nf o c u so nn o r m a l i z ev o c a ll e n g t h d i f f e r e n c ef r o m d i f f e r e n c es p e a k e r , b u tr e c e n ts t u d i e ss h o wt h a tt h es u b - g l o t t a la i r w a y sa l s oa f f e c t s p e c t r a lp r o p e r t i e so fs p e e c hs o u n d s oi nt h i sp a p e ran e wp e r c e p t u a lf r e q u e n c y i i i 上海大学硕十学位论文孤立词识别中的说话人归化技术 w a r p i n gb a s e do ns u b g l o t t a lr e s o n a n c e st os p e a k e rn o r m a l i z a t i o ni si n v e s t i g a t e d a n e ww a r p i n gf a c t o re x t r a c t i o ni sp r o p o s e dt oi m p l e m e n tp e r c e p t u a lw a r p i n gm o r e a c c u r a t e l ya n dq u i c k l y , w h i c he x t r a c tf r o mt h es e c o n ds u b g l o t t a lr e s o n a n c et h a ti s b a s e do na c o u s t i c c o u p l i n gb e t w e e nt h es u b g l o t t a l a n dv o c a lt r a c t s e c o n d s u b - g l o t t a lr e s o n a n c ei si n d e p e n d e n to ft h es p e e c hc o n t e n t ,a n di te m b o d i m e n t s p e a k e rc h a r a c t e rm o r et h a nt h et h i r df o r m a t f o rd e t a i li m p l e m e n t ,t h i sp a p e rg e t p e r c e p t u a lw a r p i n g f a c t o rb a s e do nt h es e c o n ds u b g l o t t a l r e s o n a n c e ;t h e n n o r m a l i z e st h ep m v d rc o e f f i c i e n t s ,w h i c hi sas p e e c hc o e f f i c i e n t sb a s e do n p e r c e p t u a lm i n i m u mv a r i a n c ed i s t o r t i o nl e s sr e s p o n s ea n di sm o r er o b u s t n e s sa n d a n t i n o i s et h a nt r a d i t i o n a lm f c c ;l a s t l y , u s e st h en o r m a l i z e dc o e f f i c i e n t st os p e e c h m o d et r a i n i n ga n dr e c o g n i t i o n t h er e s u l t so f e x p e r i m e n t sd e m o n s t r a t et h e i rc a p a c i t y t oi m p r o v ew o r dr e c o g n i t i o na c c u r a c yo fs p e a k e ri n d e p e n d e n tr e c o g n i t i o ns y s t e m f i n a l l y , t h i sp a p e rm a k e sat h o r o u g ha n a l y s i so f f a c t o r sw h i c ha f f e c tt h es p e a k e r n o r m a l i z a t i o np e r f o r m a n c eo fs y s t e mt h r o u g hs p e c i f i ce x p e r i m e n ta n dt h e np r o v i d ea s u m m a r y a n dt h el a s tc h a p t e ra l s op o i n to u tt h ei m p r o v e m e n td i r e c t i o ni nf u t u r e k e y w o r d s :i s o l a t e dw o r dr e c o g n i t i o n ,v o c a l t r a c tl e n g t hn o r m a l i z e , d y n a m i cf r e q u e n c yn o r m a l i z a t i o n ,p e r c e p t u a lm i n i m u m v a r i a n c ed i s t o r t i o n l e s s r e s p o n s e ,s u b - g l o t t a lr e s o n a n c e i v 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发 表或撰写过的研究成果。参与同一工作的其他同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示了谢意。 签名:埤日期:率 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即: 学校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学 校可以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 腿日期:驾:! :譬 i f 上海大学硕十学位论文 孤立硼识别l 】的说话人归化技术 1 1 课题来源 第一章绪论 本课题来源于教委项目,基于词分割的语种辨识系统( 项目编号: a io 一0 10 7 - 0 6 0 16 1 。 1 2 课题研究的背景与意义 语音是最为方便、快捷、自然的人际交流方式,采用语音作为人与计算机交 互的手段,使计算机能像人一样,具有听、说和理解的能力,是计算机得以真正 普及的基础,在其中所需的各种技术中,以语音识别技术最具挑战性。近年来, 孤立词语音识别技术的研究取得了很大的进展,在某些领域中已经有了这种智能 化的人机交互系统。然而在实际应用中,实验室“成功”的语音识别系统,在灵 活性和自适应方面上还远远不能满足实际的需求,这一点在非特定人系统中体现 得尤为突出。 从统计的角度来看,非特定人对语音识别系统的影响可以体现在两个方面【2 】: 首先,由于说话人差异的存在,导致非特定人( 与说话人无关,s p e a k e ri n d e p e n d e n t , s i ) 特征空间的分布离散度和不同基元之间的混迭度大于特定人系统( 与说话人相 关,s p e a k e rd e p e n d e n t ,s d ) 特征空间;其次,说话人之间的差异会导致训练集和 测试集出现严重的模型不匹配。 说话人语音之间的差异包括以下几点【l 】: ( 1 ) 语音学上的差异:由于方言的存在,不同说话人对于同一句话的发音可能有 很大差别。汉语是一种多方言语种,所以方言口音对汉语语音识别系统造成严重 的影响; ( 2 ) 生理上的差异:即使人们采用标准的普通话,不同说话人的声道形状,声门 特征等存在差别,都会造成语音频谱特性的不同; ( 3 ) 发音习惯差异与心理状态差异:每个人都有自己的发音习惯,说话快慢也很 不一样,说话时的心情也不一样,这些习惯和心理状态都会造成当时说话人的语 上海大学硕- 上学位论文孤立词识别巾的说话人归一化技术 音频谱特征的不同,从而降低识别系统的性能; ( 4 ) 身体状况差异:严格说来,说话人的差异影响不仅仪来自于不同的说话人, 同一说话人不同的健康状况( 例如感冒,疲劳等) 或者情绪,也可能对语音信号产 生影响。 解决非特定人语音识别不稳定问题,一般有两种方法,一是在训练阶段采用 大量的自适应数据,使训练所得的模型能适应各种测试说话人,显然,不管采用 多少自适应数据,也不可能覆盖所有的测试人:第二种方法就是说话人归一化, 采用归一化算法将测试语音映射到一个归一化的空间,使系统能白适应各种人群 的口音,提高非特定人语音识别系统的整体识别率。 若要成为能广泛应用的语音识别系统,其识别率应对各类人群都相对稳定, 因此本课题研究工作丰要集中在孤立词识别中的说话人归一化技术上,即建立一 个归一化的说话人空间,使得任何人的语音都可以映射其中,这样就可以利用少 量的语音来进行归一化处理,使测试说话人与模型差异降到最低,以提高孤立词 语音系统的识别率,扩大其实际的应用领域。 1 3 国内外研究概况 说话人语音的差异,丰要来源于每个人的发音生理结构的差异。目前提取与 说话人个性特征无关的特征参数是比较难实现,在自动语音识别系统中,一般提 取的是语音的声道参数,因此说话人的声道长度的差异成为影响识别结果的主要 因素。一般来说,精确的归一化函数是保证归一化效果的前提,但为了能实现在 线实现归一化,又要求归一化函数比较简单以便实现【l 】。说话人归一化的研究已 有十几年了,很多学者也提出了很多行之有效的方法,这里先简单做个总结。 1 9 7 7 年,w a k i t a 提出频率轴缩放的方法来处理孤立元音音素识别中性别特征 的变化,这就引起了人们对频率折叠技术的研究。 1 9 9 0 1 9 9 1 年a c e r o 和s t e m 将频率折叠技术应用n 4 , 词汇量的语音识别系统 中,他t j n 用双线性变换进行频率折叠,识别时错误概率降低了1 0 【4 1 。 1 9 9 6 年,在对大词汇量语音识别系统研究时,e i d e $ 1 g i s h ,l e e s l r o s e , w e g m a n n 和m c a l l a s t e r = 组研究人员分别从不同的方面中提出了声道长度归一化 上海大学硕l :学位论文 孤市诩识别中的说话人归一化技术 技术。e i d e 和g i s h ,比较了几种折叠函数,并给出了它们在识别性能上的微小差 别。采用第三共振峰对折叠因子进行重估,对于5 小时和6 3 小时的训练数据错误概 率改善分别为8 ,6 。l e e 和r o s e 提出用最大似然估计方法来重估折叠因子,在 训练的过程中加入重估折叠因子的迭代处理。在测试的时候利用两次搜索中的第 一次基本搜索来估计折叠因子。这种方法能减d 、2 0 的错误概率。w e g r n a n n 和 m c a l l a s t e r 提出了类似的方法,他们采用非线性折叠函数降低了1 2 的错误概率 【5 】【6 】【7 】。 1 9 9 8 年,m c d o n o u g h 提出用全通变换作为折叠函数,它是双线性变换的扩展, 文中将两种变换进行比较,全通变换的错误概率比双线性变换低8 。同时,文中 指出当采用全通函数时,声道长度归一化可归纳为倒谱域的线性变换【8 】。 1 9 9 7 年,p y e 和w o o d l a n d 研究了线性变换,特别是v t n ( v o c a lt r a c tn o m a l i z a t i o n ) $ 1 1m l l r ( m a x i m u ml i k e l i h o o dl i n e a rr e g r e s s i o n ) 之间的关系,他们指出非限定的 m l l r 与v t n 有很大的可加性。然而,1 9 9 9 年,u e b e l 币i w o o d l a n d 研究指出在非限 定的m l l r 中采用v t n 技术并不会改善识别率,也就证明了这两种方法并不是相 对独立“9 】【10 1 。 许多研究人员提出对m f c c ( m e lf r e q u e n c yc e p s t r a lc o e f f i c i e n t ) 进行线性变换 来实现v t n 。2 0 0 0 年,c o x 用三角对变换矩阵来变换m f c c 特征参数,在音素识别 测试中用一个有监督的白适应处理,识别率得到一定程度上的改进【】。2 0 0 1 年, e m o r i 和s h i n o d a 禾t j 用双线性变换函数来对声道长度进行线性变换,在文章中通过 计算变换矩阵的近似值来求得折叠参数值,重估折叠参数的计算量减小,但识别 率保持不变【12 1 。 由于考虑到频率折叠对滤波器组的作用,子带对角距阵提出来加强在有限自 适应数据情况下的m l l r 白适应,对不同的自适应数据采用不同的数目的子带距 阵,识别率得到了明显的改善。2 0 0 0 年,a f i f y 和s i o h a n 对不同的自适应数据统计 了其所需要的矩阵数卧13 1 。2 0 0 2 年,d i n g 币i z h u 用同样的方法对汉语孤立词识别 进行了实验,也证明了上述结果【1 4 】。 2 0 0 5 年,m i c h a e lp i t z 和h e r m a n nn e y 提出在倒谱域中v t n 相当于线性变换, 对各种变换函数求出了其对应的变换矩阵,并计算了雅可比尼因子对变换矩阵的 上海大学硕1 :学位论文 孤立词识别巾的说话人归一化技术 影响【15 1 。 2 0 0 6 年,k u m a r ,u m e s h 和s i n h a 分析了用共振峰作为频率函数的折叠因子的 性能,研究表明统一的缩放尺度在高频部分是有效的,但在低频出现严重的背离, 但当利用非线性模型时,发现与经验结论不同。这就可以解释在有限的数据下, 为什么利用非线性模型没有比传统的统一比例模型的性能改善大。文中论证了说 话人归一化中仿射变换模型可以看作一个更合适的非线性模型【1 6 】。 2 0 0 7 年,r o h i ts i n h a 和s u m e s h 将依赖于说话人的折叠因子提取出来作为变 换域中一个固定的变换因子,这就将频域乘性折叠因子的计算转化为变化域的移 位因子的计算。这种移位变换可以看作是倒谱域的线性变换,所以不需要重新计 算特征参数,只需对其进行一位变换就可实现归一化过程。这种方法与线性变换 比较,提高了识别概率为4 7 5 t 17 1 。 除了追求对折叠函数优化,也有很多研究人员对折叠因子的计算也进行了改 进。2 0 0 2 年,l u t zw e l l i n g 和h e r m a n nn e y 提出采用了基于单高斯混合模型选择弯 折因子的方法,并取得了良好的结剁18 1 。 2 0 0 5 年,a r l of a r i a 矛i d a v i dg e l b a r t 禾l 用基音频率来估计折叠因子,这种方法 避免了用共振峰的估计不准确和用m l 算法( 最大似然估计算法) 时的大量搜索,但 必须在参数计算时加入对基音的计算【2 0 1 。 近两年,说话人转换技术得到快速的发展,引入说话人转换中的一些特征参 数的归一化的处理技术也成为非特定人识别系统自适应技术的研究方向【2 1 1 【2 2 1 。 此外,2 0 0 7 年,u m i t $ 1 y a p a n e l 等人提出p m v d r 参数,并利用这种参数来进 行说话人归一化,实验证明采用这种参数抗噪性和鲁棒性都要优于传统的m f c c 参数【2 3 1 【2 4 】。 另外,传统的说话人归一化方法只注重归一化声道参数,而近期研究表明【2 5 】, 声门参数一样包含说话人的个性特征,因此采用声道长度归一化的方法对声门参 数进行归一化,也是归一化技术的研究方向。 在国内,清华大学、中国科学院也在这方面有一定的研究,方法丰要是结合 汉语自身特点来进行归一化,如2 0 0 6 年,张文明,张向东等在噪声环境下语音识别 的声道归一化其进行了研究并做了一系列的实验。实验结果表明,采用声道归一 上海大学硕七学位论文 孤立词识别| 1 的说话人归一化技术 化后的识别结果在各个噪声下均比原来有不同程度的改善1 9 1 。 目前,尽管人们对说话人归一化已经研究几十年了,并且也提出了很多说话 人归一化的方法,但是说话人归一化技术还不是十分成熟,因此说话人归一化的 研究非常有意义的。 1 4 孤立词语音识别框架 语音识别的研究目的就是让机器“听懂”人类的语言,听懂有两种含义,第一 种是将这种口述语言逐词逐句地转换为相应的书面语言( 即文字) ,第二种则是对 口述语言中所包含的要求或查询做出正确的响应,很明显,孤立词语音识别就属 于第二种。孤立词识别方式是指说话人每次只说一个词,一个词组或一条命令让 识别系统来识别【l 】。其中的词组或命令在词汇表中都算作一条独立的词条。孤立 词语音识别系统的其原理框图如下图1 1 所示: 图1 1 孤立词以音识别系统框图 如上图所示,一个完整的孤立词语音识别系统通常分为两个阶段:i ) i i 练阶段 和识别阶段。在训练阶段,对大量的语音提取特征参数并进行相应的处理,获得 表示识别基本单元共性特点的标准数据,以此构成参考模型,将所有能识别的基 本单元的参考模板结合在一起,形成参考模式库;在识别阶段,将待识别的语音 经特征提取后逐一与参考模式库中的各个模板按某种原则进行比较,找出最相似 的参考模板所对应的发音,即为识别结果。 小词汇量的孤立词语音识别系统常将词或短语作为一个基木的语音单元,这 对于简化识别系统的结构和训练过程是非常有效的。但当需要添加新的词汇时, 就必须对这个词进行重新训练。另外以词为基木单元的训练,词内的各音素重复 出现,造成大量不必要的冗余存储和计算,因此在大词汇量的孤立词识别系统中, 常采用比词更小的识别基元,如音素。一般来说,声学单元越小,其数量就越少, 上海大学硕士学位论文孤市词识别巾的说话人归一化技术 训练的工作量也就越小,但是单元越小,对于上下文的敏感性越大,越容易受到 前后相邻的影响而产生变异,因此其类型的设计和训练样本的采集更网难。 1 5 论文的主要研究内容 本文主要是对孤立词语音识别系统的中说话人归一化技术进行了研究。说话 人归一化的目的就是为了去除语音中的个性特征,为了能够达到通用且快速归一 化的效果,这里研究的思路就是利用少量的自适应数据将不同人的语音归一化到 参考语音上,将归一化后的语音参数与模板进行匹配,以提高识别率。 本文研究的重点是语音的特征参数的归一化,以及归一化的方法。语音特征 参数既包含语义信息,也包含个性特征,语音识别系统是要识别语义信息,而非 个性特征。要想避免说话人个性特征对识别系统的影响最好的方法就是提取只包 含语音信息的特征参数,但是人发音的时候是将这两部分紧密融合在一起,因此 要完全分离这两者是非常闲难的,这里采用归一化( 折叠函数) 的方法将提取的一 般的语音参数映射到一个归一化空间,以此减少说话人个性特征对识别系统的影 响,提高系统整体识别率。 木文采用的方法包括: 首先,针对声道模型自身的局限性,提出用动态频率规整的方法将新说话人 的频谱按参考人的频谱进行规整,动态调整其频谱,提高两频谱参数相似度,最 终提高识别率。 其次,引入m v d r 参数,这种参数对噪声有一定的抑制作用,实验证明,与 m f c c 参数的归一化效果进行比较,发现m v d r 参数对不同性别说话人归一化比 m f c c 参数要好。 最后,说话人之间的差异不仪体现在声道长度上,不同人的声门参数也很大 的不同,提取声门参数中与说话人相关的参数,并将其也进行归一化,减少声门 参数对系统的影响。 论文具体安排如下: 第1 章:简要介绍了孤立词语音识别中说话人归一化的背景和意义,以及国内 外研究情况。 上海大学硕 :学位论文孤立w 汉别l j 的说话人归一化技术 第2 章:深入分析了语音的产生机理以及其在说话人归一化中的应用。并介绍 了说话人归一化的原理与方法。 第3 章:首先介绍了动态频率规整的原理,然后提出了动态频率规整的说话人 归一化的方法,最后应用到孤立词语音识别系统中,并给出了实验结果与分析。 第4 章:研究了m v d r 频谱,引入了一种新的语音参数p m v d r ,利用这种参 数来进行说话人归一化,并应用到孤立词语音识别系统中。 第5 章:研究声门参数,提取声门参数中与说话人相关的参数声门共鸣因 子,利用其来进行说话人归一化。与第4 章的语音参数p m v d r 提取相结合,并应 用到孤立词语音识别系统中,给出实验结果与分析。 第6 章:本文的结束语,对本文工作进行了总结,并指出今后的研究的方向。 ,l - 海大学硕十学位论文 孤市词识别巾的说话人归化技术 第二章说话人归一化原理和方法 简单地说,说话人归一化,是以对说话人差异的分析为基础的,从说话人对应 的语音数据中提取说话人特有的物理或者数学参数,然后基于对应的物理模型或 者数学方法,消除说话人语音与特定的参考说话人语音或者是特定的模型之间的 差异,即在参数空间完成所谓的“归一化”过程。 在模型训练阶段,可以用上述方法来消除训练集内说话人之间的差异,减少模 型空间的分布离散度和基元间混迭度,得到说话人归一化( s p e a k e rn o r m a l i z a t i o n , s n ) 模型:而在测试阶段,可以用相同的方法来消除当前说话人与s n 模型之间的 差异。这里与模型参数自适应不同之处在于归一化过程是在特征参数计算时完成 的,而不是通过模型调整完成的,调整的是当前说话人的特征参数,而不是初始 声学模型参数。 说话人归一化的目的是建立一个归一化的说话人空间,使得任何人的语音可以 映射其中。这样可以把说话人之间的差异降到最低( 最好声学特性不变) 。说话人 归一化也可以理解成是试图把新说话人的语音特征转化成参考说话人的,这样可 以使用已有的参考说话人的特定人识别系统来识别新说话人的语音【l 】。图2 1 为 说话人归一化示意图。 图2 1 说话人归一化示意图 孤立词语音识别系统中的说话人归一化就是要消除说话人之间的差别,着重寻 上海大学硕十学位论文孤立词识别c ,的说话人归1 化技术 找语义间的不同特征。 2 1 语音信号处理原理 2 1 1 语音信号产生原理 语音信号产生的激励与人的发音器官的特点密切相关的。语音产生系统可以分 成三个部分,声门( 声带) 以下的称为“声门子系统”,它负责产生激励振动,是“激 励系统”;从声门到嘴唇的呼气通道是声道,是“声道系统”;语音从嘴唇辐射出 去,所以嘴唇以外是辐射系统”,图2 2 显示了语音信号产牛的过程【2 6 1 。 l 基音频率凡 声道参数: 1r 振幅n l 辊 i 鬻卜i 荔餐h 、田i u | 荔 i_ |t。一ih i篙i 坎刁l ; i 型r ( z ) 1 嚣u|i _l 激励模型 i i : 声道模型 : 辐射模型 图2 2 语音信号产生的过程示意图 上图给出了语音产生的离散时域模型,它由三部分组成,这里对这三部分进 行分析: ( 1 ) 激励源:它分为浊音和清音两个分支,按照浊音清音开关所处的位置来决定 产牛语音的是浊音还是清音。在浊音的情况下,激励信号由一个周期脉冲发生器 产生。所产生的序列是一个周期为0 的冲激序列,即每隔o 点便有一个样值为 1 ,其它样值为0 。周期0 取决于基音频率r 和语音信号的抽样频率风,n o = f s r ,当f s = 8 k h z ,f o 的变化范围为4 0 - 4 5 0 h z 时,的变化范围是1 8 2 0 0 样本 i :海大学硕士学位论文孤市词识别中的说话人归一化技术 点。为了使浊音的激励信号具有声门气流脉冲的实际波形,还需要使上述的冲激 序列通过一个声门脉冲模型滤波器g ( z ) ,通过对声门波形频谱分析表明,这个滤 波器的幅度频谱按每倍频程1 2 d b 的速度衰减,可以表示为g ( z ) = i ( 1 - 9 1 z - 1 ) ( i - 9 2 2 1 ) ,其中g l ,9 2 大小都接近于l ;在清音的情况下,激励信号由一个随机 噪声发生器产生。振幅系数用来调节浊音或清音的幅度或能量。 ( 2 ) 声道模型坎z ) :它给出了离散时域的声道传输函数,把实际声道作为一个变 截面声管来进行研究,利用流体力学的方法可以得出,在大多数情况下它是一个 全极点函数,表示如下: 1 v ( z ) = ,二l 一一其中a o = l ,a i 为实数( 2 1 ) y a i z j _ _ i = o 这里,把截面积连续变化的声管近似为尸段短声管的串联,每段短声管的 截面积是不变的。p 为全极点滤波器的阶,显然p 值越大,模型的传输函数与声 道实际传输函数吻合程度越高。 ( 3 ) 辐射模型r ( z ) :它与嘴唇有关,其对应的幅度频率函数可以表示为 r ( z ) = ( 1 r z 1 ) , r 约等于1 。 在这个模型里,g ( z ) 与尺( z ) 与说话人相关,当说话人确定后,可将它们看作 是常数,而凡,振幅以及声道模型中的系数都是随发音的不同以及时间的不同在 变化的,但是它们变化又受到发音器官惯性的限制,因此其变化也是有一定范围 的,下一节将给出更详细的分析。 2 1 2 人的发音器官的差异及声学参数差异 语音信号中包含了多种层面的说话人个性信息,既有反映说话人声源特征的 参数( 如基音频率,声门波参数) ,又有反映说话人声道特征的参数( 如m f c c ,l s f 等) ,两者都属于短时特征参数,能反映一定的说话人个性特征。说话人语音的个 性特征是声源特征参数与声道特征参数共同作用的结果,不存在唯一的声学参数 携带所有的个人语音的特征信息。下面从发声器官构造的生理差异入手,分析说 话人个性特征在声学参数上的表现。 j :海大学硕十学位论文孤立词识别中的说话人归一化技术 2 1 2 1 喉部生理差异及个性特征在声源上的表现 喉部由环状软骨、构状软骨、甲状软骨以及与它们相连的肌肉和韧带组成男 女发音器官的解剖学的研究表明:成年正常男女喉部的解剖特征存在显著的差异, 这种差异主要表现在甲状软骨和声带的差异。 ( 1 ) 甲状软骨结构形态不同; ( 2 ) 声带的厚薄和长短不同,声带是一对唇形的韧带褶,边缘很薄,富有弹性, 成年男子的声带约有十三四毫米长,女子比男子的声带约短二分之一,小孩的更 短一些。 每个人声带的宽窄、厚薄和长短都不一样,说起话来声音的高低都不相同。 小孩子的声带短而薄,因此声音又高又尖。成年以后,男子的喉腔比儿时增大一 倍半左右,声带也随之变厚变长,声音比原来降低约八度;女子的喉腔只比儿时 增大三分之一左右,声带比男子略薄一些,声音只比原来降低三度。到了老年, 声带和喉头的肌肉都变得相当松弛,无论男女,声音都要比成年时期更粗更低一 些。 喉部生理特征的差异导致了声源参数的差异,声源参数的差异主要表现在: 基音频率的差异,声门波的差异,以及次声门共鸣的差异等等。 基音频率的差异主要是由于每个人声带长度,宽窄和弹性的不同,这种不同 表现在语音基音频率上,一般介于4 0 4 5 0 h z ,这个频率决定了声音的高低,通常 女性比男性高,小孩比老人高。当发不同音时,基音频率是随着语音在变化的。 声门波的差异主要由于,声门波脉冲的形状,如脉冲宽度、脉冲倾斜度、脉 冲突然关闭的程度以及噪声成分的分量对语音的形成影响是很大的,对语音的自 然度和清晰度起着十分重要的作用。不同的语音类型,其嗓音源的参数是有区别 的不同性别、不同年龄的人,其语音的嗓音源参数也各不相同的;对同一个人来 说,其发音类型不同,如正常音和气音时,嗓音源参数也会有很大的区别。 次声门共鸣的差异,主要是由三大发音器官相互之间的耦合作用而引起的, 它在语音频谱上某些特定的频率处引起共鸣,使语音帧与帧之间频谱产生跳变, 幅度产生衰减。具体人发声时,会与体内部腔体产生的共鸣现象,这种共鸣现象 是随着发音时声腔的形状、共鸣位置及组织结构而发牛变化;另外声源、声腔及 上海大学硕l :学位论文孤市词识别中的说话人归化技术 发音方式都直接影响着共振及频率。因此共鸣的发生不仅体现出发音时的综合特 征,而且也体现出个体特征。当声门开肩时,子声门系统响应就被结合到声道响应 中,影响输出语音,因此在声道传递函数中引入零极点,对应于子声门系统的响 应。在第二声门共鸣频率( s 9 2 ) 引入零极点,对于成年女性的s 9 2 的范围为 1 4 0 0 1 7 0 0 h z ,成年男性的s 蛇的范围为1 3 0 0 1 5 0 0 h z 。 比较以上三种声门特征参数,其中次声门共鸣因子是既能反映说话人的个性 特征,又与发音无关的参数,因此能够利用其来进行说话人归一化。 2 1 2 2 声道生理差异及个性特征在声道上的表现 不同性别、不同年龄的发音人,其声道长度不同。解剖学的研究表明,成年 男子的声道长度大约为1 7 c m 左右,女子的声道长度比男子的声道长度要短,大 约是成年男子的0 8 7 倍。声道的生理差异导致了描述声道的声学参数的差异,这 些差异丰要表现为共振峰的相关参数不同。共振峰是决定元音音色的主要因素, 共振峰的位置、共振峰的带宽和共振峰的幅度等对元音的音色起了决定作用。元 音是以前两个或前三个共振峰来代表其丰要特性。 0 勺1 - - 5 0 o 弓- 1 0 0 1 - 君1 5 0 乏 2 0 0 0 毛- 5 0 d ) 弓- 1 0 0 c 窘1 5 0 乏 2 0 0 ( a ) 女声例频谱 i 愉 竹v 岛 m 八 v 一。 ” y v 旷。巧 v 00 511 522 533 54 f r e q u e n c yi nk h z ( b ) 男声a , 频i 谱 j 坳 h 1 - - ! 。mf 、扩! i 邺砖m 酞l i ri : 。y r 嘶 00 511 522 533 54 f r e q u e n c yi nk h z 图2 3 男、女发同一个音的频谱差异 :海大学硕十学位论文孤寺词识别l 1 的说话人归一化技术 从上图2 3 可以看出,男、女声的共振峰位置、共振峰带宽、共振峰幅度、 频谱倾斜都存在明显的差别。由于每个人的声道长度不同,发音时声道对声音的 调制也就不同,故语音中反映声道特征的声学参数也不同。但不同说话人在发同 一语音时,相应的共振峰之间是有一定关系的,是有规律可循的,因此可以用一 些折叠函数来归一化声道参数中的个性特征,保留语义信息,以提高孤立词语音 识别系统的应用范围。 2 1 3 声学特征参数 m e l 频率倒谱参数( m e l f r e q u e n c yc e p s t r u mc o e f f i c i e n t s ,m f c c ) 是目前最常 用的声道特征参数,它是基于人耳的听觉机理,依据听觉实验结果来分析语音的 频谱。在说明m f c c 的提取过程之前,首先解释一下临界( c r i t i c a l b a n d ) 的概念。 研究发现【1 1 2 6 】,在声压恒定的情况下,当噪声被限制在某个频带内时,其人耳感 觉的丰观响度是恒定的,而一旦噪声突破了这个带宽,则主观响应的变化便会被 感知。同样的,当声压恒定时,在这个带宽内的一个具有复杂包络的信号响度等 等价于在这个带宽中心频率位置加入了一个纯音的响度,而与信号本身的频率分 布无关;但是当信号的带宽突破了临界带宽时,其响度便不再与带宽中心频率位 置的纯音响度等价了。研究表明 2 6 】临界带宽随着频率的变化而变化,并与感知频 率( m e l 频率) 增长一致,在1 0 0 0 h z 以下,大致成线性分布,带宽为1 0 0 h z 左右, 在1 0 0 0 h z 以上带宽呈对数增长。m e l 频率标

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论