(模式识别与智能系统专业论文)基于混合模型的噪声补偿及其在语音识别中的应用.pdf_第1页
(模式识别与智能系统专业论文)基于混合模型的噪声补偿及其在语音识别中的应用.pdf_第2页
(模式识别与智能系统专业论文)基于混合模型的噪声补偿及其在语音识别中的应用.pdf_第3页
(模式识别与智能系统专业论文)基于混合模型的噪声补偿及其在语音识别中的应用.pdf_第4页
(模式识别与智能系统专业论文)基于混合模型的噪声补偿及其在语音识别中的应用.pdf_第5页
已阅读5页,还剩104页未读 继续免费阅读

(模式识别与智能系统专业论文)基于混合模型的噪声补偿及其在语音识别中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 当前在纯净环境下采用朗读方式的语音识别系统识别性能已经达到 一个相当高的程度,在这种情况下,语音识别走向实际应用必须解决对噪 声环境的鲁棒性问题和对说话人本身的鲁棒性问题。本文的研究工作属于 前部分,主要针对加性噪声环境进行鲁棒性研究,提出合适的噪声消除 算法,并把这些算法应用到语音识别系统中,提高识别系统在噪声环境下 的鲁棒性。 本文研究工作主要集中在功率谱域,频域和对数谱域,分析和研究采 用混合模型进行噪声消除的算法。论文主要工作和创新点如下: 在功率谱域,提出采用混合指数模型描述语音周期图分布,并在 这个模型基础上构建了最小均方误差估计器实现对纯挣语音能量谱密度 的估计。 在复频域,提出采用高斯混合模型描述语音频谱分布,给出了语 音频谱高斯混合模型构建算法。在这个语音谱高斯混合模型的基础上,本 文分别构建了最小均方误差短时谱,幅值平方谱,短时谱幅值和对数谱幅 值估计器。此外,本文在最大似然框架下提出了基于这个高斯混合模型的 噪声估计算法。 对数谱域下实现的对语音特征的补偿是本文最重要的部分。本文 在对数谱域的工作包括以下几点:首先提出采用高阶泰勒级数展开实现对 对数谱域非线性环境函数的近似以寻求最合适的补偿形式,同时考虑对数 谱高斯混合模型的建模精度问题,并且把对能量补偿引入进来,提出采用 类似谱减的方法补偿语音能量。此外,本文还提出了把对数能量补偿和对 数谱补偿结合在一起进行的方法。 由大词汇量连续语音识别的结果可以看出,频域的算法效果比较有 限,这是因为这些算法主要是为了增强语音信号本身提出的,性能的提高 主要反映在增强效果和小词汇量识别方面。对数谱补偿算法对语音识别系 统抗噪声的效果相当明显,因为这是直接对语音特征本身的补偿。本文对 对数谱补偿进行了详尽的分析和讨论,大词汇量语音识别的结果远高于噪 声环境匹配情况下的识别性能,而后者曾被认为是噪声环境下语音识别性 基于混合模型的噪声补偿及其在语音识刷中的应用 能的上限。 关键词:高斯混合模型,指数分御,能量谱密度,最小均方误差估计 对数谱补偿 a b s t 阳c t n o w a d a y s ,s p e e c hr e c o g n i t i o ns y s t e mi nc l e a l l c o n d i t i o n sw i t hr e a d i n g i n p u tm o d ec a l lg i v ed e s i m b l ep e r f b 咖a 1 1 c e ,b u te n v i 础n m e n t a ln 0 1 s ea n d s d e a l ( e rv a r i a t i o n , s u c ha s s p o n t a l l e o u s n e s sa n da c c e me t c ,p r e v e n t t n e r e c o g n “i o ne n g i n e 舶mb e i n gp u t t or e a l 印p l i c a t i o n t h i sp a p e rd e a l sw i t h t l l ef 0 珊e rp r o b l e ma j l d 嫡e st oe x p l o r e 山ee f f b c t i v ea l g o r i m m st op r o c e s s a d d “i v ee n v i r o n r n e n t a ln o i s e a sar e s u l t ,t h ep r o p o s e dn o i s er e d u c t i o n a l g o r i t h m sa r ea p p l i e di ns p e e c hr e c o g n i t i o nt 0i m p r 0 v ei t sp e r f o r m a n c ei n n o i s ye n v i r o n r n e n t s t h es t u d yo fm ep a p e ri sf o c u s e di nt h ep o w e rs p e c t r a ld o m a i n ,t 1 1 e c o m p l e xs 口e c t r a ld o m a i na n d 山e1 0 9 - s p e c t r a ld o m a i n t h em a i nc o n t r i b u t i o i l s a n dt h em a i nn o v e l t i e si n c l u d e : i nt t l ep o w e r 印e c t r a ld o m a i n ,m i x e de x p o n e n t i a lm o d e li sp r o p o s e d t od e s c r i b et h ed i s 打i b u t i o no fs p e e c hp 甜o d o g a m s b a s e do nt h em o d e l ,a m i n i m u mm e a n - s q u a r ee r r o re s t i m a t o ri sc o n s t r u c t e dt oe s t i m a t es p e e c h p o w e rs p e c t r a ld e n s i t y i nt 圮c o m p l e xs _ d e c t r a ld o m a i n ,g a u s s i a nm i x “l r em o d e li su t i l i z e d t om o d e lt 1 1 ed i s t r i b u t i o no fs p e e c hc o m p l e xs p e c t r aa n da na l g o “t h n li s p r o p o s e dt ob u i l dt l l em o d e l b a s e do nt h eg a u s s i a nm i x t u r em o d e l , e s t i m a t o r sa r cc o n s 打u c t e di nt h em i n i m 啪m e a n - s q u a r ce r r o rf r a m et o e s t i m a t es h o r t _ t i m es p e c t r a ,m a g n i t u d e s q u a r e d3 p e c t r a ,s h o r t t i m es p e c t r a l 锄p l i t u d e a r l d l o g - s p e c t r a l跏p l i t u d e b e s i d e s , n o i s ee s t i n l a t i o ni s i m p l e m e n t e di nt h em a ) ( i m l l l t il i k e l i h o o df h m e 、v o r kb a s e do nt h ec o m p l e x s p e c t r a lg a u s s i a f lm i x t u r em o d e l t h ec o m p e n s a t i o ni nt l l el o g s p e c t r a ld o m a i ni st h em o s ti m p o r t c o n t r i b u t i o no f t l l ep a pe r t h en o v e l t i e si n1 l l e1 0 9 s p e c t r a lc o m p e n s a t i o n1 i ei n t 1 1 ef o l l o w i n gs e v e m lp o i n t s h i g h - o r d e r1 a y l o rs e r i e se x p a n s i o nbp r o p o s e d t oa p p r o x i m a t et h en o n l i n e a re n v i r o 啪e n t a lf u n c t i o ni nt h e1 0 9 s p e c 廿a l d o m a i nt oe x p i o r et h em o s t 印p r o p r i a t ec o m p e n s a t i o nf o m l u l a s t h em o d e l i n g a c c u r a c yo fm el o g - s p e c t r a lg a u s s i a nm i x t u r em o d e li sc o n s i d e r e da n d c a r e f u l l yd e a l tw i t h a n dc o m p e n s a t i o no n _ p o w e rf 色a t u r ei sd i s c u s s e dd e t a i k d a n dat e c h n i q u es i m i l a rt os p e c t r a ls u b t r a c t i o ni sp r o p o s e dt op r o c e s sn o i s y p o w e rf e a t u r e f u r t h e m o r e ,t h ec o m b i n a t i o no fl o g s p e c t r a lc o m p e n s a t i o n a n dl o g p o w e rc o m p e n s a t i o ni sp r o p o s e da i l di m p i e m e n t e di n 也i sp 印e n r e s u l t so fl a 玛ev o c a b u l a r yc o n t i n u o u s s p e e c hr e c o g n i t i o n ( l v c s r ) e x 9 e r 证n e r 她s h o w 也a tt h ep 以f o a n c eo fa l l 9 r i 幽m si nt h e 矗e q u e n c yd n a i n i sal i t t l ei i m i t e d i ti sf o rt h er e a s o nt h a tt h ea l g o r i t 胁sa r ep r o p o s e dt o e f l | l a n c es p e e c hs i i m a l sa n dt h u st h ei m p r o v e m e n tl i e si ne n h a l l c e m e n t 基于混合模型的噪声消除及其在语备识别中的应用 p e r f o r m a n c e a r ds m a l lv o c a b u l a r ys p e e c hr e c o g n i t i o n l o 驴s p e c t r a l c o m p e n s a t i o na l g o r i 血m sc a l li m p r 0 v es p e e c hr c c o g n i t i o np e r f o m l a n c eg r c a t l y b e c a u s et h ec o m p e n s a t i o ni sd i r e c t l yo p e r a t e do ns p e e c hf e a “l r e l o g - s p e c t r a l c o m 口e n s a t i o ni sa n a i y z e da n dd i s c u s s e dd e t a i l e di n 廿l i sp a p e r a n d “c a ng i v e m u c hb e t t e rf e c o g n i t i o np e r f o n n a i l c ef o rl ,v s c rt h a nm a ti nm a t c h e d c o n d i t i o n s ,w h i c h 、v a so n c ec o n s i d e r e da st h eu p p e rl i m i to fs 口e e c h r e c o g n i t i o np e r f o 锄a i l c ei nn o i s yc n v i r o 】衄e n t s k e y w o r d s : g a u s s i a j lm i x t u r em o d e l ,e x p o n e m i a ld i s t r i b u t i o n ,p o 、v e r s p e c t r a id e n s i t y m i n i m u mm e a n - s q u a r ee r r o r e s t i m a t i o n , l o g s p e c t r a l c o m p e n s a t i o n 独创性声明 本人声明所提交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果。与 我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确地说明并表示了谢意。 签名:j 蛩幺 日期:z ! 里竺:z ! 墨2 一 关于论文使用授权的说明 本人完全了解中国科学院自动化研究所有关保留、使用学位论文的规定,即:中国科学院自 动化研究所有权保留送交论文的复印件,允许论文被查阅和借测;可以公布论文的全部或部分内 容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:jf 习篮 导师签名 日期:望! 竺:】z 兰f 第一章绪论 作为整篇论文的绪论部分,本章首先简要介绍语音识别的基本框架, 说明当前语音识别研究的状况及其需要解决的重点和难点,然后结合本文 的工作,分析本文工作的意义,最后给出本文的组织结构。 1 1 语音识别概述 语言是人类之间进行信息、思想、观点和感情等相互交流的最自然、 最方便和最快捷的交互方式,人类之间有大量的信息都是通过语言进行交 流的。因此对语音这个语言的载体进行分析和研究,实现人机之间的自由 交互,对于进一步提高社会自动化和信息化有非常重要的意义。 1 1 1 语音识别研究历史的简短介绍 设计语音识别系统最早的尝试发生于上世纪5 0 年代,当时不同的研 究者试图分析研究声学和语音学的一些基本的思想,一些简单的特定人孤 立词识别系统被开发出来。在5 0 年代后期,滤波器组已经被采用来给出 语音频谱信息。与此同时,关于可能的音紊序列的统计信息首次被应用到 语音识别中来 6 6 】。 6 0 年代,在一些重要的研究项目的资助和一些专用硬件被设计出来 的情况下,语音识别中的些基本的思想逐渐建立起来。比较重要的是在 前苏联,v i n t s y u k 提出采用动态规划的思想来对一组语句进行时间对准。 在7 0 年代,关于语音识别的研究已经达到了个相当的高度,孤立 词识别已经可阻被应用到实际中。动态时间规整技术日渐成熟,并在语音 识别中得到了广泛的应用。同时,建立在频谱参数合理的距离测度基础上, 线性预测编码技术被应用到语音识别中来 1 3 1 】。 进入8 0 年代,关于语音识别的研究主要针对连续语音。随着语音识 别中基于模板的方法向基于统计的方法转移,隐马尔可夫的建模技术得到 了成功应用。非特定人连续语音识别系统被很好地构建出来。 9 0 年代以后,随着h m m 的建模技术成为语音识别的主流,大词汇 量连续语音识别系统已经针对不同语言得到了实现,语音识别研究的重点 转到语音识别的鲁棒性方面。9 0 年代出现了很多关于说话人自适应的算 法,比较典型的如m a p 和m l l r 自适应方法和关于噪声鲁棒性的方法, 如c d c n 和p m c 等。与此间时针对口音和说话随意性的研究也得到了很 多研究人员的关注。 近些年来关于语音识别在噪声环境下的鲁棒性问题成为很多研究人 员的研究重点,一些鲁槔性算法被提出来了,包括m o t o r o l a 等公司的e t s i d s r 标准【4 1 】和d e n g 等关于s p l i c e 算法的研究【2 3 】。在2 0 0 3 年 e o s p e e c h 大会上,针对含噪语音库a u r o r a 评测和研究的议题成为会议 的主题但对于象a u r o r a 4 这样的大型数据库,对噪声非常有效的方法 仍然有限。 1 1 2 语音识别基本框架 语音识别可以定义为把由语音接收设备获得的声学信号转换为词序 列的过程。识别的词汇是最终结果,它们可以被用来进行命令控制,数据 输入和文本输入等,同时它们也可以作为进一步语言处理的输入以实现语 音理解等。 当前语音识别系统是建立在统计模式识别的原则上的。采用这些原则 的基本方法来处理语音识别是由b a l ( e r ,j e l i n e k 和他们在i b m 的同事于上 世纪7 0 年代提出来的【1 2 3 】。一段语音波形通过前端信号处理后可以得到 一组特征向量序列y = m ,y :,j ,。由于语音信号可以被认为是短时平稳 的,这些向量可以看作是大约2 0 m s 短时语音谱的描述。在给定观测序列 y 的情况下可以通过识别系统采用如下的贝叶斯准则决定最可能的词序 列驴 旷= a r g a ) ( p ( j d = a r g 尹a x 型紫= a r g a x p ( 坝y f 旷 ,l ,l矿 其中第三个等式是因为p ( 】,) 本身与词序列矽无关,因此只需要分子部分 就可以了。上式中尸( 矿) 反映的是词序列出现的先验概率,它可以通过语 言模型实现,户( y i 矽) 则是给定词序列情况下观测序列y 出现的概率它 代表识别系统的声学模型部分。这样整个语音识别可以由特征提取,声学 模型及语言模型三个部分构成。 2 1 1 2 1 特征提取 特征提取指从语音信号中提取语音最本质的特征,这包含两方面的台 义:特征提取属于信息压缩过程,即采用尽可能少的数据柬描述语音,同 时这些数据能反映语音最本质的特征。这样,提取后的特征相对语音信号 而言,对其进行处理所需的计算量和存储量要求比较小,同时保留了语音 信号本身的特征和区分性。 当前语音识别中最常用的特征是m e l 一频率倒谱系数( m e l f r e q u e n c y c e p s t r a lc o e f f i c i e n t s ,m f c c ) 【2 1 】。在进行特征提取前,语音信号通常被 预加重,主要是通过高频放大补偿由于嘴唇的发射而引起高频信号的衰 减。由于语音信号在很短的时间内( 毫秒级) 可以被认为是平稳的。前端特 征提取通常以帧为单位进行分析,对这样的一帧信号进行时频分析,就可 以得到比较理想的语音特征。帧与帧之间通常是相互重叠的,这样可以保 证语音特征之间的平滑,不至于产生太大波动。在进行频域分析前,需要 对每帧信号加窗( 通常采用哈明窗或哈宁窗) ,以补偿由于信号截断而引 起的频谱泄漏。对加窗后的信号计算其傅立叶变换,并得到功率谱。功率 谱沿频率轴按m e l 尺度进行弯折,根据三角滤波器组分别进行积分,得到 m e l 功率谱。这里的m e l 尺度是根据人耳对不同频率声音信号的敏感程度 得到的,而采用三角滤波可以得到更准确平滑了的功率谱。对每个滤波器 输出的m e l 功率谱进行取对数运算,得到对数谱。这里取对数的意义可 以参考文献 1 2 8 】中关于同态滤波的说明。它把时域或频域中相乘的关系, 如卷积性噪声的影响转换成对数域中相加的关系,这样更有利于对噪声 进行抑止和对信号补偿。对对数谱进行离散余弦变换,最后得到倒谱。这 里进行离散余弦交换包含两方面的意义:一方面特征被压缩到一个较低的 维数,另一方面这也是一个解相关的过程,使得倒谱可以被建模为对角方 差阵的( 可以参考文献【1 3 2 】中关于离散余弦变换矩阵性质的分析) 。 在语音识别系统中。每一帧的能量、m f c c ,及它们的一阶二阶差分 组合成的3 9 维特征就是语音识别中最常用的特征。这里动态特征反映了 基本特征的帧间相关性。 此外,语音识别中常用的特征还包括线性预测倒谱系数( l i n e a r p r e d i c t i o n c e p s t r a lc 0 e f f i c i e m s ,l p c c ) 和感知加权线性预测系数 ( p e r c e p t u a l l yw e i g h t e dl i n e a rp r e d i c t i v ec o c f f i c i e n t s ,p l p ) 等,有兴趣的 苎三塑鱼堡型塑坚兰! ! 堡垒堡垄堡童望型! 些查星 。-,_一一 读者可以参考文献【4 5 】和【5 8 】中的介绍。 1 1 _ 2 2 声学模型 声学模型的目的是在给定词序列的情况下提供计算观测序列y 似 然度的一种方法。在大词汇量连续语音识别中,通常采用三音子( ,r r i 曲o n e ) 作为基本的建模单元,每个三音子由一个连续密度的隐马尔可夫模型 ( h i d d e nm a r k o vm o d e l ,h m m ) 表示,它的转移参数为 口。) 输出观测分布为 ( + ) 。后者通常表示为高斯或者混合高斯的。由于声学向量m 的维数 相对较高,方差矩阵被限制为对角的。 由多个三音子模型的组合可以构成一个组合的隐马尔可夫模型,这 样,声学似然度可以计算为 p ( r i 渺) = p ( x ,y l 彤) 其中x = x ( 0 ) x ( 丁) 是状态序列,并且有 p ( x ,yj ) = q ( 0 ) 圳) 兀:i 以( m ) 日坤( 】 声学模型参数 口 和 6 ,( ) ) 可以通过e m 算法由训练语音有效地估计出 来。值得注意的是,在实际中,大多数的模型参数被用来对输出分布建模, 而转移参数对识别率的影响很小。 上面的声学建模方法被称为隐马尔可夫模型的组合【1 2 3 】是因为所 有的语句都可以由一组预先训练的三音子模型的组合表示。 由于汉语中除了静音外还包含有6 1 个音素( 2 4 个声母,3 7 个韵母) , 这样得到的三音子是一个庞大的数目。由于训练数据有限,不可能对每个 三音子模型都给出充分的训练,因此需要采用某种参数共享技术解决这个 问题。在声学模型训练中,通常采用基于决策树的聚类来实现三音子间参 数的共享【1 3 l 】。 1 1 2 3 语言模型 语言模型的目的是提供一个机制估计某些词序列= w l w 。出现的 概率 p ( ) = 兀:,尸( 峨i 。w 1 ) 个简单而有效的方法是采用- g 舢模型,即假设只取决于前面的 ”一1 个词 p ( 形) = n :、尸( w 。1w w 。+ ) 通常n 取为2 、3 或4 。这使得语言模型非常有效,因为对于语言本身, 词序列相当重要,最重要的上下文信息主要来自于邻近词。此外,n - g r 锄 概率分布可以直接由文本数据计算得到,因此不需要明确的如句法,语法 等语言约束。理论上讲,n - g r a m 可以通过简单的频次计算得到,如对于 三元概率模型,有 盹,= 捌 其中,( 口,6 ,c ) 和6 ( 口,6 ) 分别是三元g r 啪“魏c 和二元g r a m 珥6 在训练数据中 出现的次数。 采用n g r 锄模型会碰到数据稀疏的问题,因为各种词之间的组合太 多了,出现在训练语料中的次数非常有限。这个问题可以通过语言模型的 退化( d i s c o u t i n g ) 【1 2 3 】解决,即高阶g r a m 模型在没有得到充分训练的情况 下可以采用低阶g r 啪模型替代。 1 1 3 当前语音识别研究的重点和难点 目前语音识别系统已经达到一个相当成熟的阶段,在办公室环境下采 用朗读方式的大词汇量连续语音识别系统的性能已经相当高了。但当这些 系统被投入到实际应用中时,系统性能将会急剧降低。 造成这种情况有多方面的原因,主要可以分为两点,即识别系统所处 的声学环境和说话人本身的影响。 识别系统所处的声学环境主要指语音信号从说话人传输到识别系统 过程中所面对的加性或卷积性的畸变,如车载识别系统的性能常常会受到 汽车噪声、马路噪声等的影响。电话语音识别系统通常需要补偿传输通道 对语音信号的卷积性畸变。在加性和卷积性噪声的干扰下,语音识别系统 基于混合模型的噪声补偿及其在语音识别中的应用 的性能会急剧下降,严重影响语音识别走向实际应用。因此语音识别环境 鲁棒性问题是语音识别系统走向实际应用必须解决的。 说话人本身的影响则指说话人之间声道长度的差异,说话人存在的口 音和方言,以及说话方式的随意性对识别性能的影响。现阶段,尽管语音 识别系统已经达到一个相当高的程度,但由于说话人本身的影响,即使采 用手持式麦克风,识别系统往往也不能给出理想的结果。造成这个情况的 原因主要是测试说话人和声学模型之间存在着不匹配造成的,因为对于普 通的说话人,或多或少存在着一定的口音和方言,或者由于发音习惯的影 响,有某些字咬不准在这种情况下,识别系统显然很难给出理想的识别 结果。此外由于说话的随意性,语音识别系统在实际应用中往往会面对非 实际语音,如咳嗽声,或者语音断断续续,不连贯等情况。要解决上面提 到的说话人本身对语音识别的影响就必须解决说话人自适应的问题,解决 针对说话人口音和方言的鲁棒性问题,解决关键词检测,集外词检测的问 题,解决针对说话方式随意性的鲁棒性问题。 说到底,当前语音识别研究的重点和难点就是要解决语音识别系统在 复杂环境下的鲁棒性问题和解决由于说话人本身对识别系统影响的鲁棒 性问题。 1 2 本文研究工作的意义 本文主要研究加性噪声环境下的语音识别鲁棒性问题,主要在特征提 取阶段,如功率谱域,复频域,对数谱域,考虑对语音特征的补偿。所有 的研究工作都建立在语音特征的参数化模型及噪声对语音影响的环境函 数的基础上,所有补偿都在最小均方误差意义下实现。 1 1 3 节已经讨论了当前语音识别研究的重点和难点,其中语音识别 在噪声环境下的鲁棒性问题是语音识别研究中迫切需要解决的问题之一, 这也是本文研究工作的主要内容。 在有关文献( 特别是在上世纪八十年代末九十年代初的有关文献) 中, 语音识别在噪声环境下的性能急剧下降的问题被详细阐述了。这里给出了 采用降采样为8 k h z 的8 6 3 数据分别进行训练和识别的大词汇量连续语音 6 第一章绪论 识别系统在不同噪声环境下的识别结果详细的系统描述和性能分析可以 参考5 7 节。在采用纯净语音进行训练,采用加入b a b b l e ,w h h e 噪声的 8 6 3 测试数据进行识别时的识别结果如图1 1 所示( 该结果可以参考表 5 一1 ) 。 1 0 0 8 0 6 0 4 0 2 0 0 - 一b a b b k 一 _ 抽沁 ? 一 爿jjj 0 d b5 d bl o d b1 5 d b 2 0 d bc l e a n 图l - l 语音识别系统在噪声环境下的识别结果 由图1 - l 可以知道,在纯净环境和在高信噪比的情况下,该识别系统 的性能比较高,但在噪声环境下。该系统性能急剧下降。在1 0 d b 的噪声 环境下,平均识别率不到4 0 ,在这种情况下,该识别系统显然无法投 入实际应用。因此,解决语音识别系统在噪声环境下的鲁棒性问题对语音 识别系统的应用具有举足轻重的作用。 本文主要研究语音对加性噪声的鲁棒性问题,并把所提出的算法应用 于语音识别中以提高识别系统对噪声环境的鲁棒性。尽管这方面的研究已 经进行了很多年,但是目前在噪声环境下的识别性能仍然远不能同安静环 境下的性能媲美,甚至要达到噪声环境匹配情况下的识别率也非易事。可 见噪声下的鲁棒语音识别研究是一个迫切需要深入研究的课题,对于研究 者而言,也是一个具有挑战性的问题。 1 3 论文内容安排 除了第一章绪论介绍语音识别基本框架和本文研究工作的意义外本 论文其它章节的内容安排如下: 第二章综合阐述了当前各种语音识别噪声鲁棒性算法,并把这些鲁棒 基于混台模型的噪声补偿及其在语音识别中的应用 性算法根据环境函数和补偿形式分为信号空间的增强,特征空问的补偿和 模型补偿三个部分。这一章对这三个部分的各种算法进行了详细的分析和 总结。 第三章给出了语音能量谱密度最小均方误差估计算法。语音信号可以 看作是短时平稳的,在较短的时间内语音周期图满足指数分布。针对语音 信号的非平稳性,采用混合指数模型比较全面地描述语音周期图分布。在 这个混合指数模型基础上,这一章在最小均方误差估计框架下实现了对纯 净语音周期图的估计。 第四章给出了复频域采用高斯混合模型进行语音增强的算法。在频域 采用高斯混合模型描述语音频谱分布,并提出了一个语音谱高斯混合模型 构建算法。在这个语音谱高斯混合模型的基础上,分别构建了最小均方误 差短时谱,幅值平方谱,短时谱幅值和对数谱幅值估计器。增强实验表明 基于高斯混合模型的估计器,特别是基于高斯混合模型的最小均方误差短 时谱估计器能给出比一般最小均方误差估计器更好的结果。识别实验同时 表明基于高斯混合模型的最小均方误差短时谱估计器不仅优于一般最小 均方误差估计器,而且比其它基于高斯混合模型的最小均方误差估计器性 能更优。 第五章介绍的在对数谱域下实现的对语音特征的补偿是本文最重要 的部分,因为采用本文给出的对数谱补偿算法,在大词汇量语音识别实验 中,它的识别结果高于噪声条件匹配情况下识别系统的结果,而这曾经被 认为是噪声环境下语音识别的上限【2 3 】。本文在对数谱域的工作主要包含 以下几点:提出了采用高阶泰勒级数展开实现对对数谱域非线性环境函数 的近似,同时讨论了对数谱高斯混合建模的精度问题,并且把对能量补偿 引入进来,提出采用类谱减的补偿方法。 第六章在第五章关于能量补偿的基础上提出采用对数能量和对数谱 进行联合补偿的方法。 第七章给出了论文工作一个比较全面的总结,并对进一步研究提出了 建议。 附录部分包含作者在攻读博士期间在快速说话人自适应方面的一点 工作。 塑三兰堡妻! 堡! 量堡里童堡型里! 壅望鉴 第二章噪声环境下鲁棒语音识别研究现状 在语音识别走向应用的过程中,越来越多的问题暴露在研究者面前, 其中最重要的是语音识别系统在复杂环境下识别性能急剧降低的问题。这 种识别性能的降低是由于训练和识别环境不匹配造成的,一二十年来研究 人员提出了各种方法来补偿这种不匹配对语音识别性能的影响。 本章综合阐述了二十年来关于语音识别加性和卷积性噪声鲁棒性 研究的各种方法。这些方法根据噪声对语音信号的影响形式和补偿形式的 不同可以分为信号空间的语音增强,特征补偿和模型补偿三类。在信号空 间噪声信号和语音信号是一个直接相加的关系,补偿也是一个线性运算, 但由于语音和噪声在信号空间随机性较大,而且特征没有经过压缩,采用 语音增强的方法进行补偿需要较大的计算量。在对数谱域或倒谱域,噪声 对语音的影响是非线性的,特征补偿主要通过对这个非线性进行不同程度 的简化和近似完成。模型补偿主要是补偿由训练数据得到的声学模型,使 其匹配测试环境,从而提高识别率。本章从这三个方面分别分析和讨论了 语音识别中各种噪声鲁棒性方法,作为对近一二十年来语音识别噪声鲁棒 性研究的一个简单的归纳和总结。 2 1 噪声鲁棒性补偿的基本框架 近些年来,关于提高语音识别系统在复杂环境下的鲁棒性问题已经成 为了研究热点,各类提高噪声鲁棒性的方法被提出来了。所有这些方法都 可以看作是寻找补偿训练和测试问不匹配的一个映射。图2 1 描述了语音 识别中训练和测试时信号空间、特征空间和模型空间存在不匹配的情况 1 0 5 】。s 、和人r 及几l ,和人,分别代表训练和测试时的语音信号、特 征和模型。d l ( ) 、d 2 ( ) 和b ( ) 分别是描述s 和,、x 和y 及a ,和人,之 间映射的函数。提高语音识别噪声鲁棒性实际上就是在信号、特征或模型 空间得到从训练环境到测试环境的映射,从而在识别前或者在识别过程中 补偿训练和测试环境问存在的不匹配。 根据上面的分析,可以把这些方法分为三类:1 ) 时域和频域的语音 增强,包括谱减,维纳滤波等:2 ) 特征空间的补偿,包括c d c n ,v t s - 9 基于混合模型的噪声补偿及其在语音识别中的应用 等;和3 ) 模型补偿,包括噪声屏蔽,p m c 以及一些环境补偿的自适应方 法等。 训练 d i 测试 信号空间特征空间模型空间 特征 图2 一l 训练和测试时不匹配的情况 通常,信号空间的补偿和倒谱空间的补偿都可以看作特征补偿 5 2 】, 但是在这两个窑闻噪声对语音的影响从数学上描述有很大的不同补偿的 形式也有很大差别,因此本文把这两个部分分开阐述。另外,文献 5 2 】把 鲁棒特征提取作为一个独立的分支,但实际上近些年来在这方面取得的进 展不大,对于噪声环境效果也不明显,因此本章不涉及这方面的内容。 2 2 加性和卷积性噪声在时域、频域、对数谱域和倒谱域对语 音信号的影响 在时域,语音信号受加性噪声和卷积性噪声的污染可以由下式表示: y 所】= 虹删】+ 卅】+ h m 】 其中y 咖 、埘肌】、打 m 】和 卅】分别表示含噪语音信号、语音信号、加性 噪声和卷积性噪声。 对上式两边分别进行傅立叶变换,可以得到频域和功率谱域下加性噪 声和卷积性噪声对语音影响的公式 】,( ) = ( ) ( ) + ( 以)陀1 1 y ( 兀) j 2 = 坝 ) _ 瞰 ) i2 + j 崛) f 2 + 2 r e 能( ) 以以) ( ) 。,、 爿爿) 川以) i2 + i ( 五) i2 + 2 i ( ) f 1 日) | | ( 五) c o s 吼。j 1 0 第二章噪声环境下鲁棒语音识别研究现状 其中= o ,世,以是滤波后语音和噪声在第点的夹角,l ,( ) 、x ( ) 、 ( 以) 和日( 以) 分别是含噪语音、纯净语音、加性噪声和卷积性噪声的线 性频谱。由于语音和噪声可以被假设为相互独立零均值分布的,式( 2 2 ) 最后一项的期望为零。尽管对于给定的某一帧这一项的瞬时值不为零,但 在进行m e l 滤波计算时,每一个滤波单元的输出都是由很多个点的能量 加权求和得到的,因而可以认为 只( 女) 。只( 女) p ( 女) + 只( )( 2 3 ) 上式中只( 七) 、只( i ) 、只( 七) 和只( 七) 分别是含噪语音、纯净语音、加性噪 声和卷积性噪声的m e l 功率谱。 因此在对数谱域,如果定义、和 分别是含噪语音、纯净 语音、加性噪声和卷积性噪声的对数谱向量,则加性噪声和卷积性噪声在 对数谱空间对语音的影响可以表示为 j ,。= x + 。+ l o g ( ,+ p ( 一一一一) ( 2 4 ) 同理,如果定义旷、r 、旷和分别是含噪语音、纯净语音、加性噪声 和卷积性噪声的倒谱特征向量,则倒谱域的环境函数可以写为 j ,。= x 。+ 。+ d 1 0 9 ( j + p 。r 一,一旷)( 2 5 ) 其中d 是离散傅立叶变换( d c t ) 矩阵。 2 3 时域和频域的语音增强 噪声环境下语音识别鲁棒性研究是最近一二十年来语音识别系统基 本完善后才逐步发展起来的,但关于语音在噪声环境下的鲁棒性研究却很 早就已经开始了。由于噪声环境下的语音通讯和语音编码常常也需要进行 鲁棒性研究,因而产生了很多噪声鲁棒性方法,如谱减,维纳滤波等。与 语音识别中把识别率作为评价噪声鲁棒性的唯一标准不同,早期的噪声鲁 棒性研究主要以提高可懂度和提高语音质量作为评价标准。尽管评价标准 不同但仍然可以采用这些方法补偿识别系统中的噪声干扰。 苎塑鱼苎型竺堡主丛堡墨苎垄堕童望型! ! ! ! 塑 2 3 1 谱减 谱减最初由b o l l 于1 9 7 9 年提出来【1 4 】,它对于语音识别加性噪声鲁 棒性非常有效,这也是谱减作为一门简单的技术长期以来一直成为研究热 点的原因。 由于谱减仅针对加性噪声,因而一般认为不存在或不考虑卷积性不匹 配的情况。根据前面给出的公式( 2 1 ) ,( 2 2 ) 可知,如果假设加性噪声和语 音不相关,则含噪信号的频谱是噪声和语音频谱之和,如果己知噪声谱, 则可以直接从含噪语音谱中减去噪声谱从而得到纯净语音谱的估计。然而 瞬时的噪声谱是没法得到的,为了实现上砸的计算常常用噪声谱的期望来 取代它的瞬时值,噪声谱的期望可以在语音间隙对噪声谱求均值得到。由 于谱减采用的减法操作会产生负的结果,因此需要设置门限来保证非负 性。下式是b o l l 给出的最基本的谱减公式【1 4 】 闭剧= 了氓叫m m l 始川叫m m | o 公式中关于非负下限的非线性计算通常会产生被称为“音乐噪声”的残余 误差。为了改进消噪性能并抑制音乐噪声,b e r o u t i 1 2 把两个参数引入到 了谱减方法中 l 雪( 怍 饼黼魄川鬓警川吨坼川 剧似l ( 2 - 6 ) 其中口称为过估计系数,表示需要减去的噪声的程度,称为谱下限,反 映纯净语音谱的下限。这是标准的谱减公式。 在标准谱减的基础上,很多文献给出了改进的形式。l o c k w o o d 等提 出了非线性谱减的方法,被减去的噪声不再是噪声的瞬时值而是局部最大 的噪声信号,同时过估计系数采用一个非线性的频率相关的函数来描述以 达到最优的谱减效果【8 2 】。由于在谱减中增强后的信号实际上是由信噪比 的某个函数同当前含噪语音相乘得到的,a r s l a n 和m c c r e e 提出采用平滑 后的噪声和语音谱代替瞬时值来计算信噪比,这样就消除了信号随机性对 信噪比计算一定程度的影响,这个方法被称为平滑谱减( s m o o m e d s 口e c t r a l s u b t r a c t i o n ) 8 】。s c l l l e s s 和c l a s s 通过对不同噪声水平下采用不同的参数 集 ,) 的谱减性能进行评测,结果表明最优的参数集取决于当前的噪声 1 2 第二章噪声环境下鲁棒语音识别研究现状 情况,在低信噪比环境下需要减去更多的噪声,即需要加大a ,减小, 因此谱减的最优性能可以通过把参数集作为瞬时信噪比的一个非线性函 数得到 1 0 6 】。y o m a 等假设谱减的可靠性同给定含噪信号情况下语音信号 对数谱后验估计的方差成反比,把这个可靠性作为加权系数引入到搜索过 程中 1 2 2 】。 文献【1 1 1 提出了广义谱减的方法 i 鼻( ) i “= 口。i r ( 以) i 。一巩。i 膏( 五) i 。 其中文( ) 、y ( ) 和霄( 五) 分别表示需要估计的语音谱、含噪语音谱和 噪声谱,口是幂指数,口。和钆。是广义谱减的参数。取口如= l 和钆,。= , 则当口= 1 时上式为原始的谱减公式,当口= 2 时上式则为功率谱减的方 法。在语音谱估计均方误差最小的准则下,文献【l l l 】给出了计算参数吼。 和坟。的公式。广义谱减的提出使得谱减参数的故事可以在最小均方误差 意义下实现。 谱减的成功在于它能够消除有色噪声和慢变噪声,然而它的缺点同样 不容忽视。它的一个主要缺点是噪声谱常常只是一个粗略估计,很难确定 纯粹的噪声段和连续变化的噪声谱,因而常常会残留音乐噪声。另一个缺 点是在低信噪比环境下,噪声强度常常可以同语音相比拟,这样含噪信号 谱几乎等同于估计得到的噪声谱,使得估计误差较大。 2 3 2 维纳滤波 维纳滤波器是在使得估计均方误差最小的意义下实现的( 读者可以参 考文献 1 3 4 】中关于一般意义下维纳滤波器的推导) 。假设噪声和纯净信号 独立时,维纳滤波的公式可以写为 w = 【足。+ 乜。】“k 町) 2 揣 其中氏和眉。分别是信号和噪声的自相关矩阵,k 是信号的自相关向量, ( ,) 和( ,) 分别表示信号和噪声的功率谱。由维纳滤波公式可以看 出,构造维纳滤波器需要已知噪声和信号的信息( 自相关函数或功率谱) 。 基于混台模型的噪声补偿及其枉语音识别中的应用 文献【7 ,9 5 ,8 3 】介绍了e t s id s r 前端处理标准的噪声鲁棒性方法。文 献 7 】提出在m e l 谱域构建维纳滤波器在时域实现滤波。消噪经过两步维 纳滤波完成,第一步把有色噪声白化,第二步滤除残留的白噪声。在文献 9 5 中,含噪信号和噪声的功率谱分别通过短时和长时信号功率谱得到。 这里采用了一个语音信号检测器( v o i c e a c t i v i t y d e t e c t o r ,v a d ) ,它根据 信噪比确定是否更新长时信号功率谱。这个方法的核心在于在时域和频域 分别进行平滑的基础上采用两次维纳滤波来实现噪声消除,使得信号各帧 间有比较好的连续性,几乎不存在刺耳的残留噪声。 2 3 3 基于高斯模型的滤波 谱减和维纳滤波都可以在假设语音和噪声满足高斯分布的基础上被 推导出来【8 6 】。假设语音和噪声谱分别满足下面的零均值复高斯分布 飓,= 去唧 一警) 刀【“j 旭,= 去唧 一警 其中以= x ( 以) 和m = ( 五) 分别表示语音信

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论