(检测技术与自动化装置专业论文)抗噪声语音识别的前端处理算法研究.pdf_第1页
(检测技术与自动化装置专业论文)抗噪声语音识别的前端处理算法研究.pdf_第2页
(检测技术与自动化装置专业论文)抗噪声语音识别的前端处理算法研究.pdf_第3页
(检测技术与自动化装置专业论文)抗噪声语音识别的前端处理算法研究.pdf_第4页
(检测技术与自动化装置专业论文)抗噪声语音识别的前端处理算法研究.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(检测技术与自动化装置专业论文)抗噪声语音识别的前端处理算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 题目:抗噪声语音识别的前端处理算法研究 专业:检测技术与自动化装置 研究生:李金宝 导师:屈百达教授 摘要 抗噪声语音识别技术是语音识别系统走向实用化的一个关键性难题。尽管现有的语 音识别系统对纯净语音已达到了很高的识别精度,但是无处不在的噪声带来了训练模型 和测试语音之间的失配,识别器性能会急剧下降,在很多情况下无法满足实际应用的需 要。 本文对噪声环境中的语音识别的前端处理分别进行了研究,主要包括端点检测、语 音增强和特征提取。 首先研究了端点检测,它是进行语音增强和有效提取语音特征的前提和保证。深入 研究了短时能量、短时过零率和基于频带方差的检测算法,在分析了以上算法不足的基 础上,提出了基于自适应子带频谱熵和功率谱熵的端点检测算法,实验仿真结果表明该 算法收到了很好的效果。 接着研究了语音增强,它不仅是有效提取特征参数的前提,也是语音合成和语音编 码中的重要环节。对常用的谱减法、维纳滤波法和m m s e 谱估计法进行了一定的理论 阐述,并通过实验仿真验证了三种算法,又进一步对谱减法作了改进,实验仿真证明了 改进后的谱减法也是一种很好的增强算法。 最后研究了特征提取,它是语音识别最重要的环节之一。对常用的l p c c 和m f c c 进行了一定的理论推导,接着提出了一种新颖的特征参数基于最小方差无失真响应 的感知倒谱系数p m c c ,并在不同信噪比下做了大量的识别实验,对三种特征参数进行 了比较,实验表明该参数确实优于l p c c 和m f c c 。 关键词:端点检测,语音增强,特征提取,谱熵,谱减,最小方差无失真响应 江南大学硕士学位论文 a b s t r a c t n o i s er o b u s t n e s si so n eo ft h em a j o ro b s t a c l e st ot h ec o m m e r c i a lu s eo fs p e e c h r e c o g n i t i o nt e c h n i q u e s t h o u g hp r e v a i l i n gs p e e c hr e c o g n i t i o ns y s t e m sc a no b t a i nar a t h e r h i g ha c c u r a c yf o rc l e a ns p e e c h ,t h e i rp e r f o r m a n c ew i l ld e g r a d er a p i d l yi nn o i s ye n v i r o n m e n t s d u et ot h em i s m a t c hb e t w e e nt h ea c o u s t i cm o d e l sa n dt h et e s t i n gs p e e c h t h e r e f o r e ,i tm a k e s t h ec u r r e n ts p e e c hr e c o g n i z e r su n s u i t a b l ef o rp r a c t i c a la p p l i c a t i o n s i nt h i sp a p e r , p r e p r o c e s s i n go fs p e e c hr e c o g n i t i o ni nn o i s ye n v i r o n m e n t si ss t u d i e d , m a i n l yi n c l u d i n ge n d p o i n td e t e c t i o n ,s p e e c he n h a n c e m e n ta n df e a t u r ee x t r a c t i o n f i r s t l y , e n d p o i n td e t e c t i o ni ss t u d i e d ,w h i c hi st h ep r e c o n d i t i o na n dg u a r a n t e eo fs p e e c h e n h a n c e m e n ta n de f f e c t i v e l y e x t r a c t i n gv o i c e f e a t u r e s d e t e c t i o na l g o r i t h m ss u c h 船 s h o r t - t i m ea v e r a g ee n e r g y , s h o r t - t i m ea v e r a g ez e r o - c r o s s i n gr a t ea n db a s e do ns p e c t r u m v a r i a n c ea r ed e e p l ys t u d i e d o nt h eb a s i so f a n a l y z i n gt h ef a u l t so f t h e s ea l g o r i t h m s ,e n d p o i n t d e t e c t i o na l g o r i t h m sb a s e do na d a p t i v es u b b a n ds p e c t r a le n t r o p ya n dp o w e re n t r o p ya r e p r o p o s e d e x p e r i m e n t a lr e s u l t ss h o wi tc a no b t a i ng o o de f f e c tu n d e rd i f f e r e n tn o i s e c o n d i t i o n s s e c o n d l y , s p e e c he n h a n c e m e n ti ss t u d i e d ,w h i c hi s n o to n l yt h ep r e c o n d i t i o no f e f f e c t i v e l ye x t r a c t i n gf e a t u r ep a r a m e t e r s ,b u ta l s oi sav i t a ls t e pi nt e x tt os p e e c ha n ds p e e c h c o d i n g t r a d i t i o n a la l g o r i t h m s ,s u c ha ss p e c t r u ms u b t r a c t i o n ,w i e n e rf i l t e r i n ga n dm m s e a m p l i t u d ee s t i m a t e ,a r ed e s c r i b e di nt h e o r yr e s p e c t i v e l y , a n dt h e y a r ev a l i d a t e db y e x p e r i m e n t s a n dt h e ni m p r o v e ds p e c t r u ms u b t r a c t i o ni sp r e s e n t e d e x p e r i m e n t a lr e s u l t s r e v e a li t sa l s oas u c c e s s f u la l g o r i t h m f i n a l l y , f e a t u r ee x t r a c t i o ni ss t u d i e d ,w h i c hi so n eo fk e yp a r t si ns p e e c hr e c o g n i t i o n c o m m o nf e a t u r ep a r a m e t e r ss u c ha sl p c ca n dm f c ca r et h e o r e t i c a l l ys t a t e d a n dan o v e l f e a t u r e ,n a m e dp e r c e p t u a lc e p s t r a lc o e f f i c i e n t sb a s e do nt h em i n i m u mv a r i a n c ed i s t o r t l e s s r e s p o n s e ( p m c c ) ,i sp r o p o s e d u n d e rd i f f e r e n ts n r s ,al o to fr e c o g n i t i o ne x p e r i m e n t su s i n g t h r e ef e a t u r e sh a v eb e e nd o n e t h er e s u l t si n d i c a t et h ep r o p o s e df e a t u r eo u t p e r f o r m sl p c c a n dm f c c k e y w o r d s :e n d p o i n td e t e c t i o n ;s p e e c he n h a n c e m e n t ;f e a t u r ee x t r a c t i o n ;s p e c t r u me n t r o p y ; s p e c t r t u ns u b t r a c t i o n ;m i n i m u mv a r i a n c ed i s t o r t l e s sr e s p o n s e l i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 本人为获得江南大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名:查金窒日期:2 。7 年6 月驴e l 关于论文使用授权的说明 本学位论文作者完全了解江南大学有关保留、使用学位论文的规 定:江南大学有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅,可以将学位论文的全部或部分内容编 入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、 汇编学位论文,并且本人电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 签名:二蔓坌堕一导师签名:阻 日期:2 0 0 7 年占月2 日 第一章绪论 1 1 引言 第一章绪论 目前的语音识别系统对纯净语音可以达到非常高的识别精度。但是在噪声环境下, 由于训练模型和识别特征之间的失配,语音识别系统的性能会急剧下降。因此,作为语 音信号处理领域里难中之难的前沿课题,抗噪声语音识别是语音识别系统达到真正实用 所迫切需要解决的关键问题。 语言是人类最自然、最方便和最有效的交换信息的手段。以数字技术为代表的信息 时代己悄然来临,人们会越来越多地通过和各种机器交互来进行信息的获取、处理和传 递。摈弃键盘、鼠标等传统的输入方式,通过语言和机器直接交流成为人们追求的目标。 语音识别则是实现这种人机界面的关键技术。 1 1 1 语音识别概念 语音识别是机器将语音信号转变为相应的文本文字或命令的技术,即将语音信号逐 字逐句的翻译为相应的书面语言,或对语音所包含的要求和命令做出正确的响应。 一个完整的语音识别系统包括很多部分。图1 1 给出了一个典型的语音对话系统的 例子,它可以提供交通查询、天气预报、机票预定等业务。该系统首先从提问人的语音 中提取特征,接着在声学层上将特征序列通过识别翻译成音素的序列,然后根据字典、 词典和语法中的组合信息将音素序列依次转化为字序列、词序列和语句。在此例中,系 统还需要通过语言模型中的信息来分析句子的含义,并根据提取的关键信息从数据库中 检索出正确的答案。语言中的信息可以从低级到高级,由声学层、语义层、语言层的一 系列模型来描述。在上述语音识别过程中,声学层的识别是最基础的,其将语音特征转 化为基本发音单位的序列,而后续的过程则引入了高层的一些信息,这不仅可以纠正声 学层识别的一些错误,也使得系统最终可以准确地领会句子的含义。 1 1 2 语音识别技术概况 语音识别作为- - f l 交叉学科,涉及到了信号处理、统计模式识别、人工智能、计算 机科学、语音学和认知科学等众多学科。随着这些学科的快速发展,语音识别技术在近 几十年里取得了长足的进步。回顾其发展历程,可以将语音识别的方法分为以下几类: ( 1 ) 基于模板的识别方法:事先通过学习,获得语音的模式,将它们做成一系列的语音 特征模板存储起来。在识别的时候,首先确定适当的距离函数,接着通过诸如动态时间 规整( d y n a m i ct i m ew a r p i n g ,d t w ) 等方法来匹配输入信号与模板,最后根据计算出的 坚重奎兰堡圭兰垡丝苎 距离,选择出在一定准则下的最优匹配模板。这种方法是上世纪六十、七十年代的研究 热点。由于模板本身是一个平均化后的语言特征,所以这种方法很难反映广泛的语音信 号变化,如说话方式的变化,说话人的变化等,扩展能力有限,目前已经不是语音识别 研究和应用的主流。但这种方法容易实现,计算量小,可以用在如手机语音拨号等简单 场合1 1 1 。 ( 2 ) 基于神经网络的识别方法:类比于生物神经系统处理信息的方式,通过用大量处理 单元连接成的网络来表达语音基本单元的特性,利用大量不同的拓扑结构来实现识别系 统和表述相应的语音或语义信息。这种系统可以通过训练而积累经验,从而不断改善自 身的性能【2 1 。 川叫卜一一 您可以乘座7 7 路公交车 图1 1 一个典型的语音对话系统 ( 3 ) 基于统计学的识别方法:在这一框架中,语音本身的变化和特征被表述成各种统计 值,人们不再刻意追求细化语音特征,而是更多的从整体平均( 统计) 的角度来建立最佳 的语音识别系统。这种方法使大词汇量连续语音识别系统的开发成为可能,是目前研究 的主流。其中隐马尔科夫模型的引入是语音识别发展中的里程碑,由于它能够较好地描 述语音的产生机理,极大地提高了语音识别系统的性能【l 2 , 3 1 。 基于统计学的识别方法,可以表述为: 旷= a r g m a x p ( 叩) 】_ a r g m a x 警 ( 1 1 ) 其中,矿为基于后验概率p ( wd ) 最大获得的识别词串。0 为观察语音信号序列, p ( ) 为词串w 的先验概率,通常也称为语言模型, ( l a n g u a g e m o d e l s ) ,p ( o i 矽) 为定词串 对于观测序列0 的似然值,也称为声学模型( a c o u s t i c m o d e l s ) 。语言模型p ( w ) 与声学 模型p ( w i o ) 是我们在识别用到的知识来源( k n o w l e d g es o u r c e s ) 。 1 1 3 噪声的分类及其对语音识别的影响 噪声广泛存在各种场合,而且复杂多变,是造成训练模型和测试语音之间失配的主 要原因。一般的语音识别系统在噪声中的性能会急剧下降,满足不了实际应用的要求, 因此抗噪声技术是语音识别系统达到真正实用所必须解决的关键问题。 1 1 3 1 噪声的分类 对噪声进行划分的标准很多,各种分类分析角度不同。本论文主要考虑了以下两种 噪声分类:加性噪声与乘性噪声。根据噪声对语音频谱的干扰方式,可以把噪声主要分 为加性噪声和乘性噪声。 加性噪声:当噪声对语音的干扰表现为两者信号在时域进行相加时,该噪声被称为 加性噪声。显然噪声和语音在频域也为相加关系。 在实际环境中,背景噪声可以看作加性噪声,比如风扇的声音、汽车引警、周围人 说话声等。加性噪声是对背景噪声一种比较贴切的表述。麦克风等声音采集设备在正常 工作的范围内可以近似看成是个线性系统,即产生信号的幅度和声强成正比。从能量 角度看背景噪声和语音的声强是相加关系,因此两者对麦克风共同作用所形成的含噪语 音的信号等于各自形成的信号之和。当然严格说来,背景噪声和语音不可避免存在非线 性作用,但其不是含噪语音的主要成分。由于背景噪声的广泛存在性,而且语音识别对 加性噪声非常敏感,因此针对这类噪声的研究成为抗噪声语音识别领域里的一个重点。 乘性噪声:乘性噪声是指噪声和语音在频域是相乘的关系,在时域和语音则是卷积 的关系,因此也称为卷积噪声。在实际应用中,乘性噪声主要包括语音采集中麦克风、 传输中电话信道和无线电信道的频率选择特性。 1 1 3 2 噪声对语音识别的影响 目前纯净语音识别已经达到一个比较成熟的阶段,以i b m 的a v o i c e 为代表,其 对连续语音的识别率可以达到9 5 以上,但是对语音输入环境有较严格的要求,否则系 鎏堕查兰里圭兰竺丝苎 统性能将会有很大的下降。造成了模型和测试数据之间的失配。现在很多识别系统的参 数大多是在安静的情况下,通过高质量麦克风采集的。而在实际应用场合,由于多种因 素的影响,待识别语音不可避免的会和系统参数存在失配,从而造成实际性能和实验室 中的性能的大相径庭。 造成语音识别中测试与训练失配的原因很多。下面给出一个通用的表示失配语音的 模型【4 : y ( f ) = ( p ( f ) i ;= ,。】州。) ) + ”。o ) ) h 。* ( f ) + n :( f ) ) h “。( f ) 】+ n 3 ( f )(12h ) y ( f ) = ( s ( f ) l 砌抽耐k ) ) + 以l ( f ) ) m 妇( f ) + 珂2 ( f ) ) 咖( f ) 】+ 心( ) ( 1 ) 其中,n 。( f ) 为背景噪声, 。( f ) 为麦克风脉冲响应, 2 ( f ) 与 。( f ) 为工作背景噪声与 信道脉冲响应,心( f ) 为接受端背景噪声。+ 表示卷积。 从上式可以看到,说话人紧张引起的l o m b a r d 效应,各种背景噪声以及语音在传输过程 中所受到的信道影响,都是对语音识别不利的因素。对于基于统计模型的语音识别系统 来说,上述因素引入了统计模型和识剐数据之间的失配,使得统计模型不能正确描述语 音的统计规律,识别系统就会张冠李戴,发生替代、删除、插入等错误,甚至远远低于 人们所能接受的下限而无法正常使用。如何克服这些不利因素属于稳健性语音识别的研 究范畴,包括说话人自适应、信道估计与补偿升、噪声补偿【们、紧张语音识别【7 】等。如 果只考虑信道作用和背景噪声的影响,失配模型可以简化为: 含噪语音 y ( t ) = x ( t ) h ( t ) + n ( t ) 加性背景噪声n ( t ) 图1 2 含噪语音识别的简化模型 我们较狭义的称为抗噪声语音识别。 背景噪声是对语音识别影响最大的因素,这是因为背景噪声广泛存在于各种场合, 噪声源多种多样且易于变化,而且造成的失配最为严重。因此抗噪声语音识别是语音识 别系统到达真正实用所必须解决的关键问题,否则这些识别系统只能在实验室里做纸上 谈兵的游戏。抗噪声语音识别系统的目标是:第一,在信噪比很高的时候,能够保持一 般语音识别系统的性能,第二,在信噪比很低的恶劣环境下,系统的性能不会下降很多。 1 2 国内外研究历史及现状 语音处理技术的发展可以从1 8 7 6 年的贝尔发明电话算起,贝尔第一次采用电信号 将语音传输到远方。1 9 3 9 年h d u d l e y 首次成功设计出了声码器,它是将语音提取参数 4 塑= 璧堑垒 后,传输语音的参数,然后在接收端重新生成语音。它的发明中所孕育的伟大思想是对 语音信号的建模。1 9 4 7 年b d l 实验室发明了语谱图仪,它是对连续的语音信号,按时 间顺序作重叠或不重叠的、以帧为单元的短时傅立叶变换( s t f t ) ,形成时间一频谱的二 维图来表示语音信息。进一步的研究进展是将语谱图转换为声音信号输出,这是1 9 4 8 年由h a s k i n s 实验室研制的“语谱回放机”完成的。虽然重生的语音效果并不好,但却 是人类首次人工合成语言。后来的共振峰合成法合成语音,就是源于此思想的。在对语 音基本特性有所了解后,人们开始尝试对语音进行机器识别。b d l 实验室的d a v i s 等人 根据语音帧信号的第一、第二共振峰位置提取特征,利用模拟电路得出测试语音和参考 语音的相互关系,实现了英文十个数字的识别。d e a e s 和m a t h e w 在1 9 6 0 年用数字计算 机实现自动语音识别,引入了时间规整算法改进匹配性能的方法。数字计算机成为了语 音处理研究的重要工具。此后时期语音识别的主要研究方向和方法都是利用硬件提取语 音的频谱信息,使用计算机进行匹配计算和判决。对语音处理技术产生决定性的影响的 是在上个世纪7 0 年的三项研究成果:7 0 年代初期的将动态规划法用于语音识别及隐马 尔可夫模型,为语音识别在匹配算法上提供了新的方法;中期的线性预测法,在语音识 别、语音编码等方面获得了极大成功,成为现代语音处理的主要方法,随后在七十年代 末期的矢量编码量化技术,更推进了语音处理技术的发展。1 9 8 0 年后是语音处理技术走 向市场化、商品化的黄金时期,i b m 公司在1 9 8 5 年研制成功了5 0 0 0 单词的英语听写机 t a n g o r a - 5 ,在此基础上又推出了t a n g o r a - 2 0 ,其识别率可达到9 4 ,6 9 6 ,且有自适应说 话人的特性。1 9 9 7 年i b m 公司又推出了汉语听写机产品。 国内的研究较国外起步晚,主要的研究单位有清华大学、中科院声学所和西安电子 科技大学等单位。无限词汇汉语听写机首先由清华大学于1 9 8 8 年研制成功,四达公司 等单位在9 0 年代初使之产品化、商品化。但从目前的市场应用范围来看,语音产品的 实际应用还很狭窄,这说明语音技术产品还存在缺陷,达不到市场化、商品化的要求, 在技术上许多工作要做。近几年,汉语言识别成为研究的重点,国外公司投入巨资进行 研究,国家“8 6 3 ”计划也在这方面加大了投资。 1 3 抗噪声语音识别国内外研究方法综述 抗噪声问题是语音识别领域的一个热点。无处不在的噪声带来了训练环境和识别环 境的失配,从而造成识别器性能的急剧下降。对基于h m m 统计模型的语音识别系统而 言,噪声带来的失配可以映射到如图l 一3 所示的三个空间。 在图1 3 中,噪声造成的训练和识别的失配表现在信号、特征和模型三个空间。在 信号空间,s 代表训练环境下的原始语音,t 代表识别环境下的语音,两种环境下的语 音信号的失配由失真函数d l ( ) 表示。语音信号在经过特征提取过程后,信号空间的失配 必然也会表现到特征空间,x 是训练语音的特征,y 是测试语音的特征,其失配用失真 函数d 2 ( ) 来表示。最后,特征x 用来训练h m m 得到模型a x ,而和特征y 相匹配的模 型为a y ,这种在模型上的失配用失真函数d 3 ( ) 表示。 垩里奎堂里主竺壁丝兰 抗噪声语音识别的目标就是要消除这种失配,使识别性能尽可能地接近在训练环境 下的性能。对目前抗噪声语音识别的方法可以按照图1 3 中信号、特征和模型三个方面 进行划分。 训练阶段 识别阶段 信号空间特征空间 模型空间 1 3 1 信号空间的消噪 图i - 3 噪声引入的训练和识别的失配 一 ) 信号空间算法的目的为消除含噪语音信号中的噪声成分,从而获得对纯净语音信号 的估计。目前主要有以下一些方法。 ( 1 ) 语音增强语音增强技术最早是为了在语音逶信中减少人耳对含噪语音在听觉上 的疲劳,提高语音通信质量。现在常把它作为抗噪声语音识别的前端处理过程,由于其 提高了输入信号的信噪比,从而减小了噪声带来的在信号空间的失配。 a ) 谱减法( s p e c t r a ls u b t r a c t i o n ,s s ) 】是实现简单的增强算法。因为背景噪声和语音 的功率可以近似看作相加的关系,通过估计噪声的功率并将其从每一帧含噪语音的总功 率谱中减去则可以获得该帧纯净语音功率谱的估计,而纯净语音的相位则用这一帧含噪 语音的相位代替。最后可以得到噪声大为抑制的增强语音。上述过程属于一类非常重要 的称为短时谱幅度( s h o r t - t i m es p e c t r a la m p l i t u d e , s t s a ) 估计的方法。 b 1 子带谱减法( s u b - b a n ds s ) _ 【l o 】借鉴了人耳听觉特点,根据m e l 划分的频率在不同 的子带采用不同的增强系数,从而使增强更有利于识别。 c 1 最小均方误差估计( m i n i m u mm e a ns q u a r ee r r o r , m m s e ) 12 j 法是另一种基于 s t s a 估计的增强算法。m m s e 法与s s 法相比,计算复杂度稍高,但比较好的解决了 音乐剩余噪声的问题。这是因为m m s e 方法更多的利用了语音和噪声的先验知识,它 假设了语音信号各个频谱分量相互独立且为高斯分布,噪声也服从高斯分布,在此假设 下对纯净语音谱幅度的m m s e 估计实际为后验估计。 上面的算法都在频域对信号进行分析,某些算法则通过小波变换将信号展开为一系 列的小波系数来进行消噪 1 3 】。在小波域对语音进行分析的优点是在各个频段的分析有不 6 第一草绪论 同的分辨率,这符合了信息在语音中的分配规律,也符合人耳的听觉特性。语音信号小 波系数的特点是在少数几维上有比较大的值,而噪声在各维上的值比较均匀。通过对含 嗓语音小波系数进行收缩处理,噪声对应的系数将被消除,从而获得纯净语音的小波系 数。 ( 2 ) 谐波分析在人的发声过程中,肺和声门产生激励信号( 基音脉冲或白噪声) ,然后 被声道调制形成声音。语音的激励信号和调制函数与噪声是无关的【i ”,因此通过估计频 谱包络和激励信号就可以恢复出纯净语音【i ”。 1 3 2 特征空间的稳健特征与特征补偿 特征空间的抗噪声语音识别方法的出发点主要包括利用特征中对噪声比较稳健的 部分,对噪声带来的偏差进行补偿以及模仿人耳听觉特性而设计出的稳健特征。 ( 1 ) r a s t a ( r e l a t i v es p e c t r a ) 1 6 】r a s t a 方法采用带通的滤波器加权倒谱特征,抑制 低阶和高阶分量。因为背景噪声和语音信号通过全极点滤波器后的输出信号平均倒谱的 方差比显示,高频倒谱分量更容易受到噪声的影响,因此在进行频谱相似度比较时的可 靠性低。而开始的几个低频分量的变化主要受信道特性,说话人特性和声道的影响,对 于说话人无关的语言识别系统,这些分量也是不利的。所以采用带通滤波器强调倒谱中 间部分在识别中的作用,可以提高系统的稳健性。 ( 2 ) m d t ( m i s s i n gd a t at h e o r y ) 】由于语音和噪声能量在频域上的分布是不均匀的, 因此语音在各个频段受噪声污染的程度是不同的。局部信噪比越低,该部分的语音受噪 声的污染就越严重,当局部信噪比低于某一阈值时,则这部分的语音称为m i s s i n gd a t a , 将被丢弃而不参与识别。识别过程将基于其他局部信噪比比较高的特征,这些称为 p r e s e n t d a t a 。m d t 方法采取了丢弃不可靠数据的思想,因此对窄带噪声比较有效,对宽 带噪声的效果差一些。m d t 方法一般在对数谱域展开。其对各维特征相互独立的假设 和实际情况有一定的误差,这一缺陷对其性能有一定的影响。 ( 3 ) 特征加权( f e a t u r ew e i g h t ) t 博1 该方法是将m d t 的思想引入至倒谱域。h m m 各状 态的概率输出函数一般为高斯分布的线性叠加,则特征在各高斯分量中的概率密度值实 际上体现为特征和均值相对于方差的归一化距离。特征加权将在对数谱域得到的局部信 噪比转化为权重,并通过d c t 转换至倒谱域。倒谱域的权重通过调整归一化距离来使 概率密度值随权重的大小而发生高低相应的变化,从而提高能量相对较高的语音信息在 识别中的比重。 ( 4 ) 动态特征【i 9 】 目前的语音识别系统普遍采用静态特征的一阶差分甚至二阶差分作 为特征的一部分。由于包含了语音的动态信息,动态参数将提高系统对纯净语音的识别 率。对噪声而言,其变化相对语音来说比较缓慢,因此在差分过程中,噪声造成的特征 偏差将被部分的消除,从而系统的稳健性将会有很大的提高。 江南大学硕七学位论文 1 3 3 模型空间的参数调整 模型空间稳健语音识别算法着眼点在于调整统计模型的参数,使模型和含噪语音相 匹配。这类算法由于利用了语音和噪声的统计知识,而且比较符合h m m 的框架,因此 抗噪声效果比较好。 ( 1 ) 并行模型合并( p a r a l l e lm o d e lc o m b i n a t i o n ,p m c ) t 2 0 】p m c 算法是模型空间最经典 的算法,其首先利用采集到的噪声数据训练噪声模型,然后将噪声模型和语音模型在对 数谱域进行合并,合并的过程就是对概率密度函数的补偿,包括对均值和方差的调整。 p m c 算法中分析噪声对模型影响的理论框架和实际吻合得非常好,抓住了问题的关键, 所以其对语音识别系统抗噪声性能有显著的提高。 ( 2 ) 统计匹配( s t o c h a s t i cm a t c h i n g ) t 2 1 】观测向量的概率值体现了语音特征和模型参数 的匹配程度,因此当语音受到噪声干扰时,模型的失配表现为识别过程中特征似然值呈 现整体下降。在统计匹配算法中,首先假设噪声对模型参数的影响可以用一个传递函数 来表示,通过估计函数的待定参数就可得到含噪语音的模型。在识别过程的每一时刻。 该算法通过反复迭代的方法来调整传递函数的待定参数,使得观测概率达到最大,特征 似然值因此将整体上升。这说明模型和含噪语音的匹配程度得到改善,因此模型失配状 况的缓解将提高识别系统在噪声环境下的性能。 1 4 本课题主要研究的内容 本课题的主要目的是为抗噪声语音识别做前端处理准备,虽然,长期以来短时分析 技术是语音信号的主要分析技术,并且几十年来人们对它进行了广泛的研究,并取得了 显著成效,但并不是说它已经完全成熟,事实上它还远没有达到我们的预期要求,它仍 然存在很多生长点和未知领域值得我们去探索,国内外学者近年来也从没有停止这方面 的研究。因此,基于语音短时分析技术仍是本课题研究的重点,具体研究工作包含: ( 1 ) 在熟悉前人研究的基础上,对前人做过的工作进行总结。首先研究了语音端点检测 的算法,介绍了常用的短时能量、短时平均过零率和基于频带方差的端点检测算法, 在这些算法存在不足的条件下,给出了基于自适应子带频谱熵和功率谱熵的端点检 测算法,并通过实验证明了这种算法的好处。 ( 2 ) 接着研究了语音增强的算法,对常用的谱减法、维纳滤波法和m m s e 谱估计法进 行了详尽的理论阐述,并通过实验仿真验证了三种算法,又进一步对谱减法作了改 进,通过实验进行了客观的表述,得知改进后的谱减法是一种很好的语音增强算法。 ( 3 ) 最后,研究了特征提取算法,对常用的l p c c 和m f c c 进行了一定的理论推导, 接着提出了一种新的特征参数基于最小方差无失真响应的感知倒谱系数 p m c c ,并通过实验得知该参数要优于l p c c 和m f c c 。 第一章绪论 1 5 论文结构 第一章主要介绍了课题的提出背景、研究现状和本课题的主要研究内容。 第二章研究了语音端点检测算法。 第三章研究了语音增强算法。 第四章研究了语音特征提取算法。 第五章对本课题的研究内容和方法进行了总结,并对以后的研究工作进行了展望。 9 第二章语音端点检测算法的研究 第二章语音端点检测算法的研究 实际环境中没有纯净的语音信号,往往都伴有噪声或其它干扰,而语音识别系统的 处理对象是有效语音信号,即排除了纯噪声段的语音信号段,这就需要从输入信号中找 到语音部分的起止点。端点检测( e n d p o i n td e t e c t i o n ) 的日的就是从包含语音的一段信号 中确定出语音的起点和终点。 端点检测是语音识别系统预处理阶段遇到的第一个关键技术。当今的语音识别系统 源于实验室,是一种基于训练的系统,对形成系统的训练环境非常敏感:在识别时通常 存在实际语音在时间或背景噪声环境等其他方面与训练失配,因此性能下降,系统稳健 性变差。一般两段内容相同的语音可能时间长短不同,音节间的间隙也不一致,而语音 信号属于时变非平稳信号,语音特征依赖于时间。识别时,待识别语音和参考语音不可 能在时间上处处吻合,除非对语音在时间上进行某种校准,这种校准的精度在很多情况 下取决于端点检测的精度。错误的端点检测所产生的起始音漏检或虚检情况,一般会造 成误判或以一串噪声为语音信号而产生识别错误,研究表明,即使在安静环境下语音识 别系统一半以上的识别错误都来自端点检测器【2 2 1 。端点检测的准确性甚至在某种程度上 直接决定了整个语音识别系统的成败,没有足够准确的端点检测( 尤其是起点) ,精密优 选特征类型或识别方法的工作往往劳而无功。曾有学者用一个多话者的数字识别系统做 过如下实验:首先对所有记录的语音用手工找出准确的端点,得到它们的识别率;然后 逐帧( 帧长1 5 m s ) 增加端点检测的误差,在每次增加误差的同时得到它们的识别率。结果 表明在端点检测准确时识别率为9 3 的系统,当端点检测误差在+ 6 0 m s ( 4 帧) 时,识别 率降低3 ;在= v 9 0 m s ( 6 帧) 时,降低了1 0 :而当误差进一步加大时,识别率急剧下降。 本章主要介绍了以下几种端点检测方法:基于短时能量的、基于短时过零率的、基 于频带方差的和基于信息熵的检测算法。 2 1 基于短时能量和短时平均过零率的端点检测算法 2 1 1 短时能量和短时幅度差 语音和噪声的区别可以体现在它们的能量上,语音段的能量比噪声段能量大,语音 段的能量是噪声段能量叠加语音声波能量的和。在信噪比比较高时,如果环境噪声和系 统输入噪声比较小,以至于能够保证系统的信噪比比较高,那么只要计算输入信号的短 时能量或短时平均幅度就能够语音段和背景噪声区分开。 设语音波形的时域信号为x ( o 、加窗分帧处理后得到的第n 帧语音信号为x n ) ,则 x n ( m ) 满足下式: 工。( m ) = 以m ) x ( n 十m ) 0 m n l ( 2 1 ) 1 1 兰塑查兰婴主兰竺笙苎 其中的n = o ,1 了1 ,2 ,并且为帧长,t 为帧移长度。w ( m ) 为h a m m i n g 窗表达式为 r “晰1 :4 0 5 4 0 4 6 c o s 2 n m ( n 一1 ) 1 优。o 一1 ( 2 2 ) 0m = 其他值 设第”帧语音信号b 汩) 的短时能量用b 表示,则其计算公式如下: e 。= z :( m ) = o ( 2 3 ) e 是一个度量语音信号幅度值变化的函数,但它有个缺陷,即对高电平非常敏感( 因 为它在计算的时用的是信号的平方) 。因此在某些领域内可以用一个度量语音信号幅度 值变化的函数,即短时平均幅度 厶来代替,它和短时能量的区别在于信号的小取样值 和大取样值不会因取平方而造成较大差异,在某些领域会带来一些好处,它定义为: - 1 m 。= i x 。( m ) i ( 2 4 ) m ;o 图2 1 是汉字“八”的纯净语音、短时能量和短时幅度的图: 图2 - 1( a ) 汉字“八”的纯净语音的波形图 m ) 汉字“八”的短时平均能量: ( c ) 汉字“八”的短时平均幅度 2 1 。2 短时过零率和短时过门限率 短时过零率表示一帧语音信号波形穿过横轴( 零电平) 的次数。过零分析是语音时域 分析中最简单的一种。对于连续语音信号,过零意味着时域波形通过时间轴;而对于离 散信号,如果相邻的取样值的改变符号称为过零。过零率就是样本改变符号次数。 蔓三兰至量堂皇丝型竺兰竺竺茎 定义语音信号而沏) 的短时过零率乙为: z 。= l s g n x ( m ) 卜s 印k ( 州一1 ) 】| ( 2 5 ) 其中s g n 】为符号函数,即: s 毗】= 仁高 ( 2 s ) 信号的过零率是其频率量的一种简单度量,窄带信号尤其如此,其中,当信号为单 一正弦波时,过零率为信号频率的两倍。对于采样率为e 、频率为f o 的正弦波数字信号, 平均每个样本的过零率为2 f o e 。 过零率有两类重要的应用:第一,用于粗略地描述信号的频谱特性,就是用多带滤 波器将信号分为若干个通道,对各通道进行短时平均过零率和短时能量的计算,即可粗 略地估计频谱特性。第二,用于判别清音和浊音、有话和无话。但在实际应用时,过零 率容易受到a d 转换时的直流偏移、5 0 h z 交流电源干扰以及噪声的影响。减少这些干 扰可以有两种方法:一种是采用带通滤波器消除信号中的直流和5 0 h z 低频分量;另一 种方法是用过门限率来修改过零率,减少随机噪声的影响。在零电平附近设置门限士l 定义短时平均过门限率为: 乙= 去i s 弘k ( 叻一刀一s 弘k 一1 ) 一刁+ l s g n x a m ) + 刀一s g n x ( m 1 ) + 列 ( 2 7 ) 图2 2 是一段语音“我爱江南大学”的短时过零率。 2 2 基于频带方差的端点检测算法 语音和噪声的频谱特性差异是很大的。在噪声的频谱中,各频带之间变化很平缓, 这与“白噪声”的称谓相符;而语音则是有“色”的,各个频带之间变化较激烈。根据 这一特征,可以很明显区分语音和噪声2 3 0 4 1 。 计算某一帧信号的各频带能量的方差,将这种以短时频带方差作为参数检测语音段 起至端点的方法称为频带方差检测法。 2 2 1 基于频带方差的算法原理 设含噪语音波形时域信号为x ( ) ,加窗分帧处理后得到的第r l 帧语音信号为矗( m ) , 则( 埘) 满足下式: ( 聊) = ,以m ) + x ( n + m ) 1 m n 其中以m ) 为窗函数,n = 0 ,1 r ,2 r ,并且为帧长,r 为帧移长度。 ( 2 8 ) 江南大学硕士学位论文 然后对_ ( 聊) 进行离散傅里叶变换( d r t ) 可得到其频谱 以( 女) = ( 研) e - j 可 1 k n ( 2 9 ) 则均值为: e = 寺瓦( f ) ( 2 1 0 ) v i = l 频带方差为: 肚击荟吲旷砰 ( 2 1 1 ) 从以上计算公式可以看到,频带方差相对于“交流分量”,它包含两个信息:各频 带间的起伏程度和这一帧信号的短时能量。能量越大起伏越激烈,d 值越大,这正是语 音的特点:反之,对于噪声,能量越小,起伏越平缓,d 值越小。因此,完全可以利用 短时频带方差来判断语音的起止点。 当语音信号中背景噪声严重且存在脉冲噪声干扰时,得到的频带方差再进行三点平 滑,从而起到有效地平滑噪声,抑制噪声干扰的作用,提高端点检测的准确率。 0 5 蓉0 0 _ 5 1 _ i ; l 特 捌 一j 00 511 522 533 544 5 时间缈 ( a ) 图2 - 2 ( a ) 一段语音“我爱江南大学”波形图 ( b ) 语音“我爱江南大学”短时过零率 第二苹语音端点检测算法的研究 2 2 2 基于频带方差的端点检测的实验仿真 下面给出一个汉字“八”的原始语音和加白噪声后使信噪e k ( s n r ) 为0 d b ,在基于 短时能量、短时平均过零率和频带方差端点检测方法下的仿真图,如图2 3 所示。从图 2 3 中可以看出在s n r = 0 d b 的时,短时能量和短时平均过零率方法已经失效,特别是过 零率,而频带方差的效果的确很好。 釜e 三三三j 嘲鳓醑i j i 习 00 20 40 60 811 21 4 时间,秒 r a l 釜! c - 州岬黼帅岬删洲州州蝴岬忡州州1 rtrjiitirl 一00 20 40 60 811 21 4 时间,秒 f b l 釜落e i i 三至三三三三互 一02 04 06 08 01 0 01 2 01 4 0 帧蜘个 r c l 蓑1 嚣巨孑三三三三= 7 彳了孓i i 习 02 04 06 0 8 01 0 0 1 2 01 4 0 帧数,个 f d l 篓,: 仁:) 02 0 4 06 08 01 0 01 2 01 4 0 帧数个( e ) 图2 - 3 ( a ) 汉字“八”的纯净语音的波形图( b ) s n r = o 时的汉字“八”波形图 ( c ) 汉字“八”的短时平均能量( d ) 汉字“八”的短时平均过零率 ( e ) 汉字“八”的频带方差 2 3 基于自适应子带频谱熵和功率谱熵的端点检测算法 前面我们对基于短时能量、短时幅度、短时平均过零率和频带方差的端点检测算法 进行了原理分析和实验仿真,得知短时能量、短时幅度、短时平均过零率都对噪声相当 敏感,频带方差也只是对信噪比不变的白噪声有一定的鲁棒性,对其他噪声同样敏感, 因此它们不能完全详细地表明语音信号的特征。例如,基于能量的参数也被提出,包括 线性预测系数【2 ”、倒谱系数【26 】和基音 2 7 。尽管这些

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论