(控制理论与控制工程专业论文)稳健语音识别的前端处理研究.pdf_第1页
(控制理论与控制工程专业论文)稳健语音识别的前端处理研究.pdf_第2页
(控制理论与控制工程专业论文)稳健语音识别的前端处理研究.pdf_第3页
(控制理论与控制工程专业论文)稳健语音识别的前端处理研究.pdf_第4页
(控制理论与控制工程专业论文)稳健语音识别的前端处理研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(控制理论与控制工程专业论文)稳健语音识别的前端处理研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 稳健语音识别为从带噪语音信号中提取出语音的本质特征,达到对语音进行 识别或确认的目的。本文主要研究稳健语音识别的前端处理部分,该部分的主要 目的就是排除噪声干扰,提取“干净”语音信号参数。其主要包括以下三部分: 端点检测、语音增强和特征提取。 首先是端点检测,其目的为排除无声段的干扰,选取出“有意义”的语音段。 该部分研究了几种经典的端点检测方法,如:短时能量、平均过零率、双门限检 测、频谱熵、功率谱熵还有频带方差方法,相关实验仿真均反映其各自算法特点。 通过分析频带方差算法存在不足的情况下,提出了改进算法即子带频带方差端点 检测方法,实验结果证明了其优越性。 接着研究了语音增强,其目的为提高语音的信噪比和可懂度,它是实现语音 识别系统稳健性的一个关键步骤。该部分研究了小波软、硬阈值的不同去噪方法, 重点研究了考虑人耳感知特性的仿生小波变换,并将阈值去噪方法应用其中,提 出了一种新的基于仿生小波变换的阈值去噪语音增强方法。实验结果表明:该方 法在四种实际噪声环境下均优于一些经典方法如:谱减法、维纳滤波和基于离散 小波变换的阈值去噪方法,具有更好的语音增强效果。 最后研究了特征提取,其目的为去除语音冗余部分,提取反映语音本质特性 的参数用于语音识别。该部分主要研究了几种常见的语音特征参数( l p c 、l p c c 、 m f c c ) ,并将m f c c 和l p c c 进行了比较研究,通过构建的孤立词语音识别平 台,证明了m f c c 较l p c c 作为特征参数能够更好的表征语音信号。 关键词:端点检测;语音增强:小波变换;阈值去噪;特征提取 a b s t r a c t a b s t r a c t r o b u s ts p e e c hr e c o g n i t i o ne x t r a c t st h ee s s e n t i a lf e a t u r e so fs p e e c hs i g n a lt o r e c o g n i z ea n dc o n f i r mt h en o i s ys p e e c h t h ep r e p r o c e s s i n go fr o b u s ts p e e c h r e c o g n i t i o ni ss t u d i e dh e r e ,t h ep u r p o s eo fw h i c h i st oe l i m i n a t et h en o i s ei n t e r f e r e n c e a n de x t r a c t “c l e a n ”s i g n a lp a r a m e t e r s t h i sp a p e rm a i n l yi n c l u d ef o l l o w i n gt h r e ep a r t s : e n d p o i n td e t e c t i o n ,s p e e c he n h a n c e m e n ta n d f e a t u r ee x t r a c t i o n f i r s t l y , e n d p o i n td e t e c t i o ni ss t u d i e d ,t h ep u r p o s eo fw h i c hi s t o p i c kt h e m e a n i n g f u l ”s p e e c hp a r t so u ta n da v o i dt h ei n t e r f e r e n c eo fn o i s ef r o ms i l e n c ep a r t s s o m ec l a s s i ce n d p o i n td e t e c t i o nm e t h o d sa r ed i s c u s s e dh e r e ,s u c h 嬲:s h o r t t i m e e n e r g y , a v e r a g ez e r o c r o s s i n gr a t e ,d o u b l e t h r e s h o l dd e t e c t i o n , s p e c t r a le n t r o p y , p o w e rs p e c t r a le n t r o p ya n ds p e c t r u mv a r i a n c e t h er e l a t e dr e s u l t sa l l s h o wt h e c h a r a c t e r i s t i c so ft h e i ro w n b ya n a l y z i n gt h ef a u l t so fs p e c t r u mv a r i a n c e ,am o d i f i e d e n d p o i n td e t e c t i o nm e t h o di sp r o p o s e d ,n a m e l ys u b b a n ds p e c t r u mv a r i a n c em e t h o d f i n a l l y , t h ee x p e r i m e n t a lr e s u l t sp r o v ei t ss u p e r i o r i t y s e c o n d l y , s p e e c he n h a n c e m e n t i ss t u d i e d ,t h ep u r p o s eo fw h i c hi st oi m p r o v et h e s n ra n di n t e l l i g i b i l i t yo fs p e e c h i ti sak e ys t e pt or e a l i z et h er o b u s t n e s so fs p e e c h r e c o g n i t i o ns y s t e m t h i sp a r tm a i n l ys t u d i e ds o m ed i f f e r e n td e n o i s i n gm e t h o d sl i k e w a v e l e ts o f t t h r e s h o l dd e n o i s i n ga n dw a v e l e th a r d t h r e s h o l dd e - n o i s i n g t h eb i o n i c w a v e l e tt r a n s f o r mw h i c hc o n s i d e rt h ea u d i t o r yp e r c e p t u a li sd e e p l ys t u d i e d ,t h e n ,t h e i d e ao ft h r e s h o l dd e - n o i s i n gi sa p p l i e dt ob i o n i cw a v e l e tt r a n s f o r m ,s o ,an e w s p e e c he n h a n c e m e n tm e t h o db a s e do nb i o n i cw a v e l e tt r a n s f o r mi sp r e s e n t e d t h e r e s u l t si n d i c a t et h a tt h ep r o p o s e dm e t h o do u t p e r f o r m ss o m ec l a s s i cm e t h o d si n c l u d i n g s p e c t r a ls u b t r a c t i o n ,w i e n e rf i l t e r i n ga n dt h r e s h o l dd e - n o i s i n gb a s e d o nd i s c r e t e w a v e l e tt r a n s f o r mi nf o u rk i n d so fr e a l i s t i cn o i s ee n v i r o n m e n t s ,a n dh a sab e a e r e n h a n c e m e n tp e r f o r m a n c e f i n a l l y , f e a t u r ee x t r a c t i o ni ss t u d i e d ,t h ep u r p o s eo fw h i c hi s t or e m o v et h e r e d u n d a n tp a r t so fs p e e c ha n de x t r a c tt h ee s s e n t i a lf e a t u r e so fs p e e c hf o rr e c o g n i t i o n i tm a i n l ys t u d i e ds o m ec o m m o nc h a r a c t e r i s t i cp a r a m e t e r so fs p e e c hl i k el p c ,l p c c a n dm f c c m f c ca n dl p c ca r ec o m p a r e dh e r e i t sp r o v e dt h a tm f c ci sb e t t e r t h a nl p c ca sc h a r a c t e r i s t i cp a r a m e t e r si nr e p r e s e n t i n gt h es p e e c hb yc o n s t r u c t i n ga n i s o l a t e dw o r dr e c o g n i t i o np l a t f o r m k e y w o r d s :e n d p o i n td e t e c t i o n ;s p e e c he n h a n c e m e n t ;w a v e l e tt r a n s f o r m ;t h r e s h o l d d e n o i s i n g ;f e a t u r ee x t r a c t i o n i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取 得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写过的研究成果,也不包含本人为获得江南 大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志 对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 签 名:丕邑 日 期:2 扩9 h j 弓 关于论文使用授权的说明 本学位论文作者完全了解江南大学有关保留、使用学位论文的规定: 江南大学有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允 许论文被查阅和借阅,可以将学位论文的全部或部分内容编入有关数据库 进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文, 并且本人电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 签名: 导师签名: 日 期:3 - o a g ;,弓 绪论 第一章绪论 1 1 稳健语音识别的研究背景及意义 随着计算机技术的飞速发展,语音识别技术的研究已经有了实质性的突破, 许多成功的语音识别系统相继问世。例如,c a r d i n 等研制的基于t i d i g i t 数据 库的非特定人连续数字语音识别系统,误识率仅为o 5 ;而d a s 等研制的2 00 0 0 单词的特定人孤立词语音识别系统,误识率仅为1 t l ,引。目前,这些系统部分或 全部地克服了特定说话人、孤立词、小词汇量、有限语法这4 个约束,达到了很 高的识别率。最重要的是,这些系统中的绝大部分已经走出实验室成为商品。其 中,最具代表性的当属i b m 公司研制的v i av o i c e 大词汇量连续语音识别系统。 它的误识率,在未进行特定人自适应训练的情况下,可以低于5 【l j 。 然而,大多数类似的系统只适合于识别“干净 的语音,由于实际应用中, 语音不可避免地会被环境影响,诸如背景噪声、信道畸变等,这些都将给识别系 统的性能带来较大的影响,语音受环境的影响如图l 一1 所示。因此当系统应用于 噪声环境时,性能大大下降。l o c k w o o d 等人发现传统的语音识别系统用“干净 语音训练,可达到1 0 0 的识别率【3 】,而用时速9 0 k m h 的汽车中的语音信号训 练后,只能达到7 0 的识别率。大量实验表明,大多数现有的非特定人语音识别 系统,如果使用不同于训练时所用的话筒或处于不同于训练时所处的外部环境 时,即使是在安静的办公室内测试,性能都会严重下降。而对电话信号、汽车、 工厂内或室外环境中语音信号来说,现有识别系统的稳健性更差。 语音 加性噪声 图1 1 含噪语音识别模型 f i g 1 - 1r e c o g n i t i o nm o d e lo fn o i s ys p e e c h 影响语音准确识别的干扰源很多,最重要的两类是:未知加性噪声和未知线 性滤波效应。其他干扰源包括语音信号受到瞬时干扰,语音非线性畸变,以及几 个人同时说话造成的“串话 干扰等。到现在为止,稳健语音识别中大部分的研 究工作针对的还是加性噪声和未知线性滤波效应干扰源。 由加性噪声和未知线性滤波效应引起的训练和识别环境的失配对语音识别 的影响从信号空间、特征空间和模型空间3 个层次来分析,如图1 2 所示。其中 s 是原始的训练语音,x 是从训练数据中提取出的语音特征,a x 是根据训练数 据得到的统计模型参数。类似的t 、y 、a y 分别是测试语音、测试语音特征和测 江南大学硕上学位论文 试语音模型。当训练环境与测试环境失配时,干扰使t 、y 、a y 发生畸变,畸变 影响用s 、x 、a x 到t 、y 、a y 的畸变函数d l ( ) 、d 2 ( ) 、d 3 ( ) 来模拟实现。 可以发现,许多稳健处理技术力图从信号空间、特征空间、模型空间3 个层次消 除畸变的影响。 识 信号空间特征空间模型空间 图1 - 2 训练与测试环境的失配 f i g 1 - 2m i s m a t c ho ft r a i n i n ga n dt e s te n v i r o n m e n t 1 2 稳健语音识别研究现状 稳健语音识别的研究早期曾一度受到语音增强技术的影响。在处理未知噪声 和线性滤波干扰的道路上,有两种语音增强技术非常重要。其中之一就是b o l l 为补偿加性噪声而提出的减谱( s p e c t r a ls u b t r a c t i o n ) 算法。该算法试图在没有 语音的信号中估计加性噪声的功率谱,然后用线性滤波器将测试语音功率谱“最 优 地转化为训练语音功率谱。至今为止,减谱法和谱归一化技术受到广泛的 关注。在语音增强技术的基础上,为了进一步提高识别系统的稳健性,人们又在 声学预处理( 或称参数动态调整) 上做了大量的研究1 4 ,5 】。声学预处理的主要思 想是,动态修改测试语音的特征表示或系统内语音样板的特征表示以最大限度地 减少由于训练和测试环境不同带来的失配。近年来,基于人耳听觉的信号处理方 法吸引了众多研究小组注意力,它主要是通过对人耳听觉系统的信号处理算法可 以显著地改善语音识别系统得稳健性。 1 干扰源 影响语音准确识别的干扰源很多,最重要的两类是:未知加性噪声( 例如 各种机、气流等引起的背景噪声、背景环境中其他说话人的干扰语音) 和未知 线性滤波效应( 亦称为未知卷积噪声,例如房间内表面反射引起的回声、话筒 和说话人声道引起的语音谱形状的改变等) 。其他干扰源包括语音信号受到的瞬 时干扰( 例如关闭房门或电话铃声产生的噪声) 、由碳阻话筒或电话系统中随即 相位跳动引起的语音非线性畸变,以及几个人同时说话造成的“串话 干扰等。 到现在为止,稳健语音识别大部分研究工作针对的还是加性噪声和线性滤波效 2 绪论 应的干扰源。 2 稳健语音特征的提取 相对于计算机而言,人耳的识别能力非常强,在噪声环境下,甚至在许多 人说话的环境中都能够一下子听到自己所关心的人或话题的内容。因此在长期 寻找对噪声不敏感的语音识别特征的过程中,人耳的听觉特性被逐步应用其中, 例如m e l 频段倒谱系数( c c ) 、r a s t a - p l p 【6 ,7 】、符合时频掩蔽效应的掩蔽 谱、调制谱【8 1 等。由于它们对噪声没有或只有很弱的假设条件,所以应用的范围 特别广泛。 3 声学预处理 对语音识别系统来说,最直接的适应环境和说话人的方法,就是动态修改系 统输入的特征量或系统内部的语音表示。下面分别给出环境自适应的技巧的4 个 方面。 ( 1 ) 利用优化估计过程来获得测试环境中语音的新的特征值。 ( 2 )比较语音样本在训练环境中的差别,根据经验设计一种补偿方法。 ( 3 ) 对特征值进行高通滤波来改变稳健性 ( 4 ) 基于模型的噪声补偿方案 4 基于人耳听觉的信号处理h j 随着人们对语音识别的深入研究,基于人耳听觉的语音识别系统逐渐成为近 年来研究热点。许多学者对人耳听觉特性进行了深入研究,并分别将其应用于语 音处理中,例如临界频带滤波器、响度曲线特性、非线性能量压缩、内耳毛短时 自适应及中外耳听觉特性处理等。 建立听觉模型是基于听觉的语音识别系统的另一个主要方法,它模仿人类 听觉生理和心理机制建立听觉模型,对语音进行预处理。典型的听觉模型包括 一组模仿人耳耳蜗的临界频带带通滤波器,和紧接其后的模仿内耳毛传导、侧 抑制等作用的通道相邻通道的非线性处理器。利用小波表示听觉模型的方法也 有深入研究。 1 3 稳健语音识别的前端处理概述 稳健语音识别就是从带噪语音信号中提取出语音的本质特征,达到对语音进 行精确识别或确认的目的。图1 3 为识别系统框图: 3 江南大学硕士学位论文 语音 图1 - 3 稳健语音识别系统框图 f i g 1 - 3r o b u s ts p e e c hr e c o g n i t i o ns y s t e mb l o c k 本文主要研究稳健语音识别的前端处理部分,该部分的主要作用就是排除噪 声干扰,提取“干净”语音信号参数和特征参数。其主要包括下面几个小块:预 处理、端点检测、语音增强、特征提取。 1 预处理 在对语音信号进行分析和处理之前,必须对其进行预处理。预处理的目的是 消除因为人类发生器官本身和由于采集语音信号的设备所带来的混叠、高次谐波 失真等等因素对语音信号质量的影响,尽可能保证后续语音处理得到的信号更均 匀、平滑,提高语音处理质量。预处理一般包括预加重、加窗和分帧等。 2 端点检测 语音信号端点检测技术的目的就是从包含语音的某段信号中准确地确定出 语音的起始点和终止点,从而区分语音和非语音信号,它是语音处理技术中的一 个重要方面。有效的端点检测技术不仅能在语音识别系统中减少数据的采集量, 节约处理时间,还能排除无声段或噪声段的干扰,提高语音识别系统的性能,而 且在语音编码中还能降低噪声和静音段的比特率,提高编码效率。 随着语音识别技术的发展和逐步走向应用,语音识别的稳健性问题已经逐步 成为语音识别研究的热点。实用性的语音识别系统必须能够应付千差万别的噪声 环境,但是现有的语音识别系统性能并不稳健,在噪声环境下其性能极大下降。 其中一个最主要的原因就是由于错误的语音端点检测所造成的。因此,稳健、精 确和可靠的语音端点检测算法在语音识别系统中是必需的。 长期以来,传统的语音端点检测算法都是针对实验室安静环境,直到近年来, 人们才开始研究噪声环境下的语音端点检测。在语音端点检测算法中,端点检测 的正确性极大地影响了识别系统的识别效果。语音信号的起始点和结束点判断有 误,则很有可能影响整个信号的完整性,并在语句的开头或结尾漏掉一些有用的 数据。当这种情况发生时,对识别的准确度将有特别大的影响,不完全的信息将 会使识别率降低。 一般来说,理想的端点检测算法应当具有以下几个特征:可靠性、鲁棒性、 精确性、自适应性、实时性和对噪声特征无需先验知识 9 1 。在所有的这些特征中, 4 绪论 鲁棒性是最难达到的。因此,如何在噪声环境下设计一种鲁棒的端点检测算法是 一个非常棘手的问题。 广泛被采用的语音端点检测算法都是依据语音信号的时域特征,采用的主要 参数有短时能量、短时过零率【lo 】等。这些算法在实验室环境下具有很好的检测性 能,但是在实际噪声环境下,则力不从心。一般来说,一种好的语音端点检测算 法应为语音识别提供可靠的基础,具有很好的鲁棒性,并能改变语音识别系统存 在的检测效果不理想、识别率低等问题,还能很好地区别背景噪声与非语音信号, 非对话人的声音与正常对话音,能减少由这些声音所引起的端点错误和误打断。 因此,高精度的端点检测能保证输入识别器的信号是有效完整的语音信号,使语 音识别效果更加准确快捷。 近几年来,研究者们提出了各种能区分语音和噪声的特征参数或其衍生参 数,用来提高算法的抗噪声性能。比如短时频带方差【l 、倒谱系数【1 2 j 、h m m 模 型【1 3 】、自相关函数【1 4 】、信息熵 1 5 , 16 】、分形技术【1 7 】等都被逐渐应用到端点检测技 术中。另外,有时还通过将语音信号的几种特征组合成一个新的特征参数进行端 点检测,而对语音端点的判决也由原来的单- - f - j 限发展到多门限【l 引。 3 语音增强 语音增强是解决噪声污染的有效方法,语音增强的目的主要有两个:一是改 进语音质量,消除背景噪声,使听者乐于接受,不感觉疲劳,这是一种主观的度 量;二是提高语音信噪比,这是客观的度量。目前语音增强的方法有很多,按照 所依据原理的不同,我们可以将语音增强分为以下几类: 非参数方法:非参数方法不需要从带噪语音信号中估计语音模型参数,这就 使得此类方法相对于参数方法而言应用较广。但由于没有利用可能的语言统计信 息,故结果一般不是最优的。这类方法的重点是将估计的对象放在语音信号的短 时谱幅度上。非参数方法主要包括谱减法【1 9 ,2 0 1 、自适应滤波法【2 1 1 等。 统计方法:统计方法比较充分的利用了语音和噪声的统计特性,如语音信号 可视不同情况和需要采用高斯模型、拉普拉斯模型以及伽玛模型等。此类方法一 般是在建立了模型库后,经历一个训练过程来获得初始统计参数,并且在后续 的工作过程中要根据实际的数据实时的更新这些统计参数,以使模型能更好的符 合实际情况,它与语音系统的联系非常密切。这类方法里面主要包括最小均方误 差估计( m m s e ,m i n i m u nm e a ns q u a r ee r r o r ) 2 2 1 、对数谱估计的最小均方误差 ( m m s e l s a m i n i m u mm e a n s q u a r ee r r o rl o g s p e c t r a la m p l i t u d e ) 2 3 1 、听觉掩蔽 效应 2 4 1 ( m a s k i n gp r o p e r t i e s ) 等。 其它方法:这类方法与前述方法相比,不够成熟,使用没有前述方法广泛, 我们可以概括的称之为非主流方法。这类方法主要有:基于小波变换口5 】( w t w a v e l e tt r a n s f o r m ) 、卡亨南一洛维变换1 2 6 j ( k l t , k a r h u n e nl o e v et r a n s f o r m ) 、 江南大学硕士学位论文 离散余弦变换【2 7 i ( d c t , d i s c r e t ec o s i n et r a n s f o r m ) 等的语音增强算法。此类中的几 种方法不需像前述方法那样去对语音进行建模,也不需要依据各种准则对噪声的 参数进行估计。 语音增强不仅涉及信号检测,波形估计等传统信号处理理论,而且与语音特 性,人耳感知特性密切相关;再则,实际应用中噪声的来源及种类各不相同,从 而造成处理方法的多样性。因此,要结合语音特性、人耳感知特性及噪声特性, 根据实际情况选用合适的语音增强方法。 4 语音特征提取 在语音识别中,不能将语音的原始数据直接用于识别,必须经过一定的变换 提取反映语音本质特征且具有高效算法的语音特征参数来进行识别。 其基本思想是对经过端点检测和语音增强后的语音信号进行变换,去掉冗余 部分,而把代表语音本质的特征参数提取出来。此后所有的处理都是建立在特征 参数之上,一旦特征参数不能很好地反映语音信号的本质,那么识别就不能成功。 语音识别系统中常用的特征参数有【2 8 , 2 9 1 : ( 1 ) 线性预测系数及其倒谱系数,如声道冲激响应、自相关函数、声道面积 函数以及倒谱系数等,其中倒谱系数具有最好的识别效果。 ( 2 ) 由语音频谱直接导出的参数,由于语音的短时谱中包含有激励源和声道 的特性,因而可以反映说话人的差别。已经使用的参数主要有功率谱、基因轮廓、 共振峰频率带宽及其轨迹、语音帧能量、m e l 倒谱系数等等。 ( 3 ) 混合参数:为了提高系统的识别率,部分原因也许是因为究竟哪种参数是 关键因素把握不充分,相当多的系统采用了混合参量构成的矢量。m a t s u i 和f u r u i 在与文本无关的语音识别系统中利用倒谱系数、差值倒谱系数、基音频率、差值 基因频率作为特征矢量,得到了比单用任意一个参数好得多的识别效果。 除语音端点检测和语音增强外,特征参数的提取又是一个关系到语音识别系 统好坏的关键技术。合理地选择特征参数不仅对系统的识别率有很大的提高,同 时对系统的实时性也至关重要。 1 4 本文工作及结构安排 本文主要是为稳健语音识别做前端处理准备的,最终目标便是排除噪声的干 扰,提取反映语音本质特性参数。因此对于稳健语音识别,该前端处理研究的意 义是十分重大的,它将直接影响语音识别率的高低及语音识别系统的性能的发 挥。 本文主要包括端点检测、语音增强和特征提取三个部分。对于每一部分的工 作现详述如下: 1 端点检测: 研究了常用的端点检测算法:短时能量、过零率、双门限检测法、频谱熵、 6 绪论 功率谱熵还有频带方差端点检测方法,相关实验仿真均反映其各自算法特点。重 点研究了频带方差算法,并在其存在不足的情况下,提出了改进算法即子带频带 方差端点检测方法,实验结果证明了其优越性。 2 语音增强: 首先介绍了小波分析的基本思想,讨论了小波阈值去噪在语音增强中的重要 应用,详细分析了软、硬阈值函数的不同去噪方法,并用仿真结果佐以说明。重 点研究了考虑人耳感知特性的小波变换,即仿生小波变换,并将阈值去噪方法应 用其中,提出了基于仿生小波变换的阈值去噪语音增强方法。实验结果证明在不 同噪声环境下均比其他几种语音增强方法有效。 3 特征提取: 主要研究了几种常见的语音特征参数( l p c 、l p c c 、m f c c ) ,并将m f c c 和l p c c 进行了比较研究,通过构建的孤立词数字语音识别平台,验证了在语音 识别系统中m f c c 作为特征参数的优越性。 论文结构安排如下: 第一章主要介绍了课题的研究背景、研究现状、课题内容概述以及本文的 主要工作。 第二章介绍了语音信号预处理及分析的基本思想及其主要研究手段。 第三章研究了若干种语音端点检测算法,如:短时能量、过零率、双门限 谱熵、功率谱熵、频带方差及其改进算法等等。 第四章研究了基于小波变换的阈值去噪语音增强方法,在此基础上提出了 基于人耳感知特性的仿生小波变换的语音增强方法。 第五章研究了语音特征提取算法,主要有l p c c 和m f c c 。 第六章对本课题的研究内容进行了总结,并指出以后研究的方向。 7 语音信号预处理及分析 第二章语音信号预处理及分析 2 1 预处理 预处理包括预加重、加窗和分帧等,下面对其进行分别详述。 1 预加重 由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端大约在 8 0 0 h z 以上按6 d b 倍频程跌落,所以求语音信号频谱时,频率越高相应的成分越 小,高频部分的频谱比低频部分的难求,为此要在预处理中进行预加重 ( p r e e m p h a s i s ) # k :理t 2 9 1 。预加重的目的是提升高频部分,使信号的频谱变得平坦, 保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或 声道参数分析。预加重通常使用的是有限冲击响应( f i r ) 滤波器: h ( z ) = l p z - 1( 2 1 ) 式中的取值范围是 0 4 ,1 o 】。 2 加窗分帧 在进行了预加重后,接下来就要对语音信号进行加窗分帧处理。将语音信号 划分为许多短时的语音段,每个短时的语音段称为一个分析帧。帧和帧之间既可 以连续,也可以重叠。另外,由于不同语音信号的基音周期不同,在女性儿童的 2 m s 到老年男子的1 4 m s 之间变化,为了兼顾男声和女声的最高和最低基音频率, 且能准确地描述语音能量自身的实际变化规律,通常将窗宽选为1 0 2 0 m s 。 分帧一般采用交叠分段的方法,这是为了使帧与帧之间能平滑过渡,保持其 连续性。前一帧和后一帧的交叠部分称为帧移,帧移与帧长的比值一般取为o 0 5 之间。分帧是用可移动的有限窗口长度进行加权实现的,即用窗函数( 朋) 乘以 语音信号双以) ,从而形成加窗的语音信号: & ( ”) = s 0 ) 幸c o ( n )( 2 2 ) 由于窗函数一般取为九) 中间大两头小的光滑函数,这样的冲激响应所对应 的滤波器具有低通特性,其带宽和频率取决于窗函数的选取。用得最多的三种窗 函数是矩形窗、汉明窗( h a m m i n g ) 和汉宁窗( h a n n i n g ) ,它们的定义如下: 矩形窗: 咖,= 代篙籍 仁3 , 汉明窗: 咖) = o - 5 4 乩4 6 必肛d 1 竺笛 亿4 , ( 聊) 2 1 苫 、 “ 聊:其他值 ( 2 4 ) 9 江南大学硕士学位论文 汉宁窗: 嘶叶5 n _ c 。篙籍 亿5 , 式中为窗长,窗函数( 所) 的选取( 形状和长度) 对于短时分析参数的特性影 响很大,为此应该选择合适的窗口,使其短时参数能更好地反映语音信号的特性 变化。由于汉明窗旁瓣较矩形窗和汉宁窗最低,可以有效地克服泄漏现象,具有 更平滑的低通特性,因此,一般在语音信号预处理中,都选用汉明窗来进行语音 分帧处理。 2 2 语音信号分析 语音信号分析是语音信号处理的前提和基础,只有分析出可表示语音信号本 质特征的参数,才有可能利用这些参数进行高效的语音通信、语音合成和语音识 别等处理。而且,语音合成的音质好坏,语音识别率的高低,也都取决于对语音 信号分析的准确性和精确性。因此语音信号分析在语音信号处理应用中具有举足 轻重的地位。 根据所分析出的参数的性质的不同,可将语音信号分析分为时域分析、频域 分析、倒谱分析等:时域分析方法具有简单、计算量小、物理意义明确等优点, 但由于语音信号最重要的感知特性反映在功率谱中,而相位变化只起到很小的作 用,所以相对于时域分析来说频域分析更为重要。 1 时域分析 语音信号的时域分析就是分析和提取语音信号的时域参数。进行语音分析 时,最先接触到并且也是最为直观的是它的时域波形。语音信号本身就是时域信 号,因此,时域分析方法是应用最为广泛的一种方法,这种方法直接利用语音信 号的时域波形。时域分析通常用于最基本的参数分析以及用于语音的分割、预处 理等。 语音信号的时域参数有短时能量、短时过零率、短时自相关函数和短时平均 幅度差函数等,这是语音信号的一组最基本的短时参数,在各种语音信号数字处 理技术中都有重要应用。之所以称其为“短时,是因为对其参数的提取和处理 都是针对一帧语音来做的,在此段短时语音中,信号可以近似认为是平稳的。 2 频域分析 语音的感知过程与人类听觉系统具有频谱分析功能是紧密相关的,因此,对 语音信号进行频谱分析是认识语音信号和处理语音信号的重要方法。在频域上研 究语音信号,可以使某些在时域上无法体现的特性变得十分明显。傅立叶分析是 分析线性系统和平稳信号稳态特性强有力的手段,它在许多工程和科学领域中得 到了广泛的应用,在语音处理领域也是一个非常重要的工具。傅立叶变换可以将 1 0 语音信号预处理及分析 信号分解为各个不同频率分量的组合,把信号的时域特征和频域特征联系起来。 但是,傅立叶变换使用的是一种全局变换,无法标明信号的时频局域性质。为了 能够分析和处理非平稳信号,人们对傅立叶变换进行了推广,提出了短时傅立叶 变换、小波变换等,这些理论都可应用在语音信号上。其中,短时傅立叶分析就 是基于短时平稳的假定,用稳态分析方法处理非平稳信号,也可称为时间依赖傅 立叶变换,多年来研究者们已做了很多相关工作,已有大量文献阐述了短时傅立 叶分析的原理及应用。 3 倒谱分析 数字化的语音信号是声道频率特性和激励信号源二者的共同结果,而语音的 很多本质特征很大程度上体现在声道频率特性的变化上,因此我们有必要采用一 定的方法将两者区别开来,这个方法就是同态滤波。滤波的过程是将卷积处理化 为乘积,然后作对数处理,使之化为可分离的相加成份,结果就形成倒谱。对倒 谱进行分析,可以知道语音信号的倒谱具有如下性质: ( 1 ) 倒谱的低时部分对应语音信号的声道分量,且按1 n 的趋势随n 的增加而衰 减,故用维数不多的倒谱向量足以表征语音的声道分量。 ( 2 ) 倒谱的高时部分对应语音信号的音源激励分量。 由此可见,由于声道和音源激励所处的倒谱时段不同,通过语音信号倒谱的 低时和高时段可以将它们分离,彼此基本互不干扰,尤其是可以避免声道分量受 到具有随机变换的音源激励分量的干扰。目前常用的倒谱参数有线性预测倒谱系 数( l p c c ) 和梅尔倒谱系数( m f c c ) 等。在第五章将详细讲述。 端点检测 第三章端点检测 语音端点检测是用来区分含噪语音中的语音段和非语音段。它在语音识别, 语音编码通信等很多方面都有着重要的应用。语音识别的一个关键问题就是语音 端点检测的精度,采用多高的精度能为识别提供“最好”的语音模式。“最好” 是指这个语音模式能带来最高的识别率。 本章主要介绍了以下几种端点检测方法:分别为基于短时能量、基于短时过 零率的、基于信息熵的和基于频带方差的端点检测方法。 3 1 基于短时能量和短时平均过零率的端点检测法 3 1 1 短时能量 语音和噪声的区别可以体现在它们的能量上,语音段的能量比噪声段能量 大,语音段的能量是噪声段能量与语音声波能量的叠加。在信噪比较高时,如果 环境噪声和系统输入噪声比较小,能够保证系统的信噪比相当高,那么只要计算 输入信号的短时能量或短时平均幅度就能够把语音和背景噪声区分开,但低信噪 比情形下,此算法将失效。 设语音波形的时域信号为x ( o ,而( 朋) 为加窗分帧处理后得到的第疗帧语音信 号,则砀沏) 满足下式: x n ( 聊) = 国( m ) 奎x ( n + 加) 0 m n i ( 3 1 ) 其中的n = o ,l 乃2 丁,并且为帧长,丁为帧移,沏) 为汉明窗。 设第n 帧语音信号x n ( m ) 的短时能量用邑表示,则其计算公式如下: 一1 e 。= x 2 ( m ) ( 3 2 ) m = o 既是一个度量语音信号幅度值变化的函数,但它有个缺陷,即对高电平非常 敏感( 因为它在计算的时用的是信号的平方) 。因此在某些领域内可以用一个度量 语音信号幅度值变化的函数,即短时平均幅度来代替,它和短时能量的区别 在于信号的小取样值和大取样值不会因取平方而造成较大差异,在某些领域会带 来一些好处,它定义为: ( 3 3 ) 下图3 1 为数字“九”的纯净语音、短时能量和短时幅度的图:其中( a ) 数 字“九”的纯净语音波形图;( b ) 数字“九”的短时平均能量;( c ) 数字“九” 的短时平均幅度。 1 3 江南人学硕| 学位论立 量j 厂j 葡 量z 叶门j o i :么二, ! 型 望 图3 - 1 数字“九”能量捡测波形 f i g3 1n u m b e r n i n e e n e r g yd e t e c t i o nr e s u l t 3 1 2 短时平均过零率 短时过零率表示一帧语音信号波形穿过横轴( 零电平) 的次数。对于连续语音 信号,过零意味着时域波形通过时问轴;而对于离散信号,如果相邻的取样值改 变符号称为过零,过零率就是样本改变符号的次数。 定义语音信号) 的短时平均过零率乙为: tn i z 。= s g n i x 。( m ) 卜s g n x 。一1 ) i ( 34 ) = 0 其中s g n 【 为符号函数,即: f1x 0 s g n x _ 0 z = 0 ( 35 ) ix 0 过零率有两类重要的应用:第一,用于粗略地描述信号的频谱特性,就是用 多带滤波器将信号分为若干个通道,对各通道进行短时平均过零率和短时能量的 计算,剧可粗略地估计频谱特性。第二,用于判别清音和浊音、有话和无话。但 在实际应用时,过零率容易受到a d 转换时的直流偏移、5 0 h z 交流电源干扰以 及噪声的影响。减少这些干扰可以有两种方法:一种是采用带通滤波器消除信号 中的直流和5 0 h z 低频分量;另一种方法是设定一个门限,将过零率修改为跨 过正负门限,从而减少随机噪声的影响。可以在零电平附近设置门限n 定义短 端点榆测 时平均过门限率为: 1n t i z 。= j 3 9 n k ( m ) 一卅一s g n x 。沏一1 ) 一, | m - o + i s g n 【矗( m ) + 州一s g n x ( m 一1 ) 4 - 丁m( 36 ) 这样计算的过零率就有一定的抗干扰能力了。即使存在小的随机噪声,只要 它不使信号越过正、负门限所构成的带,就不会产生虚假的过零率。在语音以别 前端检测时还可采用多门限过零率,进一步改善检测效果。 图3 - 2 给出了数字“九”的短时过零率仿真图:( a ) 数字“九”的纯净语音 波形;( b ) 数字“九”的短时过零率波形。 6 0 糌4 0 特 捌2 0 山山 l 。l h 哪! | | | | i 、 i 。 一 。 江南人学顶土学位论文 裂门限端点检测过程可分为四段:静音段、过渡段、语音段、结束。静音段 时如果能量或过零率超过低门限,就开始标记起始点,进入过渡段。进入过渡段 后当两个参数值都回落到低门限以下,就将当前状态恢复到静音状态,而如果过 渡段中两个参数中的任一个超过高门限,即被认为进入语音段。处于语音段i 时, 如果两参数降低到门限以下,而且总的计时长度小于最短时间门限,则认为是一 段噪音,继续扫描以后的语音数据,否则标记结束端点。 图3 3 给出了用双门限方法检测出的波形其中虚线分别表示检测出的语音 起止点。将语音起始帧记为肌,语音结束帧记为地,本次实验取帧长m = 2 5 6 , 帧移2 - 8 0 ,傅立叶变换点数n - 2 5 6 ,则实验结果n j - 6 7 ,n 2 = 1 0 6 。其中f a ) 数字 “九”的纯净语音波形图;( b ) 数字“九”的短时能量波形;( c ) 数字“九”的 短时过零率波形。 d “ 理 斟 盼 蜊 02 0 0 04 0 0 06 0 0 08 0 0 01 0 0 0 01 2 0 0 01 4 0 0 0 忸)采样点,个 02 04 06 08 01 0 01 2 01 4 01 6 0 ( b ) 帧数,个 图3 - 3 数字“丸”双门限检测波形 f i g3 3n u m b e r n i n e ”d o u b l e t h r e s h o l dd e t e c t i o nr e s u l t 基于短时能量和过零率的双门限检测方法存在以下一些问题。例如:在一些 特殊情况,如当语音段的开始和末尾都是弱摩擦音时,像“四”字的读音的开始 段的短时能量就比较小,而以鼻音结尾的语音,其末端的短时能量也比较小,它 们都容易与噪声混淆。而清音的短时平均过零率晟大,浊音和噪声次之,且浊音 和噪声的短时平均过零率相当。 3 2 基于信息熵的端点检测法 熵,表示信息的有序程度。在信息论中,熵描述了随机事件结果的不确定性, 端点榆测 即一个信息源发出的信号是以信息熵来作为信息选择和不确定性的度量。基于熵 的端点检测方法主要有:基于熵,基于谱熵,基于能量与谱熵相结合的,基于功 率谱熵等,本章只分别对基于谱熵和基于功率谱熵的端点检测方法进行讨论。 3 2 1 基于谱熵 1 9 9 8 年,s h e n 等首次提出基于谱熵的语音端点检测方法,s h e n 等在实验中 发现语音和噪声的谱熵存在较大的差异。谱熵这一特征具有一定的可选性,它体 现了语音和噪声在整个信号段中的分布概率。 谱熵的计算方法如下:首先通过快速傅立叶变换( f f t ) 得到每一帧信号的频 谱,其中每个频谱向量的系数表明了该帧信号在该频率点的大小分布。然后计算 每个频谱分量在每帧总能量中所占的比例,将其作为信号能量集中在某频率点的 概率,其概率密度函数定义为: 只= s ( a ) s ( ) k = l ,n( 37 ) 式中,j 是 的能量,n 是相应的概率密度,是f f t 中频率成分的所有 点数。由于语音信号的绝大部分能量集中在2 0 0 h z - 3 5 0 0 h z 之暗,为了集中计算 谱熵以增加语音和非语音在概率密度函数中的区分性,我们把2 0 0 h z 3 5 0 0 h z 之 外的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论