(应用数学专业论文)基于bp神经网络的语音增强系统研究.pdf_第1页
(应用数学专业论文)基于bp神经网络的语音增强系统研究.pdf_第2页
(应用数学专业论文)基于bp神经网络的语音增强系统研究.pdf_第3页
(应用数学专业论文)基于bp神经网络的语音增强系统研究.pdf_第4页
(应用数学专业论文)基于bp神经网络的语音增强系统研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(应用数学专业论文)基于bp神经网络的语音增强系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

河南大学硕士研究生学位论文第1 页 摘要 语音是人类相互之间进行交流最自然和最方便的形式之一。语音通信是一种理想 的人机通信方式。目前各种语音数字信号处理技术如语音编码、语音识别等已广泛应 用于各个信号处理领域中,但是在复杂的语音环境下、特别当干扰噪声信号具有与原 始语音信号相类似的语音特征时,各种语音数字信号处理算法的性能会显著下降。这 里就需要引入在语音数字信号处理实用化过程中一项关键技术研究:语音增强和噪声 分离,即如何在复杂背景语音环境下,从观测输入混合语音信号中,分离估计出所需 要的干净原始语音信号。 第一,背景噪声破坏了语音信号原有的声学特征和模型参数,降低语音通信质量。 在日益要求提高语音通信质量需求下,随着数字信号处理技术的飞速发展,芯片价格 的下降,使研究以新硬件新算法为基础的新的语音增强方法有着重要价值。 第二,本文丰要讨论了基于神经网络的语音增强方法。首先介绍了语音信号和神 经网络的基本殚论,然后提出了基于b p 神经网络的语音增强系统的建模方法。综合语 音特征提取,归纳出了语音倒谱和噪声倒谱估值用于神经网络训练和学习并最终消除 噪声。仿真结果表明,该噪声抵消器的设计方法,不仅实现简单,而且节省运行时间, 语音增强效果很好。 第三,本文利用神经网络进行语音增强,在无噪和含噪条件下,提取语音信号的 m e i 倒谱系数,并对噪声在倒谱域进行估计。用于b p 神经网络的训练和学习,利用神 经网络系统具有非线性映射和自学习,能够用于噪声信号的非线性建模的能力,获取 信号的最佳估计,克服信号处理中存在的不确定性,最终达到语音信号消噪和提高可 懂度的目的。 关键词:神经网络:m e l 倒谱系数:语音增强:系统研究 第lf 页河南大学硕士研究生学位论文 a b s t r a c t s p e e c hi so n eo f t h eb e s tn a t u r a la n dc o n v e n i e n tj n t e r c o m m u n i c a t i o nm a n n e r sa m o n g 1 u m a n k i n d i ti sa i s oo n eo f t h ei d e a lm a n m a c h i n ec o n v e r s a t i o ni n t e r f a c e s n o w a d a y s , s p e e c hp r o c e s s i n gt e c h n o l o g i e sh a v eb e e nb m a d l yu s e di nm a n ya p p l j e df i e i d s i nt 1 1 i s j i s s e r t a t i o n ,t h em a i nr e s e a r c hf o c u si so nt h es t u d yo fs p c e c he n h a n c e m e n ta n ds e p a r a t i o n , v h j c hi so n eo f t h ek e yt e c h n o l o g i e sw h e nw et r yt op u tt h es p e e c hp r o c e s s i n gi n t or e a l i t y s p e e c he n h a n c e m e n ta n ds e p a r a t i o nd e a l sw i t ht h ep r o b l e mo fh o w t oe n h a n c eo rs e p a r a t e i h eu s e f u ls p e e c hs i g n a 】sf r o mt h em i x e di n p u t su n d e rv a r i o u sn o i s yb a c k g r o u n de n v i r o 1 m e n t s ,e s p e c i a i l yw h e nt h ei n t c r f e “n gs i g n a l sh a v es p e e c h i i k es t a t i s t i c a ip r o p e r t y f i r s t ly ,t h eb a c k g m u n dn o i s eh a sd e s t m y e dt h ea l r e a d ye x i s t i n ga c o u s t i c s :h a r a c t e “s t i co fs p e e c hs i g n a ia n dm o d e ip a r a m e t e li nr e q u e s t st oe n h a n c et t l es p e e c h m m u n i c a t i o n sq u a j i t yd e m a n d ,a i o n gw i t ht h ed i g i t a ls i g n a ip m c e s s i n gt e c h n 0 1 0 9 yr a p i d j e v e l o p m e n t ,t h ec h i pp c ed r o p ,e n a b l et h er e s e a r c ht oh a v et h ev i t a ls i g n i f i c a n c et a k et h e 1 e wh a r d w a r en e wa i g or i t h ma st h ef o u n d a t i o nn e ws p e e c he n h a n c e m e n tm e t h o d s e c o n d ly ,t h i sp a p e rm a i n l yd i s c u s s e ss p e e c he n h a n c e m e n tb a s eo nn e u r a ln e t w o r k f i r s ti n t r o d u c e ds p e e c hs i n g l ea sw e i la st h en e u r a in e t w o r ke l e m e n t a r yt h e o r y ,t h e n ) r o p o s e db a s e do nt h eb pn e u r a ln e t w o r ks p e e c he n h a n c e m e n ts y s t e mm o d e l i n gm e t l l o d ;y n t h e s i z e st h es p e e c hf e a t u r ee x t r a c t i o n ,i n d u c c dt h es p e e c nc e p s t 舛m d 曲en o i s e 咒p s t r u me s t i m a t cv a l u eu s e si nt h e n e u r a in e t w o r kt r a i n i n g 锄dt h es t u d ya n df i n a l l y 川m i n a t e st h en o i s e ,t h ee x p e r i m e n tp r o v e dt h i sm e t h o dh a dt os u r p a s st i a d i t i o n a lt l l e 沪e e c he n h a n c e m e n ta 】g o r i t h m t h es i m u i a t i o nr e s u j ts h o w ,t h i ss p e e c he n h a n c e m e n t ;y s t e md e s i g nm e t h o d ,n o to n i yr e a l i z e ss i m p ly b u ta l s os a v e st h er u n n i n gt i m e ,t h e ;p e e c he n h a n c e m e n te f f e c ti sg o o d t h i r d ly ,t h j sa r c i c l ed i s c u s s e san e wm e t h o do fs p e e c he n h a n c eb a s e do nn e u r a l 1 e t w o r k m f c cc o e f f i c i e n to ft h es p e e c hs i g n a ic a nb ep i c k e du pu n d e rn o i s ea i l d 河南大学硕士研究生学位论文第1 ii 页 n o n n o i s ec o n d i t i o n , t r a i n e da n dr c c o g n i z e db yb pn e u r a l n e t w o r k i nt h ee n d ,w ec a n c a n c e i i e dn o i s ee f f e c t i v e l ya n de n h a n c et h ei n t e l l i g i b i i i t y n e u r a in e t w o r kn o to n l yh a st h e a b i i i t yo f 九o n l i n e a rm a p p i n gb u ta l s oh a st h ea b i l i t yo fs e l “e a m j n g s oi tc a nb eu s e dt o a c h i e v et h ei i n e a rm o d e io fn o i s e t h em e t h o dn o to n i ya c h i e v e st h eo p t i m a le s t i m a t eb u t a i s oc a no v e r c o m eu n c e r t a i n t i e si ns i g n a lp r o c e s s i n g k e yw o r d s : n e u r a ln e t w o r k : m e | - f r e q u e n c yc e p s t r u m c o e 币c j e n t s : s p e e c h e n h a n c e m e n t : s y s t e mr e s e a r c h y 9 1 0 6 9 【i 关于学位论文独立完成和内容创新的声明 本人向河南大学提出硕士学位囱博士学位口中请。本人郑重 声明:所呈交的学位论文是本人独立完成的,对所研究的课题有 新的见解叵 创造性奇勺见解口。据我所知,除文中加以说明、标注 和致谢的地方外,论文中不包括其他人已经发表或撰写过的研究 成果,也不包括其他冬瓣获得任衙教霄誊斟研机构的学位或证书 而使用过的材料蟛j 萄戡一网毒礁的嗣事对本磷究所做的任何贡献 均已在论文中撑了明确的说嘲并蓑吊了镧| 意 7 jj j 孥啦中谛泛( 每箍论文作蠹m 攀:却螺 、 嚣,、。 雾 毫、 j ? 啪鞯帑弦日 蓑: 于拳傻攘文蔫作榛攘用缀权书o : 本人嫒河南大学攀峨馘灏潦攀锰【i ,博士棼往口。作为 学位的作者。奉人完全了觯井襻戆钟尚大学有关保留、使用学住 论文的要求,雠河南大学帝积捅涸察霹书馆、科研信息机构、数 据收集机构和本横嘲书馆等蜓拱喾位论文舐质文本和电子文 本) 以供公众检索、奎词蕊森援撅游街大学出于宣扬、展览学 校学术发展和进行学术交流等目的,可以采取影即、缩即、扫描 和拷贝等复制手段保存、汇编学位论文( 甄质文本和电子文本) 。 ( 涉及保密内容的学位论文在解密后适用本授权书) 学位获得者( 学位论文作者) 荽名:名仑勺荔 冲 b 氏氢 硅童:请在相应的t 口”内划t ”。 河南大学硕士研究生学位论文第1 页 第一章绪言 1 1 语音增强的意义与研究现状 计算机技术的发展大大加快了人类社会的进步,反过来,人类社会的进步又为计 算机发展提出了更高的要求和挑战。随着计算机技术的迅猛发展,人类社会己步入高 度自动化和信息化的社会,通过键盘、鼠标、触摸屏等手段进行人机间信息交互的传 统交互模式己不能满足人机之间快速、准确和高效的信息交互的需求,如何将信息以 更自然、更方便、更有效的方式送入计算机进行处理、传输,已经成为亟待解决的问 题。自然语言语音是一种理想的人机通信方式,它可以为计算机和其它自动化系 统建立良好的人机交互环境,可以进一步推动计算机和其它智能机器的应用,提高社 会信息化和自动化程度。 1 1 1 语音增强的应用领域 当前人机交互是一个热门话题,在市场上也出现了不少产品,但他们共同的缺点 是识别率太低,丰要原因是噪音对语音特征值的影响,所以先对语音信号进行降噪处 理是非常必要的,处理效果的如何将直接影响到系统的识别率。当前语音增强主要应 用在以下领域: 1 、语音识别前端上的应用。语音识别是通过对所接收到的语音信号进行处理,提取 相应的特征或建立相应的模型,然后据此作出判别。通常在实验室环境下工作良好的 识别器在含噪的环境下性能会明显下降,所以必须采取语音增强技术。而语音编码技 术是伴随着语音的数字化而产生的,目前丰要应用在数字语音通信和数字语音存储两 第2 页河南大学硕士研究生学位论文 个领域。但这两种情况都需要在无噪情况下进行,所以也需要对语音进行预处理,即: 对输入语音进行语音增强后再进行语音编码。 2 、语音增强在军事、医疗、航空等领域的应用。医疗上助听器里需要放大电路,要 求放大后的声音清晰、无噪。1 _ l 【放大后的声音不仅有环境噪声,而且有放大电路产生 的噪声,所以需要在助听器里采用噪声对消技术;军事上需要对敌方的情况进行监听, 由于噪声可能会大于所采集到的有用信息,同样需要进行语音增强。 3 、语音增强在通信、计算机网络等领域的应用。当前通信业尤其是无线通信高 速发展,计算机和因特网也正以惊人的速度渗透到社会的各个领域,为使信息交换高 速进行,语音就成为一种理想的人机信息交流乎段,进行交流时需要从带噪语音中提 取尽可能纯净的语音信号。 1 1 2 语音增强的意义 在实际应用中,不可能没有噪声的干扰,如果不能有效的去除噪声,将会直接影 响语音处理系统的效果,甚至会使整个系统失效。这里“噪声”定义为所需语音信号 以外的所有干扰信号,干扰信号可以是窄带或宽带的、白噪声或有色噪声、声学的或 电学的、加性的或乘性的,甚至可以是其它无关的语音。 要完全排除噪音是不现实的,所以语音增强的目标对收听人而言主要是改善语音 质量,提高语音可懂度,减少疲劳感;对语音处理系统( 识别器、声码器、手机) 而言 是提高系统的识别率和抗干扰能力。现代计算机技术、微电子技术等的发展保证了这 些语音复杂算法的实现成为可能。因此,抑制噪声、增强语音对提高现有语音处理系 统性能和更广泛地应用语音处理系统具有重要的意义。 在相同的条件下,难以找到一种通用的语音增强算法,目前语音增强的方法很多, 河南大学硕士研究生学位论文第3 页 一些丰要的方法都有各自的优缺点,在应用过程中要根据系统实际情况来选用。 1 1 3 国内外语音增强研究现状 语音增强主要应用于军事、通信、网络、医疗等领域,同时,各种潜在的应用也 需要语音增强技术。而寻求一种有效的算法对带噪语音信号进行处理以达到较高抗噪 声效果的研究意义很大。这是因为,语音增强技术不仅可以减轻人员长时间处于强噪 音下,易于疲劳的现象,减少强噪音下对人耳的损伤:而且,它通常被安排在诸如语 音编码和识别技术之前,用以提高语音处理系统的性能。 研究发现语音增强效果最终取决于人的主观感受,所以语音感知对语音增强研究 有重要作用,语音增强不但与语音信号处理理论有关,而且涉及到人的听觉感知和语 音学方面的知识。语音感知问题涉及到生理学、心理学、声学和语音学诸多领域,其 中很多问题有待进一步研究,目前已有的一些结论可用于语音增强: 1 、人耳对语音的感知主要是通过其幅度谱获得的,而对相位谱则不敏感。 2 、人耳对频率高低的感受近似与该频率的对数值成正比。 3 、人耳有掩蔽效应,即强信号对弱1 言号有抑制作用,能够将其掩盖。 4 、共振峰对语音的感知十分重要,特别是第二共振峰更为重要,因此对语音信号进 行一定程度的高通滤波不会对可懂度产生影响。 5 、人耳在两个人以上的说话环境中能够分辨出他所需要的声音。 语音增强这个课题早在2 0 世纪6 0 年代就已经引起了人们的注意。在此后的4 0 年间,人们一直在进行着这方面的研究。随着数字信号处理理论特别是快速傅里叶变 换( f f t ) 理论的成熟,7 0 8 0 年代间曾形成一个研究高潮,并取得了一些基础性成 果。如:1 9 7 8 年,l i m 和o p p e n h e i m 提出了语音增强的维纳滤波方法【l 】;1 9 7 9 年, 第4 页河南大学硕士研究生学位论文 b o i l 提出了谱相减方法来抑制噪声【2 】【3 1 :1 9 8 0 年,m c a u l a y 和m a i p a s 提出了软判决噪 声抑制方法【4 】;1 9 8 4 年,e p h r a i m 和m a i a h 提出基于m m s e 短时谱幅度估计的语音增 强方法【5 1 。 2 0 世纪8 0 年代以来兴起的神经网络技术和小波技术,为语音信号处理提供了一个 良好的数学工具。小波技术根据信号和噪声在不同尺度的小波变换所表现出来的不同 特性6 1 ,选择合适的阈值处理信号达到语音增强目的:并且选择了不同小波基做对比。 算法的关键在于阈值的选取【7 1 ,如果阈值选得过高,会使信号丢失过多的细节,使信 号失真;如果阈值选得过低,则不能达到去噪的目的,而对阈值的选取往往凭经验获 取。而神经网络由于具有良好的非线性信号处理特性,在对非线性相关的信号处理时 具有十分独特的优势。本文的目的是结合神经网络和自适应噪声对消技术构建一个合 理的语音增强系统模型,为将来硬件实现提供一个理论基础。 1 2 语音增强算法概述 语音信号是人类最重要、最有效、最常用、最方便的通信方式。语音可分为周期 性的浊音和非周期性的清音。浊音部分和音质关系密切,是语音中大幅度高能量的部 分,清音能量较小,在强噪声中容易被掩蔽i 但在较高信噪比时能提供较多的信息。 而噪声来源众多,它们的特性各不相同。因此需要针对不同的噪声采取不同的语音增 强对策。 8 0 年代以后,随着v l s i 及高速d s p 的发展,使语音增强的实时实现成为可能,语 音增强逐渐走向实用,目前语音增强的算法归结起来有以下几种【8 】: 一、参数方法: 河南大学硕士研究生学位论文第5 页 参数方法包括维纳滤波器、梳状滤波器、卡尔曼滤波器等。此类方法依赖于使用 的语音生成模型( 例如a r 模型) ,需要提取模型参数( 如基音周期、l p c 系数) ,常常使 用迭代方法。但如果实际噪音或语音条件与模型有较大的差距或提取模型参数有困 难,则此类方法较容易失效。 二、非参数方法: 非参数方法包括谱减方法、自适应滤波等。由于该方法不需要从带噪信号中估计 模型参数,使得其应用范围较广。但由于约束条件较少,没有利用可能的统计信息, 结果一般不是最优化的。 三、统计方法 统计方法:如隐马尔科夫模型、纯净语音谱和带噪语音谱对应映射、极大后验概 率估计( m a p - m a x i m u ma - p o s t e r i o r i ) ,最小均方误差估计( m m s e m i n i m u mm e a ns q u a r e e r r o r ) 等。统计方法较充分地利用了语音和噪音的统计特性,一般要建立模型库,需要 训练过程获得初始统计参数,与语音识别系统的联系很密切。 四、其它方法 如小波滤波、卡维南洛维变换、人工神经网络等,目前由于研究者比较少, 这些方法不像前三类方法那样成熟。 1 3 语音增强的目的 由于噪声的存在,导致了语音处理系统性能的急剧恶化,从而极大地降低了重建 语音的质量;一个用纯净语音训练的错误率不到1 的语音识别系统,在自助餐厅中 的识别错误率将会高于5 0 。正是由于各种各样的语音处理系统在噪声的干扰下其性 第6 页河南大学硕士研究生学位论文 能得不到保障才导致了它们的商业化脚步很缓慢。又如安装在汽车、飞机或舰船上的 电话,街道、机场的公用电话以及现在人们常用的移动电话,也常受到很强背景噪声 的干扰,严重影响通话质量。如何尽可能的从带噪语音中去除噪声就成了目前信号处 理领域中的一个热门的话题。随着对语音增强研究的深人,人们认识到:由于噪声通常 都是随机的,从带噪语音信号中提取完全纯净的原始信号是不可能的。因此,语音增 强的目的主要有两个:一是主观度量,以改进语音质量、消除背景噪声,使听者乐于接 受、不感觉疲劳为目的:二是客观度量,以提高语音可懂度为目的。在很多情况下, 这两个目的是不能兼得。比如说,对于语音识别系统,最重要的是语音的特征参数, 那么就要尽可能提高语音的客观度量;而对于语音增强系统,最重要的是使人们听起 来更舒适,那么就要重点考虑语音的主观度量。如何使二者兼得,是语音增强的关键 所在。 1 4 论文的安排 本论文希望通过探讨语音数字信号处理中的一个非常有实用价值的分支语 音增强,尝试初步的算法仿真。目的就是希望通过构建一个基于神经网络的语音自适 应噪声处理系统模型,为将来硬件开发作知识和技术储备l 一” 一 + 本文第一章介绍了选题的意义和语音增强的发展及研究意义;第二章从语音产生 模型出发,简要介绍了语音端点检测技术和特征提取技术。并由特征参数提取引出神 经网络的建立方法;第三章从神经网络的概念出发,简要介绍基于神经网络的语音增 强建模方法以及基于神经网络的特征提取方法;第四章从系统设计与仿真出发,论述 自己的丰要研究工作。第五章从a d 7 3 3 l l 和t m s 3 2 0 c 5 4 x 的结构出发,简要分析了 河南大学硕士研究生学位论文第7 页 硬件结构形式。第六章回顾与展望,简要介绍了仿真设计的主要问题以及今后的努力 方向。 第8 页河南大学硕士研究生学位论文 第二章语音信号的特征提取 特征提取是任何一个模式识别任务首先要解决的问题。纵观语音特征描述发展的整 个过程,经历了从时域到频域,再到倒谱域等三个重要阶段。 2 1 语音信号产生的模型 语音信号产牛是一个复杂的牛理过程,通过观察人的发声过程,我们可以建立一 个语音发声模型。 图2 1 给出了语音产生的时域模型,一个最简单的语音合成模型包括三个部分: 语音激励源,声道模型和辐射模型。其中语音的激励源又可以分为周期信号和随机噪 声。浊音可以由一个周期信号发生器来模拟,而清音可以用随机噪声发生器来模拟。 激励信号通过声道模型滤波器产生合成语音。其中声道模型给出了离散时域的声道传 输函数,把实际声道作为一个变截面声管加以研究,采用流体力学的方法可以导出, 在大多数情况下它是一个全极点函数,在语音信号数字处理中,通常用a r 模型建模。 综合考虑声门激励、声道和嘴唇辐射影响就可以得到图2 1 所示的语音产生的系 统模型。语音信号可以看作是激励信号激励一个线性系统h ( z ) 而产生的输出,其 中h ( z ) 是声道响应v ( z ) 和嘴唇辐射模型r ( z ) 级联而成。 h ( z ) = v ( z ) r ( z )( 2 1 1 ) 我们可以把声门脉冲的影响也归并到传递函数中,对于浊音: s ( z ) = a v g ( z ) v ( z ) r ( z )( 2 1 2 ) 式中a 。是系统对浊音的幅度谱补偿,这时浊音信号就可以看作是一个准周期性 河南大学硕士研究生学位论文第9 页 的d e l t a 脉冲激励一个离散线性系统 h ( z ) 而产生的输出。 对于清音: s ( z ) = a p e ( z ) v ( z ) r ( z ) ( 2 一l - 3 ) 式中e ( z ) 式中a 。是系统对清音的幅度谱补偿,对应于随机噪声的z 变换。 这里的线性系统参数是时变的,不过其时变过程比起语音信号波形的振荡过程来 说要慢的多。因此可以假定在l o 3 0 m s 的时间间隔中其系统的参数是固定不变的, 这就对语音进行分析带来极大方便。目前语音处理的许多场合都是基于上述短时平稳 的假定的。 基费强率 2 2 语音信号的特性 枣遗参馥 图2 1 语音产生的机理简图 语音发声是一个时变过程,很多因素造成了发声系统的时变性,例如声道的面积 随着时间和距离改变,气流速度随着声门处压力变化而变化等。但是声道形状有相对 稳定性,在一段时间内( 1 0 m s 3 0 m s ) ,人的声带和声道形状是相对稳定的,可认为 第1o 页河南大学硕士研究生学位论文 其特征是不变的,因而语音的短时谱具有相对稳定性。 语音可以分为周期性的浊音和非周期的清音。浊音和清音经常在一个音节中同时 出现。浊音部分和音质关系密切,在时域上呈现出明显的周期性,在频域上有共振峰结 构,而且能量大部分集中在较低频段内,是语音中大幅度高能量的部分:清音则没有明 显的时域和频域特征,类似于白噪声,能量较小,在强噪声中容易被掩盖,但在较高信 噪比时能提供较多的信息。在语音增强中,可以利用浊音的周期性特征,采用梳状滤波 器提取语音分量或者抑制非语音信号,而清音则难以与宽带噪声区分。为了能够准确地 区分噪声和语音,需对获得的语音资料进行端点检测。 2 3 语音端点检测方法 在噪声语音信号处理中,噪声语音信号中的语音和非语音段的判定,即噪声语音 信号的语音端点检测,是语音信号处理中的一个重要环节,目的是从包含语音的一段信 号中找出语音的起始点及结束点,从而只存储和处理有效语音信号。有效的端点检测不 仅可以减少数据的存储量和处理时间,而且能排除无声段的噪声干扰。端点检测的困难 在于无声段或者语音段前后人为n 乎吸等产生的杂音、语音开始处的弱摩擦音或弱爆破音 以及终点处的鼻音,这些使得语音的端点比较模糊,需要综合利用语音的各种信号特征, 从而确保定位的精确性,避免包含噪音信号和丢失语音信号,同时也为噪声参数的估计 提供可靠的保证。 语音端点检测属语音前端处理,是语音处理系统中非常重要的工作,也是极其关 键的一步工作。因为,在语音分析、语音滤波和增强中,语音信号的模型参数和噪声 模型参数以及自适应滤波器中的适应参数都得依赖对应的信号段( 语音段或噪声段) 来 河南大学硕士研究生学位论文第11 页 计算确定。因此,只有准确地判定语音信号的端点,才能正确地进行语音处理。 在语音端点检测算法中所使用的特征参数的种类,随着技术的发展而不断的增 多。刚开始时使用的特征参数丰要是短时能量和短时平均过零率,如双门限语音端点 检测、多门限语音端点检测。然后l p c 系数、倒谱系数、共振峰形状、高阶统计量 等也逐渐的应用到语音端点检测中。判决方式也由原来的双门限、多门限发展到基于 模糊理论的判决方式。大多数的v a d 算法都基于背景噪声平稳假设的,同时对v a d 判决结果进行平涓处壬早,已经有研究工作者对这种假设提出了质疑,并作了相应的改 进。d k f r e e m a ne ta 1 在语音端点检测作出了突出贡献【10 1 ,他提出的v a d 算法的主要 作用是检测当前一帧原始语音信号是否是语音,音乐或信令音信号,给出标志,编码 器根据标志决定对当前一帧信号的处理方法。该算法己被采纳为e t s i g s m 数字移动 电话标准的一部分。 2 4 语音端点检测算法概述 传统的对含噪语音信号进行语音端点检测的方法有【l i 】【1 2 】【| 3 】:多门限过零率前端检 测法( 图2 - 2 ) 、短时能量,以及零能积( 即过零率与短时能量的乘积) 等。它们实现简 单,计算量相对较小,因而得到广泛的应用。算法大多应用多种有关语音的先验知识, 采用多种特征组合,组合方式用简单的“或”、“与”或用较复杂的有规定条件的逻 辑组合( 采用多层或多级判别的思想) 。这些方法在高信噪比( s n r ) 时具有良好的性能, 而在低信噪比时性能很差,有时甚至无法判别( 图2 3 ) 。主要原因是:( 1 ) 在不同时 刻,不同条件下所采集的语音信号其信噪比( s n r ) 变化比较大,很难找到对各种条件 s n r 都适用的固定阈值:( 2 ) 经常存在一些突发性干扰,这时能量和过零率变的很大, 第12 页河南大学硕士研究生学位论文 这也给端点检测带来较大的困难。对于需要高精度的端点检测的应用领域来说,这些 方法是不足的,难以达到理想的效果。语音处理系统通常要求工作在不同的噪声条件 下,在信噪比比较低的环境下,所采用的端点检测应当适应最不利的情况,在实际应 用中达到较高的准确性。 语音端点检测算法步骤如下: ( 1 ) 抽样信号被分成各信号帧; ( 2 ) 对每一帧信号,选取并计算多种特征向量; ( 3 ) 根据对应于信号的特征向量序列,利用多种判决准则,来判决语音帧和非语音帧; ( 4 ) 对第( 3 ) 步的判决结果进行后处理。后处理过程是为了避免把人在发声过程中出现 的自然停顿当作背景噪声。同时能有效的对字间间隙光滑,消除字间间隙对端点检测 可能造成的误判。 图2 2 语音信号的过零率 河南大学硕士研究生学位论文第13 页 悻】獬一一 图2 3 传统语音信号的端点检测 2 5 语音信号的特征提取 随着语音识别的研究重点转向特定吲:境下,特别是噪声环境下的鲁棒性问题,频谱 域的特征提取在上世纪9 0 年代末重新得到重视。倒谱能很好表示语音的特征,因此 在大多数语音处理系统中选择倒谱系数作为输入特征矢量【1 4 】。 在噪声环境下,短时能量与其它特征参数都不能很好地区分语音段与非语音段,所 有的特征抽取算法必须考虑到对不同说话人的不敏感性、减少与不同环境的相关性, 以及与后续模型的匹配性特征提取,因此采用倒谱系数来作为端点检测的参数。 语音特征提取的主要目的是减少信号的冗余,降低语音信号表示的维数,语音信 号中含有很大的冗余部分,特征提取的摹本思想是将预处理过的语音信号通过数学变 换,去掉冗余部分,从而减少语音信号后续处理的计算复杂度。 2 6m e l 倒谱系数提取 倒谱类型的参数由于具有两个明显的优势而逐渐取代了线性预测分析而成为说 话人模型的首选参数【1 5 】,其中一个优势是可以通过对倒谱域的滤波和加权来对基于l p 第14 页河南大学硕士研究生学位论文 的频谱进行处理,第二个优势就是可以方便地应用m e l 倒谱理论。在特征提取算法中, 假设语音信号是短时平稳的信号,这一假设符合人的发声器官本身的特性,是特征提 取算法中的基石。 线性预测倒谱参数( l i n e a rp r e d i c t i o nc e p s t r u mc o e 踊c i e n t ,l p c c ) 是基于语音信号 为自回归信号的假设【1 6 】,利用线性预测分析系数获得的倒谱参数。l p c c 参数的优点 是计算量小,对元音有较好的描述能力,其缺点在于对辅音的描述能力较差,抗噪声 性能较差。 2 6 1m e l 倒谱系数 m e l 频率倒谱参到1 7 1 ( 或感知频域倒谱参数,m f c c ) 的分析着眼于人耳的听觉机 理,依据听觉实验结果来分析语音的频谱,获得了较高的识别率和较好的噪声鲁棒性, 解释m f c c 的提取过程,首先要解释一下临界频带( c r i t i c a 卜b a n d ) 的概念。在声压恒 定的情况下,当噪声被限制在某个带宽内时,人耳感觉的主观响度是恒定的,而一旦 噪声突破了这个带宽,则主观响应的变化便会被感知。同样地,当声压恒定时,在这 个带宽内的一个具有复杂包络的信号的响度等价于在这个带宽中心频率位置的一个 纯音的响度,而与信号本身的频率分布无关:但是当信号的带宽突破了临界带宽时, 其响度便不再等价。 根据z w i c k e r 的工作可知,人耳对于频率f 的感受是呈对数变化的,即在低频部 分,人耳感受是比较敏锐,在高频部分,人耳的感受就会越来越粗糙。利用人耳的感 知特性,我们可在语音的频谱范围内设置若干个带通滤波器,每个滤波器具有三角形 或正弦滤波特性,然后在特征矢量中纳入能量信息,计算相应的滤波器组的信号能量, 再通过离散余弦变换( d c t ) 计算其对应的倒谱系数。 河南大学硕士研究生学位论文第15 页 由于临界带宽随着频率的变化而变化,并与感知频率( m e i 频率) 的增长一致,在 1 0 0 0 h z 以下,大致呈线性分布,带宽为1 0 0 h z 芹右:在1 0 0 0 h z 以上带宽呈对数增长。 根据临界带的划分,可将语音频域划分成一系列三角形的滤波器序列,即m e l 滤波器 组,取每个临界带内所有信号幅度加权和作为某个临界带滤波器的输出,然后对所有 滤波器输出作对数运算,形成一个矢量,然后作离散余弦变换即得到美尔频率倒谱系 数( m e i - f r e q u e n c yc e p s t r u mc o e f n c i e n t s ,m f c c ) 。 语音信号的m f c c 特征主要反映语音的静态特征,语音的动态特征可以通过静态 特征的差分谱来描述,动态信息和静态信息形成互补,在很大程度上能够提高系统的 识别性能。 2 6 2m e l 倒谱参数的提取 m e l 倒谱参数( m e lf r e q u e n c yc e p s t r u mc o e f h c i e n t ,m f c c ) 。该特征考虑了入耳的 听觉特性,将频谱转化为基于m e l 频标的非线性频谱,然后转换到倒谱域上。由于充 分模拟了人的听觉特性,而且没有任何前提假设,m f c c 参数具有识别性能和抗噪能 力,实验证明在汉语数码语音识别中m f c c 参数的性能明显优于l p c c 参数,因此本文 采用m f c c 参数做为语音特征参数。m f c c 参数求解的大致过程为:对输入语音帧加 h a m m i n g 窗后作( 快速傅利叶变换,f a s tf o u r i e rt r a n s f o r m a t i o n ,f f t ) ,将时域信号转 化为频域信号。 第16 页河南大学硕士研究生学位论文 时域信 图2 4m f c c 参数提取框图 将线性频标转化为m e l 频标。转化方法是将频域信号通过2 4 个三角滤波器,其中中 心频率在1 0 0 0 h z 以上和以下的各1 2 个。滤波器的中心频率间隔特点是在1 0 0 0 h z 以 下为线性分布,1 0 0 0 h z 以上为等比数列分布。三角滤波器的输出则为: 弘。誊一。器。豢。糕h 以_ 4 协6 图2 5m e l 滤波器组 其中x 为频谱上第k 个频谱点的能量,r 为第i 个滤波器的输出,f ,为第i 个滤波器 的中心频率。用离散余弦变换( d i s c r e t ec o s i n et r a n s f o r m a t i o n ,d c t ) 将滤波器输出变 换到倒谱域: 河南大学硕士研究生学位论文第17 页 c t2 善- 。g c l ,c 。s c 七c 一圭,丢, k :。,2 ,p c 。= i o g ( 1 ) c o s 【七( 一专) 鲁】 ,= ik = l 7p ( 2 6 2 ) 其中p 为m f c c 参数的阶数,取p = 1 2 , c 。) 捌九j 2 即为所求的m f c c 参数。为体现 语音的动态特性,在语音特征中加入了一阶差分倒谱,其计算方法如下式所示: c ,( 朋) = 眈h ( 朋) l m 尸 其中下标l 与1 k 表示第1 与1 k 帧,m 表示第m 维。 ( 2 6 3 ) m f c c 参数计算的要点是将线性功率谱s ( n ) 转换成为m e l 频率下的功率谱,这需 要在计算之前先在语音的频谱范围内设置若干个带通滤波器h m ( n ) ,m = 0 m 1 , n = o ,譬1 。m 为滤波器个数,n 为一帧语音信号的点数。每个滤波器具有三角形 特性( 见上图) ,其中心频率为f m ,它们在m e l 频率轴上是均匀分布的。在线性频率 上,当m 较小时相邻的f m 间隔很小,随着m 的增加相邻的f m 间隔逐渐 拉开。m e l 频率和线性频率的转换关系如下式。 或是 m e l ( d 2 2 5 9 5 宰l 0 9 1 0 ( 1 + 7 0 0 ) 4 m e i ( f ) = 11 2 5 木i n ( 1 + 7 0 0 ) 其中实际频彩的单位为h z 。 ( 2 6 4 ) ( 2 6 5 ) 第18 页河南大学硕士研究生学位论文 图2 - 6 线性频翠对应于m e l 频率的变化曲线 2 6 3m e l 倒谱参数的计算方法 1 、首先确定每一帧语音采样序列的点数。本系统取n = 2 5 6 点。对每帧序列s ( n ) 进行 预加重处理后再经过离散f f t 变换,取模的平方得到离散功率谱s ( n ) 。 2 、计算s ( n ) 通过各h m ( n ) 后所得的功率值。即计算s ( n ) 和h m ( n ) 在各离散频率点上乘 积之和,得到m 个参数p 。,m = o ,m 一1 。 3 、计算p m 的自然对数。得到l m ,m = o ,m 一1 4 、对l o ,l m 1 计算其离散余弦变换,得到c m ,m 号0 ,一。m ,l 。 5 、舍去代表直流成分的c 。,取c i ,c k 作为m f c c 参数。本文k = 1 2 。 河南大学硕士研究生学位论文第19 页 图2 7 带噪语音的m f c c 系数 2 7 噪声参数的估计 图2 8 纯净语音的m f c c 系数 噪声来源于实际的应用环境,因而其特性变化无穷。噪声可以是加性的,也可以 是非加性的。考虑到加性噪声更普遍且易于分析问题,并且对于非加性噪声,有些可 以通过变换转变为加性噪声,例如,乘积性噪声或卷积性噪声可以通过同态变换而成 为加性噪声。加性噪声大致可分为周期性噪声、冲激噪声、宽带噪声和语音干扰。 第2 0 页河南大学硕士研究生学位论文 2 7 1 噪声特性1 8 】 l 、周期性噪声 周期性噪声的特点是有许多离散的窄谱峰,它往往来源于发动机等周期运转的机 械。如5 0 或6 0 h z 交流声会弓l 起周期性噪声。周期性噪声引起的问题可以通过功率谱发 现,并通过滤波或变换技术将其太掉。 2 、冲激噪声 冲激噪声表现为时域波形中突然出现的窄脉冲,它通常是放电的结果。消除这种 噪声,可以根据含噪语音信号幅度的平均值确定阈值。当信号幅度超过这一阈值时, 判为冲激噪声,然后进行消除。 3 、宽带噪声 宽带噪声的来源很多,热噪声、气流( 如风、呼吸等) 噪声及各种随机噪声源,量 化噪声也可视为宽带噪声。由于宽带噪声与语音信号在时域和频域上完全重叠,因而 消除它最为困难。这种噪声只有在语音间歇期才单独存在。对于平稳的宽带噪声,通 常可以认为是白色高斯噪声。不具有白色频谱的噪声,可以先进行白化处理。对于非 平稳的宽带噪声,情况就更为复杂一些。 4 、语音干扰 人耳可以在两个人以上讲话环境中分辨出所需要的声音,这种分辨能力来源于人 的双耳输入效应,称为“鸡尾酒会效应”。 2 7 2 噪声参数估计方法 在进行端点检测之后,我们就可对噪声参数进行估计。由于待检测的噪声参数盯2 是未知的,因此设待估计的参数集合为: 河南大学硕士研究生学位论文第2 1 页 秒= 仃2 ) 与参数有关的条件似然函数为: ( 2 7 1 ) m = ( 寿儿x p - 专否( 仇) 2 ( 2 - 7 2 ) 由皇堕旦叫盟:o :可以求得盯2 的极大似然估计: d 盯 = 专( 门。) 2k _ l ,2 n 即可得到噪声参数。 ( 2 7 - 3 ) 第2 2 页河南大学硕士研究生学位论文 第三章神经网络 神经网络技术是廿世纪末迅速发展起来的一门新技术。它具有良好的非线性映射 能力、自学习适应能力和并行处理能力,为解决未知不确定非线性系统的建模和控制 问题提供了新的思路。 人工神经网络【1 9 】( a r t i f i c i a ln e u r a ln e t w o r k s ) 即神经网络洲e u r a ln e t 、v o r k ) ,是一门 边缘性交叉学科,是人脑及其活动的一个理论化的数学模型,着眼于人脑的微观网络 结构,通过大量的神经元的高度复杂连接,是一个大规模的非线性自适应系统。神经 网络采用由底到顶的方法,通过自学习、自组织以及非线性动力学形成的并行分布方 式,来处理难于语言化的模式信息。 3 1 神经元 人工神经元( 以下简称为神经元) 是高度简化了的生物神经元模型,它从工程实现 的角度去模拟生物神经元的结构和功能。它是在现代神经科学研究的基础上提出的, 反映了人脑功能的基本特性。它并不是人脑的真实描写,而是人脑的某种抽象、简化 和模拟。网络的信息处理由神经元之间的相互作用来实现,知识与信息的存储表现为 网络元件互联间的物理联系,网络的学习和识别决定于神经元联结权系数的动态演化 过程。神经元是神经网络的基本处理单元,它一般是多输入单输出的非线性器件,其 结构模型如图所示,这是人们在对生物神经元的主要功能和特性进行抽象的基础上得 到的简化的生物神经元数学模型。 用y 。表示该神经元所获得的输入信号的累积效果,为简便起见,称之为该神经元 河南大学硕士研究生学位论文第2 3 页 的网络输入: y t = x ,w ,一口 ( 3 一l - 1 ) 关于输入,输出函数,即神经元的响应函数,根据其要求和特点的不同,可以有 各种形式,其中基本的有两种:阶

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论