(物理电子学专业论文)基于分形理论的语音增强.pdf_第1页
(物理电子学专业论文)基于分形理论的语音增强.pdf_第2页
(物理电子学专业论文)基于分形理论的语音增强.pdf_第3页
(物理电子学专业论文)基于分形理论的语音增强.pdf_第4页
(物理电子学专业论文)基于分形理论的语音增强.pdf_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

河北工业大学硕上学位论文 基于分形理论的语音增强 摘要 实际环境中,语音总会受到外界环境噪声的干扰,这些噪声包括从周围环境、传输媒 质巾引入的噪声、电器设备的噪声以及其他说话人干扰等等。环境噪声会影响语音质量, 严重的情况下语音将完全淹没到噪声中,无法分辨。语音质量的下降会使许多语音处理系 统性能急剧恶化。因此采用涪音增强技术进行预处理,将有效的改善系统性能。 研究表明,语音信号是一个复杂的非线性过程,这使得基于线性系统理论发展起来的 传统语音处理技术性能难以迸一步提高。近年来发展起来并逐步完善的非线性科学为语音 处理技术的发展带来了新的生机。将分形理论用于改善语音处理技术也越柬越受到重视。 本文就是利用语音的分形特性及其在语音增强中的应用进行了分析研究。 文中首先简要介绍了人体的发音器官、发音机理、汉语语音信号的基本特性以及现有 语音处理技术中的基本方法和存在缺陷。 其次,在分析了小波变换对语音信号的时频表示上的优势后,针对不同的噪声类型对 小波变换在语音去噪增强中的应用进行了研究。实验结果表明,小波变换能够有效的在各 种噪声类型和信噪比条件下去除噪声。 最后,在分析了语音信号与随机噪声在不同尺度上进行小波变换时其传递特性不同的 特征表现及其特点之后,本文给出了一种新的基于分形维数的语音信号增强方法。该方 法根据带噪语音信号及子波重构之后的分形维数不同对语音信号的小波变换系数作不同 的闽值处理,既抑制了噪卢,又减少了语音段的信息的损失,提高了信噪比。本文基于 m a t l a b 进行了仿真实验,对纯净语音信号分别先加宽带噪声和脉冲噪声,在进行增强处理, 实验结果表明,该算法是一种有效的语音增强方法。 关键词:语音增强,非线性理论,小波变换,分形理论 摧于分形理论的语音增强 s p e e c he n h a c e n e n tb a s e do n t h ef r a c t a lt h e o r y a b s t r a c t w h a ti sa c t u a l l yh a p p e n i n g ,s p e e c hs i g n a li sa l w a y si n t e r f e r e db ys o m en o i s ew h i c hi sf r o m s u r r o u n d i n ga r c h i t e c t u r e s ,t r a n s m i s s i o nm e d i a ,e l e c t r i c a lf a c i l i t i e sa n ds oo n s o m e t i m e s ,t h e s u r r o u n d i n gn o i s ee f f e c t ss oh e a v i l yt h a tt h es p e e c hs i g n a lc a nn o tb ed i s t i n g u i s h e d t h el o w e r q u a l i t yo fs p e e c hs i g n a lr e s u l t si ns e r i o u sd e t e r i o r a t i o no fs p e e c hs i g n a lp r o c e s s i n gs y s t e m n o w p r e t r e a t m e n to fs p e e c hs i g n a lp l a y sa nv e r yi m p o r t a n tr o l et oi m p r o v et h ep e r f o r m a n c eo fs y s t e m w em a i n l yd i s c u s s e dt h ea p p l i c a t i o no f f r a c t a lm e t h o dd e n o i s i n go f s p e e c hs i g n a l a sam u l t i d i s c i p l i n a r ya n dc o m p r e h e n s i v es u b j e c t ,d i g i t a ls p e e c hs i g n a lp r o c e s s i n gh a s b e c o m em o r ea n dm o r ei m p o r t a n tn o w a d a y s d u et ot h en o n l i n e a rc h a r a c t e r i s t i c so fs p e e c h s i g n a l s ,t h ep e r f o m a a n c eo ft r a d i t i o n a lt e c h n i q u e sb a s e do nl i n e a rm e t h o d sc a n n o tb ei m p r o v e d a n ym o r e t h el a t e l yd e v e l o p e da n da m e l i o r a t e dn o n l i n e a rt h e o r i e sh a v eb r o u g h tn e wd i r e c t i o n s f o rs p e e c hs i g n a lp r o c e s s i n g ,a tt h es a m et i m e ,p e o p l eh a v es h o w e dg r e a tc o n c e r nf o rt h e a p p l i c a t i o n so ff r a c t a lm e t h o di ns p e e c hp r o c e s s i n g , i nt h i s p a p e r ,w ef i r s t l yi n t r o d u c e dt h eb a s i cp r o p e r t i e so fs p e e c ho r g a n s ,p r o n o u n c i n g m e c h a n i s ma n dt h ec h a r a c t e r i s t i c so fm a n d a r i ns p e e c hs i g n a l i na d d i t i o n ,w ei n t r o d u c e dt h e b a s i ct e c h n i q u e si ns p e e c ha n a l y s i sa n dp r o c e s s i n ga n dt h e i rs h o r t c o m i n g sf o rc o m p a r i s o n s e c o n d l y , a f t e ra n a l y z i n g t h ea d v a n t a g eo fw a v e l e ts h o w e di nt h e t i m e f r e q u e n c y r e p r e s e n t a t i o no fs p e e c hs i g n a l ,w ed i s c u s s e dt h ea p p l i c a t i o no fw a v e l e ti ns p e e c hd e - n o i s i n gt o d i f f e r e n tk i n d so fn o i s e t h ee x p e r i m e n t a lr e s u l t ss h o w e dt h a tw a v e l e tt r a n s f o r mc a ne f f e c t i v e l y e l i m i n a t ed i f f e r e n tn o i s eu n d e rd i f f e r e n ts n r a tl a s t ,a f t e ra n a l y z i n gt h et r a n s f e rc h a r a c t e r i s t i co ft h es p e e c hs i g n a la n dt h er a n d o mn o i s e o nw a v e l e tt r a n s f o r mi nm u l t i r e s o l u t i o n ,an o v e ld e n o i s i n ga l g o r i t h mb a s e do nf r a c t a l d i m e n s i o na n dw a v e l e tt h r e s h o l di sp r e s e n t e d t h ec h a r a c t e r sa n df f a c t a ld i m e n s i o n so f n o i s ea n d s i g n a lo nw a v e l e tt r a n s f o r ma r ea n a l y z e d c o m p a r e dw i t ho t h e r s ,t h ep r o c e s s e so f t h ea l g o r i t h m h a ss o m ea d v a n t a g e ss u c ha se f f i c i e n t l yc o n s t r u c t i n g ,e f f e c t i v e l yw i p i n go f f t h en o i s e ,e a s i l y p r o g r a m m i n g e x a m p l e sp r o v et h a tt h ea l g o r i t h mh a s b e t t e rd e - n o s i n gp e r f o r m a n c e k e y w o r d s :s p e e c hd e - n o i s i n g ,n o n l i n e a rt h e o r y , w a v e l e tt r a n s f o r m ,f r a c t a lt h e o r y 河北丁业大学硕士学位论文 第一章绪论 语音是语言的声学表现,是人类交流信息晟自然、最有效、最方便的手段。数字语音处理技术使人 门能更加有效地产生、传输、存储和获取语音信息,这对丁社会发展具有十分重要的意义。 语音信号处理( 简称为语音处理) 是以语音学和数字信号处理为基础咖形成的一个综合性学科,主 要包括语音识别、语音台成、语音+ 编码和说话人识别等。语音处理一直是数字信号处理技术发展的重要 推动力。许多新方法的提出,首先是在语音处理中获得成功,然后才推广到其它领域的。语音识别和语 音编码算法的复杂性和实时处理的需要也是高速信号处理器的诞生和发展重要推动力之一。语音信号处 理之所以能够k 期地、深深地吸引广大学者,除了它的实用性之外,另一个重要原冈是,它始终与当时 信息科学中最活跃的前沿科学保持密切的联系,并鼠一起发展。例如模糊集理论、神经网络理论、分形 理论、小波理论和时频分布理论是当前非常热fj 的研究领域,这些研究领域常常不可避免地把语音处理 任务作为一个应削实例,而语音处理研究者也常常从这些领域的研究进展中找到突破口,使语音处理技 术取得突破性进展。 1 1 数字语音处理 数字信号处理涉及的内容蛙如何获得信号的离散表不,以及在处理这一离散表示时所用数值方法的 理论、设计和实现。数字信号处理与语言学( 包括语音学和语义学) 相结合,产生了语言信号处理这个 新的边缘学科。如果这个结合的目的是为了进一步研究语言学中的问题,那就是“实验语言学”;如果这 个结合的目的是为了解决人i 人之间,人与机器之问的信息交换的问题,那就可称为“语言信号处 理”旧】。 数字信号处理技术在语音问题中的应川主要在三个方面:语音信号的表示方法,语音信号数字处理 的各种方法和技术,以及数字语音处理理论和技术在各个领域中的实际应用。这些内容涉及到数字信号 处理、计算机科学、模式识别、语音学、生理学、心理学等学科,还涉及到通信和电子系统、信号和信 启、处理系统等具体麻用领域pj 。 语音信号如何表示是一个最基本的问题,对信号进行各种方法的分析,从而得出信号中携有信息的 各种参数。这样,可以得出信号中所含信息的较全面的了解,从而可以灵活地使用它们米达到人们的目 的。在选择语音信号表示方法时,有两点是要着重考虑的:第,要保存语音信号中的消息内容;第二, 表示形式要便于传输和存储,便于变换和处理,且在传输、存储、变换和处理后不至丁严重损害消息内 容。语音信号的表示及其变换和处理斤的结果,应使其中所含的有用信息更易丁被人们或被计算机所提 取。 语音的数字表示方法可分为两类,一类是波形表示,另一类是参数表示。波形表示方法是大家所熟 悉的,它主要是采刚取样和量化的方法将模拟语音信号变换成数字语音信号,后者保存n 前者的波形。 参数表示力法的基础是把语音信号看成是某个模犁在一定激励作用下产生的输出,而激励源和模型的参 数便作为语音信号的表示。显然,这些参数应根据语音信号计算出米【4 。 在语音波形内,可以观察剑激励源的不同产生i i 盾度值等的变化,这些变化十分明显,所以要求能削 简单的时域处理技术剥这样的信号特征,例如强度、激励模式、基音甚至声道参数( 如共振峰频率) 等 等能给以有效的描述。咀时域量度米捕述语音信号的一些例子包括有平均过零率、能量和自相关函数。 频谱( 包括随机过群信号的功率谱) 是一种最重要的信号参数,频域分析中,快速博里叶变换等方法可 暴丁分形理论的语音增愠 以得到信弓的各频率分量的幅值和相角,从而可以得出语言信号的基频及其变化、共振峰频率、带宽和 幅值及其变化等信息。甚至可以由此幽山皓谱图,共振峰图,声调语谱图等。除了频谱之外,利用信号 分析技术还可以得到被分析信号的其它参数,诸如倒谱参数、信号模型参数、自回归( a r ) 模型信号 参数等等1 ”。 数字语音处理有着广泛的应刚领域,其中最重要的包括语音压缩、语音合成、语音识别、说话人识 别以及语音增强。这些方面的研究成果己深入到通信、办公室自动化、远炬离控制、邮件分检、声控电 话拨号、计算机语音应答以及机器人听觉和口语系统等实用系统中。现简单介绍如r 0 1 。 1 语音通信方面 这个问题比较简单,因为讲话的是人,听话的也姓人。所以没有必要涉及到人是怎样通过神经言语 中枢去组织词句,开动发音器官去产生语音信号的问题;也没有必要涉及到人是怎样通过神经听觉中枢 女从声音中提取信息和理解含义等问题;而只需研究语音信号在讲者至听者之间的信息传输问题就可以 了。这纯粹是物理声学与数字信号处理相结合,将语音信号加以压缩和适当的编码,来降低传输码率; 以及将语音信号增强击除荐种干扰,来提高信噪比。虽然,问题的性质相对来说比较简单,但并不意味 着没有斟难。冈为现代科学技术不断提出新的要求,要达到这些要求也需要不断创新。例如传输码率问 题过去提山压缩到24 k b p s ( 千比特秒) 就很满意了。但目前已要求设计低码率的声码器,其码率 约为1 0 0 2 0 0 b p s ( 比特秒) 左右。义如信噪比的提高问题,原来能做到6 d b 就可以使用了,但目前 已要求提高到十几d b 。 由丁不牵涉到心理学问题,所以从原理 讲,压缩法无非是变换与反变换。也就是说人将语音信号 进行某种变换,然后将变换的结果进行编码后送给信道机在线路上传输给对方。接收方则完全按发送端 相反的过程进彳解码和反变换,恢复成语音声波。当然,所选择的变换方法必须是尽可能少的丢失语音 信息和尽可能低的码率。目前,较广泛使用的变换有傅立叶变换、参数模型变换和同态变换。按此三种 变换所研制出米的声码器分别为:通道声码器( 相位声码器) 、线性预测声码器和同态( 倒谱) 声码器。 虽然变换与反变换纯属丁数字信号处理问题,但是由于处理的对象是语音信号。所咀语音学的知识仍然 是必备的。至于语音增强问题,一般有了类力法:。是传统的方法( 如相关法、减谱法等) ,另一类是 自适应技术的应用( 如白适应步长选择等) ,最后一类是所谓顽健性( r o b u s t ) 方法。语音增强处理中, 要更多地用到一些信息论的基础知识。 2 语言合成方面 这里有较简单的和较复杂的两类内容,一类可以称为语音台成,另一类可以称为语言合成。语音合 成是向计算机送入按帧分析的语音参数( 如l 所述的谱参数、线性预测参数、倒谐参数等) ,用合成程 序( 与分析的变换相反的反变换) 来合成n l 语音。当然,如果为了提高合成的语音的质鳖,合成所用的 模犁应该与入的发音器官生理模型在功能f :尽可能一致。为此需要研究发音器官的模型。通常,人的 发音器官可以从两种观点来进行观察与模仿一是共振峰模型,另一是卢管网络模型。前者是将声道看 成多个( 一般认为3 5 个) 串联或并联的谐振器构成的谐振腔;后者则认为卢道是由不同截面的多节均 匀声管串联而成的四端网络,从网络观点,该删络是一斜格网络。所以,为了提高合成的语音质量,要 设法求出共振峰参数( 包括共振峰频率,共振峰带宽,共振峰幅值) 。或者,设法求出斜格模跫的反剩 系数( 可以证明,这些反射系数与前述的线陆预测模型参数之间有唯一的对应关系) 。此外,为了提高 语音合成的质量,还要研究发音的激励信号声门信号的描述和口鼻的辐射影响等问题。语言台成则 除了向机器送入语音参数之外,还要送入语言的各种规则,机器按照规则合成出符合语法句法规j j 【i j 的语 言。世界上每种语言都有各自的不同的规则,例如汉语是卢调语言,声调起着重要的辨意作爿j 。所以, 汉语应该削多少种声调以及什么情况h 产牛何种变调的问题就是一类重要的规则。所以,如果说语音合 成只是注重丁合成语言的可懂度和清晰度,那么语言台成则更注重于合成语言的自然度或人的听觉的感 知度。如果将人一t 一听觉系统作为一个反馈途径,使语言合成器按语言规则不断修改合成的语言,那么就 河北工业人学 f 负士学位论文 会更接近丁人的讲培的功能。 3 语言识别与理解 语言识别与理解是从声波中提取出信息,并理解该言语的语义的过程,这个过程包含了几个层次( 当 然,这些层次之间有时是存在反馈的) 。识别与理解就是指的这整个过程,两者是分不开的。例如,殴 别是声学参数这一层次上的人t 理解,也就是机器能理解收到的声波属于什么语音,是谁发出的声音。 另一方面,我们又可以说理解是最后层次语义层次上的识别,也就是机器能识别出收到的言语的语 义。这两个层次之间还有词、旬两个层次,各层次的识别都是由机器按照该层次的规则来实现的。在人 工智能学中广泛使用;消息源这个词,就是指这些层次的规则或知识。在声学参数层次上,由于实际_ l = | j 途的不同,又可分为:讲话者识别( 包括讲话者确认和讲话者辨认两种) 和语言识别( 包括孤立词或连 续语言,有限词汇或无限词汇,单讲者、多讲者或与讲者无关等多种) 两大类由于对人的大脑的言语 和听说的整个机理的研究尚未十分透彻一l 述这种按层次来识别与理解语言的战略还有待于进一步研究 和确认。 按照语言信号处理上述三大类型的内容,简要地说明它的用途如下。 1 语音通信方面 ( 1 、信道机。从性能来讲,应包括调制解调器、信道传输的幅值与相位的均衡器、同步与控制器、 消噪器、纠错码器等。从信道性质米讲有有线信道、短波信道、微波信道等。 f 2 1 波形编码器。有如r 几种语音编码器:脉冲编码调制( p c m ) 、自适应预测编码器( a p c ) 、 白适戍变换编码器( a t c ) 、子带编码器( s b c ) 、多路搜索编码器( m p s c ) 以及时域偕波编码器( t d h s ) 、 基带编码器、欠量量化编码器( v q c ) 等。虽然直接用语音信号进行编码,其压缩的能力比抽取参 数然后编码的声码器要差一些。但是般说,其语音质量比后者要好一些。 f 3 )声码器。按所用的声学参数来分,有通道式声码器( 相位声码器) 、线性预测声码器、共振峰 声码器、i s 态声码器以及分段声码器等。按传输码率来分,有高速( 1 6k b p s ) 、中速( 2 4 k b p s 左右) 、 低速( 8 0 0b p s 左) 和超低速( 1 5 0b p s 左右) 等。目前最常用的是中速2 4k b p s 的线性预测声码器, 止在推广的有低速8 0 0b p s 的共振峰声码器,正在开发的则是超低速的1 5 0b p s 的双音分段声码器。 2 语言合成方面 ( 1 ) 语音合成器。多为有限词汇量的人上合成器,可以用f 自动报时、自动报警、电话号码的自 动报号、儿童语音玩具、计算机或其它设备的应答器、语言学习机等n f 2 ) 语言合成器。除了j 二述应用之外,它还是研究语言学的手段,是实验语音学的研究丁具。 3 语言识别与理解方面 f 1 1 说话人识别。讲话者核实器,用于让实讲话人是否某人。还可用于声纹破案、保险柜开锁、银 行取款、语音门卫以及用于辨认讲话者的讲话者辨别器等。 ( 2 1 语言识别。这里可以有二种闶素的组合,一种是被识别的语言是孤立的或连续的;二是被识别 的语言是有限词汇的或无限词汇的;三是被识别的语言是指定讲话者的或是多讲话者的。其中,晟简单 的是单讲话者、孤立词和有限词汇的识别系统。最复杂的当然是多讲话者、连续语言和无限词汇的氓别 系统。语言识别器可以用于许多场合,如计算机人工键盘( 自然语言代替键鼎输入) 、电话自动查号、 传达各种军事命令、自动购票系统、声控打印机等。识别与合成结合起来,还可以做成各种简单的不需 理解语义的声控廊答系统。 f 3 1 语言理解。汉语是一种单音节字组成词,然后再组成句子的语言结构系统。所以,同音字( 一 个音1 ,可有多个含义) 的识别已牵涉到词法规则,因此汉语同音字识别已是理解的范畴。如汉语声控打 字机等功能都应属于语言理解系统。至于词以上的理解系统的功能是更高级的,如专家系统( 如看病的 医生专家系统等) 、语言翻译机、智能计算机( 第五代计算机) 、智能机器人等。 摧于分形理论的语音增强 1 2 存在问题和发展方向 语音信号处理是近年来研究。直很活跃的。科领域,已经在数字语音通信、话音识别、话音存贮和 保密通信等许多方面取得了重要成果”j 。在我国,语音技术的研究起步较晚,投人的研究单位和人员也 较少。同时语音技术的产品较少,技术性能较差,功能较简单,应用领域也比较少。究其原囚还在丁不 能找到鲁棒的参数建模方法p 】。 实际环境中,语音总会受到外界环境噪声的干扰,这些噪声包括从周同环境、传输媒质中引入的噪 声、电器设备的噪声以及其他说话人干扰等等。环境噪声会影响语音质量,严重的情况下语音将完全淹 没到噪声中,无法分辨。语音质量的f 降会使许多语音处理系统性能急剧恶化。比如,语音识别系统在 实验室环境中可取得相当好的效果,但在噪声环境中,尤其是在强噪声环境中使用时,系统的识别率将 受到严重影响。低速语音编码同样会受到噪声的影响。由丁语音生成模犁是低速率语音编码的基础,当 语音受到噪_ :占下扰时,提取的模型参数将很不准确,重建的语音质量急剧恶化。此时采用语音增强技术 进行预处理,将有效的改善系统性能。 语音增强的目的是从带嵘语音中提取尽可能纯净的原始语音。但是由于噪声信号都是随机产生的, 完全消噪儿乎不可能。阏此实际语音增强的目标主要有:改进语音质量,消除背景噪声,使听者乐卜接 受,不感到疲倦;提高语音可懂度,方便i 昕者理解。到目前为l t ,还没有哪种语音增强技术可以同时很 好地改善语音质量和可懂度这两个指标。衡量语音增强效果分别涉及语音的主观度草和客观度量两个不 同方面,有主观测试和客观测试两种方法可用。主观测试方法包括平均意见得分( m o s ) 、判断韵字测 试( d r t ) 和y - 0 断满意度测量( d a m ) 等。客观测试方法主要根据增强语音的时域波形或频域语谱,给山 客观的数值度量。 传统的语音信号处理都是基于线性系统理论上,语音信号被分割为一些短段再加以处理,每一段视 为确定的平稳信号,经过处理以后产生一个新的依赖于时间的序列而用于描述语音信号【9j 。语音信号是 一种非平稳信号,诸如声门、声道以及辐射等影响因素很多,使得语音信号分析处理较为困难。基于线 性系统理论发展起来的传统语音识别技术性能难以进一步提高,非特定人连续话音识别、高质量低速率 语音编码等问题尚朱吲满解决。近年来随着非线性理论的发展,小波、混沌、分形和神经网络等理论体 系逐渐成熟,为研究语音信号非线性特性提供了理论基础,在语音识别以及语音编码方面取得了许多突 破。 近年来迅速兴起的小波变换,由于其对时变信号处理具有的独特优点,引起了人们的兴趣。小波变 换可以在对数尺度r 把信号分解为相同宽度的频率通道组,用常q 滤波来分析信号。这种特性十分类 似于耳蜗对声音信号的感知,囡此将其应用于语音信号处理时,主要是对听觉模型的模仿,所选用的子 波波形为听觉卯圆窗模型。同时小波的多分辨率分解能够将信号在不同的尺度上展开,因而具有对信号 按频带进行处理的能力,这对丁分析特定频段上信号的细节,建立表征识别故障信号的特征以及清除信 号的干扰与噪声等方面具有十分重要的意义,在语音的分析、编码、合成及检测诸方面均有良好的应用 前景。 逐渐应用丁语音处理中的非线性理论中,除了较为流行的隐马尔柯夫过程和人t 神经网络外,近年 来发展迅猛的混沌、分形理论也被逐步引入语音处理当中。用声学和空气动力学理论分析,语音不仪有 声r 的非线性振动过程,受舌、声道形状的变化,语音信号( 特别是摩擦音、爆破音等) 会在声道边界 层产生涡流,并最终形成湍流。发其它音时,声门喷出的气流中也有湍流存在,斯湍流本身就是一种混 沌。分形可以有效地为自然现象中的混沌建模,那么分形应该是一个为语音建模的理想方法。语音时域 波形具有自相似性,且表现出周期性和随机性,这也是语音信号具有分形结构的表现。因此,将分形理 论用于改善语音处理技术也越来越受到重视j 。 4 河北工业大学硕士学位论文 1 3 本文的研究内容 随着语音技术研究的深八知实际应崩的增多,各种语音处理技术都面| 台i 着进一步提高性能的问题。 语音增强是其中关键技术之一。本文所涉及的内容紧紧崮绕若非线性理论在语音处理技术申的所取得的 成果和发展,除了对较为流行的小波变换在辞 音增强中的应用研究外,文中还着重论述厂近年来发展迅 猛的分形理论在语音增强中的应用。髯章内容介绍如f : 第一章简要阐述了数字语音处理的概念和意义,综述r 国内外语音投术发展概况及其存在的问题和 非线性理论在语音信号处理中的发展趋势,亓简要介绍了本文的士要研究内容。 第二章简要介绍了人体的发音器官、发音机理、汉语语音信号的基本特性以及现有语音处理技术中 的基本方法和存在敞陷。 第二章在分析丁语音信号所具有的分形特性和小波变换对语音信号的时频表示上的优势的基础上 通过具体的实验分析丁小浊重构在语音增强技术上的优缺点, 第四章在计算了汉语语音信号的分形维数后,给出了分形理论在语音处理中的一种新的语音增强方 法。最后,我们避一步通过实验针列不同的噪声类型列语音售号进行了去噪增强处理。得出实验结论。 验证了此种方法的有效性。 第再章在对全文所做r 作进行r 豆结。 第再章在对全文所做r 作进行r 豆结。 基十分形理论的语音增强 第二章语音信号的基本理论和数字处理方法 语音既具有生理特性也具有声学特性,语音的发音过程与语音学、语言学甚至心理学都有很密切的 关系。因此要对语音信号进行分析和研究,就需要对人类的语言器官、发音过程以及语音信号的特征有 个人致的了解。本章所介绍的就是人类语音发音的生理过程和语音信号的声学特性。而语音处理技术 自本世纪五十年代起步发展至今已四十多年,取得了很大的进步,有关的研究愈来愈受剑人t 1 】的重视, 已形成了相对成熟和稳定的一整套处理方法。传统的语音信号处理是基于确定性线性系统理论上的短时 分析技术,其本身崮有的缺陷限制了它们在语音信号处理中的进一步发展。本文中所采用的分形和小波 去噪方法是基丁不确定性非线性系统理论的,所以本章概括介绍了各种现有语音技术的原理与缺陷,以 对本文所采刷方法较其它方法的优势加以区别。 2 1 语音信号基础理论概述 人类的发声器官是多年演化而形成的,语言也历经由简单到复杂、由复杂到简单的变化。世界上各 个民族发展过程不同,形成了多种完全不同的语系。但这里所谓不同是指语声不同、结构不同,而语言 的发卢机理和一些基本特性还都是共同的。弄清数字语音处理的基本原理,必须了解发音的生理结构与 过程,以及语音的特性。这一节中讲述的就是语音信号的一些基本原理p j 。 2 1 1 语音发音机理 人的发音器官包括肺、气管、喉( 包括声带) 、咽、鼻和口。这些器官共同形成形状复杂的管道。 声道起始丁声带的开口( 即声r j 处) 而终止于嘴唇,随着发出语音的不同其形状是变化的部分称为声j j 。 产生语音的能量,来源于正常呼吸时肺部呼出的稳定气流,喉部的声带既是一个阀门x 是一个振动 部件。在说话的时候,声门处气流冲击声带产生振动,然斤通过声道响应变成语音。由于发不同音时, 声道的形状不同,所以听到不同的语音。此外,还有两种发音方法: 种是声门打开,但声道的某处收紧而形成湍流。这种高速湍流导致 发出摩擦音。另一种是声门打开,但声道的某处完全阻塞,然后突然 放出气流;这种高压气流导致发出阻塞音。这种发音方法不取决丁声 带的活动。这就是人类利i = | j 发音器官发出语音的概况。下面讲一下发 音器官的生理解剖。如剀2 1 所示。 “肺”是胸腔内的一团有弹性的海绵物质。肺内可容纳约三夸脱( 约 合3 3 升的容积) 的空气。正常呼气时大约能呼出1 2 夸脱的空气, 在讲话时肺的气压比大气压人白分之一左右。不讲活时,呼和吸的时 间人致相等。在讲话时,可使呼气时间达到整个呼吸周期的8 5 左右。 讲话时腹肌收缩使横膈麒向一l ,挤出肺里的空气。气管是由一些环状 软。骨组成的。它将来自肺部的空气送到喉部。 “喉”是由许多软骨组成的。突在颈部的喉结成为甲状软骨,喉 l 自2l 炎发啻嚣囊 的顶部是梨状的会厌软骨。对发音影响最大的是从喉结至杓状软骨之 间的韧带褶称为声带。卢带的k 度仅约1 0 4 m m ,比指甲还小。呼吸时左右两声带打开讲话时则 合拢起来。两卢带之间的部何称为卢门,声门的开启和关c j j 是由两个杓状软骨控制的,它使声门呈 形 状开启或关闭。讲话时声带合拢因而受声门f 气流的冲击而张开;但由声带韧性迅速地闭合,随后又张 6 河北工业人学砸士学位论文 开与闭合。声带每开启和闭台一次的时间就是音调周期,一般为8 m s ,它的倒数称为音调频率,一般是 1 2 5 h z 。这个频率是一般成年男子的发音频率。通常,音调频率取决于声带的大小、厚薄、松紧程度以 及声门上下之间的气压差效应等。其范同约为6 0 - 3 5 0 h z 左右( 约两个半八度音左右) 。但就某个人来说 此范围约为一个半八度音左右。音调频率范罔随发音人的性别、年龄以及具体情况而定。老年男性偏低, 小孩和青年女一性偏高。同时对声带活动观察可发现,音调越高,卢带被拉的越长、越紧、越薄;卢门形 状变得越细跃。 “声道”是由咽腔、鼻脖和口腔三个空气腔组成,起于卢门,止于两唇。一般成年人声道的长度大约 是1 7 0 r a m 左右,最人截面积可达2 0 c m 2 左右。鼻腔从咽腔一直延伸到鼻孔,约1 0 1 r a m 长,鼻中隔贯 穿全长并将它分隔为两个部分。发鼻化语音,软腭下垂:如果它上抬,则完全由口腔发出语音了。口腔 是声道最重要的部分它的大小和形状可以通过调整舌、膳、齿和颚来改变。舌最活跃:它的尖部、边 缘部、中央部都能分别自由活动;整个舌体也能上下前后活动。由丁它的重要性,语音的元音的发音就 是以舌的位置米分类的。救唇位于口腔的末端,可活动成展开的( 扁平的) 或圆形的形状,这也是很重 要的。所以,发音方法也标明了是否圆唇的发音。由上述可见,声道是气流白声门声带之后的最重要的、 对发音起决定性作用的器官。但是,如果从声学的观点来看可以把它拉直面完全不影响其声学特性。因 此可以从物理声学的角度来分析它的贡献。 2 1 2 语音发音分类 语音分类的标准主要是发声部位和发声方法f 】“。根据发声方法的不同,任何语言都可以自然地分 为元音和辅音两种音素。长期研究证实,发不同性质的声音时,声道的情况是不同的,大致上分为两种: ( 1 ) 发元音情况。此时声道的口腔稳定为某种形式的谐振腔。由声来的准周期脉冲激励它而产生 响应。 ( 2 ) 发辅音情况。此时又可分为鼻音、阻塞音和摩擦音三种。同时,由于语音是由空气流激励声道 产生的,根据激励渊的不同,可产生浊音和清音这两种不同类型的语音: ( 1 ) 发浊音情况。浊音一般来说男子低,女子高;老人低,小孩高。应该注意的是,浊音不仅包括 所有的元音;也包括浊辅音( 如:汉语中的擦音r ,边音i ,鼻音m ,n 等) 。 ( 2 ) 发清音的情况。清音的激励源是位丁声道的某个收缩区的空气湍流( 类似于噪声) ,此时声带松 弛而不振动,气流通过声门直接进入声道。只有清辅音属于这种情况,汉语中除r n ,n ,l ,r 咀外的声母 也都属丁这种情况。应该指山,这样简单地把激励分为浊青和清音两种情况是有缺陷的,由于不涉及本 文内容在这里不再详述。 2 1 3 语音特性 ( 】) 语音的声学特性 语音既然是人体的发音器官发出来的一种声波,它就和其他各种声音一样,也具有声音的物理属性。 这就是说,每一种声音都具有一定的音色、音调、音强和音长这四种要素。 音色也叫音质,是一种卢音区别于其他声音的基本特性。音调是指声音的高低,音调取决于声波的 频率,而声波频率叉与发音体长短、厚薄以及松紧程度有关。声音的强弱叫做音强,它是由声波振动幅 度决定的。声音的长短叫做音长,它取决丁发音持续时间的k 短。 说话的时候,很自然地一次发出来的、有一个响亮的中心的、听的时候也很自然地感到是一个小的 语音片段的,叫做音扎它是语言的最小使用单位。一个音节可以由一个音素构成,也可以由几个音素 构成。音素是语音的最小单位。语音除了具有上述 勺声音的物理属性外,它还具有另一个重要性质,这 就是语音总是和定的意义相联系,一定的语音要表达一定的思想和意义。因此,语音中所包含的信息 是十分丰富和多种多样的。 ( 2 ) 语音的时间波形特性 语音可以壹接剧它的时间波形来表示。根据时间波形可以看出语音信号的一些重要特征。清音和浊 基十分形理论的语音增强 音这两类音的波形有很大的不同。一般来说,清音的波形类似丁白噪卢,且具有很弱的振幅;而浊音具 有明显的准周期性,并具有较强的振幅。它们的周期对应的频率就是基音频率,即使同是浊音,其基音 频率也是不同的。 就其本性而言,语音波形是日j 间的连续函数。闻此,从一个音剑另个音逐渐过渡时,语音信号的 特性是随时间而变化的。例如,浊音和清音的激励不同,从浊音过渡到清音,相应地要改变激励,语音 信号的幅值随着时间有很碌著的变化。语音信号的这些时变特i 生在波形图中都能够很明显地观察出米。 但是,语音信号的特性随时问的变化是比较缓慢的,大致可以认为在每l o 3 0 m s 短时间间隔内语音信 号的特性基本上是固定小变的,或者说变化是很缓慢的。这一特点是语音数字信号数字处理的一个重要 出发点。 幽22 一段语音信号的时域波形 f i 9 22 as e c t i o no fs p e e c hs i g n a li nl i m ed o m a i n 从剧2 , 2 中无法分辨语音波形的细饥但是可以看到语音能量的起伏,还可以大致分辨出话语中每 一个字( 音节) 在此波形中的位置。为了仔细辨识语音波形,可以把时间轴拉宽。图2 3 其中一段语音 的波形细节。 图23 一段语音信号的时域波彤展开图 f i 9 23ae x p e n d i n gs e c t i o no fs p e e c hs i g n a li nt i m ed o m a i n ( 3 ) 语音的频谱特性 不同语音是由声道的不同形状和尺寸决定的,这就决定r 它们具有不同的频谱特性。语音随着时间 的变化,决定了其频谱也随着时间l m 变化。但由于语音频谱随时间变化是很缓慢的,冈而在一短段时间 内( 所谓一帧) 来观察语音的频谱,可以近似认为是吲定不变的,从中可以找到相麻的频谱信息,这就 是所谓的短时谱。 如前所述,声道可以看成是一根具有菲均匀截面的声管,在发音时起着共鸣器的作_ j 。当声音象上 边讨论的那样产生后就顺着声管传播,声音的频谱形状必定会被声道的选择性所改变。声道具有一组共 振颇率,称为共振频率或简称共振峰。不同的语音对应于组不同的共振峰参数。为了得到高质量的语 ”wtl下tjlt七譬i+i呷 矧飞雌j嚣 一 n静 鍪n礴 崩一 一 攀川州齑 塑州一 塑川型州1;|i 壁州川川l一兰i4 擎 lh二ii|4一 攀州一 |骜一 一 麓一m川0面 缝 川川商 一 ;一 川州r j一渊 。州一 瓿捌矧洲驯梨 河北工业人学硕上学位论文 音,或者说为了精确地描述语音,必须采用尽可能多的共振峰。但在实际应用中,只有头三个共振峰才 是重要的。 由于浊音( 包括所有的元音和浊辅音发浊音情况) 是卢带振动产生的准周期空气脉冲激励形状固定 的声道时形成的,不同的发音,振动频率也不同。从频谱圈上能够很清楚地看 浊音的基音及其谐波频 率,般来说男子低,女子高;老人低,小孩高,并在超过4 k h z 以后迅速下降。具体地说,在0 - 1 5 0 0 h z 之间差不多有1 2 个峰,劂此基音频率大约为1 2 5 h z 。 而清音的谱峰分布是没有明显规律的,也看不山信号的周期性,这些正是清音的特点。一般来说 清音的频谱能量主要集中在高频区域。 2 。2 汉语语音特性 汉语在语音学方面有其特殊的、不同于英语的内容,它与计算机语音技术中的语音分析、语音合成、 语音识别等技术都有密切关系。本节中将讨论的是汉语普通话的音节结构、物理性质和统计特性i i “。 2 2 1 汉语普通话语音 汉语的自然单位是音书,一个汉字就是一个音节。音还由若干音素绢成。音素是不能再分割的语 音的最小单位。汉字的语音音修的基本构成单位是声母加韵母。汉语里也有元音和辅音的不同。不同的 元音是由不同的口腔形状造成的。不同的辅音是由于发音部位和发音方法不同造成的。在普通话中有 i o 个元音和2 2 个辅音。但是,汉语语音的传统的分析法总是把一个汉语音节分为声母和韵母两部分。 声母、韵母是音韵学术语。声母就是一个汉字音节开头的辅音。声母由辅音充当,2 2 个辅音除n g 只能作韵尾外,其余都是声母。有些音节只有韵母,没有卢母,叫做零声母音节。韵母是汉字音节除 了头上的声母p s , :o 的部分。韵母有单元音、双元音、儿个元音或元音带上一个辅音等儿种不同形式。汉 语普通话的元音、辅音如表2 2 和i 表2 3 所示。 表2i 普通话7 b 音表( 按发声部位分类) t a b i e2lv o w e lt a b l ei nm a n d a r i n 表2 2 普通话辅音表 t a b t e 2 2c o n s o n a n tt a b l ei nm a n d a r i n 基十分彤理论的语持增强 汉语语音的 个不同丁其他语言的特征是它具有音调( 即音高或声调) 。声调是个音节在念法上 的高低升降变化。有些音节在词语或句子里失去了原有的声调,念成了一种较轻较短的调子,这叫做轻 声。在汉语皆通话里,哪些音节读轻声是有一些规律的,这里不作更多的介纠了。 2 2 2 汉语语音三要素 我国传统的音韵学对语音的分析,是采用音、韵、涮系统的分析方法。也就是将每个字青分析为声 母和韵母两部分,每个字音义有阴平、 ;平、上声和去声网种音调,所以说字音是由声、韵、调三个因 素构成的。声埘、韵母和声调是汉语语音三要素。 ( 1 ) 声母 声母都是由辅音充当的,但辅音不一定就是声母。汉语普通活中共有2 2 个辅音,其中2 1 个可以作 为声母。由汉语拼音字母表示的声母为b 、p 、m 、f 、d 、t 、n 、l 、g 、k 、h 、j 、a 、x 、z 1 、c h 、s h 、r 、 z 、c 、s 。声母发音时,不颤动卢带的叫清音,颤动声带的,叫浊音。 ( 2 ) 韵博 韵母可以南元音充当,例如汉语普通话中的1 0 个元音,其中9 个可以作为韵母。韵母也可以由复 合元音充当,还可以由元音加上鼻音构成韵母,所以汉语普通话中共有3 9 个韵母,按音素组成的不同 可以分为单韵母、复韵母和鼻韵母三类。由个元音构成的韵母叫单韵母,单韵母包括舌面韵母七个( a 、 o 、e 、u 、d 、e ) ,舌尖韵母两个( 均用字母l 表示) 和卷舌韵母一个( e r ) 。由两个或三个元音充当的韵 母,叫复韵母。复韵母有1 3 个:a i 、e i 、a o 、o h 、i a 、i e 、i a o 、i u 、u a i 、u i 、r i o 、u a 、i u 、f i e 。复韵母中 包禽的各音素之间的关系不是籀单的攒合关系。由元音带上鼻辅音构成的韵母,叫鼻韵母。鼻韵母有 1 6 个:8 1 1 、e l r l 、a n g 、e n g 、o n g 、i a n 、i n 、i a n g 、i n g 、i o n g 、k l a r l 、h v i 、u a n g 、u e n g 、t i a n 、i j na 其中带 前鼻音i q 的,叫前鼻韵母,带斤鼻音n g 的,叫后鼻韵母。 表23 普通话韵母表 t a b l e23r f _ t y m e t a b l ei nm a n d a r i t l ( 3 ) 声调 声调是汉语语音三要素之一。卢调由调类、调值、调号来说明。凋类是声调的种类。普通蒲声调有 四类,这就是阴平、阳平、上卢、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论