(电路与系统专业论文)基于车载数字对讲机的语音降噪技术研究.pdf_第1页
(电路与系统专业论文)基于车载数字对讲机的语音降噪技术研究.pdf_第2页
(电路与系统专业论文)基于车载数字对讲机的语音降噪技术研究.pdf_第3页
(电路与系统专业论文)基于车载数字对讲机的语音降噪技术研究.pdf_第4页
(电路与系统专业论文)基于车载数字对讲机的语音降噪技术研究.pdf_第5页
已阅读5页,还剩71页未读 继续免费阅读

(电路与系统专业论文)基于车载数字对讲机的语音降噪技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士学位论文 m a s t e r st h e s i s 摘要 数字对讲机( d w t ) 是对讲机的发展趋势,它可以为用户提供更优质的无线 话音通信。随着汽车和车载机的普及,带数字对讲功能的车载机的应用前景非常广 泛。语音通信时在车载终端部分要完成语音数据的采集,预处理,压缩编码等任务。 由于无线语音通信时,语音数据在采集和传输过程中都会受到各种环境噪声、电噪 声干扰,成为被噪声污染的带噪语音,严重影响语音的声学特征及模型参数,从而 对无线语音的回放产生严重影响。因此,? 研究语音降噪技术对于提高无线通信质量 有着重要意义。 。 本文应某公司研制带语音通信功能的车载机的需求,首先创新性地提出了利用 3 s 一体化车载终端的g p r s 业务实现即时语音通信的车载数字对讲机的概念,针对 应用环境提出了实现高质量语音通信所存在的问题;然后结合应用背景阐述了对讲 机和语音去噪技术的发展动态,根据设备的应用环境详细分析了语音信号和噪声信 号的时频特征,借助语音生成模型建立了带噪语音生成和预处理模型,为在噪声环 境中准确提取语音特征参数做准备;重点对语音短时分析技术,基音周期估计方法 和语音增强技术进行了深入研究。考虑到硬件资源有限,具体研究并用c 程序实现 了基于短时自相关函数的基音周期估计;讨论了非参数法中原理简单、运算量小的 谱减法与自适应对消法,同时研究了利用前沿的小波变换去除语音噪声的算法。针 对这三种去噪算法存在的不足,提出了改进方法,最后对原方法及相应的改进方法 仿真验证和对比分析。 仿真结果表明,改进的自适应对消法解决了多通道问题,能精简硬件结构,提 出的新的l m s 变步长算法能加快滤波器权系数的调整,提高了信噪比;改进的谱减 法能减弱音乐噪声,大大提高信噪比;提出的小波域多阈值谱减法要优于单独的小 波阈值去噪方法,虽然信噪比没有单独的谱减法高,但是增强后的语音听觉舒适度 和可懂度都更好,语谱图在三者中最清晰。 关键词:短视分析;语音去噪;谱相减;自适应对消;小波变换 a b s t r a c t d i g i t a l 、a l l ( i e t a l k i ei st h ed e v e l o p m e n tt r e n do fm ew d 虹e - t a l 虹e i tc a i lp r o v i d e u s e r s 、) i ,i t hm o r eh i 曲一q 砌时丽r e l e s sv o i c ec o n u n u i l i c a t i o n s 舡m e v e l l i c l e sa i l d v e t l i c l e m ou r i t e dt e m l i n a l sa r eg e t t i n gm o r ea n dm o r ep o p u l a r , m ev e l l i c l e - m o u n t e d t e m l i n a lt 1 1 a th a sa i l 硫e 印h o n ec a l li l l u s t r a t eag o o dp r o s p e c to fa p p l i c a t i o n i tm 璐t c o m p l e t ed a t ac o l l e c t i o n ,p r e p r o c e s s i n g ,c o d i n ga i l do t l l e rt a s l 【so fm es p e e c hs i g n a la t t 1 1 es e n d i n ge n do ft h ev e l l i c l e m o u n t e dt e n l l i n a ld u r i n gt h es p e e c hc o m m u i l i c a t i o n s h l t l l e 谢r e l e s ss p e e c hc o m m 砌c a t i o n , m ec l e a i ls p e e c hs i g n a l sa r e 舶q u e n t l yd i s n 曲e d b y v a r i o l l se n v i r o n m e n t a l 砸b i e n tn o i s e sa n di 绯i m a le l e 曲沁a ln o i s e sd 谢n gm ep r o c e s s o fa c q u i s i t o n a i l dt r a n s m i s s i o n t h e s en o i s e ss t i d n g l yi n n u e n c em ea c o u s t i c c h a r a c t e r i s t i c sa n dt h em o d e lp a r a m e t e r s ,m e n ,t l l ew i r e l e s ss p e e c hv o i c ep l a y b a c kt l a _ v e as e r i o u si m p a c t n l e r e f o r e ,i ti sg r e a ts i g l l i f i c a n tt os t u d yo nn o i s er e d u c t i o nt e c h i l i q u e s o fn o i s ys p e e c hs i g r l a l sf o ri m p r o v i i l gt h eq u a l 时o f 而r e l e s sc o m n m l l i c a t i o n b yt 1 1 er e q u e s to fd e v e l o p i n gav e b 【i c l e - m o u i l t e dt e 咖m a l 谢t hi i l t e r p h o n ef o ra c o m p a l l y , i nt l l i st l l e s i s ,i tf i r s t l yp r o p o s e da n 血o v a t i v cc o n c e p to fv e m c l e m o u m e d d i g i t a lw a l k i e t a l k i e w i mm a k i n gi l s eo fm eg p r ss e n ,i c co ft h e3 si n t e r g r a t e d v e l l i c l e m o 锄t e dt e r m i n a lt 0a c k e v ei n s t a n ts p e e c hc o m m u i l i c a t i o n t h e ni na j l l l s i o nt o m e 印p l i c a t i o ne r i r o m n e n t ,i tp u t sf o n ) i ,a r dm ee x i s t i i l gp r o b l e m si l lr e a l i z i n gs p e e c h c o i l u i l u i l i c a t i o n 丽mg o o dq u a l i t y a r e 刑a r dc o m b i n e d 丽mb a c k g r o u l l d ,i ti n 仃o d u c e s m e1 1 i s t o 珂a i l dt l l ei l y n 撇i cd e v e l o p m e n to f w 2 l l 姑e - t “虹ea i l dt h et e c l 1 i q u e so fn o i s e r e d u “o no fn o i s ys p e e c hs i 驴a l s d e t a i l e d l ya n a l y s e d 也e t i l e d o m a i l l a i l d 毹q u e n c y d o m a i np r o p e i r t i e so ft l l es p e e c hs i 伊a l sa n d t h en o i s es i 弘a l sa c c o r d i i l gt 0m e e n v 砷n m e mo ft h ed e v i c e s 印p l i c a t i o n b ym e a i l so ft 1 1 es p e e c hg e n e r a t i o nm o d e l , w e b u i l dan o i s ys p e e c hg e n e m t i o nm o d e la n dap r e t r e a 缸i l e n tm o d e lt om a l 【er e a d yf o r g e t t i n ga c c u r a t ep a r a m e t e r so ft l l es o u n dm o d e li i le n v i r d i 埘e n tw i t hk g h 1 e v e l so f 锄b i e n tn o i s e i i lt b i sp a p e ri th 弱ai n - d e p t hs t u d yo n 缸l es h o r t - 钯n na n a l y s i st e c h n i q u e o ft 1 1 e s p e e c hs i 凹a l s ,p i t c h e s t i m a t i o nm e t l l o d s觚ds p e e c he 1 1 l l a n c e m e n t t e c h i l i q u e s c o i l s i d e r i n gh a r d 、v a r er e s o u c e sa r el i n m l t e d ,i ti ss p e c i f i ct od 0r e s e a r c ho n t l l ep i t c he s 血a t i o nm e t h o d sb a s e do ns h o r t t e ms e l f 二r e l a t e dm n c t i o na i l dp r o g r a m m e d 而mc ;d i s c i i s st l l es i l b t r a 而o ns p e c t 兀i i i la n da d a p t i v ec a i l c e l l a t i o nw i l i c hh a v es i i i l p l e p r i n c i p l e sa 1 1 ds m a l l 锄o u i l to fo p e r a t o r si i li l o n - p 黝e t e rm e m o d s a tt h es a m et i m e , l t d o e sr e s e a r c ho nt h ea j g o r i m mw h i c hu s e dt h ec u t t i i l g - e d g ew a v e l e t t m s f o n i lt 0 r e m o v et 1 1 en o i s e a i 血n ga t p r o b l e r n se x i s t i n gi nm r e ea l g o r i t h r n s ,s u c ha 1 9 0 m s a r e 硕士学镶论文 氧茧s 善琶趸s 丁珏s l s 洳幽v 醴钕蛐如i s 迤e 溉。诚每错螂妇黜诚蠡g o 漱,谯c 却v e d a l t o r i l m sa r es i m u l a t c dw i t l lm a t l a ba n dc o m p a r a t i v et o 钍1 eo r i g i n m s s 主m i l l a 蛀o nr e s 心t ss h o w 也a 主:像ei m p r o v e da d 嚣p t i 、,ee 皴c e l l 越i o 珏s o l v e s 饿e 翻袷b l e mo f 搬落t i 。e 赫蝴媳l 幻懿瓣a m l 遗et h e 确m o 撼羚o f 蕊融暇1 w a 辩, a n dt 沁擞1 w 己m s v 槲d b l es t e pa l g o d m mc a ns p e e du p 妇a d j u s t m e n to ft h ef i l t e rw e i g b t st oi i l c r e a s o s n r :i l 鞋翟蛩v e l 鞋e 选o t 搪鞭玟糊i c t i o 鑫s 鹳c 1 谴燃e a 鼗硎l l c e 瞎i 建l 塔i e a | l 垮i s e 童oi 轻啜l e 蹒e s n rg r e a t l y ;m u l t i m r e s h o l ds p e 蝴s u b 饿娟o ni nw a v e l e t d o m a mi ss u p e r i o rt o 协嚣 n o i s er e d 聪t i o l lw i ms e p a r 覆t e dw a v e l c t 锄n s f o 舰a n d s p e c t n l ms u b 娥l c t i o n锨 蛾谤建c y 淞鑫遗。蹦臻。咄镀玲s 淑西藏w 氛跫g 礅穗囊鞠毯翡疆越重主一鼬霉建o l d s p e c 协】ms u b t r a c t i o ni nw a v e i e t d o m a i nw a ss m a l l e r 戗l a n t h a tt h r o u g hs p e c t r u m s 畦删。建,k a 霸鞋g 也ev o i ,落e 凳髓e ri s 燃。怼c o 嫩憝f 妇b 埝麟d 也em so f 镪e f o 凇e ri s 蛾陋e r 饿姒t 1 1 el 蛾e r t ks p e c t r o 舒a 黻o f 埴l es p e e c hs i 辨a l 谢mi m p v e d w 鼍e l e ti l e n o i s i n gi s 戗l cm o s tc l e a ri na l lo fn l r e e k e yw o r d s :s h o n - t e 蝴a i l a l y s i s ;s p e e c hs i 印a ld e n o i s e ;s p e c n 面s u b t r a c t i o n ; 戳b 西v e 糊o i s ec 摊端e l l 蠢。鼓;w 胬陀l e t 镑擞掇溉 硕士学位论文 m a s t e r st h e s i s 华中师范大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作 所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明。本声明的法律结果由本人承担。 作者签名:蓬,务中 日期:”哆年占月知日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权华中师范大学可以将本学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时授权 中国科学技术信息研究所将本学位论文收录到中国学位论文全文数据库,并通 过网络向社会公众提供信息服务。 储魏耋,枷孕 日期砂庐多月加日 导师签名: 日期:年月 日 本人已经认真阅读“c a l i s 高校学位论文全文数据库发布章程 ,同意将本人的 学位论文提交“c a l i s 高校学位论文全文数据库 中全文发布,并可按“章程 中 的规定享受相关权益。回意途塞握变压溢卮;旦坐生;旦二生;旦三生筮查! 作者签名:羲篇吁 日期:矽。扩年r 月o 日 导师签名: 日期:年月 硕士学位论文 m a s t e r st h e s i s 第l 章绪论 1 1 课题的应用背景和研究意义 。 语音信号作为信息的最普遍、最直接的表达方式使得语音处理技术【l 】在许多领 域具有广泛的应用前景,例如固定电话,移动电话,对讲机,录音笔,助听器,汽 车电子产品等。统计表明,国外每台汽车采用汽车电子产品的平均费用2 0 0 0 年已 达到2 0 0 0 美元。2 0 0 5 年中国的汽车需求超过了5 5 0 万辆,销售额达1 0 0 0 0 亿元, 以汽车电子产品占2 5 到3 0 计算,2 0 0 5 年汽车电子产品的规模约为2 5 0 0 亿至 3 0 0 0 亿元。带数字对讲集群通信【2 】功能的多功能车载机作为汽车电子产品之一,正 逐渐成为市场的新宠。车载数字对讲功能是指将采集到的模拟语音数据通过数字 化、预处理、压缩编码后再通过无线通信模块的g p r s 业务上传到监控中心,再由 监控中心下行转发到对方车载终端,对方收到数据包后解包重组,解码后经过d a 转换送入语音通道进行放音。它是一种基于g p r s 无线网络和i n t e m e t 的通信技术。 用车载数字对讲机进行语音通信,数据传输过程如图1 1 。 监括! 中一d 图1 1 数字对讲过程 这与专门的数字对讲机传输原理上有差别。目前市面上销售的数字对讲机【2 j 有 摩托罗拉i 2 0 5 、i 3 0 5 i 3 1 5 手持对讲机、中兴通讯开发的基于c d m a 的数字集群 通信系统g o t a 。它们都是基于数字模拟混合设计,采用的是数字调制技术【4 j 要 考虑邻道干扰,占用频带资源等问题,而且功能单一。带数字对讲功能的车载机的 应用前景非常广泛,可以用于车辆调度管理,车辆监控,事故现场求助和救援等领 域,装有该设备的车辆之间能进行低成本语音通信。 鉴于车载数字对讲机的应用场合是嘈杂的户外环境,有各种各样的背景噪声干 扰,在录音及传输过程中还会有来自设备内部电噪声、自然环境噪声干扰。背景噪 硕士学位论文 m a s t e r st h e s l s 声能破坏语音信号原有的声学特征及模型参数,因此减弱了不同语音问的差别,使 语音质量下降,可懂度降低。通常为减少存储和传输的数据量,语音数据采集完后 还要进行压缩编码。这时要先提取语音数据的特征参数,压缩编码后才能在带宽有 限的无线网络上进行传输。低速率语音编码,特别是参数编码( 如声码器) ,也遇到 类似问题。语音生成模型是低速率编码的基础。当语音受到混杂的背景噪声严重干 扰时,提取的语音模型参数将很不准确,解码重建语音的质量将急剧恶化,甚至变 得完全不可懂。只有正确提取到语音模型参数才可能实现高效编码。因此,语音的 降噪处理是实现多功能车载机中语音通信功能的一个重点研究课题。它对于语音通 话质量,语音编码和语音识别都有重要意义。 1 2 对讲机的发展现状 对讲机,按国家的有关标准应称为超短波调频无线电话机,人们通常将功率小、 体积小的手持式的无线电话机叫做“对讲机”。对讲机不但可以作为集群通信的终端 设备,还可以是移动通信中的一种专业无线通信工具。无线电对讲机【2 j 是最早被人 类使用的无线移动通信设备。从1 9 4 8 年摩托罗拉推出全球第一台商用无线对讲机, 到9 0 年代欧美国家相继开放家用对讲机市场,对讲机广泛使用在公共安全、交通 运输、建筑、制造、水利、电力、林业、旅游、酒店、服务等各种领域。 对讲机一般分为专业和家用两种类型【4 】。所谓专业对讲机【2 】,是指运用在专门 领域内( 例如公安、铁路、军队等) 的对讲机。由于应用环境的相对恶劣,专业对讲 机在使用温度范围、频率稳定度、抗干扰性等电性能指标方面有更严格的要求,并 且结构要经过雨水、灰尘、盐雾、撞击等方面的可靠性测试。它的发射功率【4 】一般 为1 5 w ,直接传输距离为3 8 公里。若经过中转台( 基站) 系统,则可达数十公里。 专业对讲机的使用要经过政府有关部门的批准。 家用对讲机【2 】【3 】无论指标和使用都比较宽松,它的发射功率小于0 5 w ,属于免 执照使用。我国也在2 0 0 1 年1 1 月为家用对讲机开放了4 0 9 m h z 的频点资源。在对 讲机的使用操作中,到今天还主要使用p 1 v r ( p u s h t o t a l k ) 键,即双向同频单工工作 方式。同频单工的优点是【4 l :第一,设备相对简单。第二,组网方便,在场强覆盖 范围内,本系统的任意两个移动台都可使用同一频率通话,且第三方也能插入通话。 第三,收发信机交替工作,所以不会造成发射对接收的干扰。第四,不发话时发射 机不工作,功耗小。用一句话来说,对讲机就是一按即通,迅速沟通。 对讲机的通信方式和其它通信方式有不同的特点【2 】:即时沟通、经济实用、运 营成本低、不耗费通话费用、节约使用方便,同时还具有组呼通播、系统呼叫、机 2 硕士学位论文 h l a s t e r st h e s i s 密呼叫等功能。在处理紧急突发事件中,在进行调度指挥中其作用是其它通信工具 所不能比拟的。这使得即使在公众g s m 、c d m a 数字移动通信特别发达的今天, 对讲机的使用市场几十年来仍然能得到稳定的发展。 虽然,国产对讲机的发展【2 】有二十多年的历史,但是真正的发展却是这几年, 充足的资金投入,先进的生产设备和积极的市场、营销体制,都给多年来不变的市 场格局发生了较大的变化和调整。深圳的科立讯、好易通、三威是规模较大的国有 对讲机制造商。可以预见,在未来的市场中,国产品牌的对讲机将占有越来越大的 市场。带数字对讲功能的车载机可以用于车辆调度管理,车辆监控,事故现场求助 和救援等领域。装有该设备的车辆之间能进行即时的低成本语音通信。 1 3 语音降噪技术的发展现状 有关抗噪声技术的研究,在国内外作为语音信号处理非常重要的研究课题,已 经有了大量的研究工作,取得了丰富的研究成果。这些成果大体分为三类。一类是 采用语音增强算法,提高语音前端预处理的抗噪声能力,提高输入信号的信噪比。 第二类方法是寻找稳健的耐噪声的语音特征参数。例如,m a n s o u r 和j 啪g 提出了 短时修正的相干系数【5 j ( s h o n - 1 h em o d i f i e dc o h e r e i l c ec o e m c i e n t ,简称为s m c ) 作为语音特征参数;a t a l 【6 】提出了倒谱系数零均值算法,该算法在消除麦克风和信 道失真方面取得了较好的效果;c 砌s o 【7 j 提出了基于子空间投影的特征参数。第三类 方法是基于模型参数适应化的噪声补偿算、法【引,例如,针对加性噪声的h m m 合成 法、p a r a l l e lm o d e lc o m b i n a t i o n 法和针对乘性噪声的s t o c h a s t i cm a _ t c l l i n g 法以及两方 面都考虑的方法等。这类方法可以引入语音和噪声的统计知识,提出具有一定环境 稳健性的处理算法,并且在应用中基本与语音模型的短时平稳的假设一致。但是, 目前的补偿算法通常只考虑到噪声环境是平稳的,在低信噪比语音以及非平稳噪声 环境中的效果并不理想。 对于专门的语音增强技术也相继有各种方法推出。语音增强早期方法大体上有 四类:噪声对消法、谐波增强方法、基于语音生成模型的增强算法和基于短时谱估 计的算法等等,这几种算法是七十年代末八十年代初的研究成果。但是它们要求环 境比较稳定,即噪声近似平稳的,有一些先验概率,因此效果并不是太好。 九十年代中后期,通讯特别是移动通讯的飞速发展对语音增强研究提供了十分 现实的动力。由于对增强效果仍然不够满意,人们利用已往语音增强研究的成果, 又进行了新的尝试。如对带噪语音信号进行小波变换【1 0 】,或进行卡维南洛维变换【l 2 1 , 还有目前在信号处理领域讨论极为活跃的神经元网络理论【l 】【9 】在语音增强研究上也 硕士学位论文 m a s t e r st h e s i s 得以应用。这种方法是通过很多次的学习,可以在不必知道噪声特性的状况下达到 较好的效果,这种方法在语音识别系统应用较为广泛。建立在隐m a r k o v 模型【1 2 儿1 3 j 理论( h m m ) 上的语音增强研究获得了一定的成功,为统计方法中最典型的方法,但 该方法对于低信噪比情况下的语音增强,困难很大。此外采用麦克风阵列【9 】【2 i 】输入 多个带噪混合信号,再通过计算进行滤波求语音信号也受到了很大的重视。但是对 于麦克风阵列要在除录音以外的地方隐蔽安装一个或多个麦克风以获取噪音。多输 入设置有时是不可能的,难以达到语音增强对放置位置和输入信号类型的要求,此 外多个输入常常意味着语音增强计算量比单信号输入时大。多数时候我们希望一个 较简单的语音增强系统以便和其它语音处理系统结合使用。 最近十几年中,随着数字信号处理技术的发展,使得语音增强的实时实现成为 可能。语音增强是一门跨学科的技术,不但与语音信号数字处理理论有关,而且涉 及到人的听觉感知和语音学。再则,噪声来源众多,随应用场合而异,它们的特性 也各不相同。即使在实验室仿真条件下,也难以找到一种通用的语音增强算法适应 于各种噪声环境。必须针对不同噪声,采取不同的语音增强对策。 1 4 论文主要工作和内容安排 本课题的研究目的是能够在高速、低成本的单片机中实现高质量的即时语音通 信。主要任务是根据应用环境,结合硬件资源提出有效算法在资源有限的发送端能 够估计出语音的基音周期,去除噪声并增强有用语音信号。论文在选择语音预处理 算法、消噪算法时综合考虑了模块程序的整体复杂程度、算法整体运算量、硬件资 源利用程度等因素。本文主要工作包含以下几点内容: 1 ) 分析课题的应用背景,阐述研究对象的发展现状及相关理论基础; 2 ) 对带噪语音基音周期估计的自相关估计方法进行研究,并对该方法进行m a t l a b 仿真和c 程序实现; 3 ) 对非参数降噪法中的谱减法和自适应对消法进行分析、改进、m a t l a b 仿真; 4 ) 分析利用小波变换的语音增强方法、存在的问题、对其改进,并进行仿真验证; 5 ) 用m a t l a b 绘制语谱图,比较几种降噪方法的效果,求得语音数据用各种方法去 噪前后的信噪比,比较几种算法性能的优劣。 本文结构如下:第一章主要阐述课题的应用背景和研究意义、所研究技术的发 展现状等;第二章介绍语音信息处理的预备知识,包括语音信号生成模型、语音特 性和噪声特性、语音信号的数字化和预处理技术、语音降噪方法概述;第三章分析 基音周期估计的必要性、算法具体分析、仿真和c 程序实现;第四章对两种非参数 4 硕士学位论文 m a s t e r st h e s i s 方法的语音去噪技术进行详细分析、改进和仿真;第五章分析用小波变换的方法去 除语音噪声所存在的问题并进行适当改进和仿真;第六章介绍语音质量评价方法, 根据语谱图原理在m a t l a b 中绘制语谱图,最后用语谱图和信噪比对各种降噪方法进 行客观评价;第七章是对全文工作进行总结,并对以后的工作作出展望。 硕士学位论文 m a s t e r st h e s i s 第2 章语音降噪技术理论基础 在研究语音降噪处理技术之前,需要了解语音信号的一些重要特点,如语音的 发声原理及在此基础上建立的语音产生模型,语音信号的特点,噪声信号的特点等。 通过观察大量语音频谱,知道语音信号的频谱分量主要集中在3 0 0 3 4 0 0 h z 范围 内。如果用一个防混叠的带通滤波器将此范围的语音频谱分量取出,然后按照8 乜 采样频率对语音信号进行采样,就可以得到离散时域的数字语音信号,再在数字域 内对数字信号进行一系列预处理。 2 1 语音信号生成模型 2 1 1 语音信号生成模型 语音是由于空气气流通过声门时冲击声带产生物理振动而产生的,喉部的声带 既是阀门,又是振动部件。气流通过声带后进入声道,声道是一个传输通道。气流 以周期性气流脉冲串的形式冲击声带,气流脉冲引起声带振动的振动周期就是“基 音周期”,用t p 表示,倒数是“基音频率”用f p 表示,后面还会详细介绍语音信号的 该特征量。气流通过声道传输进入嘴,完成气流的向外辐射。嘴的张开形状会影响 语音频谱的形状,但是其作用较声带和声道次要一点。通过以上发声过程,可知语 音生成系统主要分为三个部分叫1 9 】:声带以下部分即气流产生部分叫做“声门系统 也是“激励系统”:中间传输通道是“声道系统”;语音从嘴唇辐射出去部分叫做“辐射 系统”。 音素【1 9 1 【2 0 】是语音发音的最小单位,它包括元音和辅音。元音构成音节的主干, 不管从长度还是从能量来看,元音在音节中都占主要部分。所有元音都是浊音。辅 音主要出现在音节的前端或后端或前后两端。辅音有清音和浊音,发清音时,声带 不振动;发浊音时,声带振动,但通路受阻。浊音激励源是位于声门处的准周期激 励脉冲序列,清音的激励源则是位于声道某个收缩区的空气湍流( 类似于白噪声) 。 人类的声道和鼻道都可以看作是非均匀截面的声道管,声道管的谐振频率称为共振 峰频率,简称共振峰。 下面讨论语音生成系统三个部分的数学模型【2 们,然后可以导出语音生成模型。 1 ) 激励源模型 激励源模型一般分成浊音激励和清音激励来讨论。发浊音时声带不断产生张合 将产生间歇的脉冲波,波形类似于斜三角形的脉冲。它的数学表达式如下: 6 硕士学位论文 m a s t e r st h e s i s 咖,= 降搿篇t 鬻+ m ( 2 - 1 ) 单个斜三角形波 g ( 加南 ( 2 - 2 其中,c 为常数。斜三角波波形串可视为加权了的单位脉冲串激励上述单个三角模 型的结果。单位脉冲串及幅值因子可表示为: 酢) = 南 ( 2 - 3 ) 整个浊音激励源表示为: u ( z ) = g ( z ) e ( z ) = l 4 ( 1 _ p 村z 一1 ) 2 卜z 一1 ( 2 - 4 ) 也就是说浊音激励源是一个以基音周期为周期的斜三角脉冲串。 一般把清音激励模拟成随机白噪声。实际情况中一般使用均值为0 、方差为1 , 并在时间域和幅值上为白色分布的序列。 2 ) 声道模型 关于声道部分的数学模型,有多种观点,目前最常用的有两种建模方法。一是 把声道视为由多个等长的不同截面积的管子串联而成的系统。按此观点推导出的叫 “声管模型”。另一个是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。声 道模型的传递函数用v ( z ) 来表示,在大多数情况下它是一个全极点函数: 1 y ( z ) = 了二一, = 1 ,q 为实数 ( 2 5 ) q z 一 , f ;o 3 ) 辐射模型 辐射模型类似一阶高通滤波器。通常用一个一阶差分方程近似凰z ) = 尉0 ) ( 1 一z - i ) , r ( n ) 是信号的自相关函数。它所导致的是输出信号高频提升每倍频6 d b 左右。在语 音信号预处理技术中常用的预加重技术也是用了该方法。 根据以上分析得到产生语音信号的大体框图【1 】【1 9 1 如图2 1 所示。 7 硕士学位论文 m a s t e r st h e s i s i 誉。懈器h 声谴瞪 数 i 瓣h 毳嬲 - 一 一声辫卜叫辐嚣型 发生器广 广 浊,清音选择 a j 音 激励源模型 “ 声道模型 辐射模型 图2 1 语音信号产生的离散时域模型 其中a v ,a u 为浊音与清音的声音强度。在这个模型中除了g ( z ) 和r ( z ) 会保持不变 外,f o ,a v ,a u ,清浊音开关的位置及模型中的参数q 口。都是随时间变化的。 但是又由于声带振动的惯性使得这些参数的变化速度受到限制。对于声道参数,在 1 0 3 0 m s 内认为是不变的,因此短时分析帧长一般可以取2 0 m s 。然而实际情况中, 激励源不可能将语音激励与噪声激励截然分开,所以得到激励源的改进模型为图 2 2 : 激励源模型 图2 2 激励源的修正模型 2 1 2 语音特性分析 1 ) 语音的时域特性 语音可以直接用它的时间波形来表示根据是时间波形可以看出语音信号的一 些重要特性。图2 3 是“车载数字对讲”语音段的时间波形。这段语音录音时用8 z 采样率、单声道、8 位量化、p c m 格式,保存成波形文件。由于时间轴压缩很大, 所以无法辨别语音波形的细节,但是可以看到语音能量的起伏及各个音素的起始位 8 硕士学位论文 m a s t e r st h e s i s 置, 图2 3 一段语音信号的时域波形 为了分辨语音时域上的细节,我们可以将时间轴拉宽。首先看一个字的发音范 围内的波形,比如“车”字的波形,如图2 4 ,从该图可以看出信号具有较强的时变 特性。 图2 - 4 “车”的发音前后波形 再在更精细的时间内观察语音波形,图2 5 是2 0 0 m s 内字间过渡的语音波形, 2 6 是2 0 m s 内的波形。观察得到在字间的过度期,有些呈现周期性,有些又具有噪 声特性,而且语音和噪声的特征也在不断变化中。但是信号的特征随时间的变化是 比较缓慢的,从图2 6 可以看出在2 0 m s 内波形具有典型的周期性和稳定性。利用 这个特征,我们可以截取短时的语音信号进行频谱分析。 图2 52 0 0 m s 的过渡语音波形 9 硕士学位论文 m a s t e r st h e s i s 图2 - 62 0 m s 内语音波形 2 ) 语音的频域特性 由时域特性分析可知在短时内语音特性是稳定的,所以可以考虑对长段连续语 音进行短时分帧,再针对每个短时帧进行研究。至于具体的加窗分帧过程在后面的 预处理中详细介绍。为区分语音与噪音,先还是作全范围内的频谱分析。实验时在 嘈杂的马路环境中录音“车载数字对讲”的频谱图为图2 7 ,从图中我们可以看到带 噪语音的有用信号主要集中在低频且较为平稳,而噪音信号在高频部分非常突出, 非平稳。 一。”“。i ? | j 。? i j 。”“”7 。二1 慷由l n a 喃i “。1 :? 7 1 。1 。? f ”? ”j l 。t 1 “:。! 。j 。? 。7 羧 。山剧0 - 札。山扯。- 盥山k h 。k 蠹凰k 一。 一呵w 7 呷1 ”甲阿1 r 一一审唧一 图2 7 带噪语音的频谱图 2 2 车载机应用环境的噪音特性和分类 噪声来源取决于实际的应用环境,是变化无穷的。噪声有加性的也有非加性的。 由于傅立叶变换等具有线性特性,所以对加性噪声要比非加性噪声好处理点,所以 有些非加性噪声可以通过某些变换转变为加性噪声,如乘性噪声可以通过同态变换 转成加性。而且乘性噪声与信号、电路密切相关,主要受信号电平、元件非线性等 因素影响,可以通过合理的电路设计和信号电平的调整等方法解决。加性噪声独立 l o 硕士学位论文 m a s t e r st h e s i s 于语音信号,始终干扰有用信号。 车载数字对讲机的应用环境是嘈杂的马路、停车场、车站等地方。这些地方都 有很强的背景噪声,例如机动车上人群的噪杂说话声,过往车辆的机械噪声,设备 所在的车辆在起步、刹车时的混合噪声,车辆运行中机械运转时的噪声等。这些噪 音与纯净语音都是相互独立的,可以视为加性噪声。所以本文仅讨论加性噪声的特 性和消除方法。加性噪声一般有以下几类【5 j 【6 j : 1 周期性噪声,主要来源于周期性运转的机械。特点是有许多离散的线谱。这种噪 声可以用梳状滤波器给予抑制。然而实际环境中产生的周期性噪声并非简单的只含 线谱分量,而是由许多窄谱带组成并且是时变的,与语音信号频谱重叠,必须采用 自适应滤波的方法才可能自动识别和区分语音与噪音分量。 2 脉冲噪声,来源于爆炸,撞击和放电等;特点是在时域中出现窄脉冲,脉冲幅 度大,周期是随机的。它占据较宽频带,频率越高时,频谱成分就越小,对低频影 响较大。对这种噪声的消除可以在时域内进行,步骤如下:根据带噪语音信号幅度 的平均值确定阈值 信号幅度超过该阈值则判断为脉冲噪声。对它进行适当衰 减或完全消除或根据相邻信号样值通过内插的方法将脉冲噪声在时域上进行平滑。 3 带通噪音,是有色噪音,在某个频带上能量突然增加,可以通过用带通滤波器 有效去除。 4 宽带白色噪音,来源非常广泛有气流、热噪声、各种随机噪声源,频域上不存 在信号能量突然变大的频带,时域上也找不到信号能量突然变大的时间段。标准白 噪声的均值为0 ,方差为常数。这种噪音只有在语音间歇期才单独存在。对于平稳 的宽带噪声通常认为是白色高斯噪声,不具有白色频谱的噪声可以先进行白化处 理。宽带噪声与语音信号在时域和频域上完全重叠,消除最困难,原因如下:白噪 音的频带很宽,几乎占据了整个频域,与语音信号相互重叠,且没有规律性,无法 区分哪些部分是语音信号,哪些部分是白噪音:语音信号是一种准周期性的随机信 号,特别对于语音信号中的清音来讲,其性质同白噪音差不多,很难区分;不少滤 波器的滤波参数往往在设计的时候定下来了,不能根据语音信号和白噪音的具体特 点调整滤波参数,影响了降噪效果。 2 3 带噪语音的预处理与重要参数 由于语音信号的准平稳性,语音信号的一系列处理算法和技术都建立在“短时” 基础上,一般这个时间是1 0 3 0 m s 。最重要的语音信号短时特征和短时参数包括“短 时能量”、“短时过零率”、“短时相关函数”、“短时频谱”等。为实现各种具体应用, 硕士学位论文 m a s t e r st h e s i s 这里介绍一些经常使用的短时分析技术。 2 3 1 预滤波,采样,量化 在将语音进行数字化前必须先进行防混叠滤波【2 1 1 ,也叫预滤波,目的有两个: ( 1 ) 滤除频域分量中频率高于2 的所有信号成分或噪声防止混叠干扰;( 2 ) 抑 制5 0 h z 的电源干扰。这样预滤波器必须是带通滤波器,上下截止频率分别为f h 和 f l 。根据奈奎斯特采样定理,采样率必须要大于或等于信号带宽的2 倍。又根据对 语音信号的频域特点分析语音信号的频谱分量主要集中在3 0 0 3 4 0 0 h z 范围内。所 以采样率一般可以设置为妒8 z ,采用8 位量化由刖d 转换器变换为二进制码。 经过这个过程后模拟的语音就转换为数字语音。语音从采集到压缩编码流程如图 2 - 8 : r 厂_ 广 广_ 厂 广 l 录音 = = 剖预滤波 剖采样 = 剖量化 刮去噪 刮压缩编码目 图2 8 语音预处理流程 2 3 2 数字语音的加窗处理 在进行进一步处理时都是按帧从数据区取出语音数据,处理完后再取出下一 帧,如此反复直到所有语音数据处理完。在取数据时,前一帧和后一帧的交叠称为 帧移【12 1 。帧移和帧长的比值一般取为o 1 2 。已取出的一帧语音s ( n ) 要经过加窗处 理。加窗实质上是用了一个短时窗w ( n ) 截取信号。由数字信号处理理论可知,两个 信号时域相乘相当于在频域相卷积。矩形窗频谱旁瓣成分大,滚降衰减速度慢,加 这种窗将影响语音信号的高频部分如频谱泄露使得语音信号能量泄露到其他频率 处。为避免这些影响,通常采用高频分量幅度较小的窗形,如b a m m i n g 窗。矩形窗 与哈明窗的表达式为( 其中n 代表帧长) : 矩形窗: 喇= :,藏 协6 , 哈明窗:以玎) :jn 5 4 + n 6 4 c o s 备_ 1 弦】, 玎= 0 ( n - 1 ) ( 2 7 ) io ,行为其他 图2 9 ( a ) 中画出了l = 4 0 的哈明窗和矩形窗的时域波形和对数幅频特性,由频域 对称性可以只看左半部分,如图2 9 ( b ) 。从图中可以看出哈明窗的第一个零值频 率位置比矩形窗要大1 倍左右,即带宽约增加1 倍,同时其带外衰减也比矩形窗大 得多。因此,对语音信号的时域分析来说,窗口的形状是重要的。选用不同的窗口, 1 2 硕士学位论文 m a s t e r st h e s i s 将使能量的平均结果不同,矩形窗的谱平滑较好,但波形细节丢失;而哈明窗则刚 好相反。因此,在语音的时域处理方法中,一般选择矩形窗,而在语音的频域处理 方法中,一般选择哈明窗。人耳只对信号的幅度敏感,而对信号的相位几乎没有分 辨能力,所以相频特性一般不用考虑。 ( a ) ( b ) 图2 9 矩形窗和哈明窗及其幅频特性曲线 不论什么样的窗口,窗的长度对于能否反映语音信号的时域特征变化,将起决 定作用。如果l 很大,它等效于很窄的低通滤波器。此时语音信号的时域特征随时 间的变化很小,不能反映语音信号的特征变化,波形的变化细节就看不出来;反之, l 太小时,滤波器的带通变宽,语音信号的时域特征随时间有急剧的变化,不能得 到平滑的特征变化。因此,窗口长度选择应合适。这里窗口的长与短,都是相对于 语音信号的基音周期而言的。通常认为在一个语音帧内,应含有1 7 个基音周期。 2 3 :3 重要的语音短时参数 1 ) 短时自相关函数剐( n ) 的非零区间n _ 0 ( n 一1 ) ,s 、舡) 的自相关函数称为语音信 号s ( n ) 的短时自相关函数,用心( ,) 表示,计算表达式为: ,一,一l 凡( ,) = s ,( 刀) + ,) = ( 刀) + ,) ( 2 - 8 ) 疗= - 一= 0 可以证明r ( ,) 有如下性质【2 0 】【2 l l : ( 1 ) 如果序列是周期的( 设周

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论