(通信与信息系统专业论文)voip系统中语音增强算法的研究与应用.pdf_第1页
(通信与信息系统专业论文)voip系统中语音增强算法的研究与应用.pdf_第2页
(通信与信息系统专业论文)voip系统中语音增强算法的研究与应用.pdf_第3页
(通信与信息系统专业论文)voip系统中语音增强算法的研究与应用.pdf_第4页
(通信与信息系统专业论文)voip系统中语音增强算法的研究与应用.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(通信与信息系统专业论文)voip系统中语音增强算法的研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

独创性声明 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论 本人签名: 处,本人承担一切相关责任。 日期: 逊! :圣:! 兰 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位 本人签名: 导师签名: 适用本授权书。 日期:塑乜:圭:! 兰 日期:j k j 止 摘要 v o i p 系统中语音增强算法的 摘要 随着v o l p 技术在近年来的快速发展,互联网语音通信得到了越 来越多的应用,i p 电话的语音通信质量成为制约其发展的重要因素, 因此应用了许多新技术使其语音质量更符合用户的要求。为了能使 v o l p 系统在多种环境中使用,特别是背景噪声较大的环境下仍然能 够保持性能,提供较好的语音传输质量,有必要开发一种能够用于 v o l p 系统中的语音增强算法。 语音增强算法目前已成为语音信号处理领域的一个重要的分支, 主要依据语音和噪声的不同特性,从受到噪声污染的语音中估计出噪 声。本文研究的语音增强算法是在计算先验和后验信噪比的基础上估 计噪声,再通过计算得出一个增益值,作用于带噪语音,对噪声段进 行抑制,对叠加了噪声的语音尽可能分离噪声,最终达到增强语音清 晰度,提高语音舒适度的目的。 本课题主要是对现有的语音增强算法进行研究和对比,重点是基 于短时谱估计的语音增强算法,通过对几种算法特点的对比,重点研 究了适合于v o l p 系统的s t s a m m s e 算法。主要的实现工作是将原 s p e e x 语音编解码算法中的语音增强模块进行c 代码定点化,并根据 定点代码编写汇编程序;对程序进行优化后再进行调试和仿真,验证 了语音增强算法对白噪声以及有色噪声的抑制效果,最终在d s p 平 台上加以实现。最后采用e 8 6 2 标准对语音质量进行评估,验证了对 语音质量提高所起的作用。 关键词:语音增强算法s t s a m m s e 算法a r l 6 8 8 芯片定点化 d s p 实现 r e s e a r c h s p e e c h e n a bs t r a c t w i t ht h er a p i dd e v e l o p m e n to fv o i pt e c h n o l o g yi nr e c e n ty e a r s , i n t e r n e tv o i c ec o m m u n i c a t i o n sa p p l i c a t i o n sb e c o m em o r ep o p u l a r t h e v o i c e q u a li t y o fi p p h o n e i sa n i m p o r t a n tf a c t o rr e s t r i c t i n g i t s d e v e l o p m e n t m a n yn e wt e c h n o l o g i e sh a v eb e e na p p l i e dt oi m p r o v et h e v o i c eq u a l i t ya n dm e e tt h en e e d so fu s e r s i no r d e rt oe n s u r et h ev o l p s y s t e mw i l lp e r f o r ma si n t e n d e da n dp r o v i d eb e t t e rv o i c et r a n s m i s s i o n q u a l i t yi nav a r i e t yo fe n v i r o n m e n t s ,e s p e c i a l l yi nn o i s ye n v i r o n m e n t ,i ti s n e c e s s a r yt od e v e l o pas p e e c he n h a n c e m e n ta l g o r i t h mt h a tc a nb eu s e di n v o l ps y s t e m s p e e c he n h a n c e m e n ta l g o r i t h mh a sb e c o m ea ni m p o r t a n tb r a n c ho f t h es p e e c hs i g n a lp r o c e s s i n gf i e l d t h ea l g o r i t h mm a i n l yb a s e do nt h e d i f f e r e n tc h a r a c t e r i s t i c so fv o i c ea n dn o i s e ,e s t i m a t e st h eb a c k g r o u n d n o i s ef r o mt h ep o l l u t e dv o i c e t h i sp a p e rs t u d i e sas p e e c he n h a n c e m e n t a l g o r i t h m ,b a s e do nc a l c u l a t i n gap r i o r ia n dap o s t e r i o r is i g n a lt on o i s e r a t i o ,a n dt h e no b t a i n e dag a i nv a l u et h a ta c to nt h en o i s ys p e e c h f i n a l l y , t h ee n h a n c e ds p e e c hw i l lb ec l e a r e ra n dm o r ec o m f o r t a b l eb ye l i m i n a t i n g n o i s e i nt h i sp a p e r ,f i r s t l y ,s o m ek i n do fe x i s t i n g s p e e c he n h a n c e m e n t a l g o r i t h m s w i l lb e i n t r o d u c e d ,e s p e c i a l l yt h ea l g o r i t h mb a s e d o n s h o r t t i m e s p e c t r a le s t i m a t i o n b yc o m p a r i n gt h e c h a r a c t e r i s t i c so f s e v e r a la l g o r i t h m s ,t h i sp a p e rm a i n l ys t u d i e ss t s a m m s ea l g o r i t h m , w h i c hi ss u i t a b l ef o rv o l ps y s t e m t h ei m p l e m e n t a t i o ni nt h i st h e s i s c o n t a i n st h ec o n v e r s i o nf r o mt h ef l o a t i n gp o i n tt of i x e d p o i n ti nc ,a n d t h et r a n s l a t i o no ff i x e d - p o i n tct od s p a s s e m b l yc o d e s w i t ho p t i m i z a t i o n t h e nd e b u ga n ds i m u l a t et h eo p t i m i z e dc o d e s t h ee l i m i n a t i o ne f f e c to f w i l lb e p r o v e d a f t e r t h e r o v e m e n to fs p e e c hq u a l i t yi s a l g o r i t h m s t s a - m m s e s pi m p l e m e n t a t i o n 目录 第一章引言 目录 1 1 课题背景 1 2v o i p 技术介绍 1 2 1v o l p 的基本传输原理 1 2 2v o l p 系统组成 1 2 3v o l p 语音编解码技术。 1 3 语音增强算法。5 1 3 1 语音增强算法概述5 1 3 2 语音预处理模块:6 1 3 3 语音增强算法应用在v 0 i p 系统中6 1 4 工作流程与论文结构7 1 4 1 论文思路与主要工作7 1 4 2 论文内容与章节安排7 第二章语音及噪声特性 3 2 1 语音及噪声特性8 2 1 1 语音特性8 2 1 2 噪声特性8 2 1 3 噪声估计9 2 2 人耳感知特性lo 第三章语音增强算法 3 1 语音增强算法1 2 3 1 1 谱减法13 3 1 2 维纳滤波法1 5 3 1 3s t s a m m s e 算法16 3 2 几种语音增强算法的比较l8 第四章开发平台及d s p 芯片结构介绍 4 1p a l 6 8 8 芯片介绍2 0 4 1 1p a l 6 8 8 的芯片特点和硬件结构2 0 4 1 2p a l 6 8 8 芯片控制器系统结构2 l 目录 4 1 3p a l 6 8 8 d s p 子系统结构及其外设2 2 4 2a r l 6 8 8 介绍及其改进2 3 4 3a r l 6 8 8 软件设计及实现2 6 4 3 1a r l 6 8 8 软件结构2 6 4 3 2a r l6 8 8 程序软件开发应用及工具2 6 4 3 3 程序仿真调试环境2 7 第五章语音增强算法仿真及在v o i p 系统中的实现2 9 5 1c 定点化实现方法3 0 5 1 1 数据的定标3 0 5 1 2 定点化的原则与方法3 l 5 2c 代码定点化3 2 5 2 1 语音增强算法的子模块分解3 2 5 2 2 定点化c 代码的实现3 2 5 3 定点c 代码到d s p 汇编的实现3 5 5 3 1 模块化设计3 6 5 3 2 汇编程序的编写3 6 5 3 3 汇编程序的调试3 8 5 4 代码的优化3 9 5 4 1 利用d s p 提供的指令的优化4 0 5 4 2 程序结构的优化4 l 5 4 3 利用空间换时问的优化4 2 5 4 4 优化结果4 2 5 5 仿真结果及分析4 2 5 5 1 对白噪声的抑制效果4 3 5 5 2 对粉红噪声的抑制效果。4 4 5 5 3 对褐色噪声的抑制效果4 5 第六章语音增强算法的性能评估。4 7 6 1 语音质量主观评价4 7 6 1 1m o s 得分法4 7 6 1 2 判断韵字测试4 8 6 1 3 判断满意度测量4 8 6 2 语音质量客观评价4 8 6 3v o i p 系统中语音质量的评价4 9 目录 6 3 1 语音质量感知评价( p e s q ) 5 0 6 3 2 语音增强算法的性能评价5 l 第七章总结与展望 7 1 本文工作总结5 3 7 2 下一步的工作5 3 7 3 技术展望5 4 参考文献。5 5 弱c 谢5 7 作者攻读学位期间发表的学术论文目录5 8 北京邮电人学硕十研究生论文 v o l p 系统中语音增强算法的研究与应h j 第一章引言 1 1 课题背景 v o i p ( v o i c eo v e ri p ,基于i p 的语音通信) 也称为口电话,随着i p 技术的 不断发展,并且凭借其自身的价格优势,成为近年来被广泛关注的热点之一,也 是因特网增长最快的业务之一。 在实际的应用中,v o l p 系统并非都是工作在理想环境下的,有些环境中会 夹杂多种的背景噪声,语音质量不可避免地要受到这些噪声的影响。例如,安装 在汽车、街道,机场或飞机、舰船上的i p 电话,常常受到很强的背景噪声的干 扰,通话受到严重影响。这些噪声的干扰使得接收者接收到的语音信号已非纯净 的原始语音信号,而是受到噪声污染的带噪语音信号。 目前v o l p 系统的设计大都没有考虑到环境噪声的影响,如果工作在背景噪 声较大的环境下,语音处理系统的性能将急剧恶化。因此,研究语音增强技术在 v o l p 系统中的应用有重要的价值。语音增强算法一般用来抑制背景噪声,增强 语音清晰度,提高语音通信的质量,可以在v o l p 系统中作为预处理器,来提高 v o l p 系统的抗干扰能力,维持系统性能。 语音增强算法的研究始于2 0 世纪7 0 年代中期,作为语音信号数字处理的一 个重要的分支,目前已经总结出许多适用于不同情况的算法,已在语音处理系统、 通信、多媒体技术、数字化家电等领域得到了越来越广泛的应用。本课题主要是 研究一种适用于v o l p 系统的语音增强算法,因此首先要对v o l p 技术以及语音增 强算法领域的技术进行研究。 1 2v o i p 技术介绍 i p 技术是一种结合了网络计算和多媒体技术的数据语音通信技术,目前 已成为一种互联网和通信领域的关键技术。相对于传统电话,v o l p 技术的主要 优势是价格低廉,使用因特网的骨干网进行长途电话业务,可以避免长途通信在 电话网上的高额收费,并且v o i p 可以提供比传统电话网络更多更好的服务,例 如统一消息、虚拟电话、虚拟语音传真邮件、查号业务等【1 1 。 1 2 1v o l p 的基本传输原理 v o l p 的基本传输原理如图1 1 所示,首先使用语音压缩算法对语音数据编码 进行压缩编码,然后按i p 协议将这些语音数据打包,通过l p 网络将语音i p 包 分组传输到目的地,最后经解压处理,还原成原始语音信号,从而实现通过互联 网传送语音。i p 电话系统可以把普通电话的模拟信号转换成可联入因特网传送 第1 页共5 8 页 北京邮电人学硕士研究生论文v o l p 系统中语音增偶算法的研究与应川 的i p 数据包,同时也将收到的i p 数据包转换成声音的模拟电信号。 厂接收订 i p 解 g r 图l 一1v o i p 传输过程 传统的电话网以电路交换方式传输语音,所要求的传输带宽为6 4 k b i v s 。而 i p 语音分组是以i p 分组交换网络为传输平台,对模拟的语音信号进行压缩、打 包等一系列的特殊处理,使之可以采用无连接的u d p 协议进行传输【2 】。v o i p 的 传输过程分为下列几个阶段: ( 1 ) 语音到数据的转换 语音信号是模拟波形,通过m 方式来传输语音,不管是实时应用业务还是 非实时应用业务,都首先要对语音信号进行模数转换,将模拟信号转换为数字信 号。数字化可以使用各种语音编码方案来实现,源和目的地的语音编解码器必须 实现相同的算法,这样目的地的语音设备可以还原模拟语音信号。 ( 2 ) 原数据到i p 语音包的转换 一旦语音信号进行数字编码,下一步就是对语音包以特定的帧长进行压缩编 码。许多低比特率的编码器是采取以帧为单位进行编码,典型帧长为1 0 3 0 m s 。 编码后,将压缩的语音包送入网络处理器。网络处理器为语音包添加包头、时标 和其它信息后通过网络传送到另一端点。 ( 3 ) 传送 i p 网络不像电路交换网络,它要求把数据放在可变长的数据报或分组中, 然后给每个数据报附带寻址和控制信息,并通过网络发送,一站一站地转发到目 的地。在这个通道中,全部网络被看成一个整体,持续不断地从输入端接收语音 包,然后在一定时间内将其传送到网络输出端。网络中的中间节点检查每个i p 数据附带的寻址信息,并使用这个信息把该数据报转发到目的地路径上的下一 站。网络链路可以是支持i p 数据流的任何拓扑结构或访问方法。 ( 4 ) i p 包到数据的转换 目的地v o l p 设备接收这个i p 数据并开始处理。网络提供一个可变长度的缓 冲器,用来调节网络产生的抖动。该缓冲器可容纳许多语音包,用户可以选择缓 冲器的大小。小的缓冲器产生延迟较小,但不能调节大的抖动在数据报的处理 第2 页共5 3 页 1 北京邮电人学硕+ 研究生论文v o l p 系统中语音增强算法的研究与应朋 过程中,先是去掉寻址和控制信息,然后把语音数据提供给解码器。解码器将压 缩编码解码后传送给交换机。 ( 5 ) 数字语音转换为模拟语音 数字交换机的用户电路将数字信号转换为模拟的语音电流送给电话机0 1 2 2v o i p 系统组成 v o i p 系统中的协议给出了系统实现的框架结构,目前电信级v o l p 系统的网 络设备一般由i p 电话终端、i p 接入网关、网关( g a t e w a y ) 、网守( g a t e k e e p e r ) 、网 管系统、认证计费系统等几部分组成。 终端:i p 电话终端包括传统的语音电话机、p c 、i p 电话机,也可以是 集语音、数据和图像于一体的多媒体业务终端。 接入网关:接入网关即前置交换机,它的作用是与p s t n 网、移动网、 专网p b x 实现互联互通及信令转换、话务收敛、呼叫分配。接入网关 与网关相连可采用p r i 信令,与p s t n 侧可采用n o 7 号信令或r z 号 信令,优选n o 7 号信令。 网关:由于不同种类的终端产生的数据源结构是不同的,要在同一个网 络上传输,这就要由网关或者是通过一个适配器进行数据转换,形成统 一的i p 数据包。i p 电话网关提供i p 网络和电话网之间的接口,用户通 过p s t n 本地环路连接到i p 网络的网关,网关负责把模拟信号转换为数 字信号并压缩打包,成为可以在因特网上传输的i p 分组语音信号,然 后通过因特网传送到被叫用户的网关端,由被叫端的网关对i p 数据包 进行解包、解压和解码,还原为可被识别的模拟语音信号,再通过p s t n 传到被叫方的终端。这样,就完成了一个完整的电话到电话的i p 电话 的通信过程。网关负责完成p r i 信令至h 3 2 3 协议的转换。 网守:网守实际上是l p 电话网的智能集线器,是整个系统的服务平台, 负责系统的管理、配置和维护。网守提供的功能有拨号方案管理、盆鱼 性管理、集中帐务管理、数据库管理和备份、网络管理等等。网守按管 理作用的不同又可分为目录网守、区域网守,整网通过目录网守同其他 j p 电话运营网络实现互通。 网管系统:网管系统的功能是管理整个护电话系统,包括设备的控制及 配黉,数据配给,拨号方案管理及负载均衡、远程监控等。 认证计费系统:认证计费系统的功能是对用户的鉴别用户是否为有权用 户并对呼叫进行费用计算,同时提供相应的单据和统计报表。认证计费 系统可以由i p 电话系统制造商提供,也可以由第三方制作,但此时需 i p 电话系统制造商提供其软件数据接口。 第3 页共5 3 页 北京邮电人! 学硕i :研究生论文v o i p 系统中语音增强算法的研究与应川 从具体实现的角度来看,v o l p 系统有以下几种关键技术:信令技术,包括s i p , h 3 2 3 ,i a x 2 等几种标准协议;媒体编码技术,包括流行的1 1 7 1 1 ,g 7 2 3 1 ,1 1 7 2 9 , g 7 2 9 a 语音编码算法;媒体实时传输技术,主要采用实时传输协议r t p ;业务 质量保障技术,采用资源预留协议r s v p 和用于业务质量监控的实时传输控制协 议r t c p 来避免网络拥塞,保障通话质量。此外还涉及到分组重建技术和时延抖 动平滑技术、动态路由平衡传输技术、网关互联技术( 包括媒体互通和控制信令 互通) 、网络管理技术以及安全认证和计费技术等。 1 2 3v o l p 语音编解码技术 语音编解码技术是影响v o l p 系统性能的一个重要的因素,编解码效率及质 量好坏决定了语音质量及占用带宽的大小。目前已经研究开发出很多有效的压缩 编码技术,例如g 7 1 1 ,1 1 7 2 1 ,g 7 2 3 1 ,1 1 7 2 9 等【3 】。 ( 一) g 7 1 1 1 1 7 1 l 【8 】即人们熟知的脉冲编码调制p c m ,这个标准广泛用于有线电话通信 中。p c m 编码具有良好的解码语音质量,编解码器实现简单,复杂性低,时延 小,但系统所需的带宽高。 p c m 编码主要包括:采样、量化和编码三个主要步骤。在量化过程中,为提 高量化信噪比,采用了非均匀量化。具体而言,就是对采样后的脉冲信号进行压 扩处理,放大小信号,压缩大信号,然后对经过压扩的信号进行均匀量化。这种 方法等效于对小信号进行小量化级量化,大信号进行大量化级量化,使得大小信 号的量化信噪比趋于接近。具体实现时,常用的有a 律1 3 折线或u 律压扩曲线 两种方案。美国和日本采用u 律压扩曲线,我国和欧洲采用a 律1 3 折线。 ( - - ) g 7 2 1 19 8 4 年i t u 公布了使用自适应差分脉冲编码调制( a d p c m ) 的3 2 k b i u s 语音 编码标准g 7 2 1 9 1 ,并于1 9 8 6 年根据运行中出现的问题发布了修改版本。这一技 术特点在于不把语音信号直接量化,而是对它和预测值的差值进行量化。同时根 据编码的结果,调制线性预测系数。它不仅可以达到与p c m 相同的重建语音质 量,而且具有比p c m 更优良的抗误码性能,广泛应用于卫星,海缆及数字语音 插空设备以及可变速率编码器中。 ( 三) 1 1 7 2 3 g 7 2 3 标准是一个双速率语音编码建议,其两种速率分别是5 3 k b w s 和 6 3 k b u s 。此协议是一个数字传输系统概况协议,适用于低速率多媒体服务中语 音或音频信号的压缩算法。它作为完整的h 3 2 4 系列标准的一部分,主要配合低 速率图像编码h 2 6 3 标准。在i p 电话网关中,g 7 2 3 标准被用来实现实时语音编 码解码处理。 第4 页共5 8 页 北京邮电入学硕士研究生论文v o l p 系统中语音增强算法的研究与应用 g 7 2 3 1 标准【i o 】的编解码算法中两种速率的编解码基本原理是一样的,只是 激励信号的量化方法有差别。对高速率( 6 3 k b i f f s ) 编码器,其激励信号采用多脉 冲最大似然量化( m p m l q ) 法进行量化,对低速率( 5 3 k b i f f s ) 编码器,其激励信 号采用代数码激励线性预测( a c e l p ) 法量化。( 2 7 2 3 1 标准是为了低速可视会议 业务而设计的。由于可视会议业务每秒钟只传输很少数量的帧,而且又有比较大 的时延,这就是( 2 7 2 3 1 允许有3 0 m s 帧长的原因。这个帧长比较大,却正好适 合可视会议这种情况。而且它的编码速率比较低,可以把尽可能多的比特用在图 像传输上。 ( 四) g 7 2 9 ( 2 7 2 9 标准l 是一个能在8 k b i v s 速率上实现高质量语音编码的建议,也是 h 3 2 3 协议中有关音频编码的标准。在i p 电话网关中,( 2 7 2 9 标准被用来实现实 时语音编码处理。( 2 7 2 9 标准采用的是c s c e l p 即共扼结构算术码激励线性预测 的算法。c s a c e l p 以c e l p 编码模型为基础,它把语音分成帧,每帧1 0 m s , 也就是8 0 个采样点。对于每一帧语音,编码器从中分析出c e l p 模型参数,其 中包括线性预测系数,自适应码本和随机码本的索引值和增益。然后把这些参数 传送到解码端,解码器利用这些参数构成激励源和合成滤波器,从而重现原始语 立 日o 1 3 语音增强算法 1 3 1 语音增强算法概述 语音增强方法的研究始于2 0 世纪7 0 年代中期,随着数字信号处理理论的成 熟,语音增强发展成为语音信号处理领域的一个重要分支。1 9 7 8 年,l i m 和 o p p e n h e i m 提出了语音增强的维纳滤波方法。1 9 7 9 年,b o l l 提出了谱相减方法 来抑制噪声。1 9 5 0 年,m a u l a y 和m a l p a s s 提出了软判决噪声抑制方法。1 9 8 4 年, e p h r a i m 和m a l a h 提出基于m m s e 短时谱幅度估计的语音增强方法。1 9 8 7 年, p a l i w a l 把卡尔曼滤波引入到语音增强领域。在近3 0 年的研究中,各种语音增强 方法不断被提出,它奠定了语音增强理论的基础并使之逐渐走向成熟。近些年来, 随着v l s i 技术的发展和高速d s p 芯片的出现,语音增强方法逐步走向实用,同 时新的语音增强方法又相继涌现。 现实环境中的噪声多种多样,它们的特性各异,也就不可能找到一种通用的 语音增强算法来适用各种噪声。同时语音增强算法不但与语音信号数字处理理论 相联系,而且与人的听觉系统和语音学紧密相关,这也促使必须根据不同的噪声 源来选择不同的对策。 语音增强算法主要依据语音和噪音的不同特性。语音虽然是时变的非平稳随 第5 页共5 8 页 北京邮电人学硕十研究生论文v o l p 系统中语音增强算法的研究与应川 机过程,但因为人的发声系统生理变化速度有限,所以具有短时平稳性( 1 0 3 0 m s ) ; 浊音在频谱上有共振峰结构,能量重要集中在低频区( 1 0 0 0 h z ) 。不同的噪声有不同的特点:周期 性噪声的离散线状频谱可通过梳状滤波器加以消除:脉冲噪声可以通过时域的衰 减或平滑进行抑制:由热噪声、气流噪声等各种随机噪声源产生的宽带噪声的抑 制最为困难,高斯白噪声是典型的平稳宽带噪声,若噪声一潜是非白的可以先进 行白化,如果是非平稳的宽带噪声就更不容易消除了。 1 3 2 语音预处理模块 在s p e e x 语音编解码算法中提供了预处理模块,不管预处理后的信号是不是 用在s p e e x 进行编码,都可以提升语音信号的质量。预处理器是应用在发送端音 频编码器之前的,如图1 2 所示,它提供了以下几种主要的功能: 降噪 自动回声控制 自动增益控s g ( a g c ) 话音活动性检测( v a d ) 预处理器 图1 - 2 预处理器结构示意 通常情况下,语音编解码对于噪声较大的输入处理效果不太好,也就是说容 易起到放大噪声的作用,而降噪器就大大减少了这种可能。当先对信号使用语音 增强算法进行降噪,特别是与自动回声控制、a g c 、v a d 模块共同使用,再进 行编解码时,将会得到更好的效果。 1 3 3 语音增强算法应用在v o i p 系统中 在发送端进行语音编码时,不可避免的引入较多量化噪声,通常利用人耳听 觉系统掩蔽效应来减少主观噪声,现己提出多种方法,如解码端的自适应后滤波 技术,语音谱增强方法等。 第6 页共5 3 页 北京邮电人学硕十研究生论文 v o i p 系统中语音增强算法的研究与应用 s p e e x 和i l b c 编解码算法中都提供了语音增强模块,可以作为语音增强算 法在v o p 系统中应用的实例。本文研究的语音增强算法便是一种可普遍用于多 种语音编解码算法中,作为预处理器中的降噪器。 一般的低速率语音编码系统都采用了语音产生模型作为参数化编码基础,如 果在提取模型参数时受到背景噪声的干扰,重建语音质量将急剧下降,有时甚至 变得完全不可懂。同样,压缩系统中静音的删除和语音间隔的消除也会因为噪声 的出现而损失说话人信息,降低可懂度。因此编码器包含了一个语音增强单元, 用来对重构的激励信号进行操作。它通过减少语音段的噪声增加了重构语音的感 知音质。与其它解码器不同的是,它可以很细微的修改激励信号。虽然语音增强 改善了语音质量但增加了浊音信号的周期长度。所以,必须使用限定条件的语音 增强。 1 4 工作流程与论文结构 本课题的重点是研究现有的语音增强算法,设计一种实际应用于v o i p 系统 中的增强方法。首先研究噪声估计方法,从带噪语音中分离出噪声能量,然后使 用语音增强算法计算出增益,尽可能的减小噪音,并保留原始纯净语音不受到损 伤。增强效果不是以单纯提高信噪比为目标,而是提高语音的舒适度和可懂度, 尽可能保证语音不失真和无音乐噪声。 1 4 1 论文思路与主要工作 在课题研究与实现的过程中,主要有一下几个部分的工作: l 、研究语音、噪声特性以及噪声估计方法,在此基础上对现有的语音增强算法 进行研究,选择一种适用于v o i p 系统的语音增强算法。 2 、实现该语音增强算法,主要包括c 和d s p 实现,并且仿真测试其语音增强效 果。 3 、研究语音质量及语音增强算法效果的评估方法,对已经实现的语音增强算法 进行评估,证实其有效性。 1 4 2 论文内容与章节安排 基于上面的流程。本论文接下来的各章安排如下:第二章对语音、噪声特性 以及噪声估计方法进行研究,第三章对现有的语音增强算法进行介绍,第四章介 绍开发平台以及所使用的d s p 芯片,第五章详细介绍语音增强算法的实现过程, 第六章研究v o l p 系统中语音质量及语音增强算法效果的评估方法,并对已经实 现的语音增强算法进行评估。 第7 页共5 8 页 北京邮电人学硕士研究生论文v o l p 系统中语音增强算法的研究与应用 2 1 语音及噪声特性 第二章语音及噪声特性 语音增强算法的主要依据是语音和噪音的不同特性,因此对语音和噪声特性 的了解和分析是语音增强研究的基础。下面将简述语音和噪声的主要特性。 2 1 1 语音特性 语音信号是一种非平稳的随机信号,同时也可以看作是一种短时的平稳的随 机信号。这是因为人类发声过程的变化速度是有一定的限度,一般在短时间内 ( 1 0 3 0 m s ) 人的声带与声道的形状有相对的稳定性,在这段时间罩认为语音是物 理特性与频谱特性近似不变的。语音的短时特性是语音信号分析和处理的基础, 利用这一特性就可以应用平稳随机过程来分析与处理语音信号。 任何语音都包含元音与辅音两种音素,辅音根据声带是否振动又可分为清辅 音与浊辅音两种。浊辅音在时域上呈现出明显的周期性和较强的振幅,在频域上 有共振峰结构,而且能量大部分集中在较低频段内。清辅音则完全不同,它没有 明显的时域和频域特征,类似于白噪声并振幅较弱。语音增强中可以利用浊音具 有的明显的周期性来区别和抑制非语音噪声,而清辅音的特性则难与宽带噪声区 分。 根据中心极限定理,傅罩叶展开系数被认为是独立的高斯随机变量,均值为 零,而方差是时变的。这种高斯模型应用于有限帧长时只是一种近似的描述,在 宽带噪声污染的带噪语音的语音增强中,这种假设可做为分析的前提。 2 1 2 噪声特性 噪声可以是加性的,也可以是非加性的。如图2 1 所示,加性噪声大致有: 周期噪声、脉冲噪声、宽带噪声和同声道其他语音干扰,周期噪声、脉冲噪声、 宽带噪声一般来自背景噪声,非加性噪声主要有传输噪声。对于非加性噪声,有 些可以通过变换而转变为加性噪声。 第8 页共5 8 页 北京邮电人学硕士研究生论文 陌卜一叶| 图2 1 语音系统中的噪声 下面具体分析这几类噪声: ( 1 ) 周期性噪声。它的特点是在频域上具有许多离散的线谱。周期性噪声 主要来源于周期性转动的机械和电气干扰。 ( 2 ) 脉冲噪声。脉冲噪声表现为时一域波形中出现的窄脉冲。它来源于爆 炸,撞击和放电等。 ( 3 ) 宽带噪声。它的来源有很多种,如热噪声,气流( 如风,呼吸) 噪声及 各种随机噪声源。由于宽带噪声与语音信号在时域和频域上都完全重叠,因而消 除它最为困难。这种噪声只有在语音问隙才单独存在,对于平稳的宽带噪声通常 可以认为是高斯白噪声。对不具有白色频谱的噪声,可以先进行白化处理转化为 自噪声。 ( 4 ) 同声道语音干扰。人耳可以在两人以上讲话环境中分辨出所需要的声 音,这种分辨能力是人体内部语音理解机理的一种感知能力。这种能力来源于人 的双耳输入效应,但当多个语音叠合在一起,在单信道中传输时,双耳信号因合 并而消失。 ( 5 ) 传输噪声。这是传输系统的电路噪声。与背景噪声不同,它在时间域 里是语音和噪声的卷积。处理这种噪声可以采用同态处理的方法,把非加性噪声 变换为加性噪声来处理。 2 1 3 噪声估计 语音增强中首先要利用噪声的特性参数,噪声估计的准确性直接会对后续的 算法有重大的影响,因此预先准确地估计出噪声对语音增强的好坏十分重要。在 噪声估计时通常假设噪声的均值为零,需要估计的参数就是噪声的方差。然后根 据当前的信号能量计算出信噪比。 噪声的估计方法很多,一种做法是对语音信号进行语音的有声无声检测, 信噪比较低的情况下就视为无声,在无声时更新噪声估计,在有声时保持原有噪 声的估计不变。另一些方法不用有声无声的检测,无论在有声或无声都对噪声 估计进行更新。 第9 页共5 8 页 北京邮电人学硕士研究生论文v o l p 系统中语音增强算法的研究与应刚 本课题是采用一种改进的噪声估计方法,这是一种基于先验后验信噪比估 计的方法。彘和以分别定义为先验信噪l l ( a 皿o f fs n r ) 和后验信噪比( ap o s t e r i o f i s n r ) ,后验信噪比的计算完全依赖于当前帧的信号与噪声能量比值,相当于瞬 时信噪比,而先验信噪比是对当前帧的信噪比估计,部分依赖于前一帧。 当我们开始通话的前几帧一般是还没有开始说话,也就是说这时候还没有语 音,因此可以假设开始的f i 几帧都是噪声,所以在前几帧都要对噪声估计值进行 更新。在语音的中间帧,当先验信噪比和后验信噪比都比较低的时候,就可以把 当前帧视为噪声帧,这时要对信噪比进行慢跟踪,逐帧对噪声能量进行更新,保 证对噪声的抵制效果。当进入语音帧时,后验信噪比开始变大,先验信噪比就是 后验信噪比滞后的产物,此时要对信噪比进行快跟踪,保持之前的噪声估计值不 变。 、 上述的噪声估计方法充分考虑了语音的非平稳特性,但是在实际的应用当 中,对噪声的估计仍然需要设置门限,如果对噪声的估计不够充分会导致残留音 乐噪声,而过度的估计则会导致语音的开始和结束区域有失真。这些可以通过设 置门限参数来改善,采取折衷的办法通过不断的高度得到经验值。 2 2 人耳感知特性 由于语音增强的效果最终取决于人的主观感受,所以人耳的语音感知特性对 研究语音增强有重要作用。人耳对背景噪声有很大的抑制作用,因此可以利用人 耳感知特性来减少运算代价。 人的听觉系统具有复杂的功能。实践证明,语音虽然客观存在,但是人的主 观感觉( 听觉) 和客观实际( 语音波形) 并不完全一致。任何复杂的声音对于人耳的 感觉,都可以用响度、音调和音色三个特性来描述。其中响度是人耳对声音轻或 重的主观反应,它取决于声音的幅度,主要是声压的函数,但与频率和波形也有 关。音调是人耳对声音频率的感受。音调与声音的频率有关,频率高的声音听起 来感觉它的音调“高,而频率低的声音听起来感觉它的音调“低”。但音调与声 音频率并不成正比,它还与声音的强度及波形有关。音色是由于波形和泛音不同 而造成的声音属性,人据此在主观感觉上区别具有相同响度和音调的两个声音。 音色是由混入基音的泛音所决定的,每个基音有其固有的频率和不同音强的泛 音,因而每个声音具有各自不同的音色。 人的听觉系统不但是一个极端灵敏的声音接收器,它还具有非线性、高频定 位、掩蔽效应和鸡尾酒会效应等特性。实践证明,人的听觉系统并非完全线性的, 声音信号在人的听觉系统中会被非线性“加工。当有一个强度适当的纯音作用 到耳朵时,能听到原频率的一系列谐波或泛音:当有两个声音作用时能听到一组 音,它包括这两个基本音和它们的谐音、和音及差音等主观音,这些主观音客观 第l o 页共5 8 页 北京邮电人学硕十研究生论文v o l p 系统中语音增强算法的研究与应h j 上并不存在,它们是由听觉机构非线性效应引起的。 人耳还具有高频定位特性。对于大约2 k h z 以上的高频声音信号,人耳感觉 不出具体的单个周期的声音波形,只能感受时域波形的包络。方向的决定取决于 信号包络在内耳的延时以及入耳所能感受到的信号频率,包络变化很快的时域声 音信号,在声音定位时作用大,而时域包络比较平稳的声音信号,对于人耳的声 音定位影响很小,另外人耳无法判断在频率上非常接近的各个高频信号的方向。 语音增强的效果最终由人的主观感受度量,即听起来舒适,因此了解入耳感 知特性对完善语音增强算法有重要的意义,一些语音增强算法也是利用了人耳感 知特性。 ( 1 ) 人耳对语音的感知取决于语音信号的频谱分量幅度,对频谱分量的相 位则不敏感。 ( 2 ) 人耳对频谱分量强度的感受是频率与能量谱的二元函数,声音大小与 频谱幅度的对数成j 下比,人耳对频率高低的感受与该频率的对数值近似成正比。 ( 3 ) 短时谱中的共振峰对语音的感知十分重要,特别是第二共振峰比第一 共振峰更为重要,因此对语音信号进行一定程度的高通滤波不会对可懂度造成影 响。 ( 4 ) 人耳在两人以上的讲话中有能力分辩出需要聆听的声音。这种特性被 称作“鸡尾酒会效应”。 ( 5 ) 人耳有掩蔽效应,即强信号对弱信号有掩盖的抑制作用。掩蔽的程度 是声音强度与频率的二元函数。对频率临近分量的掩蔽要比频差大的分量有效得 多。 第1 1 页共5 8 页 需要提取模型参数( 如基音周期、l p c 系数等) ,经常使用迭代方法。这 种方法的最大缺点就是如果实际噪声或语音与模型有较大的差别,或者 由于某些原因使得提取语音参数较困难,则这方法较容易失败。这类方 法常用到的一些滤波器,如梳状滤波器、维纳滤波器、卡尔曼滤波器等。 非参数方法:非参数方法不需要从带噪语音信号中估计语音模型参数, 这就使得此类方法相对于参数方法而言应用较广。但由于没有利用可能 的语言统计信息,故结果一般不是最优的。同时,我们知道,语音信号 是非平稳的随机过程,但语音信号特性的缓慢变化使得在较短的时间 ( 比如l o 3 0 m s ) 内,可以视其为平稳的,如果能从带噪语音的短时谱 中估计出“纯净”语音的短时谱,即可达到语音增强的目的。由于人耳 对语音的感知主要是通过语音信号

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论