（通信与信息系统专业论文）voip系统中静音检测的设计和实现.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-10 格式：PDF 页数：51 大小：1.41MB 积分：0 举报 版权申诉

已阅读5页，还剩46页未读，继续免费阅读

（通信与信息系统专业论文）voip系统中静音检测的设计和实现.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

华中科技大学硕士学位论文摘要 v o i p 技术属于分组语音通信的范畴，最早的研究始于2 0 世纪7 0 年代初，并随着i n t e r n e t 技术的飞速发展而从理论研究转为实际应用。采用v o l p 技术的i p 电话足以i p 为标志的网络分组化和以多媒体为目标的网络业务综合化两大主流技术融合的结果，并成为传统电信与i p 网络优势互补的一个突破口。目前v o i p 已经能够实现传统的p s t n 的绝大部分功能。在这基础上人们对v o l p 的语音通话质量提出了进一步的要求。但是，实时语音通信需要一定的网络传输质量保证，而目前的i n t e m e t 不能满足这一要求，导致当前的v o i p 业务在稳定性和服务质量上不如人意，而改善服务质量的一个重要方面就是减少对网络资源的占用。而静音检测技术就是根据人们通话的特点，剔除无用的静音，从而节省网络带宽。作者结合参与的v o 口网关的开发工作，对静音检测技术进行了深入的研究，对现在常用的静音检测算法进行分析和比较，并对其进行改进和提高，提出了一种复合型静音检测算法，该算法由两部分组成：自适应能量检测和线性预测模型检测。自适应能量检测通过比较信号的短时能量大小来检测静音而线性预测模型检测通过分析静音和语音在信号模型上的差别来检测静音，该复合型算法集中两种算法优点，在检铡性能上有较大的提升。论文首先阐述了i p 电话的基本原理，技术构成和各种可能的设计方案，在此基础上提出了对静音检测技术进行研究的重要性。在目前国际上新出现的各种有关静音检测算法的基础上，针对v 0 i p 的要求和d s p 芯片的特点，作者对其进行了理论上的改进和实现技术上面的优化。关键词： v o i p ；静音检测：自适应能量检测；线性预测华中科技大学硕士学位论文 a b s t r a c t t h ev o i pt e c h n o l o g yb e l o n g st ot h ec a t e g o r yo fv o i c ec o m m u n i c a t i o no np a c k e t s w i t c h e dn e t w o r k s t h ee a r l i e s ts t u d ys t a r t e da tt h eb e g i n n i n go f7 0 sl a s tc e n t u r y , a n dt h e f o c u sh a sb e e nt u r n e df r o mt h e o r e t i c a lr e s e a r c ht op r a c t i c a la p p l i c a t i o nw i t ht h er a p i d d e v e l o p m e n to fi n t e m e t t h e i pp h o n eu s i n gv o l pt e c h n o l o g yi st h er e s u l to ft h e c o m b i n a t i o no fs u c ht w oc h i e ft e c h n o l o g i e s ，t h ep a c k e tt e c h n i q u eo nn e t w o r kt a k i n gi p a si t ss i g n ，a n dt h ei n t e g r a t i n gt e c h n i q u eo fs e r v i c e so nn e t w o r kt a k i n gm u l t i m e d i aa si t s g o a l i th a sb e c o m e t h ej o i n to ft r a d i t i o n a lt e t e c o ma n di pn e t w o r k ，m u t u a l l ys u p p l y i n g w i t he a c ho t h e r sa d v a n t a g e s u p t on o wv o l ph a si m p l e m e n t e dam a j o r i t yp a r to ft r a d i t i o n a lp s t nf u n c t i o n s ， b a s e do nw h i c hp e o p l er a i s e da d d i t i o n a l r e q u i r e m e n to ns p e e c hq u a l i t y t h a ti sn o t s a t i s f i e di nv o l pn o w 。t h em a j o rf a c t o rt oi m p r o v es p e e c hq u a l i t yi st od e c r e a s et h e o c c u p a t i o no f t h en e t w o r k r e s o u r c e s v o i c e a c t i v i t yd e t e c t i o n ( v a d ) c a n c u l lt h eu n l e s s s p e e c ha c c o r d i n g t o c h a r a c t e r i s t i c so fp e o p l e ss p e e c ht oe c o n o m i z et h en e t w o r kr e s o u r c e s u n d e rs u c ha b a c k g r o u n d a sap a r to f t h er e s e a r c hw o r ko nv b m g a t e w a y , t h ea u t h o rc a r r i e dt h r o u g h s o m ed e e ps t u d yi n t ov a d b ya n a l y z i n ga n dc o m p a r i n gt h ev a da l g o r i t h mt h a ti s l a t e l yp r e v a l e n t ，i d e m o n s t r a t eaf u s i o nv a da l g o r it h mw h i c hc o n s i s t so ft w o p a r t s - - a d a p t i v ee n e r g yd e t e c t i o n ( a e d ) a n dl i n e a rp r e d i c t i o nm o d e ld e t e c t i o n ( l p m d ) a e dt e s t st h en o i s eb yc o m p a r i n gt h ee n e r g yo ft h es i g n a l ，w h i l el p m dt e s t st h en o i s e b ya n a l y z i n gt h ed i f f e r e n c eb e t w e e nn o i s ea n ds p e e c hi nt h es i g n a lm o d e l ，t h i sf u s i o n a l g o r i t h mh a v e t h e a d v a n t a g e s o ft w o a l g o r i t h m s a n d g r e a t l ya d v a n c e s i nt h e c a p a b i l i t yo f t e s t i n g t h ea r t i c l ef i r s ti n t r o d u c e ss o m eb a c k g r o u n dk n o w l e d g ea b o u ti pp h o n e ，n e c e s s a r y t e c h n o l o g i e sa n dp o s s i b l es o l u t i o n s 。t h ei m p o r t a n c eo fs t u d ya b o u tv a d i sd e s c r i b e d b a s e do ns o m el a t e s tv a d t e c h n o l o g i e s ，a i m i n ga td s pi m p l e m e n t a t i o n ，a ni m p r o v e m e n t i nt h e o r ya n do p t i m i z a t i o no n p r a c t i c a li sg i v e n o ne v e r ym a i n p a r t o f v a d k e y w o r d ： v o l p ；v o i c ea c t i v i t yd e t e c t i o n ；a d a p t i v ee n e r g yd e t e c t i o n ；l i n e a rp r e d i c t i o n i 【独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除文中已经标明引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名：馘绞日期： ? 。呻年争月2 7 日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，即：学校有权保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密口，在年解密后适用本授权书。本论文属于不保密囱。 ( 请在以上方框内打“”) 学位论文作者签名：破彼日期：妒争年中月矽同指导教师签名王媾日期：矗噼e 月卵日华中科技大学硕士学位论文 1 绪论近几年来，i p 技术及其业务高速发展，并已进入了传统的电信领域，其突破口就是v o i c eo f i p ( w o i p ) 。作为一门综合性技术，完整的v o i p 系统涉及计算机网络、电信技术、信令协议、语音技术等多个领域。自1 9 9 5 年以色列的v o c a l t e c 公司推出的第一项实用的v o l p 工业产品i p 电话软件以来，v 0 i p 受到业内的高度重视，其标准化工作进展迅速，相关产品不断涌现，这预示着以i p 为基础的新一代多媒体信息通信网络即将出现。数字语音通信是目前电信网络中最重要和最普通的业务，商界和民众对移动电话、i p 电话持续增长的需求，以及当前多媒体通信的发展，都有力地证明了数字语音通信的生命力。通过广泛的采用i m t e m e t 和全球i p 互联的环境，数字语音通信系统与模拟语音通信系统相比具有抗干扰性强、保密性好、易于集成化等特点，并可提供比传统业务更多、更好的业务。但是，实时数字语音通信需要定的网络传输质量保证，目前的i n t e m e t 尚不能满足这一要求，导致当前的v o i p 业务在稳定性和服务质量上不尽如人意。压缩语音信号的传输带宽，降低电话信道的传输码率，同时具有不逊于传统公共交换式电话网络( p u b l i cs w i t c h e d t e l e p h o n e n e t w o r k p s t n ) 的通讯质量，一直是人们所追求的目标，语音质量改善技术在实现这一目标的过程中担当着重要角色。在目前正蓬勃兴起的移动通信和多媒体通信中，语音质量改善的相关技术已经成为其中相当重要的技术。 1 1v o l p 技术概述传统的电信交换网络以电路交换为基础，可以保证为用户提供足够的带宽，提供低时延、低失真的实时通信服务，但其带宽的利用率不高。由于数据通信具有很强的业务突发性，若按照峰值速率来分配电路带宽，则会造成资源的严重浪费：若按照平均速率来分配的话，则会造成大量的数据丢失。在这种背景之下，提出了分组交换思想，并成为i p 网络的基础。分组交换提供无连接的服务，同一链路在不同的时刻可以传送不同通信会话的数据，实际上形成了对网络资源的统计复用，提高了网络带宽资源的利用率，而且其存储转发机制可以依据网络的实际状态动态地选择路由，在一定程度上提高了通信的可靠性。 i p 电话系统就是指在以i p 为网络层协议的计算机网络中进行语音通信的系统。其实现原理是先将p s t n 传来的电话语音转换为数字信号，经过编码压缩，通华中科技大学硕士学位论文过t c p i p 协议网络和其他种类的数据包( 数据、视频、图片等) 一同传送，在接收端经过重组、解压、合成、转换重构实时语音，再通过p s t n 送达最终受话方。其原理框图如图1 1 所示。i p 电话系统中采用的技术通称为v o p ( v o i c eo v e ri p ) 技术。图i1i p 电话系统原理框图从i p 电话原理分析，v o l p 技术属于分组语音通信的范畴，最早的研究始于2 0 世纪7 0 年代初，并随着i n t e m e t 技术的飞速发展而从理论研究转为实际应用。采用 v o i p 技术的i p 电话是以i p 为标志的网络分组化和以多媒体为目标的网络业务综合化两大主流技术融合的结果，并成为i p 网络与电信网络优势互补的突破口。在传统电话网络业务不断发展的情况下，v o i p 的含义和设计目标超越了字面上的含义，成为广义v o i p ，即除了电话通信以外，还可以进行交互式多媒体的实时通信( 包括语音、图像、数据等) ，甚至还包括瞬时通信。其模块逻辑组成如图1 2 。因此，v o p 可以看作是一个正在演进的多媒体服务平台，是综合语音、图像、数据的基础结构，是传统电信网、计算机网和有线电视网融合的基础技术。图1 2 ：广义v o l p 本文中所指的v o l p 技术，如果不加特别说明，仍然指传统的v o l p 技术，即其主要表示i p 电话系统中采用的技术。华中科技大学硕士学位论文 1 2 语音编码技术 v o l p 业务的关键技术之一就是语音的编码及压缩技术，采取的编解码算法和压缩技术直接影响到v o i p 业务的语音质量。语音的编码及压缩过程在网关中完成，这个过程需要先进行数字编码，转换为p c 摒码，然后经过专门的d s p 芯片进行数据压缩，最后再形成i p 包数据的形式，以适合i p 网络上的传输带宽。语音信号是随时间而变的一维信号。语音编码技术伴随着语音的数字化而产生，主要应用在数字语音通信和数字语音存储两个领域。语音压缩是语音编码技术的一项主要内容，即是研究如何在尽量减少失真的情况下，采用各种信源编码技术减小语音信号的冗余度，并充分利用人耳的听觉掩蔽效应，高效率对模拟语音信号进行数字表达，而仍能恢复出可懂度甚至自然度很好的语音。语音编码技术的研究开始于2 0 世纪3 0 年代d u d d l e y 发明声码器( v o c o d e r ) ，但直到7 0 年代中期，除了p c m ( 脉冲编码调制) 和a d p c m ( 自适应差分脉冲编码调制) 取得较好进展之外，中低比特率语音编码一直没有大的突破。1 9 8 0 年美国公布了一种2 4 k b s 的线性预测编码标准算法l p c 一1 0 以后，在普通电话带宽信道中传输数字电话终于成为了现实。除了p c m 、a d p c m 、m ( 增量调制) 、l p c ( 线性预测编码) 、m e l p c ( 多脉冲激励线性预测编码) 声码器之外，美国于1 9 8 8 年又公布了4 8 k b s 的c e l p ( 码激励线性预测编码) 语音编码标准算法、欧洲则推出了1 6 k b s 的r e l p ( 规则脉冲线性预测编码) 算法，其语音质量都能达到高音质。这些算法都可以用单片数字信号处理器实时实现，从而在移动通信中得到广泛应用，对通信事业的发展起了重要的推动作用。近十年来，语音编码技术的理论研究取得了突飞猛进的发展，在国际标准化工作中堪称为最活跃的研究领域。就语音编码的现状而言，码率达1 6 k b s 和8 k b s 的技术已经标准化和产品化，具备比较完善的理论和技术体系，并已进入了实用阶段。而码率达4 8 k b s 已有区域性标准，但这一码率区间的语音编码仍是国际标准制定和使用产品竞争的热点。今后的研究焦点则将逐步转向更低的码率。国际电信联盟( i t u - - i n t e m a t i o n a lt e l e c o m m u n i c a t i o n su n i o n ) 在制定全球通信标准的过程中承担了重要责任。针对近些年来由于语音编码技术的突破性发展而出现的众多实用的高质量语音编码算法及其应用，i t u 和一些地区标准协会已制定了一系列语音编码标准【2 】 3 】【4 】，为应用在通信网中的各种语音编码器的兼容性提供了有力的保证。表1 1 中列出了i t u 和一些地区标准协会制定的语音编码协议的基本参数。语音压缩编码，按照传统的概念，可分为波形编码、参数编码( 声码器) 和混 1 华中科技大学硕士学位论文和编码三类：按编码后传输所需的数据速率来分，可分为高速率( 3 2 k b s 以上) ，中高速率( 1 6 3 2 k b s ) ，中速率( 4 8 1 6 k b s ) ，低速率( 1 2 4 8 k b s ) 和极低速率( 1 2 k b s 以下) 五类。表1 1 语音编码标准编码速率编码算法标准 m o s 评制定年主要用途 k b s分代 i 6 4u 俄律p c mg 7 l l4 i1 9 7 2长途电话网 l4 0 3 2 2 4 1 6a d p c mg 7 2 6 3 8 51 9 9 0视频会议 1 6l d c e l pg 7 2 8 3 6 l1 9 9 2分组交换网数字蜂窝系 8c s a c e l p g 7 2 9 ( a ) 3 91 9 9 6 统 5 3 6 3 a c e l p m p m l q g 7 2 313 91 9 9 6多媒体通信波形编码技术力图使重建语音波形保持原语音信号的波形形状，即在编码端以波形逼近为原则对语音信号进行压缩编码，解码端根据这些编码数据恢复出语音信号的波形。它具有语音质量好、适应能力强、抗噪性能高等优点，但所需要的编码速率高，通常在6 4 1 6 k b s 的速率上能给出高的编码质量。而参数编码技术则力图使重建语音信号具有尽可能高的可懂性，从听感角度注重语音本身的重现。它通常都是基于某种语音产生模型，在编码端分析出该模型参数并选择合适的方式对其进行高效率的编码，解码端则利用这些参数和语音产生模型重新合成语音。它具有低编码速率的优点，可低至2 4 1 ，2 k b s ，但语音音质差，而且对环境噪声比较敏感。混和编码技术则克服了波形编码和参数编码的弱点，同时又结合了二者各自的长处，是上述两类方法的有机结合，其编码速率一般在1 6 2 4 k b s 之间。由于近年来在语音编码技术研究中，各种新算法、新概念的不断涌现，采用上述概念进行分类的界限已显得越来越模糊。 1 2 1 波形编码与变换域编码波形编码( 包括变换域编码) 是不依赖模型假定的语音编码方法。以波形逼近为原则，直接在时域或在交换域进行编码，因此压缩率比较低，但易获得较高的重建语音质量。这其中比较成熟的算法包括： 1 脉冲编码调制( p c m ) 2 自适应预测编码( a p c ) 3 自适应差分脉冲编码调制( a d p c m ) 4 华中科技大学硕士学位论文 4 变化域编码( t c ) 和子带编码( s b c ) 1 2 2 参数编码和混和编码基于模型假定的编码方法可以在更大程度上对语音信号进行压缩。模型假定包括语音产生模型和听觉模型两个方面。基于全极点声道模型的l p c 声码器和众多由其演变而来的混和编码方法具有相当的实用价值。 l 线性预测声码器( l p c 声码器) l p c 声码器是应用最成功的低速率语音编码器，其基于全极点声道模型的假定，采用线性预测分析合成原理，对模型参数和激励参数进行编码传输，可以很低的比特率传输可懂的语音。美国政府于1 9 8 0 年公布了24 k b s 的l p c 1 0 语音编码联邦标准算法( f s 一1 0 1 5 ) 。l p c 声码器的原理框图如图1 3 所示：倒l3 ：l p c 芦鲻器但是由于模型过于简单，再加上用全极点模型近似的声道滤波器有一定的局限性，以及数值估计的准确性不高，l p c 声码器的语音质量不高。 2 基于合成分析法的线性预测编码( a b s l p c ) 基于合成分析法的线性预测编码包括多脉冲线性预测编码( m p l p c ) 、规则激励线性预测编码( r p e l p c ) 、码激励线性预测编码( c e l p c ) 等，也称为混和编码。混和编码算法均保留了声道模型的假定，而利用波形编码准则优化激励信号。即，以使主观听觉失真最小化为准则，采用带有听觉加权的闭环搜索方法合成分析法( a n a l y s i s - - b y - - s y n t h e s i s ，a b s ) 来选取激励矢量，下图1 4 为a b s l p c 的基本结构，各种编码方法的区别就在于合成端用来表示激励信号的脉冲序列的不同。 5 华中科技大学硕士学位论文原始语音 ( a ) 分析端 m p l p c 多脉冲序列 r p e l p c 规则脉冲序列 c e l p 随机脉冲序列 ( b ) 合成端捌i 4 ：a b s l p c 的基本结构 c e l p 用线性预测提取声道参数，用一包含许多典型激励矢量的码书作为激励参数。用闭环搜索方法得到最佳激励信号序列的最佳码字c 及与其相对应的最佳增益园子g 。将最佳码字c 的索引及最佳增益园子g ，以及长时预测系数和短时预测系数一起编码传输。基于c e l p 的编码变化形式有很多，例如矢量和激励线性预测( v s e l p ) 编码、短时延c e l p ( l d c e l p ) 编码、代数码激励线性预测( a c e l p ) 编码、共扼结构代数码激励线性预测( c s a c e l p ) 编码等。这些编码算法均各有其特色，且已被不同的组织采纳作为其标准语音编码器。 1 3 回声消除技术与传统电话比，因特网上进行语音的实时传输，语音质量较差。影响因特网语音的因素是多方面的，而回声是影响v o i p 语音质量最关键的因素之一。v o i p 中的语音传输采用分组交换技术实现，是一种全新的电信业务，传送的语音信号要经过编码、压缩、打包等一系列处理，因而回声路径的延迟较大，且延迟抖动也较大。与传统电话相比，在电话系统中，回声问题显得尤其突出。一个典型的数字交换系统如图1 5 所示。由于回声路径的存在，话机b 的语音信号到达混合网络a 时，产生的回声会沿着话机a 的发送路径到达话机b 。于是听者b 就从听筒里听到了延迟和衰减了的自己的话音。此外，在i p 语音通讯的应用中，由于v o l p 是采用分组交换技术实现的一种全新的电讯业务，传送的语音信号要经过编码、压缩、打包等一系列的处理。因此， v o l p 系统中的回声和p s t n 中的回声相比具有如下特点： ( 1 ) 回声源较复杂 ( 2 ) 回声路径的延迟大华中科技大学硕士学位论文圈嚅f l 舌机a 型苎卜一混合 p 2 0 4 8 k b i 讹哩弋厂2 0 4 8 k b i v s混合嘲络岵掣 p c m 复用孤p c m 复用网络 e c h o o f b a 设备或者卜“ 设备或者b h 一 _ | 数宁交换数字交换设备设各鹫1 5 ：典型数字交换系统 ( 3 ) 回声路径的延迟抖动大 i t u tg 1 6 5 建议电路平均往返时延超过4 5 m s 时，或i t u - tg 1 3 l 建议单向端到端传输时延超过2 5 m s 时，应采用回声抑制措施。回声抵消器被广泛应用于数字移动通信、卫星通信以及i p 电话等场合。声学回声抵消器( a c o u s t i ce c h oc a n c e l l e r ，a e c ) 利用扬声器信号与由其产生的多路径回声的相关性，建立回声路径的语音模型，对声学回声进行估计，然后将回声估计值从近端语音采样信号中减去，从而达到消除回声的目的。根据存储器大小的不同，a e c 可用来消除各种延迟的回声。对自适应算法的要求是：收敛速度快、计算复杂度低、稳定性好和失调误差小。虽然许多自适应算法理论上用于实现回声抵消都是可行的，但在大多数情况下，简单、稳健的算法比复杂的算法更可取，如 l m s 自适应算法，计算量低，稳定性和算术特性好，得到了广泛应用。基于一些特定的要求，变形出一些改进的l m s 算法。这些改进分别从回声抵消器的各个模块着手，旨在提高回声抵消的效果，抑制噪声，减小计算量。根据回声抵消器的功能要求，一个完整的回声抵消器需要有至少以下几个模块； ( 1 ) 自适应算法滤波器用于建立回声路径的模型以估计远端信号可能产生的回声，并从本地输入信号中减去该估计的回声。 ( 2 ) 工作模式检测器包括双端通话状态( d o u b l e , t a l k - d t ) 检测和自适应算法滤波器控制。通过判断d t 模式还是单端通话状态( s i n g l e t a l k s t ) 模式，以使回声估计器工作于正确的模式。华中科技大学硕士学位论文 1 4 双音多频技术双音多频技术主要用于在电话频段内传送简单的操作信号，编码器将数字信号转化成双音信号传送到交换机；解码器从双音信号中检测频率信息，转化为数字信号。d t m f 系统中共有8 个频率，分为4 个低音行频( 6 9 7 、7 7 0 、8 5 2 、9 4 l h z ) 、4 个高音列频( 1 2 0 9 、1 3 3 6 、1 4 7 7 、1 6 3 3 h z ) 。图1 5 显示了频率和电话按键的对应关系。与单音编码不同，d t m f 编码是采用8 中取2 的方式，从高低两个音组中各取一个音频复合而成来代表0 9 列频十个号码和其他功能码、# 等，这8 1 2 0 9 h z1 3 3 6 h ：1 4 7 7 h z1 6 3 3 h z 个音频信号的各频率间不存在谐波关系，大大减少了虚假信号的干扰， 6 9 7h z 圈国园口因而d t m f 信号工作可靠性高，抗干扰能力很强。行频7 7 0 h z幽幽倒u 在d t m f 编码器中，每次按键8 5 2 h z 网冈冈厂| 中断，分别产生一段给定时间的静音一一一一信号与数字信号。根据a t & t 技术规 9 4 1h z 卜l 卜ih iii 范，在l o o m s 时间片内，d t m f 信号持续不少于4 5 m s 且不多于5 5 m s 的囤i 6 ，d t m f 频率与按键对应表时间。d t m f 信号编码是通过产生两个频率的正旋波信号，然后叠加而成，而正弦波信号的产生是利用正弦波自身的相关性通过迭代运算计算得来。在d t m f 解码器中，使用8 个数字滤波器连续地在输入信号数据流中检测8 个d t m f 频率以搜索d t m f 信号。数字滤波器采用由d f t 算法推导出的g o e r t z e l 线性滤波算法。滤波器在n = 点的输出v k o v ) 等于d f t 在。严2j r k 的值y k o v ) ，由此计算各频率分量的能量幅值，然后根据行频最大点和列频最大点确定两个有效频率点，最后确定是哪个数字。为了能够有效地检测出d t m f 信号，减少误检率，要通过几次检测。第一次检测是检测收到的d t m f 信号长度有没有达到足够的频率分辨率，如果达到了那有效频率点的d f t 值应该大于一个阀值( t h rs i g ) 。第二次检测是比较两个有效频率点的能量差，如果是有效d t m f 信号则还差值应该小于一个阀值( t h r。第三次检测是比较行频能量值之间的差值以及列频能量值的差_twi) 值，如果是一个有效d t m f 信号，那这个差值应该大于一个阀值( t h rr e l ) 。第四次检测是为了从语音和音乐中检测出d t m f 音就要对8 个频率的二次谐波能量进行计算，因为语音和音乐有大量的谐波分量，而d t m f 信号没有谐波分量，所以如果华中科技大学硕士学位论文是有效的d t m f 信号，那二次谐波的能量值应该小于一个阀值( t h r 一2 n d ) 。如果通过以上四次检测，那该信号就是有效的d t m f 信号然后再通过有效频率点的组合就能得到数字。 1 5 静音检测技术一般人们进行电话交谈时，5 0 时间是在聆听对方说话的静默时间，而l o 时间为说话时短暂停顿的静默时间，可见在全双工电话交谈时，只有4 0 左右的时间是有效的讲话，所以在谈话的静默阶段停止发送语音可以有效地减少语音的比特率。静音检测是根据入说话有问断性的特点，检测和分离出有效的语音片段，对有效语音片段和静音片断分别进行处理。静音检测的关键是如何检测出说话者处于不发声状态，即话音活动性检测( v a d ) 。静音检测有两个技术难点，其一是如何在嗓音较大的环境下检测出静音i 其二是剪音问题。因为在说话者从说话状态到静默状态或从静默状态到说话状态的转变过程中总会有一段很微弱的话音部分，而这部分话音很可能被当作静音丢掉。静音检测为本文的重点内容将在第二章有详细叙述。 1 6 网络通话质量保证技术 i p 网络本身在实时数据应用上有一定的欠缺，表现在时延，丢包和乱续等方面。对于时延一般采取在收端丌辟一定大小的缓存，以消除抖动现象。由于网络是不断变化的，不同地方，不同时间的延时都会是不同的，为了保证无时延和丢包，可以把消除抖动的缓存设定为最大延时时间，使收端从t 开始解码输出，如图1 - 6 所示。，图1 7 ：抖动问题但这将导致每一个包都必须延时f 。时间。实质上，一定的丢包是可以容忍的。假设，。改为t ：，那么虽然有一定的丢包，但端到端的延时时间却减小了。因此要选择合适的延时算法以尽可能的在允许的丢包率范围内减小延时缓冲。现在一般采用自适应的缓冲技术，即缓冲随着网络的变化面变化，这种技术在静音的时候调整整 9 华中科技大学硕士学位论文个网络的延时缓冲，并且根据缓冲的大小，增长和缩短静音的时间，以使对语音质量的影响尽量减小。由于实时性要求，一般在应用层采取丢包恢复处理以提高音质。现在国际上发展的非反馈方式的语音丢包恢复技术，可对网络实时语音包传输进行有效的差错控制，在保证低时延的情况下提高数据准确性，以达到提高音质的目的。这些技术主要分为有冗余度和无冗余度恢复技术两大类。有冗余度恢复技术实质上是在网络传输的语音包流中加入一些冗余信息。当语音包丢失时，可通过收到的冗余信息将其恢复过来。它一般需要在发送端设置编码器，接收端设置解码器，因此适用面较窄。无冗余度丢包恢复技术无需编解码器，一般只需在接收端增加一个处理单元即可，数据包流中无冗余信息，它不增加带宽，不消耗网络带宽，且时延较小，比较适合于在语音实时传输中应用。无冗余度方法在本质上是在接受端对丢包附近相关数据包经过一定算法优化处理来估算丢失的数据包。利用人的生理特点，以达到 “欺骗”人耳朵的目的。图18 ：各种丢包恢复技术的比较无冗余度恢复的方法比较多，主要分为以下几类： i 、内插法 2 、插值法 3 、状态插值法上图为几种算法的复杂度和质量比较，从图中可以看出，复杂度越高，恢复质量越好。一般来说，当对语音质量要求较低时，可采用算法复杂度较低的包复制衰减法，波形替代法；对语音质量要求较高时，可采用质量较好的时域修正法和状态 0 华中科技大学硕士学位论文插值法。当连续丢包时，也可以采取逐步衰减的办法。当连续丢包数较多，超过丢包恢复的极限时，后面的丢包就用静音替代。 1 7 本文的主要研究内容由于基于口技术，v o l p 目前语音质量尚不够好。其原因和i p 网络的特点有很大的关系，表现在： ( 1 ) 时延丢包在交互式语音对话中时延过大或抖动会造成间隔感。这主要是由于各种结构互联而成的i n t e r n e t 时刻处于不断变化之中，因而在i n t e r n e t 中点到点的每一个数据包在网络中经历的延时会由于网络的变化而不相同。数据包在网络中传输时一旦遇到网络阻塞，就会被堵在各个网络节点，如果堵在各个网络节点的分组数量超过节点的缓冲极限，就会有部分数据丢失，即丢包。此外，由于实时话音业务有严格的延时限制，长时l 色j 的延迟是不能承受的。 ( 2 ) 语音编码由于带宽的限制，v o i p 和语音编码技术是分不开的。目前的各种成熟的语音编码技术，由于量化、压缩的原因会对语音造成一定影响。但是经过人们的长期研究，目前几种较成熟的语音编码算法所能够获得的语音质量，比如 h 3 2 3 协议栈所推荐的诸如g 7 2 3 ，g 7 2 9 等算法，在语音效果上面能够达到4 0 左右的m o s 得分，基本上能够和p s t n 的效果相比。 ( 3 ) 回声回声现象实际上也存在于p s t n 电话网络，但是由于i p 网络的前述特点( 1 ) 和( 2 ) 中的编码算法时延，回声现象在v o l p 中更加明显，是影响语音质量的主要原因之一。实现口电话网关中的语音处理，呼叫控制以及在静音抑制问题方面对通话质量进行改善，是本文作者在硕士研究生阶段参与的主要科研工作。本论文是在对该研究工作中的静音检测模块研究、设计和实现的总结基础上完成的。本文在分析比较大量现在常用的一些算法的基础上，集成各种算法的优点，提出了新的复合型算法，并且结合实际应用，证明这些方法，在效果、计算量等方面能够很好的胜任v o i p 的要求。全文共分五章： ( 1 ) 第一章介绍整个v o i p 的背景知识。 ( 2 ) 第二章介绍了静音检测算法的发展，重点介绍了现在较为常用了集中算法，分析比较了其优缺点。并在其基础上提出了本文的算法。 ( 3 ) 第三章介绍了整个系统的设计和实现，重点介绍底层程序接口的设计和代码优化方法。华中科技大学硕士学位论文 ( 4 ) 第四章介绍了本文静音检测算法的性能测试。通过对本文的复合型算法及其两个子算法的性能测试，可知复合型算法很好的综合了两个子算法的优点，在检测性能上有较大的提升。 ( 5 ) 第五章全文总结。华中科技大学硕士学位论文 2 静音检测的原理和相关算法的研究 2 1 静音检测的原理在因特网上传送的语音数据，相对来说是对误码不敏感类型的数据，一般不需要误码重传机制来保证语音数据的准确率，而接收方并不严格要求声音分组能严格按序到达，少量的不按序到达只会造成语音的偶尔抖动。语音在因特网上的传输是没有q o s 保证的，而由于网络拥塞等原因造成的网络传输的包丢失以及时延是影响语音传输的核心问题。面静音检测技术可以有效剔除静默信号，从而使话音信号占用的带宽要求迸一步降低到3 5 k b s 左右，将带宽的利用率提高一倍以上。静音检测，又称语音活动侦测( v a d ) 。静音检测的目的是从声音信号流里识别和消除长时间的静音期，使得在不降低业务质量的情况下，能达到节省话路资源的作用，它是l p 电话应用的重要组成部分。静音检测不仅可以节省宝贵的带宽资源，还可以有利于减少用户感觉到的端到端的时延，提高通话质量。用户打电话时。并不是总在占用通话信道。根据传统电话业务的统计，一方用户实际占用通话信道的时间不会超过整个通话时间的4 0 。这主要包括以下几个方面的原因：一是正在听对方说话；二是由于思考，稍事休息等原因引起的一段话之间的停顿；三是说话中间的停顿，如犹豫，呼吸，口吃等。第一种情况下停顿间隙长而出现频率低；第三种情况停顿间隙短而出现频率高；第二种情况界于一、三种情况之间。语音源的这种特性叫做开关特性，有时也叫话音静默特性。在用户没有讲话时，就没有语音分组的发送，从而可以进一步降低语音比特率。当用户的语音信号能量低于一定门限值时就认为是静默状态，也不发送语音分组。当检测到突发的活动声音时才生成语音信号，并加以传输。运用这种技术能够获得大于5 0 的带宽。在进行静音检测时有两个问题需要注意 5 】：一是背景噪声问题，即如何在较大的背景噪声中检测静音：二是前后沿剪切问题。所谓前后沿剪切就是还原语音时，由于从实际讲话开始到检测到语音之间，有一定的判断门限和时延，有时语音波形的开始和结束部分会作为静音被丢掉，还原的语音会出现变化，因此需要在突发语音分组前面或后面增加一个语音分组进行平滑以解决这一问题。在实际使用中，如果出现长时间的静默，会使用户感到很不自然。因此实际上接收端常常会在静音期间发送一些分组，从而生成使用户感觉舒服一些的背景噪声，即所谓的舒适噪声。一般静音检测的算法要满足以下5 个要求1 6 】： 1 3 华中科技大学硕士学位论文 l 、能在不影响话音质量的前提下去除尽可能多的静音( 长度为1 5 0 m s 或更长) ； 2 、必须用软件来实现，所以它必须有较低的复杂度，它的处理延时将计算在总延时中： 3 、因为它在一个有限资源的环境中实现，所以它需要一一个容量较小的缓冲区； 4 、它必须能在一帧中辨认出语音和静音，因为存储一帧说话将延长端对端的时间延时； 5 、它应该更擅长检测长时间的静音，而不是短暂的静音：静音检测经过技术很多年的发展，已经有很多成熟的静音检测算法投入到实际应用中，这些算法一般是利用语音和噪音在信号特性上的不同，通过软件计算方法提取这些特性值并与定的阀值进行比较，从而得到判决结果。以前常用的算法有短时能量检测( 7 】过零率检测和高斯检测1 0 川1 等算法，而近几年又发展出一些静音检测方法，有自适应能量检测，线性预测模型检测【1 4 i ，相关性检测，基音周期检测f 16 j 【。7 1 和概率检测 1 9 f 2 0 2 等方法，本文将这些算法分为两类：基于时域的算法和基于频域的算法。接下来将会具体介绍这些算法，以及比较它们的优缺点。 2 2 基于时域的静音检测算法 2 2 1 自适应能量检测在信噪比不是很低的情况下，语音的能量总是要大于背景噪声的能量，所以自适应能量检测利用语音和噪音在能量上的这种差别迸行检测，该算法通过比较输入信号的能量与语音能量阀值的大小，来判断输入的信号是否为语音。输入信号每帧的能量可由式( 2 1 ) 得出【垃】： n e ，= z 2 ( f ) ( 2 1 ) i ：0 式( 2 1 ) 中e j 表示第j 帧的能量，x ( f ) 为输入的信号，n 为帧长而初始化的阀值是由静默时期的信号能量计算得出，一般做法是认为通话丌始前2 0 0 m s 是没有语音的，所以初始化的阀值是由前2 0 帧的数据计算得出： 1 4 华中科技大学硕士学位论文，：磊1 2 0e 。 z u ：0 ( 22 ) 式( 2 2 ) 中，为初始化的阀值所以当e ， k e ，时表示第j 帧为语音，反之表示为噪音，其中k 为一常数，一般k 为2 。但是由于背景噪声并非固定不变如果语音能量阀值是固定的话，在背景噪声有变化的情况就会导致检测性能急剧下降，所以语音能量阀值应该可以自动跟踪背景噪声的变化，从而保证该算法在背景噪声有变化的情况下也能准确的检测出静音。因为背景噪声是非平稳的，所以阀值也要根据噪声能量进行自适应的改变，变化方法见式( 2 3 ) ： f r n 。= ( 1 一p ) e 。h + p e , m 。 ( 2 t 3 ) 式( 2 t 3 ) 中为新的阀值。为旧的阀值 e 。为背景噪声能量而p 为加权值，( o 盯。时就说明背景噪声能量变化较大，所以p 值是由d 一和a o l d 比值决定的，下表为p 根据不同吒，。和盯。比值的取值。 1 5 华中科技大学硕士学位论文表2 1p 的取值 ! 婴x 1 2 5 0 2 5 盯a i d 1 2 5 垒：1 1 0 0 2 0 6 * q 1 1 0 垒：1 0 0 0 1 5 o o m 1 0 0 纯 ol o 盯“ 自适应能量检测算法能够在背景噪声比较大的环境下较好的检测出静音，但是由于算法是通过能量的差别来分别语音和静音，所以很难有效的检测出能量大小接近或低于背景噪声的语音。该算法最大的优点就是结构简单，计算复杂度低，容易实现，如果配合别的算法效果会更好。图2 1 就是该算法检测的效果图：图2 1 ：自适应能量检测效果图由图2 1 可知，该检测算法对能量较大的信号检测性能较好，而对于一段语音的结尾和起始处的检测的错误概率较大。一 1 6 华中科技大学硕士学位论文 2 2 2 自相关检测自相关检测是利用语音和噪音在相关性上不同的特性进行区别检测，背景

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（通信与信息系统专业论文）voip系统中静音检测的设计和实现.pdf

文档简介

温馨提示

最新文档

评论

（通信与信息系统专业论文）voip系统中静音检测的设计和实现.pdf

文档简介

温馨提示

最新文档

评论

相关文档