已阅读5页,还剩46页未读, 继续免费阅读
(通信与信息系统专业论文)voip系统中静音检测的设计和实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华中科技大学硕士学位论文 摘要 v o i p 技术属于分组语音通信的范畴,最早的研究始于2 0 世纪7 0 年代初,并 随着i n t e r n e t 技术的飞速发展而从理论研究转为实际应用。采用v o l p 技术的i p 电 话足以i p 为标志的网络分组化和以多媒体为目标的网络业务综合化两大主流技术 融合的结果,并成为传统电信与i p 网络优势互补的一个突破口。 目前v o i p 已经能够实现传统的p s t n 的绝大部分功能。在这基础上人们对v o l p 的语音通话质量提出了进一步的要求。但是,实时语音通信需要一定的网络传输质 量保证,而目前的i n t e m e t 不能满足这一要求,导致当前的v o i p 业务在稳定性和 服务质量上不如人意,而改善服务质量的一个重要方面就是减少对网络资源的占 用。 而静音检测技术就是根据人们通话的特点,剔除无用的静音,从而节省网络带 宽。作者结合参与的v o 口网关的开发工作,对静音检测技术进行了深入的研究, 对现在常用的静音检测算法进行分析和比较,并对其进行改进和提高,提出了一种 复合型静音检测算法,该算法由两部分组成:自适应能量检测和线性预测模型检测。 自适应能量检测通过比较信号的短时能量大小来检测静音而线性预测模型检测通 过分析静音和语音在信号模型上的差别来检测静音,该复合型算法集中两种算法优 点,在检铡性能上有较大的提升。 论文首先阐述了i p 电话的基本原理,技术构成和各种可能的设计方案,在此 基础上提出了对静音检测技术进行研究的重要性。在目前国际上新出现的各种有关 静音检测算法的基础上,针对v 0 i p 的要求和d s p 芯片的特点,作者对其进行了理 论上的改进和实现技术上面的优化。 关键词: v o i p ;静音检测:自适应能量检测;线性预测 华中科技大学硕士学位论文 a b s t r a c t t h ev o i pt e c h n o l o g yb e l o n g st ot h ec a t e g o r yo fv o i c ec o m m u n i c a t i o no np a c k e t s w i t c h e dn e t w o r k s t h ee a r l i e s ts t u d ys t a r t e da tt h eb e g i n n i n go f7 0 sl a s tc e n t u r y , a n dt h e f o c u sh a sb e e nt u r n e df r o mt h e o r e t i c a lr e s e a r c ht op r a c t i c a la p p l i c a t i o nw i t ht h er a p i d d e v e l o p m e n to fi n t e m e t t h e i pp h o n eu s i n gv o l pt e c h n o l o g yi st h er e s u l to ft h e c o m b i n a t i o no fs u c ht w oc h i e ft e c h n o l o g i e s ,t h ep a c k e tt e c h n i q u eo nn e t w o r kt a k i n gi p a si t ss i g n ,a n dt h ei n t e g r a t i n gt e c h n i q u eo fs e r v i c e so nn e t w o r kt a k i n gm u l t i m e d i aa si t s g o a l i th a sb e c o m e t h ej o i n to ft r a d i t i o n a lt e t e c o ma n di pn e t w o r k ,m u t u a l l ys u p p l y i n g w i t he a c ho t h e r sa d v a n t a g e s u p t on o wv o l ph a si m p l e m e n t e dam a j o r i t yp a r to ft r a d i t i o n a lp s t nf u n c t i o n s , b a s e do nw h i c hp e o p l er a i s e da d d i t i o n a l r e q u i r e m e n to ns p e e c hq u a l i t y t h a ti sn o t s a t i s f i e di nv o l pn o w 。t h em a j o rf a c t o rt oi m p r o v es p e e c hq u a l i t yi st od e c r e a s et h e o c c u p a t i o no f t h en e t w o r k r e s o u r c e s v o i c e a c t i v i t yd e t e c t i o n ( v a d ) c a n c u l lt h eu n l e s s s p e e c ha c c o r d i n g t o c h a r a c t e r i s t i c so fp e o p l e ss p e e c ht oe c o n o m i z et h en e t w o r kr e s o u r c e s u n d e rs u c ha b a c k g r o u n d a sap a r to f t h er e s e a r c hw o r ko nv b m g a t e w a y , t h ea u t h o rc a r r i e dt h r o u g h s o m ed e e ps t u d yi n t ov a d b ya n a l y z i n ga n dc o m p a r i n gt h ev a da l g o r i t h mt h a ti s l a t e l yp r e v a l e n t ,i d e m o n s t r a t eaf u s i o nv a da l g o r it h mw h i c hc o n s i s t so ft w o p a r t s - - a d a p t i v ee n e r g yd e t e c t i o n ( a e d ) a n dl i n e a rp r e d i c t i o nm o d e ld e t e c t i o n ( l p m d ) a e dt e s t st h en o i s eb yc o m p a r i n gt h ee n e r g yo ft h es i g n a l ,w h i l el p m dt e s t st h en o i s e b ya n a l y z i n gt h ed i f f e r e n c eb e t w e e nn o i s ea n ds p e e c hi nt h es i g n a lm o d e l ,t h i sf u s i o n a l g o r i t h mh a v e t h e a d v a n t a g e s o ft w o a l g o r i t h m s a n d g r e a t l ya d v a n c e s i nt h e c a p a b i l i t yo f t e s t i n g t h ea r t i c l ef i r s ti n t r o d u c e ss o m eb a c k g r o u n dk n o w l e d g ea b o u ti pp h o n e ,n e c e s s a r y t e c h n o l o g i e sa n dp o s s i b l es o l u t i o n s 。t h ei m p o r t a n c eo fs t u d ya b o u tv a d i sd e s c r i b e d b a s e do ns o m el a t e s tv a d t e c h n o l o g i e s ,a i m i n ga td s pi m p l e m e n t a t i o n ,a ni m p r o v e m e n t i nt h e o r ya n do p t i m i z a t i o no n p r a c t i c a li sg i v e n o ne v e r ym a i n p a r t o f v a d k e y w o r d : v o l p ;v o i c ea c t i v i t yd e t e c t i o n ;a d a p t i v ee n e r g yd e t e c t i o n ;l i n e a rp r e d i c t i o n i 【 独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他 个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集 体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:馘绞 日期: ? 。呻年争月2 7 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校 有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅 和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数 据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密口,在年解密后适用本授权书。 本论文属于不保密囱。 ( 请在以上方框内打“”) 学位论文作者签名:破彼 日期:妒争年中月矽同 指导教师签名王媾 日期:矗噼e 月卵日 华中科技大学硕士学位论文 1 绪论 近几年来,i p 技术及其业务高速发展,并已进入了传统的电信领域,其突破 口就是v o i c eo f i p ( w o i p ) 。作为一门综合性技术,完整的v o i p 系统涉及计算机网络、 电信技术、信令协议、语音技术等多个领域。自1 9 9 5 年以色列的v o c a l t e c 公司推 出的第一项实用的v o l p 工业产品i p 电话软件以来,v 0 i p 受到业内的高度重视, 其标准化工作进展迅速,相关产品不断涌现,这预示着以i p 为基础的新一代多媒 体信息通信网络即将出现。数字语音通信是目前电信网络中最重要和最普通的业 务,商界和民众对移动电话、i p 电话持续增长的需求,以及当前多媒体通信的发展, 都有力地证明了数字语音通信的生命力。 通过广泛的采用i m t e m e t 和全球i p 互联的环境,数字语音通信系统与模拟语音 通信系统相比具有抗干扰性强、保密性好、易于集成化等特点,并可提供比传统业 务更多、更好的业务。但是,实时数字语音通信需要定的网络传输质量保证,目 前的i n t e m e t 尚不能满足这一要求,导致当前的v o i p 业务在稳定性和服务质量上不 尽如人意。压缩语音信号的传输带宽,降低电话信道的传输码率,同时具有不逊于 传统公共交换式电话网络( p u b l i cs w i t c h e d t e l e p h o n e n e t w o r k p s t n ) 的通讯质量, 一直是人们所追求的目标,语音质量改善技术在实现这一目标的过程中担当着重要 角色。在目前正蓬勃兴起的移动通信和多媒体通信中,语音质量改善的相关技术已 经成为其中相当重要的技术。 1 1v o l p 技术概述 传统的电信交换网络以电路交换为基础,可以保证为用户提供足够的带宽,提 供低时延、低失真的实时通信服务,但其带宽的利用率不高。由于数据通信具有很 强的业务突发性,若按照峰值速率来分配电路带宽,则会造成资源的严重浪费:若 按照平均速率来分配的话,则会造成大量的数据丢失。在这种背景之下,提出了分 组交换思想,并成为i p 网络的基础。分组交换提供无连接的服务,同一链路在不 同的时刻可以传送不同通信会话的数据,实际上形成了对网络资源的统计复用,提 高了网络带宽资源的利用率,而且其存储转发机制可以依据网络的实际状态动态地 选择路由,在一定程度上提高了通信的可靠性。 i p 电话系统就是指在以i p 为网络层协议的计算机网络中进行语音通信的系 统。其实现原理是先将p s t n 传来的电话语音转换为数字信号,经过编码压缩,通 华中科技大学硕士学位论文 过t c p i p 协议网络和其他种类的数据包( 数据、视频、图片等) 一同传送,在接 收端经过重组、解压、合成、转换重构实时语音,再通过p s t n 送达最终受话方。 其原理框图如图1 1 所示。i p 电话系统中采用的技术通称为v o p ( v o i c eo v e ri p ) 技术。 图i1i p 电话系统原理框图 从i p 电话原理分析,v o l p 技术属于分组语音通信的范畴,最早的研究始于2 0 世纪7 0 年代初,并随着i n t e m e t 技术的飞速发展而从理论研究转为实际应用。采用 v o i p 技术的i p 电话是以i p 为标志的网络分组化和以多媒体为目标的网络业务综合 化两大主流技术融合的结果,并成为i p 网络与电信网络优势互补的突破口。 在传统电话网络业务不断发展的情况下,v o i p 的含义和设计目标超越了字面 上的含义,成为广义v o i p ,即除了电话通信以外,还可以进行交互式多媒体的实时 通信( 包括语音、图像、数据等) ,甚至还包括瞬时通信。其模块逻辑组成如图1 2 。 因此,v o p 可以看作是一个正在演进的多媒体服务平台,是综合语音、图像、数据 的基础结构,是传统电信网、计算机网和有线电视网融合的基础技术。 图1 2 :广义v o l p 本文中所指的v o l p 技术,如果不加特别说明,仍然指传统的v o l p 技术,即其 主要表示i p 电话系统中采用的技术。 华中科技大学硕士学位论文 1 2 语音编码技术 v o l p 业务的关键技术之一就是语音的编码及压缩技术,采取的编解码算法和 压缩技术直接影响到v o i p 业务的语音质量。语音的编码及压缩过程在网关中完成, 这个过程需要先进行数字编码,转换为p c 摒码,然后经过专门的d s p 芯片进行数据 压缩,最后再形成i p 包数据的形式,以适合i p 网络上的传输带宽。 语音信号是随时间而变的一维信号。语音编码技术伴随着语音的数字化而产 生,主要应用在数字语音通信和数字语音存储两个领域。语音压缩是语音编码技术 的一项主要内容,即是研究如何在尽量减少失真的情况下,采用各种信源编码技术 减小语音信号的冗余度,并充分利用人耳的听觉掩蔽效应,高效率对模拟语音信号 进行数字表达,而仍能恢复出可懂度甚至自然度很好的语音。 语音编码技术的研究开始于2 0 世纪3 0 年代d u d d l e y 发明声码器( v o c o d e r ) , 但直到7 0 年代中期,除了p c m ( 脉冲编码调制) 和a d p c m ( 自适应差分脉冲编 码调制) 取得较好进展之外,中低比特率语音编码一直没有大的突破。1 9 8 0 年美国 公布了一种2 4 k b s 的线性预测编码标准算法l p c 一1 0 以后,在普通电话带宽信道中 传输数字电话终于成为了现实。除了p c m 、a d p c m 、m ( 增量调制) 、l p c ( 线 性预测编码) 、m e l p c ( 多脉冲激励线性预测编码) 声码器之外,美国于1 9 8 8 年 又公布了4 8 k b s 的c e l p ( 码激励线性预测编码) 语音编码标准算法、欧洲则推出 了1 6 k b s 的r e l p ( 规则脉冲线性预测编码) 算法,其语音质量都能达到高音质。 这些算法都可以用单片数字信号处理器实时实现,从而在移动通信中得到广泛应 用,对通信事业的发展起了重要的推动作用。 近十年来,语音编码技术的理论研究取得了突飞猛进的发展,在国际标准化工 作中堪称为最活跃的研究领域。就语音编码的现状而言,码率达1 6 k b s 和8 k b s 的 技术已经标准化和产品化,具备比较完善的理论和技术体系,并已进入了实用阶段。 而码率达4 8 k b s 已有区域性标准,但这一码率区间的语音编码仍是国际标准制定 和使用产品竞争的热点。今后的研究焦点则将逐步转向更低的码率。 国际电信联盟( i t u - - i n t e m a t i o n a lt e l e c o m m u n i c a t i o n su n i o n ) 在制定全球通信 标准的过程中承担了重要责任。针对近些年来由于语音编码技术的突破性发展而出 现的众多实用的高质量语音编码算法及其应用,i t u 和一些地区标准协会已制定了 一系列语音编码标准【2 】 3 】【4 】,为应用在通信网中的各种语音编码器的兼容性提供了 有力的保证。 表1 1 中列出了i t u 和一些地区标准协会制定的语音编码协议的基本参数。 语音压缩编码,按照传统的概念,可分为波形编码、参数编码( 声码器) 和混 1 华中科技大学硕士学位论文 和编码三类:按编码后传输所需的数据速率来分,可分为高速率( 3 2 k b s 以上) , 中高速率( 1 6 3 2 k b s ) ,中速率( 4 8 1 6 k b s ) ,低速率( 1 2 4 8 k b s ) 和极低速 率( 1 2 k b s 以下) 五类。 表1 1 语音编码标准 编码速率 编码算法标准 m o s 评制定年 主要用途 k b s分代 i 6 4u 俄律p c mg 7 l l4 i1 9 7 2长途电话网 l4 0 3 2 2 4 1 6a d p c mg 7 2 6 3 8 51 9 9 0视频会议 1 6l d c e l pg 7 2 8 3 6 l1 9 9 2分组交换网 数字蜂窝系 8c s a c e l p g 7 2 9 ( a ) 3 91 9 9 6 统 5 3 6 3 a c e l p m p m l q g 7 2 313 91 9 9 6多媒体通信 波形编码技术力图使重建语音波形保持原语音信号的波形形状,即在编码端以 波形逼近为原则对语音信号进行压缩编码,解码端根据这些编码数据恢复出语音信 号的波形。它具有语音质量好、适应能力强、抗噪性能高等优点,但所需要的编码 速率高,通常在6 4 1 6 k b s 的速率上能给出高的编码质量。而参数编码技术则力图 使重建语音信号具有尽可能高的可懂性,从听感角度注重语音本身的重现。它通常 都是基于某种语音产生模型,在编码端分析出该模型参数并选择合适的方式对其进 行高效率的编码,解码端则利用这些参数和语音产生模型重新合成语音。它具有低 编码速率的优点,可低至2 4 1 ,2 k b s ,但语音音质差,而且对环境噪声比较敏感。 混和编码技术则克服了波形编码和参数编码的弱点,同时又结合了二者各自的长 处,是上述两类方法的有机结合,其编码速率一般在1 6 2 4 k b s 之间。由于近年 来在语音编码技术研究中,各种新算法、新概念的不断涌现,采用上述概念进行分 类的界限已显得越来越模糊。 1 2 1 波形编码与变换域编码 波形编码( 包括变换域编码) 是不依赖模型假定的语音编码方法。以波形逼近 为原则,直接在时域或在交换域进行编码,因此压缩率比较低,但易获得较高的重 建语音质量。这其中比较成熟的算法包括: 1 脉冲编码调制( p c m ) 2 自适应预测编码( a p c ) 3 自适应差分脉冲编码调制( a d p c m ) 4 华中科技大学硕士学位论文 4 变化域编码( t c ) 和子带编码( s b c ) 1 2 2 参数编码和混和编码 基于模型假定的编码方法可以在更大程度上对语音信号进行压缩。模型假定包 括语音产生模型和听觉模型两个方面。基于全极点声道模型的l p c 声码器和众多由 其演变而来的混和编码方法具有相当的实用价值。 l 线性预测声码器( l p c 声码器) l p c 声码器是应用最成功的低速率语音编码器,其基于全极点声道模型的假 定,采用线性预测分析合成原理,对模型参数和激励参数进行编码传输,可以很低 的比特率传输可懂的语音。美国政府于1 9 8 0 年公布了24 k b s 的l p c 1 0 语音编码 联邦标准算法( f s 一1 0 1 5 ) 。l p c 声码器的原理框图如图1 3 所示: 倒l3 :l p c 芦鲻器 但是由于模型过于简单,再加上用全极点模型近似的声道滤波器有一定的局限 性,以及数值估计的准确性不高,l p c 声码器的语音质量不高。 2 基于合成分析法的线性预测编码( a b s l p c ) 基于合成分析法的线性预测编码包括多脉冲线性预测编码( m p l p c ) 、规则激 励线性预测编码( r p e l p c ) 、码激励线性预测编码( c e l p c ) 等,也称为混和编码。 混和编码算法均保留了声道模型的假定,而利用波形编码准则优化激励信号。即, 以使主观听觉失真最小化为准则,采用带有听觉加权的闭环搜索方法合成分析 法( a n a l y s i s - - b y - - s y n t h e s i s ,a b s ) 来选取激励矢量,下图1 4 为a b s l p c 的基 本结构,各种编码方法的区别就在于合成端用来表示激励信号的脉冲序列的不同。 5 华中科技大学硕士学位论文 原始语音 ( a ) 分析端 m p l p c 多脉冲序列 r p e l p c 规则脉冲序列 c e l p 随机脉冲序列 ( b ) 合成端 捌i 4 :a b s l p c 的基本结构 c e l p 用线性预测提取声道参数,用一包含许多典型激励矢量的码书作为激励 参数。用闭环搜索方法得到最佳激励信号序列的最佳码字c 及与其相对应的最佳增 益园子g 。将最佳码字c 的索引及最佳增益园子g ,以及长时预测系数和短时预测 系数一起编码传输。 基于c e l p 的编码变化形式有很多,例如矢量和激励线性预测( v s e l p ) 编码、 短时延c e l p ( l d c e l p ) 编码、代数码激励线性预测( a c e l p ) 编码、共扼结构 代数码激励线性预测( c s a c e l p ) 编码等。这些编码算法均各有其特色,且已被 不同的组织采纳作为其标准语音编码器。 1 3 回声消除技术 与传统电话比,因特网上进行语音的实时传输,语音质量较差。影响因特网语 音的因素是多方面的,而回声是影响v o i p 语音质量最关键的因素之一。v o i p 中的 语音传输采用分组交换技术实现,是一种全新的电信业务,传送的语音信号要经过 编码、压缩、打包等一系列处理,因而回声路径的延迟较大,且延迟抖动也较大。 与传统电话相比,在电话系统中,回声问题显得尤其突出。 一个典型的数字交换系统如图1 5 所示。由于回声路径的存在,话机b 的语音 信号到达混合网络a 时,产生的回声会沿着话机a 的发送路径到达话机b 。于是听 者b 就从听筒里听到了延迟和衰减了的自己的话音。 此外,在i p 语音通讯的应用中,由于v o l p 是采用分组交换技术实现的一种全 新的电讯业务,传送的语音信号要经过编码、压缩、打包等一系列的处理。因此, v o l p 系统中的回声和p s t n 中的回声相比具有如下特点: ( 1 ) 回声源较复杂 ( 2 ) 回声路径的延迟大 华中科技大学硕士学位论文 圈嚅f l 舌机a 型苎卜一 混合 p 2 0 4 8 k b i 讹哩弋厂2 0 4 8 k b i v s混合 嘲络 岵掣 p c m 复用孤p c m 复用网络 e c h o o f b a 设备或者 卜“ 设备或者b h 一 _ | 数宁交换数字交换 设备设各 鹫1 5 :典型数字交换系统 ( 3 ) 回声路径的延迟抖动大 i t u tg 1 6 5 建议电路平均往返时延超过4 5 m s 时,或i t u - tg 1 3 l 建议单向端 到端传输时延超过2 5 m s 时,应采用回声抑制措施。回声抵消器被广泛应用于数字 移动通信、卫星通信以及i p 电话等场合。 声学回声抵消器( a c o u s t i ce c h oc a n c e l l e r ,a e c ) 利用扬声器信号与由其产生 的多路径回声的相关性,建立回声路径的语音模型,对声学回声进行估计,然后将 回声估计值从近端语音采样信号中减去,从而达到消除回声的目的。根据存储器大 小的不同,a e c 可用来消除各种延迟的回声。对自适应算法的要求是:收敛速度快、 计算复杂度低、稳定性好和失调误差小。虽然许多自适应算法理论上用于实现回声 抵消都是可行的,但在大多数情况下,简单、稳健的算法比复杂的算法更可取,如 l m s 自适应算法,计算量低,稳定性和算术特性好,得到了广泛应用。基于一些特 定的要求,变形出一些改进的l m s 算法。这些改进分别从回声抵消器的各个模块 着手,旨在提高回声抵消的效果,抑制噪声,减小计算量。 根据回声抵消器的功能要求,一个完整的回声抵消器需要有至少以下几个模 块; ( 1 ) 自适应算法滤波器用于建立回声路径的模型以估计远端信号可能产生 的回声,并从本地输入信号中减去该估计的回声。 ( 2 ) 工作模式检测器包括双端通话状态( d o u b l e , t a l k - d t ) 检测和自适应 算法滤波器控制。通过判断d t 模式还是单端通话状态( s i n g l e t a l k s t ) 模式,以 使回声估计器工作于正确的模式。 华中科技大学硕士学位论文 1 4 双音多频技术 双音多频技术主要用于在电话频段内传送简单的操作信号,编码器将数字信号 转化成双音信号传送到交换机;解码器从双音信号中检测频率信息,转化为数字信 号。d t m f 系统中共有8 个频率,分为4 个低音行频( 6 9 7 、7 7 0 、8 5 2 、9 4 l h z ) 、4 个高音列频( 1 2 0 9 、1 3 3 6 、1 4 7 7 、1 6 3 3 h z ) 。图1 5 显示了频率和电话按键的对应 关系。与单音编码不同,d t m f 编码是采用8 中取2 的方式,从高低两个音组中 各取一个音频复合而成来代表0 9 列频 十个号码和其他功能码、# 等,这8 1 2 0 9 h z1 3 3 6 h :1 4 7 7 h z1 6 3 3 h z 个音频信号的各频率间不存在谐波 关系,大大减少了虚假信号的干扰, 6 9 7h z 圈国园口 因而d t m f 信号工作可靠性高,抗 干扰能力很强。 行频7 7 0 h z幽幽倒u 在d t m f 编码器中,每次按键8 5 2 h z 网冈冈厂| 中断,分别产生一段给定时间的静音 一一一一 信号与数字信号。根据a t & t 技术规 9 4 1h z 卜l 卜ih iii 范,在l o o m s 时间片内,d t m f 信号 持续不少于4 5 m s 且不多于5 5 m s 的 囤i 6 ,d t m f 频率与按键对应表 时间。d t m f 信号编码是通过产生两 个频率的正旋波信号,然后叠加而成,而正弦波信号的产生是利用正弦波自身的相 关性通过迭代运算计算得来。 在d t m f 解码器中,使用8 个数字滤波器连续地在输入信号数据流中检测8 个d t m f 频率以搜索d t m f 信号。数字滤波器采用由d f t 算法推导出的g o e r t z e l 线性滤波算法。滤波器在n = 点的输出v k o v ) 等于d f t 在。严2j r k 的值y k o v ) ,由 此计算各频率分量的能量幅值,然后根据行频最大点和列频最大点确定两个有效频 率点,最后确定是哪个数字。为了能够有效地检测出d t m f 信号,减少误检率,要 通过几次检测。第一次检测是检测收到的d t m f 信号长度有没有达到足够的频率分 辨率,如果达到了那有效频率点的d f t 值应该大于一个阀值( t h rs i g ) 。第二次检 测是比较两个有效频率点的能量差,如果是有效d t m f 信号则还差值应该小于一个 阀值( t h r。第三次检测是比较行频能量值之间的差值以及列频能量值的差_twi) 值,如果是一个有效d t m f 信号,那这个差值应该大于一个阀值( t h rr e l ) 。第四 次检测是为了从语音和音乐中检测出d t m f 音就要对8 个频率的二次谐波能量进行 计算,因为语音和音乐有大量的谐波分量,而d t m f 信号没有谐波分量,所以如果 华中科技大学硕士学位论文 是有效的d t m f 信号,那二次谐波的能量值应该小于一个阀值( t h r 一2 n d ) 。如果通 过以上四次检测,那该信号就是有效的d t m f 信号然后再通过有效频率点的组合 就能得到数字。 1 5 静音检测技术 一般人们进行电话交谈时,5 0 时间是在聆听对方说话的静默时间,而l o 时 间为说话时短暂停顿的静默时间,可见在全双工电话交谈时,只有4 0 左右的时间 是有效的讲话,所以在谈话的静默阶段停止发送语音可以有效地减少语音的比特 率。 静音检测是根据入说话有问断性的特点,检测和分离出有效的语音片段,对有 效语音片段和静音片断分别进行处理。静音检测的关键是如何检测出说话者处于不 发声状态,即话音活动性检测( v a d ) 。静音检测有两个技术难点,其一是如何在 嗓音较大的环境下检测出静音i 其二是剪音问题。因为在说话者从说话状态到静默 状态或从静默状态到说话状态的转变过程中总会有一段很微弱的话音部分,而这部 分话音很可能被当作静音丢掉。 静音检测为本文的重点内容将在第二章有详细叙述。 1 6 网络通话质量保证技术 i p 网络本身在实时数据应用上有一定的 欠缺,表现在时延,丢包和乱续等方面。 对于时延一般采取在收端丌辟一定大小 的缓存,以消除抖动现象。由于网络是不断变 化的,不同地方,不同时间的延时都会是不同 的,为了保证无时延和丢包,可以把消除抖动 的缓存设定为最大延时时间,使收端从t 开始 解码输出,如图1 - 6 所示。 , 图1 7 :抖动问题 但这将导致每一个包都必须延时f 。时间。实质上,一定的丢包是可以容忍的。 假设,。改为t :,那么虽然有一定的丢包,但端到端的延时时间却减小了。因此要选 择合适的延时算法以尽可能的在允许的丢包率范围内减小延时缓冲。现在一般采用 自适应的缓冲技术,即缓冲随着网络的变化面变化,这种技术在静音的时候调整整 9 华中科技大学硕士学位论文 个网络的延时缓冲,并且根据缓冲的大小,增长和缩短静音的时间,以使对语音质 量的影响尽量减小。 由于实时性要求,一般在应用层采取丢包恢复处理以提高音质。现在国际上发 展的非反馈方式的语音丢包恢复技术,可对网络实时语音包传输进行有效的差错控 制,在保证低时延的情况下提高数据准确性,以达到提高音质的目的。这些技术主 要分为有冗余度和无冗余度恢复技术两大类。 有冗余度恢复技术实质上是在网络传输的语音包流中加入一些冗余信息。当语 音包丢失时,可通过收到的冗余信息将其恢复过来。它一般需要在发送端设置编码 器,接收端设置解码器,因此适用面较窄。 无冗余度丢包恢复技术无需编解码器,一般只需在接收端增加一个处理单元 即可,数据包流中无冗余信息,它不增加带宽,不消耗网络带宽,且时延较小,比 较适合于在语音实时传输中应用。无冗余度方法在本质上是在接受端对丢包附近相 关数据包经过一定算法优化处理来估算丢失的数据包。利用人的生理特点,以达到 “欺骗”人耳朵的目的。 图18 :各种丢包恢复技术的比较 无冗余度恢复的方法比较多,主要分为以下几类: i 、内插法 2 、插值法 3 、状态插值法 上图为几种算法的复杂度和质量比较,从图中可以看出,复杂度越高,恢复质 量越好。一般来说,当对语音质量要求较低时,可采用算法复杂度较低的包复制衰 减法,波形替代法;对语音质量要求较高时,可采用质量较好的时域修正法和状态 0 华中科技大学硕士学位论文 插值法。 当连续丢包时,也可以采取逐步衰减的办法。当连续丢包数较多,超过丢包恢 复的极限时,后面的丢包就用静音替代。 1 7 本文的主要研究内容 由于基于口技术,v o l p 目前语音质量尚不够好。其原因和i p 网络的特点有很 大的关系,表现在: ( 1 ) 时延丢包在交互式语音对话中时延过大或抖动会造成间隔感。这主要 是由于各种结构互联而成的i n t e r n e t 时刻处于不断变化之中,因而在i n t e r n e t 中点到 点的每一个数据包在网络中经历的延时会由于网络的变化而不相同。数据包在网络 中传输时一旦遇到网络阻塞,就会被堵在各个网络节点,如果堵在各个网络节点的 分组数量超过节点的缓冲极限,就会有部分数据丢失,即丢包。此外,由于实时话 音业务有严格的延时限制,长时l 色j 的延迟是不能承受的。 ( 2 ) 语音编码由于带宽的限制,v o i p 和语音编码技术是分不开的。目前的 各种成熟的语音编码技术,由于量化、压缩的原因会对语音造成一定影响。但是经 过人们的长期研究,目前几种较成熟的语音编码算法所能够获得的语音质量,比如 h 3 2 3 协议栈所推荐的诸如g 7 2 3 ,g 7 2 9 等算法,在语音效果上面能够达到4 0 左 右的m o s 得分,基本上能够和p s t n 的效果相比。 ( 3 ) 回声回声现象实际上也存在于p s t n 电话网络,但是由于i p 网络的前 述特点( 1 ) 和( 2 ) 中的编码算法时延,回声现象在v o l p 中更加明显,是影响语 音质量的主要原因之一。 实现口电话网关中的语音处理,呼叫控制以及在静音抑制问题方面对通话质 量进行改善,是本文作者在硕士研究生阶段参与的主要科研工作。本论文是在对该 研究工作中的静音检测模块研究、设计和实现的总结基础上完成的。本文在分析比 较大量现在常用的一些算法的基础上,集成各种算法的优点,提出了新的复合型算 法,并且结合实际应用,证明这些方法,在效果、计算量等方面能够很好的胜任v o i p 的要求。全文共分五章: ( 1 ) 第一章介绍整个v o i p 的背景知识。 ( 2 ) 第二章介绍了静音检测算法的发展,重点介绍了现在较为常用了集中算 法,分析比较了其优缺点。并在其基础上提出了本文的算法。 ( 3 ) 第三章介绍了整个系统的设计和实现,重点介绍底层程序接口的设计和 代码优化方法。 华中科技大学硕士学位论文 ( 4 ) 第四章介绍了本文静音检测算法的性能测试。通过对本文的复合型算法 及其两个子算法的性能测试,可知复合型算法很好的综合了两个子算法的优点,在 检测性能上有较大的提升。 ( 5 ) 第五章全文总结。 华中科技大学硕士学位论文 2 静音检测的原理和相关算法的研究 2 1 静音检测的原理 在因特网上传送的语音数据,相对来说是对误码不敏感类型的数据,一般不需 要误码重传机制来保证语音数据的准确率,而接收方并不严格要求声音分组能严格 按序到达,少量的不按序到达只会造成语音的偶尔抖动。语音在因特网上的传输是 没有q o s 保证的,而由于网络拥塞等原因造成的网络传输的包丢失以及时延是影响 语音传输的核心问题。面静音检测技术可以有效剔除静默信号,从而使话音信号占 用的带宽要求迸一步降低到3 5 k b s 左右,将带宽的利用率提高一倍以上。 静音检测,又称语音活动侦测( v a d ) 。静音检测的目的是从声音信号流里识别 和消除长时间的静音期,使得在不降低业务质量的情况下,能达到节省话路资源的 作用,它是l p 电话应用的重要组成部分。静音检测不仅可以节省宝贵的带宽资源, 还可以有利于减少用户感觉到的端到端的时延,提高通话质量。 用户打电话时。并不是总在占用通话信道。根据传统电话业务的统计,一方用 户实际占用通话信道的时间不会超过整个通话时间的4 0 。这主要包括以下几个方 面的原因:一是正在听对方说话;二是由于思考,稍事休息等原因引起的一段话之 间的停顿;三是说话中间的停顿,如犹豫,呼吸,口吃等。第一种情况下停顿间隙 长而出现频率低;第三种情况停顿间隙短而出现频率高;第二种情况界于一、三种 情况之间。语音源的这种特性叫做开关特性,有时也叫话音静默特性。在用户没 有讲话时,就没有语音分组的发送,从而可以进一步降低语音比特率。当用户的语 音信号能量低于一定门限值时就认为是静默状态,也不发送语音分组。当检测到突 发的活动声音时才生成语音信号,并加以传输。运用这种技术能够获得大于5 0 的 带宽。 在进行静音检测时有两个问题需要注意 5 】:一是背景噪声问题,即如何在较大 的背景噪声中检测静音:二是前后沿剪切问题。所谓前后沿剪切就是还原语音时, 由于从实际讲话开始到检测到语音之间,有一定的判断门限和时延,有时语音波形 的开始和结束部分会作为静音被丢掉,还原的语音会出现变化,因此需要在突发语 音分组前面或后面增加一个语音分组进行平滑以解决这一问题。在实际使用中, 如果出现长时间的静默,会使用户感到很不自然。因此实际上接收端常常会在静音 期间发送一些分组,从而生成使用户感觉舒服一些的背景噪声,即所谓的舒适噪声。 一般静音检测的算法要满足以下5 个要求1 6 】: 1 3 华中科技大学硕士学位论文 l 、能在不影响话音质量的前提下去除尽可能多的静音( 长度为1 5 0 m s 或更长) ; 2 、必须用软件来实现,所以它必须有较低的复杂度,它的处理延时将计 算在总延时中: 3 、因为它在一个有限资源的环境中实现,所以它需要一一个容量较小的缓 冲区; 4 、它必须能在一帧中辨认出语音和静音,因为存储一帧说话将延长端对 端的时间延时; 5 、它应该更擅长检测长时间的静音,而不是短暂的静音: 静音检测经过技术很多年的发展,已经有很多成熟的静音检测算法投入到实 际应用中,这些算法一般是利用语音和噪音在信号特性上的不同,通过软件计算方 法提取这些特性值并与定的阀值进行比较,从而得到判决结果。以前常用的算法 有短时能量检测( 7 】过零率检测和高斯检测1 0 川1 等算法,而近几年又发展出一 些静音检测方法,有自适应能量检测,线性预测模型检测【1 4 i ,相关性检测, 基音周期检测f 16 j 【。7 1 和概率检测 1 9 f 2 0 2 等方法,本文将这些算法分为两类:基于时 域的算法和基于频域的算法。接下来将会具体介绍这些算法,以及比较它们的优缺 点。 2 2 基于时域的静音检测算法 2 2 1 自适应能量检测 在信噪比不是很低的情况下,语音的能量总是要大于背景噪声的能量,所以自 适应能量检测利用语音和噪音在能量上的这种差别迸行检测,该算法通过比较输入 信号的能量与语音能量阀值的大小,来判断输入的信号是否为语音。输入信号每帧 的能量可由式( 2 1 ) 得出【垃】: n e ,= z 2 ( f ) ( 2 1 ) i :0 式( 2 1 ) 中e j 表示第j 帧的能量,x ( f ) 为输入的信号,n 为帧长 而初始化的阀值是由静默时期的信号能量计算得出,一般做法是认为通话丌始 前2 0 0 m s 是没有语音的,所以初始化的阀值是由前2 0 帧的数据计算得出: 1 4 华中科技大学硕士学位论文 ,:磊1 2 0e 。 z u :0 ( 22 ) 式( 2 2 ) 中,为初始化的阀值 所以当e , k e ,时表示第j 帧为语音,反之表示为噪音,其中k 为一常数,一 般k 为2 。 但是由于背景噪声并非固定不变如果语音能量阀值是固定的话,在背景噪声 有变化的情况就会导致检测性能急剧下降,所以语音能量阀值应该可以自动跟踪背 景噪声的变化,从而保证该算法在背景噪声有变化的情况下也能准确的检测出静 音。 因为背景噪声是非平稳的,所以阀值也要根据噪声能量进行自适应的改变,变 化方法见式( 2 3 ) : f r n 。= ( 1 一p ) e 。h + p e , m 。 ( 2 t 3 ) 式( 2 t 3 ) 中 为新的阀值 。 为旧的阀值 e 。为背景噪声能量 而p 为加权值,( o 盯。时就说明背景噪声能量变化较大,所以p 值是由d 一和a o l d 比值决定的, 下表为p 根据不同吒,。和盯。比值的取值。 1 5 华中科技大学硕士学位论文 表2 1p 的取值 ! 婴x 1 2 5 0 2 5 盯a i d 1 2 5 垒 :1 1 0 0 2 0 6 * q 1 1 0 垒 :1 0 0 0 1 5 o o m 1 0 0 纯 ol o 盯“ 自适应能量检测算法能够在背景噪声比较大的环境下较好的检测出静音,但是 由于算法是通过能量的差别来分别语音和静音,所以很难有效的检测出能量大小接 近或低于背景噪声的语音。该算法最大的优点就是结构简单,计算复杂度低,容易 实现,如果配合别的算法效果会更好。图2 1 就是该算法检测的效果图: 图2 1 :自适应能量检测效果图 由图2 1 可知,该检测算法对能量较大的信号检测性能较好,而对于一段语音 的结尾和起始处的检测的错误概率较大。 一 1 6 华中科技大学硕士学位论文 2 2 2 自相关检测 自相关检测是利用语音和噪音在相关性上不同的特性进行区别检测,背景
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 让党建走进村子活动方案
- 诵读清廉诗文活动方案
- 编制无人机通信指南
- 读书月薪活动方案
- 菏泽牡丹节会活动方案
- 红外热疗按摩腰带行业跨境出海项目商业计划书
- 评议职能科室活动方案
- 安全防护规程方案
- 有机鸽子肉调理品创新创业项目商业计划书
- 倡导网络舆情传播原则
- 2025年滁州海关招聘协管员10人备考考试题库附答案解析
- 临床输血采血流程标准操作规范
- 餐饮防火安全知识培训课件
- YY 0780-2025中医器械电针治疗仪
- 2025-2026学年统编版(2024)七年级道德与法治上册全册教案(教学设计)
- Unit 4 Understanding ideas (Click for a friend) 公开课课件【知识建构+备课精研】高中英语外研版(2019)必修第一册
- GB/T 12238-2008法兰和对夹连接弹性密封蝶阀
- 精品课程《人文地理学》完整版
- 文书档案分类与整理实务讲义课件
- 家长进课堂之日常急救小常识模板课件
- 旅游产业经济MA
评论
0/150
提交评论