(信号与信息处理专业论文)基于amr的语音质量提升算法研究.pdf_第1页
(信号与信息处理专业论文)基于amr的语音质量提升算法研究.pdf_第2页
(信号与信息处理专业论文)基于amr的语音质量提升算法研究.pdf_第3页
(信号与信息处理专业论文)基于amr的语音质量提升算法研究.pdf_第4页
(信号与信息处理专业论文)基于amr的语音质量提升算法研究.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 作为3 g p pw c d m a 的语音编码候选方案,自适应多速率( a m r ) 语音编码是一种多 模式集成的a c e l p 类语音编码方案。它可以根据无线环境和本地容量的需求,动态选择 不同的编码模式,从而增强抗误码的能力,提高语音质量。随着3 g 业务的不断推广和普 及,a m r 将在语音通信中扮演越来越重要的角色。 a m r 的v a d 算法主要基于子带能量和自相关函数,该算法在门限设定、基音检测 和子带能量计算等方面存在不足,造成v a d 检测性能下降,降低了编码压缩率,增加了 系统负担。针对a m r 的不足,并结合语音的声学模型,本文提出了一种基于短时能量、 残差信号自相关矛d l s f 参数的v a d 算法。该算法分别从合成语音特征、语音激励特征、 语音声道模型特征三个方面进行v a d 判决,既汲取了a m r 的优点,又弥补了它的不足。 实验结果表明,该算法在低信噪比环境下具有更好的检测性能。同时,本文提出了一种 基于m f c c 和分形维数的v a d 算法,该算法对4 0 0 帧左右的短序列进行检测时表现出良 好性能,但是参数更新方法尚不成熟,导致对较长序列进行检测时性能下降。 a m r 的丢帧隐藏技术存在以下几点不足,连续噪声帧后的第一个语音帧被错判为噪 声帧,声道模型参数的恢复依赖于一组常量,基音周期参数完全由前一帧复制,这些不 足导致解码端语音质量下降。为此,本文提出了新的第一语音帧构建方法和声道模型参 数、基音周期参数的恢复方法,该方法弥补了a m r 丢帧隐藏技术的不足,获得了更高的 解码质量。 关键词:自适应多速率语音编码;语音激活检测;丢帧隐藏;梅尔倒谱系数;分形 维数 大连理工大学硕士学位论文 i m p r o v e m e n ta l g o r i t h mo na m rs p e e c hq u a l i t y a b s t r a c t a m r ( a d a p t i v em u l t i r a t e ) i sac o d e cr e c o m m e n d e db y3 g p pw c d m a i ti sat y p i c a l a c e l pc o d e cw i t hm u l t i m o d e i t sc o d i n gm o d ec a nb ea d j u s t e da c c o r d i n gt or a d i o e n v i r o n m e n tt oe n h a n c ei t sa b i l i t yt or e s i s tb i te r r o ra n di m p r o v eq u a l i t ya n d c a p a c i t y a s3 g g a i n sm o r ea n dm o r ep o p u l a r i t y ,a m rw i l lp l a yam o r ei m p o r t a n tr o l e i na u d i o c o m m u n i c a t i o n a m r sv a d a l g o r i t h mb a s e so ns u b b a n de n e r g ya n dc o r r e l a t i o n ,i th a st h r e ed e f e c t si n t h r e s h o l d ,p i t c hd e t e c t i o na n dt h ec a l c u l a t i o no fs u b b a n de n e r g y ,w h i c hr e s u l t si nd e g r a d i n go f p e r f o r m a n c e ,c o m p r e s s i o nr a t ei sm a d el o w e ra n ds y s t e mb u r d e ni sm a d eh i g h e r t h i st h e s i s p r o p o s e san e wm e t h o db a s e do ns h o r t t i m ee n e r g y ,r e s i d u a lc o r r e l a t i o na n dl s fw h i c hd o t h ej u d g e m e n to nt h ea s p e c to fs y n t h e t i c a ls p e e c h ,e x c i t a t i o na n dc h a n n e lr e s p e c t i v e l y t h i s m e t h o di n h e r i t sa m r sv i r t u ea n dg e t sr i do fi t sd e f e c t s b e s i d e s ,a n o t h e rm f c ca n df r a c t a l d i m e n s i o nb a s e dv a dm e t h o di sp r o p o s e dw h i c hh a sag o o dp e r f o r m a n c ei ns h o r tt i m e t e s t i n g ,b u ti nl o n gt i m et e s t i n g ,i td e g r a d e sd u et oi n a p p r o p r i a t eu p d a t eo fp a r a m e t e r s i ft h i s p r o b l e mi ss e t t l e d ,t h i sm e t h o dw i l lh a v eap r o m i s i n gf u t u r e t h e r ea r es o m es h o r t c o m i n g si na m r sf e cw h e nd e a l s 、析n 1t h ef i r s ts p e e c hf r a m ea s w e l la sc h a n n e la n dp i t c hp a r a m e t e r s t h i st h e s i sm a k e ss o m e i m p r o v e m e n t so nt h e s e s h o r t c o m i n g sa n da l s os i m u l a t e st h er e s u l tb yp e s q i tp r o v e st h ee f f e c t i v e n e s so ft h e s e i m p r o v e m e n t sa n dt h ep e s qv a l u ei si m p r o v e d k e yw o r d s :a mr ;v a d ;e e c ;mf c c ;f r a c t a ld i m e n s i o n i i i - 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文题目: 盏厶巡垒刍丝盔缢幽錾基纽筮 作者签名:整猛盎 日期:2 4 年五拥卫l 日 大连理工大学硕士学位论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间 论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有 权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印、或扫描等复制手段保存和汇编本学位论文。 学位论文题目: 塾垒垫基益互盗奎邀耋幽蛰i 盘豳磊苫 作者签名: 鬟。疆盘 日期: 型! 罩年月2 立目 导师签名:币霎氢吾考l 日期:五年必卫日 大连理工大学硕士学位论文 1绪论 a m 斛自适应多速率语音编码,a d a p t i v em u l t i r a t e ) 是3 g p p $ ! f 定的应用于w c d m a 系统的语音压缩编码。a m r 支持八种不同速率的语音编码模式和一种背景噪声编码模 式,它可以根据当前无线信道和传输状况自适应地选择最佳的编码模式,也就是说,实 际的语音编码速率取决于信道条件,是信道质量的函数,在传输环境较差时选择最健壮 的编码模式,而在传输环境较好时则选择能够提供最佳语音质量的编码模式,这样就可 以更加合理地分配信源编码和信道编码的比特数量,更加灵活和高效地利用宝贵的无线 资源。a m p , 属于码激励线性预测( c e l p c o d ee x c i t e dl i n e a rp r e d i c t i o n ) 编码,并且引入 了变速率编码技术。变速率编码相关技术主要包括【2 】:区别语音和噪声的语音激活检测 技术( v a d ) ,用来补偿丢帧和错帧的差错隐藏技术( e c u ) 和用来在解码端生成与编码端 类似的背景噪声的舒适背景噪声生成技术( c n g ) 。 语音激活检测技术根据人们日常谈话的语音和静默特性,检测到静音时加以抑制, 使其不占用或少占用信道资源,检测到语音时才将其进行压缩编码并传输,v a d 技术使 信道带宽的利用率提高了大约5 0 以上,成为通信传输中降低带宽的有效手段,同时 v a d 检测的准确性对合成语音的可懂度和自然度有着至关重要的影响【3 j 。 a m r 的v a d 技术在较高信噪比条件下有很高的准确率,但是该算法在门限设定、 基音检测和子带能量计算等方面存在不足,在低信噪比环境下,噪声经常被错判为语音, 造成v a d 检测性能下降。为此,本文提出了一种基于短时能量,残差信号自相关和l s f 参数的v a d 算法,分别从合成语音特征,语音激励特征,语音声道模型特征三个方面进 行v a d 判决,实验证明,该算法在低信噪比环境下具有更好的检测性能。同时,本文提 出了一种新的基于m f c c 和分形维数的v a d 算法,该算法对4 0 0 帧左右的短序列进行检 测时表现出良好性能,但是参数更新方法尚不成熟,导致对较长序列进行检测时性能明 显下降,如果能找到一种好的参数更新算法,m f c c 和分形维数特征将能获得更好的检 测性能。 由于无线信道和网络传输的不稳定性,丢帧情况时有发生,从而影响接收端的解码 质量。丢帧隐藏机制用于隐藏丢失或错误的语音帧,尽可能地减弱甚至消除由于丢帧造 成的消极影响。a m r 编码属于参数编码,相邻帧之间存在较大联系,因此a m r 采用基 于接收端的丢帧隐藏技术,但是a m r 的丢帧隐藏技术在第一语音帧和声道模型参数、基 音周期参数的恢复方面存在缺陷,使得解码质量受到严重影响。针对这些缺陷,本文提 出了新的第一语音帧构建方法和声道模型参数、基音周期参数的恢复方法,该方法弥补 t a m r 丢帧隐藏技术的不足,获得了更高的解码质量h 1 。 基于a m r 的语音质量提升算法研究 1 1 语音激活检测概述 通信设备经常工作于较低信噪比的环境中,其中的噪声大多是非平稳噪声,这些噪 声源可能是汽车噪声、工厂噪声、背景谈话等,所以复杂背景噪声下v a d 算法的鲁棒性 就显得尤为重要【5 1 。国家十五计划难点之一,就包含不同噪声环境下的v a d 技术。大部 分v a d 算法在高信噪比环境下可以达到比较好的检测效果,但是一旦处于强背景噪声环 境下,尤其是在对抗多种噪声的情况下,性能就会下降。 目前,v a d 主要有两个研究方向:一个方向是寻找更具普遍性的,可以区分语音与 噪声的特征参量,另一个方向是综合利用多个特征参量得到最终结果。前者需要生理学、 心理学、数学、数字信号处理等各个领域知识的融合,后者则需要多个特征参数的有效 结合以及门限的准确设定。 1 2 丢帧隐藏机制概述 如今高速的包交换网络得到了越来越广泛的应用,包交换网络设计的一个研究重点 就是在网络传输出现差错时,拥塞控制方式的设计。当网络发生拥塞时,包被放置在交 换节点的队列中延迟传输,长时间的延迟则会导致网络服务质量变坏,特别是对于强实 时性的语音通信来说更是如此。缓解网络拥塞的一个最简单直接的办法就是在发生拥塞 时将传输包丢弃,这样就造成接收端发生丢帧,另一方面,由于无线信道的时变性以及 多径传输和衰落,语音信号在传输过程中可能出现差错,影响接收端的解码语音质量【6 】。 通常丢帧隐藏技术分为基于发送端和基于接收端两种。基于发送端的丢帧隐藏技术 主要是指,在前续或者后续帧中加载相邻帧的部分编码码流或者全部编码码流,在帧丢 失情况下,可以利用相邻帧的冗余信息来恢复部分或者全部丢失信息。基于发送端的丢 帧隐藏技术的优点是解码质量高,算法复杂度低,但是同时也增加了传输比特率,加重 了系统负担。基于接收端的丢帧隐藏技术并不需要在编码端和信道进行额外的处理,它 们利用丢失数据包和它之前或者之后正确接收到的数据包之间的相关性来恢复丢失数 据,当然如果利用后续数据包会引入额外的处理时延,但是可以进一步提高恢复质量。 基于接收端的丢帧隐藏技术的优点是不改变编码端结构,不增加编码比特率,缺点是算 法复杂度较大,而且与基于发送端的丢帧隐藏技术相比,解码质量会有所下降【7 j 。 1 3 本文的内容和组织 本文针对a m r 的v a d 算法在门限设定、基音检测和子带能量计算等方面的不足, 研究并实现了两种新的v a d 算法,提高了低信噪比条件下v a d 的准确性,同时针对a m r 的丢帧隐藏技术在第一语音帧和声道模型参数、基音周期参数的恢复方面的不足,本文 大连理工大学硕士学位论文 提出了新的第一语音帧构建方法和声道模型参数、基音周期参数的恢复方法,获得了更 高的解码质量1 。 本文共分为五章: 第一章主要介绍自适应多码率( a m r ) 语音编解码器的组成模块、v a d 算法和丢帧 隐藏技术的意义和研究现状。 第二章介绍目前常用的几种典型的v a d 算法和a m r 中使用的v a d 算法,并通过实 际仿真对几种算法的性能进行分析。 第三章详细介绍本文实现的两种v a d 算法的原理和实现步骤,并在不同噪声和不同 信噪比条件下,与a m r 的v a d 检测结果进行比较。 第四章首先介绍几种典型的丢帧隐藏技术,并对它们性能进行评价。然后又详细介 绍a m r 的丢帧隐藏技术。 第五章在分析a m r 的丢帧隐藏技术一些缺点后,结合典型的丢帧隐藏技术,提出 了基于a m r 的丢帧隐藏技术的改进方案,并在不同丢包率下根据p e s q 对解码语音质量 进行评价。 基于a m r 的语音质量提升算法研究 2 典型语音激活检测方法介绍 2 1v a d 方法概述 人说话时是有间断性的,从噪声和语音的混合信号中,检测出有效语音片断,从而 对语音片断和噪声片断分别进行处理的技术称为语音激活检测技术( v o i c ea c t i v e d e t e c t i o n ,v a d ) 。v a d 技术在语音处理中有着十分重要的作用,它可以在无语音期间 降低设备功耗,从而延长电池的使用寿命【8 】。在变速率语音编码中还可以利用这一技术 对编码速率进行控制。 v a d 算法的基本思想就是提取能够区别语音和噪声的特征参数,或者对一些参数进 行变换,分析出语音和噪声的差别,从而找出语音和噪声的分界点。v a d 算法作为一个 典型的分类问题,其核心就是提取适当的特征参数。经过国内外学者多年的研究,目前 在v a d 算法领域已经提出了很多方法。通常,不同的系统需要不同的方法以满足它们各 自在检测精度、算法复杂性、鲁棒性等方面的不同要求。这些方法包括基于信号能量、 基音检测、频谱分析、倒谱分析、过零率、周期测量、混合检测、模糊规则的算法等。 检测算法的复杂度和检测的准确性是衡量检测技术的两个重要指标。 上述方法大体上可以分为两大类:一是门限判别法,即提取信号的某些特征,将这 些特征和设定的门限进行比较;一是模型匹配方法,即为噪声和语音建立不同的模型, 分别计算待测信号与噪声和语音的匹配度。如今,融合多种特征参数的v a d 算法逐渐显 示出了良好的性能,上述两类方法之间的区别也变得越来越模糊。 2 2 经典的f - 1 限判别类v a d 算法介绍 通常用于v a d 的门限判别类特征参数主要有短时过零率、短时能量、线性预测系数、 短时倒谱差值和低频能量等。根据实际应用中对算法复杂度、判决准确率的不同要求以 及背景噪声类型的不同,可以选用不周的一种或者几种参数。 2 2 1 短时能量 基本原理:通常情况下有效语音信号的能量要大于背景噪声能量,如果某一段语音 的短时信号能量e 。( 玎) 大于设定的阈值7 7 。,就判为有效语音【9 】。判断过程由式( 2 。1 ) 得出: e 。g ) r 。 ( 2 1 ) 大连理工大学硕士学位论文 舯, 耻。i _ 专n - 12 ( f ) ( 2 2 ) x w g ) = z ( f 如( f )( 2 3 ) 这里r 。表示预先设定的噪声能量阈值,这个阈值可以通过对背景噪声能量进行估计来预 先设定,或由一段较长时间的噪声计算得到,x g ) 表示含嗓的语音信号,以) 是窗函数, n 表示帧长度( 每帧信号的采样点数) 。 基于短时能量的v a d ,在s n r 较高且背景噪声强度稳定时比较有效,但是在背景 噪声起伏比较大,或者s n r 较低时,该算法性能会有所下斛1 0 1 。 2 2 2 短时过零率 研究表明,背景噪声的过零率明显大于语音信号的过零率,( 如图2 1 所示) 。 刨 1 口墨 号 样点 图2 1 语音时域波形 f i g 2 1 t h ew a v e f o r mo fs p e e c h 通过计算每帧信号的过零率z ,) z ,o ) 。去静n i g n b n 阱s g i l b 一( f 一1 ) 】j ( 2 4 ) 1r 一 、 s g n z 】= 二1 ,二三: c 2 5 ) 将z ,o ) 与设定的阈值7 7 肿比较,就可以判断出当前帧是否为语音信号。 过零率检测算法比较简单,在信噪比较高的情况下,噪声和语音的过零率差别比较 明显,用固定的阈值就能够较准确地判断出有效语音信号,但随着噪声强度的增加,噪 声和语音的过零率差别越来越小。另外,这种方法的前提是假设背景噪声过零率大于语 基于a m r 的语音质量提升算法研究 音信号过零率,这个假设虽然对于浊音语音是成立的,但是对于很多清音语音,语音和 噪声的过零率非常接近,所以很难用过零率来检测有效的清音语音。 2 2 3 短时自相关函数 短时自相关函数欠( 聊) 的定义是: n - 1 一m r 0 ) = x 。g 砖。n - 4 - m ) ( 2 6 ) n = 0 该方法主要利用语音信号的频谱特性和嗓声的频谱特性之间的差别来区别信号和躁声。 由于时域的自相关函数与频域的频谱密度函数是一对傅立叶变换,所以可以利用输入序 列x 如) 的自相关函数r 。 ) 来反映语音信号和噪声之间的频谱差异。噪声的自相关函数 大多表现为单峰结构,即仅在k = 0 时有最大值,随着k 的增大其自相关函数迅速下降, 而因为语音信号中,浊音有明显的周期性,所以其自相关函数也有明显的周期性。清音 类似于白噪声,它的自相关函数与噪声类似【】。浊音语音和两种典型噪声( b a b b l e 噪声 和o f f i c e 噪声) 的自相关比较如图2 2 所示。短时自相关函数方法检测语音的实质是利用 浊音的周期性。 8 a r n p l e s 图2 2 语音和噪声自相关比较 f i g 2 2 t h ec o m p a r i s o no fa u t o c o r r e l a t i o nb e t w e e ns p e e c ha n dn o i s e 结论:该方法能够有效地区分语音和噪声,但计算量大一些,而且由于清音和 噪声的自相关特性相似,所以不能准确地判别清音。 大连理工大学硕士学位论文 2 2 4 基于f f t 谱熵的v a d 熵在信息论与编码领域有着广泛的应用,信源的熵代表信源的平均不确定性。设 x ( i ) ( i = 1 , 2 ,刀) 是取有限个离散值的随机变量,则朋拘熵定义为: 何) = 一只l o g p , ( 2 7 ) j 仁0 熵日表示信源x 的平均信息量,而且熵具有这样的性质,当玎个信源概率相等时,熵取 最大值,也就是说彳的概率分布越均匀,越难以判断,熵值越大。经研究表明语音区域 的频谱分布比噪声区域更具有纪律性,【1 2 】,换句话说,大部分噪声的谱分布比语音信号 的谱分布更加均匀,所以噪声的谱熵要大于语音信号的谱熵。计算语音信号谱熵,首先 计算每帧信号的频谱系数,然后将每个频率点的频谱能量除以频域总能量,商值作为概 率密度函数,可以将其理解为该帧信号能量集中在某个频率点的概率。通过式( 2 7 ) 得到 该帧信号的谱熵,最后根据谱熵的大小来区别语音和噪声。 另一种用来构造语音端点检测熵函数的方法为;假设语音s g ) 的帧长为n ,一帧语 音信号中最大与最小幅度分别为一必和肘,把每一幅度值出现的次数作为这个值的概 率。s ,取值在一m 和m2 _ 1 9 ,门。为s 0 ) = s 。的个数,其概率为只= 胛,p = l , 定义此帧语音的熵定义为: 坐 h = 一乏:尸1 0 9 只 ( 2 8 ) ;= 动 由于语音信号的幅度与背景噪声的幅度相比,动态范围大,因此可以认为随机信号 在( - m ,m ) 中的随机事件多,所以平均信息量,也就是熵值大,而背景噪声的幅度变化 范围小,分布相对集中,因而熵值小1 1 3 】。 通过仿真发现,基于谱熵的v a d 算法在低信噪比和非平稳噪声下,尤其是在白噪声 环境下比较有效j 但是在b a b b l e 噪声条件下性能较差,主要是因为b a b b l e 噪声的频率分 布和语音近似,所以噪声和语音的谱熵比较接近。 下面对上述几种常用的v a d 典型特征参数的性能进行综合比较,比较结果如表2 1 所示。 2 3 典型模型匹配类v a d 算法介绍 2 3 1高斯混合模型法( g m m ) 语音和噪声的特征矢量在特征空间中的分布,可能并不严格服从于某一种解析概率 基于a m r 的语音质量提升算法研究 密度函数,但是任何一种概率分布都能由若干个高斯密度函数的线性组合来逼近【1 4 】。由 中心极限定理可知,大量相互独立的、服从同一分布的随机变量在总体上服从正态分布。 基于高斯混合模型的v a d 算法的基本原理是,对每帧语音信号和噪声信号提取特征矢 量,并将这些特征矢量划分成若干类,假定类与类之间、类内矢量之间都是相互独立的, 那么每个类内的矢量服从同一正态分布,多个类的正态分布按一定的权值相加,这样就 得到了语音和噪声特征矢量的总体分布【i 扪。接下来,根据训练得到的均值,协方差和阈 值等参数分别建立语音模型和噪声模型,对每帧输入信号根据后验概率最大的原则确定 其属于语音还是嗓声,同时模型参数进行适当更新。 表2 1 典型v a d 算法性能比较 t a b l e 2 1t h ec o m p a r i s o no f t y p i c a lv a dm e t h o d s 2 3 ,2 高阶统计方法 由于高斯过程和对称分布的随机过程的三阶以上累积量恒为零,而移动环境中的很 多背景噪声可以看作高斯性或者对称分布的随机过程,又因为语音信号是非对称的,它 的三阶以上累积量不为零,故可以用三阶累积量来区分语音和噪声。累积量和多谱分 别在时域和频域将信号的自相关和功率谱的概念延伸到二阶以上统计领域,相比自相关 和功率谱而言,包含更多的统计信息,所| 以采用三阶以上累积量作力判决方法,可以更 好地区分语音和噪声信号。 除了上述方法,还有隐马尔可夫模型( h m m ) 、支持向量机( s v m ) 、神经网络等多 种v a d 算法,模型匹配方法在噪声环境下效果较好,但需要积累很多先验知识,而且算 法复杂度大,一般不适于实时应用。 2 4a m r 语音激活检测技术 a m r 语音编码中,v a d 算法的基本原理是利用输入信号的频带能量信息和相关性 信息,来判断当前帧是语音帧还是非语音帧,每帧( 2 0 m s ) 判断一次【1 6 】。其原理图如图2 3 所示。 大连理工大学硕士学位论文 图2 3a m r 语音激活检测原理图 f i g 2 3 t h es y s t e mo f a m rv a d 2 4 1 于希划分 将2 0 m s 输入信号( 共1 6 0 点) 用滤波器组分成九个不同子带,频率越低,带宽越窄。 滤波器组包含5 阶和3 阶滤波器,每一个滤波器将输入信号分为低通和高通两部分,然后 进行1 :2 降采样,滤波过程如图2 4 所示,滤波器组中的5 阶滤波器的表达式如式( 2 9 ) 所 示,3 阶滤波器的表达式如式( 2 1 0 ) 所示。 黜x h p 兰0 5 汪嚣二糨a 黜 亿9 , io ) =枣0 。( x ( f 一1 ) ) 一:g g ) ) ) 、。7 踹x h p 兰0 5 髂4 a :嚣二端 l( f ) =木g o ) 一,g o 一1 ) ) ) 卜“吖 其中,x ( f ) 是滤波器输入信号,x 扣o ) 是低通滤波输出,( f ) 是高通滤波输出:a 。( ) ,a :( ) 和a 3 ( ) 是一阶直接型全通滤波器,其传输函数为: 么g ) = 等 ( 2 1 1 ) 其中,c 是滤波器系数,是一个常量,爿,( ) ,么:( ) 和a 3 ( ) 的滤波器系数分别为 c o e f f 51 ,c o e f f 52 和c o e f f 3 。然后在每个子带计算输x 信号电平,即: e n d 彪v p ,0 ) = k o ) | t = 5 f a r l ( 2 1 2 ) 基于a m r 的语音质量提升算法研究 其中,2 是子带序号( 共9 个子带) ,_ g ) 是在第玎个子带的滤波器组输出信号。 输入语音 图2 4a m r 语音激活检测滤波过程图 f i g 2 4 t h ef i l t e r i n go fa m rv a d 2 4 2 基音检测 基音检测用来检测元音和其它周期信号性信号,原理是计算每帧加权语音的开环基 音周期值,除了4 7 5 和5 1 5 k b s 模式以外其它模式都是每帧计算两个开环基音周期值 t o p o 和r o p 1 。4 7 5 和5 1 5 k b s 模式时设定丁一o p 0 并d 丁一印【1 】两个值相等,判断 zd p 值在帧闯( 子帧) 变化是不是小于设定阂值l t h r e s h ,如果小于就把连续两帧的 延迟计数l a g c o u n t 相加;如果l a g c o u n t 大于设定阈值n t h r e s h ,则设置基音标志。具 体算法如下: l a g c o u n t = o ; i f ( i t _ - o p 【一1 一t 二o p o i t o n e t h r 木t1 ) t o n e = l ; r 0 是加权语音的最大自相关值,t l 是加权语音能量,它们按式( 2 1 3 ) 和式( 2 1 4 ) 计算得到。 t o = s 。g 声。0 一尼) ( 2 1 3 ) t l = s 2 wn - k ) ( 2 1 4 ) 音调检测在4 7 5 和5 15 k b s 模式下每帧进行一次,在其他模式下每帧进行两次。 2 4 4 复杂信号检测 如果对类音乐信号等复杂信号按照背景噪声方式进行编码,在接收端合成的音乐噪 声信号听起来自然度很差,所以对类音乐噪声要按照语音方式编码。为此,要把类音乐 噪声从背景噪声中区分出来,复杂信号检测就是用来判别类音乐信号。类音乐信号通过 高通滤波时,经常包含高相关值。一般来说,许多乐器在高频端也包含谐波分量,而大 多数背景噪声的谐波分量则集中在低频端,高通滤波后,相关值变得很小【强】。 复杂信号检测原理是检测高通滤波后的加权语音是否包含高的相关值,如果包含高 的相关值,就认为是复杂信号,把它作为语音信号编码。为了减小计算的复杂度,在具 体实现时,没有对加权语音做高通滤波,而是直接对开环基音分析后的自相关矢量做一 阶高通滤波运算,并统计最大标准相关向量值。复杂信号检测具体算法如下: c o r r 一幼。+ 1 = ( a l p h a ) 牛c o r r 一印。+ 0 一a l p h a ) 木b e s t c o r r 一切。 ( 2 1 5 ) b e s t c o r r 幼。是第m 帧的最大标准相关向量值,a l p h a 的范围是0 8 o 9 8 。 i f ( c o r r _ h p c v a d _ t h r e s h _ a d a p t _ l o w ) c o m p l e x _ l o w = 1 ; i f ( c o r rh p c v a dt h r e s ha d a p t h i g h ) 基于a m r 的语音质量提升算法研究 c o m p l e x _ h i g h 。1 ; i f ( c o r r _ h p c v a d _ t h r e s ha d a p th a n g ) c o m p l e x _ h a n g _ t i m e r + + ; e l s e c o m p l e x _ h a n g t i m e r = o ; 如果c o m p l e x t o w 连续1 5 帧为1 或c o m p l e x h i g h 连续8 帧为1 ,则设置复杂信号标志。 2 4 5 背景噪声估计 背景噪声更新方式如式( 2 。1 6 ) 所示: b c k r e s t ,+ ,跏】= ( a l p h a ) 木l e v e l 。一,k 】+ ( 1 0 一a l p h a ) 宰b c k r e s t 。k 】 ( 2 1 6 ) 其中,l e v e l , 一,k 是第m 一1 帧第聆个子带信号电平,b c k r p s k k 是第m 帧第胛个子带 背景噪声估计电平,a l p h a 的取值范围为 o 8 ,0 9 8 】。背景噪声使用前两帧的子带信号电 平来更新,即更新延迟一帧,这样做的目的是避免未检测到的突发语音破坏噪声电平估 计。a m r 标准中规定:如果v a d 判决是“1 ”,或者已经检测到基音和音调,噪声电平 b c k re s t 的值不会比上一帧的值大,只会小于等于上一帧的噪声电平值。如果用前一帧 的子带信号电平来更新背景噪声,当某个语音起始帧被判为噪声帧时,背景噪声值就会 被抬高,导致后面的语音帧可能被判成噪声。而如果使用前两帧的子带信号电平来更新 背景噪声,即使语音起始帧被判为噪声帧,背景噪声的值也不会显著增大,所以能够避 免上述情况的发生。 2 。4 6v a d 判决 首先,计算输入语音信号能量p o ws u m ,如果p o ws u m 小于p o wp i t c ht h r , 基音标志设成0 ,如果p o ws u m 小于p o wc o m p l e xt h r ,复杂信号标志设成0 。 然后,按式( 2 1 7 ) 计算出输入信号电平和背景噪声估计值之间的差值。 删= 扣( 1 0 ,( 端) 2 其中,彪v p ,函 是第聆个子带信号电平,b c k r e s t n 】是第咒个子带背景噪声估计电平。 接下来计算出v a d 判决门限值v a dt h r 。 v a d t h r = v a d s l o p e * n o i s e l e v e l v a d 一) + v a d t h r h i g h ( 2 1 8 ) 其中,v a d s l o p e ,v a dp 1 和v a dt h rh i g h 是三个常量,n o i s e 1 e v e l 是九个 子带背景噪声电平值之和,即 大连理工大学硕士学位论文 9 n o i s e l e v e l = b c k r e s t n 】 月= l ( 2 1 9 ) v a d 初始判决是比较判决门限值v a dt h r 和册厂s u m 值的大小,如果s s l g m 大 于v a dt h r ,则判决该帧为语音帧,如果s n rs u m 小于或等于v a dt h r ,则判决该帧为 非语音帧。最后,将初始判决的结果与基音检测、音调检测和复杂信号检测的结果进行 综合判决:如果初始判决结果为噪声帧,同时基音、音调和复杂信号都没有被检测到, 则判决该帧为噪声帧,如果初始判决结果为语音帧,或者检测出基音、音调和复杂信号 中的任意种,则判决该帧为语音帧。 2 5 本章小结 本章首先介绍了v a d 的意义,然后分类介绍了几种典型的v a d 算法,并分析它们 的优缺点,其中有些算法相对简单,复杂度低,但对环境适应性较差,在复杂的背景噪 声环境下性能变得很差,有些方法检测性能较好,但实现复杂。因此,寻找更好的语音 检测特征和更加合理的综合利用已有的特征,仍是v a d 的两个主要研究和发展方向。本 章最后又介绍了a m r 的v a d 技术。 基于a m r 的语音质量提升算法研究 3两种新的语音激活检测方法 针对a m r 的v a d 算法在门限设定、基音检测和子带能量计算等方面存在的不足, 本章提出了两种新的v a d 方法。第种主要基于短时能量、残差信号自相关和l s f 。通 过验证,在大部分情况下,尤其是在低信噪比的情况下,该方法具有更高的准确率。第 二种方法基于m f c c 和分形维数,该算法对4 0 0 帧左右的短序列进行检测时表现出良好 性能,但是参数更新方法尚不成熟,对较长序列进行检测时性能下降。 3 1a m r 语音激活检测算法的不足 a m r 使用的v a d 存在几点不足,导致在低信噪比情况下,或者某些特定噪声情况 下,语音检测的性能会受到影响。 ( 1 ) 正如a m r 标准文档里介绍的那样,在低信噪比情况下,编码器倾向于把噪声门 限降到一个比较低的水平,而最终的判决结果是比较当前帧的能量和噪声门限的大小关 系,所以在低信噪比情况下,噪声被误判为语音的情况比较多l l 引。 ( 2 ) 如2 4 2 节所述,a m r 中基音检测标准是求每一帧的开环基音周期值丁叩,然 后检验rd 矽值在子帧和帧间变化是不是足够小,如果变化足够小,就设定基音周期标 志p i t c h = 1 。但是有的噪声比如汽车噪声,就经常出现几个子帧之间基音周期差距很小 的情况,所以容易出现把噪声判为语音的情况。 ( 3 ) a m r 语音检测中,帧能量由下式给出 册一一= 喜m a x ( 1 - 0 ,( 盟b c k r _ e s t n 、1 j 2 ( 3 。1 ) 如果噪声和语音在某些频带分布明显不同,而且这些频带语音能量大于噪声能量,这时 s n rs u m 会显著增加,区分语音和噪声比较容易,但是如果遇到某些噪声,如b a b b l e 噪声,在各个频带的分布都类似于语音,这时s 门rs u m 可能比较小,导致不能正确区分 语音和噪声。一段b a b b l e 噪声的f f t 频谱和一段语音的f f t 频谱对比如图3 1 所示。 一段纯净语音语谱图与一段混有b a b b l e 噪声s n r 为0 d b 的语音的语谱图对比如图3 2 所示,从图3 1 和图3 2 中可以看出,由于b a b b l e 噪声和语音的频域能量分布比较相似, 所以当信噪比较低时,有些语音会被噪声所淹没,不容易判别。 大连理工太学硕士学位论文 图31 语音和b a b b l e 噪声频谱对比图 f i g3 it h ec o m p 缸i s o no f s p e c r r u mb e t w e e ns p e e c ha n db a b b l e 时间 图32 语音和b a b b l e 噪声语谱对比图 f i g3 2 t h ec o m p a r i s o no f s p e c t r o g r a mb e t w e e ns p e e c ha n db a b b l e 基于a m r 的语音质量提升算法研究 3 2 基于短时毹量、自相关与l s f 的v a d 算法 在尽可能保持与a m r 算法兼容,并且摈弃a m r 不足的前提下,本文提出了基于 短时能量加自相关加l s f 的v a d 算法:算法的细节描述由下面的小节给出。 3 2 1 基于短时能量的语音检测 基于短时能量的语音检测大致分为总能量,子带能量和总能量加子带能量等方法。 经过比较发现,子带能量在检测某些分布规律类似语音的噪声,比如b a b b l e 噪声时效 果不好,所以本文采用了总能量判决方法。程序总体框图如图3 ,3 所示; 图3 3 基于短时能量的v a d 的总体框图 f i g 3 3 t h es y s t e mo fv a db a s e do i is h o r t - t i m ee n e r g y ( 1 ) 初始化噪声门限 噪声门跟值n o i s e p o w l e v e l 初始化为5 0 0 ,然后根据后续的含噪语音帧能量 进行更新。 ( 2 ) 能量比较 大连理工大学硕士学位论文 计算当前帧短时能量s p e e c hp o wl e v e l ,比较即剧贮日p o wl e v e l 和 n o i s ep o wl e v e l 木c u r r e n t f a c t o r 的大小。c u r rf a c t o r 是门限因子,在整个检测 过程中自适应更新,初始值为1 0 。如果s p e e c hp o wl e v e l 大于 n o i s ep o wl e v e l * c u r r e n tf a c t o r ,当前帧判为语音帧,进入第三步,否则进入第四 步。 ( 3 ) 向上更新门限因子 语音帧持续计数s p e e c h l a s tc o u n t 加1 ,计算当前帧s p e e c hp o wl e v e l 与 n o i s e p o w l e v e l 的比值,存入数组h i s t f a c t o r 。然后检验s p e e c h l a s t c o u n t 是 否大于等于5 ,如果大于等于5 ,则门限因子按下式更新,否则不更新。并转入下一帧的 检验。 c u r r 一 a c t o r = ( h i s t f a c t o r l e a s t + c u r r f a c w r ) 2 ( 3 2 ) 其中,h i s tf a c t o rl e a s t 是h i s tf a c t o r 数组中的最小值,但门限因子最大不能超过1 5 。 ( 4 ) 向下更新门限因子 如果s p e e c hp o wl e v e l 大于n o i s ep o wl e v e l 枣l e a s tf a c t o r ,同时 s p e e c hp o wl e v e l 小于l a s ts p e e c hp o wl e v e l ( 1 e a s tf a c t o r 是门限 因子初始值,l a s t 即e 配抒p o wl e v e l 是上一帧的短时能量) 。d e ch o mc o u n t ;0 1 1 1 ,d e ch o l dc o u n t 用于记录短时能量连续下降的帧数。如果d e ch o mc o u n t 大于 等于3 ,则按下式更新门限因子: c u r r f a c t o r = ( ( s p e e c h p o w l e v e l n o i s e p o w l e v e l ) + l e a s t f a c t o r ) 2 ( 3 3 ) 这里更新门限因子是因为,通常在连续语音的开始和结尾位置,信号能量相比中间位置

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论