(通信与信息系统专业论文)3g中语音端点检测算法及其实现研究.pdf_第1页
(通信与信息系统专业论文)3g中语音端点检测算法及其实现研究.pdf_第2页
(通信与信息系统专业论文)3g中语音端点检测算法及其实现研究.pdf_第3页
(通信与信息系统专业论文)3g中语音端点检测算法及其实现研究.pdf_第4页
(通信与信息系统专业论文)3g中语音端点检测算法及其实现研究.pdf_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

f t 一 摘要 摘要 语音端点检测可以减少实时系统中的大量计算,使该系统仅处理语音 输入,不至于在静音段白白浪费计算量和存储量,有利于在资源较为紧张 的d s p 系统上实现。本文首先对w c d m a 的语音编码标准一a m r 声码器中的 语音端点检测算法进行了分析,重点探讨了算法的特点及其理论依据,其 思想具有普遍意义,可以在信源压缩编码及其它需要高精度语音端点检测 的应用场合中采用,具有较大的研究价值。然后,本文进一步提出改进的 语音端点检测算法,仿真数据表明性能有较大提高,且在项目中得以实际 运用,测试性能良好。本项目实现了基于t m s 3 2 0 c 6 2 0 3 的灵活高效多通道 a m i i 声码器,仿真和录放验证的结果与3 g p p 提供的结果满足比特级精确要 求。实时处理的非正式主观测试表明,合成语音质量优于g s m 的r p e l t p 的语音质量,达到长途语音质量,完全可以实际应用,为第三代移动通信 中声码器设备的研制奠定了良好的软件和硬件基础。 关键词:第三代移动通信a m r 声码器语音激活检测端点检测 摘要 a b s t r a c t s p e e c he n d p o i n td e t e c t i o n c a nr e d u c ec o m p u t a t i o ni l lr e a l t i m es y s t e m l a r g e l y t h e r e f o r e ,t h es y s t e mc a nd e a l w i t h s p e e c hi n p u to n l y ,a n d a v o i d w a s t i n gc o m p u t i n ga n ds t o r i n gi ns i l e n c es e g m e n t ,i nf a v o ro fi m p l e m e n t a t i o n i nd s ps y s t e ms h o r to fr e s o u r c e s t h i sp a p e rb e g i n sw i t ha n a n a l y s i s o f v a d ( v o i c ea c t i v i t yd e t e c t o r ) a l g o r i t h m i na m rv o c o d e r ( s p e e c hc o d e c s t a n d a r di nw c d m a ) w i t l l e m p h a s i so n t h ef e a t u r ea n df r m d a m e n t a l p r i n c i p l e s o fi t ,f o l l o w e db yar e v i s e dm e t h o dt h a th a v eb e a e rp e r f o r m a n c ei ns i m u l a t i o n t e s ta n di s p r o v e dp r a c t i c a b l e i n e x p e r i m e n t a lt e s t m o r e o v e r ,t h ep a p e r d i s c u s s e st h e p r i n c i p l e o fs o f t w a r ea n dh a r d w a r e d e s i g n ,b a s e d o nt h e i m p l e m e n t a t i o no fm u l t i c h a n n e la m r v o c o d e ro nt h et m s 3 2 0 c 6 2 0 3 t h e r e s u l t so b t a i n e df r o me m u l a t i o na r ei nb i te x a c ta g r e e m e n tw i t ht h ec a l c u l a t e d r e s u l t sp r o v i d e db y3 g p et h ei n f o r m a ls u b j e c t i v et e s ti nr e a l - t i m ep r o c e s s i n g i n d i c a t e st h a tt h es y n t h e t i cs p e e c hq u a l i t yo fa m rv o c o d e ri sb e t t e rt h a ni to f r o e l t pi ng s ms y s t e m a c h i e v i n gt o l l q u a l i t y , t h a t c a na p p l yt od e v i c e s e m p l o y i n g t h ea m rv o c o d e rw i t h i nt h e3 g p ps y s t e mi nt e r m so fs o f t w a r ea n d h a r d w a r e k e y w o r d s :3 g p p a m rv o e o d e rv a d e n d p o i n t d e t e c t i o n 第一章绪论 第一章绪论 1 1 语音编码概论 随着通信技术的高速发展,频率资源变得更加宝贵,语音编码技术可以压缩 语音信号的传输带宽或降低电话信道的传输码率。实际中,语音信号存在着大量 冗余,如信息冗余,时间冗余,谱间冗余,听觉冗余和知识冗余等,采用各种语 音编码技术能够去除语音信号的冗余度,不但可以成倍的压缩原始数据,而且仍 能合成出可懂度和自然度较好的语音。 语音编码目前主要分为三类,即波形编码、参数编码和混合编码。波形编码 力图使重建语音保持原始语音信号的波形形状。它具有适应能力强、语音质量高 等优点,但编码速率比较高,通常能在6 4 1 6 k b s 的速率上给出高的编码质量, 当速率降低时,其性能会迅速下降。参数编码主要对语音信号特征参数进行提取 和编码,力图使重建语音质量具有尽可能高的可懂度。虽然,重建语音信号同原 始语音信号的波形可能会有相当大的区别,但其编码速率很低,可以低至 2 4 1 2 k b s 。参数编码的主要问题是合成语音质量差,特别是自然度较低。它对 讲话环境噪声比较敏感只有在大信噪比下才能给出较高的可懂度。混合编码继 承了波形编码和参数编码各自的优点,又克服了二者的缺点,在4 1 6 k b s 速率上 能够得到高质量的合成语音。 以各种声码器( v o c o d e r ) 为代表的、基于参数模型方法的语音编码能得到更低 的比特率,但其实际音质难以达到长途话音质量。人们逐步认识到音质难以提高 的原因不在于目前的声道模型,而在于对该模型激励信号的描述不够精确。8 0 年 代后期出现了合成分析( a b s a n a l y s i s - b y s y n t h e s i s ) 线性预测编码。a b s l p a 在保留参数模型法优点的基础上,应用听觉加权技术和波形编码准则去优化激励 信号即在闭环基础上寻找主观听觉失真最小的激励矢量从而以低于1 6 k b s 码 率获得较高质量的合成语音。 评价一种语音编码器或语音编码算法的性能优劣,需要进行多方面的测试与 评估主要包括:编码速率,语音质量( 包括主、客观评价方法) ,编解码时延, 复杂度,鲁棒性。语音编码研究的基本问题就是在给定编码速率条件下,如何得 到尽可能好的重建语音质量,并保证尽可能小的编解码时延和适当的算法复杂 度,或者说是在给定编码质量、编解码时延及算法复杂度的条件下,如何降低语 3 g 中语音端点检测算法及其实现研究 音编码所需的的比特率,且抗干扰性强。但由于指标之间存在的相互制约关系, 实际中的编解码器是上述要求间的较好折衷。 语音编码有着广泛的应用背景,主要体现在以下两类:语音信号的数字传输, 该类应用主要包括数字通信系统,移动通信,蜂窝电话和保密话音系统等;语音 信号的数字存储。 近十年来,语音编码取得了长足的发展,在国际标准化工作中堪称为最活跃 的领域。就目前的语音编码现状而言,1 6 k b & 和8 k b s 的技术已经标准化和产品 化,己具备比较完善的理论和技术体系,并已进入实用阶段;4 8 k b s 已有区域 性标准,但这一码率区间的语音编码是国际标准化制定和实用化竞争的热点,尤 其是4 k b s 国际标准的制定,其主要技术为基于a b s 的c e l p 技术和正弦模型技 术:而研究重点逐步转向甚低速率,例如2 4 k b s 或1 2 k b s 语音编码器。近年来, 国内外在开展4 k b s 及其以下速率的语音编码研究方面,主要代表算法有四个: ( 1 ) 多带激励编码( m b e m u l t i b a n d e x c i t a t i o nc o d i n g ) m b e 算法是8 0 年代由美国麻省理工学院的d w - g r i m n 博士提出的( 1 “。m b e 编码器是一个不用预测残差的完全的参数语音编码器,在频域里将每段语音划分 为不同的频带,对每个频带做清,浊判决,并考虑到某段语音的激励信号是周期( 浊 音) 和类噪声( 清音) 能量的混合情况。值得一提的是,数字音频系统公司( d v s i ) 在i m b e ( i m p r o v e dm b e ) 和a m b e ( a d v a n c e dm b e ) 编码器技术商业化的过程中 取得了极大的成功。 ( 2 ) 正弦交换编码( s t c s i n u s o i d a lt r a n s f o r mc o d i n g ) 最早的s t c 编码器由美国麻省理工学院的林肯实验室发明。音频波形的正 弦模型使用了由正弦波的幅度,频率和相位表征的分析合成技术。 ( 3 ) 混合激励线性预测编码( m e l p m i x e d e x c i t a t i o n l i n e a rp r e d i c a t i o n ) 由亚特兰大佐治亚州理工学院a v m c c r e e 博士提出 13 1 。m e l p 编码器以传 统的l p c 参数模型为基础,并引入了四个附加特征:混合激励、非周期脉冲、脉 冲散布和自适应谱滤波。 ( 4 ) 波形内插编码( w i w a v e f o r mi n t e r p o l a t i o n ) 1 9 9 1 年美国a t & t 贝尔实验室w b k l e i j n 博士提出了原型波形内插( p w i 一 p r o t o t y p ew a v e f o r mi n t e r p o l a t i o n ) 语音编码算法1 。p w i 算法是在一定的时间范 围( 2 0 m s 3 0 m s ) 内以慢渐变的基音周期波形为基础,在浊音帧里提取和传送一 段原型波形,用线性插值恢复未传送的信号。后来,w b k l e o n 博士又提出了特 征波形( c w - 一c h a r a c t e r i s t i cw a v e f o r m ) 分解语音编码算法i 。该方法借助滤波 器将c w 分解为慢渐变波形( 周期的,浊音) 和快渐变波形( 非周期的,清音) , 基于感性认识,将这两种成分分别编码。 第一章绪论 总之,m b e 和s t c 为基于正弦合成分析模型( s a s m s i n u s o i d a l a n a l y s i s s y n t h e s i sm o d e l s ) 的语音编码算法,m e l p 为基于二元激励模型的线性 预测编码算法,w i 为基于s a s m 和线性预测模型的混合型编码算法。 1 2 语音编码的发展方向 语音信号处理是一门边缘学科,它主要随着语言学和数字信号处理两门学科 的发展而发展。语音编码作为语音信号处理的分支它的未来发展将表现为如下 几点: ( 1 ) 研究简化算法。在不降低现有算法性能的前提下,尽量降低算法复杂度, 提高运算速度,增强算法的实用性。 ( 2 ) 成熟算法的硬件化。这是未来通信的发展追切需要的。 ( 3 ) 神经网络理论和子波变换理论,在语音压缩编码中有很大的研究潜力。 ( 4 ) 寻找最佳的语音激励模型。合适的激励模型对于保证语音质量,减小算 法复杂度起着重要作用。 ( 5 ) 近一步降低编码速率,同时保持一定的语音质量,对于提高无线通信网 络容量很重要。本文论及的a m r 声码器就充分体现了这一点。 ( 6 ) 对人类听觉系统特性的不断认识,这是未来一段时间内的基础性研究工 作。 1 3 论文的工作安排 本项研究工作是围绕着西安大唐电信有限公司研发专题“a m r 编解码器”而 进行的。本文的具体内容是这样安排的: 第一章简单介绍了语音编码的基本理论,分类以及发展方向等。 第二章介绍了w c d m a 的语音编码标准一a m r 声码器。 第三章首先对w c d m a 的语音编码标准一a m i 声码器中的语音端点检测算法进 行了分析和研究,重点探讨了其特点及其理论依据。然后,本文进一步提出改进 的语音端点检测算法,仿真数据表明性能有较大提高,且在项目中得以实际运用, 测试性能良好。 第四章以t m s 3 2 0 c 6 2 0 3 为例,介绍并行操作和流水线操作的原理,然后通 过举例给出并行操作和流水线操作在软件编程中的应用,包括自己的一些心得和体 会。 第五章介绍了基于t m s 3 2 0 c 6 2 0 3 的多通道a m r 声码器硬件实现思想。 第六章是对论文工作的总结。 6 3 g 中语音端点检测算法及其实现研究 第二章棚r 声码器概述 2 1 引言 虽然高速数据通信是3 g 移动通信区别于2 g 和2 5 g 的最大特点,但是语音 业务仍然是3 g 的最基本的业务。语音编码技术经过几十年的发展,实际已经可 以在4 8 k b p s 甚至更低的速率上提供接近长途语音质量的声码器,在无线频率资 源非常紧张的今天已经没有必要传输6 4 k b p s 的数字语音。3 g 网络的传输模式为 a t m ,它可以根据具体应用的带宽要求进行灵活的分配,使得各种速率压缩编码 语音和图象、数据可以在一个统一的网络中传输。自适应多码率声码器( a m r 一一 - a d a p t i v em u l t i r a t e ) 是欧洲电信标准化协会( e t s i ) 下属的s m g l “s p e c i a l m o b i l e g r o u p l l ) 为g s m 系统定制的窄带语音编解码标准其目的是在半速率信道容量 的情况下得到有线语音编解码质量。3 g p p 标准化组织于1 9 9 9 年采用该技术作为 第三代移动通信系统( w c d m a ) 的宽带语音编码标准。 2 2a m r 声码器编解码算法概述 语音自然度和语音可懂度是衡量语音质量的两个最重要指标。a m r 编码器 通过预测信道状况,自适应的选择最适合当前通信条件的编码模式,实现了两者 的互补,将语音质量和抗噪声能力大大提高。 a m r 的误码率在所有编码模式中并不是最低的,这是因为a m r 是以合成 语音质量而不是以误码率作为选择编码模式的标准,合成语音质量除了和误码率 有关外,还取决于声码器模型的语音合成。 在实际通信系统中,信道的信噪比总是时刻变动的,单一编码模式很难在大 范围信噪比内始终保持最优,而且单一语音编码方法容易带来的系统容量和频带 利用率的浪费,而a m r 编码技术根据当前的信噪比自动选择最优编码模式,使 合成语音波形始终保持最佳。有资料表明,在g s m 系统的3 种典型信道环境下 ( t u 信道,市区环境;r a 信道,郊区环境:h t 信道,山区环境) 模拟测试了 a m r 的中文语音性能,并将合成波形与其他编码器进行了比较。非正式的m o s 分测试表明,a m r 合成语音质量要比其他编码模式高0 5 - 1 2 个m o s 分。 目前大部分a m r 编码技术均基于嵌入式模型,即声码器模型相同,只通过 调整参数、量化比特等方式实现变速率。研究表明,基于多种声码器模型( 如 第二章a m r 声码器概述 c e l p , i m b e ,p w i 等) 的多模式a m p 编码合成语音要比嵌入式高0 9 个非正式m o s 分i ”1 ,此外a m r 的功率控制、信道保护、信道切换等方面也值得进一步探讨。 进一步说,a m r 提供了一种自适应的解决方法来跟踪快速变化的无线信道 情况和本地流量情况。而现今的g s m 系统语音和信道编码器工作在固定码率上, 这些码率在设计阶段就已经选定,是理想信道性能和信道误码鲁棒性的一个折 衷。另一方面,a m r 声码器实时根据信道类型( f u l lr a t e 全速率或h a l fr a t e 半速 率) 选择多种码率中的一种,从而达到语音编码和信道编码的最优组合以满足瞬 时的无线信道条件和本地容量需求,动态分配频带资源,在语音质量和系统容量 之间灵活切换,不仅提高了合成语音质量,还扩大了系统容量。a m r 技术在v o l p 等业务中也有很好的应用前景。 3 g p p 已制订了一系列详细的标准用于a m r 声码器的实现 1 - 0 1 2 1 】【2 2 】1 2 3 】【“】【2 5 1 2 6 】【”1 。这系列标准包括a m r 编解码算法描述、符合a n s ic 标准的 源程序、声码器的测试序列等,可以说为a m r 声码器的算法实现提供了较为详 细的思路。 理论上,声码器的模型每个语音帧可以改变一次。每个声码器模型对总的速 率( 全速率:2 2 8 k b i t s 半速率11 4 k b i t s ) 在信源编码和信道编码之间进行特定的 分配,以此来提供不同的抗误码能力。 a m r 声码器的主要特色是自适应,它能根据信道质量选择不同的编码速率 ( 或说声码器模型) 。在信道质量较差时选择顽健性较好的模型,而在信道质量 较好时选择能提供较好语音质量的模型。这种自适应算法是在移动用户和网络之 间通过闭环交互作用实现的。在上行链路中,基站为选择最佳的声码器模型而对 信道质量进行估算,并将所得到的结果通过空中接口发送给移动用户。在下行链 路中,移动用户负责对下行信道的质量进行估算,并将该信息发送给基站,网络 从整体出发来为当前信道选择最佳声码器模型。 a m r 声码器是w c d m a 系统m s c 设备中的关键部件之一。它实现语音的 多种低速率编解码,支持静音抑制和舒适噪音生成,降低了对无线频谱带宽的要 求,在m s c 中发挥媒体网关( m e d i ag a t e w a y ) 的作用,保证了基于a t m 的第三代 移动通信网与现有的网络资源p s t n i s d n 的互通性。从实际功能上来讲,a m r 声码器所完成的只是p c m 格式的语音数据流与a m r 帧格式的数据流之间的相互 转换。a m r 声码器的编解码算法由三大部分组成:1 ) 多速率语音编码器;2 ) 含有语音激活检测器( v a d v o i c ea c t i v i t yd e t e c t o r ) 与舒适噪声产生( c n g ) 系统 的源控速率方案( s c r ) ;3 ) 能减小传输误码与包丢失对合成语音影响的错误隐 藏机制( e c u ) 。其中多速率语音编码器支持8 种语音编码速率:1 2 2 ,l o 2 ,7 9 5 ,7 4 0 , 6 7 0 ,5 9 0 ,5 1 5 ,4 7 5k b p s :另外,背景噪声低速率编码模式为1 8 b p s 。它允许每 一帧信号( 2 0 m s ) 的编码速率可以不同,是整个声码器的核心,其基本算法为共轭 8 3 g 中语音端点检测算法及其实现研究 结构代数码激励线性预测( c s a c e l p ) 编码算法;其余几部分则用于改善声码 器的性能和提高网络的用户容量,是可选的组件。 a m r 声码器单路信号流程功能框图如图2 1 所示。 帧类型 l 刊。棚 一廿 0 t x c r c 暨 叫编码器 广五和成桢 i 转化为h2 卜 控制 | 1 3 b 憾性码l _ 吐理 廿 1语音帻 信息比特 l i 惴k j h 估计骗码 | ;舌帧 ? b卜勰| 。_。_。一 解帧 m ! d t x 1 一u +控制 + 一恩 crg 倚i 朝 控验 处理 l 语音帧o i ol l h i +一背景器再生l 、: 图2 1 a m r 语音编码器典型功能框图 图中各电信号为: ( 1 ) 6 4 k b p s 的p c m 信号; ( 2 ) 1 3 b i t s 的线性码: ( 3 ) v a d 判决结果标识:( 4 ) 语音帧编码比特流; ( 5 ) 背景噪声编码比特流( s i d ) :( 6 ) 帧类型标识; ( 7 ) 一帧编码比特流;( 8 ) 语音帧编码比特流: ( 9 ) 错帧标识( b e ) :( 1 0 ) 背景噪声编码比特流( s l d ) ( 1 1 ) t a f 信号:( 1 2 ) 编码比特信息包; 8 b i t a 率或u 率( 1 t u t 建议g7 1 1 ) ,8 0 0 0 样本,秒 1 3 b i tp c m 8 0 0 0 样本秒 语音激活检测( v a d ) 标志 编码语音帧,5 0 帧秒,每帧比特数依赖于a m r 编解码模式 静音帧( s i d ) t xt y p e ,2b i t s ,指示获得的信息位是语音信息还是静音 发送到3 g a n 的信息位 从3 g a n 接收到的信息位 r xt y p e ,接收到的帧类型量化为3b i t s 由上图,a m r 的输入为1 3 b i t 规则p c m 信号( 或者来自用户设备u e 、或 者来自网络,如p s t n ) ,编码结果的输出如表2 1 所示。 第二章a m r 声码器概述 表2 1a m r 声码器的编码速率 编码模式编码速率 a m r1 2 2 01 2 2 0k b i t s ( g s m e f r l a m r1 0 2 010 2 0k b i t s a m r7 9 57 9 5k b i f s a m r7 4 07 4 0k b i l j s ( 1 s 一6 4 1 1 a m r6 7 0 6 7 0k b i t s ( p d c e f r ) a m r5 9 05 9 0k b i t s a m r5 1 5 5 1 5k b i t s a m r4 7 54 7 5k b i t s a m rs i d1 8 0k b i t s * 假设s i d 帧连续发送 注l :g s m e f r 为e t s ig s m0 6 ,9 0 增强全速率语音编码 注2 :i s 一6 4 1 为t i a e i ai s 7 6 4 1t d d h 增强全速率语音编码 注3 :p d c e f r 为a r j b67k b i t s 增强全速率语音编码 2 3n d r 声码器语音编解码算法 2 3 1 编码器算法 a m r 语音编码器的功能框图如图2 2 所示。 3 g 中语音端点检测算法及其实现研究 厂追 、厂埘嗵 预处理 加窗 计算自相关 l e v l n s o n d u r b i n 递推算法 计算l p 系数 l p 系戤转化为 l s p 系数 l s p 系数量化 l s p 系数内插 ( 4 分帧) l s p 系数内插 转化为l p 系数 ( 4 分帻) 计算加权语音 ( 4 分帧) 开环基音搜索 计乏瘩桨警搜r _ 刊计算营嚣霎耋搜索 闭环基音搜索 计算基音增益 基音。基音增益 量化 计算自适应玛矢 对音成语音贡献 计算 加权合成滤波嚣 冲撇响应 图2 2a m r 编码器功能框图 数码矢 计算 代数码矢增益 井量化 由图2 1 可知,a m r 声码器以码激励线性预测( c e l p ) 模型作为编码模型, 它采用分析合成的方法量化激励信号,如果采用全搜索策略,其计算量非常庞大, 不便于硬件实现。为了降低复杂度,a m r 声码器采取的方法为搜索局部最佳的 策略:即对于自适应激励码矢量,采用开环粗搜索和闭环细搜索以及偶分帧的差 分搜索的方法,缩小闭环细搜索自适应激励码矢量的范围:对于随机激励码矢量 则采用序列搜索和部分搜索的方法降低计算量,并且对两个激励分量的搜索采取 串行搜索的方法。为了消除声道响应的开环音检测算法性能的影响,开环音检测 算法的输入信号为经过加权处理的语音信号,加权滤波器的传递函数为 【0 1 + q , 月。( = ) = 卜一 ( 2 - 1 ) l + q 摩1 ,= l 其中 的取值范围为o 9 4 ( 对1 2 2 和1 0 + 2 k b p s 模式) 或者o 9 0 ( 对其余模式) ,! 的取值为0 。6 0 ,其作用是展宽共振峰带宽,消弱声道的影响。 编码器的信号流程为:一帧2 0 m s 的语音信号经过预处理、线性预测分析、 歼环基音检测以及闭环基音搜索和随机激励码矢量搜索就可以得到表征c e l p 模 第二章a m r 声码器概述 型的所有参数:线性预测系数h ,自适应激励码矢量,代数激励码矢量及各自增 益,对所有的参数进行量化和装帧就完成了编码处理。以上参数中由于 口, 的量 化和内插特性不好,a m r 声码器对此采取对h 的推演参数一线谱对参数l s p 进行量化的方法,并且为了和解码器实际的输出比较吻合,编码器在闭环搜索时 均使用量化后的参数。 2 3 2 解码器算法 a m r 解码器的功能框图如图2 3 所示。 圈2 3a m r 解码器功能框图 解码器的处理和一般的c e l p 解码器原理相同,这里只介绍其独有的重构随 机激励矢量的相位弥散处理。由于7 9 5 ,6 7 0 ,5 9 0 ,5 1 5 ,4 7 5 k b p s 模式中随机 激励码矢量中非零值样点数非常少。如果随机激励码矢量在整个激励信号中所占 分量比较大,则合成语音自然度差、机器声比较明显,为了消弱这种情况的影响, a m r 声码器对随机激励矢量的脉冲进行了相位弥散处理( 抗稀疏处理) 。其步骤 为: ( 1 ) 根据当前分帧自适应激励码矢量的增益选取相位弥散处理程度; ( 2 ) 根据随机激励码矢量的增益修正相位弥散处理程度; ( 3 ) 相位弥散处理:首先根据模式和相位弥散处理程度选取相应的滤波器, 然后随机激励码矢量和滤波器进行循环卷积。 由数字信号处理知识可知,两个序列的循环卷积为两个序列的线性卷积周期 延拓叠加后取其主值序列 o ,n 1 】。图2 4 ( a ) 画出了强处理和弱处理所使用的滤波 器的时域波形,( b ) 画出了相应的频域波形。由图2 4 可知,强处理滤波器的冲激 响应呈现强烈的振荡现象,弱处理滤波器则只是增长了一些拖尾,因此即使只是 1 2 3 g 中语音端点检测算法及其实现研究 两个序列的线性卷积结果,随机激励码矢量经过强处理滤波器后,非零值的点数 量增加,并且用较太的值填充前后脉冲间的间隙;而弱处理滤波器处理完后前后 脉冲间所填充的值则较小,但是经过循环卷积的周期延拓叠加,也可以大大增加 随机激励码矢量中非零值的数量,增强随机激励码矢量的随机性。仿真结果表明, 随机激励码矢量脉冲的相位弥散处理可以改善低速编码语音的质量。 图2 4 相位弥散处理滤波器时域和频域波形 2 4a m r 声码器后期应用 a m r 声码器是在通用d s p 上用软件实现的一个独立模块,只需要根据具体 应用的接口要求修改接口配置文件就可以成功的应用在以下几个方面,如:3 g 基站交换机,3 g 手机,v o l p ,并且可以实现在线系统升级。 a m r 声码器编解码算法具有许多独特的特点:随机激励码矢量的脉冲相位 弥散,v a d 算法,背景噪声参数估计、编码和再生以及误码消除等,其中v a d 的原理具有普遍意义,其思想可以在其他语音压缩编码的应用场合中采用,具有 较大的研究价值。 第三章a m r 声码器语音端点检测算法 第三章a m r 声码器语音端点检测算法 3 1 语音端点检测算法概论 有资料表明,人在打电话过程中只有大约4 0 的时间在通话话,大部分时间 在听对方说话或思考,早期的卫星通信设备采用了数字语音内插( d s i ) 技术,提 高昂贵的卫星线路的利用率。 在背景噪声或一定的干扰下,正确识别语音信号的起止点对声码器是十分重 要。错误的决定起点会导致起始语音的消失以致漏判或以一串噪声为语音信号而 造成误判。端点检测直接的好处是可以提高实时系统的运行效率,缩短处理时间, 使该系统仅处理语音输入,不至于在静音段白白浪费计算量和存储量,有利于在 资源较为紧张的d s p 系统上实现。 另外,对语音识别等其它应用领域来说,首先也必须有端点检测,所以语音 端点检测的研究课题显得非常重要。 语音端点检测属语音前端处理,如图3 1 。传统的语音端点检测 图3 1 r e n d p o i n td e t e c t i o n ) 方法【】1 【2 】i n 6 i i ”,主要以时域量度来描述,通常采用语音的短 时平均过零率( 多门限) ,短时能量、短时平均幅度( 多电平) 和短时自相关函 数。它们实现简单,计算量相对较小,因而得到广泛的应用。算法大多应用多种 有关语音的先验知识,采用多种特征组合,组合方式用简单的“或”、“与”或用 较复杂的有规定条件的逻辑组合( 采用多层或多级判别的思想) 。这些方法在高 信噪比( s n r ) 时具有良好的性能,而在低信噪比时性能很差,有时甚至无法工 作。主要原因是:( 1 ) 在不同时刻,不同条件下所采集的电话语音信号其信噪比 ( s n r ) 变化比较大,很难找到对各种条件s n r 都适用的固定闽值( 2 ) 在电话 语音中,经常存在一些突发性干扰,这时能量和过零率变的很大,这也给端点检 测带来较大的困难。 对于需要高精度的端点检测的应用领域来说,这些方法是不足的,难以达到 3 g 中语音端点检测算法及其实现研究 理想的效果。然而,语音处理系统通常要求工作在不同的噪声条件下,在信噪比 比较低的环境下,所采用的端点检测应当适应最不利的情况,在实际应用中达到 较高的准确性。 在这方面,d k f r e e m a ne ta 1 作出了突出贡献,他提出的v a d 算法已被采纳 为e t s i ,g s m 数字移动电话标准的一部分m j 。 一般的语音端点检测算法步骤如下: ( 1 ) 抽样信号被分成各信号帧; ( 2 ) 对每一帧信号,选取并计算多种特征向量; ( 3 ) 根据对应于信号的特征向量序列,利用多种判决准则,来判决语音帧和 非语音帧; ( 4 ) 对第( 3 ) 步的判决结果进行后处理。后处理过程是为了避免把人在发 声过程中出现的自然停顿当作背景噪声。同时能有效的对字间间隙光滑,消除字 间间隙对对端点检测可能造成的误判。 为了便于对比,本文首先简要介绍一下基于能量的语音端点检测算法。 3 2 基于能量的语音端点检测 通常的语音端点检测方法采用测试信号的短时能量或短时对数能量作为特征 参量,并采用门限判定法来检测语音。在这些方法中,当测试信号帧的短时能量 超过噪声能量并持续一段时间,则第一次超过噪声能量的点被判定为语音段的起 点。而当测试信号帧的能量低于另一个噪声能量门限并持续一定时间,就可测定 语音段的终止点。噪声能量门限的估计对此种方法的性能影响很大。 在低噪声环境下,如s n r 大于2 0 d b 时,这种方法具有很好的性能,然而, 实际的语音通信系统常应用于不同的环境。例如,在汽车中s n r 通常只有几个d b 在低s n r 环境下,由于难以确定适当的门限值,基于能量的端点检测不能很好 的工作,而且此种方法,难以处理非平稳噪声。在有些算法中,一些其他的特征 参量,如过零率,音调音等被采用,以改进端点检测但这些方法在高噪声情况 下仍然不具备好的性能。 3 3a m r 声码器语音端点检测 3 3 1a d r 声码器语音端点检测概论 3 g 采用码分多址技术,这是一种白干扰系统,系统的容量取决系统的即时 第三章a m r 声码器语音端点检测算法 业务量,如果在不通话期间发射机不发送信号,就可以大大降低系统内的多址干 扰,提高系统容量,这必然需要可靠的语音端点检测算法的支持。 s c r 是a m r 的一个重要功能,也是3 g p p 提高系统容量的一个重要途径。 s c r 可以降低手机的功耗,延长电池的使用时间;可以降低网络的干扰,充分利 用有限的频谱资源,提高系统容量和服务质量( 有资料表明,系统容量提高一倍) 。 s c r 方案有两个主要功能构成:语音端点检测( v a d ) 和舒适噪声产生( c n g ) 。 v a d 算法的主要作用是检测当前一帧原始语音信号是否是语音,音乐或信 令音信号,给出标志,编码器根据标志决定对当前一帧信号的处理方法。这里主 要介绍标准所提供的v a d 算法。由a m r 帧格式可知,每帧编码比特流中都有指 示本帧的帧类型的若干比特,这样解码器根据帧类型,在编码器所采用的v a d 具 体算法未知的情况下也可以恢复语音和背景噪声,它不牵涉到互通的问题,所以 设备制造商可以根据具体的情况选择本标准以外的任意一种语音端点检测算法。 v a d 算法是基于子带电平估计的能量检测,采用时域方法。下面详细介绍算法的 原理及其处理流程。 3 3 2g a d 原理与功能 该v a d 算法功能框图如图3 2 所示v a d 模块的输入是:经预处理的原始语 音( 2 0 m s ) ;编码器提取的一些参数:9 个子带电平以及由此导出的信号信噪比, 开环检测得到的基音周期,开环检测得到的基音的增益,开环检测基音所得到的 自相关矢量,其中后三个参数为开环基音检测的伴随产物。因此,整个算法复杂 度低。输出是一个布尔量v a df l a g 图3 2 v a d 算法功能框图 ( 1 ) 实际上v a d l 方法的理论依据是语音和噪声的谱特性的不同,它根据人 耳的听觉特性,对输入语音s ( i ) 被分割为9 个子带,并计算每个子带的信号电平 l e v e l n 】,估计信噪比 删_ s u m = 善9 脚( 1 。,l e v 丽e l n ) b c k re s t n ( 3 - 1 ) 智 、 其中l e v e l n 】为当前帧第n 子带电平,b c k re s t n 】为根据前几帧信号电平估 计得到的第n 子带噪声电平,它由当前帧的信号电平和以前背景噪声电平决定。 ( 2 ) 基音检测算法是为了检测元音和其他周期性信号:基音标志根据开环基音 来置位:如果连续一段时间内的前后相邻基音周期的变化小于给定的门限,则认 为检测到元音或其他周期性信号,基音计数器加l :前后帧计数超过一定门限, 基音标志景位;否则,清零。整个处理过程类似于平均过零率检测。 注:在标准提供的程序中我们发现,v a d 在开环基音检测前完成,所以v a d 判决有一定的延时。 ( 3 ) 由于基音检测算法不能保证检测到信令音和其它非常强的周期性信号,如 果该信号用舒适噪声替代,就可能影响听觉效果,所以标准中进行音调音检测。 具体的检测方法是:如果开环基音增益大于门限t o n et h r ,则认为检测到音调 音,音调音标志置位;反之,清零。 ( 4 ) 如果用舒适噪声取代高频成分中具有很强相关性的信号( 如音乐) ,合成 的语音就会很烦人,基音和音调音检测算法不能保证检测到该信号,所以标准中 在高频区对该信号进行检测。如果高通滤波信号的归一化自相关值峰值表明信号 第三章a m r 声码器语音端点检澜算法 为强相关性的复杂信号,则置位复杂信号标志c o m p l e x。复杂信号的检warning 测就是根据自相关值序列的高通值的大小完成的。 它的工作原理主要基于自相关性。一般来说,在强噪声情况下,短时能量不 利于区分语音与噪声。但语音相邻采样点之间的相关性很大,而噪声通常是随机 的,相邻之间一般没有相关性或者相关性很小。含噪语音的自相关值序列受噪声 的影响不大,可以认为在整个信号段中语音部分的自相关值一定远大于噪声的自 相关值。鉴于各阶自相关函数值存在的差别,为了更清楚的分辨出语音所在位置, 需要对采用的自相关函数的阶数进行选择。v a d 算法采用的是一阶自相关函数。 在对整个信号段进行处理时,需要对信号分帧处理,得到各帧信号的一阶自相关 值,以此为据进行端点检测。 虽然原理上自相关域内的端点检测是可行的,但在具体实现时为了得到更好 的结果还有许多细节上的处理不能忽略。实际生活中,完全不相关的噪声是不存 在的,它们总是或多或少的与语音有些相关,如果直接用自相关值,仍是难以确 定语音的位置,所以要进一步的增大语音段与噪声段的区别才能使得端点检测更 加准确。 语音信号的高频部分在信号谱中的幅度比较低,但是一般情况下噪声在高频 部分更加弱,所以在求整段信号的自相关之前要将其先通过一个预加重网络( 实 质上是一个高通滤波器) 以平滑信号谱,提升语音信号的含量,消弱噪声;加上 求自相关时会产生二次谐波,而语音具有谐波结构,并在预加重后有所增强,这 样,语音的自相关性自然明显强于噪声。据此,可得自相关域内的流程图,如图 3 3 。 标 夏三三卜匹一巨亟三一重一 图3 图3 3 自相关域内的处理 但是这样的方法必然会因为高通滤波器的截止频率而使得系统所能抑制的噪 声局限在通带内( 在此通带外,端点检测会不准确) 。然而,语音的谱分布与噪 声有所不同,它的谱一般来说会有一个比较集中的频带,那麽,可以用一个自适 应的数字滤波器取代原高通滤波器,提升信噪比之后再作自相关域内的端点检 测。 ( 5 ) 根据信噪比和门限的关系判决即时v a d ,其处理步骤为: 计算原始信号能量n ,然后根据止一的情况清除当前帧的基音周期标志和复 一1 8 3 g 中语音端点检测算法及其实现研究 杂信号标志,即:如果。一低于基音能量门限,则清除基音周期标志p i t c h ;如果 o n 低于复杂信号能量门限,则清除复杂信号标志。 计算全带噪声平均电平由于语音的响度不一,故门限没有固定值,需要针 对具体的语音进行自适应改变。确定门限v a dt h r 具体方法为: v a d t h r = v a d s l o p e ( n o i s e l e v e l v a d p i ) + v a d t h r h i g h ( 3 - 2 ) 上 式中n o i s e l e v e l = b c k r e s t n , 删d 一勉。尹e , v a d p , 月= 1 删dt h rh i g h 为常数,其中蹦ds l o p e ( 斜率) 为负值。 即时v a d r e g 判决: 如果子带信噪比平方和s 胛s u m v a dt h r ,则认为当前帧为语音或其他信 号:反之,则认为当前帧为背景噪声。 最后考虑语音拖尾,人类说话的特点,音乐信号和单频信号的特性对即时v a d 判决结果进行修正,得到最终的v a d 判决结果。v a d 后处理考虑了其他特殊信 号物理和听觉特性,以使用于各种应用环境中,包括室内安静环境和嘈杂的商场 环境。 注意:即时v a d r e g 判决在低信噪比条件下会有误判( 虚警) 现象。 ( 6 ) 因为实际情况中,用户可能处在很强的背景噪声的环境中,此时语音和 音乐信号的拖尾段能量比较低( 难以检测但对主观听觉又很重要) ,容易被误判 为背景噪声,使得合成语音出现掉字。所以在标准中,最终v a d 判决还要考虑 语音延长。另外,如果检测到信号在长时间内( 2 0 0 m s ) 具有非常复杂的特性, 由于即时v a d r e g 不能保证可靠地检测到这种信号也需要进行语音延长。这也 体现了语音信号的长时平稳特征。具体流程见附录a 。 ( 7 ) 背景噪声估计更新 背景噪声估计( b c k r e s t n ) 使用前一帧的电平进行平滑,这样可以避免未 检测到的语音突发的开始部分( 误认为噪声) 影响背景噪声电平的估计。 具体的更新公式为 b c k r e s t 。i i n = ( 1 一a ) 6 c 打一e s t 。i n 】+ a l e v e l n 】 式中a 为更新速度控制参数,它和前几帧的即时v a d 结果, 平的估计值以及前一帧的子带电平有关。 ( 3 - 3 ) 当前帧噪声电 如果v a d r e g = i 或基音标志p i t c h = l ,噪声电平不需要增大;反之,需要增 大。每一子带的自适应处理为: f o rn 2 1 t 09 ( 第三章a m r 声码器语音端点检测算法 i f ( b c k r e s t 。n 3 ) 上式表明,高阶累积量对高斯过程不敏感。因此,若接收到的是伴有加性正 态噪声的非正态信号,从理论上说,在高阶累积量域中处理便可完全去掉高斯有 色噪声的影响1 it s 。我们提出一种新的基于三阶累积量的v a d 算法,它可以进 一步改善性能。图3 5 是其功能框图。 第三章a m r 声码器语音端点检测算法 特 正提取 lh o s 匹

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论