




已阅读5页,还剩36页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工大学硕士学位论文 摘要 研究表明,人们在交流时一方说话者讲话的时间通常只占总的通信时间的4 0 甚至 更少,其他时间为聆听对方讲话和通信中的静默期,在静默期间没有话音信号,只有背 景噪声存在。因此如果始终采用同一码率对语音信号进行编码是对信道资源的一种浪 费。为此,可以引入非连续传输d t x c n g 技术,即在话音阶段和背景噪声阶段,控制 编码器采用不同的码率进行数据传输,从而达到提高信道利用率的目的。 目前,d t x c n g 技术已经成功的应用于i t u t 的相关标准中,其中包括g 7 2 9 b 、 g 7 2 3 1 a 、g 7 2 2 2 等协议。从i t u t 的标准化方向来看,更宽带宽的语音编解码的应用 前景毋庸置疑。在此类语音编解码的应用中,其编码码率必将增加。如果全部使用全速 率编码,对于背景噪音部分,一方面会浪费更多的带宽,另一方面高带的噪声反而可能 会影响听者的主观感受。 本文正是基于这样的应用背景,提出了一种d t x c n g 算法,并进行了算法相关的 客观测试和评估。本文的主要工作包括: ( 1 ) 分析目前的d t x c n g 系统特点,详细总结了现有算法的优缺点。 ( 2 ) 基于v c 6 0 用浮点c 语言实现了d t x c n g 算法。 ( 3 ) 最后对开发的算法进行相关的客观测试。 本文系统实现了分层的d t x c n g 思想,主要实现了c n g 模块。客观测试结果表 明,该方案具有低延时、低复杂度、低码率特性,具备一定的实际应用价值。 关键词:语音处理;语音编码;码激励线性预测;矢量量化 大连理工大学硕士学位论文 r e s e a r c ha n di m p l e m e n t a t i o no fd t x c n ga l g o r i t h m a b s t r a c t r e s e a r c hs h o w st h a ti naf u l l - d u p l e xc o n v e r s a t i o n ,u pt 06 0 o ft h ec o n v e r s a t i o ni na n y o n ed i r e c t i o nc o u l db ei n a c t i v es p e e c ho rb a c k g r o u n ds i l e n c e d u r i n gi n a c t i v es p e e c ho r b a c k g r o u n ds i l e n c ep e r i o do n l yb a c k g r o u n dn o i s ee x i s t s s oc o d i n ga n dd e c o d i n ga to n es i n g l e r a t ei saw a s t eo fe h a n n e lt e s o l l r e e t h u s ,d i s c o n t i n u o u st r a n s m i s s i o n c o m f o r t a b l en o i s e g e n e r a t i o n ( d t x c n g ) t e c h n i q u ee m e r g e sa s t h et i m e sr e q u i r e d u r i n gs p e e c ha n d b a c k g r o u n ds i l e n c ep e r i o d ,a l g o r i t h m sc o n t r o lc o d e ca to n es i n g l er a t ec o d i n ga n dd e c o d i n gi n o r d e rt or e d u c et r a n s m i s s i o nb a n d w i d t h i nr e c e n ty e a r s ,d t x c n gt e c h n i q u eh a sb e e ns u c c e s s f u l l y a p p l i e dt ot h er e l e v a n t i t u - ts t a n d a r d s ,i n c l u d i n gg 7 2 9 b ,g 7 2 3 1 八g 7 2 2 2a n do t h e rs t a n d a r d s v i e w e df r o mt h e d e v e l o p m e n to fi t u ts t a n d a r d i z a t i o n ,d t x c n gt e c h n i q u ea p p l i c a t i o n s a r eb e y o n d d o u b t f u l i nt h i ss p e e c hc o d e ca p p l i c a t i o n s ,t h ec o d e rb i t r a t ew i l lb eg r e a t l yi n c r e a s e d i f c o d i n ga n dd e c o d i n ga to n es i n g l er a t e ,o nt h eo n eh a n di tw i l lb ew a s t eo fm o r eb a n d w i d t h , o nt h eo t h e rh a n d ,m a yb eu l t r a - w i d e b a n db a c k g r o u n dn o i s ei m p a c to fs u b j e c t i v ef e e l i n g s b a s e do na f o r e s a i da p p l i c a t i o nb a c k g r o u n d ,t h i sp a p e rb a s e do nt d b w ep r o p o s e sa n a l g o r i t h mo fd t n g t h ew o r k st h a th a v eb e e nd o n ei nt h ep a p e ri n c l u d e : ( 1 ) a n a l y s i st h ee x i s t e dd t x c n ga l g o r i t h m s ,s u m m a r i z et h em e r i ta n dw e a k n e s s e so f e x i s t i n gm e t h o di nd e t a i l ( 2 ) r e a l i z ed t x c n ga l g o r i t h mb a s e do ncl a n g u a g ep r o g r a m ( 3 ) f i n a l l y ,t e s tt h ea l g o r i t h mo fh i g h e rb a n dd 刑c n g s u b j e c tt e s ti l l u s t r a t et h a tt h en e wa l g o r i t h mr e a l i z et h es c a l a b l ed t x c n ga l g o r i t h m , s u b j e c tt e s ti n d i c a t e st h a tt h en e wa l g o r i t h mr e a l i z e st h es e p a r a t ec o d i n gb e t w e e ns p e e c ha n d n o i s e mn e wa l g o r i t h mh a st h ec h a r a c t e ro fl o wd e l a y ,l o wc o m p l e x i t y ,l o wb i t r a t ea n d v a l u eo fp r a c t i c a la p p l i c a t i o n k e yw o r d s :s p e e c hp r o c e s s i n g :s p e e c hc o d i n g ;c o d ee x c i t e dl i n e a rp r e d i c t i o n ;v e c t o r q u a n t i f i c a t i o n 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文题目:盈【丕么型鱼釜盘垂2 盈盏立兰啦 作者签名:鑫丞盔 日期:2 学年上月l 日 大连理工大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间 论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有 权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印、或扫描等复制手段保存和汇编本学位论文。 作者签名: 导师签名: 日期:4 年j 月l 日 日期:驾l 年上月z q 日 大连理工大学硕士学位论文 1绪论 1 1 应用背景 随着信息社会和通信技术的高速发展,语音通信领域取得了突飞猛进的发展。语音 编码作为实现语音通信的基础,其本质就是在尽可能低的码率下获得尽可能高的合成语 音质量。因此压缩数字语音信号的传输占用的信道带宽,一直是众多研究者追求的目标。 研究表明,人们在交流时一方说话者讲话的时间通常只占总的通信时间的4 0 甚至 更少,其他时间为聆听对方讲话和通信中的静默期,在静默期间没有话音信号,只有背 景噪声存在。因此如果始终采用同一码率对语音信号进行编码是对信道资源的一种浪 费。为此,可以引入非连续传输d z x ( d i s c o n t i n u o u st r a n s m i s s i o n ) 技术,即在话音阶段 和背景噪声阶段,控制编码器采用不同的码率进行数据传输,从而达到提高信道利用率 的目的。在d t x 过程中,话音阶段背景噪声同话音一起传送,并随传输的切断而消失。 这就导致了背景噪声传输的不连续性。在通话过程中,如果d t x 的频繁切换,使背景 噪声时有时无,令听者感到很不自然,甚至会影响到语音的可懂性。因此,在背景噪声 期间,发送端在一定时间内需要发送一帧信息来描述背景噪声信息,从而使接收端产生 类似于发射端的背景噪声,从而消除听者的主观不舒适感觉。描述背景噪声信息的帧称 为静默描述s i d ( s i l e n c ei n s e r t i o nd e s c r i p t o r ) 帧,接收端解码器根据s i d 帧信息生成的噪 声称为舒适噪声。 要实现d t x 技术,首先在发送端,编码器需要检测出当前输入语音信号是否是话 音信号或者是背景噪声信号,从而控制编码器采取不同策略进行编码,其次在接收端, 解码器需要根据接收到的s i d 帧信息生成舒适噪声。这就要涉及到与d t x 紧密联系的 两个重要功能模块一话音活性检测v a d ( v o i c ea c t i v i t yd e t e c t o r ) 和舒适噪声产生 c n g ( c o m f o r tn o i s eg e n e r a t i o n ) ,v a d 的功能是判断当前输入是话音还是背景噪声, c n g 的功能是在编码端提取背景噪声参数,在接收端解码器根据噪声参数合成出与发 端背景噪声特性相似的舒适噪声输出。 目前,d d ( c n g 技术已经成功的应用于i t u t 的相关标准中,其中包括g 7 2 9 b , g 7 2 3 1 a ,g 7 2 2 2 ( a m r w b ) 等协议。从i t u t 的标准化方向来看,更宽带宽的语音编 解码的应用前景毋庸置疑。在此类语音编解码应用中,编码码率必将大大增加,如果全 部使用全速率编码,对于背景噪音部分,一方面会比宽带浪费更多的带宽,另一方面可 能高带的噪声反而会影响主观感受。因此d t x c n g 方案是非常值得研究的。这是一个 d t x c n g 算法的研究与实现 前瞻性研究,相信在未来的电话会议以及移动通信和互联网络系统中,也将非常需要性 能出色的d t ) ( n g 技术。 1 2d 眦n g 技术发展现状和分析 目前,d t x c n g 技术已经成功的应用于语音编码标准中,其中包括g 7 1 1 a p p e n d i xi i 、g 7 2 3 1a p p e n d i xa 、g 7 2 9a n l a e xb 、g 7 2 2 2 ( a m r - w b ) 、g 7 2 9 1 。下 面本文通过对各个标准和相关专利的介绍来说明d t x c n g 技术的发展现状,并通过对 各个协议和专利的分析和比较,揭露已有方法的优缺点,从而为课题的下一步研究方向 奠定基础。 1 2 1g 7 1 la p p e n d i xi id t x c n g 算法简介与分析 g 7 l la p p e n d i xi id t x c n g 是于2 0 0 0 年i t u 发布的一个附录,它面对的主要应用 对象是基于包的多媒体传输系统。该附录通过应用v a d d t x c n g 算法,从而有效的 降低了传输速率,也提高了带宽利用率【i 】。 g 71 1a p p e n d i xi id t x c n g 算法是基于简化的( c o d e e x c i t e dl i n e a rp r e d i c t i o n , c e l p ) 码激励线性预测模型,其d t x 算法模块调用的是g 7 2 9 b 的d t x 算法模块,但具 有独立的c n g 算法模块。首先在编码端,编码器通过调用g 7 2 9 b 的d t x 算法以判决 当前背景噪声是否发生变化,从而决定当前帧的类型。 当d t x 算法模块检n - n 背景噪声信息发生变化时,编码器发送s i d 帧,否则,不 发送当前帧的背景噪声信息。对于s i d 帧,g 7 1 1a p p e n d i xi id t x c n g 算法使用反射 系数来描述背景噪声的当前帧频谱信息。s i d 帧信息由能量信息和反射系数构成。其算 法过程如下:首先将信号进行滤波,以抑制信号的中工频成分,滤波器为一个i i r 高通 滤波器。为了得到平滑的能量和频谱包络信息,接着对滤波信号进行了加窗处理,并计 算加窗后的信号的自相关系数和能量信息。该窗为一个非对称窗,该非对称窗由汉明窗 和余弦窗构成。然后由l e v i n s o n d u r b i n 算法计算反射系数。对能量信息和反射系数采 用8 b i t 标量量化。最后将量化信息写入码流。 在解码端,c n g 算法过程如下:对解码后的能量信息进行平滑处理,然后由能量 信息得到一个高斯激励信号。由反射系数计算l p 滤波器参数。由激励和l p 滤波器合 成舒适噪声。 g 7 1 1a p p e n d i xi id t x c n g 算法是基于简化的c e l p 模型的一种背景噪声编码算 法,根据其标准协议,其优缺点分析如下: 优点: 大连理工大学硕士学位论文 ( 1 ) g ,7 11a p p e n d i xi id t x c n g 算法比较简单,延时小,复杂度低,其运算量仅为 1 1 w m o p s ,所以特别适用于实时性要求比较严格的应用。 ( 2 ) 在解码背景噪声的s i d 帧帧能量信息后,由上一个s i d 帧的帧能量信息和解码 的s i d 帧帧能量信息计算当前s i d 帧帧能量信息,从而在合成舒适噪声时,两帧信号之 间具有良好的过度特性,从而改善了s i d 帧之间的背景噪声自然度。 缺点: ( 1 ) 由于g 7 l la p p e n d i xi id t x c n g 采用的简化的l p 模型参数编码机制,因此其 波形和短时能量匹配性非常差。 ( 2 ) 由于l p 滤波器激励是随机生成的高斯激励信号。虽然其能量信息保持和原始 背景噪声激励信号基本一致,但是由于其随机特性,因此该激励信号在经过l p 滤波器 合成舒适噪声时和原始噪声相差很大。 ( 3 ) 由于采用反射系数描述频谱包络信息,当在信息传输时,某一参数比特信息发 生误码时,会影响整体参数对当前背景噪声的频谱包络信息的描述,在合成背景噪声信 息时会发生严重偏离原始背景噪声频谱特征信息的现象,从而严重影响了合成舒适噪声 的质量。 1 2 2g 7 2 3 1a p p e n d i xad t x c n g 算法简介与分析 g 7 2 3 1a p p e n d i xad t x c n g 是于1 9 9 6 年i t u 发布的一个g 7 2 3 1 的附录,它面 对的主要应用对象是基于多媒体和网路的数字系统。g 7 2 3 1a p p e n d i xad t x c n g 算 法是基于简化的c e l p 模型的一种背景噪声编码算法,该算法首先通过v a d 算法判断 当前数据帧是否为话音帧。如果当前数据帧是非激活话音帧,则由d t x c n g 算法对当 前数据帧进行相关处理。否则,则由正常的话音编码器对当前数据帧进行编码【2 j 。 d t x c n g 算法首先由输入信号判决当前帧的类型,从而决定是否发送当前帧的背 景噪声信息。g 7 2 3 1a p p e n d i xad t x c n g 算法对于当前帧的类型判决准则如下: ( 1 ) 如果当前帧是非激活域的第一个非激活话音帧,那么当前帧判决为s i d 帧。 ( 2 ) 如果算法检测到当前帧和前一个s i d 帧的能量信息有很大差异,或者当前帧和 前一个s i d 帧的滤波器信息有很大差异( 算法中采用i t a k u r a 距离比较滤波器器信息) ,那 么当前帧判决为s i d 帧。 ( 3 ) 如果当前帧不是第一个非激活话音帧,而且当前帧和前一个s i d 帧的能量信息 和滤波器信息十分相似,那么算法不传输当前帧的信息,当前帧判决为非传输帧。 如果当前帧的类型判决为s i d 帧,那么算法组装s i d 帧信息。s i d 帧信息由平均能 量信息和l s p 信息组成。首先标量量化修正后的平均能量均方根信息,然后将l p c 系 d t x c n g 算法的研究与实现 数转换为l s p 系数,并对l s p 系数进行矢量量化,得到相关索引信息,最后将信息写 入码流。 在解码端,c n g 算法过程如下: 首先计算当前帧能量信息,当前帧能量信息由以下平滑算法计算得到,然后计算激 励信号,通过随机选择基音延迟和自适应码本增益得到自适应码本信号,随机选择固定 码本增益的冲激位置,固定码本增益通过计算得到,最终得到激励信号。不论是s i d 帧,还是非传输帧,都通过前一帧的l s p 信息和解码当前帧的l s p 信息计算得到l p c 滤波器信息。最终通过激励信号和l p c 滤波器信息合成舒适噪声。 g 7 2 3 1a p p e n d i xad t x c n g 算法是基于简化的c e l p 模型的一种背景噪声编码 算法,根据g 7 2 3 1a p p e n d i xad t x c n g 算法原理,其优缺点分析如下: 优点: ( 1 ) g 7 2 3 1a p p e n d i xad t x c n g 算法根据当前帧的能量信息和频谱包络信息判断 是否发送当前帧的相关信息,显然s i d 帧发送越频繁,合成舒适噪声质量越好,但是传 输速率也会相应的提高。因此在判决是否发送s i d 帧信息时,其算法具有一定的自适应 性,能够更好的平衡传输速率和合成舒适噪声质量的矛盾。 ( 2 ) 采用l s p 参数描述频谱包络信息,因此在数据传输时,某一参数的某一比特数 据发生误码时,只响应其对应极点的频谱包络信息,而不影响其它参数对应的频谱包络 信息,因此该算法具有很好的鲁棒性。 ( 3 ) 在解码背景噪声的s i d 帧帧能量信息后,由上一个s i d 帧的帧能量信息和解码 的s i d 帧帧能量信息计算当前s i d 帧帧能量信息。通过对帧能量信息进行了平滑处理, 从而在合成舒适噪声时,两帧信号之间具有良好的过度特性,改善了s i d 帧之间的背景 噪声自然度。 ( 4 ) 在解码背景噪声的l s p 信息后,通过前一帧l s p 信息和解码当前帧l s p 信息 计算得到l p c 滤波器信息,相当于对频谱包络信息进行了平滑处理,从而在合成舒适 噪声时,改善了的背景噪声自然度。 ( 5 ) 在解码端,随机的选择基音延迟和固定码本,有效的降低了码率。 缺点: ( 1 ) 由于对第一个非激活话音帧判决为s i d 帧,因此在话音和背景噪声的过渡阶段, 无论是能量信息,还是频谱信息都发生了很大的变化,对于人类听觉系统来说,这种过 渡会感觉十分不自然,特别是在话音与背景噪声的能量信息或者频谱信息发生剧烈变化 时,将严重影响合成舒适噪声质量。 大连理工大学硕士学位论文 ( 2 ) 随机选择基音延迟,如果对于周期性很弱的噪声,这是非常恰当的,但是对于 有一定周期性的噪声,随机选择基音延迟不能表现噪声信号的长时相关性,从而不能有 效的压缩信号冗余信息。因此对于具有一定周期性的噪声,合成噪声效果有待改进。 ( 3 ) g 7 2 3 1a p p e n d i xad t x c n g 算法是基于8 k h z 采样的窄带d t x c n g 算法, 对于高带信号处理,必须进行相关扩展。 1 2 3 g 7 2 9a i l t l e xbd 眦n g 算法简介与分析 g 7 2 9a n n e xb 是i t u t 于1 9 9 6 年9 月颁布的一种静音压缩算法,在算法的一些具 体的细节上考虑有些不足,因此其性能有待改善【3 】o g 7 2 9a n n e xbd ,r ) n g 算法是基于简化的c e l p 模型的一种背景噪声编码算法, 该算法首先通过v a d 算法判断当前数据帧是否为话音帧。如果当前数据帧是非激活话 音帧,则由d t x c n g 算法对当前数据帧进行相关处理;否则,则由正常的话音编码器 对当前数据帧进行编码。 根据g 7 2 9 语音编码器的帧特点,v a d 算法每1 0 m s 产生一次语音激活判决结果。 首先提取一组残差参数用于初始判决。这些参数是全通带能量、低通带能量、过零率和 频谱测度。每帧得到一组残差参数是由此参数和它的长时平均得到的,参数的长时平均 随着背景噪声的特征变化而变化。 v a d 模型的输出是l 或0 ,它表示存在或不存在激活语音。如果v a d 模型的输出 是l ,g 7 2 9 语音编码器调用激活话音帧编码器。但是如果v a d 模型的输出是0 ,则调 用d t x c n g 算法。传统的语音编解码器使用舒适噪声来模拟背景噪声信息。然而如果 背景噪声是非稳定的,插入纯粹的舒适噪声是难以模拟原始背景噪声特性的。因此为了 得到更好的语音质量,需要间歇的发送一些背景噪声信息。非激活话音帧编码器的低码 率通过编码比特数不多于1 5 比特实现。不论是否是非激活话音帧,这些比特不是机械 的被传输,而是仅当检测到相对于上一帧传输的非激活话音帧有可察觉的变化时,背景 噪声信息才被传输。 采用非连续传输的方式,d t x c n g 算法保持很低的平均比特率。对于非激活话音 帧,d t x 模型使用自适应能量门限和频谱失真测度判断是否发送非激活话音信号参数。 如果需要更新背景噪声信息,非激活话音编码器则发送一定信息,这些可以产生与原始 信号相似的背景噪声信号。这些信息包括能量级和频谱包络描述。如果不需要更新背景 噪声信息,则不发送任何参数信息。然而,在两个连续的s i d 帧之间需要一个最小的时 间间隔,如果在发送了一个s i d 帧之后,在帧间隔小于2 帧,时频谱或者能量发生变化 d t x c n g 算法的研究与实现 时,延迟发送s i d 帧信息。如果当前帧的类型判决为s i d 帧:那么算法组装s i d 帧信 息。s i d 帧信息由平均能量信息和l s p 信息组成。 在解码端,c n g 算法过程如下: 在解码端,解码接收到的码流。如果v a d 模型的输出是1 ,则调用g 。7 2 9 解码器 合成重建激活话音信号。如果v a d 模型的输出是0 ,则调用c n g 模型重建非激活话音 帧的信号。 首先计算当前帧能量信息,当前帧能量信息由平滑公式计算得到,然后计算激励信 号,激励信号是一个混合信号,它由g 7 2 9 激励信号和高斯嗓声信号混合得到。为了改 善生成舒适噪声的生动性,加入高斯白噪声信号成分。具体过程参考文献【3 】。最终得到 c n g 激励信号。当前帧的l s p 通过插值计算得到,这和g 7 2 9 协议具有相同的方式。 最后通过c n g 激励信号和l p c 滤波器信息合成舒适噪声。 g 7 2 9a n n e xbd t x c n g 算法同样也是基于简化的c e l p 模型的一种背景噪声编 码算法。根据g 7 2 9a n n e xbd t x c n g 算法原理,其优缺点分析如下: 优点: ( 1 ) g 7 2 9 bd t x c n g 算法根据当前帧的能量信息和频谱包络信息判断是否发送当 前帧的相关信息,显然s i d 帧发送越频繁,合成舒适噪声质量越好,但是传输速率也会 相应的提高。因此在判决是否发送s i d 帧信息时,具有一定的自适应性,能够更好的平 衡传输速率和合成舒适噪声的矛盾。 ( 2 ) 采用l s p 参数描述频谱包络信息,因此在数据传输时,某一参数的某一比特数 据发生误码时,只响应其对应极点的频谱包络信息,而不影响其它参数对应的频谱包络 信息,因此该算法具有很好的鲁棒性。 ( 3 ) 在解码背景噪声的s i d 帧帧能量信息后,由上一个s i d 帧的帧能量信息和解码 的s i d 帧帧能量信息计算当前s i d 帧帧能量信息,帧能量信息进行了平滑处理,从而在 合成舒适噪声时,两帧信号之间具有良好的过度特性,从而改善了s i d 帧之间的背景噪 声自然度。 ( 4 ) 在解码背景噪声的l s p 信息后,通过前几帧l s p 信息和解码当前帧l s p 信息 计算得到l p c 滤波器信息,相当于对频谱包络信息进行了平滑处理,从而在合成舒适 噪声时,改善了的背景噪声自然度。 缺点: ( 1 ) 由于对第一个非激活话音帧判决为s i d 帧,因此在话音和背景噪声的过渡阶 段,无论是能量信息,还是频谱信息都发生了很大的变化,对于人类听觉系统来说,这 大连理工大学硕士学位论文 种过渡会感觉十分不自然,特别是在话音与背景噪声的能量信息或者频谱信息发生剧烈 变化时,将严重影响合成舒适噪声质量。 ( 2 ) 因为g 7 2 9 b 计算s i d 帧参数时需要用到前一帧的参数,所以在刚进入噪声阶 段编码计算s i d 帧时,将前一帧的正常语音帧参数也计算在内,这样第一帧s i d 参数就 不是纯噪声帧的参数,保留了语音信号的信息,这样就影响了合成噪声质量,造成了所 谓的“呼吸效应 。 ( 3 ) 算法在提取s i d 帧的参数时只考虑了相邻两帧的参数或只是当前帧的参数,因 此可以理解为参数是一个即时的值,没有考虑到之前一些信号特性的影响,所以可能与 之前的参数特性联系并不紧密,因此合成出来的噪声特性在舒适程度上可能效果并不 好。 ( 4 ) g 7 2 9 b 对于l s p 系数和能量参数的量化精度较差。只采用l ob i t 量化l s p 系数, 用5b i t 量化残差能量,量化比特数较少会引入较大的量化误差,影响了合成噪声的质 量。在重构非传输帧参数时,所用算法过于简单,以至于恢复出的参数不能e 很z 好的模拟 编码端输入噪声信号的实际变化情况。也影响了合成噪声的质量。 1 3d t x c n g 算法研究的主要内容 上述协议都是针对窄带或者是宽带输入信号设计的d t x c n g 算法,对于3 2 k h z 采样的高带信号是否适用,有待分析和考证。但是其基本模块算法所具备的功能是相似 的。因此本文将高带d t x c n g 算法也分为以下几个基本内容加以研究: ( 1 ) d t x 算法模块,d t x 模块的主要功能是判决当前帧的类型,如何结合窄带和宽 带进行联合判决,制定一个好的判决规则,这是本文的一个重要研究内容。 ( 2 ) c n g 算法模块,c n g 模块的主要功能在编码端提取背景噪声的相关信息参数, 在解码端根据接收的相关背景噪声信息,合成一个与原始背景噪声相似的噪声信号,对 于c n g 模块提取什么特征参数,采取何种编码模型,这是本文首先要考虑的另一个重 要问题。 1 4 本文的主要工作内容 本文首先描述d t x c n g 算法相关的关键技术,然后详细描述了本文的高带 d t x c n g 算法实现。最后,对本文的算法进行了相关的客观测试,并分析了测试结果。 本章是概述,本文的其它章节安排如下: 第二章介绍与本文d t x c n g 相关的基本技术。 第三章详细介绍高带d t x c n g 算法的设计。 d t x ,l :n g 算法的研究与实现 望。 最后部分是对全文工作的概括和总结,以及对d t x c n g 系统下一步研究方向的展 大连理工大学硕士学位论文 2 d t x c n g 算法相关的关键技术 目前大多数d t x c n g 标准协议算法都是基于简化的c e l p 模型,例如:g 7 2 3 1 a 、 g 7 2 9 b 、a m r w b 、v m r w b ,g 7 2 9 1 宽带d t x c n g 标准协议算法对应的是b w e 模 型。因此本文首先介绍c e l p 模型和b w e 的相关知识,为本文下一步研究d t x c n g 算法奠定基础。 2 1 码激励线性预测模型 码激励线性预测( c e l p ) 编码技术由m a n t l e drs c h r o e d e r 和b i s h n us a t a l 于1 9 8 5 年在i e e ei c a s s p 年会上首先提出。 2 1 1 线性预测分析 线性预测分析( l i n e a rp r e d i c t i v ea n a l y s i s ,l p a ) 基本思想是语音信号当前的采样点的 值可以由过去若干个采样点的值线性组合逼近。它提供了一组简洁的语音信号的模型参 数,而且这组参数准确的表示了语音信号对应的频谱特征。应用参数模型,可以大大降 低语音编码的码率阴。 线性预测误差滤波器的传递函数为: 彳( z ) = l 一口,z 一 ( 2 1 ) ,= i 其中,p 为线性预测阶数, 口) - l 2 ,印为线性预测参数。实现框图如图所示: 图2 1 线性预测模型 f i g 2 1 l i n e a rp r e d i c t i v em o d e l 由线性预测误差滤波器的传递函数,对于原始输入信号s ( n ) 和预测误差输出e ( n ) 可 以得到如下差分方程: , p ( 甩) = s ( ) 一;( 力) = s ( 门) 一q s 伽一f ) ( 2 2 ) r = l p 其中,毒( 聆) = 口,s ( 行一f ) 称作s ( 盯) 的预测值,它是一组过去样本值的线性组合,可 j = l 以看作从s ( 投) 过去的样本值来预测当前值s ( 刀) 的结果,所以又称之为线性预测值: 口, d t x c n g 算法的研究与实现 称为线性预测系数;输出e ( n ) 是真值s ( n ) 和线性预测值;( 刀) 之差,称为线性预测误差。 设计一个预测误差滤波器,就是求解预测系数 口 使得预测误差p ( 刀) 在某种特定准则下 最小,这个过程就是线性预测分析过程。 线性预测的本质是设计一个预测误差滤波器,从而使得预测误差在预定准则下最小 的过程。理论分析中通常采用的是均方误差最小准则。推导过程如下: 即2 ( 刀) 】- 研【j ( 玎) 一口,s o 一例2 】 ( 2 3 ) 令掣:o ,l _ ,p ,即得孙 o a j 旦兰譬坳:- 2 e p ( 刀) s ( 刀一朋 ( 2 4 ) u u j 将式2 2 代入得: 研s ( 嚣) s ( 拧一歹) 一圭q s ( 捧一加( 聆一歹) 】:,( 歹) 一圭口,厂( 歹一班l 歹p ( 2 。5 ) 式中,( ) = g s ( n ) s ( n 一) 是s ( 玎) 的自相关序列,上式可以写成如下矩阵形式: ,一删= 0( 2 6 ) 式中: 由最小均方误差: ,( 1 ) ,- ( 2 ) r = i ,( 3 ) 。r2 r ( o ) ,( 1 ) ,( 2 ) r ( p 一1 ) ,( 1 ) ,( 0 ) ,( 1 ) r ( p - 2 ) r ( p - 1 ) r ( p 一2 ) r ( p - 3 ) ,( 0 ) ,a = 口l 口l : a , 大连理工大学硕士学位论文 由以上两式可得: 耳= e 【p 2 ( 露) 】m m p = 球2 s ( 即) 一口s ( 舱一班】 i = 1 = e e ( 玎) s ( n ) 】( e e ( n ) s ( n - j ) 】= 0 ,1 j p )( 2 7 ) = 研 s ( 刀) 一口s ( 疗一啪( 甩) 】 t = i = ,( o ) 一口,( f ) ,( 0 )r o ) ,( 1 )r ( o ) ,( 2 ) ,( 1 ) : ,( p ) r ( p 一1 ) 厂( p ) r ( p 一1 ) r ( p 一2 ) ,( 0 ) i q q n p e , 0 0 : o ( 2 8 ) 对于上述线性方程线性预测参数的求解,目前主要的方法有自相关法、协方差法、 格型法和协方差斜格法四种,具体求解过程可以参考文献【引。 语音信号序列是一个随机序列,在文献【8 】里讨论了语音信号产生的数字模型,该模 型中可以把辐射、声道和声门激励的全部谱效应简化为一个时变的数字滤波器来表示, 其系统函数为: 仃 y ( z ) = l ( 2 9 ) 1 一q z i = 1 从而把s ( n ) 模型化成一个p 阶的a r 过程序列。采用简化语音产生模型之后,就能 够用线性预测分析方法对滤波器系数f q 和增益常数g 进行非常直接和高效的计算,该 求解过程就称为语音信号的线性预测分析。考虑到语音信号的短时平稳特性,预测系数 的估计值必须在一短段语音信号中进行,即采用分帧处理方式。 2 1 2 线谱频率分析 线谱频率( l i n e a rs p e c t r u mf r e q u e n c y ,l s f ) 参数是线性预测参数的另一种表现形式, 线谱频率参数在数学上完全等价于线性预测参数。线谱频率分析方法由i t a k u r a 和 s u g a m u r a 在1 9 7 9 年最先提出。它也是一种线性预测方法,但它求解的模型参数是“线 谱对”,它是一种频域的参数分析方法,同样可以用来估计基本的语音特性。l s f 分析 d t x c n g 算法的研究与实现 的主要优点是:它和语音信号谱包络的峰有更紧密的联系,此外,用线谱对参数构成合 成滤波器时容易保证稳定性,而且因为这种参数的量化特性和内插特性均优于线性预测 系数,使得产生相同质量的合成语音所需的数码率得以降低。l s f 分析的主要缺点是运 算量较大,下面讨论这种分析方法【9 】【1 0 1 。 语音信号l p c 分析时,合成滤波器表示为 肌加高2 焉1 i 亿1 0 智。 定义两个p + l 阶多项式为 j 尸( z ) = 彳( z ) + z - i :i i a ! z - 1 ) ( 2 1 1 ) i q ( z ) = 爿( z ) 一z 弋旷a ( z 。1 ) 、7 可以证明,如果a c z ) 的零点都在z 平面单位圆内,那么p ( z ) 和q ( z ) 的零点都在单 位圆上,并且它们的零点沿着单位圆随着c o 的增加交替出现。p ( z ) 和q ( z ) 都是实系数 多项式,它们各自都有共轭复根,且p ( z ) 是一个对称实系数多项式,q ( z ) 是一个反对 称实系数多项式。设p ( z ) 的零点为e 鹏,q ( z ) 的零点为e 土鸠,当p 为偶数时,p ( z ) 和q ( z ) 的因式分解形式为 p ,2 p ( z ) = ( 1 + 2 1 ) 丌( 卜2 c o s ( o :1 + z ) 曼 ( 2 1 2 ) 口,2 q ( z ) = ( 1 - z 。1 ) 兀( 1 2 c o s o f 。1 + z 2 ) ,= l 其中,c o , 和e 的排列关系为0 q q ,2 口p ,2 ( 2 2 3 ) 将式( 1 2 2 ) 代入式( 1 2 3 ) 可得最佳序号的最终表达式为 ,= 峄 努 - 亿2 4 , 自适应码本搜索的详细推导过程可以参照文献【8 】。固定码本搜索: 最佳自适应码本矢量v 础“确定后,重构的合成语音与原始语音之间的感知加权误差 可以由式( 2 2 5 ) 给出: e 7 = x 2 - g 。c o h w = x 2 - - g c z o ( 2 2 5 ) 其中,z ( ) = c ( ,) h w ,是固定码本的贡献,通过与自适应码本搜索相类似的过程, 可以计算得到最佳固定码本增益& 为 :黑 ( 2 2 6 ) 5 莉歹 o j 最佳序号为 渤刮黔 码本搜索过程概括如下:从码本中搜索最佳激励矢量( v ( 或c “) 的过程,就是搜索 最佳码本矢量序号i ,然后计算最佳码本增益( g 。或) 的过程。 2 2 矢量量化技术 矢量量化的发展可以追溯到1 9 5 6 年,由s t e i n h a u s 第一次系统的阐述了最佳矢量量 化的问题。1 9 7 8 年,b u z o 首次提出实际的矢量量化器。1 9 8 0 年,l i n d e 、b u z o 和g r a y 将l l o y d m a x 算法推广,发表了第一个矢量量化器的设计方法一l b g 算法。这是矢量 量化技术发展的一个里程碑。从此以后,研究者对矢量量化技术的理论和应用展开了全 面的研究,包括各种矢量量化器、码书设计方法、码字搜索算法等等方面 i l l 。 d t x c n g 算法的研究与实现 2 2 1矢量量化的理论基础 矢量量化的理论基础是香农的速率失真理论,1 9 4 8 年,香农定义了信道容量,并且 证明了只要编码速率不超过信道容量,符号就能以任意小的差错概率在信道中传输。 1 9 5 9 年,香农定义了率失真函数,并且证明了只要率失真函数不超过信道容量就可以保 证接收端的失真不超过给定的失真阈值。 根据香农理论,总是可以找到一个最小的信源编码速率使得接收端收到的失真不超 过给定的阈值,因此利用矢量量化技术,可以使其编码性能尽可能接近率失真函数,其 方法是增加矢量维数。 2 2 2 矢量量化的原理 根据香农的率失真理论,理论上利用矢量量化技术代替标量量化总是能够获得更好 的性能。矢量量化可以认为是标量量化的推广,其定义如下: 维数为k ,尺寸为n 的矢量量化器q 定义为从k 维欧几里得空间r 。到一包含n 个输出( 重构) 点的有限集合c 的映射,即q :r 。专c ,其中c = y 0y i 一,yn 1 ,y i r 。, i f 量 0 ,l ,n - l 。集合c 称作码书,其尺寸( 大小) 为n 。码书的n 个元素称作码字 或码矢量,他们均为r 中的矢量。 基本的矢量量化编码、传输和解码过程如图所示: 图2 3 矢量量化编码和解码示意图 f i g 2 3 v e c t o rq u a n t i z a t i o nc o d e e 矢量量化分为编码器器和解码器两部分,编码器负责信源输入矢量属于哪一个胞 腔,是一个码字搜索的过程。解码器则是一个简单的查表过程,即根据码字索引信息得 到映射的码矢。 2 2 3 矢量量化的失真测度 设计矢量量化器的关键是矢量量化编码器的设计方法,而矢量量化译码器的工作如 图2 3 所示只是一个简单的查表过程。为了设计矢量量化编码器,必须引入矢量量化的 大连理工大学硕士学位论文 失真测度,并以此来评价设计的矢量量化编码器,因此失真测度的好坏直接影响了矢量 量化系统的设计性能。 失真测度d ( x ,y ) 反映了用码字代替信源矢量所付出的代价。失真测度通常满足以 下三个性质: ( 1 ) 正定性: 0 d ( j ,y ) o o ;当且仅当x = y 时,a ( x ,n = 0 ( 2 2 8 ) ( 2 ) 对称性: a ( x ,功= d ( r ,彳)( 2 2 9 ) ( 3 ) 三角不等性: d (
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 阅读古文考试题目及答案
- 2025年新疆化学高考试题及答案
- 2025年浙江历史高考试题及答案
- 高考试卷2025年试卷及答案
- 宁武村官考试试题及答案
- 2025年公司管理考试试题及答案
- 2025年营养科肠外营养支持监测考核答案及解析
- 2025年实验诊断学样本采集与检测检查答案及解析
- 2025年新版食品安全知识培训考试题及参考答案
- 2025年社区网格工作人员考试题库及答案
- 纺织厂员工劳动合同范本
- 《船用格栅》规范
- 光伏项目合伙投资协议书
- 护理团队建设与管理方案
- 2022版ISO27001信息安全管理体系基础培训课件
- 建筑项目保温材料供货合同书
- there-be-句型作业及答案(初中英语语法专项练习)
- 2024-2025学年人教版八年级英语上册Unit 2 测试卷
- 新版高中物理必做实验目录及器材-(电子版)
- (正式版)QC∕T 625-2024 汽车用涂镀层和化学处理层
- 五年级信息科技上全册教案 浙教版2023年
评论
0/150
提交评论