




已阅读5页,还剩55页未读, 继续免费阅读
(信号与信息处理专业论文)通信系统中语音编码判别技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机 构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 申请学位论 本人签名: 处,本人承担一切相关责任。 日期:鲨2 :竺2 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权 保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅 和借阅:学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印 或其它复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。 非保密论文注释j 本学位论文不属于保密范围,适用本授权书。 本人签名:堡堡日期:丛丑:! :三 导师签名: 、勿饧暑 鐾篓 北京邮电大学硕士学位论文 通信系统中语音编码判别技术研究 通信系统中语音编码判别技术研究 摘要 语言是人类进行交流的重要手段,通信系统中最常见的数据形式 就是语音。随着移动通信与网络技术的飞速发展,语音通信技术也在 不断地进行更新并与之相融合。由于通信网络用户数量的增加、网络 业务综合化、多样化,网络带宽与系统容量、服务质量的矛盾日益突 出,传统的6 4 k b i t s 的p c m 语音压缩编码己不能满足不断变得拥挤 的传输信道要求。因此,在不牺牲语音通话质量的前提下大幅度降低 传输比特速率的混合编码得到了广泛运用,在第三代移动通信系统 3 g 标准中以自适应多速率语音编码m r 为代表的语音编码方式也 日益成熟。 本文针对语音编码,主要是参量编码和混合编码的结构进行分 析。前三章从语音产生的离散数学模型出发,简要叙述了语音压缩编 码中采用到的一些相关基本原理和主要技术,以及在、v c d m a 系统 中应用的自适应多速率语音编码器( a m r ) 。 在论文第四章中,我根据语音编码的结构特点,提出一种语音编 码的判别方法。即在未知发送端使用了何种语音编码方式的情形下, 在接收端通过对接收到的编码后的数据流进行分析处理,从分析结果 中判断在发送端到底使用了哪一种编码方式,从而便于进行解码。通 过计算机试验,对整个流程进行仿真,可以得到一个比较有信服力的 结果以证明此方法的正确性。 关键字:语音编码 a m rm o s自相关跟随特性 北京邮电大学硕士学位论文通信系统中语音编码判别技术研究 t h er e s e a r c ho fs p e e c hc o d i n gi d e n t i f i c a t i o n t e c h n i q u e i nc o m m u n i c a t i o n ss y s t e m a b s t r a c t i l l e r cl sn od o u b tt h a t s p c e c hc o m m u n i c a t i o ni s 锄i m p o r t m l t i n t e r c o u r s et o o lf o rh u m a n i ti sa l s ot h em o s tc o m m o nf o mi nd a t a c o m m u n i c a t i o ns y s t 锄s w i t ht h ed e v e l o p m e n to fm o b i l ec o m m u n i c a t i o n 卸dn e m o 比t h es p e e c hc o n u n u n i c a t i o nt e c t l l l o l o g yh a si 1 1 n o v a t e d 卸d d e v e l o p e dr a p i d l y w i t hm ei n c r e a s i n go fn e m o r ku s e r s ,t h ei m e g r a t i n g a n dd i v e r s i 蜘n go fn e 时o r k s e n ,i c e , t h ec o n t r a d i c t i o n s a m o n g b a n d 、v i d t h 、s y s t e 【nc a p a c i t ) ra j l ds e r v i c eq u a l i 哆a r em o r ea n dm o r e o b v i o u s t r a d i “o n a l6 4 k b p sp c ms p e e c hc o d i n gc 蚰n o ts a t i s 鸟t h e r e q u i r e m e n to ft r a n s m i tb a n d w i d mw h i c hi sb e c o m i n gm o r ca i l dm o r c c o n g e s t e d s o ,h y b r i dc o d i n gw h oc a l l r e d u c em eb i t r a t eo fs p e e c h w i t h o u tn o t a b l yd e g r a d i n gi t sp e r c 印t u a lq u a l i t ) ,i su s e dw i d e l y a i l dt h e s p e e c h c o d i n gr e p r e s e n t e db ya m r a r em o r em a t u r ei n3 gs t 柚d a r d m yc h e s i sa i l a l y z et h es t m c t u r eo fs p e e c hc o d i n g ,e s p e c i a l l yt h e p a m m e t e rc o d i n ga n dh y b r i dc o d i n g t h ef i r s tt h r e ec h 印t e r sd e s c r i b et h e b a s i c 研n c i p l ea n dm a i nt e c t l i l o l o g yo fs p e e c hc o d i n g ,a n dt h e n i n t r o d u c e a m rw h i c hu s e di n 、v c d m a t h ef o u n h c h 印t e rp r o p o s e d am e t h o do f s p e e c hc o d i n g i d 即t i f i c a t i o nb a s e do nt h ec h a r a c t e r i s t i c so fc o d i n g a c c o r d i n gt ot h i s m e t h o d ,i fw ed on o tk n o ww h i c hs p e e c h c o d i n gi su s e da tt h et i a n s m i t t e r , w ec a na n a i y z et h ed a t as t r c a mr e c e i v e da tt h er e c e i v e ra 1 1 df i n do u tt h e e x a c tc o d i n gs t y l ef 如mt h ed e a lr e s u l t ,s ot h a ti ti sc o n v e n i e n tt on e x ts t e p d e c o d i n g t h ew h o l ec o u r s ei ss i m u l a t e db yc o m p u t e rt e s t ,柚di ts h o w sa b e l i e v e df 岱u l t k e y w o r d : s p e e c hc o d i n gp a r a m 们c o d i n g a m rm o s s e l f 二c o n e l a t i o n 2 北京邮电大学硕士学位论文 通信系统中语音编码判别技术研究 第一章语音编码技术综述 1 1 语音编码技术的发展 语音信号处理一直是语音技术领域的重要课题,其中的一个主要应用就是语 音信号的编码。长期以来,在通信网络中如何提高传输速率一直是一个关键问题。 从通信角度来讲,语音压缩编码就是用较低的速率表示语音信号。 在通信网的发展中,解决信息传输效率是一个关键问题。目前有两种方法: 其一是研究新的调制方法与技术,来提高信道传输信息的比特率,指标是每赫兹 带宽所传送的比特数:其二是压缩信源编码的比特率,例如标准p c m 编码,对语 音信号使用6 4 k b p s 编码比特率传送,而压缩这一比特率显然可以提高信道传送 的话路数。这对任何频率资源有限的传输环境来说,无疑是极为重要的,尤其是 在无线通信技术决定今后通信发展命运的今天更显得重要。实际上,压缩语音编 码比特率与话音存储、语音识别及语音合成等技术都直接相关。 语音编码技术的进展对通信新业务的发展有极为明显的影响,例如m 电话 业务、实时长途翻译业务、交换机的人工智能接口等。国此,国际电报电话咨询 委员会( c c r r n 第1 5 组提出了许多急需制订的话音编码标准建议,以推动通信网 的发展。由于v l s i 的发展,在一般的信道中都可以使用。因此,编码技术日益 受到重视。当前,数字移动通信和个人通信是深受人们重视的通信手段,其重要 问题之一是压缩语音编码速率,形成面向对象的语音编码技术。 语音编码研究的历史已经有好几十年,其中最早的标准化语音编码系统是 6 4 k b p s 的p c m 波形编码器,它对输入的语音波形进行采样和量化编码,把编码 后的数据发送到接收方。接收方则采用相反的过程恢复原始语音。该方法算法简 单,语音质量很好且失真度很小,缺点是编码速率太高。随着语音技术的不断发 展,7 0 年代出现了基于参数编码方式的线性预测编码( l p c ) 方式。该方法的物理 模型是人的发声器官,通过模仿人声音的发生过程而建立了一个租糙的语音合成 模型。l p c 编码方式是语音技术发展上的重要技术虽然纯粹的l p c 算法的语 音自然度并不理想,但是其高效率的压缩比例使得后面的许多编码技术都以之为 基础。8 0 年代,美国制定了l p c 1 0 e 的标准语音算法制,获得了较好的实验结 果。8 0 年代中期首次出现了码激励线性预测编码( c e l p ) 技术。该算法同时具有 波形编码和参数编码的特征,在4 ,8 k 一1 6 k b p s 范围内能够获得比较好的语音质量。 直到今天,仍然有大量c e l p 的变形算法在实际应用中被使用。进入9 0 年代后, 北京邮电大学硕士学位论文通信系统中语音编码判别技术研究 语音编码的热点集中在低速率语音编码上,其中最典型的就是多带激励( m b e ) 编码。这种编码方式可以实现2 k b p s 4 k b p s 的速率,语音质量比较高,已经被许 多公司和协会选作语音编码标准。 数字语音编码技术从1 9 3 8 年提出p c m 开始,其编码方法己有了很大的发 展,如1 9 6 8 年提出的线性预测编码技术( l p c ) ,2 0 世纪7 0 年代末出现的隐马科 夫技术( h m m ) 以及矢量量化( v q ) 等。当前,语音编码技术不仅受到研究部门、 应用部门的重视,而且推动了标准的制订,因为标准是工业生产的一个重要前提, 对通信体制的确定有很大影响。目前,低速率语音编码的算法发展较快,它可应 用的范围也相当广泛,人们将从中获得极大的效益。这些对推动各种通信标准及 网络的建设都十分重要。 总之,语音编码技术从最初的波形编码和参数编码到后来的混合编码,从时 域编码到频域编码,其最终目的都是为了在要求的语音质量前提下提供更低的速 率或者更高的压缩比率,并保持合成语音具有较好的低延时性和低复杂度。 1 2 语音编码的分类 自从3 0 年代末提出脉冲编码调制p c m 原理以及声码器概念以来,逐步形 成了语音信号的波形编码( w a v e f o 肌c o d i n g ) 和参数编码( p a r 锄e t e rc o d i n g ) ,语音 信号编码一直沿着这两个方向发展,并产生了新的参数编码算法,即混合编码。 1 2 1 波形编码 波形编码力图使重建语音波形保持原语音信号的波形形状,具有适应能力 强、话音质量高等优点,但编码速率高,在1 6 k b s 以上得到高质量的话音。波 形编码的想法是,不利用生成话音信号的任何特性而产生一种重构信号,它的波 形与原始话音波形尽可能地一致。脉冲编码调制( p c m ) 、自适应增量调制( a d m ) 、 自适应差分编码( a d p c m ) 、自适应预测编码( a p c ) 、子带编码s b c ( s u b _ b a l l d c o d i n 酌和自适应变换编码a t c ( a d a p t i v et h i l s f o 咖c o d i n g ) 都属于这类编码器。 一般来说,这种编码器的复杂程度比较低,数据速率在1 6 k b p s 以上,但语音质 量相当高。低于这个数据速率时,音质急剧下降。 6 北京邮电大学硕士学位论文 通信系统中语音编码判别技术研究 1 2 2 参数编码 参数编码器力图使重建语音信号具有尽可能高的可懂度,而重建语音信号的 波形同原始语音的波形可能有相当大的差别。参数编码的速率可以低到2 4 k b 妇 以下。参数编码的想法是从话音波形信号( 时域或频域) 中提取生成话音的参数, 在接收端利用这些参数重构出话音。这种话音编译码器叫做声码器( v o c o d e r ) 。 产生的语音虽然可以听懂,其质量远远低于自然话音。但它的保密性能好,因此 这种编码器在军事上获得了广泛应用。比较典型的例子有1 9 8 2 年发表的美国政 府标准线性预测编码l p c 1 0 。 1 2 3 混合编码 混合编码器是为了得到音质高而数据率又低的编译码器。历史上出现过很多 形式的混合编译码器,但晟成功并且最广泛应用的是码激励线性预测编码器 ( c e l p ) ,它在4 _ 1 6k b p s 速率能够得到高质量的合成语音。 这种编译码器使用的滤波器模型与前述参数编码器所使用的模型相同,都是 使用线性预测编码的全极点模型。但它不是用两个状态( 有声无声) 来表示滤波器 的输入激励信号,而是企图寻找这样一种激励信号:这种信号激励时变滤波器所 产生的波形应可能接近于原始话音的波形。 c e l p 编码器中激励信号的获取是通过分析合成( a n a l y s i s - b y - s y i l t l l e s i s , a j - s ) 来获取的,这是c e l p 编码器的一个重要特征。它不同于早期声码器采 用的发端分析、收端合成的结构,而是在编码端包含有一个真实解码器的复制品 ( 也称本地解码器) ,使得在编码端就可以得到合成语音。其编译码器的一般结构 如图1 1 所示。可以看到,abs 编码器是一个负反馈系统,通过调节激励信号 u ( n ) 可使话音输入信号s ( n ) 与重构的话音信号( n ) 之差为最小,也就是重构的话 音与实际的话音最接近。矢量量化技术( v e c t o rq l a l l t i z a t i o n ,v q ) 是c e l p 编码器 的另一重要特征。c e l p 编码器是由a t a l 和r e m d e 在1 9 8 2 年首次提出。如今, 术语“c e l p ”己用于通称一类基于采用线性预测、abs 和矢量量化技术获取 和编码激励信号的语音编解码器。 7 北京邮电大学硕士学位论文通信系统中语音编码判别技术研究 耵编码器 1 3 语音质量的评价方法 ”解码器 图1 1 - b s 技术原理 重构话音 数字通信中,语音质量通常分为四个等级,定义如下: 广播质量,是宽带高质量语音( 带宽通常在5 0 7 0 0 0h z ) ,其编码速率至少是 3 2 - 6 4k b p s 。 透明质量,语音质量好于电话质量( 频率范围大约在2 0 0 3 2 0 0 h z ,信噪比大 于3 0d b ,谐波失真小于2 3 ) 。 通信质量,有一定语音质量的下降,但是具有自然度和清晰的可懂度。速率 在4 k b p s 以上。 合成质量,语音通常具有可懂度,但是自然度差,从声音不能识别出讲话人。 常用的衡量语音质量的方法有两种:主观语音质量量度方法和客观语音质量 量度方法。 1 。3 1 主观语音质量评价方法 主观评价主要检测语音的自然度和可懂度,通过听一组音节、字或者句子, 北京邮电大学硕士学位论文 通信系统中语音编码判别技术研究 给出被正确听出的字或者音节的百分比。常有的主观质量测试方法有三种: 1 ) d r t ( d i a g n o s t i cr h y m 嚣t e s t ) :是一种检测可懂度的方法,让受试者每次听 到一对韵母中的某个音,然后让他判断听到的音是哪一个字,全体实验者判 断正确的百分比就是d r t 得分。 2 ) m 0 s ( m e 龃0 p i l l i o ns c o r e ) :m o s 分广泛用于评价量化后的语音质量,采用 5 级评分标准,通常使用1 2 2 4 个实验者( 正式的u 和t i a 采用3 2 6 4 个实验者) 进行评分,在听完重建语音后,实验者根据5 级的评分标准进行 打分。全体测试者的平均分就是所测语音质量的m o s 分。 3 ) d a m ( d i a 印o s t i c a c c 印t a b i l i t y m e 鹤l | r e ) :对话音质量的综合评估,是在许多 条件下对话音质量可接受程度的一种量度,采用百分比评分。 1 3 2 客观语音质量评价方法 客观测试可以给出编码算法直接的、可靠的质量估计。客观评价分为时域和 频域两种。 1 ) 时域中客观失真的测量方法 信噪比( s n r ) :最常用的评价压缩算法性能的客观测量方法。s n r 是语音能 量的平均值和误差信号能量的平均值之比,通常表示成分贝的形式,如1 0 1 9 s n r 。 s n r 是对重建语音精确度的一种长时测量,当信号比较弱时,它不能准确评价 瞬时重建语音中的噪声。 分段平均信噪比( s e g s n r ) :分别计算每帧的信噪比,然后在整段语音上进 行平均而获得,它可以更好地反映编码性能的时变特性。 2 ) 频域中客观失真的测量方法 主要分为频谱失真测量和谱包络失真测量两大类。频谱失真包括计算第n 帧的谱失真和整句语音的平均谱失真。谱包络失真计算通常采用线性预测分析 ( l p f 卜“n e a rp r e d j c t i v e a n a l 州s ) 方法,比较原始信号的l p a 谱和量化后的l p a 谱之问的差别。另外,还有一些常用的针对具体问题的谱包络失真测度,诸如似 然比测度,加权似然比测度,倒谱失真测度,反射系数失真测度和对数面积比失 真测度等。 1 。3 3 客观测度和主观评价结果的比较 客观测度通常不依赖于入耳的感知特性,对增益变化和延时比较敏感。正式 9 北京邮电丈学硕士学位论文 通信系统中语音编码判别技术研究 的主观听力测试,可以对语音编码器的自然度和可懂度给出正确评价。目前,任 何种客观测度还无法很好说明和评价语音中的各种失真,因此,最终评价结果 还要靠主观评价方法进行。 丧 d 苫 图卜2 语音质量随比特率变化的曲线 0 北京邮电大学硕士学位论文通信系统中语音编码判别技术研究 第二章语音编码基础技术 本章将根据发声器官和语音的产生过程建立一个离散时域的语音信号产生 模型,然后介绍了语音压缩中用到的一些短时分析技术、语音信号的线形预测编 码( l p c ) 及语音压缩编码算法的归类。 2 1 语音产生的离散时域模型 2 1 1 发声器官 人的发声器官由喉、声道和嘴三部分组成。 喉位于气管的上端。喉中有两片肌肉称为声带,当声带张开时,空气可以自 由的通过喉和气管,正常呼吸时就处于这种情况。两片声带之间的空隙称为声门, 说话时声门变成一条窄缝,当气流通过这个窄缝时其间的压力减少,使得声带完 全合拢气流不能通过。在气流阻断时压力恢复正常,声带间的空隙再次形成,气 流再次通过。这一过程周而复始的进行,就形成了一串周期性的脉冲气流送入声 道。每一个人形成的这一脉冲串的幅度和占空比都不相同,但研究表明真正值得 关注的是这一周期气流脉冲串的周期,称为“基音周期”,用t 。表示,其倒数 称为“基音频率”,用f p 表示。f p 的值取决于声带的尺寸和特性,也决定于它所 受的张力。一般男性的基音频率为6 0 2 0 0 h z ,女性和小孩在2 0 0 4 5 0 h z 间。通 过这个方式发出的语音就是浊音( v o i c e ) 。 声道:气流从喉向上经过同腔或鼻腔后从嘴或鼻孔向外辐射,其日j 的传输通 道称为声道。气流流过声道时犹如通过一个具有某种谐振特性的腔体。输出气流 的频率特性既取决于声门脉冲的特性,又取决于声道的特性。而声道的特性主要 表现为它的共振峰特性。 声道除了受声门脉冲气流的激励外,还可以在声门完全封闭的情况下,利用 口腔内存有的空气释放出来而发声。由于该气流通过一个通道时在口腔中形成湍 流,因而明显具有随机噪声的特点。相应的语音称为“清音”( u n v o i c e ) 。 北京邮电大学硕士学位论文通 奇系统中语音编码判别技术研究 掣 馨 时城波形潮 1 5 0 捌 o 霉5 0 1 0 1 5 时嘲( r m , 3 型 蓉 谖被彤的频满嘲 颧宰( k h z , 图2 1 浊音语音:时域信号和它的频谱图 时域波形罔 o 2 1 2 共振峥 2 04 0 时嗣( 1 m 田 鼍 叫 型 季 谣放彤的颠游嘲 凝牢k l z , 图2 2 清音语音:时域信号和它的频谱图 声道是一个分布参数系统,它有许多自然谐振频率( 在这些频率上其传递函 数具有极大值) ,所以声道是一个谐振腔,它放大某一频率而衰减其他频率分量。 谐振频率由每一瞬| 日j 的声道外形决定。讲话时,舌和唇连续运动,使声道常常改 变外形和尺寸,随即改变谐振频率。这些谐振频率称为共振峰频率,简称共振峰。 共振峰与声道的形状和大小有关,一种形状对应着一套共振峰。语音的频率特性 主要是由共振峰决定的,当声音沿着声管传播时,其频谱形状就会随声管而改变。 声门脉冲序列有着丰富的谐波成分,这些频率成分与声道的共振频率之间相互作 用的结果对语音的音质有很大的影响。由于声道的大小随不同的讲话而不同,因 此共振峰频率与讲话人有密切关系。即使是音素相同,但因讲话人不同,共振峰 也有相当大的变化。 共振峰用依次增加的多个频率表小,如f l 、f 2 等,称为第一共振峰、第二 北京邮电大学硕士学位论文通信系统中语音编码判别技术研究 共振峰。在语音编码及合成技术中考虑五个共振峰。表2 1 给出了前三个共振峰 的大致范围( 单位为h z ) ,这些数值只是概略的,因为不同的入特性交化相当大。 表2 一l 共振峰频率范围 频率范围h z 成年男子成年女子带宽 f 12 0 0 一8 0 02 5 0 1 o o o4 0 7 0 f 26 0 0 2 8 0 07 0 0 3 3 0 05 0 9 0 f 3 1 ,3 0 0 - 3 ,4 0 01 ,5 0 0 _ 4 ,o o o 6 0 1 8 0 2 1 3 语音信号产生模型 由于声道的形状和激励方式的变化相对比较慢,因此话音在短时间内 ( 2 0 2 0 0 _ i i l s ) 可以被认为是准平稳的,也就是说基本特征是保持不变的。目前还没 有发现一种可以详细描述人类语音中己观察到的全部特征的模型。但由于语音信 号特有的短时平稳性,在一小段时问内,我们可以采用图2 3 所示的模型来逼近 实际语音的产生过程。这一模型是现代语音信号处理的基础。 图2 3 语音信号产生的离散数字模型 该模型中包括三个部分:激励模型、声道模型和辐射模型。 北京邮电人学硕士学位论文 通信系统中语音编码判别技术研究 1 、激励模型: 激励源分浊音和清音两个分支,按照浊音清音开关所处的位置来决定产生 的语音是浊音还是清音。 发浊音时,由于声带不断张开和关闭,将产生间歇的脉冲波。根据测量结果, 这个脉冲波类似于斜三角形的脉冲,如图2 _ 4 所示。因此,此时的激励信号是一 个以基音周期为周期的斜三角脉冲串。单个二角波形的数学表达式如下: g ( n ) = 扣c o s ( 融( n 1 ) c o s o 昔) 吣n 三种情况, e 、m 和z 具有不同的概率密度函数。图2 5 给出了m 和z 在三种情况下的条 件概率密度函数示意图,其中m 的最大值已规格化为l 。 北京邮电大学硕士学位论文通信系统中语音编码判别技术研究 图2 5m 和z 的条件概率密度函数示意图 可以看到,在二种情况中浊音的短时平均幅度最大而短时过零率最低;清音 的短时平均幅度居中而短时过零率最高;无声的短时平均幅度最低而短时过零率 居中。这些条件概率密度函数都很接近于正态分布。产生这种现象,短时平均幅 度的情况大家都可以得到很直观的解释,对于短时过零率我们稍加说明。发浊音 时,由于声门波引起了谱的高频跌落,所以其能量集中在3 k h z 以下。而发清音 时,多数能量出现在较高频率上。所以可以认为浊音时具有较低的平均过零率, 而清音时具有较高的平均过零率( 这种高低不是绝对的,而是相对的) 。所以, 短时平均过零率可用在清音和浊音的人分类上;利用短时平均过零率还可以从背 景噪声中找出语音信号,可用于判别寂静无语音和有语音的起点和终点位置。类 似地我们利用短时平均能量可以区分清音段与浊音段,因为浊音时e n 值比清音 时大得多,我们还可以用短时能量来区分声母与韵母的分界,有声与无声的分界, 连字( 指字与字问无问隙) 的分界等,还可以将之作为一种超音段信息,用于语音 识别中。同理,我们也可以用短时平均幅度来区分清音与浊音,但此时二者的电 平差不如短时能量那样明显,而在清音的范围内,二者的区别则特别显著。 2 2 3 语音信号的短时自相关函数、短时频谱及短时平均幅度差 设s 。( n ) 是一段加窗语音信号,它的非零区间为n = 肛( n 1 ) 。s 。( n ) 的自相关 函数称为语音信号“n ) 的短时自关函数,用r w ( 1 ) 表示,它的计算公式为: n l l r 。( 1 ) = s 。( n ) s ,( n + 1 ) = s ,( n ) s ,( n + 1 ) 式( 2 - 1 3 ) n i 嘈n = _ o s 。( n ) 的离散时域傅立叶变换( d 1 1 可) s 。( e 一) 称为s ( n ) 的短时频谱,可以用下列 公式计算: n j s 。( e ”) = s ,( n ) e 一舯 式( 2 1 4 ) n = o 1 9 北京邮电大学硕士学位论文 通信系统中语音编码判别技术研究 我们可以从两个角度来理解s 。( e 扣) 的物理意义: 第一种解释是;当n 固定时,例如n = n o ,则s ,( e 扣) 是将窗函数的中心移至 n 0 处截取信号s ( n ) ,再做傅立叶变换而得到的一个频谱函数。这是直接从频率轴 方向来理解的。第二种解释是从时间轴方向来理解:当频率固定时,例如w = w 。, 则s 。( e 扣) 可看作是信号经过一个中心频率为w 。的带通滤波器后产生的输出。这 是因为窗序列w ( n ) 通常具有低通频率响应,而s ( w ) 一一的傅立叶变换为 s ( e n ”- ) ,这里的指数e j “- 对s ( n ) 的调制作用,是使其频谱产生移位,即将s ( n ) 频谱中对应于频率w 。的分量平移到零频。因此,可理解为一个带通滤波器。 s 。( n ) 的离散时域傅立叶变换幅度的平方 s ,( e 扣) i 2 是信号s ( n ) 的频谱能量密度 函数。它也是信号s ( n ) 的短时自相关函数的傅立叶变换,即: p n ( w ) = m e 。) 1 2 :r 。( k ) e “ 式( 2 - 1 5 ) k = 日 短时自关函数和短时频谱是语音信号非常重要的一对短时参数,分别在时域 和频域中表征了语音信号的一些主要特征。 浊音的短时自关函数也呈现出明显的周期性,且其周期等于原始语音s ( n ) 的周期;相反,清音语音由于具有随机噪声的特点,它的短时自关函数r 。( 1 ) 不 具有周期性且随着l 的增大而迅速减小。因此可以利用这个特点来判断一个语音 是浊音还是清音,还可以以此确定一个浊音的基音周期或基音频率。在决定基音 周期时,利用了短时自关函数在基音周期的各整数倍点上具有较高的峰起值的特 点。 除了短时自关函数外,还可以采用短时平均幅度差函数( a m d f ) t 。( 1 ) 来求 基音周期,它的计算公式为: k ( 1 ) = 队n + 1 ) 一s 。( n ) l 式( 2 一1 6 ) 对于浊音信号s ( n ) ,7 。( 1 ) 也呈现周期性,与r 。( 】) 相反的是y ,( 】) 在周期的各个 整数倍上具有谷值而不是峰值。利用浊音的短时自相关函数和短时平均幅度差具 北京邮电大学硕士学位论文通信系统中语音编码判别技术研究 有周期性的特点,可以用它们来求浊音段的基音周期。 2 3 语音信号的线形预测编码( l p c ) 分析 根据语音信号的产生模型,语音信号s ( z ) 是一个线形非移变因果稳定系统 v ( z ) 受到信号e ( z ) 激励后所产生的输出。在时域中,语音信号s ( n ) 是该系统的 单位取样响应v ( n ) 和激励信号e ( n ) 的卷积。在语音信号数字处理所涉及的各个 领域中,根据n ) 来求得v ( n ) 和n ) 具有非常重要的意义。例如,为了求得语音 信号的共振峰就需要知道v ( z ) ( 共振峰频率是v ( z ) 的各对复共扼极点的频率) 。 又如,为了判断语音信号是清音还是浊音及求得浊音情况下的基音频率,就应该 知道n ) 或e ( z ) 。 由卷积信号求得参与卷积的各个信号是数字信号处理各个领域中普遍遇到 的一项共同的任务,解决此任务的算法称为解卷算法。其中一类算法是首先为线 形系统v ( z ) 建立一个模型,然后对模型的参数按照某种最佳准则进行估计,这 种算法称为“参数解卷”。如果所取的模型中只包含有限值极点而没有有限值零 p 点,则系统的函数可以表示为v ( z ) = 1 a ( z ) ,其中,a ( z ) = a z ,这时解卷算 法可以归结为对各模型参数a 进行估计。这种模型即称为“全极点模型”或称“a r 模型”。如果采用最小均方误差准则对a r 模型参数进行估计,就得到了线形预 测编码( l p c ) 算法。 线形预测的基本原理: 由前面语音产生的离散数字模型的讨论出发,我们给出一个简化的语音产生 模型如图2 6 所示。 北京邮电大学硕l 学位论文通信系统中语音编码判别技术研究 图2 6 语音产生的简化系统模型 其中时变滤波器的稳态系统函数为: h ( z ) - 器3 古 鼠2 - 1 7 , 式中s ( z ) :n ) 的z 变换,u ( z ) :i l ( n ) 的z 变换,s ( n ) :输出语音信号的时域抽样 值,l l ( n ) :激励信号的时域抽样值( 浊音时为周期脉冲序列,清音时为随机白噪 声) ,a 。一滤波器系数,p - 滤波器阶数,发音的音量大小由增益参数g 决定。 由上式可以求出相应的时域关系式如下: s ( n ) = a 。s ( n k ) + g u ( n ) 式( 2 1 8 ) 我们可以把上面两式理解为用信号的前p 个样本来预测当前样本,即定义预测 器: ( n ) = a ;s ( n k ) 式( 2 一1 9 ) 由于预测系数 a 。) 在预测过程中看作常数,所以它是一种线形预测器,这种线形 预测器最早是用于语音编码。如果信号s ( n ) 精确的符合式( 2 1 7 ) 和式( 2 一1 8 ) 所描述 的模型假定,那么用( 2 一1 9 ) 所示的线形预测信号s ( n ) 的预测误差应为 “n ) = g + u ( n )式( 2 2 0 ) 但是,实际信号未必精确地符合这个假定,因此实际的预测误差应为: 北京邮电大学硕t 学位论文 通信系统中语音编码判别技术研究 p e ( n ) = s ( n ) 一;( n ) = a i s ( n i ) 其中a 。= l 式( 2 - 2 1 ) j t 0 此式表明预测误差序列是信号s ( n ) 通过一个具有如下系统函数的系统产生的输 出: p a ( z ) = 卜a k z “ 式( 2 2 2 ) l j 比较式( 2 1 7 ) 和式( 2 一1 8 ) 可知,预测误差滤波器a ( z ) 是系统h ( z ) 逆滤波器,即: a ( z 产g h ( z ) 式( 2 - 2 3 ) 由于给定的只有信号s ( n ) 和一个参数未知的模型式( 2 1 7 ) ,要想使这个模型 尽可能精确地描述信号s ( n ) ,应使式( 2 2 1 ) 所得的预测误差在某一短时的总能量 尽可能小,并在此准则下求出最佳预测系数瓴,。为此,定义短时平均预测误差 能量: e 。= e 2 ( m ) = s 。( m ) 一s ( m ) 】2 式( 2 - 2 4 ) = 【s d ( m ) 一a 。s ( m k ) 】2 m k = l 其中s 。( m ) 是在抽样点n 附近选择的一个语音段,为了使( 2 2 4 ) 中e n 达到最小值 的 a 。) ,必定满足a e n ,钿;= o( i - 1 ,2 ,p ) ,由此便得到以 a 。) 为变量的线形方 程组: 其中: 圭a 。中。( i ,k ) 卸。( i ,o ) i - l ,2 ,i p式( 2 2 5 ) k = l 中。( i ,k ) = s 。( m i ) s 。( m k ) 式( 2 2 6 ) 这个线形方程组通常有唯一解,一旦解出其中的变量 a 。 ,最小预测误差能量便 可由式( ( 2 2 4 ) 求得。也可以改写( 2 2 4 ) 式,并利用式( 2 2 6 ) 得到另外两种形式的 最小预测误差能量计算公式: 北京邮电大学硕上学位论文 通信系统中语音编码判别技术研究 量。:s :( m ) 一圭a 。s 。( m 邶。( m k ) k ;l4 = m 。( o ,o ) 一壹a 中。( o ,k ) 式( 2 2 7 ) k = i 由式( 2 2 1 ) 计算出的最小预测误差序e ( n ) 又称为预测残差序列。电。就是预测残差 能量。 增益因子g 的估算如下: g 在所考虑的短时内应该是一个常数。根据式( 2 2 0 ) 和式( 2 2 4 ) ,有 n i 电。= e 2 ( m ) = 6 2 u 2 ( m ) 式( 2 - 2 8 ) mm 王0 假若所分析的信号s ( n ) 确实符合式( 2 1 7 ) 的模型,那么假想的输出信号u ( n ) 可以认为是一个单位方差的白噪声序列。如果只考虑s ( n ) 被某一短时窗截得的部 分,那么输入信号也可以是一个单位的6 脉冲6 ( n ) 。在这两种情况下,式( 2 2 8 ) 中的输入信号总能量都为l ,于是就得: 6 = 电:2 式( 2 2 9 ) 这样直接把残差能量作为增益的平方,虽然只是近似的,却是实用的,特别 是当模型式( 2 1 7 ) 充分考虑了语音产生过程的各种因素时。预测残差序列j ( n ) 将 接近于白噪声序列( 清音) 或6 脉冲串( 浊音) 时,用式( 2 2 9 ) 估算出来的g 及最佳线 形预测系数 气) 用来重建原信号s ( n ) 可以获得很好的效果。 要使模型的假定较好地符合语音产生模型,主要有两个因素要考虑:首先是 模型的阶数p 要与共振峰的个数相吻合,其次是声门脉冲形状和口唇辐射影响的 补偿。通常一对极点对应一个共振峰,1 0 1 ( h z 采样的语音信号通常有5 个共振峰, 取p = 1 0 ,对于8 k h z 采样的语音信号可取p = 8 ,此外为了弥补鼻音中存在的零点 以及其他因素引起的偏差,通常在上述阶数的基础上在增加两个极点,即分别取 p = 1 2 和p = l o 。 关于声门脉冲形状和口唇辐射的影响,其总的趋势是使语音信号的频谱产生 高频衰落现象,大约相当于每倍程下降6 d b 。要抵消这种影响,通常在进行l p c 分析前采用一个非常简单的一阶f j r 滤波器1 一a z “进行预加重,也就是进行高频 提升,对于1 0 k h z 采样的语音,预加重系数取a 0 9 5 。 北京邮电大学硕士学位论文 通信系统中语音编码判别技术研究 对于考虑了上述两个因素的l p c 分析,其预测残差序列近似为白噪声,并 且残差能量相当小,这表明由某一短时信号所得到的线形预测系数能较好地描述 产生这一语音段的声道特性。大量实践证明:线形预测系数是语音信号特征表示 的良好参数。 北京邮电丈学硕上学位论文通信系统中语音编码判别技术研究 第三章a 脓编解码原理 3 1a 帜语音编解码器概况 a m r ( a d a p t i v em u l t i r a t e ) 声码器算法是3 g p p ( 3 嵋 g e i l c r a t i o np a n n e r s h i p p m j e c t ) 于1 9 9 9 年公布的w c d m a 的语音编码标准,是w c d m a 系统m s c 设 备中关键技术之一。a m r 编码算法是r r u 对w c d m a 的特点和要求而提出的, 具有以下优点: ( 1 ) 降低了对无线频谱带宽的要求,提高了无线频谱带宽的利用率; ( 2 ) 实现多路语音传输的带宽复用: ( 3 ) 在m s c 中发挥媒体网关( m e d i a g a t e w a y ) 的作用,保证了基于a t m 的第 三代移动通信网与现有的网络资源p s t n ( p u b l i cs w i t c h e dt e l e c o 舢l u n i c a t i o n n e t w o r k l 的互通性。 第三代语音通信系统将支持语音,视频和数据等多媒体业务。由于传输环境 的剧烈变化,移动通信系统不能工作在最佳的信源和信道编码速率。例如,在 g s m 系统中,信源和信道编码速率是固定的,与信道质量无关,在坏的信道条 件下,信道编码的冗余比特数不足以纠正传输错误,这时,应该增加信道编码中 的冗余比特数而减少信源编码的比特数来提高语音的质量,相反在好的信道条件 下,增加信源编码的比特数可以提高语音豹质量。 a m r 的概念就是以更智能的方式解决信源编码和信道编码的速率分配问 题,也就是说,实际的语音编码速率取决于信道条件,它是信道质量的函数, w r 编码器采用自适应算法选择最佳的语音编码速率。每一语音帧的编码速率 取决于当时的无线信道环境。在传输环境较差时选择最健壮的编码模式;在传输 环境较好时选择能够提供最佳语音质量的编码模式。在移动通信中,编码的自适 应性依赖于移动台和网络对信道质量的测量,也依赖于随语音数据一起通过空中 接口传送的带内信息。图3 1 给出了移动通信中系统关键界面问的主要信息流程。 北京邮电大学硕士学位论文通信系统中语音编码判别技术研究 谢 h语一 舟递上行道裔 缩_ -稿 链j i 模奠 解解 码鳓码码 器 嚣指示嚣漕 叫 f 行链茹 建c 丑艇式 弋 缩鹤嚣骗刚嚣 自适日通 ,w l 一 l l 再 | i l 开链豁 语括一一 镇式盘 旧 音进遵哥 解群 f 钉 编宣 码 _ 鹤码 马 器墨 疆路 器 警 f 髓蹦 移动台m s艟收发送堆 站b 1 s 图3 1 系统界面间主要信息流程 代码转换 器t r u 从图中可以看出,在两个方向上传送的语音数据帧中都携带着编解码器模式 指示,这些指示可使接收方选择正确的信道解码器和信源解码器。在网络中,编 码器模式指示还需要送给代码转换器( t r a u ) ,以便选择正确的信源解码器。 为了上行链路能自适应的选择编解码器模式,网络需要估计信道质量,为现存的 传输环境确认最佳的编解码模式。并把这些信息通过空中接口传送给移动台。为 了下行链路编解码的自适应选择,移动台必须估计下行链路的信道质量,并把质 量情况传送给网络,以便网络可选择更好的编解码模式。 在理论上,每一个语音帧都可以选择编解码模式。但事实上,由于传输延迟 和自适应编解码器中所必须的滤波过程,就使得编解码模式以较低的速率自适应 的改变。 a m r 编解码器基于c e l p 编码模型,其中包括很多技术体系。例如:话音 激活检测技术( v a d ) ,舒适噪声产生技术( c n g ) ,非连续传输技术( d t ) ( ) 等。下 面重点介绍4 7 5 k b i “s 模式的语音编解码原理。 北京邮电大学硕1 :学位论文通信系统中语音编码判别技术研究 3 2a 帜编码原理 1 预处理 预处理包括两个过程:高通滤波和信号幅度衰减。衰减通过将输入信号幅度 减半以避免在定点实现中可能出现的溢出问题,高通滤波的作用是去除信号低频 成分的影响同时提高线性预测的精确度,高通滤波器的低频端截止频率为 8 0 h z
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 民办教育机构合规运营与品牌建设2025年市场趋势报告
- 餐饮业供应链整合与2025年成本控制中的供应链金融创新报告
- 线下护肤活动方案
- 禁毒大队长宣传活动方案
- 美容院抽奖活动方案
- 美容院排毒减肥活动方案
- 美容师志愿服务活动方案
- 童装送袜子活动方案
- 线上藏宝活动方案
- 社工节具体活动方案
- 污染源自动监测设备比对监测技术规定
- 三年级混合运算题100道
- 邮政储汇业务员高级技师理论知识试卷5套(完整版)
- 体育产业经营管理课件第三章体育赛事经营管理
- 百善孝为先主题班会课件
- 业务连续性管理-(BCM)实务培训课件
- 耳鼻喉科多功能手术动力系统
- 北师大版四年级上册数学(全册)同步随堂练习一课一练
- K2FastWave中文操作手册
- 创新小白实操指南 教案.docx
- 高中数学 1.2.3函数的表示法(一)教案 新人教A版必修1[1]
评论
0/150
提交评论