已阅读5页,还剩51页未读, 继续免费阅读
(信号与信息处理专业论文)amrwb在数字调幅广播系统中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 。 摘要 随着通信技术的不断发展,人们对语音通信质量的要求越来越高。现在使用的语音 编码系统大多基于窄带语音,频带限制在2 0 0 3 4 0 0 h z 以内。在宽带语音编码中,信号 带宽扩展为5 0 7 0 0 0 h z ,使语音主观质量明显提高。与窄带电话语音相比,5 0 2 0 0 h z 的 低频扩展增强了语音的自然度、现场感和舒适度;3 4 0 0 7 0 0 0 h z 的高频扩展使摩擦音的 区分更加容易,提高了语音的可懂度。5 0 7 0 0 0 h z 的宽带语音不仅提高了语音的自然度 和可懂度,也有利于说话人的识别。 a m r w b 编解码器以其低码率、高性能的特点,同时被3 g p p 和i t u t 所认可。 这是第一次有编解码器能同时应用在无线和有线网络设备中,必将推动宽带声音应用和 服务在更大范围内的实现。本文回顾了经典的语音压缩算法,对l p c 、c e l p 算法的原 理和优化进行了学习和推导。在此基础上,对a m r - w b 中所用的a c e l p 算法作了详 细论述,对自适应码本搜索、代数码本搜索中的关键技术进行了探讨,另外也介绍了 v a d 算法的原理,为下一步的d s p 程序移植和性能优化打下了良好的基础。 论文介绍了在数字调幅广播系统中使用a m r w b 作为语音节目的编解码器。所做 的工作主要包括a m r - w b 编解码的实现,信号采集、音乐播放模块的实现,音频超帧、 传输超帧的构造等。另外也对数字调幅广播中数据业务复用做了一点尝试,实现了一个 简短文字信息传送的功能,给出了数字调幅广播中可应用于数据业务的带宽。 关键字:a m r 。w b ;数字调幅广播;宽带语音;a c e l p ;编解码器 a b s t r a e t a b s t r a c t w i t ht h ef a s td e v e l o p m e n to fc o m m u n i c a t i o n s ,t h er e q u i r e m e n tf o rs p e e c hq u a l i t yi s b e c o m i n gh i g h e ra n dh i g h e r m o s ts p e e c h c o d i n gs y s t e m si nu s et o d a ya r eb a s e do n t e l e p h o n e b a n d w i d t hn a r r o w b a n ds p e e c h , n o m i n a l l yl i m i t e dt oa b o u t2 0 0 3 4 0 0h z i n w i d e b a n ds p e e c hc o d i n g ,t h es i g n a lb a n di sl i m i t e dt o5 0 7 0 0 0h z w i d e b a n ds p e e c hc o d i n g r e s u l t si nm a j o rs u b j e c t i v ei m p r o v e m e n t si ns p e e c hq u a l i t y c o m p a r e dt on a r r o w b a n d t e l e p h o n es p e e c h , t h el o w - f r e q u e n c ye n h a n c e m e n tf r o m5 0t o2 0 0h zc o n t r i b u t e st oi n c r e a s e d n a t u r a l n e s s ,p r e s e n c e ,a n dc o m f o r t t h eh i g h f r e q u e n c ye x t e n s i o nf r o m3 4 0 0t o7 0 0 0h z p r o v i d e sb e t t e rf r i c a t i v ed i f f e r e n t i a t i o na n dt h e r e f o r eh i 【g h e ri n t e l l i g i b i l i t y ab a n d w i d t ho f5 0 t o7 0 0 0h zn o to n l yi m p r o v e st h ei n t e l l i g i b i l i t ya n dn a t u r a l n e s so fs p e e c h , b u ta l s oa d d sa f e e l i n go f t r a n s p a r e n tc o m m u n i c a t i o na n df a c i l i t a t e ss p e a k e rr e c o g n i t i o n a m r w b ,f o ri t sl o w e rb i t - r a t ea n dh i g h e rp e r f o r m a n c e ,i ss e l e c t e db yb o t h3 g p pa n d i t u t i ti st h ef i r s tt i m et h a tt h es a r f l ec o d e cb ea d o p t e df o rw i r e l e s sa sw e l la sw i r es e r v i c e s a n dt h i sw i l le a s et h ei m p l e m e n t a t i o no fw i d e b a n dv o i c ea p p l i c a t i o n sa n ds e r v i c e sa c r o s sa w i d er a n g e i nc h a p t e r2 ,w er e v i e ws o m ec l a s s i c a ls p e e c hc o m p r e s s i o na l g o r i t h m s ,a n dg i v e t h ep r i n c i p i u m so fl p c ,c e l p i nc h a p t e r3 ,w eg i v ead e t a i l e dd e s c r i p t i o no f a c e l pw h i c h i su s e di na m r w b ,a n dd i s c u s st h ek e yt e c h n i q u e so fa d a p t i v ea n da l g e b r a i cc o d e b o o k s e a r c h ,a l o n gw i t ht h ei n t r o d u c t i o na b o u tv a d t h i sw i l lb eag o o db a s ef o rt h en e x tw o r k , s u c ha sp r o g r a me m b e d d e di nd s pa n dp e r f o r m a n c ee n h a n c e m e n t t h ei m p l e m e n t a t i o no ft h ea m r - w ba sac o d e ro fs p e e c hp r o g r a m si nd i g i t a la m b r o a d c a s t i n gs y s t e mi sg i v e ni nc h a p t e r4 ,w h e r et h em a i nw o r ki n c l u d e s :r e a l i z a t i o no ft h e a m r - w bc o d e c ;c o m p i l i n go ft h es i g n a li oa n dt h es o u n dp l a y s a v em o d u l e s ;c o n s t r u c t i o n o f t h ea u d i os u p p e rf r a m ea n dt h et r a n s m i s s i o ns u p p e rf l a m e s ,a n de t c b e s i d e s ,w ed oal i t t l e t r yi nm u l t i p l e xt r a n s m i s s i o nf o rd a t as e r v i c e ,g i v et h ei m p l e m e n to fas i m p l ed a t as e r v i c e c a l l e dt e x tm e s s a g ea p p l i c a t i o n ,a n dc a l c u l a t et h et r a n s m i s s i o nr a t et h a tc a nb eu s e di nd a t a s e r v i c e k e y w o r d s :a m r - w b :d i g i t a l a m b r o a d c a s t i n g ;w i d e b a n ds p e e c h ;a c e l p ;c o d e c i i 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过 的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并 表示了谢意。 研究生签名:闼塞 e t 期:塑! 呈:至:f 3 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内 容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可 以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研 究生院办理。 研究生硌烛一新签獭期:丝址 第一章绪论 1 1 课题研究背景 第一章绪论 随着通信技术的不断发展,人们对语音通信质量的要求越来越高。传统的语音编码系统人多基 于窄带语音,频带限制在2 0 0 - 3 4 0 0 h z 内。为了实现高品质的语音通信,宽带语音编码系统的使用正 变得越来越广泛。同窄带电话语音相比,宽带语音编码使语音主观质量明显提高,它提高了语音的 自然度、亲切感、可懂度,更多地保留了说话人的个性特征,使说话人识别变得简单。 一般的宽带语音带宽扩展为5 0 7 0 0 0 h z ,采用1 6 k h z 采样。5 0 2 0 0 h z 的低频扩展提高了自然度、 表现力和舒适度,而3 4 0 0 7 0 0 0 h z 的高频扩展可以更好地区分摩擦音,所以更易于理解。带宽扩展带 来的好处在图1 - i 和图1 2 中可以很直观地看到,图中灰色背景的是宽带语音比窄带语音扩展的带宽。 图1 - 1 显示的是一个典型浊音信号的频谱能量图,它在5 0 - 2 0 0 h m 氐频段中有较大能蕈,滤掉这一频段 影响了语音的自然度。图1 - 2 显示的是一个典珲! 的清音信号,窄带语音编码将高于4k h z 频谱段语音 滤掉,这影响了语音的理解性,例如语音“s ,和f 的区分。虽然许多语音信号尤其是清音信号中能量 频谱分布要比7 0 0 0 h z 还高,但一般7 0 0 0 h z 以上信号强度太低,传输它们的代价太大,得不偿失。 0 篙- 2 0 絮嘶 互嘞饥 1 。,。脚1 。,n 3 4 0 07 0 0 08 d1 1 0 2 5 f r e q u c y 【嘲 图1 1 一段浊音语音信号的频谱能量图 f r e q u e n c y 【 i z l 图卜2 一段清音语音信号的频谱能量图 典型宽带语音的应用领域包括:3 g 移动通信系统、宽带包交换网络和综合业务数字网( i s d n ) 上 的高保真电话、音频和视频会议、数字无线广播等。本文研究的是宽带语音编码在数字调幅( a m ) 厂。播系统中的应用。 - l - 东南大学硕:l 论文 调幅广播作为一种经济实用的通信方式,有它独特的价值和使用环境。但是传统的模拟调幅广 播制式存在着功耗大、信号差等缺点,己经越来越不能满足人们追求高质鼍广播节目的要求。朋数 字技术取代模拟技术是调幅广播继续生存、发展的必由之路。调幅广播处理的音频带宽也是7 0 0 0 h z , 与宽带语音编码的带宽一致。在数字化的调幅广播系统中应用宽带语音编码技术,既可以占用较少 的传输带宽,给调幅广播的数字化减小难度,又可以提供高质鼙的语音类广播节目,充分体现数字 技术的优越性。 1 2 宽带语音编码标准 宽带语音信号以1 6 k h z 采样,每样点以1 6 位p c m 格式表示,原始位速率是2 5 6 k b i t s 。所以语音编 解码或者说语音压缩,在宽带语音通信中占有十分重要的地位。人们在这方面做了很多努力,希望 得到一种能提供高质量、低比特率的宽带语音编解码器( c o d b c ) 。 1 2 1i t u tg 7 2 2 g 7 2 2 编解码器使用子带自适应差分脉冲编码调制( s b a d p c m ) 将宽带语音编码为6 4 k b i t s 、 5 6 k b i t s 或4 8 k b i t s ,具体方法是将语音频带分成2 个子带,分别_ j a d p c m 来编码口1 。这种算法的计算 复杂度只有1 0 1 2 m i p s ,延时为2 个取样周期即0 1 2 5 m s 。此外,该编解码器传输位误差率仅为1 0 。3 , 即使遇到最差的网络传输条件,也可确保性能只是稍稍下降。 1 2 2i t u tg 7 2 2 1 g 7 2 2 1 ( 转换编码器) 于1 9 9 0 年代末开发,目标是以更低的比特率( 大约相当于g 7 2 2 编码器 的一半) 实现与g 7 2 2 人致相当的语音质鼙。g 7 2 2 1 编码速率为3 2 k b i t s 或2 4 k b i t s ,在3 2 k b i t s 时的语 音质龌与g 7 2 2 在6 4 k b i t s 时相同l ”。该c o d e c g j p i c t u r e t e l 发,使j 【 j 了变换编码方法( m o d u l a t e d l a p p e dt r a n s f o r m ,m l t ) ,帧长:2 0 m s 。这种算法的计算复杂度需要1 4 m i p s ,算法时延为4 0 m s ( 2 0 m s 帧g :+ 2 0 m s 前视) 。目前人多用于电视会议系统。 1 2 3i t u tg 7 2 2 2 自适应多速率宽带( a d a p t i v em u l t i r a t ew i d e b a n d , a m r - w b ) 编解码器最初是为g s m 无线网 络设计的,后来应用范围扩展为包括有线系统。a m r w b 丁二2 0 0 1 年标准化,用于g s m 与w c d m a 网 络。2 0 0 2 年底,i t u 决定将它作为有线应用的宽带标准,h p i t u tg 7 2 2 2 建议。a m r w b 的码率为 6 6 - 2 3 8 5 k b i # s i ”。比特率提高时语音质量也会提高。它使用多速率a c e l p 语音编码,帧长2 0 m s ,算 法复杂度较高,约3 8 m i p s 。 e t s i ,3 g p p 和l t u t 都选择了a m r - w b 作为新的6 6 2 3 8 5 k b i t s 宽带语音编码器。对于a m r w b 来说,同时被i t u t 和e t s i 3 g p p 采用具有很大意义,因为这是第一次有一种编解码标准同时被选作 有线和无线通_ l j 的标准,意味着3 g 与i p 固定网络之间的互通更加容易。本课题首先对a m r w b 编码 器原理进行分析和研究,然后论述其在数字调幅广播系统中的应用。 1 - 2 4 变速率多模式宽带语音编码器 v m r - w b ( v a r i a b l e - r a t em u l t i m o d ew i d e b a n d ) 是可变速率多模式宽带语音编解码器,专为无 线c d m a 2 0 0 0 标准而设计【5 1 。v m r w b 基于a m r w b ( g 7 2 2 2 ) 编解码器,在1 2 6 5 k b i 以时可实现与 a m r - w b 互操作【6 l 。v m r - w b t 作模式有4 种,具体选择应视网络流量而定。前3 种模式专门针对 c d m a 系统,第4 种为a m r - w b 互操作性模式。v m r w b 与a m r w b 的互操作性允许g s m w c d m a 2 第一章绪论 与c d m a 2 0 0 0 系统无须自动解码即可通信,这就不至于增加额外延迟以及引起音质下降【7 1 。 1 3 数字广播系统 音频广播自从1 9 2 0 年问世以来,历经了a m ( 调幅) 、f m ( 调频) ,己经对人们的日常生活和 人类社会的发展进步带来了深远的影响。但是随着科学技术的发展和生产力的提升,人们对生活品 质的要求日益增高,作为主要信息媒体之一的声音广播就必然要适应这样的发展。然而传统的模拟 调幅和调频j “播制式存在着诸如功耗人、信号筹等缺点,己经越来越不适应人们对视听媒体日益增 长的要求。随着数字化技术的广泛麻用,以数字处理为特征的数字音频广播逐渐发展成熟,随着半 导体制造技术、多媒体技术的迅速发展,数字广播技术正越来越成为现在和以后研究的重点。 数字广播属于调幅和调频j “播之后的第三代声音广播体制,它所传输的是数字化的音频信号, 和现行模拟广播体制相比具有诸多的优点:音质显著提高;可保证在城市环境中、高速移动状态下 的接收质量;在同样覆盖范围下,所需要的发射功率小、系统频谱利_ j 率高;可传送多媒体信息, 远远超出了传统声音广播的范同。 数字化广播已经成为当今信息社会的重要组成部分。声音广播从模拟到数字的过渡已经是必然 趋势。近年来世界许多国家开始投入大量财力物力进行数字广播的研究工作,相应地一系列数字广 播标准也随即出台。 1 3 1 d a b 系统 数字音频广播技术的发展最早起源于1 9 8 0 年德国广播技术研究所进行的地面数字音频广播技 术研究。1 9 8 6 年,德、英、法、荷等国的政府研究机构、广播机构与电子产业界共组e u r e k a 联盟, 设立数字音频广播项目e u r e k 1 4 7 。1 9 8 8 年,e u r e k a 联盟在日内瓦公开展示d a b ( d i g i t a l a u d i o b r o a d c a s t i n g ) 系统,受到举世瞩目与好评。 d a b 系统信源编码采用了m u s i c a m ( 掩蔽型自适应通用子带集成编码与复用) 方法”,可以 把套立体卢节目的数据率由2 7 6 8k b s 降低到2 x 9 6k b s ,并达到c d 音质。 d a b 使用了c o f d m ( 编码止交频分复用) 传输方法,是一种多载波宽带传输系统,能使补偿 由于多径传播造成的信号失真。c o f d m 包括信道编码和调制两部分。信道编码采用约束长度k = 7 的删除卷积码。经信道编码的信息被分配剑频谱成正交关系的副载波上传送,采_ f 1 = j 的是q p s k 。所 有这些已调副载波替加在一起,就形成包含数字信息的c o f d m 基带信号。然后,再将其频谱搬移 到射频范围,形成带宽为1 5 3 6m h z 的“d a b 频率块”,经功率放人后,通过天线发射。在一个“d a b 频率块,上,通常可以同时传送6 套c d 质繁的立体声节目和其它数据业务”1 。 为了能够修正传输过程中可能出现的突发性比特著错( 比特块著错) ,d a b 采取了双重预防措 施,即“时间交织”和“频率交织”,使本来相邻的信息单元在时域平频域都尽可能远地分开来传送, 接收端经过去交织恢复信息原有的顺序,同时就把可能出现的“块差错”拆开为相距较远的单比特差 错,便于修止。 为了防i l 具有较大时延差的多径传播信号在接收机相遇时产生符号间干扰,人为将符号延长一 个被称为“保护间隔”的时间长度。这样,只要剑达接收机犬线的多径信号之间的时延差不超过保护 间隔,那么所有的多径信号( 包括直达的、绕路的或由同步网中其它发射台来的) 都会对总的接收 信号做出有益贡献。 目前使朋e u r e k a - 1 4 7 系统开播或试播的国家已有欧洲,东南哑的人部分国家和地区,以及加拿 大、澳大利砸等国。 数字音频j “播在我国引起了广泛的重视。1 9 9 6 年1 2 月,在广东佛山、广州和中山建立了第一 个欧洲体制的d a b 试验单频网,并将在北京、廊坊、天津地区建立新的d a b 试验网。 3 东南大学硕士论文 1 3 2 d r m 系统 中波和短波广播,特别是短波广播,由于比较容易实现大范同的信号覆盖,一直是声音广播的 主要手段。但是由于现有的模拟a m 广播受其信道特点和技术的制约,声音质最和信号传输质量一 直是困扰运营者和用户的严重问题。全面采用数字技术,可以显著提高a m 波段信号传送的音质; 在保持相同覆盖范围的情况下,数字调幅发射机比模拟调幅发射机的功率可降低6 9 d b ,而且对现 有中短波广播发射机进行数字化改造的费用很低。因此a m 广播的数字化近年来得到了广泛的关注。 世界上几十个国家的广播机构联合起来组织了一个世界性数字广播”( d i g i t a l r a d i om o n i d a l e , d r m ) 国际组织,以共同开发a m 波段的数字声音广播。2 0 0 2 年7 月,e t s i ( e u r o p e l t e l e c o m m u n i c a t i o n ss t a n d a r d si n s t i t u t e ) 发布了d r m 系统正式的技术规范e t s ie s 2 0 1 9 8 0v 1 2 1 ( 2 0 0 2 0 7 ) ,d i g i t a lr a d i om o n d i a l e ( d r m ) s y s t e ms p e c i f i c a t i o n ,并正式成为了e t s i 标准。2 0 0 2 年, i t u 推荐在1 5 0 k h z 到3 0 m h z 的覆盖了长波、中波、短波的范围内使_ h jd r m 。2 0 0 3 年1 月3 0 日, i e c ( i n t e r n a t i o n a le l e c t r o t e c h n i c a lc o m m i t t e e ) l e 式认定d r m 为国际标准i e c6 2 2 7 2 1 。 在2 0 0 3 年世界广+ 播通信会议上,一些广播电台宣布决定使j jd r m 技术。首批使用d r m 技术 的电台有:德国之声,德意志广播电台,b b c ,美国之音,荷兰广播电台,加拿大国际广播电台, 法国国际广播电台和瑞典“播电台。 在d r m 系统中,信源编码方法是最关键的技术之一。为在给定的比特率下提供更好的质量, d r m 系统使用了属于m p e g - 4 的不同信源编码方案,以适应在数字a mj “播中不同节目( 音乐,语 言) 的不同带宽需要1 9 1 :1 ) m p e g - 4 子集a n c ( 先进音频编码) ,包括抗筹错强壮性处理,用于普通 单卢道和立体声广播;2 ) m p e g - 4 子集c e l p ( 码激励线性预测) 语音编码,_ h j 于单声道语音广播, 对较低比特率有效,或者适用于要求较高抗筹错强j l 性的情况f :3 ) m p e g - 4 子集h v x c ( 谐波矢 晕激励编码) 语音编码,用于很低比特率和很高抗差错强壮性的单声道语音广播,特别适合基于语 音数据的应用。除了上述编码方法外,d r m 系统还应用了频带扩展( s b r ,s p e c t r a lb a n dr e p l i c a t i o n ) 技术,以较低比特率获得完全音频带宽的音频编码增强,该技术可与a a c 或c e l p 联合应用,构成 能力较强的压缩方法。 在调制和信道编码部分,使用了上e 交频分复用( o f d m ) 技术以提高频谱利用率,对子载波采用正 交幅度调s f j ( q a m ) 提高每个子载波携带的数据率。为了保证不同信源信息的传送质量,使_ j 了分级 编码和删除卷积码技术,灵活地为不同的信源信息分配信道资源。 1 3 3 其它系统 其它的数字声音广播体制主要分为3 人类:宽带数字声音广播,应用调频广播频段的数字音频 广播和应用调幅频段的数字音频广播。 宽带数字声音广播的代表系统是日本的数字声音广播b s t - o f d m ( b a n ds e g m e n t e dt r a s m i s s i o n o r t h o g o n a lf r e q u e n c yd i v i s i o nm u l t i p l e x ) 系统,是在数字电视地面广播的基础上发展起来的。该系统 的信源编码采用m u s i c a m ,复用方式则采_ f jm p e g - 2 结构,信道编码采用r s 和卷积编码的联合 编码方式,调制采用b s t - o f d m 方式。b s t - o f d m 信号带宽为5 6 2 m h z ,由几个基本的分段信号 组成i l 。其最大特点是可以根据需要灵活地确定系统带宽,可以分为1 3 个b s t 段,每个占4 3 2 k h z 带宽,也可以为一个完整的5 6 2 m h z 频段。该系统还可解调日本地面数字电视的伴音信号。 应用于调频广播频段的代表数字音频广播系统是美国的带内同频数字声音广播系统( i b o c d s b ) ,仍使用现有调频广播的频率和带宽。在同一j “播频带内,可以单独播出或与模拟调频广播同 时播出数字声音广播。调制方式也选用o f d m ,信道编码采用约束长度i ( - - 7 的删除卷积码,最高信 息传输率约1 9 2 k b s j 。由于要实现与调频广播的带内同传,同时只能传输一路广播节目。 在传统调幅广播频段的9 - 1 0 k h z 频带内传输数字化音频信号的系统也称为数字a m 系统,具代 表性的有法国t h o m c a s t 公司的天波2 0 0 0 系统。信源编码采用m p e g - 2 第3 层标准c o f d m 调制, 4 第一章绪论 频带宽度为3 _ 9 k h z 1 2 1 。标准方式下子载波以6 4 q a m 调制,传输数据率为8 - 2 4 k b i t s ;低效方式下 子载波以1 6 - q a m 调制,传输数据率降为6 - 2 2 k b i t s 。 1 。4 本文安排 论文各部分安排如下: 第一章为绪论,简要说明课题背景和选题意义,介绍宽带语音编码的几种标准和特点,以及目 前正在推广的几种数字声音“播的系统方案。 第二章介绍语音压缩的基本原理,主要内容为线性预测分析、基音分析、码激励线性预测算法 等用途广泛的语音压缩技术的原理和推导,为理解和实现a m r w b 编解码器技术打f 基础。 第三章解释a m r w b 多速率宽带语音编解码器的编码流程,详述a c e l p ( 代数码激励线性预 测) 算法的关键问题及技术难题。另外介绍语音端点检测( v a d ) 技术的实现以及在此基础上的源 控制速率技术和丢帧,失帧隐藏机制。 第四章讲述a m r w b 在数字调幅广播系统中的应用。首先概要介绍该数字调幅广播系统的特 点,论述采用a m r w b 的优势。然后重点介绍a m r w b 编码器和解码器的实现,包括信号的采集、 编码,音频超帧的构成和不等差错保护,信号的解码、播放等模块。同时给出a m r w b 的性能分 析。最后介绍数据业务复_ i j 的实现,给出一项典型业务简短文字信息的实现,并给出数据业务 能够得到的带宽计算。 第无章简要介绍硬件实现的考虑,首先介茔f t i6 7 1 3 d s k 的硬件资源和软件资源,其次提出可 以使用t l 的参考框架3 实现,并给出r f 3 的原理框图。 第六章总结全文工作,并对进一步工作进行展望。 5 - 第二章语音编码基奉原理 第二章语音编码基本原理 2 1 语音信号产生模型 根据发声器官和语音的产生过程,语音信号可由图2 1 所示的源一系统模型产生,即把激励特性 和声道及辐射特性分离开来,声道及辐射的影响用一个时变线性系统来考虑,激励发生器则产生一 种信号,它或是一串( 声门) 脉冲,或是随机变化( 噪声) 的信号,源和系统参数的选择使所得的 输出具有所要求的类似语音的性质。 源系统 圈2 1 语音产生的源一系统模型 语音输出 上述源一系统模型可展开为可实现的数字模韬,如图2 2 所示,激励源分为浊音和清音两个分支, 按照浊音清音开关所处的位置来决定产生的语音是浊音还是清音。浊音清音开关模拟了加在声道 上的激励的改变情况。 语音信 号s ( n ) 图2 - 2 语音信号产生的数字摸型 当开关接在浊音位置时,激励信号是由周期脉冲发生器产生的周期为的冲激序列,即每隔 o 便有一个样值为1 ,而其它样值均为o 。n o = z ,z 为采样率。当= s k h z ,厶= 5 0 5 0 0 h z 时,。= 1 6 0 1 6 个样点。 当开关接在清音位置时,激励信号是随机噪声发生器产生的序列,可令该序列服从均值为0 ,方 差为1 的高斯分布。 声f j 脉冲模型滤波器g ( z ) 使浊音的激励信号具有卢门气流脉冲的实际波形。卢fj 波形的频率 分析表明,其幅度频谱按每倍频1 2 d b 的速率递减。如果令 g ( z ) 2 正矛击历 协- ) 其中,g l 、9 2 都接近下l ,那么由之生成的浊音激励信号频谱接近于声门气流脉冲的频谱。 - ,一 东南大学硕士论文 增益因子4 和4 ,分别用于调节浊音语音和清音语音的幅度或能餐。 声道模型v ( z ) 给出了卢道的传输函数,把实际声道作为一个交截面声管加以研究,采用流体力 学的方法可以导出,在大多数情况下,它是个全极点函数。这样,v ( z ) 可以表示为: y ( z ) :i 土一 ( 2 2 ) q t = o 其中,= 1 ,呸为实数,p 为全极点滤波器的阶数。这里将截面积连续变化的声管近似为p 段短声 管的串联,每段短声管的截面积近似不变。p 值越大,模型的传输函数与实际声道传输函数的吻合度 越高a 但对大多数时间应用而言,p - 8 1 2 就能满足要求。若p 为偶数,则v ( z ) 一般有p ,2 对共轭极点: 珞e x p ( + j ) ,k = l p 2 。各0 3 t 分别与语音各共振峰相对应。 辐射模型r ( z ) 与嘴有关,一般可以表示为r ( z ) 鼍1 肱一1 ) ,* 1 ( 单零点传递函数) 。 上述语音信号产生的数字模型中,g ( z ) 、r ( z ) 保持不变。,以、4 ,、清触判决、声道参数 口j ( i = l ,2 ,p ) 是时变的,发卢器官的惯性使这些参数的变化速度受到限制。对于声道参数, 在0 - - 3 0 m s 内近似不变,语音分析帧氏一般为2 0 m s 左右。对于激励参数,在5 m s 左右近似不变。 数字语音处理中的语音分析和语音合成都是基于上述模型实现的。语音分析是根据原始语音信 号来估计信号模型的参数,而语音合成则是利h j 信号模型参数产生出在可情皮和自然度方面均可接 受的语音。语音信号的这种分析一合成系统在中低速率语音编码中应用十分广泛。 2 2 线性预测分析 线性预测分析( l p c ) 是进行语音信号分析最有效、最流行的技术之一。l p c 的重要性在于:它提 供了一纽简捷的语音信号模型参数,能较准确地表征语音信号的频谱幅度,而分析它们所需要的运 算量相对来讲并不大。应用这组模型参数可以降低语音信号的编码率,将l p c 参数形成模板存储, 在语音识别中也可以提高识别率和减少计算时间。此外,这种参数还可以用来实现有效的语音合成。 因此,l p c 技术己经成为语音信号处理的一个强有力的工具和方法。 2 2 1 线性预测的基本原理 在随机信号谱分析中,常把一个时间序列模型化为白噪声序列通过一个数字滤波器h ( z ) 的输出。 在一般情况下,h ( z ) 可写成有理分式的形式: h 0 ) = g 1 + 艺缸z 。 l - e a , z 一1 ( 2 3 ) 式中,系数口i 、匆及增益冈子g 就是模型参数,因为信号可用有限个参数构成的信号模型来表示。 假设被模砸化的信号为s ( n ) ,模型输入为u ( n ) ,它的z 变换分别为s ( z ) 、u ( z ) ,那么有s ( z ) = h ( z ) u ( z ) 。 从时间域来看,信号模型的输出和输入满足下面的差分方程 - 8 第二章语音编码幕本原理 功:妻口l “挖一o + 羔屯甜 一d ,6 0 :1 ( 2 - 4 ) l 爿 j - - - o 上式表明,s ( n ) 可以模型化为它的p 个过去值s ( n i ) 与输入u ( n ) 以及q 个过去值u ( n - 1 ) 的线性组合。 从物理意义上讲就是,n ) 可以由其过去输入值以及输入信号的线性组合来预测得到,所以信号模型 化与线性预测有内在的联系。 2 2 2 语音信号的线性预测 语音信号是一个随机序列,也可以用上述信号模型化来分析。图2 3 为基于信号模型化思想的语 音信号产生框图,给出了发音机理模型的一种特殊形式,它把图2 - 2 中的辐射、声道以及声门激励的 全部谱效应简化为一个时变的数字滤波器,其稳态系统函数为: 本 图2 _ 3 语音信号产生模型 日:迎:g ( 2 - 5 ) 一u ( z ) 1 - 争卵。1 i = l 从而把s ( n ) 模型化为一个p 阶的a r 过程序列。对于浊音,这个系统受剑冲激序列的激励,各冲激之间 的问隔为基音周期;对于清音,则受到白噪声序列激励,可简单地由一个随机数发生器完成。因为 圈2 3 的模型常用来产生合成语音,故滤波器h ( z ) 经常被称为合成滤波器。这个模现的参数有浊音 清音判决、浊音的音调周期、增益常数g 以及数字滤波器参数口,。当然,这些参数都是随时间缓慢 变化的。采刚这样一种简化的模型,其主要优点在于能够_ l f j 线性预测分析方法对滤波器系数皿和增 益常数g 进行非常直接和高效的计算”l 。 在圈2 3 所示的语音信号产生模型中,数字滤波器h ( z ) 的参数口即是前面定义的线性预测系数, 冈此,求解滤波器参数和增益参数g 的过程称之为语音信号的线性预测分析。因为它的基本问题就 是要从语音信号序列直接决定一组线性预测系数儡。鉴。语音信号的时变特性,预测系数的估计必 须在一短段语音信号中进行,即通常所说的按帧进行。 语音信号线性预测分析的基本途径就是使2 2 1 节的线性预测误筹滤波方法,求得一组预测系 数,使得在- d , 段语音信号序列中均方误差最小,并把求得的参数认为是语音产生模型中滤波器h ( z ) 的参数。这里有一点需要指山,就是关于模型中激励源的问题。从2 2 1 节的讨论可知,当一个语音 信号序列是由图2 - 3 所示的信号模型产生,并且激励是具有平坦谱包络特性的白噪声( 相当于清音场 合) ,应j j 线性预测误差滤波方法很容易求得预测系数口,和增益常数g ,并r h ( z ) 汞i 所分析的语音序 9 东南大学硕士论文 列具有相同的谱包络特性。但是在浊音场合,激励源是一间隔为基音周期的冲激串,它的谱是一组 幅度相同的谐波线谱,这与模型化中信号源的假设有所不同。但考虑剑这样一个事实:u ( n ) 是一串冲 激组成,意味着火部分时间里其值非常小( 零值) 。由于采用均方预测误差最小准则来使预测误差e ( n ) 逼近于u ( n ) ,j q l u ( n ) 能量很小这一事实并不矛盾,因此,为了不使问题夏杂化,我们认为无论是清音 还是浊音,图2 。3 所示的模型都是适合于线性预测分析的。 然而从发卢机理来说,在浊音情况下,h ( z ) 却是反映了声门波和声道两部分频谱的复合影响。 归纳起来,使_ i j 图2 3 的模型进行语音信号线性预测分析的主要缺点有以下两点: 1 ) 根据语音信号的产生机理,很多语音特别是清音和鼻音的场合,声道响应都含有零点的影响。 因此,理论上应该采用零极点模型,而不是简单的全极点模型; 2 ) 图2 - 3 的模型中,合成浊音时激励源是组冲激序列,而线性预测分析求解滤波器系数时却沿 用白噪卢源假设,这一分析与合成过程中的不一致,也是它的一个主要缺陷。 全极点模型的线性预测分析尽管有上述缺点,却能通过求解线性方程组来获得相应的线性预测 系数,从而相当准确地估计出基本的语音参数,例如频谱、共振峰等。此外,它可用于实现低码率 的语音传输或存储,因此语音信号的线性预测分析技术仍然是一种最常用的语音分析方法。 2 2 3 线性预测参数的表示 为了表达语音的短时谱包络信息,l p c 参数已广泛用于各种语音编码中,对保证音质和压缩码 率起着直接作用。目前表达l p c 参数的最有效方式为线谱频率( l i n es p e c t r u m f r e q u e n c y , l s f ) 1 4 1 。 l s f 参数在数学角度上完全等价于其它l p c 系数。l s f 参数有一些特别的性质,使得它比其它系数 更具吸引力。例如,一个线谱频率参数的误差仅仅影响全极点模璎中邻近该参数对应频率处的语音 谱,而不影响其它地方。冈此,l s f 参数可以根据人的听觉特性来分配龉化比特数,对敏感频率段 对应的l s f 参数分配较多的比特,对不敏感频率段对应的l s f 参数分配较少的比特。 2 3 基音检测 基音是指发浊音时声带振动所引起的周期性特征,基音周期值是声带振动频率的倒数。基音的 检测和估计是语音处理中非常重要的问题,尤其在汉语语音处理中更是如此,冈为汉语是一种有调 语音( 基音的变换模式称为声调) ,携带着非常重要的具有辩意作用的信息。在低速率语音编码中, 准确的基音估计非常关键,直接影响整个系统的性能。找到一个完善的适用于不同讲话者、不同要 求和环境、准确和可靠地检测语音信号基音的方法极其困难【l ”。基音检测是语音处理领域最具挑战 性的任务之一。其主要困难可归纳为如下几个方面: 1 ) 语音信号变化十分复杂。声门激励波形不是一个完全的周期脉冲串,测最语音波形的周期是 十分困难的,在一个周期长度内,语音波形的精细结构是变化的。另外,在语音的头、尾部并不具 有声带振动那样的周期性,有些清浊音的过渡帧很难截然判定它属于周期或非周期,从而也就无法 估计出基音周期。 2 ) 要从语音信号中去除声道影响,直接取出仅和声带振动有关的音源信息并不容易。例如,在 一些情况下,声道的共振峰能强烈改变声fj 波形的结构以致难以检测实际的基音周期,这种影响在 发音器官快速动作而共振峰也快速改变时,对基音检测是最具危害性的。 3 ) 在浊音段定义每个基音周期的准确开始和结束这一同有困难限制了基音的可靠测量。这不仅 因为语音信号本身是准周期的,也因为波形的峰或过零点受共振峰、噪声等的影响。 4 ) 区分清音和低电平语音是导致基音检测困难的另一个要素。在许多情况下,清音语音和低电 平浊音语音段之间的过渡段是非常细微的。 1 0 第二章语音编码摹奉原理 5 ) 基音周期变化范围较大,从低音男性的6 0 h z 到高音女性的5 0 0 h z ,也给基音检测带来了一定 的凼难。 面对基音检测的这些客观困难,人们从语音信号的时域和频域特性出发,利朋时域波形相关、 频域谱相关等开发了许多基音检测方法。 2 3 1 时域波形类似性方法 在时域中,周期信号的最明显特征就是波形的类似性。依赖波形类似性的基音检测的主要原理 是通过比较原始信号与其移位信号之间的类似性来确定基音周期。最具代表性的是自相关函数法。 基于波形类似性方法的基音检测算法的关键性问题是如何定义类似性量度。目前使_ i j 的主要是 基于平方代价函数最小原理,这是因为平方代价函数在数学上易于实现。 检澳4 两个波形之间类似性的一般测度公式为: _ - 1 e ( ) = “功一s ( 行十r ) 】2 ( 2 6 ) n = 0 式中,n y o 分析帧长,f 为移位距离,为用于控制信号电平改变的基音增益。这一准则考虑到了语 音信号的非稳态性质。 令o e ( r ) o p = 0 ,可以导出: 一l j ( 功咖+ f ) 卢= 鼍旨一 ( 2 7 ) s 2 ( 玎+ ) 其中: n - ! e ( f ) = s 2 ( 哟一r 2 ( f ) n = o s ( 玎) s ( + f ) r ( f ) = 气
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 第三污水处理厂BOT项目实施详细方案
- 【同步教案】青岛版(六三制)科学六年级上册-4.细菌与病毒 表格式教案
- 10.2.2 加减消元法 教学设计 2024-2025学年人教版数学七年级下册
- 2025-2030中国氢能轨道交通装备技术路线与标准体系建设研究报告
- 18《囊萤夜读》教学设计-2023-2024学年四年级下册语文统编版
- 2025中国物流集团全资公司招聘10人考试笔试模拟试题及答案解析
- 第12课 小鸡旅行-多场景及声音的应用教学设计-2025-2026学年初中信息技术清华大学版2012八年级上册-清华大学版2012
- 2025云南大口马牙国际旅行社有限公司招聘合同制人员3人考试笔试备考题库及答案解析
- 2025中国人民大学党政办公室(机关党委、政策研究室)招聘3人笔试考试参考题库及答案解析
- 公共机构数据隐私保护政策
- 水泥生产环保合规性自查总结报告
- 2025年大学《新能源科学与工程-地热能利用技术》考试备考试题及答案解析
- 骨科规培护士入科宣教
- 2025年劳动调解员试题及答案
- 模拟日语教师招聘面试的流程与准备要点
- 鸡的养殖方法和技术课件
- 2025年牙髓切断术课件
- 2025年屏蔽泵行业分析报告及未来发展趋势预测
- 2025年上海市烟草招聘考试(行政职业能力测验)模拟题及答案及答案(烟草专卖局、中烟工业、烟草工业、烟草总公司)
- 冷库消防安全管理制度
- 部队勤俭节约反对铺张浪费宣传课件2
评论
0/150
提交评论