(信号与信息处理专业论文)基于aacplus+v2的音频直播系统的设计与实现.pdf_第1页
(信号与信息处理专业论文)基于aacplus+v2的音频直播系统的设计与实现.pdf_第2页
(信号与信息处理专业论文)基于aacplus+v2的音频直播系统的设计与实现.pdf_第3页
(信号与信息处理专业论文)基于aacplus+v2的音频直播系统的设计与实现.pdf_第4页
(信号与信息处理专业论文)基于aacplus+v2的音频直播系统的设计与实现.pdf_第5页
已阅读5页,还剩109页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着人民生活水平的逐步提高,人们对信息的需求也日益增加,而音频直播 就成为了人们及时获得各种信息的重要手段。目前,广播电台主要使用专业音频 直播车或i s d n 专线进行直播,这两种方式成本都较高且对直播地点选择有依赖 性。因此,研究一种携带方便、低成本、对地点选择适应性强的音频直播系统对 电台工作和人民生活质量的提高都有现实意义。 基于电路交换方式的p s t n 网是当前较廉价和普及的网络,它具有时延小、 数据传输可靠和错误率低的优点,满足音频直播对实时性和可靠性的需要,缺点 是其提供的模拟话音质量不能达到专业音频节目的质量要求。但随着音频压缩技 术的提高,a a c p l u sv 2 在低码率下能够提供高音质音频,用a a c p l u sv 2 作为信源编 解码方式,用m o d e m 通信技术在p s t n 网上传输数据能够完成音频直播任务, 因此,论文结合这两者的优点给出了音频直播系统的解决方案。 首先,论文分析了音频直播系统的功能和性能需要,根据系统可扩展性和可 移植性的要求,采用了模块化方法进行系统总体设计,把系统分为录音模块、播 放模块、编码模块、解码模块、传输模块、缓冲模块和总体控制模块,然后给出 了模块层次关系图。在传输模块的设计中,为了使系统能工作在不同的传输网络 上,论文设计了一套简单的实时传输控制协议来向上层提供统一接口而向下层兼 容不同的传输方式,还阐述了传输协议中传输控制包的定义内容和传输控制算法 的具体设计,从而使系统完成了实时传输、实时监测、实时控制任务,解决了直 播系统在传输过程中自适应编码和断线异常处理这两个难点。 其次,为了进行实时和低延时传输,必须要做到实时编解码,而未优化前的 编解码模块不能达到实时要求,因此,在系统的实现中,论文具体阐述了a a c p l u s v 2 的优化方法。在算法优化上,对量化部分常用到的非线性函数整数开平方提出 了一种新的定点快速算法;在代码优化上,给出了具体的优化方法及步骤。此外, 论文还详细叙述了如何用多线程技术实现系统功能,给出了系统单线和双线应用 模式下的实现方法,并对此两种模式做了系统测试,测试结果满足专业音频直播 系统的各项指标。 摘要 最后,论文在系统的嵌入式应用上也进行了初步研究,对a a c p l u sv 2 在 a d s p b f 5 3 3 上的实时实现给出了具体方法和初期研究成果。 关键词:音频直播,m p e g ,a a c p l u s ,m o d e m ,实时传输 a b s t r a c t a b s t r a c t w i l l lt h ed e v e l o p m e n to fp e o p l ei i v i n gs t a n d a r d t h ei n f o r m a t i o nd e m a n di sa l s o i n c r e a s i n g ,l e a d i n gt ot h ea u d i ol i v i n gb r o a d c a s tb e c o m et ob et h ei m p o r t a n tw a y t 0 o b t a i nk i n d so fi n f o r m a t i o n a tp r e s e n t ,t h em e t h o d so fa u d i ol i v i n gb r o a d c a s td e p e n d o nb r o a d c a s t i n gp l a c ea n dc o s tm u c h , t h e r e f o r e ,r e s e a r c h i n gas y s t e mw i t hl o wc o s t a n dp o r t a b l ef e a t u r eh a s p r a c t i c a la n di m m e d i a t es i g n i f i c a n c et ot h ew o r ko f b r o a d c a s t i n gs t a t i o na sw e l la s t h ei m p r o v e m e n to f p e o p l el i v c s p s t n b a s e do nt h ec i r c u i ts w i t c h i n gm e t h o d i sc o n s i d e r e da sas u i t a b l em e d i a w h i c hi sl o wc o s ta n dc o m m o nn e tt os a t i s f yt h er e a l ,t i m ea n dr e l i a b l et r a n s m i s s i o n r e q u i r e m e n to ft h ea u d i ol i v i n gb r o a d c a s t ,h o w e v e r , t h ed i s a d v a n t a g ei st h a ti tg a l ln o t s u p p l yp r o f e s s i o n a la u d i oq u a l i t yb e c a u s eo ft h en a r r o wb a n dw h i c hc a no n l ys u p p o r t a n a l o gv o i c ed a t at r a n s m i s s i o n f o r t u n a t e l l y , w i t ht h ed e v e l o p m e n to ft h ea n d i o c o m p r e s s i o nt e c h n o l o g y , an e wt e c h n i q u en a m e da a c p l u sv 2c , a ns u p p l yh i g ha u d i o q u a l i t y i nl o wb i t r a t e t h u s t h ea s $ o c i a t i o no fa a c p l u sv 2a n dm o d e m t e l e c o m m u n i c a t i o n 觚f i nt h el i v i n gb r o a d c a s tm i s s i o n , a n das o l u t i o ni se l a b o r a t e di n t h i st h s i s f i r s t l y , b ya n a l y z i n gt h ef u n c t i o na n dp e r f o r m a n c er e q u i r e m e n to f t h ea u d i ol i v i n g b r o a d c a s ts y s t e m ,w eu s em o d u l a r i z e dm e t h o dt od i v i d et h es y s t e mi n t os e v e r a l m o d u l e ss u c ha sr e c o r d i n gm o d u l e ,p l a y i n gm o d u l e , e n c o d i n gm o d u l e , d e c o d i n g m o d u l e , t r a n s m i s s i o nm o d u l e , b u f f e rm o d u l ea n dc o n t r o l l i n gm o d u l e b e s i d e s ,t h e m o d u l er e l a t i o n s h i pg r a p h i ci sp r e s e n t e da tl a s t i no r d f f ft om a k et h es y s t e mw o r ko n d i f f e r e n tn e t w o r k ,as i m p l et r a n s i m i s s i o nc o n t r o lp r o t o c o li sd e v i s e dt os u p p l yu n i f c r m i n t e r f a c ef o rt h eu p p e rl e v e la n dd o w n w a r dc o m p a t i b i l i t yi nt h eg l o b a ls y s t e md e s i g n a c c o r d i n gt ot h ed e f i n i t i o no ft h ep r o t o c o lp a c k e ta n dt h et r a n s m i s s i o nc o n t r o l a l g o r i t h m r e a l t i m et r a n s m i s s i o n , r e a l t i m em o n i t o r i n ga n dr e a l t i m ec o n t r o l l i n g b e c o m ep o s s i b l e ,t h e na d a p t i v ee n c o d i n ga n do f f l i n ep r o c e s s i n ga r eb o t hs o l v e d s e c o n d l y , t l l ee n c o d i n ga n dd e c o d i n gm o d u l ew h i c hc a nn o ts a r i s f y t h e r e q u i r e m e n t so ft h er e a l - t i m et r a n s m i s s i o ns y s t e m ,t h u s ,a no p t i m i z a t i o ni s 西y e na s f o l l o w a tt h eb e g i n n i n g , an e wf a s t a l g o r i t h mf o rs q u a r er o o to fi n t e g e ri s d e m o n s t r a t e dt oa c c e l e r a t et h eq u a n t i z a t i o nm o d u l eo fa a c p l u sv 2 n e x t ,s o m ec o d e o p t i m i z a t i o nm e t h o d sa n dt h ep r o c e d u r ea r es u p p l i e d f u r t h e r m o r e , w ed i s c u s sh o wt o r e a l i z et h ef u n c t i o no fs y s t e mw i t hm u l t i - t h r e a dp r o g r a m m i n gt e c h n i q u ea n ds u p p l y s i n 西el i n ea n dd o u b l el i n em o d er e a l i z a t i o n a tl a s t , t h et e s tr e s u l ts a t i s f i e st h e r e q u i r e m e n t so f t h ep r o f e s s i o n a la u d i ol i v i n gb r o a d c a s ts y s t e m m 垒! ! 垒兰璺 f i n a l l y , w e t a k eap r e l i m i n a r yr e s e a r c ho ne m b e ds y s t e m , a n dp r o p o s et h ed e t a i l e d m e t h o d sa n dc o n c l u d et h ee a r l ys t u d i e so nt h eo p t i m i z a t i o no fa a c p l u sv 2a l g o r i t h m h a s e do na d s p b f 5 3 3 k e y w o r d s :a u d i ol i v i n gb r o a d c a s t ,m p e g ,a a c p l u s ,m o d e m ,r e a l t i m et r a n s m i s s i o n i v 图目录 图2 1 图2 2 图2 3 图2 4 图2 5 图2 6 图2 7 图3 1 图3 2 图3 3 图3 4 图4 1 图4 2 图4 3 图4 4 图4 5 图4 6 图4 7 图4 8 图4 9 图4 1 0 图4 1 1 图4 1 2 图目录 a a c p l u sv 2 编码器1 0 a a c p l u sv 2 解码器1 1 心理声学模型掩蔽曲线图。1 3 掩蔽阈值和信号掩蔽比( s m r ) 1 4 s b r 编码器框图2 0 s b r 解码器框图2 1 利用m i d s i d e 方法描述p s 示意图2 3 串行通信示意图。2 5 d b 2 5 引脚定义2 7 m o d e m 通信示意图2 8 m o d e m 状态转换图3 2 t e l e h q 网络连接图3 7 t e l e h q 系统传输框图3 7 发送端模块层次图4 9 接收端模块层次图4 9 a p 包帧结构5 0 a p c t r l 包帧结构5 l 发送端建立连接阶段流程图5 2 发送端线路维持阶段流程图。5 3 发送端码率测试阶段流程图。5 5 发送端正常工作阶段流程图5 6 接收端正常工作阶段流程图5 7 终止连接阶段流程图5 8 图5 1a a c p l u sv 2 流式传输帧头结构6 3 图目录 图5 2 图5 3 图5 4 图5 5 图5 6 图5 7 图5 8 图5 9 图5 1 0 图5 1 l 图5 1 2 图5 1 3 图5 1 4 图5 1 5 浮点表示( i e e e 单精度) 6 8 l 0 9 2 函数优化算法流程图6 9 代码优化流程图7 1 录音线程流程图7 5 编码发送线程流程图7 5 接收反馈控制信息线程流程图。7 6 调整编码率流程图。7 7 反馈控制包监视线程流程图7 8 解码播放线程流程图。7 8 接收解析a p 包线程流程图7 9 反馈控制包发送线程流程图。8 0 接收包监视线程流程图。8 l 音频直播系统单线应用模式模型。8 2 音频直播系统双线应用模式模型8 2 图6 1a d s p b f 5 3 3 的核心单元结构图8 7 i x 表目录 表目录 r s 2 3 2 c 最常用的9 条引脚2 7 分类a t 命令表3 3 a t 命令结果码列表3 4 表4 1码率传输控制表( 测试阶段) 5 4 表4 2码率传输控制表( 工作阶段) 5 4 编码优化结果 解码优化结果 音质码率测试表 音频测试结果 音频直播系统资源消耗表 x l 2 3 一 - - 3 3 3 表表表 铊记跗蚪跖 1 2 3 4 5 - - - 一 - 5 5 5 5 5 表表表表表 缩略字表 缩略字表 a a c ( a d v a n c e da u d i oc o d i n g ) a s p e c ( a d a p t i v es p e c t r a lp e r c e p t u a le n t r o p yc o d i n g ) a t ( a t t e n t i o n ) d a b ( d i 百t a la u d i ob r o a d c a s t i n g ) d c e ( d a t ac i r c u i t - t e m i n a t i n ge q u i p m e n t ) d c t ( d i s e r e t ec o s i n et r a n s f o r m ) 一 d f t ( d i s c r e t ef o u r i e rt r a n s f o r m ) d s p ( d i 百t a ls i g n a lp r o c e s s o r ) d t e ( d a t at e r m i n a le q u i p m e n t ) e i a ( e l e e t r o n i ci n d u s t r ya g e n c y ) f f t ( f a s tf o u r i e rt r a n s f o r m ) i p ( i n t e m e tp r o t o c 0 1 ) i s d n ( i n t e g r a t e ds e r v i c e sd i g i t a ln e t w o r k ) n u t ( i n t e r n a t i o n a lt e l e c o m m u n i c a t i o n u n i o n - t e l e c o m m u n i c a t i o ns t a n d a r d i z a t i o ns e c t o r ) k b p s r k j l ob i t sp e rs e c o n d ) m d c t ( m o d i f i e dd i s c r e t ec o s i n et r a n s f o r m ) m p e g ( m o v i n g p i c t u r ee x p e r t sg r o u p ) m u s l c a m ( m a s k i n gp a t t e r n - a d a p t e du n i v e r s a l s u b b a u di n t e g r a t e dc o d i n ga n dm u l t 碴l e x i n g ) p c m ( p u l s ec o d i n gm o d u l a t i o n ) p n s ( p e r c e p t u a ln o i s es u b s t i t u t i o n ) p s 口a r a n l e t r i cs t e r e o ) q o s ( q u a l i t yo f s e r v i c e ) s b r ( s p e e t r a lb a n dr e p l i c a t i o n ) 先进音频编码 自适应频谱感知熵编码 注意 数字音频广播 数据通信设备 离散余弦变换 离散傅立叶变换 数字信号处理器 数据终端设备 美国电子工业协会 快速傅立叶变换 互联网协议 综合业务数字网 国际电信联盟一电信标准化 部门 千比特每秒 改进离散余弦变换 运动图像专家组 掩蔽型自适应通用 子带综合编码与复用 脉冲编码调制 知觉噪音代替 参数立体声 服务质量管理 频带复制 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名乒址 日期:2 彩妒月伊 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 虢芦 第一章绪论 1 1 引言 第一章绪论 随着社会经济的发展和人民生活水平的提高,人们对信息的需求也越来越大, 我们已经步入了信息社会。在当今信息社会,广电事业蓬勃发展,为了满足人们 的信息需求,各种商业、公益性的现场直播日渐增多“1 ,但由于受现场条件的限制, 大部分的现场直播都采用音频直播方式,而这种方式正以它传送信息及时反映快 速、接收方便等特点越来越受到人们的喜爱。现在,许多电台都开办了音频直播 节目,使广大听众能及时了解党的方针、政策,了解我们身边发生的事,了解我 们这个城市的变化,因此,搞好广播电台的音频直播,是电台技术工作的一个重 要部分,此外,对提高人们的生活质量亦有重大意义。 1 2 音频直播的现状与未来发展 音频信息是多媒体信息的重要信息之一,现场节目直播是数据通信技术中实 时数据通信的一个重要应用,因此,音频直播涉及到多媒体数据压缩及通信技术。 1 2 1 多媒体数据压缩及通信 多媒体的含义不仅在于它能够表示多种信息,而且还含有借助计算机对这些 信息进行操作和控制的含义,以及通过远程通信传输这些信息的能力。 在多媒体系统中,由于涉及声音、图象图形以及视频影像,其数据量十分巨 大,需占用很大的存储空间,传输也要求很高的网络传输带宽,目前的通信网还 不能直接支持如此大量的数据传输,为了解决目前网络数据传输速度较慢及网络 终端系统的存储容量与多媒体信息的需求之间的矛盾,就必须对数据进行压缩。 因此,数据压缩技术是多媒体通信的关键技术之一。 数据压缩指的是使用某种紧缩格式来表示数字信号的技术,数据能够压缩的 原因在于原始数据存在着很大的冗余。衡量一种数据压缩技术的好坏有三个重要 电子科技大学硕士学位论文 的指标:压缩比例、压缩算法和恢复效果。压缩比例是指压缩前后信息存储量之比; 而实现压缩的算法要简单,压缩、解压缩速度要快,尽可能地做到实时;另外, 要尽可能地恢复原始数据。 多媒体数据压缩技术己经研究了多年,从p c m 编码到现在的j p e g ,m p e g 和 h 2 6 1 已经产生了不同用途的压缩算法,目前仍在继续发展。 多媒体通信是利用网络进行多媒体信息交换和传输的过程。多媒体通信涉及 的两种基本模式:单播传输和组播传输。在单播传输模式中有两个对等的通信方, 把这种通信方式称为一对一;组播传输模式则是一对多,如果是一对全部则称为 广播。多媒体通信涉及到一些关键的网络性能参数:网络比特率、吞吐量、差错 率和延时。为了提高多媒体数据实时传输的性能,需要实施流量控制、差错处理 和媒体间同步等操作。 1 2 2 音频直播的现状 自广播电台开办音频直播业务以来,人们通过音频直播可以及时了解国际战 争局势信息、体育现场赛事信息,也可以收听明星演唱会和音乐会等。 随着音频直播的节目越来越丰富,人们对直播质量的要求也越来越高。但是, 既要实时直播又要保证直播质量,需要的设备和仪器是很多的,常需要有一辆专 业的直播车【2 】和各种控制台,对电台的工作人员来说携带非常不方便。后来,我 国的很多电台引进了国外类似于c o m r e x 公司的v e c t o r 或m a t r i x 等基于流媒体技 术的传输设纠3 1 ,进行压缩、编码、通过i s d n 等线路来实现高质量的音频信号 传输,这样才降低了音频直播系统的成本,并更容易携带。 但现在i s d n 等专线产品面临的一个最大问题就是在很多地方根本没有 i s d n ,这种专线是需要电信运营商来安装的,对直播的地域限制比较大。另外, 现在i s d n 也不是电信部门的发展方向,很多地方已经停止新办i s d n 了。因此, 现在音频直播面临两个难题,一是以怎样的编码压缩方式来节省传输过程中所占 用的带宽,二是用怎样的传输方式来进行远程直播。 1 2 3 音频直播的未来发展 随着数字化技术的发展,人们生活中的各种多媒体信息几乎都可以用数字化 的形式进行存储和传输,当然音频信息也不例外,因此,数字音频压缩技术在二 2 第一章绪论 十世纪末和本世纪初得到了飞速的发展和广泛的应用,为人所熟知的m p 3 就是一 种数字音频压缩格式,除此之外,a a c ,a a c p l u sv l ,a a c p l u sv 2 这三种高级音频 编码方式在近几年更是得到人们的青睐,所以数字音频直播是音频直播未来的发 展方向。 当今的信息时代是一个信息交互的时代,而信息交互的途径就是网络,一是 有线网络,一是无线网络1 4 。在有线网络中,p s t n 电话网和口网是最大的两个 网络,p s t n 电话网是传统的电路交换网络,而口网则是以分组交换为基础的网 络,是未来网络发展的方向,如何兼顾这两个网络,如何兼顾当前情况和未来发 展趋势,这是音频直播系统所要解决的问题之一;在无线网络中,现在的音频直 播卫星【5 】也是无线音频直播【6 l 的一个主要手段,另外,无线移动通信网是未来无 线网络的一个主流,因此在未来如何适应无线音频直播,如何在移动的便携式终 端设备上搭建一个音频直播系统,这也是音频直播未来发展所要解决的问题。 通过以上的分析我们可以知道,高效的数字音频压缩技术和兼容多网络的传 输技术是音频直播系统最重要的两项技术。在数字音频压缩领域,目前得到国际 认可压缩效率最好的压缩技术就是a a c p l u sv 2 7 】【8 】,这项技术在2 0 0 4 年提出,很 快得到了各种国际组织的认可,数字广播国际联盟( d 黜哪已将a a c p l u sv 2 列为其 信源编码的主要技术,而3 9 p p 组织也将a a c p l u sv 2 作为其通用的音频编码标准, 这预示着在将来人们听到的数字广播【9 】、手机里播放的音乐、铃声都将通过这种 技术编码,所以a a e p l u sv 2 是音频直播系统在目前的一个较好的选择;在网络方 面,以分组交换为主要技术的m 网由于受地域、网络类型、网络结构的影响使网 络的q o s ( q u a l i t y o f s e r v i c e ) 不是令人非常满意,但以电路交换为主要技术的p s t n 网在q o s 上能靠保证实时性、稳定性、可靠性,所以p s t n 网作为音频直播系统 的传输网络是较切合实际情况的,此外,由于a a c p l u sv 2 这种高效音频压缩技术 的采用也使得在窄带的p s t n 网上实时直播高质量音频成为可能。 综上可知,以a a e p l u sv 2 作为音频直播系统的信源压缩方式,以p s t n 网作 为音频传输的网络是目前情况下一个较佳的组合。但是,为了使音频直播系统不 仅在当前情况下能得到较好的应用,也能适应时代的发展和将来多种网络传输的 需要,在系统的设计上还要注意系统的兼容性和扩展性,这也是本文在以下章节 中会讨论及解决的问题。 3 电子科技大学硕士学位论文 1 3 论文的研究内容及章节安排 ( 1 ) m p e g 4a a c p l u sv 2 音频压缩算法的研究与实时实现 第二章论文阐述了各种音频压缩方法的由来及分类,在此基础上分析了 a a c p l u sv 2 相对于其它压缩方法的优势在哪里,有什么相同点,有什么不同点, 然后,在第五章,针对这种算法提出实时优化的办法,最后分析其优化结果。 ( 2 ) m o d e m 及串口通信技术的介绍 p s t n 网是由模拟线路组成的,而在终端上的音频处理是数字化处理,因此 调制解调技术在这种情况下显得必不可少,于是第三章对m o d e m 通信技术做了 简要介绍。 ( 3 ) 音频直播系统的分析与设计 为了使音频直播系统既有较好的稳定性又有良好的兼容性和扩展性,在第四 章,对音频直播系统进行了详细的分析与设计。 ( 4 ) 音频直播系统的实现与测试 音频直播系统设计好后,具体的实现又涉及很多技术细节及编程方法,在第 五章,详细地叙述了音频直播系统各部分的实现细节及需要注意的问题。 ( 5 ) 音频直播系统的嵌入式应用初步研究 为了使音频直播系统成本更低、操作更简单、携带更方便,在第六章,给出 了系统在嵌入式上实现的初步研究,为应用平台的转换奠定了一定基础。 4 第二章m p e g - 4a a c p l u sv 2 音频编解码算法 第二章m p e g - 4a a c p l u sv 2 音频编解码算法 2 1 音频压缩编码 大约二十年前,数字技术带来了专业音频领域的新发展,而c d 技术则成为音 频工业发展的里程碑。数字技术使高质量音频信号的采集、存储、后处理、交换 和分配更为方便,质量也更高。c d 的高保真音质使人们对音乐的享受耳目一新, 但是,c d 的数据格式为1 6 b i tp c m 编码,在高采样率下,所需存储或信道成本很高, 一张立体声c d 的码率为1 4 1 1 m b p s ,容量为6 7 0 m b y t e s 的c d 。r o m 只能存放1 5 首歌 左右,对于发烧友来说,这是远远不够的。此外,在信道传输能力的限制下,如 何才能从广播、电视获得c d 音质的音乐、如何使存储介质的单位成本更小,人们 想到了压缩比特率,这就是音频压缩编码的产生原因。 音频压缩编码的主要方法可以归为三大类【1 0 】: ( 1 ) 参数编码,其码率范围从最低端的2 k b p s 至l j 6 k b p s ,特别适合处理以8 k i - i z 采 样的语音信号。 ( 2 ) 波形编码,其码率范围从1 6 k b p s 至l j 6 4 k b p s ,它支持的采样率可以从最低的 8 k h z 直到最高9 6 k h z 。 ( 3 ) 混合编码,其码率范围一般是从6 k b p s 至l j 2 4 k b p s ,它既能处理语音信号又 能处理窄带音频信号,信号一般是以8 k h z 或1 6 k h z 采样的。 参数编码是对表征声音特征的参数进行估算和编码,解码器根据这些参数来 合成声音,重建的声音在听觉上和原始声音的效果相似,但在波形上不一定和原 始声音相似,工作在较低的码率;波形编码是以重建声音和原始声音的波形相似 度来衡量的,往往工作在较高的码率;混合编码方法则综合了参数编码方法和波 形编码方法的优点,能提供更好的声音品质,其码率介于两者之间。下面分别予 以简要介绍。 2 1 1 参数编码 参数编码是对信号建立数学模型,计算表征这个模型的参数并对其编码,使 电子科技大学硕士学位论文 解码端重建的声音信号在听觉上与原始声音相似的一种编码方法。 对于语音信号,人们可以找到很好的模型来对语音信号的发生机理进行描述, 在这个模型中,发声声道用一个时变滤波器( 合成滤波器) 描述,该滤波器的输入( 声 道的激励) 可以是白噪声( 对于清音) 或者是以基音周期为间隔的脉冲序列( 对于浊 音) ,最后通过语音参数编码器产生的码速率往往在2 k b p s 左右或更低。 对于一般的音频信号,结构化音频编码正在浮出水面,这种方法属于m p e g - 4 音频标准的一部分,它的码率范围可以从0 1 k b p s 至u l o k b p s 。由于输入的音频信号是 不同音源对象产生的声音信号的叠加,所以每种音源对象都可以用一个合适的模 型来描述,结构化音频编码的方法就是把输入信号分解为对应于各个音源对象的 信号分量,然后根据各个分量对应和模型参数进行计算和编码,在解码时,首先 解码每个音源对应的声音,再把它们相加即得恢复的音频信号。 2 1 2 波形编码 波形编码是在编码的时候尽量使最终解码重建的信号在波形上与原始信号接 近的一种编码方法。这种编码方法对不同类型的音频信号都能提供高品质的重建 声音,不足之处在于码率较高。波形编码可分为时域和频域两大类。 1 时域编码 时域编码就是在时域中直接对信号编码,属于这一类的编码方法包括脉冲编 码调制( p c m ) 、自适应脉冲编码调制( a p c m ) ,差分编码调制p c m ) ,自适应差分 编码调* i j ( a d p c m ) ,增量调制旧和自适应预测编码( a e c ) 。 2 频域编码 频域编码是把音频信号从时域映射到频域,然后在频域中实施压缩编码。 由于信号能量在频域中的分布更集中,故与时域编码相比,频域方法往往能 提供更好的重建质量。频域编码又可进一步分为变换编码和子带编码两类。 变换编码大多以牺牲一定的时间分辨率来换取良好的频率分辨率。主要工作 包括s c l l r o c d c r 的m s c 、b r a n d e n b u r g 的o c f 、j o h n s t o n 的p x f m 综合编码器和 m a h i e u x 的c n e t 。所有这些工作多是为推动音频压缩标准的制定而开展的,而 i s o i e c 最终将这些工作中取得的成果归结到一个算法中,即自适应频域感知熵编 码,简称a s p e c 。该算法被成功地用于i s o i e cm p e g 1 和m p e g 2 的音频编码标 准之中。 子带编码是采用带通滤波器组把听觉范围内的信号( 2 0 h z 2 0 k n z ) 分割成很多 6 第二章m p e g - 4a a c p l u sv 2 音频编解码算法 子带,再对抽选后的信号进行编码。子带方法中信号往往被划分为较少的频带, 如在m p e g 1 的第一层和第二层音频编码器中信号只被分割为3 2 个子带。另外,子 带方法中分析合成滤波器组只是近似完整重建,而变换方法中的分析合成滤波器 组( d f t ,d c t ,m d c t ) 贝t j 具备完整重建条件。 2 1 。3 混合编码 混合编码兼具波形编码和参数编码的特征。一方面,它要对声音信号建立描 述模型并对模型参数进行计算和编码,具有参数编码的特征;另一方面,它还要 对原始信号波形与重建信号波形的误差进行编码,以使最终重建波形和原始波形 更加接近,在这一点上又具有波形编码的特征。 在语音编码领域中最成功的混合编码方法是码本激励线性预钡t j ( c e l p ) 编码。 c e l p 是基于分析合成方法、感觉加权、矢量量化( v q ) 和线性预测( l p c ) 技术而构 成的一个闭环、综合和高效的语音编码系统。 2 2m p e g 音频压缩编码的发展 音频压缩编码发展至今,已有多种不同的算法标准,适用于不同的场合。m p e g 组织自1 9 8 8 年开始致力于高质量音频压缩编码标准制定开始发展至今,在音频编 码上主要有以下几个阶段: 1 m p e g 一1l a y e r1 这是m u s i c a m 算法的简化版本,编码器与解码器的复杂度都很低,但压缩比 也很低。l a y e rl 的帧长为8 m s ( 4 8 k h z 采样) ,所以最适合于演播室应用,对于压缩 比要求不高的应用,例如家庭数字磁带记录器等。 2 m p e g 一1l a y e r2 这一层算法的压缩比相对l a y e r1 有所提高,但编码器更复杂。l a y e r2 算法与 m u s i c a m 方案相同,帧长为2 4 m s ( 4 8 k h z 采样) ,它采用更精确的量化,并进一步 去除了子带量化因子的相关性,能在较低码率下获得较好的压缩质量。l a y e r2 算 法标准在消费和专业音频领域都有广泛的应用,例如v c d 伴音编码,d a b ( 数字音 频广播) 、d a w ( 数字音频工作站) 等。 3 m p e g - 1l a y e r3 这是m u s i c a m 与a s p e c 的混合算法,简称m p 3 。通过使用混合滤波器组,提 7 电子科技大学硕士学位论文 高了频域分辨率,使其更接近人耳的频域分辨率;l a y e r3 的帧长与l a y e r2 相同, 采用非均匀量化和熵编码提高编码增益来降低码率;l a y e r3 还使用了比特池技术 进行变码率控制,促使比特数更有效的分配。l a y e r3 适用于电信通讯,例如窄带 i s d n 、卫星链路和卫星d a b 系统等,另外一个最突出的应用为m p 3 网络音乐。 4 m p e g 2b c 标准 随着对多声道、环绕立体声应用的需求,音频编码也由单声道、立体声向多 声道编码扩展,m p e g - 2b c ( b a c k w a r d s c o m p a t i b l e ) l i p 是对m p e g 1 的扩展。通过 如下矩阵置换: k = l + a + c + b + l l 及_ i h a + c + b + k ( 【噜和表示左、右环绕声道,c 表示中央声道) m p e g 1 解码器可以解m p e g - 2b c 的码流。m p e g 2b c 中,根据m c ( m u l t i c h a n n e l ) 的不同扩展,分为三个层次,与m p e g 。1 一样,m p e g 2b c 的第三 层扩展最为灵活,扩展声道数可以灵活选择。 5 m p e g - 2a a c 1 9 9 4 年,在d e u t s c h et e l e k o m 和b b c 举行的测试中,m p e g 1b c 标准在 3 2 0 k b p s 5 c h 时不能达到欧广联的广播音质要求,鉴于这种情况,m p e g 组织开始致 力于非后向兼容的音频压缩标准的制定,这就是先进的音频压缩编码标准 ( a d v a n c e da u d i oc o c l i n g ,简称a a c ) ,a a c 具有以下特点: ( 1 ) 支持采样率包括4 8 ,4 4 1 ,3 2 k h z 。 ( 2 ) 支持出入声道数配置包括i 0 ( 单声道) 、2 0 ( 立体声) 和其它多声道配置,例 如3 2 + 1 配置( 环绕立体声加超重低音) ,最多可支持4 8 个声道编码。 ( 3 ) 支持从多声道码流中复制出较少声道的信号。 ( 4 ) 在3 8 4 k b s 5 1 条件下,达到r f u - r 广播音质。 ( 5 ) 预先定义接入单元,使剪辑粒度最小化。 ( 6 ) 在误码环境下保持正确的同步,并支持误码隐藏。 a a c 系统开发以模块为基础,而m p e g 2b c 及m p e g 1 是以整个系统为基础 的,所以,在有利于提高整个系统的前提下,a a c 的每个模块或工具都可以单独 优化。如果不同的方法获得相同的改进质量,则其它标准,例如复杂度、可剪辑 度、可调整度、误码健壮性等因素将被纳入考虑范围。 6 m p e g - 4 伴音标准 m p e g - 4 是m p e g 2 基础上的扩展,它被称为“全能”标准。在音频方面, m p e g - 4 将以前分离的高质量音频压缩编码、语音编码和计算机音乐融合。通过 第二章m p e g - 4a a c p l u sv 2 音频编解码算法 m p e g 一4 音频编码,可以存储或传输以下信息: ( 1 )高质量音频信号( 单声道、立体声和多声道) 。 ( 2 )中间质量音频信号。 ( 3 ) 宽带语音信号( 如7 k h z 带宽) 。 ( 4 )窄带语音信号。 ( 5 )可理解语音信号。 ( 6 )合成语音信号( 如文本合成语音) 。 ( 7 ) 合成音频。 m p e g - 4 是现阶段所能提出的音频视频标准的最高目标,具有智能化和全面 性等特点。在高质量音频压缩方面,a a c 1 1 1 【1 2 1 【1 3 】【1 4 】、a a e p l u sv l t l 5 】【、a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论