




已阅读5页,还剩74页未读, 继续免费阅读
(通信与信息系统专业论文)基于dsp的enhanced+aacplus音频编码算法的实时实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着多媒体技术的迅速发展,有限的存储空间和传输带宽要求对庞大的数据 量进行压缩,音视频压缩技术应运而生。a a c 音频编码标准是伴随m p e g 系列 标准诞生的音频压缩编码技术,具有高压缩率和高压缩质量的特点,不仅作为 m p e g - 4 标准的伴音编码标准,而且已经成为3 g 技术推荐的音频压缩编码技术 之一,得到了各方面的支持,有着很好的应用前景。 多媒体技术的快速发展需要有高速运算能力的处理器来完成大量数据的实 时处理,d s p 处理器的出现解决了这一问题。在多媒体信息处理领域中,基于 d s p 平台的解决方案是在功耗、灵活性、性能和开发成本上较为均衡的一种选择。 美国模拟器件公司( a d i ) 推出的b l a c k f i n 系列d s p 处理器是专为满足当今音频, 视频,通信应用等方面的计算需求和低功耗而设计的,在单个芯片和开发平台上 融合了d s p 信号处理、r i s c 控制处理和音视频处理功能,非常适合a a c 音频 压缩等领域的开发应用。 本论文对最新的e n h a n c e da a c p l u s 音频编码技术进行了深入的分析和介绍。 并对算法实现的a d s p b f 5 3 3 平台进行了简要的介绍。本课题的主要工作是通 过对e n h a n c e da a c p l u s 音频压缩编码算法进行程序移植和大量的优化工作,最终 实现算法的实时音频编码功能。 高效音频压缩编码技术具有广泛的应用领域,基于d s p 的音频压缩技术的研 究与实现具有非常重要的意义和应用价值。 关键词音频编码;e n h a n c e da a c p l u s ;a a c ;d s p ; a b s t r a c t w i t ht h et r o td e v e l o p m e n to fm u l t i m e d it e c h n o l o g y , i t sn e c e s s a r yt oc o m p r e s s h u g ed a t ab e c a u s eo ft h el i m i t a t i o no fm e m o r ys p a p a n dt r a n s f e r sb a n d w i d t h t h e t e c h n o l o g yo fa u d i oa n dv i d e oc o d i n gc 锄ei n t ob e i n ga c c o r d i n g l y t h ea a c a u d i o c o m p r e s s i o ns t a n d a r dw a sd e v e l o p e d 、i t ht h es e r i e ss t a n d a r d so fm o v i n gp i c t u r e e x p e r to r o u p ( m p e 6 ) o fi n t e r n a t i o n a ls t a n d a r d i z a t i o no r g a n i z a t i o na n di m e m a t i o n a l e l e c t r o n i c sc o m m i t t e e i t sh i g he f f i c i e n c ya n dh i g hq u a l i t ym a k si tn o to n l ya p p l i e d a st h ea s s o c i a t e da u d i os t a n d a r do fm p e gs t a n d a r d , b u ti tb e c o m et h er e c o r m n e n d e d a u d i oc o m p r e s s i o nt e c h n i q u ei n3 gs t a n d a r d i ti ss u p p o r t e db ym a n yc o m p a n ya n d h a v ea b r i g h tf u t u r e t h er a p i dd e v e l o p m e n to fm u l t i m e d i an e e d ss t r o n gc o m p u t i n gp r o c e s s o r st od e a l w i t hh u g ed a t ai nr e a l - t i m e d s pp r o c e s s o rc a l lh a n d l ei t i nm u l t i m e d i ap r o c e s s i n g s y s t e m , t h ea p p l i c a t i o nb a s e do nd s pi sab a l a n c e dc h o i c eo np o w e rc o n s u m p t i o n , f l e x i b i l i t y , p 而皿a 咄a n dc o s t t h es e r i e so fa d ib l a c k f i nd s p a r cd e s i g n e d s p e c i a l l yf o rl o w e rp o w e rt om e e tt h er e q u i r e m e n t sn o w a d a y sa u d i o ,v i d e oa n d c o m m u n i c a t i o n a p p l i c a t i o n s t h ep r o c e s s o rc o m b i n e sd s p , r i s ca n da u d i o p r o c e s s i n g i t sv e r ys u i t a b l et or e s e a r c ha n dd e v e l o p a a c a p p l i c a t i o n s t h i sp i p 盯a n a l y z e st h ea l g o r i t h mo fe n h a a c e aa a c p l u sa u d i oc o m p r e s s i o na n d t a k eas h o r ti n t r o d u c t i o nt ot h ei m p l e m e n t a t i o np l a t f o r ma d s p b f 5 3 3d s et h e p a p e ra l s oi n t r o d u c e st h ep r o c e s so ft h et r a n s p l a n t i n ga n do p t i m i z i n go fe n h a n c e d a a c p l u sa l g o r i t h mo nd s p , a n df m a n yi tc a np r o c e s si nr e a l t i m ea f t e rn u m e r o u s o p t u n i z i n gw o r k s 皿曲e f f i c i e n c ya u d i oc o d i n gt e c h n o l o g yh a sb r o a du 端t h er e s e a r c ha n d i m p l e m e n to fa u d i oc o d i n ga l g o r i t h mb a s e do nd s p h a v ev e r yi m p o r t a n ts i g n i f i c a n c e b o t hi nt h e o r ya n dp r a c t i c e k e y w o r d sa u d i oc o d i n g ;e n h a n c e da a c p l u s ;a a c ;d s p 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) e t l 9 i :竺:! :! 北京工业大学丁学硕士学位论文 皇j n m 曼量皇鼍皇摹曼量量曼吕| 皇一 1 1 选题的意义 第1 章绪论 2 l 世纪的人类社会将是信息化社会,数字化是这个信息社会的一大显著特 征。在社会的数字化过程中,数字化后的多媒体信息,尤其是数字化后的视频和 音频信息具有数据海量性,它给存储器的存储容量、通信干线的信道传输率以及 计算机的速度都增加了极大的压力,给信息的存储和传输造成较大的困难,成为 阻碍人类有效地获取和使用信息的瓶颈问题之一。解决这问题的办法,若单纯 从扩大存储器容量、增加通信干线的传输速率考虑是不现实的,所以如何减少处 理和传输的数据量就成为一个关键的技术问题。相应,作为人类可以直接感知的 多媒体信息的主要部分的音频和视频信息也就成为信号处理领域的主要研究内 容。 通过对多媒体信号的分析可以发现,音频信号等多媒体数据包含了大量的冗 余信息,这些冗余信息的存在使音频信号的压缩编码成为了可能。首先,音频信 号有极强的相关性,也就是说数据在短时或长时内存在一定的统计可预测特性, 通过进行相应的预测分析和处理,可以通过一段数据来预测另外的数据,并且音 质不会有明显的降低,这样就能在不损失音质的情况下减小数据的体积,达到压 缩的目的。其次,人耳的听觉具有掩蔽效应,并且对不同频段声音的敏感程度不 同,对低频段较之高频段更敏感,对语音信号的相位变化不敏感。这些入耳不敏 感的数据也可以看作是冗余的,通过分析处理去除这些冗余数据是现代音频编码 技术的关键技术之一。 由此可见,多媒体数据压缩不仅是必要的而且是可能的。采用适当的数据压 缩技术是个行之有效的方法,通过数据压缩手段减少信息数据量,将信息以压缩 形式存储和传输,既节约了存储空间,又降低了对通信干线传输效率的要求,有 着很高的科研价值。 a a c 这种被誉为。2 l 世纪数据压缩方式”的音频压缩算法,压缩比可达2 0 :1 , 远远超过了m p 3 等较老的音频压缩算法,其音频编解码充分综合了各种音频编 解码的优点,特别是在低速率数据传输的情况下可实现高质量的输出。相较予 m p 3 ,a a c 具有压缩比高,重建音质好,编解码过程模块化,声道配置灵活等 特点,其重建音质可以同未压缩的c d 音质相媲美。因此,a a c 在数字存储、 h t e m e t 多媒体传输、数字音频广播等领域正获得日益广泛的应用。 d s p 是为满足快速数字信号处理要求而发展起来、专门用于数字信号处理的 第1 苹绪论 处理器,具有特殊的硬件电路结构和适于信号处理的指令集。通用定点d s p 因 成本低、存储要求低、运算速度快及耗电少,非常适合于用作音频信号处理。以 通用定点d s p 处理器构架的编解码系统一方面可以支持多种音乐格式的编解码, 并可容易地扩展其它应用功能;另方面它具有开放、灵活的软件体系结构,支 持软件功能的升级,这对于目前飞速发展的音频编解码算法来说是非常重要的。 基于定点d s p 的a a c 实时编解码系统的研究和实现为便携式消费电子产品的发 展奠定了基础,可以使人们在相同的存储容量下,存储更多的音乐,获得更高的 音质。 1 2 选题的背景 1 2 1 音频压缩编解码基础及发展现状 1 2 1 1 音频压缩编解码技术基础 在当前通用音频编码标准中,大多数的标准算法通过对不同频率范围内的频 谱系数使用不同的心理声学参数来控制频谱系数的量化精度,从而实现音频信号 压缩。一般的通用音频编码原理如图1 1 所示【3 】。 频域 码流 参数。 堡翠兰善 熵编码 多路复 ,无损 附加 合器 编码 叁 m u x 图1 1 音频编码原理框图 f i g m e l la u d i oc o d i n gs c h e m a t i cd i a g r a m 由上图可知:输入信号分成两路,一路经时间频率分析滤波器进行时域到频 域的转换,输出频域参数;另一路输入信号经心理声学模型模块进行心理声学参 数计算。a a c 编码中采用的是心理声学模型2 ,具体步骤是:先实现加窗f f t ( 快速傅立叶变换) 将信号从时域变换到频域,然后在频域范围内分析每个关键 子带的掩蔽阈值特性,分析出每个关键子带的有调和无调成分,并将其与频域扩 展函数进行卷积运算,计算出每个关键子带的掩蔽阈值,然后在缩放因子带的范 围内计算每个缩放因子带的掩蔽阈值参数。比特分配模块决定对每个缩放因子带 采用多大的子带缩放因子和对整个音频帧采用多大的全局缩放因子进行编码。将 比特分配模块输出的子带缩放因子和全局缩放因子进行非均匀量化,量化后的数 据经墒编码模块进行h u f f m a n 无损编码,最后将编码后的码流数据和边信息经 m u x 打包成标准音频帧。 北京工业大学t 学硕上学位论文 数字音频编解码技术发展到现在,已经出现了各种不同的技术。一般将音频 压缩编解码技术分为无损( l o s s l e s s ) 编码及有损( l o s s y ) 编码两大类,而按照 具体编码方案的不同,又可将其划分为波形编码、子带编码、变换编码、参数编 码,以及多种技术相互融合的混合编码等等。对于各种不同的编码技术,其算法 的复杂程度( 包括时间复杂度和空间复杂度) 、重建音频信号的质量、算法效率 ( 即压缩比例) 以及编解码延时等都有很大的不同,应用场合也因之而各不相同。 ( 1 ) 波形编码技术 波形编码是指直接针对音频p c m 码流的采样值进行处理,通过静音检测、 非线性量化、差分等手段对码流进行压缩编码。它主要利用音频样值的幅度分布 规律和相邻样值间的相关性进行压缩,目标是力图使重建后的音频信号的波形和 原音频信号波形一致。由于这种编码保留了信号原始样值的细节变化,从而保留 了信号的各种过渡特征,所以波形编码适应性强,算法复杂度低,声音质量好, 压缩比小( c d 音质 4 0 0 k b p s ) ,编解码延时最短( 相对其它技术) 。一般多用于 语音的压缩编码,低码率应用( 源信号带宽小) 的场合。常见的波形编码技术主 要包括g 7 1 1 、自适应差分脉冲编码调制( a d p c m ) 、线性预测编码( l p c ) , 以及在这些技术上发展起来的块压扩技术如n i c a m ,子带a d p c m 技术如 g 7 2 1 ,c 7 2 2 。,a p t - x 等州。 ( 2 ) 子带编码技术 子带编码技术原理如图1 2 所示 3 1 。 图l - 2 子带编码器原理图 f i g u r e l - 2s u b b a n dc o d i n gs c h e m a t i cd i a g r a m 子带编码技术是一种以子带编码理论为基础的编码方法。子带编码理论最早 是由c r o c h i e r e 等人于1 9 7 6 年提出的。其基本思想是首先使用一组带通滤波器 b p f ( b a n d - p a s sf i l t e r ) 将输入的音频信号分解为若干连续的频段,每个频带称为 第l 章绪论 子带,然后对各子带分量根据其不同的分布特性采取不同的编码策略以降低码 率。子带编码技术和变换编码技术都是根据人对声音信号的感知模型( 心理声学 模型) ,通过对信号频谱的分析来决定子带样值或频域样值的量化阶数和其它参 数选择的,因此又可称为感知( p e r c e p t m l ) 编码技术。子带编码技术相对波形 编码技术而言要复杂得多,同时编码效率、声音质量也大幅提高,编码延时相应 增加。一般来讲,子带编码的复杂度要略低于变换编码,编码延时也相对较短。 ( 3 ) 变换编码技术 变换压缩技术与子带压缩技术的不同之处在于该技术对一段音频数据进行 “线性”变换,对所获得的变换域参数进行量化、传输,而不是把信号分解为几 个子频段。通常使用的变换有d f t ,d c t ( 离散余弦变换) 、m d c t 等。根据信 号的短时功率谱对变换域参数进行合理的动态比特分配可以使音频质量获得显 著改善,而相应付出的代价是计算复杂度的提高。变换编码原理如图1 3 所示。 图1 3 变换编码技术原理图 f i g u r e l - 3t r a n s f o r mc o d i n gs c h e m a t i cd i a g r a m ( 4 ) 参数编码技术 与传统的音频编码方法相比,参数音频编码对音频信号源的模型和听觉模型 进行了拓展。这种编码方法假设音频信号是由不同种类的信号成分叠加而成的, 每一种信号成分都可以用一种相对简单的音源模型和一组数目较少的参数来表 示,同时使用听觉模型,使解码端重建的输出信号尽量在听觉上与编码端的输入 信号一致。 目前,参数编码的研究已用于宽带音频编码,最近研究成果有频带复制技术 ( s b r ) 和参数立体声( p a r a m e t r i cs t e r e o ,p s ) 编码技术,以及双耳线索编码技 术( b i n a u r a lc u ec o d i n g , b c c ) 等等。它们和最新的感知音频编码器相结合,具 北京工业大学t 学硕l :学位论文 有很高的编码效率,能在低比特率下提供高品质的音频嘲。 1 2 。1 2 音频编解码码技术发展现状 早在2 0 世纪7 0 年代,英国、日本等广播部门就开始研究数字音频压缩编 码。1 9 8 0 年前后,英国b b c 提出了准瞬时压缩编码( n i c a m ) 的方法,1 9 8 6 年初英国政府批准用于地面电视广播声的n i c a m - 7 2 8 标准,即通称的“丽音”。 1 9 8 6 年欧洲议会提出的e u r e k a1 4 7d a b 计划时,新的称为多子带综合音频编码 ( m u s i c a m ) 被提出。 1 9 8 8 年i s o 成立m p e g 组织,制订第一个m p e g - 1 标准,1 9 9 2 年标准获得 批准,标准代号是i s o i e c1 1 1 7 2 全名是“1 5 m b p s 运动图像和音频存储和恢复”。 标准的第三部分是音频编码,音频编码又分l a y e r l ,l a y e r 2 和l a y e r 3 三种,l a y e r 2 采用m u s i c a m 算法,l a y e r l 是m u s i c a m 的简化,l a y e r 3 采用一种效率更高 的算法,压缩比达1 2 :1 ,每声道为6 4 k b p s ,现在都称为m p 3 。 1 9 9 0 年前后是音视频压缩编码研究最活跃的时期,音频编码除m p e g 标准 外还有一些行业或公司自行制订的标准、如a c - 3 ,d t s ,p a c ,a t r a c 等。1 9 9 7 年4 月i s o 通过了m p e g - 2 音频编码标准、编号i s o i e c1 3 8 1 8 7 。此后,m p e g 组织继续推出了m p e g - 4 标准,对m p e g - 2 中采用的a a c 进行了补充和增强, 推出了m p e g - 4a a c 。随着多媒体技术的广泛应用,各国际组织、各大公司竟 相开发数字音频信号的压缩编码技术。使音频压缩技术得到了很大的发展,目前 国际上存在多种音频压缩技术,比较常见的有w a v 波形编码,1 9 9 3 年由德国 f r a t m h o f e ri i s 研究院和汤姆生公司合作开发的m p 3 音频编码方案,瑞典c o d i n g 科技公司开发的m p 3 p r o ,美国m i c r o s o i t 公司开发的w m a ,r e a ln e t w o r k s 公司 的r e a l a u d i o ,还有o g g ,m p c 等许多音频压缩编码技术。这些技术各有各的 优势,都有着广泛的应用【l j 。 而作为m p e g 标准主推的a a c 音频编码算法,随着m p e g 标准的发展不断 发展,从m p e g - 2a a c 到m p e g - 4 a a c 再到a a c p l u s ,h e - a a c 等,经过了不断 的增强,不仅应用在m p e g 系列视频的伴音编码,而且也已经开始作为音乐存 储和播放的音乐格式,并且随着3 g 的推广,a a c 已经成为了3 g 手机标准的音 乐格式之一,得到了n o k i a 等多家厂商的支持。而作为a a c 最新版本的 e n h a n c e da a c p l u s 编码器,具有着更加优秀的表现,它在m p e g - a a c 编码器的 基础上增加了用于高频重建的s b r 技术和用于增强低比特率立体声压缩效率的 p s ( 参数立体声) 技术,使它可以在极低的码率下编码出高质量的码流。相信不 久的将来,其必将凭借优秀的压缩品质成为音频编码技术的首选格式。 第j 章绪论 1 2 2d s p 技术及其发展 d s p ( d i g i t a is i g n a lp r o c e s s o r ) 芯片,也称作数字信号处理器,是一种特别适 合于进行数字信号处理运算的微处理器,主要用于实时快速的实现各种数字信号 处理算法。为此,d s p 除了具备普通微处理器所强调的高速运算、控制功能外, 还针对实时数字信号处理,在处理器结构、指令系统、指令流程上做了很大的改 动。 1 2 2 1d s p 技术及其特点 数字信号处理是利用计算机或专用处理设备,以数字形式对信号进行采集、 变换、滤波、估值、增强、压缩、识别等处理,以得到符合人们需要的信号形式。 d s p 器件就是为了满足数字信号处理而制造的一类专用微处理器,一般具有以下 特点: 采用哈佛结构或改进的哈佛结构。 采用流水线操作。 具有硬件乘法器和高效的乘法指令。 具有专有的适合信号处理的指令集。 主频高,性能好,指令周期短。 一般采用多总线结构。 具有c a c h e 和多级存储器结构。 具有丰富的外设接口。 低功耗的结构设计。 1 2 2 2d s p 发展及主要生产厂商 d s p 发展历程大致分为三个阶段:7 0 年代理论先行,8 0 年代产品普及,9 0 年代突飞猛进。在d s p 出现之前数字信号处理只能依靠m p u ( 微处理器) 来完 成。但m p u 较低的处理速度无法满足高速实时的要求。因此,直到7 0 年代, 有人才提出了d s p 的理论和算法基础。那时的d s p 仅仅停留在教科书上,即便 是研制出来的d s p 系统也是由分立元件组成的,其应用领域仅局限于军事、航 空航天部门。 随着大规模集成电路技术的发展,1 9 8 2 年世界上诞生了首枚d s p 芯片。这 种d s p 器件采用微米工艺n m o s 技术制作,虽然功耗和尺寸稍大,但运算速度 却比m p u 快了几十倍,尤其在语音合成和编解码器中得到了广泛应用。d s p 芯 片的问世是个里程碑,标志着d s p 应用系统由大型系统向小型化迈进了一大步。 至8 0 年代中期,随着c m o s 工艺技术的迸步与发展,第二代基于c m o s 工艺 的d s p 芯片应运而生,其存储容量和运算速度都得到成倍提高,成为语音处理、 北京t 业大学t 学硕士学位论文 图像硬件处理技术的基础。 8 0 年代后期,第三代d s p 芯片问世,运算速度进一步提高,其应用于范围 逐步扩大到通信、计算机领域。 9 0 年代d s p 发展最快,相继出现了第四代和第五代d s p 器件。现在的d s p 属于第五代产品,与第四代相比,系统集成度更高,将d s p 芯核及外围元件综 合集成在单一芯片上。这种集成度极高的d s p 芯片不仅在通信、计算机领域大 显身手,而且逐渐渗透到人们日常消费领域。 经过2 0 多年的发展,d s p 产品的应用已扩大到人们的学习、工作和生活的 各个方面,并逐渐成为电子产品更新换代的决定因素。目前,对d s p 爆炸性需 求的时代已经来临,前景十分可观。 目前d s p 的主要生产厂商主要有两家:1 r i 和a d i 公司。 1 i ( t e x a sl n s m u n e n t s ) 公司是d s p 业界公认的龙头老大。1 1 产品遍及全球, 每2 个数字蜂窝电话中就有1 个采用1 1 产品,全世界9 0 0 4 的硬盘和3 3 的 m o d e m 均采用1 id s p 技术。可以这么讲,1 1 将未来的前途押在d s p 事业上 1 1 的主要产品包括主流的t m s 3 2 0 c 5 0 0 0 系列,高档的1 m s 3 2 0 c 6 0 0 0 系列和专 用于多媒体领域的o m a p 系列等。 a d i ( a n a l o gd e v i c e si n c 模拟器件公司) 紧紧瞄准d s p 技术的发展方向,不 断开发新产品,并声称在每一个d s p 市场上与1 1 公司较量,力争成为d s p 业界 的i n t e l 。a d i 制定了一系列计划并进行了广泛宣传,以通过大量消费类设备来定 位自己的客户对象和应用方向a d i 另一个重要目标是车载移动电话设备,在该 领域, a d i 处于领先地位。近年来,a d i 公司不断加大d s p 的投入,尤其是在2 0 0 6 年开始举办的a d i 全国创新电子设计竞赛更是为其d s p 进行了很好的宣传。通 过竞赛的方式推动了a d id s p 在中国的发展。此外a d i 还在全国多家大学建立 了d s p 实验室和技术中心,以推进其d s p 的发展,尽快赶上并超过1 1 公司。 a d i 公司的主要d s p 产品包括定点的a d s p b l a c k f i n 系列,浮点的s h a r k 系列和 高性能浮点的 i g e rs h a r k 系列等。 此外,还有其他的一些d s p 生产厂商,如m o t o r o l a ,朗讯等等,但是这些厂 商的d s p 一般应用范围比较专一,所以并不为大众所熟悉。但是,这些d s p 在 其应用的领域内也都有着优秀的表现。 l 。3 论文的组织结构和主要的研究工作 本论文主要依据时代发展对多媒体信息存储和传输的要求,对现行的音频压 缩编码技术进行调研,并结合当代迅速发展的d s p 处理器技术,提出了在高性 能的a d s p - b f 5 3 3d s p 开发平台上上实现高压缩比,低码率,高质量的e n h a n c e d a a c p l u s 音频编码技术的方案。对a a c 音频编码技术进行了原理阐述,并特别对 第l 章绪论 目前最优秀的e n h a n c e d a a c p l u s a a c 编码技术进行了详细的技术分析,同时介绍 了a d i 公司的b l a c k f i n 系列d s p 处理器,并对b f 5 3 3d s p 芯片及其开发平台和 开发环境进行了详细的说明。 论文的组织结构安排如下: 第l 章绪论:主要说明论文研究的背景及意义,介绍了音频编码技术的基 础原理和目前主要的音频压缩技术,同时对d s p 技术的发展及特点做了基础性 的介绍。 第2 章e n h a n c e da p l u s 音频编码技术;对e n h a n c e da a c p l u s 音频压缩编码 技术的原理进行说明。 第3 章e n h a n c e da a c p l u s 音频编码算法的d s p 实现:在a d s p - b f 5 3 3d s p 平台上对e n h a n c e da a e p l u s 音频编码算法进行实现和初步优化。 第4 章e n h a n c a da a c p l u s 编码器的d s p 优化:对e n h a n c e da a c p l u s 音频编码 算法程序在a d s p - b f 5 3 3d s p 上的优化过程进行详细说明,并对实现结果进行 测试分析说明。 论文主要完成工作: ( 1 ) 调研了音频压缩编解码技术的原理及主要的音频编解码算法,对a a c 音频编码技术进行了详细的说明。 ( 2 ) 调研了d s p 市场状况,对a d i 公司的b l a c k f i n 系列d s p 进行了说明。 ( 3 ) 在a d s p b f 5 3 3d s p 开发平台上实时的实现了e n h a n c e da a c p l u s 音频 压缩算法,并对程序进行了有效的优化。 1 4 本章小结 本章主要对选题的意义和背景进行了说明,主要涉及两大部分,首先对当今 社会音频编码技术的发展现状及目前存在的主要音频编码技术进行简单介绍,其 次对d s p 技术的发现现状和d s p 技术的主要特点进行了简要的介绍。通过这两 部分内容的介绍,说明了基于d s p 技术的音频编码算法的实时实现的必要性和 可行性。 本章最后对本论文的组织结构进行了简要的介绍。 北京工业大学t 学硕f :学位论文 第2 章e n h a n c e da a c p i u s 音频编码技术 2 1e n h a n c e da a c piu s 音频编码技术简介 m p e ( 圯,4a a cl c 和s b r 带宽扩展工具的结合构成a a c p l u s ,在m p e g _ 4 中作为第1 0 部分的高效音频编解码标准( h i 曲e f f i c i e n c y a d v a n c e d a u d i o c o d i n g , h e - a a c ) 。a a c p l m 编码技术的提出,不是替代m p e g _ 4a a c ,而是作为一个超 集,能在更低比特率下获得高质量的m p e g - 4 音频。它可以向下兼容传统m p e g - 4 a a c 。由于结合了s b r 技术,a a c p l u s 能在4 8 k b p s 的比特率下获得c d 音质的立 体声,在1 2 8 k b p s 下获得5 1 声道的环绕立体声效果目前a a c p l u s 已被3 g p p 2 , i s m a ( 国际流媒体联盟) 、d v b ( 数字视频广播) 、d v d 论坛、d r m ( 世界性 数字广播) 等组织所采纳。作为m p e g - 4 音频标准的一个完整的部分,a a c p l u s 已经成为最新视频编码标准m p e g - 4 第l o 部分( h 2 6 4 a v c ) 的完美搭配。 当参数立体声( p s ) 工具结合到a a c p l u s 中,就构成了e n h a n c e da a c p l u s ,也 被视为h e - a a cv 2 ,或者a a c p l u sv 2 。e n h a n c e da a c p l u s 的最佳工作范围是 i g k b p s 以上的比特率。2 0 0 4 年9 月,e n h a n c e da a c p l u s 作为高质量音频编码标准, 被第三代移动通讯合作方案( 3 r dg e n e r a t i o np a t t n a s h i pp r o j e c t ,3 g p p ) 所采纳, 而且它的所有组成构件也成为m p e g - 4 音频标准的一部分。s b r 是一种独特的 带宽扩展技术,使用该技术进行音频编码,在同等质量下可节省一半的比特率, 而p s 能显著地提高低比特率立体声信号的编解码效率。如图2 1 所示为e n h a n c e d a a c p l u s 的编码器的组成框图l 加j 。 图2 - 1e n l m a c e da a c p l u s 编码器组成框图 f i g u r e 2 - 1e n h a n c e da a c p l u se n c 脚e rs y s t e md i a g r a m 第2 章e n h a a c e da z c p l u s 音频编码技术 2 1 1e n h a n c e da a c p lu s 音频编码器编码流程 本文中e n h a n c e da a c p l u s 编解码系统的实现采用了3 g p p 组织提供的开源 e n h a n c e da a c p l u s 编码源程序,参考了m p e g - 4 音频i s o 标准,以及开源参考软 件f a a c 的实现方案,核心a a c 编解码器采用低复杂度( l c ) 模式。 e n h a n c e da a c p l u s 编码器由m p e g - 4a a cl c 核心编码器,s b r 高频重建编 码工具和p s 编码工具组成。编码器工作在双速率模式,其中s b r 系统工作在原 始采样率,面核心a a c 编码器工作在原始采样率的一半。而p s 工具则适用于 低比特率立体声编码,例如在比特率低于3 6 k b p s 时。 编码器结构如图所示。输入的p c m 时域信号首先进入降混音单元。该单元 只在输入是立体声信号而选中的音频编码模式是单声道时使用。然后进入一个无 限脉冲响应( i n f i n i t e i m p u l s e r e s p o n s e f i r ) 重采样滤波器。该采样器的目的是在 输入采样率和编码采样率不同时,调整输入采样率到适合编码处理的最佳采样 率。d r 重采样器可以是一个3 :2 降采样器( 例如从4 8 k h z 降采样到3 2 k h z ) 或 者是一个2 :1 升采样器( 例如从 6 k h z 升采样到3 2 k h z ) 。鉴于s b r 编码器工作 在从i i r 重采样器传来的编码采样率上,而a a c 核心编码器工作在它的一半, a a c 核心编码器的输入前端需要一个2 :i t 降采样器。 s b r 编码器由一个分析正交镜像滤波器( q u a d r a t u r em i r r o rf i l t e rq m f ) 组 构成,该滤波器组用来得到原始输入信号的频谱包络。s b r 相关模块控制选择 输入信号在时间角度上对q m f 采样进行的自适应网格区分,分析在高频带中噪 声层和音调成分的关系,收集在解码器端用于变换处理的指导信息,侦测不能通 过纯变换重建的丢失掉的谐音成分。这种关于输入信号特征的采集信息,加上频 谱包络数据就形成了s b r 流。 在立体声比特率低于3 6 k b p s 时,使用p s 编码工具;在立体声比特率等于或高 于3 6 k b p s 时,使用正常的立体声编码工具。p s 编码工具估计输入信号中可感知 立体声影像的特征化参数。这些立体声参数是嵌入在s b r 流中的。同时,在q m f 域生成输入信号的一个自适应单声道降混音信号,它被送给s b r 编码器进行单 声道处理。这个降混音信号也通过一个降采样的q m f 合成滤波器组处理,来获 得a a c 核心编码器的时域输入信号。在这种情况下,2 :1f i r 降采样器未被激活。 最终s b r 流( 包括p s 数据) 嵌入到a a c 流中以一定格式送出。e n h a n c e da a c p l u s 编码算法流程如图2 - 2 所示嘲。 e n h a n c e da a c p l u s 编码器主要包括了以下三个部分的内容: m p e g - 4a a cl c 核心编码器。 s b r ( s p e c t a lb a n dr e p l i c a t i o n 频段复制) 高频重建编码工具。 p s ( p a r a m e t z i cs t e r e o 参数立体声) 编码工具。 北京工业大学丁学硕 :学位论文 后面将对这三个部分分别进行介绍。 比 特 流 复 用 图2 - 2e n h a n c e da a c p l u s 编码器流程图 f i g u r e 2 2f l o wc h a r to f e n h a n c e da a c p l u se n c o d e r 2 2m p e g - 4a a cl 0 编码器主要算法模块介绍 2 2 1m p e g - - 4 从cl c 编码器的主要算法流程 a a c 编码器是a a c p l u , 沦系统中最核心的编码算法,它的输入采样率只有 a a c p l u s 输入信号采样率的一半。a a c p l u s 系统中采用了a a cl c 的算法层,所以 工程中没有长时预测( l t p ) 模块,并且限制了输入最高为两声道音频数据。此 外,在采用s b r 编码时,a a c 的采样率最高限制为2 4 k h z ,而在不使用s b r 编 码时,a a c 的最高采样率可以到4 8 k h z | 3 m 。 m p e ( “a a cl c 编码器编码流程如图2 - 3 所示嗍。 m p e g - 4 a a c l c 处理的音频数据为每声道每帧1 0 2 4 个采样点的p c m 格式。 由图可知,i v i p e g - 4a a cl c 的编码流程为:输入的音频时域信号首先通过立体 声处理模块,在设定的编码率低于6 0 k b i t s 时去除立体声中难于编码的部分。然 后经过立体声处理的音频数据通过滤波器组分解出亚采样频谱,同时通过感知模 块中的心理声学模型得到信掩比( s i g n a l - t o - m a s kr a d i o ,s m r ) ,确定变换块的类 型。另外,心理声学模型还输出 i n s 所需的感知熵,中间边立体声( m s ) 和 强度立体声( i s ) 处理所需的控制信息。时域噪声整形( t n s ) 模块对滤波器组 输出的部分谱线进行线性预测( l p c ) ,用得到的残差信号代替原谱线。t n s 控 制噪声在时域窗内的分布形状,获得编码增益。i s 模块利用人耳对高频信号的 相位不敏感的特点,只传输高频信号的包络,大大降低了所需比特数。p n s 模块 对包含超过较低边界频率的频谱系数的每个比例因子波段进行噪声检测。m j s 模 块以和信号m 与差信号s 代替左右声道信号。采样频谱经过去噪声、减少左右 声道冗余及相继帧冗余后进入量化编码阶段,在这个阶段信号才能得到真正的数 据压缩。在量化过程中,对给定的数据码率利用信掩比计算出每个缩放因子的最 第2 章e n h a n c e da a c p | u s 音频编码技术 佳量化步长。使量化噪声低于掩蔽阚值。量化频谱和缩放因子数据通过无噪声编 码( h u f f m a n 编码) 得到编码后的频谱数据。这些编码后的频谱数据以及其他编码 的边信息按照规定的帧格式组装成比特数据流。 图2 - 3m p e g - 4a a cl c 编码流程 f i g u r e 2 - 3f l o wc h a r to f m p e g - 4a a c l ce n c o d e , 2 2 2m p e g - 4a a cl c 主要算法模块介绍 2 2 2 1 心里声学模型 高质量数字音频信号感知编码背后的基本思想是,把量化噪声隐藏在与信号 相关的闻阚之下。依照这种观点,在感知编码中最重要的问题是:能够把多少噪 声引入而不被听出来? 心理声学模型作为感知编码器的核心部分,其目的就是估 计最大可允许失真。掩蔽阈值估计越准确,编码效率与重构音质就越高。 m p e g 提供两种心理声学模型,一般m p l 和m p 2 使用模型1 ,而m p 3 和 a a c 采用模型2 。m p 3 和a a c 采用的模型2 两者只是在某些参数和常量上有所 不同。在模型l 中,先判定单根谱线的掩蔽属性( 音调或噪声属性) ,然后通过 北京工业大学t 学硕:l 二学位论文 联合单根谱线的掩蔽阈值来计算出全局掩蔽阈值,并非所有的谱线都用于掩蔽阈 值的计算;而在模型2 中,是以阈值计算分区为单位,来判定该分区的掩蔽属性 的,并且所有的谱线都参与了阈值计算过程,因此计算出的掩蔽阈值更为精确, 但模型因而也更复杂。模型计算出掩蔽效应的定量描述,即不同频谱范围( 比例 因子频带) 的信号掩蔽比s m r 和掩蔽阙值。根据s m r 对每个频带进行比特分 配,s m r 的值大则分配的比特数多,反之则少。量化时,在保持相应音频质量 和相应码率的同时,低于掩蔽阈值的量化噪声将被掩蔽掉,音频信号的冗余也得 以去除。 心理声学模型输入1 0 2 4 点的p c m 信号,其处理块的长度为2 0 4 8 点和2 5 6 点,时域上与上一块有5 0 的重叠 心理声学模型的计算结果用于滤波器组和量化模块。它依据当前的f i 可频谱 与前一帧f f t 频谱之间的差别度量来决定m d c t 模块中用什么类型的窗函数。 如果差别超过了一定的限度,表明现在音频信号处在非平稳态,m d c t 采用短 氲如果差别较小,表明音频信号处在准平稳态,m d c t 中就采用长窗。心理声 学模型同时还向量化模块提供信息,以决定量化模块如何来量化音频信号的频域 样值。量化的形式要求和人耳的听觉特性
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小试牛刀显身手说课课件
- 《化学反应工程》课件
- 医学肿瘤学模拟考试题及答案(附解析)
- 变电站值班员专业(理论)模拟题含答案(附解析)
- 8月建筑电焊工模拟题(含参考答案解析)
- 《春风·童趣·蝴蝶舞》教学课件
- 电机电磁兼容性考核试卷
- 谷物储存的防鼠措施考核试卷
- 玩具企业的产品测试与质量保证体系考核试卷
- 重阳节送温暖活动方案
- 【MOOC】中国税法:案例·原理·方法-暨南大学 中国大学慕课MOOC答案
- 专题04全等模型-半角模型(原卷版+解析)2
- 2024水电站输水发电系统运行安全评价导则
- 砍伐树木的劳务合同范本
- 2024年食品安全知识考试题库
- 2024年保密工作培训
- 短视频内容课件
- 品类创新学习通超星期末考试答案章节答案2024年
- 2024年黑龙江省龙东地区中考英语试卷(含答案与解析)
- GB/T 44577-2024商用电动洗碗机性能测试方法
- 抖音主播合同范本
评论
0/150
提交评论