(信号与信息处理专业论文)avs音频解码器的实现和错误隐藏算法的研究.pdf_第1页
(信号与信息处理专业论文)avs音频解码器的实现和错误隐藏算法的研究.pdf_第2页
(信号与信息处理专业论文)avs音频解码器的实现和错误隐藏算法的研究.pdf_第3页
(信号与信息处理专业论文)avs音频解码器的实现和错误隐藏算法的研究.pdf_第4页
(信号与信息处理专业论文)avs音频解码器的实现和错误隐藏算法的研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(信号与信息处理专业论文)avs音频解码器的实现和错误隐藏算法的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 中文摘要 a v s 标准是我国具有自主知识产权的第二代信源编码标准。该标准包括系统、 视频、音频、数字版权管理等四个主要技术标准和一致性测试等支撑标准。其中 的先进音视频编码( a v s ) 的音频编码,b p a v sa u d i o 是a v s 标准第三部分,主要 描述了高质量音频编解码方法。用于高分辨率数字广播、高密度激光数字存储媒 体、无线宽带多媒体通讯、互联网宽带流媒体业务支持采样率8 k h z 9 6 k h z 的单 声道或双声道p c m 信号,输出比特流为每声道1 6 k b p s 9 6 k b p s 。 本课题深入了解了a v s 信源压缩编码标准,探讨了a v s 音频压缩技术以及音频 基本流的语法和语义。对a v s 音频解码器各个模块的原理和功能进行了深入的学 习和研究,设计并用c 语言实现了a v s 音频解码器。 另外,在实际应用中由于带宽的不确定性和噪声的存在,数据在i n t e r n e t 和 无线信道中传输时会不可避免地发生丢失和误码现象。因此,本课题在解码器的 设计中加入了错误检测和错误隐藏模块,以尽量减少误码现象带来的不良影响。 实验结果证明,本文所设计的解码器不仅实现了正确解码,并且降低了c b c 解码等关键模块的运算复杂度,有效地提高了解码器的运算速度。此外,利用错 误检测和错误隐藏模块,大大提高了解码器的抗误码能力。 关键词:a v s 音频解码器错误检测错误隐藏 a b s t r a c t a b s t r a c t t h ef u l l yi n t e l l e c t u a lp r o p e r t yo fs e c o n dg e n e r a t i o ns o u r c ec o d i n g - d e c o d i n g s t a n d a r d a v si so w n e d b yc h i n a i ti n c l u d e sf o u rm a i nt e c h n i c a ls t a n d a r d s ,w h i c h a g es y s t e m , v i d e o ,a u d i oa n dd i g i t a lc o p y n g h tm a n a g e m e n t , a n ds o m es u p p o r t i n g s t a n d a r d ss u c ha sc o n s i s t e n c yv e r s i f i c a t i o n a v sa u d i oi st h et h i r dp a r to fa v s s t a n d a r d s ,w h i c hd e s c r i b e sh i g hq u a l i t ye n c o d i n ga n dd e c o d i n go fa u d i os i g n a l s a v s a u d i os u p p o r t sc o d i n go f1 a n d2 - c h a n n e ls i g n a l sw i t haw i d er a n g eo fs a m p l i n g f r e q u e n c i e s ( f r o m8k h z t o9 6k _ a z ) a n di th a v ea ne x t r e m e l yw i d er a n g eo fb i t r a t e s ( f r o m1 6k ip st o9 6k b p s ) i ne a c hc h a n n e l t h i sp e r m i t si tt os u p p o r ta p p l i c a t i o n s 鞠n 百i 坞f r o mp r o f e s s i o n a lo rh o m et h e a t e rs o u n ds y s t e m st oi n t e r n e tm u s i cb r o a d c a s t s y s t e m s t h ea u d i os y n t a xa n ds e m a n t i c so fa v sa u d i ob a s e l i n ei sa n a l y z e da n dt h e c o r r e s p o n d e da u d i oc o m p r e s s i o nt e c h n i q u ei ss t u d i e di nt h ep r e s e n t e dp a p e r t h ec l a n g u a g ea u d i od e c o d e ro fa v s i sd e s i g n e da n di m p l e m e n t e db a s e do nt h ed e 印l y r e s e a r c ho f t h et h e o r ya n df u n c t i o no f e a c hm o d u l e i na d d i t i o n , t h ed a t al o s ea n da r o ri si n e v i t a b l ed u r i n gt h et r a n s p o r t a t i o no n i n t e m e ta n dw i r e l e s sc h a n n e ld u et ot h el i m i t a t i o no f b a n d w i d t ha n dt h ee x i s t e n c eo f c h a n n e ln o i s e h e l i c et h ee t r o rd e t e c t i o na n dc o n c e a l m e n tm o d u l ei sa d d e dt ot h e d e c o d e rt oa l l e v i a t et h en e g a t i v ee f f e c to f d a t ae n o r t h ed e c o d e rp r o p o s e di sp r o v e dt od e c r e a s et h ec o m p u t a t i o nc o m p l e x i t yo fs o m e k e ym o d u l e s a sc b ca n di n c r e a s et h e d e c o d i n gs p e e d i na d d i t i o n , t h ee f r o r r o b u s t n e s si si m p r o v e db y 廿l o rd e 删o na n dc o n c e a l m e n tm o d u l e k e y w o r d : a v sa u d i od e c o d e r e r r o rd e t e c t i o n e r r o rc o n c e m m e n t 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得鑫生盘鲎或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:韧 r 霰 签字日期: 加一年2 , e l 7 日 学位论文版权使用授权书 本学位论文作者完全了解鑫鲞盘鲎有关保留、使用学位论文的规定。 特授权鑫壅盘鲎可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:谢玉袈 签字日期:细6 年2 月幻日日 7, z习z罕年 劣各 渺 名 期 签 日 师 字 导 签 第一章绪论 1 1 研究背景 1 1 1 信源压缩技术发展现状 第一章绪论 信源编码是通过压缩编码来去掉信号源中的冗余成分,以达到压缩码率,实 现信号有效传输的目的,因此压缩编码的技术与标准成为信源编码的核心。信源 编码技术解决的重点问题是数字音视频海量数据( 即初始数据、信源) 的编码压 缩问题,故也称数字音视频编解码技术。显而易见,它是其后数字信息传输、存 储、播放等环节的前提,因此是数字音视频产业的共性基础标准。数字音视频编 解码标准作为数字音视频产业的共性基础标准,具有巨大的产业需求。 音视频编码压缩的技术历史可以追溯到上个世纪中。在上世纪8 0 年代初,音 视频编解码技术初步成型。方案集成的主要贡献者是标准化组织,来自各国家和 组织的专家们共同完成了方案集成工作。另外,尽管有些技术多年前就已经提出, 但由于实现代价昂贵而没能在当时得到实际应用,直到近年来半导体技术的发展 才满足实时音视频处理的要求。国际上音视频编解码标准主要有两大系列: i s o i e cj t c i $ 定的m p e g 系列标准( 主要为数字电视采用) 和i t u 针对多媒体通 信制定的h 2 6 x 系列视频编码标准及g 7 系列音频编码标准。 1 9 9 4 年制定的m p e g - 2 标准是国际音视频标准领域的一个里程碑,是m p e g 和i t u 合作完成的,是第一代音视频编解码标准的代表,也是目前国际上最为通 行的音视频标准。近十年来,音视频编码技术本身和产业应用背景都发生了明显 变化。从2 0 0 1 年开始,i s o 和i t u 开始组建了联合视频工作组j v t ,开发新的视 频编码标准,目前已经完成。在i s o i e c 中,该标准的正式名称为押e g 一4a v c ( a d v a n c e dv i d e oc o d i n g ) 标准,作为i l p e g - 4 标准的第十部分;在i t u t 中的 正式名称为h 2 6 4 标准。 跨入新世纪以来,随着编解码技术本身的进步和芯片集成度、计算机速度等 实现条件的发展,数字音视频编解码技术标准面临更新换代的历史性时期,为我 国数字音视频产业的发展提供了难得的机遇。2 0 0 2 年6 月成立的“数字音视频 编解码技术标准工作组”联合国内从事数字音视频编解码技术研发的科研机构和 企业,提出了我国自主的数字音视频编解码技术标准a v s ( a u d i ov i d e oc o d i n g s t a n d a r d ) 。制定a v s 的基本技术路线是“大胆采用主流技术,小心规避国外专 利”即在清楚分析国际标准的发展历程、技术框架、关键技术和利益关系得基础 上,采用当前国际主流的技术方案,在认真分析本领域已注册专利的基础上,大 胆采用国际范围内积累的公开编码压缩技术,用自主技术“绕开”正在处于专利 第一章绪论 保护期的技术,加入我国自主创新的成果,制定性能上超过国际标准、技术上具 有自主权的国家标准。 目前我国音视频产业可以选择的信源编码标准有:m p e g - 2 、m p e g - 4 、m p e g - 4 a v c ( 简称a v c ,也称j v t 、h 2 6 4 ) 、a v s 。标准发展过程如下图: 1 姒1 2 61 9 8 81 嘲僦2 嘲1 贼1 姻82 o2 0 0 22 0 0 4 图卜1 音视频标准的发展历程示意图 从制订者分,前三个标准是由m p e g 专家组完成的,第四个是我国自主制定 的。从发展阶段分,i p e g - 2 是第一代信源标准,其余三个为第二代标准。从主 要技术指标编码效率比较:m p e g - 4 是m p e g 屯的1 4 倍,a v s 和a v c 相当, 都是咿e g - 2 两倍以上。 与其他国际标准相比,我国自主制定的a v s 标准具有以下优势: 首先,从最新国际标准的制定来说,由于需要平衡各方利益,编码系统中含 有不少作用并不明显的模块,大大增加了系统的复杂性和实现成本。而a v s 是 基于我国创新技术和部分公开技术的自主标准,几乎不需要考虑这些因素,而且 技术方案简洁,芯片实现复杂度低,; 其次,国际标准的知识产权授权问题能否被市场所接受,是影响新技术标准 被产业化的重要因素,在这方面,a v s 标准具有自主知识产权,摆脱知识产权的 羁绊,解决了a v c 专利许可问题死结,是开放式制订的国家、国际标准,易于推 广; 再次,我国在m p e g - 2 标准上的开发和运营投入与发达国家相比,相对较少, 采用a v s 新标准,历史包袱较少。 另外,a v s 是一套包含系统、视频、音频、媒体版权管理在内的完整标准 体系,为数字音视频产业提供更全面的解决方案。综上所述,a v s 可称第二代信 源标准的上选。 2 第一章绪论 1 1 2 语音通信的发展现状 近年来,音频通信技术给人类生活带来了巨大影响。随着计算机技术、压缩 技术以及网络技术的发展,网络中的流媒体业务得到了飞速的发展和应用,新型 的数字音频通信应用领域不断涌现,例如i p 电话、基i n t e r n e t 的流媒体业务、 无线通信、数字音频广播( d a b ) 等。高质量的、交互式的多媒体通信技术正成 为研究发展的热点。 和传统的数据通信不同,基于网络的实时语音通信具有一些新的特点。一方 面,实时语音传送对实时性要求比较高,具体到交互式实时语音业务来说,对延 迟非棠敏感。当端对端延迟在1 5 0 m s 以下时,人们基本感受不到延时的存在,但 当延时超过4 0 0 m s 时,通话质量将难以让人接受“4 。另一方面,实时语音传送 对包丢失具有一定程度的忍耐性。具体的忍耐情况依赖于所采用的语音编码方法 和语音内容。总的来说,交互式实时语音通信的感知音质同时由时延和丢包率决 定,其大概关系如图1 瞥” 数 据 包 丢 失 盎 单同时延m s 图1 4 时延、丢包率和感知音质的关系 具体到实际的语音传送过程,影响到话音质量的因素主要有语音编码的音质 失真、语音数据包传输过程中比特位错误、语音数据包传输延迟和延迟抖动、语 音数据包传输过程中的包丢失等阱四。具体如下: 1 语音编解码 具体的语音编解码方法决定了编解码过程给原始话音带来的失真,编码效率 决定了网络的流量负载,编解码延时影响具体应用的端到端的延时性能。 2 比特位错误 比特位错误是指数据包中的一个或数个比特位发生错误。这种错误是可以通 3 第一章绪论 过每个数据包中的校验码来发现。由于在目前的i n t e r n e t 中物理层一般采取基 于光纤传输的方式,其比特位错误很少发生,因此对话音质量影响较小。而且由 于纠正比特位错误必然带来额外的带宽和时延开销,因此,一般只需要在语音编 解码器作些预防错误就足够了。 3 网络包延时和延时抖动 语音编码过程、数据包在网络的传输、选择路由的存储转发机制等都会导致 网络数据包在传输中的延时。一般来说,网络负载越重,所导致的延迟越大。同 时由于i n t e r n e t 网作为公用i p 网,其具体负载情况不受应用端控制,数据包的 具体时延随时间变化比较大,从而产生延时抖动。情况严重时,由于不同的包可 以采用不同的传输路径,有可能导致接收端的包错序。v o i p 解决网络延时抖动 的方法是在接收端设立足够大的缓冲区,但同时要付出更大延时的代价。应用端 必须在网络延迟和延迟抖动中做出权衡。 4 网络包丢失 网络丢包一般是发生在因带宽不够。网络发生拥塞而导致路由器的缓冲区溢 出时。当数据包到达接收端时的延迟过大时,对接收端而言也可以看作是包丢失。 保证必要的网络带宽是解决和控制网络包丢失的最佳手段。管理和控制网络流 量,或者在网络拥塞情况下主动丢弃一些对话音质量影响比较小的数据包都可以 部分缓解网络包丢失问题。 而对于移动终端的流媒体,存在着传输延时和错误鲁棒性的矛盾。一方面, 需要有效地补偿丢包以确保音频高质量的服务:另一方面,数据的实时传输和所 用带宽的有限限制了包的重传。由于带宽的不确定性和信道噪声的存在,数据在 传输过程中会发生错误或者丢失。例如因特网,在传输过程中,由于缓存溢出或 者等待超时,数据包会被抛弃,发生包丢失,在网络拥塞时包丢失率可达3 0 以上;对于无线网,由于信道衰落和多经效应等,会发生随机比特错误和突发错 误,典型的比特错误率为1 0 1 0 _ 3 懈。此外,因特网和无线网都属于时交信道, 带宽、延迟和误码率等网络服务质量参数时刻发生变化。信道传输错误会导致解 码无法正常运行,使音频文件出现杂音,甚至使通信中断。网络服务质量的时变 特性也严重影响到音频通信质量,例如实时音频通信通常对延迟和延迟抖动非常 敏感,传输速率的大小则直接决定音频质量的好坏。 在网络传输带宽及网络服务质量一定的情况下,为了尽可能的提高语音通信 终端的话音质量,减少网络负载,势必选择一种高效的语音编解码技术。另外, 为了减少传输错误对话音质量的影响,保证通信的正常进行,必须在语音编码端 和解码端采取适当措施,以增强语音通信系统的稳健性即进行差错控制。这些导 致发展了不同的错误纠正,错误弹性和错误隐藏技术。 4 第一章绪论 1 2 本文的工作内容和结构 本课题的主要工作是对a v s 音频a a t f 码流的分析解码、错误检测和错误隐 藏的实现。实现目标是:一、通过本解码器的解码实现,与参考解码器对比,进 行对a v s 音频标准的一致性评估。二、在实现了高效解码的基础上,尽量减少 传输错误对话音质量的影响,提高解码端的抗误码能力。 本论文共分为5 个部分: 第一章是绪论。概括了信源编解码技术的发展历程及现状,阐述了a v s 标准 的意义及优势所在。并介绍了语音通信的发展现状。 第二章简要介绍了几种国际上通用的音频编码标准,介绍了a v s 标准及a v s 标准工作简况与进展,并详细描述了a v s 语音编码方法及a v s 音频的基本语法。 第三章分析比较了语音通信过程中几种常用的错误隐藏技术。 第四章是本论文的重点。首先详细描述了标准解码器中各个解码模块的功能 和原理。并详细描述了本课题解码器的实现流程及错误检测和错误隐藏的实现步 骤。 第五章给出了实验结果和分析。 第二章a v s 音频编解码标准 第二章a v s 音频编解码标准 2 1 相关的音频编码标准简介 下面简单介绍几种目前广泛应用的音频编码标准。 2 1 1m p e g , - i 音频编码标准m 自从1 9 8 8 年以来,m p e g 小组承担了视频和音频压缩技术的标准化工作。这个 小组制定的音频编码标准是数字音频压缩领域中的第一个国际标准。1 9 8 9 年, m p e g 小组在征求了1 4 种音频编码方案后,最后确定了2 种:一种是删s i c a m ( m a s k i n g p a t t e r na d a p t e du n i v e r s a ls u b b a n di n t e g r a t e d c o d i n ga n d m u l t i p l e x i n g ,自适应掩蔽模式通用子带综合编码与多路复用) ,另一种是 a s p e c ( a d a p t i v es p e c t r a lp e r c e p t u a le n t r o p yc o d i n g ,自适应频谱感知熵编 码) 。基于这两种算法于1 9 9 2 年制定了m p e g 一1 标准。m p e g - 1 按照算法的复杂度和 压缩比分为i 、三个层次。第1 层的复杂度最低,是m u s i c a m 方案的简化 形式,以每声道1 9 2 k b s 的速率提供高质量的声音,在不强调低码率的情况下应 用。第层具有中等复杂度,它使用比第1 层更为精密的量化,与m u s i c a m 方案 几乎完全相同,可在1 2 8 k b s 的码率下提供近乎c d 质量的声音。第层结合了 m u s i c a m 和a s p e c 的优点,复杂度最高,编码效果也最好,可在低于每声道1 2 8 k b s 的码率下获得极高品质的音频。第层使用了心理学模型i i 可切换的混合滤波器 组、比特池缓冲技术、先迸的预回声控制、非均匀量化和熵编码技术。 m p e g - - 1 等级在商业上获得了巨大的成功,这就是我们熟悉的m p 3 。m p 3 是目 前流传最广的一种音乐压缩格式,其c d 般的音质、高压缩比、开放性和易用性使 之深受好评,尤其在i n t e r n e t 上广为流行,很多硬件厂商还推出了播放m p 3 的硬 件设备。 2 1 2 m p e g - 2b c 和m p e g 一2l s f 啪 针对m p e g - 1 只能进行单声道或双声道编码,1 9 9 4 年1 1 月肝e g 小组制定了多声 道扩展的音频编码标准 i p e g - 2b c ,它能够与已有的m p e g i 系统向下兼容。 与此同时,m p e g 小组还制定了一个在较低采样频率( 1 6k h z ,2 2 5 k h z ,2 4 k h z ) 时效率高于m p e g - i 的音频编码标准m p e g - - 2l s f 。1 9 9 4 年1 1 月,m p e g 完成了 m p e g - 2b c 和m p e g 2l s f 的制定。对五个全带宽声道,m p e g - 2b c 在数据率为 6 4 0 8 9 6 k b i t s 的情况下提供了高品质的音频。f f p e g 一2b c 定义了m p e g 一1 的多声道 扩展,传统的双声道声音格式的替代者是3 2 + 1 多通道系统。m p e g - 2b c 采用 6 第二章a v s 音频编解码标准 m p e g - 1 编码器,也有三个层次的多通道扩展。层次是最灵活的系统,作为一个 主要的特点,肝e g _ 2b c 层次允许使用数目灵活的扩展通道。m p e c r 一2b c 除了后 向兼容多声道编码之外,还提供了对多个附加声道传输的支持。在m p e g - 2l s f 背后的基本思想是,提高具有较高频率分辨率的滤波器组的编码增益。l s f 的另 一个优点是提高了主要信息对附带信息之比。对于那些需要很低码率的音频应用 场合,l s f 层次成为优选方案。 2 1 3d o i b y c 一3 美国杜比( d o l b y ) 实验室从1 9 8 0 年开始对数字音频技术进行研究,重点是降 低比特率技术。它先后研制了a c - i ( a u d i oc o d i n g 1 ) 、a c 一2 和a c 一3 技术。目前 a c 一3 在多种音频处理系统中得到广泛的应用,美国现在已经把杜比a c 一3 标准作为 高清晰度电视( h d t v ) 和数字有线电视的音频编码格式。a c 一3 是一种高效率编码, 它采用自适应变换编码,具有很多优点。它更好地模拟了人耳的听觉特性。a c 一3 滤波器组的频率选择性非常接近入耳的掩蔽效应。时频变换采用了基于时域混叠 抵消的n ) c t 。a c 一3 也采用了窗处理,输入时间信号在变换到频域之前先对其进行 加窗处理,而且窗口长度是可变的。由于音频信号的时变特性,为了同时满足时 间分辨率和频域分辨率的要求,在编码中采用了自适应分块技术以便有效地控制 预回声的产生。a c 一3 编码器还采用了耦合技术和组合技术。耦合技术利用人耳对 高频信号不能分辨出两个频率非常接近的信号的方向的特性,在编码器中将多个 声道信号的高频部分耦合到一个公共声道中。当信道传输码率很低,单独对各个 声道进行处理仍然达不到信道要求的码率时,就采用耦合技术。编码依据不同的 声道用不同的比特数表示数据。根据传输码率和频率分辨率的要求采用三种模式 进行编码,三种模式的分辨率不同。a c 一3 技术包含着灵活性,它可以重现一到五 个声道的各种播放配置,再加上一个任选的低频增强声道,a c 一3 方案可使用 3 2 k b s 到6 4 0 k b s 之问的可调整数据率合。a c - 3 数据格式用来在已经采用了高度 误码校正的环境中应用。 d t s ,数字影院系统,d i g i t a lt h e a t e rs y s t e m 的缩写,是在杜比数字环绕 声出现两年后出现的又一种数字环绕声系统。目前美国使用d t s 作为其电影原声 带数字音频编码方式的电影公司,已经超过了采用杜比数字系统的电影公司。 d t s 之所以受到如此青睐,是由于其对高采样率、高量化精度的数字信号采 用了灵活、先进的相干声学( c o h e r e n ta c o u s t i c s ) 编码技术。其最初的目标是要 使音乐重放达到试听室的水平,即“音质高于c d ”,而多声道格式是要使得家庭 7 第二章a v s 音频编解码标准 影院的声音重放质量在保真度及声像准确度方面得到全面的提高;第二个主要目 标是其压缩算法应是广泛适用而且灵活的。多媒体应用限制了数据带宽,因此需 要工作在3 8 4k b p s 或更低的5 1 声道模式。而专业音乐应用要有更高的采样频率、 更长的量化数及多路分立音频通道,并且更需要无损压缩,d t s 相干声学包括了 所有这些特性;最后一个重要的目标就是确保所有的解码器算法相对简单而且向 前兼容。这可保证今天的解码硬件在未来d t s 编码技术进一步发展时仍可被继续 使用。 d t s 相干声学本质上是一种感知优化差分子带编码。其编码过程的关键组成 是自适应预测编码,或称a d p c m ,它可以有选择地独立工作在每一音频通道的所 有3 2 个子带上。 通过结合差分编码和同步噪声掩蔽阈值,可以提高比特率很低时的编码效 率,从而降低了达到主观透明度要求的比特率。对音频多路通道的编码是在固定 比特率或可变比特率上用分配比特的方法进行的。 一个多相滤波器组把每一个独立声道的p c m 信号分为3 2 个带宽相等的子带, 并利用高理论编码增益及较强的子带衰减功能,使其具有较低的计算复杂性。对 每一子带进行差分编码,可以去除音频中大部分客观冗余信号。同时,对未编码 的信号进行声学同步处理和瞬态分析以获得相关感知信息,从而修正每一子带信 号的主要差分编码循环。在多声道格式中,比特分配作用于所有编码通道,并随 时间、频率及声道而改变以优化音频质量。 根据实际应用,d t s 具有单声道、双声道至8 声道可供选用,分离式的5 1 声 道可以混音成为“矩阵式两声道”。d t s 每声道的采样频率最低为8 k h z ,最高为 1 9 2 k h z ;量化精度范围为1 6 2 4 b i t ;压缩率范围为l :1 4 0 :1 ;总数据率范围为 3 2 4 0 9 6 k b i t s 另外相干声学算法还可以实现高达1 3 8 d b 的动态范围。 d t s 作为一种新型的数字环绕声技术,不但能胜任a v 的重任,更能提高c d 音 乐的音质,完全可以和杜比数字制式在家庭视听方面相抗衡。 2 1 5m p e g 一2a a c 嗍 m p e g 一2a a c ( a d v a n c e dh u d i oc o d i n g ) 是咿e g 在以b o s i 、 b r a n d e n b u r g 、 j o h n s t o n 等为首的音频编码研究组织于1 9 9 7 年提出的,它总结了m p e g - i 。m p e g - 2 和a c - 3 等的长处,在m p e g 系统上进一步改进并加入了很多新的功能,大大增强了 编码的灵活度,在保证音质的同时更大限度地压缩了码率。m p e g - 2a a c 支持从 8 k h z 到9 6 l 【h z 范围内的1 2 种采样频率;最多支持4 8 路音频通道,默认配置为单声 道、双声道和5 声道外加一个低频增强通道,另外在编码器中还定义了1 6 种可编 程配置。同时m p e g 一2a a c 也具有向下混合能力。 第二章a v s 音频编解码标准 为了允许在音频质量、存储器和处理能力之间进行折中,a a c 系统提供了三 层框架:主框架,低复杂度( l c ) 框架和采样率可分级( s s r ) 框架。 主框架:在这层框架中,a a c 系统能对任何给定的数据率提供质量最好的音频。 除了增益控制模块以外,主框架包含其他所有模块。主框架对存储器和处理能力 的要求比l c 框架高。 低复杂度( l c ) 框架:在这层框架中,不包括预测和预处理模块,并且t n s 的阶 数也受到限制。l c 框架在质量很高时,对存储器和处理能力的需求都要比主框架 少。 采样频率可分级( s s r ) 框架:在这层框架中,增益控制模块是必需的。增益控 制模块由一个多相正交滤波器( p q f ) 、几个增益检测器和几个增益调节器组成。 预处理能够由控制模块完成。这层框架不需要预测模块,并且t n s 的阶数和带宽 都受到限制。s s r 框架的复杂度比主框架和l c 框架都低,并且它能产生一个频率 可分级信号。 肝e g 一2a a c 系统的开发集中在模块式的方法上。以先进编码模块的标准化取 代全系统的标准化。 2 1 6m p e g 一4 音频编码标准 m p e g - 4 标准的目标是提供交互式多媒体应用,它制定出与以往不同的、具有 高度灵活性和可扩展性的国际标准。较之以前的音频编码标准,m p e g - 4 增加了许 多新的关于合成内容及场景描述等领域的工作,增加了诸如可分级性 ( s c a l a b i l i t y ) 、音调( p i t c h ) 变化、可编辑性及延迟等新功能。肝b g - 4 将以前 发展良好但相互分离的高质量音频编码、计算机音乐及合成语音等第一次融合在 一起,在诸多领域内给予了高度的灵活性。m p e g - 4 的重要特点就是高度的灵活性 和可扩展性。 妒e g - 4 关于音频信号编码集中在:传统的音频编码即所谓的“自然音频”和 新颖的“结构音频”以及“合成自然混合编码”。自然音频编码将码率规定为 每声道2 k b p s 至6 4 k b p s ,相应地定义了三种编码工具:参数编码、线性预测编码和 时间频率编码。当每声道6 4 k b p s 时,就是 l p e g 一2a a c 编码准。因此a a c 方案己经 成为咿e g _ 4 音频编码的核心。严格地说,肝e g 一4a a c 是咿e 争2a a c 的超集。 2 2 a v s 标准 2 2 1 标准工作简况与进展【1 o l 数字音视频编解码技术标准( a v s ) 工作组由国家信息产业部科学技术司于 9 第二章a v s 音频编解码标准 2 0 0 2 年6 月批准成立。工作组的任务是:面向我国的信息产业需求,联合国内 企业和科研机构,制( 修) 订数字音视频的压缩、解压缩、处理和表示等共性技 术标准,为数字音视频设备与系统提供高效经济的编解码技术,服务于高分辨率 数字广播、高密度激光数字存储媒体、无线宽带多媒体通讯、互联网宽带流媒体 等重大信息产业应用。 v s 是我国具备自主知识产权的第二代信源编码标准。顾名思义,“信源” 是信息的“源头”,信源编码技术解决的重点问题是数字音视频海量数据( 即初 始数据、信源) 的编码压缩问题,故也称数字音视频编解码技术。显而易见,它 是其后数字信息传输、存储、播放等环节的前提,因此是数字音视频产业的共性 基础标准。 a v s 标准是信息技术先进音视频编码系列标准的简称,a v s 标准包括系 统、视频、音频、数字版权管理等四个主要技术标准和一致性测试等支撑标准。 在2 0 0 3 年1 2 月1 8 一1 9 日举行第7 次会议上,工作组完成了a v s 标准的第一部分 ( 系统) 和第二部分( 视频) 的草案最终稿( f c d ) ,和报批稿配套的验证软件也 已完成。2 0 0 4 年1 2 月2 9 日,全国信息技术标准化技术委员会组织评审并通过 了a v s 标准视频草案。2 0 0 5 年1 月,a v s 工作组将草案报送信息产业部。3 月3 0 日,信产部初审认可,标准草案视频部分进入公示期。2 0 0 4 年度第一季度( 第8 次全体会议) 正式开始“数字版权管理与保护”标准的制定。2 0 0 5 年初( 第1 2 次全体会议) 完成了第三部分( 音频) 草案。 2 2 3 v s 的重要意义 2 2 3 1a v s 的优势所在 a v s 与传统的狎e g 比较起来,目前的优势主要有编码效率高、实现复杂度 低、专利收费合理。把a v s 和肝e g “硬碰硬”地比较,或者说运营商最终选择 哪个标准,要考虑三个因素:技术先进性,专利收费额度,产品成熟度。 具体情况是,技术上打平手,专利收费上a v s 拥有绝对优势,产品开发上正 在赛跑。a v s 能否最终胜出,主要看音视频产业的实力和速度,包括国家组织整 个产业的能力。对于国内厂商来说,与国际标准相比,采用中国标准就可以不吃 技术晚人一步的哑巴亏,可以做核心产业,进入利润相对丰厚的产业链上游。 a v s 的重要目的,是构建健康的数字音视频产业链,从而使标准回到促进产 业发展的轨道上,这是国内、国外厂商都希望看到的。 相比之下,a v s 有两大优势:一是构建的开放标准基于自主技术和开发技 术,并提出了解决专利许可问题的妥善方案;二是中国日渐强大的产业化实力和 市场提供了良好土壤。 1 0 第二章a v s 音频编解码标准 a v s 是一套适应面十分广阔的技术标准,其优越性表现在以下几个方面: 1 a v s 是基于我国创新技术和公开技术的自主标准:编码效率比肝e g - 2 高2 3 倍,而且技术方案简洁,芯片实现复杂度低,达到了第二代标准的较高水平,可 节省一半以上的无线频谱和有线信道资源; 2 a v s 是第二代音视频编解码标准的上选:a v s 通过简洁的一站式许可政策, 解决了m p e g 一4 a v c h 2 6 4 被专利许可问题缠身、难以产业化的死结。与一些公司 提出的标准相比,a v s 是开放式制订的国家、国际标准,易于推广; 3 a v s 为音视频产业提供系统化的信源标准体系:m p e g - 4a v c h 2 6 4 仅是 一个视频编码标准,而a v s 是一套包含系统、视频、音频、媒体版权管理在内的 完整标准体系,为中国日渐强大的音视频产业提供了完整的信源编码技术方案, 正在通过国际标准化组织合作,进入国际市场。 2 2 3 2a v s 的产业化意义及产业化进程 数字音视频编解码标准是数字音视频产业的共性基础标准,具有巨大的产业 需求。跨入新世纪以来,随着编解码技术本身的进步和芯片集成度、计算机速度 等实现条件的发展,数字音视频编解码技术标准面临更新换代的历史性机遇。 觚产生链示意固一 图2 - 1a v s 产业链示意图 据预测,数字音视频产业将在2 0 0 8 年超过通信产业,在2 0 1 0 年成为国民经 济第一大产业。在数字电视、高清晰度视盘、流媒体和多媒体通信这个即将来临 的产业大潮中,a v s 作为数字音视频产业“牵一发动全身”的基础性标准,为我 第二章a v s 音频编解码标准 国构建“技术一专利一标准一芯片与软件一整机与系统制造一数字媒体运营与 文化产业”的产业链条提供了难得机遇。见图2 - 1 所示。 对于数字电视接收机制造业来说采用a v s 十分简单,无论a v s 标准还是其 它标准,物理实现都是一块解码芯片。这块芯片和整机其他部分之间的接口可以 是统一的,也就是说,可以通过更换解码芯片,让一台数字电视接收机支持不同 的信源标准。因此采用a v s 标准进行换代或替换,成本并不高昂。 a v s 对于数字电视运营意义重大。数字电视运营系统包括三个主要环节: 制作、播出、传输。其中制作( 电视台演播室) 和传输( 数字电视传输网) 是投 入最大的部分,但二者都与播出节目所采用的格式无关,因此采用a v s 不影响 这些设备的既有投入。a v s 唯一要求增加是编码器,而采用a v s 得到的回报远 大于替换编码器的投入:至少可以节省一半传输带宽资源、为标清业务部署的传 输系统可以直接提供高清业务。从电视网看,传输的节目容量扩大一倍。从国有 资源看,地面广播中节省一半的无线频谱资源,意义十分重大。 我国正在发展自己的光盘和光盘机技术与标准,红光光学伺服系统和盘片已 经较为实际可行,但是,需要3 张甚至更多盘片才能存放一部m p e g - 2 编码的 高清电影。由于a v s 压缩高清节目效率比m p e g - 2 高三倍,因此一张盘片就可 以存放一部电影。a v s 标准和光盘标准配合,能够在新一代高清激光视盘市场 开辟出一片新天地。在片源方面,在不同地区发行不同格式,实际上是节目商所 希望的( d v d 强制划分成不同地区的版本) ,而且在中国市场出版a v s 格式光 盘,对于中国音像发行行业与高清光盘机产业的健康发展都是有利的。 a v s 的产业化步伐在标准制订过程中已经开始,目前正处在大规模产业化 的启动期。 a v s 产业化的主要产品形态包括: 1 芯片:高清晰度标准清晰度a v s 解码芯片和编码芯片,国内需求量在未 来十多面的时间内年均将达到4 0 0 0 多万片。 2 软件:a v s 节目制作与管理系统,l i n u x 和w i n d o w 平台上基于a v s 标准 的流媒体播出、点播、回放软件; 3 整机:a v s 机顶盒、a v s 硬盘播出服务器、a v s 编码器、a v s 高清晰度激 光视盘机、a v s 高清晰度数字电视机顶盒和接收机、a v s 手机、a v s 便携式数码 产品等。 简言之,a v s 最直接的产业化成果是未来1 0 年我国需要的3 - 5 亿颗解码芯 片,最直接效益是节省超过1 0 亿美元的专利费,a v s 最大的应用价值是利用面 向标清的数字电视传输系统能够直接提供高清业务、利用当前的光盘技术制造出 新一代高清晰度激光视盘机,从而为我国数字音视频产业的跨越发展提供了难得 1 2 第二章a v s 音频编解码标准 契机。a v s 将在标准工作组的基础上,联合家电、i t 、广电、电信、音响等领域 的芯片、软件、整机、媒体运营方面的强势企业,共同打造中国数字音视频产业 的光辉未来。 目前采用a v s 标准的芯片已经研发出来,采用a v s 标准的机顶盒、电视机、 编码器今年会陆续由国内、国外厂商推出。作为从中国大地上长出的一个标准, 国家产业政策能否为a v s 的成长壮大提供发展空间,就成为a v s 发展的关键。 工作组对目前的国内环境有充分自信,相信在我国a v s 成功的把握要比m p e g 大得多。一旦在中国成功产业化,a v s 标准也将成为m p e g 国际标准的一个重要 组成部分,在全世界全面开花。实际上,a v s 工作组的另一个身份是m p e g 中国 代表团,a v s 本来就是m p e g 标准的积极参与者和贡献者,a v s 的成功也将是m p e g 的成功。 2 3a v $ 音频编码标准简介m 1 先进音视频编码( a v s ) 音频编码,a p a v s 音频,用于高分辨率数字广播、 高密度激光数字存储媒体、无线宽带多媒体通讯、互联网宽带流媒体业务。支持 采样率8 k h z 9 6 k h z 的单声道或双声道p c m 信号,输出比特流为每声道1 6 k b p s 9 6 k b p s ,同时支持比特流精细可伸缩编码,可伸缩编解码步长在编码速率 1 6 k b p s 7 9 k b p s c h 以下为l k b p s ,编码速率8 0 k b p s 9 6 k b p s c h 时略大于l k b p s 。 a v s 音频编解码器的工作过程利用了一系列必选或可选的模块。表2 一i 列出了 这些模块,并说明其为必选模块还是可选模块。必选模块在任何实现中都是必须 的。可选模块在某些实现中可以省略。 表2 - i 模块名称 必选可选 比特流装配器必选 上下文位平面解码必选 量化域方极坐标立体声解码可选 整数时频变换必选 长短窗判决可选 a v s 音频编码框图如图2 - 1 所示。编码时每帧对应1 0 2 4 个语音样点,被均 分为1 6 个子块。时域音频信号首先通过长短窗判决,对稳态和瞬态信号分别采 用长窗和短窗序列。同时整数时频变换( i n t m d c t ) 将时域音频信号分解成频域 第二章a v s 音频编解码标准 谱线。然后将得到的频谱量化,当用于p q - - s p s c 变换后比例因子带的编码比特数 少于原始比例因子带的编码比特数时,我们就可以对该比例因子带内的所有的 肋c t 量化频谱线进行量化域方极坐标立体声变换。并进行上下层位平面编码 ( c o n t e x t d e p e n d e n tb i t p l a n ec o d i n g ,c b c ) 得到数据流。最后控制流信息与 数据流经过比特流格式器得到a v s 编码音频流。 2 3 1 长短窗判决 图2 - 2a v sa u d i o 编码器框图 编 根据信号的时域能量变化及频域的不可预测度特征,判断信号是稳态信号 还是瞬变信号,从而决定输入帧期望使用的窗序列( 瞬变信号时为 o n l ys h o r t _ w i n d o w , 稳态信号时为o n l y _ l o n q w i n d o w ) ,即时域稳 1 4 第二章a v s 音频编解码标准 定性两级判决方法从而实现滤波器组的时频分辨率与输入信号的特性自适应, 有效控制瞬态信号带来的预回声 2 3 1 1 窗切换判决 将输入的一帧音频信号划分为若干子块,先

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论