




已阅读5页,还剩57页未读, 继续免费阅读
(信号与信息处理专业论文)基于dsp的avs编码器研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北方工业大学硕士学位论文 摘要 随着信息技术和计算机互联网的飞速发展,视频信息已成为人类获取信息的最主要载体之一,同 时也成为电子信息领域研究的热点。视频信息以直观、携带信息量大等优点已经越来越多地被采用。 通常情况下,视频信息的数据量非常巨大,海量的视频数据要求在存储和传输时对原始数据进行编码。 由此,视频编码技术孕育而生。 视频编码技术不断发展,对规范视频编码行业的视频编码标准提出新的的要求,目前国际国内的 主流视频编码标准有e g 、h 2 6 x 系列以及a v s 。其中,a v s 是我国具有自主知识产权的视频编码 标准。 由于数字视频数据量非常巨大,实现视频数据编码运算的处理器应当具有相当强大的处理能力。 d s p ( d i g 砌s i g l l a ln o o 黟s 凹) 也称作数字信号处理器,具有相当强大的数字运算能力,非常适合做 视频信息的编码处理。其中,1 1 ( 1 c x a sk 航船e 雠) 推出的d m 6 4 2 和1 m s 3 2 0 c 6 4 5 5 是高性能的d s p 处理器,在视频编码领域有非常广泛的应用。 本文提出基于多d s p 的编码器方案。方案中,着重对帧内预测、帧间预测、量化、变换、熵编 码和环路滤波等关键技术的实现流程和数据存储结构作了较为深入的研究。通过对编码器性能的分 析,采用了程序级和d s p 级的优化处理技术优化编码器性能。 最后由编码器性能测试结果显示,本方案设计的a v s 编码器能实现编码功能,各项性能指标均 达到要求。 关键词:a v s ;视频编码;d 趼;帧内预测;帧间预测;环路滤波; 北方工业大学硕士学位论文 r e s e a r c ho na v se n c o d e rb a s e do nd i g i t a ls i g n a lp r o c e s s o r a b s h a c 侮 a s 均p i dd 吼r e l 吧n e n to fi n 硒撕o nt ec :h 1 0 l o g ym l di n t 锄e t ,d i 百t a lv i d 。0h 嬲a 1 :r e a d y h 幻d n o i l eo fm em o s ti m p o r t a n ti n e a nt 0g 砖i 1 1 腼a t i o n na l s 0h 嬲) m e st h el l o t 矗e l di i l 出删c 训0 n 碳瞄v i 撕0 ni sb 嘲a d o p 锄b e 咖s e0 f i t sc :h 减l c 晡s t i c s o fb r i i 培n ga1 0 to fi i l :f 0 i m a t i o ni n “缸o n i s t i c g a a r a l l y ,v i e d e oi 1 1 :妇m 撕0 ni sl 题g eo fd a 饥 f 0 rl a 理r em m i b e ro fi i l f o n n 撕o nn e 翘t ob es t o 问o r 仃a i :i 懿i l i t e d ,o r i 删v i d c 0d a t a 曲砌db e e n c o d 。d t h ed e v e l o p m e n to f 讥d e 0 饥c o d i 】唱t o c :h n o l o 蹦r e q u e s t sv i d e oe l l c 0 幽唱嗽咄啪t 0 d e v e l o p e n o wm p e g ,h 2 6 x 锄da v ss 甜镐s t a l l d a r da r et 1 1 ed o n l e 如c 觚di n t 弧洲0 1 1 a lv i d e o 翎c o d i i l gs 切n d a r di i l 1 ew o r l d 灿n o n gt l l i s a v si s 砌印e n d 胁tn e l l e c t i l a lr i g 舢o fv i d e 0 c o d i n gs 纽l d a r db y o i 】rn a t i o n a sar e s u l to fl a r g ei i l f - o m l a 矗o no fd a t a ,m ep r o c e s s o r 1 a te f :暇) d e 啊d e oi i l f o n n a t i o n 呻印w e r f mc a p a b i l 时o f0 0 n l p i u t i l l gd s p ( d i 百t a ls i 酬p m c e s s o r ) w i mp o w 硎 即c e s s i i 培c a p a b i l i 坝i sc o m 】删矗玎d i g i t a lc o m p u t i n 吕1 m s 3 2 0 d m 6 4 2a n d1 m s 3 2 0 c 6 4 5 5 廿l a tm c e d b y t ia r el l i g 王l - p o w e r e dp r o c e s s o r 、7 l ,i t l l 谢d e 瑚g eo fa p p l i c 撕o n s a p 印衄m eo f 砌e 0e i l c o d 盯b a s e d o nm u l t i d s pi sp u t 咖r di 1 1 l i sp a p 既a n dm e p r o 掣a m m ei s 向c 吣e do ni 1 1 _ 臼m 删c l i o 玛i n t e fp i 谢c 垃o i l ,q l 刎丘硎。玛缸a i l s f o m ,盯l 仃o p y c o d i l l 舀l o o p 丘1 t e r 越l dd a t as t l 3 r a g ep c e s s e s 锄dd a t a 曲m e t i l r 已w et 出【ea d 珑m 嘲弦b o mo f p l 硼:e | d i l r 姻a i l dd s p l e v e lo i 岖m i z a 6 0 nt e c b n 0 1 0 9 yt oo i 姬m i z et l l ep 利;碱a n c eo fe l :啪d e r a c 她t ot 1 1 e 柚庄i y 蓟so f p c 赶b 锄撇 f i l l a l l y ,m e 删to f m e 髓i c o d e rt c s ts h o w s l a tt h ep e r f o 衄a n c eo f t l l ee n c o d e rm e e t st h e r e q u i 嗽n e n t k e yw o r d s :a v s ,v i d e n c o d e r d s p ,h 翻mp r e d i c 6 佃,i n t e rn 蜘i i c t i 蚰,l o o p 俞温t e r 2 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及 取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论 文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得j 丝虚王 些太堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同 志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:榔 签字日期:o g 年譬月2 0 日 学位论文版权使用授权书 本学位论文作者完全了解北方工业大学有关保留、使用学位论文的规 定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论 文被查阅和借阅。本人授权j 丝友王些太堂可以将学位论文的全部或部分内 容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、 汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:邓锋 日 签字日期:d 8 年月埔日 学位论文作者毕业后去向: 工作单位: 通讯地址: 导师签名:叁多穆 签字日期:d 孑年厂月劢日 电话: 邮编: 北方工业人学硕士学位论文 1 引言 1 1 选题的目的与意义 当今时代,信息技术和计算机互联网飞速发展。在此背景下,视频信息已成为人 类获取信息的主要载体,同时也成为电子信息领域研究的热点。视频信息经数字化处 理后具有易于加密、抗干扰能力强、可再生可中继等优点。 通常情况下,数字视频( 以下简称视频) 原始数据量都非常大,对存储介质和通 信网络提出相当高的要求。例如,t e l e v i s i o n - q u a l 时未经编码的视频流每秒数据量高 达2 1 6 m b i t 。以此计算,2 小时未经编码的视频流就需要1 9 4 g b y t e 的存储空间。这样 大的存储空间相当于4 2 张d v d 或3 0 4 张c d r o m 。伴随海量数据的产生,视频信息的 应用对信息存储设备及通信网络均提出了较高的要求,这也成为阻碍人们有效获取和 使用视频信息的瓶颈。 另一方面,即使存储介质容量和网络信道带宽在新技术的推动下得到较大改善, 研究具有高压缩比的视频编码方法和技术同样有着重要意义和广泛的应用前景。 近年来,视频编码技术及应用都取得了长足进展,它的进步和完善正深刻影响着 现代社会的方方面面。 1 2 视频编码的必要断口可行性 原始数字视频的数据量非常巨大,多媒体中的一幅6 4 0 木4 8 0 的2 5 6 色彩图像所占 的数据量为3 0 0 k b 。以4 4 1 k h z 、1 6 b i t 采样( 即所谓c d 音质) 的立体声,每秒所占 的数据量为1 7 6 k b 。动态视频要求每秒播放2 5 3 0 帧图像,因而以6 4 0 木4 8 0 的窗口 播放2 5 6 色彩色视频图像并具c d 音质的立体声,就要求每秒处理9 m b 的数据。即使 采用一片容量为6 5 0 m b 的c d r o m 光盘也仅能存储约7 5 6 秒的视频数据。同时,普 通p c 机i s a 总线的数据传输率最大只能达到5 m b 秒。 随着人们对视频需求的不断增加,高清电视、高清d v d 逐渐会取代目前的普通标 清电视和普通v c d 、d v d 。我们可以算一下,以分辨率1 9 2 0 半1 0 8 0 为例,一幅高清的4 : 2 :2 采样图片大小约为4 m b ,如果帧率为3 0 f p s ,两个小时的高清d v d 的数据量约 8 7 0 g b ,如果按实时传输带宽算,则需要达到1 g b p s 的带宽。 像上述这样大的数据量,给存储器的存储容量、通信干线信道的传输带宽以及计 算机的处理速度造成了极大的压力。如果单纯靠增加存储器容量,提高信道带宽以及 计算机的处理速度等方法来解决这个问题是跟不上需求的。因为这样做需要太多的成 本,并不是每一个用户都能承受的起。因而,视频编码技术是解决以上问题的一个行 之有效的办法。通过数据编码手段把视频信息数据量压缩下来,以压缩后的信息存储 北方工业大学硕士学位论文 和传输,既节约了存储空间,又提高了通信干线的传输效率,同时也使计算机能够实 时处理视频信息,使播放高质量的视频节目成为可能。视频编码现在已成为通信、多 媒体计算机领域研究的重点课题。 视频编码是对运动图像的压缩。其目的是节省图像存储空间、减少传输信道的容 量、缩短图像加工处理时间。图像数据是可以被压缩的,支持这一理论的依据有: ( 1 ) 允许图像编码有一定的失真; ( 2 ) 图像数据的冗余性; 对于多媒体数据来说,有着很大的压缩潜力。多媒体数据中存在着多种数据冗余。 信息中数据冗余的现象比较普遍,数据冗余的种类也不尽相同。归纳起来,一般有以 下几种。 1 ) 空间冗余 规则物体的表面具有物理相关性,将其表面数字化后表现为数据冗余。例如,一 面白墙,上面挂着一幅画,拍成数字照片后,墙面上除了挂画的地方,其余的地方全 部是相同的颜色( 白色) 。这就是说,墙面所有像素与相邻颜色信息完全相同,在统 计上是冗余的。冗余的像素数据可以压缩,甚至位置相邻并且颜色极为接近的像素数 据也可以压缩,只要掌握适度就可以保证图像良好的视觉效果。 2 ) 时间冗余 视频信号和动画等有序排列的图像很容易产生数据冗余现象。在播放有序排列图 像时,相邻画面中同一位置的内容有变化,则这一位置的内容是“活动”的。而相邻 画面中的其余内容没有变化,画面视觉效果相对静止,这时,相邻画面无变化的内容 构成了时间上的冗余。 3 ) 统计冗余 统计冗余是空间冗余和时间冗余的总称。在数据处理时,往往采用统计出现概率 的办法来鉴别空间冗余和时间冗余,因此空间冗余和时间冗余具有统计特性。例如, 某图像中,相邻的相同特性像素重复出现的概率很小,相邻像素的相关性不大,冗余 就会很小,或不发生冗余。 4 ) 结构冗余 在数字化图像中,具有规则纹理的表面、大面积相互重叠的相同图案,规则有序 排列的图形等结构,都存在数据冗余,这种结构上的冗余叫做“结构冗余”。 5 ) 信息熵冗余 信息熵冗余也叫“编码冗余”,信息熵是指一团数据所携带的信息量,信息熵冗 余则在一团数据的内部产生。信息熵总是小于携带该信息量的数据量,因此数据中间 总是存在信息熵冗余。 北方工业大学硕士学位论文 6 ) 视觉冗余 人类的视觉敏感度一般小于图像的表现力,图像的微小色彩变化、亮度层次的细 腻变化以及轮廓的细微差别不易察觉,这就产生了视觉冗余。 ( 7 ) 知识冗余 知识是人类独有的,是认知自然、总结规律而得到的。人类一旦掌握了知识,凭 借经验就可辨别事物,无须进行全面的比较和辨别。图像的理解与某些基础知识有关。 例如,人脸的图像有同样的结构:嘴的上方有鼻子,鼻子上方有眼睛,鼻子在中线上。 多媒体视频信息存在大量的冗余度并且这种冗余度在编解码后可以无失真地恢 复。大多数情况下,并不要求经过编码后的图像和原图完全相同,而允许有少量失真, 只要这些失真不被人眼查觉就可以接受。这是利用人的视觉系统( h v s ,h u m a nv i s u a l s y s t e m ) 特性,在图像变化不被觉察的条件下减少量化信号的灰度级,以一定的客观 失真换取数据压缩。这给压缩比的提高提供了有利的条件,可允许的失真愈多,可实 现的压缩效率就愈高。 视频数据的编码都可以看成是一种变换,解码则是一种逆变换,变换的实现方法 即编码技术。每一种编码方法都是实现数据压缩的具体操作,对于不同的数据,可以 有选择地采取某种编码方法。视频数据压缩可分为有损压缩和无损压缩两类。 无损压缩算法是为保留原始多媒体对象( 包括图像、语音和视频) 而设计的。在 无损压缩中,数据在压缩或解压缩过程中不会改变或损失,解压缩产生的数据是对原 始对象的完整复制,无损压缩编码基于信息熵原理,属于可逆编码( r e v e r s i b l e c o d i n g ) 。典型的可逆编码有:霍夫曼编码、算术编码、行程编码等。可逆编码压缩 比一般不高,用于要求严格、不允许丢失数据的场合。 当图像的冗余度很少( 即同类像素重复性很小) 时,用无损压缩技术无法得到预 期的压缩效果,这时就要采用有损压缩。有损压缩会造成一些信号的损失,关键问题 是看这种损失对图像质量带来的影响。只要这种损失被限制在允许的范围内,有损压 缩就是可接受的。图1 1 的两幅图像压缩比为4 1 :1 ,而压缩前后图像质量无明显差 异,即肉眼看可以接受。 北方工业大学硕士学位论文 a ) 原始位图3 5 2 x 2 8 8 x 2 4 ,2 9 7 k bb ) j p g 压缩后7 2 k b 图1 1 压缩前后图像质量对比 有损压缩编码是有损压缩形成的编码,有损压缩具有不可恢复性和不可逆性。有 损压缩技术主要的应用领域是在影像节目、可视电话会议和多媒体网络这样的由音 频、彩色图像和视频组成的多媒体应用中,并且得到了较广泛的应用。 因为图像数据具有可压缩性,有大量的所谓统计性质的多余度,从而产生生理视 觉上的多余度,去掉这部分图像数据并不影响视觉上的图像质量,甚至去掉一些图像 细节对于实际图像的质量也无致命的影响。正因为如此,可以在允许保真度的条件下 压缩待存储的图像数据,大大节约存储空间,节约数据传输的带宽,节省用来进行图 像传输的、存储和管理的昂贵的通信信道和昂贵的硬件。 多媒体的数据量和信息量关系为i = d d u ,i 、d 、d u 分别为信息量、数据量和冗 余量( d 中的数据冗余) 。而信息量是要传输的主要数据,数据冗余是无用的数据, 没有必要传输。 多媒体视频信号的冗余度存在于结构和统计两方面。在结构上的冗余度表现为很 强的空间( 帧内) 、和时间( 帧问) 相关性。一般情况下画面的大部分区域信号变化 缓慢,尤其是背景部分几乎不变。因此,视频信号在相邻像素间、相邻行间、相邻帧 之间存在很强的相关性,这种相关性就表现为空间冗余和时间冗余。因此,视频压缩 的压缩率一般要比静态图像的压缩率更高。 1 3 视频编码的主要研究内容 视频编码的研究内容主要有数据压缩比、压缩解压速度及快速实现算法等几个 方面的内容。 传统压缩编码建立在s h a n n o n ( 香农) 信息论基础之上,以经典集合论为工具, 用概率统计模型来描述信源,其压缩思想基于数据统计,因此只能去除数据冗余,属 于低层压缩编码的范畴。 伴随着视频编码相关学科及新兴学科的迅速发展,新一代数据压缩技术不断诞生 北方工业大学硕士学位论文 并日益成熟,其编码思想由基于像素和像素块转变为基于内容( c o n t e n t - b a s e d ) 。它 突破了s h a n n o n 信息论框架的束缚,充分考虑了h v s 特性及信源特性,通过去除内容 冗余来实现数据压缩。 北方工业大学硕士学位论文 2 视频编码理论与a v s 标准 2 1 视频编码理论 2 1 1 信息量的表示方法 视频编码主要是利用减少信源中的信息冗余来达到数据压缩的目的,真正的理论 研究开始于s h a n n o n 的信息论。信息论首次对信息概念进行了科学的表述,并给出了 信息的科学度量方法。信息论中的无损信源编码定理和率失真理论是整个视频压缩编 码理论的基础。 假设用概率空间 x ,p 来描述一个信源,x = m 1 ,m 2 ,m k ) 是信源所有可能 消息的集合,p = p l ,p 2 ,p k 是对应的先验概率分布,则消息m i 的自信息量 由式( 2 1 ) 定义: ,( 鸩) = 一l o g a ( 2 1 ) 信源消息的平均信息量h 由式( 2 2 ) 给出: 日= 一p fl 。g 肛 ( 2 2 ) f 其中,h 也称作信源的熵,它是信源编码的码率所能达到的极限。 设离散信源输出平稳序列:x 1 ,x 2 ,x i ,其中x i 取值于集合 a 1 ,a 2 , a k ,则我们可以根据式( 2 3 ) 求得n 长的序列中平均每个信源符号的信息熵: 日= 一专骞妻尸c x = ,h = ,0 9 以_ = 气,= ) ( 2 3 ) 日= 熙巩( 2 式( 2 4 ) 中,若日 , o ,只要满足: j 、日( s ) + g l o ( 2 5 ) 则当n 足够大时,译码错误概率可能为任意小。当采用二元编码时,r = 2 ,式 ( 2 5 ) 成为: 专日p ) 坩 ( 2 6 ) 由此可以看出,等长信源编码定理给出了等长编码时每个信源符号所需的二元码 符号的理论极限,这个理论极限由h 决定。 变长信源编码定理:若一个离散无记忆信源s 具有熵h ( s ) ,并存在含有r 个字 母的码符号集,则总能找出一种无失真的编码方法,构成唯一可译码,使其平均码长 满足: 型z 表示能使平均失真小于或等于d 的所有转移概率的集合。i ( u ,v ) 为 接收端获得的平均信息量,它的最小值仅与d 有关。可以看出,率失真函数给出了 在满足限失真准则( 平均失真不大于d ) 的条件下,信源必须传输的信息率r 的下限 值。当每个信源符号的比特数低于r ( d 时,不存在能使失真小于d 的编码方法。而 给定允许的最大失真d 时,也没有一种编码方法可以使每个信源符号的比特数低于 d 。一般,r ( d ) 是很难计算的,只有在一些特殊情况下可以得到r ( d ) 函数的表达式。 2 2 感知模型 建立感知模型可以对编码器的性能作出评价,并能根据评价结果检验编码系统, 从而确定编码系统的优劣,以及对编码系统的改进是否值得或者是否成功作出评估。 衡量一个视频编码器的优劣主要涉及两方面的因素:算法的编码效率( 即算法复杂度 和压缩比) 和还原图像质量。 由于量化过程必然会引起失真,只要图像质量在最终接收者可以容忍的范围内, 这种失真自然是可以提高压缩效率的。但另一方面,有失真自然就会涉及到信号压缩 性能的评价问题,由于失真的程度,涉及到接收者的容忍程度,所以对压缩性能的评 价,有客观评价与客观测量两个方面来评价。信号压缩性能也就是好坏程度,它是对 信号质量的评价,也就对图像失真度的测量。它通过客观度量如信噪比来表示,也可 以用主观评价如平均评分这二方面来评价。 北方工业大学硕士学位论文 2 3 视频编码标准的发展历程与现状 最初的视频编码标准是由i s o i e c 制定的m p e g x 以及i t u t 制定的h 2 6 x 系列 视频编码标准。从h 2 6 1 视频编码建议,到h 2 6 2 3 、m p e g 一1 2 4 等都有一个共同的 不断追求的目标,即在尽可能低的码率( 或存储容量) 下获得尽可能好的图像质量。 而且,随着市场对图像传输需求的增加,如何适应不同信道传输特性的问题也日益显 现出来。于是i e o i e c 和i t u t 两大国际标准化组织联手制定了视频新标准h 2 6 4 来解决这些问题。 h 2 6 1 是最早出现的视频编码建议,目的是规范i s d n ( 综合业务数字网) 上的会 议电视和可视电话应用中的视频编码技术。它采用的算法结合了可减少时间冗余的帧 问预测和可减少空间冗余的d c t 变换的混合编码方法。和i s d n 信道相匹配,其输出 码率是p 木6 4 k b i t s 。p 取值较小时,只能传清晰度不太高的图像,适合于面对面的电 视电话;p 取值较大时( 如p 6 ) ,可以传输清晰度较好的会议电视图像。h 2 6 3 建 议的是低码率图像压缩标准,在技术上是h 2 6 1 的改进和扩充,支持码率小于 6 4 k b i t s 的应用。但实质上h 2 6 3 以及后来的h 2 6 3 + 和h 2 6 3 + + 已发展成支持全码 率应用的建议,从它支持众多的图像格式这一点就可看出,如s u b q c i f 、q c i f 、c i f 、 4 c i f 甚至1 6 c i f 等格式。 m p e g 一1 标准的码率为1 2 m b i t s 左右,可提供3 0 帧c i f ( 3 5 2 木2 8 8 ) 质量的图像, 是为c d r o m ( 光盘) 的视频存储和播放所制定的。m p e g l 标准视频编码部分的基本 算法与h 2 6 l h 2 6 3 相似,也采用运动补偿的帧间预测、二维d c t 、v l c 游程编码等 措施。此外还引入了帧内帧( i ) 、预测帧( p ) 、双向预测帧( b ) 和直流帧( d ) 等概 念,进一步提高了编码效率。在m p e g 一1 的基础上,m p e g 一2 标准在提高图像分辨率、 兼容数字电视等方面做了一些改进,例如它的运动矢量的精度为半像素。在编码运算 中( 如运动估计和d c t ) 区分”帧”和”场”。引入了编码的可分级性技术,如空间可分 级性、时间可分级性和信噪比可分级性等。 近年推出的m p e g 一4 标准引入了基于视听对象( a v o :a u d i o v i s u a l0 b j e c t ) 的 编码,大大提高了视频通信的交互能力和编码效率。m p e g _ 4 中还采用了一些新的技 术,如形状编码、自适应d c t 、任意形状视频对象编码等。但是m p e g 一4 的基本视频 编码器还是属于和h 2 6 3 相似的一类混合编码器。 h 2 6 l 建议是视频编码的经典之作,h 2 6 3 是其发展,并将逐步在实际上取而代 之,主要应用于通信方面。但h 2 6 3 众多的选项往往令使用者无所适从。m p e g 系列 标准从针对存储媒体的应用发展到适应传输媒体的应用,其核心视频编码的基本框架 是和h 2 6 1 一致的,其中引入注目的m p e g _ 4 的”基于对象的编码”部分由于尚有技术 北方工业大学硕士学位论文 障碍,目前还难以普遍应用。因此,在此基础上发展起来的新的视频编码建议h 2 6 4 克服了两者的弱点,在混合编码的框架下引入了新的编码方式,提高了编码效率,面 向实际应用。同时,它是两大国际标准化组织的共同制定的,其应用前景应是不言而 喻的。 近些年来,我国视频编码技术取得了长足的发展,随着以a v s 为代表的视频编码 标准的提出,打破了原有的由h 2 6 x 和m p e g 系列标准一统天下的局面。 2 4a v s 视频编码标准 2 4 1a v s 视频编码标准简介 a v s ( a u d i o d e 0c o d i n gs t 锄d a r d ) 是由数字音视频编解码技术标准工作组( 简称 a v s 工作组) 起草并经国家信息产业部认证的国家标准。a v s 工作组由国家信息产业部 科学技术司于2 0 0 2 年6 月批准成立。工作组根据我国的信息产业需求,联合国内企 业和科研机构,制( 修) 订数字音视频的压缩、解压缩、处理和表示等共性技术标准, 为数字音视频设备与系统提供高效经济的编解码技术,服务于高分辨率数字广播、高 密度激光数字存储媒体、无线宽带多媒体通讯、互联网宽带流媒体等重大信息产业应 用。 a v s 标准是我国具备自主知识产权的第二代信源编码标准。顾名思义,“信源 是信息的“源头”,信源编码技术解决的重点问题是数字音视频海量数据( 即初始数 据、信源) 的编码压缩问题,故也称数字音视频编解码技术。显而易见,它是其后数 字信息传输、存储、播放等环节的前提,因此是数字音视频产业的共性基础标准,对 国家具有极其重要的战略意义。 2 4 2a v s 的主要特点 a v s 视频标准是基于我国自主创新技术和国际公开技术所构建的标准,主要面向 高清晰度和高质量数字电视广播、网络电视、数字存储媒体和其他相关应用,具有以 下特点: ( 1 ) 性能高。编码效率是m p e g 一2 的2 倍以上,与h 2 6 4 的编码效率处于同一水 平; ( 2 ) 复杂度低。算法复杂度比h 2 6 4 明显低,软硬件实现成本都低于h 2 6 4 ; ( 3 ) 我国掌握主要知识产权,专利授权模式简单,费用低。 ( 4 ) 实现成本低。软件和硬件实现成本都比h 2 6 4 低; ( 5 ) 8 木8 的整数变换与6 4 级量化; ( 6 ) 亮度和色度帧内预测都是以8 :i c 8 块为单位,亮度块采用5 种预测模式,色 度块采用4 种预测模式; 北方工业大学硕士学位论文 ( 7 ) 采用1 6 木1 6 、1 6 木8 、8 :l c l 6 和8 水8 等四种块模式进行运动补偿; ( 8 ) 在1 4 像素运动估计方面,采用不同的四抽头滤波器进行1 2 像素插值和 1 4 像素插值: ( 9 ) p 帧可以利用最多两帧的前向参考帧,而b 帧采用前后各一个参考帧。 ( 1 0 ) 在熵编码部分,m p e g 一4 a v c h 2 6 4 采用e g ( 指数哥伦布码) ,c a v l c ( 基于 上下文的自适应变长编码,见文献 1 6 ) 和c a b a c ( 基于上下文的自适应二进制算术 编码) 三项技术。而a v s 视频标准使用8 木8 块变换,因此针对4 半4 块变换设计的c a v l c 并不实用,而c a b a c 虽然性能相对于c a v l c 有明显提高,但计算复杂度较高,而且为 专利收费技术,不适合用于a v s 。 2 4 3a v s 标准的基本结构 a v s 系列标准一共包括9 个部分。这9 个部分分别为: 系统 视频 音频 致性测试 参考软件 数字媒体版权管理 移动视频 在i p 网络上传输a v a v s 文件格式 其中第2 部分“视频 已于2 0 0 6 年3 月通过信息产业部认证,正式成为国 家标准( 编号为g b t 2 0 0 9 0 一2 0 0 6 ) 。a v s 的其它部分报批稿基本都已完成,目前正在 准备其认证工作。a v s 标准以当前国际上最先进的m p e g 一4 a v c h 2 6 4 框架为基础,强 调自主知识产权,同时充分考虑了实现的复杂度。 2 5a v s 的主要技术 a v s 的主要技术包括:8 木8 整数变换、量化、帧内预测、像素插值、帧间预测二 维熵编码、环路滤波等。 2 5 1 帧内预测 a v s 视频标准使用帧内预测技术来提高帧内编码宏块的编码效率,预测时使用当 前块的左边块和上边块中的相邻像素作为参考像素。帧内预测以8 木8 亮度块和色度块 为单位,其中定义了5 种8 木8 亮度块预测模式和4 种8 木8 色度块预测模式( 见表2 1 和表2 2 ) ,在编码质量相当的前提下,a v s 与h 2 6 4 相比较,降低了帧内预测的复杂 北方工业大学硕士学位论文 度。 表2 1 亮度8 车8 块的帧内预测模式 镪自$ 静二9 :? r 一? 。o。= 。 1 。7 。: 础。赫纛囊氧姆,纛纛旃? 。j 麓。瀚蕤蕊j 劬麓n 襄a l u m a 黯e 蛐粤黪二。纛, o i n t r 2 l 8 木8 y e r t i c a l 1 i n t r a 8 丰8 h o r i z o n t a l 2 i n t r a - 8 木8 p c 3 i n t r a 8 掌8 p o w n _ l e f t 4 i n t r a 8 幸8 d o w n r i g h t 表2 2 色度8 褐块的帧内预测模式 j * 嘶? j 世? t ,。:7 ,“ 。?一一, j “:纛纛荔箩名称| 爱i 雾雾爹溪 蘸豢转掣肄鲫簪擎d 蜷哆,;纂荔,獬毒“j # 锥一,一,、一, 一r 一 ,卉 。懈* 一 oi n t ra _ - c h r o m a - d c 1 i n t r a - c h r o m a _ h o r iz o n t a l 2 i n t r a c h r o m a v e r ti c a l 3 i n t r a c h r o m a p 1 a n e 2 5 2 帧间预测 帧间预测编码是混合编码技术框架中最重要的部分之一。a v s 标准采用了1 6 木1 6 、 1 6 木8 、8 木1 6 和8 木8 等块模式进行运动补偿,而去除了m p e g 一4 a v c h 2 6 4 标准中的8 木4 、 4 宰8 和4 :i c 4 的块模式,目的是能更好地刻画物体运动,提高运动搜索的准确性。实验 表明,对于高分辨率视频,a v s 选用的块模式已经能足够精细地表达物体的运动。较 少的块模式,能降低运动矢量和块模式传输的开销,从而提高压缩效率、降低编解码 实现的复杂度。 a v s 采用了1 4 像素精度的运动补偿技术。m p e g 一4 a v c h 2 6 4 采用6 抽头滤波器 进行1 2 像素插值并采用双线性滤波器进行1 4 像素插值。而a v s 采用不同的4 抽头 滤波器进行1 2 像素插值和l 4 像素插值,在不降低性能的情况下减少插值所需要的 参考像素点,减小了数据存取带宽需求,这在高分辨率视频压缩应用中是非常有意义 的。 在传统的视频编码标准( m p e g x 系列与h 2 6 x 系列) 中,双向预测帧b 帧都只 有一个前向参考帧与一个后向参考帧,而前向预测帧p 帧则只有一个前向参考帧。而 新近的m p e g 一4 a v c h 2 6 4 充分地利用图片之间的时域相关性,允许p 帧和b 帧有多个 参考帧,最多可以有3 1 个参考帧。多帧参考技术在提高压缩效率的同时也将极大地 北方工业大学硕士学位论文 增加存储空间与数据存取的开销。a v s 中p 帧可以利用至多2 帧的前向参考帧,而b 帧采用前后各一个参考帧,p 帧与b 帧( 包括后向参考帧) 的参考帧数相同,其参考 帧存储空间与数据存取的开销并不比传统视频编码的标准大,而恰恰是充分利用了必 须预留的资源。 a v s 的b 帧的双向预测使用了直接模式( d i r e c t m o d e 、对称模式 ( s y 咖e t r i c m o d e ) 和跳过模式( s k i p m o d e ) 。使用对称模式时,码流只需要传送前向 运动矢量,后向运动矢量可由前向运动矢量导出,从而节省后向运动矢量的编码开销。 对于直接模式,当前块的前、后向运动矢量都是由后向参考图像相应位置块的运动矢 量导出,无需传输运动矢量,因此也可以节省运动矢量的编码开销。跳过模式的运动 矢量的导出方法和直接模式的相同,跳过模式编码的块其运动补偿的残差也均为零, 即该模式下宏块只需要传输模式信号,而不需要传输运动矢量、补偿残差等附加信息。 2 5 3 变换和量化 通过变换,离散序列的统计特性会发生变化,在数据压缩中,则常常希望序列的 相关性降低,从而对变换后的序列进行编码时码率能够得到下降。 离散余弦变换( d i s c r e t ec o s i n et r a n s f o r m ) 简称d c t 。任何连续的实对称函数的 傅里叶变换中只含余弦项,因此余弦变换与傅里叶变换一样有明确的物理量意义。d c t 是先将整体图像分成n 木n 像素块,然后对n 划像素块逐一进行d c t 变换。 由于大多 数图像的高频分量较小,相应于图像高频成分的系数经常为零,加上人眼对高频成分 的失真不太敏感,所以可用更粗的量化,因此传送变换系数所用的数码率要大大小于 传送图像像素所用的数码率。到达接收端后再通过反离散余弦变换回到样值,虽然会 有一定的失真,但人眼是可以接受的。d c t 和反d c t 变换公式如式( 2 1 0 ) , 唯岫q k ( v 蓬篓炖加s 乌竽h 翔 r 0 ,= a q k ( v ) g ,力c o ! 等l c o s | ! 等l 删 声ol ,1 jl j 材,= 0 ,l ,一l b 力= 篓篓仅g k ( v 沙 v ) c 。s 学 c 。s 瞥 b 力= 仅g k ( v 沙 v ) c o s l 兰警i c o s i 竺等| 训= 0 ,l ,一l,) 1n 、 n 代表像素数,一般n - 8 ,8 枣8 的二维数据块经d c t 后变成8 木8 个变换系数,这些 系数都有明确的物理意义:u 代表水平像素号,v 代表垂直像素号。如当u = 0 ,v = o 时,t ( o ,0 ) 是原6 4 个样值的平均,相当于直流分量,随着u 、v 值增加,相应系数 分别代表逐步增加的水平空间频率分量和垂直空间频率分量的大小 北方工业大学硕士学位论文 a ) 一维d c t 基底向量( n = 8 ) b ) 二维d c t 基底向量( n 木n = 8 :i :8 ) 图2 2 d c t 变换 d c t 本身并不能进行码率压缩,只是在经过量化后,特别是按人眼的生理特征对 低频分量和高频分量设置不同的量化,会使大多数高频分量的系数变为零。一般说来, 人眼对低频分量比较敏感,而对高频分量不太敏感。因此对低频分量采用较细的量化, 而对高频分量采用较粗的量化。 量化是一种多对一的映射,是引入失真的一个过程,也是限失真信源编码技术的 基础。无论是对时间采样后的模拟信号进行数字化的过程,还是对数字序列进行有损 压缩的过程,都需要完成一个由输入集合到输出集合的映射,这个映射是由量化来实 现的。最简单的量化方法是将单个样本的取值进行量化,因为被量化的变量是一维的, 所以这种量化方法叫做标量量化。 设n 阶标量量化器的输入为连续随机变量x ,输出为离散随机变量y ,其中: x ( a o ,a n ) ,y y l ,y 2 ,y n ) ,a o y l a l y 2 a n 1 y n a n 。 则v 的取值由下式决定: y = y i 若a i 1 x 最常用的是峰值信噪比( p s n r ) ,设口一= 2 一1 ,k 是表示一个像素点用的2 进制 位数,则 鄱,歹) 】2 ( 3 5 ) k h案 一,p 两脚i _ 枷 。,l 蚓 m 北方工业大学硕士学位论文 4a v s 编码器在多d s p 平台上的实现 4 1 处理器选择 视频信息的数据量巨大,处理器作为编码器的核心器件,需要承担海量数字运算 的任务。因此视频编码器应具有非常强大的数据处理能力。 通常,可供选择的处理器有通用处理器、单片机和数字信号处理器。通用处理器 主要用作微型计算机的中央处理器。单片机将整个计算机系统集成到一块芯片中,架 构相对简单,目前常见的有8 1 6 3 2 位单片机。单片机的主频一般都比较低,主要用 于工业控制领域。 d s p 是一种特别适合于进行数字信号处理的微处理器,其主要应用是实时快速地 实现各种数字信号处理算法。它的运算速度比其它处理器要高得多,以f f t 为例,高 性能d s p 不仅处理速度是普通单片机的4 1 0 倍,而且可以连续不断地完成数据的 实时输入输出。另外,d s p 结构相对单一,其任务完成时间的可预测性相对于结构 和指令复杂( 超标量指令) 、严重依赖于编译系统的单片机强得多。在相同的指令周 期和片内指令缓存条件下,d s p 的运算速度可以超过单片机倍4 以上。 视频信号作为数字信号处理的重要应用之一,相对于模拟信号处理有很大的优越 性。主要表现在精度高、灵活性大、可靠性好、易于大规模集成等方面。随着人们对 实时信号处理要求的不断提高和大规模集成电路技术的迅速发展,数字信号处理技术 也发生着日新月异的变革。实时数字信号处理技术的核心和标志是数字信号处理器。 自第一个d s p 问世以来,d s p 技术水平得到了十分迅速的发展,而快速傅立叶变 换等实用算法的提出促进了d s p 的分化和发展。数字信号处理有别于普通的科学计算 与分析,它强调运算处理的实时性,因此d s p 除了具备普通微处理器所强调的高速运 算和控制功能外,针对实时数字信号处理,在处理器结构、指令系统、指令流程上具 有许多新的特征,其特点如下: ( 1 ) 算术单元 具有硬件乘法器和多功能运算单元,硬件乘法器可以在单个指令周期内完成乘法 操作,这是d s p 区别于通用的微处理器的一个重要标志。多功能运算单元可以完成加 减、逻辑、移位、数据传送等操作。新一代的d s p 内部甚至还包含多个并行的运算单 元。以提高其处理能力。 ( 2 ) 总线结构 传统的通用处理器采用统一的程序和数据空间、共享的程序和数据总线结构,即 所谓的冯诺依曼结构。d s p 普遍采用了数据总线和程序总线分离的哈佛结构或者改 进的哈佛结构,极大的提高了指令执行速度。片内的多套总线可以同时进行取指令和 北方工业大学硕士学位论文 多个数据存取操作,许多d s p 片内嵌有d m a 控制器,配合片内多总线结构,使数据块 传送速度大大提高。 如t i 公司的c 6 0 0 0 系列的d s p 采用改进的哈佛结构,内部有一套2 5 6 位宽度的 程序总线、两套3 2 位的数据总线和一套3 2 位的d m a 总线。a d i 公司的s h a r c 系列d s p 采用超级哈佛结构( s u p e rh a r v a r e da r c h i t e c t u r ec 0 m p u t e r ) ,内部集成了三套总 线,即程序存储器总线、数据存储器总线和输入输出总线。 ( 3 ) 专用寻址单元 d s p 面向数据密集型应用,伴随着频繁的数据访问,数据地址的计算也需要大量 时间。d s p 内部配置了专用的寻址单元,用于地址的修改和更新,它们可以在寻址访 问前或访问后自动修改内容,以指向下一个要访问的地址。地址的修改和更新与算术 单元并行工作,不需要额外的时间。 d s p 的地址产生器支持直接寻址、间接寻址操作,大部分d s p 还支持位反转寻址 ( 用于f f t 算法) 和循环寻址( 用于数字滤波算法) 。 ( 4 ) 片内存储器 针对数字信号处理的数据密集运算的需要,d s p 对程序和数据访问的时间要求很 高,为了减小指令和数据的传送时间,许多d s p 内部集成了高速程序存储器和数据存 储器,以提高程序和数据的访问存储器的速度。 如t i 公司的c 6 0 0 0 系列的d s p 内部集成有l 7 m b 的程序和数据r a m ;a d i 公司 的s h a r c 系列d s p 内部集成有0 5 m 2 m b 的程序和数据r a m ,t i g e rs h a r c 系列d s p 内部集成有6 m b 的程序和数据r a m 。 ( 5 ) 流水处理技术 d s p 大多采用流水技术,即将一条指令的执行过程分解成取指、译码、取数、执 行等若干个阶段,每个阶段称为一级流水。每条指令都由片内多个功能单元分别完成 取指、译码、取数、执行等操作,从而在不提高时钟频率的条件下减少了每条指令的 执行时间。 ( 6 ) d s p 与其它处理器的差别 数字信号处理器( d s p ) 、通用微处理器( m p u ) 、微控制器( m c u ) 三者的区别在 于:d s p 面向高性能、重复性、数值运
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年铁路专业试题及答案
- 2025年护士执业资格考试试卷及参考答案
- 2025年义务教育2022年版《道德与法治课程标准》真题试卷附参考答案
- 2025年护士职业道德与法律责任考核试卷及答案
- 外泌体抗衰课件
- 明星K歌挑战赛创新创业项目商业计划书
- 棉花文化创意园区创新创业项目商业计划书
- 平面设计软件创新创业项目商业计划书
- 小龙虾适应性养殖创新创业项目商业计划书
- 宠物食品包装设计大赛创新创业项目商业计划书
- 输血规范培训制度
- 第一单元与班级共成长 教学设计-2023-2024学年道德与法治四年级上册(部编版)
- 房子互换简单协议书
- 山东省化工和危险化学品企业“三基”“三纪”工作指南
- 钢结构厂房基础施工承包合同
- 肿瘤患者全程健康管理
- 劳务分包加采购合同标准文本
- 非标设备维护培训
- 带状疱疹护理课件
- 呼吸功能障碍的支持
- 【MOOC】理解马克思-南京大学 中国大学慕课MOOC答案
评论
0/150
提交评论