(通信与信息系统专业论文)h264帧内模式选择算法研究及在dsp上的优化实现.pdf_第1页
(通信与信息系统专业论文)h264帧内模式选择算法研究及在dsp上的优化实现.pdf_第2页
(通信与信息系统专业论文)h264帧内模式选择算法研究及在dsp上的优化实现.pdf_第3页
(通信与信息系统专业论文)h264帧内模式选择算法研究及在dsp上的优化实现.pdf_第4页
(通信与信息系统专业论文)h264帧内模式选择算法研究及在dsp上的优化实现.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(通信与信息系统专业论文)h264帧内模式选择算法研究及在dsp上的优化实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

武汉理工大学硕士学位论文 摘要 新一代视频压缩标准h 2 6 4 a v c 支持从低带宽、高误码率的无线移动视频 通信到高码率、低延迟的视频会议及在线流媒体等多种应用,在多媒体领域得 到广泛关注和认同。相比于以前的标准,h 2 6 4 能有效地提高编码器的压缩性能, 但是标准的高复杂度也是目前视频应用的主要制约因素,所以研究标准在d s p ( d i g i t a ls i n g n a lp r o c e s s o r ) 上的实现及优化是非常有意义的。 本文首先对h 2 6 4 的核心技术进行分析研究,内容主要包括帧内帧间预测、 整数变换、量化、熵编码等,分析了它们的研究现状和在新标准中的创新点, 在此基础上总结出了h 2 6 4 a v c 未来的发展趋势。 其次,研究了当前主要的两种帧内模式决策快速算法,一种是基于分组像 素点的快速决策算法,该方法用分组像素点来代表一个块,在决策过程中每一 个步骤中仅计算一组像素点的代价函数,以此减少计算点数,降低了复杂度; 另一种算法是基于边缘方向直方图的快速决策算法,通过获得宏块的边缘方向 信息,来确定预测模式的方向,从而获得最优或次优的帧内预测模式。本文从 预测模式代价函数的选择和提前终止模式判决的基础上,提出了一种新的快速 帧内预测模式算法,实验证明本文提出的算法与原算法相比,可以节约5 0 7 5 左右的编码计算时间,信噪比平均下降0 0 3 d b ,码率有所上升。 最后分析了t i 公司的t m s 3 2 0 d m 6 4 2 芯片的系统结构,详细研究了h 2 6 4 在d s p 平台上的优化方法,所做的工作包括:调整存储空间的分配,改变存取 的方式和变量的定义,采用内联函数,循环内部流水,线性汇编等方法对h 2 6 4 中影响编码速度的瓶颈函数进行优化,结合d m 6 4 2 的两级c a c h e 结构充分发挥 d m a 的能力等。 通过优化前后实验结果的对比,可以看出基于d s p 编码器的编码速度从之 前的1 4 5 帧秒提高到8 3 5 帧秒,速度提高了6 倍,取得了较好的优化结果。 关键词:视频压缩编码,h 2 6 4 ,d m 6 4 2 ,帧内预测模式,优化 武汉理工大学硕士学位论文 a b s t r a c t h 2 6 4 a v cv i d e oc o d i n gs t a n d a r di sd e s i g n e dt og i v ean e wt e c h n i c i a ls o l u t i o n t oab r o a dr a n go fa p p l i c a t i o n s ,s u c ha sl o w b i t r a t ec o n v e r s a t i o n a ls e r v i c e sa n d e n t e r t a i n m e n tq u a l i t yb r o a d c a s t ,i n t e r a c t i v ev i d e o - o n - d e m a n ds e r v i c ee t c s ot h i s s t a n d a r do b t a i n sm u c ha t t e n t i o nf r o ma c a d e m i ca n di n d u s t r i a lf i e l d s c o m p a r e dw i t h p r i o rs t a n d a r d s ,h 2 6 4h a sa c h i e v e dg r e a te f f i c i e n c yi nc o m p r e s s i o no fv i d e o ,b u tt h e h i g h - c o m p l e x i t yo fh 2 6 4 h a sa l w a y sb e e naf a c t o ro fr e s t r i c t i o no fa p p l i c a t i o n m o s t l y ,s ot os t u d yt h ei m p l e m e n ta n do p t i m i z a t i o no fh 2 6 4b a s e do nd s pi s s i g n i f i c a n t i nt h i sp a p e r ,t h e k e yt e c h n o l o g i e so fh 2 6 4a r e i n t r o d u c e df i r s t ,s u c ha s i n t r a i n t e rp r e d i c t i o n ,i n t e g e rt r a n s f o r ma n dq u a n t i z a t i o n ,e n t r o p yc o d i n g w eg i v ea d e t a i l e da n a l y s i sa b o u tt h ei n n o v a t i o na n dt h er e s e a r c ha c t u a l i t ym e n t i o n e da b o v e , s e q u e n t i a l l yt h ef u t u r ea b o u th 2 6 4 s e c o n d l y ,t h ep a p e rg i v e sad e t a i l e da n a l y s i sa b o u tt w oa r i t h m e t i c so ff a s ti n t r a p r e d i c t i o n ,t h eo n ei sn a m e da sas u b - p i x e lr a p i dm o d e d e c i s i o na l g o r i t h m ,w h i c h u s e sas u b - p i x e lp o i n ti n s t e a do fab l o c k p i x e lp o i n t e v e r ys t e pi nt h em o d e - d e c i s i o n o n l yt oc a l c u l a t i o nas u b - p i x e lp o i n tt or e d u c et h ec o m p l e x i t yo fc a l c u l a t i o n ;t h e o t h e ri sb a s e do nt h ed i r e c t i o no ft h ee d g eo ft h eh i s t o g r a mr a p i dm o d e d e c i s i o n a l g o r i t h m ,a n dc o u n t st h eb r i n kd i r e c t i o no ft h em a c r o b l o c k , d e t e r m i n i n gt h ed i r e c t i o n o ff o r e c a s t i n gm o d e l s ,i no r d e rt oo b t a i nt h eb e s to rt h es e c o n d b e s ti n t r a p r e d i c t i o n m o d e c o n s i d e r i n gt h ec o s tf u n c t i o na n dt h en u m b e ro fp r e d i c t i o nm o d e l s ,t h ep a p e r p r o p o s e saf a s ti n t r ap r e d i c t i o na l g o r i t h m t h er e s u l t ss h o wt h a tt h en e wa l g o r i t h m c a nr e d u c et h ec o d i n gt i m eb y5 0 w h i l et h er a t ea n dp s n r c h a n g el i t t l e l a s t l y ,t h ep a p e rg i v e sa n i n t r o d u c t i o no fs t r u c t u r eo ft m s 3 2 0 d m 6 4 2 c h i p s s e v e r a lk e yt e c h n i q u e sc o n c e m i n gt h ep o r t i n go fh 2 6 4e n c o d e rf r o mp ct o d s p ,s u c ha st h em e m o r ya s s i g n m e n t ,t h em o d i f i c a t i o no fa c c e s sm o d ea n dv a r i a b l e d e f i n i t i o n , i n l i n ea s s e m b l ya n da p p l i c a t i o no fp i p e l i n e ,l i n e a ra s s e m b l y ,d m ab a s e d o nt w o l e v e lh i e r a r c h yc a c h e ,a r ea d o p t e di nt h eo p t i m i z a t i o np r o c e d u r e s i i 武汉理工大学硕士学位论文 t h eh 2 6 4e n c o d e ro nd s pi so p t i m i z e dt o8 3 5f r a m e sp e rs e c o n de n c o d i n g p e r f o m a c ef o rc i fr e s o l u t i o nv i d e o ,c o m p a r e dt o 1 4 5f r a m e sp e rs e c o n db e f o r e o p t i m i z a t i o n k e yw o r d s :v i d e oc o m p r e s sc o d e ,h 2 6 4 ,d m 6 4 2 ,i n t r ap r e d i c t i o nm o d e , o p t i m i z a t i o n i i i 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 签名:主仁e t 期:j 翌箜山皇生 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权 保留、送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:圭聋翩签名:塑堕【堑吾期:塑李! 兰堕! 1 9 i 武汉理工大学硕士学位论文 1 1 引言 第1 章绪论 自上世纪7 0 年代以来,计算机与数字信号处理技术有了突飞猛进的发展, 互联网的逐步普及,人们已经不能再满足于文字声音的传输,对于宽带网络的 需求和对网络实时传输的要求越发的强烈,更加追求视频图象的实时传输。目 前网络视频技术得到了突飞猛进的发展,例如:网上电视会议,网上在线视频 点播等等。但是这些技术都需要压缩技术的支持,因为数据传输量极大,单纯 的大容量存储设备或者增加通信干线的传输率都是不现实的,数据压缩技术是 一种非常有效的解决方法,这样既不用提供大容量的存储设备也可以在现有的 网络上实现高速的通信。在视频数据压缩的过程中,需要满足三方面的要求: 第一,视频编码器要有足够的压缩比,这样才能保证在一定的网络带宽的情况 下传输视频。第二,视频在压缩的过程中,要保持一定的质量,不能一味的追 求高的压缩比。第三,在保证压缩后的视频的实时性,特别是对与一些实时性 要求很高的业务,如视频监控。在满足这三个要求的同时,视频编码器的实现 过程要力求简单,成本低,可靠性高。编码算法的优劣直接影响到视频编码的 效果。h 2 6 4 t l 】视频编码标准是2 0 0 3 年5 月获得批准的新一代视频编码国际标准。 同以往标准相比,它采用了许多新技术。h 2 6 4 最大的优势在于它是一个甚低码 率的编码方式,这就为带宽资源比较紧张的用户提供了低带宽下获得高质量图 像的可能。同时,h 2 6 4 在设计之初就考虑到了在不同网络资源下的分级编码传 输。它具有较强的容错能力,在质量不稳定的网络环境中,可以得到比h 2 6 3 编码视频更好的质量。随着视频通信应用逐渐从政府和企业专网向公众网转移, h 2 6 4 的抗干扰特性将会发挥关键作用。视频监控系统的广泛应用对运行环境及 成本都提出了更高的要求,原来的p c 平台已经不能满足要求,同时d s p 的迅 速发展则使其应用范围不断扩大,基于d s p 硬件平台的嵌入式视频监控系统成 为当前的一个研究热点【2 j 。 武汉理工大学硕士学位论文 1 2 视频编码原理 视频压缩技术就是实现对视频的压缩,其核心内容是去除相关性,即通过 减少视频序列间的相关性,用较少的比特数表示视频内容,降低冗余,从而实 现对视频的压缩。视频序列中的冗余主要有一下几种: ( 1 ) 空间冗余:在同一帧画面中,相邻的象素间存在的相关性。特别是当 这些相邻象素位于同一个视频对象中时,相关性极强,例如图像的背景区域; ( 2 ) 时间冗余:通常对视频序列而言,除非发生场景切换,否则相继帧在 时间上都是连续的。即在前后两帧中往往包含与当前帧相同的背景和对象,只 是由于镜头的转动或对象的移动使得空间位置发生变化。运动越缓慢,位置的 变换越小。因此视频序列存在极强的相关性; ( 3 ) 编码冗余:对于编码符号,其平均码长高于所表示的信息熵,这个偏 差就形成了编码冗余; ( 4 ) 人眼视觉冗余:由于人眼视觉的非均匀性,使得人眼视觉对某些空间 频率感觉迟钝。因此视频中不同频率成分的内容对于人眼系统而言其重要性不 同,也就是说存在频域冗余。例如人眼视觉系统对亮度信号变化的敏感性高于 色度信号变化,因此可以对色度分量进行降采样,同时保持主观视觉质量不变。 4 :2 :o 色差格式就是对色度分量在水平和垂直两个方向进行2 :1 的降采 样。另一方面对信号频域的各个分量可以采取不同的量化步距,将人眼感觉不 敏感的分量去除,而不会引起主观质量的下降; ( 5 ) 结构冗余和知识冗余:图像的某些区域存在非常强的纹理结构,图像 象素值有明显的分布模式,形成结构冗余。或者图像中包含的信息与某些先验 知识有关,例如人的五官位置对于人脸而言就是一种先验知识,这种冗余构成 知识冗余。在上述冗余中,编码冗余、空间冗余和时间冗余都依赖于图像数据 的统计特性,可以统称为统计冗余。 考虑到存在以上特点的冗余,视频编码中主要压缩技术有以下几种: ( 1 ) 预测编码 不是对一个象素直接编码,而是用同一帧( 帧内预测编码) 或相邻帧( 帧 间预测编码) 中的象素值来进行预测,然后对预测残差进行量化和编码。显然 预测编码实际是利用了图像数据中的空间和时间冗余。线性预测编码又称为差 分脉冲编码调制d p c m ( d i f f e r e n t i a lp u l s ec o d em o d u l a t i o n ) ,由于算法简单,易 2 武汉理工大学硕士学位论文 于硬件实现,已被各种视频编码标准采纳。 ( 2 ) 变换编码 变换编码是构成当前主要视频编码标准的另一项最基本技术,用来消除图 的频域( 变换域) 冗余。变换编码可分为正交变换编码,子带编码和小编码。 正交变换编码通常是将空域相关的象素点映射到另一个正交矢量空间,使 变换后的系数之间相关性降低。常见的正交变换有k l ( k a r h u n e n l o e v e t r a n s f o r m ) 变换、离散傅立叶变换d f t ( d i s c r e t ef o u r i e rt r a n s f o r m ) 、离散余弦变 换d c t ( d i s c r e t ec o s i n et r a n s f o r m ) 、沃尔什哈达玛( w a l s h h a d a m a r d ) 变换和哈尔 ( n a a r ) 变换。k l 变换是均方误差准则下的最优变换,但实现困难。在现行视频 编码标准中几乎都采用性能最接近k l 变换的d c t 。由于d c t 变换采用实数计 算,加上有效的快速算法实现,使硬件实现成为可能,因此被广泛地采用。通 过正交变换编码,图像的能量集中在低频区域,表示图像中缓慢变化的内容, 而图像的边缘、细微的纹理等细节部分集中在变换的高频区。在压缩过程通常 采用同一个量化器进行量化,牺牲了图像的细节部分,造成解码图像模糊,在 高压缩比时,基于块的正交变换编码还会产生块效应( b l o c ke f f e c o 和振铃效应 m n ge f f e c t ) ,进一步降低图像质量。因此出现了子带编码和小波编码等新方法, 子带编码是将图像分裂成几个不同频带的子带( s u b b a n d ) ,对不同的子带设计不 同的编码参数,提高图像质量。小波变换编码充分地利用了小波分析在时域和 频域同时具有良好的局部化特性,与人眼视觉特性相符的多分辨率能力,分析 系数分布平稳,自然分级的金字塔式数据结构等优点,在视频压缩领域引起广 泛的应用。与正交分解完全不同的小波分解,以原始图像( 而非原始图像中的 块) 初值,不断地将上一级图像分解为4 个子带:上一级图像中的低频信息、 垂直向、水平方向和对角线方向的边缘信息。从多分辨率分析出发,一般每次 只对一级的低频子图图像进行分解。将整个图像而非其中的块作为整体进行传 送,因此不会产生块效应。由于小波变换的金字塔式数据结构的每一层都包含 整个图的信息,只是其中的分辨率不同,因此可以选择传送部分或全部,非常 简单,实现可分级视频编码。 ( 3 ) 统计编码 根据香农信息论的观点,信源冗余度来自信源本身的相关性和信源内部事 件概率分布的不均匀性。统计编码主要有基于概率分布特性的霍夫曼编码和算 术编码,以及基于相关性的游程长度编码三类。 3 武汉理工大学硕士学位论文 霍夫曼编码( h u f f m a nc o d i n g ) 是一种变长编码v l c ( v a r i a b l el e n g t hc o d i n g ) 。 它将信源符号按概率大小重新排序,通过二叉树算法,依次将两个概率最小的 结点合并,直至根结点。完成树的构造后,给所有的树枝分配0 和1 ,这样就可 以给高概率符号分配短码,而概率小的符号则分配较长的码字,去除符号间的 统计冗余。在已知信源符号概率时,可以给出极好的编码性能。但霍夫曼编码 严重依赖信源的统计特性,编码前必须有信源概率分布的先验知识。对于复杂 的视频来说,只能用对大量数据统计后获得的近似分布来代替,因此实际应用 时无法达到最佳性能。另一方面v l c 提高了编码效率,但不利于硬件实现。 算术编码( a r i t h m e t i cc o d i n g ) 是2 0 世纪8 0 年代发展起来的,理论上,算术 编码和霍夫曼编码都是最佳的,但在信源概率分布未知的情况下,算术编码优 于霍夫曼编码。算术编码的基本原理是利用 0 ,1 】之间的一个概率区间来表示数 据序列。将信源x 的一个给定状态x = x l ,x 2 ,x n 与【o ,1 】间的一个由大 概率p 和小概率q 限定的概率子区间相联系,区间的长度等于序列的概率p ( x ) 。 编码器从n = i 开始,逐位地处理输入的符号流。每输入一位,更新当前符号的 条件概率,并以此调整p 和q 限定的概率子区间。随着n 的增加,和输入符号 序列相联系的概率子区间就会变得越来越小。最后用这个表示概率子区间的小 数给符号序列编码。 游程长度编码r l c ( r u n l e n g t hc o d i n g ) 是将符号值相同的连续符号串用一 个游程长度( 符号数) 和一个代表值( 值) 描述。这样可以用更紧密的序列代 替原有的相同值符号串。在视频压缩中,量化后的数据常常出现大量的连零系 数,利用游程长度编码可以有效地降低表示零码的比特数。 1 3 视频编码标准 2 0 世纪9 0 年代以来,随着技术的不断发展,i t u t 和i s o 推出了一系列多 媒体编码的标准,极大地推动了多媒体技术的实用化和产业化。按推出时间的 先后顺序包括h 2 6 1 、m p e g 一1 、m p e g 2 、h 2 6 3 、m p e g 4 与h 2 6 4 a v c 等。从 h 2 6 1 视频编码建议,到h 2 6 3 、m p e g 1 2 4 3 1 1 4 1 5 】等都有一个共同的不断追求的 目标,即在尽可能低的码率下获得尽可能好的图像质量。而且,随着市场对图 像传输需求的增加,如何适应不同信道传输特性的问题也日益显现出来。这就 是i s o i e c 和i t u t 两大组织联手制定新标准h 2 6 4 所要解决的问题。 h 2 6 1 1 6 j 主要应用于i s d n 网上的视频会议系统,公布于1 9 9 0 年,是第一个 4 武汉理工大学硕士学位论文 采用现代编码算法的通用视频编码标准,其后许多标准的形成都受到了h 2 6 1 的很大影响。h 2 6 1 又称为p x 6 4 k b i t s s 标准,是指它的应用主要针对6 4 k 整数 倍的信道,p 取值在1 3 0 之间。在技术上,h 2 6 1 采用了基于块匹配的运动补偿 方法,只支持整像素精度的运动补偿和单向的单帧参考,即参考帧只能使用前 一帧图像。h 2 6 1 使用8 8 d c t 变换对原始图像或者预测残差进行变换。 m p e g 1 主要是为了视频存储媒体而制定的。相对于h 2 6 1 ,m p e g 1 中加 入了两个比较重要的新特性:双向运动补偿技术以及1 2 像素精度的运动补偿。 双向运动补偿允许将前帧和后帧均作为参考帧,因此,在m p e g 1 中有三种类 型的帧:i 帧( 帧内编码帧) 、p 帧( 普通帧间编码帧) 、b 帧( x 2 n 帧间编码帧) 。采 用双向运动补偿可进一步降低输出码流的码率,但是需要对序列图像进行重排 序,这在视频通信中是不能允许的。因此这种技术只应用在m p e g 1 、m p e g 2 等面向视频存储媒体的非实时应用中。需要说明的是,视频编码的标准仅仅是 m p e g 1 中的一部分,除此之外,m p e g 1 中还包含完整的音频、系统、以及一 致性测试的规范。v c d 的广泛流行说明了m p e g 1 的成功。 m p e g 2 的目标是在3 m b p s 3 5 m b p s 的传输速率下,提供高质量的多媒体信 号,并提供质量、时间、空间上的可伸缩性。与m p e g 1 相比,m p e g 2 加入了 以下两个主要的新技术:对隔行扫描和可伸缩性编码。普通的电视信号采用隔 行扫描的方式,一帧分为两场进行扫描。相邻的行属于不同的场,在景物存在 快速垂直运动时,相邻行的相关性会影响编码的效率。为了尽可能提高编码的 性能,m p e g 2 允许以场为单位进行动动补偿和变换编码。可伸缩性,就是根据 实际的需要( 如可利用的信道宽度、解端的处理能力等) 在编码质量和码流大小之 间取得折中。m p e g 2 支持4 种可编码模式:数据划分、s n r 分级、空域分级、 以及时域分级。m p e g 2 从编码到传输的体系十分完善,并且支持的码率范围大, 应用领分广阔,涵盖了卫星广播服务、有线电视、有线广播、数字地面电视、 电子家庭影院、互动媒体、远程视频监控等方面。大家所熟悉d v d 基于的 m p e g 2 标准。可以说,m p e g 2 是目前最成功的视频编码标准。 h 2 6 3 7 1 是低码率的视频电话,目标网络是p s t n 、i s d n 、以及无线网络。 由于公用电话网( p s t n ) 和无线网络上的传输速率仍然有限,而且误码高,因此, i t u t 后来又提出了h 2 6 3 的改进版本h 2 6 3 + 和h 2 6 3 + + 【8 】【9 1 ,以满足压缩效率 和强信道容错能力的应用要求。改进版本新增加的特性以附录选项式加入到 h 2 6 3 中。h 2 6 3 系列标准中首次提出的许多概念,例如可变块大小的运动估计、 5 武汉理工大学硕士学位论文 运动矢量预测、无限制运动估计、多参考帧运动补偿等都被其后的许多标准采 用。 m p e g 4 的目标应用包括英特网多媒体、交互式视频游戏、个人通信、多媒 体邮件、网络数据库服务、视频监控、无线多媒体等。目前,m p e g 4 共包含 1 0 个部分,依次为系统、视频、音频、一致性测参考软件模型、传输多媒体集 成框架、m p e g 4 工具软件、基于p 架构m p 参考硬件描述、以及高级视频编 码( a d v a n c e d v i d e oc o d i n g ,简称a v c ) 。m p e g 4 的一个革命性贡献是在视频编 码中引入了基于对象的思想。v o ( v i d e oo b j e c t ) 的概念来实现基于内容的表示。 v o 也可以是场景中物体或某一层面,为画面中被分割出来的不同物体。 最近,i t u t 的视频编码专家组( v c e g ) 及i s o i e c 的移动图像专家组( m p e g ) 又发布适应于低码率传输的新一代视频压缩标准h 2 6 “a v c ,它既是i t u t 的 h 2 6 4 ,又是i s o i e c 的m p e g 一4 的第1 0 部分,即上面所提到的高级视频编码 a v c 。它采用“回归基本 的简洁设计,不用众多的选项,获得比h 2 6 3 + + 好得 多的压缩性能;加强了对各种信道的适应能力,采用“网络友好 的结构和语 法,有利于对误码和丢包的处理;用目标范围较宽,以满足不同速率、不同解 析度以及不同传输( 存储) 场合的需求。可以广泛应用于数字广播,视频会议, 宽带电视,网络流媒体,数字影像存储,数字电影等等各个领域。 1 4 本文研究意义和内容 在今天的i n t e r n e t ,对多媒体服务的需求呈现快速增长的趋势。h 2 6 4 a v c 编码标准成为在多媒体信息服务( m m s ) 、包交换流服务( p s s ) 和会话应用方面最 有竞争力的候选标准。国际上对h 2 6 4 标准的研究热点主要集中在更高效的编码 工具,快速算法的提出,无线信道下的抗误码传输以及低功耗的编解码芯片的 设计等方面。 本文的主要工作是以h 2 6 4 a v c 验证代码j m 8 6 为基础,分析了h 2 6 4 编 码器的核心技术,提出了帧内模式预测的快速算法;并在剖析了d m 6 4 2 内部结 构的基础上,研究了如何结合硬件特性提高h 2 6 4 编码器的性能,全文的结构如 下: 第一章绪论 本章主要介绍了视频压缩的思想、相关压缩标准的发展及本课题的研究内 容。 6 武汉理工大学硕士学位论文 第二章h 2 6 4 视频编码器的分析与实现 本章对h 2 6 4 的核心技术进行分析研究,内容主要包括帧内帧间预测、整 数变换、量化、熵编码等,分析了它们的研究现状和在新标准中的创新点,在 此基础上总结出了h 2 6 4 a v c 未来的发展的趋势 第三章h 2 6 4 帧内模式选择优化算法 本章论述了当前主要的帧内模式决策的两种快速算法,基于分组像素点的 快速决策算法和基于边缘方向直方图的快速决策算法。本文从预测模式代价函 数的选择和提前终止模式判决的基础上,提出了一种新的快速帧内预测模式决 策。 第四章h 2 6 4 编码器在d m 6 4 2 上的优化实现 本章具体分析了d m 6 4 2 的硬件结构,详细研究了j m 在d s p 平台上的优化 方法,所做的工作包括:调整存储空间的分配,改变存取的方式和变量的定义; 采用内联函数,循环内部流水,线性汇编等方法对j m 中影响编码速度的瓶颈函 数进行优化,结合d m 6 4 2 的两级c a c h e 结构充分发挥d m a 的能力等。 第五章结束语 本章概括了全文工作,并指出进一步的研究重点。 7 武汉理工大学硕士学位论文 第2 章h 2 6 4 视频编码器的分析与实现 在h 2 6 4 之前的视频编码标准如h 2 6 3 、m p e g 2 和m p e g 4 等均是以提高 压缩比为主要目标,规范标准时并未考虑到传输信道特性。近年来,随着基于 i p 网络和无线网络的多媒体应用需求不断出现,h 2 6 3 和m p e g 4 等标准越来越 无法有效的保障视频信息在网络上的传输质量,暴露出了其网络适应性差的缺 点。 h 2 6 4 在设计之初,就充分考虑到了这个问题,它在技术上不但突出了以往 标准的优点,而且对关键算法进行了改进,使其在图像质量、编码效率、压缩 率及网络适应性、容错性等方面均较以往的视频压缩标准有较大改善。与以往 标准相比,h 2 6 4 主要有以下优点【l o 】: ( 1 ) 在相同重建图像质量下比h 2 6 3 + 和m p e g 4 ( p a r t2 ) 节约5 0 码率; ( 2 ) 可在很宽的码率范围内提供高质量的视频服务; ( 3 ) 对信道时延的适应性较好,既可工作于低时延模式以满足实时业务, 如会议电视等,又可工作于无时延限制的宽松场合,如视频存储等; ( 4 ) 具备较强的抗误码能力,包括支持传输环境恶劣的无线网络; ( 5 ) 采用分层模式:视频编码层( v c l ,v i d e oc o d i n gl a y e r ) 和专用于网络 传输的网络抽象层m a l ,n e t w o r k a b s t r a c t i o nl a y e r ) ,进一步提高网络适应能力。 2 1h 2 6 4 的基本框架 如图2 1 所示,h 2 6 4 按功能将视频编码系统【l l 】分为网络抽象层( n a l ) 和视 频编码层( v c l ) 两个层次。n a l 规范视频数据的格式,主要提供头部信息以适合 各种媒体的传输和存储。v c l 完成对视频序列的高效压缩;n a l 作为h 2 6 4 标 准的一部分正式定义了视频编解码器和外部网络之间基于包的接口,以便将 v c l 层视频流进行协议封装后通过n a l 集成到传输层。 8 武汉理工大学硕士学位论文 视频编码层 h 2 6 4 视频编码层 网络抽象层 编码器解码器 v c l - n a l 接口 1r1r 网络抽象层 h 2 6 4 网络抽象层 视频编码层 编码器解码器 n a l 编码接口 1r 1r m p e g 一2f i l e f r o m a t h 3 2 3h 3 2 4 mr i p i p s y s t e m t c p i p , 1 l f 入 无线网络有线网络 图2 1 v c l 层和n a l 层结构图 n a l 层把数据封装成为若干网络抽象单元( n a l u ,n a lu n i 0 ,这些网络抽 象单元可以在现有的大部分网络中以包的形式【1 2 】传送。封装于网络抽象单元的 中的数据称为原始字节序列载荷( r b s p ,r a wb y t e ss e q u e n c ep a y l o a d s ) 。根据 r b s p 的不同,网络抽象单元中可以分为不同的类型。h 2 6 4 中的r b s p 主要分 为两种:一种为视频编码数据,一种为控制数据。视频编码数据可以以s l i c e ( 每 个s l i c e 由若干宏块组成) 为单位进行组织,也可以对s l i c e 进行数据分割,即将 每个s l i c e 中编码后的数据按类型分为三种,同类型的数据组织到一起,形成三 个数据划分( d a t ap a r t i t i o n ) ,视频编码数据以数据划分为单位进行组织,其中控 制数据是指视频序列参数、图像参数等信息。v c l 层主要研究基于混合编码中 涉及到的常规的运动补偿、变换编码、熵编码等编码技术,来提高视频信号的 编码效率。使用s l i c e 技术,将一个待编码图像分割成许多宏块来处理。一般v c l 的主要任务如下: ( 1 ) 通过分块技术将对整帧的处理降到对块的处理,来降低视频处理时间; ( 2 ) 通过变换、量化和熵编码方式对原始块进行编码,以达到降低视频帧 在空间上存在的冗余度的目的。 ( 3 ) 采用运动估计和运动补偿技术只对残差数据进行编码,以降低时间冗 余。 9 武汉理工大学硕士学位论文 h 2 6 4 的v c l 层压缩算法也采用与h 2 6 3 和m p e g - 4 类似的基于块的混合 编码方法,采用帧内( i n t r a ) 和帧间( i n t e r ) 两种编码模式【1 3 】。编码都以宏块为 单位进行,对于i 帧图像采用帧内模式编码,对于p 帧和b 帧图像则采用帧间 模式编码,通过复杂的帧间预测来减少运动图像的时间冗余,通过对预测残差 进行d c t 变换来减少空间冗余。i n t r a 编码的基本流程为:选择宏块的帧内预测 模式帧内编码对残差数据进行变换和量化对量化后的系数进行变 长编码和算术编码生成重构块( 用于后继块编码时的参考) 。i n t e r 编码流程 为:多模式运动估计根据率失真优化算法选择编码模式运动补偿产生 残差数据对残差数据进行变换、量化和熵编码。h 2 6 4 编码器框图如图2 2 所示( 编码器中也包含解码器部分) 编码时,首先把当前帧f n 划分成宏块。宏 块有帧内和帧间两种模式,帧内模式使用当前帧内已编码的宏块进行预测;帧 间模式使用以往一个或多个帧作为参考进行运动预测;然后,对预测值和原始 值的差值d 【1 4 j 进行整型变换、量化、重新排序和v l c 编码,最后将运动向量 m v 和每个宏块的头信息进行熵编码,产生压缩数据流进行传输。对量化系数x 进行逆量化、反变换后,与预测系数相加,得到未经滤波的l af 帧,对| if 帧进 行滤波,得到当前重构帧f n 。 图2 - 2h 2 6 4 编码器框图 2 2h 2 6 4 的输入图像格式类型及编码模式 h 2 6 4 支持的视频源格式包括4 :2 - 0 、4 :2 :2 和4 :4 :4 ,同时支 1 0 武汉理工大学硕士学位论文 持逐行扫描和隔行扫描的视频序列;对于隔行扫描的视频帧,h 2 6 4 支持将奇偶 场进行独立编码,也支持将奇偶场一起编码的方式。目前,h 2 6 4 主要针对采用 y u v 4 :2 :0 采样的视频序列进行压缩编码。其中视频序列的一帧可以由连续的 数据构成,也可以由两个交织场( 奇场和偶场) 来构成。为了统一,无论编码 数据的组织方式是连续的还是由交织的两场构成,都统一称为一帧图像 ( p i c t u r e ) 。图2 3 说明了采用4 :2 :0 采样方式时亮度和色度分量的关系 ( x :代表亮度分量,o :代表色度分量) 。 xx xxxx 000 。 x x xxxx xx 0 xx xx 0 xx xx 0 xx xxx xxx 000 xxx xxx 图2 34 :2 :0 采样亮度和色度分量的排列情况 考虑到并不是所有的用户都需要一种视频标准所提供的所有特性,因此 h 2 6 4 像以前所有其他视频标准那样,提供了不同的p r o f i l e s 和l e v e l s 。不同的 p r o f i l e ,提供了不同的算法要求和限制,使用不同p r o f i l e s 的解码器,能够解码 该p r o f i l e 支持的所有特性,而编码器只需支持该p r o f i l e 内的部分特性。对一个 指定的p r o f i l e ,又分为不同的l e v e l s 。l e v e l 的选择一般都是根据计算机的运算 能力和内存容量决定的。不同的l e v e l s 支持不同分辨率的视频图像q c i f ,c i f , d 1 等,不同的l e v e l 支持不同的数据码率从每秒几十k b 到每秒几十m b 。 b a s e l i n ep r o f i l e 在h 2 6 4 中的i d 值是6 6 ,它支持视频会议和可视电话等应 用。b a s e l i n ep r o f i l e 的解码器支持以下特性: i 片和p 片类型 去块滤波 不支持宏块帧场自适应编码 z i g z a g 扫描方式 1 4 像素精度运动估计 武汉理工大学硕士学位论文 三级运动分块,最小块为4 x 4 的块 c a v l c 熵编码模式 支持任意片顺序( a r b i t r a r ys l i c eo r d e r ) 编码 支持灵活块顺序( f l e x i b l em a c r o b l o c ko r d e r ) 编码方案 4 :2 :0 的色度块采样率 支持冗余片( r e d u n d a n ts l i c e ) 在h 2 6 4 中,m a i np r o f i l e 的i d 值是7 7 ,它支持数字视频广播领域。m a i n p r o f i l e 的解码器支持以下特性: b 片 c a b a c 熵编码 自适应双向预测( w e i g h t e dp r e d i c t i o n ) 支持b a s e l i n ep r o f i l e 中的所有特性,除了以下两点: 片组与任意片次序( a r b i t r a r ys l i c eo r d e r ) 编码 冗余片( r e d u n d a n ts l i c e ) 支持场编码 支持帧场自适应编码 在h 2 6 4 中,e x t e n d e dp r o f i l e 的i d 值是8 8 ,支持e x t e n d e dp r o f i l e 的解码 器必须支持一下特性: b 片类型 s p 和s 1 类型 数据分层片 自适应双向编码( w e i g h t e dp r e d i c t i o n ) b a s e l i n e 中支持的所有特性 支持场编码 支持帧场自适应编码 2 3h 2 6 4 视频编码核心技术 在h 2 6 4 中也使用了和许多已有的编码标准相同的功能模块,如帧内预测、 帧间预测、变换编码、熵编码等。但这些功能模块在h 2 6 4 中与其它的标准有很 多细节上的不同。下面就分别介绍h 2 6 4 中的各个关键技术。 1 2 武汉理工大学硕士学位论文 2 3 1 帧内编码 帧内编码【l5 】是混合编码框架的重要组成部分。如果一帧图像进行编码时没 有利用到其它任何图像的信息,对该图像的编码就称为帧内编码。一般视频序 列的初始帧都采用帧内编码。在h 2 6 4 中,考虑到单个视频图像中存在的空间冗 余度,可采用帧内预测。帧内预测是在空间域上进行预测编码算法,利用邻近 块的像素( 当前块的左边和上边) 来实现对当前块的预测,预测块和实际块的 残差被编码,用以去除空间相关性,获得更为有效地压缩。进行帧内预测时, 亮度块可以采用两种方式:4 x 4 亮度宏块帧内预测和1 6 1 6 亮度宏块帧内预测 【1 6 】。色度块只采用8 8 帧内预测。在编码时,对于图像中较为平坦的部分, 采用1 6 1 6 亮度块模式预测;对于需要细化的部分,采用4 4 亮度块模式预 测。预测之前,要对当前宏块相邻的左、上重建块进行分类,根据不同的分类, 用重建块作为参考,选择不同预测模式进行预测。另外,由于人类视觉系统对 色度变化的敏感性低于亮度,因此8 8 色度块的帧内预测所需要预测少于4 4 亮度块帧内预测,共有四种模式。 ( 1 ) 4 4 亮度预测 对于每个4 x 4 块( 除了边缘块特别处理以外) ,每个像素都可用最接近的 先前已编码的像素的不同加权和( 有的权值可为o ) 来预测,利用像素所在块的左 上角的1 3 个像素。显然,这种帧内预测不是在时间上,而是在空间域上进行的 预测编码算法,可以除去相邻块之间的空间冗余度,取得更为有效的压缩。如 图2 - 4 所示,4 4 块中a 、b 、p 为1 6 个待预测的像素点,而a ,b , m 为己编码的像素。为了有效提高帧内预测的效率,多种预测模式被提出,其 中4 4 亮度块共有9 类不同的预测模式,如图2 5 所示,其中模式2 为d c 预 测,箭头表明了每种模式的预测方向,对于模式3 8 ,预测象素有a - q 权平均 而得,例如模式4 中,p - - r o u n d ( b 4 + c 2 + d 4 ) 。 mab cdefgh iabcd jef gh ki j kl lmn op 图2 44 4 块及周围相邻块 武汉理工大学硕士学位论文 0 ( 垂直) ma b cdefgh i j k l 一r1it1 3 ( 左对角) ma b c defg h i 钐 j k l

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论