




已阅读5页,还剩56页未读, 继续免费阅读
(信号与信息处理专业论文)基于h264avc的帧内帧间模式选择优化算法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
南京邮电大学 硕士学位论文摘要 学科、专业:工学信号与信息处理 研究方向:图像处理与多媒体通信 作者:2 0 0 7 级硕士研究生李仲林 指导教师:胡栋教授 题 7 5 4 8 7 玳6 帆y 1 目:基于h 2 6 4 a v c 的帧内帧间模式选择优化算法研究 英文题目: f a s tm o d ed e c i s i o na l g o r i t h mf o ri n t r a i n t e rp r e d i c t i o ni n h 2 6 4 a v cv i d e oc o d i n g 主题词:视频压缩编码、h 2 6 4 、帧内模式选择、帧间模式选择、 率失真代价 k e y w o r d s :v i d e oc o m p r e s s i o nc o d i n g 、h 2 6 4 、i n t r a f r a m em o d e s e l e c t i o n 、 i n t e r - f r a m em o d es e l e c t i o n 、r a t e d i s t o r t i o nc o s t 摘要 二十世纪九十年代以来,j p e g 、h 2 6 3 、m p e g 1 、m p e g 2 等图像多媒体国际标准相 继出台,它们成功地应用于多种实用场合。但是,随着计算机网络技术和无线通信技术的 飞速发展,多媒体业务的需求不断增加,现有的这些视频压缩标准明显存在着一些缺陷和 局限性。为了克服这些缺点,联合视频组j v t 制定了新一代视频编码标准h 2 6 4 a v c ,它 可以得到更好的压缩图像效果、拥有更多的功能和更大的灵活性。 虽然h 2 6 4 具有很多优良性能,但是它的运算量也是十分巨大的,其编码速度比较慢, 在通常的条件下,无法满足实际应用的要求。因此在保证一定编码效率的前提下,对编码 器进行的优化研究,具有重要的理论价值和良好的应用前景。 h 2 6 4 的帧内模式选择充分利用了图像的空间相关性,根据已解码的相邻块信息来预 测当前块,并使用了率失真最优化技术,使得对i 帧的编码性能达到很高。但是因为率失 真最优化计算的时间复杂度很高,使得编码器的编码速度很慢。本文首先通过快速方向检 测算法选出4 x 4 块的部分预测模式来代替全模式计算:其次利用一些统计特性来早截止复 杂的4 x 4 块预测模式的计算;再次通过局部优化算法来减少率失真代价的组合数。通过这 些举措来降低率失真最优化计算的复杂度,实现了在保证编码效率的前提下使得编码速度 得到大幅提升的目的。 h 2 6 4 的帧间模式选择是利用已编码的视频帧场和基于块的运动补偿来实现的,支持 7 种块模式,支持多参考帧和1 4 像素精度运动估计,对p 帧的编码性能达到很高。但因7 种块模式的全模式计算复杂度很高,使得编码器的编码速度很慢。本文首先通过s k i p 判 决将符合判决条件的宏块选出来只进行一种块模式的计算:其次通过大块模式的宏块级、 亚宏块级判决将符合判决条件的宏块选出来只进行大块模式的计算:再次通过帧内模式判 决将符合判决条件的宏块选出来只进行帧内模式的计算。通过这些举措来代替全模式计 算,实现了在保证编码效率的前提下使得编码速度得到大幅提升的目的。 关键词:视频压缩编码、h 2 6 4 、帧内模式选择、帧间模式选择、率失真代价 a b s t r a c t e n t e r i n g21c e n t u r y ,t h ea d o p t i o no fd i g i t a lv i d e oh a sb e e nf u e l l e db y t h ed e v e l o p m e n to f m a n yv i d e oc o d i n gs t a n d a r d si nm a n ya p p l i c a t i o n s t h e r ea r em a n yv i d e op r o t o c o l ss u c h a s h 2 6 xa n dm p e g x h o w e v e rt h er e q u i r e m e n t so fm u l t i m e d i as e r v i c e sa r ei n c r e a s i n gw i t ht h e d e v e l o p m e n to fc o m p u t e rn e t w o r kt e c h n o l o g ya n d t h ew i r e l e s sc o m m u n i c a t i o nt e c h n o l o g y , s ot h e v i d e op r o t o c o l sa r en o ta p p l i c a b l en o w a d a y s t h e r e f o r ei t u tp u tf o r w a r da n dr e l e a s e dan e w p r o t o c o l f o rv i d e oc o m p r e s s i o n h 2 6 4 i th a sm a n yd i f f e r e n tf e a t u r e sa n di t se f f i c i e n c y i m p r o v e db ya d d e df l e x i b i l i t ya n df u n c t i o n a l i t y t h eh 2 6 4h a sm a n ye x c e l l e n tp r o p e r t i e s ,b u ti t sc o m p u t a t i o n a lc o m p l e x i t yi se n o r m o u s , a n di t se n c o d i n gs p e e di ss l o w e r s oi tc a nn o tm e e tt h er e q u i r e m e n t so fp r a c t i c a la p p l i c a t i o n s t h e r e f o r e ,h o wt oo p t i m i z et h ee n c o d e ra l g o r i t h mh a si m p o r t a n tt h e o r e t i c a lv a l u ea n dg o o d a p p l i c a t i o np r o s p e c t s t h ei n t r am o d es e l e c t i o no fh 2 6 4m a k eu s eo ft h es p a t i a lc o r r e l a t i o no fa d ja c e n tb l o c k st o p r e d i c tt h ec u r r e n tb l o c k ,a n du s i n gt h e r a t e d i s t o r t i o no p t i m i z a t i o nt e c h n i q u e s ,m a k i n gt h e c o d i n go fi f l a m e st oa c h i e v eh i g hp e r f o r m a n c e b u tr a t e d i s t o r t i o no p t i m i z a t i o nh a sb i g c o m p u t a t i o n a lc o m p l e x i t y , m a k i n gt h ec o d i n ge n c o d e rs l o w l y i nt h i sa r t i c l e ,w ef i r s tu s e t h ef a s t d e t e c t i o na l g o r i t h mt os e l e c tp a r to ft h em o d e sr e p l a c i n gt h ew h o l ep a t t e r n ;f o l l o w e db yu s eo f s o m es t a t i s t i c a lf e a t u r e st oe n da se a r l ya sp o s i b l e ;a g a i nb yu s eo fl o c a l r a t e d i s t o r t i o n o p t i m i z a t i o na l g o r i t h mt or e d u c et h en u m b e ro fc o m b i n a t i o n s b yu s i n gt h e s ei n i t i a t i v e s ,w ec a n m e e tag o o dc o d i n ge f f i c i e n c y t h ei n t e rm o d es e l e c t i o no fh 2 6 4m a k eu s eo ft h ee n c o d e dv i d e of l a m e f i e l da n dt h e b l o c k b a s e dm o t i o nc o m p e n s a t i o n i tc a nr e a c hav e r yh i g hp e r f o r m a n c eb yt h es u p p o r to fs e v e n k i n d so fb l o c km o d e s ,m u l t i p l er e f e r e n c ef r a m e sa n d1 4p i x e la c c u r a c ym o t i o ne s t i m a t i o n b u t s e v e nk i n d so fb l o c km o d el e a dt ob i gc o m p u t a t i o n a lc o m p l e x i t y i nt h i sa r t i c l e ,w ed o o mt h e s k i pm o d e ,m a c r o b l o c k l e v e lm o d e ,s u b m a c r o b l o c k l e v e lm o d ea n di n t r am o d ea se a r l ya s p o s i b l e b yu s i n gt h e s ei n i t i a t i v e s ,w ec a nm e e tag o o dc o d i n ge f f i c i e n c y k e y w o r d s :v i d e oc o m p r e s s i o nc o d i n g ,h 2 6 4 ,i n t r a - f l a m em o d es e l e c t i o n ,i n t e r - f l a m e m o d e s e l e c t i o n ,r a t e d i s t o r t i o nc o s t i i 目录 摘要i a b s t r a c t i i 目 录。i i i 第一章绪论1 1 1 视频压缩理论1 1 2 编码标准的发展概况2 1 3 编码器的优化方向4 1 4 主要工作与论文结构4 第二章h 2 6 4 1 a v c 视频编码标准6 2 1 h 2 6 4 a v c 视频编码标准简介6 2 1 1 h 2 6 4 a v c 视频编码框架6 2 1 2 h 2 6 4 a v c 视频编码技术。j 7 2 2 h 2 6 4 a v c 的软件优化1 4 第三章帧内模式选择的优化算法1 5 3 1 h 2 6 4 的帧内模式选择1 5 3 2 现有的优化算法分析1 6 3 3 帧内模式选择算法的改进1 8 3 3 1 快速方向检测算法1 8 3 3 2 早截止算法2 0 3 3 3 局部优化算法2 2 3 3 4 帧内模式选择综合优化2 3 3 4 本章小结2 4 第四章帧间模式选择的优化算法2 5 4 1 h 2 6 4 的帧间模式选择。:2 5 4 2 现有的优化算法分析2 5 4 3 帧间模式选择算法的改进2 7 i i i 4 3 1 s k i p 模式的判决方法2 8 4 3 2 大块模式的宏块级判决方法3 0 4 3 3 大块模式的亚宏块级判决方法。3 2 4 3 4 帧内模式的判决方法3 4 南京邮电人学硕士研究生学位论文 第一章绪论 第一章绪论 当今时代,随着计算机技术和微电子技术的不断进步,视频处理技术与应用技术有了 很大的发展,而通信网的巨大发展,也为视频技术的高速发展带来了机遇。在通信网中, 无论是有线技术还是无线技术都在朝着宽带化和i p 化方向发展,而宽带化的网络最重要的 特征就是能够充分地支持多媒体业务,而数字视频技术是多媒体应用的核心技术,对视频 压缩编码技术的研究已成为信息技术领域的热门话题。 1 1 视频压缩理论 视频信号的数据量是很大的,压缩前电视效果的视频大概是2 1 6 m b p s ,为了达到高效 的压缩,必须充分利用各种冗余,这些冗余【h 】包括: ( 1 ) 空间和时间冗余。空间冗余指的是图像中相邻像素之间的相关性,而视频序列中的 图像在时间轴上又有极强的相关性。视频压缩的目标就是在保证重构图像质量的前提下尽 量去除图像本身存在的空间相关性和序列间的时间相关性。 ( 2 ) 信息熵冗余。由信息论的有关原理可知,为表示图像的一个像素点,只要按其信息 熵的大小分配相应比特数即可。然而对于实际图像的每个像素点,很难得到它的信息熵, 在数字化图像时,对于每个像素是用相同的比特数表示,这样必然存在冗余。 ( 3 ) 结构冗余。在有些图像的部分区域内存在着非常强的纹理结构,或是图像的各个部 分之间存在有某种关系,例如自相似性等,就称此为结构冗余。 ( 4 ) 知识冗余。对有些图像的理解和某些知识有相当大的相关性,例如:人脸的图像有 固定的结构,五官间的相互位置信息就是一些常识,这种冗余就称为知识冗余。 ( 5 ) 心理视觉冗余。眼睛所感受到的图像区域亮度不仅仅与区域的反射光有关,这种现 象的产生是由于眼睛并不是对所有视觉信息有相同的敏感度。有些信息在通常的视觉过程 中相对来说不那么重要,这些信息可以认为是心理视觉冗余的。心理视觉冗余的存在与人 观察图像的方式有关,人在观察图像时主要寻找某些比较明显的码本特征,而不是定量的 分析每个像素的亮度,人通过分析这些特征与经验相结合来完成对图像的解释过程。 正是由于以上的冗余信息,图像的数据压缩是可能的。图像数据压缩技术是多媒体技 术中十分重要的组成部分,如果不进行数据压缩,则无论传输还是存储都很难实用化。应 用在多媒体中的图像压缩编码方法,从算法原理上可以分类为【4 l : 1 塑塞堕皇奎兰堡主婴窒竺兰垡堡茎笙二兰堑堡 ( 1 ) 无损压缩编码。包括哈夫曼编码,算术编码,行程编码,l e m p e lz e v 编码等。 ( 2 ) 有损压缩编码。包括基于预测编码的d p c m ,子带编码,基于空间域方法的统计 分块编码,模型基编码和基于重要性的滤波、子采样、矢量量化等。 ( 3 ) 混合编码。包括j p e g 、h 2 6 1 、h 2 6 3 、m p e g 1 、m p e g 2 、h 2 6 4 a v c 等。 要衡量一个压缩编码方法优劣的重要指标有:( 1 ) 压缩比要高,有几倍、几十倍,也 有几百乃至几千倍。( 2 ) 压缩与解压缩要快,算法要简单,硬件实现容易。( 3 ) 解压缩后的 重建图像质量要好。在选用压缩编码方法时还要考虑图像信源本身的统计特征,多媒体系 统的硬件、软件条件,应用环境以及技术标准等。 1 2 编码标准的发展概况 2 0 世纪9 0 年代以来,随着技术的不断发展,i t u t 和i s o 推出了一系列多媒体编码 的标准,极大地推动了多媒体技术的实用化和产业化。按推出时间的先后顺序包括h 2 6 1 、 m p e g 1 、m p e g 2 、h 2 6 3 、m p e g 4 与正在发展的h 2 6 4 a v c 等,如图1 1 所示。 i 。躲 - s 。i e c f m p e g 1m p e g 4 1 9 8 4 1 9 8 8 1 9 9 2 1 9 9 62 0 0 0 图1 1视频编码标准的发展过程 h 2 6 1 图像编解码标准是c c i t t ( 现i t u t ) 于1 9 9 0 年制定的针对活动图像的p 6 4 k b p s 的编码协议。h 2 6 1 可使数据速率压缩至p 6 4 k b p s ( p = l - - - 2 0 ) ,一般在3 2 - - - 3 8 4 k b p s 时c i f 、q c i f 图像可达1 5 帧每秒,适合在i s d n 、d d n 、p s t n 网上传输运动的图像。它 是最早的运动图像压缩标准,详细制定了视频编码的各个部分,包括运动补偿的帧间预测、 d c t 变换、量化、熵编码,以及与固定速率的信道相适配的速率控制等部分。 m p e g l 由国际标准化组织( i s o i e c ) 二于:1 9 9 2 年制定,是基于一般低端应用的视频、 音频的编解码标准,主要针对3 5 2 2 8 8 ( c w 格式) 分辨率和每秒3 0 帧的图像质量。 2 南京邮电大学硕士研究生学位论文 第一章绪论 m p e g 2 于1 9 9 5 年发布,可以视为m p e g 1 的升级版本,为m p e g 1 最初没有包括 在内或尚未想到的应用,提供了一种视频编码方法。支持的带宽范围从2 m b p s 到超过 2 0 m b p s ,m p e g 2 后向兼容m p e g 1 ,增加了对隔行扫描的支持,具有更大的伸缩性和灵 活。主要目的在于推动比特流在不同应用、传输和存储媒体之间的互换。目前,m p e g 2 标准在数字电视和h d t v 领域得以广泛应用。 h 2 6 3 是c c i t t ( 现i t u t ) 于1 9 9 2 年提出的更低比特率的视频编码方案,可将图像 最低编码到2 0 k b p s ,通过电话线以2 2 8 k b p s 的v 3 4m o d e m 传输,图像质量达到1 7 6 1 4 4 或1 2 8x9 6 分辨率下5 1 5f s 的水平。h 2 6 3 非常适合在固定带宽的信道中传输视频信号。 它是在h 2 6 1 基础上发展起来的,其标准输入图像格式可以是s - q c i f 、q c i f 、c i f 、4 c i f 或者1 6 c i f 的彩色4 :2 :o 亚取样图像,与h 2 6 1 相比采用了半像素的运动补偿,并增加 了4 种有效的压缩编码模式。i t u t 在h 2 6 3 发布后又修订发布了h 2 6 3 标准的版本2 , 非正式地命名为h 2 6 3 标准。它在保证原h 2 6 3 标准核心句法和语义不变的基础上,增加 了若干选项以提高压缩效率或改善某方面的功能。原h 2 6 3 标准限制了其应用的图像输入 格式,仅允许5 种视频源格式。h 2 6 3 标准允许更大范围的图像输入格式,自定义图像的 尺寸,从而拓宽了标准使用的范围,使之可以处理基于视窗的计算机图像、更高帧频的图 像序列及宽屏图像。 m p e g 4 于2 0 0 0 年推出,正式名称为:i s o1 4 4 9 6 2 。其应用目标是针对窄带宽传输、 高画质压缩、交互性操作以及将自然物体与人造物体相溶合的表达方式,同时还特别强调 广泛的适应性和可扩展性。m p e g 一4 的最高图像清晰度为7 6 8 5 7 6 ,远优于m p e g 1 的3 5 2 2 8 8 ,可以达到接近d v d 的画面效果,这使得它的图像清晰度非常好。m p e g 4 采用了 基于对象的识别编码模式,从而保证良好的清晰度。但是由于算法的复杂性和局限性,在 窄带情况下不易实现编码的实时性,尤其在针对低于1 m b i t s 传输时遇到了困难。由于 m p e g 4 计划采纳新近推出的h - 2 6 4 a v c 的核心技术,这使得它的下一个版本将具有在网 络上以低于1 m b i t s 传输d v d 画质视频内容的能力。 在制定h 2 6 3 标准后,i t u t 的视频编码专家组( v c e g ) 开始了两个方面的研究:一个 是短期研究计划,在h 2 6 3 基础上增加选项,之后产生了h 2 6 3 + 与h 2 6 3 + + ;另一个是长 期研究计划,制定一种新标准以支持低码率的视频通信。长期研究计划产生了h 2 6 l 标准 草案,在压缩效率方面与先期的i t u t 视频压缩标准相比,具有明显的优越性。2 0 0 1 年, i s o 的m p e g 组织认识到h 2 6 l 潜在的优势,随后i s o 与i t u 开始组建包括来自i s o i e c m p e g 与i t u tv c e g 的联合视频组( t ) ,t 的主要任务就是将h 2 6 l 草案发展成为 一个国际性的标准。这一标准正式成为国际标准是2 0 0 3 年3 月在泰国p a t t a y a 举行的t 3 堕室塑皇奎兰堡! :婴塑竺兰垡笙茎 笙二童堡堡 第7 次会议上通过的【5 1 。由于该标准是由两个不同的组织共同制定的,因此有两个不同的 名称:在i t u t 中,它的名字叫h 2 6 4 ;而在i s o i e c 中,它被称为m p e g 4 的第1 0 部分, 即高级视频编码( a v c ) 。 1 3 编码器的优化方向 h 2 6 4 a v c 标准与以前的标准( 如h 2 6 1 、h 2 6 3 、m p e g 1 、m p e g 4 ) 中的编码器功能 块的组成并没有什么区别,主要的不同在于各功能块的细节。 h 2 6 4 a v c 与以前的标准相比,编码效率得到了大幅提升,但它是以计算复杂度的增 加为代价的。复杂度成为阻碍h 2 6 4 大规模普及应用的主要障碍之一,如何在保留h 2 6 4 编码效率的前提下尽可能的降低其计算复杂度;引起了广泛的研究。 目前,对编码器所做的优化,主要集中在以下几个方面: ( 1 ) 快速搜索算法的研究。h 2 6 4 a v c 的全搜索算法,虽然能够得到全局最优的结果, 但将耗费大量的搜索时间,因此研究以尽量快的速度找到接近于全局最优结果的快速搜索 算法具有很重要的现实意义。 ( 2 ) 模式选择优化算法的研究。帧内帧间的模式选择算法,在确定一个宏块的最佳预 测模式时,需要计算全模式的率失真代价,而率失真代价的时间复杂度很高,因此在不影 响编码效率的前提下尽量减少预测模式的选择范围,成为各种优化算法的研究目标。 ( 3 ) 率失真最优化算法的研究。在h 2 6 4 a v c 中使用的率失真最优化技术,使得编码 器在重建图像的质量和输出的总比特数之间达到了很好的平衡,但是因为最优化计算的时 间复杂度很高,影响了编码器的编码速度,所以需要对其进行优化。 ( 4 ) 参考帧提前截止算法研究。h 2 6 4 a v c 支持多个参考帧,在进行帧间编码时,编 码器的时间复杂度随着最大参考帧数目的增加而线性增加,因此需要进行多参考帧的提前 截止。 另外,码率控制算法和去块效应滤波器等,也引起了广泛的研究。 本文主要对h 2 6 4 a v c 的模式选择算法进行了优化,在保证编码效率的前提下,大大 降低编码器的时间复杂度。 1 4 主要工作与论文结构 本人所作的主要工作描述如下: ( 1 ) 对h 2 6 4 a v c 的视频编码技术,特别是编码算法的优化方法进行了深入的研究。 4 南京邮龟大学硕士研究生学位论文 第一章绪论 ( 2 ) 研究了h 2 6 4 a v c 的帧内模式选择,针对其时间复杂度太高的缺点提出了一系列 优化措施,包括快速方向检测算法、早截止算法和局部优化算法,并将三种优化算法结合 在一起,组成了一个综合的优化算法,通过仿真实验分析了各个优化算法的性能。 ( 3 ) 研究了h 2 6 4 a v c 的帧间模式选择,针对其全模式计算时间复杂度高的缺点提出 了一系列改进措施,包括s k i p 模式的判决、大块模式的宏块级判决、大块模式的亚宏块 级判决和帧内模式的判决,并将各种判决方法综合在一起,组成了一个帧问模式选择的综 合优化算法,通过仿真实验分析了其性能。 ( 4 ) 将帧内模式选择的综合优化算法与帧间模式选择的综合优化算法进行了结合,组 成了帧内帧间的联合优化算法,并通过仿真实验分析了其性能。 根据课题的研究内容,本文共分为六章,章节结构安排如下: 第一章:绪论。本章首先介绍了视频压缩编码的理论依据;然后介绍了视频压缩编码 的发展状况和编码器的优化方向:最后说明了本文的主要工作和论文的组织结构。 第二章:h 2 6 4 a v c 标准。本章首先介绍了h 2 6 4 a v c 所使用的各种编码技术;然后 简要介绍了软件优化的方法。 第三章:帧内模式选择优化算法。本章首先介绍了h 2 6 4 a v c 的帧内模式选择算法; 然后对当前的各种优化算法进行了分析和归类;接着针对模式选择的不同部分提出了三种 优化算法,并将三种算法结合在一起使用。 第四章:帧间模式选择优化算法。本章首先介绍了h 2 6 4 a v c 的帧间模式选择算法: 然后对当前的各种优化算法进行了分析和归类;接着根据各帧间模式的统计概率提出了四 种判决方法,并将各种判决方法结合在一起使用;最后将帧内与帧间的模式选择优化算法 进行了结合。 第五章:仿真结果及分析。本章从率失真曲线和算法耗时对比两方面,对帧内模式选 择的各种优化算法、帧间模式选择的优化算法和帧内帧间的联合优化算法的性能进行了分 析。 第六章:总结与展望。对全文进行了总结,并提出了对本文工作的改进方向和建议。 南京邮电大学硕士研究生学位论文 第二章h 2 6 4 a v c 视频编码标准 第二章h 2 6 4 a v c 视频编码标准 2 1h 2 6 4 a v c 视频编码标准简介 h 2 6 4 a v c 是由i t u t 视频编码专家组( v c e g ) 和i s o i e c 运动图像专家组( m p e g ) 联合组成的联合视频组( j v t ,j o i n tv i d e ot e a m ) 提出的高效数字视频编码标准。该标准第 一版的最终草案已于2 0 0 3 年5 月完成。 m p e g 4 技术的特点是灵活,而h 2 6 4 a v c 着重于解决压缩的高效率和传输的高可 靠性,因而其应用面十分广泛。具体来说,h 2 6 4 a v c 支持三个不同档次的应用【6 1 : ( 1 ) 基本档次:主要用于“会话型视频应用”,如会议电视,可视电话,远程医疗,远 程教学等; ( 2 ) 扩展档次:主要用于网络的视频流媒体业务,如视频点播: ( 3 ) 主要档次:主要用于消费电子应用,如数字电视广播,数字视频存储等。 2 1 1h 2 6 4 a v c 视频编码框架 h 2 6 4 a v c 并不明确地规定一个编解码器如何实现,而是规定了编码后的视频比特流 的句法和比特流的解码方法,各个厂商的编码器和解码器在此框架下应能够互通,在实现 上具有较大的灵活性,而且有利于互相竞争。h 2 6 4 a v c 编码器的功能组成如图2 1 所示。 图2 1 h 2 6 4 a v c 编码器 6 南京邮电大学硕士研究生学位论文 第二章h 2 6 4 a v c 视频编码标准 从图2 1 可见,h 2 6 4 a v c 和基于以前的标准( 如h 2 6 1 、h 2 6 3 、m p e g 一1 、m p e g 一4 ) 中的编码器功能块的组成并没有什么区别,主要的不同在于各功能块的细节。 2 1 2h 2 6 4 a v c 视频编码技术 h 2 6 4 a v c 和以前的标准一样,也采用了混合编码模式。但同时h 2 6 4 作为最新的视 频压缩标准,它又有很多区别于其他标准的新特点及新技术。 ( 1 ) 分层设计 h 2 6 4 a v c 从概念上可以分为两层:视频编码层( v c l ,v i d e oc o d i n gl a y e r ) 包含了 代表视频图像内容的核心压缩编码部分的表述,网络提取层( n a l ,n e t w o r k a b s t r a c t i o n l a y e r ) 负责以网络所要求的特定方式对数据信息进行打包和传送。h 2 6 4 a v c 的分层结 构如图2 2 所示。 视频编码层 v c l 编码v c l 解码 么、 弋夕 网络提取层 n a l 打包n a l 拆包 么、 弋夕 传输层 h 3 2 0i h p i ph 3 2 4 mm p e g 2 系统 图2 2h 2 6 4 a v c 的分层结构 在v c l 和n a l 之间定义了基于分组方式的接口,打包和相应的信令属于n a l 的一 部分。这样,高效率编码和网络友好性的任务分别由v c l 和n a l 来完成。v c l 负责高 效的视频内容表述,包括基于块的运动补偿混合编码和一些新特性,它通过时域、空域预 测和变换编码来完成对视频信息的压缩。n a l 负责使用下层网络的分段特性来封装数据, 包括组帧、发送逻辑信道的信令、利用同步定时信息或序列结束信号等,将与网络相关的 信息从视频压缩系统中抽象出来,使网络对v c l 层是透明的。 7 南京邮电大学硕士研究生学位论文第二章h 2 6 4 a v c 视频编码标准 ( 2 ) 帧内预测 与以前的标准不同的是,h 2 6 4 a v c 在编码i 帧时,采用了帧内预测,然后对预测误 差进行编码。这样就充分利用了空间相关性,提高了编码效率。 对i 帧的编码是通过利用空间相关性而非时间相关性实现的。以前的标准只利用了一 个宏块内部的相关性,而忽视了宏块之间的相关性,所以一般编码后的数据量较大。为了 能进一步利用空间相关性,h 2 6 4 a v c 引入了帧内预测以提高压缩效率。简单地说,帧内 预测编码就是用周围邻近的像素值来预测当前的像素值,然后对预测误差进行编码。这种 预测是基于块的,对于亮度分量( 1 u m a ) ,块的大小可以在1 6 1 6 和4 4 之间选择,1 6 1 6 块有4 种预测模式,4 4 块有9 种预测模式;对于色度分量( c h r o m a ) ,预测是对整 个8 8 块进行的,有4 种预测模式。除了d c 预测外,其他每种预测模式对应不同方向 上的预测【6 j 。 4 4 亮度预测:1 6 个子块a - p 组成了预测块p ,当左边和上边的采样点a l 已经重 建好后,它们就能作为预测的参考子块,如图2 3 所示。它一共有9 种预测模式,除d c 预测外,其他预测模式对于于不同方向上的预测,如图2 4 所示。 qab cde fgh iabcd jef g h kl j kl lmn o p 心侈 叼 淞 一e 1 移 一 1 一b m 眦7 m o d e o m o d e5 m o d e2d c 模式 图2 34 4 子块的预测图2 4 不l 司方向上的预测模式 1 6 1 6 亮度预测分为4 种方法:垂直预测:宏块上方各子块采样值被用作宏块对 应一整列的预测值。水平预测:宏块左边各子块采样值被用作宏块对应一整行的预测值。 均值预测:宏块上方与左边各子块采样值的均值被用作宏块预测值。平面预测:宏块 预测值右上方和左边各子块采样值按左下到右上的方向插值得到。 8 8 色度预测:由于采用4 :2 :o 采样,色度的分辨率只有亮度的一半,所以色度 以8 8 为单位预测,也有4 种预测模式,但它的预测模式的顺序与1 6 1 6 有些不同,分 别是:m o d e 0 直流分量d c 、m o d e l 水平、m o d e 2 垂直、m o d e 3 平面。所有的色度块都具 有相同的预测模式。 8 南京邮电大学硕士研究生学位论文 第二章h 2 6 4 a v c 视频编码标准 ( 3 ) 帧间预测 h 2 6 4 的帧间编码的特点:仍然是基于运动估计和运动补偿,以消除时域相关性,是 压缩效率的重要来源。和以前的标准相比,h 2 6 4 支持7 种块模式,支持多参考帧和子像 素运动估计( 亮度1 4 像素精度,色度1 8 像素精度) 。 多模式的宏块划分 在过去的标准中定义了两种块的大小,以像素为单位,分别是1 6 x 1 6 和8 x 8 的正方 形块。但由于视频图像的复杂性,在较大的块中可能包含多个具有不同运动状态和不同形 状的对象,特别是在运动剧烈的局部区域中,用1 个1 6 x 1 6 块或4 个8 x 8 块的运动矢量 并不能准确地描述一个宏块全部的运动细节。在h 2 6 4 中,为了更准确的描述宏块的运动 细节,定义了7 种不同尺寸和形状的宏块分割和子宏块分割,如图2 5 所示。 m t y p e 8 x 8 t y p e 8 x 8 口曰田园 8 x 8 8 x 4 4 x 8 4 x 4 田日田田 图2 - 5宏块分割和子宏块分割 每个宏块( 1 6 x1 6 像素) 可以按4 种方式进行分割:1 个1 6 x 1 6 ,或2 个1 6 x 8 ,或2 个8 1 6 ,或4 个8 x 8 ,其运动补偿也相应有4 种。而8 x 8 模式的每个子宏块还可以进一 步以4 种方式进行分割:1 个8 x 8 、2 个4 x 8 、2 个8 x 4 或4 个4 x 4 。 h 2 6 4 通过r d o ( r a t ed i s t o r t i o no p t i m i z a t i o n ,率失真优化) 来选择不同的块尺寸。 基于r d 最佳的方法编码效果优于传统的运动估计方法,传统的只注意使运动补偿预测误 差最小化,而r d 最佳化方法还考虑对产生的m v 进行编码所需的码率。每个分割或子块 都有一个独立的运动补偿。每个运动矢量必须被编码、传输,分割的选择也需要编码压缩 到比特流中。对大的分割尺寸而言,运动矢量和分割类型只需少量的比特,但运动补偿残 差在多细节区域中的能量将非常高。小尺寸分割运动补偿残差能量低,但需要较多的比特 表征运动矢量和分割选择,分割尺寸的选择影响了压缩性能。整体而言,大的分割尺寸适 合于平坦区域,而小尺寸适合多细节区域。 色度块采用和亮度块同样的分割模式,只是尺寸减半( 水平和垂直方向都减半) 。色 度块的m v 也是通过相应的亮度运动矢量的水平和垂直分量减半而得。 9 南京邮电大学硕士研究生学位论文第二苹h 2 6 4 a v c 视频编码粝;准 更高的运动估计精度 在h 2 6 3 和m e p g 。4 中,已经采用了i 2 像素的运动估计精度,而在h 2 6 4 中,更是 提高到了1 4 像素的精度,并且把1 8 像素精度作为一个可选选项,这些位置上的像素值 是利用整数像素点上的值进行内插完成。内插过程先是通过6 抽头的滤波器来获得半像素 精度,然后利用线性滤波器来获得1 4 像素的精度。 多参考帧的选择 h 2 6 4 采用多参考帧( 最多前向和后向各5 帧) 来进行运动预测。这样可以对周期性 运动、平移封闭运动和不断在两个场景间切换的视频流有效果非常好的运动预测。使用了 多参考帧,h 2 6 4 不仅能够提高编码效率,同时也能实现更好的码流误码恢复,但需要增 加额外的时延和存储容量。 ( 4 ) 整数变换 图像变换编码的基本概念是将空间域里描述的图像,经过某种变换在变换域进行描 述,达到改变能量分布的目的,使图像能量在空间域的分散分布变为在变换域的能量的相 对集中分布,这样有利于进一步采用其他的处理方式,如“之”字( z i g z a g ) 扫描、自适 应量化、变长编码等,从而获得对图像信息量的有效压缩。常见的变换编码有d f t ,d c t , d w t ( 离散小波变换) 。目前绝大多数视频编码标准采用的都是基于变换的混合编码算法。 变换将在空间域内以像素值形式表示的图像信息变换到变换域中,以变换系数的形式加以 表示。显然,如果变换选择得当的话,所得的变换系数之间的相关性要明显小于原像素值 之间的相关性,从而达到去除图像冗余度的目的。变换后再根据人眼的视觉特性,即人眼 对高频信息不如低频信息敏感的特点,对不同的变换系数进行不同步长的量化,便可以进 一步实现有效的数据压缩。 与以前的视频编码标准不同,h 2 6 4 根据要编码的残差数据类型使用了三种变换:帧 内1 6 1 6 模式预测的宏块中,亮度d c 系数的4 4 矩阵使用哈达玛变换;任何宏块的色 度d c 系数的2 2 矩阵使用哈达玛变换;所有其他残差数据的4 4 块使用d c t 变换。 h 2 6 4 与以前的视频编码标准的另一个重要区别是采用了4 4 整数d c t 变换取代了 传统的d c t 变换编码算法。使用较小尺寸的整数d c t 变换的四个原因如下:当前标准的 主要改进之一就是帧内预测和帧间预测,因此残差图像的空间相关性减小,变换对去相关 性的贡献减小,这意味着4 4 变换与较大尺寸的变换在去除统计相关性上的效率基本相 同;客观压缩能力差不多时,较小的4 4 变换在边界处的视觉噪声更小,即振铃效应更 小:精确的整数运算,可以避免逆变换不匹配问题:较小尺寸变换的计算更少,处理字长 l o 堕室塑皇奎兰堡主塑壅竺兰垡垒奎笙三兰旦:! ! ! ! 型里望塑堑里堡堡 更小。在最终通过的h 2 6 4 建议中,j v t 对h 2 6 4 所使用的整数变换算法又做了进一步的 改进,使得整数变换和量化可以通过1 6 位算术运算完成,且不使用乘法运算,能够在不 影响编码性能的前提下,有效地降低计算复杂度,也更利于硬件实现。 ( 5 ) 量化 严格的说,d c t 本身并不能进行码率压缩,因为6 4 个样值仍然得到6 4 个系数。只 是在经过量化后,特别是按人眼的生理特征对低频分量和高频分量设置不同的量化,会使 大多数高频分量的系数变为零。一般说来,人眼对低频分量比较敏感,而对高频分量不太 敏感。因此对低频分量采用较细的量化,而对高频分量采用较粗的量化,根据量化步长对 数据进行截取,从而降低码率。 h 2 6 4 使用一个尺度量化器进行标量量化。对变换参差系数的量化使用了5 2 级步长 的量化器,而h 2 6 3 标准只有3 l 级。量化步长以1 2 5 递增,量化步长范围的扩大使得 编码器能够更灵活和精确的进行控制,在比特率和图象质量之间达到折中。 基本的正向量化的操作是:z 0 = r o u n d ( y i j q s t e p ) 。y u 是整数变换的一个系数,q 。t 。p 是量化步长尺寸,z i i 是量化后的一个系数。 h 2 6 4 支持5 2 个值的q 。t c p 值,用量化系数q p 进行索引。q p 每增加6 ,q ;t c p 就增加 一倍。量化步长的宽广范围使得编码器能够灵活准确的控制比特率和质量间的权衡。 ( 6 ) 熵编码 v l c 的基本思想就是对出现频率大的符号使用较短的码字,而出现频率小的符号采 用较长的码字。这样可以使得平均码长最小。 在c a v l c 中,h 2 6 4 采用若干v l c 码表,不同的码表对应不同
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 资源整合:资源整合合同中确定价款的协同效应评估
- 农业园区租赁合同主体变更及农产品质量安全备忘录
- 跨国子公司增资扩股及国际市场拓展协议
- 分层分类教师培训
- 班组级别安全培训课件
- 杭州服装搭配培训
- 边防部队课件
- 人教版四年级语文下册第三单元《语文园地三》教学课件
- 面部清洁护理技术操作试题及答案
- 2025输血技术考试题目及答案
- 《生产运营管理》 课件 第15章-数字化转型背景下生产运营模式
- 净菜加工培训
- 中国肿瘤药物相关血小板减少诊疗专家共识(2023版)
- 皮带厂车间管理制度
- 2025年福建省中考英语试卷真题(含标准答案)
- 2026年高考作文备考之题目解析及范文:“如果……就不妙了”转变为“即使……也没什么”
- 广东省医学检验检查结果互认共享平台接口规范医疗机构
- S68绿色融资情况统计表填报说明
- CJ/T 151-2016薄壁不锈钢管
- 《公路钢渣沥青路面施工技术指南(征求意见稿)》编制说明
- 《高端时尚品牌解析》课件
评论
0/150
提交评论