(通信与信息系统专业论文)h264视频编码技术研究以及基于dsp实时编码器的设计实现.pdf_第1页
(通信与信息系统专业论文)h264视频编码技术研究以及基于dsp实时编码器的设计实现.pdf_第2页
(通信与信息系统专业论文)h264视频编码技术研究以及基于dsp实时编码器的设计实现.pdf_第3页
(通信与信息系统专业论文)h264视频编码技术研究以及基于dsp实时编码器的设计实现.pdf_第4页
(通信与信息系统专业论文)h264视频编码技术研究以及基于dsp实时编码器的设计实现.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(通信与信息系统专业论文)h264视频编码技术研究以及基于dsp实时编码器的设计实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国科技大学硕士学位论文摘要 摘要 视频业务在多媒体通信行业占有非常重要的地位,由于其信息的表示需要存储和读取 海量数据,使得如何采用高效的压缩编码算法获得高压缩比高清晰度的视频图像成为多媒 体通信研究领域的重点和难点。为此相关组织提出了一代又一代视频压缩技术标准,以指 导和规范视频处理技术的研究和应用。 h 2 6 4 视频压缩标准是国际电信联合会i t u - t 的v c e g ( v i d e oc o d i n ge x p e r tg r o u p ) 和 国际化标准组织( i s o i e c ) 的m p e g ( m o t i o np i c t u r ee x p e r tg r o u p ) 覆j 大组织聪合成立的 j v t ( j o i mv i d e ot e a m ) 负责制定的新一代视频编码压缩标准,以其领先的编码技术和优异的 压缩性能成为业界关注的焦点,但同时其巨大的运算量和复杂的设计思想也成为阻碍其得 到广泛应用的瓶颈。 本文回顾了视频压缩标准的制定历程,展望了视频处理技术的发展前景,详细研究了 d p c m d c t 结构的编解码器c o d e c 的相关技术,重点分析了运动估计与补偿模块,然后 针对h 2 6 4 标准的具体特点,探讨了各个功能模块的实现策略,结合前人的设计思想尝试 了运动搜索的快速算法,并提出了基于资源受限的d s p 环境实时处理的编码器设计方案, 并经过程序实现,实验测试具有良好的性能表现,在保持了高质量画面的前提下大大提高 了编码速度,对推进h 2 6 4 技术投入实际应用和响应国家自主推行的a v s 标准的制定和实 观具有重要的现实意义。 【关键词】:视频编码,h 2 6 4 ,运动估计,d s p 中国科技大学硕士学位论文 a b s l r a c t a b s t r a c t t h ev i d e os e r v i c et a k e sav e r yi m p o r t a n tp o s i t i o ni nt h em u l t i m e d i ac o m m u n i c a t i o ni n d u s t r y d u et ot h el a r g eq u a n t i t yo fi m a g ed a t at oi m p r e s st h ei n f o r m a t i o n ,h o wt og e th i g hc o m p r e s s e d a n dh i g hd e f i n i t i o ni m a g ew i t he f f e c t i v ec o d i n ga l g o r i t h mt u r n so u tt ob et h ee m p h a s i sa n d d i f f i c u n yo fm u l t i m e d i ac o m m u n i g m i o nr e s e a r c ha l e lt h e r e f o r et h ev i d e oc o m p r e s s i o ns t a n d a r d s h a v e b e e np r o p o s e df r o mg e n e r a t i o nt og e n e r a t i o n h 2 6 4i st h en e wg e n e r a t i o nv i d e oc o d i n gs t a n d a r dw o r k e do u tb yj v t ( j o i mv i d e ot e a m ) , w h i c hc o m e si n t oe x i s t e n c ef r o mt h ev c e g ( v i d e oc o d i n ge x p e r tg r o u p ) o fi t u ta n dt h e m p e g ( m o t i o np i c t u r ee x p e r tg r o u p ) o fi s o i e c h 2 6 4b e c o m e st h ef o c u so fv i d e o c o m m u n i c a t i o na r e ab e c a u s eo fi t sa d v a n c e dc o d i n gt e c h n o l o g ya n de x c e l l e n tc o m p r e s s i n g p e r f o r m a n c e ,b u tt h et o ol a r g ec o m p u t a t i o na n dc o m p l e xd e s i g ne m b a r r a s s e si t sb r o a da p p l i c a t i o n i nt h i sp a p e rt h ea u t h o rr e v i e w st h ec o u p eo fv i d e oc o d i n gs t a n d a r d s ,i n v e s t i g a t e st h e t e c h n i c a ld e t a i l so fc o d e cb a s e do nt h ed p c m d c ts t r u c t u r e ,p a r t i c u l a r l ya n a l y s i z i n gt h e m o d u l eo fm o t i o ne s t i m a t i o na n dc o m p e n s a t i o n ,t h e na i m i n ga tt h ec h a r a c t e r i s t i co fh 2 6 4 d i s c u s s e st h er e a l i z i n gw a yo fe v e r yf u n c t i o n a lm o d u l e ,a n dt r i e st h en e wf a s ts e a r c ha l g o r i t h m r e f e r e n c i n gt h ef o r m e rt h o u g h t t h ep a p e rp u t sf o r w a r d 。ar e a l - t i m ee n c o d e rd e s i g nb a s e do nd s p w h i c hh a sl i m i t e dr e s o u r c e ,a n dr e a l i z e si tu s i n gp r o g r a m ,i nt h et e s t i n ge x p e r i m e n t st h ee n c o d e r p e r f o r m sv e r yw e l l ,a d v a n c i n gt h ee n c o d i n gs p e e dg r e a t l yw i t hh i g hq u a l i t yi m a g e t h ed e s i g nh a s a i m p o r t a n tr e a ls i g n i f i c a n tf o rp u s h i n gh 2 6 4t e c h n o l o g yi n t oa p p l i c a t i o na n dr e s p o n d i n gt ot h e a v s ( a u d i ov i d e os t a n d a r d ) i n s t i t u t e db yo u rg o v e r n m e n ti n d e p e n d e n t l y 【k e yw o r d :v i d e oc o d i n g ,h 2 6 4 ,m o t i o ne s t i m a t i o n ,d s p 中嗣科技大学硕士学位论文 第一章引言 第一章引言 多媒体通信是一个伴随着应用要求的不断增长而迅速发展的领域,涉及到计算机、通 信、娱乐、有线电视、教育、出版业等等众多行业,而随着计算机处理能力、存储技术、 压缩算法和网络技术等相关技术的显著进步,多媒体领域也随之被推动得到迅猛发展和广 泛应用。 多媒体系统最基本的特征是对各种独立媒体的综合处理能力,而完成综合处理的关键 是各种媒体信息的数字化显示,以及各种不同媒体和不同数据之间的同步。这涉及到数字 “ 压缩技术和媒体同步技术,而其中视频处理是最重要的部分。 本章简要介绍了视频编码技术的应用背景与理论基础,并回顾了相关标准的制定完善 过程,展望了新的发展趋势。 第一节视频编码技术发展概述 1 、应用背景 现代社会中信息传递起着非常重要的作用,多媒体信息已成为人类获取信息的最主要 载体,同时也成为电子信息领域技术开发和研究的热点。通常多媒体系统传递的信息可以 归结为数据、语音和图像三类。其中图像信息具有直观性强、信息量大等特点,人们获取 的信息的7 0 来自于视觉系统,因而图像的传送具有特别重要的地位,同时图像信息的高 数据量也对图像处理技术提出了极高的要求。 图像一般可分为静态图像和视频图像两类。视频通信最早是以模拟信号的形式实现的, 传统的电视系统通过幅度调制进行视频信号传输。随着数字技术的飞速发展和多媒体应用 的要求,基于i n t e r n e t 实现的数字视频通信技术得到越来越多的关注。 视频数据冗余度最大,原始数字图像信息尤其是视频具有惊人的数据量,不便于传输 和存储,这就要求数字视频信号在传输之前必须进行压缩,尽可能的消除冗余信息。经压 缩处理后的视频质量高低是决定多媒体服务质量的关键因素,因此数字视频技术是多媒体 应用的核心技术,对视频编码的研究已成为信息技术领域的热门话题。 中国科技大学颂士学位论文第一章引言 2 、经典理论基础 一般信源输出的每个符号所能载荷的信息量远大于实际信息量,因此数据压缩通过信源 编码压缩码率来实现。图像数据能够压缩主要有两个原因,一个是图像中有许多重复数据, 使用数学方法来表示它们就可以减少数据量,另一个是由于人眼对图像细节和颜色的辨认有 一个极限,把超过极限的冗余部分信息去掉,就达到了压缩数据的目的。利用前一个事实的 压缩技术就是无损压缩技术,利用后一个事实的压缩技术就是有损压缩技术。实际的图像压 缩是综合使用各种有损和无损压缩技术来实现的。 1 9 4 8 年,o l i v e r 提出了第一个编码理论脉冲编码调制( p u l s ec o d i n gm o d u l a t i o n , 简称p c m ) :同年。s h a n n o n 的经典论文“通信的数学原理”首次提出并建立了信息率失 真函数概念;1 9 5 9 年s h a n n o n 进一步确立了码率失真理论,至此奠定了信息编码的理论基 础。主要编码方法有预测编码、变换编码和统计编码,也称为三大经典编码方法。 线性预测的方法是1 9 5 2 年贝尔实验室首先提出应用到图像信号编码上的,其基本思想 是:根据数据的统计特性得到预测值,然后传输图像像素与其预测值的差值信号,使传输的 码率降低。达到压缩的目的。预测编码方法简单经济,编码效率较高,并由此发展出了各种 改进的帧内和帧间线性预测编码方法和自适应预测编码方法。后来有人通过测量视频图像中 运动物体的位移来进行帧间预测,进一步降低了码率。 变换编码是从频域的角度减小图像信号的空间相关性,开始采用傅立叶变换,后来相继 出现了离散余弦变换、h a d a m a r d 变换、w a l s h 变换、k l 变换和小波变换等。 统计编码的基本思想是:主要针对无记忆信源,根据信息码字出现概率的分布特征而进 行压缩编码,寻找概率与码字长度间的最优匹配。常用的统计编码有游程编码、h u f f m a n 编 码和算术编码三种。 预测编码、变换编码和统计编码的思想渐渐融合,形成了混合编码方案,由此制定了一 系列视频编码标准,大大推动了数字视频编码的发展和应用。 3 、新一代压缩技术 以上介绍的是第一代经典视频编码技术,也称为低层压缩编码方法,在八十年代已经发 展到了顶峰,其基于数据统计去除数据冗余的思想,未考虑信息接收者的主观特性及图像信 息中的具体含义和重要程度,因此只能以像素和块作为编码对象,去除冗余信息的能力已经 接近极限。为了这一局限性,后来提出的基于内容的第二代图像编码,考虑了人眼的视觉特 性和图像信源的景物特性,通过去除内容冗余来实现更高的压缩比。人的信息处理并不是基 于信号的,而是基于一个比较抽象的、能够直接对内容进行记忆和处理的方式,因此基于内 容的压缩是多媒体数据压缩编码的发展趋势,是信息处理的高级阶段。 7 中国科技大学硕士学位论文 第一章引言 第二代编码方法可分为基于对象( o b j e c t b a s e d ) 和基于语义( s e m a n t i c s b a s e d ) 两 种前者属于中层压缩编码,后者属于高层压缩编码。主要技术有:基于分形的编码、基于 模型的编码、基于区域分割的编码和基于神经阿络的编码等。 分形编码是一种不对称的编码技术适于自相似性较强的自然景物图像。基于模型或知 识的方法,是把计算机视觉和计算机图形学中的方法应用到视频编码,在编码端通过各种分 析手段,提取所建模型的特征与状态参数,在解码端依据这些参数通过模型及相关知识生成 所建模的信源。 基于区域分割与合并的视频编码方法,是根据图像的空域特征将图像分成纹理和轮廓两 部分,然后分别对它们进行预处理、编码和滤波,预处理将图像分割成纹理和轮廓两部分, 对纹理可采用预测编码和变换编码,对轮廓则采用链码方法进行编码,较好地保存了对人眼 十分重要的边缘轮廓信息,因此在压缩比很高时解码图像质量仍然很好。 神经网络法是模仿人脑处理问题的方法,通过各种人工神经元网络模型对数据进行非线性压 缩,目前还处在探索阶段。 第二代基于内容和语义的编码方法为视频压缩编码开拓了广阔的前景,但同时也大大增 加了分析的难度和实现的复杂度,要得到充分应用还有赖于进一步深入研究以及相关辅助学 科的同步发展。 第二节视频编码标准简介 标准化是产业化活动成功的前提。国际电信联盟( i t u t ) 的v c e g ( v i d e oc o d i n ge x p e r t g r o u p ) 和国际化标准组织( i s o i e c ) 的m p e g ( m o f i o np i c t u r ee x p e r tg r o u p ) 是世界上最主要的 两个视频编码标准制定组织,前者从1 9 9 0 年开始陆续提出了h 2 6 1 、h 2 6 3 、h 2 6 3 + 、h 2 6 3 + + 、 h 2 6 l 一系列面向数字视频通信的编码标准,主要应用于实时视频通信领域如可视电话、会 议电视等;后者于1 9 9 3 年和1 9 9 4 年分别制定出版了m p e g 一1i s o i e c1 11 7 2 和m p e g 一2 i s o i e c1 3 8 1 8 ,1 9 9 9 年公布了m p e g - 4i s o i e c1 4 4 9 6 ,主要应用于视频存储( d v d ) 、广播 电视、因特网或无线网上的流媒体等。2 0 0 3 年两大组织联合组成了j v t ( j o i n t v i d e o t e a m ) , 共同制定了h 2 6 4 标准。 8 中国科技大学顿士学位论文第一章引言 s 。m 。p 。e 。g 。 幽b 。 1 、h :2 6 1 1 9 8 41 马8 61 9 8 91 9 9 1 11 9 9 21 9 9 41 9 9 g1 9 9 82 0 2 0 0 2 2 0 0 4 圉1 1 视频标准的制定年表 这是1 t u t 为在综合业务数字网( i s d n ) 上开展双向声像业务而制定的最早的运动图像 压缩标准,至今依然保持着它的生命力。它制定于1 9 9 0 年,目的是规范i s d n 网上的会议 电视和可视电话应用中的视频编码技术。它只对c i f 和q c i f 两种图像格式进行处理,保证 数字视频信号能够以6 4 k b s 的整数倍的速率在电信网络中传辕。它将每帧图像分成图像层、 宏块组( g o b ) 层、宏块( m b ) 层、块( b l o c k ) 层来处理,详细制定了视频编码的各个部分,包括 运动补偿的帧问预测、d c t 变换、标量量化、熵编码,以及与固定速率的信道相适配的速 率控制等部分,由此奠定了混合编码框架的基础。 2 、m p e g 1 是运动图像专家组( m p e g ) 制定的第一个音视频编解码标准。正式规范在i s o i e c i1 1 7 2 中。m p e g 1 面向的是速率为1 2 m b s 的视频信号的压缩应用,可提供3 0 帧c i f ( 3 5 2 x 2 8 8 ) 相当于v i - i s ( 家用视频系统) 质量的图像。它为在多媒体存储媒介上的视频信号规定了通 用的位流语法以及解码过程,让用户可以利用它的灵活性来设计高质量的编解码器。它引入 了帧内帧( i ) 、预测帧( p ) 、双向预测帧( b ) 和直流帧( d ) 等概念,同时使用了帧内图 像数据压缩和帧间图像数据压缩技术帧内压缩算法与j p e g 算法大致相似,用基于d c t 的变换编码来减少空域冗余信息,帧闾压缩采用预测和插补来减少时域冗余。m p e g 一1 成为 了v c d 工业的核心而获得了广泛的应用。 3 、m p e g 2 与m p e g l 视频体系向下兼容,并在提高图像分辨率、兼容适配性等方面做了一些改 进,力求满足在存储媒体、可视电话、数字电视、商清晰度电视、通信网络等应用领域中日 9 中国科技大学硕士学位论文 第一章引言 益增长的需求。m p e g 一2 标准的正式规范在i s o i e c l 3 8 1 8 中,针对标准数字电视和高清晰 度电视在各种应用下的压缩方案和系统层作了详细规定,详述了数字存储媒体和视频通信中 的图像信息的编码描述和解码过程,将一个或更多的音视频或其他的基本数据流合成单个或 多个数据流以便存储和传送,符合标准的编码数据流可以在根宽的条件下进行同步解码。 m p e g - 2 用框架和级别的形式来规范语法和语义,如空间可分级性、时阃可分级性和信噪比 可分级性等,以此提供了多种分辨率、传输率和压缩编码方法,编码速率满足 3 m b s 1 0 0 m b s ,按编码图像的分辨率分成4 个级( 1 e v e l ) ,按所使用的编码工具的集合分成5 个类( p r o f i l e ) ,并支持固定比特率传送、可变比特率传送、随机访问、信道跨越、分级解码 等功能。m p e g 2 视频适用于广播级的数字电视的编码和传送,成为了d v d 工业和h d t v 的核心标准。 4 、h 2 6 3 】 i 2 6 3 + h 2 6 3 是1 9 9 6 年l t u - t 在h 2 6 1 基础上为低于6 4 k b s 的窄带通信信道制定的视频编码 标准,但事实上h 2 6 3 后来发展成了支持全码率应用的建议,可以处理s - q c i f 、q o f 、c i f 、 4 c i f 和1 6 c i f 等众多图像格式。h 2 6 3 与h 2 6 1 相比,增加了半象素的运动补偿,采用了无 限制的运动矢量模式以取得更大的编码增益,预测时使用了运动矢量预测和可变尺寸块提高 精度,补偿时采用重叠的块运动补偿减少块效应,提高主观质量。并使用算术编码代替霍夫 曼编码在信噪比和重建帧质量不变的情况下降低码率。h 2 6 3 + 是1 4 2 6 3 标准的第二版,在 保证h 2 6 3 核心句法和语义不变的基础上,增加了若干选项以提高效率改善性能,如允许更 大范围的图像输入格式,采用先进的帧内编码模式,增加了去块效应滤波器、参考帧选择模 式、时间分毅、空间分级等内容。之后1 1 u - t 还雄出了h 2 6 3 + 十,增强了恶劣信道上的抗 误码性能和码流兼容性。 5 、m p e g 4 m p e g 4 的制定初衷是针对视频会议、可视电话的甚低比特率编码,但随着多媒体硬件 技术的发展,高性能通用芯片性价比的提高使得基于软件平台的较复杂压缩编码算法具有实 用可能,同时对多媒体视频信息的应用需求逐渐由播放型转向基于内容的访问操作型,这意 味着需要将基于内容的检索与编码结合起来考虑,使对多媒体信息的内容的访问可以直接针 对压缩数据进行,因此m p e g - 4 最终被定位为基于对象的、侧重于访问多媒体信息内容的 开放的视频编码标准,描述交互式的视听场景通信系统。m p e g 4 与以前的标准有很大的不 同,它希望建立一种更为自由的通信与开发环境,为多媒体数据压缩编码提供更为广阔的平 台。m p e g 一4 的基本视频编码器还是属于和h 。2 6 3 相似的一类混合编码器,最大的创新是 1 0 中国科技大学硬士学位论文第一章引言 其基于对象的编码思想,突破了传统方法基于帧的局限,而代之以v o ( v i d e o o b j e c t ) 的概念 的引入,用运动信息、形状信息、纹理信息来描述,在时域和空域上都具有很好的灵活性和 扩展性,而它对比特率的控制使得图像的主观质量更能得到保证。 6 、h 2 6 4 v c e g 在h 2 6 3 之后开始研究新标准以支持低码率的视频通信,由此产生了h 2 6 l 标准 草案,与之前的标准相比压缩效率具有明显的优越性。2 0 0 1 年m p e g 与v c e g 共同成立了 联合视频组( j v t ) ,致力于将h 2 6 l 草案发展成一个国际性标准,i t u - t 将其命名为h 2 6 4 , i s o i e c 将它收录于m p e g 一4 标准第1 0 章中,称为a v c 。在相同的重建图像质量下,h 2 6 4 比h 2 6 3 + 和m p e g 4 ( s p ) 的码率小5 0 。其技术特点可以归纳为三个方面,一是注重实用, 采用成熟的技术和简洁的表现形式,以追求更高的编码效率,;二是注重对移动和j p 网络的 适应采用分层的概念从形式上将编码和信道隔离开来实质上是在源编码器算法中更多地 考虑到信道的特点:三是在混合编码器的基本框架下,对其主要功能模块都做了重大改进, 引入了很多先进的技术,包括多种大小块的运动估计、多参考帧预测、1 4 象素精度的双线 性插值、空域内的帧内预测、4 x 4 整数变换等,大大提高了压缩比,同时也增加了算法的复 杂度。h 2 6 4 具有较强的解码容错性和灵活的设计层次以适应各种不同的网络接口,而且能 很好的处理网络延时情况,既可工作于低时延模式以满足会议电视等实时业务,又可工作于 视频存储等无时延限制的场合。h 2 6 4 的推出是视频编码标准的一次重要进步,与之前的标 准相比具有无可比拟的优越性,代表了当前业界最先进的视频压缩技术,其编码效率的提高 使其能满足许多领域新的需求,诸如实时视频通信、因特网视频传输、流媒体服务、压缩视 频存储等。随着硬件技术的快速发展,h 2 6 4 能得到更广泛的应用。 7 、a v s 除了上述国际标准之外,中国也在制定具有自主知识产权的音视频编码标准。2 0 0 3 年 1 1 月底,中国国家信息产业部数字音视频编解码标准组正式发布a v s ( a u d i ov i d e oc o d i n g s t a n d a r d ) 标准草案。2 0 0 4 年1 2 月底,a v s 标准系统与视频部分顺利通过审定,主要面向高 清晰度电视、高密度光存储媒体等应用。a v s 视频目前定义了一个档次( p r o f i l e ) 即基准档 次,该基准档次又分为4 个级别( 1 e v e l ) ,分别对应高清晰度与标准清晰度应用。a v s ,视频基 于混合编码框架结构,采用了一系列核心技术,如8 x 8 整数变换、6 4 级量化、帧内预测、 l 4 象素精度插值、帧间预测运动补偿、二维熵编码、去块效应环内滤波等,同时充分考虑 了实现复杂度,应用目标明确,技术有针对性。与h 2 6 4 的b a s e l i n ep r o f i l e 相比,a v s 视频 增加了b 帧、i n t e r l a c e 等技术,因此其压缩效率明显提高,而与h 2 6 4 的m a i np r o f i l e 相比, 中国科技大学硕士学位论文第一章引言 又减少了过丁复杂的预测模式、c a b a c 等效率不够高或实现难度大的技术,从而增强了可 实现性。因此在高分辫率应用中,其压缩效率明显比常用的m p e g - 2 视频提高个层次, 而在压缩效率相当的前提卜,又较h ,2 6 4 的m a i np r o f i l e 的实现复杂度大为降低。a v s 标准 对中国发展自主知识产权具有特殊的意义,不过还需要进一步完善和提高。 1 2 ! 壁整茎奎竺堡主兰堡垒奎 墨三兰堡鉴堡堑堡里堕矍 第二章视频压缩编码原理 视频压缩的原理是利用了图像数据中的两种特性:空间相关性和时间相关性。一帧图像 内的任何一个场景都是由若干像素点构成的,因此一个像素通常与它周围的某些像素在亮度 和色度上存在一定的关系,这种关系叫作空间相关性;一段视频序列由若干帧连续图像组成, 一个图像序列中前后帧图像间也存在一定的关系,这种关系叫作时间相关性。这两种相关性 使得图像中存在大量的冗余信息。如果在传输时能将这些冗余信息去除,就可以大大节省传 输频带,而接收机得到有效的非相关信息,按照一定的解码算法可以恢复原始图像。一个好 的压缩编码方案就是在保证一定的图像质量的前提下能够最大限度地去除图像中的冗余信 息。达到信噪 e 和压缩比的平衡,同时考虑到实现复杂度。 本章具体剖析了视频编码原理和主要环节的相关技术,阐明了视频序列是如何一步步去 除冗余信息完成压缩过程的。 第一节空间域变换( t r a n s f o r m ) 图像抽样值以空间位置或扫描顺序组织的数据,互相之问具有极高的相关性,需要将预 测差值从空间域变换到另一个域,以改变数据序列的统计特性,得到少量的信息量较大的变 换系数和大部分可以忽略的不重要的变换系数。图像数据通常以基于8 8 或1 6 1 6 块的二 维离散形式处理,在均方误差准则下k l 变换有最佳变换效果,变换后的系数之间互不相 关,但k l 变换需要预先知道随机序列的统计特性,因此无法得到实际应用而通常为离 散余弦变换( d c d 所代替。d c t 是经典的谱分析工具,不仅有与k l 变换相近的去相关效 果。而且运算效率商,易于工程上快速实现。 在视频编码中d c t 一般以8 8 像块为单位进行变换,对1 二一般i 到像能够将像块的能量 集中于少数低频d c t 系数上。如下图所示,图2 - l a 是待变换的1 6 1 6 图像,经过d c t 处 理之后的结果如图2 1 b 所示,能量集中在左上角的低频区域,代表亮度值在图像中的渐变 部分,而变化较剧烈的区域内的系数很小,对图像质量的影响细微,这样就可能只编码和传 输少数系数而不严重影响图像质量。 实际廊用中空问域变换并不只限于d c t ,如j p e g 2 0 0 0 就引入了小波变换,对传统的视 频编码是个很好的启示。和d c t 变换相比,4 、波变换具有对信号进行多分辨率分析和反映 信号局部特征的特点,既能考察局部时域过程的频域特征,又能考察局部频域过程的时域特 征。对于平稳过程和非平稳过程处理起来都有很好的效果,而且能够消除d c t 压缩普遍具 有的块效应。 3 中固科技大学硕士学位论文第二章视频压缩编码原理 圈2 - 1 81 6 x 】6 像素块 图2 - l b d c t 变换系势 图2 - l c 量化后的d c t 系数 蚓2 1 d 反置化的d c t 系数 第二节量化( q u a n t i s e ) 空间域变换本身并不完成压缩功能,只是使手导图像数据中的相对重要的信息和相对次要 的信息以某种形式分离开,对图像的能量具有很好的集中效果,为压缩打下了基础。因此变 换之后需要一个量化器,去除那些对图像质量影响不大的变换系数,保留信息量较大的数据。 量化是针对空间变换系数进行的,量化过程就是以某个量化步长去除变换系数。量化步 长的大小称为量化精度,量化步长越小,量化精度就越细,包含的信息越多,但所需的传输 频带越高。如对d c t 变换而言,不同的d c t 变换系数对人类视觉感应的重要性是不同的, 因此编码器根据视觉感应准则,对一个8 x8 的d c t 变换块中的6 4 个d c t 变换系数采用不 同的量化精度,以保证尽可能多地包含特定的d c t 空间频率信息,又使量化精度不超过需 要。d c t 变换系数中,低频系数对视觉感应的重要性较高,因此分配的量化精度较细;高 1 4 中墨科技大学硕士学位论文第二章视频压缩编码原理 频系鼓对视觉感应的重要性较低,分配的量化精度较粗,通常情况下,一个d c t 变换块中 的大多数高频系数量化后都会变为零。图2 1 c 为图2 1 b 的d c t 系数量化后得到的结果, 可以看到很多较小值的非零系数变成了零值。图2 - 1 d 为反量化的结果,较大的系数值基本 恢复成量化前的值,而零值并未恢复成量化前的较小值,因此量化属于有损压缩,会损失一 定的信息量。量化步长通常是编码时用来控制图像质量和压缩比的主要参数。 第三节熵编码( e n t m p ye n c o d e ) 量化生成了变换系数的一种有效的离散表示,图像值由少量重要的非零系数和许多零值 组成,通常要经过重新排序后将它们按统计特性进行熵编码。通常采用之字型的z i g - z a g 扫 ,j 描,将变换系数由二维变为维排列,非零系数集中于数组前部,后面跟着长串的量化为零 的系数,为游程编码宦造了条件。 游程编码中,只有非零系数被编码。一个非零系数的编码对由两部分组成:前一部分表 示非零系数前的连续零系数的数量( 称为游程) ,后一部分是那个非零系数。这样就把之型扫 描的优点体现出来了,因为之型扫描在大多数情况下出现连零的机会比较多,游程编码的效 率就比较高。当一维序列中的后部剩余的d c t 系数都为零时,只要用一比特标志位来指示 就可结束这一8 8 变换块的编码,压缩效果较高。 通常采用的熵编码算法有哈夫曼编码和算术编码,在确定了所有编码信号的概率后生产 一个码表根据统计分布规律出现概率高的系数用短字长符号表示,出现概率低的系数用 长字符号表示,使得平均比特长度趋于最短,输出由二进制压缩符号序列组成的编码码流。 第四节编解码对( c o d e c ) 编码码流可以经过与编码步骤几乎完全相反的熵解码、重排序、反量化、反变换等解码 过程恢复出全部原始数据。由于编码在量化时引入了误差,解码恢复出的数据和原始数据并 不是完全相同的,失真度依赖于量化步长的大小和预测的准确度。编码和解码整个过程组成 了一个i m a g ec o d e c ( e n c o d e r d e c o d e r ) ,流程如图2 2 所示: 5 中雹科技大学硕士掌位论文第二章视频压缩编码原理 至毒讲霉e n o c 仨g k n t 图2 - 2i m a g e c o d e c 框图 s t o r e ,t r , 自3 s r n i t 广“ 蛳e n t 梆。, yk 一 ! ,一 第五节运动预测( m o t i o ne s t i m a t i o n ) i m a g ec o d e c 只能对组成视频序列的每一帧图像单独进行压缩和解码,为了挖掘帧间 的数据相关性需要在i m a g ec o d e c 的前端加上预测和补偿模块以减小待编码的数据量。 相应的解码端重复相反的补偿过程以恢复原始图像。框图如下所示: 黼娜。的6 日s l 州 0 d h 图2 - 3i m a g ec o d e c 加上帧预测 预测器在视频编码中起着至关重要的作用。视频编码从根本上说是信源编码,以 s h a n n o n 的信息论为基础,通过减少图像信源中存在的信息冗余来压缩数据。对于相关性很 强的序列,线性预测是去除相关性的有效方法。通常采用差分脉冲编码调制( d p c m ) 。原理 如下图所示,在编码过程中,对待编码的信源序列s ( i ) 利用已编码符号e q ( 一1 ) 来计算 一 中国科技大学硕士学位论文 第二章视频压缩编码原理 预测值s 。( 女一1 ) 然后对其与真实值s ( 女) 的差值e ( ) 进行编码。在接收端用与发送端完全 一致的预测器恢复出解码值s ( 女) 。通常根据均方误差最小准则来预测,序列的相关性越强, 预测得就越准确,差值g ( 女) 就越小,相应的压缩效果也就越好。 图2 - 4 d p c m 系统框图 对图像序列来说,预测值可以利用空间相关性从相邻位置的像素值得到,也可以利用时 间相关性从以前的帧中相应位置的像素值得到,即帧内预溅和帧间预测,相应的有i 帧、p 帧和b 帧的概念。i 帧图像采用帧内编码方式,即只利用了单帧图像内的空间相关性,而没 有利用时间相关性。i 帧的压缩倍数相对较低,主要用于接收机的初始化和信道的获取,以 及图像内容的切换和插入,一般在视频序列中周期性出现,出现频率可由编码器选择。p 帧 和b 帧图像采用帧间编码方式,即同时利用了空间和时间上的相关性,可以大大提高压缩 效率和图像质量。p 帧采用前向时间预测,用序列中以前的帧在一定范围内的位移来对当前 帧预测得到运动补偿值,与当前帧相减得到待编码的残差( 如图2 - 3 所示) 。p 帧图像中也 可以包含帧内编码的部分,即p 帧中的每一个宏块可以是前向预测,也可以是帧内编码。b 帧图像采用双向时间预测,可以同时进行前向和后向预测,尽最大可能挖掘相关性,进步 提高了压缩倍数。由于b 帧采用了未来帧作为参考,因此编码码流中图像帧的传输顺序和 显示顺序是不同的。 运动预测和补偿部分与i m a g ec o d e c 相结合,就形成了视频编解码器v i d e oc o d e c 。 编解码的一般框架如图2 - 5 和图2 - 6 所示。这种混合编码模型自上个世纪九十年代初提出以 来保持着相对稳定的结构,以一个运动预测和补偿前端、一个变换过程和一个熵编码组成, 常常被称为d p c m d c t c o d e c 。目前所有的视频标准所对应的编解码器整体思路都是这一 结构,在实现细节上则根据各种标准不同的特性而各有侧重。 1 7 中国科技大学硕士学位论文第二荦视频压缩编码原理 图2 5d p c m d c t 视频编码器 图2 6d p c m d c t 视频解码器 1 8 中国科技大学硕士学位论文 第四章h 2 6 4 编码技术研究 第三章运动估计与补偿 在d p c m d c tc o d e c 体系结构中,对残差的变换、量化、熵编码等功能单元,每个 视频标准对其实现细节都有具体而明晰的规定,而对前端的预测则留有极大的发挥空间供设 计者改善编码器的性能。运动估计使用于帧问编码方式,通过参考帧图像产生对被压缩图像 的估计,其准确程度大大影响着最后的压缩效果,同时其高度复杂的计算量也直接决定了实 时编码的性能。本章我们来研究运动搜索有关的快速算法。 第一节运动估计和补偿 运动估计和补偿是去除时间冗余度的有力工具,作为用于时间d p c m 编码结构中的最 关键技术,在视频压缩标准中得到广泛应用。 1 、块匹配 运动估计一般以宏块( m b ) 为单位进行,每帧图像在编码前要按从左至右从上至下的扫 描顺序分割成若干个宏块。宏块是最基本的编解码单位和比特流数据组织单位。每个宏块包 含一个1 6 x 1 6 大小的亮度块和两个8 x 8 的色度块,如图3 - l 所示。 r 一一一一一一一一一一一, i 髓鬈1 6 x 1 6 1巴菇 8 x 8 ;x 2l i 一一一一一一一一一一一一j 图3 - 输入图像分割成宏块 视频序列中相邻图像除去运动引起的一些细微差别,其余部分基本相同,因此编码器在 参考帧中一定范围n t j ? 运动搜索,寻找某个相同大小的宏块来估计被压缩的当前帧中的宏 块,这叫做块匹配。从理论上说,物体的一切运动都可以用足够小的块平移来模拟。在绝大 多数的自然场景中运动都是有序的,在时间轴上相邻韵帧的图像之间关联性很强,冈此这种 1 9 中国科技大学顺士学位论文第四章h 2 6 4 编码技术研究 运动补偿生成的预测图像与被压缩图像的差别一般较小。如下图所示,圈3 2 a 是第一帧, 图3 - 2 b 是第二帧,此处只显示了亮度分量。两帧毫接相减得到的残差图像如图3 2 c 所示, 若将第一帧作为参考帧进行运动补偿,所得的残差图像如图3 - 2 d 所示,差值比图3 2 c 中的 值大大减小。 图3 - 2 a 第一帧 图3 - 2 c 直接相减的残差 2 、运动矢量 图3 2 b 第二帧 图3 - 2 d 运动补偿后的残差 被压缩图像当前宏块与参考图像的补偿宏块间的位置偏移用运动矢量来描述或称运动 向量,一个运动矢量代表水平和垂直两个方向上的位移。将参考帧图像中的每个宏块移至运 动矢量指示的水平和垂直方向上的相对应位置,即可生成对被压缩图像的预测。以图3 2 a 为参考帧,对图3 - 2 b 进行运动估计,所得每个宏块的运动向量如图3 - 2 e 所示: 中国科技大学碗士学位论文 第四章h 2 6 4 编码技术研究 一一 、 、 t 、 、, #k ,一f t 一 rr、 :。:一i 薯一? i 。! 曩、;: :。| ; 霞藕誉 图3 - 3 参考帧图像边缘扩展 2 中重科技大学颤士学位论文第四章h 2 6 4 编码技术研究 3 、分数像素搜索 某些情况下在整像素搜索的基础上采用插值的方式在插值空间进一步搜索能够得到更 精确的预测结果,此即所谓的分数像素搜索。如图3 - 4 所示,黑色点为当前块,灰色点为搜 索到的匹配块,可能在整象素点的位置上匹配效果最佳,也可能在分数像素的位置上匹配效 果最佳。一般的编码标准都允许半像素位置上的搜索补偿,半像素点的值一般采用邻近的整 像素点线性内插得到。h 2 6 4 的运动估计则采用复杂的能精确到】4 像素精度的双线性插值 来进行搜索和补偿。 oo t ) o o o o o ooo o ( j ( ) o ( ) co o o 4 、场景分割 o c o :j ( ) o 0o o 0o c o 0o o o o o o o o o o o o oo 图3 - 4 分数像素精度搜索 一些较先进的视频压缩标准,如m p e g 4 ,将宏块概念进行延伸,对图像进行任意形状 的场景分割,允许若干个宏块组成一个视频对象v o ( v i d e oo b j e c t ) ,即视频序列描述的场景 中某个特定的对象。h 2 6 4 标准中也有s l i c e 、s l i c eg r o u p 的概念,给编码器更多的发挥空间。 如图3 - 5 所示,可以将运动对象从视频序列中提取分离出来,只对有变化的人像区域编 码,而忽略基本静止的背景部分。由此还进一步可实现更多的基于视频内容的压缩和应用, 如对每个v o 组成的v o p ( v i d e oo b j e c tp l a n e ) 进行单独编码,然后在接收端分别解码然后重 构出完整的图像。 m p e g - 4 在编码过程中针对不同v o 采用不同的编码策略,即对前景v o 的压缩编码尽 可能保留细节和平滑;对背景v o 则采用高压缩率的编码策略,甚至不予传输而在解码端由 其他背景拼接而成。这种基于对象的视频编码不仅克服了经典视频编码中高压缩率编码所产 生的块效虑而且实现了基于内容的交互式应用,为视频编码提供了广阔的发展空间。 场景分割和视频对象提取的相关技术还没有发展成熟,投入普遍应用还存在不小的障 碍,具体如何实现才能达到更好的效果正是目前基于内容压缩编码研究的最活跃领域,也与 人工智能、模式识别、神经网络等学科有密切联系。 coooooooc() ooo00000()() ( _ ) o o o o o o o o o 0 00 00 0 0必o o :,;jr) 0 0 0 一o 0 0 妻雠丕兰堡主兰垡丝兰蔓婴兰望:! 竺塑里蔓查竺茎 5 、预测环 图3 - 5m p e g - 4 中基于视频对象的编码 预测误差经过编码器后本地解码重建恢复出图像,作为f 一帧的参考帧,形成一个预测 环,如图3 - 7 所示。帧闻编码时,原始图像首先与帧存储器中的预测图像进行比较,计算出 运动矢量,由此运动矢量和参考帧生成原始图像的预测图像。而后将原始图像与预测像素差 值所生成的差分图像数据进行d c t 变换,再经过量化器和比特流编码器生成输出的编码比 特流。 运动估计时,p 帧和b 帧图像所使用的参考帧图像是不同的。p 帧图像使用前面最近解 码的i 帧或p 帧作参考图像,称为前向预测;而b 帧图像使用两帧图像作为预测参考,称为 双向预钡i ,其中一个参考帧在显示顺序上先于编码帧( 前向预测) ,另一帧在显示顺序上晚于 编码帧( 后向预测) 。 需要注意的是,在帧内编码的情况下,编码图像仅经过d c t ,量化器和比特流编码器 即生成编码比特流,而不经过预测环的运动估计和补偿处理,d c t 直接应用于原始的图像 数据。 e r o a a a f r a g 嚣 中国科技大学坝士学位论文 第四章h 2 6 4 编码技术研究 图3 7 带本地解码的编码预测环 第二节运动搜索快速算法 1 、判别准

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论