(通信与信息系统专业论文)h264avc中预测模式选择算法研究.pdf_第1页
(通信与信息系统专业论文)h264avc中预测模式选择算法研究.pdf_第2页
(通信与信息系统专业论文)h264avc中预测模式选择算法研究.pdf_第3页
(通信与信息系统专业论文)h264avc中预测模式选择算法研究.pdf_第4页
(通信与信息系统专业论文)h264avc中预测模式选择算法研究.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国科学技术大学硕士学位论文 摘要 摘要 t t 2 6 4 a v c 是最新的视频编码标准,具有压缩效率高、网络友好性好等显著优点, 适用于交互和非交互应用环境。与以前的视频编码标准相比,h 2 6 4 a v c 在率失真效 率方面得到了实质性的增强。h 2 6 4 a v c 性能的提高是由于它采用了一些先进的编码 技术,包括帧内预测、可变块尺寸和t 4 像素精度运动补偿、去块效应滤波器、新的 熵编码方法等。t t 2 6 4 a v c 支持许多种帧内、帧间预测模式,从所有预测模式中选择 最优的编码模式对其编码性能的提高至关重要。为了确定最优的编码模式, h 2 6 4 a v c 采用率失真优化( r d 0 ) 方法,并且取得非常好的效果。然而,这是以大 幅度增加编码器复杂度为代价的,因此本文重点研究r d 0 模式下快速的帧内、帧间预 测模式选择算法,以减小编码器的复杂度。 本文首先详细分析了1 f 2 6 4 a v c 编码器的关键技术,包括帧内预测、帧间预测、 变换和量化、去块效应滤波器、熵编码五个编码模块。然后重点讨论了视频编码的 优化技术以及r d 0 模式下的预测模式选择过程。最后提出了两种r d o 模式下的快速 帧内、帧间模式选择算法,有效地降低了预测模式选择过程的复杂度。 本文提出的快速帧内预测模式选择算法,充分利用了预测误差的频域特征以及 相邻块的预测模式之间的相关性,可预先排除6 5 以上的i n t r a _ 4 4 模式,从而大幅 度降低帧内预测的复杂度。该算法简单有效,适用于不同码率的编码环境。实验结 果显示该算法平均可减少编码时i n 3 0 一4 0 ,同时基本保持了原来的编码性能。 本文提出的快速帧间预测模式选择算法,充分利用相邻宏块率失真特征以及预 测模式的时空相关性,对预测模式进行判断或简单分类,取得了很好的效果。实验 结果显示该算法平均可减少序列的编码时间2 5 4 6 ,同时基本保持了原来的编码 性能。 以上两种快速算法实现简单,可有效降低不同码率环境下的帧内、帧间预测复 杂度,并且算法未改变h2 6 4 a v c 的任何语法结构,与标准完全兼容,对h2 6 4 a v c 的实时实现具有重要意义。 关键词:h2 6 4 a v c ,视频编码,预测模式选择算法,率失真优化,复杂度 中国科学技术大学硕士学位论文 a b s t r a c t h2 6 4 a v ci st h en e w e s t , ,i d e oc o d i n gs t a n d a r di to f f e r se n h a n c e dc o m p r e s s i o n p e r f o r m a n c ea n da “n e t w o r k - f r i e n d l y ”v i d e or e p r e s e n t a t i o n ,w h i c hm a k e si ts u i t a b l ef o r i n t e r a c t i v ea n dn o n - i n t e r a c t i v e a p p l i c a t i o n sc o m p a r e d w i t 1 p r e v i o u ss t a n d a r d s h2 6 4 a v ch a sa c h i e v e das i g n i f i c a n ti m p r o v e m e n ti nr o t e d i s t o r t i o n e f f i c i e n c y b e n e f i t i n gf r o mas e r i e so fa d v a n c e dc o d i n gt e c h n i q u e si n c l u d i n gi n t r a f r a m ep r e d i c t i o n , v a r i a b l eb l o c ks i z ea n dq u a r t e rs a m p l ea c c t l r a t em o t i o nc o m p e n s a t i o n ,d e b l o c k i n gf i l t e r , a n dn e we n t r o p yc o d i n gm e t h o d ,e t ch2 6 4 a v cs u p p o r t sm a n yi n t r a a n di n t e r - f l a m e p r e d i c t i o nm o d e ss e l e c t i n gt h eb e s tc o d i n gm o d ea m o n gt h o s ep r e d i c t i o nm o d e s c o n t r i b u t e sm a i n l yt ot h eh i g hc o d i n ge f f i c i e n c yo fh2 6 4 a v ci no r d e rt od e c i d et h e b e s tc o d i n gm o d e ,t h er a t e - d i s t o r t i o no p t i m i z a t i o n ( r d o ) m e t h o di su s e dt h er d o m e t h o di m p r o v e st h ec o d i n ge f f i c i e n c ys i g n i f i c a n t l yh o w e v e r , t h i si sa c h i e v e da tac o s t o fc o n s i d e r a b l yi n c r e a s e dc o m p l e x i t ya tt h ee n c o d e rs ot h et h e s i sp l a y se m p h a s i so n r e s e a r c h o ff a s ti n t r a a n di n t e r - f l a m em o d es e l e c t i o n a l g o r i t h m si no r d e rt or e d u c e c o m p l e x i t yo f t h ee n c o d e r f i r s t l y ,t h i st h e s i sa n a l y z e si nd e t a i ls o n - l ek e yc o d i n gt e c h n i q u e so fh2 6 4 a v c , i n c l u d i n gi n t r ap r e d i c t i o n ,i n t e rp r e d i c t i o n ,t r a n s f o r ma n dq u a n f i z a t i o n ,d e b l o c k i n gf i l t e r a n de n t r o p yc o d i n g s e c o n d l y ,v i d e oc o d i n go p t i m i z a t i o na n dr d o - b a s e dp r e d i c t i o n m o d es e l e c t i o na r ed i s c u s s e da tl a s t ,t w of a s ti n t r a a n di n t e r f r a m em o d es e l e c t i o n a l g o r i t h m sa r ep r o p o s e d ,w h i c hc a ne f f e c t i v e l yr e d u c et h ec o m p l e x i t yo fp r e d i c t i o nm o d e s e l e c t i o n t h ep r o p o s e df a s ti n t r a f r a m em o d es e l e c t i o na l g o r i t h me m p l o y sf r e q u e n c y - d o m a i n c h a r a c t e ro fr e s i d u a ld a t aa n dc o r r e l a t i o na m o n gp r e d i c t i o nm o d e so fn e i g h b o r i n gb l o c k s t of i l t e ro u tm o r et h a n 6 5 i n t r a 一4 x 4 m o d e sa n da c c o r d i n g l yr e d u c e sp r e d i c t i o n c o m p l e x i t yd r a m a t i c a l l yt h ea l g o r i t h mi ss i m p l ea n de f f e c t i v e ,a n dc a p a b l eo fd i f f e r e n t b i tr a t e sa p p l i c a t i o n st h ee x p e r i m e n t a lr e s u l t ss h o wi ts a v e sc o d i n gt i m e3 0 - 4 0 o n i i 中国科学技术大学硕士学位论文 a v e r a g ea n dk e e p st h eo r i g i n a lc o d i n gp e r f o r m a n c eo f h 2 6 4 a v cv e r yw e l l t h ep r o p o s e df a s ti n t e r - f r a m em o d es e l e c t i o na l g o r i t h mu t i l i z e s r a t e d i s t o r t i o n c h a r a c t e ra n ds p a t i a l - t e m p o r a lc o r r e l a t i o na m o n gn e i g h b o r i n gm a c r o b l o c k st oj u d g e p r e d i c t i o nm o d e s ,a n dr e c e i v e san i c ep e r f o r m a n c e t h ee x p e r i m e n t a lr e s u l t ss h o wi t a c h i e v e s2 5 一4 6 r e d u c t i o ni nc o d i n gt i m eo na v e r a g ea n dk e e p st h eo r i g i n a lc o d i n g p e r f o r m a n c e o f h2 6 4 a v cv e r yw e l l t h et w of a s ta l g o r i t h m sw i t hs i m p l ei m p l e m e n t a t i o np r o p o s e di nt h et h e s i sc a n r e d u c ei n t r a a n di n t e l - f r a m ep r e d i c t i o nc o m p l e x i t ye f f e c t i v e l yi nv a r i o u sb i tr a t e s a p p l i c a t i o n st h ea l g o r i t h m sd on o tc h a n g ea n ys y n t a xo f h 2 6 4 a v ca n da r ec o m p a t i b l e w i t ht h es t a n d a r dc o m p l e t e l ys ot h e ya r ev e r yi m p o r t a n tt or e a l - t i m er e a l i z a t i o no f h2 6 4 a v c k e yw o l l d s :h2 6 4 a v c ,v i d e oc o d i n g ,p r e d i c t i o nm o d e s e l e c t i o n a l g o r i t h m , r a t e - d i s t o r t i o no p t i m i z a t i o n ,c o m p l e x i t y i i i 中国科学技术大学碗土学位论z 第一章绪论 第一章绪论 1 1 引言 信息和网络技术的飞速发展使数字媒体正在成为人们日常生活中不可缺少的一 部分,如数码摄相机、d r l ) 、数字电视等新技术正迅速走进我们的日常生活。为了有 效存储和实时传输数字媒体,需要研究高效的视频编码技术。自从1 9 9 1 年c c i t t ( 1 9 9 3 年更名为i t u - t ) 推出第一个广泛使用的视频编码标准h 2 6 l 以来“1 ,产生 了一系列面向不同应用环境的视频编码标准,并且在相应的场合下获得了重要应用。 然而随着新的业务需求的出现,如网络多媒体、无线视频、数字高清电视等,使人 们对视频编码标准提出更高的要求,希望能提供更高的压缩效率和编码质量,同时 要能适应不同的网络环境。h 2 6 4 a v c “”7 “”。1 正是在这样的背景下产生的新一代视频 编码标准,于2 0 0 3 年5 月得到i t u t 的正式批准,2 0 0 3 年l o 月得到t s o i e c 的正 式批准。与以前的视频编码标准相比,该标准的显著优点是压缩效率更高、网络适 应性更好,适用于交互和非交互应用环境,现已受到越来越广泛的关注。 在相同的编码质量下,h 2 6 4 a v c e l 胆e g 一2 大约节约t 5 0 的码率”m “”,这主要 归功于它采用了增强的预测方法、新的变换方法和熵编码技术等。在预测技术方面 采用新的帧内预测方法,灵活多样的运动补偿块( 从1 6 1 6 至1 4 x4 共7 种) 以及1 4 像素精度的运动补偿技术等,使不同性质的视频内容均能被有效表达。在变换和熵 编码技术方面,采用4 4 整数变换保证了编、解码过程的完全匹配,采用基于上下 文的熵编码方法进一步提高了压缩效率。对于大量的编码参数,如预测模式、运动 矢量等,h 2 6 4 a v c 采用率失真优化( r d o ) 技术选择最优的编码参数,使编码效率 得到实质性的提高。 为了提高网络适应性,使视频编码系统容易与不同的网络架构和协议无缝集成, h 2 6 4 a v c 采用分层设计的编码思想,分为视频编码层( v c l ) 和网络抽象层( n a l ) 。 v c l 层专门负责视频内容的有效表达,最大限度地提高编码效率。n a l 层负责对v c l 编码的内容进行封装,以适应不同网络的有效传输或不同的存储形式。在v c l s f n a l 中国科学技术大学硕士学位论文 第一章绪论 之间定义了基于分组的接口,提高n a l 在不同特性的网络上定* i j v c l 数据的能力。 h 2 6 4 ,;a v c 卓越的压缩效率、友好的网络适应性,使其在现有视频编码标准中 处于领先地位,可能成为无线视频通信、互联网视频应用以及数字高清电视首选的 编码标准,具有广阔的应用前景。目前t t 2 6 4 a v c 已被多个重要的应用领域采用, 如欧洲的数字视频广播标准d v b ( d i g i t a v i d e ob r o a d c a s t ) 、面向第三代移动通 信的3 g p p 和3 g p p 2 规范等“。 h 2 6 4 ,a v c 的编码效率是以大幅度增加编码复杂度为代价的,其编码复杂度大 约是m p e g 一2 的9 倍。1 。这严重影响了它的广泛实用化,特别是对于无线通信环境, 由于移动终端计算能力、内存容量、电池能量以及无线信道的局限性,要求在保证 编码效率的条件下尽可能降低编码复杂度。对于其它实时性要求较强的场合,如视 频会议、网络视频监控等,现有的算法很难进行实时编码。因此对编码器进行优化 处理,研究快速的编码算法对h 2 6 4 a v c 的实用化具有非常重要的意义。导致编码 器复杂度大幅度增加的主要因素包括运动估计、预测模式选择等模块。“,而模式选 择过程是增加编码复杂度的一个重要因素,因为h 2 6 4 a v c 为了提高编码效率,采 用r d o 技术选择最优模式。而r d o 模式选择过程中代价函数的计算涉及运动估计( 帧 间预测方式) 、变换反变换、量化反量化、熵编码等环节,是一个非常耗时的过程, 使模式选择过程的计算复杂度显著增加。如果采用有效的快速模式选择算法,可以 在未改变码流的任何语法结构,与解码器完全兼容的情况下,有效降低编码复杂度, 并且对编码性能影响很小甚至没有影响。鉴于r d o 模式选择的重要性、选择过程的 复杂性以及快速算法的有效性,所以研究h 2 6 4 a v c 中的快速模式选择算法具有重 要的现实意义和实用价值。 1 2 国内外的研究现状 h 2 6 4 a v c 已成为视频编码与通信领域的一个研究热点,有关研究工作涉及先 进的视频编码算法、网络环境中的应用、不同标准的转码、编、解器的优化和实现 等方面。国内不少专家从事这方面的研究工作,并取得一定成果,如中科院计算所 中国科学技术大学硕士学位论l z 第一章绪论 高文教授、清华大学何芸教授、浙江大学虞露教授、中国科大李厚强博士等。国际 上以i s o i e cm p e g 和i t u tv c e g 两个专家组成员为代表,为推动h 2 6 4 a v c 的研 究和应用做出重要贡献。国际学术刊物i e e et r a n s a c t i o n so nc i r c u i t sa n ds y s t e m sf o r v i d e ot e c h n o l o g y ,j o u r n a lo fv i s u a lc o m m u n i c a t i o na n di m a g er e p r e s e n t a t i o n , e u r a s i pj o u r n a lo na p p l i e ds i g n a lp r o c e s s i n g 先后出版专刊介绍与h 2 6 4 a v c 有关 的研究成果。 在编码器优化研究方面,大部分研究工作集中于快速运动估计算法,已经提出 了多种高效的快速算法。这些算法大致可以分为两类:一类是优化运动估计算法本 身,如c e z h u 等人“”提出的基于六边形的搜索算法( h b s ) 、a m t o u r a p i s “7 3 提出的 增强的预测区域搜索算法( e p z s ) 和清华大学陈志波等人“6 1 提出的快速运动估计算 法等取得了较好的效果:另一类是提前终止运动估计计算,如l i b oy a n g 等人“5 1 提 出的可变块尺寸最优运动检测( v b b m d ) 算法等进一步提高了运动估计的速度。在快 速模式选择算法方面研究工作相对较少,简单高效的快速算法更少。研究人员主要 从两个方面着手解决问题:一方面是简化代价函数,如h y u n g j o o nk i m 等人埽u 用 口一d o r a a j n 码率模型估计帧间模式选择代价函数的r a t e 项,取得了较好的效果。另 一方面是缩小模式选择的范围,如f e n gp a n 等人“”提出的帧内模式选择算法直接利 用空间域的特征,根据边界方向直方图( e d g ed i r e c t i o nh i s t o g r a m ) 预先排除一 些可能性小的预测模式,从而减小复杂度。该方法的不足是额外增加了约2 - - 5 6 的 比特开支。c h a n g s u n gk i m 等人“。提出的基于频率域和空间域相结合的帧内模式选 择算法思想较好,但阂值的自适应性不好,另外获得空间域特征的方法较复杂。kp _ l i m 等人。”根据大的块尺寸适合于编码均匀区域的直观分析,利用文献 1 4 的方法 进行均匀性判断,该帧间快速算法的效果不太理想,平均减少约3 0 的编码时间。 b y e u n g w o oj e o n 等人2 2 1 提出先判断s k i p 模式,再进行帧内和帧间判断的思想值得 借鉴,其不足之处是末进行其它帧间预测模式的判断,算法可以进一步优化。i r i c h a r d s o n 川等人提出根据一定的阂值对编码器复杂度进行灵活控制的思想具有重 要意义。总之,现有的快速模式选择算法有的侧重于利用空间域特征,有点侧重于 利用频率域特征,采用简化代价函数或缩小模式选择范围的方法来降低模式选择的 中国科学技术大学自f 士学位论文 第、章绪论 复杂度。但是,大部分算法存在的主要不足是算法比较复杂,未能充分利用视频信 号的时空相关性特征。另外,现有算法很少从相邻宏块的率失真特征的角度来分析 问题。针对这种情况,本文充分利用相邻块的时空相关性,并从率失真特征的相关 性方面来探讨有效的快速模式选择算法。 1 3 论文的主要研究内容和创新点 本文首先介绍视频编码中的基本概念以及率失真优化问题,在此基础上重点分 析h 2 6 4 a v c 编码器的关键技术,包括帧内预测、帧间预测、变换和量化、去块效 应滤波器、熵编码技术等。然后重点研究h2 6 4 a v c 模式选择过程的优化,提出两 种快速的帧内、帧间模式选择算法,有效地降低了模式选择过程的复杂度。在快速 帧内模式选择算法中,充分利用预测误差的频域特征以及相邻块的预测模式之间的 相关性,有效地缩小了模式选择的范围。在快速帧间预测模式选择算法中,充分利 用相邻宏块的率失真相关性以及预测模式的相关性,对预测模式进行判断或分类, 取得了事半功倍的效果。最后对全文进行了总结,并提出进一步优化算法的思路和 今后研究方向的设想。 本文的主要创新点包括以下三个方面: ( t ) 从信息论的角度分析了视频编码的优化技术,重点研究相邻宏块的率失真 特征及其相关性,为快速算法的设计提供了理论依据。 ( 2 ) 提出了一种快速帧内模式选择算法,该算法充分利用预测误差的频域特性 以及相邻块之间的相关性,模式判断准确且对原有的编码性能影响很小,可预先排 除掉6 5 以上的i n t r a4 4 模式。同时,该算法简单且性能稳定,适用于不同码率 的编码环境,具有重要的实用价值。 ( 3 ) 提出了一种快速帧间模式选择算法,该算法利用相邻宏块率失真特征以及 预测模式的时空相关性对预测模式进行判断或分类,取得了事半功倍的效果,是一 种简单实j ; j 的算法。采用该快速算法平均可减少2 5 ,4 6 的编码时间。 中国科学技术大学砸士学怠论文第二章视频编码标准及相差的基本概念 第二章视频编码标准及相关的基本概念 2 1 与视频有关的基本概念 21 1 彩色信号的表示 川纛蒜溉l b l 川 i z jl o 4 6 8 o0 8 9l 0 0 9j j 中国_ f 二t 学技术大学硕士学位论文 第二章视频编码标准及相关的基本概念 第二章视频编码标准及相关的基本概念 2 1 与视频有关的基本概念 211 彩色信号的表示 根据彩邑的三基色原理,大多数彩色信号可以由适当选择的三种基色混和产生。 照明光源最流行的基色系包括红色、绿色和蓝色,称n r o b 基色。反射光源最常用的 基邑系包括青色、品色和黄色,称) s c m y 基色,r g b 和c m y 基色系是互补的,也就是说 混合一个色系中的两种彩色会产生另外一个色系中的一种彩色。 彩色信号可以用三基色的激励值表示,也戟是用三基色的比例系数确定一个彩 色信号。r g b 基色信号一般混合了光的亮度和色度属性,而在许多应用中,为了能够 更高效地处理和传输彩色信号,人们希望将彩色亮度与色度分量分离开。为了达到 这个目的,人们开发了各种三分量彩色坐标,其中一个分量表示亮度,另外两个分 量共同表示色度和饱和度。如国际照明委员会( c i e ) 定义的x y z 坐标系统,其中y 表示亮度分量。( x ,y ,z ) 值与( r ,g ,b ) 值的变换关系为: f x r23 6 5 一o 5 1 5 o0 0 5t r j r l = l 一08 9 7 14 2 6 一o 0 1 4 i g ( 2 1 1 ) lzll o 4 6 8 00 8 910 0 9 0 b c i e 定义的i y z 坐标系统除了能分离亮度和色度信息外,另一个优点是几乎所有 的可见彩色都能由非负的激励值规定,而这正是人们期望的特性。其它的主要彩色 坐标系统还包括m s c 系统采用的y i q 坐标系统、p l 和s e c a m 系统采用的y u v 坐标系统、 y c i o c r 坐标系统等,其坐标值都是x y z 坐标导出的。 y c b c r 坐标系统是由国际电信联盟一无线电部门( i t u r ) 制定的数字彩色坐标系 统,y k 示亮度分量、c b 和c r 分别是色差b y 和r y 伸缩后的形式。y 、c b n c r c j 。n 是 模拟y 、u 和v 分量的伸缩和移位形式,各分量的取值范围为0 2 5 5 。y c b c r 值与r g b 值 的变换关系为: 的变换关系为: 中国科学技术大学硕士学位论文第二章视频绽码标准及相关的基本概念 刚- 嘉0 1 4 8 巍- 0 2 9 焉0 4 3 9 ,阱1 2 訇 , l ;:j2 。,一。,。:一。,j l 罢j +引 2 1 2 2 12 模拟视频和数- t - 视频 数- t - 视频是由帧率正,、行数工,和每行的样点数正。定义的。数字视频还有一 数字视频的码率由r = 疋,+ 工,+ 工、。+ 确定,单位是比特秒( b p s ) 。 2 1 3 数字视频格式 中国科学技术大学硕士学位论文第二章视频编码标准及相关的基本概念 为了将不同的模拟电视信号的数字格式标准化,i t ur 制定了b t 6 0 1 视频格式标 准,该标准规定了幅型比为4 :3 矛u 1 6 :9 1 5 4 数字视频格式,详细定义了图象的采样率、 分辨率等参数。b t 6 0 1 格式用于高质量的数字视频场合,如d v d 、s d t v 等。 常用的数字视频格式还有通用中间媒体格式( c i f ) 、四分之一通用中间媒体格 式( q c i f ) 、源媒体格式( s i f ) 等。c i f 格式由国际电信联盟一电信部门( i t u - t ) 制定,其水平和垂直分辨率大约是b t 6 0 14 :2 :o 信号的一半,主要为视频会议应用 而开发的。q c i f 格式的水平和垂直分辨率分别是c i f 格式的一半,主要用于可视电话 及类似的应用场合。c i f 和q c i f 格式都是非隔行的。s i f 格式是由i s o 一船e g 制定的标 准,这种格式定位于中等质量的视频应用,如视频游戏和c d 电影之类。有两种s i f 格式:一种是帧率为3 0 h z ,尺寸为3 5 2 x2 4 0 ;另一种是帧率为2 5 h z ,尺寸为3 5 2 2 8 8 。 为了进一步增强视频质量,运动图象和电视工程师协会( s m p t e ) 还制定了适用于高 清数字电视( h d t v ) 的视频格式,图象分辨率可达1 9 2 0 1 0 8 0 ,帧率可达6 0 h z 。 2 1 4 视频质量的度量 为了比较视频处理性能的好坏,人们需要定义能测量原始图象与处理后图象之 间差别的客观准则。而想找到一种与主观评价相吻合的客观评价标准是一件非常困 难的事情。一种广泛使用的准则是均方误差( m s e ) 最小准则,两个视频帧s 1 , n s 2 之间的均方误差定义为: m s e - l ,。x a , ( 卅, ) 一是( ,”) r ( 2 1 3 ) 其中n 表示一个视频帧的总像素数。对于彩色视频,每个彩色分量的m s e 是分别计算 的。 l l m s g 更常用的视频编码质量评测标准是峰值信噪比( p s n r ) ,它的定义为: c : 粥腿。1 0 1 0 9 1 ,盖 21 4 1 其中s 是视频信号的最大强度值,对于通常的8 比特精度彩色信号s 一= 2 5 5 。对于 亮度分量,p s n r 高于4 0 d b 意味着图象质量极好,即与原始图象很接近:p s n r 在3 0 4 0 d b 之问意味着图象质量较好,虽然失真可察觉,但能够接受;2 0 3 0 d b 之间,表示图象 中国科学技术大学碗:卜学位论文第二章视频编码标准夏相关的基本概念 质量是相当差的;p s n r e 于2 0 d b 是不可接受的。 2 2 率失真理论与视频编码的优化 信息论研究的一个重要内容是信源编码。信源编码的目标是有效去除信源输出 信号的冗余信息,用最少的比特来表示信源,使信号便于存储和有效传输。因此信 源编码就是要解决数据的压缩问题,它构成了数据压缩的理论基础。下面简单介绍信 息论中与数据压缩有关的重要概念和定理。 2 2 1 熵、联合熵、条件熵与互信息 设有离散随机变量x ,它的取值和对应的概率如下: ( 脚x ,) = 暖照x 2 1 ,喜纠 z , 那么称日( p 。,p :,p 。) = 日( z ) = 一p 。l o g p ,为随机变量x 的熵。熵是随机变 量不确定性的量度,熵值越大意味着随机变量的不确定性越大,编码该随机变量所 需的比特数越多。熵函数具有非负性、上凸性、唯一性等性质。 对于离散随机变量x ,当其n 个可能的取值等概率分布时,其熵达到最大值 h m a x ( x ) ,并且h m a x ( x ) = l o g n 。 将一个随机变量的熵的概念推广到多元随机变量( 或随机矢量) 时,可以引入 联合熵或条件熵来表示不确定性。 设二元随机变量( x ,y ) 可能的取值为( x i ,y ) ,对应的联合概率密度为 p ( t ,y ,) ,其中i = l ,2 ,m ,j = 1 ,2 ,n ,那么定义二元随机变量( x ,y ) 的联合 熵为h ( x y ) = 一p ( x y ) l o g p ( x i ,y ,) 。 根据联合熵的定义可以推出h ( x y ) = h ( x ) + h ( y i x ) = h ( y ) + h ( x t r ) ,称 h ( y i x ) 或h ( x f ) 为条件熵。条件熵表示在己知一随机变量的情况下,对另一随机 变量的不确定性的量度。 对于两个相互有关联的随机变量x 和y ,一般来说,知道其中一个随机变量的 中国科学技术大学硕士学位论叉 第二章 觅颤编码标准及相关的基本概念 取值后( 如y ) ,另一随机变量的不确定性会减小,即条件熵总是不大于无条件熵, 因此视频编码过程中充分利用相邻块的相关性可提高压缩效率。这种不确定性的减 少量称为x 、y 之间的互信息,表示为i ( x :y ) = h ( x ) 一h ( x ly ) ,或者 i ( y :x ) = h ( y ) - - h ( y 【x ) 。互信息i ( x :y ) 是对x 和y 之间统计依存程度的信息量度。 2 2 2 离散信源的熵率与冗余度 设离散平稳信源的字母表为 a ,a ,a k 】,信源的字母序列长度为n ,并用 f u ,i _ l 。,u 。,u w ) 表示,那么我们可以将该有限长度的序列看成一个随机矢量,其 熵可以用联合熵h ( u ,u ? ,u w ) 来表示,于是,平均每个字母的熵可以表示为 m ( u ) = 去h ( u ,u :,u w ) 。当n - - 。时,若h n ( u ) 趋于某一极限,则定义该极限为信 v 源的熵率,记作h 。( u ) = j i m h x ( u ) 。对于独立平稳信源,即无记忆信源,前后时刻信 n + 口t 源的输出彼此独立,则有h 。( u ) = h w ( u ) = h ( u i ) = h ,( u ) 。 h 。( u ) 随着n 的减小而不断增大,其最大值为h ,( u ) ,而对于字母数为k 的字母 表,熵的最大值为l o 球,所以h - ( u ) l o g k 。熵率是对信源进行无损编码所需要的 最少比特率的界限。我们把l o g k h 。( u ) 定义为信源的冗余度。在实际应用中,为了 减少存储空间或有效传输数据的需要,总是设法寻找有效的信源表示方法,最大限 度地减小信源的冗余度,由此产生了各种冗余度压缩编码方法。冗余度压缩编码属 于无损压缩编码,在压缩过程中保持信源的熵率不变。 223 率失真定理 冗余度压缩编码的优点是可以完全无失真地恢复信源,但这种编码的压缩效率 受到限制。在实际应用中,我们常常会遇到如图象、视频信号这类信息量很大的信 源,如果仍采用无损压缩的编码方法来表示,那么所需的比特率将会大的j 凉人,以 至无法进行有效存储和传输。同时,对于这类信源,在编码的过程中有一定的失真 量不会对实际使用造成太大的影响。因此,人们提出了熵压缩编码方法,目标是在 失真量不超过一定范围的情况下,将编码后的输出信号的熵率压缩到最小。 9 中国科学技术大学碱上学位论文第二章视颇编码标准厦相关的基本概念 若把编码器看成是一个信道,则i ( 圻就是信源通过该编码器传输的的信息速 率。理想的熵压缩编码就是要尽可能使编码器的输出逼近最低熵率,从而降低信息 传输速率。 在给定失真d 的情况下,编码平稳信源u 的率失真界限由下式给出; _ 尺( d ) ;,l i r al m 口i n p ( h - y ) ,e p ( u 矿) ) d ,其中q 表示所有的编码方案集,它满足 规定的失真约束,这就是率失真定理。它将码率和失真这两个重要的不同性质的量联 系起来,为信源编码过程中同时考虑这两个因素提供了可能。率失真定理是熵压缩 编码的基础,它指出当矢量长度n 趋于。时,编码信源所需码率的理论极限。反过 来看,当码率r 小于率失真函数r ( d ) 时,我们无论采用什么编码方式,其平均失真 必大于d 。因此率失真定理对限失真信源编码具有指导意义。在视频编码中,通常 要解决的问题是在给定码率r 的情况下,如何使失真最小。 2 2 4 视频编码的优化 率失真定理指出在限定的失真条件下编码平稳信源的信息速率理论极限,同理 在限定的信息速率条件下,也存在失真量的理论极限。根据率失真函数可以得到信 源的率失真曲线,然而遗憾的是,要计算一个具体信源的r ( d ) 函数十分困难,一方 面因为信源符号的概率分布很难确知,另一方面即使知道信源的统计分布,r ( d ) 函 数的求解也是相当复杂的。 我们可以将一帧图象或一个宏块看成一个信源,从理论上讲,该信源在限定的 码率条件下,存在一个最小的失真,因此包存在一条率失真曲线。视频编码的率失 真曲线提供了在限定码率范围内码率与图象失真的关系。为了达到在限定码率的条 件下使视频图象的失真最小,在编码的码率和图象失真之间必需选择一个恰当的平 衡点,这就是视频编码中的率失真优化( r d o ) 问题。对于视频信号,通常采用在一定 的编码框架下,调节编码参数( 预测模式、运动补偿方法、量化参数等) 来获得不 同的率失真性能。在一定的失真条件下,一种编码模式对应于r d 坐标中的一个点, 所有编码模式对应的点连成一条折线,希望该折线非常接近理想中的率失真曲线。 中国科学技术大学暖士学位论文第二章观频编码标准及相关的基本概念 如果限定一个目标码率r ,与其对应的最小失真d 点必然在率失真曲线上。率失真 优化的目标就是寻找一组编码参数,其对应的r - d 工作点尽可能地位于或逼近这条 曲线。 视频编码中的率失真优化问题可表示如下: m i n d ,当r r c 时( 22 2 ) 上式的含义是:限定一个码率r e ,当r 6 ) ,可以传输清晰度较好的会议电视图象。h 2 6 1 标准是 图象压缩编码领域4 0 年研究成果的结晶,是第一个在国际上产生广泛影响的视频编 码标准,随后的m p e g 系列标准中的视频编码算法无论从原理和基本框图来看都是以 h 2 6 1 为基础的,是对h 2 6 l 的重要发展和改进。 h 2 6 3 是i t u t 提出的码率低于6 4 k b it s 的窄带信道视频编码建议,它是在h 2 6 1 建议的基础上发展起来的,于1 9 9 6 年3 月发布。其帧率为每秒1 0 帧以上,图象分辨率 为1 7 6 1 4 4 ( q c i f 格式) 或者1 2 8 x 9 6 ( s q c i f 格式) 。h 2 6 3 是为了支持低速率的通信而 制定的标准,但同时希望码流能够适应较大的动态范围,而不仅限于低码率,能够 取代h 2 6 1 。h 2 6 3 的容错能力很强,能适应误码率高的信道。 1 9 9 8 年i t u t 对h 2 6 3 进行了修订,在h 2 6 3 的基础上增加编码的可选项,在语法 上与h 2 6 3 兼容,但编码效率有很大提高,适用范围也更大,该版本通常称为h 2 6 3 + 。 其主要的应用方向仍是低码率的视频业务,用于p s t n 以及无线接入的高误码率的通 信环境,因此在l - t 2 6 3 + q 既增加了一些改进编码效率的方法,又提高了抗误码性能 的能力。由于实现成本较低,h 2 6 3 + 标准得n t 广泛的应用。后来,又在h 2 6 3 + f l 基 础h i 割j u 了三个选项( 选项u 、迭项v 、选项w ) ,该版本通常称为h 2 6 3 + + ,主要是 为了增强码流在恶劣信道上二的抗误码性能,同时也是为r 增强编码效率。 2 3 1 2m p e g 系列视频编码标准 m p e ( ;系列视频编码标准是由i s o i e c 的运动图象专家组m p e g ( m o v i n gp i c t u r e e x p e r t sg r o u p ) 负责制定的,该组织的任务是研究开发运动图象及其声音的数字编 中国科学技术大学硕士学位论文第二章视频编码标准及相关的基本概念 码国际标准,自从1 9 8 8 年成立以来,制定了一系列有较大影响的国际标准,对推动 视频编码技术的发展做出重要贡献。 m p e g l 标准于1 9 8 8 年5 月开始研制,1 9 9 2 年1 1 月获得正式批准。该标准主要是为 光盘存储、v c d 、消费视频等应用而制定的,在影视和多媒体计算机领域中得到了广 泛应用。其主要目标是在l l i5 m b i t s 的情况下,提供3 0 帧c i f 格式v h s ( v i d e oh o m e s y s t e m ) 质量的图象。m p e g 一1 不能提供分级图象编码,也不能在丢包率高的情况下 使用。 m p e g - 2 标准于1 9 9 0 年7 月开始研制,1 9 9 4 年1 1 月正式发布。m p e g - 2 标准作为 m p e g - i 的扩展,支持隔行扫描的视频编码,广泛应用于数字电视和高清数字电视信 号的传输和高质量视频信号的存储( d v d ) 。而在此之前,i t u t 也成立了一个图象编 码的专家组,着手制定应用于a t m 环境下的标准h 2 6 2 ,由此开始了i s o i e c 和i t u t 的合作。m p e g - 2 标准扩展了m p e g 一1 标准,能够支持高分辨率图象和声音。其目标是 在3 - 1 5 m b i t s 传输速率条件下提供广播级的图象,而且能够提供信噪比( s n r ) 、时间 和空间三种分级编码。该标准应用于卫星广播时,在当前的一个模拟信道中,不牺 牲质量的情况下能提供5 路数字的编码节目。m p e g - i 和肝e g 一2 标准为v c d 、d v d 、数字 电视等产业的发展打下了坚实基础,使多媒体应用深入普通百姓生活。 m p e g 一4 由i s o i e cm p e g 专家组于1 9 9 1 年5 月提出,1 9 9 3 年7 月得到确认,其目标 是极低码率的音频视频编码,它支持用于通信、访问和数字视听数据处理的新方法 ( 特别是基于内容的编码) 。m p e g - 4 支持逐行扫描和隔行扫描,是基于视频对象的编 码标准,通过对象识别提供了空间的可伸缩性。m p e g 一4 标准既能够支持码率低于 6 4 k b i t s 的视频应用,也能够支持广播级的视频应用。与其它压缩标准相比,肝e g 一4 标准在d c t 的基础上引入了图象模型的概念从而具有更高的压缩效率。m p e g 一4 提供基 于内容编码的能力,能够对物体的形状进行编码,代表了新一代的视频编码技术。 m p e g 一7 标准于1 9 9 6 年开始研制,2 0 0 1 年7 月完成。m p e g 一7 采用标准化技术对多媒 体内容进行描述和检索,丰要用于多媒体数据库等,使在互操作方式下用户与网络 之间方便地交换多媒体信息成为现实。 船e g 一2 l 标准的重点是为从多媒体内容发布到消费所涉及的所有标准建立一个 中国科

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论