




已阅读5页,还剩47页未读, 继续免费阅读
(信号与信息处理专业论文)基于avs视频编码运动估计搜索算法的研究和优化.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 随着信息技术和计算机互联网的飞速发展,视频信息已成为人类获取信息的 最主要载体之一,同时也成为电子信息领域研究的热点。通常情况下,视频信息 的数据量非常巨大,由此,视频编码技术孕育而生。目前国际国内的主流视频编 码标准有m p e g 、h 2 6 x 系列以及a v s 。其中,a v s 是我国具有自主知识产权的视 频编码标准。 本文首先介绍了a v s 视频编码的关键技术并阐述了运动估计的模型、原理、 技术以及现有运动估计搜索算法。接着针对现有的新三步搜索法进行优化改进, 减少搜索时间,提高算法效率。重点提出了一种快速运动估计搜索算法,通过对 搜索窗中所有位置进行搜索尽可能地找到运动估计的全局最优值,并有针对性地 选择某些像素点进行块匹配,实现质量与搜索速度之间的可控性。 最后通过算法性能分析,表明本文提出的快速运动估计搜索算法不仅在搜索 速度和p s n r 两方面保持较好性能,而且在主观评价上优于其他快速搜索算法。 关键词:a v s 编码;运动估计;视频编码;搜索算法 a bs t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n f o r r m t i o nt e c h n o l o g ya n dc o m p u t e rt e c h n o b g y , v i d e oi n f o r m a t i o nh a sb e c o m eo n eo ft h em o s ti m p o r t a n tw a y st og e ti n f o r m a t i o n i t a l s ob e c o m e st h er e s e a r c hf o c u si nt h ef j el c lo fe l e c t r o n i ca n di n f o r m a t i o mu s u al l y 。t h e v i d e oi n f o r m a t i o nc o n t a i n sah u g ea r r d u n to fd a t a ,s ov i d e oc o d i n gt e c h n o l o g yh a s c o m ei n t ob e i n gi no r d e rt op r o c e s st h eh u g ei n f o r m a t i o ne f f i ci e n t l y a tp r e s e n t , t h e r e a r es e v e r aip o p u h rv i d e oc o d i n gs t a n d a r d sa l lo v e rt h ew o r l d ,s u c ha sm p e g ,s e r i e s o fh 2 6 xa n da v s a m o n gt h e m , a v si st h ev i d e oc o d i n gs t a n d a r dw i t hc h i n e s eo w n i n t e l l e c t u a lp r o p e r t yf i g h t s f i r s to fa l l , t h ek e yt e c h n o l o g i e so fa v ss t a n d a r da r ei n t r o d u c e di nt h i sp a p e r t h e nm o d e l s ,t h e o r i e s ,t e c h n o l o g i e sa n dt h ee x i s t e ds e a r c ha l g o r i t h m so fm o t i o n e s t i m a t b na r ed e s c r b e da sw e l li no r d e rt or e d u c et h es e a r c ht i m ea n di n c r e a s et h e e f f m i e n c yo ft h ea l g o r i t h m , t h i sp a p e rm a k e st h ei m p r o v e m e n ta n do p t i m i z a t i o nf o r t h en e wt h r e es t e ps e a r c h t h i sp a p e ra l s op r o p o s e san e wf a s tm o ti o ne s t i m a t i o n s e a r c ha l g o r i t h mt h i sn e wm e t h o dt r i e st of i n dt h eg l o b a lo p t i m a iv a l u eo fm o t i o n e s t i m a t i o nb ys e a r c hi n ga l lt h ep o i n t si nt h es e a r c hw i n d o w , a n ds e l e c t ss o m ep i x el st o m a k et h eb l o c k m a t c h i n g s oi tc a nr e a l i z et h ec o n t r o l h b i l i t yb e t w e e ns e a r c hq u a l i t y a n dt h es e a r c hs p e e d f i n a l l y , t h er e s u l t so fa l g o r i t h mc a p a b i l i t ya n a l y s i ss h o wt h a tt h ep r o p o s e df a s t m o ti o ne s t i m a t i o ns e a r c ha l g o ri t h mh a sg o o dp e r f o r m an c e so nb o t hs e a r c hs p e e da n d p s n r , a n di sa l s ob e t t e rt h a no t h e rf a s ts e a r c ha l g o r i t h m si nt h es u b j e c t i v ee v a l u a t i o n k e yw o r d s za v s c o d i n g ;m o t i o ne s t i m a t i o n ;v i d e oc o d i n g ;s e a r c ha l g o r i t h m 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得苤鲞盘鲎或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文名:湖期:研年舌月日 学位论文版权使用授权书 本学位论文作者完全了解基鲞盘堂有关保留、使用学位论文的规定。 特授权墨鲞盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:弓苗寻 签字日期:沏罗年月,日 导师虢孝髯 签字嗍呷年6 月日 第一章绪论 1 1 研究的背景及意义 第一章绪论 近年来,随着计算机、微电子及数字通信等相关技术的不断发展,电视、计 算机和通信三大传统产业的相互渗透和融合,图像、视频信息的传输和交流,日 益成为人们通信的重要内容之一。但是由于图像信息,尤其是视频信息的海量特 性,使得我们在传送( 或存储) 视频信息以前,常常需要对所传输( 或存储) 的数字 视频信息进行压缩处理。这就是视频压缩编码技术,或称视频编码,这里的“编 码”实际上是表示对视频信号进行的,旨在减少其有效数据量为目标的种种处理 方法。人类获取的信息中,7 0 来自于视觉。视频信息在多媒体信息中占有重要 地位,但是数字化了的视频信号的数据量之大是惊人的。在这种情况下,数据压 缩就变得非常必要了。统计表明,视频信号在相邻的像素间、相邻的行间及相邻 的帧之间都存在着很强的相关性,也就是说数据之间存在着大量的冗余信息 。 在一般的图像和视频数据中,主要存在着以下几种形式的冗余: ( 1 ) 空间冗余 对于静止的图像,在空间上,除了边界轮廓外,数字图像的灰度和色差信号 都是缓慢变化的,相邻像素的灰度和色差信号值非常接近,具有很强的相关性, 如果直接对采样数据用脉冲编码调制( p c m ) 进行编码,则数据中存在较大的冗余。 对于视频图像而言,通过帧内编码来减少空间冗余进行数据压缩。 ( 2 ) 时间冗余 视频图像是沿时间轴方向的一个帧序列,相邻的帧之间,图像的相关性也很 强,通常用减少帧的数目,即降低帧频来减少时间冗余,采用运动估计和运动补 偿技术来满足解码重建图像的质量要求。 ( 3 ) 符号冗余 对于实际的图像数据,若采用相同的码长表示每个像素的信息,必然存在信 息冗余。如果采用变长编码技术,对出现概率大的符号用较短的码字表示,对出 现概率小的符号用较长的码字表示,从很大程度上可去除图像数据的符号冗余, 在编码器中,用熵编码来实现。 虽然数字化的视频图像是非常大的,但视频图像数据是高度相关的。一幅图 像的内部或图像序列中相邻图像之间有大量的冗余信息,这其中包括了时间冗 余、空间冗余等形式,消除冗余是图像视频编码压缩图像数据的出发点,图像 视频编码的一个主要目的,就是在保证一定重构质量的前提下,以尽量少的比特 数来表征图像视频信息 2 。 第一章绪论 而运动估计是视频编码的关键技术,它是一种帧间编码的方法,其最基本的 原理是利用帧间的时间相关性,减少时间冗余度。帧间编码之所以能减少冗余度, 是因为两帧之间有很大的相似性。如果对前后两帧相减得到的误差帧做编码,所 需比特要比帧内编码所需的比特少很多,帧间差集中在零附近,可以用短的码子 传送。现有的运动估计搜索算法由于其自身的算法思想导致很可能仅仅求得局部 极小值,因而造成了估计精度低等一系列后果,他们是以运动估计的精度为代价 来换取计算量的减少。 本文就是在这样的背景下提出了基于a v s 视频编码的运动估计搜索算法的 研究与优化。 总之,运动估计作为视频编码的关键技术,需要解决的问题是如何提高它的 估算速度和精度。如何解决这个关键问题具有很高的理论和实际意义,是一个图 像处理领域和图像通信领域极其重要的研究课题。它的研究和应用必将促进计算 机通信、图像通信和多媒体技术的发展。 1 2 国内外研究现状 1 2 1a v s 视频编码技术的研究现状 a v s 工作组成立于2 0 0 2 年6 月,旨在制定一个具有中国自主知识产权的,有 更高编码效率和性能的适用于数字电视、视频存储以及视频网络传输等不同码率 应用的视频标准 3 | 。 a v s 标准包括系统、视频、音频、数字版权管理等四个主要技术标准和一致 性测试等支撑标准。在2 0 0 4 年1 2 月a v s 工作组提交的信息技术先进音视频编 码第二部分:视频( 送审稿) 和信息技术先进音视频编码第一部分:系统 ( 送审稿) 顺利地通过了全国信息技术标准化技术委员会组织的a v s 标准审定会 的审定 4 j 。与此同时,a v s 软件和芯片也在开发中,与报批稿配套的验证软件已 经完成,首款基于a v s 的高清解码芯片a v s l 0 1 高清解码芯片也已于2 0 0 5 年3 月2 日在北京通过专家鉴定,a v s i o i 高清解码芯片是对a v s 标准最完整的物理 阐释,该芯片支持多种中央处理器、总线接口,面向机顶盒、网络电视、数字电 视、高清晰度激光视盘机、视频通信等多个产业,具有广泛的应用前景 s l 。a v s i o i 高清解码芯片的实现,是a v s 产业化的重要里程碑,对我国数字电视以及数字音 视频产业的发展具有基础意义。这标志着我国数字音视频产业从标准领先跨入核 心产品领先的阶段。 a v s 与m p e g 4 、h 2 6 4 相比有明显优势:在相同条件下,a v s 的编码效率是m p e g 一 2 的两倍,在算法上采用了简化的策略。例如,如果利用m p e g - 2 技术传送高清 第一章绪论 晰电视需占2 0 m 带宽,用a v s 技术传送同样质量的节目只要8 m 带宽 6 。另外,a v s 软件硬件实现成本都要比h 2 6 4 低,专利授权模式简单,费用低廉。这些都是a v s 更适合实际应用的原因。如果采用自主的a v s 标准,则我国将能在技术一专利一 标准一芯片一系统一产业这个产业链上,掌握全面的主动权。 1 2 2 运动估计技术的研究现状 由于运动估计对视频数据压缩编码效率的重要影响,运动估计算法的研究是 近年来视频数据压缩编码的研究重点。运动估计算法多种多样,大体上可以把它 们分成四类:块匹配法、递归估计法、贝叶斯估计法和光流法。块匹配运动估计 算法因其具有算法简单、便于v l s i 实现等优点而得到广泛应用,m p e g 、h 2 6 * 系列采用的运动估计算法就是块匹配运动估计算法。 目前,运动估计算法中搜索精度最高的是全搜索算法( f s ) ,它对搜索范围内 的每一个像素点进行匹配计算以得到一个最优的运动矢量。但它的计算复杂度太 高,不适合实时应用。早期的三步法( t s s ) ,二维对数法( t d l ) ,交叉法( c s ) 等主 要通过限制搜索点的数目来减少运动估计的计算量。新三步搜索法( n t s s ) 、四步 搜索法、基于块的梯度下降法( b b g d s ) 等利用运动矢量分布具有中心偏置特性, 减少了运动估计的计算量,提高了搜索速度 7 。1 9 9 8 年,基于d s 的运动估计算 法相继提出,1 9 9 9 年,菱形法( d s ) 被m p e g - 4 国际标准采纳并收入验证模型( v m ) 。 2 0 0 3 年,非对称十字型多层次六边形搜索算法( u n s y m m e t r i e a l - c r o s sm u t i h e x a g o ns e a r c h ,u m t t e x a g o n s ) 被h 2 6 4 标准采纳 8 | 。虽然d s 算法和u m h e x a g o n s 算法具有了较好的运动估计性能,但它们仍存在较大的缺陷:一是对于运动大的 序列d s 算法和u m h e x a g o n s 算法在搜索最佳匹配点所在区域时,广度搜索和梯度 下降搜索同时进行,即同等的对待搜索区域的各部分,这造成较大的搜索冗余, 影响了算法的搜索速度。其二对于保持运动矢量为零或运动矢量非常小的视频图 像帧序列,d s 算法和u m h e x a g o n s 算法都要经历由大搜索模式n 4 , 搜索模式的变 化过程,要对较多个搜索点进行匹配计算,而理想情况是只需搜索其中少数几个 点,即对于小运动序列d s 算法和u 卅i e x a g o n s 算法还有待改进 9 。 为此,针对目前运动估计算法存在的各种问题,人们正在研究新的运动估计 算法。随着新技术的出现,块匹配运动估计算法的性能将不断得到改善。 1 3 主要研究内容 本文研究的主要内容包括以下几个方面: ( 1 ) 介绍了a v s 及运动估计的研究现状,分析了a v s 视频编码的关键技术, 第一章绪论 指出了研究基于a v s 视频编码的运动估计搜索算法的重要意义。 ( 2 ) 在介绍了运动估计的模型、原理、技术以及分析现有运动估计搜索算法 的基础上,对新三步搜索法进行了优化。 ( 3 ) 提出了一种快速运动估计搜索算法。 通过算法性能分析,表明本文提出的快速运动估计搜索算法不仅在搜索速度 和p s n r 两方面保持较好性能,而且在主观评价上优于其他快速搜索算法,其获 得的运动估计结果更为准确。 本文的创新点包括以下几个方面: ( 1 ) 对运动估计新三步搜索法进行改进。 相对于三步搜索法而言,新三步搜索法可以更加有效地对较低速度运动的块 进行运动估计,但有时仍会导致运算的增加。本文采用针对物体运动速度不同, 选取不同阈值来进行运动检测的方法,实现在不降低视频编码质量的前提下,降 低搜索时间。 ( 2 ) 提出一种快速运动估计搜索算法。 典型运动估计搜索算法,虽然可以通过改进,大大减少运动算,但往往只能 找到搜索窗内的局部最优值。本文通过对搜索窗中所有位置进行搜索尽可能地找 到运动估计的全局最优值,并有针对性地选择某些像素点进行块匹配,实现质量 与搜索速度之间的可控性。 1 4 本文的章节安排 第一章绪论。 本章在阐述课题研究背景及意义的基础上,分析了国内外的研究现状,并明 确了本文的主要研究内容及具体的章节安排。 第二章a v s 视频编码的相关知识。 本章在阐述a v s 视频编码中所涉及的基本概念的基础上,分析了编码比特 流的结构,重点研究了a v s 视频编码中的关键技术,包括:帧内预测、可变块 大小运动补偿、多参考帧帧间预测以及整数变换与量化等。最后探讨了a v s 视 频编码的性能分析。为后续章节的进一点研究奠定了基础。 第三章运动估计搜索算法的分析与优化。 本章首先分析了运动估计的基本原则以及运动估计技术,接着深入研究现有 典型运动估计搜索算法:三步搜索法、新三步搜索法及菱形搜索法。针对新三步 搜索法存在的不足,重点研究了算法的优化实现,并通过实验比较,验证优化算 法的性能有所提高。 第一章绪论 第四章一种快速运动估计搜索算法。 本章是全文最核心的章节,首先指出现有的典型运动估计搜索算法存在的普 遍问题,虽然可以通过改进,大大减少运算量,但往往只能找到搜索窗内的局部 最优值。接着提出了本文快速运动估计搜索算法的搜索技术指标的选择:静止块 的判定、搜索起点预测及搜索模式的选择,并给出了具体的算法描述,最后通过 算法性能分析,表明本文提出的快速运动估计搜索算法不仅在搜索速度和p s n r 两方面保持较好性能,而且在主观评价上优于其他快速搜索算法,其获得的运动 估计结果更为准确。 第五章总结与展望。 本章对本文所研究的内容进行总结,并对下一步的研究方向作出展望。 第二章a v s 视频编码的相关知识 2 1 基本概念 第二章a v s 视频编码的相关知识 为了更好地研究a v s 视频编码算法的细节,必须先对以下名词的定义有清楚 的理解: ( 1 ) 帧内编码和帧间编码 在图像编码中,有两种不同的编码类型,称为帧内( i n t r a ) 编码模式和帧间 ( i n t e r ) 编码模式。帧内编码就是视频帧编码时不参考先前各帧的任何视频信息, 而是用相邻的块来预测当前块,从而减少空间上的冗余;帧间预测就是用其它帧 参考块的像素值预测当前块的像素值,以减少时间上的冗余。 ( 2 ) 帧和场 视频的一场或一帧可用来产生一个编码图像。通常,视频帧可以分为两种类 型:连续视频帧或隔行视频帧。在电视中,为减少大面积闪烁现象,把一帧分成 2 个隔行的场,显然,这时场内相邻之间的时间相关性较强,而帧内邻近行的空 间相关性较强。因此,活动量较小或静止的图像宜采用帧编码方式,对活动量大 的运动图像则宜采用场编码方式。 ( 3 ) 宏块和子块 一个编码图像通常划分成若干个宏块( m b :m a c r ob l o c k ) ,即:1 6 x1 6 的矩 阵或者像素块。视频格式为4 :2 :0 时,每个宏块由4 个8 8 亮度块和附加的1 个8 x8c b 和1 个8 8c r 色度块组成。把1 6 x1 6 的宏块分割成更小的块,这些 小块就叫子块,在a v s 编码标准中,有8 8 ,8 1 6 ,1 6 x 8 等几种子块。a v s 标 准的帧内预测模式中,都是针对8 8 的子块做预测 o j 。 ( 4 ) 帧类型 a v s 编码有i 帧、p 帧和b 帧3 种帧类型。采用帧内编码模式的视频帧叫作 i 帧:从先前重构的i 帧或者p 帧经过预测得到的视频帧是p 帧;从先前重构帧 ( i 或p 帧) 和正在编码的p 帧进行双向预测得到的视频帧就是b 帧。 ( 5 ) 匹配准则函数 在采用基于块匹配法的运动估计过程中,匹配运算复杂度、数据读取复杂度 和内存管理复杂度取决于所采用的块匹配准则。下面本文对运动估计算法中常见 的匹配准则函数作个简单的介绍。 定义宏块大小为n n ,g k ( i ,j ) 代表当前帧( 第k 帧) 中坐标位置为( i ,j ) 的像素灰度值,g k ,( i + u ,j + v ) 代表相邻前一帧( 第k - 1 帧) 中坐标位置为 ( i + u ,j + v ) 的像素灰度值,其中( u ,v ) 表示该匹配块和当前宏块的相对位移, 第二章a v s 视频编码的相关知识 则各块匹配准则函数可表示如下: 绝对平均差值函数( m a d ) :该准则取m a d 最小者为搜索到的最佳运动矢量。 绝对差值和函数( s a d ) :该准则取s a d 最小者为搜索到的最佳运动矢量。 最小均方误差函数( m s e ) :该准则取m s e 最小者为搜索到的最佳运动矢量。 最大误差最小函数( m m e ) :该准则取m m e 最小者为搜索到的最佳运动矢量。 归一化互相关函数( n c c f ) :该准则取n c c f 最大者为搜索到最佳运动矢量。 最大匹配像素数( m p c ) :每个像素或归入匹配像素,或归入非匹配像素的 依据。该准则取m p c 最大者为搜索到的最佳运动矢量。 其中,m s e 匹配函数运动估计的精度最高,但该准则函数中含有多个乘方运 算,这在超大规模集成电路( v l s i ) 实现中相对比较困难;m a d 匹配函数略差, 但其相对简单的运算易于在v l s i 中实现;m m e 匹配函数则过于简单,没有充分 利用匹配块所包含的特征信息,使运动估计的精度大大降低 1 1 j 。相对而言,m a d 匹配准则函数比较实用,度得到广泛运用。当s a d 准则出现以后,则迅速取代 m a d 被各种运动估计算法所采用。因为它与m a d 匹配效果等价,而计算量大大降 低。本课题中各算法均采用s a d 作为匹配准则函数。 2 2a v s 视频编码概述 a v s 工作组于2 0 0 2 年6 月成立,负责数字音视频编解技术标准的制定工作, 于2 0 0 3 年底完成了我国制定的具有自主知识产权的数字音视频编解码技术标准 a v s ( a u d i ov i d e oc o d i n gs t a n d a r d ) 的1 0 版本 1 2 。它由系统、视频、音频3 个主要部分和一致性等支撑部分组成。a v s 视频标准采用与h 2 6 4 标准类似的技 术框架,在性能上与h 2 6 4 持平,在技术更简洁。a v s 系统标准采用了扩展m p e g 一2 s y s t e m 的方案,有利于兼容已有的m p e g 一2 传输系统。 在本章,主要介绍a v s 的第二部分即视频编码部分。a v s 视频编码标准主要 是为了适应数字电视广播、数字存储媒体、因特网流媒体、多媒体通信等应用中 大尺寸、高质量的运动图像压缩需要而制定的。a v s 视频编码结构如图2 1 所示。 图2 - 1a v s 编码结构图 第二章a v s 视频编码的相关知识 在编码结构上,a v s 与h 2 6 4 比较相似,但在各模块的具体处理方法上,它 与h 2 6 4 有相当的不同。考虑到m p e g 在数字视频产业的广泛应用,a v s 的语法 结构与m p e g - 2 的语法结构类似。在a v s 编解码过程中,基本处理单元是宏块。 一个宏块包含一个1 6x1 6 的亮度样值块和对应的色度样值块,当前a v s 支持 4 :4 :4 、4 :2 :2 和4 :2 :0 三种图像格式 1 3 。在各种处理之前,a v s 采用光栅扫描 的方法将图像扫描为一个宏块序列。 每个宏块都需要通过预测,系统只对图像样值与预测值之间的残差进行变换 编码。a v s 采用帧内预测与帧间预测两种预测方法。帧内预测使用空间预测模式 来消除图像内的冗余。帧内预测以当前帧中当前宏块左方和上方宏块的像素来预 测当前宏块的像素值,a v s 帧内预测单元采用与整数变换同样大小的8 8 块。 帧间预测使用基于块的运动矢量来消除图像间的冗余,帧间预测以已解码的帧或 场来预测当前帧的像素值,帧间预测支持1 6 x1 6 ,1 6 x 8 ,8 1 6 ,8 8 四种大 小的块作为预测单元。运动向量的精度达到1 4 像素 。图像经预测后,由图 像样值与预测值相减得到预测残差。系统对残差采用8x8 的整数变换,并进行 量化,量化后使用“之 字形( z i g z a g ) 扫描方法对量化系数进行扫描。 a v s 使用一种自适应的变长编码技术对扫描后的系数进行熵编码。系统在对 各种语法元素编码时从4 种指数哥伦布码码表中选择一种。在进行帧间预测的过 程中,系统需要对用于参考的重建图像进行去块效应滤波。滤波器对重建图像的 块边界进行平滑,降低图像的块效应,而对图像边界不进行滤波。考虑到不同图 像区域和不同的码率,a v s 的去块效应滤波器是自适应的。 a v s 的时间信息是放在i 帧的头信息中,因此可以将i 帧作为编码后视频序 列的随机访问点。 2 3 编码比特流的结构 2 3 1 码流的单元组成 视频序列是比特流的最高层语法结构。视频序列由序列头开始,后面跟着 一个或多个编码图像,每帧图像之前应有图像头。编码图像在比特流中按比特流 顺序排列,比特流顺序应与解码顺序相同。解码顺序可与显示顺序不相同。序列 结束码表明了一个视频序列的结束。 标准支持两种序列:逐行序列和隔行序列。帧由三个样本矩阵组成,包括一 个亮度样本矩阵( y ) 和两个色度样本矩阵( c b 和c r ) 。样本矩阵元素的值为整 数。y 、c b 、c r 三个分量与原始的( 模拟) 红、绿、蓝信号间的关系,包括原始 信号的色度和转移特性等可在比特流中定义,这些信息不影响解码过程。场由构 第二章a v s 视频编码的相关知识 成帧的三个样本矩阵中相间的行构成,即帧样本矩阵的第一行、第三行、第五 行,依此类推,构成一个场,称为顶场;第二行、第四行、第六行,依此类 推,构成另一个场,称为底场。解码器的输出是一系列帧,两帧之间存在一个帧 时间间隔。对隔行序列而言,每帧图像的两场之间存在一个场时间间隔。对逐行 序列而言,每帧图像的两场时间间隔为0 1 5 3 。 视频序列头由视频序列起始码开始,后面跟着一串编码图像数据。起始码是 按字节对齐的。由起始码前缀和起始码字组成。起始码前缀为2 3 个0 比特和1 个1 比特,起始码字为一个字节的整数。序列头可在比特流中重复出现,称为重 复序列头。使用重复序列头的主要目的是支持对视频序列的随机访问。一幅图像 是一帧,其编码数据由图像起始码开始,到序列起始码、序列结束码或图像起始 码结束。在比特流中,隔行扫描图像的两场的编码数据可依次出现,也可以交织 出现。两场数据的解码和显示顺序在图像头中规定。图像的解码处理包括解析过 程和解码过程。 a v s 标准支持4 :2 :0 、4 :2 :2 、4 :4 :4 的图像格式。a v s 标准定义了三种解码 图像:帧内解码图像( i 帧) ,前向帧间解码图像( p 帧) ,双向帧间解码图像( b 帧) 1 6 。如果视频序列中没有b 帧,解玛顺序与显示顺序相同。如果视频序列 中含有b 帧,则解码顺序与显示顺序不同,解码图像输出显示前应进行图像重排 序。图像重排序规则如下: 如果当前解码图像是b 帧,输出此b 帧解码的图像;如果当前解码图像是i 帧或p 帧,且存在前一个i 帧或p 帧的解码图像,输出前一个解码图像;如果不 存在前一个i 帧或p 帧的解码图像,则不输出任何解码图像。p 帧或b 帧最多可 有两帧参考图像。p 帧可参考前向的两帧。在一帧中,后解码的场还可参考当前 帧的另外一场。b 帧可参考一前一后两帧。运动矢量可以超出参考图像的边界, 在这种情况下应使用距离运动矢量所指位置最近的图像内的像素进行边界扩展。 对亮度样本矩阵,所有用于构造参考块的像素在水平和垂直方向均不应超出参考 图像边界外1 6 个像素 。条带是按光栅扫描顺序连续的若干个宏块行,条带内 的宏块行不应重叠,条带之间也不应重叠。条带内宏块的解码处理不应使用本图 像其他条带的数据。如果隔行图像的两场数据依次出现,这两场数据应属于不同 的条带。条带边界扩展方法和参考图像边界扩展方法相同。条带结构如图2 - 2 所示。 图像划分为宏块,宏块左上角的点不应超出图像边界。在比特流中,当隔行 扫描图像的两场编码数据依次出现时,任意宏块的像素应来自同一场。宏块的划 分如图2 3 所示,这种划分用于运动补偿。图2 - 3 中矩形里的数字表示宏块划分 后运动矢量和参考索引在码流中的顺序。 第二章a v s 视颠编码的相关知识 宏块划丹 1 个1 6 1 6 亮度块和相 图2 - 2 条带结构示意图 2 个1 6 8 亮 度块和相应的 2 个8 1 6 亮 度块和相应 图2 - 3 宏块的划分 4 个8 8 亮 度块和柑应 a v s 最小的图像单元为8 8 块在4 :2 :0 的图像格式下一个宏块包括4 个8 x 8 亮度块( y ) 和2 个8 x 8 色度块( 1 个c b ,1 个c r ) 在q :2 :2 的图像格 式下,一个宏块包括4 个8 x 8 亮度块( y ) 和4 个8 8 色度块( 2 个c b 2 个c r l 在4 :44 的图像格式下,一个宏块包括4 个8 8 亮度块( y ) 和8 个8 x8 色度 块( 4 个c b ,4 个c r ) 。 232 码流的解析过程 晟太的码流结构单元视频序列解码过程:找到早列的3 2 比特起始码后 进入解码图像组的循环图像组可以包括多个i 、b 、p 图像。图像组的解析过程 酋读入序列头信息和用户扩展信息。在视频序列中插入该信息将序列分割成多 个图像组,增加序列的随机访问能力。再开始一次解析图像组中i 、p 、b 图像 如果接下来3 2 比特足视频编缉码,则读入该码。如果是i 图像起始码则读八i 图像的图像头信息,否则读 p 、b 图像头的信息。读入一位的扩展和用户数据 再开始解码这一幅图像的数据。解码完后,判断下3 2 比特是不是视频编辑码或i 、 p 、b 图像的起始码。如果是,则继续解码该图像组:否则结束该图像组的解码 判断下3 2 比特是否为序列结束标志,如果不是,则继续解码下个图像组,否 一田一田一目百 第二章a v s 视频编码的相关知识 则结束该序列的解码。 序列头的解码过程:读入序列起始码档次和级别的标志、图像的帧场类型标 志图像的水平和垂直尺寸、色度编码格式、采样精度、帧率、比特率的上下限、 参考解码器设定的比特流缓冲区的尺寸等信息。扩展和用户数据解码:分别读取 扩展数据和用户数据。扩展数据按其位置在序列头后还是在图像头后,分为序列 显示扩展、版权扩展、摄像机参数扩展、图像显示扩展或者用户保留字。 i 图像头信息解码过程:读入i 图像起始码,读入1 6 位无符号整数b b v 延 时b b v d e l a y 。如果b b v d e l a y 不等于o x f f f f ,它规定了b b v 从收到图像起始码 的最后一个字节到开始解码图像之间要等待的时间。读入时间码标志,如果标志 非零,则读入2 4 位的时间码。读入图像距离参数,即当前图像在序列中显示顺 序的编号。读入帧场图像类型标志p r o g r e s s i v e f r a m e 。读入当前图像的两场出 现顺序标志p i c t u r e s t r u c t u r e ,读入顶场在先标志和重复首场标志。读入固定 图像q p 标志和图像q p 值。如果是场图像,而且两场依次出现,则读入跳过模式、 图像加权预测标志。如果是加权预测,则读入亮度和色度的缩放参数和平移参数。 读入宏块加权预测标志,决定是否所有非帧内预测宏块都应采用加权运动补偿。 读入环路滤波器标志,决定是否使用滤波器,如果使用,则再读入判决其门限表 的偏移量参数 1 8 。 p 、b 图像头信息的解码过程:大部分和i 图像相同。不同之处在于:如果 是两场图像依次出现,则要读入高级预测模式禁用标志;如果不是两场图像交替 出现,或则图像的类型不是“1 0 ”,则要读入图像的参考标志,决定图像的每个 宏块是否使用相同的参考图像。读入图像的统一预测权重标志,如果为1 ,则依 次读入每个参考图像的尺度缩放及平移参数。读入s k i p 模式标志。 图像数据p i c t u r e d a t a0 的解码过程:依次解码该图像中的所有条带。 条带的解码过程:读取条带起始码,如果图像垂直显示尺寸大于2 8 0 0 ,则读 入垂直位置扩展。如果图像固定q p 标志为0 ,则读入条带固定q p 标志,读入条 带q 值。如果宏块s k i p 标志为1 ,而且不是i n t r a 图像或是场编码的底场,则 读入宏块的s k i 长度,依次解码条带中所含的宏块。 宏块的解码过程:如果不是i n t r a 图像,或者是场图像的底场,则读入宏块 类型如果宏块类型不是p 的s k i p 或者b 的s k i p 类型,则 如果宏块类型为b - 8x8 ,则依次读入4 个子块的类型;如果宏块类型为i - 8 8 ,则依次读入4 个亮度子块的预测模式标志,如果标志非零,则读入该亮度 子块的帧内预测类型,再读入色度块的帧内预测模式;如果是p 图像,并且不是 统一的宏块参考,或者如果不是b 图像,并且为场图像则按照参考图像的个数, 依次读入各个宏块参考索引。依次读入指向每个参考图像的水平和垂直方向的运 第二章a v s 视频编码的相关知识 动矢量。 如果宏块加权预测标志为1 ,则读入该宏块的加权预测设置。如果宏块类型 不是i 一8 8 或图像不是b 图像,或者宏块类型为上前一下前预测且图像不是b 图像,则读入c b p 值。如果色度格式为1 0 ,则读入c b p _ 4 2 2 值。如果宏块有 非零编码系数且不是固定q p ,则读入q p 的增量,依次解码6 个块。 ) 块的解码过程:首先通过c b p 确认该块是否有非零编码系数。如果有,则开 始解码,依次解码得到每个熵编码( r u n ,l e v e l ) 对的v l c 编码值。如果编码值 不小于5 9 ,则为逃逸事件,继续解码l e v e l 的编码差值,直到解码得到块结束 标志符e o b ,完成该块的解码 1 9 。 2 4a v s 视频编码的关键技术 h v s 视频标准中主要包含了以下关键技术: ( 1 ) 帧内预测 h v s 视频标准采用空域内的多方向帧内预测技术。以往的编码标准多数是在 频域内进行帧内预测,如m p e c r - 2 的d c 差分预测,m p e g - 4 的d c a c 预测。基于 空域多方向的帧内预测提高了预测精度,从而提高了编码效率。h 2 6 4 a v c 标准 也采用了这一技术,其预测块大小为4 x 4 及1 6 x1 6 ,其中4 4 帧内预测时有9 种模式,1 6 1 6 帧内预测时有4 种模式。a v s 视频标准的帧内预测基于8 x 8 块 大小,亮度分量只有5 种预测模式,这大大降低了帧内预测模式决策的计算复杂 度,但性能与h 2 6 4 a v c 十分接近。除了预测块尺寸及模式种类的不同外,a v s 视频的帧内预测还对相邻像素进行了滤波处理来去除噪声。 ( 2 ) 可变块大小运动补偿 可变块大小运动补偿是提高运动预测精确度的重要手段之一,对于提高编码 效率起着重要作用。在以前的编码标准m p e g - 1 ,m p e g - 2 中,运动预测都是基于1 6 1 6 的宏块进行的( m p e g 一2 场编码支持1 6 8 块大小) ,在m p e g - 4 中添加了8 8 块划分模式,而在h 2 6 4 a v c 中则进一步添加了1 6x8 、8x1 6 、8x4 、4 8 、4 x 4 等划分模式。实验数据表明:小于8 8 块的划分模式对低分辨率视频编码 效率影响较大,但对于高分辨率视频编码则影响甚微。在高清序列上的大量实验 数据表明,去掉8 8 以下大小块的运动预测模式,整体编码性能降低大概在2 - - 4 左右,但其编码计算复杂度则可以降低3 0 - - 4 0 。因此在a v s 视频标 准中,将宏块划分的最小尺寸限制为8 8 ,这一限制大大降低了编解码器的计 算复杂度 2 0 | 。 ( 3 ) 多参考帧帧间预测 第二章a v s 视频编码的相关知识 多参考帧预测允许当前块从前面几帧图像中寻找更好的匹配,因此能够提高 编码效率。但一般来讲2 3 个参考帧基本上能达到最高的性能,更多的参考图 像对性能提升影响甚微,但复杂度却会成倍增加。h 2 6 4 a v c 最多可采用1 6 个 参考帧,并且为了支持灵活的参考图像引用,采用了复杂的参考图像缓冲区管理 机制,实现较复杂。而a v s 视频标准限定最多采用两个参考帧,其优点在于在没 有增大缓冲区的前提下提高了p 帧的编码效率,因为b 帧图像的解码本身也需要 能存放两个参考图像的缓冲区。 ( 4 ) i 4 像素精度 m p e g - 2 标准采用了i 2 像素精度运动补偿,相比于整像素精度编码效率提 高了1 5 d b 。h 2 6 4 a v c 采用1 4 像素精度补偿,相比于1 2 精度编码效率提高 了0 6 d b 。因此运动矢量的精度也是提高预测准确度的重要手段之一。影响高精 度运动补偿性能的一个核心技术是插值滤波器的选择。h 2 6 4 a v c 采用6 阶滤波 对1 2 像素位置进行插值,采用双线性插值处理1 4 像素精度【2 z 。由于高清视 频的特性,a v s 采用了4 阶滤波进行i 2 和1 4 像素插值,大大降低了访存的带 宽,这对硬件实现是一个非常有价值的特性。 ( 5 ) b 帧宏块编码模式 在h 2 6 4 a v c 标准中,时域直接模式( t e m p o r a ld i r e c tm o d e ) 与空域直接 模式( s p a t i a ld i r e c tm o d e ) 是相互独立的。而a v s 视频标准采用了更加高效 的空域时域相结合的直接模式,并在此基础上结合使用了运动矢量舍入控制技 术,使得a v s 视频标准中b 帧的性能比h 2 6 4 a v c 中b 帧的性能有所提高。此外, a v s 标准还提出了对称模式( s y m m e t r i cm o d e ) ,即只编码一个前向运动矢量, 后向运动矢量通过前向运动矢量导出,从而实现双向预测。此方案与编码双向运 动矢量效率相当。 ( 6 ) 整数变换与量化 a v s 视频标准采用整数变换代替了传统的浮点d c t 变换。整数变换具有复杂 度低、完全匹配等优点。由于a v s 视频标准中最小块预测是基于8 8 的,因此 采用了8x8 整数d c t 变换。8 8 变换比4 4 变换的去相关性能力强,因此在 变换模块,a v s 标准编码效率相比h 2 6 4 a v c 有所提高,大概在2 ( 约0 i d b ) 。 同时,与h 2 6 4 a v c 中的变换相比,a v s 标准中变换有其自身的优点,即由于变 换矩阵每行的模比较接近,可以将变换矩阵的归一化在编码端完成,从而节省了 解码反变换所需的缩放表,降低了解码器的复杂度。 量化是编码过程中唯一带来损失的模块。以前典型的量化机制有两种,一种 是h 2 6 3 中的量化方法,一种是m p e g - 2 中的加权矩阵量化形式。与以前的量化 方法相比,a v s 标准中的量化与变换归一化相结合,同时可以通过乘法和移位来 第二章a v s 视频编码的相关知识 实现,量化参数每增加8 ,相应的量化步长扩大一倍,解码端反量化表不再与变 换系数位置相关,有利于提高硬件实现的并行度。 ( 7 ) 基于上下文自适应熵编码 熵编码是视频编码器的重要组成部分,用于去除数据的统计冗余。a v s 视频 标准采用基于上下文的自适应变长编码器对变换量化后预测残差进行编码。其具 体策略为,系数经过“之”字形扫描后,形成( r u n ,l e v e l ) 对,其中r u n 表示 非零系数前连续值为零的系数个数,l e v e l 表示一个非零系数;之后采用多个变 长码表对这些( r u n ,l e v e l ) 对进行编码,编码过程中进行码表的自适应切换来 匹配( r u n ,l e v e l ) 的局部概率分布,从而提高编码效率;编码顺序为逆向扫描 顺序,这样易于局部概率分布变化的识别;变长码采用指数哥伦布码,这样可以 降低多码表的存储空间。此方法与h 2 6 4 a v c 用于编码4 4 变换系数的c a v l c 具有相当的编码效率 2 2 j 。相比于h 2 6 4 a v c 的算术编码方案,a v s 的熵编码方法 编码效率低0 5 d b 。但算术编码的计算复杂,硬件实现代价很高。 ( 8 ) 低复杂度环路滤波 环路滤波技术特点在于把去块效应滤波放在编码的闭环内,而在m p e g 一2 、 m p e g - 4 等标准中,去块效应滤波都是作为后处理来进行的。环路滤波在解码端 占有很大部分的计算量,因此降低环路滤波的计算复杂度是十分重要的。在a v s 视频标准中,由于最小预测块、变换都是基于8 x 8 的,环路滤波只在8 x 8 块边 界上进行,与h 2 6 4 a v c 对4 4 块
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度石材矿山安全责任合同规范文本
- 2025新版停车场租赁合同协议
- 2025合同样本:股权质押合同官方范本
- 2025商品房买卖合同模板
- 多项目管理规划标准化工具
- 回填土施工协议
- 叙事作文跑步比赛300字14篇范文
- 工厂设备采购及安装维护协议
- 小区装修管理培训课件
- 产品委托加工协议书样板
- 2025年继电保护实操考试题带答案
- (2025)国库知识竞赛题库及答案
- (2025年标准)产假提前上班协议书
- 医院价格委员会管理制度及实施
- 2025年重庆市面向社会公开选拔社区专职工作者后备库人选考试(综合知识)历年参考题库含答案详解(5套)
- 2025年广东省中考语文试卷(含答案解析)
- (高清版)T∕CES 243-2023 《构网型储能系统并网技术规范》
- 山东淄博小升初数学真题试卷
- 网约车公司风险管理制度
- 医院智慧管理分级评估标准体系(试行)-全文及附表
- 厨房燃气安全管理办法
评论
0/150
提交评论