(计算机应用技术专业论文)h264视频编码标准中模式选择和快速搜索算法研究.pdf_第1页
(计算机应用技术专业论文)h264视频编码标准中模式选择和快速搜索算法研究.pdf_第2页
(计算机应用技术专业论文)h264视频编码标准中模式选择和快速搜索算法研究.pdf_第3页
(计算机应用技术专业论文)h264视频编码标准中模式选择和快速搜索算法研究.pdf_第4页
(计算机应用技术专业论文)h264视频编码标准中模式选择和快速搜索算法研究.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

(计算机应用技术专业论文)h264视频编码标准中模式选择和快速搜索算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

p a r to fm o d ed e c is i o n ,t r a n s f o r mb l o c kt ot r a n s f o r md o m a i nt h e nj u d g i n g b ys a t dw h i c ha r ed i f f e r e n tf r o m1 a r g ec o m p u t a t i o ni ns p a c i a ld o 皿a i n w h e nc o m p u t es u b p i x e lb yl i n e a ri n t e r p 0 1 a t i o n ,a l g o r i t h m sa d o p tb o t h p r e s a v ec o m p u t e dr e s u l ta n di 唧e d i a t ec o m p u t i n g ,g e t0 u t s t a n d i n g p e r f o m a n c e , b u ts h o u l db ei i i i p r o v e di nf u r t h e rp r a c t i c e 。 k e yw o r d s :v i d e oc o d i n g :h 2 6 4 :m o d ed e c i s i o n ;s u b p i x e lm o t i o n e s t i 腿t i o n 西南交通大学硕士研究生学位论文第2 页 直接在信道中传输,都需要相当的带宽。而地面广播的带宽仅有6 m 到8 m ,详细 信息见表卜2 。这个信息量是难以接受的,所以必须对视频信号进行压缩编码。 表卜2 典型的几种传输和存储容量 m e d i a n e t w o r k c a p a c i t y e t h e r n e tl a n ( 1 0 m b p s ) m 8 x 1 0 m b p s t y p i c a l 卜2 m b p s a d s l t y p i c a l1 2 m b p s( d a w n s t r e 觚) i s d n 一2 1 2 8 k b p s y 9 0m o d 锄 5 6 k b p sd o 啊n s t r e a 3 3 k b p su p s t r e 珊 d v d 一5 4 7 g b y t e s c d r 伽6 4 0 m b y t e s 视频信息存在着很多冗余,这是我们进行压缩的基础。压缩的目的就是以 尽可能少的比特数来表征尽可能丰富的视频信息,使其率失真曲线尽量接近理 论值,尽可能的消除这些冗余而图像质量没有明显的下降。这些冗余信息具体 包括: 空间和时间域冗余。图像的空间冗余是指一幅图像中细节部分较少,平坦 的区域总体要大子突变的区域。可以利用图像空间相关的特点来对图像进行帧 内预测,也可以消除一定空间域的冗余。而作为由一幅幅连续图像构成的视频 序列,相邻的图像在时间轴上存在着极强的相似性。可以由前面或后面相邻的 图像进行帧间预测,得出当前图像以消除时间域的相关性。 信息熵冗余,又称为编码冗余。由信息论相关原理可知,为表示一个像素 点,要按照其信息熵的大小来分配一定的比特数。当一幅图像被数字化后,每 个像素都是用相等的比特数来表示的。这样的话必然存在冗余,主要表现为符 号编码平均码长和信源熵之间的偏差。 心理视觉冗余。它主要由于人眼对某些空间频率韵感觉相对不太灵敏,一 些在通常的视觉过程中显得不很重要的信息可被看作心理视觉冗余。 目前视频压缩中最耗时的运动估计和模式选择方面,也有很多改进的算 法。如帧内模式选择有浙江大学余露等提出的针对1 6 1 6 模式改进的d i p ( d i r e c ti n t r ap r e d i c t i o n ) ”算法、香港大学的b o j u nm e n g 等提出的e i p ( e f f i c i e n ti n t r ap r e d i c t i o n ) “1 算法、以及n o k i a 研究中心提出的a n a l y s i s a n ds i m p l i f i c a t i o no fi n t r ap r e d i c t i o n “1 ,其他还有诸如参考文献 5 卜 8 内介绍的算法等等。这些算法基本上都致力于减少计算的像素点和率失真函数 的计算复杂度,以及采用不同的衡量标准如s a d ( s u mo fa b s o l u t e 西南交通大学硕士研究生学位论文第3 页 d i f f e r e n c e ) ,s a t d ( s u i i lo fa b s 0 1 u t et r a n s f o r m e dd i f f e r e n c e ) 和s a e ( s u m o fa b s o l u t ee r r o r s ) 的差异。帧间预测算法则有杨立波等提出的v b b ( v a r i 曲1 eb 1 0 c k s i z eb e s tm o t i o nd e t e c t i o n ) ”1 、陈志波等提出的针对 整像素的u m h e x a g o n s 算法和针对亚像素的c b f p s 算法“”、针对帧间模式选择的有 参考文献 1 2 中提出的算法等。基于块匹配的搜索算法大部分采用层次搜索模 式,由粗到精并采用早期中止策略,以节省运算量。而帧间预测模式选择的算 法相对较少( 见参考文献 1 7 1 9 ) ,有待进一步研究。 1 2 主要视频编码标准 2 0 世纪9 0 年代以来,随着通信和多媒体技术的迅速发展,国际标准化 组织制定了一系列相关的标准,极大地推动了多媒体技术的实用化和产业化。 1 9 8 4 年c c i t t 第1 5 研究组发布了数字基群电视会议编码标准h 1 2 0 建议: 1 9 8 8 年c c i 订( 现i t u t ) 又通过了h 2 6 l 图像编解码标准建议,被称为视频 压缩编码的里程碑。h 2 6 1 可使数据速率压缩至p 6 4 l ( b p s ( p - 1 3 0 ) 。一般 h 2 6 1 标准的性能在3 2 3 8 4 k b p s 时图像可达c i f 、q c i f1 5f s ( 帧每秒) , 总体上图像质量略逊于船e g - l ,适合在i s d n 、肋n 、p s t n 网上传输运动的图 像。h 2 6 1 定义了完整的视频图像编解码框架,采用了帧内图像编码,帧间误 差预测,运动补偿,d c t 和变长编码等技术,建立了产生深远影响的基于块的 混合编码框架。从此i s q 和i t u t 推出了一系列基于h 2 6 1 中的混合编码方法的 视频编码标准,按时间的先后顺序分别为h 2 6 1 、押e g l 、m p e g 2 、h 2 6 3 、m p e g 4 与正在发展的h 2 6 4 a v c 。 m p e g 一1 由国际标准化组织( i s o i e c ) 于1 9 9 1 年制定。m p e g 一1 是基于一般 低端应用的视频、音频的编解码标准,码率为1 5 i b i t s 。肝e g 一1 编码方式实 现在4 0 0 k b p s 2 m b p s 速率上传输3 5 2 2 8 8 的c i f 格式、每秒5 3 0 帧的 活动图像,广泛用于家庭v c d 的压缩。 归e g 一2 支持的带宽范围从4 m b p s 到1 0 0 m b p s ,分别应用于不同档次和不同 级别的压缩当中。目前鹾p e g 一2 标准在数字视频广播( d 豫) ,家用d v d 的视频 压缩和高清晰度电视( h d t v ) 领域得以广泛应用。 h 2 6 3 是i t u t 于1 9 9 5 年提出的戛低比特率( 可低于6 4 k b p s ) 的视频编码方 案,可将图像最低编码到2 0 k b p s ,通过电话线上以2 2 8 k b p s 的v 3 4m o d e m 传输,图像质量达到1 7 6 1 4 4 或1 2 8 9 6 分辨率下5 1 5f s 的水平。 西南交通大学硕士研究生学位论文第4 页 m p e g 一4 于1 9 9 8 年推出,正式名称为:i s o1 4 4 9 6 2 。其应用目标是针对 窄带宽传输、高画质压缩、交互性操作以及将自然物体与人造物体相溶合的表 达方式,同时还特别强调广泛的适应性和可扩展性。肝e g - 4 的最高图像清晰 度为7 6 8 5 7 6 ,远优于m p e g 一1 的3 5 2 2 8 8 ,可以达到接近d v d 的画面效 果。这使得它的图像高清晰度非常好。 1 3 本文内容安排 本文对视频编码的原理和标准进行了介绍,并详细阐述了最新的 h 2 6 4 a v c 视频编码标准的特点与关键模块。 本文的主要研究目标在于在p s n r 的降低可以接受的范围内尽量降低运动 估计和运动补偿的复杂度,得到快速有效的算法。 作者在此基础上结合现有的多种算法进行分析,提出了帧内预测模式选择 对已有的帧间预测中快速模式选择和搜索相结合的模式选择算法进行了验证。 其中帧内预测模式选择采用s a t d 作为决策原则,将块变换到频率域进行筛选, 得出最佳各选模式,再进一步计算开销最终得到最佳预测模式;利用帧间预测 模式选择和块匹配的搜索算法相结合以提高搜索效率,提出了新的亚像素搜索 算法。 第一章:绪论。介绍本领域的研究背景,当前研究情况以及研究意义和论 文安排。 第二章:h 2 6 4 视频编码标准。详细介绍a v c 标准的优点,各个模块的原理 和实现,以及该标准整体的框架结构,应用范围等信息。着重于它与以往的标 准的不同和结构上、模块上的创新。 第三章:各部分优化算法的介绍和比较。介绍了传统的和现在通用的改进 算法。 第四章:本文改进了采用s a t d 进行帧内模式选择的优化算法。帧间预测算 法方面,则在参考文献 1 8 的结合了帧间预测模式选择的快速亚搜索算法基础 上,进行了分析和验证。 总结与展望。对所做工作进行总结和分析,并为下一步研究提供建议和参 考。 西南交通大学硕士研究生学位论文第5 页 第2 章h 2 6 4 视频编码标准 2 1 h 2 6 4 标准介绍 在1 9 9 6 年h 2 6 3 标准制定完成后,i t u _ t 确定了下一个工作目标。即近期 目标和长期目标。近期目标为进一步增强h 2 6 3 的性能,增强低比特的编码能 力,并在这一目标推动下催生了1 9 9 8 年公布的h 2 6 3 + 和h 2 6 3 + + 。长期目 标是制定一个新的视频编码标准,以更好的质量和压缩比来支持低比特率的视 频应用,由此产生了h 2 8 l 草案。同时i s o 针对肝e g - 4 的高级视频编码( a d v 锄c e d v i d e oc o d i n g ) 也在进行中。2 0 0 1 年p e g 对h 2 6 l 草案进行了评估,意识到了 其潜在的优越性,于是协商成立了j v t ( j o i n tv i d e ot e ) ,共同发展新的标 准。新标准的官方名称为:i t u - tr e c h 2 6 4 和i s o 1 e c1 4 4 9 6 1 0a v c 。从1 9 9 8 年1 月开始征集草案,1 9 9 9 年9 月完成了第一个草案,2 0 0 1 年5 月制定了其测试 模型硼l 一8 ,2 0 0 2 年6 月的j v t 第5 次会议通过了h 2 6 4 的f c d 版。2 0 0 3 年3 月j v t 正式发布了。它既是i t u t 的h 2 6 4 ,又是i s o i e c 的m p e g - 4 的第1 0 部分。 2 1 1h 2 6 4 的改进 h 2 6 4 的技术特点可以归纳为以下三个方面:一是注重实用,采用成熟的 技术,追求更高的编码效率,简洁的表现形式;二是注重对移动和i p 网络的适 应,采用分层技术,从形式上将编码和信道隔离开来,实质上是在源编码器算 法中更多的考虑到了信道的特点;三是在混合编码器的基本框架下,对其主要 部件做了重大改进,如多模式运动估计、帧内预测、多帧预测、基于内容的变 长编码和4 4 二维整数d c t 变换等等但凡事有利必有弊,在关注h 2 6 4 优越性 能的同时要看到是以提高运算复杂度为代价的。 总的看来,与传统的视频编码标准相比,h 2 6 4 有以下重要优势: 1 高质量的视频图像。h 2 6 4 协议在各种情况下皆可提供稳定的图像,即 使在甚低码率的情况下,也能够保证较高的图像质量。 2 与h 2 6 3 + + 和m p e g 一4 相比,在接近的图像质量基础上h 2 6 4 可节省近 2 与h 2 6 3 + + 和m p e g 一4 相比,在接近的图像质量基础上h 2 6 4 可节省近 西南交通大学硕士研究生学位论文第7 页 3 主要档次,主要用于消费类电子应用,如数字电视广播、数字视频存 储等等。 视频通信是h 2 6 4 一个重要的应用领域。在国家逐渐开始电子政务的同时, 视频会议的应用范围从大企业开始向政府部门扩张。但是有一些不足之处。如 必须到指定的电子会议室参加会议,价格较为昂贵,图像延迟不清晰等等。可 视电话的性能也不是很理想,在网络流量尚可时还可以接受,在网络阻塞较为 严重的时候,丢包、误码和方块效应经常出现,严重影响使用。而h 2 6 4 不仅 具有优异的压缩性能,而且有良好的网络亲和性,这对实现实时视频通信是非 常重要的。 随着网络作为媒介的作用日益显著,网络视频也越来越得到广泛的应用。 h 2 6 4 对流媒体的支持使之在网络视频点播v o d 领域也大有可为。同时在移动通 信领域,多媒体信息的无线传输正在兴起,h 2 6 4 在甚低码率下良好的性能也 可以得到广泛的应用。大到电影大片,小到祝福短信、搞笑视频等等,皆存在 着可观的市场。 数字电视的优越性已经是公认的了,但是它的广泛应用还有赖于高效的压 缩技术。例如利用m p e 争2 压缩一路高清电视需要大约2 0 m b p s 的带宽,而相应 h 2 6 4 的初步实验数据则只需5 肪p s 的带宽。美国在2 0 1 0 年,欧洲2 0 0 7 年将停止 模拟电视广播而采用数字电视广播,皿t v 要想获得迅猛发展,必须降低成本。 对传输而言,采用h 2 6 4 将会把费用降低到l 4 ,这是非常诱人的前景。我国2 0 0 8 年的北京奥运,既是一个人文奥运又是一个科技奥运, d t v 必将呈现在人们面 前。高质量的压缩性能,优异的h 2 6 4 视频编码技术和设备的市场前景是可以 想象的。 2 2h 2 6 4 的编解码器 h 2 6 4 在编解码器结构上依然采用d p c m t 的混合编码方式,各功能模块没 有大的变动,具体的改进体现在每一个模块内的细节上。h 2 6 4 协议中并没有 明确的规定一个编解码器如何实现,而是规定了一个编码后的视频比特流的句 法和该比特漉的解码方法。h 2 6 4 的编码器如图2 2 所示。 西南交通大学硕士研究生学位论文第9 页 2 3h 2 6 4 关键模块介绍 既然整体的框架没有大的革新,那么a v c 的优异性能来自哪里呢? 纵观 h 2 6 4 协议可以看出,在它的每个模块上都下功夫做了改进。从开始的多模式 帧内预测到最后的去方块滤波都有很大豹性能改观。a v c 主要由下面几个部分 组成,同时也是a v c 的闪光之处。它的其余特征诸如s p s i 帧控制、c a b a c 和c a v l c 编码、参考图像管理、重排序、隔行视频、数据片分割和h 2 6 4 的传输等等详 见参考文献 1 和 1 1 。 2 3 1 帧内预测 有别予以往单一的帧内预禊i 模式,h - 2 6 4 根据块的大小提供了多种帧内预 测模式。采用帧内预测时,预测块p 是基于已编码的重建块和当前块形成的。 对亮度像素而言,p 块用于4 4 子块或1 6 1 6 宏块的相关操作。4 4 亮度子块 有9 种可选预测模式,独立预测每一个4 4 亮度子块,适用于有大量细节的图 像编码;1 6 1 6 亮度块有4 种预测模式,预测整个1 6 1 6 亮度块,适用于平坦 区域图像编码:色度块也有4 种预测模式,类似于1 6 1 6 的亮度块预测模式。 编码器通常选择是p 块和编码块之间差异最小的预测模式。 此外,还有一种帧内编码模式称为i - p c m 编码模式。在该模式下,编码器 直接传输图像的像素值,而不经过预测和变换。在一些特殊情况下,特别是图 像内容不规则或者量化参数非常低时,该模式比起“常规操作”( 帧内预测一 变换量化熵编码) 效率更高。i - p c m 模式用于以下目的: 1 允许编码器精确的表示像素值 2 提供表示不规则图像内容的精确值,而不引起重大的数据量增加 3 严格限制宏块解码比特数,但不损害编码效率。 在以往h 2 6 3 和肝e 争4 等标准中,帧内预测被引入交换域,而在h 2 6 4 帧内 编码则在空间域进行,参考左方或上方已编码的邻近像素点。但如果参考预测 块时帧间编码宏块,则该预测会因参考块的运动补偿引起误码扩散,故参考块 一般选取帧内编码的邻近块。 西南交通大学硕士研究生学位论文第1 0 页 2 3 1 1 4 4 亮度预测模式 图2 3 “耵显示了一个q c i f 帧中的亮度宏块和待预测的4 4 的亮度块。上方 和左方的像素已经经过编码重构,因此可用于后续图像的预测编码参考。预测 块p 的计算是基于图中由a 到m 的像素值,如图2 4 所示。不同的预测模式,预测 公式和加权有所不同。但在一些情况下,并不是由a 到m 所有的像素都会被用到, 为了保证片的独立性,可能在当前片中只用到部分像素。 原始宏块待遇测的4 4 亮度块 图2 _ 3 原始宏块和待预测的4 4 亮度块 西南交通大学硕士研究生学位论文第”页 mabcdefgh i abcd j ef g h k l j k l lmn o p 图争4 预测像素的参考图示 下面是4 4 亮度块的几种预测模式,模式0 和模式1 分别为采用垂直和水平 方向的像素预测,如模式0 的第一列值为a 点像素值,第二列为b 点像素值;模 式1 则第一行值为i 点像素值,第二行为b 点像素值;模式2 则以上方和左方的均 值作为预测值;其它模式的详细计算方式见参考文献 1 。 图2 54 4 帧内预测的9 种模式 2 3 1 2 1 6 1 6 亮度预测模式 作为一个上面所述4 4 亮度模式的另一种方案,可以整体预测一个1 6 1 6 的亮度成分的宏块,它有下面所述的4 种模式可供选择: 西南交通大学硕士研究生学位论文第1 2 页 4 ( v e l o f h 甜n 恒i )2 d c )3 叭e ) 图2 61 6 1 6 帧内预测的4 种模式 模式0 :直接根据上方的像素( h ) 预测 模式1 :直接根据左方的像素( v ) 预测 模式2 :根据上方和左方的像素做均值( h + v ) 预测 模式3 :根据上方和左方的像素用一个线性平面函数做插值预测,这种模 式适合于亮度变化平缓的区域 2 3 1 38 8 色度预测模式 每个编码宏块的8 8 色度成分由已编码左上方色度像素的预测而得,两种 色度成分常用一种预测模式。4 种预测模式类似于帧内1 6 1 6 预测的4 种模式, 仅仅是模式编号有所变动,其中d c 为模式0 、水平为模式l 、垂直为模式2 ,平 面为模式3 。 2 3 1 4 帧内预测模式信号化 每个4 4 块帧内预测模式必须转变成相应的信号传送给解码器。该信息可 能需要大量的比特来表示,但邻近块的帧内模式通常是相关的。例如在图2 1 0 左图中:a 、b 、e 分别为左边、上边和当前块,如果a 和b 的预测模式为1 ,e 的 最佳预测模式很可能也为1 。所以通常利用这种关联性信号化为4 4 帧内模式。 对每仑当前块e ,编码器和解码器计算最可能的预测模式和a 、b 预测模式 的较小者。如果这些相邻为不可用的话( 位于当前片外或者非帧内4 4 模式) , 相应值a 或b 置2 ( d c 预测模式) 。 编码器分配每个4 4 块一个标志p r e v j n t r a 4 4 r e d _ m o d e 。该标志置1 时,使用最可能预测模式;置o 时,使用参数r 鲫j n t r a 4 4 - p r e d _ m o d e 来指明 模式的变化。r e m - i n t r a 4 4 _ p r e d o d e 小于当前最可能的模式时,预测模式 选r e m _ i n t r a 4 4 _ p r e a m o d e ;否则预测模式为r e m - i n t r a 4 4 _ p r e d - m o d e + 1 。 西南交通大学硕士研究生学位论文第13 页 r e m - i n t r a 4 4 - p r e d - m o d e 的值为0 到7 。 举例:块a 和b 分别用模式3 和模式1 预测,块e 最可能的预测模式则为1 。这 时p r e v _ i n t r a 4 4 r e d o d e 置o ,r e m - i n t r a 4 4 _ p r e 吐- m o d e 被传送。具体内 容见表3 1 ,块e 的预测模式取决于r e m - i n t r a 4 4 r e d - m o d e 的值。帧内1 6 1 6 亮度和色度预测模式在宏块头中指明。 这里要注意的是,包括帧内预测的所有预测均不能跨片边界预测,边界块 单独进行处理,每片必须进行独立编解码。 表2 1 预测模式选择( 最可能模式为1 ) r e m _ i n t r a 4 x4 p r e d - o d e块e 的预测模式 0o 1 2 23 3 4 45 56 67 78 可见,帧内预测以绝对误差和s a d 和s a e 为标准选取最佳预测模式,使预测 帧更加接近原始帧,减少了相互间的差异,去除时间上的数据冗余,提高了编 码的压缩效率。帧内预测中,块或宏块利用已编码并重建的块作为参考,进行 预测。具体编程时,编码器通过计算并比较各种模式下的s a e ,选取s a e 值最小 的模式作为最佳预测模式。并将该模式信息化传至解码端以供正确解码。 2 3 2 帧间预测 h 2 6 4 帧间预测与以往不同的是块的尺寸范围更广,从1 6 1 6 到4 4 、亚 像素运动矢量的使用( 亮度采用1 4 像素精度m v ) 及多参考帧的运用等等。实 验表明“”,相对于一帧参考,5 个参考帧可以节约5 到1 0 的比特率,且有助 于比特流数据的恢复,一般根据实际情况选择3 5 个参考帧。h 2 6 4 采用了树 状结构的运动补偿技术,提高了预测能力,产生更好的图像质量。我们分以下 几个方面介绍h 2 6 4 的帧问预测技术。 西南交通大学硕士研究生学位论文第1 4 页 2 3 2 1 树状结构的运动补偿 每个1 6 1 6 的宏块可以按4 种方式分割:1 个1 6 1 6 宏块,或2 个1 6 8 的子 块,或2 个8 1 6 的子块,或4 个8 8 子块,相应的其运动补偿也应该有4 种。而 8 8 模式的每个子宏块还可以进一步以4 种方式进行分割:1 个8 8 子块,2 个4 8 子块或8 4 子块,或者4 个4 4 子块。这些分割和子宏块大大提高了各宏块 间的关联性,这种分割下的运动补偿被称为树状结构运动补偿,如图3 8 所示 m 型 8 g 型 1 6 16 |1 6 x 分0 1 6 8 s 口田田田 营父8i 戈曩4 g4 戈j 圉田一田 图2 7 宏块及子宏块分割 每个分割或子宏块都有一个独立的运动补偿。每个m v 必须被编码、传输, 分割的选择也需编码压缩到比特流中。对大的分割尺寸而言,m 、r 选择和分割类 型只需少量的比特,但运动补偿残差在多细节区域中的数据量将非常高。小尺 寸分割运动补偿残差数据量低,但是需要较多的比特表征m v 和分割选择。所以, 分割尺寸的选择直接影晦着压缩的性能。整体面言,大的数据划分适合平坦区 域,而小尺寸的数据划分适合予细节多的区域。我们寻找一种自适应的数据划 分模式选择也是至关重要的,怎样达到最佳点,即数据量最小是要解决的问题。 宏块的色度分量采用和亮度分量一样的划分模式,只是尺寸减半。色度块 的孵也是通过相应的亮度m v 减半获得。 2 3 2 2 运动矢量 帧间编码宏块的每个分割或者子宏块都是对参考图像的某一相同尺寸区 域进行预测而得到的,两者间的位移即是运动矢量m v ( m o t i o nv e c t o r ) 。m v 对 西南交通大学硕士研究生学位论文第15 页 亮度块采用1 4 像素精度,色度块采用1 8 像素精度。亚像素位置的亮度和色度 像素并不存在于参考图像中,而利用邻近已编码的像素点进行内插而得。如果 m v 的垂直和水平分量为整数,参考块相应像素就已实际存在。如果其中一个或 两个为分数,预测像素则要通过参考帧中相应像素内插获得。 内插像素的生成方法如图2 8 所示: 图2 8 亮度半像索内插 首先生成参考图像亮度成分半像素位置像素。半像素点( 如b ,h ,m ) 通过 对相应整像素点进行6 抽头滤波“得出,权重为( 1 3 2 ,一5 3 2 ,5 8 ,5 8 ,一5 3 2 , 1 3 2 ) 。例如:b 的计算如下: b = r o u n d ( ( e 一5 f + 2 0 g + 2 0 h 一5 i + j ) 3 2 )( 2 1 ) 类似的,h 由a 、c 、g 、m 、r 、t 滤波得出。如果邻近( 垂直或水平方向) 整像素点的所有像素都计算出,剩余的半像素点便可以通过对6 个垂直或水平 方向的半像素点滤波而得。例如,中心的i 由c c ,d d ,h ,m ,e e ,f f 滤波得出。 这里说明的是6 抽头滤波器比较复杂,但可以明显改善运动补偿性能,故而被 普遍采用。 得到半像素位置的值后可以采用线性内插得出1 4 像素点,如图2 9 所示, 根据水平垂直和对角方向的整像素点和半像素点的值内插出1 4 像素点的值, 下图为上图的中心部分,图中的大写字母代表整像素点,小写字母代表半像素 点,而没有阴影填充的两个字母像素则为内插的到的1 4 像素点。表示它的两 西南交通大学硕士研究生学位论文第16 页 个字母分别为线性内插时所用的像素点,如 g b = r o u n d ( ( g + b ) 2 )( 2 2 ) 相应的,色度像素需要1 8 精度的m v ,也同样通过整像素双线性内插得出, 如图所示,其中, 。 a = r o u n d ( ( 8 一d x ) 串( 8 一d y ) a + d x 堆( 8 一d y ) b + ( 8 一d x ) 术d y c + d x 木d y d 6 4 )( 2 3 ) 当d 萨2 ,d y :3 时,有a = r 叫n d ( 3 0 a + 1 0 b + 1 8 c + 6 d ) 6 4 ( 2 4 ) :j = := 丑:j | 。囊hb喜毹i 6hhbb ibrhn 羹h i隧 ir y l垂 y h,15i515nn :j 嘲! :;川5n5毒n 褥:强 夥 f 剥舞一氆:出 j = 暑一o 。娶:毋: 图2 9 亮度四分之一和色度八分之一像素内插 2 3 2 3 运动矢量预测 每个分割运动矢量m o t i o nv e c t o r 的编码需要相当数目的比特,特别是使 用小尺寸分割时。为减少传输比特数,可利用邻近分割较强的相关性,m v 可由 邻近已编码分割的删预测而得。预测矢量m v p 基于已计算的m v 和m v d ( m o t i o n v e c t o rd i f f e r e n c e ) ,并被编码和传送。m v p 则取决于运动补偿的尺寸和邻近 m v 的有无。 e 为当前宏块或宏块分割子宏块。a 、b 、c 分别为e 的左、上、右上方的三 个相对应块。如果e 的左边不止一个数据分割,取其中左边最靠近上方的一个 为a ;如果e 的上边不止一个数据分割,取其中上边最靠近左方的一个为b :如 图3 1 1 所示为所有分割有相同尺寸的邻近分割选择。如图3 1 l 所示为不同尺寸 时邻近分割的选择。 其中: ( 1 ) 传输分割不包括1 6 8 和8 x 1 6 时,m v p 为a 、b 、c 分割m v 的中值; ( 2 ) 对于1 6 8 分割,上面部分m v p 由b 预测,下面部分m v p 由a 预测; ( 3 ) 对于8 1 6 分割,左面部分w p 由a 预测,右面部分p 由c 预测; 西南交通大学硕士研究生学位论文第17 页 ( 4 ) s k i p p e d 宏块同( 1 ) 。 如果如图3 1 1 所示的已传送块不存在时( 如在当前片外) , 【v p 的选择需 重新进行调整。在解码端,m v p 以相同的方式形成并加到m v d ( m o t i o nv e c t o r d i f f e r e n c e ) 上。对于s k i p p e d 宏块而言,由于不存在m v d ,其运动补偿块也由 m v 直接生成。 2 3 2 4b 片预测 图2 1 0 相同和不同的当前和邻近分割 b 片中的帧间编码宏块的每个子块都是由一个或者两个参考图像预测而 得,参考图像既可以位于待预测图像的之前也可以位于其后,取决于编码或译 码器中存储的参考图像,因此预测方式可有多种选择。关于b 片预测我们要关 注以下三个方面。 1 参考图像 采用双向预测的b 片用到了两个己编码参考图像列表,l i s t o 和l i s t l ,而p 片仅仅采用个参考图像列表l i s t o 即可。h 2 6 4 将用于参考的图像分为两种, 短期( s h o r t t e r m ) 和长期( 1 0 n g t e r m ) 参考图像,这两种图像均存放于两 个参考图像列表中。首先按照默认的顺序存放短期参考图像,然后按照升序存 放长期参考图像。而短期参考图像的默认顺序则依赖于图像的显示顺序( 如果 是p 片则依赖于解码顺序) 。而短期参考图像的默认顺序如下,在1 i s t 0 中先按 照降序存放当前图像前面图像,然后按照升序存放当前图像之后的图像;而在 l i s t l 中正好相反。假如两个列表均存储了6 幅参考图像,当前图像p o c 为1 2 7 , 6 幅参考图像的p o c ( p i c t u r eo r d e rc o u n t ) 分别为:1 2 3 ,1 2 5 ,1 2 6 ,1 2 8 , 西南交通大学硕士研究生学位论文第1 8 页 1 2 9 ,1 3 0 ,如表2 2 所示: 表2 2 短期缓冲索; 工n d e xl i s t ol i s t l 01 2 61 2 8 11 2 51 2 9 21 2 31 3 0 31 2 81 2 6 41 2 91 2 5 51 3 01 2 3 选择的缓冲索引作为e x p 0 1 0 m bc o d e w o r d 发送,最有效的参考索引 ( c o d e w o r d 最小) 便是i n d e x o ( 例如:前向参考图像在l i s t 0 中,后向参考图 像在1 i s t l 中) 。这部分涉及到的参考图像管理机制详见参考文献 1 胡。 2 预测模式选择 b 片的预测方式包括:宏块分割方式、双向选择方式、参考列表选择方式 等等。具体说b 片宏块分割可由多种预测方式组合成一种实现,如直接模式、 利用l i s t o 的运动补偿模式、利用1 i s t l 的运动补偿模式或者利用l i s t o 和l i s t l 的双向运动补偿模式等。每个分割可选择各自的不同的预测模式,见表2 3 。 如果8 8 使用分割,每个8 8 分割所选择的模式适用于分割中的所有子分割。 如图所示为一个例子,左边的两个1 6 8 分割分别使用1 i s t 0 、l i s t l 和双向预 测模式,而右边的4 个8 8 分割分别采用直接、l i s t o 、l i s t l 和双向预测四种 模式,如图2 一l l 所示。 3 双向预测 双向预测中,参考块( 与当前分割或亚分割同尺寸) 是由1 i s t o 和l i s t l 的参考图像推出的。从1 i s t 0 和1 i s t l 分别得出两个运动补偿的参考区域( 需要 两个运动矢量m v ) ,而预测块的像素取l i s t o 和l i s t l 相应像素的平均值。当不 用加权预测时,用下列等式: p r 耐( f ,) - 0 旭d o o ,) + p r 甜砸,) + 1 ) ) 1 ( 2 - 5 ) 其中p r e d o ( i ,j ) 和p r e d l ( i ,j ) 为由1 i s t o 和1 i s t l 参考帧推出的预测像素, p r e d ( i ,j ) 为双向预测像素。计算出每个预测像素后,运动补偿残差通过当前 宏块像素减p r e d ( i ,j ) 而得。双向预测宏块或块中的l i s t o 和1 i s t l 矢量可根据 邻近相同方向的m v 预测而得。 西南交通大学硕士研究生学位论文第19 页 表2 3b 片宏块预测选择 分割选择 1 6 1 6 直接、l i s t 0 、1 i s t l 、双向 1 6 8 8 1 6 1 i s t 0 、l i s t l 、双向( 每个分害4 独立选择) 8 8 直接、l i s t o 、1 i s t l 、双向( 每个分割独立选择) u s t 0 双向 图2 一1 1b 片中分割预测模式举例 4 直接预测 直接预测模式编码的b 片宏块或宏块分割不传送m y 。相反,解码器计算基 于已编码h i v 的l i s t o 和1 i s t l 并计算出解码残差像素的双向预测运动补偿。b 片 中的s k i p p e d 宏块可由解码器用直接模式重建而得。 片头会指明将用时间方式还是空间方式来计算直接模式或其分割的矢量。 在空间模式中,l i s t o 和1 i s t l 预测矢量的计算方法如下: 如果第一幅1 i s t l 参考图像的c o 一1 0 c a t e d 惦( m a c r o b l o c k ) 或分割有一个 m v 的幅度小于1 2 亮度像素,其一个或两个预测矢量置为o ;否则预测1 i s t 0 和l i s t l 矢量用以计算双向运动补偿。 在时间模式下,计算步骤如下: 1 找出1 i s t l 图像c o 一1 0 c a t e d 船或分割相应的1 i s t o 参考图像。该1 i s t o 参考作为当前宏块或分割的l i s t o 参考; 2 找出1 i s t l 图像c o l o c 8 t e d 淞或分割相应的1 i s t 0 耐; 3 计算当前图像和l i s t l 图像的p o c 的m v ,作为新的1 i s t lm v l ; 4 计算当前图像和l i s t 0 图像的p 0 c 的m v ,作为新的l i s t om v o 。 这些模式在预测参考宏块或分割不提供帧内编码等情况下做出调整。例 如:当前宏块l i s t l 参考在当前帧两幅图像后出现,如图2 1 2 所示。l i s t l 参考 c o l o c a t e d 船有一m v ( + 2 5 ,+ 5 ) ,指向1 i s t o 参考图像( 出现于当前图像 西南交通大学硕士研究生学位论文 第2 1 页 一,具体过程如图2 一1 3 所示。一个宏块的数据按照图2 一1 4 中的顺序进行变换和 传输。假如宏块是1 6 1 6 帧内编码模式,则将其标为“一1 ”首先处理,4 4 亮度块的d c 系数也做这样的处理;之后处理标为“o 1 5 ”的亮度残差块( 1 6 1 6 帧内预测块中相应位置的系数为o ) ;1 6 和1 7 块分别包括色度块的2 2d c 系数矩阵,亮度数据处理完后对它们进行操作;最后处理色度残差块1 8 2 5 。 图2 一1 3 编码器中变换编码及量化过程 西南交通大学硕士研究生学位论文第2 2 页 2 3 3 1 整数变换 图2 1 4 一个宏块中残差块的扫描处理顺序 一维n 点离散余弦交换( d c t ) 可以表示为: ”c t 黔c o s 簧产协。, 其反变换( i d c t ) 可以表示为: 矗- 薹c 肌c o s 产伢, 其中x 。是输入时域序列中的第n 项,y - 是输出频域序列中的第k 项,系数c - 定义如下: 当k = 0 时, 。厅 l 。、百:( 2 8 ) 当k = l ,2 ,n 一1 时, 厅 q 4 | l 膏( 2 吲 每个d c t 系数y 。是时域信号值x 。的一个映射。k = o 的系数被称为d c 系数代表 信号的均值,称为直流分量;其余的称为a c 系数,对应较高的频率。 二维n n 的图像块的d c t 变换可以理解为先对图像的每一行进行一维d c t , 然后对经过行变换的块的每列再应用一维d c t 。其变换和反变换可以表示为: 西南交通大学硕士研究生学位论文第2 3 页 一k 吒q 誓c o s 警c o s 学防 小薯薹q 巴c o s 警c o s 学浯m 其中x t j 是图像块x 中第i 行第j 列图像或其残差值,k 是相应的变换结果矩 阵内的d c t 系数,c 和c 。的定义如式( 2 8 ) 和( 2 9 ) 中的定义。上面的式子可 以用矩阵表示为; y - a x a 7 和x a 7 y a( 2 1 2 ) 其中n n 变换矩阵a 中的系数: 爿。c c o s 垒坚至 2 ( 2 1 3 ) 对h 2 6 4 中的4 4 的图像块而言,相应的a 矩阵为; a 4口 一c一6 一口4 6一c ( 2 1 4 ) 其中 口一三加捱c o s c 。压c o s 譬, 但是此系数矩阵为实数,图像块x 中的元素是整数,实数在解码端的运算 容易引起漂移,h 2 6 4 将4 4 d c t 中的a 进行了改造,采用整数d c t 方式,则式可 等效为: y - ( c x c 7 ) o e 111 1dd 1 11 d一11x 睢 1d 一11 _ 11 1一d 固 4 2 口6 4 66 2 4 2口6 曲6 2 ( 2 1 5 ) 其中,d = c b ( 。0 4 1 4 ) 。符号。表示前后的两个矩阵对应位置的元素 相乘。为了简化运算d 取o 5 ,同时为了保证变换的正交性,对b 进行修正,取 。t 后。 口。叫曲口6口c 西南交通大学硕士研究生学位论文第2 4 页 为了保证c 矩阵的整数性质,将其第二、四行和其转置矩阵的第二、四列 乘2 ,同时我们对e 做了矫正得到e f 以保证等式成立: y 一( c f x c j ) e f 11 21 11 1 2 11 12 11 21 1211 x j l 1 1 2 1 11一l2 1 12l一1 圆 口2曲 口扫26 2 4 2口6 4 6 ,26 2 ( 2 一l 6 ) h 2 6 4 将固e ,部分归入后续的量化部分,所以前面的( c f x 口) 部分只剩下 整数的加法、减法和移位运算,大大减小了运算量。整个变换环节的输出变成 了w c x c 。 2 3 3 2 量化 量化过程在不降低视觉效果的前提下减少编码长度,减少视觉恢复中不必 要的信息。h ,2 6 4 采用标量量化技术,它将每个采样点编码映射成较小的树值。 一般标量量化器的原理为: f t q r d “n d ( y q p )( 2 一1 7 ) 其中y 为输入样本点编码,q p 为量化步长,f q 为y 的量化值,r o u n d ( ) 为 取整函数“1 。其相反过程,即反量化为: y 艘q p ( 2 1 8 ) 在量化和反量化的过程中量化步长决定了量化器的编码压缩率及图像精 度。如果q p 比较大,则量化值f q 的动态范围较小,其相应的编码长度较小,但 反量化时损失较多图像细节信息:如果q p 比较小,则f q 的动态范围较大,相应 编码长度也较大,但图像的细节信息损失较小。一般采用自适应机制使q p 自动 变化,达到最佳效果。 在h 2 6 4 中,量化步长q s t e p 共有5 2 个值,见表2 - 4 。其中q p 是量化参数, 是量化步长的序号。当q p 取最小值0 时,代表最精细的量化,随着q p 的递增, 量化越来越粗。q p 每增加6 ,q s t e p 增加一倍。色度编码使用跟亮度一样的量化 步长。h 2 6 4 规定,亮度q p 最大值为5 1 ,而色度q p 最大值为3 9 ,这是因为为了 避免在较高量化步长时出现颜色量化人工效应,故限制色度q p 最大为亮度q p 的8 0 。 吣耻的职 : 但: 心口曲口曲 2 4 2 4 西南交通大学硕士研究生学位论文第3 1 页 另一个l a g r a n g e 参数入w n 。与九。有关,由式( 2 4 1 ) 或( 2 4 2 ) 确定。 其中式( 2 4 1 ) 对应于式( 2 3 5 ) ,式( 2 4 2 ) 对应于式( 2 3 6 ) 。 a - a f d d e x 一,一再二 ( 2 4 1 ) ( 2 4 2 ) 在h 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论