




已阅读5页,还剩60页未读, 继续免费阅读
(通信与信息系统专业论文)h264运动估计和帧内模式选择快速算法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西南交通大学硕士研究生学位论文第1 页 摘要 h 2 6 4 作为新一代的视频编码标准,具有众多技术上的创新。h 2 6 4 凭借 较高的压缩率、较好的图像压缩质量以及网络亲和性,无论是用于存储还是 用于网络传输都能够胜任。但各种编码新技术的引入也使得算法的复杂度急 剧增加,所以如何降低复杂度使其能够满足实时通信的要求成了迫切需要解 决的问题。 h 2 6 4 仍然采用基于块匹配的运动估计算法来去除时间冗余。本文在分析 研究了几种传统的快速搜索算法基础上提出了一种阈值自适应搜索算法。本 算法利用运动矢量间的空时相关性进行起始点的选择、自适应阈值的确定, 对静止块直接中止搜索,并根据图像运动特征自适应地选择搜索模板。本文 算法在j m 8 6 测试模型里实现,并与测试模型中的快速算法进行了比较。实 验结果表明,上述技术的采用使本文算法在保证搜索准确性的同时,在一定 程度上提高了运动估计的速度。 帧内预测是h 2 6 4 采用的一项关键技术,对编码帧内各宏块采用多种模 式进行预测,从中选出率失真性能最好的作为当前块的最佳预测模式。帧内 预测技术在提高了性能的同时,也大幅增加了运算量。本文在介绍了h 2 6 4 的帧内预测模式选择算法后,分析了几种帧内快速模式选择算法,之后利用 图像的纹理特征对j m 原始算法进行了改进。本算法针对不同的纹理特征预 先缩小帧内预测模式的选择范围。实验证明,该算法在保证图像质量的前提 下一定程度地提高了编码速度。 关键词t 视频编码;h 2 6 4 ;运动估计;帧内预测;模式选择 a bs t r a c t a san e wg e n e r a t i o no fv i d e oc o d i n gs t a n d a r d ,t h e r ea r em a n yt e c h n i c a l i n n o v a t i o n si nh 2 6 4 w h e t h e ri ti su s e df o rs t o r a g e o rn e t w o r kt r a n s n n s s l o n , h 2 6 4i sc o m p e t e n tw i t hah i g h e rc o m p r e s s i o nr a t i o ,b e r e rq u a l i t yo fc o m p r e s s m n i m a g ea n dn e t w o r kc o m p a t i b i l i t y h o w e v e lt h ea l g o r i t h mc o m p l e x i t yo fh 2 6 4 d r a m a t i c a l l yi n c r e a s e sd u et ot h ea d o p t i o no f an u m b e ro fv i d e oc o d i n gt o o l s s o h o wt or e d u c et h ec o m p l e x i t ys ot h a ti tc a nm e e tt h er e q u i r e m e n t so fr e a l 。t i m e c o m m u n i c a t i o nh a sb e c o m ea nu r g e n tp r o b l e mt h a tn e e d st ob er e s o l v e d h 2 6 4i ss t i l la na l g o r i t h mb a s e do nb l o c k - m a t c h i n gm o t i o ne s t i m a t i o nt o r e m o v et e m p o r a lr e d u n d a n c y af a s t s e a r c hm e t h o d - a d a p t i v et h r e s h o l ds e a r c h a l g o r i t h mi sp r o p o s e di nt h i sp a p e rb a s e do n t h ea n a l y s i sa n dr e s e a r c ho fs e v e r a l t r a d i t i o n a lf a s ts e a r c ha l g o r i t h m s i t t a k e s a d v a n t a g e o f s p a t i a l - t e m p o r a l c o r r e l a t i o no ft h em o t i o nv e c t o rf i e l d t op r e d i c tt h e i n i t i a lp o i n ta n do b t a i nt h e a d a p t i v et h r e s h o l d , a n dt e r m i n a t e sc u r r e n ts e a r c hi m m e d i a t e l yo n c ed e t e c t s t h e s t a t i o n a r yb l o c k a n da c c o r d i n gt o t h ec h a r a c t e r i s t i c so ft h em o t i o no ft m a g e , d i f f e r e n tt e m p l a t e sa r ea d a p t i v e l yu t i l i z e d 1 1 1 ea l g o r i t h mi si m p l e m e n t e dm t h e t e s tm o d e l 删8 6a n dc o m p a r e dw i t ht h ef a s ta l g o r i t h mo ft e s t m o d e l t h e e x p e r i m e n t a lr e s u l t ss h o wt h a tt h ea l g o r i t h mi n t h i sp a p e ri m p r o v e st h em o t i o n e s t i m a t i o n ss p e e dt oac e r t a i ne x t e n tw h i l ee n s u r e st h es e a r c ha c c u r a c y i n t r ap r e d i c t i o ni sak e yt e c h n i q u ei nh 2 6 4 i tp r e d i c t st h eb l o c kw i t hav a r i e t y o fm o d e l s a n ds e l e c t st h em o d e lw i t hb e s tr a t e d i s t o r t i o np e r f o r m a n c ea st h et h e b e s tp r e d i c t i v em o d e lo fc u r r e n tb l o c k i ta l s oi n c r e a s e st h ec o m p u t a a o nb u r d e n w h e ni m p r o v e st h ep e r f o r m a n c e a f t e ri n t r o d u c i n gt h em o d es e l e c t i o na l g o r i t h m o fi n t r ap r e d i c t i o no fh 2 6 4a n da n a l y s i n gs e v e r a lf a s ta l g o r i t h m sf o ri n t r am o d e s e l e c t i o n ,a ni m p r o v e da l g o r i t h mi sp r o p o s e db yu s i n gt h ei m a g et e x t u r ef e a t u r e s i nt h i sp a p e r kn a r r o w st h es e l e c ts c o p eo fi n t r a - p r e d i c t i o na c c o r d i n gt od i f f e r e n t t e x t u r ef e a t u r e sa h e a do ft i m e t h ee x p e r i m e n t a lr e s u l t ss h o wt h a ti tm a p r o v e st h e e n c o d i n gs p e e dt oac e r t a i ne x t e n tw h i l ee n s u r e st h ei m a g eq u a l l t y k e y w o r d s :v i d e oc o d i n g ;h 2 6 4 ;m o t i o ne s t i m a t i o n ;i n t r ap r e d i c t i o n ;m o d e d e c i s i o n 西南交通大学四南爻遗大罕 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学 校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查 阅和借阅。本人授权西南交通大学可以将本论文的全部或部分内容编入有关 数据库进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位 论文。 本学位论文属于 1 保密口,在年解密后适用本授权书; 2 不保密区使用本授权书。 ( 请在以上方框内打“4 ) 学位论文作者签名:环祷 日期, - 4 f 形 指导老师签名:乞纭多莲,一一 日期:伽7 六肜 西南交通大学学位论文创新性声明 本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作 所得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体, 均已在文中作了明确的说明。本人完全意识到本声明的法律结果由本人承担。 本学位论文的主要创新点如下: 利用视频序列间的时空相关性提出了一种中止阈值及搜索模板自适应选 择的快速算法,在j m 8 6 中测试通过,在一定程度上节省了搜索时间。 利用帧内图像的纹理特征对h 2 6 4 的帧内预测算法做了改进,一定程度 地节省了帧内模式选择的时间。 学位论文作者签名:砑、旖 日期:堋6 。,占、 西南交通大学硕士研究生学位论文第1 页 1 1 引言 第1 、章绪论 人类每天都在通过各种感知器官来获取外界的信息,而与其它感官相比, 人眼能接收到更多的信息 tj 2 1 0 l 。由视觉感知得到的视频图像信息具有直观、 具体、生动、表达更清晰等优势,因而具有更为广泛的实用性和更高的使用 效率。然而,由于将外界的视频图像信息数字化后的数据量极大,远远超过 了当前硬件技术所能提供的存储和网络传输能力,这带来了实用上的难题。 以手机屏幕的q v g a 格式1 6 位彩色视频图像为例,每帧的数据量为 3 2 0 x 2 4 0 x 1 6 = 1 1 7 m b , 当帧率为3 0 f p s 时,每秒的数据量高达 1 1 7 x 3 0 = 3 5 1 6 m b ,对于现在逐渐流行的h d t v 每秒的数据量更是高达 1 0 0 0 m b t 4 1 。因此,未经压缩的视频图像是不适合存储和传输的。所以如何对 海量的多媒体数据进行高效的压缩编码,并以压缩的格式进行存储和网络传 输成为了人们研究的问题。 经研究发现,虽然视频信息具有巨大的数据量,但数据间存在高度的相 关性,而数据相关性会引起信息冗余,利用信息的冗余可以对数据进行大幅 的压缩。这些冗余包括空间冗余、时间冗余、信息熵冗余、知识冗余及视觉 冗余等1 2 1 。在图像中,一个运动物体的各个像素点以及图像背景中的各个像素 点的值具有连贯性,这样就存在空间冗余;由一幅幅连续图像构成的视频序 列中,相邻视频帧的背景和运动物体在时间轴上存在着极强的相关性,这构 成了时间上的冗余;信息熵冗余是指一幅图像被数字化后,每个像素都用相 等的比特数来表示,由信息论的相关原理可知,这样也会存在冗余。除了上 面提到的,视频序列中还存在以下几种冗余信息:结构冗余,有些图像中, 图像的像素值存在着明显的分布模式,例如块状的天花板图案、瓷砖等;知 识冗余,指图像中包含的信息与某些先验的知识有关,比如包含有人脸的视 频图像中,头、眼、耳、鼻和嘴等之间的相互位置信息;心理视觉冗余,由 于人眼对某些空间频率的感觉相对不太灵敏,利用人类视觉系统( h v s ) 的 这个特点,一些在通常的视觉过程中人眼感知不是很敏感的信息可看作视觉 西南交通大学硕士研究生学位论文第2 页 冗余。 由于视频图像存在各种冗余,可以通过去除这些冗余信息对视频进行压 缩。经过众多专家学者二十多年的研究,视频图像压缩技术取得了巨大的发 展,并被广泛应用于视频会议、各种数字化光盘存储、高清电视、手机电视、 网络多媒体视频播放等领域。 1 2 研究目的及意义 现代视频图像压缩编码技术主要通过预测、变换、量化以及熵编码来对 数据进行压缩,利用预测技术中的运动估计补偿来消除时间冗余、利用d c t 变换、h a d a m a r d 变换等正交变换以及量化技术消除帧内空间冗余,利用熵编 码来消除编码的统计冗余f 3 】。其中,运动估计在视频压缩编码系统中起着非常 重要的作用,它将直接影响到视频数据压缩编码的效率和编码质量。在视频 压缩编码系统中运动估计的计算复杂度最高,占整个系统计算量的5 0 以上, 而且运动估计的准确性还将直接影响重建图像的质量。所以,如何在保证准 确性的前提下降低运动估计的计算复杂度有着非常重要的实际意义。另一方 面,视频每一帧内都存在较大的空间冗余,最新视频编码标准h 2 6 4 在变换 和量化技术之前使用了帧内预测技术使得视频压缩的质量更好,但在进一步 去除冗余的同时也增加了编码的复杂度。因此本课题针对h 2 6 4 标准中的帧 内预测及运动估计技术进行了深入的研究,以寻找到可以降低编码复杂度的 运动估计算法和帧内预测模式选择算法。 1 3 国内外发展现状及研究成果 1 3 1 运动估计算法发展现状及研究成果 由于在视频压缩编码算法中运动估计起着很大的作用,运动估计的好坏 不但影响编码的速度而且影响编码的图像质量,所以运动估计快速算法一直 是视频编码领域的研究热点,从开始研究到现在也取得了丰硕的成果。 针对早期算法中搜索容易陷入局部最小而无法得到最优解的缺点,m f s o 等人在文献 5 中利用遗传算法的全局最优搜索和四步法的中心偏置特性 设计了一种基于遗传算法的快速搜索算法。初始种群大小根据搜索的范围来 确定,如果搜索偏移为,个像素,那么种群大小m 选择为不小于l o g ,引的最大 整数;在搜索范围内随机取得染色体( 搜索点) ;适应度函数选择m a e ( m e a n 西南交通大学硕士研究生学位论文第3 页 a b s o l u t ee r r o r ) ;迭代次数( 即遗传算法中终止进化代数) 选择4 ;使用轮盘 赌方法选择染色体进行杂交;经过变异操作后选择前面最好的m 个染色体做 下一次迭代。该算法利用遗传算法的全局搜索特性和四步搜索的中心偏置特 性对于小运动取得了较全搜索法快的多的搜索速度。但该算法起始点选择没 有考虑像素间的相关性,没有进行保优操作,容易使得优秀个体在搜索中丢 失。 之后龚涛等人在文献 6 中对遗传算法中的染色体编码、初始种群选择和 遗传算子等做了改进。采用二进制格雷码对染色体进行编码,染色体选择考 虑了空间相关性,选择以预测矢量为中心的9 个点为初始种群,选择最优的4 个染色体直接进入下一次迭代,舍去杂交操作只对染色体进行变异操作。在 考虑了空间相关性和保优操作之后取得了更好的搜索效果。虽然遗传算法有 较好的全局寻优能力,但需要较多的搜索点,且好的变异和杂交算子不好选 择。 刘海峰、郭宝龙等人在文献 7 】中提出了一种正方形一菱形搜索算法 ( s q u a r ed i a m o n ds e a r c h ,s d s ) 。在深入分析了菱形算法之后,设计了正方形 一菱形的混合模板。算法首先检查混合模板的九个点,判断当前块是静止块、 小运动还是大运动块,从而中止搜索或采用小菱形模板及混合模板做下一次 搜索。与菱形算法相比,在性能接近全搜索法的同时搜索速度更快。相关的 混合模板搜索算法还有十字一菱形搜索算、法【吼、十字一菱形一六边形搜索法【9 】,创 新风筝一十字型一菱形搜索算法1 1 0 等。与仅使用一种模板相比,多种模板的混 合使用能够更加高效的找到最优点,但在大运动的情况下仍可能无法保证搜 索的准确性。 e i h o s u r 和k k m a 在文献 1 1 中提出了一种运动矢量场自适应搜索算法 ( m o t i o nv e c t o rf i e l da d a p t i v es e a r c ht e c h n i q u e s ,m 1 a s t ) 。该算法选择三个 空间相邻块( 左、上、右上) 的运动矢量和( 0 ,0 ) 运动矢量作为候选预测矢量 来预测起始点。首先在( o ,0 ) 矢量处计算匹配误差值,如果小于设定的固 定阈值,则提前中止,否则计算得到当前块的左、上、右上方三个块的运动 矢量的最大幅值,如果最大幅值小于,那么以( o ,o ) 点为中心使用小菱形 模板进行搜索,如果幅值介于三,和厶之间以( 0 ,0 ) 为中心使用大菱形模板 进行搜索,如果幅值大于幻,那么检查所有预测矢量,以当前最优运动矢量 为中心进行小菱形搜索。 y a on i e 等人在文献 1 2 冲提出了一种自适应十字形搜索算法( a d a p t i v e r o o dp a t t e r ns e a r c h ,a r p s ) 。该算法首先检查当前块在参考帧中相同位置的块 是否为匹配块,如果满足阈值丁则提前中止,否则选择左边空间相邻块的运 西南交通大学硕士研究生学位论文第4 页 动矢量为候选预测矢量;如果当前块为左边缘块则取自适应十字形的臂长为 2 ,否则取预测矢量的x 和y 方向分量的最大值作为臂长;以( 0 ,o ) 点为中 心,搜索十字形5 个点处的失真值;以找到的最小误差点为中心重复进行小 十字形搜索直到找到最佳匹配点。 上述两种算法均对起始点进行了预测,在找到的候选运动矢量处进行搜 索,并根据设定的阈值提前中止,模板的使用也不再固定,这些技术的采用 使得算法性能得到了很大提高,对大运动的视频序列仍能够基本保证搜索质 量。但上面的算法没有考虑帧间时间相邻块的使用,将影响起始点选择的准 确性,另外为了降低计算复杂度阈值的取值是固定的,无法反映视频序列的 变化,所以仍有需要改进的地方。 陈志波等人提出的混合非对称十字型多层六边形格点搜索算法( h y b r i d u n s y m m e t r i c a l - c r o s sm u l t i h e x a g o n g r i ds e a r c h ,u m h e x a g o n s ) 1 3 1 ,利用空间 相邻块、上层块、时间相邻块的运动矢量等多个预测矢量集进行起始点预测, 并结合量化参数设定阈值来选择不同的搜索模板;采用自适应十字形和六边 形搜索大运动矢量,螺旋形小模板搜索小运动矢量;相比全搜索法能够在保 证较高的率失真性能下节约9 0 的时间。由于它的优异性能,之后人们又提 出了很多u m h e x a g o n s 的改进算法1 1 4 1 1 1 5 1 6 。 a m t o u r a p i s 等人在文献 1 7 中又对m v f a s t 和a d z s ( a d v a n c e d d i a m o n dz o n a ls e a r c h ) 进行了改进,提出了预测矢量场自适应搜索算法 ( p r e d i c t i v em vf i e l da d a p t i v es e a r c ht e c h n i q u e s ,p m v f a s t ) 与高级预测菱 形区域搜索算法( a d v a n c e dp r e d i c t i v ed i a m o n dz o n a ls e a r c h ,a p d z s ) 。 p m v f a s t 在m v f a s t 基础上增加了中值矢量和前一帧相关块预测矢量,并 在阈值选择上进行了研究,利用当前块四周的编码块及参考帧中相关块的最 佳匹配误差值来计算阈值,根据不同的阈值跳转到不同的搜索步骤执行; a p d z s 改进策略同p m v f a s t 一样,它采用了多级钻石搜索模板,改进后的 算法性能有了更大提高。 a m t o u r a p i s 在文献 1 8 中针对有些图像中运动比较剧烈情况增加了一 种考虑视频序列在时域中运动趋势的矢量一加速预测运动矢量,捕捉运动矢 量在多个参考帧中的运动趋势;增加了上层块预测矢量,使得起始点的预测 更加准确;同p m v f a s t 一样使用自适应中途停止策略和不同的模板搜索。 在文献 1 3 到 1 8 中,增加了预测矢量候选集的数量,使得对起始点的预 测更加准确,更接近最优匹配点;另外,不再采用固定的阈值,而是根据视 频序列的局部特性自适应的选择阈值,从而避免因阈值选择过高或过低导致 图像质量下降或搜索时间的增加。但也存在一些问题,如在u m h e x a g o n s 中 西南交通大学硕士研究生学位论文第5 页 过多的搜索点数虽然有助于更加准确的定位最佳匹配点但搜索时间增加也较 多。 沈渝力、王维东等人在文献 1 9 1 提出了基于矢量相关性的自适应运动估 计搜索算法。该算法通过判决公式( j c l 一z :) 2 + ( y ,一y :) 2 c 丁来衡量两个矢量 的相关性,其中五和而为两个矢量的横坐标值,y 和y :为两个矢量的纵坐标 值,如果在给定一个c t 值后,两个矢量满足上述公式的要求,那么这两个矢 量为相关矢量。根据当前块的左、上及右上方块运动矢量是否两两相关在3 个相邻运动矢量为中心的小范围进行搜索或采用六边形搜索法进行搜索。由 于算法设计中利用了空间相关性,所以取得了比菱形法和六边形法更快的搜 索速度,但在大运动或复杂运动中将出现判决误差,从而导致图像质量变差。 最新的各种运动估计算法都对起始点预测、阈值选择以及模板选择进行 了研究,通过组合优化各种信息能够在保证编码质量的前提下进一步缩短运 动估计时间。 1 3 2 帧内模式预测发展现状及研究成果 由于h 2 6 4 模式搜索的运算量大、编码时间过多,因此在后来的研究中 人们提出了许多快速算法来减少模式搜索的复杂度。 f e n gp a n 等人在文献 2 0 1 中提出了一种基于局部边缘方向信息的快速帧 内模式选择算法。它利用s o b e l 边缘算子来检测当前编码块中各像素所包含 的边缘信息( 方向和幅值) ,通过当前待编码块的方向信息来挑选出几个最可 能的帧内预测模式进行率失真优化计算。对于4 x 4 亮度块仅计算d c 模式、 最可能模式及最可能模式的两个相邻模式,对于1 6 x 1 6 亮度块仅计算d c 模 式及最可能模式,对于两个8 8 的色度块根据最可能模式是否相同分别计算 2 种或3 种模式。该算法在保证图像质量基本不变和码率增加不多的情况下编 码时间可以降低3 0 左右,但该算法在边缘方向不是很明确时仅依靠d c 模式 和最可能模式可能无法得到最优解,这时就需要再增加一些候选模式来保证 预测的准确性。 黄晁等人在文献 2 1 】中提出了一种利用宏块的空间相关性及局部失真累 加方法的模式选择算法。文献中利用当前编码块的相邻块的最佳预测模式确 定当前块模式搜索的顺序,保存优先预测模式的失真值并作为计算之后预测 模式的阈值,若下一个模式的失真值累加超过了这个阈值就停止计算,继续 计算另外的模式,这样设计后起到了提高帧内预测编码速度的目的。这个算 法主要从程序设计上对算法进行了优化,可以将其运用于其他算法中进一步 西南交通大学硕士研究生学位论文第6 页 提高编码速度。 c h a n g s u n gk i m 等人在文献 2 2 中提出了一种多阶段快速帧内模式选择 算法。该算法根据能量守恒定理即时域和频域的能量是相同的,先把各种帧 内预测模式下的s a t d 值计算出来并对其按照大小排序,选择s a t d 值最小 的作为候选预测模式,如果满足阈值条件则认为当前模式为最佳模式;否则 计算s a d 值,按照同样的方法进行判断;如果都不满足,则接着对待编码块 的累积梯度和进行计算,然后利用r d o 进行最后的计算。该算法对小运动序 列较适合,对大运动序列码率增加较多,图像质量也会更差一些。 y ut i n gs u n 等人在文献 2 3 中提出了一种通过改进率失真函数来加快帧 内模式搜索的算法。在率失真优化算法中,比特率的计算需要经过变换、量 化、熵编码得到,运算量较大。该算法中利用标准变换系数差推导出一个比 特率预测公式r ,。= 4 p + f l l o g ,仃( 尺,。为编码比特率,根据当前模式是否为 最可能模式p 取0 或1 ,按经验取值0 5 一- , 2 0 ,仃为标准差) ,在得到s a t d 值后,计算标准系数差,然后将r d o 中的比特率求解部分用该公式替换,再 求解率失真值,在图像有很小失真和一定比特率增加的情况下使得运算复杂 度有了较大的降低。 现有各种帧内模式快速预测算法在图像特性、程序优化以及率失真模型 等方面作了研究,提出了很多降低预测复杂度的算法,但针对图像特性仍可 以做更多的研究,从而进一步降低预测的复杂度。 1 4 视频质量的评价 在利用各种冗余对视频进行压缩后,可能会使压缩后的图像相对原图像 有一定程度上的质量损失或失真,这样就需要一些评价的方法来得到失真的 程度。一般我们可从主观和客观两方面来评价【3 】。 1 4 1 客观评价 客观评价是用重建图像与原始图像的误差来衡量图像的重建质量,常用 的有均方误差( m e a ns q u a r ee 仃o r ,m s e ) 和峰值信噪比( p e a ks i g n a lt on o i s e r a t i o ,p s n r ) 两种方法。 均方误差定义为: m s e :j 一羔1 艺1 陟( f ,_ ,) 一( f ,州2 (1-1)mn :三一yyl 厂( f ,) 一厂( f ,) i ( 篇乞。“ 其中:m 、表示图像的宽和高,( 以) 表示原始图像的像素值,f ( f ,) 表示 西南交通大学硕士研究生学位论文第7 页 重建图像的像素值。 峰值信噪比的定义为: 嗍= l o l 。9 1 。面2 5 5 2 ( 1 - 2 ) 二者是一一对应的关系,实际应用中,一般使用p s n r 来衡量图像的重建 质量。 1 4 2 主观评价 主观评价方法是由评价者直接对一段视频进行观察,从感觉上去度量其 失真度,给出质量评价级别,对所有评价者给出的分数进行加权平均,得到 的结果即为主观评价结果。一般选若干名专家和“非专家 作为评委分几 项对同一视频图像进行图像评定。这种评价结果必然符合人的视觉感受,但 人的主观感受不能用数学模型对其进行描述,无法直接用于视频压缩编码过 程中的质量评价与控制;另外,主观评价容易受到个体因素的影响,如年龄、 性格、教育程度、背景以及评价时的心情等,耗费人力、时间成本较大。 本论文中采用p s n r 作为主要评价标准,在实验中给出原算法和改进算 法在p s n r 上的对比。 1 5 本文研究内容 h 2 6 4 于2 0 0 3 年形成标准后,凭借更高的压缩率和更好的网络适应性, 迅速得到了应用。然而,h 2 6 4 在拥有更好压缩性能的同时,也相应的提高了 运算复杂度。h 2 6 4 为了达到更高的压缩比,帧内亮度块编码采用了两种预测 编码模式:i n t r a1 6 x 1 6 和i n t r a 4 x 4 ,其中i n t r a1 6 x 1 6 有4 种预测方式,i n t r a 4 x 4 有9 种预测方式;帧间预测中采用了可变块大小的预测模式,共有7 种不同 的块大小【3 1 。而为了得到更好的重建质量,h 2 6 4 使用率失真优化模型遍历所 有模式来找到最佳编码方式,使运算量进一步提高。本论文中主要针对h 2 6 4 标准中的帧内模式选择和运动估计部分做了分析研究。 本文内容安排如下: 第一章绪论部分介绍了课题研究背景、研究目的,国内外发展现状,论 文的研究内容以及论文结构。 第二章介绍了各种视频编码标准,并对h 2 6 4 标准进行了重点介绍,包 括编码框架以及采用的各种先进技术。 西南交通大学硕士研究生学位论文第8 页 第三章首先阐述了运动估计的原理,并分析了运动估计算法设计时需要 遵循的几个要点;在总结概括了几种经典算法之后,基于中止阈值以及搜索 模板的自适应选择提出了一种快速算法。 第四章详细分析了h 2 6 4 的帧内选择过程;在对图像的纹理特性进行了 分析之后,根据图像纹理特征和频域能量的对应关系提出了一种帧内模式选 择算法。 第五章对全文进行总结,分析取得的成绩和不足之处,并对以后的研究 做出展望。 西南交通大学硕士研究生学位论文第9 页 第2 章最新视频编码标准h 2 6 4 2 1 视频编码标准 目前视频压缩编码领域中,最为重要的编码标准有国际电联( i t u t e l e c o m m u n i c a t i o ns t a n d a r d i z a t i o ns e c t o r ,i t u t ) 的h 2 6 x 系列和国际标准 化组织运动图像专家组( i s om o v i n gp i c t u r e se x p e l sg r o u p ,i s o m p e g ) 的 m p e g 系列。h 2 6 x 和m p e g 系列标准的发展历史如图2 1 所示 2 4 1 。 1 9 8 41 9 8 61 9 8 81 9 9 01 9 9 21 9 9 41 9 9 61 9 9 82 0 0 02 0 0 22 0 0 4 图2 - 1i t u t 和i s o m p e g 标准发展史 h 2 6 1 2 5 j 是第一个获得广泛应用的视频编码标准,码率为p x 6 4 k b i t s 。h 2 6 1 主要是应用于i s d n 的会议电视和可视电话,采用的算法结合了可减少时间 冗余的帧间预测和可减少空间冗余的二维d c t ( d i s c r e t ec o s i n et r a n s f o r m ) 变换的混合编码方法,被之后i t u t 及i s o 一系列编码算法所继承和发展, 被视为视频编码领域的一个里程碑。 m p e g 1 标准 2 6 】的码率为1 5m b i t s 左右,可用于视频传输和视频存储。 在m p e g 1 标准中,图像预测类型可以分为四种方式:帧内预测、前向帧间预 测、双向帧间预测和直接预测。m p e g 1 是v c d 工业标准的核心,它的音频 格式标准成为后来m p 3 普及的基础。 m p e g 2 标准1 2 7 在提高图像分辨率、兼容数字电视等方面做了一些改进, 例如它的运动矢量的精度为半像素;在编码运算中( 如运动估计和d c t ) 区 分“帧”和“场 ;引入了编码的可分级性技术,如空间域可分级、时间域可 分级和信噪比可分级等;可用于数字视频广播、d v d 视频压缩以及高清晰度 电视。 h 2 6 3 t 2 s 1 最初建议的是低码率视频压缩标准,支持码率低于6 4k b p s 的应 用。但实质上h 2 6 3 以及后来的h 2 6 3 + 1 2 9 1 和h 2 6 3 + + f 3 0 】已发展成支持全码率 西南交通大学硕士研究生学位论文第10 页 应用的建议,可支持众多的图像格式,如s q c i f ( s u b q u a r t e rc o m m o n i n t e r m e d i a r yf o r m a t ) 、q c i f 、c i f 、4 c i f 甚至1 6 c i f 等。增加了若干技术如 半像素预测、基于句法的算术编码、p b 帧模式等。 m p e g - 4 t s u 标准既能够支持低码率的视频应用,也能够支持广播级的视频 应用,而且更加注重多媒体系统的交互性及灵活性。m p e g - 4 技术包含两个 部分:音视频对象编码工具集和编码对象的句法语言。与其它压缩标准相比, 为了支持高效压缩和基于内容交互的要求,m p e g - 4 标准中引入了视听对象 ( a u d i o v i s u a lo b j e c t ,a v o ) 的概念。视听对象编码的引入大大提高了视频 通信的交互能力和编码效率。 h 2 6 4 m l 同样采用预测编码加变换编码的混合编码模式。它采用“回归基 本 的简洁设计,不用众多的选项,获得了比h 2 6 3 + + 更好的压缩性能;应 用目标范围更广,以满足不同速率、不同分辨率以及不同传输( 存储) 场合 的需求;它仍采用可分级技术,基本系统是开放的,使用无需版权。h 2 6 4 继承了h 2 6 3 等编码标准的各种优点同时摒弃了许多不实用的东西,从而成 为一个实用最优的标准,下一节将对h 2 6 4 的技术细节进行介绍。 a v s t s s l 是我国于2 0 0 3 年推出的具备自主知识产权的第二代信源编码标准, 包括系统、视频、音频、数字版权管理等四个主要技术标准和一致性测试等 支撑标准。a v s 核心技术包括:8 x 8 整数变换、量化、帧内预测、1 4 精度像 素插值、特殊的帧间预测运动补偿、二维熵编码、去块效应环内滤波等,是 h 2 6 4 的精简优化版,在编码压缩效率相当的前提下,大大降低了实现复杂度。 2 2h 2 6 4 编码标准 1 9 9 7 年,i t u t 提出h 2 6 l 标准草案,开始研究低比特率编码,2 0 0 1 年 1 2 月联合视频工作组( j o i n tv i d e ot e a m ,t ) 在泰国p a t t a y a 成立,h 2 6 l 开始由i t u t 和i s o 来共同研究。t 的工作目标是制定一个新的视频编码 标准,以实现视频的高压缩比、高图像质量、良好的网络适应性等目标。经 过几年的研究,2 0 0 3 年3 月t 正式发布了该标准。在i s o i e c 中,该标准 被命名为m p e g - 4a v c ,作为m p e g - 4 的第十部分,在i t u t 中被命名为 h 2 6 4 。 h 2 6 4 是国际标准化组织( i s o ) 和国际电信联盟( i t u t ) 共同提出的 继m p e g - 4 之后的新一代数字视频压缩标准,它即保留了以往压缩技术的优 点和精华又具有其他压缩技术无法比拟的许多新特性:更低的码流,更高的 图像质量,更强的容错能力,简洁的设计方式和更好的网络适应性1 3 4 1 。 h 2 6 4 规定了四个档次【3 】,每个档次都支持一组特定的编码功能,同时适 西南交通大学硕士研究生学位论文第”页 用于某一类应用: 基本档次:支持i 帧( 帧内编码) 和p 帧( 帧间编码) ,灵活的宏块顺 序( f l e x i b l em a c r o b l o c ko r d e r i n g ,f m o ) ,任意片顺序( a r b i t r a r ys l i c e o r d e r i n g ,a s o ) 、冗余分片和基于上下文的自适应变长编码( c o n t e x t b a s e d a d a p t i v ev a r i a b l e l e n g t hc o d i n g ,c a v l c ) 。主要用于可视电话、会议电话、 无线通信等实时视频通信。 主要档次:支持隔行视频,i 、p 、b 帧预测,加权预测,基于上下文 的算术编码( c o n t e x t b a s e da d a p t i v eb i n a r ya r i t h m e t i cc o d i n g ,c a b a c ) 和c a v l c 。主要用于数字广播电视与数字视频存储。 扩展档次:支持i 、p 、b 帧,加权预测,f m o ,a s o ,冗余分片,s p 帧和s i 帧( 支持码流之间的有效切换) ,数据分割( 改善误码性能) 。主要应 用于流媒体中。 高级档次:包括主要档次的所有内容,另外加入无损,a b t ( a d a p t i v eb l o c kt r a n s f o r m ) ,8 1 0 b i t s 样值深度以及从4 :2 :0 到4 :4 :4 的采样格式。 用于数字视频广播以及面向高清的应用。 2 2 1h 2 6 4 编码框架 h 2 6 4 标准由视频编码层( v i d e oc o d i n gl a y e r ,v c l ) 和网络提取层 ( n e t w o r k a b s t r a c t i o nl a y e r ,n a l ) 两部分组成【2 4 】。如图2 - 2 所示【3 5 j 。 图2 - 2h 2 6 4 编解码器系统 v c l 中包括v c l 编码器与v c l 解码器,主要功能是视频数据压缩编码 和解码,负责视频内容的压缩表示。n a l 则用于为v c l 提供一个与网络无 西南交通大学硕士研究生学位论文 第12 页 关的统一接口,负责以网络所要求的方式对数据进行封装,它采用统一的数 据格式,包括单个字节的包头信息、多个字节的视频数据与组帧、逻辑信道 信令、定时信息、序列结束信号等。h 2 6 4 高效的压缩编码性能是在v c l 层 实现的,所以本文只针对v c l 层进行分析研究。h 2 6 4 采用的仍为混合编码 模型,包括预测编码、变换编码、量化、熵编码等压缩单元,如图2 3 所示1 3 1 1 3 0 1 1 3 j 。 臣皤匝 帧问 吻 - 帧内 矾黔田咽硅 汴醚“叵叵峨叵回喇 图2 3h 2 6 4 编码器 2 2 2h 2 6 4 的主要技术介绍 h 2 6 4 中采用了很多改善编码性能的技术1 3 1 1 3 8 1 ,包括:多种帧内预测模式、 可变尺寸块的运动估计与补偿、多参考帧预测、4 x 4 整数变换和量化、基于 上下文的熵编码、环路滤波技术等,下面我们就介绍一下这些技术。 1 帧内预测 在以往的编码算法中l 帧足直接进行后续的变换及量化编码的,虽然降 低了信息相关度,消除了频域冗余,但编码的数据量仍很大。因为通常相邻 的宏块问含有相似的特征,所以在对一给定宏块编码时,就可以根据周罔的 宏块做预测,然后对预测值与实际值的差值进行编码,相对于直接对该帧进 行编码而言,这样可以大幅减小码率、去除图像的空间冗余。 h 2 6 4 对4 x 4 和1 6 x 1 6 的亮度宏块分别提供了9 种和4 种预测模式。4 x 4 亮度预测模式中包括1 种直流模式( d c ) 和8 种方向预测模式,片j 于图像细 节较多区域的帧内预测;1 6 x 1 6 亮度预测模式中包括垂直、水平、直流和平 面4 种预测模式,用于图像中较平地区域的帧内预测。色度块采用8 x 8 的块 习 节一编一 匝 一事圈 一 渺 甲 卜 甲翠 西南交通大学硕士研究生学位论文第13 页 大小来进行预测,共有4 种预测模式,类似于帧内1 6 x 1 6 宏块的预测模式, 只是编号不同。 2 帧间预测 由于连续的视频序列之间存在很强的时间相关性,所以帧间预测编码可 以采用运动估计补偿的方法去除时间冗余。h 2 6 4 的运动估计在保留以往视频 编码标准中的大部分关键特性的同时灵活地添加了更多的功能。h 2 6 4 在i 帧、p 帧、b 帧外,新增了两种帧类型:s i 帧和s p 帧。码流中包含s p 帧后, 能在有相同内容但有不同编码参数的码流之间快速切换,同时支持随机接入 和快速回放模式,编码效率远高于i 帧。h 2 6 4 的运动估计有以下5 个特点: 1 ) 不同大小宏块分割 为了获得更好的图像质量,对每一个1 6 x1 6 像素宏块的运动估计采用4 种不同的大小和形状:1 个1 6 x 1 6 ,或2 个1 6 x 8 ,或2 个8 1 6 ,或4 个8 8 的块。8 x 8 亚宏块可以继续划分为1 个8 x 8 ,或2 个4 x 8 ,或2 个8 x 4 ,或4 个4 x 4 的块。这种块大小分割的运动补偿称为树状结构运动补偿,如图2 - 4 所示。大块模式适合于平坦区域,小块模式适合于有较多细节的区域。分块 的划分提高了编码性能,减少了方块效应,提高了图像的质量。 宙自由宙 臼亩宙宙 图2 _ 4 宏块及子宏块划分 2 ) 高精度的运动补偿 在h 2 6 1 中采用的是整像素精度的运动估计,在m p e g 2 、m p e g - 4 、 h 2 6 3 中采用的是1 2 像素精度的运动估计,而在h 2 6 4 中可以采用1 4 或者 1 8 像素精度的运动估计1 3 9 。h 2 6 4 的1 4 或者1 8 像素精度需要通过插值得到, 在要求相同精度的情况下运
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 典当行股权债权转换与转让专项合同
- 水电站建设监理合同规范文本
- 智能制造企业股权合作分红及智能制造解决方案合同
- 污水处理厂污水泵站建设及设备租赁合同
- 智能交通枢纽土地使用权转让与交通管理合作代理合同
- 人类专业测试题及答案
- 电竞专业测试题及答案
- 学校机构工作总结
- 新媒体试用期转正工作总结
- 心病科副护士长工作汇报
- 2021年康平县工会系统招聘笔试试题及答案解析
- 一生一特长·一师一专长实施方案
- 游标卡尺的使用flash动画演示教学课件
- 汽车发动机电控系统实训工作页
- 矿山救援队伍训练大纲及考核要求
- 石油钻井用钻具培训讲义课件
- 管理层财务基础知识培训
- 整理词根词缀法初中英语学习
- 立式储罐重量表
- (高清版)建筑楼盖结构振动舒适度技术标准JGJ_T 441-2019
- 电气系统调试方案
评论
0/150
提交评论