（通信与信息系统专业论文）h264运动估计和帧内模式选择快速算法研究.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-10 格式：PDF 页数：65 大小：3.30MB 积分：0 举报 版权申诉

（通信与信息系统专业论文）h264运动估计和帧内模式选择快速算法研究.pdf_第2页

（通信与信息系统专业论文）h264运动估计和帧内模式选择快速算法研究.pdf_第3页

（通信与信息系统专业论文）h264运动估计和帧内模式选择快速算法研究.pdf_第4页

（通信与信息系统专业论文）h264运动估计和帧内模式选择快速算法研究.pdf_第5页

已阅读5页，还剩60页未读，继续免费阅读

（通信与信息系统专业论文）h264运动估计和帧内模式选择快速算法研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

西南交通大学硕士研究生学位论文第1 页摘要 h 2 6 4 作为新一代的视频编码标准，具有众多技术上的创新。h 2 6 4 凭借较高的压缩率、较好的图像压缩质量以及网络亲和性，无论是用于存储还是用于网络传输都能够胜任。但各种编码新技术的引入也使得算法的复杂度急剧增加，所以如何降低复杂度使其能够满足实时通信的要求成了迫切需要解决的问题。 h 2 6 4 仍然采用基于块匹配的运动估计算法来去除时间冗余。本文在分析研究了几种传统的快速搜索算法基础上提出了一种阈值自适应搜索算法。本算法利用运动矢量间的空时相关性进行起始点的选择、自适应阈值的确定，对静止块直接中止搜索，并根据图像运动特征自适应地选择搜索模板。本文算法在j m 8 6 测试模型里实现，并与测试模型中的快速算法进行了比较。实验结果表明，上述技术的采用使本文算法在保证搜索准确性的同时，在一定程度上提高了运动估计的速度。帧内预测是h 2 6 4 采用的一项关键技术，对编码帧内各宏块采用多种模式进行预测，从中选出率失真性能最好的作为当前块的最佳预测模式。帧内预测技术在提高了性能的同时，也大幅增加了运算量。本文在介绍了h 2 6 4 的帧内预测模式选择算法后，分析了几种帧内快速模式选择算法，之后利用图像的纹理特征对j m 原始算法进行了改进。本算法针对不同的纹理特征预先缩小帧内预测模式的选择范围。实验证明，该算法在保证图像质量的前提下一定程度地提高了编码速度。关键词t 视频编码；h 2 6 4 ；运动估计；帧内预测；模式选择 a bs t r a c t a san e wg e n e r a t i o no fv i d e oc o d i n gs t a n d a r d ，t h e r ea r em a n yt e c h n i c a l i n n o v a t i o n si nh 2 6 4 w h e t h e ri ti su s e df o rs t o r a g e o rn e t w o r kt r a n s n n s s l o n , h 2 6 4i sc o m p e t e n tw i t hah i g h e rc o m p r e s s i o nr a t i o ，b e r e rq u a l i t yo fc o m p r e s s m n i m a g ea n dn e t w o r kc o m p a t i b i l i t y h o w e v e lt h ea l g o r i t h mc o m p l e x i t yo fh 2 6 4 d r a m a t i c a l l yi n c r e a s e sd u et ot h ea d o p t i o no f an u m b e ro fv i d e oc o d i n gt o o l s s o h o wt or e d u c et h ec o m p l e x i t ys ot h a ti tc a nm e e tt h er e q u i r e m e n t so fr e a l 。t i m e c o m m u n i c a t i o nh a sb e c o m ea nu r g e n tp r o b l e mt h a tn e e d st ob er e s o l v e d h 2 6 4i ss t i l la na l g o r i t h mb a s e do nb l o c k - m a t c h i n gm o t i o ne s t i m a t i o nt o r e m o v et e m p o r a lr e d u n d a n c y af a s t s e a r c hm e t h o d - a d a p t i v et h r e s h o l ds e a r c h a l g o r i t h mi sp r o p o s e di nt h i sp a p e rb a s e do n t h ea n a l y s i sa n dr e s e a r c ho fs e v e r a l t r a d i t i o n a lf a s ts e a r c ha l g o r i t h m s i t t a k e s a d v a n t a g e o f s p a t i a l - t e m p o r a l c o r r e l a t i o no ft h em o t i o nv e c t o rf i e l d t op r e d i c tt h e i n i t i a lp o i n ta n do b t a i nt h e a d a p t i v et h r e s h o l d , a n dt e r m i n a t e sc u r r e n ts e a r c hi m m e d i a t e l yo n c ed e t e c t s t h e s t a t i o n a r yb l o c k a n da c c o r d i n gt o t h ec h a r a c t e r i s t i c so ft h em o t i o no ft m a g e ， d i f f e r e n tt e m p l a t e sa r ea d a p t i v e l yu t i l i z e d 1 1 1 ea l g o r i t h mi si m p l e m e n t e dm t h e t e s tm o d e l 删8 6a n dc o m p a r e dw i t ht h ef a s ta l g o r i t h mo ft e s t m o d e l t h e e x p e r i m e n t a lr e s u l t ss h o wt h a tt h ea l g o r i t h mi n t h i sp a p e ri m p r o v e st h em o t i o n e s t i m a t i o n ss p e e dt oac e r t a i ne x t e n tw h i l ee n s u r e st h es e a r c ha c c u r a c y i n t r ap r e d i c t i o ni sak e yt e c h n i q u ei nh 2 6 4 i tp r e d i c t st h eb l o c kw i t hav a r i e t y o fm o d e l s a n ds e l e c t st h em o d e lw i t hb e s tr a t e d i s t o r t i o np e r f o r m a n c ea st h et h e b e s tp r e d i c t i v em o d e lo fc u r r e n tb l o c k i ta l s oi n c r e a s e st h ec o m p u t a a o nb u r d e n w h e ni m p r o v e st h ep e r f o r m a n c e a f t e ri n t r o d u c i n gt h em o d es e l e c t i o na l g o r i t h m o fi n t r ap r e d i c t i o no fh 2 6 4a n da n a l y s i n gs e v e r a lf a s ta l g o r i t h m sf o ri n t r am o d e s e l e c t i o n ，a ni m p r o v e da l g o r i t h mi sp r o p o s e db yu s i n gt h ei m a g et e x t u r ef e a t u r e s i nt h i sp a p e r kn a r r o w st h es e l e c ts c o p eo fi n t r a - p r e d i c t i o na c c o r d i n gt od i f f e r e n t t e x t u r ef e a t u r e sa h e a do ft i m e t h ee x p e r i m e n t a lr e s u l t ss h o wt h a ti tm a p r o v e st h e e n c o d i n gs p e e dt oac e r t a i ne x t e n tw h i l ee n s u r e st h ei m a g eq u a l l t y k e y w o r d s ：v i d e oc o d i n g ；h 2 6 4 ；m o t i o ne s t i m a t i o n ；i n t r ap r e d i c t i o n ；m o d e d e c i s i o n 西南交通大学四南爻遗大罕学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权西南交通大学可以将本论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。本学位论文属于 1 保密口，在年解密后适用本授权书； 2 不保密区使用本授权书。 ( 请在以上方框内打“4 ) 学位论文作者签名：环祷日期, - 4 f 形指导老师签名：乞纭多莲，一一日期：伽7 六肜西南交通大学学位论文创新性声明本人郑重声明：所呈交的学位论文，是在导师指导下独立进行研究工作所得的成果。除文中已经注明引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体，均已在文中作了明确的说明。本人完全意识到本声明的法律结果由本人承担。本学位论文的主要创新点如下：利用视频序列间的时空相关性提出了一种中止阈值及搜索模板自适应选择的快速算法，在j m 8 6 中测试通过，在一定程度上节省了搜索时间。利用帧内图像的纹理特征对h 2 6 4 的帧内预测算法做了改进，一定程度地节省了帧内模式选择的时间。学位论文作者签名：砑、旖日期：堋6 。，占、西南交通大学硕士研究生学位论文第1 页 1 1 引言第1 、章绪论人类每天都在通过各种感知器官来获取外界的信息，而与其它感官相比，人眼能接收到更多的信息 tj 2 1 0 l 。由视觉感知得到的视频图像信息具有直观、具体、生动、表达更清晰等优势，因而具有更为广泛的实用性和更高的使用效率。然而，由于将外界的视频图像信息数字化后的数据量极大，远远超过了当前硬件技术所能提供的存储和网络传输能力，这带来了实用上的难题。以手机屏幕的q v g a 格式1 6 位彩色视频图像为例，每帧的数据量为 3 2 0 x 2 4 0 x 1 6 = 1 1 7 m b ，当帧率为3 0 f p s 时，每秒的数据量高达 1 1 7 x 3 0 = 3 5 1 6 m b ，对于现在逐渐流行的h d t v 每秒的数据量更是高达 1 0 0 0 m b t 4 1 。因此，未经压缩的视频图像是不适合存储和传输的。所以如何对海量的多媒体数据进行高效的压缩编码，并以压缩的格式进行存储和网络传输成为了人们研究的问题。经研究发现，虽然视频信息具有巨大的数据量，但数据间存在高度的相关性，而数据相关性会引起信息冗余，利用信息的冗余可以对数据进行大幅的压缩。这些冗余包括空间冗余、时间冗余、信息熵冗余、知识冗余及视觉冗余等1 2 1 。在图像中，一个运动物体的各个像素点以及图像背景中的各个像素点的值具有连贯性，这样就存在空间冗余；由一幅幅连续图像构成的视频序列中，相邻视频帧的背景和运动物体在时间轴上存在着极强的相关性，这构成了时间上的冗余；信息熵冗余是指一幅图像被数字化后，每个像素都用相等的比特数来表示，由信息论的相关原理可知，这样也会存在冗余。除了上面提到的，视频序列中还存在以下几种冗余信息：结构冗余，有些图像中，图像的像素值存在着明显的分布模式，例如块状的天花板图案、瓷砖等；知识冗余，指图像中包含的信息与某些先验的知识有关，比如包含有人脸的视频图像中，头、眼、耳、鼻和嘴等之间的相互位置信息；心理视觉冗余，由于人眼对某些空间频率的感觉相对不太灵敏，利用人类视觉系统( h v s ) 的这个特点，一些在通常的视觉过程中人眼感知不是很敏感的信息可看作视觉西南交通大学硕士研究生学位论文第2 页冗余。由于视频图像存在各种冗余，可以通过去除这些冗余信息对视频进行压缩。经过众多专家学者二十多年的研究，视频图像压缩技术取得了巨大的发展，并被广泛应用于视频会议、各种数字化光盘存储、高清电视、手机电视、网络多媒体视频播放等领域。 1 2 研究目的及意义现代视频图像压缩编码技术主要通过预测、变换、量化以及熵编码来对数据进行压缩，利用预测技术中的运动估计补偿来消除时间冗余、利用d c t 变换、h a d a m a r d 变换等正交变换以及量化技术消除帧内空间冗余，利用熵编码来消除编码的统计冗余f 3 】。其中，运动估计在视频压缩编码系统中起着非常重要的作用，它将直接影响到视频数据压缩编码的效率和编码质量。在视频压缩编码系统中运动估计的计算复杂度最高，占整个系统计算量的5 0 以上，而且运动估计的准确性还将直接影响重建图像的质量。所以，如何在保证准确性的前提下降低运动估计的计算复杂度有着非常重要的实际意义。另一方面，视频每一帧内都存在较大的空间冗余，最新视频编码标准h 2 6 4 在变换和量化技术之前使用了帧内预测技术使得视频压缩的质量更好，但在进一步去除冗余的同时也增加了编码的复杂度。因此本课题针对h 2 6 4 标准中的帧内预测及运动估计技术进行了深入的研究，以寻找到可以降低编码复杂度的运动估计算法和帧内预测模式选择算法。 1 3 国内外发展现状及研究成果 1 3 1 运动估计算法发展现状及研究成果由于在视频压缩编码算法中运动估计起着很大的作用，运动估计的好坏不但影响编码的速度而且影响编码的图像质量，所以运动估计快速算法一直是视频编码领域的研究热点，从开始研究到现在也取得了丰硕的成果。针对早期算法中搜索容易陷入局部最小而无法得到最优解的缺点，m f s o 等人在文献 5 中利用遗传算法的全局最优搜索和四步法的中心偏置特性设计了一种基于遗传算法的快速搜索算法。初始种群大小根据搜索的范围来确定，如果搜索偏移为，个像素，那么种群大小m 选择为不小于l o g ，引的最大整数；在搜索范围内随机取得染色体( 搜索点) ；适应度函数选择m a e ( m e a n 西南交通大学硕士研究生学位论文第3 页 a b s o l u t ee r r o r ) ；迭代次数( 即遗传算法中终止进化代数) 选择4 ；使用轮盘赌方法选择染色体进行杂交；经过变异操作后选择前面最好的m 个染色体做下一次迭代。该算法利用遗传算法的全局搜索特性和四步搜索的中心偏置特性对于小运动取得了较全搜索法快的多的搜索速度。但该算法起始点选择没有考虑像素间的相关性，没有进行保优操作，容易使得优秀个体在搜索中丢失。之后龚涛等人在文献 6 中对遗传算法中的染色体编码、初始种群选择和遗传算子等做了改进。采用二进制格雷码对染色体进行编码，染色体选择考虑了空间相关性，选择以预测矢量为中心的9 个点为初始种群，选择最优的4 个染色体直接进入下一次迭代，舍去杂交操作只对染色体进行变异操作。在考虑了空间相关性和保优操作之后取得了更好的搜索效果。虽然遗传算法有较好的全局寻优能力，但需要较多的搜索点，且好的变异和杂交算子不好选择。刘海峰、郭宝龙等人在文献 7 】中提出了一种正方形一菱形搜索算法 ( s q u a r ed i a m o n ds e a r c h ，s d s ) 。在深入分析了菱形算法之后，设计了正方形一菱形的混合模板。算法首先检查混合模板的九个点，判断当前块是静止块、小运动还是大运动块，从而中止搜索或采用小菱形模板及混合模板做下一次搜索。与菱形算法相比，在性能接近全搜索法的同时搜索速度更快。相关的混合模板搜索算法还有十字一菱形搜索算、法【吼、十字一菱形一六边形搜索法【9 】，创新风筝一十字型一菱形搜索算法1 1 0 等。与仅使用一种模板相比，多种模板的混合使用能够更加高效的找到最优点，但在大运动的情况下仍可能无法保证搜索的准确性。 e i h o s u r 和k k m a 在文献 1 1 中提出了一种运动矢量场自适应搜索算法 ( m o t i o nv e c t o rf i e l da d a p t i v es e a r c ht e c h n i q u e s ，m 1 a s t ) 。该算法选择三个空间相邻块( 左、上、右上) 的运动矢量和( 0 ，0 ) 运动矢量作为候选预测矢量来预测起始点。首先在( o ，0 ) 矢量处计算匹配误差值，如果小于设定的固定阈值，则提前中止，否则计算得到当前块的左、上、右上方三个块的运动矢量的最大幅值，如果最大幅值小于，那么以( o ，o ) 点为中心使用小菱形模板进行搜索，如果幅值介于三，和厶之间以( 0 ，0 ) 为中心使用大菱形模板进行搜索，如果幅值大于幻，那么检查所有预测矢量，以当前最优运动矢量为中心进行小菱形搜索。 y a on i e 等人在文献 1 2 冲提出了一种自适应十字形搜索算法( a d a p t i v e r o o dp a t t e r ns e a r c h ，a r p s ) 。该算法首先检查当前块在参考帧中相同位置的块是否为匹配块，如果满足阈值丁则提前中止，否则选择左边空间相邻块的运西南交通大学硕士研究生学位论文第4 页动矢量为候选预测矢量；如果当前块为左边缘块则取自适应十字形的臂长为 2 ，否则取预测矢量的x 和y 方向分量的最大值作为臂长；以( 0 ，o ) 点为中心，搜索十字形5 个点处的失真值；以找到的最小误差点为中心重复进行小十字形搜索直到找到最佳匹配点。上述两种算法均对起始点进行了预测，在找到的候选运动矢量处进行搜索，并根据设定的阈值提前中止，模板的使用也不再固定，这些技术的采用使得算法性能得到了很大提高，对大运动的视频序列仍能够基本保证搜索质量。但上面的算法没有考虑帧间时间相邻块的使用，将影响起始点选择的准确性，另外为了降低计算复杂度阈值的取值是固定的，无法反映视频序列的变化，所以仍有需要改进的地方。陈志波等人提出的混合非对称十字型多层六边形格点搜索算法( h y b r i d u n s y m m e t r i c a l - c r o s sm u l t i h e x a g o n g r i ds e a r c h ，u m h e x a g o n s ) 1 3 1 ，利用空间相邻块、上层块、时间相邻块的运动矢量等多个预测矢量集进行起始点预测，并结合量化参数设定阈值来选择不同的搜索模板；采用自适应十字形和六边形搜索大运动矢量，螺旋形小模板搜索小运动矢量；相比全搜索法能够在保证较高的率失真性能下节约9 0 的时间。由于它的优异性能，之后人们又提出了很多u m h e x a g o n s 的改进算法1 1 4 1 1 1 5 1 6 。 a m t o u r a p i s 等人在文献 1 7 中又对m v f a s t 和a d z s ( a d v a n c e d d i a m o n dz o n a ls e a r c h ) 进行了改进，提出了预测矢量场自适应搜索算法 ( p r e d i c t i v em vf i e l da d a p t i v es e a r c ht e c h n i q u e s ，p m v f a s t ) 与高级预测菱形区域搜索算法( a d v a n c e dp r e d i c t i v ed i a m o n dz o n a ls e a r c h ，a p d z s ) 。 p m v f a s t 在m v f a s t 基础上增加了中值矢量和前一帧相关块预测矢量，并在阈值选择上进行了研究，利用当前块四周的编码块及参考帧中相关块的最佳匹配误差值来计算阈值，根据不同的阈值跳转到不同的搜索步骤执行； a p d z s 改进策略同p m v f a s t 一样，它采用了多级钻石搜索模板，改进后的算法性能有了更大提高。 a m t o u r a p i s 在文献 1 8 中针对有些图像中运动比较剧烈情况增加了一种考虑视频序列在时域中运动趋势的矢量一加速预测运动矢量，捕捉运动矢量在多个参考帧中的运动趋势；增加了上层块预测矢量，使得起始点的预测更加准确；同p m v f a s t 一样使用自适应中途停止策略和不同的模板搜索。在文献 1 3 到 1 8 中，增加了预测矢量候选集的数量，使得对起始点的预测更加准确，更接近最优匹配点；另外，不再采用固定的阈值，而是根据视频序列的局部特性自适应的选择阈值，从而避免因阈值选择过高或过低导致图像质量下降或搜索时间的增加。但也存在一些问题，如在u m h e x a g o n s 中西南交通大学硕士研究生学位论文第5 页过多的搜索点数虽然有助于更加准确的定位最佳匹配点但搜索时间增加也较多。沈渝力、王维东等人在文献 1 9 1 提出了基于矢量相关性的自适应运动估计搜索算法。该算法通过判决公式( j c l 一z ：) 2 + ( y ，一y ：) 2 c 丁来衡量两个矢量的相关性，其中五和而为两个矢量的横坐标值，y 和y ：为两个矢量的纵坐标值，如果在给定一个c t 值后，两个矢量满足上述公式的要求，那么这两个矢量为相关矢量。根据当前块的左、上及右上方块运动矢量是否两两相关在3 个相邻运动矢量为中心的小范围进行搜索或采用六边形搜索法进行搜索。由于算法设计中利用了空间相关性，所以取得了比菱形法和六边形法更快的搜索速度，但在大运动或复杂运动中将出现判决误差，从而导致图像质量变差。最新的各种运动估计算法都对起始点预测、阈值选择以及模板选择进行了研究，通过组合优化各种信息能够在保证编码质量的前提下进一步缩短运动估计时间。 1 3 2 帧内模式预测发展现状及研究成果由于h 2 6 4 模式搜索的运算量大、编码时间过多，因此在后来的研究中人们提出了许多快速算法来减少模式搜索的复杂度。 f e n gp a n 等人在文献 2 0 1 中提出了一种基于局部边缘方向信息的快速帧内模式选择算法。它利用s o b e l 边缘算子来检测当前编码块中各像素所包含的边缘信息( 方向和幅值) ，通过当前待编码块的方向信息来挑选出几个最可能的帧内预测模式进行率失真优化计算。对于4 x 4 亮度块仅计算d c 模式、最可能模式及最可能模式的两个相邻模式，对于1 6 x 1 6 亮度块仅计算d c 模式及最可能模式，对于两个8 8 的色度块根据最可能模式是否相同分别计算 2 种或3 种模式。该算法在保证图像质量基本不变和码率增加不多的情况下编码时间可以降低3 0 左右，但该算法在边缘方向不是很明确时仅依靠d c 模式和最可能模式可能无法得到最优解，这时就需要再增加一些候选模式来保证预测的准确性。黄晁等人在文献 2 1 】中提出了一种利用宏块的空间相关性及局部失真累加方法的模式选择算法。文献中利用当前编码块的相邻块的最佳预测模式确定当前块模式搜索的顺序，保存优先预测模式的失真值并作为计算之后预测模式的阈值，若下一个模式的失真值累加超过了这个阈值就停止计算，继续计算另外的模式，这样设计后起到了提高帧内预测编码速度的目的。这个算法主要从程序设计上对算法进行了优化，可以将其运用于其他算法中进一步西南交通大学硕士研究生学位论文第6 页提高编码速度。 c h a n g s u n gk i m 等人在文献 2 2 中提出了一种多阶段快速帧内模式选择算法。该算法根据能量守恒定理即时域和频域的能量是相同的，先把各种帧内预测模式下的s a t d 值计算出来并对其按照大小排序，选择s a t d 值最小的作为候选预测模式，如果满足阈值条件则认为当前模式为最佳模式；否则计算s a d 值，按照同样的方法进行判断；如果都不满足，则接着对待编码块的累积梯度和进行计算，然后利用r d o 进行最后的计算。该算法对小运动序列较适合，对大运动序列码率增加较多，图像质量也会更差一些。 y ut i n gs u n 等人在文献 2 3 中提出了一种通过改进率失真函数来加快帧内模式搜索的算法。在率失真优化算法中，比特率的计算需要经过变换、量化、熵编码得到，运算量较大。该算法中利用标准变换系数差推导出一个比特率预测公式r ，。= 4 p + f l l o g ，仃( 尺，。为编码比特率，根据当前模式是否为最可能模式p 取0 或1 ，按经验取值0 5 一- , 2 0 ，仃为标准差) ，在得到s a t d 值后，计算标准系数差，然后将r d o 中的比特率求解部分用该公式替换，再求解率失真值，在图像有很小失真和一定比特率增加的情况下使得运算复杂度有了较大的降低。现有各种帧内模式快速预测算法在图像特性、程序优化以及率失真模型等方面作了研究，提出了很多降低预测复杂度的算法，但针对图像特性仍可以做更多的研究，从而进一步降低预测的复杂度。 1 4 视频质量的评价在利用各种冗余对视频进行压缩后，可能会使压缩后的图像相对原图像有一定程度上的质量损失或失真，这样就需要一些评价的方法来得到失真的程度。一般我们可从主观和客观两方面来评价【3 】。 1 4 1 客观评价客观评价是用重建图像与原始图像的误差来衡量图像的重建质量，常用的有均方误差( m e a ns q u a r ee 仃o r ，m s e ) 和峰值信噪比( p e a ks i g n a lt on o i s e r a t i o ，p s n r ) 两种方法。均方误差定义为： m s e ：j 一羔1 艺1 陟( f ，_ ，) 一( f ，州2 (1-1)mn ：三一yyl 厂( f ，) 一厂( f ，) i ( 篇乞。“ 其中：m 、表示图像的宽和高，( 以) 表示原始图像的像素值，f ( f ，) 表示西南交通大学硕士研究生学位论文第7 页重建图像的像素值。峰值信噪比的定义为：嗍= l o l 。9 1 。面2 5 5 2 ( 1 - 2 ) 二者是一一对应的关系，实际应用中，一般使用p s n r 来衡量图像的重建质量。 1 4 2 主观评价主观评价方法是由评价者直接对一段视频进行观察，从感觉上去度量其失真度，给出质量评价级别，对所有评价者给出的分数进行加权平均，得到的结果即为主观评价结果。一般选若干名专家和“非专家作为评委分几项对同一视频图像进行图像评定。这种评价结果必然符合人的视觉感受，但人的主观感受不能用数学模型对其进行描述，无法直接用于视频压缩编码过程中的质量评价与控制；另外，主观评价容易受到个体因素的影响，如年龄、性格、教育程度、背景以及评价时的心情等，耗费人力、时间成本较大。本论文中采用p s n r 作为主要评价标准，在实验中给出原算法和改进算法在p s n r 上的对比。 1 5 本文研究内容 h 2 6 4 于2 0 0 3 年形成标准后，凭借更高的压缩率和更好的网络适应性，迅速得到了应用。然而，h 2 6 4 在拥有更好压缩性能的同时，也相应的提高了运算复杂度。h 2 6 4 为了达到更高的压缩比，帧内亮度块编码采用了两种预测编码模式：i n t r a1 6 x 1 6 和i n t r a 4 x 4 ，其中i n t r a1 6 x 1 6 有4 种预测方式，i n t r a 4 x 4 有9 种预测方式；帧间预测中采用了可变块大小的预测模式，共有7 种不同的块大小【3 1 。而为了得到更好的重建质量，h 2 6 4 使用率失真优化模型遍历所有模式来找到最佳编码方式，使运算量进一步提高。本论文中主要针对h 2 6 4 标准中的帧内模式选择和运动估计部分做了分析研究。本文内容安排如下：第一章绪论部分介绍了课题研究背景、研究目的，国内外发展现状，论文的研究内容以及论文结构。第二章介绍了各种视频编码标准，并对h 2 6 4 标准进行了重点介绍，包括编码框架以及采用的各种先进技术。西南交通大学硕士研究生学位论文第8 页第三章首先阐述了运动估计的原理，并分析了运动估计算法设计时需要遵循的几个要点；在总结概括了几种经典算法之后，基于中止阈值以及搜索模板的自适应选择提出了一种快速算法。第四章详细分析了h 2 6 4 的帧内选择过程；在对图像的纹理特性进行了分析之后，根据图像纹理特征和频域能量的对应关系提出了一种帧内模式选择算法。第五章对全文进行总结，分析取得的成绩和不足之处，并对以后的研究做出展望。西南交通大学硕士研究生学位论文第9 页第2 章最新视频编码标准h 2 6 4 2 1 视频编码标准目前视频压缩编码领域中，最为重要的编码标准有国际电联( i t u t e l e c o m m u n i c a t i o ns t a n d a r d i z a t i o ns e c t o r ，i t u t ) 的h 2 6 x 系列和国际标准化组织运动图像专家组( i s om o v i n gp i c t u r e se x p e l sg r o u p ，i s o m p e g ) 的 m p e g 系列。h 2 6 x 和m p e g 系列标准的发展历史如图2 1 所示 2 4 1 。 1 9 8 41 9 8 61 9 8 81 9 9 01 9 9 21 9 9 41 9 9 61 9 9 82 0 0 02 0 0 22 0 0 4 图2 - 1i t u t 和i s o m p e g 标准发展史 h 2 6 1 2 5 j 是第一个获得广泛应用的视频编码标准，码率为p x 6 4 k b i t s 。h 2 6 1 主要是应用于i s d n 的会议电视和可视电话，采用的算法结合了可减少时间冗余的帧间预测和可减少空间冗余的二维d c t ( d i s c r e t ec o s i n et r a n s f o r m ) 变换的混合编码方法，被之后i t u t 及i s o 一系列编码算法所继承和发展，被视为视频编码领域的一个里程碑。 m p e g 1 标准 2 6 】的码率为1 5m b i t s 左右，可用于视频传输和视频存储。在m p e g 1 标准中，图像预测类型可以分为四种方式：帧内预测、前向帧间预测、双向帧间预测和直接预测。m p e g 1 是v c d 工业标准的核心，它的音频格式标准成为后来m p 3 普及的基础。 m p e g 2 标准1 2 7 在提高图像分辨率、兼容数字电视等方面做了一些改进，例如它的运动矢量的精度为半像素；在编码运算中( 如运动估计和d c t ) 区分“帧”和“场；引入了编码的可分级性技术，如空间域可分级、时间域可分级和信噪比可分级等；可用于数字视频广播、d v d 视频压缩以及高清晰度电视。 h 2 6 3 t 2 s 1 最初建议的是低码率视频压缩标准，支持码率低于6 4k b p s 的应用。但实质上h 2 6 3 以及后来的h 2 6 3 + 1 2 9 1 和h 2 6 3 + + f 3 0 】已发展成支持全码率西南交通大学硕士研究生学位论文第10 页应用的建议，可支持众多的图像格式，如s q c i f ( s u b q u a r t e rc o m m o n i n t e r m e d i a r yf o r m a t ) 、q c i f 、c i f 、4 c i f 甚至1 6 c i f 等。增加了若干技术如半像素预测、基于句法的算术编码、p b 帧模式等。 m p e g - 4 t s u 标准既能够支持低码率的视频应用，也能够支持广播级的视频应用，而且更加注重多媒体系统的交互性及灵活性。m p e g - 4 技术包含两个部分：音视频对象编码工具集和编码对象的句法语言。与其它压缩标准相比，为了支持高效压缩和基于内容交互的要求，m p e g - 4 标准中引入了视听对象 ( a u d i o v i s u a lo b j e c t ，a v o ) 的概念。视听对象编码的引入大大提高了视频通信的交互能力和编码效率。 h 2 6 4 m l 同样采用预测编码加变换编码的混合编码模式。它采用“回归基本的简洁设计，不用众多的选项，获得了比h 2 6 3 + + 更好的压缩性能；应用目标范围更广，以满足不同速率、不同分辨率以及不同传输( 存储) 场合的需求；它仍采用可分级技术，基本系统是开放的，使用无需版权。h 2 6 4 继承了h 2 6 3 等编码标准的各种优点同时摒弃了许多不实用的东西，从而成为一个实用最优的标准，下一节将对h 2 6 4 的技术细节进行介绍。 a v s t s s l 是我国于2 0 0 3 年推出的具备自主知识产权的第二代信源编码标准，包括系统、视频、音频、数字版权管理等四个主要技术标准和一致性测试等支撑标准。a v s 核心技术包括：8 x 8 整数变换、量化、帧内预测、1 4 精度像素插值、特殊的帧间预测运动补偿、二维熵编码、去块效应环内滤波等，是 h 2 6 4 的精简优化版，在编码压缩效率相当的前提下，大大降低了实现复杂度。 2 2h 2 6 4 编码标准 1 9 9 7 年，i t u t 提出h 2 6 l 标准草案，开始研究低比特率编码，2 0 0 1 年 1 2 月联合视频工作组( j o i n tv i d e ot e a m ，t ) 在泰国p a t t a y a 成立，h 2 6 l 开始由i t u t 和i s o 来共同研究。t 的工作目标是制定一个新的视频编码标准，以实现视频的高压缩比、高图像质量、良好的网络适应性等目标。经过几年的研究，2 0 0 3 年3 月t 正式发布了该标准。在i s o i e c 中，该标准被命名为m p e g - 4a v c ，作为m p e g - 4 的第十部分，在i t u t 中被命名为 h 2 6 4 。 h 2 6 4 是国际标准化组织( i s o ) 和国际电信联盟( i t u t ) 共同提出的继m p e g - 4 之后的新一代数字视频压缩标准，它即保留了以往压缩技术的优点和精华又具有其他压缩技术无法比拟的许多新特性：更低的码流，更高的图像质量，更强的容错能力，简洁的设计方式和更好的网络适应性1 3 4 1 。 h 2 6 4 规定了四个档次【3 】，每个档次都支持一组特定的编码功能，同时适西南交通大学硕士研究生学位论文第”页用于某一类应用：基本档次：支持i 帧( 帧内编码) 和p 帧( 帧间编码) ，灵活的宏块顺序( f l e x i b l em a c r o b l o c ko r d e r i n g ，f m o ) ，任意片顺序( a r b i t r a r ys l i c e o r d e r i n g ，a s o ) 、冗余分片和基于上下文的自适应变长编码( c o n t e x t b a s e d a d a p t i v ev a r i a b l e l e n g t hc o d i n g ，c a v l c ) 。主要用于可视电话、会议电话、无线通信等实时视频通信。主要档次：支持隔行视频，i 、p 、b 帧预测，加权预测，基于上下文的算术编码( c o n t e x t b a s e da d a p t i v eb i n a r ya r i t h m e t i cc o d i n g ，c a b a c ) 和c a v l c 。主要用于数字广播电视与数字视频存储。扩展档次：支持i 、p 、b 帧，加权预测，f m o ，a s o ，冗余分片，s p 帧和s i 帧( 支持码流之间的有效切换) ，数据分割( 改善误码性能) 。主要应用于流媒体中。高级档次：包括主要档次的所有内容，另外加入无损，a b t ( a d a p t i v eb l o c kt r a n s f o r m ) ，8 1 0 b i t s 样值深度以及从4 ：2 ：0 到4 ：4 ：4 的采样格式。用于数字视频广播以及面向高清的应用。 2 2 1h 2 6 4 编码框架 h 2 6 4 标准由视频编码层( v i d e oc o d i n gl a y e r ，v c l ) 和网络提取层 ( n e t w o r k a b s t r a c t i o nl a y e r ，n a l ) 两部分组成【2 4 】。如图2 - 2 所示【3 5 j 。图2 - 2h 2 6 4 编解码器系统 v c l 中包括v c l 编码器与v c l 解码器，主要功能是视频数据压缩编码和解码，负责视频内容的压缩表示。n a l 则用于为v c l 提供一个与网络无西南交通大学硕士研究生学位论文第12 页关的统一接口，负责以网络所要求的方式对数据进行封装，它采用统一的数据格式，包括单个字节的包头信息、多个字节的视频数据与组帧、逻辑信道信令、定时信息、序列结束信号等。h 2 6 4 高效的压缩编码性能是在v c l 层实现的，所以本文只针对v c l 层进行分析研究。h 2 6 4 采用的仍为混合编码模型，包括预测编码、变换编码、量化、熵编码等压缩单元，如图2 3 所示1 3 1 1 3 0 1 1 3 j 。臣皤匝帧问吻 - 帧内矾黔田咽硅汴醚“叵叵峨叵回喇图2 3h 2 6 4 编码器 2 2 2h 2 6 4 的主要技术介绍 h 2 6 4 中采用了很多改善编码性能的技术1 3 1 1 3 8 1 ，包括：多种帧内预测模式、可变尺寸块的运动估计与补偿、多参考帧预测、4 x 4 整数变换和量化、基于上下文的熵编码、环路滤波技术等，下面我们就介绍一下这些技术。 1 帧内预测在以往的编码算法中l 帧足直接进行后续的变换及量化编码的，虽然降低了信息相关度，消除了频域冗余，但编码的数据量仍很大。因为通常相邻的宏块问含有相似的特征，所以在对一给定宏块编码时，就可以根据周罔的宏块做预测，然后对预测值与实际值的差值进行编码，相对于直接对该帧进行编码而言，这样可以大幅减小码率、去除图像的空间冗余。 h 2 6 4 对4 x 4 和1 6 x 1 6 的亮度宏块分别提供了9 种和4 种预测模式。4 x 4 亮度预测模式中包括1 种直流模式( d c ) 和8 种方向预测模式，片j 于图像细节较多区域的帧内预测；1 6 x 1 6 亮度预测模式中包括垂直、水平、直流和平面4 种预测模式，用于图像中较平地区域的帧内预测。色度块采用8 x 8 的块习节一编一匝一事圈一渺甲卜甲翠西南交通大学硕士研究生学位论文第13 页大小来进行预测，共有4 种预测模式，类似于帧内1 6 x 1 6 宏块的预测模式，只是编号不同。 2 帧间预测由于连续的视频序列之间存在很强的时间相关性，所以帧间预测编码可以采用运动估计补偿的方法去除时间冗余。h 2 6 4 的运动估计在保留以往视频编码标准中的大部分关键特性的同时灵活地添加了更多的功能。h 2 6 4 在i 帧、p 帧、b 帧外，新增了两种帧类型：s i 帧和s p 帧。码流中包含s p 帧后，能在有相同内容但有不同编码参数的码流之间快速切换，同时支持随机接入和快速回放模式，编码效率远高于i 帧。h 2 6 4 的运动估计有以下5 个特点： 1 ) 不同大小宏块分割为了获得更好的图像质量，对每一个1 6 x1 6 像素宏块的运动估计采用4 种不同的大小和形状：1 个1 6 x 1 6 ，或2 个1 6 x 8 ，或2 个8 1 6 ，或4 个8 8 的块。8 x 8 亚宏块可以继续划分为1 个8 x 8 ，或2 个4 x 8 ，或2 个8 x 4 ，或4 个4 x 4 的块。这种块大小分割的运动补偿称为树状结构运动补偿，如图2 - 4 所示。大块模式适合于平坦区域，小块模式适合于有较多细节的区域。分块的划分提高了编码性能，减少了方块效应，提高了图像的质量。宙自由宙臼亩宙宙图2 _ 4 宏块及子宏块划分 2 ) 高精度的运动补偿在h 2 6 1 中采用的是整像素精度的运动估计，在m p e g 2 、m p e g - 4 、 h 2 6 3 中采用的是1 2 像素精度的运动估计，而在h 2 6 4 中可以采用1 4 或者 1 8 像素精度的运动估计1 3 9 。h 2 6 4 的1 4 或者1 8 像素精度需要通过插值得到，在要求相同精度的情况下运

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（通信与信息系统专业论文）h264运动估计和帧内模式选择快速算法研究.pdf

文档简介

温馨提示

最新文档

评论

（通信与信息系统专业论文）h264运动估计和帧内模式选择快速算法研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档