(通信与信息系统专业论文)h264快速模式选择算法研究.pdf_第1页
(通信与信息系统专业论文)h264快速模式选择算法研究.pdf_第2页
(通信与信息系统专业论文)h264快速模式选择算法研究.pdf_第3页
(通信与信息系统专业论文)h264快速模式选择算法研究.pdf_第4页
(通信与信息系统专业论文)h264快速模式选择算法研究.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(通信与信息系统专业论文)h264快速模式选择算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

武汉理工大学硕士学位论文 摘要 h 2 6 4 采用了很多新的技术,包括可变宏块大小分割、多参考帧、1 4 像素 精度运动估计、帧内预测、环形滤波等,大大提高了编码性能。特别是对于参 考帧的选择、宏块分割的方式、预测方向的选定,都达到了自适应的效果。然 而,与此同时,它的编码复杂度却有了极大的增加。其中,宏块模式的选择和 运动估计是造成h 2 6 4 编码器运算量大的最主要原因。本文研究的重点是减少模 式选择的复杂度,在分析相关快速算法的基础上提出一种快速算法,以在不明 显降低图像质量的前提下减少编码时间。 针对h 2 6 4 的快速模式选择,本文做了如下的研究工作: ( 1 ) 在j m 8 6 参考软件的基础上,对基于率失真代价模型的标准模式选择 算法复杂度进行了分析,从而阐述了进行快速模式选择的必要性。 ( 2 ) 通过在j m 8 6 中添加部分算法,实现了对所有模式在几种标准视频序 列中所占比重的统计分析。结果显示,s k i p 和i n t e r l 6 x1 6 两种运算量较小的模 式在整个序列中出现的比重平均达到8 0 ,而运算量极大的i n t e r 8x8 和i n t r a 4 4 两种模式所占的比重却不超过1 0 。在此基础上,分析了快速模式选择算 法的可行切入点,即对概率大运算量小的模式进行快速判决,对概率小但运算 量大的模式根据某种方式缩小可选范围。 ( 3 ) 针对s k i p 模式的快速判决,对两种比较常用的及自己提出的一种算 法进行了实验分析,从判决准确率、漏判决率、编码质量、编码时间四个方面 进行了统计和比较,结果显示,本文提出的算法是一种综合性能较好的方法。 ( 4 ) 对用i n t e r l 6 1 6 、i n t e r l 6 x 8 、i n t e r 8 1 6 的率失真代价来缩小i n t e r 8 8 子模式范围的方法进行了实验。结果显示它在不明显降低图像质量的前提下 降低了编码时间约3 5 左右。 ( 5 ) 对i n t r a 模式的快速模式选择算法的必要性从统计上进行了分析,在此 基础上提出了对于该模式的简化算法,即对于p 帧,直接忽略i n t r a 4 x 4 模式; 对于i 帧,则保留其标准算法。实验结果显示,编码质量并无明显下降,但编码 时间同样节约3 5 左右。 ( 6 ) 最后对综合了三方面的算法进行了实验分析。数据显示编码时间的降 低程度提高到了接近4 0 而p s n r 值相对标准算法降低仅仅0 0 5 d b 左右。且码 率都有了轻微的下降。 关键字:快速模式;选择视频编码;h 2 6 4 ;帧间预测;率失真优化 武汉理工大学硕士学位论文 a b s t r a c t t h eh 2 6 4v i d e oc o d i n gs t a n d a r da d o p t sm a n yn e wc o d i n gt o o l s s u c h v a r i a b l eb l o c ks i z e ,m u l t i p l er e f e r e n c ef l a m e s ,q u a r t e r - p i x e l - a c c u r a c ym o t i o n e s t i m a t i o n , i n t r ap r e d i c t i o n , l o o pf i l t e r , e r e u s i n gt h e s ec o d i n gt o o l s ,h 2 6 4a c h i e v e s s i g n i f i c a n tp e r f o r m a n c e e s p e c i a l l yf o rr e f e r e n c ef i & m e ,b l o c ks i z e , a n dp r e d i c t i o n d i r e c t i o n , i t 锄a d a p t i v e l yd ot h es e l e c t i o n h o w e v e r , t h ee n c o d i n gc o m p l e x i t y i n c r e a s e st r e m e n d o u s l y a m o n gt h e s et o o l s ,t h em a c m b l o c km o d e ss e l e c t i o na n dt h e m o t i o ne s t i m a t i o nc o n t r i b u t e sm o s tt ot o t a le n c o d i n gc o m p l e x i t y t h i sp a p e rf o c u s e s o nc o m p l e x i t yr e d u c t i o ni nm a c r o b l o o km o d e ss e l e c t i o n o nt h eb a s i so fa n a l y z i n g s o m ef a s tm o d es e l e c t i o na l g o r i t h m s ,an e wa l g o r i t h mi sp r e s e n t e d , i no r d e rt or e d u c e t h et i m eo fe n c o d i n g , i nt h ep r e c o n d i t i o no fr e d u c i n gt h eq u a l i t yo fe n c o d i n g o b v i o u s l y f o rf a s tm o d es e l e c t i o no f h 2 6 4 ,t h ef o l l o w i n gr e s e a r c hw a sd o n e : ( 1 ) o nt h eb a s i so fy m 8 6r e f e r e n c es o f t w a r e ,t h ec o m p l e x i t yo fs t a n d a r dm o d e s e l e c t i o na l g o r i t h mw a sa n a l y z e db a s e do nt h er dc o s tm o d e l t h e nt h ee s s e n t i a l i t y o f f a s tm o d es e l e c t i o na l g o r i t h mw a sd i s c u s s e d ( 2 ) b yr e w r i t i n gs o m ea l g o f i t t h mi nj m 8 6r e f e r e n c es o f t w a r e ,s o m es t a t i s t i cw a s d o n ef o rt h eq ) p 朗瑚c ep r o b a b i l i t yo fa l lt h em o d e si nt h ew h o l es e q u e n c e t h e ni t f o u n dt h a tt h em o d e ss k i pa n di n t e r l 6 x1 6 ,w h o s ec o m p l e x i t yo f e n c o d i n gi st i n n y , d o m i n a t e da m o n go t h e rm o d e s ( t h ea p p e a r a n c ep r o b a b i l i t ya r r i v e s8 0 o na v e r a g e ) , w h i l et h ea 1 ) p 伐呦p r o b a b i l i t yo ft h em o d e si n t e r 8 8a n di n w a 4 4 ,w h o s e c o m p l e x i t yo fe n c o d i n gi st r e m e n d o u s , i sv e r ys m a l l t h e n , t h ef e a s i b l ef u n c t i o nt o s e l e c tm o d e sf a s tw a sp r o p o s e d t h a ti st of a s ts e l e c tt h em o d e sw h o s ea p p e a r a n c e p r o b a b i l i t yi sl a r g ea n dr e s t r i c tt h es e l e c t a b l em o d e sf o rm o d e sw h o s ea p p e a r a n c e p r o b a b i l i t yi ss m a l l ( 3 ) f o rf a s ts e l e c t i n gf o rs k i pm o d e ,t w oc o m l n o na l g o f i t h m sa n da n o t h e ro n e p r o p o s e db yo u r sw a se x p e r i m e n t e d , w h i c hw a s t oc o m p a r et h er dc o s t so f s k i pa n d i n t e r 】6 1 6m o d ea n dd e c i d ei ft h eb e s tm o d ew a ss k 口m o d e t b ec o r r e c t i o n n 武汉理工大学硕士学位论文 p e r c e n t a g e , m i s s i n gp e r c e n t a g e , p s n ra n de n c o d i n gt i m ew a sc o m p a r e d n 砖r e s u l t r e v e a l e dt h a to u rm e t h o di sab e u e r e ( 4 ) t h ea l g o r i t h mw h i c hw a s t or e s t r i c tt h es e l e e t a b l es u b - m a e r o b l o c km o d e sf o r i n t e r 8x8m o d eb yc o m p a r i n gt h er dc o s t so fi n t e r l 6x1 6 , i n t e r l 6x8 i n t e r 8x1 6 w a se x p e r i m e n t e d t h er e s u l td a t as h o w e dt h a ti tr e d u c e dt h et i m eb y3 5 0 1 1 a v e r a g e 0 1 1t h ep r e c o n d i t i o no f n o t r e d u c i n ge n c o d i n gq u a l i t yo b v i o u s l y ( 5 ) i ff a s ti n t r am o d es e l e c t i o na l g o r i t h mw a se s s e n t i a lw a sa n a l y s e d , t h e na s i m p l ea l g o r i t h mf o ri n t r am o d ew a sp r o p s e d t h a ti st oi g n o r ei n t r a 4x 4m o d ef o rp f l a m ea n dr e s e l g et h es t a n d a r da l g o r i t h mf o rif r a m e t h er e s u l ts h o w e dt h a ti t r e d u c e dt h et i m ea l s ob y3 5 0 1 1a v e r a g eo nt h ep r e c o n d i t i o no fn o tr e d u c i n g e n c o d i n gq 1 】a l i t yo b v i o u s l y ( 6 ) i nt h ee n d , t h et h r e ea l g o r i t h m sw e r ec o n b i n e da n dt h ee x p e r i m e n tw a sd o n e 卫1 ed a t as h o w st h a tt h er e d u c t i o no ft i m ei n c r e a s e dn e a r l yt o4 0 w h i l et h ep s n r j u s tr e d u c e dn e a r l y0 0 5 d bc o m p a r e dt os t a n d a r da l g o r i t h m a n dt h et o t a lb i ta l s oh a s al i t t 】er e d u c t i o n k e yw o r d s :f a s tm o d es e l e c t i o n ;v i d e oe n c o d i n g ;h 2 6 4 ;i n t e rp r e d i c t i o n ; r a t ed i s t o r t i o no p t i m i z a t i o n 1 1 1 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人 已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育机构的 学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示了谢意。 签名 哟瓤学 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权保 留、送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 戤哆新签名拯嗍吵 武汉理工大学硕士学位论文 1 1 研究背景 1 1 1 项目来源 第1 章绪论 本学位论文的研究工作主要得到如下项目的资助: ( 1 ) 湖北省2 0 0 6 年光电子信息专项“电动汽车嵌入式网络监控平台”( 鄂 发改高技 2 0 0 6 1 8 0 0 号) ( 2 ) 国家自然科学基金重大国际( 地区) 合作研究项目“基于多智能体的 数字制造基本理论与关键技术研究”( 5 0 6 2 0 1 3 0 4 4 1 ) 1 1 , 2 研究背景 近年来,随着数字通信技术和各种网络技术的迅猛发展,人们对于传输内 容的要求早已从语音、数据到了图像视频。视频通信和多媒体通信成了当前国 内外研究的热点。与视频相关的应用也越来越广泛,如可视电话、v o d 、视频 会议、m 上的视频服务、数字图像监控、数字电视等。而这些都与视频的核心 内容视频的压缩编码有密切的联系。如何设计出一个高效的视频编解码器 一直是近二十年来人们研究的重点。为此,人们做出了不懈的努力。自1 9 8 8 年 以来,国际电信联盟( 删- t ) 、视频编码专家组( v c e g ) 和国际标准化组织( i s o ) 国际电工委员会( m c ) 活动图像专家组( m p e g ) 分别制定出了h 2 6 x 1 - 2 和 m p e g _ x 0 4 1 两大系列视频编码标准。这一系列标准的不断推陈出新,推动着视频 技术的发展,同时也使得人们对视频通信提出了越来越高的要求。进入新世纪, 如何具有更高的压缩比,更好的图象质量,以及更好的网络亲和力,人们对新 一代的视频标准提出了挑战。 h 2 6 4 标准由此应运而生。2 0 0 3 年3 月,i t l i t 和i s o e c 正式公布了h 2 6 4 视频压缩标准旧。它不仅显著提高了压缩比,而且具有了良好的网络亲和性,加 强了对口网、移动网的误码和丢包的处理。 但是标准仅仅是从码流或者语法层进行了规定,至于编码器如何实现并没 有做硬性规定。目前已经有很多比较成熟的技术和算法应用于编码器,但是有 武汉理工大学硕士学位论文 些算法可能获得了性能而失去了效率,有些算法则反之如何在效率和性能方 面得到一个最佳的折衷依然人们研究的热点。h 2 6 4 同先前的视频编码标准如 h 2 6 3 、m p e g - 2 一样采用了混合编码框架,且h 2 6 4 吸收了原有标准的优点并 应用了视频通信的最新理论和技术成果,对混合编码的诸多环节进行了改进并 引入了一些新的算法( 如多模式、多参考帧、1 4 像素精度的运动补偿,帧内预测 编码,4 x 4 整数变换,环路滤波以及u v l c 、c a b a c 熵编码等) ,显著提高了视频 编码效果。但是多参考帧、多模式以及1 4 精度运动补偿等算法虽然在压缩性能 上与之前的视频标准相比得到了极大的改进,在算法复杂度上却是非常费时的。 一般情况下往往效率最低的算法得到的效果却是比较好的。比如h 2 6 4 的j m 8 6 模型,模式选择采用的是全遍历的方式,运动估计采用的是全搜索的方式,最 终得到的编码效果是非常好的,但是效率非常低下,非常耗费时间。因此在对 图像质量影响不大的情况下如何找到一种快速的算法也一直是人们研究的重 点。 1 2 国内外研究现状 针对h 2 6 4 的模式选择,目前国内外提出了很多快速算法。现有的快速算法 主要基于三方面考虑。( 1 ) 通过统计上的分析,对s k i p 帧的早期判决,以减少 模式选择的范围,从而大大减少计算量【卜1 0 l 。这种方法主要采用门限对代价函数 进行判决或者其它多条件进行判断。文献中大都对得到的编码时间和p s n r ( 峰 值信噪比) 进行了统计,虽然得到了一定的效果,但是都没有对该判决的方法的 准确率特别是漏判率进行统计。( 2 ) 对其它帧问模式采用某种代价比较机制进 行有条件地选择,忽略某些模式,从而节省多参考帧选择、运动估计和率失真 代价计算的时间_ 7 】【1 1 1 1 1 2 1 。( 3 ) 针对帧内模式,一般都是基于纹理分析来进行快速 模式选择【b ”】。虽然对单独的i 帧或者p 帧中的i n t r a 模式效果明显,但是对于 整个视频序列来说,效果比较微小。因此,如何寻找一种综合性能相对较佳的 模式选择算法,依然对降低h 2 “的编码复杂度十分有必要。 1 3 本文的研究内容 本文通过对j m 8 6 参考程序的大量分析和实验,从统计的角度对各种模式 在整个序列以及p 帧中的比重进行了详细的分析,在此基础上提出了对快速模 2 武汉理工大学硕士学位论文 式选择算法的可行切入点进行了分析。然后从s k i p 模式的快速判决、i n t e r 8 8 模式的可选子模式的范围限定、i n t r a 模式的快速选择三方面对一些算法进行了 实验分析和数据对比,最后综合三方面提出了整体的可行算法,在j m 8 6 参考 软件上进行了实验,对数据进行了分析。结果显示本文的方法在不明显降低图 像质量的前提下,有效地降低了编码时间,平均编码时间降低达3 5 以上。 1 4 本文实验平台 由于j m 8 6 参考程序在不同的计算机配置下得出的实验数据可能差异很大, 因此给出本文的实验平台如下:c p u :p i v - 2 6 6 g ,内存4 8 0 m ,开发工具v c + + 6 0 , 参考软件版本j m 8 6 ,采用的测试序列全部是标准测试视频序列。 1 5 本文组织结构 第l 章,介绍了研究的背景及意义,国内外对快速模式选择的研究现状及 本文研究的主要内容。 第2 章,对h 2 6 4 的框架及采用的新技术进行了介绍。 第3 章,对h 。2 6 4 的分块模式及标准模式选择算法计算复杂度进行了分析, 在此基础上阐述了快速模式选择的必要性。 第4 章,对可行的模式选择算法进行了实验分析,在此基础上提出了自己 的可行算法,并对实验结果进行了分析。 第5 章,对本文进行了总结,并对迸一步的研究工作进行了展望。 武汉理工大学硕士学位论文 第2 章2 6 4 视频编码标准 2 11 t 2 6 4 标准简介 国际电信联盟o t t o 视频技术标准委员会从9 0 年代中期开始讨论h 2 6 4 技 术。他们认为,今后花费在计算芯片和内存上的成本将急剧下降,从而带来视 频压缩功能的大幅提高,这些讨论最终促成设立u 视频编码专家组( v c e g ) 领 导下的“h 2 6 l ”项目。2 0 0 1 年1 2 月,该项目组与i t u i s o 联合视频工作组( j v t ) 共同开发m p e g 技术,他们研究的最终结果就是现在的h 2 6 4 标准。 h 2 6 4 视频压缩技术能在现有的连接速率下显著提升视频质量,或者以一半 的连接速率,获得现有的视频效果。例如,用户习惯利用h 2 6 3 编码技术在 7 6 8 k b p s 的速率下获得高质量的视频图像,而使用h 2 6 4 技术只要3 8 4 k b p s 的连 接速率就可达到同样的效果。这样做的最基本好处是:帮助用户更加有效地利 用现有的通信基础设施,更加轻松地部署商务级视频会议系统,并给视频会议 系统带来更好的成本效率。 此外,h 2 6 4 拥有比h 2 6 3 更简洁的结构特征。h 2 6 3 标准中有1 0 0 多万种 可能的模式组合,如此大量的组合方式对会议的顺利进行会产生一些潜在的不 利影响。事实上,不同的生产厂商通常只选用一些最基本的模式用于它们各自 的系统中,因而无法实现最佳的会议效果与视频质量,甚至造成潜在的不利影 响。 h 2 6 4 标准只有三个子集:基本子集、主体子集和扩展子集【1 6 1 。基本子集是 专为视频会议应用设计的,这套标准几近完美,能够提供强大的差错消隐技术。 应用该技术,即使在i n t e m e t 这样的易错网络上也可以得到较好的视频效果。并 且支持低延时编解码技术,使视频会议显得更自然。主体子集和扩展子集更适 合于电视应用( 数字广播、d v d ) 和延时显得并不很重要的视频流应用。 4 武汉理工大学硕士学位论文 2 21 t 2 6 4 编解码器的特点和结构 2 2 1 编解码器的特点 h 2 6 4 对于一个编码器如何实现并不明确地规定,而是从视频比特流的句法 和该比特流的解码方法层面进行了规定【l7 】。各个厂商的编码器和解码器在此框 架下应该具有通用性。这样在实现上具有较大的灵活性,并且有利于相互竞争 h 2 6 4 编码器和解码器的功能组成分别如图2 1 和图2 - 2 所示。 图2 1 编码器的结构 图2 - 2 解码器的结构 从图2 1 和图2 - 2 可见,h 2 6 4 和基于以前的标准( 如h 2 6 1 、h 2 6 3 、m p e g - l 、 m p e g - 4 ) 中的编解码器功能块的组成并没有什么区别,主要的不同在于各功能 块的细节。由于视频的内容时刻在变化,有时大面积的乎坦,有时空间细节很 多。这种内容的多变性就必须采用相应的自适应技术措施。由于信道在恶劣的 环境下也是多变的,例如互联网,有时畅通,有时不畅,有时阻塞;又如无线 网络,有时发生严重衰落,有时衰耗很小,这就要求采取相应的自适应方法来 对抗这种信道畸变带来的不良影响。这两方面的多变带来了自适应压缩技术的 武汉理工大学硕士学位论文 复杂性。h 2 6 4 就是利用实现的复杂性获得压缩性能的明显改善。由于大规模集 成电路技术和工艺的迅猛进步,今天已完全具备了实现的可能性。 2 2 2 编码器的结构 编码器采用的是变换和预测的混合编码方法。在图2 1 中,输入的帧或场只 以宏块为单位被编码器处理。首先,按帧内或帧间预测编码的方法进行处理。 如果采用帧间预测编码,其预测值p r e d ( 图中的p ) 是由当前片中已编码 的参考图像经运动补偿( m c ) 后得到的,其中参考图像用f 表示。为了提高 预测精度,从而提高压缩比,实际的参考图像可在过去或未来( 指显示次序上) 已编码解码重建和滤波的帧中进行选择。 预测值p r e d 和当前块相减后,产生一个残差块见经过变换、量化后产生 一组量化后的变换系数x ,再经过熵编码,与解码所需的一些其它信息( 如预测 模式量化参数、运动矢量等) 一起组成一个压缩后的码流,经n a l ( 网络自适 应层) 供传输和存储用。 为了提供进一步预测用的参考图像,编码器必须有重建图像的功能。因此 必须使残差图像经反量化、反变换后得到的见与预测值p 相加,得到以( 未 经过滤波的帧) 为了去除编码解码环路中产生的噪声,提高参考帧的图像质 量,从而提高压缩图像性能,设置了一个环路滤波器,滤波后的输出只即为重 建图像,可用作参考图像。 2 2 3 解码器的结构 在图2 - 2 中,编码器输出的码流经过熵解码后得到量化后的一组变换系数x , , 再经过反量化、反变换,得到残差见。利用从该比特流中解码出的头信息,解 码器就产生一个预测块p r e d ,它和编码器中的原始p r e d 是相同的。当该解码 器产生的p r e d 与残差晓相加后,就产生“e ,再经过滤波后,最后就得到重 , 建的e ,这个e 就是最后的解码输出的图像。 2 3h 2 6 4 的新技术分析 h 2 6 4 之所以能取得显著的编码效果,是因为它相对于之前的几种编码标准 ( 如m p e g 2 等) ,采用了一系列新的编码工具,具有很多新的特性。 6 武汉理工大学硕士学位论文 2 3 1 帧内预测 对于一帧图像,空间像素之间存在很强的相关性。消除空间冗余可以极大 地压缩数据。在以往的视频标准中( 如h 2 6 3 、m p e g - 4 等) ,帧内编码被引入 变换域【l 射。虽然在变换域对数据进行处理可以消除部分数据冗余,但是它仅仅 是从整体的角度进行了考虑。事实上块与块之间的数据具有很强的相关性。h 2 6 4 中引入了一种新的方法,就是帧内预测。它在对当前块或宏块进行编码时,先 利用相邻块或宏块的已编码并重建的数据进行预测,然后对预测所得的值与原 始数据的差值( 即残差) 进行变换编码、量化。这样可以从最大程度上消除数 据冗余1 1 6 1 。 帧内预测对亮度信号和色度信号分别进行考虑。其中亮度信号又根据图像 的平坦程度不同可以在1 63 1 6 宏块或4 x 4 子块之间进行选择。对于4 x 4 子块, 总共有9 种预测模式。不同的预测模式得到不同的预测效果。对于1 6 x1 6 宏块, 有4 种预测模式。对于色度信号信号,由于色度块的大小是8 x 8 ,而且人眼对 色度信号的敏感程度不如亮度信号,所以对8 x 8 的色度块不再细分,且也只提 供了4 种模式进行选择。 ( 1 ) 4 x 4 亮度预测模式 如图2 - 3 所示,4 4 亮度块的上方和左方像素为已编码并重构的像素,用 作编码器中的预测参考像素。a 呻为待预测像素,它们利用a q 的值和9 种模 式实现。其中模式2 ( d c 预测) 根据a q 中已编码像素进行预测。图2 - 4 中的 箭头表明了每种模式的预测方向。这里面的模式0 ,1 ,3 ,4 ,5 ,6 ,7 ,8 与图 2 3 中的数字方向一一对应。 abcde fgh f 硼 i efgh 1 i ijk1 l l 竺呈2 里i 侈 翻 p 图2 - 3 帧内4 4 亮度预测 7 武汉理工大学硕士学位论文 图2 44 x 4 亮度块预测模式 ( 2 ) 1 6 1 6 亮度预测模式 如图2 5 所示,1 6 x1 6 宏块由左边和上方的3 2 个像素的重构值进行预测。 四种模式的描述见表2 1 。 表2 - 14 种帧内预测模式 图2 - 51 6 1 6 预测模式 模式描述 模式0 ( 垂直)由上边像素推出相应的像素值 模式l ( 水平)由左边像素推出相应的像素值 模式2 ( d c )由上边和左边像素平均值推出相应的像素值 模式3 ( 平面)利用线性“p l a n e ”函数及左、上像素推出相应的像素值 8 武汉理工大学硕士学位论文 ( 3 ) 8 8 色度块预测模式 色度宏块包含u 和v 两个色度分量宏块。两种色度宏块通常共用同一种预测 模式。8 8 色度决共有4 种预测模式,分别为模式0 ( d c ) ,模式l ( 水平) ,模式 2 ( 垂直) 和模式3 ( 平面) ,类似- 于1 6 x 1 6 的4 种预测模式。详情可参考文献【1 6 】。 2 3 2 帧问预测 在时间上,相邻帧的图像之间必然存在着很大的相关性。因此与以往的标 准类似,h 2 6 4 同样采用了帧问预测以去除帧间冗余。但是与以往的标准相比, h 2 6 4 又采取了很多新的技术以获得更好的压缩性能。特别是采用了可变大小的 块分割模式,l ,4 像素精度的运动估计和多参考帧预测,使得预测精度得到了极 大的提高。 ( 1 ) 可变大小的块分割模式 以往的标准大都采用的是1 6 1 6 的块分割方式进行运动估计。但是这样的 固定大小的块分割方式往往不具有灵活性,特别是这样较大的块可能包含具有 不同运动特征的图像,这样必然不能准确地描述一个宏块内部的所有运动细节。 t - i 2 6 4 采用了一种叫做树状结构的运动补偿,它对宏块的分割不是采用一种 单一的方式【1 ”它可以自适应地决定将宏块分割方式,以期最佳地描述出一 个宏块的运动细节。每个1 6 1 6 宏块可以按照4 种方式进行分割:1 个1 6 1 6 , 或2 个1 6 x 8 ,或2 个8 1 6 ,或4 个8 x 8 。其中对于每个8 8 ,还可以进一 步以4 种方式进行分割:1 个8 x 8 ,或者2 个4 8 ,或者2 个8 4 ,或者4 个 4x4 。在第三章还将进行详细阐述。 每个分割或子块都有一个独立的运动补偿。每个m v ( 运动矢量) 都会被编 码、传输,分割的选择也会被编码压缩到比特流中。大尺寸的分割,分割类型 和m v 只需要传输少量的字节,但是这样的预测精度必然比较低,那么所要编 码的残差能量必然比较高,需要较多的字节;,j 、尺寸的分割,运动估计精度比 较高,可以得到能量较低的残差,但是相反,它却要对每个子块都要传输一个 m v ,并且分块类型也需要较多的字节。因此如何在这两者之间取得一种折衷, 这在编码的时候必然要考虑的问题。第三章将作重点阐述。总的来说,这种可 变大小的分块方式给编码带来了极大的灵活性,使得编码器自适应地决定何种 分块方式。通常平坦区域采用大尺寸的分割方式,多细节区域采用小尺寸的分 割方式。 9 武汉理工大学硕士学位论文 ( 2 ) 1 4 像素精度的运动估计 由于自然物体运动具有连续性,相邻两帧之间的块的运动矢量不是以整像 素为基本单位的,可能真正的运动位移量是以1 4 像素精度或者甚至1 8 像素作 为单位的。相对于h 2 6 3 、m p e g - 2 等标准使用1 2 像素单位的运动估计,h 2 6 4 支持更为精确的l 4 像素精度的运动矢量 m - 2 3 l 。在运动搜索时l :2 、l “等分数位 置上的像素值是由周围整数位置上的像素值经6 抽头内插滤波器的计算得到。 下图所示为一个整数与分数像素位置上运动搜索的例子:h 2 6 4 采用了1 4 像素 精度的运动矢量模型进行运动估计。 ( a )( b )( c ) ( a ) 当前帧4 x 4 块的位置( b ) 在参考帧上的整数位置( 1 ,1 ) 的搜索 ( c ) 在参考帧上的分数位置( o 7 5 ,一0 5 ) 的搜索 图2 6 运动矢量在整数及分数位置上的搜索 内插像素生成方法如下图所示。 图2 - 7 亮度半像素位置内插 l o 武汉理工大学硕士学位论文 6 抽头滤波器的权值为( 1 3 2 ,5 3 2 ,5 8 ,5 8 ,5 3 2 ,1 3 2 ) 。半像素点b 计算如 下: b = r o u n d ( ( e - 5 f + 2 0 g + 2 0 h 一5 ,+ 力3 2 )( 2 1 ) 同理,其它的半像素点也由该式计算出。半像素点计算出后,1 4 像素点就 可通过线性内插得出,如图2 8 所示。 图2 - 8 亮度i 4 像素内插 l g丰 h zy o g 嗍i瓣删 yz p k r l m= j = n 1 4 像素点a 可由下式计算出: a = r o u n d ( ( g + b ) 2 ) ( 2 - 2 ) ( 3 ) 多参考帧预测 在以往的视频编码标准中,一次预测里只允许一个前向参考帧【7 叫。作为一项 改进,h 2 6 4 引入了多参考帧预测技术 2 4 1 ,允许前向参考帧的数目从1 到5 。直 觉地看来,增加前向参考帧的数目将有助于提高在运动估计中找到最匹配的参 考宏块的概率。在一些特定的情况下,比如快速的周期运动、场景切换等,多 参考帧使用会有非常好的效果。当然它也付出了很大的代价,因为对每一个当 前宏块,都要对每一个候选参考帧做一次运动估计,还包括模式选择,非常耗 费时间。所以如同本文研究快速模式选择一样,如何研究出一种快速参考帧选 择方法也是目前研究的一个热点。当然文献【2 5 】对此做过一个评测,认为多参考 帧这一方法付出的代价太大,意义不大。由于不是本文的重点,本文对此暂不 做研究。 2 3 3 变换与量化 ( 1 ) 整数d c t 变换 田圃田国倒雪蔫 武汉理工大学硕士学位论文 类似于以前的标准,h 2 6 4 同样对帧内或帧间预测后的残差数据进行变换编 码。但是以前的标准,如h 2 6 3 与m p e g - l 陀,4 等都是使用基于8 x 8 的离散余弦 变换( d c t ) 作为基本的变换算法。h 2 6 4 采用了更小的4 x 4 块,且采用了整 数变换,减小了计算量,提高了精度口叼。 二维的4 x 4 图像块的d c t 交换可以理解为先对图像块的每行进行一维 d c t ,然后对经过行变换的块的每列再进行一维d c t 。可以表示为: l :c _ e 争争鼠c o s ( 2 i + 1 ) n r t c o s ( 2 i + 1 ) n t r ( 2 3 ) y 翮= q q 2 矿 (2-3)i,0j:0 c o 用矩阵表示为: y=五捌7(2-4) 其中y 为变换结果矩阵,x 为变换前的图像块数据。a 中的系数为: a u :c 。c o s ( 2 j _ = + - 1 ) i r t ( 2 5 ) 。 2 川 但是对于实数的d c t ,由于在解码端的浮点运算精度问题,会造成解码后 的数据的适配,进而引起漂移。h 2 6 4 对漂移是十分敏感的。为此,h 2 6 4 对4 x 4 d c t 中的a 进行了改造,采用了整数d c t 技术,从而有效地减少了计算量, 又不失图像的精度。 式( 2 - - 4 ) 可等效为 y = ( c x c 7 ) o e 瞿d - j d ,推- 1 1 d-j1。孙-dl 口2 a ba 2a b a bb 2 a bb 2 口2a ba 2a b a bb 2 a b6 2 ( 2 6 ) 其中,d = c ,“z 0 4 1 4 ) 。符号“o ”表示( c x c 7 ) 结果中的每个元素乘 于矩阵e 中对应位置上的系数值的运算。经简化f 切,得到: y = ( c x c r 7 ) 固易 氍 l1 1 2 一l 1 21 1 2 ( 2 7 ) 西一2矿一4曲一2矿一4矿幻一2矿曲:西一:矿一4幻一2矿一4矿西一2矿曲一2 、,ju 引 o o 2 o 也 ,ij叫0 1j 武汉理工大学硕士学位论文 运算“o ”对每个矩阵元素只进行一次乘法,并且归纳到量化运算中。从 而上式只剩下了整数的加法、减法和移位运算。整数d c t 的运算结果与通常的 d c t 近似,但却避免了浮点运算,从而避免了适配问题,并且大大减小了计算 量。 ( 1 ) 量化 h 2 6 4 采用的是分级量化,共支持5 2 级量化册。并且与以往标准不同的是, 步长是以1 2 5 的复合率递进的,而不是一个固定常数。它采用的量化参数每增 加6 ,量化步长就增加一倍。量化参数越小,代表越精细的量化。这样在码率和 图像质量之间得到了很好的折衷。 另外,量化过程中还包含了整数变换中的“0e ,”乘法运算。假设艺是矩 阵y 中的转换系数,乙是对其量化后的系数,q o 是量化步长,那- , 2 化可以 表示为 乙= ,o 耐b 剖 沼s , 其中p f 要取决于它所在4 x 4 图像块中的位置,如下表所示: 表2 - lp f 取值情况 2 3 4 熵编码 p f位置 口2 ( 0 ,o ) ,( 2 ,o ) ,( o ,2 ) 或( 2 ,2 ) b 2 4 ( 1 ,1 ) ,( 1 ,3 ) ,( 3 ,1 ) 或( 3 ,3 ) a b 2 其它 h 2 6 4 支持两种熵编码:基于上下文的自适应二进制算术编码( c a b a c , c o n t e x t b a s e da d a p t i v eb i n a r ya r i t h r a e t i cc o d i n g ) 和基于上下文的自适应可变长 编码( c a v l c ,c o n t e x t - b a s e d a d a p t i v e v a r i a b l el e n g t hc o d i n g ) j 。 c a v l c 是对亮度和色度的残差信号进行编码。残差经过变化编码和量化后, 非零系数主要集中在低频部分,而高频系数大部分为零。这样量化后的数据再 经过锯齿形( z i g z a g ) 扫描,d c 系数附近的非零系数值非常大,而高频部分的 非零值基本为+ 1 或1 ,且相邻4 x 4 块非零系数的数目相关。利用这些特性, c a v l c 可充分减少数据中的冗余信息【2 9 】。 c a b a c 编码引擎对每一个待编码的比特位的值,用m p s ( m o s tp r o b a b l e 武汉理工大学硕士学位论文 s y m b 0 1 ) 表示最可能出现的状态,对应0 和l 中概率较大的那个字符。用l p s ( 1 e a s t p r o b a b l es y m b 0 1 ) 表示较小概率的字符。这样只需要用一个变量只保存l p s 出 现的概率大小,对应的m p s 的出现概率可由l 一只来表示。每编码完一个比特 位后,都要进行概率状态更新,其中包括l p s 的概率大小值的更新,某个时候 可能还包括础p s 和l p s 的值( 0 ,1 ) 的互换,从而得到新的概率状态,实现上 下文自适应编码。在c a b a c 中,这种概率转移规则具体是这样实现的。一旦 新来的比特位是m p s ,从而只的索引值相应增加1 ,这意味着减小,从而1 一只 增大,它的实际意义是下一次出现m p s 的概率增大,而出现l p s 的概率减小。 如果新来的比特位是l p s ,从而l 一只的索引值相应减少l ,这意味着只增大, 从而1 一只减小,它的实际意义是下一次出现m p s 的概率减小,而出现l p s 的 概率增大。当只的索引值相应减小到0 的时候,继续出现l p s 值将引起l p s 和 m p s 的互换,即原来的l p s 不再被看作是小概率字符。实际上,在c a b a c 中 所有的概率转移都通过查表完成。在c a b a c 中,t r a n s i n x l p s 保存了对应各值 的转移概率值。当新的比特位到来后,根据该位是m p s 还是l p s ,通过查找表 格就可知道更新后的概率值。 c a v l c 的特点在于在编码一个块的系数过程中会根据编码系l e v e l ( 数压缩 比率等级) 值进行适应性的码表切换,同时利用联合编码非零系数个数,最后部 分绝对值为1 的系数个数以及非零系数问零的个数等信息。这些编码方法比以前 单纯编码的方法效率要高;c a b a c 的特点则是以算术编码为核心,在编码过程 中会根据编码数据的统计信息进行适应性的模型切换,与传统的v l c 3 9 编码相 比,它能为部分编码信息进行小于1 比特的位分配,因此具有更高的编码效率, 但其实现极为复杂。 2 3 5 去方块滤波 h 2 6 4 中的整数d c t 编码都是基于4 x 4 块的,而在对编码后的系数量化的 过程中存在误差,因此重建后在4 4 块的边界部分会存在很明显的痕迹,呈方 块状。h 2 6 4 在重建的过程中采用了取方块滤波器,以去除编码算法带来的方块 效应【蚓。 去方块滤波器的原理如图2 - 9 所示。由于d c t 的边界上也有可能是真实的 边界,因此滤波强度由一定的参数来控制。h 2 6 4 采用的是自适应样点级滤波器。 假设两个相邻4 x 4 块中一条直线上的样点为p 3 、p 2 、p 、风、q o 、q l 、q :、 1 4 武汉理工大学硕士学位论文 鼋3 ,块边界位于风和9 0 之间。那么只有在下面三条式子全部满足时,样点才需 要进行滤波。 图2 - 9 去方块滤波原理 b - q 。i 口( i p ,一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论