(计算机应用技术专业论文)h264帧内预测优化与帧内方向预测的研究.pdf_第1页
(计算机应用技术专业论文)h264帧内预测优化与帧内方向预测的研究.pdf_第2页
(计算机应用技术专业论文)h264帧内预测优化与帧内方向预测的研究.pdf_第3页
(计算机应用技术专业论文)h264帧内预测优化与帧内方向预测的研究.pdf_第4页
(计算机应用技术专业论文)h264帧内预测优化与帧内方向预测的研究.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(计算机应用技术专业论文)h264帧内预测优化与帧内方向预测的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 2 1 世纪的人类社会是信息化的社会,数字化后的信息,尤其是视频和音频信息具有 数据海量性,它给存储和传输造成较大的困难。数字视频内在的高带宽特性限制了多媒 体业务的扩展,故必须对视频数据进行压缩。i s o i e c 和i t u t 联合制定的h 2 6 4 标准, 是高度压缩数字视频编解码器的标准。 h 2 6 4 的技术特点可以归纳为三个方面,一是注重实用;二是注重对移动和i p 网络 的适应;三是在混合编码器的基本框架下,对其主要关键部件都做了重大改进,如多模 式运动估计、帧内预测、多参考帧、基于内容的变长编码、4 4 二维整数变换等。在关 注h 2 6 4 的优越性能的同时必然需要衡量其实现难度。从总体上说,h 2 6 4 性能的改进 是以增加复杂性为代价而获得的。据估计,h 2 6 4 编码的计算复杂度大约相当于h 2 6 3 的3 倍,解码复杂度大约相当于h - 2 6 3 的2 倍,对h 2 6 4 编解码的速度和性能优化关系 到h 2 6 4 的应用和推广。 本文首先论述了h 2 6 4 视频编解码标准的基本原理和关键技术,研究和分析了 h 2 6 4 帧内预测模式选择的复杂性。其次,在研究了h 2 6 4 帧内预测相关的快速选择算 法之后,提出改进的优化算法,用i n t r a1 6 x 1 6 预测的结果与设定的阈值进行比较,作 为判断是否进行i n 仃a4 x 4 预测的依据,从而缩短了编码时间,提高了编码效率。经过 大量的编码实现和实验,以及与原始算法的对比表明,该算法基本保持了h 2 6 4 的编码 性能的同时,使得编码时间下降了2 0 左右。最后,本文对1 1 1 吨4 x 4 预测在不同方向 的预测能力进行了分析,指出在不同帧内预测模式中预测能力存在差异。为了解决这一 问题,提出一种更改编解码次序的方式对预测能力较差的模式进行编解码。理论分析和 实验验证表明,本文提出的方法可以使预测能力较差的模式的预测能力得到改善。 关键词:视频编码;帧内预测;h 2 6 4 :方向性 大连交通人学:】二学硕士学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g yi n21 轧c e n t u r y ,t h e r eg r o w st h en e e d o fs t o r i n ga n dt r a n s m i t t i n gv i d e oi n f o r m a t i o ne f f i c i e n t l y t h ep r o p e r t yo fd i g i t a lv i d e ol i m i t s t h e e x p a n s i o no fm u l t i m e d i as e r v i c e s ,s o i ti s n e c e s s a r yt od e v e l o pt e c h n i q u e s f o r c o m p r e s s i n gt h e s ev i d ed a t a h 2 6 4s t a n d a r di sj o i n t l yb e i n gm a d eb yi t u tv i d e oc o d i n g e x p e r t sg r o u pa n di s o i e cm p e gv i d e og r o u p ,n a m e da sj o i n tv i d e ot e a m ( j v t ) i t i sa h i 曲l yc o m p r e s s e dd i g i t a lv i d e oc o d e cs t a n d a r d t h ec h a r a c t e r i s t i co fh 2 6 4s t a n d a r dc a nb ec o n c l u d e dm a i n l yi n t ot h r e ea s p e c t s i ti s m o r ep r a c t i c a b l e ,m o r ea d a p t i v et oi pn e ta n dm o b i l es y s t e ma n di ti m p r o v e st h ek e y c o m p o n e n t so fc o d i n gs t r u c t u r eb a s e do nh y b r i dv i d e oc o d i n gf r a m e w o r k f o re x a m p l e ,i t a d d sc o d i n gm o d ed e c i s i o n ,m u l t if r a m ep r e d i c t i o n ,c o n t e x t - b a s e da d a p t i v ev a r i a b l el e n g t h c o d i n g ( c a v l c ) ,4 x 4i n t e g e rt r a n s f o r m ,l o o pf i l t e r ,e t c t h ei m p r o v e m e n ti np e r f o r m a n c e l e a d st oh i g h e rc o m p u t a t i o n a lc o m p l e x i t yi nt h en e ws t a n d a r d 1 1 1 ec o m p l e x i t yo fh 2 6 4 e n c o d e ri sa b o u t3t i m e so fh 2 6 3e n c o d e ra n dt h ec o m p l e x i t yo fi t sd e c o d e ri s2t i m e so f h 2 6 3d e c o d e r t h eo p t i m i z a t i o no fh 2 6 4c o d e ci si m p o r t a n tf o ri t s a p p l i c a t i o ni nd i f f e r e n t f i e l d s f i r s t l y ,t h i sp a p e rd i s c u s s e st h eb a s i cp r i n c i p l ea n dt h ee s s e n t i a lt e c h n o l o g i e si nh 2 6 4 v i d e oc o d i n gs t a n d a r d d os o m er e s e a r c ha n da n a l y s i so nt h ec o m p l e x i t ya n dr e a l t i m e a b i l i 够o fh 2 6 4i n t r ap r e d i c t i o nm o d e s s e c o n d l y ,a f t e rr e s e a r c h i n go nt h er e l a t e df a s t a l g o r i t h mo fi n t r ap r e d i c t i o n ,t h et h e s i sp u ta ne f f i c i e n tm e t h o df o r w a r d ,d e t e r m i n ew h e t h e r c a r r yo u tt h ei n t r a4 4p r e d i c t i o no rn o tb yc o m p a r i n gt h er e s u l to ft h ei n t r a16 1 6 p r e d i c t i o nw i t ht h et h r e s h o l d i tc o u l dn o to n l yi m p r o v et h ec o d i n ge f f i c i e n c y ,b u ta l s o d e c r e a s et h ec o d i n gt i m e b yh a v i n gm a n yt i m e so fc o d i n ga c c o m p l i s h m e n ta n d e x p e r i m e n t s ,a n dc o m p a r i n gw i t ht h eo r i g i n a la l g o r i t h m ,i tc a nb ed e m o n s t r a t e dt h a tt h i s a l g o r i t h mc a l lr e d u c et h ec o d i n gt i m eb y2 0 a tt h es a m et i m ei tm a i n t a i n st h ec o d i n g p e r f o r m a n c ea sh 2 6 4 f i n a l l y ,a n a l y z eo nt h ep r e d i c t i o na b i l i t yo fd i r e c t i o n a li n t r a4 x 4 p r e d i c t i o nm o d e s i ti n d i c a t e st h a tt h ed i f f e r e n ti n t r ap r e d i c t i o nm o d e sh a v ed i f f e r e n t p r e d i c t i o na b i l i t i e s i no r d e rt os o l v et h i sp r o b l e m ,ac h a n g e dc o d e cr e o r d e r i n gs t r a t e g yi s p r o p o s e dt oc o d e ct h ep o o ra b i l i t yi n t r ap r e d i c t i o nm o d e t h e o r ya n a l y s i sa n de x p e r i m e n t s s h o wt h a tt h em e t h o dc a l li m p r o v et h ea b i l i t yo ft h ew e a k e ri n t r ap r e d i c t i o n k e yw o r d s :v i d e oc o d i n g ;i n t r ap r e d i c t i o n ;h 2 6 4 :d i r e c t i o n a l i i 大连交通大学学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢及参考 文献的地方外,论文中不包含他人或集体已经发表或撰写过的研究成 果,也不包含为获得太整交通太堂或其他教育机构的学位或证书而 使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在 论文中作了明确的说明并表示谢意。 本人完全意识到本声明的法律效力,申请学位论文与资料若有不 实之处,由本人承担一切相关责任。 学位论文作者签名: _ j t 气 、 日期:力p 3 年,) 月) 岁日 第一章绪论 第一章绪论 1 1 课题研究背景 随着信息技术的发展和社会的不断进步,人类对信息的需求越来越丰富,人们希望 无论何时何地都能够方便、快捷、灵活的通过语音、数据、图像与视频等多种方式进行 通信。视觉信息给人们直观、生动的形象,图像视频的传输更受到广泛的关注。数字信 号处理技术、物理媒体与网络技术、超大规模集成电路技术突飞猛进的发展,使得多媒 体通信成为研究和应用的热点。其中,最为关键的技术是数字视频的处理和传输技术。 数字视频苛刻的带宽、时延等要求使得它成为多媒体通信发展的瓶颈。 近2 0 年来,我们正在经历一场数字化革命。数字化数据和语音通信问题一直被关 注着。近年来具有c d 质量效果的高保真( h i f i ) 数字音频技术正迅速地用于各种个人电 脑和工作站上。现在全运动数字视频用于桌面设备的技术已经成熟。除了数字信号有更 牢固的形式外,数字表示和传输手段的主要优点是在于它很容易在同一网络上提供各种 的服务。桌面数字视频技术给计算机和通信均提供了一种真正的“革命性”的方式。 而日益纷呈的视频压缩方法给视频通信带来曙光,越来越多的研究工作者对视频编 码、视频处理提出了新理论和新方法,同时各种国际组织参与视频标准的制定。如 i s o i e c 成立了j p e g ( j o i mp h o t o g r a p h i ce x p e r tg r o u p ) 和m p e g ( m o v i n gp i c t u r ee x p e r t s g r o u p ) ,并先后完成了j p e g 、j p e g 2 0 0 0 、m p e g 1 t 、m p e g 2 t 2 】和m p e g 一4 1 3 标准的制 定:i t u t 也先后制定了h 2 6 1 【4 】、h 。2 6 2 ( 与m p e g 组织合作) 、h 2 6 3 h 2 6 3 + 5 j 和h 2 6 4 【6 垲1 ( 与m p e g 组织合作) 等一系列国际数字视频压缩编码标准。它们为视频编码技术的发 展起到了巨大的推动作用。视频压缩编码技术是多媒体通信技术发展中最有活力的研究 领域之一,同时也是未来多媒体通信技术领域的研究热点和重点。 随着硬件产品的不断发展,处理器及内存的价格的不断降低,支持视频数据传输的 网络越来多,视频应用对图像编码效率的要求也越来越高。因此,i s o 的运动图像专家 组m p e g 和i t u t 的视频编码专家组( v c e g ) 2 0 0 3 年联合推出的h 2 6 4 a v c ( 也称为 m p e g - - 4 的第1 0 部分) ,用于各种不同的网络环境( 高低码率、有线、无线) 的高效 率的视频编码标准。由于其高效的压缩性能和网络友好性,而成为当前多媒体通信中的 研究的热点,很多公司都在开发基于1 4 2 6 4 的视频产品。 本文的研究对象就是新一代视频编码标准卅2 6 4 ,本文以h 2 6 4 为基础,重点 对帧内预测模式选择和帧内方向预测进行了研究,并提出了自己的新方法,使得帧内预 大连交通大学丁学硕十学位论文 测在视频质量没有明显下降的情况下缩短了时间,同时也使预测能力较差的模式的预测 能力得到改善。 1 2 视频压缩的研究意义 长期以来,人类获取到的信息其8 0 来源于图像媒体,1 5 来源于语音。因此,人 们在自然界感受到的最主要的信息是视觉信息,这说明图像是人们生活中信息交流最为 重要的载体,也是蕴含信息量最大的媒体。但与此不同,在早期的计算机和通信领域, 能够处理和传输的主要是文字和声音,早期计算机和通信设备的处理能力与人类的需求 相比有很大的差距。因此,图像信息已经成为通信和计算机系统的一种重要处理对象。 随后,基于声音和图像于一体的多媒体信息出现了,多媒体( m u l t i m e d i a ) 又称为交互多 媒体( i n t e r a c t i v em u l t i m e d i a ) ,是计算机技术和视频、音频及通信等技术集成的产物,其 数据来源包括文字、语音、音乐、静止图像、电视图像、电影、动画、图形等。多媒体 的数据量通常都比较庞大,尤其是电视图像、电影、动画等的数据,例如一幅6 4 0 x 4 8 0 分辨率的2 4 位真彩色图像的数据量为:6 4 0 x 4 8 0 x 2 4 = 7 3 7 2 8 0 0 b i t s ,约9 0 0 k 。表1 1 列 出了几种常见的视频图像源未经压缩的原始数据率。与文字信息不同,图像信息需要大 的存储容量和宽的传输信道,尤其是需要实现大规模图像数据库和传输高分辨率实时图 像序列的场合,即使以现在的技术,仍然难以满足原始数字图像存储和传输的需要。 表1 1 常见视频源未经压缩数据率 t a b l e1 1d a t ar a t eo fu n c o m p r e s s e dc o m m o nv i d e os o u r c e s 视频源每秒帧率分辨率( 帧内像素) 未压缩数据率( m b p s ) n t s c3 07 2 0 x 4 8 01 2 5 p a l2 57 2 0 x 5 7 61 2 5 v c r3 03 5 2 x 2 8 83 1 h d t v 2 51 9 2 0 x 1 0 8 01 0 0 0 目前,电视正迅速地走向“数字时代 ,数字电视的飞速发展远远超出人们的预料。 世界发达国家的广播电视从模拟向数字的过渡已全面展开,从部分( 单机设备) 数字化 向全系统( 节目制作、信号传输、发射和接收) 数字化方向发展。数字视频设备日新月 异。数字v c d 、数字d v d 、数字摄像机、数字录像机、数字调制解调器、数字电视机 顶盒、数字电视接收机、数字特技、数字点播电视( v o d ) 、数字交互电视( i t v ) 、网络电 视( i p t v ) 、手机电视、数字加密电视、全数字高清晰度电视,逐步形成整个电子行业潮 流的主导,己如日中天。而对于大数据量的媒体对象必须首先考虑如何有效地进行传输 和保存这些数据。例如对于视频会议、可视电话等多媒体数据的数据量是很大的,而且 2 第一章绪论 这种场合的应用通常要求实时性。因此,如何在一定带宽的情况下将尽量少的数据进行 传输是实现实时性的基础。再如,对于应用广泛的v c d ,d v d 等,通常需要在固定容 量的碟片上尽可能的存储更多的数据信息,以便减少资源占用,节约成本。 从上述中可以看出,未经压缩的原始数据的数据量很大,则存储时要求的空间会很 大,传输时要求的码率将会很高。因此,为了减少存储空间,满足实时性要求,迫切需 要对视频图像进行压缩。 1 3 视频编码的主要标准 随着数字视频编解码技术的发展,为了保证不同厂家视频编解码产品之问的互操作 性,视频编解码技术的标准化问题日益引起了人们的重视。各大国际组织在数字视频编 解码标准化方面展开了许多相关的工作并制定了一系列的视频编解码标准。目前在从事 视频压缩标准制定方面贡献最突出、影响力最大的国际组织主要有国际标准化组织 i s o i e c 的运动图像专家组m p e g ( m o t i o np i c t u r ee x p e r tg r o u p ) 和国际电信联盟i t u t 的视频编码专家组v c e g ( v i d e oc o d i n ge x p e r tg r o u p ) 。两个国际标准化组织根据不同的 应用需要,采用相似的压缩编码技术分别制定了m p e g x 和h 2 6 x 系列视频压缩标准。 其中,i t u t 针对视频通信领域的一些应用( 如可视会议,视频电话等) ,分别制定了 h 2 6 1 、h 2 6 2 、h 2 6 3 h 2 6 3 + h 2 6 3 + + 、h 2 6 l h 2 6 4 ;i s 0 i e c 主要针对视频存储领域( 如 v c d d v d 等) ,相继制定了m p e g - 1 、m p e g 一2 、m p e g - 4 ( p a r t 2 ) 。图1 1 描述了这些视 频压缩标准的发展历程。 1 9 8 4 1 9 8 6 1 9 8 8 1 9 9 0 1 9 9 21 9 9 41 9 9 61 9 9 82 0 0 02 0 0 22 0 0 4 图1 1 视频编码标准的发展历程 f i g 1 1t h ed e v e l o p m e n to fv i d e oc o d i n gs t a n d a r d 人连交通大学工学硕十学位论文 上述几个国际视频压缩标准尽管应用领域不同,但基本上都采用的是基于块的混合 视频编码技术。两大国际组织在发展各自的视频压缩标准的同时也注重合作,曾于1 9 9 2 年联合推出的m p e g 2 h 2 6 2 是现在应用得最广泛的国际视频压缩标准。在h 2 6 4 的制 定过程中,i s o i e cm p e g 也积极加入并与i t u tv c e g 再次联手推出了h 2 6 4 a v c , 并将其作为m p e g - 4 的第1 0 部分。 1 4 本文所做工作及创新点 本文主要对帧内方向预测进行了研究,内容主要有: ( 1 ) 论述了帧内预测的相关理论重点介绍了帧内预测的快速算法并对一些经典算 法进行了分析和评价。 ( 2 ) 改进的帧内模式选择算法通过对帧内模式选择算法的研究,提出了改进的帧 内模式选择算法。首先设定阈值 ,刀,然后改变帧内预测的顺序,先进行i n t r a 一1 6 1 6 预测,然后计算出当前预测模式的c o s t 值,将得到的与阈值丌做比较,如果c o s t 值小 于阈值盯则选定该模式为最佳模式,否则进行下一模式的预测。如果4 种模式对应的 c o s t 值均大于丌。则进行i n t r a4 x 4 预测,i n t r a4 x 4 用与上文同样的方法确定最佳模式, 如果得出的c o s t 值均不满足要求则选用c o s t 值最小的为最佳模式。该算法不仅有效节约 了编码时间,同时还保证了优化编码后的图像质量,该算法用于不同序列均能收到较好 的效果。 ( 3 ) 提出更改编解码顺序以提高帧内预测能力的方法首先,介绍帧内4 x 4 预测9 种亮度预测模式,然后运用公式对不同预测模式的预测能力进行衡量,通过比较发现, 帧内预测不同模式间的预测能力存在差异,提出更改编解码顺序的方法。为了检验上述 改进的有效性,在h 2 6 4 参考代码j m 9 的基础上修改了代码,进行了实验验证。 1 5 本文组织结构 本文按以下方式进行组织: 第一章绪论 首先介绍本课题的研究背景,然后分别介绍了i s o i e c 和i t u t 的相关编码标准。 最后,介绍本文所做的工作和论文组织结构。 第二章h 2 6 4 系统概述及关键技术 首先是对h 2 6 4 的档次和语法结构的讲解,然后是对h 2 6 4 的分层技术以及它采用 的新技术进行概述,并简单介绍h 2 6 4 编解码器的结构,最后是对h 2 6 4 编码算法的核 心模块进行分析,其中包括:帧间编码,变换和量化,去块效应滤波,熵编码。 4 第一章绪论 第三章h 2 6 4 帧内预测算法的研究 本章首先介绍了帧内预测编码技术,然后详细讲述了当前广泛使用的两种代价函数 模型,并分析了目前测试模型j m 8 6 中采用的帧内预测模式选择算法,随后介绍了相关 的帧内预测快速选择算法,最后提出改进算法并加以实验验证。 第四章h 2 6 4 帧内方向预测的研究 通过对帧内方向预测能力的研究,发现当前帧内预测的缺点和不足,然后分析了4 4 亮度块对编解码顺序的依赖性;最后提出更改编解码顺序的方法,并用其对预测能力较 弱的方式进行改进。 结论及展望 对本文工作的总结和对未来工作的展望。 大连交通人学工学硕士学位论文 第二章h 2 6 4 系统概述及关键技术 h 2 6 4 属于混合视频编码,是一种高效的压缩方法。它在吸收现有标准优点的基础 上,首次应用了多个视频编码界的理论和技术成果,从而获得了更高的编码效率,在网 络适应性方面也大有改善。本章首先对h 2 6 4 的档次,语法结构,分层技术及其采用的 新技术进行概述。然后介绍h 2 6 4 视频编码器和解码器的结构,最后详细介绍帧间预测、 变换和量化、去方块滤波以及熵编码技术。 2 1h 2 6 4 系统概述 2 1 1h 2 6 4 的档次 h 2 6 4 应用十分广泛,对某些应用而言并不需要实现所有的编码工具。如果让编码 器使用所有的工具,将使编码器的实现太过复杂。所以,对于不同的应用,只需要实现 部分编码功能。h 2 6 4 规定了三种档次( p r o f i l e ) ,如图2 1 所示:基本档次( b a s e l i n e p r o f i l e ) 、 主档次( m a i l lp r o f i l e ) 以及扩展档次( e x t e n d e dp r o f i l e ) ,它们分别针对于不同应用的场合。 e x t e n d e dp r o f i l e 图2 1h 2 6 4 档次 f i g 2 1h 2 6 4p r o f i l e 6 第二章h 2 6 4 系统概述及关键技术 其中,b a s e l i n ep r o f i l e 主要包含了低复杂度、低延时的技术特征,主要是针对交互 式的应用。由于考虑到了恶劣环境下的容错性,b a s e l i n ep r o f i l e 的内容基本都被其他更 高级别的p r o f i l e 所包含。而m a i np r o f i l e 是针对更高编码效率的应用。e x t e n d e dp r o f i l e 的设计主要针对流媒体的应用,所有容错技术和对比特流的灵活访问及切换技术都包括 在其中。 f 1 ) b a s e l i n ep r o f i l e 的技术特征b a s e l i n ep r o f i l e 的编码器只对i 片和p 片进行操作, 支持利用基于上下文的自适应的变长编码进行的熵编码( c a v l c ) 。它最多支持将一帧分 成8 个片组,这样在网络上传输时,对每个片组分别打包可使一个包丢失时不会引起整 个帧的丢失。它主要应用于可视电话、会议电视、无线通信等实时视频通信。 ( 2 ) m a i np r o f i l e 的技术特征m a i np r o f i l e 的编码器包含b a s e l i n ep r o f i l e 编码器中所 有算法并具有额外的技术特征,它支持隔行视频。本档次内提出了适配块划分尺寸变换 的概念,其主要思想是将对预测残差进行变换编码的块尺寸与用来进行运动补偿的块尺 寸联系起来,尽可能的利用最大的信号长度进行变换编码;支持上下文的自适应的算术 编码( c a b a c ) 。它主要应用于数字广播电视与数字视频存储。 ( 3 ) e x t e n d e dp r o f i l e 的技术特征e x t e n d e dp r o f i l e 的编码器不支持c a b a c ,它支持 码流之间有效的切换( s p 片和s i 片) 【1 0 】,它能够提高从错误中恢复的能力。主要应用 于流媒体应用。 2 1 2h 2 6 4 语法结构 在h 2 6 4 中,句法元素被分别序列、图像、片、宏块、子宏块五个层次。但在h 2 6 4 的分层结构中将原来属于序列和图像头部的大部分句法元素游离出来形成序列和图像 两级参数集,其余的部分则放入片层。下面就是各层所包含的语法元素。 ( 1 ) 序列层序列以序列参数集语法开始。它包括了视频序列的参数集标识、档次、 级、参考帧数量、图像宽与高、是否只适用帧宏块等信息。直到下一个序列参数级的出 现才重新开始一个新序列,每个序列使用固定的图像参数集、参数值。 ( 2 ) 图像层这一层以图像参数集语法开始。图像参数集包含了序列参数集合图像 参数集标识、熵编码的模式、片组数目、图像初始量化参数值、是否是帧内预测等信息。 在接下来的图像数据中使用此图像参数值,直到出现新的图像参数集。每幅图像可以由 一个或多个片组构成,每个片组也可以由一个或多个片构成。 ( 3 ) 片层片层由片头语法开始。片头包括片的起始宏块号、片类型、图像参数集 标识、帧号等信息。片的数据由其包含的宏块信息组成。 7 大连交通大学一l 学硕士学何论文 ( 4 ) 宏块层每个宏块包括宏块类型、编码块模式、宏块量化调节值、预测模式或 运动矢量、残差数据。 2 1 3h 2 6 4 分层设计 为了更加灵活的适应不同的应用领域的要求,h 2 6 4 的设计从概念上可以分为两层: 视频编码层( v i d e oc o d i n gl a y e r ) 负责高效的视频内容表示,网络提取层( n e t w o r k a b s t r a c t i o nl a y e r ) 负责以网络所要求的恰当的方式对数据进行打包和传送。在v l c 和 n a l 之间定义了一个基于分组方式的接口,打包和相应的信息属于n a l 的一部分。这 样,高编码效率和网络友好性的任务分别由v c l 和n a l 来完成。v c l 层包括基于块 的运动补偿混合编码和一些新特性。n a l 负责使用下层网络的分段格式来封装数据, 包括组帧、逻辑信道的信令、定时信息的利用或序列结束信号等。例如,n a l 支持视 频在电路交换信道上的传输格式,支持视频帧在i n t e m e t 上利用r t p f u d p i p 传输的格 式。n a l 单元包括自己的头部信息、段结构信息和实际载荷信息,即上层的v c l 数据。 v c l 和n a l 概念在编码器上的体现如图2 2 所示。 图2 2h 2 6 4 的分层结构 f i g 2 2h 2 6 4h i e r a r c h i c a ls t r u c t u r e 2 1 4h 2 6 4 采用的新技术 h 2 6 4 编码采用了差值脉冲编码调制d p c m 加变换编码的混合编码模式。与以前的 标准相比,h 2 6 4 具有以下新的特性: ( 1 ) h 2 6 4 支持两种帧内预测编码,分别为4 x 4 与1 6 x 1 6 编码模式。对于1 6 x 1 6 模式,每一个亮度块有4 种预测模式。对于4 x 4 模式,每一个亮度块有8 种不同方向上 8 第:二章h 2 6 4 系统概述及关键技术 的预测模式和d c 预测模式。对于8 x 8 色度采样,采用的预测模式也是四种,它们几乎 与1 6 x 1 6 亮度块的预测模式相同。 ( 2 ) 在帧间预测【1 2 】部分,为了更精确地对图像运动内容进行预测补偿,h 2 6 4 将宏 块进步划分为1 6 1 6 、1 6 x 8 、8 1 6 、8 8 、8 x 4 、4 x 8 、4 x 4 的子块。帧间编码同时还 支持多参考帧预测,规定了运动估计使用的参考帧数最多达到1 5 帧。多参考帧的使用 大大提高了对图像传输的容错性,抑制了错误在空间和时间上的蔓延。 ( 3 ) 对于变换量化【1 3 l 部分,对于预测残差值的变换编码使用d c t 变换,在h 。2 6 4 中使用的是简单的整数变换。这种变换与d c t 相比压缩性能几乎相同而且具有许多优 势,其核心变换的计算只适用加减、移位运算,避免了精度的损失。h 2 6 4 对变换残差 系数的量化使用了5 2 级步长的量化器,而h 2 6 3 标准只有3 1 级。量化步长范围的扩大 使得编码能够更灵活和更精确。 ( 4 ) h 2 6 4 仍然使用基于块的预测及重构方式。为了去除由此产生的影响图像主观质 量的方块效应,h 2 6 4 使用了去块效应滤波器【1 4 1 ,其主要思想是当块的边界上两边差别 较小时,则用滤波器使差别“平滑”,若边界上图像特征明显时就不使用滤波。滤波器 的使用既减弱了块效应的影响,又避免了滤掉图像的客观特征。 ( 5 ) 对熵编码【1 5 】部分采用了基于上下文的变长编码技术和基于上下文的算术编码技 术。 2 2h 2 6 4 视频编解码器结构 h 2 6 4 与基于其他编码标准( 如h 2 6 1 ,h 2 6 3 , m p e g 1 ,m p e g - 4 ) 中的编解码器 功能块的组成并没有太大的区别,主要的不同在于各功能块的细节。由于视频的内容时 刻在变化,时空细节很多,有时大面积的平坦,这种内容的多变性必须采用相应的自适 应的技术措施;此外,由于信道在环境恶劣下也是多变的,例如互联网,有时畅通,有 时不畅,有时阻塞;又如无线网络,有时发生严重衰落,有时衰耗, 1 e 4 , ,这就要求采取 相应的自适应方法来对抗这种信道畸变带来的不良影响。这两方面的多变性带来了自适 应技术的复杂性。h 2 6 4 就是利用实现的复杂性获得压缩性能的明显改善。 2 2 1h 2 6 4 编码器 在图2 3 中,输入的帧或场f n 以宏块为单位被编码器处理。首先,按帧内或帧间 预测编码的方法进行处理,以决定对于当前宏块采用帧内编码还是帧i 日j 编码。如果采用 帧间预测编码,其预测值p r e d ( 图中用p 表示) 是由已编码的参考图像经运动补偿( m c , m o t i o nc o m p e n s a t e ) 后得到的,其中参考图像用式f n i 表示。为了提高预测精度,从而 9 大连交通大学t 学硕十学位论文 提高压缩比,实际的参考图像可以在过去或未来( 指显示次序上) 己编码解码重建的帧 中进行选择,帧内预测时的参考帧不经过滤波处理【1 6 j 。 预测值p r e d 和当前块相减后,产生一个残差块d n ,经块变换、量化后产生一组 量化后的变换系数x ,再经熵编码,与解码所需的边信息( 如预测模式量化参数、运动 矢量等) 一起组成压缩后的码流,经n a l ( 网络适应层) 供传输和存储用。 为了提供进一步预测用的参考图像,编码器必须有重建图像的功能。因此必须使残 差图像经反量化、反变换后得到的d n 与参与预测值p 相加,得到u f n ( 未经滤波的帧) 。 此外,为了去除编码解码环路中产生的噪声,提高参考帧的图像质量,从而提高压缩图 像性能,设置了一个环路滤波器,滤波后的输出f n 即为重建图像,可用作参考图像。 图2 3h 2 6 4 编码器 f i g 2 3h 2 6 4c o d e r 2 2 2h 2 6 4 解码器 由图2 3 可知,由编码器的n a l 输出一个压缩后的h 2 6 4 压缩比特流。在图2 4 中, 经熵解码得到量化后的一组变换系数x ,再经反量化、反变换,得到残差d n 。利用从 该比特流解码出的头信息,解码器就产生一个预测块p r e d ,它和编码器中的原始p r e d 是相同的。当该解码器产生的p r e d 与残差d 。相加后,就产生u f n ,再经滤波后,最 后就得到重建的f n ,这个f n 就是最后的解码输出图像6 j 。 1 0 第:章h 2 6 4 系统概述及关键技术 图2 4 h 2 6 4 解码器 f 瞎2 4h 2 6 4d e c o d e r 2 3 视频压缩编码的基本原理 2 3 1 帧问预测编码 视频序列时间冗余的存在为帧间预测编码提供了可能性。h 2 6 4 在继承以前标准运 动补偿技术的基础上进行了改进和创新,主要包括树状运动补偿、四分之一像素精度插 值和多参考图像运动补偿三种技术。通过这三项技术的采用,其预测效率和精度得到显 著提高。 ( 1 ) 树状结构运动补偿在以前的标准中,m p e g 2 只采用了1 种尺寸的运动补偿 块,即1 6 x 1 6 。m p e g 4 采用了两种,即1 6 1 6 ,8 x 8 。h 2 6 4 为了更有效地进行帧间运 动补偿,宏块的亮度运动补偿块共采用了7 种尺寸:1 6 x 1 6 ,1 6 x 8 ,8 x 1 6 ,8 x 8 ,8 x 4 , 4 x 8 ,4 x 4 ( 如图2 5 所示) 。 口目田田 8 8 田 8 x 4 田 4 4 团 图2 57 种运动补偿块分割尺寸 f i g 2 5d i v i s i o no ft h e7m o t i o nc o m p e n s a t i o nb l o c k s 夫连交通大学i 。学硕七学位论文 其中,前4 种寸为宏块的分割方式,后4 种尺寸为亚宏块的分割方式。 色度运动补偿块在水平和垂直方向上的分辨率分别是亮度块的一半,即每个色度块 可以采用与亮度块相同的分割方式只是分割尺寸在水平和垂直方向上都是亮度块的一 半。这种将宏块分割为可变寸子块进行运动补偿的方法就称为树状运动朴偿,它使得每 个宏块具有多种运动补偿块组合。 每个宏块或亚宏块分割都有一个独立的运动补偿,并且每个运动矢量和分割方式的 选择都需要进行编码和传输。选择太的分割尺寸( 宏块分割) 意味着可以用鞍少的比特去 表示运动矢量和分割类型,但在剧像细节丰富的区域,图像残差具有较大能量。而当选 择小的分割尺寸( 亚宏块分割) 虽然运动补偿以后的残差信号能量较小但却需要更多 的比特去表示运动矢量和分割类型。因此,分割尺寸的选择对于压缩性能具有重要的影 响。通常,图像中的平滑区域适合采用大的分割尺寸,而在细节丰富区域则应该采用小 的分割尺寸。图2 6 所示为一个没有经过运动补偿的残差帧。h2 6 4 编码器为该帧的每 个部分选择了最佳的分割尺寸,使传输信息量最小,并将选择的分割加到蛾差帧上。在 帧内图像变化小的区域,即图像平坦区域( 残差显示为扶色) ,采用了| 6 x 1 6 块分割。而 在图像复杂区域( 残差显示为黑色或者白色) 选择了更小的分割尺寸。 圈2 6 姨蔫帧( 未经过运动补偿) f i g2 6 r e s i d u a l f r a m e ( w i l h o u l m o t i o nc o m p e n s a t i o n ) 第二章h 2 6 4 系统概述及关键技术 采用全部的7 种运动补偿块模式可以节省1 6 的码率。而在节约码率中,8 0 以上 是由于采用8 8 以上的块尺寸得到的。另外,小于8 x 8 的块尺寸仅在高码率的时候有用, 4 x 4 块尺寸带来的p s n r 增益是最小的。因此,对于高分辨率的序列来说,采用小尺寸 的块并没有太大的效果。 ( 2 ) 分数像素运动估计对于一个帧间编码的宏块来说,每个划分的区域都由参考 帧中相同大小的区域来进行预测。对于亮度信号来说,运动向量( 即两个区域的偏移量) 是1 4 精度的。对于色度信号来说,运动向量是1 8 精度的。而这些分数位置的像素值 在参考帧中是不存在的。所以,在h 2 6 4 中采用邻近像素值进行插补的方法来计算分数 位置的像素值。这种方法能够提供更为精确的预测图像,减少残差图像的能量。采用分 数像素精度的运动补偿能够提供比整数像素精度的运动补偿更好的压缩性能。同理,1 4 像素精度的运动补偿能够提供比i 2 像素精度的运动补偿更好的性能。当然,相应的计 算复杂度也随之增加。 下面就详细介绍分数像素的运动补偿方法。 豳固 豳圊圜一 豳豳 圜囫囫圈一圈豳豳 圜 目 围 囫 田 凰 嘲abc 隧 d ;ef g h 1 j km 1 1 pq r 矧 s 熬 豳 圈 豳 豳 同 豳 囫囫因固豳豳圜 囫豳圈豳 图2 7l 2 与l ,4 像素位置内插 f i g 2 71 2a n d1 4p i x e l si n t e r p o l a t i o n 1 3 豳囫 大连交通大学 :学硕士学位论文 如图2 7 所示,在参考帧的亮度块中首先产生舵像素点的值。图中灰色方块代表 整数位置的像素。对于相邻整数像素点之间1 2 位置的像素点来说( 如图中的b 、h 、m 、 s 点) ,通过用相邻整数位置的像素通过一个六阶有限冲激响应滤波器r ( f i r ) 来进行插值, 这个六阶滤波器的系数为( 1 3 2 ,5 3 2 ,5 8 ,5 8 ,一5 3 2 ,1 3 2 ) 。 1 2 像素值b 、h ,先通过六阶滤波器计算中间值b l 、h i : b l = e 一5 f + 2 0 g + 2 0 h 一5 1 + , ( 2 1 ) h l = 彳一5 c + 2 0 g + 2 t 3 l m 一5 灾+ 歹 ( 2 2 ) b 和h 的最后预测值再经过以下计算,并将结果限制在0 到2 5 5 b = ( b l + 1 6 ) 5 h = ( h i + 1 6 ) 5 像素点s 、m 的值可通过同样办法计算出来。 ( 2 3 ) ( 2 4 ) 当所有邻近整数位置的1 2 像素值都计算完之后,剩余1 2 位置的像素由前面已经 计算出来的1 2 位置像素来进行插值。 像素,的值是通过1 2 像素,d d ,h ,m ,e e ,f f 计算出来的。 1 = c c 一5 反d + 2 0 办+ 2 0 聊一5 p p + ( 2 5 ) j = 0 1 + 5 1 2 ) 1 0 ( 2 6 ) 当所有1 2 像素点的值都计算完之后,1 4 像素点的值通过线型插值的办法计算出 来。邻近整数像素和抛像素的1 4 像素点( 如a 、c 、f 、k 、d 、 珂、g ) 用它邻近像素的 点进行线型插值。 a = 酊+ b + 1 夕 l( 2 7 ) e = 似+ b + 1 j l( 2 8 ) d=佑+办+1)l ( 2 9 ) ,z = 似彳+ 办+ 1 ) 1( 2 1 0 ) f = p + 歹+ 1 夕 l ( 2 1 1 ) 扣伫+ j + 1 夕 1 ( 2 1 2 ) k = 仃+ m + 1 ) 1( 2 1 3 ) q = + s + 1 ) 1 ( 2 1 4 ) 剩下的1 4 像素点( 如e 、g 、p 、,) 的值由它邻近的一对l 2 像素点进

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论