(计算机应用技术专业论文)h264快速帧内预测算法研究.pdf_第1页
(计算机应用技术专业论文)h264快速帧内预测算法研究.pdf_第2页
(计算机应用技术专业论文)h264快速帧内预测算法研究.pdf_第3页
(计算机应用技术专业论文)h264快速帧内预测算法研究.pdf_第4页
(计算机应用技术专业论文)h264快速帧内预测算法研究.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(计算机应用技术专业论文)h264快速帧内预测算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 i t u - th 2 6 4 m p e g - 4p a r t1 0a v c ( 简称h 2 6 4 ) 是由i s o i e c 的运动图像专 家组m p e g 和i t u t 的视频编码专家组v c e g 组成的联合视频小组t 共同制 定而成的最新的国际视频编码标准,其中包含了众多先进的视频压缩编码技术和 思想,比以前的视频编码标准在编码效率方面有了明显的提高,并且还拥有更好 的网络友好性和容错性,然而h 2 6 4 的高压缩编码效率却使得编码器的计算复杂 度急剧增加,与m p e g - 4 简单配置相比,其编码复杂度更是增加了1 0 倍,所以 必须对压缩编码算法进行优化以提高其编码效率,特别是在实时应用中。 本论文首先简要介绍了视频压缩编码的基本原理和标准以及国内外研究现 状,接着,简要介绍了h 2 6 4 编码标准的编解码器结构,关键技术和主要性能, 尤其是对h 2 6 4 的视频编码层中的主要技术做了较详细的描述,然后又详细分析 了h 2 6 4 编码器的性能和算法复杂度,并对其中计算复杂度很高的预测模式选择 部分进行了深入研究。 最后,本文的主要工作集中在以下三个方面:首先,对现有的h 2 6 4 的帧内 预测模式算法进行了详细的分析。其次,利用相邻块的预测模式之间的相关性以 及相关预测模式之间编码的特点,提出了一种基于阈值的快速帧内模式选择算法。 该算法可以根据阈值,确定是否可以将最可能的预测模式作为最终的预测结果, 排除大量的无用的帧内预测模式,避免了很多不必要的代价计算。最后,经过大 量的编码实现和实验,以及与原始算法的对比表明,该算法能有效降低帧内预测 的复杂度,同时基本保持了h 2 6 4 的编码性能,并且具有很好的自适应性。 关键词:h 2 6 4 帧内预测视频编码计算复杂度 a b s t r a c t u - th 2 6 4 m p e g - 4p a r t1 0a v c 饵2 6 4 a v cf o rs h o r t ) ,w h i c hw a s e s t a b l i s h e db yj o i n tv i d e ot e a m ( j v r ) c o n s i s t i n go fe x p e r t sf r o mi t u - t 。sv i d e o c o d i n ge x p e a sg r o u p ( v c e g ) a n di s o i e c 。sm o v i n gp i c t u r ee x p e r t sg r o u p ( m p e g ) , i st h en c w e s li n t e r n a t i o n a lv i d e oc o d i n gs t a n d a r d , a n dc o n t a i n sm a n y a d v a n c e dv i d e oc o d i n gt e c h n o l o g i e sa n dt h o u g h t s c o m p a r e dt ot h o s ee x i s t i n gv i d e o c o d i n gs t a n d a r d s ,h 2 6 4h a sm a d eab i gp r o g r e s si nc o d i n ge f f i c i e n c y , a n daf r i e n d l y i n t e r f a c eo fn e t w o r ka n df a u l tt o l e r a n c e b u tt h ea d v a n c e dc o d i n gc o m p r e s s i o n e f f i c i e n c yo fh 2 6 4m a k et h ec o m p u t a t i o n a lc o m p l e x i t yh a v ead r a m a t i ci n c r e a s e c o m p a r e dt ot h es i m p l ep r o f i l eo fm p e g - 4 ,i t sc o d i n gc o m p l e x i t yh a v ei n c r e a s e db y 1 0t i m e s ,8 0i ti sn e c e s s a r yt oo p t i m i t 硷t h ea l g o r i t h m so fc o m p r e s s i o nc o d i n gi no r d e r t oi m p r o v et h ec o d i n ge f f i c i e n c y , e s p e c i a l l yi nr e a lt i m ea p p l i c a t i o n s f i r s tw ei n t r o d u c et h eb a s i ct h e o r i e sa n ds t a n d a r d so fv i d e oc o d i n g , a n dt h e b a c k g r o u n do fh o m ea n da b r o a d n e x tw es i m p l yi n t r o d u c e dt h es t r u c t u r eo fe n c o d c r a n dd e c o d e r , k e yt e c h n o l o g i e sa n dm a i np e r f o r m a n = o fh 2 6 4s t a n d a r d , e s p e c i a l l y d e s c r i b e do nt h em a i nt e c h n o l o g yi nv i d e oc o d i n gl a y e ro fh 2 6 4 t h e nw ea n a l y z et h e e n c o d e r sp e r f o r m a n c ea n dc o m p u t a t i o n a lc o m p l e x i t yo fh 2 6 4i nd e t a i l ,a n dr e s e a r c h d e e p l yo nt h ep a r to fp r e d i c t i o nm o d es e l e c t i o nw h i c hh a sah i g h l yc o m p u t a t i o n a l c o m p l e x i t y f i n a l l y , w ec o m p l e t e dt h r e ea s p e c t so ft h ew o r ka sf o l l o w si nf o c u s :f i r s t l y , w e a n a l y z et h ef a s ti n t r a - p r e d l c t i o nm e t h o di nd e t a i l s e c o n d l y , w ep r e s e n taf a s tm o d e s e l e c t i o nm e t h o db a s e do nt h r e s h o l db yu t i l i z i n gt h er e l a t i o n s h i p so fp r e d i c t i o nm o d e s o fn e i g h b o rm a c r o b l o e k sa n dt h ec o d i n gc h a r a c t e r so ft h er e e v a n tp r e d i c t i o nm o d e s , b a s e do nt h et h r e s h o l d , t h i sa l g o r i t h mc a r td e t e r m i n ew h e t h e rt h em o s tp r o b a b l em o d e c 觚b es e l e c t e da st h ef m a lf o r e c a s t i n gr e s u l t a n di te x c l u d e sm a s s i v eu s e l e s s i n t m - p r e d i c t i o nm o d e sa n da v o i d sm a n yu n n e c e s s a r yc o m p u t a t i o n sa b o u tm a n yc o s t s f i n a l l y , b yh a v i n gm a n yt i m e so fc o d i n ga c c o m p l i s h m e n ta n de x p e r i m e n t s , a n d c o m p a r i n gw i t ht h eo r i g i n a la l g o r i t h m , i tc a nb ed e m o n s t r a t e dt h a tt h i sa l g o r i t h mc a n d e c r e a s e st h ec o m p l e x i t yo ft h ei n t r a - p r e d i c t i o nd e c i s i o ne f f e c t i v e l y , a tt h es a m et i m e , i tm a i n t a i n st h ec o d i n gp e r f o r m a n c ef u n d a m e n t a l l y , a n dh a saf a v o r a b l ea d a p t i v e a b i l i t y k e y w o r d :h 2 6 4i n t r a - p r e d l c t i o n v i d e oc o d i n g c o m p u t a t i o n a lc o m p l e x i t y 创新性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容外,论文中不 包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或 其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均已在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:掰 日期:2 q z ! ;:! 兰 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生 在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业 离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学 校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部 或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文在 解密后遵守此规定) 本学位论文属于保密在年解密后适用本授权书。 本人签名;錾遂 聊躲逾导师签名:巴翌董! :! 1 2 垒 日期:型! ! i :竺 日期:之! z :兰:! 生 第一章绪论 第一章绪论 多媒体通信技术是当今世界科技领域中最有活力、发展最快的高新信息技术, 它时时刻刻都在影响着世界经济的发展和科学技术进步的速度,不断改变着人类 的生活方式和生活质量。多媒体通信是通过现有的各种通讯网来传输、转储和接 收多媒体信息的通信方式,几乎覆盖了信息技术领域的所有范畴,包括数据、音 频和视频的综合处理和应用技术,其关键技术是多媒体信息的高效传输和交互处 理,而曰益纷呈的视频压缩方法给全业务视频通信带来更大的发展空间。 1 1 论文研究背景 信息化的2 1 世纪,在对信息数据的获取、加工处理、传输、存储、决策和执 行等方面,新的理论和技术不断出现,数字图像处理与压缩编码技术作为计算机 科学研究的重要方向,不断为信息获取和交流的最主要的媒体一一图像,提供更新 的理论和技术支持,让多媒体通信技术不断地提高人们的生活水平和科技含量。 虽然数字信号有很多优点,但是如果由于视频本身的数据量非常大,给存储 和传输带来了很多不便,所以视频压缩得到了非常广泛的应用。比如我们熟悉的 v c d ,、d v d 、数码摄像机、u s b 摄像头、可视电话、视频点播系统、视频会议 系统、数字监控系统等等,其实都使用到了视频压缩技术。数字视频压缩技术很 好地解决了上述困难,压缩后信号所占用的频带宽度大大低于原有的模拟信号的 频带宽度。 由于视频压缩编码技术的重要性,它一直都在不停的发展着,从传统的熵编 码技术、预测编码和变换编码技术到现在的模型编码、小波变换、神经网络等新 的编码技术层出不穷,视频压缩编码技术可谓日新月异。 随着图像编解码技术的日益发展,许多的研究工作者对视频编码、视频处理 提出了新理论和新方法,同时各种国际组织参与视频标准的制定。如i s o i e c 成 立了j p e g 0 0 i n tp h o t o g r a p h i ce x p e r tg r o u p ) 和m f e g ( m o v i n gp i c t u r ee x p e r t sg r o u p ) 并先后完成了j p e g 、j p e g 2 0 0 0 、m p e g 1 【i 】、m p e g - 2 【2 】和m p e g 4 【3 标准的制 定;i t u t 也先后制定了h 2 6 1 1 4 1 、h 2 6 3 n 和h 2 6 4 n 等一系列国际数字视频压 缩编码。它们为视频编码技术的发展起了巨大的推动作用。视频压缩编码技术己 成为多媒体通信技术发展中最有活力的研究领域之一,同时也是未来多媒体通信 技术领域的研究热点和重点。 h 2 6 4 快速帧内预测算法研究 1 1 1 视频压缩编码的重要意义 模拟视频只能提供有限的交互能力,例如t v 频道选择、v c r 前后快速搜索 和慢速重放等等,使用起来非常不便。模拟视频的编辑与处理必须经过视频采集 和数字化,然后转换成数字图像序列再进行数字处理,但是模拟信号数字化后的 数据量是非常大的。例如,数字电视图像中的s i f 格式、n t s c 制式、彩色、4 :4 :4 采样,每秒的数据流量可达6 0 8 m b ;大家在网上看的p 2 p 电视,以c m 大小的 一路视频为例计算,即分辨率为3 5 2 x 2 8 8 ,假设帧率采用每秒2 5 帧,色度取样4 : 2 :0 ,则这样一路视频,如果不经任何压缩,码率将为3 5 2 x 2 8 8 x 3 2 x 2 5 x 8 = 2 9 m b p s ,即每秒钟需要传递的数据量为2 9 m 。而现有的家庭宽带用户,带宽一般 仅在5 1 2 k b p s 2 m 之间,试问如何接收? 如此高的传输码率目前任何实用的存 储、传输及数字处理系统都难于胜任。而且根据实验表明,1 7 6 x 1 4 4 的y 1 原始 视频在1 0 m b p s 的l a n 上传送速率是3 帧,秒左右。由此可见,未压缩的视频在 i n t e m e t 上传输的效果是不太现实的,而且会很容易占用i n t e m e t 资源,造成网络 拥塞甚至崩溃。所以,要实现图像数字化处理,就必须大幅度对视频数据进行基 于各种算法措施的压缩。 数字图像技术及其硬件的最新发展使得数字视频在电视、计算机和电信工业 中的应用发展极为迅猛。消费业和商业应用更是促进对数字视频技术和设备的研 究开发。视频的数字表示、处理和传输有模拟视频不可替代的优越性,主要表现 在以下几个主要方面: 1 最佳的互操作性,使得视频的随机访问变得极为容易、目标检索也成为可能; 2 数字视频系统的开放式结构为同一可分级数字视频码流可以提供不同的空间、 时间和信噪比分辨率,能按信道和存储媒体要求变速率传输和存储; 3 提供最为强大的视频编辑和处理能力,使剪贴、缩放、去噪声、增强和多码流 混合等极为方便。视频质量不会因多次编辑而严重受损; 4 对信道噪声的具有鲁棒性,极易加密; 5 在同一多媒体平台上综合多种视频应用,不同标准间转码容易实现; 1 1 2 视频压缩编码的主要方法 视频压缩主要就是要通过基本的压缩技术消除数据中的冗余,数据中的冗余 大多分为三类,空间冗余,时间冗余,统计冗余。所以,消除冗余的方法也相应 大致可分三类:去除空间冗余,通常用变换编码;去除时间冗余,通常用运动补 偿;去除统计冗余,通常用信息熵编码。另外还有其他一些提高图像视觉质量的 第一章绪论 3 方法,比如量化,滤波等技术。 除了以上几类基本技术外,近些年又出现了模型的编码技术 7 1 嘲,基于对象 ( o b j e c tb 勰e d ) 的编码技术【9 j ,可分级的编码技术【珥等一系列技术。可分级的编码 技术可以为具有不同计算资源、带宽资源的用户提供不同的解码图像质量,具有 一次编码多级多次解码的优点。模型编码的关键是对特定的图像建立模型,并根 据这个模型确定图像中景物的特征参数,如运动参数、形状参数等。基于模型的 编码方法,适合于特定视频内容的编码,如视频压缩标准m p e g - 4 中引入的人脸 编码部分f l 研,它对运动的人脸编码效果很好。基于对象的编码技术是m p e g 4 的 最大特色,它把对象作为视频压缩的基本单位,可以提供给用户更多的交互性功 能,就使用的编码技术而言,主要是任意形状的图像块的压缩,比如使用形状自 适应的d c t 变换鲫阴等等。 视频的编解码需要一定的资源的支持,按照可分级的资源的不同,可以分为: 采样率可分级,复杂度可分级,带宽可分级等等。以上三种方法它们的基本压缩 技术仍然是前面讲的三种压缩技术:变换、预测和熵编码四p o 】。 1 1 3 主要的压缩编码标准介绍 近年来,一系列国际视频编码标准的制定,极大地促进了视频压缩编码技术 和多媒体通信技术的发展。视频压缩编码标准的制定工作主要是由国际标准化组 织i s o 和国际电信联盟i t u 完成的。由i t u 组织制定的标准主要是针对实时视频 通讯的应用,如视频会议和可视电话等,它们以h 2 6 x 命名;而由i s o 和i e c ( i n t e r n a t i o n a le l e e t r o t e c h n i e a ic o m m i s s i o n ,国际电工委员会) 的共同委员会中的 m p e g ( m o v i n gp i c t u r ee x p e r tg r o u p ) 专家组制定的标准主要针对视频数据的存储 ( 如v c d 和d v d ) ,广播电视和视频流的网络传输等应用,它们以m e p g x 命名。 图1 1 按照时间顺序表述了视频编码标准的发展历程。 图1 1 视频编码国际标准的发展 4 h 2 6 4 快速帧内预测算法研究 在i t u 和i s o i e c 所制定的这些标准中,并没有对视频编码的具体算法做硬 性规定,而仅仅是定义了相应的解码方法和比特流语法,使得对于符合某一标准 的压缩码流,所有的解码器都能够得到相同的输出结果,这也为标准的具体应用 带来了最大限度的自由度。下面我们就对几种典型的国际视频编码标准做简要介 绍。 一、m p e g 系列标准 1 m p e g 1 m p e g - i 制定于1 9 9 2 年,是针对数据传输率1 5 m b p s 以下的数字存储介质图 像及其伴音编码的国际标准,共分为图像编码、声音编码和系统( 同步和复用) 3 个部分。该标准主要用于在各种数字存储介质( c d - r o m ,d a t , w i n c h e s t e r 盘等) 上存储同步和彩色运动视频信号,在1 2 m b p s 速率下的视频质量可与v h s ( 家用 视频系统) 所记录的模拟视频质量相媲美。m p e g 1 对色差分量采用4 :1 :1 的二次 采样率,可优化为中等分辨率,并在优化的模式下采用所谓的标准交换格式( s r d 。 其视频压缩率约为2 6 :1 。m p e g - 1 标准采用了运动估计、运动补偿、变换编码等 技术,并规定了编码位流的表示语法和具体解码方法。由于m p e g - 1 标准是针对 数字存储的应用而制定的,因此它的编解码器是不对称的,其编码端的复杂度通 常要远远高于解码端。 2 m p e g - 2 ( h 2 6 2 ) m p e g - 2 标准是由i s o 的m p e g 专家组和i t u - t 的第1 6 研究组与1 9 9 4 年共 同制定的,全称为“运动图像及其伴音的编码”,在i n l t 的协议中也被称为h 2 6 2 建议( r e c o m m e n d a t i o nh 2 6 2 ) 。m p e g 2 的传输速率为3 m b p s 1 0 m b p s ,主要针对 数字电视和高清晰度电视( a d r v ) 所需要的视频及伴音信号,此外还兼顾了与 a i m 信元的适配问题。 m p e g 2 在m p e g 1 的基础上做了相应的扩展,从多方面提高了编码参数的 灵活性以及编码性能。它综合采用了运动补偿的帧问预测、空间域离散余弦变换、 自适应量化和可变长编码的混合编码。m p e g 2 视频编码标准是一个分等级的系 列,按编码图像的分辨率分成4 个等级( l e v e l s ) , 按所使用的编码工具的集合分成 五个类另u ( p r o f i l e s ) 。“等级”与“类别”的若干组合构成m p e g 2 视频编码标准在 某种特定应用下的子集,对某一输入格式的图像,采用特定集合的压缩编码工具, 产生规定速率范围内的编码码流。目前m p e g - 2 标准已经在d v d 存储和数字电 视广播方面得到了广泛应用。 3 口e g 4 在m p e g 1 和m p e g 2 之后,i s o 的m p e g 工作组于1 9 9 9 年4 月出台了 m p e g - 4 标准( i s 0 1 4 4 9 6 ) ,并在1 9 9 9 年1 2 月提出了第二版的i s o 最终草案 ( i s 0 1 4 4 9 6 - 2 f c d ) 。m p e g - 4 提出了音视频对象( a u d i ov i d e oo b j e c t , a v o ) 的概念, 第一章绪论 5 并在此基础上实现了许多新的功能,为各种多媒体应用特别是基于i n t e m e t 和移 动网络的应用提供了理想的工具,如基于内容的编码、错误掩盖和基于内容的可 伸缩性等。与m p e g 前两个图像压缩标准相比,m p e g - 4 为多媒体数据压缩提供 了一个更为广阔的平台,更注重于定义一种格式和框架,而不是具体的算法,其 出发点就是希望建立起一个更自由的通信与研发环境,可以在系统中加入许多新 的算法,为使用计算机软件实现编码和解码提供更大的方便。它可以将各种各样 的多媒体技术充分应用于编码中,除包括压缩本身的一些工具、算法外,还包括 图像分析和合成、计算机视觉、计算机图形学、虚拟现实和语音合成技术。 4 口e g 7 和 d 口e g 2 1 m p e g - 7 1 1 】标准称为“多媒体内容描述接口”( m u l t i m e d i a c o n t e n t d e s c r i p t i o n i n t e r f a c e ) ,目的是制定一套描述符标准,用来描述各种类型的多媒体信息及它们 之间的关系,以便更快更有效的检索信息。该标准的第4 版己于2 0 0 0 年1 0 月发 布,它通过标准化一种用来定义描述方案的语言,即描述定义语言( d e s e r i p t i 锄 d e f m i t i o nl a n g u a g e ) ,使带有与之相关的m p e g - 7 数据的a v 素材,就可以被加 上索引,并可进行检索。这些媒体材料可包括静态图像、图形、3 d 模型、声音、 话音、电视以及在多媒体演示中它们之间的组合关系。 在m p e g 7 的基础上,i s o 又于1 9 9 6 年开始着手m p e g 2 1 标准【1 2 】的制定工 作。m p e g - 2 1 是一个支持通过异构网络和设备使用户透明面广泛地使用多媒体资 源的标准,其目标是建立一个交互的多媒体框架,该框架能够使遍布全球的各种 网络和设备上的数字资源被透明和广泛的使用。 总体来说,m p e g 7 和m p e g - 2 1 其应用范围己超出了传统的传输和存储范 畴,而是转向多媒体检索、交互式多媒体操作和内容管理等领域,己经不是一种 单纯意义上的视频编码标准。 二、i i l 2 6 x 系列标准 1 h 2 6 1 h 2 6 1 建议是最早出现的视频编码国际标准,由盯u t 第1 6 研究组为在窄带 综合业务数字网f n i s d n ) 上开展双向声像业务( 可视电话、电视会议) 而制定的。 该建议于1 9 9 0 年通过,其全称为“1 3 6 4 k b i t s 视听业务的视频编解码器”,其中 p = l 3 0 ,用以根据传输线路的带宽调整图像质量。h 2 6 1 只对c i f 和q c i f 两种 图像格式进行处理,采用的算法结合了可减少时间冗余的帧间预测和可减少空间 冗余的d c t 交换的混合编码方法,主要由运动估计卒 偿,d c t 变换和h u f i n a n 编码等部分组成。由于该建议主要针对实时业务,因而希望编解码的延时尽可能 小,所以只利用前一帧做参考帧进行前向预测,且编解码器的复杂程度基本对称。 6 h 2 6 4 快速帧内预测算法研究 2 h 2 6 3 h 2 6 3 建议是i t u t 提出的关于码率低于6 4 k b i t s 的窄带电信信道视频编码 的基本算法,于1 9 9 6 年正式通过。它以h 2 6 1 为基础,同时吸收了m p e g 等其 他一些国际标准中有效合理的部分,如半像素精度的运动估计、非限制运动矢量、 高级预测模式、p b 帧等,使其性能优于h 2 6 1 。h 2 6 3 建议不仅着眼于利用 p s t n ( p u b l i es w i t c h e dt e l e p h o n en e t w o r k ,公共开关电话网络1 传输,而且兼顾 g s t n 移动通信等无线业务,作为视频编码解码的核心算法被广泛应用于视频电 话终端如n u - t 的h 3 2 4 ( p s t n ) ,h 3 2 0 ( i s d n ) 和h 3 1 0 ( b i s d 中。 在h 2 6 3 之后,i n j 又相继于1 9 9 8 年和2 0 0 0 年制定了h 2 6 3 吖h 2 6 3 v 2 ,h 2 6 3 第二版) 和h 2 6 3 h 饵2 6 3v 3 ,h 2 6 3 第三版) 。h 2 6 3 + 和h 2 6 3 + + 是h 2 6 3 标准的 扩充并与之兼容,主要是在h 2 6 3 的4 种可选模式的基础上又附加了新的可选模 式和其他一些附加特性,目的是拓宽应用领域、提高压缩效率和错误掩盖能力。 3 h 2 6 4 h 2 6 4 作为面向电视电话、电视会议的新一代编码方式,最初是由1 1 r u 组织 的视频编码专家组v c e g 于1 9 9 8 年开始制定的,目标是在同等图像质量条件下, 新标准的压缩效率比任何现有的视频编码标准要提高1 倍以上。直到2 0 0 1 年底, m p e g 组织也加入了i t u t 的v c e g 组织,组成了联合视频专家组( j o i n tv i d e o t e a m ,t ) 共同完成制定工作。h 2 6 4 标准草案于2 0 0 3 年3 月正式获得通过。h 2 6 4 仍基于经典混合编码算法的基本结构,在变换编码、熵编码和运动估计等方面采 用了一系列先进技术,是视频编码技术和图像工程的最新研究成果,其性能超越 了以往所有的视频编码标准,具有光明的应用前景。 1 2 视频压缩编码的国内外现状 和以前视频编码标准相比较,h 2 6 4 是t 制定的目前编码效率高,网络适 应性强的最新视频编码标准。 在相同的码率通常情况下下,h 2 6 4 能够获得更好的编码效率和最好的图像 质量。尤其在低码率视频编码方面比m p e g _ 4 有明显提高,非常适于低带宽高质 量网络视频应用的需要。统计表明,在相同图像质量下,h 2 6 4 比h 2 6 3 + 或 m p e g - 4 简单配置要节省近5 0 的码率i ”j 。虽然h 2 6 4 标准可以取得非常优异的 编码性能,但是由于h 2 “中引入了多种新的编码技术,如采用了从1 6 1 6 到4 4 的7 种预测块模式以适应图像不同细节分布的特性:多参考帧预测模式和高精度 运动矢量( 1 4 像素精度) 以提高预测精度和编码效率;与量化相结合的整稀疏变换 不仅可以仅采用加减移位完成变换并且可以实现更为精确的量化步长;增强的帧 内预测提高了i 帧的编码效率;选用了基于上下文的变长编码( c a v l c ) 和算术编 第一章绪论7 码( c a b a c ) 有效地提高了熵编码性能等。为了获得最好的编码效率,h 2 6 4 采用 了r d o 技术,这意味着编码器要花费大量时间比较各种模式组合得性能,包括 帧内和帧间预测模式。与m p e g - 4 简单配置相比,h 2 6 4 主要配置下解码复杂度 提高了3 倍以上,而编码复杂度更是增加了l o 倍以上。为硬件和软件进行实时编 码都增加了难度。因此,在面向实时传输压缩过程中,提高h 2 6 4 编码效率成为 目前视频编码中十分重要的技术问题。 通过对h 2 6 4 编码器各个算法模块进行复杂度分析可以看出,帧间预测和帧 内预测及模式决策占整个运算量的6 0 0 0 - - 7 0 。所以,若对h 2 6 4 编码器迸行优化, 预测与模式决策模块应作为首选。近年来,很多学者为了提高h 2 6 4 编码效率作 了大量的工作,提出了很多快速算法。针对h 2 6 4 运动估计过程中7 种运动估计 模式计算量过大的问题,从最早的全搜索,到三步法,钻石型搜索算法,六边形 搜索算法以及由此衍生的其它一些快速运动搜索算法【1 4 1 ”】。这些快速算法极大的 提高了h 2 6 4 的编码效率。使得帧间运动估计不再像以前那样占用时间比例很大 ( 它的速度已经提升了2 0 多倍) ,因此,提高帧内编码速度成为目前新出现的一 个问题。 目前减小帧内预测复杂度的方法大体上可分为两类:一类是简化代价函数: 另一类是缩小预测模式选择的范围。对于第二类方法,可以利用当前块及其周围 像素的某些特征,预先排除某些可能性很小的预测模式,或提前终止某些可能性 小的模式的代价计算,从而降低帧内预测的复杂度。为了获取图像的某些特征, 可以直接在空间域上进行分析,也可以在变换域上进行分析。 1 3 本文的研究内容和结构安排 h 2 6 4 优异的压缩性能和良好的网络亲和性将会使得它在数字视频全面的代 替模拟视频进行处理和传输已成为技术发展的今天,在数字电视广播,视频实时 通信,网络视频流媒体传递以及多媒体短信等各个方面发挥重要作用。如何降低 h 2 6 4 实现的复杂度,使得它可以有效地应用在实际的通信中,已经成为学术界 普遍关注的热点。 本论文以h 2 6 4 视频编码国际标准为研究对象,在深入研究h 2 6 4 算法的基 础上,仔细分析了h 2 6 4 编码过程的复杂度,对如何提高帧内编码速度问题,还 有h 2 6 4 桢内预测模式决策部分进行了优化,共分为五章。 绪论部分简要介绍了视频压缩编码的主要原理和方法,以及m p e g x 和h 2 6 x 等数字视频压缩编码标准及其发展过程。 第二章主要介绍了h 2 6 4 编码标准中的编解码器结构,编码层中的一些关键 技术和h 2 6 4 视频编码的主要性能情况。 8 h 2 6 4 快速帧内预测算法研究 第三章首先详细分析了h 2 6 4 基本模块及其算法复杂度,然后针对其中计算 复杂度很高的帧内预测模式选择部分进行了分析。 第四章对于快速帧内模式选择方法的现状进行了分析,在此基础上提出了一 种快速模式选择算法,并在p c 平台上进行了仿真试验,测试结果表明本文提出 的快速帧内模式选择算法能比较的有效提升编码的速度。 第五章中是全文的总结与展望。 总结本论文的全部工作,并提出了进一步研究需要解决的问题。 第二章h 2 6 4 视频编码标准和关键技术9 第二章h 2 6 4 视频编码标准和关键技术 h 2 6 4 是i t u t v c e g 和i s o m p e g 联合颁布的新一代视频压缩标准,和以往 的视频压缩标准及技术相比,h 2 6 4 不仅具有更高效的压缩性能,而且具有良好的 网络适应特性。本章首先简单介绍h 2 6 4 标准的基本结构和主要特点,然后详细 分析h 2 6 4 标准的视频编码层( v c l ) 采用的各种技术,最后给出h 2 6 4 视频编码层 的性能。 2 1h 2 6 4 视频编码标准介绍 h 2 6 4 制定的目标是提供一种比已存标准性能更高的视频编码标准,主要体现 为较高的编码效率、友好的网络交互性和精简的语法表示。基于此目标,h 2 6 4 使 用了两层编码结构,其中视频编码层( v c l :v i d e oc o d i n gl a y e r ) 实现对视频内 容的高效压缩编码,采用了典型的基于离散余弦变换( d c t ) 和运动补偿( m c ) 的混合编码方法:将图像划分成小块进行编码;利用空域预测和变换技术去除数 据的空间冗余;利用运动估计和补偿技术,去除数据的时间冗余;对残差块施行 量化和熵编码,进一步去除冗余。另外,网络抽象层( n a l :n e t w o r k a b s t r a c t i o n l a y e r ) 负责对压缩数据打包以适应在不同网络环境下传输的要求。目前,传输和 存储系统主要分为两大类面向字节流的系统以及面向包传输的系统,j v t 定 义了n a l 单元到这两类系统之间的映射关系。 图2 1h 2 6 4 编码器分层结构 本文研究的主要内容是视频编码层。因此下面将对v c l 层进行重点介绍。 1 0i i 2 6 4 快速帧内预测算法研究 2 1 1h 2 6 4 的视频编解码器结构 i - 2 6 4 编解码器如图2 2 图2 3 所示【1 6 1 ,包括了两个数据流路径;前向路径和 重建路径。为了突出编解码器的相似之处,解码器的数据流路径由右向左显示。 ii 三竺厂1 l 苎三厂 堕瓢 = j 塑肾 暗矗 - _ _ 。州 钧网i:。r = ;a 。厝;芦l 图2 2h 2 6 4 编码器 幽2 3 h 2 6 4 解码器 1 编码器( 前向路径) 在编码端,f n 表示当前输入帧。帧以宏块为单位进行处理( 对应原始图像的 1 6 x 1 6 个象素) 。每个宏块都按帧内或帧问模式进彳亍编码。在任何一种情况下,都 由重建帧得到一个预测宏块p 。在帧内模式下,p 是由当前帧第n 帧中己进行 编码、解码和重建的采样点构建的( 在图2 2 中用“l l f 。”表示,使用未滤波的采 样点构建p ) 。在帧间模式下,预测宏块p 由一个或多个参考帧通过运动补偿预测 进行构建。在图中参考帧是作为己编码的帧f n 1 出现的。每个宏块可由一个或多 个已经进行编码和重构的前帧或后帧( 以时间为顺序) 预测得到。 将预测宏块p 从当前宏块中减去,得到一个残差宏块d n 并对它进行变换、量 化,得到x 。对变换系数x 重新排序而后进行熵编码。熵编码后的系数与附加信 息都被递交给网络提取层( n a l ) 进行传输或存储。 第二章h 2 6 4 视频编码标准和关键技术 2 编码器( 重建路径) 量化后的宏块系数x 被解码,用来重建一个帧,进而对下一个宏块进行编码。 系数x 经过反量化和反变换,得到残差宏块d 。它与原来的残差宏块d n 己经不 同,量化的过程带来了精度上的损失,所以d 。较d n 有失真。 预测宏块p 与d f d 相加得到一个重建宏块u f 。( 对原宏块的恢复。存在失真) 。 用滤波器去除块效应,重建的参考帧由一系列的宏块聪构建。 3 解码器 解码器从网络提取层接收压缩的比特流。对数据元素进行熵解码、重排序, 得到一组量化后的系数x 。而后再对x 进行反量化和反变换,得到d 。( 它与编 码器中所示的d t n 相同) 。解码器用从比特流中解出的头信息,构建预测宏块p , 它与编码器中的预测宏块p 相同。p 与d 。相加得到i i f 二,再经过去方块滤波得到 重建解码宏块f 。 从图2 3 和以上的论述中我们可以看出,编码器中的重建路径是为了确保编码 器与解码器使用相同的参考帧构建预测宏块p 。否则,编、解码器中的预测宏块p 将会不同,从而导致编解码器之间的误差累积和“漂移( d r i f t ) ”现象。 此外h 2 6 4 标准中还支持数据分割( d a t ap a r t i t i o n ) ,即将各个宏块中的同种类 型数据集中放在一起传输。例如:可以将一个s l i c e 中所有宏块的直流系数放入一 个包,所有运动矢量放入另一个包,剩余的数据放入一个包。这样在传输出错的 情况下,有利于解码端进行误码掩盖。 2 1 2h 2 6 4 的v c l 层关键技术介绍 h 2 6 4 的v c l 层采用混合视频编码方法,其基本的编码算法思想是通过帧间 图像预测来减弱时间统计相关性;通过对预测残差信号进行变换编码来减弱空间 统计相关性。h 2 6 4 将各种新技术应用到混合视频编码的各个模块中,从而有效地 提高了编码性能。 2 1 2 1 图像的采集 人类的视觉系统分别感受场景的亮度和色度信息,而且对亮度细节的感受要 比对色度敏感。视频传输系统正是利用这一特点进行设计的。h 2 6 4 与以前的标准 一样,通过y c b c r 色彩空间传输视频信息,并且减少c b 和c r 色度信息的采样分 辨率。 h 2 6 4 使用的视频色彩空间将对色彩的表达分离成三个成分yc b ,c r 。分 量y 被称作l u m a ,代表亮度信息,两个色度分量c b 和c r 被称作c h r o m a ,分别代 1 2 h 2 6 4 快速帧内预测算法研究 表信号中的蓝色和红色分量与亮度分量之差。因为人类的视觉系统对亮度比对色 度更敏感,因此在h 2 6 4 使用的采样结构中,色度分量的采样个数是亮度分量的 四分之一( 在水平和垂直方向上都是二分之一) 。这被称为4 :2 :0 采样,每个采样 点的精确度均为8 比特。 图像分成固定大小的宏块,每个宏块覆盖的矩形区域包含一个1 6 x 1 6 的亮度 采样分量和相应的两个8 x 8 的色度采样分量。 2 1 2 2 片和片组 1 ) 片( s l i c e ) 一个视频图像可编码成一个或更多个片,每片包含整数个宏块( m b ) ,即每片至 少一个m b ,最多时每片包含整个图像的宏块。总之,一幅图像中每片的宏块数不 一定固定。设片的目的是为了限制误码的扩散和传输,应使编码片相互间保持独 立。某片的预测不能以其他片中的宏块作为参考对象,这样某一片中的预测误差 才不会传播到其他片中去。编码片共有5 种不同的类型,有比较普通的i 片、p 片、 b 片,还有s p 片和s i ,片,其中s p ( 切换p ) 是用于不同编码流之间的切换,它 包含p 和i 宏块。 2 ) 片组 片组是一个编码图像中若干m b 的一个子集,它可包含一个或若干个片。 在一个片组中,每片的m b 按光栅扫描次序进行编码,如果每幅图像仅仅取 一个片组,则该图像中所有的m b 均按光栅扫描次序编码。还有一种片组,叫做 灵活宏块次序f m o ,它可用灵活的方法,把编码m b 序列映射到解码图像中,m b 的分配用m b 到片组之间的映射来确定,它表示每一个m b 属于哪个片组。 一个图像可以被分成一个或几个s l i c e ,如图2 4 。因此在h 2 6 4 中一个图像是一 个或多个s l i c e 的组合。给定有效序列和图像参数集,s l i c e 就从比特流中解析出语 法元素,对s l i c e 表示的图像区域的采样值正确解码,而无需使用其它s l i c e 的数据。 l i l ce 并幔 i n ce 井i i l e l e 井二 图2 4 图像划分s l i c e 的一种方式( 未使用f m o ) 第二章h 2 6 4 视频编码标准和关键技术 llll 一豫象组辩i l ll 像条组群i ,0 。ll ”“ ll ;绢群o 豫条组器王 图2 5 将图像分成s l i c e 的两种方式( 使用f m o ) 利用f m o ,图像可以划分为许多宏块扫描图样,例如交织图样、点缀图样, 一个或多个前景像条组、剩余像条组,或棋盘型图样影射等。每个像条组分别传 送,后两种如图2 5 所示,左边宏块到像条组的影射证明在关注局部型的编码应用 中非常有用。右边宏块到像条组的影射证明适合保密型会议系统等应用。 2 1 2 3 帧内预测 在帧内预测模式中,预测块p 是基于已编码重建块和当前块形成的。对亮度 像素而言,预测块可以是1 6 x 1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论