(计算机应用技术专业论文)h264帧间算法的研究.pdf_第1页
(计算机应用技术专业论文)h264帧间算法的研究.pdf_第2页
(计算机应用技术专业论文)h264帧间算法的研究.pdf_第3页
(计算机应用技术专业论文)h264帧间算法的研究.pdf_第4页
(计算机应用技术专业论文)h264帧间算法的研究.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

(计算机应用技术专业论文)h264帧间算法的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

贵州大学2 0 0 6 届母 士学位论文 h2 6 4 帧间鞠:溃的) c 摘要 随着数字化技术的飞速发展,数字视频信号的传输技术更是受到人们的关 注。相比较其它类型的信息传输如文本和数据,视频通信需要占用更多的带宽资 源,因此为了实现在带宽受限的条件下( 如无线信道) 的传输,视频源码必须经 过大量压缩。随着数字视频编码技术的不断发展和成熟。出现了大量视频编码应 用方案。 h 2 6 4 是最流行的国际视频编码标准,它采用了很多全新的编码技术,太大 提高了传统编码标准的编码性能。帧间编码技术是视频编码标准中的关键技术, 在视频编码中占有5 0 一8 0 的运算量,已成为这一领域非常有挑战性的研究 课题。 在讨论了各种运动估计算法之后,本文汇集前人所提出的优秀思想,改善原 有算法中的问题,在连接的时候进行优化,最终提出新的帧间压缩算法。算法的 改进主要集中在对模块划分进行模式选择和模块划分后进行块匹配搜索两个方 面。在模式选择的时候利用已经不同的模式出现的频率不一样及相同或相近宏块 的运动矢量近视的特性,来有选择的略过一些模式。从而提高模式选择时的搜索 效率。在块匹配搜索时,我们用3 个模板来代替h 2 6 4 标准中原有的2 个钻石 模板来进行搜索,从而达到提高搜索效率的目的。 最后对用m a t l a b 软件对标准测试序列进行仿真测试。试验结果表明,新的快速 搜索算法在没有明显失真的情况下能有效的提高编码速度。 关键词:h 2 6 4帧阔编码快速帧闻编码宏块划分模式快速运动估计 4 贵州大学2 0 0 6 届硕士学位论文 h 2 6 4 帧问算法的研究 a b s t r a c t w i t ht h eg r e a td e v e l o p m e n to ft h ed i g i t i z e dt e c h n o l o g y ,p e o p l eh a v e p a i dm o r ea t t e n t i o nt ot h et e c h n o l o g yo fd i g i t a lv i d e os i g n a lt r a n s m is s i o n v i d e oc o m m u n i c a t i o n sr e q u i r ev e r ym u c hb a n d w i d t hi nc o m p a r i s o n w i t ho t h e r i n f o r m a t i o n t y p e s s u c ha st e x ta n dd a t a t h u st o a d a p t w i t h t h e b a n d w i d t h l i m i t e d c h a n n e l s ,e s p e c i a l l y w i r e l e s s c h a n n e l s ,v i d e o s o u r c e m u s tb ec o m p r e s s e de x t r e m e l y a st h ec o d et e c h n o l o g yo fd i g it a l v i d e od e v e l o p e dc o n s t a n t l ya n db e i n gm o r ea n d m o r em a t u r e ,al a r g en u m b e r o fv i d e oc o d ea p p l i c a t i o ns c h e m e sh a v ea p p e a r e d h 2 6 4 i st h ep r e v a l e n t e s ti n t e r n a t i o n a lv i d e oc o d i n gs t a n d a r d t h e s t a n d a r dh a sg r e a t l y e n h a n c e dc o d i n gp e r f o r m a n c er e l a t i v et ot h e t r a d i t i o n a lv i d e oc o d i n gs t a n d a r d s ,b e c a u s e i th a sa d o p t e dm a n yf i r e n e w c o d i n gt e c h n o l o g i e s i n t e r f r a m ee n c o d i n gt e c h n o l o g yi st h ek e y t e c h n o l o g yo fv i d e oc o d i n gs t a n d a r d ,i ta c c o u n t sf o ra b o u t5 0t o8 0p e r c e n t o f t h ew h o l ee n c o d i n gc o m p u t a t i o n ,s oi ti st h em o s tc h a ll e n g i n gr e s e a r c h t o p i ci nv i d e oe n c o d i n g a f t e rd i s c u s s i n gs o r t so fm o t i o ne s t i m a t i o na l g o r i t h m s 。t h i st h e s i s i n t e g r a t e se x c e l l e n ti d e a sp r o m o t e de a r l l y ,a n da d v a n c e st h e s ea l g o r i t h m s o p t i m i z e sm o d e so fa l g o r i t h m s ,f i n a l l y ,ip r o m o t si n t e r f r a m ee c o d i n g a l g o r i t h m m ym a i nw o r ki sh o wt os e l e c tm o d u l ew h i l ep a r t i t i o n i n gm o d e s a n dh o wt os e a r c hm o d e sa f t e rp a r t i t i o n e d w h i l ep a r t i t i o n i n gm o d e s , a c c o d i n gt os i m i l a ra t t r i b u t e so ft h ef r e n q u e n c yo fm o d e s ,s k i p i n gs o m e m o d e sa n do p t i m i z i n gt h e m ,e v e n t u a l l yp r o m o t i n gt h ee f f e c t i o no f s e l e c t i n g w h e nm a t c h i n gb e s tb l o c k s ,t h r e em o d u l e ss u b s t it u t et w od i a m o n d s e a r c ha l g o r i t h mi no r d e rt op r o m o t i n ge f f e c t i o no fs e a r c h i n g e v e n t u a l l y ,s i m u l a t i n gs t a n d a r dt e s t i n gs e q u e n c eb a s e do nm a t l a b t e s t i n gr e s u l t si n d i c a t e st h a tt h en e wq u i c ks e a r c ha l g o r i t h mp r o m o t e s s p e e do fc o d i n gu n d e rt h eu n e n v i d e c ea n a m o r p h i cc o n d i t i o n s k e yw o r d s :h 2 6 4 i n t e r - f r a m ee n c o d i n gm a c r o b l o c kd i v i d em o d ef a s t m o t i o ne s t i m a t e 5 贵州大学2 0 0 6 届硕士学位论文 h ,2 6 4 帧阃算法的研究 1 1 引言 第一章绪论 随着大规模和超大规模集成电路技术、数字信号处理技术、计算机技术、网 络技术、通信技术的跨越式飞速发展,人类社会逐步进入了信息时代,人们对通 信业务的要求不断增长。总所周知,i n t e r n e t 的带宽是非常宝贵的资源,而图像 信息拥有非常大的数据量,因此大量用户对视频流的访问需要很高的带宽。例如 考虑分辨率6 4 0 x 4 8 0 像素,全屏幕显示( f u l ls c r e e n ) ,真彩色( t r u e c o l o u r , 2 4 位) ,帧速2 5 3 0 帧每秒的视频,播放1 秒钟的视频画面数据量为:6 4 0 x 4 8 0 3 3 0 = 2 7 6 4 8 k b y t e 。而现在的大多数用户的网速每秒还没有l m b y t e 。这 样,两者之间的矛盾就非常突出。因此如果不经过压缩就进行视频传送,在现有 的传输媒介中,要占用这样的带宽来传送视频不仅困难,而且也是不经济的。 为了在i n t e m e t 上有效的、高质量的传输视频流,需要多种技术的支持,其 中数字视频的压缩编码技术是i n t e m e t 视频传输中的关键技术之一。通过高效 的视频压缩技术将视频进行大幅度的压缩,可以有效的降低对网络传输带宽的需 求。而且,随着数字家庭时代的到来,让我们把更多目光投向音、视频质量上来, 而这其中,以逼真的影像重现真实世界的视频编解码技术成为重中之中。视频编 解码标准自然成为各个组织、联盟争夺的制高点近年来国内、国际相继出台了许 多新的标准、草案。虽然,我们国家在这方面还处于一个相对落后的地位,但我 们国家也在积极地制定我们自己的标准。而这些国际标准、草案包含了世界上的 众多优秀科学家的研究成果,对于最新标准的研究和跟踪,对于提高我们的理论 水平和实际能力都有非常重要的价值。我们可以从中学到许多有价值的知识,并 应用到将来的学习和工作中。随着网络和多媒体技术的发展,越来越多的数字视 频业务不断涌现,j v t 于2 0 0 3 年提出了h 2 6 4 标准来适应各种业务增长对于运动 图像压缩率的更高要求,并使得编码后的视频数据能够在各种网络环境下传输。 h 2 6 4 标准的应用领域包括有线电视( c a t v ) ,卫星直播( d b s ) q h 的视频服务,基于 数字用户线( d s l ) 的视频服务,数字电视广播( d t t b ) ,互动存储媒体( 光碟等) ( i s m ) , 多媒体信件( m m m ) ,包括网络上的多媒体服务( m s p n ) ,实时会话业务( 视频会议, 贵州大学2 0 0 6 届硕士学位论文 h2 6 4 帧间算洼的研究 视频电话等) ( r t c ) ,远程视频监督( r v s ) ,以及串行存储媒质( 数字v t r 即磁带录像 机) 等。因此,对h 2 6 4 标准的研究具有重要的意义,它将有助于我们进行视频压缩 方法、多媒体通信以及网络性能优化等研究。 1 2 视频压缩技术简介 传统的压缩编码是建立在香农( s h a n n o n ) 信息论基础上的,它以经典的集 合论为基础,用统计概率模型来描述信源。由此产生了许多优秀的压缩算法,如 h u f f m a n 编码、算术编码等。但它未考虑信息接受者的主观特性及事件本身的具 体含义、重要程度和引起的后果,所以,压缩比率达不到很高。后来人们发现音 频和视频中所携带的许多信息对人来说是不敏感的。可以对这些信息进行大幅的 有损压缩,由此产生了许多优秀的视频、音频压缩算法。因此,压缩编码的发展 历程实际上是以香农信息论为出发点,一个不断完善的过程。 目前的标准主要分为两代: 第一代视频压缩编码 它是基于信号处理理论的编码方法,包括预测编码、正交变换编码、向量量 化编码等。 特点:算法可靠,技术成熟。 第二代视频压缩编码 第二代编码技术的基本思想是用图象结构模型和人的视觉系统模型来提高 编码的效率。第二代编码技术分为两类:基于局部特征的编码和面向边界、纹理 的编码。 特点:编码效率高,算法复杂:性能依赖于图象理解,方法还不成熟。 目前来说,国内外研究第一、二代编码技术的都有很多。研究第一代编码的 主要是从变换方法,块运动补偿等方面寻找更优化的算法。如:采用小波变换代 替离散余弦变换,采用更优化的运动补偿算法,改进的块匹配搜索算法等。研究 第二代编码的主要是从对象的提取,边界探测,纹理编码,参数化模型构造,参 数特征提取等方面进行研究。 随着各种编码理论的研究和发展,各种编码算法的软硬件实现技术也同趋成 熟。为了使其更便捷和广泛的应用于日常生活和生产中,国际电信联盟电信标准 2 贵州大学2 0 0 6 届硕士学位论文 h ,2 6 4 帧间算法的研究 部i t u - t ( t e l e c o m m u n i c a t i o ns t a n d a r d i z a t i o ns e c t o ro fi n t e r n a t i o n a l t e l e c o m m u n i c a t i o n su n i o n ) 和运动图象专家组m p e g ( m o t i o np i c t u r ee x p e r t s g r o u p ) 分别先后制定和公布了一系列视频、图像压缩编码标准,各自命名为 m p e g - x 和h 2 6 x ,成为当前视频压缩领域的两大标准体系。i t u t 主要针对低码 率视频和音频编码制订标准为h 2 6 x 系列;i s o i e c 主要提出了m p e g 标准它 不仅包括视频还有音频系统和复用等。 h 2 6 1 h 2 6 1 是于1 9 8 8 年被c c i t t 推出的。初衷是为了在速率为p x 6 4 k b i t s p = 1 - 3 0 的信道上传输可视电话与会议电视。因此其待压缩图像一般运动平缓、场景简单 ( 基本上是头肩像) 。图像格式为q c i f 或c i f 。值得注意的是h 2 6 1 仅对与兼容 性有关的码流语法、码流复用、解码过程等作了严格的限制性规定,而对诸如量 化级的自适应控制、运动估计、码率控制等对复原图像质量指标有重要影响但不 影响兼容性的部分不作限制性规定,给开发者厂商和用户提供了很大的活动空 间。 h 2 6 3 h 2 6 3 是i t u 于1 9 9 6 年提出的作为h 3 2 4 终端使用的视频编解码标准:是专 为中、高质量运动图像压缩所设计的低码率视频图像压缩标准。h 2 6 3 的码率较 h 2 6 1 的更低,单位码率可以小于6 4 k b p s ,且所支持的输入原始图像的格式也较 广,包括q c i f ,c i f ,h d t v ,i t u r 6 0 1 ,i t u r 7 0 9 等等。技术上,在h 2 6 1 的基本算法 基础上进行了改进,将运动矢量的搜索精度增加为半像素点搜索:同时增加了无 限制的运动矢量、基于语法的算术编码、高级预测技术和p ,b 帧编码等四个高级 选项:从而进一步降低码率和提高编码质量,使其更适于i p 视频会议和可视电话 等低带宽环境下的应用。 h 2 6 3 + 是h 2 6 3 的第二个版本。h 2 6 3 + 的宗旨是拓展应用范围,提高压缩效 率。它可以支持各种各样不同的图像信源格式,增加了多达1 2 种编码可选模式, 如高级帧内编码、去方块效应、参考帧选择、s n r 时域,空域可分级性等。它还 允许在码流内加入许多附加的信息,大大方便了用户的操作。 h 2 6 3 什是h 2 6 3 的第三版本。它于1 9 9 9 年底完全定稿。h 2 6 3 + + 在视频流抗 误码方面做了不少增强工作,提出了基于数据分类和可逆v l c 编码的抗误码组 合,同时扩展了参考帧选择模式为更灵活的反馈信息抗误码系统打下了坚实的基 贵州大学2 0 0 6 届硕士学位论文h2 6 4 帧间算往的研究 础。 m p e g 1 m p e g i 标准制定于1 9 9 3 年,主要面向速率为1 s m b p s 的视频信号的压缩编 码,音频主要面向每通道6 4 k b s 、1 2 8 k b s 以及1 9 2 k b s 的数字音频信号的压缩。 m p e g - i 主要用于在c d r o m 上存储同步和彩色运动视频信号。除了引八b 帧外, m p e g - 1 还引入图像组的概念,便于随机读取、快速正进退搜索和反向重放。另 外m p e g - 1 中设置了系统层s y s t e ml a y e r 及传送层t r a n s p o r tl a y e r 。 m p e g - 2 i p e g 一2 标准由m p e g 和i t u 联手于1 9 9 4 年1 1 月正式推出的音视频数字化压缩编 码标准:能提供3 m b p s 一1 0 j , i b p s 的传输率,可提供一个较广范围的可变压缩比以适 应不同的画面质量,存储容量及传输带宽的要求。目前,该标准已在计算机、多 媒体通讯特别是h t y r v 及交互式数字电视技术等领域得到广泛的应用。现在十分 普及的d y d 技术也是采用的 d p e g 一2 压缩标准:除以上应用外,m p e g 一2 还可用于广 播、有线电视网、电缆网络及卫星直播等提供广播级数字视频的压缩领域。 m p e g - 4 m p e g 一4 标准融合了图像分析与台成、计算机视觉、计算图形学、虚拟现实及 语言合成技术等多种理论提出的种音视频编码标准主要的特征是基于对象的 编码和基于模型的编码:同时还提供了一些基于对象的分级功能,以适应无线网 和互联网等窄带宽网络的传输。 m 呼e g 7 其正式名称为多媒体内容描述接e l ,它的目的是要规定一个描述各种多媒体 信息的描述子的标准集和定义其它的描述子和用于描述子结构和关系的描述方 案的标准方式。更重要的是描述子和描述方案考虑到面向用户是基于内容的。 m p e g - 7 标准中,最具有特色的相蓑应用方案是:】) 内容交换:一个可互操 作的内容描述标准使得来自不同视频音频数据库的多媒体内容交换成为可能。2 ) 多媒体内容的个性化窗1 2 :m p e g 一7 标准提供的检索和交换视频音频数据的结构 和语义注解能力,使得使用者在用户端能设定显示而无须要求从内容广播商再次 将其以不同格式下载一遍。3 ) 分配处理:独立于任何系统、应用和厂商,m p e g 一7 将保证视频音频资料描述的交换能力。因此,服从于此标准的,来源不同的数据 能适用各种各样的应用,诸如:多媒体检索系统和处理器,筛选系统等等。 贵州大学2 0 0 6 届硕士学位论文 h2 6 4 帧问算浪的研宄 m p e g - 2 1 随着多媒体技术的发展,相关的标准也层出不穷,这些标准涉及到多媒体技 术的方方面面:同时,各种不同的多媒体信息分布式的存在于全球的不同设备上, 要想通过异构网络有效的传输多媒体信息,就必然需要综合的利用不同层次的多 媒体技术标准。对觋有的标准进行相互衔接需要一个综合性的标准来加以协调。 m p e g - 2 1 标准就因此而产生。m p e g 2 1 标准的主要目标是:讨论是否需要和如何将 协议、标准、技术等不同的组件有机的结合起来,讨论是否需要新的规范,以及 讨论在具各上述条件的前提下如何将不同的标准集成在一起。 除了上述的国际视频压缩标准之外,中国也制定了具有自主知识产权的音、 视频编码标准,即2 0 0 3 年月由中国国家信息产业部“数字音视频编码标准组 ( a u d i ov i d e oc o d i n gs t a n d a r dw o r k i n gg r o u po fc h i n a ) ”正式发布的a v s 标准草案,a v s 即为“信息技术先进音视频编码”系列标准的简称。目前a v s 标准正在通过正式程序提请被评为新的国际音视频压缩编码标准。其编码效率己 达到肿e g 一2 的z 一3 倍,同时,相对于h 2 6 4 而言,压缩效率和图像质量上差别 很小。算法复杂度也相对有所降低。 1 3 视频压缩编码原理 视觉是人类获取信息最为重要的途径,外部世界丰富多彩的信息大部分是通 过视觉感知的。据统计人类通过视觉获取的信息占全部获取信息的6 0 。随 着计算机、数字通信、多媒体和网络技术的发展,所要处理、存储和传输的信息 量也不断增加。在许多应用领域,如视频会议系统、h d t v 、网络流媒体、无线 通信移动终端及视频监控系统等都需要更先进的压缩技术以实现对大量视频数 据的实时传输和数字存储。 视频编码传输的主要目的是在允许的一定图像失真条件下以尽可能少的比 特数来表征视频信息即使压缩系统的率失真曲线尽量接近率失真理论中所给出 的理论值( 见第四章的率失真理论基础) 。虽然高质量视频信源的信息量巨大, 但由于视频序列中包含有大量高度相关的冗余信息,这就给应用先进技术去除信 息冗余以实现对视频数据的大量压缩带来可能,这些冗余包括: 1 ) 空间冗余。空间冗余是指在同一帧画面中相邻像素间存在的相关性, 贵闸大学2 0 0 6 届硕土兰垡逢窭 h2 6 4 帧问算法的研究 特别是当这些相邻像素位于同一个视频对象中时,相关性极强。例如在图像的背 景区域。 2 ) 时间冗余。通常对于一个视频序列,除非场景切换,否则相继帧在时间 上都是连续的。在前后两帧中往往包含与当前帧相同的背景和对象。只是由于镜 头的转动和对象的移动使得空间位置发生变化。运动越缓慢,空间位置的变化越 小。因此视频序列在时域上存在极强的相关性。 3 】信息熵冗余。由信息论的有关原理可知,它为表示图像数据的一个像素 点,只要按其信息熵的大小分配相应比特数即可。然而对于实际图像数据的每个 像素,很难得到它的信息熵,在数字化一副图像时,对于每个像素是用相同的比 特数表示。这样必然存在冗余。信息熵冗余、空间冗余和时间冗余统称为统计冗 余,因为它们都决定于图像数据的统计特性。 4 1 心理视觉冗余。眼睛所感受到的图像区域亮度不仅仅与区域的反射光有 关,这种现象的产生是由于眼睛并不是对所有视觉信息有相同的敏感度。有些信 息在通常的视觉过程中相对来说不那么重要,这些信息可以认为是心理视觉冗余 的。心理视觉冗余的存在与人观察图像的方式有关,人在观察图像是主要寻找某 些比较明显的码本特征,而不是定量的分析图像中每一个像素的亮度。人通过脑 子里分析这些特征与先验只是结合以完成对图像的解释过程。 5 ) 结构冗余和知识冗余。图像的某些区域存在非常强的纹理结构,图像的 像素值有明显的分布模式,形成结构冗余。或者图像中包含的信息与某些先验知 识有关,例如人的五官位置对于人脸而言就是一种先验知识,这就形成知识冗余。 正是由于以上的原因,图像的数据压缩是可能的。图像数据压缩技术是多媒 体技术中十分重要的组成部分。如果不进行数据压缩,则无论传输还是存储都很 难实用化。 从图像恢复的角度上,信源编码方式可以分成两大类:无损编码和有损编码。 在无损编码中,原始的信息和信号可以精确地重构,因而信息可以进行任意多次 无损编码而不会由任何退化。无损编码仅仅去除了信源的冗余信息。一个有损编 码系统依靠量化实现,它的压缩是靠丢弃图像中的一些有用信息而达到的,由量 化去掉的图像细节信息是不可逆的,称为失真。 从编码方法上来说,可以把图像视频编码方法划分为熵编码、源编码和混 6 贵州大学2 0 0 6 届坝1 j 学位论文 h2 6 4 帧问算法的研究 合编码等。熵指的是具体数据的平均信息量。定义为在不丢失信息的前提下,描 述该信息内容所需的最小比特数。 熵编码( e n t r o p yc o d i n g ) 是纯粹基于信号统计特性的编码方法,它是一种无损 编码,解码后能无失真的恢复原图像。熵编码的基本原理是分配给出现概率较大 的符号一个短码字,而给出现概率较小的符号一个长码字,而给出现概率较小的 符号一个长码字,这样使得最终的平均码长很小。一个精心设计的熵编码器,其 输出的平均码长接近信源的信息熵,即码长的下限。熵编码把已压缩的数据流看 作是简单的数字序列,而不关心这些数据具体的语义。 源编码用于能够把原始数据中的相关数据与不相关数据区分开的场合。该方 法要考虑原始数据的语义,通过消除不相关数据以达到对原始数据流的压缩。与 熵编码不同,源编码常常是有损编码。在有损压缩方法中,原始数据流与已编码 的数据流相似但不相同。 混合编码是熵编码和源编码方法的组合。通常是几种不同的熵编码和源编码 方法组织在一起构成一总新的混合编码方法。如图1 l 所示。通常,由源编码 过程产生的输出数据流用做熵编码过程的输入数据流。图中的准备阶段,包括实 旌模数转换等必要的操作。现在常用的视频压缩中大多采用的是混合编码。 图1 1 混合编码示意图 1 4 视频压缩常用技术 预测编码 预测编码不是对一个像素直接编码,而是用同一帧( 帧内预测编码) 或相邻 帧( 帧间预测编码) 中的像素值来进行预测,然后对预测残差( e s t i m a t i o nr e s i d u a l ) 进行量化和编码。显然预测编码是利用图像数据中的时间冗余和空间冗余。线性 预测编码又称差分脉冲编码调制( d i f f e r e n t i a lp u l s ec o d i n gm o d u l a t i o n ) ,由于算 法简单,易于硬件实现,被各种视频编码标准采用。 变换编码 贵州大学2 0 0 6 届硕士学位论文 h 2 6 4 帧阈算法的研究 变换编码是构成当前主要视频编码标准的另一项基本技术,用来消除图像的 频域( 变换域) 冗余。正交变换编码通常是将空域相关的像素点映射到另一个正 交矢量空间,使得变换后的系数之间的相关性降低。常见的正交变换有,k l ( k a r h u n e n l o e v e ) 变换、离散傅立叶变换( d i s c r e t ef o u r i e r t r a n s f o n n ,d f t 、 离散余弦变换( d i s c r e t ec o s i n e t r a n s f o r m ,d c t ) 、w a l s h h a d a m a r d 变换和h a r r 变换。k l 变换是均方误差准则下的最优变换,但实现困难。在现行的编码标 准中,几乎都采用了性能最接近k l 变换的d c t 。由于d c t 采用实数计算, 而且大量的有效的快速算法的出现,使得硬件实现成为可能,因而被大量采用。 h 2 6 4 采用d c t 变换增益相同的4 x 4 像素整数变换,进一步减少了运算 量。变换编码除了采用正交变换编码外,还有子带编码和小波编码。由于正交变 换编码使得图像的能量集中在低频区域,表示图像中缓慢变化的内容,而图像的 边缘、细微的纹理等细节内容集中在变换域的高频区域。为了实现压缩,通常采 用同一个量化器进行量化,这样就牺牲了图像的细节部分,造成图像模糊。在高 压缩比时,基于块的正交压缩编码还会产生块效应和振铃效应,降低图像质量。 面子带编码则是将图像分离成几个不同频段的子带( s u b b a n d ) ,对不同的子带 设计不同的编码参数,提高图像质量。小波变换编码充分利用了小波分析在时域 和频域同时具有良好的局部化特性,与人眼视觉特性相符的多分辨率能力,分解 系数分布平稳,自然分级的金字塔式的数据结构的优点,在视频压缩领域引起广 泛关注。由于小波变换的金字塔式的数据结构每一层都包含整个图像的信息,只 是其中的分辨率不同。因此可以选择传送部分还是全部,非常简单而自然的实现 可分级视频编码,而且不会产生块效应。 统计编码 根据香农信息论的观点。信源冗余度来自信源本身的相关性和信源内部事件 概率分布的不均匀性。统计编码主要有基于概率特性的霍夫曼编码和算术编码, 以及基于相关性的游程长度编码三类。 霍夫曼编码严重依赖信源的统计特性,编码前必须要有信源概率分布的先验知 识。对于复杂的视频来说,只能用对大量数据统计后的获得的近似分布来代替, 因此实际应用时无法达到最佳性能,而且也不利于硬件实现。游程长度编码将符 号值相同的连续符号串用一个代表值( 符号值) 和一个游程长度( 符号个数) 来 贵州大学2 0 0 6 届硕士学位论文 h 2 6 4 帧阃算法的研究 表示。在视频压缩中,量化后的数据常常出现大量的连续为零的数据串t 游程长 度编码可以有效的降低表示它的比特数。算术瓤- 5 n m o ,1 z f 1 f l q 概率区间来 表示数据序列,每输入一位数据,将重新统计更新当前各符号出现的条件概率, 并根据该条件概率改变输出的概率数。 1 5 本文的主要工作和结构安排 本文对h 2 6 4 标准的核心技术包括帧内编码、帧问编码、整数变换、去块滤 波器、熵编码( 包括c a v l c 和c a b a c ) 等进行了深入的研究。在h 2 6 4 中, 帧间编码算法的运算量非常大,严重影响了h 2 6 4 的实时应用。所以本文对标 准中的搜索算法和模式选择进行了一些改进。 本文的内容安排如下: 第一章是绪论,说明了视频编码发展的历史背景,当前视频标准发展的历史 过程,简要介绍了一般视频编码技术的原理和采用的工具,最后介绍了在课题中 本人的工作。 第二章分析了h 2 6 4 视频编码标准。简要探讨了h 2 6 4 标准的编码流程, 以及其广泛应用。 第三章是h 2 6 4 的帧间编码算法,分析h 2 6 4 视频编码标准的帧间编码标 准,其中将着重论述基于块的运动估计搜索算法和帧间宏块模式选择算法,以及 前人提出的一些实现算法,并对其性能进行分析。 第四章主要论述本文的改进后新的快速帧间编码算法以及算法的性能分析, 主要改进方向是搜索算法和帧间模块选择。 第五章是结论和展望。 贵州大学2 0 0 6 届硕j :学位论文 h2 6 4 帧问算法的研究 第二章h 2 6 4 编码关键技术的分析 2 1h 2 6 4 的技术优势 得益于不断提高的硬件处理能力和不断优化的软件算法,h 2 6 4 通过不断增 加的计算复杂度成为了现阶段更为优秀的压缩标准,对比其他的压缩柘准,h 2 6 4 主要性能优势如下: i ) 更高的压缩效率:在同等图像质量条件下。h 2 6 4 的压缩比比m p e g 一2 高2 3 倍,比m p e g 4 高1 5 - 4 倍。 2 ) 更好的对网络传输支持功能:引入了面向i p 包的编码机制,支持网络中 视频的流媒体传播。 3 ) h 2 6 4 的应用目标广泛,可满足各种不同速率、不同场合的视频应用, 具有较好的抗误码和抗丢包的处理能力。可适应丢包率高,干扰严重的无线信道 中的传播。 4 ) 具有更好的可扩展性,可以生成从手机上使用的3 g 标准到高清晰度 ( h d ) 的视频图像。在现在的d v 格式下h 2 6 4 可以制作出完全高清晰度的视 频图像。 5 ) 自适应的延时特性:h 2 6 4 可以工作于低延时模式下,用于实时的通信 应用( 如视频会议) ,也能用于没有延时限制的应用,如视频存储,视频流服务 器等。 6 ) 错误恢复功能:h 2 6 4 提供了解决网络传输包丢失问题的工具,适用于 在高误码率传输的无线网络中传输视频数据。 7 ) h 2 6 4 的基本系统无需使用版权,具有开放的性质,能很好地适应i p 和 无线网络的使用,这对目前因特网传输多媒体信息、移动网中传输宽带信息等都 具有重要意义。 8 ) 更广泛的应用领域:从信道的广播、在光学或磁性设备上的存储到无线 及移动网络的视频流服务、彩信服务等,都可以看到h 2 6 4 的影子。 从上面的内容可以看出,现在h 2 6 4 已经逐步确立了其在视频压缩领域中的 霸主地位,下面我们将通过具体的分析h 2 6 4 a v c 系统来了解h 2 6 4 是如何实 o 贵州大学2 0 0 6 届硕士学位论文 h 2 6 4 帧间算法的研究 现压缩和其具体的技术。 2 2h 2 6 4 ,a v c 系统概述 2 2 1h 2 6 4 编解码流程 h 2 6 4 标准并没有明确的定义一个编码器,而是定义了编码后的t b 特流格式 和解码的方式。实际上,不论如何,一个合适的编码器和解码器可能都包含了帧 间预测、帧内预测、交换、量化、熵编码等模块。这些功能模块对于一个合适的 编码器来说也是必需的,这样同时也给编码器留有很大的变化余地。 下面就编码器和解码器的工作流程进行详细说明: 图2 1 编码器 h 埔煽码l 一+ 一一一输出码捕 l j 在图2 1 编码器框图中,f n 代表待编码的帧,这一帧图象被分成多个1 6 1 6 象素的宏块进行处理,每个宏块按帧内或帧间的模式进行编码,不论在那种 模式下,都有一个基于参考帧重构出来的预测宏块p 。在帧内编码模式下,p 由 当前帧中前面已经经过编码,解码重构模块但是没有进行滤波的宏块u f n 预测 得到,在帧间编码模式下,p 由一个或多个参考帧进行运动补偿预测得到。在图 中,参考帧用f n 1 表示,实际上参考帧可以是过去的第一帧或第二帧等或将 来的第帧或第二帧等( 在时间顺序上) 已经编码重构的图象。从当前编码的宏 块中减去p 得到一个残差块d n ,这个残差块将进行变换、量化得到x ( 量化后 贵州大学2 0 0 6 届倾f j 学位论文 h2 6 4 帧问算法的i f f f 究 的变换系数) 这些系数将被重新排序并进行熵编码,熵编码的系数和其他的解码 需要的边信息( 例如:运动预测的模式、量化器的步长和描述宏块如何进行运动 补偿的运动向量信息等) 一起形成比特流,比特流经过n a l ( n e t w o r k a b s t r a c t i o n l a y e r ) 层进行传输或存储。 在编码器中量化后的系数x 将被解码重构,以便为对将来的宏块进行编码 时使用。系数x 将通过逆量化和逆变换产生一个差分宏块d n 。差分宏块d n 和原始的宏块之间并不是完全一样的,因为经过量化运算后,会产生量化误差。 预测宏块p 和d n 进行加法运算得到一个重构宏块u f n ,通过一个滤波 器以减少块失真得到一个重构图象f n 。 图2 - 2 解码器 解码器从n a l 层中接收到压缩后的比特流。数据元素进行熵解码,然后重 新排序,恢复出来量化后的系数x ,x 再经过逆量化和逆变换得到d n 通过 从比特流中的解码出来的头信息,解码器产生一个预测块p ,p 的产生过程和编 码过程一样。p 和d n 相加得到一个u f n 最后再经过滤波器得到恢复图象 f n 。 在编码器中的重构路径和在解码器中的重构路径一样,是为了产生相同的预 测块p 。如果不是这样的话,将会导致在编码器和解码器中的p 不同,从而导 致附加的错误和漂移。 为了更加灵活的适应不同应用领域的要求,h 2 6 4 的设计概念上可以分为 两层:视频编码层( v c l :v i d e oc o d i n gl a y e r ) 负责高效的视频内奋表示,网 络提取层( n a l :n e t w o r k a b s t r a c t i o nl a y e r ) 负责以网络所要求的恰当的方式对 数据进行打包和传送。在v c l 和n a l 之间定义了一个基于分组方式的接口, 打包和相应的信令属于n a l 的一部分。这样,高编码效率和网络友好性的任务 贵州大学2 0 0 6 扁倾i 。学位论文 h2 6 4 帧问算法的研究 分别由v c l 和n a l 来完成。v c l 层包括基于块的运动补偿混合编码和一些 新特性。与前面的视频编码标准一样,h 2 6 4 没有把前处理和后处理等功能包括 在草案中,这样可以增加标准的灵活性。n a l 负责使用下层网络的分段格式来 封装数据,包括组帧、逻辑信道的信令、定时信息的利用或序列结束信号等。例 如,n a l 支持视频在电路交换信道上的传输格式,支持视频在i n t e m e t 上利用 r t p u d p i p 传输的格式。n a l 单元包括自己的头部信息、段结构信息和实际 载荷信息,即上层的v c l 数据。( 如果采用数据分割技术,数据可能由几个部 分组成) 。v c l 和n a l 概念在编码器上的体现如图2 3 。 图2 3 传输结构图 囡固 一一十一一一一一一 一 国囡 ,i 。一一r n a l - v c l 接口 n a l 解码器接仁j j 传输层t 日囱图日 2 2 2h 2 6 4 主要框架 在h 2 6 4 中定义了3 个框架,每个框架支持一系列的特定的编码功能。编码 器和解码器都必须遵守这些规定。 基线框架( b a s e l i n ep r o f i l e ) 支持帧阃和帧内编码;支持1 p 帧、c a v l c 编码、 s l i c e 分组、冗余帧、s l i c e 随机排序( a s 0 ,a r b i t r a r ys li c e0 r d e r i n g ) 及宏块 灵活排序( f m o ,f l e x i b l em a c r o b l o c ko r d e r i n g ) :主要应用于低时延的实时应用 场合。 主框架( m a i np r o f i l e ) 包括支持交错视频:支持b 帧:帧问编码时使用权重 预测:熵编码使用c a b a c 。它的主要应用是视频存储和电视广播。 扩展框架( e x t e n d e dp r o f i l e ) 不支持交错视频和c a b a c 。但增加了一些在进 行比特流切换时有效的帧模式s i ( s w i t c h i n gi ) 帧和s p ( s w i t c h i n gp ) 帧。能够 有效的提高从错误中恢复的能力。它的主要应用是流媒体应用。 贵州大学2 0 0 6 届硕士学位论文 h2 6 4 帧闻算法的研究 2 2 3 帧内预测 帧内预测的思想是根据同一帧内的相邻宏块间具有空间相关性,特别是当相 邻像素位于同一视频对象中( 如背景区域) 时,其相关性极强的特点,采用对点的 预测编码算法去除这种空间相关性,从而降低i 帧的编码码流长度。为了进一步 提高帧内编码的效率,h 2 6 4 利用相邻宏块的空间相关性来进行帧内预测编码。 对一个给定的宏块,利用其周围的相邻宏块对当前宏块进行预测。 h 2 6 4 的帧内预测编码中,对亮度块做帧内编码时可1 6 x 1 6 ( i n t r a l 6 x 1 6 ) 和4 x4 ( i n t r a 4x4 ) 两种方式进行块的划分,对于图像中变化缓慢的部分,采用1 6 x 1 6 块预测:对于需要进行细化的图像部分,则采用4 x 4 块预测。其中在i n t r a l 6x1 6 方式下有4 种预测模式,i n t r a 4 x4 方式下有9 种预测模式;同时,对于8 x 8 色度块, 使用i n t r a l 6 x1 6 对应的4 种预测模式。在进行预测前,要对与当前块相邻的左、 上方重构块进行分类,然后根据不同的分类,采用率失真优化算法,遍历其可用 的各种预测模式来选择最终的块划分方式及相应的预测模式算法。 2 2 3 1 1 6 1 6 亮度宏块祯内预测 1 6 x1 6 帧内预测使用与当前宏块相邻的3 3 个像素生成亮度分量的预测值。共 有4 种预测方式:模式a 垂直预测) ,模式1 ( 水平预测) ,模式2 ( d c 预测) ,模式3 ( 平 面预测) 分别利用当前宏块上方( h ) 、左方( v ) 和左上方己编码的像素来预测当 像素值,如图2 4 所示: 图2 41 6 1 6 亮度块的预测模式 h - r1r 1r h 卜 m e a n ( h + v ) h i 2 2 3 24 4 亮度块恢内预测 在h 2 6 4 中,对于每个1 6 x 1 6 宏块划分为1 6 个4 4 块,每个4 x4 块( 除了边缘 块特殊处理外) 中的每个像素都可用1 7 个最接近的已编码像素的不同加权和( 有 的权值可为,0 ) 来预测,即此像素所在块的左侧和上方的1 7 个像素。如图2 5 所 示:共有九种预测方式,如图2 5 所示 图2 - 5 帧内预测模式 、迅彦 芗n 4 贵州大学2 0 0 6 届硕士学位论文 h2 6 4 帧问算法的研究 2 2 3 38 8 色度宏块预测 色度宏块帧内预测在进行8 x 8 色度宏块帧内预测时,对u ,v 两个色度分量宏 块使用相同的预测模式。除d c 预测模式外,其它预测模式与1 6 1 6 亮度宏块帧内 预铡都十分相似。如图2 - 6 所示,4 个4 x 4 色差块分别用a ,b ,c d 表示:a ,b + c ,d 分 别表示当前块的相邻色差像素之和。 图2 - 6 色差块的帧内预测 ab cab dcd 2 2 4 帧间预测 对于视频图象来说,前一帧图象和后一帧图象之间有很多的相同( 相似) 部 分,这也是一种冗余信息,叫做时间冗余。对于序列图象来说,这是最主要的一 种冗余。,我们可以用前一帧图象中的相同( 相似) 部分的数据来预测当前帧中 的数据,然后对于预测数据与实际数据的差值进行编码压缩,能够大幅度的压缩 视频数据。帧间预测编码就是利用连续图

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论