（计算机应用技术专业论文）基于快速运动估计的h264编码系统设计与实现.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-19 格式：PDF 页数：66 大小：1.76MB 积分：0 举报 版权申诉

（计算机应用技术专业论文）基于快速运动估计的h264编码系统设计与实现.pdf_第2页

（计算机应用技术专业论文）基于快速运动估计的h264编码系统设计与实现.pdf_第3页

（计算机应用技术专业论文）基于快速运动估计的h264编码系统设计与实现.pdf_第4页

（计算机应用技术专业论文）基于快速运动估计的h264编码系统设计与实现.pdf_第5页

已阅读5页，还剩61页未读，继续免费阅读

（计算机应用技术专业论文）基于快速运动估计的h264编码系统设计与实现.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于快速运动估计的h2 6 4 编码系统设计与实现中文摘要基于快速运动估计的h 2 6 4 编码系统设计与实现中文摘要 h 2 6 4 a v c 是i t u tv c e g 组织和i s o i e cm p e g 组织共同研究的新型视频压缩标准，是目前图像通信研究领域的热点问题之一。它可以在保证相同图像质量的前提下，比h 2 6 3 ( b a s e l i n e ) 和m p e g 4 ( s p ) 节省多达5 0 的码流。然而，由于h 2 6 4 中引入了多种新的编码技术，使得编码器的计算量急剧增加。如何降低h ，2 6 4 复杂度，使得它可以有效地应用到实际的通信系统中，己经成为学术界普遍关注的课题。论文在对视频编码原理和h 2 6 4 整体进行剖析的基础上，结合h 2 6 4 运动估计的新特性及 j v t 己采纳的两个快速搜索的提案f 0 1 7 和g 0 1 6 ，对多参考帧与可变块搜索算法进行了优化。同时，针对这两提案的不足，提出了三个快速算法以加速搜索。实验结果表明，本算法同标准快速搜索法相比，在搜索5 个参考帧的情况下，能在p s n r 降低不超过0 0 5 d b 、码率增加不超过2 3 2 的情况下节省至少5 6 5 的时间。与此同时，论文还利用设计的新算法，实现了基于快速运动估计的h 2 6 4 编码器。关键词：视频编码，h 2 6 4 ，快速运动估计，提前中断作者：周翔指导老师：龚声蓉本文工作受江苏省自然科学基金“基于内容的视频分层编码传输体系与算法研究”( 编号：b k 2 0 0 3 0 2 9 ) 及“铁路信息科学与工程”部级开放实验室基金“基于内容的数字水印算法研究”( 编号：t d x x 0 5 0 1 ) 资助 t h ed e s i g na n di m p l e m e n to fh 2 6 4v i d e oc o d i n g s y s t e mb a s e do n f a s tm o t i o ne s t i m a t i o n a b s t r a c t h 2 6 4 a v ci st h el a t e s tv i d e oc o d i n gs t a n d a r do ft h ei t u tv i d e oc o d i n ge x p e r t g r o u p ( v g c g ) a n dt h ei s o i e cm o t i o np i c t u r ee x p e l sg r o u p ( m p e g ) i tc a r lp r o v i d e e q u i v a l e n to b j e c t i v eq u a l i t ya tad a t ar a t ea b o u t5 0 t h a nt h e i rr e q u i r e db yh 2 6 3 ( b a s e l i n e ) a n dm p e g 一4 ( s p ) h o w e v e lt h ec o m p l e x i t yo fh 2 6 4d r a m a t i c a l l yi n c r e a s e sd u et ot h e a d o p t i o no fan u m b e ro fn e w v i d e oc o d i n gt o o l s h o wt oc u td o w nt h ec o m p l e x i t yo f h 2 6 4a n dm a k ei tb ep r a c t i c a lh a sb e e nap o p u l a ri s s u e t h i sp a p e rs t u d ya n di m p r o v e m o t i o ne s t i m a t i o nw h i c hi st h em o s tc o m p l e x i t yc o m p o n e n ti nv i d e oc o d i n g a f t e r i n v e s t i g a t i n gt h en e w c h a r a c t e ro ft h em o t i o ne s t i m a t i o na n df a s ta l g o r i t h m sa d o p t e db y h 2 6 4 ，t h r e eh i g h e f f i c i e n c ym o t i o ne s t i m a t i o na l g o r i t h m sf i t t e dt oh 2 6 4a r ep r o p o s e d e x p e r i m e n t a lr e s u l t ss h o wt h a ta b o u th a l ft i m eo fm o t i o ne s t i m a t i o ni sc u td o w nw h i l e k e e p i n gt h es i m i l a rv i d e oq u a l i t ya n db i t - r a t e a tl a s t ，t h ed e s i g na n di m p l e m e n to fi n t r a p r e d i c t i o n ，i n t e g e rt r a n s f o r m ，q u a n t i z a t i o na n de n t r o p yc o d i n ga r ei n v e s t i g a t e d k e y w o r d s ：v i d e oc o d i n g ，h 2 6 4 ，f a s tm o t i o ne s t i m a t i o n ，e a r l yt e r m i n a t i o n w f i a e n b yz h o ux i a n g s u p e r v i s e db yg o n gs h r o n g r o n g t h i sp a p e rw a ss u p p o s e db yt h ej i a n g s un a t u r a ls c i e n c ef o u n d a t i o no fc h i n au n d e r g r a n tb i c 2 0 0 3 0 2 9a n db yt h ef u n do fs c i e n t i f i cr e s e a r c ho ft h eo p e nk e yl a b o r a t o r yo n r a i l w a yi n f o r m a t i o n s c i e n c ea n dt e c h n o l o g yo fr a i l w a ym i n i s t r yu n d e r g r a n t t d x x 0 5 0 1 i i 飞f 9 5 7 1 6 8 苏州大学学位论文独创- 陛声明及使用授权的声明学位论文独创性声明本人郑重声明：所提交的学位论文是本人在导师的指导下，独立进行研究工作所取得的成果。除文中已经注明引用的内容外，本论文不含其他个人或集体已经发表或撰写过的研究成果，也不含为获得苏州大学或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡献的个人和集体，均已在文中以明确方式标明。本人承担本声明的法律责任。研究生签名： j 萄讯日期： 1 。口6 t) 学位论文使用授权声明苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的复印件和电子文档，可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外，允许论文被查阅和借阅，可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。研究生签名：闭勰日期：导师签名三晖日期： 2 韭五】基于快速运动估计的h 2 6 4 编码系统设计与实现第一耄概述第一章概述近些年，随着数字信号处理技术、网络技术以及超大规模集成电路技术突飞猛进的发展，使得多媒体通信成为研究和应用的热点。其中，视频手机、高清数字电视、可视视频会议等数字视频通信产品正迅速的进入办公室和普通家庭中其，覆盖领域已触及到通信、多媒体、广播电视和计算机等各个角落。由于视频通信对带宽、时延等苛刻的要求使得视频业务成为整个多媒体通信发展的瓶颈。 1 1 课题研究背景数字视频是由数字图像的时间序列构成的，每一幅这样的图像称为一帧( f r a m e ) 。对于视频序列来说，帧速率就是时间序列的播放速率，通常的帧速率在2 5 3 0 f p s ( 帧秒) 之间，如果低于此帧速率，人眼就会感到画面出现延时，此外如果传输过程中发生误码，人眼就会感觉出现马赛克。从上可以看到，视频通信对多媒体传输有较高的要求。从2 0 0 3 年起，我们在江苏省自然基金资助下，开展了视频编码与传输的研究。2 0 0 5 年1 2 月，这一课题已经通过江苏省自然基金评审会的验收。本文工作是其中内容之一，重点在于研究视频编码中的运动估计问题。本文将首先介绍以数字视频处理与传输的特点及对视频进行编码的必要性，然后介绍视频编码目前已有的成果。 1 1 1 数字视频处理与传输的特点视频序列与以往静止图像的主要区别在于视频序列中包含重要的帧间时间相关性和定时信息。数字视频传输与图像通信有重要的区别。相对而言，图像通信是比较成熟和传统的数据传输业务，数字视频通信是新业务。视频通信与图像通信相比，实现更加困难，系统更加复杂。其主要原因体现在如下几个方面：视频通信的信源与信宿处理困难，需要复杂的编解码设备且一般编解码算法高度不对称，双向视频通信时，编解码均需实时完成。视频通信对信道的要求高，不仅物理上要有宽带传输媒体而且要求良好的高第一章概述基于快速运动估计的h 2 6 4 编码系统设计与实现层通信协议支持。压缩视频传输对信道的可靠性要求很高，虽然像a t m 这样的协议被专家认为是宽带多媒体通信的最终转移模式，但对于多用户交互式实时视频服务已经暴露出许多有待解决的问题。视频通信对信道的影响大而且要求高，由于视频数据量大，且难以预测某些视频传输参数，突发传输容易导致信道拥塞。对传输时延高度敏感，图像通信只要在较宽松的时间范围内最终完成数据传输，不会对质量产生影响。视频通信则不然，要保持良好的质量必须在确定的时刻完成指定帧的传送，否则不仅失去当前帧，还可能因无法预测后续帧而产生严重的失真传递，最终导致通信失败。视频通信既对时延敏感又对时延方差非常敏感，对于单向视频传输来讲，整个系统时延有很大的可接受范围，而时延变化增加不仅需要大量昂贵的视频缓存，也容易造成丢帧和失真传递。因此，在视频通讯中必须解决编解码问题、码率控制问题和差错纠正问题等一系列问题。本文主要解决其中关键问题之视频编解码中的运动估计问题。 1 1 2 视频压缩编码的必要性从前面分析可以看出：视频传输前需要使用一套编解码系统对视频通信的信源与信宿进行处理。尽管随着网络技术的发展，带宽越来越大，但网络在一定时间内不可能无限制扩大，此外人们对视频质量要求越来越高。下面将通过一个例子来说明视频编码的必要性。传输比特率是数据通信的一个重要参数，它反映每秒需要占用的网络带宽数。如果以高清电视的格式( h d t v ) 为例，假定1 秒的数字视频的帧速率为3 0 f p s ，它的每幅图像由1 9 2 0 行组成，每行有1 0 8 0 个像素点，每个像素采用2 4 个比特来存放亮度和色度分量，则每秒钟c i f 数字视频中的比特数为： 1 9 2 0 丰1 0 8 0 术2 4 木3 0 = 1 4 2 3l 佑目前中国用户常用的a d s l 宽带网络只能提供2 mb i t s 的速率，即使高档次的光纤接入也无法满足此要求。可见对于如此高的传输比特率目前的网络乃至未来一段时间内的网络都无法达到其要求。如果保存下来的话也将需要大量的硬盘空间，普通一 2 ，谭镯目嘉! ja翊翔绷朋强殂疆l 、 f 基于快速运动估计的h - 2 6 4 编码系统设计与实现第一章概述部电影通常有9 0 分钟即需要4 0 0 g 左右的硬盘空间，更不用提现在很流行的高清视频了，那将还需几倍的带宽和空间。但视觉是人类获取外部信息最重要的途径，因此必须对视频序列进行编码压缩，使其在保证一定重构质量的前提下，以尽量少的比特数来表征视频信息，从而满足人们的需要。所以，视频压缩编码技术一直是多媒体通信技术发展中最有活力的研究领域之一，同时也是未来多媒体通信技术领域的研究热点和重点。 1 1 3 现有的视频编码标准为了实现有效和可靠的视频通信，必须建立以一定压缩技术和通信协议为内容的编码标准。针对不同应用，国际上在不同时期出现了各种不同的私有和通用编码标准。目前通用视频编码标准主要由两大组织提出：国际标准化组织的运动图像专家组 ( m p e g ) 完成了m p e g - 1 、m p e g - 2 和m p e g - 4 标准的制定：国际电信联盟i t u t 的视频编码专家组( v c e g ) 也先后制定了h 2 6 1 、h 2 6 3 、h 2 6 3 + + 和h 2 6 4 的视频编码标准。它们为视频编码技术的发展起到了巨大的推动作用。本文将对它们先做一简单介【l “。 1 1 3 1h 2 6 1 h 2 6 1 是世界上第一个得到广泛承认并产生巨大影响的数字视频图像压缩编码标准，此后国际上制定的视频压缩标准m p e g 1 、m p e g 一2 、m p e g 一4 、h 2 6 3 等数字图像编码标准都是以h 2 6 1 标准为基础和核心。由于意识到会议电视和可视电话在综合业务数字网中的广泛应用前景，c c i t t 于 1 9 9 0 年制定了h - 2 6 1 标准，即p 6 4 k b i t s 上声像业务的视频编解码器。h 2 6 1 的目标是视频会议和可视电话，标准推荐的视频压缩算法必须具有实时性，同时要求最小的延迟时间。当p = i 或2 时，由于传输码率较低，只能传输低清晰度的图像，因此，只适合于面对面的桌面视频通信( 通常指可视电话) 。当p 6 时，由于增加了额外的有效比特数，可以传输较好质量的复杂图像，因此，更适合于视频会议应用。 h 2 6 1 采用c i f 和q c i f 格式作为可视电话和会议电视的视频输入格式。所有的编解码器必须支持对q c i f 格式进行操作，而c i f 格式则为选项。两种格式的最大图像帧频频率为3 0 0 0 0 1 0 0 1 ( 大约是2 9 9 7 ) 帧秒。在传输帧之间，编码器可以允许扔掉1 3 帧。第一章概述基于快速运动估计的h 2 6 4 编码系统设计与实现在h 2 6 1 标准将输入的c i f 和q c i f 格式的视频图像分成一系列以块为基础的四个层次，分别为：图层像( p ，p i c t u r e ) 、块组层( c o b ，g r o u po fb l o c k s ) 、宏块层( m b ，m a c r o b l o c k ) 和块层( b ，b l o c k ) 。每个宏块由4 个8 8 的亮度块和2 个 8 8 的色度块( c k 和c b 各1 个) 组成( 如图1 i 所示) ；一个块组由3 1 1 个宏块组成：一个q c i f 图像由3 个g o b 组成，而一个c i f 图像包含1 2 个g o b 。这种复杂的分级结构是高压缩比视频编码算法所必须的。图1 1 一个宏块的组成以h 2 6 1 规定的图像相对应，h 2 6 1 的码流也分为四个层次：图像层：由帧首和随后的1 2 个块组数据组成，帧首包括一个2 0 比特帧起始码和其它诸如视频格式c i f q c i f 、帧数等标志信息。块组层：由g o b 首和随后的3 3 个宏块数据组成，g o b 首包括1 6 b r 块组起始码、块组编号、块组量化步长等标志信息。宏块层：由宏块首和随后的6 个块数据组成，m b 首包括宏块地址、类型信息、运动矢量数据和编码块图样c b p 等信息。块层：由d c t 变换系数和块结束码组成。每块为8 8 个数据。如下图1 2 所示。图1 2h 2 6 1 的码流结构图隰雠摊块层 l 基于快速运动估计的h 2 6 4 编码系统设计与实现第一章概述 h 2 6 1 视频编码解码算法的基础和核心是混合编码技术，即二维0 e t 变换编码+ 运动补偿( 帧间d p c m ) + 熵编码。在i s o 和i t u 制定的数字视频压缩标准中，压缩算法都采用了混合的编码方案，算法的中心就是o c t 变换。 1 1 3 2h 2 6 3 1 9 9 5 年，i t u t 总结当时国际上视频图像编码的最新进展，针对低比特率视频应用制定了8 2 6 3 标准，该标准被公认为是以像素为基础的采用d c t + m c ( 运动补偿) 混合编码方案所能达到的最佳结果。1 9 9 8 年i t u t 又发布其补充的版本第二版 h 2 6 3 + ，2 0 0 0 年又发布了第三版h 2 6 3 h ，以提高编码效率，增强编码功能。h 2 6 3 系列标准特别适合于p s t n 网络、无线网络与因特网等环境下的视频传输。h 2 6 3 已被几种可是电话采纳为终端标准，如支持p s t n 与无线网的h 3 2 4 ，支持n - i s d n 的 h 3 2 0 ，支持b i s d n 的h 3 1 0 等等。由于h 2 6 3 是在h 2 6 1 标准的基础上发展起来的，因此两者有许多相同之处，其视频编码算法的核心仍然是h 2 6 1 标准中采用的o c t + m c ( 帧间d p c m ) 混合编码。 h 2 6 3 和h 2 6 1 是不兼容的，除了表现在两种规范定义的码流结构不一致外，h u f f m a n 编码定义的v l c 表的定义也不一样。 h 2 6 3 同h 2 6 1 相比，支持更多的图像格式。h 2 6 3 也吸收了m p e g 等其他标准中有效、合理的部分，如采用半像素精度的运动估计提高了预测精度，进一步降低了编码速率。 h 2 6 3 的基本框架对视频压缩能力和编码效果提供了根本的保障。h 2 6 3 h 2 6 3 + 除了扩展使用范围外，还可以通过高级模式迸一步提高压缩效率、提高图像质量、增强传输的鲁棒性。h 2 6 3 有四种增强可选模式：无限制运动矢量模式( u n r e s t r i c t e dm o t i o nv e c t o rm o d e ，a i l r l e xd ) ：无限制运动矢量模式突破了运动矢量只能指向图像内的限制，使得在边界的宏块得到更好的预测，运动矢量的范围也因此由【- 1 6 ，1 5 5 】扩大至l j - - 3 1 5 ，3 1 5 】。使用无限制运动矢量模式可以有效的改善大图象的编码效率，并且能提高摄像机移动和背景移动的图像的边沿编码效果。基于语法的算术编码模式( s y n t a x b a s e da r i t h m e t i cc o d i n gm o d e ，a n n e xe ) ：本模式使用基于语法的算术编码方法代替h u f h a i l 的变长编码( v l c ) 。虽然使用算术编码模式不会改善图像质量，但可以使码率下降5 左右。应该指出第一章概述基于快速运动估计的h 2 6 4 编码系统设计与实现的是，本模式应用得并不广泛。高级预测模式( a d v a n c e dp r e d i c t i o nm o d e ，a 衄e ) 【f ) ：在先进预测模式下，对每一个宏块的四个8 x 8 的亮度块分别单独作预测，并且，使用此模式默认使用无限制运动矢量模式。通过使用高级预测模式，可以去除图像方块效应，从而提高图像的编码质量。 p b 帧模式( p b - f r a m e sm o d e ，a m l e xg ) ：在p b 帧模式中，引入的p b 帧包含 p 帧和b 帧，并且p 帧和b 帧成对出现( 如图1 3 ) 。在一个宏块里面，p 宏块和b 宏块是放在一起的。就是说，在p b 帧的宏块里面，包含1 2 块数据块。当对p b 宏块解码时，p 宏块先重构，然后再重构b 宏块。使用p b 帧模式，在码率不显著增加的情况下，可把帧率提高一倍。 p b 仃a m o 图1 3p b 帧模式 1 1 - 3 3h 2 6 4 随着网络的发展无论是目前的i n t e r n e t 网还是将来的无线网络都迫切需要一种新型的压缩算法，它不仅有高的压缩比而且可以根据不同的网络条件提供不同质量的视频服务可以应用在低带宽的信道也可以应用在高带宽的信道同时还应该有一定的网络自适应功能。为此，1 9 9 8 年，视频编码专家组( v c e g i t u ts g l 6q 6 ) 开始了 h 2 6 l 标准的研制工作，旨在使编码效率比现有视频编码标准提高一倍以上【3 1 。2 0 0 1 年1 2 月，视频编码专家组( v c e g ) 与运动图像专家组( m p e g ) 合作，成立了联合视频小组( j v t ) ，开始致力于完成新的视频编码标准。目前j v t 的工作已被i t u t 接纳，新的视频压缩编码标准称为h 2 6 4 标准，该标准也被i s o 接纳，称为a v c ( a d v a n c e dv i d e o c o d i n g ) 标准，是b l p e g 一4 的第1 0 部分。本文工作正是结合h 2 6 4 标准开展的，因此，将在后面章节对这一标准进行详细分析。 6 基于快速运动估计的h 2 6 4 编码系统设计与实现第一章概述 1 1 3 4 口e g 1 m p e g 一1 和h 2 6 1 视频编码算法的核心是一样的，都采用了前面所讲的混合编码，但m p e g - i 视频编码算法对h 2 6 1 做了重要改进。 m p e g 一1 将图像帧划分为三类，i 帧、p 帧、b 帧，而图像组一般由一个i 一图像帧、几个p 一图像编码帧和若干个b 一图像帧构成。 m p e g 一1 的码流分成六层，从上到下分别是视频序列、图片组( g o p ，g r o u po f p i c t u r e s ) 、图片( p i c t u r e ) 、分片( s l i c e ) 、宏块( m a c r o b l o c k ) 、块( b l o c k ) ，其结构如图1 4 所示： i + 一视频序列叫卜一图片组一 1 4m p e g 视频流的数据层次视频序列被分成一系列g o p ，每个有一帧i 帧和p 帧组成，g o p 的第一帧一定为 i 帧。图片图像序列中的主要编码单元，由亮度信号y 和色度信号u ，v 组成，以4 ：2 ：0 格式正交扫描，图片在按由上到下，由左到右原则顺序划分成连续的宏块。宏块是图像编码的基本单元，运动补偿、量化等均在宏块上进行。d c t 则在8x8 像素块上进行。 m p e g l 的视频编码标准采用帧间d p c m 和帧内o c t 相结合的方法，对于一个给定的宏块，编码过程可以大致归纳为： ( 1 ) 选择编码模式 ( 2 ) 产生宏块的运动补偿预测值，将当前宏块的实际数据减去预测值得到预测值得到预测误差信号 ( 3 ) 将该宏块的预测误差分为8 8 块，作d c t 变换 ( 4 ) 对该宏块边信息和量化系数进行编码第一章概述基于快速运动估计的h 2 6 4 编码系统设计与实现 ( 5 ) 重构i 图像和p 图像 1 1 3 5 呼e g 2 m p e g 组织在1 9 9 5 年推出的m p e g 一2 标准是在m p e g l 的基础上进一步扩展和改进，主要是针对数字视频广播、高清晰度电视和数字光盘等制定的4 9 m b s 的运动图像及其伴音的编码标准。m p e g - - 2 系统要求与m p e g l 向下兼容，与m p e 6 1 相比 m p e g 一2 进行了以下扩展： ( 1 ) 输入输出图像色彩分量之比可以是4 ：2 ：0 ，4 ：2 ：2 ，4 ：4 ：4 。 ( 2 ) m p e g 一2 有“按帧编码”和“按场编码”两种模式。 ( 3 ) m p e g 一2 提供了丰富的编码方法、灵活的操作模式以适应不同场合的需要，提出了类( p r o f i l e ) 与等级( l e v e l ) 的概念。 ( 4 ) 输出的码率可以是恒定的，也可以是变化的，以适应同步和异步传输。 ( 5 ) 在空间分辨率、时间分辨率、信噪比方面的可分级性适合于不同用途的解码图像要求，并可给出传输上不同等级的优先级。 ( 6 ) 码流结构是分级的，不同的部分可以有不同的优先级。 m p e g 一2 视频是一系列的系统，每一个系统具有安排好的共性和兼容程度。它允许对四种源格式或级别进行编码，从简单清晰度( c i f 格式) 到完全的高清晰度电视 h d t v ( h i g hd e f i n i t i o nt e l e v i s i o n ) 。m p e g 一2 还给出了分辨率从低到高的4 级5 类共1 1 种单独的技术规范，详细内容请查阅m p e g 一2 的相关文档。 1 1 3 6 田e g 一4 与前面所介绍的标准不同，于1 9 9 8 年1 1 月公布的标准m p e g - 4 已不再是一个单纯的视频音频编解码标准，它将内容与交互性作为核心，从而对多媒体数据压缩提供了一个更为广阔的平台。它更多定义的是一种格式和框架，而不是具体的算法，这样人们可以在系统中加入许多新的算法。除了一些压缩工具和算法外，各种各样的多媒体技术如图像分析与合成、计算机视觉、语音合成等也可以充分应用于编码中。 m p e g 一4 更加注重多媒体系统的交互性和灵活性，以及多产业领域的融合。m p e g 一4 试图达到两个目标：一是低比特率下的多媒体通信；二是多媒体通信的综合。因而，一方面，m p e g 一4 要求有高效的压缩编码方法，另一方面，要求有独立于网络的基于视频音频对象( a v 对象) 的交互性。m p e g - 4 在信息描述中首次使用了对象( o b j e c t ) 的概念，这是一个新的飞跃。这种以内容为核心的描述方法更符合人的心理特性，从基于快速运动估计的h2 6 4 编码系统设计与实现第一章概述而不仅能获得比现有以像素为基础的标准更优越的压缩性能，也为应用提供了各种新的功能。 m p e g 一4 采取的是以功能为基础的策略，即并不针对任何特殊的应用，而是力图尽可能地支持对多种应用均有帮助的功能组。m p e g - 4 支持的功能有八项，可以分成以下三类： 1 基于内容的交互性 ( 1 ) 基于内容的操作和码流编辑：支持无须编码就可进行基于内容的操作和码流编辑。 ( 2 ) 自然与合成数据的混合编码：提供将自然视频图像同合成数据( 如文本、图形等) 有效结合的方式，同时支持交互性操作。 ( 3 ) 增强的时间域随机存取：提供有效的随机存取方式，在有限的时间间隔内，可按帧或任意形状的对象，对音频、视频序列进行随机存取。 2 高压缩率 ( 1 ) 提高编码效率：在可比拟速率下，m p e g 一4 提供的主观视频质量要好于已有的或其他正在制定的标准。 ( 2 ) 对多个并发数据流的编码：m p e g - 4 将提供对景物的有效多视角编码，加上伴音声道编码及有效的视听同步。在立体视频应用方面，m p e g 一4 将利用同一景物的多视点观察所造成的信息冗余来有效描述三维自然景物。 3 通用存取 ( 1 ) 错误易发环境中的鲁棒性：在易发生严重错误的环境下的低比特应用中( 如移动通信) ，m p e g 一4 是第一个在音频、视频表示规范中考虑信道特性盼标准，目的不是取代已有通信网提供的错误控制技术，而是提供一种抗误码的鲁棒性。 ( 2 ) 基于内容的尺度可变性：内容尺度可变性意味着给图像中的各个对象分配优先级，比较重要的对象用较高的时间或空间分辨率表示。基于内容的尺度可变性是 m p e g - 4 的核心，对于甚低比特率应用来说，它提供了自适应使用可用资源的能力，可以最有效地利用有限的资源。 ( 3 ) m p e g 一4 同以往的图像视频编码比，第一次提出了基于对象的视频编码的概念与方法，但必须注意的事，从编码方案来说，m p e g - 4 仍然是以子块为基础的混合编码。 9 1 2 国内外相关研究现状为获得较大的压缩比，同时保证一定的视频质量，人们已经付出很大努力，并制定了不少视频编压缩标准。但目前常用的标准有很强的针对性。例如，m p e g l 主要是针对视频存储的v c d ；m p e g 一2 虽称为通用标准，但主要用于广播：m p e g 一4 的应用面虽广，但实现比较困难，现在只能实现其基本档次内容，基于内容以及内容交互方面还有需要完善和改进的地方：h 2 6 1 h 2 6 3 主要针对实时的视频会议它们都有自己的一些特殊的限制条件，如：h 2 6 1 h 2 6 3 需要对等的编解码环境低时延低等待时间，而m p e g 一2 视频广播是不需要这些限制的。随着网络的发展无论是目前的i n t e r n e t 网还是将来的无线网络都迫切需要一种新型的压缩算法，它不仅有高的压缩比而且可以根据不同的网络条件提供不同质量的视频服务可以应用在低带宽的信道也可以应用在高带宽的信道同时还应该有一定的网络自适应功能。h 2 6 4 就是在这种情况下出现的，它的应用范围极其广泛，图1 5 列出了它的一些应用。图1 5 新的视频编码方案应用的范围应该说，h 2 6 4 的颁布是视频压缩编码学科发展中的一件大事，它的优秀的压缩性能将在数字电视广播、视频实时通信、网络视频流媒体传递以及多媒体短信等各个方面发挥重要作用。 0 基于快速运动估计的h 2 6 4 编码系统设计与实现第一章概述 m p e g 一4 技术的重点是灵活，而h 2 6 4 着重于解决压缩的高效率和传输的高可靠性，因而其应用面十分广泛。具体来说，h 2 6 4 支持三个不同档次的应用： ( 1 ) 基本档次：主要用于“视频会话”，如会议电视、可视电视、远程医疗、远程教育等； ( 2 ) 扩展档次：主要用于网络的视频流，如视频点播 ( 3 ) 主要档次：主要用于消费电子应用，如数字电视广播、数字视频存储等。较以往标准，h 2 6 4 主要在以下几方面做了较大改进： ( 1 ) 帧内预测以前的标准只利用了一个宏块内部的相关性，而忽视了宏块之间的相关性，所以一般编码后的数据量较大。为了能进一步利用空间相关性，h _ 2 “，a v c 引入了帧内预测以提高压缩效率。简单地说，帧内预测编码就是用周围邻近的像素值来预测当前的像素值，然后对预测误差进行编码。这种预测是基于块的，对于亮度分量，块的大小可以在1 6 x1 6 和4 x 4 之间选择，1 6 x1 6 块有4 种预测模式，4 x 4 块有9 种预测模式：对于色度分量，预测是对整个8 8 块进行的，有4 种预测模式。除了d c 预测外，其他每种预测模式对应不同方向上的预测。 ( 2 ) 帧间预测与以往的标准一样，h 2 6 4 a v c 使用运动估计和运动补偿来消除时间冗余，但是它具有以下五个不同的特点：预测时所用块的大小可变 l 2 6 4 一共采用了7 种方式对一个宏块进行分割，每种方式下块的大小和形状都不相同，这就使编码器可以根据图像的内容选择最好的预测模式。与仅使用1 6 1 6 块进行预测相比，使用不同大小和形状的块可以使码率节省1 5 以上。更精细的预测精度在h 2 6 4 1 a v c 中，亮度分量的运动矢量( m v ) 使用l ，4 像素精度。色度分量的m v 由亮度m v 导出。如此精细的预测精度较之整数精度可以使码率节省超过2 0 。多参考帧( m u l t i p l er e f e r e n c ef l a m e s ) h 2 6 4 a v c 支持多参考帧预测，即可以有多于一个( 最多5 个) 的在当前帧之前解码的帧可以作为参考帧产生对当前帧的预测( m o t i o n - c o m p e n s a t e dp r e d i c t i o n ) 。较之只 1 1 第一章概述基于快速运动估计的h 2 6 4 编码系统设计与实现使用一个参考帧，使用5 个参考帧可以节省码率5 1 0 。循环滤波器( l o o pf i l t e r ) 它的作用是消除经反量化和反变换后重建图像中由于预测误差产生的块效应，即块边缘处的像素值跳变，从而一来改善图像的主观质量，二来减少预测误差。与以往的d e b l o c k i n gf i l t e r 不同的是，经过滤波后的图像将根据需要放在缓存中用于帧间预测，而不是仅仅在输出重建图像时用来改善主观质量，也就是说该滤波器位于解码环中而非解码环的输出外。 s p s l i c e 它主要的目的是用于不同码流的切换，此外也可用于码流的随机访问、快进快退和错误恢复。这里所说的不同码流是指在不同比特率限制下对同一信源进行编码所产生的码流。 ( 3 ) 整数变换 h 2 6 4 a v c 对帧内或帧间预测的残差( r e s i d u a l ) 进行d c t 变换编码。为了克服浮点运算带来的硬件设计复杂，更重要的是舍入误差造成的编码器和解码器之间不匹配的问题，新标准对d c t 的定义做了修改，使得变换仅用整数加减法和移位操作即可实现，这样在不考虑量化影响的情况下，解码端的输出可以准确地恢复编码端的输入。当然这样做的代价是压缩性能的略微下降。此外，该变换是针对4 x 4 块进行的，这也有助于减少块效应。为了进一步利用图像的空间相关性，在对c 1 1 r o m a 的预测残差和1 6 1 6 帧内预测的预测残差进行上述整数d c t 变换之后，标准还将每个4 x 4 变换系数块中的d c 系数组成2 x 2 或4 x 4 大小的块，进一步做h a d a m a r d 变换。 ( 4 ) 熵编码对于s l i c e 层以上的数据，h 2 6 4 a v c 采用e x p g o l o m b 码，这是一种没有自适应能力的v l c 。而对于s l i c e 层( 含) 以下的数据，如果是残差，h 2 6 4 1 a v c 有两种熵编码的方式：基于上下文的自适应变长码( c o n t e x t _ ba s _ e da d a p t i v ev a r i a b l el e n g t hc o d i n g ， c a v l c ) 和基于上下文的自适应二进制算术编码( c o n t e x t b a s e da d a p t i v eb i n a r y a r i t h m e t i cc o d i n g ，c a b a c ) ；如果不是残差，h 2 6 4 1 a v c 采用e x p - g o l o m b 码或c a b a c 编码，视编码器的设置而定。 ( 5 ) f m o 基于快速运动估计的h 2 6 4 编码系统设计与实现第一章概述 f m o ，是指将一幅图像中的宏块分成几个组，分别独立编码，某一个组中的宏块不一定是在常规的扫描顺序下前后连续，而可能是随机地分散在图像中的各个不同位置。这样在传输时如果发生错误，某个组中的某些宏块不能正确解码时，解码器仍然可以根据图像的空间相关性依靠其周围正确译码的像素对其进行恢复。虽然h 2 6 4 表现非常出众，但上面提到的新特性都是建立一定的计算量上的。目前计算量过大的问题阻碍了h 2 6 4 的广泛应用，其中特别是h 2 6 4 支持多种块模式的选择以及能够参考多个参考帧，使得历来计算的重头运动估计部分的计算量较以往任何一个标准复杂了几倍。在h 2 6 4 出现前，加快运动估计的速度就是视频压缩编码界研究的熟点，常见的搜索算法有三步搜索法t s s 1 4 】、新三步搜索法n 3 s s l l 6 】、四步搜索法4 s s 9 、菱形搜索法d s 等用来加速运动估计。但对h 2 6 4 运动估计出现的新情况，这些算法存在较大的冗余，故j v t 采纳了f o l 7 和6 0 1 6 两个提案来加速h 2 6 4 运动估计的搜索。这两个提案组成的快速搜索能在画面质量、码率基本无变化的情况下极大地加快运动估计的速度。尽管如此，该算法仍存在一定冗余还有进一步提高的空间。 i 3 本文主要研究内容及安排 h 2 6 4 综合考虑了编码效率和网络传输，对它的研究和实现具有相当重要的意义。虽然j v t 采纳的快速搜索加快运动估计，但计算量仍然很大。据统计，对h 2 6 4 参考评测软件j m t ”，即使采用f m e ，如果7 种宏块模式全开、采用5 个参考帧的话，运动估计的时间还要占整个编码时间的6 0 【8 】。因此，对其进一步优化，以降低更多的计算复杂度具有重要意义。本文的研究工作在这两个提案基础上进一步加快运动估计的速度，并设计了基于快速运动估计的h 2 6 4 编码系统。全文内容安排如下：第一章首先简单介绍了目前网络和多媒体通讯的现状和由此带来的挑战，指出新型的h 2 6 4 编码方案是目前最有前途的解决方案，但是计算量过大的问题影响了 h 2 6 4 的使用，加快h 2 6 4 的运动估计是目前研究的热点问题之一。第二章本章首先介绍了h 2 6 4 基本的编解码框架，并给出了它与目前流行的视第一章概述基于快速运动估计的h 2 6 4 编码系统设计与实现频编码标准h 2 6 3 和m p e g - 4 的比较结果。第三章详细地介绍了已经采纳的快速搜索提案f m e ，针对他们的缺陷提出了三个快速算法进一步加速h 2 6 4 的运动估计，在本章最后给出了三个算法同全搜索算法以及f m e 的性能、时间比较结果。第四章详细介绍了基于快速运动估计的整个编码系统设计。 1 4 基十快速运动估计的h 2 6 4 编码系统设计与实现第二章h 2 6 4 标准概述第二章h 2 6 4 标准概述 2 i 视频压缩编码基本原理视频压缩的出发点是减少视频或图像的冗余度。冗余度又分为多种，其中最主要的是空间冗余度、时间的冗余度、编码冗余度。空间冗余是指在一幅图像中空间相邻的像素和区域之间的相似性，例如：在相邻的两个像素它们的数值是很相近的。时间冗余是指在相邻的一系列图像中各个图像之间有一定的相似性。编码冗余度是指，如果从概率统计角度对常用的符号赋予短的码字就能节约很多的空间，因此存在冗余。 2 1 1 压缩空间冗余度目前的编码方案都是把图像分块处理的。把每一个块经过映射变换可以把像素之间的相关性变低。经过映射变换后的块含有和原始块相同的信息，变换后的系数反映了不同频率上的信息。映射变换本身不产生任何压缩，压缩是在量化变换后的系数上取得的，量化系数越大，压缩的效果越好，当然失真也越大。由于人眼对高频不敏感，所以可以对高频分量用大的数值来量化，这样在频域量化会比直接对原始像素量化性能要好。在解码端，经过映射变换的反变换后，可以得到原始图像的重建图像。这种压缩技术称为帧内( i n t r a ) 编码。常用的映射变换是d i s c r e t ec o s i n et r a n s f o r m ( d c t ) 变换，因为它性能高并且易于实现。 2 1 2 压缩时间冗余度在视频序列中相邻的两幅图像之间有很强的相似性，如果只对每一幅图像作帧内压缩的话，显然它的压缩是低效的。如果把当前的图像和前面图像的差值编码，则会高效的多。差值可以用当前图像和以前图像相减获得，下一步就是使用i n t r a 帧的技术来进一步压缩空间冗余度。如果视觉在某些差值上可以容忍，就可以使用以前的像素值来代替当前的像素值，这样可以进一步压缩。这种压缩技术称为帧间( i n t e r ) 第二章h 2 6 4 标准概述基于快速运动估计的h 2 6 4 编码系统设计与实现编码。 2 1 3 运动估计和运动补偿运动补偿可以把i n t e r 帧的压缩性能进一步的提高，常见的运动补偿是使用相邻帧适当位置的图像块来预测和匹配当前的图像块【9 1 。通常的标准是将图像划分为许多子块，并认为子块内所有像素的位移量是相同的，这意味着将每个子块视为一个“运动的物体”。对于某一时间t 1 ，图像帧中的某一子块如果在另一时间t 2 的帧中可以找到若干与其十分相似的子块，则称其中最为相似的子块为匹配块，并认为该匹配块是时间t l 的帧中相应子块位移的结果。位移矢量由两帧中相应子块的坐标决定。图 2 1 说明了当前帧和参考帧的匹配过程。 2 1 4 熵编码图2 1 当前帧和参考帧的匹配过程当帧经过帧内或帧间编码后，原始的视频信号就变成了一系列的变换系数和运动矢量和辅助信息。

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）基于快速运动估计的h264编码系统设计与实现.pdf

文档简介

温馨提示

最新文档

评论