




已阅读5页,还剩52页未读, 继续免费阅读
(计算机应用技术专业论文)h264运动估计算法的研究及优化.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘 要 摘要 2 0 0 3 年,由两大国际标准化组织i s o i e c 和i t u t 联手制定的新一代国际 视频编码标准h 2 6 4 正式出台。h 2 6 4 编码标准中采用了众多的新技术,这些 新技术的使用使得编码图像的质量进一步得到改善,大大提高了图像的压缩比, 同时这也使得h 2 6 4 编码器和解码器的复杂度成倍增加,因此,必须对h 2 6 4 编码算法进行进一步优化。 运动估计是h 2 6 4 编码器中最为耗时的部分,将近占到整个编码时间的 6 0 。目前,针对运动估计算法的优化主要有如下四种策略:搜索起始点预测、 搜索窗口预测、搜索模板及搜索策略优化以及提前终止计算。在这四种优化策 略之中,针对搜索模板及搜索策略的研究较为广泛并已产生了许多快速、高效 的改进算法,与全搜索算法相比,这些算法可以使运动估计时间减少将近9 0 。 而针对搜索窗口预测技术的研究进展却相当缓慢。本文主要针对搜索窗口的动 态调整策略进行了深入研究以改善编码器的效率。通过对动态搜索窗口算法的 发展及现有的动态搜索窗口算法进行研究后发现,现有算法中对于搜索窗口大 小预测的依据较为单一,预测的准确性不高。我们对影响搜索窗口大小的因素 进行了研究,经分析后发现,搜索窗口的大小不仅与相邻块的运动矢量大小有 很强的相关性,同时也与量化步长、分块模式的选择以及编码图像的尺寸有着 很强的相关性。通过对搜索窗口大小与这三者之间的关系进行理论分析和研究, 并通过实验方法对它们之间的关系进行量化分析。在此基础之上我们提出了改 进算法,对现有的搜索窗口调整算法进行了进一步的优化。实验表明,本文所 提出的算法相比原有算法可以在基本不影响图像质量的前提下显著缩短运动估 计的时间和编码时间,使得编码器的效率得到进一步提高。 关键词视频编码;h 2 6 4 a v c ;帧间编码;运动估计;搜索窗口 摘璎 a b s t r a c t t h en e w g e n e r a t i o ni n t e r n a t i o n a lv i d e oc o d i n gs t a n d a r dh 2 6 4w a si n t r o d u c e d b yj o i n tw o r ko fi s o i e ca n dl t u ti n2 0 0 3 c o m p a r e dw i t hf o r m e rv i d e oc o d i n g s t a n d a r d ,t h en e ws t a n d a r da d o p t e dm a n yn e wt o o l s t h eq u a l i t yo ft h ep i c t u r ew a s i m p r o v e dg r e a t l ya n dt h ec o m p r e s s i o nr a t i oo ft h ep i c t u r eb e c a m eh i g h e r a tt h e s a m et i m e ,t h ee n c o d e rb e c o m e sm o r ec o m p l e xa n dt i m e - c o n s u m i n g s ow em u s t o p t i m i z et h ee n c o d i n ga l g o r i t h m st oi m p r o v et h ee f f i c i e n c yo ft h ee n c o d e r m o t i o ne s t i m a t i o ni st h em o s tt i m e - c o n s u m i n gp a r ti nt h ee n c o d e r m o t i o n e s t i m a t i o nt i m en e a r l yt a k e su pt o6 0 o ft h ew h o l ee n c o d i n gt i m e c u r r e n t l y , t h e r e a r ef o u rk i n d so fs t r a t e g yt oi m p r o v et h ee f f i c i e n c yo fm o t i o ne s t i m a t i o n t h e ya r e i n i t i a ls e a r c hp o i n tp r e d i c t i o n ,d s r ( d y n a m i cs e a r c hr a n g e ) ,a n do p t i m i z a t i o no n s e a r c hp a t t e r na n ds e a r c hp a t h ,e a r l yt e r m i n a t i o n i nt h e s ef o u rs t r a t e g i e s ,c u r r e n t r e s e a r c hm a i n l yf o c u s e so ns e a r c hp a t t e r na n ds e a r c hp a t ha n dm a n yo p t i m i z e d a l g o r i t h m sh a v eb e e np r o p o s e d c o m p a r e dw i t hf u l ls e a r c ha l g o r i t h m ,t h e s en e w a l g o r i t h m sc a ns a v en e a r l y9 0 o fm o t i o ne s t i m a t i o nt i m e b u tr e s e a r c ho nd y n a m i c s e a r c hr a n g eg o e sv e r ys l o w l y t h i sp a p e rm a i n l yf o c u s e so nt h er e s e a r c ha n d o p t i m i z a t i o no nd y n a m i cs e a r c hr a n g ei no r d e rt of u r t h e ri m p r o v et h ee f f i c i e n c yo f t h ee n c o d e r a f t e rd e t a i l e da n a l y s i so nt h ed e v e l o p m e n to fd s ra n dc u r r e n t a l g o r i t h m ,w ef i n dt h a tc u r r e n ta l g o r i t h ma d j u s t st h es e a r c hr a n g ea c c o r d i n gt ot h e m o t i o nv e c t o r so fn e i g h b o r i n gb l o c k s ,a n dc o r r e c t n e s si sl o w t h e nw ed om u c h r e s e a r c ho nt h ef a c t o r st h a ta f f e c tt h es e a r c hr a n g e ,w ef i n dt h a ts e a r c hr a n g en o t o n l yh a v ec l o s er e l a t i o nw i t hm o t i o nv e c t o r so fn e i g h b o r i n gb l o c k s ,b u ta l s oh a v e c l o s er e l a t i o nw i t hm a n yo t h e rf a c t o r s ,s u c ha sq p , b l o c km o d ea n di m a g es i z e a f t e r m u c hr e s e a r c hw o r ka n dm a n ye x p e r i m e n t s ,w ep r o p o s ea ni m p r o v e da l g o r i t h mo n d s r ( d y n a m i cs e a r c hr a n g e ) e x p e r i m e n tr e s u l t ss h o wt h a tt h ep r o p o s e da l g o r i t h m c a na c h i e v eg o o dp e r f o r m a n c eo n l yw i t hn e g l i g i b l ei n f l u e n c eo nv i d e oq u a l i t ya n d o nb i t r a t e k e yw o r d sv i d e oc o d i n g ;h 2 6 4 a v c ;i n t e r - f r a m ec o d i n g ;m o t i o ne s t i m a t i o n ; s e a r c hr a n g e 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名:妻! 皇i 臣导师签名: :- 呼j ;1 第l 章绪论 1 1 课题的背景及意义 第1 章绪论 视觉是人类获取信息的一个主要来源,视频信息在人类的生活中占有举足轻 重的地位。然而,对于未经压缩的视频信息,其数据量以及传输所需带宽相当惊 人,在现有的条件下是远远无法满足其存储和传输要求的。通过对视频图像内容 的研究发现,视频图像的相邻帧之间以及同一幅图像中的数据间存在很强的相关 性,因此,可以通过某种方式对其进行适当的压缩,以便在图像质量和存储数据 量之间取得一个较好的折衷以满足各种应用的需求。 基于此,各种各样的视频压缩算法不断涌现,极大的促进了视频信息存储和 传输技术的发展,尤其是上世纪九十年代之后,国际上先后制订了一系列的视频 图像编码标准【l j ,从m p e g 1 到m p e g 4 ,经压缩后的视频仅有原始视频的几百 分之一,视频的压缩率不断提高,满足了当时许多应用的需求。然而,随着视频 压缩技术的不断发展,人们对视频图像质量也提出了越来越高的要求,从v c d 时代分辨率为3 5 2 x 2 8 8 的图像到现在的高清电影,其图像分辨率从1 2 8 0 x 7 2 0 p , 1 9 2 0 x 1 0 8 0 i 到1 9 2 0 x 1 0 8 0 p ,图像质量大大提高,同时,这也对视频信息的传输 和存储提出了更大的挑战,就拿一部两小时的1 0 8 0 p 的高清电影来说,如果使用 m p e g 2 编码方式,所需存储空间至少得2 0 g 以上,码率至少为2 3 m b p s 以上, 这么大的数据量及码率给现有的存储和网络传输手段提出了很大的难题,因此, 迫切需要一种具有更高压缩率并且可以保证图像质量的编码标准来解决这个难 题,h 2 6 4 编码标准的出现正好适应了这种需求。 h 2 6 4 a v c 是1 9 9 5 年自m p e g 2 视频压缩标准发布以后的最新、最有前途 的视频压缩标准。它是由i t u t 和i s o i e c 的联合开发组共同开发的最新国际视 频编码标准,通过该标准,在同等图象质量下的压缩效率比以前的标准提高了2 倍以上,因此,h 2 6 4 被普遍认为是最有影响力的行业标准。与以往的标准相比, 它既保留了以往压缩技术的精华之处,又加入了其它压缩技术所无法比拟的许多 优点【2 j ,如:低码率、高质量、容错能力强、良好的网络适应性等。与m p e g 2 和m p e g 4a s p 等压缩技术相比,采用h 2 6 4 技术压缩后的数据量只有m p e g 一2 的1 8 ,m p e g - 4 的1 3 ,大大降低了码率,同时保证了图像的质量,这为在现有 的网络环境下实时传输视频图像提供了可能。但是,h 2 6 4 编码标准所采用的众 多改进在提升编码性能的同时,也大大增加了编解码的计算负担,同时也增加编 解码器设计的复杂度,不利于实时应用,为此,必须对h 2 6 4 中的关键技术进行 研究,以提高编码的效率。本文的研究工作也正是基于这一点,通过对h 2 6 4 中 北京t 业人学丁掌坝l :学位论文 帧间编码算法的研究来进一步改善编码器的效率,使其更好的满足实际应用的需 求。通过对编码器的复杂度进行分析,我们发现运动估计是视频编码过程中最有 耗时的一个环节,就拿全搜索( f s ) 算法来说,运动估计的时间将占到整个编 码时间的6 0 - - 8 0 。因此,寻找快速的运动估计算法便成为提高编码效率的关 键,本文也正是围绕该内容进行研究。 1 2 视频编码标准发展现状 数字视频编码技术是数字信息传输、存储、播放等环节的前提和基础,数字 视频编码标准是信息领域的基础性标准。i t u t ( 国际电信联盟远程通信标准化 组) 与i s o i e c ( 国际标准化组织国际电工委员会) 是制定视频编码标准的两 大国际性组织。为促进视频编码技术稳步持续的发展,自上世纪8 0 年代开始, i s o i e c 和i t u t 两大组织开始不断推出一系列针对不同应用领域的视频编码标 准【3 1 ,其中i t u - t 推出的的标准包括h 2 6 1 、h 2 6 3 、h 2 6 4 ,这些标准主要应用 于实时视频通信领域,如会议电视等;由i s o i e c 制定的标准主要包括m p e g 系列,这些标准主要应用于视频存储( d v d ) 、广播电视、因特网或无线网上的流 媒体等领域。此外,两大标准化组织也合作共同制定了一些标准,如1 1 u t 制定 的h 2 6 2 标准等同于i s o i e c 制定的m p e g 2 视频编码标准,而最新的视频编码 标准h 2 6 4 则被纳入m p e g - 4 的第1 0 部分。如下图1 1 所示是两大标准化组织 所制定的一些重要的视频编码标准,这也从侧面反映出了视频编码标准的发展历 程: 糍t t 挽黝托鹈缸瓣蕊善螃 荔翰黪嘲绷缓 魄麓 铲 i m 。t 。二e 。f f 瓣l ;一 i 罗 t 劳耄稳 缓期旗# 弼壤 矿 j 。 图l _ 1 视频编码标准的发展过程 f i g 1 - 1d e v e l o p m e n to f v i d e oc o d i n gs t a n d a r d 针对不同的应用需求,这些标准可以采用不同类型的视频格式,支持不同速 率、不同图像质量以满足不同应用的要求,其应用领域相当广泛,涉及到生活的 方方面面,可以满足包括电视会议、视频电子邮件、可视电话、广播级视频应用 等不同业务的需求。这些国际性标准的制定无疑极大的促进了视频编码技术的发 第1 章绪论 展。在下面的一节中将对其中一些具有里程碑意义的视频编码标准及其关键技术 进行简要的介绍。 1 3 重要视频编码标准介绍 在i s o i e c 和i t u t 两大组织所制定的众多标准中,有许多重要的视频编码 标准对编码技术的发展产生了深远的影响,下面对几种重要的视频编码标准作简 要介绍: 1 3 1h 2 6 1 h 2 6 1 的全称是“v i d e oc o d e cf o ra u d i o v i s u a ls e r v i c e sa tp * 6 4 k b i t s , 主要应用 于i s d n 网上的视频会议系统【4 】。该标准发布于1 9 9 0 年,是第一个采用现代编码 算法的通用视频编码标准,其后许多标准的形成都受到了h 2 6 1 的很大影响。 h 2 6 1 又称为p * 6 4 k b i t s s 标准,是指它的应用主要针对6 4 k 的整数信信道,p 取 值在1 3 0 之间。 在技术上,h 2 6 1 采用了基于块匹配的运动补偿方法,只支持整像素精度的 运动补偿和单向的单帧参考,即参考帧只能使用前一帧图像。h 2 6 1 使用8 x 8d c t 变换对原始图像或者预测残差进行变换。 h 2 6 1 只规定了解码的语法和程序,而对于编码中的许多关键问题没有做详 细的规定,例如码率控制以及如何进行运动估计等等。这样做既保证了不同生产 厂家的设备编码出来的码流完全兼容,同时也给各厂家发挥自己在关键技术上的 优势留下了很大的空间。此种做法在之后的视频编码标准中一直被沿用。 1 3 2m p e g 1 m p e g - 1 的全称是“c o d i n go fm o v i n gp i c t u r e sa n da s s o c i a t e da u d i of o rd i 西t a l s t o r a g em e d i aa tu pt oa b o u t1 5 m b i t s ”,主要是为了视频存储媒体( 如:v c d ) 而制 定的【5 j 。该标准的主要目的是在1 1 5 m b i t s 的情况下提供3 0 帧秒的c i f ( 3 5 2 x 2 8 8 ) 格式相当于v h s 质量的图像编解码。 相对于h 2 6 1 ,m p e g 1 中加入了两个比较重要的新特性:双向运动补偿技 术以及1 2 像素精度的运动补偿。双向运动补偿允许将前帧和后帧均作为参考帧, 因此,在m p e g 1 中有三种类型的帧:i 帧( 帧内编码帧) ,p 帧( 普通帧间编码帧) , b 帧( 双向帧间编码帧) 。采用双向运动补偿可进一步降低输出码流的码率,但是 需要对序列图像进行重排序,这在视频通信中是不能允许的。因此这种技术只应 用在m p e g 1 ,m p e g 2 等面向视频存储媒体的非实时应用中。1 2 像素精度运 北京t q k 人学t 学硕l ? 学位论文 动补偿的引入也是m p e g 1 的一个进步。整像素的值经过内插计算出相应亚像素 位置各点的亮度和色度值,然后再进行运动估计。该技术的引入一方面提高了编 码图像的质量,降低了码率,另一方面也增加了编码器的运算复杂度。 视频编码的标准仅仅是m p e g 1 中的一部分,除此之外,m p e g 1 中还包含 完整的音频、系统、以及一致性测试的规范。v c d 的广泛流行便是m p e g 1 成 功的一个例子。 1 3 3m p e g 2 m p e g 2 的全称是“g e n e r i cc o d i n go fm o v i n gp i c t u r e sa n da s s o c i a t e da u d i o ”。 m p e g 2 的目标是在3 m b i t s 3 5 m b i t s 的传输速率下,提供高质量的多媒体信号, 并提供质量、时间、空间上的可伸缩性 6 1 。 与m p e g 1 相比,m p e g 一2 加入了以下两个主要的新技术:对隔行扫描的支 持和可伸缩性编码。 普通的电视信号采用隔行扫描的方式,一帧分为两场进行扫描。在一帧图像 中相邻的行属于不同的场,在景物存在快速垂自运动时,相邻行的相关性降低, 会影响编码的效率。为了尽可能提高编码的性能,m p e g 一2 允许以场为单位进行 运动补偿和变换编码。 可伸缩性,顾名思义,就是根据实际的需要( 如可利用的信道宽度、解码终端 的处理能力等) 在编码质量和码流大小之间取得折中。m p e g 2 支持4 种分级编 码模式:数据划分、s n r 分级、空域分级、以及时域分级。 m p e g 2 从编码到传输的体系十分完善,并且支持的码率范围大,应用领域 十分广阔,涵盖了卫星广播服务、有线电视、有线广播、数字地面电视、电子影 院、家庭影院、互动媒体、远程视频监控等方面。大家所熟悉的d v d 基于的就 是m p e g 2 标准。可以说,m p e g 2 是目前最成功的视频编码标准。至今,许多 的应用中仍在使用该标准。 1 3 4h 2 6 3 h 2 6 3 的全称是“v i d e oc o d i n gf o rl o wb i t r a t ec o m m u n i c a t i o n ”,它的目标应 用是低码率的视频电话,目标网络是p s t n 、i s d n 以及无线网络 7 1 。 由于公用电话网( p s t n ) 和无线网络上的传输速率仍然有限,而且误码率较 高,因此,i t u - t 后来又提出了h 2 6 3 的改进版本h 2 6 3 + 和h 2 6 3 + + ,以满足高 压缩效率和强信道容错能力的应用要求。改进版本新增加的特性以附录选项的形 式加入到h 2 6 3 中。 h 2 6 3 系列标准中首次提出的许多概念,例如:可变块大小的运动估计、初 第1 章绪论 始运动矢量预测、无限制运动估计、多参考帧运动补偿等都被其后的许名标准妥 纳。 1 3 5m p e g 4 m p e g - 4 的全称“c o d i n go f m o v i n gp i c t u r e sa n da u d i o ”,其目标应用包括:因 特网多媒体、交互式视频游戏、个人通信、多媒体邮件、网络数据库服务、远程 视频监控、无线多媒体等【引。 目前,m p e g 一4 共包含1 0 个部分,依次为系统、视频、音频、一致性测试、 参考软件模型、传输多媒体集成框架、m p e g 4 上具软件、基于i p 架构的m p e g - 4 、 参考硬件描述、以及高级视频编码( a d v a n c e dv i d e oc o d i n g ,简称a v c ) 。其中a v c 为i t u t 和m p e g 联合制定的h 2 6 4 视频编码标准,也是本文的研究对象,将 在下文中进行详细的介绍。 m p e g 一4 的一个革命性的贡献是在视频编码中引入了基于对象的思想。 m p e g - 4 以v o ( v i d e oo b j e c t ) 的概念来实现基于内容的表示。v o 的构成依赖于 具体应用和系统实际所处的环境:在要求超低比特率的情况下,v o 可以是个矩 形帧,与传统的标准兼容。v o 也可以是场景中某一物体或某一层面,为画面中 被分割出来的不同物体。每个v o 由三类信息来描述:运动信息,形状信息,纹 理信息。 。 除此之外,m p e g - 4 还第一次引入了许多其它的引人注目的技术,例如:视 频中的小波变换、s p r i t e 编码、零树扫描等。 但另一方面,m p e g 4 中的许多特性,例如:基于对象的视频处理等由于运 算复杂度的限制,在实际中应用的不是很广泛,最常见的是它的s i m p l ep r o f i l e 和a d v a n c e ds i m p l ep r o f i l e 。前者基本和h 2 6 3 类似,后者在h 2 6 3 的基础上引 入了1 4 像素精度的运动补偿和全局运动估计技术。 1 3 6h 2 6 4 随着需求的提高,新的视频编码标准仍在不断地制定中,其中最引人注目的 就是i t u t 的v c e g 和i s o 的m p e g 最新联合提出的视频编码标准。该标准在 i t u t 中被称为h 2 6 4 ,而在i s o 中称为m p e g 4p a r t l o t 9 1 。h 2 6 4 的前身是v c e g 于1 9 9 8 年发起的h 2 6 4 计划。该计划的目标是制定一个应用领域广阔的新标准, 并使其编码效率比当时己有的标准提高一倍。1 9 9 9 年l o 月,h 2 6 l 的第一个草 案被采纳。2 0 0 1 年1 2 月,v c e g 与m p e g 成立了联合专家组j v t ,负责进一步 完成该标准。此后该标准正式定名为h 2 6 4 ,并于2 0 0 3 年3 月被采纳,成为国 际视频编码领域的新标准。 北京人学l mj : 位r h2 6 4 的目标麻用涌盖了目前大部分的视频服务,如有线电视、远程监控、 交互媒体、数字电视、视频会议、视频点播、流媒体服务等。造就带了个问题, 印h2 6 4 如何应对不同成用以及网络之问差异。 为解决这一问题,h2 6 4 中定义了v c l 层( 视频编码层) 和n a l 层( 网络抽象 层1 。v c l 层负责对视频内容进行有效的编码表示,n a l 层负责根据传输层或者 存储媒体的特性对码流进行适当的组织。 与先前的视频编码标准一样,h2 6 4 中只规定了对码流语法的限制以及解码 器的解码过程,在保证码流兼容的同时为具体实现提供了最大的灵活性。在后面 的章节中将对该标准进行更为详细的介绍。 1 4 研究动机 h2 6 4 编码标准所具有的良好的编码性能是毋庸置疑的,与先前的m p e g - 2 和m p e g m a s p 等较为经典的压缩技术相比,采用h2 6 4 编码标准压缩后的数据 量只有m p e g 2 标准的1 8 ,m p e g 4 的1 3 。但是,新标准在使得编码效率得以 提升的同时,相对以前标准,编码器的复杂度也大大增加,编码过程史为耗时。 据粗略统计【l ,与m p e g - 4 相比,h2 6 4 编码器的复杂度约为m p e g - 4 编码器复 杂度的5 1 0 倍,解码器的复杂度约为m p e g 一4 解码器的2 4 倍。在对h2 6 4 编 码器各部分计算量的分析后发现【i ”,如图l - 2 所示,在编码器端,整像素的运动 估计以及捅值运算两部分合起来将近占整个编码器计算量的6 0 ,可以看出,在 新的编码标准中,运动估计成为了最为耗时的一个环节。在保证新标准优良编码 性能的同时,为进一步降低编码器的复杂度,减少编码时间,必须对运动估计算 法进行深入研究并进一步优化以满足更多实时应用的需求。本文研究工作的出发 点也正是基于此。 0 4 图卜2h2 6 4 编码器计算量分析 f i g1 - 2 a n a l y s i so f c o m p u t a d o n l o a d i n h2 6 4 第l 幸绪论 1 5 本文研究工作及章节安排 本文以研究h 2 6 4 a v c 编码技术为核心,首先对其编码框架及其所采用的关 键技术进行了研究,然后对h 2 6 4 编码标准中的运动估计的相关算法进行了深入 研究,通过对运动估计的各种优化策略的分析和研究,在此基础之上,重点对优 化策略中的动态搜索窗口技术进行了研究和优化以减少运动估计的时间,提高了 编码器的效率。 全文一共分为四章,第一章为绪论,主要对视频编码标准的发展背景及主要 的视频编码标准进行了介绍;第二章对h 2 6 4 编码标准的框架结构及其所采用的 一些新的关键技术进行了研究:第三章对h 2 6 4 编码器中的运动估计部分进行了 深入研究并对运动估计中的各种优化策略及优化算法进行了全面的分析和研究; 在此基础之上,第四章中重点对动态搜索窗口技术进行了研究,针对现有算法的 不足提出了改进算法并进行了相关的仿真实验。 第2 章h 2 6 4 编码怀准慨述 第2 章h 2 6 4 编码标准概述 h 2 6 4 a v c 是1 9 9 5 年自m p e g 一2 视频压缩标准发布以后最新、最有前途的 视频压缩标准【1 2 1 。它是由i t u t 和i s o i e c 的联合开发组共同开发的最新国际 视频编码标准,通过该标准,在同等图象质量下的压缩效率比以前的标准提高了 2 倍以上,因此,h 2 6 4 被普遍认为是最有影响力的行业标准。下面对该标准作 简单介绍: 2 1h 2 6 4 系统架构 与以前的视频编码标准相比,h 2 6 4 编码器和解码器的系统结构并没有太大 的变化,采用的都是混合d p c m d c t 编解码器结构【i 引。h 2 6 4 编码器和解码器 的结构如图2 1 与图2 2 所示。在编码器端,当前待编码帧可以通过帧内编码和 帧间编码两种方式进行编码,帧内编码的过程较为简单,帧间编码的核心是运动 估计的过程,通过运动估计的过程可以得到当前待编码帧与参考帧之间的残差信 号,然后将残差信号再经过整数d c t 变换、量化以及熵编码的过程得到编码图 像进行存储或传输。解码器端的结构相对编码器端较为简单,编码后的数据经过 解析和一系列相应的反变换后得到重新得到残差图像,该残差图像再与解码器端 存储的参考图像做运动补偿后即可得到重建后的原始图像。 图2 1h 2 6 4 编码器结构 f i g 2 一it h es t r u c t u r eo fh 2 6 4e n c o d e r 北京f t 业人学丁学硕i j 学位论文 从图2 1 可以看出,在编码器端实际上还有一个图像解码部分,目的是在编 码端得到与解码端相同的重建图像作为参考帧,这就保证了编码和解码过重是所 使用的参考帧的一致性,使得图像的重建更为精确。此外,在h 2 6 4 的解码部分 还内嵌了去块效应滤波器来平滑块的边界,这就使得解码后的图像更加平滑,更 接近原始图像,不仅改善了解码图像的质量,同时也提高了编码器的压缩性能。 图2 - 2h 2 6 4 解码器结构 f i g 2 - 2t h es t r u c t u r eo fh 2 6 4d e c o d e r 2 2h 2 6 4 中关键技术 与以前的视频编码标准相比,h 2 6 4 的出现不仅提高了编码图像的质量,而 且使得图像的压缩效率大大提高,在同等速率下,与h 2 6 3 相比可以减小5 0 的码率。h 2 6 4 所具有的良好的编码性能与其所采用的许多新技术是密不可分的, 现对h 2 6 4 中所采用的一些关键技术进行介绍【1 4 】: 2 2 1 帧内预测编码 在以前的视频编码标准中,在帧内编码时并没有利用帧内宏块间的相关性, 而是对宏块直接进行变换和编码,这样,编码后的图像仍含有大量的冗余信息。 h 2 6 4 中为减少这种冗余,提高编码的效率,在帧内编码时同样也采用了帧内预 测技术【1 5 】,它利用了视频的空间相关性,利用当前待编码块的相邻块对当前块进 行预测,只需编码传输预测值与原始值之间的差值,减少了所需传输的数据量, 提高了编码的效率。在标准中一共定义了三种帧内预测模式:4 x 4 亮度预测、1 6 x 1 6 亮度预测和8 x 8 色度预测,详述如下: ( 1 ) 4 x 4 亮度预测 4 x 4 亮度预测共有九种不同的预测模式,从八个不同的方向对当前待编码块 进行了预测,如图2 3 所示,其中d c 预测即为均值预测。在图2 3 中,a m 为 待编码块的相邻像素且均已编码。 ( h o r i z o n t a l ) f 酽 3 ( d i a g o n a l d o w n 。l e f t j4 ( d i a g o n a ld o w n 时t )5 ( v e r t i c a l - f i g h t 驴蒸圃黔 6 ( h o r i z o n t a l - d o w n j7 帕r t i c a l l e f l ) 8 ( h o r i z o n t a l u p f 酽酽 图234 x 4 帧内预测模式 f i g 2 - 3 4 x 4 i n t t a - h m n e p r e d i c r l o n m o d e 从这九种预测模式所得到的结果中选择一种残差最小的模式即为当前块的 最佳预测模式。 ( 2 ) 1 6 x 1 6 亮度预测 1 6 x 1 6 亮度预测共有四种不同的预测模式【阍,可以从三个不同的方向来对当 前待编码块进行预测如图2 - 4 所示为1 6 x 1 6 宏块的四种预测模式。寻找当前宏 块的最佳预测模式的方法与4 x 4 亮度预测的方法相同,都是去比较各种预测模式 下得到的预测块与原始宏块之问的s a d 值,选取s a d 值最小的预测模式为当前 宏块的最佳预攫模式。 震震蔼蔼 图2 - 41 6 x 1 6 亮度预测模式 f i g2 41 6 x 1 6 l u m ac o m p o n e n t p r e d i c t i o l _ m o d e 北京t 业人学t 学硕i j 学位论文 ( 3 ) 8 x 8 色度预测 8 x 8 色度预测与1 6 x 1 6 亮度预测基本相同,同样有四种预测模式,不同之处 仅在于所适用的目标对象不同。1 6 x 1 6 亮度预测针对的是亮度宏块,而8 x 8 色度 预测是针对色度分量所组成的宏块进行预测,所用预测模式及过程基本相同,在 此不再赘述。 2 2 2 帧问预测编码 与以往的编码标准不同,为了更进一步提高编码图像的质量,提高编码器的 效率,h 2 6 4 中的帧间编码中采用了三种新的编码技术【1 7 】:七种不同大小分块的 运动估计,1 4 像素精度的运动估计以及多参考帧技术。现对这三种技术简要介 绍如下: 。 ( 1 ) 七种模式宏块划分 早期的视频编码标准中( 如n 2 6 1 和m p e g - 1 ) ,采用的都是固定大小的分块 模式,对于亮度分块大小为1 6 x 1 6 。为进一步提高编码效率,后来的视频编码标 准中( 如h 2 6 3 和m p e g - 4 ) 已经采用可变大小的宏块划分,对亮度分量可以采用 8 x 8 的分块大小。为了得到更高的视频质量以及更好的编码效率,h 2 6 4 编码标 准中一共定义了七种不同大小的分块模式:1 6 x 1 6 、1 6 x 8 、8 x 1 6 、8 x 8 、8 x 4 、4 x 8 和4 x 4 ,如图2 - 5 所示为宏块的树状结构的划分模式。 日m b 8 x 8 图2 - 5 七种模式的宏块划分模式 f i g 2 - 5m a c r ob l o c ks e g m e n t a t i o nm o d e 口s x s 日槲 田4 x 8 田叙4 口日田田 第2 章h 2 6 4 编五1 5 标准概述 h 2 6 4 中的宏块大小为1 6 x 1 6 ,在此基础之上定义了这七种模式的宏块划分, 针对不同的图像就可以灵活选择不同的分割模式来对图像进行不同程度的分割, 以满足应用的需求。通常,对于对图像质量要求比较高的应用或是图像中含有较 多细节的部分,通常会采用较小尺寸的分块模式,例如:8 x 8 、8 x 4 、4 x 8 和4 x 4 , 对图像的分割也较为细腻。而对于对图像质量要求不高的场合或是图像中比较平 滑的部分,通常则选用较大尺寸的宏块划分,例如:1 6 x 1 6 、1 6 x 8 和8 x 1 6 。通过 这种灵活多变的模式选择可是使得运动估计后得到的待编码的残差图像的能量 尽可能的小以便于存储和传输。 ( 2 ) 1 4 像素精度运动估计、 在数字信号处理中都是以采样点的方式用像素来描述图像,每幅图像中采样 点之间的距离是相同的,但是对于视频中在时间上连续的的两幅相邻图像,图像 中物体的运动并非一定是以整像素为单位来运动的,对于运动较为平缓的图像, 相邻两帧图像中物体的运动幅度可能远远小于两个整像素点之间的距离,如果物 体的运动以整像素距离为单位进行描述,则会产生较大的误差。为了更精确的描 述物体的运动,减少运动估计后残差图像的能量,h 2 6 4 中除了采用先前标准中 对于整像素点和半像素点的运动估计,又增加了对于1 4 像素位置的运动估计。 所采用的1 2 像素精度与1 4 像素精度的滤波器分别为( i 3 2 ,- 5 3 2 ,5 8 ,5 8 ,- 5 3 2 , 1 3 2 ) 和( 1 2 ,1 2 ) 。半像素点的差值过程如图2 6 中所示: 厂厂隔厂厂 圉国圜圈罔 口口匣口口 口口匝口口 图2 6 半像素点插值 f 嘻2 - 61 2p i x e li n t e r p o l a t i o n 在上图中e 、f 、g 、h 、i 、j 为整像素采样点的亮度值,经由半像素插值可 以得到半像素位置b 处的亮度值:b = r o u n d ( ( e 一5 f - i - 2 0 gq - 2 0 h 一5 i + j ) 3 2 ) 。 同理,对于h 处亮度值的计算可以通过对整像素a 、c 、g 、m 、r 和t 进行插 北京t 业人学t 学硕i :学位论文 值得到。对于余下来的半像素位置( 如:j 等) 处亮度值的计算可以通过上面已得 到的6 个水平或垂直半像素亮度值来计算,无论使用水平内插或使用垂直内插, 这两种方式所计算出的插补值应该是一样的。在半像素点的插值中所使用的六阶 滤波器相对比较复杂,但是可以使得匹配更加的精确,从而使得运动补偿的效果 更好。 对于1 4 像素的插值过程与半像素差值过程类似,但是四分之一像素位置的 像素由线性插值得到,如图2 7 中所示,g 、h 、m 、n 为整像点,b 、h 、j 、m 、 s 为半像素点。对于水平方向靠近整像素位置处的四分之一像素点,如:a 、c 、i 、 k 由水平相邻的整像素及半像素点计算,1 4 像素点a 的插值为:a = r o u n d ( ( g + b ) 2 ) ,同理对于垂直方向靠近整像素位置的四分之一像素点的插值计算与此类似。 对于如图中e 、g 、r 、p 处四分之一像素值的计算则使用图中箭头所示对角处的 两个半像素点进行插值得到。 回国团 i gbh o e g k 7 1 胁!骥 一; i ,鼍l 、z p r 氏力 l m?s=n 图2 71 4 像素点插值 f i g 2 - 71 4p i x e li n t e r p o l a t i o n 在运动估计的过程中,先找到使得残差图像的s a d 值最小的整像素点,然 后由半像素插值得到以该点为中心的周围八个半像素位置的半像素值,在这八个 半像素点中进一步寻找使得残差图像s a d 值最小的半像素点,当找到最优半像 素点后,由四分之一像素位置的插值得到该最优半像素点周围八个四分之一像素 位置处的值,这八个1 4 像素位置中使得残差图像s a d 值最小的插值点即为运 动估计的最终结果。 通过在半像素及1 4 像素位置的运动估计,可以更精确的描述物体的运动, 提高了编码图像的质量,同时也使得运动估计后的残差图像的能量尽可能的小, 提高了图像的压缩率。 ( 3 ) 多参考帧技术 在以前的视频编码标准中,都是只采用一帧参考帧来作运动估计,为了进一 步提高运动估计的准确性,进一步降低残差数据的能量,在h 2 6 4 中运动估计过 程中可以使用多个参考帧,在运动估计时最多可以选用五帧参考帧来进行运动估 计,并且可以选用当前帧前后的任何帧来作为参考帧,如图2 8 所示。与以往标 准相比,新标准在运动估计时可以在参考帧中找到更佳的匹配块,使得残差图像 的能量更小。 厂 k岛和絮, 鬯l 篇= :”k 每和蛊譬 l _ jl ll i 图2 - 8 多参考帧示例 f i g 2 - 8 e x a m 一嚣o f m u l “p l er e f e r e n c e f r a m e s 2 2 3 率失真优化模型 率失真优化( r a t ed i s t o r t i o no p t i m i z e d ) 策略i t s 是以率失真理论为基础提出的 一种代价函数方案,h2 6 4 a v c 编码标准中采用了该代价函数策略,并将其应用 于模式选择、参考帧选择和运功估计的决策当中,在编码的质量和编码的代价之 m 取得了一个很好的折中。与传统编码方法相比,其编码性能得到了大幅度提高。 除此之外,h2 6 4 a v c 还进一步将率失真优化策略引入了码率控制中。码率控制 有两种模型:可变比特控s u ( v b r ) 和固定比特控制( c b r ) 。第一种模型是一种开 环处理模式,输入为视频序列和一个量化系数o p 值,并非真正意义上的上的码 率控制;第二种模型则是一种闭环处理模式,输入为视频源和目标比特,它根据 对视频序列复杂度的估计、解码缓冲的大小以及网络带宽的估计来动态调整o p 的大小来动态控制码率的大小。 2 2 4 整数d c t 变换 h 2 6 4 根据待编码的残差数据的类型使用如下三种变换: 1 6 x 1 6 帧内预测模式的宏块,亮度d c 系数的4 x 4 矩阵使用哈达玛变换 色度块的d c 系数2 x 2 矩阵使用哈达玛变换 其它残差数据的4 x 4 块则使用基于d c t 的变换 与以往标准不同,在h 2 6 4 中所采用的d c t 变换是整数d c t 变换。该变换 不丢失精度,可以实现编码端和解码端反变换之间的零匹配,并且其核心部分仅 用加法和移位操作即可实现,大大提高了运算的效率和准确性。下面标准中的整 数d c t 变换进行简要介绍。 二维n x n 图像块的d c t 变换用矩阵表示如下式【
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025物联网智能家居系统集成效果实证分析与鉴定报告
- 2025年交通设备制造业数字化转型与智能交通服务模式创新报告
- 2025年直播平台内容监管政策与行业自律实践案例报告
- 机场停机坪租用协议合同
- 门面漏水退租协议书范本
- 汽车代卖废铁协议书范本
- 羊肉烩面店转让合同范本
- 签就业协议不填劳动合同
- 特种车玻璃采购合同范本
- 腻子清包工工程合同范本
- 对赌融资协议书范文范本
- DB42∕T 2234-2024 装配型附着式升降脚手架安全技术规程
- 中等职业技术学校人工智能技术应用专业(三年制)人才培养方案
- YDT 5206-2023宽带光纤接入工程技术规范
- DL-T1474-2021交、直流系统用高压聚合物绝缘子憎水性测量及评估方法
- 2024年4月自考05424现代设计史试题
- 快速入门穿越机-让你迅速懂穿越机
- Q-GDW 12105-2021电力物联网数据中台服务接口规范
- 水利安全生产风险防控“六项机制”右江模式经验分享
- 运动与健康(山东大学)学堂云网课答案
- 《养老机构认知障碍照护专区设置与服务规范》
评论
0/150
提交评论