




已阅读5页,还剩50页未读, 继续免费阅读
(信号与信息处理专业论文)三维视频编码的关键技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘 要 摘要 随着多媒体技术的迅猛发展,三维视频已经成为一个重要的应用领域。相 对于传统的二维视频,三维视频可以提供给用户更加真实的立体视觉体验。预 期在不久的将来,三维视频将主导视频应用市场。三维视频的原始数据量巨大, 传输带宽和存储空间的限制成为制约三维视频发展瓶颈。因此,高效的三维视 频压缩算法对于其发展至关重要。由于三维视频数据具有一些新的特点,如新 的数据冗余等,这对三维视频编码方法带来了新的问题和挑战,同时也促进了 一些新技术的发展。因此,研究三维视频的编码算法具有一定的理论价值和广 泛的应用价值。 三维视频通常由多视角颜色视频和相应的深度视频进行表示,本文基于这 种表示方式,研究三维视频编码的一些关键技术,主要工作和创新之处在于: 1 提出一种新的基于可伸缩性视频编码的三维视频编码方法。 颜色视频包含三维场景中的颜色信息,而深度视频表达了物体与相机之间 的距离信息。这两个视频表达了同一场景的不同方面,在编码时具有很强的相 关性。本文提出基于h 2 6 4 a v c 可伸缩性扩展的编码方法,通过有效地利用这 种相关性,可以显著提高编码性能。此外,本文提出的编码方法符合现有的可 伸缩性视频编码国际标准,可以被现有的可伸缩性视频编码的标准解码器解码。 2 研究深度视频编码质量对视角合成结果的影响。 研究深度视频编码质量对视角合成结果的影响对于指导三维视频码率分配 有着重要的意义。高码率的深度视频如果对提高视角合成的质量作用很小,就 会造成传输带宽的浪费;反之,如果低码率的深度视频不能满足视角合成的要 求,则会造成视角合成质量的下降。本文通过实验发现,深度视频编码质量对 视角合成结果的影响不大,低码率的深度视频用于视角合成就可以得到较好的 合成结果。这样,在三维视频系统中,深度视频只需占用很少的传输带宽或者 存储空间,就可以满足应用要求。 实验结果表明,相对于以往的编码方法,本文提出的编码方法可以有效地 节约传输带宽;而本文关于深度视频编码质量对视角合成结果的影响的分析, 可以用于指导三维视频对深度视频的码率分配,在保证视角合成质量的情况下, 最大程度地节约深度视频占用的传输带宽和存储空间。 关键词:三维视频编码 可伸缩性视频编码h 2 6 4 a v c码率分配视角合 成 a b s t r a c t a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fm u l t i m e d i at e c h n i q u e s ,t h r e ed i m e n s i o n a l ( 3 d ) v i d e oi sb e c o m i n ga ni m p o r t a n ta p p l i c a t i o ni nt h ee v e r y d a yl i f e c o m p a r e dw i t h t r a d i t i o n a lt w od i m e n s i o n a l ( 2 d ) v i d e o ,3dv i d e oc a np r o v i d eu s e r sm o r er e a li s t i c s t e r e oe x p e r i e n c e s d u et ot h ea d v a n t a g e so f3 dv i d e o ,i tw i l lp r o b a b l yd o m i n a t et h e v i d e om a r k e ti nt h en e a rf u t u r e i n3dv i d e oa p p l i c a t i o n s ,b a n d w i d t ho rs t o r a g e c o n s u m p t i o ni ss t i l la ni m p o r t a n tc o n c e r nb e c a u s eo ft h eh u g ea m o u n tr a wv i d e od a t a t h e r e f o r e ,e f f i c i e n t3 dv i d e oc o d i n ga l g o r i t h mi sh i g h l yd e s i r e df o r3 dv i d e o a p p l i c a t i o n s t h ei n t r i n s i cc h a r a c t e r i s t i c so f3dv i d e o ,a sw e l la si t sa p p l i c a t i o n s c e n a r i o s ,b r i n gs o m en e wp r o b l e m sa n dc h a l l e n g e s ,a n da l s ol e a dt ot h ed e v e l o p m e n t o fs o m en e wt e c h n i q u e so f3 dv i d e o c o n s e q u e n t l y , r e s e a r c h e so n3 dv i d e oa r eo f b o t ht h e o r e t i c a ls i g n i f i c a n c ea n d p r a c t i c a lv a l u e i ng e n e r a l ,3 dv i d e oc a nb er e p r e s e n t e db ym u l t i - v i e wt e x t u r ev i d e o sa n dt h e i r a s s o c i a t e dd e p t hm a p s b a s e do ns u c hk i n d o f3 dv i d e od a t ar e p r e s e n t a t i o n ,t h i st h e s i s i n v e s t i g a t e ss e v e r a lk e yt e c h n i q u e si n3 dv i d e o t h em a i nc o n t e n t sa n dn o v e l t i e so f t h i st h e s i sa r ea sf o l l o w s : 1 t h i st h e s i sp r o p o s e san e w3dv i d e oc o d i n ga l g o r i t h mb a s e do ns c a l a b l ev i d e o c o d i n ge x t e n s i o no fh 2 6 4 a v c i n3 ds c e n e ,t h ec o l o ri n f o r m a t i o na n dd e p t hi n f o r m a t i o na r er e p r e s e n t e db yt h e t e x t u r ev i d e oa n dd e p t hm a p ,r e s p e c t i v e l y w h e nt h ec o r r e l a t i o nb e t w e e nt e x t u r e v i d e oa n dd e p t hm a pi s e x p l o i t e d ,t h ec o m p r e s s i o ne f f i c i e n c ym a yb ei m p r o v e d c o m p a r e dw i t he n c o d i n gt h e mi n d e p e n d e n t l y an e we n c o d i n ga l g o r i t h mi sp r o p o s e d w h i c he m p l o y ss c a l a b l ev i d e oc o d i n g ( s v c ) ,t h es c a l a b l ee x t e n s i o no fh 2 6 4 a v c , t oc o m p r e s st h et e x t u r ev i d e oa n di t sa s s o c i a t e dd e p t hm a p m o r e o v e r , t h ep r o p o s e d m e t h o dc o m p l i e sw i t ht h es v cs t a n d a r d h e n c et h eg e n e r a t e db i t s t r e a mc a nb e d e c o d e db yt h es t a n d a r ds v cd e c o d e r 2 t h i st h e s i si n v e s t i g a t e st h ei m p a c to fd e p t hm a p c o d i n gq u a l i t yo nv i e ws y n t h e s i s i ti si m p o r t a n tt oi n v e s t i g a t et h ei m p a c to fd e p t h c o d i n gq u a l i t yo nv i e ws y n t h e s i s f o r3 dv i d e ob i ta l l o c a t i o n d e p t hm a pw i t ht o oh i g hb i t r a t ew i l lc a u s eab a n d w i d t h w a s t ep r o b l e mi fi th a sl i t t l ec o n t r i b u t i o nt ov i e ws y n t h e s i s o nt h eo t h e rh a n d ,d e p t h m a pw i t ht o ol o wb i t r a t ew i l lm a k es y n t h e s i z e dv i e w sq u a l i t yd e g r a d ei fi ti sn o t s u f f i c i e n tf o rv i e ws y n t h e s i s t h et h e s i ss t u d i e st h ec o r r e l a t i o nb e t w e e nd e p t hm a p c o d i n gq u a l i t ya n dv i e ws y n t h e s i sr e s u l t s t h ee x p e r i m e n t a l r e s u l t ss h o wt h a tt h e d e p t hm a pq u a l i t yh a sl i t t l ei m p a c to nv i e ws y n t h e s i s ,a n dd e p t hm a p w i t hl o wb i t r a t e i sa b l et op r o v i d ee x c e l l e n tv i e ws y n t h e s i sr e s u l t s t h e r e f o r e ,i n3 dv i d e oa p p l i c a t i o n s y s t e m s ,d e p t hm a p c a nb ea l l o c a t e dw i t hs m a l la m o u n to fb i t s ,w h i c hi ss u f f i c i e n tf o r v i e ws y n t h e s i s e x p e r i m e n t a lr e s u l t si n d i c a t et h a tt h ep r o p o s e d3d v i d e oc o d i n ga l g o r i t h mc a r l b r i n gm u c hm o r ep e r f o r m a n c eg a i nt h a nt r a d i t i o n a lc o d i n gm e t h o d s m o r e o v e r , t h e i n v e s t i g a t i o no ft h ei m p a c to fd e p t hm a pc o d i n gq u a l i t yo nv i e ws y n t h e s i s i nt h i s t h e s i sc a nh e l pt og u i d et h eb i ta l l o c a t i o nd u r i n gd e p t hm a pc o d i n g k e yw o r d s :3 dv i d e oc o d i n g ,s c a l a b l e v i d e oc o d i n g ,h 2 6 4 a v c ,b i t a l l o c a t i o n ,v i e ws y n t h e s i s i v 中国科学技术大学学位论文原创性声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的 成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或 撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作 了明确的说明。 作者签名:! 氢墅丰签字日期:苎! z 聋臼! 亟 中国科学技术大学学位论文授权使用声明 作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学 拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构 送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有 关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论 文。本人提交的电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 么开口保密(年) 作者签名:强垦壬 签字日期:竺羔芏i 鱼! 鱼 导师签名:堡厘主查 第1 章绪论 1 1 研究背景 第1 章绪论 在过去的几十年罩,数字多媒体技术对社会的发展产生了巨大的影响( 钟玉 琢,1 9 9 9 :刘甘娜等,2 0 0 4 :王小鹏等,2 0 0 6 ) 。随着科学技术的发展,多媒 体业务的应用、终端以及内容等的多样化,以及计算机图形学、计算机视觉等领 域的发展,更多的媒体类型逐渐出现,如三维视频( 3 dv i d e o ,3 d v ) ( s m o l i ca n d k a u f f , 2 0 0 5 ) 和任意视角视频( f r e ev i e w p o i n tv i d e o ,f v v ) ( v e t r oe ta l ,2 0 0 4 ) 。 前者可以为用户提供当前场景的三维深度信息:后者则允许用户选择观察的视点 和视角,使得用户对视频的欣赏由被动变成主动。三维视频增加了场景的深度信 息,增强了视觉的逼真度以及现实感,甚至可以给用户提供一种全方位身临其境 的感受。三维视频和任意视角视频并没有本质上的区别,采用不同的名称是由于 它们侧重于不同的应用,而它们所采用的编码技术是一样的( s m o l i ce ta l ,2 0 0 6 ) 。 下文为了叙述方便,将不再区分三维视频和任意视角视频,都采用统一的名称: 三维视频。三维视频技术可以广泛的应用于数字立体电视、远程教育、远程工业 控制、视频会议系统、虚拟现实系统等诸多方面。这些应用将会在未来带来巨大 的消费市场,例如三维显示器、d v d 、高清晰d v d 和b r d 等相关产品。 三维视频最常用的表达方式是多视角颜色视频加对应的深度视频 ( m u l t i v i e wv i d e op l u sd e p t h ,m v d ) 。相比与传统的二维视频,m v d 数据量巨 大,如何有效地传输这些数据成为三维视频应用中的一个关键问题。多视角颜色 视频是对同一场景从不同视角拍摄得到的视频,因此其视频序列之间存在着大量 的相关性。同时,视频序列与深度视频之间也存在相关性。如何利用这些相关性 成为m v d 编码相对于传统视频编码一个重要的不同点。 运动图像专家组( m o v i n gp i c t u r ee x p e r t sg r o u p ,m p e g ) 成立了一个三维 音视频( 3 da u d i o v i s u a l ,3 d a v ) ( s m o l i ce ta l ,2 0 0 4 ) 小组,该小组在最近几 年充分调研了三维视频标准化的需求,同时针对三维视频的新特点提出了一些新 的技术。为了对三维视频进行有效地压缩,视频联合工作组( j o i n tv i d e o t e a m , j v t ) 从2 0 0 6 年开始制定多视角视频编码标准( m u l t i v i e wv i d e oc o d i n g ,m v c ) , 作为h 2 6 4 a v c 标准的一个扩展。视频联合工作组于2 0 0 8 年发布多视角视频编 码标准的最终草案( v e t r oe ta l ,2 0 0 8 ) 。 第1 章绪论 1 2 问题提出及研究意义 与二维视频相比,三维视频有着许多类似的视频序列本身的特征,例如视频 内部的时间以及空间的相关性,而同时也具有二维视频没有的一些特征,最主要 的就是颜色视频和深度视频之间的相关性。此外,相对于二维视频,三维视频又 有其不尽相同的应用场景。 三维视频与二维视频的相似性,使得二维视频的一些现有技术可以很好地应 用于三维视频。而三维视频具有的新特点,又可以对于现有二维视频的相关技术 进行扩展,使其更加适合于三维视频的特征。本文提出的三维视频编码方法就属 于这一范畴。 同时,三维视频一些新的应用场景,以及其自身具有的独特的性质,会出现 一些新的问题,也会引出一些针对这些新问题的解决方案。本文关于深度视频编 码质量对视角合成结果的影响的分析就是其中之一。 虽然网络带宽和存储设备的容量有着飞速的发展,但未经压缩的原始视频数 据的庞大数据量相对于当前有限的传输带宽和存储空间仍然是难以承受的。因 此,视频压缩技术一直是国内外视频技术研究的热点之一。经过近几十年的研究, 数字视频编码技术无论是在算法研究还是在产业发展上都有了长足的进步。国际 上已经成功地制定了面向各种应用的多个视频编码标准,如针对二维视频的 m p e g 1 2 4 标准、h 2 61 h 2 6 2 h 2 6 3 标准,以及国际上最新制定的h 2 6 4 a v c 视频编码标准;此外,视频联合工作组于2 0 0 8 年指定了针对多视角视频的编码 标准。这些视频编码标准主要是利用了视频的时间、空间以及视角间的相关性。 三维视频原始数据包括多视角颜色视频和相应的深度视频,针对二维视频的 编码标准以及针对多视角视频的编码标准可以直接用于三维视频编码。例如,可 以采用m v c 来编码多视角颜色视频和深度视频,也可以直接用h 2 6 4 a v c 标准 来编码颜色视频和深度视频。然而,颜色视频和深度视频之间存在相关性,现有 的这些编码方法并未利用这种相关性。因此,如果可以在编码时有效地利用颜色 视频和深度视频之l 白j 的相关性,就可以得到比现有三维视频编码方法更高的编码 效率。 三维视频中另一个重要的方面就是深度视频编码质量对视角合成结果的影 响以及该将深度视频编码成什么样的质量。和颜色视频不同,深度视频是用于视 角合成,而不会提供给用户观看。因此,评价深度视频编码后质量的好坏,不是 根据深度视频编码后的失真,而是要根据最终视角合成的结果。如果低编码失真 的深度视频对提高视角合成结果的质量没有什么帮助,那么将深度视频编码为很 高的质量会造成传输带宽或者存储空间的浪费。反之,如果视角合成的结果受深 度视频编码质量的影响很大,就有必要为深度视频分配更多的码率,以保证视角 2 第1 章绪论 合成的质量。 基于以上第一个三维视频编码的问题,本文提出了一种新的三维视频编码方 法,该方法充分利用了颜色视频和深度视频的相关性,得到了更高的编码效率。 此外,该方法符合现有的可伸缩性视频编码的国际标准,可以采用可伸缩性视频 编码的标准解码器进行解码。 针对以上第二个关于深度视频编码质量对视角合成结果的影响的问题,本文 通过实验分析了深度视频编码质量和视角合成结果之间的关系。实验表明,深度 视频在编码时可以采用很大的量化步长进行量化,编码后的深度视频用于视角合 成还可以得到较好的合成结果。该结果可以用于指导三维视频对深度视频的码率 分配,在保证视角合成质量的情况下,最大程度地节约深度视频占用的传输带宽 和存储空间。 1 3 本文内容安排 本文的内容安排如下:第二部分介绍视频编码的一些基础,主要包括视频编 码的研究意义和基本原理、h 2 6 4 a v c 编码标准及其可伸缩性视频编码扩展、三 维视频中的一些关键技术:第三部分介绍了本文提出的一种新的三维视频编码方 法,列出了实验结果并进行了分析:第四部分分析了深度视频编码质量对视角合 成结果的影响;第五部分对本文的工作进行了总结并且做了进一步展望。 3 第2 章基础知识 第2 章基础知识 本章将对本文所用的视频编码基础知识进行介绍,其中包括:视频编码的 研究意义和基本原理、视频编码标准介绍以及三维视频中的一些关键技术介绍。 2 1视频编码的研究意义和基本原理 随着计算机技术的发展,席卷全球的信息化革命深刻地影响着人们的同常 生活。人们对信息的依赖程度,不论是在工作、生活、学习还是娱乐中,都在 不断地提高。研究表明,一般人每天通过视觉获取的信息大约占获取信息总量 的7 0 左右( 崔之估等,2 0 0 2 ) 。而且,视频信息同其他信息相比,还具有直 观、高效等诸多优点。我们所看到的视频信息实际上是由许多单一的画面所组 成的,每幅画面称为一帧。由于人眼的视觉滞留效应,当播放画面的频率大于 每秒2 4 帧,眼睛就不会感觉到画面的中断。 研究数据表明,与语音信号和静止图像信号相比,视频的数掘量巨大,单 纯用扩大存储器容量、增加信道传输率的办法是不现实的。众所周知,视频信 号中存在大量的冗余,可以利用数据压缩技术对视频进行高效的压缩。以压缩 形式存储、传输视频信号,既节约了存储空间,又提高了信道的传输效率,使 得在现有的传输信道上就可以传输高质量的视频信号。 视频的信源数据存在着多种冗余,这使得视频信号可以被压缩。视频数据 中包含的冗余主要有:空间冗余、时间冗余、信息熵冗余、视觉冗余以及其他 冗余等。下面将分别介绍视频数据中存在的以上各种冗余。 ( 1 ) 空间冗余:一般一幅图像中经常存在大量内容相似的区域,在空间上 存在很强的相关性,例如一副图像中有一块颜色均匀的区域,此区域中的像素 点的色彩以及饱和度都是相近的,这种空间的相似性称为空l 日j 冗余。 ( 2 ) 时间冗余:视频序列连续时问上的图像之l 日j 的内容一般变化不大,具 有很强的相似性,称之为时i 日j 冗余,这也是视频数据中存在的最重要的冗余。 ( 3 ) 信息熵冗余:也称为编码冗余。由信息论可知,为表示图像数据的一 个像素点,只要按其信息熵的大小分配相应的比特即可。对于实际视频数据的 每个像素,很难得到它的信息熵,因此一般是对每个像素点都用相同的比特数 来表示,这样就必然存在冗余,这种冗余称为信息熵冗余。 ( 4 ) 视觉冗余:主要指人眼视觉系统( h u m a nv i s u a ls y s t e m ,h v s ) 对图 5 第2 章基础知识 像的色彩、对比度、空间、时问以及频率等特性的分辨能力有一定的限度。因 此在一定程度上降低信号表示的精度而不会被人眼察觉,以此实现减少数掘量 的目的。挖掘视频数据的心理视觉冗余主要利用了人眼视觉系统的色彩敏感性、 对比度敏感性、纹理敏感性和空间频率敏感性等几个方面。 ( 5 ) 其他冗余:主要包括结构冗余和知识冗余。在有些图像的部分区域存 在着非常强的纹理结构,或是图像的各个部分之间存在某种关系,例如自相似 性等,这种冗余称为结构冗余。图像中所包含的某些信息与人们的一些先验知 识有关,例如人脸图像有固定的结构,五官间的相互位置信息就是一些常识。 这种冗余称为知识冗余。 为了实现视频信号的有效压缩,必须尽可能地消除上述的各种冗余。从上 个世纪四、五十年代开始人们就进行了很多研究。对于视频数据中的空间冗余, 正交变换能够将空域中相关的数据转换成频域内不相关的变换系数,同时正交 变换还具有能量集中的作用,可以用若干个低频系数近似地表示原来的能量, 而不会造成太多的能量损失。因此,变换与量化相结合能够舍弃一些不太重要 的高频系数,从而达到压缩的目的,同时又不会造成大的失真。视频数据中的 时间冗余可以用运动补偿技术来消除,其基本思想是在已编码帧中为当自仃帧寻 找最佳匹配,通过匹配信息来预测当前帧,从而降低冗余度。匹配既可以基于 帧,也可以基于块,甚至基于像素。对于信息熵冗余,主要是采用熵编码技术, 通过提高熵编码效率来降低信息熵冗余,例如哈夫曼变长码和算术编码等。视 觉冗余则在降低数据采样速率、分级量化等技术中得到广泛应用,例如利用人 眼对色彩空间中的亮度分量较为敏感而对色度分量不太敏感的特性,通过降低 色度分量的采样率就可以降低视频的数据量。 2 2 视频编码的国际标准 为了更好地促进视频产业化的发展和视频应用的推广,有必要制定标准的 视频编解码算法。目前,制定视频编码标准的组织主要有国际电信联盟 ( i n t e r n a t i o n a lt e l e c o m m u n i c a t i o nu n i o n ,i t u ) 的远程通信标准化组( i t u t ) 、 美国a n s i 委员会电信委员会、电信工业联合会( t e l e c o m m u n i c a t i o n si n d u s t r y a s s o c i a t i o n ,t i a ) 、欧洲电信标准机构( e u r o p e a nt e l e c o m m u n i c a t i o n ss t a n d a r d s i n s t i t u t e ,e t s i ) 、日本电信技术委员会( t e l e c o m m u n i c a t i o n st e c h n o l o g y c o m m i t t e e ,t t c ) 、美国电器电子工程师学会( i n s t i t u t eo fe l e c t r i c a la n d e l e c g o n i c se n g i n e e r s ,i e e e ) 、国际电工委员会( i n t e r n a t i o n a le l e c t r o t e c h n i c a l c o m m i s s i o n ,i e c ) 和国际标准化组织( i n t e r n a t i o n a lo r g a n i z a t i o nf o r 6 第2 章基础知识 s t a n d a r d i z a t i o n ,i s o ) 等。其中,影响最大、使用相对最为广泛的是i t u t 和 i s o 制定的标准。 i s o i e c 于1 9 8 6 年、1 9 9 8 年先后成立了联合图像专家组( j o i n tp h o t o g r a p h i c e x p e l sg r o u p ,j p e g ) 和运动图像专家组( m o v i n gp i c t u r ee x p e l sg r o u p , m p e g ) 。j p e g 组织主要致力于静态图像的压缩编码标准的制定,制定了j p e g 、 j p e g2 0 0 0 等静态图像压缩标准;m p e g 组织主要致力于音视频压缩标准的制 定,先后制定了m p e g 1 、m p e g 2 和m p e g 4 等音视频编码标准。 m p e g 组织在1 9 9 2 年制定并于1 9 9 3 年公白了面向v c d 应用的m p e g 1 标准( 启动于1 9 8 8 年,是h 2 6 1 的一个超集) ,数据速率在1 5 m b p s 左右;1 9 9 4 年发布了面向d v d ,数字视频广播等应用的m p e g 2 ( 启动于1 9 9 0 年) ,适用 于1 5 - 6 0 m b p s 甚至更高码率;1 9 9 8 年制定了面向低码率传输的m p e g 4 标准 ( 于1 9 9 3 年启动,以m p e g 2 和h 2 6 3 为基础) 。 i t u t 基本上与i s o i e c 的发展同步,制定了h 2 6 x 系列标准。丌始于1 9 8 4 年的h 2 6 1 标准是m p e g 一1 标准的前驱,于1 9 8 9 年基本完成,主要是为了在 i s d n 上实现可视电话、视频会议而制定的。在h 2 6 1 的基础上,1 9 9 6 年i t u t 制定了h 2 6 3 编码标准( 启动于1 9 9 2 年) ,相继又推出了h 2 6 3 + ,h 2 6 3 + + 等 标准。2 0 0 1 年i t u t 和m p e g 联合成立了联合视频工作组( j o i n tv i d e ot e a m , j v t ) ,负责制定一个新的视频编码标准,标准在i s o 中称为m p e g 4 标准的第 1 0 部分( a d v a n c e dv i d e oc o d i n g ,a v c ) ,在i t u 中称为h 2 6 4 标准,本文称 作h 2 6 4 a 、,c 。 2 0 0 2 年6 月,国家信息产业部科学技术司批准成立的数字音视频编码技术 标准工作组开始制定自己的音视频编码标准一音视频编解码标准( a u d i ov i d e o s t a n d a r d ,a v s ) 。目前,a v c 标准中的视频编码部分包含了两个独立的部分: a v s 第二部分( a v s l p 2 ) 和a v s 第七部分( a v s l p 7 ) ;其中a v s l 一p 2 主要 针对高清晰度电视广播和高密度存储媒体应用,而a v s l p 7 主要针对低码率、 低复杂度、较低图像分辨率的移动媒体应用。 下文将按照标准制定的时间顺序简要介绍上文提到的各个视频编码标准。 2 2 1h 2 6 1 、m p e g 1 和m p e g 2 视频编码标准 1 9 9 0 年1 2 月,为了推动电视会议系统的迅猛发展,i t u t 制定了h 2 6 1 ( i t u t ,1 9 9 3 ) 标准,解决了不同厂商问的产品兼容性问题。由于不同国家采 用不同的彩电制式,不能直接互通。因此,h 2 6 1 采用通用中间格式( c o m m o n i n t e r m e d i a t ef o r m a t ,c i f ) 和四分之一通用中| 日j 格式( q u a r t e rc i f ,q c i f ) 作 为可视电话和电视会议的视频输入格式。所有的编解码必须支持对q c i f 格式 7 第2 章基础知识 进行操作,而c i f 格式则作为可选项。h 2 6 1 规定视频编码信号的传输速率为 p x 6 4 k b p s ,输出码流的码率只能是6 4 k b p s 的整数倍。h 2 6 1 采用了基于混合编 码框架的设计思想。首先将输入图像划分成亮度分量为1 6 1 6 大小的宏块,编 码时以宏块为基本单元。h 2 6 1 的预测算法分为帧内预测和帧间预测;帧内预 测利用8 x 8 的离散余弦变换( d i s c r e t ec o s i n et r a n s f o r m ,d c t ) ,对变换后的 d c 系数进行非线性量化,而对a c 系数则进行线性量化;帧间预测利用运动补 偿预测,当预测误差超过某个预定的闽值时,对误差作d c t ,然后进行加权量 化。量化后的系数采用z i g z a g 扫描方式,将二维系数变换为维数据形式, 然后进行游程编码。对于最常出现的( r u nl e v e l ) 组合,采用可变长编码进行 编码;其他组合则采用2 0 比特的等长码。为了获得固定的码率,编码器必须控 制它的输出码流。当使用c i f 输入格式时,输出码流的码率不得超过2 5 6 k b p s ; 而使用q c i f 格式时,码率不得超过6 4 k b p s 。 h 2 6 1 标准只规定了视频码流的解码过程,对编码过程未作任何限制,这 使得用户可以自由设计编码算法。h 2 6 1 的设计相当成功,它是第一个获得广 泛应用的数字视频编码标准,对后续的视频编码标准产生了深远的影响,之后 推出的视频编码标准都沿袭了与h 2 6 1 相似的设计框架和编码技术。可以说, h 2 6 1 在视频编码标准领域有着里程碑的意义。 m p e g 组织于1 9 9 2 年制定并于1 9 9 3 年发布了m p e g - 1 标准( i s o i e cj t c l ,1 9 9 3 ) ,适用于不同带宽的设备,包括c d r o m ,v c d ,c d - i 等。m p e g 1 可传输1 5 兆每秒的数据速率的数字媒体运动图像及其伴音的编码,具有c d 音质,画质与v h s 相当。m p e g 1 也被用于数字电话网络上的视频传输,如非 对称数字用户线路( a s y m m e t r i cd i g i t a ls u b s c r i b e rl i n e ,a d s l ) ,视频点播( v i d e o o nd e m a n d ,v o d ) 以及教育网络等。m p e g 1 中的编码图像分为三种类型: 帧内预测图像、前向预测图像和双向预测图像。其中,帧内预测图像是利用自 身的相关性进行压缩,采用基于d c t 的编码技术,编码不需要参考其他图像, 为解码器提供随机接入点。前向预测图像是参考时间轴上前面的帧内预测图像 或者是时间轴上前面的前向预测图像,用运动补偿技术进行预测,这些图像通 常作为进一步预测的参考。双向预测图像既可以使用时f 日j 轴上前一个图像作为 参考,也可以使用时间轴上后一个图像作为参考,与帧内预测图像和前向预测 图像相比,它的编码效率最高,但由于使用了时间轴上后面的图像作为参考, 视频传输时延时增加。m p e g 1 的应用也是相当广泛,如v c d 格式以及它的音 频格式m p 3 。总的来说,m p e g 1 标准的视频编码部分和h 2 6 1 标准十分类似, 都采用了混合编码框架。由于h 2 6 1 是针对视频会议应用,要求低延时,所以 h 2 6 1 中只有帧内预测图像和前向预测图像,而没有双向预测图像。 8 第2 章基础知识 m p e g 与i t u t 的视频编码专家组( v i d e oc o d i n ge x p e r t sg r o u p ,v c e g ) 于1 9 9 4 年出台了m p e g 2 ( i t u ta n di s o i e cj t cl ,1 9 9 4 ) 编码标准,它的 目的是支持高分辨率视频的编码,包括符合i t u rr e c 6 0 1 格式的标准分辨率 的数字电视和更高分辨率的数字电视。此外m p e g 2 标准兼容m p e g 1 标准, 这样可以充分发挥设备兼容能力以及降低设备价格。m p e g 2 相比m p e g 1 , 在系统和传送方面作了更加详细的规定和进一步的完善,特别适用于广播级的 数字电视的编码和传送,并被认定为标准清晰度电视( s t a n d a r d d e f i n i t i o nt v , s d t v ) 和高清晰度电视( h i g h d e f i n i t i o nt v ,h d t v ) 的编码标准。至今仍在 广泛使用的d v d 格式即为基于m p e g 一2 标准的格式。与m p e g 一1 标准不同, m p e g 2 提出了图像组( g r o u po fp i c t u r e s ,g o p ) 的概念,并支持隔行扫描编 码( i n t e r l a c e dc o d i n g ) 技术,用来更好地支持广播电视编码。此外,m p e g 2 提供了基本的分级工具:s n r 分级、空域分级、时域分级和数据分割。s n r 分 级是指从一个视频源产生至少两个具有相同的空问分辨率但不同质量的视频 层,基本层编码为基本质量,而增强层用于增强基本层。当把增强层加到基本 层时,可以提供更高质量的重建视频。s n r 分级的一个优点是它对传输错误具 有很强的恢复能力,而且s n r 分级使得当传输带宽较低时,用户看到的视频质 量是逐渐降低,而不是突变的。空域分级是利用图像的空间分辨率大小来分级, 增强层仅仅传输基本层和增强层之间的差值,在需要高分辨率的图像时,将经 过上采样的基本层相应的块与增强层的差值相加即可。时域分级的目的是实现 不同帧率的视频服务,基本层图像直接作为增强层图像的部分帧,增强层中图 像采用基本层的图像作为预测参考。数据分割是将一个视频码率分成两层的技 术。通过一个优先级断点来指定哪些语法元素被放入o 区,也就是基本区( 高 优先级) ,剩下的语法元素放入1 区( 低优先级) 。 2 2 2h 2 6 3 和m p e g 4 视频编码标准 i t u t 于1 9 9 5 年提出制定h 2 6 3 标准( i t u t ,2 0 0 0 ) ,并于1 9 9 6 年通过 了该标准的草案。h 2 6 3 是i t u t 的h 3 2 4 ( t e r m i n a lf o rl o wb i t r a t em u l t i m e d i a c o m m u n i c a t i o n ) 系列推荐中的视频编码标准之一( 还包括h 2 6 1 ) 。从总体上 来说,h 2 6 3 的视频编码算法本质上仍然是基于h 2 6 1 的改进和发展。由于h 2 6 3 标准设计之初主要是针对低码率的视频应用,h 2 6 3 在h 2 6 1 基础上做了若干 改进并增加了4 个选项,以增强其编码性能,使之能较好地工作于低码率的环 境下。与h 2 6 1 一样,h 2 6 3 采用了帧| 、日j 预测技术以消除时间冗余和采用变换 编码以消除空间冗余。h 2 6 3 的运动补偿达到1 2 像素精度而不是像h 2 6 1 那样 9 第2 章基础知识 采用整像素精度和环路滤波器。同时,h 2 6 3 还增加了一些选项:无限制运动 向量模式、基于语法的算法译码、先进的预测模式和p b 帧模式。这4 个选项 可以分别设定。在保持相同编码质量的情况下,h 2 6 3 可以比h 2 6 1 节省 3 0 5 0 的码率,这主要归功于半像素预测、较少的信头开销和改进的变长码 ( v a r i a b l el e n g t hc o d e ,v l c ) 码表。h 2 6 3 还支持s q c i f 、q c i f 、c i f 、4 c i f 和1 6 c i f 五种标准化图像格式。i t u t 原打算h 2 6 3 主要用于低码率的多媒体 通信,但由于h 2 6 3 的优异性能和高度的灵活性,1 9 9 6 年1 1 月版本的h 2 6 3 草案取消了仅适用于低码率的限制。 1 9 9 8 年l1 月,m p e g 颁布了m p e g 。4 视频编码标准( i s o i e cj t cl ,2 0 0 4 ) 。 m p e g 4 的一个主要特征是采用了基于内容的视频编码。它将内容与交互性作 为核心,从而为多媒体数据压缩提供了一个更为广阔的平台。另外,它更多定 义的是- , e e 格式和框架,而不是具体的算法,这样人们可以在系统中加入许多 新的算法。除了一些压缩工具和算法外,各种各样的多媒体技术( 如图像分析 与合成、计算机视觉、语音合成等) 也可以充分应用于编码中。m p e g 4 更加 注重多媒体系统的交互性和灵活性,以及多产业领域的融合。m p e g 4 希望达 到两个目标:一是低比特率下的多媒体通信;二是多媒体通信的综合。 为了实现基于内容的交互功能,m p e g 4 的视频编码标准部分引入了视频 对象面( v i d e oo b j e c tp l a n e ,v o p ) 的概念。在这一概念中,将一段视频序列 看作由各个不同的视频对象( v i d e oo b j e c t ,v o ) 组成,v o 可以是视频中的人 物或者是具体的景物,每一个v o 在某一个特定时刻的实例称为v o p 。这样就 可以根据人眼感兴趣的一些特性,如形状、运动、纹理等,将视频序列中的每 一帧中的场景看成是由不同v o p 所组成。在编码时,编码的基本单元是任意形 状的v o ,而不是一个个的矩形框。v o p 的编码有三种模式:i - v o p ,b - v o p 和p v o p 。 m p e g 4 和h 2 6 3 标准是同一时段的编码标准,采纳了相似的编码框架, 且编码技术方面有很多交叉的地方。比较而言,m p e g 一4 注重用户与内容的交 互性,而h 2 6 3 则更注重编码效率的提高。 1 9 9 8
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 8.1 《梦游天姥吟留别》教学设计 2024-2025学年统编版高中语文必修上册 2024-2025学年统编版高中语文必修上册
- 电池厂员工考勤考核制度
- 五年级体育下册 第三课 向后转走说课稿
- 化肥厂通勤福利制度
- 美容院美容师服务合同
- 第1章网络概述1.2网络的类型 -高中教学同步《信息技术-网络基础》教学设计(人教-中图版2019)
- 8.从生活中吸取设计的灵感说课稿-2025-2026学年初中美术浙教版八年级上册-浙教版
- 七年级地理上册 第三章 第二节 气温的变化与分布说课稿 新人教版
- 安徽省宿州市灵璧实验学校2024-2025学年八年级下学期期中生物试题 (含答案)
- 生态旅游项目招标工作计划编制与可持续发展规划合同
- 2025年临床诊疗指南:过敏性紫癜详解
- 儿童托管中心疫情防控应急预案
- 沿海养殖区生态环境修复-洞察分析
- 阑尾炎课件24张
- 光伏发电项目技术审查方案
- 中央空调系统维保服务报价清单
- 护士N3岗位竞聘
- 人教版三年级上册《生命.生态.安全》全册教案(及计划)
- 2024年污水管道维修协议书范文范本
- 雪糕车租赁合同三篇
- 绘画劳务合同
评论
0/150
提交评论