(模式识别与智能系统专业论文)视频压缩编码算法研究.pdf_第1页
(模式识别与智能系统专业论文)视频压缩编码算法研究.pdf_第2页
(模式识别与智能系统专业论文)视频压缩编码算法研究.pdf_第3页
(模式识别与智能系统专业论文)视频压缩编码算法研究.pdf_第4页
(模式识别与智能系统专业论文)视频压缩编码算法研究.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

(模式识别与智能系统专业论文)视频压缩编码算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着通信和因特网的发展,视频压缩技术已经成为人们研究的热点。近年来, 由国际标准化组织( i s o ) 和国际电信联盟( i t u ) 制定了一系列视频压缩编码 国际标准,极大地推动了视频压缩技术的发展。它们已经在不同的领域得到了 广泛的应用,例如,m p e g 2 标准和h 2 6 3 标准已分别在d v d 广播和视频会议 领域得到了普遍应用。 本文研究了由国际电信联盟的视频编码专家组( v c e g ) 最新提出的h 2 6 l 新一代视频编码标准,并对h 2 6 l 提高编码效率的方法分别进行实验,结果证 明h 2 6 l 编码方法是基于运动预钡补偿的传统混合编码算法中编码效率最高, 性能最好的方法。在此基础上,对基于三维离散余弦变换的视频编码算法进行 了深入的研究,并将基于上下文的算术编码和位平面编码理论应用到编码算法 中,提出了一种基于3 d - d c t 的可伸缩视频编码算法,简称3 d e d c t 。实验结 果证明,这种算法不仅具有传统3 d - d c t 的简单易于硬件实现的特性,而且能 够使视频码流具有嵌入式传输特性,从而更利于在网络中传输和用于视频流媒 体服务业务。 关键词:视频编码h 2 6 li j v i c 三维离散余弦变换c a b a c a b s t r a c t w i t l lt h ed e v e l o p m e n to ft h ec o m m u n i c a t i o na n dc o m p u t e r , v i d e oc o m p r e s s i o n h a sb e e na na c t i v er e s e a r c ha r e ai nt h el a s td e c a d e as e r i e so f i n t e r n a t i o n a ls t a n d a r d s o f v i d e o c o m p r e s s i o nc o d i n g ,s u c h 解h 2 6 x ,m p e g - l ,m p e g - 2 ,m p e g - 4 a n ds oo n , h a v eb e e n d e v e l o p e db y i n t e r n a t i o n a ls t a n d a r d i z a t i o n o r g a n i z a t i o no s o ) a n d i n t e r n a t i o n a lt e l e c o m m u n i c a t i o nu n i o n ( i t u ) t h e s ey e a r s ,w h i c hh a v e g r e a t l y p r o m o t e d t h ea p p l i c a t i o no f t h ev i d e oc o d i n gt e c h n o l o g y t h et e x ti so r g a n i z e d 船f o l l o w s :n l eb a s i cc o n c e p t sa n dt e c h n i q u e sw h i c ha r e r e l e v a n ti nt h ec o n t e x to ft h em p e g - xa n dh 2 6 xv i d e oc o m p r e s s i o ns t a n d a r d sa t p r e s e n t a r er e v i e w e df i r s t f u r t h e r m o r et h es p e c i f i cp r o p e r t i e so ft h es t a n d a r d s r e l a t e dt ot h e i ra p p l i c a t i o n sa r ep r e s e n t e d i nt h ef o l l o w i n gt h eu p t o - d a t eh 2 6 l v i d e oc o d i n ga l g o r i t h m sa r eo u t l i n e di nm o r ed e t a i l e x p e r i m e n t sh a v ea l s ob e e n i m p l e m e n t e d t os h o wh o w m a n ya d v a n t a g e so f t h e h 2 6 lo v e ro t h e rs t a n d a r d s f i n a l l y , t h e3 d - d c t v i d e oc o d i n ga p p r o a c hi sa l s od i s c u s s e d i n s t e a do fu s i n g t h ec o m p u t a t i o n a li n t e n s i v em o t i o ne s t i m a t i o n c o m p e n s a t i o na l g o r i t h mt or e m o v e i n t e r f r a m e c o r r e l a t i o n ,t h et e m p o r a lr e d u n d a n c y i sa l s or e m o v e db yt h ec o s i n e t r a n s f c i r l n s i n c en om o t i o ne s t i m a t i o ni s r e q u i r e d ,t h e n u m b e ro fe n d e c o d i n g o p e r a t i o n s i s g r e a t l yr e d u c e d t h i s ,t o g e t h e r w i t ht h e s y m m e t r i c a lp r o p e r t i e s o f e n c o d e ra n dd e c o d e r ,f a c i l i t a t e sav e r ye f f i c i e n th a r d w a r ei m p l e m e n t a t i o n t h e n ,a n e wm e t h o dc a l l e de m b e d d e d3 d - d c t c o d i n ga i g o r i t h m ( 3 d - e d c t ) i s p r e s e n t e d t h em e t h o do fb i t p l a n e - b a s e dc o d i n ga l g o r i t h ma n dt h e c o n t e x t - b a s e d a r i t h m e t i cc o d i n ga l g o r i t h mi sc o m b i n e dw i t ht h ec o m m o n3 dc o d i n gm e t h o d s o t h i sm e t h o dn o to n l yh a st h ea d v a n t a g e so ft h ec o n v e n t i o n a l3 d d c t a l g o r i t h m ,b u t a l s oe n a b l e st h ec o d es t r e a mt oh a v et h ep r o g r e s s i v et r a n s m i s s i o np r o p e r t i e s t h e e x p e r i m e n t a lr e s u l t sa r ea l s os h o w nb o t hi nt e r m so f d i s t o r t i o nm e a s u r e m e n ta n d v i s u a lc o m p a r i s o n k e y w o r d :v i d e oc o d i n g h 2 6 lu v l c3 d - d c tc a b a c 声明 创新性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文 中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技 大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本 研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:趱 关于论文使用授权的说明 日期:0 口口弓f 3 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研 究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保 证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技 大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布 论文的全部或部分内容,可以允许采用影印、缩印或其它复铝4 手段保存论文。( 保 密的论文在解密后遵守此规定) 本人签名 导师签名: 过兰垩 一 描 日期:j 弓,i f 多 日期: 第一章绪论 第一章绪论 1 1 引言 随着v l s i 、计算机和通信技术的迅猛发展,数字化技术从未像今天这样深 刻地影响着人们的日常生活,它以其良好的可编辑性能、更高的数据传输可靠 性和数据保密性等优点迅速替代原有传统的模拟传输方式成为人类社会信息载 体的首选。然而,数字化在满足人们需求的同时,对数据传输带宽、数据存储 容量提出了更高的要求。对于多媒体信息特别是对视频数据,这种情况更为严 重,例如,按c c i r 6 0 1 建议,普通质量的电视信号数字视频的码率约为2 1 6 m b p s , 而高清晰度电视h d t v 则在1 2 g b p s 以上。 由此可见,对数字视频数据进行压缩处理成为信息时代的迫切要求。视频数 据本质上是一系列运动的图象序列,所以对视频编码采用的技术包含了图象编 码采用的技术。视频压缩的目的就是在保证一定图象质量的条件下,尽可能地 减少数据量,以满足视频信号的传输和存储。 从四十年代末开始,图象编码技术已经走过了近半个世纪的发展历程。从五、 六十年代基本方法的探讨,到七十年代早期可视电话的研究,使得这一领域有 了长足的进展,许多基本的思想和方法都相继提出。到八十年代前后,顺应信 息化的大趋势,面向各种应用的开发研究大力开展起来。进入九十年代以后, 国际上致力于标准化的工作,先后制定了一系列视频图象编码标准,如用于视 频存储和传输的m p e g 1 、m p e g 2 、m p e g 4 标准,用于视频会议和可视电话 的h 2 6 t 、h 2 6 3 、h 2 6 l 等。这些视频压缩编码标准的制定,同时也极大地促 进了视频压缩编码技术和多媒体通信技术的发展。 1 2 视频数据冗余性和数据压缩的可行性 视频图象数据存在着以下几点数据冗余性: 1 、空间冗余 组成图象的相邻象索之间有着比较强的相关性,即这些相邻点之间的象素值 不会相差得太大,这种象素间冗余就称为空间冗余或几何冗余。这样,各象素 的值可以比较方便地由其邻近象素的值预测出来,每个独立韵象素所携带的信 息相对较少。 2 、时间冗余 由于视频信号本质上是一系列连续的图象,为了达到连续的视觉效果,图象 的采样间隔很小,因此相邻两幅图象之间存在着很强的相关性。对于静止不动 视频压缩编码算法研究 的场景,当前帧和前一帧的图象内容是完全相同的;对于运动物体,如果知道 其运动规律,就可以从前一帧图象推算出它在当前帧中的位置来;这样在编码 过程中,可以充分利用这些相关性,采用相应的编码策略。 3 、心理视觉冗余 人眼对所感受的图象区域亮度不仅与区域的反射光有关,例如根据马赫带效 应,在灰度值为常数的区域也能感觉到灰度值的变化。这种现象的产生是由于 眼睛并不是对所有视觉信息有相同的敏感度。有些信息在通常的视感过程中与 另外一些信息相比来说不那么熏要,这些信息可认为是心理视觉冗余的,去除 这些信息并不会明显地降低所感受到的图象的质量。根据心理视觉冗余的特点, 可以采取一些有效的措施来压缩数据量。电视广播中的隔行扫描就是1 个常见 的例子。 4 、熵编码冗余 熵编码是建立在随机过程的统计特性基础上的。设信源能从一个有限或无穷 可数的符号集合中产生一个随机符号序列,即信源的输出是一个离散随机变量。 这个集合 口l ,a 2 ,a j 称为信源符号集彳,其中每个元素a j 称为信源符号。信源 产生符号a j 这个事件的概率是p ( a ,) ,且: p ( a ,) = 1 。产生单个信源符号a j 时的自信息是,( 口,) = 一l o g p ( a ,) 。对每个信 j = l j 源输出的平均信息记为i t ( u ) ,则:日( “) = 一p ( a ,) l o g p ( a ) 。h ( u ) 就称为n n j - i 的熵。可以证明,如果信源各符号的出现概率相等,则熵值达到最大。熵的范 围是0 s 日( “) s l o g :j 。在编码中用熵值来衡量是否为最佳编码。若以表示 编码器输出码字的平均码长,则当 n ( u ) 时为有冗余, h ( u ) 不可能, m h ( u ) 为最佳编码( 即稍大于坝“) ) 。 图象编码就是用较少的比特数表示出现概率较大的灰度级,而用较多的比特 数表示出现概率小的灰度级,就能达到数据压缩的效果。如果编码所用的码本 不能使平均比特数达到或接近熵值,就说明存在熵编码冗余。 综上所述,视频压缩编码针对这些视频数据的冗余采用相应的算法,消除数 据冗余,必定能达到满意的压缩目的。 1 3 经典编码算法及其缺陷 数据压缩的理论研究开始于s h a n n o n 的信息论。1 9 4 8 年s h a n n o n 的经典论 第一章绪论 文通信的数学原理中首次提到了信息率失真函数概念,1 9 5 9 年又进一 步确立了失真率理论,从而奠定了信源编码的理论基础。从此理论出发不难得 到数据压缩的两种基本途径:其一,设法改变信源的概率分布,使其尽可能地 非均匀,再用最佳编码方法使平均码长逼近信源熵;其二,联合信源的冗余度 也寓于信源间的相关性之中。去除它们之间的相关性,使之成为或差不多成为 不相关信源。 经典方法中的无损压缩方法,如h u f f m a n 编码、算术编码、游程编码等, 基于上述的基本途径一,其压缩效率都以其熵为上界,故其压缩比饱和于1 0 :1 左右。有损压缩方法,如预测编码、变换域编码、混合编码、矢量量化等基于 基本途径二,同时也大都受信息熵的约束。 虽然经典方法依据了图象本身固有的统计特性和利用人视觉系统的某些特 性进行压缩编码,但是利用得还不够充分,且伴随着感知生理心理学的发 展,人们越来越清楚地认识到:人的视觉特点与统计意义上的信息分布并不一 致,即统计上需要更多的信息量才能表征特征,对视觉感知可能并不重要。从 感知角度来讲,无需详细表征这部分特征。这时,压缩技术的研究就突破了传 统s h a n n o n 理论的框架,注重对感知特性的利用,即利用所谓的“感知熵”理 论,使得压缩效率得以极大提高,因此称其为现代压缩编码方法。 1 4 现代编码方法 伴随着数学理论,如小波变换、分形几何理论、数学形态学等以及相关学科, 如模式识别、人工智能、神经网络、感知生理心理等的深入发展,新颖高效的 现代压缩方法相继产生。现代压缩方法又称为分析与综合方法。 子带编码利用滤波器组将图象分解到不同的频带中,不同频带中的系数可以 采用不同的编码方式进行压缩。s b c 首先面临的问题就是带宽的划分及再抽样 频率的选取。其关键问题是f b 的设计,不少学者已做了大量工作去构造能够精 确重建,具有反粘连( a n t i a l i s s i n g ) 或具有线性相位的f b 。 小波变换、t 可提供一个更合理的子带多分辨率分析,时频表示框架, 丰富了子带编码的研究。小波表示介于空间域和时间域之间,此时若小波函数 是正交的则没有冗余信息。由小波函数构造的f b 是正则的,且具有一定的光滑 性。小波函数系的时宽带宽面积很小,且在时间和频率轴上都很集中,也就是 说展开系数即、t 系数的能量集中,并且不同频带之间的w t 系数相关联。据 此,有人提出零树( z e r o t r e e ) 矢量量化方法。它可以达到上百倍甚至几百倍的 压缩比,且可按不同的压缩比编码,灵活性大。 在图象编码向着智能化和高速化方向发展的今天,神经网络和模型基编码成 视频压缩编码算法研究 为当今研究的热点。神经网络( n n - - n e u r a ln e t w o r k s ) 之所以很适合图象编码, 是因为n n 具有大规模并行处理及分布式信息存储的优势,有良好的自适应性、 自组织性和容错性,有很强的学习功能、联想记忆功能,n n 的强映射能力和非 线性特性,使它可以学习具有相当接近输入信号特征空间基带的能力。因此, 用来解决最佳变换的实现是很有效的,应用b p 算法的多层非线性感知网曾成功 地用来进行d p c m 编码。利用k o h o n o n 的自组织映射进行矢量量化的码本设计 取得了极大的成功。用s o f m 算法所生成的码本就很少依赖于初始码本,且生 成的码本的拓扑结构能用来进一步提高编码效率和降低计算复杂度。 然而,现有的一些用于图象编码的神经网络模型都是在模拟人脑功能的思想 下建立的,没有考虑图象的特点和肉眼的视觉机理。因此压缩效果不太理想。 从理论上讲,神经网络可以模拟肉眼的信息处理过程。这种模拟不限于网络结 构方面,还包括网络的学习机制;但大多数神经网络的学习算法中。使用的只 是均方误差或p 阶矩误差失真准则,也没有引入考虑人类视觉系统特性,使其 图象主客观质量评价一致的失真准则。另外,神经网络还未能发挥其强大的图 象信息表征和处理功能。这些与神经网络理论研究还很不成熟,尚未形成完攘 的理论体系有关,有待于进一步研究。 有别于传统的波形编码方法,而基于模型基的编码( m o d e lb a s e dc o d i n g ) 策略着重利用了景物中的物体结构模型。在一定程度上利用了景物的三维信息。 也就是说,它使用结构化的图象模型来表示图象信号,其主要优点是用结构的 方式来描述图象内容。它的应用领域自然有别于波形编码。 在许多特定的应用中,景物结构性很强,而且内容较为限定( 如可视电话和 会议电视) ,画面多以头肩部为主。建立景物的模型。编码就只需分析出物体匹 配的模型及其运动,局部变化如表情( 口、眼) 变化可以反映到模型局部参数 的变化中,所要传输的数据只有依据模型合成重建图象所需的数据。压缩效率 十分可观,可以达到l k b ,s 以下。 模型编码的关键之处就是如何建模。可以建立三维( 3 d ) 模型,也可以建 立二维( 2 d ) 模型。3 d 模型又可分为面向物体的模型( o b j e c t o r i e n t e dm o d e l ) 和基于语义的模型( s e m a n t i cb a s e dm o d e l ) ( 即参数化的模型) ,但是,建模的 问题还有待于深入研究。 基于语义的方法可以有效地利用景物中已知物体的知识,以实现非常高的压 缩比,但它也仅能处理已知的物体,并需要较复杂的图象分析与识别技术。而 面向物体的方法可以处理成一般的对象,已知的或未知的,显然有更广泛的应 用前景;但其未能充分利用景物的知识,或只能在低层次上运用物体知识,编 码效率也就无法同前者相比拟。 分形编码( f r a c t a lc o d i n g ) 起步较晚,但其压缩比的潜力令人瞩目。分形图 第一章绪论 形编码主要利用自相似性的特点,通过迭代函数系统来实现压缩。自相似性是 指无论几何尺度怎么变化,景物任何一小部分的形状都与较大部分的形状极其 相似。自相似有些是确定的,但大量存在的是统计自相似及随机自相似性。而 图象压缩正好能恰当地、最大限度地利用这种自相似性。常见的i f s 由压缩仿 射映射( a f f i n et r a n s f o m a t i o n ) 构成,每个i f s 都有自己的吸引子,迭代到一 定程度就基本收敛到吸引子上。吸引子与i f s 无关,而仅仅取决于算法。对于 算法产生分形的一个例子是以波兰数学家s i e r p i n s k i 名字命名的三角形,它是自 相似的;但是要对具体的图象找出其i f s 码是相当困难的,其中尚有许多问题 有待于继续深入探索。 1 5 1 主要研究工作 1 5 研究工作概要和章节安排 本文主要研究了进行多媒体视频通信的关键技术视频图象压缩编码算法。 研究工作可以分为三个阶段: 1 熟悉视频编码的基本思想和原理,学习编码理论和通信原理,了解视频 通信的发展动态; 2 对原有视频图象压缩标准如h 2 6 3 、m p e g - x 等进行深入研究,了解其 中的主要算法和特点,并对视频编解码的过程通过软件进行模拟仿真; 3 针对现有算法的问题,提出了一种改进算法,并进行了性能分析。 本文的主要贡献: 1 对经典的视频编码方法进行了系统的研究,对视频编码国际标准的发展、 理论和主要技术进行了研究和分析; 2 采用v c + + 6 0 语言。对h 2 6 3 低码率视听会议压缩编码标准进行了系统 的仿真实验,实现了h 2 6 3 标准基于软件的视频编解码过程:完成并实 现了对h 2 6 l 新一代视频编码标准的软件仿真,对其中的改进编码算法, 分别进行了实验,测试了编码性能,并且对h 2 6 l 和传统的视频压缩编 码标准h 2 6 3 和m p e g - 4 进行了性能比较,证明了h 2 6 l 具有更高了编 码效率和更好的图象质量; 3 对基于三维离散余弦变换的视频编码算法进行研究和实验,并针对其不 能实现嵌入式传输的缺点,通过引入j p e g 2 0 0 0 中的位平面编码思想, 提出了一种基于3 d d c t 的可伸缩视频编码算法,称作嵌入式三维d c t 编码算法( 3 d - e d c t ) 。研究表明,3 d - e d c t 编码算法更加适用于网络 视频传输。 视频压缩编码算法研究 1 5 2 论文章节安排 全文共分为4 章。第一章为绪论,简要介绍视频压缩编码的研究背景和研究 现状。第二章介绍了视频压缩编码的发展概述,主要介绍各种视频编码国际标 准的基本原理和相应的应用领域。第三章研究了h 2 6 l 新一代视频编码标准的 基本原理,并且用v c + + 6 0 建立了h 2 6 l 的实验仿真平台,对h 2 6 l 比其它编 码标准增加的改进编码效率的主要算法,分别进行理论分析和实验证明。实验 结果证明h 2 6 l 不仅能够提供更高的压缩比,而且能够保证更好的图象质量。 第四章主要研究了基于3 d d c t 的视频编码算法,并在此基础上,提出一种可 伸缩的3 d d c t 编码算法( 3 d e d c t ) ,这种编码方法使得传统的基于3 d d c t 的视频编码码流更利于在网络上传输。第五章结束语对视频编码算法的发展和 存在的问题作出科学预见。 第二章视频压缩编码发展概况 第二章视频压缩编码发展概述 2 1 引言 目前,图象编码方法繁多,发展也相当迅速,根据不同应用目的而制定的图 象压缩编码的国际标准相继被推出,再加上数学、工程技术以及计算机本身体 系结构软硬件性能的深入发展和提高,使得图象编码的理论和技术得到了前所 未有的发展和应用。对现有的编码方法进行归纳总结有助于了解其发展方向, 使已取得的成果系统化,使尚未解决的问题明确化。本章将具体介绍一下现有 的主要视频压缩编码国际标准。 2 2 视频编码国际标准化现状 近年来,一系列国际视频压缩编码标准的制定,极大地促进了视频压缩编码 技术和多媒体通信技术的发展。视频压缩编码标准的制定工作主要是由国际标 准化组织( i n t e r n a t i o n a ls t a n d a r d i z a t i o no r g a n i z a t i o n ,简称i s o ) 和国际电信联 盟( i n t e r n a t i o n a lt e l e c o m m u n i c a t i o nu n i o n 。简称i t u ) 完成的。由i t u 组织制 定的标准主要是针对实时视频通讯的应用,如视频会议和可视电话等,它们以 h 2 6 x 命名( 如h 2 6 1 2 1 ,h 2 6 2 1 3 1 ,h 2 6 3 t 4 1 和h 2 6 l 1 1 2 , 1 3 , 1 4 ) ;而由i s o 和i e c ( i n t e r n a t i o n a le l e e t m t e c h n i e a lc o m m i s s i o n ,国际电工委员会) 的共同委员会中 的m p e g 组织( m o v i n g p i c t u r ee x p e r t g r o u p ) 制定的标准主要针对视频数据的 存储( 如d v d ) ,广播电视和视频流的网络传输等应用,它们以m e p g x 命名 ( 如m p e g - 1 1 5 1 ,m p e g - 2 1 6 1 ,m p e g - 4 7 ,8 。m p e g _ 7 1 0 , 1 1 】等) 。 各种视频压缩编码标准都是根据人们在不同领域中对声像数据的要求所制 定的,并且随着人们的需求不断地发展。视频压缩编码标准按其制定时间大概 可以用图2 1 进行描述。 圈日曰卫 囝回臣 围臣互【j 互圈 图2 1 视频压缩编码国际标准的发展 目前的视频编码国际标准的基本方法都是采用了基于d c t 变换的混合编码 视频压缩编码算法研究 方法,不同的标准针对不同的应用,采取了不同的编码策略来改进编码效率和 获得更好的图象质量。下面以h 2 6 1 为例,简单说明一下视频压缩编码的基本 过程,简单的编解码示意图如图2 2 所示。 ( a ) 编码器 压缩的码流 视频输出 圈2 2h 2 6 1 编解码示意图 如图2 2 所示在编码过程中,原始数据进入编码器,当采用帧内方式时,直 接进行d c t 变换,量化后形成码流,其中一路码流又经反量化器、i d c t 变换 后形成恢复图象。直接存入帧存储器;当采用帧间方式时,原始数据先与经运 动估计后的预测图象相减,产生差分图象,接着进行d c t 变换和量化,形成码 流。与帧内方式相对应,一路码流也经反量化、i d c t 变换后与预测图象相加形 成恢复图象,送入帧存储器,用于下一步的运动估计。解码过程是编码过程的 逆过程。对帧内方式,码流经反量化、i d c t 变换直接输出;对帧问方式,需根 据帧存储器中的前帧恢复图象,对当前帧的恢复数据进行运动补偿,然后与 当前帧的重建图象相加后输出。 2 2 1h 2 6 x 系列标准 通常情况下,h 2 6 x 标准侧重于视频信息的数据压缩效率,以适合调整该系 统在特定的位速率下传输。其主要应用目标是可视电话和会议电视。h 2 6 1 t 2 】首 次尝试综合数字压缩技术和网络技术实现数字图象实时传输,即可以在码率为p 6 4 k b p s ( p 取1 3 0 ) 的i s d n ( i n t e g r a t e ds e r v i c e sd i g i t a ln e t w o r k ) 综合业务数字 网上实时地传输声音和图象信息。h 2 6 3 1 4 是i t u t 于1 9 9 5 年制定的一种码率 低于6 4 k b p s 的甚低码率视频压缩编码标准。h 2 6 3 标准不仅着眼于利用p s t n 第二章视频压缩编码发展概况 9 ( p u b l i cs w i t c h e dt e l e p h o n en e t w o r k ,公共开关电话网络) 传输,而且兼顾 g s t n ( g e n e r a ls w i t c ht e l e c o m m u n i c a t i o nn e t w o r k ) 移动通信等无线业务。为进一 步改善图象质量,提高压缩比,h 2 6 3 在h 2 6 1 的基础上作了很多改进,如用半 象素精度预测取代了全象素预测和环路滤波器,不受限运动矢量,先进预测模 式,p b 帧模式,用基于语法的算术编码代替h u f f m a n 编码等。h 2 6 l d 2 作为面 向电视电话、电视会议的新一代编码方式,与h 2 6 3 的原有方式相比,它可获 得两倍以上的编码功能,也就是仅用一半的编码量就能得到同样清晰的画面。 2 2 2 肝e g - x 系列标准 m p e g - 1 旧和m p e g - 2 蚴是m p e g 组织制定的第一代视、音频压缩标准,为 v c d 、d v d 及数字电视和高清晰度电视等产业的飞速发展打下了牢固的基础。 m p e g 4 “棚是基于第二代视音频编码技术制定的压缩标准,以视听媒体对象为 基本单元,实现数字视音频和图形合成应用、交互式多媒体的集成,目前已经 在流式媒体服务等领域开始得到应用。m p e g - - 7 “”1 是多媒体内容描述标准,支 持对多媒体资源的组织管理、搜索、过滤、检索,已经基本完成。正在制定的 m p e g - - 2 1 “”的重点是建立统一的多媒体框架,为从多媒体内容发布到消费所涉 及的所有标准提供基础体系,支持连接全球网络的各种设备透明地访问各种多 媒体资源。 一、 m p e g 1 与视频会议的标准不同,m p e g 倾向于控制质量而不是控制位速率。它规 定了某些参数来获得一定的质量水平而不是调整系统在特定的位速率( 例如 i s d n 信道的带宽) 下工作,因此m p e g 1 和h 2 6 1 所用的编码方法有显著的不 同。其中最主要的差别是h 2 6 1 有两种帧:i n t r a 帧( 帧内) 和i n t e r 帧( 帧间) , 而m p e g 1 采用了三种帧:i 帧( i n t r a p i c t u r e s ) 、p 帧像( p r e d i c t e d p i c t u r e s ) 和 b 帧( b i d i r e c t i o n a lp r e d i c t i o n ) 进行前向、后向和双向预测。使用i 帧、p 帧和 b 帧编码的图象序列示意图如图2 3 所示。 图2 3 使用i 帧、p 帧和b 帧编码的图象序列 1 0 视频压缩编码算法研究 如图所示,i 图与i n t r a 帧类似,在编码时仅使用其自身的信息,它们提供编 码序列的直接存取访问点;p 图的编码参考过去的i 图或p 图的运动补偿预测, 对前向预测误差进行编码:b 图的编码则既参考过去的,又参考将来的i 图和p 图的运动补偿预测进行编码。 b 图象不仅压缩比最高,而且误差不会传递,这是因为b 图象本身不会被 用作预测的基准。此外,对利用两幅图象进行双向预测的结果加以平均,有助 于平滑噪声的影响。m p e g 1 在作这样的时域处理后,既可以大大压缩数据量, 又可以满足随机存取等要求。尽管h 2 6 1 支持通过p 帧的帧间压缩,但它不支 持b 帧压缩。因此,高压缩率的获得是以部分牺牲图象质量为代价的。当图象 质量和运动都很重要时,h 2 6 1 将不再是好的选择。相比之下。m p e g 提供了更 高的压缩率,即将3 5 2 2 4 0 分辨率,每秒3 0 帧的图象压缩到每秒1 5 0 k b y t e , 同时保持了图象的高质量。正是由于这个原因,m p e g 1 的编码系统要比位于 用户端的解码系统复杂的多。 二、m p e g 2 m p e g 2 在m p e g 1 的基础上作了相应的扩展,从多方面提高了编码参数的 灵活性以及编码性能。例如,增加了处理隔行扫描视频信号的能力,采用更高 的色度信号采样,可伸缩的视频流编码等。因此,m p e g - 2 具有很广的应用前 景,它除了用于d v d 外,还可以为广播、有线电视网、电缆网络以及卫星直播 提供广播级的数字视频。现在的v o d 视频点播系统和h d t v 高清晰度电视系 统都是采用m p e g 2 的视频标准。 m p e g 2 的视频流数据结构是分层的比特流结构,其编解码示意图如图2 4 所示。第一层称为基本层。基本层可以独立解码,其他层称为增强层,增强层 的解码依赖于基本层。m p e g - 2 基本层的结构与m p e g 1 相一致,包括视频序 列层、图象组块层、宏块层和块层。视频序列处于最高层,视频序列从视频序 列头开始,后面紧接着一系列数据单元。m p e g - 2 适于序列头中除了包括有序 列头函数外,还包括序列扩展函数的情况,而m p e g - 1 只支持序列头函数。另 外,为了提供随机访问的功能,在m p e g 2 编码流中允许有重复序列头出现, 重复序列头只可以在i 图或p 图前面出现,不能在b 图前面出现。i 图用以解决 视频序列的随机访问问题,如节目重播、快进播放或快退播放等。 第二章视频压缩编码发展概况 ( a ) 编码器 ( b ) 解码器 图2 4m p e g 2 增强层编解码示意图 三、m p e g 4 和m p e g 7 m p e g - 4 完全有别于m p e g - 1 2 等基于帧的压缩标准,它是基于对象的压缩 标准,其中有基于模型的方法、形态学方法、分形方法等等。m p e g 4 标准在 多媒体环境下提供一个基于不同对象的视频描述方法,包括自然或人工合成视 觉目标( v i s u a lo b j e c t ) 的压缩、时空可伸缩、差错恢复的算法等一整套技术以 满足多媒体,网络服务商和最终用户的要求,从而实现在有线和无线通信网、 i n t e m e t 网上传输和操作视频数据的功能。m p e g 4 标准的基于对象的图象处理 方法将成为视频压缩领域的主要发展方向。 另外,随着网络信息的不断增长,人们获得感兴趣的信息的难度越来越大, 传统的基于关键字或文件名的检索方法,显然已经不适于数据量庞大又不具有 1 2 视频压缩编码算法研究 天然结构特征的声像数据。于是实现基于内容检索,并支持电子内容传输和电 子贸易的新型多媒体压缩编码标准的制定,也成为m p e g 组织新的研究方向。 m p e g 一7 作为m p e g 家庭中的一个新成员,正式名称叫作“多媒体内容描述接 口”,它将为各种类型的多媒体信息规定一种标准化的描述,这种描述与多媒体 信息的内容本身一起,支持用户对其感兴趣的各种“资料”进行快速、有效的检 索。 2 2 3 视频编码国际标准的应用和性能比较 通常情况下,h 。2 6 x 标准侧重于视频和音频信息的数据压缩效率,以适合调 整该系统在特定的位速率下传输:m p e g 系列则倾向于控制质量而不是控制位 速率。但是在各种压缩编码国际标准中所采用的编码技术都是楣互渗透的,任 何一种利于数据压缩的方法都可以应用到标准中。在表2 1 中给出了各种视频压 缩编码标准的简要特征和应用领域。 表2 1 视频压缩编码国际标准简表 编码标准图象分辨事( 象 传输码率主要性能和应用领域 素) c i ff 3 5 2 x 2 8 8 p x 6 4 k b p s首次尝试通过数字压缩技术实现数字图象 h 2 6 1 r p = 1 - 3 0 ) 3 0 f s ) 和q c i f 实时传输。在n - i s d n 综合业务服务网上实 ( 1 7 6 1 4 4 x 时地传输多媒体信息。 3 0 f s ) s i f ( 3 6 0x2 8 8 主要应用范例是数字激光视盘v c d ,另外 m 衅e g 1 1 s m b p s2 5 帧,s 或3 6 0 x其音频编码的l a y e r 2 已应用于欧洲的数字 2 4 0 3 0 帧s )声音广播系统( d a b ) 。 低( 3 5 2 2 8 8 ) 被广泛应用于卫星广播业务( b s s ) 、高清 出( 7 2 0 x 4 8 0 ) 晰度电视( h d t v ) 、视频点播系统( v o d ) 、 数字声音广播( d a b ) 等。目前最热门的应 m p e g 2 4 1 0 0 m b p s次高( 1 4 4 0 用是d v d 。美国的h d t v 地面广播。欧洲 l o 譬o ) 的d v b 和d a b 系统和交互式电视 高( 1 9 2 0 x 1 0 8 0 ) ( i n t e r a c t i v et v ) 。 s u b - q c l f ( 1 2 8 主要采用混合编码技术,用于甚低码率多媒 9 6 )体通信系统,包括p s t n ( p u b l i cs w i s h e d h 2 6 3 低于6 4 k b p s q c l f ( 1 7 6 1 4 4 )t e l e p h o n en e t w o r k , 公共开关电话网络) 和 c i f 、4 c i f 、1 6 c i fg s t n ( 移动通信无线业务) 。 第二章视频压缩编码发展概况 采用基于对象的编码技术,为多媒体数据压 小于6 4 k b p s 包括h 2 6 3 和 缩提供了一个更为广阔的平台。现已被用于 m 衅e g 4 6 4 3 8 4 k b p s i v i p e g 2 的所有 i n t e m e t 上传递实时图象,同时也有一些厂 3 $ 4 k - 4 m b p s 分辨率 家准备用它给手机发送实时图象。 作为“多媒体内容描述接口”,可以被应用 于任何一种多媒体传输系统,并且支持用户 m 呼e g - 7任意任意 对其感兴趣的各种“图象和视频资料”进行 快速、有效的检索。 一种正在制定中的新型的视频压缩编码的 国际标准,能够进一步改善压缩性能同时提 h 2 6 l 小于6 4 k b p sc i f 、q c i f 供一种“网络友好”界面用于可视电话和多 媒体存储和广播系统等。 各类压缩标准的制定都有一个原则:即它不对编码方法做出规定,也就是说, 它只规定最后的数据格式,而不管采用何种方法获得这些数据格式。这正是制 订国际标准的一个重要原则,一方面,它为以后出现新的编码技术留下余地; 另一方面,它为各大公司和研究所的技术竞争留下了宽广的舞台。在一个标准 的制订过程中和发布实行之后,各大公司及研究机构就会在这些领域中进行技 术竞争,以期获得标准的部分专利,从而占据有利地位,获得更大的商业利益。 1 4视频压缩编码算法研究 第三章h 2 6 l 中的关键技术研究 3 1 概述 h 2 6 l 作为面向电视电话、电视会议的新一代编码方式,最初是由i t u 组织 的视频编码专家组( v c e g ,v i d e oc o d i n ge x p e r t sg r o u p ) 于1 9 9 7 年提出的。 直到2 0 0 1 年底,鉴于h 2 6 l 的实验模型的性能明显优越于现有的m p e g 一4 的软 件模型,i s o i e c 的m p e g 组织也加入了i t u t 的v c e g 组织,组成了联合视 频小组( j v t ,j o i n tv i d e ot e a m ) 共同完成h 2 6 l 的制定工作。j v t 组织的目 标就是建立一个单独的视频编码标准,即一个新的i t u t 标准( 1 i k e l y h 2 6 4 ) , 同时也作为m p e g 一4 家族的一部分( 1 i k e l y p a r t - 1 0 ) 。 h 2 6 l 的标准草案已经于2 0 0 2 年5 月制定完成。它的编码算法的基本构成 延续了原有标准中的基本特性,同时具有很多新的特性,其主要性能如下: 1 更高的编码效率:同h 2 6 3 v 2 ( h 2 6 3 + ) 或m p e g 4 相比,在大多数的码 率下,获得相同的最佳效果的情况下,能够平均节省大于5 0 的码率; 2 高质量的视频画面:h 2 6 l 能够在所有的码率( 包括低码率) 条件下提 供高质量的视频图象; 3 自适应的延时特性:h 2 6 l 可以工作于低延时模式下,用于实时的通讯 应用( 如视频会议) ,也能用于没有延时限制的应用,如视频存储,视 频流服务器等; 4 错误恢复功能:h 2 6 l 提供了解决网络传输包丢失的问题的工具,适 用于在高误码率传输的无线网络中传输视频数据; 5 有利的网络传输功能:h 2 6 l 的语法在概念上分为视频编码层( v c l , v i d e o c o d i n gl a y e r ) 和网络应用层( n a l ,n e t w o r k a d a p t a t i o nl a y e r ) 。 v c l 层包含了代表视频图象内容的核心压缩编码部分,而n a l 包含了 用于特定网络传输的信息包传输过程。因此,h 2 6 l 能够更好地适应网 络数据封装和信息优先权控制。 本章首先简要描述了h 2 6 l 的主体框架包括它的图象格式、编码顺序、运 动补偿、熵编码等主要编解码过程。然后重点研究了h 2 6 l 提高编码效率的主 要编码策略,包括帧内预测编码、帧间预测编码、基于4 4 象素块的整型变换 和先进的熵编码决策等。最后,在v c + + 建立的h 2 6 l 系统平台

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论