(通信与信息系统专业论文)视频压缩编码mpeg4算法研究及实现.pdf_第1页
(通信与信息系统专业论文)视频压缩编码mpeg4算法研究及实现.pdf_第2页
(通信与信息系统专业论文)视频压缩编码mpeg4算法研究及实现.pdf_第3页
(通信与信息系统专业论文)视频压缩编码mpeg4算法研究及实现.pdf_第4页
(通信与信息系统专业论文)视频压缩编码mpeg4算法研究及实现.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(通信与信息系统专业论文)视频压缩编码mpeg4算法研究及实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西北工业大学硕士论文:视频压缩编码m p e g 一4 算法研究及实现 摘要 近年来,m p e g 一4 已成为视频压缩技术领域中的一个热点,该技术的应用可以 提高图像通信系统的质量和容量。本文首先介绍了目前常见的视频压缩协议并进 行了对比,阐述了m p e g 一4 视频压缩标准的特征和新技术。其次,详细说明了m p e g 一4 视频压缩标准采用的算法,深入研究了运动估计、d c t 变换、量化等算法并进 行了优化。在理论上对菱形搜索算法进行了改进以在相同质量情况下搜索点数可 减少近5 0 ;同时针对硬件资源条件对d c t 变换和量化算法进行优化,使算法运 行时间减少4 0 左右,在一定程度上提高系统的性能。然后,在v c 环境下用c 语 言编写程序实现了m p e g 一4 的视频压缩功能,采用测试序列验证无误。最后,将 程序移植到d s p 上,在c c s 中基于t m s 3 2 0 c 6 2 0 1 芯片核对算法进行仿真。 关键词:m p e g 一4视频压缩运动估计 菱形搜索d c t 变换量化 c c s 西北工业大学硕士论文:视频压缩编码m p e g 一4 算法研究及实现 a b s t r a c t r e c e n t l y ,m p e g 一4 h a sb e c o m ea v e r yp r o m i s i n gt e c h n o l o g y f o rv i d e o c o m p r e s s i o n ,w h i c hc o u l de n h a n c e t h es y s t e m sq u a l i t ya n d c a p a c i t y t h i st h e s i sb e g i n s w i t ht h ei n t r o d u c t i o na n dc o m p a r eo f t h ev i d e oc o m p r e s s i o ns t a n d a r di nc o m m o n u s e ,a s w e l la st h ee x p l a n a t i o no ft h en e w t e c h n i q u ei nm p e g 一4 s e c o n d l y , t h ea l g o r i t h m su s e d i nm p e g - 4v i d e oc o m p r e s s i o ns t a n d a r da r ee x p l o r e di nd e t a i l ,a n dw e d e e p l ys t u d y t h e a l g o r i t h m si n c l u d i n gm o t i o ne s t i m a t i o n ,d c tt r a n s f o r ma n dq u a n t i f i c a t i o n i nt h e o r y , w ei m p r o v eo nt h ea l g o r i t h mo fd i a m o n ds e a r c hi na i mt or e d u c et h ec o u n ta m o u n ti n t h es a m eq u a l i t y m e a n w h i l et a k i n gt h eh a r d w a r er e s o u r c ei na c c o u n tw e o p t i m i z et h e a l g o r i t h m so f d c tt r a n s f o r ma n d q u a n t i f i c a t i o na n dg a i nt h eb e r e rp e r f o r m a n c e o ft h e s y s t e m a n dt h e n ,r e a l i z et h em p e g 一4v i d e oc o m p r e s s i o ns y s t e mb y t h ep r o g r a mo fc l a n g u a g ei nv ce n v i r o n m e n t ,a n du s et h es t a n d a r dt e s t i n gs e q u e n c et o v a l i d a t ew e l l f i n a l l y , r e p l a n tt h ep r o g r a mt o t h ed s p , a n ds i m u l a t et h ea l g o r i t h mb a s e do nt h e t m s 3 2 0 c 6 2 0 1 c o r eb yc c s k e y w o r d s :m p e g - - 4v i d e o c o m p r e s s i o n m o t i o ne a i m a t i o n d i a m o n ds e a r c hd c t q u a n t i f i c a t i o n c c s 西北工业太学硕士论文:视频压缩编码m p e g 一4 算法研究及实现 第一章绪论 1 1 数字压缩引论 娱乐、电信、因特网这些都是我们日常生活中的一部分。在生活中我们享受 它们,使用它们,在报纸和杂志上读到它们,在电视上看到它们。今天我们到处 谈论数字通信系统和网络,为什么要数字化呢? 因为数字信号易于存储和远距离 传输,而且没有累积失真,数字化存储的信息还可以高品质的被还原。 但是也有不利的一面。一些重要的信号,如音乐、电视、电影等,其数字化 版本需要每秒更多的比特数去存储或传输,这就造成了高成本。表1 1 列出了几 种重要信源信号的原始数据速率( 未经压缩) 。为了对表1 1 的速率有个概念,我 们来看看下面的情况:目前,普通的电话线路调制解调速率为2 8 8 k b p s ,在北美 区域用于声音信号的传输比特率为8 k b p s ,这样未经压缩的9 6 k b p s 就需要将电话 的声音信号带宽拓展1 2 倍。另外,c d - - r o m 的容量是6 5 0 m 字节,现在存储量最大 的双面双层的数字化光视频盘( d v d 坞) 的容量大约是1 8 g 字节,这样对于未压 缩的电视信号,前者仅可存储2 3 5 秒,而后者仅可存储约1 2 分钟的节目。 表1 1 未压缩信源的大致比特率 电话( 2 0 0 3 4 0 0 h z ) :8 0 0 0 样本数秒1 2 比特样本= 9 6 k b p s 宽带语音( 5 0 7 0 0 0 h z ) :1 6 0 0 0 样本数秒1 4 比特样本= 2 2 4 k b p s 宽带音频( 2 0 2 0 k h z ) :4 4 1 0 0 样本数秒2 信道1 6 比特样本= 1 4 1 2 m b p s 图像:5 1 2 5 1 2 象素色彩图像2 4 比特象素= 6 3 m 比特图像 视频:6 4 0 4 8 6 象素色彩图像2 4 比特象素3 0 图像秒= 2 2 1 m b p s 高清晰度电视:1 2 8 0 x 7 2 0 象素色彩图像2 4 比特象素6 0 图像秒= 1 3 g b p s 对于表1 1 中的数据,我们将用怎样的方法来改进保持数字化传输和存储的 优点呢? 那就是压缩。一般说来,压缩是信源信号,如语音、图像、音乐或电视, 的有效的数字化表示。我们用尽可能少的比特数来表示源信号并能将其还原。因 西北工业大学硕士论文:视频压缩编码m p e g 一4 算法研究及实现 此,压缩的任务就是保持信源信号在一个可以接受的状况下把需要的比特数减到 最低程度,以减少存储和传输的成本。 1 2 图像压缩编码的可能性 图像压缩编码的目的是以尽可能少的比特书表征图像,同时保持复原图像的 质量,使它符合预定应用场合的要求。压缩数据量、提高有效性是图像压缩编码 的首要目的。通常把图像压缩编码简称为图像编码。 图像数据可以进行压缩有几方面的原因。 首先,原始图像数据是高度相关的,存在很大的冗余度。数据冗余就造成比 特数的浪费,消除这些冗余可以节约码字,也就达到了压缩的目的。例如,大多 数图像内相邻象素之间存在较大的相关性,称为空间冗余度;序列图像前后帧之 间有较大的相关性,称为时间冗余度;多光谱遥感图像各谱之间有相关性,称为 频率域冗余度;若用相同的码长表示不同出现概率的符号也会造成比特数的浪费, 称为符合冗余度,等等 其次,允许图像编码有一定的失真也是图像可以压缩的一个重要原因。在许 多应用场合,并不要求经压缩及复原以后的图像和原图完全相同,而允许有少量 失真。只要这些失真并不被人眼所察觉,在许多情况下是完全可以接受的,这就 给压缩比的提高提供了十分有利的条件。这种有失真的编码称为限失真编码。 图像质量运行的损失越多,可以实现的压缩比就越大。在大多数应用中,人 眼往往是图像信息的最终接收者。如果能充分利用人眼的视觉特性,就可以在保 证所要求的图像主观质量的前提下实现较高的压缩比。这其实就是利用的人眼的 视觉冗余度,对某些失真不敏感,难以察觉。图像压缩编码方法如果能充分利用 这些特性,就可以取得较好的效果,即在复原图像主观质量较好的前提下得到较 高的压缩比。比如说,人眼对颜色的空间分辨率低于对亮度信号的分辨率。在 c c i r 6 0 1 标准中,y :u :v 可选用4 :2 :2 就是利用了这个特性。将色差信号的空间分 辨率减半,仍可得到非常高的图像质量。如果将它三个分量都是8 b i t 的方案相比, 可以得到3 :2 的压缩比,而图像的主观质量几乎没有降低。 此外,还可利用先验技术来图像图像压缩编码。在某些特定的应用场合,编 码对象的某些特性是可预知的。例如,在可视电话中,编码对象主要是人的头肩 西北工业大学硕士论文:视频压缩编码m p e g 一4 算法研究及实现 像。可以利用对编码对象的先验知识为编码对象建立模型。通过提取模型参数对 参数进行编码,而不对图像直接进行编码,可以节省大量码字得到非常高的压缩 比。 图像压缩编码技术就是利用各种方法将这种种的压缩可能性变为现实。 1 3 图像压缩编码技术的发展 1 图像编码技术发展 图像视频压缩技术的研究已有几十年的历史。从基本原理来看,压缩技术可 以分为两大类。第一类方法是基于速率一失真理论的。在这类方法中,视频图像 序列利用在空间上和时间上取样得到一组象素( 灰度、彩色) 值来表示;而压缩 的方法则是采用一般信号分析的方法来消除数据中的冗余,最终使得用来表示图 像的一组数据是互不相关的。对于这些方法,重要的是了解信源的统计特性,而 不关心图像的具体内容,也不考虑或很少考虑人眼的视觉特性。因此,此类方法 被称为基于象素的压缩方法,也称为第一代图像压缩编码方法。 第一代图像压缩编码方法在8 0 年代初已趋于成熟,许多优秀的成果已被吸收 进近年来制定的有关图像数据压缩的国际标准,例如j p e o ,m p e g l h 2 6 1 ,h 2 6 2 ( m p e g 一2 ) ,h 2 6 3 等。由于希望对图像进行几十倍,以至于百倍以上的压缩,采 用单一的压缩方法往往不能奏效,因此,各种国际标准都综合利用了多种基本压 缩方法来达到所要求的压缩比。当需要进行极低码率的图像数据压缩时,第一代 技术往往不能提供令人满意的解码恢复图像。目前对于不同复杂程度的图像,利 用第一代技术可能达到的最低码率为8 4 8 k b s 。 “第二代图像压缩编码方法”这一术语是在8 0 年代中期正式出现的。极低码 率的图像数据压缩往往是采用第二代技术。这类方法在很大程度上依赖于对人类 视觉特性的研究,其核心思想是力图发现人眼是根据哪些关键特征来识别图像、 或图像序列的,然后根据这些特性来构造图像模型。例如,根据人眼对物体轮廓 比对物体内部细节更为敏感的特点,可以利用物体( 而不是象素) 的集合来表示 图像。所谓“物体”是指按边缘信息将某特定图像分割成的若干区域,每个区域 内部具有相同的特性( 如同一灰度、纹理或运动速度等) 。分别对这些区域进行编 西北工业大学硕士论文:视频压缩编码m p e g 一4 算法研究及实现 码将比基于象素的编码方式有效得多。根据视觉特性的其它特点,还可以构造其 它的图像模型和编码方式。 鉴于第二代技术尚未达到成熟的阶段,在本论文中着重讨论实现的仍是第一 代技术。 2 图像编码技术的研究现状 进入9 0 年代以后,i t u t 和i s o 制定了一系列图像压缩编码国际标准,如 ( 1 ) 1 9 9 0 年为会议电视和可视电话制定的h 2 6 1 标准 ( 2 ) 1 9 9 1 年为静止图像编码制定j p e g 标准( i s o1 0 9 1 8 ) ( 3 ) 1 9 9 1 年为二值图像编码制定j b i g 标准( i s oc d i1 5 4 4 ) ( 4 ) 1 9 9 1 年为电视图像数字存储而制定的m p e g 一1 标准( i s oc d l l l 7 2 ) ,数码 率高达1 5 m b p s ( 5 ) 1 9 9 3 年为活动图像及伴音压缩而制定的通用编码国际m p e f g - - 2 ( 6 ) 1 9 9 3 年美国“大联盟”( g r a n da 1 l i a n c e ,简写g a ) 公布数字h d t v 系统的 说明书草稿。 ( 7 ) 1 9 9 5 年i t u t 为甚低码率视频编码而制定h 2 6 3 标准。 ( 8 ) 美国“先进电视系统委员会”( a t s c ) 拟定“数字电视标准”。 ( 9 ) 1 9 9 9 年i s o 组织于公布了m p e g 一4 标准( i s 0 i e c l 4 4 9 6 ) ,是低比特率下的 多媒体通信标准。 这些标准的制定极大的推动了图像编码技术地实用化和产业化,而图像编码 技术产业化进程的加快也推动了图像编码技术以更快的速度发展 目前图像编码技术的研究工作主要分为两个方向: ( 1 ) 更好的实现现有的图像编码国际标准,主要从以下两方面着手 解决好现有的图像编码系统开发中的技术问题,例如提高图像质量,提高 抗误码能力等。我们可以看到,拿现在生产的符合m p r g 一1 的v c d 的图像质量和 几年前产品的图像质量相比,虽然用的是相同的国际标准和码速率,但图像质量 大大提高了。这就是近几年来对m p e g 一1 编码器具体实现方法做深入研究的结果。 国际标准的开放性结构为这种深入的改进提供了前提,它允许人们在不影响兼容 性的前提下发挥自己的创造性,对标准中的开放部分进行改进。这些开发性部分 包括运动估计和运动补偿,自适应量化系数等。在国际标准规定的约束下,对这 西北工业大学硕士论文:视频压缩编码m p e g 一4 算法研究及实现 些部分的算法做更合理的细化有助于提高编解码器的性能。 研制出集成度更高、性能更好的图像编码专用芯片( a s i c ) ,使编码系统成 本更低,可靠性更高。 ( 2 ) 对图像编码理论和其它图像编码方法的研究 基于线性方法( 预测法和分块d c t 相结合) 的核心算法既不能有效的反映图 像的固有统计特性,也不能有效的反映人服的视觉特性。这两方面都还有待在理 论上的突破。 目前已提出的和正在进行研究的图像编码方法主要是:多分辨率编码,基于 表面描述的编码方法,模型编码,利用人工神经网络的压缩编码及利用分形几何 的图像编码等等 1 4 研究内容 本文对m p e g 一4 视频压缩标准中的多种压缩编码方法进行了介绍和讨论,包 括:离散余弦变换( d c t ) 、估计预测编码、量化等。实现过程中,软件部分主要 采用标准c 语言编写,为了和系统中其它模块结合,在v c + + 6 0 下进行编译。因 设计时针对q c i f 格式,故可用于可视电话中。同时,为了今后的应用,本文还对 m p e g 一4 的d s p 实现技术进行了讨论,在t i 公司的高速d s p 芯片t m s 3 2 0 c 6 2 0 1 的 仿真开发环境下对程序进行了仿真。 1 论文主要工作及内容安排 论文中我所做的工作主要有: ( 1 ) 深入研究了视频压缩协议m p e g 一4 ,在w i n d o w s 环境下实现软件编解码。 ( 2 ) 对m p e g 一4 算法中关键的运动估计部分,提出了改进的菱形搜索算法,并 于v c 下编译实现。对耗时量大的d c t 采用了快速算法,对整个编解码过程进行了 优化处理,编解码后的图像质量和程序运行速度均有很大提高。 ( 3 ) 深入学习了d s p 芯片结构及其工作情况,并利用c c s 进行了仿真。 西北工业大学硕士论文:视频压缩编码m p e g 一4 算法研究及实现 2 全文的内容安排如下 第一章 第二章 第三章 第四章 第五章 第六章 绪论部分,概括了视频压缩编码的目的和必要性,简要介绍了 目前视频压缩编码技术的发展,说明了论文主要工作及内容安 排。 图像压缩编码协议技术简介。首先简单介绍了h 2 6 3 、m p e g l ,2 等国际常用视频编码协议:然后着重介绍了m p e g 一4 视频压缩 编码协议的整体框架和m p e g 一4 标准的新特点和新技术。 m p e g 一4 视频压缩编码标准中主要实现部分,即运动估计补偿、 d c t 、变长编码等。针对编码器中计算量最大的模块:运动估计、 d c t 和量化运算,给出适合于m p e g 一4 的快速算法,并提出了进 行优化处理方法,加快了编码器的编码速率。 给出了基于m p e g 一4 的软件编解码器的具体算法实现。对软件 中的主要模块给出实现过程和详细的流程图,并着重介绍了对 编码效率提高显著的先进预测模式、先进帧内编码模式。 给出了d s p 芯片t m s 3 2 0 c 6 2 0 1 的简单介绍及其软件仿真。 全文的总结和展望。 西北工业大学硕士论文:祝颠压缩编码m p e g 一4 算法研究及实现 第二章视频压缩标准概述 2 1 国际图像压缩编码标准简介 随着数字化时代的到来,广播、通信、计算机三大技术的日益融合,用户己 越来越迫切的需要能够自由的从各种传播媒体中读取数字声音、视频信息,这就 为制订有关的国际标准提供了重要的契机。从1 9 8 6 年起i t u ,i s o ,i e c 等国际组 织就开始致力于制订图像压缩编码的国际标准。 最初标准的制订是本着服务于特定应用的原则进行的,如1 9 9 0 年1 2 月获得 通过的h 2 6 1 标准标准就是针对会议电视和可视电话业务发展的需要而制订的; i 9 9 1 年3 月获得通过的j p r g 标准则是针对静止图像压缩编码制订的国际标准。即 使是1 9 8 8 年成立的“活动图片专家组”( m p e g ) 于1 9 9 3 年8 月制订的第一个标准 m p e g 一1 也主要是应用于数字存储媒体( d s m ) 。至于1 9 9 5 年7 月提出的h 2 6 3 标 准也只是在h 2 6 1 标准基础上加以改进,以适用于甚低码率可视电话系统的需要。 但在当今数字汇聚的时代,这种面向应用的标准制订原则明显的暴露了其局 限性。因此在m p e g 一2 标准制订过程中,就摒弃了面向应用的标准制订原则,而 是趋于制订一种通用的活动图像及其声音的编码标准,并于1 9 9 4 年1 1 月获得通 过。m p e g 一4 标准同样是本着通用性的原则,其目的是要实现真正的多媒体通信。 下面就对目前正在开发和研究的标准做一些简单介绍。 1 视听会议压缩编码标准h 2 6 1 h 2 6 1 是由i t u t 第1 5 研究组为在窄带综合业务数字网( n i s d n ) 上开展 速率为p x6 4 k b s 的双向声像业务( 可视电话、会议) 而制定的,其中p = l 3 0 。 因此,h 2 6 1 也称为p x 6 4 标准。 h 2 6 i 只对c i f ( c o m m o ni n t e r m e d i a t ef o r m a t ) 和q c i f ( q u a r t e rc i f ) 两 种图像格式进行处理。由于世界各国采用的电视制式不同( 如p a l 、n t s c 、s e c a m ) , 所规定的图像扫描格式( 决定电视图像分辨率的参数) 也不同,要在这些国家之 间建立可视电话或会议业务,无法直接采用电视所规定的格式,而必须统一到一 个公共图像格式上来,这也是c i f 这个名称的由来。c i f 和q c i f 的亮度信号分辨 西北工业大学硕士论文:视频压缩编码m p e g 一4 算法研究及实现 率分别为3 5 2 2 8 8 和1 7 6 1 4 4 ,色差信号c ,和c 。的水平和垂直分辨率均为亮度 信号的1 2 ,即分别为1 7 6 1 4 4 和8 8 7 2 。图像帧率最高为2 9 9 7 帧秒。在信 道速率较低时,帧率可以降至1 0 帧秒左右。 h 2 6 1 压缩编码算法由具有运动补偿的帧间预测、块d c t 和霍夫曼编码组成。 由于该标准用于实时业务,希望编解码延时尽可能小,所以只利用前一帧作参考 帧进行前向预测。除初始帧为i 帧外,后续帧一般为p 帧。为了防止信道误码产 生的差错经预测编码而累积传播,在每1 3 2 帧之内,在每个宏块位置上至少要进 行1 次帧内编码( 即逐步刷新) 。此外,当某个宏块预测误差太大时,也可以做帧 内编码。编、解码器的复杂程度相当( 或称为对称) 是h 2 6 1 标准的又一个特点, 这是因为会话的双方都需要同样的编码器和解码器的缘故。 在h 2 6 1 中,每帧图像分为4 个层次处理( 见图2 - i ) 。编码的最小单元为8 8 块,4 个亮度块和对应的2 个色度( c ,和g ) 块构成一个宏块,一定数量的 宏块( 3 3 块) 构成一个块组g o b ( g r o u po fb l o c k ) ;若干块组( 对于c l f 格式为 1 2 个块组) 构成一帧图像。每一个层次都有说明该层次信息的头,编码后的数据 和头信息逐层复用就构成了h 2 6 1 的码流。 图2 1h2 6 1 的编码层次 2 低比特率视听会议压缩编码标准h 2 6 3 图像层 g o b 层 宏块层 块层 h 2 6 3 是i t u - - t 提出的作为h 3 2 4 终端使用的视频编解码建议。它是基于运 动补偿的d p c m 的混合编码在运动搜索的基础上进行运动补偿,然后运用d c t 变 换和“之字形扫描游程编码,从而得到输出码流。 西北工业大学硕士论文:视频压缩编码m p e g 一4 算法研究及实现9 h 2 6 3 视频编码标准是专为中高质量运动图像压缩所设计的低码率图像压缩 标准。与h 2 6 1 的p 6 4 k 的传输码率相比,h 2 6 3 的码率更低,单位码率可以小 于6 4 k ,且支持的掩饰图像格式更多,包括了在视频和电视信号中常见得q c i f , c i f ,e d t v ,i t u r 6 0 1 ,i t u - - r 7 0 9 等等。 h 2 6 3 采用运动视频编码中常见的编码方法,将编码过程分为帧内编码和帧间 编码两个部分。帧内用改进的d c t 变换并量化,在帧间采用半象素运动矢量预测 补偿技术,使运动补偿更加精确,量化后采用改进的变长编码表( v l c ) 的量化数 据进行熵编码,得到最终的编码系数。 h 2 6 3 的编码速度快,其设计编码延时不超过1 5 0 m s ;码率低,在5 1 2 k 乃至 3 8 4 k 带宽下仍可得到相当满意的图像效果,十分适用于需要双向编解码并传输的 场合和网络条件不是很好的场合。 h 2 6 3 是在h 2 6 1 的基础商加以改进而形成的,它的主要改进方法如下: 1 - 半象素精度的运动补偿 在h 2 6 1 中,运动矢量的精度为一个象素。要使运动矢量估计达到半个象素 的精度,需要将匹配位置周围领域的象素进行内插,然后再进一步搜索,找到更 精确匹配的位置。运动矢量精度的提高使经运动补偿后的帧间误差( d f d ) 减少, 从而降低了码率。 2 不受限的运动矢量( 可选项) 当运动跨越图像边界时,由运动矢量所确定的宏块位置可能有一部分落在边 界之外,此时可以用边界上的象素值表示界外的象素值,从而降低预测误差。 3 用基于句法( s y n t a x - - b a s e d ) 的算术编码代替霍夫曼编码( 可选项) 这是一种效率较高的自适应算术编码。 4 先进的预测模式( 可选项) 对宏块中的4 个8 8 的亮度块分别进行运动估值获得4 个运动矢量。如果利 用4 个运动矢量所得到的预测误差( d f d ) 比使用整个宏块估值所得到的单个运动 矢量时的预测误差小得多,则传送4 个运动矢量。虽然此时传送运动矢量所花费 的比特数增加了一些,但是由于预测误差的大幅度降低,仍然使总码率降低了。 5 p b 帧模式( 可选项) 我们知道,虽然使用双向预测的b 帧可以降低码率,但是却要引入附加的编 码延时和解码延时。为了降低延时,n 2 6 3 采用了p 帧和b 帧作为一个单元来处理 的方式,即将p 帧和由该帧与上一个p 帧所共同预测的b 帧一起进行编码。 西北工业大学硕士论文:视频压缩编码m p e g 一4 算法研究及实现 10 1 9 9 7 年i t u t 又推荐了h 2 6 3 的第二个版本,即“h 2 6 3 + ”。“h 2 6 3 + ”增 加了如下新选项: ( 1 ) 为了在误码率、丢包率较大的网络、或异构的网络上改善视频信号的传输 质量,增加了1 种具有时间可伸缩性和2 种具有信噪比或空间可伸缩性的编码: ( 2 ) 改进的p b 帧模式增强了频繁使用p b 帧时的鲁棒性( r o b u s t n e s s ) : ( 3 ) 为了适应更广泛的应用,允许使用用户自定义的图像格式; ( 4 ) 提供了9 种新的编码模式,时编码效率更高。例如,对d c t 系数进行空间 域预测的先进的帧内编码、降低块效应的自适应滤波、改善在分组网上传输的性 能和防止错误传播的措施等; ( 5 ) 支持在码流中增添新的辅助信息。 3 数字声像存储压缩编码标准m p e g l 该标准由i s o 活动图像专家组( m o v i n g p i c t u r eg r o u p ) 为速率为1 1 5 m b s 的数字声像信息的存储而制定的,共分为图像编码、声音编码、和声像同步与复 用( 系统) 3 个部分。该标准通常用于能够提供录像质量( v h s ) 视频节目的光盘 存储系统。 m p e g i 可以处理的图像格式没有严格的规定,但一般认为,在亮度信号采用 3 5 2 2 4 0 象素3 0 帧秒( n t s c ) 或3 5 2 x 2 8 8 象素2 5 帧秒( p a l ) 的情况下, 即称之为s i f ( s o u r c ei n p u tf o r m a t ) 格式的情况下,m p e g l 算法的效率最高。 此时视频信号压缩后的码率约为1 2 m b s 。再加上压缩以后、具有c d 质量的双声 道立体声伴音,总速率约为1 4 m b s 。该标准没有对编码器的设计作限制,这给编 码器的开发者留下了设计的余地,但是它规定了已编码的数据流必须遵循的语法 ( s y n t a x ) 和一个标准解码器。 由于应用目标不同,m p e g l 与h 2 6 1 之间有着若干显著的不同之处。例如m p e g i 是针对数字存储的应用而制定的,因此它的编、解码器是不对称的,位于存储中 心的编码器往往比位于用户端的解码器要复杂得多。此外,在多媒体应用中,常 常需要对存储在数字存储介质上的已编码流进行随机的存取,例如对编码的图像 作快迸、快倒等录像机的操作,因此,在m p e g i 中将图像序列分成g o p ,g o p 的起 始帧( i 帧) 的解码无需有先前帧的先验知识,可以作为随机存取的入口点。 m p e g l 码流的构成分为6 个层次( 见图2 - 3 ) : 西北工业大学硕士论文:视频压缩编码m p e g 一4 算法研究及实现1 1 图2 3m p e g l 的编码层次 序列层 g o p 层 图像层 条层 宏块层 块层 ( 1 ) 图像序列,序列头给出图像分辨率、帧率和使用的量化表的类型等信息: ( 2 ) 图像组( g o p ) ,是进行随机存取的单元; ( 3 ) 图像,是基本的编码单元,其头信息中记录着该帧的类型( i 、p 或b ) 和 它在g o p 中的次序号; ( 4 ) 条( s 1 i c e ) ,是进行再同步的单元。如图2 3 所示,一幅图像可以分成一 个或多个条,在每条的开始,对运动矢量和d c 系数值作d p c m 的预测值都重新置 零,这可以防止解码时误差的积累; ( 5 ) 宏块,是进行运动补偿的基本单元; ( 6 ) 块,是进行d c t 的基本单元。 4 通用视频图像压缩编码标准m p e g 2 m p e g 2 是由i s o 的活动图像专家组和i t u t 的1 5 研究组于1 9 9 4 年共同制定 的,在 t u t 的协议系列中,也被称为h 2 6 2 。制定h t p e g 2 的初衷是得到一个针 对广播电视质量( c c i r6 0 1 格式) 的视频信号的压缩编码标准,但实际上最后得 到的是一个通用的标准,它能在很宽的范围内对不同分辨率和不同输出比特率的 图像信号有效地进行编码。 像m p e g l 一样,m p e g 2 也分为系统、视频和音频三个部分。其中系统部分在 西北工业大学硕士论文:祝频压缩编码m p e g 一4 算法研究及实现 12 i t u t 协议中称为h 2 2 2 0 。 m p e g 2 码流的结构与m p e g l 很相似。与m p e g l 相比,m p e g 2 主要增加了下述几 项功能。 1 处理隔行扫描的视频信号的能力 这方面的内容包括: ( 1 ) 增加了场图像的场间预测、帧图像的场问预测、用于p 帧的双基预测和用于 场图像的1 6 8 预测等4 种对隔行扫描图像更为有效的预测模式: ( 2 ) 对隔行扫描的块,采用与交替扫描顺序将d c t 系数矩阵转化为一维的序列, 等等。 2 更高的色信号取样模式 m p e g i 使用4 j2 :0 模式,即色信号的取样率无论在水平方向,还是垂直方向 上都是亮度信号样点数的1 2 。m p e g 2 除了4 :2 :0 外,还支持4 :2 :2 和4 :4 : 4 模式,前者色信号的样点数在垂直方向上与亮度信号相同,只在水平方向上是亮 度信号的1 2 ;后者的色信号的样点数与亮度信号则完全相同。 3 可伸缩的视频编码方式 所谓可伸缩的( s c a l a b l e ) 视频编码是指编码所产生的码流具有下述特性: 对码流的一部分进行解码和对码流的全部进行解码能够分别获得不同质量的重建 图像。对部分码流解码获得的图像比对全部码流解码获得的图像分辨率( 或帧率、 或信噪比) 要低。m p e g 2 所支持的可伸缩的视频编码方式有空间可伸缩性、时间可 伸缩性、信噪比可伸缩性和数据分割( d a t ep a r t i t i o n i n g ) 等4 种。 2 2 低比特率压缩编码标准m p e g 一4 长期以来,基于象素的方法一直是图像编码的主流方法。它从消除图像数据 的相关冗余出发,编码实体是象素或象素块,以显示器件为图像视频系统的最 后环节,没有考虑人眼视觉特性对编码图像的影响。2 0 世纪8 0 年代初人们就认识 到这种基于数据统计的第一代编码技术的不足,特别是在低速率视频编码时有严 重的局限性。 2 0 世纪8 0 年代中后期,相关学科的迅速发展和新兴学科的不断出现位视频编 码的发展注入了新的活力,同时关于人类的视觉生理、心理特性的研究成果也拓 西北工业大学硕士论文:视频压缩编码m p e g 一4 算法研究及实现13 展了人们的视野。m k u n t 于1 9 8 5 年提出了利用人眼视觉特性的第二代图像编码的 思想。这时图像编码中的实体不再是象素或象素块,而是按其内容进行划分,人 眼是图像视频信号的最终接收者。基于内容的第二代编码技术是视频编码的新 一代技术。这类方法一般要求对图像进行预处理,将图像数据根据视觉敏感i 兰e 来 进行分割,是目前视频编码中最为活跃的一个领域。 i s om p e g 一4 工作组在1 9 9 3 年成立,它的初衷是制定一个通用的低码率 ( 6 4 k b s 以下) 标准,并打算采用第二代压缩编码算法,以有效的支持甚低码率 v l b r ( v e r yl o wb i tr a t e ) 的应用。但是,由于很多压缩编码的第二代算法仍处 于研究阶段,在m p e g 一4 工作组预定的时间( 1 9 9 7 年) 内似乎还不够成熟,因而 m p e g 一4 的目标后来转向支持目前的标准尚未全面支持的那些应用。例如,移动通 信中的声像业务、与其它多媒体数据( 如计算机产生的图形、图像) 的集成和交 互式多媒体服务等等。在5 6 4 k b s 的范围内,m p e g 一4 支持的图像格式从每行几 个象素、每帧几行到c i f 格式,帧率从o h z ( 静止) 到1 5 h z 。 i s o 组织于1 9 9 9 年公布了m p e g 一4 标准( i s 0 i e c l 4 4 9 6 ) ,是低比特率下的多 媒体通信标准,现简单介绍如下: 1m p e g 一4 标准的构成 m p e g 一4 是一个庞大而复杂的协议,主要由以下六个部分构成: ( 1 ) d m i f ( t h ed e l l i v e r ym u l t i m e d i ai n t e g r a t i 0 1 3f r a m e w o r k ) d m i f 即多媒体传送整体框架,它主要解决在交互网络中、广播环境下或磁盘 存储时多媒体应用操作问题。通过传输多路合成比特信息来建立客户端和服务器 端的交互和传输。通过d m i f ,m p e g - - 4 可以建立起具有特殊品质服务( q o s ) 的信 道和面向每个基本流的带宽。 ( 2 ) 数据平面 m p e g 一4 中的数据平面可以分为两部分:传输关系部分和媒体关系部分。为了 使 基本流和a v 对象在同一场景中出现,m p e c - - 4 引用了对象描述( o d ) 和流图表( s m t ) 的概念。o d 传输与特殊a v 对象相关的基本流的信息流图。s m t 把每个流与一个实 际传送信道相关的信道联系标签c a t ( c h a n n e la s s o s i a t i o nt a g ) 相连,可实现 该流的顺利传输。 西北工业大学硕士论文:视频压缩编码m p e g 一4 算法研究及实现 ( 3 ) 缓冲区管理和实时识别 m p e g 一4 定义了一个系统解码模式( s d m ) ,该解码模式描述了一种理想的处理 比特流句法语义的解码装置,它要求特殊的缓冲区和实时模式。通过有效地管理, 可以更好地利用有限的缓冲区空间。编码器规定并监视解码所必须f f j 最, j , 缓冲区 资源,然后,在建立会话的过程中,通过o d 将需要的缓冲区资源送到解码器,这 样解码器就能决定是否可以处理这一会话。 ( 4 ) 音频编码 m p e g 一4 的优越之处在于它不仅支持自然声音,而且支持合成声音。m p e g 一4 的音频部分将音频的合成编码和自然声音的编码相结合,并支持音频的对象特 征。 ( 5 ) 视频编码 与音频编码类似,m p e g 一4 也支持对自然和合成的视觉对象的编码。合成的 视觉对象包括2 d 、3 d 动画和人面部表情动画等。 ( 6 ) 场景描述 m p e g 一4 提供了一系列工具,用于组成场景中的一组对象。一些必要的合成信 息就组成了场景描述,这些场景描述以二进制格式b i f s ( b i n a r yf o r m a tf o rs c e n e d e s c r i p t i o n ) 表示,b i f s 与a v 对象一同传输、编码。场景描述主要用于描述各 a v 对象在一具体a v 场景坐标下,如何组织与同步等问题。同时还有a v 对象与a v 场景的知识产权保护等问题。m p e g 一4 为我们提供了丰富的a v 场景。 2m p e g 一4 视频压缩协议的主要功能和特点 相对于m p e g 的前两个压缩标准,m p e g 一4 已不再是一个单纯的视频音频编解码 标准,它将内容与交互陛作为核心,从而为多媒体数据压缩提供了一个更为广阔 的平台。m p e g 一4 采取以功能为基础的策略,即并不针对任何特殊的应用,而是力 图尽可能的支持对多种应用均有帮助的功能组。m p e g 一4 支持的功能可分为三类: ( 1 ) 基于内容的交互性( c o n t e n t b a s e di n t e r a c t i v i t y ) 基于内容的操作和码流编辑:支持无须编码就可进行基于内容的操作与比 特流编辑。例如:使用者可在图像或比特流中选择一具体的对象( o b j e c t ) ( 例如 图像中的某个人、建筑物等等) ,随后改变它的某些特性。 自然与合成数据的混合编码:提供将自然视频图像同合成数据( 如文本、 西北工业大学硕士论文:视频压缩编码m p e g 一4 算法研究及实现15 图形等) 有效结合的方式,同时支持交互性操作。 增强的时间域随即存取:提供有效的随机存取方式,在有限的时间间隔内, 可按帧或任意形状的对象,对音频、视频序列进行随机存取。例如以一序列中的 某个音、视频对象为目标进行“陕进”搜索。 ( 2 ) 高压缩率( c o m p r e s s i o n ) 提高编码效率:在可比拟速率下,m p e g 一4 提供的主观视频质量要好于已有 的或是其它在制定中的标准。一般的说,m p e g 一4 的压缩倍数高达1 0 0 倍。这一功 能可望在迅速发展的移动通信网中获得应用,但值得注意的是:提高编码效率不 是m p e g 一4 唯一的主要目标。 对多个并发数据流编码:m p e g 一4 将提供对一景物的有效多视角编码,加上 多伴音声道编码及有效的视听同步。 ( 3 ) 通用存取( u n i v e r s a la c c e s s ) 错误易发环境中的抗错性:m p e g 一4 将提高抗误码能力,尤其是在易发生严 重错误的环境下的低比特应用中( 移动通信链路) 。值得注意的是,m p e g - 4 是第一 个在音频、视频表示规范中考虑信道特性的标准,目的不是取代已有通信网提供 的错误控制技术,而是提供一种对抗残留错误的坚韧性。 基于内容的尺度可变性:给图像中的各个对象分配优先级,比较重要的对 象用较高的时间或空间分辨率表示。基于内容的尺度可变性是m p e g - 4 的核心,因 为一旦图像中所含对象的目录及相应的优先级确定后,其他的基于内容的功能就 比较容易实现了。对甚低比特率应用来说,尺度可变性是一个关键的因素,它提 供了自适应使用可用资源的能力,可以最有效的利用有限资源。 3 忡e g 一4 视频压缩编码标准中的新技术 m p e g 一4 不同于过去的m p e g 2 或h 2 6 x 系列标准,其压缩方法不再局限于某种 算法,可以根据不同的应用进行系统裁剪和选择。为此,m p e g 一4 提供了一个包含 各种工具和算法的工具箱,给出各种任意形状可视对象的高效表达式,可用于各 种图像和视频的高效压缩。 需要强调的是m p e g 一4 最重要的特点在于,它不同于传统的图像视频编码方 法,第一次提出了基于对象的视频编码的概念和方法。以往的视频压缩编码标准 ( 如m p e g 一1 、m p e g 一2 、h 2 6 3 等) 都是基于矩形帧的视频编码标准,而m p e g 一4 采 西北工业大学硕士论文:视频压缩编码m p e g 一4 算法研究及实现 用现代图像编码方法,利用人眼视觉特性抓住图像信息传输的本质,从轮廓、纹 理的思路出发,支持基于视觉内容的交互功能。 而基于内容交互功能的关键在于基于视频对象的编码。为此,m p e g 一4 引入视 频对象面( v o p ) 的概念,面向视频对象进行编码,是基于媒体对象的压缩标准。 在这一概念中,根据人眼感兴趣的一些特性,如形状、运动、纹理等,将图像序 列中每帧的场景看成是由不同v o p 所组成的。而同一对象连续的v o p 称为视频对 象( v o ,v i d e oo b j e c t ) 。 图2 4 为m p e g 一4 基于内容图像编码方法的简化原理图。 基于对象 视 i i ! - - 重 建 图 频 n 忑! 忑l 忑! ii 序 对 像 象 分 割 列 分层编码 丹层输妈 嘲2 4m p e g 4 基于内容图像编码方法 为了高效的降低图像信号的视觉冗余度,m p r g 4 使用了基于块的运动估计和补 偿技术。它主要采用了3 种图像类型: ( 1 ) i v o p ( i n t r av o p ) ,它是不采用基准图像的编码而产生的图像。 ( 2 ) p v o p ( p r e d i c t e dv o p ) ,它采用上一个i - v o p 或上一个p - v o p 来进行运动 补偿预测。 ( 3 ) b v o p ( b i d i r e c t i o n a l l y p r e d i c t e dv o p ) ,它同时采用前面和后面的i v o p 或p - v o p 作基准,进行运动补偿预测编码。 为了提高传输效率,m p e g 一4 采用了“子图形”预测和编码技术,它把静止的 背景作为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论