(计算机应用技术专业论文)多媒体信息压缩技术研究.pdf_第1页
(计算机应用技术专业论文)多媒体信息压缩技术研究.pdf_第2页
(计算机应用技术专业论文)多媒体信息压缩技术研究.pdf_第3页
(计算机应用技术专业论文)多媒体信息压缩技术研究.pdf_第4页
(计算机应用技术专业论文)多媒体信息压缩技术研究.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(计算机应用技术专业论文)多媒体信息压缩技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 多媒体技术正在迅速发展,应用领域不断拓广与之相适应, 各种多媒体数据压缩编码标准也在不断地发展和完善。m p e 6 - 4 是 现在最重要最有影响的多媒体数据压缩编码国际标准之一基于 对象的编码思想使其具有高压缩比、可扩展性、可交互性等许多 优点。m p e g - 4 正在蓬勃发展,代表着未来多媒体数据压缩编码的 发展趋势。 本课题在深入分析肿e g - 4 标准的基础上,对m p e g - 4 标准的 核心部分一视频压缩编码进行重点研究。对编码中的关键的运动估 计算法进行重点研究、优化和改进,以实现快速的编码和高压缩 比在对比分析了已有的各种快速搜索算法的基础上,提出了一 种改进的基于匹配块的运动估计快速搜索算法 然后依据以上的研究成果,参考m p e g 4 标准的参考校验模 型部分提供的源代码以及p r o j e c t m a y o 组织提供的部分源代码,完 成了职e g _ 4 视频编码器的软件实现 关键词:视频压缩,肝e g _ 4 ,运动估计 a b s t r a c t r e s p o n d i n gt om u l t i m e d i at e c h n o l o g yr a p i d l yd e v e l o p i n ga n d a p p l i c a t i o nd o m a i np r o m p t l ye n l a r g i n g , m a n y m u l t i m e d i ac o m p r e s s i o n a n dc o d i n gs t a n d a r d sp r o g r e s sa n da r cp e r f e c t e dc o n t i n u o u s l y a m o n g t h e m ,m p e g - 4p l a y sa r ti m p o r t a n tr o l ei nt h em u l t i m e d i af i e l d d u et o i t s o b j e c t - b a s e di d e a , i th a st h ev i r t u eo fh i 【g hc o m p r e s s i o nr a t i o , s c a l a b i f i t y , i n t e r - a c t i v i t yw i t hu s e r sa n ds oo n 巴b g - 4i si nv i g o r o u s d e v e l o p m e n t , w h i c h i n d i c a t e st h e t e n d e n c y o fm u l t i m e d i ad a t a c o m p r e s s i o na n dc o d i n gt e c h n i q u e 1 1 l i sp r o j e c tc o n d u c t st h ek e yr e s e a r c ho nt h ec o r eo fm p e g - 4 s t a n d a r d - t h ec o m p r e s s i o na n dc o d i n go f v i d e os i g n a l ,o nt h eb a s i so f c o m p r e h e n s i v e l yu n d e r s t a n d i n g o ft h ef u n d a m e n t so fm p e g - 4 s t a n d a r d s t u d y , o p t i n l i z ea n di m p r o v et h ep r i o r i t ym o t i o ne s t i m a t i o n a l g o r i t h m ,t or e a l i z ef a s tc o d i n ga n dt h eh i g hc o m p r e s s i o nr a t i o o nt h e b a s o o f c o n t r a s tw i t ha n da n a l y s i ss o m ev a r i o u ss e a r c h i n gf o ra l g o r i t h m t h a th a v ea l r e a d ye x i s t ,t h ei m p r o v e m e n ta l g o r i t h mb a s e do nt h e m a t c h i n g b l o c ko fm o t i o ne s t i m a t i o ns e a r c h i n gf o ra l g o r i t h mi s p r o p o s e d a c c o r d i n gt ot h ea b o v er e s e a r c ha n dt h es o l l r c e c o d e sp r o v i d e db y t h eo r g a n i z a t i o no fp r o j e i c l m a y oa n dt h ec h e c k i n gm o d e lo fm p e g - 4 , w ei m p l e m e n tt h ev i d e oe n c o d e ro fm p e g - 4 , k e y w o r d s :v i d e oc o m p r e s s i o n ,m p e g - 4 ,m o t i o ne s t i m a t i o n 长春理工大学硕士学位论文原创性声明 本人郑重声明:所里交的硕士学位论文,多媒体信息压缩技术研 究) 是本人在指导教师的指导下,独立进行研究工作所取得的成果除 文中已经注明引用的内容外,本论文不包含任何其他个人或集体己经发 表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均 已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承 担。 作者签名:篮鳃墅2 2 年五月监日 长春理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解。长春理工大学硕士、博士学 位论文版权使用规定”,同意长春理工大学保留并向国家有关部门或机 构送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权 长春理工大学可以将本学位论文的全部或部分内容编入有关数据库进 行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文 作者签名:二醢鳃丝吃年三月盈日 指导导师签名:鱼壑芝壁z 年兰月刍珏 第一章绪论 未来的人类社会将是信息化社会,数字化后的信息,尤其是 数字化后的视频和音频信息,具有数据海量性的特点,它给信息 的存储和传输造成很大的困难,成为阻碍人类有效获取和使用信 息的瓶颈问题之- - 。因此,研究和开发新型有效的多媒体数据 压缩编码方法,以压缩的形式存储和传输这些数据将是最好的选 择。 1 1 多媒体数据压缩的j 必要性和可能性 近年来微电子技术、计算机技术和网络技术的发展为多媒体 的发展创造了条件,多媒体己广泛地应用于人们生活的各个领域。 在多媒体信息处理中,最基本的需求是能动态实时地处理声音、 动画、视频信号,而图像的数据量是十分庞大的,若不对视频数 据进行压缩处理,实时性根本就不能达到。如一幅分辨率为“0 x 4 8 0 、2 4 b i t s 像素的真彩色的计算机屏幕图像的数据量为9 2 1 6 0 0 字节,按每秒1 5 帧计算,则一秒钟的数据量是1 3 8 2 4 0 0 0 字节 2 1 。 这样大的数据量,无论是对于存储还是传输都是一个很大的负担。 虽然现在存储技术和网络技术的进步使存储容量和网络带宽有了 很大的提高,但这依然不能跟上人们对多媒体的数量和质量的更 高要求,因此在进行记录和传输时必须采用用数据压缩技术,既 节约了存储空问,又提高了通信干线的传输效率,同时也可使计 算机实时处理音频、视频信息,以保证播放出高质量的视频、音 频节目。可见,多媒体数据压缩是非常必要的。 多媒体数据压缩也是非常有可能实现的,它有几方面的原因: 首先,原始图像数据是高度相关的,存在很大的冗余度。数 据冗余就造成比特数的浪费,消除这些冗余可以节约码字,也就 达到了压缩的目的。每帧图像由于帧内邻近像素之间是空域相关 的,因此数据存在很大的空间冗余;序列图像前后帧之间有较大 的相关性,称为时间冗余度;多光谱遥感图像各谱之间有相关性, 称为频率域冗余度;若用相同的码长表示不同出现概率的符号也 会造成比特数的浪费,称为符号冗余度,等等 其次,允许图像编码有一定的失真也是图像可以压缩的一个 重要原因唧。在许多应用场合,并不要求经压缩及复原以后的图 像和原图完全相同,而允许有少量失真。只要这些失真并不被人 眼所察觉,在许多情况下是完全可以接受的,这就给压缩比的提 高提供了十分有利的条件在多媒体系统的应用领域中,人是主 要接收者,眼睛是图像信息的接收端,这样就有可能利用人的视 觉对于边缘急剧变化不敏感( 视觉掩盖效应) 和眼睛对图像的亮 度信息敏感、对颜色分辨率弱的特点实现高压缩率,从而使由压 缩数据恢复的图像信号仍有满意的主观质量。 此外,还可利用先进技术来对图像压缩编码。在某些特定的 应用场合,编码对象的某些特性是可预知的例如,在可视电话 中,编码对象主要是人的头肩像可以利用对编码对象的先验知 识为编码对象建立模型通过提取模型参数对参数进行编码,而 不对图像自接进行编码,可以节省大量码字得到非常高的压缩比 因此,多媒体数据压缩是完全可以实现的 1 2 多媒体数据压缩的发展过程 图像编码压缩技术的研究已有几十年的历史嗍从基本原理 来看,压缩技术可以分为两大类。第一类方法是基于速率失真理 论的在这类方法中,视频图像序列利用在空间上和时间上取样 得到一组象素( 灰度、彩色) 值来表示;而压缩的方法则是采用 一般信号分析的方法来消除数据中的冗余,最终使得用来表示图 像的一组数据是互不相关的。对于这些方法,重要的是了解信源 的统计特性,而不关心图像的具体内容,也不考虑或很少考虑人 眼的视觉特性因此,此类方法被称为基于象素的压缩方法,也 称为第一代图像压缩编码方法 第一代图像压缩编码方法在8 0 年代初己趋于成熟,许多优秀 的成果己被吸收进近年来制定的有关图像数据压缩的国际标准, 例如j p e g 、m p e g - 1 、h 2 6 1 、h 2 6 2 ( m p e g - 2 ) 、h 2 6 3 等由 于希望对图像进行几十倍,以至于百倍以上的压缩,采用单一的 压缩方法往往不能奏效,因此,各种国际标准都综合利用了多种 基本压缩方法来达到所要求的压缩比。当需要进行极低码率的图 像数据压缩时,第一代技术往往不能提供令人满意的解码恢复图 像。目前对于不同复杂程度的图像,利用第一代技术可能达到的 最低码率为8 4 8 k b s 。 “第二代图像压缩编码方法这一术语是在8 0 年代中期正式 出现的。极低码率的图像数据压缩往往是采用第二代技术。这类 方法在很大程度上依赖于对人类视觉特性的研究,其核心思想是 力图发现人眼是根据哪些关键特征来识别图像或图像序列的,然 后根据这些特性来构造图像模型例如,根据人眼对物体轮廓比 对物体内部细节更为敏感的特点,可以利用物体( 而不是象素) 的 集合来表示图像所谓“物体”是指按边缘信息将某特定图像分 割成的若干区域,每个区域内部具有相同的特性( 如同灰度、纹理 或运动速度等) 分别对这些区域进行编码将比基于象素的编码方 式有效得多根据视觉特性的其它特点,还可以构造其它的图像 模型和编码方式 进入9 0 年代以后,r r u - t 和i s 0 制定了一系列图像压缩编码 国际标准,如: ( 1 ) 1 9 9 0 年为会议电视和可视电话制定的h 2 6 1 标准。 ( 2 ) 1 9 9 1 年为静止图像编码制定j p e g 标准0 s o1 0 9 1 8 ) ( 3 ) 1 9 9 1 年为二值图像编码制定j b i g 标准( i s oc d l l 5 4 4 ) ( 4 ) 1 9 9 1 年为电视图像数字存储而制定的m p e g - l 标准( i s o c d l l l 7 2 ) ,数码率高达1 5 m b p s ( 5 ) 1 9 9 3 年为活动图像及伴音压缩而制定的通用编码国际 姗( 扣2 ( 6 ) 1 9 9 3 年美国“大联盟”( c , m d a l l i a n c 宅,简写g a ) 公布数字 硼d 1 v 系统的说明书草稿 ( 7 ) 1 9 9 5 年u t 为甚低码率视频编码而制定h 2 6 3 标准 ( 8 ) 美国“先进电视系统委员会”( a t s c ) 拟定“数字电视标准” ( 9 ) 1 9 9 9 年i s o 组织于公布了m p e g - 4 标准( i s o i e c l 4 4 9 6 ) , 是低比特率下的多媒体通信标准 这些标准的制定极大的推动了图像编码技术的实用化和产业 化,而图像编码技术产业化进程的加快也推动了图像编码技术以 更快的速度发展 目前图像编码技术的研究工作主要分为两个方向: ( 1 ) 更好的实现现有的图像编码国际标准,主要从以下两方 面着手 解决好现有的图像编码系统开发中的技术问题,例如提高 图像质量,提高抗误码能力等。我们可以看到,拿现在生产的符 合m p e g - 1 的v c d 的图像质量和几年前产品的图像质量相比, 虽然用的是相同的国际标准和码速率,但图像质量大大提高了 这就是近几年来对m e g 1 编码器具体实现方法做深入研究的结 果。国际标准的开放性结构为这种深入的改进提供了前提,它允 许人们在不影响兼容性的前提下发挥自己的创造性,对标准中的 开放部分进行改进这些开发性部分包括运动估计和运动补偿, 自适应量化系数等。在国际标准规定的约束下,对这些部分的算 法做更合理的细化有助于提高编解码器的性能 研制出集成度更高、性能更好的图像编码专用芯片( a s l c ) , 使编码系统成本更低,可靠性更高 ( 2 ) 对图像编码理论和其它图像编码方法的研究 基于线性方法( 预测法和分块d c t 相结合) 的核心算法既不 能有效的反映图像的固有统计特性,也不能有效的反映人眼的视 觉特性这两方面都还有待在理论上的突破。 目前已提出的和正在进行研究的图像编码方法主要:多分辨 率编码,基于表面描述的编码方法,模型编码,利用人工神经网 络的压缩编码及利用分形几何的图像编码等等。 1 3 本论文的主要工作及组织结构 1 3 1 论文的主要工作 本文对m p e g - 4 标准进行了系统深入的分析,总结出了 m p e g - 4 标准区别于以往标准主要特点和新技术在深入分析 m p e g - 4 标准的基础上,对m p e g - 4 标准的核心部分一视频压缩编 码进行重点研究。对编码中的关键的运动估计算法进行重点研究、 优化和改进,以实现快速的编码和高压缩比。在对比分析了已有 的各种快速搜索算法的基础上,提出了一种改进的基于匹配块的 运动估计快速搜索算法。 然后依据以上的研究成果,参考m p e g 4 标准的参考校验模 型部分提供的源代码以及p r o j e c t m a y o 组织提供的部分源代码, 完成了p e g 一视频编码器的软件实现 1 3 2 全文的组织结构 第一章绪论部分,介绍了多媒体数据压缩的必要性和可能性以及 它的发展过程。说明了论文主要的研究工作以及组织结构 第二章主要阐述了国际视频图像压缩编码标准,分析了h 2 6 1 、 h 2 6 3 、m p e g - 1 、m p e g - 2 、m p e g - 4 、m p e g - 7 的起源、发展历 程、应用特点等其中着重介绍了m p e g - 4 标准 第三章本章对m p e g - 4 视频压缩基本技术进行了讲解其中, 阐述了m p e g - 4 视频编码的目标与功能以及其分层描述的语法结 构,说明了m p e g - 4 视频编码基本结构以及m p e g - 4 的可分级性 和鲁棒性 第四章本章介绍了基于块匹配的运动估计的基本原理,对比分析 了各种己有的运动估计快速搜索算法,在此基础上提出了一种改 进的块匹配运动估计快速搜索算法改进算法充分考虑了不同视 频序列的特性,将正方形搜索法和已有的六边形搜索法结合起来 进行搜索实验表明,改进算法的搜索点数有一定程度上的减少, 能有效提高压缩性能 第五章在改进的基于匹配块的运动估计快速搜索算法的基础上 完成了m p e g _ 4 视频编码器的软件实现。 第六章对论文所做的工作进行了总结和展望 第二章国际视频压缩编码标准 随着数字化时代的到来,广播、通信、计算机三大技术的日 益融合,用户己越来越迫切的需要能够自由的从各种传播媒体中 读取数字声音、视频信息,这就为制订有关的国际标准提供了重 要的契机从1 9 8 6 年起l t u 、i s o 、i e c 等国际组织就开始致力 子制订图像压缩编码的国际标准。极大地推动了多媒体技术的实 用化和产业化按时间的先后顺序包括h 2 6 1 、m p e g - 1 、m p e g - 2 、 h 2 6 3 、m p e g 4 、m p e g 7 等下面概要介绍几种视频压缩标准 2 仆i - 2 6 1 和h 2 6 3 标准 h 2 6 1 和h 2 6 3 是c c r r r ( 现r r u - t ) 的第1 5 研究小组研究制 定的数字视频压缩编码国际标准 2 1 1h 2 6 1 h 2 6 1 予1 9 9 0 年1 2 月通过,主要用于在综合业务数字网上 开展视频电话和电视会议业务。h 2 6 1 的传输率为l a x6 4 k b l 陷, 其中p = l 3 0 h 2 6 1 标准是后来出现的视频压缩标准,如 m p e g 1 , 口e g - 2 形成的基础此外,它还提供了两个重要的特 征:其一是由于h 2 6 1 主要面向双向视频通信,因此它规定最大 编码延迟为1 5 0 n 幅。己经证明,如果延迟超过1 5 0 m s ,就不能给 观看者在视觉上直接回传的效果。其二是h 2 6 1 可用低成本的 v l s l 实现,这一点对于大批量生产可视电话和电视会议设备来说 尤为重要。为了使h 2 6 1 在采用p a l 制式和n t s c 制式的地区都 可以使用,h 2 6 1 的输入图像格式规定为所谓的通用中间格式 ( c i f ) 。在更低比特率的应用场合,采用更小的格式q c n :( q u m 盯 c 1 ,即c 职格式的四分之一见表2 1 : 表2 - 1 c i f 格式和q c i f 格式 c i f q c l f 每行象素数亮度y3 6 0 ( 3 5 2 )1 8 0 ( 1 7 6 ) 色度u ,v1 8 0 ( 1 7 6 )9 0 ( 8 8 ) 每帧行数色度u ,v 2 8 81 4 4 亮度y 1 4 47 2 扫描方式1 :1 隔行1 :1 隔行 i帧速率3 0 ,1 5 ,l o 或3 0 ,1 5 ,l o l 7 5或7 5 l宽高比4 :34 :3 h 2 6 1 的视频压缩算法采用了两种模式:帧内模式和帧间模 式。帧内模式类似于j p e g 静态图像压缩,以逐块d ( 玎为基础 在帧同模式中,首先进行帧问预测,可以带也可以不带运动补偿, 然后对帧间预测的误差进行d c t 编码。每种模式都提供了多个选 项,如改变量化器的比例参数、使用带有运动补偿的滤波器等等 算法可以通过下面步骤概括为: ( 1 ) 为每一个宏块估计出一个运动矢量( 即位移矢量) 标准 中并没有规定具的估计方法,但是通常使用基于宏块的块匹配方 法运动矢量的两个分量的绝对值都小于等于1 5 ( 2 ) 以位移块差分( d b d ) 为依据,为每个宏块选择压缩模式 ( 3 ) 对每一个宏块进行处理,产生编码数据 运动估计方法、选择模式时的准则以及判断传送与不传送块 的准则,都不受标准的约束 2 1 2h 2 6 3 h 2 6 3 是i t u - t 于1 9 9 5 年提出的关于比特率低于6 4 k b p s 的 窄带通道( 例如公共模拟电话网) 的视频编码建议由于h 2 6 3 是 在h 2 6 1 的基础上发展起来的,因此两者有许多共同之处例如 两者的信源编码基本框图非常相似,信源编码算法的核心都是 d p c m ,d c t 混合编码器。但是为了适应极低码率传输的要求, h 2 6 3 在以下几个方面作了改进: l 、图像格式 h 2 6 1 中定义了c i f 和q c i f 两种格式,在h - 2 6 3 中又增加 了s u b - q c i f ( 1 2 8 x 9 6 ) 格式。并要求所有解码器能以s u b - q c i f 和 q c w 格式工作,所有编码器能以s u b - q c i f 和q c i f 中的某一种 格式工作。 2 、半象素精度预测 在h 2 6 1 中,对运动矢量采用一维向前预测与v l 上相结合的 方式进行编码,在h 2 6 3 中则采用更复杂的二维预测与v l c 相结 合的方式进行编码在h 2 6 1 中,移位的精度为整数象素间隔, 运动矢量范围为( - 1 6 ,+ 1 5 ) 。而在h 2 6 3 中,采用半象素精度估 计,运动矢量取值范围为( - 1 6 0 ,+ 1 5 5 ) 图2 1 说明了线性内插半象素精度预测的算法为了减少计 算量,半象素估计通常是在整数象素全搜索之后,通常选择的搜 索范围为整数象素最佳匹配块位置四周偏移正负0 5 象素的区域 o - o c o b o d x 整数象素位置 o 半象紊位置 彳+ b 口= 一 2 。 a + c d = 一 2 a + b + c + d c = 一 4 图2 1 线性内插半象素精度预测 3 、非限制运动矢量模式 在h 2 6 3 的默认模式下,运动矢量是受限制的,以使其参考 的所有象素位于参考图像的内部这种限制使得对于图像边缘的 许多完整宏块进行运动估计时,如果这些宏块尽管只有很小一部 分的参考象素位于参考图像之外,却无法获得,那么这些宏块只 能得到一种次佳的预测结果非限制运动矢量模式去除了这个限 制,当运动矢量指向的参考象素位于参考图像之外时,用边缘象 素取代 4 、高级预测模式 在h 2 6 3 的高级预测模式包含两个内容。一方面,它允许将 一个宏块分成四个块分别进行运动估计和补偿另一方面,它还 允许采用块重叠的运动补偿方法,这样可以明显地消除方块效应 高级预测模式只能与非限制运动矢量模式结合在一起使用 5 、p 、b 帧模式 h 2 6 3 引进了m p e g 的双向预测的概念,从而帧编码模式有 帧内编码( i 帧) ,向前预测( p 帧) 和双向预测( b 帧) 三种。 6 、其他 除了以上的改进外,h 2 6 3 在d c t 系数交长编码,码流语法 设计以及误码处理上都做了改进 a o 。c 2 2 m p e g 标准 m p e g 的全称是m o v i n gp i c t u r ee x p e r tg r o u p ,意思是活动图 像专家小组,是由国际标准化组织i s o ( i n t e r n a t i o n a lo r g a l i z 撕o n f o rs t a n d a r d i z a t i o n ) 与国际电工委员会i e c ( i n t e r n a t i o n a l e l e c t r o t e c h n i c a lc o m m i s s i o n ) 于1 9 8 8 年联合成立的,致力于运动 图像及其伴音的标准化工作,负责开发运动图像数据和声音数据 的编码、解码和它们之间的同步等标准,统称m p e g 标准由于 该小组所制定的影音信息压缩标准,对通信、广播、电视、音响、 计算机等电子信息产业的发展贡献非常重大,使得m p e g 专家组 名声远扬,m p e g 也成了影音信息压缩标准的代名词 每个m p e g 标准包括m p e g 系统、m p e g 视频与m p e g 音 频三个部分迄今为止,己经开发和正在开发的m _ p e g 标准有: m p e g - 1 ;数字电视标准。 m p e g - 2 :数字电视标准 m p e g - 4 :多媒体应用标准 m p e g 7 :多媒体内容描述接口标准 2 2 1h e g 1 m p e g 标准是通用的标准,不像h 2 6 1 和h 2 6 3 那样面向特 定的应用领域。所以,m p e g 一开始就把压缩目标定位在:将数 字视频信号及其伴音在一个可以接受的质量下,压缩到位速率约 为1 5 m b p s m p e g - 1 可以使用的存储介质和信道有:c d - r o m 、 数字音频磁带( d a t ) 、温彻斯特硬盘、可读写光盘、i s d n 、局域 网等。这些存储介质和信道都能极好地适用于速率为l 1 5 m b p s 的视频压缩技术。应用m p e g 1 技术最成功的产品非v c d 莫属 v c d 作为价格低廉的影像播放设备,得到广泛的应用和普及 m p e g 1 也被用于数字电话网络上的视频传输,如非对称数字用 户线路( a d s l ) ,视频点播( v o d ) ,以及教育网络等 m e g 1 只研究逐行扫描的视频。其标准输入格式是c 口, 采用( y ,c r ,c b ) 颜色空间,亮度分辨率为3 5 2 2 4 0 ( r r s c ) 或 者3 5 2 x 2 8 8 ( p a l ) ,两个色差信号的分辨率在水平和垂直方向都 减半,帧速率为3 0 帧秒,亮度和色差的采样精度都是8 位。亮 度象素和色度象素的定位与h 2 6 1 相同。为了达到1 5 m b p s 的目 标速率,输入视频首先要转换成m p e g 的标准输入格式 由于应用领域的不同,m p e g 对视频压缩提出了如下要求: ( 1 ) 随机存取。随机存取是存储媒介上视频信息必不可少的特 性随机存取要求能在压缩位流中对视频的任一帧进行解码,且 能在限定的时间内完成。 ( 2 ) 快速正向,逆向搜索。 ( 3 ) 逆向重播交互式应用有时需要逆向重播。 ( 4 ) 视听同步视频信号应当准确地与相关音频信号同步 ( 5 ) 容错性。 ( 6 ) 编码解码延迟与h 2 6 1 相比,m p e g 允许一个较长的延 迟,即不超过1 秒 除了上述要求外,还要求视频压缩技术具有可编辑性和灵活 的格式,要求在硬件实现时成本不会太高 为了达到上述的要求,m p e g - l 首次采用了三种帧编码模式, 即帧内编码( i 帧) ,向前预测编码( p 帧) ,双向预测编码( b 帧) i 帧提供了随机访问点,结合规定的目录结构可以完成快速正向, 逆向搜索p 帧和b 帧可以提供解码器在时间分辨率和解码复杂 性上的灵活性i 帧、p 帧和b 帧出现的频率是可以选择的当 参考图之间b 帧的数目太多时,会减少b 帧与参考帧之何的相关 性。前后帧之间的相关性与被编码视频的运动速度有关对大多 数视频序列来说,参考帧以大约0 1 秒的间隔隔开比较合适。 同步特性是m p e g 提出的,并定义了一个用于多音频、视频 信号同步和合成的工具或手段具体的讲,就是系统时钟频率 ( 2 7 m ) 系统时钟参考( s c r ) 、节目时钟参考( p e r ) 、解码时间戳 ( d t s ) 、显示时间戳( p t s ) 等。 m p e g 1 与h 2 6 1 一样,无论哪种编码模式,都是以宏块为 单位编码的而且采用的都是离散余弦变换。在m p e g 1 中,并 没有说明运动矢量的求取方法,这给编码器的实现带来了灵活性, 有利于厂家之间的竞争。但是无论用什么方法实现编码器,编码 器的输出都是标准的m p e g 码流对宏块数据本身或者预测误 差,经d ( 、t 后进行视觉加权标量量化,然后进行行程编码和熵编 码对帧内块和非帧内块,m p e g 1 采用了不同的量化矩阵。另 外,根据人类视觉对误差的敏感程度与图像内容的关系,对不同 内容的块可以调节量化器步长这是m p e g - l 采用的新技术。表 2 - 2 是m p e g 1 与h 2 6 1 主要性能的比较。 表2 - 2m p e g 1 与h 2 6 1 性能比较 h 2 6 1m e g 1 顺序存取随机存取 一个基本的帧速率灵活的帧速率 只有c i f 格式和q c i f 格式灵活的图像大小 只有i 帧和p 帧i 、p 、b 帧 在1 帧图像上运动补偿在l 2 帧图像上运动补偿 运动矢量精度为l 象素运动矢量精度为半象素 可变阙值+ 均匀量化量化矩阵 无g o f 结构有g o f 结构 g o b 结构切片结构 2 2 0 m p e g 五 m p e g - 2 克服并解决了m p e g - l 不能满足日益增长的多媒体 技术,数字电视技术、多媒体分辨率和传输率等方面的技术要求 的缺陷。它追求的是c c 取6 0 1 建议的图像质量,为d v b ,) 1 v , d v d 等制定的3 1 0 m b p s 的运动图像及其伴音的编码标准。该标 准目的是在与m p e g 1 兼容的基础上,以通讯、卫星广播、有线 电视机顶盒为主要对象进行设计,m p e g - 2 综合采用了利用运动 补偿的帧间预测、空间域离散余弦变换、自适应量化和可变字长 编码的混合算法,该标准为了适应不同码率和不同场合,仅对比 特流语法和相应的解码方法作了规定,而在编码器的设计上留有 很大自由度,如运动估计的搜索算法和匹配函数的选择,利用人 视觉特性的自适应量化等目前,d v d 采用的就是m p e g - 2 技 术标准,其水平清晰度是v c d 的4 倍,具有更强的纠错能力和 抗干扰能力 m p e g - 2 主要应用于数字存储媒体、视频广播和通信。存储 媒体可以直接与m p e g - 2 解码器相连,或者通过总线、局域网、 电信网等通信手段与其相连所以符合m p e g - 2 标准的数据可以 在现在或未来的网络上传送、接收,在现在或未来的广播信道上 传播。因此,m p e g 2 是比m p e g - l 更通用的标准 m p e g - 2 标准支持固定比特率传送、可变比特率传送、随机 访问、信道跨越、分级编码、比特流编辑以及一些特殊功能,如: 快进播放、快退播放、慢动作、暂停和画面凝固等 i v i p e g - 2 可以处理逐行和隔行扫描的视频,颜色格式仍然采 用 ,c b ,c r ) 格式,但是采样比例可以有三种,即4 :2 :o 、4 :2 : 2 、4 :4 :4 m p e g - 2 通过级别o e v e l ) 来支持各种分辨率和帧速率 框架( p r o f i l e ) 和级别是m p e ( 3 - 2 视频编码最鲜明的特点框架 是m p e g - 2 标准中定义的语法子集,也就是码流的复杂程度在 固定码流的语法结构以后,码流参数的取值仍然要影响编码和解 码过程,所谓码流参数就是指图像分辨率、帧速率等所以在每 个框架中定义了级别,以限定码流的参数在m p e g - 2 中,以帧 宽( 水平象素数) 、帧高( 垂直象素数) 和帧率( 帧每秒) 的乘积 作为约束分辨率等级的参数,一般有四个等级:低级 3 5 2 2 8 8 2 9 7 9 ,基本级 7 2 0 x 4 8 0 2 9 7 9 ,7 2 0 4 8 0 x 2 5 ,次高级 1 4 4 0 1 0 8 0 3 0 1 4 4 0 1 0 8 0x 2 5 1 ,高级 1 9 2 0 x1 0 8 0 x 3 0 1 9 2 0 x 1 0 8 0 x 2 5 。 码流的分层结构是m p e g - 2 标准的又一个特点m p e g 2 的 视频编码数据流分为基本层和增强层基本层可以独立解码,解 码后可以得到较低( 分辨率、帧速率、信噪比) 质量的视频基 本层的语法与m p e g 1 规定的视频流语法一致,以次兼容 m p e g 1 增强层包含对基本层的补充数据,利用增强层可以获 得更高质量的视频增强层有三种,即空间分辨率增强层、时间 分辨率增强层和信噪比增强层可以对原始视频在空间分辨率上 进行下采样,获得较低分辨率的视频后进行编码作为基本层然 后用基本层解码得到的数据对原来高分辨率的视频进行预测,对 预测误差进行编码后作为增强层与基本层一起传输这种增强层 就是空间分辨率增强层。也可以对原始视频在时问分辨率上进行 下采样,获得较低帧速率的视频后进行编码作为基本层。然后用 基本层解码得到的数据对未在基本层中被编码的帧进行预测,对 预测误差进行编码后作为增强层与基本层一起传输这种增强层 就是时间分辨率增强层另外,在对视频数据的第一次编码时可 以使用较大的量化步长,使得编码后的位速率很低,当然量化噪 声也很大,这样的码流作为基本层。然后对量化误差再次用较小 的量化步长进行量化并编码,作为增强层这就是信噪比增强层 码流的分层结构,使得码流在传输和解码时有了更强的适应性 在传输时可以根据信道的传输速度选择合适的层次传输在解码 时解码器可以根据自身的能力有选择的解码。 m p e g - l 和m p e g - 2 两项标准推出后获得了极大的成功,但 是随着网络、有线,无线通信技术的发展,许多新的应用对视频编 码提出了更高的要求,这些要求是传统的视频编码标准如h 2 6 1 、 m p e g - l 、m p e g - 2 、h 2 6 3 不能满足的例如,数字图书馆需要 基于内容进行存储和检索,这就要求视频数据是按照对象的形式 组织的,每个对象用纹理、形状和运动来描述演播室以及电影、 电视的后期制作需要按照对象( 包括形状和纹理) 对视频进行编 辑为了产生某些特技效果,我们希望把一些人工合成的视频对 象添加到场景中在移动多媒体应用中需要基于内容的交互和基 于内容的可分级编码,以便把有限的数据传输率分配给场景的不 同部分来满足个性化的需求这些应用都要求视频能够按照对象 的形式进行访问因此p e c “应运而生 1 、m p e g - 4 标准的构成 m p e g - 4 是一个庞大而复杂的协议,主要由以下六个部分构 成: ( 1 ) 多媒体集成框架d m d m i f ( t h ed e l i v e r ym u l t i m e d i ai n t e g r a t i o nf r a m e w o r k ) 即多媒 体传送整体框架,它主要解决在交互网络中、广播环境下或磁盘 存储时多媒体应用操作问题通过传输多路合成比特信息来建立 客户端和服务器端的交互和传输。通过d m i f ,m p e g - - 4 可以建 立起具有特殊品质服务( q o s ) 的信道和面向每个基本流的带宽 ( 2 ) 数据平面 m p e c h 中的数据平面可以分为两部分:传输关系部分和媒 体关系部分为了使基本流和a v 对象在同一场景中出现, m p e g - 4 引用了对象描述( 0 d ) 和流图( s m t ) 的概念。对象描述( o d ) 传输与特殊a v 对象相关的基本流的信息流图s m t 把每个流与 一个实际传送信道相关的信道联系标签c a t ( c h a n n e la s s o s i a t i o n t a g ) 相连,可实现该流的顺利传输 ( 3 ) 缓冲区管理和实时识别 m p e g - - 4 定义了一个系统解码模式( s d m ) ,该解码模式描述 了一种理想的处理比特流句法语义的解码装置,它要求特殊的缓 冲区和实时模式。通过有效地管理,可以更好地利用有限的缓冲 区空间。编码器规定并监视解码所必须的最小缓冲区资源,然后 在建立会话的过程中,通过对象描述( o d ) 将需要的缓冲区资源送 到解码器,这样解码器就能决定是否可以处理这一会话 ( 4 ) 音频编码 m p e c 珥的优越之处在于它不仅支持自然声音,而且支持合 成声音m p e g - 4 的音频部分将音频的合成编码和自然声音的编 码相结合,并支持音频的对象特征 ( 5 ) 视频编码 与音频编码类似,m p e g - 4 也支持对自然和合成的视频对象 的编码合成的视频对象包括2 d ,3 d 动画和人面部表情动画等 ( 6 ) 场景描述 m p e g - 4 提供了一系列工具,用于组成场景中的一组对象。 一些必要的合成信息就组成了场景描述,这些场景描述以二进制 格式b 球s ( b i n a r yf o r m a tf o rs c e n ed e s c r i p t i o n ) 表示,b i f s 与a v 对象一同传输、编码场景描述主要用于描述各a v 对象在一个 具体a v 场景坐标下,如何组织与同步等问题。同时还有a v 对 象与a v 场景的知识产权保护等问题m p e g - 4 为我们提供了丰 富的a v 场景 2 、m p e g - 4 的框架和级别 m p e g - 4 提供了大量的、丰富的音频视频对象的编码工具, 能够满足各种各样的应用需要对于某一特定的应用,只有一部 分系统、视频和音频的编码工具被采用,框架( p r o f i l e ) 就是针对特 定的应用确定要采用的编码工具,它是m p e g - 4 提供的工具集的 一个子集每一个框架又有一个或多个级别( l e v e l ) 来限制计算的 复杂度。m p e g _ 4 共有4 类框架:视频框架、音频框架、图形框 架和场景描述框架其中视频框架又包含5 个级别,如下: ( 1 ) s i m p l e v i d e op r o f i l e :提供矩形视频对象高效有容错能 力的编码功能,适合应用于移动网络。 ( 2 ) s i m p l es c a l a b l ev i d e op r o f i l e :在s i m p l ep r o f i l e 基础上 增加了对象时域和空域扩展编码功能,应用于提供多级服务质量 的应用,如i n t e m e t 和软件解码 ( 3 ) c o r ev i d e op r o f i l e :在s i m p l ep r o f i l e 基础上增加了任意 形状对象编码和时域扩展编码功能,适用于相对简单的内容交互 应用,如i n t e m e t 多媒体应用。 ( 4 ) m a i nv i d e op r o f i l e :在c o r ep r o f i l e 基础上增加了s p r i t e 对象编码功能,适用于交互和娱乐质量广播和d v d 应用等。 ( 5 ) n - b i tv i d e op r o f i l e :在c o r ep r o f i l e 基础上增加了具有 不同像素深度( 4 1 2 b i t s ) 视频对象编码功能,适用于监控应用。 3 、p e g - 4 标准的主要功能和特点 相对于m p e g 的前两个压缩标准,m p e g - 4 己不再是一个单 纯的视频音频编解码标准,它将内容与交互性作为核心,从而为 多媒体数据压缩提供了一个更为广阔的平台m p e g - 4 采取以功 能为基础的策略,即并不针对任何特殊的应用,而是力图尽可能 的支持对多种应用均有帮助的功能组m p e g h 支持的功能可以 分为三类: ( 1 ) 基于内容的交互性( c o n t e n t - b a s e dh a t e r a e t i v i t y ) 基于内容的操作和码流编辑:支持无须编码就可进行基于内 容的操作与比特流编辑例如,使用者可在图像或比特流中选择 一个具体的对象( o b j e c t ) ,随后改变它的某些特性 自然与合成数据的混合编码:提供将自然视频图像同合成数 据( 如文本、图形等) 有效结合的方式,同时支持交互性操作 增强的时间域随机存取:提供有效的随机存取方式,在有限 的时间间隔内可按帧或任意形状的对象,对音频、视频序列进行 随机存取例如以一序列中的某个音、视频对象为目标进行“快 进”搜索 ( 2 ) 高压缩率( c o m p r e s s i o n ) 提高编码效率:在可比拟速率下,m p e g - 4 提供的主观视频 质量要好于已有的或是其它在制定中的标准一般的说,m p e g - 4 的压缩倍数高达1 0 0 倍这一功能可望在迅速发展的移动通信网 中获得应用,但值得注意的是:提高编码效率不是m p e g - 4 唯一 的主要目标 对多个并发数据流编码:m p e g - 4 将提供对一景物的有效多 视角编码,加上多伴音声道编码及有效的视听同步 ( 3 ) 通用存取( u n i v e r s a la c c e s s ) 错误易发环境中的抗错性:m p e g - 4 将提高抗误码能力,尤 其是在易发生严重错误的环境下的低比特应用中( 移动通信链 路) 值得注意的是,m p e g - 4 是第一个在音频、视频表示规范中 考虑信道特性的标准,目的不是取代己有通信网提供的错误控制 技术,而是提供一种对抗残留错误的坚韧性 基于内容的尺度可变性:给图像中的各个对象分配优先级, 比较重要的对象用较高的时间或空间分辨率表示基于内容的可 分级编码特性是m p e g - 4 的核心对甚低比特率应用来说,可分 级编码特性是一个关键的因素,它提供了自适应使用可用资源的 能力,可以最有效的利用有限资源。 4 、m p e g - 4 标准

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论