




已阅读5页,还剩57页未读, 继续免费阅读
(信号与信息处理专业论文)视频压缩编码技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
视频压缩编码技术研究 摘要 本论文主要研究视频压缩编码技术,阐述了视频压缩编码的基本 概念,基本原理,以及视频压缩编码的信息论基础,介绍了当前视频 压缩编码的国际标准,包括h 2 6 x 系列,m p e g 系列当前已经广泛应 用的视频编码标准,还有视频编码标准的新发展h 2 6 l 。在研究一般 的视频压缩混合编码框架的基础上,重点研究和探讨了视频压缩编码 中的运动估计算法。 我们通过对经典的运动估计算法的研究,在菱形运动估计算法的 基础上,基于三种不同的出发点进行了算法改进和优化:( 1 ) 基于预 测矢量的改进算法;( 2 ) 基于分级搜索的改进算法;( 3 ) 基于引入新 的搜索模板的改进算法。针对每种改进算法我们都从算法改进的原 理,改进算法的具体实现流程,以及改进算法的性能特点方面进行了 深入的研究。 针对三种改进的菱形运动估计算法,我们做了相应的算法仿真测 试。对于每一种改进算法我们都分别进行了单位象素精度和半象素精 度两种搜索精度的仿真实验。重点测试了各运动估计算法的平均每宏 块搜索的点数,和平均每帧视频图像的与其重建图像之间的m s e 。并 对改进的算法与全搜索,三步法,菱形搜索法等传统的运动估计算法 进行了基于仿真数据的比较。 仿真数据表明改进的算法,因为考虑了运动矢量的空间相关性以 及运动矢量的概率中心分布的特点,所以其搜索速度和性能都大大优 于故有的算法,在多媒体视频应用日益普及的今天,必然有广阔的应 用前景。 关键词:视频压缩 仿真平台 运动估计矢量预测 视频序列m s e t h er e s e a r c ho f v i d e oc o m p r e s s i n gt e c h n o l o g y a b s t r a c t i nt h i sp a p e r , a t h o r o u g hs t u d y i sc a r r i e do u to v e rt h ev i d e o c o m p r e s s i n gt e c h n o l o g y w ei l l u s t r a t et h eb a s i cc o n c e p t i o n f u n d a m e n t a lp r i n c i p l eo fv i d e o c o m p r e s s i n ga n di n t r o d u c e dt h ev i d e oc o d i n gs t a n d a r d s t h ea l g o r i t h mo fm o t i o ne s t i m a t i o nw a ss t u d i e de m p h a t i c a l l y ,a f t e r i l l u s t r a t e dt h es t r u c t u r eo ft h eb a s i ch y b r i dc o d e ci sl a i do u ta n d r e a l i z a t i o n a f t e rs t u d i e dt h ec u r r e n ta l g o r i t h m so fm o t i o ne s t i m a t i o n ,t h r e e m e n d e da l g o r i t h m so fm o t i o ne s t i m a t i o nb a s e dd sf r o mt h r e ed i f f e r e n t w a yw e r ea d v a n c e d 1 ap r e d i c t i v ed i a m o n ds e a r c ha l g o r i t h mi sp r o p o s e db ya d d i n g p r e d i c t i o no f m o f i o nv e c t o rb a s e do nd s 2 a c c o r d i n gt ot h es p a t i a lc o r r e l a t i o nb e t w e e nt h en e a rb l o c k so ft h e m o t i o no b j e c t ,w ea b s o r bt h ec o r et h i n k i n go ft h ev e c t o rp r e d i c t i o n b l o c km a t c h i n ga l g o r i t h m ,t h e np r e s e n tat w 0 2 s t e ps e a r c ha l g o r i t h m o ft h eb l o c km a t c h i n gm o t i o ne s t i m a t i o n 3 p r o p o s ean e wa l g o r i t h mb a s e do nd su s i n gae r o s s j s e a r c hp a t t e r n a st h ei n i t i a ls t e pa n dl a r g e s m a l ld i a m o n ds e a r c hp a t t e r n sa st h e s u b s e q u e n ts t e p sf o rf a s tb l o c km o t i o ne s t i m a t i o n w es i m u l a t e dt h et h r e em e n d e da l g o r i t h m so fm o t i o ne s t i m a t i o n r e s p e c t i v e l yi np o i n tp r e c i n o na n di nh a l f - p o i n tp r e c i s i o n g e tt h en u m b e ro fs e a r c hp o i n t sp e rm a c r ob l o c ka n dt h em s e b e t w e e nt h ec u r r e n tp i c t u r ea n dt h ec o n s t r u c t e dp i c t u r e ,a n dt h e nc o m p a r e t h ec a p a b i l i t yo ft h ed i f f e r e n ta l g o r i t h m sa c c o r d i n gt h es i m u l a t i o nd a t a e x p e r i m e n t a lr e s u l t ss h o wt h a tt h em e n d e da l g o r i t h mo fm o t i o n e s t i m a t i o nb a s e do nd sp r o v i d ef a s t e rs e a r c h i n gs p e e da n ds m a l l e r d i s t o r t i o n st h a no t h e rp o p u l a rf a s tb l o c k m a t c h i n g a l g o r i t h m sb e c a u s e w et h i n ko ft h ec r o s s c e n t e r - b i a s e dm o t i o nv e c t o rd i s t r i b u t i o n c h a r a c t e r i s t i c so ft h er e a l - w o r l ds e q u e n c e sa n d s p a t i a l c o r r e l a t i o n b e t w e e nt h en e a rb l o c k so f t h em o t i o no b j e c ti nm e n d e da l g o r i t h m s k e yw o r d s :v i d e oc o m p r e s s i n g m o t i o ne s t i m a t i o n v e c t o rp r e d i c t i o n s i m u l a t i o ns y s t e mv i d e os e q u e n c em s e 4 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师盛立东教授的指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以 外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮 电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本 研究所做的任何贡献均已在论文中作了j 明确的说明并表示了谢意。 申请学位论文与资料若有不实之处 本人签名:爿亟_ j 虹l 卑 本人承担切相关责任。 日期:竺! 兰:竺! 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在年解密后适用本授权书。非保密论文注释:本 学位论文不属于保密范围,适用本授权书。 本人签名 导师签名 日期 日期匾2 :鲨 1 1 背景知识 第一章视频压缩基本概念 在过去的几年里,关于视频压缩的争论己成为个极其热门的话题,但有 趣的是,视频信号的压缩并不是一个新问题。许多人并没有意识到,伴随着 1 9 5 0 年代彩色电视的引入,视频压缩第一次商品化了。三幅分别显示红,蓝, 绿的最高分辨率的图象,共占用1 5 m h z 的总带宽;但被压缩成一路仅占5 m h z 的复合信号3 :1 的带宽压缩率被引入了。这种方式虽然简单,但毕竟是 压缩了。当然,这种早期的压缩方式是通过模拟技术实现的。今天,更稳定 连续的图象质量,更高的压缩率可以通过把模拟信号转换为数字信号,利用一 些高度复杂的技术来完成的。这些技术最终带来了更高的压缩效率和更精细的 压缩图象处理方法。这些数字技术需要极为强大的计算能力,直到最近在经济 上仍然是不可行的。然而,今天,情况有了变化。 一般的讲,数字视频压缩是从分量视频表达开始的,此时信号是以一个亮 度分量,两个色度分量来表达的。最广为接受的数字分量视频格式就是 r c c o m m e n d a t i o n 6 0 1 ,该建议使用了“共结点”模型的4 :2 :2 采样结构。所 谓“共结点”,是指每个彩色象素点由3 个采样来描述:个亮度采样,两个 色差形成的色度采样。因为这三个采样在时间上是重合的,所以称作“共结点”。 在5 2 5 行的系统中,每帧有4 8 3 个有效行,每行有7 2 0 个象素点;在6 2 5 行 的系统中,每帧有5 7 6 个有效行。 通过色度一亮度采样的结合,在不损害图象质量的同时,减少所需带宽得 以实现。4 :2 :2 中的“4 ”是指4 倍于分量数字系统中采用的副载波采样频 率。有趣的是,亮度采样频率实际上是1 3 5 m h z :数字“4 ”的使用只是在考 虑1 4 3 m h zn t s c 采样频率是遗留下来的历史问题。1 3 5 m h 2 的采样频率是一 一个折衷的选择,只是因为它相对5 2 5 和6 2 5 线的系统都有整数关系。采样方 式中的“2 ”是指色差信号c b ,c r 其采样频率刚好是亮度采样频率的一半 ( 6 7 5 m h z ) 。人眼亮度分辨能力的特点使得这种对分采样频率的方法能够使 用:大范围的心理视觉测试己证实,对于诸如色键等要求苛刻的后期制作类应 用环境,6 7 5 m h z 的采样频率所能达到的色度已经足够了。 压缩基本上是这样一个过程:通过消除存在于视频信号里的冗余成分,来减 少图象或图象组的内容信息。这可以通过分析视频信号的统计预知性来实现。信 号的主要部分是有一定的可预知性的。一个极端的例子是正弦波信号,它有高度 的可预知性,因为每个周期都是相同的,且只有一个频率,这样就不需占用带宽。 另一个极端的例子是,噪声信号完全不可预测。当然,实际上所有的信号都界于 这两者之间。压缩技术总的来说就是要识别并去除这些冗余,从而减少存储量 和所需带宽。 视频应用中对压缩,减少数据量或者数据传输率的要求可以归纳为以下两种 基本要求: 1 ) ,在已存在的基础中加入新的功能。彩色电视就是一个好例子。它面临的挑战 就是将附加信息( 色彩) 整合进已存在的黑白信号中。 2 ) ,经济利益。在通信领域,数据链接的花费通常是与数据传输率成正比的。因 此,压缩系数越高,花费就越低。同时,减少的存储花费构成了压缩技术经济上 的另一个优势。 1 2 信息论基础 1 2 1s h a n n o n 信息论概述 信源编码通过减少信源中存在的信息冗余而实现数据压缩的目的,其理论研 究开始于s h a n n o n 的信息论。信息论理论首次对信息的概念进行了科学的表述并 给出了量度信息的方法:信息论中的无损信源信源编码定理和率失真理论是整个 信源编码理论的基础。 信息量和熵 假设用概率空问 x ,p 来描述一个信源,x = 胁,坛,川是信源所有可 能消息的集合,p = p l ,粥,蒯是对应的先验概率分布,则消息船的自信 息量由式( 1 - 1 ) 定义: ,( m ,) = 一l o gp , 信源各消息的平均信启、量由式( 1 - 2 ) 给出 h = 一e p fl o gp i ( 1 2 ) 也称作信源的熵,它是信源编码的码率所能达到的极限。 设离散信源输出平稳序列:剧,码- i ix i ,其中x i 取值于集合 丑,a 2 , 一 a “, 则我们可以根据式( 卜3 ) 求得 - 长的序列中平均每个信源符号的信息熵: 巩一丙1 蔷k 高p ( 五一。h = ) 1 0 9 p 瓴= = ) ( 1 - 3 ) 若肋 0 ,只要满足 土 旦盟竺 ( 】一4 ) n l o g r 则当 。足够大时,译码错误概率能为任意小。 当采用二元编码时,= 2 ,式( 1 5 ) 成为: 1 日( s ) + 占 ( i 一5 ) 由此可以看出,等长信源编码定理给出了等长编码时每个信源符号所需的二 元码符号的理论极限,这个理论极限由决定。 变长信源编码定理: 若一个离散无记忆信源s 具有熵( 固,并存在含有,个字母的码符号集,则 总能找出一种无失真的编码方法,构成唯一可译码,使其平均码长满足 掣z 14 一掣0 - 6 ) l o r rl o g r 日0 ) 定理表明:变长编码的平均码长不能小于极限值i 万否则唯一可译码 不存在。 采用变长编码可以在不是很大的时候编出效率很高而且没有失真的码。 最后,s h a n n o n 无失真信源编码定理表述为:若信道的传输速率r 不大于 信道容量c ,总能对信源的输出进行适当的编码,使得在无噪信道上能无差错地 以最大信息传输速率c 来传输信息;但要使信道的信息速率r 大于c 而无差错地 传输信息则是不可能的。 h u f f m a n 编码和算术编码 l u f f m a r l 编码是d a h u f f m a n 于1 9 8 2 年提出的一种高效的无失真变长编码 方法,该方法利用码树来分配各符号的码字,保证概率大的符号对应短码,概率 小的符号对应长码,是块码范畴中的一种最佳编码方法。然而,块码的编码思路 是建立在符号和码字相对应的基础上的,要求信源符号尽量多元化,而且不考虑 符号的相关性。为了克服这种局限性,需要跳出块码的范畴,研究非块码的编码 方法。这就是从全序列出发,采用递推形式的连续编码。 算术编码的基本思想为:把信源序列的积累概率映射到 0 ,1 区间上,使每 个序列对应这区间内的点,也就是一个二进制的小数。这些点把 o ,1 区f 司分 成许多个小段,每段的长度等于某一序列的概率。再在段内取一个小数,其长度 可与该序列的概率匹配,从而达到高效编码的目的。 率失真理论 率失真理论讨论的主要问题是:在允许一定程度失真的条件下,能够把信 源的信息压缩到什么程度。图2 1 给出点对点通信系统的基本框图,假设信道中 没有噪声产生,则信息的失真仅与信源编码有关。用概率空间 u ,p 来表示离散 无记忆信源,u = u ,u 2 , ,u k ) ,p = p ( u 1 ) ,p ( 蚴,p ( u k ) ,接受端 变量v = v i ,喝,y 儿则平均失真由式( 卜7 ) 得到。 ( 卜7 ) 式( 卜7 ) 中的d ( u i ,曲为失真函数,常见的失真函数有绝对值失真,平方失真等。 由式( 卜7 ) 可以看出,如果信源的概率分布给定之后,决定平均失真的仅仅是信 源到信宿的转移概率。 广义信道部分 图2 一l 点对点通信系统框图 有了平均失真的表达式,就可以定义率失真函数如式( 卜8 ) : 凡l 上) =m i n, l 、l 舢t ” ( 1 8 ) 其中,尸( 历表示能使平均失真小于或等于瑚所有转移概率的集合,( u ,v ) 为 接收端获得的平均信息量,它的最小值仅与口有关。可以看出,率失真函数给出 了在满足限失真准则( q z 均失真不大于口) 的条件下,信源必须传输的信息率斤 的下限值。当每个信源符号的比特数低于月( 功时,不存在能使失真小于口的编码 方法:而给定允许的最大失真口时,也没有种编码方法可以是每个信源符号的 比特数低于斤( 功。一般,斤( 功是很难计算的,只有在一些特殊情况下可以得到斤( 功 函数的表达式。 1 2 2 预测编码 对于相关性很强的信源序列,单个信源符号的信息熵要远大于信源的熵率。 因此,为了能够进一步提高压缩效率,需要尽量解除相关性,使信源的输出转化 为相互独立的序列。预测是常用的解除相关性的方法之一。 在相关信源的编码过程中,可以根据己编码的符号来计算待编码符号的预测 值,然后对它与实际值的差值进行编码。通常采用均方误差最小的预测准则,信 , , ,;随 i i d 源的相关性越强,预测越精确,预测值与实际值的差值的方差越小,根据率失真 理论,对这些差值进行编码后的数据量也就越小。线性预测是常用的预测方法, 设有信源序列州,码,札,则肝的7 1 阶线性预测由式( 卜9 ) 实现: x := 口,k , ( 1 9 ) 预测系数可以由式( 卜1 0 ) 得到,其中中h = 驴,叶= e ( 肌册) ,k = l ,砌因 而可以形成一个由研个方程组成的脚元方程组, 。= 盘i ( 1 - 1 0 ) f ;1 在实际应用中,通常很难预先得到信源过程的相关系数,而且有时信源是非 平稳的,在这种情况下,一般采用自适应预测的方法。以上所讨论的预测方法, 力求在理论上达到预测误差最小或接近最小;这样往往使计算复杂度增加,因而 实现起来比较困难。所以实际应用中多采用直接差值编码,这在信源序列的相关 系数接近1 时是很有效的。差分脉码调制( d p c m ) 技术是最常用的直接差值编码 技术,它在图像编码( 包括视频编码) 和语音编码中都有着广泛的应用。然而, 值得注意的是,如果信源序列的相关性不是很强的时候,直接差值编码不但不能 起到数据压缩的作用,反而会使编码后的数据量增加。 1 2 3 变换编码 变换是一种数学工具,通过变换可以获得同一事物在不同域内的不同描述。 假设 e n ) 是希尔伯特空间中的一个标准正交系( 规范正交系) ,则对于任意x 且有: = a i p 。 其中,呸= ( x ,e ) ,( i - 1 2 ) 也即】【与e n 的内积。 对于卧空间和l 2 a ,b 空间,如果 e 。 采用三角函数系,式( 卜1 2 ) 分别可以 写作 n - 1 2 7 i a ( 7 ,= 2 t ;。x k 2 7 、m 一 ( 1 1 3 ) 亡= 0 、 ,1 1 气、 峨2 击如心附j 卺汹 其中,式( 卜1 3 ) 是离散傅里叶变换的正向变换形式,也可以写作矩阵形式如 式( 卜1 5 ) 。如果 e n ) 采用其它正交系,还可以构造出其它多种变换形式:如k l 变 换,w a l s h 变换,小波变换和离散余弦变换( d c t ) 等 n = h w x i - i n = ( e x p ( 一2 r c f i k ) ) ( 1 - 1 5 ) 通过变换,离散序列的统计特性会发生变化,在数据压缩中,则常常希望序 列的相关性降低,从而对变换后的序列进行编码时码率能够得到下降。k - l 变换 是均方误差准则下的最佳变换,经k l 变换后的随机序列之间是互不相关的,但 是,由于k l 变换要求知道随机序列的统计特性,在工程实践中并不能得到广泛 的使用。图像压缩中最常采用的变换是d c t ,前面提到的国际视频编码标准几乎 都采用了d c t ,因为它不但具有良好的去相关效果,而且具备许多成熟的快速算 法,易于工程上的实现。此外,随着小波理论的不断成熟,小波变换也开始应用 与图像压缩领域。j p e g 一2 0 0 0 标准中已经正式采用小波变换作为变换编码的手 段。 图像数据是二维数据,因而对图像数据需要进行二维变换。二维变换分为两 个步骤:首先对图像数据的各行做一维变换,然再对图像数据的各列做一维变换。 写作矩阵形式如式( 1 - 1 6 ) : y=h n ) ( hn ( 1 一1 6 ) 其中x 为输入图像矩阵,y 为输出图像矩阵,h ,为变换矩阵。 1 1 4 量化技术 量化是一种多对一的映射,是引入失真的一个过程,也是限失真信源编码技 术的基础。无论是对时间采样后的模拟信号进行数字化的过程,还是对数字序列 进行有损压缩的过程,都需要完成一个由输入集合到输出集合的映射,这个映射 是由量化来实现的。 最简单的量化方法是将单个样本的取值进行量化,因为被量化的变量是一维 的,所以这种量化方法叫做标量量化。 设仃阶标量量化器的输入为连续随机变量j ,输出为离散随机变量y ,其中: 丑( a 0 ,a n ) ,y e y l ,i n ) ,邵川8 1 y z , 女t - 1 y n a n 。 则j ,的取值由下式决定: y = y i 若a 卜l 爿 a j ( 1 a 7 ) 式( 卜1 8 ) 给出了量化器的平均失真: 旦o - d ( ,z ) = jd ( x ,y i ) f ( x ) d x ( 1 _ 1 8 ) i = 1 g j 。- j 其中d ( 五一为失真函数,“为x 的概率密度函数。 当量化阶数1 t 一定时,选择合适的a ,和月可以使量化器的平均失真最小,这时 的量化称为最佳标量量化。若输入变量肖满足均匀分布,可以将( a d ,a n ) 均匀分 割成,7 个小区间,每个小区间的中点作为量化值。这种量化方法叫做均匀量化, 对于均匀分布的输入变量来说,均匀量化是最佳标量量化。当采用均方失真函数 时,可以计算出其平均失真为2 1 2 ,其中= ( a n - , f l o ) n 。然而,从率失真的 角度来考虑,最佳标量量化并不能达到最佳率失真编码的要求,通常需要对量化 后的数据进行继续进行处理,如无损编码等。 为了使量化后不再进行后处理而能逼近率失真函数的界,人们开始探讨根据 多个连续信源符号联合编码的方法,即矢量量化技术。假设x = ( x i ,鸩,枷 是信源的一个川维矢量,它的取值范围是 ,维空间中的一个区域r ,一个级的 矢量量化器就是x r u 到个维量化矢量y l ,y 2 ,y l 的映射函数q ( x ) 。对 于任意y f ,j = 】,2 ,厶指定一个a ,维的区域a j ,对于所有x a f ,有q ( x ) : y j 。其中a j 称为y j 的包腔,各量化矢量称为码字,它们的集合称为码书。如果 选择的码书和各包腔可以使平均失真最小,这时的矢量量化称为最佳矢量量化。 1 3 压缩过程 压缩基本上是这样个过程:通过消除存在于视频信号里的冗余成分,来减 少图象或图象组的内容信息。概括地说,压缩技术就是试图识别冗余内容,再从 比特流中除去大量的此类成分。 】6 点的宏块( 4 个8 点 8 点的块) ,然后搜索判定它在下帧中的位置。虽然宏 块的采样在一定程度上己发生变化,但相关技术的应用使得位置匹配可以精确到 半个象素点。成功的搜索将为该宏块生成一个运动矢量。 1 3 6 帧问压缩和运动补偿 帧间压缩基于末压缩的图象进行工作,基本上是无损的。基准帧堆栈中保存 着满分辨率的前一帧图象,拥有全部视频数据。而运动矢量从运动补偿块中被计 算出来,用来预测当前帧图象由于各帧图象可能有着不同种类的差异,而预测 只能提供宏块的运动矢量,所以预测可能不是十分的精确。预测帧堆栈存储着 被预测的当前帧,这些内容是通过前一帧和运动矢量的信息来构造的。然后从实 际的当前帧中减去被预测的当前帧,其差异作为输出。如果没有运动和其他变化 ( 考虑一种极端情况,一帧图象重复出现) ,当前帧可以很精确地预测出来并且 差值输出应为零( 很容易压缩) 。当两帧不完全相同时,帧间差异只包含很少的信 息,容易被压缩。请注意,重要的是,这种帧内压缩,帧间压缩方式的组合, 己构成了基本的m p e g 一2 视频压缩系统。预测帧是从经过d c t 量化,解码的图象 得来的,这样能够得到更好的整体效果,因为编码器重复了解码器的工作过程, 这样就减弱了数学运算导致的负效应,例如舍位,进位错误。 第二章视频压缩编码标准 目前视频流传输中最为重要的编解码标准有国际电联的h 2 6 1 、h 2 6 3 ,运动 静止图像专家组的m - j p e g 和国际标准化组织运动图像专家组的m p e g 系列标准,此 外在互联网上被广泛应用的还有r e a l n e t w o r k s 的r e a l v i d e o 、微软公司的w m t 以 及a p p l e 公司的q u ic k t i m e 等。 2 1 国际电联的h 2 6 1 、h 2 6 3 标准 2 1 1h 2 6 1 h 2 6 1 又称为p 6 4 ,其中p 为6 4 k b s 的取值范围,是1 至, j 3 0 的可变参数。它最 初是针对在i s d n 上实现电信会议应用特别是面对面的可视电话和视频会议而设 计的。实际的编码算法类似于m p e g 算法,但不能与后者兼容。h 2 6 1 在实时编码 时比m p e g 所占用的c p u 运算量少得多,此算法为了优化带宽占用量,引进了在图 像质量与运动幅度之间的平衡折中机制,也就是说,剧烈运动的图像比相对静止 的图像质量要差。因此这种方法是属于恒定码流可变质量编码而非恒定质量可变 码流编码。 2 1 2h 2 6 3 h 2 6 3 是国际电联i t u t 的一个标准草案,是为低码流通信而设计的。但 实际上这个标准可用在很宽的码流范围,而非只用于低码流应用,它在许多应用 中可以认为被用于取代h 2 6 1 。h 2 6 3 的编码算法与h 2 6 1 一样,但做了一些改善 和改变,以提高性能和纠错能力。 h 2 6 3 标准在低码率下能够提供l l h 2 6 1 更好的图像效果,两者的区别 ( 1 ) h 2 6 3 的运动补偿使用半象素精度,而h 2 6 1 则用全象素精度和循环滤波; ( 2 ) 数据流层次结构的某些部分在h 2 6 3 中是可选的,使得编解码可以配置成 更低的数据率或更好的纠错能力; ( 3 ) h 2 6 3 包含四个可协商的选项以改善性能; ( 4 ) h 2 6 3 采用无限制的运动向量以及基于语法的算术编码; ( 5 ) 采用事先预测和与m p e g 中的p b 帧一样的帧预测方法; ( 6 ) h 2 6 3 支持5 种分辨率,即除了支持h 2 6 1 中所支持的o c i f 和c i f # f ,还支 持s q c i f 、4 c l f 和1 6 c i f ,s o c i f 相当于q c i f 一半的分辨率,而4 c i f 和1 6 c i f 分别 只采用前向时间预测,可以提高压缩效率和图像质量。p 帧图像中可以包含帧内 编码的部分,即p 帧中的每一个宏块可以是莳向预测也可以是帧内编码。b 帧图 像采用双向时间预测,可以大大提高压缩倍数。 m p e g 一2 的编码码流分为六个层次。为更好地表示编码数据,m p e g 一2 用句法规 定了一个层次性结构。它分为六层,自上到下分别是:图像序列层、图像组( g o p ) 、 图像、宏块条、宏块、块。 m p e g 一2 标准在广播电视领域中的主要应用如下: ( 1 ) 视音频资料的保存 一直以来,电视节目、音像资料等都是用磁带保存的。这种方式有很多弊端: 易损,占地大,成本高,难于重新使用。更重要的是难以长期保存,难以查找、 难以共享。随着计算机技术和视频压缩技术的发展,高速宽带计算机网络以及大 容量数据存储系统给电视台节目的网络化存储、查询、共享、交流提供了可能。 采用m p e g - 2 压缩编码的d v d 视盘,给资料保存带来了新的希望。电视节目、音像 资料等可通过m p e g - 2 编码系统编码,保存到低成本的c d - r 光盘或高容量的可擦写 d v d - r a m 上,也可利用d v d 编著软件( 如d a i k i ns c e n a r i s tn t 、s p r u c eo v d m a e s t r o 等) 制作成标准的3 v 3 视盘,既可节约开支,也可节省存放空间。 ( 2 ) 电视节目的非线性编辑系统及其网络 在非线性编辑系统中,节目素材是以数字压缩方式存储、制作和播出的,视 频压缩技术是非线性编辑系统的技术基础。目前主要有m - j p e g 和m p e g 一2 两种数字 压缩格式。 m j p e g 技术即运动静止图像( 或逐帧) 压缩技术,可进行精确到帧的编辑, 但压缩效率不高。 m p e c 一2 采用帧问压缩的方式,只需进行i 帧的帧内压缩处理b 帧和p 帧通过 侦测获得,因此,传输和运算的数据大多由帧之间的时间相关性得到,相对来 说,数据量小,可以实现较高的压缩比。随着逐帧编辑问题的解决,m p e g 一2 将广 泛应用于非线性编辑系统,并大大地降低编辑成本,同时m p e g - 2 的解压缩是标准 的,不同厂家设计的压缩器件压缩的数据可由其他厂家设计解压缩器来解压缩, 这一点保证了各厂家的设备之间能完全兼容。 由于采用m p e g 一2i b p 视频压缩技术,数据量成倍减少,降低了存储成本,提 高了数据传输速度,减少了对计算机总线和网络带宽的压力,可采用纯以太网组 建非线性编辑网络系统已成为可能,而在目前以太网是最为成熟的网络,系统管 理比较完善,价格也比较低廉。基于m p e g 一2 的非线性编辑系统及非线性编辑网 络将成为未来的发展方向。 ( 3 ) 卫星传输 ) _ i p e g 一2 已经通过l s o 认可,并在广播领域获得广泛的应用,如数字卫星视频 广播( d v b s ) 、d v d 视盘和视频会议等。目前,全球有数以千万计的d v b s 用户, d v b s 信号采用m p e g - 2 压缩格式编码,通过卫星或微波进行传输,在用户端经 ) d p e g 一2 卫星接收解码器解码,以供用户观看。此外,采用m p e g - 2 压缩编码技术, 还可以进行远程电视新闻或节目的传输和交流。 ( 4 ) 电视节目的播出 在整个电视技术中播出是一个承上启下的环节,对播出系统进行数字化改 造是非常必要的,其中最关键一步就是构建硬盘播出系统。m p e g 一2 硬盘自动播出 系统因编播简便、储存容量大、视频指标高等优点,而为人们所青睐。但以往 m p e g 一2 播出设备因非常昂贵,而只有少量使用。随着m p e g - 2 技术的发展和相关产 品成本的下降,艘e g 一2 硬盘自动系统播出可望得到普及。 2 3 3m p e g - 4 标准 运动图像专家组m p e g 于1 9 9 9 年2 月正式公布了m p e g 一4 ( i s o i e c l 4 4 9 6 ) 标准 第一版本。同年年底m p e g 一4 第二版亦告底定,且于2 0 0 0 年年初正式成为国际标准。 m p e g 一4 与m p e g 一1 和m p e g 一2 有很大的不同。m p e g 一4 不只是具体压缩算法,它是 针对数字电视、交互式绘图应用( 影音合成内容) 、交互式多媒体( w w w 、资料撷 取与分散) 等整合及压缩技术的需求而制定的国际标准。m p e g - 4 标准将众多的多 媒体应用集成于一个完整的框架内,旨在为多媒体通信及应用环境提供标准的算 法及工具,从而建立起一种能被多媒体传输、存储、检索等应用领域普遍采用的 统一数据格式。 m p e g 一4 的编码理念是:m p e g 一4 标准同以前标准的最显著的差别在于它是采用 基于对象的编码理念,即在编码时将一幅景物分成若干在时问和空间上相互联系 的视频音频对象,分别编码后,再经过复用传输到接收端,然后再对不同的对象 分别解码,从而组合成所需要的视频和音频。这样既方便我们对不同的对象采用 不同的编码方法和表示方法,又有利于不同数据类型间的融合,并且这样也可以 方便的实现对于各种对象的操作及编辑。例如,我们可以将一个卡通人物放在真 实的场景中,或者将真人置于一个虚拟的演播室里,还可以在互联网上方便的实 现交互,根据自己的需要有选择的组合各种视频音频以及图形文本对象。 m p e g 一4 系统的一般框架是:对自然或合成的视听内容的表示;对视听内容数 据流的管理,如多点、同步、缓冲管理等:对灵活性的支持和对系统不同部分的 配置。 与m p e g 一1 、m p e g 一2 相比,m p e g 一4 具有如下独特的优点: 表示不同层次上的用户对信息的需求。以视觉内容为例,较低抽象层将包括形状、 尺寸、纹理、颜色、运动( 轨道) 和位置的描述。对于音频的较低抽象层包括音 调、调式、音速、音速变化、音响空间位嚣。最高层将给出语义信息:如“这是 一个场景:一个鸭子正躲藏在树后并有一个汽车正在幕后通过。”抽象层与提取 特征的方式有关:许多低层特征能以完全自动的方式提取,而高层特征需要更多 人的交互作用。m p e g - 7 还允许依据视觉描述的查询去检索声音数据,反之也一样。 m p e g 一7 的目标是支持数据管理的灵活性、数据资源的全球化和互操作性。 m p e g 一7 标准化的范围包括:一系列的描述子( 描述于是特征的表示法,一个 描述子就是定义特征的语法和语义学) ;一系列的描述结构( 详细说明成员之间 的结构和语义) :一种详细说明描述结构的语言、描述定义语言( d d l ) ;一种或 多种编码描述方法。 在我们的日常生活中,日益庞大的可利用音视频数据需要有效的多媒体系统 来存取、交互。这类需求与一些重要的社会和经济问题相关,并且在许多专业和 消费应用方面都是急需的,尤其是在网络高度发展的今天,而m p e g 一7 的最终目的 是把网上的多媒体内容变成象现在的文本内容一样,具有可搜索性。这使得大众 可以接触到大量的多媒体内容,m p e g 一7 标准可以支持非常广泛的应用,具体如下: ( 1 ) 音视数据库的存储和检索: ( 2 ) 广播媒体的选择( 广播、电视节目) : ( 3 ) 因特网上的个性化新闻服务; ( 4 ) 智能多媒体、多媒体编辑; ( 5 ) 教育领域的应用( 如数字多媒体图书馆等) ; ( 6 ) 远程购物; ( 7 ) 社会和文化服务( 历史博物馆、艺术走廊等) ; ( 8 ) 调查服务( 人的特征的识别、辩论等) : ( 9 ) 遥感: ( 1 0 ) 监视( 交通控制、地面交通等) : ( 1 1 ) 生物医学应用; ( 1 2 ) 建筑、不动产及内部设计: ( 13 ) 多媒体目录服务( 如,黄页、旅游信息、地理信息系统等) ; ( 1 4 ) 家庭娱乐( 个人的多媒体收集管理系统等) 。 原则上,任何类型的a v ( a u d i 。一v i d e o ) 材料都可以通过任何类型的查询材 料来检索,例如,a v 材料可以通过视频、音乐、语言等来查询,通过搜索引擎来 匹配查询数据肃i m p e g - 7 的音视频描述。下面给出几个查询例子: 音乐:在键盘上弹几个音符就能得到包含( 或近似) 要求曲调的音乐作品列表, 或以某种方式匹配音符的图象,例如,从情感方面。 图形:在屏幕上画几条线就能得到类似图形、标识、表意文字( 符号) 等的一组 图象。 运动:对一组给定的物体,描述在物体之间的运动和关系,就会得到实现所描述 的时空关系的动画列表。 电影拍摄剧本( 剧情说明) :对给定的内容,描述出动作就会得到发生类似动作 的电影拍摄剧本( 剧情说明) 列表。 2 , 3 5m p e g - - 2 1 标准 互联网改变了物质商品交换的商业模式,这就是“电子商务”。新的市场必 然带来新的问题:如何获取数字视频、音频以及合成图形等“数字商品”,如何 保护多媒体内容的知识产权,如何为用户提供透明的媒体信息服务,如何检索内 容,如何保证服务质量等。此外,有许多数字媒体( 图片、音乐等) 是由用户个人 生成、使用的。这些“内容供应者”同商业内容供应商一样关心相同的事情:内 容的管理和重定位、各种权利的保护、非授权存取和修改的保护、商业机密与个 人隐私的保护等。目前虽然建立了传输和数字媒体消费的基础结构并确定了与此 相关的诸多要素,但这些要素、规范之间还没有一个明确的关系描述方法,迫切 需要一种结构或框架保证数字媒体消费的简单性,很好地处理“数字类消费”中 诸要素之间的关系。” p e g - 2 1 就是在这种情况下提出的。 制定m p e g 一2 1 标准的目的是: ( 1 ) 将不同的协议、标准、技术等有机地融合在一起; ( 2 ) 制定新的标准: ( 3 ) 将这些不同的标准集成在一起。m p e g 一2 l 标准其实就是一些关键技术的集 成,通过这种集成环境就对全球数字媒体资源进行透明和增强管理,实 现内容描述、创建、发布、使用、识别、收费管理、产权保护、用户隐 私权保护、终端和网络资源抽取、事件报告等功能。 任何与m p e g 一2 1 多媒体框架标准环境交互或使用m p e g 一2 1 数字项实体的个人或 团体都可以看作是用户。从纯技术角度来看,m p e g - 2 1 对于“内容供应商”和“消 费者”没有任何区别。 m p e g 一2 1 多媒体框架标准包括如下用户需求: ( 1 ) 内容传送和价值交换的安全性; ( 2 ) 数字项的理解: ( 3 ) 内容的个性化; ( 4 ) 价值链中的商业规则; ( 5 ) 兼容实体的操作; ( 6 ) 其它多媒体框架的引入; ( 7 ) 对m p e g 之外标准的兼容和支持: ( 8 ) 一般规则的遵从; ( 9 ) m p e g 一2 1 标准功能及各个部分通信性能的测试; ( 1 0 ) 价值链中媒体数据的增强使用; ( 1 1 ) 用户隐私的保护; ( 1 2 ) 数据项完整性的保证; ( 1 3 ) 内容与交易的跟踪; ( 1 4 ) 商业处理过程视图的提供; ( 1 5 ) 通用商业内容处理库标准的提供; ( 1 6 ) 长线投资时商业与技术独立发展的考虑: ( 1 7 ) 用户权利的保护,包括:服务的可靠性、债务与保险、损失与破坏、付 费处理与风险防范等; ( 1 8 ) 新商业模型的建立和使用。 2 4 其它压缩编码标准 1 r e a lv 1 d e o r e a lv i d e o 是r e a ln e t w o r k s 公司开发的在窄带( 主要的互联网) 上进行多媒体 传输的压缩技术。 2 w m t w m t 是微软公司开发的在互联网上进行媒体传输的视频和音频编码压缩技术, 该技术已与w m t 服务器与客户机体系结构结合为一个整体,使用m p e g 一4 标准的一 些原理。 3 o u i c k t i m e q u i c k t i m e 是一种存储、传输和播放多媒体文件的文件格式和传输体系结构, 所存储和传输的多媒体通过多重压缩模式压缩而成,传输是通过r t p 协议实现的。 标准化是产业化成功的前提,h 2 6 1 、h 2 6 3 推动了电视电话、视频会议的发展。 早期的视频服务器产品基本都采用m _ j p e g 标准,开创视频非线性编辑时代。 m p e g 一1 成功地在中国推动了v c d 产业,m p e g 一2 标准带动了d v d 及数字电视等多种消 费电子产业,其它m p e g 标准的应用也在实施或开发中,r e a l n e t w o r k s 的r e a l v i d e o 、微软公司的w m t 以及a p p l e 公司的o u i c k t i m e 带动了网络流媒体的发展,视 频压缩编解码标准紧扣应用发展的脉搏,与工业和应用同步。未来是信息化的社 会,各种多媒体数据的传输和存储是信息处理的基本问题,因此,可以肯定视频 压缩编码标准将发挥越来越大的作用。 2 5 视频压缩编码新发展h 2 6 4 j v t ( j o i n tv i d e ot e a m ,视频联合工作组) 于2 0 0 1 年1 2 月在泰国p a t t a y a 成立。它由i t u t 和i s o
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 摆摊饭团基础知识培训课件
- 摄影基础知识培训课件通知
- 食品技术考试题及答案
- 智能化安防系统工程施工合同(新增)
- 2025规范中介房产合同
- 2025财产信托的合同书模板
- 公司装配知识培训论坛课件
- 市社科联面试官方题库:全面解析面试技巧与策略
- 教育考试报名相关试题分享
- 2025年自驾租车合同范本下载
- 来宾东糖纸业技改扩建制浆车间及附属工程施工组织设计
- 市政道路及设施零星养护服务技术方案(技术标)
- 麦肯锡-前海妈湾片区战略定位与产业规划-20170328
- 2024停车场停车协议书
- 2024急救护理常规
- 碳材料在绿色能源领域的应用
- 苏教版小学综合实践活动五年级上册教案
- NY-T 3213-2023 植保无人驾驶航空器 质量评价技术规范
- DBJ51-T 219.6-2023 四川省物业服务标准 第6分册:商场物业服务标准
- 人工髋关节置换术护理路径
- 仓储物流部门的客户投诉与问题解决
评论
0/150
提交评论