(电路与系统专业论文)视频压缩中运动估计算法的研究[电路与系统专业优秀论文].pdf_第1页
(电路与系统专业论文)视频压缩中运动估计算法的研究[电路与系统专业优秀论文].pdf_第2页
(电路与系统专业论文)视频压缩中运动估计算法的研究[电路与系统专业优秀论文].pdf_第3页
(电路与系统专业论文)视频压缩中运动估计算法的研究[电路与系统专业优秀论文].pdf_第4页
(电路与系统专业论文)视频压缩中运动估计算法的研究[电路与系统专业优秀论文].pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(电路与系统专业论文)视频压缩中运动估计算法的研究[电路与系统专业优秀论文].pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

太原理i :人学l :稃硕十研究生何论文 视频压缩中运动估计算法的研究 摘要 计算机技术和网络技术的发展和普及,大大推动了视频技术的发展和 应用,数字视频技术在当前的信息社会中日益发挥着重要的作用。影响视 频压缩质量和效率的因素很多,运动估计是其中最有影响力的因素之一。 运动估计越准确,解码出来的视频图像质量越好。而且运动估计在整个视 频压缩编码系统中耗时最多。因此快速、准确的运动估计算法是视频压缩 编码技术的研究重点i , 本文首先对现有的几种视频压缩编码标准作了一个简要的讨论,然后 对视频压缩编码中的关键算法基于块匹配的运动估计的基本原理和要 素进行了阐述,并分析了一些快速算法的特点,在此基础上提出了自适应 快速搜索算法。 由于相邻块之间的运动矢量存在空间相关性,我们利用左方、上方、 右上方的相邻块的运动矢量,来预测当前块的运动剧烈程度。根据预测所 得当前块运动剧烈程度的不同,可以使用不同的搜索算法进行搜索,这样 搜索算法的选择就有了一定的针对性,进而提高搜索的速度和精确。利用 相邻块之间的运动矢量的空间相关性,可以进行搜索起点的预测,这样能 进一步提高搜索的速度和精度。综合以上三种技术,提出了自适应快速搜 索算法。 当块的运动剧烈程度很小,接近于静止时,自适应快速搜索算法使用 太原理1 :人学i 稃硕十研究生学位沦文 小菱形搜索模板进行搜索,有效的提高了搜索速度;当块的运动剧烈程度 中等时,使用3x3 的方形模板进行搜索,这样既能保证搜索的精度,又能 提高搜索的速度;当块的运动剧烈程度较大时,使用菱形搜索算法进行搜 索,可以提高搜索的速度。 实验表明:自适应快速搜索算法能在保证搜索精度的同时,显著的提 高搜索速度。 关键词:视频压缩,运动估计,运动剧烈程度判断,搜索起点预测 t h er e s e a r c h0 fm o t i o ne s t i m p 汀i o n a l g o r i t h mi nv i d e oc o m p r e s s i o n a bs t r a c t w i t ht h e d e v e l o p m e n ta n dp o p u l a r i z a t i o n o fc o m p u t e ra n dn e t w o r k t e c h n o l o g y , v i d e ot e c h n o l o g yh a sb e e nw i d e l ya p p l i e dt ov a r i o u sa p p l i c a t i o n s a n dp l a y sam o r ea n dm o r ei m p o r t a n tr o l en o w a d a y s a m o n gt h ef a c t o r sw h i c h i n f l u e n c et h ec o d i n gq u a l i t ya n de f f i c i e n c yf o rv i d e oc o m p r e s s i o n ,m o t i o n e s t i m a t i o nt e c h n o l o g yi st h em o s ti m p o r t a n to n e i ti sk n o w nt h a tt h ea c c u r a c y o fm o t i o ne s t i m a t i o nu s u a l l yd e t e r m i n e st h eq u a l i t yo fd e c o d e di m a g e st oa g r e a te x t e n t h o w e v e r , m o t i o n e s t i m a t i o nc o n t r i b u t e st ot h em o s tp a r to f c o m p u t a t i o n a ll o a di nt h e w h o l ev i d e oc o d i n gs y s t e m t h u sr e s e a r c ho ne f f i c i e n t m o t i o ne s t i m a t i o na l g o r i t h mb e c o m e saf o c u si nv i d e oc o d i n gf i e l d a tf i r s t ,t h i sp a p e rg i v e sa no v e r v i e wo fas e r i e so fi n t e r n a t i o n a ls t a n d a r d s f o rv i d e oc o d i n g ,t h e ni n t r o d u c et h eb a s i ct h e o r ya n dk e yp o i n t so fi t sc o r e t e c h n o l o g y , w h i c hi sb l o c k m a t c h i n gm o t i o ne s t i m a t i o n o nt h eb a s i so f t h e a n a l y s i so np o p u l a rf a s tb l o c k m a t c h i n ga l g o r i t h m s ,a d d a p t i v ef a s t s e a r c h a l g o r i t h m sw e r ep r o p o s e d b e c a u s eo ft h eh i g hc o r r e l a t i o no ft h em o t i o nv e c t o ro fa d j a c e n tb l o c k ,w e u s et h em o t i o nv e c t o r so fb l o c k so nl e f t ,t o p ,a n dt o p f i g h tt op r e d i c tt h er a n g e i i i 太原理j :大学:【:程硕士研究生学位论文 o fm o t i nv e c t o ro fc u r r e n tb l o c k a c c o r d i n gt ot h ed if f e r e n c eo ft h er a n g eo f m o t i o nv e c t o r , w ec a nu s ed i f f e r e n ts e a r c hp a t t e r nt of i n dt h em b d p o i n t t h u s t h em o t i o ne s t i m a t i o na l g o r i t h mw i l lb em o r ee f f i c i e n ta n dw i l lf i n dt h em b d p o i n tm o r eq u i c k l y w ec a ng e tt h ep r e d i c t i v em o t i o nv e c t o ru s i n gt h eh i g h c o r r e l a t i o no ft h em o t i o nv e c t o ro fa d j a c e n tb l o c k i tc a ni m p r o v et h ea c c u r a c y a n ds p e e do fs e a r c ha l g o r i t h m b a s e do nt h e s et e c h n o l o g i e st a l k e da b o u tb e f o r e , w e p r o p o s ea d d a p t i v ef a s ts e a r c ha lg o r i t h m s w h e nr a n g eo fm o t i o nv e c t o ri sv e r ys m a l l ,w eu s es m a l ld i a m o n ds e a r c h p a t t e r nt of i n dt h em b dp o i n t i tc a ni m p r o v et h es p e e do fs e a r c ha l g o r i t h m e f f i c i e n t l y ;w h e nt h er a n g eo fm o t i o nv e c t o ri sm i d d l e ,w eu s e3 3s q u a r e p a t t e r ni no u ra l g o r i t h m ,i tc a ni m p r o v et h es p e e do fa l g o r i t h mw i t h o u tl o s so f a c c u r a c y ;w h e nt h er a n g eo fm o t i o nv e c t o ri sb i g ,w eu s ed sa l g o r i t h mi no u r s e a r c ha l g o r i t h m ,i tc a ni m p r o v et h es p e e do fs e a r c ha l g o r i t h m e x p e r i m e n ts h o w st h a ta d d a p t i v ef a s ts e a r c ha l g o r i t h mc a ni m p r o v et h e s p e e do f s e a r c ha l g o r i t h mm a r k e d l yw i t h o u tl o s so f a c c u r a c y k e yw o r d s :v i d e oc o d i n g ,m o t i o ne s t i m a t i o n ,e s t i m a t i o no ft h er a n g eo f m o t i nv e c t o r , e s t i m a t i o no f p r e d i c t i v em o t i o nv e c t o r i v 太原理i :人学i :稃硕十研究生学何论文 v o d h d t v f p s h v s r g b y u v 4 :2 :0 4 :2 :2 4 :4 :4 d c t k _ l 变换 d p c m i t u i s o i e c v l s i p a l n t s c c i f q c i f s q c i f 4 c i f 1 6 c i f p 帧 符号说明 视频点播系统 高清晰数字电视 帧每秒 人类视觉系统 r g b 色彩模式是工业界的一种颜色标准,是通过对红( r ) 、绿( g ) 、蓝( b ) - - - 个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的。 ( 亦称y c r c b ) 是被欧洲电视系统所采用的一种颜色编码方法 采样方法是色度分量的水平分辨率和垂直分辨率是亮度分量的一半 采样方法是色度分量的水平分辨率是亮度分量的一半 采样方法是色度分量的水平分辨率和垂直分辨率与亮度分量相同 离散余弦变换 离散k l 变换是以图像的统计特征为基础的一种正交变换,也称为特征向 量变换 差值脉冲编码调制 国际电信联盟 国际标准化组织 国际电工委员会 超大规模集成电路 一种电视广播制式,其标准主要应用于只本、美国、加拿大等 一种电视广播制式,其标准主要应用于德国、英国、中国、印度等 解析度为3 5 2 2 8 8 的一种视频格式 解析度为1 7 6 x1 4 4 的一种视频格式 解析度为1 2 8 9 6 的一种视频格式 解析度为7 0 4 x 5 7 6 的种视频格式 解析度为1 4 0 8 1 1 5 2 的一种视频格式 使用参考帧作运动补偿预测的编码图像 v i i 太原理1 人学ii 稗硕十研究生学何论文 b 帧 j v t c a b a c c a v l c u v l c v h s s i f i 帧 s d t v a t m c a e v o p b d m m s e m a d n c c f m m e s a d b m a f s t s s n t s s f s s b b g d s d s m p c p u p n r p 双向运动补偿预测的编码图像 视频联合工作组 基于上下文自适应二进制算术编码 基于上下文自适应变长编码 统一可变长编码 家用录像系统,是一种家用录像机的录制和播放标准 标准图像格式,n t s c 制是3 5 0 ( 2 4 0 象素,p a l 制是3 5 2 x2 8 8 象素 使用离散余弦变换( d c t ) 压缩技术的编码图像 标准清晰度电视 异步传输模式,是一种分组交换和复用技术 基于内容的算术编码 帧视频对象 块失真度 均方误差函数 绝对平均误差函数 归一化相关函数 最大误差最小函数 绝对误差和 块匹配算法 全搜索算法 三步搜索算法 新三步搜索算法 四步搜索算法 基于块的梯度下降搜索算法 菱形搜索算法 中值预测法 对应块预测法 上层块预测法 相邻参考帧预测法 v iii 太原理1 人。学i 。科硕十研究生:学何论文 m b d l d s p s d s p v m p s n r d sp a d sp 最小块失真 大菱形模板 小菱形模板 校验模型 峰值信噪比 引入搜索起点预测的菱形算法 引入搜索起点预测和块运动剧烈程度判断的菱形搜索算法 i x 声明尸明 本人郑重声明:所呈交的学位论文,是本人在指导教师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文 不包含其他个人或集体已经发表或撰写过的科研成果。对本文的研究 做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的 法律责任由本人承担。 论文作者签名:查丛查垦日期: 关于学位论文使用权的说明 本人完全了解太原理工大学有关保管、使用学位论文的规定,其 中包括:学校有权保管、并向有关部门送交学位论文的原件与复印 件;学校可以采用影印、缩印或其它复制手段复制并保存学位论文; 学校可允许学位论文被查阅或借阅;学校可以学术交流为:目的, 复制赠送和交换学位论文;学校可以公布学位论文的全部或部分内 容( 保密学位论文在解密后遵守此规定) 。 签名:查壅塑日期: 导师签名:生曼牛日期: 太原理工大学t 程硕士研究生学位论文 1 1 课题的学术和实用意义 第一章绪论 近些年来移动通信和因特网技术得到迅猛发展,单一的语音和数据通信己不能满足 人们的需求,而对于数字视频及图像传输业务的需求随之大幅度增加。视频会议系统、 视频监视系统、远程教育、视频点播系统( v o d ) 、高清晰数字电视( h d t v ) 以及网络聊 天软件等多媒体实时业务逐渐得到广泛的应用。 相比较其它类型的信息传输如文本和数据,视频通信需要占用更多的带宽资源。如 果以高清电视的格式( h d t v ) 为例,假定1 秒的数字视频的帧速率为3 0 耻,它的每幅图 像由1 9 2 0 行组成,每行有1 0 8 0 个像素点,每个像素采用2 4 个比特来存放亮度和色度 分量,则每秒钟数字视频中的比特数为: 1 9 2 0 1 0 8 0 x2 4 x3 0 = 1 4 2 3m b ( 1 - 1 ) 而我国用户常用的a d s l 宽带网络仅能提供2 m b i t s 的速率,即使高档次的光纤接 入也无法满足要求。如果保存下来的话,仅一分钟的片段就需要8 3 g 的空间。由此可 以看出,视频信息的数据量非常巨大,如果不进行压缩,则难以实现存储和传输,即使 网络能够提供所需的带宽,其传输也是非常不经济的。因此在保证图像质量的前提下尽 量对视频图像进行压缩,对降低传输带宽和存储容量显得十分重要,具有重大的实用价 值。 数字图像压缩技术己成为目前国内外的研究热点之一,为了保证不同厂商设备和产 品之间的可交换性,国际标准化协会( i s o ,i n t e r n a t i o n a ls t a n d a r d i z a t i o no r g a n i z a t i o n ) ,国 际电子学委员会( i e c ,i n t e r n a t i o n a le l e c t r o n i c sc o m m i t t e e ) 、国际电信协会o t u , i n t e r n a t i o n a lt e l e c o m m u n i c a t i o nu n i o n ) 等国际组织于9 0 年代领导制定了许多重要的多媒 体数据压缩标准。从h 2 6 1 ,m p e g 1 ,h 2 6 3 到m p e g 2 ,再到现在的m p e g 4 , m p e g 7 ,h 2 6 4 ,标准越来越成熟,覆盖的应用领域愈来愈广泛。 运动估计是视频压缩编码标准中消除相邻的运动图像之间时间冗余度的主要方法, 也是活动视频信号压缩过程中最重要的步骤之一。运动估计越准确,解码出来的视频图 像质量越好。而且运动估计在整个视频压缩编码系统中耗时最多。因此研究快速、准确 的运动估计算法对于整个视频压缩编码标准的研究具有十分重要的意义。 1 太原理工大学工程硕士研究生学位论文 1 2 视频压缩编码标准 近年来,一系列国际视频压缩编码标准的制定极大的促进了视频压缩编码技术和多 媒体通信技术的发展。视频压缩编码标准的制定主要是由国际标准化组织( i n t e r n a t i o n a l s t a n d a r d i z a t i o no r g a n i z a t i o n ,简称i s o ) 和国际电信联盟( i n t e r n a t i o n a lt e l e c o m m u n i c a t i o n u n i o n ,简称r r u ) 完成的。r r u t 的标准包括h 2 6 1 、h 2 6 3 、h 2 6 4 ,主要应用于实时 视频通信领域,如会议电视;m p e g 系列标准是由i s o i e c ( i n t e r n a t i o n a le l e c t r o t e c h n i c a l c o m m i s s i o n ,国际电工委员会) 制定的,主要应用于视频存储( d v d ) 、广播电视、因特 网或无线网上的流媒体等。各种视频压缩标准都是根据人们在不同领域中对声像数据的 要求制定的,并随着人们的需求不断的发展。两个组织也共同制定了一些标准,h 2 6 2 标准等同于m p e g - 2 的视频编码标准,而最新的h 2 6 4 标准则被纳入m p e g - 4 的第1 0 部分。下面我们分别来介绍m p e g - x 系列标准和h 2 6 x 系列标准。 一、h 2 6 x 系列压缩标准 通常情况下,h 2 6 x 标准侧重于视频信息的数据压缩率,以适合调整该系统在特定 位速率下传输,其主要应用目标是可视电话和会议电视。 1 h 2 6 1 标准 h 2 6 1 是i t u t 针对窄带i s d n 网络上要求实时编解码和低时延的视频编码标准, 其主要应用是在1 3 0 的i s d n 信道上召开视频会议。该标准包含的比特流是p 6 4 k b i t s ,p = l ,2 ,3 0 ,对应的比特率为6 4 , - - , 1 9 2 0 k b i t s 。首次使用了8 8 块的d c t 变换去除空间相关性,以帧问运动补偿预测去除时间相关性的混合编码模式,h 2 6 1 标 准规定了视频输入信号的数据格式、编码输出码流的层次结构以及开放的编码控制与实 现策略等技术。 h 2 6 1 使用了混合编码方法,同时利用图像在空间和时间上的冗余度进行压缩。当 视频输入信号直接进行d c t 变换,然后在量化输出,这种工作模式称为帧内编码模式。 当输入信号与预测信号相减,然后将预测误差信号进行d c t 变换,再对d c t 变换系数 量化输出,这种模式称为帧问编码模式。为了使在帧间编码模式下输出的码字较少,必 须有较好的帧间预测效果,即预测误差较小。因此,需要在帧问编码中加入运动估计和 运动补偿,根据运动矢量( 在编码时做运动估计得到的运动矢量,编码发送到解码端, 从而在接收到的码流中解码得到) ,在参考帧中作运动补偿。由此可见,在h 2 6 1 标准 中的编码器结构中也包含了一个解码器。实际上,帧存中的图像就是前帧编码后重建 2 太原理1 人学i :样硕十研究生孚:位论文 出来,作为当前编码图像的预测参考帧。 2 h 2 6 3 标准 h 2 6 3 是国际电联i t u t 的一个标准草案,是为低码流通信而设计的。但实际上这 个标准可用在很宽的码流范围,而并非只用于低码流应用,它在许多应用中可以认为被 用于取代h 2 6 1 。h 2 6 3 的编码算法与h 2 6 1 一样,但做了一些改善和改变,以提高性 能和纠错能力。h 2 6 3 标准在低码率下能够提供比h 2 6 1 更好的图像效果,两者的区别 有: ( 1 ) h 2 6 3 支持更加丰富的图像格式,即除了支持h 2 6 1 中所支持的q c i f 和c i f 外,还支持s q c i f 、4 c i f 和1 6 c i f ,s q c i f 相当于q c i f 一半的分辨率,而4 c i f 和1 6 c 1 f 分别为c i f 的4 倍和1 6 倍。 ( 2 ) h 2 6 3 的使用半象素精度的运动估计,更高精度的运动矢量使得在p 帧和p b 帧图像中对宏块或块的预测更加准确,因而编码宏块和预测宏块的预测误差更小,编码 所需的码字也更少,在视频码流中节省更多的比特数。 ( 3 ) 在h 2 6 1 建议中只对1 6 x1 6 像素的宏块进行运动估计,一个宏块对应一个运 动矢量。而h 2 6 3 标准中不仅可以用1 6 1 6 像素的宏块为单位进行运动估计,还可以 根据需要对8 x8 像素的子块进行运动估计。 ( 4 ) 在h 2 6 3 中采用更为复杂的二维预测。对运动是矢量进行编码时,不是直接 对矢量的水平分量和垂直分量值进行编码,而是对当前宏块的差分运动矢量即当前宏块 的运动矢量与预测运动矢量的差值编码。 ( 5 ) 基于句法的算术编码模式使用算术编码代替霍夫曼编码,可在信噪比和重建 图像质量相同的情况下降低码率。 ( 6 ) 无限制的运动矢量模式允许运动矢量指向图像以外的区域。当某一运动矢量 所指的参考宏块位于编码图像之外时,就用其边缘的图像象素值来代替。 ( 7 ) p b 一帧模式规定一个p b 一帧包含作为个单元进行编码的两帧图像。p b 帧模 式可在码率增加不多的情况下,使帧率加倍。 3 h 2 6 4 标准 h 2 6 4 是由i s o i e c 与i t u t 组成的联合视频组( j v t ) 制定的新一代视频压缩编码 标准。 h 2 6 4 的主要优点如下:在相同的重建图像质量下,h 2 6 4 比h 2 6 3 + ; dm p e g 4 ( s p , s i m p l ep r o f i l e ) 减小5 0 码率。对信道时延的适应性较强,既可工作于低时延模式以满足 3 太原理i :人学i 群硕 : 听究生学侮论文 实时业务,如会议电视等;又可工作于无时延限制的场合,如视频存储等。提高网络适 应性,采用“网络友好”的结构和语法,加强对误码和丢包的处理,提高解码器的差错 恢复能力。在编解码器中采用复杂度可分级设计,在图像质量和编码处理之间可分级, 以适应不同复杂度的应用。 相对于先期的视频压缩标准,h 2 6 4 引入了很多先进的技术,包括4 4 整数变换、 空域内的帧内预测、1 4 象素精度的运动估计、多参考帧与多种大小块的帧问预测、上 下文自适应二进制算术编码( c a b a c ) 技术等。新技术带来了较高的压缩比,同时大大提 高了算法的复杂度。 二、m p e g 系列压缩标准 m p e g 是活动图像专家组( m o v i n gp i e t u r ec o d i n ge x p e r t sg r o u p ) 的简称。该工作组 所制定的一系列用于运动图片和声音的压缩、存储播放、处理和描述的国际标准,在 工业界获得巨大的成功。其中有用于v c d 存储播放的音视频压缩编码国际标准 m p e g 1 :有应用在数字电视和高清晰度电视广播上的、用于d v d 存储播放的音视频 压缩编码国际标准m p e g 一2 ;有基于音视频对象编码的最新标准m p e g 4 。 1 m p e g 1 标准 由于m p e g 目的是针对消费类多媒体应用,以约为1 2 m b p s 速率产生接近于v h s 的视频质量,而1 5 m b p s 9 】的其他部分则用于数据和音频。它主要用于v c d 的存储播 放,具有良好的交互性能,如快进、快退、随机读取信息。m p e g 1 和h 2 6 1 视频编码 算法的核心是一样的,都采用了混合编码方法。为了使压缩后的码率能降低到1 5 m b p s 以下,m p e g 定义了s i f 图像格式。m p e g 1 定义了三种图像类型:i 、p 、b 图像。i 图像即帧内图像,采用帧内编码,不参考其他图像,但可作为其它类型图像的参考帧。 p 图像即预测图像,采用帧f b j 编码,参考前一副i 或p 图像,用运动补偿。b 图像即双 向预测图像,参考前后两个方向的图像。i 、p 、b 图像之间的显示顺序如图1 1 所示。 双向预测编码可解决“暴露”问题,即某物体在前一帧未显示出来,但其后一帧却先“暴 露”出来,双向预测能更准确地找出运动矢量,并只有在视频存储、v o d 等非实时通 信中及数字广播电视中应用。会议电视、可视电话等实时通信中不宜应用b 图像,因 为实时通信中后一帧处在当前帧之后,当前帧编码时它尚未出现。m p e g 1 的编码结构 类似于h 2 6 1 ,也采用分层结构,但有所不同,m p e g 1 多出片层( s l i c e 层) ,用于防 止误码在一帧内扩散。 太原理l :人! 学i 榉硕q z c , j 究生学位论文 图1 1i 、p 、b 帧的显示顺序 f i g1 1t h ed i s p l a yo r d e ro f pa n dbf r a m e 2 m p e g 2 标准 m p e g 一2 在1 9 9 1 年7 月丌始研究,是针对标准数字电视和高清晰度电视在各种应 用下的压缩方案和系统层的详细规定,1 9 9 2 年被i s o i e c 批准为正式标准,f 式标准 编号是i s o i e c l 3 8 18 1 1 0 1 。m p e g 2 不是m p e g 一1 的简单升级,m p e g 2 在系统和传送 方面作了更加详细的规定和进一步的完善。m p e g 2 能够提供广播级的视像和c d 级的 音质。m p e g 2 的音频编码可提供左右中及两个环绕声道,以及一个加重低音声道和多 达七个伴音声道。m p e g 2 的另一特点是,可提供一个较广范围的可变压缩比,以适应 不同的画面质量、存储容量以及带宽的要求。m p e g 2 特别适用于广播级的数字电视的 编码和传送,被认定为s d t v ( 标清电视) 和h d t v ( 高清电视) 的编码标准。m p e g 2 还专门规定了多路节目的复用分接方式。此外,m p e g 2 还兼顾了与a t m 信元的适配 问题。 m p e g 2 技术就是实现d v d 的标准技术【1 2 】,用于为广播、有线电视网、电缆网络 以及卫星直播提供广播级的数字视频。由于m p e g 2 的出色性能表现,己能适用于 h d t v ( 高清晰度电视) ,使得原打算为h d t v 设计的m p e g 3 ,还没出世就被抛弃了。 3 m p e g _ 4 标准 m p e g 组织于1 9 9 9 年1 月正式公布m p e g 4v 1 0 版本,19 9 9 年1 2 月又公布了 m p e g 4 v 2 0 版本。m p e g 组织的初衷是制定一个针对视频会议、视频电话的超低比特 率( 6 4 k b i t s 以下) 编码的需求,并打算采用第二代压缩编码算法,以支持甚低码率( v e r y l o wb i tr a t e ) 的应用,但是在制定过程中,m p e g 组织深深感到人们对多媒体信息特别 是对视频信息的需求由播放型转向于基于内容的访问、检索和操作,所以修改了计划, 制定了现在的m p e g 4 。 m p e g 4 编码仍按照宏块进行,采用形状编码、预测编码、基于d c t 的纹理编码 的混合编码方法。形状编码有二进制和狄度级形状编码两种。对二进制形状编码采用基 于块的运动补偿和基于内容的算术编码( c a e ) 技术,扶度级形状编码包括两部分:二进 5 太原理l :人! 学i :科颂十研究生! 学何论文 制形状编码和对狄度值进行1 6 x1 6 宏块的纹理编码。预测编码与h 2 6 3 类似,通过运 动估计和运动补偿来实现,但为了适应任意形状的v o p ,m p e g 4 引入了图像填充技术 和多边形匹配技术。图像填充技术主要利用v o p 内的像素值来外推v o p 外像素值,以 获得运动预测的参考值;多边形匹配技术则是将v o p 的边缘宏块的活动部分包含在多 边形之内,以此增强运动估值的有效性。 m p e g - 4 标准在多媒体坏境下提供了一个基于不同对象的视频描述方法,包括自然 或人工合成视觉目标( v i s u a lo b j e c t ) 的压缩、时空可伸缩、差错恢复的算法等一套技术 以满足多媒体、网络服务商和最终用户的要求,从而实现在有线和无线通信网、i n t e r n e t 上传输实时视频数据的功能。m p e g - 4 标准的基于对象的图像处理方法将成为视频压缩 领域的主要发展方向。 4 m p e g 7 和m p e g 一2 1 m p e g 7 标准,称为“多媒体内容描述接口 ( m u l t i m e d i ac o n t e n td e s c r i p t i o n i n t e r f a c e ) ,目的是制定一套描述符标准,用来描述各种类型的多媒体信息及它们之间的 关系,以便更快更有效的检索信息。该标准的第4 版己于2 0 0 0 年1 0 月发布,它通过标 准化一种用来定义描述方案的语言,即描述定义语言( d d l ) ,使带有与之相关的m p e g 一数据的a v 素材,就可以被加上索引,并可进行检索。这些媒体材料可包括静态图像、 图形、3 d 模型、声音、话音、电视以及在多媒体演示中它们之间的组合关系。 在m p e g 7 的基础上,i s o 又于1 9 9 6 年丌始着手m p e g 2 1 标准的制定工作。 m p e g 一2 1 是一个支持通过异构网络和设备使用户透明而广泛地使用多媒体资源的标 准,其目标是建立一个交互的多媒体框架,该框架能够使遍布全球的各种网络和设备上 的数字资源被透明和广泛的使用。 总体来说,m p e g 4 和m p e g 2 1 其应用范围己超出了传统的传输和存储范畴,而 是转向多媒体检索、交互式多媒体操作和内容管理等领域,己经不是一种单纯意义上的 视频编码算法。 三、a 、,s 除了上述国际标准以外,中国也在制定具有自主知识产权的视频编码标准。2 0 0 3 年1 1 月底,中国国家信息产业部数字音视频编解码标准组正式发a v s ( a u d i ov i d e o c o d i n gs t a n d a r d ) 标准草案f 1 3 】。2 0 0 4 年1 2 月底,a v s 标准系统与视频分顺利通过审定, 主要面向高清晰度电视、高密度光存储媒体等应用。 6 太原理i :人。学i 程硕十研究生学何论文 a v s 标准以当i 订国际上最先进的m p e g 一4a v c h 2 6 4 框架为基础,同时充分考虑 了实现的复杂度。相对于h 2 6 4 ,a v s 的主要特点有:( 1 ) 8 8 的整数变换与6 4 级量化; ( 2 ) 亮度和色度帧内预测都是以8 8 块为单位,亮度块采用5 种预测模式,色度块采用 4 种预测模式;( 3 ) 采用1 6 1 6 ,1 6 8 ,8 x1 6 和8 x 84 种块模式进行运动补偿:( 4 ) 在1 4 像素运动估计方面,采用不同的四抽头滤波器进行半像素插值和1 4 像素插值; ( 5 ) p 帧可以利用最多2 帧的前向参考帧,而b 帧采用前后各一个参考帧。 a v s 标准的主要特点是应用目标明确,技术有针对性。因此在高分辨率应用中,其 压缩效率明显比现在在数字电视、光存储媒体中常用的m p e g 2 视频提高一个层次。在 压缩效率相当的前提下,又较m p e g 4 a v c h 2 6 4 的m a i np r o f i l e 的实现复杂度大为降 低。目前的a v s 视频技术可实现标准清晰度( c c i r 6 0 1 或相当清晰度) 、低清晰度( c i f , s i f ) 等不同格式视频的压缩。 1 7 1 4 2 2 1 1 3 视频压缩编码技术 虽然表示图像和视频信号需要大量的数据,但这些数据往往是高度相关的,这些相 关性会引起信息的冗余,因此可以通过去除冗余信息来实现对视频数据的压缩。这些冗 余信息主要包括: ( 1 ) 空间和时间冗余。图像的空间冗余指的是图像中相邻像素之间的相关性,而 视频序列中的图像除了空间相关性外,在时间轴上邻近的图像之间还存在很强的时间相 关性。视频压缩就是在去除图像本身空间相关性的同时,还要去除序列间的时间相关性, 以达到较高的压缩比。 ( 2 ) 信息熵冗余。也称编码冗余,如果图像中平均每个像素使用的比特数大于该 图像的信息熵,则图像中存在冗余,这种冗余称为信息熵冗余。由信息论的有关原理可 知,它为表示图像数据的一个像素点,只要按其信息熵的大小分配相应比特数即可。然 而对于实际图像数据的每个像素,很难得到它的信息嫡,在数字化一副图像时,对于每 个像素是用相同的比特数表示,这样必然存在冗余。 ( 3 ) 心理视觉冗余。视觉冗余度是相对于人眼的视觉特性而言的。如人眼对亮度 信号比对色度信号敏感,对低频信号比对高频信号敏感,对静止图像比对运动图像敏感, 以及对图像水平线条和垂直线条比对斜线敏感等。因此,包含在色度信号、图像高频信 号和图像中的些数据并不能对增加图像相对于人眼的清晰度作出贡献,而被认为是多 7 太原理i :人学i 脞硕十研究生! 学位论文 余的,这就是视觉冗余度。压缩视觉冗余度度核心思想就是去掉那些相对于人眼而言看 不到或者可有可无的图像数据。 f 是由于以上的原因,图像的数据压缩是可能的。图像数据压缩技术是多媒体技术 中十分重要的组成部分。如果不进行数据压缩,则无论传输还是存储都很难实用化。 一、视频信源格式 利用人们的一i i , 理视觉冗余,使用不同的视频信源格式有效的对图像数据进行压缩, 下面就不同的视频信源格式所实现的压缩方式进行简要分析。 众所周知,任何彩色图像可由不同比例的红色、绿色、和蓝色组合而成,即三基色 原理。这种表示彩色图像的方法即r g b 彩色空间。而人类视觉系统( h v s ) 对亮度比彩 色更更敏感,因此可以把亮度信息从彩色信息中分离出来,并使之具有更高的清晰度。 彩色信息的清晰度较低些,可显著压缩其带宽,实现视频压缩的一部分。这样,人的感 觉却没有不同。 如果亮度分量用y 表示,色度用c b 、c r 表示,则由r g b 到y u v 的变换为( 1 2 ) 式【l 】: f y = 0 2 9 9 r + o 5 8 7 g + 0 1 1 4 占 c b = o 5 6 4 ( b y ) ( 1 2 ) 【c r = 0 7 1 3 ( r y ) 而在实际方案中,图像的色度分量常常有比亮度分量更少的采样( 如:高度2 、宽度 2 1 ,这样做的原因是考虑到人的眼睛对色度信号的分辨率比亮度信号低【2 1 。实际上为了 节省视频数字化的数据量,充分利用人眼特性,经常对色度进行二次采样,从而出现了 多种的数字视频表示方式,如:y u v 4 :4 :4 、y u v 4 :2 :2 、y u v 4 :2 :0 等。 l i c l i t l :tir l i l y 像素,g r 和c b 像 ( a ) y u v 4 :2 :0( b ) 1 v 4 :4 :4 图1 2 不同y u v 格式的采样位置 f i g 1 - 2s a m p l i n gp o s i t i o no fd i f f e r e n ty u v f o r m a t y u v 4 :2 :0 格式的采样点位置如图1 - 2 ( a ) 所示,水平和垂直方向色度分量的分辨率 8 太原理i :人 - 7 - f 。科硕十研究生。半付论文 都比y u v 4 :4 :4 格式( 如图1 2 ( b ) 所示) 降低一半,而人的肉眼对这种改变是不敏感的, 以这种方式可以节省1 2 的数据流。 二、变换编码 利用图像的空间冗余性,使用变换编码技术可有有效的对图像数据进行压缩,下面 就变换编码的实现方式进行了简要的分析。 变换编码不是直接对空间图像信号编码,而是首先将空域图像信号映射变换到另一 个正交矢量空问即变换域,将图像像素值转变成一组非相关系数,然后对这些系数进行 量化和编码。可以证明,基于块的变换编码对静止图像和视频帧是一种非常有效的压缩 编码方法。为了充分利用像素之间的空间相关性【3 1 理想的变换尺寸应该是整幅图像或 视频帧大小,但其计算量却是十分惊人的。为了减少计算复杂度,在实际应用上一般都 采用基于一定尺寸块的变换编码,即把整幅图像分成许多不重叠的块,对每个块进行变 换编码。 d c t 变换作为一种信源编码工具在数字图像、数据压缩编码中得到广泛应用。它 可与最佳正交变换k l 变换【4 1 相媲美,其变换压缩性能接近k l 变换,所以被认为 是一种次最佳正交变换。另一方面,d c t 变换矩阵与图像内容无关,对所有图像都采 用固定的变换矩阵,计算复杂度适中,具有可分离特性,具有快速算法等特点。在静止 图像和视频编码的许多国际标准常采用1 6 x1 6 、8 8 、4 4 的d c t 变换编码方法。变 换编码广泛应用于运动图像的帧内压缩,帧问预测误差信号的压缩编码。 三、预测编码 利用图像的时间冗余性和空问冗余性,使用预测编码技术可有有效的对图像数据进 行压缩。帧间预测编码利用图像的时间冗余性对视频序列进行了压缩,帧内预测编码利 用图像的空间冗余性对图像进行了压缩。下面就预测编码的实现方式进行了简要的分 析。 预测编码中不是直接对图像的像素值编码,而是对当前要编码的像素值与相同帧或 先前帧邻近像素的预测值的差值编码。该差值称为预测差值或预测误差。由于邻近像素 之问通常有非常接近的像素值( 灰度值或色度值) ,直接编码每个像素值的数据量较大。 而如果采用预测差值编码,因预测值与要编码的像素值接近,相应的预测误差值很小, 因而需要分配给这些预测误差值的比特数较少,达到压缩的目的。 差值脉冲编码调铝o ( d p c m ) 编码方法是利用样本与样本之问存在的信息冗余度来迸 太原理1 人学i :群硕 = 砂f 究生学位论文 行编码的一种数据压缩技术,其编码和解码过程如图1 3 所示。首先从已编码像素值来 预测当前要被编码像素的预测值,这部分工作由预测器来实现。其次,将当前输入像素 值与预测值相减,得到预测误差值,对预测误差值进行量化之后再使用变长编码器生成 码流,如图卜3 ( a ) 所示。在解码端,从码流变长解码得到的值反量化作为预测差值,然 后与预测值相加得到重建的像素值,如图1 3 ( b ) 所示。 l 禽入信号 二进制码流 ( a ) 编码器 二进制码流 重建信号 ( b ) 解码器 图1 3d p c m 预测编码基本框图 f i g 1 - 3d p c mp r e d i c t i o nc o d i n gp r o c e s sf l o w 运动补偿预测编码的基本思想是把一幅动态图像看成是由静态部分和运动部分叠 加而成。静态部分可以重复使用上一帧的数据,而对运动部分则设法确定其位移量来实 现运动部分的预测,即进行运动补偿之后再进行帧间预测【5 1 。 运动补偿预测编码着眼于减小帧i 日j 的时间冗余度,是提高视频压缩效率目前最有效 的编码方法,在现有的视频编码标准中得到广泛应用。由于运动补偿预测编码的计算复 杂度很大,它成为视频压缩计算复杂度中的关键环节与瓶颈。虽然目前提出了许许多多 的快速运动估计算法,其运算复杂度在视频压缩中的瓶颈地位依旧。 三、熵编码 利用图像数据的信息熵冗余,使用熵编码技术可以有效的对图像数据进行压缩,下 面就熵编码的实现方式进行了简要的分析。 利用信源的统计特性进行码率压缩的编码方式称为熵编码,也叫统计编码。熵编码 是一种无损压缩编码方法,所能达到的比特率下界就是图像的熵值。不同的方法只是去 除冗余数掘的程度不同而己。常用的熵编码有哈弗曼编码、算术编码和游程编码。 哈弗曼编码【6 】的理论依据是变字长v l c 编码理论。在变字长编码中,编码器的编 】0 太原理i :人学l2 榉硕十研

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论