(信息与通信工程专业论文)基于dm642的mpeg4编码器的实现与优化.pdf_第1页
(信息与通信工程专业论文)基于dm642的mpeg4编码器的实现与优化.pdf_第2页
(信息与通信工程专业论文)基于dm642的mpeg4编码器的实现与优化.pdf_第3页
(信息与通信工程专业论文)基于dm642的mpeg4编码器的实现与优化.pdf_第4页
(信息与通信工程专业论文)基于dm642的mpeg4编码器的实现与优化.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(信息与通信工程专业论文)基于dm642的mpeg4编码器的实现与优化.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

型查兰堡! 兰竺堡塞y 璺墨墨1 7 2 摘要 m p e g 一4 作为种视频编码国际标准,在多媒体技术领域获得了广泛的应 用,其实现架构层出不穷。t i 公司推出的新一代高性能数字媒体处理器 t m s 3 2 0 d m 6 4 2 ,是争用于音、视频处理的高性能d s p 芯片,其强大的运算性能 和丰富的片上资源为视频应用系统提供了理想的开发平台。本文将探讨基于 d m 6 4 2 的m p e g 一4 编码器的实现与优化。 本文围绕基于d m 6 4 2 甲台移植优化d i v x 代码实现简单框架m p e g 一4 编码 器展开,重点足根据m p e g 一4 代码的移植和根据d m 6 4 2 的硬件和指令特点对 m p e g 一4 纹理编码部分所采取的优化策略。 首先,介绍了视频压缩的基本原理、视频编码标准的发展情况和视频编码的 实现方法。其中,重点讲述了m p e g 一4 编码标准以及其主要采用的编码技术,并 结合d m 6 4 2 的特点和实际应用要求,选择了m p e g 一4 简单框架作为我们的编码 器方案。 然后讨论了d m 6 4 2 的特点,在给出d m 6 4 2 系统框图的基础卜,论述了 d m 6 4 2 的指令系统、数据通道、存储器系统、和流水线结构等,荠分析了这些 特点对视频编码的影响。 接着本文讲述了m p e g 一4 代码在d m 6 4 2 开发平台上的移植,从代码的调整、 开发环境的设置、存储器的配置等方面说明了基于d m 6 4 27 t :发平台进行代码移 植所需要注意的事项。 最后,提出j - m p e g 一4 纹理编码部分的优化方案。利用1 i 提供的图象库对 d c t i d c t 部分进行优化;并针对d m 6 4 2 的硬件特点,通过c 语言、线性汇编 语言、以及标准汇编语言等儿方而的优化,实现了量化反量化部分的软件流水, 从而提商了编码器的性能。这些优化方法虽然是针对纹理编码提出的,但同时可 以应用到整个丌发平台上。 关键词:m p e g 4 、r i m s 3 2 0 d m 6 4 2 、视频编码、数字媒体处理器 浙江人学硕十学位论文 a b s t r a c t a sap o p u l a ri n t e r n a t i o n a lv i d e oc o d i n gs t a n d a r d ,m p e g 4i sw i d e l yu s e di n m u l t i m e d i at e c h n o l o g yf i e l d ,a n di t sr e a l i z a t i o nf r a m e w o r ke m e r g e sq u i c k l y w i t h t h es t r o n gp r o c e s s i n gp e r f o r m a n c ea n dt h ep l e n t yr e s o u r c e s ,t h en e wg e n e r a t i o nd s p - t m s 3 2 0 d m 6 4 2d i g i t a lm e d i ap r o c e s s o r , p r o m o t e db yt ic o r p o r a t i o n ,t u r n st ob ea n i d e a lp l a t f o r mf o rm u t i m e d i aa p p l i c a t i o n s t h et h e s i sw i l ld i s c u s st h ei m p l e m e n t a t i o n a n do p t i m i z a t i o no f m p e g 一4v i d e oe n c o d e rb a s e do nd m 6 4 2 t h ei m p l e m e n t a t i o no fm p e g 一4v i d e oe n c o d e rb a s e do nd m 6 4 2p l a t f o r mi s p r o p o s e d ,a n dp u t st h ee m p h a s i so nt h eo p t i m i z a t i o nm e t h o d sb a s e do nt h eh a r d w a r e a n di n s t r u c t i o nc h a r a e t e r i s t i c so f d m 6 4 2 f i r s t l y , t h et h e o r yo fv i d e oc o m p r e s s i o n ,t h eh i s t o r yo fv i d e oc o d i n gs t a n d a r d s a n dt h ei m p l e m e n t a t i o nm e t h o d so f v i d e oe n c o d e ra l ei n t r o d u c e d ,e s p e c i a l l ym p e g - 4 v i d e oc o d i n gs t a t a r da n dt h et e c h n o l o g y b a s e do nt h ec h a r a c t e r i s t i co fd m 6 4 2a n d t h ep r a c t i c a l l ya p p l i c a t i o nr e q u i r e m e n t ,w es e l e c tm p e g 一4s i m p l ep r o f i l ea so u r e n c o d e ra r i t h m e t i c s e c o n d l y ,t h ec h a r a c t e r i s t i c so fd m 6 4 2 ,s u c ha st h ei n s t r u c t i o ns e t ,t h ed a t a c h a n n e l s ,t h em e m o r ys y s t e m ,a n dt h ep i p e l i n i n gf r a m e w o r k ,a r ei n t r o d u c e d ,a n dt h e i m p a c t so f t h e s ec h a r a c t e r i s t i c sa r ea n a l y z e d t h i r d l y , t h ep o r t i n gw o r kf o rm p e g 一4c o d ei sd i c u s s e d ,i n c l u d i n go v e r w r i t i n g t h ec o d e ,s e t t i n gu pt h ed e v e l o p i n ge n v i r o n m e n t ,m a n a g i n gt h em e m o r ys y s t e m ,a n d e t c a tl a s t ,t h eo p t i m i z a t i o nm e t h o d sf o rt h em p e g 一4t e x t u r ec o d i n gb a s e do nt h e c h a r a c t e r i s t i c so fd m 6 4 2a r ep r o p o s e d d c t i d c ti so p t i m i z e db yt 1i m a g el i b r a r y ; q u a r t i z a t i o na n dr e s c a l ea r eo p t i m i z e db ys o f t w a r ep i p e l i n i n g ,w h i c hi si m p l e m e n t e d b yc ,l i n e a ra s s e m b l y ,a n ds t a n d a r da s s e m b l y t h e s em e t h o d sc a na l s ob eu s e di nt h e d s p d e v e l o p m e n t k e yw o r d s :m p e g 一4 ;t m s 3 2 0 d m 6 4 2 ;v i d e oc o d i n g ;d i g i t a lm u l t i m e d i ap r o c e s s o r 浙江大学硕j :学位论文 第1 章概述 随着数字技术的迅猛发展,人类社会已经步入了数字时代,各种技术层出不 穷,极大地改变了人类的生活。多媒体技术就是其中一项重要技术,它利用数字 编码来描述和表达图像、声音等各种媒体信息,带给人们极大的方便。 在各种媒体信息中,图像占据着尤其重要的位置。科学实验表明,人类从外 界获取的知识之中有8 0 都是通过视觉感知获取的。然而,数字图像中包含的数 据量十分庞大,例如分辩率3 5 2 2 8 8 ,真彩色( t r u ec o l o r2 4 位1 ,3 0 帧秒的图 像序列,播放1 秒钟的视频画面数据量为3 5 2 2 8 8 3 3 0 = 9 ,1 2 3 ,8 4 0 字节,相 当于存贮四百多万个汉字所占用的空间。庞大的数据量,无疑给存储器的存储容 量、通信干线的信道传输率以及计算机的运算速度都带来了极大的困难,成为多 媒体技术发展的瓶颈。解决这一问题的办法,单纯用扩大存储器容量、提升通信 干线的传输率是不现实的,数据压缩技术才是行之有效的方法。以压缩形式存储 和传输视频数据,既节约了存储空间,又提高了通信干线的传输效率,同时也使 实时处理视频信息成为可能。自1 9 4 8 年p c m 编码理论被提出之后,视频压缩编 码技术日趋成熟,已发展出了预测编码、变换编码、熵编码以及将这些基于统计 的压缩技术联合起来使用的混合编码技术等【l 】,另外还有基于对象、基于语义 等高层压缩编码方法,使高效的视频数据压缩成为了现实。 视频压缩技术具有广泛的应用,如视频监控、远程会议、远程教学、数字视 频刻录机、网络流媒体、i p t v ,以及手持设备等。因此,视频编码器的实现成 为当前热点之一。 本章首先概述了视频压缩编码的原理及采用的技术,然后介绍了视频编码标 准的发展情况和视频编码的实现方法,最后提出了本文的主要工作。 1 1 视频编码技术 1 1 1 视频压缩的基本原理 视频压缩主要依据两方面的原理【2 】:一是视频信号中存在大量冗余度可供 压缩,并且这种冗余度在解压缩后可以无失真地恢复;二是利用人限的视觉特性, 在不被主观视觉觉察的容限内,通过减少表示信号的精度,以一定的客观失真换 取数据压缩。 浙江人学硕士学位论文 视频信号的冗余度存在于结构和统计两方面。结构上的冗余度表现为很强的 空间( 帧内) 和时间( 帧问) 相关性。在一般情况下,视频画面的大部分区域信 号的变化都比较缓慢,尤其是背景部分几乎不变。因此,视频信号在相邻像素间、 相邻行间、相邻帧间都存在这种强相关性,这种相关性可表现为空间冗余和时间 冗余。 视频信号统计上的冗余度来源于被编码信号概率密度分布的不均匀。例如, 在预测编码系统中,需要编码传输的是预测误差信号,它是当前待传像素样值与 它的预测值间的差分信号;预测值是通过在该像素之前已经传出的它的几个邻近 像素值预测得到的;由于视频信号相邻像素间相关性很强,在大部分时间内预测 得都很准,所以预测误差很小,并且,预测误差高度集中在0 附近。这种不均匀 的概率分布对采用变字长编码压缩码率极为有利。 充分利用人眼的视觉特性,挖掘潜力,是实现码率压缩的第二个途径。人眼 对图像的细节分辨率、运动分辨率和对比度分辨率的要求都有一定的界限。视频 信号在空问、时间和幅度方面进行数字化的精细程度只要达到了这个界限即可, 超过是无意义的。因此可以在满足对图像质量一定的要求的前提下,减少表示信 号的精度,实现数据压缩。从视觉心理学和生理学的研究表明,人眼对细节、运 动和对比度三方面的分辨能力是互相制约的。当人眼对视频的某种分辨率要求很 高时,对其他的分辨率就会相应的降低要求。比如,画面中都是静止的物体时, 人眼对静止物体的轮廓和背景最敏感,对静止物体的细节的要求不高;当画面中 有物体运动起来时,人的注意力就会马上转移到运动的物体上,对静止的物体就 不再敏感,其中对运动物体的轮廓最敏感,对运动物体的细节不敏感。利用这种 视觉特点,采用自适应技术,根据图像的每一局部特点来决定对它的抽样频率和 量化的精度,尽量做到与人眼的视觉特性相匹配,可以做到在不损伤图像主观质 量的条件下压缩码率。 针对以上原理,视频编码过程可以分为三部分: ( 1 ) 通过运动补偿、变换编码等方法,去除时问和空间的冗余度。 ( 2 ) 在满足图像质量要求的前提下,通过符合主观视觉特性的量化来实现, 减少表示信号的精度。 ( 3 ) 利用统计编码去除统计冗余度。 浙江大学硕士学位论义 1 1 2 预测编码 预测编码去除了视频序列的时间冗余。当帧率足够高时,相邻帧之间有很大 的相似性。所以,对帧与帧之问的差值进行编码比对帧本身进行编码能获得更高 的效率。对正被编码的帧的估计由当前帧与前帧之间的差值来表征。 视频序列包含了运动目标,运动是帧序列之间的差值的重要部分,如果没有 运动目标,这些视频帧就会很相似。预测编码的基本思想是估计目标的运动,并 把估计的信息用于构建连续帧的预测。把一幅动态图像看成是由静态部分和运动 部分叠加而成,静态部分可以重复使用上一帧的数据,而对运动部分则设法确定 其位移量来帮助运动部分的预测,即参考帧进行运动补偿之后再作为当前帧的预 测。 预测编码分为运动估计和运动补偿两部分。运动估计是指当前帧在参考帧的 窗口中寻找匹配部分,从中找出运动矢量。运动补偿是指根据运动矢量,将参考 帧位移,求得对当前帧的估计,再将这个估计和当前帧相减,求得估计的误差值。 这样,对一帧图像的编码就转变为对运动矢量和估计的误差值的编码,从而达到 了视频压缩的效果。 运动估计和运动补偿多采用固定的宏块大小和单参考帧( b 帧除外) ,比如 m p e g 一1 、m p e g 2 等。而较新的视频压缩标准,比如m p e g 4 和h 2 6 4 则采用 了多参考帧和多种尺寸块的运动估计和补偿 3 1 4 】,以获得更高的编码性能【5 。 参考帧中的宏块运动矢量 图1 - 1 宏块在参考帧搜索窗内寻找匹配 对运动矢量m v 的估值方法有很多种,如块匹配法、象素递归法、相位相关 法等,其中基于块匹配的运动估计算法最为常用。在前一参考帧中,为每个当前 帧的图像块搜索最匹配的块。每个当前帧的图像块分别与前一帧的搜索范围内的 浙江人学硕士学位论文 同样大小的区域进行比较,找到最匹配的区域。该区域就作为当前帧图像块的预 测值,两者之间的差值通常很小。对于某个特定的图像块,有可能在前一帧中找 不到很匹配的区域,即使最匹配的区域,与当前图像块的差值也比原始块本身的 能量大很多。此时,编码器应灵活决定对该图像块采用帧内编码。如图1 1 所示, n n 的块在参考帧中范围为州+ 2 w ) ( n 十2 w ) 的范围内进行搜索,以求得最优匹 配,从而得到运动矢量的估值一“y ,。 1 1 3 变换编码 变换编码用于去除数据样点之间的冗余。数据样值经变换后,生成一组变换 系数。这些变换系数随后被量化和熵编码。经过适当的线性变换后,去除了样值 间的相关性,因此去除了冗余。也可以这样理解,线性变换把图像的能量集中在 少量的变换系数,这些系数比原始图像的采样值更易于编码。 变换编码的基本思想是将在通常的欧几里德几何空间( 空间域) 描写的视频 信号变换到另外的正交向量空间( 变换域) 进行描写。如果所选的正交向量空问 的基向量与视频图像本身的的特征向量很接近,那么同一信号在这种空间描写起 来就会简单很多。变换前后的明显差别是,空间域图像中像素间存在很强的相关 性,能量分布比较均匀:经过正交变换后,变换系数蚓近似是统计独立的,相关 性基本解除,并且能量主要集中在直流和少数低频的变换系数上。这样一个解相 关过程也就是冗余度压缩的过程,从而达到视频压缩的目的。 k a r h u n e n l o e v e ( k l ) 变换是在最小均方误差( m m s e ) 准则下进行图像压 缩的最佳变换。k l 变换采用图像本身的特征向量作为变换基,因此与图像的统 计特性完全匹配,可以完全解除相关。k l 变换后的各系数相关性小,能量集中, 舍弃低值系数所造成的误差最小。 但是,由于变换矩阵与图像类型有关,所以k l 变换没有快速算法,难于 实际应用。视频编码最广泛使用的变换是离散余弦( d c t ) 变换,不论是从客观 的编码效率还是主观上的图像质量来说,d c t 对典型的图像数据都有很好的性 能,而且d c t 变换具有快速算法,易于硬件实现,因此得到广泛的应用。 1 1 4 量化 j 司样大小的区域进行比较,找到鼹匹配的区域。该区域就作为当前帧图像块的预 测值,两者之间的差值通常很小。对于某个特定的罔像块,有可能在前一帧中找 不到很匹配的区域,即使最匹配的区域,与当前图像块的差值也比原始块本身的 能量大很多。此时,编码器应灵活决定对该图像块采用帧内编码。如图1 1 所示, n x n 的块在参考帧中范围为( n + 2 w ) x 州十2 们的范围内进行搜索,以求得最优匹 配,从而得到运动矢量的估值i , u x “,。 1 1 3 变换编码 变换编码用于去除数据样点之间的冗余。数据样值经变换后,生成一组变换 系数。这些变换系数随后被量化和熵编码。经过适当的线性变换后,去除了样值 间的相关性,因此去除了冗余。也町以这样理解,线性变换把图像的能量集中在 少量的变换系数,这螳系数比原始图像的采样值更易于编码。 变换编码的基本思想是将在通常的欧几里德几何空间( 空间域) 描写的视频 信号变换到另外的正交向量空间( 变换域) 进行描写。如果所选的正交向量空间 的基向量与视频图像本身的的特征向量很接近,那么同一信号在这种空间描写起 米就会简单很多。变换前后的明显差别是,空间域图像中像素间存在很强的相关 性,能量分布比较均匀;经过正交变换后,变换系数州近似是统计独立的,相关 性基本解除,并且能量主要集i _ 】在直流和少数低频的变换系数上。这样一个解相 关过程也就是冗余度压缩的过程,从而达到视频压缩的日的。 k a r h t m e n l o e v ef k l 1 变换是在最小均方误筹( m m s e ) 准则下进行图像压 缩的虽佳变换。k l 变换采用图像本身的特征向量作为变换基,囚此与图像的统 计特性完全匹配,可以完全解除相关。k 。l 变换后的各系数相关性小,能量集中, 舍弃低值系数所造成的误差最小。 但是,由于变换矩阵与图像类型有关,所以k l 变换没有快速算法,难于 实际应用。视频编码最广泛使用的变换是离散余弦( d c t ) 变换,不论是从客观 的编码效率还是主观上的图像质量来说,d c t 对照型的图像数据都有很好的性 能,而且d c t 变换具有快速算法,易丁硬件实现,因此得到广泛的麻用。 能,而且d c t 变换具有快速算 去,易十硬件实现,因此得到广泛的应用。 1 1 4 量化 浙江大学硕士学位论文 d c t 系数必须经过量化器量化来进一步压缩变换系数的动态范围。量化过 职叩,= i g ( u , v ) 一 程就是以某个量化步长去除d c t 系数,再将所得的值用四舍五入取整,这样量 化后得到的系数在高频部分多为0 ,如下式: 式中g ( u ,v ) 为d c t 系数,q ( u ,为量化步长,g q ( 群,v ) 称为归一化量化系 数。再解码器端,需要对数据作反量化处理。反量化过程可用下式来表示: g 。( “,v ) = g 。( “,v ) q ( u ,。可以看出,由于在量化的时候进行了四舍五入,所 以反量化得到的结果与原d c t 系数会有误差,这将带来精度上减少。 不同的d c t 变换系数对人类视觉感应的重要性是不同的,因此编码器根据 视觉感应准则,对一个8 8 的d c t 变换块中的6 4 个d c t 变换系数采用不同的 量化精度,以保证尽可能多地包含特定的d c t 空间频率信息,又使量化精度不 超过需要。d c t 变换系数中,低频系数对视觉感应的重要性较高,因此分配的 量化精度较细;高频系数对视觉感应的重要性较低,分配的量化精度较粗,通常 情况下,一个d c t 变换块中的大多数高频系数量化后都会变为零。 量化参数是控制视频压缩量和降低压缩后视频保真度的主要方法。同时,量 化步长的调整在码率控制方面也具有重要作用。在某些视频编码标准中,用码流 输出缓冲器的状态来反馈控制量化补偿式保证恒定码率的重要途径。 1 1 5 熵编码 量化仅生成了d c t 系数的一种有效的离散表示,实际传输前,还须对其进 行比特流编码,产生用于传输的数字比特流。简单的编码方法是采用定长码,即 每个量化值以同样数目的比特表示,但这种方法的效率较低,编码后的数据仍存 在很大的冗余。而采用熵编码呵以提高编码效率。熵编码是基于编码信号的统计 特性,使得平均比特率下降。 用于视频压缩的熵编码方法有霍夫曼( h u f f m a n ) 编码、矢量量化、算术编 码、游程编码、l z w 编码等。其中,h u f f m a n 编码使用较多,它在确定了所有 编码信号的概率后生产一个码表,对经常发生的大概率信号分配较少的比特表 示,对不常发生的小概率信号分配较多的比特表示,使得整个码流的平均长度趋 于最短。可以证明,h u f f m a n 码是使冗余度最小( 平均码长m 最小) 的码。m p e g 4 中使用的v l c 编码是将游程编码、矢量量化和h u f f m a n 编码混合的编码方式。 浙江大学硕士学位论文 但是,由于h u f f m a n 码是分组码,在实际应用时比较复杂。这是因为在对信 源进行h u f f m a n 编码时,信源符号和码字之间不能用某种有规律的数学方法对应 起来,必须形成一个h u f f m a n 码表通过查表的方法进行编、译码。在信源存储与 传输过程中必须首先存储与传输这一码表,这就会影响实际信源的压缩效率。 算术编码则无需计算出所有信源序列的概率分布及编出码表,可直接对输入 的信源符号序列进行编码输出。算术编码的思想是将每个不同的信号序列按照出 现的概率映射n o ,1 ) 区间的相应数字区域之内,该区域表示成可以改变精度的 二进制小数,基中出现概率越低的数据利用精度越高的小数进行表示。但是,算 术编码的实现过程却比较困难,而且编码过程中区问的表示( 小数) 会越来越长, 最终导致无法实现,区间再分时需乘法运算,严重影响运算速度速度。 1 1 6 混合编码 由变换编码和预测编码为主构成的“混合型”编码是目前运动视频的主流编 码类型,为各种视频编码标准所采纳,成为它们的基本框架。 图1 2 所示的h 2 6 1 建议的视频编码框图采用了“混合型”编码方案。用运动 补偿帧间预测取出图像在时间域的冗余度,然后用离散余弦变换( d c t ) 去除空 间域的冗余度,最后再用变字长的统计编码去除经量化后的d c t 系数中所含的 统计冗余度。d c t 系数的量化利用了人眼的视觉特性,量化器的精度还受到输 出缓存器状态的控制。输出缓存器时为了适应恒定码率信道的要求,平滑变字长 编码器的精度调整缓存器的输入码流,保持输出数码率的稳定。 视 图l - 2 混合裂视频编码坂理框翻 出 浙江大学硕上学位论文 1 2 视频编码标准介绍 标准化是产业化活动成功的前提,国际标准化组织( i n t e r n a t i o n a l s t a n d a r d i z a t i o no r g a n i z a t i o n ,i s o ) 、国际电子学委员会( i n t e r n a t i o n a le l e c t r o n i c s c o m m i t t e e ,i e c ) 和国际电信协会( i n t e r n a t i o n a lt e l e c o m m u n i c a t i o n u n i o n ,l t u ) 等国际组织,于上世纪9 0 年代制定了许多重要的多媒体数据压缩标准1 15 1 。其 中,最重要的就是由隶属于i s o 和i e c 的运动图像专家组( m o v i n g p i c t u r e e x p e r t g r o u p ,m p e g ) 制定的m p e g 系列标准,包括m p e g 一1 m p e g 2 m p e g 4 ,以及 由i t u 下属的视频编码专家组( v i d e oc o d i n ge x p e r t sg r o u p ,v c e g ) 推出的h 2 6 x 系列建议。不同的标准采用的技术不同,带来的运算量和编码质量自然也会有所 不同。下面将简要介绍各种视频压缩标准。 1 2 。1h 2 6 x 系列 ( 1 ) h 2 6 l 】9 8 4 年c c i t t 第1 5 研究组成立了个专家组,专门研究电视电话的编码 问题,所用的电话网络为综合业务数据网络i s d n 。经过5 年多的精心研究和努 力,终于在1 9 9 0 年1 2 月完成和批准了c c i t t 推荐书h 2 6 1 【1 6 】。 h 2 6 1 是第一个广泛投入应用的数字视频编码标准,又称为p x 6 4 ,其中p 为 6 4k b s 的取值范围,是1 3 0 的可变参数,p 取值较小时,只能传清晰度不太高 的图像,适合于面对面的电视电话;p 取值较大时( 如p 6 ) ,则可以传输清晰度 较好的会议电视图像。 h 2 6 l 采用了与电视制式无关的图像格式,无论哪种制式的视频信号进入编 解码器之后,都要转换成c i f ( c o m m o ni n t e r m e d i a t ef o r m a t ,3 5 2 2 8 8 ) 或q c i f ( o u a r t e r - c i f , 1 7 6 1 4 4 ) 这两种图像格式进行处理,每帧图像分成图像层、宏块 组( g o b ) 层、宏块( m b ) 层、块( b l o c k ) 层来处理。 h 2 6 1 奠定了混合编码框架的雏形,其视频压缩算法的核心是运动估值预测 和d c t 编码,许多技术( 包括视频数据格式、运动估算和补偿、d c t 变换、量化 和熵编码1 都被后来的m p e g 1 和m p e g 一2 质借鉴和采用。它属于恒定码流可变 质量编码。 ( 2 ) h 2 6 3 h 2 6 3 是h 2 6 l 的后续标准【1 7 】,是最早应用于低码率视频编码的i t u t 标 浙江大学硕士学位论文 准,随后又相继出现了h 2 6 3 + 及h 2 6 3 + + 等标准,在其基础上增加了许多选项, 使其具有更广泛的适用性。 h 2 6 3 的编码算法与h 2 6 1 一样,但是做了一些改善,以提高性能和纠错能 力。h 2 6 3 与h 2 6 1 相比采用了半像素的运动补偿,并增加了4 种有效的压缩编 码模式。无限制的运动矢量模式允许运动矢量指向图像以外的区域。基于句法的 算术编码模式使用算术编码代替霍夫曼编码,可以在信噪比和重建图像质量相同 的情况下降低码率。先进的预测模式允许一个宏块中4 个8 8 亮度块各对应一 个运动矢量,从而提高了预测精度;两个色度块的运动矢量则取这4 个亮度块运 动矢量的平均值。补偿时,使用重叠的块进行运动补偿,8 8 亮度块的每个像 素的补偿值由3 个预测值加权平均得到。p b 帧模式规定了一个p b 一帧包含作为 一个单元进行编码的两帧图像。p b 一帧模式可以在码率增加不多的情况下,使帧 率加倍。 ( 3 ) h 2 6 4 1 9 9 9 年i t u t 以h 2 6 3 为基础,开始研究新一代的低码率视频压缩标准 h 2 6 l 。为了响应i s o i e cm p e g 对先进视频编码技术的需求,i s o i e cm p e g 与i t u t 在2 0 0 1 年成立联合视频工作组( j o i n tv i d e ot e a m ,j v t ) ,在h ,2 6 l 的 基础上开发新的标准,即j v t 标准。在i s o i e c 中,该标准的正式名称为m p e g - 4 a v c ( a d v a n c e d v i d e o c o d i n g ) 标准,作为m p e g 4 标准的第十部分:在i t u - t 中 的正式名称为h 2 6 4 标准。2 0 0 3 年3 月,j v t 形成最后的标准草案 1 8 】。 h 2 6 4 标准的开发定位于覆盖整个视频应用领域,包括低码率的无线应用、 标准清晰度和高清晰度的电视广播应用、i n t e r n e tt 的视频流应用、传输高清晰 度的d v d 视频以及应用于数码相机的高质量视频应用等等。 与h 2 6 3 相比,h 2 6 4 加入了许多新的研究成果,在系统结构、编码方法、 变换、运动估计和运动补偿等方面都提出了不少新的概念,例如可选的1 4 ( 1 8 ) 像素的运动估计、多模式的运动矢量估计、可交换帧、整数变换、多帧参考等, 从而使得h 2 6 4 具有很高的编码效率,编码性能也有显著提高【1 9 】。在相同的重 建图像质量下,能够比h 2 6 3 节约5 0 h i 右的码率。h ,2 6 4 的码流结构网络适应 性强,增加了差错恢复能力,能够很好地适应1 p 和无线网络的应用。但从总体 卜说,h 2 6 4 性能的改进是以增加复杂性为代价而获得的,其编码的计算复杂度 大约相当于h 2 6 3 的3 倍,解码复杂度大约相当于h 2 6 3 的2 倍,这也限制了 h 2 6 4 在业界的发展。 浙江大学硕七学位论文 1 2 2 m p e g 系列 m p e g 是运动图像专家8 j ( m o v i n gp i c t u r ee x p e r tg r o u p ) 的英文缩写。专家组 最初的任务有三个:实现1 5 m b s 、1 0 m b s 、4 0 m b s 的压缩编码标准,即m p e g 1 、 m p e g - 2 、m p e g 3 。但因为m p e g 一2 的功能已使m p e g 一3 为多余,所以m p e g 一3 子1 9 9 2 月撤消。m p e g 4 项目是1 9 9 1 年5 月建议并于1 9 9 3 年7 月确认,目标 是甚低数码率的音频压缩编码( 码率低于2 8 8 k b s ) 。下面分别简要介绍各个标准。 ( 1 ) m p e g l 随着数字音频和数字视频技术的广泛应用,m p e g 在1 9 9 1 年1 1 月提出了 i s o1 1 1 7 2 标准的建议草案,通称m p e g 1 标准。该标准于1 9 9 2 年1 1 月通过, 1 9 9 3 年8 月公布。m p e g 1 标准适用于数码率在1 5 m b p s 左右的应用环境,也 就是为c d r o m 光盘的视频存储和放像所制定的。 m p e g 1 标准采用了一系列技术以获得高压缩比:对色差信号亚采样,减少 数据量;运动补偿技术减少帧间冗余度;= 维d c t 变换去除空间相关性;对d c t 分量进行量化,舍去不重要信息,将量化后d c t 分量按照频率重新排序;将d c t 分量进行变字长编码:对数据块的直流分量( d c ) 进行预测差分编码。此外, m p e g 1 还引入了帧内帧( i ) 、预测帧( p ) 、双向预测帧( b ) 和直流帧( d ) 等概念,进 一步提高了编码效率。 m p e g l 标准可以处理各种类型的活动图像,具有随机存取、快速正向逆向 搜索、逆向重播、视昕同步、容错性、编码,解码延迟等功能。其基本算法对于 压缩3 6 0 2 8 8 的空间分辨力,每秒2 4 至3 0 幅画商的运动图像有很好的效果。 但如果图像对象动作激烈时,图像有可能产生马赛克现象。 ( 2 ) m p e g 一2 m p e g 2 是i ; _ fm p e g 开发的第二个标准,它的制定始于1 9 9 0 年7 月,并于 1 9 9 3 年1 1 月l f 式确定为国际标准。它是在m p e g 1 基础上的迸一步扩展和改进, 克服并解决了m p e g 1 不能满足f _ = 益增长的多媒体技术、数字电视技术对分辨率 和传输率等方面的技术要求的缺陷。m p e g 一2 主要是针对数字视频广播、高清晰 度电视和数字视盘等的需要,适用于1 5 - 6 0 m b p s 甚至更高的编码范围。 m p e g 2 核心部分与m p e g 一1 基本相同,可以支持固定比特率传送、可变比 特率传送、随机访问、信道跨越、分级编码、比特流编辑等功能。从本质上讲, m p e g 2 可视为一组m p e g 一1 的最高级编码标准,它保留了m p e g l 所提供的所 有功能,并设计成与m p e g 1 兼容,但又增加了基于帧场的运动补偿、空间可 浙江大学硕士学位论文 伸缩编码、时间可伸缩编码、质量可伸缩编码以及容错编码等新的编码技术。 根据广播电视的不同需求,m p e g 2 提出了框架,等级( p r o f i l e l e v e l ) 的概念。 m p e g - 2 定义了5 个框架和4 个级别,框架是标准中定义的语法子集,级别是一 个特定框架中参数取值的集合。框架和级别限定以后,编、解码器的设计和校验, 就可以针对限定的框架在限定的级别中进行,同时也为不同的应用领域之间的数 据交换提供了方便和可行性,其中的主框架应用最广,也是最为重要的个。 ( 3 ) m p e g 一4 m p e g - 4 的初始名称是“甚低比特率音频视频编码”,后定义为“音视频目标 编码”。码率限制的消失意味着更宽广的适用码率范围,而把“视音频编码”转变 为对“视音频对象”的编码则是工作目标质的飞跃。 和传统视频编码标准不同的是,m p e o 一4 引入了视频对象v o ( v i d e oo b j e c o 的概念,支持基于内容交互功能和分级扩展( 空域分级、时域分级) 。一个视频 对象可以是视频场景中任意形状的一块区域,它的存在时间可以任意长。视频对 象面v o p ( v i d e oo b j e c tp l a n e ) 是在某一具体时刻的视频对象。这样就将图像序列 中每一帧的场景,看成由不同视频对象平面v o p 所组成,同一对象连续的v o p 成为视频对象v o 。视频对象可以是视频序列中的任务或者具体的景物,如电视 新闻中的播音员,一部奔驰的汽车,或者计算机图形学技术产生的二维或三维图 形。输入视频序列通过分析可将其分割为多个视频对象,对同一v o 编码后形成 v o p 数据流。图1 3 和图1 - 4 分别显示的是矩形图像帧v o p 和任意形状的v o p 。 j 焉= 一 再而+ 图l - 3 矩形v o p 和v o图l _ 4 任意形状的v o p 和v o v o p 的编码包括对运动( 采用运动估计补偿) 及纹理( 采用变换方法) 的 编码,其基本原理和传统的视频编码标准类似。由于v o p 可具有任意形状,所 以要求编码方案可处理形状( s h a p e ) 和透明( t r a n s p a r e n c y ) 信息,这和只能处 理矩形帧序列的传统视频编码标准形成了鲜明的对比。在m p e g - 4 中,矩形帧被 认为是v o p 的一种特例,这是编码系统不用处理形状信息,退化成了类似于 1 0 塑垩查堂堡! 二堂堡笙苎 m p e g - 2 的视频编码系统,同时也实现了与现有标准的兼容。 图1 5 显示了m p e g 一4 验证模型( v m :v e r i f i c a t i o nm o d e l ) 中的基于任意 形状v o p 的编码器框图。该编码器主要由三部分组成:形状编码、纹理编码和 运动编码。 v 唾fm b l t l 血日p r ) l形状信息 广掣i _ 一_ 曲幸卜一呦 瑚n r j _ 运动信息。 m u x b 卦可纛叶古 + i i 2 ;前面的重建好| _ _ + 、 一纹理解码f 图1 - 5m p e g - 4v m 中的基于v o p 编码器结构框图 纹理编码、运动预测和补偿部分在原理上和传统标准是一致的,但是形状编 码在图像编码中是第一次引入。为了支持基于内容的功能,编码器可对图像序列 中具有任意形状的v o p 进行编码。尽管如此,编码器的内在机制都是基于1 6 1 6 宏块来设计的,这不仅是处于与传统标准在兼容上的考虑,而且也是为了便 于对编码器进行更好的扩展。v o p 被限定在。个被称为v o p 窗口( v o p w i n d o w ) 的边界矩形窗中,窗口的长、宽均为1 6 的倍数,同时保证v o p 窗口中非v o p 的宏块数目最少。标准的矩形帧可认为是v o p 的特例,在编码过程中其形状编 码模块可被忽略。系统依据不同的应用场合,对各种形状的v o p 输入序列采用 固定的和可变的帧频。编码算法仍是基于8 8 像块的预测一交换混和编码模型。 对v o p 的编码采用帧内( i n t r a ) 和帧间( i n t e r ) 预测编码模式相结合的方法, 帧内编码中对d c t 变换的d c 、a c 系数进行有效的预测。帧间预测分为前向预 测和双向预测。对于甚低码率( 6 4 k b l :s ) 下的应用,由于方块效应比较明显, 所以需用去除方块滤波器进行相应的处理。 尽管基于对象的编码方法具有很大的灵活性,但在实际中m p e g 一4 视频标准 应用最多的是对完整的矩形视频帧的编码。编码矩形v o p 所用到的工具都集合 在三类框架( p r o f i l e ) 中,这三类框架为:简单框架s p ( s i m p l e p r o f i l e ) 、高级简单 浙江大学硕士学位论文 框架a s p ( a d v a n c e ds i m p l ep r o f i l e ) 、高级实时简单框架a r t s p ( a d v a n c e d r e a l - t i m es i m p l ep r o f i l e ) 。如图1 6 所示。 图1 - 6 矩形帧编码的工具和对象 这些编码工具类似于传统的视频编码标准,都是基于d c t 变换的宏块运动 补偿预测编码。简单框架s p 是基于d p c m d c t 编码模型构建的,同时提供了 增强编码效率和传输效率的编码工具;高级简单框架a s p 提供了进一步增强编 码效率的工具和对交织帧编码的支持;高级实时简单框架a r t s p 提供了对实时 视频流的支持,以适用于网络流媒体应用所需的高压缩效率和较强的传输错误鲁 棒性。 本文的工作主要应用于视频监控系统,对阔象的质量和压缩率的要求并不 高,而且尽管d m 6 4 2 功能强大,但作为嵌入式系统,也不可避免的存在资源有 限、运算能力不足等问题,因此,我们选用简雄框架作为实现目标,不但有利于 系统的实现,而且今后也可以方便的进行扩展。 ( 4 ) m p e g - 7 和m p e g 一2 1 m p e g 7 制定的主要目的是为了解决多媒体内容的检索问题【1 8 】。通过这个 标准,m p e g 希望对以各种形式存储的多媒体结构有一个合理的描述,使用户可 以方便地根据内容访问多媒体信息。在m p e g 7 体系下,用户可以更加自由地访 问媒体。比如,用户可以在众多的新闻节目中寻找自己关心的新闻,可以跳过小 浙江大学硕l 学位论文 想看的内容而直接按自己的意愿收看精彩的射门集锦;在互联网上,用户键入若 干关键词就可以在网上找到自己需要的克林顿的演讲、贝多芬的交响乐等;甚至 用户只需出示一张克林顿的照片或哼一首音乐的旋律,都可以找到自己所需要的 多媒体材料。所有这些,都取决于m p e g 一7 中对各种多媒体内容的描述。与此同 时,m p e g - 2 1 标准也于2 0 0 0 年6 月开始启动。m p e g 一2 1 的正式名称叫“多媒体 框架”,其具体内容正在制订过程中。总之,随着m p e g 组织的不断努力,多媒 体信息技术的日趋成熟,广大用户会日益感受到新技术和新标准给大家带来的种 种方便和实惠。 1 2 3 其它标准 ( 1 ) a v s a v s 是中国自主制定的音视频编码技术标准 2 0 1 。a v s 工作组成立于2 0 0 2 年6 月,2 0 0 3 年1 2 月1 9 日a v s 视频部分定稿,当前,a v s 视频主要面向高 清晰度电视、高密度光存储媒体等应用中的视频压缩。 a v s 视频工作组设立之初,就确定以当前国际上最先进的h ,2 6 4 a v c 框架 为起点,在关键技术上强调自主知识产权,同时充分考虑实现复杂度。a v s 视频 当中具有特征性的核心技术包括:8 8 整数变换、量化、帧内预测、1 4 精度像 素插值、特殊的帧间预测运动补偿、二维熵编码、去块效应环内滤波等。在这些 方面a v s 采用了一些快速简洁、易于实现的算法,在保证质量的前提下有效地 提高了可实用性。 a v s 视频的主要特点是应用目标明确,技术有针对性。因此在高分辨率应用 中,其压缩效率明显比现在在数字电视、光存储媒体中常用的m p e g 一2 视频提高 一个层次。在压缩效率相

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论