(通信与信息系统专业论文)基于bindclbt的mpeg4系统.pdf_第1页
(通信与信息系统专业论文)基于bindclbt的mpeg4系统.pdf_第2页
(通信与信息系统专业论文)基于bindclbt的mpeg4系统.pdf_第3页
(通信与信息系统专业论文)基于bindclbt的mpeg4系统.pdf_第4页
(通信与信息系统专业论文)基于bindclbt的mpeg4系统.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(通信与信息系统专业论文)基于bindclbt的mpeg4系统.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要1 9 9 9 年初正式公布的m p e g 一4 视频压缩标准采用了基于对象的编码方式,以其对视频的高质量压缩而在目前的视频压缩领域得到了广泛的应用。但是在低比特率下,采用d c t 编码技术的m p e g 4 视频的重建图像帧会不可避免地出现各种缺陷,其中有两种典型的人工效应:块效应和振铃效应,这会大大降低视频的视觉质量。因此,如何降低、减少低码率下m p e g 4 视频中的块效应和振铃效应,提高视频的视觉质量已成为现在研究的一个热点问题。本文首先分析了图像以及m p e g 4 视频压缩中出现人工效应的原因,然后在对d c t 变换、正交重叠变换等研究的基础上,将d c t 和l b t 相结合并用整数方式实现变换编码( b i n d c l b t ) ,且将它应用于m p e g 一4 的视频数据压缩,同时在解码端附加后处理技术,来提高低码率下视频的质量。试验结果证明,b i n d c l b t 变换编码是一种可行的图像压缩编码方法,使用该变换编码以及后处理技术的m p e g 4 系统能够有效地去除低码率下视频中的块效应和振铃效应,在提高低码率下视频质量方面要优于现有的基于d c t 变换的m p e g 4 系统。关键词:m p e g 一4 、d c t 、l o t 、l b t 、d c l b t 、b i n d c l b t 、块效应、振铃效应、后处理a b s t r a c tt h ev i d e oc o m p r e s s i o ns t a n d a r dm p e g 一4w a sf o r m a l l yi s s u e da tt h eb e g i n n i n go f19 9 9 i ta p p l i e so b j e c t b a s e dc o d i n ga p p r o a c h d u et oi t sh i g h q u a l i t yv i d e oc o m p r e s s i o n ,i th a sb e e nb r o a d l ya d o p t e di nt h ef i e l do f v i d e oc o m p r e s s i o n b u ta tl o wb i tr a t e ,t h e r ew o u l db em a n yi n e v i t a b l ed e f e c t si nt h er e c o n s t r u c t e di m a g ef r a m e so fd c t - b a s e dm p e g 一4 t w ok i n d so fa r t i f a c t sa r et y p i c a l :b l o c k i n ga r t i f a c t sa n dr i n g i n ga r t i f a c t sw h i c hw o u l dd e g r a d et h ev i s u a lq u a l i t yo ft h ev i d e og r e a t l y s o ,h o wt or e d u c et h eb l o c k i n ga r t i f a c t sa n dt i n g i n ga r t i f a c t si nm p e g 一4v i d e ot oi m p r o v et h ev i s u a lq u a l i t yh a sb e e nah o ti s s u ei nr e c e n tr e s e a r c h a tf i r s t ,t h i sp a p e ra n a l y s e st h er e a s o no fa r t i f a c t si nc o m p r e s s e di m a g ea n dm p e g 4v i d e o b a s e do nt h es t u d i e so fd c tm a dl o t h e ya r ec o m b i n e d ( d c l b t )a n dt h ei m p l e m e n t a t i o no fi t ( b i n d c l b t ) i su s e di nm p e g 一4v i d e oc o m p r e s s i o n i nt h ed e c o d e r , t h ep o s t - p r o c e s s i n g ( f i l t e r i n g ) i sa d d e dt oi n c r e a s et h ev i d e oq u a l i t ya t1 0 wb i tr a t e e x p e r i m e n tr e s u l t ss h o wt h a tb i n d c l b ti saf e a s i b l ei m a g ec o m p r e s s i o nc o d i n ga p p r o a c h ,a n dt h em p e g 一4s y s t e mt h a th a su s e dt h i st r a n s f o r mc o d i n ga n dp o s t p r o c e s s i n gt e c h n o l o g yc a ns i g n i f i c a n t l yr e m o v et h eb l o c k i n ga r t i f a c t sa n dt i n g i n ga r t i f a c t si nt h ec o m p r e s s e dv i d e oa tl o wb i tr a t ea n di to u t p e r f o r m st h ed c t b a s e dm p e g 一4s y s t e mi nv i d e oq u a l i t ya tl o wb i tr a t e k e y w o r d s :m p e g 一4 、d c t 、l o t 、l b t 、d c l b t 、b i n d c l b t 、b l o c k i n ga r t i f a c t s 、r i n g i n ga r t i f a c t s 、f i l t e r i n g原创性声明本人声明:所呈交的论文是本人在导师指导下进行的研究工作。除了文中特另t ! d l :l 以标注和致谢的地方外,论文中不包含其他人已发表或撰写过的研究成果。参与同一工作的其他同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名本论文使用授权说明日期本人完全了解上海大学有关保留、使用学位论文的规定,即:学校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容。( 保密的论文在解密后应遵守此规定)签名:导师签名:纽窒姑期:上海人学硕:e 学位论文基于b i n d c l b t 的m p e g 一4 系统课题研究的意义月i j吾随着计算机和网络的迅速普及以及人们对各种视频信息的迫切需求,越来越多的视频业务将通过网络进行传输。视频通信和多媒体通信将逐步成为数字通信网络的主要业务,例如:实时监控、远程医疗、远程教育、会议电视、可视电话、高清晰度电视( h d t v ) 、视频点播( v o d ) 等等。进行视频信息传输所面临的主要问题是:原始视频信号的大数据量将给存储器的存储容量、通信信道的传输率f 带宽) 以及计算机的处理速度增加极大的压力。由于网络带宽以及各用户计算机性能上的差异,使单纯的增加信道带宽和提高计算机性能的方案变得不切实际。采用先进的视频压缩技术将视频信息的数据量压缩,可以节省存储空间,并且可提高通信的传输效率,从而可以满足网络通信中不同的用户需求,使高质量的视频通信成为可能。因此,高质量视频图像的有效压缩成为目前研究的热点。近1 0 年来,国际标准化组织( i s 0 ) 和国际电信联n ( i t u t ) 制定了一系列_ ;i 于运动图像压缩的标准,如m p e g l 、m p e g 2 、m p e g 一4 、h 2 6 1 、h 2 6 3 和h 2 6 l等,这些标准都可以对视频数据进行高效的压缩,其中m p e g 。4 技术由于其突出的优点而得到了广泛的应用。在以人眼为晟终衡量标准的视频应用中,任何对视频信号的处理都必须以保证一定的图像主观质量为前提。m p e g _ 4 标准使用d c t 变换编码对视频进行编解码,这种方法在比特率较低时,会出现块效应和振铃效应等人工效应,这会大大降低视频的主观质量。因此,如何降低、减少低码率下m p e g 一4 视频中的块效应和振铃效应,提高视频的视觉质量已成为现在研究的一个热点问题。课题的研究内容在现有的各种图像、视频编码包括m p e g 4 编解码系统中,图像视频数掘压缩大都采用d c t 编码技术,d c t 编码可以高效地压缩数据,并保持较高的图r 海人学n i j :学位论文基于b i n d c l b t 的m p e g 4 系统像质量。但是在低码率也就是图像压缩比较高的情况下,图像会出现一些缺陷,包括块效应,也就是马赛克现象,还有振铃效应,也就是吉不斯现象( g i b b sp h e n o m e n o n ) ,这会大大降低图像的视觉质量。有两种策略被用来消除这些缺陷,一种是在编码端进行处理,称之为前处理,另外一种是在解码端采用后处理技术。在编码端可以采用新的变换编码方法对图像数据进行压缩编码,降低甚至消除这些缺陷,也可以通过预滤波去除原始图像中人眼不敏感的细节或进行降嗓处理,使原图像的信息量得以减小,从而可以提高解码端重建图像的视觉质量。而在解码端使用后处理可以在不改变压缩算法的基础上在解码端直接去除压缩带来的缺陷,提高图像的主客观质量。本课题的主要研究内容就是对视频数据采用变换编码方法( b i n d c l b t ) 进行前处理,同时结合现有的一些后处理方法,来提高低码率下视频的主客观质量,并给出测试结果进行验证。课题的仿真工具本文中的所有仿真实验采用的编程工具是m i c r o s o f t v i s u a ls t u d i o n e t 2 0 0 3和m a t l a b6 5 软件。1 ) v i s u a ls t u d i o ,n e t2 0 0 3 是一个方便的、快捷的w i n d o w s 应用程序开发工具,它使用m i c r o s o f tw i n d o w s 图形用户界面的许多先进特性和设计思想,采用了弹性的可重用的面向对象的c + + 、c # 等编程语言,为开发人员提供了丰富易用的编辑器、工具、测试容器、类库和调试技术。它可以方便地处理图像、视频,为本文的仿真实验提供了极大的帮助。2 ) m a t l a b6 5 是美国m a t h w o r k s 公司推出的数学软件,有着优秀的数学计算能力和卓越的数据可视化能力。它在矩阵运算和数值计算方面具有强大的功能,非常直观、简洁,且效率高、交互性好。而且,它几乎覆盖了所有的工程计算领域,例如数字信号处理、数字图像处理、小波分析、神经网络等,很方便地解决了图像处理中的一些复杂的问题。论文的结构编排本文的结构如下:第一章是对m p e g 4 系统的概述,主要讲述了视频流的编海大学硕士学位论文基十b i n d c l b t 的m p e g 4 系统解码算法。第二章分析了m p e g 一4 中采用的变换编码算法,包括d c t 编码技术的依据、原理和快速算法等。第三章首先分析了d c t 变换带来的图像缺陷,然后通过对几种能够消除人工效应的基于重叠变换的编码方法的分析,提出了优化的b i n d c l b t 变换编码方法,并给出了对静态图像进行压缩编码的测试结果。第四章在前面对静态图像压缩实验的基础上,提出了基于b i n d c l b t 变换以及结合了后处理技术的m p e g 一4 系统,并给出了实验的仿真结果。第五章是对本文的总结和展望。卜海大学硕士学位论文基于b i n d c l b t 的m p e g 一4 系统第1 章m p e g 4 视频编解码技术1 1m p e g 一4 概述数字视频传送的基本问题是必须在系统中储存和传输大量数据。因此,如何在保证活动图像质量的前提下,实现高质量图像数据传输问题( 即压缩传输码率)就成为业界人士关注的焦点,因而数字视频压缩标准也就成为关键问题。近年来,研究机构和国际标准化组织开发出许多标准用于活动图像压缩。1 9 9 2 年活动图像专家组( m p e g ) 完成了国际标准组织0 s o ) * n 国际电工委员会( m c ) 的m p e g 1 视频编码标准并于1 9 9 5 年公布了m p e g 2 标准。这些标准的出台使数字电视实现互动交流成为可能,其技术基础是将图像分割成为8 x 8 的矩形块,通过离散余弦变换( d c t ) 对“块”的内容编码,在连续帧中估计它们的运动变化,然后只传送连续帧的差异部分,即在局部范围内利用时间与空间的相关性,实现高度的图像压缩。然而,这些标准对整个图像采用同一种技术,未区分背景或图像的其它不重要部分,即使对静止图像也是一样。也就是说,在以往的m p e g标准中,通常为达到恒定码率,多数编码器采用了t m 5 或其类似的码率控制策略,导致不能充分利用传输通道的缺憾。随着研究工作的深入发展,i s o 又公布了“超低比特率活动图像和语音压缩标准”,按序号命名为m p e g 一4 ,1 9 9 8 年1 0 月公布了第一版,1 9 9 9 年4 月又公御了第二版及其校验模型f v m ) ,m p e g 一4 的正式标准编号是i s o i e c 一1 4 4 9 6 t 1 2 【3 o 它是一种新型的多媒体标准,它与以前标准的一个重要区别就在于它是一个基于对象的视频编码压缩标准,适用于复杂景物可交互运行的通信,包括音频、视频、合成声音和图形材料。为了支持高效压缩、基于内容交互( 操作、编辑、访问等) 以及基于内容分级扩展( 空域分级、时域分级) ,必然要求m p e g 4 要以基于内容的方式表示数据。因此m p e g 4 中引入了a v 对象( a u d i o v i s u a lo b j e c t ) 的概念来实现基于内容的表示。在m p e g 。4 中的视频音频已不再是过去m p e g 一1 、m p e g 一2 中图像帧或者帧频的概念,而是一个个视听场景( a v 场景) ,这些不同的a v 场景由不同的a v 刘象组成。a v 对象是听觉、视觉或者视听内容的表示单元,其中最基本的单4f :诲犬学硕十学位论文基于b i n d c l b t 的m p e g 4 系统元是原始a v 对象。a v 对象可以是自然的或合成的声音、图像,原始a v 对象又可以进一步组成复合a v 对象。整个m p e g 一4 就是围绕如何高效编码a v 对象、如何有效组织、传输a v 对象而编制的,因此,a v 对象的编码是m p e g 4 的核心编码技术。a v 对象的提出,使多媒体通信具有高度的交互能力和很高的编码效率l 。总之,m p e g 一4 标准的提出,特别是其“基于内容”的思想,将极大地推动多媒体交互业务的发展,为更多更新的交互业务开拓了广阔的空间。1 2m p e g 4 视频流编码1 2 1 结构及句法传统压缩方法是基于帧的,显然无法对对象操作。由于传输带宽的限制,必须对压缩比特流进行控制,但这就会直接影响图像的质量。过去在比特率低时,整帧图像的质量都受到影响,没有灵活性可言。m p e g 一4 标准的视频编码是基于对象的,这样便于操作和控制对象。在比特率控制中可以利用码率分配方法,对用户感兴趣的对象多分配一些比特率,而对用户不感兴趣的对象少分配一些比特率,这样图像主观质量就可以得到保证。一个视频对象可以包含有一层或者多层来实现可分级编码。可分级句法可以实现以层形式表示的视频的重构,视频从基本层开始,再加上一定数量的增强层,这样可以根据带宽或运算能力的不同来有选择地产生m p e g 4 视频流。一个m p e g 4 视频场景包含有一个或者多个视频对象。每一个视频对象都用时域和空域信息来表明特征,这些信息以物体形状、运动和纹理的形式来表达。m p e g 一4 提供了视频场景的分级描述,其数据逻辑结构如图1 一l 所示。视频对象序y 0 ( v s :v i s u a l o b j e c ts e q u e n c e )一个完整的m p e g 一4 场景可以包含任意二维( 2 d ) 或三维( 3 d ) 的自然或合成对象以及对应的增强层。视频对象( v o :v i d e oo b j e c t )一个视频对象对应于m p e g 一4 场景中的一个特定的二维的物体。最简单的情况下就是矩形框,或者它也表示为对应于场景中的背景或某个任意形状的对象。r 海大学颤 学 童论文基于b i n d c l b t 的m p e g 4 系统图1 - 1m p e g - 4 视频数据流的逻辑结构视频对象层( v o l :v i d e oo b j e c tl a y e 0根据应用的需要,每个视频对象可以用可分层( 多层) 编码,也可用无分层( 单层) 编码。这种编码形式可以用视频对象层来实现,而视频对象层支持了可分级编码。一个视频对象可以利用时域和空域的可缩放性,根据参数比如可用带宽、运算能力和用户喜好等实现从粗糙分辨率到精细分辨率的编码。视频对象平面w o e )视频对象平面是视频对象的时间采样。视频对象可以逐个单独编码或者通过运动补偿进行混合编码。视频对象平面可以有几种不同的用法,但在大多数情况下,视频对象平面包含了一个视频对象的时问采样的编码数据。在这种情况下,它包含了运动参数、形状信息和纹理数据,这部分都是以宏块来编码的。一个宏块包含有亮度成分和空问子采样的色度成分。在m p e g 4 标准中,宏块仅支持一种色度格式,即4 :2 :0格式。这种格式中,每个宏块包含有4 个亮度块和两个色度块。每块又包含8 x 8个像素,它们通过离散余弦变换( d c t ) 进行编码。宏块载有物体形状和纹理信息。m p e g 一4 视频流基本编码框图如图1 2 所示,其结构主要包括:形状编码、运动补偿编码和纹理编码。其中运用的主要技术是运动估计补偿、d c t 变换( 采上海大学硕上学位论文基于b i n d c l b t 的m p e g 4 系统用标准的8 8 d c t 或自适应d c t ) 以及变长编码等。视频信息1 2 2 形状编码图1 2m p e g 4 视频编码方框图视频流在m p e g 一4 标准中,形状的表示形式主要有二进制形状信息和灰度形状信息两种。二进制形状信息最常用的表示是与一个视频对象平面边界大小一致的矩阵。矩阵取值为0 或1 ,取值的选定依赖于像素是否在该视频对象内。二值形状信息的编码采用基于块的技术,可以是无损或有损编码。灰度形状信息用0 2 5 5 之间的数值来表示视频对象平面( v o p ) 的透明程度,其中0 表示完全透明,2 5 5 表示完全不透明。灰度形状信息是二进制形状信息的扩展,它可以用来表示透明的物体,并降低混迭的现象。灰度形状信息的编码采用基于块的运动补偿d c t 方法( 与纹理编码类似) ,属于有损编码。目前的标准中采用矩阵的形式来表示二值或灰度形状信息,称之为位图( 或阿尔法平面1 。实验表明,位图表示法具有较高的编码效率和较低的运算复杂度。海大学硕十学位论文基于b i n d c l b t 的m p e g 4 系统1 2 3 运动信息编码类似于现有的视频编码标准,m p e g 4 标准采用运动预测和运动补偿技术来去除图像信息中的时问冗余成分,而这些运动信息的编码技术可视为现有标准由矩形v o p 向任意形状的v o p 的延伸。v o p 的编码有4 种模式,即帧内( i n t r a 。f r a m e ) 编码模式( i v o p ) 、帧间( i n t e r - f a m e ) 预测编码模式( p v o p ) 、帧问双向( b i d i r e c t i o n a l l y ) 预测编码模式( b v o p )和s p r i t e 编码模式( s v o p ) 。其中最常用的是i v o p 、p v o p 和b v o p ,三者之间的关系如图1 3 所示。图1 3v o p 帧结构关系示意图在m p e g - 4 中运动预测和运动补偿的方式2 幞似m p e g 2 和h 2 6 3 ,主要差别在于以前标准中使用基于块的技术,而m p e g 4 中采用基于v o p 的技术。由于运动估计和补偿被限制在同一个v o 旱,使得运动估计更准确,运动补偿也更有效。运动估计( m e ) 只需考虑位于v o p 界限内的宏块,可以基于1 6 x 1 6 的宏块,也可以基于8 x 8 的宏块。为了能适应任意形状的v o p ,m p e g 4 引入了图像填充技术和多边形匹配技术f “。对标准宏块的运动估计和补偿,可以采用传统的基于块的运动估计和补偿技术,而对位于v o p 边界的轮廓宏块,则要采用图像填充技术,即用一定的灰度值填充轮廓宏块中位于边界以外的像素,然后用“多边形”匹配技术进行运动估计卒p 偿。图像填充技术利用了v o p 内部的像素值来外推v o p 外的像素值,以此来获上海人学硕士学位论文基于b i n d c l b t 的m p e g 一4 系统得运动预测的参考值。“多边形定义了轮廓宏块中位于v o p 以内的部分,而把位于v o p 以外的像素排除在外,运动估计只对多边形定义的属于v o p 活动区域的像素进行。对于各个帧的v o p 预测仍然可以采用m p e g 一2 或h 2 6 1 3 定义的前向预狈u ( p v o p ) 或双向预测( b v o p ) 。“多边形”匹配技术将v o p 的轮廓宏块的活跃部分包含在多边形之内,以此来增加运动估计的有效性。此外,m p e g 一4 采用8 参数仿射运动变换来进行全局运动补偿;支持静态或动态的s p r i t e 全局运动预测;对于连续图像序列,可由v o p 全景存储器预测得到描述摄像机运动的8 个全局运动参数,利用这些参数来重建视频序列。1 2 4 纹理编码视频编码平面的纹理信息可以表示为亮度y 和两个色度成分c r 、c b 。在帧内编码情况下,纹理信息直接包含有亮度和色度成分;在运动补偿的情况下,纹理信息表示经过运动补偿后的残差。纹理编码的对象可以是帧内编码模式i - v o p ,也可以是帧间编码模式p v o p或b v o p 运动补偿后的预测误差,编码方法基本上仍采用基于8 x 8 像素块的d c t 方法。在帧内编码模式中,对于完全位于v o p 内的像素块,则采用经典的d c t 方法;对于完全位于v o p 之外的像素块则不进行编码;对于部分在v o p内、部分在v o p 外的像素块则首先采用图像填充技术来获取v o p 之外的像素值,然后再进行d c t 编码。帧内编码模式中还将对d c t 变换的d c 及a c 因子进行有效的预测。在帧间编码模式中,为了对p v o p 和b v o p 运动补偿后的预测误差进行编码,可将那些位于v o p 内的像素进行编码,该方法可在相同码率下获得较高的编码质量,但运算的复杂程度稍高。变换之后的d c t 因子还需经过量化、扫描及变长编码等处理,这些处理过程与现有标准基本相同。1 2 4 1 轮廓宏块轮廓宏块所包含的v o p 内的像素形状是不规则的,在进行变换编码时,要采用图像填充技术。使用填充技术时用一定的荻度值填充轮廓宏块内v o p 边界以外的像素( 透视像素) ,然后对填充形成的矩形像素块进行基于块的编码。填充海大学硕士学位论文基于b i n d c l b t 的m p e g 4 系统的要求是用某些灰度值替代透视像素的值,使其对纹理编码最为有利,即对这些无用的透视像素编码所花费的额外比特数最少。目前,常用的填充方法有l p e( 低通扩充) 方法【2 】等。1 2 4 2 d c t 变换与系数量化帧内视频纹理宏块和填充轮廓采用基于2 d8 8 块的d c i - 变换进行编码。d c t 变换及其逆变换的详尽内容可以参考i e e e l l 8 0 标准( 本文第二章也有介绍) ,使用该标准可以将变换误差降低到最小。d c t 变换完成后,再进行量化工作。d c t 变换系数是以有损压缩的方式进行量化。这种量化有两种类型,这两种类型的量化方法基本上是通过量化步长对系数做除法运算来进行。第一种方法是根据系数的空间频率来修改量化步长的大小;第二种方法采用的是对全部系数运用相同的量化步长。在m p e g 4 标准中,允许对直流部分的变换系数采用非线性量化的方法。1 2 4 3 系数预测量化系数的平均能量可以通过对邻近宏块的预测得到进一步的降低。预测可以从上方宏块开始,也可以从左方宏块开始。预测的方向是自适应的,并且是基于周围宏块a 、b 、c 水平和竖直方向的d c 梯度( 正梯度或负梯度) 来选定的。系数预测有两种类型:d c 预测和a c 预测。d c 预测只用在d c 频段的系数预测,并且预测可以是从块a 的d c 频段系数开始,也可以是从块c 的d c 频段系数开始( 如图1 4 所示) 。m a c r o b l o c k图1 - 4 d c 系数预测上海大学硕士学位论文基于b i n d c l b t 的m p e g 4 系统a c 预测无论是当前块的第一行系数还是第一列系数,均是通过已选定的各选中的已预测系数进行预测。1 2 4 4 系数扫描和行程编码在行程编码之前,系数通过扫描过程从二维数据转换成一维数据。通常用的扫描有3 种方法:z i g z a g 扫描这种扫描方式是以对角的形式将系数读出。水平交替扫描这种扫描方式主要强调数据是按行扫描的方式读出。竖直交替扫描这种扫描方式类似水平交替扫描,只是数据是以列扫描的方式读出。一般来说,d c 频段系数预测的方式就决定了数据的扫描方式。如果没有d c频段系数预测,那么就采用z i g - z a g 扫描;如果d c 频段系数预测是在水平方向上,那么就采用水平交替扫描;如果d c 频段系数预测是在竖直方向上,那么就采用竖直交替扫描。1 2 4 5 静态纹理m p e g 4 的静态纹理编码和基于d c t 变换的纹理编码相比,能够提供更好的可分级性。静态纹理编码技术是基于小波变换的,其中的d c 频段系数和a c频段系数单独编码。小波系数的量化、编码都用到了零树算法和算术编码理论。1 3m p e g 4 视频流解码1 3 1 视频解码过程解码时,接收端将收到的比特流解复用后,恢复出v o p ,再将它们合成为原来的场景。如图1 5 所示,视频解码包括几个过程:形状、运动信息、纹理、静上海大学硕上学位论文基于b i n d c l b t 的m p e g 4 系统态纹理、网格和人脸解码等。解码后,将这些对象发往合成器,由它集成各种视频对象。图1 - 5m p e g - 4 视频解码框图解码器主要由3 部分组成:形状解码器、运动解码器和纹理解码器。重建的视频对象平面通过合并解码的形状、运动和纹理信息而得。1 3 2 视频对象平面重建视频对象平面w o e ) 的亮度和色差值可以通过解码的纹理和运动信息做出如下恢复:对内部宏块,由解码的纹理数据得到的亮度和色差值f f y x 形成重建v o p 的亮度和色差值:d y x _ f f y e x 。对帧间宏块,首先利用解码的运动向量信息和参考v o p 的纹理信息计算出预测值,然后将解码的纹理数据和预测值相加,得到实际的亮度和色差值:d y x 】= “y x 十t y je x 。最后,将计算的亮度和色差值限制在指定范围之内,即0d e y x 2 b p pl 。r 海大学硕士学位论文基于b i n d c l b t 的m p e g 4 系统1 3 3 纹理解码视频对象平面v o p 的纹理解码过程框图如图1 - 6 所示。图1 - 6 视频纹理解码过程从图中可以看出,纹理解码是纹理编码的逆过程,主要包括变长解码、逆扫描、对d c a c 系数的逆预测、逆量化以及逆d c t 变换等组成【“。1 3 4 其它解码m p e g 4 视频流在进行纹理解码后,还要进行形状解码以及运动补偿解码【2等。除了上述的解码过程外,还包括:交织视频解码s p r i t e 解码可扩展性解码静态纹理对象解码网格对象解码人脸对象解码本文在此不再赘述,具体请参考文献 2 。上海大学硕+ 学位论文基于b i n d c l b t 的m p e g ,4 系统第2 章m p e g 4 中的变换编码技术从第1 章的叙述可以看出,m p e g 4 中的纹理编码使用d c t 变换编码技术,另外使用预测编码技术对d c t 直流系数进行编码,而对交流系数则使用量化、游程编码加霍夫曼编码的混合编码技术“。本章主要研究和分析其中的变换编码技术即d c t 变换的原理。2 1 变换编码在各种图像压缩编码方法中,变换编码是一种非常有效的数据压缩方法。它不是直接对空域图像信号编码,而是首先将空域图像信号映射变换到另一个正交矢量空间( 变换域、或频域) ,产生一批变换系数,然后对这些变换系数进行量化、编码处理。这样数据的相关性下降,数据冗余度减少,对压缩数据有显著效果。在接收端将接收到的数据进行解码、逆量化,得到变换系数,然后将这些系数送入正交变换器进行逆变换,最后经过综合拼接恢复出空域图像。在这个过程中,由于量化会损失信息,所以变换编码是一种有损压缩技术。变换编码技术迄今已经有近3 0 年的历史,技术上比较成熟,理论也比较完备,广泛应用于各种图像、视频的数据压缩中。正交变换是线性变换,且变换前后信号的能量保持不变。同时正交变换的变换矩阵是可逆的,且逆矩阵与其转置矩阵相等,这就使解码运算是有解的且运算方便,尤其是在使用硬件实现变换时。因此变换编码运算矩阵总是选用正交变换。利用线性代数的知识可以知道,j 下交矩阵可以把一个实对称矩阵( 输入信号的协方差矩阵) 变为一个简单的对角阵( 输出信号的协方差矩阵,对角阵表示完全去除了原信号的相关性) ,这正是在变换域进行数据压缩的理论基础【8 】。f 交变换的种类很多,如傅立 ( f o u f i e s ) 变换、沃尔什( w a l s h ) 变换、哈尔( h a a r )变换、斜( s l a n t ) 变换、余弦变换、正弦变换、k l ( k a r h u n e n l o e v e ) 变换等。2 2 最佳正交变换k l 变换k l 变换( k 盯h u n e n l o e v et r a n s f o r m ) 亦称主要成份变换,是一个离散变换。j 一海人学硕士学位论文基于b i n d c l b t 的m p e g 一4 系统k l 变换从图像统计特性出发用一组不相关的系数来表示连续信号,实现正交变换 ”。它的变换基函数是输入信号的协方差矩阵的特征向量组( 即k l 变换矩阵) 。k l 变换使信号的各个分量完全去除了相关性,因而在均方误差准则下,它是失真最小的一种变换,同时它在变换后能量较集中,量化误差较小,易于进行数据压缩,故k l 变换被称作最佳变换。如果图像信号是一个平稳随机过程,则k l 变换的效率最高,通过k l 变换之后,所有的系数都是不相关的,并且数值较大的方差仅存在少数系数中,这样就有机会在允许的失真度下,把图像数据压缩到最小。从理论上讲,采用k l变换进行编码,数据压缩比最大。虽然k l 变换是最佳正交变换方法,但是由于它没有通用的变换矩阵( 要根据信号实时求解) ,因此对于每一块图像数据都要计算相应的变换矩阵,其计算量相当大,很难满足实时处理的要求。所以在实际中很少用k l 变换对图像数据进行压缩,而是退丽求其次,寻找一些虽不是“最佳”,但也有较好的去相关性与能量集中性能,并且容易实现的一些变换方法。而k - l 变换则常常作为这些变换变换性能的评价标准。2 3 离散余弦变换( d c t )离散余弦变换d c t 在数字图像压缩领域可与最佳变换k l 变换媲美。因为d c t 与k l 变换压缩性能和误差最为接近,而且该算法的计算复杂度适中,又具有可分离特性,还有快速算法等特点,所以近年来在图像数据压缩中,采用d c t 算法的方案很多,特别是9 0 年代迅速崛起的计算机多媒体技术中,d c t 已成为h 2 6 1 、h 2 6 3 、j p e g 及m p e g 等国际标准的主要环节。2 2 1 离散余弦变换( d c t d i s c r e t ec o s i n et r a n s f o r m )余弦变换是傅立叶变换的一种特殊情况。在傅立叶级数展开式中,如果被展开的函数是实偶函数,那么,其傅立叶级数中只包含余弦项,由此可导出余弦变换的名称,或称之为离散余弦变换( d c t d i s c r e t ec o s i n et r a n s f o r m ) 。d c t 是一种正交变换,它将信号从空间域变换到频率域,在频率域中,大部分的能量集中在少数几个低频系数上,并且代表不同空问频率分量的系数间的r 海大学硕士学位论文基于b i n d c l b t 的m p e g 4 系统相关性大为减弱,仅利用几个能量较大的低频系数就可以将原始图像很好地恢复,对于其余的那些低能量高频系数,可给予较大的失真,甚至将其置为零,这是d c t 进行图像数据压缩的本质所在。d c t 是用来把空间信息转变成哆页率”或“频谱”信息。与傅立叶变换f f f t ) 一样,d c t 也有一个逆d c t 变换( h w e r s ed c t ,i d c t ) ,它能把信号的频谱表达方式转换回空间表达方式。离散余弦变换( d c t ) 的定义 8 1 是由a h m e d 和r a o 于1 9 7 4 年首先提出的,其算法如下:给定序列x ( n ) ,n = o ,1 ,n 1 ,其离散余弦变换定义为:列卜去萎“功那,= 壤砌m s 警显然,其变换的核函数g = 据 o s 笋是实数。式中系数i = 1 , 2 ,n 一1( 2 1 )七,n = 0 , 1 ,n i( 2 2 )驴篡b s ,晶2 1 1足o( 2 3 j这样,若“ ) 是实数,那么它的d c t 也是实数。对傅立叶变换,若z ( n ) 是实数,其d f t 坝砷一般为复数,由此可以看出,d c t 避免了复数运算。:l g ( 2 1 1 式写成矩阵形式,有x 。= c x( 2 4 )式中五,x 都是n x l 的向量,白是n x n 变换矩阵,其元素由( 2 ,2 ) 式给出。当n= 8 时,有c 82 啬i压fc o s 旦l1 6压ic 。竺i1 6c oc l:c ,( 2 5 ),惭一m渤一m,一惭一m一脚一m,i异一m;勋一m咧咄;研一m撇一m叫螂上海大学硕士学位论文基于b i n d c l b t 的m p e g 4 系统可以证明,x 的协方差矩阵e 的行、列向量均有如下的正交关系:( 蛳) = 臀竺仁s ,所以变换矩阵。是归一化的正交阵,d c t 是正交变换。由此立即得到d c t 的反变换关系:x = c n “七= c n 7 疋( 2 7 )即:x ( n ) = 而1 丘( 。) + 、f 万2 - 刍n - i 五( c 。s 堡写字丝n = 0 ,i ,一l( 2 8 )2 2 2d c t i i 的快速算法( 2 1 ) 式的d c t 可写成如下形式:础,= 府。p 脚釉咖) ,上式表明,计算一个n 点d c t 可通过2 n 点f f t 来实现,具体步骤是;将砌) 补n 个零形成2 n 点序列:x 2 n ( n ) ;用f f t 求x 2 n ( n ) 的d f t ,得x 2 n ( k ) ;将局n ( k ) 乘以e 1 栊”然后取实部,得x 2 n ( k ) ;令引o ) = 专z z ( o )删= 摩。2 ( k = 0 , 1 , - - , n - 1( 2 1 0 )也可用n 点f f t 来实现n 点d c t 的计算,以进一步减少计算量。定义:耶) = 篓砌) c 0 5 1 ( 2 n + 厂1 ) k ;vk = 0 , 1 , - - - , n - i( 2 1 1 )上海大学硕上学位论文基于b i n d c l b t 的m p e g 4 系统尺七) 和疋的差别只在于定标系数g 。a 现由x 伽) 构成一个n 点新序列y ( n )y ( n 一1 一”) = x ( 2 n + 1 ), = 0 , 1 ,一,2 1( 2 1 2 )显然,y ( n ) 的莉半鄙( 0 n 2 1 ) 是x ( ,1 ) 甲聃俩予亏点,j 百半鄙( n 2 n 。1 ) 是z ( n ) 甲的奇序号点,但次序要倒排。这样,( 2 t 1 ) 式可写成:m ) :芝j c o s 鼍笋+ n 2 - 1 y ( 州叫c 。s 婴警( 2 1 3 ) = 0二y耻01y对后一项作变量代换,令r = n - 1 嘞得聃= 羹妣。s 笋十,密c o s 笋亿目口:一n - i一,坚n k日( t ) = e - j k n 2 n y ( n ) e 。”( 2 1 5 )则以p = r e 瞰妨) ,将f ( 印乘以定标因子,即得d c t 五。这样,用n 点d f t可实现n 点d c t 的快速计算。d c t 的计算量显然主要取决于n 点f f t 的计算量,不同之处是多了n 个复数乘法( 乘以e - j r d 2 n ) 及n 个实数乘法( 乘以定标因子)1 8 1 。在图像压缩中要使用二维d c t 变换,由于d c t 变换具有可分离特性【3 ”,所以,其正变换和逆变换均可将二维变换分解成一系列一维变换( 行、y o ) 进行计算。因为d c t 与k l 变换压缩性能和误差最为接近,所以它又被称作次最优变换。在m p e g 一4 中,主要用d c t 对纹理编码中的8 x 8 的亮度块和色差块进行变换编码,它产生的系数很容易被量化,因此能获得很好的压缩效果。上海大学硕士学位论文基于b i n d c l b t 的m p e g 4 系统第3 章b i n d c l b t 变换编码本章首先分析了d c t 变换中产生人工效应的原因,然后通过对目前处理人工效应的方法进行分析,提出了一种结合了d c t 和l b t 变换编码技术并用整数方式实现的b i n d c l b t 变换编码方法,最后对该变换编码的压缩性能进行了测试。3 1d c t 变换的人工效应d c t 变换是一种非重叠正交变换( n o n l a p p e do r t h o g o n a lt r a n s f o r m ,n l o t ) ,在低码率视频编码中,由于量化的粗糙,会产生诸如人工效应( v i s u a la r t i f a c t s )之类的图像缺陷2 ”,主要是块效应( b l o c k i n ga r t i f a c 0 和振铃效应( r i n g i n ga r t i f a c t ) 。这两种效应都会引起图像质量的下降,造成视觉上的困难。3 1 1 块效应所谓块效应就是平常所说的马塞克现象,它是由量化噪声所引起,并且在图像域内随着图像内容的不同块效应有着不同的表现18 1 。图3 1 是块效应示例。图3 - 1 “块效应”示例在j p e g m p e g 压缩编码中,首先将图像分割为8 x 8 的像素块,然后对每块进行d c t 变换,得到6 4 个d c t 系数,变换后的d c t 系数i u ,v 由3 1 式表示:上海大学硕士学位论文基于b i n d c l b t 的m p e g 一4 系统为77 u ,y = t ,q c y ,“,v = 0 一,7( 3 1 )j = 0y = 0其中,i x , y 表示在8 8 块中未经d c t 变换的第( x ,y ) 个像索的值e 。= a 。c o s o r 2 x + 1 1 6 )e ,= d 。c o s v 【2 y + 1 1 6 )1 2 ,v = 0( 3 2 )( 3 3 )以m p e g 一4 为例,d c t 变换系数矩阵将由个8 x 8 窗口加权后量化,表示f w u ,v - p ,v p ,( “,v 】( 3 4 )其中,r r u ,v 是加权矩阵,w u ,v 】是8 x 8 窗口加权后的系数,经过量化后的系数可表示为加权后的系数与量化噪声之和j 【雒,v - - - - i w u ,v 】+ e 【“,v 】( 3 5 )其中,d “,v 是量化噪声,i u ,v 为量化后的系数。在反量化之前先要进行反加权,得到的重建系数为:,m ,v = i u ,v + e k v 】w u ,v ( 3 6 )这样,经过反d c t 后,量化噪声8 f :f ,v 】矽f “,叼将分散在图像域整个,块,之内,由于对不同的”块”分别进行处理,即迭加了不同的量化噪声,在”块”的边界处将出现不连续,即所谓的”块效应”,见( 3 7 ) 式。;k y = 委砉,p ,v 】e ,e ,+ 骞亲簧筹e ,e ,c 。刀图3 - 2 是标准测试图像p e p p e r s 2 在粗量化后的图像,可以看出块效应现缘十分明显。o0f i“瓜忆,、l=q且上海大学硕士学位论文基于b i n d c l b t 的m p e g 4 系统图3 - 2p e p p e r s 2 图像压缩示倒f 最化质量选择5 )块效应的不同表现主要有:梯形噪声、格形噪声和纹理噪声等1 8 】。梯形噪声( s t a i r c a s en o i s e l在图像的强边缘处出现,在低码率下,d c t 的很多高阶系数被量化为零,结果与强边缘有关的高频分量在变换域内不能被完全体现。又因为每个“块”被分别处理,不能保证穿过“块”边界的强边缘的连续性,导致在图像边缘处出现的锯齿状噪声,称这种噪声为“梯形噪声”。格形噪声( g r i dn o i s e )格形噪声大多在图像的平坦区域出现;在变换域内d c 分量体现了该“块”的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论