(通信与信息系统专业论文)基于dt网格的视频编码中的码率控制算法研究.pdf_第1页
(通信与信息系统专业论文)基于dt网格的视频编码中的码率控制算法研究.pdf_第2页
(通信与信息系统专业论文)基于dt网格的视频编码中的码率控制算法研究.pdf_第3页
(通信与信息系统专业论文)基于dt网格的视频编码中的码率控制算法研究.pdf_第4页
(通信与信息系统专业论文)基于dt网格的视频编码中的码率控制算法研究.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(通信与信息系统专业论文)基于dt网格的视频编码中的码率控制算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 近年来,视频通信技术得到了迅速的发展,特别是随着一系列视频编码标准 的制定,使人们可以享受到许多服务,比如视频点播、视频会议、电话会议等。 而码率控制是视频通信中的关键技术之一,特别是在网络带宽无法预测和控制的 i n t e m e t 环境中,码率控制对多媒体系统的服务质量起着决定性的作用。 本文先介绍了视频编码以及码率控制的研究背景,并归纳了国内外的研究现 状。然后介绍了视频编码的基本原理、基本方法和现有几种常用的视频编码标准。 码率控制是视频编码中的一个重点和难点,它可以通过控制编码器的输出码 流,使其适应信道带宽的要求。并且保证解码图像的质量。本文第三章对视频编 码中码率控制的关键环节率失真理论加以研究,介绍7 两种常用的码率控制方法: t m n 8 和t m 5 。本文的码率控制算法是基于d t 网格的视频编码平台,这个系统 的码率控制算法不同于传统的基于块的码率控制算法,码流主要由网格节点、运 动矢量以及残差图像的码字组成,节点和运动矢量所占的码字是有规律的,残差 图像的码率控制用传统的t m n 8 和基于p 域的码率控制方法实现的,实验结果证 明基于p 域的方法要优于t m n 8 。同时证明本文的码率控制思想是可行的。 关键词:视频编码码率控制d e l a u n a y 三角形 a b s t r a c t w i t ht h ed e v e l o p m e n to fv i d e oc o m m u n i c a t i o nt e c h n i q u e e s p e c i a l l yw i t has e r i e s o fv i d e oc o d i n gs t a n d a r d sw e r ep r o p o s e d p e o p l ec a ne n j o yal o to fs e r v i c e s , s u c ha s : v o d ,v i d e om e e t i n g , p h o n em e e t i n g , e t c r a t ec o n t r o li so n eo ft h ek e yt e c h n i q u e si n t h ev i d e oc o m m u n i c a t i o n , e s p e c i a l l yo nt h ei n t e m e tw h i c ht h eb a n d w i d t h n tb e p r e d i c t e do rb ec o n t r o l l e d r a t ec o n t r o lp l a y sad e c i s i v er u l eo nt h es e r v i c eq u a l i t yo f t h em u l t i m e d i as y s t e m i nt h i sp a p e r , t h eb a c k g r o u n d so ft h ev i d e oc o d i n ga n dr a t ec o n t r o la r ei n t r o d u c e d f i r s t l y , a n dt h er e s e a r c ha c t u a l i t ya r o u n dt h ew o r l dn o wi ss u m m a r i z e d t h e nt h eb a s i c t h e o r y , t h em a i nm e t h o d sa n dv i d e oc o d i n gs t a n d a r d se x i s t e dn o w a r ep r e s e n t e d r a t ec o n t r o li ss i g n i f i c a n ta n dd i f f i c u l ti nv i d e oc o d i n gs y s t e m ,a n di tc a nr e g u l a t e o u t p u tb i ts t r e a mt om e e tt h ec h a n n e lr a t e ,w h i l ek e e p i n gg o o dd e c o d e dp i c t u r eq u a l i t y t h ec r u c i a lp a r ti nr a t ec o n t r o lw h i c hi st h er a t ed i s t o r t i o nt h e o r y , i ss t u d i e di nc h a p t e r 3 , a n dt h em o s t l yc e m m o nu s e dm e t h o d ss u c ha st m n 8a n dt m 5a r ei n t r o d u c e d t h er a t e c o n t r o la l g o r i t h mi si nt h ev i d e oc o d i n gb a s e do i ld e l a u n a yt r i a n g u l a t i o n , w h i c hi s d i f f e r e n tf r o mt h et r a d i t i o n a la l g o r i t h mb a s e do nt h eb l o c k s t h er a t e sa r em a d eu p0 f t h er a t e so fm e s hn o d e s , m o t i o nv e d o r sa n dr e s i d u a li m a g ew h i c ha r ei nt h er u l e s t h e r a t ec o n t r o la l g o r i t h mo fr e s i d u a li m a g ec a nu s e st h et m n 8a n dt h em e t h o db a s e do n pd o m a i n t h er e s u l t ss h o wt h a tt h em e t h o db a s e do npd o m a i ni sp r i o rt ot h e t m n 8 t h ei d e ai nt h i sp a p e ri sf b 鹤i b l e k e y w o r d :v i d e oc o d i n g r a t ec o n t r o l d e l a u n a yt r i a n g u l a t i o n 创新性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或 其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均已在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 j , 本人签名:筮丝硷日期2 垡旦z :旦 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕 业离校后,发表论文或使用论文工作成果时署名单位仍是谣安电子科技大学。学 校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公开论文的全部 或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文在 解密后遵守此规定) 本学位论文属于保密,在年解密后适用本授权书。 本人签名毽途迄 导师繇岁- - t 雩j , 匹 导师签名:它庐扎 夕k 日期2 型1 1 :主,旦 日期幽z :! ! - 第一章绪论 第一章绪论 1 1 研究背景 2 1 世纪是一个数字信息时代,数字信息化几乎涉及到世界的每个角落,改变 了人类的生活和工作方式。随着科学技术的迅速发展和社会需求的日益增长,使 人们的学习和交流打破了过去的时空界限,为人类能力提高带来了新的空间。随 着计算机网络技术的飞速发展、网络规模的不断扩大,更多的人们可以通过网络 来获取信息。信息化的一个主要特征就是多媒体技术的广泛应用,随着多媒体业 务的不断拓展,多媒体数据已经逐渐成为信息处理领域中主要的信息媒体形式, 多媒体技术也已成为工业界和学术界的一个研究热点。 随着信息技术的发展和社会的不断进步,人类对信息的需求越来越丰富,人 们希望无论何时何地都能够方便、快捷、灵活地通过语音、图形、文本、图像与 视频等多种方式进行通信。以多媒体和网络为主的信息技术已经成为拓展人类能 力的创造性工具。多媒体计算机技术以数字化的方式对任何一种媒体进行表示、 存储、传输和处理,并且将这些不同类型的媒体数据有机的合成在一起,形成多 媒体数据。在这种时代背景下,多媒体计算机技术与电话、广播、电视、微波、 卫星通信、广域网和局域网等各种通信技术相结合,为人类提供了许多全新的信 息服务。随着人类在网络、视音频压缩等多媒体关键技术的研究突破,多媒体视 音频技术的应用越来越广泛和大众化,用户可以方便地以多种形式交流音视频信 息。可以说网络在当前的社会中已经无处不在,网络环境的使用更加广泛。 视频( 序列图像) 压缩编码的目的是以尽量少的比特数来表征视频信号,同时保 持恢复视频信号的质量,使之符合特定的应用场合的要求。压缩数据量、提高有 效性是视频压缩编码的主要目的。由于数字视频的数据量非常大【,如果不经过压 缩,这种大容量的视频数据将给视频信号的高速传输和存储造成困难,因此必须 对视频信号进行压缩编码。 庞大的视频数据无疑给数据的存储、传输以及计算机的处理速度等都增加了 极大的压力,这样就阻碍了计算机及多媒体技术的发展,如何消除这样的障碍成 为我们急待解决的问题。经过研究发现,这些视频数据在空域和时域有很大的冗 余性;多媒体数据压缩也是可能的,多媒体文、声、静图像、视频图像等信源数 据也有大量的冗余信息。数据压缩就是将庞大数据中的冗余信息去掉,比如一幅 人的头肩图像,背景、人脸、头发等处的灰度、颜色都是平缓改变。相邻像素的 灰度和色差值比较接近,信息有较多的冗余,但是如何先排除冗余信息,再进行 基于d t 网格的视频编码中的码率控制算法研究 编码,使表示每像素的平均比特数下降,这就是通常所说的视频图像的帧内编码, 以减少空域冗余进行数据压缩。视频图像是沿时间轴方向的一个帧序列,其帧间 图像的相关性也是很强的,通常采用运动估计和运动补偿的方法以减少时域的冗 余信息,达到压缩视频数据的目的。 视频压缩编码技术的研究已有几十年的历史。在上个世纪5 0 - 6 0 年代,由于客 观条件的限制,人们不仅对帧内预测编码和亚取样内插恢复方法进行了研究,同 时对视觉特性也做了一些极为有限,却非常可贵的研究工作【2 j ,1 9 6 6 年,j b o n e a l 对脉冲编码调带i j ( p c m :p u l s ec o d em o d u l a t i o n ) 和差分脉冲编码调f b i j ( d p c m : d i f f e r e n t i a lp u l s ec o d em o d u l a t i o n ) 进行了研究。1 9 6 8 年,h c a n d r e w s 等人提出了 采用二维离散傅立叶交换( d f d 的变换编码方法。此后,相继出现了其它变换编码 方法,如二维离散余弦变换( d c t :d i s c r e t ec o s i n et r a n s f o r m ) 等。1 9 6 9 年,对线性 预测编码进行了研究,从7 0 年代开始,对帧间预测编码进行了研究,8 0 年代初开 始了对运动补偿中运动估值的研究。 上个世纪8 0 年代以来,国际电信联盟( r r u d 的视频编码专家组( v c e o ) 制定的 h 2 6 x 以及国际标准化组织( i s 0 ) 和国际电工委员会( i e c ) 的活动图像专家组( m p e g ) 制定的m p e g x 两大系列视频编码国际标准的推出,开创了视频通信和存储应用的 新纪元。这些协议对标准码流的语法语义,解码器规范都做了详细的规定,而对 编码策略和算法没有做出要求。人们可以通过遵循这些国际标准,用软件或硬件 的方法来实现视频编码器以达到视频压缩的目的。r 兀- t 的h 2 6 1 标准是视频编码 技术走向实用化的里程碑,它是图像与视频编码4 0 年研究成果的结晶。该标准于 1 9 8 8 年形成草案,并于1 9 9 0 年通过。9 0 年代初相继提出的m p e g - 1 ,m p e g - 2 以及 h 2 6 3 等标准都是在h 2 6 1 标准的基础上发展和改进的。在这些国际标准中均采 用混合编码技术,该技术因为其高效的实用性,已经成为当前视频编码方法的主 流。我国信息产业部于2 0 0 2 年6 月批准成立了数字音视频编解码技术标准工作组。 该工作组的任务是,联合国内的企业和科研院所,制定拥有自主知识产权的数字 音视频编解码技术标准( a v s ,a u d i ov i d e oc o d i n gs t a n d a r d ) 。该标准主要面向高分 辨率数字广播、高密度激光数字存储媒体、无线宽带多媒体通讯、互联网宽带流 媒体等产业应用。 视频序列经过编码之后,输出的是一个码率不断变化的码流。即经过压缩后 的码流本身是个变速码流( r ) ,而大多数的视频编码器的输出信道是个恒定速率 的信道( a b r ) ,这样的码流虽然能够提供较高的压缩比,却不适合实时地在固定码 率的信道中传输。因此要使视频压缩码流在恒定速率的信道上发送,就需要通过 量化环节调整编码后输出的数据量,需要一个缓冲存储器( 即缓冲区) 来平衡编码器 输出码流的波动,即进行码率控制。也就是说视频编码技术要面向互联网进行传 输,而网络通信的信道的带宽是不稳定的,这就要求编码器能够针对信道的带宽 第一章绪论 自适应的调整输出码流,需要进行码率控制。码率控制的目的,就是通过对量化 参数的自适应选择,使视频编码器在一定视频数据带宽的限制下能够保证较稳定 的码率以及较小的视频时延。因此,码率控制策略的选择对于能否成功地在信道 上传输编好的视频数据起着至关重要的作用。在一些视频编码的国际标准中,都 没有对码率控制模块做具体的规定,因此人们可以根据不同的应用环境,而采用 各种有效的码率控制策略。 码率控制是视频编码技术中的一个重点也是一个难点,它对编解码的图像质 量起到了决定性影响。它能够控制编码输出码流,使其能适应信道传输的要求, 并且保证图像质量。码率控制算法与编码系统有着密切的关系,传统的码率控制 算法都是在基于块的或者基于对象的视频编码之上的。d e l a u n a y - - - - 角形网格( d t 网 格) 用于描述图像平面,近年来,在视频编码领域有着广泛的应用,解码图像的主 客观质量都优于传统的编码方法,然而在d t 网格的视频编码中进行码率控制并未 见于文献,因此在d t 网格的视频编码中进行码率控制是很有意义的。 本文就是基于这些研究背景,在基于d t 网格的视频编码中,联合考虑三角 形网格的节点信息和运动估计信息,以及残差图像来实现码率控制,控制输出码 流,提高信道利用率。 1 2 国内外研究现状 1 2 1 视频编码的研究现状 人们对视频编码技术的研究已经有5 0 多年的历史。随着计算机技术、数字化 通信尤其是多媒体通信和网络应用技术的发展,视频编码技术得到了迅速的发展。 目前较为成熟的视频编码技术大致分为三大类:基于块的方法、基于对象的方法、 基于网格的方法。 基于块的视频编码。视频编码技术的理论基础是s h 锄伽信息论,其基本思想 是以经典集合论为基础,用概率统计模型来描述信源。视频编码的发展历程是以 s h a n n o n 信息论为出发点不断改进、不断完善的过程。传统视频编码并未考虑信息 接受者的主观特性和事件本身的具体含义、重要程度及引起后果同时也未考虑人 眼视觉特性对编码图像的影响,因而只能去除数据冗余属于低层压缩编码的范畴。 它基于像素和像素块从消除视频数据相关冗余出发,即基于块的视频编码方法。 已发布的国际标准和建议主要是基于块的,如h 2 6 1 ,h 2 6 3 ,m p e g 1 ,m p e g 2 等。基于块的算法压缩后的视频会产生多种失真1 5 l ,其中最容易出现的是方块效应, 使得视频的主观质量受到了很大影响。 4 基于d t 网格的视频编码中的码率控制算法研究 基于对象的视频编码。2 0 世纪8 0 年代后期相关学科的迅速发展及新兴学科的 不断出现为视频编码的发展注入了崭新活力,同时关于人类视觉特性的研究也大 大拓宽了人们视野。在此背景下,新一代视频编码技术随之诞生并且不断成熟其 编码思想由基于像素和像素块转变为基于对象( o b j e c t ) 。它利用人眼的视觉特性, 从轮廓、纹理的思路出发,支持基于内容的交互操作。它突破了s h a n n o n 信息论 框架的束缚充分考虑了人眼视觉特性及信源特性。在基于对象的视频编码中,编 码的基本单元是任意形状的视频对象。其基本思想就是将一组输入的视频序列分 割成多个视频对象和相应的背景及辅助信息,对每部分内容分别进行编码、存储、 处理和传输。这种新的视频描述方式不仅使基于内容的交互操作简单易行,而且 可以根据内容灵活地进行编码比特的配置。在基于对象的视频编码中,背景信息 通常被视为是不重要的,关键在于任意形状视频对象的编码。目前i s o i e c 公布 的m p e g 4 标准,其最大的特点就是基于对象的编码,所以对象的分割是所有编 码的基础,对于不同的对象可以采用不同的编码算法,比如:纹理编码、网格模 型基编码、人脸对象模型编码等。国内外在这方面的研究也已经开始。有许多单 位正在对其进行积极的研究,一面追踪m p e g 4 的标准化进程,一面研究新的压 缩编码算法。 基于网格的视频编码。网格( m e s hs t r u c t u r e ) 是一种很有效的数学工具,近年来, 网格在视频编码领域有着很广泛的研究和应用,它主要用于图像的表述以及基于 网格模型的运动描述。在极低比特率序列编码中,采用三角形【6 】或者四边形【7 l 的不 规则动态网格来表示灰度图像。图像d c l a 吼a y 三角形网格( d t 匿j 格) 是网格的一种, 它可以用于描述图像平面。它根据图像的内容自适应地产生一些符合一定规贝q 和 特征的三角形,这些三角形的顶点可以作为特征点来进行图像的匹配。这些三角 形之间的连接关系也描述了三角形的顶点和其内部的点之间的关系,这样,就可 以利用三角形的变换方式来实现顶点以及对其它点的视差矢量的估计。这些有一 定特征的三角形就实现了图像平面的有效描述了。基于d t 网格的方法已经在视频 编码使用了,它的编码效率高,而且图像主观质量也较好,目前已被m p e g 4 标准 采纳。文献【8 】提出一种d t 模型基不规则的三角形网格的多分辨率图像表示方法, 失真效应比块编码算法有明显的降低。本文就是基于d t 网格的视频编码系统进行 码率控制的。 1 2 2 码率控制的研究现状 视频编码和传输的主要目标是在给定的网络条件下,在接收端能够得到很好 的图像质量,即在解码端重建图像的失真度要最小。视频编码的码率控制是视频 技术和网络传输技术共同发展和不断融合的结果。一般来说,码率控制主要是从 第一章绪论 编码各个阶段调控码率和从网络传输因素调控码率。视频编码各阶段主要是从 d c t 变换、量化阶段及缓冲区调整,另外还包括编码对象,从网络传输因素上考 虑,主要是考虑网络状况,如网络带宽、拥塞等,反馈给编码阶段调整编码的码 率。 传输环境、处理器能力等实际因素会对视频编码的比特率和图像质量形成种 种限制。为了在这些条件限制下,达到最佳的压缩性能,获得较佳的传输效果和 实际接收质量,对视频编码过程进行控制是非常必要的。编码控制的目标就是在 实际传输比特率的限制下,以最小的计算复杂度来获得尽可能好的图像质量。编 码码流的比特率、计算复杂度和重建图像质量三者是密不可分,而且它们之间的 关系随着输入视频不同而变化。因此码率控制是编码策略的重要内容之一,也是 视频传输服务中重要的研究内容。 码率控制就是要在给定的码率条件下,使得编码输出的码流能够适应信道传 输的要求,同时保证整个图像的失真度最小。码率控制算法是通过给编码器选择 合适的量化因子( q ,) 来控制输出码流的,使其与目标码率一致。码率控制的关键 点是要估计视频编码器的率失真函数( r a t e - d i s t o r t i o nf u n c t i o n ) ,它包含两个部分: 码率量化函数( r a t e q u a n t i z a t i o n ) 和量化失真函数( d i s t o r t i o n q u a n t i z a t i o n ) 。要想准确 的描述r d 函数是比较困难的,通常的做法是用经验公式去近似它。 按信道的带宽是否恒定,编码器的码率控制算法可分为v b r ( v a d a b l eb i tr a t e ) 码率控制算法和c b r ( c o n s t a n tb i tr a t e ) 码率控制算法。码率控制是主要是通过调整 量化参数来实现的,从调整量化参数的级别上看,相应有图像层级、g o b ( 或s l i c e ) 级和宏块级的码率控制,控制的级别越低,相应码率控制的精度就越高。采用各 种模型来计算量化参数进行编码,如模糊逻辑1 9 1 、动态规划 埘、二次曲线i l 】j 和指 数模型【1 2 1 等。这些算法本身复杂度就很大,并且都采用图像( 或残差图像) 的方差作 为码率控制算法的控制参量,而计算方差的运算复杂度也是很大的 现有的码率控制算法,基本上都是基于经典的率失真函数的估计的,其中比 较典型的有m p e g 2 的t m 5 算法 1 3 1 、h 2 6 3 的t m n 8 1 1 4 i 算法以及m p e g - 4 的v m 8 i l s l 算法等。绝大多数的码率控制算法都是建立在对视频编码器的率失真模型的估计 的基础之上的,【1 6 】提出一种基于p 域的2 d 码率控制算法,利用零系数与码率之间 的线性关系,使得码率控制算法简单。 在码率控制的研究中。码流分级的研究也很至关重要。m p e g - 2 和m p e g - 4 等 国际标准中纳入了几种层次化可分级( l a y e r e ds c a l a b i l i t y ) 技术:s n r 可分级性、时 间可分级性和空间可分级性。在层次化可分级编码技术中,视频序列被编码成一 个基本层和一个( 或几个) 增强层,基本层是在相应的网络环境下视频信号总可以传 输和解码的一个基本码流,增强层是对基本层视频质量的增强和补充。根据网络 带宽和解码端处理能力,决定传输一个或几个层次的码流。文献【1 7 】提出一种渐进 6 基于d t 网格的视频编码中的码率控制算法研究 的精细的可伸缩性的码率分配算法,利用联合率失真函数给出局部最优的码率分 配算法,得到较好的编码效率,这种方法的缺点是复杂度比较高。 基于d t 网格的视频编码系统码流主要由编码网格节点、运动矢量、残差图像 的比特数构成,不同于传统的基于块的视频编码,基于网格的视频编码目前至今 还没有人研究过,本文就是在这一背景下,在这种新的编码系统中进行码率控制。 1 3 论文的主要工作和内容安排 本文在基于d e l a u n a y 三角形网格的视频编码中进行码率控制研究。把节点和 运动估计看作一个整体,把残差图像看作另一个整体,把这两个整体联合考虑, 通过实验得到实验图像的三角形网格的最佳编码节点个数,并得到了统计规律, 最后对残差图像运用已有的算法,完成对系统的码率控制。 本文各章节的内容具体安排如下: 第一章:阐明了视频编码及码率控制的研究背景,并归纳了该领域国内外的研究 现状。 第二章:介绍了视频编码技术,视频压缩编码理论,视频编码中的几种方法,以 及常用的几种视频压缩编码的国际标准。 第三章;分析了码率控制的原理和意义,介绍了码率控制的率失真原理,并介绍 常用的两种码率控制方法t m n 8 和n 巧。 第四章:对基于d t 网格的节点信息以及运动估计所用的码字做了实验测试,并找 出近似规律,对残差图像采用基于p 域的码率控制算法,并与传统的 1 m n 8 算法做了对比。 第五章:总结全文工作,提出今后的研究方向。 第二章视频编码方法 第二章视频编码方法 近十几年来,视频编码技术得到了迅速发展和广泛应用,并日趋成熟,其标 志就是几个关于图像编码国际标准的制定,包括国际标准化组织( i s o ) 和国际电工 委员会( m c l 关于静态图像的编码标准j p e g ,i s o i e c 关于活动图像的编码标准 m p e g 1 、m p e g 2 、m p e g - 4 以及后来的m p e g 7 和m p e g - 2 1 、国际电信联盟0 t u m 关于电视电话、会议电话的视频编码标准h 2 6 1 、h 2 6 3 和h 2 6 l 筹。 视频编码算法融合了各种性能优良的编码方法,代表了目前图像编码的发展 水平。视频编码的一个主要目的就是在保证一定重构质量的前提下,以尽量少的 比特数来表征视频信息。视频编码的原理是:由于表示图像和视频信息的大量的 数据往往是高度相关的,这些相关性会引起信息的冗余,因此可以通过去除这些 冗余信息来实现对视频数据的压缩。静态图像的压缩是在保持重建图像质量可以 接收的同时,尽量去除图像本身存在的空间冗余,而视频信号的压缩,除了去除 空间冗余之外,还可以通过去除时间冗余达到较高的压缩比。视频编码是视频压 缩的关键技术,因此本章首先说明视频压缩编码的理论,然后介绍一些视频编码 的基本方法,最后简单介绍几个主要的视频压缩编码的国际标准。 2 1 视频编码的理论基础嗍 研究图像的统计特性是一项非常有意义的工作,它是图像压缩编码的理论基 础。由于图像的种类繁多,内容千变万化。为了传送图像信息,必须传送大量的 码字,这在实际应用中往往是难以承受的。然而,通过大量的统计实验发现,图 像取样值本身有一些内在的联系和规律。例如图像的同一行相邻像素之间、相邻 行像素之间以及序列图像相邻帧的对应像素之间往往存在很强的相关性。建立在 信息论基础上的经典图像编码方法就是利用图像信号的这种统计特性,通过去除 相关性来减少传输码率。 信息论是- 1 7 应用近代数理统计方法来研究信息的传输和处理的科学1 9 4 8 年,s h a n n o n 以新颖的科学观点和统计的数学方法系统的阐明了通信系统中信息的 基本概念、信息度量的统计方法和编码的理论,建立了经典信息论。 设信息源x 可发出的消息符号集合为x = 毛i i = 1 ,2 ,m ,并设x 发出符号x i 的概率为p ) ,则定义符号出现的自信息量为: , ) 一一l o g p ( x , ) ( 2 - 1 ) 如果各符号a 的出现概率是独立的,那么x 发出一符号序列的概率等于各符 8 基于d t 网格的视频编码中的码率控制算法研究 号的概率之积,即该序列出现的信息量等于相继出现的各符号的自信息量之和。 这类信源称为无记忆信源。 对信息源x 的各符号的自信息量取统计平均,得到平均信息量为: 日( z ) - 一p ( x i ) l 0 9 2p“)(2-2) t 上式为信源x 的熵,单位是b i t ,符号,通常也称为信源的一阶熵,可以理解为 信源x 发出任意一个符号的平均信息量。由信息论的基本概念可以知道,一阶熵 是无记忆信源在无失真编码时所需码率的下界。 在实际的情况中,信源发出的各个符号之间并不是相互独立的,而是具有相 关性的,即是有记忆信源。有记忆信源发出的一个符号的概率与它之前出现的符 号具有相关性。一般认为与前面发出的n 个符号有关。 对于确定的信道c ,如果它的输入x 和输出y 如图2 1 所示,那么x 与y 之 间的互信息量为,伍,y ) 。 p i x ) j :竖叫cl 型坠 xy 图2 1 信道模型 t ( x ,l ,) - 日仁) 一日i 工) ( 2 - 3 ) s h a n n o n 为了从理论上描述和把握通信的基本过程,定义了信道容量c 和信息 率失真函数( 信息率与失真的关系) r ( d ) 的概念,公式如下: c 一却 j 僻,y ) ( 2 - 4 ) l e ( x ) l r ( d ) 一蜓。 j 僻,圳( 2 - 5 ) i p ( y d d f f iz d “,y ,咖 ,y ) ( 2 - 6 ) ( 2 - 6 ) xx 和信道输出y 之间允许的平均失真度,i p ( yix ) l 。是x 和 y 之间实际平均失真度小于或等于d 的那些信道的集合。 视频编码就是依据s h a n n o n 的无失真编码定理和率失真编码定理。视频信源数 据之所以能够压缩,就是出于客观的统计规律。图像和视频中包含了大量的数据 和信息,这些数据往往具有高度的相关性,而这些相关性说明信息中存在大量的 冗余,可以通过去除冗余信息来实现对视频的压缩。存在很多类型的冗余【1 9 1 :空 间冗余,时间冗余,信息熵冗余等。图像压缩编码的基本原理就是减少图像信号 中的冗余信息,目的是在保证一定图像质量条件下,以最少的比特数来表述一幅 图像。 信息论以后的发展方向主要包括两个方面:一是除了继续研究语法信息,还 第二章视频编码方法 9 要研究语义信息和语法信息;二是语法信息并不是都是随机可统计的,也有非随 机而不能统计的,例如偶然事件,这样就需要考虑模糊语法信息。 2 2 1 变换编码 2 2 视频编码的基本方法 变换编码对于压缩静止图像和视频帧非常有效。理想情况下,为了充分利用 像素之间的空间相关性,交换应该应用于整幅图像或者视频帧。但是为了降低计 算机的复杂度,基于块的变换编码在实际中更为常用。 图像信号一般具有较强的相关性,如果选用的正交矢量空间的基矢量与图像 本身的主要特征很接近,则在这种正交矢量空间中描述这一图像信号将会更简单。 从本质上说,图像信号经过正交交换后之所以能够实现数据压缩,是因为经过多 维坐标系适当旋转变换后,把分散在各个原坐标轴上的原始图像数据集中到新坐 标系中的少数坐标轴上,从而为后继的量化和编码提供高效数据压缩的可能性。 为了保证平稳性和相关性,同时也为了减少运算量,在变换编码中,一般在 发送端的编码器中,先将原图像分成若干个子块,然后再对每个子块进行正交变 换,形成变换域中的系数矩阵样本,系数选择器再选择其中的若干主要分量进行 量化、编码和传输。接收端解码器经解码、反量化后得到具有一定量化失真的变 换系数,再经反变换就得到恢复的图像信号。显然,恢复的图像信号具有一定的 失真,但只要系数选择器、量化器以及编码器设计合理,这种失真可限制在允许 的范围内,因此变换编码是一种限失真编码。变换编码的编码器模型如图2 2 所示。 图2 2 变换编码器模型 变换编码是构成当前主要视频编码标准的一项最基本技术,用来消除图像的 频域( 变换域) 冗余。正交变换编码通常是将空域相关的像素点映射到另一个正交矢 量空间,使得变换后的系数之间相关性降低。常见的正交变换有 k - l ( k a r h u n e n - l o e v e ) 变换、离散傅立叶变换d f t ( d i s c r e t ef o u r i e rt r a n s f o r m ) 、离散 余弦变换d c t ( d i s c r e t ec o s i n et r a n s f o r m ) ,沃尔什哈艘j ( w a l s h - h a d a m a r d ) 变换和 哈尔( r i m ) 变换。 k - l 瘦换是均方误差准则下的最优的正交变换,它能完全消除子块内像素间的 l o基于d t 网格的视频编码中的码率控制算法研究 线性相关性。经过k l 变换后各个变换系数在统计上不相关,其协方差矩阵为对角 阵,因而大大减小了原始数据的冗余度。如果丢弃特征值较小的一些变换系数, 则造成的均方误差是所有正交变换中最小的。由于k 【度换取原始图像各子块协方 差矩阵的特征向量方向为变换后的基向量,因此k l 变换的变换基是不固定的,且 与编码对象的统计特性有关,使得k - l 废换使用起来很不方便。所以,尽管k - l 度 换具有上述优点,一般只将它作为理论上的比较标准,实际上用的最多的还是离 散余弦变换( d c 砷。它的性能最接近k l 变换,而离散傅立叶变换和沃尔什变换以 及哈尔变换要差些。 由于d f t 要对n 点像素( 对一维来说) 做周期延拓,故一般在周期间的交接点处 会有一个突变,这将导致较大的高频系数,即能量不能充分集中于低频部分。而 d c r 相当于做2 n 点的d f t ,它先将原n 点像素作偶对称扩展后再做周期延拓,因此 边界没有突变,能量可以更加集中。由于d a r 具有固定基,性能最接近k - l 度换, 因而该方法是变换编码的主流。 d c t 变换,首先将输入图像分成若干n x n 的图像块,对每一小图像块进行正 交变换,从空间域变换到频域。为了达到压缩的目的,对d c t 系数需作量化处理。 低频分量采用较小的量化间隔,量化误差小,精度高。频率越高,量化间隔越大, 精度越低。这是因为高频分量只影响图像的细节,对整块图像来讲,没有低频分 量重要,读取时采用之字型。这样的处理给信号带来的损伤主要表现在:由于高 频信息的丢失,恢复图像中相邻块在边界上产生较为规则的误差分布,由于人眼 对水平和垂直方向的规则误差分布具有特殊的敏感性,使得在主观感觉上认为具 有规则误差分布的图像的质量明显降低,从而产生“块效应”。 在现行视频编码标准中几乎都采用了性能最接近k - i ,变换的d c i 变换编码。除 了采用正交变换编码外,还有子带编码和小波编码。由于正交变换编码使得图像 的能量集中在低频区域,表示图像中缓慢变化的内容,而图像的边缘、细微的纹 理等细节部分集中在变换域的高频区。为了实现压缩,通常采用同一个量化器进 行量化,这样就牺牲了图像的细节部分,造成解码图像模糊。在高压缩比时,基 于块的正交变换编码还会产生块效应( ( b l o c ke f f c ,降低图像质量。而子带编码则 是将图像分裂成几个不同频段的子带( s u b - b a n d ) ,对不同的子带设计不同的编码参 数,提高图像质量。小波变换编码充分利用了小波分析在时域和频域同时具有良 好的局部化特性,与人眼视觉特性相符的多分辨率能力,分解系数分布平稳,自 然分级的金字塔式数据结构等优点,在视频压缩领域引起广泛的关注。它利用与 正交分解完全不同的小波分解,以原始图像( 不是原始图像中的块) 为初值,不断的 将上一级图像分解为4 个子带:上一级图像中的低频信息、垂直方向、水平方向和 对角线方向的边缘信息。从多分辨率分析出发,一般每次只对上一级的低频子图 图像进行分解。将整个图像而非其中的块作为整体进行传送,因此不会产生块效 第二章视频编码方法 应。 2 2 2 预测编码刚 除了变换编码以外,预测编码是另外一种重要的图像和视频编码方法。事实 上,采用运动补偿的时问预测编码是现代视频编码标准成功的关键。预测编码是 利用图像信号的空间或者时间相关性,不是对一个像素值直接编码,而是由同一 帧或者前一帧中的相邻像素值来预测它的值,然后对预测值与实际值的差( 预测误 差1 进行编码处理和传输【2 1 1 。 差分脉冲编码调制( d p c m ) 是图像编码技术中研究最早、且应用最广的一种方 法,具有算法简单、硬件实现容易的特点。其原理框图瞄】如图2 3 所示。图中处理 单元主要包括线性预测器和量化器两部分,在这种编码方案中,首先由存储在存 储器中的几个先前重建的样点来预测输入样点,然后量化预测误差,再用可变长 编码器编码。 7 夕 7 i 三二 守一 s p 三 + 圊 图2 3 编码器 s 和s ,表示原始样点值和预测样点值,而e ,一j s ,和,分别表示原始预测误 差和量化后的预测误差。;为s 的重建值。当预测误差值不经过量化而直接编码时, 该系统就简化为无损预测编码,这对于要求无失真传输或者传输原始信号的应用 系统是非常有用的。 设当前待编码的像素为j ,0 ,其前面已编码的像素为置( f = 1 ,2 - - , 弹) ,若用这些 像素对五,进行预测,并用疵表示预测值,4 。表示预测系数,则有 预测误差为: 预测误差的均方值为: 盍o 。暑啦t e x o x o ( 2 - 7 ) ( 2 却 1 2 基于d t 网格的视频编码中的码率控制算法研究 l e ( x o g o ) 2 】 最佳预测器就是使均方误差极小。以4 。为变量,对求极小值,根据极值条 件可以得到下式: e l ( 凰一x o ) x ji 蕾0 ( 2 - 1 0 ) lj 式中,一1 ,2 ,雄。设口2 为图像信号的方差,在最佳预测条件下,预测误差 的均方值满足矿c 口2 。说明图像的预测误差信号的方差要比原始图像信号的方差 小,甚至小很多。预测误差的相关性也比原始图像的相关性弱,甚至弱很多。即 通过预测降低了图像的相关性,使得预测误差分布更加集中。 当用于预测五,的像素和瓦在同一帧内时,称之为帧内预测;当用于预测的像 素位于前一帧时,称为帧间预测。 2 2 3 量化 由预测编码和变换编码可以知道,如果没有量化,就不可能实现数据的压缩, 或者压缩比比较小。预测和变换本身并没有给图像数据带来失真,失真是由量化 造成的。可见量化是数据压缩的有效方法之一,也是图像压缩编码产生失真的根 源之一量化是指用规定范围内的一个值来表示值的一个范围。例如,把实数转 换成最接近的一个整数即是一种量化。量化范围可以被精确地表示成一整数码, 该整数码在解码过程中可用来恢复被量化的那个值。实际值与量化值之间的差值 称为量化噪声。在某些场合,人类视觉系统对量化噪声不敏感,量化噪声可以很 大,因此,量化可以提高编码效率。 , 一般,量化是模拟信号到数字信号的映射,而一旦获取到视频信号并数字化 后,量化则是指由数字量到数字量的多对一映射。量化器所要完成的功能是按一 定的规则对表达式做近似表达,即指量化器用一组有限的实数集作为输出,其中 每个数代表一群最接近于它的取样值。量化过程实际的做法是利用量化查找表使 一个输出值对应于若干个输入值。量化算法是基于人的视觉特性对不同亮度值域 的敏感程度不一样的特点,在一定输出图像质量的前提下,调节量化查找表达到 最佳的压缩比。根据量化查找表的性质,量化算法分为线性与非线性两类。此外, 根据图像数据的性质,可对不同的图像区域采取不同的量化方法,或叫动态量化。 这是目前一些实用编码方法中较多采用的量化策略。量化编码是有损编码。 量化器的设计原则为既要获得尽可能高的压缩比,又要减少量化失真,尽可 能保持高的图像质量。并以此为依据来寻找最佳量化器的设计方法。最佳量化器 主要由两类设计方法,一类为客观准则下的设计方法,当量化器的分层总数k 为一 定时,根据量化器误差的均方值为最小的准则( m m s 功进行设计i 捌;另一类为主观 第二章视频编码方法 准则下的设计方法,它使量化器的量化分层总数l 嘬小,同时保证量化误差不超过 人的视觉可见度阈值,即不被人的眼睛所发觉【2 4 l 。 量化在视频序列编码中占据着很重要的地位,因为我们是先将d c t 变换后的 系数矩阵进行量化,然后再对这个量化矩阵编码,如果量化后的非零系数越少, 则编码效果越好。 2 2 4 变长编码咖 在变长编码中,表示符号的码字的长度不是固定不变的,而是随符号出现的 概率而变化。给出现概率大的符号分配较短的码字,而给出现概率小的码字分配 较长的码字。可以证明,在非均匀符号概率分布的情况下,变长编码总的编码效 率要高于等长编码。常用的变长编码方法有两种,即哈夫曼( h u f f m a n ) 编码和算术 编码。变长编码是一种信息保持型编码,即编解码过程不会引起信息量的损失, 因为它的符号和码字之间是惟一对应的。变长是一种无失真编码方法,信息论中 已经证明,“若码字长度严格按照所对应的信息符号出现的概率大小相反的顺序 排列,则平均码字长度一定小于其它任何符号顺序排列方式,即编码是最佳的”。 其物理概念也十分清楚:对概率大的信息符号用短码表示,对概率小的信息符号 用长码,则平均码长是最短的。哈夫曼编码是一种最常用的变长编码。 哈夫曼编码方法由于其码长不固定,也称变长编码法,即v l c ( v a r i a b l el e n g t h c o d i n g ) 。变长编码的编解码过程都比较复杂,编码前要知道各符号的概率,为了 具有实时性,还要求码字具有惟一可译性,并能实时译码。 下面以哈夫曼编码为例说明一下变长编码过程,步骤如下: ( 1 ) 将口个信源按概率分布大小依递减次序排列; ( 2 ) 用0 、1 码符号分别代表概率最小的两个信源符号,并将这两个概率最小 的信源符号合并成一个符号,从而得到只包含口1 个符号的新信源,称之 为缩减信源; ( 3 ) 把缩减信源的符号仍按概率大小依递减次序排列,再将其最后两个概率最 小的符号合并成一个符号,并分别用0 和1 码表示,这样又形成了鼋一2 个 符号的缩减信源; ( 4 ) 依此继续下去,直至信源最后只剩下两个符号为止。将这两个信源符号分 别用0 和1 表示; ( 5 ) 从最后一级缩减信源开始,向前返回,就得出各信源符号所对应的码符号 序列,即对应的码字。 图2 4 是n u f f m a n 编码的一个具体实例: “ 基于d t 网格的视频编码中的码率控制算法研究 码码 长字 21 1 21 0 30 1 1 30 1 0 30 0 l 4o o o l 信概 源率 a l0 2 0 o 2 0 1 9

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论