(通信与信息系统专业论文)基于h264搜索算法的优化与实现.pdf_第1页
(通信与信息系统专业论文)基于h264搜索算法的优化与实现.pdf_第2页
(通信与信息系统专业论文)基于h264搜索算法的优化与实现.pdf_第3页
(通信与信息系统专业论文)基于h264搜索算法的优化与实现.pdf_第4页
(通信与信息系统专业论文)基于h264搜索算法的优化与实现.pdf_第5页
已阅读5页,还剩76页未读 继续免费阅读

(通信与信息系统专业论文)基于h264搜索算法的优化与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于h 2 6 4 搜索算法的优化与实现 通信与信息系统专业 研究生:陈航指导教师:徐家品 h 2 6 4 是目前最新的视频压缩编码国际标准,与以往的标准如m p e g 一1 2 4 及h 2 6 1 h 2 6 3 相比,h 2 6 4 的编码效率有了显著的提高。由于h 2 6 4 的现有算法 复杂度较高,而搜索效率的高低直接影响通信的实时性。本文针对现有搜索算 法的不足展开了进一步的研究,提出新的预处理方法、宏块的动态组合、自适 应的快速综合搜索算法。 在图像预优化处理中,通过对视频图像的傅里叶分析,可得到图像的复杂 度,提出动态宏块划分模式和自适应搜索模板选择。在改进的搜索算法中,通 过对几种传统搜索算法的优缺点分析,利用时空域运动的相关性,在搜索算法 上提出了一种新的思路。利用运动矢量中值预测方式,根据预测值与阈值t 进 行比较,如果小于阀值t ,说明视频图像运动缓慢,则采用小模板( s c s a ) 搜索 算法;反之,说明视频图像运动剧烈,则采用大模扳( l h d s p ) 搜索算法。 本文基于j m 8 2 模型,对全搜索法f s 、钻石搜索法d s 与i m p 算法进行了比较。 大量仿真实验表明i m p 算法的搜索点数只有f s 算法的1 0 2 ,是d s 算法的6 9 7 9 。i m p 算法大大降低了搜索的点数,提高了搜索的速度,减小了搜索成本。 而p s n r 值基本保持不变,数据率介于f s 与d s 之问。 采用改进的快速综合搜索算法和不同的宏块组合,能有效地提高h 2 6 4 编码 器的速度,是对h 2 6 4 的实时应用所进行的有益探索 关键词:h 2 6 4 j v t 宏块运动矢量整数d c t 变换帧内预测帧间预测 搜索算法 o p t i m i z a t i o na n di m p l e m e n t a t i o no fs e a r c h a l g o r i t h mb a s e d 0 1 1h 2 6 4 c o m m u n i c a t i o na n di n f o r m a t i o ns y s t e m s t u d e n t :c h e nh a n g s u p e r v i s o r :x uj i a p i n h 2 6 4 j v ti st h el a t e s ti n t e r n a t i o n a ls t a n d a r df o rv i d e oc o m p r e s s i n gc o d et o d a y , c o m p a r e dt ot h es t a n d a r d se x i s t e db e f o r e ,s u c h 嬲m p e g 1 2 4a n dh 2 6 1 h 2 6 3 t h ec o d i n ge f f i c i e n c yo f h 2 6 4h a sb e e ni m p r o v e d p r o m i n e n t l y b a s e do nt h ec o m p l i c a t i o no f t h ee x i s t i n ga l g o r i t h m sf o rh 2 6 4 w h i c hb e c o m e s t h eo b s t a c l eo fr e a lt i m ec o m m u n i c a t i o n , i nt h i sp a p e r , t h ed i s a d v a n t a g e so ft h e e x i s t e dr e s e a r c h a l g o r i t h m s a l es t u d i e dm o r e a n dan e wm e t h o df o r i m a g e p r e p r o c e s s ,t h ed y n a m i cc o m b i n a t i o no fm a c r ob l o c k a n da l l a d a p t i v e f a s t c o m p r e h e n s i v es e a r c ha l g o r i t h m a r ep u tf o r w a r d i nt h ei m a g ep r e p r o c c s st oo p t i m i z ei t s e l f , t h ei m a g ec o m p l i c a t i o ni so b t a i n e d b yf o u r i e ra n a l y s i so f t h ev i d e oi m a g ef r e q u e n c ys p e c t r u m , t h e n , t h ed y n a m i cm a c r o b l o c kc o m b i n a t i o nm o d e sa n dt h ea d a p t i v es e a r c ht e m p l a t e sc h o i c ea r eg i v e n a ni m p r o v e ds e a r c ha l g o r i t h mi sd e r i v e df r o mt h em o t i o nc o r r e l a t i o no f t i m e s p a c ed o m m n , w h i c hi sb a s e do na n a l y s i so fv i r t o e sa n dd r a w b a c k so fs e v e r a l t r a d i t i o n a ls e a r c ha l g o r i t h m s t h ep r e d i c t i o nv a l u ec a nb eo b t a i n e db yu s i n gm o t i o n v e c t o rm e d i a nv a l u ep r e d i c t i o n , w h i c ht h a ni sc o m p a r e dt ot h et h r e s h o l dv a l u et i f i t i sl e s st l l 孤v a l u et ,t h em o t i o no f v i d e oi m a g ei ss l o w , s c s ai sa d o p t e d ;o t h e r w i s e , t h em o t i o no f v i d e oi m a g ei sf a s t ,l h d s pi sa d o p t e 【1 i nt h i sp a p e r , f u l ls e a r c h , d i a m o ms e a r c ha n dt h ei m ps e a r c ha l g o r i t h ma l e c o m p a r e db a s e do nj m 8 2m o d e l t h er e s u l t so fs i m u l a t i o ni n d i c a t et h a tt h en m n b e r o fs e a r c h e dp o i n t si ni m p a l g o r i t h mi s1 0 2 o f t h a ti nf sa l g o r i t h ma n d6 9 7 9 o f t h a ti nd sa l g o r i t h m t h e r e f o r e ,i m pa l g o r i t i u ni m p r o v e st h es e a r c hs p e e dg r e a t l y , d e c r e a s e st h en u m b e ro fs e a r c h e dp 1 0 n t sa l l dr e d u c e st h es e a r c hc o s t - b e s i d e s , t h e p s n ri ni m pa l g o r i t h mh o l dt h el i n eb a s i c a l l y , a n dt h eb i tr a t ei sb e t w e e nt h a ti nd s a l g o r i t h ma n d t h a ti nf sa l g o r i t h m t h es i m u l a t i o nr e s u l t s s u g g e s tt h ei m p r o v e d f a s tc o m p r e h e n s i v es e a r c h a l g o r i t h mc a ng r e a t l yi n c r e a s et h ec a l c u l a t i n gs p e e do f h 2 6 4c o d e r , w h i c hi sh e l p f u l f o rr e a lt h n ea p p l i c a t i o no f h 2 6 4 k e y w o r d s :h 2 6 4 j v tm a c r ob l o c k m o t i o nv e c t o r i n t e g e rd c t i n t r ap r e d i c t i o ni n t e rp r e d i c t i o ns e a r c ha l g o r i t h m 四川大掌硕十学位论史 1 绪论 1 1 引言 二十一世纪是一个数字信息时代,数字信息化几乎涉及到了世界的各个角 落,改变了人类的生活和工作方式。以多媒体和网络为依托的信息技术己成为 拓展人类能力的创造性工具。虽然i n t e r n e t 带宽在不断增长,而且在i n t e m e t 上传 输视频的相关技术也成为研究和开发的热点,但在i n t e r n e t 上传输视频还是有许 多困难。因此,在i n t e r n e t 上有效的、高质量的传输视频流就需要多种技术的支 持,其中数字视频的压缩编码技术是i n t e m e t 视频传输中的关键技术之一。通过 高效的视频压缩技术将视频进行大幅度的压缩,可以有效的降低对网络传输带 宽的需求。 目前视频压缩编码的最新标准是h 2 6 4 ,采用的是十字形多层次六边形搜索 算法,算法比较复杂,对软硬件要求比较高。本文利用视频图像的时空域相关 性,提出了一种改进的搜索算法,从而提高了搜索速度,减少了搜索成本。 1 2 视频压缩技术的发展 传统的压缩编码是建立在香农s h a n n o n 信息论基础上的,它以经典的集合论 为基础,用统计概率模型来描述信源,由此产生了许多优秀的压缩算法,如 h u f f l _ n a n 编码、算术编码等。但它未考虑信息接受者的主观特性及事件本身的 具体含义、重要程度和引起的后果,所以压缩比不是很高。后来人们发现音频 和视频中所携带的许多信息对人来说是不敏感的,可以对这些信息进行大幅的 有损压缩,由此产生了许多优秀的视频音频压缩算法。因此压缩编码的发展历 程实际上是以香农信息论为出发点一个不断完善的过程。 目前的标准主要分为两代: 第一代视频压缩编码是基于信号处理理论的编码方法,包括预测编码、正 交变换编码、向量量化编码等。其特点是算法可靠、技术成熟,但是压缩比相 对较低。 第二代编码技术的基本思想是用图像结构模型和人的视觉系统模型来提高 1 - 网川大学颂七学位论文 编码的效率。编码技术分为两类:一是基于局部特征的编码和面向边界纹理的 编码,其特点是编码效率高但算法复杂度较高,需要的软、硬件环境比较高, 同时还依赖于对图像的理解,目前方法还不太成熟;二是目前的视频压缩标准, 主委是囤际电信联盟电信标准部i n 工t 和运动图像号家组m p e g 两个专家组制 定的。经常用到的标准有m p e g 系列( 如:m p e g l 、m p e g 2 、m p e g 3 、m p e g 4 、 m p e g 7 等) 、j p e g 系列( 如:j p e g 、j p e g 2 0 0 0 等) 、h 2 6 x 系列( 如h 2 6 1 、h 2 6 2 、 h 2 6 3 、h 2 6 4 等) 、h 3 x 系列等等。 它们推出的时间如图1 i 所示1 4 1j 。 圈 三 叵工三团 1 9 1 1 4 l p l 6l g 硼四帅 9 11 9 t 2 4 1 1 1 9 61 9 9 8 卸呻2 0 吆加 图1 1 视频压缩编码国际标准的发展 1 3 论文内容安排 本文主要研究了h 2 6 4 标准及其相关的编码技术,提出了改进的搜索算法 ( i m p 算法) ,通过与其它算法的比较,可以得出改进的搜索算法可以大大提高搜 索速度,降低搜索点数,而p s n r 值基本保持不变。 全文共分六章,各章主要内容安排如下: 第一章为绪论部分,概括了目前视频压缩编码的发展过程及现状,提出了 要进行算法优化的迫切性。 第二章介绍了视频图像理论的基础知识及编码技术,对一些经典的编码理 论进行了研究,对目前流行的一些图像标准和格式进行了分类,同时对熵编码 技术、预测编码技术( 帧内、帧间) 、变换编码技术进行了较为详细地分析。 第三章主要介绍了h 2 6 4 标准的由来和发展现状,阐述了h 2 6 4 标准的三个 框架,h 2 6 4 标准的压缩与解压缩系统和编码、解码框图,分析了h 2 6 4 的特点 i r q 川i 大学硕十学位论文 及性能优势,为提出的i m p ( i m p r o v e d ) 算法进行了必要的理论铺毽。 第四葶是本文的重点内容。首先对几种传统的搜索算法的优缺点进行了分 析。其次,对图像复杂度的判断可以采用两种方法:一是对图像频谱进行傅里 叶分析,得到图像的复杂度。二是利用运动矢量中值预测,通过对阈值的比较, 可对宏块进行动态分割、组合,按加权的原则对搜索窗口与搜索步长进行调整, 以减小不必要的运算量,提高处理的速度。在一些特殊的环境下( 如视频会 义) , 也就是运动矢最大多为零的情况,利用时空域的相关性,在搜索算法上提出了 一种新的思路,详细的分析了i m p 搜索算法的思想和过程。 第五章主要是系统仿真实验与结果分析,在峰值信噪比p s n r 、搜索点数、 压缩比上与原有的经典算法进行比较。通过实验结果表明,改进后的搜索算法 p s n r i 直基本保持不变,但是搜索点数只有f s 的1 0 3 。是d s 算法的6 9 7 9 。大 大提高了搜索速度,降低了搜索成本。 第六章是本文结束部分,对未来的搜索算法和新标准提出了设想。 四川大学硕t 学位论文 2 视频图像编码理论与技术 2 1 信源熵 信源就是个概率场。比如,全体汉字及其概率分布( 每个字的使用率) ;2 6 个英文字母及兵概率分布等等,都足信源。确切来说,这是单表或一维信源, 实际上各种文字的应用都是以单字或一串字母加上标点符号来表现的。因而把 随机变量 ,= u 。,i = 1 , 2 , 叫做信源,其中每个随机变量u ,取值于某个集合 = u 中,妒称为信源字母集( 或消息集) ,其中元素个数用m 表示,通常总假定 o o ,就是说,只限f 考虑有限离散信源。特别地。若诸随机变量u 。为独立 同分布时,则称之为无记忆信源;若它们构成马氏链,则称为马氏信源。 具体分析时,常常考虑有限长信源序列,即:u = ( u 。,己,:,u 。) 。一个k 长样本= ( ,“:,吨) 称为t 长消息,它是【,的一个实现。| 长消息的全体 个数为。由消息变为码字的映射称为信源翻码,由码字转换为消息的映射p 称为信源译码,( 厂,妒) 称为一个编码。 一般信源编码保真度准则常取下列之一: 尸渺( 厂( 以) ) = u k = 1 ,即e ( f ,9 ) = 0 ( 2 1 ) e q j ( f ( 叽) ) = u k l f ,即g ( ,妒) 占( 2 2 ) 点d ( u ,妒( ,( 扩) ) ) 占( 2 3 ) 其中0 占 1 ,如( 蚝2 ,“2 ) 为七长向量与“2 问不同分量的个数,通常 称为h 黜m i n g 距离。 2 2 视频图像的熵编码技术 图像数据压缩技术就是利用图像数据问固有的冗余性和相关性,将一个大 的图像数据文件转换成较小的图像数据文件。以压缩后的文件能否准确恢复为 标准,将压缩编码技术分为无损压缩和有损压缩。熵编码嘲方法不引起信息的 四川大学顾士学位论文 损失,所以属于无损压缩疗法。 2 2 1 熵编码的基本原理 熵编码是无失真数据压缩编码方法,它生成的码流可以经解码无失真地恢 复出原数据。熵编码是建立在随机过程的统计特性基础上的。在日常生活中, 当我们收到书信、电报、电话或图像时,称为得到了消息,在这些消息中包含 着对我们有用的信息。通常,消息由一个有次序的符号序列构成。例如,一封 英文信是利用1 1 2 6 个英文字母加上标点符号所构成的序列来传递消息的。一个 符号所携带的信息量l ( e ) 用它所出现的概率p ( 田按如下关系来定义: l 邶) 刮0 9 2 高一k g x p ( e ) ( 2 。4 ) i ( e ) 也称为的自信息。如果,( d = l ( 即事件总要发生) ,那么i ( e ) = 0 。 式( 2 4 ) 中所用对数的底数确定了用来测量信息的单位。如果底数是2 ,得到的信 息单位就是l b i t s y m b o l 。在图像处理中,底数通常都取为2 。 设信源能从一个有限或无穷可数的符号集合中产生一个随机符号序列,即 信源的输出是一个离散随机变量。这个集合h ,a 2 ,om 9 口,j 称为信源符号集a ,其 中每个元素口,称为信源符号。信源产生符号a 这个事件的概率是,( 口,) ,且:t 上 p ( a ,) = l ( 2 5 ) = l 令“= i 且q ) 尸( 口:) p ( 口,) j r ,则用( 一,“) 可以完全描述信源。 由于信源产生的符号a ,是一个随机变量,而信息量,是a ,的函数,因此j 也 是一个随机变量。如将每个信源输出的平均信息记为日似) ,则有: 上 h ( u ) = 一e ( a j ) l 0 9 2 p ( a j ) ( 2 6 ) = i ( “) 称为信源的熵。在符号出现之前,熵表示符号集中的符号出现的平均 不肯定性;在符号出现之后,熵代表接收一个符号所获得的平均信息量。因此, 熵是在平均意义上表征信源总体特性的一个物理量。 熵的大小与信源的概率模型有着密切的关系,如果符号集中任一符号出现 的概率为l ,则其他符号出现的概率必然为0 ,信源的平均信息量( 熵) 则为0 。如 l 网川大学硕士学位论文 果所有符号 f 现的概牢部小于1 ,熵则为某一正值。这说明,各符号出现的概率 分角不同,信源的熵也不同。当信源中各事件是等概率分布时,熵具有极大值。 信源的墒弓其可能达到的最大值之问的差值反映了该信源所含有的冗余度。信 源的冗余度越小,即每个符号所独立携带的信息量越大那么传送相同的信息 量所需要的序列长度越短,或符号数越少。因此,数据压缩的一个基本途径是 去除信源产生的符号之日j 的相关性,尽可能地使序列成为无记忆的,即前一个 符号的出现不影响以后任何一个符号出现的概率。而对于无记忆的信源而言, 在等概宰情况下,离散平稳无记忆信源的熵具有极大值。因此,数据压缩的另 一个基本途径足改变离散无记忆信源的概率分布,使其尽可能地达到等概率分 靠的目的。 2 2 2 霍夫曼编码 霍夫曼编码足消除编码冗余最常用的方法,是霍夫曼于1 9 5 2 年为压缩文 本文件建芷的。它被广泛应用于各种数据压缩技术中。且仍不失为熵编码中的 最佳编码方法之一。霍夫曼编码的理论依据是变字长编码理论,其基本思想是, 对出现概率较大的符号取较短的码长,而对出现概牢较小的符号则取较长的码 长。霍夫曼码通常称为最优码。最优的含义是,对于给定的符号集和概率模型, 找不到任何其他码比霍夫曼码更短的平均字长。所谓整数码是指每个符号所对 应的码字的位数足整数。 霍大曼编码的具体步骤归纳如下: 概率统计,得到栉个不同概率的信息符号。 将”个信源信息符号的 个概率,按概率大小排序。 将个概率中,最后两个小概率相加,这时概率个数减为以一1 个。 将一一1 个概率,按大小重新排列。 蘑复步骤,将新排列后的最后两个小概率再相加,相加和与其余概率 再排序。 如此反复重复”一2 次,得到只剩两个概率的序列。 以二进制码元( o ,1 ) 赋值,构成霍夫曼码字,编码结束。 霍夫曼码字长度和信息符号出现的概率大小次序正好相反,即大概率信息 符号分配码字长度短,小概率信息符号分配码字长度长。 矗 朋川大学硕i - 学位论史 下面通过一个例子来说明霍夫曼编码的过程。假设构成信源的符号以及它 们各自出现的概率如式( 2 7 ) 所示: 码字符号概率 i 3 1 1 1 ,5 1 0 0 q 1 1 6 1 0 1 毛1 2 0 屯岛1 三三上 ( 2 7 ) 5 62 0 j 0 图2 1 霍夫曼编码过程 在第一步中,概率最小的两个符号_ 和如合并,其合并事件概率为旦6 0 由于; 5 ) ,i j = 0 ,l - - , 1 5 ( 2 1 1 ) 这里: a = 1 6 ( ,( 一1 ,15 ) + p ( 1 5 - 1 ) )( 2 1 2 ) b = ( 5 h + 3 2 ) 6( 2 1 3 ) 四川大学硕十学位论文 c = ( 5 x v + 3 2 ) 6 ( 2 1 4 ) 其中,h 、v 由下式决定: 7 h = ( f + 1 ) ( p ( 8 + f ,一1 ) - p ( 6 - i , - d ) ( 2 1 5 ) f ;o l 矿= ( _ ,+ o u ( - i ,s + j ) - p ( - 1 , 6 - j ) ) ( 2 1 6 ) j ;o f 3 ) 8 x 8 色度堤的帧内预测及编码 在4 :2 :o 的图像格式下,色度信号的水平分辨率和垂直分辨率都是亮度信 号的一半,对应每一个亮度宏块有两个8 x 8 的色度块c b ,c r 。对于色度信号h 2 6 4 只肓一种预测方法,如图2 7 所示。每一个色度块包含4 个4 x 4 1 拘子块a 、b 、c 、 d ,s 0 ,s ,s :,s ,足与其相邻的四个像素值的和。 s i ab 如 岛 cd 图2 78 x 8 色度块的预测方法 如果s 。,s l ,s 2 ,s 3 都在本幅图像内,则: a = ( s o + 是+ 4 ) 8b = ( s + 2 ) 4 c = ( 岛+ 2 ) 4d = ( s i + 墨+ 4 ) 8 如果只有s 。,s 。在本幅图像内,则: a = ( s o + 2 ) 4b = ( s + 2 ) 4 c = ( s + 2 ) 4d = ( s + 2 ) 4 如果只有s ,s ,在本幅图像内,则: a = ( s 2 + 2 ) 4b = ( 咒+ 2 ) 4 c = ( s 3 + 2 ) 4d = ( 岛+ 2 ) 4 ( 2 1 7 ) ( 2 t s ) ( 2 1 9 ) 网儿l 大学硕十学位论史 如果s 0 ,s ,s ,s ,都不在本幅图像内,则所有预测值都取1 2 8 。 衡量预测方式的标准是绝对误差和( s a d l 5 j ,s u mo fa b s o l u t ed i f f e r e n c e ) , 使预测帧更加接近于原始帧,减少了相互间的差异,去除时间上的冗余,提高 了编码的压缩效率。在帧内预测中,块或者宏块利用已编码并重建的块作为参 考,进行预测。选取s a d 值最小的模式作为最佳预测模式,并将该模式信息化, 同时传送至解码端,经过正确解码。 2 3 3 帧间预测编码 帧间预测编码( i n t e r ) 有二类:第一种是忽略( s k i p ) ,表示本宏块与上一帧相 应宏块完全相l 司,没有附加信息需要传送,在解码端只需要将上一帧解码后的 图像中相应宏块拷贝一份进行图像重建即可。第二种代表本宏块采用帧间预测 的方法,而且进行运动搜索的预测块的大小为n m ,在h 2 6 4 的预测模式中, 根据n 和m 的不同,一个宏块( m b ) 可划分成7 种不同模式的尺寸,这种多模式的 灵活、细微的宏块划分,更切合图像中的实际运动物体的形状。于是,在每个 宏块中可包含有1 、2 、4 、8 或1 6 个运动矢量。 由于本文是在宏块的动态分割和搜索算法上提出了自己的观点。 2 3 4 运动估计 h 2 6 4 在运动估计中采用了许多新技术,主要包括有可变块大小、多帧运动 估计、亚像素精度的运动估计以及去块效应滤波( d e - b l o c k i n gt i l t e r ) 等。 ( 1 】可变块大小 2 1 进行运动估计时使用的块大小对运动估计的效果是有影响的。使用比较小 的块可以使得运动估计更精确,从而产生较小的运动残差,达到降低码率的作 用。 在h 2 6 4 0 e 提供了更多的块大小以供选择。这样,一个宏块最多可以携带1 6 个不同的运动矢量。配合多帧运动估计,同一宏块中的不同块还可以使用不同 的参考帧来进行预测。图2 8 所示为h 2 6 4 中提供的不同块大小模式。 在使用可变块大小的时候,压缩后的输出码流是由若干部分组成的,即; 变通的文法元素、运动矢量和预测残差。通过使用可变块大小,可以使得预测 四川大学硕十学位论丈 残差部分所占的码流有所降低。但是由于运动矢量地增多,对运动矢量进行编 码所耗费的码率也会相应的增加。尤其在低码率的情况下,运动矢量编码输出 占据了码流相当丈的部分,这时就要折衷考虑进行模式的选择,这就涉及到了 编码器的优化问题。通过实验可以得出,使用宏块组合模式可以较大的改善性 能。 m a 如l 1 6 x 1 6 块 1 个运动矢羞 m o d e2 2 个1 6 8 块 z 个运动矢量 m o d e3 2 个8 1 6 块 2 个运动矢量 m o d e4 4 个8 x 8 块 4 个运动矢量 口日田田 m o d c5 8 个4 x 8 块 8 个运动失量 m a d c6 8 个8 x 4 块 8 个运动矢量 m o 赴7 1 6 十4 x 4 块 1 6 个运动矢量 田目田 图2 8h 2 6 4 中不同块大小的模式 ( 2 ) 去块效应滤波器( d e b l o c k i n gt i l t e r ) 去块效应滤波在h 2 6 3 已被a n n 戗j 提出,其作用就是用来消除解码图像 中的块效应。块效应产生的原因足由于各个宏块分别进行量化,因此在相邻宏 块的交界处。因量化步长不同而导致原本相接近的像素值重构后产生了较大的 差异,形成明显的块边界。去块效应滤波器通过在4 x 4 的块边界上滤波,使块 边界趋于缓和,从而达到去除块效应的目的。 ( 3 ) 亚像素精度的运动估计 亚像素精度的运动估计在视频编码中已经十分常见,在m p e g - 4 和h 2 6 3 中,都采用了半像素精度的运动估计算法。在h 2 6 4 中,更是把运动估计的精度 提高到l 4 像素。并且把1 8 像素精度的运动估计作为了一个可选项。 与半像素精度的运动估计样,l ,4 像素精度的运动估计使用内插得到半像 素和1 4 像素位置的点,如图2 9 所示。 四川大学硕士学位论文 在图2 9 中,灰色的点代表整数位置的像素点,其它的为小数位置的像素点。 一个典型的内插过程见图2 9 : 囹囵团回国囹囝 囹园围固国囵囵 国团 团回 国国 溅 _ 溺 df hi l k皿i 圈国 田团 国图 囹团国回团囵囵 囫囹园固国囡囵 图2 9l ,4 像素精度的运动估计的像素插值 要得n 2 采样点b 和h ,先是通过6 t a p 滤波器分别计算中间值b i ,啊: 6 1 = ( e 一5 f + 2 0 g4 - 2 0 h - 5 1 + 力( 2 2 0 ) 氟= ( a 一5 c + 2 0 g + 2 0 m 一5 眉+ d ( 2 2 1 ) b 和h 的最后预测值再经过如下计算,并将结果限制在0 至1 1 2 5 5 。 b = ( 执+ 1 6 ) 5( 2 2 2 ) h = ( j i l l + 1 6 ) 5 ( 2 2 3 ) 在位置j 处的1 2 采样点是通过下式得到的: = c c 一5 d d + 2 0 啊+ 2 0 m i s e e + ( 2 2 4 ) 其中卯,d d ,p p ,肌,的中问值的得到方法与 类似。最后的预测值,的计算 是_ ,= ( j l + 5 1 2 ) 1 0 ,并将结果限制在0 到2 5 5 。两种方法都可以得到,这说 明在生成这一位置的1 2 像素时,滤波操作确实是可分离的。 l ,4 采样点口,c ,d ,玎,f ,t ,q 是通过平均两个最近的整数和l 2 采样点得到 的。 a = ( ( g 十6 ) 1 ,c = ( 日+ 6 ) 1 ) ( 2 2 5 ) 17 - 四j 1 l 大学碗十学位论文 这样,再使用相应的运动估计算法( 全搜索、三步法等) 就可以得到l 4 像素 精度的运动矢量。 h 1 多帧运动估计 多帧运动估计指的是运动估计中的一类方法,就是使用多个参考帧来估计 运动矢量。如果将单帧运动估计技术视为多帧运动估计技术的一个特例的话, 那么多帧运动估计的优点足显而易见的。 h 2 6 4 中使用的多帧运动估计技术称为长记忆运动估计( l o n g - t e r mm e m o r y m o t i o ne s t i m a t i o n ) ,它是对单帧运动估计技术的简单扩展,即在多个参考帧中 找到一个预测误差达到最小的运动矢量。而在其它的多帧运动估计技术中,情 况印不一定如此。比如,在多假设运动估计( m u l t i p l e h y p o t h e s i s m o t i o n e s t i m a t i o n ) 中需要找到多个预冽真正的预测由这些预测插值产生类似于m p _ e g - ! q 中的b 帧。 长记忆运动估计相对于普通的单帧预测具有下述优点:是更高效率的运 动估计;二是更强的差错稳健性。由于帧日j 编码技术使用前面的帧作为参考, 所以一旦一个帧中出现了错误,那么将会影响到后面的帧、从而导致错误的传 播。若在解码器和编码器之b j 设置一个反馈回路,解码器就可通知编码器发生 错误的帧,强迫编码器使用其它帧进行运动估计,从而可以防止差错传播。 当然,多帧运动估计也有不足之处,比如内存需求增大和运算复杂度上升, 这些都足在当前研究中需要克服的方面。 2 4 视频图像的变换编码技术 2 4 1 变换编码的基本概念 绝大多数图像都有一个共同的特征:平坦区域和内容缓慢变化区域占据一 幅图像的大部分,而细节区域和内容突变区域则占小部分。也就是说,图像中 直流和低频区占大部分,高频区占小部分。如果将空间域的图像变换到频域或 所谓的变换域,就会产生相关性很小的一些变换系统,并可对其进行压缩编码, 即所谓的变换编码。 变换中有一类叫做正交变换,可用于图像编码。自1 9 6 8 年利用快速傅里叶 四川大学颂七学位论文 变换进行图像编码以来,出现了多种正交变换编码方法,如k - l 变换、离散余 弦变换( d c t ) 等等。其中,编码性能以k - l 变换最理想但缺乏快速算法,且变 换矩阵随图像而异,不同图像需要计算不同的变换矩阵,因而一般只用来做参 考比较。 由于d c t 编码性能最接近于k l 变换,而且有快速算法,现已广泛应用于 图像编码。在h 2 6 4 中,采用的足整数d c t 变换f 堋。 2 4 2 整数d c t 变换 传统的d c t 无论在运算精度还是复杂度上部存在明显的不足。在运算精度 方面,由于变换中存在无理数,在变换时不得不对变换后的系数进行四舍五入, 从而导致反变换后不能精确地恢复原始数据。此外,由于d c t 存在多种快速算 法,故当编码器和解码器适用的算法不能很好地匹配时,会使得编码器解码回 路的解码结果( 用作编码器的参考帧) 跟解码器的解码结果( 用作解码器的参考帧) 不一致,从而产生参考帧的偏移。这就是传统d c t 中常见的不匹配( m i s m a t c h ) 问题,严重时对重建图像的质量会有很大的影响。 由于传统d c t 的这些弱点,在h 2 6 4 中引入了整数d c t 变换。它的正反变换 矩阵分别为; 日2 11 21 ll l一2 l1 12 11 2一l h m = ll l 三 2 11 1 1 2 1 一! 一11 2 1 1 1 一:1 2 其中的系数基本上都是整数( 1 2 可以用移位代替) ,这样不但解决了精度问 题,而且由于乘法均可由移位运算代替,运算的复杂度也大大降低。 需要注意的是,疗。并不是日严格意义上的反函数: 詹0 i f = d i a g ( 4 ,5 ,4 ,5 ) ( 2 2 7 ) 四川大学硕士学位论文 童= 鼠。h x h 7 疗7 。: 1 62 0 2 02 5 1 62 0 2 02 5 1 62 0 2 0 2 5 1 62 0 2 0 2 5 o x 确切地讲厅。应被称为日的按比例反( s c a l e d i n v e r s e ) 。依次进行正反变换 的结果,相当于原始像素矩阵z 中的每个点分别乘以不同的因子。这一点对重 建没有影响,可以通过合理设计的量化表予以补偿。 在h 2 6 4 中的宏块大小为1 6 x 1 6 ,对其中每个4 x 4 大小的块进行上述d c t 变 换后,得到1 6 个4 x 4 的变换矩阵。为进一步提高压缩效率,还允许把每个4 x 4 的 变换矩阵中的直流分量( 位于矩阵左上角的元素) 单独取出组成一个新的4 4 矩 阵,对此矩阵进行h a r d a m a r d 变换。 2 4 3变换编码与预测编码的比较 由以上讨论可知,变换编码实现比较复杂。预测编码的实现相对容易,但 预测编码的误差会扩散。以一行为例,由于后面的像素以前面的像素为参考, 前面像素的预测误差会逐步向后面的像素扩散。而且在二维预测时,误差会扩 散至后面几行,形成区域误码。因此,对信道误码率的要求很高,一般要求不 大于1 0 。6 。相比之下,变换编码则不会造成误码扩散,其影响只限制在一个块 内,而且反变换后误码会均匀分散到块内各个像素上,对视觉没有什么影响。 这时,信道误码率一般不大于1 0 4 即可。 两者各有优缺点变换编码随着v l s i 技术的飞跃发展,实现起来十分容易。 现实中,往往采用混合编码方式。即对图像先进行运动补偿的帧问预测编码, 再对预测后的残差信号进行d c t 变换。这种混合编码方式也成为许多视频压缩 编码国际标准的基本框架。 2 5 视频图像的分类 2 5 1 图像压缩标准分类 图像压缩标准可分为m p e g 系列、j p e g 系列、h 2 6 x 系列等。它们推出的 - 2 0 - 四川大学硕士学位论文 时f b j 见圈i 1 所示。 ( 1 ) m p e g 系列 m p e g - 1 标准主要是用于传输1 1 5 m b p s 数据传输率的数字运动图像及其伴 音的编码,采用c i f 视频格式,具有随机存取、快速正向( 或逆向) 搜索、逆向重 播、视听同步、容错性、编码解码延迟等功能。经过m p e g l 标准压缩后,视 频数据压缩率为1 1 0 0 1 2 0 0 ,音频压缩率为1 6 5 。m p e g - 1 能提供每秒3 0 帧 3 5 2 x 2 4 0 分辨牢的图像。它主要用于c d r o m 上的交互系统以及电信网络上的 视频传送。m p e g - i 视频编码部分的基本算法与h 2 6 l h 2 6 3 相似,但又引人了 帧内帧( i ) 、预测帧口) 、双向预测帧( b ) 和直流帧( d ) 等概念,进一步提高了编码 效率,旨在达n v h s ( v i d e oh o m es y s t e m ) 质量,对于动作不剧烈的视频信号能 获得较好的图像质量,但如果图像对象动作剧烈时,图像有可能产生马赛克现 象。 m p e g - 2 核心部分与m p e g - i 基本相同,是在m p e g i 基础上的进一步扩展 和改进,克服并解决了m p e g - l 不能满足日益增长的多媒体技术、数字电视技 术对分辨率和传输率等方面的技术要求缺陷。它可以支持固定比特率传送、可 变比特率传送、随机访问、信道跨越、分级编码、比特流编辑等功能从本质 上讲,m p e g - 2 可视为一组m p e g l 的最高级编码标准,它保留了m p e g 1 所提 供的所有功能,并设计成与m p e g - 1 兼容,但又增加了基于帧场的运动补偿、 空间可伸缩编码、时间可伸缩编码、质量可伸缩编码以及容错编码等新的编码 技术。m p e g - 2 标准的传输速率为1 0 m b p s ,与m p e g 1 兼容适用于1 5 6 0 m b p s 甚至更高的编码范围。m p e g - 2 有每秒3 0 帧7 0 4 x 4 8 0 的分辨率。主要应用于数字 有线电视,通过a t m 进行视频传输的业务以及会议电视等。 m p e g 一4 的第二版完成于1 9 9 9 年。初始的名称是“甚低比特率音频视频编 码”,后定义为“音视频目标编码”。码率限制的消失意味着适用于更宽广的码率 范围,而把“视音频编码”转变为对“视音频对象”的编码则是一次质的飞跃。但 是m p e g - 4 的基本视频编码器还是属于和h 2 6 3 相似的一类混合编码器它的最 高图像分辨率7 2 0 x 5 7 6 ,最高数据流量5 - 1 0 m b p s ;普通p a l 带i j 式分辨率7 2 0 5 7 6 , 一般数据流垦8 s 0 k b p s 。m p e g - 4 与m p e g - 1 、m p e g - 2 的区别主要体现在以下几 点: 基于内容的编码,即不是像m p e g - 1 ,m p e g 2 基于像素的编码,而是基 朋川丈学硕士学位论文 于对象( o b j e c t ) 和实体( e n t i t y ) 进行编码; 编码效率的改进和并发数据流: 错误处理的鲁棒性,有助于低比特率的视频信号在高误码率环境( 如移动 通信环境) 下的存储和传输: 基于内容的可伸缩性( s e a l a b l e ) ,用户可以有选择的只对感兴趣的对象进 行传输、解码和显示; m p e g ,2 足基f “推”的概念,就是说信号源提供什么,显示设备就显示什 么信号源在“推”显示设备,这在网络时代表现了一定的局限性。而m p e g - 4 是辏f “拉”的概念,就足说显示设备需要显示什么,就要求信号源提供什么。 如果连接速度比较慢,要么等待信号源传输高质量的图像和声音,要么要求信 号源只传输史时的低质量图像和声音,就如同显示设备垄“拉”信号源。 m p e g 4 标准的目标是低比特率下的多媒体通讯。它采用的是a v 对象 ( a u d i o v i s u a lo b j e c t ) 技术。应用非常广泛,如实时多媒体监控,i n t e r a c t 上的视 频流与可视游戏、会议电视、数字电视等等。 m p e g 7 标准的称谓是多媒体内容描述接口,它对各种不同类型的多媒体 信息进行标准化的描述并将浚描述与所描述的内容相联系,以实现快速有效 的搜索。该杯准不包括对描述特征的自动提取,它也没有规定利用描述进行搜 索的工具或任何程序。它的应用范围很广泛,如应用于媒体信息的存储( 在线或 离线) 、流式应用( 如广播等) 、数字图书馆、多媒体名录服务等等。 ( 2 ) j p e g 系, 列 1 9 8 6 年,i s o 与c c i t t 联合成立“联合图片专家组( j o i n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论