(信号与信息处理专业论文)基于感知模型的自适应码率控制算法的研究.pdf_第1页
(信号与信息处理专业论文)基于感知模型的自适应码率控制算法的研究.pdf_第2页
(信号与信息处理专业论文)基于感知模型的自适应码率控制算法的研究.pdf_第3页
(信号与信息处理专业论文)基于感知模型的自适应码率控制算法的研究.pdf_第4页
(信号与信息处理专业论文)基于感知模型的自适应码率控制算法的研究.pdf_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

上海大学硕士学位论文 摘要 随着信息社会的到来,多媒体应用需求越来越大,如何有效提高视频编码效 率和性能,一直是视频编码领域研究的热点。其中一个关键的问题就是在码率受 限的情况下,如何优化码率控制算法,使得在不发生缓冲区溢出的条件下,尽可 能的使比特数得到合理的分配。而在评价视频编码算法性能的时候,不能只看失 真大小或是输出码率大小。一般需要结合输出码率和编码失真一起考虑。从另一 方面来看,就是在同等失真( 视频质量) 下,输出码流码率越低,编码算法效率 也越高。从本质上讲,就是在给定的失真约束下,如何合理采取各种技术对信源 以最小码率进行描述的问题;或是在一定输出码率约束下,如何尽可能减小失真, 提高视频质量的问题。 现存的视频编码算法大多采用率失真优化来去除视频的统计冗余信息,而算 法中评价视频编码失真的准则通常为均方误差( m s e ) 和峰值信噪 : f i ( p s n r ) 。该评 价准则并不和人眼视觉系统( h u m a nv i d e os y s t e m ,h v s ) 对于视频的评价完全一 致,因此该类视频编码算法存在不能去除生理一心理信息冗余的缺陷,而人眼是 最终的信息接收者,信噪比高的帧并不一定有最佳的主观视觉质量。 为了利用相同的、甚至更少的比特数获得更佳的主观视觉质量,本文的主要 贡献有: 1 建立了一种基于人眼视觉系统的感知模型,将反映视觉感知系统某部分特征 的宏观描述统一到一个整体的数学模型中,特别是将人眼对于运动信息的感 知特性与频率特性等其他信息相融合; 2 在分析j v t - g 0 1 2 算法的优点与不足之后,建立了一种基于感知模型的自适 应码率控制算法,该算法利用感知模型分析当前编码帧的复杂度与编码单元 的视觉关注度之后,对帧级比特数进行二次分配和对基本单元层量化参数调 整: 3 建立了一种新的感知m a d 预测模型和感知基本单元比特数预测算法来取代 j v t - g 0 1 2 中原有的算法,该算法将宏块m a d 的预测与比特数的分配与人眼 联系在了一起,不仅客观上p s n r 增加,主观的视觉质量也得到极大的提高; 上海大学硕士学位论文 4 针对场景切换产生的码率突变导致视觉质量突变问题提出了一种预警装置。 关键词:h 2 6 4 ,感知模型,h v s ,视觉关注度,码率控制 上海大学硕士学位论文 a b s t r a c t w i t ht h ec o m i n go ft h ei n f o r m a t i o na g e ,t h ea p p l i c a t i o n so ft h em u l t i m e d i aa r e m o r ea n dm o r e h o wt oe f f e c t i v e l yi m p r o v et h ev i d e oe n c o d i n ge f f i c i e n c ya n d p e r f o r m a n c eh a sa l w a y sb e e nah o ts p o ti nt h ev i d e oe n c o d i n gf i e l d o n eo ft h ek e y p r o b l e m si sh o w t oo p t i m i z et h ec o d er a t ec o n t r o la l g o r i t h mw h e nt h ec o d er a t ei s r e s t r i c t e d ,s oa st or a t i o n a l l yd i s t r i b u t et h eb i t si nt h ec o n d i t i o nt h a tt h eb u f f e rc a l ln o t b eo v e r f l o w i n g w h e ne v a l u a t et h ee f f i c i e n c yo ft h ev i d e oe n c o d i n ga l g o r i t h m ,w e s h o u l d n tf o c u so nt h ed i s t o r t i o no rt h eo u t p u tc o d er a t es e p a r a t e l y , b u tc o n s i d e r 、加m c o o r d i n a t i n gb o t he l e m e n t s i nt h e o t h e rh a n d ,u n d e rt h es a n l ed i s t o r t i o n ( v i d e o q u a l i t y ) c o n d i t i o n , t h el o w e rt h eo u t p u te n c o d i n gr a t ei s ,t h eh i g h e rt h ee n c o d i n g a l g o r i t h me f f i c i e n c yw i l lb e t h er a t eh e r ei st h eo u t p u tc o d er a t ea n dt h ed i s t o r t i o n i se n c o d i n gd i s t o r t i o n w h a ti s ,i ne s s e n c e ,t h ep r o b l e mi sh o wt or e a s o n a b l yu s e v a r i o u st e c h n o l o g i e st od e s c r i b et h ei n f o r m a t i o ns o u r c ew i t hm i n i m i z i n gc o d er a t e w h i l et h ed i s t o r t i o ni sf i x e d ,i no t h e rw o r d s ,i ti sh o wt od e c r e a s et h ed i s t o r t i o na n d i m p r o v et h ev i d e oq u a l i t yw h i l e t h eo u t p u tc o d er a t ei ss t a b l e m o s tr e c e n t l yv i d e oe n c o d i n g a l g o r i t h m sm a i n l yu s et h er a t e d i s t o r t i o n o p t i m i z i n gt oc a s ta s i d et h er e d u n d a n ti n f o r m a t i o no ft h ev i d e os t a t i s t i c ,w h i l e ,硒f o r t h ea l g o r i t h m s ,m s ea n dp s n ri st h ec o m m o ns t a n d a r dt oe v a l u a t et h ev i d e o e n c o d i n gd i s t o r t i o n t h ev i d e oe v a l u a t i n gr e s u l to ft h i ss t a n d a r di sn o ta c c o r d i n gw i m t h ei - r v s o a u n a mv i d e os y s t e m ) ,s ot h e s es o r to fv i d e oe n c o d i n ga l g o r i t h m sh a v et h e d e t e c t i v et h a tc a nn o tg e tr i do f ft h er e d u n d a n ti m f o r m a t i o nf r o mt h ep h y s i c a la n d m e n t a la s p a c t s h u m a ne y e sa r et h eu l t i m ai n f o r m a t i o nr e c i e v e r , t h u st h eh i g h e rs n r f l a m ec o u l dn o ta l w a y sh a v et h eb e s ts u b j e c t i v ev i d e oq u a l i t y i no r d e rt og e tb e t t e rs u b j e c t i v ev i d e oq u a l i t yw i t ht h es a m eo rl e s sb i t s ,t h i s t h i e s ed om u c hw o r k ss u c ha s : 1 s e t su pa p e r c e p t u a lm o d e lt h a tc a l lr e f l e c tt h ep a r t i a lc h a r a c t e r i s t i c so ft h eh v s i n t oaw h o l em a t h e m a t i c sm o d e l ,e s p e c i a l l yc o m b i n e st h eh u m a nv i d e op e r c e p t u a l i i i 上海大学硕士学位论文 c h a r a c t e r i s t i ct ot h em o b i l ea n dt h ef r e q u e n c yi n f o r m a t i o nw i t l lo t h e rp e r c e p t u a l c h a r a c t c r i s t i c s ; 2 a f t e ra n a l y z i n gt h ej v t - g 012a n dg e t t i n gi t sa d v a n t a g ea n dd i s a d v a n t a g e ,t h e t h i e s es e t su paa d a p t i v er a t ec o n t r o la l g n t h mw h i c hb a s e do nt h ep e r c e p t u a l m o d e l t h ea l g o r i t h md i s t r i b u t et h er a t eo ft h ef l a m ea n dc h a n g et h eq po ft h e m ba c c o r d i n gw h i tt h ev i s u a la t t e n t i o na n dt h ef r a m e sc o m p l i c a t i o nt h o s e c o m p u t ef r o mt h ep e r c e p t u a lm o d e l ; 3 t a k e st h ea d v a n t a g eo fp e r c e p t u a lm a dm o d e la n dt h eb a s i cu n i tf o r c a s t a l g o r i t h m sr e p l a c et h ej v t - g 0 12a l g o r i t h m o u ra l g o r i t h mc o n t a c tw i t ht h eh v s , n o to n l yi n c r e a s et h ep s n r , b u ta l s oi n c r e a s et h es u b j e c t i v ev i s u a lq u a l i t y ; 4 g i v e sa na l a r ma l g o r i t h mt os l o v et h ep r o b l e mo fv i s u a lq u a l i t yc h a n g i n gb e c a u s e o ft h es c e n ec h a n g e k e y w o r d s :h 2 6 4 ,p e r c e p t u a lm o d e l ,h v s ,v i s u a la t t e n t i o n ,r a t ec o n t r o l 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发表 或撰写过的研究成果。参与同一工作的其他同志对本研究所做的任何 贡献均己在论文中作了明确的说明并表示了谢意。 签名:燃e l 期:堡虚塑型9 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即:学 校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学校可 以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 上海大学硕士学位论文 1 1 引言 第一章绪论 以计算机技术、视频、音频和通信技术为基础的多媒体技术通过网络使人们 的生活更加丰富多彩。而视频作为多媒体信息的关键内容在i n t e m e t 上占据非常 大的存储空间和带宽。由于带宽和存储空间的有限性,海量视频数据的压缩编码 一直是信息处理领域中倍受关注的研究热点。涌现了面向各种应用的视频编码标 准:h 2 6 1 ,h 2 6 3 ,m p e g 1 ,m p e g 2 ,m p e g - 4 ,h 2 6 4 以及a v s 1 - 3 1 。这些 编码标准中采用的压缩技术,主要以香农的信息论为基础,采用便于数学计算的 视频质量评价准则,去除视频信息在空间和时间上的统计冗余,从而得到受信息 熵约束的视频码流。但随着各种压缩编码技术的日趋完善和成熟,压缩效率已达 到较高水平,压缩比已经接近香农理论框架下的极限,很难有进一步的提高。为 了进一步提高压缩效率满足越来越高的实际需求,寻找提高压缩效率的新方法和 技术已迫在眉睫。近年来,结合视觉感知模型的编码方法受到极大的关注,这些 方法主要是挖掘和利用人眼视觉系统( h u m a nv i d e os y s t e m ,h v s ) 的特性来提高 压缩效率,产生主观质量更好的更低的压缩码流。 如何有效提高视频编码效率和性能,一直是视频编码领域研究的热点。其中 一个关键的问题就是在码率受限的情况下,如何优化码率控制算法,在不发生缓 冲区溢出的条件下,尽可能的使比特数得到合理的分配。数字视频的信息量是相 当大的,这给它的传输及存储都带来了极大的困难。而另一方面,视频信息的冗 余度很高,这给它的压缩及编码提供了可能。从这个意义上讲,数字图像及视频 技术的发展过程,同时也是图像及视频压缩技术的发展过程。 而在评价视频编码算法性能的时候,不能只看失真大小或是输出码率大小。 一般需要结合输出码率和编码失真一起考虑。比如,在同样的输出码率情况下, 失真越小意味着图像质量越好,编码算法性能也越好;另一方面,在同等失真( 视 频质量) 下,输出码流码率越低,编码算法效率也越高。由此可见,码率控制算 法优化问题实际上是一个率失真优化问题,这里的率是输出码率,失真是编码失 上海大学硕士学位论文 真。从本质上讲,就是在给定的失真约束下,如何合理采取各种技术对信源以最 小码率进行描述的问题;或是在一定输出码率约束下,如何尽可能减小失真,提 高视频质量的问题。 对于面向存储的多媒体应用来说,在保证有限的失真的前提下,如何优化视 频编码算法尽可能降低输出码率,同样有着重要的意义。同等视频质量下,码率 越低意味着存储编码码流所需要的存储容量越小,这将大大减小媒体存储介质的 成本。 在实时视频应用和面向存储的应用情况下,如果在相同码流的情况下,基于 感兴趣区域的码率控制算法能极大的提高主观视频质量。现存感知编码算法中几 乎没有在现存的编码框架的各个模块中综合考虑人眼感知模型的算法,现存的 视频编码算法大多采用率失真优化来去除视频的统计冗余信息,而算法中评价视 频编码失真的准则通常为均方误差( m s e ) 和峰值信噪i :l ( p s n r ) 。该评价准则并不 和人眼视觉系统( h v s ) 对于视频的评价完全一致,因此该类视频编码算法存在不 能去除生理一心理信息冗余的缺陷。在实时视频应用中,同等视频质量下,如果 编码输出码流的码率越低,那么传输码流所需的带宽越小,这将大大提高网络带 宽的利用效率。特别是对于p 网络环境下的视频应用,有着极其重要的意义。 而对于面向存储的多媒体应用来说,在保证有限的失真的前提下,如何优化视频 编码算法尽可能降低输出码率,同样有着重要的意义。同等视频质量下,码率越 低意味着存储编码码流所需要的存储容量越小,这将大大减小媒体存储介质的成 本。 基于视觉感知模型的视频编码的应用领域非常广泛。它涵盖了传统视频编码 标准的所有应用范围,包括:视频点播( v o d ) 、视频会议、数字电视、视频检 索、视频摘要、视频监控等。由于在编码端引入了人类视觉的感知模型,对于这 些应用领域的方法的研究必将产生深刻影响。视频编码算法的优化是视频压缩编 码领域的一个重要研究方向。一方面,正是各种不受码流语法结构限制的视频编 码优化技术的发展促进了一系列视频编码标准的提出,使得多媒体应用越来越广 泛;另一方面,在特定编码标准框架下,研究码流语法结构受限的视频编码优化 对于提高编码性能有着重要的意义。可以在保证一定编码质量情况下,尽可能降 2 上海大学硕士学位论文 低码率以节省传输带宽,或是在一定输出码率情况下,尽可能提高编码视频主观 质量。 此外,视频传输面临着更大的挑战,因为用户的期望值越来越高,对带宽的 要求也很高,但是信道传输的带宽往往是有限的。针对这种情况,就要求视频的 传输必须有更高的压缩比和在主观上更高的质量。由于图像的最终观察者总是人 眼,所以我们需要一种提高感官上图像质量的方法,于是出现了基于感兴趣区域 的比特分配策吲4 切,按照这种策略,一幅图像上视觉敏感程度最高的区域会以 较高的质量编码,而视觉敏感程度较低的区域会以较低的质量编码。即对人眼较 为敏感的区域分配多一些比特位数,而对人眼不太敏感的区域分配少一些比特位 数,从而不会在对于人眼视觉而言并不重要的区域上浪费比特数。 1 2码率控制及视觉特征模型与编码技术的发展现状 码率控制是视频编码的关键技术之一,其控制效果的好坏直接影响到码流的 带宽和解码图像质量。由于图像序列中各帧图像的复杂度和运动性大小的非平稳 性,导致其压缩编码后的输出码流产生很大的波动,所以需要采用适当的码率控 制策略将这种波动控制在一个限定的范围之内【弘1 0 】。现有的视频压缩国际标准对 码率控制部分是开放的,可以根据不同的情况采用不同的码率控制算法,该领域 也是目前的研究热点。 以往的视频压缩标准如m p e g - 4 、h 2 6 3 等都对此进行了广泛的研究。比如 h 2 6 3 的t m n 8 运用拉格朗日乘子法,根据当前帧中每一个宏块运动残差的方差 来进行宏块级比特分配和量化级计算。m p e g 4 的v m 8 根据本帧预测残差的 m a d 来进行帧的量化级计算。有一些码率控制方法是通过对帧或宏块用不同的 量化级进行多次编码,根据编码结果选出最优的量化级,但由于其复杂度很高并 不能用于实时的应用环境。 然而,由于h 2 6 4 的编码算法与以往的标准有不同的特点,使得它的码率控 制研究更加困难。这主要是因为在h 2 6 4 中采用了r d 优化模式判别,宏块的 编码模式与量化级的选取有关。这势必造成了以下的问题:为了进行宏块的编码 模式判别,必须给出一个量化级,然而为了控制码率,量化级的计算一般要根据 3 上海大学硕士学位论文 编码模式判别之后的帧内预测或帧间运动估计残差来决定,而这时得出的量化级 有可能与模式判别时所用的量化级不同,这就是所谓的蛋鸡悖论。因此以往各种 经典的码率控制方法对h 2 6 4 并不适用。 h 2 6 4 基本上采用v m 8 的机制,并结合率失真优化模式判决过程,提出了 一个线性预测模型,根据当前一帧相应位置的m a d 来预测当前帧或宏块条的 m a d 。根据虚拟缓冲区的充盈度和目标码率进行帧级比特分配,以及根据预测 的m a d 值利用二项式码率模型进行量化级的计算,再用这个量化级进行率失真 优化宏块模式判别。 但是以上的码率控制算法并没有考虑到人眼的视觉兴趣性。国内外的许多研 究表明,人类在观察和理解图像时能够不自觉地对其中某些区域产生兴趣,这些 区域就被称为感兴趣区域( r o i ) 。r o i 的检测可以提供一种图像中不同区域的人类 视觉敏感程度的度量标准。近来,寻找感兴趣区域的方法得到了较多关注,人类 视觉系统( h v s ) 也已经有了数学模型,而且被广泛应用于对图像中r o i 的检测。 a n t h o n yv e t r o 等人提出了多视频对象的码率控制算法【1 1 1 ,通过调整量化参数给 不同的视频对象给出相应的码流,极大的提高了主观兴趣性。k o o h y a r 等人在人 眼视觉系统( h v s ) 对视频的感兴趣程度条件下,对运动、背景、边缘等不同的 区域分别加权处理来影响其通过r q 模型计算出来的量化参数【1 2 】,在相同的码流 下,主观视频质量有了极大的提高。由于人眼对于运动区域更敏感,在相同的 m s e 的条件下,人眼对于动态区域的失真敏感度比静态区域高,在动态区域和静 态区域共存于一副图像中时,人眼对于动态区域的敏感度更高。同时,人眼对图 像的中心区域更为关注。因此,如何提高主观的视觉质量将是本课题的研究重点。 对感知模型的建立,i t t i 的模型【1 3 】将多种空间域的视觉特征,包括亮度、色 度和方向等因素结合考虑,计算视觉重要性分布来描述图像中各区域的视觉重要 性。h e c t o r 等在m i 算法的基础上加入了运动因素的考虑。w e n 等 1 5 1 改进了i t t i 算法,在加入了运动因素考虑的同时还考虑了各种因素对视觉兴趣影响的不同程 度。在视频检索应用中,m a 【1 6 】改进了视觉兴趣模型,利用了更多的基于语义的 视频特征,如运动、语音、镜头动作等。c h i a 等【1 7 】人在实现多点视频会议的时 候,根据运动分布对视觉感兴趣区和非兴趣区加以区别对待。o s b e r g 一1 8 】根据方 4 上海大学硕士学位论文 差分布将图像分解成一个个相对独立的平滑区域,然后考虑各个区域的对比度、 形状、大小以及是属于前景还是背景等,对各个区域的四种因素引起的视觉重要 性进行量化,最后得到视觉重要性分布。而w i l s o n 1 9 】将图像按照的不同频率分 为2 维的金字塔形,第一层为最高频率的系数,此部分的数量也是最多。接下来 的层次每一层都相当于上一层的四分之一,中心频率为上一层的二分之一,然后 对比c s f 函数对图像进行滤波。w dj i a n g 2 0 】贝0 利用的是人眼的另外一个特性: j n d 2 1 1 ,将人眼感觉不到的误差系数划为d e a d z o n e 然后滤除掉。 以上这些方法都是对感兴趣区域的某一个方面特性进行建模,并没有综合考 虑视频序列中的各种感兴趣因素来建立感知模型,本文的研究重点就是在h v s 的基础上建立一个标识序列中感兴趣区域的感知模型,并在此感知模型的基础上 进行自适应的码率控制。 1 3 课题研究的必要性 从上述分析可以发现,现有的应用于视频编码的视觉特性只是视觉感知模型 中的某部分或某一特性的宏观描述,而且大部分算法在确定感知的加权系数时是 根据几个序列的经验值,这些值的选取不具有普遍的意义。如果不将这些宏观的 特性统一到一个较完整的感知模型下,所进行的感知编码算法只能是部分地反映 人类视觉感知系统的局部特征。同时,感知编码算法仅仅是对当前编码框架下的 局部模块进行修改,大多集中在利用合适的算法找出视觉敏感区域或宏块,对于 不同的敏感度区域,计算相应的视觉灵敏度系数,并根据该系数对不同的区域或 宏块分配不等的码率。而几乎没有在现存的编码框架的各个模块中综合考虑人眼 感知模型的算法。特别要指出的是,运动信息作为视频区别于静止图象的最基本 的信息,现存的感知编码算法并未对其进行深入的研究。如果编码的区域中存在 复杂的运动,例如语意对象的形变,现存标准中利用块平移的假设所进行的运动 补偿就会变得无效。但是这种具有复杂运动的区域往往成为视觉关注区域。 而且当前的码率控制算法中,大多都没有考虑到人眼视觉,对人所感兴趣的 区域编码和非感兴趣的区域同等处理。而人是最终的视觉质量检测者,应该充分 考虑到人眼的兴趣性,对感兴趣区域采用更多的比特数来进行编码。目前码率控 5 上海大学硕士学位论文 制算法中对于宏块层上的量化参数控制大多是分析运动的可预测性,如计算绝对 平均误差( m a d ) ,但是从人眼视觉感知的角度来看,难以预测的区域并不一定是 人眼感兴趣的区域。基于m a d 的编码器往往为了达到较高的p s n r 增益而给非 重要的区域分配了多余的比特数。而p s n r 虽然是现在最为广泛的视频编解码 器的性能评估准则,但事实上编码器为了增加p s n r 而多分配比特数并不一定能 高提高视频图像的视觉质量。已经有大量研究表明p s n r 并不能准确地反映人们 感知到的视觉质量,而且这一事实也已经开始逐渐为人们所认知【2 2 2 5 1 。 基于r o i 的视频编码的主要目的就是将视频帧分成不同的区域,不同区域 的重要性不同,根据区域的重要性不同采取不同的量化编码策略。这样,在限定 的目标码率之内,可以提升视频的主观质量。这样就可以避免为了单纯的增加 p s n r 而增加过多的比特数,主观视觉质量并没有得到有效的提升的情况。 1 4 本文内容安排 本文的主要研究内容为通过探索知觉任务条件下,什么信息应该被编码这一 感知模型,同时,在该感知模型的指导下,提出融合视觉感知模型的高效的自适 应视频码率控制算法。本文共分为五章,具体内容安排如下: 第一章绪论。主要总结了国际视频编码标准发展的概况和码率控制以及感知 编码的新特点和优势,并由此说明了本课题研究的必要性。 第二章码率控制算法概述。本章按码率控制的目的、码率控制的分类等分别 介绍视频编码中码率控制的目的及实现的思想。然后主要介绍了当前正在使用的 几种比较典型的码率控制算法,为后来章节自适应码率控制算法的设计提供理论 依据。 第三章感知模型。本章以人眼视觉系统为基础提出了一种感知模型,主要的 观察范围在时间与空间的掩盖效应、前景与背景的视觉重要性、特征运动区域以 及特征频率区域这几个方面。该模型首先从人眼视觉系统出发,利用时间掩盖效 应,分析宏块运动矢量的大小得到其宏块运动关注度;接着利用空间掩盖效应, 通过分析宏块的纹理直方图的自相关性来寻找其平滑度,通过梯度计算方程计算 其区域活动性后最终得到其空间掩盖性关系图与宏块的关注度。接着分析现有的 6 上海大学硕士学位论文 计算图像显著性图的方法,发现几乎都没有考虑过视频最为重要的运动信息,因 此本章利用运动宏块与原宏块的差分矩阵特征值的相关性得到其特征运动区域; 而光有运动特性不能够有效的区别视频中人眼同样关注的纹理及细节区域,因此 还利用w e b e r 定理从频率域提取出特征频率区域,并结合特征运动区域生产了针 对视频序列的显著性图,试验结果表明该显著性图所关注的运动区域和纹理细节 区域与h v s 基本一致。 第四章基于感知模型的自适应码率控制算法。本章首先对h 2 6 4 采用的 j v t - g 0 1 2 码率控制算法进行了介绍。然后分析i 帧比特数在g o p 中的分配情况, 指出其缺陷所在:没有考虑视觉复杂度,若占用过多的比特数则会导致g o p 中最 后几帧无比特数可用,若i 帧使用比特数过少则会影响整个g o p 的视觉质量。基 于这个问题提出了解决方案:利用感知模型计算出来的i 帧复杂度对其进行比特 数的二次分配。接着分析了g o p 中p 帧的比特数使用情况,指出其缺陷:没有与 人眼视觉系统挂钩,单纯的利用前一帧m a d 与剩余比特数来预分配,导致p 帧质 量呈线性下滑趋势。解决方法就是利用其感知复杂度进行二次分配,使关注度高 的帧拥有更多的比特数,使g o p 中所有帧的主观视觉质量一致。接着针对基本单 元层提出了基于视觉关注度的m a d 预测模型和预分配比特数的计算方法,该方 法与原有方法相比取得了更高的p s n r 和主观视觉质量。针对基本单元层还提出 了基于感知模型的自适应量化算法,利用图像中宏块的感知度对其量化参数做一 个调整,将关注度低的区域的比特数“搬往关注度高的区域,以此来提升主观 视觉质量。最后针对视频场景切换时产生的码率突然变化导致视觉质量不连续的 问题提出了一种预警装置。实验结果表明,相比于j m l 0 2 模型,本模型不仅码率 没有提高甚至略微降低,而且主观视觉质量更是得到了有效的提高。 第五章结束语和展望。 7 上海大学硕士学位论文 第二章码率控制算法概述 2 1 码率控制的目的 所谓码率控f l ;s j ( r a t ec o n t r 0 1 ) ,就是编码器基于对网络带宽的估计决定要发送 到信道上的视频比特流速率。也就是说,根据信道固定或可变的传输速率直接调 整视频编码器的输出比特率。在现有的许多视频编码标准中,其中核心部分是基 于块的运动补偿和基于块的d c t 变换编码,编码器输出每一帧的比特数都随着 图像活动性的不同而不断变化,也就是产生的比特率是变化的,而传输信道的速 率却是固定不变的,即使是传输速率变化的信道的传输率变化也不是与编码器比 特率变化相一致的。为了实现两者的匹配,一般使用缓冲器技术对编码输出率进 行平滑。由于缓冲区的容量是有一定限度的( 缓冲区过大会造成较大的系统传输 延迟,这对实时信道是难以接受的) ,为了防止缓冲区产生上溢或下溢,必须对 编码器产生的比特率进行一定的控制。 而视频编码器的过速率输出会导致不可想象的网络阻塞。另一方面,视频编 码器输出比特率无控制的减少,会导致不必要的质量降级及对现存带宽资源的低 效利用。需要采用一种控制技术来调整并控制视频源的输出比特率,以获得在质 量和带宽利用上的最佳均衡。由于实际网络带宽和存储介质容量的限制,对码率 无任何约束的码流对视频通信系统的影响是灾难性的,所以无论是对于存储媒体 还是通信传输的应用,都需要采用适当的策略来控制编码器,将编码器的输出码 率限制在一定的范围之内,这就是码率控制。 码率控制是视频编码算法的重要组成部分,它旨在保证视频编码器在一定的 码率限制条件下达到编码比特的合理分配。无论是针对存储媒体或实时传输的应 用,都需要采用码率控制策略来控制编码器比特率的输出,使其限定在一定范围 内。而码率控制算法就是研究如何在编码器中实现率失真理论,以达到在比特率 和图像质量间的最佳均衡的目的。 上海大学硕士学位论文 2 2 码率控制算法的分类 2 2 1 根据信道的码率控制分类 码率控制算法根据应用信道的不同可分为固定比特率( c o n s t a n tb i t r a t e ,c b r ) 控制算法和可变比特率( v a r i a b l eb i tr a t e ,v b r ) 控制算法两种 c b r 控制算法针对于传输信道稳定的情况下,由于传输信道速率稳定,控 制算法按图像复杂度分配码率,如果码率过低,通过填充无用比特来达到期望码 率,如果码率过高,则通过提高量化参数来降低码率,达到期望码率。它广泛应 用在网络视频会议、视频监控系统、数字视频点播、数字电视等可以认为传输信 道速率恒定的场合中。c b r 控制是一种闭环的控制方案,如图2 1 所示,其输入 信号为视频源和目标比特,它根据对源图像的复杂度估计、解码缓冲的大小及网 络带宽估计动态调整,得到符合要求的码率。这种方法实现简单,但在场景切换 时容易产生图像质量的抖动。 图2 - 1c b r 码率控制算法示意图 v b r 控制算法【2 6 】针对于传输信道波动的情况,一般指无线传输信道,这类 信道传输稳定性比较差,容易出现波动和跳变。v b r 控制算法大多应用在如移 动视频电话、无线网络会议、移动视频点播等传输信道不稳定,经常出现波动和 带宽跳变情况的无线接入场合中。v b r 是一种开环的控制方案,如图2 2 所示, 输入信号为视频源和一个量化参数值。由于实际视频序列中的图像复杂度是不断 变化的,例如细节多少、运动快慢等等,比特率也相应变化,不稳定。v b r 算 法得到的图像质量较好,但实现复杂。 9 上海大学硕士学位论文 图2 - 2v b r 码率控制算法示意图 2 2 2 根据码率控制策略的分类 根据码率控制的策略,现有的码率控制大体上可以分为三类:后向码率控制 策略,前向码率控制策略,前、后向联合的码率控制策略。 2 2 2 1 后向码率控制策略 后向码率控制策略,主要是依据缓冲区的容量和信道的速率来调整各个编码 单元的量化步长,这类方法简单而直接,能有效的保证编码器的输出与信道传输 率相适应,但在输出码率较低时,容易发生图像质量较大的波动。 后向控制策略由于简单,算法实现相对容易,在要求不大严格的视频通信中 这种后向控制方法容易实现。基本框架类似于图2 1 。源编码器通常采用运动补 偿和d c t 变换的混合编码方法,影响编码输出的一个非常重要的参数是编码宏 块或基本单元的量化步长。不管是帧内图像d c t 变换还是帧间预测差值的d c t 变换,其系数都需要经过量化处理。如果编码器对所有的编码图像都采用固定的 量化步长,那么随着输入图像活动性的不同,压缩编码后的视频输出码率的峰值 与平均值之比可能会相当大。因此,为了避免码流丢失,必须采用自适应编码控 制算法动态的修改不同帧甚至不同编码基本单元的量化步长。因为量化步长越 大,量化后系数为零的个数越多,v l c 编码后的比特数越少;反之则输出比特 数越多。 为了能够自适应的调整量化步长,平滑发送到信道的码率,达到与信道传输 码率相匹配,就不能直接把编码输出的比特数直接发送到信道上传输,而是需要 l o 上海大学硕士学位论文 一个适当容量的存储器来做缓冲。并定时相编码控制器反馈缓冲区占有量,自适 应的调整量化参数,以便相对均匀的输出码率。同样,在解码器中需要增加接受 缓冲区。这种通过发送缓冲区反馈信息来调整编码参数的后向控制策略的实现最 常见的有以下三种: 1 、根据缓存的当前占用量直接对量化器做调整,t m n 5 采用的就是这 种策略; 2 、通过大量的统计寻找出缓冲器的充盈度与量化级之间的关系; 3 、 找出一种能反映主观视觉质量的函数,然后根据缓冲器的约束将质 量函数作为目标进行优化,找出缓冲器充盈度与量化级之间的关系。 2 2 2 2 前向码率控制策略 前向码率控制策略,通过对各个编码单元输出比特数的预测或用基于率失真 模型的迭代方法来确定相应的量化步长,这类方法计算量大为增加,因为预测时 考虑的图像的具体内容,特别是一些算法还加入了一些人的视觉特性【2 7 。3 2 1 ,因而 得到的图像质量高于后向码率控制算法; 后向码率控制基本上以缓存占有率为出发点来决定编码单元的量化参数。因 此,防止缓存器下溢比较容易处理,只需要减少量化步长,以信道的符合能力被 充分利用为止。但要避免缓存器上溢则比较困难,因为后向控制并没有考虑到编 码图像的具体内容,没有对编码可能输出的比特数进行预测。所以采用跳帧或选 择较大容量的缓存器来处理。这样会导致两个结果:一时编码单元分配比特数极 不平衡,缓存占有率的起伏比较大,图像的连贯性变差,图像质量下降;而是系 统延时因大容量的缓存缘故会大大增加,尤其是在低比特率通信应用中特别突 出。 为了避免后向码率控制在低码率传输应用中的比特分配不平衡和缓存器溢 出等问题,可采用前向码率控制策略。一种比较简单的前向码率控制基本思想就 是根据图像的内容和图像的一般统计特性,对要编码单元的编码输出比特数进行 预测,从而预测该编码单元结束后的缓存状态并提前调整该单元的编码参数,使 得该单元实际编码的输出比特数与期望值尽可能相一致。另一种比较复杂的前向 上海大学硕士学位论文 码率控制是基于率失真模型的,它能够较准确的确定下一个编码单元的目标比特 数,并结合图像的局部空间活动性,决定编码参数,从而达到最优的比特分配。 2 2 2 3 前、后向联合的码率控制策略 联合前向控制和后向控制的方法,是在图像层采用自适应后向控制,粗化量 化步长,确定量化步长的基准值,在宏块层采用前向控制,细化修正量化步长的 基准值,确定每一个基本单元的量化步长因子,在输出比特率恒定的条件下,有 比较稳定的图像质量,同时具有相对简单的计算复杂度。 前向和后向联合码率控制策略是指编码器在确定编码参数时,从缓存器占有 度情况比较粗糙的给出编码参数的基准值,这通常是在图像层实现,属于后向码 率控制概念。然后在基准值的基础上,利用某些模型或其它对图像编码的预测方 法,在基本单元层基础上进行进一步的参数修正,这属于前向码率控制概念。最 后利用修正的量化参数对基本单元进行编码,在系统传输码率恒定的条件下,保 证缓冲器占有度维持在相对平稳的水平,既不上溢也不下溢,保证了图像质量的 稳定,提高主观视觉效果。 2 3 经典码率控制算法 随着视频压缩编码标准的发展,自1 9 8 9 年i t u t 的前身c c i t t 发布了第一 个数字视频编码标准h 2 6 1 ( 草案) 后,迄今为止已推出了包括h 2 6 1 、h 2 6 3 、 h 2 6 4 在内的视频编码标准。i s o i e c 下属的联合技术委员会( j t c l ) 也成功推出 了音视频编码标准m p e g 1 、m p e g 2 和m p e g 4 。码率控制算法也随着编码标 准的发展而向着更高的目标在改进着。目前已经出现了m p e g 2 中的t m 5 算法, h 2 6 3 中的t m n 8 算法,m p e g 4 中的v m 8 算法以及h 2 6 4 中的j v t - 0 1 2 草案 的改进型的v m 8 算法。下面就分别介绍一下这几个经典高效的码率控制算法。 2 3 1 t m 5 码率控制算法 t m 5 码率控制算法【3 3 】分3 步执行: 上海大学硕士学位论文 ( 1 ) 目标比特数分配( t a r g e tb i ta h o c a f i o n ) 目标比特数分配为下一个预编码的帧分配合适的比特数。这一步又分为以下 几个步骤完成: 1 、复杂度的估算( c o m p l e x i t ye s t i m a t i o n ) 当某一类型的视频帧( i 、p 、b ) 编码完成之后,其编码复杂度更新如下: x l = s | q i x v = s j p 幸q 尸 以= s 占g( 2 1 ) 上式中i 、p 、b 表示帧类型,x 表示该帧编码复杂度,s 表示该帧编码实际 产生的比特数,q 表示所有宏块编码实际量化参数的平均值。但是对于第一个 g o p 的第一个i 帧而言,其初始值如公式( 2 2 ) 所示,其中b i t r a t e 表示带宽: 置= ( 1 6 0 幸b i t r a t e ) 1 1 5 x p = ( 6 0 b i t _ r a t e ) 1 1 5 x 口= ( 4 2 b i t r a t e ) 1 1 5 ( 2 - 2 ) 2 、帧级比特数预分配( p i c t u r et a r g e ts e t t i n g ) 目标比特数分配在层进行,目标比特数的分配取决于帧编码复杂度( x i ,x p , x b ) 和g o p 中剩余的比特数r 和g o p 中剩余的不同类型待编码帧数( n i ,n p , t b ) ,不同类型帧的目标比特数( t i ,t p ,t b ) 的计算公式如下,其中p i c t u r e _ r a t e 表示帧率,k p = 1 0 ,k b = 1 4 : 乃= m a x 矗巫疆r ,而b蒜it r a t e ) x c xpx l xb 种双昏r 孽志) 上海大学硕士学位论文 枷越镶r ,高知 弘3 , 当编码完一帧后,r = r - s 邶 p ,如果当前帧为视频序列中的第一帧时,r = o 。 如果当前帧为g o p 中的第一帧时,其中n 表示g o p 的大小: 尺:丝:竺丝 p i c t u r e r a t e 幸+ r ( 2 - 4 ) ( 2 ) 俏翠控$ u ( r a t ec o n t r 0 1 ) 该步骤即计算量化参数的过程。在估算完帧的复杂度之后,要根据虚拟缓冲 区的大小来计算宏块的量化参数。根据i 、b 、p 帧类型的不同,缓冲区充盈度的 计算公式如下: 形= “+ 一( 等等) d ;= d :+ b j 一 d 夕= d 孑+ 岛一。一( 微) ( 2 - 5 ) 上式中d j ,d 夕,d 夕表示各个类型帧中第j 个宏块编码时缓冲区的充盈度大 小,d 。为其初始值,其大小如公式( 2 6 ) 所示。b j 表示编码j 个宏块所产生的所有 比特数。m be n t 表示帧中宏块的个数。 ,:2 宰丝:竺丝 p i c t u r e r a t e d j = 1 0 宰云簖= k e * “d g = 吒掌d o ( 2 - 6 ) 得到编码第j 个宏块时缓冲区的充盈度之后,该宏块量化参数的计算如下式: d 3 1 q p = 一 ( 2 - 7 ) ( 3 ) 自适应量化参数的选择( a d a p t i v eq u a n t i z a t i o n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论