（通信与信息系统专业论文）视频编码中码率控制算法的优化与研究.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-11 格式：PDF 页数：63 大小：3.02MB 积分：0 举报 版权申诉

已阅读5页，还剩58页未读，继续免费阅读

（通信与信息系统专业论文）视频编码中码率控制算法的优化与研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘要 2 1 世纪是一个信息化的社会，数字视频技术己被应用到广泛的领域如数字广播、有线电视、d v d 播放机、视频会议等。在应用过程中，必须使对视频信息的处理能力与计算机的数据处理能力和网络的数据传输能力相适应，而且同时保证获得视听质量一定要达到人们一般的接受水平。为了节约传输带宽、存储空间，视频编码早已成为国内外研究和工程应用的热点之一。为了在网络带宽、延时、缓存的限制下获得更好的图像质量，为了在给定码率下高效地传输编码数据，并保证良好和稳定的接收端质量，码率控制成为视频编码的重要内容之一，更成为视频编码的关键技术之一。本文在对m p e g 4 标准了解的基础上，对其视频编码部分进行了较为深入的研究。对现有的码率控制算法t m s ( t e s tm o d e l5 1 、s r c ( s c a l a b l er a t ec o n t r 0 1 ) 以及h 2 6 4 标准草案j ”h 0 1 7 中提出的码率控制算法( 以下简称h 2 6 4 ) 进行了理论研究和实验分析，主要是在g o p 层、帧层和宏块层进行了对比，然后针对码率平稳度和图像质量给出了相应的理论数据，并指出了三种码率控制算法相对的优势和不足之处。接着，在此基础上相互取长补短，结合h 2 6 4 ，对s r c 算法做出了相应的改进，改进后的算法暂时称之为m p i a ( i m p r o v ea r i t h m e t i c ) ，在一定程度上实现了编码比特率和图像质量之间的恰当折中，并在码率平稳度和图像质量和总体性能方面给出了s r c 、 m p i a 、以及h 2 6 4 码率控制算法的比较结果。另外，本文还阐述了率失真优化理论在码率控制算法m p i a 中的应用，以及简要介绍了算法m p i a 在空间可分级编码和任意形状编码中的应用。最后，指出了本文所研究方面的不足之处和进一步的研究方向。关键词码率控制；率失真模型；率失真优化；h - 2 6 4 ；m p e g 4 1s r c ；t m 5 河北科技大学硕士学位论文 a b s t r a c t t h e2 1 s tc e n t u r yi sa l li n f o r m a t i o ns o c i e t y d i g i t a lv i d e ot e c h n o l o g yh a sb e e na p p l i e d t oaw i d er a n g eo fa r e a ss u c ha sd i g i t a lb r o a d c a s t i n g ，c a b l et e l e v i s i o n ，d v dp l a y e r ，v i d e o c o n f e r e n c i n ga n ds oo n i nt h ea p p l i c a t i o np r o c e s s ，i tm u s tm a k et h ei n f o r m a t i o nt oa d a p t t od e a lw i t ht h ec o m p u t e r sd a t ap r o c e s s i n gc a p a c i t ya n dn e t w o r kd a t at r a n s f e rc a p a c i t yo n t h ev i d e o ，w h i l ee n s u r i n ga c c e s st oa u d i o v i s u a lq u a l i t yo ft h ep e o p l et oa c h i e v et h el e v e l o fg e n e r a la c c e p t a n c e i no r d e rt os a v et r a n s m i s s i o nb a n d w i d t h ，s t o r a g es p a c e ，v i d e o c o d i n gh a sl o n gb e e no n eo ft h eh o tr e s e a r c ha n di n d u s t r i a la p p l i c a t i o n s i no r d e rt oo b t a i n b e t t e r i m a g eq u a l i t yu n d e rt h e c o n d i t i o no ft h en e t w o r kb a n d w i d t h ，d e l a y ，c a c h e c o n s t r a i n t s ，t oe n s u r eg o o da n ds t a b l eq u a l i t yo ft h er e c e i v i n gu n d e rt h ec o n d i t i o no ft h e g i v e nb i t - r a t e e f f i c i e n tt r a n s m i s s i o no fe n c o d e dd a t a , r a t ec o n t r o lh a sb e e nn o to n l y b e c o m eo n eo ft h ei m p o r t a n te l e m e n t st ot h ev i d e oe n c o d i n g ，b u ta l s ob e c o m eo n eo ft h e k e yt e c h n o l o g i e st ot h ev i d e oe n c o d i n g b a s e d0 1 1g e n e r a lc o m p r e h e n s i o no fm p e g - 4 ，t h i sp a p e rp e n e t r a t e si n t ot h ep a r to f v i d e oc o d i n g i ts t u d i e st m 5 ( t e s tm o d e l5 ) ，s r c ( s c a l a b l er a t ec o n t r 0 1 ) a n dt h er a t e c o n t r o la l g o r i t h m b yh 2 6 4 s t a n d a r dd o c u m e n tj v t - h 0 1 7 ( h e r en a m e dh 2 6 4f o r s h o r t ) ，m a i n l yi nt h eg o pl a y e r ，f r a m el a y e ra n dm a c r o b l o c kl a y e r a n d ，t h e ng i v e st h e c o r r e s p o n d i n gt h e o r e t i c a ld a t af o ras m o o t hb i t r a t ea n di m a g eq u a l i t ya n dp o i n t so u tt h e s t r e n g t h sa n dd e f i c i e n c i e st ot h et h r e et y p e so fr a t ec o n t r o la l g o r i t h m f o u n d i n go na l lt h e w o r ka b o v e ，w ed e v e l o pa na d v a n c e dr a t ec o n t r o la l g o r i t h mm p l 久, w h i c ha c h i e v e st h e t r a d e o f fb e t w e e nt h eb i tr a t ea n dv i d e od i s t o r t i o n ，a n dt h e ng i v et h er e s u l t sa b o u t c o m p a r i n gc o n t r o le f f i c i e n c yo ft h et h r e ed i f f e r e n ta l g o r i t h m s - - - s r c 、h 2 6 4 a n dm p i af o r t h es m o o t hb i t r a t ea n di m a g eq u a l i t y t h e nt h ep a p e re x p a t i a t e so nb o t ht h eu t i l i z a t i o no f r d o ( r a t ec o n t r o lo p t i m i z a t i o n ) i nm p i a a n dt h ea p p l i c a t i o no fm p i ai ns p e c i a ls c a l a b l e v i d e oc o d i n ga n do b je c t - b a s e dv i d e oc o d i n g f i n a l l y ，t h i sa r t i c l ep o i n t so u tr e s e a r c hg a p s a n df u r t h e rr e s e a r c hd i r e c t i o n s k e yw o r dr a t ec o n t r o l ；r ( d ) f u n c t i o n ；r d o ：m p e g 一4 ；h 2 6 4 ；s r c ；t m 5 i i 河北科技大学学位论文原创性声明本人郑重声明：所呈交的学位论文，是本人在导师的指导下，独立进行研究工作所取得的成果。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。除文中已经注明引用的内容外，本论文不包含任何其他个人或集体己经发表或撰写过的作品或成果。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名：张五指导教师签名：坼向妒年g 月日钟蜉年f 月9 日河北科技大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权河北科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。口保密，在一年解密后适用本授权书。本学位论文属于町不保密。 ( 请在以上方框内打“”) 学位论文作者签名：张指导教师签名：与穹勾甲日加罗年夕月乎日矽9 年f 月9 日，第1 章绪论第l 章绪论 1 1 背景介绍 2 1 世纪的人类社会是一个信息化的社会，数字视频压缩技术已经被广泛应用于数字广播、有线电视、数字机顶盒、d v d 播放机、视频会议等应用场合。数字视频压缩技术的源动力是基于最早的视频会议和可视电话的实现，因为，人们需要将传统的模拟视频信号转换成一种具有相当低的数据率并可以在电话线上进行传输的信号。要解决这个问题，必须采用先进的多媒体数据压缩编码技术对数字化的音视频信息进行压缩处理，使之适应计算机的数据处理能力和网络的数据传输能力，同时保证最终获得的视听质量不低于人们的一般接受水平。从信息论的角度看，压缩就是去掉数据中的冗余，用更接近信息量的描述来代替原有冗余的描述。但信息量不是孤立的、绝对的，它与信息的传输密切相关。信息接受者知识世界的改变是信息传输的本质所在，但由于接受者知识结构的复杂性，使得很难构造数学模型，而只能对其进行具有普遍意义的某种限定，这就是香农的信息论。它以经典集合论为基础，基于某种统计概率模型来描述信源。香农信息论有两个缺陷n ：第一，未考虑信息接受者的主观特性和主观意图；第二，撇开了事件本身的含义和重要程度。早期的压缩编码方法基于数据统计，致力于去掉数据冗余，压缩效率还存在很大的提高空间，第二代压缩编码方法致力于基于内容的可交互性和去掉内容上的冗余，试图分别克服香农信息论的第一和第二个缺陷。在过去的1 5 年中，i s o i e c ( i n t e m a t i o n a ls t a n d a r d i z a t i o no r g a n i z a t i o n i n t e r n a t i o n a l e l e c t r ot e c h n i c a lc o m m i s s i o n ) 韦l j 定了一系列视频编码标准，如m p e g 1 、m p e g 2 以及近些年的m p e g 4 。m p e g 4 的第一版和第二版于1 9 9 9 年1 月和1 2 月正式发布，其出发点就是希望创造一个更为自由的通信和开发环境。人们可以在系统中加入许多新的算法，为计算机软件进行编码、解码提供更大的方便。它可以将各种各样的多媒体技术充分用于编码中，除压缩本身的一些工具、算法外，还包括图像分析和合成、计算机视觉、计算机图形、虚拟现实以及语音合成等技术。在制定之初，m p e g 4 的目的是应用于视频会议、可视电话和网络传输，但在发展过程中，m p e g 感受到了技术和需求方面的两大变化，并据此立即修改计划，使其沿第二代编码方法的思路向前发展。这两大变化是乜3 ：第一，基于内容的压缩编码方法研究掀起了热潮；第二，多媒体信息应用的要求由播放型转向基于内容的访问和操作型。这意味着需要将基于内容的检索与编码结合起来考虑，在压缩数据中应有描述视频内容的信息，从而使对多媒体信息内容的访问和交互可以直接针对压缩数据进行。新的编码方法河北科技大学硕士学位论文中可以引入涉及到图像分析的比较复杂的算法。于是，m p e g 4 新的目标就确定为：支持多种多媒体应用，主要侧重于对多媒体信息内容的交互和访问可根据不同的应用要求现场配置解码器。尤其值得注意的是，较之m p e g 前两个图像压缩编码标准 m p e g 1 和m p e g 2 而言，m p e g 4 为多媒体数据压缩提供了一个更为广阔的平台，它更多的定义的是一种格式和框架，而不是具体的算法。m p e g 4 编码系统是开放的，可以随时加入新的有效的算法模块。这就为m p e g 4 的发展和完善提供了无限制的广阔空间。在另一方面，为了扩大数字视频会议的应用范围，i t u ( i n t e r n a t i o n a lt e l e c o m m u n i c a t i o n su n i o n ) 在过去的2 0 年中也制定了一系列视频编码标准，h 2 6 1 、h 2 6 2 、h 2 6 3 以及最新的h 2 6 4 。i t u t 和i s o i e c 曾一起致力于h 2 6 2 m p e g 2 标准，最近，兀u t v c e g ( v i d e oc o d i n ge x p e l sg r o u p ) 和i s o i e cm p e g ( m o v i n gp i c t u r ee x p e r t sg r o u p l 通过j r ( j o i n tv i d e o r e a m ) 再度联合，发展h 2 6 4 ，也叫做m p e g 4p a r t1 0 或m p e g 4 a v c ( a d v a n c e dv i d e oc o d i n g ) ，在相同的重建图像质量下，h 2 6 4 m p e g 4p a r t1 0 比 h 2 6 3 或m p e g 2 节约5 0 左右的码率。因其更高的压缩比，更好的p 和无线网络信道的适应性，在数字视频通信和存储领域得到越来越广泛的应用。同时也要注意， h 2 6 4 m p e g 4p a r t1 0 获得优越性能的代价是计算复杂度的增加。据估计，h 2 6 4 编码的计算复杂度大约相当于h 2 6 3 的3 倍，解码复杂度相当于其2 倍。图1 1 描述了i t u t 和i s o i e c 数字视频压缩编码标准的大致演化过程。圃回匝圃回匝回 1 9 9 4 1 9 8 9 1 9 9 2 1 9 9 6 2 0 0 0 2 0 0 4 图卜1 数字视频压缩编码标准的发展 f i g1 - 1d e v e l o p m e n to fd i g i t a lv i d e oc o m p r e s s i o nc o d i n gs t a n d a r d 1 2m p e g 4 主要特点采纳了基于对象( o b j e c t b a s e d ) 编码的第二代编码技术是m p e g 4 标准的主要特征。m p e g - 4 编解码的基本单元是对象，这些对象可以是单声道、立体声和多声道音频，2 d 和3 d 或者单目、立体或者多目视频，计算机图形，动画，文字等。所谓第1 章绪论的对象是在一个场景中能够访问和操纵的实体，对象的划分可以根据其独特的纹理、运动、形状、模型和高层语义为依据。基于对象的编码是一种基于内容的数据压缩方式。以前的压缩算法只是去除帧内和帧间的冗余，m p e g 4 则要求对图像和视频做更多地分析，甚至是理解。如将图像分割为运动物体对象和静止不动的背景对象平面，并对这两个对象进行分别处理。背景对象采用压缩比较高、损失比较大的办法进行编码，运动物体对象采用压缩比较低、损失比较小的办法进行编码，这样就在压缩效率和解码图像质量间得到较好的平衡。基于对象的编码除了能提高数据的压缩比，还能实现许多基于内容的交互性功能，如基于内容的多媒体数据存取，游戏或者多媒体家庭编辑、网上购物和电子商店、远程监控、医疗和教学等口! 。基于对象的分级功能是m p e g 4 提供的又一个新的功能，同时兼容于m p e g 2 标准中的图像分级功能，分级工具主要用于因特网和无线网等窄带的视频通信、多质量视频服务和多媒体数据库预览等业务。m p e g - 4 提供了三种基本的分级工具：时域分级、空域分级和信嗓比分级。在每类分级工具中，视频序列都分为两层：基本层和增强层。基本层提供了视频序列的基本信息，增强层提供了视频序列更高的分辨率和细节。基本层可以单独进行传输和解码，而增强层则必须与基本层一起传输和解码。m p e g 4 也支持时域和空域的混合分级。 h 2 6 4 m p e g 4p a r t1 0 继承了m p e g 4 的一些主要特点同时，也做出了相当大的改进。它的部分新技术特点如下所列h 3 ： 1 1 分层设计视频编码层具有高效的视频内容表示功能；网络提取层将网络中所需的数据进行打包和传送； 2 1 高精度、多模式运动设计支持1 4 或者1 8 像素精度的运动矢量；多模式的灵活和细致的划分，大大提高了运动估计的精确程度；多帧参考技术； 3 1 帧内预测功能在空间域进行预测编码算法，以便取得更有效的压缩； 4 ) 4 * 4 块的整数变换由于变换块的尺寸缩小，运动物体的划分更精确，这样不但变换计算量比较小，而且在运动物体边缘处的衔接误差也大为减少； 5 1 为了强调色彩的逼真性，对色度系数采用了较小的量化步长。基于上述特性，m p e g 4 对码率控制也提出了相应的要求。一个理想的m p e g 4 编解码器应该同时能够编码或解码多个对象，并且保证总码率的恒定。m p e g 4 编码器的码率控制就需要根据对象在图像中的视觉重要性在不同对象之间合理的分配 3 河北科技大学硕士学位论文码率：对重要的对象分配较高的码率，对不重要的对象和背景分配较低的码率，然后根据分配的码率对每个对象分别进行码率控制。m p e g 4 种采用了二次的率失真模型来达到更精确的码率控制。这种码率控制方案能够用于帧层和宏块层，并且能从矩形图像编码扩展到任意图像编码和空间可分级图像编码。 1 3 本文主要内容和组织结构 m p e g 4 是一个有关多媒体编码、交互和通信的庞大标准。本文在对整个标准了解的基础上，对其视频编码部分进行了较为深入的研究。主要工作内容包括以下几部分： 1 1 参考h 2 6 4 标准草案j v t - h 0 1 7 中提出的码率控制算法( 以下简称h 2 6 4 ) ，并将其和t m 5 以及s r c 码率控制算法进行比较，通过实验数据证明三者各自在图像质量和码率平稳度方面存在的优缺点，得出三者相比较之下的优势和不足。 2 ) 在对t m 5 、s r c 和h 2 6 4 三种码率控制算法进行研究的基础上，取长补短，对s r c 算法一些方面进行了改进，总结出一种相对比较优秀的码率控制算法m p i a 为了清晰阐述对以上几项工作的完成过程，本文的组织结构简述如下：第1 章：绪论：讲述了数字视频压缩编码标准的制定背景和发展状况、m p e g 4 主要特点和本文的组织结构。第2 章：视频编码概述：本章主要介绍了视频压缩基本技术、视频数据结构和 v o p 编码，以及空间可分级编码原理等。第3 章：码率控制算法概述：本章主要给出了码率控制的一个基本概念一信息率失真函数，接着介绍了码率控制中一个重要的理论：率失真优化。其率失真性能提供了一种在一定的编码比特率范围内对图像质量的度量。第4 章：本章首先对t m 5 、s r c 、h 2 6 4 三种码率控制算法进行了简要的介绍。接着从g o p 层、帧层、宏块层三个方面对t m 5 、s r c 、h 2 6 4 三种现有的码率控制算法进行了详细的分析和比较，并通过实验数据证明其存在的优缺点，得出了三者相比较之下的优势和不足。第5 章：介绍本文改进的码率控制算法m p i a ，通过与s r c 和h 2 6 4 的比较得出本算法的优缺点。并简要介绍了其在任意形状图像编码和空间可分级编码中的应用。最后，总结上述试验结果，分析其理论原因，得出对以后码率控制研究具有一定参考价值的研究结论。结论：总结本文，指出本论文研究价值和下一步要努力的方向。 4 第2 章视频编码概述第2 章视频编码概述 m p e g 视频算法是基于广受欢迎并且有效的压缩算法：运动补偿和离散余弦变换算法。这些算法是在2 0 世纪8 0 、9 0 年代为专有的和标准的视频压缩技术而开发，采用基本块( b l o c k ) 结构，适用于许多不同的信号。主要包括以下内容： 1 1 时域预测：减少视频图像间的时间冗余； 2 1 频域分解：用d c t 分解图像时间块，从而去除静态的和逻辑上的空间冗余； 3 1 量化：在保证矢量损失最小的条件下确定选择传送哪些信息，以减少比特率，这成为码率控制的可能性和控制的关键所在。 4 ) 可变长编码：去除由量化和各种类型附属信息构成的符号序列的静态冗余；图2 1 给出了m p e g 视频编码器的编码流程：图2 - 1m p e g 视频编码流程 f i g 2 - 1 m p e gv i d e oc o d i n gf l o w 2 1 视频压缩技术 m p e g 视频压缩技术是针对运动图像的数据压缩技术。为了充分利用时间和空间上的冗余信息，提高压缩比，同时使用了帧内图像数据压缩和帧间图像数据压缩技术： 1 ) 帧内压缩算法：采用基于d c t 的变换编码技术，用以减少空间冗余信息。 2 ) 帧间压缩算法：采用预测算法和运动补偿算法，用以减少时间轴方向的冗余信息。预测误差通过d c t 变换编码处理，进一步压缩。运动补偿算法删除了那些即使缺少了它们也不会显著破坏人眼对图像感知的帧。 5 河北科技大学硕士学位论文 3 ) o c t 变换编码技术：变换编码不是直接对空域图像信号编码，而是首先将空域图像信号映射变换到另一个正交矢量空间( 变换域或者频域) ，产生一系列变换系数，然后对这些变换系数进行编码处理。数字图像信号时域数据之间的相关性大，数据冗余度大，而转换到频域描述，数据相关性大大减少，数据冗余也减少，参数独立，数据量减少。所以，数字图像信号经过正交变换对数据压缩有明显的效果。正交变换的种类很多，如傅立叶( f o u r i e r ) 变换、沃尔什( w a l s h ) 变换、哈尔( h e a r ) 变换、余弦变换、正弦变换、k - l ( k a r h u n e n l o e v e ) 变换等。余弦变换是傅立叶变换的一种特殊情况。在傅立叶级数展开式中，如果被展开的函数是实偶函数，那么其傅立叶级数中只包括余弦，由此可导出余弦变换的名字，或称之为离散余弦变换d c t ( d i s c r e t ec o s i n e t r a n s f o r m ) 。离散余弦变换，在数字图像数据压缩编码技术中，可与最佳变换k - l 变换媲美，因为d c t 与k l 变换压缩性能很接近，而d c t 计算复杂度适中。所以在数字图像压缩中被广泛应用。同时，考虑到接收端恢复图像最终是供人眼观看，利用人眼的视觉特性对图像高频细节不敏感的特点，通过量化把变换系数中的高频部分滤除，保留低频系数，使人眼难以观察解码图像与原始图像之间的误差所产生的图像失真，即图像失真不至于降低主观保真度。对经过量化处理后的系数再进行熵编码，以达到进一步压缩数据提高编码效率的目的。在以上整个过程中，变换部分并没有信息损失，它只是把数字图像信号从一个域转换到另一个域中进行，而量化部分则损失了信息。也就是说，如果没有量化，那么数字图像信号经过传输可以在接收端无失真的恢复出原始的图像，可是这样我们就没有删除人眼睛的视觉冗余。因此在利用人眼的视觉特性时我们不可避免的引入了信息损失。有信息损失并不是问题，只要它保证在允许的失真范围内。这也是后面要详细分析的码率控制必须遵守的一个原则晦j 。 4 ) 预测和运动补偿：如前面所述，运动补偿m c ( m o t i o nc o m p e n s a t i o n ) 是对活动图像进行压缩时所使用的一种帧间编码技术，所谓“活动图像实际上是一系列静止图像的连续排列，当它们已不小于2 4 帧秒的时速连续显示时，由于人眼的视觉暂留特性，使人产生了连续活动的感觉。因此在一般情况下，相邻帧间的内容实际上没有太大的变化 ( 场景切换等除外) ，有很大一部分甚至是完全相同的。所以相邻帧间有较大的相关性，这种相关性称为时域相关性。运动补偿的目的正是要将这种时域相关性尽可能的去除。运动补偿的原理简述如下：当编码器对图像序列中的第n 帧进行处理时，利用运动补偿中的核心技术运动估计m e ( m o t i o ne s t i m a t i o n ) ，得到第n 帧的预测帧。在实际编码传输时，并不总是传输第n 帧，而是传输第n 帧和其预测帧的插值。如果运动估计十分有效，中的概率基本上分布在零的附近，从而导致比原始图像第n 帧的 6 第2 章视频编码概述能量小的多，编码传输所需的比特数也就少的多，这就是运动补偿技术能够去除信源中时间冗余度的本质所在。运动补偿技术通常有以下几方面组成： a ) 首先把图像分割为静止和运动的两部分，这里的假设运动物体仅做平移； b ) 估计物体的位移值；曲用位移值进行预测； d ) 预测信息编码图像分割是运动补偿的基础，但实际上要把图像分割成不同的运动物体比较困难，通常采用两种比较简单的方法。一种是把图像分为矩形子块，适当选择块的大小，把子块分为动与不动两种，估计出运动子块的位移，进行预测。例如，在m p e g 中就是基于 1 6 x 1 6 子块的算法，将每一个子块作为一个二维的运动矢量进行处理。另一种方法是对每一个像素的位移都进行递归估计。在对图像的分割作了必要的简化后，对运动子块的估计或者说是运动估值，成为必须解决的关键技术。得到运动物体的位移估值后，即可送入m c 预测器。设原始输入为s 。，预测值为，两者之差经过量化后为厶，解码重建图像为s ：= n + ，s ：与原始图像s 。相比仅含有量化误差q 1 - 一a 。重建图像存入帧储存器，作为下一个帧进行预测编码的参考帧。从上述运动补偿的原理可以看出：和d c t 变换编码一样，图像数据误差的引入也是在量化的过程。特别的，在重建帧质量下降的同时，由于还要作为后续帧的参考帧，因而存在误差传递和积累的隐患。这一点，在进行码率控制时，就要给予充分的考虑。 2 2m p e g 4 的视频数据结构，图2 2 为m p e g 4 视频码流数据的层次化结构图。由图可见，m p e g 4 视频码流主要分为五个层次哺： 1 ) 视频序列v s ( v i d e os e q u e n c e ) ：v s 对应于一段完整的视频场景，每个v s 可由一个或者多个v o 构成，v s 是其它几层的数据入口，一个完整的视频包括多个v s ： 2 ) 视频对象v o ( v i d e oo b j e c t ) ：v o 对应于场景中具体的人或者物体。它可以是矩形也可以是任意形状； 3 ) 视频对象层v o l ( v i d e oo b j e c tl a y e r ) ：v o l 指v o 码流中包括的纹理、形状和运动信息层。v o l 是由v o 在时间或者空间上的分级描述，用于实现分级编码。一个v o l 可以由一个或者多个视频对象层组成，每个层各有v o l 的相应的分辨率； 7 河北科技大学硕士学位论文 v o p l v o p n 图2 - 2m p e g - 4 自然视频数据结构 f i g 2 2 m p e g - 4n a t u r a lv i d e od a ms t r u c t u r e v o p l v o p n 4 ) 视频对象平面组g o p ( g r o u po f v o p ) ：g o p 由多个v o p 组成。g o p 提供了一个比特流中独立编码v o p 的起始点，以便于实现比特流的随机播放； 5 ) 视频对象平面v o p ( v i d e oo b j e c tp l a n e ) ：v o p 是v o 在某一个时刻的取样，即某一帧中的v o 。v o p 可以独立的进行编码( i v o p ) ，也可以运用运动补偿编码( p v o p 和 b v o p ) 。每个v o p 有3 个表示像素的矩阵，一个为亮度( y ，黑和白) ，另两个为色度( c r 和c b ，颜色和色差) ，亮度和色度定义从c c i r 6 0 1 标准中来，该标准是表示未压缩视频的国际标准：色度矩阵有两个与亮度矩阵关联的垂直与水平的分量进行采样。其采样关系可以是4 ：2 ：0 、4 ：4 ：4 、4 ：1 ：1 、4 ：2 ：2 中的一种。田0 1 口口 y c b c o 图2 - 34 ：2 ：0 宏块的码流结构 f i g 2 3 m a c r o b l o c kb i t s t r e a ms t r u c t u r e 6 ) 宏块m b ( m a c r ob l o c k ) ：每个v o p 帧被分成1 6 x1 6 的块，每个块由4 个8 x 8 ( y ) 亮度块和8 8 ( c r 和c b ) 色度块组成。这一组6 个块，称为宏块，它是获得高水平压缩的基本分层部件。 8 第2 章视频编码概述 7 ) 块b l o c k ：一个块由个8 8 的亮度信息或色度信息组成。它是进行d c t 变换编码的基本单元。概括的说，m p e g 4 的视频由多个v s 组成，而v s 是一个或者多个v o 的集合，v o 包括一个或多个不同分辨率的v o l ，v o l 包括一系列v o 在时间上和空间上的采样v o p 。所以v s 序列是整个场景在某段时间上的图像序列，v o 序列是从v s 中提取的不同空间目标，v o l 序列是v o 的不同分辨层( 基本层和多个增强层) ，v o p 序列是v o 在不同分辨层的时间采样。m p e g 4 的视频编解码就是基于v o p 进行的口。 2 3v o p 编码 m p e g 4 视频编码器的基本单元是基于v o p 的编码。m p e g - 4 中将v o p 分为3 种类型： 1 1 帧内图像i 帧( i n t r a p i c t u r e s ) ：i 帧图像是利用图像自身的相关性压缩，采用基于d c t 的编码技术，编码不需要其它帧做参考。它为解码器提供随机存取点，是预测图像p 帧和双向预测图像b 帧的参考图像。所以它压缩率不高，压缩后，每个像素为1 - 2 b i t ，m p e g 算法允许编码选择i 帧的频率和位置，这是基于随机存取和场景位置切换的需要。 2 1 预测图像p 帧( p r e d i c t e dp i c t u r e ) ：p 帧图像是参考过去的帧内图像或者是过去预测得到的图像用运动补偿预测技术进行编码。这些预测图像通常作为进一步预测的参考，预测图像的编码效率较高。缺点是图像质量不如帧内编码，而且存在误差传递和积累的隐患。 3 1 双向预测图像b 帧( b i d i r e c t i o n a lp r e d i c t i o n ) ：b 帧图像在预测时，既可以使用前一个图像做参考，也可以使用下一个图像做参考或者同时使用前后两个图像作为参考( 双向预测) 。它的压缩效率最高，双向预测图像不再作为预测的参考图像8 j r、 v o p o 编码码一v o p i ( 勰：3 ：壅控制 j一( v 。p n 编码：用户交互图2 _ 4m p e g - 4 视频编码器原理 f i g 2 - 4m p e g - 4v i d e oe n c o d e rp r i n c i p l e m p e g 4 基于v o p 的视频编码原理框图如图2 4 所示。首先，对视频流进行v o p 9 河北科技大学硕士学位论文分割，之后由码率控制器分别为不同v o 以及各个v o 的形状、运动、纹理三类信息分配码率，并由v o p 编码器对各个v o p 分别进行独立编码，然后将编码的基本码流复用成一个输出码流，码率控制和复用部分可以加入用户的交互控制或者只能算法控制。 v o p 的编码主要包括两部分：v o p 的形状编码部分和传统的运动与纹理编码部分。首先把v o p 从左到右、从上到下分成1 6 x1 6 大小的宏块，具体的形状、运动和纹理编码是基于宏块进行的。 1 ) 形状编码。m p e g 4 标准中第一次引入了形状编码的压缩算法。形状信息有两类：二值形状信，皂, ( b i n a r ys h a p ei n f o r m a t i o n ) 和灰度级形状信息( g r a ys c a l es h a p ei n f o r m a t i o n ) 。二值形状信息就是用0 和1 的方式表示编码的v o p 的形状，0 表示非v o p 区域，1 表示 v o p 区域；灰度级形状信息可取值0 - 2 5 5 ，类似于图形学中的a 平面的概念，0 表示非 v o p 区域( 即透明区域) ，1 - 2 5 4 表示v o p 区域透明程度的不同，2 5 5 表示完全不透明。灰度级形状信息的引入主要是为了使前景对象迭加到背景上时不至于边界太明显。形状信息的编码只在m b 级进行。二值形状信息使用基于上下文相关信息的算术编码c a e ( c o n t e x t b a s e da r i t h m e t i ce n c o d i n g ) 和运动补偿算法进行压缩编码；灰度级的形状信息采用基于块的d c t 和运动补偿，类似于m p e g 4 纹理部分亮度信号( y ) 编码。 2 ) 运动补偿。由于采用基于v o p 的技术，运动估计和补偿被限制在v o p 边界框内进行，使得运动估计更加准确，运动补偿也更加有效。在运动估计和补偿中，采用了重复填充、多边形匹配、高级预测模式和重叠的运动预测等新技术。 m p e g 4 视频编码的一个重要优势就是基于单项内容运动补偿。比如v o 为某个人的头，无论这个人怎么运动，其头部运动最多的为嘴和眼睛，所以运动补偿的效率非常高。相对于静止的长背景，采用了全局运动补偿，使得背景的编码效率非常高，这部分叫做灵影( s p r i t e ) 编码。 3 ) 纹理编码。纹理信息是表示v o p 图像内容的信息。图2 5 表示出v o p 纹理编码的处理过程，纹理子块先进行d c t 变换和量化，然后对d c 系数和a c 系数进行帧内系数预测，再进行系数扫描，最后对系数进行游长编码和霍夫曼编码阳：。 v o p 纹理图2 5v o p 纹理编码过程 f i g 2 - 5v o p t e x t u r ec o d i n gp r o c e s s 1 0 第2 章视频编码概述 a ) 边缘宏块的处理：位于v o p 内的标准宏块可以直接进行编码，跨越在v o p 边界上的边缘宏块包含任意形状的纹理数据，需要先使用填充处理将其扩展为矩形宏块，其中亮度分量以1 6 x1 6 方式填充，而色度分量以8 x 8 方式填充。 b ) d c t ：标准纹理宏块和经过填充的边缘可进一步分为8 8 的块，m p e g - 4 采用基于8 x8 的二维d c t 变换 c ) 量化：d c t 系数量化是一个有损压缩的过程。量化步长的不同导致不同的数据码率和不同的图像质量。选择最合适的量化步长对图像进行压缩是码率控制的关键。 d ) i n t r a d c 和i n t r a a c 的系数预测由于同一帧中各子块的d c 和a c 系数有较强的连续性，所以也可以进行帧内预测编码。如图2 - 6 所示，由块a 、b 、和c 可以计算出水平和垂直方向d c 的梯度，如果水平梯度大则选块b 作为参考块，垂直梯度大则选块c 作为参考块。园因图2 - 6i n t r a - d c 和i n t r a - a c 的系数预测 f i g 2 - 6 i n t r a - d ca n dh a t r a - a cc o e f f i c i e n tp r e d i c t i o n d c 预测：对当前块的d c 系数进行预测；a c 预测：对当前块的第一行或者第一列进行预测；需要注意的是，并不是任何时候d c 、a c 系数预测都有效，要视具体情况而定，如果预测出的差值很大，就没有必要进行预测编码。 e ) 系数扫描和基于霍夫曼编码的游程编码r l c ( r u nl e n g t hc o d i n g ) 在游程编码之前，需要通过扫描处理将二维数据转化为一维。扫描方式有三种：交替水平扫描、交替垂直扫描和z i g z a g 扫描。如果以图中2 - 6 中块c 作为预测块，则采用交替垂直扫描；如果以图2 - 6 中块b 作为预测块，则采用交替水平扫描。扫描所得系数经游程编码后再进行 h u f f m a n 编码。 2 4m p e g 4 空间可分级编码 m p e g 4 采用了基于对象的编解码方法，相应的便有了基于对象分级功能的出现。它是m p e g 4 提供的又一个新的功能，是m p e g 4 基于对象的交互性的重要体现，同时河北科技大学硕士学位论文兼容于m p e g 一2 的基于帧的可分级功能。m p e g 4 中的可分级按分级方法有时域分级、空域分级和信噪比分级三类，按编码模式分有基于帧的可分级和基于对象的可分级两类。基于对象的空间可分级在解码后的空间分辨率上使基于对象的码流呈现分层结构。解码其中的部分码流可以得到较低空间分辨率的对象，从而对应较低的传输码率或者适应相应的应用环境。如图2 7 、2 8 分别为基于对象的空间可分级和基于帧的空间可分级工l 解码效果，。图2 7 基于图像的空间可分级 f i g 2 - ji m g 。- b a s e ds m ds l a b l 。翔霸圈胺上( 3 - 2 ) d m m d m a x 图3 - 2 率失真函数r ( d ) 的典型图形 f i g 3 2 at y p i c a lg r a p h i c so fr a t e d i s t o r t i o nf u n c t i o nr ( d ) 式( 3 - 2 ) 就是信息率失真函数或简称为率失真函数。它是允许失真度d 的u 型凸函数，并具有单调递减性和连续性，见图3 2 。r ( d ) 反映了信源可以压缩的程度，是在满足一定失真度要求下d5d ，信源可压缩的最低值。所得的r ( d 1 已是信源特性 1 6 第3 章码率控制算法的参量，与在求值过程中选择的试验信道无关。对于不同的信源，其r ( d ) 是不同的。理论上，每个信源都有自己的r ( d ) 曲线，但现实是：无法精确得到匹配的r ( d ) 函数。所有文献中所提出的r ( d 1 函数都是统计估计得到的近似模型。不论是图像失真d 还是编码比特数r 都是因量化步长q 的不同而不同的。因此，在实际应用系统中，总是通过r ( q ) 函数和d ( q ) 函数来表现信源的率失真性能，见图3 3 ，这两者都称为r d 函数或者r d 曲线。 t = g e t b i tr a t e e s t i m a t e q v 池 ( a ) 础q ) 曲线 t a r g e t d i s t o r t i o z i 图3 - 3r ( q ) 和

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（通信与信息系统专业论文）视频编码中码率控制算法的优化与研究.pdf

文档简介

温馨提示

最新文档

评论

（通信与信息系统专业论文）视频编码中码率控制算法的优化与研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档