（信号与信息处理专业论文）h264视频压缩标准的研究和实现.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-09 格式：PDF 页数：72 大小：1.71MB 积分：0 举报 版权申诉

已阅读5页，还剩67页未读，继续免费阅读

（信号与信息处理专业论文）h264视频压缩标准的研究和实现.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘要 h 2 6 4 是i t u t ( i n t e r n a t i o n a lt e l e c o m m u n i c a t i o n su n i o n ) 提出的一种较新的面向甚低码率视频通信应用的视频图像压缩标准。相较于i t u t 以前的标准h 2 6 1 和h 2 6 3 ，它提出了一系列新的方法，能够更有效改善编码效率，在相同压缩率的情况下可大大提高图像质量。本文向大家介绍基于h 2 6 4 视频传输协议的编、解码实现，以及为了得到最优的压缩率，在编、解码过程中所采用的具体实现办法。同时在变换编码和帧间预测编码的运动搜索算法方面提出和介绍并实现新的算法。在第一章引言中概要介绍h 2 6 4 视频压缩标准的制定的过程和能够实际应用的广泛范围。以及在新的技术思路下，较以往存在的标准，所能达到一些新的功能和指标；同时向大家阐明了作者在本篇论文中对h 2 6 4 实现以及改进的主要思路及方面。在第二章中，简要阐述与本文有密切关系的视频压缩理论基础和重要概念。介绍视频压缩编码思想的发展过程以及其广泛的应用。对在视频压缩编解码应用中的重要概念和思想进行介绍，重点突出视频压缩处理中的理论方法和工作流程。针对视频图像压缩中的重点步骤概要介绍h 2 6 4 之前的h 2 6 1 、h 2 6 3 和m e p g l 、m e p g 2 等标准。第三章是对新一代视频压缩标准h 2 6 4 的具体表述介绍。详细介绍h 2 6 4 视频压缩标准的制定的过程和能够实际应用的广泛范围。介绍h 2 6 4 传输协议的整体实现流程和其在编、解码实现的过程中所提出的一些新的思路。重点具体描述运动搜索、整型d c t 变换、可变步长量化、帧间图像编码和帧内图像编码这五个部分，并与以往的视频传输协议相比较，进一步了解到h 2 6 4 在各个部分上的改进和实现。第四章是作者在本文中重点对整型d c t i d c t 算法进行的研究，并具体实现了在h 2 6 4 中没有写入标准的8 8 整型d c t i d c t 。这个算法基于文献3 中的提升矩阵的理论，并在此基础上作了一定的改进，使之更加适合8 8 变换矩阵的具体情况。作者在第五章中专门提出了一个解决帧内预测模式选择的方案。h 2 6 4 有多达摘要 9 种的帧内预测模式，其先进的设计思想主要体现在对上下文的自适应性，但在标准中没有明确这些模式的自适应选择方式，这为h 2 6 4 的使用造成了较大的困难。作者提出基于由图像灰度生成的拟合平面的方向性对模式的选择方式较好的解决了这个问题。在第六章中作者介绍和讨论了视频压缩编码中的运动搜索算法，重点分析了全搜索法、三步搜索法、菱形搜索法和两种自适应搜索法，并具体给出实现后三种算法的流程和步骤，最后得出比较结论。第七章简要总结全文。关键词：视频压缩标准h 2 6 48 8 整型d c t 运动搜索帧内预测 i i a b s l r a c t a b s t r a c t h 2 6 4h a sb e e n a d v a n c e da san e wv i d e oc o m p r e s se n c o d es t a n d a r db yi t u t ( i n t e r n a t i o n a l t e l e c o m m u n i c a t i o n su n i o n ) w h i c hf o c u s e so nl o w c o d i n gv i d e o c o m m u n i c a t i o n c o m p a r i n gw i t ht h eo l d e rs t a n d a r ds u c ha sh 2 6 1 ，h 2 6 3a n dm e p g s ， i th a sp r e s e n t e du sas e r i e so fn e wm e t h o d st oi m p r o v et h ee f f e c to fe n c o d i n go rt o i m p r o v et h eq u a l i t yo fi m a g eu n d e rt h es a m ec o m p r e s s i o nl e v e l i i lt h i sp a p e r , w ew i l ls e er e a l i z a t i o no fe n c o d i n ga n dd e c o d eb a s e do nh 2 6 4f o r f m d i n gt h eb e s tc o m p r e s s i o nr a t i o f u r t h e r m o r e ，i tw i l ld i s c u s sa n di n t r o d u c es o m e n e wm e t h o d si ni n t e g e rd c t ，i n t r a p r e d i c t i o nm o d ec h o s ea n dm o v e m e n ts e a r c h a l g o r i t h m f i r s ti nc h a p t e ro n c , t h ea u t h o rw i l li n t r o d u c et h ep r o c e s so fc o n s t i t u t eh 2 6 4a n dt h e b o a r dr a n g ei nw h i c ht h es t a n d a r dc o u l db ea p p l i e d h 2 6 4i sb e t t e rt h a nt h eo l dv i d e o e n c o d es t a n d a r di ns o m eg u i d e l i n e ，a n di tc a nr e a l i z es o m en e wf u n c t i o n w ew i l l i n t r o d u c et h e mi nt h ec h a p t e r , t o o i nt h el a s t p a r to ft h ec h a p t e r , t h ea u t h o rw i l l i n t r o d u c et h em o s t l yi m p r o v e di d e aa n da s p e c ta i ma th ，2 6 li nt h i st h e s i s i nc h a p t e rt w o t h ea u t h o rt l l i n ki t sn e c e s s a r yt oi n t r o d u c es o m eb a s i st h e o r yo f i m a g e c o m p r e s se n c o d e ，s ot h a tw ec a nd e f i n ea n du n d e r s t a n dw h yh 2 6 4i san e ws t a n d a r dt o o t h e r s o nt h eo t h e rh a n d 劬mt h ei n t r o d u c t i o nw ec a nf i n dh o wh 2 6 4w o r k si nt h e p o i n t so f e n c o d i n gp r o c e s s i nc h a p t e rt h r e e ，a tf i r s tt h ed e v e l o p m e n t a lp r o c e s sa n db o a r da p p l i c a t i o no fv i d e o e n c o d es t a n d a r da r ei n t r o d u c e dh e r e t h e nw i l l i n t r o d u c et h eh o l i s t i cf l o wo f h 2 6 4a n d t h en e wi d e a si n s e a r c h i n gt h em v ( m o t i o nv e c t o r ) w i t hh i g h e rl e v e l so fs p a t i a l a e c u r a c i n t e g e rd c t , c h a n g e a b l es t e ps i z eq u a n t i z a t i o n ，i n t r a - p r e d i c t i o na n dc o d i n g a n di n t e r - p r e d i c a t i o n h 1t h el a s tp a r to ft h ec h a p t e r , t h ea u t h o rw i l ld e t a i l e di n t r o d u c e t h ef i v en e w si d e a i nc h a p t e rf o u r , t h ea u t h o rw i l ld i s c u s sa b o u tt h ei n t e g e rd c t i d c ta l g o r i t h m ，a n d r e a l i z a t i o nt h e8 8i n t e g e rd c t i d c t t h ea l g o r i t h mm o r eb a s e so nt h et h e o r yi n l i t e r a t u r e ( 3 ) w h i c hu s e st h em e t h o do fl i f t i n gm a t r x b u tt h ea u t h o rh a sa d v a n c e dt h e 1 1 1 a b s t r a c t t h e o r yt of i tt h ec h a r a c t e ro f8 8d c t i d c t i n t r a - p r e d i c t i o ni sai m p o r t a n tl o o pt or e d u c et h ec o d eo fc o m p r e s s i o n ，s oh 2 6 4h a s p r e s e n t e d9w a y st oi n t r a - p r e d i c t b u tu n f o r t u n a t e l y , h o wt oc h o o s et h ew a y si sn o ts o c l e a ri nt h es t a n d a r d i nc h a p t e rf i v e ，t h ea u t h e rw i l lp r e s e n tam e t h o dt oc h o o s ea m o d eo f i n t r a p r e d i c t i o n ，m i l c hb a s eo nt h ed i r e c t i o no f a p l a n eb o m e db yt h eg r a y n e s s o f i m a g e i nc h a p t e rs i x ，as e r i e so fm e t h o do fm vs e a r c hw i l lb es h o w e nu pa n di n t r o d u c e d t h ea u t h o rw i l lf o c u so nt h ec o m p a r i n gb e t w e e nf u l l s e a r c h ，t h r e e s t e p s e a r c h ， d i a m o n ds e a r c ha n da n o t h e rt w os e l f - a d a p ts e a r c hm e t h o d s l a s tc h a p t e rw i l ls u m m a r i z ea l lt h et o p i c so f p a p e r k e y w o r d s ：s t a n d a r do fv i d e oc o m p r e s s i o n ，h 2 6 4 ，8 8i n t e g e rd i s c r e t ec o s i n e t r a n s f o r r n v e r s i v ed i s c r e t ec o s i n et r a n s f o r m ，m o t i o nv e c t o rs e a r c h ，i n t r a - p r e d i c t i o n 独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名：王绳日期：2 0 0 6 年0 5 月0 2 日王锄司关于论文使用授权的说明本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定，有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 姗签名：王塑导师签名：割剑日期：2 0 0 5 年0 5 月0 2 日乡。l 芝3 第一章引言 1 1 视频信号发展的现状第一章引言众所周知，人类社会的三大支柱是物质、能量和信息。具体而言，农业现代化的支柱是物质，工业现代化的支柱是能量，而信息化的支柱是信息。信息具有通用性、抽象性、无限性三个特征。信息化是指“在现代信息技术广为普及的基础上，通过开发和利用信息资源，各种社会和经济活动的功能和效益得以显著提高，人类社会的物质和精神文明达到了一个新的水平。”信息化的实现首先要开发和利用各种信息资源，其次要有一个信息网络( 如宽带通信网) ，通过该网络将大量的信息传送到信息用户。信息的种类很多，而利用人的视觉获得的信息称为视频信息，视频信息具有直观性、确定性、高效性和广泛性的特点。然而，要对视频信号进行传送和利用就不得不考虑视频信号的另一特性，即高带宽特性。视频信号所包含的信息量大，传输网络所需的带宽相对较宽，就像一辆庞大的货车只有再宽阔的马路上才能行驶一样。例如，一路高清晰度电视信号( i d t v ) ，由于信息量大，不压缩需要i g b i t s ，利用m p e g 一2 压缩后，尚需2 0 m b i t s ，而普通一个模拟电视频道( p a l 制) 的信道只有8 m 的带宽。视频信号发展到今天，随着科技的进步，特别是大规模集成技术和宽带通信网络的广泛应用，使数字视频进入人们生活成为可能。数字视频技术的最大应用就是数字电视。美国己公布在2 0 1 0 年( 我国约在2 0 1 5 年) 停止模拟电视广播，全部采用数字电视广播。与模拟电视信号相比，数字视频具有以下三个主要优势： 1 _ 失真小、噪声低、质量高。主要原因是模拟信号的处理过程中多种噪声迭加在信号上不易除去，而且存在各个过程的噪声累加问题。而数字视频信号由于是0 、 “1 ”高低电平组成，能够有效清除部分噪声，恢复信号。2 易处理、易校正。由于数字信号的数字0 、l 特性，数字视频信号要进行压缩处理、加密处理、白平衡调整、v 校正、彩色校正和轮廓校正，相对容易得多。而且，目前利用现代专用芯片和通用d s p 来实现以上处理的成本不断下降。3 容量大、节目多。例如c a t v ( c a b l e t e l e v i s i o n ) 频道中，5 5 0 7 5 0 姐z 的2 0 0 m h z 带宽中，如果传送模拟电视，每个节目需要8 m h z 带宽，最多可以传送2 5 套节目。如果传送数字电视信号，采用6 4 q a m 电子科技大学硕士学位论文调制，其频谱利用率为5 3 ，如每路节目用m e p g 2 压缩为4 m b i t s ，实际只需4 5 3 = o 7 5 m h z ，于是同样2 0 0 m l l z 带宽中可传送节目2 0 0 7 5 = 2 6 0 ，约为模拟电视信号的1 1 倍! 将输入的模拟电视信号变成数字电视信号需经过取样、量化、编码三个步骤。如图1 1 所示，这三个步骤由a d 变换器完成。模拟信号：a d 变换器输入 p c m 信号输出图1 1 数字视频信号的生成还需要说明的是电视信号的取样有两种：空间取样和时间取样。运动图像由每秒若干帧静止图像构成，我国采用p a l 制彩色电视规定每秒2 5 帧。这种取样方式即为时间取样。如果是会议电视、可视电话等运动量不大的视频信号，帧频可取1 5 - - 2 0 帧，但低于1 5 帧的视频质量不高。在同一电视信号帧中，同一行由若干个取样点构成，这些取样点称为像素，这种取样就属于空间取样。现存在三种彩色电视制式，不同国家采用不同的制式，为了实现国际上的不同彩色电视制式国家之间视频通信，往往采用一种中间公共格式( c i f ) ，见表1 1 。视频格式格式亮度清晰度亚q c i f 9 6 1 2 8 q c i f 1 4 4 1 7 6 c i f2 8 8 3 5 2 4 c i f5 7 6 7 2 0 表1 1 国际通用的视频格式 1 2 数字视频压缩标准发展的现状在上一节中简要我们介绍了数字视频信号的一些优点和特性，可以看出，数第一章引言字化是未来信息通信的必然趋势。然而，由于视频信号的宽带宽特性，使得数字视频能否生存和应用就依赖于对信号的压缩和编码处理了。更好更先进的压缩方法越能够产生更好的压缩效果。例如利用m p e g 2 压缩的一路h d t v 约需2 0 m b i t s ，而利用h 2 6 4 压缩的一路h d t v 大概只需5 m b i t s 。简单的讲，对视频信号进行压缩有两个要求： 1 、必须压缩在一定的带宽内，即视频编码器应具有足够压缩比的功能。 2 、视频压缩后，经恢复应保持一定的视频质量。这个视频质量有两个标准：一个为主观质量，由人从视觉上进行评定；一个为客观质量，通常用信噪比( s n ) 表示。在不同的应用和产品之间交换数字视频，就需要数字视频格式标准。视频数据是按照压缩的形式来交换，这就导致了压缩标准的出现。压缩标准一般规定着如何对视频图像按照要求进行压缩、传送和解压，从而使业界能向用户提供合理价位的有效带宽终端。而一个成功的标准往往要满足以下要求： 1 、创新。对视频编码来说，创新意味着提供新的功能，而这一功能能够在压缩编码中表现出明显的改善。 2 、竞争。标准不应该阻止制造商之间的竞争。因此，标准的规范必须对任何人都是开放的和可利用的。 3 、独立于传输和存储介质。一个内容供应商应该能独立于网络或存储介质数字的传输或存储编码的内容。这样要求的结果是音频和视频标准用于编码音视频信息，然后系统标准用于把音视频比特流格式化承一种适合于所选择网络或存储介质的格式。 4 、向前兼容性。一个新的标准应该能理解先前标准的比特流。如h 2 6 3 应该能够解码按照h 2 6 1 编码的比特流。 5 、向后兼容性。如果旧标准能够解码新标准的比特流，则新标准对旧标准是向后兼容的。现在有两个国际组织在着手制定和发展视频编码标准，一个是i t u t ，另一个是i s o i e cj t c l 。i t u t 推荐使用的视频编码标准被归结为h 2 6 x ( e g h 2 6 1 ，h 2 6 2 ， h 2 6 3a n dh 2 6 4 ) 系列。i s o i e c 的标准属于m p e g x ( e g m p e g l ，m p e g 2a n dm p e g 4 ) 系列。 i t u t 的系列协议更多的被推荐应用于实时视频通信，如视频会议和可视电话；而m p e g 系列标准则更多的应用在视频存储( d v d ) 、数字电视以及视频流等方面。在过去大部分时间里，i t u t 和i s o 两个国际组织分别发展着自己的视频标准，他电子科技大学硕士学位论文们仅在制定h 2 6 2 m p e g 一2 标准时有过合作。但在上世纪9 0 年代末期，i t u t 和 i s o i e cj t c l 决定合作开发由i t u t 率先提出的h 2 6 4 协议标准。图l _ 2 直观反映了两大组织发展各自标准以及合作的情况。目前，h 2 6 1 主要用于视频电视会议的视频编码；h 2 6 3 主要用于模拟电话线路传输视频会议和连接到i n t e r n e t 的桌面和移动终端；m p e g l 主要用于c d 、卡拉o k 机、一些数字便携式摄像机和i n t e r n e t 上的消费视频；m p e g 2 主要用于广播和d v d 数字视频存储，它还被选择为美国h d t v 广播系统的视频编码器；分离的音频物体 ( 包括自然的和合成的) 的编码在m p e g 4 中被标准化。图1 2 h 2 6 x 和m p e g 系列标准制定进程 i t u t 视频编码专家组( v c e g ) 在1 9 9 7 年率先开始了h 2 6 4 算法的研究工作，到2 0 0 1 年底，应用h 2 6 4 算法的一些软件所表现出来的压缩质量己经超过了现存的应用m p e g 一4 算法的软件，不但吸引了各方面的注意，同时，i s o i e c 的m p e g 小组也加入到i t u t 的v c e g 小组中，组成了一个联合视频小组j v c ( j o i n tv i d e o t e a m ) 。j v c 的目标是制定一个新的视频编码标准作为i t u t 新的系列标准以及 i s o 、i e c 的m p e g 系列标准之一，这就是h 2 6 4 。h 2 6 4 于2 0 0 3 年3 月进行官方发布。应该说，h 2 6 4 的颁布是视频压缩编码学科发展中的一件大事，它的优越的压缩性能也将在数字电视广播、视频实时通信、网络视频媒体传递以及多媒体短信等各个方面发挥重要作用。 1 3 h 2 6 4 视频压缩标准的特点及应用在上一节中，作者就目前各种视频标准发展的现状进行了介绍，在本节中将 4 第一章引言对h 2 6 4 的特点作简要介绍。 h 2 6 4 采用了多种先进技术，具有很好的压缩性能，能够适应绝大部分视编码的需要。在视频应用领域中具有许多优点，比如，h 2 6 4 能提供比h 2 6 3 和m p e g 4 更高的压缩性能，实验表明，在相同图像质量的情况下，h 2 6 4 标准能够节省一半的带宽，有利于用有限的空间存储更多的图像数据。h 2 6 4 中还包括了大量的错误恢复工具，其中帧内编码模式的内插和数据分割等工具，己应用于以前的视频压缩方案中，但其中的参数集、灵活宏块排序( f m o ) 、冗余分片( r s ) 等工具是全新的。关于h 2 6 4 各种先进的技术概念将在后面章节中继续详细介绍和研究。此外，2 6 4 在系统层面提出了一个新的概念，在视频编码层v c l ； d 网络适配n a l 之间进行概念性分割。引入面向数据包编码，有利于将数据打包在网络中传输，支持流媒体服务应用；具有较强的抗误码特性，以适应在噪声干扰大、丢包率高的无线信道中传输；对不同应用的时延要求具有灵活的适应性；编码和解码复杂度具有可扩展性，支持编码和解码复杂度的不等分配和扩展。7 c l 层对编码视频信息进行有效的描述；n a l 贝j j 对该编码视频信息进行打包封装并通过指定网络进行传输。这样的结构便于信息的封装和对信息进行更好的优先级控制，使得h 2 6 4 标准能较好的适用于移动通信和互联网，也能为视频流的运用提供服务。关于h 2 6 4 的 n a l 层的详细介绍由于本文篇幅有限在后面章节中不作过多的讨论。由于h 2 6 4 优越的性能，将在前面已经介绍的数字电视广播中发挥重要的作用。因为，如前所述数字电视的优越性是公认的，但它的广泛应用还有赖于高效的压缩技术。比如，利用m p e 6 2 压缩的一路高清晰度电视( b d t v ) 约需2 0 m b i t s 的带宽，经初步实验，利用h 2 6 4 进行同样的压缩大概只需5 m b i t s 的带宽。以传输费用而言，采用h 2 6 4 是一个十分诱人的前景。另外，视频通信是h 2 6 4 的又一个重要应用领域。目前，以旧有的标准传送的会议电视和可视电话不能达到良好的效果，特别是在网络流量较大的情况下这个问题尤为突出。h 2 6 4 不仅具有优异的压缩性能，而且具有良好的网络亲和性，这对实时的视频通信十分重要。现在已有基于d s p 的采用h 2 6 4 编码的可视电话投入实际应用，进一步说明了在视频通信中 h 2 6 4 的重要应用价值。在p c 计算机日益普及的今天，h 2 6 4 对网络流媒体和多媒体短信的重要作用也进一步体现，并显示出巨大的潜力。从这个角度来说，m e p g 4 技术的重点时灵活性，而h 2 6 4 着重于解决压缩的高效率和传输的高可靠性，因此应用十分广泛。具体来说，h 2 6 4 支持三个不同档次的应用：1 、基本档次：主要用于“视频会话”，如会议电视、可视电话、远程医疗、远程教学等；2 、扩展档次：主要用于网络的视频流，如视频点播；3 、主要电子科技大学硕士学位论文档次：主要用于消费型电子应用：如数字电视广播、数字视频存储等。 1 4 本文的主要工作作者在本篇论文中将比较详细的介绍h 2 6 4 在视频图像压缩编码中各个环节的主要技术理论，主要包括标准中关于帧内预测、帧间预测、运动搜索、整型d c t 变换及量化、自适应可变长编码等步骤的讨论、仿真对比实验和部分环节的具体实现。特别将在整型d c t i d c t 算法、帧内预测模式选择和帧间运动搜索三个重要环节上分别提出和介绍一些新的算法和思想，作一些进一步改进和加强h 2 6 4 性能的尝试，并加以实现和比较而得出结论。第二章视频压缩理论基础第二章视频压缩理论基础根据第一章的介绍，我 f i g 失n 道视频压缩在视频图像处理和传输中的重要性和目的，为方便后面章节的叙述，本章将就一些视频压缩理论进行简要论述，并对本文中将用到的概念进行说明和解释。 2 1 视频压缩的可能性一、预测编码。如前所述，视频图像是由静止的图像序列组成，而每一副图像由许多个像素点组成。大量统计表明，同一副图像中像素之间具有较强的相关性，且两个像素之间的距离越近相关性越强，即两个相邻像素的值发生突变的概率极小，而相等、相似或缓变的概率极大。由于视频图像存在的这种较强的空间相关性，于是这一特性成为压缩处理的原理之一，根据空间相关性产生的压缩方法称为预测编码。它的原理是采用一定算法使图像传送只传送较少的比较信息，这种信息称为残差值，再用这些残差值和事先已处理过的图像恢复出要传送的图像信号。例如当前像素x ( 立即传送的像素) 可用前一个像素a 或b 、c ，或三者的线性加权来预测，图2 1 像素间相关性解释如图2 1 ，“0 ”表示像素点。这些a ，b ，c 被称为参考像素。在实际传送时，把实际像素x ( 当前值) 和参考像素( 预测值) 相减，比如之传送x a ，到了接受端再把( x a ) + a 恢复为x 。由于相关性的存在x a 的值往往很小，在整个图像来看这种值大部分是近似于o 的数，而这些值可用较少的码字来表示，这样达到图像压缩的目的。以上的方法称为帧内预测，但是在接受端为了得到效果更好的图像，一般的预测算法比x a 要复杂得多，比如在h 2 6 4 中根据不同的情况就有十三种方式。不仅如此，对于运动幅度不大的图像相邻的两帧之间也有更大的相关性，如电子科技大学硕士学位论文图2 2 ，从而可以再参考帧中找到相关的像素进行类似的运算，已得到更大的压缩比。这种方式称为帧间压缩，现在流行的算法称为块匹配法，众多视频压缩标准，包括h 2 6 4 都运用了这种算法进行帧间预测编码。图2 2 帧间相关性解释二、变换编码。大量统计表明，视频信号中包含着在能量上占主要部分的直流和低频成分( 即图像的平坦部分) ，还有少量的高频成分，即图像细节。因此，可以利用数学方法将图像进行变换，变换后得到变换域中的图像( 如图2 3 ) ，其中u ，v 分别是空间频率坐标。在图2 3 中，用0 表示低频和直流成分占图像能量的大部分，而高频成分用“x ”表示则是少量的，其余均为零值，用“0 ”表示。所以可用较少的码字传送直流低频和高频，而“0 ”则不必用码传递，从而达到压缩的目的。在h 2 6 4 等压缩标准中，进一步采用可变长霍夫曼编码方法，即用占较多部分的直流低频用较少的码字编码，而较少部分的高频用相对较多的码字编码，使总的码字长度最小。 2 2 视频压缩编码技术综述视频编码系统的基本结构如图2 4 所示。第二章视频压缩理论基础编码器有损的无损的解码器 l 一_ 一一一- 一一- _ - - k 一- 。_ 一一一一一一一一一一一一一- 一一一一一- - 图2 4 视频编码系统由图2 4 可见，视频编码方法与所采用的信源模型有关。如果采用由若干像素组成一副图像的信源模型，这种信源模型的参数就是每个像素的亮度和色度的幅度值，对这些参数进行压缩编码的技术称为基于波形的编码。如果采用一个分量有几个物体构成的信源模型，这种模型参数就是各个物体的形状、纹理和运动，对这些参数进行压缩编码的技术称为基于内容的编码。由此可见，根据采用的信源模型，视频编码分为两大类：基于波形的编码和基于内容的编码。它们利用不同的压缩方法，得到相应的量化参数，再对这些参数进行量化，用二进制码表示其量化值，最后进行无损熵编码进一步压缩码率。解码则是编码的逆过程。如上所述，利用像素的空间相关性和帧间的时间相关性，采用预测编码和变换编码技术可大大减少视频信号的相关性，从而显著降低视频序列的码率，实现压缩编码的目的。基于波形的编码采用了把预测编码和变换编码结合起来的基于块的混合编码方法。为了减少编码的复杂性，使视频编码操作易于执行，采用混合编码方法时，首先把副图像分成固定大小的块，例如块8x8 、块1 6 1 6 等等，然后对块进行压缩编码处理。所有h 2 6 x 、h 3 2 x 和m p e g 系列的压缩标准都采用了基于块的混合编码方法，都属于基于波形的编码。如上所述，基于块的编码易于操作，但由于人为的把一副图像划分成许多固电子科技大学硕士学位论文定大小的块，当包含边界的块属于不同物体时，它们可能分别具有的运动方式，便不能用同一个运动矢量表示该边界块的运动状态。如果强制划分成固定大小的块，这种边界块必然会产生高的预测误差和失真，这种误差和失真称为方块效应，严重影响了压缩编码信号的质量。于是产生了基于内容的编码技术。先把视频帧分成对应于不同物体的区域，分别对其进行编码。具体来说，即对不同的物体的形状、运动和纹理进行编码。在最简单情况下，利用二维轮廓描述物体的形状；利用运动矢量描述其运动状态；纹理则用颜色的波形进行描述。 2 3 视频压缩编码思想简介 2 0 世纪9 0 年代，多媒体技术随着人类进入信息时代而取得了迅猛发展。大信息量的音、视频数据被广泛使用，如常见的v c d 、d v d 等都是将大量的音、视频数据经过处理后供用户使用。音、视频相关技术在一些行业领域也得到了很好的应用，如保安监控系统中对现场进行音、视频的录制，以便存档、查询、取证等。由于音、视频数据量非常大，若未经处理，其存放、网络传输都存在很大问题。比如要想对一幅没有压缩的n t s c 制式的彩色视频进行数字化传输( 视频图像数字化成7 2 0 像素x 4 8 0 线，每种颜色中的每个像素用8 位表示，每秒传输3 0 帧) ，则要求信道的传输能力要达到2 4 8 m b p s 。同样，一帧h d t v 的彩色视频图像，其分辨率为1 9 2 0 像素1 0 8 0 线，每种颜色中的每个像素用8 位表示，每秒传输 3 0 帧，那么需要的信道传输率为1 s g b p s 。一幅超3 5 格式的高档电影图像，其分辨率为4 0 9 6 像素3 1 1 2 线，每种颜色中的每个像素用l o 位表示，每秒传输2 4 帧，那么一秒钟需要的存储空间为9 g 比特。如果象这样不对图像进行压缩，那么一张储存空间为5 g 比特的c d 盘只能储存大约2 0 秒的n t s c 制式的视频图像或3 秒钟的h d t v 图像或者0 5 秒的电影图像。可见，无论从经济角度还是技术角度，要想储存或网络传输大容量的音、视频图像，光靠硬件的支持是不能满足的，我们必须采用压缩处理。如果我们能用一种压缩了的形式来表示信息，我们能够明显体会到它的好处：节省储存空间节省c p u 时间节省传输时间具体的视频压缩机制可分为两种：有损压缩和无损压缩。对于无损压缩，我第二章视频压缩理论基础们关心的是精确重建没有信息丢失的数据，无损压缩通常应用于文本文件，常用的无损压缩包括： 1 行程( r u n - l e n g t h ) 编码技术 2 h u f f - m a n 编码技术 3 字典压缩方法 4 算术压缩方法而对于有损压缩，我们允许压缩后产生质量误差，有损压缩可以得到比无损压缩高得多的压缩比，但它只能用于可以用近似数据代替原始数据的场合。由于音、视频图像之问存在很多相关性，包括空间相关性、频率相关性和时间相关性。而有损压缩就是要利用被压缩数据的空间冗余、频谱冗余和心里视觉冗余以及时间冗余来达到压缩音、视频图像的目的。消除时间冗余可以分为下列几种策略：三维波形编码策略，它以统计信号模型为基础。运动补偿( m c ) 编码策略，它是使用了基本的编码模型。基于物体或知识的编码策略，它使用了更加复杂的编码模型。有损压缩的过程是变换编码。基本思想是用一个和原来不同的数学基来表示数据，这种新的表示下，数据的相关性能够显露出来或者被拆开。这种新的基下，大部分的系数都接近于零，可以忽略，于是可以将余下信息存储在一个较小的数据包中。压缩是通过数据变换，把域值以下的系数置零，对非零的数据进行无损的编码来实现，常用的有损压缩包括： 1 预测编码方法 2 正交变换编码 3 金字塔编码 4 子带编码 5 矢量量化编码 6 图像压缩的国际标准无论哪种压缩算法，其压缩率都与原始图像数据的分布特点有关，没有哪一种压缩算法的效率针对任何图像都是最优。而且在一般情况下，压缩效率比较高的算法，其具体的演算过程则相对比较复杂，从而需要更长时间进行转换编码操作。这使得多种算法并存成为可能和必要。电子科技大学硕士学位论文第三章新一代视频压缩标准h 2 6 4 在前面章节里，我们介绍了解视频压缩的基本知识和发展现状，在本章中将比较详细的介绍h 2 6 4 的帧内预测、帧间预测、变换编码和可变长编码等重要技术和作者的实现过程。 3 1h 2 6 4 中的名词解释为了更好的了解h 2 6 4 编解码器的细节，必须对以下名词有清楚的定义： 1 、场和帧视频的一场或一帧可用来产生一个编码图像。通常，视频帧可分为两种类型：连续或各行视频帧。在电视中，为减少大面积闪烁现象，把一帧分为两个各行的场。显然，这是场内邻行之间的时间相关性较强，而帧内邻近空间相关性较强，因此活动量较小或静止的图像宜采用帧编码方式，对活动量较大的运动图像则宜采用场编码方式。 2 、宏块、片一个编码图像通常划分为若干个宏块，一个宏块由一个1 6 1 6 亮度像素和附加的一个8 8 c b 和一个8 8 c r 彩色像素块组成。每个图像中，若干宏块被排列成片的形式。i 片只包含i 宏块，p 片可包含p 和i 宏块，而b 片可包含b 和i 宏块。i 宏块利用从当前片中已解码的像素作为参考进行帧内预测，不能取其他片中的已解码像素作为参考进行帧内预测。p 宏块利用前面己编码的图像作为参考图像进行帧内预测，一个帧内编码的宏块可进一步作宏块的分割：即分为1 6 1 6 、1 6 8 、8 1 6 、或8 8 亮度像素块( 以及附带的彩色像素) ；如果选择8 8 的子宏块。则可再分割成各种子宏块，其尺寸为8 8 、8 x 4 、4 8 或4 4 亮度像素块 ( 以及附带的猜测像素) 。b 宏块则利用双向的参考图像( 当前和未来的已编码图像帧进行帧内预测。 3 、h 2 6 4 的视频格式 h 2 6 4 支持4 ：2 ：0 的连续或隔行视频的编码和解码，缺省的4 ：2 ：0 的取样格式如图3 1 所示。第三章新一代视频压缩标准h 2 6 4 oooo oooo oooo oooo oooo 固固 oooo 图3 14 ：2 ：0 取样瀚oo 园o o o。o o o 。o o o。o 图3 24 ：2 ：2 取样 oy 取样 c b 取样 c r 取样 c o o 固o 国 o c 9o o o 固o o c o o 囝o 圆o o o 图3 34 ：4 ：4 取样 4 、h 2 6 4 片的结构一个视频图像可编码成一个或更多个片，每片包含整数个宏块，即每片至少一个宏块，最多时每片包含整个图像的宏块。总之，一幅图像中每片宏块数量不一定固定。设片的目的是为了限制误码的扩散和传输，应使编码片相互间保持独立。某片的预测不能以其他片中的宏块( m b ) 为参考图像，这样某一片中的预测误差才不会传播到其他片中。h 2 6 4 编码片共有5 中不同，即i 片、p 片、b 片和s p 片及 s i 片。片的句法结构如图3 4 所示。其中，片头规定了片的类型、该片属于哪个图像、有关的参考图像等；片的数据宝号一系列的编码宏块，和或跳编码( 不编码) 数据。图3 4 片的句法结构 o o o o o o 。o 。 o o 电子科技大学硕士学位论文 3 2h 2 6 4 编、解码流程及优越性 h 2 6 4 视频协议是前面提到的基于运动补偿的编码策略，它主要应用于甚低码率传输的视频会议和电视会议之中。 h 2 6 4 的整个编、解码流程如图3 5 。输图3 5 基于h 2 6 4 视频编、解码框图由图3 5 我们可以看到h 2 6 4 在整个编、解码流程中所提出的新的思路，它们包括： 1 、多模式的帧内预测：帧内预测是应用在i 帧图像的一种预测编码方法。以往的视频传输协议中，i 帧图像都采用直接编码的方式来进行，导致了i 帧图像编码尺寸很大。h 2 6 4 根据一帧视频图像各个宏块间的空间相关性，首先对每一个宏块进行预测，然后将当前宏块与预测宏块的差值进行编码，以达到降低编码尺寸的目的。帧内预测和编码的方法将在3 3 节做详细介绍。 2 、高精度、多参考帧、多模式的帧内预测：毫无疑问，帧间的运动搜索的精确性是减小整个视频序列编码压缩率的最重 1 4 第三章新一代视频压缩标准h 2 6 4 要部分。h 2 6 4 的帧间预测是利用已编码视频帧场和基于块的运动补偿的预测模式，与以往标准帧间预测区别在于块的尺寸范围更广( 从1 6 1 6 n 4 x4 ) ，亚像素运动矢量的使用( 亮度采用1 4 像素、色度采用1 8 像素精度运动矢量预测) 以及多参考帧的运用。s p s i 帧的应用，更使h 2 6 4 满足因特网和无线网络的基本应用，从而解决了视频流应用中终端用户可用带宽不断变化、不同内容节目拼接时数据量激增、快进快退以及错误恢复等问题。通过这些新算法的提出，h 2 6 4 相较于现有的视频编码协议在编码效率上将有很大提高。 3 、整型d c t 变换如在第二章所述，图像在编码过程中都会将时域信息转换到变换域以分离出高、低频分量。整型d t c i d c t 是作者认为h 2 6 4 在视频压缩编码上重要贡献之一，也为从事图像处理研究的人员提供了良好的模型和平台。现有的视频编码协议都是采用8 8 块大小的浮点型d c t 变换。h 2 6 4 率先提出了4 x 4 块大小的整型d c t 变换。在简化计算，提高数值精度方面体现了其优越性。作者将在第四章中详细对整型d c t 算法进行研究和讨论。 4 、可变步长量化及系数扫描：量化过程在不降低视觉效果的前提下减少图像编码长度，减少视觉恢复中不必要的信息。一般量化器的原理为： f q = r o u n d ( y q p 、 ( 3 - 1 ) 其中，y 为样本点编码，q p 为量化步长，f q 为y 的量化值，r o u n d ( ) 为取整函数。反量化为：y = f q * q p 。在量化和反量化过程中，量化步长q p 决定了量化器的编码压缩率和图像精度，起着重要的作用。在h 2 6 4 中，d c t 变换后的系数被分级量化以消除量化死区( d e a d z e r o ) ，量化步长可以选择

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（信号与信息处理专业论文）h264视频压缩标准的研究和实现.pdf

文档简介

温馨提示

最新文档

评论

（信号与信息处理专业论文）h264视频压缩标准的研究和实现.pdf

文档简介

温馨提示

最新文档

评论

相关文档