(通信与信息系统专业论文)h263标准的研究与linux下的软件实现.pdf_第1页
(通信与信息系统专业论文)h263标准的研究与linux下的软件实现.pdf_第2页
(通信与信息系统专业论文)h263标准的研究与linux下的软件实现.pdf_第3页
(通信与信息系统专业论文)h263标准的研究与linux下的软件实现.pdf_第4页
(通信与信息系统专业论文)h263标准的研究与linux下的软件实现.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(通信与信息系统专业论文)h263标准的研究与linux下的软件实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要摘要基于p s t n 网络的低比特率视频通信应用是当今图像编码领域的一个热点,而i t u t 的h 2 6 3 + 视频压缩标准以其高效的压缩效率和强的信道容错能力,在这类应用中获得了广泛使用,因此,对其进行研究具有重要的理论和实用价值。本文对低比特率视频通信压缩编码标准h 2 6 3 +的原理和编码方法做了深入的研究,软件实现了基于h 2 6 3 + 标准的视频编译码器在l i n u x 操作系统下的实时编解码,并实现了能显著提高编码效率的几种可选编码模式,主要包括先进预测模式、先进帧内编码模式、块边界滤波模式和改进量化模式等。为了提高软件运行速度,对运算时间较长的运动估计和d c t 模块采用快速算法,并对编码过程进行优化,采用了零运动矢量和零系数提前判决的方法,节省了很大一部分块匹配搜索和d c t 运算时间。经过本人实现和改进后的编解码算法,不仅有着较好的重建图像质量,而且能够完全解决软件编解码的实时性问题。本文的研究成果已用于远程教育系统中,稍加改动也可用于视频会议、可视电话、视频监控等多媒体通信系统,具有广泛的实用价值。关键词:视频压缩h 2 6 3 + 预测编码运动估计补偿d c t垒堕! ! ! !一一a b s t r a c tl o wb i tr a t ev i d e oa p p l i c a t i o nb a s e do np s t ni so n eo ft h eh o t s p o t si nt h ei m a g ec o d i n gf i e l d t h ei t u tr e c o m m e n d a t i o nh 2 6 3 + i sw i d e l yu s e di nt h i sf i e l df o ri t sh i g hc o d i n ge f f i c i e n c ya n ds t r o n ge r r o rr e s i l i e n c e s or e s e a r c ho ni th a ss i g n i f i c a n t l yt h e o r e t i ca n dp r a c t i c a li m p o r t a n c e t h ep a p e rs t u d i e st h et h e o r ya n dc o d i n gm e t h o d so ft h el o wb i tr a t ev i d e or e c o m m e n d a t i o nh 2 6 3 +d e t a i l e d l y ,r e a l i z e sr e a l - t i m es o f t w a r ec o d e cb a s e do nh 2 6 3 + u n d e rl i n u xo s ,f u r t h e r m o r e ,f i n i s h e ss o m en e g o t i a b l ec o d i n go p t i o n sw h i c hc a no b s e r v a b l yi m p r o v et h ec o d i n ge f f i c i e n c y ,s u c ha sa d v a n c e dp r e d i c t i o nm o d e ,a d v a n c e di n t r ac o d i n gm o d e ,d e b l o c k i n gf i l t e rm o d ea n dm o d i f i e dq u a n t i z a t i o nm o d e t or e d u c et h er u n t i m eo ft h es o f t w a r e ,f a s ta l g o r i t h m sa r ea d o p t e di nt h em o t i o ne s t i m a t i o na n dd c tm o d u l e s m o r e o v e r ,t h i sp a p e ri n t r o d u c e se a r l yd e t e c t i o no fz e r om o t i o nv e c t o ra n da l lz e r oc o e f f i c i e n t st oo p t i m i z et h ec o d i n gp r o c e s s t h ei m p r o v e dc o d e cn o to n l yh a sw e l lr e c o n s t r u c t e di m a g eq u a l i t y ,b u tc a nc o m p l e t e l ys o l v et h er e a l t i m ep r o b l e ml i e si nt h es o f t w a r ec o d i n g t h er e s e a r c hp r o d u c t i o no ft h i st h e s i sh a sb e e nu s e di nl o n g d i s t a n c ee d u c a t i o ns u c c e s s f u l l y ,a n dc a na l s ob e u s e di nv i d e o e o n f e r e n c e ,v i d e ot e l e p h o n e ,a n dv i d e om o n i t o r ,e t c w i t hl i t t l em o d i f i c a t i o n k e yw o r d s :v i d e oc o m p r e s s ,h 2 6 3 + ,p r e d i c t i o nc o d i n g ,m o t i o ne s t i m a t i o n c o m p e n s a t i o n ,d c ti i第一章绪论1 1 引言第一章绪论近年来。数字通信与计算机技术飞速发展,加上超大规模集成电路技术和宽带数字网技术的发展,使得基于英特网的多媒体业务得到进一步发展。人们对数字视频业务如可视电话、会议电视、安全监视、远程医疗、远程教育、高清晰度电视( h d t v ) 、视频点播( v o d ) 和视频电子邮件等产生了越来越浓厚的兴趣。因此,研究数字视频业务是很有现实意义的。进行视频信息传输面临的主要问题是:原始图像信息数据量较大。这将给存储器的存储容量,通信信道的传输率( 带宽) 以及计算机的处理速度增加极大的压力。如果采用先进的视频压缩技术将视频信息的数据量压缩,则可以节省存储空间,提高视频的传输效率,使得视频通信业务成为可能。因此,视频信号的有效压缩成为视频传输系统研究的核心。随着计算机网络和非话音通信业务的迅速发展,图像通信已越来越受到全世界科技工作者的关注。以往的非标准的工作状态极大地制约了图像处理技术的发展与应用。因此,c c i t t f 国际电报电话咨询委员会) 、i s o( 国际标准化组织) 、i t u ( 国际电信联盟) 等国际组织积极致力于图像处理的标准化工作。特别是图像编码,由于它涉及到多媒体、h d t v 、数字电视、可视电话、会议电视、远程教学等图像传输方面的广泛应用,所以,相关的国际组织成功地制定了一系列的国际标准。例如,在静态图像压缩方面,i s 0 推出了j p e g 标准以及后来的j p e g 2 0 0 0 ;在运动图像方面,i s o推出了用于v c d 的m p e g l 标准,用于广播电视和d v d 的m p e g - 2 标准,以及用于存储播放场合的低码率运动图像编码标准m p e g 4 ,i s o 推出的用于i s d n 的电视电话会议标准h 2 6 1 ,i t u 的用于会议场合的低码率运动图像压缩标准h 2 6 3 以及后来修订的h 2 6 3 + 并ih 2 6 3 + + 标准。这些标准的制定,极大地推动了图像压缩编码技术的发展与应用。尽管网络传输正以每9 个月翻番的速度高速向前发展,各国也建立了各种宽带通信网,在宽带网中实现视频通信将是必然趋势,但从世界范围看,人们仍面l | 蠡着大量的低速不可靠网络,如当前广泛使用的公共交换电话网( p s t n ) 和移动网正是这样的网络。因此。在p s t n 上提供有效的视频传输仍然具有相当的市场需求。目前,图像编码领域的一个热点是通过p s t n 实现可视电话功能,解决问题的关键是如何在低比特率下进行西- i l - = 业大学硕士学位论文可靠的视频通讯。i t u t 的h 2 6 3 标准是用于低比特率多媒体通信的,其基本传输率为3 0 k b p s 左右,能够在普通电话线上传输质量可以接收的视频信号。为了扩大标准的应用范围和提供更强的差错健壮性,相继推出了h 2 6 3 标准的第二版和第三版,即h 2 6 3 + 和h 2 6 3 + + 。h 2 6 3 + 标准作为一个成熟的标准,以其高的压缩效率和强的信道容错能力,已经在低码率图像编码领域获得了广泛而成功的应用,在一些场合其性能可以和m p e g 一4竞争。因此,研究h 2 6 3 + 系列标准的内容和实现,具有重要的理论和实用价值。1 2 视频压缩编码技术的应用视频和图像编码标准的提出,标志着视频压缩编码技术已经成熟,丌始由学术研究转向产业化,前景十分诱人。它的发展可以促使现有的信息产业结构发生巨变,使通信、广播、计算机等产业走到了一起,积极地开拓了新的产品和应用领域。视频压缩编码的应用大致可以分成以下几类:1 数字电视方面的应用以分辨率为基础,数字电视可分为四个等级:可视电话、会议电视、数字标准清晰度电视和高清晰度电视。当然其中也包括以m p e g 1 为基础的v c d 和以m p e g 2 为基础的d v d 系列、视频点播电视( v o d ) 和准点播电视( m v o d ) 等。2 在计算机通信网络方面的应用这方面的应用主要包括i n t e r n e t i n t r a n e t 上的多媒体流服务、视频点播、可视游戏、低码率的移动多媒体通信( 视频手机等) 、交互式多媒体应用、远程医疗、远程教学、虚拟会议等等。3 其它应用例如各种多媒体数据库系统、实时多媒体监控系统等。1 3 视频压缩编码的国际标准目前,众所周知的运动图像编码标准有:m p e g 系列标准和h 2 6 x系列标准。下面将对这些标准做一简单介绍。由于本文研究的内容是基于h 2 6 3 及h 2 6 3 + 标准的,故相关内容将在以后章节详细介绍。2第一章绪论1 3 1m p e g 系列运动图像压缩标准l ,m p e g lm p e g 1 制定于1 9 9 2 年,可适用于不同带交的设备,如c d r o m 、v i d e oc d ,它的目的是把2 2 l m b p s 的n t s c 图像压缩到1 2 m b p s ,压缩比为2 0 0 :l 。传输速率为i 5 m b p s ,编码速率最高可达4 - 5 m b p s 。m p e g 一1 主要是针对数字存储媒体,但它也可被用于数字电话网络上的视频传输如a d s l ( 菲对称数字忍户线路) ,视频点播和教育网络等,2 m p e g 2m p e g 2 制定于1 9 9 4 年,是继m p e g 一1 之后,m p e g ( 运动图像专家组) 推出的又一个视频压缩标准。其设计的出发点是保持通用性,适用于广泛的应用领域、比特率、分辨率、质量和服务。它所提供的传输速率在3 m 1 0 m b p s ,是实现d v d 的标准技术,现在d v d 播放器已经在家庭中普及起来了。除了用于d v d 外,还可以为广播、有线电视网、电缆网络以及卫星直播提供广播级的数字视频。3 ,m p e g 一4m p e g 一4 是1 9 9 8 年公布的标准,旨在将众多的多媒体应用集于一个完整的框架内,为不同性质的视频、音频数据制定通用的编码方案,提出基于内容( c o n t e n t b a s e d ) 的视频对象( v i d e o0 b i e c t ) 的编码标准。它不仅针对一定比特率下( 4 8 0 0 - 6 4 0 0 b p s ) 的视频、音频编码,更加注重于多媒体系统的交互性和灵活性。为了达到这个目标,m p e g 一4 引入了对象基表达( o b j e c t b a s e dr e p r e s e n t a t i o n ) 的概念,用来表达视听对象( a u d i o v i s u a lo b j e c t s ,a v o ) ;m p e g 一4 扩充了编码匏数撂类型,由舀然数据对象扩震到计算机生成的合成数据对象,采用合成对象自然对象混合编码( s y n t h e t i c n a t u r a lh y b r i dc o d i n g ,s n h c ) 算法;基于内容的压缩编码是m p e g 研究的热点,m p e g 4 的编码系统是开放的,为各种多媒体应用提供一个灵活的框架帮一套开放的编码工其,不同的应用可选敢不同的算法。4 m p e g 一7m p e g 一7 的正式名称叫做多媒体内容描述接口( m u l t i m e d i ac o n t e n td e s c r i p l i o ni n t e r f a c e ) ,目的是制定一套描述符标准,用来描述各种类型的多媒体信息及它们之间的关系,以便更快更有效地检索信息。这些媒体材料可包括静态图像、图形、3 d 模型、声音、话音、电视以及在多媒体演示中它们之间的组合关系。m p e g ,7 的应用领域包括:数字图书馆( d i g i t a l3西北:r :业大学硕士学位论文l i b r a r y ) ,例如图像目录、音乐词典等;广播媒体的选择,例如无线电频道t v 频道等:多媒体编辑,例如个人电子新闻服务,多媒体创作等等。1 3 2h 2 6 x 系列标准1 h 2 6 l 标准h 2 6 l 是由i t u t 第l5 研究小组为在窄带综合业务数字网( n i s d n )上开展p 6 4 k b s 的双向声像业务( 可视电话,会议电视) 而制定的,其中,p = l 3 0 。因此, l 2 6 l 也称为p 6 4 标准。用于可视电话时,p = 2 ,速率只有1 2 8 k b p s ,当用于会议电视时,建议p 6 ,速率为3 8 4 k b p s ,最高可达2 0 4 8 k b p s 。h 2 6 1 只对c i f ( c o m m o ni n t e r m e d i a t ef o r m a t ) 和q c i f 两种图像格式进行处理。由于世界各国采用的电视制式不同( 如p a l 、n t s c 、s e c a m ) ,所规定的图像扫描格式( 决定电视图像分辨力的参数) 也不同,要在这些国家之间建立可视电话或会议业务,无法直接采用电视所规定的格式,而必须统一到一个公共图像格式上来,这也是c i f 这个名称的由来。图像帧率最高为2 9 9 7 帧秒。在信道速率较低时,帧率可以降至1 0 帧秒左右。h 2 6 1 压缩编码算法由具有运动补偿的帧间预测、块变换( d c t ) 和霍夫曼编码组成。由于该标准用于实时业务,希望编解码延时尽可能小,所以只利用前一帧作为参考帧进行前向预测。除起始帧为i 帧外,后续帧一般为p 帧。为了防止信道误码产生的差错经预测编码而累积传播,每1 3 2帧之内,在每个宏块位置上至少要进行1 次帧内编码。编、解码器的复杂程度相当( 或称为对称) 是h 2 6 l 标准的又一个特点,这是因为会话的双方都需要同样的编码器和解码器的缘故。在h 2 6 l 中,每帧图像分4 个层次处理。编码的最小单元为8 8 的块,4 个亮度块和对应的2 个色度块( c b 和c r ) 构成一个宏块,一定数量的宏块构成一个块组( g o b ) ,若干块组构成一帧图像。每一个层次都有说明该层次信息的头部,编码后的数据和头信息逐层复用就构成了h 2 6 1 的码流。2 h 2 6 3 ( h 2 6 3 + ,h 2 6 3 + + ) 标准h 2 6 3 标准是在h 2 6 l 的基础上加以改进而形成的,其基本编码结构基于h 2 6 1 标准。h 2 6 3 相对于h 2 6 l 的主要区别为:以半象素精度的运动估计取代整象素+ 环路滤波器:对变换系数使用3 dv l c 熵编码( r u n ,l e v e l ,l a s t ) ;用于边信息的比特数减少,宏块层采用不同于h 2 6 1 的v l c4第一章绪论( 变长编码) 表:增加了四个可选编码模式:无限制运动矢量模式、基于语法的算术编码、p b 帧模式、先进预测模式。h 2 6 3 + 及h 2 6 3 + + 贝j j 在h 2 6 3的基础上的总结和提高,支持更多的帧类型和图像分辨率,包含了更多的可选模式来提高压缩效率和增强差错健壮性,已成为一个成熟而完善的低码率运动图像编解码方案。有关h 2 6 3 系列标准的详细内容将在第二章介绍。3 h 2 6 lh 2 6 l 是一个长远解决方案,在1 9 9 8 年提议,目标是提供更好的图像质量和更多的性能:能够以更低的比特率,更小的端到端延迟实现实时通信;能够以较低的复杂度完成软件实现,且具有自适应的帧率控制机制。标准将面向更广的应用,主要包括:实时会话业务、网络视频应用、符号语言和视话通信、视频存储和恢复业务( 如视频点播) 、视频存储和前向业务( 如视频电子邮件) 、基于异种网络的多点通信等。1 4 论文背景和主要工作本论文的研究背景是为课题组与烟台正达电子集团有限公司的合作项目“基于l i n u x 的低比特率视音频网络服务软件”提供基于h 2 6 3 标准的软件视频编解码。该部分作为一个独立的模块开发,主要部分采用标准c 语言编写,为配合l i n u x 下的采集程序,对编码程序在l i n u x 下编译调试,实现了l i n u x 下的软件实时编解码。并对软件在v c + + 6 0 下进行编译,以动态链接库形式提供给其它模块编码函数库和几个出口函数,实现了整个系统的无缝结合。项目完成后已应用于中小学远程教学系统中。另外,对编码程序稍加改动,即可用于图像监控场合的视频报警。由于设计时可支持q c i f 和c i f 格式,故也可用于可视电话中。论文中我所做的主要工作是研究了h 2 6 3 和h 2 6 3 + ( h 2 6 3 + + ) 协议的基本结构和核心编码技术,设计和实现了基于h 2 6 3 + 标准的视频软件编译码器在l i n u x 下的编解码。在此基础上,实现了h 2 6 3 + 中提高编码效率几种可选模式,使得解码后的图像质量无论从主观上还是客观上都有很大提高。为了提高软件运行速度,对运动估计和d c t 采用快速算法,并对编码过程进行优化处理,以更好地满足实时性要求。全文的内容安排如下:第一章绪论部分,概括了视频压缩编码的目的和必要性,简要介绍了目前广泛采用的几种视频压缩编码标准,分析说5醒北工业大学硕士学位论文第二章第三章第四章第五章第六章明了研究h 2 6 3 + 标准的意义和重要性。首先介绍了h 2 6 3 视频编解码器的整体框架和信源编码的主要部分,即运动估计补偿、d c t 、变长编码等。然后介绍了h 2 6 3 + 标准的新特点和新技术,并分类讨论了主要可选编码模式的算法思想和性能特点。给出了基于h 2 6 3 + 的软件编解码器的具体算法实现,对软件中的主要模块给出详细的实现过程和流图,并着重介绍了对编码效率提高显著的先进预测、先进帧内编码和块边界滤波技术的实现方法。l i n u x 下快速算法的实现和软件的优化。针对编码器中两个计算量最大的模块:运动估计和d c t 运算,作者提出了一种改进的运动矢量快速搜索算法,并给出了快速d c t 算法的思想,提出了进一步减少运算量的优化措施。从信噪比和编码的结果比特数两个方面给出了软件测试结果,得出相应的结论。全文的总结和展望。6第二章低比特率视频压缩编码标准h 2 6 3 +第二章低比特率视频压缩编码标准h 2 6 3 +随着电视技术、图像压缩技术和网络技术的发展,可视电话、会议电视等低码率业务成为人们关注的热点之一。而最初的用于可视电话的h 2 6 l 因其较大的方块效应,已经不能适应人们越来越高的应用要求。i t u于1 9 9 6 年发布了h 2 6 3 视频编码标准,对h 2 6 1 进行改进,提高了编码效率和运动估计的精度,有效地减小了方块效应。然而,h 2 6 3 的最初版本中没有包含差错恢复技术,无法适应p s t n 和无线网络等高误码率的环境。为了在低速不可靠网络上进行有效的视频传输,i t u 对h 2 6 3 标准进行修订,分别于1 9 9 8 年和2 0 0 0 年发布了第二版( h 2 6 3 + ) 和第三版( h 2 6 3 + + ) 。新的版本在比特流的语法上和旧的版本完全兼容,只是增加若干可选编码技术来进一步提高压缩效率,增强比特流的差错健壮性。近年来,h 2 6 3 + 视频编码标准以其高压缩效率和强信道容错能力的优点,在可视电话,会议电视,远程教育等领域获得了广泛应用。本章将对h 2 6 3系列标准的体系结构及主要编码技术做一详细阐述。2 1h 2 6 3 标准介绍1 1由于h 2 6 3 + 标准的核心编码体系结构和h 2 6 3 完全一致,只是增加了若干可选的编码模式,因此这里先介绍h 2 6 3 标准的基本内容,然后介绍h 2 6 3 + 相对于h 2 6 3 标准的新内容和新思想。2 1 1h 2 6 3 基本体系结构h 2 6 3 标准的基本结构基于h 2 6 l 标准,主要针对会议电视,可视电话等低码率业务。在信源编码上仍然采用混合编码技术,即利用帧间预测减小时问冗余度,利用变换编码减小空间冗余度;传输上采用可变长编码技术,解码恢复中应用运动补偿,且运动补偿精度精确到半象素精度。h 2 6 3 还参照m p e g 标准引入了i 帧、p 帧、p b 帧三种帧格式和i n t e r( 帧间编码) 和i n t r a ( 帧内编码) 两种编码模式。其中i 帧总是以i n t r a模式编码,p b 帧中的b 图像总是以i n t e r 模式编码,p 帧( 及p b 帧中的p 图像) 可以采用i n t r a 或i n t e r 模式进行编码,具体选用哪种模式由运动补偿算法决定。7西北工业大学硕士学位论文为了提高压缩比,h ,2 6 3 标准较h 2 6 1 标准1 2 j 又采用了一些新的措旌:取消了h 2 6 l 中可选的环路滤波器,将运动补偿的精度提高到半象素精度:改进了运动估值算法,充分利用了运动矢量的相关性来提高预测质量,减轻了块效应:精简了部分附加信息的编码,提高了编码效率。除了基本的视频信源编码外,为了改进性能,h 2 6 3 标准还包含4 个可选的编码模式:无限制运动矢量模式,先进预测模式,p b 帧模式,基于语法的算术编码。所有这些可选模式都可以结合使用或单独使用。相对于h 2 6 1 标准,h 2 6 3 标准支持五种标准的图像格式:s u b q c i f ,q c i f ,c i f ,4 c t f ,1 6 c i f 。图像被编码成一个亮度分量和两个色差分量( y ,c b 和c r ) ,采样格式为y :u :v 为4 :1 :l ,即色度分量在水平和垂直方向都作亚采样。其亮度和色度的采样位置如图2 1 所示。x 亮度采样。邑度采样一块边界图2 ,1 亮度和色度的采样位置这样,对每一种图像格式,如果亮度的采样结构是d x 象素行,d y 行图像,则色度采样结构是d x 2 象素行,d y 2 行图像,表2 1 列出了h ,2 6 3 标准中不同格式的图像尺寸。图象格式亮度分量亮度分量色度分量色度分量( d x )( d y )( d x 2 )( d y 2 )s u b q c i f1 2 89 66 44 8q c i f1 7 61 4 48 87 2c i f3 5 22 8 81 7 61 4 44 c i f7 0 45 7 63 5 22 8 81 6 c i f1 4 0 8“5 27 0 45 7 6表2 1几种标准分辨率下图像的行数和列数从表2 1 可以看出实际上h 2 6 3 标准的应用范围远远超出了低码率图8xx xxxx00oxx xxxxxx xxxxooxx xxxxxx xxxxoooxx xxxx第二章低比特率视频压缩编码标准h 2 6 3 +像编码的范围,1 6 c i f 已经是高清晰度电视的水平了。从最初的规划目标和应用前景来看,h 2 6 3 主要是为低比特率声像系统中的图像压缩编码而制定的,但是随着技术的发展,从最新颁布的h 2 6 3 + 本身来看,并没有对该压缩编码方法所需的传输速率进行明确的规定,这要根据具体应用环境和要求而定。换言之,h 2 6 3 也完全适用于高速率的图像编码。h 2 6 3 视频比特流的构成采用分层语法结构,从大到小依次是图像层、宏块组层、宏块层和块层。每一帧图像被划分成若干个宏块组( g o b ) ,每个宏块组包含1 6 行象素,即一个宏块行。宏块组按从上到下的扫描顺序进行编号,并按编号顺序进行编码和传输。宏块( m b ) 是进行运动估计和补偿的基本单元,大小为1 6 1 6 。每个宏块包含六个8 8 的块,四个亮度块( y ) 和两个色度块( c r 、c b ) 。宏块按从左到右,从上到下的扫描顺序进行编号,其数据按宏块序号递增的顺序传送。块是进行d c t的基本单元,块数据先经过d c t 和量化,然后对结果系数进行变长编码。图2 2 ,图2 3 和图2 4 分别给出了c i f 格式( 3 5 2 2 8 8 ) 中g o b 、m b 的编号顺序及宏块中块的排列。ol23456789l o1 11 21 31 41 51 61 7图2 2c i f 格式图像中g o b 的排列顺序9西北工业人学硕士学位论文01234567891 0l l1 2 2 l2 22 3y图2 3g o b 中宏块的编号c dc r图2 4 宏块中块的排列2 1 。2h 2 6 3 信源编码器h 2 6 3 信源编码器主要包括预测、块变换和量化,下面给出其编码器结构框图,并介绍编解码过程。输入tpq zq至视频复用器图2 5h 2 6 3 信源编码器如图2 5 所示,源数据进入编码器,当采用帧内编码方式时,直接进行d c t 变换,量化后形成码流q ,一路q 经反量化、i d c t 变换后形成恢复图像,直接进入帧存储器;当采用帧间编码方式时,原始图像先与经运1 0第二章低比特率视频压缩编码标准h 2 6 3 +动估计后的预测图像相减,产生差分图像,接着进行d c t 变换和量化,形成码流q 。与帧内编码方式相对应,一路q 也经反量化、i d c t 变换后与预测图像相加形成恢复图像,送入帧存储器,用于下一步的运动估计。码流q 、运动矢量v 、帧内,帧间标志p 和量化器信息q z 送入视频复用器,加入头信息后形成视频码流。传输标志t 根据缓冲存储器状态和其它信息发送,用以控制视频复用器是否接入编码信息,起到调节码流速度的作用。经d c t 变换后的系数中,直流系数采用固定的量化步长,交流系数采用可变长的量化器,其量化非常灵活。当缓冲存储器中数据过多时,便增长量化步长,提高压缩比:反之则减小量化步长,缩小压缩比,以期达到调节码流速度的作用。在视频复用器中,为方便解码端正确识别起始码字,因而适当地加入填充比特,以保证起始码的第一个比特是一个字节的首位。解码过程是编码过程的逆过程。接收码流经复用器分流得到q 、p 、q z和v ,q z 控制量化器步长的选取,p 控制帧内帧间方式的选择,v 送入帧存储器对恢复图像进行运动补偿,形成重建图像;q 经反量化、i d c t 变换,若为帧内方式编码则直接输出,若为帧间方式,则与重建图像相加后输出。2 1 3 运动估值和运动补偿采用帧问预测编码可以减小时问域上的冗余度,提高压缩比。如果将上一帧相同空间位置处象素值作为待编码的当前帧的预测值,这种预测对图像中的静止背景部分将是很有效的。但是对于运动部分,这种不考虑物体运动的简单的帧间预测效果并不好。如果有办法在当前帧某象素( 或象素块) 进行预测时知道这个象素( 或象素块) 是上一帧的某个位置移动过来的,在做预测时以那个位置上的象素值作为预测值,则预测的准确性将大为提高。我们把这个位置称为运动矢量,求运动矢量的过程称为运动估值,利用运动估计进行预测编码的技术称为运动补偿。采用运动补偿帧间预测可使预测的方差大大减小,从而降低码率,提高压缩比。运动估值技术主要分为两大类:象素递归法和块匹配法。考虑到计算复杂度和实时实现的要求,块匹配法已成为目前最常用的方法,在h 2 6 l 、m p e g 、h 2 6 3 等有关运动图像编码的国际标准中,均采用了该方法。由于运动估值在整个帧间预钡编码中占用很大一部分时间,所以研究其快速算法具有重要的意义。在第四章中,将研究几种常用的快速运动估值搜索西北工业大学硕士学位论文算法,选择适合h 2 6 3 + 编码特点的最佳搜索算法。半象素精度的运动估计是h 2 6 3 的一个重要特征。半象素搜索是先用整象素的精度搜索得到整象素的运动矢量,根据整象素搜索的结果选择宏块的编码模式( i n t r a 或i n t e r ) ,如果宏块为i n t e r 模式,在整象素位移矢量的上下左右4 点进行双线性插值,再做运动估计。双线性插值的具体过程如图2 6 所示。:0b ob 十+ 整象素精度位置。od oo 半象素精度位置c上d+图2 6h 2 6 3 中的双线性插值其中a = a ,b = ( a + b + i ) 2 。c = ( a + c + i ) 2 ,d = ( a + b + c + d + 2 ) 42 i 4 离散余弦变换( d c t )图像信号在空间域一般具有较强的相关性,因此,先将图像经过某种正交变换,使图像变换系数能量相对集中,再对其变换系数进行区域量化,按其所含能量大小,分配以不同的比特数去描述,这样就可以提高压缩比。常见的正交变换形式【3 】有:k l ( k a r h u n e n l o e v e ) 变换,离散傅立叶变换( d f t ) ,沃尔什一哈达玛( w h t ) 变换,离散余弦变换( d c t ) 等。理论上k l 变换是最优的正交变换,它的去相关性最好,但实现最困难。d f t 和w h t 要差一些,而d c t 的性能最接近k l 变换,也容易实现,因此成为多媒体编码标准的基本算法,且许多d c t 的a s i c 芯片已有成品出售。h 2 6 3 中定义的d c t 和i d c t 变换是以大小为8 8 的块为单位进行的,d c t 变换公式定义如下:fq ( “,v ) :! c ( ”) c ( v ) 圭圭厂( x ,y ) c o s ( 2 x + 1 ) u zc o s ( 2 y + 1 ) v 7 r( ) 2 素c ( ”) c ( ”) 三二m ,y1 60 0 8 百一相应的i d c t 变换公式为:( ,j ,) = i 1 7 7 。_ ( “) c ( 1 ,) f ( “,) c 。s ( 2 x 了+ 广1 ) u xc 。s ( 2 y 了+ r 1 ) v z u = ov = 04l 1 1 2( 2 一1 )( 2 2 )第二章低比特率视频压缩编码标准h 2 6 3 +其中“,v ,x ,y = 0 , 1 ,7 ,x ,y 为象素域的空间坐标,“,v 为变换域的坐标,c c “,= 1 l7 乙:,兰,i ,c c v ,= l l7 专:,:,i cz 一。,另外,由于二维d c t 的变换核是可分离的,即二维d c t 可以分解成行方向的一维d c t 和列方向的一维d c t ,故可用两个一维d c t 来实现二维d c t的功能,这部分内容将在第四章介绍。2 1 5 运动矢量预测和d c t 系数的变长编码h 2 6 3 中对运动矢量的编码采用差分预测和可变长编码( v l c ) 相结合的方法,即对运动矢量的预测值与真实运动矢量的差值进行v l c 。在基本模式下,每个宏块只有一个运动矢量( 在先进预测模式下每宏块可有4 个运动矢量) 。宏块运动矢量( m v ) 的预测值取自左侧宏块矢量( m v l ) ,上方宏块矢量( m v 2 ) 和右上方宏块矢量( m v 3 ) 三个候选运动矢量的中间值,如图2 7 a 所示。如果相应候选矢量落在图像或块组边界外,则按以下顺序确定相应候选矢量:( 1 ) 若相应宏块为帧内编码或未编码,相应候选运动矢量设为0 :( 2 ) 若与矢量m v l 相对应的宏块在图像外,则m v l = 0 ,如图2 7 b所示( 图中虚线表示图像或块组的边界。下同) :( 3 ) 若矢量m y 2 和m v 3 的相对应的宏块在图像或块组边界外,则m v 2= m v 3 = m v l ,如图2 7 c :( 4 )若矢量m v 3 相对应的宏块在图像外,则m v 3 = 0 ,如图2 7 d 。am 7 :当前宏块的运动矢量m v i :左边宏块的运动矢量m v 2 :上方宏块的运动矢量m y 3 :右上方宏块的运动矢量。:团,l f 或g o b 的边界酽酐爵图2 7 运动矢量预测中的候选预测矢量1 3西北工业大学硕士学位论文待编码矢量的预测值取以上三个候选运动矢量的中间值,水平和垂直方向独立预测,设x ,y 方向上的预测值分别是p x ,只,即只= m e d i a n ( m v l ,m v 2 ,m v 3 ,)b = m e d i a n ( m v l y ,m v 2 y ,m v 3 ,)则m v d x = m v x 一只m v d y = m v y 一只其中m v d x 和m v d 。就是要进行v l c 编码的真实矢量与预测值的差值。对于d c t 系数的v l c 编码,先将8 8 块的6 4 个量化d c t 系数按照z i g z a g 扫描顺序展开成一维系数序列,对此系数序列再进行v l c 编码。每遇到一个不为零的系数,就定义为出现了一个“事件”,该事件由( l a s t ,r u n ,l e v e l ) 三部分组成,其中l a s t 是最后一个非零系数指示,表示该块系数中是否还有非零值( 0 表示有,1 表示无) ,r u n 表示待编码的非零系数前面连续的零的个数,l e v e l 表示待编码的非零系数值。将最普遍发生的( l a s t ,r u n ,l e v e l ) 组合,称为常见事件,用可变长度编码,而其余事件都用2 2 比特的固定长度编码,其中包含7 比特的e s c a p e ,1 比特l a s t ,6 比特r u n 和8 比特l e v e l 。由于量化以后出现了大量的零系数。且经过z i g z a g 扫描后增加了连续的零游程的长度,因此采用这种编码方法能够大大节约编码比特数,提高图像的压缩比。2 2h 2 6 3 + 视频编码标准4h 2 6 3 + 相对与h 2 6 3 标准,编码效率有了很大提高,适用范围也更广,且具有很强的信道容错能力,在p s t n 以及无线接入等高误码比的通信环境下,获得了很好的应用。2 2 1h 2 6 3 + 标准的新特点和新技术为了打破应用时受到输入视频类型的限制,适应计算机新的多种屏幕格式,h 2 6 3 + 1 涂了支持五种标准的图像格式:s u b c i f 、q c i f 、c i f 、4 c i f和1 6 c i f 以外,还允许用户自定义图像的大小,每帧的行数可以是4 1 1 5 21 4第二章低比特率视频压缩编码标准h 2 6 3 +中能被4 整除的数,每行的列数可以是4 2 0 4 8 中能被4 整除的:允许帧率超过3 0 f p s ,可以支持附加的照相和显示技术;除了c i f ( 1 l :1 2 ) ,s i f( 1 0 :1 1 ) 和正方形( 1 :1 ) 之外,还允许其它的宽高比,如常用的1 6 :l l ,4 0 :3 3 等;能够进行全局运动补偿,允许在编码时根据需要动态调整图像的分辨率。h 2 6 3 + 中使用了更多的预测图像类型,除了基本的i 帧和p 帧,还有p b 帧、改进的p b 帧、b 帧、e i 帧和e p 帧等类型。其中i 帧是不采用参考图像的帧内编码图像:p 帧使用一个时间在前的参考图像进行预测:p b帧将p 帧和由上一个p 帧所共同预测的b 帧作为一个单元编码,这在比特率增加很小的情况下可以明显增加图像帧率;改进的p b 帧和p b 帧类似,但增强了频繁使用p b 帧时的鲁棒性( r o b u s t n e s s ) :b 帧、e i 帧和e p 帧的引入是为了实现可分级性。b 帧提供时问可分级性,具有两个参考图像,一个时间在前,一个时间在后。e i 和e p 帧提供空间和信噪比可分级性。其中e i 帧由低的参考层中时间上同时的i 帧或p 帧预测,e p 帧由一个时间同时的低层参考图像和前一帧增强层参考图像双向预测。可分级性编码对于易出错的,包丢失的和异构的网络上的视频传输具有很大潜能。除了基本的编码模式,h 2 6 3 + 中采用了更多可选编码模式来改善性能。这些新的编码技术有的对原有模式进行改进,提高编码效率:如先进帧内编码模式、改进的p b 帧模式、改变帧间v l c 模式等:有的通过对图像进行灵活划分提高比特流的差错健壮性:如条结构模式、独立分段解码模式、数据分割等;还有的则在编码比特流中包含补充增强信息来实现特殊效果:例如使用图像冻结释放增强信息可以阻止解码器从它的输出缓冲区中提取低保真度图像显示,直到编码器建立一个高保真度图像。另外还有前帧图像头标重复增强信息,在数据丢失或者破坏时允许解码器从前一帧图像中接收和恢复头部信息。下面对这些新技术做简单归类,就提高编码效率和增强抗误码能力两方面介绍其中一些主要编码技术的独特设计思想和性能。2 2 2 提高编码效率的主要编码技术( 1 ) 无限制运动矢量模式( u n r e s t r i c t e dm o t i o nv e c t o rm o d e u m v )在基本模式下,运动矢量范围受到限制以确保所有参考象素都位于编码图像区域以内,这样的预测往往无法反映较快的图像运动,尤其在运动跨越图像边界时不能有效地预测边缘,造成边缘模糊现象。在无限制运动1 5西北工业大学硕士学位论文矢量模式中,对运动矢量范围加以扩展,允许运动矢量越过图像边界。对不存在的边界象素使用最近的边缘象素值来代替,能够有效改进边缘预测效果。根据图像的大小。运动矢量的范围扩展到了【一2 5 6 2 5 5 5 】,对长运动矢量的支持,使得这种模式在大图像尺寸,快运动,相机移动和低帧率场合可以明显提高编码效率。h 2 6 3 + 中的无限制运动矢量模式和h 2 6 3 中的是有区别的。在h 2 6 3 +中,采用一种新的可逆变长编码( r v l c ) 用于对运动矢量差值进行编码。其码字是单精度的,而在h 2 6 3 中却是双精度的,双精度值因为在可扩展性上的限制和实现上的高代价,在实际中应用不多。更重要的是,可逆v l c 在信道发生错误时有更大的顺应性。在接收到的数据流中,可逆v l c可以对运动矢量进行前向和后向的解码。当在前向解码中出现错误时,运动矢量数据并不会完全丢失,因为解码器会沿着相反方向继续进行处理,这就提高了解码器的纠错能力。( 2 ) 先进预测模式( a d v a n c e dp r e d i c t i o nm o d e a p )在可视电话等应用中,因其针对宽高较小的q c i f 格式,所以通常方法中对整个宏块统一进行运动估计( 或运动补偿) 会引起预测图像( 或重建图像) 与原始图像存在较大差异。制约着压缩比。为此在某些运动复杂的宏块中对每个块分别进行运动估计,这就是先进预测。从编码效率的立场看,这是一项很重要的技术,包括了重叠运动补偿和每宏块四个运动矢量的特性,还允许运动矢量指向图像边界以外。采用重叠运动补偿的88 亮度块中的象素值由三个预测值的加权和得到,这三个预测值的形成使用了三个运动矢量:当前块的运动矢量,当前块左侧或右侧块的运动矢量,当前块上方或下方块的运动矢量。鉴于人眼对色度信号不敏感,所以色度块的运动矢量由四个亮度块运动矢量之和除以八得到。这种特殊的预测方式,大大减小了块效应,在很大程度上提高了编码效率,对图像的主观和客观质量都有很大改进。而每宏块四个运动矢量所得到的预测误差比使用整个宏块一个运动矢量时的预测误差小的多。虽然传送四个运动矢量所花费的比特数增加了一些,但由于预测误差的大幅度降低。总码率仍然可以降低。( 3 ) 先进帧内编码模式( a d v a n c e di n t r a c o d i n g a i c )采用这种编码模式,在对帧内宏块进行编码时,提供了很好的压缩性能。在这种模式下,一个帧内编码块,可以用其上方和左侧相邻的帧内编码宏块中的对应块进行预测。块预测在相同的亮度块或色度块之间进行。1 6第二章低比特率视频压缩编码标准h ,2 6 3 +如图2 8 所示,有三种不同的预测方式:只对直流系数进行预测;垂直方向对直流和第一行交流系数进行预测;水平方向对直流和第一列交流系数进行预测。第一种方式下,帧内块直流系数的预测值取其上方块和左侧块直流系数的平均,除非其相邻块不在同一个图像片段内或不是帧内编码块;第二种方式下,直流系数和第一行交流系数从上方块的第一行系数进行垂直预测:第三种方式下,直流系数和第一列交流系数由左侧块的第一列交流系数进行水平预测,而对块内其余的系数不做预测。根据每种预测模式下的误差大小,选择能够产生最佳预测的编码方式用于该宏块中的所有块。源图像的d c t 系数减去预测得到的d c t 系数的差值,即差值系数,量化以后按照预测方式的不同,进行不同方式的系数扫描。有三种扫描方式分别对应三种预测方式:对直流系数预测进行基本的z i g z a g 扫描:对水平预测进行交替垂直方式扫描;对垂直预测进行交替水平方式扫描。扫描方式的选择主要是考虑到差值系数量化后的能量分配,尽量使展开成的一维数组的非零

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论