视频编解码技术的应用和发展研究教材_第1页
视频编解码技术的应用和发展研究教材_第2页
视频编解码技术的应用和发展研究教材_第3页
视频编解码技术的应用和发展研究教材_第4页
视频编解码技术的应用和发展研究教材_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要本文首先介绍了多媒体的发展历程,然后介绍了多媒体技术及标准,深入地分析了MPEG-4视频技术,对MPEG-4视频技术进行了重点介绍,如形状编码、运动编码和纹理编码。然后提出了一种新的运动估计算法。针对运动估计在视频编码中的重要作用,对己有的运动估计快速算法进行了重点介绍和分析,并提出了一种新的菱形搜索算法。为了检验该算法,通过代码实现了包含该算法的视频编码。实验证明,所提出的算法对视频编码效果有所改进。另外,针对嵌入式视频的应用,本文就S3C2410X做了简要介绍。S3C2410X广泛地应用于各种嵌入式系统中,它自带的USB接口与LCD控制器为USB开发和液晶开发带来了方便。在时钟方面S3C2410X也有突出的特点,该芯片集成了一个具有日历功能的FJC和具有PLL(MPLL和UPLL)的芯片时钟发生器.MPLL产生主时钟,能够使处理器工作频率最高达到203MHZ。这个工作频率能够使处理器轻松运行于WINCE、Linux等操作系统以及进行较为复杂的信息处理。UPLL产生实现主从USB功能的时钟。S3C2410X将系统的存储空间分成8组(B肚正),每组大小128MB,共1G.Bank0到Bank5的开始地址是固定的,用于ROM和SROM。Bank6和Bank7用于ROM、SRAM或SDRAM,这两个组可编程且大小相同.Bank7的开始地址是Bank6的结束地址,大小灵活可变。最后,作者充分利用移动硬盘大容量的特点,设计了一个基于S3C2410X的MPEG4播放系统。该系统便于携带,具有一定的实用价值。关键字:视频编码,MPEG-4,运动估计Abstract绪论介绍了多媒体的发展历程和研究意义从1984年CCITT研究组发布的第一个视频领域编码标准H.120开始,迄今为止已相继提出了众多国际标准。视频编码标准发展至今也有近三十年的历史,这段历史的一个转折点就是1988年CCITT所提出的H.261建议,从这个转折点开始,国际标准组织ITU-T、ISO等开始公布了一系列的以H.261为基础的视频编码标准,从此视频编码标准的编码方法统一采用了基于波形的混合编码方法。一些国际标准组织有联合图像专家组(JPEG,JointPhotographicExpertsGroup),它是于1986年由ISO和CCITT联合成立的。此外还有活动图像专家组(MPEG,MovingPictureExpertGroup),它于1988年由ISO/IEC信息技术联合委员会组成;并分别在1991年和1994年公布了MPEG-1视频编码标准以及MPEG-2视频编码标准。新一代视频编码标准H.264于2003年3月由ITU-T和ISO/IEC正式提出,该标准实现了良好的压缩效率,同时对网络具备了良好的亲和性和兼容性,对实时系统的应用及其有帮助。不久的将来,国际视频组织即将推出HIVC,即H.265,可想而知的是该标准的发布将会带来新一轮的研究热潮,对视频的发展和应用也会产生巨大的影响。数字视频技术是信息领域最具发展活力的方向之一,是对人们工作和生活影响最为直接的技术领域。近年来,随着软硬件成本下降以及通讯技术的进步,视频应用的需求越来越大。诸如数字视频点播、高清数字电视、视频会议、网络流媒体、远程监控、无线多媒体通信、IPTV(InternetProtocolTelevision)等应用,已经为越来越多的人所接受和熟悉。众多精彩的新应用目前也处于设计或前期部署中,例如新一代高清Blu-rayDVD(DigitalVersatileDisc)、数字视频广播、高清视频电话等。面对大量涌现的视频数据以及更高的视觉质量要求,视频编解码技术也得到了迅速地发展,并且日趋成熟,其标志是多个视频标准的制定和颁布。然而传统的视频标准有一定的不足之处,针对这种现象本文旨在研究一种更为先进的技术压缩标准MPEG-4.MPEG-4不只是具体压缩算法,它是针对数字电视、交互式绘图应用(影音合成内容)、交互式多媒体(资料抽取与分离)等整合及压缩技术的需求而制定的国际标准.它能满足三种族群的需求一多媒体内容创作者、网络服务供货商和终端消费者。对多媒体内容创作者而言,MPEG-4使多媒体内容更加多元化、更具有弹性,且多媒体组件更容易被再利用。它能将现今各自发展的技术及应用如互联网、动画、视频、音频、交互电视等整合至单一架构之下,进而提供更佳的资源管理方法和保护著作权的机能。对网络服务供货商而言,MPEG-4是透明度很高的信息传递工具。它可以藉由与其它国际标准的兼容相通而存在于各种形式网络上,如宽带电信网络、有线电视网络以及无线传输等,尤其在单纯以视音频传输为主的应用中。对终端消费者而言,MPEG-4能让消费者在原创作者限定的操作功能范围之内,与节目内容中的对象交互,体会前所未有的娱乐效果。而且在低传输率、移动式的网络中,MPEG-4能使多媒体应用得以发挥。这包括了交互式多媒体广播和移动通讯等.MPEG-4标准将众多的多媒体应用集成于一个完整的框架内,旨在为多媒体通信及应用环境提供标准的算法及工具,从而建立起一种能被多媒体传输、存储、检索等应用领域普遍采用的统一数据格式。多媒体系列标准视频压缩编码标准主要包括两个部分,一个是由国际电信联盟(ITU)所制定的H.26x系列标准,另一个是由国际标准化组织(InternationalStandardizationOrganization.ISO)和MPEG组织(MovingPictureExpertGroup)所制定的MPEG.x系列标准。这些视频编码标准都是为了应对不同领域中对数字音频和数字视频的不同要求而制定的。第一个视频编码国际标准由CCITT公布于1984年,距今已有28年了。例如,3G时代的来临带来了一个非常重要的概念,即可视电话。由于打破的距离的障碍,在有限的带宽上实现了实时视频的传输,该技术一直被认为是一种非常理想的通信技术,可近30年来至今仍未能得到广泛的普及,这是因为满足带宽要求所付出的代价极高,从而造成性价比不高。H.264视频压缩标准由ITU-T/ISO于2003年3月正式公布,同以往标准相比它具有非常优秀的性能,受到了普遍的认可。通过每项性能指标的对比可以发现,在同样视频质量下将H.264与H.263或MPEG-4进行对比发现H.264的数码率降低了接近一半的倍数;或者说在码率相同的条件下,信噪比提高很大。正是因为H.264所体现出的良好性能使得其在国际上受到了广泛地认可和重视。下面按时间顺序对几个重要的视频编码标准作简单介绍[1]:1.MPEG-1标准及MPEG-2标准MPEG-1标准出版于1992年,是一个获得广泛成功的视频编解码器,能够近似VHS录像带的质量或更好地将比特率设定为约1.5Mbit/s。比特率范围覆盖了约1-2Mbit/s的。MPEG-1的缩写由运动图像专家组制定并被其发展。MPEG-1视频(IS11172-2)是ISO/IECJTC1组织的一个项目,于1993年获得批准。在技术功能方面,它增加了双向预测帧(B帧)和半像素运动(半像素运动已经在H.261的发展过程中提出来过,但当时被认为是过于复杂)。对数据进行随机访问的要求和高效压缩造成了冲突,为了解决这个问题,MPEG-1定义了四种图像类型:I帧,P帧,B帧和D图像。在更高的比特率操作时,它提供比H.261更好的质量。(比特率可能低于1兆位/秒,此时H.261的性能更好,因为MPEG-1并没有设计为能够运行在此范围内。)MPEG-2:在比特率,图像质量和知名度上更上一层楼。MPEG-2被称为“21世纪的电视标准”,不管是标准清晰度还是高清晰度电视(SDTV和HDTV)。MPEG-2视频(ISO13818-2/ITU-T的H.262)的目的是要包括MPEG-1,同时还要以更高的比特率提供高品质隔行扫描的视频源。MPEG-2视频作为一个正式的ISO/IECJTC1和ITU-T组织的联合开发项目,通常被认为是一个ISO标准,并在1994年年底完成。其主要新技术特点是高效处理隔行扫描图片和层次位使用的可扩展性。其目标比特率范围约为4-30Mbit/s。2.MPEG-4及MPEG-7标准MPEG-4标准正式公布于1998年12月。主要是为了满足窄带多媒体通信等领域的应用要求而制定,其传输码率也限制在64Kbps以下。MPEG-4压缩编码部分所采用的压缩方法的一个特点就是基于内容,使用基于内容的方法作为压缩编码的一个重点,这样做是可以将视频信息的应用从播放型扩展到可以进行基于内容的访问和操作型,丰富了视频信息应用的领域和方式。MPEG-4是一个开放型的标准,对标准中各种技术的具体实现算法不作规定,由此,研究者可以根据标准的要求制定出更新更优更快速的算法。可以将MPEG-4当做一个工具箱,随时加入新的想法以丰富这个标准。MPEG-7(多媒体内容描述接口)是对MPEG-4的进一步完善,是为了适应新一代的网络发展要求而制定的,为描述各种纷繁复杂的媒体信息做了一种标准化的规定,这样就为信息的描述与媒体内容建立了一对一更加紧密标准的联系,极大地方便了用户对各种信息进行检索和利用。3.H.263标准1996年3月,ITU—T正式通过了H.263国际标准。H.263(第1版)是ITU-T项目,并于1996年初批准(技术内容在1995年年底完成)。是第一个专门用来处理非常低比特率视频的编解码器,其在这一领域的表现仍然是最优秀的。H.263是目前最好的实际视频通信的标准。原来的目标比特率范围约10-30Kbit/s的,但在开发过程中扩大,大约为10-2048Kbit/s。很明显,它可以在任何比特率优于H.261。主要应用于视频会议会议、可视电话等跟视频相关的通信业务。该标准的出现解决了视频通信领域的大难题,极大地推动了通信技术的发展,是视频通信领域的重大突破。新的H.263的关键技术特点是可变块大小运动补偿,重叠块运动补偿,运动矢量图片推断,三维的运行水平,最后可变长度编码,平均压预测,更高效的开销信号(相对于H.261其特点有算术编码,半像素运动,双向预测。但第一个特征也包含在JPEG里,其他两个则在MPEG-1)。在非常低的比特率(例如,低于30kbit/s),H.263可使用一半或不到一半的比特率编码达到与H.261相同的质量。在更高的比特率,例如,高于80千比特/秒,相比H.261它有能够提供更多中等程度性能的优势。亦见于下面的H.263+。H.263支持5种图像格式:SubQCIF(128x96)、QCIF(176x144)、CIF(352x288)、4CⅢ(740x576)、16CIF(1408x1152),采样格式为4:2:0。4.H.263+H.263+:技术上是H.263的第二版。H.263+项目添加了一些新的可选功能到H.263。相比于以前标准的H.263+有一个显着的技术进步,它是第一个为无线或基于分组的传输网络提供高度的错误恢复的视频编码标准。H.263+在压缩效率的研究、灵活的视频格式和可扩展反向兼容补充方面也增加了一些改进。它是在1998年1月由ITU-T批准,在1997年9月完成技术含量。它将H.263的有效比特率扩展到任何比特率和任何逐行扫描(非交错)图片格式和帧速率的范围上,H.263+的性能在整个的任何现有标准范围内都是相对优越的。H.263+项目的第一作者是H.263的编辑也是ITU-T的高级视频编码专家组(SG16Q15)开发员(主席)。5.H.264/AVC标准2003年3月继H.263标准之后,联合视频专家组(JVT)提出一项最新的视频编码标准—H.264建议。ISO将其称为“ISO/IEC14496Partl0高级视频编码算法”(ISO/IEC1449610AVC),把它作为MPEG.4的第十部分。H.264主要支持4:2:0格式,其它格式如4:2:2和4:4:4则是作为额外的参考信息参数。支持连续或隔行视频的编码与解码,编码图像类型除了以往标准中有的I帧、P帧和B帧之外,还新定义了SP帧和SI帧。新定义的这些功能可以实现不同传输速率、不同图像质量码流的条件下的快速切换,同时还具有快速恢复丢失的信息等功能。H.264标准的编码结构有两层,分别是VCL视频编码层和NAL网络抽象层。H.264高效率的压缩性能的实现就是由VCL层来完成的,为了解决网络适配的问题,需要从具体的传输层中将VCL抽象出来,这部分工作是由NAL完成的。要使得码流适应不同环境的各类信道,需要对不同网络选用一个最合适的方式对数据进行处理、打包和传送。NAL以NALU为单元,这样使得在许多基于包交换的技术网络中H.264都能够能够完成编码数据流的传输的功能,这极大地提高了H.264技术的网络适应性。H.264的双层系统结构在功能上将每一层独立起来,各自独立完成自身的功能,这样的层定义极大地优化了整个编码系统。本文主要对MPEG-4作重点介绍。MPEG-4视频技术目前,视频技术的应用范围很广,如网上可视会议、网上可视电子商务、网上政务、网上购物、网上学校、远程医疗、网上研讨会、网上展示厅、个人网上聊天、可视咨询等业务。

但是,以上所有的应用都必须压缩。传输的数据量之大,单纯用扩大存储器容量、增加通信干线的传输速率的办法是不现实的,数据压缩技术是个行之有效的解决办法,通过数据压缩,可以把信息数据量压下来,以压缩形式存储、传输,既节约了存储空间,又提高了通信干线的传输效率,同时也可使计算机实时处理音频、视频信息,以保证播放出高质量的视频、音频节目。可见,多媒体数据压缩是非常必要的。由于多媒体声音、数据、视像等信源数据有极强的相关性,也就是说有大量的冗余信息。数据压缩可以将庞大数据中的冗余信息去掉(去除数据之间的相关性),保留相互独立的信息分量,因此,多媒体数据压缩是完全可以实现的。

图像编码方法可分为两代:第一代是基于数据统计,去掉的是数据冗余,称为低层压缩编码方法;第二代是基于内容,去掉的是内容冗余,其中基于对象(Object-Based)方法称为中层压缩编码方法,其中基于语义(Syntax-Based)方法称为高层压缩编码方法。

基于内容压缩编码方法代表新一代的压缩方法,也是目前最活跃的领域,最早是由瑞典的Forchheimer提出的,随后日本的Harashima等人也展示了不少研究成果。

3.1运动估计和补偿

MPEG-4中提供了基于块的运动估计和补偿技术来有效地利用各个VOP中视频内容上的时间冗余。一般,运动估计和补偿可以看作针对任意形状图像序列的块匹配技术的延伸。块匹配过程对于标准宏块使用;预测误差和用于预测的宏块运动向量一起被编码;高级运动补偿模式支持重叠块运动补偿,可对8×8块运动向量进行编码。为了使运动估计得到高编码效率,预测图像和被预测图像越相似越好,所以在运动估计之前要先进行补偿。在目标边界上的MB先用水平填补而后用垂直填补,其余完全在VOP之外的MB用扩张填补。

2.3纹理编码

纹理指的是I-VOP图像和P/B-VOP经运动补偿后残留的图像信息。纹理一般在变换域进行压缩编码和熵编码。

准正式编辑已经出版:静态图像压缩编码标准(JPEG);数字声像储存压缩编码标准(MPEG-1);通用视频图像压缩编码标准(MPEG-2)。

随后,MPEG专家组于1999年2月正式公布了MPEG-4(ISO/IEC14496)V1.0版本。同年底MPEG-4V2.0版本亦告完成,且于2000年年初正式成为国际标准。MPEG-4标准将众多的多媒体应用集成于一个完整的框架内,旨在为多媒体通信及应用环境提供标准的算法及工具,从而建立起一种能被多媒体传输、存储、检索等应用普遍采用的统一数据格式,并根据不同的应用需求,现场配置解码器,开放的编码系统也可随时加入新的有效的算法模块。为支持对视频内容的访问,MPEG-4提出了“视频对象”的概念。

目前,MPEG专家组又推出了专门支持多媒体信息且基于内容检索的编码方案MPEG-7及多媒体框架标准MPEG-21。另外,由ITU-T和MPEG联合开发的新标准H.264是最新的视频编码算法。为了降低码率,获得尽可能更好图像质量,H.264标准吸取了MPEG-4的长处,具有更高的压缩比、更好的信道适应性,必将在数字视频的通信和存储领域得到广泛的应用,其发展潜力不可限量。MPEG-4具有很多优点。它的压缩率可以超过100倍,而仍保有极佳的音质和画质;它可利用最少的数据,获取最佳的图像质量,满足低码率应用的需求;它更适合于交互式AV服务及远程监控。为了满足各种应用的需求,MPEG-4标准的使用范围相当庞大,具有广泛的适应性和可扩展性。

3.1形状编码

形状信息的获得首先要对图形进行分析和分割,把各个代表不同内容的目标分割后再用形状表示。形状信息通常用二值Alpha平面和灰度Alpha平面来表示。二值Alpha平面可用临近信息进行算术编码(CAE);灰度Alpha平面可用运动补偿加DCT变换方式类似纹理编码一样进行编码。

其中用于图像压缩的变换有离散Forier变换(DFT)、离散小波变换(DWT)、奇异值分解(SVD)、K-L变换、Walsh变换、Hadamard变换、Harr变换、Slant变换、离散余弦变换(DCT)。其中K-L变换的去相关性最好,而DCT是接近K-L变换效果的最便于实现的变换。和MPEG-1/2一样,MPEG-4也选择了DCT。通常,用于数据压缩的熵编码方法有霍夫曼(Huffman)编码、矢量量化、算术编码、游程编码、LZW编码等。对于纹理编码,MPEG-4选择了把游程编码、矢量量化和Huffman编码进行混合编程编码(VLC)。纹理编码要经过DCT变换、量化、DC/AC预测、扫描、基于Hufman的VLC编码。

3.2伸屈性

视频的伸屈性,包括空间伸屈性和时间伸屈性。空间伸屈性可以得到不同的空间分辨率,时间伸屈性可得到不同的时间分辨率。每种伸屈都有多层,在只有高低2层的情况下,底层指的是基本层,而高层指的是增强层。

3.3差错回避

VLC码中的一个比特错误会引起同步丢失,而运动补偿则会引起错误传递。

MPEG-4的差错回避有三个方面:重同步、数据恢复和错误隐藏。

重同步,是指差错被检测后,解码器和码流之间重新同步的技术。一般来说,这种方法会将错误之前的同步点到重建的同步点之间的数据丢弃。不过这些丢弃的数据可以用其他的技术进行恢复和实施错误隐藏。

数据恢复工具在解码器和码流重新建立起同步后用来恢复丢弃的数据。这些工具不是简单的用容错码恢复,而是用一种差错回避手段,即用可逆VLC码字进行VLC编码。

错误隐藏,在重同步有效地将错误定位后可以很容易处理。为了进一步提高错误隐匿的能力,有必要增加错误定位能力,特别是数据分割可以用来提高错误定位能力。

在MPEG-4制定之前,MPEG-1、MPEG-2、H.261、H.263都是采用第一代压缩编码技术,着眼于图像信号的统计特性来设计编码器,属于波形编码的范畴。第一代压缩编码方案把视频序列按时间先后分为一系列帧,每一帧图像又分成宏块以进行运动补偿和编码,这种编码方案存在以下缺陷:

将图像固定地分成相同大小的块,在高压缩比的情况下会出现严重的块效应,即马赛克效应;不能对图像内容进行访问、编辑和回放等操作;未充分利用人类视觉系统(HVS,HumanVisualSystem)的特性。

MPEG-4则代表了基于模型/对象的第二代压缩编码技术,它充分利用了人眼视觉特性,抓住了图像信息传输的本质,从轮廓、纹理思路出发,支持基于视觉内容的交互功能,这适应了多媒体信息的应用由播放型转向基于内容的访问、检索及操作的发展趋势。

AV对象(AVO,AudioVisualObject)是MPEG-4为支持基于内容编码而提出的重要概念。对象是指在一个场景中能够访问和操纵的实体,对象的划分可根据其独特的纹理、运动、形状、模型和高层语义为依据。在MPEG-4中所见的视音频已不再是过去MPEG-1、MPEG-2中图像帧的概念,而是一个个视听场景(AV场景),这些不同的AV场景由不同的AV对象组成。AV对象是听觉、视觉、或者视听内容的表示单元,其基本单位是原始AV对象,它可以是自然的或合成的声音、图像。原始AV对象具有高效编码、高效存储与传输以及可交互操作的特性,它又可进一步组成复合AV对象。因此MPEG-4标准的基本内容就是对AV对象进行高效编码、组织、存储与传输。AV对象的提出,使多媒体通信具有高度交互及高效编码的能力,AV对象编码就是MPEG-4的核心编码技术。

MPEG-4不仅可提供高压缩率,同时也可实现更好的多媒体内容互动性及全方位的存取性,它采用开放的编码系统,可随时加入新的编码算法模块,同时也可根据不同应用需求现场配置解码器,以支持多种多媒体应用。

MPEG-4采用了新一代视频编码技术,它在视频编码发展史上第一次把编码对象从图像帧拓展到具有实际意义的任意形状视频对象,从而实现了从基于像素的传统编码向基于对象和内容的现代编码的转变,因而引领着新一代智能图像编码的发展潮流。

3.2关键技术

MPEG-4除采用第一代视频编码的核心技术,如变换编码、运动估计与运动补偿、量化、熵编码外,还提出了一些新的有创见性的关键技术,并在第一代视频编码技术基础上进行了卓有成效的完善和改进。下面重点介绍其中的一些关键技术。

1.视频对象提取技术

MPEG-4实现基于内容交互的首要任务就是把视频/图像分割成不同对象或者把运动对象从背景中分离出来,然后针对不同对象采用相应编码方法,以实现高效压缩。因此视频对象提取即视频对象分割,是MPEG-4视频编码的关键技术,也是新一代视频编码的研究热点和难点。

视频对象分割涉及对视频内容的分析和理解,这与人工智能、图像理解、模式识别和神经网络等学科有密切联系。目前人工智能的发展还不够完善,计算机还不具有观察、识别、理解图像的能力;同时关于计算机视觉的研究也表明要实现正确的图像分割需要在更高层次上对视频内容进行理解。因此,尽管MPEG-4框架已经制定,但至今仍没有通用的有效方法去根本解决视频对象分割问题,视频对象分割被认为是一个具有挑战性的难题,基于语义的分割则更加困难。

目前进行视频对象分割的一般步骤是:先对原始视频/图像数据进行简化以利于分割,这可通过低通滤波、中值滤波、形态滤波来完成;然后对视频/图像数据进行特征提取,可以是颜色、纹理、运动、帧差、位移帧差乃至语义等特征;再基于某种均匀性标准来确定分割决策,根据所提取特征将视频数据归类;最后是进行相关后处理,以实现滤除噪声及准确提取边界。

在视频分割中基于数学形态理论的分水岭(watershed)算法被广泛使用,它又称水线算法,其基本过程是连续腐蚀二值图像,由图像简化、标记提取、决策、后处理四个阶段构成。分水岭算法具有运算简单、性能优良,能够较好提取运动对象轮廓、准确得到运动物体边缘的优点。但分割时需要梯度信息,对噪声较敏感,且未利用帧间信息,通常会产生图像过度分割。2.VOP视频编码技术

视频对象平面(VOP,VideoObjectPlane)是视频对象(VO)在某一时刻的采样,VOP是MPEG-4视频编码的核心概念。MPEG-4在编码过程中针对不同VO采用不同的编码策略,即对前景VO的压缩编码尽可能保留细节和平滑;对背景VO则采用高压缩率的编码策略,甚至不予传输而在解码端由其他背景拼接而成。这种基于对象的视频编码不仅克服了第一代视频编码中高压缩率编码所产生的方块效应,而且使用户可与场景交互,从而既提高了压缩比,又实现了基于内容的交互,为视频编码提供了广阔的发展空间。

MPEG-4支持任意形状图像与视频的编解码。对于任意形状视频对象。对于极低比特率实时应用,如可视电话、会议电视,MPEG-4则采用VLBV(VeryLowBit-rateVideo,极低比特率视频)核进行编码。

传统的矩形图在MPEG-4中被看作是VO的一种特例,这正体现了传统编码与基于内容编码在MPEG-4中的统一。VO概念的引入,更加符合人脑对视觉信息的处理方式,并使视频信号的处理方式从数字化进展到智能化,从而提高了视频信号的交互性和灵活性,使得更广泛的视频应用及更多的内容交互成为可能。因此VOP视频编码技术被誉为视频信号处理技术从数字化进入智能化的初步探索。

3.视频编码可分级性技术

随着因特网业务的巨大增长,在速率起伏很大的IP(InternetProtocol)网络及具有不同传输特性的异构网络上进行视频传输的要求和应用越来越多。在这种背景下,视频分级编码的重要性日益突出,其应用非常广泛,且具有很高的理论研究及实际应用价值,因此受到人们的极大关注。<>

视频编码的可分级性(scalability)是指码率的可调整性,即视频数据只压缩一次,却能以多个帧率、空间分辨率或视频质量进行解码,从而可支持多种类型用户的各种不同应用要求。<>

MPEG-4通过视频对象层(VOL,VideoObjectLayer)数据结构来实现分级编码。MPEG-4提供了两种基本分级工具,即时域分级(TemporalScalability)和空域分级(SpatialScalability),此外还支持时域和空域的混合分级。每一种分级编码都至少有两层VOL,低层称为基本层,高层称为增强层。基本层提供了视频序列的基本信息,增强层提供了视频序列更高的分辨率和细节。<>

在随后增补的视频流应用框架中,MPEG-4提出了FGS(FineGranularityScalable,精细可伸缩性)视频编码算法以及PFGS(ProgressiveFineGranularityScalable,渐进精细可伸缩性)视频编码算法。

FGS编码实现简单,可在编码速率、显示分辨率、内容、解码复杂度等方面提供灵活的自适应和可扩展性,且具有很强的带宽自适应能力和抗误码性能。但还存在编码效率低于非可扩展编码及接收端视频质量非最优两个不足。

PFGS则是为改善FGS编码效率而提出的视频编码算法,其基本思想是在增强层图像编码时使用前一帧重建的某个增强层图像为参考进行运动补偿,以使运动补偿更加有效,从而提高编码效率。介绍了一些运动估计的快速算法MPEG-4采用I-VOP、P-VOP、B-VOP三种帧格式来表征不同的运动补偿类型。它采用了H.263中的半像素搜索(halfpixelsearching)技术和重叠运动补偿(overlappedmotioncompensation)技术,同时又引入重复填充(repetitivepadding)技术和修改的块(多边形)匹配(modifiedblock(polygon)matching)技术以支持任意形状的VOP区域。

此外,为提高运动估计算法精度,MPEG-4采用了MVFAST(MotionVectorFieldAdaptiveSearchTechnique)和改进的PMVFAST(PredictiveMVFAST)方法用于运动估计。对于全局运动估计,则采用了基于特征的快速顽健的FFRGMET(Feature-basedFastandRobustGlobalMotionEstimationTechnique)方法。

在MPEG-4视频编码中,运动估计相当耗时,对编码的实时性影响很大。因此这里特别强调快速算法。运动估计方法主要有像素递归法和块匹配法两大类,前者复杂度很高,实际中应用较少,后者则在H.263和MPEG中广泛采用。在块匹配法中,重点研究块匹配准则及搜索方法。目前有三种常用的匹配准则:

(1)绝对误差和(SAD,SumofAbsoluteDifference)准则;

(2)均方误差(MSE,MeanSquareError)准则;

(3)归一化互相关函数(NCCF,NormalizedCrossCorrelationFunction)准则。

在上述三种准则中,SAD准则具有不需乘法运算、实现简单方便的优点而使用最多,但应清楚匹配准则的选用对匹配结果影响不大。第五章新菱形搜索的运动估计算法1传统菱形搜索算法根据实验数据统计表明,利用全搜索算法计算获得的运动向量概率和距离搜索中心点的距离之间的关系可以看出,50%~90%的运动向量集中在以搜索中心为圆心的半径为2的圆上,图1运动向量主要分布根据实际视频序列物体运动的统计,实际视频中块的运动可以在任何方向上进行运动,但主要集中在水平和垂直两个方向上(摄像机运动)。所以上图中在半径为2的圆中的13个搜索点是具有最优匹配概率最大的点。所以在该圆形区域内进行搜索,搜索匹配的点数最小而能获得最佳的搜索效果。基于上述理论,菱形搜索算法被提出。为了使得搜索范围为以搜索中心为原点的圆,菱形搜索算法采用了两个搜索模式,如图2所示。一个模式称为大菱形搜索模式(IsP),采用9个搜索点,包括搜索中心,以及8个照菱形分布的围绕点。第二个模式成为小菱形搜索模式(SDSP),采用搜索中心和与其相邻的水平垂直方向上的4个点共5个点组成小菱形。图2LDSP模板与SclsP模板2改进的运动搜索算法菱形搜索算法在1999年10月被MPEG4标准收入验证模型,是通过局部搜索力图达到全局最优的一个比较成功的算法。虽然它的综合性能较其它算法优越,但平均搜索点数仍在l5.5左右[4]。如何在尽量不影响其它性能的前提下进一步减少搜索点数,降低运算量,一直是运动估计算法研究的重要目标。目前提出的运动搜索算法有很多种,最具代表性的有对运动模板作出修改的算法和基于运动向量预测的算法。2.1六边形搜索算法进一步分析LDSP可以发现,LDSP四周的8个匹配点到中心点的距离是不同的,因此使用LDS进行粗定位时,沿不同方向移动的匹配速度也不同,当LD.SP的顶点为本次匹配的MBD点时模板沿水平或垂直方向移动,此时的搜索速度为2像素/步;当模板沿对角方向移动时其速度为√2像素/步。另一方面,在大模板移动的每一步中,不同的搜索方向需要检测的搜索点数也不同。水平和垂直方向上需要检测5个新搜索点,而对角方向上只需检测3个新的搜索点即可。从以上几点可以看出,LDSP模板并不是最优的搜索模板。事实上,造成该问题的根源在于块匹配误差实际上是在搜索范围内建立的误差表面函数,全局最小点即对应着最佳运动矢量,而LDSP实际上只是一个旋转了45。的正方形模板,在对角方向上的梯度下降方向不过快,需要较多步才能够搜索到最优点【5J。六边形搜索算法在菱形搜索的基础上进一步改进。根据搜索模式符合以2为半径的圆形使得搜索点数最优的理论,HEXBSDS的LDSP修改成六边形模式,同时SDSP仍然保留。如图3所示。图3HEⅫ的U)S模板这样的改进有两个优点:一个是大的搜索模式更贴近于以2为半径的圆,搜索效率更高;另一个是很明显的改进,HEXSP比IDsP减少2个搜索点,这样平均搜索点数会至少减少2个点6】。2.2高级菱形搜索算法菱形算法另外一个缺陷就是不能根据图像的内容作出灵活处理,即不管是什么样的运动。一律先用LD—SP来搜索,再用SⅨ搜索,这对小运动图像是一种浪费。高级菱形搜索法抛弃了大模板,依据先前的运动向量计算出一个预测向量,然后在预测向量附近进行搜索。算法具体描述为:Step1:以当前点为中心计算小菱形的5个匹配点,如果最小SAD点不在中心点则跳转到Step2,否则跳转到Step5。Step2:记录更好的方向;记录SAD最小的点为当前中心点;如果更好的方向是左右方向,那么测试该位置的上下方向;如果更好的方向是上下方向,那么测试该位置的左右方向;如果这次又找到了更好的方向,将更好的方向累加,记录SAD最小的点为当前中心点;跳转到Step3。Step3:进一步搜索:如果搜索方向是趋向右边的,那么搜索当前中心点的右上点和右下点;否则如果搜索方向是趋向左边的,那么搜索当前中心点的左上点和左下点;否则如果搜索方向是趋向右上的,那么搜索当前中心点的左上点、右上点和右下点;否则如果搜索方向是趋向上边的,那么搜索当前中心点的左上点和右上点;否则如果搜索方向是趋向下边的,那么搜索当前中心点的左下点和右下点;否则搜索方向是趋向左上的,那么搜索当前中心点的左下点、左上点和右上点;否则如果表明搜索方向是趋向右下的,那么搜索当前中心点的左下点、左上点和右上点;否则如果搜索方向是趋向左下的,那么搜索当前中心点的左上点、左下点和右下点;否则就认为本轮搜索没有找到更好的点,那么搜索当前中心点的左上点左下点、右上点、右下点;搜索完毕后转到Step4。Step4:如果没有找到更好的方向,跳转到Step5。否则更新bDirection为更好的方向,记录SAD最小的点为当前中心点,返回Step1。Step6:停止搜索。如图4所示,每次找到的最佳匹配点加重表示,本算法在第四步搜索结束。由于每轮搜索的点数相应的减少,本算法与DS算法相比降低了搜索时问。第六章、基于SOPC的MPEG-4播放器多媒体技术实用化的关键技术之一,就是解决视频、音频数字化以后数据量大,与数字存储媒体、通信网容量小的矛盾,其解决途径就是压缩。

为了支持低比特率视频传输业务,MPEG(MovingPictureExpertsGroup)推出了MPEG-4标准。于1999年正式成为国际标准的MPEG4是一个适合于低传输率的视频、音频解决方案,更注重于多媒体系统的交互性和灵活性。MPEG-4视频压缩标准提供了一种高度灵活、基于“内容”的编码方法,解码端可以“按需解码”,还可以添加对象和信息。这种灵活性使得MPEG-4具有高效的编码效率、基于内容的可扩展性以及在易受干扰环境下的鲁棒性。

MPEG-4的这些特性使得它十分适合于存储容量有限的手持终端设备。但是MPEG-4视频解码中涉及的反量化(InverseQuantization,IQ)、反离散余弦变换(InverseDiscreteCosineTransform,IDCT),运动补偿(MotionComposition,MC)等技术均是典型的计算密集型变换,对于本身处理能力有限,功耗受限的手持终端设备而言,视频解码的实时性是一个很大的挑战。

本系统在NiosII和FPGA构成的SOPC平台上,使用NiosII的用户自定义指令以硬件逻辑方式实现MPEG4解码中的IQ、IDCT、MC等计算复杂、高度耗时的功能模块,极大地提高解码速度。从而在以GPL协议发布的XviDCodec基础上,实现SimpleProfile视觉框架下,L1级、QCIF(177×144分辨率)、25fps的MPEG-4实时解码,并通过DMA方式在LCD上加以显示。

1系统功能描述

本系统从功能上可以分为视频文件存取、视频解码器、YUV-RGB变换器和LCD控制模块4个部分。

1.1视频文件存取

要进行视频文件的播放,首先需要对视频文件进行方便地存储和读取。系统播放的MP4文件由XviDCodec在PC上对4∶2∶0的YUV文件压缩得到。该MP4文件采用177×144分辨率的QCIF格式,25帧/s。在下载模式,可以通过JTAG接口将MP4文件写入Flash存储器中。在播放模式下,NiosII处理器将MP4文件从Flash存储器中读出,送入文件缓冲池中等待解码器对其进行读取并解码。

1.2视频解码器

视频解码器是系统的核心。如图1所示,视频解码器由熵解码器、反量化、反离散余弦变换、运动补偿模块和视频帧缓存5个模块组成。

图1视频解码器结构框图解码时,首先对输入码流进行熵解码,然后根据帧的头信息判断帧的类型。对于每个宏块,熵解码后首先经过IQ,再经过IDCT变换得到空间域的值。对于参考帧(R-Frame),由于不需要进行运动补偿,变换后的结果直接输出,同时还要将它存储在视频帧缓存中,留给后面的预测帧(P-Frame)做运动补偿。对于预测帧,先通过熵解码得到运动向量,根据运动向量搜索到相应的参考帧后,再将IDCT变换后的预测差值与之相加,合成最后的预测帧图像。解码后的预测帧同样是一路输出,一路存放于视频帧缓存当中。

视频解码如果采用纯软件方式实现,运算量太大,难以满足实时性要求。利用NiosII的自定义指令,将IQ、IDCT和MC这3个主要的计算密集型解码单元用硬件逻辑方式实现,以硬件逻辑的复杂性换取解码的实时性。

1.3YUV-RGB变换器

解码器解码得到的YUV格式图像不适合直接用于LCD显示。要在LCD上显示解码得到的图象必须将YUV格式的图像转换为RGB格式,两者的转换关系如下:

R=1.164(Y-16)+1.569(V-128)

G=1.164(Y-16)+0.813(V-128)+0.391(U-128)

B=1.164(Y-16)+2.018(U-128)

YUV到RGB格式的转换是一个很占用CPU资源的过程。本系统以查表的方式,采用硬件逻辑实现该转换。

1.4LCD控制模块

标准VGALCD显示模块(640×480,@60Hz)是一种逐行扫描设备。这种扫描是顺序的,下一个扫描点能够预知,从而可以将需要送出的像素信息排成一行,看作一个数据流(Streaming)。借助于NiosII的Avalon流模式外设的设计方法,可以实现一个Avalon流模式的LCD控制器。利用DMA控制器在流模式的LCD控制器和系统SDRAM之间建立一条DMA传送通道,由硬件完成像素信息的读取和送出。NiosII只需要操作SDRAM中的相应区域就可完成显示图像的更新。

2系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论