




已阅读5页,还剩20页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着近年来计算机运行速度、大规模集成电路技术的显著提高,多媒体视频压缩技术得到迅速的发展。在过去的十多年里,国际标准化组织(iso),国际电信联盟(itu)相应制定了一系列的国际视频压缩编码的标准,包括mpegx系列,h.26x系列。这些标准已经应用到了dvd,个人视频电话,商务视频会议,卫星,广播,数字电视等很多方面。其中,h.264/avc中包含了众多先进的视频压缩编码技术和思想,并将它们很好的结合起来,相比过去的视频编码标准,它在编码效率和网络友好性方面有了很明显的提高,成为新一代的国际视频压缩编码标准。 h.264 标准是由 itu-t 的视频编码专家组(vceg)和 iso/iec 的活动图像专家组共同成立的联合视频小组(jvt)于 2003 年 3 月公布的。h.264 是当下最新的国际视频编码标准,也称 mpeg4 的第 10 部分,即高级视频编码(avc)。但是,该编码标准也存在不足,主要是由于h.264的高压缩编码效率却使得编码器的计算复杂度急剧增加,其编码复杂度更是比mpeg-4标准增加了10倍之多。所以必须对h.264压缩编码算法进行优化以提高其编码效率,尤其是在视频传输的实际应用中。 本论文首先回顾了视频压缩技术的背景知识,简要介绍了当前视频压缩国际标准,国内外研究现状。接着,围绕h.264标准,简要介绍了h264编码标准的概念,视频编码特点,关键技术和主要性能。尤其是对h264的主要技术做了较详细的描述,包括帧内预测,帧间预测,整数变换及量化,熵编码等。然后又详细分析了h264帧内预测算法的复杂度和性能。最后,本文所采用的是基于全搜索算法的帧内预测模式选择,分别对亮度块和色度块进行模式预测和选择,扫描每一种模式。包括4种16*16亮度块模式和9种4*4亮度块模式,4种8*8色度块模式,计算每一种模式的代价值,取最小代价值为最佳模式,实现完整的帧内预测模式选择。在算法性能分析上,主要考虑的是算法程序的可编译性和算法的峰值信噪比(psnr)值,对该算法的复杂度进行整体概况分析。关键词:视频压缩;h.264;帧内预测;算法优化significantly increased computer operating speed in recent years , large - scale integrated circuit technology , multimedia video compression technology has been developed rapidly . in the past 12 years , the international organization for standardization ( iso ) , the international telecommunication union ( itu ) have formulated a series of international video coding standard , including mpegx series h.26x series . these standards have been applied to the dvd, personal video telephony , business video conferencing , satellite , radio , digital tv , and many other aspects . among them , h.264/avc contains many advanced video compression coding technology and ideas , and they combine well , compared to the past video coding standard, the coding efficiency and network friendliness obvious the improvement of a new generation of international video coding standard .the h.264 standard is jointly established by the itu-t video coding experts group ( vceg ) and the iso / iec moving picture experts group joint video team ( jvt ) was published in march 2003 . h.264 is the moment of the latest international video coding standard , also known as mpeg4 part 10 advanced video coding ( avc ) . however, the coding standard deficiencies , mainly due to the sharp increase h.264 high compression coding efficiency but makes the computational complexity of the encoder and its coding complexity gengshi bi mpeg-4 standard was increased 10 times as much . h.264 compression coding algorithm must be optimized in order to improve the coding efficiency , especially in the practical application of the video transmission .this paper first reviews the background of the video compression technology , a brief introduction video compression with international standards , research status . then, around the h.264 standard , a brief introduction of h. 264 coding standard concept of video encoding features , the key technology and performance. h. 264 main technologies do a more detailed description, including the intra prediction, inter prediction , integer transform and quantization , entropy coding . then a detailed analysis of h. 264 intra prediction algorithm complexity and performance . finally, as used herein , is selected based on the intra prediction mode of the full search algorithm , respectively, for the luminance blocks and chrominance block mode prediction and selection, scanning each mode . 4 16 * 16 luma block mode and 9 4 * 4 luma block mode , 4 of 8 * 8 chroma block mode to calculate each mode on behalf of the value to take minimum cost value of the best mode , to achieve a complete the intra- prediction mode selection .in the analysis of the performance of the algorithm , the main consideration is that the algorithm can be compiled and algorithms of the peak signal - to - noise ratio ( psnr ) value ,the overall profile analysis of the complexity of the algorithm .keywords: video compression ; h.264 ; intra prediction ; algorithm optimization1 绪论 1.1 课题背景当今世界信息技术不断发展,视频压缩技术的发展也逐渐成熟。本文在综述视频编码技术的基本原理,应用领域的基础上,系统阐述了常用视频压缩的编码方法及这些压缩方法综合运用形成的主要国际压缩标准。尤其着重介绍了h.264帧内预测的相关原理,并对视频压缩技术的进一步发展提出了相应的建议。1.2 视频压缩基本原理和重要性 视频信息虽然具有直观性、确定性等优越特点, 但要传大量的视频信号则需要增加通信干线的传输率,扩大存储器容量,较高的网络带宽,这显然难以实现的,不利于视频技术的快速发展。所以,视频压缩技术就是现今最行之有效的方法。通过数据压缩,以压缩形式存储、传输,即能把数据信息量压缩下来,节约了存储空间, 又提高了通信干线的传输效率, 同时也可使计算机进行实时的音频、视频信息处理, 以确保能够流畅的播放出高质量的视频节目。因此,视频信号在传输之前要进行视频编码压缩。 对于帧的大小、帧速率、视频质量、位速率以及所采用的压缩标准等,视频编码在不同的应用场合有不同的需求。目前,基于内容的编码和基于波形的编码是最经常采用的模式。基于内容的编码首先把视频帧分成对应于不同物体的区域, 然后分别对其进行编码。即对不同物体的形状、纹理和运动进行编码。例如,利用二维轮廓描述物体的形状,纹理则用颜色的波形进行描述,利用运动矢量描述其运动状态;基于波形的编码采用了把预测编码和变换编码组合起来的基于块的混合编码方法,采用混合编码方法时, 首先把一幅图像分成固定大小块, 然后对块进行压缩编码处理,减少了编码的复杂性。总之,我们采用不同的视频编码方式就能够把大量的信息源数据压缩制作成各种不同格式的视频文件,方便我们的传输应用。1.3 常用的视频编码标准1.3.1 mpeg标准1998年,mpeg是由活动图像专家组(moving picture exports group)编写。由于mpeg2的出色性能表现,已能适用于hdtv,使得原打算为hdtv设计的mpeg3,还没出世就被抛弃了。所以现存只有三个版本:mpeg1,mpeg2,mpeg4。而mpeg-7和mpeg-21都在研究中。如果说,mpeg1“文件小,但质量差”;而mpeg2则“质量好,但更占空间”的话,那么mpeg4则很好的结合了前两者的优点。 mpeg编码压缩主要基于两方面因素:一是人眼的视觉特性,二是图像数据本身的冗余度。mpeg-1是mpeg组织制定的第一个视频和音频有损压缩标准。视频压缩算法于1990年定义完成。1992年底,mpeg-1正式被批准成为国际标准。mpeg-1是为cd光碟介质定制的的视频和音频压缩格式。 mpeg1为速率1.5mbps的数字声像信息的存储而制定的。常用于能够提供录像质量的视频节目的光盘存储系统,图像采用 sif格式,图像分辨率为 352288 像素。mpeg1图像压缩率极高,但压缩图像质量差。mpeg1由于技术成熟,是目前dvr市场的主流技术,但两者的致命弱点就是硬盘耗费量大,且不能同时满足保安与实时录像场合的需要 mpeg2是mpeg1的升级版本,于1994年发布。其发展分为三个阶段:第一阶段是对mpeg-1增加了低采样频率,有16khz,22.05khz,以及24khz。第二阶段是对mpeg-1实施了向后兼容的多声道扩展,将其称为mpeg-2 bc。支持单声道,双声道,多声道等编码。并附加“低频加重”扩展声道,从而达到五声道编码。第三阶段是向后不兼容,将其称为mpeg-2 aac先进音频编码。采样频率可以低至8khz;而高至96khz范围内的1-48个通道可选的高音质音频编码。它克服并解决了 mpeg1 不能满足日益增长的多媒体技术、数字电视技术、多媒体分辨率和传输率等方面的技术要求上的缺陷,即能在很宽范围内对不同分辨率和不同输出比特率的图像信号有效地进行编码,支持的带宽范围从2mbps 到超过20mbps。mpeg2 标准广泛应用于多媒体、视频会议/可视电话、数字电视、高清晰度电视(hdtv)、广播、通信和网络等领域。 mpeg4简称mp4,于1998年推出。mpeg4标准的制定是为了支持传统的视频应用并且满足新型多媒体应用的需求,其应用目标是针对窄带宽传输、高画质压缩、交互性操作。其主要优势在于针对低通信带宽设计, 使低码率的视频传输成为可能。mpeg4的图像清晰度高,接近于dvd的图像质量,远优于之前的mpeg1,mpeg2,所以该标准广泛应用于数字电视、实时多媒体监控、低比特率下的移动多媒体通信、网络视频流与可视游戏、网络会议、交互多媒体应用、演播电视等。mpeg7于1998年推出,mpeg-7标准被称为“多媒体内容描述接口”,为各类多媒体信息提供一种标准化的描述。mpeg-7的目标是支持多种音频和视觉的描述,包括自由文本、n维时空结构、统计信息、客观属性、主观属性、生产属性和组合信息。对于视觉信息,描述将包括颜色、视觉对象、纹理、草图、形状、体积、空间关系、运动及变形等 。他的主要应用领域为胶片电影,录音的剪切,多媒体编辑等等。 对于不同网络之间用户的互通问题,至今仍没有成熟的解决方案。为了解决以上问题,mpeg-21致力于为多媒体传输和使用定义一个标准化的、可互操作的和高度自动化的开放框架,其目的就是将不同的协议、标准和技术等有机地融合在一起,制定新的标准,将这些不同的标准集成在一起。mpeg-21标准其实就是一些关键技术的集成,通过这种集成环境对全球数字媒体资源进行增强,实习内容描述、创建、发布、使用、识别、收费管理、版权保护、用户隐私权保护、终端和网络资源撷取及事件报告等功能。1.3.2mpeg标准应用概况mpeg-1mpeg-2mpeg-4mpeg-7mpeg-21适用码率1.5mb/s4.9mb/s64kmb/s/应用领域vcd,低清晰度数字电视dvd,广播电视,高清晰度数字电视英特网,可视电话,视频会议多媒体索引,多媒体编辑电子交易图像清晰度352*288720*576720*576/1.3.3 h.261和h.263编码标准 h.261标准是itu于1990年制定的针对活动图像的编码协议。其设计的目的是能够在带宽为64kbps的倍数的综合业务数字网(isdn for integrated services digital network)上传输质量可接受的视频信号 。它能够对cif和qcif分辨率的视频进行编码,即亮度分辨率分别是352x288和176x144,色度采用4:2:0采样,分辨率分别是176x144和88x72。 它同mpeg1的区别在于h. 261是传送屏幕区域的更新信息, 大幅度地降低了数据流的瞬时变化, 在带宽有障碍的信道上传输是一种理想的方案。h. 261可使数据速率压缩至p64kbps( p=120) , 一般在32384kbps时图像可达cif、qcif15帧每秒( f/ s) , 总体上图像质量略逊于mpeg1。 h.263标准是 itu-t 于 1995 年制定的视频会议用的低码率视频编码标准 ,其传输码率可以低于64kbps。h.263视频编码器的基本结构与h.261基本类似。h.261 编码器由于仅使用了 i 帧和 p 帧,所以一定要采用较高的量化阈值和低的频率,才能输出相对较低的码率。 h.263支持以下几种图像格式,qcif, cif, 4cif 和 16cif,h. 263非常适合在固定带宽的信道中传输视频信号。为了提高编码效率,增强编码功能,itu-t 对 h.263进行了多次补充,补充修订的版本有 1998 年制定的 h.263+,2000 年制定的 h.263+。升级版本与原来版本相比较,h.263只有5种视频源格式,h.263+允许使用更多的源格式,图像时钟频率也有多种选择,拓宽应用范围;另一重要的改进是可扩展性,它允许多显示率、多速率及多分辨率,增强了视频信息在易误码、易丢包异构网络环境下的传输。另外,h.263+对h.263中的不受限运动矢量模式进行了改进,加上12个新增的可选模式,不仅提高了编码性能,而且增强了应用的灵活性。h.263已经基本上取代了h.261 h.263 标准版本升级主要体现在增加或修正一些高级编码模式,即保持了对旧版本的兼容,又增加了新的功能。因而使其应用范围进一步扩大,压缩效率、抗误码能力和重建图像的主观质量等都得到了提高。1.3.4 h.264编码标准 h.264是itu-t以h.26x系列为名称命名的标准之一,同时avc是iso/iec mpeg一方的称呼,它将成为mpeg-4标准的第10部分。所以这个标准通常被称之为h.264/avc ,其第一版的最终草案于2003年5月完成。 h.264是在mpeg-4技术的基础之上建立起来的,其编解码流程主要包括5个部分:帧间和帧内预测(estimation)、变换(transform)和反变换、量化(quantization)和反量化、环路滤波(loop filter)、熵编码(entropy coding)。 h.264最大的优势是具有很高的数据压缩比率,在同等图像质量的条件下,h.264的压缩比是mpeg-2的2倍以上,是mpeg-4的1.52倍。举个例子,原始文件的大小如果为88gb,采用mpeg-2压缩标准压缩后变成3.5gb,压缩比为251,而采用h.264压缩标准压缩后变为879mb,从88gb到879mb,h.264的压缩比达到惊人的1021。h.264为什么有那么高的压缩比?低码率(low bit rate)起了重要的作用,和mpeg-2和mpeg-4 asp等压缩技术相比,h.264压缩技术将大大节省用户的下载时间和数据流量收费。尤其值得一提的是,h.264在具有高压缩比的同时还拥有高质量流畅的图像,正因为如此,经过h.264压缩的视频数据,在网络传输过程中所需要的带宽更少,也更加经济。 在技术上,h.264标准中有多个闪光之处,如统一的vlc符号编码,高精度、多模式的位移估计,基于44块的整数变换、分层的编码语法等。这些措施使得h.264算法具有很的高编码效率,在相同的重建图像质量下,能够比h.263节约50左右的码率。h.264的码流结构网络适应性强,增加了差错恢复能力,能够很好地适应ip和无线网络的应用。1.3.5 avs编码标准 文中提起视频压缩编码, mpegx、h.264 等视频压缩编码标准,都是国外的标准化组织提出的,知识产权也属于国外的研究机构。国内的企业和用户要使用这些专利技术需要支付高昂的专利费用. 但是从 2006 年 3 月份起 ,我国也有了自己的视频压缩编码标准 ,这就是 avs 标准。它是由中科院计算所制定的,并且达到国际先进水平的数字视频压缩编码标准。 由于 avs标准具有如下一些特点:(1)avs 视频标准采用了与 h.264 类似的混合编码的技术框架 ,包括变换、量化、熵编码、帧内预测、帧间预测、环路滤波等模块; (2)具有自主知识产权,得到了国家相关部门的支持和重视;(3)适用于地面数字电视广播、有线数字电视、交互存储媒体以及直播卫星视频等多个业务领域。因此, 受到了国内外一些企业的欢迎,例如夏新电子、青岛海信集团有限公司、北京海尔集成电路设计有限公司等。1.4 视频编码发展趋势 伴随着计算机及网络技术的飞速发展,尤其视频编解码技术的日益成熟、计算机处理能力的快速提高、以及宽带的逐渐普及,基于internet的视频网络实时应用在许多行业得到应用。例如可视电话及视频会议系统、电视网络实况转播、远程教育等。这些internet视频实时应用在许多政府政府部门被大范围采用,尤其是银行、广电、石油、电力等行业,出现了许多成功案例。可以相信,多媒体数据压缩技术与视频压缩技术及网络技术相结合的应用前景十分可观, 它将对今后的社会进步产生重大影响。2 h.264关键技术分析2.1 冗余处理 h.264为达到高效的压缩,充分利用了各种冗余,主要包括视觉生理冗余和统计冗余。 视觉生理冗余是由于人类的视觉系统特性造成的,比如人眼对色彩分量的高频分量没有对亮度分量的高频分量敏感,对图像高频(即细节)处的噪声不敏感等。压缩视频图像时对视觉冗余的压缩并不占主要工作量统计冗余是指频谱冗余(指色彩分量之间的相关性),空间冗余,还有时间冗余。这三者是视频压缩区别于静止图像的根本点,视频压缩主要利用时间冗余来实现大的压缩比。针对上述这些冗余,主要的考虑是集中在空间冗余和时间冗余上,因此, 视频压缩算法采用了不同的方法加以利用。对空间冗余,标准通过变换与量化的方法来达到消除的目的,这样编码的视频图像帧叫i帧(帧内编码帧);与以前标准不同的是,h.264在编码i帧时,也可以采用帧内预测技术,然后对预测误差进行编码。这样就充分利用了空间相关性,提高了编码效率。而时间冗余则是通过帧间预测技术,即运动估计和补偿法来去除,这样编码的视频帧叫p帧(前向预测帧)或b帧(双向预测帧)。 2.2 分层设计h.264的算法在概念上可以分为两层:视频编码层(vcl:video coding layer)负责高效的视频内容表示,网络提取层(nal:network abstraction layer)负责以网络所要求的恰当的方式对数据进行打包和传送。在vcl和nal之间定义了一个基于分组方式的接口,打包和相应的信令属于nal的一部分。这样,高编码效率和网络友好性的任务分别由vcl和nal来完成。vcl层包括基于块的运动补偿混合编码和一些新特性。与前面的视频编码标准一样,h.264没有把前处理和后处理等功能包括在草案中,这样可以增加标准的灵活性。nal负责使用下层网络的分段格式来封装数据,包括组帧、逻辑信道的信令、定时信息的利用或序列结束信号等。例如,nal支持视频在电路交换信道上的传输格式,支持视频在internet上利用rtp/udp/ip传输的格式。nal包括自己的头部信息、段结构信息和实际载荷信息,即上层的vcl数据。(如果采用数据分割技术,数据可能由几个部分组成)。2.3 帧内预测在先前的h.261,h.263系列和mpeg-x系列标准中,都是采用的帧间预测的方式。在h.264中,当编码图像时可用帧内预测,主要基于i帧。这种帧内预测不是在时间上,而是在空间域上进行的预测编码算法,可以除去相邻块之间的空间冗余度,取得更为有效的压缩。 帧内预测是充分利用相邻宏块的空间相关性,根据相邻已编码过的块(主要是上边块和坐边块)的17个像素值来预测当前块的像素值,并且只对预测差值进行变换编码以消除空间冗余,大大减少码率。尤其是在变化平坦的区域,利用帧内预测可以用较少的比特数来表达像素块信息,大大提高了编码效率。h.264 共支持三类帧内预测 :第一类intra_44是针对44亮度块的预测,共有9种预测模式,其中包括1种均值预测模式(dc模式)和8种具有一定方向性的预测模式。第二类intra_1616是针对1616亮度块的预测,共有4种预测模式。第三类intra_88是针对88色度块的预测,共有4种预测模式。intra44模式由于尺寸较小,比较适合于编码细节丰富的图像,且能获得较小的差值,但同时由于intra_44的模式数较多,所以成为增加帧内编码复杂度的一个重要原因,而intra1616比较适用于编码图像中的平滑区域。 此外,还有一种帧内编码模式,我们称之为i_pcm编码模式。该模式下,不需要经过预测和变换,编码器直接传输所用图像像素值。在一些特殊图像中,例如图像内容不规则,量化参数设置很低时,使用该模式比起“帧内预测变换量化熵编码”的常规模式效率更高。i_pcm模式用于以下目的:1)允许编码器直接的表示图像像素值。2)在不引起重大的数据量增加的情况下,提供表示不规则图像内容的准确值。3)不损害编码效率的同时,严格限制宏块解码比特数。2.3 帧间预测 帧间预测是利用视频图像帧间的相关性,即时间相关性,来达到图像压缩的目的。在视频序列中,运动图像多数情况下只是其中的很少一部分图像在运动,同一场景相邻的两幅视频帧之间在内容上的差异不会太大,或者说后一帧的内容与前一帧之间的差异很小。前一帧的重复部分很多由于活动图像的前后帧之间存在着很大的相关性和冗余度 ,通过帧间预测去除这种相关性和冗余度可以极大提高信源的压缩。我们经常使用的方法包括运动估计,运动补偿和多参考帧预测,来减少图像冗余度。例如,生活中大多数电视图像相邻帧间细节变化是很小的,即视频图像帧间具有很强的相关性,利用帧所具有的相关性的特点进行帧间编码,可获得比帧内编码高得多的压缩比 。2.3.1树状运动补偿在h.264运动预测中,每个亮度宏块被划分为形状不等的区域,作为运动描述 :一个 1616,两个 168,两个 816,四个 88。其运动补偿也相应有四种。而 88 模式的每个子宏块还可以按照四种方式分割:一个 88,两个 48 或两个 84 及 4 个 44。这些分割和子宏块大大提高了各宏块之间的关联性。这种分割下的运动补偿则称为树状结构运动补偿。 如下图所示 0 1 0 1 2 301 0 16分割方式:16*16,8*16,16*8,8*8 0 1 0 1 2 301 08分割方式: 8*8, 4*8, 8*4, 4*4每个区域都包含各自的运动向量,并且每个运动向量和其所在区域选取信息时必须通过编码传输。所以,选取较大的区域时,运动向量和区域的选取数据量就会变少,运动补偿后的残差大。然而当选取小区域时,运动向量和区域的选取数据量就会变多,残差减少,预测值更加精确。所以,大区域适合反映帧间同质部分,小区域适合反映帧间细节部分。2.3.2 运动估计 在帧间预测编码中,由于活动图像邻近帧中的景物存在着一定的相关性。因此,可将活动图像分成若干块或宏块,并设法搜索出每个块或宏块在邻近帧图像中的位置,并得出两者之间的空间位置的相对偏移量,得到的相对偏移量就是通常所指的运动矢量,得到运动矢量的过程被称为运动估计。通过运动估计可以去除帧间冗余度,使得视频传输的比特数大为减少,因此,运动估计是视频压缩处理系统中的一个重要组成部分。 运动估计的分类:全局运动估计,基于像素点的运动估计,基于块的运动估计,基于区域的运动估计。2.3.3 多参考帧预测以往的视频压缩标准采用1个参考帧,h.264标准为帧间图像编码提供了多参考帧选择,可选择5个不同的参考帧, 进行帧间预测,这使得编码率降低,帧间编码更加有效。h.264除了支持i帧p帧和b帧,还支持新的码流间可转换帧:sp帧和si帧。sp帧技术的主要特性是使用不同的预测参考帧也能解码恢复出相同的sp帧。si帧利用了帧内预测编码技术,其重建图像和对应的采用运动补偿预测的sp帧的重建图像相同。在提供相同功能时sp帧的编码效率远远高于i帧,因此,sp帧在流间切换、拼接和随机接入等应用中取代i帧。2.4 变换和量化2.4.1 整数变换将图像的当前像素值与预测值相减,就形成了预测残差。残差内仍然含有空间冗余,为了消除这种冗余,在所有的视频压缩协议中,最终都需要对一个残差宏块进行“变换量化编码”,三个步骤的完整过程。在h.264之前,例如mpeg-1,mpeg-2,mpeg-4和h.263协议,采用的变换函数都是基于88块的dct变换;这一点,在h.264协议中已经有所改变。变换函数的选取依据需要进行变换的残差块类型分为3种方式:(1)适用于帧内预测宏块44亮度dc系数块的变换;(2)适用于任何宏块色度22dc系数块的变换;(3)适用于其他44残差数据块的变换;如果需要,还可以选择与运动补偿块大小(48、84、88、168)相对应的变换。2.4.2量化处理 量化过程在不降低视觉效果的前提下减少图像编码长度,减少视觉恢复中不必要的信息。h.264采用标量量化技术,它将每个图像样点编码映射成较小的数值。一般量化原理为:fq=round(y/qp)其中:y为输入样本点编码,qp为量化步长,fq为y的量化值,round()为取整函数(其输出为与输入实数最近的整数)。在h.264 中,量化步长 qstep共有52 个值,对应于不同的量化参数qp(量化步长的序号),qp值每增加6,qstep值增加一倍。qp值每增加1,qstep值增加12.5。量化步长取值范围很广,这就为编码中兼顾比特率和编码质量提供了足够多的灵活度和准确度。2.5 熵编码熵编码即编码过程中按熵原理不丢失任何信息的编码。 是整个编码步骤的最后一步。h.264标准提供的熵编码方案有:(1)exp-golomb码;(2)基于上下文的自适应变长码编码(cavlc);(3)基于上下文的自适应二进制算术编码(cabac)。2.5.1 exp-golomb 编码特点(1)对所有的句法元素,除了量化系数外,使用单一无限扩展的码字表。(2)是有规则结构的可变长编码。2.5.2 cavlc 编码特点 (1) 基于上下文的自适应变字长编码是对经过之字形扫描的44块变换系数进行编码的方法。利用了44块的一些特性. (2)预测变换量化后的块一般是稀疏的。 (3)之字形扫描后的最高零系数是+1/-1的序列(4)相邻块的非零系数是相关的。(5)非零系数的幅度在重排数组的开始处比较高,在高频系数比较低。2.5.3 cabac 编码特点 (1)算术编码是把整个信源表示为实数中01之间的一个区间,起长度等于该序列的概率; (2)在区间内选择一个代表性的小数,转化为二进制作为实际的编码输出; (3)算术编码的平均编码长度为小数。2.6 去块效应滤波器.264采用基于的块的编码方式,把每幅图像划分为固定大小的块,对于每一个再进行(离散余弦变换),块边界上的像素值的重构精度相对块中间的像素值的精度要差一些,这样就人工的在块与块之间产生了不连贯的效应,称为“块效应”,使得解码重建后得到的图像明显呈现出以块拼接出的感觉。因此,在解码重建后应当对图像进行“去块效应”处理,通过对宏块边缘的平滑滤波,减轻视频编码中的块效应。当块边界上两边差较小则使用滤波器使差别“平滑”掉, 若边界上图像特征明显则不使用滤波。这样既减弱“块效应”的影响又避免滤掉图像的客观特征。采用去块效应滤波器,使得所解码的图像呈现自然的质感。第三章 h.264帧内预测算法分析帧内预测的目的是生成对当前宏块的预测值。在帧内预测模式中,预测技术是基于块形成的,预测宏块是基于已编码重建块和当前块形成的。一个宏块由一个16x16的亮度(luma)分量和两个8x8的色度(chroma)分量构成。亮度(luma)块有两类帧内预测方式按标准中的记号表示为intra_16x16和intra_4x4,其相关操作为:intra_4x4 亮度子块有9 种可选预测模式,独立预测每一个44亮度子块,适用于带有大量细节的图像编码;intra_16x16 亮度块有 4 种预测模式,预测整个 1616 亮度块,适用于平坦区域图像编码;对色度像素而言,色度块也有4 种预测模式,类似于1616 亮度块预测模式。编码器通常选择使p 块和编码块之间差异最小的预测模式。3.1 4*4亮度预测模式 在此模式下,编码器将当前宏块16x16的luma分量划分为16个4x4的块,然后根据每个4x4块周围的邻近像素对该块做预测。h.264只选择了13个像素作为参考。44 亮度块的上方和左方像素 aq 为已编码和重构像素,用作编解码器中的预测参考像素。a p 为待预测像素,利用 aq 值和9 种模式实现。如下图所示a)利用像素a-q对方块中a-p像素进行帧内44预测 b)帧内44 预测的8个预测方向。44亮度块预测模式144块亮度分量帧内预测算法模式0(垂直模式) 通过当前像素正上方相邻像素a、b、c、d进行预测模式1(水平模式)通过当前像素正左方相邻像素i、j、k、l进行预测模式2(dc均值模式) 用相邻像素a、b、c、d和i、j、k、l的均值预测模式3(左方斜下模式)按上右至下左45度方向进行预测模式4(右方斜下模式)按上左至下右45度方向进行预测模式5(垂直偏右模式)按垂直偏右266度方向进行预测(宽与高比例l:2)模式6(水平偏下模式)按水平偏下266度方向进行预测模式7(垂直偏左模式)按垂直偏左266度方向进行预测模式8(水平偏上模式) 按水平偏上266度方向进行预测在开始预测之前首先需判断a-m这些参考像素是否可用,如果有些参考像素不可用那么有些预测模式也就不能用了。其中dc预测(模式2)、垂直预测(模式0)和水平预测(模式2)总是被认为是有效的,即使在编码块上面像素或左边像素不可用的情况下,这时候上面像素或左边像素的值就使用128这个值来代替。而其它模式仅当所有需要利用的预测象素点都可用的情况下才可以使用。当对于宏块内序号为d和k的4x4子块,e-h参考像素尚未编码,所以它们的e-h参考像素是不可用的。另外如果e-h不可用而d是可用的则用d来替代e-h并将e-h标记为可用。在决定了哪些参考像素可用后就可以通过它们产生预测值。h.264一共定义了9种intra_4x4预测方式。除了模式2(dc方式) 之外其它8种都是向某一个方向上进行预测也就是做外插,h.264并不直接编码各个块的预测模式而是根据当前块左边和上边块的预测模式对当前块的预测模式进行估计下面我们将举例说明如何在各种模式下进行像素值预测。:以模式0为例,当a,、b、c、d四个样本点都可用时,预测过程为: a, e, i, m 由a预测 b, f, j, n 由b预测 c, g, k, o 由c预测 d, h, l, p 由d预测当上边块a至h的样本点不可用,预测过程为: a=b=c=d=e=f=g=h=128 a=e=i=m=128 b=f=j=n=128 c=g=k=o=128 d=h=i=p=128当e至h的样本点不可用时,预测过程为: e=f=g=h=d以模式1为例,当i,j,k,l四个样本点都可用时,预测过程为: a, b, c, d 由i预测 e, f, g, h 由j预测 i, j, k, l 由k预测 m, n, o, p 由l预测当坐边块i至l的样本点不可用时,预测过程为: i=j=k=l=128 a=b=c=d=128 e=f=g=h=128 i=j=k=l=128 m=n=o=p=128。3.2 16*16亮度预测模式 16 x 16预测方式是基于在16x16块的基础上,用于对图像中的相对不变的部分进行编码。16x16帧内预测模式根据与当前宏块邻近的33个像素来生成luminance分量的预测数据,共有4种预测方式,模式0垂直(vertical)、模式1水平(horizontal),模式2 dc和模式3平面(plane)。16*16四种预测模式 1616预测模式描述 模式0 (垂直)由上边像素推出相应像素值 模式1 (水平) 由左边像素推出相应像素值 模式2 (dc)由上边和左边像素平均值推出相应像素值 模式3 (平面)利用线形“plane”函数及左、上像素推出相应像素值,适用于亮度变化平缓区域 在进行预测之前首先要判断这些邻近像素是否可用,如果这些像素不可用,例如邻近像素所在的宏块位于其它帧之中或当前宏块位于图像边缘时某些预测模式就用不起来。例如: (1)对于垂直模式,如果上边块h可用的话,预测值即为h,否则不能使用此模式。(2) 对于水平模式,如果左边块v可用的话,预测值即为v,否则不能使用此模式。(3) 对于 dc 模式,如果上边块h和左边块v都可用,就用这32个像素的均值作为预测值;如果只有h或v之中的一个可用,就用这16个像素的均值作为预测值;如果h和v都不可用,则预测值设定为128。(4) 对于plane模式,要求必须所有的33个邻近像素都可用,这种方式实质上就是利用h和v做外插(extrapolation),为便于叙述,引入一个坐标系,其中横向为x轴,纵向为y轴,定义当前宏块左上角像素的坐标为(0,0)。用p(x,y)表示位于坐标(x,y)处的33个邻近像素值,其中h对应p(x, -1),x= 015, v 对应p(-1,y ),y= 015,而左上角处的邻近像素值为p(-1,1) 。预测值用pred(x,y),x,y= 015表示。其中如果参考样点不在编码图像内则以128代替。模式0: 垂直预测:通过当前预测块正上方的相邻像素a至d进行预测。块内各像素点计算值如下:pred (i,j)=p(i,-1) i,j =0.15模式1: 水平预测: 通过当前预测块正左方的相邻像素il进行预测,计算公式如下:pred(i,j)=p(-1,j) i, j= 0.15模式2:dc预测:如果当前预测块的相邻像素h、v均不在图像内部,即当前块位于图像的最左上方,所有的像素的预测值均为128;如果当前预测块的相邻像素h不在图像内部,则使用相邻像素v进行预测,当前预测块的像素预测值为像素v的平均值;如果当前预测块的相邻像素v不在图像内部,则使用相邻像素h进行预测,当前预测块的像素预测值为像素h的平均值,否则,当前预测块的像素预测值为像素(hw)的平均值。模式3: 平面预测predc(x,y)clipl( a+ b * (x-7)+c*(y-7)+16)5) x,y =0.15其中:a=16 * (p(-1,15) + p(15,-1)b=(5 * h + 32)6c=(5 * v + 32)6h=(x+1) *(p(8+x,-1)p(6-x,-1) x=07v=(y+1) *(p(-1,8+y)p(-1,6-y) y=07clipl(x )代表将x位于0到255之间(含)3.3 8*8色度预测模式h.264对色度分量也能进行帧内预测,每个帧内编码宏块的88色度成分由已编码左上方色度像素预测而得,两种色度成分常用同一种预测模式,预测的参考像素是同一个chroma分量的周围17个像素。对色度块的预测模式而言,色度预测也有4种预测模式,类似于亮度帧内1616预测的4种预测模式,只是模式编号不同。模式0为dc,模式1为水平,模式2为垂直,模式3为平面。为8*8的模式8*8四种预测模式8*8色度预测模式描述medel(水平预测)通过当前预测块正左方相邻像素i-l进行预测。mede2(垂直预测)通过当前预测块正上方相邻像素a-d进行预测。mode3(平面预测)对上方和左方的相邻像素斜向往返式预测。令88色度块像素的位置表示为p(x,y),(x,y=07),当前块正上方的8个相邻像素的位置为p(x,-1),(x,y=07),正左方的8个相邻像素的位置为p(-1,y),(x,y=07),当前块的预测结果为pred(x,y),(x,y=07)。预测算法如下:1模式 0(dc预测):如果当前预测块的相邻像素h、v均不在图像内部,即当前块位于图像的最左上方,所有的像素的预测值均为128;如果当前预测块的相邻像素h不在图像内部,则使用相邻像素v进行预测,当前预测块的像素预测值为像素v的平均值;如果当前预测块的相邻像素v不在图像内部,则使用相邻像素h进行预测,当前预测块的像素预测值为像素h的平均值,否则,当前预测块的像素预测值为像素(h+v)的平均值。2模式l(水平预测):通过当前预测块
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 水草打黑基础知识培训
- 混凝土施工中气候适应性调整方案
- 小学四年级英语上册Unit6单元语音速记与巧练(含答案)
- 水稻讲解语音课件
- 给水工程噪音控制方案
- 建筑工程项目测量与定位控制方案
- 水痘课件教学课件
- 造型基础平面构成设计76课件
- 装饰图案中国传统图案二麻梦琳第二章第二节42课件
- 二零二五年度电子商务平台运营合同范本
- 设备调剂管理办法
- 蓝天救援队规定管理制度
- 银监会手机租赁管理办法
- 常见上肢骨折护理常规
- 2025建筑安全员考试题库
- 从2025年河南中考语文试卷中分析阅读理解如何提分
- 军工领域涉密项目保密风险评估及防控措施
- 2025发展对象考试题库附含参考答案
- 公共打印区域管理办法
- 杭州预付消费管理办法
- 2025年中国淋膜纸市场调查研究报告
评论
0/150
提交评论