




已阅读5页,还剩88页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第4章视频处理技术,4.1视频压缩基础4.2运动估计和补偿4.3视频压缩标准4.4使用WindowsMovieMaker制作视频,*此视频文件来源于上海通用汽车广告,.,4.1视频压缩基础,因为视频图像的相邻帧是非常相似的,只是由于运动的存在,存在一定程度的帧差(相邻两帧的差值,体现了两帧之间的不同之处),所以在视频图像中主要存在的是时间冗余。,时间冗余视频图像中的主要冗余,.,4.2运动估计和补偿,数字视频图像的采样过程,视频场景,空间采样点阵,时间采样,.,视频场景的捕获过程,景物,捕获,数字化处理/存储/传播,显示,数字域,视频图像的编码方法的基本思想,第一帧,关键帧,采用帧内编码方法(即静态图像的编码方法)进行压缩,后续帧,只传输相邻帧之间的变化信息(帧差),帧差的传送是采用运动估计和补偿的方法进行编码。,.,运动矢量,当前帧图像中的一个小方块(称为宏块)可以在上一帧图像中找到相似的块,这两个方块之间的位移(带方向的距离),称为运动矢量。,宏块在上一帧搜索窗口内寻找匹配块,编码时,对当前帧的每一个方块进行如下操作:,在前一帧中寻找当前块的相似块;计算当前块和前一帧相似块之间的运动矢量;计算当前块和前一帧相似块之间的帧差;对运动矢量进行编码;对帧差块进行编码。,帧t,帧t+1,运动矢量,搜索窗,宏块,被搜索的宏块,最佳匹配的宏块,.,在前一帧寻找相似块时一般限制在一定的区域:,寻找相似块的操作可以分为两种类型:,全部搜索:,在限制的搜索区域内对每一个可能的块进行比较,找到最相似的块,这些寻找的速度比较慢。,快速搜索:,用较少的比较次数,找到最佳匹配块的近似块,这样搜索速度比较快。,当前块,搜索窗,.,匹配判据是判断两个宏块的相似程度,一般用下面的几种方法进行表示:,绝对差值AE:,其中:i,j分别表示宏块的横坐标和纵坐标(i=015,j=015);f(i,j)表示当前帧中的宏块的灰度值,g(i-dx,j-dy)表示参考帧中的宏块在横坐标和纵坐标的偏移量为(dx,dy)处的灰度值。,均方误差MSE:,其中:i,j分别表示宏块的横坐标和纵坐标;I,J分别表示宏块的横坐标和纵坐标的像素个数;f(i,j)表示当前帧中的宏块的灰度值,g(i-dx,j-dy)表示参考帧中的宏块在横坐标和纵坐标的偏移量为(dx,dy)处的灰度值。,平均绝对帧差MAD:,其中:i,j分别表示宏块的横坐标和纵坐标;I,J分别表示宏块的横坐标和纵坐标的像素个数;f(i,j)表示当前帧中的宏块的灰度值,g(i-dx,j-dy)表示参考帧中的宏块在横坐标和纵坐标的偏移量为(dx,dy)处的灰度值。,.,运用运动补偿技术进行预测编码的过程,在缓存中重构一个经过编解码处理的前一帧的图像,该图像称为运动估计的“参考帧”,编码端和解码端采用同样的参考帧;,.,运用运动补偿技术进行预测编码的过程,计算当前帧中的每一个方块(一般为16*16像素的宏块)和缓存中的参考帧中宏块的最佳匹配块,即进行运动估计计算。用运动矢量表明两个宏块之间的位移。例如,运动矢量(-4,5),则在当前帧的宏块向左移动4个像素,向下移动5个像素,就可以在参考帧中找到最匹配的宏块。,.,运用运动补偿技术进行预测编码的过程,通过参考帧的最佳匹配块进行运动补偿计算,得到当前帧的最相似图像(运动补偿参考帧)。,.,运用运动补偿技术进行预测编码的过程,然后当前帧和运动补偿参考帧进行差值运算(相对应的像素进行减法运算),得到运动补偿的帧差图像。,.,运用运动补偿技术进行预测编码的过程,对帧差图像进行DCT变换和量化;,.,运用运动补偿技术进行预测编码的过程,量化后的系数和运动矢量进行熵编码和传输;,.,运用运动补偿技术进行预测编码的过程,量化后的系数同时被解码,得到的帧差图像和运动补偿参考帧进行加法运算,从而得到一个新的放在缓存中的参考帧。,.,在解码端重构当前帧的过程,在解码端对运动矢量和系数进行解码;,.,在解码端重构当前帧的过程,对系数进行反量化和反变换,得到帧差图像;,.,在解码端重构当前帧的过程,对缓存中的参考帧(重构的前一帧图像)通过运动矢量进行运动补偿计算,得到运动补偿参考帧;,.,在解码端重构当前帧的过程,帧差图像和运动补偿参考帧进行加法运算,得到当前帧图像;,.,在解码端重构当前帧的过程,当前帧图像放入缓存中,作为新的参考帧。,.,4.3视频压缩标准,4.3.1H.261,输入图像格式要求:,CIF(352288)或1/4CIF(QCIF)(176144),传输速率:,P64Kbps,其中P是一个整数,取值范围是130,对应的比特率为64Kbps1.92Mbps。当P=1或2时,即传输速率为64128Kbps时,支持QCIF分辨率格式,用于每秒帧数较低的可视电话;当P6时,即传输速率大于384Kbps,支持CIF分辨率格式,用于视频会议。,H.261标准的数据结构:,.,CIF图像格式的组成,.,亮度分量与颜色分量的表示方法,H.261标准对每个宏块进行编码时,亮度分量和颜色分量所占用的比特率是不同的。,亮度分量Y是对宏块(即4个子块)进行编码,颜色分量Cr和Cb是对1个子块进行编码。即对一个1616像素的图像块,只对2个88像素的颜色块进行编码,大部分比特率用于亮度分量,因为人眼对亮度比颜色要敏感。,亮度分量与颜色分量的比值为:Y:Cr:Cb=4:1:1。,.,H.261编码方式:,采用混合编码方式,基于离散余旋变换编码(DCT)和差分脉冲编码调制(DPCM,带有运动预测)。,H.261编码要点:,采用运动补偿(MotionCompensation)的帧间预测(帧间模式),以消除视频图像的时间相关性;,对帧间预测误差(在帧内模式为原始图像)按88的方块作DCT变换以消除空间相关性;,对运动矢量则按Huffman的信息保持编码。,.,基于运动补偿的H.261标准的工作原理,相关概念:,运动预测:,运动估计时,目标帧中的每一个宏块从以前的编码的图像帧中找到最佳的匹配宏块,这个过程叫运动预测。,预测误差:,当前宏块与它匹配的宏块之间的差值,称为预测误差。,.,H.261标准的编码过程,相关解释:,电视信号输入:,由摄像机提供的复合电视信号(模拟信号),视频处理:,将输入的模拟视频信号经AD变换后成为数字信号,经过预处理,进入CIF变换器,成为统一的CIF格式图像序列,.,信源编码:,采用有失真编码,分为帧内编码和帧间编码,第一帧为帧内编码,其他帧采用向前预测的帧间编码,帧内编码,基于DCT变换的88块,主要用于第一幅画面和场景变化后的其它画面,减少了图像中的空间冗余,帧间编码,采用DCT和DPCM混合编码,减少时间冗余。,DPCM对宏块与预测值的差值进行编码,当差值某个阀值时,对差值再进行DCT变换。经量化后进入视频复合编码。,88块的视频数据经DCT变换后,产生DCT系数,DCT系数经过量化,进入视频复合编码。,.,视频多路编码器:,缓存及速率控制:,传输编码器:,采用熵编码,利用信号的统计特性进一步减少数据流(比特率)。形成的数据流由四个层次组成(图像、块组、宏块、块)。,视频编码输出的是不均匀数据流,缓存控制给信源编码反馈信号,调整量化器步长,控制数据流达到平稳。,对缓存输出的均匀图像数据流进行信道编码。,.,4.3.2H.263,输入图像格式要求:,适用范围:,适合于PSTN网络、无线网络与因特网等环境下的视频传输,.,1、H.263中的半像素运动估计,H.263采取的是混合编码技术,即用帧间预测减少时间冗余,用变换编码减少帧差信号的空间冗余,相应的编码器具有运动补偿的能力。,H.263采用树结构的运动补偿,H.263采用的是半像素精度运动估计,半像素点b是由其周围水平方向的六个整像素E、F、G、H、I和J,经下面的公式计算生成的:,.,2、H.263编码模式,.,H263四种可选编码模式:,无限制运动矢量模式,基于语法的算术编码模式,高级预测模式,PB帧模式,在这个选项模式中,运动矢量被允许指到图片的外部。边缘象素被预测为“不存在”象素。当有运动穿越图片的边界(特别是在较小的图像格式中),采用这种模式提高了运动估计的准确度。另外这种模式扩展了运动矢量的范围,所以可以使用更大的运动矢量。,在这种模式中算术编码代替了游程编码。这时的信噪比和重建图像仍和原来一样,但最终的比特数可以得到显著的降低,也就是说,在保持解码图像不变的情况下,压缩比大幅度提高。,在这个选项模式中,对P帧的亮度部分采用了块重叠运动补偿。采用这种模式可以较大改善图像质量,特别是人们对图像质量的主观评价会得到明显改善,因为块重叠运动补偿可以减小方块效应。,可以在比特率增加幅度很小的情况下,可以较大幅度地提高图像速率。,.,3、H.263+和H.263+,H.263+的特点:,允许更大范围的图像输入格式,自定义图像的尺寸,采用先进的帧内编码模式,增加了时间分级、信噪比和空间分级,以适应网络传输,片结构模式、参考帧选择模式增强了视频传输的抗误码能力,H.263+在H263+基础上增加了3个选项,主要是为了增强码流在恶劣信道上的抗误码性能,同时为了提高增强编码效率:,选项U,选项V,选项W,称为增强型参考帧选择,它能够提供增强的编码效率和信道错误再生能力(特别是在包丢失的情形下),需要设计多缓冲区用于存贮多参考帧图像。,称为数据分片,它能够提供增强型的抗误码能力(特别是在传输过程中本地数据被破坏的情况下),通过分离视频码流中DCT的系数头和运动矢量数据,采用可逆编码方式保护运动矢量。,在H263+的码流中增加补充信息,保证增强型的反向兼容性,附加信息包括:指示采用的定点IDCT、图像信息和信息类型、任意的二进制数据、文本、重复的图像头、交替的场指示、稀疏的参考帧识别。,.,4.3.3H.264,1、H.264的组成,扩展档次,基本档次,主要档次,其简单版本,应用面广。,采用了多项提高图像质量和增加压缩比的技术措施,可用于SDTV、HDTV和DVD等。,可用于各种网络的视频流传输。,.,H.264标准压缩系统由视频编码层(VideoCodinglayer,VCL)和网络提取层(NetworkAbstractionLayer,NAL)两部分组成,VCL,包括VCL编码器与VCL解码器,主要功能是视频数据压缩编码和解码,它包括运动补偿、变换编码、熵编码等压缩单元,可以传输按当前的网络情况调整的编码参数,NAL,用于为VCL提供一个与网络无关的统一接口,对视频数据进行封装打包后使其在网络中传送,它采用统一的数据格式,单字节包头信息,多字节视频数据和组帧,逻辑信道信令,定时信息,序列结束信号,包头,存储标志,类型标志,用于指示当前数据不属于被参考的帧,用于指示图像数据的类型,.,H.264标准的编码器结构,H.264标准的解码器结构,.,2、H.264的特点,多种运动估计方法,高精度运动补偿,采用1/4像素甚至1/8像素的运动估计,.,2、H.264的特点,多种运动估计方法,多宏块划分模式运动估计,一个宏块(MB)可划分成7种不同模式的尺寸,.,2、H.264的特点,多种运动估计方法,多参考帧运动估计,在编码器的缓存中存有多个刚刚编码好的参考帧,编码器从其中选择一个给出更好的编码效果的作为预测帧,并指出是哪个帧被用于预测,这样就可获得比只用上一个刚编码好的帧作为预测帧的更好的编码效果。,.,2、H.264的特点,小尺寸44的整数变换,使用了基于44像素块的类似于DCT的变换,由于变换块的尺寸变小了,运动物体的划分就更为精确。对帧内宏块亮度数据的16个44块的DCT系数进行第二次44块的变换,对色度数据的4个44块的DC系数(每个小块一个,共4个DC系数)进行22块的变换。,更精确的帧内预测,每个44块中的每个像素都可用最接近先前已编码的像素的不同加权和来进行帧内预测。,.,2、H.264的特点,增强的熵编码方法,H.264中关于熵编码有两种方法:通用可变长编码和基于文本的自适应二进制算术编码,通用可变长编码,使用一个相同的码表进行编码,而解码器很容易识别码字的前缀,在发生比特错误时能快速获得重同步。,算术编码,使编码和解码两边都能使用所有句法元素(变换系数、运动矢量)的概率模型。为了提高算术编码的效率,通过内容建模的过程,使基本概率模型能适应随视频帧而改变的统计特性。内容建模提供了编码符号的条件概率估计,利用合适的内容模型,存在于符号间的相关性可以通过选择目前要编码符号邻近的已编码符号的相应概率模型来去除,不同的句法元素通常保持不同的模型。,.,2、H.264的特点,量化,H.264中可选52种不同的量化步长,步长是以12.5%递增的,而不是一个固定常数。,Yij是宏块进行DCT变换后的系数;Qstep是量化步长;Zij是量化后的系数,编解码器的量化步长,.,3、H.264的应用,视频会议系统,在同等速率下,H.264能够比H.263减小50%的码率。也就是说,用户即使是只利用384kbit/s的带宽,就可以享受H.263下高达768kbit/s的高质量视频服务。,IPTV应用,可以在500Kbps-900Kbps的带宽上提供DVD质量的视频节目。,视频实时通信,数字广播电视,视频存储,.,4.3.4MPEG-1,MPEG-1视频把图像编码分成I帧、P帧和B帧三种类型,I帧为帧内编码帧(IntracodedFrame),编码时采用类似JPEG的帧内DCT编码,I帧的压缩率是几种编码类型中最低的。,.,4.3.4MPEG-1,MPEG-1视频把图像编码分成I帧、P帧和B帧三种类型,P帧为预测编码帧(PredictivelyCodedFrame),采用向前运动补偿预测和误差的DCT编码,由前面的I或P帧进行预测。,.,4.3.4MPEG-1,MPEG-1视频把图像编码分成I帧、P帧和B帧三种类型,B帧为双向预测编码帧(BidirectionallyPredictivelyCodedFrame)采用双向运动补偿预测和误差的DCT编码,由前面和后面的I帧或P帧进行预测,所以B帧的压缩效率最高。,.,1、MPEG-1视频流的数据结构,由I帧和一些P帧、B帧组成,第一帧一定为I帧,主要编码单元,由亮度信号Y和色度信号U,V组成,以4:2:0格式正交扫描,再按由上到下,由左到右原则顺序划分成连续的宏块,图像编码的基本单元,运动补偿、量化等均在宏块上进行,.,2、MPEG-1视频编码原理,MPEG-1系统,MPEG-1视频,MPEG-1音频,MPEG-1一致性测试,MPEG-1软件模拟,规定电视图像数据、声音数据及其他相关数据的同步,对音频和视频进行复合编码;,规定视频数据的编码和解码;,规定声音数据的编码和解码;,详细说明如何测试解码器或编码器的输出比特数据流是否满足MPEG-1前3个部分中所规定的要求;,一个用完整的C语言实现的编码和解码器。,.,MPEG-1视频编码的原理框图,.,MPEG-1视频编码过程,对输入的数字视频图像进行预处理,即将RGB颜色模式转换为YCbCr或CMYK颜色模式;,.,MPEG-1视频编码过程,根据图像的运动信息进行生新排序,选择I,P,B帧编码模式;,.,MPEG-1视频编码过程,产生宏块的运动补偿预测值,将当前宏块的实际数据减去预测值得到预测误差信号;,.,MPEG-1视频编码过程,将该宏块的预测误差分成88块,作DCT变换,其中亮度与颜色的比例为4:2;,.,MPEG-1视频编码过程,对该宏块信息和DCT量化系数进行编码,对DCT变换的直流系数(DC)进行DPCM编码,交流系统(AC)进行RLE编码,然后对编码系数进行霍夫曼或算术编码等熵编码;,.,MPEG-1视频编码过程,重构I图像和P图像作为参考帧图像;,.,MPEG-1视频编码过程,传输编码比特流。,.,3、MPEG-1中的运动补偿,双向预测图像(B帧),帧内图像(I帧),预测图像(P帧),.,3、MPEG-1中的运动补偿,双向预测图像(B帧),帧内图像(I帧),预测图像(P帧),.,P帧移动矢量的算法框图,.,3、MPEG-1中的运动补偿,双向预测图像(B帧),帧内图像(I帧),预测图像(P帧),.,需要双向预测的情况,基于B帧的运动补偿编码方法,除了向前预测,也采用向后预测,即在运动序列图像中的将来的I帧或P帧中寻找匹配的宏块,B帧中的每一个宏块将被指定两个运动矢量,一个是向前预测,另一个是从向后预测得到的。,两个运动矢量取平均值,再与当前宏块相减,计算出预测误差。,如果只能从向前和向后的参考帧中的一个找到最佳匹配,则只生成一个运动矢量,相应的宏块只采用向前或向后预测。,B帧双向预测的特点,.,基于双向运动补偿的B帧编码方法,.,因为采用双向预测,所以MPEG-1的编解码器在没有I帧或P帧的情况下无法对B帧进行编解码。这样就需要一些帧的缓冲,不可避免地造成一定程度的延迟,故有以下缺点:,不适合在实时的网络中传输,特别是进行流式传输,图像的传输次序和显示次序有可能不同,.,4、MPEG-1的应用,MPEG-1可适用于不同格式的设备,如CD-ROM、Video-CD、CD-i。它的目的是把221Mbit/s的视频图像压缩到1.2Mbit/s,压缩率为200:1。,MPEG-1是图像压缩的工业认可标准,它可针对CIF标准分辨率的图像进行压缩,每秒播放30帧,具有CD音质,质量级别基本与广播级录像带相当。,应用MPEG-1技术最成功的产品是VCD,MPEG1也被用于数字电话网络上的视频传输,如非对称数字用户线路(ADSL)、视频点播(VOD)和教育网络等。,.,4.3.5MPEG-2,MPEG-2的目标与MPEG-1相同,仍然是提高压缩比,改善音频、视频质量,采用的核心技术还是分块DCT和帧间运动补偿预测技术。,1、MPEG-2的特点,针对隔行扫描的常规电视专门设置了“按帧编码”和“按场编码”两种模式,并相应地对运动补偿和DCT方法进行了扩展,从而显著提高了压缩编码效率。,考虑到标准的通用性,增大了重要的参数值,允许有更大的画面格式、比特率和运动矢量长度,输入/输出图像格式不限定。,亮度分量和色度分量的比例可由原来的Y:U:V=4:1:1扩展到4:2:2或4:4:4,每个像素由8比特可扩展到10比特;,可以直接对隔行扫描视频信号进行处理;,增加码流结构的可分级性(Scalability);,输出码率可以是恒定的也可以是变化的,以适应同步和异步传输。,.,MPEG-2在MPEG-1的基础之上扩充了“可伸缩性”和“可分级性”两个概念,可伸缩性,可分级性,指的是对码流的一部分进行编码和对码流的全部解码获得的图像分辨率(或信噪比等)要低,也即把编码的MPEG-2码流分成不同的子集,而译码器译码不同的子集组合可获得不同的图像质量。,MPEG-2所支持的可伸缩的视频编码方式共有时间、空间、信噪比及数据分割等四种。,指在MPEG2中用范畴(Profile)以及层次两个定义来描述不同的编码参数集。,范畴是前一个的合集,层次则规定了空间和时间分辨率的上限。,.,MPEG-2在不同分辨率等级下的码率,.,2、MPEG-2的应用,MPEG-2标准主要应用在广播电视领域,视音频资料的保存,电视节目、音像资料等可通过MPEG-2编码系统编码,保存到低成本的CD-R光盘或高容量的可擦写DVD-RAM上,也可利用DVD编著软件制作成标准的DVD视盘,既可节约开支,也可节省存放空间。,电视节目的非线性编辑系统及其网络,MPEG-2采用帧间压缩的方式,只需进行I帧的帧内压缩处理,B帧和P帧通过侦测获得,因此,传输和运算的数据大多由帧之间的时间相关性得到,相对来说,数据量小,可以实现较高的压缩比。,卫星传输,电视节目的播出,.,4.3.6MPEG-4,MPEG-4不再将视频图像看成是一个矩形像素阵列的序列,把音频看成是一个多声道或单声道的声音,而是根据组成场景的视频、音频对象的语义,对不同的主体采用不同的编码方式。,例如把一幅图像中的教师、讲台、黑板和声音分别作为不同的视频和音频对象进行编码。各种视、音频对象源不限于自然界,也可以是合成源,最终在解码端进行组合。,基于内容的压缩,MPEG-4重要特点:,更高的压缩比,时空可伸缩性,.,MPEG-4的视频和音频对象,.,1、MPEG-4标准的主要功能和特点,主要功能:,极低码率视频编码(VLBV,VeryLowBitRateVideo)核心,为码率在5-64kbps范围内的视频操作与应用提供算法与工具,支持较低的空间分辨率(低于352X288像素)和较低的帧频(低于15帧/秒)。VLBV核心支持的专用功能包括:矩形图像序列的有效编码、多媒体数据库的搜索和随机存取。,高码率视频编码(HBV,HighBitRateVideo),同样支持上述功能,其码率范围在64kbps10Mbbps之间支持更高的空间与时间分辨率,允许传输和存储适用于演播室的高质量视频信号其输入可以是ITU-RRec.601的标准信号,典型应用为数字电视广播与交互式检索,.,MPEG-4标准的特点:,基于内容的交互性,MPEG-4提供了基于内容的多媒体数据访问工具,如索引、超级链接、上下载、删除等。,高效的压缩性,MPEG-4基于更高的编码效率。同已有的其它标准相比,在相同的比特率下,它基于更高的视觉听觉质量,这就使得在低带宽的信道上传送视频、音频成为可能。,通用的访问性,提供了易出错环境的鲁棒性支持基于内容的的可分级性支持具有不同带宽,不同存储容量的传输信道和接收端。,.,2、基于对象的视频编码,MPEG-4的编码理念是:在编码时将一幅景物分成若干在时间和空间上相互联系的视频和音频对象,分别编码后,再经过复用传输到接收端,然后再对不同的对象分别解码,从而组合成所需要的视频和音频。,.,MPEG-4视频中的类分层结构,MPEG-4采用现代图像编码方法,支持基于视觉内容的交互功能,为此MPEG-4引人了视频对象面VOP(VideoObjectPlane)的概念。,根据人眼感兴趣的一些特性如形状、运动、纹理等,将图像序列中每一帧中的场景,看成是由不同视频对象面VOP所组成,而同一对象连续的VOP称为视频对象(VO,VideoObject)。对于输入的视频序列,通过分析可将其分割为n个VO(n=1,2,3),对同一VO编码后形成VOP数据流。,.,MPEG-4标准的编码方法主要包括如下几个方面:,1、基于VOP的视频编码,编码器由两个主要部分组成:形状编码和纹理、运动信息编码。,编码器可对图像序列中具有任意形状的VOP进行编码。,编码器内的机制都是基于1616像素宏块(Macroblock)来设计的,VOP被限定在一个矩形窗口内,称之为VOP窗口(VOPWindow),窗口的长、宽均为16的整数倍,同时保证VOP窗口中非VOP的宏块数目最少。,这不仅是出于与现有标准在兼容问题上的考虑,而且是为了便于对编码器进行更好的扩展。,标准的矩形帧可认为是VOP的特例,在编码过程中其形状编码模块可以被屏蔽。系统依据不同的应用场合,对各种形状的VOP输入序列采用固定的或可变的帧频。,.,2、形状编码,MPEG-4标准的编码方法主要包括如下几个方面:,VO的形状信息有两类:二值形状信息和灰度形状信息。,二值形状信息,用0、1来表示VOP的形状,0表示非VOP区域,1表示VOP区域。,编码采用基于运动补偿块的技术,可以是无损或有损编码。,灰度形状信息,用0255之间的数值来表示VOP的透明程度,其中0表示完全透明(相当于二值形状信息中的0),255表示完全不透明(相当于二值形状信息中的1)。,编码采用基于块的运动补偿DCT方法,属于有损编码。,.,3、运动信息编码,MPEG-4标准的编码方法主要包括如下几个方面:,MPEG-4采用运动预测和运动补偿技术来去除图像信息中的时间冗余成分,而这些运动信息的编码技术可视为现有标准向任意形状的VOP的延伸。,VOP的编码有3种模式,即帧内(Intra-frame)编码模式(I-VOP),帧间(Inter-frame)预测编码模式(P-VOP),帧间双向(Bidirectionally)预测编码模式(B-VOP)。,在MPEG-4中运动预测和运动补偿可以是基于1616像素宏块的,也可以是基于88像素块的。,为了能适应任意形状的VOP,MPEG-4引入了图像填充(ImagePadding)技术和多边形匹配(PolygonMatching)技术。,.,4、纹理编码,MPEG-4标准的编码方法主要包括如下几个方面:,纹理编码的对象可以是帧内编码模式的I-VOP,也可以是帧间编码模式B-VOP或P-VOP运动补偿后的预测误差。,编码方法基本上仍采用基于88像素块的DCT方法。,对于部分在VOP内,部分在VOP外的像素块则首先采用图像填充技术来获取VOP之外的像素值,之后再进行DCT编码。,在帧内编码模式中,对于完全位于VOP内的像素块,则采用经典的DCT方法;,对于完全位于VOP之外的像素块则不进行编码;,.,5、分级编码,MPEG-4标准的编码方法主要包括如下几个方面:,每一种分级编码都至少有2层VOL,低层称为基本层,高层称为增强层。,空间伸缩性可通过增强层强化基本层的空间分辨率来实现,因此在对增强层中的VOP进行编码之前,必须先对基本层中相应的VOP进行编码。,对于时域伸缩性,可通过增强层来增加视频序列中某个VO(特别是运动的VO)的帧率,使其与其余区域相比更为平滑。,.,6、Sprite视频编码技术,MPEG-4标准的编码方法主要包括如下几个方面:,Sprite又称镶嵌图或背景全景图,是指一个视频对象在视频序列中所有出现部分经拼接而成的一幅图像。,利用Sprite可以直接重构该视频对象或对其进行预测补偿编码。,Sprite视频编码可视为一种更为先进的运动估计和补偿技术,它能够克服基于固定分块的传统运动估计和补偿技术的不足,.,3、MPEG-4中的人脸运动参数,MPEG-4定义的中性人脸上的特征点,.,MPEG-4详细定义了人脸定义参数与人脸动画参数,其中人脸定义参数确定人脸形状、大小及纹理等信息,而人脸动画参数定义人脸的表情,人脸定义参数FDP(FacialDefinitionParameter)包括校准基准人脸模型的特征点、人脸纹理与纹理的映射坐标、动画表等信息。,人脸运动参数FAP(FacialAnimationParameter)是动画参数流,用于改变人脸特征点的位移与角度,并控制讲话时运动基元(最小可视运动)及人脸表情的合成(通过改变关键特征控制点的位置实现)。,所有FAP参数都使用人脸动画参数单元(FAPU)来表示,以保证同一组FAP适用于任意人脸模型。,人脸动画参数单元(FAPU)根据FDP中部分关键特征点的相对位置关系得出,而FAP参数则根据特征点相对FAPU的位置计算。,MPEG-4在中性人脸上定义84个特征点,MPEG-4根据人脸各部分定义了10组共68个参数。,.,4、MPEG-4标准的应用,数字电视、动态图像,万维网(WWW),远程多媒体监控,基于内容存储和检索的多媒体系统,互联网上的视频流与交互式视频游戏,基于面部表情模拟的虚拟会议,DVD上的交互多媒体应用,基于计算机网络的可视化合作实验室场景应用,监控,演播室技术及电视后期制作,.,4.3.7MPEG-7,1、MPEG-7标准的目标和对象,MPEG-7标准的应用场合,MPEG-7标准的目的是要制定一种针对各类多媒体信息的描述标准。该描述与内容有关,并能够达到快速高效地搜索用户感兴趣的素材。,.,对MPEG-7而言,需要描述的各种多媒体信息素材包括:静止图片、图形、声音、运动图像,以及有关这些元素如何组合成多媒体表述的组合信息。换而言之,MPEG-7定义的“多媒体”含义十分广泛,包括:,客观类,图像、图表、文本、三维模型、音频、语音、视频等。,主观类,对对象/事件的概括、人的感性色彩等。,合成类,各种元素之间的有机结合以构成一个真正意义上的多媒体演示。如人的面部表情、性格特征、以至一段电影的主题都是MPEG-7中的数据类型之一。,.,2、MPEG-7标准的范围和组成,MPEG-7标准化的范围包括:,一种或多种编码描述方法。,一系列的描述子(描述子是特征的表示法,一个描述子就是定义特征的语法和语义学);,一系列的描述结构(详细说明成员之间的结构和语义);,一种详细说明描述结构的语言、描述定义语言;,.,MPEG-7标准的使用过程,.,MPEG-7由以下几部分组成:,MPEG-7系统:它保证mpeg-7描述有效传输和存储所必须的工具,并确保内容与描述之间进行同步,这些工具有管理和保护的智能特性;,MPEG-7描述定义语言:用来定义描述MPEG-7工具的语法和新的描述结构的语言;描述定义语言可以创建新的描述方案和描述子,也可以扩展或修改现有的描述方案。,MPEG-7音频:只涉及音频描述的描述子和描述结构;,MPEG-7视频:只涉及视频描述的描述子和描述结构;,MPEG-7多媒体描述结构:是处理一般特征和多媒体描述的工具;,MPEG-7参考软件:实现MPEG-7标准相关部分的软件;,MPEG-7一致性测试:MPEG-7执行一致性测试的指导方针和程序;,MPEG-7描述的提取和使用:关于提取和使用部分描述工具的信息材料(以技术报告的形式存在);,MPEG-7配置和级别:提出指导方针和标准配置;,MPEG-7结构定义:指定使用描述定义语言的结构,.,3、MPEG-7标准的特点,多媒体内容交换,因为MPEG-7提出采用一种单一的可交互操作的交换格式,这样交换格式独立于任何系统和信息提供商,这样多媒体内容描述的互换就可以实现。,个性化窗口,MPEG-7标准提供的检索和交换视频音频数据的结构和语义注解能力,原则上,任何类型的视听材料都可以通过任何类型的查询材料来检索,例如,视听材料可以通过视频、音乐、语言等来查询,通过搜索引擎来匹
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 数学苏教七年级下册期末解答题压轴模拟真题真题(比较难)答案
- 沪教版生活中常见的盐单元达标综合模拟测评学能测试试题
- (完整版)数学初中苏教七年级下册期末模拟真题试卷经典套题答案
- 英语小学五年级上册期末提高试题测试卷(附答案解析)
- (英语)高一英语完形填空夹叙夹议的基本方法技巧及练习题及练习题(含答案)含解析
- (完整版)数学苏教六年级下册期末测试模拟真题答案
- 2025年土建质量员资质考试实战试卷C含答案详解
- 2025年设备监理师之质量投资进度控制综合检测试卷A卷含答案
- 初级会计电算化考试练习题及答案
- 2025机械制造工艺数字化试题及答案
- 保障农民工工资课件
- 人脸采集管理办法
- 壶腹部肿瘤的治疗及护理
- 感术行动培训课件
- 桥梁施工安全会议记录
- 乡村旅游环境卫生培训
- 六级英语试题库电子版及答案
- 2025年工程机械行业发展研究报告
- (二模)2025年5月济南市高三高考针对性训练英语试卷(含答案解析)
- 智慧燃气解决方案
- 抖音来客本地生活服务丽人美容美体商家短视频拍摄创作运营方案
评论
0/150
提交评论