MPEG视频压缩编码重点技术详解

上传人：灯*** IP属地：河北上传时间：2026-03-26 格式：PDF 页数：11 大小：2.66MB 积分：7.19 举报 版权申诉

已阅读5页，还剩6页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

MPEG4视频压缩编码技术详解

MPEG全称是MovingPicturesExpertsGroup,它是"动态图象专家组"的英文缩写，该专

家构成立于1988年，致力于运动图像及其伴音的压缩编码原则化工作，原先她们打算开发

MPEG1、MPEG2、MPEG3和MPEG4四个版木，以合用于不同带宽和数字影像质量口勺规定。

目前，MPEG1技术被广泛口勺应用于VCD,而MPEG2原处则用于广播电视和DVD等。

MPEG3最初是为HDTV开发的编码和压缩原则.但由于MPFG2H勺杰出性能体现.MPEG3

只能是死于襁褓了。而我们今天要谈论的主角--MPEG4于1999年初正式成为国际原则。它

是一种合用于低传播速率应用的方案。与MPEG1和MPEG2相比，MPEG4更加注重多媒

体系统的交互性和灵活性。下面就让我们一起进入多彩的MPEG4世界。

MPEG4的技术特点

MPEG1、MPEG2技术当忖制定期，它们定位的原则均为高层媒体表达与构造，但随着

计算机软件及网络技术的迅速发展，MPEG1.MPEG2技术的弊端就显示出来了：交互性及

灵活性较低，压缩H勺多媒体文献体积过于庞大，难以实现网络的实时传播。而MPEG4技术

的原则是对运动图像中的内容进行编码，其具体的编码对象就是图像中的J音频和视频，术语

称为“AV对象"，而持续WJAV对•象组合在一起又可以形成AV汤景。因此，MPEG4原则就

是环绕着AV对象的编码、存储、传播和组合而制定的，高效率地编码、组织、存储、传

播AV对象是MPEG4原则的J基本内容。

在视频编码方而，MPEG4支持对自然和合成日勺视觉对象的编码。（合成日勺视觉对象涉及

2D、3D动画和人面部表情动画等）。在音频编码上，MPEG4可以在一组编码工具支持下，

对语音、音乐等自然声音对象和具有回响、空间方位感的合成声音对象进行音频编码。

由于MPEG4只解决图像帧与帧之间有差别的元素，而舍弃相似的元素，因此大大减少了合

成多媒体文献的体积。应用MPEG4技术的影音文献最明显特点就是压缩率高且成像清晰，

一般来说，一小时的影像可以被压缩为350M左右的数据，而一部高清晰度的DVD电影，可

以压缩成两张甚至一张650MCD光碟来存储。对广大的“平民"il•算机顾客来说，这就意味

着，您不需要购买DVD-ROM就可以欣赏近似DVD质量的高品质影像。并且采用MPEG4

编码技术的影片，对机器硬件配备的规定非常之低，300MHZ以上CPU,64M的内存和一

种8M显存的显卡就可以流畅的播放。在播放软件方面，它规定也非常宽松，你只需要安

装一种500K左右的MPEG4编码驱动后，用WINDOWS自带的媒体播放器就可以流畅

的播放了(下面我们会具体讲到)。

视频编码研究与MPEG原则演进

人类获取的信息中70%来自于视觉,视频信息在多媒体信息中占有重要地位：同步视频数

据冗余度最大，经压缩解决后的视频质量高下是决定多媒体服务质量的核心因素。因此数字

视频技术是多媒体应用的核心技术，对视频编码的研究已成为信息技术领域日勺热门话题。

视频编码的研究课题重要有数据压缩比、压缩/解压速度及迅速实现算法三方面内容。以压

缩/解压后数据与压缩前原始数据与否完全一致作为衡量原则，可将数据压缩划分为无失真

压缩(即可逆压缩)和有失真压缩(即不可逆压缩)两类。

老式压缩编码建立在仙农信息论基本之.上的，以典型集合论为工具，用概率记录模型来

描述信源，其压缩思想基于数据记录，因此只能清除数据冗余，属于低层压缩编码H勺范畴。

随着着视频编码有关学科及新兴学科的迅速发展，新一代数据压缩技术不断诞生并日益成

熟，其编码思想由基于像素和像素块转变为基于内容(content-based)0它突破了仙农信

息论框架的束缚，充足考虑了人眼视觉特性及信源特性，通过清除内容冗余来实现数据压缩,

口「分为基干对象(object-basec)和基干语义(semantics-based)两种，前者属干中层压缩编

码，后者属于高层压缩编码。

与此同步，视频编码有关原则的制定也日臻完善。视频编码原则重要由ITU-T和ISO/IEC

开发。ITU-T发布H勺视频原则有H.261、H.262、H.263、H.263+、H.263++,ISO/IEC发

布的MPEG系列原则有MPEG-l、MPEG-2、MPEG-4和MPEG-7,并且筹划发布MPEG-21.

MPEG即MovingPictureExpertGroup(运动图像专家组)，它是专门从事制定多媒体视

音频压缩编码原则的国际组织。MPEG系列原则已成为国际上影响最大的多媒体技术原则，

其中MPEG-1和MPEG-2是采用以仙农信息论为基本的预测编码、变换编码、熠编码及运

动补偿等第一代数据压缩编码技术；N4PEG-4(ISO/IEC14496)则是基于第二代压缩编码技

术制定的国际原则，它以视听媒体对象为基本单元，采用基于内容的压缩编码，以实现数字

视音频、图形合成应用及交互式多媒体的集成。MPEG系列原则对VCD、DVD等视听消费

电子及数字电视和高清晰度电视(DTV&&HDTV)、多媒体通信等信息产业的发展产生了巨

大而深远的影响。

MPEG-4视频编码核心思想及核心技术

核心思想

在MPEG-4制定之前，MPEG-I、MPEG-2、H.261、H.263都是采用第一代压缩编码技术，

着眼于图像信号的记录特性来设计编码器，属于波形编码的范畤。第一代压缩编码方案把视

频序列准时间先后分为一系列帧，每一帧图像又提成宏块以进行运动补偿和编码，这种编码

方案存在如下缺陷：

•将图像固定地提成相似大小的块，在高压缩比的状况下会浮现严重H勺块效应，即马赛克

效应：

•不能对图像内容进行访问、编辑和【可放等*作；

,未充足运用人类视觉系统(HVS,HumanVisualSystem)的特性。

MPEG-4则代表了基于模型/对象口勺第二代压缩编码技术，它充足运用了人眼视觉特性，

抓住了图像信息传播口勺本质，从轮廓、纹理思路出发，支持基于视觉内容口勺交互功能，这适

应了多媒体信息的应用由播放型转向基于内容的访问、检索及X作的发展趋势。

AV对象(AVO,AudioVisualObject)是MPEG-4为支持基于内容编码而提出的重耍概念。

对象是指在一种场景中可以访问和率纵的实体，对象的划分可根据其独特H勺纹理、运动、形

状、模型和高层语义为根据。在MPEG-4中所见H勺视音频已不再是过去MPEG-1、MPEG-2

中图像帧的概念，而是一种个视听场景(AV场景)，这些不同的AV场景由不同的AV对象

构成。AV对象是听觉、视觉、或者视听内容口勺表达单元，其基本单位是原始AV对象，它

可以是自然H勺或合成口勺声音、图像。原始AV对象具有高效编码、高效存储与传播以及可交

互*作H勺特性，它又可进一步构成复合AV对象。因此MPEG-4原则的基本内容就是对AV

对象进行高效编码、组织、存储与传播。AV对象的提出，使多媒体通信具有高度交互及高

效编码的能力，AV对象编码就是MPEG-4H勺核心编码技术。

MPEG-4不仅可提供高压缩率，同步也可实现更好的多媒体内容互动性及全方位的存取

性，它采用开放口勺编码系统，可随时加入新的编码算法模块，同步也可根据不同应用需求现

场配备解码器，以支持多种多媒体应用。

MPF.G-4采用了新一代视频编码技术,它在视频编码发屐史卜第一次把编码对象从图

像帧拓展到具有实际意义的任意形状视频对象，从而实现了从基于像素的老式编码向基于对

象和内容的现代编码的转变，因而引领着新一代智能图像编码的发展潮流。

核心技术

MPEG-4除采用第一代视频编码的核心技术，如变换编码、运动估计与运动补偿、量化、场

编码外，还提出了某些新口勺有创见性的核心技术，并在第一代视频编码技术基本上进行了卓

有成效的完善和改善。下而重点简介其中的某些核心技术。

A.视频对象提取技术

MPEG-4实现基丁内容交互的首要任务就是把视频/图像分割成不同对象或者把运动对象从

背景中分离出来，然后针对不同对象采用相应编码措施，以实现高效压缩。因此视频对象提

取即视频对象分割，是MPEG-4视频编码口勺核心技术，也是新一代视频编码的研究热点和

难点。

视频对象分割波及对视频内容的分析和理解，这与人工智能、图像理解、模式辨认和神经网

络等学科有密切联系。目前人工智能H勺发展还不够完善，计算机还不具有观测、辨认、理解

图像H勺能力：同步有关计算机视觉的研究也表白要实现对的H勺图像分割需要在更高层次上对

视频内容进行理解。因此，尽管MPEG-4框架已经制定，但至今仍没有通用的有效措施去

主线解决视频对象分割问题，视频对象分割被觉得是一种具有挑战性的难题，基于语义的分

割则更加困难。

目迈进行视频对象分割的一般环伺是：先对原始视频/图像数据进行简化以利于分割，

这可通过低通滤波、中值滤波、形态滤波来完毕：然后对视频/图像数据进行特性提取，可

以是颜色、纹理、运动、帧差、位移帧差乃至语义等特性；再基于某种均匀性原则来拟定分

割决策，根据所提取特性将视频数据归类；最后是进行有关后解决，以实现滤除噪声及精确

提取边界。

在视频分割中基于数学形态理论口勺分水岭(watershed)算法被广泛使用，它又称水线

算法，其基本过程是持续腐蚀二值图像，由图像简化、标记提取、决策、后解决四个阶段构

成.分水岭算法具有运算简朴、性能优良,可以较好提取运动对象轮廓、精确得到运动物体

边沿H勺长处。但分割时需要梯度信息，对噪声较敏感，且未运用帧间信息，一般会产生图像

过度分割。

B.VOP视频编码技术

视频对象平面(VOP,VideoObjectPlane)是视频对象(V0)在某一时刻的采样，VOP

是MPEG-4视频编码的核心概念。MPEG-4在编码过程中针对不同VO采用不同口勺编码方

略，即对前景VO的压缩编码尽量保存细方和平滑：对背景V0则采用高压缩率的编码方略，

甚至不予传播而在解码端由其她背景拼接而成。这种基于对象的视频编码不仅克服了第一代

视频编码中高压缩率编码所产生的方块效应，并且使顾客可与场景交互，从而既提高了压缩

比，又实现了基于内容的交互，为视频编码提供了广阔的发展空间。

MPEG-4支持任意形状图像与视频口勺编解码。对于■任意形状视频对象。对于极低比特率实时

应用,如可视电话、会议电视,MPEG-4则采用VLBV(VeryLowBit-rateVideo,极低比特

率视频)核进行编码。

老式的矩形图在MPEG-4中被看作是V0的一种特例，这正体现了老式编码与基于内

容编码在MPEG-4中H勺统一。V0概念的引入，更加符合人脑对视觉信息的解决方式，并使

视频信号的解决方式从数字化进展到智能化，从而提高了视频信号的交互性和灵活性，使得

更广泛的视频应用及更多的内容交互成为也许。因此VOP视频编码技术被誉为视频信号解

决技术从数字化进入智能化的初步摸索。

C.视频编码可分级性技大

随着因特网'也务H勺巨大增长，在速率起伏很大的IP(InlemelProlocol)网络及具有不同

传播特性的异构网络上进行视频传播的规定和应用越来越多。在这种背景下，视频分级编码

的重要性日益突出，其应用非常广泛，且具有很高的理论研究及实际应用价值，因此受到人

们的极大关注。

视频编码的可分级性(scalability)是指码率的可调节性，即视频数据只压缩一次，却

能以多种帧率、空间辨别率或视频质量进行解码，从而可支持多种类型顾客口勺多种不同应用

规定c

MPEG-4通过视频对象层(VOL,VideoObjectLayer)数据构造来实现分级编码。MPEG-4

提供了两种基本分级工具,即时域分级(TemporalScalability)和空域分级(Spatial

Scalability),此外还支持时域和空域的混合分级。每一-种分级编码都至少有两层VOL,低

层称为基本层，高层称为增强层。基本层提供了视频序列的基本信息，增强层提供了视频序

列更高的辨别率和细节。

在随后增补时视频流应用框架中，MPEG-4提出了FGS(FineGranularityScalable,精

细可伸缩性)视频编码算法以及PFGS(ProgressiveFineGranularityScalable,渐进精细可伸

缩性)视频编码算法。

FGS编码实现简朴，可在编码速率、显示辨别率、内容、解码复朵度等方面提供灵活

的自适应和可扩展性，且具有很强的带宽自适应能力和抗误码性能。但还存在编码效率低于

非可扩展编码及接受端视频质量非最优两个局限性。

PFGS则是为改善FGS编码效率而提出的视频编码算法，其基本思想是在增强层图像编

码时使用前一帧重建H勺某个增强层图像为参照进行运动补偿，以使运动补偿更加有效，从而

提高编码效率。

D.运动估计与运动补偿技术

MPEG-4采用I-VOP、P-VOP、B-VOP三种帧格式来表征不同日勺运动补偿类型。它采用

\H.263中的半像素搜索(halfpixelsearching)技术和重叠运动补偿(overlappedmotion

compensation)技术，同步又引入反复填充(repetitivepadding)技术和修改的块(多边形)

匹配(modifiedblock(polygon)matching)技术以支持任意形状性)VOP区域。

此外，为提高运动估计算法精度，MPEG-4采用了MVFAST(MotionVectorField

AdaptiveSearchTechnique)和改善的PMVFAST(PredictiveMVFAST)措施用于运动估计。

对于全局运动估计，则采用了基于特性的迅速顽健的FFRGMET(Feature-basedFastand

RobustGlobalMotionEstimationTechnique)措施。

在MPEG-4视频编码中，运动估计相称耗时，对编码的实时性影响很大。因此这里特别强

调迅速算法.运动估计措施重要有像素递归法和块匹配法两大类,前者兔杂度很高.实际中

应用较少，后者则在H.263和MPEG中广泛采用。在块匹配法中，羽点研究块匹配准则及

搜索措施。目前有三种常用日勺匹配准则：

(1)绝对误差和(SAD,SumofAbsoluteDifference)准则：

(2)均方误差(MSE,MeanSquareError)准则：

(3)归一化互有关函数(NCCF,NormalizedCrossCorrelationFunction)准则。

在上述三种准则中，SAD准则具有不需乘法运算、实现简朴以便H勺长处而使用最多，

但应清晰匹配准则的选用对匹配成果影响不大。

在选用匹配准则后就应进行寻找最优匹配点的搜索工作。最简朴、最可靠的措施是全搜索法

(FS,FullSearch),但计算量太大，不便于实时实现。因此迅速搜索法应运而生，重要有交

叉搜索法、二维对数法和钻石搜索法，其中钻石搜索法被MPEG-4校验模型(VM,

VerificationModel)所采纳，下.面具体简介。

钻石搜索(DS,DiamondSearch)法以搜索模板形状而得名，具有简朴、鲁棒、高效的特点，

是既有性能最优的迅速搜索算法之一。其基本思想是运用搜索模板H勺形状和大小对运动估计

凫法速度及精度产生重要影响H勺特性。在搜索最优匹配点时，选择小H勺搜索模板也许会陷入

局部最优，选择大的搜索模板则也许无法找到最长处。因此DS算法针对视频图像中运动矢

量的基本规律，选用了两种形状大小的搜索模板。

,大钻石搜索模板(LDSP,LargeDiamondSearchPattern),涉及9个候选位置；

,小钻石搜索模板(SDSP,SmallDiamondSearchPaltem),涉及5个候选位置。

DS算法搜索过程如下：开始阶段先反复使用大钻石搜索模板，直到最佳匹配块落在大

钻石中心。由于LDSP步长大.因而搜索范畴广，可实现粗定位，使搜索不会陷于局部最小，

当粗定位结束后，可觉得最长处就在LDSP周边8个点所围菱形区域中。然后再使用小钻

石搜索模板来实现最佳匹配块的精拟定位，以不产生较大起伏，从而提高运动估计精度。

此外Sprite视频编码技术也在MPEG-4中应用广泛，作为其核心技术之一。Sprite又称镶嵌

图或背景全景图，是指一种视频对象在视频序列中所有浮现部分经拼接而成的一幅图像。运

用Sprite可以直接重构该视频对象或对其进行预测补偿编码-

Sprite视频编码可视为一种更为先进的运动估计和补偿技术，它可以克服基于固定分块

的老式运动估计和补偿技术日勺局限性，MPEG-4正是采用了将老式分块编码技术与Sprite编

码技术相结合的方略。

MPEG4的应用领域

凭借着杰出的性能，MPEG4技术目前在多媒体传播、多媒体存储等领域得到了广泛的

应用，下面我们就来看看目前在那些领域MPEG4技术得到了大显伸手的机会。

1、精彩口勺视频世界

精彩口勺视频世界是MPEG4技术应用最多也是最为广大朋友所熟悉的的形式。目前它重要以

两种形式浮现，一种是DIVX-MPEG4影碟（国内市面上已浮现，且D版居多），另一种是

网上MPEG4电影。

（1）、我们先来说说DIVX-MPEG4影碟，DIVX视频编码技术事实上就是MPEG4压缩

技术，它由微软MPEG4V3修改而来，使用的是MPEG4压缩算法，并同步分离视频和音频。

它的核心部分便是由DivX对DVD音视频进行压缩，生成Mpeg4视频格式文献（也就是AVI

格式）。

小提示：笔者也是常常被朋友所问到："我看到的MPEG4电影片段明明是avi（扩展名）格

式文献，并且Windows的媒休播放器也与之关联，但就是无法播放"。其实，MPEG4并没

有拟定必须用什么扩展名，它只是一种编码措施而已。使用avi作为扩展名，是一种习惯性

的沿用。

在计算机上播放MPEG4影音文献的措施目前有两种：第一种是用诸如DivxPlayer等专门口勺

播放软件来播放；第二种播放措施是安装MPEG4(Divx)插件后，用Windows自带的媒体播

放机来播放。

(2)、随着网络技术的不断发展，互联网上的视频流应用也成为了近几年的热门话题。

目前，在互联网上比较流行口勺几种影像格式涉及Quicklime、RealPlay以及微软口勺

MediaPlayer等。MPEG4技术浮现之后，互联网上又浮现了MPEG4格式的电影，但是在观

看前,系统会提示你下载最新的MPFG4解码软件.

小提示：人们平时在网上也许常常会看见ASF格式的电影，其实它也是微软公司开发出H勺

一种可以直接在网上观看视频节目的压缩格式。使用H勺也是MPEG4的压缩算法，但由于它

是以网上即时观看电影的视频流格式存在的，因此它的图像质量相对要差某些。

2、低比特率卜口勺多媒体通信，

目前，MPEG4技术已经广泛内应用在如视频电话、视频电子邮件、移动通信、电子新闻等

多媒体通信领域。由于这些应用对传播速率规定较低，一般在4.8〜64kbit/s之间，辨别率

为176X144左右。因此MPEG4技术完全可以充足的运用网络带宽，通过帧重建技术压缩

和传播数据，以至少的数据量获得最佳的图像质量。

3、实时多媒体监捽。

多媒体监控领域本来始终是MPEG1技术担当重任，但近些年来，它们也是“城头变换大王

旗”了。由于MPEG4压缩技术原本是一种合用在低带宽下进行信息互换的音视频解决技术，

它的特点是可以动态H勺侦测图像各个区域变化，基丁•对象的调节压缩措施可以获得比

MPEG1更大的压缩比，使压缩码流更低。因此，尽管MPEG4技术一开始并不是专为视频

监控压缩领域而开发的，但它高清晰度的视频压缩，在实时多媒体监控上，无能是存储量，

传播口勺速率，清晰度都比MPEG1具有更大的优势。

4、基于内容存储和检索的多媒体系统。

由于MPEG4在压缩措施上远远优了MPEG1技术，更是MJPEG技术所不能比拟的。通过

专家的测试表白，在相似清晰度相应MPEG1(500Kbits/sec)码流状况下，MPEG4比MPEGI

节省了2/3的硬盘空间，在一•般活动场景下也节省近一般的容量。因此无论是从内容存储量,

还是从多媒体文献的检索速度来说，MPEG4技术都是多媒体系统应用口勺不二之选。

5、硬件

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

MPEG视频压缩编码重点技术详解

文档简介

温馨提示

最新文档

评论

MPEG视频压缩编码重点技术详解

文档简介

温馨提示

最新文档

评论

相关文档