电子视频技术_第1页
电子视频技术_第2页
电子视频技术_第3页
电子视频技术_第4页
电子视频技术_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、精品资料推荐视频数据的基本压缩编码技术与 MPEG系列标准1 Huffman 编码、算术编码、行程编码的原理、算法及适用范围。1.1 Huffman 编码HUFFMAN 编码又称哈夫曼编码,是一种可变长编码方式,是由美国数学家 David Huffman 创立的,是二叉树的一种特殊转化形式。编码的原理是:将使用次数多的代码 转换成长度较短的代码,而使用次数少的可以使用较长的编码,并且保持编码的唯一可 解性。 Huffman 算法的最根本的原则是:累计的 (字符的统计数字 * 字符的编码长度 )为最 小,也就是权值 (字符的统计数字 * 字符的编码长度 )的和最小。由于 Huffman 编码需要

2、 扫描两次,第一次是统计数字,第二次是编码写文件,大大影响了速度,因此有人 发明了 enhanced Huffman aglorithm 。这种算法只扫描一遍文件,动态产生Huffman树,即每读 n 个字节就重新编码一次 Huffman 树,以达到提高速度的目的。在解码 的过程中使用动态还原技术。 Huffman 编码是 Huffman 树的一个应用。 Huffman 编码 应用广泛,如 JPEG 中就应用了 Huffman 编码。1.2 算术编码 算术编码是图像压缩的主要算法之一。 是一种无损数据压缩方法,也是一种熵编 码的方法。和其它熵编码方法不同的地方在于,其他的熵编码方法通常是把输入

3、的消息 分割为符号,然后对每个符号进行编码,而算术编码是直接把整个输入的消息编码为一 个数,一个满足 (0.0 n N ( 04-01-1 )式中 k N 表示 x1 ,x2, x N 的时序在 xk 之前,为所谓因果型(Causal) 预测,否则为非因果型预测。精品资料推荐接收端把接收到的量化后的预测误差 ek 与本地算出的 xk 相加,即得恢 复信号 xk。如果没有传输误差, 则接收端重建信号 xk 与发送端原始信号 xk 之间的 误差为:xk - x k = x k - ( xk + ek )= ( xk - xk ) - ek= ek - ek= qk (04-01-2 ) 这正是发送

4、端量化器产生的量化误差,即整个预测编码系统的失真完全由量化 器产生。因此,当 xk 已经是数字信号时,如果去掉量化器,使ek = ek,则 qk = 0,即 xk = xk 。这表明,这类不带量化器的 DPCM 系统也可用于无损编码。但如果量 化误差 qk ,0 则 xk x,k 为有损编码。如果预测方程式( 04-01-2 )的右方是各个 xi 的线性函数,即Nx k = ai(k) x i k N (04-01-3)i=1即得常用的线性预测,又称线性预测编码(LPC, Linear Predictive Coding )。LPC 在语音处理中得到广泛应用,并在此基础上发展了许多算法,典型的

5、有:多脉 冲线性预测编码 ( MPLPC ),规则脉冲激励编码 (RPE),码激励线性预测 ( CELP), 代数激励线性预测 (ACELP ),矢量和激励线性预测 ( VSELP ),QCELP( Qualcomm CELP,变速率 CELP ),低延时码激励线性预测( LD-CELP ),共轭结构代数激励 线性预测( CS-ACELP ),混合激励线性预测( MELP ),间隔同步更新码激励线性 预测( PSI-CELP ),松弛码激励线性预测( RCELP),残差激励线性预测( RELP), 规则脉冲激励长时预测( RPE-LTP )等。在 DPCM 中, “1位量化 ”的特殊情况称为增

6、量调制( 调制)。为了能够正确 恢复被压缩的信号,不仅在接收端有一个与发送端相同的预测器,而且其输入信号 也要相同(都是 xk ,而不是 xk ),动作也与发送端的预测器环路(即发送端本地的 反量化和解码部分)完全相同。在图像信号中应用 DPCM 时,用作预测的像素和被预测的像素可以在同一行, 也可以在不同行(同一帧),甚至在不同帧,分别称为一维预测、二维预测和三维 预测。声音信号中的预测只是一维预测。DPCM 的优点是算法简单,容易硬件实现,缺点是对信道噪声很敏感,会产生 误差扩散。即某一位码出错,对图像一维预测来说,将使该像素以后的同一行各个 像素都产生误差;而对二维预测,该码引起的误差还

7、将扩散到以下的各行。这样, 将使图像质量大大下降。同时, DPCM 的压缩率也比较低。随着变换编码的广泛应 用, DPCM 的作用已很有限。2.3 最佳线性预测如果对一个随机效应 (如个体育种值 )的预测具有线性 ( 预测量是样本观察值的线性 函数 )、无偏 (预测量的数学期望等于随机效应本身的数学期望 )和预测误差方差最小等统 计学性质,则称其为最佳线性无偏预测。2.4 自适应预测编码精品资料推荐预测参数的最佳化依赖信源的特征,要得到最佳预测参数显然是一件繁琐的工 作。而采用固定的预测参数往往又得不到较好的性能。为了能使性能较佳,又不致 于有太大的工作量,可以采用自适应预测。为了减少计算工作

8、量,预测参数仍采用固定的,但此时有多组预测参数可供选 择,这些预测参数根据常见的信源特征求得。编码时具体采用哪组预测参数需根据 特征来自适应地确定。为了自适应地选择最佳参数,通常将信源数据分区间编码, 编码时自动地选择一组预测参数,使该实际值与预测值的均方误差最小。随着编码 区间的不同,预测参数自适应地变化,以达到准最佳预测。2.5 自适应帧间预测帧间预测编码是利用视频图像帧间的相关性,即时间相关性,来达到图像压缩 的目的,广泛用于普通电视、会议电视、视频电话、高清晰度电视的压缩编码。在图像传输技术中,活动图像特别是电视图像是关注的主要对象。活动图像是 由时间上以帧周期为间隔的连续图像帧组成的

9、时间图像序列,它在时间上比在空间 上具有更大的相关性。大多数电视图像相邻帧间细节变化是很小的,即视频图像帧 间具有很强的相关性,利用帧所具有的相关性的特点进行帧间编码,可获得比帧内 编码高得多的压缩比。对于静止图像或活动很慢的图像,可以少传一些帧,如隔帧 传输,未传输的帧,利用接收端的帧存储器中前一帧的数据作为该帧数据,对视觉 没有什么影响。因为人眼对图像中静止或活动慢的部分,要求有较高的空间分辨率, 而对时间分辨率的要求可低些。这种方法叫帧重复方法,广泛应用于视频电话、视 频会议系统中,其图像帧速率一般为115 帧/秒。采用预测编码的方法消除序列图像在时间上的相关性,即不直接传送当前帧的 像

10、素值,而是传送 x 和其前一帧或后一帧的对应像素 x 之间的差值 ,这称为帧间预 测。当图像中存在着运动物体时,简单的预测不能收到好的效果,例如图象的当前 帧与前一帧的背景完全一样,只是小球平移了一个位置,如果简单地以第 k-1 帧像 素值作为 k 帧的预测值,则在实线和虚线所示的圆内的预测误差都不为零。如果已 经知道了小球运动的方向和速度,可以从小球在 k-1 帧的位置推算出它在 k 帧中的 位置来,而背景图像(不考虑被遮挡的部分)仍以前一帧的背景代替,将这种考虑 了小球位移的 k-1 帧图像作为 k 帧的预测值,就比简单的预测准确得多,从而可以 达到更高的数据压缩比。这种预测方法称为具有运

11、动补偿的帧间预测。具有运动补偿的帧间预测编码是视频压缩的关键技术之一,它包括以下几个步 骤:首先,将图像分解成相对静止的背景和若干运动的物体,各个物体可能有不同 的位移,但构成每个物体的所有像素的位移相同,通过运动估值得到每个物体的位 移矢量;然后,利用位移矢量计算经运动补偿后的预测值;最后对预测误差进行量 化、编码、传输,同时将位移矢量和图像分解方式等信息送到接收端。在具有运动补偿的帧间预测编码系统中,对图像静止区和不同运动区的实时完 善分解和运动矢量计算是较为复杂和困难的。在实际实现时经常采用的是像素递归 法和块匹配法两种简化的办法。像素递归法的具体作法是,仍需通过某种较为简单的方法首先将

12、图像分割成运 动区和静止区。在静止区内像素的位移为零,不进行递归运算;对运动区内的像素, 利用该像素左边或正上方像素的位移矢量 D 作为本像素的位移矢量,然后用前一帧 对应位置上经位移 D 后的像素值作为当前帧中该像素的预测值。如果预测误差小于 某一阈值,则认为该像素可预测,无需传送信息;如果预测误差大于该阈值,编码精品资料推荐器则需传送量化后的预测误差、以及该像素的地址,收、发双方各自根据量化后的 预测误差更新位移矢量。由此可见,像素递归法是对每一个像素根据预测误差递归 地给出一个估计的位移矢量,因而不需要单独传送位移矢量给接收端。块匹配法是另一种更为简单的运动估值方法。它将图像划分为许多子

13、块,并认 为子块内所有像素的位移量是相同的,这意味着将每个子块视为一个 “运动物体 ”。 对于某一时间 t,图像帧中的某一子块如果在另一时间 t-t1 的帧中可以找到若干与其 十分相似的子块,则称其中最为相似的子块为匹配块,并认为该匹配块是时间 t-t1 的帧中相应子块位移的结果。位移矢量由两帧中相应子块的坐标决定。考虑到一定时间间隔内物体可能的运动速度、运动范围和匹配搜索所需的计算 量,在匹配搜索时一般仅在一个有限范围内进行。假设在给定时间间隔内最大可能 的水平和垂直位移为 d h 和 d v 个像素,则搜索范围 SR为其中 M 、 N 为子块的水平和垂直像素数。在块匹配方法中需要解决两个问

14、题:一是确定判别两个子块匹配的准则;二是 寻找计算量最少的匹配搜索算法。判断两个子块相似程度的准则可以利用两个块间 归一化的二维互相关函数、 两子块间亮度的均方差 MSE 或两子块间亮度差绝对值的 均值 MAD 等。通过对不同判别准则的比较研究表明,各种判别准则对位移矢量的 估值精度影响差别不是很大。由于 MAD 准则的计算不含有乘法和除法运算而成为 最常使用的匹配判别准则。 MAD 准则定义如下:其中 Xk 和 Xk-1 分别表示图像在第 k 帧和第 k-1 帧的像素值。当 MAD 最小时, 表示两个子块匹配。对于匹配搜索算法,最简单和直接的方法就是全搜索方式,即将第k-1 帧中的子块在整个

15、搜索区内逐个像素移动,每移动一次计算一次判决函数。总的移动次数 为 (2d h + 1)(2d v + 1) 。当 d h = d v = 6 时,总的计算次数为 169 。显然,全搜索的 运算量是相当大的。为了加快搜索过程,人们提出了许多不同的搜索方法,其中应 用较广的有二维对数法、三步法、共轭方向法和正交搜索法。这几种方法都基于如 下的假设:当偏离最小误差方向时,判决函数是单调上升的,搜索总沿着判决函数 值减小的方向进行。上述几种方案所需的搜索步骤和计算点数略有差异,但基本思 路是一致的。通过上面介绍的两种运动矢量估值方法可以看出,像素递归法对每一个像素给 出一个估计的位移矢量,因而对较小

16、面积物体的运动估值较为精确。但像素递归法 在估值时需要进行叠代运算,从而存在着收敛速度和稳定性问题。块匹配法对同一 子块内位移量不同的像素只能给出同一个位移估值, 限制了对每一像素的估值精度。 但对于面积较大的运动物体而言,采用块匹配法的预测要比采用像素递归法的预测 效果好。另外,从软硬件实现角度看,块匹配算法相对简单,在实际活动图像压缩 编码系统中得到较为普遍的应用。3 变换编码的基本原理、 DCT 变换、 DWT 变换等相关内容。3.1 变换编码变换编码不是直接对空域图像信号进行编码,而是首先将空域图像信号映射变 换到另一个正交矢量空间(变换域或频域),产生一批变换系数,然后对这些变换 系

17、数进行编码处理。其中关键问题是在时域或空域描述时,数据之间相关性大,数 据冗余度大,经过变换在变换域中描述,数据相关性大大减少,数据冗余量减少, 参数独立,数据量少,这样再进行量化,编码就能得到较大的压缩比。目前常用的精品资料推荐正交变换有:傅立叶 (Fouries)变换、沃尔什 (Walsh)变换、哈尔 (Haar)变换、斜 (Slant) 变换、余弦变换、正弦变换、 K-L(Karhunen-Loeve) 变换等。在变幻编码中的比特分配中,分区编码是基于最大方差准则;阈值编码是基于 最大幅度准则。3.2DCT 变换离散余弦变换( DCT)是 N.Ahmed 等人在 1974 年提出的正交变

18、换方法。它常 被认为是对语音和图像信号进行变换的最佳方法。为了工程上实现的需要,国内外 许多学者花费了很大精力去寻找或改进离散余弦变换的快速算法。由于近年来数字 信号处理芯片( DSP)的发展,加上专用集成电路设计上的优势,这就牢固地确立 离散余弦变换 ( DCT)在目前图像编码中的重要地位, 成为 H.261 、JPEG、MPEG 等 国际上公用的编码标准的重要环节。在视频压缩中,最常用的变换方法是 DCT,DCT 被认为是性能接近 K-L 变换的准最佳变换,变换编码的主要特点有: (1)在变换域里视频图像要比空间域里简单。(2)视频图像的相关性明显下降,信号的能量主要集中在少数几个变换系

19、数上,采用量化和熵编码可有效地压缩其数据。( 3)具有较强的抗干扰能力,传输过程中的误码对图像质量的影响远小于 预测编码。通常 ,对高质量的图像, DMCP 要求信道误码率 ,而变换编码仅要求信 道误码率 。DCT 等变换有快速算法,能实现实时视频压缩。针对目前采用的帧内编码加运 动补偿的视频压缩方法的不足 , 我们在 Westwater 等人提出三维视频编码的基础上 , 将三维变换的结构应用于视频图像压缩 , 进一步实现了新的视频图像序列的编码方 法。3.3DWT 变换离散小波变换( Discrete Wavelet Transform )是指在特定子集上采取缩放和平移 的小波变换,是一种兼

20、具时域和频域多分辨率能力的信号分析工具。此变换运用可 以缩放平移的小波代替固定的窗进行计算分析,主要应用于信号编码和数据压缩。4 MPEG 系列标准的内容、特点和应用简介与比较4.1MPEG 的内容MPEG 的全名为 Moving Pictures Experts Group/Motin Pictures Experts Group ,中文 译名是动态图像专家组。MPEG 标准主要有以下五个, MPEG-1 、MPEG-2 、MPEG-4 、MPEG-7 及 MPEG-21 等。该专家组建于 1988年,专门负责为 CD 建立视频和音频标准,而成员都是为视 频、音频及系统领域的技术专家。及后,

21、他们成功将声音和影像的记录脱离了传统 的模拟方式,建立了 ISO/IEC1172 压缩编码标准,并制定出 MPEG- 格式,令视听传 播方面进入了数码化时代。因此,大家现时泛指的 MPEG-X 版本,就是由 ISO(International Organization for Standardization) 所制定而发布的视频、音频、数据 的压缩标准。MPEG 标准的视频压缩编码技术主要利用了具有运动补偿的帧间压缩编码 技术以减小时间冗余度,利用 DCT 技术以减小图像的空间冗余度,利用熵编码则在 信息表示方面减小了统计冗余度。这几种技术的综合运用,大大增强了压缩性能。精品资料推荐MPEG-

22、1MPEG-1 标准于 1992 年正式出版,标准的编号为 ISO/IEC11172 ,其标题为 “码率约为 1.5Mb/s 用于数字存贮媒体活动图像及其伴音的编码 ”。MPEG-1 层 1 数字盒式录音带MPEG-1 层 2 DAB,VCDMPEG-1 层 3 Internet,MP3 音乐MPEG-1 audio layer 1类型: Audio制定者: MPEG所需频宽: 384kbps(压缩 4 倍) 特性:编码简单,用于数字盒式录音磁带, 2 声道, VCD 中使用的音频压 缩方案就是 MPEG-1 层。优点:压缩方式相对时域压缩技术而言要复杂得多,同时编码效率、声音 质量也大幅提高

23、,编码延时相应增加。可以达到 “完全透明 ”的声音质量( EBU 音质 标准)缺点:频宽要求较高应用领域: voip版税方式: Free备注: MPEG-1 声音压缩编码是国际上第一个高保真声音数据压缩的国际 标准,它分为三个层次:-层 1(Layer 1) :编码简单,用于数字盒式录音磁带-层 2(Layer 2) :算法复杂度中等,用于数字音频广播 (DAB) 和 VCD 等-层 3(Layer 3) :编码复杂,用于互联网上的高质量声音的传输,如MP3 音乐压缩 10 倍MUSICAM(MPEG-1 audio layer 2, 即 MP2)类型: Audio制定者: MPEG所需频宽:

24、 256192kbps(压缩 68 倍) 特性:算法复杂度中等,用于数字音频广播 (DAB) 和 VCD 等, 2 声道,而 MUSICAM 由于其适当的复杂程度和优秀的声音质量,在数字演播室、DAB 、DVB等数字节目的制作、交换、存储、传送中得到广泛应用。优点:压缩方式相对时域压缩技术而言要复杂得多,同时编码效率、声音 质量也大幅提高,编码延时相应增加。可以达到 “完全透明 ”的声音质量( EBU 音质 标准)缺点:应用领域: voip版税方式: Free备注:同 MPEG-1 audio layer 1MP3(MPEG-1 audio layer 3)类型: Audio制定者: MPEG

25、所需频宽: 128112kbps(压缩 1012 倍) 特性:编码复杂,用于互联网上的高质量声音的传输,如 MP3 音乐压缩 10 倍,2声道。MP3 是在综合 MUSICAM 和 ASPEC 的优点的基础上提出的混合压缩技精品资料推荐术,在当时的技术条件下, MP3 的复杂度显得相对较高,编码不利于实时,但由于 MP3 在低码率条件下高水准的声音质量,使得它成为软解压及网络广播的宠儿。优点:压缩比高,适合用于互联网上的传播缺点: MP3 在 128KBitrate 及以下时,会出现明显的高频丢失 应用领域: voip 版税方式: Free 备注:同 MPEG-1 audio layer 1M

26、PEG-2MPEG-2 标准于 1994年公布,包括编号为 13818-1 系统部分、编号为 13818-2 的视频部分、编号为 13818-3 的音频部分及编号为 13818-4 的符合性测试部分。MPEG-2 编码标准希望囊括数字电视、图像通信各领域的编码标准, MPEG-2 按压缩比大小的不同分成五个档次 (profile) ,每一个档次又按图像清晰度的 不同分成四种图像格式,或称为级别 (level) 。五个档次四种级别共有 20 种组合,但 实际应用中有些组合不太可能出现,较常用的是11种组合。这 11 种组合分别应用在不同的场合,如 MPML( 主档次与主级别 )用在具有演播室质量

27、标准清晰度电视 SDTV 中,美国 HDTV 大联盟采用 MPHL( 主档次及高级别 ) 。MPEG-2 audio layer类型: Audio 制定者: MPEG 所需频宽:与 MPEG-1 层 1,层 2,层 3 相同 特性: MPEG-2 的声音压缩编码采用与 MPEG-1 声音相同的编译码器,层 1, 层 2 和层 3 的结构也相同,但它能支持 5.1 声道和 7.1 声道的环绕立体声。优点:支持 5.1 声道和 7.1 声道的环绕立体声缺点: 应用领域: voip 版税方式:按个收取 备注: MPEG-2 的声音压缩编码采用与 MPEG-1 声音相同的编译码器,层 1, 层 2 和

28、层 3 的结构也相同,但它能支持 5.1 声道和 7.1 声道的环绕立体声。MPEG-4MPEG-4 在 1995 年 7 月开始研究, 1998 年 11 月被 ISO/IEC 批准为正式标准, 正式标准编号是 ISO/IEC14496 ,它不仅针对一定比特率下的视频、音频编码,更加 注重多媒体系统的交互性和灵活性。这个标准主要应用于视像电话、视像电子邮件 等,对传输速率要求较低,在 4800 6400bits/s 之间,分辨率为 176 144。MPEG-4 利用很窄的带宽,通过帧重建技术、数据压缩,以求用最少的数据获得最佳的图像 质量。 利用 MPEG-4 的高压缩率和高的图像还原质量可

29、以把 DVD 里面的 MPEG-2 视频文件转换为体积更小的视频文件。经过这样处理,图像的视频质量下降不大但 体积却可缩小几倍,可以很方便地用 CD-ROM 来保存 DVD 上面的节目。另外, MPEG-4 在家庭摄影录像、网络实时影像播放也大有用武之地。MPEG-7MPEG-7( 它的由来是 1+2+4=7, 因为没有 MPEG-3 、 MPEG-5 、 MPEG-6)于 1996 年 10 月开始研究。确切来讲, MPEG7 并不是一种压缩编码方法,其正规的名字 叫做 多媒体内容描述接口,其目的是生成一种用来描述多媒体内容的标准,这个标精品资料推荐准将对信息含义的解释提供一定的自由度,可以

30、被传送给设备和电脑程序,或者被 设备或电脑程序查取。 MPEG-7 并不针对某个具体的应用,而是针对被 MPEG-7 标 准化了的图象元素,这些元素将支持尽可能多的各种应用。建立 MPEG-7 标准的出 发点是依靠众多的参数对图象与声音实现分类,并对它们的数据库实现查询,就象 我们今天查询文本数据库那样。可应用于数字图书馆,例如图象编目、音乐词典等; 多媒体查询服务,如电话号码簿等;广播媒体选择,如广播与电视频道选取;多媒 体编辑,如个性化的电子新闻服务、媒体创作等。MPEG 21MPEG 在 1999年10月的 MPEG 会议上提出了 “多媒体框架 ”的概念,同年的 12 月的 MPEG 会

31、议确定了 MPEG-21 的正式名称是 “多媒体框架 ”或 “数字视听框架 ”,它 以将标准集成起来支持协调的技术以管理多媒体商务为目标,目的就是理解如何将 不同的技术和标准结合在一起需要什么新的标准以及完成不同标准的结合工作。4.2MPEG 的应用远程通信、计算机和电视 /电影工业之间的传统界限极为模糊。历史上原本属于 某一领域的内容现已渗透到其他两个领域中。视频、声音和通信已进入计算机;交 互性进入了电视;视频和交互性则进入了远程通信领域。看起来像一种聚集,实际上并非如此。这三种行业是从不同的技术角度来研究音像应用的。在当今世界 ,应对三种主要趋势予以关注:1、向无线通信发展的趋势;2、向交互式计算机应用发展的趋势;3、视听数据的综合应用不断增长的趋势。对于传统意义上区分的各行业间的交叉 ,应综合考虑这三种趋势;目前的标准和 正在制作的标准没有充分涉及这些新的需求。而 MPEG-4 的重点就是解决这些需求 , 即综合三种行业的通用应用,以提供便于交互的音频-视频编码、高压缩比和通用访问能力。为了采用迅速发展的相关技术的优点 ,MPEG-4 标准将保证高度的灵活性和 扩展性。基于内容的交互性包

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论