版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本章内容提要F多媒体数据的压缩的可能性和必要性F压缩基本原理F压缩基本算法FJPEG编码FMPEG编码本章问题设计:为什么要进行多媒体数据压缩?如何压缩?常见压缩算法有哪些?影响压缩算法的因素有哪些?本章教学目的要求:掌握多媒体数据压缩的基本概念和常用算法。本章教学重点:掌握多媒体数据压缩的基本概念和基本原理。§5.1概述你想通过可视通信系统与亲朋好友进行“面对面”的通信吗?
你想通过利用多媒体教学手段在家上学吗?
你想在计算机上亲自体念“海湾战争”吗?
你进入过国家图书馆的Internet多媒体阅览室吗?
你有过在Internet上看美国“9.11”事件的实时新闻报道吗?
你有利用多媒体计算机来控制家中的所有电器的计划吗?无论你是否有这些想法、或经历,它们赖以实现的技术基础都是多媒体数据的压缩技术。多媒体数据压缩的必要性⑴多媒体信息的数据量●文本:若1024×768显示分辨率、16×16点阵文字、4Byte/字,则一屏汉字的总数据量为:
4×1024×768/(16×16)=12288Byte(12KB)●图像:若采用800×600分辨率,则满屏24位真彩色未经压缩的图像的总数据量为
800×600×24/8=1440000Byte(1.37M)
监测卫星采用四波段、每天30幅的频率发回上述分辨率的图片,则每天未经压缩的文件数据量为:1.37×4×30=164.4M
一年的数据量为:
164.4×365=58.6G●音频:存储量=(采样频率×采样精度×声道数×时间)/8(B)未经压缩的1分钟立体CD音乐所需的存储量为:
(44.1×1000×16)×2×60/8=10584000(B)≈10.1(M)●视频:320×233窗口中,以25帧/秒速度播放1分钟颜色数为8bit的视频信号,其数据量为:
320×233×8×25×60/(8×1024×1024)≈107(M)⑵压缩的必要性—海量数据的存储与传输的必然要求
在多媒体系统中图像和动态视频信息数据量非常之巨大,所需要的存储空间是十分惊人的。请计算1GB的容量能存储约?分钟的彩色电视信号数据。
一分钟另外在通信网络上,大多数远程通信网络的速率都在几兆位每秒以下,显然,这样大的数据量不仅超出了计算机的存储和处理能力,更是当前通信信道的传输速率所不及的。计算1G文件在2M带宽下载时间。因此,为了使多媒体达到实用水平,除采用新技术手段增加存储空间和通信宽带外,对数据进行有效压缩是多媒体发展中最关键的技术之一。⑶数据冗余
数据是用来记录和传输信息的,是视频信息的载体。
信息量=数据量-冗余数据量
多媒体声音信源数据有极强的相关性,存在大量冗余
信息,数据压缩就是去掉冗余信息,减少各种数据之间的相关性。●冗余基本概念●冗余——信息所具有的各种性质中多余的无用空间●冗余度——多余的无用空间的程度I=D-duI—信息量,D—数据量,du—冗余量包含在D中●信息量与冗余的关系●冗余举例播音员——180字/分钟,2Byte一个字,360Byte(合0.35KB/分钟)音频数据——8kHz采样×8bit×60秒=3840KBit(合480KB/分钟)[1]空间冗余——规则物体的物理相关性[2]时间冗余——视频与动画画面间的相关性,或语音也是一个连续和渐变的过程,而非完全时间上的独立过程。[3]统计冗余——具有空间冗余和时间冗余[6]视觉冗余——视觉、听觉敏感度和非线性感觉[7]知识冗余——利用先验知识和背景知识得到[4]结构冗余——从更大视角看存在规则纹理、相互重叠的结构表面[5]信息熵冗余——编码冗余,数据与携带的信息[8]其他冗余——上述7种以外的冗余。如图像的空间非定常特性所带来的冗余等。10110001110010110001110001011010101010111100010111111010224色28色声音频率文字组句色彩渐变主观意识::⑷冗余的分类多媒体数据中存在冗余的种类:
多媒体数据之所以能够被压缩,就是它存在上述冗余。数据压缩条件——●数据传输与存储空间的限制(压缩→传输或存储→解压缩)■
44.1kHz/Stereo1.3MB■22.0kHz/Nomo0.3MB■Stop●数据存在冗余(重复数据、可忽略数据)重复数据可忽略数据●不敏感因素(颜色、亮度、频率、细节)224颜色(16,777,216色)28颜色(256色)§2数据压缩基本原理1前言
数据压缩技术的理论基础是信息论。根据信息论的原理,可以找到最佳数据压缩编码方法,数据压缩的理论极限是信息熵。如果要求在编码过程中不丢失信息量,即要求保存信息熵,这种信息保持编码又叫做熵保存编码,或者叫熵编码。熵编码是无损数据压缩,用这种编码结果经解码后可无失真地恢复出原貌。无损压缩编码——压缩数据还原后,与原始数据一致,无损失有损压缩编码——压缩后再还原的数据有损失
熵编码是建筑在随机过程的统计特性基础上的。对于语音、静图像、运动图像、文字等多媒体数据压缩技术,其信源编码的输入,均可认为信源发出的是一个随机信号序列。它们是时间、空间或时间空间混合变量的函数。2实现目标统计编码是根据信源出现概率的分布特性而进行的压缩编码,它有别于预测编码。这种编码的宗旨在于,在消息和码字之间找到明确的一一对应关系,以便在恢复时能准确无误地再现出来,或者至少是极相似地找到相当的对应关系,并把这种失真或不对应概率限制到可容忍的范围内。但不管什么途径,其最终目标总是要使平均码长或码率压低到最低限度。最常用的方法是变长码。变长编码的信源符号与码字是一一对应的,因此再现也是准确无误的。它在编译码过程中并不损失任何信息,属于冗余压缩法。如电报码。3引入“熵”值的作用在量化处理中,信源的概率分布、信息量和信息熵之间存在什么关系?在压缩技术中引入“熵”值有什么重要意义?熵:就是信息量的度量方法,它表示某一事件出现的消息越多,时间发生的可能性,即概率就越大。下面以一个信源编码器模型来说明:信源S的熵的定义信源S={si|i=1,2,…,n}的熵定义为:H(S)=∑piLog2(1/pi)其中pi是符号si在信源S中出现的概率,Log2(1/pi)表示包含在si中的信息量,即是si所需要的位数。如一幅256色的图像,如果每一种颜色的概率为1/256,则编码每一像素点就需要8位。特别地,当P(s1)=1时,则P(s2)=P(s3)=…=P(sn)=0,此时熵为:熵值的提高对提高数据压缩比是不利的。
高阶的熵值总是低于低阶的熵值,因此熵编码中要实现高压缩比例,必须设法降低熵值。例1有一幅40个像素组成的灰度图像,灰度共有5级,分别用符号A、B、C、D和E表示,40个像素中出现灰度A的像素有15个,出现灰度B的像素有7个,出现灰度C的像素有7个等。如果用3个位表示5个等级的灰度值,也就是每个像素用3位表示,编码这幅图像总共需要120位。试求此图像的熵?
解答:按照熵的定义,可得H(S)=0概率为1的事件是必然事件,所以其熵等于0因此,这幅图像每个符号用2.196位表示,40个像素需87.84位。§3数据压缩算法经过几十年的数据压缩研究,已经产生了各种各样针对不同用途的压缩算法、压缩手段和实现这些算法的大规模集成电路或计算机软件,并逐渐趋于成熟,走向市场和应用。现在成熟的数据压缩方法种类繁多,可以分为无损压缩和有损压缩两大类。在通常情况下,数据压缩率越高,信息的损耗或失真也越大,需要进行某种折衷,找出一个相对平衡点。在多媒体应用中常用的压缩方法有:PCM(脉冲编码调制)、预测编码、交换编码、统计编码、静图像编码、电视编码、其他编码等。新一代的数据压缩方法、如基于模型的压缩方法、分形压缩和小波变换方法等也已经接近实用化水平。
数据压缩实际上就是一种编码,也称为一种算法,即把数据表达成的一种压缩编码。编码是源文到码字的一个映射。数据压缩技术的理论基础是信息论。■无损压缩编码——压缩数据还原后,与原始数据一致,无损失无损压缩编码(可逆编码)霍夫曼编码行程编码算术编码■有损压缩编码——压缩后再还原的数据有损失有损压缩编码(不可逆编码)全频带编码PCM/ADPCM混合编码JPEG/MPEG1多媒体压缩技术的分类2预测编码①前言
预测编码是数据压缩理论的一个重要分支。它根据离散信号之间存在着一定关联性的特点,利用前面的一个或多个信号对下一个信号进行预测,然后对实际值和预测值的差(预测误差)进行编码。如果预测比较准确,那么误差信号就会很小。这样一来,在同等精度要求的条件下,就可以用比较少的数码进行编码,达到压缩数据的目的。如果能够准确地预测作为时间函数的数据源的下一个输出将是什么,或者数据源可以准确地被一个数学模型表示,输出数据总是和模型的输出保持一致,则可以准确地预测数据。然而实际信号源是不可能满足这两个条件的。因此,只能用一个预测器,预测下一个样值,允许它有某些误差。本节的预测编码方法就是解决这样问题的。预测编码方法在图像数据压缩和语音信号的数据压缩中都得到广泛的应用和研究。预测器通常设计成用前面的几个样值来预测下一样值,而不是利用整个数据信源模型。这是因为模型太复杂,且是时变的,在大多数情况下预测几乎不可能实现。预测可以是线性预测或非线性预测,但绝大多数使用的是线性预测。
线性预测的基本问题是:已知实际值和预测值之间差值的误差函数和一个时序样值集,对每一样值求出加权常数因子以使建立在加权样值线性和之上的预测能使误差函数最小。通常使用的误差函数是均方误差(MSE):MSE=E[(S0-PS0)2]其中;E是数学期望,S0是下一样值的实际值,PS0是下一样值的预测值。上述公式只是常用的一种误差函数,在某些场台下可能其它的误差函数更适用。预测编码中典型的压缩方法有DPCM,ADPCM等,它们比较适合用于声音、图像数据的压缩。因为这些数据均由采样得到,相邻样值之间的差不会相差很大,可以用较少的位来表示差值。②基本原理在计算机多媒体系统中,声、文、图等多媒体信号的原始信号,都是连续量。它们是以时间变量t和空间坐标(x,y)为自变量的连续函数,是随机分布的。为了能让计算机接收,并处理这些信号,必须把连续模拟信号数字化(A/D变换)。数字化处理包括将连续时间变量t及连续空间坐标(x,y)的离散化和幅度的数字化两个内容。预测编码方法原理:是从相邻像素之间有强的相关性特点考虑的,当前信号值,可用前面已出现的信号值,进行预测(估计),得到一个预测值(估计值),并将实际值与预测值求差,再对这个差值信号进行编码、传送,这种编码方法称为预测编码方法③分类法(补充)⑴预测编码方法分线性预测和非线性预测编码两种。线性预测编码方法也称差值脉冲编码调制法,简称DPCM。⑵DPCM中又可以分为可逆的无失真的DPCM编码与不可逆的有失真的DPCM编码。参见图6-7(教材P106)不可逆的有失真的DPCM编码:如果包含量化器,而量化器可能导致不可逆的信息损失,这时接收端,经解码恢复出的灰度信号,就存在失真。可见引入量化器会引起一定程度的信息损失,使图像质量受损。但是,为了压缩比特数,利用人眼的视觉特性,对图像信息丢失不易觉察的特点,带有量化器有失真的DPCM编码系统还是普遍被采用。可逆的无失真的DPCM编码:如果不包含量化器,这时接收端,经解码恢复出的灰度信号,就不存在失真。3数字音频技术(复习)⑴概述与文字比较、声音所携带的信息量是不可比拟的。参见下表。声音就是一种机械振动波。声音主要有两个参数:频率和振幅。它可以用正弦波y=Asin(x)或余弦波y=Acos(x)来模拟表示。数字音频:就是利用数字化形式表示的声音信号。表示方式数据量表达的信息ASCII1Byte字符名称点阵7Byte字符名称、形状声音2000Byte字符名称、读音、音色、音调、情感等音频可以根据不同方式划分成不同的类型:语音、音乐、音效等数字化声波MIDI合成来源于声音素材库波形文件Wav、音频文件MIDI、CD音频文件等用途来源格式音频类型y=Asin(x)A声波波形简图数字音频的优点:保真度好,动态范围大,便于计算机处理。⑵关键技术关键技术主要有:数字音频、音乐合成、MIDI与音效。①数字音频数字化音频技术是把表示声音强弱的模拟信号(电压)用数字表示,数字音频是通过采样量化把模拟量表示的音频信号转换成许多二进制1、0组成的数字音频文件,实现数字化,为计算机处理奠定基础。声音/音频模拟信号声音/音频数字信息1234采样采样:每隔一个时间间隔在模拟声音波形上取一个幅度值。量化量化:在数字音频技术中,把表示声音强弱的模拟电压用数字表示。而用数字来表示音频幅度时,只能把无穷多个电压幅度用有限个数字表示。即把某一幅度范围内的电压用一个数字表示。编辑编码:即编辑,把量化数据写成计算机的数据格式,即二进制格式模拟声音在时间上是连续的,而以数字表示的声音是一个数据序列,在时间上只能是离散的。数字声音是一个数据序列抽样周期:就是采样的时间间隔。其倒数称为采样频率,即每秒钟所抽取声波幅度值样本的次数,计算单位采用Hz(赫兹)。音频模拟信号数字化处理流程简图转音频信号转换流程1模拟音频信号2音频信号的采样3采样信号的量化与编码音频数字化处理简图影响数字音频质量主要有如下因素:
存储量=(采样频率×采样精度×声道数×时间)/8(Byte/S)
采样频率:采样频率越高声音失真越小,但用于存储音频的数据量也越大。采样精度:其值大小决定了声音的动态范围,因此,采样精度越大音质越好,数据量也越大。通道数量:单声与立体声……4数字视频技术(补充)数字视频是基于数字技术以及其他更为拓展的图像显示标准。本书主要讨论将模拟视频信号输入计算机进行数字化视频编辑,最后制成数字视频产品的数字视频技术,即模拟视频的数字化处理、存储和输出技术。其数字化过程如下:视频模拟信号视频数字信息1234采样量化编辑5量化(补充)量化的目的:量化是降低数据量强有力的手段。⑴压缩编码的过程
数字视频和音频技术中实现A/D(模/数)转换的关键是将时间上连续变化的模拟信号转变成时间上离散的数字信号,这个过程主要包括采样、量化、编码三个步骤。视频/音频模拟信号视频/音频数字信息1234采样量化量化:把某一幅度范围内的模拟信号用一个数字表示。编辑编码:即编辑,把量化数据写成计算机的数据格式,即二进制格式是一个数据序列视频、音频模拟信号数字化处理流程简图⑵量化原理
在数据压缩编码中所指的量化,不是指摸/数转换中的量化,而是指以PCM(均匀量化)码作为输入,经正交变换、差分或预测处理后,在熵编码之前,对正交变换系数、差分值或预测误差值的量化处理。⑶量化研究对象
为了计算机处理的方便,在离散处理过程中,总是将量化级设定为一个有限整数,但现实中为了更真实反映客观世界,又需要越多的量化级别,因此,在量化处理过程中,必然会产生信息的丢失,也就是会引起量化误差(量化噪声)。
如何降低量化误差就是量化需要研究的主要问题。同时,量化的处理过程是一个多对一的过程,是不可逆的,因此量化中丢失的信息是不可找回的。⑷量化器的设计①量化器的设计要求给定量化分层级数,满足量化误差最小;限定量化误差,确定分层级数,满足以尽量小的平均比特数,表示量化输出。显然这是一对“冤家”,因此在设计中只能根据不同目的需要,设计不同的量化器,并求得上述问题的折中处理。②量化的方法和量化特性均匀量化:就是将输入数据的振幅进行等值均分,优点是计算处理简单,缺点是量化误差大;量化矢量量化标量量化均匀量化非均匀量化自适应量化非均匀量化:就是将输入数据的振幅,按照其变化曲线的曲率大小进行不等值划分。优点是量化误差大,缺点是计算处理复杂,需要较多的比特数。量化过程示意图非均匀量化的两种常用算法:采样输入信号幅度和量化输出数据之间存在不同的对应关系,常见的有μ律压扩算法和A律压扩算法。它们各有不同的特点和适应不同的地区。自适应量化:就是按照输入数据的变化曲线的局部区域的特点,自适应地修改和调整量化器的箱宽。优点是量化误差小,缺点是计算处理复杂。
量化器的设计和量化特性的选择,是数据压缩技术中的一个关键问题。由于量化是一个有信息丢失的不可逆转过程,量化器的好坏不仅直接影响数据压缩率,量化误差对解压后的恢复视频/音频的质量存在极大的影响。④自适应的差分脉码调制(ADPCM)
进一步改善量化性能或压缩数据率的方法是采用自适应量化或自适应预测,任一种采用自适应的方法都叫做自适应的差分脉码调制(ADPCM)。1)自适应量化为了在一定的量化组数下减少量化误差或在同样的误差条件下压缩数据率,根据信号分布不均匀的特点,希望系统具有随输入信号的变化而改变量化区间大小,以保持输入量化器的信号基本均匀的能力称为自适应量化。自适应量化必须有对输入信号的幅值进行估计的能力,有了估值才能确定相应的改变量。若估值在信号的输入端进行,称前向馈送自适应;若在量化输出端进行,称反馈自适应。信号的估值必须简单,占时间短,这样才能达到实时处理的目的。2)自适应预测预测参数的最佳化依赖于信源的统计特性,要得到最佳预测参数显然是一件繁琐的工作。而采用固定的预测参数往往又得不到较好的性能,为了既能使性能较佳,又不致于有太大的计算工作量,可以将上述两种方法折衷考虑,采用自适应预测。3霍夫曼编码霍夫曼(Huffman)编码是一种应用十分广泛的压缩算法,其理论依据是变字长编码理论。霍夫曼编码具有即时性和唯一可译性,编码具体步骤如下:对信源进行概率统计,求得n个不同概率的信源符号;将n个信源符号的n个概率,按概率递减顺序排列;把n个概率中两个最小概率相加,并作为新符号的概率,构成n-1个概率重复步骤1)、2)直到概率和达到1为止(实际上要进行n-2次后,可以得到只有两个概率的序列);在每次合并概率时,将被合并的消息赋以1和0或0和1;寻找从每一信源符号到概率为1处的路径,记录下路径上的1和0;对每一符号写出1、0序列(从码树的根到终节点)。最后,获得了一棵用于编码和译码的霍夫曼树。●编码特点[1]编码长度可变,压缩与解压缩较慢[2]硬件实现困难[3]编码效率取决于信号源的数据出现概率[4]属于无损压缩霍夫曼(Huffman)编码是一种应用十分广泛的压缩算法,其理论依据是变字长编码理论。它是一种不等长格式的编码方案、在各编码输入信息符号出现的频率不均匀的情况下,给输出码字分配不同的字长,如用最短的二进制位表示出现频率最高的码字,用较长的位表示出现频率低的码字,并且按照概率递减顺序排列,如此编码方案,由最佳编码定理可知,这样输出码字的平均码长最短,与信源熵值接近,编码方案最佳。实例:如下表是7个信源符号及其概率分布,请构造其霍夫曼树。解答:码字的平均码长N采用如下公式计算=(0.35+0.20)×2+(0.15+0.10+0.10)×2+(0.06+0.04)×4=2.55(bits/pel)信源X={xi|I=1,2,…,7}的熵为=-(0.35*Log20.35+0.20*Log20.20+0.15*Log20.15+(0.10*Log20.10)×2+0.06*Log20.06+0.04*Log20.04)=2.13(bits/pel)0.0440.0640.1030.1030.1530.2020.352输入概率码长X7X6X5X4X3X2X1信源符号霍夫曼编码步骤1111411104110301130103102002码字码长X7X6X5X4X3X2X1信源符号霍夫曼码字的构成对应表)4算术编码算术编码把一个信源集合表示为实数线上的0到1之间的一个区间。这个集合中的每个元素都要用来缩短这个区间。信源集合的元素越多,所得到的区间就越小,当区间变小时,就需要更多的数位来表示这个区间,这就是区间作为代码的原理。算术编码首先假设一个信源的概率模型,然后用这些概率来缩小表示信源集的区间。优点:编码方法比霍夫曼编码等简单,它还有自适应特点。5游程编码(或行程编码)游程编码(简写为RLE或RLC)是一种十分简单的压缩方法,它将数据流中连续出现的字符(称为游程)用单一的记号来表示。例如,字符串abacccbbaaaa,可以压缩为aba3c2b4a游程编码的压缩效果不太好,但由于简单编码/解码的速度非常快,因此仍然得到广泛的应用。许多图形和视频文件,如BMP,TIF及AVI等,都使用了这种压缩。§4JPEG编码技术1什么是JPEG?国际标准化组织(ISO)和国际电报电话咨询委员会(CCITT)联合成立的“联合照片专家组”JPEG经过五年艰苦细致工作后,于1991-3提出了JPEG标准——JointPhotographicExpertsGroup的缩写,此小组开发研制出连续色调、多级灰度、静止图像的数字图像压缩编码方法,也称为JPEG算法,此算法后来被确定为JPEG压缩标准。它适用于彩色和单色多灰度或连续色调静止数字图像的压缩标准。JPEG专家开发了包括采用以预测技术为基础的无损压缩,和基于离散余弦变换、Huffman编码的有损压缩两个部分。前者不会产生失真,但压缩比很小。后者算法进行图像压缩时,信息有损失但压缩比可以很大。例如使用有损压缩算法,在压缩比为20:1~40:1倍时,人眼基本上看不出失真。压缩后还原得到的图像与源图像相比较,非图像专家是难于找出它们之间的区别的,因此得到了广泛的应用。JPEG压缩是有损压缩。●JPEG编码——有损编码●压缩比——10:1~100:1(一般压缩比≯40:1)●压缩原理——采用无失真预测编码、有失真DCT编码等混合编码方式●无失真预测编码——线性预测编码,压缩比2:1●有失真DCT编码——[1]离散余弦变换压缩编码,压缩比40:1[2]霍夫曼编码(增强型编码)[3]自适应算术编码(增强型编码)●特点[1]压缩比可调[2]对CPU的响应速度要求不高[3]压缩算法复杂(可同时使用四种压缩编码方式)在保证图像质量的前提下为进一步提高压缩比,近年来JPEG专家组正在制定JPEG2000标准,这个标准中将采用小波变换Wavelet算法(简称WT)。
2JPEG的实现目标达到或接近当前压缩比与图像保真度的技术水平,能够覆盖较宽的图像质量等级范围,能达到“很好”或“较好”的评估,与原始图像比较,人的视觉难以分辨;能适用于任何种类的连续色调的图相,并且长宽比都不受限制,同时也不受制于景物内容、图像的复杂程度和统计特性等;计算的复杂性是可控制的,其实现的软件可在各种类型的CPU上运行,当然算法也可用硬件实现。3JPEG的几种操作方式DCT顺序编码。对一图像分量按照从左到右、从上到下扫描,一次完成编码;DCT累进(递增)编码。对图像分量在多次扫描中,实现从粗到细的渐进式编码过程;无失真编码。保证编码后能够完全恢复源目标,显然压缩比低;分层编码。对图像在多个空间中采用不同的分辨率进行编码。比如在信道传输速率慢、接收端的显示设备的分辨率低时,只需要做低分辨率图像解码就可以了,而不需要进行高分辨率的解码运算。JPEG压缩算法的特点____P112图像质量
JPEG给出的几个衡量压缩编码效果的准则:0.25~0.5位/像素:中到好,足以满足一些应用;0.5~0.75位/像素:好到很好,足以满足许多应用;0.75~1.5位/像素:优秀,足以满足大多数应用;1.5~2.0位/像素:难于与原图象区别,足以满足绝大多数应用。说明:位/像素(bit/pixel)=压缩图像总位数/亮度分量的样本数2H.261标准1)什么是H.261标准?
是压缩图像编码国际标准。它主要用于视频电话和电视会议,是可用于传输率在n×64kb/s(其中n=1,2,……,30)的视听服务的视频编码器。特别地,当n=1、2时,传输率比较低,此时只适用于台式面对面的可视通信,如可视电话;当n≤6时,传输率增加一些,可以较好地传输比较复杂的图像,适用于电视会议。2)H.261标准H.261标准的主要目标是通过除去冗余信息来减少位率,其编码方式可采用源编码(信源编码)和熵编码。其中源编码又分为帧内和帧间编码。源编码:是对原始图像进行处理,这步处理存在信息丢失,是有失真压缩,其压缩后存在图像质量降低的现象;帧内编码:由于第一幅图像和景物变换后的第一幅图像,它只除去一幅图像中的空域冗余信息;帧间编码:用于相似图像的序列,包括运动图像。它不仅除去一幅图像中的空域冗余信息,而且还除去了帧间图像的时域冗余信息;熵编码:就是利用信号的统计特性减少比特数,以达到进一步压缩数据的目的。理论上它是无失真压缩。3)H.261标准的视频数据结构定义一个科学的数据结构,以保证解码器进行解码时不会产生二义性,这是H.261标准需要解决的一个重要问题。3JPEG压缩算法⑴无失真预测编码无失真预测编码是基于空间的线性预测技术(即差分脉冲编码调制)算法,压缩比一般2:1。优点是硬件实现容易、还原的图像基本能乱真,效果较好。一般采用DPCM、霍夫曼编码算法。⑵有失真DCT编码有失真DCT编码是基于DCT——离散余弦变换压缩算法,是属于有损压缩算法类型的。压缩比40:1,按照不同层次它通常被划分成:①基本系统如霍夫曼编码②增强型编码如霍夫曼编码,自适应算术编码。两种工作模式:①顺序操作②累进操作基本JPEG算法的主要计算步骤(如图所示):①正向离散余弦变换;②量化;③Z字形编码;④差分编码:用DPCM对直流系数DC进行编码;⑤量化表:用行程长度编码对交流系数AC进行编码;⑥熵编码。实际上,基本JPEG算法操作可分成三个步骤:⑴颜色空间转换上图中第一步的颜色转换是去除数据冗余量过程的组成部分,但它并不是JPEG算法的成分,JPEG目标是独立于色彩空间的。使用离散余弦变换(DCT)去除数据冗余。JPEG采用8×8子块的二维离散余弦变换算法。在编码器的输入端,把原始图像(对彩色图像是每个颜色成分)顺序地分割成一系列8×8的子块。在8×8图像块中,像素值一般变化较平缓,因此具有较低的空间频率。并将原始采样数据的无符号整数转换成符号整数,即“正变换”过程。8×8图像块最终是用64个离散像素点构成的,显然是空间坐标(x、y)的函数。DCT输入时经过正交变换,将这64个像素点分解成64个正交基信号,而每个正交基信号对应一个64个二维空间频率中的一个,这些二维空间频率是由输入信号的频谱组成。DCT输出的是64个基信号的幅度值,或者称为DCT系数,显然DCT系数由64个像素点惟一确定。⑵DCT离散余弦变换DCT压缩算法的实质是:压缩8×8图像块灰度样本数据流。⑶DCT系数量化
为了达到压缩数据的目的,对离散余弦变换DCT系数需作量化处理。量化的作用是在保持一定质量的前提下,丢弃图像中对视觉效果影响不大的信息。量化是多对一映射,是造成DCT编码信息损失的根源。JPEG标准中采用线性均匀量化器,量化过程为对64个DCT系数除以量化步长并四舍五入取整(见教材P114),量化步长由量化表决定。因此,压缩数据的关键是量化表。
量化表元素因DCT系数位置和彩色分量的不同而取不同值。量化表为8×8矩阵,与DCT变换系数一一对应。量化表一般由用户规定(JPEG标准中给出了参考值),可根据人类视觉系统和压缩图像类型的特点进行优化,并作为编码器的一个输入。量化表中元素为l~255之间的任意整数,其值规定了所对应DCT系数的量化步长。DCT变换系数除以量化表中对应位置的量化步长并舍去小数部分后,多数变为零,从而达到了压缩的目的。
量化表:下面的表1和表2分别给出了JPEG标准所推荐的亮度量化表和色度量化表。12Z字型扫描和AC系数的游程编码为了将相同频率或近似频率的系数排列在相近的位置,采用‘Z’字型排列编码,这样得到的AC系数——即DC系数经过量化后的系数,且AC系数序列中将包含有许多0系数,并且许多0是连续的,因此就方便使用非常简单和直观的游程长度编码方法。并且量化后的AC系数通常会有许多零值,而目零值通常是从左上角开始沿对角线方向分布,因此,以Z字形路径进行游程编码有效地增加了连续出现的零值(0游程)个数。问题:对AC系数还可以再压缩吗?熵编码
为了进一步压缩数据,对DC码和DC行程编码的码字再作基于统计特性的熵编码,进行进一步的压缩操作。——即是增强系统的JPEG算法。
JPEG标准建议使用的熵码方法有霍夫曼编码和自适应二进制算术编码。例如,在JPEG有损压缩算法中,使用霍夫曼编码器来减少熵的理由是可以使用很简单的查表(Lookuptable)方法进行编码,并且压缩数据符号时,霍夫曼编码器对出现频度比较高的符号分配比较短的代码,而对出现频度较低的符号分配比较长的代码,这种可变长度的霍夫曼码表可以事先进行定义。§5MPEG编码技术全屏幕活动视频图像是多媒体技术最终要达到的主要目标之一,虽然目前这一目标还远没有实现,但人们已经提出了不少解决方案,以MPEG为核心的压缩技术是其中最有希望的一种。1什么是MPEG(即运动图像压缩标准)
MPEG就是运动图像的数字图像压缩编码方法。MPEG标准分成两个阶段:第一个阶段(MPEG-Ⅰ)是针对传输速率为1MB/s到15MB/s的普通电视质量的视频信号的压缩;第二个阶段(MPEG-II)目标则是对每秒3O帧的72Ox572分辨率的视频信号进行压缩;在扩展模式下,MPEG-II可以对分辨率达144Oxll52高清晰度电视的信号进行压缩。MPEG标准的分类:MPEG视频,MPEG音频和视频音频。下图是MPEG压缩的实施框图。2MPEG视频要求通用的压缩标准。但与H.261标准比较,它的频带范围较窄,它是基于一个可以接受的视频质量,通过一个1.5Mb/s的带宽得到。MPEG的存储介质和视频应用
MPEG视频压缩特点随机存取;快速正向、逆向搜索;逆向重播;视听同步;容错性;编码/解码延迟。图像分类(P116)①帧内图像;②预测图像;③双向图像。
3MPEG压缩主要解决的问题正确区分静止与动态的图像;如何提取动态图像的活动成分;进行帧间预测,提供压缩依据。4帧间预测编码两种方法:
①条件像素补充法;
②运动补偿法。
运动补偿算法是当前视频图像压缩技术中使用最普遍的方法之一,是减少帧序列冗余信息的有效方法。由于帧序列的相邻画面之间的运动部分具有连续性,即当前圆面上的图像可以看成是前面某图像的位移,位移的幅度值和方向在画面各处可以不同,因此利用运动位移信息与前面某时刻的图像就可以实现对当前画面图像进行预测,此方法称为前向预测。反之,根据某时刻的图像与位移信息预测该时刻之前的图像,称为后向预测。如果根据某时段的平均值预测图像的方法,称为平均预测。或采用前、后预测称为双向预测。参见图6-14和6-15(P116)5MPEG标准与质量编码与解码的一致性;分辨率、位率和质量;6MPEG标准的进展
MPEG是MovingPicturesExpertsGroup(动态图象专家组)的缩写。这个专家组始建于1988年,专门负责为CD建立视频和音频标准,其成员均为视频、音频及系统领域的技术专家。MPEG的四个版本:MPEG-Ⅰ
、MPEG-Ⅱ、MPEG-Ⅲ
、MPEG-Ⅳ。由于MPEG-Ⅱ的出色性能表现,已能适用于HDTV,使得原打算为HDTV设计的MPEG-Ⅲ,还没出世就被抛弃了。MPEG-Ⅰ;MPEG-Ⅱ;MPEG-Ⅳ:MPEG-Ⅶ。新一代声像编码国际标准,其应用领域……7已经和正在开发的MPEG标准MPEG-1:数字电视标准,1992年;MPEG-2:数字电视标准;MPEG-3:92年合并到高清晰度电视工作组HDTV;MPEG-4:多媒体应用标准,99年;MPEG-5:至98年还未定义;MPEG-6:至98年还未定义;MPEG-7:多媒体内容描述接口标准,正在研究。其中MPEG-1、2标准已经正式发布并且得到广泛应用。8MPEG-4标准的组成DMIF(TheDelliveryMultimediaIntegrationFramework)即多媒体传送整体框架,它主要解决交互网络中、广
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 8392-2026高低杠
- 全球与中国域名市场研究报告(AI驱动的数字身份变革2024-2025)
- 一年级学具规整习惯培养工作总结
- 刑侦岗位个人工作总结
- AI谣言深度研究报告
- 军用防爆罐转移操作手册
- 瘢痕修复预约指南
- 家庭燃气热水器排烟检查指南
- T∕CNLIC 0213-2025 电动牙刷制造业绿色工厂评价要求
- 孕期心理健康试题及答案
- 《中华人民共和国水法》解读培训
- 膝过伸的原因
- DB33∕T 1398-2024 惠民型商业补充医疗保险服务规范
- 一张纸水库防汛应急预案
- 某铅锌矿开采设计毕业设计
- 健康教育学题库及答案
- 学堂在线 运动与健康 章节测试答案
- 2024-2025学年北京市海淀区七年级下英语期末考试题(含答案和音频)
- 性法医学图谱
- 2025年广州市人社局劳动合同模板
- 2024-2025学年广东省佛山市高一(下)期末数学试卷(含解析)
评论
0/150
提交评论