




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 西南大学 物理科学与技术学院、电子信息工程学院 电子信息工程技术专业毕业设计专科设计题目: 多媒体的数据压缩技术的研究与应用 指导教师: 郝敏 学历层次: 专科 专 业: 电子信息技术 班 级: 一班 学 号: 姓 名: 杨梅 评语:成 绩: 指导教师签名 2021年5月多媒体数据压缩技术的研究与应用 杨梅 西南大学电子信息工程学院摘要:数据压缩是由于数据本身具有冗余性,因而利用各种算法将数据冗余压缩到最小,并尽可能的减少失真,从而提高传输效率和节约存储空间。在多媒体计算机系统中,数据信息量是非常大的,计算机系统几乎无法对它进行直接存取和交换,而为了满足人们对图像、视频等的高品质要求,必须解
2、决信号数据的大容量存储和实时传输问题,因此,对数据进行有效压缩显得尤为重要。文中对多媒体数据压缩的一些标准及其算法进行了讨论。关键字: 数据压缩, 冗余度,哈夫曼编码Research and application of multimedia data compression technologyYang MeiSchool of Electronics and Information Engineering, Southwest University, Chongqing 400715, ChinaAbstract:Because of redundancy about data itsel
3、f, we could use various algorithms to compress the redundant data to a minimum as less distortion as possible, and then gain perfect transmission efficiency and enough storage space. In computer system, information is enough huge, so we may not directly access and exchange with the information. Ther
4、efore, we must solve the problem with the large volume of data storage and real-time transmission to meet the high quality of these multimedia such as image, video etc. Of course, effective compression is particularly important. In this paper, some relevant standards and algorithms of multimedia com
5、pression are detailed discussed.Keywords: Data Compression, Redundancy, Huffman Coding目录 绪论11多媒体数据压缩技术概述3多媒体数据压缩编码的必要性3多媒体数据压缩的可能性(可行性)3压缩原理4多媒体数据压缩方法分类。52第二章 无损压缩算法8游程编码8基于字典编码技术的LZW算法8哈夫曼算法10基于算术编码的压缩算法113有损压缩算法12量化12变长编码12小波编码13小波包144图像压缩标准15JPEG标准15JPEG 2000标准16JPEG-LS标准16二值图像压缩标准175基于视频压缩技术19视频
6、编码19视频编码原理20视频压缩和标准216音频压缩技术根底24语音编码中的ADPCM24声音合成器247总结与展望26参考文献27致谢28绪论随着通信、计算机和群众传播这三大技术更紧密的融合,计算机已不局限于数值计算、文字处理的范畴,同时成为处理图形、图像、文字和声音等多媒体等多种信息的工具。数字化后的视频和音频等媒体信息具有数据海量性,与当前硬件技术所能提供的计算机存储资源和网络带宽之间有很大差距,可以通过数据压缩技术解决该关键问题。在多媒体计算机技术的开展与进步的进程中,数据压缩技术扮演着举足轻重的角色。本文重点介绍一些重要的压缩编码方法,也介绍现有的多媒体数据压缩的国际标准:、H.23
7、可视通信的国际标准。这些压缩算法和国际标准可以广泛地应用于多媒体计算机、多媒体数据库、常规电视数字化、高清电视HDTV以及交互式电视Interactive TV系统中。目前,正在开展应用的工程有:可视 、视频会议、多媒体电子邮件、音频、视频点播和IP 等。1 多媒体数据压缩技术概述1.1 多媒体数据压缩编码的必要性由于媒体元素种类繁多、构成复杂,即数字计算机所要处理、传输和存储等对象为数值、文字、语言、音乐、图形、动画、静态图像和电视视频图像等多种媒体元素,并且使他们在模拟量和数字量之间进行自由转换、信息吞吐、存储和传输。目前,虚拟现实技术要实现逼真的三维空间、3D立体声效果和在实境中进行仿真
8、交互,带来的突出的问题是媒体元素数字化后数据量大得惊人。在前几章中曾介绍过诸如声音、图像等信号的海量表现,下面不妨再举几个例子说明:1陆地卫星的水平、垂直分辨率分别为3240和2340,4波段、采样精度为7位,那么一幅图像的数据量为23403240730=795MB,每年的数据量高达283GB。2高保真立体声音频信号的采样频率为44.1kHz、16位采样精度,一分钟存储量为10.34MB。一片CD-ROM存储量为650MB可存放约63分钟的音乐。如果使用48 kHz采样频率的话,需要的存储量就更大了。3数字电视图像International Consultative Committee For
9、 Radio,ICCR格式,PAL制式、8:8:8采样,每帧数据量为72057625=29.75MB;一片CD-ROM只能存放6501.19=546帧图像,或一片CD-ROM可存储节目的时间为65029.75=21.85秒。从以上的例子可以看出,数字化信息的数据量十分庞大,无疑给存储器的存储量、通信干线的信道传输率以及计算机的速度都增加了极大的压力。如果单纯靠扩大存储器容量、增加通信干线传输率的方法来解决问题是不现实的。通过数据压缩技术可以大大降低数据量,以压缩的形式存储和传输,既节约了存储空间,又提高了通信干线的传输效率,同时也使计算机得以实时处理音频、视频信息,保证播放出高质量的视频和音频
10、节目。1.2 多媒体数据压缩的可能性(可行性)经研究发现,与音频数据一样,图像数据中存在着大量的冗余。通过去除那些冗余数据可以极大地降低原始图像数据量,从而解决图像数据量巨大的问题。图像数据压缩技术就是研究如何利用图像数据的冗余性来减少图像数据量的方法。因此,进行图像压缩研究的起点是研究图像数据的冗余性。1空间冗余。在静态图像中有一块外表颜色均匀的区域,在这个区域中所有点的光强和色彩以及色饱和度都相同,具有很大的空间冗余。这是由于基于离散像素采样的方法不能表示物体颜色之间的空间连贯性导致的。2时间冗余。电视图像、动画等序列图片,当其中物体有位移时,后一帧的数据与前一帧的数据有许多共同的地方,如
11、背景等位置不变,只有局部相邻帧改变的画面,显然是一种冗余,这种冗余称为时间冗余。3结构冗余。在有些图像的纹理区,图像的像素值存在着明显的分布模式。例如,方格状的地板图案等,称此为结构冗余。如果分布模式,就可以通过某一过程生成图像。4知识冗余。对于图像中重复出现的局部,我们可以构造出根本模型,并创立对应各种特征的图像库,进而使图像的存储只需要保存一些特征参数,从而可以大大减少数据量。知识冗余是模型编码主要利用的特性。5视觉冗余。事实说明,人的视觉系统对图像的敏感性是非均匀性和非线性的。在记录原始的图像数据时,对人眼看不见或不能分辨的局部进行记录显然是不必要的。因此,大可利用人的视觉的非均匀性和非
12、线性,降低视觉冗余。6图像区域的相同性冗余。它是指在图像中的两个或多个区域所对应的所有像素值相同或相近,从而产生的数据重复性存储,这就是图像区域的相似性冗余。在以上的情况下,当记录了一个区域中各像素的颜色值,那么与其相同或相近的其他区域就不需要记录其中各像素的值。采用向量量化Vector quantization方法就是针对这种冗余性的图像压缩编码方法。随着对人的视觉系统和图像模型的进一步研究,人们可能会发现图像中存在着更多的冗余性,使图像数据压缩编码的可能性越来越大,从而推动图像压缩技术的进一步开展1.3 压缩原理由于图像数据之间存在着一定的冗余,所以使得数据的压缩成为可能。信息论的创始人S
13、hannon提出把数据看作是信息和冗余度redundancy的组合。所谓冗余度,是由于一副图像的各像素之间存在着很大的相关性,可利用一些编码的方法删去它们,从而到达减少冗余压缩数据的目的。为了去掉数据中的冗余,常常要考虑信号源的统计特性,或建立信号源的统计模型。图像的冗余包括以下几种:(1) 空间冗余:像素点之间的相关性。 (2) 时间冗余:活动图像的两个连续帧之间的冗余。 (3) 信息熵冗余:单位信息量大于其熵。 (4) 结构冗余:图像的区域上存在非常强的纹理结构。 (5) 知识冗余:有固定的结构,如人的头像。 (6) 视觉冗余:某些图像的失真是人眼不易觉察的。对数字图像进行压缩通常利用两个
14、根本原理:(1) 数字图像的相关性。在图像的同一行相邻像素之间、活动图像的相邻帧的对应像素之间往往存在很强的相关性,去除或减少这些相关性,也就去除或减少图像信息中的冗余度,即实现了对数字图像的压缩。(2) 人的视觉心理特征。人的视觉对于边缘急剧变化不敏感(视觉掩盖效应),对颜色分辨力弱,利用这些特征可以在相应局部适当降低编码精度,而使人从视觉上并不感觉到图像质量的下降,从而到达对数字图像压缩的目的1.4 多媒体数据压缩方法分类。第一种 分类方法是根据解码后数据是否能够完全无丧失地恢复原始数据, 可分为两种:1无损压缩:也称为可逆压缩、无失真编码、熵编码等。工作原理为去除或减少冗余值,但这些被去
15、除或减少的冗余值可以在解压缩时重新插入到数据中以恢复原始数据。它大多使用在对文本和数据的压缩上,压缩比拟低,大致在2:15:1之间。典型算法有:哈夫曼编码、香农-费诺编码、算术编码、游程编码和Lenpel-Ziv编码等。2有损压缩:也称不可逆压缩和熵压缩等。这种方法在压缩时减少了数据信息是不能恢复的。在语音、图像和动态视频的压缩中,经常采用这类方法。它对自然景物的彩色图像压缩,压缩比可到达几十倍甚至上百倍。第二种分类方法是按照压缩技术所采用的方法来分的,如P111表6-1所示表6-1 多媒体数据编码算法分类PCM自适应式、固定式 多 媒 体 数 据 编 码 算 法预测编码自适应式、固定式DPC
16、M、M混合编码变换编码傅里叶、离散余弦、离散正统、哈尔、斜变换、沃尔-哈达马、卡胡南-劳夫K-L、小波统计编码(熵编码)哈夫曼编码、算术编码、费诺编码、香农编码、游程编码RLE、LZW静态图像编码方块、逐渐浮现、逐层内插、比特平面、抖动电视编码帧内预测帧间编码运动估计、运动补偿、条件补充、内插、帧间预测其他编码矢量量化、子带编码、轮廓编码、二值图像实际上连续模拟信号进行数字采样表示时,通常采用奈斯特采样速率。假设量化器为N级,即N=2b,那么每一个采样的样本用b位的二进制代码表示。在信号的量化中,每一色彩分量一般用8位表示。PCM编码器和解码器位于一个图像编码系统的起点和终点,它们实际上分别是
17、A/D转换器和D/A转换器,以下所讨论的压缩技术编码方法都是在多媒体数据模拟信号经过编码后再进行2第二种分类方法是按具体编码算法来分:1预测编码Predictive Coding,PC:这种编码器记录与传输的不是样本的真实值,而是真实值与预测值之差。对于语音,就是通过预测去除语音信号时间上的相关性;对于图像来讲,帧内的预测去除空间冗余、帧间预测去除时间上的冗余。预测值由预编码图像信号的过去信息决定。由于时间、空间相关性,真实值与预测值的差值变化范围远远小于真实值的变化范围,因而可以采用较少的位数来表示。另外,假设利用人的视觉特性对差值进行非均匀量化,那么可获得更高压缩比。2变换编码Transf
18、orm Coding,TC:在变换编码中,由于对整幅图像进行变换的计算量太大,所以一般把原始图像分成许多个矩形区域,对子图像独立进行变换。变换编码的主要思想是利用图像块内像素值之间的相关性,把图像变换到一组新的“基上,使得能量集中到少数几个变换系数上,通过存储这些系数而到达压缩的目的。采用离散余弦编码DCT变换消除相关性的效果非常好,而且算法快速,被普遍接受。3统计编码:最常用的统计编码是哈夫曼编码,出现频率大的符号用较少的位数表示,而出现频率小的符号那么用较多位数表示,编码效率主要取决于需要编码的符号出现的概率分布,越集中那么压缩比越高。哈夫曼编码可以实现熵保持编码,所以是一种无损压缩技术,
19、在语音和图像编码中常常和其他方法结合使用。分析-合成编码实质上都是通过对原始数据的分析,将其分解成一系列更适合于表示“基元或从中提取假设干具有更为本质意义的参数,编码仅对这些根本单元或特征参数进行。译码时那么借助于一定的规那么或模型,按一定的算法将这些基元或参数,“综合成原数据的一个逼近。这种编码方法可能得到极高的数据压缩比。 混合编码综合两种以上的编码方法,这些编码方法必须针对不同的冗余进行压缩,使总的压缩性能得到加2 第二章 无损压缩算法2.1 游程编码这种数据压缩思想:如果数据项d在输入流中连续出现n次,那么以单个字符对nd来替换连续出现n次的数据项,这n个连续出现的数据项叫游程n,这种
20、数据压缩方法称游程编码(RLE),其实现流程如图1所示。RLE算法具有实现简单,压缩复原速度快等优点,只需扫描一次原始数据即可完成数据压缩。其缺点是呆板,适应性差,不同的文件格式的压缩率波动大,平均压缩率低。实践说明,RLE能够压缩复杂度不高的原始点阵图像。2.2 基于字典编码技术的LZW算法LZW算法是LZ78的流行变形,由Terrv Welch在1984年开发。LZW算法首先将字母表中的所有字符初始化到字典,常用8位字符,在输入任何数据前优先占用字典的前256项(0255)。LZW编码的原理:编码器逐个输入字符并累积一个字符串I。每输入一个字符那么串接在I后面,然后在字典中查找I;只要找到
21、I,该过程继续执行搜索。直到在某一点,添加下一个字符x导致搜索失败,这意味着字符串I在字典中,而Ix(字符x串接在I后)却不在。此时编码器输出指向字符串,的字典指针;并在下一个可用的字典词条中存储字符串Ix;把字符串I预置为x。其压缩流程如图2所示。因为字典的前256项被占用,因此字典指针必须高于8位。由于LZW算法的字典中的字符串每次仅增加一个字符。因此,要获得长字符串那么需较长时间,这样才能较好地压缩IZW编码能够适应输入数据。LZW算法与其他算法相比具有自适应的特点,即可以根据压缩内容不同来建立不同字典,以减少冗余度,提高压缩比;并且解压时这个字典无需与压缩代码同时传送,而是在解压过程中
22、逐步建立与压缩时完全相同的字典,从而完整、准确地恢复被压缩内容。因此,LZW算法是一种解码速度与压缩性能较好的压缩算法。实现LZW算法需要考虑以下几点:(1)字典建立(数据结构与字典大小) LZW字典的数据结构是一棵多叉树。字典越大,代替的子串越多。但应用中字典容量那么受一定限制,要权衡利弊选择适宜的字典。(2)字典维护与更新 字典指针由哈希函数生成。正确选择哈希函数非常重要,这将影响执行效率。正确的哈希函数所产生的重复值极少,这样检索字符串所需比拟次数也较少,从而可有效提高代码的执行效率。当字典满时,字典的维护和更新对压缩率也是至关重要的。可重新从初始状态建立字典;也可监测压缩率,当压缩率变
23、坏时全部或局部去除字典。(3)压缩数据代码长度 压缩时,输入数据一般是8位。但压缩后的输出是转化的字符串代码,其中0255为8位码,256为9位码,25l512为10位码,l 024为11位码。解压那么相反,需要位操作。因此,输出可以从9位码开始,随着字典内容的增加,码字也逐渐增加。这样可提高执行效率,但在译码时需考虑不等长码的识别,可通过设置标志位来解决。2.3 哈夫曼算法哈夫曼算法的过程为:统计原始数据中各字符出现的频率;所有字符按频率降序排列;建立哈夫曼树:将哈夫曼树存入结果数据;重新编码原始数据到结果数据。哈夫曼算法实现流程如图3所示。哈夫曼算法的实质是针对统计结果对字符本身重新编码,
24、而不是对重复字符或重复子串编码。实用中符号的出现频率不能预知,需要统计和编码两次处理,所以速度较慢,无法实用。而自适应(或动态)哈夫曼算法取消了统计,可在压缩数据时动态调整哈夫曼树,这样可提高速度。因此,哈夫曼编码效率高,运算速度快,实现方式灵活。采用哈夫曼编码时需注意的问题:(1)哈夫曼码无错误保护功能,译码时,码串假设无错就能正确译码;假设码串有错应考虑增加编码,提高可靠性。(2)哈夫曼码是可变长度码,因此很难随意查找或调用压缩文件中间的内容,然后再译码,这就需要在存储代码之前加以考虑。(3)哈夫曼树的实现和更新方法对设计非常关键。2.4 基于算术编码的压缩算法算术编码压缩也是一种根据字符
25、出现概率重新编码的压缩方案。该思想和哈夫曼编码有些相似,但哈夫曼编码的每个字符需用整数个位表示。而算术编码方法那么无这一限制,它是将输入流视为整体进行编码。虽然算术编码压缩率高但运算复杂,速度慢。3 有损压缩算法3.1 量化在多媒体应用中的图像压缩需要较高的压缩率,通常采用有损压缩方法,在有损压缩中,被压缩的图像和原图像一般不完全相同,而是得到一个感觉上与原图像的接近的近似结果。对于任何有损方法,量化都是其核心。量化又分为均匀标量量化与非均匀标量量化,均匀标量量化器将输入值域划分为等距的区间,每个区间对应的输出值取该点的中点值,区间的长度称作步长,均匀标量量化器分为两种;中高型和中宽型。在中宽
26、型量化器中,0可以作为一个输出值,而中高型量化器有一个包含0区间中高型量化器用于输出级数为偶数的情形,中宽型那么用于输出级数为奇数的情形。如果输入源不是均匀分布的,均匀量化器就可能失去作用。在源密集区域增加判断级数量可以有效地降低细粒失真。另外,还可以扩大源稀疏分布的区域而不必增加总的判断级数量。非均匀有两种常用的方法:LIoyd-Max量化器和压缩扩展量化器,在压缩扩展量化中,输入通过一个压缩函数G映射后由一个均匀量化器进行量化。经过变换后在扩展函数将量化后的值映射回去。3.2 变长编码变长编码的根本原理:如果Y是对输入向量X进行线性变换T的结果,线性变换T的元素间的相关性比X中元素的相关性
27、更弱,那么对Y的编码效率就比对X编码的效率高。例如,如果一张RGB图片的大局部信息都包含在一条主轴线上,旋转后市的轴线方向是第一个元素,这样亮度就可以采取与颜色信息不同的压缩,这样更能够接近人眼的亮度信道。一般而言,变化T不对数据进行压缩,压缩是由对Y的分量的量化和处理完成的。解除输入相关性的工具:离散余弦变换DCT,Karhunen-Loeve变换KLT这是一种接触输入的相关性的最正确方法。离散余弦变化是一种广泛应用的变换变法用法,它能够以数据无关的方式解除输入之间的相关性。KLT是一种可逆的线性变换,它应用了向量表述的统计学性质。它主要的特征就是能够很好的解除输入的相关性,为此,他在数据附
28、近找到一个N维椭球体,该椭球体的长轴方向就是数据变换较大的方向。由于KLT依赖于输入向量自相关矩阵的计算,因而它是数据相关的,对每个数据集都要重新进行计算。3.3 小波编码 近年来常用的分解方法是小波变换。它采用一组称为小波的基函数来表示信号,可以在时域和频域上都得到很好的分辨率。小波变换有两种类型:连续小波变换和离散小波变换。连续小波变换应用于是实数域上平方可积的函数F(x)。离散小波变换用于处理输入信号的离散采样。在图像处理和压缩中非常有用。小波变换的目的就是处理图像不同局部的内容,当图像出现高频和低频之分时那么可以使用灵活性较强的小波变换。离散小波也是一个从母函数中派生出来的,但是平移和
29、缩放都是离散的,缩放函数的作用是对信号进行缩放平滑。所以它的实际效果类似于低通滤波器,滤去高频局部。一个完整的离散信号是由从0开始的,幅度为离散值的脉冲组成。离散小波变换扩张到二维空间很简单,如果一个二维缩放函数能够分解成两个以为缩放函数,那么该二维缩放函数成为可分解的:F(x,y)=F(x)F(y) 2H0n 2H1n 2 2 2H0nH1n 2 2H0nH1n22H0nH1n 2 2H0nH1n2H0nH1n2一维双通道小坡变换示意图 LL2 HL2 HL1 LH2 HH2 LH1 HH2LL HLLH HHa一阶变换 二维离散小波变换 图 b二阶变换3.4 小波包小波包可以看做对小波的通
30、用化。在通常的二元小波分解中,只有低通滤波子带被递归分解,因而结果可以表示为对数树结。然而,小波包分解可以用全树任何构子树表示。小波包分解具有以下优点:A灵活性。因为在某种程度上寻找性能最优的奇函数可以从大量的准入函数库中选取。B在频域和空域上都具有良好的定位性。C计算复杂度小,因为任一分解都可以用快速滤波器库完成,复杂度为NN.小波包目前应用广泛,例如图像压缩、信号去噪处理、指纹检测4 图像压缩标准4.1 JPEG标准JPEG是由联合国图像专家组开发的一种图像压缩标准,他是有损的图像压缩方法,下列图给出了一个JPEG编码器的示意图。逆着箭头看,就得出了一个JPEG的解码器。JPEG的编码由以
31、下步骤:1.把RGB转换为YIO或YUV,并且二次踩样。2对图像块进行DCT变换。量化器DCT量化表编码表熵编码DPCMRLC JPEG编码器的模块图JPEG标准支持多种模式,一些常用的模式有:顺序模式,渐进模式,分级模式,无损模式。顺序模式是JPEG默认的一种模式,它多灰度图和彩色图像分量进行从左到右、从上到下的扫描并编码。渐进式JPEG首先快速传递低质量的图像,接着传送高质量的图像,这种模式在网页浏览中得到广泛应用。分级JPEG对处于不同分辨率层次中的图像进行编码。无损JPEG是JPEG的一种特殊情况,他没有图像的损失,只采用了一种简单的微分编码方法,不涉及任何的变换编码。4.2 JPEG
32、 2000标准 JPEG标准是迄今为止最为成功和通用的图像格式。它成功的主要原因就在于它的在相对出色的压缩率下仍有很好的输出质量。为了满足需求出现了新的标准,即JPEG 2000标准。新的JPEG 2000标准不仅在压缩率失真间进行了很厚的权衡,改善了图像的质量,而且新增了现有的JPEG标准所缺乏的一些功能,特别是,还可以解决地位率压缩、无损和有损压缩、大图像、单一的解压体系结构、噪声环境中的传输、渐进传输、感兴趣区域编码、计算机生成的影像、复合文件。另外,JPEG 2000能处理256路的信息 ,因此它使用各种应用。JPEG 2000中使用的主要压缩方法是带有优化截断嵌入式块编码EBCOT算
33、法,它的根本思想是首先将图像进行小波变换,生成子带LL、LH、HL、HH、再将这些子带划分成小块,这些小块称为码块。每一个码块都独立编码,因而不会用到其他快的信息。EBCOT算法包括以下三个步骤:1码块和位流的生成。2压缩后比例失真优化。3层格式化及表示。JPEG 2000采用EBCOT算法作为主要的编码方法。但是,这个算法作了少量的修改以提高压缩率并减少计算复杂度。为了进一步提高压缩效率,与原来在所有上下文中使用等概率状态来初始化熵编码器不同,JPEG 2000标准假设对于某些上下文分布很不对称,以此来减少对典型图像的模型适应代价。同时,对原有的算法进行了一些调整以进一步减少时间执行时间。J
34、PEG 2000标准的一个重要特征就是可以实现感兴趣区域编码。这样,相对于图像的背景或其他局部来说,某些局部可以采取高质量编码。4.3 JPEG-LS标准通常来说,我们会采用一种无损压缩方案来处理某些重要的图像,可以与JPEG-2000中的无损模式相媲美的标准是JPEG-LS标准,目的是实现无损编码。JPEG-LS与JPEG-2000相比,主要优点是采用的算法复杂度低。JPEG-LS是ISO对医学图像建立更好标准的努力结果。它的核心算法称为图像的低复杂度无损压缩算法LOCO-I,由惠普公司提出的,该算法的设计根底是,降低复杂性通常要比采用更复杂的压缩算法使压缩结果稍有提高更为重要。LOCO-I
35、采用上下建模的概念。上下建模的思想是利用输出源中的结构在图像中每一个像素之后出现的像素值的条件概率。LOCO-I可以分解为以下三个局部:预测 用因果模板预测下一个样本X的值。确定上下文 决定X出现的上下文条件。残差编码 以X的上下文为条件对预测的残差作熵编码。 XBDAC JPEG-LS上下文模块JPEG-LS标准也提供准无损模式,其中,重建的样本与原来样本相差不超过某个x无损JPEG-LS模式可被看作误差模式x=0时的特例。4.4 二值图像压缩标准由于越来越多地使用电子形式来处理文档,因此越来越需要能够有效压缩二值图像的方法。JBIG是由联合二值图像专家组提出的二值图像的编码标准。这种无损压
36、缩标准主要用来为打印的图像和手写的文本、由计算机产生的文字和 进行编码。它具有渐进的编码和解码能力,这种标准也可以用来独立的为每一个平面来编码灰度和彩色图像,JBIG压缩标准具有三种独特的操作模式:渐进式、渐进-兼容序列式和单渐进序列式。渐进-兼容序列式使用语渐进模式一致的位流,唯一不同的是,在这种模式下数据被分成“条。单渐进序列模式具有唯一的最低的分辨率层。因此,可以在不参照其他较高分辨率层的情况下为政府图像编码。这两种模式都可以看做渐进模式的特例。JBIGL编码器可以分解成两个局部: 分辨率缩减和差分层编码器。 最低分辨率层编码器。输入图像经过一系列分辨率缩减和差分层编码器。每一个编码器在
37、功能上是相同的,只是他们输入图像具有不同的分辨率。最低分辨率的图像使用最低分辨率层编码器来进行编码。尽管JBIG标准提供提供无损和渐进的编码功能,此标准产生的有损图像与原始图像相比,质量上相差很多,因为有损图像的像素数目最多只能有原始图像像素数目的1/4。相比而言,JBIG2标准用于有损、无损和有损至无损图像的压缩。JBIG2的目标不仅在于提供比已有,标准更好的无损压缩性能,而且要更能融合有损压缩标准,在提高压缩率的前提下,尽可能减少视觉下降。JBIG2的独特之处在于它具有质量渐进和内容渐进。质量渐进的意思是,它的位流和JBIG标准的表现相似,在JBIG标准中,图像质量从低向高甚至可能无损渐进
38、。另一方面,内容渐进允许不同类型的图像数据可以渐进相加。JBIG2编码器将输入的二值图像分解成具有不同属性的区域,并且对每一局部使用不同的方法分别进行编码。JBIG2可以进行内容渐进编码和通过基于模型的编码提供较好的压缩性能。在基于模型的编码中,在一个图像中为不同的数据构造不同模型,这样就可实现附加的编码增益。JBIG2标准要求编码首先将输入图像分割成不同数据类型的区域,特别是文本和半色调区域,然后每个区域再根据各自的特征分别编码。5 基于视频压缩技术5.1 视频编码视频是由一系列的时间上有序的图像所组成的。解决视频压缩的一个简单方案就是基于前面的真的预测。视频压缩技术是计算机处理视频的前提。
39、视频信号数字化后数据带宽很高,通常在20MB/秒以上,因此计算机很难对之进行保存和处理。采用压缩技术以后通常数据带宽右以降到1-10MB/秒,这样就可以将视频信号保存在计算机中并作相应的处理。常用的算法是由ISO制订的,即JPEG和MPEG算法。JPEG是静态图像压缩标准,适用于连续色调彩色或灰度图像,它包括两局部:一是基于DPCM(空间线性预测)技术的无失真编码,一是基于DCT(离散余弦变换)和哈弗曼编码的有失真算法,前者压缩比很小,主要应用的是后一种算法。在非线性编辑中最常用的是MJPEG算法,即Motion JPEG。它是将视频信号50帧/秒(PAL制式)变为25帧/秒,然后按照25帧/
40、秒的速度使用JPEG算法对每一帧压缩。通常压缩倍数在3.5-5倍时可以到达Betacam的图像质量。MPEG算法是适用于动态视频的压缩算法,它除了对单幅图像进行编码外还利用图像序列中的相关原那么,将冗余去掉,这样可以大大提高视频的压缩比。前MPEG-I用于VCD节目中,MPEG-II用于VOD、DVD节目中。1 音频视频编码及文件格式容器是一个很庞大的知识领域,完整的说清楚,那就需要些写成一本教材了。这里先就几个简单的概念问题作以介绍: 首先要分清楚媒体文件和编码的区别: 文件是既包括视频又包括音频、甚至还带有脚本的一个集合,也可以叫容器; 文件当中的视频和音频的压缩算法才是具体的编码。 也就
41、是说一个.avi文件,当中的视频可能是编码a,也可能是编码b,音频可能是编码5,也可能是编码6,具体的用那种编码的解码器,那么由播放器按照avi文件格式读取信息去调用了。 5.2 视频编码原理视频图像数据有极强的相关性,也就是说有大量的冗余信息。其中冗余信息可分为空域冗余信息和时域冗余信息。压缩技术就是将数据中的冗余信息去掉去除数据之间的相关性,压缩技术包含帧内图像数据压缩技术、帧间图像数据压缩技术和熵编码压缩技术。去时域冗余信息使用帧间编码技术可去除时域冗余信息,它包括以下三局部: 运动补偿 运动补偿是通过先前的局部图像来预测、补偿当前的局部图像,它是减少帧序列冗余信息的有效方法。 运动表示
42、 不同区域的图像需要使用不同的运动矢量来描述运动信息。运动矢量通过熵编码进行压缩。 运动估计 运动估计是从视频序列中抽取运动信息的一整套技术。 通用的压缩标准都使用基于块的运动估计和运动补偿。 去空域冗余信息主要使用帧内编码技术和熵编码技术: 变换编码 帧内图像和预测差分信号都有很高的空域冗余信息。变换编码将空域信号变换到另一正交矢量空间,使其相关性下降,数据冗余度减小。 量化编码经过变换编码后,产生一批变换系数,对这些系数进行量化,使编码器的输出到达一定的位率。这一过程导致精度的降低。 熵编码熵编码是无损编码。它对变换、量化后得到的系数和运动信息,进行进一步的压所缩。5.3推动H.261视频
43、标准开展的过去是、而且现在也是ISDN综合业务数字网一个窄带ISDN 连接的一个或两个B通道能传递视频数据并附加音频。这需要经由该通道连接的两个伙伴必须使用一样的图像数据编码方法。在北美,一个窄带ISDN连接中,用 户接口上只有两个B通道和一个D通道可用。欧洲的ISDN允许一个连接有30个B通道。H.263是今天可用的最好的技术之一。H.263编码算法与H.261类似,但有改良和修改以便进一步改善性能和增加误差校正。 H.263支持五种分辨率。除了支持H.261的QCIF和CIF外,H.263也支援SQCIF、4CIF和16CIF。SQCIF 约为QCIF分辨率的一半。4CIF和16CIF分别
44、对应4和16倍CIF的分辨率。支持4CIF和16CIF意谓着codec无疑地能与其他的高位输率编码标准如MPEG等竞争。1编码算法H.261 标准使用帧内intraframe 和帧间interframe两种不同的方法编码。帧内编码在H.261只考虑来自正被编码的图像数据,这在MPEG对应于图像内 intrapicture编码。在H.261中的帧间编码使用来自其他的图像数据,这对应于MPEG中P-帧编码。H.261标准不对使用什么模式或其他特定的参数作出规定。这些决断必须在编码期间作出,因此他们与具体的实现有关。不像H.261,H.263推荐四个可协商的帧内编码模式。这些可被分开使用或一起用。一
45、个例外是先进的预测模式需要使用无限制的运动矢量模式。下面简短描述增加到 H.263的新的帧内编码模式。1. 基于语法的算术编码模式定义使用算术编码代替变长度编码。这使得同一图像恢复能力具有更好的压缩效率。2. PB-帧模式通过将两个图像编码成一个单元,能够不改变位率而增加帧率。图像一定是一预测帧,或P帧,以及一从前一P帧和当前P帧双向预测产生的B帧如MPEG定义的。3. 无限制的运动矢量模式使可能为运动矢量指出图像外部边界。这特别对运动方向在边沿的小图像运动有用。4.先进预测模式P-帧亮度使用交叠的块运动补偿OBMC,Overlapped Block Motion Compensation技术
46、。每个宏块编码器能使用一个1616 矢量或4个88矢量。使用比拟小的矢量需要更多的位元但是产生更好的预测,并且特别是少量的产物。像JPEG一样,为帧内编码,使用DCT,每个88像素块被变换成64个系数。这里,DC-系数量化也与交流系数不同。下一个步骤是使用变长度码词形成熵编码。在帧间编码中,使用了一种预测方法来发现前面的图像中最相似的宏块。运动矢量由之前的宏块相对于当前宏块的位置来定义。依照H.261,一个成码器不需要 能确定一个运动矢量。如此,一个简单的H.261实现总是只能考虑在位於连续图像相同位置宏块之间的不同。在这种情况下,运动矢量总是零矢量。 接下来,处理运动矢量和基于DPCM编码的
47、宏块。如果并且只有当其值超过阈值时,后者用DCT进行变换。如果差小於阈值,该宏块不被编码而只有运动矢量被 处理。运动矢量的成分是熵,使用变长编码。这是无损的。变换系数全部是线性量化,熵那么使用变长码词。一个可选择的光低通滤波器可插入在DCT和熵编码之间。这个滤波器删除任何剩余高频杂音。实现H.261不需要混合这个滤波器。H.261使用线性量化。可依照传输缓冲区中数据数量调整步长大小,保证编码器以一个固定的数据传送速率输出。这个反应也影响图像质量。2 数据流依照H.261/H.263,一个数据流被分为一些层,底层包含被压缩的图像。下面列出H.261和 H.263中的一些有趣的特性:数据流包含过失
48、校正信息, 虽然推荐使用外部过失校正例如H.223。在H.261中的每个图像包括一个5位数,可作为临时参考。H.263使用8位图像数。在解码期间,可以向解码器发送一个命令冻结freeze 最后显示的视频帧,使其成为一个静止帧。这允许应用不用任何附加的努力就能停止/冻结和开始/播放一个图像场景。使用编码器发送的一个附加指令, 可以在静止图像和运动图像之间切换。代替使用此命令,也可以使用一个时间结束信号。3H.263+ 和 H.263LH.263+是方案对现存的H.263标准的一个扩充。其改良或许很小,尤其在编码选择项方面。将会被吸收在H.263+中的方法例子有44 DCT,改良的帧间编码,以及预
49、测回路中的一个去块deblocking滤波器。和H.263+相比,H.263L是在一个更长的时间水平线对H.263的一大改良。期望有更大的改变。H.263L正好与MPEG-4的开发同时。6 音频压缩技术根底6.1 语音编码中的ADPCM ADPCM构成ITU的语音压缩标准G.721、G.732、G.726和G.727的核心。这些标准的区别设计码率和算法的某些细节。ADPCM的语音性能可以到达让32kbps的语音质量仅次于标准的64kbps PCM传输,而优于DPCMITU的G.726标准取代了G.721和G.723。他提供了另一个版本的G.711,其中包括低码率的扩展。G.726是使用固定量化补偿的后向自适应jayant量化器,其步长是基于输入差值信号en除以a的对数确定的。除数a的对数形式为:b=log2a6.2 声音合成器声音合成器是专门的声音编码器。他无法应用于其他类型的模拟信号,声
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 静脉导管维护试题和答案
- 份呼吸与危重症医学科气管镜培训试题及答案
- 2025年大学生急救技能竞赛试题及答案
- 会展场馆管理师入职考核试卷及答案
- 煤矿安全培训现状
- 铌碳还原火法冶炼工适应性考核试卷及答案
- 汽轮机装配调试工成本预算考核试卷及答案
- 陶瓷成型施釉工专业知识考核试卷及答案
- 钒铁沉淀工标准化作业考核试卷及答案
- 电器附件零部件制造工抗压考核试卷及答案
- 社区合理用药讲课
- 2022 CSCO胃癌诊疗指南
- GB/T 26955-2011金属材料焊缝破坏性试验焊缝宏观和微观检验
- 马克思主义基本原理概论 第六章
- 大学预算绩效管理办法(试行)模板
- 西方音乐史全套完整教学课件
- 急诊急救护理教学课件
- 最新医疗安全十八项核心制度课件
- 住宅小区供配电系统设计课件
- 社保费和非税收入课件
- “三高”讲座-课件
评论
0/150
提交评论