多媒体技术基础08.ppt_第1页
多媒体技术基础08.ppt_第2页
多媒体技术基础08.ppt_第3页
多媒体技术基础08.ppt_第4页
多媒体技术基础08.ppt_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八讲,mpeg压缩标准,主要内容,mpeg概念 mpeg-1 mpeg-2 mpeg-4 mpeg-7 mpeg audio mpeg video,mpeg概念,mpeg(moving picture expert group)是在1988年由国际标准化组织(iso)和国际电工委员会(iec)联合成立的专家组,负责开发电视图像数据和声音数据的编码、解码和它们的同步等标准,这个专家组开发的标准称为mpeg标准。,mpeg概念,到目前为止,已经开发和正在开发的mpeg标准有: mpeg-1:数字电视标准,1992年正式发布。 mpeg-2:数字电视标准。 mpeg-3:已于1992年7月合并到高清晰度电视工作组。 mpeg-4:多媒体应用标准(1999年发布)。 mpeg-5:直至1998年9月还没有见到定义。 mpeg-6:直至1998年9月还没有见到定义。 mpeg-7:多媒体内容描述接口标准(正在研究)。 mpeg-1和-2标准已经正式发布,并且得到广泛应用。,mpeg-1,mpeg-1处理的是标准图像交换格式(standard interchange format,sif)或者称为源输入格式(source input format,sif)的电视,即ntsc制为352像素 240行/帧 30帧/秒,pal制为352像素 288行/帧 25帧/秒,压缩的输出速率定义在1.5 mbit/s以下。这个标准主要是针对当时具有这种数据传输率的cd-rom和网络而开发的,用于在cd-rom上存储数字影视和在网络上传输数字影视。,mpeg-1,mpeg-1标准号为iso/iec 11172,它由五部分组成: mpeg-1系统( mpeg-1 systems ):规定视频数据、声音数据及其他相关数据的同步合成技术 mpeg-1视频编码标准(mpeg-1 video) mpeg-1音频编码标准(mpeg-1 audio) mpeg-1一致性测试:详细说明如何测试比特数据流和解码器是否满足mpeg-1前3个部分(part1,2和3)中所规定的要求。 mpeg-1软件模拟:一个技术报告,给出了软件执行mpeg-1前3个部分的运行结果。,mpeg-1,输入、输出指标:,mpeg视频 编码器,3522882581.5,3522403081.5,30mb/s,1.15mb/s,26 : 1,mpeg-2标准从1990年开始研究,1994发布dis。它是一个直接与数字电视广播有关的高质量图像和声音编码标准。mpeg-2可以说是mpeg-1的扩充,因为它们的基本编码算法都相同。但mpeg-2增加了许多mpeg-1所没有的功能,例如增加了隔行扫描电视的编码,提供了位速率的可变性能(scalability)功能。mpeg-2要达到的最基本目标是:位速率为49 mbit/s,最高达15 mbit/s。,mpeg-2,mpeg-2(续),mpeg-2的标准号为iso/iec 13818,它主要由以下几部分组成: mpeg-2系统( mpeg-1 systems ) mpeg-2视频编码标准(mpeg-2 video) mpeg-2音频编码标准(mpeg-2 audio) mpeg-2高级音频编码标准(mpeg-2 aac) 与mpeg-1一样,mpeg-2只规定了码流结构和解码器算法规则,而把实际编码器模型向设计者开放,以提供更多的选择性和自由度。,mpeg-2 video与mpeg-1的基本编码算法相同,只是增加了如下功能: (1)能够在很宽的范围内对不同分辨率和不同输出比特率的图像信号有效的进行压缩。 (2)处理隔行扫描的视频信号的能力。 (3)多样化的取样模式:4:2:0,4:2:2,4:4:4 (4)可伸缩(scalable)的视频编码模式: 编码时可以在图像质量和数据速率之间作出调整 解码时只对码流的一部分进行解码和对码流的全部进行解码能够分别获得不同质量的重建图像。,mpeg-2(续),(1)信噪比伸缩性(signal-to-noise scalability) (2)空间分辨率伸缩性(spatial scalability) (3)时间分辨率伸缩性(temporal scalability),mpeg-2(续),为了适应不同应用的需要,mpeg-2引入了配置(profiles)和等级(levels)的概念,每种配置定义一套新的算法,而每一个等级指定一套参数范围(如图像大小、帧速率和位速率)。,mpeg-2(续),mpeg-2的配置,mpeg-2(续),mpeg-2的等级,mpeg-2(续),mpeg-2的配置与等级的组合,mpeg-2(续),mpeg-4,mpeg-4从1994年开始工作,目标是为视听(audio-visual)数据的编码和交互播放开发算法和工具,它是一个数据速率很低的多媒体通信标准。mpeg-4 算法的核心是支持基于内容的(content-based)的编码和解码功能,也就是对场景中使用分割算法抽取的单独的物理对象进行编码和解码。,mpeg-4(续),mpeg-4将应用在移动通信和公用电话交换网(public switched telephone network,pstn)上,并支持可视电话(videophone)、电视邮件(video mail)、电子报纸(electronic newspapers)和其他低数据传输速率场合下的应用。,mpeg-4文件有6个部分,它们是: mpeg-4系统标准 mpeg-4电视图像标准 mpeg-4声音标准 mpeg-4一致性测试标准 mpeg-4参考软件 mpeg-4传输多媒体集成框架,mpeg-4(续),mpeg-7,mpeg-7工作于1996年启动,名称叫做多媒体内容描述接口(multimedia content description interface) ,目的是制定一套描述符标准,用来描述各种类型的多媒体信息及它们之间的关系,以便更快更有效地检索信息。这些媒体材料可包括静态图像、图形、3d模型、声音、话音、电视以及在多媒体演示中它们之间的组合关系。在某些情况下,数据类型还可包括面部特性和个人特性的表达。 mpeg-7的处理链(processing chain) 中包含有三个方框:特征抽取(feature extraction)、标准描述(standard description)和检索工具(search engine)。,mpeg-7的应用领域包括:数字图书馆(digital library),例如图像目录、音乐词典等;多媒体目录服务(multimedia directory services),例如黄页(yellow pages);广播媒体的选择,例如无线电频道,tv频道等;多媒体编辑,例如个人电子新闻服务,多媒体创作等等。潜在应用的应用领域包括:教育、娱乐、新闻、旅游、医疗、购物等等。,mpeg-7(续),mpeg-audio,听觉系统的感知特性 mpeg audio与感知特性的关系 mpeg-1 audio mpeg-2 audio mpeg-2 aac,感知特性-对响度的感知,声音的响度就是声音的强弱。在物理上,声音的响度使用客观测量单位来度量,即dyn/cm2(达因/平方厘米)(声压)或w/cm2(瓦特/平方厘米)(声强)。在心理上,主观感觉的声音强弱使用响度级“方(phon)”或者“宋(sone)”来度量。这两种感知声音强弱的计量单位是完全不同的两种概念,但是它们之间又有一定的联系。,当声音弱到人的耳朵刚刚可以听见时,我们称此时的声音强度为“听阈”,另一种极端的情况是声音强到使人耳感到疼痛,这个声音强度为“痛阈”。例如,1 khz纯音的声强达到10-16w/cm2(定义成零db声强级)时,人耳刚能听到,此时的主观响度级定为零方,频率为1 khz的纯音的声强级达到120 db左右时,人的耳朵就感到疼痛,此时的主观响度级定为120方。 实验表明,听阈是随频率变化的。测出的“听阈频率”曲线如下图所示。,感知特性-对响度的感知(续),听阈频率曲线,感知特性-对响度的感知(续),图中最靠下面的一根曲线叫做“零方等响度级”曲线,也称“听阈”曲线,即在安静环境中,能被人耳听到的纯音的最小值;图中最靠上面所示的一根曲线叫做“120方等响度级”曲线,也称“痛阈”曲线。 在“听阈频率”曲线和“痛阈频率”曲线之间的区域就是人耳的听觉范围。这个范围内的等响度级曲线也是用同样的方法测量出来的。由图9-01可以看出,1 khz的10 db的声音和200 hz的30 db的声音,在人耳听起来具有相同的响度。 此图说明人耳对不同频率的敏感程度差别很大,其中对2 khz4 khz范围的信号最为敏感,幅度很低的信号都能被人耳听到。而在低频区和高频区,能被人耳听到的信号幅度要高得多。,感知特性-对响度的感知(续),客观上用频率来表示声音的音高,其单位是hz。而主观感觉的音高单位则是“美(mel)”,主观音高与客观音高的关系是 其中 的单位为hz,这也是两个既不相同又有联系的单位。 人耳对响度的感觉有一个范围,即从听阈到痛阈。同样,人耳对频率的感觉也有一个范围。人耳可以听到的最低频率约20 hz,最高频率约18000 hz。 实验表明,音高与频率之间也不是线性关系。测出的“音高频率”曲线如下图所示。,感知特性-对音高的感知,感知特性-对音高的感知(续),一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。前者称为掩蔽声音(masking tone),后者称为被掩蔽声音(masked tone)。掩蔽可分成频域掩蔽和时域掩蔽。,感知特性-掩蔽效应,1. 频域掩蔽 一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽(simultaneous masking)。频域掩蔽有以下特性: 在250 hz、1 khz、4 khz和8 khz纯音附近,对其他纯音的掩蔽效果最明显。 低频纯音可以有效地掩蔽高频纯音,但高频纯音对低频纯音的掩蔽作用则不明显。 弱纯音离强纯音越近就越容易被掩蔽。 如下图所示。,感知特性-掩蔽效应(续),感知特性-掩蔽效应(续),由于声音频率与掩蔽曲线不是线性关系,为从感知上来统一度量声音频率,引入了“临界频带(critical band)”的概念。通常认为,在20 hz到16 khz范围内有24个临界频带临界频带的单位叫bark(巴克), 1 bark = 一个临界频带的宽度 (频率) 500 hz的情况下, 1bark 9 + 4log( /1000),感知特性-掩蔽效应(续),2. 时域掩蔽 除了同时发出的声音之间有掩蔽现象之外,在时间上相邻的声音之间也有掩蔽现象,并且称为时域掩蔽。时域掩蔽又分为超前掩蔽(pre-masking)和滞后掩蔽(post-masking),如图9-05所示。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。一般来说,超前掩蔽很短,只有大约520 ms,而滞后掩蔽可以持续50200 ms。这个区别也是很容易理解的。,感知特性-掩蔽效应(续),一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽,感知特性-掩蔽效应(续),以上我们讨论了响度、音高和掩蔽效应,尤其是人的主观感觉。其中掩蔽效应尤为重要,它是心理声学模型的基础。,感知特性-掩蔽效应(续),mpeg audio与感知特性,mpeg audio标准在本书中是指mpeg-1 audio、mpeg-2 audio和mpeg-2 aac,它们处理10 hz20000 hz范围里的声音数据,数据压缩的的主要依据是人耳朵的听觉特性,使用“心理声学模型(psychoacoustic model)”来达到压缩声音数据的目的。,心理声学模型中一个基本的概念就是听觉系统中存在一个听觉阈值电平,低于这个电平的声音信号就听不到,因此就可以把这部分信号去掉。听觉阈值的大小随声音频率的改变而改变,各个人的听觉阈值也不同。 心理声学模型中的另一个概念是听觉掩饰特性,意思是听觉阈值电平是自适应的,即听觉阈值电平会随听到的不同频率的声音而发生变化。声音压缩算法也同样可以确立这种特性的模型来取消更多的冗余数据。,mpeg audio与感知特性,mpeg-1 audio,1:声音编码 声音的数据量由两方面决定:采样频率和样本精度。对单声道信号而言,每秒钟的数据量(位数)=采样频率 样本精度。要减小数据量,就需要降低采样频率或者降低样本精度。但是人耳可听到的频率范围大约是20 hz20 khz。根据奈奎斯特理论,要想不失真地重构信号,采样频率不能低于40 khz。再考虑到实际中使用的滤波器都不可能是理想滤波器,以及考虑各国所用的交流电源的频率,为保证声音频带的宽度,所以采样频率一般不能低于44.1 khz。这样,压缩就必须从降低样本精度这个角度出发,即减少每位样本所需要的位数。,mpeg-1 audio,2:声音的性能 (1) mpeg编码器的输入信号为线性pcm信号,采样率为32, 44.1或48 khz,输出为32 kb/s384 kb/s。 (2) mpeg声音标准提供三个独立的压缩层次:层1(layer 1)、层2(layer 2)和层3(layer 3),用户对层次的选择可在复杂性和声音质量之间进行权衡。 层1的编码器最为简单,编码器的输出数据率为384 kb/s,主要用于小型数字盒式磁带(digital compact cassette,dcc)。 层2的编码器的复杂程度属中等,编码器的输出数据率为256 kb/s192 kb/s,其应用包括数字广播声音(digital broadcast audio,dba)、数字音乐、cd-i(compact disc-interactive)和vcd(video compact disc)等。 层3的编码器最为复杂,编码器的输出数据率为64 kb/s,主要应用于isdn上的声音传输。 (3) 可预先定义压缩后的数据率,如表9-04所示。另外,mpeg声音标准也支持用户预定义的数据率。 (4) 编码后的数据流支持循环冗余校验crc(cyclic redundancy check)。 (5) mpeg声音标准还支持在数据流中添加附加信息。,mpeg-1 audio,3:子带编码 mpeg-1使用子带编码来达到既压缩声音数据又尽可能保留声音原有质量的目的。听觉系统有许多特性,子带编码的理论根据是听觉系统的掩蔽特性,并且主要是利用频域掩蔽特性。sbc的基本想法就是在编码过程中保留信号的带宽而扔掉被掩蔽的信号,其结果是编码之后还原的声音,也就是解码或者叫做重构的声音信号与编码之前的声音信号不相同,但人的听觉系统很难感觉到它们之间的差别。,mpeg-1 audio,4:多相滤波器组 用来分割子带也就是时间-频率变换部件是一个多相滤波器组。在mpeg-1中,多相滤波器组是mpeg声音压缩的关键部分部件之一,它把输入信号变换到32个频域子带中去。子带的划分方法有两种,一种是线性划分,另一种是非线性划分。如果把声音频带划分成带宽相等的子带,这种划分就不能精确地反映人耳的听觉特性,因为人耳的听觉特性是以“临界频带”来划分的,在一个临界频带之内,很多心理声学特性都是一样的。,mpeg-1 audio,5:编码层 mpeg声音压缩定义了3个分明的层次,它们的基本模型是相同的。层1是最基础的,层2和层3都在层1的基础上有所提高。每个后继的层次都有更高的压缩比,但需要更复杂的编码解码器。mpeg声音的每一个层都自含sbc编码器,其中包含如图9-09所示的“时间-频率多相滤波器组”、“心理声学模型(计算掩蔽特性)”、“量化和编码”和“数据流帧包装”,而高层sbc可使用低层sbc编码的声音数据。 mpeg的声音数据分成帧(frame),层1每帧包含384个样本的数据,每帧由32个子带分别输出的12个样本组成。层2和层3每帧为1152个样本,,mpeg-1 audio,层1的子带是频带相等的子带,它的心理声学模型仅使用频域掩蔽特性。 层2对层1作了一些直观的改进,相当于3个层1的帧,每帧有1152个样本。它使用的心理声学模型除了使用频域掩蔽特性之外还利用了时间掩蔽特性,并且在低、中和高频段对比特分配作了一些限制,对比特分配、比例因子和量化样本值的编码也更紧凑。 层3使用比较好的临界频带滤波器,把声音频带分成非等带宽的子带,心理声学模型除了使用频域掩蔽特性和时间掩蔽特性之外,还考虑了立体声数据的冗余,并且使用了霍夫曼(huffman)编码器。,mpeg-2 audio,mpeg-2标准委员会定义了两种声音数据压缩格式: (1)mpeg-2 audio,或者称为mpeg-2多通道(multichannel)声音,它与mpeg-1 audio是兼容的,所以又称为mpeg-2 bc (backward compatible)。 (2)另一种称为mpeg-2 aac (advanced audio coding),因为它与mpeg-1声音格式不兼容,因此通常称为非后向兼容mpeg-2 nbc(non-backward-compatible)标准。,mpeg-2 bc audio和mpeg-1 audio标准都使用相同种类的编译码器,层-1, -2和-3的结构也相同。mpeg-2声音标准与mpeg-1标准相比,mpeg-2做了如下扩充: (1)增加了16 khz, 22.05 khz和24 khz采样频率 (2)扩展了编码器的输出速率范围,由32384 kb/s扩展到8640 kb/s (3)增加了声道数,支持5.1声道和7.1声道的环绕声。 (4)mpeg-2还支持linear pcm(线性pcm)和dolby ac-3(audio code number 3)编码,mpeg-2 audio,mpeg-2 audio,mpeg-2 aac是mpeg-2标准中的一种非常灵活的声音感知编码标准。就像所有感知编码一样,mpeg-2 aac主要使用听觉系统的掩蔽特性来减少声音的数据量,并且通过把量化噪声分散到各个子带中,用全局信号把噪声掩蔽掉。,mpeg-2 audio,aac支持的采用频率可从8 khz到96 khz,aac编码器的音源可以是单声道的、立体声的和多声道的声音。aac标准可支持48个主声道、16个低频音效加强通道lfe (low frequency effects)、16个配音声道(overdub channel)或者叫做多语言声道(multilingual channel)和16个数据流。mpeg-2 aac在压缩比为11:1,即每个声道的数据率为(44.116 )/11=64 kb/s,而5个声道的总数据率为320 kb/s的情况下,很难区分还原后的声音与原始声音之间的差别。与mpeg的层2相比,mpeg-2 aac的压缩率可提高1倍,而且质量更高,与mpeg的层3相比,在质量相同的条件下数据率是它的70。,mpeg-2 audio,aac标准定义了三种配置:基本配置、低复杂性配置和可变采样率配置: 1. 基本配置(main profile): 在这种配置中,除了“增益控制(gain control)”模块之外,aac系统使用了图中所示的所有模块,在三种配置中提供最好的声音质量,而且aac的解码器可以对低复杂性配置编码的声音数据进行解码,但对计算机的存储器和处理能力的要求方面,基本配置比低复杂性配置的要求高。 2. 低复杂性配置(low complexity profile): 在这种配置中,不使用预测模块和预处理模块,瞬时噪声定形(temporal noise shaping,tns)滤波器的级数也有限,这就使声音质量比基本配置的声音质量低,但对计算机的存储器和处理能力的要求可明显减少。 3. 可变采样率配置(scalable sampling rate profile): 在这种配置中,使用增益控制对信号作预处理,不使用预测模块,tns滤波器的级数和带宽也都有限制,因此它比基本配置和低复杂性配置更简单,可用来提供可变采样频率信号。,mpeg-2 audio,mpeg-2 aac的基本模块 1. 增益控制(gain control) 2. 滤波器组(filter bank) 3. 瞬时噪声定形tns 4. 联合立体声编码 5. 预测(prediction) 6. 量化器(quantizer) 7. 无噪声编码(noiseless coding),mpeg video,1 不压缩电视图像数据率的估算 按照奈奎斯特(nyquist)采样理论,模拟电视信号经过采样(把连续的时间信号变成离散的时间信号)和量化(把连续的幅度变成离散的幅度信号)之后,数字电视信号的数据量大得惊人,当前的存储器和网络都还没有足够的能力支持这种数据传输率,因此就要对数字电视信号进行压缩。 为了在pal、ntsc和secam彩色电视制之间确定一个共同的数字化参数,早在1982年国际无线电咨询委员会(ccir)就制定了演播室质量的数字电视编码标准,这就是非常有名的itu-r bt.601标准。按照这个标准,使用4:2:2的采样格式,亮度信号y的采样频率选择为13.5 mhz/s,而色差信号cr和cb的采样频率选择为6.75 mhz/s,在传输数字电视信号通道上的数据传输率就达到为270 mb/s(兆比特/秒)!。,mpeg video,亮度(y): 858样本/行525行/帧30帧/秒10比特/样本 =135兆比特/秒(ntsc) 864样本/行625行/帧25帧/秒10比特/样本 = 135兆比特/秒(pal) cr (r-y): 429样本/行525行/帧30帧/秒10比特/样本 = 68兆比特/秒(ntsc) 429样本/行625行/帧25帧/秒10比特/样本 = 68兆比特/秒(pal) cb (b-y): 429样本/行525行/帧30帧/秒10比特/样本 = 68兆比特/秒(ntsc) 429样本/行625行/帧25帧/秒10比特/样本 =68兆比特/秒(pal) 总计: 27兆样本/秒10比特/样本 = 270兆比特/秒,mpeg video,实际上,在荧光屏上显示出来的有效图像的数据传输率并没有那么高, 亮度(y): 7204803010 = 104 mb/s (ntsc) 7205762510 = 104 mb/s (pal) 色差(cr,cb): 23604803010 =104 mb/s (ntsc) 23605762510 =104 mb/s (pal) 总计: 207 mb/s 如果每个样本的采样精度由10比特降为8比特,彩色数字电视信号的数据传输率就降为166 mb/s。,mpeg video,2 vcd电视图像数据率的估算 如果考虑使用video-cd存储器来存储数字电视,由于它的数据传输率可达到1.4112 mb/s,分配给电视信号的数据传输率为1.15 mb/s,这就意味mpeg电视编码器的输出数据率要达到1.15 mb/s。显而易见,如果存储166 mb/s的数字电视信号就需要对它进行高度压缩,压缩比高达166/1.15 144:1。 mpeg-1电视图像压缩技术不能达到这样高的压缩比。为此首先把ntsc和pal数字电视转换成公用中分辨率格式cif(common intermediate format)的数字电视,这种格式相当于vhs(video home system)的质量,于是彩色数字电视的数据传输率就减小到 3522403081.5 30 mb/s (ntsc) 3522882581.5 30 mb/s (pal)。 把这种彩色电视信号存储到cd盘上所需要的压缩比为:30/1.15 26:1。这就是mpeg-1技术所能获得的压缩比。,mpeg video,3 dvd电视图像数据率的估算 根据当前成熟的压缩技术,电视图像的数据率压缩成平均为3.5 mb/s 4.7 mb/s时非专家难于区分电视图像在压缩前后的之间差别。如果使用dvd-video存储器来存储数字电视,它的数据传输率虽然可以达到10.08 mb/s,但一张4.7 gb的单面单层dvd盘要存放133分钟的电视节目,按照数字电视信号的平均数据传输率为4.1 mb/s来计算,压缩比要达到:166/4.10 40:1。 如果电

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论