




已阅读5页,还剩33页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
音响技术与家庭影院(4.2),MPEG,MPEG(MovingPictureExpertGroup)是在1988年由国际标准化组织(InternationalOrganizationforStandardization,ISO)和国际电工委员会(InternationalElectrotechnicalCommission,IEC)联合成立的专家组,负责开发电视图像数据和声音数据的编码、解码和它们的同步等标准。,MPEG标准,MPEG-1:数字电视标准,1992年正式发布。MPEG-2:数字电视标准。MPEG-3:已于1992年7月合并到高清晰度电视(High-DefinitionTV,HDTV)工作组。MPEG-4:多媒体应用标准(1999年发布)。MPEG-5:还没有见到定义。MPEG-6:还没有见到定义。MPEG-7:多媒体内容描述接口标准(正在研究)。,MPEG-1和-2标准已经正式发布,并且得到广泛应用。例如,CD-交互系统,在网络上的数字声音广播、数字电视广播和影视点播等。MPEG标准一直是许多科研机构和大学的科研热点,也是工业界产品开发的热点。MPEG标准阐明了声音和电视图像的编码和解码过程,严格规定了声音和图像数据编码后组成比特数据流的句法,提供了解码器的测试方法等.,但没有对所有内容都作严格规定,尤其是对压缩和解压缩的算法,这样既保证了解码器能对符合MPEG标准的声音数据和电视图像数据进行正确解码,又给MPEG标准的具体实现留有很大余地。人们可以不断改进编码和解码算法,提高声音和电视图像的质量以及编码效率。,MPEG-4多媒体应用标准,MPEG-4从1994年开始工作,它是为视听(audio-visual)数据的编码和交互播放开发算法和工具,是一个数据速率很低的多媒体通信标准。MPEG-4的目标是要在异构网络环境下能够高度可靠地工作,并且具有很强的交互功能。MPEG-4引入了对象基表达(object-basedrepresentation)的概念,用来表达视听对象(audio/visualobjects,AVO);MPEG-4扩充了编码的数据类型,由自然数据对象扩展到计算机生成的合成数据对象,采用合成对象/自然对象混合编码(Synthetic/NaturalHybridCoding,SNHC)算法;在实现交互功能和重用对象中引入了组合、合成和编排等重要概念。,MPEG声音,波形声音压缩编码(如ADPCM)和参数编码(如LPC)不同,MPEG-1和MPEG-2的声音数据压缩编码不是依据波形本身的相关性和模拟人的发音器官的特性,而是利用人的听觉系统的特性来达到压缩声音数据的目的,听觉系统的感知特性,1.对响度的感知2.对音高的感知3.掩蔽效应,1.对响度的感知,声音的响度使用客观测量单位来度量,即dyn/cm2(达因/平方厘米)(声压)或W/cm2(瓦特/平方厘米)(声强)。在心理上,主观感觉的声音强弱使用响度级“方(phon)”或者“宋(sone)”来度量。,2.对音高的感知,客观上用频率来表示声音的音高,其单位是Hz。而主观感觉的音高单位则是“美(Mel)”,主观音高与客观音高的关系是其中的单位为Hz,这也是两个既不相同又有联系的单位。测量主观音高时,让实验者听两个声强级为40dB的纯音,固定其中一个纯音的频率,调节另一个纯音的频率,直到他感到后者的音高为前者的两倍,就标定这两个声音的音高差为两倍。实验表明,音高与频率之间也不是线性关系。,掩蔽效应,一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。前者称为掩蔽声音(maskingtone),后者称为被掩蔽声音(maskedtone)。掩蔽可分成频域掩蔽和时域掩蔽。,1.频域掩蔽,一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽(simultaneousmasking)。,说明,一个声强为60dB、频率为1000Hz的纯音,另外还有一个1100Hz的纯音,前者比后者高18dB,在这种情况下我们的耳朵就只能听到那个1000Hz的强音。如果有一个1000Hz的纯音和一个声强比它低18dB的2000Hz的纯音,那么我们的耳朵将会同时听到这两个声音。要想让2000Hz的纯音也听不到,则需要把它降到比1000Hz的纯音低45dB。一般来说,弱纯音离强纯音越近就越容易被掩蔽。,不同纯音的掩蔽效应曲线,说明2,在上图中的一组曲线分别表示频率为250Hz、1kHz、4kHz和8kHz纯音的掩蔽效应,它们的声强均为60dB。从图中可以看到:在250Hz、1kHz、4kHz和8kHz纯音附近,对其他纯音的掩蔽效果最明显,低频纯音可以有效地掩蔽高频纯音,但高频纯音对低频纯音的掩蔽作用则不明显。,2.时域掩蔽,在时间上相邻的声音之间也有掩蔽现象,并且称为时域掩蔽。时域掩蔽又分为超前掩蔽(pre-masking)和滞后掩蔽(post-masking),如图9-05所示。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。一般来说,超前掩蔽很短,只有大约520ms,而滞后掩蔽可以持续50200ms。这个区别也是很容易理解的。,MPEGAudio与感知特性,MPEGAudio标准是指MPEG-1Audio、MPEG-2Audio和MPEG-2AAC,它们处理10Hz20000Hz范围里的声音数据,数据压缩的的主要依据是人耳朵的听觉特性,使用“心理声学模型(psychoacousticmodel)”来达到压缩声音数据的目的。,心理声学模型中一个基本的概念就是听觉系统中存在一个听觉阈值电平,低于这个电平的声音信号就听不到,因此就可以把这部分信号去掉。听觉阈值的大小随声音频率的改变而改变,各个人的听觉阈值也不同。大多数人的听觉系统对2kHz5kHz之间的声音最敏感。一个人是否能听到声音取决于声音的频率,以及声音的幅度是否高于这种频率下的听觉阈值。心理声学模型中的另一个概念是听觉掩饰特性,意思是听觉阈值电平是自适应的,即听觉阈值电平会随听到的不同频率的声音而发生变化。例如,同时有两种频率的声音存在,一种是1000Hz的声音,另一种是1100Hz的声音,但它的强度比前者低18分贝,在这种情况下,1100Hz的声音就听不到。也许你有这样的体验,在一安静房间里的普通谈话可以听得很清楚,但在播放摇滚乐的环境下同样的普通谈话就听不清楚了。,MPEG声音数据压缩,MPEG声音数据压缩的基础是量化。虽然量化会带来失真,但MPEG标准要求量化失真对于人耳来说是感觉不到的。在MPEG标准的制定过程中,MPEG-Audio委员会作了大量的主观测试实验。实验表明,采样频率为48kHz、样本精度为16比特的声音数据压缩到256kb/s时,即在6:1的压缩率下,即使是专业测试员也很难分辨出是原始声音还是编码压缩后的声音。,编码器示意图,MPEG声音标准提供三个独立的压缩层次:层1(Layer1)、层2(Layer2)和层3(Layer3),用户对层次的选择可在复杂性和声音质量之间进行权衡。层1的编码器最为简单,编码器的输出数据率为384kb/s,主要用于小型数字盒式磁带(digitalcompactcassette,DCC)。层2的编码器的复杂程度属中等,编码器的输出数据率为256kb/s192kb/s,其应用包括数字广播声音(digitalbroadcastaudio,DBA)、数字音乐、CD-I(compactdisc-interactive)和VCD(videocompactdisc)等。层3的编码器最为复杂,编码器的输出数据率为64kb/s,主要应用于ISDN上的声音传输。,MPEGaudio层3编码器和解码器的结构,合成声音,MPEG-4的译码器支持合成乐音和TTS声音。文-语转换是将文本形式的信息转换成自然语音的一种技术,其最终目标是使计算机输出清晰而又自然的声音,也就是说,要使计算机像人一样,根据文本的内容可带各种情调来朗读任意的文本。TTS是一个十分复杂的系统,涉及到语言学、语音学、信号处理、人工智能等诸多的学科。,汉语TTS系统,在汉语TTS系统中,汉语语音的传统分析方法是将一个汉语的音节分为声母和韵母两部分。声母是音节开头的辅音,韵母是音节中声母以外的部分。声母不等同于辅音,韵母不等同于元音。另外,音调具有辨义功能,这也是汉语语音的一大特点。可以说,声母、韵母和声调是汉语语音的三要素。,MPEG电视,电视图像的数据率彩色数字电视信号的数据传输率为166Mb/s。可以估计105分钟的电影需要的容量:166Mb*105*60/8=130725MB=130GMB可见:必须要压缩,电视图像数据率的估算,考虑使用Video-CD存储器来存储数字电视,由于它的数据传输率可达到1.4112Mb/s,分配给电视信号的数据传输率为1.15Mb/s,这就意味MPEG电视编码器的输出数据率要达到1.15Mb/s。显而易见,如果存储166Mb/s的数字电视信号就需要对它进行高度压缩,压缩比高达166/1.15144:1。,MPEG-1电视图像压缩比,MPEG-1电视图像压缩技术不能达到这样高的压缩比。为此首先把NTSC和PAL数字电视转换成公用中分辨率格式CIF(CommonIntermediateFormat)的数字电视,这种格式相当于VHS(VideoHomeSystem)的质量,于是彩色数字电视的数据传输率就减小到3522403081.530Mb/s(NTSC)3522882581.530Mb/s(PAL)。把这种彩色电视信号存储到CD盘上所需要的压缩比为:30/1.1526:1。这就是MPEG-1技术所能获得的压缩比,MPEG-Video图像压缩技术基本方法和方法可以归纳成两个要点:在空间方向上,图像数据压缩采用JPEG(JointPhotographicExpertsGroup)压缩算法来去掉冗余信息。在时间方向上,图像数据压缩采用移动补偿(motioncompensation)算法来去掉冗余信息。,移动矢量的概念,内置的图像格式,为了在保证图像质量基本不降低而又能够获得高的压缩比,MPEG专家组定义了三种图像:帧内图像I(intra),预测图像P(predicted)和双向预测图像B。这三种图像将采用三种不同的算法进行压缩。,MPEG-4电视图像编码,MPEG-4Video编码算法支持由MPEG-1和MPEG-2提供的所有功能,包括对各种输入格式下的标准矩形图像、帧速率、位速率和隔行扫描图像源的支持。MPEG-4Video算法的核心是支持内容基(content-based)的编码和解码功能,也就是对场景中使用分割算法抽取的单独的物理对象进行编码和解码。MPEG-4Video还提供管理这些电视内容的最基本方法。,上图表示MPEG-4对电视图像序列进行编码的一个实际例子。左上角的图是背景全景图。右上角的图是一个没有背景的子图像全景图,可以把网球运动员当作是一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年二手车买卖合同及车辆维修保养服务
- 2025版跨国公司外籍员工入职及培训服务合同
- 2025年土地经营权转移代理费合同模板
- 2025年汽车租赁公司汽车租赁公司租赁车辆租赁保证金退还服务合同
- 2025版砌体工程特种施工分包合同示范文本
- 2025版海绵城市土建工程承包合同示范
- 2025材料预付款高性能材料预付款合作协议
- 2025年大数据公司创始股东合作协议及数据处理安全协议
- 2025版送餐服务合同违约责任规范范本
- 2025年度矿山开采水土保持验收技术服务协议
- 房地产样板间装饰工程重点难点及措施
- 康复科护理金点子
- 工地油库安全管理办法
- 全球治理转型-洞察及研究
- 高等数学课程教学中遇到的问题及解决对策
- (高清版)DB32∕T 4001-2025 公共机构能耗定额及计算方法
- 电力物资打包方案(3篇)
- 2025至2030中国味精行业发展趋势分析与未来投资战略咨询研究报告
- 你的样子就是教育的样子-一位校长对教师行为规范的深度思考建议收藏
- 中医治疗泌尿系结石课件
- 屠宰场入股合同协议书
评论
0/150
提交评论