




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、解慧娟,音频压缩编码,1,数据冗余,你的妈妈,Helen,将于明天晚上6点零5分在上海的虹桥机场接你。 (23*2+10=56个半角字符) 你的妈妈将于明天晚上6点零5分在虹桥机场接你 (20*2+2=42个半角字符) Helen将于明晚6点在虹桥接你 (10*2+6=26个半角字符),结论:表达信息的文字存在冗余。只要接收端不会产生误解,就可以减少承载信息的数据量。,2,多媒体数据压缩,数据压缩就是从采样数据中去除冗余,即保留原始信息中变化的、特征性信息,去除重复的、确定的或可推知的信息,在实现更接近实际媒体信息描述的前提下,尽可能的减少描述用的信息量。 对数据压缩技术而言,最基本的要求就是
2、尽量降低数字化的编码,同时保持一定的信号质量。,3,数据压缩的分类,1、按照压缩内容,分为音频数据压缩、静态图像数据压缩、视频数据压缩和其他数据文件压缩等四种类型。,2、按照压缩方式,分为对称压缩和非对称压缩两种类型。,3、按照压缩效果,分为有损压缩与无损压缩两种类型。普通数据文件,一般采用无损压缩,对于冗余度较小的图像,需要采用有损压缩。,4,数据压缩的必要性,信息时代的重要特性是信息的数字化,这些数字化信息带来了“信息爆炸”,多媒体计算机系统技术是面向三维图形,立体声和彩色全屏幕运动画面的处理技术。数字计算机面临的是数值,文字,语言,音乐,图形,动画,图像,电视视频图像等多种媒体,承载着数
3、字化信息的吞吐,存储和传输的问题。直接存储和传输庞大的数据不但开销很大,而且有时设备也无法承受如此大的负荷,并且通信带宽和存储容量有限,因此在多媒体系统中必须采用数据压缩技术,它是多媒体技术中一项关键的技术。,5,数据压缩的可能性,数据压缩的可能性在于数据本身存在的冗余。 数据中常存在一些多余成分,比如在一份计算机文件中,某些符号会重复出现,某些符号比其他符号出现的更加频繁,某些字符总是在可预见的位置出现,这些冗余部分可在数字编码中除去。 数据中间尤其是相邻的数据之间,常存在着相关性。比如电视信号的相邻两帧可能只有少量的变化,声音信号有时具有一定的规律性和周期性。因此,可以利用某些变化去掉相关
4、性。 人们在欣赏音像节目时,由于眼睛耳朵对信号的时间变化和幅度变化的感受能力都有一定的极限,所以可以将这部分感觉不出来的分量压缩掉。,6,音频压缩编码技术,不同类型的音频信号,信号带宽不同。随着对音频信号音质要求的增加,要求描述信号数据量也就随之增加,从而使得处理这些数据的时间和传输,存储这些数据的容量增加,因此多媒体音频压缩技术是多媒体技术实用化的关键之一。,7,声音信号的基本概念特点,声音是通过一定介质传播的一种连续波-正弦波,声波,重要指标,振幅:音量的大小, 周期:重复出现的时间间隔(s) 频率:指信号每秒钟变化的次数(Hz),8,声音信号由许多频率不同的信号组成,声音信号一个重要参数
5、就是带宽,描述组成声音的信号的频率范围,人耳能听到音频信号的频率范围是20Hz20KHz. 语音:人的说话声,频率范围通常为300Hz3400Hz 音乐、风声、鸟叫声等,带宽范围是20Hz20KHz,9,音频信号的数字处理,波形声音实际上已经包含了所有的声音形式,它可以把任何声音都进行采样量化,并恰当地恢复出来。 声音信号的类型:,模拟信号(自然界、物理) 数字信号(计算机),10,音频信号的数字处理,模拟音频信号的特点: 模拟信号具有直观、形象的特点 是在时间轴上连续的信号,可以用它的某些参数去模拟其数值的大小 模拟信号精度低,表示的范围小,且容易受到干扰,11,音频信号的数字处理,数字信号
6、的特点 数字信号具有较强的抗干扰能力,波形简单,物理上容易实现,便于存储、延迟和变换。 代表信息的物理量以一系列数据组的形式来表示,它在时间轴上是不连续的 数字信号只有两种状态,即0或1,这样单个信号本身的可靠性大为改善,而多个信号的组合数又几乎不受限制 数字化的声音易于用计算机软件处理,现在几乎所有的专业化声音录制器、编辑器都是数字的。,12,音频信号的数字化过程,13,音频信号的数字化过程,采样是把时间连续的模拟信号转换成时间离散、幅度连续的信号。在某些特定时间获取的声音信号幅值叫做采样,由这些特定时刻采样得到的信号称为离散时间信号。一般都是每隔相等的一小段时间采样一次,其时间间隔称为取样
7、周期,它的倒数称为采样频率。,14,奈奎斯特采样定理当采样频率大于信号中最高频率的2倍时,采样之后的数字信号完整地保留了原始信号中的信息 ,无失真的还原信号。 语音信号的采样频率一般是8KHz,音乐信号的采样频率则应当在40KHz以上。采样频率越高,可恢复的声音信号分量越丰富,声音的保真度越好,15,量化,量化是把在幅度上模拟量的每一个样本转换为离散值表示,量化过程也称为A/D转换。量化后的样本用二进制数表示的,二进制数的位数的多少反映了度量声音波形幅度的精度,称为量化精度,16,编码,经过采样和量化处理后的声音信号已经是数字形式,但为了便于计算机的存储、处理和传输,还必须按照一定的要求进行数
8、据压缩和编码,选择特定的方法进行数据压缩,以减少数据量,再按照某种规定的格式将数据组织为文件。 并在有效的数据中加入一些用于纠错同步和控制的数据。在数据回放时,可以根据所记录的纠错数据判别读出的声音数据是否有错,如果有错,可加以纠正。,17,声音数字化三要素,18,数据传输率=采样频率量化位数位声道数,19,在多媒体音频处理中,一般需要对数字化后的音频信号进行压缩编码,使其成为具有一定字长的二进制数字序列,并以这种形式在计算机内传输和存储,最后由解码器将二进制编码恢复成原来的音频信号播放 音频压缩技术指的是对原始数字音频信号流运用适当的数字信号处理技术,在不损失有用信息量,或所引入损失可忽略的
9、条件下,降低(压缩)其码率,以减少数据量,也称为压缩编码。,20,数字化是趋势 信息量非常大,高传输带宽或存储容量 5.1 声道环绕立体声: 648KHz16bits4.608Mbit/s,减少代表原始声音信号的信息量 更好利用现有频率资源 便于计算机处理和存储 宽带网中高质量传输,21,音频信号能进行压缩编码的基本依据有三个: 声音信号中存在着很大的冗余度,通过识别和去除这些冗余度,便能达到压缩的目的。 音频信息的最终接收者是人,人的视觉和听觉器官都具有某种不敏感性。舍去人的感官所不敏感的信息对声音质量的影响很小,在有些情况下,甚至可以忽略不计。例如,人耳听觉中有一个重要的特点,即听觉的“掩
10、蔽”。它是指一个强音能抑制一个同时存在的弱音的听觉现象。 对声音波形采样后,相邻采样值之间存在着很强的相关性。,22,掩蔽效应 掩蔽效应: 一个声音的存在掩蔽了另一个声音的存在 掩蔽效应是一个较为复杂的心理和生理现像 掩蔽程度与两个声音的相关性有密切联系,听觉特性:掩蔽效应,静音门限和掩蔽门限 (灰色区域中的声音听不到),23,较弱的听不见的声音信息就可以舍弃!而不必再进行编码,这是数字声码压缩的生理基础之一。,听觉特性:掩蔽效应,24,音频压缩编码的基本方法,音频信号的压缩编码采用了再数据编码中介绍的一些技术,一般来说主要有一下几种主要类型: 无损压缩:各种熵编码,包括Huffman编码,算
11、术编码以及游程编码等 有损压缩:波形编码、模型(参数)编码和同时利用这两种技术的混合编码方法等。,25,熵(shng)编码是让出现概率大的用短的码字表达,概率小的用长的码字表示。包括Huffman编码,算术编码以及游程编码等,26,Huffman编码 (1)把信源符号按其出现概率的大小顺序排列起来; (2)把最末两个具有最小概率的元素之概率加起来; (3)把该概率之和同其余概率由大到小排队,然后再把排队后两个最小概率加起来,重新排队; 重复步骤,直到最后只剩下两个概率为止,和为1。 在上述工作完毕之后,对于概率大的赋予0,小的赋予1。从根节点开始逐步向前进行编码。记录下概率为1处(根节点)到当
12、前信号源符号之间的01序列,从而得到每个符号的编码。,27,游程编码,游程编码 把一系列的重复值用一个单独的值再加上一个计数值来取代。比如有一个这样的字母序列aabbbccccccccdddddd,它的行程长度编码就是2a3b8c6d。 有连续7个3bit的二进制数表示为011,011,011,011,101,101,101,共21个比特,如果用该编码,则变成100,011;011,101,共用12比特,28,波形编码 直接对音频信号的时域或频域波形按一定速率采样,然后 将幅度样本分层量化,变换为数字代码,由波形数据产生一 种重构信号编码系统源于信号原始样值,波形与原始声音波 形尽可能地一致,
13、保留了信号的细节变化和各种过渡特征 波形编码类型 脉冲编码调制差分脉冲编码调制自适应差分脉冲编码调制 (PCM) (DPCM) (ADPCM),29,波形编码,波形编码能在高码率的条件下获得高质量的音频信号,适用于高保真语音和音乐信号的压缩技术。PCM(Pulse Code Modulation )脉冲编码调制,可以直接对声音信号做A/D转换,用一组二进制数字编码表示,得到的是未经压缩的音频数据。这是一种最常用、最简单的编码方法。,30,波形编码,ADPCM(Adaptive Differential Pulse Code Modulation)自适应差分编码调制.这是一种有损压缩,它丢掉了部
14、分信息。由于人耳对声音的不敏感性,适当的有损压缩对视听播放效果影响不大。音频信号一般不会发生突然变化,相邻的语音采样值之间存在很大的相关性,从一个采样值到相邻的另一个采样值的差值要比样值本身小得多。因此ADPCM利用音频信号的相关性,通过只传输声音的预测值和实际样本值的差值来降低音频数据的编码率,从而使编码数据得到压缩。,31,参数编码,参数编码是将音频信号以某种模型来表示,利用特征提取的方法抽取必要的模型参数和激励信号的信息,并对这些信息编码,声音重放时,再根据这些参数重建,最后在输出端合成原始信号. 目的是重建音频,保持原始音频的特性。参数编码的压缩率很大,但计算量大,保真度不高,适合于语
15、音信号的编码。,32,混合编码,混合编码不是一类原理性编码方案,是两种或两种以上相关编码方法优点与特长的混合应用。 比如吸取波形和参数编码的优点进行综合的各种编码方法;在MPEG和JPEG标准中,都混合应用了不同的编码方法,从而实现较为理想的编码压缩效果。,33,数字音频的压缩标准,电话质量的语音 调幅广播质量的音频信号 高保真立体声信号,频率范围:300HZ3.4kHz,频率范围:50HZ7KHz,频率范围:10HZ20KHz,针对不同的音频信号,已制定了相应的压缩标准。,34,电话质量的音频压缩编码技术标准,35,调幅广播质量的音频压缩标准 调幅广播质量音频信号的频率范围是50HZ7kHz
16、,当使用16kHz的采样频率和14位的量化位数时,信号速率为224Kb/s。 CCITT在1988年制定了G.722标准,该标准采用基于子带的ADPCM技术,将现有的带宽分成两个独立的子带信道,使输入信号进入滤波器组分成高子带信号和低子带信号,然后分别进行ADPCM编码,最后进入混合器形成输出码流。 适合于需要存储大量高质量音频信号的多媒体系统使用。,36,高保真立体声音频压缩标准,高保真立体声音频信号的频率范围是5020kHz,在44.1kHz采样频率下用16位量化,信号速率为每声道705Kbs。世界上第一个高保真立体声音频压缩标准为“MPEG 音频”压缩算法。 MPEG(Moving Pi
17、cture Experts Group,动态图像专家主),该标准主要用于动态数据存储设备和及数据传输网络上的影视图像和声音的编码压缩。,37,MPEG音频标准提供了3个独立的压缩层次: 1.第一层的编码器最为简单,编码器的输出数据率为384Kbs 2.第二层的编码器的复杂程度属于中等,压缩比为6:1,编码器的输出数据率为192256Kbs, 应用包括数字广播音频、数字音乐、CD-I和VCD等 3.第三层就是mp3,编码器最为复杂,压缩比为12:1,编码器的输出数据率为64Kbs,38,主流音频文件格式,.WAV Microsoft公司的波形音频文件格式 .MID MIDI文件格式 .VOC C
18、reative公司的波形音频文件格式 .SND NeXT计算机的波形音频文件格式 .AIF Apple计算机的波形音频文件格式 .RMI Microsoft公司的MIDI文件格式 .MP3 MPEG音频压缩格式,39,MIDI规范,MIDI(Musical Instrument Digital Interface)是乐器数字接口的缩写,泛指数字音乐的国际标准 MIDI标准规定了不同厂家的电子乐器与计算机连接的电缆和硬件。它还指定从一个装置传送数据到另一个装置的通信协议 任何电子乐器,只要有处理MIDI信息的处理器和适当的硬件接口都能变成MIDI装置。MIDI间靠这个接口传递消息而进行彼此通信,
19、40,音序器又称为声音序列发生器,又相应的硬件产品和软件产品,具有丰富的编辑和存储功能。 音序器可将演奏者实时演奏的音符、节奏信息以及速度、触键力度、音色变化以数字方式记录下来,然后进行编辑修改,发送给音源自动演奏播放。 不同声部的演奏信息可被音序器记录在不同的MIDI通道中,通过音源,音序器可将所有MIDI通道中的演奏信息同时播放,一个人就可完成相当于一个乐队的多声部演奏和录音任务。,41,波形声音与设备无关,数字化声音最重要的优点是重放质量的一致性、可靠性比较好,可自始至终保证质量,而MIDI在这一点则比较差 MIDI是乐谱的数字表示。MIDI数据是与设备有关的,即MIDI音乐文件所产生的
20、声音与用来回放的特定的MIDI设备有关。 与波形声音相比,MIDI数据不是声音而是指令,因此它的数据量要比波形声音少很多。MIDI的编辑很灵活,可以自由的改变曲调、音色等属性,波形声音就很难做到这一点。,42,MP3,全名是MPEG Audio Layer-3,简单的说就是一种声音文件的压缩格式。1987年德国的研究机构IIS(Institute Integrierte Schaltungen)开始着手一项声音编码及数字音频广播的计划,名称叫做EUREKA EUl47,即MP3的前身。之后,这项计划由IIS与Erlangen大学共同合作,开发出一套非常强大的算法,经由150国际标准组织认证之后,符合ISO-MPEG Audio Layer-3标准,就成为现在的MP3。,43,MP3,MPEG音频编码的层次越高,编码器越复杂,压缩率越高。 MP1压缩率分別为4:1, MP2的压缩率分別为6:1-8:1, MP3的压缩率则高达10:1-12:1, 一分钟CD音质的音乐 未经压缩需要10MB MP3压缩编码后只需1MB左右。,44,流媒体,流媒体是指以流的方式在网络中传输音频、视频和多媒体文件的形式。 流式传输方式是将视频和音频等多媒体文件经过特殊的压缩方式分成一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农发行玉溪市易门县2025秋招半结构化面试15问及话术
- 宝鸡渭滨区中储粮2025秋招笔试行测高频题库及答案
- 国家能源嘉兴市海盐县2025秋招笔试思维策略题专练及答案
- 国家能源连云港市连云区2025秋招笔试综合知识题专练及答案
- 国家能源郴州市北湖区2025秋招笔试数学运算题专练及答案
- 军训第一天心得体会集合15篇
- 中国广电清远市2025秋招笔试行测题库及答案通信技术类
- 2025年国家自然科学基金委员会招聘4人模拟试卷及答案详解(新)
- 2025年甘肃农业大学招聘工作人员考前自测高频考点模拟试题及一套完整答案详解
- 2025年湖北正源电力集团有限公司招聘146名高校毕业生(第三批)考前自测高频考点模拟试题及答案详解(新)
- 金太阳九年级数学月考试卷及答案
- 企业食品安全培训课件
- HPV科普讲堂课件
- 港口设施保安培训知识课件
- 电梯维护保养标准作业指导书
- 煤矿安全生产责任制考核制度和考核标准
- PGL喷雾干燥机性能验证报告
- 医师变更注册管理办法
- 2024年甘肃省临夏县人民医院公开招聘护理工作人员试题带答案详解
- 网络安全防护策略与加固方案报告模板
- 新产品开发流程及管理制度
评论
0/150
提交评论