音频信号处理技术.ppt_第1页
音频信号处理技术.ppt_第2页
音频信号处理技术.ppt_第3页
音频信号处理技术.ppt_第4页
音频信号处理技术.ppt_第5页
已阅读5页,还剩160页未读 继续免费阅读

音频信号处理技术.ppt.ppt 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

范铁生 岳承君 王 军 王丹华 编著 电子工业出版社,高等院校计算机规划教材,多媒体技术基础与应用,第三章 一维的音频信号理技术,学习要点 了解音频信号的基本概念 理解人类的听觉特性 理解时频域掩蔽效应 理解音频信号压缩技术 了解常见音频编码标准 通过实例掌握常用的音频处理软件,3.1 音频信号的基本概念 3.1.1音频信号的特点 3.1.2 音频信号的离散化 3.1.3 音频信号的音质指标 3.1.4 音频文件的格式 3.2 人类听觉特性 3.2.1 人耳的构造 3.2.2 频率 3.2.3 时域掩蔽效应 3.2.4 频域掩蔽效应 3.2.5 音频的有关定律 3.3 音频信号的压缩技术 3.3.1 脉冲编码调制 3.3.2 感知编码 3.3.3 子带编码 3.4 音频编码标准 3.4.1 CCITT G系列标准 3.4.2 MP3压缩标准 3.4.3 AC-3压缩标准 3.4.4 MIDI标准 3.5 应用实例,数字化声音压缩的必要性,储存: 计算一分钟未经压缩的CD高保真立体声数字声音文件的大小为10MB左右,必须进行压缩才能储存。经过MP3压缩编码后只有1MB左右 。 传输:音频压缩的目标是将数据传输率由1.5Mbit/s码率降低到100400kbit/s 。 MP3音频文件通常码率为32kbit/s,与视频压缩相似,音频压缩也有两种方式: 冗余度消除省略多余信息,无损 不相关性消除省去接收端(人耳)不能察觉的信息,有损 所有音频压缩方法基于心理声学模型,利用人耳的不足,消除音频信号中的不相关信息。 人耳不能察觉频域和时域中强声音脉冲邻近的声音 对人耳而言,某些声音可以掩盖其他低幅度的声音信号。,语音信号冗余几个方面:,1). 幅度非均匀分布 语音中小幅度样本比大幅度样本出现的概率要高。通话会有间隙,且实际语音信号的功率电平也趋向于出现在编码范围的较低电平端。 2). 样本之间的相关性 对语音波形分析表明,采样数据的最大相关性存在于邻近样本之间。当采样速率为8KHz时,相邻采样值之间的相关系数大于0.85,甚至在相距十个样本之间,相关系数还有0.3左右的数量级。 3). 周期之间的相关性 虽然电话语音信号的频率分布在300-3400Hz的频带内,但在特定的瞬间,某一声音却往往只是该频带内的少数频率起作用。当声音中只存在少数几个基本频率时,就会像某些振荡波形一样,在周期与周期之间存在着一定的相关性。 4). 基音之间的相关性 语音可以分为清音和浊音两种基本类型.浊音是由声带振动产生,每一次振动使一股空气从肺部流进声道。激励声道的各股空气之间的间隔称为基音周期。浊音的波形对应于基音周期的长期重复波形。对浊音编码是对一个基音周期波形进行编码,并以它作为其它基音段的模板。,冗余度降低(无损)和不相关性降低(有损)可以将原始声音信号码率降低90。 不相关性降低依赖于人耳的心理声学模型Zwicker教授 知觉编码-人耳不能分辨的声音分量不传输。 人耳剖面图,分为三个主要部分:外耳、中耳、内耳。,人耳心理声学模型,人耳心理声学模型,外耳实现阻抗匹配功能,声音通过空气传输,类似3kHz区域回声递升滤波器。人耳灵敏度最高的范围正是:3kHz4kHz。 耳膜或鼓膜将声波转换为机械振动,通过锤骨、砧骨、镫骨传送到通向感觉内耳的膜状窗. 内耳有平衡器官,由几个充满液体的弓形和耳蜗构成。 耳蜗是真正的听觉器官,直接听到声音。如果展开耳蜗会在其入口处发现高频传感器,然后是中频传感器,最末端是低频传感器。 内耳膜上分布着频率选择、声音采集传感器,将听觉神经连接到大脑。,与音频 编码相关的人耳特性,人耳的灵敏度在很大程度上依赖于频率。 低于20Hz,高于20kHz的声音信号人耳无法听到。 人耳最敏感范围为3kHz4kHz,在该范围之外,人耳敏感度向高频和低频两个方向降低。 低于某个阈值的声音人耳无法听到,该阈值取决于频率,声音信号中低于该阈值的分量无需传送,对人耳而言是不相关信息。,图 听觉阈值与频率关系,与音频 编码相关的人耳特性,掩蔽现象: 例如一个测试人员听一个幅度固定的1kHz正弦波,同时添加其他不同频率和幅度的正弦波,发现在1kHz附近低于某个阈值的其他正弦信号听不到,该阈值取决于频率,称作掩蔽阈值。 掩蔽阈值曲线取决于掩蔽信号的频率,掩蔽信号的频率越高,被掩蔽的范围越大。这一特性叫做频域掩蔽。 在掩蔽阈值以下的声音分量不需传送。,图4.7 频域掩蔽,图 掩蔽阈值,与音频 编码相关的人耳特性,时域掩蔽 时域中一个强脉冲会掩蔽该脉冲前后低于某个阈值的声音信号。 这种现象,尤其是前掩蔽,很难想象,但可以进行很好的解释。是由于人耳的有限时域分辨率,再加上信号通过听觉神经传输到大脑的方式。 目前的音频压缩方法只利用了频域掩蔽。,图 时域掩蔽,一、声音,声音是传递信息的重要媒体,是多媒体技术研究中的一个重要内容;,声音的物理特性,机械振动或气流等外力引起周围弹性媒质发生波动,产生声波。声波传到人耳经过人类听觉系统的感知就是声音,声音是通过空气传播的一种连续的波,称为声波(sound wave),声波到达人耳鼓膜时,人会感到压力的变化,这就是声音(sound),参数指标,幅度(振幅):指声波波形的最高(低)点与时间轴之间的距离,反映声音信号的大小、强弱程度,频率:信号在单位时间内变化的次数,HZ;多个频率声音的复合,人们对声音的感知不仅与声音幅度有关,还与声音的频率有关:,可听声(audio): 20HZ 20kHZ 次音、亚音信号(subsonic) :20kHZ,300HZ 3kHZ 语音信号(speech),模拟信号与数字信号,模拟信号:时间或幅度上连续的信号,时间上“连续”是指在一个指定的时间范围内信号的幅值有无穷多个;,幅度上“连续”是指幅度的数值有无穷多个;,数字信号:幅值被限制在有限个数值之内,即幅值只能取有限的几个数值,3.1 音频信号的基本概念,1.声音是通过介质传播的一维的连续波(如图3.1所示),这种连续性表现在两个方面:一是时间上的连续性,二是幅度上的连续性。,音频信息的分类,规则音频,规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示,称为声波。模拟信号的曲线无论多复杂,在任一时刻t0都可分解成一系列正弦波的线性叠加:,3.1 音频信号的基本概念,2.声音的基本特点: (1)声音物理特性:频率、周期、声压、声强、动态范围、频谱; (2)声音心理特性:音调、响度、音色、掩蔽效应、方向感、空间感、阈、分贝; (3)声音的音质:频带宽度、信噪比、数据量。,声音心理特性,音箱、音源设备一样有着自己的特点,他们会对声音进行各式各样的处理,让他们和原始信息不一样,这样就形成了风格。 一个成熟的品牌会有自己倾向的风格,它会为旗下所有的型号或者一个系列的型号设计一个自认为满意的风格,并朝这个方向去校声。 感受声音,是很主观的,更现实的是,真正能分出声音好坏的消费者是极少的,因此音频设备厂商更乐意从心理角度去引导消费,我们使用引导这个中性词,因为有些引导是可接受的,而一些是完全的误导。,声音心理特性(一),英国声: 英国上层社会追求一种细致的高雅氛围,男宾要像绅士,女宾要像贵妇,对事情不能大惊大喜,要沉着镇定,讲究一些小情调,听一些小编制的音乐甚至独奏,声音无需很大,更不需要爆棚,能听清楚就行。整体来说,是一种较慢节奏的细致生活,他们对这种生活的一致认同。 因此,一种中频较为突出,低频不多,高频不亮,比较松软而缓慢略暖的风格,声场较小,但不紧,细节丰富却不突出。这种声音取向得到了几乎所有英国音频设备厂商的认同,虽然它们之间的产品声音特征有差别,但基本特征都差不多,这种典型的风格化特点被称为英国声。,浓郁的反转片风格,声音心理特性(二),美国声: 作为一个几乎没有历史的国家,美国对世界的看法是全新的,经过200多年的发展,美国成为了地球上最强大的国家,他们崇尚年轻和力量,喜欢大手笔,喜欢冒险,美国文化对于有悠久历史的国家来说,绝对是另类的。 在对声音的理解上,他们也深受文化的影响。他们追求大动态、大声场、要求好的瞬态、低音要猛要有点硬,高频要亮,解析力要好,甚至要有金属光泽,这种声音有活力,很澎湃,但缺乏细致感。美国的音像行业发达,对外输出音像制品的时候也输出了这种声音的审美观,它获得了大量用户尤其年轻用户的认同,因此这种声音取向深深的影响了整个行业,不只是美国的音频厂家。,带些颓废色彩的负冲效果,声音心理特性(三),德国声和丹麦声: 欧洲有着发达的现代文明以及较长的古代文明,它们有共同性也有差异,在对声音的理解方面,一样同大于异,因此法国、丹麦、瑞典、德国等国的对声音的理解被合并称为欧陆声。 最大的共同点:就是偏中性、追求细致。对业界影响较大的是德国声和丹麦声,德国人以严谨著称,一丝不苟的精神同样体现到对声音的理解当中,德国声中性而严肃,带一点点冷色调,音染较少,感情色彩较少,而丹麦声者侧重中高频的表达,偏向端庄,注重感性的人情味。,带沧桑意味的褪色风格,3.1 音频信号的基本概念,3.音频信号的离散化 离散化实际上就是采样和量化,模拟信号转换为数字信号步骤如图3.2所示:,声音的层次,24位的色彩显然要比8位层次细腻得多,采样,声音,也常常用到 16位、24位这个词,某些发烧友嘴里念叨着的“2496”,24就指的24位。 采样率为16位时,表示声音(声压、响度)可以产生65536种大小变化。而发烧友追求的24位,则能产生16777216种声音大小变化,比16位要足足高出256倍。也就是说,层次要丰富得多。 8位的音乐,很多乐器都会混沌到一块,甚至分不出一个彼此来,层次感较差。,这张图的横轴表示时间,竖轴表示能量,音频信号处理的方法,首先对声音进行在时间轴和幅度两个方面进行离散化。,概述,数据压缩的主要依据是人耳朵的听觉特性,使用“心理声学模型”来达到压缩声音数据的目的: 听觉系统中存在一个听觉阈值电平 听觉掩饰特性,脉冲编码调制(波形编码),脉冲编码调制PCM(Pulse Code Modulation)是一种模数转换的最基本编码方法 模数转换有两个步骤:第一步是采样,就是每隔一段时间间隔读一次声音的幅度;第二步是量化,就是把采样得到的声音信号幅度转换成数字值。,采样(sampling),采样:在某些特定的时刻对模拟信号进行测量,即每隔一定的时间测量一次声音信号的幅值;把时间连续的模拟信号转换成时间离散、幅度连续的采样信号;,采样(sampling),样本:每次采样都记录下原始模拟声波在某一时刻的状态,称之为样本;将一系列的样本连接起来,就可以描述一段声波了,均匀采样:采样的间隔时间相等,采样频率,采样频率是指一秒钟内采样的次数。采样频率的选择应该遵循奈奎斯特(Harry Nyquist)采样理论:如果对某一模拟信号进行采样,则采样后可还原的最高信号频率只有采样频率的一半,或者说只要采样频率高于输入信号最高频率的两倍,就能从采样信号系列重构原始信号,采样 采样频率,采样频率:一秒种采样的次数;HZ;,采样频率越高,单位时间内采集的样本数越多,得到的波形越接近原始波形,音质越好,数字化声音的数据量也越大,CD 44.1kHz;语音 8kHz 11.025kHz 语音信号 22.02kHz要求不太严格的背景音乐,量化(quantization),量化:是按“四舍五入”或其它方法将采样得到的数值限定在几个有限的数值中,将采样信号转换为时间离散、幅度离散的数字信号; 样本精度(sample precise):反映度量声音波形幅度的精度,量化,采样精度越高,位数越多,表示的数值范围越大,数字化后波形振幅的精度越高,声波的还原越细腻,声音的质量越好,需要的存储空间越多;位数越少,声音的质量越低,需要的存储空间越少;通常有8位、16位,量化,量化位是两化中一个十分重要的参数,它是对模拟音频信号的幅度轴进行数字化,决定了模拟信号数字化以后的动态范围。由于计算机按字节运算,一般的量化位数为8位和16位。量化位越高,信号的动态范围越大,数字化后的音频信号就越可能接近原始信号,但所需要的存贮空间也越大。 量化有好几种方法,但可归纳成两类:一类称为均匀量化,另一类称为非均匀量化。如果采用相等的量化间隔对采样得到的信号作量化,那么这种量化称为均匀量化。均匀量化就是采用相同的“等分尺”来度量采样得到的幅度,也称为线性量化,如图所示。这种方法称为脉冲编码调制,用PCM表示,非线性量化,非线性量化的基本想法是,对输入信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔。 在非线性量化中,采样输入信号幅度和量化输出数据之间定义了两种对应关系,一种称为m律压(缩)扩(展)算法,另一种称为A律压(缩)扩(展)算法。,编码(coding),编码是将量化后的结果转化成二进制代码。在编码时,二进制位数越多,量化精度越高。 信号经过数字传输系统到达接收方后,由接收方还原出和原来一样的一系列脉冲信号。 量化后的数字音频信号直接存入计算机会占用很大的存储空间-,通过编码可以去除信号冗余和量化噪音,减少数据的存储量,编码,编码: 按一定的格式把离散的量化数值加以记录,即将量化后的信号转换成一个二进制编码组输出; 并在有用的数据中加入一些用于同步、纠错和控制的数据;,PCM的基本原理,声道数,声道数即采样时同时生成的波形个数:,一次生成一个声波数据,称为单声道; 一次生成两个声波数据,称为双声道或立体声;,立体声音质、音色好,能产生逼真的空间感,但所占空间比单声道多一倍,总结:,声音的数字化过程实际上就是采样、量化和编码的过程;,数字音频的数据量很大,对计算机存储和数据实时传输都造成一定的压力。因此,实际运用中并非都按最高音质来采样,而是根据音源的质量和实际需要灵活运用;如在录制一段语音,8kHZ就够了。,对于音乐信号。减少数据量的方法不是降低采样频率和采样精度,而是数据压缩;,3.1 音频信号的基本概念,4.音频信号的音质指标 音频信号的音质指标主要有四个:,动态范围、 频带宽度、 信噪比、 数据量,声音的动态范围,什么是动态?很多音频设备(音箱、麦克风)和一些图象设备(数码相机、扫描仪)都说自己动态大。其实,他们说的都是动态范围。 不管什么对象,只要涉及范围,就有个最大值和最小值,在图象或图象设备中,动态范围是指的光线明暗的变化范围,而音乐和音箱设备,动态范围则和响度有关。,动态范围,动态范围越大,信号强度的相对变化范围越大,音响效果越好,渐变B图标记的红线显然要比渐变A图要长得多。也就是说,渐变B图的亮度变化范围要比渐变A图大得多。专业点的说法是:渐变B图的色彩动态范围要比渐变A图大。,直方图说明动态范围,实景图片说明动态范围,通过实景照片的对比,相信大家已经看出了不同动态范围造成的差异。,在当中,动态范围和响度有关,即最小的响度到最大(不失真)响度这段区域的范围。我们常听的CD是16位的,它能产生65536级声压变化,这是理论极限。16位采样的前提下,动态范围是不可能超越0-65536的范围的。,相信大家对图中椭圆区域内的东西并不陌生,这是一个输出电平显示仪,它以图形化的方式显示了当前输出电平的强度。假设我们连续记录电平强度,会怎样呢?,音响设备中的动态范围,这种图应该比较直观的描述了动态范围,输出电平强度直接决定了响度。它并不是说越大声的声音,动态范围就越大。 这张图为典型的Disco舞曲音乐的响度特征,这种音乐很爆棚,但往往缺乏动态,因为他们最小声的地方也很“响”。 这张则有很多西洋古典音乐的响度特征相似,这种音乐往往有着很大的动态范围。很多音箱就毁于这种音乐,因为用户的使用错误,在听这种音乐前奏时,会觉得声音太小,于是把音量开得很大,等到高潮来时,功放输出功率过大,损坏扬声器。,频带宽度,音频信号的频带越宽,所包含的音频信号分量越丰富,音质越好,频带宽度,人的听觉范围是2020000HZ,所录音的音频带宽度范围与此相同。但在进行数字转换时,由于采样频率不同,音质和文件大小就不同,不同的压缩算法产生的文件大小和音质也不同。 CD的声音频音质采样频率为64KHZ,FM广播的声音频音质采样频率为44KHZ。 调频广播的频带较宽,一般单声道频带宽度约为200-15KHz,立体声频带宽度为400KHz,是调幅广播带宽(9KHz)的几十倍。接收以后还原的音频频率上限可达15000-16000Hz。 CD机的频率上限比FM的接收上限频率还要略好一些,信噪比,信噪比SNR(Signal to Noise Ratio)是有用信号与噪声之比的简称。 噪音可分为环境噪音和设备噪音。信噪比越大,声音质量越好。,信噪比,噪比又称为讯噪比,是信号的有用成份与杂音的强弱对比,常用分贝数表示。设备的信噪比越高表明它产生的杂音越少。对于MP3播放器来说,信噪比都是一个比较重要的参数,它指音源产生最大不失真声音信号强度与同时发出噪音强度之间的比率称为信号噪声比,简称信噪比(Signal/Noise),通常以S/N表示,单位为分贝(dB)。信噪比越高表示MP3产品越好。 目前MP3播放器的信噪比有60dB、65dB、85dB、90dB、95dB等等,我们在选择MP3的时候,一般都选择60dB以上的,但即使这一参数达到了要求,也不一定表示机子好,毕竟它只是MP3性能参数中要考虑的参数之一。,3.1 音频信号的基本概念,5.音频文件的格式 音频数据必须以一定的数据格式存储在磁盘或者其他媒体上。音频文件的格式很多,目前比较流行的有一下几种:主要用在PC上的以wav (waveform)为扩展名的文件格式,主要用在UNIX工作站上的以au(audio)为扩展名的文件格式,主要用在苹果机和SGI工作站上的以aiff(audio interchangeable file format)和snd(sound)为扩展名的文件格式,以及目前PC机上比较流行的以rm和mp3为扩展名的音频文件格式。,3.2 人类听觉特性,1.人耳的构造 人能听见各种声音,是通过一套复杂的听觉器官耳实现的。耳分为外耳、中耳和内耳三个部分。外耳包括耳廓、外耳道和鼓膜,耳廓也就是我们平常所说的耳朵,它有收集声波的作用。当声波经耳廓收集到耳内后,先振动了鼓膜,然后鼓膜的振动又由中耳的3块听小骨传到内耳。,3.2 人类听觉特性,内耳是听觉神经最末梢的部分,中耳传来的声波,刺激听神经的末梢,使之兴奋,兴奋沿着听神经传到大脑皮层的听觉中枢,人就听到了声音。 2.掩蔽效应 一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。前者称为掩蔽声音(maskingtone),后者称为被掩蔽声音(maskedtone)。掩蔽可分成频域掩蔽和时域掩蔽。,3.2 人类听觉特性,3.时域掩蔽效应 所谓时域掩蔽是指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现时,又称异时掩蔽。时域掩蔽又分为超前掩蔽(pre-masking)和滞后掩蔽(post-masking),如图3.4所示。若掩蔽声音出现之前的一段时间内发生掩蔽效应则称为超前掩蔽,否则称为滞后掩蔽。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。 如图3.15所示超前掩蔽和滞后掩蔽:,3.2 人类听觉特性,4.频域掩蔽效应 一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽,也称同时掩蔽(simultaneous masking)。 一般来说,低频的音容易掩蔽高频的音;在距离强音较远处,绝对闻阈比该强音所引起的掩蔽阈值高,这时,噪声的掩蔽阈值应取绝对闻阈。,3.2 人类听觉特性,5.临界频带 由于声音频率与掩蔽曲线不是线性关系,为从感知上来统一度量声音频率,引入了“临界频带(critical band)”的概念。通常认为,在20 Hz到16 kHz范围内有24个临界频带,如表3.1所示。临界频带的单位叫Bark(巴克),1Bark等于一个临界频带的宽度。,3.2 人类听觉特性,6.音频的有关定律 (1)频率域的主观感觉 (2)时间域的主观感觉 (3)空间域的主观感觉 (4)听觉的韦伯定律 (5)听觉的欧姆定律 (6)掩蔽效应 (7)双耳效应 (8)哈斯效应 (9)德波埃效应 (10)劳氏效应 (11)匙孔效应 (12)浴室效应 (13)多普勒效应 (14)鸡尾酒效应 (15)李开试验,(1)频率域的主观感觉,频率域中最重要的主观感觉是音调,像响度一样音调也是一种听觉的主观心理量,它是听觉判断声音调门高低的属性。心理学中的音调和音乐中音阶之间的区别是,前者是纯音的音调,而后者是音乐这类复合声音的音调。复合声音的音调不单纯是频率解析,也是听觉神经系统的作用,受到听音者听音经验和学习的影响。,(2)时间域的主观感觉,如果声音的时间长度超过大约300ms,那么声音的时间长度增减对听觉的阈值变化不起作用。对于音调的感受也与声音的时间长短有关。当声音持续的时间很短时,听不出音调来,只是听到“咔啦”一声。声音的持续时间加长,才能有音调的感受,只有声音持续数十毫秒以上时,感觉的音调才能稳定。 时间域的另一个主观感觉特性是回声。回声是我们日常生活中常见的一种声现象。声波在传播过程中,碰到大的反射面(如建筑物的墙壁等)在界面将发生反射,人们把能够与原声区分开的反射声波叫做回声。人耳能辨别出回声的条件是反射声具有足够大的声强,并且与原声的时差须大于01秒。当反射面的尺寸远大于入射声波长时,听到的回声最清楚。,3)空间域的主观感觉,人耳用双耳听音比用单耳听音具有明显的优势,其灵敏度高、听阈低、对声源具有方向感,而且有比较强的抗干扰能力。在立体声条件下,用扬声器和用立体声耳机听音获得的空间感是不相同的,前者听到的声音似乎位于周围环境中,而后者听到的声音位置在头的内部,为了区别这两种空间感,将前者称为定向,后者称为定位。,(4)听觉的韦伯定律,韦伯定律表明了人耳听声音的主观感受量与客观刺激量的对数成正比关系。当声音较小,增大声波振幅时,人耳的主观感受音量增大量较大;当声音强度较大,增大相同的声波振幅时,人耳主观感受音量的增大量较小。 根据人耳的上述听音特性,在设计音量控制电路时要求采用指数型电位器作为音量控制器,这样均匀旋转电位器转柄时,音量是线性增大的。,(5)听觉的欧姆定律,著名科学家欧姆发现了电学中的欧姆定律,同时他还发现了人耳听觉上的欧姆定律,这一定律揭示:人耳的听觉只与声音中各分音的频率和强度有关,而与各分音之间的相位无关。根据这一定律,音响系统中的记录、重放等过程的控制可以不去考虑复杂声音中各分音的相位关系。 人耳是一个频率分析器,可以将复音中的各谐音分开,人耳对频率的分辨灵敏度很高,在这一点上人耳比眼睛的分辨度高,人眼无法看出白光中的各种彩色光分量。,(6)掩蔽效应,环境中的其他声音会使听音者对某一个声音的听力降低,这称之为掩蔽。当一个声音的强度远比另一个声音大,当大到一定程度而这两个声音同时存在时,人们只能听到响的那个声音存在,而觉察不到另一个声音存在。掩蔽量与掩蔽声的声压有关,掩蔽声的声压级增加,掩蔽量随之增大。另外,低频声的掩蔽范围大于高频声的掩蔽范围。 人耳的这一听觉特性给设计降低噪声电路提供了重要启发。磁带放音中,有这样的听音体会,当音乐节目在连续变化且声音较大时,我们不会听到磁带的本底噪声,可当音乐节目结束(空白段磁带)时,便能感觉到磁带的“咝”噪声存在。 为了降低噪声对节目声音的影响,提出了信噪比(SNR)的概念,即要求信号强度比噪声强度足够的大,这样听音便不会觉得有噪声的存在。一些降噪系统就是利用掩蔽效应的原理设计而成的。,(7)双耳效应,“双耳效应”的原理十分复杂,但简单的说,就是人的双耳的位置在头部的两侧,如果声源不在听音人的正前方,而是偏向一边,那么声源到达两耳的距离就不相等,声音到达两耳的时间与相位就有差异,人头如果侧向声源,对其中的一只耳朵还有遮蔽作用,因而到达两耳的声压级也有不同。人们把这种细微的差异与原来存储于大脑的听觉经验进行比较,并迅速作出反应从而辨别出声音的方位。 双耳效应的基本原理是这样:如果声音来自听音者的正前方,此时由于声源到左、右耳的距离相等,从而声波到达左、右耳的时间差(相位差)、音色差为零,此时感受出声音来自听音者的正前方,而不是偏向某一侧。声音强弱不同时,可感受出声源与听音者之间的距离。或者说,如同一个发声源发出声波到达两只耳朵的时间不同(因为距离不同)从而可以判断声源的方向。,(7)双耳效应,目前,剧场观众厅扩声系统中的扬声器倾向于配置在台口上方,也是考虑到人耳左右水平方向的分辨能力远大于上下垂直方向而确定的,从而克服了过去把声器组配置在台口两侧所造成部分听众感到声音来自侧向的缺陷,避免使听众明显地感到场声器发出的声音与讲演者的直达声来自不同的方向。 利用“双耳效应”,我们可以通过录音技术录下声响,然后用两个或几个音箱播放出来,使人们听起来好像音箱之间有一个声源在发声,这个假想的、实际上不存在的声源就叫作“声像”。当我们听立体声广播、立体声唱片中的一个管弦乐队演奏时,你可以感到大提琴在你的右前方,小提琴在你的左前方,而小号却在中间。对于电声乐队,你也可以很明显地感觉出主奏乐器来自不同的方向。听重唱,你可以清楚地分辨出左、右声道中分别播出的各自的高声部和低声部。因此,立体声的优点不仅仅是有真实感、临场感、空间感,而且由于把声像分离了或改变了位置,就会使你听觉具有层次感,而且可以压低噪声。,(8)哈斯效应,当两个强度相等而其中一个经过延迟的声音同时到聆听者耳中时,如果延迟在30ms以内,听觉上将感到声音好像只来自未延迟的声源,并不感到经延迟的声源存在。当延迟时间超过30ms而未达到50ms时,则听觉上可以识别出已延迟的声源存在,但仍感到声音来自未经延迟的声源。只有当延迟时间超过 50ms以后,听觉上才感到延迟声成为一个清晰的回声。这种现象称为哈斯效应,有时也称为优先效应。 哈斯的试验证明:在两个声源同时发声时,根据一个声源与另一个声源的延时量不同时,双耳听音的感受是不同的,可以分成以下三种情况来说明: 1)两个声源中一个声源与另一个声源的延时量在535ms以内时,就好像两个声源合二为一,听音者只能感觉到超前一个声源的存在和方向,感觉不到另一个声源的存在。 2)若一个声源延时另一个声源3050ms,已能感觉到两个声源的存在,但方向仍由前导所定。 3)若一个声源延时量大于另一个声源为50ms时,则能感觉到两个声源的同时存在,方向由各个声源来确定,滞后 声为清晰的回声。哈斯效应是立体声系统定向的基础之一。,(9)德波埃效应,德波埃效应是指当听音者在距离立体声声源相等的对称线上时,如果其声源的声压差和时间差均为零,所表现的声像在对称线上,听感好象只为一个声源。当声压差增大时,声像则向声音较强的声源方向移动,当声压差大于时,就会感受到声像是由较响的声源单独发出。如果声压差为零,而时间差为变化时,同样也有声像移动的效果,当时间差大于时,则声像完全由前导的声源所决定。 德波埃效应是立体声系统定向的另一基础。德波埃效应的实验是:放置左、右声道两只音箱,听音者在两只音箱对称线上听音,给两只音箱馈入不同的信号,可以得到以下几个定论: )如果给两只音箱馈入相同的信号,即强度级差,时间差,此时只感觉到一个声音,且来自两只音箱的对称线上。 )如果两只音箱的强度级差不为,此时听音感觉声音偏向较响的一只音箱,如果强度级差大于等于,此时感觉声音完全来自较响的那一只音箱。 )如果强度级差,但两只音箱的时间差不为,此时感觉声音向先到达的那只音箱方向移动。如果时间差大于等于时,感觉声音完全来自先到达的那只音箱方向。,(10)劳氏效应,劳氏效应是一种立体声范围的心理声学效应。劳氏效应揭示:如果将延迟后的信号再反相叠加在直达信号上,会产生一种明显的空间感,声音好像来自四面八方,听音者仿佛置身于乐队之中。,(11)匙孔效应,单声道录放系统使用一只话筒录音,信号录在一条轨迹上,放音时使用一路放大器和一只扬声器,所以重放的声源是一个点声源,如同听音者通过门上的匙孔聆听室内的交响乐,这便是所谓的匙孔效应。,(12)浴室效应,身临浴室时有一个切身感受,浴室内发出的声音,混响时间过长且过量,这种现象在电声技术的音质描述中称为浴室效应。当低、中频某段夸张,有共振、频率响应不平坦、300Hz提升过量时,会出现浴室效应。,(13)多普勒效应,多普勒效应揭示移动声音的有关听音特性:当声源与听音者之间存在相对运动时,会感觉某一频率所确定的声音其音调发生了改变,当声源向听音者接近时是频率稍高的音调,当声源离去时是频率稍降低的音调。这一频率的变化量称为多普勒频移。移近的声源在距听音者同样距离时比不移动时产生的强度大,而移开的声源产生的强度要小些,通常声源向移动方向集中。如火车鸣笛时,若声音急促尖锐则表明其正在临近,而若声音缓慢低沉则表明其正在远去。,(14)鸡尾酒效应,“鸡尾酒效应”在声学中是指人耳的掩蔽效应。在鸡尾酒会嘈杂的人群中,两人可以顺利交谈,尽管周围噪声很大,但两人耳中听到的是对方的说话声,你们似乎听不到谈话内容以外的各种噪音,因为你们已经把各自的关注重点放在谈话主题上了。简单来说鸡尾酒效应指虽然我们不知道每个人在说什么,但其实我们的大脑是在监听一切的,大脑知道每个人在说什么,但是这些内容只会停留在潜意识,因为大脑认为没必要把这些听到的内容全部进行逻辑加工,只是听到重要信息时才传到加工的位置进行分析,这样这个信息就进入了你的意识。,(15)李开试验,李开试验证明:两个声源的相位相反时,声像可以超出两个声源以外,甚至跳到听音身后。李开试验还提示,只要适当控制两声源(左、右声道扬声器)的强度、相位,就可以获得一个范围广阔(角度、深度)的声像移动场。当用双耳听双扬声器发生时,会产生通道间与听觉间的交叉信号,这种交叉信号在现场聆听演奏时是不存在的,它是双通道重放系统特有的,它会产生附加的信号成分。李开试验结果表明,只有用立体声耳机才会消除通道与听觉间的交叉信号,使通道间的声级差等于听觉间的声级差;通道间的时间差等于听觉间的时间差,从而才能保存节目中各种立体声信息的原来面貌,即使用立体声耳机聆听双声道放音可消除本不存在的虚假声场。,3.3 音频信号的压缩技术,人耳的掩蔽效应和音频的有关定律表明,若将一些人耳不敏感的信号进行压缩是可行的。针对不同的应用,可以采用不同的压缩技术。,3.3 音频信号的压缩技术,1.脉冲编码调制 脉冲编码调制(pulse code modulation,PCM)是概念上最简单、理论上最完善的编码系统,是最早研制成功在语音信号中、后来使用最为广泛的编码系统,但也是数据量最大的编码系统。 PCM主要包括抽样、量化、编码三个过程,原理如图3.5所示:,3.3 音频信号的压缩技术,2.感知编码原理: 一般来说,数据压缩有两种方法。一种方法是利用信号的统计性质,完全不丢失信息的高效率编码法,称为平均信息量编码或熵编码。第二种方法是利用接收信号的人的感觉特性,省略不必要的信息,压缩信息量,这种方法称为感知编码。 感知编码是利用人耳听觉的心理声学特性(频谱掩蔽特性和时间掩蔽特性)、人耳对信号幅度、频率、时间的有限分辨能力,凡是人耳感觉不到的成分不编码,不传送。简单的说感知编码是建立在人类听觉系统的心理声学原理为基础,只记录那些能被人的听觉所感知的声音信号,从而达到减少数据量而又不降低音质的目的。,3.3 音频信号的压缩技术,3.感知编码特点: (1)尽管这个方法是有损的,但人耳却感觉不到编码信号质量的下降 ; (2)感知编码器的有效性部分源自采用了自适应的量化方法 ; (3)一般感知编码采用两种比特分配方案 :前向自适应分配方案 、后向自适应分配方案 ; (4)感知编码有一定的抗噪性 ; (5)由于感知编码器根据人耳的灵敏度来编码,它也可以输出放音系统所要求的响度 ; (6)感知编码技术的实现全靠子带压缩技术 ;,3.3 音频信号的压缩技术,4.子带编码 子带编码(SubBand Coding,SBS)首先使用带通滤波器组将输入信号分割成几个不同的子带信号,再对这些子带信号分别进行频谱平移,然后分别对各子带进行量化、编码,这类编码方式称为频域编码。频域编码将信号分解成不同频带分量的过程去除了信号的多余度,得到一组不相关的信号。,3.3 音频信号的压缩技术,5.子带编码工作原理: 输入端:首先用一组带通滤波器将输入信号分成若干子带信号,然后将这些子带信号通过频率搬移变成基带信号,再对它们分别进行采样,量化编码后再将子带的信码合路成一个总信码传输到接收端。量化编码可以采用PCM、DPCM等方式。,3.3 音频信号的压缩技术,5.子带编码工作原理: 接收端:在接收端,把总信码分成各子带信码,再进行插值,频率搬移到原来的位置,带通滤波然后相加得到重建信号。,子带编码,使用一组带通滤波器(band-pass filter,BPF)把输入音频信号的频带分成若干个连续的频段,每个频段称为子带。对每个子带中的音频信号采用单独的编码方案去编码。 在信道上传送时,将每个子带的代码复合起来。在接收端译码时,将每个子带的代码单独译码,然后把它们组合起来,还原成原来的音频信号。,子带编码示意图,ITU-T G系列声音压缩标准,G.711 G.722 G.723 G.728 G.729 音频编码标准比较,3.4 音频编码标准,G.711,1972年CCITT为电话质量和语音压缩制定了PCM标准G.711。其速率为64kb/s,使用律或A律的非线性量化技术,主要用于公共电话网中。,G.722,1988年CCITT为调幅广播质量的音频信号压缩制定了G.722标准,它使用子带编码(SBC)方案,其滤波器组将输入信号分成高低两个子带信号,然后分别使用ADPCM进行编码。 G.722能将224kb/s的调幅广播质量的音频信号压缩为64kb/s,主要用于视听多媒体和会议电视等。 G.722的主要目标是保持64kb/s的数据率,而音频信号的质量要明显高于G.711的质量。,G.723,1996年ITU-T通过了G.723标准“用于多媒体传输的5.3kb/s或6.3kb/s双速率话音编码”。它采用多脉冲激励最大似然量化(MP-MLQ)算法,此标准可应用于可视电话及IP电话等系统中。,G.728,为了进一步降低压缩的速率,CCITT于1992年制定了G.728标准,使用基于低时延码本激励线性预测编码(LD-CELP)算法,其速率为16kb/s,主要用于公共电话网中。,G.729,ITU-T于1996年3月通过了G.729标准,它使用8kb/s的共轭结构代数码激励线性预测(CS-ACELP)算法,此标准将在无线移动网、数字多路复用系统和计算机通信系统中应用。,音频编码标准比较,MP3压缩技术,MP3(即Motion Picture Experts Group-1 audio layer 3)是近年来发展非常迅速的一种音频文件格式,具有文件小、音质佳的特点,它利用MPEG Audio Layer 3的技术将WAV文件再加以压缩成为标准音频CD文件的十二分之一。 在一张存放16首歌曲的74分钟的CD上,可以存储大约160首歌曲而且能够播放14个小时之多。,MPEG音频编码标准,MPEG音频编码标准具有可伸缩性,根据采用的压缩因子的不同可以获得不同的音质。 MPEG采用分层编码方式,其层次与压缩因子的关系如下表所示,MP3的一些主要性能,MP4压缩技术,MP4采用的是美国电话电报公司(ATT)所研发的、以“知觉编码”为关键技术的a2b音乐压缩技术,可将压缩比成功地提高到15:1(最大可达到20:1)而不影响音乐的实际听感。 MP4在加密和授权方面也做了特别的设计。,MP4的特点,每首MP4乐曲就是一个扩展名为.exe的可执行文件 更小的体积和更好的音质 独特的数字水印 支持版权保护 比较完善的功能,乐器数字接口MIDI,MIDI是乐器数字接口(Musical Instrument Digital Interface)的英文缩写,是数字音乐/电子合成乐器的统一国际标准。 MIDI规范不仅定义了电脑音乐程序、音乐合成器及其它电子音乐设备交换音乐信号的方式,而且还规定了不同厂家的电子乐器与电脑连接的电缆和硬件及设备间数据传输的协议,可用于为不同乐器创建数字声音,能很容易地模拟钢琴、小提琴等传统乐器的声音。,相对于保存真实采样数据的声音文件,MIDI文件显得更加紧凑,其文件的大小要比WAV文件小得多 MIDI本身并不能发出声音,它是一个协议,只包含用于产生特定声音的指令,而这些指令则包括调用何种MIDI设备的音色、声音的强弱及持续的时间等。电脑把这些指令交由声卡去合成相应的声音(如依指令发出钢琴声或小提琴声等)。 电脑播放MIDI文件时,有两种方法合成声音:FM合成和波表合成。,乐器数字接口MIDI,3.4 音频编码标准,2.音频编码标准比较 :,3.4 音频编码标准,3. MP3压缩标准 MPEG-1第三层合并了MUSIC和ASPEC算法,第三层的输出就是通常所说的MP3。层3使用了比较好的临界频带滤波器,把声音频带分成非等带宽的子带,心理学模型除了使用频域掩蔽特性和时间掩蔽特性之外,还考虑了立体声数据的冗余,并且使用了霍夫曼编码器。虽然层3所用的滤波器组与层1和层2所用的滤波器组的结构相同,但是层3还使用了修正的离散余弦变换MDCT,对层1和层2的滤波器组的不足作了一些补偿。MDCT把子带的输出在频域里进一步细分以达到更高的频域分辨率,同时也部分消除了多相滤波器组引入的混叠效应。图3.24是单信道时MPEG-1第三层的编码器和解码器的原理图。,3.4 音频编码标准,层3编码器: 层3解码器:,MP3音乐的例子:,3.4 音频编码标准,4. AC-3压缩标准 杜比AC-3编码系统属于感知编码器,采用MDCT的自适应变换编码算法,利用临界频带内一个声音对另一个声音信号的掩蔽效应最明显,将整个音频频带分割成若干个较窄的频段,划分频带的滤波器组要有足够锐利的频率响应,以保证临界频带外的噪声衰减足够大,使时域和频域内的噪声限定在掩蔽门限下。由于人类的听觉对不同频率的声音具有不同的灵敏度,因此各频段的宽度并不完全一样,每一个频段所占有的数据量不是平均分配的。编码器通过人耳的听觉掩蔽特性,根据信号的动态特性来决定在某一时刻的数据应当如何分配给各个频段。对于频谱密集、音量大的声音元素应该获得较多的数据占有量,而那些由于掩蔽效应而听不到的声音则少占用或不占用数据量。,3.4 音频编码标准,5. AC-3编码器原理图 :,3.4 音频编码标准,6. AC-3压缩标准特点: (1)杜比数字AC-3提供的环绕声系统由五个全频域声道加一个超低音声道组成 ; (2)杜比数字AC-3是根据感觉来开发的编码系统多声道环绕声 ; (3)全频段的细节十分丰富,具有真正的立体声; (4)杜比数字AC-3具有很好的兼容性 ; (5)AC-3的后环绕声道拥有完整的定位能力。,3.4 音频编码标准,7. MIDI标准 MIDI是Music Instrument Digital Interface 的缩写,一般翻译为“数字化乐器接口”,也就是说它的真正涵义是一个供不同设备进行信号传输的接口的名称。我们如今的MIDI音乐制作全都要靠这个接口,在这个接口之间传送的信息也就叫MIDI信息。 MIDI是一种数字接口 ,而计算机始终是以数字方式工作的 ,当乐器与计算机联接在一起时 ,它的实力才真正显露出来。,3.4 音频编码标准,8.MIDI系统的基本配置如图3.6所示 : MIDI音乐的例子:,3.4 音频编码标准,9. 现时制作MIDI所要用到的音序器、音源甚至录音机等也已经不再局限在硬件中,而有相应的软件产品应运而生,而且其效果与硬件相比并不逊色。虽然软件在稳定性上还不如硬件,但也有其优越之处,如使用方便和容易更新等。随着软件的不断升级,越来越多的软件具有音频处理功能,可以对波形文件进行编辑,完全可以在全软件的环境中制作出好的作品。 根据不同的录音要求和所需的专业程度,选择适合的软件才是最重要的。 (1)CAKEWALK系列 (2)Logic Audio系列 (3)Cubase系列 (4)Cool Edit (5)Samplitude,声卡的组成和工作原理,声卡的发展历史 声卡的声道 声卡的功能 声卡的工作原理 声卡的选择及应用,声卡的发展历史,从PC喇叭到ADLIB音乐卡(告别无声时代) Sound Blaster系列(数字声音精确化历程) SB AWE系列声卡(电脑音乐开始自成流派) PCI声卡(新时代的开始),声卡的声道,单声道 立体声 四声道环绕 5.1声道,声卡的功能,录制、编辑和回放数字声音文件 控制各声源的音量,并混合在一起,以便数字化 在记录和回放数字文件时进行压缩和解压缩,以节省存储空间 采用语音合成技术,能让电脑朗读文件 MIDI接口,声卡的工作原理其实很简单,我们知道,麦克风和喇叭所用的都是模拟信号,而电脑所能处理的都是数字信号,声卡的作用就是实现两者的转换。 声卡可分为模数转换电路和数模转换电路两部分,模数转换电路负责将麦克风等声音输入设备采到的模拟信号转换为电脑能处理的数字信号,此过程称为ADC(Analog to Digital Conversion);而数模转换电路负责将电脑使用的数字声音信号转换为喇叭等设备能使用的模拟信号,这个过程称为DAC (Digital to Analog Conversion)。,声卡的工作原理,声卡的工作原理,主机通过总线将数字化的声音信号以PCM的方式送到数模转换器(D/A),将数字信号变成模拟的音频信号。同时又可以通过模数转换器(A/D)将麦克风或CD的输入信号转换成数字信号,送到计算机进行处理。,声音处理芯片是声卡中的核心芯片,是一个完整的音频子系统电路,通过对音频信号的转换、控制、加工、处理,在个人计算机上实现声卡的另一关键芯片是合成器芯片。 多媒体计算机只有通过合成器才能播放MIDI文件。了较理想的音响效果。,外部输入/输出口 麦克风接口(Mic in)实现声音输入、外录功能 线性输入口(Line in)实现相关设备的音源输入 音频输出口(Line out)实现声音输出 扬声器输出(SPK out)通过声卡功放输出放大信号,用于连接无源音箱。 内部输入/输出口 跳线,Sound Blaster16的结构框图,CODEC芯片(多媒体数字编解码器) 它主要承担对原始声音信号的采样混音处理,也就是A/D,D/A转换功能。为了提高信噪比,Intel公司的AC97规范建议将CODEC独立出来,以减少电子干扰。较著名CODEC厂家有SigmaTel,Wolfson等公司。 声卡模拟输入输出的品质和CODEC的转换品质有着重大的关系,音频加速器或I/O控制器决定了声卡内部数字信号的质量,而CODEC则决定了模拟输入输出的好坏。,音频

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论