多媒体计算机技术_第1页
多媒体计算机技术_第2页
多媒体计算机技术_第3页
多媒体计算机技术_第4页
多媒体计算机技术_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多媒体计管机技术

号玄伟

hwlu@263.net

第四章音频信号和声音卡

2•音频编码基础考

*•音频处理涉及的内容题

••音频信号压缩技术

••音频编码标准

••声音卡的组成和工作原理

Z•语音识别技术及应用

音频处理涉及的内容

,也即声波的物理特性。

音频的记录和产生方式,包括模/数、数

/模转换;数据压缩和声音合成。

:•音频信号的处理方法大致可分为两类:

:一种是数字音频方式,另一种是分析一

■合成的方安

音频编码基础

••声音是携带信息的极其重要的媒体,是多媒体技术研

■究中的一个重要内容。声音的种类繁多,如人的话音、

Z乐器声、动物发出的声音、机器产生的声音以及自然

2界的声音等。

:•这些声音有许多共同的特性,也有它们各自的特性。

Z在用计算机处理这些声音时,既要考虑它们的共性,

■又要利用它们的各自的特性。

:•我们将研究声音的基础知识,掌握声音数字化的两个

•最基本的概念;了解基本的音频信号编码技术。

音频编码基础

Z•声音信号的特点

z.音频信息的分类

•■音频信号处理的方法

••音频文件的存储格式

声音质量的度量

频带宽度

BacU

・音频信号的频带越宽,所包含的音频信

号分量越丰富,音质越好

CD-DA

FM广橘

AM广播

电话

1020502003.4K7K15K22Kf(Hz)

:动态范围K

EaeL

:•动态范围越大,信号强度的相对变化范

•围越大,音响效果越好

X动态范围(邢)406050100

信噪比

BacU

••信噪比SNR(SignaltoNoiseRatio)

:是有用信号与噪声之比的简称。噪音可

:分为环境噪音和设备噪音。信噪比越大,

声音质量越好。

门加有用信号的平均功率

噪声的平均功率

主观度量法

BacU

:•人的感觉机理对声音的度量最有决定意

:义。感觉上的、主观上的测试是评价声

二音质量不可缺少的部分。当然,可靠的

:主观度量值是较难获得的

音频信息的分类

NEXT

分类注释

不规则声音一般指不携带信息的噪音

语音是指具有语言内涵和人类约定俗成的特殊媒体

音乐规范的符号化了的声音

指人类熟悉的其它声音,如动物发声、机器产生的声音、自然界的

风雨雷电等。

规则音频

BacU

•规则音频是一种连续变化的模拟信号,可用一

条连续的曲线来表示,称为声波。模拟信号

的曲线无论多复杂,在任一时刻都可分解成

一系列正弦波的线性叠加:

声音信号的特点

NEXT

•声音是通过空气传

播的一种连续的波,

这种连续性表现在

两个方面,一个是

时间上的连续性,

另一方面是指它在

幅度上是连续的。

・音频信号的特征:

•基频与音调

•谐波与音色

*幅度与音强

•音宽与频带

:声音信号的特点.

:EaeL

:­人的听觉器官能感知的频率范围为20〜

:20000Hz,能感知的声音幅度范围在0〜

-120dB之间,而人的发音器官能够发出

Z的声音频率范围为80〜3,400Hz。

z•声音是一种弹性波,声音信号可以分成

:周期信号与非周期信号两类。

:­声音的质量与声音的频率范围有关。

:基频与音调IS

:EaeL

:•频率是指信号每秒钟变化的次数。人对声音

Z频率的感觉表现为音调的高低,在音乐中称

2为音高。音调正是由频率/所决定的。音乐

・中音阶的划分是在频率的对数坐标(20Xlog)

Z上取等分而得的:

■音阶CDEFGAB

■简诺符号1234567

频率(Hz)

,261293330349392440494

■频率(对数)48.349.350.350.851.852.853.8

:谐波与音色.

.EaeL

*•〃①0称为①0的高次谐波分量,也称为泛

:音。音色是由混入基音的泛音所决定的,

;高次谐波越丰富,音色就越有明亮感和

:穿透力。不同的谐波具有不同的幅值A”

:和相位偏移彼n,由此产生各种音色效

:・1y果No

幅度与音强

BacU

:•人耳对于声音细节的分辨只有在强度适中时

:才最灵敏。人的听觉响应与强度成对数关系。

■一般的人只能察觉出3

Z•分贝的音强变化,再细分则没有太多意义。

z我们常用音量来描述音强,以分贝

•(dB=201og)为单位。在处理音频信号时,

:绝对强度可以放大,但其相对强度更有意义,

■一般用动态范围定义:

Z动态范围=20义log(信号的最大强度/信号的

・最小强度)(dB)

音宽与频带

BacU

:•频带宽度或称为带宽,它是描述组成复

:合信号的频率范围

音频(Audio)带宽

次声带一(_P—超声带

语音(Speech)带宽

203003K20Kf(Hz)

音频信号处理的方法.

•首先对声音进行在时间轴和幅度两个方

面进行离散化。

音频文件的存储格式

FNEXT]

:•目前比较流行的主要包括以下几种:

:-主要用在PC上的以.wav(waveform)为扩展

:名的文件格式;

--主要用在Unix工作站上的以.au(audio)为扩

X展名的文件格式;

Z-主要用在苹果机和美国视算科技有限公司

二的工作站上的以.aiff和snd为扩展名的文件

Z格式

:-PC机上比较流行的以.rm和.mp3

波形文件格式

NEXT

••.wav为扩展名的

:文件格式称为波ID:RIFF。

2形文件格式RIFF类型:WWEo

••由IBM和微软公格式块”

Z司于1991年8月

二联合开发的声音数据块”

部分音频文件的后缀盆.

文件的扩展名说明

Sun和NeXT公司的音频文件存储格式(8位四律编码

Au

或者16位线性编码)

aif(AudioInterchange)Apple计算机上的音频文件存储格式

cmf(CreativeMusicFormat)声霸(SB)卡带的MIDI文件存储格式

MIDI文件存储格式

WMWe*t/1

mid(MIDI)Windows的MIDI文件存储格式

mp2MPEGLayerI』

mp3MPEGLayerIII

Mod(Module)MIDI文件存储格式

rm(RealMedia)则黝喊鼠公司的流式音频文件格式

ra(RealAudio)四麒殿殿公司的流式音频文件格式

声音卡文件存储格式

\RAAoA/Vl*Adlib

Snd(sound)Apple计算机上的音频文件存储格式

SeaMIDI文件存储格式

MIDI文件存储格式

声霸卡存储的音频文件存储格式

XV/v\oA/Wcv(CreativeVoice)

Windows采用的波形音频文件存储格式

\WAAAaAvAA(zWaveform)*

WrkCakewalkPro软件采用的MID

:声音质量的度量.

:EaeL

:­声音的质量可以用声音信号的带宽和动态范

:围来衡量,等级由高到低依次是DAT,CD,

.FM,AM和数字电话。

:•声音质量的度量还有两种基本的方法:一种

z是客观质量度量,另一种是主观质量度量。

2•声音客观质量的度量主要用值噪比SNR(signal

・tonioseratio)。

z•主观质量度量最常用的方法有平均意见得分

■(meanopinionscore,MOS)。

音频信号压缩技术

•,木既述

••脉冲编码调制

:­增量调制

••自适应脉冲编码调制

••差分脉冲编码调制

:・自适应差分脉冲编码调制

概述

爵aek

数据压缩的主要依据是人耳朵的听觉

特性,使用“心理声学模型”来达到压缩

声音数据的目的:

-听觉系统中存在一个听觉阈值电平

-听觉掩饰特性

脉冲编码调制

BaeU

:•脉冲编码调制PCM(PulseCodeModulation)是一

一种模数转换的最基本编码方法

Z•模数转换有两个步骤:第一步是采样,就是每隔一

•段时间间隔读一次声音的幅度;第二步是量化,就

Z是把采样得到的声音信号幅度转换成数字值。

采样时钟

]|11nHi\

:采样频率

:•采样频率是指一秒钟内采样的次数。采

:样频率的选择应该遵曲奈奎斯特

一(HarryNyquist)采样理论:如果对

:某一模拟信号进行采样,则采样后可还

:原的最高信号频率只有采样频率的一半,

:或者说只要采样频率高于输入信号最高

:频率的两倍,就能从采样信号系列重构

:原始信号

量化

Z量化位是两化中一个十分重要的参数,它是对模

■拟音频信号的幅度轴进行数字化,决定了模拟信号数

Z字化以后的动态范围。由于计算机按字节运算,一般

•的量化位数为8位和16位。量化位越高,信号的动态

z范围越大,数字化后的音频信号就越可能接近原始信

:号,但所需要的存贮空间也越大。

•量化有好几种方法,但可归纳成两类:一类称为

Z,另一类称为非均匀量化。如果采用相等的

,量化间隔对采样得到的信号作量化,那么这种量化称

Z为均匀量化。均匀量化就是采用相同的“等分尺”来

・度量采样得到的幅度,也称为线性量化,如图所示。

Z这种方法称为,用PCM表示

:非线性量化

:•非线性量化的基本想法是,对输入信号进行量化时,

二大的输入信号采用大的量化间隔,小的输入信号采用小

Z的量化间隔。

2•在非线性量化中,采样输入信号幅度和量化输出数据

Z之间定义了两种对应关系,一种称为口律压(缩)扩(展)

■夏法,另一种称为A律压(缩)扩(展)算法。

:pi律压(缩)扩(展)算法.■

:日律压扩用在北美和日本等地区的数字电

:话通信中,按下面的式子确定量化输入和

:输出的关系:

:FR(x)=sgn(x)[ln(l+//1x|)/ln(l+//)]

:式中:X为输入信号幅度,规格化成

:VI;sgn(x)为X的极性;〃为确定压缩量的参

:数,它反映最大量化间隔和最小量化间隔

一之比,取1004/4500。

A律压(缩)扩(展)算法

BaeU

•A律(A-Law)压扩用在欧洲和中国大陆等地区的

:数字电话通信中,按下面的式子确定量化输入

:和输出的关系:

一/"—{sgn(x)[(l+InZ|x|)/(1+InA)]\/A<|x|<1

:式中:X为输入信号幅度,规格化成-1。。,

zSgn(x)为X的极性;4为确定压缩量的参数,它反

•映最大量化间隔和最小量化间隔之比。

增量调制

FNEXT]

增量调制DM(DeltaModulation)是一种预

测编码技术。

DM是对实际的采样信号与预测的采样

信号之差的极性进行编码,将极性变成

“0,,和“1,,这两种可能的取值之一。如

果实际的采样信号与预测的采样信号之

差的极性为“正”,则用“1”表示;相

反则用“0”表示。

DM波形编码的原理图

NEXT

x[0]x[l]x[2]x[3]x[4]x[5]x[6]x[7]x[8]x[9]x[10]x[ll]x[12]…

♦编码输出

三其中x[i]表示在i点的编码输出,y[i]表

:示输入信号的实际值。

:增量调制的缺点

:EMU

:•一是会出现斜率过载,即增量调制器的

:输出不能保持跟踪输入信号的快速变化

I•二是会产生粒状噪声。反馈回路输出信

:号的最大变化速率受到量化阶大小的限

:制,因为量化阶的大小是固定的。

自适应脉冲编码调制《・

Baeu

•根据输入信号幅度的均方根值的变化来改变

量化增量的一种编码技术。

•改变量化阶大小的方法有两种:一种称为前

向自适应(forwardadaptation),另一种称为后

向自适应(backwardadaptation)。

输入T量化器

z输入"夏福m垣卜,输出*输出

♦输出量化增置适配播j

图4.9前向自适应图4.10后向自适应

-r

:差分脉冲编码调制S

.EMU

:•利用样本与样本之间存在的

z信息冗余度来进行编码的一

.种数据压缩技术。输入率使[土

:•差分脉冲编码调制的思想是国轲

z根据过去的辞本去估算下一

-个样本信号的幅度大小,这--------于

:个值称为预测值,然后对实

•际信号值与预测值之差进行

z量化编码,从而就减少了表

•示每个样本信号的位数。

自适应差分

脉冲编码调制

•它的核心想法是:

:①利用自适应的思想输入LKI

z改变量化增量的大小;

•②使用过去的样本值

:估算下一个输入样本

Z的预测值,使实际样

:本值和预测值之间的

:差值总是最小。

音频编码标准

••ITU-TG系列声音压缩标准

*•MP3压缩技术

:,MP4压缩技术

*•乐器数字接口MIDI

ITU-TG系列

声音压缩标准BaeU

2•G.711

••G.722

Z•G.723

升G.728

z•G.729

--音频编码标准比较

:G.711

:KacL

•1972年CCITT为电话质量和语音压缩制

:定了PCM标准G.711。其速率为64kb/s,使

:用V律或A律的非线性量化技术,主要用于

:公共电话网中。

G.722

BaeU

:•1988年CCITT为调幅广播质量的音频信号压缩

:制定了G.722标准,它使用子带编码(SBC)方

Z案,其滤波器组将输入信号分成高低两个子

:带信号,然后分别使用ADPCM进行编码。

:•G.722能将224kb/s的调幅广播质量的音频信号

:压缩为64kb/s,主要用于视听多媒体和会议电

Z视等。

G.722的主要目标是保持64kb/s的数据率,而

;音频信号的质量要明显高于G.711的质量。

G.723

BaeU

:1996年ITU-T通过了G.723标准一“用

:于多媒体传输的5.3kb/s或6.3kb/s双速率话

:音编码”。它采用多脉冲激励最大似然量

:化(MP-MLQ)算法,此标准可应用于可视

:电话及IP电话等系统中。

G.728

BaeU

为了进一步降低压缩的速率,CCITT

于1992年制定了G.728标准,使用基于低

时延码本激励线性预测编码(LD-CELP)算

法,其速率为16kb/s,主要用于公共电话

网中。

:G.729」

:KacL

:ITU-T于1996年3月通过了G.729标准,

•它使用8kb/s的共貌结构代数码激励线性预

•测(CS-ACELP)算法,此标准将在无线移

:动网、数字多路复用系统和计算机通信系

:统中应用。

音频编码标准比较.

BaeU

标选比摘蟀繇魅应用制定日期

G.71164kb/sPCM公共电丽72年

G.72264kb/sSBC+ADPCM撕多媒体舲议电话88.11

G.7235.3kb/s或MP-MLQ963

懒电话及IP电话等

63kM

G.72816kMLD-CELP公共电丽92.9

G.7298kb/sCS-ACELP祓移拆、计算机通信系统等963

MP3压缩技术

FNEXT]

••MP3(BPMotionPictureExpertsGroup-1audio

:layer3)是近年来发展非常迅速的一种音频文

z件格式,具有文件小、音质佳的特点,它利

•用MPEGAudioLayer3的技术将WAV文件再

Z加以压缩成为标准音频CD文件的十二分之一。

:•在一张存放16首歌曲的74分钟的CD上,可以

:存储大约160首歌曲而且能够播放14个小时之

T多。

MPEG音频编码标准

NEXT

:•MPEG音频编码标准具有可伸缩性,根

:据采用的压缩因子的不同可以获得不同

:的音质。

:•MPEG采用分层编码方式,其层次与压

:缩因子的关系如下表所示

1:4Layer1(相当于384kbps立体严信号),

1:6...1:8Layer2(木魁于256..192kbps立体声信号),

1:10...1:12Layer3(相当于128..112kbps立体声信号),

MP3的一些主要性能

BaeU

音质带宽模式tm¥压缩比

电话音质2.5kHz单声道8kbps96:1

短波4.5kHz单声道16kbps48:1

调幅收音机7.5kHz单声道32kbps24:1

FM收音机11kHz双声道56...64kbps26...24:1

耐CD15kHz双声道96kbps16:1

CD>15kHz双声道112J28kbps14.,12:1

YV

MP4压缩技术

FNEXT]

:•MP4采用的是美国电话电报公司(AT&T)

:所研发的、以“知觉编码”为关键技术

•的a2b音乐压缩技术,可将压缩比成功地

:提高到15:1(最大可达至1)20:1)而不影响音

X乐的实际听感。

z•MP4在加密和授权方面也做了特别的设

T计。

:MP4的特点j

:KacL

•・每首MP4乐曲就是一个扩展名为.exe的

•可执行文件

•・更小的体积和更好的音质

Z•独特的数字水印

••支持版权保护

••比较完善的功能

乐器数字接口MIDI

FNEXT]

••MIDI是乐器数字接口(MusicalInstrument

ZDigitalInterface)的英文缩写,是数字音乐/电

2子合成乐器的统一国际标准。

:•MIDI规范不仅定义了电脑音乐程序、音乐合

一成器及其它电子音乐设备交换音乐信号的方

,式,而且还规定了不同厂家的电子乐器与电

:脑连接的电缆和硬件及设备间数据传输的协

:议,可用于为不同乐器创建数字声音,能很

•容易地模拟钢琴、小提琴等传统乐器的声音。

:乐器数字接口MIDI

••相对于保存真实采样数据的声音文件,MIDI

:文件显得更加紧凑,其文件的大小要比WAV

X文件小得多

:­MIDI本身并不能发出声音,它是一个协议,

:只包含用于产生特定声音的指令,而这些指

*令则包括调用何种MIDI设备的音色、声音的

Z强弱及持续的时间等。电脑把这些指令交由

:声卡去合成相应的声音(如依指令发出钢琴声

•或小提琴声等)。

Z•电脑播放MIDI文件时,有两种方法合成声音:

•FM合成和波表合成。

Z声音卡的组成

Z和工作原理

••声音卡的发展历史

••声音卡的声道

••声音卡的功能

••声音卡的工作原理

••声音卡的选择及应用

:声音卡的发展历史

•・从PC喇叭到ADLIB音乐卡

:,SoundBlaster系列

Z・SBAWE系列声卡

•・PCI声卡

声音卡的声道

BaeU

...cgQia"

单声道左声=道.一仁:竽、.、口右声道

/\I,、

/,、3。度:;'

立体声r

四声道环绕

:2。度3

5.1声道左环绕1"

I~右环绕

图5.155.1通道

声音卡的功能

BaeU

5­录制、编辑和回放数字声音文件

三•控制各声源的音量,并混合在一起,以

:便数字化

:■在记录和回放数字文件时进行压缩和解

:压缩,以节省存储空间

:■采用语音合成技术,能让电脑朗读文件

Z•MIDI接口

声音卡的工作原理

NEXT

;•主机通过总线将数字化的声音

主*Line输出

.信号以PCM的方式送到数模转换D/A

•器(D/A),将数字信号变成模拟的机功放一♦耳机/扬声器

■音频信号。同时又可以通过模数总麦克风

线二A/D

:转换器(A/D)将麦克风或CD的输Line输入

.入信号转换成数字信号,送到计

一算机进行处理。

z•声音处理芯片是声卡中的核心芯片,是一个完整的音频子系

•统电路,通过对音频信号的转换、控制、加工、处理,在个人计

・算机上实现声卡的另一关键芯片是合成器芯片。

Z•多媒体计算机只有通过合成器才能播放MIDI文件。了较理想

,的音响效果。

JSoundBlasterl6的结构框图

NEXT

-三

MIDI合成芯片逻辑框图

BaeU

IRQXIxo

CLKO

据4BCO

总定时控制器

AO,AI线时钟•LRO

WCO

CS,WR,RD制

包络线-

■FM算了T累加器]

发生器.—X—1

PDO,▼线性内插

寄存器阵列♦DO

D0-D7相位发生器LFOI值计算器

:声音卡的选择及应用S

.KacL

••声卡的兼容性

Z,音频技术指标

:­声卡的使用

语音识别技术及应用

••语音识别的发展历史

••语音识别技术

:・语音识别系统的类型

••语音识别的应用

尚待成熟的语音识别

:•就在几年羽,语音识别(SR)还是投资界的宠儿。虫

—场领导厂商如Dragon和LernoutHauspie(L&H)有点被

•热情冲昏了头脑。98%的准确率及能够识别10万余字

Z的功能似乎几个月内就会淘汰键盘、甚至手写笔。

,•许多用户对传闻的准确率感到失望。尽管许多公司竭

Z力炒作其技术可以实现很高的准确率,但是准确率往

一往只有80%到85%。SR对许多字断章取义,尚未解决

,标点问题,似乎老是听不懂尖声的嗓音、感冒患者的

Z声音及各种口音。显然,一项尚在发展的技术被人误

•传成了“成品”。这项技术即使接近厂商在上世纪末

•所做的承诺,恐怕也需要许多年。

语音识别的发展历史

FNEXT]

Z•语音识别技术的研究工作始于20世纪50年代,当时

-AT&TBell实验室实现了第一个可识别十个英文数字

Z的语音识别系统一Audry系统。

Z•60年代,计算机的应用推动了语音识别的发展。

:•70年代,语音识别领域取得了突破。

:•80年代,语音识别研究进一步走向深入,其显著特征

Z是HMM模型和人工神经元网络(ANN)在语音识别

一中的成功应用。

Z•90年代,随着多媒体时代的来临,迫切要求语音识别

■系统从实验室走向实用。

:语音识别技术的发展.

.KacL

,如图表示了从80年代初以来语音识别技术经历的从孤立词、小词汇

语音识别技术

BaeU

:•不同的语音识别系统,虽然具体实现细

:节有所不同,但所采用的基本技术相似,

:它所涉及的领域包括:信号处理、模式

:识别、概率论和信息论、发声机理和听

2觉机理、人工智能等等。

Z•语音识别技术主要包括特征提取技术、

z模式匹配准则及模型训练技术三个方面。

;此外,还涉及到语音识别单元的选取。

典型语音识别系统

的实现过程

识别结果

:语音识别单元的选取.

:KacL

Z・选择识别单元是语音识别研究的第一步

:•语音识别单元有单词(句)、音节和音素三

Z种

:­单词单元广泛应用于中小词汇语音识别系统

:•音节单元多见于汉语语音识别

:­音素单元以前多见于英语语音识别的研究中,

Z但目前中、大词汇量汉语语音识别系统也在

T越来越多地采用

特征参数提取技术

FNEXT]

:•语音信号中含有丰富的信息,这些信息

:称为语音信号的声学特征

二•特征提取是对语音信号进行分析处理,

:去除对语音识别无关紧要的冗余信息,

:获得影响语音识别的重要信息

:•由于语音信号的时变特性,特征提取必

:须在一小段语音信号上进行,也即进行

■短讲分析

:常用的一些声学特征.

.KacL

••线性预测系数LPC

••倒谱系数CEP

**Mel倒谱系数MFCC和感知线性预测PLP

:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论