第3章 数字音频处理技术.ppt_第1页
第3章 数字音频处理技术.ppt_第2页
第3章 数字音频处理技术.ppt_第3页
第3章 数字音频处理技术.ppt_第4页
第3章 数字音频处理技术.ppt_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章数字音频处理技术,音频承载着大量的信息,精细而准确。以汉字的表现为例:3.1音频基础,声音是由物体的振动产生的。声音是通过某种介质传播的连续波,称为声波。声音的强度反映在声压(振幅)上。音高反映在声音的频率上。音调是指声音的感官特征,它与声音波形有关。2.1.1声音的基本概念和声音的三个重要指标:振幅、周期和速率。纯音:振幅和周期不变的声音。复调音乐:不同频率和振幅的混合声音。自然界中的大多数声音都是复合信号。复合信号中的单频信号称为分量信号。复调音乐中最低频率的信号是基音,其他频率的声音称为谐波。振幅:音量周期:重复时间间隔频率:指每秒钟信号变化的次数。研究结果表明,人类听觉的大致范围

2、是20赫兹和20千赫兹。根据频率,声音可以分为:人们称频率小于20Hz的信号为子音信号或子音信号;20 Hz20K赫兹的频率范围称为音频信号。20千赫以上的信号被称为超级音频信号,或超声波信号。人体发音器官发出的声音频率约为803400赫兹,但语音信号的频率通常为3003000赫兹。人们称这种频率范围信号为语音或语音信号。带宽声音信号的一个重要参数是带宽,用来描述复合信号的频率范围。高保真音频的频率范围为10 Hz20K赫兹,带宽约为20K赫兹。一般来说,声源的频带越宽,表现力越强,层次越丰富。声音质量的频率范围:3.2声音的数字化,1模拟信号和数字信号声音信号是典型的连续信号,不仅在时间上连

3、续,而且在幅度上也连续。我们称时间和振幅连续的信号为模拟信号。我们称时间和振幅用离散数字表示的信号为数字信号。将模拟声音信号转换成数字声音信号的过程称为声音数字化,它是通过对声音信号进行采样、量化和编码来实现的。2。声音数字化过程中,模拟信号、数字信号、A/D、每隔一个时间间隔对模拟声音波形取一个幅度值,称为采样。这个时间间隔称为采样周期(其倒数称为采样频率)。用一个数来表示一定幅度范围内的电压,称为量化。将量化值写入有利于计算机传输和存储的数据格式称为编码。例如,模拟电压幅度、量化和编码之间的关系,3。影响声音数字化质量的主要因素,采样频率:即每秒需要采集多少个声音样本的量化位数:每个声音样

4、本的位数应该是多少,也叫量化精度通道数:指使用的声音通道数,(1)采样频率,它决定了声音的保真度。频率以千赫为单位。可以想象,采样频率越高,声音的保真度越好。但问题是,如果我们的采样频率太高,要存储的数据量就太大了。我们如何确保在没有太多数据的情况下无损恢复数据?采样应满足采样定理(奈奎斯特定理)。通俗地说,采样频率应大于或等于被采样物体最高频率的两倍。常见的音频采样频率为8千赫、11.025千赫、22.05千赫、16千赫、37.8千赫、44.1千赫和48千赫。其中,8千赫、11.025千赫、22.05千赫和44.1千赫是音频行业的标准采样频率,为大多数声卡所支持。市场上非专业声卡的最高采样率

5、为48千赫,专业声卡可以达到96千赫以上。为什么光盘音质的采样频率设置为44.1千赫?(2)量化位数。量化过程如下:首先,将整个幅度分成一组有限的小幅度(量化步长),将落入某一步长内的样本分类为一类,并给出相同的量化值。样本大小用每个声音样本的位数来表示。它反映了测量声音波形幅度的准确性。2B不同的量化级别可以用B位二进制码字来表示。例如,8位声音从最低到最高有28级,即256级,16位声音有216级,即65536级。位数越多,音质越好,但数据量越大。主要有8位和16位量化位。专业水平使用24位甚至32位。量化方法可以分为两类:一类称为均匀量化,另一类称为非均匀量化。均匀量化,使用相等的量化间

6、隔来量化采样信号是均匀量化。分析:如果有大幅度信号,且满足精度要求,则需要增加样本数量。然而,对于语音信号,出现大信号的机会不多,因此没有充分利用来增加样本的数量。X1X2X4X5XXX7,非均匀量化,非线性量化的基本思想是在量化输入信号时,大的输入信号采用大的量化间隔,而小的输入信号采用小的量化间隔。当语音数据恢复时,采用相同的规则。根据语音信号非均匀分布的特点,我们试图使量化步长随着信号概率密度的减小而增大,或者将较大的量化误差留给出现概率较小的样本,从而获得较大的信噪比。(3)声道号,指所使用的声道数。它指示录音是只产生一个波形(单声道)还是多个波形(立体声)。双通道立体声听起来比单音更

7、饱满、更优美,但它需要的存储空间是单音的两倍。存储数字音频信号的数据速率=采样频率(Hz)*量化位数(b)8*通道数(B/s)音频信息文件所需的存储空间为:存储容量=采样频率*量化位数8*通道数*时间(B),关于通道的补充知识,双通道立体声杜比AC-3音频和5.1通道,5个全波段,3.3声音文件的存储格式,PCM格式:PCM数据序列。它是指由音频信号的模数转换直接形成的二进制序列。文件没有附加的文件头或文件结束标志。波形音频文件格式,由微软公司推出。通过采样和量化一段模拟声波获得一系列量化的数字值,然后这些离散的波形数据被编码和存储以形成数字化的音频信号数据。WAV文件是一个通用的音频数据文件

8、。这种文件容易生成和编辑,但在保证一定音质的前提下压缩率不够,而且其文件占用了很大的存储空间。支持不同采样频率和采样精度的声音数据存储,支持声音数据压缩。波形文件由许多不同类型的文件构建块组成,其中最重要的两个文件构建块是格式块和声音数据块。格式块包含描述波形的重要参数,如采样频率和采样精度,而声音数据块包含实际波形声音数据。音频文件格式,声符:声霸声符:创意公司使用的波形音频文件格式。MID:窗口的MIDI音频存储格式。MP3: MP3压缩格式文件。MP3的全称实际上是MPEG1音频层3 MP4:基于MPEG-2 AAC技术的文件压缩格式。CD格式:cda文件,大小为44字节,只是一个索引信

9、息,不包含真实的声音信息。声音文件存储格式。RA,RM:Real公司开发的文件格式,主要适用于网络上的实时数字音频流技术。ASF,ASX,WMA,WAX:微软为Real开发的新一代流式数字音频压缩技术。3.4声卡和扬声器,声卡是处理各种数字声音信息的硬件。声卡的主要功能包括:记录、编辑和回放数字音频文件,控制和混合每个声源的音量,在记录和回放过程中进行压缩和解压缩,实时动态地处理数字化的声音信号,使计算机能够通过语音合成技术读取文本,使用户能够通过语音识别功能指挥计算机。MIDI接口、光驱接口、操纵杆端口、声卡接口、3.5 MIDI和音乐合成,MIDI简介MIDI是乐器数字接口的缩写,可以翻译

10、成“电子乐器数字接口”。在音乐合成器、乐器和计算机之间交换音乐信息的标准协议。自20世纪80年代初以来,MIDI逐渐被音乐家和作曲家广泛接受和使用。MIDI是乐器和计算机使用的标准语言,它是一组指令(即命令约定),指示乐器(即MIDI设备)应该做什么以及如何做,例如弹奏音符、增加音量、产生音效等。MIDI不是声音信号,在MIDI电缆上传输的不是声音,而是发送给MIDI设备或其他设备的指令,使其产生声音或执行动作。MIDI主要包括以下两部分:MIDI硬件规范:硬件接口标准和信号传输机制(输入输出通道、连接电缆和插座形式)。音乐信息的数字编码模式(音符、音符长度、音调和音量等)。)。MIDI标准之

11、所以流行,主要是因为它具有以下优点:生成的文件相对较小,因为MIDI文件存储的是命令而不是声音波形;易于编辑,因为编辑命令比编辑声音波形容易得多;它可以用作背景音乐,因为MIDI音乐可以与其他媒体一起播放,如数字电视、图形、动画、声音等。可以增强演示效果。注意:因为MIDI文件记录了电子乐器的“乐谱”指令,所以它只能复制打击乐器或一些电子乐器。MIDI音乐合成器,产生MIDI音乐的方法主要有两种,一种是调频合成法,另一种是音乐样本合成法,也称为波形表合成法。调频合成法是通过硬件产生波形信号,然后进行处理产生音乐。音乐样本合成法是将各种实用乐器的声音样本预先存储在只读存储器中,并以查找表的方式调

12、用该实用乐器的声音样本来合成该乐器的音乐。波形表合成方法分为硬波形表和软波形表。硬波形表的声音库存储在声卡的只读存储器中,软波形表的声音库以文件的形式存储在硬盘中,必要时由中央处理器调用。波形表合成音乐的效果更逼真,效果也比调频好。3.6音频处理技术的应用随着多媒体信息处理技术的发展和计算机数据处理能力的提高,音频处理技术得到了重视和广泛应用。例如:(1)视频图像的配音和配乐;静态图像和背景音乐的解释;(2)可视电话和视频会议中的语音;游戏中的音效;虚拟现实中的声音模拟:(3)网络电话,(4)语音欺骗系统和声纹识别语音欺骗:例如,在军事上,敌人的无线电信号被截获,内容被改变,信号被转发。语音伪

13、造设备可以将截取的信号分成0.25秒的片段,并对它们进行重组,从而在不改变敌方说话者的语音的情况下获得欺骗性的新信息。进一步的研究装置可以将敌方操作者的声音分成几十个音素,将这些音素转换成参考模板,并存储在数据库中。情报技术人员可以用自己的声音说话,并触发相应敌方操作者的音素参考模板。收音机里的声音广播听起来和敌人的完全一样。声音欺骗系统需要高超的声音分析技术和语音合成技术。声纹识别可以用来破案。(5)现代“芝麻开门”系统(6)互联网上的实时音频(7)语音识别(8)计算机语音输出(9)虚拟主机,(5)语音识别:语音识别是将人的声音、单词或短语转换成单词和符号,或给出响应,如执行控制和给出答案。

14、语音识别技术应用于需要使用语音作为人机交互手段的场合,主要实现听写和命令控制功能。例如,语音识别软件IBM ViaVoice,计算机语音输出要研究和解决的问题是如何使用计算机输出流利的自然语言,使计算机具有说话的能力。一般来说,有两种方法可以实现计算机语音输出:一种是录音/回放,另一种是文本到语音。文本到语音的转换是语音合成技术的延伸,它可以将计算机中的风格转换成连续自然的语音流。如果用这种方法输出语音,应事先建立语音参数和发音规则的数据库。当需要输出语音时,系统首先根据需要合成语音单元,然后根据语音规则或语言规则将它们连接成自然的语音流。例如,文本到语音转换软件Panopreter,虚拟主机ANANOVA,世界上第一个由英国设计的虚拟主机和播音员。虚拟新闻主播Ananova于2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论