《大学计算机基础》课件第5章5.3 数字音频及应用_第1页
《大学计算机基础》课件第5章5.3 数字音频及应用_第2页
《大学计算机基础》课件第5章5.3 数字音频及应用_第3页
《大学计算机基础》课件第5章5.3 数字音频及应用_第4页
《大学计算机基础》课件第5章5.3 数字音频及应用_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

5.3数字音频及应用5.3.1数字音频的获取5.3.2数字音频的表示与应用5.3.3数字音频的编辑与播放5.3.4语音识别与语音合成5.3.1数字音频的获取声音/音频的特性和类型声音(sound)由振动产生,通过空气等介质进行传播声音是一种波,它由许多不同频率的谐波组成,谐波的频率范围称为声音的“带宽”两种音频:话音或语音(speech),专指人的说话声音,带宽仅为300~3400Hz全频带声音(如音乐声、风雨声、汽车声等),其带宽可达到20Hz~20kHz人耳可听见的声音(20Hz~20kHz)在信息技术中称为音频信号,简称音频(audio)数字音频的获取步骤:2.量化(quantization,模数转换)3.编码(encoding)1.取样(sampling)取样模拟声音信号取样的目的是把时间上连续的信号转换成时间上离散的信号量化量化是把每个样本从模拟量转换成为数字量(8位或16位整数表示)数字音频01100011001···编码将所有样本的二进制代码组织在一起,并进行数据压缩时间上离散的一组样本一组二进制整数数字音频的获取设备音频的联机获取设备(声卡)声波转换为电信号音频的获取设备:手机、数码录音笔麦克风(microphone)声音卡(soundcard)模拟音频数字音频取样、量化和编码音频的重建与播放计算机输出声音分为两步:1重建:把音频信号从数字形式转换成模拟信号形式,由声卡完成2播放:将模拟音频信号经处理和放大后送到音箱(扬声器)关于音箱:普通音箱接收的是重建的模拟声音信号数字音箱直接接收数字声音信号,失真更小数字音频011010011101…插值数模转换解码把压缩编码的数字音频恢复为压缩编码前的状态把声音样本从数字量转换为模拟量把时间上离散的一组样本转换成在时间上连续的模拟音频信号重建的模拟音频信号声卡的功能与逻辑组成音频的获取与编码音频的重建与播放MIDI消息的输入MIDI音乐的合成DSPDMA接口PC总线取样,量化D/A重建,滤波声音输出声音输入音乐合成器mixerMIDI接口声卡的主要功能选讲:

声卡的物理实现

声卡主要由2块芯片组成:主处理芯片:包括数字信号处理器、MIDI控制、I/O控制等

CODEC芯片:负责多声道取样、A/D与D/A转换、混音处理等音频主芯片音频混合芯片运算放大器功率放大器MIDI/joystickMIC输入/线路输入PCI总线线路输出扬声器AudioCODEC芯片当前PC机的声卡大多已不再做成独立的插卡形式,而是与主板集成在一起,称为集成声卡2种音频技术规范:

-AC’97音频技术规范

-HDAudio选讲:

声卡的几种类型硬声卡:除CODEC芯片外,主板上还有1块音频主处理芯片,很多音效处理任务无需CPU参与就可独立完成

声卡的类型独立声卡:以扩展卡形式插在机箱中使用集成声卡软声卡:主板上仅1块CODEC芯片,负责取样与量化处理,I/O控制器部分集成在主板上的南桥芯片中,DSP的功能需由CPU协助完成

声卡的组成部分均集成在主板或SOC芯片上5.3.2数字音频的

表示与应用数字音频的表示及其参数数字音频是使用二进位表示的一种串行比特流,其数据按时间顺序进行组织数字音频的主要参数有:取样频率:语音的取样频率低,一般为8k~16kHz全频带声音(如音乐)取样频率高,一般为44.1k~48kHz量化位数:通常为8位、12位或16位声道数目:单声道为1,双声道为2码率(比特率),即每秒钟的数据量未经压缩的数字音频最常用的文件扩展名为“.wav”数字音频码率的计算未压缩时数字音频的码率计算公式码率=取样频率

×

量化位数

×

声道数(单位:bit/s)例:声音类型信号带宽(Hz)取样频率(kHz)量化位数(bits)声道数未压缩时的码率数字语音300~340088164kb/sCD立体声20~2000044.11621411.2kb/s压缩编码之后数字音频的码率为:压缩后的码率=未压缩时的码率/压缩比例:上面CD唱片的立体声音乐压缩为MP3后,若压缩比是12,则该MP3音乐的码率是:1411.2/12≈118kb/s左右数字音频的数据压缩数据压缩的必要性:为了降低存储成本和提高在网络上的传输效率数据压缩的可能性:声音中包含有大量冗余信息;人耳灵敏度有限,允许有一定失真而不易察觉数字音频压缩编码的方法:全频带声音:国际标准MPEG;工业标准DolbyAC-3数字语音:固定电话使用ADPCM编码手机使用高效率的混合编码技术所谓“MP3音乐”,它是一种采用MPEG-1层3编码的高质量数字音频,压缩比大约10~12倍,使一张普通CD光盘上可以存储大约100首MP3歌曲,可连续播放10小时。数字音频的文件类型及其应用音频格式文件扩展名编码类型效果主要应用开发者WAV.wav未压缩声音达到CD品质支持多种采样频率和量化位数,获得广泛支持微软公司FLAC.flac无损压缩压缩比为2:1左右高品质数字音乐Xiph.Org基金会APE.ape无损压缩压缩比为2:1左右高品质数字音乐MatthewT.AshlandM4A.m4a无损压缩压缩比为2:1左右QuickTime,iTunes,iPod,RealPlayer苹果公司MP3.mp3有损压缩MPEG-1audio层3压缩比为8:1~12:1因特网,MP3音乐ISOWMA.wma有损压缩压缩比高于MP3使用数字版权保护因特网,音乐微软公司AC3.ac3有损压缩压缩比可调,支持5.1、7.1声道DVD,数字电视,家庭影院等美国Dolby公司AAC.aac有损压缩压缩比可调,支持5.1、7.1声道DVD,数字电视,家庭影院等ISOMPEG-2/MPEG-4什么是流媒体?在因特网上收听(看)音(视)频节目的2种方式:下载存储方式:先下载存储在计算机中,下载完毕后再播放(缺点:需要等待较长时间,并需要较大的存储容量)流式传输方式:边下载、边播放(优点:只需要下载一部分数据之后,就可以开始一边播放一边下载,等待时间短、存储需求小)流媒体就是一种允许在网络上让用户一边下载一边收看(听)音视频媒体的媒体分发(delivery)技术例如:RealNetworks公司的RealMedia(RealAudio和RealVideo)微软公司的WindowsMediaServices(WMA、WMV和ASF)苹果公司的QuickTime选讲:

流媒体是如何工作的?流媒体播放软件

Web服务器Web浏览器流媒体专用服务器

音频(视频)流媒体文件

网页

(客户计算机)http协议3点击流媒体节目,启动流媒体播放程序RTSP/TCPRTP/UDP6播放器可以边播放边接收数据,并可以控制播放、暂停、快进、快倒等5将音(视)频节目传输给客户计算机RTCP/UDPHTML网页1请求网页2服务器送回网页4向流媒体服务器发出请求5.3.3数字音频的编辑数字音频编辑软件的功能主要功能:1

编辑音频:如声音剪辑、复制、调节音量2

效果处理:如混响、回声、淡入、淡出等3

录音4

音频的格式转换5播放声音数字音频的参数左声道信号波形右声道信号波形淡入淡出时间刻度播放标尺音频编辑软件的典型用户界面5.3.4语音识别与语音合成什么是语音识别什么是语音识别?将人的说话声音转换成相应的文字,这需要计算机自动识别出语音信号中的单词和语汇,甚至理解其语义(内容)。应用:语音拨号、语音导航、设备操作控制、语音文档检索、听写数据录入、计算机同声翻译等。几种不同复杂程度的语音识别技术:孤立语音/连续语音识别小词汇量/大词汇量语音识别特定人/非特定人语音识别语音识别是人工智能领域的一个重要研究课题语音识别进展近几年在GPU平台、大数据训练和深度学习算法的支持下,电话语音数据Switchboard基准测试的词错率已经降低至6%以下,达到了与人工语音识别差不多的水准。安静背景、标准口音、常见词汇上的语音识别已经达到可用状态中科大讯飞公司在国际最高水平的语音合成比赛BlizzardChallenge(暴风雪竞赛)中7项指标全部第一,参加第4届CHiMEChallenge国际多通道语音分离和识别大赛也获取了全部3项赛事的第一名,中文语音识别系统保持绝对领先,英语语音识别同样也达到了国际领先水平

应用举例iPhone手机的Siri

使用语音完成查找资料、查询天气、设定手机日历、设定闹铃等中科大讯飞公司开发的“讯飞输入法”集语音输入、手写输入和软键盘输入于一体;微信中口述自动转文字微软公司的全自动同声传译系统,讲演者用英文演讲,后台的计算机一气呵成自动完成语音识别、英中翻译以及中文语音合成讯飞公司开发的便携式实时翻译机“讯飞·译呗”,解决了方言、俚语和背景噪声的干扰问题,可在中文和其他十多种语言之间进行精准的同声互译,并可充当速记员进行记录并显示

什么是计算机合成音频?计算机合成音频就是计算机模仿人说话或演奏音乐计算机合成音频有两类:计算机合成话音(语音):计算机模仿人把一段文字朗读出来,即把文字转换为说话声音(简称为TTS)应用:有声查询、文稿校对、语言学习、语音秘书、自动报警、残疾人服务等计算机合成音乐(MIDI):计算机模拟各种乐器发声并按照乐谱演奏音乐应用:计算机作曲、配器等文语转换(TTS)文本分析韵律处理语音合成文本合成语音词典,发音规则库语音库韵律规则库1对文本进行分析,判断每一个字的正确读音,将文字序列转换成一串发音符号(如国际音标或汉语拼音)2根据文句的结构、位置、使用的标点符号以及上下文等,确定发音时语气的变换以及读音的轻重缓急,这些都由一组韵律控制参数来进行控制3根据发音标注,从语音库中取出相应的语音基元,按照韵律控制参数的要求,利用特定的语音合成技术对语音基元进行调整和修改,最终合成出符合要求的流畅自然的语音计算机合成音乐(MIDI)音乐合成器音乐MIDI文件媒体播放器MIDI消息计算机合成音乐需要三个要素:乐器、乐谱和“演奏员”声卡上的音乐合成器能像电子琴一样模仿几十种不同的乐器发出声音,它按照MIDI消息合成出不同音色和音调的音符,通过扬声器播放出音乐来

乐谱在计算机中使用一种叫做MIDI的音乐描述语言来表示。使用MIDI描述的音乐称为MIDI音乐。一首乐曲对应一个MIDI文件,其文件扩展名为.MID或.MIDI媒体播放器软件相当于“演奏员”。播放MIDI音乐时,它先从磁盘上读入.MID文件,解释其内容,然后以MIDI消息的形式向声卡上的音乐合成器发出各种指令选讲:

音乐合成器PC机声卡一般都带有MIDI音源(音乐合成器)MIDI音源有两种:调频合成器(一种受控的电子振荡器)。音色单调,效果较差,已很少使用波表合成器。音色丰富,效果很好,可扩展,现广泛使用波表合成器的原理预先将真实乐器演奏的各个音符的波形数字化,把它们组织成一个个波表文件存放在存储器中播放时合成器软件根据乐器类型和音符参数等将相应的波形数据修饰成所要求的音强和时长,然后合成、加工后播放低通滤波采样、量化加工处理乐器演奏

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论