第三章新音频信息处理幻灯片.ppt

上传人：油*** IP属地：浙江上传时间：2020-03-22 格式：PPT 页数：95 大小：4.85MB 积分：30 举报 版权申诉

已阅读5页，还剩90页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1 第三章数字音频处理技术多媒体技术的特点是交互式地综合处理声文图信息在多媒体系统中语音和音乐是不可少的没有音频的视频是不可接受的音频和视频同步才能使视频图像更具真实性娓娓动听的音乐和解说会使静态图像变得更加丰富多彩可视电话电视会议中的声音更为重要音频 audiofrequency AF voicefrequency VF 2 第三章音频信息处理 3 1声音概述重点 3 2音频信息数字化重点 3 3音频文件的格式重点会用 3 4语音压缩编码及其标准标准重点 3 5音乐合成和MIDI3 6语音识别技术概述3 7音频编辑软件 3 3 1声音概述一声音及其分类1 声音的概念声音是通过空气传播的一种连续的波称为声波是随时间连续变化的物理量 4 3 1声音概述声音的基本参数振幅声波压力的大小或高低幅度体现声音的强弱频率每秒钟振动的次数体现音调的高低单位Hz 由一个名叫海里奇R 赫兹的人命名周期两个相邻波之间的时间长度 5 3 1声音概述声音如何传播声音依靠介质的振动进行传播声音在不同介质中的传播速度和衰减率不一样导致声音在不同介质中传播的距离不同空气 15 340m s海水 25 1531m s铁棒5200m s 6 3 1声音概述声音是复合信号声音信号由许多频率不同的信号组成是复合信号重要参数带宽复合信号的频率范围例如高保真声音的频率范围为10Hz 20KHz 带宽约为20KHz 而视频信号的带宽是6MHz 7 3 1声音概述 2 声音的分类声音无规则的噪音和有规则的音频信号音频信号携带的信息可分为语言音乐和音效等三类物体规则震动发出的声音称为乐音由有组织的乐音来表达人们思想感情反映现实音效就是指由声音所制造的效果是指为增进一场面之真实感气氛或戏剧讯息而加于声带上的杂音或声音所谓的声音则包括了乐音和效果音包括数字音效环境音效 MP3音效普通音效专业音效 8 3 1声音概述 3 声音的三要素音调指声音的高低音调与声音的频率有关频率越高音调就越高通常把音调高的声音叫高音音调低的声音叫低音男高音 160 523Hz女高音 220 1100Hz160 1280Hz几乎囊括所有的人类发出的声音频率150Hz以下低音丰满柔和富有弹性150 500Hz 中低音浑厚有力而不浑浊500 5kHz 中高音明亮透彻不生硬5kHz以上高音纤细圆顺不尖锐刺耳 9 音色指声音的感觉特性与声音波形相关声音分纯音和复音两种类型纯音指振幅和周期均为常数的声音复音指具有不同频率和不同振幅的混合声音音强指声音的强度即常说的音量音强与声波的振幅成正比振幅越大音强越大 10 3 1声音概述说明人耳在辨别声音的能力只有在音强适中时才最灵敏一般用动态范围来定义音频信号的相对强度单位 dB由于人的听觉响应与声音信号强度不是成线性关系因此一般用声音信号幅度取对数后再乘20所得值来描述声强以分贝 dB 为单位此时称为音量在处理音频信号时一般用动态范围来定义音频信号的相对强度动态范围 20 log 信号的最大强度信号最小强度 11 3 1声音概述说明 2008年颁布的声环境质量标准 GB3096 2008规定以居住文教机关为主的区域噪音最高限值白天为55分贝夜间为45分贝 0 20分贝很静几乎感觉不到20 40分贝安静犹如轻声絮语40 60分贝一般普通室内谈话60 70分贝比较吵闹70 90分贝很吵神经细胞受到破坏90 100分贝吵闹加剧听力受损 100以上致聋 12 3 1声音概述 13 3 1声音概述二音频信号 1 语音具有语言内涵和人类约定成俗的特殊媒体 2 音乐规范的符号化了的声音 3 音效响人类熟悉的其他声音如动物发声机器产生的声音自然界的风雨雷电声等音频的作用直接通过讲话表达信息制造某种效果和气氛演奏音乐等 14 3 1声音概述 1 音频人类听觉所感知范围内的频率也称声频音频 Audio 频率范围 20Hz 20KHz 人耳能听到次声波 subsonic 频率低于20Hz的信号亚音超声波 ultrasonic 频率高于20KHz的信号超音频 15 3 1声音概述 2 音频信号的技术指标频带宽度音频信号的频率范围是衡量音质的标准频带越宽包含的音频信号分量越丰富则音质越好通常将音质定义为4个等级标准 CD DA唱盘为10Hz 22KHz FM广播为20Hz 15KHz AM广播为50Hz 7KHz 数字电话为200Hz 3 4KHz 16 3 1声音概述 17 3 1声音概述动态范围动态范围 20 log 信号的最大强度信号的最小强度动态范围越大说明音频信号的相对变化范围大音响效果越好 1分贝大约是人刚刚能感觉到的声音适宜的生活环境不应超过45分贝不低于15分贝信噪比SRN SignaltoNoiseRate dB 信噪比有用信号的平均功率与噪音的平均功率之比信噪比越高则音效越好 18 3 1声音概述 3 音频信号的特点由于音频是依赖时间的连续媒体因此音频处理的时序性要求高由于人类接收声音有两个通道因此计算机合成的声音应是立体声由于语音信号携带了情感意向因此对语音信号的处理还要抽取语意等其它信息 19 3 1声音概述三数字音频1 数字音频将模拟的连续的声音波形数字化离散化以便利用数字计算机进行处理的过程 A D转换主要包括采样量化和编码几个方面 2 数字音频的技术指标采样频率量化位数声道数编码算法数字音频的质量取决于采样频率和量化位数这两个重要参数此外声道的数目相应的音频设备也是影响音频质量的原因 20 3 1声音概述 3 数字音频等级各种声音质量的压缩比 22 3 2音频信息数字化一模拟信号与数字信号在时间和幅度上都连续的信号称为模拟信号在时间和幅度上都离散用数字表示的信号称为数字信号对模拟信号的处理比较复杂难于精确控制成本高将模拟信号数字化目的处理简单控制精确 23 3 2音频信息数字化二模拟声音数字化过程采样在某特定时刻对模拟信号进行测量叫采样每隔相等的一段时间进行采样称为均匀采样否则为非均匀采样量化把信号幅度划分成若干小段若每段都是相等的称为线性量化否则称为非线性量化编码将离散的模拟信号转化为数字信号即对量化后的离散值用二进制代码取代 24 3 2音频信息数字化 1 采样采样 sampling 在时间轴上对信号数字化采样周期对连续信号采样的时间间隔T采样频率单位时间内的采样次数 1 T 采样频率越高可恢复的声音保真度越好常用采样频率11 025KHz 22 05KHz 44 1KHz 48KHz 如何保证采样的声音不失真 25 3 2音频信息数字化奈魁斯特 Nyquiest 采样定理若对某一模拟信号进行采样只要采样频率f 1 T 高于输入信号最高频率fC的两倍 f 2fC 则经过采样后的采样信号能够包含原模拟信号的全部信息且经过反变换和低通滤波后可不失真地恢复原模拟信号例如电话话音信号的频率约为3 4kHz 采样频率选8kHz 26 3 2音频信息数字化 2 量化对声音信号波形振幅值的离散化量化误差或量化噪音量化后的振幅代表值与真实振幅值之间的差量化跨度在分割振幅时一个个小区间的宽度量化精度位数每个声音样本的二进制位数 bitpersample bps 27 3 2音频信息数字化 28 3 2音频信息数字化 3 编码按一定格式记录采样和量化后的数字数据将离散的模拟信号转化为数字信号即对量化后的离散值用二进制代码 28或216 取代 29 3 2音频信息数字化量化位数决定了量化等级M 2n 常用的量化位数为8bit或16bit 显然量化位数越多则量化精度越高即量化后声音信号越接近原始信号但量化后的数据量也越大 30 3 2音频信息数字化声道数一次同时产生的声波组数若一次产生两组声波数据则为双声道或立体声声道数 2 0 双声道立体声 2 1 双声道加一超重低音声道 4 1 发音点前左前右后左后右超重低音 5 1 比4 1声道增加一个中置单元增加整体影院效果 7 1 比4 1声道增加中左中右发音点 31 3 2音频信息数字化三种最常用的采样指标及等效音质 32 3 2音频信息数字化 4 数字音频的存储量存储量采样频率量化位数声道数持续时间 8 字节数如 CD光盘采用了双声道16位采样采样频率为44 1KHz 可达专业级水平若某首流行歌曲的长度为3 5分钟则该歌曲占用的存储容量为 16 44 1 1000 2 3 5 60 8 37044000 B 35 33MB 33 3 3音频文件的格式一音频文件的分类1 波形文件声音文件模拟音频信号经数字化后由计算机处理存储及传输输出时经D A转换将数字信号还原为原来波形的音频文件该文件属于获取声音文件声音文件指的是通过声音录入设备录制的原始声音直接记录了真实声音的二进制采样数据通常文件较大 34 3 3音频文件的格式 2 非波形文件 MIDI文件通过语音合成器产生相应声音的非波形格式的MIDI MusicalInstrumentDigitalInterface 文件 MID MIDI文件它是一种音乐演奏指令序列相当于乐谱可以利用声音输出设备或与计算机相连的电子乐器进行演奏由于不包含声音数据其文件尺寸较小 35 3 3音频文件的格式 3 混合型文件 MOD文件既有波形文件的特征又有非波形文件的特征的文件 MOD文件最初由Commodor公司发明用于Amiga计算机中的智能音乐芯片上后来主要由业余爱好者使用的一种共享自由软件该文件既含有声音的采样数据又含有这些样本的描述性指令适用于网络和BBC等 31种采样声音可产生大型乐队的效果但其采样位数只是8位采样频率是32KHz 不可能达到CD音质的效果 36 3 3音频文件的格式二音频文件的格式波形文件声音文件 WAV VOC AU MP3 RM RA RAM WMA PCM CD唱片 AIF等非波形文件 MIDI RMI混合文件 MOD S3M XM MTM FAR KAR 37 3 3音频文件的格式 1 Wave文件 WAV由Microsoft公司专门为Windows开发的一种标准数字音频文件该文件是通过对模拟音频以不同的采样频率不同的量化位数进行数字化而得到的数字信号存入磁盘而形成的波形文件只要采样率高采样字节长机器速度快利用该格式记录的声音文件能够和原声基本一致质量非常高但代价是文件太大 Wave文件特点声音不失真未经压缩的声音文件占用存储盘空间太大 38 3 3音频文件的格式 2 Voice文件 VOCVoice文件是CreativeLabs 创新公司开发的声音文件格式多用于保存CreativeSoundBlaster 创新声霸系列声卡所采集的声音数据被Windows平台和DOS平台所支持支持CCITTALaw和CCITT Law等压缩算法 Voice文件是声霸卡 soundblaster 使用的音频文件格式 3 Audio文件 AUAudio文件是SunMicrosystems公司推出的一种经过压缩的数字声音格式是Internet中常用的声音文件格式 NetscapeNavigator浏览器中的LiveAudio也支持Audio格式的声音文件 39 3 3音频文件的格式 4 MPEG音频文件 MP1 MP2 MP3 MPEG MovingPictureExpertsGroup 音频文件格式是MPEG标准中的音频部分即MPEG音频层 MPEG 1AudioLayer MPEG标准主要有以下五个 MPEG 1 MPEG 2 MPEG 4 MPEG 7及MPEG 21等该专家组建于1988年专门负责为CD建立视频和音频标准及后建立了ISO IEC1172压缩编码标准现时泛指的MPEG X版本就是由ISO InternationalOrganizationforStandardization 所制定而发布的视频音频数据的压缩标准 40 MPEG 1音频文件的压缩是一种有损压缩根据压缩质量和编码复杂程度的不同可分为三层 MPEG 1AudioLayer1 2 3 分别对应MP1 MP2和MP3这三种声音文件 MPEG 1AudioLayer1 2 3的压缩比和采样率层1 Layer1 编码简单用于数字盒式录音磁带层2 Layer2 算法复杂度中等用于数字音频广 DAB 和VCD等层3 Layer3 编码复杂用于互联网上的高质量声音的传输如MP3音乐压缩10倍 41 MPEG 2MPEG 2标准于1994年公布 MPEG 2编码标准希望囊括数字电视图像通信各领域的编码标准 MPEG 2按压缩比大小的不同分成五个档次 profile 每一个档次又按图像清晰度的不同分成四种图像格式或称为级别 level 五个档次四种级别共有20种组合但实际应用中有些组合不太可能出现较常用的是11种组合这11种组合分别应用在不同的场合如MP ML 主档次与主级别用在具有演播室质量标准清晰度电视SDTV中特性 MPEG 2的声音压缩编码采用与MPEG 1声音相同的编译码器层1 层2和层3的结构也相同但它能支持5 1声道和7 1声道的环绕立体声 42 MPEG 4MPEG 4在1995年7月开始研究 1998年11月被ISO IEC批准为正式标准它不仅针对一定比特率下的视频音频编码更加注重多媒体系统的交互性和灵活性这个标准主要应用于视像电话视像电子邮件等 MPEG 7MPEG 7 它的由来是1 2 4 7 于1996年10月开始研究 MPEG 7并不是一种压缩编码方法其正规的名字叫做多媒体内容描述接口其目的是生成一种用来描述多媒体内容的标准建立MPEG 7标准的出发点是依靠众多的参数对图象与声音实现分类并对它们的数据库实现查询 43 3 3音频文件的格式 5 RealAudio文件 RA RM RAMRealAudio文件是RealNetworks公司开发的一种新型流式音频 StreamingAudio 文件格式传统的音频文件可以存入硬盘或其它的存储介质中一般来说这种音乐文件在播放之前需要完全下载流式文件如RealAudio和QuickTime使用的文件格式可以一边下载一边听但无法很容易地把整个文件保存到硬盘上注意一些文件格式如MP3和WMA 既可以是传统文件也可以是流式文件 44 3 3音频文件的格式 6 PCM文件 PCM由模拟音频信号直接通过A D转换而形成的二进制序列文件特点保真度高解码速度快但编码后的数据量大如 CD DA就是采用该编码方式每分钟的音乐约需要10MB磁盘存储空间一般可通过转换工具将PCM文件转换成WAV文件 45 3 3音频文件的格式三 MIDI文件格式 MID RMI通过语音合成器产生相应声音的非波形格式的MIDI MusicalInstrumentDigitalInterface 文件 MID 属于合成声音文件即采用数字方式对乐器所演奏出来的声音进行记录然后在播发时再对这些记录进行合成存储的是指令和数据不是数字化的实际声音即存储的是发给音频合成器的一系列指令 MIDI传输的不是声音信号而是音符控制参数等指令它指示MIDI设备要做什么怎么做如演奏哪个音符多大音量等占用磁盘空间非常小 MID文件每1分钟只用大约5 10KB 缺点处理语音能力和效果相对较差一般只适用于记录乐曲 46 3 3音频文件的格式四模块文件 MOD S3M XM MTM FAR KAR 同时具有MIDI与数字音频声音文件的共同特性文件中既包括如何演奏乐器的指令又保存了数字声音信号的采样数据为此其声音回放质量对音频硬件的依赖性较小即在不同的机器上可以获得基本相似的声音回放质量根据不同的编码方法有MOD S3M XM MTM FAR KAR IT等多种不同格式 47 3 3音频文件的格式 WAVE文件与MIDI文件的区别 1 文件格式 WAVE文件是通过直接对模拟声波进行数字化得到的音频信号数据而MIDI文件只是记录了一系列乐谱指令 2 声音来源 WAVE文件是直接通过声卡输入端口获取的音源并可从输出端口直接播放而MIDI是通过MIDI接口由音序器记录电子乐谱的指令数据 3 存储容量采用MIDI格式记录比采用WAVE格式记录的数据量小两个数量级以上音频文件总结 50 3 4语音压缩编码及标准一概述1 压缩编码的目的在保证一定图像或声音质量的条件下以最小的数据率来表达和传送图像或声音信息 2 压缩编码的重要性实际应用中未压缩编码的音频数据量很大进行传输或存储数据量很不现实 51 3 4语音压缩编码及标准 3 数据能够得到压缩的可能性 1 原始数据中存在着大量的冗余信息 2 视频和音频信息的最终接收者是人人的视觉和听觉器官都具有某种不敏感性舍去人的感官所不敏感的信息对图像或声音质量的影响很小在有些情况下甚至可以忽略不计 3 对声音波形取样后相邻样值之间存在着很强的相关性 52 3 4语音压缩编码及标准 4 语音压缩编码算法的评价音频质量数据量数据量采样频率量化位数 8 字节数声道数目算法复杂度在保证质量的前提下尽量减少算法复杂度 53 3 4语音压缩编码及标准音频质量主观评价主观意见打分歌咏比赛客观评价信噪比SNR signaltonoiseratio 声音质量评分标准 54 3 4语音压缩编码及标准说明声音质量的评价是一个很困难的目前还在继续研究的课题两种方法一种是客观质量度量另一种是主观质量度量用声音信号的带宽来衡量声音的质量等级由低到高分别是数字电话 telephone 调幅 amplitudemodulation AM 广播调频 frequencymodulation FM 广播激光唱盘 CD Audio 数字录音带 digitalaudiotape DAT 的声音 55 3 4语音压缩编码及标准二数字音频文件的编码标准1 ITU标准 G 711标准 1972年制定采样率为8kHz 8位样本速率为64kb s 采用PCM算法其质量相当于12bit线性量化应用电话质量的语音信号编码所需频宽 64Kbps 8kHz 8bit 特性算法复杂度小音质一般优点算法复杂度低压缩比小 CD音质 400kbps 编解码延时最短相对其它技术缺点占用的带宽较高 56 3 4语音压缩编码及标准 G 721标准 1984年公布 1986年修订采样率为8kHz 4位样本数据率为32kb s 采用ADPCM算法应用调幅广播和交互式激光唱盘的音频信号压缩所需频宽 32Kbps特性相对于PCM 其压缩比较高可以提供2 1的压缩比优点压缩比大缺点声音质量一般备注使用ADPCM转换技术实现64kb sA律或律PCM速率和32kb s速率之间的相互转换 57 3 4语音压缩编码及标准 G 722标准以16kHz采样 14bit量化信号数据速率为224kbit s 可以被压缩为64kb s 利用G 722标准可以在窄带综合服务数据网N ISDN中的一个B信道上传送调幅广播质量的音频信号应用调频广播和需存储大量高质量音频信号的编码所需频宽 64Kbps特性 G 722能提供高保真的语音质量优点音质好缺点带宽要求高备注子带ADPCM SB ADPCM 技术 58 3 4语音压缩编码及标准 G 723 低码率语音编码算法所需频宽 5 3Kbps 6 3Kbps特性语音质量接近良带宽要求低高效实现性能稳定可用于IP电话语音信源编码或高效语音压缩存储优点码率低带宽要求较小并达到ITU TG723要求的语音质量性能稳定缺点声音质量一般备注可以应用于IP电话等系统中 59 3 4语音压缩编码及标准 G 723 1 双速率语音编码算法所需频宽 5 3Kbps特性能够对音乐和其他音频信号进行压缩和解压缩但它对语音信号最优的优点码率低带宽要求较小并达到ITU TG723要求的语音质量性能稳定避免了载波信号的时通时断缺点语音质量一般备注目前该算法已成为IP电话系统中的必选算法之一 60 3 4语音压缩编码及标准 G 728所需频宽 16Kbps 8Kbps 其质量与32kbit s的G 721标准基本相当应用用于IP电话卫星通信语音存储等多个领域优点后向自适应采用自适应后置滤波器来提高其性能缺点比其它的编码器都复杂 61 3 4语音压缩编码及标准 G 729所需频宽 8Kbps特性可以应用于广泛的领域包括IP电话无线通信数字卫星系统和数字专用线路优点语音质量良好应用领域很广泛缺点在处理随机比特错误方面性能不好 62 3 4语音压缩编码及标准 G 729A所需频宽 8Kbps特性复杂性较G 729低性能较G 729差优点语音质量良降低了计算的复杂度以便于实时实现提供了对帧丢失和分组丢失的隐藏处理机制缺点性能较G 729差备注 96年ITU T又制定了G 729的简化方案G 729A 主要降低了计算的复杂度以便于实时实现因此目前使用的都是G 729A 63 3 4语音压缩编码及标准 2 MPEG标准有MPEG MPEG MPEG 和MPEG 几种 MPEG 中ISO IEC11172 3 音频速率为1 5Mb s 采样频率分别为48 32 44 1kHz 与PCM标准兼容广泛应用在多媒体领域的高保真音频编码的压缩标准适用于20Hz 20kHz的宽频范围 64 3 4语音压缩编码及标准 3 AC 3标准由Dolby实验室在AC 2的基础上开发出来的音频编码技术目前是美国HDTV的音频标准该标准将6个声道进行数字编码并将其压缩成一个通道比特率为320kb s 适用于电视广播数字广播有限电视直播卫星以及家庭音响等各个领域 65 3 4语音压缩编码及标准 4 GSM标准由欧洲数字移动特别工作组制定速率为13kb s 适用于移动通信的低速语音编码 5 CTIA标准美国数字移动通信标准速率为8kb s 压缩率高计算量适中适用于移动通信的低速语音编码音频数字压缩编码算法及其特性音频数字压缩编码算法及其特性 68 3 5音乐合成和MIDI 一 MIDI简介1 何谓MIDIMIDI MusicalInstrumentDigitalInterface 电子乐器数字接口是用于在音乐合成器 musicsynthesizers 乐器 musicalinstruments 和计算机之间交换音乐信息的一种标准协议 MIDI是乐器和计算机使用的标准语言是一套指令 MIDI不是声音信号在MIDI电缆上传送的不是声音而是发给MIDI设备或其它装置让它产生声音或执行某个动作的指令 69 3 5音乐合成和MIDI 2 MIDI的优点生成的文件比较小因为MIDI文件存储的是命令而不是声音波形容易编辑因为编辑命令比编辑声音波形要容易得多可以作背景音乐因为MIDI音乐可以和其它的媒体如数字电视图形动画话音等一起播放这样可以加强演示效果 70 3 5音乐合成和MIDI 3 生成MIDI的方法调频合成法FM1976年 FM frequencymodulation 调频合成法产生乐音样本合成法1984年乐音样本合成法也称为波形表 Wavetable 合成法产生 71 3 5音乐合成和MIDI 二 FM合成声音1 FM合成器全称是数字式频率调制合成法digitalfrequencymodulationsynthesis2 FM合成器生成乐音的基本原理图FM声音合成器的工作原理 73 3 5音乐合成和MIDI 3 FM合成器采用的波形在乐音合成器中数字载波波形和调制波形有很多种不同型号的FM合成器所选用的波形也不同下图是YamahaOPL III数字式FM合成器采用的波形 74 3 5音乐合成和MIDI FM合成法通过已有的电子波形来产生声音不足产生逼真的乐音困难有些乐音几乎不能产生 75 3 5音乐合成和MIDI 三乐音样本合成声音1 乐音样本合成法把真实乐器发出的声音以数字的形式记录下来播放时改变播放速度从而改变音调周期生成各种音阶的音符乐音样本的采集相对比较直观音乐家在真实乐器上演奏不同的音符选择44 1kHz的采样频率 16位的乐音样本相当于CD DA的质量把不同音符的真实声音记录下来就完成了乐音样本的采集乐音样本通常放在ROM芯片上 ROM是超大规模集成电路VLSI芯片 76 3 5音乐合成和MIDI 2 乐音样本合成器的原理图乐音样本合成器的工作原理 79 3 6语音识别技术机器能听懂人类的语言吗我们能扔掉键盘鼠标用自然语言操纵计算机吗语音识别技术梦想正在变为现实语音识别是指从语音到文本的转换即让计算机能够把人发出的有意义的话音变成书面语言听懂有两层意思一是指把用户所说的话逐词逐句转换成文本二是指正确理解语音中所包含的要求作出正确的应答 80 3 6语音识别概述一语音识别的定义语音识别是指让计算机接收识别和理解人发出的有意义的语音信号并将其转换成相应的数字信号文本的技术语音识别从语音到文本的转换通俗地说就是让机器能够听懂人说的话听懂一是指把用户所说的话逐词逐句转换成文本二是指正确理解语音中所包含的要求作出正确的应答 81 3 6语音识别概述语音识别技术是一门涉及面很广的交叉学科它是语音信号处理的一个重要研究方向是模式识别的一个分支研究领域涉及到声学语音语言学数理统计数字信号处理理论信息论计算机科学等众多学科最终目标是实现人与机器进行自然语言通信 82 3 6语音识别概述计算机模拟人类交流信息的过程 1 将大脑产生的思想转换成语言 2 将语言转换成相应的语音 3 识别表达语言的语音内容 4 理解语音所表达的语言意义 83 3 6语音识别概述二语音识别的发展历史语音识别的研究工作大约开始于20世纪50年代 50年代开始语音识别研究重要成果 1952年Bell实验室开发了Audry系统是第一个可以识别10个英文数字的语音识别系统 60年代计算机的应用推动了语音识别的发展重要成果提出了动态规划 DP 和线性预测分析技术 LP 后者较好地解决了语音信号产生模型的问题 84 3 6语音识别概述 70年代在小词汇量孤立词识别方面取得实质性进展重要成果提出了信号线性预测编码 LPC 技术和动态时间规整 DTW 技术有效解决了语音信号的特征提取和不等长语音匹配问题提出了矢量量化 VQ 和隐马尔可夫模型 HMM 理论目前大多数大词汇量连续语音的非特定人语音识别系统都是基于HMM模型 85 3 6语音识别概述 80年代语音识别研究进一步走向深入显著特征 HMM模型和人工神经元网络 ANN 在语音识别中的成功应用重要成果 1988年 FULEEKai等实现了997个词汇的非特定人连续语音识别系统SPHINX 世界上第一个高性能的非特定人

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第三章新音频信息处理幻灯片.ppt

文档简介

温馨提示

最新文档

评论

第三章 新 音频信息处理幻灯片.ppt

文档简介

温馨提示

最新文档

评论

相关文档

第三章新音频信息处理幻灯片.ppt