




已阅读5页,还剩90页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 第三章数字音频处理技术 多媒体技术的特点是交互式地综合处理声文图信息 在多媒体系统中语音和音乐是不可少的 没有音频的视频是不可接受的 音频和视频同步 才能使视频图像更具真实性 娓娓动听的音乐和解说 会使静态图像变得更加丰富多彩 可视电话 电视会议中的声音更为重要 音频 audiofrequency AF voicefrequency VF 2 第三章音频信息处理 3 1声音概述 重点 3 2音频信息数字化 重点 3 3音频文件的格式 重点 会用 3 4语音压缩编码及其标准 标准重点 3 5音乐合成和MIDI3 6语音识别技术概述3 7音频编辑软件 3 3 1声音概述 一 声音及其分类1 声音的概念声音是通过空气传播的一种连续的波 称为声波 是随时间连续变化的物理量 4 3 1声音概述 声音的基本参数振幅 声波压力的大小或高低幅度 体现声音的强弱频率 每秒钟振动的次数 体现音调的高低 单位Hz 由一个名叫海里奇R 赫兹的人命名 周期 两个相邻波之间的时间长度 5 3 1声音概述 声音如何传播声音依靠介质的振动进行传播 声音在不同介质中的传播速度和衰减率不一样 导致声音在不同介质中传播的距离不同 空气 15 340m s海水 25 1531m s铁棒5200m s 6 3 1声音概述 声音是复合信号声音信号由许多频率不同的信号组成 是复合信号 重要参数 带宽 复合信号的频率范围例如 高保真声音的频率范围为10Hz 20KHz 带宽约为20KHz 而视频信号的带宽是6MHz 7 3 1声音概述 2 声音的分类声音 无规则的噪音和有规则的音频信号 音频信号携带的信息可分为 语言 音乐和音效等三类 物体规则震动发出的声音称为乐音 由有组织的乐音来表达人们思想感情 反映现实音效就是指由声音所制造的效果 是指为增进一场面之真实感 气氛或戏剧讯息 而加于声带上的杂音或声音 所谓的声音则包括了乐音和效果音 包括数字音效 环境音效 MP3音效 普通音效 专业音效 8 3 1声音概述 3 声音的三要素 音调指声音的高低 音调与声音的频率有关 频率越高 音调就越高 通常把音调高的声音叫高音 音调低的声音叫低音 男高音 160 523Hz女高音 220 1100Hz160 1280Hz几乎囊括所有的人类发出的声音频率150Hz以下 低音 丰满 柔和富有弹性150 500Hz 中低音 浑厚有力而不浑浊500 5kHz 中高音 明亮透彻不生硬5kHz以上 高音 纤细圆顺不尖锐刺耳 9 音色指声音的感觉特性 与声音波形相关 声音分纯音和复音两种类型 纯音 指振幅和周期均为常数的声音 复音 指具有不同频率和不同振幅的混合声音 音强指声音的强度 即常说的 音量 音强与声波的振幅成正比 振幅越大 音强越大 10 3 1声音概述 说明 人耳在辨别声音的能力只有在音强适中时才最灵敏 一般用动态范围来定义音频信号的相对强度 单位 dB由于人的听觉响应与声音信号强度不是成线性关系 因此一般用声音信号幅度取对数后再乘20所得值来描述声强 以分贝 dB 为单位 此时称为音量 在处理音频信号时 一般用动态范围来定义音频信号的相对强度 动态范围 20 log 信号的最大强度 信号最小强度 11 3 1声音概述 说明 2008年颁布的 声环境质量标准 GB3096 2008规定 以居住 文教机关为主的区域噪音最高限值白天为55分贝 夜间为45分贝 0 20分贝 很静 几乎感觉不到20 40分贝 安静 犹如轻声絮语40 60分贝 一般普通室内谈话60 70分贝 比较吵闹70 90分贝 很吵 神经细胞受到破坏90 100分贝 吵闹加剧 听力受损 100以上致聋 12 3 1声音概述 13 3 1声音概述 二 音频信号 1 语音 具有语言内涵和人类约定成俗的特殊媒体 2 音乐 规范的符号化了的声音 3 音效 响 人类熟悉的其他声音 如动物发声 机器产生的声音 自然界的风雨雷电声等 音频的作用 直接通过讲话表达信息 制造某种效果和气氛 演奏音乐等 14 3 1声音概述 1 音频 人类听觉所感知范围内的频率 也称声频 音频 Audio 频率范围 20Hz 20KHz 人耳能听到 次声波 subsonic 频率低于20Hz的信号 亚音 超声波 ultrasonic 频率高于20KHz的信号 超音频 15 3 1声音概述 2 音频信号的技术指标 频带宽度 音频信号的频率范围 是衡量音质的标准 频带越宽 包含的音频信号分量越丰富 则音质越好 通常将音质定义为4个等级标准 CD DA唱盘为10Hz 22KHz FM广播为20Hz 15KHz AM广播为50Hz 7KHz 数字电话为200Hz 3 4KHz 16 3 1声音概述 17 3 1声音概述 动态范围动态范围 20 log 信号的最大强度 信号的最小强度 动态范围越大 说明音频信号的相对变化范围大 音响效果越好 1分贝大约是人刚刚能感觉到的声音 适宜的生活环境不应超过45分贝 不低于15分贝 信噪比SRN SignaltoNoiseRate dB 信噪比 有用信号的平均功率与噪音的平均功率之比 信噪比越高 则音效越好 18 3 1声音概述 3 音频信号的特点 由于音频是依赖时间的连续媒体 因此音频处理的时序性要求高 由于人类接收声音有两个通道 因此计算机合成的声音应是立体声 由于语音信号携带了情感意向 因此对语音信号的处理还要抽取语意等其它信息 19 3 1声音概述 三 数字音频1 数字音频将模拟的 连续的 声音波形数字化 离散化 以便利用数字计算机进行处理的过程 A D转换 主要包括采样 量化和编码几个方面 2 数字音频的技术指标采样频率 量化位数 声道数 编码算法数字音频的质量取决于 采样频率和量化位数这两个重要参数 此外 声道的数目 相应的音频设备也是影响音频质量的原因 20 3 1声音概述 3 数字音频等级 各种声音质量的压缩比 22 3 2音频信息数字化 一 模拟信号与数字信号在时间和幅度上都连续的信号称为模拟信号 在时间和幅度上都离散 用数字表示的信号称为数字信号 对模拟信号的处理 比较复杂 难于精确控制 成本高 将模拟信号数字化目的 处理简单 控制精确 23 3 2音频信息数字化 二 模拟声音数字化过程采样在某特定时刻对模拟信号进行测量叫采样 每隔相等的一段时间进行采样 称为均匀采样 否则为非均匀采样 量化把信号幅度划分成若干小段 若每段都是相等的 称为线性量化 否则称为非线性量化 编码 将离散的模拟信号转化为数字信号 即对量化后的离散值用二进制代码取代 24 3 2音频信息数字化 1 采样采样 sampling 在时间轴上对信号数字化 采样周期 对连续信号采样的时间间隔T采样频率 单位时间内的采样次数 1 T 采样频率越高 可恢复的声音保真度越好 常用采样频率11 025KHz 22 05KHz 44 1KHz 48KHz 如何保证采样的声音不失真 25 3 2音频信息数字化 奈魁斯特 Nyquiest 采样定理 若对某一模拟信号进行采样 只要采样频率f 1 T 高于输入信号最高频率fC的两倍 f 2fC 则经过采样后的采样信号能够包含原模拟信号的全部信息 且经过反变换和低通滤波后可不失真地恢复原模拟信号 例如 电话话音信号的频率约为3 4kHz 采样频率选8kHz 26 3 2音频信息数字化 2 量化 对声音信号波形振幅值的离散化量化误差 或量化噪音 量化后的振幅代表值与真实振幅值之间的差 量化跨度 在分割振幅时一个个小区间的宽度量化精度 位数 每个声音样本的二进制位数 bitpersample bps 27 3 2音频信息数字化 28 3 2音频信息数字化 3 编码 按一定格式记录采样和量化后的数字数据将离散的模拟信号转化为数字信号 即对量化后的离散值用二进制代码 28或216 取代 29 3 2音频信息数字化 量化位数决定了量化等级M 2n 常用的量化位数为8bit或16bit 显然 量化位数越多 则量化精度越高 即量化后声音信号越接近原始信号 但量化后的数据量也越大 30 3 2音频信息数字化 声道数一次同时产生的声波组数 若一次产生两组声波数据 则为双声道或立体声 声道数 2 0 双声道立体声 2 1 双声道加一超重低音声道 4 1 发音点 前左 前右 后左 后右 超重低音 5 1 比4 1声道增加一个中置单元 增加整体影院效果 7 1 比4 1声道增加中左 中右发音点 31 3 2音频信息数字化 三种最常用的采样指标及等效音质 32 3 2音频信息数字化 4 数字音频的存储量存储量 采样频率 量化位数 声道数 持续时间 8 字节数 如 CD光盘采用了双声道16位采样 采样频率为44 1KHz 可达专业级水平 若某首流行歌曲的长度为3 5分钟 则该歌曲占用的存储容量为 16 44 1 1000 2 3 5 60 8 37044000 B 35 33MB 33 3 3音频文件的格式 一 音频文件的分类1 波形文件 声音文件 模拟音频信号经数字化后由计算机处理 存储及传输 输出时经D A转换将数字信号还原为原来波形的音频文件 该文件属于获取声音文件 声音文件 指的是通过声音录入设备录制的原始声音 直接记录了真实声音的二进制采样数据 通常文件较大 34 3 3音频文件的格式 2 非波形文件 MIDI文件 通过语音合成器产生相应声音的非波形格式的MIDI MusicalInstrumentDigitalInterface 文件 MID MIDI文件 它是一种音乐演奏指令序列 相当于乐谱 可以利用声音输出设备或与计算机相连的电子乐器进行演奏 由于不包含声音数据 其文件尺寸较小 35 3 3音频文件的格式 3 混合型文件 MOD文件 既有波形文件的特征 又有非波形文件的特征的文件 MOD文件最初由Commodor公司发明 用于Amiga计算机中的智能音乐芯片上 后来主要由业余爱好者使用的一种共享 自由软件 该文件既含有声音的采样数据 又含有这些样本的描述性指令 适用于网络和BBC等 31种采样声音 可产生大型乐队的效果 但其采样位数只是8位 采样频率是32KHz 不可能达到CD音质的效果 36 3 3音频文件的格式 二 音频文件的格式波形文件 声音文件 WAV VOC AU MP3 RM RA RAM WMA PCM CD唱片 AIF等非波形文件 MIDI RMI混合文件 MOD S3M XM MTM FAR KAR 37 3 3音频文件的格式 1 Wave文件 WAV由Microsoft公司专门为Windows开发的一种标准数字音频文件 该文件是通过对模拟音频以不同的采样频率 不同的量化位数进行数字化而得到的数字信号存入磁盘而形成的波形文件 只要采样率高 采样字节长 机器速度快 利用该格式记录的声音文件能够和原声基本一致 质量非常高 但代价是文件太大 Wave文件特点 声音不失真未经压缩的声音文件占用存储盘空间太大 38 3 3音频文件的格式 2 Voice文件 VOCVoice文件是CreativeLabs 创新公司 开发的声音文件格式 多用于保存CreativeSoundBlaster 创新声霸 系列声卡所采集的声音数据 被Windows平台和DOS平台所支持 支持CCITTALaw和CCITT Law等压缩算法 Voice文件是声霸卡 soundblaster 使用的音频文件格式 3 Audio文件 AUAudio文件是SunMicrosystems公司推出的一种经过压缩的数字声音格式 是Internet中常用的声音文件格式 NetscapeNavigator浏览器中的LiveAudio也支持Audio格式的声音文件 39 3 3音频文件的格式 4 MPEG音频文件 MP1 MP2 MP3 MPEG MovingPictureExpertsGroup 音频文件格式是MPEG标准中的音频部分 即MPEG音频层 MPEG 1AudioLayer MPEG标准主要有以下五个 MPEG 1 MPEG 2 MPEG 4 MPEG 7及MPEG 21等 该专家组建于1988年 专门负责为CD建立视频和音频标准 及后 建立了ISO IEC1172压缩编码标准 现时泛指的MPEG X版本 就是由ISO InternationalOrganizationforStandardization 所制定而发布的视频 音频数据的压缩标准 40 MPEG 1音频文件的压缩是一种有损压缩 根据压缩质量和编码复杂程度的不同可分为三层 MPEG 1AudioLayer1 2 3 分别对应MP1 MP2和MP3这三种声音文件 MPEG 1AudioLayer1 2 3的压缩比和采样率层1 Layer1 编码简单 用于数字盒式录音磁带层2 Layer2 算法复杂度中等 用于数字音频广 DAB 和VCD等 层3 Layer3 编码复杂 用于互联网上的高质量声音的传输 如MP3音乐压缩10倍 41 MPEG 2MPEG 2标准于1994年公布 MPEG 2编码标准希望囊括数字电视 图像通信各领域的编码标准 MPEG 2按压缩比大小的不同分成五个档次 profile 每一个档次又按图像清晰度的不同分成四种图像格式 或称为级别 level 五个档次四种级别共有20种组合 但实际应用中有些组合不太可能出现 较常用的是11种组合 这11种组合分别应用在不同的场合 如MP ML 主档次与主级别 用在具有演播室质量标准清晰度电视SDTV中 特性 MPEG 2的声音压缩编码采用与MPEG 1声音相同的编译码器 层1 层2和层3的结构也相同 但它能支持5 1声道和7 1声道的环绕立体声 42 MPEG 4MPEG 4在1995年7月开始研究 1998年11月被ISO IEC批准为正式标准 它不仅针对一定比特率下的视频 音频编码 更加注重多媒体系统的交互性和灵活性 这个标准主要应用于视像电话 视像电子邮件等 MPEG 7MPEG 7 它的由来是1 2 4 7 于1996年10月开始研究 MPEG 7并不是一种压缩编码方法 其正规的名字叫做 多媒体内容描述接口 其目的是生成一种用来描述多媒体内容的标准 建立MPEG 7标准的出发点是依靠众多的参数对图象与声音实现分类 并对它们的数据库实现查询 43 3 3音频文件的格式 5 RealAudio文件 RA RM RAMRealAudio文件是RealNetworks公司开发的一种新型流式音频 StreamingAudio 文件格式 传统的音频文件 可以存入硬盘或其它的存储介质中 一般来说 这种音乐文件在播放之前 需要完全下载 流式文件 如RealAudio和QuickTime使用的文件格式 可以一边下载一边听 但无法很容易地把整个文件保存到硬盘上 注意 一些文件格式 如MP3和WMA 既可以是传统文件 也可以是流式文件 44 3 3音频文件的格式 6 PCM文件 PCM由模拟音频信号直接通过A D转换而形成的二进制序列文件 特点 保真度高 解码速度快 但编码后的数据量大 如 CD DA就是采用该编码方式 每分钟的音乐约需要10MB磁盘存储空间 一般可通过转换工具将PCM文件转换成WAV文件 45 3 3音频文件的格式 三 MIDI文件格式 MID RMI通过语音合成器产生相应声音的非波形格式的MIDI MusicalInstrumentDigitalInterface 文件 MID 属于合成声音文件 即采用数字方式对乐器所演奏出来的声音进行记录 然后在播发时再对这些记录进行合成 存储的是指令和数据 不是数字化的实际声音 即存储的是发给音频合成器的一系列指令 MIDI传输的不是声音信号 而是音符 控制参数等指令 它指示MIDI设备要做什么 怎么做 如演奏哪个音符 多大音量等 占用磁盘空间非常小 MID文件每1分钟只用大约5 10KB 缺点 处理语音能力和效果相对较差 一般只适用于记录乐曲 46 3 3音频文件的格式 四 模块文件 MOD S3M XM MTM FAR KAR 同时具有MIDI与数字音频 声音文件 的共同特性 文件中既包括如何演奏乐器的指令 又保存了数字声音信号的采样数据 为此 其声音回放质量对音频硬件的依赖性较小 即 在不同的机器上可以获得基本相似的声音回放质量 根据不同的编码方法有MOD S3M XM MTM FAR KAR IT等多种不同格式 47 3 3音频文件的格式 WAVE文件与MIDI文件的区别 1 文件格式 WAVE文件是通过直接对模拟声波进行数字化得到的音频信号数据 而MIDI文件只是记录了一系列乐谱指令 2 声音来源 WAVE文件是直接通过声卡输入端口获取的音源 并可从输出端口直接播放 而MIDI是通过MIDI接口由音序器记录电子乐谱的指令数据 3 存储容量 采用MIDI格式记录比采用WAVE格式记录的数据量小两个数量级以上 音频文件总结 50 3 4语音压缩编码及标准 一 概述1 压缩编码的目的在保证一定图像 或声音 质量的条件下 以最小的数据率来表达和传送图像 或声音 信息 2 压缩编码的重要性实际应用中 未压缩编码的音频数据量很大 进行传输或存储数据量很不现实 51 3 4语音压缩编码及标准 3 数据能够得到压缩的可能性 1 原始数据中存在着大量的冗余信息 2 视频和音频信息的最终接收者是人 人的视觉和听觉器官都具有某种不敏感性 舍去人的感官所不敏感的信息对图像或声音质量的影响很小 在有些情况下 甚至可以忽略不计 3 对声音波形取样后 相邻样值之间存在着很强的相关性 52 3 4语音压缩编码及标准 4 语音压缩编码算法的评价音频质量数据量数据量 采样频率 量化位数 8 字节数 声道数目算法复杂度在保证质量的前提下 尽量减少算法复杂度 53 3 4语音压缩编码及标准 音频质量 主观评价 主观意见打分 歌咏比赛客观评价 信噪比SNR signaltonoiseratio 声音质量评分标准 54 3 4语音压缩编码及标准 说明 声音质量的评价是一个很困难的 目前还在继续研究的课题 两种方法 一种是客观质量度量 另一种是主观质量度量 用声音信号的带宽来衡量声音的质量 等级由低到高分别是 数字电话 telephone 调幅 amplitudemodulation AM 广播调频 frequencymodulation FM 广播激光唱盘 CD Audio 数字录音带 digitalaudiotape DAT 的声音 55 3 4语音压缩编码及标准 二 数字音频文件的编码标准1 ITU标准 G 711标准 1972年制定 采样率为8kHz 8位 样本 速率为64kb s 采用PCM算法 其质量相当于12bit线性量化 应用 电话质量的语音信号编码所需频宽 64Kbps 8kHz 8bit 特性 算法复杂度小 音质一般优点 算法复杂度低 压缩比小 CD音质 400kbps 编解码延时最短 相对其它技术 缺点 占用的带宽较高 56 3 4语音压缩编码及标准 G 721标准 1984年公布 1986年修订 采样率为8kHz 4位 样本 数据率为32kb s 采用ADPCM算法 应用 调幅广播和交互式激光唱盘的音频信号压缩 所需频宽 32Kbps特性 相对于PCM 其压缩比较高 可以提供2 1的压缩比 优点 压缩比大缺点 声音质量一般备注 使用ADPCM转换技术 实现64kb sA律或 律PCM速率和32kb s速率之间的相互转换 57 3 4语音压缩编码及标准 G 722标准 以16kHz采样 14bit量化 信号数据速率为224kbit s 可以被压缩为64kb s 利用G 722标准可以在窄带综合服务数据网N ISDN中的一个B信道上传送调幅广播质量的音频信号 应用 调频广播和需存储大量高质量音频信号的编码 所需频宽 64Kbps特性 G 722能提供高保真的语音质量优点 音质好缺点 带宽要求高备注 子带ADPCM SB ADPCM 技术 58 3 4语音压缩编码及标准 G 723 低码率语音编码算法 所需频宽 5 3Kbps 6 3Kbps特性 语音质量接近良 带宽要求低 高效实现 性能稳定 可用于IP电话语音信源编码或高效语音压缩存储 优点 码率低 带宽要求较小 并达到ITU TG723要求的语音质量 性能稳定 缺点 声音质量一般备注 可以应用于IP电话等系统中 59 3 4语音压缩编码及标准 G 723 1 双速率语音编码算法 所需频宽 5 3Kbps特性 能够对音乐和其他音频信号进行压缩和解压缩 但它对语音信号最优的 优点 码率低 带宽要求较小 并达到ITU TG723要求的语音质量 性能稳定 避免了载波信号的时通时断 缺点 语音质量一般备注 目前该算法已成为IP电话系统中的必选算法之一 60 3 4语音压缩编码及标准 G 728所需频宽 16Kbps 8Kbps 其质量与32kbit s的G 721标准基本相当应用 用于IP电话 卫星通信 语音存储等多个领域 优点 后向自适应 采用自适应后置滤波器来提高其性能 缺点 比其它的编码器都复杂 61 3 4语音压缩编码及标准 G 729所需频宽 8Kbps特性 可以应用于广泛的领域 包括IP电话 无线通信 数字卫星系统和数字专用线路 优点 语音质量良好 应用领域很广泛 缺点 在处理随机比特错误方面性能不好 62 3 4语音压缩编码及标准 G 729A所需频宽 8Kbps特性 复杂性较G 729低 性能较G 729差 优点 语音质量良 降低了计算的复杂度以便于实时实现 提供了对帧丢失和分组丢失的隐藏处理机制缺点 性能较G 729差备注 96年ITU T又制定了G 729的简化方案G 729A 主要降低了计算的复杂度以便于实时实现 因此目前使用的都是G 729A 63 3 4语音压缩编码及标准 2 MPEG标准有MPEG MPEG MPEG 和MPEG 几种 MPEG 中ISO IEC11172 3 音频 速率为1 5Mb s 采样频率分别为48 32 44 1kHz 与PCM标准兼容 广泛应用在多媒体领域的高保真音频编码的压缩标准 适用于20Hz 20kHz的宽频范围 64 3 4语音压缩编码及标准 3 AC 3标准由Dolby实验室在AC 2的基础上开发出来的音频编码技术 目前是美国HDTV的音频标准 该标准将6个声道进行数字编码 并将其压缩成一个通道 比特率为320kb s 适用于电视广播 数字广播 有限电视 直播卫星以及家庭音响等各个领域 65 3 4语音压缩编码及标准 4 GSM标准由欧洲数字移动特别工作组制定 速率为13kb s 适用于移动通信的低速语音编码 5 CTIA标准美国数字移动通信标准 速率为8kb s 压缩率高 计算量适中 适用于移动通信的低速语音编码 音频数字压缩编码算法及其特性 音频数字压缩编码算法及其特性 68 3 5音乐合成和MIDI 一 MIDI简介1 何谓MIDIMIDI MusicalInstrumentDigitalInterface 电子乐器数字接口 是用于在音乐合成器 musicsynthesizers 乐器 musicalinstruments 和计算机之间交换音乐信息的一种标准协议 MIDI是乐器和计算机使用的标准语言 是一套指令 MIDI不是声音信号 在MIDI电缆上传送的不是声音 而是发给MIDI设备或其它装置让它产生声音或执行某个动作的指令 69 3 5音乐合成和MIDI 2 MIDI的优点 生成的文件比较小因为MIDI文件存储的是命令 而不是声音波形容易编辑因为编辑命令比编辑声音波形要容易得多可以作背景音乐因为MIDI音乐可以和其它的媒体 如数字电视 图形 动画 话音等一起播放 这样可以加强演示效果 70 3 5音乐合成和MIDI 3 生成MIDI的方法调频合成法FM1976年 FM frequencymodulation 调频合成法产生 乐音样本合成法1984年 乐音样本合成法 也称为波形表 Wavetable 合成法产生 71 3 5音乐合成和MIDI 二 FM合成声音1 FM合成器全称是数字式频率调制合成法digitalfrequencymodulationsynthesis2 FM合成器生成乐音的基本原理 图FM声音合成器的工作原理 73 3 5音乐合成和MIDI 3 FM合成器采用的波形在乐音合成器中 数字载波波形和调制波形有很多种 不同型号的FM合成器所选用的波形也不同 下图是YamahaOPL III数字式FM合成器采用的波形 74 3 5音乐合成和MIDI FM合成法 通过已有的电子波形来产生声音不足 产生逼真的乐音困难 有些乐音几乎不能产生 75 3 5音乐合成和MIDI 三 乐音样本合成声音1 乐音样本合成法把真实乐器发出的声音以数字的形式记录下来 播放时改变播放速度 从而改变音调周期 生成各种音阶的音符 乐音样本的采集相对比较直观 音乐家在真实乐器上演奏不同的音符 选择44 1kHz的采样频率 16位的乐音样本 相当于CD DA的质量 把不同音符的真实声音记录下来 就完成了乐音样本的采集 乐音样本通常放在ROM芯片上 ROM是超大规模集成电路VLSI芯片 76 3 5音乐合成和MIDI 2 乐音样本合成器的原理 图乐音样本合成器的工作原理 79 3 6语音识别技术 机器能听懂人类的语言吗 我们能扔掉键盘 鼠标用自然语言操纵计算机吗 语音识别技术 梦想正在变为现实 语音识别是指从语音到文本的转换 即让计算机能够把人发出的有意义的话音变成书面语言 听懂 有两层意思 一是指把用户所说的话逐词逐句转换成文本 二是指正确理解语音中所包含的要求 作出正确的应答 80 3 6语音识别概述 一 语音识别的定义语音识别是指让计算机接收 识别和理解人发出的有意义的语音信号 并将其转换成相应的数字信号 文本 的技术 语音识别从语音到文本的转换 通俗地说就是让机器能够听懂人说的话 听懂 一是指把用户所说的话逐词逐句转换成文本 二是指正确理解语音中所包含的要求 作出正确的应答 81 3 6语音识别概述 语音识别技术是一门涉及面很广的交叉学科 它是语音信号处理的一个重要研究方向 是模式识别的一个分支 研究领域 涉及到声学 语音语言学 数理统计 数字信号处理理论 信息论 计算机科学等众多学科 最终目标 是实现人与机器进行自然语言通信 82 3 6语音识别概述 计算机模拟人类交流信息的过程 1 将大脑产生的思想转换成语言 2 将语言转换成相应的语音 3 识别表达语言的语音内容 4 理解语音所表达的语言意义 83 3 6语音识别概述 二 语音识别的发展历史语音识别的研究工作大约开始于20世纪50年代 50年代 开始语音识别研究重要成果 1952年Bell实验室开发了Audry系统是第一个可以识别10个英文数字的语音识别系统 60年代 计算机的应用推动了语音识别的发展重要成果 提出了动态规划 DP 和线性预测分析技术 LP 后者较好地解决了语音信号产生模型的问题 84 3 6语音识别概述 70年代 在小词汇量 孤立词识别方面取得实质性进展重要成果 提出了信号线性预测编码 LPC 技术和动态时间规整 DTW 技术 有效解决了语音信号的特征提取和不等长语音匹配问题 提出了矢量量化 VQ 和隐马尔可夫模型 HMM 理论 目前大多数大词汇量 连续语音的非特定人语音识别系统都是基于HMM模型 85 3 6语音识别概述 80年代 语音识别研究进一步走向深入 显著特征 HMM模型和人工神经元网络 ANN 在语音识别中的成功应用 重要成果 1988年 FULEEKai等实现了997个词汇的非特定人连续语音识别系统SPHINX 世界上第一个高性能的非特定人
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安全注射试题及答案大全
- 安全员b考试试题及答案
- 2025年零售行业新零售门店设计与顾客行为研究报告
- 聚焦2025:工业互联网平台区块链智能合约安全防护与合规性审查报告001
- 安全工程师试题及答案
- 工业互联网平台传感器网络自组网技术在智能仓储中的应用案例分析报告001
- 2025年大数据存储市场规模增长与技术创新分析报告
- 隐私保护培训课件内容
- 配电装置培训课件
- 创极地培训课课件
- 充电站建设管理制度
- 美好生活大调查:中国居民消费特点及趋势报告(2025年度)
- 失业保障国际比较-洞察及研究
- 党群工作笔试题目及答案
- 2024-2025学年度第二学期二年级语文暑假作业有答案共25天
- 广东省广州市天河区2023-2024学年八年级下学期期末历史试卷(含答案)
- 2025河南省豫地科技集团有限公司社会招聘169人笔试参考题库附带答案详解
- 2025-2030年中国有机肥料行业市场投资分析及未来发展趋势预测研究报告
- AI技术赋能中小学教学模式创新与实践研究
- 山西焦煤集团招聘笔试题库2025
- 2025汾西矿业井下操作技能人员招聘300人(山西)笔试参考题库附带答案详解析
评论
0/150
提交评论