语音信号处理 第4版 课件 第1章:语音信号处理绪论_第1页
语音信号处理 第4版 课件 第1章:语音信号处理绪论_第2页
语音信号处理 第4版 课件 第1章:语音信号处理绪论_第3页
语音信号处理 第4版 课件 第1章:语音信号处理绪论_第4页
语音信号处理 第4版 课件 第1章:语音信号处理绪论_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京邮电大学

通信与信息工程学院

第1章语音信号处理绪论为什么要学习这门课程语音信号处理发展概况本课程知识体系架构1.1为什么要学习这门课程语音信号处理的定义:语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科语音信号处理需要数字信号处理和语音学两方面的知识作为基础。语音学是研究言语过程的一门科学,它包括:发音语音学、声学语音学和听觉语音学三大分支。1.1为什么要学习这门课程言语过程的五个阶段:想说、说出、传输、接受、理解。1.1为什么要学习这门课程语音处理技术的应用极其广泛,包括:工业、军事、交通、医学、民用等各个领域。语音识别具有十分广泛的应用:

①可以进行声控应用;②VoiceActivatedDialing(VAD)语音拨号;③可以用于自动口语翻译(实现不同语言之间的直接通信);④可以将语音识别与语音合成技术相结合,构成一种超低比特率的语音通信系统。

1.1为什么要学习这门课程说话人识别已在安全加密、银行信息电话查询服务等方面得到了应用,此外在公安机关破案和法庭取证方面可以应用。语种辨识在军事情报工作、国家安全事务中有重要应用。语音合成技术的一个应用实例,是计算机语声应答系统。语音编码技术的根本作用是使语音通信数字化。语音增强系统的基本应用是去混响,或去回声,消除噪声,或从潜水员使用的氦氧混合气体下的发音中恢复出可懂的语音等。

1.1为什么要学习这门课程1.语音是人类最重要、最有效、最常用和最方便的交换信息的方式;2.语音信号处理技术已在办公、交通、金融、公安、商业、旅游等行业得到了广泛应用,并已成为当前主流操作系统和应用程序中人机交互的重要手段。3.语音信号技术始终与当时信息科学中最活跃的前沿学科保持密切的联系,并且一起发展。1.1为什么要学习这门课程1.语音是人类最重要、最有效、最常用和最方便的交换信息的方式;2.语音信号处理技术已在办公、交通、金融、公安、商业、旅游等行业得到了广泛应用,并已成为当前主流操作系统和应用程序中人机交互的重要手段。3.语音信号技术始终与当时信息科学中最活跃的前沿学科保持密切的联系,并且一起发展。为什么要学习这门课程语音信号处理发展概况本课程知识体系架构1.2语音信号处理技术发展概况20世纪40年代~60年代(萌芽阶段)(1)可追溯到1940年前后Dudley的声码器,其从语音中提取参数加以传输,在收端重新合成语音。即,产生“语音参数模型”了思想;

(2)1952年贝尔实验室研制成功能识别10个英文数字的实验装置;(3)1956年Olsen等人采用8个带通滤波器组提取频谱参数,研制成功最早的语音打字机;(4)数字信号处理技术(数字滤波器,FFT等)快速发展,成为语音信号处理理论和技术的基础。1.2语音信号处理技术发展概况20世纪70年代~80年代(信号分析与处理阶段)(1)1971年,美国ARPA主导的“语音理解系统”研究计划开始启动,促进了语音识别研究的兴起;

(2)70年代初,动态时间规整技术(DTW)用于语音识别;(3)70年代中期,线性预测技术(LPC)技术用于语音信号分析;(4)70年代末,矢量量化技术(VQ)用于语音编码。(5)80年代,Baum等提出隐马尔可夫模型(HMM),后被Baker等用于语音识别中,取得巨大成功。1.2语音信号处理技术发展概况20世纪90年代(向传统人工智能过渡阶段)(1)语音识别逐渐由实验室走向实用化:对声学语音学统计模型研究逐渐深入,讲者自适应/听觉模型/语言模型也备受关注;

(2)以PSOLA为代表的波形拼接语音合成方法得到广泛应用;(3)出现了4~8kbit/s的波形与参数混合语音编码器;(4)以找出包含在语音信号中的说话人个性因素以及情感因素的说话人识别方法,语音信号的情感信息处理等方向开始兴起。(5)语音增强与去噪技术,盲分离技术受到关注。1.2语音信号处理技术发展概况2000年~2020年(以深度学习为代表的人工智能主导阶段)(1)2006年,Hinton等人提出了深度学习技术;

(2)2010年,深度学习技术首先被应用于语音识别系统,在各项任务上大幅提升了识别准确率;(3)2010年后,卷积神经网络、循环神经网络、注意力机制、生成对抗网络、Transformer等深度学习技术进一步发展;(4)深度学习技术已应用于语音识别、语音合成、语音编码、语音情感信息处理等各个方向上,均取得了很好的效果。1.2语音信号处理技术发展概况2020年后(多模态语音信号处理阶段)(1)文本、图像、视频、触觉、运动、生理等数据采集手段丰富,上述模态信息与语音信号深度融合;

(2)将其他模态信息引入语音信号处理各方向、各任务中,进一步提升了语音信号处理系统的性能,产生了“多模态语音信号处理”这一新方向。(3)2020年南京邮电大学周亮教授团队提出的跨模态通信与信息恢复技术,极大提升了包括语音在内的多模态信息的传输与处理效率。为什么要学习这门课程语音信号处理发展概况本课程知识体系架构1.3本课程知识体系架构模块一:基础知识(Chapter2~3)(1)语音信号处理的基础知识(2)语音信号处理的常用算法模块二:分析方法(Chapter4)(1)语音信号的时域和频域分析(2)语音信号的倒谱和线性预测分析模块三:特征提取技术(Chapter5)语音信号的端点检测、基音周期、共振峰估计模块四:典型处理技术(Chapter6~10)语音增强、语音识别、说话人识别、语音编码、语音合成模块五:前沿技术(Chapter11~13)语音信号情感处理、声源定位、多模态语音信号处理1.3教材2003年4月第一版,2009年6月第二版,2016年5月第三版,2024年

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论