




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Speech Signal Processingn课程简介课程简介总学时:总学时:48,理论课学时:,理论课学时:38,实验课学时:,实验课学时:10,学分:,学分:3 适用于通信工程、电子信息工程等专业适用于通信工程、电子信息工程等专业 先修课程先修课程:信号与系统、数字信号处理、概率统计信号与系统、数字信号处理、概率统计 期末考试期末考试 (开开卷,占卷,占8 80%0%) 实验考核实验考核(实验完成情况、实验报告撰写情况,占(实验完成情况、实验报告撰写情况,占1010% %) 平时考核平时考核(课堂表现、自主学习情况,占(课堂表现、自主学习情况,占1 10 0% %)n课程考核方式课程考
2、核方式 语音信号处理语音信号处理是一门综合性学科,涉及的领域非常广泛:是一门综合性学科,涉及的领域非常广泛:声学、语音学、信号处理、数学、人工智能、模式识别,甚至声学、语音学、信号处理、数学、人工智能、模式识别,甚至心理学、生物学等。心理学、生物学等。n教材及主要参考资料教材及主要参考资料教材:教材:赵力赵力. . 语音信号处理(第语音信号处理(第3 3版)版), , 北京:机械工业出版社北京:机械工业出版社, 2016.5, 2016.5主要参考资料:主要参考资料: 张雪张雪. . 数字语音处理及数字语音处理及MATLABMATLAB仿真仿真, , 北京:电子工业出版社北京:电子工业出版社,
3、 2010, 2010 何强何强 何英何英. MATLAB. MATLAB扩展编程扩展编程, , 北京:清华大学出版社北京:清华大学出版社, 2002, 2002n主要软件及工具箱主要软件及工具箱 MatLab, Cool Editor, Visual Studio 2008/2010MatLab, Cool Editor, Visual Studio 2008/2010 Voice Box, HTK, Speech SDK Voice Box, HTK, Speech SDK等工具箱等工具箱n主要研究机构主要研究机构国外:国外:卡耐基梅隆大学,剑桥大学,爱丁堡大学,谢菲尔卡耐基梅隆大学,剑桥
4、大学,爱丁堡大学,谢菲尔德大学,华盛顿大学,加州大学,哥伦比亚大学,麻省理工德大学,华盛顿大学,加州大学,哥伦比亚大学,麻省理工学院,帝国理工学院,学院,帝国理工学院,IBMIBM,微软、,微软、NuanceNuance等等国内:国内:科大讯飞,清华大学,中科院声学所和自动化所,科大讯飞,清华大学,中科院声学所和自动化所,哈工大,东南大学,华南理工大学等哈工大,东南大学,华南理工大学等n本课程的主要内容本课程的主要内容 绪论绪论 2 2 语音信号处理基础知识语音信号处理基础知识 2 2 矢量量化技术矢量量化技术 2 2 语音信号分析语音信号分析 4 4 语音信号特征提取技术语音信号特征提取技术
5、 4 4 语音增强语音增强 4 4 语音识别语音识别 4 4 说话人识别说话人识别 4 4 语音编码语音编码 4 4 语音合成与转换语音合成与转换 4 4 语音信息隐藏语音信息隐藏 4 41.1 概述1.2 语音识别发展概况1.3 语音编码发展概况1.4 语音合成发展概况1.5 语音处理的其他分支l噪声环境下语音处理系统性能急剧下降噪声环境下语音处理系统性能急剧下降l说话人发音方式、口音变化等将导致系统性能下降说话人发音方式、口音变化等将导致系统性能下降l 训练和测试数据差异较大时,系统性能将下降训练和测试数据差异较大时,系统性能将下降ll车载语音:车载语音:汽车导航、空调、车窗、影音等的语音
6、控制汽车导航、空调、车窗、影音等的语音控制l呼叫中心:呼叫中心:交互式语音应答的补充、服务质量评估、增强安全性等交互式语音应答的补充、服务质量评估、增强安全性等l 移动终端:移动终端:语音秘书、语音播报、语音输入法、语音听写系统语音秘书、语音播报、语音输入法、语音听写系统l教育和娱乐:教育和娱乐:语音教具、语音(普通话)评测、智能语音家电和玩具语音教具、语音(普通话)评测、智能语音家电和玩具l 公共安全及服务:公共安全及服务:语音监听与跟踪、家庭服务、宾馆服务、旅行社语音监听与跟踪、家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等服务系统、订票系统、医疗服务、银
7、行服务、股票查询服务等l卡耐基梅隆大学、剑桥大学、爱丁堡大学、华盛顿大学、卡耐基梅隆大学、剑桥大学、爱丁堡大学、华盛顿大学、清华大学、中科大、中科院清华大学、中科大、中科院 等一直从事语音处理研究等一直从事语音处理研究l 2011年苹果公司推出年苹果公司推出Siri (Iphone4S的语音控制功能的语音控制功能)l 2010年科大讯飞推出新一代年科大讯飞推出新一代“语音云语音云”平台平台l 2011年腾讯公司推出年腾讯公司推出QQ云语音面板云语音面板l Nuance, Google, 微软微软, IBM, 百度百度, 盛大盛大,华为等华为等也投入巨资也投入巨资为什么要学习和研究为什么要学习和
8、研究语音信号处理语音信号处理技术?技术? 语音是最自然、最有效、最方便的人机(人与人)交互手段语音是最自然、最有效、最方便的人机(人与人)交互手段 国内外各大公司(研究机构)一直从事语音信号处理研究国内外各大公司(研究机构)一直从事语音信号处理研究 语音信号处理技术用途非常广泛语音信号处理技术用途非常广泛 语音信号处理技术远未成熟,需进一步改进语音信号处理技术远未成熟,需进一步改进语音信号处理技术始终与当时信息科学中最活跃的前沿学科保语音信号处理技术始终与当时信息科学中最活跃的前沿学科保持密切的联系,并且一起发展持密切的联系,并且一起发展比如:机器学习、小波分析、模式识别、神经网络、人比如:机
9、器学习、小波分析、模式识别、神经网络、人工智能等工智能等人的言语过程人的言语过程 想说说出传输接收理解语音合成语音编码语音识别说话人识别计算机计算机语音识别语音识别和和语音合成语音合成是实现人机语音通信,建是实现人机语音通信,建立一个有听和说能力的口语系统所必需的两项立一个有听和说能力的口语系统所必需的两项关键技术。使电脑具有类似于人一样的说话能关键技术。使电脑具有类似于人一样的说话能力,是当今时代信息产业的重要竞争市场。力,是当今时代信息产业的重要竞争市场。v语音信号处理的主要分支语音信号处理的主要分支 语音识别语音识别 Speech Recognition 语音合成语音合成 Speech
10、Synthesis 语音编码语音编码 Speech Coding 对模拟的语音信号进行编码,将模拟对模拟的语音信号进行编码,将模拟信号转化成数字信号,从而降低传输信号转化成数字信号,从而降低传输码率并进行数字传输。分为码率并进行数字传输。分为波形编码波形编码、参量编码参量编码(音源编码)和(音源编码)和混合编码混合编码。利用计算机和一些专门装置模拟人,制利用计算机和一些专门装置模拟人,制造语音的技术。造语音的技术。TTSTTS(文语转换)技术隶(文语转换)技术隶属于语音合成。属于语音合成。语音识别语音识别原理框图原理框图让机器通过识别和理解过程把语音信号转变让机器通过识别和理解过程把语音信号转
11、变为相应的文本或命令的技术。主要包括为相应的文本或命令的技术。主要包括特征特征提取提取、模式匹配模式匹配及及模型训练模型训练技术。技术。语音信号处理发展概况:语音信号处理发展概况:起步很早、尚未完全成熟起步很早、尚未完全成熟17911791年,年,Wolfgang von KempelenWolfgang von Kempelen构建了构建了语音机器语音机器18351835年,年,Charles WheatstoneCharles Wheatstone改进了语音机器改进了语音机器B.H. Juang# & Lawrence R. Rabiner. Automatic Speech Recogn
12、ition A Brief History of the Technology Development, 200418701870年代,年代,电话电话发明之争发明之争安东尼奥安东尼奥梅乌奇梅乌奇Antonio Meucci (1808 1889 )亚历山大亚历山大格拉汉姆格拉汉姆贝尔贝尔Alexander Graham Bell (1847-1922)伊莱沙伊莱沙格雷格雷Elisha Gray1835-1901 对于大多数人来说,每当提到电话的发明,一定会联想到对于大多数人来说,每当提到电话的发明,一定会联想到贝尔贝尔。 然而,一个叫然而,一个叫伊莱沙伊莱沙格雷格雷的人就曾与贝尔展开过关于电话
13、专利的人就曾与贝尔展开过关于电话专利权的法律诉讼。格雷与贝尔在同一天申报了专利,由于比贝尔权的法律诉讼。格雷与贝尔在同一天申报了专利,由于比贝尔晚一点申报(晚一点申报(只晚了只晚了2 2个小时左右个小时左右),最终败诉。),最终败诉。事实上,事实上,梅乌奇梅乌奇于于1860年代就已对电话机进行了原创性的发明创造,比年代就已对电话机进行了原创性的发明创造,比贝尔和格雷早贝尔和格雷早10多年。由于经济困窘等原因,多年。由于经济困窘等原因,19世纪世纪70年代,年代,梅乌奇梅乌奇并并没有赢得与贝尔的电话机专利争夺战。在其逝世没有赢得与贝尔的电话机专利争夺战。在其逝世113年后,美国议会认定年后,美国
14、议会认定梅乌奇梅乌奇为电话机的发明者。真理得以昭然,为电话机的发明者。真理得以昭然,梅乌奇梅乌奇实至名归。实至名归。谁是电话的真正发明者?A block schematic of Homer Dudleys VODERB.H. Juang# & Lawrence R. Rabiner. Automatic Speech Recognition A Brief History of the Technology Development, 200419391939年,年,H.DudleyH.Dudley研制成功第一个研制成功第一个声码器声码器l打破了以前的打破了以前的“波波形原则形原则”,提出了一
15、,提出了一种全新的语音通信技种全新的语音通信技术,即术,即提取参数加以提取参数加以传输,在收端重新合传输,在收端重新合成语音成语音。l其后,产生其后,产生“语音语音参数模型参数模型”的思想的思想1 1942942年,年,BellBell实验室发明了实验室发明了语谱仪语谱仪19481948年,美国年,美国HaskinHaskin实验室研制成功实验室研制成功“语图回放机语图回放机”19521952年,年,BellBell实验室研制成识别十个英语数字实验室研制成识别十个英语数字识别器识别器19561956年,年,OlsonOlson和和BelarBelar等人研制出等人研制出语音打字机语音打字机19
16、601960年代以后,随着计算机技术的发展,语音信号处年代以后,随着计算机技术的发展,语音信号处理技术获得了长足的进步,计算机模拟实验取代了硬理技术获得了长足的进步,计算机模拟实验取代了硬件研制的传统做法。各种突破性的思想不断涌现件研制的传统做法。各种突破性的思想不断涌现 19601960年,年,DenesDenes等人用计算机实现自动语音识别,等人用计算机实现自动语音识别,引入了时间归正算法引入了时间归正算法改进匹配性能改进匹配性能19701970年代起,人工智能技术开始引入到语音识别年代起,人工智能技术开始引入到语音识别中。美国国防部中。美国国防部ARPAARPA组织了有组织了有CMUCM
17、U等五个单位参加等五个单位参加的一项大规模语音识别和理解研究计划的一项大规模语音识别和理解研究计划19701970年代中,日本学者年代中,日本学者SakoeSakoe提出的提出的动态时间弯折动态时间弯折算法算法对小词表的研究获得了成功,从而掀起了语对小词表的研究获得了成功,从而掀起了语音识别的研究热潮音识别的研究热潮谁先提出动态时间弯折(谁先提出动态时间弯折(DTW)算法?)算法? 1960年代末期,年代末期,苏联学者苏联学者Vintsyuk提出了采用动提出了采用动态规划方法解决两个语音的时间对准问题态规划方法解决两个语音的时间对准问题 其研究不为学术界的广大研究者所知道其研究不为学术界的广大
18、研究者所知道1980年代,学术界才知道年代,学术界才知道Vintsyuk 当初的工作当初的工作;而而DTW已广为人知已广为人知是采用动态规划技术将一个复杂的全局最优化问题转化为许多局部最优化问题,一步一步地进行决策19197070年代末,基于矢量量化码本生成的年代末,基于矢量量化码本生成的LBGLBG算法算法被被提出,矢量量化技术广泛应用于语音识别、语音编提出,矢量量化技术广泛应用于语音识别、语音编码和说话人识别中码和说话人识别中19197070年代末至年代末至8080年代初,年代初,BakerBaker等将等将隐马尔可夫模隐马尔可夫模型型(Hidden Markov Model )(Hidd
19、en Markov Model )技术应用到语音识别技术应用到语音识别中中 1985 1985年年IBMIBM公司研制了公司研制了50005000词英语听写机词英语听写机Tangora-5Tangora-5,8080年代末完成的年代末完成的Tangora-20Tangora-20能识别的词汇达到了能识别的词汇达到了2000020000,识别率达到了,识别率达到了94.6%94.6%LBG算法通过训练矢量集和一定的迭代算法来逼近最优的再生码本19199090年代初,年代初,CMUCMU的的Lee KaifuLee Kaifu完成的非特定人连续语完成的非特定人连续语音识别系统音识别系统SPHINX
20、SPHINX是最有代表性的,它能识别是最有代表性的,它能识别997997个个词汇的连续语音,识别率达到词汇的连续语音,识别率达到95.8%95.8%19971997年,年,IBMIBM推出的汉语听写机推出的汉语听写机ViavoiceViavoice为语音识别为语音识别在汉字输入方面的实际应用开辟了新的道路在汉字输入方面的实际应用开辟了新的道路19991999年,年,IntelIntel推出语音识别软件开发包推出语音识别软件开发包Spark3.0 Spark3.0 Microsoft VoiceMicrosoft Voice及基于及基于. .netnet的语音识别引擎的语音识别引擎 目前,在语音
21、识别的系统框架方面并没有什么重大突目前,在语音识别的系统框架方面并没有什么重大突破。但是,在语音识别技术的应用及产品化方面出现破。但是,在语音识别技术的应用及产品化方面出现了很大的进展了很大的进展19881988年,年,李开复李开复获卡内基梅隆大学计算机学博士学位。他的博获卡内基梅隆大学计算机学博士学位。他的博士论文是士论文是世界上第一个世界上第一个“非特定人连续语音识别系统非特定人连续语音识别系统”。19881988年,年,商业周刊商业周刊授予该系统授予该系统“最重要科学创新奖最重要科学创新奖”。在校期。在校期间,李开复还开发了间,李开复还开发了“奥赛罗奥赛罗”(黑白棋)人机对弈系统,因(黑
22、白棋)人机对弈系统,因为为19881988年击败了世界团体冠军美国队的一名成员而名噪一时。年击败了世界团体冠军美国队的一名成员而名噪一时。19701970年代起,国外就开始研究计算机网络上的语音年代起,国外就开始研究计算机网络上的语音通信,主要是基于通信,主要是基于ARPANETARPANET网络平台进行研究网络平台进行研究19741974年,首次分组语音实验是在美国西海岸南加州年,首次分组语音实验是在美国西海岸南加州大学和东海岸的林肯实验室间进行,数码率为大学和东海岸的林肯实验室间进行,数码率为9.6kb/s9.6kb/s 19751975年年1 1月,美国实现使用月,美国实现使用LPCLP
23、C声码器的分组语音电声码器的分组语音电话会议话会议 19801980年代,集中在局域网上的语音通信,最早的实年代,集中在局域网上的语音通信,最早的实验是由英国剑桥大学于验是由英国剑桥大学于19821982年在年在10Mb/s10Mb/s的剑桥环形的剑桥环形网上进行的网上进行的19881988年,美国公布了一个年,美国公布了一个4.8kb/s4.8kb/s的码激励线性预测编的码激励线性预测编码(码(CELPCELP)语音编码标准算法)语音编码标准算法进入进入19199090年代,随着年代,随着InternetInternet的兴起和语音编码技术的的兴起和语音编码技术的发展,发展,IPIP分组语音
24、通信技术获得了突破性的进展。如网分组语音通信技术获得了突破性的进展。如网络游戏,语音聊天,络游戏,语音聊天,IPIP电话技术电话技术19199090年代中期,出现了很多被广泛使用的语音编码国际年代中期,出现了很多被广泛使用的语音编码国际标准,如数码率为标准,如数码率为5.3/6.4kb/s5.3/6.4kb/s的的G.723.1G.723.1、数码率为、数码率为8kb/s8kb/s的的G.729G.729等等 目前,主要集中在目前,主要集中在4kbit/s4kbit/s码率以下的高音质、低延迟码率以下的高音质、低延迟的声码器,提高在噪声信道中低码率编码器的性能的声码器,提高在噪声信道中低码率编
25、码器的性能19391939年,贝尔实验室利用共振峰原理制作出第一年,贝尔实验室利用共振峰原理制作出第一个电子语音合成器个电子语音合成器19601960年,年,G.FantG.Fant系统地阐述了语音产生的理论,系统地阐述了语音产生的理论,推动了语音合成技术的进步推动了语音合成技术的进步19681968年,第一个完整的年,第一个完整的TTSTTS系统得以实现系统得以实现19801980年,年,D. KlattD. Klatt设计出串设计出串/ /并联混合型共振峰并联混合型共振峰合成器合成器19801980年代,基音同步叠加的波形拼接方法年代,基音同步叠加的波形拼接方法PSOLA PSOLA 被提出被提出2020世纪末,提出了可训练的语音合成方法世纪末,提出了可训练的语音合成方法基基于于HMM HMM 的合成方法的合成方法目前,语音合成系统具有了很高的可懂度,但自目前,语音合成系统具有了很高的可懂度,但自然度还不尽人意然度还不尽人意说话人识别说话人识别说话人日志说话人日志语种辨识语种辨识语音转换语音转换语音隐藏语音隐藏语音情感识别语音情感识别语音增强语音增强语音搜索语音搜索Speaker Recognition,又称声纹识别、话者识别。通过对,又称声纹识别、话者识别。通过对语音信号的分析和处理,提取代表说话人个性信息的特征,语音信号的分析和处理
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人教版初中历史与社会八年级上册 3.3 汉武帝时代的大一统格局 说课稿
- 第二节 制备和应用固定化酶教学设计高中生物苏教版选修1生物技术实践-苏教版
- 第三十二课 从容应考-正确认识考试 教学设计-心理健康五年级下册北师大版
- 酚说课稿-2025-2026学年中职专业课-药用化学基础-药剂-医药卫生大类
- 2025医院春季招考试题及答案
- 2025年公路养护常识题库及答案
- 2025师范书法考试题目及答案
- 2025年学年(中职)《餐饮服务与管理》试题1试题附答案
- 2025年大学生食品安全知识竞赛试题及答案
- 2025健康管理师三级考试题库及答案
- 人工智能技术及应用习题答案题库
- 坚持人民至上 工会研讨发言
- 杭州师范大学2013年841无机化学考研真题
- 美学原理全套教学课件
- 期末复习(课件)新思维英语四年级上册
- 子宫脱垂试题及答案
- 中国政治思想史复习资料
- 高中音乐鉴赏 第一单元 学会聆听 第一节《音乐要素及音乐语言》
- 20以内加减法口算题3500道直接打印
- 走好群众路线-做好群众工作(黄相怀)课件
- 北斗卫星导航系统(全套课件208P)
评论
0/150
提交评论