人工智能基础与应用(第2版)(微课版)课件 模块7 语音识别:让机器对你言听计从_第1页
人工智能基础与应用(第2版)(微课版)课件 模块7 语音识别:让机器对你言听计从_第2页
人工智能基础与应用(第2版)(微课版)课件 模块7 语音识别:让机器对你言听计从_第3页
人工智能基础与应用(第2版)(微课版)课件 模块7 语音识别:让机器对你言听计从_第4页
人工智能基础与应用(第2版)(微课版)课件 模块7 语音识别:让机器对你言听计从_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

7-1语音识别模块❼语音识别:让机器对你言听计从目录CONTENTS语音识别简史01语音识别过程02一.语音识别简史1.技术发展简史一.语音识别简史1.典型语音识别产品现有的语音识别部分产品二.语音识别过程1.语音识别技术涉及技术信号处理模式识别概率论发声机理听觉机理人工智能…众所周知,机器只能处理数字信号,不能直接处理人的语音信号。另外,人在说话的时候,语速有快有慢,每个人的声音、语调也不相同,且说话时周围可能有噪声。此外,即便字词发音相同(如“拟定”“你定”),但表达的意思还要结合语境和上下文来进一步确定。还有,机器要进行预学习,以了解人类在语言交流中要用到哪些语料库等。困难重重…二.语音识别过程2.识别过程语音识别过程二.语音识别过程2.语音识别关键要素(1)语音信号处理将语音转化为在时间上离散的数字信号采样后的时域数字波形二.语音识别过程2.语音识别关键要素(2)特征提取二.语音识别过程2.语音识别关键要素特征提取:①预加重增大高频部分的幅度。一般使用一阶滤波器来实现预加重二.语音识别过程2.语音识别关键要素特征提取:②分帧信号中的频率会随时间变化,一些信号处理算法(如傅里叶变换)通常希望信号是稳定的,也就是说对整个信号进行处理是没有意义的,因为信号的频率轮廓会随着时间的推移而丢失。为了避免这种情况,就需要对信号进行分帧处理,以保证短时的信号是稳定的。③加窗和快速傅里叶转换在分帧之后,通常需要对每帧的信号进行加窗处理,目的是让帧两端平滑地衰减,这样可以降低后续傅里叶变换后一些小束波的强度,取得更高质量的频谱。二.语音识别过程2.语音识别关键要素语音识别5关键要素:④提取特征在语音能量谱上应用Mel滤波器组就能提取到FBank(FilterBank)特征。所谓Mel刻度,是一个能模拟人耳接收声音的规律的刻度。各帧FBank特征值频谱图二.语音识别过程2.语音识别关键要素声学模型用于建立声学特征与建模单元之间的映射关系,即它能利用语音的声学特征把一系列语音帧转换成若干音素。基于该模型,利用大量的语音特征向量以及它们对应的音素,可以训练从特征向量到音素的分类器,从而在识别阶段能计算每一帧的特征向量到相应音素的声学得分(概率),简而言之,实现特征到字符的生成。(3)声学模型二.语音识别过程2.语音识别关键要素语言模型就是用来计算一个句子的概率的模型。它利用语言表达的特点,将音素转换成文字,组成意义明确的语句。简言之,根据声学模型输出的结果,给出最大概率的文字序列。(4)语言模型二.语音识别过程2.语音识别关键要素解码搜索的主要任务是在由声学模型、发音词典和语言模型构成的搜索空间中寻找最佳路径,尽快将语音转换成文本。解码时需要用到声学得分和语言得分,声学得分由声学模型计算得到,语言得分由语言模型计算得到。(5)解码搜索人工智能基础与应用Thankyouverymuch!7-2深度神经网络模块❼语音识别:让机器对你言听计从目录CONTENTS深度神经网络基础01卷积神经网络02一.深度神经网络基础1.深度神经网络的基本结构神经元加权和、非线性变换多层连接二.卷积神经网络1.深度神经网络参数的复杂性如果输入层向量有106个,假设隐藏层向量数目与输入层一样,那么从输入层到隐藏层的权重参数就有1012个,这还没有考虑后面其他隐藏层的参数。这样参数就太多了,模型根本无法训练。二.卷积神经网络2.卷积神经网络的优势在20世纪60年代,大卫·休伯尔(DavidHubel)和托斯坦·维厄瑟尔(TorstenWiesel)在研究大脑皮层中用于局部敏感和方向选择的神经元时,发现其独特的网络结构可以有效地降低反馈神经网络的复杂性。CNN的基本结构提取特征提高卷积神经网络的非线性表达能力降维、减少计算量特征转换与映射二.卷积神经网络3.卷积操作不同形状的“X”“X”的像素矩阵

3个卷积核卷积计算二.卷积神经网络3.激活函数sigmoidtanhReLUSoftmax二.卷积神经网络4.全连接层通过不断卷积、激活和池化,就得到了样本的多层特征图,然后将最终得到的特征图排成一列,即将多层的特征映射为一个一维的向量,形成全连接层。人工智能基础与应用Thankyouverymuch!7-3项目1—利用CNN识别英文语音数字模块❼语音识别:让机器对你言听计从目录CONTENTS提出问题01预备知识03解决方案02任务1—提取音频文件的语音特征数据04任务3—利用训练好的模型来识别语音06任务2—构建语音数字识别神经网络模型05一.提出问题问题描述

在医院、银行、饭店等场所,由于资源和人手受限,人们必须排队等候服务,因此叫号系统应运而生。数字0~9是生活中常见的10个基数,任何一个数字都是由10个基数构成的,如果想通过英文叫号系统将对应的阿拉伯数字及时显示在大屏上,如何实现数字语音到数字文本的转换呢二.解决方案1.选择神经网络分类解决问题基本思想:首先将语音进行切分,然后提取每个单词的语音特征;其次构建一个多层CNN模型,利用0~9的语音样本集对模型进行训练,得到满足精度的模型;最后利用训练好的模型逐个对提取的单词的语音特征进行分类,看它属于0~9中的哪个数字,最后将识别的数字组合起来就得到识别的结果。二.解决方案2.具体方案三.预备知识1.webrtcvad模块切分音频文件中有效的语音信号audios的内容三.预备知识2.python_speech_features模块提取语音信号的全部特征三.预备知识2.python_speech_features模块提取语音信号的全部特征提取的语音特征:(部分)三.预备知识3.PaddlePaddle框架飞桨的应用框架三.预备知识3.PaddlePaddle框架利用飞浆搭建一个预测房价的神经网络模型输入维度为1输出维度为1为线性模型无需加非线性激活函数四.任务1——提取音频文件的语音特征数据1.设计特征数据提取类VoiceFeature123将类VoiceFeature另存为VoiceFeature.py文件四.任务1——提取音频文件的语音特征数据2.提取语音特征数据features包含4个语音数字,其特征数据为13通道3×64的矩阵五.任务2——构建语音数字识别神经网络模型1.定义语音数字识别神经网络模型均为输出输入为n×13×3×64输出为1×10五.任务2——构建语音数字识别神经网络模型1.定义语音数字识别神经网络模型模型代码实现五.任务2——构建语音数字识别神经网络模型1.定义语音数字识别神经网络模型模型代码实现五.任务2——构建语音数字识别神经网络模型2.模型训练及保存最优模型以动态图的模式实时执行训练,设置CPU/GPU训练模式、优化器、Loss计算方法、精度计算方法等创建定义好的模型AudioCNN实例,并将模型的状态设置为训练加载训练数据和测试数据设置训练迭代次数,启动模型迭代训练。(1)训练保存训练好的模型五.任务2——构建语音数字识别神经网络模型2.模型训练及保存最优模型以动态图的模式实时执行训练,设置CPU/GPU训练模式、优化器、Loss计算方法、精度计算方法等创建定义好的模型AudioCNN实例,并将模型的状态设置为训练加载训练数据和测试数据设置训练迭代次数,启动模型迭代训练。保存训练好的模型六.任务3——利用训练好的模型来识别语音1.配置模型识别的机器资源从前面的模型定义和训练来看,训练好最后的模型所花的时间相对较少,这主要是因为所使用的AudioCNN比较简单。但现实生活中,可能会遇到更复杂的机器学习、深度学习任务,需要运算速度更高的硬件(GPU、TPU),甚至同时使用多个机器共同执行一个任务(多卡训练和多机训练)。但本项目是在普通的计算机上进行训练和预测,所以通过以下语句配置模型识别的机器资源。六.任务3——利用训练好的模型来识别语音2.为模型实例加载模型参数实现代码:模型文件加载模型参数载模仅用于预测六.任务3——利用训练好的模型来识别语音3.将提取的特征数据输入模型以得到识别结果实现代码:说明卷积神经网络的确可用于语音识别,且能获得较好的识别效果。结论:人工智能基础与应用Thankyouverymuch!7-4项目2—自制一个简单的语音“阅读”器模块❼语音识别:让机器对你言听计从目录CONTENTS提出问题01预备知识03解决方案02任务1—读取需阅读的文件内容04任务3—调用文本在线合成API实现文本—语音转换06任务2—验证访问语音合成应用的令牌05一.提出问题问题描述在人们阅读网络新闻时,往往会使用语音播放功能来倾听新闻内容,这样不仅能舒缓眼睛疲劳,而且能听到生动的新闻内容。在语音智能客服或虚拟教学、盲人辅助服务等场景中,时常会听到悦耳的语音播报,这极大地提升了服务效果,同时减轻了相关人员的工作压力。那么,以上场景中将文本转换成语音是如何实现的呢二.解决方案具体方案三.预备知识1.百度智能云在百度智能云控制台上,按照自己的开发诉求选择对应的产品、服务,从而快速构建属于自己的应用系统三.预备知识2.创建一个语音合成应用(1)语音合成的基本流程(2)创建语音技术服务三.预备知识2.创建一个语音合成应用(3)新建一个语音合成应用三.预备知识2.创建一个语音合成应用(4)完成语音合成应用创建三.预备知识2.创建一个语音合成应用(5)应用调试四.任务1——读取需阅读的文件内容1.

准备数据文件将需要文本—语音转换的阅读内容通过爬虫或人工的方式进行整理,形成统一的文件格式,方便对阅读内容进行处理。此处直接将新闻内容保存为news.txt文件,简化文件形成过程。四.任务1——读取需阅读的文件内容2.读取文件内容五.任务2——验证访问语音合成应用的令牌1.导入第三方库和定义常量(1)导入库和函数(2)定义常量五.任务2——验证访问语音合成应用的令牌1.定义令牌验证函数定义令牌验证函数,对用户提供的APIKey、SecretKey鉴权参数进行验证,确保合法用户能在线应用访问语音合成,并视情况返回错误提示。六.任务3——调用文本在线合成API实现文本—语音转换1.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论