人工智能-23. 语音识别的原理2_第1页
人工智能-23. 语音识别的原理2_第2页
人工智能-23. 语音识别的原理2_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

23:语音识别的原理教师姓名授课名称人工智能及机器学习基础知识授课形式授课班级授课地点授课日期章节名称语音识别的原理教学目的掌握语音识别的基本原理掌握语音识别的主要技术。重点难点重点:语音识别的基本原理。难点:语音识别的技术。主要内容一、课程引入让机器听懂人类的语音,这是人们长期以来梦寐以求的事情。伴随着计算机技术的发展,语音识别在人机交互应用中逐渐进入我们日常的生活,已经成为人工智能领域的标志性技术之一。语音识别技术以语音信号为研究对象,是语音信号处理的一个重要研究方向。其最终目标是实现人与机器进行自然语言通信。目前市场上也有很成熟的语音机器人。课程内容语音识别就转换为把这个矩阵转变为文本:(1)音素:单词的发音由音素构成。对英语,一种常用的音素集是卡内基—梅隆大学的一套由39个音素构成的音素集(TheCMUPronouncingDictionary)。汉语一般直接用全部声母和韵母作为音素集。另外,汉语识别还分有音调和无音调。(2)状态:比音素更细致的语音单位。关系:若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。语音识别具体是如何实现的呢?其实就是下面的三个步骤:(1)把帧识别成状态;(2)把状态组合成音素;(3)把音素组合成单词。每个小竖条代表一帧,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。如果知道了每帧语音和哪个状态相对应,就完成了语音的识别。如何判断每帧音素和哪个状态相对应呢?直观的办法就是,看某帧对应哪个状态的概率最大,那么这帧就属于这个状态。例如,在下图中,P(o|s1) (这是一个条件概论)表示给定了状态s1,该状态发音为o的概率值。由于这帧对应s3状态的概率最大,因此就让这帧对应于s3状态。如何获得每种状态对应的帧呢?奥秘就在于声学模型。声学模型(acoustic model,AM):包含了大量的参数,通过这些参数,就可以知道帧和状态对应的概率。一般通过“训练”来获取这些参数的值。训练声学模型时,需要使用巨大数量的语音数据,训练的方法比较繁琐,非常耗时,也会使用大量的计算资源。方法手段讲授

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论