版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、精选优质文档-倾情为你奉上语音识别的发展及应用 摘 要: 本文介绍了隐马尔可夫模型(Hidden Markov Model,HMM),传统的人工神经网络语音识别方法以及改进的人工神经网络,针对最近研究热点深度学习在语音识别中的应用做了详细的描述,并对与人工神经网络在语音识别中的缺点进行阐述,就如何将HMM与深度神经网络联合起来运用到语音识别中进行详细的分析与介绍。 关键词:隐马尔科夫模型 人工神经网络 深度学习 中图分类号:TN91 文献标识码:A 文章编号:1003-9082(2015)12-0007-01 一、引言 伴随着计算机技术的不断进步以及人工智能学科的飞速发展。人们对大脑学习、思维
2、机能的研究逐渐深入。人工神经网络作为借鉴人脑神经元互相连结构的信息处理网络,受到了广泛的关注。深度学习作为人工神经网络的一个分支,能够从海量的数据中挖掘到有效的信息,成为语音识别领域的一个研究热点。 二、隐马尔科夫模型 隐马尔可夫模型3(HMM)是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程具有一定状态数的隐马尔可夫链和显示随机函数集。 隐马尔科夫模型(HMM)可以用五个元素来表示,包括两个状态集合和三个概率矩阵:1.隐含
3、状态S;2.可转移状态O;3aaaa.初始状态概率矩阵;4.隐含状态转移概率矩阵A;5.观测状态转移概率矩阵B。一般的,可以用=(A,B,)三元组来简洁的表示一个隐马尔科夫模型。应用隐马尔科夫模型通常解决三类基本问题 :1.评估问题;2.解码问题;3.学习问题。 隐马尔可夫模型是目前进行声学建模的主流技术。采用5状态的连续HMM模型(见图1),其中1、5状态只起连接作用,没有观测概率,第2、3、4状态有高斯概率分布,假设特征参数是相互独立的,所以规定协方差矩阵为对角阵。 图1 五状态HMM模型结构 三、深度神经网络模型 1.神经网络的基本概念 神经网络即人工神经网络,是一种模仿动物神经网络行为
4、特征,进行分布式并行信息处理的算法的数学模型。此网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的,并具有自学习和自适应的能力1。 神经网络包含三个要素1: 1.1神经元:它是神经网络的最基本的组成部分,也是网络核心的处理单元。它的作用就是把输入加权求和,并做非线性处理; 1.2网络拓扑:即神经网络中神经元的互联模式。神经系统稳定的拓扑结构规定且制约着神经网络的性质和信息处理能力的大小。 1.3学习方式:神经网络的一个重要特点是可以通过向环境学习来获得知识并改进自身的性能。通过对网络种各神经元初始参数值的设定改善网络性能。最终达到输入和输出误差值最小。 2.
5、BP神经网络算法 传统的BP算法2是一种有监督式的学习算法,主要的运算方法是输入学习样本,采用反向传播算法对网络的权值和偏差进行反复的调整训练,使输出的向量与期望的向量尽可能地接近,当网络输出层的误差平方和小于指定的误差时训练完成。 BP算法实质上是把一组样本的输出与输入采用非线性优化的方法进行处理,通过负梯度下降算法和迭代运算来解决问题。但是BP的收敛速度容易陷入局部极小,而改进的BP算法则解决该问题,即给定输入和输出模式,通过神经网络建立线性方程组,进而利用高斯消元法得出加权系数,然后利用上面介绍的传统的BP算法的非线性函数误差反馈得出最优的结果。 虽然BP算法在神经网络领域不断改进,但是
6、一些问题也在暴露出来。 2.1在训练过程中容易出现过拟合的问题参数也比较难以训练一致。 2.2在训练三层以下网络时,训练结果并没有明显的优势,当训练多层网络时训练速度比较慢。且残差传播到最前面的层已经变得太小,出现梯度扩散。 四、 HMM与深度学习模型的建立 1.深度学习模型 深度学习本质上是一种采取多层非线性变换的信息提取技术,通过其层次化的结构特征,从而实现对数据间复杂关系的建模。在过去的几十年间,深度神经网络作为语音识别的一项关键技术,吸引了国内外一大批专家学者、科研机构从事这一领域的研究。 2006年,Hinton提出了在非监督数据上建立多层神经网络的一个有效方法,简单的说,分为两步:
7、1)每次训练一层网络;2)是调优,使原始表示x向上生成的高级表示r和该高级表示r向下生成的x'尽可能一致。方法是: 1.1首先逐层构建单层神经元,这样每次都是训练一个单层网络。 1.2当所有层训练完后,Hinton使用wake-sleep算法进行调优。 2. HMM与深度学习模型的建立 2.1 MFCC特征参数 Mel 频率倒谱(MFCC)是将普通频率映射到 Mel 频率,然后在求其倒谱系数,所求得的倒谱系数就是 Mel 倒谱系数。其计算方法如下: 倒谱的计算方法:首先将时域信号进行傅里叶变换,然后取其对数,最后再进行傅里叶反变换即得到倒谱。 Mel 频率倒谱系数是将普通频率先映射到
8、Mel 频率,然后再求其倒谱。 本文中,语音特征参数一律采用MFCC特征参数,1维归一化短时能量,并求其一阶差分及二阶差分,共39维特征参数。 2.2建立和训练DNN-HMM声学模型 在训练过程中采用根据每一层建立相应的网络,根据每层来训练网络,通过第一层参数的学习来进行训练,模型容量有一定的限制和稀疏性的约束,从而得到的声学模型能够学习到数据本身的结构。在学习到第n层的时候,把第n层的输出作为第n-1层的输入,通过不断的训练然后各层的参数。 深度学习的第一步不是随机初始化,而是通过学习输入数据的结构得到的,所以初值更接近全局最优,从而在语音识别中能够取得更好的效果。 五、结束语 深度学习在语音识别领域的应用已经越来越广泛了,而且国内外已经成功地将此应用在语音识别中,大大提高了语音识别率,相信在不久的将来,基于深度学习的语音识别产品将会应用在市场,给人类做出更大的贡献。 参考文献 1张雄伟,陈亮,杨吉斌.现代语音处理技术及应用.机械工业出版社
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年江西省人力资源有限公司劳务派遣人员招聘备考题库及参考答案详解一套
- 2026年长岭县卫健系统事业单位公开招聘工作人员(含专项招聘高校毕业生)备考题库完整参考答案详解
- 2026年武义县医疗保障局招聘备考题库及参考答案详解1套
- 2026年浙江大学行政服务办事大厅党办、校办窗口招聘备考题库附答案详解
- 2026年顺昌县工业园区开发有限公司招聘备考题库及答案详解一套
- 2026年度黑龙江省文化和旅游厅所属事业单位公开招聘工作人员21人笔试备考题库及答案解析
- 2026年桂林生命与健康职业技术学院单招综合素质笔试参考题库带答案解析
- 2026江苏南京大学SZYJ20260001集成电路学院博士后招聘1人笔试参考题库及答案解析
- 2026年甘肃省张掖市甘州区垃圾处理中心招聘临聘人员笔试参考题库及答案解析
- 2026年随州市中心医院卫生专业技术人员专项招聘21人备考题库及参考答案详解
- 鼻窦炎的护理讲课课件
- 老年医院重点专科建设方案
- 2025年江苏省苏州市初二(上)英语期末模拟卷(二)含答案
- 规培中医病例讨论流程规范
- 银行解封协议书模板
- 小学生必读书试题及答案
- 超星尔雅学习通《学术规范与学术伦理(华东师范大学)》2025章节测试附答案
- (完整版)现用九年级化学电子版教材(下册)
- 卫生院、社区卫生服务中心《死亡医学证明书》领用、发放、管理制度
- 《金融科技概论》完整全套课件
- 市政道路工程危大工程安全管理措施
评论
0/150
提交评论