已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
-精选财经经济类资料- -最新财经经济资料-感谢阅读- 1 语音识别的发展及应用 摘 要: 本文介绍了隐马尔可夫 模型(Hidden Markov Model,HMM) , 传统的人工神经网络语音识别方法以及 改进的人工神经网络,针对最近研究热 点深度学习在语音识别中的应用做了详 细的描述,并对与人工神经网络在语音 识别中的缺点进行阐述,就如何将 HMM 与深度神经网络联合起来运用到 语音识别中进行详细的分析与介绍。 中国论文网 /4/view-12708278.htm 关键词:隐马尔科夫模型 人工神经网络 深 度学习 中图分类号:TN91 文献标识码: A 文章编号: -精选财经经济类资料- -最新财经经济资料-感谢阅读- 2 1003-9082(2015)12-0007-01 一、引言 伴随着计算机技术的不断进步以 及人工智能学科的飞速发展。人们对大 脑学习、思维机能的研究逐渐深入。人 工神经网络作为借鉴人脑神经元互相连 结构的信息处理网络,受到了广泛的关 注。深度学习作为人工神经网络的一个 分支,能够从海量的数据中挖掘到有效 的信息,成为语音识别领域的一个研究 热点。 二、隐马尔科夫模型 隐马尔可夫模型3(HMM)是 马尔可夫链的一种,它的状态不能直接 观察到,但能通过观测向量序列观察到, 每个观测向量都是通过某些概率密度分 布表现为各种状态,每一个观测向量是 由一个具有相应概率密度分布的状态序 列产生。所以,隐马尔可夫模型是一个 双重随机过程具有一定状态数的隐 马尔可夫链和显示随机函数集。 隐马尔科夫模型(HMM)可以 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 3 用五个元素来表示,包括两个状态集合 和三个概率矩阵:1.隐含状态 S;2.可转 移状态 O;3aaaa.初始状态概率矩阵 ;4. 隐含状态转移概率矩阵 A;5.观测状态转 移概率矩阵 B。一般的,可以用 =(A,B ,)三元组来简洁的表示一 个隐马尔科夫模型。应用隐马尔科夫模 型通常解决三类基本问题 :1.评估问题; 2.解码问题;3.学习问题。 隐马尔可夫模型是目前进行声学 建模的主流技术。采用 5 状态的连续 HMM 模型(见图 1) ,其中 1、5 状态 只起连接作用,没有观测概率,第 2、3、4 状态有高斯概率分布,假设特 征参数是相互独立的,所以规定协方差 矩阵为对角阵。 图 1 五状态 HMM 模型结构 三、深度神经网络模型 1.神经网络的基本概念 神经网络即人工神经网络,是一 种模仿动物神经网络行为特征,进行分 布式并行信息处理的算法的数学模型。 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 4 此网络依靠系统的复杂程度,通过调整 内部大量节点之间相互连接的关系,从 而达到处理信息的目的,并具有自学习 和自适应的能力1。 神经网络包含三个要素1: 1.1 神经元:它是神经网络的最 基本的组成部分,也是网络核心的处理 单元。它的作用就是把输入加权求和, 并做非线性处理; 1.2 网络拓扑:即神经网络中神 经元的互联模式。神经系统稳定的拓扑 结构规定且制约着神经网络的性质和信 息处理能力的大小。 1.3 学习方式:神经网络的一个 重要特点是可以通过向环境学习来获得 知识并改进自身的性能。通过对网络种 各神经元初始参数值的设定改善网络性 能。最终达到输入和输出误差值最小。 2.BP 神经网络算法 传统的 BP 算法2是一种有监督 式的学习算法,主要的运算方法是输入 学习样本,采用反向传播算法对网络的 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 5 权值和偏差进行反复的调整训练,使输 出的向量与期望的向量尽可能地接近, 当网络输出层的误差平方和小于指定的 误差时训练完成。 BP 算法实质上是把一组样本的 输出与输入采用非线性优化的方法进行 处理,通过负梯度下降算法和迭代运算 来解决问题。但是 BP 的收敛速度容易 陷入局部极小,而改进的 BP 算法则解 决该问题,即给定输入和输出模式,通 过神经网络建立线性方程组,进而利用 高斯消元法得出加权系数,然后利用上 面介绍的传统的 BP 算法的非线性函数 误差反馈得出最优的结果。 虽然 BP 算法在神经网络领域不 断改进,但是一些问题也在暴露出来。 2.1 在训练过程中容易出现过拟 合的问题参数也比较难以训练一致。 2.2 在训练三层以下网络时,训 练结果并没有明显的优势,当训练多层 网络时训练速度比较慢。且残差传播到 最前面的层已经变得太小,出现梯度扩 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 6 散。 四、 HMM 与深度学习模型的建 立 1.深度学习模型 深度学习本质上是一种采取多层 非线性变换的信息提取技术,通过其层 次化的结构特征,从而实现对数据间复 杂关系的建模。在过去的几十年间,深 度神经网络作为语音识别的一项关键技 术,吸引了国内外一大批专家学者、科 研机构从事这一领域的研究。 2006 年,Hinton 提出了在非监督 数据上建立多层神经网络的一个有效方 法,简单的说,分为两步:1)每次训 练一层网络;2)是调优,使原始表示 x 向上生成的高级表示 r 和该高级表示 r 向下生成的 x尽可能一致。方法是: 1.1 首先逐层构建单层神经元, 这样每次都是训练一个单层网络。 1.2 当所有层训练完后,Hinton 使用 wake-sleep 算法进行调优。 2. HMM 与深度学习模型的建立 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 7 2.1 MFCC 特征参数 Mel 频率倒谱(MFCC)是将普 通频率映射到 Mel 频率,然后在求其 倒谱系数,所求得的倒谱系数就是 Mel 倒谱系数。其计算方法如下: 倒谱的计算方法:首先将时域信 号进行傅里叶变换,然后取其对数,最 后再进行傅里叶反变换即得到倒谱。 Mel 频率倒谱系数是将普通频率 先映射到 Mel 频率,然后再求其倒谱。 本文中,语音特征参数一律采用 MFCC 特征参数,1 维归一化短时能量, 并求其一阶差分及二阶差分,共 39 维 特征参数。 2.2 建立和训练 DNN-HMM 声学 模型 在训练过程中采用根据每一层建 立相应的网络,根据每层来训练网络, 通过第一层参数的学习来进行训练,模 型容量有一定的限制和稀疏性的约束, 从而得到的声学模型能够学习到数据本 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 8 身的结构。在学习到第 n 层的时候,把 第 n 层的输出作为第 n-1 层的输入,通 过不断的训练然后各层的参数。 深度学习的第一步不是随机初始 化,而是通过学习输入数据的结
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 起重伤害专项事故演练档案
- 2026年中国家居行业发展展望及投资策略报告
- TCNIA-接触器用碲铜板编制说明
- K202409高起专《财政学原理(专科)》复习题
- 建发股份招聘笔试题库及答案
- 2025年度县委书记个人述德述职述廉报告
- 2025年作文训练考试题目及答案
- 重污染应急预案范文(3篇)
- 社会体育考试题目及答案
- 高危药品培训试题及答案
- 就业帮扶车间培训课件
- 制药工程导论课件第六章
- 泌尿外科发展简史
- 中医推拿按摩对膝关节病的疗效
- 中国老年患者术后谵妄防治专家共识
- 终身教育视野下人工智能赋能特殊职业教育的实践与探索
- 杭州市建德市公安局集中招聘警务辅助人员考试真题2024
- 温通刮痧技术操作流程图及考核标准
- 人教版小学一年级语文上册期末试卷(5份)
- 2025年宁波市水务环境集团有限公司招聘笔试参考题库含答案解析
- 真需求-打开商业世界的万能钥匙
评论
0/150
提交评论