【VAD语音活动检测主要模块的算法设计案例2300字】_第1页
【VAD语音活动检测主要模块的算法设计案例2300字】_第2页
【VAD语音活动检测主要模块的算法设计案例2300字】_第3页
【VAD语音活动检测主要模块的算法设计案例2300字】_第4页
【VAD语音活动检测主要模块的算法设计案例2300字】_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

VAD语音活动检测主要模块的算法设计案例目录TOC\o"1-3"\h\u5217VAD语音活动检测主要模块的算法设计案例 162931.1语音分帧 132031.2带通滤波器的算法设计 2142801.3平方器的算法设计 2181041.4低通滤波器的算法设计 3137911.5神经网络算法设计 3271271.5.1LSTM和GRU网络 422341.5.2四种优化算法简介 5318051.5.3整体流程 51.1语音分帧语音信号本身是一种非平稳信号,整个语音的状态是随时间变化而变化的。从宏观上来看,一段语音信号所包含的频率成分十分复杂,直接拿来处理会使得计算复杂度变得极高。语音信号是由人的声带或者口腔的肌肉震动发出来的,在短时间内,可以认为语音的基本特性保持不变,近似为稳态过程。因此,在实际的语音信号处理中往往通过加窗等手段把一段连续的信号分成一系列的帧,每帧的长度称之为“帧长”。为了保持帧与帧之间的连续性,帧与帧之间会有重叠部分,帧长与重叠部分之差即为“帧移”。分帧的示意图如下图所示:图3-1语音分帧示意图其中,为原始语音长度,为语音经过分帧后的第帧。1.2带通滤波器的算法设计人耳可以听到的频率范围大约是20-20000Hz,特别低或特别高的信号经过人耳后会被滤除,因此,人耳本身可以看一个滤波器(组)。基于人类听觉感知实验的梅尔频率分析将人耳对于频率的非线性感知映射到梅尔域,表现为一种均匀分布的特性。在频域上,这些滤波器表现为高频稀疏、低频密集的三角滤波器。将普通频率转化到梅尔频率的公式和将梅尔频率转化成普通频率的公式分别为2-13式和3-1式:(3-1)本文研究的对象是语音活动,因此将检测的频率范围限制在了4kHz以内。把0-4kHz范围按照梅尔频率等间距划分成16个频带,每个频带均包含一个三角滤波器。Matlab仿真结果如下:图3-2理想三角滤波器组1.3平方器的算法设计一般来说,信号经过带通滤波器之后会经过一个平方器来获取能量。由傅里叶级数的完备性可知,任何一段信号均可以分解成一系列的单频信号。因此,以一段单频正弦信号为例,假设输入信号为:(3-2)其中为输入信号的幅度,为输入信号的频率,为输入信号的偏置电压。信号经过平方后:(3-3)1.4低通滤波器的算法设计由4-1式可以看出,经过平方器之后的信号在原频率处有一个信号,二倍频处有一个信号,以及一个直流信号。经过一个低通滤波器之后,只剩下项,其中是与信号幅度强相关的一个量,项作为直流偏置,其影响可以通过后面机器学习的方法消除。1.5神经网络算法设计近年来,机器学习的兴起在各个研究领域中都掀起了巨大的波澜。就其中一项技术——DNN而言,其中受到研究人员的广泛欢迎的一个重要原因是,它可以借助计算机的强大算力对一些看似没有相关性的特征进行分类,而不需要研究人员去深入推导个中原理,这大大节约了人力成本。DNN主要包含三个部分:输入层、隐藏层和输出层。层与层之间是全连接的,通过输入层的数据来更新输出层的状态,然后在输出层输出结果。对于DNN来说,它需要的是大量的数据。数据包含两部分,一个是特征,一个是标签。如图3-3所示,将大量带有标签的特征输入到神经网络中,系统会不断迭代、优化,使得误差逐渐减小,最终构成一个模型。然后再拿另一部分数据输入到模型中,通过比较输出的结果和原本的标签得到准确率。其中,用于训练的数据集称之为训练集,用于测试的数据集称之为测试集。图3-3神经网络基本原理考虑到语音是一种有规律的信号,使用并记录下其中的规律可以更好的实现语音和非语音的分类。循环神经网络(RecurrentNeuralNetwork,RNN)可以很好的做到这一点。因此,本文研究了长短期记忆(LongShortTermMemory,LSTM)和门控循环单员(GateRecurrentUnit,GRU)两种网络。1.5.1LSTM和GRU网络LSTM最初被SeppHochreiter和JurgenSchmidhuber在1991年提出,广泛应用至今。和经典RNN相比,LSTM添加了输入门和遗忘门,解决了梯度爆炸和梯度消失的问题,从而可以捕获长时信息,并在长文本序列的处理中表现出较好的性能。LSTM的一个重要思想是“细胞状态”,用以保存网络节点信息。LSTM网络的结构如图3-4所示,网络中通过Sigmoid和Tanh两种函数搭建输入门、遗忘门和输出门三种结构,输入的信息会在该结构中流动以更新“细胞状态”。图3-4LSTM网络结构图其中,为时刻的输入,为时刻的输出,为时刻的输出,为时刻的细胞状态,为时刻的细胞状态。GRU网络实际上是LSTM的一个变体,它将输入门和遗忘门合并成一个更新门,同时还混合了细胞状态和隐藏状态,总体上来说比LSTM的结构更简单,在训练数据的时候可以节省时间和功耗。GRU网络的结构如图3-5所示:图3-5GRU网络结构图1.5.2四种优化算法简介考虑到以后部署到硬件平台的复杂度及功耗,网络仅设置为单层。同时本文还比较了SGD、Momentum、RMSprop、Adam四种优化器对识别率的影响。SGD全称为StochasticGradientDescent,意为随机梯度下降。该算法首先沿着一个随机给出的方向进行前进,接下来每一步都选择能够使得损失误差最小的方向前进。这种方法的好处是能够让我们总能得到一个路径,使得损失误差达到极小值。但缺点就是一开始的方向是随机的,导致最终的极小值不一定是最小值。Momentum本意为动量,该算法借助物理中动量的概念,用过去经过移动指数加权的梯度值代替梯度。这种对网络的各个参数进行平滑处理的操作,在满足不会因为每次优化幅度太大而跳过最优解的同时,也保证了收敛速度。RMSprop全称为RootMeanSquareProp,意为均方根传播。和Momentum算法类似,RMSprop算法也会联系之前的梯度变化,只不过该算法更改的是学习步长。如果当前的梯度为负,就说明步长过大,需要调小步长;如果当前的梯度为正,就说明步长可以调大,就把步长调大。Adam算法是一种基于低阶矩自适应估计的随机目标函数的一阶梯度优化算法,实际上也是对于SGD算法的扩展。该算法结合了梯度的平均值和非中心方差,调整网络各个参数的学习速率。1.5.3整体流程经过带通滤波器、平方器、低通滤波器提取的特征以维度为的矩阵形式保存下来。为了防止过拟合,在将大量的特征作

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论