【《声音识别理论及技术综述》4200字】_第1页
【《声音识别理论及技术综述》4200字】_第2页
【《声音识别理论及技术综述》4200字】_第3页
【《声音识别理论及技术综述》4200字】_第4页
【《声音识别理论及技术综述》4200字】_第5页
免费预览已结束,剩余2页可下载查看

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

声音识别理论及技术综述目录TOC\o"1-3"\h\u29837声音识别理论及技术综述 1186801.1声音信号预处理 183741.1.2预加重 17501.1.3分帧加窗 298881.1.4端点检测 321541.2声音信号特征提取 3144871.1.1线性预测倒谱系数(LPCC) 4130201.1.2梅尔频率倒谱系数(MFCC) 4167311.3声音信号识别模型 512551.3.1动态时间规整(DTW) 5308091.3.2隐马尔可夫模型(HMM) 55631.3.3支持向量机(SVM) 673621.3.4深度学习(DL) 6声音数据识别过程主要分为两个阶段,第一阶段的主要内容,在该阶段先把预先已经收集好的原始有效声音数据进行样本预处理,去除了原始有效声音识中的不可识别部分,生成一个基本包含有效原始声音数据的基础训练样本,提取并输出了这些有效声音数据的样本特征参数,根据这些样本特征参数就已经可以开展声音数据识别模型的训练。第二个阶段,模式识别,该阶段的主要内容为将所有待识别的声音进行与第一阶段相同的分析处理,得到待识别声音的模型,与第一阶段训练产生的模型进行对比,得到正确的识别结果。本章对声音识别中声音数据的预处理,特征参数的提取和声音识别模型做了简单的介绍。1.1声音信号预处理在我们开始处理和分析原始声音信号之前,为了获取有效的符合标准的声音数据,需要先对原始的声音信号进行初步处理,这个过程被称为预处理。针对声音信号的预处理操作可分为如下步骤,预加重、分帧和加窗、端点检测等。这些操作的主要目的是消除因为人为因素和声音采集设备客观因素带来的不良影响。提高声音信号的平均性、平滑度,进而提高特征提取的质量和语音处理质量。1.1.2预加重由于声音信号在采集时会受各种影响因素的干扰,且高频段的部分将在800hz以上按照6db的频程进行衰减[11],因此需要在采集这些声音信号时对它们进行一次预加重。预加重技术会提高声音信号中的高频段部分,从而促使声音信号的频谱更加平坦,保证了它们可以用相同的信噪去计算低频到高频整个频带的频谱。通常通过公式2-1来实现预加重操作。H其中μ为预加重系数,一般情况下取值μ=0.96示例音频频谱图(test)与预加重后频谱图(test_preEmphasised)如下图2-1所示。图2-1预加重前后Mel频谱图1.1.3分帧加窗由于整个声音信号往往很长,很难直接作为声音处理的对象,由极限理论可以知道,声音信号在非常短的一个时间段内,信号的基本特性是趋于稳定的。这时候我们就可以把声音信号视为是一个较短的时间准稳状态。这个让声音信号特性趋于稳定的时间段被设置成为分帧操作中的帧大小,因为这个时候的声音信号特征与整个声音的声音信号特征相同,所以就可以用这一帧的声音信号特性来表示整个声音信号的特性。在对每一帧的声音信号都进行了分帧处理后,还要继续对其中的数据进行添加窗口的处理,这一步操作的主要目的之一就是为了保持每一帧两端的频率和幅度逐渐变化至0,保证其平滑度。在添加窗口操作时常用的函数被称为窗函数,主要有矩形窗、汉明窗和汉宁窗。它们的表达式分别如式2-2和2-3所示。矩形窗汉明窗对于信号添加矩形窗而言,由于主瓣较狭窄且高度集中,其信号频谱的幅度变化也可能会因此得到明显性的提升,但是由于它本身具有较高的信号旁瓣,相邻的信号谐波对其旁瓣造成的信号干扰严重,能量泄露较多[12]。对于汉明窗而言,声音信号加窗后所计算得到的信号幅度要小于加矩形窗,但是其具有旁瓣较小的有点,能量泄露较少[13]。因此本文选择使用汉明窗来处理声音信号。1.1.4端点检测在实际的声音识别中,采集到的声音数据往往会带有噪音,导致无法清楚的判断声音的开始位置,这会给声音识别带来严重的影响,同时也会导致识别效率的下降。因此,在一段声音文件中找出合适的声音段至关重要,端点检测处理主要就是为了自动检测出声音的起始点和结束点,从而获取到能准确代表声音信息的声音段,不仅能提高声音识别的效率,也可以在一定程度上降低运算的数据量。对端点进行检测的方法主要包括基于通过零率的检测,基于短时能量的检测,双门限比较法等。其中双门限比较法是一种常用方法,该比较法将过零功率和短时能量相互地结合在一起,以短时能量En和平均过零率Zn作为特征,吸取两者的优点,大大增加了声音短点检测的准确性,有效降低了系统的运算时间,达到了提高声音信号的处理性能和效率的目的图2-2短时能量、平均过零率图1.2声音信号特征提取声音识别技术的关键问题之一,就是从给定的声音数据中提取出能够准确表示该声音数据信号特性的特征参数。不同发声源所产出的声音各不相同,但是都蕴藏着其独特的声音学特点,能不能从该声音的信号中获得并提取出一些代表该物体声音的特征参数,对于声音识别而言尤为重要。在对于声音信号的特征进行处理中,常见的特征参数主要是线性预测倒谱系数(LPCC)和梅尔频率倒谱系数(MFCC)等。1.1.1线性预测倒谱系数(LPCC)线性预测技术已经广泛应用到了与声音信号的处理中。其基本原理主要是基于对声音数据严格的样本点之间有着相互关联的特征,现在或者将来的样本点值都可以通过之前的样本点值进行预测来计算得到,也就是说,一段声音信号抽样的当前值由在这之前多个声音信号抽样值的线性组合而来计算得到。实际上预测所得到的噪声和实际噪声之间都有这个误差,而使得这个误差最小的单一组系数被称为线性预测系数(LinearPredictionCoefficient,LPC),这个系数可以用来表示声音信号的特征[15]。将线性预测系数(LPC)的参数进行变换归纳到倒谱域中就能够直接得到一个线性预测倒谱系数(LPCC),LPCC的计算复杂度通常比较小,十几个LPCC就已经可以非常好地表达出声音和信号的特点。LPCC虽然可以比较好地描述和理解声音的特征,但是这个系数时通过线性组合方式来模拟声音的信号,与人类耳朵所能感知到的声音的特性并不完全相符,因此会对声音识别系统产生一定的影响。1.1.2梅尔频率倒谱系数(MFCC)与LPCC相同,梅尔频率系数也可以通过变换到倒谱域,就可以得到梅尔频率倒谱系数(MelFrequencyCepstrumCoefficient,MFCC)。这个系数参数也同样能够表示声音信号特征的参数。研究表明,人耳的听觉敏锐度与声音信号的频率有关,当音频在200Hz-5KHz之间时,处于人耳听觉最适应的状态[17]。因此,在我们处理这些声音信号时,在这个频率范围内,按照一定规律地加入一组带通滤波器,先利用该滤波器对所有输入的声音信号进行滤波和计算,再将该滤波器的所有输出信号都做一系列的处理,并通过计算所得到的结果就可以作为这些声音信号的基本特征参数,这个参数就被称为MFCC[18]。与LPCC相比,该参数则充分考虑了人耳感知声音的特性,根据人耳对声音频率的敏感程度来表征声音信号。具有更好的鲁棒性,并且在低信噪比时能够优秀的识别能力。MFCC参数的提取方法可分为如下步骤。将声音信号进行预加重。对预加重后的信号,设定采样率和采样点,进行分帧操作,一般情况下采样率为8KHz或16KHz,采样点一般为256或512。每一帧分别乘以汉明窗函数,保证每一帧左右两端之间的连贯。对于加窗后的每帧信号进行快速傅里叶变换,将信号时域能量分布转换为频谱能量分布。对上一步得到的各帧频谱进行取模平方,得到信号的功率图。将能量谱经过Mel滤波器,对频率的能量谱进行平滑均匀处理,消除功率谐波。计算每个滤波器输出的对数能量。将其进行离散余弦变换得到MFCC系数。根据MFCC计算动态MFCC,包括一阶差分和二阶。根据以上步骤,MFCC参数的提取过程可概括为如下图2-3。图2-3MFCC提取过程图1.3声音信号识别模型为了首先声音信号的识别和分类,就需要利用对数据提取分析得出的声音特征参数来训练识别模型,这对于声音识别来说至关重要。选择适当声音识别处理模型,对于不断提高声音识别分类处理的整体性能、效率都来说有着非常重要的现实意义。动态时间规整(DTW)、隐马尔科夫模型(HMM)、支持向量机(SVM)以及深度学习(DL)等识别模型构成了声音识别中常用的几种识别模型。1.3.1动态时间规整(DTW)动态时间规整(DynamicTimeWarping,DTW)[19]是一种非线性规整的处理技术,被用来衡量两个时间序列的相似度。在实际声音识别运用中,由于一个声音模板信号本身必然具有很大的逻辑随机性,不能对一个声音信号模板中所有的转换和输出数据进行简单的数据分析和逻辑比较,因此必须对其过程进行一定的逻辑时间性和周期规整。其本质是将同一类型的事物在时间序列上进行统一对齐。1.3.2隐马尔可夫模型(HMM)通过线性预测系数可知,声音信号在极短的时间其特性趋向稳定,所有可以使用线性函数来表示在极短时间内的语音信号特性。而整个声音信号又随着时间在进行不断地变化,因此在短时间内的语音信号也是不断变化的,只是变化幅度趋于0。对于短时间内的声音信号线性表示来说,这个线性表示也是不断变化的。将整个声音信号分成的所有短时间线性表示联合起来,就构成了马尔科夫链。隐马尔科夫模型(HiddenMarkovModel)是马尔科夫链的一种,它不可以被直接观测到,需要通过特定的概率密度分布函数来表示。下图2-4为一个具有三个不同状态输入地隐马尔可夫状态模型地状态转移方程图,其中,x表示一个状态隐含的输入状态,y则表示一个状态可以被其他观察者看到的状态输出,a则表示一个状态可以被其他观察者看到的状态输出,b则表示一个输出的概率[20]。图2-4隐马尔可夫模型转换图1.3.3支持向量机(SVM)传统的统计数学所提出的方法大都是建立在众多统计数据量的基础上,才能保证有良好的性能,但是在处理一些样本数据量较少的问题上面,传统统计学方法就会出现问题。支持向量机(SupportVectorMachine,SVM)是在统计学基础上进一步创新发展壮大起来的一种计算技术,因此利用统计学理论SVM可以有效解决样本数据量少,特征维度高和非线性的复杂模式识别问题。SVM主要有多类SVM、最小二乘型SVM、支持向量回归、支持向量聚类、半监督型SVM等。1.3.4深度学习(DL)深度学习(DeepLearning,DL)技术随着机器学习的发展而发展,它使计算机能够自动地从大量的数据中获取和学习其特点并从中分析和提取复杂的信息。早期的机器学习都采用的是简易性和浅层学习的模型,不能够对多层次的网络做出训练。长久以来,这一技术性的问题一直未能真正得到良好研究和解决,直到2006年,深度学习的模型被首次提出,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论