典型简单匹配语音识别方式技术研究_第1页
典型简单匹配语音识别方式技术研究_第2页
典型简单匹配语音识别方式技术研究_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、典型简单匹配语音识别方式技术研究范崇山陈新伟罗智荣刘乐林秋文【摘要】本文从人类语言交流系统模型中获取思路,重点研究小词汇量、词语间相互独立的基于简单模板匹配工作原理的语音识别模式。本文在语音识别的预处理、特征提取等环节深入讨论,并进行了一系列仿真实验对典型简单模板匹配语音识别方式中的使用技术如:语音信号模型的建立、窗函数等做出清晰地说明。【关键词】语音识别;简单模板匹配;预处理;特征提取1语音识别技术原理语音识别是为了让机器“懂我们的语言,准确无误地识别出我们发出语音内容,并且做出符合语音内容的一系列动作,执行我们的意图。分析人类语言交流通信的过程,可以启发我们的研究思路。对人类语音通信流程1

2、-2分析如图1。由人类语音通信流程框图可以看出,人类发出语音过程如图左半局部,语音理解过程如图右半局部。语音识别包括两种含义,一是:将人类说的话转换成文字,二是:在充分理解口述语音的根底上,不仅仅是将语音转换为文字信息,而且对语音内容也要作出正确响应【3】。在此,本文认为语音识别和语音理解意义等同,所以可用图1右侧局部流程可将语音识别过程。目前语音识别技术应用中大局部都是小词汇量,词语间相互独立基于简单模板匹配工作原理的识别模式。针对这种典型的语音识别模式,原理流程路线图【4】如图2所示:1.1基于发音模型的语音信号产生模型语音信号的产生是语音识别技术的基石,在语音信号处理的大局部过程中对语音

3、信号产生模型有很强的依赖性。本文研究过程中,首先对人类发音过程进行了解:人类发音流程是首先肺部收缩,迫使气流通过声门和声道引起音频震荡产生【3】。根据人的声道三种不同鼓励方式,分别对应产生了三种被大家熟知的发音类型,分别是浊音,摩擦音或清音,爆破音。语音信号可看做由线性系统受到鼓励信号的鼓励输出产生。如图3是基于发音模型的语音信号产生模型流程图:如图3建立的语音信号产生模型中认为浊音是周期为N0的冲激信号,且N0=fs/F0其中F0是基音频率,fs是采样频率。清音认为是一个均值为0,幅值是正态分布的波形信号。参数Av,Au分别用来调节浊音和清音的幅值。从已有语音识别技术研究结果可知,窗函数类型

4、众多,使用不同形式的窗函数对短时分析处理语音信号结果有很大的影响。目前应用最广泛的窗函数是汉明窗,结合仿真实验分析可以看出:高斯窗函数的横向主瓣宽度最小,但其纵向旁瓣高度最高;汉明窗函数的横向主瓣宽度最宽,纵向旁瓣高度是三种窗函数中最低的。2.3端点检测语音信号的起始点是语音信号处理的关键分界点,端点检测的目的就是找到连续语音信号中的信号起始点。常用的端点检测方法有两种,分别是短时平均能量和短时过零率【6】。当下流行的端点检测方法是短时平均能量和短时过零率两者的结合,称这种方法为双门限端点检测算法【7】。在实际问题中通常采用两者结合解决问题。本文同样是采用两者结合的方法,利用短时过零率方法检测

5、语音信号波形穿越零电平的次数,既代表的是清音;用短时平均能量方法计算第y帧语音信号的短时平均能量Ey,既代表的是浊音,进而实现可靠的端点检测。3特征提取目前特征是语音信号预处理中的重要步骤。在实际特征提取中,较常采用的参数是线性预测倒谱系数LPCC和Mel倒谱系数MFCC。二者采用的均是时域转换到倒谱域上,但是出发思路两者不同。线性预测倒谱系数LPCC以人类发声模型为根底,采用线性预测编码LPC技术求倒谱系数;Mel倒谱系数MFCC以人类听觉模型为根底,通过离散傅利叶变换DFT进行变换分析。其中k表示第k个滤波器,Hmk表示第k个mel滤波器组,fm为中心频率,m=1,2,K,K表示滤波器个数

6、。经过仿真实验分析比较,可以分析得出Mel倒谱系数MFCC参数较线性预测倒谱系数LPCC参数的优点,优点如下:1语音低频信号是语音信息的聚集区,高频信号相对低频语音信号更容易受到周围环境等的干扰。Mel倒谱系数MFCC将线性频标转化为Mel频标,强调语音的低频信息,从而突出了有利于识别的信息,屏蔽了噪声的干扰8。LPCC参数是基于线性频标的,所以没有这一特点;2MFCC参数无任何假设前提,在各种语音信号预处理情况下均可使用,但是LPCC参数首先假定所处理的语音信号是AR信号,对于动态特性较强的辅音,这个假设并不严格成立8;3MFCC参数提取过程中需要经过FFT变换,我们可以顺便获得语音信号频域

7、上的全部信息,不需要多花费时间处理,有利于端点检测、语音分段等算法实现8。4训练与识别训练和识别是语音识别的中心内容,有很多专家学者研究了一系列成果。语音识别实质是模式匹配的过程,而对分类器和分类决策的设计9又是模式匹配的核心。在现有的分类器设计10-11中,经常使用的有:动态时间规整DynamicTimeWarping,DTW分类器、基于人工神经网络ArtificialNeuralNetworks,ANN分类器、基于高斯混合模型GMM分类器、基于Bayes规那么的分类器、基于HMM分类器12等。本文重点讨论语音信号预处理中技术及实现,对训练和识别技术不再做研究描述。【参考文献】【1】尹岩岩.

8、基于语音识别与合成的低速率语音编码研究D.上海师范大学,2021.【2】張伟伟.通信系统中语音质量评价的研究D.北京邮电大学,2021.【3】朱淑琴.语音识别系统关键技术研究D.西安电子科技大学,2021.【4】王伟臻.基于神经网络的语音识别研究D.浙江大学,2021.【5】钟林鹏.说话人识别系统中的语音信号处理技术研究D.电子科技大学,2021.【6】周刚,周萍,杨青.一种简单的噪声鲁棒性语音端点检测方法J.测控技术,2021,02:31-34.【7】薛胜尧.基于改进型双门限语音端点检测算法的研究J.电子设计工程,2021,04:78-81.8惠博.语音识别特征提取算法的研究及实现D.西北大学,2021.9张宁.基于决策树分类器的迁移学习研究D.西安电子科技大学,2021.10汪云云.结

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论