语音识别方法及发展趋势分析_第1页
语音识别方法及发展趋势分析_第2页
语音识别方法及发展趋势分析_第3页
语音识别方法及发展趋势分析_第4页
语音识别方法及发展趋势分析_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、- -语音识别改进方法及难点分析"模式识别"结课小论文学院:化工与环境学院学号:212021 1177XX:杜妮摘要:随着计算机技术的不断开展,人工智能程度也越来越高,作为人工智能的一局部模式识别也在模型和算法上愈发成熟。本文根据近105年文献,分析最新声音识别的方法和应用。关键字:模式识别声音识别方法应用随着人工智能的迅速开展,语音识别的技术越来越成为国内外研究机构的焦点。人们致力于能使机器能够听懂人类的话语指令,并希望通过语音实现对机器的控制。语音识别的研究开展将在不远的将来极大地方便人们的生活。语音识别大致的流程包括:特征提取、声学模型训练、语音模型训练以及识别搜索算

2、法。作为一项人机交互的关键技术,语音识别在过去的几十年里取得了飞速的开展,人们在研究和探索过程中针对语音识别的各部流程进展了各种各样的尝试和改造,以期发现更好的方法来完成语音识别流程中的各步骤,以此来促进在不同环境下语音识别的效率和准确率。本文通过查阅近10年国内外文献,分析目前语音识别流程中的技术进展和趋势,并在文章最后给出几项语音识别在日常生活中的应用案例,从而分析语音识别之后的市场走势和实际利用价值。一、语音识别的改进方法(一) 特征提取模块改进特征提取就是从语音信号中提取出语音的特征序列。提取的语音特征应该能完全、准确地表达语音信号,特征提取的目的是提取语音信号中能代表语音特征的信息,

3、减少语音识别时所要处理的数据量。语音信号的特征分析是语音信号处理的前提和根底,只有分析出可以代表语音信号本质特征的参数,才能对这些参数进展高效的语音通信,语音合成,和语音识别等处理,并且语音合成的好坏,语音识别率的上下,也都取决于语音特征提取的准确性和鲁棒性。目前,针对特定应用的中小词汇量、特定人的语音识别技术开展已较为成熟,已经能够满足通常应用的要求,并逐步投入了实用。而非特定人、大词汇量、连续语音识别仍是目前阶段语音识别研究的重点和难点【1】。由于考虑到人耳的听觉特性, Mel 倒谱系数或感知线性预测系数【2】已经成为目前主流的语音特征向量提取方法之一,加上它们的一阶、二阶差分以及对特征向

4、量进展归一化处理以后,在大词汇量连续语音识别问题上取得不错的结果。语音识别技术中最流行的特征参数时基于声道模型和听觉机理的LPCC(LinearPredictive Cepstral Coeficients)和MFCC(Mel Frequency Cepstralcocficients)参数,而MFCC在低频段具有较高的谱分辨率,对噪声的鲁棒性优于LPCC,更适合语音识别。但与人听觉系统非凡的感知能力比较,不管是LPCC还是MFCC参数,在不利的噪声环境下,其鲁棒性都会急剧下降。如何在特征提取过程中抽取保持语音信号最重要的特征参数,成为一个急需解决的问题。对语音识别实际应用过程中的噪声问题,付

5、丽辉给出了一种新的抗噪声的特征提取算法,即先利用小波变换将语音信号进展小波子带分解,再根据人耳的听觉掩蔽效应,由谱压缩的技术,将小波变换后的子带语音信号进展压缩,从而提取其对应的语音特征。通过MATLAB软件建立实验平台,仿真实验结果说明该语音特征可以在噪声环境下得到较高的识别率。新的特征参数即充分利用了小波的抗噪声特性又有效地降低了语音识别中的训练环境和识别环境间的失配,具有抗噪声的特点【3】。为抑制FIR滤波器存在的通阻带特性差、滤波器阶次高等缺点给语音识别系统带来的不利影响,黄丽霞等人采用Laguerre滤波器组代替过零峰值幅度特征提取中使用的FIR滤波器组进展前端处理。在仔细研究FIR

6、滤波器参数确定方法的根底上,详细介绍了La-guerre滤波器原理及参数计算方法,并给出了计算结果。孤立词、非特定人语音识别实验结果说明,使用Laguerre滤波器不仅使识别系统抗噪性能优于使用FIR滤波器,而且滤波器阶数也大为下降【4】。陈斌等人提出了一种基于最小分类错误(Minimum classification error,MCE)准那么的线性判别分析方法(Linear discriminant analysis, LDA),并将其应用到连续语音识别中的特征变换。该方法采用非参数核密度估计方法进展数据概率分布估计;根据得到的概率分布,在最小分类错误准那么下,采用基于梯度下降的线性搜索算

7、法求解判别分析变换矩阵。利用判别分析变换矩阵对相邻帧梅尔滤波器组输出拼接的超矢量变换降维,得到时频特征。实验结果说明,与传统的MFCC特征相比,经过本文判别分析提取的时频特征其识别准确率提高了1。41%,相比于HLDA(Heteroscedastic LDA)和近似成对经历正确率准那么(Approximate pairwise empirical accuracy criterion,aPEAC)判别分析方法,识别准确率分别提高了1.14%和0.83%【5】。(二) 声学模型训练改善声学模型是语音识别系统的底层模型,是语音识别系统中最为关键的一局部。其目标就是提供一种有效的方法,计算语音的特征

8、矢量序列和每一个发音模板之间的距离。传统的声学建模方式大都基于隐马尔科夫框架,采用混合高斯模型Guassian mixture model,GMM来描述语音声学特征的概率分布。针对传统的“隐马尔科夫模型-高斯混合模型声学模型,目前常用的解决方案有: 构造化协方差矩阵/精度矩阵建模方法【6】,即假设不同协方差矩阵或其精度矩阵由假设干个低秩(通常是秩为1 的) 基矩阵的线性叠加得到,各高斯混元通过某种方式共享一组一样的基矩阵;本征三音子(Eigentriphone) 建模方法【7】,将上下文相关状态进展聚类,将每一类状态的均值矢量限定在一个线性子空间中,通过估计子空间中的低维坐标矢量来重构状态的均

9、值矢量,从而得到更为准确的参数估计;子空间高斯混合模型(Subspace Gaussian mixture model, SGMM)【8】,将高斯混元的均值和权重限制在一个全局参数子空间中,因此每一个状态可以用一个或假设干个低维参数子空间中的矢量来表示,从而提高模型参数估计的稳健性。与传统的高斯混合模型相比,SGMM 声学模型大大压缩了模型尺寸,并且可以利用集外数据对参数子空间进展估计,因此特别适用于训练数据量受限条件下的语音识别【9】。X文林等人提出从语音信号声学特征空间的非线性流形构造特点出发,利用流形上的压缩感知原理,构建新的语音识别声学模型。将特征空间划分为多个局部区域,对每个局部区域

10、用一个低维的因子分析模型进展近似,从而得到混合因子分析模型。将上下文相关状态的观测矢量限定在该非线性低维流形构造上,推导得到其观测概率模型。最终每个状态由一个服从稀疏约束的权重矢量和假设干个服从标准正态分布的低维局部因子矢量所决定。基于RM 语料库的连续语音识别实验说明,相比于传统的高斯混合模型(Gaussian mixture model,GMM) 和子空间高斯混合模型(Subspace Gaussian mixture model, SGMM),新声学模型在测试集上的平均词错误率(Word error rate,WER) 分别相对下降了33。1% 和9。2 %【10】。由于隐马尔科夫属于典

11、型的浅层学习构造,仅含单个将原始输入信号转换到特定问题空间特征的简单构造,而目前识别挑战越来越严峻,在大量的数据下其性能将会受到限制。随着人工智能的进一步开展,人们开场利用人工神经网络artificial neural network,ANN来模拟人类大脑存储及处理信息的相应模型。目前,微软、IBM、Goolge等许多国际知名语音研究机构都投入了大量的经历开展深层神经网络的研究。近年来,微软利用上下文相关的深层神经网context dependent deep neural network,CD-DNN进展声学模型建模,并在大词汇连续语音识别上取得相对于经鉴别性训练HMM系统有句错误率相对下降

12、23.2%的性能改善,掀起了深层神经网络在语音识别领域的热潮【11】。为了抑制经典语音识别建模方式在大数据环境下的局限性,X晴晴等人提出利用卷积神经网络来完成海量数据下的语音识别。她提出,音识别中,卷积神经网络( Convolutionalneural networks, Ns)相比于目前广泛使用的深层神经网络(deep neural network,DNNs),能在保证性能的同时,大大压缩模型的尺寸。她在文章中深入分析了卷积神经网络中卷积层和聚合层的不同构造对识别性能的影响情况,并与目前广泛使用的深层神经网络模型进展了比照。在标准语音识别库TIMIT以及大词表非特定人自然口语对话数据库上的实

13、验结果证明,相比传统深层神经网络模型,卷积神经网络明显降低模型规模的同时,识别性能更好,且泛化能力更强【11】。(三) 语音模型训练改进随着语音识别技术的不断开展,语言模型在语音识别中的作用也显得越来越重要。由于声学信号的动态时变、瞬时和随机性,单靠声学模式的匹配与判断不可能完成语音的无误的识别和理解。一些较高层次的语言知识的利用可以在声学识别的层次上减少模式匹配的模糊性,从而提高识别的准确性。并且一个大词汇量连续语音识别系统必须在每一时刻检测是否遇到语音发音边界,这样许多不同的字或词将会从不同的语音流中识别出来。为了消除这些字或词之间的模糊性,语言模型是必不可少的。语言模型可以提供字或词之间

14、的上下文信息和语义信息。语言模型不仅用在语音识别系统中,而且可以用在机器翻译、信息检索等研究领域【13】【14】。基于隐马尔科夫模型的参数语音合成系统,在采用线谱对参数表征语音频谱特征时,传统MGE训练中使用的欧氏距离生成误差计算方法并不能较好地反映生成频谱与自然频谱之间的真实距离。因此雷鸣等人提出一种基于感知加权线谱对(Line Spectral Pair,LSP)距离的最小生成误差(Minimum Generation Error,MGE)模型训练方法,采用与谱参数无关的对数谱间距(Log Spectral Distortion,LSD)定义的生成误差函数来改善这一问题,但改进后主观效果不

15、明显,且运算复杂度很高【15】。为了抑制语音身份确认中语音分割、特征提取和鲁棒性差的困难,X秉诚等人在深入分析叩齿声音波形特性后,提出一种了一种利用叩齿声音进展身份确认的方法这种方法使用二阶微分方程建立齿震动发声的近似模型,以此为根底提出基于叩齿声音信号的身份确认方法。经过实验证明,叩齿声音信号稳定性强,处理复杂度低于声纹信号,应用于身份识别性能优良。该方法和经典的支持向量机、最近邻算法相比,运算量低,所需训练样本少。【15】(四) 识别搜索算法改进搜索就是在由语句构成的空间当中,按照一定的优化准那么,寻找最优句子的过程,也就是利用已掌握的知识声学知识、语音学知识、词典知识、语言模型知识以及语

16、法语义知识等,在状态指的是词组、词、建模单元或HMM 的状态空间中找到最优的状态序列。近年来,由于信息技术和互联网技术的飞速开展,人们越来越多地利用嵌入式便携设备作为获取信息的工具。而语音识别技术作为自然方便的人机交互手段,也已经应用于越来越多的嵌入式设备上。但是由于嵌入式设备的系统资源配置与PC有着很大的不同,其对计算复杂度和内存消耗有着更为苛刻的限制,尤其是嵌入式设备为满足其低功耗一般都采用尽可能小的动态内存。所以一些较成熟的PC上的语音识别任务往往受限于嵌入式设备自身有限的计算能力和存储量。【17】目前世界上主流的语音识别系统根本是采用HMM框架。基于HMM的语音识别系统通常由声学模型、

17、发音词典、搜索空间、搜索算法模块组成。其中搜索算法是决定系统性能的关键,它决定了如何使用各种资源,而搜索算法又和搜索空间密不可分,搜索空间的构造不仅本身影响着内存的占用,而且也影响着搜索的效率。传统的状态树搜索算法18是让每个词条通过查找发音字典取得音素序列,音素序列根据声学模型里面的决策树19得到相应的音素状态序列。状态搜索树的合并策略是如果两个单词的音素状态序列前缀一致,合并一样的局部,虚节点不允许合并。解码搜索过程中采用基于时间同步的令牌传递(token passing)算法20。开场识别时在root节点放置一个初始令牌(token),之后每来一帧语音数据,在已有的搜索空间中按其拓扑顺序

18、进展令牌传递,每一个令牌记录识别得分并且包括回溯信息。识别过程中为了加快搜索速度,采用动态束剪枝搜索算法21仅使得分较高的令牌继续传递;识别完毕时从词尾节点处取得得分最高的令牌并将其回溯,即可得到首选识别结果。邵健等于提出了一种新的高效的树搜索算法,即在原有的基于状态音素搜索树中合并没有分枝的连续的单儿子节点序列成一个节点,称之为超音素节点,超音素节点需要保存被合并的多个节点的状态信息,用状态音素序列来表示。对于SP节点和词标示节点这两类特殊节点同样不作合并。实现了基于超音素搜索树的词条动态添加和删除功能,使得内存占用减少为状态树搜索的40%【22】。2021年蔡塔等人提出了嵌入式语音识别中一

19、种高效的图搜索算法,通过别离声学层和词法层来构建2层图搜索空间,其中声学层记录声学模型相关信息,词法层记录词表语法信息.利用这样简洁的搜索空间可以使语音识别的解码过程更加紧凑有效.实验结果说明,与基线系统相比,所提出的双层图搜索算法在系统解码速度相对提高10%的情况下,系统的动态内存占用仅为基线的8%.【23】二、语音识别的开展分析语音识别的应用范围极为广泛,可应用于各行各业,如医疗卫生效劳、语音拨号、智能玩具、智能家居、宾馆效劳、军事监听、股票交易、翻译系统、汽车导航、信息网络查询、工业控制等等。语音识别广泛涉及声学、语言学、语音学、生理科学、数字信号处理、通信理论、电子技术、计算机科学、模

20、式识别和人工智能等众多学科【24】。虽然语音识别近30年内得到了极大地开展,也取得了较为广泛的应用,但应该看到,语音识别依然存在很多问题需要我们解决:(一) 语音识别难点问题分析语音识别还做不到使机器能如同人类一样能“听懂或理解自然语言,像人与人之间的语言交流一样。主要原因是目前研究工作进展缓慢,主要技术理论没有突破。虽然各种新的修正方法不断出现,但其普遍性和实用性还存在问题。具体的来说有如下:l、语音识别系统的鲁棒性差,对环境依赖严重;2、语音识别系统的灵活性差,不能适应人类灵活、自然的说话方式;3、连续语音流中语音信号的声学特征随与之前后相连的语音的不同而有很大的变化,且各语音单位之间不存

21、在明显的界限,语音切分很困难;4、语音特征变化大。语音特征随发音人的不同、发音人生理或心理状态的变化而有很大的差异;5、语音的模糊性,同音词大量而普遍存在;6、对韵律信息的利用缺乏;韵律信息指的是说话之中的重音、语调等超音段信息;如何在语音识别中结合韵律信息还有待进一步的研究;7、自然语言的多变性难以借助于一些根本语法规那么进展描述,语法、语义规那么定义困难。(二) 汉语语音识别特点与难点分析对于汉语语音识别来说除具有一般语音识别的特点外,还有其独特的方面,因为:1、汉语字以单音节为单位,发音时间短,不像英语以多音节为主;2、汉语有大量的同音字;汉语由60个左右的声母和韵母组成40多个无调音节

22、和1200多个有调音节,音节与音节之间相似性大、易混淆;3、中国民族众多,不同地区之间发音变化很大,方言多;4、汉语的字词不分使得词的切分成为汉语语言理解与处理独有和首要的问题;5、灵活自由的语言表述难以用汉语语言知识表示方法来表达。技术效劳于生活,生活产生需要,需要又将进一步反作用于技术开展。根据对目前语音识别的技术困难分析,想必语音识别领域未来将针对以上种种语音识别中存在的困难和壁垒,做出新的成果。参考文献【1】. 王炳锡,屈丹,彭煊,"实用语音识别根底"M国防工业2005年1月,5657【2】. Dahl G E,Yu D。context-dependent pre-

23、trained deep neutral networks for large-vovabulary speech recognition。 IEEE Trans Audio Speech Lang Process,2021,201:30【3】. 付丽辉 抗噪声的小波谱压缩特征提取算法在语音识别中的应用。J。量子电子学报。第4期。2021【4】. 黄丽霞,X雪英Laguerre滤波器在抗噪语音识别特征提取中的应用J。计算机工程与应用。第四期。2021【5】. 陈斌等。基于MCE准那么的语音识别特征线性判别分析J。自动化学报。第40卷第6期。2021年6月。【6】. Povey D, Burge

24、t L, Agarwal M, Akyazi P, Kai F, GhoshalA, Glembek O, Goel N, Kara¯µat M, Rastrow A, Rose RC, Schwarz P, Thomas S。 The subspace Gaussian mixturemodel a structured model for speech recognition。puter Speech & Language,2021, 25(2): 404-439【7】. Ko T, Mak B。 Eigentriphones for context-depen

25、dent acoustic modeling。 IEEE Transactions on Audio, Speech, andLanguage Processing,2021, 21(6): 1285-1294【8】. Olsen P A, Gopinath R A。 Modeling inverse covariance ma-trices by basis expansion。 IEEE Transactions on Speech and Audio Processing, 2004, 12(1): 37-46【9】. Qi J, Wang D, Tejedor J。 Subspace

26、models for bottleneckfeatures。 In: Proceedings of the 14th Annual Conference ofthe International Speechmunication Association。 Lyon,France: ISCA,2021。 1746-1750【10】. X文林。基于声学特征空间非线性流形构造的语音识别声学模型【J】,自动化学报。第41卷第5期,2021 ,12【11】. Dahl G E,Yu D。context-dependent pre-trained deep neutral networks for larg

27、e-vovabulary speech recognition。 IEEE Trans Audio Speech Lang Process,2021,201:30【12】. X晴晴。卷积神经网络的连续语音识别J。工程科学学报。第37卷,第9期,1212-1217,2021 年9月【13】. Croft ,W。B。and J 。Lafferty ,Language Modeling forInformatioanRetrieval M 。2003 :Kluwer-AcademicPublishers【14】. Ney , H 。, One decade o f statistical machi

28、ne translationn:1996-2005 C / IEEE Workshop on AutomaticSpeech Recognition and Understanding (Asru ),2005 :2-2。【15】. Lei Ming。Minimum Generation Error Training Based on Perceptually Weighted Line Spectral Pair Distance for Statistical Parametric Speech Synthesis。J。2021:Pattern Recognition and Artificial Int

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论