中文翻译.docx

使用MFCC,DTW和KNN的隔离词自动语音识别(ASR)系统【中文4600字】

收藏

压缩包内文档预览:
预览图 预览图 预览图 预览图 预览图 预览图 预览图 预览图 预览图 预览图 预览图 预览图 预览图
编号:9103516    类型:共享资源    大小:1.49MB    格式:ZIP    上传时间:2018-02-28 上传人:闰*** IP属地:河南
13
积分
关 键 词:
使用 mfcc dtw 以及 knn 隔离 自动 语音 识别 辨认 asr 系统 中文
资源描述:
使用MFCC,DTW和KNN的隔离词自动语音识别(ASR)系统【中文4600字】,使用,mfcc,dtw,以及,knn,隔离,自动,语音,识别,辨认,asr,系统,中文
内容简介:
【中文4600字】使用MFCC,DTW和KNN的隔离词自动语音识别(ASR)系统MUHAMMADATIFIMTIAZ电子电气工程学院工程技术学院,TAXILAATIFIMTIAZUETTAXILAEDUPKGULISTANRAJA电子电气工程学院工程技术学院,TAXILAGULISTANRAJAUETTAXILAEDUPK摘要自动语音识别(ASR)系统被定义为将声音语音信号转换为字串。本文提出了一种基于MEL倒谱系数(MFCC),动态时间包络(DTW)和K最近邻(KNN)技术的基于孤立词结构的ASR系统的方法。MELFREQUENCY量表用于捕捉语音信号的重要特征使用MFCC提取语音的特征。DTW用于语音特征匹配。KNN被用作分类器。实验设置包括从五位讲者收集的英语语言。这些话是在声学平衡,无噪音的环境中说出来的。所提出的ASR系统的实验结果是以称为混淆矩阵的矩阵形式获得的。本研究所获得的识别准确率为984。关键词ASRMFCCDTWKNN1简介言语是人类肺部空气中周期性变化的传播。生产和塑造实际声音的责任由人类声带在咽,鼻腔和嘴的帮助下完成。自动语音识别(ASR)系统是在数字设备中自动解释人类语音的过程,并被定义为声学语音信号到单词串的转换。一般而言,所有ASR系统的目标是用来从输入语音信号中提取字符串1。在ASR过程中,输入是语音话语,输出是与给定输入相关联的文本数据形式。ASR系统的性能主要依赖的一些因素是词汇量,训练数据量和系统计算复杂度。ASR有很多应用,如广泛用于家用电器,安全设备,手机,ATM机和计算机。本文介绍了一个用小词汇量词汇进行实验的英语语言ASR系统。本白皮书的其余部分组织如下第II节介绍整体ASR系统概述,ASR系统中使用的主要模块。第三节描述了使用特征提取和分类技术实现ASR系统。第四节讨论了实验装置的简要描述,以及一些实验结果。第五节讨论了结论性意见。IIASR系统概述ASR系统包括两个主要块,即特征提取块和分类块,如图1所示。图1建议的ASR系统设计的框图块的输入是语音,块的输出是文本数据。块的工作如下所述A特征提取块特征提取是ASR系统中最重要的模块之一。在ASR中,语音信号被分成较小的帧,通常为10到25毫秒。由于存在冗余信息,存在于语音信号中。因此,应用重要而有用的信息特征提取技术。这也将有助于减少维度。感知线性预测(PLP)系数,基于小波变换的特征,线性预测系数(LPC),基于小波包特征和MEL频率倒谱系数(MFCC)是ASR广泛使用的特征。本研究中使用MFCC并在第三节详细讨论。B分类块在从语音信号中提取特征之后,将提取的特征提供给分类块用于识别目的。在分类中,输入语音特征向量用于训练已知特征模式,并在测试数据集上进行测试,分类器的性能以百分比识别精度进行评估。在这项研究中,DTW用于特征匹配,KNN用于分类,在第三节中进一步讨论。C数据库在ASR系统中,数据库是一组语音样本。收集这些语音数据样本以说明语言的不同变化方面。选择数据集对于成功进行ASR研究具有重要意义。它提供了一个比较不同语音识别技术性能的平台3。它还为研究人员提供了不同语音识别方面的平衡,即性别,年龄和方言。数据库包含大,中或小尺寸,具体取决于字数。数据可以从书籍,报纸,杂志,讲座和电视广告等来源收集。由于志愿者无法使用以及身份问题,语音数据库不易获取。一些标准的语音数据库可用于少数语言,如BREF法语,TIMIT英语和ATR日语等4。3ASR系统的实现在本节中,将详细讨论特征提取技术MEL的频谱倒谱系数(MFCC),特征匹配技术(DTW)和特征分类技术K最近邻(KNN)的实现和描述。AMEL频率倒谱系数作为频率函数的人类言语本质上不是线性的因此单一频率的声音语音信号的音高被映射为“梅尔”音阶。在梅尔尺度下,低于1KHZ的频率间隔是线性的,高于1KHZ的频率间隔是对数的5。通过使用等式(1)计算对应于赫兹频率的梅尔频率。MEL频率倒谱系数(MFCC)计算的框图如图2所示。图2MFCC计算的框图下面详细描述图2中所示的内部块1)预处理录制的音频信号采样率为16KHZ。每个单词存储在单独的音频文件中。预处理步骤包括预加重信号以提高高频信号的能量。等式(2)给出了预加重滤波器的差分方程。预加重滤波器的输出响应如图3所示。图3预加重滤波器输出2)成帧和开窗语音信号本质上不是固定的。为了使它静止框架使用。成帧是预处理后的下一步在该步骤中,语音信号被分成彼此重叠的较小帧。成帧开窗后用于消除帧边缘的不连续性。本研究中使用的窗口方法是HAMMINGWINDOW。汉明窗由等式(3)定义。其中,N是单个帧中的样本总数。原始信号和窗口信号的输出响应如图4所示。图4原始信号与窗口信号3)快速傅里叶变换(FFT)快速傅立叶变换用于计算信号的离散傅立叶变换(DFT),其中N512的大小已被使用6。执行此步骤将信号转换为频域。使用等式(4)计算FFT。其中,N是FFT的大小。FFT的幅度谱如图5所示。图5快速傅立叶变换幅度谱4)MELFILTERBANK对信号进行FFT后的下一步是从HERTZ到MELSCALE的转换,频谱功率转换为MEL标度7。梅尔滤波器组由三角形重叠滤波器组成,如图6所示5)图6MFCC滤波器组输出6)DELTA能量在这一步中取前一步输出的对数为10的对数。对数能量的计算是必不可少的,因为人耳对声学语音信号电平的响应不是线性的,人耳对振幅在较高振幅处的差异不太敏感。对数函数的优点是它倾向于重复人耳的行为。能量计算使用等式(5)计算。能量计算图如图7所示。图7信号记录能量输出7)离散余弦变换(DCT)采用离散余弦变换(DCT)后取对数的梅尔滤波器组的输出。它最终产生MEL频率倒谱系数。在这个单独的词的研究中,取出了39个三维特征,即12MFCC(梅尔频率倒谱系数),一个能量特征,一个三角洲能量特征,一个双三角洲能量特征,12DELTAMFCC特征和12双DELTAMFCC功能。等式(6)定义N点DCT8。单个单词的MFCC图形如图8所示。图8单字的MFCCB分类和识别在确定系统特别是ASR系统的性能时,分类器的作用非常显着。在这项研究中,动态时间规整(DTW)和K最近邻已被用于语音特征匹配和分类。DTW测量两个时间序列中的相似性,这两个时间序列在时间或速度上有所不同。为了优化两个时间序列之间的相似性,在DTW的编程中考虑了动态方法。对于连续语音识别情况,隐马尔可夫模型(HMM)和人工神经网络(ANN)被认为适用于分类。人工神经网络有复制人类大脑活动的趋势。人工神经网络由一组相互连接的神经元组成。在人工神经网络中,产量是通过计算输入加权和的乘积来衡量的。最流行的连续语音识别分类技术之一是隐马尔可夫模型(HMM)。它基本上是统计分类技术,并在存在两个随机变量的情况下对时间序列进行建模9。建议研究侧重于基于单词结构的单词的ASR,并且不需要任何语言模型。在这项研究中,动态时间包络(DTW)和K最近邻(KNN)技术已被用于基于MFCC的特征匹配和分类。分类步骤包括两个阶段I)预热II)测试结果和百分比识别准确性以混淆矩阵的形式获得。下一节将进一步讨论DTW和KNN。1)动态时间包络(DTW)DTW算法计算是考虑在两个时间序列中测量接近度,这可能会在时间和速度上发生变化。如果一个时间安排可能通过延长或缩短它的时间枢纽而非直线地包裹,那么比较就是根据两个时间安排的位置来衡量的。可以进一步利用两次布置中的包裹来发现两个时间布置中的相关区域或聚焦两个时间布置之间的接近度。数字上,DTW比较两个时间布置的模式并借助于最小距离公式来测量它们之间的相似性。考虑具有长度N和M的两个时间序列P和Q,即在时间序列P和Q中,矩阵的第I和第J个分量包含两个矩阵点PI和QJ10中的距离D(PI,QJ)。然后使用欧几里得距离公式,在等式(7)中测量两点之间的绝对距离。每个矩阵元素I和J属于点PI和QJ中的对齐。然后,使用等式(8)计算累积距离。2)K最近邻(KNN)本研究中KNN分类器的工作如下。KNN方法包括分配特征空间中距离给定分数最近的特征向量的索引。来自DTW的最低得分指数以KNN方法处理。将当前特征融合到特征空间的各个特征上。KNN返回多个特征,但这些特征来自特征空间。KNN返回的模式特征提供最常见的特征在于它将成为认可的词图9KNN的流程图3)混淆矩阵为了检查系统的效率,即识别准确度和误差百分比,形成混淆矩阵。在N个字的情况下,它将包含NN矩阵。在混淆矩阵的所有对角线条目中,状态AIJ对于IJ,表明了一个单词I没有正确匹配的时间11。类似地,非对角条目,对于IJ,状态AIJ表示单词I与单词J相混淆的次数A11A12A13A1NA21A22A23A2NA31A32A33A3NAN1AN2AN3ANN4)百分比误差为了检查整个系统的性能,错误百分比的计算非常重要,它以混淆矩阵的形式进行计算。为此,测试一个单独的单词并检查它成功识别了多少次,并在第I行的对角线条目中声明。百分比是通过成功除以条目总数除以计算的。因此,对于特定的词,正确匹配C和百分比误差E可以如等式(9)和(10)中那样表示。从混淆矩阵得到的结果在第四节中进一步讨论。4实验结果与讨论这些实验是在一个小型的英语词汇上进行的。该设置包括从五个不同的说话人说出的话。这些话是在声学平衡,无噪音的环境中说出来的。在MATLABR2014B的帮助下分析了实现和实验结果。ASR的测试和训练结果是以称为混淆矩阵的矩阵的形式获得的,如图10所示。图10词的混淆矩阵图在混淆矩阵图的图10中,X轴和Y轴显示词的索引。Z轴显示高度,即显示总次数,单个单词被成功识别或与任何其他单词混淆。对角线插槽显示高度为成功识别率。在这种情况下,最大可能达到的高度是200在这种情况下,一个单词被测试的总次数是200表I中总结了正确匹配C和错误E的值。表I词的识别和错误百分比词汇正确匹配的价值C识别精度错误1CX100“DARK”098982“WASH”099991“WATER”099599505“YEAR”097597525“DONT”097973“CARRY”099599505“GREASY”098982“LIKE”098598515“OILY”097597525“THAT”099599505累计平均098498416表1描述了数据集的识别和错误率。首先对每个单词进行单独评估,然后计算数据集的累积平均值。作为测试ASR系统的结果,以混淆矩阵的形式获得数据。上述数据集的累计平均成功率为984,错误率为16。5总结拟议的ASR系统研究描述了MFCC,DTW和KNN技术。特征的提取使用MFCC来执行,DTW用于语音特征匹配并且KNN用于分类。KNN处理从DTW获取的最低分数索引。实验结果以混淆矩阵的形式得到。在整个研究过程中观察到,当MFCC,DTW和KNN联合使用时,所提出的ASR系统显示出良好的识别性能。本研究所获得的识别准确率为984,误差为16。参考1JMGILBERT,SIRYBCHENKO,RHOFE,SRELL,MJFAGAN,RKMOORE,PGREEN,“使用磁性植入物和传感器的沉默言语的孤立词识别”,INTERNATIONALJOURNALOFMEDICALENGINEERINGANDPHYSICS,VOL。32,第11891197页,2010年8月。2VIMALAC和DRVRADHA“语音识别挑战和方法综述”计算机科学与信息技术杂志(WCSIT)的世界ISSN22210741VOL。2,第1号,第17页,2012年。3JCLEAR和NOSTLERSATKINS,“语料库设计标准”,OXFORDJOURNALOFLITERARYANDLINGUISTICCOMPUTING,VOL。7,没有。1,PP116,1992。4LFLAMEL和MESKENAZIJLGAUVAIN,“第一届国际口语语言处理会议,ICSLP,1990年,第10971100页,”BREF的设计考虑和文本选择,大型法语阅读语料库“。5MMURUGAPPAN,NURULQASTURIIDAYUBAHARUDDIN,JERRITTAS“基于LDA和MFCC的基于人类情绪语音分类的LDA”国际生物医学工程会议(ICOBE),槟城,2012年2月2728日,第203206页。6MICHAELPITZ,RALFSCHLUTER和HERMANNNEYSIRKOMOLAU,“在功率谱上计算MEL频率倒谱系数”,2001年IEEE国际声学,语音和信号处理会议,2001年。会议录。(ICASSP01),美国,2001年,第7376页。7IBRAHIMPATEL和YSRINIVASRAO博士“使用HMM进行语音识别,使用频谱分解技术进行MFCCAN分析”SIGNALIMAGEPROCESSINGANINTERNATIONALJOURNAL(SIPIJ)VOL1,NO2,PP101110,2010年12月。8AMILTON,SSHARMYROY,STAMILSELVI“用于MFCC特征的语音情感识别的SVM方案”国际计算机应用杂志(09758887)第69卷第9期第3439页,2013年5月。9AREGGBAGHDASARYAN和AA(LOUIS)BEEX“AUTOMATICSEGMENTATIONWITHSEGMENTALHIDDENMARKOVMODELS”IEEE2011CONFERENCEONSIGNALS,SYSTEMSANDCOMPUTERS,ASILOMAR,2011,PP569574。1
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
提示  人人文库网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
关于本文
本文标题:使用MFCC,DTW和KNN的隔离词自动语音识别(ASR)系统【中文4600字】
链接地址:https://www.renrendoc.com/p-9103516.html

官方联系方式

2:不支持迅雷下载,请使用浏览器下载   
3:不支持QQ浏览器下载,请用其他浏览器   
4:下载后的文档和图纸-无水印   
5:文档经过压缩,下载后原文更清晰   
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

网站客服QQ:2881952447     

copyright@ 2020-2025  renrendoc.com 人人文库版权所有   联系电话:400-852-1180

备案号:蜀ICP备2022000484号-2       经营许可证: 川B2-20220663       公网安备川公网安备: 51019002004831号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知人人文库网,我们立即给予删除!