已阅读5页,还剩14页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
武汉工程大学(硕、博士)研究生试卷本 考试课程名称 信号分析与处理 考 试 考 查 学 科 专 业 检测技术及自动化装置 学 号 201104025 姓 名 金璐 题目序号12345678910总计评卷教师各题分数基于DTW的孤立词语音识别方法研究1 绪论随着计算机技术的飞速发展,电脑己经走入千家万户,给人类带来了无穷的便捷。与此同时,人们对计算机的智能化要求也越来越高,当然最突出的需求体现在人机接口上。如果能实现人机之间的直接对话,让“机器”听懂人的语言,并根据其信息去执行人的意图,那么这无疑是最理想的人机智能接口方式,因此语音识别作为一门极具吸引力的学科应运而生,很多专家指出语音识别技术将是未来十年信息技术领域十大重要的科技发展技术之一。1.1 研究背景及意义语言在人类的的智能组成中充当着很重要的角色,人与人之间的交流和沟通大部分是通过语言的方式有效的完成。作为人与人之问交流最方便、自然、快捷的手段,人们自然希望它成为人与计算机交流的媒介。随着数字信号处理及计算机科学的飞速发展,人们对实现人机对话产生越来越迫切的要求,使得语音识别技术近年来得到了迅速的发展,语音识别技术的研究进入了一个比较成熟的时期。语音识别是一门交叉科学,它综合了声学、语言学、语音学、生理科学、数字信号处理、通信理论、电子技术、计算机科学、模式识别和人工智能等众多学科。也是人机交互最重要的一步。1.2 语音识别的国内外研究现状通过语音传递信息是人类最重要,最有效,和最方便的交换信息的形式,语音识别主要指让机器转达人说的话,即在各种情况下,准确的识别出语音的内容,从而根据其信息,执行人的各种意图。广义的语音识别包括说话人的识别和内容的识别两部分。这里所说的语音识别,是指内容识别方面。采用计算机进行语音识别到现在已经发展了50年。从特征参数上改进,采用各种办法进行语音增强是一个研究方向,但是到目前为止,还没有一种办法能把语音信号完美地从噪音环境提取出来。语音识别有广泛的商业化运用前景,主要可以分为通用场合和专用场合两个方面。1.3研究内容本文研究的主要内容是结合模式识别的基本理论,研究DTW孤立词语音识别的问题,实现0-9共10个数字的模式匹配及识别。分析了语音信号的预处理,特征提取及DTW算法实现。2 语音识别技术2.1 语音识别系统结构孤立词语音识别是对特定的不连续的词语作为处理单元。语音识别系统的基本组成一般可以分为预处理模块、特征值提取模块及模式匹配三个模块。如图2.1所示为语音识别系统结构框图。样本语言预加重加窗分帧端点检测特征提取DTW模式匹配待测语音预处理特征匹配识别结果图2.1 语音识别系统结构框图从图2.1的系统整体架构可以看到,建立基于DTW的语音识别系统可分为两个阶段,即训练阶段和识别阶段。首先由用户通过麦克风输入语音形成原始语音,然后系统对其进行预处理。预处理包括预加重,加窗分帧和端点检测三个过程。系统的前端采用了端点检测,目的是在一段语音信号中确定起点和终点。在特征提取部分,本系统采用了MFCC作为特征参数,用于有效地区分不同的说话人。在训练阶段,通过说话人多次重复语音,本系统从原始语音样本中去除冗余信息,提取说话人的特征参数并存储,在此基础上建立了参考模板和说话人模型。在识别阶段,待测信号与参考模板中进行模式匹配, 经过一定的相似性准则得出识别结果。2.2 语音信号预处理图2.2是语音信号的预处理的流程图。从图2.2可以看到预处理模块包括预加重,加窗分帧和端点检测。前级预加重、加窗分帧及端点检测是语音识别的准备工作,每一个环节对整个识别系统的性能有着重要的影响。前级预处理主要是对信号进行一定的滤波和分帧;加窗分帧就是将语音信号进行分段处理,使语音信号连续并保持一定的重叠率:端点检测是确定语音有用信号的起始点与终止点,并通过一定的手段处理,将没有意义的语音信号去除,从而减少语音匹配识别模块的运算量,同时也可以提高系统的识别率。预处理不合理或语音起止点及终止点判别不够准确都会使后续的特征矢量提取及模式匹配过程等工作受到很大的影响,甚至达不到语音识别的效果,因此预处理工作作为语音识别的第一步工作,必须达到所需的要求,为下一步的特征参数提取做好铺垫。开始预加重 a=0.95分帧,汉明窗处理端点检测,确定起止点语音结束?读取下一帧信号特征参数提取 MFCC为尾帧?读取下一帧信号模式匹配 DTW算法识别结束NO YESNO YES图2.2 语音信号预处理流程图2.2.1 语音信号的采样Matlab环境中语音信号的采集可使用wavrecord(n,fs,ch,dtype)函数录制,也可使用Windows的“录音机”程序录制成.wav文件然后使用wavread(file) 函数读入。为了进行批量的的训练和识别处理,本系统的训练语音和识别语音全部使用“录音机”程序预先录制。在本实验中,将录取0-9共10段语音。如图2.3所示为数字0的训练语音00.wav的信号波形图,第(I)幅图为完整的语音波形,第(II)、(III)幅图分别为语音的起始部分和结束部分的放大波形图。图2.3 语音00.wav的信号波形图2.2.2语音信号的分帧语音信号是一种典型的非平稳信号,它的均值函数u(x)和自相关函数R(xl,x2)都随时间而发生较大的变化。但研究发现,语音信号在短时间内频谱特性保持平稳,即具有短时平稳特性。因此,在实际处理时可以将语音信号分成很小的时间段(约1030ms),称之为“帧”,作为语音信号处理的最小单位,帧与帧的非重叠部分称为帧移,而将语音信号分成若干帧的过程称为分帧。分帧小能清楚地描绘语音信号的时变特征但计算量大;分帧大能减少计算量但相邻帧间变化不大,容易丢失信号特征。一般取帧长20ms,帧移为帧长的1/31/2。2.2.3语音信号的预加重预加重是指在AD转换后加一个6dB倍频程的高频提升滤波器,语音信号的平均功率谱由于受声门激励和口鼻辐射的影响,高频端大约在800Hz以上按6dBOct(倍频程)跌落。所以求语音信号频谱时,频率越高相应的成份越小,高频部分的频率比低频部分的难求。因此,预加重的目的是加强语音中的高频共振峰,使语音信号的短时频谱变得更为平坦,还可以起到消除直流漂移、抑制随机噪声和提高清音部分能量的效果,便于进行频谱分析和声道参数分析。此外,通常的方法是使用一阶零点数字滤波器实现预加重,其形式为: (2-1)频域相对应的形式为: (2-2)其中,a为预加重系数。2.2.4 语音信号加汉明窗设原始语音信号采样序列为x(n),将其分成短段等效于乘幅度为1的移动窗w(n一m)。当移动窗幅度不是l而是按一定函数取值时,所分成的短段语音的各个取样值将受到一定程度的加权。对语音信号的各个短段进行处理,实际上就是对各个短段进行某种变换或施以某种运算,其一般式为:Q(n)= (2-3)其中T表示某种变换,它可以是线性的也可以是非线性的,x(m)为输入语音信号序列。Q(n)是所有各段经过处理后得到的一个时间序列。加窗的目的是使主瓣更尖锐,旁瓣更低。语音信号数字处理中常用的窗函数是矩形窗和汉明窗,本文选取的是汉明窗。汉明窗公式如下(其中N为帧长) (2-3)设分帧后的信号为s(n),加窗就是窗函数w(n)来乘分帧后的信号s(n),从而形成加窗语音信号: (2-4)2.2.5 基于短时能量和过零率的端点检测在语音信号的预处理中,端点检测是关键的一步,语音信号的模型参数和噪声模型参数以及自适应滤波器中的适应参数都得依赖对应的信号段(语音段或噪声段)来计算确定。因此,只有准确地判定语音信号的端点,才能正确地进行语音处理。端点检测的目的是从包含语音的一般信号中确定出语音的起点以及终点,一般采用平均能量或平均幅度值与过零率相乘的方法来判断。这种利用短时能量和短时平均过零率两种特征共同参与检测,也被称为双门限法。(1)短时能量 设S(n)为加窗语音信号,第t帧语音的短时平均能量为: (2-5) (2-6)其中N为分析窗宽度,St(n)为第t帧语音信号中的第n个点的信号取样值。上面两式原理是相同的,但后式有利于区别小取样值和大取样值,不会因为取平方而造成很大的差异。短时平均能量是时域特征参数,把它用于模型参数时,应进行归一化处理,本文将取其对数值后使用,使计算和识别结果均取得了较好的效率和结果。(2)短时过零率短时过零表示一帧语音信号波形穿过横轴(零电平)的次数。对于连续语音信号,过零意味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值的改变符号则称为过零。过零率就是样本改变符号次数,定义语音信号寿(m)的短时过零率Zn为: (2-7)1 (x0)-1 (x0)sgnx= (2-8)(3)双门限检测的方法在开始进行端点检测之前,首先为短时能量和过零率分别确定两个门限。一个是比较低的门限,其数值比较小,对信号的变化比较敏感,很容易就会被超过。另一个是比较高的门限,数值比较大,信号必须达到一定的强度,该门限才可能被超过。低门限被超过未必就是语音的开始,有可能是时间很短的噪声引起的。高门限被超过则可以基本确信是由于语音信号引起的。整个语音信号的端点检测可以分成四段:静音、过渡段、语音段、结束。在静音段,如果能量或过零率超越了低门限,就应该开始标记起始点,进入过渡段。在过波段中,由于参数的数值比较小,不能确信是否处于真伪的语音段,因此只要两个参数的数值回落到低l、J限以下,就将当前状态恢复到静音状态。而如果在过渡段中两个参数中的任一个超过了高门限,就可以确信进入语音段了。当前状态处于语音段时,如果两个参数的数值降低到低门限以下,而且总的计时长度小于最短时间门限,则认为这是段噪音,继续扫描以后的语音数据。否则就标记好结束端点,并返回。从而达到抗干扰的目的、提高识别率。图2.4红线之间的部分为检测出的语音有声片段。图2.4 语音信号的端点检测图2.3 特征参数提取特征值的提取是对原始的语音信号运用一定的数字信号处理技术进行适当的处理,从而得到一个矢量序列,这个矢量序列可以代表原始的语音信号所携带的信息,初步实现数据压缩。特征参数主要有:能量、幅度、过零率、频谱、倒谱和功率谱等,另外考虑到其他因素的影响,还有许多基于基本参数的参数,本文选用了MEL频率倒谱系数(MFCC)进行提取特征参数。MFCC系数的计算是以“bark”为其频率基准的,它和线性频率的转换关系是: (2-9)MFCC系数也是按帧计算的,首先要通过FFT得到该帧信号的功率谱S(n),转换为Mel频率下的功率谱。这需要在计算之前先在语音的频谱范围内设置若干个带通滤波器: NHm(n) m=0,1,M-1; n=0,1,N/2-1 (2-10)M为滤波器的个数,通常取24,与临界带的个数一样;N为一帧语音信号的点数,为了计算FFT的方便,通常取256。滤波器在频域上为简单的三角形,其中心频率fm在Mel频率轴上是均匀分布的。从图2.5就可以看到MFCC系数的计算过程如下:(1) 预处理:确定每一帧语音采样序列的长度(如N=256),并对每帧序列s(n)进行预加重、分帧和加窗处理;(2) 计算离散功率谱:对预处理的每帧进行离散FFT变换得到其频谱,再取模的平方作为离散功率谱S(n);(3) 将功率谱通过滤波器组:计算S(n)通过M个Hm(n)后所得的功率值,即计算S(n)和Hm(n)在各离散频率点上的乘积之和,得到M个参数Pm,m=0,1,M-1;(4) 取对数:计算Pm的自然对数,得到Lm,m=0,1,M-1;(5) 离散余弦变换:对Lm计算其离散余弦变换,得到D m,m=0,1,M-1,舍去代表直流成份的D0,取D1,D2,Dk作为MFCC参数。预加重,加窗FFTMel频率滤波器组Log对数能量DCT求倒谱图2.5 语音信号MFCC系数的算法流程图3 基于DTW语音识别算法实现3.1 DTW算法原理在孤立词语音识别中,最为简单有效的方法是采用DTW(Dynamic Time Warping,动态时间归整)算法,该算法基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现较早、较为经典的一种算法。在图3.1中,我们把测试模板的各个帧号n=1,N在一个二维直角坐标系中的横轴上标出,把参考模板的各帧号m=1,M在纵轴上标出,通过这些表示帧号的整数坐标画出一些纵横线即可形成一个网络,网络中的每一个交叉点(n,m)表示测试模式中某一帧的交汇点。DP算法可以归结为寻找一条通过此网络中若干格点的路径,路径通过的格点即为测试和参考模板中进行计算的帧号。路径不是随意选择的,首先任何一种语音的发音快慢都有可能变化,但是其各部分的先后次序不可能改变,因此所选的路径必定是从左下角出发,在右上角结束。图3.2是路径的约束条件,点(in,im)可达到的前一个格点只可能是(in-1,im)、(in-1,im-l)和(in-1,im-2)。那么(in,im)一定选择这三个距离中的最小者所对应的点作为其前续格点。T(1)=1时间规整函数1 2 3 in N R1 2 im M (N)=M图3.1 DTW算法原理图(in , im)(in-1 , im)(in-1 , im-1)(in-1 , im-2)图3.2 局部约束路径3.2 DTW算法实现DTW是把时间规整和距离测度计算结合起来的一种非线性规整技术,它寻找一个规整函im=(in),将测试矢量的时间轴n非线性地映射到参考模板的时间轴m上,并使该函数满足: (3-1)D就是处于最优时间规整情况下两矢量的距离。由于DTW不断地计算两矢量的距离以寻找最优的匹配路径,所以得到的是两矢量匹配时累积距离最小所对应的规整函数,这就保证了它们之间存在的最大声学相似性。DTW算法的实质就是运用动态规划的思想,利用局部最佳化的处理来自动寻找一条路径,沿着这条路径,两个特征矢量之间的累积失真量最小,从而避免由于时长不同而可能引入的误差DTW算法要求参考模板与测试模板采用相同类型的特征矢量、相同的帧长、相同的窗函数和相同的帧移。为了使动态路径搜索问题变得有实际意义,在规整函数上必须要加一些限制,不加限制使用式找出的最优路径很可能使两个根本不同的模式之间的相似性很大,从而使模式比较变得毫无意义。 DTW算法分两步进行,一是计算两个模式各帧之间的距离,即求出帧匹配距离矩阵,二是在帧匹配距离矩阵中找出一条最佳路径。开始输入测试和参考模板初始化帧距离和帧累计距离数组循环变量i=0帧累计计算i=i+1i参考帧长最佳距离=帧累计距离数组最后一个元素结束Y N图3.3 DTW算法流程图从图3.3可以看出,首先输入测试和参考模板,然后进行初始化。在for循环中进行循环。计算出测试模板和参考模板之间的距离。当i参考模板的长度,就继续循环,直到求出最小距离。3.3 实验结果分析在音频信号处理方面,本系统的训练语音和识别语音全部使用“录音机”程序录制。以下是语音识别截取的四个模块。每个语音段分别读取4次。下面4个图是读取4次的结果。因为,每个人每次说话有所不同,而同一个人在不同时刻说话也是不同,再加上外界的干扰也不同。所以每次识别的结果必然不同。因此可以看到四次识别0,正确率为100%,而识别1是正确了2次,错误了2次。 图3.4 语音识别测试结果图3.4是四次模式识别的结果,可以看出每次识别结果不同。模块1是第一次识别,每个语音段都识别正确。从第二个模块可以看到,语音段1的识别结果为0,识别错误。从第三个模块可以看到,语音段1的识别结果为0,语音段4的识别结果为8,语音段7的识别结果为1,语音段9的识别结果为5.从第四个模块可以看到,语音段6的识别结果为5,语音段9的识别结果也为5.表3.5 DTW算法识别率语音内容识别次数(个)正确次数(个)错误次数(个)识别率0440100%142250%2440100%3440100%443175%5440100%643175%743175%8440100%942250%0-94033782.5%从表3.5中可以看出,总共识别40次,0-9共10个语音分别识别4次。每次的识别率最高可以达到100%,最低为50%。总的识别率为82.5%。其中可以看出0,2,3,5,8这五个语音的识别率都是为100%。完全识别正确。4,6,7这三个语音段的识别率都为75%,识别正确了3次,错误了1次。而1和9这两个语音段的识别率为50%,识别正确了2次,错误了2次。因此0,2,3,5,8的识别率最高,而1和9的识别率最低。造成这种情况的原因可能是:(1) 外界环境的干扰,噪声的干扰。(2) 每次说话的语调,语音的不同。(3) 参考模板和测试模板每次录音都是随机的,存在很大的误差。4总结与展望4.1总结通过对孤立词语音识别系统中各个模块的MATLAB仿真,可知每个模块都能满足系统的识别要求;从语音信号的端点检测看出,对不同人和不同的孤立词,该方法能准确的检测出起始点和终止点,为信号的特征参数提取做准备工作;而特征参数的提取通过MFCC算法也能很好的提取对信号识别的参数值;应用DTW算法对语音进行模式匹配,从仿真的结果和数据分析,可以清楚的看到各个语音的识别率。最后通过对一些孤立词语音进行识别的验证,得出整个系统在实际应用当中的可行性。4.2展望如前所述,本文实现了孤立词语音识别系统DTW算法的仿真,达到了实用性的要求,但仍有待于进一步优化与完善:本语音识别系统DTW算法在特定人孤立词语音识别准确,在非特定人语音识别有所欠缺。由于本系统采用的是DTW算法,在词汇量不大的情况下,系统识别速度完全可以满足实时要求。但是如果将词汇量扩大很多,建立一个范围庞大的语音模板库,识别速度将会下降。在这种情况下,为了提高识别速度和质量,可以采用更加先进的HMM和ANN方法或其他算法来实现,满足更高的要求。语音识别算法除了较为传统的DTW算法、HMM算法,近年来,随着神经网络技术的发展,给语音识别工作研究开辟了一条崭新的途径。ANN算法神经网络采用大规模的并行算法,有着极强的分类能力。还有其它更多先进的方法值得我们学习借鉴。孤立词语音识别率比较高,但连续语音的识别目前来说还比较难以达到高的识别率,这也是今后语音识别研究发展的方向。在不远的将来,语音识别技术将作为一种重要的人机交互手段,辅助甚至取代传统的键盘、鼠标等输入设备,实现语音控制操作各种设备。语音识别的研究任重而道远,需要付出大量精力和时间,不断探索、勇于实践才能有所发展。语音识别这门科学不是单一存在的,也依赖于其它学科的理论知识,相辅相成,共同携手使语音信号的识别研究再上一个新的台阶。愿我们的语音时代早同到来参 考 文 献1赵力. 语音信号处理M . 北京: 机械工业出版社, 20032蔡莲红, 黄德智, 蔡锐. 现代语音技术基础与应用M . 北京: 清华3张雄伟,陈亮,杨吉斌. 现代语音处理技术及应用M. 北京:机械工业出版社, 2003.4朱淑琴,裘雪红一种精确检测语音端点的方法计算机仿真,2004,22(3):214-2165刘长明,任一峰语音识别中DTW特征匹配的改进算法研究中北大学学报(自然科学舨),2006,27(1):37-406王让定,柴佩琪.语音倒谱特征的研究J.计算机工程,2003,29(13):31 - 33.7徐望,丁琦,王炳锡.一种基于特征空间能量熵的语音信号端点检测算法.通信学报,2003,24(11):125-1298谭保华,熊健民,刘幺和.语音识别技术概述J.郧阳师范高等专科学校学报,2004.9朱淑琴. 语音识别系统关键技术研究硕士学位论文D.西安电子科技大学,200410万春基于DTW的孤立词语音识别研究和算法改进集美人学学报(自然科学版),2002(6):104108.11We iH an, Cheong- Fat Chan, Ch iu- S ing Choy, et a.l A n effic ientMFCC extraction method inspeech recogn ition C . IEEE Internat iona l Symposium on C ircu its and Systems, 2006: 145.12Yu Hongzhi A research on recognit ion of T ibetan speakers based on MFCC and Delta features. International Forum on Computer Sc ience- Techno logy and App lications, 2009: 234.13H Hermansky, HMorgan. RASTA p rocessing of speechJ. IEEETrans on Speech and Audio Processing, 1994, 2(4) : 578 - 589.14HUANG Xuedong, A Acero, H W Hon. Spoken - Language -ProcessingM. Prentice Hall, 2001.15马莉,党幼云特定人孤立词语音识别系统的仿真与分析西安工程科技学院学报2007,21(03):10-12附 录语音训练程序% train.mdisp(正在生成训练参数);for i=0:9 fname=sprintf(train%d0.wav,i); k,fs=wavread(fname); StartPoint,EndPoint=vad(k,fs); cc=mfcc(k); cc=cc(StartPoint-2:EndPoint-2,:); ref(i+1).StartPoint=StartPoint; ref(i+1).EndPoint=EndPoint; ref(i+1).mfcc=cc;enddisp(正在存储模版库);save mfcc.mat ref;close all;DTW算法实现程序function dist = dtw(test, ref)global x y_min y_maxglobal t rglobal D dglobal m n t = test;r = ref;n = size(t,1);m = size(r,1); d = zeros(m,1);D = ones(m,1) * realmax;D(1) = 0; % 如果两个模版长度相差过多,匹配失败if (2*m-n3) | (2*n-mxa %xbxa, ,按下面三个区域匹配 % 1 :xa % xa+1:xb % xb+1:N for x = 1:xa y_max = 2*x; y_min = round(0.5*x); warp end for x = (xa+1):xb y_max = round(0.5*(x-n)+m); y_min = round(0.5*x); warp end for x = (xb+1):n y_max = round(0.5*(x-n)+m); y_min = round(2*(x-n)+m); warp endelseif xaxb %xaxb, ,按下面三个区域匹配 % 0 :xb % xb+1:xa % xa+1:N for x = 1:xb y_max = 2*x; y_min = round(0.5*x); warp end for x = (xb+1):xa y_max = 2*x; y_min =
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 糖尿病足合并骨质疏松患者骨密度监测与跌倒预防方案
- 元宇宙下的教学观察实践-洞察与解读
- 化疗药物配置后环境清洁与消毒
- 青少年肥胖饮食营养护理与行为干预
- 休克患者基础护理与生活照护规范
- 术后感染并发脓毒症的护理进展
- 胃癌术后化疗疼痛管理护理策略
- 成本管控信息化的数据分析模型
- 抗过敏药乏力案例分析课件
- 雾霾天防护护肤方案
- 2025江西金融租赁股份有限公司社会招聘10人笔试考试备考试题及答案解析
- 浙江省通讯C类安全员考试试题(供参考)
- 党的二十届四中全会精神丨线上知识有奖竞答题库
- QC/T 273-2025汽车用铝合金压铸件技术条件
- 大量出血患者的输血方案
- CRRT授权管理制度
- (正式版)HGT 22820-2024 化工安全仪表系统工程设计规范
- GB/T 799-2020地脚螺栓
- CTO病变的介入治疗课件
- 急性冠脉综合征指南
- 旅游职业学院专业设置与调整管理办法
评论
0/150
提交评论