




已阅读5页,还剩18页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
语音信号处理实验讲义王艳芬 李剑 编中国矿业大学信电学院19学生实验守则一、学生进入实验室必须遵守实验室的规章制度,遵守课堂纪律,保持实验室的安静和整洁,爱护实验室的一切设施。二、实验课前要认真预习实验指导书,写出实验预习报告,并经教师批阅后方可进行实验。三、实验课中要遵守操作规程,不要带电连接、更改或拆除线路。线路接好后,经指导老师检查后,方可接通电源进行实验。对于软件上机实验,不得随意删改计算机中原有的文件。四、学生实验前对实验所用仪器设备要了解其操作规程和使用方法,凡因不预习或不按使用方法进行操作而造成仪器设备损坏者,除书面检查外,按学校规定进行赔偿。五、实验中主意安全,遇到事故应立即关断电源并报告教师检查处理。六、实验完毕后要做好整理工作,实验数据必须经指导教师签阅后,才能拆除线路,并将仪器、设备、凳子等按规定放好,经同意后方可离开实验室。七、因故缺课的学生可向实验室申请一次补做机会。无故缺课或无故迟到(15分钟以上)的不予补做,该次实验无成绩;累计三次者,该实验课以不及格论,并不得参加该门理论课程的考试。八、实验室仪器设备不能擅自搬动调换,更不能擅自带出实验室。信电学院专业实验中心二零一一年九月目录实验一 语音信号得基音参数提取1实验二 语音信号的谱分析7实验三 基于DTW算法的孤立字识别11语音信号处理实验讲义是为了配合“语音信号处理”课程教学而编写的,适用于信息工程、电子科学与技术等专业。前修课程为“数字信号处理”。该课程总学时数为40学时,其中实验学时为8学时。实验内容及参考学时安排如下:实验一 语音信号的基音参数提取 (3个学时)实验二 语音信号的谱分析 (3个学时)实验三 基于DTW算法的孤立字识别 (2个学时)实验一 语音信号的基音参数提取一、实验目的1.了解基音的基本概念以及清音与浊音的区别。2.掌握几种基本的基音提取方法,熟悉自相关法、倒谱法和简化逆滤波法进行基音提取的matlab编程。3.熟悉应用FFT对典型信号进行频谱分析的方法。二、实验原理与方法1自相关法利用浊音和清音的自相关函数不同的特点,检测出浊音自相关函数波形的峰值位置,就可提取出基音。为了提高相关法检测基音周期的可靠性,首先应对原始信号进行预处理。方法要点:语音信号的低幅度部分集中了大量的共振峰信息,而高幅度部分包含了大量的基音信息。一般采用中心削波处理法来进行:中心削波处理是使用中心削波函数进行处理的,用以削除语音信号的低幅度部分,它是一种非线性处理方法。其输入输出函数为 (1.1)其中削波电平CL一般取最大信号幅度的6070。为减少自相关计算中的乘法计算 ,可对中心削波函数进行修正:采用三电平中心削波。其输入输出函数为 (1.2)经过上述预处理,就可以用自相关法检测基音周期了。自相关函数为: (1.3)w(m)为窗函数。若采用直角窗,则自相关函数为: (1.4)其中,y(n)为经过削波处理后的信号。用自相关法进行基音提取的matlab编程的流程图为:原始信号三电平削波取信号绝对值的最大值选取合适的语音段自相关计算图1 自相关法基音提取的matlab编程流程图2倒谱法浊音语音的复倒谱中存在峰值,其出现时间等于基音周期;而清音语音段的复倒谱则不出现这种峰值。利用这一性质可以进行清/浊音判断并估计浊音的基音周期。这种方法的要点是计算出复倒谱后,进行解卷,提取出声门激励信息,在预期的基音周期附近寻找峰值。如果峰值超过了预先设定的门限,则语音段为浊音,而峰的位置就是基音周期的估计。如果不存在超过门限的峰值,则语音段定为清音。如果计算的是依赖于时间的复倒谱,则可估计出激励源模型及基音周期随时间的变化。用倒谱法进行基音提取的matlab编程的流程图如图2所示:对原始信号进行分帧处理时,要注意帧长和偏移量的选取,这两个参数会直接影响到最后的仿真结果。3简化逆滤波法简化逆滤波跟踪算法是相关处理法进行基音提取的一种现代化的版本,是检测基音周期的一种比较有效的方法。这种方法先对语音波形降低取样率,进行LPC分析,抽取声道模型参数,然后利用这些参数用线性预测逆滤波器对原信号进行逆滤波,从预测误差中得到音源序列,再用自相关法求得基音周期。之所以用逆滤波,是因为它是将频谱包络逐渐平坦下去的过程。得到的线性预测误差信号只包含有激励原始信号进行FFT变换通过海明窗处理将原始信号分帧取模求对数取模求得倒谱反FFT变换图2 倒谱法基音提取的matlab编程流程图的信息,而去除了声道影响,所以它提供了一个简化的频谱平滑器。用LPC误差信号提取基音的优点是e(n)的频谱较平(其梳齿效应是由基音的周期性造成的,因为周期信号的频谱是离散的),因而共振峰的影响已去除。图3 简化逆滤波法编程流程图设计截止频率为900Hz的切比雪夫2型低通滤波器内插1:5LPC分析求线性预测系数降低取样率5:1将信号通过低通滤波器处理自相关计算三、实验内容和步骤要求同学在实验课前录制好声音。(1) 使用录音软件或者Matlab函数,分别采集一段浊音和清音语音信号(是你自己说的,如:a,o,s等),采样率为8KHz,量化精度为16比特线性码,存在自己指定的目录下,例如D盘根目录下叫sound的文件夹中,录音文件名为yourfilename_a.wav,yourfilename_s.wav等。录音的软件和Matlab函数的使用见随后的附录。(2) 根据语音信号的短时平稳特性,分析帧长取30ms(或10ms50ms);(3) 利用上述基音提取的三种方法(任选两种方法)的编程流程图(图1、图2和图3)编制浊音语音基音提取的matlab程序,上机调试给出相应波形,并根据图形,分析计算出基音周期。所用公式为: (1.5)其中是基音脉冲处所对应的位置,是抽样频率,是基音周期。(4) 将语音信号换为清音语音,运行程序,与浊音语音的运行结果进行比较,并得出结论。四、实验报告(1) 简述实验目的和原理。(2) 任选两种方法,按实验步骤附上自己编制的实验程序和运行结果,分析所得到的图形,计算出基音频率。(3) 分别将两种基音提取方法得到的清音语音与浊音语音的运行结果进行比较,写出结论。(4) 写出自己的收获与建议。附1:录音软件GoldWave的使用使用步骤如下:(1) 双击桌面上的GoldWave图标,打开GoldWave软件后,点击工具栏上的新建图标。(2) 在新建声音对话框中选择声道数为单声道,采样速率为16000,初始化长度为4,点击“确定”。(3) 随后出现的蓝色工作区为声音波形显示区,工具栏上红色圆形图标为“开始录音”按钮。点击红色圆形图标开始录制。(4) 录制过程中要求环境噪声比较小,同时有效语音段声音的幅值不要小于0.2,也不要大于1。(5) 录制完毕后,保存。附2:Matlab录音程序示例clear;clc;close all;%清理命令窗口记录、清除工作空间变量、关闭图形Fs=10000; N=1:3*Fs;%采样速率为10KHz,采样长度为3秒Sd=wavrecord(3*Fs,Fs,double);%录制采样精度为16位的声音,参见matlab的help文档wavwrite(Sd,Fs,yourname_a.wav);%将数据存储到当前目录下,文件名为yourname_a.wav附3:Matlab调用wav文件的方法示例:s=wavread(yourname_a.wav);%读取录音文件,参见matlab的help文档figure; plot(s); grid on;%画出这段语音信号的波形x=s(10000:10511):%根据波形位置,截取有效语音段中的51.2ms的数据三种基音提取方法所需的有效语音长度不相同,学生需自行选择合适的语音长度,然后再进行处理。附4:主要的matlab语句:Sd=wavrecord(3*Fs,Fs,double);% 采样率Fs,采样长度3倍,16位采样精度wavwrite(Sd,Fs,d:a.wav);% 将数据存储到D盘根目录下,文件名为a.wav x=wavread(d :yourfilename.wav);%读语音信号Max,I=max(Z);% 取Z的最大值r=xcorr(y);% 求自相关函数y=enframe(x ,N,n);% 将信号x分帧,enframe是分帧函数,N为帧长,n为偏移量b,a = cheby2(n,Rs,Wn);% n阶阻带衰减为Rs dB,归一化截止频率为Wn的切比雪夫滤波器,b,a为滤波器的系数。y=filter(m,n,x);对信号x进行滤波,滤波系数为m,nz=decimate(y,5);% 降低取样率5:1a=lpc(z,4);% 求线性预测系数z3=interp(z2,5);% 内插1:5附5: Matlab编程中常用的控制流结构for 循环结构:for x= arrayx为循环变量 array为循环数组(commands)命令组endif-else-end 分支结构if expression1判决表达式1(commands1)表达式为真时,执行commands1elseif expression2判决表达式2(commands2)表达式1为假,而表达式2为真,执行commands2并结束此结构else (commandsk)当前面所有表达式均为假时,执行该组命令end附6: 录制声音文件本讲义三个实验中需要同学们在实验前录制好声音文件。(根据英语发音音标表)长元音举例: /a:/ /o:/ /u:/ /e:/辅音包括清辅音和浊辅音两大类。发音时声带不震动、送气的叫清辅音;发音时声带震动、不送气的叫浊辅音。辅音都是嗓音,这是因为发音时气流受到不同程度的阻碍,发出的音不像元音那样清脆悦耳。浊辅音举例:/m/ /n/ /l/清辅音举例:/s/ /t/ /p/根据实验需要,要求同学们录制至少四个声音文件:(采样率选为8KHz)第一个声音文件包括前面给出得3个元音,3个浊辅音,3个清辅音,文件命名为:xxx_音标.wav;第二个声音文件包括0到10,共11个汉语的数字音,文件命名为:xxx_数字.wav;第三个声音文件内容是:姓名,中国矿业大学,李、张、刘、孙、王。文件命名为:xxx_姓氏1.wav;第四个声音文件重复第三个声音文件的内容,文件命名为:xxx_姓氏2.wav。用于语音识别。注意录制声音时,选择环境比较安静的时候。上课前请同学们把声音文件发送到共享邮箱:sound_,密码:cumt12345,邮件名按以下方式命名为:04-1-07李大伟,以便实验三可以共享使用不同人的声音进行识别。实验一上课前至少要录制一个元音,如 a:,和一个清音,如:s。实验2 语音信号的谱分析一、实验目的1.了解复倒谱、倒谱以及同态分析的概念。2.掌握用matlab编程进行倒谱分析的方法。3.加深对语音信号数字模型的了解。4.了解LPC谱的定义。5.了解LPC谱与信号谱之间的区别。二、谱分析原理与方法1.倒谱分析序列x(n)的倒谱c(n)为该序列的z变换的模的对数的逆z变换。定义式为: (2.1)或表示成傅里叶变换形式 (2.2)在具体实现时,用DFT代替傅里叶变换。类似地,这样得到的将是真实倒谱的混叠形式c(n),它是真实倒谱的逼近。对倒谱进行滤波,取出低时间部分(流程图中称为倒谱窗)进行进行逆特征系统处理,可以得到一个平滑的对数谱函数,这个对数谱函数显示了输入语音段的共振峰结构,同时谱的峰值对应于共振峰频率。通过此对数谱进行峰值检测,就可以估计出前几个共振峰的频率和强度。对于浊音的声道特性,可以采用前三个共振峰来描述;清音不具备共振峰特点。根据倒谱分析过程的方框图画出倒谱分析的matlab编程的流程图。如图2.1所示。2LPC谱分析当给定了一组预测器系数后,将z=代入H(z),就得到语音产生模型的频率响应,即 (2.3)画出其频率响应特性,可以预料在共振峰频率上会出现峰值。如果利用P个取样值来进行预测,则称为P阶线性预测。可以证明:如果信号s(n)是一个P阶的AR模型,则 (2.4)式中 是模型的频率响应,可简称为LPC谱;是语音信号s(n)的傅里叶变换,即信号谱,为功率谱。但是事实上,语音信号并非是AR模型,因此,只能理解成的一个估计。原始信号低倒谱域部分高倒谱域部分原始信号反FFT变换FFT变换汉明窗计算振幅对数变换峰值检测倒谱窗基音周期和清、浊判别FFT变换平滑谱求功率谱求LPC系数求LPC谱图2.2 LPC谱分析的matlab编程思路图图2.1 倒谱分析的matlab编程流程图P越大,LPC谱越能反映出语音短时谱的细节部分,但LPC谱的光滑度随之下降。由于我们的目的只是用LPC谱反映声道综合效应的谱的表示式,而具体的谐波形状是通过激励谱来控制的,因此LPC谱只要能够体现出语音的共振峰的结构和谱包络就可以,因此从计算复杂性的角度分析,预测阶数P应该适中。根据LPC谱定义的原理画出LPC谱分析的matlab编程的流程图,如图2.2所示。三、实验内容和步骤(1) 分别采集一段浊音和清音语音信号(是你自己说的),采样率为8KHZ,量化精度为16比特线性码;(2) 分析帧长取为30ms(或10ms50ms);(3) 根据语音信号倒谱分析和LPC谱分析的编程流程图(图2.1、图2.2)编制浊音语音信号谱分析的matlab程序,上机调试给出相应波形,并根据图形,观察共振峰情况;(4) 将语音信号换为清音语音,运行程序,与浊音语音的运行结果进行比较,并得出结论。(5) 在LPC谱分析中,改变阶数p (p分别等于4、8、12、40)时,观察对谱包络的影响,并与信号谱(DFT谱)进行比较。说明:倒谱分析有两种方法,一种是根据原理,按照图2.1的流程图,一步步编程实现,另一种方法可以利用matlab里的内部函数进行倒谱分析。下面给出内部函数的使用简介。cceps功能:计算复倒谱。格式:xhat=cceps(x)xhat,nd=cceps(x)=cceps(x,n)说明:xhat=cceps(x)返回实信号x的复倒谱,xhat也是实数序列。xhat,nd=cceps(x)在计算复倒谱的同时还辨识出信号延迟的采样点位置nd。rceps功能:实倒谱的计算和最小相位重构。格式:y=rceps(x)y,ym=rceps(x)说明:y=rceps(x)计算信号x的实倒谱y。 y,ym=rceps(x)返回信号x的实倒谱y和最小相位重构信号ym。icceps功能:计算逆复倒谱。格式:x=icceps(xhat,nd)说明:x=icceps(xhat,nd)返回复倒谱xhat的逆变换x,nd为所要去除的时间延迟的位置。lpc功能:计算lpc系数。格式:a=lpc(x,n)说明:a=lpc(x,n)返回x的n阶LPC系数。功能:计算lpc谱。格式:p=20*log(abs(freqz(1,-a,length(x)说明:a是x的n阶LPC系数。四、实验报告1. 简述实验目的和原理。2. 按实验步骤附上编制的实验程序和运行结果,分析所得到的图形。3. 将清音语音与浊音语音的运行结果进行比较,写出结论。4. 总结语音信号倒谱分析和LPC谱分析的特点。5收获与建议。实验3 基于DTW算法的孤立字识别一、实验目的及实验要求1了解语音信号处理在语音识别中的应用2掌握端点检测的原理,用Matlab编程实现语音信号的端点检测,从原始语音文件中提取有效语音段。3掌握采用模板匹配法的孤立字(词)识别系统的工作原理。结合DTW实验系统工具箱,通过编写主程序实现语音识别。二、实验原理详见清华大学出版社Matlab扩展编程(何英等编著)!语音识别技术中,对孤立字+(词)识别的研究是最早的,也是最成熟的。孤立字识别系统,顾名思义是识别孤立发音的字或词。由于在孤立字识别中字之间有停顿,可使识别问题简化;单字之间的端点检测比较容易;单字之间的协同发音影响较小;一般对单字的发音都比较认真等,所以这种系统存在的问题较少,较容易实现。孤立字(词)识别系统可以用图3.1表示:输入语音短时参数提取超音段特征提取参考模式模式识别字词候选后期处理语音分析预处理器识别字词图3.1 孤立字(词)识别系统训练首先语音信号经过预处理和语音分析部分变换成语音特征参数。模式识别部分是将输入语音特征参数信息与训练时预存的参考模型(模板)进行比较。由于发音速率的变化,输出测试语音和参考模板间存在着非线性失真,即于参考模式相比输入语音的某些音素变长而另一些音素却缩短,呈现随机变化。根据参考模式是模板还是随机模型,最有效的两种时间规整策略:一是动态时间规整技术(DTW);另一个是马尔可夫模型技术(HMM)。除了发音速率的变化外,相对于参考模式,测试语音还可能出现其他的语音变化。后处理部分主要是运用语言学知识或超音段信息对识别出的候选词或字进行最后的判决。本实验采用较简单的动态时间规整技术(DTW)来实现孤立字识别。实验的matlab程序由1个主程序和5个子程序或内部函数组成。程序用到了“..8.9”十个语音。1. 主程序为:DTWglc 图3.2为DTW主程序流程图。由参考模板计算、测试模板计算和识别三部分组成。2. vad端点检测程序端点检测的目的是从包含语音的一段信号中确定出语音的起点和终点。有效的端点检测不仅能使处理时间减到最小,而且能排除无声段的噪声干扰,从而使识别系统具有良好的识别性能。传统的端点检测方法是将语音信号的短时能量与过零率相结合加以判断。读入语音文件端点检测x1,x2利用x1,x2抽取有效语音段计算参考模板读入语音文件端点检测x1,x2计算测试模板匹配测试模板和参考模板的距离得到nn的矩阵根据最小距离筛选矩阵元素,输出识别结果识别循环n次计算参考语音模板循环n次计算测试语音模板循环n2次得到nn矩阵循环n次,得出n个识别结果计算原始语音的MFCC参数,保留到矩阵m阵利用x1,x2抽取有效语音段计算原始语音的MFCC参数,保留到矩阵m阵图3.2 DTW主程序流程图图中,n为录制的语音文件数。是图3.3端点检测流程图语音信号幅度归一化设定门限值及相关常量计算过零率计算短时能量根据语音信号幅度调整门限选择语音段状态是否超过高门限是否超过低门限记录该点值并调整状态值调整状态值调整状态值循环n次语音段结束准语音段语音段是否高于低门限是否是否调整状态值静音段够长语音段够长调整状态值否否否是本端点检测程序应用双门限法,结合过零率和短时能量进行可靠端点检测,其中过零率用于检测清音,短时能量用于检测浊音。在开始进行端点检测之前,首先为短时能量和过零率分别确定两个门限,一个低门限和一个高门限。低门限数值较小,比较容易通过,对信号比较敏感;高门限数值比较大,信号必须达到一定强度,该门限才能被通过。低门限通过未必是语音段开始,可能是时间很短的噪声引起的。高门限超过基本可以确定是语音信号的起点。整个语音信号的端点检测分为四段:静音,过渡段,语音段,结束。程序中使用一个变量status来表示当前所处的状态。在静音段,如果能量或过零率超越了低门限,就应该开始标记起始点,进入过渡段。在过渡段中,由于参数的数值比较小,不能确定是否处于真正的语音段,只要两个门限值都回落到低门限以下,就将当前状态恢复到静音段,如果在过渡段中两个参数中的任意一个超过高门限,就可以确信进入语音段了。当前状态处于语音段时,如果两个参数的数值降低到低门限以下,而且总的记时长度小于最短时间门限,则认为是一段噪声,继续扫描以后的语音数据,否则,就标记好结束端点,并返回。端点检测流程图如图3.3所示。为便于计算机处理,语音文件进入后先进行归一化处理。程序中需要设定六个门限值,如表1所示。表1 端点检测程序中用到的参量参量说明参量说明短时能量高门限确定进入语音段语音段长度门限确定是否为语音段短时能量低门限确定进入准语音段状态变量记录当前帧状态过零率高门限确定进入语音段语音段长度记录当前帧语音长过零率低门限确定进入准语音段静音段长度记录当前帧静音长静音段长度门限确定是否为静音段3. dtw实现dtw算法的函数 程序中首先申请两个n*m的矩阵D和d,分别为累积距离和帧匹配距离,这里n和m为测试模板与参考模板的帧数。然后,通过一个循环计算两个模板的帧匹配距离矩阵d。接下来进行动态规划,为每个格点(i,j)都计算其三个可能的前续格点的累积距离D1,D2和D3。考虑到边界问题,有些前续格点可能不存在,因此要加入判断条件。最后利用最小值函数min,找到三个前续格点的累积距离的最小值作为累积距离,与当前帧的匹配距离d(i,j)相加,作为当前格点的累积距离。该计算过程一直达到格点(n,m),并将D(n,m)输出,作为模板匹配的结果。4. mfccMel频率倒谱参数的算法函数LPC模型是基于发音模型建立的,LPCC(线性预测倒谱系数)也是一种基于合成的参数。这种参数没有充分利用人耳的听觉特性。人的听觉特性是一个非线性系统,它响应不同频率信号的灵敏度是不同的,基本上是一个对数关系。MFCC是在mel 标度频率域提取出来的倒谱参数。mel 标度描述了人耳对频率感知的非线性特性,它与频率的关系可用式(3.1)近似表示:Mel(f)=1127log(1+f/700) (3.1)其中f 为频率,单位是Hz。本实验优先采用MFCC参数作为语音特征参数。本函数计算了MFCC参数和一阶差分参数。标准的MFCC参数只反映了语音参数的静态特征,而人耳对语音信号的同态特征更为敏感,而这种动态特性通常用差分倒谱参数来描述。5. melbankm直接计算语音信号的的MFCC参数本函数为语音信号工具箱voicebox中提供的函数。6. enframe用于语音信号的分帧函数程序中有关函数的功能说明见表2。表2:部分函数说明函数说明f=enframe(x,len,inc)x输入语音 len帧长 inc帧移 f=wavread(path)指定语音文件路径,读出语音文件保存到矩阵f中m=mfcc(x)x输入语音 mfcc函数求取x的MFCC参数保存到矩阵m中min()求取矩阵或向量的最小值disp()在命令窗口显示字符sprintf()把带格式的数字变成字符串dist=dtw(t,r)求取t,r的匹配距离三、实验内容和步骤1. 运行实验室提供的演示内容,观察输出结果;2. 在以上基础上,修改程序,识别你自己的声音。(1)录制语音文件利用GoldWave或NGwave录音软件录制单字发音语音文件,以wav音频格式保存,共录制两组,一组用于计算参考模板,另一组作为测试模板用于语音识别。录制语音时,为了能够在主程序中循环读入语音文件,文件名采用数字顺序命名。记录语音文件以及所对应的发音。记于表3中。另外,录制语音时,注意调整合适的Mic音量,避免语音波形幅度过小,难于同噪声区分开。同时也要避免波形幅度过大,造成波形失真。(2)调试端点检测程序结合流程图读懂Matlab程序,先单独调试,记录并观察测试结果。原始语音中检测出起始和终止端点后,用plot( )函数绘制原始语音文件波形图,检测得到的端点之间的语音波形图。对比图形,分析检测结果是否满意。(3)调试DTW主程序结合图3.2所示流程图修改和调试Matlab程序,加入DTW实验系统工具箱文件,调试运行程序。(4)运行和测试系统先把录制好的声音文件(自己录制的和其他同学录制的)制作成2组声音文件,再准备两个测试音文件。例如第1组声音文件为10个wav文件,分别保存着同一个人09共10个发音;其使用的测试音文件保存着这个人另外发出的09中的任意一个发音。如测试音为“7”,检验程序是否能正确判断出与第1组声音中发“7”的文件相匹配。如匹配,则识别正确,反之,错误。可以多做几次。第2组声音文件为10个wav文件,分别保存着10个人的同一个发音内容(如:“王”);其使用的测试音文件保存着那10个人中其中一个人(姑且称为A)发出的相同内容的发音。检验程序是否能在10个人中找出A。在Matlab环境下运行程序,记录识别结果。分析识别结果,记于表4中。表3录制的语音文件列表录制者标号内容男声1男声2男声3男声4男声5女声1女声2女声3女声4女声51234表4 语音识别结果说话人统计信息内容1内容2内容3内容4正确数错误数识别率注意:在调试程序时,把不同的语音输入系统后,若程序运行出错,有可能问题在于:x1,x2=vad(x);m=mfcc(x);m=m(x1-2:x2-2,:);该程序先计算原始语音的MFCC参数,然后根据检测到的端点从MFCC参数矩阵中抽取语音段的参数。进行端点检测和求MFCC参数时,都要进行语音信号的分帧,为了保持各自的最佳效果,各自所取的帧长不同。在求MFCC参数时所得到的帧数要比端点检测中的多,出现检测到的端点超出MFCC参数矩阵边界的情况。为避免这种情况的发生,根据经验进行处理:x1-2,x2-2,然而这样的处理并非对于每个说话人都适应,故出现错误。要达到只保留有效语音段的MFCC参数的目的,可以用下边的代码实现:x1,x2=vad(x);x=x(x1*80:x2*80,:);m=mfcc(x);先从原始语音段中截取有效语音段,再计算MFCC参数。附:DTW主程序代码disp(正
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025证券支行面试题目及答案
- 2025公务员考试题及答案详解
- 2025公务员考试三种试题及答案
- 2025公务员结构化试题及答案
- 保险业资金运用法律监管体系的构建与完善:理论、现状与路径探索
- 从湖南大学外宣资料看外宣翻译实践与策略探索
- 2025常见公务员面试题及答案
- SDF-1α:系统性红斑狼疮病情评估的关键血清标志物探究
- 5E83铝合金搅拌摩擦焊:工艺优化与组织性能关联探究
- 提高客户忠诚度的关系管理术
- 小学生编织手工课件
- 广西现代物流集团招聘笔试真题2024
- 2025餐饮劳动合同书 电子版
- (2025)职业教育法知识竞赛题库带含答案
- CJ/T 449-2014切断型膜式燃气表
- 滨州海上风电项目可行性研究报告
- 人工智能赋能中小学教育:个性化学习路径优化研究
- 2025年月嫂考证:母婴护理师等技能资格知识考试题与答案
- 脑脊液相关试题及答案
- T/CAEPI 64-2023固体回收燃料分类与分级
- DB62T 25-3016-2016 建筑工程资料管理规程
评论
0/150
提交评论