




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、燕 山 大 学 专 业 训 练 说 明 书 目录第一章 引言.2第二章 说话人识别系统的概述.2 1.说话人识别的基本原理.2 2.说话人识别系统图.3 3.说话人识别系统的分块介绍.3 4.训练模型.12 5.识别模块.15第3章 实验结果.16第4章 应用程序.18第5章 心得体会.28 参考文献 第一章 引言随着世界信息化进程的日新月异,人们在享受方便快捷信息的同时,对个人信息安全性的要求也日益提升。传统以密码为特征的身份认证技术易伪造、易丢失的弊端日益显露出来,越来越难以满足用户在高安全性和长安全性上的要求。在此基础上,基于生物特征识别的身份认证技术日益成为人们关注的焦点。目前,较为常
2、用的生物特征认证方法有三种,分别是基于指纹、声纹、人脸的认证技术。其中,声纹识别具有很大的优势。语音是人的自然属性之一,由于说话人发音器官的生理差异以及后天形成的行为差异,每个人的语音都带有强烈的个人特征色彩,这使得通过分析语音信号来识别说话人成为可能。说话人识别系统属于生物识技术的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数识别说话人身份的技术。与语音识别不同的是,说话人识别利用的是语音信中的说话人信息,而不考虑语音中的字词意思,它强调一说话人的个性;而音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强共性。第二章 说话人识别系统的概述一说话人识别的基本原理要
3、实现说话人识别,应解决如下基本问题:(1)语音信号的预处理和特征提取, 即提取能够有效表征说话人个性特征的参数。实际上现在采用的特征都是从语音信号模型中得到的, 它们既包含说话人的语音特征,又包含说话人的个性特征,并且相互交织在一起, 以复杂的形式存在于语音参数中,目前还没有建立起准确分离和提取这两种特征的技术。(2)说话人模型的建立和模型参数的训练。这包括模型结构的表示和参数估计算法。(3)测试音与说话人模型的匹配距离计算。实际上,采用的说话人模型结构对应于说话人识别的不同方法。随着技术的发展, 说话人识别的方法不断出现,包括矢量量化, 模板匹配法,隐马尔可夫模型,高斯混合模型, 人工神经网
4、络方法等。(4)识别或判决策略。根据匹配距离的计算结果判决说话人是否是所声称的说话人 (说话人确认)或说话人到底是谁(说话人辨认)。说话人识别的基本原理是为每一个说话人建立一个能够描述这一说话人个性特征的模型 。在目前话音特征与说话人个性特征还未很好的从语音特征中得到分离的情况下,为每一个说话人建立的说话人模型实际是说话人的语音特征模型。在进行说话人识别时,取与测试音匹配距离最小的说话人模型所对应的说话人作为说话人识别的结果。二说话人识别系统图说话人识别系统分为两个阶段:训练阶段和识别阶段。在训练阶段,系统根据每个使用者说出的若干训练语句建立相应的模型或模型参量参考集;而在识别阶段,在待识别人
5、说的语音信号中导出的参量,要与在训练过程中得到的参考参量集或模型模板加以比较,并且根据一定的相似性准则进行判定。对于说话人辨认来说,所提取的参量要与训练过程中的每一个人的参考参量加以比较,并把与它距离最近的那个参考量所对应的使用者辨认为是发出输入语音的说话人。说话人识别系统图如图1: 图1 说话人识别系统图我们可以将一个说话人识别系统分成如下几个模块:预处理模块、特征提取模块、训练模块和识别模块等。三说话人识别系统的分块介绍1.预处理模块语音信号的预处理包括:预加重、端点检测、分帧和加窗。(1) 预加重对于输入的语音信号,首先用低通滤波器滤掉高频部分以防止还原信号时在时域内产生混叠干扰,然后用
6、高通滤波器抑制50HZ的电源干扰,这就是抗混叠失真滤波。依据Nyquist采样定理,用不低于2fa的采样频率对原始模拟信号采样,经过A/D转换得到数字信号。由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在800HZ以上,按6dB/倍频程跌落,所以求语音信号频谱时,频率越高相应的信号成分越小,高频部分的频谱比低频部分难求,为此要进行预加重。预加重的目的是将更为有用的高频部分的频谱进行提升,使信号的频谱变得平坦,保持在低频到高频的整个频带内,能用同样的信噪比求频谱,以便于进行频谱分析或声道参数分析。预加重一般用具有6dB/倍频程的提升高频特性的数字滤波器来实现,其传递函数为:其中为
7、预加重系数,可取为1或比1稍小的值,一般取,=0.95。(2) 端点检测端点检测的目的是从包含语音的一段信号中确定出语音的起点以及终点。有效地端点检测不仅能使处理时间减到最小,而且能排除无声段的噪声干扰,从而使识别系统具有良好的识别性能。目前的端点检测技术大都是基于语音信号的时域特征来进行的,一般采用两种时域特征:短时能量和短时过零率,通过设定它们的门限来进行检测。短时能量序列反映了语音振幅随时间缓慢变化的规律。幅度随时间的变化,清音段一般比浊音段要小,可以用来区分清音段和浊音段;可以用来区分声母和韵母的分界,无声和有声的分界。短时能量定义为:令,则有:语音信号的短时平均幅度为:和都反映信号强
8、度。过零分析是考察信号时域波形通过时间轴的情况。对于离散时间信号,如果相邻的取样值符号改变则称为过零。过零数就是样本改变符号的次数,单位时间内的过零数称为平均过零数。对于窄带信号,平均过零数作为信号频率的一种简单度量是很精确的。语音信号的短时平均过零率定义为:其中:为窗口函数,其作用与求短时平均能量时一样。一般取实际应用中常常用到短时过零率的修正参数,它是一帧语音波形穿越某个非零电平的次数。此电平适当地设置为一个接近零的值时,对于清音仍然有很高的值,而对于无声则很低。短时能量和短时过零率都是随机参数,不同性质的语音各自有不同的概率分布。对于静音、清音和浊音三种情况,浊音的短时平均幅度大而短时过
9、零率最低;清音的短时平均幅度居中而短时过零率最高;静音的短时平均幅度最低而短时过零率居中。它们的条件概率分布都接近于正态分布。端点检测采用短时能量和过零率相乘的办法来判断。检测前,先要为短时能量和过零率确定两个门限,故称之为双门限端点检测。低能量门限取背景噪声平均能量的2倍,高能量门限取多帧语音数据的平均能量。将信号分为静音段、过渡段、语音段和结束段。在静音段,如果短时能量或过零率超过了低门限,就开始标记起始点,进入过渡段;在过渡段,如果两个参数值都回落到低门限以下,则又恢复到静音段;如果两个参数中的任一个超过了高门限,就表明进入语音段。在语音段,如果两个参数同时低于低门限,则进入结束段,并判
10、断接下来的语音信号的静音帧数长短,长则继续扫描结束点,短则标记语音结束。当信号持续时间达不到一定时长时,则可以确定其为噪音,抛弃已经标记的起始点继续扫描。下面为端点检测波形示意图,以便于理解。图2 端点检测示意图(3) 分帧由于语音信号的准平稳特性,使得只在短时段上才可视为一个平稳过程,所以绝大部分的说话人识别系统都是建立在短时谱分析的基础上,把一定长度的语音分为许多帧来分析,可以用对平稳过程的分析方法进行分析,因此需要将语音信号划分为一个一个的短时段,每一个短时段称为一帧,每一帧的长度大概为10-30ms。为了使帧与帧之间平滑过渡,使其保持连贯性,一般采用交叠分段的方法,即每一帧的帧尾与下一
11、帧的帧头是重叠的。(4) 加窗为了减小语音帧的截断效应,降低帧两端的坡度,使语音帧的两端不引起急剧变化而平滑过渡到零,就要让语音帧乘以一个窗函数。设帧信号为,窗函数为,每帧的取样点数N,则加窗后的信号为:常用的窗函数为汉明窗,其表达式如下: 波形乘以汉明窗时,压缩了接近函数两端的部分波形,这等效于分析用的区间缩短了40%左右,以此频率分辨率也随之下降了40%左右。所以即使在周期性明显的浊音频谱分析中,乘以适合的窗函数,也能抑制基音周期分析区间的相对相位关系的变化影响,从而可以得到稳定的频谱。(5)语音去噪目前针对语音识别提出了很多算法,但是这些研究基本上都是基于较为纯净的语音环境,一旦待识别的
12、环境中有噪声和干扰,语音识别就会受到严重影响。因为大多数语音识别的语音模板基本上是在无噪声和无混响的“纯净”环境中采集、转换而成。而实现环境中不可避免地存在干扰和噪声,包括其他人的声音和回声等,这些噪声有时很强,使语音识别系统的性能大大降低甚至瘫痪。所以,语音信号在传输之前尽可能得到净化,对于提高语音通信质量是非常关键的。如何去除语音中的噪声、 改进语音质量、 提高语音可懂度,是语音信号处理的关键。传统的语音去噪算法是对语音信号进行时域或频域滤波,这些方法往往只是对某种特定的噪声效果明显。当噪声与语音的频谱相似时,传统的单纯时域或频域处理往往无法达到很好的效果。小波变换是一种时频局部化分析方法
13、,是分析非平稳时变信号的有力工具。克服了短时傅里叶变换固定分辨率的弱点,既可以分析信号的概貌,又可以分析信号的细节。因此,利用小波变换来实现信号的去噪,具有较好的净化语音效果。 小波阈值法去噪原理: 假设带噪语音信号为: f ( t) = s ( t) + n( t) (1) 式中: s ( t) 是纯语音信号, n( t) 是方差为的高斯白噪声。对式(1)作离散小波变换,得:(2)式中:S(t)F(t)Wj , k ( f ) 为小波系数,记为 cd j . k。 首先对被噪声污染的语音信号进行离散序列小波变换,得到带有噪声的小波系数;然后用设定的阈值,作为门限对小波系数进行处理,对低于的小
14、波系数作为由噪声引起的,仅让超过的那些显著的小波系数用来重构语音信号。其框图如图 1 所示。其中,阈值的选择和量化是最关键的,本文着重对阈值函数的选取进行研究。小波分析小波重构阈值处理 图 1 小波阈值去噪处理框图含噪信号模型如式( 1) 所示,若要从被噪声污染的f ( t) 中恢复出原始信号 s( t) , 可按以下3 个步骤进行:1) 对噪声污染的信号作正交小波变换。选择合适的小波和小波分解层数,将被噪声污染信号进行小波分解至J 层,得到相应的小波分解系数 cd j . k。 2) 对分解得到的小波系数进行阈值处理,得到原始信号小波系数的估值。 3) 进行小波逆变换。将经阈值处理过的小波系
15、数重构,得到恢复的原始信号的估计值f ( t) ,即 s ( t)。小波分解高频系数的阈值量化。对每层高频系数,选择一个阈值进行阈值量化处理。选择随尺度变化的阈值式中,是噪声的方差,其常用估计公式为= MA D / 0. 6745 ,其中, MA D 为最高频子带小波系数幅度的中值,,N 为被噪声污染的信号序列的长度。但当信号混入噪声较小或信号含有大量细节结构时,这种估计方法是不准确的。可以利用语音信号小波系数尺度间的相关性,通过在第一尺度上最大限度地剔除语音信号突变点产生的小波系数来估计噪声的方差。利用本文的改进阈值函数式(5)对小波变换高频系数进行阈值处理,小于阈值的模极大,认为是噪声引发
16、的,予以删除,不参加重构。对清音段语音和浊音段语音采用不同的阈值处理方法:若为清音,则只对最小尺度上的小波系数进行处理,否则对全部小波系数进行阈值处理。 小波重构。根据小波分解的第 j 层低频系数和经过量化处理后的第 1 到 j 层高频系数,进行一维语音信号小波重构,得到 f ( t) 的估计值 ,即为净化处理后信号。2. 特征参数的提取根据人类听觉系统的特性,人耳分辨声音频率的过程犹如一种取对数的功能,基于此,出现了Mel频率的倒谱系数(MFCC)MFCC: Mel-Frequency Cepstrum Coefficients.在语音识别(Speech Recognition)和语者辨识(
17、Speaker Recognition)方面,最常用到的语音特征就是梅尔倒频谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC),此参数考虑到人耳对不同频率的感受程度,因此特别适合用在语音识别。由于Mel频率与Hz频率之间非线性的对应关系,使得MFCC随着频率的提高,其计算精度随之下降。因此,在应用中常常只使用低频MFCC,而丢弃中高频MFCC。下图为梅尔倒频谱系数的过程示意图:S(n)X(n)s(n)预加重、分帧、加窗FFTMel频率滤波器组 D(m)L(m)DTC求倒数Log对数能量 图3 梅尔倒频谱系数的过程示意图下面简单的介绍一下求
18、解MFCC的过程。(1音框化(Frame blocking)先将N个取样点集合成一个观测单位,称为音框(Frame),通常N的值256或512,涵盖的时间约为2030ms 左右。为了避免相邻两音框的变化过大,所以我们会让两相邻因框之间有一段重迭区域,此重迭区域包含了M个取样点,通常M的值约是 N 的一半或 1/3。通常语音识别所用的音频的取样频率为8 KHz或16 KHz,8KHz 来说,若音框长度为256 个取样点,则对应的时间长度是 256/8000*1000 = 32 ms。(2汉明窗(Hamming window)将每一个音框乘上汉明窗,以增加音框左端和右端的连续性(请见下一个步骤的说
19、明)。假设音框化的讯号为S(n),n = 0,N-1。那么乘上汉明窗后为S(n) = S(n)*W(n),此W(n) 形式如下:(3 快速傅利叶转换(Fast Fourier Transform, or FFT)由于讯号在时域(Time domain)上的变化通常很难看出讯号的特性,所以通常将它转换成频域(Frequency domain)上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。所以在乘上汉明窗后,每个音框还必需再经过 FFT以得到在频谱上的能量分布。 乘上汉明窗的主要目的,是要加强音框左端和右端的连续性,这是因为在进行 FFT时,都是假设一个音框内的讯号是代表一个周期性讯
20、号,如果这个周期性不存在,FFT 会为了要符合左右端不连续的变化,而产生一些不存在原讯号的能量分布,造成分析上的误差。当然,如果我们在取音框时,能够使音框中的讯号就已经包含基本周期的整数倍,这时候的音框左右端就会是连续的,那就可以不需要乘上汉明窗了。但是在实作上,由于基本周期的计算会需要额外的时间,而且也容易算错,因此我们都用汉明窗来达到类似的效果。(4) 三角带通滤波器组(Triangular Bandpass Filters) 将能量频谱能量乘以一组 20个三角带通滤波器,求得每一个滤波器输出的对数能量(Log Energy)。必须注意的是:这20个三角带通滤波器在梅尔频率(Mel Fre
21、quency)上是平均分布的,而梅尔频率和一般频率 f 的关系式如下: Mel(F)= 2595 * log梅尔频率代表一般人耳对于频率的感受度,由此也可以看出人耳对于频率 f 的感受是呈对数变化的: 在低频部分,人耳感受是比较敏锐 。在高频部分,人耳的感受就会越来越粗糙 。三角带通滤波器有两个主要目的: 对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰。因此一段语音的音调或音高,是不会呈现在 MFCC 参数内,所以,用 MFCC 为特征的语音识别系统,并不会受到输入语音的音调不同而有所影响。将傅立叶转换结果经三角带通滤波器组进行滤波。表示第个频带的三角带通滤波器 其中是第个频带的中心
22、,这个三角形带通滤波器在美尔(Mel-frequency)上是平均分配的。下面方程式求每一个滤波器输出的对数能量 (5) 离散余弦转换(Discrete cosine transform, or DCT)将滤波器输出的能量作离散余弦(Discrete Cosine Transform, DCT)计算梅尔频率倒频谱系数(Mel-frequency Cepstral Coefficients, MFCC)离散余弦计算公式:其中大致取12左右。(6) 对数能量(Log energy)一个音框的音量(即能量),也是语音的重要特征,而且非常容易计算。因此我们通常再加上一个音框的对数能量(定义为一个音框内
23、讯号的平方和,再取以 10 为底的对数值,再乘以 10),使得每一个音框基本的语音特征就有 13 维,包含了 1 个对数能量和 12 个倒频谱参数。(若要加入其他语音特征以测试辨识率,也可以在此阶段加入,这些常用的其他语音特征,包含音高、过零率、共振峰等。) (7) 差量倒频谱参数(Delta cepstrum)虽然已经求出 13 个特征参数,然而在实际应用于语音识别时,我们通常会再加上差量倒频谱参数,以显示倒频谱参数对时间的变化。它的意义为倒频谱参数相对于时间的斜率,也就是代表倒频谱参数在时间上的动态变化,公式如下: 这里 M 的值一般是取 2 ,t代表音框的数目,cm(t)指第t框的倒谱参
24、数。 因此,如果加上差量运算,就会产生 26 维的特征向量;如果再加上差差量运算,就会产生 39 维的特征向量。一般我们在 PC 上进行的语音识别,就是使用 39 维的特征向量。有关MEL倒谱的几点补充:1在MEL倒谱的提取过程中要进行FFT运算,如果FFT的点数选取过大,则运算复杂度增大,使系统响应时间变慢,不能满足系统的实时性;如果FFT的点数选取太小,则可能造成频率分辨率过低,提取的参数的误差过大。一般要根据系统的具体情况选择FFT的点数,在本论文的实验中,FFT的点数取256,这样在8千赫兹采样频率时,对应的频率分辨率为3125赫兹,而一个共振峰的带宽为几百赫兹。2一般在MEL滤波器的
25、选择中,MEL滤波器组都选择三角形的滤波器。但是MEL滤波器组也可以是其他形状,如正弦形的滤波组等等。本文所采用的是三角形滤波器组合。3. 训练模型直接进行语音信号的Mel系数比对,计算量是很大的,而且比较结果难以赋予实际含义。所以我们要对采集进来的Mel系数进行处理。我们采用矢量量化的方法进行各个信号之间的比对,找到他们的差异系数,用于语音识别。矢量量化的基本原理:将若干个标量数据组成一个矢量(或是从一帧语音数据中提取的特征矢量)在多维空间给予整体量化,从而可以在信息量损失较小的情况下压缩数据量,这是仙农信息论中“率一失真理论”在信源编码中的重要应用。矢量量化有效的应用了各元素间的相关性,因
26、此比标量量化具有更好的压缩效果。矢量量化是把每个待识别说话人的语音看作一个信号源,用一个码本来表征,码本是从该说话人的训练语音序列中提取的特征矢量聚类而成。只要训练足够长,这个码本就可以认为包含了该说话人的个性特征。对于N个人的系统,需要建立N个码本。要求这些码本在特征空间中相互不重叠。这就是基于VQ的说话人的建模方法。通过矢量量化可以把大量分布在特征空间中的向量投射到这个空间中的有限点上, 既压缩了数据又不会对精度造成太大的影响。将矢量量化用于说话人识别系统的建模中, 这时的特征空间是由说话人的声学特征向量构成的,经过矢量量化后,每个说话人最具有代表性的特征向量的集合就构成了相应的说话人模型
27、(码书或码本)。其中,构成码本的单特征向量称为码字。在矢量量化系统中, 每个说话人的码本就是它的参考模型。首先, 用矢量量化的码本作为说话人识别的参考模板, 即为输入的语音中的每一个词或字做一个码本作为该词或字的参考模板,识别时对于任意输入的语音特征序列,计算该序列对每个码本的总平均的失真量化误差,即语音每一帧特征矢量与码本的失真之和除以该语音的长度(帧数 )。总平均误差最小的码本所对应的词或字即为识别结果。 VQ方法相对来说简单又容易实现,并且具有很好的识别性能,以及较快的执行速度。基于矢量量化的说话人识别系统有两个关键问题需要解决:一是如何获得高质量的量化码本,码本的质量很大程度上决定了整
28、个识别系统的性能,常用构建码本的的算法有LBG算法bol、随机局部搜索算法(Randomized Local Search,RLS)、遗传算法(Genetic Algorithms,GA)等。二是失真测度的选择。失真测度选取与与应用矢量量化的领域和采用的参数有关,常用的几种失真测度方法有:欧式距离测度、加权平方误差测度、ItakuraSaito谱失真测度等。本文选择了较常用的LBG算法生成码本,欧式距离测度进行失真测度。(1)用LBG算法生成码本我们将每个待识的说话人看作是一个信源,用一个码本来表征。码本是从该说话人的训练序列中提取的MFCC特征矢量聚类而生成。只要训练的序列足够长,可认为这个
29、码本有效地包含了说话人的个人特征,而与讲话的内容无关。 本系统采用基于分裂的LBG的算法设计VQ码本,为训练序列,B为码本。LBG算法的基本思想是:对于一个给定的训练序列数据集X(K维),首先用分裂法产生一个初始码书,即划分成M个聚类(Cluster);再计算每个聚类的质心,然后根据最邻近原则,将每个数据按照其与各个聚类质心的距离,重新分配到最近的聚类;再根据质心原则计算每个聚类的新质心;然后再计算此时的距离相对失真,若距离相对失真小于事先给定的值或迭代次数大于某个给定的值则结束,否则重复上述过程。 具体实现过程如下: 1. 取提取出来的所有帧的特征矢量的型心(均值)作为第一个码字矢量B1。2
30、. 将当前的码本Bm根据以下规则分裂,形成2m个码字。 其中m从1变化到当前的码本的码字数,是分裂时的参数,本文=0.01。 3. 根据得到的码本把所有的训练序列(特征矢量)进行分类,然后按照下面两个公式计算训练矢量量化失真量的总和以及相对失真(n为迭代次数,初始n=0,=,B为当前的码书),若相对失真小于某一阈值,迭代结束,当前的码书就是设计好的2m个码字的码书,转5。否则,转下一步。 量化失真量和: 相对失真: 4. 重新计算各个区域的新型心,得到新的码书,转3。 5. 重复2,3 和4步,直到形成有M个码字的码书(M是所要求的码字数),其中D0=10000。图4 矢量量化码本示意图(2)
31、 最佳码本的设计 所谓最佳设计,就是从大量信号样本中训练出好的码本;从实际效果出发寻找到好的失真测度定义公式;用最少的搜索和计算失真的运算量。最佳码本的设计,就是在一定条件下,使得d(X,Y)的统计平均最小。需满足下列条件: (1) 最邻近准则;根据该条件对信号空间进行最佳划分,得到Sl称为一个胞腔。(2)所有选择码字Yl的输入矢量X的集合为Sl, Yl是Sl中所有矢量的质心。根据这两条原则,这个算法就是LBG算法。 Nl为集合中矢量的个数第一步:初始化。给定全部参考矢量集合S,设定失真控制门限 , 算法最大迭代次数L,以及初始码本 ,设置总失真 ,初始迭代次数m=1,最大迭代次数为L。 第二
32、步:迭代。(1) 根据最邻近准则将S分成J个子集, (2)计算总失真 (3)计算新码字:每一个码字为其对应子集的质心。 (4)计算相对失真改进量, 与失真控制门限比较, 转入(5); 转入(6)。(5)若m大于L,则转入(6),否则m+1,转入(1)(6) 得到最终的码书4. 识别模型本系统采用的说话人识别算法为最小距离分类器。 在一个说话人识别器中,如从训练和测试数据的每一分析帧中获取了一系列的特征参数, 就把这些由每一帧得到的特征参数称为特征矢量。最简单的一种说话人识别方法就是根据测试数据和训练数据, 对说话人的多个分析帧的特征矢量计算平均值, 然后找出这些平均测试矢量和训练矢量之间的距离
33、。在说话人确认中, 设定一个距离的阈值, 小于此阈值, 可认为 “检测” 到了原说话人;在说话人辨认中, 把与测试说话人距离最小的说话人作为目标说话人。设是未知的说话人的特征矢量 ,共有T帧。 是训练阶段形成的码书,表示第i个码书第m个码字,共有N个码书(即N个说话人),每一个码书有M个码字。则对于说话人辨识用式(7)计算第i个说话人的平均量化失真 ,然后用同样的方法求出, 则最终的识别结果就是 最小者所对应的那个i, 即是所辨识的那个人。 (7)第三章 Matlab实验结果样本信号是7个不同人的语音文件,长度为1s,待识别信号为这7个人乱序的语音文件,长度为4s。利用分别执行训练和识别两条命令,相应结果如下: 经过验证可以看出,无噪声情况下的识别正确率达到了100%!给读取的语音信号添加上随机白噪声,再试识别效果。可见噪声背景下基本没什么识别率。首先对加噪信号进行端点检测,而后进行滤波除噪之后的实验结果:实验结果一:实验结果二:实验结果三:从上述三个结果可以看出,通过小波滤噪,对于加噪信号的识别率在60%以上,带噪的语音识别是专业领域接下来要解决的主要方面。第四章 应用程序心得体会 在为期四周的工程实践训练中,我们齐心协力地研究资料,编
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年工业互联网平台量子密钥分发技术产业创新与研发投入报告
- 2025年老年健康管理中慢性疼痛长期照护服务模式研究报告001
- 2025年新零售趋势分析报告:线上线下融合创新策略
- 考点攻克黑龙江省北安市7年级上册期末测试卷单元测评试题(详解版)
- 2025年教育信息化基础设施建设与教育信息化项目市场前景研究报告
- 2025年城市轨道交通智慧运维系统在地铁通信网络中的应用报告
- 基础强化人教版8年级数学下册《一次函数》专项训练试题(详解版)
- 护士企业编制面试题库及答案详解【必刷】
- 临床药物治疗学期末考试复习题库及答案详解【名校卷】
- 基础强化人教版8年级数学上册《全等三角形》专题训练试题(含答案解析版)
- 中级职称评审述职报告
- 2025年9月-2026年1月安全工作安排表
- 北京市律师协会律师办理法律尽职调查业务操作指引
- 在接受诫勉谈话时的检讨及整改情况报告
- 2025年四川省高考化学试卷真题(含答案解析)
- 难治性痛风中西医结合诊疗专家共识解读 4
- 小学生养成文明行为习惯自评检查表
- 2025山西航空产业集团有限公司校园招聘(第一批)43人笔试参考题库附带答案详解(10套)
- 2025年高级(三级)评茶员职业技能鉴定《理论知识》真题卷(后附答案及解析)
- 2024版电网典型设计10kV配电站房分册
- 献县地热管理办法
评论
0/150
提交评论