语音识别.ppt_第1页
语音识别.ppt_第2页
语音识别.ppt_第3页
语音识别.ppt_第4页
语音识别.ppt_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、语音识别, 语音识别技术简介 特征提取算法 RBF识别网络 语音识别系统,主要内容,语音识别最基本的定义是“电脑能听懂人类说话的语句或命令,而做出相应的工作”。也就是说,如果电脑配置有“语音识别”的程序组,那么当你的声音通过一个转换装置输入电脑内部、并以数位方式存储后,语音识别程序便开始以你的声音样本与事先存储好的声音样本进行对比工作.声音对比工作完成后,电脑就会输出一个它认为最“象”的声音样本序号,由此可以知道你刚才念的声音是什么意义,进而执行命令。计算机自动语音识别的任务就是研究如何利用计算机从人的声学语音信号中提取有用信息,并从中确定语音信号的语言含义。其应用背景及学科基础如图所示。其最

2、终目标是实现人与机器进行自然语言通信。,语音识别技术,语音识别具有广阔的应用前景,随着信息产业和互联网的快速发展,对语音识别的需求也更加迫切。比如在声讯服务中,要实时查询股票交易、航班动态、车站票务动态等,用传统的声讯技术已难以胜任,而用语音技术则能解决这些海量信息的动态查询。还有,人们希望在嵌入式系统中做成无处不在的信息家电,希望把因特网上的信息用电话送到千家万户,还有一个更美好的愿望,就是在不久的将来,能够把语音、图像、动画与互联网技术相结合,造就虚拟现实的新一代多妈体,语音技术大大降低了人们迈进信息时代的门槛,并开辟了许多新的信息服务及应月领域,它现在形成一个新兴的产业。正因为如此,世界

3、各国不仅把语音技术列入了高技术研究计划,而且作为21世纪信息产业的重要竞争市场。,国内外发展动态,语音识别的研究工作大约开始于五十年代,当时AT预测一误差定义为真实采样值与预测值之差,根据预测误差均方值最小准则,可以唯一确定一组预测系数(预测系数即为线性组合的加权值)。,LPCMCC(LPC 美尔倒谱系数 ),图 LPCMCC算法流程,下面结合流程图,将LPCMCC具体求解的具体实现介绍一下。, 信号的预处理,这个环节主要是对一段语音信号进行预加重、分帧加窗的处理。 预加重的目的是提升高频部分,似信号变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析.

4、 分帧一般采用交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持其连续性。分帧是用可移动的有限长度窗口进行加权的方法来实现的。这就是用一定的窗函数 来乘 ,从而形成加窗语音信号 。,图 1 对信号进行分帧( N为帧长,M为帧移。 ),加窗可采用加矩形窗、哈明窗和混合窗。窗函数W(n)的选择(形状和长度),对短时分析系数的特征影响很大,为此应选择合适的窗口,使其短时参数更好的反映语音信号的特征变化。本算法采用加哈明窗 :,线性预测系数LPC,LPC为用线性预测法分析语音时得到的有关语音相邻样值间某些相关特性的参数组。线性预测分析即用一语音样本值能用过去若干语音样值的线性组合来近似估计。按在某分析

5、帧(短时)内实际的各语音样本与各预测得到的样本间差值的平方和最小准则,可以决定唯一的一组预测系数,即LPC(语音短时自相关系数),可以自相关法,如Durbin算法。,LPC 倒谱,依据语音信号产生的生理和数学模型可知,语音信号是音源激励分量与声道冲激响应、辐射模型三者相卷积的产物。因此通过语音信号的倒谱分析可有效地分离激励成分与声道成分。 计算语音信号的倒谱通常有两种方法:其一是先对语音信号进行短时付里叶变换,取其模的对数值,再进行反变换,得其倒谱。声道信息可通过低时窗取出。,其二是依据AR模型对LPC参数进行递推,形成LPC倒谱,LPC 倒谱(LPCC)由于利用了线性预测中声道系统函数的最小

6、相位特性,避免了复杂的相位卷积和复对数计算;且LPC倒谱的运算量仅是用FFT 求倒谱时运算量的一半,适于实时应用,它的递推式如下:,本算法选用第二种方法,式中 为P阶LPC特征向量,P取10阶。从 为倒谱的前n个值,当取(832)时一般可较好的表征声道特性。,LPC 美尔倒谱系数(LPCCMCC),因为,人耳所听到的声音的高低与声音的频率并不成正比关系,而用Mel频率尺度则更符合人耳的听觉特性。将LPC 倒谱系数(LPCC)按符合人耳听觉特性的Mel尺度进行非线性变换,从而求出如下所示的LPC美尔倒谱系数(LPCCMCC)。它的递推式如下:,式中, 表示倒谱系数, 表示美尔倒谱系数,n为迭代次

7、数,k 为倒谱阶数,一般nk。迭代时n 从k,k-1,k-2.,0取值,求得的美尔倒谱系数放在 里。当抽样频率分别为10KHZ,8KHZ 时, 分别取0.35,0.31,这样可近似于美尔(Mel)尺度。 从参数推导计算过程可看出,LPCCMCC 也能表征人耳特性,而且LPCCMCC还考虑到了声道特性,在检测识别时具有相当的优势。,识别方法介绍,一般来说,语音识别的方法有四种 : (1)基于声道模型和语音知识的方法 (2)模式匹配方法 (3)统计型模型方法 (4)人工神经网络方法,基于声道模型和语音知识的方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由于其模型及语音知识过于复杂,

8、现阶段没有达到实用的阶段 。,模式匹配常用的技术有动态时间规整(DTW)和矢量量化(VQ) ;统计型模型方法常见的是隐马尔可夫模型;语音识别常用的神经网络有反向传播(BP)网络,径向基函数网络(RBF)及新兴的小波网络。,动态时间规整(DTW),动态时间弯折是一种效果很好的非线性时间规整模板匹配法。例如对于孤立词识别,将每个词重复多遍发音,直到得到一个一致性较好的特征矢量序列,从而形成一个模板,在识别时,待识别矢量序列用DTW算法分别求得与每个模板的累计失真,然后判别它属于哪一类。,矢量量化(VQ),DTW方法是针对时间对准问题的,我们希望不考虑时间顺序任意指定时间对准点,这意味着没有任何时间

9、归一化的处理。矢量量化就时完全忽略时间信息的一种方法。对于孤立词,首先为词会表中的每个但词建立一个码本,这些码本是分离的,它们即为每个单词的模板,识别过程指不过是搜寻誉为指单词有最佳拟合的码本问题,即每个输入矢量必须和每个码本所有码字进行比较。,关于神经网络在语音信号处理中的应用研究十分活跃,其中以在语音识别方面的应用最令人瞩目。目前,主要是从听觉神经模型中得到启发,以便构成一些具有类似能力的人工系统,使它们在解决语音信号处理(特别是识别)问题时能得到较好的性能。研究神经网络以探索人的听觉神经机理,改进现有语音语音识别系统的性能,是当前语音识别研究的一个重要方向。在模式识别的应用中,多采用Bp

10、网和RBF网等前向神经网络来实现。,神经网络,在过去一段时间,用得较多的是BP网络。但BP网络也有其自身的不足,那就是训练时间长,且容易陷入局部极小值。径向基函数(RBF)网络也是前馈网络中一类特殊的三层前向神经网络,其针对性强,学习方法简单、方便的特点,为前馈网络提供了一条新的思路。它是一种性能良好的前向网络它不仅有全局逼近性质,而且训练方法快速易行,不存在局部最优问题。RBF这一新颖的网络类型的出现,给神经网络的研究及应用带来了新的生机。RBFNN的优良特性使得它正显示出比BP网络更强的生命力,正在越来越多的领域内成为替代BP网络的一种新型网络。,径向基函数(RBF-Radial Basi

11、s Function)是多维空间插值的传统技术,由Powell于1985年提出。1988年Broomhaced将径向基函数和多层神经网络进行了对比,揭示出二者的关系。Moody和Darken在1989年提出了一种新颖的神经网络-径向基函数神经网络(RBFNN)。同年,Jackon论证了径向基函数网络对非线性连续函数的一致逼进性能。到目前为止,已经提出了许多种RBF网络的训练算法。RBFNN的优良特性,使其成为替代BP网络的另一种神经网络,越来越广泛地应用于各个领域。, RBF神经网络的发展,RBF神经网络,RBF网络拓扑结构,径向基函数神经网络(简称RBFNN)是一种三层前向神经网络。它的隐层

12、激活函数是一种径向对称的核函数。当输入样本传播到隐单元空间时,这组核函数构成了输入样本的一组“基”。因此,这种神经网络称为径向基函数神经网络。RBFNN具有以下特点: 是一种静态网络; 与函数逼近理论相吻合; 具有唯一最佳逼近点; 网络连接权值与输出呈线性关系。, RBF神经网络的特点,径向基网络与一般的三层BP网结构很相似, 区别有两点: 1.输入层到隐层之间权值固定为1,只有隐层 到输出层之间的全值可调节。 2.隐层神经元的激活函数不同,它用一种具有 局部作用性质的函数代替了BP网常用的Sigmoid 函数。RBF网最常用的激活函数是高斯函数,从上面的分析可知,RBF 网络由两部分组成(设

13、输入维数为 p,隐单元数为 m,输出维数为 q):, 第一部分:从输入空间到隐含层空间的非线性变换层,第 i 个隐单元输出为:,其中:g(.)为隐单元的变换函数(即径向基函数),一般取为 Gauss 函数,即,x 为 p 维的输入向量,即,为第 i 个非线性变化单元的“中心”向量。,为非线性变化单元的宽度。, 第二部分:从隐含层空间到输出层空间的线性合并层,第 j 个输出,其中: 为第 i 个隐单元与第 j 个输出之间的连接权值; y 为 q 维的输出向量,即 。,在RBF网络中可以调整的参数有:隐节点激励函数,隐节点中心和半径,隐层节点个数和隐层至输出的连接权值。RBF网络的学习方法有两种:

14、 1参数同时训练。 2两阶段训练。 确定每个RBF隐单元的中心和半径; 调节权值矩阵(线性最小二乘法)。, RBF网络的学习,基于RBF网络的语音识别原理图, 具体实验步骤如下:,第一步:提取特征 第二步:确定网络结构 第三步:确定隐函数中心(聚类方法) 第四步:确定半径(根据公式 ) 第五步:训练隐层到输出层的连接权值(最小二乘法) 第六步:对测试集单词进行识别,K均值聚类算法步骤(LBG算法):,即按照一定的失真测度,对训练数据进行分类,从而把训练数据在多维空间中划分成一个个以形心(码字)为中心的胞腔。这个过程需要一个由大量的矢量构成的样本集,经过统计实验后确定出各个胞腔的中心矢量。下面是

15、LBG算法的具体步骤:, 初始化: 采用某种适当的方法选一个包含N个码字的初始码本矢量。 分类 : 按最近邻(Nearest Neighbor)准则,以码字为中心,将训练矢量集中的所有矢量分到各个胞腔中,形成N个区域。 产生新码本:重新计算每个区域新的中心,并以此作为该区域的新码字。计算所有训练矢量的总失真度。 结束判断: 判断这一次的总失真测度比上次总失真测度下降至是否达到预先设定的某一阈值,如果达到阈值则停止,否则转步骤2。,改进的RBF算法,1. K-均值法是一种无监督的学习算法,在学习过程中并没有充分利用样本给出的信息,识别效果不理想。所以采用有监督地选取隐层各单元的中心(逐级均值聚类算法)。 2. 基于小波神经网络的改进, 将隐层节点数设为单词的分类数。 根据训练数据的归类信息确定中心,对每个单 词类对应的所有训练样本取形心做为隐节点质心. RBF网络作为分类器,对于差异大的数据能 很好分类。方差控制了接受域的大小,只有落入 中心的接受域范围内的,经过这个中心的隐节点 产生最大输出。,1. 逐级均值聚类(对中心值), RBF网络识别结果比较:,K-均值法选取中心的识别结果(%),有监督地选取中心的识别结果(%),2. 小波RBF网络,小

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论