(通信与信息系统专业论文)基于回归神经网络方法的孤立词语音识别.pdf_第1页
(通信与信息系统专业论文)基于回归神经网络方法的孤立词语音识别.pdf_第2页
(通信与信息系统专业论文)基于回归神经网络方法的孤立词语音识别.pdf_第3页
(通信与信息系统专业论文)基于回归神经网络方法的孤立词语音识别.pdf_第4页
(通信与信息系统专业论文)基于回归神经网络方法的孤立词语音识别.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

(通信与信息系统专业论文)基于回归神经网络方法的孤立词语音识别.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究作出重要贡献的个人和集体,均已在文中以明确方式标明。本人完 全意识到本声明的法律责任由本人承担。 论文作者签名:蒸l 塑! !日 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学校 保留或向国家有关部门或机构送交论文的复印件和电子版,允许论文 被查阅和借阅;本人授权山东大学可以将本学位论文的全都或部分内 容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保 存论文和汇编本学位论文 f 保密论文在解密后应遵守此规定) 论文作者签名:灶导师签看蕴垒竖日 山东大学硕士学位论文 中文摘要 本文通过研究现代语音识别技术和神经网络技术,提出了一种基于回归神经 网络方法的孤立词识别技术。主要探讨了语音信号的时变特性,研究了语音信号 的端点检测算法,提取了描述语音信号的时域和变换域特征参数,探索将回归神 经网络应用于语音识别。在研究回归神经网络的结构和原理基础上,建立了基于 回归神经网络的语音识别模型,采用不同参数、不n _ i j i i 练方法对识别模型进行训 练和识别。 对语音库中大量样本语音的实验结果表明,采用回归神经网络技术可以实现 对孤立词语音的正确识别,语音识别模型具有良好的训练和识别性能。 【关键词】孤立词,特征参数,回归神经网络,语音识别 2 山东大学硕士学位论文 i s o l a t e dw o r d r e c o g n i t i o n m o d e l b a s e do nr e c u r r e n tn e u r a ln e t w o r k s 【a b s t r a c t t oo v e r c o m es o m ew e a k n e s s e so fh i d d e nm a r k o vm o d e li ns p e e c h r e c o g n i t i o n ,h m m n nh y b r i ds y s t e m s h a db e e n e x p l o r e db ym a n y r e s e a r c h e r si n r e c e n ty e a r s i nt h ep r e v i o u sh m m n nh y b r i ds y s t e m s ,t h en e u r a ln e t w o r k s a d o p t e d a r em o s t l ym u l t i l a y e rp e r c e p t r o n ( m l p ) i no u r s y s t e m ,r e c u r r e n tn e u r a l n e t w o r k s ( r n n ) w e r eu s e dt ot a k et h ep l a c eo fm l p a st h es y l l a b l ep r o b a b i u 母 e s t i m a t o r r n ni sm l p i n c o r p o r a t e dw i t haf e e d b a c kw h i c hc a nt r a n s p o r tt h e o u t p u to fs o m e n e u r o n st oo t h e rn e u r o n so rt h e m s e l v e s t h ei n c o r p o r a t i o no f f e e d b a c ki n t oam lp g i v e st h en e tt h ea b i l i t yt oe f f i c i e n t l yp r o c e s st h ec o n t e x t i n f o r m a t i o no ft i m es e q u e n c e ,w h i c hi se s p e c i a l l yu s e f u lf o rs p e e c hr e c o g n i t i o n i n t h i sp a p e r ,t h ea r c h i t e c t u r eo ft h er n ni sm o d i f i e da n dc o r r e s p o n d i n gt r a i n i n g s c h e m ai sp r e s e n t e d e x p e r i m e n tr e s u l t ss h o wt h a tt h et r a i n i n gs p e e dc a nb ea c c e l e r a t e db yt h e m e t h o d ,a n dt h er e c o g n i t i o np e r f o r m a n c e i sa l s oi m p r o v e d k e y w o r d s i s o l a t e dw o r d ,r e c u r r e n t n e u r a l n e t w o r k s ,s p e e c hr e c o g n i t i o n 3 山东大学硕士学位论文 i 、v r c w r c s r h m m n n m 儿p t d n n r n n l p c l p c c m 暇c c 符号说明 ( i s o l a t e dw o r d r e c o g n i t i o n ) 孤立词识别 ( c o n n e c t e dw o r d r e c o g n i t i o n ) 连接词识别 ( c o n t i n u o u s 印e e c hr e c o g n i t i o n ) 连续语音识别 ( h i d d e n m a r k o v m o d e l ) 隐马尔可夫模型 ( n e u r a l n e t w o r k s ) 神经网络 ( m u l t i l a y e r p r e c e p t r o n s ) 多层感知器 ( t i m e d e l a y n e u r a l n e t w o r k ) 时延神经网络 ( r e c u r r e n t n e u r a ln e t w o r k s l 回归神经网络 线性预测参数 线性预测倒谱参数 m e l 频率倒谱参数 4 山东大学硕士学位论文 第一章引言 从六十年代起人类便开始了语音识别技术的研究,其目的就是使机器能够理 解人类的自然语言。现在的语音识别技术已经取得了很大进展,经过诸多学科领 域的专家学者长期研究,出现了一些比较成熟的技术如隐马尔可夫模型( h i d d e n m a r k o v m o d e l ,h m m ) 等,广泛应用于模式识别、图像处理、控制和优化、预报 和智能信息处理、通信和空间科学等领域。 隐马尔可夫模型( h m m ) 亦是目前语音识别领域最成功的模型。然而h m m 模型有着一定的局限性,如何克服h m m 的一阶假设和独立性假设带来的问题一 直是研究讨论的热点,这些局限性使得使用单一的h m m 模型方法进一步提高语 音识别性能变得很困难| l 】。人们开始寻求新的更有效的语音识别方法。 神经网络技术引入到语音识别领域加快了语音识别技术的发展。神经网络 ( n e u r a l n e t w o r k s ,n n ) 采用非线性处理单元来模拟生物神经元,以其高度的容 错性、并行性、联想性和自组织学习能力而倍受人们青睐,并被广泛应用于信息 处理、人工智能、自动控制、生物医学、通信等各个领域。语音识别是神经网络 的个重要应用领域,将神经网络用于语音识别主要是利用神经网络较强的分类、 聚类和非线性变换能力,高效的学习算法以及人的认知系统的模仿能力,使得神 经网络极适宜于解决类似语音识别这样的问题,这些正是传统语音识别技术的不 足之处。基于这些人们开始把n n 和h m m 这两种方法结合在一起运用到语音识 别中,产生了n n h m m 混合模型。 目前应用于语音识别的n n h m m 混合模型中的神经网络有多种,比较典型 的有多层感知器( m l p ) 、自组织特征映射( s o f m ) 、径向基函数网络( r b f ) 等,其中,研究最多的是m l p 。这是由于m l p 具有基于误差反向传播( b p ) 极 强的学习能力,可以实现输入输出信号间的足够复杂的映射。但是,上面提及的 几种神经网络的一大缺陷是它们只能实现静态输入输出模式对的联想,是静态模 式分类器。语音信号是具有短时平稳性的时变动态信号,应该采用与时间有关的 动态神经网络结构以记忆语音信号的动态信息特征。为此近几年有人提出了一些 山东大学硕士学位论文 可用于语音识别的动态神经网络,如时延神经网络( t d n n ) 和回归神经网络 ( r n n ) 1 2 1 。 回归神经网络( r e c u r r e n t n e u r a l n e t w o r k s ,对州】是一种既有前馈连接,又有 反馈连接的特殊神经网络。反馈连接的存在,使得神经网络能够存贮前一时刻的 信息,具有动态神经网络特性,适合于具有动态时变特性的语音信号的识别。本 文准备将回归神经网络应用于语音识别系统,用纯神经网络代替n n i - i m m 混合 系统,建立以回归神经网络为基础的语音识别模型,完成对孤立词语音信号的训 练和识别。 基于回归神经网络的语音识别系统流程见图1 - 1 。 孤立词 语音库 特征 提取 建立回归 神经网络 识别模型 模型训练h 识别 和识别 ll 结果 图1 - 1 :回归神经网络语音识别系统 本论文主要由五部分组成。第一部分为引言,简单介绍了论文研究的背景; 第二部分介绍了语音识别系统及信号特征;回归神经网络的结构和原理在第三部 分给出:第四部分是实验数据和讨论,主要对语音识别模型进行了训练、识别及 性能分析:第五部分为结束语。 山东大学硕士学位论文 第二章语音信号识别 2 1 概述 语音信号识别的研究目的是让机器“听懂”人类口述的语言。听懂有两个含 义,第一种是将这种1 3 述语言逐字逐句地转换为相应的书面语言,第二种则是对 口述语言中所包含的要求或询问做出正确的响应。 语音识别是近年来十分活跃的一个研究领域。在不远的将来语音识别技术有 可能作为一种重要的人机交互手段,辅助甚至取代传统的键盘、鼠标等输入设备, 在个人计算机上进行文字录入和操作控制。而在手持式p a d 、智能家电、工业现 场控制等应用场合,语音识别技术则有更为广阔的发展前景。尤其是在包括p a d 、 手机等的掌上型嵌入式系统中,键盘的存在已经大大妨碍了系统的小型化,然而 这些系统越来越趋向于智能化、信息化,不仅可以显示大量的文字和图形,还需 要提供方便的文字输入能力,传统的键盘输入方式已经不能胜任,而语音识别技 术就是一种极富潜力的替代手段。因此研究语音识别技术有着广泛的应用价值和 发展前景。 2 2 语音识别系统 一语音识别系统分类 每一个语音识别系统都必须有一个词汇表,系统只能识别表中所包含的词条, 词的数量越多则系统的实现越困难。词数小于1 0 0 时称为小词汇表,1 0 0 至5 0 0 称为中词汇表,超过5 0 0 时称为大词汇表。 被识别语音按述说方式可分为孤立词识别( i s o l a t e dw o r dr e c o g n i t i o n , i w r ) 、连接词识别( c o n n e c t e dw o r dr e c o g n i t i o n ,c w r ) 和连续语音识别 ( c o n t i n u o u ss p e e c hr e c o g n i t i o n ,c s r ) 等三种识别方式。孤立词识别方式是指说 话人每次只说一个词、一个词组或一条命令让识别系统识别。其中的词汇或命令 在词汇表中都算作一个独立词条。连接词识别一般特指十个数字( 0 9 ) 连接而 7 山东大学硕士学位论文 成的多位数字的识别,有时还可加上少量的操作指令,这时词汇表只有这十个数 字及少数指令构成。连续语音识别是指说话人以日常自然的方式讲述并予以识别。 语音识别系统可以是针对一个用户,称为特定人识别:若是针对任何人的, 称为非特定人识别;如果只需识别语音中关键的词条,则称为关键词识别。 二语音识别系统的基本构成 语音识别系统传统的实现方案如图2 - 1 所示: 图2 - 1 :传统的语音识别系统 出 首先进行预处理,将人发出的模拟语音信号进行采样和量化,转变成数字语 音信号,对语音信号进行端点检测等。语音信号进行预处理后,接下来很重要的 一环就是语音信号的特征参数提取,用于模型的训练和匹配。在训练阶段,将特 征参数进行一定的处理后,为每个词条得到一个模型,保存为模板库。在识别阶 段,语音信号经过相同的处理得到特征参数,生成测试模板,与参考模板进行匹 配,将匹配分数最高的参考模板作为识别结果。同时还可以在很多先验知识的帮 助下,提高识别的准确率。 2 3 语音信号特征分析 语音信号识别一个最根本的问题是合理的选用语音信号特征。语音信号是一 种典型的时变信号,但如果把观察时间缩短到十毫秒至几十毫秒,则信号表现出 一定的周期性 3 1 ( 图2 2 ) ,可以得到一系列近似稳定的信号。据此我们可以从中 提取体现语音信号的特征参数。 8 山东大学硕士学位论文 图2 - 2 :放大的信号波形图 一般将语音信号的特征参数分为两类:第一类为时域特征参数,通常将一帧 语音信号的各个时域采样值直接构成一个参数,比如短时平均幅度、短时平均过 零率等。第二类为变换域特征参数,即对一帧语音信号进行某种变换后产生的特 征参数,比如l p c c 、m f c c 等参数。前者的优点在于计算简单,缺点是不能压 缩维数且不适于表征幅度谱特性。与此对应,各种变换域特征参数的计算比较复 杂,但能从不同的角度反映幅度谱的特征。以下是几种在语音识别领域比较典型 的特征参数: 1 ) 短时能量; 2 1 过零率; 3 1 线性预测参数l p c : 4 ) 线性预测倒谱参数l p c c ; 5 ) m e l 频率倒谱参数m f c c 。 下面简单介绍各种参数的基本定义和算法。 一短对能量 语音信号的短时能量描述了信号幅度随时间变化的特征。用数学公式描述为 山东大学硕士学位论文 e = 【x ( m ) 吣一m ) 2 m 一 二短时平均过零率 ( 2 - 1 ) 在离散时间信号情况下,如果相邻的抽样具有不同的代数符号就称为发生了 过零。由于语音信号是宽带信号,要想较精确地描述信号的特征,可以在短时间 内观察信号的过零率,称为短时平均过零率。其定义为: 乙= is g n x ( m ) 一s g n x ( m 一1 ) | w ( n m ) ( 2 - 2 ) 其中 1工“? 1 0 8 9 n x ( ”) 2 1x ;h ; o 和 1 0 ”n 一1 矽”2 蛩 其它 三线性预测参数l p c 线性预测分析从人的发声机理入手,通过对声道的短管级联模型的研究,认 为系统的传递函数符合全极点数字滤波器的形式。训,从而r 时刻的信号可以用前若 干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之 间达到均方差最小l m s ,即可得到线性预测参数l p c 。 l p c 参数的求解算法 对于一个全极点线性预测模型,采样点”的输出j ( n ) ,可以用前面p 个样本 的线性组合来表示: s ( n ) a t s ( n 一1 ) + a 2 s ( n 一2 ) + + 口p s ( 门一p ) 佗- 3 ) 山东大学硕士学位论文 其中,口l ,口:,口。为常数a 上式可以改写为: s ( ”) :妻s ( n 一i ) + g “( n ) 其中,g u ( n ) 是一个归一化冲击响应及其增益系数的乘积。 定义系统输出的估计为 ;( n ) = 艺a k s ( n 一i ) 可以得到系统的估计误差: 。( 。) :。( 。) 一;( ”) :s ( 一) 一杰。s ( 一一尼) 线性预测误差等于激励与增益的乘积,即: e ( n ) = g u ( n ) 定义起点为i i 的短时语音信号和误差信号为 j 。( 删) = s ( n + 小) e 。( m ) = e ( n + m ) 误差平方和为 b :巳:( 肌) :z t 凡( 珑) 一兰n 。毛( 州一七) 】2 mk - 1 ( 2 - 4 ) ( 2 - 6 ) ( 2 7 ) ( 2 - 9 ) ( 2 - l o ) 山东大学硕士学位论文 上式对各阶l p c 参数求导,并令其分别为零,可以得到: 毛沏一喊( m ) :壹一a 。l ( m f ) s 。协一七) mk - - i“ 由相关函数定义o ( i ,女) = ( m - i ) s 。( m - k ) 可以得到: 烈f ,o ) :圭:哦( f ,七) , 尼:1 ,2 ,p i ,l 佗- 1 1 ) 佗- 1 2 ) ( 2 - 1 3 ) 该式表示p 个方程构成的方程组,未知数为p 个。求解该方程组,就可以得到系 统的线性预测参数l p c 。 系统的最小均方误差可以表示为: i 一= ;2 ( m ) 一;1 7 - - a t ;s 。h 一女) = ( o ,o ) 一喜二哦( 。, ( 2 14 ) 求解方程组( 2 - 1 3 ) 的方法很多,主要有自相关法( 杜宾d u r b i n 法) 、协方差法、 格型法等等。d u r b i n 法的递推公式: e 。”= r 。( o ) 七:= 胄。( f ) 一口j - i ) r 。( i - j ) = k , 口= 口j 一”一七j 口卜卜n , 1 , f e 。“= ( 1 一k i 2 ) e “ ( 2 - 1 s ) ( 2 1 6 ) ( 2 - 1 7 ) ( 2 - 1 8 ) ( 2 - 1 9 ) 山东大学硕士学位论文 其中,上标( i ) 表示第i 次迭代,每次迭代只计算和更新口。,d :,口,直到f = p 时,结束迭代。 四线性预测倒谱参数l p c c 在语音识别系统中,很少直接使用l p c 参数,而是由l p c 参数推导出另一 种参数线性预测倒谱参数( l p c c ) 1 4 j 。使用倒谱可以提高特征参数的稳定性。 l p c 与l p c c 之间有下面的递推关系: c o 。l o g g ( 2 _ 2 0 ) c 。= 。+ z ;- 毫c 。a 。一。l - m r ( 2 - 2 1 ) ( 2 - 2 2 ) 其中,c 。是直流分量,在语音识别中通常不用。当l p c c 的阶数不超过l p c 阶数p 时,用第( 2 - 2 1 ) 式进行计算,如果l p c c 阶数大于p ,则用( 2 - 2 2 ) 式进行计 算。 五m e l 频率倒谱参数m f c c m e l 频率倒谱参数m f c c 不同于l p c 参数通过对人的发声机理的研究而得 到的声学特征,m f c c 是受人的听觉系统研究成果推动而导出的声学特征。对人 的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音 调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音 调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。 m e l 刻度是对这一临界带宽的度量方法之一。 m f c c 参数的计算是以m e l 频率为基准的,它和线性频率的转换关系为: f , , a = 2 5 9 5 l 。g ,。( 1 + - 丢6 0 0 ) 13 ( 2 - 2 3 ) 山东大学硕士学位论文 m f c c 参数是按帧计算的。首先要通过f f t 得到该帧信号的功率谱s ( n ) , 转换为m e l 频率下的功率谱。在计算之前,需要先在语音的频谱范围内设置若干 个带通滤波器: h 。( n ) ,= 0 , 1 ,m - 1 , n = o ,l i 1 一l m 为滤波器的个数:为一帧语音信号的点数。滤波器在频域上为简单的 三角形,其中心频率为l ,它们在m e l 频率轴上是均匀的。在线性频率上,当r a 较 小时,相邻的l 间隔很小,随着m 的增加,相邻的lf e 7 1 辑逐渐拉开。另外在频率 较低的区域,二和厂之间有一段是线性的。 m f c c 参数的计算通常采用以下流程 ( 1 ) 首先确定每一帧语音采样序列的点数n 。对每帧序列s ( n ) 进行预加重处 理后再经过离散f f t 变换,取模的平方得到离散功率谱s ( n ) 。 ( 2 ) 计算5 ( n ) 通过m 个打。( n ) 后所得的功率值,即计算s ( n ) 和日。( n ) 在各 离散频率点上乘积之和。得到m 个参数己,m = 0 ,l ,村一1 。 ( 3 ) 计算只的自然对数,得到三。,所= o ,l ,一l 。对厶,l 。,匕一。 计算其离散余弦变换,得到上l ,m = o ,l ,m l 。 ( 4 )舍去代表直流成分的d 。,取d ,d ,d 。作为m f c c 参数。 标准的l v i :f c c 参数只反映了语音信号的静态特性,而人耳对语音的动态特征 更为敏感,要获得反映语音动态变化的参数,可以用差分倒谱参数来描述。 差分倒谱参数可用下式计算: l4 山东大学硕士学位论文 d ( n ) =( 2 - 2 4 ) 这里c 和d 都表示一帧语音参数,k 为常数,这时差分参数就称为当前帧的 前两帧和后两帧参数的线性组合。由上式计算得到的差分参数为一阶m f c c 差分 参数,用同样的公式对一阶差分参数进行计算,可以得到二阶差分m f c c 参数。 在实际应用中,将m f c c 参数和各阶差分参数合并为一个矢量,作为一帧语音信 号的m f c c 参数。 在描述语音信号的特征中,低阶参数不能准确表达语音信号的特征,而阶数 太高则增大语音识别系统的复杂度,因此选取合适的参数阶数是非常必要的。在 大多数语音识别系统中,通常选取1 0 至1 5 阶l p c 、l p c c 、m f c c 参数吼 2 4 语音信号端点的检测 汉语语音信号分为浊音和清音两种。浊音为声带振动发出,对应的语音信号 有幅度高、周期性明显的特点;而清音则不会有声带的振动,只是靠空气在口腔 中的摩擦、冲击或爆破而发出,其幅度和能量比较小。浊音和清音具有不同的语 音特征。 语音信号的特征影响整个语音识别系统的性能,语音信号的提取即检测语音 信号何时开始何时结束,是提取语音特征的前提。我们从描述语音信号的时域方 法,利用语音信号的短时平均幅度、短时平均过零率和短时能量等算法,来检测 语音信号的开始端点和结束端点。 一短时平均幅度算法 显而易见,当出现语音信号时,其短时平均幅度将出现明显变化。根据这点 可以检测语音信号的两个端点。信号的短时平均幅度由式( 2 - 2 5 ) 给处。 r e ( i ) = ix i ( h ) ( 2 - 2 5 ) 一辱 山东大学硕士学位论文 二短时能量算法 在大多数的实际应用中,经常用短时能量的概念来代替短时平均幅度,描述 语音信号的幅度特征。短时能量可以用以下几种算法得到: e ( i ) = 2 :i ( n ) p ( d = t 2 ( 疗) ( 2 2 6 ) ( 2 2 7 ) n p ( f ) = l o g 葺2 ( n ) ( 2 - 2 8 ) - 1 分别称为绝对能量、平方能量和对数能量。 当语音信号开始时,其短时能量将变大,当语音信号结束时,其短时能量将 逐渐消失,利用短时能量也可以简单的实现语音信号的端点检测。 三短时平均过零率算法 在语音信号中,浊音语音能量多数集中在3 k i t z 以下,而对于清音语音,多 数能量则是出现在较高的频率上。由于高频率意味着高的过零率,低频率意味着 低的过零率,因此在过零率和能量的频率分布之间就有一定的相关性。一般的来 说,如果过零率高,语音信号就是清音;如果过零率低,语音信号就是浊音1 引。 由公式( 2 2 ) 可以计算语音信号的短时平均过零率。 l6 山东大学硕士学位论文 第三章回归神经网络 3 1 人工神经网络概述 人类研究神经网络已有6 0 年的历史,从8 0 年代“h o p f i e l d 模型理论”出现 以来,人工神经网络的发展进入了新的阶段,被广泛应用于模式识别、图像处理、 控制和优化、预报和智能信息处理、通信和空间科学等领域。回归神经网络的提 出引起了研究者们的高度关注,它把反馈思想引入到神经网络,使人工神经网络 的研究和应用取得了新的进展。 人工神经网络是受到动物神经系统的启发,利用大量简单处理单元互联而构 成的复杂系统,以便用来解决一些复杂模式识别与行为控制问题。神经元、网络 拓扑结构和学习训练算法是构成人工神经网络的三个最基本要素。 1 神经元:即处理单元,或称节点。它的作用是把若干输入加权求和,并 对这种加权和进行非线性处理然后输出。 2 网络拓扑:即神经元彼此连接的方式,根据连接方式的不同,网络可分 为回归( r e c u r r e n t ) 型网以及非回归型网,前者指的是在神经元之间存在着反馈 连接。对于非回归型网来说,如果神经元是分层次捧列的,并且每一层神经元上 只与其上一层神经元相连,则这种网称为前馈型网。 3 网络的训练( 学习) 算法:这是一些决定连接各神经元的初始权值以及 如何随着训练模式的加入而调整权值的方法,以便使网络具有所需的性能。 3 2 回归神经网络结构分析 回归神经网络( r e c u r r e n tn e u r a ln e t w o r k s ,r n n ) 是人工神经网络的重要 组成部分,它既有前馈连接。又有反馈连接。反馈连接可将某一层神经元的激活 输出经过一个或几个时间节拍以后送到同一层的神经元,或送到较低层次的神经 元。在网络中加入反馈连接可以处理与时间有关的状态序列,使得网络可以“记 忆”以前输入所引起的激活特性。在这一点上对处理语音信号具有独特优势。 17 山东大学硕士学位论文 在回归神经网络中,当前状态x ( t ) 是当前输入u ( ,) 和前一状态x ( t - 1 ) 的非 线性函数,即: x ( t ) = ,( u ( f ) ,x ( t 一1 ) ) 处理回归神经网络时,可以引入“关联节点”( c o n t e x tn o d e ) 的概念。它是 一个假设的节点,用来暂存相关节点的输出,并经过一定时延再送到有反馈连接 决定的相关节点中。在对第q 层的某一个神经元,它在t 时刻的输出存在其关联 节点中,然后在t + 1 时刻再输入到有关的神经元。关联节点与其所要输入的神经 元之间的互联权称为关联权。图3 - 1 为一个简单的自反馈例子。 图3 - 1 :神经元自反馈示意 1 9 9 0 年,e l m a n 提出了一种部分神经元反馈连接的回归式神经网络1 7 l a 如 图3 _ 2 所示。 输入 输出 。输入单元。计算节点 关联节点 图3 - 2 :e l m a n 回归神经网络结构 山东大学硕士学位论文 图3 2 显示,e l m a n 回归神经网络有三层节点组成,除输入和输出神经单元 外,还有一个隐含神经单元。隐含层神经元不仅接收来自输入层的输出信号,还 接收隐含层神经元自身反馈的一步延时输出信号( 关联节点) 。 设n i l 、n 1 分别为隐含层节点数和输入层节点数,l j ( k ) 是e l m a n 回归神经 网络在时刻k 的第个输入,x ,( 尼) 是第,个隐含层节点的输出,y ( t ) 是e l m a n 回 归神经网络的输出向量,则e l m a n 回归神经网络可由下列数学公式描述: y ( ) = w o j x 舻) j j ( 女) = a ( s ,( ) ) n bm s j ( ) = w r f x ( 女一1 ) + w l o l 。( ) ( 3 1 ) ( 3 2 ) ( 3 3 ) 式中c r ( _ ) 是隐含层节点的非线性激活函数,w i 、w r 、w o 分别为从输入层到隐 含层、隐含层到隐含层、隐含层到输出层的权系数。 从网络结构上看,e l m a n 回归神经网络同b p 网络基本相近,当关联节点数 为0 时,e l m a n 回归神经网络就是b p 网络。因此,当考虑e l m a n 回归神经网络 的权系数调整时,可以借用b p 算法i “。 3 3e l m a n 回归神经网络的学习算法与m a t l a b 实现 一学习( 训练) 算法 e l m a n 回归神经网络的结构如图3 - 2 所示。 设输入模式向量a 。= ( 口,d :,口。) ; 目标输出向量圪= ( y ,y :,y 。) ; 中间层单元输a 向t s i = ( j ,s :,j ,) , 输出向量风= ( 6 l ,6 :,) ; 山东大学硕士学位论文 输出层单元输入向量= ( “1 2 ,。) : 输出层单元输出向量q = ( c ,c :,白) ; 输入层到隐含层连接权 ) ,i = l ,2 ,n ;j = l ,2 ,p 隐含层到输出层连接权 ,= l ,2 ,p ;t = 1 ,2 ,q ; 隐含层各单元输出阈值为 ,= l ,2 ,p ; 输出层各单元输出阈值为 y ,f = 1 , 2 ,口。k = 1 , 2 ,m 。 选取训练模式对a 。,k ; 用输入模式 ,连接权 计算隐含层各单元的输入s ,然后用 s , 通过s 函数计算隐含层各单元的输出妣 s ,:n a j 一巳,j = l 扣,p ( 3 - 4 ) b ,= f ( s ,) ,j = 1 , 2 ,p ( 3 5 ) 用隐含层的输出 、连接权 ) 计算输出层各单元的输入 ,然后用 三, 通过s 函数计算输出层各单元的响应 c , 三f = 0 一y t , t = l ,2 ,q c = ,( 厶) ,t = 1 , 2 ,q ( 3 6 ) ( 3 - 7 ) 用目标输出模式k 、网络实际输出 c 计算输出层的各单元的一般化误差 d r k ) d i :。一c ,) c ,( 1 - c , k ) ,扛l 2 一,口( 3 - 8 ) 用连接权 、输出层的一般化误差似) 、隐含层的输出鳓 计算隐含层各 单元的一般化误差坞) 山束大学硕士学位论文 _ - 自_ j 日e 目目_ - - _ _ i _ - _ l 皇_ _ _ s 鼍! ! s ! ! ! 自j 目e _ _ _ - - _ _ _ _ i _ _ _ _ _ _ _ _ _ _ - - - _ - _ - - - _ _ 目 p ,= 匹d ,】b j ( 1 - b a j = 1 “2 一,p t l 】 ( 3 9 ) 用输出层各单元的一般化误差 d t k ) 、隐含层各单元的输出舻,) 修正连接权 ( + 1 ) = ( 忉+ 口d ,b ,j = l 川2 一,p ;t = l “2 - ,g ;o 口 l ( 3 1 0 ) 用隐含层各单元的一般化误差 e l 、输入层各单元的输入以修正连接权 ( _ v + 1 ) = ( _ v ) + p 口,f - l ,2 ,月;,= 1 ,2 ,p ;0 d 1 ( 3 - 1 1 ) 如果第个训练模式网络目标输出与实际输出的偏差为一,其均方误差值为 e 。,网络的全局误差为e ,则 矿= ( y ,一c ,) ,扣l “2 g e 。:妻( 只- c f ) :2 :至( 4 ) 2 2 ,t i,;l ( 3 1 2 ) ( 3 1 3 ) ( 3 1 4 ) 对所有训练模式训练以后,计算e l m a n 回归神经网络的全局误差函数e ,使 其小于预定值,便达到了对神经网络的训练要求。 二m a t l a b 实现 m a t l a b 中的e l m a n 神经网络是一个三层网络:输入层、隐含层( 回归层) 和输出层( 图3 - 3 ) 。在隐含层有一个反馈连接。这种反馈连接使e l m a n 神经网络 可以用来检测和生成时变模型。 2 ,- ) t c t o 。m = t e 。 = e 山东大学硕士学位论文 i n p u l r e c u r r e n tl a n s i gl a y e r _ ,玷 = t a 啦k ( t w j + p + l w + 墙岵一】十扣 o u 幻u ti r e l i nl a y e r f f “。p u t e l n f l w j | a i f 十) 十b :, 图3 - 3 :m a t l a be l m a n 神经网络结构图 e l m a n 神经网络的隐含层( 回归层) 神经元采用t a n s i g 传输函数,它的输出 层神经元采用p u r e l i n 传输函数。具有这种结构的e l m a n 神经网络,可以以任意 精度来逼进任一函数,唯一的要求是神经网络要有足够多的隐含神经元,而且其 数目随着要完成函数的复杂度增大而增加。 e l m a n 神经网络不同于传统的神经网络,它的反馈连接的存在,使得可以存 贮前一时间的信息。即使两个e l m a n 神经网络具有相同的权值和偏移,在同一时 刻给与同样的输入,它们的输出也随不同的反馈状态而不同。 m a t l a b 语言中e l m a n 回归神经网络的生成由函数n e w e l m 完成: n e t = n e w e l m ( p r , s 1s 2 s n q , t f lt f 2 t f n q ,b t e b l f p f ) 其中 p r 为r 个输入的r x 2 最小值和最大值矩阵, s i 为n l 层中第i 层的大小, t f i 为第1 层的传输函数, b t f 为后向网络传输函数, b l f 为后向权值学习函数, p f 为性能函数。 要生成一个输入参数在0 到1 之间,有5 个隐含层神经元和一个输出神经元 的e l m a n 回归神经网络,可如下实现: 山东大学硕士学位论文 n e t 2 n e w e l m ( o1 】,1 1 0l 】, t a n s i g ,l o g s i g ) ; e l m a n 神经网络的训练由函数t r a i n 完成 f n e t , t r , y e l = t r a i n ( n e t ,p t ) 其中 n e t 为e l m a n 神经网络, p 为神经网络的输入, t 为网络目标向量, n e t 为更新的e l m a n 神经网络, t r 为训练记录, y 为网络输出, e 为网络误差。 若p = 【1l011l00 l ,t f l l1l l0 00 0 】,要求网络训练的均方误差为0 1 ,对 e l m a n 回归神经网络进行训练: n e t = t r a i n ( n e t , p , t ) ; t r a i n g d x ,e p o c h0 1 1 0 0 ,m s e0 2 9 9 0 9 9 0 ,g r a d i e n to 3 4 2 0 5 6 l e - 0 0 6 t r a i n g d x ,e p o c h2 5 1 0 0 ,m s eo 2 5 7 3 4 9 0 ,g r a d i e n t0 3 1 7 5 2 8 l e - 0 0 6 t r a i n g d x ,e p o c h5 0 1 0 0 ,m s e0 1 7 8 3 1 5 0 ,g r a d i e n t0 1 9 8 6 3 2 l e - 0 0 6 t r a i n g d xe p o c h7 5 1 0 0 ,m s e0 1 2 5 7 1 9 0 ,g r a d i e n to 0 9 1 5 5 9 4 l e , - 0 0 6 t r a i n g d x , e p o c h 1 0 0 1 0 0 ,m s e0 0 6 1 7 2 6 7 0 ,g r a d i e n t0 0 6 2 8 5 l e - 0 0 6 对网络进行训练1 0 0 次以后,网络的均方误差即小于0 1 ,表明训练是成功的。 对训练后的网络进行仿真: y = s l m ( n e t , p s e q ) y = 1 0 8 3 6 3 0 7 7 4 10 6 3 7 60 7 6 4 50 2 8 7 00 3 3 6 6 0 1 4 4 00 1 1 2 91 经过仿真可看出输出向量y 与目标向量t 比较接近,神经网络工作正常。 山东大学硕士学位论文 第四章实验与讨论 本文中的实验基于m a t l a b 6 1 语言平台实现,程序均在m a t l a b 中调试 通过。 4 1 语音样本库的建立 语音信号的采录由w i n d o w sx p 系统中的录音机功能来实现,文件格式采用 标准w i n d o w s 的w a y 音频信号规格,采样速率为4 1 1 0 0 k h z ,采用8 位编码, 单声道。 实验中所用的语音样本取自1 0 个人,每人重复孤立词“开始”、“停”2 0 次, 其中前1 0 次作为训练语音样本,后l o 次作为识别语音样本。这样在实验语音库 中每个孤立词各有训练语音样本2 0 0 个、识别语音样本2 0 0 个。 图籼1 给出了两个语音样本的波形及语图,图中上为语音波形,下为语图。 “开始”“停” 图4 - 1 :样本语音波形和语图 4 2 语音信号端点的检测 一短时平均幅度算法 24 山东大学硕士学位论文 图4 2 为求取的样本语音信号短时平均幅度。由图可以看出,在a 点信号短 时平均幅度出现较大的提高,b 点的短时平均幅度趋于消失,依此可用于检测语 音信号的两个端点。利用短时平均幅度来检测信号端点比较粗糙,精度不高,比 如说背景噪音过大或者说以清音开始的情况,从信号短时平均幅度上将看不出明 显的变化,区分信号的端点是比较困难的。 二短时能量算法 图4 - 2 :语音波形与幅度谱 由于实际语音信号中不同程度的含有背景嗓声,为了使运算结果更精确,先 设定一个幅度门限值( ) 对语音信号进行过滤,当语音信号的绝对幅度大于这 个门限值时计算短时能量,反之按静音处理。图4 - 3 至图4 7 为不同门限值时的三 种短时能量示意图,图中自上至下分别为语音信号的波形、绝对能量、平方能量 和对数能量。 25 山东大学硕士学位论文 图4 - 3 = 0 时短时能量 图4 - 4 九= 0 0 2 时短时能量 图4 - 5 = 0 0 3 时短时能量 26 山东大学硕士学位论文 图4 - 6 = 0 0 4 时短时能量 图4 - 7 = 0 0 5 时短时能量 从图4 - 3 至图4 7 可以看出,当门限值 为0 0 4 附近时,短时能量可更准确 地描述语音信号的特征。在三种短时能量中,相对来说对数能量的计算结果更精 确,描述语音信号的特点更清楚。 在图4 - 6 中,在a 点短时能量值有一个突变,表明语音信号的开始,b 点短时 能量值消失,语音信号结束。由此说明利用短时能量可以简单的实现语音信号的 端点检测,但这种算法同样也有其缺陷。同信号的短时平均幅度算法一样,由于 不同程度噪声的存在,当语音信号为清音时,信号的幅度及能量都比较小,将分 山东大学硕士学位论文 不清是信号还是噪声,可能会出现检测不准确的现象。在这种情况下,我们可以 结合利用语音信号的短时平均过零率来提高对信号的端点的检测精度。 三短时平均过零率算法 在计算之前,为了避免静音段的背景噪声干扰产生过高的过零率,同样设定 一个幅度门限值( ) ,当信号的绝对幅度大于这个门限值时计算短时平均过零率, 反之按静音处理。 图4 - 8 至图4 1 0 为不同门限值时的短时平均过零率: 图4 - 8x = 0 时短时平均过零率 图4 - 9 = 0 0 3 时短时平均过零率 28 山东大学硕士学位论文 图4 1 0 九= 0 0 4 时短时平均过零率 由图4 8 至图4 - 1 0 可以看出,当 为o 0 4 ,语音信号的短时平均过零率较理 想的反映了语音信号的开始和结束。而当 0 0 4 时,将有部分实际语音信号被过滤掉。 在图4 1 0 中的a 、b 两点,短时平均过零率出现跳变,分别表示语音信号的 开始和结束。使用短时平均过零率来检测语音信号的端点,也存在缺点。当语音 信号为浊音时,利用短时平均过零率亦可能会出现检测信号端点不准确的现象。 在本文中,设定门限值九= 0 0 4 ,来判断静音段和语音段,对语音信号进行过 滤:同时使用语音信号的短时能量和短时平均过零率来检测语音信号的起始两个 端点。由于短时能量对浊音语音敏感,而短时平均过零率对清音语音敏感,因此 这种方法利用二者的优势互补其缺点,进一步提高语音信号端点的检测精度。 4 3 语音信号的特征提取及归一化 语音信号特征提取完成从语音信号中提取出对语音识别有用的信息。它对语 音信号进行分析处

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论